JP7421594B2 - 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 - Google Patents
高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 Download PDFInfo
- Publication number
- JP7421594B2 JP7421594B2 JP2022077477A JP2022077477A JP7421594B2 JP 7421594 B2 JP7421594 B2 JP 7421594B2 JP 2022077477 A JP2022077477 A JP 2022077477A JP 2022077477 A JP2022077477 A JP 2022077477A JP 7421594 B2 JP7421594 B2 JP 7421594B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- earcon
- metadata
- stream
- information message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 65
- 230000005236 sound signal Effects 0.000 claims description 69
- 230000006978 adaptation Effects 0.000 claims description 65
- 230000008859 change Effects 0.000 claims description 15
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 230000003190 augmentative effect Effects 0.000 description 12
- 230000015654 memory Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000009877 rendering Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000002716 delivery method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234309—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234318—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Description
多くのアプリケーションでは、可聴メッセージの配信により、メディア消費中のユーザーエクスペリエンスを向上させることができる。このようなメッセージの最も関連性の高いアプリケーションの1つは、仮想現実(VR)コンテンツによって提供される。VR環境、または同様に拡張現実(AR)または複合現実(MR)または360度のビデオ環境では、ユーザーは通常、例えばヘッドマウントディスプレイ(HMD)を使用して360度のコンテンツ全体を視覚化し、それをヘッドフォンで(または、スピーカーの位置に応じた正しいレンダリングを含むスピーカーで同様に)聞くことができる。ユーザーは通常、VR/AR空間で移動するか、少なくとも視聴方向を変更することができるが、これはビデオのいわゆる「ビューポート」である。HMDの代わりに従来の再生システム(ワイドディスプレイ画面)を使用する360度ビデオ環境では、リモートコントロールデバイスを使用して、シーン内のユーザーの動きをエミュレートでき、同様の原理が適用される。360度コンテンツとは、ユーザーが(例えば、ユーザーの頭の向きによって、またはリモートコントロールデバイスを使用して)選択することができる、同時に複数の視野角で構成される任意のタイプのコンテンツを指すことができることに留意されたい。
以下の用語がこの技術分野で使用されている。
現在の解決策は次の通りである。
例によれば、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステムが提供され、システムは、
オーディオおよびビデオシーンに関連付けられた少なくとも1つのビデオストリームを受信し、
再生されるオーディオおよびビデオシーンに関連付けられた少なくとも1つの第1のオーディオストリームを受信するように構成され、
システムは、
ユーザーへのオーディオおよびビデオシーンの表現のために、少なくとも1つのビデオストリームからの少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
ユーザーへのオーディオおよびビデオシーンの表現のために、少なくとも1つの第1のオーディオストリームから少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダと、
関心領域ROIプロセッサと、を含み、関心領域ROIプロセッサは、
少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはビューポートメタデータおよび/またはオーディオ情報メッセージメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、オーディオ情報メッセージは、少なくとも1つのビデオ信号および少なくとも1つのオーディオ信号から独立しており、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生する、ように構成される。
少なくとも1つのビデオストリームを受信し、
少なくとも1つの第1のオーディオストリームを受信するように構成され、
システムは、
VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するために、少なくとも1つのビデオストリームから少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
ユーザーへのオーディオシーンの表現のために、少なくとも1つの第1のオーディオストリームから少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダと、
関心領域ROIプロセッサと、を含み、関心領域ROIプロセッサは、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはビューポートメタデータおよび/またはオーディオ情報メッセージメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、オーディオ情報メッセージはイアコンであり、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生する、ように構成される。
オーディオ情報メッセージメタデータを受信および/または処理および/または操作して、情報メッセージを再生することを決定したときに、オーディオ情報メッセージメタデータに従ってオーディオ情報メッセージを再生するように構成されたメタデータプロセッサをさらに含んでもよい。
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータおよび/または他のユーザー関連データを受信し、
少なくとも1つのビデオストリームから少なくとも1つのビデオ信号に関連付けられたビューポートメタデータを受信し、ビューポートメタデータは少なくとも1つのROIを定義し、
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータおよびビューポートメタデータのうちの少なくとも1つに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定する、ように構成されてもよい。
オーディオ情報メッセージを記述するオーディオ情報メッセージメタデータおよび/または少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述するオーディオメタデータおよび/またはビューポートメタデータを受信および/または処理および/または操作して、オーディオ情報メッセージメタデータおよび/または少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述するオーディオメタデータおよび/またはビューポートメタデータに従って、オーディオ情報メッセージを再生するように構成されたメタデータプロセッサをさらに含んでもよい。
少なくとも1つのROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータの外側にある場合には、少なくとも1つのオーディオ信号の再生に加えて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生し、
少なくとも1つのROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ内にある場合には、少なくとも1つのROIに関連付けられたオーディオ情報メッセージの再生を不許可および/または非アクティブにする、ように構成されてもよい。
少なくとも1つのオーディオ情報メッセージがエンコードされている少なくとも1つの追加のオーディオストリームを受信するようにさらに構成されてもよく、
システムは、
メタデータプロセッサおよび/またはROIプロセッサおよび/または別のプロセッサの制御下で、少なくとも1つの追加のオーディオストリームのパケットを、1つのストリーム内の少なくとも1つの第1のオーディオストリームのパケットとマージし、ROIプロセッサによって提供された、少なくとも1つのオーディオ情報メッセージを再生するという決定に基づいて、オーディオシーンに加えて、オーディオ情報メッセージを再生する、少なくとも1つのマクサーまたはマルチプレクサをさらに含む。
少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータを受信し、
少なくとも1つのオーディオストリームから少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータを受信し、
情報メッセージを再生することが決定されると、少なくとも1つのオーディオ信号の再生に加えて、オーディオ情報メッセージメタデータを変更してオーディオ情報メッセージの再生を可能にする、ように構成されてもよい。
少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータを受信し、
少なくとも1つのオーディオストリームから少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータを受信し、
オーディオ情報メッセージを再生することが決定されると、少なくとも1つのオーディオ信号の再生に加えて、オーディオ情報メッセージメタデータを変更して少なくとも1つのROIに関連付けられたオーディオ情報メッセージの再生を可能にし、
少なくとも1つのオーディオ信号を記述するオーディオメタデータを変更して、少なくとも1つの第1のオーディオストリームと少なくとも1つの追加のオーディオストリームとのマージを可能にする、ように構成されてもよい。
少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータを受信し、
少なくとも1つのオーディオストリームから少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータを受信し、
オーディオ情報メッセージを再生することが決定されると、オーディオ情報メッセージメタデータを合成オーディオジェネレータに提供して、合成オーディオストリームを作成し、オーディオ情報メッセージメタデータを合成オーディオストリームに関連付けて、合成オーディオストリームおよびオーディオ情報メッセージメタデータをマルチプレクサまたはマクサーに提供して、少なくとも1つのオーディオストリームと合成オーディオストリームとのマージを可能にする、ように構成されてもよい。
オーディオ情報メッセージがエンコードされている少なくとも1つの追加のオーディオストリームからオーディオ情報メッセージメタデータを取得するように構成されてもよい。
少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するという決定に基づいて、オーディオ情報メッセージメタデータを生成するように構成されたオーディオ情報メッセージメタデータジェネレータを含んでもよい。
将来の使用のために、オーディオ情報メッセージメタデータおよび/またはオーディオ情報メッセージストリームを格納するように構成されてもよい。
少なくとも1つのROIに関連付けられたオーディオ情報メッセージメタデータに基づいて、オーディオ情報メッセージを合成するように構成された合成オーディオジェネレータを含んでもよい。
識別タグ、
オーディオ情報メッセージメタデータの再生を一意的に識別する整数、
メッセージのタイプ、
ステータス
シーンからの依存性/非依存性の表示、
位置データ、
ゲインデータ、
関連付けられたテキストラベルの存在の表示、
利用可能な言語の数、
オーディオ情報メッセージの言語、
データテキストの長さ、
関連付けられたテキストラベルのデータテキスト、および/または
オーディオ情報メッセージの記述のうちの少なくとも1つを含む。
ストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、
メタデータをストリームに埋め込み、
ストリームを追加のメディアデコーダに供給し、
少なくとも1つの第1のオーディオストリームからオーディオメタデータを抽出し、
追加のストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、
オーディオ情報メッセージの存在を考慮に入れてマージすることができるように、少なくとも1つの第1のオーディオストリームのオーディオメタデータを変更し、
ROIプロセッサから受信した情報に基づいてそれらをマルチプレクスまたは多重化するために、マルチプレクサまたはマクサーにストリームを供給する、操作のうちの少なくとも1つを実行するように構成されてもよい。
少なくとも1つのROIに関連付けられた少なくとも1つのオーディオ情報メッセージが含まれる少なくとも1つの追加のオーディオストリームを受信し、
ROIプロセッサが、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生することを決定した場合には、少なくとも1つの追加のオーディオストリームをデコードする、ように構成されてもよい。
少なくとも1つの第1のオーディオストリームからの少なくとも1つのオーディオ信号をデコードするための少なくとも1つの第1のオーディオデコーダと、
追加のオーディオストリームからの少なくとも1つのオーディオ情報メッセージをデコードするための少なくとも1つの追加のオーディオデコーダと、
少なくとも1つの追加のオーディオストリームからのオーディオ情報メッセージを、少なくとも1つの第1のオーディオストリームからの少なくとも1つのオーディオ信号と混合および/または重畳するための少なくとも1つのミキサーおよび/またはレンダラーと、を含んでもよい。
複数のアダプテーションセットの利用可能性に関するデータを受信し、利用可能なアダプテーションセットは、少なくとも1つの第1のオーディオストリームの少なくとも1つのオーディオシーンのアダプテーションセットと、少なくとも1つのオーディオ情報メッセージを含む少なくとも1つの追加のオーディオストリームの少なくとも1つのオーディオメッセージのアダプテーションセットと、を含み、システムは、
ROIプロセッサの決定に基づいて、アダプテーションセットのうちのどれを検索するかを特定する選択データを作成し、利用可能なアダプテーションセットは、少なくとも1つのオーディオシーンのアダプテーションセットおよび/または少なくとも1つのオーディオメッセージのアダプテーションセットを含み、
選択データによって特定されたアダプテーションセットのデータを要求および/または検索し、
各アダプテーションセットは、異なるビットレートの異なるエンコーディングをグループ化する、ように構成されてもよい。
ユーザーに対して再生される少なくとも1つのビデオおよびオーディオシーンからの少なくとも1つのビデオ信号をデコードするステップと、
再生されるビデオおよびオーディオシーンからの少なくとも1つのオーディオ信号をデコードするステップと、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、オーディオ情報メッセージは、少なくとも1つのビデオ信号および少なくとも1つのオーディオ信号から独立している、ステップと、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生するステップと、を含む。
VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するために、少なくとも1つのビデオストリームからの少なくとも1つのビデオ信号をデコードするステップと、
ユーザーへのオーディオシーンの表現のために、少なくとも1つの第1のオーディオストリームからの少なくとも1つのオーディオ信号をデコードするステップと、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、オーディオ情報メッセージはイアコンである、ステップと、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生するステップと、
を含む。
情報メッセージを再生することが決定されると、オーディオ情報メッセージがオーディオシーンの一部であるように、メタデータに従ってオーディオ情報メッセージを再生するために、メタデータを受信および/または処理および/または操作するステップを含んでもよい。
オーディオおよびビデオシーンを再生するステップと、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータに基づいて、オーディオ情報メッセージをさらに再生するように決定するステップと、を含んでもよい。
オーディオおよびビデオシーンを再生するステップと、
少なくとも1つのROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータの外側にある場合には、少なくとも1つのオーディオ信号の再生に加えて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生し、および/または
少なくとも1つのROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ内にある場合には、少なくとも1つのROIに関連付けられたオーディオ情報メッセージの再生を不許可および/または非アクティブにするステップと、を含んでもよい。
少なくとも1つのビデオストリームを受信し、
少なくとも1つの第1のオーディオストリームを受信するように構成され、
システムは、
VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するために、少なくとも1つのビデオストリームから少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
ユーザーへのオーディオシーンの表現のために、少なくとも1つの第1のオーディオストリームから少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダと、
関心領域ROIプロセッサと、を含み、関心領域ROIプロセッサは、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生する、ように構成される。
少なくとも1つのビデオストリームを受信し、
少なくとも1つの第1のオーディオストリームを受信するように構成され、
システムは、
VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するために、少なくとも1つのビデオストリームから少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
ユーザーへのオーディオシーンの表現のために、少なくとも1つの第1のオーディオストリームから少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダと、
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または他の基準に基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するように構成された関心領域ROIプロセッサと、
メタデータを受信および/または処理および/または操作して、情報メッセージを再生することを決定したときに、オーディオ情報メッセージがオーディオシーンの一部であるように、メタデータに従ってオーディオ情報メッセージを再生するように構成されたメタデータプロセッサと、を含む。
6.1 一般的な例
図1は、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム100の一例を示す。システム100は、例えば、コンテンツ消費デバイス(例えば、ヘッドマウントディスプレイなど)に関連付けられてもよく、これは、ユーザーの頭に密接に関連付けられた球形または半球形ディスプレイで視覚データを再生する。
・メタデータ内のテキストラベルの使用(何かを表示したりイアコンを生成したりするための基礎として)
・デバイスに基づくイアコンの位置の調整(HMDの場合には正確な位置が必要になる、スピーカーの場合には別の位置を使用する方が良いかもしれない-1つのスピーカーに直接)。
・イアコンメタデータは、イアコンがアクティブであることを通知する方法で作成することができる。
・より良いROIプロセッサを備えた一部の新しいデバイスは、不要な場合にそれを非アクティブにすることを決定することができる
・アダプテーションセットのさらなる情報と追加の図。
---オーディオ信号1:ピアノの音
---オーディオ信号2:歌手の声
---オーディオ信号3:聴衆の一部である人1の声
---オーディオ信号4:聴衆の一部である人2の声
---オーディオ信号5:壁の時計により生成される音
オーディオ情報メッセージは、例えば、「ピアノ奏者に目を向ける」(ピアノがROIである)のような録音された音声であってもよい。ユーザーが既にピアノ奏者を見ている場合には、オーディオメッセージは再生されない。
-オーディオ情報メッセージは、再生されるシーンに関連付けられた同じオーディオストリームに配置することができる。
図2は、ここではサーバー側202、メディア配信側203、クライアント側204、および/またはメディア消費デバイス側206に細分されるものとして表されるシステム200(少なくとも一部の実施システム100を含むことができる)を示す。側202、203、204、および206の各々は、システム自体であり、他のシステムと組み合わせて別のシステムを取得することができる。ここでは、任意の種類のオーディオ情報メッセージに一般化することが可能であっても、オーディオ情報メッセージをイアコンと呼ぶ。
・メインオーディオコンテンツと新しいメタデータと共に圧縮され、1つのメディアデコーダに供給される。
上述のように、オーディオ情報メッセージ(イアコン)メタデータ141の例をここに提示する。
aligned(8)class EarconSample()extends SphereRegionSample{
for(i=0;i<num_regions;i++){
unsigned int(7)reserved;
unsigned int(1)hasEarcon;
if(hasEarcon==1){
unsigned int(8)numRegionEarcons;
for(n=0;n<numRegionEarcons;n++){
unsigned int(8)Earcon_id;
unsigned int(32)Earcon_track_id;
}
}
}
}
または代わりに:
aligned(8)class EarconSample()extends SphereRegionSample{
for(i=0;i<num_regions;i++){
unsigned int(32)Earcon_track_id;
unsigned int(8)Earcon_id;
}
}
意味論:
hasEarconは、1つの領域でイアコンデータが利用可能かどうかを指定する。
・EarconInfo()構造体を運ぶための、一般的なMHAS METADATA MHASパケットの新しい識別フィールド。
ストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、および/またはオーディオ情報メッセージのテキストラベルを書き込み/変更し、
メタデータをストリームに埋め込み、
ストリームを追加のメディアデコーダに供給し、
少なくとも1つの第1のオーディオストリーム(116)からオーディオメタデータを抽出し、
追加のストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、および/またはオーディオ情報メッセージのテキストラベルを書き込み/変更し、
オーディオ情報メッセージの存在を考慮に入れてマージできるように、少なくとも1つの第1のオーディオストリーム(116)のオーディオメタデータを変更し、
ROIプロセッサから受信した情報に基づいてそれらをマルチプレクスまたは多重化するために、マルチプレクサまたはマクサーにストリームを供給する。
図3は、クライアント側204において、例えば、システム100または200を具現化することができるシステム302(クライアントシステム)を含むシステム300を示す。
・イアコンを有効にし(その再生を許可するため)
・そして、ROIプロセッサ120によって要求された場合には、それに応じて、イアコンメタデータ141に含まれる空間位置およびゲイン情報を変更することができる。
図4は、クライアント側204において、例えば、システム100または200を具現化することができるシステム402(クライアントシステム)を含むシステム400を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。
・イアコンを有効にし
・また、ROIプロセッサから要求された場合は、イアコンメタデータに含まれる空間位置および/またはゲイン情報および/またはテキストラベルを適宜変更することができる。
図5は、クライアント側204において、例えば、システム100または200を具現化することができるシステム502(クライアントシステム)を含むシステム500を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。
・音声データは、1つまたは複数の音声ストリームで配信される(例えば、1つのメインストリームと補助ストリーム)。
・イアコンを有効にする
・そして、ROIプロセッサ120によって要求された場合には、それに応じてイアコンメタデータ141に含まれる空間位置をおよびゲイン情報を変更することができる。
図6は、クライアント側204において、例えば、システム100または200を具現化することができるシステム602(クライアントシステム)を含むシステム600を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。
・オーディオデータは、1つまたは複数のオーディオストリームで配信される(例えば、1つのメインストリーム116と補助ストリーム316)。
・クライアント側202からイアコンメタデータは配信されない。
・イアコンを有効にし
・ROIプロセッサ120により要求された場合には、それに応じてイアコンメタデータに含まれる空間位置およびゲイン情報を変更することができる。
・さらに、ストリーミング環境では、ROIプロセッサ120は同じ情報に基づいて、事前にイアコンストリームを要求することを決定することができる(例えば、ROIが有効になる数秒前にユーザーが間違った方向を覗き込んだ場合)。
ユーザーがROIを表示しない場合にのみイアコンを再生することができる機能を実施することができる。
・オーディオデータは1つまたは複数のオーディオストリーム116、316(例えば、1つのメインストリームと補助ストリーム)で配信されるが、イアコンは、同じ1つまたは複数のオーディオストリーム116、316、あるいは1つまたは複数の追加のストリーム140(メインオーディオストリームに依存またはそれから独立)のいずれかで配信される。
図5aは、クライアント側204において、例えば、システム100または200または300または400または500を具現化することができるシステム552(クライアントシステム)を含むシステム550を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。
・クライアント552は、サーバーから、すべてのアダプテーションセットの利用可能性に関するデータを受信するように構成されている。
・少なくとも1つのオーディオ情報メッセージを含む少なくとも1つの追加のオーディオストリーム用の少なくとも1つのオーディオメッセージアダプテーションセット
・他の例示的な実施態様と同様に、ROIプロセッサ120は、(例えば、HMDに基づいて)コンテンツ消費に使用されるメディア消費デバイス側206から現在のビューポートに関する情報122(ユーザーの向きの情報)を受信することができる。ROIプロセッサ120は、メタデータで通知されたROIとROIを受信することもできる(ビデオビューポートはOMAFのように通知される)。
・イアコンを有効にし(その再生を許可するため)
・そして、ROIプロセッサ120によって要求された場合には、それに応じて、イアコンメタデータ141に含まれる空間位置およびゲイン情報を変更することができる。
上記のすべての例は、方法ステップによって実施することができる。ここで、方法700(上記の例のいずれかによって実行され得る)は、完全に説明される。本方法は以下を含む。
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)を受信する。
図8は、システム(またはその構成要素)のうちの1つを実装するか、または方法700を実行することができるシステム800を示す。システム800は、プロセッサ802と、プロセッサ802によって実行されたときに、プロセッサに少なくとも上記のストリーム処理操作および/または上記のメタデータ処理操作を実行させ得る命令を格納する非一時的メモリユニット806と、を含むことができる。システム800は、外部デバイスとの接続のための入力/出力ユニット804を含むことができる。
〔1〕
仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステムであって、前記システムは、
再生されるオーディオおよびビデオシーンに関連付けられた少なくとも1つのビデオストリーム(106)を受信し、
再生される前記オーディオおよびビデオシーンに関連付けられた少なくとも1つの第1のオーディオストリーム(116、316)を受信するように構成され、
前記システムは、
ユーザーへの前記オーディオおよびビデオシーンの表現のために、前記少なくとも1つのビデオストリーム(106)からの少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダ(102)と、
前記ユーザーへの前記オーディオおよびビデオシーンの表現のために、前記少なくとも1つの第1のオーディオストリーム(116、316)から少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダ(112)と、
関心領域ROIプロセッサ(120)と、を含み、前記関心領域ROIプロセッサ(120)は、
少なくとも前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)および/またはビューポートメタデータ(131)および/またはオーディオ情報メッセージメタデータ(141)に基づいて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、前記オーディオ情報メッセージは、前記少なくとも1つのビデオ信号および前記少なくとも1つのオーディオ信号から独立しており、
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージを再生する、
ように構成される、システムである。
また、さらなる例は、
〔2〕
仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステムであって、前記システムは、
少なくとも1つのビデオストリーム(106)を受信し、
少なくとも1つの第1のオーディオストリーム(116、316)を受信するように構成され、
前記システムは、
VR、AR、MR、または360度ビデオ環境シーン(118a)をユーザーに表現するために、前記少なくとも1つのビデオストリーム(106)から少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダ(102)と、
前記ユーザーへのオーディオシーン(118b)の表現のために、前記少なくとも1つの第1のオーディオストリーム(116、316)から少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダ(112)と、
関心領域ROIプロセッサ(120)と、を含み、前記関心領域ROIプロセッサ(120)は、
前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)および/またはビューポートメタデータ(131)および/またはオーディオ情報メッセージメタデータ(141)に基づいて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、前記オーディオ情報メッセージはイアコンであり、
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージを再生する、
ように構成される、システムである。
また、さらなる例は、
〔3〕
オーディオ情報メッセージメタデータ(141)を受信および/または処理および/または操作して、前記情報メッセージを再生することを決定したときに、前記オーディオ情報メッセージメタデータ(141)に従って前記オーディオ情報メッセージを再生するように構成されたメタデータプロセッサ(132)をさらに含む、前記〔1〕または〔2〕に記載のシステムである。
また、さらなる例は、
〔4〕
前記ROIプロセッサ(120)は、
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータおよび/または他のユーザー関連データ(122)を受信し、
前記少なくとも1つのビデオストリーム(106)から少なくとも1つのビデオ信号に関連付けられたビューポートメタデータ(131)を受信し、前記ビューポートメタデータ(131)は少なくとも1つのROIを定義し、
前記ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)およびビューポートメタデータのうちの少なくとも1つに基づいて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定する、
ように構成される、前記〔1〕から〔3〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔5〕
前記オーディオ情報メッセージを記述するオーディオ情報メッセージメタデータ(141)および/または少なくとも1つのオーディオストリーム(116)にエンコードされた少なくとも1つのオーディオ信号を記述するオーディオメタデータ(236)および/またはビューポートメタデータ(131)を受信および/または処理および/または操作して、前記オーディオ情報メッセージメタデータ(141)および/または少なくとも1つのオーディオストリーム(116)にエンコードされた前記少なくとも1つのオーディオ信号を記述するオーディオメタデータ(236)および/または前記ビューポートメタデータ(131)に従って、前記オーディオ情報メッセージを再生するように構成されたメタデータプロセッサ(132)をさらに含む、前記〔1〕から〔4〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔6〕
前記ROIプロセッサ(120)は、
前記少なくとも1つのROIが前記ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)の外側にある場合には、前記少なくとも1つのオーディオ信号の再生に加えて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生し、
前記少なくとも1つのROIが前記ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)内にある場合には、前記少なくとも1つのROIに関連付けられた前記オーディオ情報メッセージの再生を不許可および/または非アクティブにする、
ように構成される、前記〔1〕から〔5〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔7〕
前記少なくとも1つのオーディオ情報メッセージがエンコードされている前記少なくとも1つの追加のオーディオストリーム(140)を受信するようにさらに構成され、
前記システムは、
前記メタデータプロセッサ(132)および/または前記ROIプロセッサ(120)および/または別のプロセッサの制御下で、前記少なくとも1つの追加のオーディオストリーム(140)のパケットを、1つのストリーム(414)内の前記少なくとも1つの第1のオーディオストリーム(116、316)のパケットとマージし、前記ROIプロセッサ(120)によって提供された、前記少なくとも1つのオーディオ情報メッセージを再生するという前記決定に基づいて、前記オーディオシーンに加えて、前記オーディオ情報メッセージを再生する、少なくとも1つのマクサーまたはマルチプレクサ(412)をさらに含む、前記〔1〕から〔6〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔8〕
前記少なくとも1つのオーディオストリーム(116)にエンコードされた前記少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータ(236)を受信し、
少なくとも1つのオーディオストリーム(116)から少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータ(141)を受信し、
前記情報メッセージを再生することが決定されると、前記少なくとも1つのオーディオ信号の再生に加えて、前記オーディオ情報メッセージメタデータ(141)を変更して前記オーディオ情報メッセージの再生を可能にする、
ようにさらに構成される、前記〔1〕から〔7〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔9〕
前記少なくとも1つのオーディオストリーム(116)にエンコードされた前記少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータ(141)を受信し、
前記少なくとも1つのオーディオストリーム(116)から少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータ(141)を受信し、
前記オーディオ情報メッセージを再生することが決定されると、前記少なくとも1つのオーディオ信号の再生に加えて、前記オーディオ情報メッセージメタデータ(141)を変更して前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージの再生を可能にし、
前記少なくとも1つのオーディオ信号を記述する前記オーディオメタデータ(236)を変更して、前記少なくとも1つの第1のオーディオストリーム(116)と前記少なくとも1つの追加のオーディオストリーム(140)とのマージを可能にする、
ようにさらに構成される、前記〔1〕から〔8〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔10〕
前記少なくとも1つのオーディオストリーム(116)にエンコードされた前記少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータ(236)を受信し、
少なくとも1つのオーディオストリーム(116)から少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータ(141)を受信し、
前記オーディオ情報メッセージを再生することが決定されると、前記オーディオ情報メッセージメタデータ(141)を合成オーディオジェネレータ(246)に提供して、合成オーディオストリーム(140)を作成し、前記オーディオ情報メッセージメタデータ(141)を前記合成オーディオストリーム(140)に関連付けて、前記合成オーディオストリーム(140)および前記オーディオ情報メッセージメタデータ(141)をマルチプレクサまたはマクサー(412)に提供して、前記少なくとも1つのオーディオストリーム(116)と前記合成オーディオストリーム(140)とのマージを可能にする、
ようにさらに構成される、前記〔1〕から〔9〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔11〕
前記オーディオ情報メッセージがエンコードされている前記少なくとも1つの追加のオーディオストリーム(140)から前記オーディオ情報メッセージメタデータ(141)を取得するようにさらに構成される、前記〔1〕から〔10〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔12〕
前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するという前記決定に基づいて、オーディオ情報メッセージメタデータ(141)を生成するように構成されたオーディオ情報メッセージメタデータジェネレータ(432)をさらに含む、前記〔1〕から〔11〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔13〕
将来の使用のために、前記オーディオ情報メッセージメタデータ(141)および/または前記オーディオ情報メッセージストリーム(140)を格納するようにさらに構成される、前記〔1〕から〔12〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔14〕
前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージメタデータ(141)に基づいて、オーディオ情報メッセージを合成するように構成された合成オーディオジェネレータ(432)をさらに含む、
前記〔1〕から〔13〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔15〕
前記メタデータプロセッサ(132)は、前記オーディオメタデータおよび/またはオーディオ情報メッセージメタデータに基づいて、前記少なくとも1つのオーディオストリーム(116)への前記オーディオ情報メッセージの追加を得るために、前記オーディオ情報メッセージストリーム(140)のパケットを1つのストリーム(414)における前記少なくとも1つの第1のオーディオストリーム(116)のパケットとマージするために、マクサーまたはマルチプレクサ(412)を制御するように構成される、前記〔1〕から〔14〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔16〕
前記オーディオ情報メッセージメタデータ(141)は、構成フレームおよび/またはデータフレームにエンコードされ、前記データフレームは、
識別タグ、
前記オーディオ情報メッセージメタデータの再生を一意的に識別する整数、
前記メッセージのタイプ、
ステータス
前記シーンからの依存性/非依存性の表示、
位置データ、
ゲインデータ、
関連付けられたテキストラベルの存在の表示、
利用可能な言語の数、
前記オーディオ情報メッセージの言語、
データテキストの長さ、
前記関連付けられたテキストラベルのデータテキスト、および/または
前記オーディオ情報メッセージの記述のうちの少なくとも1つを含む、前記〔1〕から〔15〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔17〕
前記メタデータプロセッサ(132)および/または前記ROIプロセッサ(120)は、
ストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、前記オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、
メタデータをストリームに埋め込み、
前記ストリームを追加のメディアデコーダに供給し、
前記少なくとも1つの第1のオーディオストリーム(116)からオーディオメタデータを抽出し、
追加のストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、前記オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、
前記オーディオ情報メッセージの存在を考慮に入れてマージすることができるように、前記少なくとも1つの第1のオーディオストリーム(116)のオーディオメタデータを変更し、
前記ROIプロセッサから受信した前記情報に基づいてそれらをマルチプレクスまたは多重化するために、前記マルチプレクサまたはマクサーにストリームを供給する、操作のうちの少なくとも1つを実行するように構成される、前記〔1〕から〔16〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔18〕
前記ROIプロセッサ(120)は、前記オーディオ情報メッセージがエンコードされている追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、前記追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータをリモートエンティティに対して要求するように構成される、前記〔1〕から〔17〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔19〕
前記ROIプロセッサ(120)は、追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、合成オーディオジェネレータ(432)に対して前記オーディオ情報メッセージストリームおよび/またはオーディオ情報メッセージメタデータを生成させるように構成される、前記〔1〕から〔18〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔20〕
前記少なくとも1つのROIに関連付けられた少なくとも1つのオーディオ情報メッセージが含まれる前記少なくとも1つの追加のオーディオストリーム(140)を受信し、
前記ROIプロセッサが、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生することを決定した場合には、前記少なくとも1つの追加のオーディオストリーム(140)をデコードする、
ようにさらに構成される、前記〔1〕から〔19〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔21〕
少なくとも1つの第1のオーディオストリーム(116)からの前記少なくとも1つのオーディオ信号をデコードするための少なくとも1つの第1のオーディオデコーダ(112)と、
追加のオーディオストリーム(140)からの前記少なくとも1つのオーディオ情報メッセージをデコードするための少なくとも1つの追加のオーディオデコーダ(112)と、
前記少なくとも1つの追加のオーディオストリーム(140)からの前記オーディオ情報メッセージを、前記少なくとも1つの第1のオーディオストリーム(116)からの前記少なくとも1つのオーディオ信号と混合および/または重畳するための少なくとも1つのミキサーおよび/またはレンダラー(314)と、
をさらに含む、前記〔20〕に記載のシステムである。
また、さらなる例は、
〔22〕
前記オーディオ情報メッセージの前記再生に関連付けられた履歴データおよび/または統計データに関連付けられたメトリックの追跡を保持して、前記メトリックが所定のしきい値を超えた場合に前記オーディオ情報メッセージの再生を無効にするようにさらに構成される、前記〔1〕から〔21〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔23〕
前記ROIプロセッサの決定は、前記ROIの位置との関係におけるユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)の予測に基づく、前記〔1〕から〔22〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔24〕
前記少なくとも1つの第1のオーディオストリーム(116)を受信し、前記情報メッセージを再生することが決定されると、リモートエンティティからのオーディオメッセージ情報ストリームを要求するようにさらに構成される、前記〔1〕から〔23〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔25〕
2つのオーディオ情報メッセージを同時に再生するか、またはより優先度の低いオーディオ情報メッセージに対して優先的に再生されるより優先度の高いオーディオ情報メッセージを選択するかを確立するようにさらに構成される、前記〔1〕から〔24〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔26〕
オーディオストリームの前記オーディオ情報メッセージのアドレスおよび/または位置に基づいて、1つの追加のオーディオストリーム(140)にエンコードされた複数のオーディオ情報メッセージの中から、オーディオ情報メッセージを識別するようにさらに構成される、前記〔1〕から〔25〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔27〕
前記オーディオストリームは、MPEG-H 3Dオーディオストリームフォーマットでフォーマットされる、前記〔1〕から〔26〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔28〕
複数のアダプテーションセット(556、557)の利用可能性に関するデータを受信し、前記利用可能なアダプテーションセットは、前記少なくとも1つの第1のオーディオストリーム(116、316)の少なくとも1つのオーディオシーンのアダプテーションセットと、少なくとも1つのオーディオ情報メッセージを含む前記少なくとも1つの追加のオーディオストリーム(140)の少なくとも1つのオーディオメッセージのアダプテーションセットと、を含み、
前記ROIプロセッサの決定に基づいて、前記アダプテーションセットのうちのどれを検索するかを特定する選択データ(559)を作成し、前記利用可能なアダプテーションセットは、少なくとも1つのオーディオシーンのアダプテーションセットおよび/または少なくとも1つのオーディオメッセージのアダプテーションセットを含み、
前記選択データによって特定された前記アダプテーションセットの前記データを要求および/または検索し、
各アダプテーションセットは、異なるビットレートの異なるエンコーディングをグループ化する、
ようにさらに構成される、前記〔1〕から〔27〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔29〕
その要素の少なくとも1つは、HTTP、DASH、クライアントを介したダイナミックアダプティブストリーミングを含み、および/またはISOベースメディアファイルフォーマットISO BMFF、またはMPEG-2トランスポートストリームMPEG-2 TSを使用して、前記アダプテーションセットの各々について前記データを検索するように構成される、前記〔28〕に記載のシステムである。
また、さらなる例は、
〔30〕
前記ROIプロセッサ(120)は、前記ROIが前記現在のビューポートに表現されているかどうかをチェックするために、前記ROIと前記現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)との対応をチェックし、前記ROIが前記現在のビューポートおよび/または位置および/または頭の向きおよび/または移動データ(122)の外側にある場合には、前記ROIの存在を前記ユーザーに音声で通知するように構成される、前記〔1〕から〔29〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔31〕
前記ROIプロセッサ(120)は、前記ROIが前記現在のビューポートに表現されているかどうかをチェックするために、前記ROIと前記現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)との対応をチェックし、前記ROIが前記現在のビューポートおよび/または位置および/または頭の向きおよび/または移動データ(122)内にある場合には、前記ROIの存在を前記ユーザーに音声で通知することを抑えるように構成される、前記〔1〕から〔30〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔32〕
リモートエンティティ(202)から、前記ビデオ環境シーンに関連付けられた前記少なくとも1つのビデオストリーム(116)と、前記オーディオシーンに関連付けられた前記少なくとも1つのオーディオストリーム(106)と、を受信するように構成され、前記オーディオシーンは前記ビデオ環境シーンに関連付けられている、前記〔1〕から〔31〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔33〕
前記ROIプロセッサ(120)は、再生される複数のオーディオ情報メッセージの中から、第2のオーディオ情報メッセージの前の1つの第1のオーディオ情報メッセージの再生を選択するように構成される、前記〔1〕から〔32〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔34〕
リモートエンティティ(204)から受信した、または合成的に生成されたオーディオ情報メッセージを格納し、異なる時間インスタンスで前記オーディオ情報メッセージを再利用するためのキャッシュメモリ(246)をさらに含む、前記〔1〕から〔33〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔35〕
前記オーディオ情報メッセージはイアコンである、前記〔1〕および〔3〕から〔34〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔36〕
前記少なくとも1つのビデオストリームおよび/または前記少なくとも1つの第1のオーディオストリームは、それぞれ、前記現在のビデオ環境シーンおよび/またはビデオオーディオシーンの一部であり、前記現在のビデオ環境シーンおよび/またはビデオオーディオシーンにおける前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)から独立している、前記〔1〕から〔35〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔37〕
前記少なくとも1つの第1のオーディオストリームおよび/または少なくとも1つのビデオストリームを、それぞれ前記オーディオストリームおよび/またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)に基づいて、前記少なくとも1つのオーディオ情報メッセージを再生するように構成される、前記〔1〕から〔36〕36のいずれか一項に記載のシステムである。
また、さらなる例は、
〔38〕
前記少なくとも1つの第1のオーディオストリームおよび/または少なくとも1つのビデオストリームを、それぞれ前記オーディオストリームおよび/またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)に基づいて、前記少なくとも1つのオーディオ情報メッセージを前記リモートエンティティに要求するように構成される、前記〔1〕から〔37〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔39〕
前記少なくとも1つの第1のオーディオストリームおよび/または少なくとも1つのビデオストリームを、それぞれ前記オーディオストリームおよび/またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)に基づいて、前記少なくとも1つのオーディオ情報メッセージを合成するように構成される、前記〔1〕から〔38〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔40〕
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも1つをチェックするように構成され、前記基準はユーザーの選択および/またはユーザーの設定をさらに含む、前記〔1〕から〔39〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔41〕
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも1つをチェックするように構成され、前記基準は前記システムの状態をさらに含む、前記〔1〕から〔40〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔42〕
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも1つをチェックするように構成され、前記基準は、既に実行されたオーディオ情報メッセージの再生の数をさらに含む、前記〔1〕から〔41〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔43〕
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも1つをチェックするように構成され、前記基準は、リモートエンティティから取得されたデータストリーム内のフラグをさらに含む、前記〔1〕から〔42〕のいずれか一項に記載のシステムである。
また、さらなる例は、
〔44〕
前記〔1〕から〔43〕のいずれか一項に記載のシステムとして構成されたクライアントと、前記少なくとも1つのビデオストリーム(106)および前記少なくとも1つのオーディオストリーム(116)を配信するためのサーバーとして構成されたリモートエンティティ(202、240)と、を含むシステムである。
また、さらなる例は、
〔45〕
前記リモートエンティティ(202、240)は、データベース、イントラネット、インターネット、および/または地理的ネットワークにおいて、前記少なくとも1つの追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータを検索し、検索された場合に、前記少なくとも1つの追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータを配信するように構成される、前記〔44〕に記載のシステムである。
また、さらなる例は、
〔46〕
前記リモートエンティティ(202、240)は、前記少なくとも1つの追加のオーディオストリーム(140)を合成し、および/または前記オーディオ情報メッセージメタデータを生成するように構成される、前記〔45〕に記載のシステムである。
また、さらなる例は、
〔47〕
仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のための方法であって、
ユーザーに対して再生される前記少なくとも1つのビデオおよびオーディオシーンからの少なくとも1つのビデオ信号をデコードするステップと、
再生される前記ビデオおよびオーディオシーンからの少なくとも1つのオーディオ信号をデコードするステップと、
前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)および/またはメタデータに基づいて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、前記オーディオ情報メッセージは、前記少なくとも1つのビデオ信号および前記少なくとも1つのオーディオ信号から独立している、ステップと、
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージを再生するステップと、
を含む方法である。
また、さらなる例は、
〔48〕
仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のための方法であって、
VR、AR、MR、または360度ビデオ環境シーン(118a)をユーザーに表現するために、前記少なくとも1つのビデオストリーム(106)からの少なくとも1つのビデオ信号をデコードするステップと、
前記ユーザーへのオーディオシーン(118b)の表現のために、前記少なくとも1つの第1のオーディオストリーム(116、316)からの少なくとも1つのオーディオ信号をデコードするステップと、
前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)および/またはメタデータに基づいて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、前記オーディオ情報メッセージはイアコンである、ステップと、
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージを再生するステップと、
を含む方法である。
また、さらなる例は、
〔49〕
前記情報メッセージを再生することが決定されると、前記オーディオ情報メッセージが前記オーディオシーンの一部であるように、メタデータ(141)に従って前記オーディオ情報メッセージを再生するために、前記メタデータ(141)を受信および/または処理および/または操作するステップをさらに含む、前記〔47〕または〔48〕に記載の方法である。
また、さらなる例は、
〔50〕
前記オーディオおよびビデオシーンを再生するステップと、
前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)および/またはメタデータに基づいて、前記オーディオ情報メッセージをさらに再生するように決定するステップと、
をさらに含む、前記〔47〕から〔49〕のいずれか一項に記載の方法である。
また、さらなる例は、
〔51〕
前記オーディオおよびビデオシーンを再生するステップと、
前記少なくとも1つのROIが前記ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)の外側にある場合には、前記少なくとも1つのオーディオ信号の再生に加えて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生し、および/または
前記少なくとも1つのROIが前記ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)内にある場合には、前記少なくとも1つのROIに関連付けられた前記オーディオ情報メッセージの再生を不許可および/または非アクティブにするステップと、
をさらに含む、前記〔47〕から〔50〕のいずれか一項に記載の方法である。
また、さらなる例は、
〔52〕
プロセッサによって実行されると、前記プロセッサに前記〔47〕から〔51〕のいずれか一項に記載の方法を実行させる命令を含む、非過渡的記憶ユニットである。
上記の例は、上で説明した原理を例示するものである。本明細書に記載の配置および詳細の修正および変更は明らかであることを理解されたい。したがって、本明細書の実施例の記述および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によって限定されることが意図されている。
Claims (21)
- システムであって、前記システムは、
再生されるオーディオシーンに関連付けられた少なくとも1つの第1のオーディオストリーム(116、316)を受信するように構成され、
前記システムは、
ユーザーへの前記オーディオシーンの表現のために、前記少なくとも1つの第1のオーディオストリーム(116、316)から少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのオーディオデコーダ(112)と、
少なくとも1つのプロセッサ(120、132)と、を含み、前記プロセッサ(120、132)は、
少なくとも前記ユーザーの動きのデータ(122)および/またはメタデータ(141)および/またはユーザーの選択に基づいて、イアコンを再生するかどうかを決定し、
前記イアコンを再生することが決定されると、前記イアコンを再生する、
ように構成され、
前記システムは、イアコンメタデータを生成(246)および/または変更するように構成され、
前記システムは、前記イアコンがエンコードされた少なくとも1つの追加のオーディオストリーム(140)を生成するようにさらに構成される、
システム。 - オーディオシーンに関連付けられた少なくとも1つの第1のオーディオストリーム(116、316)を再生するように構成されたシステムであって、前記システムは、
ユーザーへの前記オーディオシーンの表現のために、前記少なくとも1つの第1のオーディオストリーム(116、316)から少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのオーディオデコーダ(112)と、
少なくとも1つのプロセッサ(120、132)と、を含み、前記プロセッサ(120,132)は、
少なくとも前記ユーザーの動きのデータ(122)および/またはメタデータ(141)および/またはユーザーの選択に基づいて、イアコンを再生するかどうかを決定し、
前記イアコンを再生することが決定されると、前記イアコンを再生する、
ように構成され、
前記システムは、
前記イアコンがエンコードされたオーディオストリームとイアコンメタデータとを受信し、
前記イアコンメタデータに基づいて、前記オーディオ信号および前記イアコンを、デコードおよび再生するようにさらに構成される、
システム。 - 前記少なくとも1つのプロセッサ(120、132)は、
ストリームからイアコンメタデータを抽出し、
イアコンメタデータを変更して、前記イアコンをアクティブ化し、および/またはその位置を設定し/変化させ、
メタデータをストリームに埋め込み、
前記少なくとも1つの第1のオーディオストリーム(116)からオーディオメタデータを抽出し、
前記追加のオーディオストリームからイアコンメタデータを抽出し、
イアコンメタデータを変更して、前記イアコンをアクティブ化し、および/またはその位置を設定し/変化させ、
前記イアコンの存在を考慮に入れてマージすることができるように、前記少なくとも1つの第1のオーディオストリーム(116)のオーディオメタデータを変更する、
操作のうちの少なくとも1つを実行するように構成される、請求項1または2に記載のシステム。 - 前記イアコンは、前記オーディオシーン内のオブジェクトに関連付けられたアクセシビリティ機能に関連付けられている、請求項1または2に記載のシステム。
- 前記少なくとも1つは、イアコンメタデータ(141)を操作して、前記イアコンを再生することを決定したときに、前記イアコンメタデータ(141)に従って前記イアコンを再生するように構成される、請求項1または2に記載のシステム。
- 前記イアコンメタデータ(141)は、構成フレームまたはデータフレームにエンコードされ、前記データフレームは、
識別タグ、
メッセージのタイプ、
前記オーディオシーンからの依存性/非依存性の表示、
関連付けられたテキストラベルの存在の表示、
前記イアコンの言語、
データテキストの長さ、
前記イアコンの記述のうちの少なくとも1つを含む、請求項1または2に記載のシステム。 - 前記イアコンメタデータ(141)は、構成フレームまたはデータフレームにエンコードされ、前記データフレームは、
ゲインデータを少なくとも含む、請求項1または2に記載のシステム。 - 前記少なくとも1つのプロセッサ(120、132)は、前記イアコンがエンコードされている追加のオーディオストリーム(140)および/またはイアコンメタデータのローカル検索を実行するように構成される、請求項1または2に記載のシステム。
- 前記少なくとも1つのプロセッサ(120、132)は、追加のオーディオストリーム(140)および/またはイアコンメタデータのローカル検索を実行し、検索することができない場合には、合成オーディオジェネレータ(432)に対して前記イアコンおよび/またはイアコンメタデータを生成させるように構成される、請求項1または2に記載のシステム。
- 前記イアコンのまたは前記イアコンメタデータの前記構成を変更するために、前記イアコンの前記再生に関連付けられた履歴データおよび/または統計データに関連付けられたメトリックの追跡を保持するようにさらに構成される、請求項1または2に記載のシステム。
- 2つのイアコンを同時に再生するか、またはより優先度の低いイアコンに対して優先的に再生されるより優先度の高いイアコンを選択するかを確立するようにさらに構成される、請求項1または2に記載のシステム。
- 前記オーディオストリームは、MPEG-H 3Dオーディオストリームフォーマットでフォーマットされる、請求項1または2に記載のシステム。
- 複数のアダプテーションセット(556、557)の利用可能性に関するデータを受信し、前記利用可能なアダプテーションセットは、前記少なくとも1つの第1のオーディオストリーム(116、316)の少なくとも1つのオーディオシーンのアダプテーションセットと、イアコンを含む前記少なくとも1つの追加のオーディオストリーム(140)の少なくとも1つのオーディオメッセージのアダプテーションセットと、を含み、
前記アダプテーションセットのうちのどれを検索するかを特定する選択データ(559)を作成し、前記利用可能なアダプテーションセットは、少なくとも1つのオーディオシーンのアダプテーションセットおよび/または少なくとも1つのオーディオメッセージのアダプテーションセットを含み、
前記選択データによって特定された前記アダプテーションセットの前記データを要求および/または検索し、
各アダプテーションセットは、異なるビットレートの異なるエンコーディングをグループ化する、
ようにさらに構成される、請求項1または2に記載のシステム。 - HTTP、DASH、クライアントを介したダイナミックアダプティブストリーミングを含み、および/またはISOベースメディアファイルフォーマットISO BMFF、またはMPEG-2トランスポートストリームMPEG-2 TSを使用して、前記アダプテーションセットの各々について前記データを検索するように構成される、請求項13に記載のシステム。
- エンコードされた前記少なくとも1つのオーディオ信号と、エンコードされた前記イアコンと、前記イアコンメタデータとを含む前記少なくとも1つの第1のオーディオストリームを受信し、
前記イアコンメタデータに基づいて、前記オーディオ信号と前記イアコンとをデコードおよび再生するように構成される、請求項1または2に記載のシステム。 - 前記デコードされたオーディオ信号を再生するためのメディア消費デバイス(206)をさらに備える、請求項1または2に記載のシステム。
- 前記イアコンがエンコードされる前記第1のオーディオストリームおよび前記追加のオーディオストリームが異なるオーディオストリームである、請求項1または2に記載のシステム。
- 前記イアコンメタデータは、前記イアコンが前記オーディオシーンに依存しているかまたは独立しているかを示す1ビットフラグを含む、請求項1または2に記載のシステム。
- 再生されるオーディオシーンに関連付けられた少なくとも1つのオーディオ信号をデコードするステップと、
ユーザーの動きのデータ(122)および/またはメタデータに基づいて、イアコンを再生するかどうかを決定するステップと、
前記イアコンを再生することが決定されると、前記イアコンを再生するステップと、
を含み、
イアコンメタデータを生成し(432)および/または変更し、
前記イアコンがエンコードされているか、または前記イアコンが圧縮されていない、少なくとも1つの追加のストリーム(140)を生成する、方法。 - オーディオシーンに関連付けられた少なくとも1つの第1のオーディオストリーム(116、316)を再生するための方法であって、前記方法は、
前記ユーザーに前記オーディオシーンを表現するために、前記少なくとも1つの第1のオーディオストリーム(116、316)から少なくとも1つのオーディオ信号をデコードするステップと、
少なくとも前記ユーザーの動きのデータ(122)および/またはメタデータ(141)および/またはユーザーの選択に基づいて、イアコンを再生するかどうかを決定するステップと、
前記イアコンを再生することが決定されると、前記イアコンを再生するステップと、を含み、
前記方法は、
前記イアコンがエンコードされたオーディオストリームと前記イアコンメタデータとを受信するステップと、
前記イアコンメタデータに基づいて、前記オーディオ信号および前記イアコンをデコードおよび再生するステップとを含む、方法。 - プロセッサによって実行されると、前記プロセッサに請求項19または20に記載の方法を実行させる命令を含む、非過渡的記憶ユニット。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024003075A JP2024041909A (ja) | 2017-10-12 | 2024-01-12 | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17196255.8A EP3470976A1 (en) | 2017-10-12 | 2017-10-12 | Method and apparatus for efficient delivery and usage of audio messages for high quality of experience |
EP17196255.8 | 2017-10-12 | ||
PCT/EP2018/077556 WO2019072890A1 (en) | 2017-10-12 | 2018-10-10 | METHOD AND APPARATUS FOR EFFICIENT DISTRIBUTION AND USE OF AUDIO MESSAGES FOR HIGH QUALITY EXPERIENCE |
JP2020520211A JP7072649B2 (ja) | 2017-10-12 | 2018-10-10 | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020520211A Division JP7072649B2 (ja) | 2017-10-12 | 2018-10-10 | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024003075A Division JP2024041909A (ja) | 2017-10-12 | 2024-01-12 | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022106944A JP2022106944A (ja) | 2022-07-20 |
JP7421594B2 true JP7421594B2 (ja) | 2024-01-24 |
Family
ID=60191106
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020520211A Active JP7072649B2 (ja) | 2017-10-12 | 2018-10-10 | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 |
JP2022077477A Active JP7421594B2 (ja) | 2017-10-12 | 2022-05-10 | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 |
JP2024003075A Pending JP2024041909A (ja) | 2017-10-12 | 2024-01-12 | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020520211A Active JP7072649B2 (ja) | 2017-10-12 | 2018-10-10 | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024003075A Pending JP2024041909A (ja) | 2017-10-12 | 2024-01-12 | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 |
Country Status (18)
Country | Link |
---|---|
US (3) | US11006181B2 (ja) |
EP (3) | EP3470976A1 (ja) |
JP (3) | JP7072649B2 (ja) |
KR (2) | KR20230112147A (ja) |
CN (6) | CN117596422A (ja) |
AR (3) | AR113355A1 (ja) |
AU (3) | AU2018348713B2 (ja) |
BR (1) | BR112020007617A2 (ja) |
CA (6) | CA3227598A1 (ja) |
ES (1) | ES2892407T3 (ja) |
MX (1) | MX2020003453A (ja) |
PL (1) | PL3695306T3 (ja) |
PT (1) | PT3695306T (ja) |
RU (1) | RU2744969C1 (ja) |
SG (2) | SG11202003222QA (ja) |
TW (1) | TWI701945B (ja) |
WO (1) | WO2019072890A1 (ja) |
ZA (7) | ZA202002059B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115243075A (zh) * | 2014-10-10 | 2022-10-25 | 索尼公司 | 再现装置和再现方法 |
EP3470976A1 (en) * | 2017-10-12 | 2019-04-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for efficient delivery and usage of audio messages for high quality of experience |
RU2762400C1 (ru) | 2018-02-22 | 2021-12-21 | Долби Интернешнл Аб | Способ и устройство обработки вспомогательных потоков медиаданных, встроенных в поток mpeg-h 3d audio |
JP7047095B2 (ja) * | 2018-02-27 | 2022-04-04 | エルジー エレクトロニクス インコーポレイティド | カメラレンズ情報を含む360°ビデオを送受信する方法及びその装置 |
US11967330B2 (en) | 2019-08-15 | 2024-04-23 | Dolby International Ab | Methods and devices for generation and processing of modified audio bitstreams |
KR20220047816A (ko) * | 2019-08-15 | 2022-04-19 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 수정된 비트스트림들의 생성 및 처리를 위한 방법들 및 디바이스들 |
WO2021075407A1 (en) * | 2019-10-17 | 2021-04-22 | Sharp Kabushiki Kaisha | Systems and methods for enabling interactivity for actionable locations in omnidirectional media |
US11816757B1 (en) * | 2019-12-11 | 2023-11-14 | Meta Platforms Technologies, Llc | Device-side capture of data representative of an artificial reality environment |
WO2022059858A1 (en) * | 2020-09-16 | 2022-03-24 | Samsung Electronics Co., Ltd. | Method and system to generate 3d audio from audio-visual multimedia content |
CN114051194A (zh) * | 2021-10-15 | 2022-02-15 | 赛因芯微(北京)电子科技有限公司 | 一种音频轨道元数据和生成方法、电子设备及存储介质 |
CN114900506B (zh) * | 2022-07-12 | 2022-09-30 | 中国科学技术大学 | 面向用户体验质量的360度视频视口预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130205247A1 (en) | 2010-10-19 | 2013-08-08 | Koninklijke Philips Electronics N.V. | Medical image system |
US20130259312A1 (en) | 2011-09-08 | 2013-10-03 | Kenton M. Lyons | Eye Gaze Based Location Selection for Audio Visual Playback |
US20160381398A1 (en) | 2015-06-26 | 2016-12-29 | Samsung Electronics Co., Ltd | Generating and transmitting metadata for virtual reality |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4208533B2 (ja) * | 2002-09-19 | 2009-01-14 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
JP4656481B2 (ja) * | 2003-09-08 | 2011-03-23 | 日本テレビ放送網株式会社 | 録画再生装置、受信装置及び制御方法と制御プログラム |
US7876903B2 (en) * | 2006-07-07 | 2011-01-25 | Harris Corporation | Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system |
US10440329B2 (en) * | 2009-05-22 | 2019-10-08 | Immersive Media Company | Hybrid media viewing application including a region of interest within a wide field of view |
KR101842411B1 (ko) * | 2009-08-14 | 2018-03-26 | 디티에스 엘엘씨 | 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템 |
TW202339510A (zh) * | 2011-07-01 | 2023-10-01 | 美商杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
CA2750287C (en) | 2011-08-29 | 2012-07-03 | Microsoft Corporation | Gaze detection in a see-through, near-eye, mixed reality display |
KR20140066258A (ko) | 2011-09-26 | 2014-05-30 | 마이크로소프트 코포레이션 | 투시 근안 디스플레이에 대한 센서 입력에 기초한 비디오 디스플레이 수정 |
JP6407717B2 (ja) * | 2011-09-27 | 2018-10-17 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 画像のダイナミックレンジ変換のための装置及び方法 |
US8935057B2 (en) * | 2012-01-17 | 2015-01-13 | LimnTech LLC | Roadway mark data acquisition and analysis apparatus, systems, and methods |
US8964040B2 (en) * | 2012-06-06 | 2015-02-24 | Apple Inc. | High dynamic range image registration using motion sensor data |
GB2504068B (en) * | 2012-07-11 | 2015-03-11 | Canon Kk | Methods and devices for controlling spatial access granularity in compressed video streams |
US9754167B1 (en) * | 2014-04-17 | 2017-09-05 | Leap Motion, Inc. | Safety for wearable virtual reality devices via object detection and tracking |
EP3037915B1 (en) * | 2014-12-23 | 2017-08-16 | Nokia Technologies OY | Virtual reality content control |
WO2017112520A1 (en) | 2015-12-22 | 2017-06-29 | Skreens Entertainment Technologies, Inc. | Video display system |
EP3470976A1 (en) * | 2017-10-12 | 2019-04-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for efficient delivery and usage of audio messages for high quality of experience |
US20180140918A1 (en) * | 2016-11-21 | 2018-05-24 | Julie Bilbrey | System for using vr glasses in sports |
-
2017
- 2017-10-12 EP EP17196255.8A patent/EP3470976A1/en not_active Withdrawn
-
2018
- 2018-10-10 RU RU2020115441A patent/RU2744969C1/ru active
- 2018-10-10 CA CA3227598A patent/CA3227598A1/en active Pending
- 2018-10-10 CA CA3227601A patent/CA3227601A1/en active Pending
- 2018-10-10 PL PL18782460T patent/PL3695306T3/pl unknown
- 2018-10-10 CA CA3083039A patent/CA3083039A1/en active Pending
- 2018-10-10 CN CN202311468892.3A patent/CN117596422A/zh active Pending
- 2018-10-10 EP EP21191482.5A patent/EP3937003A3/en active Pending
- 2018-10-10 SG SG11202003222QA patent/SG11202003222QA/en unknown
- 2018-10-10 MX MX2020003453A patent/MX2020003453A/es unknown
- 2018-10-10 KR KR1020237022001A patent/KR20230112147A/ko not_active Application Discontinuation
- 2018-10-10 CA CA3227621A patent/CA3227621A1/en active Pending
- 2018-10-10 ES ES18782460T patent/ES2892407T3/es active Active
- 2018-10-10 CN CN202311468199.6A patent/CN117640983A/zh active Pending
- 2018-10-10 CN CN201880080159.5A patent/CN111542806B/zh active Active
- 2018-10-10 EP EP18782460.2A patent/EP3695306B1/en active Active
- 2018-10-10 PT PT187824602T patent/PT3695306T/pt unknown
- 2018-10-10 CA CA3227626A patent/CA3227626A1/en active Pending
- 2018-10-10 SG SG10202113080PA patent/SG10202113080PA/en unknown
- 2018-10-10 KR KR1020207013333A patent/KR102551081B1/ko active IP Right Grant
- 2018-10-10 CA CA3227600A patent/CA3227600A1/en active Pending
- 2018-10-10 AU AU2018348713A patent/AU2018348713B2/en active Active
- 2018-10-10 CN CN202311466290.4A patent/CN117714733A/zh active Pending
- 2018-10-10 CN CN202311468058.4A patent/CN117692673A/zh active Pending
- 2018-10-10 BR BR112020007617-1A patent/BR112020007617A2/pt unknown
- 2018-10-10 CN CN202311470612.2A patent/CN117579857A/zh active Pending
- 2018-10-10 JP JP2020520211A patent/JP7072649B2/ja active Active
- 2018-10-10 WO PCT/EP2018/077556 patent/WO2019072890A1/en active Search and Examination
- 2018-10-12 TW TW107135928A patent/TWI701945B/zh active
- 2018-10-12 AR ARP180102984A patent/AR113355A1/es active IP Right Grant
-
2020
- 2020-04-10 US US16/845,394 patent/US11006181B2/en active Active
- 2020-05-04 ZA ZA2020/02059A patent/ZA202002059B/en unknown
-
2021
- 2021-04-07 US US17/224,782 patent/US11617016B2/en active Active
- 2021-09-10 ZA ZA2021/06705A patent/ZA202106705B/en unknown
-
2022
- 2022-01-14 AR ARP220100070A patent/AR124649A2/es unknown
- 2022-01-14 AR ARP220100074A patent/AR127089A2/es unknown
- 2022-05-10 JP JP2022077477A patent/JP7421594B2/ja active Active
- 2022-08-04 ZA ZA2022/08713A patent/ZA202208713B/en unknown
- 2022-08-04 ZA ZA2022/08737A patent/ZA202208737B/en unknown
- 2022-08-04 ZA ZA2022/08717A patent/ZA202208717B/en unknown
- 2022-08-04 ZA ZA2022/08716A patent/ZA202208716B/en unknown
- 2022-08-04 ZA ZA2022/08714A patent/ZA202208714B/en unknown
-
2023
- 2023-02-20 US US18/171,642 patent/US11949957B2/en active Active
- 2023-07-26 AU AU2023208129A patent/AU2023208129A1/en active Pending
- 2023-11-30 AU AU2023274169A patent/AU2023274169A1/en active Pending
-
2024
- 2024-01-12 JP JP2024003075A patent/JP2024041909A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130205247A1 (en) | 2010-10-19 | 2013-08-08 | Koninklijke Philips Electronics N.V. | Medical image system |
US20130259312A1 (en) | 2011-09-08 | 2013-10-03 | Kenton M. Lyons | Eye Gaze Based Location Selection for Audio Visual Playback |
US20160381398A1 (en) | 2015-06-26 | 2016-12-29 | Samsung Electronics Co., Ltd | Generating and transmitting metadata for virtual reality |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7421594B2 (ja) | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 | |
JP7295851B2 (ja) | 仮想現実アプリケーションのためのオーディオ配信の最適化 | |
KR101944601B1 (ko) | 기간들에 걸쳐 오브젝트들을 식별하기 위한 방법 및 이에 대응하는 디바이스 | |
CN114223211A (zh) | 信息处理装置和信息处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220609 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7421594 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |