JP6190947B2 - オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 - Google Patents
オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 Download PDFInfo
- Publication number
- JP6190947B2 JP6190947B2 JP2016513405A JP2016513405A JP6190947B2 JP 6190947 B2 JP6190947 B2 JP 6190947B2 JP 2016513405 A JP2016513405 A JP 2016513405A JP 2016513405 A JP2016513405 A JP 2016513405A JP 6190947 B2 JP6190947 B2 JP 6190947B2
- Authority
- JP
- Japan
- Prior art keywords
- audio objects
- audio
- downmix
- metadata
- side information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 171
- 238000004590 computer program Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000003068 static effect Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000009877 rendering Methods 0.000 description 144
- 230000007704 transition Effects 0.000 description 136
- 239000011159 matrix material Substances 0.000 description 54
- 230000005236 sound signal Effects 0.000 description 50
- 238000012952 Resampling Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 229940050561 matrix product Drugs 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本願は2013年5月24日に出願された米国仮特許出願第61/827,246号、2013年10月21日に出願された米国仮特許出願第61/827,246号、2014年4月1日に出願された米国仮特許出願第61/973,623号の出願日の利益を主張するものであり、そのそれぞれはここにその全体において参照によって組み込まれる。
本開示は概括的にはオーディオ・オブジェクトを含むオーディオ・シーンの符号化に関する。詳細には、オーディオ・オブジェクトのエンコードおよびデコードのためのエンコーダ、デコーダおよび関連する方法に関する。
第一の側面によれば、オーディオ・オブジェクトをエンコードするためのエンコード方法、エンコーダおよびコンピュータ・プログラム・プロダクトが提供される。
N>1であるとして、N個のオーディオ・オブジェクトを受領する段階と;
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算する段階と;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算する段階と;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、方法が提供される。
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と;
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と;
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と;
前記第二の複数のオーディオ・オブジェクトについての空間位置を含むメタデータを計算する段階であって、前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置が、対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される、段階と;
前記第二の複数のオーディオ・オブジェクトについてのメタデータを前記データ・ストリーム中に含める段階とを含む。
少なくとも一つのオーディオ・チャネルを受領する段階と;
前記少なくとも一つのオーディオ・チャネルのそれぞれを、そのオーディオ・チャネルのラウドスピーカー位置に対応する静的な空間位置をもつオーディオ・オブジェクトに変換する段階と;
変換された少なくとも一つのオーディオ・チャネルを前記第一の複数のオーディオ・オブジェクトに含める段階とを含んでいてもよい。
N>1であるとして、N個のオーディオ・オブジェクトを受領するよう構成された受領コンポーネントと;
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算するよう構成されたダウンミックス・コンポーネントと;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算するよう構成された解析コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有する、エンコーダが提供される。
第二の側面によれば、マルチチャネル・オーディオ・コンテンツをデコードするためのデコード方法、デコーダおよびコンピュータ・プログラム・プロダクトが提供される。
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領する段階と;
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階とを含む、方法が提供される。
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されている場合には、前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する前記段階を実行し、
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されていない場合には、前記M個のダウンミックス信号についての前記メタデータを、前記M個のダウンミックス信号を再生システムの出力チャネルにレンダリングするために使うことを含む。
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての前記メタデータを、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、再生システムの出力チャネルにレンダリングするために使うことを含む。
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領するよう構成された受領コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成するよう構成された再構成コンポーネントとを有する、デコーダが提供される。
第三の側面によれば、オーディオ・オブジェクトをエンコードするためのエンコード方法、エンコーダおよびコンピュータ・プログラム・プロダクトが提供される。
N>1であるとして、N個のオーディオ・オブジェクトを受領する段階と;
M≦Nであるとして、前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算する段階と;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変のサイド情報を計算する段階と;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、方法が提供される。
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンスと;
各サイド情報インスタンスについての、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含めることを含む。
前記第二の複数のオーディオ・オブジェクトについての空間位置を含む時間可変なクラスター・メタデータを計算する段階と;
前記デコーダに伝送するために、前記データ・ストリーム中に:
第二の組のオーディオ・オブジェクトをレンダリングするためのそれぞれの所望されるレンダリング設定を指定する複数のクラスター・メタデータ・インスタンスと;
各クラスター・メタデータ・インスタンスについての、現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始する時点およびそのクラスター・メタデータ・インスタンスによって指定される前記所望されるレンダリング設定への前記遷移を完了する時点を、組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含める段階とを含む。
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と;
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と;
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と;
前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置を、それぞれのクラスターに関連付けられた、すなわちそのオーディオ・オブジェクトが代表するクラスターに関連付けられた諸オーディオ・オブジェクトの空間位置に基づいて計算する段階とを含む。
各ダウンミックス信号を、前記ダウンミックス信号をレンダリングするための時間可変な空間位置に関連付ける段階と;
前記ダウンミックス信号の前記空間位置を含むダウンミックス・メタデータを前記データ・ストリームにさらに含める段階とを含み、
当該方法はさらに、前記データ・ストリームに:
前記ダウンミックス信号をレンダリングするためのそれぞれの所望されるダウンミックス・レンダリング設定を指定する複数のダウンミックス・メタデータ・インスタンスと;
各ダウンミックス・メタデータ・インスタンスについての、現在のダウンミックス・レンダリング設定から、そのダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を開始する時点および前記ダウンミックス・メタデータ・インスタンスによって指定される所望されるダウンミックス・レンダリング設定への遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含めることを含む。
M≦Nであるとして、前記N個のオーディオ・オブジェクトの組み合わせを形成することによって、M個のダウンミックス信号を計算するよう構成されているダウンミックス・コンポーネントと;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変のサイド情報を計算するよう構成されている解析コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有しており、
前記多重化コンポーネントは、前記デコーダへの伝送のために、前記データ・ストリーム中に:
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンスと;
各サイド情報インスタンスについての、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データとを含めるよう構成される。
N>1およびM≦Nであるとして、N個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変なサイド情報とを含むデータ・ストリームを受領する段階と;
前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階とを含み、
前記データ・ストリームは、複数のサイド情報インスタンスを含み、前記データ・ストリームはさらに、各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含み、
前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成する段階は:
現在の再構成設定に従って再構成を実行し;
あるサイド情報インスタンスについての遷移データによって定義される時点において、前記現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始し;
そのサイド情報インスタンスについての前記遷移データによって定義される時点において前記遷移を完了することを含む。
前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、あらかじめ定義されたチャネル配位の出力チャネルにレンダリングするために前記クラスター・メタデータを使うことを含んでいてもよく、該レンダリングは:
現在のレンダリング設定に従ってレンダリングを実行し;
あるクラスター・メタデータ・インスタンスについての遷移データによって定義される時点において、前記現在のレンダリング設定から、そのクラスター・メタデータ・インスタンスによって指定される所望されるレンダリング設定への遷移を開始し;
そのクラスター・メタデータ・インスタンスについての前記遷移データによって定義される時点において前記所望されるレンダリング設定への前記遷移を完了することを含む。
前記再構成の少なくとも一部および前記レンダリングの少なくとも一部を、それぞれ現在の再構成設定および現在のレンダリング設定に関連する再構成行列およびレンダリング行列の行列積として形成される第一の行列に対応する組み合わされた動作として実行し;
あるサイド情報インスタンスおよびあるクラスター・メタデータ・インスタンスについての遷移データによって定義される時点において、前記現在の再構成およびレンダリング設定から、それぞれそのサイド情報インスタンスおよびそのクラスター・メタデータ・インスタンスによって指定される所望される再構成設定およびレンダリング設定への組み合わされた遷移を開始し;
そのサイド情報インスタンスおよびそのクラスター・メタデータ・インスタンスについての前記遷移データによって定義される時点において前記組み合わされた遷移を完了することを含み、前記組み合わされた遷移は、前記第一の行列の行列要素と、それぞれ前記所望される再構成設定および前記所望されるレンダリング設定に関連する再構成行列およびレンダリング行列の行列積として形成される第二の行列の行列要素との間を補間することを含む。
デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能である(または構成されている)場合、再構成する段階を、前記M個のダウンミックス信号および前記サイド情報、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトに基づいて実行し;
デコーダがオーディオ・オブジェクト再構成をサポートするよう動作可能でない(または構成されていない)場合、前記ダウンミックス・メタデータおよび前記M個のダウンミックス信号を前記M個のダウンミックス信号のレンダリングのために出力することを含んでいてもよい。
N>1およびM≦Nであるとして、N個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む時間可変なサイド情報とを含むデータ・ストリームを受領するよう構成されている受領コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報に基づいて、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトを再構成するよう構成されている再構成コンポーネントとを有し、
前記データ・ストリームは、関連する複数のサイド情報インスタンスを含み、前記データ・ストリームはさらに、各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含む。
現在の再構成設定に従って再構成を実行し;
あるサイド情報インスタンスについての遷移データによって定義される時点において、前記現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始し;
そのサイド情報インスタンスについての前記遷移データによって定義される時点において前記遷移を完了することによって行なうよう構成されている。
データ・ストリームを受領する段階と;
前記データ・ストリームから、M≧1として、M個のオーディオ信号と、前記M個のオーディオ信号からの、一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む、関連する時間可変なサイド情報とを抽出する段階であって、抽出されたサイド情報は:
前記オーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンス;および
各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含む、段階と;
一つまたは複数の追加的なサイド情報インスタンスであって、該一つまたは複数の追加的なサイド情報インスタンスの直前または直後のサイド情報インスタンスと実質的に同じ再構成設定を指定する追加的なサイド情報インスタンスを生成する段階と;
前記M個のオーディオ信号および前記サイド情報をデータ・ストリームに含める段階とを含む。
前記M個のオーディオ信号を処理して、前記M個のダウンミックス信号が符号化されているフレーム・レートを前記第一のフレーム・レートとは異なる第二のフレーム・レートに変える段階と;
少なくとも、前記一つまたは複数の追加的なサイド情報インスタンスを生成することによって、前記第二のフレーム・レートに一致するおよび/または前記第二のフレーム・レートと互換になるよう、前記サイド情報を再サンプリングする段階とを含んでいてもよい。
データ・ストリームを受領し、前記データ・ストリームから、M≧1として、M個のオーディオ信号と、前記M個のオーディオ信号からの、一組のオーディオ・オブジェクトの再構成を許容するパラメータを含む、関連する時間可変なサイド情報とを抽出するよう構成された受領コンポーネントを有しており、抽出されたサイド情報は:
前記オーディオ・オブジェクトを再構成するためのそれぞれの所望される再構成設定を指定する複数のサイド情報インスタンス;および
各サイド情報インスタンスについて、現在の再構成設定から、そのサイド情報インスタンスによって指定される所望される再構成設定への遷移を開始する時点および該遷移を完了する時点を組み合わさって定義する、二つの独立に割り当て可能な部分を含む遷移データを含む。
一つまたは複数の追加的なサイド情報インスタンスであって、該一つまたは複数の追加的なサイド情報インスタンスの直前または直後のサイド情報インスタンスと実質的に同じ再構成設定を指定する追加的なサイド情報インスタンスを生成するよう構成されている再サンプリング・コンポーネントと;
前記M個のオーディオ信号および前記サイド情報をデータ・ストリームに含めるよう構成されている多重化コンポーネントとを有する。
所望される再構成設定への遷移を開始する時点を示すタイムスタンプと、所望される再構成設定への遷移を完了する時点を示すタイムスタンプ;
所望される再構成設定への遷移を開始する時点を示すタイムスタンプと、所望される再構成設定への遷移を開始する時点から所望される再構成設定に達するための継続時間を示す補間継続時間パラメータ;または
所望される再構成設定への遷移を完了する時点を示すタイムスタンプと、所望される再構成設定への遷移を開始する時点から所望される再構成設定に達するための継続時間を示す補間継続時間パラメータであってもよい。
所望されるレンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を完了する時点を示すタイムスタンプ;
所望されるレンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を開始する時点から所望されるレンダリング設定に達するための継続時間を示す補間継続時間パラメータ;または
所望されるレンダリング設定への遷移を完了する時点を示すタイムスタンプと、所望されるレンダリング設定への遷移を開始する時点から所望されるレンダリング設定に達するための継続時間を示す補間継続時間パラメータであってもよい。
所望されるダウンミックス・レンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を完了する時点を示すタイムスタンプ;
所望されるダウンミックス・レンダリング設定への遷移を開始する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を開始する時点から所望されるダウンミックス・レンダリング設定に達するための継続時間を示す補間継続時間パラメータ;または
所望されるダウンミックス・レンダリング設定への遷移を完了する時点を示すタイムスタンプと、所望されるダウンミックス・レンダリング設定への遷移を開始する時点から所望されるダウンミックス・レンダリング設定に達するための継続時間を示す補間継続時間パラメータであってもよい。
図1は、ある例示的実施形態に基づく、オーディオ・オブジェクト120をデータ・ストリーム140にエンコードするエンコーダ100を示している。エンコーダ100は、受領コンポーネント(図示せず)、ダウンミックス・コンポーネント102、エンコーダ・コンポーネント104、解析コンポーネント106および多重化コンポーネント108を有する。オーディオ・データの一つの時間フレームをエンコードするためのエンコーダ100の動作を下記で述べるが、下記の方法は時間フレーム・ベースで繰り返されることは理解される。同じことは図2〜図5の説明にも当てはまる。
a)M個のダウンミックス信号126(および任意的にL個の補助信号129)
b)M個のダウンミックス信号に関連付けられたメタデータ125
c)M個のダウンミックス信号からN個のオーディオ・オブジェクトを再構成するためのサイド情報128
d)N個のオーディオ・オブジェクトに関連付けられたメタデータ122。
レンダリング行列630は一般に、異なる時点における利得値を表わす係数を含む。メタデータ・インスタンスは、所定の離散的な時点において定義され、メタデータ時点の中間のオーディオ・サンプルについては、レンダリング行列630をつなぐ破線640によって示されるように、レンダリング行列は補間される。そのような補間は線形に実行することができるが、他の補間方法(帯域制限された補間、正弦/余弦補間など)が使われることもできる。メタデータ・インスタンス(および対応するレンダリング行列)の間の時間間隔は、「補間継続時間」と称される。そのような期間は一様であってもよく、あるいは時刻t2とt3の間の補間継続時間に比べて時刻t3とt4の間の補間継続時間がより長いなど、異なっていてもよい。
上記の記述を吟味すれば、当業者には本開示のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本開示はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本開示の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
いくつかの態様を記載しておく。
〔態様1〕
オーディオ・オブジェクトをデータ・ストリームにエンコードする方法であって:
N>1であるとして、N個のオーディオ・オブジェクトを受領する段階と;
M個のダウンミックス信号を計算する段階であって、M≦Nであり、該計算は、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによる、段階と;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算する段階と;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、
方法。
〔態様2〕
各ダウンミックス信号を空間位置に関連付け、前記ダウンミックス信号の前記空間位置を前記データ・ストリーム中に前記ダウンミックス信号のためのメタデータとして含めることをさらに含む、態様1記載の方法。
〔態様3〕
前記N個のオーディオ・オブジェクトは、該N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、前記ダウンミックス信号に関連付けられる前記空間位置は前記N個のオーディオ・オブジェクトの空間位置に基づいて計算される、態様2記載の方法。
〔態様4〕
前記N個のオーディオ・オブジェクトの空間位置および前記M個のダウンミックス信号に関連付けられた空間位置は時間変化する、態様3記載の方法。
〔態様5〕
前記サイド情報が時間変化する、態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
前記N個のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性に基づく、態様1ないし5のうちいずれか一項記載の方法。
〔態様7〕
前記N個のオーディオ・オブジェクトに関連付けられた前記メタデータがさらに、前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含み、前記M個のダウンミックス信号を計算するための前記基準はさらに、前記N個のオーディオ・オブジェクトの前記重要性値に基づく、態様6記載の方法。
〔態様8〕
前記M個のダウンミックス信号を計算する段階は、前記N個のオーディオ・オブジェクトの空間的近接性およびもし該当すれば重要性値に基づいて前記N個のオーディオ・オブジェクトをM個のクラスターと関連付け、各クラスターについてのダウンミックス信号を、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせを形成することによって計算することを含む、態様6または7記載の方法。
〔態様9〕
各ダウンミックス信号は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置に基づいて計算される空間位置に関連付けられる、態様8記載の方法。
〔態様10〕
各ダウンミックス信号に関連付けられる空間位置は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置の重心または重み付けされた重心として計算される、態様9記載の方法。
〔態様11〕
前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置を入力としてもつK平均アルゴリズムを適用することによって、前記M個のクラスターに関連付けられる、態様8ないし10のうちいずれか一項記載の方法。
〔態様12〕
第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすための第二のクラスタリング手順をさらに有し、前記第一および第二の複数のオーディオ・オブジェクトの一方が前記N個のオーディオ・オブジェクトに対応する、態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
前記第二のクラスタリング手順は:
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と;
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と;
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と;
前記第二の複数のオーディオ・オブジェクトについての空間位置を含むメタデータを計算する段階であって、前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置が、対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される、段階と;
前記第二の複数のオーディオ・オブジェクトについてのメタデータを前記データ・ストリーム中に含める段階とを含む、
態様12記載の方法。
〔態様14〕
前記第二のクラスタリング手順はさらに:
少なくとも一つのオーディオ・チャネルを受領する段階と;
前記少なくとも一つのオーディオ・チャネルのそれぞれを、そのオーディオ・チャネルのラウドスピーカー位置に対応する静的な空間位置をもつオーディオ・オブジェクトに変換する段階と;
変換された少なくとも一つのオーディオ・チャネルを前記第一の複数のオーディオ・オブジェクトに含める段階とを含む、
態様13記載の方法。
〔態様15〕
前記第二の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記N個のオーディオ・オブジェクトに対応する、態様12ないし14のうちいずれか一項記載の方法。
〔態様16〕
前記第一の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記第二の複数のオーディオ・オブジェクトに対応する、態様12ないし14のうちいずれか一項記載の方法。
〔態様17〕
態様1ないし16のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様18〕
オーディオ・オブジェクトをデータ・ストリームにエンコードするためのエンコーダであって:
N>1であるとして、N個のオーディオ・オブジェクトを受領するよう構成された受領コンポーネントと;
M個のダウンミックス信号を計算するよう構成されたダウンミックス・コンポーネントであって、M≦Nであり、前記計算は、いかなるラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することによる、ダウンミックス・コンポーネントと;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算するよう構成された解析コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有する、
エンコーダ。
〔態様19〕
エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダにおける方法であって:
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領する段階と;
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する段階とを含む、
方法。
〔態様20〕
前記データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた空間位置を含む前記M個のダウンミックス信号についてのメタデータを含み、当該方法はさらに:
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されている場合には、前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する前記段階を実行し、
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されていない場合には、前記M個のダウンミックス信号についての前記メタデータを、前記M個のダウンミックス信号を再生システムの出力チャネルにレンダリングするために使うことを含む、
態様19記載の方法。
〔態様21〕
前記M個のダウンミックス信号に関連付けられた前記空間位置が時間変化する、態様20記載の方法。
〔態様22〕
前記サイド情報が時間変化する、態様19ないし21のうちいずれか一項記載の方法。
〔態様23〕
前記データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトの空間位置を含む、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについてのメタデータを含み、当該方法はさらに、
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての前記メタデータを、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、再生システムの出力チャネルにレンダリングするために使うことを含む、
態様19ないし22のうちいずれか一項記載の方法。
〔態様24〕
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトに等しい、態様19ないし23のうちいずれか一項記載の方法。
〔態様25〕
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである複数のオーディオ・オブジェクトを含み、その数はNより少ない、態様19ないし23のうちいずれか一項記載の方法。
〔態様26〕
態様19ないし25のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様27〕
エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダであって:
M≦Nであるとして、いかなるラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号と、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報とを含むデータ・ストリームを受領するよう構成された受領コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するよう構成された再構成コンポーネントとを有する、
デコーダ。
Claims (27)
- オーディオ・オブジェクトをデータ・ストリームにエンコードする方法であって:
N>1であるとして、N個のオーディオ・オブジェクトを受領する段階と;
M個のダウンミックス信号を計算する段階であって、M≦Nであり、該計算は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することにより、前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置および前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含むメタデータに関連付けられており、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの前記重要性値に基づく、段階と;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算する段階と;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含める段階とを含む、
方法。 - 前記M個のダウンミックス信号のうちの一つが前記N個のオーディオ・オブジェクトのうちの一つに対応し、前記N個のオーディオ・オブジェクトのうちの前記一つは、前記N個のオーディオ・オブジェクトのうち前記N個のオーディオ・オブジェクトの他のものとの関係で最も重要であるオーディオ・オブジェクトである、請求項1記載の方法。
- 各ダウンミックス信号を空間位置に関連付け、前記ダウンミックス信号の前記空間位置を前記データ・ストリーム中に前記ダウンミックス信号のためのメタデータとして含めることをさらに含む、請求項1または2記載の方法。
- 前記N個のオーディオ・オブジェクトは、該N個のオーディオ・オブジェクトの空間位置を含むメタデータに関連付けられており、前記ダウンミックス信号に関連付けられる前記空間位置は前記N個のオーディオ・オブジェクトの空間位置に基づいて計算される、請求項3記載の方法。
- 前記N個のオーディオ・オブジェクトの空間位置および前記M個のダウンミックス信号に関連付けられた空間位置は時間変化する、請求項4記載の方法。
- 前記サイド情報が時間変化する、請求項1ないし5のうちいずれか一項記載の方法。
- 前記M個のダウンミックス信号を計算する段階は、前記N個のオーディオ・オブジェクトの空間的近接性および重要性値に基づいて前記N個のオーディオ・オブジェクトをM個のクラスターと関連付け、各クラスターについてのダウンミックス信号を、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせを形成することによって計算することを含む、請求項1ないし6のうちいずれか一項記載の方法。
- 各ダウンミックス信号は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置に基づいて計算される空間位置に関連付けられる、請求項7記載の方法。
- 各ダウンミックス信号に関連付けられる空間位置は、そのダウンミックス信号に対応するクラスターに関連付けられるオーディオ・オブジェクトの空間位置の重心または重み付けされた重心として計算される、請求項8記載の方法。
- 前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置を入力としてもつK平均アルゴリズムを適用することによって、前記M個のクラスターに関連付けられる、請求項7ないし9のうちいずれか一項記載の方法。
- 第一の複数のオーディオ・オブジェクトを第二の複数のオーディオ・オブジェクトに減らすための第二のクラスタリング手順をさらに有し、前記第一および第二の複数のオーディオ・オブジェクトの一方が前記N個のオーディオ・オブジェクトに対応する、請求項1ないし10のうちいずれか一項記載の方法。
- 前記第二のクラスタリング手順は:
前記第一の複数のオーディオ・オブジェクトおよびそれらの関連付けられた空間位置を受領する段階と;
前記第一の複数のオーディオ・オブジェクトを、前記第一の複数のオーディオ・オブジェクトの空間的近接性に基づいて少なくとも一つのクラスターと関連付ける段階と;
前記少なくとも一つのクラスターのそれぞれを、そのクラスターに関連付けられたオーディオ・オブジェクトの組み合わせであるオーディオ・オブジェクトによって表わすことによって、前記第二の複数のオーディオ・オブジェクトを生成する段階と;
前記第二の複数のオーディオ・オブジェクトについての空間位置を含むメタデータを計算する段階であって、前記第二の複数のオーディオ・オブジェクトの各オーディオ・オブジェクトの空間位置が、対応するクラスターに関連付けられたオーディオ・オブジェクトの空間位置に基づいて計算される、段階と;
前記第二の複数のオーディオ・オブジェクトについてのメタデータを前記データ・ストリーム中に含める段階とを含む、
請求項11記載の方法。 - 前記第二のクラスタリング手順はさらに:
少なくとも一つのオーディオ・チャネルを受領する段階と;
前記少なくとも一つのオーディオ・チャネルのそれぞれを、そのオーディオ・チャネルのラウドスピーカー位置に対応する静的な空間位置をもつオーディオ・オブジェクトに変換する段階と;
変換された少なくとも一つのオーディオ・チャネルを前記第一の複数のオーディオ・オブジェクトに含める段階とを含む、
請求項12記載の方法。 - 前記第二の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記N個のオーディオ・オブジェクトに対応する、請求項11ないし13のうちいずれか一項記載の方法。
- 前記第一の複数のオーディオ・オブジェクトが前記N個のオーディオ・オブジェクトに対応し、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは前記第二の複数のオーディオ・オブジェクトに対応する、請求項11ないし13のうちいずれか一項記載の方法。
- コンピュータに請求項1ないし15のうちいずれか一項記載の方法を実行させるためのコンピュータ・プログラム。
- オーディオ・オブジェクトをデータ・ストリームにエンコードするためのエンコーダであって:
N>1であるとして、N個のオーディオ・オブジェクトを受領するよう構成された受領コンポーネントと;
M個のダウンミックス信号を計算するよう構成されたダウンミックス・コンポーネントであって、M≦Nであり、前記計算は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って前記N個のオーディオ・オブジェクトの組み合わせを形成することにより、前記N個のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの空間位置および前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す重要性値を含むメタデータに関連付けられており、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの前記重要性値に基づく、ダウンミックス・コンポーネントと;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を計算するよう構成された解析コンポーネントと;
前記M個のダウンミックス信号および前記サイド情報を、デコーダに伝送するためのデータ・ストリームに含めるよう構成された多重化コンポーネントとを有する、
エンコーダ。 - エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダにおける方法であって:
M個のダウンミックス信号を含むデータ・ストリームを受領する段階であって、前記M個のダウンミックス信号は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであり、M≦Nであり、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの互いとの関係での重要性を示す前記N個のオーディオ・オブジェクトの重要性値に基づく、段階と;
前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を受領する段階と;
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する段階とを含む、
方法。 - 前記M個のダウンミックス信号のうちの一つが前記N個のオーディオ・オブジェクトのうちの一つに対応し、前記N個のオーディオ・オブジェクトのうちの前記一つは、前記N個のオーディオ・オブジェクトのうち前記N個のオーディオ・オブジェクトの他のものとの関係で最も重要であるオーディオ・オブジェクトである、請求項18記載の方法。
- 前記データ・ストリームはさらに、前記M個のダウンミックス信号に関連付けられた空間位置を含む前記M個のダウンミックス信号についてのメタデータを含み、当該方法はさらに:
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されている場合には、前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成する前記段階を実行し、
前記デコーダがオーディオ・オブジェクト再構成をサポートするよう構成されていない場合には、前記M個のダウンミックス信号についての前記メタデータを、前記M個のダウンミックス信号を再生システムの出力チャネルにレンダリングするために使うことを含む、
請求項18または19記載の方法。 - 前記M個のダウンミックス信号に関連付けられた前記空間位置が時間変化する、請求項20記載の方法。
- 前記サイド情報が時間変化する、請求項18ないし21のうちいずれか一項記載の方法。
- 前記データ・ストリームはさらに、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトの空間位置を含む、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについてのメタデータを含み、当該方法はさらに、
前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトについての前記メタデータを、前記N個のオーディオ・オブジェクトに基づいて形成された再構成された一組のオーディオ・オブジェクトを、再生システムの出力チャネルにレンダリングするために使うことを含む、
請求項18ないし22のうちいずれか一項記載の方法。 - 前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトに等しい、請求項18ないし23のうちいずれか一項記載の方法。
- 前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトは、前記N個のオーディオ・オブジェクトの組み合わせである複数のオーディオ・オブジェクトを含み、その数はNより少ない、請求項18ないし23のうちいずれか一項記載の方法。
- コンピュータに請求項18ないし25のうちいずれか一項記載の方法を実行させるためのコンピュータ・プログラム。
- エンコードされたオーディオ・オブジェクトを含むデータ・ストリームをデコードするためのデコーダであって:
M個のダウンミックス信号を含むデータ・ストリームを受領するよう構成された受領コンポーネントを有しており、前記M個のダウンミックス信号は、前記M個のダウンミックス信号の再生のためのいかなるMチャネル・ラウドスピーカー配位とも独立な基準に従って計算されたN個のオーディオ・オブジェクトの組み合わせであり、M≦Nであり、前記M個のダウンミックス信号を計算するための前記基準が、前記N個のオーディオ・オブジェクトの空間的近接性および前記N個のオーディオ・オブジェクトの重要性値に基づき、
前記受領コンポーネントはさらに、前記M個のダウンミックス信号からの、前記N個のオーディオ・オブジェクトに基づいて形成された一組のオーディオ・オブジェクトの再構成を許容するパラメータを含むサイド情報を受領するよう構成されており、
当該デコーダはさらに、
前記M個のダウンミックス信号および前記サイド情報から、前記N個のオーディオ・オブジェクトに基づいて形成された前記一組のオーディオ・オブジェクトを再構成するよう構成された再構成コンポーネントを有する、
デコーダ。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361827246P | 2013-05-24 | 2013-05-24 | |
US61/827,246 | 2013-05-24 | ||
US201361893770P | 2013-10-21 | 2013-10-21 | |
US61/893,770 | 2013-10-21 | ||
US201461973623P | 2014-04-01 | 2014-04-01 | |
US61/973,623 | 2014-04-01 | ||
PCT/EP2014/060733 WO2014187990A1 (en) | 2013-05-24 | 2014-05-23 | Efficient coding of audio scenes comprising audio objects |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016522911A JP2016522911A (ja) | 2016-08-04 |
JP6190947B2 true JP6190947B2 (ja) | 2017-08-30 |
Family
ID=50943284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016513405A Active JP6190947B2 (ja) | 2013-05-24 | 2014-05-23 | オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 |
Country Status (10)
Country | Link |
---|---|
US (1) | US9892737B2 (ja) |
EP (1) | EP3005356B1 (ja) |
JP (1) | JP6190947B2 (ja) |
KR (1) | KR101760248B1 (ja) |
CN (1) | CN105229732B (ja) |
BR (2) | BR112015029129B1 (ja) |
ES (1) | ES2640815T3 (ja) |
HK (1) | HK1213685A1 (ja) |
RU (1) | RU2630754C2 (ja) |
WO (1) | WO2014187990A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2016052191A1 (ja) * | 2014-09-30 | 2017-07-20 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
JP6729382B2 (ja) * | 2014-10-16 | 2020-07-22 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
US10475463B2 (en) * | 2015-02-10 | 2019-11-12 | Sony Corporation | Transmission device, transmission method, reception device, and reception method for audio streams |
CN106162500B (zh) * | 2015-04-08 | 2020-06-16 | 杜比实验室特许公司 | 音频内容的呈现 |
AU2016269886B2 (en) | 2015-06-02 | 2020-11-12 | Sony Corporation | Transmission device, transmission method, media processing device, media processing method, and reception device |
EP3332557B1 (en) * | 2015-08-07 | 2019-06-19 | Dolby Laboratories Licensing Corporation | Processing object-based audio signals |
US10278000B2 (en) | 2015-12-14 | 2019-04-30 | Dolby Laboratories Licensing Corporation | Audio object clustering with single channel quality preservation |
EP3488623B1 (en) | 2016-07-20 | 2020-12-02 | Dolby Laboratories Licensing Corporation | Audio object clustering based on renderer-aware perceptual difference |
CN113242508B (zh) | 2017-03-06 | 2022-12-06 | 杜比国际公司 | 基于音频数据流渲染音频输出的方法、解码器系统和介质 |
KR102683551B1 (ko) * | 2017-10-05 | 2024-07-11 | 소니그룹주식회사 | 복호 장치 및 방법, 그리고 프로그램을 기록한 컴퓨터 판독가능 기록매체 |
US11323757B2 (en) * | 2018-03-29 | 2022-05-03 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
CN108733342B (zh) * | 2018-05-22 | 2021-03-26 | Oppo(重庆)智能科技有限公司 | 音量调节方法、移动终端及计算机可读存储介质 |
EP3874491B1 (en) | 2018-11-02 | 2024-05-01 | Dolby International AB | Audio encoder and audio decoder |
BR112021009306A2 (pt) * | 2018-11-20 | 2021-08-10 | Sony Group Corporation | dispositivo e método de processamento de informações, e, programa. |
EP3915106A1 (en) * | 2019-01-21 | 2021-12-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs |
CN114762041A (zh) * | 2020-01-10 | 2022-07-15 | 索尼集团公司 | 编码设备和方法、解码设备和方法、以及程序 |
EP4295587A1 (en) * | 2021-02-20 | 2023-12-27 | Dolby Laboratories Licensing Corporation | Clustering audio objects |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7567675B2 (en) | 2002-06-21 | 2009-07-28 | Audyssey Laboratories, Inc. | System and method for automatic multiple listener room acoustic correction with low filter orders |
DE10344638A1 (de) | 2003-08-04 | 2005-03-10 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene |
FR2862799B1 (fr) | 2003-11-26 | 2006-02-24 | Inst Nat Rech Inf Automat | Dispositif et methode perfectionnes de spatialisation du son |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7813513B2 (en) | 2004-04-05 | 2010-10-12 | Koninklijke Philips Electronics N.V. | Multi-channel encoder |
GB2415639B (en) | 2004-06-29 | 2008-09-17 | Sony Comp Entertainment Europe | Control of data processing |
MX2007011915A (es) | 2005-03-30 | 2007-11-22 | Koninkl Philips Electronics Nv | Codificacion de audio multicanal. |
ATE455348T1 (de) * | 2005-08-30 | 2010-01-15 | Lg Electronics Inc | Vorrichtung und verfahren zur dekodierung eines audiosignals |
CN101484936B (zh) | 2006-03-29 | 2012-02-15 | 皇家飞利浦电子股份有限公司 | 音频解码 |
US8379868B2 (en) | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
EP2067138B1 (en) * | 2006-09-18 | 2011-02-23 | Koninklijke Philips Electronics N.V. | Encoding and decoding of audio objects |
RU2407072C1 (ru) * | 2006-09-29 | 2010-12-20 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов |
WO2008039043A1 (en) | 2006-09-29 | 2008-04-03 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
EP2337380B8 (en) | 2006-10-13 | 2020-02-26 | Auro Technologies NV | A method and encoder for combining digital data sets, a decoding method and decoder for such combined digital data sets and a record carrier for storing such combined digital data sets |
SG175632A1 (en) * | 2006-10-16 | 2011-11-28 | Dolby Sweden Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
JP5337941B2 (ja) | 2006-10-16 | 2013-11-06 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・パラメータ変換のための装置および方法 |
CN101490744B (zh) * | 2006-11-24 | 2013-07-17 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
JP5394931B2 (ja) * | 2006-11-24 | 2014-01-22 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースオーディオ信号の復号化方法及びその装置 |
US8290167B2 (en) | 2007-03-21 | 2012-10-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
WO2009049895A1 (en) | 2007-10-17 | 2009-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding using downmix |
KR101147780B1 (ko) | 2008-01-01 | 2012-06-01 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
KR101461685B1 (ko) | 2008-03-31 | 2014-11-19 | 한국전자통신연구원 | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 |
WO2010013450A1 (ja) * | 2008-07-29 | 2010-02-04 | パナソニック株式会社 | 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム |
MX2011011399A (es) * | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
EP2214161A1 (en) | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for upmixing a downmix audio signal |
EP2461321B1 (en) | 2009-07-31 | 2018-05-16 | Panasonic Intellectual Property Management Co., Ltd. | Coding device and decoding device |
PL2465114T3 (pl) | 2009-08-14 | 2020-09-07 | Dts Llc | System do adaptacyjnej transmisji potokowej obiektów audio |
US9432790B2 (en) | 2009-10-05 | 2016-08-30 | Microsoft Technology Licensing, Llc | Real-time sound propagation for dynamic sources |
KR101418661B1 (ko) | 2009-10-20 | 2014-07-14 | 돌비 인터네셔널 에이비 | 다운믹스 시그널 표현에 기초한 업믹스 시그널 표현을 제공하기 위한 장치, 멀티채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치, 왜곡 제어 시그널링을 이용하는 방법들, 컴퓨터 프로그램 및 비트 스트림 |
AU2010321013B2 (en) | 2009-11-20 | 2014-05-29 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
TWI444989B (zh) | 2010-01-22 | 2014-07-11 | Dolby Lab Licensing Corp | 針對改良多通道上混使用多通道解相關之技術 |
MX2012011532A (es) | 2010-04-09 | 2012-11-16 | Dolby Int Ab | Codificacion a estereo para prediccion de complejos basados en mdct. |
GB2485979A (en) | 2010-11-26 | 2012-06-06 | Univ Surrey | Spatial audio coding |
JP2012151663A (ja) | 2011-01-19 | 2012-08-09 | Toshiba Corp | 立体音響生成装置及び立体音響生成方法 |
WO2012122397A1 (en) * | 2011-03-09 | 2012-09-13 | Srs Labs, Inc. | System for dynamically creating and rendering audio objects |
US10051400B2 (en) | 2012-03-23 | 2018-08-14 | Dolby Laboratories Licensing Corporation | System and method of speaker cluster design and rendering |
US9761229B2 (en) * | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
US9516446B2 (en) * | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
JP6186435B2 (ja) | 2012-08-07 | 2017-08-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング |
US9805725B2 (en) | 2012-12-21 | 2017-10-31 | Dolby Laboratories Licensing Corporation | Object clustering for rendering object-based audio content based on perceptual criteria |
JP6019266B2 (ja) | 2013-04-05 | 2016-11-02 | ドルビー・インターナショナル・アーベー | ステレオ・オーディオ・エンコーダおよびデコーダ |
EP3270375B1 (en) | 2013-05-24 | 2020-01-15 | Dolby International AB | Reconstruction of audio scenes from a downmix |
MY173644A (en) | 2013-05-24 | 2020-02-13 | Dolby Int Ab | Audio encoder and decoder |
CA3211308A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Coding of audio scenes |
-
2014
- 2014-05-23 ES ES14730451.3T patent/ES2640815T3/es active Active
- 2014-05-23 EP EP14730451.3A patent/EP3005356B1/en active Active
- 2014-05-23 WO PCT/EP2014/060733 patent/WO2014187990A1/en active Application Filing
- 2014-05-23 US US14/893,485 patent/US9892737B2/en active Active
- 2014-05-23 KR KR1020157033447A patent/KR101760248B1/ko active IP Right Grant
- 2014-05-23 JP JP2016513405A patent/JP6190947B2/ja active Active
- 2014-05-23 RU RU2015150055A patent/RU2630754C2/ru active
- 2014-05-23 BR BR112015029129-5A patent/BR112015029129B1/pt active IP Right Grant
- 2014-05-23 CN CN201480029540.0A patent/CN105229732B/zh active Active
- 2014-05-23 BR BR122020017144-8A patent/BR122020017144B1/pt active IP Right Grant
-
2016
- 2016-02-03 HK HK16101241.7A patent/HK1213685A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
BR112015029129A2 (pt) | 2017-07-25 |
CN105229732A (zh) | 2016-01-06 |
BR122020017144B1 (pt) | 2022-05-03 |
HK1213685A1 (zh) | 2016-07-08 |
US20160125887A1 (en) | 2016-05-05 |
US9892737B2 (en) | 2018-02-13 |
CN105229732B (zh) | 2018-09-04 |
RU2630754C2 (ru) | 2017-09-12 |
JP2016522911A (ja) | 2016-08-04 |
ES2640815T3 (es) | 2017-11-06 |
KR101760248B1 (ko) | 2017-07-21 |
EP3005356A1 (en) | 2016-04-13 |
EP3005356B1 (en) | 2017-08-09 |
WO2014187990A1 (en) | 2014-11-27 |
KR20160003058A (ko) | 2016-01-08 |
BR112015029129B1 (pt) | 2022-05-31 |
RU2015150055A (ru) | 2017-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11705139B2 (en) | Efficient coding of audio scenes comprising audio objects | |
JP6190947B2 (ja) | オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化 | |
EP3127109B1 (en) | Efficient coding of audio scenes comprising audio objects | |
JP7413418B2 (ja) | 信号をインタリーブするためのオーディオ復号器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6190947 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |