JP2022506338A - オーディオ・エンコーダおよびオーディオ・デコーダ - Google Patents
オーディオ・エンコーダおよびオーディオ・デコーダ Download PDFInfo
- Publication number
- JP2022506338A JP2022506338A JP2021523656A JP2021523656A JP2022506338A JP 2022506338 A JP2022506338 A JP 2022506338A JP 2021523656 A JP2021523656 A JP 2021523656A JP 2021523656 A JP2021523656 A JP 2021523656A JP 2022506338 A JP2022506338 A JP 2022506338A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- audio objects
- dynamic
- objects
- bitstream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003068 static effect Effects 0.000 claims abstract description 132
- 238000000034 method Methods 0.000 claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000005236 sound signal Effects 0.000 claims description 27
- 238000009877 rendering Methods 0.000 claims description 22
- 239000000872 buffer Substances 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
Description
本願は、以下の優先権出願の優先権を主張する:米国仮出願第62/754,758号(整理番号:D18053USP1)、2018年11月2日出願、欧州特許出願第18204046.9号(整理番号:D18053EP)、2018年11月2日出願、および米国仮出願第62/793,073号(整理番号:D18053USP2)。これらはここに参照により組み込まれる。
本開示は、オーディオ符号化の分野に関し、特に、少なくとも2つのデコード・モードを有するオーディオ・デコーダ、ならびにそのようなオーディオ・デコーダのための関連するデコード方法およびデコード・ソフトウェアに関する。本開示は、さらに、対応するオーディオ・エンコーダ、およびそのようなオーディオ・エンコーダのための関連するエンコード方法およびエンコード・ソフトウェアに関する。
-オーディオ・ビットストリームを受領し、受領されたオーディオ・ビットストリームを一つまたは複数のバッファに格納する段階と、
-複数の異なるデコード・モードからデコード・モードを選択する段階であって、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび前記第2のデコード・モードのうち前記第1のデコード・モードのみが、動的オーディオ・オブジェクトのクラスターからの個々の動的オーディオ・オブジェクトのパラメトリック再構成を許容する、段階と;
-選択されたデコード・モードで前記一つまたは複数のバッファに結合されたコントローラを動作させる段階、
-選択されたデコード・モードが第2のデコード・モードである場合、当該方法はさらに、以下の段階をさらに含む:
・コントローラによって、受領されたオーディオ・ビットストリームにアクセスする段階と;
・コントローラによって、受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定する段階と;
・少なくとも、受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、コントローラによって、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを、あらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの集合にマッピングする段階とを含む。
オーディオ・オブジェクトの集合を受領するように構成された受領コンポーネントと;
前記オーディオ・オブジェクトの集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするように構成されたダウンミックス・コンポーネントであって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることが意図されており、前記静的オーディオ・オブジェクトの集合は、あらかじめ定義されたスピーカー構成に対応する、ダウンミックス・コンポーネントと;
前記あらかじめ定義されたスピーカー構成に対応する前記静的オーディオ・オブジェクトの集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために利用されるべきダウンミックス係数の第1の集合を決定するよう構成されたダウンミックス係数提供コンポーネントと;
前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化するように構成されたビットストリーム・マルチプレクサ。
-オーディオ・オブジェクトの集合を受領する段階;
-前記オーディオ・オブジェクトの集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスする段階であって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることを意図されており、前記静的オーディオ・オブジェクトの集合は、あらかじめ定義されたスピーカー構成に対応する、段階と;
-前記あらかじめ定義されたスピーカー構成に対応する前記静的オーディオ・オブジェクトの集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために使用されるダウンミックス係数の第1の集合を決定する段階と;
-前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化する段階。
・提示レベル(presentation level)が2以下である(ビットストリーム・パラメータ)。
・出力段が5.1.2出力のために構成されている(ユーザー・パラメータ)。
・A-JOCサブストリームは、最大5つのダウンミックス・オブジェクト(クラスター)を含む(ビットストリーム・パラメータ)。
・アプリケーションは、APIを介してコア・デコードを強制しない(ユーザー・パラメータ)。
1.「num_bed_obj_ajoc」が0より大きい(たとえば1~7)、または
2.「num_bed_obj_ajoc」がビットストリームに存在せず、「n_fullband_dmx_signals」が6より小さい。
・LFE(ゼロ~多)
・他のベッド・オブジェクト
・他の動的オブジェクト
・ISF。
・N dB(Ls+Lb)
として決定され、Tld信号はエンコーダ内で:
・M dB(Tfl+Tbl)
として決定される。
・gain_tfb_to_tm:上前方および/または上後方から上中央への利得
・gain_t2a、gain_t2b:上前方チャネルの、それぞれ前方チャネルおよびサラウンド・チャネルへの利得
・典型値/デフォルト:gain_t2aは-Inf dBにマップされ、gain_t2bは-3dBにマップされる。これは、-3dBでサラウンド・チャネルにダウンミックスすることを意味する。
・gain_t2d、gain_t2e:上後方チャネルの、前方またはサラウンド・チャネルへの利得
・典型値/デフォルト:gain_t2dは-Inf dBにマップされ、gain_t2eは-3dBにマップされる。これは、-3dBでサラウンド・チャネルにダウンミックスすることを意味する。
・gain_b4_to_b2:後方およびサラウンド・チャネルからサラウンド・チャネルへ
・典型値/デフォルト:-3dBにマップ。
Lout=Ld+(+M dB+gain_t2a)Tld=L+gain_t2a(Tfl+Tbl)
Lsout=(+N dB+gain_b4_to_b2)Lsd+(+M dB+gain_t2b)Tld=gain_b4_to_b2(Ls+Lb)+gain_t2b(Tfl+Tbl)
Lout=Ld+gain_t2a(Tld)=L+gain_t2a(Tfl)
Lsout=Lsd+gain_t2b(Tld)=Ls+gain_t2b(Tfl)
〔EEE1〕
受領されたオーディオ・ビットストリームを格納するための一つまたは複数のバッファと;
前記一つまたは複数のバッファに結合されたコントローラとを有するオーディオ・デコーダであって、前記コントローラは:
複数の異なるデコード・モードから選択されたデコード・モードで動作する段階であって、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび第2のデコード・モードのうち、前記第1のデコード・モードのみが、動的オーディオ・オブジェクトのクラスターからの個々のオーディオ・オブジェクトのパラメトリックな再構成を許容する、段階と;
選択されたデコード・モードが前記第2のデコード・モードである場合:
前記受領されたオーディオ・ビットストリームにアクセスし;
前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定し;
少なくとも前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを静的オーディオ・オブジェクトの集合にマッピングする段階とを実行するように構成され、前記静的オーディオ・オブジェクトの集合はあらかじめ定義されたスピーカー構成に対応する、
オーディオ・デコーダ。
〔EEE2〕
選択されたデコード・モードが前記第2のデコード・モードである場合、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするようにさらに構成されている、EEE1に記載のオーディオ・デコーダ。
〔EEE3〕
前記オーディオ・ビットストリームは、ダウンミックス係数の第1の集合を含み、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの前記集合にレンダリングするために、ダウンミックス係数の前記第1の集合を利用するように構成されている、EEE2に記載のオーディオ・デコーダ。
〔EEE4〕
前記コントローラは、エンコーダ側で前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つに適用された減衰に関する情報を受領するようにさらに構成され、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの前記集合にレンダリングするためにダウンミックス係数の前記第1の集合を使用するときに、しかるべくダウンミックス係数の前記第1の集合を修正するように構成されている、EEE3に記載のオーディオ・デコーダ。
〔EEE5〕
前記コントローラは、エンコーダ側で実行されるダウンミックス動作に関する情報を受領するようにさらに構成され、該情報は、オーディオ信号のもとのチャネル構成を定義し、前記ダウンミックス動作は、結果として、前記オーディオ信号を前記一つまたは複数の動的オーディオ・オブジェクトにダウンミックスすることになり、前記コントローラは、前記ダウンミックス情報に関する前記情報に基づいて、ダウンミックス係数の前記第1の集合の部分集合を選択するように構成されており、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするために、ダウンミックス係数の前記第1の集合を利用することは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするためにダウンミックス係数の前記第1の集合の該部分集合を利用することを含む、EEE3または4に記載のオーディオ・デコーダ。
〔EEE6〕
前記コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つのマッピングと、静的オーディオ・オブジェクトの前記集合の前記レンダリングとを、単一の行列を用いた組み合わされた計算において実行するように構成されている、EEE2ないし5のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE7〕
前記コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つの前記マッピングと、静的オーディオ・オブジェクトの前記集合の前記レンダリングとを、それぞれの行列を用いた個々の計算において実行するように構成されている、EEE2ないし5のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE8〕
前記受領されたオーディオ・ビットストリームは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つを識別するメタデータを含む、EEE1ないし7のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE9〕
前記メタデータは、前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個が、静的オーディオ・オブジェクトの前記集合にマッピングされるべきであることを示し、
前記メタデータに応答して、前記コントローラは、前記受領されたオーディオ・ビットストリーム内のあらかじめ定義された位置(単数または複数)から選択された前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個を、静的オーディオ・オブジェクトの前記集合にマッピングするように構成されている、
EEE8に記載のオーディオ・デコーダ。
〔EEE10〕
前記受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、N個より多くの動的オーディオ・オブジェクトを含む、EEE9に記載のオーディオ・デコーダ。
〔EEE11〕
前記受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、前記N個の動的オーディオ・オブジェクトと、K個のさらなる動的オーディオ・オブジェクトとを含み、前記コントローラは、静的オーディオ・オブジェクトの前記集合と、前記K個のさらなるオーディオ・オブジェクトとを出力オーディオ・チャネルの集合にレンダリングするように構成されている、EEE10に記載のオーディオ・デコーダ。
〔EEE12〕
前記メタデータに応答して、前記コントローラは、前記受領されたオーディオ・ビットストリーム内の前記一つまたは複数の動的オーディオ・オブジェクトのうちの最初のN個を、静的オーディオ・オブジェクトの前記集合にマッピングするように構成されている、EEE9ないし11のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE13〕
静的オーディオ・オブジェクトの前記集合は、M個の静的オーディオ・オブジェクトからなり、M>N>0である、EEE9ないし12のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE14〕
前記受領されたオーディオ・ビットストリームはさらに、一つまたは複数のさらなる静的オーディオ・オブジェクトを含む、EEE1ないし13のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE15〕
出力オーディオ・チャネルの前記集合は:ステレオ出力チャネル;5.1サラウンドサウンド音声出力チャネル;5.1.2没入的音声出力チャネル;または5.1.4没入的音声出力チャネルのいずれかである、EEE2またはEEE2を引用する先行するいずれかのEEEに記載のオーディオ・デコーダ。
〔EEE16〕
前記あらかじめ定義されたスピーカー構成は、5.0.2スピーカー構成である、EEE1ないし15のうちいずれか一項に記載のオーディオ・デコーダ。
〔EEE17〕
デコーダにおける方法であって:
オーディオ・ビットストリームを受領し、受領されたオーディオ・ビットストリームを一つまたは複数のバッファに格納する段階と;
複数の異なるデコード・モードからデコード・モードを選択する段階であって、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび前記第2のデコード・モードのうち前記第1のデコード・モードのみが、動的オーディオ・オブジェクトのクラスターからの個々の動的オーディオ・オブジェクトのパラメトリック再構成を許容する、段階と;
選択されたデコード・モードで前記一つまたは複数のバッファに結合されたコントローラを動作させる段階とを含み、
前記選択されたデコード・モードが前記第2のデコード・モードである場合、当該方法はさらに:
前記コントローラによって、前記受領されたオーディオ・ビットストリームにアクセスする段階と;
前記コントローラによって、前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定する段階と;
少なくとも、前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、前記コントローラによって、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを、あらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの集合にマッピングする段階とを含む、
方法。
〔EEE18〕
オーディオ・エンコーダであって、
オーディオ・オブジェクトの集合を受領するように構成された受領コンポーネントと;
オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするように構成されたダウンミックス・コンポーネントであって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることが意図されており、静的オーディオ・オブジェクトの前記集合は、あらかじめ定義されたスピーカー構成に対応する、ダウンミックス・コンポーネントと;
前記あらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの前記集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために利用されるべきダウンミックス係数の第1の集合を決定するよう構成されたダウンミックス係数提供コンポーネントと;
前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化するように構成されたビットストリーム・マルチプレクサとを有する、
エンコーダ。
〔EEE19〕
前記ダウンミックス・コンポーネントは、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの前記少なくとも1つを同定するメタデータを前記ビットストリーム・マルチプレクサに提供するようにさらに構成され、
前記ビットストリーム・マルチプレクサは、該メタデータを前記オーディオ・ビットストリームに多重化するようにさらに構成されている、
EEE18に記載のエンコーダ。
〔EEE20〕
当該エンコーダは、オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするときに、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つにおいて適用される減衰に関する情報を決定するようにさらに適応されており、
前記ビットストリーム・マルチプレクサは、さらに、減衰に関する該情報を前記オーディオ・ビットストリームに多重化するように構成されている、
EEE18または19に記載のエンコーダ。
〔EEE21〕
前記ビットストリーム・マルチプレクサはさらに、前記受領コンポーネントによって受領された前記オーディオ・オブジェクトのチャネル構成に関する情報を前記オーディオ・ビットストリームに多重化するように構成されている、EEE18ないし20のうちいずれか一項に記載のエンコーダ。
〔EEE22〕
エンコーダにおける方法であって:
オーディオ・オブジェクトの集合を受領する段階と;
前記オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスする段階であって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることを意図されており、静的オーディオ・オブジェクトの前記集合は、あらかじめ定義されたスピーカー構成に対応する、段階と;
前記あらかじめ定義されたスピーカー構成に対応する静的オーディオ・オブジェクトの前記集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために使用されるダウンミックス係数の第1の集合を決定する段階と;
前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化する段階とを含む、
方法。
〔EEE23〕
処理能力を有する装置によって実行されたときにEEE17ないし22のうちいずれか一項に記載の方法を実行するように適応された命令を有するコンピュータ可読媒体を備えるコンピュータ・プログラム・プロダクト。
Claims (23)
- 受領されたオーディオ・ビットストリームを格納するための一つまたは複数のバッファと;
前記一つまたは複数のバッファに結合されたコントローラとを有するオーディオ・デコーダであって、前記コントローラは:
前記受領されたオーディオ・ビットストリームを一つまたは複数の動的もしくは静的オーディオ・オブジェクトにデコードするための複数の異なるデコード・モードから選択されたデコード・モードで動作する段階であって、動的もしくは静的オーディオ・オブジェクトは時間変化するもしくは静的な空間位置に関連付けられたオーディオ信号を含み、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび第2のデコード・モードのうち、前記第1のデコード・モードのみが、前記ビットストリーム内の一つまたは複数のエンコードされた動的オーディオ・オブジェクトの、再構成された個々のオーディオ・オブジェクトへのフル・デコードを許容する、段階と;
選択されたデコード・モードが前記第2のデコード・モードである場合:
前記受領されたオーディオ・ビットストリームにアクセスし;
前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定し;
少なくとも前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを静的オーディオ・オブジェクトの集合にマッピングする段階とを実行するように構成され、前記静的オーディオ・オブジェクトの集合はあらかじめ定義された没入的スピーカー構成に対応する、
オーディオ・デコーダ。 - 選択されたデコード・モードが前記第2のデコード・モードである場合、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするようにさらに構成されている、請求項1に記載のオーディオ・デコーダ。
- 前記オーディオ・ビットストリームは、ダウンミックス係数の第1の集合を含み、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの前記集合にレンダリングするために、ダウンミックス係数の前記第1の集合を利用するように構成されている、請求項2に記載のオーディオ・デコーダ。
- 前記コントローラは、エンコーダ側で前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つに適用された減衰に関する情報を受領するようにさらに構成され、前記コントローラは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの前記集合にレンダリングするためにダウンミックス係数の前記第1の集合を使用するときに、しかるべくダウンミックス係数の前記第1の集合を修正するように構成されている、請求項3に記載のオーディオ・デコーダ。
- 前記コントローラは、エンコーダ側で実行されるダウンミックス動作に関する情報を受領するようにさらに構成され、該情報は、オーディオ信号のもとのチャネル構成を定義し、前記ダウンミックス動作は、結果として、前記オーディオ信号を前記一つまたは複数の動的オーディオ・オブジェクトにダウンミックスすることになり、前記コントローラは、前記ダウンミックス情報に関する前記情報に基づいて、ダウンミックス係数の前記第1の集合の部分集合を選択するように構成されており、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするために、ダウンミックス係数の前記第1の集合を利用することは、静的オーディオ・オブジェクトの前記集合を出力オーディオ・チャネルの集合にレンダリングするためにダウンミックス係数の前記第1の集合の該部分集合を利用することを含む、請求項3または4に記載のオーディオ・デコーダ。
- 前記コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つのマッピングと、静的オーディオ・オブジェクトの前記集合の前記レンダリングとを、単一の行列を用いた組み合わされた計算において実行するように構成されている、請求項2ないし5のうちいずれか一項に記載のオーディオ・デコーダ。
- 前記コントローラは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つの前記マッピングと、静的オーディオ・オブジェクトの前記集合の前記レンダリングとを、それぞれの行列を用いた個々の計算において実行するように構成されている、請求項2ないし5のうちいずれか一項に記載のオーディオ・デコーダ。
- 前記受領されたオーディオ・ビットストリームは、前記一つまたは複数の動的オーディオ・オブジェクトのうちの前記少なくとも1つを識別するメタデータを含む、請求項1ないし7のうちいずれか一項に記載のオーディオ・デコーダ。
- 前記メタデータは、前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個が、静的オーディオ・オブジェクトの前記集合にマッピングされるべきであることを示し、
前記メタデータに応答して、前記コントローラは、前記受領されたオーディオ・ビットストリーム内のあらかじめ定義された位置(単数または複数)から選択された前記一つまたは複数の動的オーディオ・オブジェクトのうちのN個を、静的オーディオ・オブジェクトの前記集合にマッピングするように構成されている、
請求項8に記載のオーディオ・デコーダ。 - 前記受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、N個より多くの動的オーディオ・オブジェクトを含む、請求項9に記載のオーディオ・デコーダ。
- 前記受領されたオーディオ・ビットストリームに含まれる前記一つまたは複数の動的オーディオ・オブジェクトは、前記N個の動的オーディオ・オブジェクトと、K個のさらなる動的オーディオ・オブジェクトとを含み、前記コントローラは、静的オーディオ・オブジェクトの前記集合と、前記K個のさらなるオーディオ・オブジェクトとを出力オーディオ・チャネルの集合にレンダリングするように構成されている、請求項10に記載のオーディオ・デコーダ。
- 前記メタデータに応答して、前記コントローラは、前記受領されたオーディオ・ビットストリーム内の前記一つまたは複数の動的オーディオ・オブジェクトのうちの最初のN個を、静的オーディオ・オブジェクトの前記集合にマッピングするように構成されている、請求項9ないし11のうちいずれか一項に記載のオーディオ・デコーダ。
- 静的オーディオ・オブジェクトの前記集合は、M個の静的オーディオ・オブジェクトからなり、M>N>0である、請求項9ないし12のうちいずれか一項に記載のオーディオ・デコーダ。
- 前記受領されたオーディオ・ビットストリームはさらに、一つまたは複数のさらなる静的オーディオ・オブジェクトを含む、請求項1ないし13のうちいずれか一項に記載のオーディオ・デコーダ。
- 出力オーディオ・チャネルの前記集合は:ステレオ出力チャネル;5.1サラウンドサウンド音声出力チャネル;5.1.2没入的音声出力チャネル;または5.1.4没入的音声出力チャネルのいずれかである、請求項2を引用する限りでの請求項1ないし14のうちいずれか一項に記載のオーディオ・デコーダ。
- 前記あらかじめ定義された没入的スピーカー構成は、5.0.2スピーカー構成である、請求項1ないし15のうちいずれか一項に記載のオーディオ・デコーダ。
- デコーダにおける方法であって:
オーディオ・ビットストリームを受領し、受領されたオーディオ・ビットストリームを一つまたは複数のバッファに格納する段階と;
前記受領されたオーディオ・ビットストリームを一つまたは複数の動的もしくは静的オーディオ・オブジェクトにデコードするための複数の異なるデコード・モードからデコード・モードを選択する段階であって、動的もしくは静的オーディオ・オブジェクトは時間変化するもしくは静的な空間位置に関連付けられたオーディオ信号を含み、前記複数の異なるデコード・モードは、第1のデコード・モードおよび第2のデコード・モードを含み、前記第1のデコード・モードおよび前記第2のデコード・モードのうち前記第1のデコード・モードのみが、前記ビットストリームにおける一つまたは複数のエンコードされた動的オーディオ・オブジェクトの、再構成された個々のオーディオ・オブジェクトへのフル・デコードを許容する、段階と;
選択されたデコード・モードで前記一つまたは複数のバッファに結合されたコントローラを動作させる段階とを含み、
前記選択されたデコード・モードが前記第2のデコード・モードである場合、当該方法はさらに:
前記コントローラによって、前記受領されたオーディオ・ビットストリームにアクセスする段階と;
前記コントローラによって、前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むかどうかを判定する段階と;
少なくとも、前記受領されたオーディオ・ビットストリームが一つまたは複数の動的オーディオ・オブジェクトを含むと判定することに応答して、前記コントローラによって、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つを、あらかじめ定義された没入的スピーカー構成に対応する静的オーディオ・オブジェクトの集合にマッピングする段階とを含む、
方法。 - オーディオ・エンコーダであって、
オーディオ・オブジェクトの集合を受領するように構成された受領コンポーネントと;
オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするように構成されたダウンミックス・コンポーネントであって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることが意図されており、前記静的オーディオ・オブジェクトは静的な空間位置に関連付けられたオーディオ信号を含み、静的オーディオ・オブジェクトの前記集合は、あらかじめ定義された没入的スピーカー構成に対応する、ダウンミックス・コンポーネントと;
前記あらかじめ定義された没入的スピーカー構成に対応する静的オーディオ・オブジェクトの前記集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために利用されるべきダウンミックス係数の第1の集合を決定するよう構成されたダウンミックス係数提供コンポーネントと;
前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化するように構成されたビットストリーム・マルチプレクサとを有する、
エンコーダ。 - 前記ダウンミックス・コンポーネントは、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの前記少なくとも1つを同定するメタデータを前記ビットストリーム・マルチプレクサに提供するようにさらに構成され、
前記ビットストリーム・マルチプレクサは、該メタデータを前記オーディオ・ビットストリームに多重化するようにさらに構成されている、
請求項18に記載のエンコーダ。 - 当該エンコーダは、オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスするときに、前記一つまたは複数の動的オーディオ・オブジェクトのうちの少なくとも1つにおいて適用される減衰に関する情報を決定するようにさらに適応されており、
前記ビットストリーム・マルチプレクサは、さらに、減衰に関する該情報を前記オーディオ・ビットストリームに多重化するように構成されている、
請求項18または19に記載のエンコーダ。 - 前記ビットストリーム・マルチプレクサはさらに、前記受領コンポーネントによって受領された前記オーディオ・オブジェクトのチャネル構成に関する情報を前記オーディオ・ビットストリームに多重化するように構成されている、請求項18ないし20のうちいずれか一項に記載のエンコーダ。
- エンコーダにおける方法であって:
オーディオ・オブジェクトの集合を受領する段階と;
前記オーディオ・オブジェクトの前記集合を一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトにダウンミックスする段階であって、前記一つまたは複数のダウンミックスされた動的オーディオ・オブジェクトのうちの少なくとも1つは、デコーダ側の複数のデコード・モードのうちの少なくとも1つにおいて、静的オーディオ・オブジェクトの集合にマッピングされることを意図されており、前記静的オーディオ・オブジェクトは静的な空間位置に関連付けられたオーディオ信号を含み、静的オーディオ・オブジェクトの前記集合は、あらかじめ定義された没入的スピーカー構成に対応する、段階と;
前記あらかじめ定義された没入的スピーカー構成に対応する静的オーディオ・オブジェクトの前記集合をデコーダ側の出力オーディオ・チャネルの集合にレンダリングするために使用されるダウンミックス係数の第1の集合を決定する段階と;
前記少なくとも1つのダウンミックスされた動的オーディオ・オブジェクトおよびダウンミックス係数の前記第1の集合をオーディオ・ビットストリームに多重化する段階とを含む、
方法。 - 処理能力を有する装置によって実行されたときに請求項17ないし22のうちいずれか一項に記載の方法を実行するように適応された命令を有するコンピュータ可読媒体を備えるコンピュータ・プログラム・プロダクト。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862754758P | 2018-11-02 | 2018-11-02 | |
EP18204046 | 2018-11-02 | ||
US62/754,758 | 2018-11-02 | ||
EP18204046.9 | 2018-11-02 | ||
US201962793073P | 2019-01-16 | 2019-01-16 | |
US62/793,073 | 2019-01-16 | ||
PCT/EP2019/079683 WO2020089302A1 (en) | 2018-11-02 | 2019-10-30 | An audio encoder and an audio decoder |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022506338A true JP2022506338A (ja) | 2022-01-17 |
JP7504091B2 JP7504091B2 (ja) | 2024-06-21 |
Family
ID=
Also Published As
Publication number | Publication date |
---|---|
WO2020089302A1 (en) | 2020-05-07 |
US20220005484A1 (en) | 2022-01-06 |
US11929082B2 (en) | 2024-03-12 |
BR112021008089A2 (pt) | 2021-08-03 |
CN113168838A (zh) | 2021-07-23 |
EP3874491A1 (en) | 2021-09-08 |
EP3874491B1 (en) | 2024-05-01 |
KR20210076145A (ko) | 2021-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11343631B2 (en) | Compatible multi-channel coding/decoding | |
KR102294767B1 (ko) | 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱 | |
US9966080B2 (en) | Audio object encoding and decoding | |
KR101049144B1 (ko) | 오디오 신호 처리방법 및 장치 | |
CN106463125B (zh) | 基于空间元数据的音频分割 | |
RU2643644C2 (ru) | Кодирование и декодирование аудиосигналов | |
EP3050055B1 (en) | Rendering of multichannel audio using interpolated matrices | |
CN107077861B (zh) | 音频编码器和解码器 | |
US11929082B2 (en) | Audio encoder and an audio decoder | |
US10176813B2 (en) | Audio encoding and rendering with discontinuity compensation | |
JP2017537342A (ja) | オーディオ信号のパラメトリック混合 | |
JP7504091B2 (ja) | オーディオ・エンコーダおよびオーディオ・デコーダ | |
RU2795865C2 (ru) | Звуковой кодер и звуковой декодер |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221024 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240205 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240514 |