JP2024510205A - ダウンミックスされた信号の適応利得制御を有するオーディオコーデック - Google Patents
ダウンミックスされた信号の適応利得制御を有するオーディオコーデック Download PDFInfo
- Publication number
- JP2024510205A JP2024510205A JP2023555510A JP2023555510A JP2024510205A JP 2024510205 A JP2024510205 A JP 2024510205A JP 2023555510 A JP2023555510 A JP 2023555510A JP 2023555510 A JP2023555510 A JP 2023555510A JP 2024510205 A JP2024510205 A JP 2024510205A
- Authority
- JP
- Japan
- Prior art keywords
- gain
- frame
- signal
- encoded
- downmixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003044 adaptive effect Effects 0.000 title description 25
- 238000000034 method Methods 0.000 claims abstract description 184
- 230000007704 transition Effects 0.000 claims abstract description 134
- 230000005236 sound signal Effects 0.000 claims abstract description 69
- 230000001052 transient effect Effects 0.000 claims description 60
- 238000009877 rendering Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 16
- 238000009499 grossing Methods 0.000 claims description 13
- 230000002441 reversible effect Effects 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 121
- 230000008569 process Effects 0.000 description 68
- 239000011159 matrix material Substances 0.000 description 17
- 230000003321 amplification Effects 0.000 description 9
- 238000002156 mixing Methods 0.000 description 9
- 238000003199 nucleic acid amplification method Methods 0.000 description 9
- 238000012804 iterative process Methods 0.000 description 8
- 238000012732 spatial analysis Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000011084 recovery Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Stereophonic System (AREA)
- Control Of Amplification And Gain Control (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
オーディオ信号に対して利得制御を実行する方法が提供される。いくつかの実施態様では、本方法は、符号化されるオーディオ信号の現フレームに関連付けられた1つ以上のダウンミックスチャネルに関連付けられているダウンミックスされた信号を求めることを含む。いくつかの実施態様では、本方法は、エンコーダーについて過負荷状態が存在するか否かを判断することを含む。いくつかの実施態様では、本方法は、利得パラメーターを求めることを含む。いくつかの実施態様では、本方法は、この利得パラメーターと、オーディオ信号の先行フレームに関連付けられた利得パラメーターとに基づいて、少なくとも1つの利得遷移関数を求めることを含む。いくつかの実施態様では、本方法は、少なくとも1つの利得遷移関数をダウンミックスされた信号のうちの1つ以上に適用することを含む。いくつかの実施態様では、本方法は、現フレームに適用された利得制御を示す情報に関して、ダウンミックスされた信号を符号化することを含む。【選択図】図2
Description
[関連出願の相互参照]
本出願は、2021年3月11日に出願された米国仮特許出願第63/159,807号、2021年3月16日に出願された米国仮特許出願第63/161,868号、及び2022年2月11日に出願された米国仮特許出願第63/267,878号の利益を主張し、これらを本願に援用する。
本出願は、2021年3月11日に出願された米国仮特許出願第63/159,807号、2021年3月16日に出願された米国仮特許出願第63/161,868号、及び2022年2月11日に出願された米国仮特許出願第63/267,878号の利益を主張し、これらを本願に援用する。
本開示は、適応利得制御のシステム、方法、及び媒体に関する。
利得制御は、例えば、信号を減衰させ、信号をコアコーデックによって予想される範囲内にするのに使用することができる。適用すべき利得を求める多くの利得制御技法は、遅延を必要とし、及び/又は、先行フレームに適用された利得パラメーターに依存する。そのような利得制御技法は、セルラー送信等のエラーを起こしやすい状況及び/又は会話等のリアルタイム処理を必要とする状況で利用されると、問題を引き起こすおそれがある。
表記法及び用語法
特許請求の範囲を含む本開示の全体を通して、「スピーカー」、「ラウドスピーカー」及び「オーディオ再生トランスデューサー」という用語は、同じ意味に使用され、任意の音放出トランスデューサー又は一組の音放出トランスデューサーを示す。通常のヘッドホンセットは、2つのスピーカーを含む。スピーカーは、ウーファー及びツイーター等の複数のトランスデューサーを含むように実装されてもよく、これらの複数のトランスデューサーは、単一の共通スピーカーフィードによって駆動されてもよく、複数のスピーカーフィードによって駆動されてもよい。いくつかの例では、スピーカーフィード(複数の場合もある)は、異なるトランスデューサーに結合された異なる回路ブランチにおいて異なる処理を受け得る。
特許請求の範囲を含む本開示の全体を通して、「スピーカー」、「ラウドスピーカー」及び「オーディオ再生トランスデューサー」という用語は、同じ意味に使用され、任意の音放出トランスデューサー又は一組の音放出トランスデューサーを示す。通常のヘッドホンセットは、2つのスピーカーを含む。スピーカーは、ウーファー及びツイーター等の複数のトランスデューサーを含むように実装されてもよく、これらの複数のトランスデューサーは、単一の共通スピーカーフィードによって駆動されてもよく、複数のスピーカーフィードによって駆動されてもよい。いくつかの例では、スピーカーフィード(複数の場合もある)は、異なるトランスデューサーに結合された異なる回路ブランチにおいて異なる処理を受け得る。
特許請求の範囲を含む本開示の全体を通して、信号又はデータ「に対して」操作を行う、例えば、信号若しくはデータに対してフィルタリング、スケーリング、変換、又は利得の適用を行うという表現は、広い意味で使用され、信号若しくはデータに対して直接操作を行うこと、又は信号若しくはデータの処理済みのものに対して操作を行うことを示す。例えば、操作は、信号に対してその操作を行う前にその信号に予備フィルタリング又は前処理を行ったものに対して行うことができる。
特許請求の範囲を含む本開示の全体を通して、「システム(system)」という表現は、広い意味で使用され、デバイス、システム、又はサブシステムを示す。例えば、デコーダーを実装するサブシステムを、デコーダーシステムと呼ぶことができ、そのようなサブシステムを含むシステム(例えば、複数の入力に応答してX個の出力信号を生成するシステムであって、サブシステムが、入力のうちのM個を生成し、他のX-M個の入力が外部発生源から受信される、システム)を、デコーダーシステムと呼ぶこともできる。
特許請求の範囲を含む本開示の全体を通して、「プロセッサ(processor)」という用語は、広い意味で使用され、オーディオ又はビデオ若しくは他の画像データを含み得るデータに対して操作を行うようにプログラム可能又は別様に構成可能な、例えばソフトウェア又はファームウェアを用いたシステム又はデバイスを示す。プロセッサの例としては、フィールドプログラマブルゲートアレイ(又は他の構成可能な集積回路若しくはチップセット)、オーディオ又は他の音データに対してパイプライン化処理を行うようにプログラムされた及び/又は別様に構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサ又はコンピューター、及びプログラマブルマイクロプロセッサチップ若しくはチップセットが挙げられる。
本開示の少なくともいくつかの態様は、方法によって実装し得る。いくつかの方法は、符号化されるオーディオ信号の現フレームに関連付けられた1つ以上のダウンミックスチャネルに関連付けられているダウンミックスされた信号を求めることを含み得る。いくつかの方法は、前記1つ以上のダウンミックスチャネルのうちの少なくとも1つの前記ダウンミックスされた信号を符号化するのに使用されるエンコーダーについて、過負荷状態が存在するか否かを判断することを含み得る。いくつかの方法は、前記過負荷状態が存在するとの判断に応答して、前記オーディオ信号の前記現フレームの前記1つ以上のダウンミックスチャネルのうちの前記少なくとも1つの利得パラメーターを求めることを含み得る。いくつかの方法は、前記利得パラメーターと、前記オーディオ信号の先行フレームに関連付けられた利得パラメーターとに基づいて、少なくとも1つの利得遷移関数を求めることを含み得る。いくつかの方法は、前記少なくとも1つの利得遷移関数を前記ダウンミックスされた信号のうちの1つ以上に適用することを含み得る。いくつかの方法は、前記現フレームに適用された利得制御を示す情報に関して、前記ダウンミックスされた信号を符号化することを含み得る。
いくつかの例では、前記少なくとも1つの利得遷移関数は、部分フレームバッファーを使用して求められる。いくつかの例では、前記部分フレームバッファーを使用して前記少なくとも1つの利得遷移関数を求めることは、実質的に0の付加遅延を導入する。
いくつかの例では、前記少なくとも1つの利得遷移関数は、過渡部分及び定常状態部分を含み、前記過渡部分は、前記オーディオ信号の前記先行フレームに関連付けられた前記利得パラメーターから前記オーディオ信号の前記現フレームに関連付けられた前記利得パラメーターへの遷移に対応する。いくつかの例では、前記過渡部分は、前記先行フレームの前記利得パラメーターに関連付けられた減衰が前記現フレームの前記利得パラメーターに関連付けられた減衰よりも大きいことに応答して、利得が前記現フレームのサンプルの一部分にわたって増加するフェードの過渡タイプを有する。いくつかの例では、前記過渡部分は、前記先行フレームの前記利得パラメーターに関連付けられた減衰が前記現フレームの前記利得パラメーターに関連付けられた減衰よりも小さいことに応答して、利得が前記現フレームのサンプルの一部分にわたって減少する逆フェードの過渡タイプを有する。いくつかの例では、前記過渡部分は、プロトタイプ関数及びスケーリング係数を使用して求められ、前記スケーリング係数は、前記現フレームに関連付けられた前記利得パラメーターと、前記先行フレームに関連付けられた前記利得パラメーターとに基づいて求められる。いくつかの例では、前記現フレームに適用された前記利得制御を示す前記情報は、前記少なくとも1つの利得遷移関数の前記過渡部分を示す情報を含む。
いくつかの例では、前記少なくとも1つの利得遷移関数は、前記過負荷状態が存在する前記1つ以上のダウンミックスチャネルの全てに適用される単一の利得遷移関数を含む。いくつかの例では、前記少なくとも1つの利得遷移関数は、前記1つ以上のダウンミックスチャネルの全てに適用される単一の利得遷移関数を含み、前記過負荷状態は、前記1つ以上のダウンミックスチャネルのサブセットについて存在する。いくつかの例では、前記少なくとも1つの利得遷移関数は、前記過負荷状態が存在する前記1つ以上のダウンミックスチャネルのそれぞれの利得遷移関数を含む。いくつかの例では、前記現フレームに適用された前記利得制御を示す前記情報を符号化するのに使用されるビット数は、前記過負荷状態が存在するダウンミックスチャネルの数とともに実質的に線形にスケーリングする。
いくつかの例では、いくつかの方法は、前記符号化されるオーディオ信号の第2のフレームに関連付けられた前記1つ以上のダウンミックスチャネルに関連付けられた第2のダウンミックスされた信号を求めることと、前記第2のフレームの前記1つ以上のダウンミックスチャネルのうちの少なくとも1つの前記エンコーダーについて、過負荷状態が存在するか否かを判断することと、前記第2のフレームについて前記過負荷状態が存在しないとの判断に応答して、非ユニティ利得を適用することなく、前記第2のダウンミックスされた信号を符号化することとを更に含み得る。いくつかの例では、いくつかの方法は、利得制御が前記第2のフレームに適用されないことを示すフラグをセットすることを更に含み得、前記フラグは1つのビットを含む。
いくつかの例では、いくつかの方法は、前記現フレームに適用された前記利得制御を示す前記情報を符号化するのに使用されるビット数を求めることと、前記現フレームに適用された前記利得制御を示す前記情報を符号化するために、1)前記現フレームに関連付けられたメタデータを符号化するのに使用されるビット、及び/又は、2)前記ダウンミックスされた信号を符号化するのに使用されるビットから、前記ビット数を配分することとを更に含み得る。いくつかの例では、前記ビット数は、前記ダウンミックスされた信号を符号化するのに使用されるビットから配分され、前記ダウンミックスされた信号を符号化するのに使用される前記ビットは、前記1つ以上のダウンミックスされたチャネルに関連付けられた空間方向に基づく順序で減少される。
いくつかの方法は、オーディオ信号の現フレームについて、前記オーディオ信号の符号化されたフレームをデコーダーにおいて受信することを含み得る。いくつかの方法は、前記オーディオ信号の前記符号化されたフレームを復号して、前記オーディオ信号の前記現フレームに関連付けられているダウンミックスされた信号と、エンコーダーによって前記オーディオ信号の前記現フレームに適用された利得制御を示す情報とを取得することを含み得る。いくつかの方法は、前記オーディオ信号の前記現フレームに関連付けられた1つ以上のダウンミックスされた信号に適用される逆利得関数を、前記オーディオ信号の前記現フレームに適用された前記利得制御を示す前記情報に少なくとも部分的に基づいて求めることを含み得る。いくつかの方法は、前記逆利得関数を前記1つ以上のダウンミックスされた信号に適用することを含み得る。いくつかの方法は、前記逆利得関数が適用された前記1つ以上のダウンミックスされた信号を含めて、前記ダウンミックスされた信号をアップミックスして、アップミックスされた信号を生成することであって、前記アップミックスされた信号はレンダリングに適していることを含み得る。
いくつかの例では、前記現フレームに適用された前記利得制御を示す前記情報は、前記オーディオ信号の前記現フレームに関連付けられた利得パラメーターを含む。いくつかの例では、前記逆利得関数は、前記オーディオ信号の前記現フレームの前記利得パラメーターと、前記オーディオ信号の先行フレームに関連付けられた利得パラメーターとに少なくとも部分的に基づいて求められる。
いくつかの例では、前記逆利得関数は、過渡部分及び定常状態部分を含む。
いくつかの例では、いくつかの方法は、前記デコーダーにおいて、第2の符号化されたフレームが受信されていないと判断することと、前記デコーダーによって代用フレームを復元して、前記第2の符号化されたフレームと置き換えることと、前記第2の符号化されたフレームに先行していた先行符号化フレームに適用された逆利得パラメーターを前記代用フレームに適用することとを更に含み得る。いくつかの例では、いくつかの方法は、前記第2の符号化されたフレームに後続する第3の符号化されたフレームを前記デコーダーにおいて受信することと、前記第3の符号化されたフレームを復号して、前記第3の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第3の符号化されたフレームに適用された利得制御を示す情報とを取得することと、前記エンコーダーによって前記第3の符号化されたフレームに適用された前記利得制御に関連付けられた逆利得パラメーターを用いて、前記代用フレームに適用された前記逆利得パラメーターを平滑化することによって、前記第3の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターを求めることとを更に含み得る。いくつかの例では、いくつかの方法は、前記第2の符号化されたフレームに後続する第3の符号化されたフレームを前記デコーダーにおいて受信することと、前記第3の符号化されたフレームを復号して、前記第3の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第3の符号化されたフレームに適用された利得制御を示す情報とを取得することと、前記第3の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターであって、前記第3の符号化されたフレームからの利得パラメーターの滑らかな遷移を実施するような逆利得パラメーターを求めることとを更に含み得る。いくつかの例では、受信されなかった前記第2の符号化されたフレームと、受信された前記第3の符号化されたフレームとの間に少なくとも1つの中間フレームがあり、前記少なくとも1つの中間フレームは、前記デコーダーにおいて受信されなかったものである。いくつかの例では、いくつかの方法は、前記第2の符号化されたフレームに後続する第3の符号化されたフレームを前記デコーダーにおいて受信することと、前記第3の符号化されたフレームを復号して、前記第3の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第3の符号化されたフレームに適用された利得制御を示す情報とを取得することと、前記第3の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターを、前記デコーダーにおいて受信されなかった前記第2の符号化されたフレームに先行していた前記デコーダーにおいて受信されたフレームに適用される逆利得パラメーターに少なくとも部分的に基づいて求めることとを更に含み得る。いくつかの例では、いくつかの方法は、前記第2の符号化されたフレームに後続する第3の符号化されたフレームを前記デコーダーにおいて受信することと、前記第3の符号化されたフレームを復号して、前記第3の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第3の符号化されたフレームに適用された利得制御を示す情報とを取得することと、前記第3の符号化されたフレームに適用された前記利得制御を示す前記情報に基づいて、前記デコーダーの内部状態を再スケーリングすることとを更に含み得る。
いくつかの例では、いくつかの方法は、前記アップミックスされた信号をレンダリングして、レンダリングされたオーディオデータを生成することを更に含み得る。いくつかの例では、いくつかの方法は、ラウドスピーカー又はヘッドホンのうちの1つ以上を使用して、前記レンダリングされたオーディオデータを再生することを更に含み得る。
本明細書において説明する操作、機能、及び/又は方法の一部又は全ては、1つ以上の非一時的媒体上に記憶された命令(例えば、ソフトウェア)に従って1つ以上のデバイスによって実行し得る。そのような非一時的媒体は、本明細書において説明されているようなメモリデバイスを含むことができ、このメモリデバイスは、ランダムアクセスメモリ(RAM)デバイス、リードオンリーメモリ(ROM)デバイス等を含むが、これに限定されるものではない。したがって、本開示に記載の主題のいくつかの革新的な態様を、ソフトウェアが記憶された1つ以上の非一時的媒体を介して実装することができる。
本開示の少なくともいくつかの態様を、装置によって実装し得る。例えば、1つ以上のデバイスは、本明細書において開示する方法を少なくとも部分的に実施し得る場合がある。いくつかの実施態様において、装置は、インターフェースシステム及び制御システムを有するオーディオ処理システムであるか又はこれを含む。制御システムは、1つ以上の汎用のシングルチッププロセッサ又はマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)若しくは他のプログラマブルロジックデバイス、ディスクリートゲートロジック又はトランジスタロジック、ディスクリートハードウェア構成要素、又はその組み合わせを含むことができる。
本明細書において説明する主題の1つ以上の実施態様の詳細は添付の図面及び下記明細書において説明される。他の特徴、態様及び有利な点は本明細書、図面及び特許請求の範囲から明らかとなる。以下の図の相対的な寸法は、一定比例尺に従って描かれない場合があることに留意されたい。
様々な図面における同様の参照符号及び記号は同様の要素を示す。
シーンベースのオーディオ、ステレオオーディオ、マルチチャネルオーディオ、及び/又はオブジェクトオーディオのいくつかのコード化(coding)技法は、ダウンミックス操作後に複数の成分信号をコード化することに依拠している。ダウンミックスは、削減された数のオーディオ成分を、波形を維持する波形符号化方法でコード化することを可能にし、残りの成分は、パラメトリックに符号化してもよい。受信機側では、残りの成分を、パラメトリック符号化を示すパラメトリックメタデータを使用して復元し得る。成分のサブセットのみが波形符号化され、パラメトリックに符号化された成分に関連付けられたパラメトリックメタデータは、ビットレートに関して効率的に符号化し得るので、そのようなコード化技法は、比較的ビットレート効率が良く、それでも、高品質のオーディオが可能であり得る。
起こり得る1つの問題は、空間エンコーダーによって求められるダウンミックスチャネルが、オーディオ信号ビットストリームを構築するコアコーデックによる後続の処理に適していないレベルを有する信号を含む場合があるということである。例えば、いくつかの場合には、ダウンミックス信号は、元の入力信号がその成分信号のいずれにおいても過負荷でないにもかかわらず、レベルが非常に高いことから、コアコーデックが過負荷になるレベルを有する場合がある。これは、復号及びレンダリングの後の復元された信号においてクリッピング等の深刻な歪みを引き起こすおそれがある。これは、最終的にレンダリングされた信号にかなりの品質損失を引き起こすおそれがある。1つの可能性のある解決策は、入力信号を減衰させてコアコーデックの過負荷を回避するものであり得る。しかしながら、この解決策は、信号を符号化するのに利用される量子化器が最適な範囲内で動作していない場合があるので、粒状雑音を増加させるという欠点を有する場合がある。
図1は、符号化された高次アンビソニックス(HOA:higher order Ambisonics)信号に対して利得制御を行う従来のシステムの概略ブロック図を示している。図1に示す概略図は、MPEG-H信号の符号化及び復号に使用され得る。MPEG-Hは、国際標準化機構(ISO:International Organization for Standardization)/国際電気標準会議(IEC:International Electrotechnical Commission)のムービングピクチャーエキスパートグループ(MPEG:Moving Picture Experts Group)による開発中の国際標準規格群である。MPEG-Hは、パート3のMPEG-H 3Dオーディオを含む様々なパートを有する。MPEG-Hオーディオは、セルラー通信等のエラーを起こしやすい伝送環境における会話アプリケーション用に設計されていないコーデックであるので、MPEG-Hオーディオコーデックは、厳密なコード化レイテンシー要件及び/又は厳密な伝送エラー耐性要件を満たさなくてもよいことに留意すべきである。上記のように適用される利得制御は、その結果、以下でより詳細に論述するように、再帰操作を利用することがあり、遅延を導入し得る。
エンコーダー102において、入力HOA信号が104において処理される。この処理は、例えば、分解を含むことができ、この分解において、ダウンミックスチャネルが生成される。ダウンミックスチャネルは、所与のフレームの[-max,max]によって拘束される(bound)一組の信号を含むことができる。コアエンコーダー108は、[-1,1)の範囲内の信号を符号化することができるので、コアエンコーダー108のこの範囲を超えるダウンミックスチャネルに関連付けられた信号のサンプルは、過負荷を引き起こすおそれがある。過負荷を回避するために、利得制御部106が、関連した信号がコアエンコーダー108の範囲内(例えば、[-1,1)内)になるようにフレームの利得を調整する。コアエンコーダー108は、符号化されたビットストリームを生成するコーデックとみなすことができる。パラメトリックに符号化されたチャネル等に関連付けられたメタデータを含み得る、分解/処理ブロック104によって生成されるサイド情報は、コアエンコーダー108の出力として生成される信号に関係するビットストリームに符号化され得る。
符号化されたビットストリームはデコーダー112によって受信される。デコーダー112は、サイド情報を抽出し、コアデコーダー116は、ダウンミックス信号を抽出し得る。逆利得制御ブロック120は、その後、エンコーダーによって適用される利得を反転し得る。例えば、逆利得制御ブロック120は、エンコーダー102の利得制御部106によって減衰された信号を増幅し得る。HOA信号は、その後、HOA復元ブロック122によって復元され得る。任意選択で、HOA信号は、レンダリング/再生ブロック124によってレンダリング及び/又は再生され得る。レンダリング/再生ブロック124は、例えば、復元されたHOA出力を、例えば、レンダリングされたオーディオデータとしてレンダリングする様々なアルゴリズムを含み得る。例えば、復元されたHOA出力をレンダリングすることは、HOA出力の1つ以上の信号を複数のスピーカーにわたって分配して特定の知覚的印象を実現することを含み得る。任意選択で、レンダリング/再生ブロック124は、レンダリングされたオーディオデータを提示する1つ以上のラウドスピーカー、ヘッドホン等を含むことができる。
利得制御部106は、次の技法を使用して利得制御を実施し得る。利得制御部106は、フレームにおける信号値の上限を最初に求めてもよい。例えば、MPEG-Hオーディオ信号の場合、この上限は、積
として表し得る。なお、この積は、MPEG-H標準規格において指定されたものである。上限が与えられると、必要とされる最小減衰が、スケーリングされた信号サンプルが間隔[-1,1)によって拘束されるようにし得る。換言すれば、スケーリングされたサンプルは、コアエンコーダー108の範囲内に存在し得る。これは、
の利得係数を適用することによって求め得る。ここで、
である。定義によれば、eminは負の数であり得る。いくつかの実施形態において、増幅は、最大増幅率
によって制限され得る。ここで、emaxは非負の整数である。したがって、減衰及び増幅の双方を行うために、利得パラメーターeを[emin,emax]の範囲内の値とする2eの利得係数を定義することができる。その結果、利得パラメーターeを表すのに必要とされる最小ビット数は、
として求められる。
として表し得る。なお、この積は、MPEG-H標準規格において指定されたものである。上限が与えられると、必要とされる最小減衰が、スケーリングされた信号サンプルが間隔[-1,1)によって拘束されるようにし得る。換言すれば、スケーリングされたサンプルは、コアエンコーダー108の範囲内に存在し得る。これは、
の利得係数を適用することによって求め得る。ここで、
である。定義によれば、eminは負の数であり得る。いくつかの実施形態において、増幅は、最大増幅率
によって制限され得る。ここで、emaxは非負の整数である。したがって、減衰及び増幅の双方を行うために、利得パラメーターeを[emin,emax]の範囲内の値とする2eの利得係数を定義することができる。その結果、利得パラメーターeを表すのに必要とされる最小ビット数は、
として求められる。
上述したように、特定のチャネルn及びフレームjの利得係数gn(j)は、1つのHOAブロックに対応する1フレーム遅延を適用し、以下の再帰操作を利用することによって求めてもよい。
上記式において、gn(j-2)は、フレーム(j-2)について適用される利得係数を表し、
は、フレームj-1の利得係数gn(j-1)を計算するのに必要とされる利得係数調整を表す。利得係数調整を求めるために、1フレームの遅延を導入する現フレームjからの情報が使用される。換言すれば、この技法を使用した利得係数の決定には、1フレーム遅延を導入するとともに、再帰計算を必要とする。
は、フレームj-1の利得係数gn(j-1)を計算するのに必要とされる利得係数調整を表す。利得係数調整を求めるために、1フレームの遅延を導入する現フレームjからの情報が使用される。換言すれば、この技法を使用した利得係数の決定には、1フレーム遅延を導入するとともに、再帰計算を必要とする。
利得gn(j-2)を知る必要があることは、エンコーダー状態とデコーダー状態との間にずれが存在する場合があり、したがって、利得がデコーダーによって正確に復元されない場合がある潜在的な伝送エラーの場合に問題であり得る。その上、符号化されたコンテンツが、ファイルの先頭以外等のランダムな位置においてアクセスされる場合には、先行フレーム情報がアクセス可能でない場合がある。再帰操作及び遅延を利用する従来の利得制御のこれらの欠点は、したがって、低遅延を必要とするコーデック及びセルラー伝送に利用されるようなエラーを起こしやすい環境における実施には適していない場合がある。
本明細書において、適応利得制御を提供する技法が開示されている。特に、本明細書に説明されているように、利得パラメーターは、コーデックによる使用のために生成されるルックアヘッドサンプルに基づいて求め得るので、ゼロ遅延を有する利得パラメーターを求め得る。コーデックは、知覚的エンコーダーによって使用されるものであり得ることに留意すべきである。その上、求められる利得パラメーターは、非再帰的に求めることができ、これによって、フレームがドロップされる場合があるエラーを起こしやすい環境において適応利得制御技法を利用することが可能になる。利得パラメーターの決定及び関連付けられた利得遷移関数(gain transition function)の適用は、図2~図6に図示され、図2~図6に関して以下で説明される。
また、いくつかの実施態様では、適応利得制御は、1つ以上のダウンミックスチャネルが、コーデックの予想範囲を超えることによってコーデックの過負荷状態を引き起こす信号に関連付けられている場合にのみ適用し得る。本明細書に説明されているように、過負荷状態が存在しない場合等の、利得制御が適用されない場合には、利得パラメーターは、そのフレームについて符号化されない場合がある。全てのフレームではなく、利得制御が適用される場合に利得パラメーターを選択的に符号化することによって、本明細書に説明される利得制御技法は、よりビットレート効率の高い符号化をもたらす。利得パラメーターのより効率的な符号化によって、より多くのビットをダウンミックスチャネルの符号化に利用することが可能になり、より高いオーディオ品質が最終的に得られる。利得情報の符号化に利用されるビットと、メタデータの符号化に使用されるビットと、ダウンミックスチャネルの符号化に使用されるビットとの間でビットを配分する技法は、図7及び図8に図示され、図7及び図8に関して以下で説明される。
図2は、いくつかの実施形態による低遅延適応利得制御を行う一例示のシステム200の概略ブロック図を示している。図示するように、システム200は、エンコーダー202及びデコーダー212を含む。エンコーダー202において、入力HOA信号(又は1次アンビソニック(FOA:first-order Ambisonic))信号が、空間符号化ブロック204によって処理を受ける。Nチャネル入力の場合には、空間符号化ブロック204は、一組のM個のダウンミックスチャネルを生成し得る。一組のダウンミックスチャネルにおけるダウンミックスチャネルの数は、1~Nの範囲内であり得る。例えば、FOA入力の場合には、ダウンミックスチャネルは、プライマリダウンミックスチャネルW’と、3つまでの残差チャネルX’、Y’、及びZ’とを含むことができる。プライマリダウンミックスチャネルW’は、様々な混合利得を使用して無指向性入力信号Wを指向性入力信号X、Y及びZと混合することによって生成することができる。残差チャネルX’、Y’、及びZ’はそれぞれ、プライマリダウンミックス信号から予測することができないX信号、Y信号、及びZ信号における信号成分に対応する。1つの例では、空間符号化ブロック204は、空間復元(SPAR:Spatial Reconstruction)技法を利用する。SPARについては、D. McGrath、S. Bruhn、H. Purnhagen、M. Eckert、J. Torres、S. Brown、及びD. Darcy著「Immersive Audio Coding for Virtual Reality Using a Metadata-assisted Extension of the 3GPP EVS Codec」(IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 730-734)に更に説明されている。この文献は、その全体が引用することによって本明細書の一部をなす。他の例では、空間符号化ブロック204は、カルーネンレーベ変換(KLT:Karhunen-Loeve Transform)等のエネルギーコンパクト変換(energy compacting transform)の他の任意の適した線形予測コーデックを利用し得る。いくつかの実施態様では、ダウンミックスチャネルは、コアエンコーダー208によって利用されるルックアヘッドサンプルを使用して生成される。いくつかの実施態様では、空間符号化ブロック204はサイド情報210を追加で生成し、このサイド情報は、コアエンコーダー208が利用してもよい。サイド情報210は、ダウンミックスされたチャネルをアップミックスするためにデコーダー212によって使用されるメタデータを含み得る。例えば、サイド情報210は、空間符号化ユニット204によってダウンミックスされた元のオーディオ入力の表現を復元するのに利用され得る。
M個のダウンミックスチャネルに関連付けられた信号は、その後、適応利得制御部206によって分析され得る。適応利得制御部206は、M個のダウンミックスチャネルのうちのいずれかに関連付けられた信号が、コアエンコーダー208によって予想される範囲を超えており、その結果、コアエンコーダー208を過負荷にするか否かを判断し得る。いくつかの実施形態において、適応利得制御部206が、M個のダウンミックスチャネルの信号のいずれもがコアエンコーダー208の予想範囲を超えていないとの判断等に応答して、利得を適用しないと判断する場合、適応利得制御部206は、利得制御が適用されないことを示すフラグをセットし得る。このフラグは、単一のビットの値をセットすることによってセットされ得る。いくつかの実施態様では、適応利得制御部206が利得を適用しないと判断する場合、適応利得制御部206は、フラグをセットせず、それによって、1つのビット(例えば、フラグに関連付けられたビット)を保存してもよいことに留意すべきである。例えば、いくつかの実施態様では、空間メタデータビットストリーム及び/又はコアエンコーダービットストリーム(知覚的エンコーダービットストリームであり得る)が自己終端している場合、ビットストリームに何らかの未読ビットがあるか否かを判断することによって、利得制御フラグの存在を判断し得る。未読ビットは、ビットストリーム内の残り物のビットであってもよい。M個のダウンミックスチャネルは、その後、サイド情報210に関してビットストリーム内を符号化するコアエンコーダー208に渡され得る。
逆に、適応利得制御部206が利得を適用すると判断する場合には、適応利得制御部206は、利得パラメーターを求め、求められた利得パラメーターに従って利得(複数の場合もある)をM個のダウンミックスチャネルに適用してもよい。利得が適用されたM個のダウンミックスチャネルは、その後、サイド情報210に関してビットストリーム内を符号化するコアエンコーダー208に渡され得る。利得パラメーターは、以下でより詳細に説明するように、例えば、利得パラメーターを示す一組のビットとしてサイド情報210に含められ得る。
いくつかの実施態様では、適応利得制御部206は、M個のダウンミックスされたチャネルの中でコアエンコーダー208の予想範囲を超える(例えば、過負荷状態を引き起こす)特定のチャネルについて現フレームjの利得パラメーターe(j)を求めることによって、適用される利得を求め得る。いくつかの実施態様では、利得パラメーターe(j)は、チャネルに関連付けられた信号を利得パラメーターに基づいて求められた利得係数によってスケーリングしたときに、チャネルに関連付けられた信号を予想範囲内にする最小の正の整数(0を含む)である。上述したように、予想範囲は、[01,1]であり得る。例えば、利得係数は、
であってもよい。いくつかの実施態様では、スケーリングされたチャネルに過負荷状態を回避させる利得パラメーターを特定するのではなく、信号が、利得係数によってスケーリングされると、過負荷状態に関連付けられた範囲よりも小さな範囲内になるような利得パラメーターを選択し得ることに留意すべきである。換言すれば、スケーリングされた信号が過負荷状態を回避するだけであるか、又は例えば或るヘッドルームを許容するために、過負荷状態に関連付けられた範囲よりも小さな或る所定の範囲内になるような利得パラメーターを選択してもよい。
であってもよい。いくつかの実施態様では、スケーリングされたチャネルに過負荷状態を回避させる利得パラメーターを特定するのではなく、信号が、利得係数によってスケーリングされると、過負荷状態に関連付けられた範囲よりも小さな範囲内になるような利得パラメーターを選択し得ることに留意すべきである。換言すれば、スケーリングされた信号が過負荷状態を回避するだけであるか、又は例えば或るヘッドルームを許容するために、過負荷状態に関連付けられた範囲よりも小さな或る所定の範囲内になるような利得パラメーターを選択してもよい。
いくつかの実施態様では、適応利得制御部206は、先行フレーム(例えば、第j-1フレーム)に関連付けられた利得パラメーターe(j-1)と現フレームの利得パラメーターe(j)との間で遷移する利得遷移関数を求め得る。いくつかの実施態様では、利得遷移関数は、利得パラメーターを、第j-1フレームにおける利得パラメーター(例えば、e(j-1))の値から現フレームの利得パラメーター(例えば、e(j))の値へ第jフレームのサンプルにわたって滑らかに遷移させ得る。したがって、利得遷移関数は、2つの部分、すなわち、1)過渡部分と、2)定常状態部分とを含み得る。過渡部分は、利得パラメーターが、先行フレームの利得パラメーターから現フレームの利得パラメーターへ遷移部分のサンプルにわたって遷移していく部分であり、定常状態部分は、利得パラメーターが、当該定常状態部分のサンプルについて現フレームの利得パラメーターの値を有する部分である。
いくつかの実施形態において、現フレームに適用される利得が先行フレームに適用された利得よりも小さい場合には、減衰量が現フレームのサンプルにわたって増加するので、過渡部分は、「フェード(fade)」の過渡タイプを有すると呼ぶことができる。現フレームに適用される利得が先行フレームに適用された利得よりも小さい場合は、e(j)>e(j-1)と表すことができる。いくつかの実施形態において、現フレームに適用される利得が先行フレームに適用された利得よりも大きい場合には、減衰量が現フレームのサンプルにわたって減少するので、過渡部分は、「逆フェード(reverse fade)」、又は「アンフェード(un-fade)」の過渡タイプを有すると呼ぶことができる。現フレームに適用される利得が先行フレームに適用された利得よりも大きい場合は、e(j)<e(j-1)と表すことができる。いくつかの実施形態において、現フレームに適用される利得が現フレームに適用される利得と同じである場合には、過渡部分は、当該過渡部分が過渡的でなく、むしろ定常状態部分と同じ値を有する「ホールド(hold)」の過渡タイプを有すると呼ぶことができる。現フレームに適用される利得が現フレームに適用される利得と同じである場合は、e(j)=e(j-1)と表すことができる。
いくつかの実施形態において、利得遷移関数の過渡部分は、利得遷移関数の過渡部のプロトタイプ形状を使用して求め得る。ここで、このプロトタイプ形状は、現フレームの利得パラメーターと先行フレームの利得パラメーターとの間の差に基づいてスケーリングされたものである。例えば、プロトタイプ形状は、e(j)-e(j-1)に基づいてスケーリングされ得る。例えば、プロトタイプ関数pは、1)p(0)=1(例えば、0dB)と、2)p(lend)=0.5(例えば、-6dB)との特性を有し得る。ここで、lendは、pが定義される右端のインデックスを表す。この例を続けると、そのようなプロトタイプ関数pを利用する利得遷移関数は、以下の式として表すことができる。
利得遷移関数の例であって、各例が「フェード」の過渡タイプを有する過渡部分を有する例が図3Aに示されている。図3Aに示す例では、各利得遷移関数は、0dBの利得を有する現フレームの先頭に対応し得るサンプル0から開始する過渡部分を有する。ここで、0dBは、先行フレーム(例えば、第j-1フレーム)の利得パラメーターである。図3Aに示す例では、各利得遷移関数の過渡部分は、利得遷移関数の定常状態部分に向かって約384個のサンプルにわたって変化する。図3Aに示す3つの利得遷移関数のそれぞれについて、定常状態部分は、先行フレームの利得に対してそれぞれ6dB、12dB、及び18dBの利得の増加を伴う第jフレームの異なる利得パラメーターに対応する。換言すれば、図3Aに示すように、3つの利得遷移関数について、それぞれexp=-[e(j)-e(j-1)]=-1、-2、及び-3である。図3Aに示す利得遷移関数のそれぞれについて、過渡部分は、同じ長さ(例えば、約384サンプル)であることに留意すべきである。定常状態部分の長さは、コーデックによって導入される遅延、例えば、図3Aに示す例では12ミリ秒に関係するオフセットに対応し得ることに留意されたい。それに対応して、過渡部分の長さは、このオフセットの逆数に関係し得る。図3Aに示す例では、過渡部分の長さは、フレーム長(例えば、20ミリ秒)からコーデック遅延(例えば、12ミリ秒)を引いたものである。コーデック遅延は、フレームサイズ遅延を除く総合的なコーダーのアルゴリズム的遅延であり得ることに留意されたい。
また、「逆フェード」又は「アンフェード」の過渡タイプの過渡部分を有する利得遷移関数は、図3Aに示す利得遷移関数の水平線にわたって反転された鏡像として表すことができることに留意すべきである。例として、水平線はx軸であってもよい。
図2を再び参照すると、デコーダー212は、符号化されたビットストリームを入力として受信することができ、HOA信号を、例えばレンダリング用に復元することができる。いくつかの実施形態において、コアデコーダー216は、利得がエンコーダー202によって適用されたM個のダウンミックスされたチャネルを受信し、M個のダウンミックスされたチャネルを逆利得制御部220に提供する。逆利得制御部220は、エンコーダー202によって適用された利得パラメーターをサイド情報210から取得する。例えば、いくつかの実施態様では、逆利得制御部220は、エンコーダー202によって適用された利得パラメーターe(j)をサイド情報210から取り出してもよい。また、逆利得制御ブロック220は、エンコーダーによって先行フレーム、例えばe(j-1)に適用された利得パラメーターを例えばメモリから取り出してもよい。逆利得制御ブロック220は、その後、取得された利得パラメーターを使用して、エンコーダー202によって適用された利得を反転してもよい。例えば、いくつかの実施態様では、逆利得制御部220は、先行フレームの利得パラメーターから現フレームの利得パラメーターに遷移する逆利得遷移関数を構築し得る。いくつかの実施態様では、逆利得遷移関数は、エンコーダー202によって適用される利得遷移関数を、中央の垂直線にわたってミラーリングし、垂直に調整したものであってもよい。例として、垂直線はy軸であってもよい。
図3Bを参照すると、いくつかの実施態様による、図3Aに示す利得遷移関数がエンコーダーによって適用されることに応答してデコーダーによって適用される逆利得遷移関数の一例が示されている。図示するように、逆利得遷移関数は、定常状態部分及び過渡部分を有する。逆利得遷移関数の定常状態部分の継続時間及び過渡部分の継続時間は、図3A及び図3Bに示すように、利得遷移関数の対応する定常状態部分及び過渡部分の継続時間に対応してもよく、例えば、それらと同じであってもよい。図示するように、図3Bに示す各逆利得遷移関数は、0dBから開始し、現在の第jフレームに適用される逆利得に向けて遷移する。すなわち、各逆利得遷移関数は、先行フレームj-1に適用された逆利得に対応する0dBから開始する。エンコーダーによって適用される利得が、図3Aの利得遷移関数に示すような0dB未満の利得を用いて示される減衰に対応する場合には、デコーダーによって適用される逆利得は、図3Bの利得遷移関数に示すような0dBよりも大きな利得を有する増幅に対応することに留意すべきである。逆に、エンコーダーによって適用される利得が、例えば、0dBよりも大きな利得を有する増幅に対応する場合には、デコーダーによって適用される逆利得は、例えば、0dB未満の利得を有する減衰に対応する。
図2を再び参照すると、逆利得が適用された後、逆利得が適用されたM個のダウンミックスチャネルは、空間復号ブロック222に提供される。空間復号ブロック222は、サイド情報210を使用してHOA信号を復元し得る。例えば、空間符号化ブロック204がSPAR技法を空間符号化に利用する場合には、空間復号ブロック222は、SPAR技法を利用して、サイド情報210に含まれるメタデータを使用して符号化された1つ以上のチャネルを復元してもよい。復元されたHOA出力は、その後、レンダリング/再生ブロック224によってレンダリングされ得る。例えば、レンダリング/再生ブロック224は、復元されたHOA出力を、例えば、レンダリングされたオーディオデータとしてレンダリングする様々なアルゴリズムを含み得る。例えば、復元されたHOA出力をレンダリングすることは、HOA出力の1つ以上の信号を複数のスピーカーにわたって分配して、特定の知覚的印象を実現することを含み得る。任意選択で、レンダリング/再生ブロック224は、レンダリングされたオーディオデータを提示する1つ以上のラウドスピーカー、ヘッドホン等を含んでもよい。
いくつかの実施態様では、デコーダーは、例えば、セルラー伝送中に発生し得るか、又は他のエラーを起こしやすい環境に関連して発生し得るフレームのドロップ又は喪失から回復する様々な技法を利用し得る。フレームがドロップされておらず、デコーダーが先行フレームに関連して利用される利得パラメーターにアクセスすることができる場合には、デコーダーは、先行フレームに関連付けられた利得パラメーターに基づいて逆利得遷移関数を求めてもよい。一方、フレームがドロップされている場合には、ドロップされたフレームの後の最初に回復されたフレーム(本明細書において「回復フレーム」と一般に呼ばれる)を処理するとき、先行フレーム及び関連付けられた利得パラメーターは欠落しているので、デコーダーは、回復されたフレームに先行するフレームの利得パラメーターにアクセスすることができない。したがって、いくつかの実施態様では、デコーダーは、ドロップされたフレームについて、任意の適したフレーム損失隠蔽技法を使用して代用フレームを復元し得る。デコーダーは、その後、先行して受信されたフレームの利得パラメーターを代用フレームに利用し得る。
図4は、いくつかの実施態様による一連のフレームのエンコーダー利得及び対応するデコーダー利得の一例を示している。図示するように、ドロップされたフレーム402(図4では「X」として示される)には、受信フレーム401が先行し、回復フレーム403が後続している。エンコーダーは、曲線404に示すように、エンコーダー利得GEを適用する。特に、GEは、受信フレーム401については0dBであり、ドロップされたフレーム402及び回復フレーム403について-18dBである。コアデコーダー出力レベル曲線406によって示されるように、ドロップされたフレーム402は、代用フレームを生成するフレーム損失隠蔽技法を使用して復元される。代用フレームは、408に示すように、先行フレームのデコーダー利得、例えば受信フレーム401の利得、すなわち0dBに対応するコーダーデコーダー出力レベルを有し得る。それに対応して、デコーダー利得曲線410によって示されるように、代用フレームは、412に示すように、先行フレーム、例えば受信フレーム401のデコーダー利得と同等のデコーダー利得G*を有する。
同様のプロセスは、ドロップされたフレーム414についても起こり得る。この場合、ドロップされたフレーム414のエンコーダー利得GEは0dBであるのに対して、先行受信フレーム413のエンコーダー利得は-18dBである。換言すれば、ドロップされたフレーム414は、-18dBから0dBへの利得遷移中に発生する。したがって、フレーム損失隠蔽技法を使用すると、コアデコーダー出力レベルは、代用フレームについて-18dBの利得を復元する。代用フレームの復元された利得は、416に示すように、先行受信フレーム413の-18dBのエンコーダー利得に対応する。それに対応して、代用フレームのデコーダー利得は、418に示すように、先行受信フレーム413のデコーダー利得、すなわち18dBとして設定され得る。ドロップされたフレーム420のエンコーダー利得が先行フレーム419のものと同じであるドロップされたフレーム420について、ドロップされたフレーム420に対応する代用フレームのデコーダー利得を設定することによって、先行フレーム419とドロップされたフレーム420との間の利得の変化がないので、デコーダー利得の不連続性がなくなることに留意されたい。
また、相対出力利得曲線422に示すように、代用フレームのデコーダー利得を先行して受信されたフレームのデコーダー利得と等しくなるように設定する技法を利用することによって、フレーム間に変動がないことを示す、全体として0dBの相対出力利得を得ることができることに留意すべきであり、これは、フレームにわたる出力利得の変化に起因する知覚的不連続性の削減に望ましいものであり得る。
いくつかの実施態様では、デコーダーは、先行して受信されたフレームの利得パラメーターから回復フレームの利得パラメーターに遷移する平滑化技法を実行して、例えば、利得パラメーターが受信されなかった代用フレームを平滑化し得る。
いくつかの実施態様では、平滑化技法は、デコーダーが、サンプルをブレンドする初期部分の間では増加された重みを代用フレームに与えるとともに、サンプルをブレンドする後続部分の間では増加された重みを回復フレームに与えるように、代用フレームと回復フレームとをブレンドすることを含み得る。
別の例として、いくつかの実施態様では、平滑化技法は、喪失フレームの利得を考慮するために回復フレームを復号する前にデコーダー状態メモリを調整することを含み得る。より詳細な例として、回復されたフレームの利得が過度に高いと判断された場合には、回復フレームが適切に低下されたデコーダー状態メモリを用いて復号されるように、デコーダー状態メモリを下方に調整してもよい。換言すれば、先行フレームの復元されたデコーダー利得G*が回復フレームのデコーダー利得G未満であるとの判断に応答して、デコーダー状態メモリを下方にスケーリングしてもよい。逆に、回復されたフレームの利得が過度に低いと判断された場合には、回復フレームが適切に増加されたデコーダー状態メモリを用いて復号されるように、デコーダー状態メモリを上方に調整してもよい。換言すれば、先行フレームの復元されたデコーダー利得G*が回復フレームのデコーダー利得Gよりも大きいとの判断に応答して、デコーダー状態メモリを上方にスケーリングしてもよい。したがって、回復フレームのデコーダー利得Gは、復元されたデコーダー利得G*に基づいて調整され得る。復元されたデコーダー利得G*は、ドロップされたフレームに先行していたフレーム、例えば、図4のフレーム401の利得に基づいて求め得るので、回復フレームのデコーダー利得Gは、ドロップされたフレームに先行していたフレームのデコーダー利得に少なくとも部分的に基づいて調整し得ることに留意されたい。
更に別の例として、いくつかの実施態様では、平滑化技法は、先行して受信されたフレームと回復フレームとの間に平滑化関数を適用することを含み得る。そのような平滑化関数は、デコーダーによって実施及び利用される平滑化関数に対応してもよく、それによって、追加のオーバーヘッドなしで平滑化を実行することが可能になる。或いは、いくつかの実施態様では、平滑化関数は、ドロップされたフレームの場合に利用される専用平滑化関数であり得る。そのような実施態様では、平滑化関数は、秒、ブロック、又はフレーム数によって示され得るパケット損失の継続時間に依存してもよく、これは、複数の連続したフレームがドロップされた場合に有利であり得る。
図5は、いくつかの実施態様による、利得パラメーターを求め、求められた利得パラメーターに従って利得をダウンミックスされた信号に適用するプロセス500の一例を示している。いくつかの実施態様では、プロセス500のブロックは、エンコーダーデバイスによって実行し得る。いくつかの実施態様では、プロセス500のブロックは、図5に示すもの以外の順序で実行し得る。いくつかの実施態様では、プロセス500の2つ以上のブロックは、実質的に並列に実行し得る。いくつかの実施態様では、プロセス500の1つ以上のブロックは省略し得る。
502において、プロセス500は、符号化されるオーディオ信号のフレームに関連付けられているダウンミックスされた信号を求め得る。例えば、いくつかの実施態様では、プロセス500は、任意の適した空間符号化技法を使用して、一組のダウンミックスされたチャネルを求め得る。空間符号化技法の例には、SPAR、線形予測技法等が含まれる。一組のダウンミックスされたチャネルは、1~Nの任意の数のチャネルを含んでもよく、ここで、Nは、入力チャネルの数であり、例えば、FOA信号の場合、Nは4である。ダウンミックスされた信号は、オーディオ信号の特定のフレームのダウンミックスされたチャネルに対応するオーディオ信号を含んでもよい。いくつかの実施態様では、プロセス500は、ダウンミックスされた信号を求めるのでなく、「トランスポート信号」を求め得ることに留意すべきである。そのようなトランスポート信号は、必ずしもダウンミックスされるとは限らない符号化される信号を指し得る。
504において、プロセス500は、拡張音声サービス(EVS:Enhanced Voice Services)コーデック及び/又は他の任意の適したコーデック等のコーデックの過負荷状態が存在するか否かを判断し得る。例えば、プロセス500は、少なくとも1つのダウンミックスチャネルの信号が所定の範囲、例えば、[-1,1)、及び/又は他の任意の適した範囲を超えているとの判断に応答して、過負荷状態が存在すると判断してもよい。
504において、過負荷状態が存在しないと判断された場合には(504において「no」)、プロセス500は、512に進むことができ、ダウンミックスされた信号を符号化することができる。例えば、いくつかの実施態様では、プロセス500は、メタデータ等のサイド情報に関して、ダウンミックスされた信号を符号化するビットストリームを生成することができる。このサイド情報は、デコーダーがダウンミックスされた信号をアップミックスして、例えば、FOA出力又はHOA出力を復元するのに利用することができる。
逆に、504において、過負荷状態が存在すると判断された場合には(504において「yes」)、プロセス500は、506に進むことができ、過負荷状態の回避をもたらすフレームの利得パラメーターを求めることができる。例えば、いくつかの実施態様では、プロセス500は、ダウンミックスされたチャネルのダウンミックスされた信号を、利得パラメーターに基づいて求められた利得係数によってスケーリングしたときに、ダウンミックスされた信号が所定の範囲内、例えば[-1,1)内になるような最小の正の整数を求めることによって利得パラメーターを求め得る。例えば、図2に関して上述したように、利得パラメーターは、現フレーム(j)の正の整数(0を含む)e(j)として表すことができ、ここで、ダウンミックスされた信号に利得係数2-e(j)を適用すると、ダウンミックスされた信号は所定の範囲内になる。
508において、プロセス500は、ブロック506において求められた現フレーム(例えば、フレームj)の利得パラメーターと、先行フレーム(例えば、フレームj-1)の利得パラメーターとに基づいて利得遷移関数を求めることができる。例えば、図2に関して上述したように、利得遷移関数は、過渡部分及び定常状態部分を有してもよく、定常状態部分は、現フレームの利得係数に対応し、過渡部分は、先行フレームの終端の利得係数から現フレームの定常状態部分の利得係数に遷移する現フレームのサンプルのサブセットの一続きの中間利得係数に対応する。
先行フレームの利得パラメーターが、現フレームの利得パラメーターよりも少ない減衰に対応する場合には、過渡部分は、「フェード」の過渡タイプを有するということができる。逆に、先行フレームの利得パラメーターが、現フレームの利得パラメーターよりも多くの減衰に対応する場合には、過渡部分は、「逆フェード」又は「アンフェード」の過渡タイプを有するということができる。先行フレームの利得パラメーターが、現フレームの利得パラメーターと同じである場合には、過渡部分は、「ホールド」の過渡タイプを有するということができる。過渡部分が「ホールド」の過渡タイプを有する場合には、過渡部分の間の利得遷移関数の値は、定常状態部分の間の利得遷移関数の値と同じものであってもよい。いくつかの実施態様では、利得遷移関数の過渡部分は、先行フレーム及び/又は現フレームの利得パラメーターに基づいてプロトタイプ関数をスケーリングすることによって求め得る。図2に関して上述したように、利得遷移関数の過渡部分の継続時間は、コーデックによって利用される遅延継続時間に対応し得る。
510において、プロセス500は、フレームに関連付けられているダウンミックスされた信号に利得遷移関数を適用し得る。例えば、いくつかの実施態様では、プロセス500は、ダウンミックスされた信号のサンプルを、利得遷移関数によって示される利得係数によってスケーリングし得る。より詳細な例として、いくつかの実施態様では、現フレームの最初のサンプルは、先行フレームの利得パラメーターに対応する利得係数によってスケーリングされ、現フレームの最後のサンプルは、現フレームの利得パラメーターに対応する利得係数によってスケーリングされ、間にあるサンプルは、利得遷移関数の過渡部分又は定常状態部分の利得パラメーターに対応する利得係数によってスケーリングされてもよい。例えば、ブロック502に関して上述したように、プロセス500がトランスポート信号に適用される場合には、プロセス500は、利得遷移関数をトランスポート信号に適用し得ることに留意されたい。
いくつかの実施態様では、利得遷移関数は、過負荷状態がブロック504において検出されたダウンミックスチャネルのダウンミックスされた信号にのみ適用し得ることに留意すべきである。例えば、過負荷状態がY’チャネル及びX’チャネルについて検出された場合には、Y’チャネル及びX’チャネルのそれぞれについて別々の利得遷移関数を求め、Y’チャネル及びX’チャネルの信号に適用してもよい。この例を続けると、利得遷移関数は、W’チャネル及びZ’チャネルに適用されない場合がある。そのような場合には、利得遷移関数が適用されるチャネルと、各チャネルの対応する利得パラメーターとの表示は、例えば、ブロック512において符号化され得る。或いは、いくつかの実施態様では、過負荷状態が1つのダウンミックスチャネルについてのみ存在する場合には、対応する利得遷移関数は、全てのダウンミックスチャネルに適用し得る。そのような場合には、利得遷移関数は全てのチャネルに適用されるので、利得が適用されたチャネルの表示を送信する必要はなく、これによって、ビットレート効率を高め得る。
512において、プロセス500は、ダウンミックスされた信号と、利得が適用された場合には、フレームの利得パラメーター(複数の場合もある)を示す情報とを符号化することができる。利得が適用された場合には、符号化されているダウンミックスされた信号は、ブロック510における利得遷移関数の適用後のダウンミックスされた信号であってもよい。ダウンミックスされた信号及び利得パラメーターを示す任意の情報は、ダウンミックスされた信号を復元又はアップミックスするためにデコーダーによって使用され得るメタデータ等の任意のサイド情報に関して、EVSコーデック等のコーデックによって符号化されてもよい。プロセス500が、例えば、ブロック502に関して上述したように、トランスポート信号を利用する場合には、プロセス500はトランスポート信号を符号化し得ることに留意されたい。
いくつかの実施態様では、プロセス500は、利得パラメーターを一組のビットによって符号化することができることに留意すべきである。いくつかの実施態様では、追加のビットを、例えば、遷移関数を示す例外フラグとして使用し得る。いくつかの実施態様では、利得遷移関数は、利得遷移関数の過渡部分に関連付けられたプロトタイプ関数を示し得る。いくつかの実施態様では、利得遷移関数は、突発的な比較的大きなレベル変化がフレーム間で発生し、その結果、滑らかな遷移を利得制御によって実施することができない場合に起こるハード遷移、例えばステップ関数を示し得る。例外フラグを使用してそのような例外を設定することによって、デコーダーは、ハード遷移を実施し得る。利得パラメーターは、x個のビットを使用して符号化されてもよく、xは、現フレームの利得パラメーターの量子化された値の数、例えば、e(j)の量子化された値の数に依存する。例えば、xは、ceil(log2(利得パラメーターの量子化された値の数)によって求め得る。1つの例では、e(j)が0、1、2、及び3の値を取り得る場合、xは2ビットである。
一意の利得遷移関数が、過負荷状態をトリガーする信号に関連付けられた各ダウンミックスチャネルに適用されるように、適応利得制御がチャネルごとに有効にされる場合には、利得制御が有効にされるチャネルごとにx個のビットが利用されてもよく、この場合チャネルごとの追加の1ビットインジケーターは、利得パラメーターが符号化されていることを示す。そのような場合には、利得制御情報を送信するのに使用される総ビット数はNdmx+(x+1)*Nである。ここで、Ndmxは、ダウンミックスチャネルの数を表し(単一のビットが、Ndmx個のチャネルのそれぞれについて、利得制御が有効にされるか否かを示すのに利用される)、Nは、利得制御が有効にされているチャネルの数を表す。利得制御が特定のフレームについて有効にされない場合には、例えば、Ndmx個のチャネルのそれぞれについて1ビットのNdmx個のビットを、利得制御が有効にされないことを示すのに使用し得ることに留意すべきである。ダウンミックスチャネルの数が1である場合、例えば、Wチャネルのみが波形符号化される場合には、利得制御情報を送信するのに使用される総ビット数は、(x+1)*Nによって表されることに留意されたい。例えば、1つのダウンミックスチャネルを仮定し、利得制御がこの1つのダウンミックスチャネルについて有効にされない場合には(例えば、N=0)、使用されるビット数は0である。この例を続けると、利得制御が有効にされる場合には(例えば、N=1)、使用されるビット数はx+1である。項「x+1」において、1は、1ビットの例外フラグ(例えば、以下でより詳細に説明するように、連続するフレーム間を遷移するためにステップ関数等のハード遷移が実施されることを示すのに使用され得る)を表すことに留意されたい。
過負荷状態をトリガーするダウンミックスチャネルに関連付けられた単一の利得遷移関数が全てのダウンミックスチャネルに適用される場合には、より少ないビットを利得制御情報の送信に使用し得る。例えば、現フレームの単一の利得パラメーターは、例えば遷移関数を示す例外フラグに関してx個のビットを使用して送信される。より詳細な例として、そのような実施態様では、利得制御情報を送信するためにフレームに使用される総ビット数は、x+1によって表される。
いくつかの実施態様では、プロセス500は、通常、HOA信号を復元するのに利用されるメタデータ等のサイド情報の送信に配分されるビットから、及び/又は、通常、ダウンミックスされたチャネルを符号化するために配分されるビットから、フレームの利得制御情報を送信するのに使用されるビットを配分し得る。利得制御ビットを配分する例示の技法は、図7及び図8に図示され、図7及び図8に関して以下で説明される。
図6は、いくつかの実施態様による、エンコーダーによって利用される利得パラメーターを取得し、取得された利得パラメーターに基づいて逆利得遷移関数を適用するプロセス600の一例を示している。いくつかの実施態様では、プロセス600のブロックは、デコーダーデバイスによって実行し得る。いくつかの実施態様では、プロセス600のブロックは、図6に示すもの以外の順序で実行し得る。いくつかの実施態様では、プロセス600の2つ以上のブロックは、実質的に並列に実行し得る。いくつかの実施態様では、プロセス600の1つ以上のブロックは省略され得る。
プロセス600は、オーディオ信号の符号化されたフレームを受信することによって602から開始し得る。受信フレーム(例えば、現フレーム)は、本明細書において第jフレームと一般に呼ばれる。受信フレームは、先行して受信されたフレームの直後のフレームである場合もあるし、先行して受信されたフレームの直後でないフレームである場合もある。
604において、プロセス600は、オーディオ信号の符号化されたフレームを復号して、ダウンミックスされた信号と、利得制御がエンコーダーによって適用された場合には、フレームに関連付けられた少なくとも1つの利得パラメーターを示す情報とを取得することができる。いくつかの実施態様では、プロセス600は、利得制御がエンコーダーによって適用されたか否かを、ハード遷移、例えばステップ関数遷移が実施されるか否かを示す例外フラグ、例えば1ビット例外フラグに基づいて判断し得る。換言すれば、例外フラグがセットされていない場合には、デコーダーは、滑らかな遷移が、連続するフレーム間で行われると判断し得る。エンコーダーがチャネル単位で利得制御を適用する場合には、プロセス600は、利得制御がどのダウンミックスチャネルに適用されたのかを更に特定し得る。
606において、プロセス600は、現フレーム(本明細書においてe(j)として一般に参照される)の利得パラメーターと、先行フレーム(例えば、本明細書においてe(j-1)として一般に参照される)の利得パラメーターとに基づいて逆利得遷移関数を求め得る。いくつかの実施態様では、プロセス600は、先行フレームの利得パラメーターを、メモリ、例えばデコーダー状態メモリから取り出してもよい。利得制御が先行フレームに適用されなかった場合には、プロセス600は、e(j-1)を0に設定してもよい。
いくつかの実施態様では、プロセス600は、エンコーダーにおいて適用された利得遷移関数の逆関数となるように逆利得遷移関数を求め得る。例えば、逆利得遷移関数は、利得遷移関数を水平線にわたってミラーリングして調整したものに対応してもよい。ミラーリング及び調整は、x軸に沿っていてもよい。そのような逆利得遷移関数の一例は、図3Bに図示され、図3Bに関して上述されている。いくつかの実施態様では、逆利得遷移関数は、先行フレームに適用された利得(その場合、利得は先行フレームの利得パラメーターに基づいて求められる。又は、利得制御が先行フレームに適用されなかった場合には、利得は0に設定される)に対応する定常状態部分を有し得る。逆利得遷移関数は、同時に、エンコーダーにおいて適用された利得遷移関数の過渡部分を反転したものである過渡部分を有し得る。例えば、現フレームに適用される利得が、先行フレームに対してより多くの減衰に対応する場合には、逆利得遷移関数は、より少ない増幅からより多くの増幅に遷移する過渡部分を有し得る。逆に、現フレームに適用される利得が、先行フレームに対してより少ない減衰に対応する場合には、逆利得遷移関数は、より多くの増幅からより少ない増幅に遷移する過渡部分を有し得る。過渡部分の継続時間は、コーデックによって導入される遅延に関係してもよく、この場合、過渡部分の継続時間は、フレーム長(例えば、20ミリ秒)からコーデック遅延(例えば、12ミリ秒)を引いたものである。コーデックによって導入される遅延がフレーム長よりも長い場合には、逆利得遷移は、1つのフレームの遅延を用いて適用し得ることに留意されたい。いくつかの場合には、遅延は、利得制御ビットからプロセス600によって(例えば、デコーダーによって)取得され得る。逆利得遷移関数は、エンコーダーの利得制御によって増幅された信号を減衰させるように機能することもできることに留意すべきである。
608において、プロセス600は、逆利得遷移関数をダウンミックスされた信号に適用して、エンコーダーによって適用された利得を反転し得る。例えば、逆利得遷移関数の適用は、エンコーダーによって減衰されているダウンミックスされた信号を増幅して、減衰を反転し得る。別の例として、逆利得遷移関数の適用は、エンコーダーによって増幅されているダウンミックスされた信号を減衰して、増幅を反転し得る。
610において、プロセス600は、ダウンミックスされた信号をアップミックスし得る。アップミックスは、空間エンコーダーによって行われ得る。いくつかの例では、空間エンコーダーは、SPAR技法を利用し得る。アップミックスされた信号は、復元されたFOAオーディオ信号又はHOAオーディオ信号に対応し得る。いくつかの実施態様では、プロセス600は、ビットストリームに符号化されたサイド情報、例えばメタデータを使用して信号をアップミックスしてもよく、この場合、サイド情報は、パラメトリックに符号化された信号を復元するのに利用され得る。
いくつかの実施態様では、612において、プロセス600は、アップミックスされた信号をレンダリングして、レンダリングされたオーディオデータを生成し得る。いくつかの実施態様では、プロセス600は、任意の適したレンダリングアルゴリズムを利用して、FOAオーディオ信号又はHOAオーディオ信号を、例えば、レンダリングされたシーンベースのオーディオデータにレンダリングし得る。いくつかの実施態様では、レンダリングされたオーディオデータは、例えば、その後の提示又は再生のために、任意の適したフォーマットで記憶され得る。いくつかの実施態様では、ブロック612は省略し得ることに留意すべきである。
いくつかの実施態様では、614において、プロセス600は、レンダリングされたオーディオデータを再生させ得る。例えば、いくつかの実施態様では、レンダリングされたオーディオデータは、ラウドスピーカー及び/又はヘッドホンのうちの1つ以上を介して提示され得る。いくつかの実施態様では、複数のラウドスピーカーを利用してもよく、これらの複数のラウドスピーカーは、3つの次元において互いに対して任意の適した位置又は向きに位置決めされ得る。いくつかの実施態様では、プロセス614は省略し得ることに留意すべきである。
図5に関して上述したように、利得制御情報、例えば、利得パラメーターを示す情報は、一組の利得制御ビットを使用して符号化され得る。いくつかの実施態様では、過負荷状態が検出されるダウンミックスチャネルごとに異なる利得パラメーター及び利得遷移関数が求められ得る。そのような実施態様では、図5に関して上述したように、利得制御がダウンミックスチャネルのそれぞれに適用されているか否かを示すのに利得制御ビットが必要とされ、利得パラメーターが、利得制御が適用されるダウンミックスチャネルのそれぞれについて符号化される。或いは、いくつかの実施態様では、過負荷状態が存在する1つのダウンミックスチャネルに基づいて求められる単一の利得遷移関数をダウンミックスチャネルの全てに適用し得る。そのような実施態様では、利得制御がダウンミックスチャネルごとに適用されているか否かを示すのに、個別のビットフラグは必要とされないので、必要とされる利得制御ビットは少なくなり、したがって、より高いビットレート効率の符号化が得られる。
過負荷状態が存在しないダウンミックスチャネルを含めて全てのダウンミックスチャネルに同じ利得遷移関数を適用することによって符号化のビットレート効率をより高くすることは、例えば、コーデックの過負荷が存在しない信号を減衰させることによって、知覚的品質の劣化をもたらす場合がある。対照的に、利得制御が各ダウンミックスチャネルに的を絞った方法で適用される、より的を絞った利得制御を利用すると、利得制御情報を送信するのにより多くのビットが必要とされる場合がある。一方、追加のビットを利用して、的を絞った利得制御情報、例えばチャネル固有の利得制御情報を送信するには、通常、ダウンミックスチャネルを波形符号化するのに使用されるビットの再配分が必要とされる場合があり、これは、いくつかの場合には知覚的品質を低下させる場合がある。したがって、同じ利得遷移関数を全てのダウンミックスチャネルに適用することと、チャネル固有の利得制御を適用することとの間に、状況に応じたトレードオフが存在し得る。利得制御が全てのダウンミックスチャネルにわたって適用されるのか、又は、的を絞ったチャネル単位で適用されるのかにかかわらず、利得制御情報に関連付けられたビットは、通常、ダウンミックスチャネルの波形符号化に使用されるビットから、及び/又は、通常、FOA信号又はHOA信号をダウンミックスチャネルから復元するのに使用されるメタデータ等のサイド情報の符号化に使用されるビットから配分されてもよく、それによって、ダウンミックスチャネル又はサイド情報のいずれかを符号化するための利用可能なビットの数が削減される。
以下では、利得制御情報を符号化するためのビット分配のより詳細な技法が説明される。背景を提供するために、図7Aは、図2~図6に関して上述した適応利得制御技法を利用するSPAR技法を使用してオーディオ信号を符号化及び復号するFOAコーデックを記載している。図7Aは、SPAR技法を空間符号化に利用することを記載しているが、図7A及び図8に関して説明される技法は、任意の適した空間符号化技法に関して利用し得ることに留意すべきである。図8は、いくつかの実施形態による、利得制御情報を符号化するのに使用されるビットを配分する一例示のプロセス800のフローチャートを示している。
図7Aは、いくつかの実施態様による、FOAをSPARフォーマットで符号化及び復号するFOAコーデック700のブロック図である。FOAコーデック700は、SPARエンコーダー701と、コアエンコーダー705と、適応利得制御(AGC:Adaptive Gain Control)エンコーダー713と、SPARデコーダー706と、コアデコーダー707と、AGCデコーダー714とを含む。いくつかの実施態様では、SPARエンコーダー701は、FOA入力信号を、SPARデコーダー706において入力信号を再生成するのに使用される一組のダウンミックスチャネル及びパラメーターに変換する。ダウンミックス信号は、1チャネル~4チャネルに変化することができ、パラメーターは、予測係数(PR)と、交差予測係数(C)と、無相関係数(P)とを含み得る。SPARを利用し、PRパラメーターと、Cパラメーターと、Pパラメーターとを使用してオーディオ信号のダウンミックスしたものからオーディオ信号を復元するより詳細な技法は、以下で更に詳細に説明される。
図7Aに示す例示の実施態様は、W(受動的予測(passive prediction))チャネル又はW’(能動的予測(active prediction))チャネルが単一の予測されたチャネルY’とともにSPARデコーダー706に送信される公称2チャネルダウンミックスを示していることに留意されたい。いくつかの実施態様では、W’は、アクティブチャネルとすることができる。アクティブW’ダウンミックスチャネルは、混合利得に基づいてXチャネル、Yチャネル、及びZチャネルをWチャネルに混合することによって構築され得る。1つの例では、Wチャネルの能動的予測は、以下の式を使用して求め得る。
上記式において、fは、Xチャネル、Yチャネル、ZチャネルのうちのいくつかをWチャネルに混合することを可能にする正規化された入力共分散の関数を表し、prY、prX、prZは予測係数を表す。いくつかの実施態様では、fは、定数、例えば0.50とすることもできる。受動的なWでは、f=0であり、したがって、Xチャネル、Yチャネル、ZチャネルをWチャネルに混合することは行われない。
交差予測係数(C)は、少なくとも1つのチャネルが残差として送信され、少なくとも1つのチャネルがパラメトリックに送信される、すなわち、2つ及び3つのチャネルダウンミックス用に送信される場合、パラメトリックチャネルの或る部分を残差チャネルから復元することを可能にする。2つのチャネルダウンミックス(以下で更に詳細に説明する)の場合、以下で更に詳細に説明するように、C係数は、Xチャネル及びZチャネルのうちのいくつかをY’から復元することを可能にし、PRパラメーター及びCパラメーターから復元することができない残りの信号成分は、Wチャネルの無相関化したものによって復元される。3つのチャネルダウンミックスの場合には、Y’及びX’が、Zだけを復元するのに使用される。
いくつかの実施態様では、SPARエンコーダー701は、受動/能動予測器ユニット702と、再混合ユニット703と、抽出/ダウンミックス選択ユニット704とを含む。いくつかの実施態様では、受動/能動予測器は、4チャネルBフォーマット(W、Y、Z、X)のFOAチャネルを受信し、ダウンミックスチャネル(W(又はW’)、Y’、Z’、X’の表現)を計算してもよい。
いくつかの実施態様では、抽出/ダウンミックス選択ユニット704は、以下でより詳細に説明するように、SPAR FOAメタデータをビットストリーム(例えば、没入型音声オーディオサービス(IVAS)ビットストリーム)のメタデータペイロードセクションから抽出する。受動/能動予測器ユニット702及び再混合ユニット703は、SPAR FOAメタデータを使用して、再混合されたFOAチャネル(W又はW’及びA')を生成する。これらのチャネルは、コアエンコーダー705に入力され、コア符号化ビットストリーム(例えば、EVSビットストリーム)に符号化され、このビットストリームは、SPARデコーダー706に送信されるIVASビットストリーム内にカプセル化される。この例では、アンビソニックBフォーマットチャネルがAmbiX規則で配置されることに留意されたい。ただし、ファーズ-マラム(FuMa:Furse-Malham)規則(W、X、Y、Z)等の他の規則も同様に使用することができる。
SPARデコーダー706を参照すると、コア符号化ビットストリーム(例えば、EVSビットストリーム)は、コアデコーダー707によって復号され、その結果、Ndmx(例えば、Ndmx=2)個のダウンミックスチャネルが得られる。いくつかの実施態様では、SPARデコーダー706は、SPARエンコーダー701によって実行された操作の逆を実行する。例えば、図7Aの例では、再混合されたFOAチャネル(W’、A’、B’、C’の表現)が、SPAR FOA空間メタデータを使用して2つのダウンミックスチャネルから回復される。再混合されたSPAR FOAチャネルは、逆混合器711に入力され、SPAR FOAダウンミックスチャネル(W'、Y’、Z’、X’の表現)が回復される。予測されたSPAR FOAチャネルは、その後、逆予測器712に入力され、元の混合されていないSPAR FOAチャネル(W、Y、Z、X)が回復される。
この2チャネルの例では、無相関器ブロック709A(dec1)及び709B(dec2)が、時間領域無相関器又は周波数領域無相関器を使用してW’チャネルの無相関化したものを生成するのに使用されることに留意されたい。ダウンミックスチャネル及び無相関化されたチャネルは、SPAR FOAメタデータと組み合わせて使用され、Xチャネル及びZチャネルがパラメトリックに復元される。Cブロック708は、図7Aに示すように、残差チャネルと2×1のC係数行列との乗算を表し、この乗算は2つの交差予測信号を生成し、これらの2つの交差予測信号は、パラメトリックに復元されたチャネルに加算される。P1ブロック710A及びP2ブロック710Bは、図7Aに示すように、無相関器出力と2×2のP係数行列の列との乗算を表し、これらの乗算は4つの出力を生成し、これらの4つの出力は、パラメトリックに復元されたチャネルに加算される。
いくつかの実施態様では、ダウンミックスチャネルの数に応じて、FOA入力のうちの1つ(Wチャネル)が、SPARデコーダー706にそのままの状態で送信され、他のチャネルのうちの1つ~3つ(Y、Z、及び/又はX)が、残差として又は完全にパラメトリックにSPARデコーダー706に送信される。ダウンミックスチャネルの数Ndmxにかかわらず同じままであるPR係数は、残差ダウンミックスチャネルにおける予測可能なエネルギーを最小にするのに使用される。C係数は、完全にパラメーター化されたチャネルを残差から再生成することを更に援助するのに使用される。したがって、C係数は、予測する残差チャネル又はパラメーター化されたチャネルがない1つ及び4つのチャネルダウンミックスの場合には必要とされない。P係数は、PR係数及びC係数によって考慮されない残りのエネルギーを埋めるのに使用される。P係数の数は、周波数帯域内のダウンミックスチャネルの数Nに依存する。いくつかの実施態様では、SPAR PR係数(受動的Wのみ)は、以下の4つのステップを使用して求められる。
ステップ1:サイド信号、例えば、Y、Z、Xを、無指向性信号を表すことができる主要なW信号から予測することができる。いくつかの実施態様では、サイド信号は、対応する予測されたチャネルに関連付けられている予測されたパラメーターに基づいて予測される。1つの例では、サイド信号Y、Z、及びXは、以下の式を使用して求め得る。
上記式において、各チャネルの予測パラメーターは、共分散行列に基づいて求め得る。1つの例では、
である。
上記式において、RABは、信号A及びBの入力共分散行列の要素を表す。いくつかの実施態様では、共分散行列は、周波数帯域ごとに求められ得る。予測パラメーターprz及びprxは、それぞれZ’残差チャネル及びX’残差チャネルについて、同様の方法で求め得ることに留意すべきである。本明細書において使用されるように、ベクトルPRは予測係数のベクトルを表すことに留意すべきである。例えば、ベクトルPRは、[pry,prz,prx]Tとして求められ得る。
ステップ2:Wチャネル並びに予測されたY’信号、Z’信号、及びX’信号を再混合し得る。本明細書において使用されるように、再混合することは、基準に基づいて信号を並べ替えること又は組み合わせ替えすることを指すことができる。例えば、いくつかの実施態様では、Wチャネル並びに予測されたY’信号、Z’信号、及びX’信号は、音響学的に最も関連のあるものから最も関連のないものに再混合され得る。より詳細な例として、いくつかの実施態様では、これらの信号は、入力信号をW、Y’、X’及びZ’に並べ替えることによって再混合され得る。なぜならば、左右方向からのオーディオキュー、例えばY’信号は、前後方向からのオーディオキュー、例えばX’信号よりも音響学的に関連している場合があり、また、前後方向からのオーディオキューは、上下方向からのオーディオキュー、例えばZ’信号よりも音響学的に関連している場合があるからである。一般に、再混合された信号は、以下の式を使用して求め得る。
上記式において、[remix]は、信号を並べ替える基準を示す行列を表す。
ステップ3:ダウンミックスチャネルの予測及び再混合の後の4つのチャネルの共分散を求め得る。例えば、予測後及び再混合後の4つのチャネルの共分散行列Rprは、以下の式によって求め得る。
上記式を使用すると、共分散行列Rprは、以下のフォーマットを有し得る。
上記式において、dは、残差チャネル(例えば、ダウンミックスされたチャネルの数がNdmxによって表される場合、残差チャネルは、2番目のチャネルからNdmx番目のチャネルである)を表し、uは、デコーダーによって完全に復元されるパラメトリックチャネル(例えば、Ndmx+1番目のチャネルから4番目のチャネル)を表す。A、B、及びCが、再混合されたXチャネル、Yチャネル、及び/又はZチャネルに対応する、Wチャネル、Aチャネル、Bチャネル、及びCチャネルの命名規則が与えられると、以下の表は、Ndmxの値を変化させた場合のdチャネル及びuチャネルを示している。
いくつかの実施態様では、Rpr共分散行列(上述)のRdd要素、Rud要素、及びRuu要素を利用すると、FOAコーデックは、完全パラメトリックチャネルの一部分をデコーダーに送信された残差チャネルから交差予測し得るか否かを判断してもよい。例えば、いくつかの実施態様では、交差予測係数Cは、共分散行列のRdd要素、Rud要素、及びRuu要素に基づいて求められ得る。1つの例では、交差予測係数Cは、以下の式によって求め得る。
Cは、3チャネルダウンミックスの場合には形状(1×2)であってもよく、2チャネルダウンミックスの場合には形状(2×1)であってもよいことに留意すべきである。
ステップ4:無相関器709A及び709Bによって復元されるパラメーター化されたチャネルにおける残りのエネルギーを求め得る。いくつかの実施形態において、残りのエネルギーは、行列Pによって表すことができる。Pは、共分散行列であってもよく、したがってエルミート対称であり得るため、いくつかの実施態様では、行列Pの上三角行列又は下三角行列からの要素のみがデコーダーに送信される。行列Pの対角要素は実数であってもよく、一方、非対角要素は複素数であってもよい。いくつかの実施態様では、行列Pによって表される残りのエネルギーは、アップミックスチャネルにおける残差エネルギーResuuに基づいて求め得る。1つの例では、Pは、以下の式によって求め得る。
別の例では、対角要素のみを使用して、Pのパラメーターを計算してもよく、周波数帯域ごとのデコーダーに送信されるPのパラメーターの数は、デコーダーにおいてパラメトリックに復元されるチャネルの数に等しい。このとき、Pは、以下の式によって求め得る。
上記式において、scaleは、正規化スケーリング係数を表す。いくつかの実施態様では、scaleは、広帯域値であり得る。1つの例では、scale=0.01である。或いは、いくつかの実施態様では、scaleは、周波数依存であってもよい。いくつかのそのような実施態様では、scaleは、異なる周波数帯域において異なる値を取り得る。1つの例では、スペクトルを12個の周波数帯域に分割されてもよく、scaleは、例えば、linspace(0.5,0.01,12)によって求められてもよい。
いくつかの実施態様では、アップミックスチャネルにおける残差エネルギーResuuは、予測後の実際のエネルギー(例えば、Ruu)及び再生成された交差予測エネルギーReguuに基づいて求め得る。1つの例では、アップミックスチャネルにおける残差エネルギーは、予測後の実際のエネルギーと再生成された交差予測エネルギーReguuとの間の差であってもよい。1つの例では、Resuu=Ruu-Reguuである。いくつかの実施態様では、再生成された交差予測エネルギーReguuは、交差予測係数及び予測共分散行列に基づいて求め得る。例えば、いくつかの実施態様では、Reguuは、以下の式によって求め得る。
図7Aを再び参照すると、いくつかの実施態様では、ダウンミックスされたチャネルに関連付けられた信号、例えば、W’、Y’、X’、及び/又はZ’は、AGCエンコーダー713に提供される。AGCエンコーダー713は、その後、ダウンミックスされたチャネルのうちの少なくとも1つについて過負荷状態が存在するとの判断に応答して、例えば、図2及び図5に関して上述した技法を使用して利得パラメーターを求め得る。利得パラメーター、並びにPR行列、C行列、及び/又はP行列に関連付けられた情報は、メタデータ等のサイド情報として符号化され得る。
図7Bは、一実施形態による、IVASビットストリームを符号化及び復号するIVASコーデック750のブロック図である。IVASコーデック750は、エンコーダー及び遠端デコーダーを含む。IVASエンコーダーは、空間分析ダウンミックスユニット752と、量子化エントロピーコード化ユニット753と、AGC利得制御ユニット762と、コア符号化ユニット756と、モード/ビットレート制御ユニット757とを含む。IVASデコーダーは、量子化エントロピー復号ユニット754と、コア復号ユニット758と、逆利得制御ユニット763と、空間合成/レンダリングユニット759と、無相関器ユニット761とを含む。
空間分析ダウンミックスユニット752は、オーディオシーンを表すNチャネル入力オーディオ信号751を受信する。入力オーディオ信号751は、モノ信号、ステレオ信号、バイノーラル信号、空間オーディオ信号、例えば、マルチチャネル空間オーディオオブジェクト、FOA、高次アンビソニックス(HOA)及び他の任意のオーディオデータを含むが、これらに限定されるものではない。Nチャネル入力オーディオ信号751は、空間分析ダウンミックスユニット752によって指定数(Ndmx)のダウンミックスチャネルにダウンミックスされる。この例では、NdmxはN以下である。空間分析ダウンミックスユニット752は、遠端IVASデコーダーがNdmx個のダウンミックスチャネルからのNチャネル入力オーディオ信号751と、空間メタデータと、デコーダーにおいて生成される無相関信号とを合成するために使用することができるサイド情報(例えば、空間メタデータ)も生成する。いくつかの実施形態において、空間分析ダウンミックスユニット752は、ステレオ/FOAオーディオ信号を分析/ダウンミックスする複合アドバンストカップリング(CACPL:complex advanced coupling)、及び/又は、FOAオーディオ信号を分析/ダウンミックスする空間復元器(SPAR)を実施する。他の実施形態において、空間分析ダウンミックスユニット752は、他のフォーマットを実施する。
Ndmx個のダウンミックスチャネルは、所与のフレームの[-max,max]によって拘束される一組の信号を含み得る。コアエンコーダー756は、[-1,1)の範囲内の信号を符号化することができるので、コアエンコーダー756の範囲を超えるダウンミックスチャネルに関連付けられた信号のサンプルは、過負荷を引き起こす場合がある。ダウンミックスチャネルを所望の範囲内に持って行くために、Ndmx個のチャネルは、利得制御ユニット762に供給され、利得制御ユニット762は、ダウンミックスチャネルがコアコーダーの範囲内になるようにフレームの利得を動的に調整する。利得調整情報(AGCメタデータ)は、量子化コード化ユニット753に送信され、量子化コード化ユニット753は、AGCメタデータをコード化する。
利得調整されたNdmx個のチャネルは、コア符号化ユニット756に含まれるコアコーデックの1つ以上のインスタンスによってコード化される。サイド情報、例えば空間メタデータ(MD:metadata)は、AGCメタデータとともに、量子化エントロピーコード化ユニット753によって量子化及びコード化される。コード化されたビットは、その後、IVASビットストリーム(複数の場合もある)内にともにパックされ、IVASデコーダーに送信される。一実施形態において、基本となるコアコーデックは、符号化されたビットストリームを生成するのに使用することができる任意の適したモノコーデック、ステレオコーデック又はマルチチャネルコーデックとすることができる。
いくつかの実施形態において、コアコーデックはEVSコーデックである。EVS符号化ユニット756は、3GPP TS26.445に準拠し、狭帯域(EVS-NB)及び広帯域(EVS-WB)の音声サービスの品質及びコード化効率の向上、超広帯域(EVS-SWB)音声を使用する品質向上、会話アプリケーションにおけるコンテンツ及び音楽を混合したものの品質向上、パケット損失及び遅延ジッターに対するロバスト性、並びにAMR-WBコーデックへの後方互換性等の広範囲の機能性を提供する。
デコーダーでは、Ndmx個のチャネルは、コア復号ユニット758に含まれるコアコーデックの対応する1つ以上のインスタンスによって復号され、AGCメタデータを含むサイド情報は、量子化エントロピー復号ユニット754によって復号される。FOA信号フォーマットのWチャネル等のプライマリダウンミックスチャネルは、無相関器ユニット761に供給され、無相関器ユニット761は、N-Ndmx個の無相関化されたチャネルを生成する。Ndmx個のダウンミックスチャネル及びAGCメタデータは、逆利得制御ブロック763に供給され、逆利得制御ブロック763は、利得制御ユニット762によって行われた利得調整を元に戻す。逆利得調整されたNdmx個のダウンミックスチャネルと、N-Ndmx個の無相関化されたチャネルと、サイド情報とは、空間合成/レンダリングユニット759に供給され、空間合成/レンダリングユニット759は、これらの入力を使用して、元のNチャネル入力オーディオ信号を合成又は再生成する。この信号は、オーディオデバイス760によって提示され得る。一実施形態において、Ndmx個のチャネルは、EVS以外のモノコーデックによって復号される。他の実施形態において、Ndmx個のチャネルは、1つ以上のマルチチャネルコアコード化ユニットと1つ以上のシングルチャネルコアコード化ユニットとを組み合わせたものによって復号される。
いくつかの実施態様では、FOAコーデックは、例えば、SPARにおけるPRパラメーター、Cパラメーター、及びPパラメーター等のパラメトリックに符号化されたチャネルを復元するのに利用される空間メタデータを符号化するのに使用されるビットと、ダウンミックスされたチャネルを符号化するのに使用されるビットとの間で、利得制御に使用されるビットを配分又は分配し得る。一般に、メタデータを符号化するのに使用されるビット数は、本明細書においてMDbitsとして一般に参照され、ダウンミックスされたチャネルを符号化するのに使用されるビット数は、本明細書においてEVSbitsとして一般に参照され、ここで、EVSは、ダウンミックスされたチャネルを符号化するのに使用される知覚的コーデックである。以下に示す例は、コーデックとしてEVSコーデックを使用することに言及しているが、以下で説明する技法は、他の任意の適したコーデックに適用し得ることに留意すべきである。いくつかの実施態様では、FOAコーデックは、1)利得情報を符号化するのに使用されるビット数を求めることと;2)メタデータを符号化するのに使用されるビット数を求める(例えば、MDbitsを求める)ことと;3)ダウンミックスされたチャネルを符号化するのに使用されるビット数を求める(例えば、EVSbitsを求める)ことと;4)メタデータ及び/又はダウンミックスされたチャネルを符号化するのに使用されるビットが、利得制御が適用されない(その結果、利得制御情報が符号化されない)場合と比較してより少なくなるように、メタデータビット及び/又はEVSbitsから利得制御ビットを配分することと、によって利得制御に使用されるビットを配分し得る。
図8は、いくつかの実施態様による、利得制御ビットを配分する一例示のプロセス800のフローチャートである。いくつかの実施態様では、プロセス800は、エンコーダーデバイスによって実行され得る。いくつかの実施態様では、プロセス800のブロックは、図8に示すもの以外の順序で実行し得る。いくつかの実施態様では、プロセス800の2つ以上のブロックは、実質的に並列に実行し得る。いくつかの実施態様では、プロセス800の1つ以上のブロックは省略し得る。
802において、プロセス800は、利得制御情報の符号化に使用されるビット数を求める得る。利得パラメーターを符号化するのに使用されるビット数は、本明細書において一般にxと表される。図5に関して上述したように、いくつかの実施態様では、共通の利得遷移関数が全てのダウンミックスチャネルに適用される場合には、利得制御情報を符号化するのに使用されるビット数は、x+1と表されてもよく、ここで、x個のビットは、利得パラメーター情報を符号化するのに使用され、単一のビットは、遷移関数を示すのに使用される。或いは、図5に関して上述したように、利得遷移関数が、過負荷状態が存在する各ダウンミックスチャネルに個別に適用される場合には、利得制御情報を符号化するのに使用されるビット数は、ダウンミックスチャネルの数(例えば、Ndmx)と、過負荷状態が存在する(その結果、利得制御が適用される)ダウンミックスチャネルの数Nとに依存し得る。そのような場合には、利得制御情報を符号化するのに使用されるビット数は、Ndmx+(x+1)*Nによって表すことができ、ここで、単一のビットは、各ダウンミックスチャネルについて、利得制御が適用されているか否かを示すのに使用され、例外フラグが、利得制御が適用されている各ダウンミックスチャネルについて遷移関数を示すのに利用される。ダウンミックスチャネルの数が1である(例えば、単一のWチャネルが利用される)場合には、利得制御情報の符号化に使用されるビット数は、1+(x+1)*Nと表すことができることに留意すべきである。
804において、プロセス800は、デコーダーがパラメトリックに符号化されたチャネルを復元するのに使用され得るメタデータ等のメタデータ情報の符号化に使用される、本明細書においてMDbitsとして一般に参照されるビット数を求め得る。いくつかの実施態様では、MDbitsは、MDbitsが、メタデータを符号化するのに使用される対象ビット数(本明細書においてMDtarとして一般に参照される)と、メタデータを符号化するのに使用され得る最大ビット数(本明細書において、MDmaxとして一般に参照される)との間の値になるように求め得る。いくつかの実施態様では、MDtarは、ダウンミックスチャネルを符号化するのに使用される対象ビット数(本明細書において、EVStarとして一般に参照される)に基づいて求められてもよく、MDmaxは、ダウンミックスチャネルを符号化するのに使用される最小ビット数(本明細書においてEVSminとして一般に参照される)に基づいて求められてもよい。1つの例では、以下の式となる。
上記式において、IVASbitsは、IVASコーデックに関連付けられた情報を符号化するのに利用可能なビット数を表し、headerbitsは、ビットストリームヘッダーを符号化するのに使用されるビット数を表す。いくつかの実施態様では、MDbitsは、MDmax以下であってもよい。換言すれば、メタデータを符号化するのに使用されるビット数は、オーディオ品質を維持するのに十分なビット数を用いてダウンミックスチャネルを符号化することを可能にするビット数であってもよい。
いくつかの実施態様では、MDbitsは、反復プロセスを使用して求め得る。そのような反復プロセスの一例は、以下のとおりである。
ステップ1:入力オーディオ信号のフレーム単位で、メタデータパラメーターを例えば非時間差分方法で量子化してもよく、例えば算術コーダーを使用してコード化してもよい。ビット数MDbitsが、メタデータ対象ビット数(例えば、MDtar)未満である場合には、反復プロセスは終了し、メタデータビットは、ビットストリームに符号化されてもよい。任意の余分なビット(例えば、MDtar-MDbits)は、コアエンコーダー、例えばEVSコーデックがダウンミックスチャネルを符号化するのに利用されてもよく、それによって、符号化されたダウンミックスオーディオチャネルのビットレートを増加させ得る。MDbitsが対象ビット数よりも大きい場合には、反復プロセスは、ステップ2に進んでもよい。
ステップ2:フレームに関連付けられたメタデータパラメーターのサブセットを量子化し、先行フレームの量子化されたメタデータパラメーター値から減算し、差分の量子化されたパラメーター値を(例えば、時間差分コード化を使用して)符号化してもよい。MDbitsの更新された値がMDtar未満である場合には、反復プロセスは終了してもよく、メタデータビットはビットストリームに符号化されてもよい。任意の余分なビット(例えば、MDtar-MDbits)は、コアエンコーダー、例えばEVSコーデックが利用してもよい。MDbitsが対象ビット数よりも大きい場合には、反復プロセスはステップ3に進み得る。
ステップ3:エントロピーを伴わずにメタデータパラメーターを量子化したときのMDbitsを求めてもよい。ステップ1、2及び3からのMDbitsの値は、メタデータを符号化するのに使用され得る最大ビット数(例えば、MDmax)と比較される。ステップ1、2、及び3からのMDbitsの最小値がMDmax未満である場合には、反復プロセスは終了し、メタデータは、MDbitsの最小値を使用してビットストリームに符号化され得る。メタデータ対象ビット数を超えるメタデータを符号化するのに使用されるビット(例えば、MDbits-MDtar)は、ダウンミックスチャネルを符号化するのに使用されるビットから配分され得る。一方、ステップ3において、ステップ1、2、及び3からのMDbitsの最小値がMDmaxを超えている場合には、反復プロセスはステップ4に進む。
ステップ4:メタデータパラメーターをより粗く量子化し、より粗く量子化されたパラメーターに関連付けられたビット数を、上記ステップ1~3に従って分析してもよい。より粗く量子化されたメタデータパラメーターであっても、メタデータビット数MDbitsが、メタデータを符号化する最大配分ビット数未満であるという基準を満たしていない場合には、最大配分ビット数内でのメタデータパラメーターの量子化を保証する量子化方式が利用される。
図8を再び参照すると、ブロック806において、プロセス800は、本明細書においてEVSbitsとして一般に参照される、ダウンミックスチャネルの符号化に使用されるビット数を求めることができる。ブロック804に関して上述したように、いくつかの実施態様では、ダウンミックスチャネルの符号化に使用されるビット数は、メタデータを符号化するのに使用されるビット数に依存し得る。例えば、メタデータパラメーターを符号化するのに使用されるビットが少なくなる場合には、ダウンミックスチャネルを符号化するのに使用され得るビットは多くなる。逆に、メタデータパラメーターを符号化するのに使用されるビットが多くなる場合には、ダウンミックスチャネルを符号化するのに使用され得るビットは少なくなる。1つの例では、EVSbitsは、以下の式によって求められ得る。
いくつかの実施態様では、ダウンミックスチャネルを符号化するのに利用可能なビット数(例えば、EVSbits)が、ダウンミックスチャネルを符号化するのに使用される対象ビット数(本明細書においてEVStarとして一般に参照される)未満である場合には、異なるダウンミックスチャネルにわたってビットを再配分し得る。いくつかの実施態様では、音響的顕著性(acoustic salience)又は音響的重要性(acoustic importance)に基づいて、チャネルからビットを再配分し得る。例えば、いくつかの実施態様では、上下方向、例えばZ’チャネルに対応するオーディオ信号は、他の方向、例えば、前後、すなわちX’チャネル、又は左右、すなわちY’チャネルよりも音響学的に関連性が少ない場合があるので、Z’、X’、Y’、及びW’の順序でチャネルからビットを取得してもよい。
逆に、いくつかの実施態様では、ダウンミックスチャネルを符号化するのに利用可能なビット数(例えば、EVSbits)が、対象ビット数EVStarよりも大きい場合には、追加のビットをダウンミックスチャネルに分配してもよい。いくつかの実施態様では、追加のビットの分配は、様々なダウンミックスチャネルの音響的重要性に従って行い得る。1つの例では、追加のビットが無指向性チャネルに優先的に配分されるように、W’、Y’、X’、及びZ’の順序で追加のビットを分配され得る。
808において、プロセス800は、利得制御ビット、メタデータビット、及び/又はダウンミックスチャネルビットの間のビット配分を求め得る。換言すれば、プロセス800は、ブロック802において求められた利得制御ビット数を使用して利得制御情報を符号化するために、メタデータビット(例えば、MDbits)及び/又はダウンミックスチャネルビット(例えば、EVSbits)を削減するビット数を求め得る。
いくつかの実施態様では、プロセス800は、ダウンミックスチャネルを符号化するのに使用されるビットを、利得制御情報を符号化するために配分し得る。例えば、いくつかの実施態様では、プロセス800は、利得制御情報を符号化するのに使用されるビット数だけEVSbitsを削減し得る。いくつかのそのような実施態様では、ダウンミックスチャネルを符号化するのに使用されるビットは、ダウンミックスチャネルの音響的重要性又は音響的関連性に基づく順序で利得制御情報を符号化するために配分され得る。1つの例では、ビットは、Z’、X’、Y’、及びW’の順序でダウンミックスチャネルから取得され得る。いくつかの実施態様では、単一のダウンミックスチャネルから利用することができる最大ビット数は、そのダウンミックスチャネルを符号化するのに使用される対象ビット数と、そのチャネルを符号化するのに使用される最小ビット数との間の差に対応し得る。いくつかの実施態様では、利得制御情報を符号化するために、ダウンミックスチャネルを符号化するために配分されたビットからの利用可能なビットがない場合には、プロセス800は、1つ以上のダウンミックスチャネルのビットレートを調整し、例えば、ビットレートを削減し、利得制御情報を符号化するためのビットを解放してもよい。1つの例では、全てのダウンミックスチャネルについて、EVSbitsが、そのダウンミックスチャネルを符号化するのに使用される最小ビット数に設定されている場合には、プロセス800は、ビットレートを削減し得る。或いは、いくつかの実施態様では、プロセス800は、メタデータパラメーターを符号化するのに使用されるビットから利得制御情報を符号化するビットを配分することもできる。
いくつかの実施態様では、プロセス800は、ダウンミックスチャネルを符号化するために配分されたビットと、メタデータパラメーターを符号化するために配分されたビットとの双方を使用して、利得制御情報を符号化するのに使用されるビットを配分し得ることに留意すべきである。例えば、いくつかの実施態様では、利得制御情報を符号化するのに必要とされるAGCbitsが与えられると、プロセス800は、例えば、ブロック804において求められるように、メタデータパラメーターを符号化するために当初配分されたビットからm個のビットを配分するとともに、例えば、ブロック806において求められるように、ダウンミックスチャネルを符号化するために当初配分されたビットからAGCbits-m個のビットを配分し得る。
プロセス800は、その後、入力オーディオ信号の次のフレームに進むことができる。
図9は、一実施形態による、IVASシステム900の例示の使用事例を示している。いくつかの実施形態において、様々なデバイスが、例えば、PSTN/他のPLMN904によって示される公衆交換電話網(PSTN:public switched telephone network)又は公衆陸上モバイルネットワークデバイス(PLMN:public land mobile network device)からオーディオ信号を受信するように構成されるコールサーバー902を通じて通信する。使用事例は、モノラルのみでオーディオをレンダリング及びキャプチャするレガシーデバイス906をサポートする。これらのレガシーデバイスは、拡張音声サービス(EVS)、マルチレート広帯域(AMR-WB:multi-rate wideband)及び適応マルチレート狭帯域(AMR-NB:adaptive multi-rate narrowband)をサポートするデバイスを含むが、これに限定されるものではない。使用事例は、ステレオオーディオ信号をキャプチャ及びレンダリングするユーザー機器(UE:user equipment)908及び/又は914、又はモノ信号をキャプチャし、マルチチャネル信号にバイノーラルにレンダリングするUE910もサポートする。使用事例は、ビデオ会議室システム916及び/又は918によってそれぞれキャプチャ及びレンダリングされる没入型信号及びステレオ信号もサポートする。使用事例は、ホームシアターシステム920のステレオオーディオ信号のステレオキャプチャ及び没入型レンダリング、並びに、仮想現実(VR:virtual reality)ギア922のオーディオ信号のモノキャプチャ及び没入型レンダリングのコンピューター912並びに没入型コンテンツインジェスト924もサポートする。
図10は、本開示の様々な態様を実施することが可能な装置の構成要素の例を示すブロック図である。本明細書に提供された他の図と同様に、図10に示す要素のタイプ及び数は、例として提供されているにすぎない。他の実施態様は、より多くのタイプ及び数の要素、より少ないタイプ及び数の要素、及び/又は異なるタイプ及び数の要素を含み得る。いくつかの例によれば、装置1000は、本明細書に開示された方法のうちの少なくともいくつかを実行するように構成され得る。いくつかの実施態様では、装置1000は、テレビ、オーディオシステムの1つ以上の構成要素、モバイルデバイス(携帯電話等)、ラップトップコンピューター、タブレットデバイス、スマートスピーカー、又は別のタイプのデバイスである場合もあるし、そのようなデバイス等を含む場合もある。
いくつかの代替の実施態様によれば、装置1000は、サーバーである場合もあるし、サーバーを含む場合もある。いくつかのそのような例では、装置1000は、エンコーダーである場合もあるし、エンコーダーを含む場合もある。したがって、いくつかの場合には、装置1000は、ホームオーディオ環境等のオーディオ環境内での使用向けに構成されるデバイスであってもよく、また他の場合には、装置1000は、「クラウド」における使用向けに構成されるデバイス、例えばサーバーであってもよい。
この例では、装置1000は、インターフェースシステム1005と、制御システム1010とを含む。インターフェースシステム1005は、いくつかの実施態様では、オーディオ環境の1つ以上の他のデバイスと通信するように構成され得る。オーディオ環境は、いくつかの例では、ホームオーディオ環境であってもよい。他の例では、オーディオ環境は、オフィス環境、自動車環境、列車環境、道路又は歩道環境、公園環境等の別のタイプの環境であってもよい。インターフェースシステム1005は、いくつかの実施態様では、制御情報及び関連付けられたデータをオーディオ環境のオーディオデバイスと交換するように構成され得る。制御情報及び関連付けられたデータは、いくつかの例では、装置1000が実行している1つ以上のソフトウェアアプリケーションに関係するものであってもよい。
インターフェースシステム1005は、いくつかの実施態様では、コンテンツストリームを受信又は提供するように構成され得る。コンテンツストリームは、オーディオデータを含み得る。オーディオデータは、オーディオ信号を含み得るが、これに限定されない。いくつかの場合には、オーディオデータは、チャネルデータ及び/又は空間メタデータ等の空間データを含み得る。いくつかの例では、コンテンツストリームは、ビデオデータと、このビデオデータに対応するオーディオデータとを含み得る。
インターフェースシステム1005は、1つ以上のネットワークインターフェース、及び/又は1つ以上のユニバーサルシリアルバス(USB:universal serial bus)インターフェース等の1つ以上の外部デバイスインターフェースを含み得る。いくつかの実施態様によれば、インターフェースシステム1005は、1つ以上の無線インターフェースを含み得る。インターフェースシステム1005は、1つ以上のマイクロホン、1つ以上のスピーカー、ディスプレイシステム、タッチセンサーシステム及び/又はジェスチャーセンサーシステム等のユーザーインターフェースを実施する1つ以上のデバイスを含み得る。いくつかの例では、インターフェースシステム1005は、制御システム1010と、図10に示す任意選択のメモリシステム1015等のメモリシステムとの間の1つ以上のインターフェースを含み得る。ただし、いくつかの場合には、制御システム1010がメモリシステムを含んでもよい。インターフェースシステム1005は、いくつかの実施態様では、環境内の1つ以上のマイクロホンからの入力を受信するように構成され得る。
制御システム1010は、例えば、汎用のシングルチッププロセッサ若しくはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブルロジックデバイス、ディスクリートゲートロジック若しくはトランジスタロジック、及び/又はディスクリートハードウェア構成要素を含み得る。
いくつかの実施態様では、制御システム1010は、2つ以上のデバイスに存在してもよい。例えば、いくつかの実施態様では、制御システム1010の一部分は、本明細書に示す環境のうちの1つにおけるデバイスに存在してもよく、制御システム1010の別の部分は、サーバー、モバイルデバイス(例えば、スマートフォン又はタブレットコンピューター)等のその環境の外部にあるデバイスに存在してもよい。他の例では、制御システム1010の一部分は、1つの環境内のデバイスに存在してもよく、制御システム1010の別の部分は、その環境の1つ以上の他のデバイスに存在してもよい。例えば、制御システム1010の一部分は、サーバー等のクラウドベースのサービスを実施しているデバイスに存在してもよく、制御システム1010の別の部分は、別のサーバー、メモリデバイス等のクラウドベースのサービスを実施している別のデバイスに存在してもよい。インターフェースシステム1005も、いくつかの例では、2つ以上のデバイスに存在してもよい。
いくつかの実施態様では、制御システム1010は、本明細書に開示された方法を少なくとも部分的に実行するように構成され得る。いくつかの例によれば、制御システム1010は、利得パラメーターを求めること、利得遷移関数を適用すること、逆利得遷移関数を求めること、逆利得遷移関数を適用すること、ビットストリームに対して利得制御用のビットを分配すること等の方法を実施するように構成され得る。
本明細書に記載の方法の一部又は全ては、1つ以上の非一時的媒体に記憶された命令(例えば、ソフトウェア)に従って1つ以上のデバイスによって実行され得る。そのような非一時的媒体は、本明細書に説明されているようなメモリデバイスを含んでもよく、このメモリデバイスは、ランダムアクセスメモリ(RAM)デバイス、リードオンリーメモリ(ROM)デバイス等を含むが、これらに限定されるものではない。1つ以上の非一時的媒体は、例えば、図10に示す任意選択のメモリシステム1015及び/又は制御システム1010に存在し得る。したがって、本開示に記載の主題の様々な革新的な態様は、ソフトウェアが記憶された1つ以上の非一時的媒体に実装することができる。ソフトウェアは、例えば、利得パラメーターを求める命令、利得遷移関数を適用する命令、逆利得遷移関数を求める命令、逆利得遷移関数を適用する命令、ビットストリームに対して利得制御用のビットを分配する命令等を含み得る。ソフトウェアは、例えば、図10の制御システム1010等の制御システムの1つ以上の構成要素によって実行可能であり得る。
いくつかの例では、装置1000は、図10に示す任意選択のマイクロホンシステム1020を含み得る。任意選択のマイクロホンシステム1020は、1つ以上のマイクロホンを含み得る。いくつかの実施態様では、マイクロホンのうちの1つ以上は、スピーカーシステムのスピーカー、スマートオーディオデバイス等の別のデバイスの一部である場合もあるし、別のデバイスに関連付けられたものである場合もある。いくつかの例では、装置1000は、マイクロホンシステム1020を含まない場合もある。一方、いくつかのそのような実施態様では、装置1000は、それにもかかわらず、オーディオ環境内の1つ以上のマイクロホンのマイクロホンデータを、インターフェースシステム1010を介して受信するように構成され得る。いくつかのそのような実施態様では、装置1000のクラウドベースの実施態様は、マイクロホンデータ、又はマイクロホンデータに少なくとも部分的に対応するノイズメトリックをオーディオ環境内の1つ以上のマイクロホンからインターフェースシステム1010を介して受信するように構成され得る。
いくつかの実施態様によれば、装置1000は、図10に示す任意選択のラウドスピーカーシステム1025を含み得る。任意選択のラウドスピーカーシステム1025は、1つ以上のラウドスピーカーを含み得る。これらのラウドスピーカーも、本明細書において「スピーカー」又はより一般的には「オーディオ再生トランスデューサー」と呼ばれる場合がある。いくつかの例、例えば、クラウドベースの実施態様では、装置1000は、ラウドスピーカーシステム1025を含まなくてもよい。いくつかの実施態様では、装置1000は、ヘッドホンを含み得る。ヘッドホンは、ヘッドホンジャック又は無線接続、例えばBLUETOOTHを介して装置1000に接続又は結合され得る。
本開示のいくつかの態様は、開示された方法の1つ以上の例を実行するように構成される、例えばプログラミングされるシステム又はデバイスと、開示された方法又はそれらのステップの1つ以上の例を実施するコードを記憶する有形のコンピューター可読媒体、例えば、ディスクとを含む。例えば、いくつかの開示されたシステムは、開示された方法又はそれらのステップの一実施形態を含む、データに対して様々な操作のうちの任意のものを実行するようにソフトウェア若しくはファームウェアを用いてプログラミングされ、及び/又は別の方法で構成されたプログラマブルな汎用プロセッサ、デジタル信号プロセッサ、又はマイクロプロセッサとすることもできるし、それらを含むものとすることもできる。そのような汎用プロセッサは、入力デバイスと、メモリと、アサートされたデータに応答して開示された方法(又はそれらのステップ)の1つ以上の例を実行するようにプログラミング(及び/又は別の方法で構成)される処理サブシステムとを含むコンピューターシステムである場合もあるし、コンピューターシステムを含むものである場合もある。
いくつかの実施形態は、開示された方法の1つ以上の例の実行を含めて、オーディオ信号(複数の場合もある)に対して必要とされる処理を実行するように構成される(例えば、プログラミング及び別の方法で構成される)構成可能(例えば、プログラマブル)なデジタル信号プロセッサ(DSP)として実施し得る。或いは、開示されたシステム(又はそれらの要素)の実施形態は、入力デバイス及びメモリを含み得るとともに、開示された方法の1つ以上の例を含む様々な操作のうちの任意のものを実行するようにソフトウェア又はファームウェアを用いてプログラミングされ及び/又は別の方法で構成される、汎用プロセッサ、例えば、パーソナルコンピューター(PC:personal computer)若しくは他のコンピューターシステム又はマイクロプロセッサとして実施し得る。或いは、本発明のシステムのいくつかの実施形態の要素は、開示された方法の1つ以上の例を実行するように構成される(例えば、プログラミングされる)汎用プロセッサ又はDSPとして実施され、システムは他の要素も含む。他の要素は、1つ以上のラウドスピーカー及び/又は1つ以上のマイクロホンを含み得る。開示された方法の1つ以上の例を実行するように構成される汎用プロセッサは、入力デバイスに結合され得る。入力デバイスの例は、例えば、マウス及び/又はキーボードを含む。汎用プロセッサは、メモリ、ディスプレイデバイス等に結合され得る。
本開示の別の態様は、例えば、開示された方法又はそれらのステップの1つ以上の例を実行するために実行可能なコーダーによって実行されるコードを記憶するディスク又は他の有形の記憶媒体等のコンピューター可読媒体である。
本開示の特定の実施形態及び本開示の適用例を本明細書に説明してきたが、本明細書に説明及び特許請求された本開示の範囲から逸脱することなく、本明細書に説明された実施形態及び適用例に対する多くの変形が可能であることが当業者に明らかであろう。本開示のいくつかの形態を図示及び説明してきたが、本開示は、説明及び図示された特定の実施形態にも、説明された特定の方法にも限定されるものでないことが理解されるべきである。
Claims (30)
- 符号化されるオーディオ信号の現フレームに関連付けられた1つ以上のダウンミックスチャネルに関連付けられているダウンミックスされた信号を求めることと、
前記1つ以上のダウンミックスチャネルのうちの少なくとも1つの前記ダウンミックスされた信号を符号化するのに使用されるエンコーダーについて、過負荷状態が存在するか否かを判断することと、
前記過負荷状態が存在するとの判断に応答して、前記オーディオ信号の前記現フレームの前記1つ以上のダウンミックスチャネルのうちの前記少なくとも1つの利得パラメーターを求めることと、
前記利得パラメーターと、前記オーディオ信号の先行フレームに関連付けられた利得パラメーターとに基づいて、少なくとも1つの利得遷移関数を求めることと、
前記ダウンミックスされた信号のうちの1つ以上に前記少なくとも1つの利得遷移関数を適用することと、
前記現フレームに適用された利得制御を示す情報に関して前記ダウンミックスされた信号を符号化することと、
を含む、オーディオ信号に対して利得制御を実行する方法。 - 前記少なくとも1つの利得遷移関数は、部分フレームバッファーを使用して求められる、請求項1に記載の方法。
- 前記部分フレームバッファーを使用して前記少なくとも1つの利得遷移関数を求めることは、実質的に0の付加遅延を導入する、請求項2に記載の方法。
- 前記少なくとも1つの利得遷移関数は、過渡部分及び定常状態部分を含み、前記過渡部分は、前記オーディオ信号の前記先行フレームに関連付けられた前記利得パラメーターから前記オーディオ信号の前記現フレームに関連付けられた前記利得パラメーターへの遷移に対応する、請求項1から3のいずれか1項に記載の方法。
- 前記過渡部分は、前記先行フレームの前記利得パラメーターに関連付けられた減衰が前記現フレームの前記利得パラメーターに関連付けられた減衰よりも大きいことに応答して、利得が前記現フレームのサンプルの一部分にわたって増加するフェードの過渡タイプを有する、請求項4に記載の方法。
- 前記過渡部分は、前記先行フレームの前記利得パラメーターに関連付けられた減衰が前記現フレームの前記利得パラメーターに関連付けられた減衰よりも小さいことに応答して、利得が前記現フレームのサンプルの一部分にわたって減少する逆フェードの過渡タイプを有する、請求項4に記載の方法。
- 前記過渡部分は、プロトタイプ関数及びスケーリング係数を使用して求められ、前記スケーリング係数は、前記現フレームに関連付けられた前記利得パラメーターと、前記先行フレームに関連付けられた前記利得パラメーターとに基づいて求められる、請求項4に記載の方法。
- 前記現フレームに適用された前記利得制御を示す前記情報は、前記少なくとも1つの利得遷移関数の前記過渡部分を示す情報を含む、請求項4に記載の方法。
- 前記少なくとも1つの利得遷移関数は、前記過負荷状態が存在する前記1つ以上のダウンミックスチャネルの全てに適用される単一の利得遷移関数を含む、請求項1から8のいずれか1項に記載の方法。
- 前記少なくとも1つの利得遷移関数は、前記1つ以上のダウンミックスチャネルの全てに適用される単一の利得遷移関数を含み、前記過負荷状態は、前記1つ以上のダウンミックスチャネルのサブセットについて存在する、請求項1から8のいずれか1項に記載の方法。
- 前記少なくとも1つの利得遷移関数は、前記過負荷状態が存在する前記1つ以上のダウンミックスチャネルのそれぞれの利得遷移関数を含む、請求項1から8のいずれか1項に記載の方法。
- 前記現フレームに適用された前記利得制御を示す前記情報を符号化するのに使用されるビット数は、前記過負荷状態が存在するダウンミックスチャネルの数とともに実質的に線形にスケーリングする、請求項11に記載の方法。
- 前記符号化されるオーディオ信号の第2のフレームに関連付けられた前記1つ以上のダウンミックスチャネルに関連付けられた第2のダウンミックスされた信号を求めることと、
前記第2のフレームの前記1つ以上のダウンミックスチャネルのうちの少なくとも1つの前記エンコーダーについて、過負荷状態が存在するか否かを判断することと、
前記第2のフレームについて前記過負荷状態が存在しないとの判断に応答して、非ユニティ利得を適用することなく、前記第2のダウンミックスされた信号を符号化することと、
を更に含む、請求項1から12のいずれか1項に記載の方法。 - 利得制御が前記第2のフレームに適用されないことを示すフラグをセットすることを更に含み、
前記フラグは1つのビットを含む、請求項13に記載の方法。 - 前記現フレームに適用された前記利得制御を示す前記情報を符号化するのに使用されるビット数を求めることと、
前記現フレームに適用された前記利得制御を示す前記情報を符号化するために、1)前記現フレームに関連付けられたメタデータを符号化するのに使用されるビット、及び/又は、2)前記ダウンミックスされた信号を符号化するのに使用されるビットから、前記ビット数を配分することと、
を更に含む、請求項1から14のいずれか1項に記載の方法。 - 前記ビット数は、前記ダウンミックスされた信号を符号化するのに使用されるビットから配分され、前記ダウンミックスされた信号を符号化するのに使用される前記ビットは、前記1つ以上のダウンミックスされたチャネルに関連付けられた空間方向に基づく順序で減少される、請求項15に記載の方法。
- オーディオ信号の現フレームについて、前記オーディオ信号の符号化されたフレームをデコーダーにおいて受信することと、
前記オーディオ信号の前記符号化されたフレームを復号して、前記オーディオ信号の前記現フレームに関連付けられているダウンミックスされた信号と、エンコーダーによって前記オーディオ信号の前記現フレームに適用された利得制御を示す情報とを取得することと、
前記オーディオ信号の前記現フレームに関連付けられた1つ以上のダウンミックスされた信号に適用される逆利得関数を、前記オーディオ信号の前記現フレームに適用された前記利得制御を示す前記情報に少なくとも部分的に基づいて求め、前記逆利得関数を前記1つ以上のダウンミックスされた信号に適用することと、
前記逆利得関数が適用された前記1つ以上のダウンミックスされた信号を含めて、前記ダウンミックスされた信号をアップミックスして、アップミックスされた信号を生成することであって、前記アップミックスされた信号はレンダリングに適していることと、
を含む、オーディオ信号に対して利得制御を実行する方法。 - 前記現フレームに適用された前記利得制御を示す前記情報は、前記オーディオ信号の前記現フレームに関連付けられた利得パラメーターを含む、請求項17に記載の方法。
- 前記逆利得関数は、前記オーディオ信号の前記現フレームの前記利得パラメーターと、前記オーディオ信号の先行フレームに関連付けられた利得パラメーターとに少なくとも部分的に基づいて求められる、請求項18に記載の方法。
- 前記逆利得関数は、過渡部分及び定常状態部分を含む、請求項17から19のいずれか1項に記載の方法。
- 前記デコーダーにおいて、第2の符号化されたフレームが受信されていないと判断することと、
前記デコーダーによって代用フレームを復元して、前記第2の符号化されたフレームと置き換えることと、
前記第2の符号化されたフレームに先行していた先行符号化フレームに適用された逆利得パラメーターを前記代用フレームに適用することと、
を更に含む、請求項17から20のいずれか1項に記載の方法。 - 前記第2の符号化されたフレームに後続する第3の符号化されたフレームを前記デコーダーにおいて受信することと、
前記第3の符号化されたフレームを復号して、前記第3の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第3の符号化されたフレームに適用された利得制御を示す情報とを取得することと、
前記エンコーダーによって前記第3の符号化されたフレームに適用された前記利得制御に関連付けられた逆利得パラメーターを用いて、前記代用フレームに適用された前記逆利得パラメーターを平滑化することによって、前記第3の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターを求めることと、
を更に含む、請求項21に記載の方法。 - 前記第2の符号化されたフレームに後続する第3の符号化されたフレームを前記デコーダーにおいて受信することと、
前記第3の符号化されたフレームを復号して、前記第3の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第3の符号化されたフレームに適用された利得制御を示す情報とを取得することと、
前記第3の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターであって、前記第3の符号化されたフレームからの利得パラメーターの滑らかな遷移を実施するような逆利得パラメーターを求めることと、
を更に含む、請求項21に記載の方法。 - 受信されなかった前記第2の符号化されたフレームと、受信された前記第3の符号化されたフレームとの間に少なくとも1つの中間フレームがあり、前記少なくとも1つの中間フレームは、前記デコーダーにおいて受信されなかったものである、請求項23に記載の方法。
- 前記第2の符号化されたフレームに後続する第3の符号化されたフレームを前記デコーダーにおいて受信することと、
前記第3の符号化されたフレームを復号して、前記第3の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第3の符号化されたフレームに適用された利得制御を示す情報とを取得することと、
前記第3の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターを、前記デコーダーにおいて受信されなかった前記第2の符号化されたフレームに先行していた前記デコーダーにおいて受信されたフレームに適用される逆利得パラメーターに少なくとも部分的に基づいて求めることと、
を更に含む、請求項21に記載の方法。 - 前記第2の符号化されたフレームに後続する第3の符号化されたフレームを前記デコーダーにおいて受信することと、
前記第3の符号化されたフレームを復号して、前記第3の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第3の符号化されたフレームに適用された利得制御を示す情報とを取得することと、
前記第3の符号化されたフレームに適用された前記利得制御を示す前記情報に基づいて、前記デコーダーの内部状態を再スケーリングすることと、
を更に含む、請求項21に記載の方法。 - 前記アップミックスされた信号をレンダリングして、レンダリングされたオーディオデータを生成することを更に含む、請求項17から26のいずれか1項に記載の方法。
- ラウドスピーカー又はヘッドホンのうちの1つ以上を使用して、前記レンダリングされたオーディオデータを再生することを更に含む、請求項27に記載の方法。
- 請求項1から28のいずれか1項に記載の方法を実施するように構成される装置。
- 1つ以上の非一時的媒体であって、前記1つ以上の非一時的媒体上にソフトウェアを記憶しており、前記ソフトウェアは、請求項1から28のいずれか一項に記載の方法を実施するように1つ以上のデバイスを制御する命令を含む、1つ以上の非一時的媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163159807P | 2021-03-11 | 2021-03-11 | |
US63/159,807 | 2021-03-11 | ||
US202163161868P | 2021-03-16 | 2021-03-16 | |
US63/161,868 | 2021-03-16 | ||
US202263267878P | 2022-02-11 | 2022-02-11 | |
US63/267,878 | 2022-02-11 | ||
PCT/US2022/019292 WO2022192217A1 (en) | 2021-03-11 | 2022-03-08 | Audio codec with adaptive gain control of downmixed signals |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024510205A true JP2024510205A (ja) | 2024-03-06 |
Family
ID=80937109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023555510A Pending JP2024510205A (ja) | 2021-03-11 | 2022-03-08 | ダウンミックスされた信号の適応利得制御を有するオーディオコーデック |
Country Status (11)
Country | Link |
---|---|
US (1) | US20240153512A1 (ja) |
EP (1) | EP4305618A1 (ja) |
JP (1) | JP2024510205A (ja) |
KR (1) | KR20230153402A (ja) |
AU (1) | AU2022233430A1 (ja) |
BR (1) | BR112023017361A2 (ja) |
CA (1) | CA3212631A1 (ja) |
IL (1) | IL305331A (ja) |
MX (1) | MX2023010602A (ja) |
TW (1) | TW202242852A (ja) |
WO (1) | WO2022192217A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024076810A1 (en) * | 2022-10-06 | 2024-04-11 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for performing perceptually motivated gain control |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8082157B2 (en) * | 2005-06-30 | 2011-12-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
EP2959479B1 (en) * | 2013-02-21 | 2019-07-03 | Dolby International AB | Methods for parametric multi-channel encoding |
-
2022
- 2022-03-08 KR KR1020237030826A patent/KR20230153402A/ko unknown
- 2022-03-08 BR BR112023017361A patent/BR112023017361A2/pt unknown
- 2022-03-08 WO PCT/US2022/019292 patent/WO2022192217A1/en active Application Filing
- 2022-03-08 AU AU2022233430A patent/AU2022233430A1/en active Pending
- 2022-03-08 US US18/548,817 patent/US20240153512A1/en active Pending
- 2022-03-08 EP EP22712743.8A patent/EP4305618A1/en active Pending
- 2022-03-08 IL IL305331A patent/IL305331A/en unknown
- 2022-03-08 CA CA3212631A patent/CA3212631A1/en active Pending
- 2022-03-08 MX MX2023010602A patent/MX2023010602A/es unknown
- 2022-03-08 JP JP2023555510A patent/JP2024510205A/ja active Pending
- 2022-03-11 TW TW111108914A patent/TW202242852A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
TW202242852A (zh) | 2022-11-01 |
WO2022192217A1 (en) | 2022-09-15 |
IL305331A (en) | 2023-10-01 |
MX2023010602A (es) | 2023-09-25 |
EP4305618A1 (en) | 2024-01-17 |
KR20230153402A (ko) | 2023-11-06 |
BR112023017361A2 (pt) | 2023-10-03 |
CA3212631A1 (en) | 2022-09-15 |
AU2022233430A1 (en) | 2023-09-14 |
US20240153512A1 (en) | 2024-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9495970B2 (en) | Audio coding with gain profile extraction and transmission for speech enhancement at the decoder | |
JP4809370B2 (ja) | マルチチャネル音声符号化における適応ビット割り当て | |
TWI521502B (zh) | 多聲道音訊的較高頻率和降混低頻率內容的混合編碼 | |
CN115580822A (zh) | 空间音频捕获、传输和再现 | |
KR20220128398A (ko) | 공간 오디오 파라미터 인코딩 및 관련 디코딩 | |
GB2576769A (en) | Spatial parameter signalling | |
CN114341976A (zh) | 将基于场景的音频数据相关以用于心理声学音频编解码 | |
JP2024510205A (ja) | ダウンミックスされた信号の適応利得制御を有するオーディオコーデック | |
EP3987516B1 (en) | Coding scaled spatial components | |
WO2020008112A1 (en) | Energy-ratio signalling and synthesis | |
CN116982109A (zh) | 具有下混信号自适应增益控制的音频编解码器 | |
US20240161754A1 (en) | Encoding of envelope information of an audio downmix signal | |
WO2024076810A1 (en) | Methods, apparatus and systems for performing perceptually motivated gain control | |
US10559315B2 (en) | Extended-range coarse-fine quantization for audio coding | |
EP4320614A1 (en) | Multi-band ducking of audio signals technical field | |
CN116997960A (zh) | 音频信号技术领域的多频带闪避 | |
WO2023172865A1 (en) | Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing | |
CN116982110A (zh) | 对音频下混信号的包络信息进行编码 | |
WO2023156176A1 (en) | Parametric spatial audio rendering | |
CN116508098A (zh) | 量化空间音频参数 | |
WO2022223133A1 (en) | Spatial audio parameter encoding and associated decoding | |
EP3987513A1 (en) | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding | |
CN116547749A (zh) | 音频参数的量化 |