JP2023548650A - 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム - Google Patents
帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム Download PDFInfo
- Publication number
- JP2023548650A JP2023548650A JP2023520374A JP2023520374A JP2023548650A JP 2023548650 A JP2023548650 A JP 2023548650A JP 2023520374 A JP2023520374 A JP 2023520374A JP 2023520374 A JP2023520374 A JP 2023520374A JP 2023548650 A JP2023548650 A JP 2023548650A
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- signal
- transport signal
- representation
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims description 53
- 238000004590 computer program Methods 0.000 title claims description 15
- 239000003623 enhancer Substances 0.000 claims abstract description 31
- 238000009499 grossing Methods 0.000 claims description 71
- 230000003595 spectral effect Effects 0.000 claims description 25
- 238000004091 panning Methods 0.000 claims description 13
- 230000007480 spreading Effects 0.000 claims description 13
- 239000000945 filler Substances 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 12
- 230000000875 corresponding effect Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 12
- 238000009877 rendering Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 230000003111 delayed effect Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108010003272 Hyaluronate lyase Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
音場を表すオーディオシーン(130)を処理するための装置であって、オーディオシーンが、トランスポート信号(122)およびパラメータセット(112;114)に関する情報を含む、装置である。装置は、パラメータセット(112;114)およびトランスポート信号(122)に関する情報を使用して処理されたオーディオシーン(124)を生成するための出力インターフェース(120)であって、パラメータセット(112;114)およびトランスポート信号(112;144)を使用して2つ以上のチャネルの生表現を生成するように構成されている、出力インターフェース(120)と、トランスポート信号(122)を使用して2つ以上のチャネルの拡張表現を生成するマルチチャネルエンハンサ(990)と、処理されたオーディオシーン(124)を取得するために、2つ以上のチャネルの生表現および2つ以上のチャネルの拡張表現を結合する信号結合器(940)と、を備える。【選択図】図1
Description
本発明は、オーディオ処理に関し、特に、レンダリング、記憶の送信のための処理されたオーディオシーンを生成する目的のための符号化されたオーディオシーンの処理に関する。
従来、電話またはテレビ会議のようなユーザ通信のための手段を提供するオーディオアプリケーションは、モノラル録音および再生に主に制限されてきた。しかしながら、近年では、新たな没入型VR/AR技術の出現もまた、通信シナリオの空間レンダリングに対する関心を高めている。この関心を満たすために、イマーシブボイスおよびオーディオサービス(IVAS)と呼ばれる新たな3GPP(登録商標、以下同じ)オーディオ規格が現在開発中である。最近リリースされた拡張音声サービス(EVS)規格に基づいて、IVASは、滑らかなオーディオ通信の低遅延要件を依然として満たしながら、例えば空間テレビ会議などの没入オーディオシーンをレンダリングすることができるマルチチャネルおよびVR拡張を提供する。再生品質を犠牲にすることなくコーデックの全体的な遅延を最小限に保つというこの継続的な必要性は、以下に説明する作業の動機を提供する。
-指向性オーディオ符号化(DirAC) [1] [2]のような-パラメトリックオーディオ符号化を使用するシステムによって-三次アンビソニックスコンテンツのような-シーンベースオーディオ(SBA)素材を低ビットレート(例えば、32kbps以下)で符号化することは、フィルタバンク領域のデコーダにおいてサイドパラメータを介して空間情報を復元しながら、単一の(トランスポート)チャネルのみを直接符号化することを可能にする。デコーダにおけるスピーカ設定がステレオ再生のみが可能である場合、3Dオーディオシーンの完全な復元は必要とされない。2つ以上のトランスポートチャネルのより高いビットレート符号化が可能であるため、それらの場合、シーンの立体音響再生は、(空間レンダラを完全にスキップする)いかなるパラメトリック空間アップミックスもおよびそれに伴う余分な遅延もなく、(例えば、複素値低遅延フィルタバンク(CLDFB)のような追加のフィルタバンク解析/合成に起因して)直接抽出および再生されることができる。しかしながら、ただ1つのトランスポートチャネルを有する低レートの場合、これは不可能である。したがって、DirACの場合、これまで、ステレオ出力には、以下のL/R変換を伴うFOA(一次アンビソニックス)アップミックスが必要であった。この場合、システム内の他の可能なステレオ出力構成よりも全体的な遅延が大きく、全てのステレオ出力構成の位置合わせが望ましいため、これは問題である。
高遅延のDirACステレオレンダリングの例
図12は、高遅延のDirACステレオアップミックスのための従来のデコーダ処理のブロック図の例を示している。
図12は、高遅延のDirACステレオアップミックスのための従来のデコーダ処理のブロック図の例を示している。
例えば、図示されていないエンコーダにおいて、単一のダウンミックスチャネルが、DirACエンコーダ処理における空間ダウンミックスを介して導出され、その後、拡張音声サービス(EVS) [3]のようなコアコーダによって符号化される。
デコーダにおいて、例えば、図12に描かれている従来のDirACアップミックスプロセスを使用して、1つの利用可能なトランスポートチャネルは、まず、ビットストリーム1212からモノラルまたはIVASモノラルデコーダ1210を使用することによって復号され、結果として、元のオーディオシーンの復号されたモノラルダウンミックス1214として見ることができる時間領域信号をもたらす。
復号されたモノラル信号1214は、遅延を引き起こす信号1214を解析する(信号を周波数領域に変換する)ために、CLDFB1220に入力される。著しく遅延した出力信号1222は、DirACレンダラ1230に入力される。DirACレンダラ1230は、遅延出力信号1222を処理し、送信されたサイド情報、すなわちDirACサイドパラメータ1213は、信号1222をFOA表現、すなわちDirACサイドパラメータ1213から復元された空間情報を有する元のシーンのFOAアップミックス1232に変換するために使用される。
送信されたパラメータ1213は、指向角、例えば、水平面に対する1つの方位角値および垂直面に対する1つの仰角、ならびに3Dオーディオシーン全体を知覚的に記述するための周波数帯域ごとの1つの拡散度値を含むことができる。DirACステレオアップミックスの帯域ごとの処理により、パラメータ1213は、フレームごとに複数回、すなわち周波数帯域ごとに1セット送信される。さらに、各セットは、時間分解能を高めるために、フレーム全体(例えば20msの長さの)内の個々のサブフレームのための複数の指向性パラメータを備える。
DirACレンダラ1230の結果は、例えば、FOAフォーマットの完全な3Dシーン、すなわちFOAアップミックス1232とすることができ、行列変換1240を使用して、ステレオスピーカセットアップでの再生に適したL/R信号1242に変換されることができる。換言すれば、L/R信号1242は、ステレオスピーカに入力されることができ、または所定のチャネル重みを使用しているCLDFB合成1250に入力されることができる。CLDFB合成1250は、入力された周波数領域の2つの出力チャネル(L/R信号1242)を時間領域に変換し、ステレオ再生可能な出力信号1252とする。
あるいは、同じDirACステレオアップミックスを使用して、ステレオ出力構成のレンダリングを直接生成することが可能であり、これは、FOA信号を生成する中間ステップを回避する。これは、フレームワークの潜在的な複雑化のアルゴリズムの複雑さを軽減する。それにもかかわらず、双方の手法は、コア符号化後に追加のフィルタバンクの使用を必要とし、5msの追加の遅延をもたらす。DirACレンダリングのさらなる例は、 [2]に見出すことができる。
DirACステレオアップミックス手法は、遅延および複雑さの双方の点でむしろ準最適である。CLDFBフィルタバンクを使用することにより、出力は大幅に遅延し(DirACの例ではさらに5ms)、したがって、(レンダリングの追加のステップが必要とされないステレオ出力構成の遅延と比較して)完全なSBAアップミックスと同じ全体的な遅延を有する。ステレオ信号を生成するために完全なSBAアップミックスを行うことは、システムの複雑さに関して理想的ではないという合理的な仮定でもある。
本発明の目的は、符号化されたオーディオシーンを処理するための改善された概念を提供することである。
この目的は、請求項1に記載の符号化されたオーディオシーンを処理するための装置、請求項32に記載の符号化されたオーディオシーンを処理する方法、または請求項33に記載のコンピュータプログラムによって達成される。
本発明は、パラメータ変換に関する第1の態様によれば、符号化されたオーディオシーンを処理するための改善された概念が、仮想聴取者位置に関連する符号化されたオーディオシーン内の所与のパラメータを、所与の出力フォーマットのチャネル表現に関連する変換されたパラメータに変換することによって得られるという発見に基づいている。この手順は、処理の高い柔軟性を提供し、チャネルベースの環境において処理されたオーディオシーンを最終的にレンダリングする。
本発明の第1の態様にかかる実施形態は、仮想聴取者位置に関連する音場を表す符号化されたオーディオシーンを処理するための装置であって、符号化されたオーディオシーンが、トランスポート信号、例えばコア符号化されたオーディオ信号に関する情報と、仮想聴取者位置に関連する第1のパラメータセットとを含む、装置を備える。装置は、第1のパラメータセット、例えば、Bフォーマットまたは一次アンビソニックス(FOA)フォーマットの指向性オーディオ符号化(DirAC)サイドパラメータを、第2のパラメータセット、例えば、2つ以上のチャネルの所定の空間位置における再生のための2つ以上のチャネルを含むチャネル表現に関連するステレオパラメータに変換するためのパラメータ変換器と、第2のパラメータセットおよびトランスポート信号に関する情報を使用して処理されたオーディオシーンを生成するための出力インターフェースとを備える。
実施形態では、指向性オーディオ符号化(DirAC)レンダラではなくアップミックスに短時間フーリエ変換(STFT)フィルタバンクが使用される。したがって、(ビットストリームに含まれる)1つのダウンミックスチャネルを追加の全体的な遅延なしにステレオ出力にアップミックスすることが可能になる。デコーダにおける解析に非常に短いオーバーラップを有するウィンドウを使用することにより、アップミックスは、通信コーデックまたは近い将来のイマーシブボイスおよびオーディオサービス(IVAS)に必要な全体的な遅延内に留まることを可能にする。この値は、例えば、32ミリ秒とすることができる。そのような実施形態では、帯域幅拡張の目的のための任意の後処理は、そのような処理がパラメータ変換またはパラメータマッピングと並行して行われることができるため、回避されることができる。
低帯域(LB)信号の聴取者固有のパラメータを低帯域のチャネル固有のステレオパラメータセットにマッピングすることにより、DFT領域内の低帯域の低遅延アップミキシングが達成されることができる。高帯域の場合、単一のステレオパラメータセットは、時間領域における高帯域でアップミックスを実行することを可能にし、好ましくは低帯域のスペクトル解析、スペクトルアップミキシングおよびスペクトル合成と並行して実行することを可能にする。
例示的には、パラメータ変換器は、パンニングのためのシングルサイドゲインパラメータと、ステレオ幅に密接に関連し、また指向性オーディオ符号化(DirAC)において使用される拡散度パラメータにも密接に関連する残差予測パラメータとを使用するように構成されている。
この「DFT-ステレオ」手法は、実施形態では、ステレオ出力を得るために符号化されたオーディオシーン(シーンベースオーディオ)を処理する場合、IVASコーデックがEVSと同じ全体的な遅延、特に32ミリ秒内に留まることを可能にする。空間DirACレンダリングの代わりにDFT-ステレオを介して簡単な処理を実装することにより、パラメトリックステレオアップミックスの複雑さが低減される。
本発明は、帯域幅拡張に関する第2の態様によれば、符号化されたオーディオシーンを処理するための改善された概念が得られるという発見に基づいている。
本発明の第2の態様にかかる実施形態は、音場を表すオーディオシーンを処理するための装置であって、オーディオシーンが、トランスポート信号およびパラメータセットに関する情報を含む、装置を備える。装置は、パラメータセットおよびトランスポート信号に関する情報を使用して処理されたオーディオシーンを生成するための出力インターフェースであって、出力インターフェースが、パラメータセットおよびトランスポート信号を使用して2つ以上のチャネルの生表現を生成するように構成されている、出力インターフェースと、トランスポート信号を使用して2つ以上のチャネルの拡張表現を生成するためのマルチチャネルエンハンサと、処理されたオーディオシーンを取得するために、2つ以上のチャネルの生表現および2つ以上のチャネルの拡張表現を結合するための信号結合器と、をさらに備える。
一方では2つ以上のチャネルの生表現を生成し、他方では2つ以上のチャネルの拡張表現を別々に生成することは、生表現および拡張表現のためのアルゴリズムを選択する際の大きな柔軟性を可能にする。最終的な結合は、1つまたは複数の出力チャネルのそれぞれに対して、すなわち、より低いチャネル入力または符号化されたシーン領域ではなくマルチチャネル出力領域において、既に行われている。したがって、結合に続いて、2つ以上のチャネルが合成され、レンダリング、送信、または記憶などのさらなる手順に使用されることができる。
実施形態では、拡張表現用の代数符号励起線形予測(ACELP)音声コーダの帯域幅拡張(BWE)などのコア処理の一部は、生表現用のDFT-ステレオ処理と並列に実行されることができる。したがって、双方のアルゴリズムによって発生した遅延は累積せず、1つのアルゴリズムによって発生した所与の遅延のみが最終遅延となる。実施形態では、トランスポート信号、例えば低帯域(LB)信号(チャネル)のみが出力インターフェース、例えばDFT-ステレオ処理に入力され、一方、高帯域(HB)は、例えばマルチチャネルエンハンサを使用して時間領域において別々にアップミックスされ、その結果、ステレオ復号は、32ミリ秒の目標時間ウィンドウ内で処理されることができる。例えば、パラメータ変換器からのマッピングされたサイドゲインに基づいて、例えば、広帯域パンニングを使用することにより、大きな遅延なしに高帯域全体の直線時間領域アップミックスが得られる。
実施形態では、DFT-ステレオにおける遅延の低減は、2つの変換のオーバーラップの差、例えば、CLDFBによって引き起こされる5msの変換遅延およびSTFTによって引き起こされる3,125msの変換遅延から完全には生じない場合がある。代わりに、DFT-ステレオは、32msのEVSコーダの目標遅延からの最後の3,25msが本質的にACELP BWEから到来するという事実を利用する。他の全てのもの(EVSコーダの目標遅延に到達するまでの残りのミリ秒)は、単に人為的に遅延されて、2つの変換された信号(HBステレオアップミックス信号およびLBステレオコア信号によるHBフィリング信号)のアライメントを最後に再び達成する。したがって、DFT-ステレオにおける追加の遅延を回避するために、エンコーダの他の全ての構成要素のみが、例えば非常に短いDFTウィンドウオーバーラップ内で変換され、一方、例えばマルチチャネルエンハンサを使用するACELP BWEは、時間領域においてほとんど遅延なしに混合される。
本発明は、パラメータ平滑化に関する第3の態様によれば、符号化されたオーディオシーンを処理するための改善された概念が、平滑化規則にしたがって時間に関してパラメータ平滑化を実行することによって得られるという発見に基づいている。したがって、生パラメータではなく平滑化されたパラメータをトランスポートチャネルに適用することによって得られた処理されたオーディオシーンは、改善されたオーディオ品質を有する。これは、平滑化されたパラメータがアップミックスパラメータである場合に特に当てはまるが、エンベロープパラメータまたはLPCパラメータまたはノイズパラメータまたはスケールファクタパラメータなどの他の任意のパラメータについては、平滑化規則によって得られた使用または平滑化されたパラメータは、得られた処理されたオーディオシーンの改善された主観的オーディオ品質をもたらす。
本発明の第3の態様にかかる実施形態は、音場を表すオーディオシーンを処理するための装置であって、オーディオシーンが、トランスポート信号および第1のパラメータセットに関する情報を含む、装置を備える。装置は、第2のパラメータセットを取得するために第1のパラメータセットを処理するためのパラメータプロセッサであって、パラメータプロセッサが、入力時間フレームについての第1のパラメータセットの少なくとも1つのパラメータを使用して出力時間フレームごとに少なくとも1つの生パラメータを計算し、平滑化規則にしたがって各生パラメータについての係数などの平滑化情報を計算し、出力時間フレームについての第2のパラメータセットのパラメータを導出するために対応する平滑化情報を対応する生パラメータに適用するように構成されている、パラメータプロセッサと、第2のパラメータセットおよびトランスポート信号に関する情報を使用して処理されたオーディオシーンを生成するための出力インターフェースと、をさらに備える。
生パラメータを経時的に平滑化することにより、あるフレームから次のフレームへのゲインまたはパラメータの強い変動が回避される。平滑化係数は、パラメータプロセッサによって、好ましい実施形態では適応的に計算される平滑化の強度を決定し、パラメータプロセッサは、実施形態では、聴取者位置関連パラメータをチャネル関連パラメータに変換するためのパラメータ変換器の機能も有する。適応計算は、オーディオシーンが突然変化するときはいつでもより迅速な応答を得ることを可能にする。適応平滑化係数は、現在の帯域におけるエネルギーの変化から帯域ごとに計算される。帯域ごとのエネルギーは、フレームに含まれる全てのサブフレームにおいて計算される。さらに、短期平均および長期平均の2つの平均によって特徴付けられる経時的なエネルギーの変化は、極端な場合には平滑化に影響を及ぼさないが、それほど大きくないエネルギーの急激な増加は平滑化を減少させない。したがって、平滑化係数は、平均の商から現在のフレーム内のDTF-ステレオサブフレームのそれぞれについて計算される。
本明細書では、前述および後述の全ての代替形態または態様が、個別に、すなわちいかなる態様もなしで使用されることができることに言及すべきである。しかしながら、他の実施形態では、2つ以上の態様が互いに組み合わされ、他の実施形態では、全ての態様が互いに組み合わされて、全体的な遅延、達成可能なオーディオ品質、および必要な実装労力の間の改善された妥協点が得られる。
本発明の好ましい実施形態が、添付の図面に関して以下に説明される。
図1は、例えば、仮想聴取者位置に関連する音場を表す、符号化されたオーディオシーン130を処理するための装置を示している。符号化されたオーディオシーン130は、トランスポート信号122、例えばビットストリームに関する情報と、第1のパラメータセット112、例えば同じくビットストリームに含まれる複数のDirACパラメータを含み、これらは仮想聴取者位置に関連する。第1のパラメータセット112は、パラメータ変換器110またはパラメータプロセッサに入力され、パラメータ変換器またはパラメータプロセッサは、第1のパラメータセット112を、少なくとも2つ以上のチャネルを含むチャネル表現に関連する第2のパラメータセット114に変換する。装置は、異なるオーディオフォーマットをサポートすることができる。オーディオ信号は、本質的に音響であってもよく、マイクロフォンによって拾い上げられてもよく、または本質的に電気であってもよく、これらはスピーカに送信されることが想定される。サポートされるオーディオフォーマットは、モノラル信号、低帯域信号、高帯域信号、マルチチャネル信号、一次および高次アンビソニックス成分、およびオーディオオブジェクトとすることができる。オーディオシーンは、異なる入力フォーマットを結合することによって記述されることもできる。
パラメータ変換器110は、出力インターフェース120に入力されるパラメトリックステレオまたはマルチチャネルパラメータ、例えば、2つ以上のチャネルとして第2のパラメータセット114を計算するように構成されている。出力インターフェース120は、トランスポート信号122またはトランスポート信号に関する情報と第2のパラメータセット114とを結合して、処理されたオーディオシーン124としてトランスコードされたオーディオシーンを取得することによって、処理されたオーディオシーン124を生成するように構成されている。別の実施形態は、第2のパラメータセット114を使用してトランスポート信号122を、2つ以上のチャネルを含むアップミックス信号にアップミックスすることを含む。換言すれば、パラメータ変換器120は、例えばDirACレンダリングに使用される第1のパラメータセット112を第2のパラメータセット114にマッピングする。第2のパラメータセットは、パンニングのために使用されるサイドゲインパラメータと、アップミックスにおいて適用されたときにオーディオシーンの改善された空間画像をもたらす残差予測パラメータとを含むことができる。例えば、第1のパラメータセット112のパラメータは、到来方向パラメータ、拡散度パラメータ、仮想聴取位置を球の原点とする球に関連する方向情報パラメータ、および距離パラメータのうちの少なくとも1つを含むことができる。例えば、第2のパラメータセット114のパラメータは、サイドゲインパラメータ、残差予測ゲインパラメータ、チャネル間レベル差パラメータ、チャネル間時間差パラメータ、チャネル間位相差パラメータ、およびチャネル間コヒーレンスパラメータのうちの少なくとも1つを含むことができる。
図2aは、実施形態にかかる第1のパラメータセット112および第2のパラメータセット114の概略図を示している。特に、双方のパラメータ(第1および第2)のパラメータ分解能が描かれている。図2aの各横軸は時間を表し、図2aの各縦軸は周波数を表す。図2aに示すように、第1のパラメータセット112が関連する入力時間フレーム210は、2つ以上の入力時間サブフレーム212および213を含む。真下に、第2のパラメータセット114が関連する出力時間フレーム220が、上の図に関連する対応する図に示されている。これは、出力時間フレーム220が入力時間フレーム210と比較して小さく、出力時間フレーム220が入力時間サブフレーム212または213と比較して長いことを示す。入力時間サブフレーム212または213および出力時間フレーム220は、周波数帯域として複数の周波数を含むことができることに留意されたい。入力周波数帯域230は、出力周波数帯域240と同じ周波数を含むことができる。実施形態によれば、入力周波数帯域230および出力周波数帯域240の周波数帯域は、互いに接続または相関されなくてもよい。
図4において説明したサイドゲインおよび残差ゲインは、典型的には、入力フレーム210ごとに単一のサイドゲインおよび残差ゲインが計算されるように、フレームごとに計算されることに留意されたい。しかしながら、他の実施形態では、各フレームについて単一のサイドゲインおよび単一の残差ゲインが計算されるだけでなく、各サイドゲインおよび各残差ゲインが例えば周波数帯域の特定の入力時間サブフレーム212または213に関連する入力時間フレーム210について、サイドゲインのグループおよび残差ゲインのグループが計算される。したがって、実施形態では、パラメータ変換器110は、第1のパラメータセット112および第2のパラメータセット114の各フレームについて、サイドゲインのグループおよび残差ゲインのグループを計算し、入力時間フレーム210のサイドおよび残差ゲインの数は、典型的には、入力周波数帯域230の数に等しい。
図2bは、第2のパラメータセット114の生パラメータ252を計算する250ためのパラメータ変換器110の実施形態を示している。パラメータ変換器110は、時間的に後続する方法で、2つ以上の入力時間サブフレーム212および213のそれぞれについて生パラメータ252を計算する。例えば、計算250は、各入力周波数帯域230および時点(入力時間サブフレーム212、213)について、方位角θの主要到来方向(DOA)ならびに仰角φおよび拡散度パラメータψの主要到来方向を導出する。
X、Y、およびZのような指向性成分の場合、中心位置における一次球面調和関数は、以下の式を使用して全方向成分w(b,n)およびDirACパラメータによって導出されることができることから与えられる。
Wチャネルは、無指向性マイクロフォンの出力に対応する、信号の無指向性モノラル成分を表す。X、Y、およびZチャネルは、3次元の方向成分である。これらの4つのFOAチャネルから、パラメータ変換器110を使用して、WチャネルおよびYチャネルを含む復号によってステレオ信号(ステレオバージョン、ステレオ出力)を取得することができ、これは、方位角+90度および-90度を指す2つのカージオイドをもたらす。そのため、以下の式は、WチャネルにYチャネルを追加することによって左チャネルLが表され、WチャネルからYチャネルを減算することによって右チャネルRが表される、ステレオ信号の左右の関係を示している。
換言すれば、この復号は、2つの方向を指す一次ビームフォーミングに対応し、これは、以下の式を使用して表されることができる:
その結果、ステレオ出力(左チャネルおよび右チャネル)と第1のパラメータセット112、すなわちDirACパラメータとの間に直接リンクが存在する。
Wチャネルは、無指向性マイクロフォンの出力に対応する、信号の無指向性モノラル成分を表す。X、Y、およびZチャネルは、3次元の方向成分である。これらの4つのFOAチャネルから、パラメータ変換器110を使用して、WチャネルおよびYチャネルを含む復号によってステレオ信号(ステレオバージョン、ステレオ出力)を取得することができ、これは、方位角+90度および-90度を指す2つのカージオイドをもたらす。そのため、以下の式は、WチャネルにYチャネルを追加することによって左チャネルLが表され、WチャネルからYチャネルを減算することによって右チャネルRが表される、ステレオ信号の左右の関係を示している。
換言すれば、この復号は、2つの方向を指す一次ビームフォーミングに対応し、これは、以下の式を使用して表されることができる:
その結果、ステレオ出力(左チャネルおよび右チャネル)と第1のパラメータセット112、すなわちDirACパラメータとの間に直接リンクが存在する。
しかしながら、他方では、第2のパラメータセット114、すなわちDFTパラメータは、中間信号Mおよびサイド信号Sに基づく左Lチャネルおよび右Rチャネルのモデルに依存し、これは、以下の式を使用して表されることができる:
ここで、Mは、シーンベースオーディオ(SBA)モードの場合の無指向性チャネルWに対応するモノラル信号(チャネル)として伝送される。さらに、DFTにおいて、ステレオSは、以下に説明されるサイドゲインパラメータを使用してMから予測される。
ここで、Mは、シーンベースオーディオ(SBA)モードの場合の無指向性チャネルWに対応するモノラル信号(チャネル)として伝送される。さらに、DFTにおいて、ステレオSは、以下に説明されるサイドゲインパラメータを使用してMから予測される。
図4は、例えば計算プロセス450を使用して、サイドゲインパラメータ455および残差予測パラメータ456を生成するためのパラメータ変換器110の実施形態を示している。パラメータ変換器110は、以下の式を使用して生パラメータ252、例えば出力周波数帯域241のサイドパラメータ455を計算するための計算250および450を処理することが好ましい。
式によれば、bは出力周波数帯域であり、sidegainはサイドゲインパラメータ455であり、azimuthは到来方向パラメータの方位角成分であり、elevationは到来方向パラメータの仰角成分である。図4に示されているように、第1のパラメータセット112は、先に述べたような入力周波数帯域231の到来方向(DOA)パラメータ456を含み、第2のパラメータセット114は、入力周波数帯域230ごとのサイドゲインパラメータ455を含む。しかしながら、第1のパラメータセット112が入力周波数帯域231の拡散度パラメータψ453をさらに含む場合、パラメータ変換器110は、以下の式を使用して出力周波数帯域241のサイドゲインパラメータ455を計算する(250)ように構成されている。
式によれば、diff(b)は入力周波数帯域b230の拡散度パラメータψ453である。第1のパラメータセット112の指向性パラメータ456は異なる値の範囲を含んでもよく、例えば方位角パラメータ451は、[0;360]であり、仰角パラメータ452は、[0;180]であり、得られたサイドゲインパラメータ455は、[-1;1]であることに留意されたい。図2cに示すように、パラメータ変換器110は、結合器260を使用して、少なくとも2つの生パラメータ252を結合し、その結果、出力時間フレーム220に関連する第2のパラメータセット114のパラメータが導出される。
式によれば、bは出力周波数帯域であり、sidegainはサイドゲインパラメータ455であり、azimuthは到来方向パラメータの方位角成分であり、elevationは到来方向パラメータの仰角成分である。図4に示されているように、第1のパラメータセット112は、先に述べたような入力周波数帯域231の到来方向(DOA)パラメータ456を含み、第2のパラメータセット114は、入力周波数帯域230ごとのサイドゲインパラメータ455を含む。しかしながら、第1のパラメータセット112が入力周波数帯域231の拡散度パラメータψ453をさらに含む場合、パラメータ変換器110は、以下の式を使用して出力周波数帯域241のサイドゲインパラメータ455を計算する(250)ように構成されている。
式によれば、diff(b)は入力周波数帯域b230の拡散度パラメータψ453である。第1のパラメータセット112の指向性パラメータ456は異なる値の範囲を含んでもよく、例えば方位角パラメータ451は、[0;360]であり、仰角パラメータ452は、[0;180]であり、得られたサイドゲインパラメータ455は、[-1;1]であることに留意されたい。図2cに示すように、パラメータ変換器110は、結合器260を使用して、少なくとも2つの生パラメータ252を結合し、その結果、出力時間フレーム220に関連する第2のパラメータセット114のパラメータが導出される。
実施形態によれば、第2のパラメータセット114は、図4に示す出力周波数帯域240の出力周波数帯域241についての残差予測パラメータ456をさらに含む。パラメータ変換器110は、出力周波数帯域241についての残差予測パラメータ456として、残差セレクタ410によって示されるように、入力周波数帯域231からの拡散度パラメータψ453を使用することができる。入力周波数帯域231と出力周波数帯域241とが互いに等しい場合、パラメータ変換器110は、入力周波数帯域231からの拡散度パラメータψ453を使用する。入力周波数帯域231についての拡散度パラメータψ453から、出力周波数帯域241についての拡散度パラメータψ453が導出され、拡散度パラメータψ453が、出力周波数帯域241についての残差予測パラメータ456として出力周波数帯域241に使用される。次いで、パラメータ変換器110は、入力周波数帯域231からの拡散度パラメータψ453を使用することができる。
DFTステレオ処理では、残差セレクタ410を使用する予測の残差は、インコヒーレントであると仮定および期待され、そのエネルギーによってモデル化され、左Lおよび右Rに向かう残差信号を非相関化する。中間信号Mをモノラル信号(チャネル)として有するサイド信号Sの予測の残差は、以下のように表されることができる:
そのエネルギーは、以下の式を使用して残差予測ゲインを使用してDFTステレオ処理においてモデル化される:
残差ゲインは、ステレオ信号のチャネル間非干渉成分と空間幅を表すため、DirACによってモデル化された拡散部分に直接リンクされる。したがって、残差エネルギーは、DirAC拡散度パラメータの関数として書き換えられることができる。
そのエネルギーは、以下の式を使用して残差予測ゲインを使用してDFTステレオ処理においてモデル化される:
残差ゲインは、ステレオ信号のチャネル間非干渉成分と空間幅を表すため、DirACによってモデル化された拡散部分に直接リンクされる。したがって、残差エネルギーは、DirAC拡散度パラメータの関数として書き換えられることができる。
図3は、実施形態にかかる生パラメータ252の重み付け結合310を実行するためのパラメータ変換器110を示している。少なくとも2つの生パラメータ252が重み付け結合310に入力され、重み付け結合310の重み係数324は、対応する入力時間サブフレーム212におけるトランスポート信号122の振幅関連尺度320に基づいて導出される。さらにまた、パラメータ変換器110は、振幅関連尺度320として、対応する入力時間サブフレーム212または213におけるトランスポート信号112のエネルギーまたは電力値を使用するように構成されている。振幅関連尺度320は、例えば、対応する入力時間サブフレーム212内のトランスポート信号122のエネルギーまたは電力を測定し、その結果、その入力サブフレーム212についての重み係数324は、対応する入力時間サブフレーム212内のトランスポート信号122のエネルギーまたは電力がより高い場合、対応する入力時間サブフレーム212内のトランスポート信号122のエネルギーまたは電力がより低い入力サブフレーム212についての重み係数324と比較して大きくなる。
前述のように、指向性パラメータ、方位角パラメータ、および仰角パラメータは、対応する値の範囲を有する。しかしながら、第1のパラメータセット112の方向パラメータは、通常、第2のパラメータセット114よりも高い時間分解能を有し、これは、2つ以上の方位角および仰角値が1つのサイドゲイン値の計算に使用されなければならないことを意味する。実施形態によれば、計算は、振幅関連尺度320の出力として取得されることができるエネルギー依存重みに基づく。例えば、全ての
入力時間サブフレーム212および213について、サブフレームのエネルギーnrgは、以下の式を使用して計算される:
ここで、
は時間領域入力信号、
は各サブフレーム内のサンプル数、および
はサンプルインデックスである。さらにまた、各出力時間フレーム
230について、重み324は、次に、各出力時間フレーム
内の各入力時間サブフレーム
212、213の寄与について以下のように計算されることができる:
次に、サイドゲインパラメータ455は、以下の式を使用して最終的に計算される:
パラメータ間の類似度により、帯域ごとの拡散度パラメータ453は、同じ帯域内の全てのサブフレームの残差予測パラメータ456に直接マッピングされる。類似度は、以下の式によって表されることができる:
入力時間サブフレーム212および213について、サブフレームのエネルギーnrgは、以下の式を使用して計算される:
ここで、
は時間領域入力信号、
は各サブフレーム内のサンプル数、および
はサンプルインデックスである。さらにまた、各出力時間フレーム
230について、重み324は、次に、各出力時間フレーム
内の各入力時間サブフレーム
212、213の寄与について以下のように計算されることができる:
次に、サイドゲインパラメータ455は、以下の式を使用して最終的に計算される:
パラメータ間の類似度により、帯域ごとの拡散度パラメータ453は、同じ帯域内の全てのサブフレームの残差予測パラメータ456に直接マッピングされる。類似度は、以下の式によって表されることができる:
図5aは、平滑化規則514にしたがって各生パラメータ252についての平滑化係数512を計算するためのパラメータ変換器110またはパラメータプロセッサの実施形態を示している。さらにまた、パラメータ変換器110は、平滑化係数512(1つの生パラメータに対する対応する平滑化係数)を生パラメータ252(平滑化係数に対応する1つの生パラメータ)に適用して、出力時間フレーム220の第2のパラメータセット114のパラメータ、すなわち出力時間フレームのパラメータを導出するように構成されている。
図5bは、圧縮関数540を使用して周波数帯域についての平滑化係数522を計算するためのパラメータ変換器110またはパラメータプロセッサの実施形態を示している。圧縮関数540は、異なる周波数帯域に対して異なっていてもよく、その結果、圧縮関数540の圧縮強度は、より高い周波数帯域よりも低い周波数帯域の方が強い。パラメータ変換器110は、最大境界選択550を使用して平滑化係数512、522を計算するようにさらに構成されている。換言すれば、パラメータ変換器110は、より低い周波数帯域の最大境界がより高い周波数帯域の最大境界よりも高くなるように、異なる周波数帯域に対して異なる最大境界を使用することによって平滑化係数512、522を取得することができる。
圧縮関数540および最大境界選択550の双方が、周波数帯域522についての平滑化係数522を取得する計算520に入力される。例えば、パラメータ変換器110は、平滑化係数512および522を計算するために2つの計算510および520を使用することに限定されず、その結果、パラメータ変換器110は、平滑化係数512および522を出力することができるただ1つの計算ブロックを使用して平滑化係数512、522を計算するように構成されている。換言すれば、平滑化係数は、現在の周波数帯域におけるエネルギーの変化から帯域ごとに(生パラメータ252ごとに)計算される。例えば、パラメータ平滑化プロセスを使用することにより、サイドゲインパラメータ455および残差予測パラメータ456は、ゲインの大きな変動を回避するために経時的に平滑化される。これは、ほとんどの場合、比較的強い平滑化を必要とするが、オーディオシーン130が突然変化するときはいつでもより速い応答を必要とするため、平滑化の強度を決定する平滑化係数512、522が適応的に計算される。
したがって、帯域ごとのエネルギーnrgは、以下の式を使用して全てのサブフレーム
において計算される:
ここで、
はDFT変換された信号の周波数ビン(実数および虚数)であり、
は現在の周波数帯域
における全てのビンにわたるビンインデックスである。
において計算される:
ここで、
はDFT変換された信号の周波数ビン(実数および虚数)であり、
は現在の周波数帯域
における全てのビンにわたるビンインデックスである。
2つの平均にわたるエネルギーの変化を捉えるために、図3に示すように、トランスポート信号122の振幅関連尺度320を使用して、1つの短期平均331および1つの長期平均332が計算される。
図6は、実施形態にかかる、平滑化係数512についてトランスポート信号122を平均化する振幅関連尺度320の概略図を示している。x軸は時間を表し、y軸は(トランスポート信号122の)エネルギーを表す。トランスポート信号122は、正弦関数122の概略部分を示している。図6に示すように、第2の時間部分631は、第1の時間部分632よりも短い。平均331および332にわたるエネルギーの変化は、以下の式にしたがって各帯域
について計算される:
および
ここで、
および
は、個々の平均が計算される以前の時間サブフレームの数
である。例えば、この特定の実施形態では、
は値3に設定され、
は値10に設定される。
について計算される:
および
ここで、
および
は、個々の平均が計算される以前の時間サブフレームの数
である。例えば、この特定の実施形態では、
は値3に設定され、
は値10に設定される。
さらにまた、パラメータ変換器またはパラメータプロセッサ110は、計算510を使用して、長期平均332と短期平均331との間の比に基づいて平滑化係数512、522を計算するように構成されている。換言すれば、2つの平均331および332の商が計算されるため、最近のエネルギーの増加を示す短期平均が高いほど、平滑化の低下につながる。以下の式は、平滑化係数512と2つの平均331および312との相関を示している。
エネルギーの減少を示すより高い長期平均332は平滑化の低下につながらないという事実のために、平滑化係数512は、(現在のところ)最大1に設定される。結果として、上記の式は、
の最小値を
(この実施形態では0.3)に制限する。しかしながら、極端な場合には係数が0に近いことが必要であり、これは、以下の式を使用して値が範囲
]から範囲
]に変換される理由である。
エネルギーの減少を示すより高い長期平均332は平滑化の低下につながらないという事実のために、平滑化係数512は、(現在のところ)最大1に設定される。結果として、上記の式は、
の最小値を
(この実施形態では0.3)に制限する。しかしながら、極端な場合には係数が0に近いことが必要であり、これは、以下の式を使用して値が範囲
]から範囲
]に変換される理由である。
実施形態では、平滑化は、前に示した平滑化と比較して過度に低減され、その結果、係数は、値1に向かうルート関数によって圧縮される。最も低い帯域では安定性が特に重要であるため、4次根が周波数帯域
および
において使用される。最低帯域についての式は、以下のとおりである:
他の全ての帯域
についての式は、以下の式を使用して、平方根関数による圧縮を実行する。
他の全ての帯域
に平方根関数を適用することにより、エネルギーが指数関数的に増加する可能性がある極端な場合は小さくなり、エネルギーのあまり急激でない増加はそれほど大きく平滑化を減少させない。
および
において使用される。最低帯域についての式は、以下のとおりである:
他の全ての帯域
についての式は、以下の式を使用して、平方根関数による圧縮を実行する。
他の全ての帯域
に平方根関数を適用することにより、エネルギーが指数関数的に増加する可能性がある極端な場合は小さくなり、エネルギーのあまり急激でない増加はそれほど大きく平滑化を減少させない。
さらにまた、最大平滑化は、以下の式についての周波数帯域に応じて設定される。係数1は、現在のゲインの寄与なしに前の値を単に繰り返すことに留意されたい。
ここで、
は、以下の表にしたがって設定される5つの帯域を有する所与の実装を表す:
ここで、
は、以下の表にしたがって設定される5つの帯域を有する所与の実装を表す:
図7は、以下の式にしたがってサイドゲインパラメータ
455および残差予測ゲインパラメータ
456の双方が再帰的に平滑化される再帰的平滑化710を使用する実施形態にかかるパラメータ変換器110を示している:
および
第1の重み値によって重み付けされた先行する出力時間フレーム532のパラメータと第2の重み値によって重み付けされた現在の出力時間フレーム220についての生パラメータ252とを結合することにより、現在の出力時間フレームの時間的に後続する出力時間フレームにわたる再帰的平滑化710が計算される。換言すれば、第1の重み値および第2の重み値が現在の時間フレームについての平滑化係数から導出されるように、現在の出力時間フレームについての平滑化されたパラメータが計算される。
455および残差予測ゲインパラメータ
456の双方が再帰的に平滑化される再帰的平滑化710を使用する実施形態にかかるパラメータ変換器110を示している:
および
第1の重み値によって重み付けされた先行する出力時間フレーム532のパラメータと第2の重み値によって重み付けされた現在の出力時間フレーム220についての生パラメータ252とを結合することにより、現在の出力時間フレームの時間的に後続する出力時間フレームにわたる再帰的平滑化710が計算される。換言すれば、第1の重み値および第2の重み値が現在の時間フレームについての平滑化係数から導出されるように、現在の出力時間フレームについての平滑化されたパラメータが計算される。
これらのマッピングされて平滑化されたパラメータ(gside,gpred)は、DFTステレオ処理、すなわち出力インターフェース120に入力され、ステレオ信号(
は、ダウンミックス
、残差予測信号
、およびマッピングされたパラメータ
および
から生成される。例えば、ダウンミックス
は、オールパスフィルタを使用するエンハンスステレオフィリング、または遅延を使用するステレオフィリングのいずれかによってダウンミックスから得られる。
は、ダウンミックス
、残差予測信号
、およびマッピングされたパラメータ
および
から生成される。例えば、ダウンミックス
は、オールパスフィルタを使用するエンハンスステレオフィリング、または遅延を使用するステレオフィリングのいずれかによってダウンミックスから得られる。
アップミックスは、以下の式によって記述される:
および
アップミックスは、先に示した表に記載されているように、周波数帯域
における全てのビン
においてサブフレーム
ごとに処理される。さらに、各サイドゲイン
は、上記のようなダウンミックス
のエネルギーおよび残差予測ゲインパラメータ
または
から計算されたエネルギー正規化係数
によって重み付けされる。
および
アップミックスは、先に示した表に記載されているように、周波数帯域
における全てのビン
においてサブフレーム
ごとに処理される。さらに、各サイドゲイン
は、上記のようなダウンミックス
のエネルギーおよび残差予測ゲインパラメータ
または
から計算されたエネルギー正規化係数
によって重み付けされる。
マッピングされて平滑化されたサイドゲイン755およびマッピングされて平滑化された残差ゲイン756は、平滑化されたオーディオシーンを得るために出力インターフェース120に入力される。したがって、前述の説明に基づいて、平滑化されたパラメータを使用して符号化されたオーディオシーンを処理することは、達成可能なオーディオ品質と実装努力との間の改善された妥協点をもたらす。
図8は、実施形態にかかるトランスポート信号122を復号するための装置を示している。(符号化された)オーディオ信号816は、(コア符号化された)オーディオ信号816をコア復号して(復号された生)トランスポート信号812を得るためのトランスポート信号コアデコーダ810に入力され、これは出力インターフェース120に入力される。例えば、トランスポート信号122は、トランスポート信号コアエンコーダ810から出力される符号化されたトランスポート信号812とすることができる。トランスポート信号(復号された)812は、出力インターフェース120に入力され、出力インターフェースは、第2のパラメータセット114を含むパラメータセット814を使用して、例えば左チャネルおよび右チャネルの2つ以上のチャネルの生表現818を生成するように構成されている。例えば、トランスポート信号122を得るためにコア符号化オーディオ信号を復号するためのトランスポート信号コアデコーダ810は、ACELPデコーダである。さらにまた、コアデコーダ810は、復号された生トランスポート信号812を、出力インターフェース120を備える2つの並列分岐のうちの第1の分岐と、トランスポート信号エンハンサ820もしくはマルチチャネルエンハンサ990、またはその双方を備える2つの並列分岐のうちの第2の分岐と、の2つの並列分岐に供給するように構成されている。信号結合器940は、第1の分岐から結合されるべき第1の入力と、第2の分岐から結合されるべき第2の入力とを受信するように構成されている。
図9に示されているように、符号化されたオーディオシーン130を処理するための装置は、帯域幅拡張プロセッサ910を使用することができる。低帯域トランスポート信号901は、トランスポート信号972の2チャネル低帯域表現を取得するために出力インターフェース120に入力される。出力インターフェース120は、例えばアップミックス処理960の間に周波数領域955においてトランスポート信号901を処理し、時間領域966において2チャネルトランスポート信号901を変換することに留意されたい。これは、変換器970によって行われ、変換器は、周波数領域955を提示しているアップミックスされたスペクトル表現962を時間領域に変換して、トランスポート信号972の2チャネル低帯域表現を取得する。
図8に示すように、単一チャネル低帯域トランスポート信号901は変換器950に入力され、例えば、出力時間フレーム220に対応するトランスポート信号901の時間部分のトランスポート信号901のスペクトル表現952への変換、すなわち時間領域966から周波数領域955への変換を実行する。例えば、図2に記載されるように、(出力時間フレームの)部分は、第1のパラメータセット112のパラメータ252が編成される入力時間フレーム210よりも短い。
スペクトル表現952は、アップミキサ960に入力されて、例えば、第2のパラメータセット114を使用してスペクトル表現952をアップミックスし、周波数領域955において(まだ)処理されているアップミックスされたスペクトル表現962を取得する。前述したように、アップミックスされたスペクトル表現962は、アップミックスされたスペクトル表現962、すなわち、2つ以上のチャネルの各チャネルを周波数領域955から時間領域966(時間表現)に変換して低帯域表現972を取得するために、変換器970に入力される。したがって、アップミックスされたスペクトル表現962における2つ以上のチャネルが計算される。好ましくは、出力インターフェース120は、複素離散フーリエ変換領域において動作するように構成され、アップミックス演算は、複素離散フーリエ変換領域において実行される。複素離散フーリエ変換領域から実数値時間領域表現への変換は、変換器970を使用して行われる。換言すれば、出力インターフェース120は、第2の領域、すなわち周波数領域955においてアップミキサ960を使用して2つ以上のチャネルの生表現を生成するように構成されており、第1の領域は時間領域966を表す。
実施形態では、アップミキサ960のアップミックス演算は、以下の式に基づく:
=
および
=
、
ここで、
は、フレームtおよび周波数ビンkについてのトランスポート信号901であり、
は、フレームtおよびサブ帯域bについてのサイドゲインパラメータ455であり、
は、フレームtおよびサブ帯域bについての残差予測ゲインパラメータ456であり、gnormは、存在してもしなくてもよいエネルギー調整係数であり、
は、フレームtおよび周波数ビンkについての生残差信号である。
=
および
=
、
ここで、
は、フレームtおよび周波数ビンkについてのトランスポート信号901であり、
は、フレームtおよびサブ帯域bについてのサイドゲインパラメータ455であり、
は、フレームtおよびサブ帯域bについての残差予測ゲインパラメータ456であり、gnormは、存在してもしなくてもよいエネルギー調整係数であり、
は、フレームtおよび周波数ビンkについての生残差信号である。
トランスポート信号902、122は、低帯域トランスポート信号901とは対照的に、時間領域966において処理される。トランスポート信号902は、高帯域信号912を生成するために帯域幅拡張プロセッサ(BWEプロセッサ)910に入力され、マルチチャネルフィリング演算を適用するためにマルチチャネルフィルタ930に入力される。高帯域信号912は、第2のパラメータセット144、すなわち出力時間フレーム262、532のパラメータを使用して、高帯域信号912をアップミックスされた高帯域信号922にアップミックスするために、アップミキサ920に入力される。例えば、アップミキサ920は、第2のパラメータセット114からの少なくとも1つのパラメータを使用して、時間領域966において広帯域パンニングプロセスを高帯域信号912に適用してもよい。
低帯域表現972、アップミックスされた高帯域信号922、およびマルチチャネルフィリングトランスポート信号932は、信号結合器940に入力され、時間領域966において、広帯域パンニング922の結果、ステレオフィリング932の結果、および2つ以上のチャネル972の低帯域表現を結合する。この結合は、チャネル表現としての時間領域966における全帯域マルチチャネル信号942をもたらす。先に概説したように、変換器970は、スペクトル表現962内の2つ以上のチャネルの各チャネルを時間表現に変換して、2つ以上のチャネル972の生時間表現を取得する。したがって、信号結合器940は、2つ以上のチャネルの生時間表現と2つ以上のチャネルの拡張時間表現とを結合する。
実施形態では、低帯域(LB)トランスポート信号901のみが出力インターフェース120(DFTステレオ)処理に入力され、高帯域(HB)トランスポート信号912は、(アップミキサ920を使用して)時間領域において別々にアップミックスされる。そのようなプロセスは、アンビエンス寄与を生成するためのマルチチャネルフィラー930を使用して、BWEプロセッサ910および時間領域ステレオフィリングを使用するパンニング動作のために実装される。パンニングプロセスは、マッピングされたサイドゲイン、例えばフレームごとにマッピングされて平滑化されたサイドゲイン755に基づく広帯域パンニングを含む。ここで、完全な高帯域周波数領域をカバーする1フレーム当たりのゲインは1つしかなく、これは、以下の式に基づくダウンミックスチャネルからの左右の高帯域チャネルの計算を簡略化する:
各サブフレーム
内のサンプル
ごとに、
および
。
各サブフレーム
内のサンプル
ごとに、
および
。
高帯域ステレオフィリング信号
、すなわちマルチチャネルフィリングトランスポート信号932は、以下の式に記載されるように、
を遅延させ、
によってそれを重み付け、エネルギー正規化係数
をさらに使用することによって取得される:
現在の時間フレーム内の全てのサンプル
に対して(時間サブフレーム213および213ではなく、全時間フレーム210で行われる)、
および
。
は、マルチチャネルフィラー930によって得られるフィリング信号932を生成するために高帯域ダウンミックスが遅延されるサンプルの数である。より高度な無相関化処理、または遅延と比較して異なる方法でトランスポート信号から導出されたノイズ信号もしくは任意の他の信号の使用など、遅延とは別にフィリング信号を生成するための他の方法が実行されることができる。
、すなわちマルチチャネルフィリングトランスポート信号932は、以下の式に記載されるように、
を遅延させ、
によってそれを重み付け、エネルギー正規化係数
をさらに使用することによって取得される:
現在の時間フレーム内の全てのサンプル
に対して(時間サブフレーム213および213ではなく、全時間フレーム210で行われる)、
および
。
は、マルチチャネルフィラー930によって得られるフィリング信号932を生成するために高帯域ダウンミックスが遅延されるサンプルの数である。より高度な無相関化処理、または遅延と比較して異なる方法でトランスポート信号から導出されたノイズ信号もしくは任意の他の信号の使用など、遅延とは別にフィリング信号を生成するための他の方法が実行されることができる。
パンニングされたステレオ信号972および922と生成されたステレオフィリング信号932との双方は、信号結合器940を使用してDFT合成後にコア信号に結合(ミックスバック)される。
ACELP高帯域のこの記載されたプロセスはまた、ACELPコアおよびTCXフレームがACELP高帯域と整合されるように人為的に遅延される高遅延DirAC処理とは対照的である。そこで、完全な信号に対してCLDFB(解析)が実行され、これは、ACELP高帯域のアップミックスもCLDFB領域(周波数領域)において行われることを意味する。
図10は、処理されたオーディオシーン124を取得するための装置の実施形態を示している。トランスポート信号122は、第2のパラメータセット114と、2つ以上のチャネルの拡張表現992を生成するためのマルチチャネルエンハンサ990とを使用して、2つ以上のチャネル972の生表現を生成するために出力インターフェース120に入力される。例えば、マルチチャネルエンハンサ990は、帯域幅拡張演算、ギャップフィリング演算、品質強化演算、または補間演算を含む演算グループの少なくとも1つの演算を実行するように構成されている。処理されたオーディオシーン124を取得するために、2つ以上のチャネル972の生表現および2つ以上のチャネルの拡張表現992の双方が信号結合器940に入力される。
図11は、トランスポート信号エンハンサ820、アップミキサ830およびマルチチャネルフィラー930を含む2つ以上のチャネルの拡張表現992を生成するためのマルチチャネルエンハンサ990の実施形態のブロック図を示している。トランスポート信号122および/または復号された生トランスポート信号812は、拡張トランスポート信号822を生成するトランスポート信号エンハンサ820に入力され、これは、アップミキサ830およびマルチチャネルフィラー930に入力される。例えば、トランスポート信号エンハンサ820は、帯域幅拡張演算、ギャップフィリング演算、品質強化演算、または補間演算を含む演算グループの少なくとも1つの演算を実行するように構成されている。
図9に見られるように、マルチチャネルフィラー930は、トランスポート信号902および少なくとも1つのパラメータ532を使用してマルチチャネルフィリングトランスポート信号932を生成する。換言すれば、マルチチャネルエンハンサ990は、拡張トランスポート信号822および第2のパラメータセット114を使用して、または拡張トランスポート信号822およびアップミックスされた拡張トランスポート信号832を使用して、2つ以上のチャネル992の拡張表現を生成するように構成されている。例えば、マルチチャネルエンハンサ990は、トランスポート信号122または拡張トランスポート信号933および第2のパラメータセット532の少なくとも1つのパラメータを使用して2つ以上のチャネルの拡張表現992を生成するために、アップミキサ830もしくはマルチチャネルフィラー930のいずれか、またはアップミキサ830もしくはマルチチャネルフィラー930の双方を含む。実施形態では、トランスポート信号エンハンサ820またはマルチチャネルエンハンサ990は、生表現972を生成するときに出力インターフェース120と並列に動作するように構成されるか、またはパラメータ変換器110は、トランスポート信号エンハンサ820と並列に動作するように構成されている。
図13において、エンコーダからデコーダに伝送されるビットストリーム1312は、図12に示すDirACベースのアップミキシング方式と同じであってもよい。DirACベースの空間ダウンミキシングプロセスから導出された単一のトランスポートチャネル1312は、コアデコーダ1310に入力され、コアデコーダ、例えばEVSまたはIVASモノラルデコーダによって復号され、対応するDirACサイドパラメータ1313とともに送信される。
余分な遅延なしでオーディオシーンを処理するためのこのDFTステレオ手法では、トランスポートチャネルのモノラルコアデコーダ(IVASモノラルデコーダ)における初期復号も変更されないままである。図12からのCLDFBフィルタバンク1220を通過する代わりに、復号されたダウンミックス信号1314は、非常に短いオーバーラップを有するウィンドウを使用することなどによって、復号されたモノラル信号1314をSTFT領域(周波数領域)に変換するために、DFT解析1320に入力される。したがって、DFT解析1320は、全体的な遅延とコアデコーダのMDCT解析/合成によって既に引き起こされたものとの間の残りのヘッドルームのみを使用して、32msの目標システム遅延に対していかなる追加の遅延も引き起こさない。
DirACサイドパラメータ1313または第1のパラメータセット112は、パラメータマッピング1360に入力され、パラメータマッピングは、例えば、DFTステレオサイドパラメータ、すなわち第2のパラメータセット114を取得するためのパラメータ変換器110またはパラメータプロセッサを含むことができる。周波数領域信号1322およびDFTサイドパラメータ1362は、例えば図9に記載されたアップミキサ960を使用することによってステレオアップミックス信号1332を生成するDFTステレオデコーダ1330に入力される。ステレオアップミックス1332の2つのチャネルは、DFT合成に入力され、例えば図9に記載された変換器970を使用してステレオアップミックス1332を周波数領域から時間領域に変換し、その結果、処理されたオーディオシーン124を表すことができる出力信号1342をもたらす。
図14は、帯域幅拡張1470を使用して符号化されたオーディオシーンを処理するための実施形態を示している。ビットストリーム1412は、復号された低帯域信号1414を生成するために、図13に記載されているようなIVASモノラルデコーダの代わりに、ACELPコアまたは低帯域デコーダ1410に入力される。復号された低帯域信号1414は、信号1414を周波数領域信号1422、例えば図9からのトランスポート信号901のスペクトル表現952に変換するために、DFT解析1420に入力される。DFTステレオデコーダ1430は、周波数領域における復号された低帯域信号1442およびパラメータマッピング1460からのDFTステレオサイドパラメータ1462を使用してLBステレオアップミックス1432を生成するアップミキサ960を表すことができる。生成されたLBステレオアップミックス1432は、例えば図9の変換器970を使用して時間領域への変換を行うDFT合成ブロック1440に入力される。トランスポート信号122の低帯域表現972、すなわちDFT合成段1440の出力信号1442は、アップミックスされた高帯域ステレオ信号922およびマルチチャネルフィリング高帯域トランスポート信号932と、全帯域マルチチャネル信号942をもたらすトランスポート信号972の低帯域表現とを結合する信号結合器940に入力される。
復号されたLB信号1414およびBWE1470についてのパラメータ1415は、復号された高帯域信号912を生成するためにACELP BWEデコーダ910に入力される。マッピングされたサイドゲイン1462、例えば、低帯域スペクトル領域のマッピングされて平滑化されたサイドゲイン755は、DFTステレオブロック1430に入力され、高帯域全体のマッピングされて平滑化されたシングルサイドゲインは、高帯域アップミックスブロック920およびステレオフィリングブロック930に転送される。第2のパラメータセット114からの出力時間フレーム262のパラメータ532など、高帯域サイドゲイン1472を使用して復号されたHB信号912をアップミックスするためのHBアップミックスブロック920は、アップミックスされた高帯域信号922を生成する。復号された高帯域トランスポート信号912、902をフィリングするためのステレオフィリングブロック930は、第2のパラメータセット114からの出力時間フレーム262のパラメータ532、456を使用し、高帯域フィリングトランスポート信号932を生成する。
結論として、本発明にかかる実施形態は、パラメータ変換を使用して、および/または帯域幅拡張を使用して、および/またはパラメータ平滑化を使用して、符号化されたオーディオシーンを処理するための概念を作り出し、全体的な遅延、達成可能なオーディオ品質、および実装努力の間の改善された妥協点をもたらす。
続いて、本発明の態様のさらなる実施形態、特に本発明の態様の組み合わせが示される。低遅延アップミックスを達成するための提案された解決策は、パラメトリックステレオ手法、例えばDirACレンダラではなく短時間フーリエ変換(STFT)フィルタバンクを使用して [4]に記載された手法を使用することによるものである。この「DFT-ステレオ」手法では、1つのダウンミックスチャネルのステレオ出力へのアップミックスが記述される。この方法の利点は、EVS [3]または近い将来のIVASコーデック(32ms)のような通信コーデックに必要とされるはるかに低い全体的な遅延内に留まることを可能にする、非常に短いオーバーラップを有するウィンドウがデコーダにおけるDFT解析に使用されることである。また、DirAC CLDFBとは異なり、DFTステレオ処理は、コアコーダに対する後処理ステップではなく、コア処理の一部、すなわち代数符号出口励起予測(ACELP)音声コーダの帯域幅拡張(BWE)と、この既に与えられた遅延を超えることなく並行して実行される。したがって、EVSの32msの遅延に関して、DFTステレオ処理は、同じ全体的なコーダ遅延で動作するため、遅延なしと呼ぶことができる。一方、DirACは、CLDFBが全体の遅延を37msに延長するために5msの追加の遅延を引き起こすポストプロセッサとして見ることができる。
一般に、遅延のゲインが達成される。低遅延は、コア処理と並行して行われる処理ステップから生じるが、例示的なCLDFBバージョンは、コア符号化の後に行われる必要なレンダリングを行うための後処理ステップである。
DirACとは異なり、DFTステレオは、より多くの遅延を引き起こすことなく利用可能なヘッドルームに適合する3.125msの非常に短いオーバーラップを有するウィンドウを使用してそれらの成分をDFT領域に変換するのみで、ACELP BWEを除く全ての成分に対して3.25msの人工遅延を利用する。したがって、BWEのないTCXおよびACELPのみが周波数領域においてアップミックスされるが、ACELP BWEは、チャネル間帯域幅拡張(ICBWE) [5]と呼ばれる別個の遅延なし処理ステップによって時間領域においてアップミックスされる。所与の実施形態の特殊なステレオ出力の場合、この時間領域BWE処理は僅かに変更され、これについては実施形態の終わりに向かって説明する。
送信されたDirACパラメータは、DFTステレオアップミックスに直接使用されることができない。したがって、所与のDirACパラメータを対応するDFTステレオパラメータにマッピングすることが必要になる。DirACは、拡散度パラメータとともに空間配置に方位角および仰角を使用するが、DFTステレオは、パンニングに使用されるシングルサイドゲインパラメータと、ステレオ幅、したがってDirACの拡散度パラメータに密接に関連する残差予測パラメータとを有する。パラメータ分解能の観点から、各フレームは、サブフレームごとに2つのサブフレームおよびいくつかの周波数帯域に分割される。DFTステレオにおいて使用されるサイドゲインおよび残差ゲインは、 [6]に記載されている。
DirACパラメータは、元々BフォーマットまたはFOAのオーディオシーンの帯域ごとの解析から導出される。次いで、帯域kおよび時点nごとに、方位角
および仰角
ならびに拡散係数
の主要到来方向を導出する。指向性成分の場合、中心位置における一次球面調和関数は、無指向性成分
およびDirACパラメータによって導出されることができる。
および仰角
ならびに拡散係数
の主要到来方向を導出する。指向性成分の場合、中心位置における一次球面調和関数は、無指向性成分
およびDirACパラメータによって導出されることができる。
さらに、FOAチャネルから、WおよびYを伴う復号によってステレオバージョンを得ることが可能であり、これは、方位角+90度および-90度を指す2つのカージオイドをもたらす。
この復号は、2つの方向を指す一次ビームフォーミングに対応する。
その結果、ステレオ出力とDirACパラメータとの間に直接リンクが存在する。一方、DFTパラメータは、中間信号Mおよびサイド信号Sに基づくLおよびRチャネルのモデルに依存する。
Mは、モノチャネルとして伝送され、SBAモードの場合には全方向チャネルWに対応する。DFTでは、ステレオSは、サイドゲインを使用してMから予測され、サイドゲインは、以下のようにDirACパラメータを使用して表されることができる:
この復号は、2つの方向を指す一次ビームフォーミングに対応する。
その結果、ステレオ出力とDirACパラメータとの間に直接リンクが存在する。一方、DFTパラメータは、中間信号Mおよびサイド信号Sに基づくLおよびRチャネルのモデルに依存する。
Mは、モノチャネルとして伝送され、SBAモードの場合には全方向チャネルWに対応する。DFTでは、ステレオSは、サイドゲインを使用してMから予測され、サイドゲインは、以下のようにDirACパラメータを使用して表されることができる:
DFTステレオでは、予測の残差はインコヒーレントであると仮定および期待され、そのエネルギーによってモデル化され、左右に向かう残差信号を非相関化する。MによるSの予測の残差は、以下のように表されることができる:
また、そのエネルギーは、以下のように予測ゲインを使用してDFTステレオにおいてモデル化される:
残差ゲインは、ステレオ信号のチャネル間非干渉成分と空間幅を表すため、DirACによってモデル化された拡散部分に直接リンクされる。したがって、残差エネルギーは、DirAC拡散度パラメータの関数として書き換えられることができる。
また、そのエネルギーは、以下のように予測ゲインを使用してDFTステレオにおいてモデル化される:
残差ゲインは、ステレオ信号のチャネル間非干渉成分と空間幅を表すため、DirACによってモデル化された拡散部分に直接リンクされる。したがって、残差エネルギーは、DirAC拡散度パラメータの関数として書き換えられることができる。
通常使用されるDFTステレオの帯域構成はDirACの帯域構成と同じではないため、DirAC帯域と同じ周波数範囲をカバーするように適合される必要がある。これらの帯域の場合、DirACの指向角は、
によってDFTステレオのサイドゲインパラメータにマッピングされることができ、ここで、
は現在の帯域であり、パラメータ範囲は、方位角について
、仰角について
、および得られるサイドゲイン値について
である。しかしながら、DirACの指向性パラメータは、通常、DFTステレオよりも高い時間分解能を有し、これは、1つのサイドゲイン値の計算に2つ以上の方位角および仰角値を使用しなければならないことを意味する。1つの方法は、サブフレーム間の平均化を行うことであるが、この実装では、計算はエネルギー依存重みに基づく。全ての
DirACサブフレームについて、サブフレームのエネルギーは、
として計算され、ここで、
は時間領域入力信号、
は各サブフレーム内のサンプル数、および
はサンプルインデックスである。各DFTステレオサブフレーム
について、
として内部
の各DirACサブフレーム
の寄与について重みが計算されることができる。
によってDFTステレオのサイドゲインパラメータにマッピングされることができ、ここで、
は現在の帯域であり、パラメータ範囲は、方位角について
、仰角について
、および得られるサイドゲイン値について
である。しかしながら、DirACの指向性パラメータは、通常、DFTステレオよりも高い時間分解能を有し、これは、1つのサイドゲイン値の計算に2つ以上の方位角および仰角値を使用しなければならないことを意味する。1つの方法は、サブフレーム間の平均化を行うことであるが、この実装では、計算はエネルギー依存重みに基づく。全ての
DirACサブフレームについて、サブフレームのエネルギーは、
として計算され、ここで、
は時間領域入力信号、
は各サブフレーム内のサンプル数、および
はサンプルインデックスである。各DFTステレオサブフレーム
について、
として内部
の各DirACサブフレーム
の寄与について重みが計算されることができる。
パラメータ間の類似度により、帯域ごとの1つの拡散度値は、同じ帯域内の全てのサブフレームの残差予測パラメータに直接マッピングされる。
さらに、パラメータは、ゲインの強い変動を回避するために経時的に平滑化される。これは、ほとんどの場合、比較的強い平滑化を必要とするが、シーンが突然変化するときはいつでもより速い応答を必要とするため、平滑化の強度を決定する平滑化係数は適応的に計算される。この適応平滑化係数は、現在の帯域におけるエネルギーの変化から帯域ごとに計算される。したがって、最初に全てのサブフレーム
において帯域幅エネルギーが計算される必要がある:
ここで、
はDFT変換された信号の周波数ビン(実数および虚数)であり、
は現在の帯域
における全てのビンのビンインデックスである。
さらに、パラメータは、ゲインの強い変動を回避するために経時的に平滑化される。これは、ほとんどの場合、比較的強い平滑化を必要とするが、シーンが突然変化するときはいつでもより速い応答を必要とするため、平滑化の強度を決定する平滑化係数は適応的に計算される。この適応平滑化係数は、現在の帯域におけるエネルギーの変化から帯域ごとに計算される。したがって、最初に全てのサブフレーム
において帯域幅エネルギーが計算される必要がある:
ここで、
はDFT変換された信号の周波数ビン(実数および虚数)であり、
は現在の帯域
における全てのビンのビンインデックスである。
ここで、
および
は、個々の平均が計算される前のサブフレームの数
である。この特定の実装では、
は3に設定され、
は10に設定される。次に、平均の商から平滑化係数が計算され、その結果、最近のエネルギーの増加を示す短期平均が高いほど、平滑化の低下につながる。
エネルギーの減少を示すより高い長期平均は、平滑化の低下につながらないため、平滑化係数は、ここでは最大1に設定される。
および
は、個々の平均が計算される前のサブフレームの数
である。この特定の実装では、
は3に設定され、
は10に設定される。次に、平均の商から平滑化係数が計算され、その結果、最近のエネルギーの増加を示す短期平均が高いほど、平滑化の低下につながる。
エネルギーの減少を示すより高い長期平均は、平滑化の低下につながらないため、平滑化係数は、ここでは最大1に設定される。
極端でない場合には、平滑化が過度に低減されるため、係数は、値1に向かってルート関数によって圧縮される。安定性は最も低い帯域において特に重要であるため、4次根が帯域
および
において使用される:
一方、他の全ての帯域
は平方根
によって圧縮される。
および
において使用される:
一方、他の全ての帯域
は平方根
によって圧縮される。
このようにして、極端な場合は0に近いままであるが、エネルギーの急激な増加がそれほど大きく平滑化を減少させることはない。
最後のステップでは、サイドゲインおよび残差予測ゲインの双方が、以下にしたがって再帰的に平滑化される。
および
これらのマッピングされて平滑化されたパラメータは、ここでDFTステレオ処理に供給され、ここで、ステレオ信号
がダウンミックス
から生成され、残差予測信号
(オールパスフィルタ [7]を使用する「拡張ステレオフィリング」または遅延を使用する通常のステレオフィリングのいずれかによってダウンミックスから得られる)ならびにマッピングされたパラメータ
および
が生成される。アップミックスは、一般に以下の式 [6]によって記述される:
および
帯域
内の全てのビン
の各サブフレーム
について、
さらに、各サイドゲイン
は、
および
のエネルギーから計算されたエネルギー正規化係数
によって重み付けされる。
および
これらのマッピングされて平滑化されたパラメータは、ここでDFTステレオ処理に供給され、ここで、ステレオ信号
がダウンミックス
から生成され、残差予測信号
(オールパスフィルタ [7]を使用する「拡張ステレオフィリング」または遅延を使用する通常のステレオフィリングのいずれかによってダウンミックスから得られる)ならびにマッピングされたパラメータ
および
が生成される。アップミックスは、一般に以下の式 [6]によって記述される:
および
帯域
内の全てのビン
の各サブフレーム
について、
さらに、各サイドゲイン
は、
および
のエネルギーから計算されたエネルギー正規化係数
によって重み付けされる。
最後に、アップミックス信号は、IDFTを介して時間領域に変換されて戻され、所与のステレオ設定で再生される。
ACELPにおいて使用される「時間領域帯域幅拡張」(TBE) [8]は、それ自体の遅延を生成するため(実装では、この実施形態は正確に2.3125msに基づく)、全体の遅延が32ms以内に留まる間にDFT領域に変換されることはできない(STFTが既に3.125msを使用しているステレオデコーダには3.25ms残っている)。したがって、低帯域(LB)のみが図14の1450によって示されるDFTステレオ処理に入れられ、一方、高帯域(HB)は、図14のブロック920に示されるように時間領域において別々にアップミックスされなければならない。通常のDFTステレオでは、これは、アンビエンスのためのパンニングおよび時間領域ステレオフィリングのためのチャネル間帯域幅拡張(ICBWE) [5]を介して行われる。所与の場合において、ブロック930におけるステレオフィリングは、通常のDFTステレオと同じ方法で計算される。しかしながら、ICBWE処理は、パラメータが欠落しているために完全にスキップされ、マッピングされたサイドゲイン1472に基づいてブロック920において広帯域パンニングを必要とする低リソースによって置き換えられる。所与の実施形態では、完全なHB領域をカバーする単一のゲインのみが存在し、これは、ダウンミックスチャネルから以下へのブロック920における左右のHBチャネルの計算を簡略化する。
および
各サブフレーム
内のサンプル
について
HBステレオフィリング信号
は、ブロック930において、遅延
および
による重み付け、以下のようなエネルギー正規化係数
によって取得される。
および
現在のフレーム(サブフレームではなく、全フレームで行われる)内の全てのサンプル
について
であり、ここで、
は、HBダウンミックスがフィリング信号に対して遅延されるサンプル数である。
および
各サブフレーム
内のサンプル
について
HBステレオフィリング信号
は、ブロック930において、遅延
および
による重み付け、以下のようなエネルギー正規化係数
によって取得される。
および
現在のフレーム(サブフレームではなく、全フレームで行われる)内の全てのサンプル
について
であり、ここで、
は、HBダウンミックスがフィリング信号に対して遅延されるサンプル数である。
パンニングされたステレオ信号および生成されたステレオフィリング信号の双方は、最終的に、結合器940におけるDFT合成後にコア信号に混合されて戻される。
ACELP HBのこの特別な処理はまた、ACELPコアおよびTCXフレームがACELP HBと整合されるように人為的に遅延される高遅延DirAC処理とは対照的である。そこで、CLDFBは、完全な信号に対して実行され、すなわち、ACELP HBのアップミックスもCLDFB領域において行われる。
提案された方法の利点
追加の遅延がないことは、IVASコーデックが、ステレオ出力へのSBA入力のこの特定のケースについて、EVS(32ミリ秒)におけるものと同じ全体的な遅延内に留まることを可能にする。
追加の遅延がないことは、IVASコーデックが、ステレオ出力へのSBA入力のこの特定のケースについて、EVS(32ミリ秒)におけるものと同じ全体的な遅延内に留まることを可能にする。
全体的に単純でより容易な処理のために、空間DirACレンダリングよりもDFTによるパラメトリックステレオアップミックスの複雑さがはるかに低い。
さらなる好ましい実施形態
1.前述のように符号化または復号するための装置、方法またはコンピュータプログラム。
1.前述のように符号化または復号するための装置、方法またはコンピュータプログラム。
2.符号化もしくは復号のための装置もしくは方法、または関連するコンピュータプログラムであって、
・入力が、第1のパラメータセットを有する音響シーンの空間オーディオ表現に基づくモデルによって符号化され、2つの出力チャネル用のステレオモデル、または第2のパラメータセットを有する2つを超える出力チャネル用のマルチチャネルモデルを用いて出力において復号されるシステム、および/または
・空間パラメータのステレオパラメータへのマッピング、および/または
・1つの周波数領域に基づく入力表現/パラメータから別の周波数領域に基づく出力表現/パラメータへの変換、および/または
・より高い時間分解能を有するパラメータのより低い時間分解能への変換、および/または
・第2の周波数変換のより短いウィンドウオーバーラップによるより低い出力遅延、および/または
・ステレオとしてSBA DirAC符号化コンテンツを出力するための、DirACパラメータ(指向角、拡散度)のDFTステレオパラメータ(サイドゲイン、残差予測ゲイン)へのマッピング、および/または
・CLDFBベースの入力表現/パラメータからDFTベースの出力表現/パラメータへの変換、および/または
・5ms分解能のパラメータの10ms分解能のパラメータへの変換、および/または
・利点:CLDFBと比較してより短いDFTのウィンドウオーバーラップに起因するより低い出力遅延、を含む、符号化もしくは復号のための装置もしくは方法、または関連するコンピュータプログラム。
・入力が、第1のパラメータセットを有する音響シーンの空間オーディオ表現に基づくモデルによって符号化され、2つの出力チャネル用のステレオモデル、または第2のパラメータセットを有する2つを超える出力チャネル用のマルチチャネルモデルを用いて出力において復号されるシステム、および/または
・空間パラメータのステレオパラメータへのマッピング、および/または
・1つの周波数領域に基づく入力表現/パラメータから別の周波数領域に基づく出力表現/パラメータへの変換、および/または
・より高い時間分解能を有するパラメータのより低い時間分解能への変換、および/または
・第2の周波数変換のより短いウィンドウオーバーラップによるより低い出力遅延、および/または
・ステレオとしてSBA DirAC符号化コンテンツを出力するための、DirACパラメータ(指向角、拡散度)のDFTステレオパラメータ(サイドゲイン、残差予測ゲイン)へのマッピング、および/または
・CLDFBベースの入力表現/パラメータからDFTベースの出力表現/パラメータへの変換、および/または
・5ms分解能のパラメータの10ms分解能のパラメータへの変換、および/または
・利点:CLDFBと比較してより短いDFTのウィンドウオーバーラップに起因するより低い出力遅延、を含む、符号化もしくは復号のための装置もしくは方法、または関連するコンピュータプログラム。
本明細書では、前述の全ての代替形態または態様、および以下の特許請求の範囲における独立請求項によって定義される全ての態様は、個別に、すなわち、企図される代替形態、目的または独立請求項以外の代替形態または目的なしに使用されることができることに留意されたい。しかしながら、他の実施形態では、2つ以上の代替形態または態様または独立請求項が互いに組み合わせられることができ、他の実施形態では、全ての態様または代替形態および全ての独立請求項が互いに組み合わせられることができる。
本発明の異なる態様は、パラメータ変換態様、平滑化態様、および帯域幅拡張態様に関することが概説されるべきである。これらの態様は、別々にまたは互いに独立して実装されることができ、または少なくとも3つの態様の任意の2つの態様が組み合わせられることができ、または3つの態様全てが上述した実施形態において組み合わせられることができる。
本発明の符号化された信号は、デジタル記憶媒体または非一時的記憶媒体に記憶されることができ、あるいは無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送されることができる。
いくつかの態様が装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または機能の説明も表す。
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装されることができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体を使用して行うことができる。
本発明にかかるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協調することができる電子的に読み取り可能な制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実装されることができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するために動作する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。
他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
換言すれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをその上に記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを備える。
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを備える。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)が使用されて、本明細書に記載の方法の機能のいくつかまたは全てを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協調することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
上述した実施形態は、本発明の原理を単に例示するものである。本明細書に記載された構成および詳細の変更および変形は、当業者にとって明らかであろうことが理解される。したがって、本明細書の実施形態の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。
参考文献
[1] V. Pulkki, M.-V. V. J. Laitinen, J. Ahonen, T. Lokki and T. Pihlajamaeki, "Directional audio coding-perception - based reproduction of spatial sound," in INTERNATIONAL WORKSHOP ON THE PRINCIPLES AND APPLICATION ON SPATIAL HEARING, 2009.
[1] V. Pulkki, M.-V. V. J. Laitinen, J. Ahonen, T. Lokki and T. Pihlajamaeki, "Directional audio coding-perception - based reproduction of spatial sound," in INTERNATIONAL WORKSHOP ON THE PRINCIPLES AND APPLICATION ON SPATIAL HEARING, 2009.
[2] G. Fuchs, O. Thiergart, S. Korse, S. Doehla, M. Multrus, F. Kuech, Boutheon, A. Eichenseer and S. Bayer, "Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators". WO Patent 2020115311A1, 11 06 2020.
[3] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
[4] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell, " APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE". Patent WO17125563, 27 07 2017.
[5] V. S. C. S. Chebiyyam and V. Atti, "Inter-channel bandwidth extension". WO Patent 2018187082A1, 11 10 2018.
[6] J. Buethe, G. Fuchs, W. Jaegers, F. Reutelhuber, J. Herre, E. Fotopoulou, M. Multrus and S. Korse, "Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain". WO Patent WO2018086947A1, 17 05 2018.
[7] J. Buethe, F. Reutelhuber, S. Disch, G. Fuchs, M. Multrus and R. Geiger, "Apparatus for Encoding or Decoding an Encoded Multichannel Signal Using a Filling Signal Generated by a Broad Band Filter". WO Patent WO2019020757A2, 31 01 2019.
[8] V. A. e. al., "Super-wideband bandwidth extension for speech in the 3GPP EVS codec," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, 2015.
Claims (33)
- 音場を表すオーディオシーン(130)を処理するための装置であって、前記オーディオシーンが、トランスポート信号(122)およびパラメータセット(112;114)に関する情報を含み、
前記パラメータセット(112;114)および前記トランスポート信号(122)に関する情報を使用して処理されたオーディオシーン(124)を生成するための出力インターフェース(120)であって、前記出力インターフェース(120)が、前記パラメータセット(112;114)および前記トランスポート信号(112;144)を使用して2つ以上のチャネルの生表現を生成するように構成されている、出力インターフェースと、
前記トランスポート信号(122)を使用して前記2つ以上のチャネルの拡張表現を生成するためのマルチチャネルエンハンサ(990)と、
前記処理されたオーディオシーン(124)を取得するために、前記2つ以上のチャネルの前記生表現および前記2つ以上のチャネルの前記拡張表現を結合するための信号結合器(940)と、を備える、装置。 - 前記マルチチャネルエンハンサ(990)が、前記拡張トランスポート信号(822)および前記パラメータセット(112;114)を使用して前記2つ以上のチャネルの前記拡張表現(992)を生成するように構成され、または
前記マルチチャネルエンハンサ(990)が、拡張トランスポート信号(822)を生成するためのトランスポート信号エンハンサ(820)と、前記拡張トランスポート信号(822)をアップミックスするためのアップミキサと、を備える、請求項1に記載の装置。 - 前記トランスポート信号(122)が、符号化されたトランスポート信号であり、前記装置が、
復号された生トランスポート信号を生成するためのトランスポート信号コアデコーダ(810)をさらに備え、
前記トランスポート信号エンハンサ(820)が、前記復号された生トランスポート信号を使用して前記拡張トランスポート信号を生成するように構成され、
前記出力インターフェース(120)が、前記パラメータセット(112;114)および前記復号された生トランスポート信号を使用して前記2つ以上のチャネルの前記生表現を生成するように構成されている、請求項1または2に記載の装置。 - 前記マルチチャネルエンハンサ(990)が、前記トランスポート信号(122)または前記拡張トランスポート信号(822)および前記パラメータセット(114)の少なくとも1つのパラメータを使用して前記2つ以上のチャネルの前記拡張表現を生成するために、前記アップミキサまたはマルチチャネルフィラー(930)のいずれか、または前記アップミキサおよび前記マルチチャネルフィラー(930)の双方を備える、請求項1または2または請求項3に記載の装置。
- 前記出力インターフェース(120)が、第2の領域におけるアップミックスを使用して前記2つ以上のチャネルの生表現を生成するように構成され、
前記トランスポート信号エンハンサ(820)が、前記第2の領域とは異なる第1の領域において前記拡張トランスポート信号(822)を生成するように構成されているか、または前記マルチチャネルエンハンサ(990)が、前記第1の領域において前記拡張トランスポート信号(822)を使用して前記2つ以上のチャネルの前記拡張表現を生成するように構成されており、
前記信号結合器(940)が、前記第1の領域において前記2つ以上のチャネルの前記生表現と前記2つ以上のチャネルの前記拡張表現とを結合するように構成されている、請求項1から4のいずれか一項に記載の装置。 - 前記第1の領域が時間領域であり、前記第2の領域がスペクトル領域である、請求項5に記載の装置。
- 前記トランスポート信号エンハンサ(820)または前記マルチチャネルエンハンサ(990)が、帯域幅拡張演算、ギャップフィリング演算、品質強化演算、または補間演算を含む演算グループの少なくとも1つの演算を実行するように構成されている、請求項1から6のいずれか一項に記載の装置。
- 前記トランスポート信号エンハンサ(820)または前記マルチチャネルエンハンサ(990)が、前記生表現を生成するときに前記出力インターフェース(120)と並列に動作するように構成されるか、または
前記パラメータ変換器(110)が、前記トランスポート信号エンハンサ(820)と並列に動作するように構成されている、
請求項1から7のいずれか一項に記載の装置。 - 前記コアデコーダが、前記復号された生トランスポート信号を2つの並列分岐に供給するように構成され、前記2つの並列分岐のうちの第1の分岐が、前記出力インターフェース(120)を備え、前記2つの並列分岐のうちの第2の分岐が、前記トランスポート信号エンハンサ(820)または前記マルチチャネルエンハンサ(990)またはその双方を備え、前記信号結合器(940)が、前記第1の分岐から結合されるべき第1の入力および前記第2の分岐から結合されるべき第2の入力を受信するように構成されている、請求項3から8のいずれか一項に記載の装置。
- 前記出力インターフェース(120)が、
出力時間フレーム(220)に対応する前記トランスポート信号(122)の時間部分のスペクトル表現への変換を実行し、
前記パラメータセット(114)を使用して前記スペクトル表現のアップミックス演算を実行して、前記スペクトル表現内の前記2つ以上のチャネルを取得し、
前記スペクトル表現内の前記2つ以上のチャネルの各チャネルを時間表現に変換して、前記2つ以上のチャネルの生時間表現を取得する、ように構成され、
前記信号結合器(940)が、前記2つ以上のチャネルの前記生時間表現と前記2つ以上のチャネルの前記拡張時間表現とを結合するように構成されている、請求項1から9のいずれか一項に記載の装置。 - 前記装置が、受信されたパラメータセットを受信するように構成され、
前記装置が、前記受信されたパラメータセット(112)を、前記2つ以上のチャネルについての所定の空間位置における再生のために前記2つ以上のチャネルを備える前記チャネル表現に関連する前記パラメータセット(114)に変換するためのパラメータ変換器(110)をさらに備え、
前記出力インターフェース(120)が、前記パラメータセット(114)および前記トランスポート信号(122)に関する前記情報を使用して前記処理されたオーディオシーン(124)を生成するように構成されている、請求項1から10のいずれか一項に記載の装置。 - 前記出力インターフェース(120)が、前記パラメータセット(114)を使用して前記トランスポート信号(122)を前記2つ以上のチャネルを含むアップミックス信号にアップミックスするように構成されている、
請求項1から11のいずれか一項に記載の装置。 - 前記出力インターフェース(120)が、前記トランスポート信号(122)または前記トランスポート信号(122)に関する前記情報と前記パラメータセット(114)とを結合して、前記処理されたオーディオシーン(124)としてトランスコードされたオーディオシーンを取得することによって、前記処理されたオーディオシーン(124)を生成するように構成されている、請求項1から12のいずれか一項に記載の装置。
- 前記受信されたパラメータセット(112)が、複数の入力時間フレームの各入力時間フレーム(210)および複数の入力周波数帯域(230)の各入力周波数帯域(231)について、少なくとも1つのDirACパラメータを含み、
前記パラメータ変換器(110)が、前記パラメータセット(114)をパラメトリックステレオまたはマルチチャネルパラメータとして計算するように構成されている、請求項11から13のいずれか一項に記載の装置。 - 前記少なくとも1つのパラメータが、到来方向パラメータ、拡散度パラメータ、仮想聴取位置を球の原点とする前記球に関連する方向情報パラメータ、および距離パラメータのうちの少なくとも1つを含み、
前記パラメトリックステレオまたはマルチチャネルパラメータが、サイドゲインパラメータ(455)、残差予測ゲインパラメータ(456)、チャネル間レベル差パラメータ、チャネル間時間差パラメータ、チャネル間位相差パラメータ、およびチャネル間コヒーレンスパラメータのうちの少なくとも1つを含む、請求項14に記載の装置。 - 前記受信されたパラメータセット(112)が関連する入力時間フレーム(120)が、2つ以上の入力時間サブフレームを含み、前記パラメータセット(114)が関連する出力時間フレーム(220)が、前記入力時間フレーム(210)よりも小さく、前記2つ以上の入力時間サブフレームのうちの入力時間サブフレームよりも長く、
前記パラメータ変換器(110)が、時間的に後続する前記2つ以上の入力時間サブフレームのそれぞれについて前記パラメータセット(114)の生パラメータ(252)を計算し、少なくとも2つの生パラメータを結合して、前記出力サブフレームに関連する前記パラメータセット(114)のパラメータを導出するように構成されている、請求項11から15のいずれか一項に記載の装置。 - 前記パラメータ変換器(110)が、前記少なくとも2つの生パラメータの重み付け結合を実行するように構成され、前記重み付け結合の重み係数が、前記対応する入力時間サブフレームにおける前記トランスポート信号(122)の振幅関連尺度(320)に基づいて導出される、請求項16に記載の装置。
- 前記パラメータ変換器(110)が、前記振幅関連尺度(320)として、エネルギーまたは電力を使用するように構成されており、入力サブフレームについての重み係数が、前記対応する入力時間サブフレーム内の前記トランスポート信号(122)のエネルギーまたは電力がより高い場合、前記対応する入力時間サブフレーム内の前記トランスポート信号(122)のエネルギーまたは電力がより低い入力サブフレームの重み係数と比較して、より大きい、請求項17に記載の装置。
- 前記パラメータ変換器(110)が、前記入力時間フレーム(210)について前記受信されたパラメータセット(112)の少なくとも1つのパラメータを使用して、各出力時間フレーム(220)について少なくとも1つの生パラメータ(252)を計算するように構成され、
前記パラメータ変換器(120)が、平滑化規則にしたがって生パラメータ(252)ごとに平滑化係数(512;522)を計算するように構成され、
前記パラメータ変換器(110)が、対応する平滑化係数(512;522)を前記対応する生パラメータ(252)に適用して、前記出力時間フレーム(220)についての前記パラメータセット(114)の前記パラメータを導出するように構成されている、請求項14から18のいずれか一項に記載の装置。 - 前記パラメータ変換器(110)が、
前記トランスポート信号(122)の第1の時間部分の振幅関連尺度(320)にわたる長期平均(332)を計算し、
前記トランスポート信号(120)の第2の時間部分であって、前記第1の時間部分よりも短い前記第2の時間部分の振幅関連尺度(320)にわたる短期平均(331)を計算し、
前記長期平均(332)と前記短期平均(331)との比に基づいて平滑化係数(512;522)を計算するように構成されている、請求項19に記載の装置。 - 前記パラメータ変換器(110)が、圧縮関数(540)を使用して帯域についての平滑化係数(512;522)を計算するように構成され、前記圧縮関数が異なる周波数帯域について異なり、前記圧縮関数の圧縮強度が、より低い周波数帯域の方がより高い周波数帯域よりも強い、請求項19または20に記載の装置。
- 前記パラメータ変換器(110)が、異なる帯域に対して異なる最大境界を使用して前記平滑化係数(512;522)を計算するように構成され、低帯域の最大境界が、高帯域の最大境界よりも高い、請求項19から21のいずれか一項に記載の装置。
- 前記パラメータ変換器(110)が、前記平滑化規則として、再帰的平滑化規則(710)を時間的に後続の出力時間フレームにわたって適用するように構成され、その結果、現在の出力時間フレーム(220)についての平滑化されたパラメータが、第1の重み値によって重み付けされた前の出力時間フレーム(220)についての前記パラメータと、第2の重み値によって重み付けされた前記現在の出力時間フレーム(220)についての生パラメータ(252)とを結合することによって計算され、前記第1の重み値および前記第2の重み値が、前記現在の時間フレームについての前記平滑化係数(512;522)から導出される、請求項19から22のいずれか一項に記載の装置。
- 前記出力インターフェース(120)が、
出力時間フレーム(220)に対応する前記トランスポート信号(122)の時間部分のスペクトル表現への変換を実行し、前記部分が、前記受信されたパラメータセット(112)の前記パラメータが編成される入力時間フレーム(210)よりも短く、
前記パラメータセット(114)を使用して前記スペクトル表現のアップミックス演算を実行して、前記スペクトル表現内の前記2つ以上のチャネルを取得し、
前記スペクトル表現内の前記2つ以上のチャネルの各チャネルを時間表現に変換するように構成されている、請求項1から23のいずれか一項に記載の装置。 - 前記出力インターフェース(120)が、
複素離散フーリエ変換領域に変換し、
前記複素離散フーリエ変換領域において前記アップミックス演算を実行し、
前記複素離散フーリエ変換領域から実数値時間領域表現への前記変換を実行するように構成されている、請求項24に記載の装置。 - 前記受信されたパラメータセット(112)が、入力周波数帯域(231)の到来方向パラメータであり、前記パラメータセット(114)が、入力周波数帯域(231)ごとのサイドゲインパラメータ(455)を含み、
前記パラメータ変換器(110)が、以下の式を使用して前記出力周波数帯域(241)についての前記サイドパラメータを計算するように構成され、
ここで、bは出力周波数帯域(241)であり、sidegainはサイドゲインパラメータ(455)であり、azimuthは到来方向パラメータの方位角成分であり、elevationは到来方向パラメータの仰角成分である、
請求項11から26のいずれか一項に記載の装置。 - 前記受信されたパラメータセット(112)が、入力周波数帯域(231)ごとの拡散度パラメータを含み、
前記パラメータセット(114)が、出力周波数帯域(241)についての残差予測パラメータ(456)を含み、
前記パラメータ変換器(110)が、前記入力パラメータ帯域と前記出力パラメータ帯域とが互いに等しい場合、前記入力パラメータ帯域からの前記拡散度パラメータを前記出力パラメータ帯域についての前記残差予測パラメータ(456)として使用するか、または、前記入力パラメータ帯域についての前記拡散度パラメータから前記出力パラメータ帯域についての拡散度パラメータを導出し、次いで、前記出力パラメータ帯域についての前記拡散度パラメータを前記出力パラメータ帯域についての前記残差予測パラメータ(456)として使用する、
請求項11から28のいずれか一項に記載の装置。 - 前記トランスポート信号(122)に関する前記情報がコア符号化オーディオ信号を含み、前記装置が、
前記トランスポート信号(122)を取得するために前記コア符号化オーディオ信号をコア復号するためのコアデコーダをさらに備える、
請求項3から29のいずれか一項に記載の装置。 - 前記コアデコーダがACELPデコーダ内にあり、または
前記出力インターフェース(120)が、低帯域信号である前記トランスポート信号(122)をスペクトル表現に変換し、前記スペクトル表現をアップミックスし、時間領域においてアップミックスされたスペクトル表現を変換して、前記2つ以上のチャネルの低帯域表現を取得するように構成され、
前記装置が、前記時間領域において前記トランスポート(122)信号から高帯域信号を生成するための帯域幅拡張プロセッサ(910)を備え、
前記装置が、前記時間領域において前記トランスポート信号(122)にマルチチャネルフィリング演算を適用するためのマルチチャネルフィラー(930)を備え、
前記装置が、前記パラメータセット(114)からの少なくとも1つのパラメータを使用して前記高帯域信号に前記時間領域における広帯域パンニングを適用するためのアップミキサ(920)を備え、
前記装置が、前記チャネル表現として前記時間領域における全帯域マルチチャネル信号を取得するために、前記時間領域において、前記広帯域パンニングの結果、前記ステレオフィリングの結果、および前記2つ以上のチャネルの前記低帯域表現を結合するための信号結合器(940)を備える、請求項3または30のいずれか一項に記載の装置。 - 仮想聴取者位置に関連する音場を表すオーディオシーンを処理する方法であって、前記オーディオシーンが、トランスポート信号およびパラメータセットに関する情報を含み、
前記パラメータセットおよび前記トランスポート信号に関する前記情報を使用して処理されたオーディオシーンを生成することであって、前記生成することが、前記パラメータセットおよび前記トランスポート信号を使用して2つ以上のチャネルの生表現を生成することを含む、生成することと、
前記トランスポート信号を使用して前記2つ以上のチャネルの拡張表現をマルチチャネル生成することと、
前記処理されたオーディオシーンを取得するために、前記2つ以上のチャネルの前記生表現と前記2つ以上のチャネルの前記拡張表現とを結合することと、を含む、方法。 - コンピュータまたはプロセッサ上で実行されると、請求項32に記載の方法を実行するためのコンピュータプログラム。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20201093.0 | 2020-10-09 | ||
EP20201093 | 2020-10-09 | ||
EP20207517 | 2020-11-13 | ||
EP20207517.2 | 2020-11-13 | ||
EP21180869 | 2021-06-22 | ||
EP21180869.6 | 2021-06-22 | ||
PCT/EP2021/077873 WO2022074201A2 (en) | 2020-10-09 | 2021-10-08 | Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023548650A true JP2023548650A (ja) | 2023-11-20 |
Family
ID=78085945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023520374A Pending JP2023548650A (ja) | 2020-10-09 | 2021-10-08 | 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム |
Country Status (10)
Country | Link |
---|---|
US (1) | US20230239644A1 (ja) |
EP (1) | EP4226366A2 (ja) |
JP (1) | JP2023548650A (ja) |
KR (1) | KR20230084244A (ja) |
AU (1) | AU2021357840A1 (ja) |
CA (1) | CA3194876A1 (ja) |
MX (1) | MX2023003965A (ja) |
TW (1) | TWI803999B (ja) |
WO (1) | WO2022074201A2 (ja) |
ZA (1) | ZA202304044B (ja) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2644520T3 (es) * | 2009-09-29 | 2017-11-29 | Dolby International Ab | Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
AU2011237882B2 (en) * | 2010-04-09 | 2014-07-24 | Dolby International Ab | MDCT-based complex prediction stereo coding |
CN104781877A (zh) * | 2012-10-31 | 2015-07-15 | 株式会社索思未来 | 音频信号编码装置以及音频信号解码装置 |
CN105229731B (zh) * | 2013-05-24 | 2017-03-15 | 杜比国际公司 | 根据下混的音频场景的重构 |
EP2830053A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
EP3067887A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
CN105280190B (zh) * | 2015-09-16 | 2018-11-23 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
CA3011915C (en) | 2016-01-22 | 2021-07-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for estimating an inter-channel time difference |
FI3539125T3 (fi) | 2016-11-08 | 2023-03-21 | Fraunhofer Ges Forschung | Laite ja menetelmä monikanavasignaalin koodaamiseksi ja dekoodaamiseksi käyttäen sivuvahvistusta ja jäännösvahvistusta |
RU2741379C1 (ru) * | 2017-07-28 | 2021-01-25 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Оборудование для кодирования или декодирования кодированного многоканального сигнала с использованием заполняющего сигнала, сформированного посредством широкополосного фильтра |
CA3122164C (en) | 2018-12-07 | 2024-01-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using diffuse compensation |
-
2021
- 2021-10-08 WO PCT/EP2021/077873 patent/WO2022074201A2/en active Application Filing
- 2021-10-08 TW TW110137464A patent/TWI803999B/zh active
- 2021-10-08 MX MX2023003965A patent/MX2023003965A/es unknown
- 2021-10-08 KR KR1020237015406A patent/KR20230084244A/ko active Search and Examination
- 2021-10-08 AU AU2021357840A patent/AU2021357840A1/en active Pending
- 2021-10-08 EP EP21789739.6A patent/EP4226366A2/en active Pending
- 2021-10-08 CA CA3194876A patent/CA3194876A1/en active Pending
- 2021-10-08 JP JP2023520374A patent/JP2023548650A/ja active Pending
-
2023
- 2023-03-31 US US18/194,272 patent/US20230239644A1/en active Pending
- 2023-03-31 ZA ZA2023/04044A patent/ZA202304044B/en unknown
Also Published As
Publication number | Publication date |
---|---|
WO2022074201A3 (en) | 2022-05-19 |
KR20230084244A (ko) | 2023-06-12 |
TW202219942A (zh) | 2022-05-16 |
US20230239644A1 (en) | 2023-07-27 |
ZA202304044B (en) | 2023-11-29 |
MX2023003965A (es) | 2023-05-25 |
TWI803999B (zh) | 2023-06-01 |
EP4226366A2 (en) | 2023-08-16 |
WO2022074201A2 (en) | 2022-04-14 |
CA3194876A1 (en) | 2022-04-14 |
AU2021357840A1 (en) | 2023-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7401625B2 (ja) | 広帯域フィルタによって生成される補充信号を使用して、エンコードされたマルチチャネル信号をエンコードまたはデコードするための装置 | |
CN112074902B (zh) | 使用混合编码器/解码器空间分析的音频场景编码器、音频场景解码器及相关方法 | |
TWI794911B (zh) | 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式 | |
GB2470059A (en) | Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter | |
TWI803998B (zh) | 使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式 | |
TWI803999B (zh) | 使用頻寬擴展處理編碼音頻場景的裝置、方法或電腦程式 | |
TWI805019B (zh) | 使用參數平滑處理編碼音頻場景的裝置、方法或電腦程式 | |
RU2818033C1 (ru) | Устройство, способ или компьютерная программа для обработки кодированной аудиосцены с использованием сглаживания параметров | |
CN116457878A (zh) | 使用带宽扩展来处理编码音频场景的装置、方法或计算机程序 | |
CN116529813A (zh) | 使用参数转换来处理编码音频场景的装置、方法或计算机程序 | |
TWI834760B (zh) | 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式 | |
TW202347317A (zh) | 用於方向性音訊寫碼空間重建音訊處理之方法、設備及系統 | |
CN115989682A (zh) | 基于立体声的沉浸式编码(stic) | |
TW202016925A (zh) | 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20230530 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240422 |