JP2023548650A - 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム - Google Patents

帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム Download PDF

Info

Publication number
JP2023548650A
JP2023548650A JP2023520374A JP2023520374A JP2023548650A JP 2023548650 A JP2023548650 A JP 2023548650A JP 2023520374 A JP2023520374 A JP 2023520374A JP 2023520374 A JP2023520374 A JP 2023520374A JP 2023548650 A JP2023548650 A JP 2023548650A
Authority
JP
Japan
Prior art keywords
parameter
signal
transport signal
representation
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023520374A
Other languages
English (en)
Inventor
ロイテルフーバー・フランツ
フックス・ギヨーム
ムルトラス・マルクス
フォトポウロウ・エレニ
バイエル・ステファン
ブーテ・ヤン
ドーラ・ステファン
Original Assignee
フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2023548650A publication Critical patent/JP2023548650A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音場を表すオーディオシーン(130)を処理するための装置であって、オーディオシーンが、トランスポート信号(122)およびパラメータセット(112;114)に関する情報を含む、装置である。装置は、パラメータセット(112;114)およびトランスポート信号(122)に関する情報を使用して処理されたオーディオシーン(124)を生成するための出力インターフェース(120)であって、パラメータセット(112;114)およびトランスポート信号(112;144)を使用して2つ以上のチャネルの生表現を生成するように構成されている、出力インターフェース(120)と、トランスポート信号(122)を使用して2つ以上のチャネルの拡張表現を生成するマルチチャネルエンハンサ(990)と、処理されたオーディオシーン(124)を取得するために、2つ以上のチャネルの生表現および2つ以上のチャネルの拡張表現を結合する信号結合器(940)と、を備える。【選択図】図1

Description

本発明は、オーディオ処理に関し、特に、レンダリング、記憶の送信のための処理されたオーディオシーンを生成する目的のための符号化されたオーディオシーンの処理に関する。
従来、電話またはテレビ会議のようなユーザ通信のための手段を提供するオーディオアプリケーションは、モノラル録音および再生に主に制限されてきた。しかしながら、近年では、新たな没入型VR/AR技術の出現もまた、通信シナリオの空間レンダリングに対する関心を高めている。この関心を満たすために、イマーシブボイスおよびオーディオサービス(IVAS)と呼ばれる新たな3GPP(登録商標、以下同じ)オーディオ規格が現在開発中である。最近リリースされた拡張音声サービス(EVS)規格に基づいて、IVASは、滑らかなオーディオ通信の低遅延要件を依然として満たしながら、例えば空間テレビ会議などの没入オーディオシーンをレンダリングすることができるマルチチャネルおよびVR拡張を提供する。再生品質を犠牲にすることなくコーデックの全体的な遅延を最小限に保つというこの継続的な必要性は、以下に説明する作業の動機を提供する。
-指向性オーディオ符号化(DirAC) [1] [2]のような-パラメトリックオーディオ符号化を使用するシステムによって-三次アンビソニックスコンテンツのような-シーンベースオーディオ(SBA)素材を低ビットレート(例えば、32kbps以下)で符号化することは、フィルタバンク領域のデコーダにおいてサイドパラメータを介して空間情報を復元しながら、単一の(トランスポート)チャネルのみを直接符号化することを可能にする。デコーダにおけるスピーカ設定がステレオ再生のみが可能である場合、3Dオーディオシーンの完全な復元は必要とされない。2つ以上のトランスポートチャネルのより高いビットレート符号化が可能であるため、それらの場合、シーンの立体音響再生は、(空間レンダラを完全にスキップする)いかなるパラメトリック空間アップミックスもおよびそれに伴う余分な遅延もなく、(例えば、複素値低遅延フィルタバンク(CLDFB)のような追加のフィルタバンク解析/合成に起因して)直接抽出および再生されることができる。しかしながら、ただ1つのトランスポートチャネルを有する低レートの場合、これは不可能である。したがって、DirACの場合、これまで、ステレオ出力には、以下のL/R変換を伴うFOA(一次アンビソニックス)アップミックスが必要であった。この場合、システム内の他の可能なステレオ出力構成よりも全体的な遅延が大きく、全てのステレオ出力構成の位置合わせが望ましいため、これは問題である。
高遅延のDirACステレオレンダリングの例
図12は、高遅延のDirACステレオアップミックスのための従来のデコーダ処理のブロック図の例を示している。
例えば、図示されていないエンコーダにおいて、単一のダウンミックスチャネルが、DirACエンコーダ処理における空間ダウンミックスを介して導出され、その後、拡張音声サービス(EVS) [3]のようなコアコーダによって符号化される。
デコーダにおいて、例えば、図12に描かれている従来のDirACアップミックスプロセスを使用して、1つの利用可能なトランスポートチャネルは、まず、ビットストリーム1212からモノラルまたはIVASモノラルデコーダ1210を使用することによって復号され、結果として、元のオーディオシーンの復号されたモノラルダウンミックス1214として見ることができる時間領域信号をもたらす。
復号されたモノラル信号1214は、遅延を引き起こす信号1214を解析する(信号を周波数領域に変換する)ために、CLDFB1220に入力される。著しく遅延した出力信号1222は、DirACレンダラ1230に入力される。DirACレンダラ1230は、遅延出力信号1222を処理し、送信されたサイド情報、すなわちDirACサイドパラメータ1213は、信号1222をFOA表現、すなわちDirACサイドパラメータ1213から復元された空間情報を有する元のシーンのFOAアップミックス1232に変換するために使用される。
送信されたパラメータ1213は、指向角、例えば、水平面に対する1つの方位角値および垂直面に対する1つの仰角、ならびに3Dオーディオシーン全体を知覚的に記述するための周波数帯域ごとの1つの拡散度値を含むことができる。DirACステレオアップミックスの帯域ごとの処理により、パラメータ1213は、フレームごとに複数回、すなわち周波数帯域ごとに1セット送信される。さらに、各セットは、時間分解能を高めるために、フレーム全体(例えば20msの長さの)内の個々のサブフレームのための複数の指向性パラメータを備える。
DirACレンダラ1230の結果は、例えば、FOAフォーマットの完全な3Dシーン、すなわちFOAアップミックス1232とすることができ、行列変換1240を使用して、ステレオスピーカセットアップでの再生に適したL/R信号1242に変換されることができる。換言すれば、L/R信号1242は、ステレオスピーカに入力されることができ、または所定のチャネル重みを使用しているCLDFB合成1250に入力されることができる。CLDFB合成1250は、入力された周波数領域の2つの出力チャネル(L/R信号1242)を時間領域に変換し、ステレオ再生可能な出力信号1252とする。
あるいは、同じDirACステレオアップミックスを使用して、ステレオ出力構成のレンダリングを直接生成することが可能であり、これは、FOA信号を生成する中間ステップを回避する。これは、フレームワークの潜在的な複雑化のアルゴリズムの複雑さを軽減する。それにもかかわらず、双方の手法は、コア符号化後に追加のフィルタバンクの使用を必要とし、5msの追加の遅延をもたらす。DirACレンダリングのさらなる例は、 [2]に見出すことができる。
DirACステレオアップミックス手法は、遅延および複雑さの双方の点でむしろ準最適である。CLDFBフィルタバンクを使用することにより、出力は大幅に遅延し(DirACの例ではさらに5ms)、したがって、(レンダリングの追加のステップが必要とされないステレオ出力構成の遅延と比較して)完全なSBAアップミックスと同じ全体的な遅延を有する。ステレオ信号を生成するために完全なSBAアップミックスを行うことは、システムの複雑さに関して理想的ではないという合理的な仮定でもある。
本発明の目的は、符号化されたオーディオシーンを処理するための改善された概念を提供することである。
この目的は、請求項1に記載の符号化されたオーディオシーンを処理するための装置、請求項32に記載の符号化されたオーディオシーンを処理する方法、または請求項33に記載のコンピュータプログラムによって達成される。
本発明は、パラメータ変換に関する第1の態様によれば、符号化されたオーディオシーンを処理するための改善された概念が、仮想聴取者位置に関連する符号化されたオーディオシーン内の所与のパラメータを、所与の出力フォーマットのチャネル表現に関連する変換されたパラメータに変換することによって得られるという発見に基づいている。この手順は、処理の高い柔軟性を提供し、チャネルベースの環境において処理されたオーディオシーンを最終的にレンダリングする。
本発明の第1の態様にかかる実施形態は、仮想聴取者位置に関連する音場を表す符号化されたオーディオシーンを処理するための装置であって、符号化されたオーディオシーンが、トランスポート信号、例えばコア符号化されたオーディオ信号に関する情報と、仮想聴取者位置に関連する第1のパラメータセットとを含む、装置を備える。装置は、第1のパラメータセット、例えば、Bフォーマットまたは一次アンビソニックス(FOA)フォーマットの指向性オーディオ符号化(DirAC)サイドパラメータを、第2のパラメータセット、例えば、2つ以上のチャネルの所定の空間位置における再生のための2つ以上のチャネルを含むチャネル表現に関連するステレオパラメータに変換するためのパラメータ変換器と、第2のパラメータセットおよびトランスポート信号に関する情報を使用して処理されたオーディオシーンを生成するための出力インターフェースとを備える。
実施形態では、指向性オーディオ符号化(DirAC)レンダラではなくアップミックスに短時間フーリエ変換(STFT)フィルタバンクが使用される。したがって、(ビットストリームに含まれる)1つのダウンミックスチャネルを追加の全体的な遅延なしにステレオ出力にアップミックスすることが可能になる。デコーダにおける解析に非常に短いオーバーラップを有するウィンドウを使用することにより、アップミックスは、通信コーデックまたは近い将来のイマーシブボイスおよびオーディオサービス(IVAS)に必要な全体的な遅延内に留まることを可能にする。この値は、例えば、32ミリ秒とすることができる。そのような実施形態では、帯域幅拡張の目的のための任意の後処理は、そのような処理がパラメータ変換またはパラメータマッピングと並行して行われることができるため、回避されることができる。
低帯域(LB)信号の聴取者固有のパラメータを低帯域のチャネル固有のステレオパラメータセットにマッピングすることにより、DFT領域内の低帯域の低遅延アップミキシングが達成されることができる。高帯域の場合、単一のステレオパラメータセットは、時間領域における高帯域でアップミックスを実行することを可能にし、好ましくは低帯域のスペクトル解析、スペクトルアップミキシングおよびスペクトル合成と並行して実行することを可能にする。
例示的には、パラメータ変換器は、パンニングのためのシングルサイドゲインパラメータと、ステレオ幅に密接に関連し、また指向性オーディオ符号化(DirAC)において使用される拡散度パラメータにも密接に関連する残差予測パラメータとを使用するように構成されている。
この「DFT-ステレオ」手法は、実施形態では、ステレオ出力を得るために符号化されたオーディオシーン(シーンベースオーディオ)を処理する場合、IVASコーデックがEVSと同じ全体的な遅延、特に32ミリ秒内に留まることを可能にする。空間DirACレンダリングの代わりにDFT-ステレオを介して簡単な処理を実装することにより、パラメトリックステレオアップミックスの複雑さが低減される。
本発明は、帯域幅拡張に関する第2の態様によれば、符号化されたオーディオシーンを処理するための改善された概念が得られるという発見に基づいている。
本発明の第2の態様にかかる実施形態は、音場を表すオーディオシーンを処理するための装置であって、オーディオシーンが、トランスポート信号およびパラメータセットに関する情報を含む、装置を備える。装置は、パラメータセットおよびトランスポート信号に関する情報を使用して処理されたオーディオシーンを生成するための出力インターフェースであって、出力インターフェースが、パラメータセットおよびトランスポート信号を使用して2つ以上のチャネルの生表現を生成するように構成されている、出力インターフェースと、トランスポート信号を使用して2つ以上のチャネルの拡張表現を生成するためのマルチチャネルエンハンサと、処理されたオーディオシーンを取得するために、2つ以上のチャネルの生表現および2つ以上のチャネルの拡張表現を結合するための信号結合器と、をさらに備える。
一方では2つ以上のチャネルの生表現を生成し、他方では2つ以上のチャネルの拡張表現を別々に生成することは、生表現および拡張表現のためのアルゴリズムを選択する際の大きな柔軟性を可能にする。最終的な結合は、1つまたは複数の出力チャネルのそれぞれに対して、すなわち、より低いチャネル入力または符号化されたシーン領域ではなくマルチチャネル出力領域において、既に行われている。したがって、結合に続いて、2つ以上のチャネルが合成され、レンダリング、送信、または記憶などのさらなる手順に使用されることができる。
実施形態では、拡張表現用の代数符号励起線形予測(ACELP)音声コーダの帯域幅拡張(BWE)などのコア処理の一部は、生表現用のDFT-ステレオ処理と並列に実行されることができる。したがって、双方のアルゴリズムによって発生した遅延は累積せず、1つのアルゴリズムによって発生した所与の遅延のみが最終遅延となる。実施形態では、トランスポート信号、例えば低帯域(LB)信号(チャネル)のみが出力インターフェース、例えばDFT-ステレオ処理に入力され、一方、高帯域(HB)は、例えばマルチチャネルエンハンサを使用して時間領域において別々にアップミックスされ、その結果、ステレオ復号は、32ミリ秒の目標時間ウィンドウ内で処理されることができる。例えば、パラメータ変換器からのマッピングされたサイドゲインに基づいて、例えば、広帯域パンニングを使用することにより、大きな遅延なしに高帯域全体の直線時間領域アップミックスが得られる。
実施形態では、DFT-ステレオにおける遅延の低減は、2つの変換のオーバーラップの差、例えば、CLDFBによって引き起こされる5msの変換遅延およびSTFTによって引き起こされる3,125msの変換遅延から完全には生じない場合がある。代わりに、DFT-ステレオは、32msのEVSコーダの目標遅延からの最後の3,25msが本質的にACELP BWEから到来するという事実を利用する。他の全てのもの(EVSコーダの目標遅延に到達するまでの残りのミリ秒)は、単に人為的に遅延されて、2つの変換された信号(HBステレオアップミックス信号およびLBステレオコア信号によるHBフィリング信号)のアライメントを最後に再び達成する。したがって、DFT-ステレオにおける追加の遅延を回避するために、エンコーダの他の全ての構成要素のみが、例えば非常に短いDFTウィンドウオーバーラップ内で変換され、一方、例えばマルチチャネルエンハンサを使用するACELP BWEは、時間領域においてほとんど遅延なしに混合される。
本発明は、パラメータ平滑化に関する第3の態様によれば、符号化されたオーディオシーンを処理するための改善された概念が、平滑化規則にしたがって時間に関してパラメータ平滑化を実行することによって得られるという発見に基づいている。したがって、生パラメータではなく平滑化されたパラメータをトランスポートチャネルに適用することによって得られた処理されたオーディオシーンは、改善されたオーディオ品質を有する。これは、平滑化されたパラメータがアップミックスパラメータである場合に特に当てはまるが、エンベロープパラメータまたはLPCパラメータまたはノイズパラメータまたはスケールファクタパラメータなどの他の任意のパラメータについては、平滑化規則によって得られた使用または平滑化されたパラメータは、得られた処理されたオーディオシーンの改善された主観的オーディオ品質をもたらす。
本発明の第3の態様にかかる実施形態は、音場を表すオーディオシーンを処理するための装置であって、オーディオシーンが、トランスポート信号および第1のパラメータセットに関する情報を含む、装置を備える。装置は、第2のパラメータセットを取得するために第1のパラメータセットを処理するためのパラメータプロセッサであって、パラメータプロセッサが、入力時間フレームについての第1のパラメータセットの少なくとも1つのパラメータを使用して出力時間フレームごとに少なくとも1つの生パラメータを計算し、平滑化規則にしたがって各生パラメータについての係数などの平滑化情報を計算し、出力時間フレームについての第2のパラメータセットのパラメータを導出するために対応する平滑化情報を対応する生パラメータに適用するように構成されている、パラメータプロセッサと、第2のパラメータセットおよびトランスポート信号に関する情報を使用して処理されたオーディオシーンを生成するための出力インターフェースと、をさらに備える。
生パラメータを経時的に平滑化することにより、あるフレームから次のフレームへのゲインまたはパラメータの強い変動が回避される。平滑化係数は、パラメータプロセッサによって、好ましい実施形態では適応的に計算される平滑化の強度を決定し、パラメータプロセッサは、実施形態では、聴取者位置関連パラメータをチャネル関連パラメータに変換するためのパラメータ変換器の機能も有する。適応計算は、オーディオシーンが突然変化するときはいつでもより迅速な応答を得ることを可能にする。適応平滑化係数は、現在の帯域におけるエネルギーの変化から帯域ごとに計算される。帯域ごとのエネルギーは、フレームに含まれる全てのサブフレームにおいて計算される。さらに、短期平均および長期平均の2つの平均によって特徴付けられる経時的なエネルギーの変化は、極端な場合には平滑化に影響を及ぼさないが、それほど大きくないエネルギーの急激な増加は平滑化を減少させない。したがって、平滑化係数は、平均の商から現在のフレーム内のDTF-ステレオサブフレームのそれぞれについて計算される。
本明細書では、前述および後述の全ての代替形態または態様が、個別に、すなわちいかなる態様もなしで使用されることができることに言及すべきである。しかしながら、他の実施形態では、2つ以上の態様が互いに組み合わされ、他の実施形態では、全ての態様が互いに組み合わされて、全体的な遅延、達成可能なオーディオ品質、および必要な実装労力の間の改善された妥協点が得られる。
本発明の好ましい実施形態が、添付の図面に関して以下に説明される。
実施形態にかかる、パラメータ変換器を使用して符号化されたオーディオシーンを処理するための装置のブロック図である。 実施形態にかかる、第1のパラメータセットおよび第2のパラメータセットの概略図を示している。 生パラメータを計算するためのパラメータ変換器またはパラメータプロセッサの実施形態である。 生パラメータを結合するためのパラメータ変換器またはパラメータプロセッサの実施形態である。 生パラメータの重み付けされた結合を実行するためのパラメータ変換器またはパラメータプロセッサの実施形態である。 サイドゲインパラメータおよび残差予測パラメータを生成するためのパラメータ変換器の実施形態である。 生パラメータの平滑化係数を計算するためのパラメータ変換器またはパラメータプロセッサの実施形態である。 周波数帯域についての平滑化係数を計算するためのパラメータ変換器またはパラメータプロセッサの実施形態である。 実施形態にかかる平滑化係数のトランスポート信号の平均化の概略図を示している。 再帰的平滑化を計算するためのパラメータ変換器パラメータプロセッサの実施形態である。 トランスポート信号を復号するための装置の実施形態である。 帯域幅拡張を使用して符号化されたオーディオシーンを処理するための装置の実施形態である。 処理されたオーディオシーンを取得するための装置の実施形態である。 マルチチャネルエンハンサの実施形態のブロック図である。 従来のDirACステレオアップミックス処理のブロック図である。 パラメータマッピングを使用して処理されたオーディオシーンを取得するための装置の実施形態である。 帯域幅拡張を使用して処理されたオーディオシーンを取得するための装置の実施形態である。
図1は、例えば、仮想聴取者位置に関連する音場を表す、符号化されたオーディオシーン130を処理するための装置を示している。符号化されたオーディオシーン130は、トランスポート信号122、例えばビットストリームに関する情報と、第1のパラメータセット112、例えば同じくビットストリームに含まれる複数のDirACパラメータを含み、これらは仮想聴取者位置に関連する。第1のパラメータセット112は、パラメータ変換器110またはパラメータプロセッサに入力され、パラメータ変換器またはパラメータプロセッサは、第1のパラメータセット112を、少なくとも2つ以上のチャネルを含むチャネル表現に関連する第2のパラメータセット114に変換する。装置は、異なるオーディオフォーマットをサポートすることができる。オーディオ信号は、本質的に音響であってもよく、マイクロフォンによって拾い上げられてもよく、または本質的に電気であってもよく、これらはスピーカに送信されることが想定される。サポートされるオーディオフォーマットは、モノラル信号、低帯域信号、高帯域信号、マルチチャネル信号、一次および高次アンビソニックス成分、およびオーディオオブジェクトとすることができる。オーディオシーンは、異なる入力フォーマットを結合することによって記述されることもできる。
パラメータ変換器110は、出力インターフェース120に入力されるパラメトリックステレオまたはマルチチャネルパラメータ、例えば、2つ以上のチャネルとして第2のパラメータセット114を計算するように構成されている。出力インターフェース120は、トランスポート信号122またはトランスポート信号に関する情報と第2のパラメータセット114とを結合して、処理されたオーディオシーン124としてトランスコードされたオーディオシーンを取得することによって、処理されたオーディオシーン124を生成するように構成されている。別の実施形態は、第2のパラメータセット114を使用してトランスポート信号122を、2つ以上のチャネルを含むアップミックス信号にアップミックスすることを含む。換言すれば、パラメータ変換器120は、例えばDirACレンダリングに使用される第1のパラメータセット112を第2のパラメータセット114にマッピングする。第2のパラメータセットは、パンニングのために使用されるサイドゲインパラメータと、アップミックスにおいて適用されたときにオーディオシーンの改善された空間画像をもたらす残差予測パラメータとを含むことができる。例えば、第1のパラメータセット112のパラメータは、到来方向パラメータ、拡散度パラメータ、仮想聴取位置を球の原点とする球に関連する方向情報パラメータ、および距離パラメータのうちの少なくとも1つを含むことができる。例えば、第2のパラメータセット114のパラメータは、サイドゲインパラメータ、残差予測ゲインパラメータ、チャネル間レベル差パラメータ、チャネル間時間差パラメータ、チャネル間位相差パラメータ、およびチャネル間コヒーレンスパラメータのうちの少なくとも1つを含むことができる。
図2aは、実施形態にかかる第1のパラメータセット112および第2のパラメータセット114の概略図を示している。特に、双方のパラメータ(第1および第2)のパラメータ分解能が描かれている。図2aの各横軸は時間を表し、図2aの各縦軸は周波数を表す。図2aに示すように、第1のパラメータセット112が関連する入力時間フレーム210は、2つ以上の入力時間サブフレーム212および213を含む。真下に、第2のパラメータセット114が関連する出力時間フレーム220が、上の図に関連する対応する図に示されている。これは、出力時間フレーム220が入力時間フレーム210と比較して小さく、出力時間フレーム220が入力時間サブフレーム212または213と比較して長いことを示す。入力時間サブフレーム212または213および出力時間フレーム220は、周波数帯域として複数の周波数を含むことができることに留意されたい。入力周波数帯域230は、出力周波数帯域240と同じ周波数を含むことができる。実施形態によれば、入力周波数帯域230および出力周波数帯域240の周波数帯域は、互いに接続または相関されなくてもよい。
図4において説明したサイドゲインおよび残差ゲインは、典型的には、入力フレーム210ごとに単一のサイドゲインおよび残差ゲインが計算されるように、フレームごとに計算されることに留意されたい。しかしながら、他の実施形態では、各フレームについて単一のサイドゲインおよび単一の残差ゲインが計算されるだけでなく、各サイドゲインおよび各残差ゲインが例えば周波数帯域の特定の入力時間サブフレーム212または213に関連する入力時間フレーム210について、サイドゲインのグループおよび残差ゲインのグループが計算される。したがって、実施形態では、パラメータ変換器110は、第1のパラメータセット112および第2のパラメータセット114の各フレームについて、サイドゲインのグループおよび残差ゲインのグループを計算し、入力時間フレーム210のサイドおよび残差ゲインの数は、典型的には、入力周波数帯域230の数に等しい。
図2bは、第2のパラメータセット114の生パラメータ252を計算する250ためのパラメータ変換器110の実施形態を示している。パラメータ変換器110は、時間的に後続する方法で、2つ以上の入力時間サブフレーム212および213のそれぞれについて生パラメータ252を計算する。例えば、計算250は、各入力周波数帯域230および時点(入力時間サブフレーム212、213)について、方位角θの主要到来方向(DOA)ならびに仰角φおよび拡散度パラメータψの主要到来方向を導出する。
X、Y、およびZのような指向性成分の場合、中心位置における一次球面調和関数は、以下の式を使用して全方向成分w(b,n)およびDirACパラメータによって導出されることができることから与えられる。
Figure 2023548650000002
Figure 2023548650000003
Figure 2023548650000004
Figure 2023548650000005
Wチャネルは、無指向性マイクロフォンの出力に対応する、信号の無指向性モノラル成分を表す。X、Y、およびZチャネルは、3次元の方向成分である。これらの4つのFOAチャネルから、パラメータ変換器110を使用して、WチャネルおよびYチャネルを含む復号によってステレオ信号(ステレオバージョン、ステレオ出力)を取得することができ、これは、方位角+90度および-90度を指す2つのカージオイドをもたらす。そのため、以下の式は、WチャネルにYチャネルを追加することによって左チャネルLが表され、WチャネルからYチャネルを減算することによって右チャネルRが表される、ステレオ信号の左右の関係を示している。
Figure 2023548650000006
換言すれば、この復号は、2つの方向を指す一次ビームフォーミングに対応し、これは、以下の式を使用して表されることができる:
Figure 2023548650000007
その結果、ステレオ出力(左チャネルおよび右チャネル)と第1のパラメータセット112、すなわちDirACパラメータとの間に直接リンクが存在する。
しかしながら、他方では、第2のパラメータセット114、すなわちDFTパラメータは、中間信号Mおよびサイド信号Sに基づく左Lチャネルおよび右Rチャネルのモデルに依存し、これは、以下の式を使用して表されることができる:
Figure 2023548650000008
ここで、Mは、シーンベースオーディオ(SBA)モードの場合の無指向性チャネルWに対応するモノラル信号(チャネル)として伝送される。さらに、DFTにおいて、ステレオSは、以下に説明されるサイドゲインパラメータを使用してMから予測される。
図4は、例えば計算プロセス450を使用して、サイドゲインパラメータ455および残差予測パラメータ456を生成するためのパラメータ変換器110の実施形態を示している。パラメータ変換器110は、以下の式を使用して生パラメータ252、例えば出力周波数帯域241のサイドパラメータ455を計算するための計算250および450を処理することが好ましい。
Figure 2023548650000009
式によれば、bは出力周波数帯域であり、sidegainはサイドゲインパラメータ455であり、azimuthは到来方向パラメータの方位角成分であり、elevationは到来方向パラメータの仰角成分である。図4に示されているように、第1のパラメータセット112は、先に述べたような入力周波数帯域231の到来方向(DOA)パラメータ456を含み、第2のパラメータセット114は、入力周波数帯域230ごとのサイドゲインパラメータ455を含む。しかしながら、第1のパラメータセット112が入力周波数帯域231の拡散度パラメータψ453をさらに含む場合、パラメータ変換器110は、以下の式を使用して出力周波数帯域241のサイドゲインパラメータ455を計算する(250)ように構成されている。
Figure 2023548650000010

式によれば、diff(b)は入力周波数帯域b230の拡散度パラメータψ453である。第1のパラメータセット112の指向性パラメータ456は異なる値の範囲を含んでもよく、例えば方位角パラメータ451は、[0;360]であり、仰角パラメータ452は、[0;180]であり、得られたサイドゲインパラメータ455は、[-1;1]であることに留意されたい。図2cに示すように、パラメータ変換器110は、結合器260を使用して、少なくとも2つの生パラメータ252を結合し、その結果、出力時間フレーム220に関連する第2のパラメータセット114のパラメータが導出される。
実施形態によれば、第2のパラメータセット114は、図4に示す出力周波数帯域240の出力周波数帯域241についての残差予測パラメータ456をさらに含む。パラメータ変換器110は、出力周波数帯域241についての残差予測パラメータ456として、残差セレクタ410によって示されるように、入力周波数帯域231からの拡散度パラメータψ453を使用することができる。入力周波数帯域231と出力周波数帯域241とが互いに等しい場合、パラメータ変換器110は、入力周波数帯域231からの拡散度パラメータψ453を使用する。入力周波数帯域231についての拡散度パラメータψ453から、出力周波数帯域241についての拡散度パラメータψ453が導出され、拡散度パラメータψ453が、出力周波数帯域241についての残差予測パラメータ456として出力周波数帯域241に使用される。次いで、パラメータ変換器110は、入力周波数帯域231からの拡散度パラメータψ453を使用することができる。
DFTステレオ処理では、残差セレクタ410を使用する予測の残差は、インコヒーレントであると仮定および期待され、そのエネルギーによってモデル化され、左Lおよび右Rに向かう残差信号を非相関化する。中間信号Mをモノラル信号(チャネル)として有するサイド信号Sの予測の残差は、以下のように表されることができる:
Figure 2023548650000011
そのエネルギーは、以下の式を使用して残差予測ゲインを使用してDFTステレオ処理においてモデル化される:
Figure 2023548650000012
残差ゲインは、ステレオ信号のチャネル間非干渉成分と空間幅を表すため、DirACによってモデル化された拡散部分に直接リンクされる。したがって、残差エネルギーは、DirAC拡散度パラメータの関数として書き換えられることができる。
Figure 2023548650000013
図3は、実施形態にかかる生パラメータ252の重み付け結合310を実行するためのパラメータ変換器110を示している。少なくとも2つの生パラメータ252が重み付け結合310に入力され、重み付け結合310の重み係数324は、対応する入力時間サブフレーム212におけるトランスポート信号122の振幅関連尺度320に基づいて導出される。さらにまた、パラメータ変換器110は、振幅関連尺度320として、対応する入力時間サブフレーム212または213におけるトランスポート信号112のエネルギーまたは電力値を使用するように構成されている。振幅関連尺度320は、例えば、対応する入力時間サブフレーム212内のトランスポート信号122のエネルギーまたは電力を測定し、その結果、その入力サブフレーム212についての重み係数324は、対応する入力時間サブフレーム212内のトランスポート信号122のエネルギーまたは電力がより高い場合、対応する入力時間サブフレーム212内のトランスポート信号122のエネルギーまたは電力がより低い入力サブフレーム212についての重み係数324と比較して大きくなる。
前述のように、指向性パラメータ、方位角パラメータ、および仰角パラメータは、対応する値の範囲を有する。しかしながら、第1のパラメータセット112の方向パラメータは、通常、第2のパラメータセット114よりも高い時間分解能を有し、これは、2つ以上の方位角および仰角値が1つのサイドゲイン値の計算に使用されなければならないことを意味する。実施形態によれば、計算は、振幅関連尺度320の出力として取得されることができるエネルギー依存重みに基づく。例えば、全ての
Figure 2023548650000014
入力時間サブフレーム212および213について、サブフレームのエネルギーnrgは、以下の式を使用して計算される:
Figure 2023548650000015
ここで、
Figure 2023548650000016
は時間領域入力信号、
Figure 2023548650000017
は各サブフレーム内のサンプル数、および
Figure 2023548650000018
はサンプルインデックスである。さらにまた、各出力時間フレーム
Figure 2023548650000019
230について、重み324は、次に、各出力時間フレーム
Figure 2023548650000020
内の各入力時間サブフレーム
Figure 2023548650000021
212、213の寄与について以下のように計算されることができる:
Figure 2023548650000022
次に、サイドゲインパラメータ455は、以下の式を使用して最終的に計算される:
Figure 2023548650000023
パラメータ間の類似度により、帯域ごとの拡散度パラメータ453は、同じ帯域内の全てのサブフレームの残差予測パラメータ456に直接マッピングされる。類似度は、以下の式によって表されることができる:
Figure 2023548650000024
図5aは、平滑化規則514にしたがって各生パラメータ252についての平滑化係数512を計算するためのパラメータ変換器110またはパラメータプロセッサの実施形態を示している。さらにまた、パラメータ変換器110は、平滑化係数512(1つの生パラメータに対する対応する平滑化係数)を生パラメータ252(平滑化係数に対応する1つの生パラメータ)に適用して、出力時間フレーム220の第2のパラメータセット114のパラメータ、すなわち出力時間フレームのパラメータを導出するように構成されている。
図5bは、圧縮関数540を使用して周波数帯域についての平滑化係数522を計算するためのパラメータ変換器110またはパラメータプロセッサの実施形態を示している。圧縮関数540は、異なる周波数帯域に対して異なっていてもよく、その結果、圧縮関数540の圧縮強度は、より高い周波数帯域よりも低い周波数帯域の方が強い。パラメータ変換器110は、最大境界選択550を使用して平滑化係数512、522を計算するようにさらに構成されている。換言すれば、パラメータ変換器110は、より低い周波数帯域の最大境界がより高い周波数帯域の最大境界よりも高くなるように、異なる周波数帯域に対して異なる最大境界を使用することによって平滑化係数512、522を取得することができる。
圧縮関数540および最大境界選択550の双方が、周波数帯域522についての平滑化係数522を取得する計算520に入力される。例えば、パラメータ変換器110は、平滑化係数512および522を計算するために2つの計算510および520を使用することに限定されず、その結果、パラメータ変換器110は、平滑化係数512および522を出力することができるただ1つの計算ブロックを使用して平滑化係数512、522を計算するように構成されている。換言すれば、平滑化係数は、現在の周波数帯域におけるエネルギーの変化から帯域ごとに(生パラメータ252ごとに)計算される。例えば、パラメータ平滑化プロセスを使用することにより、サイドゲインパラメータ455および残差予測パラメータ456は、ゲインの大きな変動を回避するために経時的に平滑化される。これは、ほとんどの場合、比較的強い平滑化を必要とするが、オーディオシーン130が突然変化するときはいつでもより速い応答を必要とするため、平滑化の強度を決定する平滑化係数512、522が適応的に計算される。
したがって、帯域ごとのエネルギーnrgは、以下の式を使用して全てのサブフレーム
Figure 2023548650000025
において計算される:
Figure 2023548650000026
ここで、
Figure 2023548650000027
はDFT変換された信号の周波数ビン(実数および虚数)であり、
Figure 2023548650000028
は現在の周波数帯域
Figure 2023548650000029
における全てのビンにわたるビンインデックスである。
2つの平均にわたるエネルギーの変化を捉えるために、図3に示すように、トランスポート信号122の振幅関連尺度320を使用して、1つの短期平均331および1つの長期平均332が計算される。
図6は、実施形態にかかる、平滑化係数512についてトランスポート信号122を平均化する振幅関連尺度320の概略図を示している。x軸は時間を表し、y軸は(トランスポート信号122の)エネルギーを表す。トランスポート信号122は、正弦関数122の概略部分を示している。図6に示すように、第2の時間部分631は、第1の時間部分632よりも短い。平均331および332にわたるエネルギーの変化は、以下の式にしたがって各帯域
Figure 2023548650000030
について計算される:
Figure 2023548650000031
および
Figure 2023548650000032
ここで、
Figure 2023548650000033
および
Figure 2023548650000034
は、個々の平均が計算される以前の時間サブフレームの数
Figure 2023548650000035
である。例えば、この特定の実施形態では、
Figure 2023548650000036
は値3に設定され、
Figure 2023548650000037
は値10に設定される。
さらにまた、パラメータ変換器またはパラメータプロセッサ110は、計算510を使用して、長期平均332と短期平均331との間の比に基づいて平滑化係数512、522を計算するように構成されている。換言すれば、2つの平均331および332の商が計算されるため、最近のエネルギーの増加を示す短期平均が高いほど、平滑化の低下につながる。以下の式は、平滑化係数512と2つの平均331および312との相関を示している。
Figure 2023548650000038
エネルギーの減少を示すより高い長期平均332は平滑化の低下につながらないという事実のために、平滑化係数512は、(現在のところ)最大1に設定される。結果として、上記の式は、
Figure 2023548650000039
の最小値を
Figure 2023548650000040
(この実施形態では0.3)に制限する。しかしながら、極端な場合には係数が0に近いことが必要であり、これは、以下の式を使用して値が範囲
Figure 2023548650000041
]から範囲
Figure 2023548650000042
]に変換される理由である。
Figure 2023548650000043
実施形態では、平滑化は、前に示した平滑化と比較して過度に低減され、その結果、係数は、値1に向かうルート関数によって圧縮される。最も低い帯域では安定性が特に重要であるため、4次根が周波数帯域
Figure 2023548650000044
および
Figure 2023548650000045
において使用される。最低帯域についての式は、以下のとおりである:
Figure 2023548650000046
他の全ての帯域
Figure 2023548650000047
についての式は、以下の式を使用して、平方根関数による圧縮を実行する。
Figure 2023548650000048
他の全ての帯域
Figure 2023548650000049
に平方根関数を適用することにより、エネルギーが指数関数的に増加する可能性がある極端な場合は小さくなり、エネルギーのあまり急激でない増加はそれほど大きく平滑化を減少させない。
さらにまた、最大平滑化は、以下の式についての周波数帯域に応じて設定される。係数1は、現在のゲインの寄与なしに前の値を単に繰り返すことに留意されたい。
Figure 2023548650000050
ここで、
Figure 2023548650000051
は、以下の表にしたがって設定される5つの帯域を有する所与の実装を表す:
Figure 2023548650000052
平滑化係数は、現在のフレーム内のDFTステレオサブフレーム
Figure 2023548650000053
のそれぞれについて計算される。
図7は、以下の式にしたがってサイドゲインパラメータ
Figure 2023548650000054
455および残差予測ゲインパラメータ
Figure 2023548650000055
456の双方が再帰的に平滑化される再帰的平滑化710を使用する実施形態にかかるパラメータ変換器110を示している:
Figure 2023548650000056
および
Figure 2023548650000057
第1の重み値によって重み付けされた先行する出力時間フレーム532のパラメータと第2の重み値によって重み付けされた現在の出力時間フレーム220についての生パラメータ252とを結合することにより、現在の出力時間フレームの時間的に後続する出力時間フレームにわたる再帰的平滑化710が計算される。換言すれば、第1の重み値および第2の重み値が現在の時間フレームについての平滑化係数から導出されるように、現在の出力時間フレームについての平滑化されたパラメータが計算される。
これらのマッピングされて平滑化されたパラメータ(gside,gpred)は、DFTステレオ処理、すなわち出力インターフェース120に入力され、ステレオ信号(
Figure 2023548650000058
は、ダウンミックス
Figure 2023548650000059
、残差予測信号
Figure 2023548650000060
、およびマッピングされたパラメータ
Figure 2023548650000061
および
Figure 2023548650000062
から生成される。例えば、ダウンミックス
Figure 2023548650000063
は、オールパスフィルタを使用するエンハンスステレオフィリング、または遅延を使用するステレオフィリングのいずれかによってダウンミックスから得られる。
アップミックスは、以下の式によって記述される:
Figure 2023548650000064
および
Figure 2023548650000065
アップミックスは、先に示した表に記載されているように、周波数帯域
Figure 2023548650000066
における全てのビン
Figure 2023548650000067
においてサブフレーム
Figure 2023548650000068
ごとに処理される。さらに、各サイドゲイン
Figure 2023548650000069
は、上記のようなダウンミックス
Figure 2023548650000070
のエネルギーおよび残差予測ゲインパラメータ
Figure 2023548650000071
または
Figure 2023548650000072
から計算されたエネルギー正規化係数
Figure 2023548650000073
によって重み付けされる。
マッピングされて平滑化されたサイドゲイン755およびマッピングされて平滑化された残差ゲイン756は、平滑化されたオーディオシーンを得るために出力インターフェース120に入力される。したがって、前述の説明に基づいて、平滑化されたパラメータを使用して符号化されたオーディオシーンを処理することは、達成可能なオーディオ品質と実装努力との間の改善された妥協点をもたらす。
図8は、実施形態にかかるトランスポート信号122を復号するための装置を示している。(符号化された)オーディオ信号816は、(コア符号化された)オーディオ信号816をコア復号して(復号された生)トランスポート信号812を得るためのトランスポート信号コアデコーダ810に入力され、これは出力インターフェース120に入力される。例えば、トランスポート信号122は、トランスポート信号コアエンコーダ810から出力される符号化されたトランスポート信号812とすることができる。トランスポート信号(復号された)812は、出力インターフェース120に入力され、出力インターフェースは、第2のパラメータセット114を含むパラメータセット814を使用して、例えば左チャネルおよび右チャネルの2つ以上のチャネルの生表現818を生成するように構成されている。例えば、トランスポート信号122を得るためにコア符号化オーディオ信号を復号するためのトランスポート信号コアデコーダ810は、ACELPデコーダである。さらにまた、コアデコーダ810は、復号された生トランスポート信号812を、出力インターフェース120を備える2つの並列分岐のうちの第1の分岐と、トランスポート信号エンハンサ820もしくはマルチチャネルエンハンサ990、またはその双方を備える2つの並列分岐のうちの第2の分岐と、の2つの並列分岐に供給するように構成されている。信号結合器940は、第1の分岐から結合されるべき第1の入力と、第2の分岐から結合されるべき第2の入力とを受信するように構成されている。
図9に示されているように、符号化されたオーディオシーン130を処理するための装置は、帯域幅拡張プロセッサ910を使用することができる。低帯域トランスポート信号901は、トランスポート信号972の2チャネル低帯域表現を取得するために出力インターフェース120に入力される。出力インターフェース120は、例えばアップミックス処理960の間に周波数領域955においてトランスポート信号901を処理し、時間領域966において2チャネルトランスポート信号901を変換することに留意されたい。これは、変換器970によって行われ、変換器は、周波数領域955を提示しているアップミックスされたスペクトル表現962を時間領域に変換して、トランスポート信号972の2チャネル低帯域表現を取得する。
図8に示すように、単一チャネル低帯域トランスポート信号901は変換器950に入力され、例えば、出力時間フレーム220に対応するトランスポート信号901の時間部分のトランスポート信号901のスペクトル表現952への変換、すなわち時間領域966から周波数領域955への変換を実行する。例えば、図2に記載されるように、(出力時間フレームの)部分は、第1のパラメータセット112のパラメータ252が編成される入力時間フレーム210よりも短い。
スペクトル表現952は、アップミキサ960に入力されて、例えば、第2のパラメータセット114を使用してスペクトル表現952をアップミックスし、周波数領域955において(まだ)処理されているアップミックスされたスペクトル表現962を取得する。前述したように、アップミックスされたスペクトル表現962は、アップミックスされたスペクトル表現962、すなわち、2つ以上のチャネルの各チャネルを周波数領域955から時間領域966(時間表現)に変換して低帯域表現972を取得するために、変換器970に入力される。したがって、アップミックスされたスペクトル表現962における2つ以上のチャネルが計算される。好ましくは、出力インターフェース120は、複素離散フーリエ変換領域において動作するように構成され、アップミックス演算は、複素離散フーリエ変換領域において実行される。複素離散フーリエ変換領域から実数値時間領域表現への変換は、変換器970を使用して行われる。換言すれば、出力インターフェース120は、第2の領域、すなわち周波数領域955においてアップミキサ960を使用して2つ以上のチャネルの生表現を生成するように構成されており、第1の領域は時間領域966を表す。
実施形態では、アップミキサ960のアップミックス演算は、以下の式に基づく:
Figure 2023548650000074

Figure 2023548650000075
および
Figure 2023548650000076
=
Figure 2023548650000077

ここで、
Figure 2023548650000078
は、フレームtおよび周波数ビンkについてのトランスポート信号901であり、
Figure 2023548650000079
は、フレームtおよびサブ帯域bについてのサイドゲインパラメータ455であり、
Figure 2023548650000080
は、フレームtおよびサブ帯域bについての残差予測ゲインパラメータ456であり、gnormは、存在してもしなくてもよいエネルギー調整係数であり、
Figure 2023548650000081
は、フレームtおよび周波数ビンkについての生残差信号である。
トランスポート信号902、122は、低帯域トランスポート信号901とは対照的に、時間領域966において処理される。トランスポート信号902は、高帯域信号912を生成するために帯域幅拡張プロセッサ(BWEプロセッサ)910に入力され、マルチチャネルフィリング演算を適用するためにマルチチャネルフィルタ930に入力される。高帯域信号912は、第2のパラメータセット144、すなわち出力時間フレーム262、532のパラメータを使用して、高帯域信号912をアップミックスされた高帯域信号922にアップミックスするために、アップミキサ920に入力される。例えば、アップミキサ920は、第2のパラメータセット114からの少なくとも1つのパラメータを使用して、時間領域966において広帯域パンニングプロセスを高帯域信号912に適用してもよい。
低帯域表現972、アップミックスされた高帯域信号922、およびマルチチャネルフィリングトランスポート信号932は、信号結合器940に入力され、時間領域966において、広帯域パンニング922の結果、ステレオフィリング932の結果、および2つ以上のチャネル972の低帯域表現を結合する。この結合は、チャネル表現としての時間領域966における全帯域マルチチャネル信号942をもたらす。先に概説したように、変換器970は、スペクトル表現962内の2つ以上のチャネルの各チャネルを時間表現に変換して、2つ以上のチャネル972の生時間表現を取得する。したがって、信号結合器940は、2つ以上のチャネルの生時間表現と2つ以上のチャネルの拡張時間表現とを結合する。
実施形態では、低帯域(LB)トランスポート信号901のみが出力インターフェース120(DFTステレオ)処理に入力され、高帯域(HB)トランスポート信号912は、(アップミキサ920を使用して)時間領域において別々にアップミックスされる。そのようなプロセスは、アンビエンス寄与を生成するためのマルチチャネルフィラー930を使用して、BWEプロセッサ910および時間領域ステレオフィリングを使用するパンニング動作のために実装される。パンニングプロセスは、マッピングされたサイドゲイン、例えばフレームごとにマッピングされて平滑化されたサイドゲイン755に基づく広帯域パンニングを含む。ここで、完全な高帯域周波数領域をカバーする1フレーム当たりのゲインは1つしかなく、これは、以下の式に基づくダウンミックスチャネルからの左右の高帯域チャネルの計算を簡略化する:
各サブフレーム
Figure 2023548650000082
内のサンプル
Figure 2023548650000083
ごとに、
Figure 2023548650000084
および
Figure 2023548650000085

高帯域ステレオフィリング信号
Figure 2023548650000086
、すなわちマルチチャネルフィリングトランスポート信号932は、以下の式に記載されるように、
Figure 2023548650000087
を遅延させ、
Figure 2023548650000088
によってそれを重み付け、エネルギー正規化係数
Figure 2023548650000089
をさらに使用することによって取得される:
現在の時間フレーム内の全てのサンプル
Figure 2023548650000090
に対して(時間サブフレーム213および213ではなく、全時間フレーム210で行われる)、
Figure 2023548650000091
および
Figure 2023548650000092

Figure 2023548650000093
は、マルチチャネルフィラー930によって得られるフィリング信号932を生成するために高帯域ダウンミックスが遅延されるサンプルの数である。より高度な無相関化処理、または遅延と比較して異なる方法でトランスポート信号から導出されたノイズ信号もしくは任意の他の信号の使用など、遅延とは別にフィリング信号を生成するための他の方法が実行されることができる。
パンニングされたステレオ信号972および922と生成されたステレオフィリング信号932との双方は、信号結合器940を使用してDFT合成後にコア信号に結合(ミックスバック)される。
ACELP高帯域のこの記載されたプロセスはまた、ACELPコアおよびTCXフレームがACELP高帯域と整合されるように人為的に遅延される高遅延DirAC処理とは対照的である。そこで、完全な信号に対してCLDFB(解析)が実行され、これは、ACELP高帯域のアップミックスもCLDFB領域(周波数領域)において行われることを意味する。
図10は、処理されたオーディオシーン124を取得するための装置の実施形態を示している。トランスポート信号122は、第2のパラメータセット114と、2つ以上のチャネルの拡張表現992を生成するためのマルチチャネルエンハンサ990とを使用して、2つ以上のチャネル972の生表現を生成するために出力インターフェース120に入力される。例えば、マルチチャネルエンハンサ990は、帯域幅拡張演算、ギャップフィリング演算、品質強化演算、または補間演算を含む演算グループの少なくとも1つの演算を実行するように構成されている。処理されたオーディオシーン124を取得するために、2つ以上のチャネル972の生表現および2つ以上のチャネルの拡張表現992の双方が信号結合器940に入力される。
図11は、トランスポート信号エンハンサ820、アップミキサ830およびマルチチャネルフィラー930を含む2つ以上のチャネルの拡張表現992を生成するためのマルチチャネルエンハンサ990の実施形態のブロック図を示している。トランスポート信号122および/または復号された生トランスポート信号812は、拡張トランスポート信号822を生成するトランスポート信号エンハンサ820に入力され、これは、アップミキサ830およびマルチチャネルフィラー930に入力される。例えば、トランスポート信号エンハンサ820は、帯域幅拡張演算、ギャップフィリング演算、品質強化演算、または補間演算を含む演算グループの少なくとも1つの演算を実行するように構成されている。
図9に見られるように、マルチチャネルフィラー930は、トランスポート信号902および少なくとも1つのパラメータ532を使用してマルチチャネルフィリングトランスポート信号932を生成する。換言すれば、マルチチャネルエンハンサ990は、拡張トランスポート信号822および第2のパラメータセット114を使用して、または拡張トランスポート信号822およびアップミックスされた拡張トランスポート信号832を使用して、2つ以上のチャネル992の拡張表現を生成するように構成されている。例えば、マルチチャネルエンハンサ990は、トランスポート信号122または拡張トランスポート信号933および第2のパラメータセット532の少なくとも1つのパラメータを使用して2つ以上のチャネルの拡張表現992を生成するために、アップミキサ830もしくはマルチチャネルフィラー930のいずれか、またはアップミキサ830もしくはマルチチャネルフィラー930の双方を含む。実施形態では、トランスポート信号エンハンサ820またはマルチチャネルエンハンサ990は、生表現972を生成するときに出力インターフェース120と並列に動作するように構成されるか、またはパラメータ変換器110は、トランスポート信号エンハンサ820と並列に動作するように構成されている。
図13において、エンコーダからデコーダに伝送されるビットストリーム1312は、図12に示すDirACベースのアップミキシング方式と同じであってもよい。DirACベースの空間ダウンミキシングプロセスから導出された単一のトランスポートチャネル1312は、コアデコーダ1310に入力され、コアデコーダ、例えばEVSまたはIVASモノラルデコーダによって復号され、対応するDirACサイドパラメータ1313とともに送信される。
余分な遅延なしでオーディオシーンを処理するためのこのDFTステレオ手法では、トランスポートチャネルのモノラルコアデコーダ(IVASモノラルデコーダ)における初期復号も変更されないままである。図12からのCLDFBフィルタバンク1220を通過する代わりに、復号されたダウンミックス信号1314は、非常に短いオーバーラップを有するウィンドウを使用することなどによって、復号されたモノラル信号1314をSTFT領域(周波数領域)に変換するために、DFT解析1320に入力される。したがって、DFT解析1320は、全体的な遅延とコアデコーダのMDCT解析/合成によって既に引き起こされたものとの間の残りのヘッドルームのみを使用して、32msの目標システム遅延に対していかなる追加の遅延も引き起こさない。
DirACサイドパラメータ1313または第1のパラメータセット112は、パラメータマッピング1360に入力され、パラメータマッピングは、例えば、DFTステレオサイドパラメータ、すなわち第2のパラメータセット114を取得するためのパラメータ変換器110またはパラメータプロセッサを含むことができる。周波数領域信号1322およびDFTサイドパラメータ1362は、例えば図9に記載されたアップミキサ960を使用することによってステレオアップミックス信号1332を生成するDFTステレオデコーダ1330に入力される。ステレオアップミックス1332の2つのチャネルは、DFT合成に入力され、例えば図9に記載された変換器970を使用してステレオアップミックス1332を周波数領域から時間領域に変換し、その結果、処理されたオーディオシーン124を表すことができる出力信号1342をもたらす。
図14は、帯域幅拡張1470を使用して符号化されたオーディオシーンを処理するための実施形態を示している。ビットストリーム1412は、復号された低帯域信号1414を生成するために、図13に記載されているようなIVASモノラルデコーダの代わりに、ACELPコアまたは低帯域デコーダ1410に入力される。復号された低帯域信号1414は、信号1414を周波数領域信号1422、例えば図9からのトランスポート信号901のスペクトル表現952に変換するために、DFT解析1420に入力される。DFTステレオデコーダ1430は、周波数領域における復号された低帯域信号1442およびパラメータマッピング1460からのDFTステレオサイドパラメータ1462を使用してLBステレオアップミックス1432を生成するアップミキサ960を表すことができる。生成されたLBステレオアップミックス1432は、例えば図9の変換器970を使用して時間領域への変換を行うDFT合成ブロック1440に入力される。トランスポート信号122の低帯域表現972、すなわちDFT合成段1440の出力信号1442は、アップミックスされた高帯域ステレオ信号922およびマルチチャネルフィリング高帯域トランスポート信号932と、全帯域マルチチャネル信号942をもたらすトランスポート信号972の低帯域表現とを結合する信号結合器940に入力される。
復号されたLB信号1414およびBWE1470についてのパラメータ1415は、復号された高帯域信号912を生成するためにACELP BWEデコーダ910に入力される。マッピングされたサイドゲイン1462、例えば、低帯域スペクトル領域のマッピングされて平滑化されたサイドゲイン755は、DFTステレオブロック1430に入力され、高帯域全体のマッピングされて平滑化されたシングルサイドゲインは、高帯域アップミックスブロック920およびステレオフィリングブロック930に転送される。第2のパラメータセット114からの出力時間フレーム262のパラメータ532など、高帯域サイドゲイン1472を使用して復号されたHB信号912をアップミックスするためのHBアップミックスブロック920は、アップミックスされた高帯域信号922を生成する。復号された高帯域トランスポート信号912、902をフィリングするためのステレオフィリングブロック930は、第2のパラメータセット114からの出力時間フレーム262のパラメータ532、456を使用し、高帯域フィリングトランスポート信号932を生成する。
結論として、本発明にかかる実施形態は、パラメータ変換を使用して、および/または帯域幅拡張を使用して、および/またはパラメータ平滑化を使用して、符号化されたオーディオシーンを処理するための概念を作り出し、全体的な遅延、達成可能なオーディオ品質、および実装努力の間の改善された妥協点をもたらす。
続いて、本発明の態様のさらなる実施形態、特に本発明の態様の組み合わせが示される。低遅延アップミックスを達成するための提案された解決策は、パラメトリックステレオ手法、例えばDirACレンダラではなく短時間フーリエ変換(STFT)フィルタバンクを使用して [4]に記載された手法を使用することによるものである。この「DFT-ステレオ」手法では、1つのダウンミックスチャネルのステレオ出力へのアップミックスが記述される。この方法の利点は、EVS [3]または近い将来のIVASコーデック(32ms)のような通信コーデックに必要とされるはるかに低い全体的な遅延内に留まることを可能にする、非常に短いオーバーラップを有するウィンドウがデコーダにおけるDFT解析に使用されることである。また、DirAC CLDFBとは異なり、DFTステレオ処理は、コアコーダに対する後処理ステップではなく、コア処理の一部、すなわち代数符号出口励起予測(ACELP)音声コーダの帯域幅拡張(BWE)と、この既に与えられた遅延を超えることなく並行して実行される。したがって、EVSの32msの遅延に関して、DFTステレオ処理は、同じ全体的なコーダ遅延で動作するため、遅延なしと呼ぶことができる。一方、DirACは、CLDFBが全体の遅延を37msに延長するために5msの追加の遅延を引き起こすポストプロセッサとして見ることができる。
一般に、遅延のゲインが達成される。低遅延は、コア処理と並行して行われる処理ステップから生じるが、例示的なCLDFBバージョンは、コア符号化の後に行われる必要なレンダリングを行うための後処理ステップである。
DirACとは異なり、DFTステレオは、より多くの遅延を引き起こすことなく利用可能なヘッドルームに適合する3.125msの非常に短いオーバーラップを有するウィンドウを使用してそれらの成分をDFT領域に変換するのみで、ACELP BWEを除く全ての成分に対して3.25msの人工遅延を利用する。したがって、BWEのないTCXおよびACELPのみが周波数領域においてアップミックスされるが、ACELP BWEは、チャネル間帯域幅拡張(ICBWE) [5]と呼ばれる別個の遅延なし処理ステップによって時間領域においてアップミックスされる。所与の実施形態の特殊なステレオ出力の場合、この時間領域BWE処理は僅かに変更され、これについては実施形態の終わりに向かって説明する。
送信されたDirACパラメータは、DFTステレオアップミックスに直接使用されることができない。したがって、所与のDirACパラメータを対応するDFTステレオパラメータにマッピングすることが必要になる。DirACは、拡散度パラメータとともに空間配置に方位角および仰角を使用するが、DFTステレオは、パンニングに使用されるシングルサイドゲインパラメータと、ステレオ幅、したがってDirACの拡散度パラメータに密接に関連する残差予測パラメータとを有する。パラメータ分解能の観点から、各フレームは、サブフレームごとに2つのサブフレームおよびいくつかの周波数帯域に分割される。DFTステレオにおいて使用されるサイドゲインおよび残差ゲインは、 [6]に記載されている。
DirACパラメータは、元々BフォーマットまたはFOAのオーディオシーンの帯域ごとの解析から導出される。次いで、帯域kおよび時点nごとに、方位角
Figure 2023548650000094
および仰角
Figure 2023548650000095
ならびに拡散係数
Figure 2023548650000096
の主要到来方向を導出する。指向性成分の場合、中心位置における一次球面調和関数は、無指向性成分
Figure 2023548650000097
およびDirACパラメータによって導出されることができる。
Figure 2023548650000098
Figure 2023548650000099
Figure 2023548650000100
Figure 2023548650000101
さらに、FOAチャネルから、WおよびYを伴う復号によってステレオバージョンを得ることが可能であり、これは、方位角+90度および-90度を指す2つのカージオイドをもたらす。
Figure 2023548650000102
この復号は、2つの方向を指す一次ビームフォーミングに対応する。
Figure 2023548650000103
その結果、ステレオ出力とDirACパラメータとの間に直接リンクが存在する。一方、DFTパラメータは、中間信号Mおよびサイド信号Sに基づくLおよびRチャネルのモデルに依存する。
Figure 2023548650000104
Mは、モノチャネルとして伝送され、SBAモードの場合には全方向チャネルWに対応する。DFTでは、ステレオSは、サイドゲインを使用してMから予測され、サイドゲインは、以下のようにDirACパラメータを使用して表されることができる:
Figure 2023548650000105
DFTステレオでは、予測の残差はインコヒーレントであると仮定および期待され、そのエネルギーによってモデル化され、左右に向かう残差信号を非相関化する。MによるSの予測の残差は、以下のように表されることができる:
Figure 2023548650000106
また、そのエネルギーは、以下のように予測ゲインを使用してDFTステレオにおいてモデル化される:
Figure 2023548650000107
残差ゲインは、ステレオ信号のチャネル間非干渉成分と空間幅を表すため、DirACによってモデル化された拡散部分に直接リンクされる。したがって、残差エネルギーは、DirAC拡散度パラメータの関数として書き換えられることができる。
Figure 2023548650000108
通常使用されるDFTステレオの帯域構成はDirACの帯域構成と同じではないため、DirAC帯域と同じ周波数範囲をカバーするように適合される必要がある。これらの帯域の場合、DirACの指向角は、
Figure 2023548650000109
によってDFTステレオのサイドゲインパラメータにマッピングされることができ、ここで、
Figure 2023548650000110
は現在の帯域であり、パラメータ範囲は、方位角について
Figure 2023548650000111
、仰角について
Figure 2023548650000112
、および得られるサイドゲイン値について
Figure 2023548650000113
である。しかしながら、DirACの指向性パラメータは、通常、DFTステレオよりも高い時間分解能を有し、これは、1つのサイドゲイン値の計算に2つ以上の方位角および仰角値を使用しなければならないことを意味する。1つの方法は、サブフレーム間の平均化を行うことであるが、この実装では、計算はエネルギー依存重みに基づく。全ての
Figure 2023548650000114
DirACサブフレームについて、サブフレームのエネルギーは、
Figure 2023548650000115
として計算され、ここで、
Figure 2023548650000116
は時間領域入力信号、
Figure 2023548650000117
は各サブフレーム内のサンプル数、および
Figure 2023548650000118
はサンプルインデックスである。各DFTステレオサブフレーム
Figure 2023548650000119
について、
Figure 2023548650000120
として内部
Figure 2023548650000121
の各DirACサブフレーム
Figure 2023548650000122
の寄与について重みが計算されることができる。
次いで、サイドゲインは、
Figure 2023548650000123
として最終的に計算される。
パラメータ間の類似度により、帯域ごとの1つの拡散度値は、同じ帯域内の全てのサブフレームの残差予測パラメータに直接マッピングされる。
Figure 2023548650000124
さらに、パラメータは、ゲインの強い変動を回避するために経時的に平滑化される。これは、ほとんどの場合、比較的強い平滑化を必要とするが、シーンが突然変化するときはいつでもより速い応答を必要とするため、平滑化の強度を決定する平滑化係数は適応的に計算される。この適応平滑化係数は、現在の帯域におけるエネルギーの変化から帯域ごとに計算される。したがって、最初に全てのサブフレーム
Figure 2023548650000125
において帯域幅エネルギーが計算される必要がある:
Figure 2023548650000126
ここで、
Figure 2023548650000127
はDFT変換された信号の周波数ビン(実数および虚数)であり、
Figure 2023548650000128
は現在の帯域
Figure 2023548650000129
における全てのビンのビンインデックスである。
時間2の平均にわたるエネルギーの変化を捉えるために、次に、1つの短期および1つの長期が、各帯域
Figure 2023548650000130
について、
Figure 2023548650000131
および
Figure 2023548650000132
にしたがって計算される。
ここで、
Figure 2023548650000133
および
Figure 2023548650000134
は、個々の平均が計算される前のサブフレームの数
Figure 2023548650000135
である。この特定の実装では、
Figure 2023548650000136
は3に設定され、
Figure 2023548650000137
は10に設定される。次に、平均の商から平滑化係数が計算され、その結果、最近のエネルギーの増加を示す短期平均が高いほど、平滑化の低下につながる。
Figure 2023548650000138
エネルギーの減少を示すより高い長期平均は、平滑化の低下につながらないため、平滑化係数は、ここでは最大1に設定される。
上記の式は、
Figure 2023548650000139
の最小値を
Figure 2023548650000140
(この実装では0.3)に制限する。しかしながら、極端な場合には係数が0に近いことが必要であり、これは、
Figure 2023548650000141
を介して値が範囲
Figure 2023548650000142
]から範囲
Figure 2023548650000143
]に変換される理由である。
極端でない場合には、平滑化が過度に低減されるため、係数は、値1に向かってルート関数によって圧縮される。安定性は最も低い帯域において特に重要であるため、4次根が帯域
Figure 2023548650000144
および
Figure 2023548650000145
において使用される:
Figure 2023548650000146
一方、他の全ての帯域
Figure 2023548650000147
は平方根
Figure 2023548650000148
によって圧縮される。
このようにして、極端な場合は0に近いままであるが、エネルギーの急激な増加がそれほど大きく平滑化を減少させることはない。
最後に、帯域に応じて最大平滑化が設定される(係数1は、単に現在のゲインの寄与なしに前の値を繰り返すことになる):
Figure 2023548650000149
ここで、所与の実装では、5つの帯域を有する
Figure 2023548650000150
が以下の表にしたがって設定される。
Figure 2023548650000151
平滑化係数は、現在のフレームにおける各DFTステレオサブフレーム
Figure 2023548650000152
について計算される。
最後のステップでは、サイドゲインおよび残差予測ゲインの双方が、以下にしたがって再帰的に平滑化される。
Figure 2023548650000153
および
Figure 2023548650000154
これらのマッピングされて平滑化されたパラメータは、ここでDFTステレオ処理に供給され、ここで、ステレオ信号
Figure 2023548650000155
がダウンミックス
Figure 2023548650000156
から生成され、残差予測信号
Figure 2023548650000157
(オールパスフィルタ [7]を使用する「拡張ステレオフィリング」または遅延を使用する通常のステレオフィリングのいずれかによってダウンミックスから得られる)ならびにマッピングされたパラメータ
Figure 2023548650000158
および
Figure 2023548650000159
が生成される。アップミックスは、一般に以下の式 [6]によって記述される:
Figure 2023548650000160
および
帯域
Figure 2023548650000161
内の全てのビン
Figure 2023548650000162
の各サブフレーム
Figure 2023548650000163
について、
Figure 2023548650000164
さらに、各サイドゲイン
Figure 2023548650000165
は、
Figure 2023548650000166
および
Figure 2023548650000167
のエネルギーから計算されたエネルギー正規化係数
Figure 2023548650000168
によって重み付けされる。
最後に、アップミックス信号は、IDFTを介して時間領域に変換されて戻され、所与のステレオ設定で再生される。
ACELPにおいて使用される「時間領域帯域幅拡張」(TBE) [8]は、それ自体の遅延を生成するため(実装では、この実施形態は正確に2.3125msに基づく)、全体の遅延が32ms以内に留まる間にDFT領域に変換されることはできない(STFTが既に3.125msを使用しているステレオデコーダには3.25ms残っている)。したがって、低帯域(LB)のみが図14の1450によって示されるDFTステレオ処理に入れられ、一方、高帯域(HB)は、図14のブロック920に示されるように時間領域において別々にアップミックスされなければならない。通常のDFTステレオでは、これは、アンビエンスのためのパンニングおよび時間領域ステレオフィリングのためのチャネル間帯域幅拡張(ICBWE) [5]を介して行われる。所与の場合において、ブロック930におけるステレオフィリングは、通常のDFTステレオと同じ方法で計算される。しかしながら、ICBWE処理は、パラメータが欠落しているために完全にスキップされ、マッピングされたサイドゲイン1472に基づいてブロック920において広帯域パンニングを必要とする低リソースによって置き換えられる。所与の実施形態では、完全なHB領域をカバーする単一のゲインのみが存在し、これは、ダウンミックスチャネルから以下へのブロック920における左右のHBチャネルの計算を簡略化する。
Figure 2023548650000169
および
各サブフレーム
Figure 2023548650000170
内のサンプル
Figure 2023548650000171
について
Figure 2023548650000172
HBステレオフィリング信号
Figure 2023548650000173
は、ブロック930において、遅延
Figure 2023548650000174
および
Figure 2023548650000175
による重み付け、以下のようなエネルギー正規化係数
Figure 2023548650000176
によって取得される。
Figure 2023548650000177
および
現在のフレーム(サブフレームではなく、全フレームで行われる)内の全てのサンプル
Figure 2023548650000178
について
Figure 2023548650000179
であり、ここで、
Figure 2023548650000180
は、HBダウンミックスがフィリング信号に対して遅延されるサンプル数である。
パンニングされたステレオ信号および生成されたステレオフィリング信号の双方は、最終的に、結合器940におけるDFT合成後にコア信号に混合されて戻される。
ACELP HBのこの特別な処理はまた、ACELPコアおよびTCXフレームがACELP HBと整合されるように人為的に遅延される高遅延DirAC処理とは対照的である。そこで、CLDFBは、完全な信号に対して実行され、すなわち、ACELP HBのアップミックスもCLDFB領域において行われる。
提案された方法の利点
追加の遅延がないことは、IVASコーデックが、ステレオ出力へのSBA入力のこの特定のケースについて、EVS(32ミリ秒)におけるものと同じ全体的な遅延内に留まることを可能にする。
全体的に単純でより容易な処理のために、空間DirACレンダリングよりもDFTによるパラメトリックステレオアップミックスの複雑さがはるかに低い。
さらなる好ましい実施形態
1.前述のように符号化または復号するための装置、方法またはコンピュータプログラム。
2.符号化もしくは復号のための装置もしくは方法、または関連するコンピュータプログラムであって、
・入力が、第1のパラメータセットを有する音響シーンの空間オーディオ表現に基づくモデルによって符号化され、2つの出力チャネル用のステレオモデル、または第2のパラメータセットを有する2つを超える出力チャネル用のマルチチャネルモデルを用いて出力において復号されるシステム、および/または
・空間パラメータのステレオパラメータへのマッピング、および/または
・1つの周波数領域に基づく入力表現/パラメータから別の周波数領域に基づく出力表現/パラメータへの変換、および/または
・より高い時間分解能を有するパラメータのより低い時間分解能への変換、および/または
・第2の周波数変換のより短いウィンドウオーバーラップによるより低い出力遅延、および/または
・ステレオとしてSBA DirAC符号化コンテンツを出力するための、DirACパラメータ(指向角、拡散度)のDFTステレオパラメータ(サイドゲイン、残差予測ゲイン)へのマッピング、および/または
・CLDFBベースの入力表現/パラメータからDFTベースの出力表現/パラメータへの変換、および/または
・5ms分解能のパラメータの10ms分解能のパラメータへの変換、および/または
・利点:CLDFBと比較してより短いDFTのウィンドウオーバーラップに起因するより低い出力遅延、を含む、符号化もしくは復号のための装置もしくは方法、または関連するコンピュータプログラム。
本明細書では、前述の全ての代替形態または態様、および以下の特許請求の範囲における独立請求項によって定義される全ての態様は、個別に、すなわち、企図される代替形態、目的または独立請求項以外の代替形態または目的なしに使用されることができることに留意されたい。しかしながら、他の実施形態では、2つ以上の代替形態または態様または独立請求項が互いに組み合わせられることができ、他の実施形態では、全ての態様または代替形態および全ての独立請求項が互いに組み合わせられることができる。
本発明の異なる態様は、パラメータ変換態様、平滑化態様、および帯域幅拡張態様に関することが概説されるべきである。これらの態様は、別々にまたは互いに独立して実装されることができ、または少なくとも3つの態様の任意の2つの態様が組み合わせられることができ、または3つの態様全てが上述した実施形態において組み合わせられることができる。
本発明の符号化された信号は、デジタル記憶媒体または非一時的記憶媒体に記憶されることができ、あるいは無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送されることができる。
いくつかの態様が装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または機能の説明も表す。
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装されることができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体を使用して行うことができる。
本発明にかかるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協調することができる電子的に読み取り可能な制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実装されることができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するために動作する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。
他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
換言すれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをその上に記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを備える。
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを備える。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)が使用されて、本明細書に記載の方法の機能のいくつかまたは全てを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協調することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
上述した実施形態は、本発明の原理を単に例示するものである。本明細書に記載された構成および詳細の変更および変形は、当業者にとって明らかであろうことが理解される。したがって、本明細書の実施形態の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。
参考文献
[1] V. Pulkki, M.-V. V. J. Laitinen, J. Ahonen, T. Lokki and T. Pihlajamaeki, "Directional audio coding-perception - based reproduction of spatial sound," in INTERNATIONAL WORKSHOP ON THE PRINCIPLES AND APPLICATION ON SPATIAL HEARING, 2009.
[2] G. Fuchs, O. Thiergart, S. Korse, S. Doehla, M. Multrus, F. Kuech, Boutheon, A. Eichenseer and S. Bayer, "Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators". WO Patent 2020115311A1, 11 06 2020.
[3] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
[4] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell, " APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE". Patent WO17125563, 27 07 2017.
[5] V. S. C. S. Chebiyyam and V. Atti, "Inter-channel bandwidth extension". WO Patent 2018187082A1, 11 10 2018.
[6] J. Buethe, G. Fuchs, W. Jaegers, F. Reutelhuber, J. Herre, E. Fotopoulou, M. Multrus and S. Korse, "Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain". WO Patent WO2018086947A1, 17 05 2018.
[7] J. Buethe, F. Reutelhuber, S. Disch, G. Fuchs, M. Multrus and R. Geiger, "Apparatus for Encoding or Decoding an Encoded Multichannel Signal Using a Filling Signal Generated by a Broad Band Filter". WO Patent WO2019020757A2, 31 01 2019.
[8] V. A. e. al., "Super-wideband bandwidth extension for speech in the 3GPP EVS codec," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, 2015.

Claims (33)

  1. 音場を表すオーディオシーン(130)を処理するための装置であって、前記オーディオシーンが、トランスポート信号(122)およびパラメータセット(112;114)に関する情報を含み、
    前記パラメータセット(112;114)および前記トランスポート信号(122)に関する情報を使用して処理されたオーディオシーン(124)を生成するための出力インターフェース(120)であって、前記出力インターフェース(120)が、前記パラメータセット(112;114)および前記トランスポート信号(112;144)を使用して2つ以上のチャネルの生表現を生成するように構成されている、出力インターフェースと、
    前記トランスポート信号(122)を使用して前記2つ以上のチャネルの拡張表現を生成するためのマルチチャネルエンハンサ(990)と、
    前記処理されたオーディオシーン(124)を取得するために、前記2つ以上のチャネルの前記生表現および前記2つ以上のチャネルの前記拡張表現を結合するための信号結合器(940)と、を備える、装置。
  2. 前記マルチチャネルエンハンサ(990)が、前記拡張トランスポート信号(822)および前記パラメータセット(112;114)を使用して前記2つ以上のチャネルの前記拡張表現(992)を生成するように構成され、または
    前記マルチチャネルエンハンサ(990)が、拡張トランスポート信号(822)を生成するためのトランスポート信号エンハンサ(820)と、前記拡張トランスポート信号(822)をアップミックスするためのアップミキサと、を備える、請求項1に記載の装置。
  3. 前記トランスポート信号(122)が、符号化されたトランスポート信号であり、前記装置が、
    復号された生トランスポート信号を生成するためのトランスポート信号コアデコーダ(810)をさらに備え、
    前記トランスポート信号エンハンサ(820)が、前記復号された生トランスポート信号を使用して前記拡張トランスポート信号を生成するように構成され、
    前記出力インターフェース(120)が、前記パラメータセット(112;114)および前記復号された生トランスポート信号を使用して前記2つ以上のチャネルの前記生表現を生成するように構成されている、請求項1または2に記載の装置。
  4. 前記マルチチャネルエンハンサ(990)が、前記トランスポート信号(122)または前記拡張トランスポート信号(822)および前記パラメータセット(114)の少なくとも1つのパラメータを使用して前記2つ以上のチャネルの前記拡張表現を生成するために、前記アップミキサまたはマルチチャネルフィラー(930)のいずれか、または前記アップミキサおよび前記マルチチャネルフィラー(930)の双方を備える、請求項1または2または請求項3に記載の装置。
  5. 前記出力インターフェース(120)が、第2の領域におけるアップミックスを使用して前記2つ以上のチャネルの生表現を生成するように構成され、
    前記トランスポート信号エンハンサ(820)が、前記第2の領域とは異なる第1の領域において前記拡張トランスポート信号(822)を生成するように構成されているか、または前記マルチチャネルエンハンサ(990)が、前記第1の領域において前記拡張トランスポート信号(822)を使用して前記2つ以上のチャネルの前記拡張表現を生成するように構成されており、
    前記信号結合器(940)が、前記第1の領域において前記2つ以上のチャネルの前記生表現と前記2つ以上のチャネルの前記拡張表現とを結合するように構成されている、請求項1から4のいずれか一項に記載の装置。
  6. 前記第1の領域が時間領域であり、前記第2の領域がスペクトル領域である、請求項5に記載の装置。
  7. 前記トランスポート信号エンハンサ(820)または前記マルチチャネルエンハンサ(990)が、帯域幅拡張演算、ギャップフィリング演算、品質強化演算、または補間演算を含む演算グループの少なくとも1つの演算を実行するように構成されている、請求項1から6のいずれか一項に記載の装置。
  8. 前記トランスポート信号エンハンサ(820)または前記マルチチャネルエンハンサ(990)が、前記生表現を生成するときに前記出力インターフェース(120)と並列に動作するように構成されるか、または
    前記パラメータ変換器(110)が、前記トランスポート信号エンハンサ(820)と並列に動作するように構成されている、
    請求項1から7のいずれか一項に記載の装置。
  9. 前記コアデコーダが、前記復号された生トランスポート信号を2つの並列分岐に供給するように構成され、前記2つの並列分岐のうちの第1の分岐が、前記出力インターフェース(120)を備え、前記2つの並列分岐のうちの第2の分岐が、前記トランスポート信号エンハンサ(820)または前記マルチチャネルエンハンサ(990)またはその双方を備え、前記信号結合器(940)が、前記第1の分岐から結合されるべき第1の入力および前記第2の分岐から結合されるべき第2の入力を受信するように構成されている、請求項3から8のいずれか一項に記載の装置。
  10. 前記出力インターフェース(120)が、
    出力時間フレーム(220)に対応する前記トランスポート信号(122)の時間部分のスペクトル表現への変換を実行し、
    前記パラメータセット(114)を使用して前記スペクトル表現のアップミックス演算を実行して、前記スペクトル表現内の前記2つ以上のチャネルを取得し、
    前記スペクトル表現内の前記2つ以上のチャネルの各チャネルを時間表現に変換して、前記2つ以上のチャネルの生時間表現を取得する、ように構成され、
    前記信号結合器(940)が、前記2つ以上のチャネルの前記生時間表現と前記2つ以上のチャネルの前記拡張時間表現とを結合するように構成されている、請求項1から9のいずれか一項に記載の装置。
  11. 前記装置が、受信されたパラメータセットを受信するように構成され、
    前記装置が、前記受信されたパラメータセット(112)を、前記2つ以上のチャネルについての所定の空間位置における再生のために前記2つ以上のチャネルを備える前記チャネル表現に関連する前記パラメータセット(114)に変換するためのパラメータ変換器(110)をさらに備え、
    前記出力インターフェース(120)が、前記パラメータセット(114)および前記トランスポート信号(122)に関する前記情報を使用して前記処理されたオーディオシーン(124)を生成するように構成されている、請求項1から10のいずれか一項に記載の装置。
  12. 前記出力インターフェース(120)が、前記パラメータセット(114)を使用して前記トランスポート信号(122)を前記2つ以上のチャネルを含むアップミックス信号にアップミックスするように構成されている、
    請求項1から11のいずれか一項に記載の装置。
  13. 前記出力インターフェース(120)が、前記トランスポート信号(122)または前記トランスポート信号(122)に関する前記情報と前記パラメータセット(114)とを結合して、前記処理されたオーディオシーン(124)としてトランスコードされたオーディオシーンを取得することによって、前記処理されたオーディオシーン(124)を生成するように構成されている、請求項1から12のいずれか一項に記載の装置。
  14. 前記受信されたパラメータセット(112)が、複数の入力時間フレームの各入力時間フレーム(210)および複数の入力周波数帯域(230)の各入力周波数帯域(231)について、少なくとも1つのDirACパラメータを含み、
    前記パラメータ変換器(110)が、前記パラメータセット(114)をパラメトリックステレオまたはマルチチャネルパラメータとして計算するように構成されている、請求項11から13のいずれか一項に記載の装置。
  15. 前記少なくとも1つのパラメータが、到来方向パラメータ、拡散度パラメータ、仮想聴取位置を球の原点とする前記球に関連する方向情報パラメータ、および距離パラメータのうちの少なくとも1つを含み、
    前記パラメトリックステレオまたはマルチチャネルパラメータが、サイドゲインパラメータ(455)、残差予測ゲインパラメータ(456)、チャネル間レベル差パラメータ、チャネル間時間差パラメータ、チャネル間位相差パラメータ、およびチャネル間コヒーレンスパラメータのうちの少なくとも1つを含む、請求項14に記載の装置。
  16. 前記受信されたパラメータセット(112)が関連する入力時間フレーム(120)が、2つ以上の入力時間サブフレームを含み、前記パラメータセット(114)が関連する出力時間フレーム(220)が、前記入力時間フレーム(210)よりも小さく、前記2つ以上の入力時間サブフレームのうちの入力時間サブフレームよりも長く、
    前記パラメータ変換器(110)が、時間的に後続する前記2つ以上の入力時間サブフレームのそれぞれについて前記パラメータセット(114)の生パラメータ(252)を計算し、少なくとも2つの生パラメータを結合して、前記出力サブフレームに関連する前記パラメータセット(114)のパラメータを導出するように構成されている、請求項11から15のいずれか一項に記載の装置。
  17. 前記パラメータ変換器(110)が、前記少なくとも2つの生パラメータの重み付け結合を実行するように構成され、前記重み付け結合の重み係数が、前記対応する入力時間サブフレームにおける前記トランスポート信号(122)の振幅関連尺度(320)に基づいて導出される、請求項16に記載の装置。
  18. 前記パラメータ変換器(110)が、前記振幅関連尺度(320)として、エネルギーまたは電力を使用するように構成されており、入力サブフレームについての重み係数が、前記対応する入力時間サブフレーム内の前記トランスポート信号(122)のエネルギーまたは電力がより高い場合、前記対応する入力時間サブフレーム内の前記トランスポート信号(122)のエネルギーまたは電力がより低い入力サブフレームの重み係数と比較して、より大きい、請求項17に記載の装置。
  19. 前記パラメータ変換器(110)が、前記入力時間フレーム(210)について前記受信されたパラメータセット(112)の少なくとも1つのパラメータを使用して、各出力時間フレーム(220)について少なくとも1つの生パラメータ(252)を計算するように構成され、
    前記パラメータ変換器(120)が、平滑化規則にしたがって生パラメータ(252)ごとに平滑化係数(512;522)を計算するように構成され、
    前記パラメータ変換器(110)が、対応する平滑化係数(512;522)を前記対応する生パラメータ(252)に適用して、前記出力時間フレーム(220)についての前記パラメータセット(114)の前記パラメータを導出するように構成されている、請求項14から18のいずれか一項に記載の装置。
  20. 前記パラメータ変換器(110)が、
    前記トランスポート信号(122)の第1の時間部分の振幅関連尺度(320)にわたる長期平均(332)を計算し、
    前記トランスポート信号(120)の第2の時間部分であって、前記第1の時間部分よりも短い前記第2の時間部分の振幅関連尺度(320)にわたる短期平均(331)を計算し、
    前記長期平均(332)と前記短期平均(331)との比に基づいて平滑化係数(512;522)を計算するように構成されている、請求項19に記載の装置。
  21. 前記パラメータ変換器(110)が、圧縮関数(540)を使用して帯域についての平滑化係数(512;522)を計算するように構成され、前記圧縮関数が異なる周波数帯域について異なり、前記圧縮関数の圧縮強度が、より低い周波数帯域の方がより高い周波数帯域よりも強い、請求項19または20に記載の装置。
  22. 前記パラメータ変換器(110)が、異なる帯域に対して異なる最大境界を使用して前記平滑化係数(512;522)を計算するように構成され、低帯域の最大境界が、高帯域の最大境界よりも高い、請求項19から21のいずれか一項に記載の装置。
  23. 前記パラメータ変換器(110)が、前記平滑化規則として、再帰的平滑化規則(710)を時間的に後続の出力時間フレームにわたって適用するように構成され、その結果、現在の出力時間フレーム(220)についての平滑化されたパラメータが、第1の重み値によって重み付けされた前の出力時間フレーム(220)についての前記パラメータと、第2の重み値によって重み付けされた前記現在の出力時間フレーム(220)についての生パラメータ(252)とを結合することによって計算され、前記第1の重み値および前記第2の重み値が、前記現在の時間フレームについての前記平滑化係数(512;522)から導出される、請求項19から22のいずれか一項に記載の装置。
  24. 前記出力インターフェース(120)が、
    出力時間フレーム(220)に対応する前記トランスポート信号(122)の時間部分のスペクトル表現への変換を実行し、前記部分が、前記受信されたパラメータセット(112)の前記パラメータが編成される入力時間フレーム(210)よりも短く、
    前記パラメータセット(114)を使用して前記スペクトル表現のアップミックス演算を実行して、前記スペクトル表現内の前記2つ以上のチャネルを取得し、
    前記スペクトル表現内の前記2つ以上のチャネルの各チャネルを時間表現に変換するように構成されている、請求項1から23のいずれか一項に記載の装置。
  25. 前記出力インターフェース(120)が、
    複素離散フーリエ変換領域に変換し、
    前記複素離散フーリエ変換領域において前記アップミックス演算を実行し、
    前記複素離散フーリエ変換領域から実数値時間領域表現への前記変換を実行するように構成されている、請求項24に記載の装置。
  26. 前記出力インターフェース(120)が、以下の式に基づいて前記アップミックス演算を実行するように構成されており、
    Figure 2023548650000181
    =
    Figure 2023548650000182
    および
    Figure 2023548650000183
    =
    Figure 2023548650000184

    ここで、
    Figure 2023548650000185
    は、フレームtおよび周波数ビンkについての前記トランスポート信号(122)であり、
    Figure 2023548650000186
    は、フレームtおよびサブ帯域bについてのサイドゲインであり、
    Figure 2023548650000187
    は、フレームtおよびサブ帯域bについての残差予測ゲインであり、gnormは、存在してもしなくてもよいエネルギー調整係数であり、
    Figure 2023548650000188
    は、フレームtおよび周波数ビンkについての生残差信号である、請求項24または25に記載の装置。
  27. 前記受信されたパラメータセット(112)が、入力周波数帯域(231)の到来方向パラメータであり、前記パラメータセット(114)が、入力周波数帯域(231)ごとのサイドゲインパラメータ(455)を含み、
    前記パラメータ変換器(110)が、以下の式を使用して前記出力周波数帯域(241)についての前記サイドパラメータを計算するように構成され、
    Figure 2023548650000189
    ここで、bは出力周波数帯域(241)であり、sidegainはサイドゲインパラメータ(455)であり、azimuthは到来方向パラメータの方位角成分であり、elevationは到来方向パラメータの仰角成分である、
    請求項11から26のいずれか一項に記載の装置。
  28. 前記受信されたパラメータセット(112)が、前記入力周波数帯域(231)についての拡散度パラメータをさらに含み、前記パラメータ変換器(110)が、以下の式を使用して前記出力周波数帯域(241)についての前記サイドパラメータを計算するように構成され、
    Figure 2023548650000190
    ここで、diff(b)は前記入力周波数帯域(231)bについての拡散度パラメータである、
    請求項27に記載の装置。
  29. 前記受信されたパラメータセット(112)が、入力周波数帯域(231)ごとの拡散度パラメータを含み、
    前記パラメータセット(114)が、出力周波数帯域(241)についての残差予測パラメータ(456)を含み、
    前記パラメータ変換器(110)が、前記入力パラメータ帯域と前記出力パラメータ帯域とが互いに等しい場合、前記入力パラメータ帯域からの前記拡散度パラメータを前記出力パラメータ帯域についての前記残差予測パラメータ(456)として使用するか、または、前記入力パラメータ帯域についての前記拡散度パラメータから前記出力パラメータ帯域についての拡散度パラメータを導出し、次いで、前記出力パラメータ帯域についての前記拡散度パラメータを前記出力パラメータ帯域についての前記残差予測パラメータ(456)として使用する、
    請求項11から28のいずれか一項に記載の装置。
  30. 前記トランスポート信号(122)に関する前記情報がコア符号化オーディオ信号を含み、前記装置が、
    前記トランスポート信号(122)を取得するために前記コア符号化オーディオ信号をコア復号するためのコアデコーダをさらに備える、
    請求項3から29のいずれか一項に記載の装置。
  31. 前記コアデコーダがACELPデコーダ内にあり、または
    前記出力インターフェース(120)が、低帯域信号である前記トランスポート信号(122)をスペクトル表現に変換し、前記スペクトル表現をアップミックスし、時間領域においてアップミックスされたスペクトル表現を変換して、前記2つ以上のチャネルの低帯域表現を取得するように構成され、
    前記装置が、前記時間領域において前記トランスポート(122)信号から高帯域信号を生成するための帯域幅拡張プロセッサ(910)を備え、
    前記装置が、前記時間領域において前記トランスポート信号(122)にマルチチャネルフィリング演算を適用するためのマルチチャネルフィラー(930)を備え、
    前記装置が、前記パラメータセット(114)からの少なくとも1つのパラメータを使用して前記高帯域信号に前記時間領域における広帯域パンニングを適用するためのアップミキサ(920)を備え、
    前記装置が、前記チャネル表現として前記時間領域における全帯域マルチチャネル信号を取得するために、前記時間領域において、前記広帯域パンニングの結果、前記ステレオフィリングの結果、および前記2つ以上のチャネルの前記低帯域表現を結合するための信号結合器(940)を備える、請求項3または30のいずれか一項に記載の装置。
  32. 仮想聴取者位置に関連する音場を表すオーディオシーンを処理する方法であって、前記オーディオシーンが、トランスポート信号およびパラメータセットに関する情報を含み、
    前記パラメータセットおよび前記トランスポート信号に関する前記情報を使用して処理されたオーディオシーンを生成することであって、前記生成することが、前記パラメータセットおよび前記トランスポート信号を使用して2つ以上のチャネルの生表現を生成することを含む、生成することと、
    前記トランスポート信号を使用して前記2つ以上のチャネルの拡張表現をマルチチャネル生成することと、
    前記処理されたオーディオシーンを取得するために、前記2つ以上のチャネルの前記生表現と前記2つ以上のチャネルの前記拡張表現とを結合することと、を含む、方法。
  33. コンピュータまたはプロセッサ上で実行されると、請求項32に記載の方法を実行するためのコンピュータプログラム。

JP2023520374A 2020-10-09 2021-10-08 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム Pending JP2023548650A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP20201093.0 2020-10-09
EP20201093 2020-10-09
EP20207517 2020-11-13
EP20207517.2 2020-11-13
EP21180869 2021-06-22
EP21180869.6 2021-06-22
PCT/EP2021/077873 WO2022074201A2 (en) 2020-10-09 2021-10-08 Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension

Publications (1)

Publication Number Publication Date
JP2023548650A true JP2023548650A (ja) 2023-11-20

Family

ID=78085945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023520374A Pending JP2023548650A (ja) 2020-10-09 2021-10-08 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム

Country Status (10)

Country Link
US (1) US20230239644A1 (ja)
EP (1) EP4226366A2 (ja)
JP (1) JP2023548650A (ja)
KR (1) KR20230084244A (ja)
AU (1) AU2021357840A1 (ja)
CA (1) CA3194876A1 (ja)
MX (1) MX2023003965A (ja)
TW (1) TWI803999B (ja)
WO (1) WO2022074201A2 (ja)
ZA (1) ZA202304044B (ja)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2644520T3 (es) * 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
AU2011237882B2 (en) * 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding
CN104781877A (zh) * 2012-10-31 2015-07-15 株式会社索思未来 音频信号编码装置以及音频信号解码装置
CN105229731B (zh) * 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN105280190B (zh) * 2015-09-16 2018-11-23 深圳广晟信源技术有限公司 带宽扩展编码和解码方法以及装置
CA3011915C (en) 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
FI3539125T3 (fi) 2016-11-08 2023-03-21 Fraunhofer Ges Forschung Laite ja menetelmä monikanavasignaalin koodaamiseksi ja dekoodaamiseksi käyttäen sivuvahvistusta ja jäännösvahvistusta
RU2741379C1 (ru) * 2017-07-28 2021-01-25 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Оборудование для кодирования или декодирования кодированного многоканального сигнала с использованием заполняющего сигнала, сформированного посредством широкополосного фильтра
CA3122164C (en) 2018-12-07 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using diffuse compensation

Also Published As

Publication number Publication date
WO2022074201A3 (en) 2022-05-19
KR20230084244A (ko) 2023-06-12
TW202219942A (zh) 2022-05-16
US20230239644A1 (en) 2023-07-27
ZA202304044B (en) 2023-11-29
MX2023003965A (es) 2023-05-25
TWI803999B (zh) 2023-06-01
EP4226366A2 (en) 2023-08-16
WO2022074201A2 (en) 2022-04-14
CA3194876A1 (en) 2022-04-14
AU2021357840A1 (en) 2023-05-11

Similar Documents

Publication Publication Date Title
JP7401625B2 (ja) 広帯域フィルタによって生成される補充信号を使用して、エンコードされたマルチチャネル信号をエンコードまたはデコードするための装置
CN112074902B (zh) 使用混合编码器/解码器空间分析的音频场景编码器、音频场景解码器及相关方法
TWI794911B (zh) 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式
GB2470059A (en) Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
TWI803998B (zh) 使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式
TWI803999B (zh) 使用頻寬擴展處理編碼音頻場景的裝置、方法或電腦程式
TWI805019B (zh) 使用參數平滑處理編碼音頻場景的裝置、方法或電腦程式
RU2818033C1 (ru) Устройство, способ или компьютерная программа для обработки кодированной аудиосцены с использованием сглаживания параметров
CN116457878A (zh) 使用带宽扩展来处理编码音频场景的装置、方法或计算机程序
CN116529813A (zh) 使用参数转换来处理编码音频场景的装置、方法或计算机程序
TWI834760B (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
TW202347317A (zh) 用於方向性音訊寫碼空間重建音訊處理之方法、設備及系統
CN115989682A (zh) 基于立体声的沉浸式编码(stic)
TW202016925A (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20230530

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240422