JP2024503186A - マルチチャネル・コーデックにおける空間ノイズ充填 - Google Patents
マルチチャネル・コーデックにおける空間ノイズ充填 Download PDFInfo
- Publication number
- JP2024503186A JP2024503186A JP2023532192A JP2023532192A JP2024503186A JP 2024503186 A JP2024503186 A JP 2024503186A JP 2023532192 A JP2023532192 A JP 2023532192A JP 2023532192 A JP2023532192 A JP 2023532192A JP 2024503186 A JP2024503186 A JP 2024503186A
- Authority
- JP
- Japan
- Prior art keywords
- channel
- noise
- spatial
- signal
- shaping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000007493 shaping process Methods 0.000 claims abstract description 48
- 230000003595 spectral effect Effects 0.000 claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims abstract description 24
- 238000009499 grossing Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 12
- 230000000873 masking effect Effects 0.000 description 8
- 238000009877 rendering Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000012732 spatial analysis Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 241000094111 Parthenolecanium persicae Species 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
マルチチャネル・コーデックにおける空間ノイズ充填の実施形態が開示される。ある実施形態では、空間的ホール充填ノイズを生成することによってマルチチャネル・コーデックにおいてバックグラウンド・ノイズ・アンビエンスを再現する方法であって、当該方法は:バックグラウンド・ノイズ・アンビエンスをもつ空間的オーディオ・シーンを表す入力オーディオ信号から生成された主要ダウンミックス・チャネルに基づいてノイズ推定値を計算する段階と;前記ノイズ推定値に基づいてスペクトル整形フィルタ係数を計算する段階と;前記スペクトル整形フィルタ係数とノイズ分布を使用して前記マルチチャネル・ノイズ信号をスペクトル整形する段階であって、該スペクトル整形の結果、相関のないチャネルをもつ拡散マルチチャネル・ノイズ信号を生じる、段階と;相関のないチャネルをもつ前記拡散した相関のないマルチチャネル・ノイズ信号を、前記空間的オーディオ・シーンのノイズ・アンビエンスに基づいて空間的に整形する段階と;空間的およびスペクトル的に整形されたマルチチャネル・ノイズ信号をマルチチャネル・コーデック出力に加えて、前記空間的オーディオ・シーンの前記バックグラウンド・ノイズ・アンビエンスを合成する段階とを含む、方法である。
Description
関連出願への相互参照
本願は、2020年12月2日に出願された米国仮出願第63/120,658号および2021年11月24日に出願された米国仮出願第63/283,187号に対する優先権を主張しており、これらはすべて、その全体が参照により本願に組み込まれている。
本願は、2020年12月2日に出願された米国仮出願第63/120,658号および2021年11月24日に出願された米国仮出願第63/283,187号に対する優先権を主張しており、これらはすべて、その全体が参照により本願に組み込まれている。
技術分野
本開示は、概括的には、没入型の音声およびオーディオ・コンテキストにおけるオーディオ処理に関連する。
本開示は、概括的には、没入型の音声およびオーディオ・コンテキストにおけるオーディオ処理に関連する。
音声およびオーディオ・エンコーダ/デコーダ(「コーデック」)の標準開発は最近、没入型の音声およびオーディオ・サービス(immersive voice and audio service、IVAS)用のマルチチャネル・コーデックの開発に焦点を当てている。IVASは、モノラルからステレオへのアップミキシングや完全に没入型のオーディオのエンコード、デコード、レンダリングを含むがそれらに限定されない、幅広いオーディオ・サービス機能をサポートすることが期待されている。IVASは、携帯電話およびスマートフォン、電子タブレット、パーソナルコンピュータ、会議電話、会議室、仮想現実(VR)および拡張現実(AR)デバイス、ホームシアターデバイス、その他の適切なデバイスを含むがそれらに限定されない、幅広いデバイス、エンドポイント、およびネットワークノードによってサポートされることが意図されている。これらのデバイス、エンドポイント、およびネットワークノードは、サウンドキャプチャおよびレンダリングのためのさまざまな音響インターフェースを持つことができる。マルチチャネル・コーデックがデコーダ出力においてエンコーダ入力オーディオ・シーンを再現できるかどうかは、符号化されるダウンミックス・チャネルの数、モノ・コーデックによって導入される符号化アーティファクト、デコーダにおいて使用される脱相関器が主要ダウンミックス・チャネルに関して相関関係のないダウンミックス・チャネルを出力できるかどうか、および符号化されるサイド情報の正確さに依存する。ビット不足による低ビットレートでは、オーディオ・エッセンスを保存することと、入力シーンのバックグラウンド・ノイズ・アンビエンスを保存することの間にトレードオフがあることがよくある。オーディオ・エッセンスを維持することが知覚的により重要であり、よって、そのことはバックグラウンド・ノイズ・アンビエンスのつぶれにつながる。
マルチチャネル・コーデックにおける空間ノイズ充填の実施形態が開示される。ある実施形態では、空間ノイズ充填は:エンコーダからの最小限の追加的情報を用いて、または追加的情報なしで、所望される空間およびスペクトル形状をもつマルチチャネル・ノイズを生成し;デコーダでの最終的なアップミックスされた出力に前記マルチチャネル・ノイズを加えて、バックグラウンド・ノイズ・アンビエンスを再現し、空間的ホールを埋めることを含む。マルチチャネル・ノイズのスペクトル形状は、主要ダウンミックス・チャネルによって決定される。主要ダウンミックス・チャネルは、たとえば、一次アンビソニクス(FoA)入力信号フォーマットについてはWチャネルの表現であり、ミッド・サイド(M/S)入力信号フォーマットについてはミッド・チャネルの表現である。マルチチャネル・ノイズの空間形状は、入力空間的オーディオ・シーンからの空間情報によって決定される。この空間情報は、エンコーダによって送信されたサイド情報(抽出された空間メタデータ)から、またはデコーダでのアップミックス出力の空間特性から、またはその両方から抽出できる。ある実施形態では、マルチチャネル・ノイズの空間形状は、エンコーダによって送信されたサイド情報(空間メタデータ)とデコーダでのアップミックスされた出力の空間特性の両方から抽出される。
ここに開示される他の実施形態は、システム、装置およびコンピュータ可読媒体に向けられる。開示された実施形態の詳細は、添付の図面および以下の説明に記載されている。その他の特徴、目的および利点は、本稿、図面および請求項から明らかである。
ここに開示された特定の実施形態は、以下の利点の一つまたは複数を提供する。開示された空間ノイズ充填技術は、マルチチャネル・オーディオ信号の知覚されるアンビエンスを改善することによって、マルチチャネル・コーデックにおける低ビットレートでのノイズ・アンビエンスのつぶれの問題に対処する。
図面には、記述の簡単のため、デバイス、ユニット、命令ブロック、データ要素を表すものなど、概略図要素の具体的な配置や順序が示されている。しかしながら、図面における概略図要素の具体的な順序や配置が、処理の特定の順序もしくはシーケンス、またはプロセスの分離が必要であることを意味するものではないことを、当業者は理解すべきである。さらに、図面にある概略図要素を含めることは、そのような要素がすべての実施形態において必要であること、またはそのような要素によって表される特徴が、いくつかの実施形態においては他の要素に含まれたり他の要素と組み合わされたりできないことを意味することは、意図されていない。
さらに、実線もしくは破線または矢印などの接続要素が2つ以上の他の概略図要素間の接続、関係、または関連を示すために使用される図面において、そのような接続要素がないことは、接続、関係、または関連が存在できないことを意味することは意図されていない。つまり、開示が不明瞭にならないように、要素間の一部の接続、関係、または関連は図面に示されていない。さらに、説明を容易にするために、要素間の複数の接続、関係、または関連を表すために単一の接続要素が使用される。たとえば、接続要素が信号、データ、または命令の通信を表す場合、そのような要素が、通信に影響を与えるために必要に応じて、一つまたは複数の信号経路を表すことを当業者は理解すべきである。
さまざまな図面で使用されている同じ参照記号は、類似した要素を示す。
以下の詳細な説明では、記載されているさまざまな実施形態の十全な理解を与えるために、多数の具体的な詳細が記載されている。これらの具体的な詳細がなくても、記載されているさまざまな実施形態が実施されうることは、当業者には明らかであろう。他方、実施形態の諸側面を不必要に埋没させないように、よく知られた方法、手順、コンポーネント、および回路は詳細には説明されていない。以下では、それぞれ互いとは独立して、または他の特徴の任意の組み合わせで使用できるいくつかの特徴について説明する。
記法
本願で使用されるところでは、用語「含む」およびその変形は、「…を含むが、それに限定されない。」を意味するオープンエンドの用語として読まれるべきである。用語「または」は、文脈がそうでないことを明確に示すのでない限り、「および/または」と読まれるべきである。「…に基づいて」は「少なくとも部分的には…に基づいて」と読まれるべきである。「一つの実施形態」および「ある実施形態」は「少なくとも1つの実施形態」と読まれるべきである。「別の実施形態」は「少なくとも1つの他の実施形態」と読まれるべきである。用語「決定される」、「決定する」または「決定」は、得る、受け取る、計算する、算出する、推定する、予測するまたは導出すると読まれるべきである。さらに、以下の説明および請求項において、特に定義されていない限り、ここで使用されるすべての科学技術用語は、本開示が属する分野の当業者によって一般的に理解されるのと同じ意味を有する。
本願で使用されるところでは、用語「含む」およびその変形は、「…を含むが、それに限定されない。」を意味するオープンエンドの用語として読まれるべきである。用語「または」は、文脈がそうでないことを明確に示すのでない限り、「および/または」と読まれるべきである。「…に基づいて」は「少なくとも部分的には…に基づいて」と読まれるべきである。「一つの実施形態」および「ある実施形態」は「少なくとも1つの実施形態」と読まれるべきである。「別の実施形態」は「少なくとも1つの他の実施形態」と読まれるべきである。用語「決定される」、「決定する」または「決定」は、得る、受け取る、計算する、算出する、推定する、予測するまたは導出すると読まれるべきである。さらに、以下の説明および請求項において、特に定義されていない限り、ここで使用されるすべての科学技術用語は、本開示が属する分野の当業者によって一般的に理解されるのと同じ意味を有する。
IVASの使用事例の例
図1は、ある実施形態によるIVASシステム100の使用事例を示している。いくつかの実施形態では、さまざまなデバイスが、たとえばPSTN/他のPLMN 104によって示される公衆交換電話網(PSTN)または公衆陸上移動網デバイス(PLMN)からオーディオ信号を受信するように構成されたコールサーバー102を通じて通信する。諸使用事例は、オーディオをモノラルのみでレンダリングおよび捕捉するレガシー・デバイス106をサポートしており、これは:向上音声サービス(enhanced voice services、EVS)、マルチレートワイドバンド(multi-rate wideband、AMR-WB)および適応マルチレートナローバンド(adaptive multirate narrowband、AMR-NB)をサポートするデバイスを含むが、それらに限定されない。諸使用事例は、ステレオ・オーディオ信号を捕捉してレンダリングするユーザー機器(UE)108,114、またはモノラル信号を捕捉してマルチチャネル信号にバイノーラル・レンダリングするUE 110もサポートする。諸使用事例は、ビデオ会議室システム116,118によってそれぞれ捕捉およびレンダリングされる没入型のステレオ信号もサポートしている。諸使用事例は、ホームシアターシステム120のためのステレオ・オーディオ信号のステレオ捕捉および没入型レンダリング、ならびに仮想現実(VR)ギア122および没入型コンテンツ摂取124のためのオーディオ信号のモノラル捕捉および没入型レンダリングのためのコンピュータ112もサポートしている。
図1は、ある実施形態によるIVASシステム100の使用事例を示している。いくつかの実施形態では、さまざまなデバイスが、たとえばPSTN/他のPLMN 104によって示される公衆交換電話網(PSTN)または公衆陸上移動網デバイス(PLMN)からオーディオ信号を受信するように構成されたコールサーバー102を通じて通信する。諸使用事例は、オーディオをモノラルのみでレンダリングおよび捕捉するレガシー・デバイス106をサポートしており、これは:向上音声サービス(enhanced voice services、EVS)、マルチレートワイドバンド(multi-rate wideband、AMR-WB)および適応マルチレートナローバンド(adaptive multirate narrowband、AMR-NB)をサポートするデバイスを含むが、それらに限定されない。諸使用事例は、ステレオ・オーディオ信号を捕捉してレンダリングするユーザー機器(UE)108,114、またはモノラル信号を捕捉してマルチチャネル信号にバイノーラル・レンダリングするUE 110もサポートする。諸使用事例は、ビデオ会議室システム116,118によってそれぞれ捕捉およびレンダリングされる没入型のステレオ信号もサポートしている。諸使用事例は、ホームシアターシステム120のためのステレオ・オーディオ信号のステレオ捕捉および没入型レンダリング、ならびに仮想現実(VR)ギア122および没入型コンテンツ摂取124のためのオーディオ信号のモノラル捕捉および没入型レンダリングのためのコンピュータ112もサポートしている。
例示的なIVASコーデック
図2は、ある実施形態による、IVASビットストリームをエンコードおよびデコードするためのIVASコーデック200のブロック図である。IVASコーデック200は、エンコーダおよび遠端デコーダを含む。IVASエンコーダは、空間分析およびダウンミックス・ユニット202、量子化およびエントロピー符号化ユニット203、コア・エンコード・ユニット206(たとえばEVSエンコード・ユニット)およびモード/ビットレート制御ユニット207を含む。IVASデコーダは、量子化およびエントロピー復号ユニット204、コア・デコード・ユニット208(たとえばEVSデコード・ユニット)、空間合成/レンダリング・ユニット209、および脱相関器ユニット211を含む。
図2は、ある実施形態による、IVASビットストリームをエンコードおよびデコードするためのIVASコーデック200のブロック図である。IVASコーデック200は、エンコーダおよび遠端デコーダを含む。IVASエンコーダは、空間分析およびダウンミックス・ユニット202、量子化およびエントロピー符号化ユニット203、コア・エンコード・ユニット206(たとえばEVSエンコード・ユニット)およびモード/ビットレート制御ユニット207を含む。IVASデコーダは、量子化およびエントロピー復号ユニット204、コア・デコード・ユニット208(たとえばEVSデコード・ユニット)、空間合成/レンダリング・ユニット209、および脱相関器ユニット211を含む。
空間分析およびダウンミックス・ユニット202は、オーディオ・シーンを表すNチャネル入力オーディオ信号201を受信する。入力オーディオ信号201は:モノラル信号、ステレオ信号、バイノーラル信号、空間的オーディオ信号(たとえばマルチチャネル空間的オーディオ・オブジェクト)、FoA、高次アンビソニックス(HoA)、および他の任意のオーディオ・データを含むが、これらに限定されない。Nチャネル入力オーディオ信号201は、空間分析およびダウンミックス・ユニット202によって、指定された数のダウンミックス・チャネル(N_dmx)にダウンミックスされる。この例では、N_dmxは<=Nである。空間分析およびダウンミックス・ユニット202は、サイド情報(たとえば空間メタデータ)をも生成し、このサイド情報は、N_dmx個のダウンミックス・チャネル、空間メタデータおよびデコーダにおいて生成される脱相関信号から、Nチャネル入力オーディオ信号201を合成するために、遠端IVASデコーダによって使用できる。いくつかの実施形態では、空間分析およびダウンミックス・ユニット202は、ステレオ/FoAオーディオ信号を分析/ダウンミックスするためのコンプレックス・アドバンスト・カプリング(complex advanced coupling、CACPL)および/またはFoAオーディオ信号を分析/ダウンミックスするための空間再構築器(spatial reconstructor、SPAR)を実装する。他の実施形態では、空間分析およびダウンミックス・ユニット202は、他のフォーマットを実装する。
N_dmx個のチャネルは、コア・エンコード・ユニット206に含まれるモノラル・コーデックのN_dmx個のインスタンスによって符号化され、サイド情報(たとえば、空間メタデータ(MD))は量子化およびエントロピー符号化ユニット203によって量子化および符号化される。次いで、符号化されたビットはまとめてビットストリーム(単数または複数)にパックされ、IVASデコーダに送信される。示されている実施形態では、基礎となるコーデックの例示的な実施形態はEVSであるが、任意の適切なモノラル、ステレオ、またはマルチチャネル・コーデックが、エンコードされたビットストリームを生成するために使用できる。
いくつかの実施形態では、だんだん粗くなるいくつかの量子化レベル(たとえば、細かい、中程度、粗い、非常に粗い量子化)を含むことができ、エントロピー符号化はハフマン符号化または算術符号化を含むことができる。
いくつかの実施形態では、コア符号化ユニット206は、3GPP TS 26.445に準拠したEVSエンコード・ユニット206であり、狭帯域(EVS-NB)および広帯域(EVS-WB)スピーチ・サービスのための向上された品質および符号化効率、超広帯域〔スーパーワイドバンド〕(EVS-SWB)スピーチを使用した向上された品質、会話アプリケーションにおける混合したコンテンツおよび音楽のための向上された品質、パケット損失および遅延ジッタに対する堅牢性、およびAMR-WBコーデックに対する後方互換性など、幅広い機能を提供する。
いくつかの実施形態では、EVSエンコード・ユニット206は、前処理およびモード/ビットレート制御ユニット207を含み、これは、モード/ビットレート制御ユニット207の出力に基づいて、スピーチ信号をエンコードするためのスピーチ符号化器と、指定されたビットレートでオーディオ信号をエンコードするための知覚的符号化器の間で選択する。いくつかの実施形態では、スピーチ・エンコーダは、代数符号励振線形予測(ACELP)の改良版であり、種々のスピーチ・クラスのための特化した線形予測(LP)ベースのモードで拡張されている。いくつかの実施形態では、知覚的エンコーダは、低遅延/低ビットレートで効率が向上した修正離散コサイン変換(MDCT)エンコーダであり、スピーチ・エンコーダとオーディオ・エンコーダの間でシームレスかつ信頼性の高いスイッチングを実行するように設計されている。
デコーダでは、N_dmx個のチャネルは、コア・デコード・ユニット208に含まれるモノラル・コーデックの対応するN_dmx個のインスタンスによってデコードされ、サイド情報は、量子化およびエントロピー復号ユニット204によってデコードされる。主要ダウンミックス・チャネル(たとえばFoA信号フォーマットにおけるWチャネル)が脱相関器ユニット211に供給され、該脱相関器ユニット211が、N-N_dmx個の脱相関されたチャネルを生成する。N_dmx個のダウンミックス・チャネル、N-N_dmx個の脱相関されたチャネルおよびサイド情報は、空間合成/レンダリング・ユニット209に供給され、該空間合成/レンダリング・ユニット209は、これらの入力を使用して、もとのNチャネル入力オーディオ信号を合成または再現する。ある実施形態では、N_dmx個のチャネルはEVS以外のモノラル・コーデックによってデコードされる。他の実施形態では、N_dmx個のチャネルは、一つまたは複数のマルチチャネル・コア符号化ユニットと一つまたは複数のシングルチャネル・コア符号化ユニットの組み合わせによってデコードされる。
IVASコーデック200などのマルチチャネル・コーデックは、低ビットレートでのノイズ・アンビエンスのつぶれ(以下、「空間的ホール」〔空間的な穴〕(spatial hole)とも称される)という問題がある。低ビットレートでは、ダウンミックス・チャネルの数は通例非常に少なく(たとえば、N_dmx=1個のダウンミックス・チャネル)、ダウンミックス・チャネルを符号化するためにモノラル・コーデックにとって利用可能なビット数も少ない。これは、符号化アーティファクトにつながり、特にアンビエンスを形成する高周波において、バックグラウンド・ノイズの全体的なエネルギーを低下させる。また、ダウンミックス・チャネルがより少ないということは、脱相関器がより多くの非相関チャネルを生成する必要があることを意味する。典型的には、脱相関器は、所望されるスペクトル形状をもつ完全に非相関のチャネルを生成できない。最後に、サイド情報が、利用可能なビット予算のため、粗く量子化されうる。これらの問題は、ノイズ・アンビエンスのつぶれまたは空間的ホールにつながり、図3および図4を参照して以下に説明するように、空間ノイズ充填を実装するようにIVASデコーダを修正することによって解決される。
図3は、ある実施形態による、1チャネル・ダウンミックス信号と空間ノイズ充填のあるIVASデコーダのブロック図である。示されている例示的なIVASデコーダは、1チャネル・ダウンミックス・モード(N_dmx=1)で動作するSPARデコーダ300であり、これはエンコードされたIVASビットストリームをデコードするように構成されている。以下で説明する空間ノイズ充填技術は、任意の数のダウンミックス信号をもつ任意のダウンミックス構成にも適用できることに注意されたい。
SPARデコーダ300は、ビット・アンパック・ユニット301、コア・デコード・ユニット302(図2のコア・デコード・ユニット208)、ノイズ推定およびスペクトル整形パラメータ抽出ユニット303、ノイズ・アップミキサー・ユニット304、マルチチャネル・ノイズ空間整形ユニット305、空間メタデータ(MD)デコード・ユニット306(図2の量子化およびエントロピー復号ユニット204)、脱相関ユニット307(図2の脱相関ユニット211)、アップミックス・ユニット308(図2の空間合成/レンダリング・ユニット209)、および空間ノイズ付加ユニット309を含む。
ビット・アンパック・ユニット301は、IVASエンコーダによって上流で生成されたエンコードされたIVASビットストリーム(単数または複数)を受信する。IVASビットストリームは、量子化およびエンコードされた空間メタデータ(MD)と、エンコードされたコア符号化器ビットとを含む。ビット・アンパック・ユニット301はIVASビットストリームをアンパックし、MDビットをMDデコード・ユニット306に、コア符号化ビットをコア・デコード・ユニット302に送信する。FoAについての1チャネル・ダウンミックス構成では、コア符号化ビットはW'(Wチャネルの表現)符号化ビットのみを含む。
コア・デコード・ユニット302はコア符号化ビットをデコードし、能動W'パルス符号変調(PCM)された出力データを生成し、それがノイズ推定およびスペクトル整形パラメータ抽出ユニット303と、脱相関ユニット307に供給される。ノイズ推定およびスペクトル整形パラメータ抽出ユニット303は、ビットストリームのメタデータ内のVAD(Voice Activity Detector[音声活動検出器])/SAD(Speech Activity Detector[スピーチ活動検出器])判定フラグ(単数または複数)を読み取り、バックグラウンド・ノイズのみが存在する(VAD/SAD判定が0)ときに、バックグラウンド・ノイズのスペクトル整形パラメータを抽出する。なお、VAD/SAD判定が1であるときは、スペクトル整形パラメータは静的であることに注意されたい。他の実施形態では、ブロック302によって受信されたビットはEVS以外の異なるコア・コーデックによって符号化されていてもよく、そのため、ブロック302はEVS以外の異なるコア・コーデックであることができる。
スペクトル・パラメータは、W'チャネルにおけるバックグラウンド・ノイズと同じスペクトル形状をもつN個の非相関ノイズ・チャネル(たとえば、FoAエンコードについてN=4)を生成するノイズ・アップミキサー・ユニット304に供給される。ある実施形態では、これらのノイズ・チャネルは、N個のチャネルのそれぞれについて異なるシードをもつガウス白色ノイズ分布に基づいて生成され、それにより、完全に非相関のノイズ・チャネルが生成される。
ひとたびスペクトル整形パラメータが抽出されると、ノイズ・アップミキサー・ユニット304は、VAD/SAD判定値に関係なく、マルチチャネルの非相関のノイズを生成する。ノイズ・アップミキサー・ユニット304の出力は、マルチチャネル・ノイズ空間整形ユニット305に供給され、該マルチチャネル・ノイズ空間整形ユニット305は、MDデコード・ユニット306によって出力された空間メタデータおよび/またはアップミックス・ユニット308の出力(空間ノイズ充填なしのアップミックスされたSPAR FoA出力)から抽出された空間パラメータに基づいて、非相関のN個のノイズ・チャネルを空間的に整形する。バックグラウンド・ノイズ・モデリングの空間パラメータは、非アクティブ・フレームの間(たとえば、バックグラウンド・ノイズのみが存在するとき、すなわちVAD/SAD判定が0であるとき)だけ計算されるが、マルチチャネル・ノイズ空間整形ユニット305は、現在のフレームがアクティブか非アクティブか(たとえば、VAD/SAD判定が0か1か)に関係なく、空間ノイズを生成する。これは、アクティブ・フレームの間、最後の非アクティブ・フレームで計算された空間パラメータをフリーズすることによって行われる。ビット・アンパック・ユニット301から出力されたMDビットは、MDデコード・ユニット306に供給され、該MDデコード・ユニット306はIVASエンコーダ(図示せず)によって符号化された空間メタデータをデコードする。
コア・デコード・ユニット302の出力は脱相関ユニット307にも供給され、該脱相関ユニット307は、3つの脱相関された出力307(ダウンミックスのW'チャネルに関して脱相関されている)を生成する。脱相関ユニット307とMDデコード・ユニット306の出力は、アップミックス・ユニット308に供給され、該アップミックス・ユニット308は、ダウンミックス・チャネル、脱相関ユニット307によって出力される脱相関されたチャネル、および空間メタデータMDからFoA出力チャネルを生成する。高いビットレートでは、アップミックス・ユニット308の出力はSPARエンコーダへのFoA入力に似ているが、低および中範囲のビットレートでは、アップミックス・ユニット308の出力はアンビエンスつぶれを受ける可能性がある。
アンビエンスつぶれを防ぐために、空間ノイズ付加ユニット309は、所望される空間的およびスペクトル形状をもつ空間的およびスペクトル的に整形されたマルチチャネル・ノイズをアップミックス・ユニット308の出力に加える。いくつかの実施形態では、空間ノイズ付加ユニット309は、アップミックス・ユニット308の出力において、パラメトリックに生成されたチャネルに、所望される空間的およびスペクトル的形状をもつマルチチャネル・ノイズを加える。1チャネル・ダウンミックス・モードでは、SPARエンコーダから送信された空間メタデータ、主要ダウンミックス・チャネル(W’ダウンミックス・チャネル)、および脱相関ユニット307の出力を用いて、SPAR 300デコーダによって、Y、X、およびZチャネルがパラメトリックに生成され、そのため、マスキング・ノイズはY、X、およびZチャネルにのみ加えられる。2チャネル・ダウンミックス・モードでは、SPARエンコーダから送信された空間メタデータ、ダウンミックス・チャネル、および脱相関ユニット307の出力を用いて、SPARデコーダ300によって、XおよびZチャネルがパラメトリックに生成され、そのため、マスキング・ノイズはXおよびZチャネルにのみ加えられる。3チャネル・ダウンミックス・モードでは、SPARエンコーダから送信された空間メタデータ、ダウンミックス・チャネル、および脱相関ユニット307の出力を用いて、SPARデコーダ300によって、Zチャネルがパラメトリックに生成され、そのため、マスキング・ノイズはZチャネルにのみ加えられる。
ある実施形態では、ノイズ・アップミキサー・ユニット304は、W'チャネル内のバックグラウンド・ノイズと同じスペクトル形状をもつ4つの非相関のマスキング・ノイズ・チャネルを生成し、低次の高域通過フィルタを適用して、空間マスキング・ノイズの影響を高周波数に制限する(アンビエンス・ノイズつぶれは通例、高周波数において、より多く知覚されるため)。次いで、ノイズ・アップミキサー・ユニット304は、空間マスキング・ノイズの影響をさらに平滑化するために平滑化利得を適用する。
ある実施形態では、マルチチャネル・ノイズ空間整形ユニット305は、EVSビットストリーム・メタデータ内のVAD/SAD判定値をチェックし、アップミックス・ユニット308の出力を取り、その出力を高域通過フィルタに通して、より高い周波数をより強調する。次いで、高域通過フィルタ処理された出力が使用されて、4つのチャネルすべての間の共分散推定値が計算される。共分散推定値は、完全に拡散した(非相関の)マスキング・ノイズを空間的に整形するために使用される空間パラメータを生成するために使用される。ある実施形態では、共分散推定値はブロードバンド共分散推定値であり、空間パラメータはSPAR空間パラメータ(たとえば、予測係数と相関係数)である。マスキング・ノイズ整形パラメータは、バックグラウンド・ノイズが存在する(たとえば、VAD/SAD判定が0である)ときにのみ計算され、それ以外で、音声またはオーディオが入力オーディオ信号に存在する(たとえば、VAD/SAD判定が1である)ときは静的である。
ある実施形態では、マルチチャネル・ノイズ空間整形ユニット305は、VAD/SAD決定出力をチェックし、MDデコード・ユニット306によって生成されたデコードされた空間MDを使用して、ノイズ・アップミキサー・ユニット304の出力を空間的に整形する。ある実施形態では、MDデコード・ユニット306の空間MD出力は、ノイズ・アップミキサー・ユニット304の出力に適用される前に、さらに平滑化され、より高い周波数をより強調するよう再計算される(たとえば、高域通過フィルタ処理される)。マルチチャネル・ノイズ空間整形パラメータは、バックグラウンド・ノイズが存在する(たとえば、VAD/SAD判定が0である)ときにのみ計算され、音声またはサウンドが検出される(たとえば、VAD/SAD判定が1である)ときは静的である。
ある実施形態では、空間ノイズ付加ユニット309は、マルチチャネル・デコーダ出力において、パラメトリックに生成されたチャネルにのみ、所望される空間およびスペクトル形状をもつマルチチャネル・ノイズを加える。ある実施形態では、空間ノイズ充填は、Nチャネルマルチチャネル入力(N>=1)に関し、IVASまたはSPAR以外の任意のマルチチャネル・コーデックを用いて行うことができる。同じ空間ノイズ充填アプローチが適用できる。ここで、マルチチャネル・ノイズが主要チャネルに基づいてスペクトル整形され、マルチチャネル・ノイズの空間形状はエンコーダによって送信された空間メタデータまたは合成されたマルチチャネル出力のいずれかまたは両方によって決定される。その後、デコーダにおいて、所望されるスペクトルおよび空間形状をもつマルチチャネル・ノイズが、合成されたマルチチャネル出力に加えられることができる。
図4は、ある実施形態による、1チャネル・ダウンミックス構成で動作するSPARデコーダ400のブロック図であり、空間ノイズ充填は、コア・コーデックの内部モジュールを使用して、ダウンミックス・チャネルにおけるバックグラウンド・ノイズのスペクトル特性を抽出する。さらなる実施形態の以下の説明は、それと前述の実施形態との間の相違点に焦点を当てる。したがって、以下の説明では、両実施形態に共通する特徴は省略することがあり、よって、以下の説明でそうでないことが要求されるのでない限り、該さらなる実施形態において、前述の実施形態の特徴が実装される、または少なくとも実装できると想定されるべきである。
SPARデコーダ400は、コア・デコーダ409とMDデコーダおよびアップミキサー410とを含む。コア・デコーダ409は、コア・デコード・ユニット401、ノイズ推定ユニット402、ノイズ・アップミキサー・ユニット403、シングルチャネル・ノイズ充填ユニット404を含む。このシングルチャネル・ノイズ充填ユニット404は、コア・デコーダ409にすでに存在しており、コア符号化アーティファクトをマスクするために、デコードされた出力にスペクトル的に整形されたノイズを加える。MDデコーダおよびアップミキサー410は、脱相関ユニット405、アップミックス・ユニット407、および空間整形およびノイズ充填ユニット408を含む。
ある実施形態では、ノイズのスペクトル整形は、コア・デコーダ409内のスペクトル整形モジュールを使用して、コア・デコーダ409内部で実装される。なお、図3に示されるSPARデコーダ300内のノイズ推定およびスペクトル整形パラメータ抽出ユニット303およびノイズ・アップミキサー・ユニット304のあるセクションとが、コア・デコード・ユニット302内部にも存在する(ユニット402および403)。
なお、図3に示されるSPARデコーダ300におけるノイズ推定およびスペクトル整形パラメータ抽出ユニット303は、コア・デコード・ユニット302内部にも存在する(ユニット402)。コア・デコード・ユニット302は、ガウス白色ノイズ分布を励起信号として使用し、ノイズ推定ユニット402によって生成されたスペクトル・パラメータに従ってそれをスペクトル的に整形するシングルチャネル・ノイズ生成器をも有している。このシングルチャネル・ノイズ生成器は、ガウス白色ノイズ分布についてチャネルごとに異なるシードを使用することによって、同じスペクトル形状をもつ複数の非相関ノイズ・チャネルを生成するマルチチャネル・ノイズ生成器に簡単に変更することができる。このマルチチャネル・ノイズ生成器は、図4のユニット403として示されており、図3のユニット304と同等である。
この実施形態では、デコーダ409がWチャネルの表現をデコードし、ノイズ推定ユニット402がデコードされたデータにおけるノイズを推定する。このノイズ推定値は、同じスペクトル整形で4つの非相関ノイズ・チャネルを生成するためにユニット403によって使用される。これらのノイズ・チャネルは、チャネルごとに異なるシードを用いてガウス白色ノイズ分布に基づいて生成され、そのため、完全に非相関のノイズ・チャネルが生成される。
図3および図4を参照して前述したSPARデコーダは、オーディオ・シーンを表すFoA入力オーディオ信号を、SPARデコーダにおいて入力信号を再生成するために使用される、ダウンミックス・チャネルと空間パラメータのセットに変換する。ダウンミックス信号は1ないし4チャネルまで変わることができ、パラメータは予測パラメータPR、交差予測パラメータC、および脱相関パラメータPを含む。これらのパラメータは、窓掛けされた入力オーディオ信号の共分散行列から計算され、指定された数の周波数帯域(たとえば12個の周波数帯)において計算される。
SPARパラメータ抽出の例示的な表現は次のとおりである。
1. 式[1]を使用して、主要オーディオ信号Wからのすべてのサイド信号(Y,Z,X)を予測する:
ここで、例として、予測されるチャネルY'についての予測係数は式[2]に示されるように計算される:
RYW=cov(Y,W)は、チャネルYとWに対応する入力共分散行列の要素である。同様に、Z'およびX'残差チャネルは対応するパラメータprZおよびprXをもつ。PRは予測係数のベクトルPR=[prY,prZ,prX]Tである。
上記のダウンミックスは、ダウンミックスの過程でWが変化しない、受動Wダウンミックスとも呼ばれる。ダウンミックスのもう1つの態様は、次のように、Y、X、ZチャネルのWチャネル中への混合をある程度許容する能動Wダウンミックスである:
ここで、fは、X、Y、チャネルの一部をWチャネル中に混合することを許容する正規化された入力共分散の関数として計算され、prY、prX、prZは予測係数である。ある実施形態では、fは定数であってもよい(たとえば0.50)。受動Wでは、f=0であり、よって、X、Y、ZチャネルのWチャネル中への混合はない。
2. 式[4]に示されるように、Wチャネルと予測された(Y',Z',X')チャネルを、音響的に最も有意なものから最も有意でないものの順にリミックスする。ここで、リミックス(remix)は、何らかの方法論に基づいてチャネルを並べ替えるまたは組み合わせ直すことを含む。
リミックスのある実施形態は、左と右からのオーディオ・キュー〔手がかり〕が前ないし後ろよりも重要であり、上下の手がかりが最後であるという想定を与えられて、入力チャネルをW,Y',X',Z'に並べ替えることであってもよい。
3. 式[5]と[6]に示されるように、4チャネルのポスト予測およびリミックス・ダウンミックスの共分散を計算する。
ここで、ddはWを超える追加のダウンミックス・チャネルを表し(たとえば2番目ないしN-dmx番目のチャネル)、uは完全に再現される必要があるチャネルを表す(たとえば、(N_dmx+1)番目ないし4のチャネル)を表す。
したがって、Cは3チャネル・ダウンミックスについては形状(1x2)をもち、2チャネル・ダウンミックスについては(2x1)になる。空間ノイズ充填のある実装は、これらのCパラメータを必要とせず、これらのパラメータは0に設定できる。空間ノイズ充填の別の実装は、Cパラメータをも含みうる。
5. 脱相関器によって充填される必要があるパラメータ化されたチャネルにおける残りのエネルギーを計算する。アップミックス・チャネルResuuにおける残差エネルギーは、実際のエネルギーRuu(ポスト予測)と再現された交差予測エネルギーReguuの間の差である。
ここで、scaleは正規化スケーリング因子である。scaleは、ブロードバンド値(たとえばscale=0.01)または周波数依存であることができ、異なる周波数帯域において異なる値を取ってもよい(たとえば、スペクトルが12帯域に分割される場合、scale=linspace(0.5,0.01,12))。
例示的なプロセス
式[10]におけるPにおける係数は、予測と混合を解除すること(un-prediction and un-mixing)の前に、Wの非相関コンポーネントがA、B、Cチャネルを再作成するためにどの程度使用されるかを決定する。
式[10]におけるPにおける係数は、予測と混合を解除すること(un-prediction and un-mixing)の前に、Wの非相関コンポーネントがA、B、Cチャネルを再作成するためにどの程度使用されるかを決定する。
図5は、ある実施形態による、空間的ホール充填ノイズを生成することにより、マルチチャネル・コーデックにおけるバックグラウンド・ノイズ・アンビエンスを再現するプロセス500のフロー図である。プロセス500は、たとえば、図6を参照して記述されるデバイス・アーキテクチャー600を使用して実装できる。
プロセス500は、バックグラウンド・ノイズ・アンビエンスをもつ空間的オーディオ・シーンを表す入力オーディオ信号から生成された主要ダウンミックス・チャネル(たとえばFoAのWチャネル)に基づいてノイズ推定値を計算する段階(501)と、該ノイズ推定値に基づいてスペクトル整形フィルタ係数を計算する段階(502)と、該スペクトル整形フィルタ係数とノイズ分布(たとえばガウス白色ノイズ)を使用してマルチチャネル・ノイズ信号をスペクトル整形する段階であって、該スペクトル整形の結果、相関のないチャネルをもつ拡散マルチチャネル・ノイズ信号(たとえば、完全に拡散している(diffused))を生じる、段階(503)と、相関のないチャネルをもつ拡散した相関のないマルチチャネル・ノイズ信号を、空間的オーディオ・シーンのノイズ・アンビエンスに基づいて空間的に整形する段階(504)と、空間的およびスペクトル的に整形されたマルチチャネル・ノイズ信号をマルチチャネル・コーデック出力に加えて、入力空間的オーディオ・シーンのバックグラウンド・ノイズ・アンビエンスを再現する段階(505)とを含む。これらの各段階は、図1~図4を参照して詳細に説明された。
例示的なシステム・アーキテクチャー
図6は、図1~図5を参照して説明した例示的な実施形態を実装するのに適した例示的なシステム600のブロック図を示す。システム600は、たとえばリードオンリーメモリ(ROM)602に格納されたプログラムや、たとえば記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたプログラムに従って、さまざまなプロセスを実行することができる中央処理装置(CPU)601を含む。RAM 603において、CPU 601がさまざまなプロセスを実行する際に必要とされるデータも必要に応じて格納される。CPU 601、ROM 602、RAM 603はバス604を介して互いに接続されている。入出力(I/O)インターフェース605もバス604に接続されている。
図6は、図1~図5を参照して説明した例示的な実施形態を実装するのに適した例示的なシステム600のブロック図を示す。システム600は、たとえばリードオンリーメモリ(ROM)602に格納されたプログラムや、たとえば記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたプログラムに従って、さまざまなプロセスを実行することができる中央処理装置(CPU)601を含む。RAM 603において、CPU 601がさまざまなプロセスを実行する際に必要とされるデータも必要に応じて格納される。CPU 601、ROM 602、RAM 603はバス604を介して互いに接続されている。入出力(I/O)インターフェース605もバス604に接続されている。
I/Oインターフェース605には、以下のコンポーネントが接続される:キーボード、マウスなどを含みうる入力ユニット606;液晶ディスプレイ(LCD)などのディスプレイと一つまたは複数のスピーカーを含みうる出力ユニット607;ハードディスクまたは他の適切な記憶装置を含む記憶ユニット608;ネットワークカード(たとえば有線または無線)などのネットワークインターフェースカードを含む通信ユニット609。
いくつかの実施形態では、入力ユニット606は、さまざまなフォーマット(たとえばモノラル、ステレオ、空間的、没入型、その他の適切なフォーマット)のオーディオ信号の捕捉を可能にする、異なる位置(ホストデバイスに依存)にある一つまたは複数のマイクロフォンを含む。
いくつかの実施形態では、出力ユニット607は、さまざまな数のスピーカーをもつシステムを含む。出力ユニット607は、さまざまなフォーマット(たとえば、モノラル、ステレオ、没入型、バイノーラル、その他の適切なフォーマット)のオーディオ信号をレンダリングすることができる。
通信ユニット609は、他のデバイスと(たとえばネットワークを介して)通信するように構成されている。必要に応じて、ドライブ610もI/Oインターフェース605に接続される。ドライブ610には、磁気ディスク、光ディスク、光磁気ディスク、フラッシュドライブ、他の適当なリムーバブルメディアなどのリムーバブルメディア611がマウントされ、必要に応じて、そこから読み取られたコンピュータ・プログラムが記憶ユニット608にインストールされる。システム600は上記の構成要素を含むものとして説明されているが、現実の応用では、これらの構成要素のいくつかを追加、除去、および/または置換することが可能であり、これらのすべての修正または変更は、すべて本開示の範囲に含まれることを当業者は理解するであろう。
開示された実施形態のさまざまな側面は、以下の箇条書き例示的実施形態(enumerated example embodiment、EEE)から評価されうる。
〔EE1〕
空間的ホール充填ノイズを生成することによってマルチチャネル・コーデックにおいてバックグラウンド・ノイズ・アンビエンスを再現する方法であって、当該方法は: バックグラウンド・ノイズ・アンビエンスをもつ空間的オーディオ・シーンを表す入力オーディオ信号から生成された主要ダウンミックス・チャネルに基づいてノイズ推定値を計算する段階と;
前記ノイズ推定値に基づいてスペクトル整形フィルタ係数を計算する段階と; 前記スペクトル整形フィルタ係数とノイズ分布を使用して前記マルチチャネル・ノイズ信号をスペクトル整形する段階であって、該スペクトル整形の結果、相関のないチャネルをもつ拡散マルチチャネル・ノイズ信号を生じる、段階と; 相関のないチャネルをもつ前記拡散マルチチャネル・ノイズ信号を、前記空間的オーディオ・シーンのノイズ・アンビエンスに基づいて空間的に整形する段階と; 空間的およびスペクトル的に整形されたマルチチャネル・ノイズ信号をマルチチャネル・コーデック出力に加えて、前記空間的オーディオ・シーンの前記バックグラウンド・ノイズ・アンビエンスを合成する段階とを含む、方法。
空間的ホール充填ノイズを生成することによってマルチチャネル・コーデックにおいてバックグラウンド・ノイズ・アンビエンスを再現する方法であって、当該方法は: バックグラウンド・ノイズ・アンビエンスをもつ空間的オーディオ・シーンを表す入力オーディオ信号から生成された主要ダウンミックス・チャネルに基づいてノイズ推定値を計算する段階と;
前記ノイズ推定値に基づいてスペクトル整形フィルタ係数を計算する段階と; 前記スペクトル整形フィルタ係数とノイズ分布を使用して前記マルチチャネル・ノイズ信号をスペクトル整形する段階であって、該スペクトル整形の結果、相関のないチャネルをもつ拡散マルチチャネル・ノイズ信号を生じる、段階と; 相関のないチャネルをもつ前記拡散マルチチャネル・ノイズ信号を、前記空間的オーディオ・シーンのノイズ・アンビエンスに基づいて空間的に整形する段階と; 空間的およびスペクトル的に整形されたマルチチャネル・ノイズ信号をマルチチャネル・コーデック出力に加えて、前記空間的オーディオ・シーンの前記バックグラウンド・ノイズ・アンビエンスを合成する段階とを含む、方法。
〔EE2〕
前記スペクトル整形が、ミッド・サイド(M/S)信号のミッド・チャネルまたは1次アンビソニクス信号のWチャネルの表現における前記バックグラウンド・ノイズ・アンビエンスのスペクトル形状に基づいている、EE1に記載の方法。
前記スペクトル整形が、ミッド・サイド(M/S)信号のミッド・チャネルまたは1次アンビソニクス信号のWチャネルの表現における前記バックグラウンド・ノイズ・アンビエンスのスペクトル形状に基づいている、EE1に記載の方法。
〔EE3〕
前記相関のないチャネルの各チャネルが他のチャネルと同様のスペクトル形状をもつ、EE1または2に記載の方法。
前記相関のないチャネルの各チャネルが他のチャネルと同様のスペクトル形状をもつ、EE1または2に記載の方法。
〔EE4〕
前記マルチチャネル・ノイズ信号を空間的に整形することが、前記マルチチャネル・コーデックのデコードされた出力の共分散推定に基づく、EE1ないし3のうちいずれか一項に記載の方法。
前記マルチチャネル・ノイズ信号を空間的に整形することが、前記マルチチャネル・コーデックのデコードされた出力の共分散推定に基づく、EE1ないし3のうちいずれか一項に記載の方法。
〔EE5〕
前記マルチチャネル・ノイズ信号を空間的に整形することが、前記入力オーディオ信号から抽出された空間メタデータに基づく、EE1ないし4のうちいずれか一項に記載の方法。
前記マルチチャネル・ノイズ信号を空間的に整形することが、前記入力オーディオ信号から抽出された空間メタデータに基づく、EE1ないし4のうちいずれか一項に記載の方法。
〔EE6〕
前記マルチチャネル・ノイズ信号の利得を時間的に平滑化することにより、前記マルチチャネル・ノイズ信号のスペクトル形状を得ることをさらに含む、EE1ないし5のうちいずれか一項に記載の方法。
前記マルチチャネル・ノイズ信号の利得を時間的に平滑化することにより、前記マルチチャネル・ノイズ信号のスペクトル形状を得ることをさらに含む、EE1ないし5のうちいずれか一項に記載の方法。
〔EE7〕
前記マルチチャネル・ノイズ信号のダイナミックレンジが一つまたは複数の調整可能な閾値に基づいて制限される、EE1ないし6のうちいずれか一項に記載の方法。
前記マルチチャネル・ノイズ信号のダイナミックレンジが一つまたは複数の調整可能な閾値に基づいて制限される、EE1ないし6のうちいずれか一項に記載の方法。
〔EE8〕
空間アンビエンスつぶれをマスクするよう、前記マルチチャネル・ノイズ信号が、デコードされたマルチチャネル出力に加えられて、前記入力バックグラウンド・ノイズ・アンビエンスを合成する、EE1ないし7のうちいずれか一項に記載の方法。
空間アンビエンスつぶれをマスクするよう、前記マルチチャネル・ノイズ信号が、デコードされたマルチチャネル出力に加えられて、前記入力バックグラウンド・ノイズ・アンビエンスを合成する、EE1ないし7のうちいずれか一項に記載の方法。
〔EE9〕
前記マルチチャネル・ノイズ信号は、パラメトリックにアップミックスされたマルチチャネル出力にのみ加えられる、EE1ないし8のうちいずれか一項に記載の方法。
前記マルチチャネル・ノイズ信号は、パラメトリックにアップミックスされたマルチチャネル出力にのみ加えられる、EE1ないし8のうちいずれか一項に記載の方法。
〔EE10〕
前記マルチチャネル・コーデックが没入型音声およびオーディオ・サービス(IVAS)コーデックである、EE1ないし9のうちいずれか一項に記載の方法。
前記マルチチャネル・コーデックが没入型音声およびオーディオ・サービス(IVAS)コーデックである、EE1ないし9のうちいずれか一項に記載の方法。
〔EE11〕
前記マルチチャネル・ノイズ信号の空間整形およびノイズ付加が周波数帯域化された領域またはブロードバンド領域で行われる、EE1ないし10のうちいずれか一項に記載の方法。
前記マルチチャネル・ノイズ信号の空間整形およびノイズ付加が周波数帯域化された領域またはブロードバンド領域で行われる、EE1ないし10のうちいずれか一項に記載の方法。
〔EE12〕
マルチチャネル・ノイズ信号が高周波数にのみ加えられる、EE1ないし11のうちいずれか一項に記載の方法。
マルチチャネル・ノイズ信号が高周波数にのみ加えられる、EE1ないし11のうちいずれか一項に記載の方法。
〔EE13〕
一つまたは複数のプロセッサと;前記一つまたは複数のプロセッサによる実行時に、前記一つまたは複数のプロセッサにEE1ないし12のうちいずれか一項に記載の動作を実行させる命令を記憶している非一時的なコンピュータ読み取り可能な媒体とを有する、システム。
一つまたは複数のプロセッサと;前記一つまたは複数のプロセッサによる実行時に、前記一つまたは複数のプロセッサにEE1ないし12のうちいずれか一項に記載の動作を実行させる命令を記憶している非一時的なコンピュータ読み取り可能な媒体とを有する、システム。
〔EE14〕
一つまたは複数のプロセッサによる実行時に、前記一つまたは複数のプロセッサにEE1ないし13のうちいずれか一項に記載の動作を実行させる命令を記憶している、非一時的なコンピュータ読み取り可能な媒体。
一つまたは複数のプロセッサによる実行時に、前記一つまたは複数のプロセッサにEE1ないし13のうちいずれか一項に記載の動作を実行させる命令を記憶している、非一時的なコンピュータ読み取り可能な媒体。
本開示の例の実施形態に従って、上記のプロセスは、コンピュータ・ソフトウェア・プログラムとして、またはコンピュータ読み取り可能な記憶媒体上で実装されうる。たとえば、本開示の実施形態は、機械読み取り可能な媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム・プロダクトを含み、前記コンピュータ・プログラムは、諸方法を実行するためのプログラム・コードを含む。そのような実施形態では、前記コンピュータ・プログラムは、図6に示されるように、通信ユニット609を介してネットワークからダウンロードおよびマウントされ、および/またはリムーバブル媒体611からインストールされてもよい。
一般に、本開示のさまざまな例示的実施形態は、ハードウェアまたは特殊目的回路(たとえば、制御回路)、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実装されうる。たとえば、上述のユニットは、制御回路(たとえば、図6の他の構成要素と組み合わせたCPU)によって実行でき、よって、制御回路は、本開示に記載された動作を実行している可能性がある。いくつかの側面は、ハードウェアで実装されてもよく、他の側面は、ファームウェアまたはソフトウェアで実装されてもよく、それらは、コントローラ、マイクロプロセッサまたは他のコンピューティングデバイス(たとえば、制御回路)によって実行されてもよい。本開示の例示的実施形態のさまざまな側面は、ブロック図、フローチャートとして、または他のいくつかの絵的な表現を使用して例示および説明されているが、ここで説明されているブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的の回路またはロジック、汎用ハードウェアまたはコントローラまたは他のコンピューティングデバイス、またはそれらのいくつかの組み合わせで実装することができることが理解される。
さらに、フローチャートに示されているさまざまなブロックは、方法ステップとして、および/またはコンピュータ・プログラム・コードの動作の結果として生じる動作として、および/または関連する機能を実行するように構築された複数の結合された論理回路要素として、見ることができる。たとえば、本開示の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム・プロダクトを含み、前記コンピュータ・プログラムは、上記の諸方法を実行するように構成されたプログラム・コードを含む。
本開示の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによる使用のための、またはそれに関連した使用のためのプログラムを含んでいてもよい、または記憶していてもよい任意の有体な媒体であってもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、非一時的であってもよく、電子、磁気、光学、電磁、赤外線、または半導体のシステム、装置、デバイス、またはこれらの任意の適切な組み合わせを含みうるが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つまたは複数のワイヤを有する電気接続、ポータブルコンピュータのディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム可能な読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせを含む。
本開示の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせで記述されうる。これらのコンピュータ・プログラム・コードは、制御回路をもつ汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されてもよく、それにより、該コンピュータ・プログラム・コードがコンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されたときに、フローチャートおよび/またはブロック図において指定された機能/動作が実装される。プログラム・コードは、完全にコンピュータ上で、部分的にコンピュータ上で、スタンドアローンのソフトウェアパッケージとして、部分的にはコンピュータ上、部分的にはリモートコンピュータ上で、または完全にリモートコンピュータまたはサーバー上で、または一つまたは複数のリモートコンピュータおよび/またはサーバーに分散されて実行されてもよい。
本稿は、多くの具体的な実施形態の詳細を含むが、これらは、請求されうるものの範囲の制限としてではなく、特定の実施形態に固有である可能性のある特徴の説明として解釈されるべきである。別個の実施形態のコンテキストで本明細書に記述されているある種の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態のコンテキストで記述されているさまざまな特徴が、複数の実施形態において別個に、または任意の適切なサブコンビネーションで実装することもできる。さらに、特徴は、上記ではある種の組み合わせで動作するものとして記述され、最初はそのように請求されることさえありうるが、場合によっては、請求される組み合わせからの一つまたは複数の特徴が、組み合わせから削除されることができ、請求される組み合わせは、サブコンビネーションまたはサブコンビネーションの変形に向けられることがある。図に示されているロジックフローは、望ましい結果を達成するために、示されている特定の順序、または逐次的な順序を必要としない。さらに、他のステップが設けられてもよく、あるいは説明されているフローからステップが削除されてもよく、説明されているシステムに他のコンポーネントが追加されたり、それから削除されたりしてもよい。したがって、他の実施形態が、添付の請求項の範囲内にある。
Claims (14)
- 空間的ホール充填ノイズを生成することによってマルチチャネル・コーデックにおいてバックグラウンド・ノイズ・アンビエンスを再現する方法であって、当該方法は:
少なくとも1つのプロセッサにより、バックグラウンド・ノイズ・アンビエンスをもつ空間的オーディオ・シーンを表す入力オーディオ信号から生成された主要ダウンミックス・チャネルに基づいてノイズ推定値を計算する段階と;
前記少なくとも1つのプロセッサにより、前記ノイズ推定値に基づいてスペクトル整形フィルタ係数を計算する段階と;
前記少なくとも1つのプロセッサにより、前記スペクトル整形フィルタ係数とノイズ分布を使用して前記マルチチャネル・ノイズ信号をスペクトル整形する段階であって、該スペクトル整形の結果、相関のないチャネルをもつ拡散マルチチャネル・ノイズ信号を生じる、段階と;
前記少なくとも1つのプロセッサにより、相関のないチャネルをもつ前記拡散した相関のないマルチチャネル・ノイズ信号を、前記空間的オーディオ・シーンのノイズ・アンビエンスに基づいて空間的に整形する段階と;
前記少なくとも1つのプロセッサにより、空間的およびスペクトル的に整形されたマルチチャネル・ノイズ信号をマルチチャネル・コーデック出力に加えて、前記空間的オーディオ・シーンの前記バックグラウンド・ノイズ・アンビエンスを合成する段階とを含む、
方法。 - 前記スペクトル整形が、ミッド・サイド(M/S)信号のミッド・チャネルまたは1次アンビソニクス信号のWチャネルの表現における前記バックグラウンド・ノイズ・アンビエンスのスペクトル形状に基づいている、請求項1に記載の方法。
- 前記マルチチャネル・ノイズ信号の前記相関のないチャネルの各チャネルが他のチャネルと同様のスペクトル形状をもつ、請求項1または2に記載の方法。
- 前記マルチチャネル・ノイズ信号を空間的に整形することが、前記マルチチャネル・コーデックのデコードされた出力の共分散推定に基づく、請求項1ないし3のうちいずれか一項に記載の方法。
- 前記マルチチャネル・ノイズ信号を空間的に整形することが、前記入力オーディオ信号から抽出された空間メタデータに基づく、請求項1ないし4のうちいずれか一項に記載の方法。
- 前記マルチチャネル・ノイズ信号の利得を時間的に平滑化することにより、前記マルチチャネル・ノイズ信号のスペクトル形状を得ることをさらに含む、請求項1ないし5のうちいずれか一項に記載の方法。
- 前記マルチチャネル・ノイズ信号のダイナミックレンジが一つまたは複数の調整可能な閾値に基づいて制限される、請求項1ないし6のうちいずれか一項に記載の方法。
- 空間アンビエンスつぶれをマスクするよう、前記マルチチャネル・ノイズ信号が、デコードされたマルチチャネル出力に加えられて、前記入力バックグラウンド・ノイズ・アンビエンスを合成する、請求項1ないし7のうちいずれか一項に記載の方法。
- 前記マルチチャネル・ノイズ信号は、パラメトリックにアップミックスされたマルチチャネル出力にのみ加えられる、請求項1ないし8のうちいずれか一項に記載の方法。
- 前記マルチチャネル・コーデックが没入型音声およびオーディオ・サービス(IVAS)コーデックである、請求項1ないし9のうちいずれか一項に記載の方法。
- 前記マルチチャネル・ノイズ信号の空間整形およびノイズ付加が周波数帯域分割された領域またはブロードバンド領域で行われる、請求項1ないし10のうちいずれか一項に記載の方法。
- マルチチャネル・ノイズ信号が高周波数にのみ加えられる、請求項1ないし11のうちいずれか一項に記載の方法。
- 一つまたは複数のプロセッサと;
前記一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサに請求項1ないし12のうちいずれか一項に記載の動作を実行させる命令を記憶している非一時的なコンピュータ読み取り可能な媒体とを有する、
システム。 - 前記一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサに請求項1ないし12のうちいずれか一項に記載の動作を実行させる命令を記憶している、非一時的なコンピュータ読み取り可能な媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063120658P | 2020-12-02 | 2020-12-02 | |
US63/120,658 | 2020-12-02 | ||
US202163283187P | 2021-11-24 | 2021-11-24 | |
US63/283,187 | 2021-11-24 | ||
PCT/US2021/061441 WO2022119946A1 (en) | 2020-12-02 | 2021-12-01 | Spatial noise filling in multi-channel codec |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024503186A true JP2024503186A (ja) | 2024-01-25 |
Family
ID=79687104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023532192A Pending JP2024503186A (ja) | 2020-12-02 | 2021-12-01 | マルチチャネル・コーデックにおける空間ノイズ充填 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240105192A1 (ja) |
EP (1) | EP4256557A1 (ja) |
JP (1) | JP2024503186A (ja) |
WO (1) | WO2022119946A1 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050969A (zh) * | 2013-03-14 | 2014-09-17 | 杜比实验室特许公司 | 空间舒适噪声 |
-
2021
- 2021-12-01 WO PCT/US2021/061441 patent/WO2022119946A1/en active Application Filing
- 2021-12-01 EP EP21844429.7A patent/EP4256557A1/en active Pending
- 2021-12-01 JP JP2023532192A patent/JP2024503186A/ja active Pending
- 2021-12-01 US US18/255,506 patent/US20240105192A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4256557A1 (en) | 2023-10-11 |
WO2022119946A1 (en) | 2022-06-09 |
US20240105192A1 (en) | 2024-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101218776B1 (ko) | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 | |
RU2660638C2 (ru) | Устройство и способ для улучшенного пространственного кодирования аудиообъектов | |
KR101221917B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
RU2659497C2 (ru) | Управляемое модулем рендеринга пространственное повышающее микширование | |
RU2576476C2 (ru) | Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции | |
KR101147780B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
CN107077861B (zh) | 音频编码器和解码器 | |
US20220406318A1 (en) | Bitrate distribution in immersive voice and audio services | |
JP2016522909A (ja) | マルチチャネル・オーディオのハイブリッド・エンコード | |
JP2022543083A (ja) | Ivasビットストリームの符号化および復号化 | |
JP2023551732A (ja) | 適応ダウンミックス戦略による没入型音声およびオーディオサービス(ivas) | |
KR102657547B1 (ko) | 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치 | |
JP6686015B2 (ja) | オーディオ信号のパラメトリック混合 | |
JP2021507314A (ja) | 音場表現信号を符号化する方法及びデバイス | |
JP2024503186A (ja) | マルチチャネル・コーデックにおける空間ノイズ充填 | |
CN116547748A (zh) | 多通道编解码器中的空间噪声填充 | |
TW202347317A (zh) | 用於方向性音訊寫碼空間重建音訊處理之方法、設備及系統 | |
CN116830192A (zh) | 利用自适应下混策略的沉浸式语音和音频服务(ivas) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20230525 |