JP2024010207A - マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法 - Google Patents
マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法 Download PDFInfo
- Publication number
- JP2024010207A JP2024010207A JP2023191220A JP2023191220A JP2024010207A JP 2024010207 A JP2024010207 A JP 2024010207A JP 2023191220 A JP2023191220 A JP 2023191220A JP 2023191220 A JP2023191220 A JP 2023191220A JP 2024010207 A JP2024010207 A JP 2024010207A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- signals
- processing
- joint
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 97
- 238000012805 post-processing Methods 0.000 title claims description 23
- 230000002087 whitening effect Effects 0.000 title claims description 8
- 238000012545 processing Methods 0.000 claims abstract description 191
- 230000005236 sound signal Effects 0.000 claims abstract description 100
- 230000003044 adaptive effect Effects 0.000 claims abstract description 88
- 238000007781 pre-processing Methods 0.000 claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims description 63
- 230000003595 spectral effect Effects 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 26
- 238000011049 filling Methods 0.000 claims description 21
- 238000013139 quantization Methods 0.000 claims description 21
- 238000007493 shaping process Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 17
- 230000009977 dual effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000010076 replication Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 5
- 230000008054 signal transmission Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000005429 filling process Methods 0.000 claims 3
- 239000003086 colorant Substances 0.000 abstract 1
- 108091006146 Channels Proteins 0.000 description 268
- 230000000875 corresponding effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004061 bleaching Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
【課題】マルチシグナル符号化又は復号化のための改善されたより柔軟な概念を提供する。【解決手段】少なくとも3つの前処理済みオーディオ信号を取得するためのマルチシグナルエンコーダは、各オーディオ信号を個別に前処理するために、前処理済みオーディオ信号を前処理前の信号に対して白色化する信号プリプロセッサ100と、少なくとも3つの共同で処理された信号又は少なくとも2つの共同で処理された信号及び未処理の信号を取得するために、少なくとも3つの前処理済みオーディオ信号の処理を実行する適応ジョイント信号プロセッサ200と、1つ以上の符号化信号を取得するために各信号を符号化する信号エンコーダ300と、1つ以上の符号化信号、前処理に関するサイド情報及び処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信又は格納する出力インターフェース400と、を含む。【選択図】図5a
Description
実施形態は、信号適応ジョイントチャンネル処理を有するMDCTベースのマルチシグナル符号化および復号化システムに関し、信号はチャンネルであり、マルチシグナルはマルチチャンネル信号であるか、または代わりに、アンビソニックス成分、すなわち一次アンビソニックスのW、X、Y、Zまたはより高次のアンビソニックス表現のその他任意の成分などの音場表現の成分であるオーディオ信号であり得る。信号はまた、音場のAフォーマットまたはBフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。
・MPEG USAC[1]では、2つのチャンネルのジョイントステレオ符号化は、帯域制限または全帯域残差信号を用いる複雑予測(Complex Prediction)、MPS2-1-2、またはUnified Stereoを使用して実行される。
・MPEGサラウンド[2]は、残差信号の送信の有無にかかわらず、マルチチャンネルオーディオのジョイント符号化のためにOTTおよびTTTボックスを階層的に組み合わせる。
・MPEG-H Quad Channel Elements[3]は、「固定」4x4リミックスツリーを構築する複雑予測/MSステレオボックスに続くMPS2-1-2ステレオボックを階層的に適用する。
・AC4[4]は、送信されたミックスマトリックスおよび後続のジョイントステレオ符号化情報を介して送信されたチャンネルの再混合を可能にする、新しい3チャンネル、4チャンネル、および5チャンネル要素を導入する。
・以前の刊行物は、拡張マルチチャンネルオーディオ符号化(Enhanced Multichannel Audio Coding)[5]のためにカルーネン-ルーベ変換(Karhunen-Loeve Transform)(KLT)のような直交変換を使用することを提案している。
・3つ以上のチャンネルのジョイント符号化をサポートする、マルチチャンネル符号化ツール(Multichannel Coding Tool)(MCT)[6]は、MDCT領域での柔軟な信号適応型のジョイントチャンネル符号化を可能にする。これは、2つの指定されたチャンネルの実数値の複雑なステレオ予測ならびに回転ステレオ符号化(KLT)などのステレオ符号化技術の反復的な組み合わせおよび連結によって達成される。
3Dオーディオの文脈では、ラウドスピーカチャンネルがいくつかの高さのレイヤに分布しており、結果として水平および垂直のチャンネルペアを生じる。USACで定義された2つのみのチャンネルのジョイント符号化は、チャンネル間の空間的関係および知覚的関係を考慮するのに十分ではない。MPEGサラウンドは、追加の前処理/後処理ステップで適用され、残差信号は、たとえば左右の垂直残差信号の間の依存性を利用するジョイントステレオ符号の可能性を伴わずに、個別に送信される。AC-4では、ジョイント符号化パラメータの十分な符号化を可能にする専用のNチャンネル要素が導入されるが、新しい没入型再生シナリオ(7.1+4、22.2)で提案されるようにより多くのチャンネルを有する一般的なスピーカ設定では失敗する。MPEG-Hもまた、4つのチャンネルのみに制限されており、任意のチャンネルに動的に適用することはできず、予め構成された固定数のチャンネルにしか適用できない。MCTは、任意のチャンネルの信号適応型ジョイントチャンネル符号化の柔軟性を導入するが、ステレオ処理は、ウィンドウ化および変換された非正規化(非白色化)信号に対して行われる。さらに、各ステレオボックスの各帯域での予測計数または角度の符号化は、大量のビットを必要とする。
本発明の目的は、マルチシグナル符号化または復号化のための改善されたより柔軟な概念を提供することである。
この目的は、請求項1のマルチシグナルエンコーダ、請求項32のマルチシグナルデコーダ、請求項44のマルチシグナル符号化を実行する方法、請求項45のマルチシグナル復号化を実行する方法、請求項46のコンピュータプログラム、または請求項47の符号化信号によって達成される。
本発明は、マルチシグナル符号化効率が、元の信号ではなく前処理済みオーディオ信号に対して適応ジョイント信号処理を実行することによって実質的に改善されるという発見に基づいており、この前処理は、前処理済みオーディオ信号が、前処理前の信号に対して白色化されるように実行される。デコーダ側に関しては、これは、少なくとも3つの処理済み復号化信号を取得するために、ジョイント信号処理に続いて後処理が実行されることを意味する。これらの少なくとも3つの処理済み復号化信号は、符号化信号に含まれるサイド情報にしたがって後処理され、後処理は、後処理済み信号が後処理前の信号よりも白くなくなるように実行される。後処理済み信号は最終的に、直接、またはさらなる信号処理操作に続いて、復号化オーディオ信号、すなわち復号化マルチシグナルを表す。
特に没入型3Dオーディオフォーマットでは、全体的な知覚的オーディオ品質を維持しながら送信データの量を削減するために、複数の信号の特性を利用する効率的なマルチチャンネル符号化が得られる。好適な実装形態では、マルチチャンネルシステム内の信号適応型ジョイント符号化は、知覚的に白色化され、加えてチャンネル間レベル差(ILD)が補正されたスペクトルを使用して実行される。ジョイント符号化は、好ましくは、エントロピーコーダの推定ビット数に基づいて駆動される単純な帯域ごとのM/S変換決定を使用して実行される。
少なくとも3つのオーディオ信号を符号化するためのマルチシグナルエンコーダは、少なくとも3つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するための信号プリプロセッサを含み、前処理は、前処理済みオーディオ信号が前処理前の信号に対して白色化されるように実行される。少なくとも3つの前処理済みオーディオ信号の適応ジョイント信号処理は、少なくとも3つの共同で処理された信号を取得するために実行される。この処理は、白色化信号に対して作用する。前処理は、スペクトルエンベロープなどの特定の信号特性の抽出をもたらすか、または抽出されない場合には、ジョイントステレオまたはジョイントマルチチャンネル処理などのジョイント信号処理の効率を低下させるだろう。加えて、ジョイント信号処理効率を向上させるために、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、少なくとも3つの前処理済みオーディオ信号の広帯域エネルギー正規化が実行される。この広帯域エネルギー正規化は、この広帯域エネルギー正規化が、逆ジョイントステレオまたはジョイントマルチチャンネル信号処理に続いてデコーダ側で反転され得るように、サイド情報として符号化オーディオ信号に信号送信される。この好適な追加の広帯域エネルギー正規化手順により、左/右処理(デュアルモノ処理)とは対照的にミッド/サイド処理を受けることができる帯域の数またはフルフレームの数さえも実質的に改善されるように、適応ジョイント信号処理効率が改善される。ステレオ符号化プロセス全体の効率は、ミッド/サイド処理などの一般的なステレオまたはマルチチャンネル処理を受ける帯域の数またはフルフレームの数さえも多くなるほど、ますます向上する。
最も低い効率は、ステレオ処理の観点から、帯域またはフレームに対して、この帯域またはフレームが「デュアルモノ」または左/右処理で処理されるべきであると適応ジョイント信号プロセッサが適応的に決定する必要があるときに得られる。ここでは、左チャンネルおよび右チャンネルはそのまま処理されるが、当然ながら白色化およびエネルギー正規化された領域内である。しかしながら、適応ジョイント信号プロセッサが、特定の帯域またはフレームについて、ミッド/サイド処理が実行されると決定するとき、第1および第2のチャンネルを加算することによってミッド信号が計算され、チャンネルペアの第1および第2のチャンネルとの差を計算することによってサイド信号が計算される。典型的には、ミッド信号は、その値の範囲に関して、第1および第2のチャンネルの一方に匹敵するが、サイド信号は典型的に、高効率で符号化され得る低エネルギーの信号となるか、または最も好適な状況では、サイド信号は、ゼロであるか、またはサイド信号のスペクトル領域がゼロに量子化され、したがって、非常に効率的にエントロピー符号化され得るほど、ゼロに近い。このエントロピー符号化は、1つ以上の符号化信号を取得するために各信号に対して信号エンコーダによって実行され、マルチシグナルエンコーダの出力インターフェースは、1つ以上の符号化信号、前処理に関するサイド情報、および適応ジョイント信号処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納する。
デコーダ側では、典型的にエントロピーデコーダを含む信号デコーダが、好適に含まれているビット分布情報に典型的に依存する少なくとも3つの符号化信号を復号化する。このビット分布情報は、サイド情報として符号化マルチシグナルオーディオ信号に含まれ、たとえば、信号(エントロピー)エンコーダへの入力における信号のエネルギーを調べることによって、エンコーダ側で導出され得る。マルチシグナルデコーダ内の信号デコーダの出力は、少なくとも3つの処理済み復号化信号を取得するために符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するために、ジョイント信号プロセッサに入力される。このジョイント信号プロセッサは、好ましくはエンコーダ側で実行されたジョイント信号処理を元に戻し、典型的には、逆ステレオまたは逆マルチチャンネル処理を実行する。好適な実装形態では、ジョイント信号プロセッサは、ミッド/サイド信号から左/右信号を計算するための処理操作を適用する。しかしながら、ジョイント信号プロセッサが特定のチャンネルペアについて、デュアルモノ処理が既に存在するとサイド情報から判断したとき、この状況は記録され、さらなる処理のためにデコーダで使用される。
デコーダ側のジョイント信号プロセッサは、エンコーダ側の適応ジョイント信号プロセッサのように、カスケードチャンネルペアツリーまたは簡略化されたツリーのモードで動作するプロセッサであってもよい。簡略化されたツリーは、ある種のカスケード処理も表すが、簡略化されたツリーは、処理されたペアの出力がこれから処理される別のペアへの入力になり得ないという点で、カスケードチャンネルペアツリーとは異なる。
ジョイント信号処理を開始するためにマルチシグナルデコーダ側のジョイント信号プロセッサによって使用される最初のチャンネルペアに関して、エンコーダ側で処理された最後のチャンネルペアであったこの最初のチャンネルペアは、特定の帯域で、デュアルモノを示すサイド情報を有する場合もあるが、これらのデュアルモノ信号は、ミッド信号またはサイド信号としてチャンネルペア処理において後に使用され得る。これは、デコーダ側で復号化される少なくとも3つの個別に符号化されたチャンネルを取得するために実行されるペアワイズ処理に関する対応するサイド情報によって、信号送信される。
実施形態は、信号適応ジョイントチャンネル処理を有するMDCTベースのマルチシグナル符号化および復号化システムに関し、信号はチャンネルであり、マルチシグナルはマルチチャンネル信号であるか、または代わりに、アンビソニックス成分、すなわち一次アンビソニックスのW、X、Y、Zまたはより高次のアンビソニックス表現のその他任意の成分などの音場表現の成分であるオーディオ信号であり得る。信号はまた、音場のAフォーマットまたはBフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。
続いて、好適な実施形態のさらなる利点が示される。コーデックは、ジョイントステレオ符号化について[7]に記載される概念を導入することによって、[6]に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい概念を使用する。これらは、
a)さらなる符号化のための知覚的に白色化された信号の使用(音声コーダで使用される方法と同様)。これは、いくつかの利点を有する。
a)さらなる符号化のための知覚的に白色化された信号の使用(音声コーダで使用される方法と同様)。これは、いくつかの利点を有する。
・コーデックアーキテクチャの簡略化
・ノイズシェーピング特性/マスキング閾値のコンパクトな表現(たとえばLPC係数として)
・変換および音声コーデックアーキテクチャを統合し、こうしてオーディオ/音声符号化の組み合わせを可能にする
b)パンされたソースを効率的に符号化するための、任意のチャンネルのILDパラメータの使用
c)エネルギーに基づく処理済みチャンネル間の柔軟なビット分布。
・ノイズシェーピング特性/マスキング閾値のコンパクトな表現(たとえばLPC係数として)
・変換および音声コーデックアーキテクチャを統合し、こうしてオーディオ/音声符号化の組み合わせを可能にする
b)パンされたソースを効率的に符号化するための、任意のチャンネルのILDパラメータの使用
c)エネルギーに基づく処理済みチャンネル間の柔軟なビット分布。
コーデックはさらに、[9]に記載されるようなスペクトルエンベロープワーピングと組み合わせて[8]に記載されるようなレートループで信号を知覚的に白色化するために、周波数領域ノイズシェーピング(FDNS)を使用する。コーデックは、ILDパラメータを使用して、FDNSで白色化されたスペクトルを平均エネルギーレベルに向けてさらに正規化した。ジョイント符号化のためのチャンネルペアは、[6]に記載されるように適応的に選択され、ステレオ符号化は、帯域ごとのM/S対L/Rの決定からなる。帯域ごとのM/Sの決定は、[7]に記載されるようにL/RおよびM/Sモードで符号化されたときの各帯域の推定ビットレートに基づいている。帯域ごとのM/S処理済みチャンネル間のビットレート分布は、エネルギーに基づいている。
本発明の好適な実施形態は、以下の添付図面を参照して、引き続き説明される。
図5は、少なくとも3つのオーディオ信号を符号化するためのマルチシグナルエンコーダの好適な実装形態を示す。少なくとも3つのオーディオ信号は、少なくとも3つの前処理済みオーディオ信号180を取得するために各オーディオ信号を個別に前処理するための信号プロセッサ100に入力され、前処理は、前処理済みオーディオ信号が前処理前の対応する信号に対して白色化されるように実行される。少なくとも3つの前処理済みオーディオ信号180は、少なくとも3つの共同で処理された信号、および一実施形態では、後に説明されるように、少なくとも2つの共同で処理された信号および未処理の信号を取得するために、少なくとも3つの前処理済みオーディオ信号の処理を実行するように構成された適応ジョイント信号プロセッサ200に入力される。マルチシグナルエンコーダは、適応ジョイント信号プロセッサ200の出力に接続され、1つ以上の符号化信号を取得するために適応ジョイント信号プロセッサ200によって出力される各信号を符号化するように構成された、信号エンコーダ300を含む。信号エンコーダ300の出力におけるこれらの符号化信号は、出力インターフェース400に転送される。出力インターフェース400は、符号化マルチシグナルオーディオ信号500を送信または格納するように構成されており、出力インターフェース400の出力における符号化マルチシグナルオーディオ信号500は、信号エンコーダ300によって生成されたとおりの1つ以上の符号化信号、信号プリプロセッサ200によって実行される前処理に関するサイド情報520、すなわち白色化情報を含み、加えて、符号化マルチシグナルオーディオ信号は、適応ジョイント信号プロセッサ200によって実行される処理に関するサイド情報530、すなわち適応ジョイント信号処理に関するサイド情報を追加で含む。
好適な実装形態では、信号エンコーダ300は、適応ジョイント信号プロセッサ200によって生成され、ブロック200からブロック300に転送されるだけでなく、サイド情報530内で出力インターフェース400に、したがって符号化マルチシグナルオーディオ信号内にも転送される、ビット分布情報536によって制御されるレートループプロセッサを含む。符号化マルチシグナルオーディオ信号500は、典型的には、フレームごとの方法で生成され、フレーミング、および典型的には、対応するウィンドウ処理および時間周波数変換が、信号プリプロセッサ100内で実行される。
符号化マルチシグナルオーディオ信号500のフレームの例示的な図が、図5bに示されている。図5bは、ブロック300によって生成されたとおりの個別に符号化された信号のビットストリーム部分510を示している。ブロック520は、ブロック100によって生成されて出力インターフェース400に転送された前処理サイド情報のためのものである。加えて、ジョイント処理サイド情報530が、図5aの適応ジョイント信号プロセッサ200によって生成され、図5bに示される符号化マルチシグナルオーディオ信号フレームに導入される。図5bの右側では、符号化マルチシグナルオーディオ信号の次のフレームがシリアルビットストリームに書き込まれ、図5bの左側では、符号化マルチシグナルオーディオ信号の前のフレームが書き込まれることになる。
後に示されるように、前処理は、時間ノイズシェーピング処理および/または周波数領域ノイズシェーピング処理またはLTP(長期予測)処理またはウィンドウ化処理操作を含む。対応する前処理サイド情報550は、時間ノイズシェーピング(TNS)情報、周波数領域ノイズシェーピング(FDNS)情報、長期予測(LTP)情報、もしくはウィンドウ化またはウィンドウ情報のうちの少なくとも1つを含み得る。
時間ノイズシェーピングは、周波数に対するスペクトルフレームの予測を含む。より高い周波数を有するスペクトル値は、より低い周波数を有するスペクトル値の重み付き組み合わせを使用して予測される。TNSサイド情報は、周波数に対する予測によって導出されるLPC係数としても知られる、重み付き組み合わせの重みを含む。白色化されたスペクトル値は、元のスペクトル値と予測スペクトル値との間の、スペクトル値ごとの予測残差値、すなわち差である。デコーダ側では、エンコーダ側のTNS処理を元に戻すために、LPC合成フィルタリングの逆予測が実行される。
FDNS処理は、対応するスペクトル値の重み係数を使用してフレームのスペクトル値に重み付けすることを含み、重み付け値は、ウィンドウ化された時間領域信号のブロック/フレームから計算されたLPC係数から導出される。FDNSサイド情報は、時間領域信号から導出されたLPC係数の表現を含む。
やはり本発明に有用な別の白色化手順は、等化されたスペクトルが等化されていないバージョンよりも白いバージョンを表すように、スケール因子を使用するスペクトル等化である。サイド情報は、重み付けに使用されるスケール因子であり、逆の手順は、送信されたスケール因子を使用してデコーダ側の等化を元に戻すことを含む。
別の白色化手順は、音声符号化の分野で知られているように、時間領域フレームから導出されたLPC係数によって制御される逆フィルタを使用して、スペクトルの逆フィルタリングを実行することを含む。サイド情報は逆フィルタ情報であり、この逆フィルタリングは、送信されたサイド情報を使用して、デコーダ内で元に戻される。
別の白色化手順は、時間領域でLPC分析を実行することと、後にスペクトル帯域に変換される時間領域残差値を計算することとを含む。典型的には、こうして得られたスペクトル値は、FDNSによって得られたスペクトル値と類似している。デコーダ側では、後処理は、送信されたLPC係数表現を使用してLPC合成を実行することを含む。
ジョイント処理サイド情報530は、好適な実装形態では、ペアワイズ処理サイド情報532、エネルギースケーリング情報534、およびビット分布情報536を含む。ペアワイズ処理サイド情報は、チャンネルペアサイド情報ビット、フルミッド/サイドまたはデュアルモノまたは帯域ごとミッド/サイド情報および、帯域ごとミッド/サイド表示の場合、フレーム内の帯域がミッド/サイドまたはL/R処理のどちらで処理されるかを帯域ごとに示す、ミッド/サイドマスクのうちの少なくとも1つを含み得る。ペアワイズ処理サイド情報は、インテリジェントギャップ充填(IGF)、またはSBR(スペクトル帯域複製)情報などのような他の帯域幅拡張情報を追加で含み得る。
エネルギースケーリング情報534は、白色化された、すなわち前処理済み信号180ごとに、エネルギースケーリング値と、エネルギースケーリングがアップスケーリングかダウンスケーリングかを示すフラグとを含み得る。たとえば、8つのチャンネルの場合、ブロック534は、8つの量子化されたILD値などの8つのスケーリング値と、8つのチャンネルの各々について、アップスケーリングまたはダウンスケーリングがエンコーダ内で行われたかデコーダ内で行われたかを示す8つのフラグとを含む。フレーム内の特定の前処理されたチャンネルの実際のエネルギーが全チャンネルの中でフレームの平均エネルギーを下回るときに、エンコーダのアップスケーリングが必要であり、フレーム内の特定のチャンネルの実際のエネルギーがフレーム内の全チャンネルにわたって平均エネルギーを上回るときに、ダウンスケーリングが必要である。ジョイント処理サイド情報は、共同で処理された信号の各々について、または共同で処理された各信号、利用可能であれば未処理の信号について、ビット分布情報を含んでもよく、このビット分布情報は、図5aに示されるように信号エンコーダ300によって使用され、相応に、入力インターフェースを介して符号化信号からこのビットストリーム情報を受信する、図10に示される使用された信号デコーダによって使用される。
図6は、適応ジョイント信号プロセッサの好適な実装形態を示す。適応ジョイント信号プロセッサ200は、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、少なくとも3つの前処理済みオーディオ信号の広帯域エネルギー正規化を実行するように構成されている。出力インターフェース400は、さらなるサイド情報として、各前処理済みオーディオ信号の広帯域エネルギー正規化値を含むように構成されており、この値は、図5bのエネルギースケーリング情報534に対応する。図6は、広帯域エネルギー正規化の好適な実装形態を示す。ステップ211で、各チャンネルの広帯域エネルギーが計算される。ブロック211への入力は、前処理された(白色化された)チャンネルによって構成される。その結果、Ctotal個のチャンネルの各チャンネルの広帯域エネルギー値が得られる。ブロック212では、典型的には個々の値を合計し、個々の値をチャンネル数で割ることによって、平均広帯域エネルギーが計算される。しかしながら、幾何平均などのようなその他の平均計算手順が実行されることも可能である。
ステップ213で、各チャンネルが正規化される。この目的のために、スケーリング因子または値およびアップスケーリングまたはダウンスケーリング情報が決定される。したがって、ブロック213は、534aで示される各チャンネルのスケーリングフラグを出力するように構成されている。ブロック214では、ブロック212で決定されたスケーリング比の実際の量子化が実行され、この量子化スケーリング比は、534bで各チャンネルについて出力される。この量子化スケーリング比は、チャンネル間レベル差
として、すなわち平均エネルギーを有する参照チャンネルに対する特定のチャンネルkについても示される。ブロック215では、量子化スケーリング比を使用して各チャンネルのスペクトルがスケーリングされる。ブロック215でのスケーリング操作は、ブロック213によって、すなわちアップスケーリングまたはダウンスケーリングのどちらが実行されるべきかという情報によって、制御される。ブロック215の出力は、各チャンネルのスケーリング済みスペクトルを表す。
として、すなわち平均エネルギーを有する参照チャンネルに対する特定のチャンネルkについても示される。ブロック215では、量子化スケーリング比を使用して各チャンネルのスペクトルがスケーリングされる。ブロック215でのスケーリング操作は、ブロック213によって、すなわちアップスケーリングまたはダウンスケーリングのどちらが実行されるべきかという情報によって、制御される。ブロック215の出力は、各チャンネルのスケーリング済みスペクトルを表す。
図7は、カスケードペア処理に関する適応ジョイント信号プロセッサ200の好適な実装形態を示す。適応ジョイント信号プロセッサ200は、ブロック221に示されるように、各可能なチャンネルペアの相互相関値を計算するように構成されている。ブロック229は、最も高い相互相関値を有するペアの選択を示しており、ブロック232aにおいて、このペアについてジョイントステレオ処理モードが決定される。ジョイントステレオ処理モードは、フルフレームに対するミッド/サイド符号化、帯域ごとのミッド/サイド符号化からなってもよく、すなわち複数の帯域の各帯域について、この帯域がミッド/サイドモードまたはL/Rモードのどちらで処理されるべきか否か、または実際のフレームで、検討中のこの特定のペアに対して全帯域デュアルモノ処理が実行されるべきか否かが決定される場合である。ブロック232bでは、選択されたペアのジョイントステレオ処理が、ブロック232aで決定されたモードを使用して実際に実行される。
ブロック235、238では、フルツリーまたは簡略化されたツリー処理を用いるカスケード処理、または非カスケード処理が、特定の終了基準まで継続される。特定の終了基準で、たとえば、ブロック229によって出力されたペア表示、およびブロック232aによって出力されたステレオモード処理情報が生成され、図5bに関して説明されたペアワイズ処理サイド情報532のビットストリームに入力される。
図8は、図5aの信号エンコーダ300によって実行される信号符号化の準備を目的とした、適応ジョイント信号プロセッサの好適な実装形態を示す。この目的のために、適応ジョイント信号プロセッサ200は、ブロック282で、各ステレオ処理済み信号の信号エネルギーを計算する。ブロック282は、入力として、ジョイントステレオ処理済み信号を受信し、このチャンネルが有用なチャンネルペアを形成するために他のどのチャンネルとも十分な相互相関を有していないことがわかってからステレオ処理を受けていなかったチャンネルの場合、このチャンネルは、反転または修正された、または正規化されていないエネルギーでブロック282に入力される。これは、一般に「エネルギー復帰信号」として示されるが、図6のブロック215で実行されるエネルギー正規化は、必ずしも完全に復帰する必要はない。他のチャンネルと共にチャンネルペア処理に有用であるとわかっていないチャンネル信号を処理するための、特定の代替案が存在する。1つの手順は、図6のブロック215で最初に実行されるスケーリングを反転させることである。別の手順は、スケーリングを部分的にのみ反転させることであり、または別の手順は、場合により、スケーリングされたチャンネルに特定の異なる方法で重み付けすることである。
ブロック284では、適応ジョイント信号プロセッサ200によって出力された全ての信号の総エネルギーが計算される。各ステレオ処理済み信号、または利用可能であれば、エネルギー復帰またはエネルギー重み付き信号の信号エネルギーに基づいて、およびブロック284によって出力された総エネルギーに基づいて、各信号のビット分布情報がブロック286で計算される。ブロック286によって生成されたサイド情報536は、このビット分布情報が図5aまたは図5bの符号化マルチシグナルオーディオ信号500に含まれるように、一方では図5aの信号エンコーダ300に転送され、加えて、論理接続530を介して出力インターフェース400に転送される。
実際のビット割り当ては、図9に示される手順に基づいて、好適な実施形態において実行される。最初の手順で、非LFE(低周波強調)チャンネルの最小ビット数が割り当てられ、利用可能であれば、低周波強調チャンネルビットが割り当てられる。これらの最小ビット数は、特定の信号内容に関係なく、信号エンコーダ300によって必要とされる。残りのビットは、図8のブロック286によって生成されたビット分布情報536にしたがって割り当てられ、ブロック291に入力される。割り当ては、量子化されたエネルギー比に基づいて行われ、量子化されていないエネルギーよりも量子化されたエネルギー比を使用する方が好ましい。
ステップ292で、改良が実行される。残りのビットが割り当てられ、結果が利用可能なビット数よりも高くなるような量子化であったとき、ブロック291で割り当てられたビットの減算が実行されなければならない。しかしながら、ブロック291での割り当て手順でさらに割り当てられる必要があるビットがまだあるようなエネルギー比の量子化であったとき、これらのビットは、改良ステップ292において追加で付与または分布され得る。改良ステップに続いて、信号エンコーダで使用するためのビットがまだ存在する場合、最終寄付ステップ293が実行され、最終寄付は、最大エネルギーを有するチャンネルに対して行われる。ステップ293の出力で、各信号に割り当てられたビット配分が利用可能である。
ステップ300において、ステップ290、291、292、293のプロセスによって生成された割り当てビット配分を使用する各チャンネルの量子化およびエントロピー符号化が実行される。基本的に、ビット割り当ては、低エネルギーチャンネル/信号よりも高エネルギーチャンネル/信号の方が正確に量子化されるように実行される。重要なことに、ビット割り当ては、元の信号または白色化信号を使用して行われるのではなく、ジョイントチャンネル処理のために適応ジョイント信号処理に入力された信号とは異なるエネルギーを有する適応ジョイント信号プロセッサ200の出力での信号を使用して行われる。これに関連して、チャンネルペア処理は好適な実装形態であるものの、他のチャンネルのグループが相互相関によって選択および処理され得ることにも、留意すべきである。たとえば、3つさらには4つのチャンネルのグループが適応ジョイント信号プロセッサによって形成され、カスケードされた完全な手順または簡略化されたツリーを用いるカスケードされた手順で、もしくはカスケードされていない手順で、相応に処理されることが可能である。
ブロック290、291、292、293に示されるビット割り当ては、符号化マルチシグナルオーディオ信号500から抽出された分布情報536を使用して、図10の信号デコーダ700によってデコーダ側で同じ方法で実行される。
好適な実施形態
この実装形態において、コーデックは、ジョイントステレオ符号化について[7]に記載される概念を導入することによって、[6]に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい概念を使用する。これらは、
a)さらなる符号化のための知覚的に白色化された信号の使用(音声コーダで使用される方法と同様)。これは、いくつかの利点を有する。
この実装形態において、コーデックは、ジョイントステレオ符号化について[7]に記載される概念を導入することによって、[6]に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい概念を使用する。これらは、
a)さらなる符号化のための知覚的に白色化された信号の使用(音声コーダで使用される方法と同様)。これは、いくつかの利点を有する。
・コーデックアーキテクチャの簡略化
・ノイズシェーピング特性/マスキング閾値のコンパクトな表現(たとえばLPC係数として)
・変換および音声コーデックアーキテクチャを統合し、こうしてオーディオ/音声符号化の組み合わせを可能にする
b)パンされたソースを効率的に符号化するための、任意のチャンネルのILDパラメータの使用
c)エネルギーに基づく処理済みチャンネル間の柔軟なビット分布。
・ノイズシェーピング特性/マスキング閾値のコンパクトな表現(たとえばLPC係数として)
・変換および音声コーデックアーキテクチャを統合し、こうしてオーディオ/音声符号化の組み合わせを可能にする
b)パンされたソースを効率的に符号化するための、任意のチャンネルのILDパラメータの使用
c)エネルギーに基づく処理済みチャンネル間の柔軟なビット分布。
コーデックは、[9]に記載されるようなスペクトルエンベロープワーピングと組み合わせて[8]に記載されるようなレートループで信号を知覚的に白色化するために、周波数領域ノイズシェーピング(FDNS)を使用する。コーデックは、ILDパラメータを使用して、FDNSで白色化されたスペクトルを平均エネルギーレベルに向けてさらに正規化した。ジョイント符号化のためのチャンネルペアは、[6]に記載されるように適応的に選択され、ステレオ符号化は、帯域ごとのM/S対L/Rの決定からなる。帯域ごとのM/Sの決定は、[7]に記載されるようにL/RおよびM/Sモードで符号化されたときの各帯域の推定ビットレートに基づいている。帯域ごとのM/S処理済みチャンネル間のビットレート分布は、エネルギーに基づいている。
実施形態は、信号適応ジョイントチャンネル処理を有するMDCTベースのマルチシグナル符号化および復号化システムに関し、信号はチャンネルであり、マルチシグナルはマルチチャンネル信号であるか、または代わりに、アンビソニックス成分、すなわち一次アンビソニックスのW、X、Y、Zまたはより高次のアンビソニックス表現のその他任意の成分などの音場表現の成分であるオーディオ信号であり得る。信号はまた、音場のAフォーマットまたはBフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。したがって、「チャンネル」に与えられたのと同じ開示が、マルチシグナルオーディオ信号の「成分」または他の「信号」にも有効である。
時間領域の過渡検出器、ウィンドウ化、MDCT、MDST、およびOLAの処理ブロックは、[8]で説明されている。MDCTおよびMDSTは、変調複素ラップ変換(Modulated Complex Lapped Transform)(MCLT)を形成し、MDCTおよびMDSTを別々に実行することは、MCLTを実行することと同等であり、「MCLTからMDCTへ」は、MCLTのMDCT部分のみを取ってMDSTを破棄することを表す。
時間ノイズシェーピング(TNS)は、[8]で説明されたのと同様に行われるが、TNSおよび周波数領域ノイズシェーピング(FDNS)の順序が適応的であることが追加されている。図中の2つのTNSボックスの存在は、FDNSおよびTNSの順序を変更する可能性として理解されるべきである。FDNSおよびTNSの順序の決定は、たとえば[9]で説明されているものであり得る。
周波数領域ノイズシェーピング(FDNS)、およびFDNSパラメータの計算は、[9]で説明された手順と類似している。1つ違うのは、TNSが非アクティブであるフレームのFDNSパラメータが、MCLTスペクトルから計算されることである。TNSがアクティブなフレームでは、MDSTスペクトルは、MDCTスペクトルから推定される。
図1は、個別に前処理された白色化信号180を取得するために少なくとも3つのオーディオ信号の白色化を実行する信号プロセッサ100の好適な実装形態を示す。信号プリプロセッサ100は、チャンネルkの時間領域入力信号のための入力を含む。この信号は、ウィンドワ(windower)102、過渡検出器104、およびLTPパラメータ計算機106に入力される。過渡検出器104は、入力信号の現在の部分が過渡であるか否かを検出し、これが確認された場合、過渡検出器104は、より短いウィンドウ長を設定するように、ウィンドワ102を制御する。ウィンドウ表示、すなわちどのウィンドウ長が選択されたのかも、サイド情報、特に図5bの前処理サイド情報520に含まれる。加えて、ブロック106によって計算されたLTPパラメータもまたサイド情報ブロックに導入され、これらのLTPパラメータは、たとえば、復号化信号のある種の後処理または当該技術分野で知られる他の手順を実行するために使用され得る。ウィンドワ140は、時間スペクトル変換器108に導入されるウィンドウ化された時間領域フレームを生成する。時間スペクトル変換器108は好ましくは、複素ラップ変換を実行する。この複素ラップ変換から、ブロック112に示されるように、MDCT変換の結果を得るために、実数部が導出され得る。ブロック112の結果、すなわちMDCTスペクトルは、TNSブロック114a、および引き続き結合されたFDNSブロック116に入力される。あるいは、TNSブロック114aなしにFDNSのみが実行されるか、またはその逆、またはブロック114bによって示されるように、FDNS処理に続いてTNS処理が実行される。典型的には、ブロック114aまたはブロック114bのいずれかが存在する。ブロック114bの出力では、ブロック114aが存在しないとき、またはブロック114bが存在しないときにはブロック116の出力で、白色化されて個別に処理された信号、すなわち前処理済み信号が、各チャンネルkについて取得される。TNSブロック114aまたは114bおよびFDNSブロック116は、前処理情報を生成し、サイド情報520に転送する。
いかなる場合も、ブロック108内で複素変換を行う必要はない。加えて、MDCTのみを実行する時間スペクトル変換器もまた、特定のアプリケーションには十分であり、変換の虚数部が必要な場合には、場合により、この虚数部もまた実数部から推定され得る。TNS/FDNS処理の特徴は、TNSが非アクティブである場合、FDNSパラメータが複素スペクトルから、すなわちMCLTスペクトルから計算され、TNSがアクティブなフレームでは、MDSTスペクトルがMDCTスペクトルから推定されるため、周波数領域ノイズシェーピング操作で常に完全な複素スペクトルが利用できることである。
ジョイントチャンネル符号化システムの説明
記載されたシステムでは、各チャンネルが白色化されたMDCT領域に変換された後、[6]に記載されたアルゴリズムに基づいて、ジョイント符号化のための任意のチャンネル間の様々な類似性の信号適応型の活用が適用される。この手順から、それぞれのチャンネルペアが検出され、帯域ごとのM/S変換を使用して共同で符号化されるように選択される。
記載されたシステムでは、各チャンネルが白色化されたMDCT領域に変換された後、[6]に記載されたアルゴリズムに基づいて、ジョイント符号化のための任意のチャンネル間の様々な類似性の信号適応型の活用が適用される。この手順から、それぞれのチャンネルペアが検出され、帯域ごとのM/S変換を使用して共同で符号化されるように選択される。
符号化システムの概要が、図2に示されている。簡単にするために、ブロック矢印はシングルチャンネル処理を表し(すなわち、処理ブロックは各チャンネルに適用される)、「MDCT領域分析」のブロックは、図1に詳細に示されている。
以下の段落では、フレームごとに適用されるアルゴリズムの個々のステップが詳細に記載される。記載されるアルゴリズムのデータフローグラフは、図3に示されている。
システムの初期構成では、どのチャンネルでマルチチャンネルジョイント符号化ツールがアクティブになるかを示すチャンネルマスクがあることに、留意すべきである。したがって、LFE(低周波効果(Low-Frequency Effect)/強調(Enhancement))チャンネルが存在する入力では、これらはツールの処理ステップにおいて考慮されない。
平均エネルギーに向けた全チャンネルのエネルギー正規化
M/S変換は、ILDが存在する場合、つまりチャンネルがパンされている場合には、効率的ではない。全てのチャンネルの知覚的に白色化されたスペクトルの振幅を平均エネルギーレベル
に正規化することによって、この問題を回避する。
M/S変換は、ILDが存在する場合、つまりチャンネルがパンされている場合には、効率的ではない。全てのチャンネルの知覚的に白色化されたスペクトルの振幅を平均エネルギーレベル
に正規化することによって、この問題を回避する。
・平均エネルギーを計算する。
・各チャンネルのスペクトルを平均エネルギーに向けて正規化する。
(ダウンスケーリング)の場合、
ここで、
はスケーリング比。スケーリング比は均一に量子化され、サイド情報ビットとしてデコーダに送信される。
ここで、
次に、スペクトルが最終的にスケーリングされる量子化スケーリング比は、以下によって与えられる。
(アップスケーリング)の場合、
および
ここで、
は前の場合と同様に計算される。
・各チャンネルのスペクトルを平均エネルギーに向けて正規化する。
(ダウンスケーリング)の場合、
ここで、
はスケーリング比。スケーリング比は均一に量子化され、サイド情報ビットとしてデコーダに送信される。
ここで、
次に、スペクトルが最終的にスケーリングされる量子化スケーリング比は、以下によって与えられる。
(アップスケーリング)の場合、
および
ここで、
は前の場合と同様に計算される。
デコーダでダウンスケーリング/アップスケーリングを行うかどうか区別するため、および正規化を復帰させるために、各チャンネルの
値に加えて、1ビットフラグ(0=ダウンスケーリング/1=アップスケーリング)が送信される。
は送信されて量子化されたスケーリング値
に使用されるビット数を示し、この値はエンコーダおよびデコーダに知られており、符号化オーディオ信号で送信される必要はない。
値に加えて、1ビットフラグ(0=ダウンスケーリング/1=アップスケーリング)が送信される。
は送信されて量子化されたスケーリング値
に使用されるビット数を示し、この値はエンコーダおよびデコーダに知られており、符号化オーディオ信号で送信される必要はない。
全ての可能なチャンネルペアの正規化されたチャンネル間相互相関値の計算
このステップでは、どのチャンネルペアが最も高い類似度を有し、したがってステレオジョイント符号化のためのペアとして選択されるのに適しているかを決定および選択するために、各可能なチャンネルペアのチャンネル間で正規化された相互相関値が計算される。各チャンネルペアの正規化相互相関値は、相互スペクトルによって以下のように与えられる。
ここで、
はフレームごとのスペクトル計数の総数、
および
は検討中のチャンネルペアのそれぞれのスペクトル。
このステップでは、どのチャンネルペアが最も高い類似度を有し、したがってステレオジョイント符号化のためのペアとして選択されるのに適しているかを決定および選択するために、各可能なチャンネルペアのチャンネル間で正規化された相互相関値が計算される。各チャンネルペアの正規化相互相関値は、相互スペクトルによって以下のように与えられる。
ここで、
はフレームごとのスペクトル計数の総数、
および
は検討中のチャンネルペアのそれぞれのスペクトル。
図1に見られるように、過渡検出器に応じて、異なるブロックサイズ(たとえば、10または20msのウィンドウブロックサイズ)を有することができる。したがって、チャンネル間相互相関は、両方のチャンネルのスペクトル分解能は同じであると仮定して計算される。それ以外の場合には、値は0に設定されるため、ジョイント符号化にこのようなチャンネルペアは確実に選択されない。
各チャンネルペアを一意に表すためのインデックス付けスキームが使用される。6つの入力チャンネルにインデックス付けするためのこのようなスキームの例が、図4に示されている。
チャンネルペアをデコーダに信号送信するためにも使用されるのと同じインデックス付けスキームが、アルゴリズム全体を通じて維持される。1つのチャンネルを信号送信するために必要なビット数の量は、
チャンネルペア選択および共同で符号化されたステレオ処理
相互相関ベクトルを計算した後、ジョイント符号化のために検討すべき最初のチャンネルペアは、それぞれ最も高い相互相関値、および好ましくは0.3の最小値閾値を有するものである。
チャンネルペア選択および共同で符号化されたステレオ処理
相互相関ベクトルを計算した後、ジョイント符号化のために検討すべき最初のチャンネルペアは、それぞれ最も高い相互相関値、および好ましくは0.3の最小値閾値を有するものである。
選択されたチャンネルのペアは、ステレオ符号化手順、すなわち帯域ごとのM/S変換への入力として機能する。各スペクトル帯域について、チャンネルがM/Sまたは離散L/R符号化のどちらを使用して符号化されるかの決定は、各々の場合の推定ビットレートに依存する。ビットに関して要求の少ない符号化方法が選択される。この手順は、[7]に詳細に記載されている。
このプロセスの出力は、選択されたチャンネルペアのチャンネルの各々のために更新されたスペクトルをもたらす。また、このチャンネルペアに関してデコーダと共有する必要がある情報(サイド情報)が作成され、すなわちどのステレオモードが選択されるか(フルM/S、デュアルモノ、または帯域ごとM/S)、および帯域ごとM/Sが選択されたモードである場合、M/S符号化が選択されるか(1)またはL/R符号化が選択されるか(0)を示すそれぞれのマスクが作成される。
次のステップでは、アルゴリズムの2つのバリエーションがある。
・カスケードチャンネルペアツリー
このバリエーションでは、相互相関ベクトルは、選択されたチャンネルペアの変更されたスペクトル(M/S変換を有する場合)の影響を受けるチャンネルペアに更新される。たとえば、6つのチャンネルの場合、選択および処理されたチャンネルペアが図4において0でインデックス付けされた場合、つまりチャンネル0をチャンネル1で符号化した場合には、ステレオ処理の後、影響を受けたチャンネルペアの相互相関を、すなわちインデックス0、1、2、3、4、5、6、7、8で再計算する必要が出てくる。
このバリエーションでは、相互相関ベクトルは、選択されたチャンネルペアの変更されたスペクトル(M/S変換を有する場合)の影響を受けるチャンネルペアに更新される。たとえば、6つのチャンネルの場合、選択および処理されたチャンネルペアが図4において0でインデックス付けされた場合、つまりチャンネル0をチャンネル1で符号化した場合には、ステレオ処理の後、影響を受けたチャンネルペアの相互相関を、すなわちインデックス0、1、2、3、4、5、6、7、8で再計算する必要が出てくる。
次に、前述のように手順が続けられる。最大相互相関を有するチャンネルペアを選択し、最小閾値を上回ることを確認し、ステレオ操作を適用する。これは、前のチャンネルペアの一部であったチャンネルが、新しいチャンネルペアへの入力として機能するために再選択され得ることを意味し、これを「カスケード」という。これは、チャンネルペアの出力と空間領域において異なる方向を表す別の任意のチャンネルとの間にまだ相関が残っているために起こる可能性がある。当然ながら、同じチャンネルペアが2回選択されてはならない。
・簡略化されたツリー
カスケードチャンネルペアツリープロセスは、全ての任意のチャンネルの相関を取り除き、最大のエネルギー圧縮を提供しようとするので、理論的には最適である。他方で、選択されるチャンネルペアの数が
を超える可能性があるためかなり複雑になり、結果的に計算がさらに複雑になり(ステレオ操作のM/S決定プロセスに起因する)、各チャンネルペアについてデコーダに送信される必要がある追加のメタデータも生じる。
カスケードチャンネルペアツリープロセスは、全ての任意のチャンネルの相関を取り除き、最大のエネルギー圧縮を提供しようとするので、理論的には最適である。他方で、選択されるチャンネルペアの数が
を超える可能性があるためかなり複雑になり、結果的に計算がさらに複雑になり(ステレオ操作のM/S決定プロセスに起因する)、各チャンネルペアについてデコーダに送信される必要がある追加のメタデータも生じる。
簡略化されたツリーのバリエーションでは、「カスケード」が許容されていない。これは、上記のプロセスから、相互相関ベクトルを更新している間、前のチャンネルペアステレオ操作の影響を受けたチャンネルペアの値が再計算されず、0に設定されるときに、保証される。したがって、チャンネルのうちの1つが既に既存のチャンネルペアの一部であったチャンネルペアを選択することはできない。
これは、図2の「適応型ジョイントチャンネル処理」を説明するバリエーションである。
選択されたチャンネルペアのステレオ操作がチャンネルのスペクトルを変化させない場合があり得ることに留意すべきである。これは、M/S決定アルゴリズムが符号化モードを「デュアルモノ」にすると決定したときに起こる。この場合、関係する任意のチャンネルは、別々に符号化されるので、もはやチャンネルペアと見なされない。また、相互相関ベクトルを更新しても効果はない。プロセスを継続するために、次に高い値を有するチャンネルペアが検討される。この場合のステップは、上記のように続けられる。
前のフレームのチャンネルペア選択(ステレオツリー)を維持
多くの場合、フレームごとの任意のチャンネルペアの正規化相互相関値は近い可能性があり、そのため選択は、この近い値の間で頻繁に切り替わる可能性がある。これにより、チャンネルペアツリー切り換えが頻繁に発生し、その結果、出力システムの可聴性が不安定になり得る。したがって、信号の著しい変化があり、任意のチャンネル間の類似性が変化するときにのみ新しいチャンネルペアのセットが選択される、安定化機構を使用することが選択される。これを検出するために、現在のフレームの相互相関ベクトルが前のフレームのベクトルと比較され、特定の閾値よりも差が大きいときに、新しいチャンネルペアの選択が許可される。
多くの場合、フレームごとの任意のチャンネルペアの正規化相互相関値は近い可能性があり、そのため選択は、この近い値の間で頻繁に切り替わる可能性がある。これにより、チャンネルペアツリー切り換えが頻繁に発生し、その結果、出力システムの可聴性が不安定になり得る。したがって、信号の著しい変化があり、任意のチャンネル間の類似性が変化するときにのみ新しいチャンネルペアのセットが選択される、安定化機構を使用することが選択される。これを検出するために、現在のフレームの相互相関ベクトルが前のフレームのベクトルと比較され、特定の閾値よりも差が大きいときに、新しいチャンネルペアの選択が許可される。
相互相関ベクトルの時間の変動は、以下のように計算される。
の場合には、前のステップで説明されたように、共同で符号化される新しいチャンネルペアの選択が許可される。選択された閾値は、
他方で、差が小さい場合には、前のフレームと同じチャンネルペアツリーが使用される。所与のチャンネルペアごとに、前述のように帯域ごとのM/S操作が適用される。しかしながら、所与のチャンネルペアの正規化相互相関値が0.3の閾値を上回らない場合には、新しいツリーを作成する新しいチャンネルペアの選択が開始される。
の場合には、前のステップで説明されたように、共同で符号化される新しいチャンネルペアの選択が許可される。選択された閾値は、
他方で、差が小さい場合には、前のフレームと同じチャンネルペアツリーが使用される。所与のチャンネルペアごとに、前述のように帯域ごとのM/S操作が適用される。しかしながら、所与のチャンネルペアの正規化相互相関値が0.3の閾値を上回らない場合には、新しいツリーを作成する新しいチャンネルペアの選択が開始される。
シングルチャンネルのエネルギーを復帰
チャンネルペア選択のための反復プロセスの終了後に、いずれのチャンネルペアの一部でなく、そのため別々に符号化されるチャンネルが存在する場合がある。これらのチャンネルでは、平均エネルギーレベルに向けたエネルギーレベルの初期の正規化が、元のエネルギーレベルに戻される。アップスケーリングまたはダウンスケーリングを信号送信するフラグに応じて、これらのチャンネルのエネルギーは、量子化スケーリング比の逆数
を使用して復帰される。
チャンネルペア選択のための反復プロセスの終了後に、いずれのチャンネルペアの一部でなく、そのため別々に符号化されるチャンネルが存在する場合がある。これらのチャンネルでは、平均エネルギーレベルに向けたエネルギーレベルの初期の正規化が、元のエネルギーレベルに戻される。アップスケーリングまたはダウンスケーリングを信号送信するフラグに応じて、これらのチャンネルのエネルギーは、量子化スケーリング比の逆数
を使用して復帰される。
マルチチャンネル処理のためのIGF
IGF分析に関しては、ステレオチャンネルペアの場合、[10]に完全に記載されるように、追加のジョイントステレオ処理が適用される。これが必要なのは、IGFスペクトルの特定の目標範囲では、信号が、相関性の高いパンされた音源であり得るからである。この特定の領域のために選択されたソース領域がうまく相関していない場合、エネルギーが目標領域で一致していても、相関していないソース領域のため、空間像が損なわれる可能性がある。
IGF分析に関しては、ステレオチャンネルペアの場合、[10]に完全に記載されるように、追加のジョイントステレオ処理が適用される。これが必要なのは、IGFスペクトルの特定の目標範囲では、信号が、相関性の高いパンされた音源であり得るからである。この特定の領域のために選択されたソース領域がうまく相関していない場合、エネルギーが目標領域で一致していても、相関していないソース領域のため、空間像が損なわれる可能性がある。
したがって、コア領域のステレオモードがIGF領域のステレオモードとは異なる場合、またはコアのステレオモードが帯域ごとM/Sとしてフラグが立てられている場合、チャンネルペアごとにステレオIGFが適用される。これらの条件が該当しない場合には、シングルチャンネルIGF分析が実行される。チャンネルペア内に共同で符号化されていないシングルチャンネルがある場合には、これらもまたシングルチャンネルIGF分析を受ける。
各チャンネルのスペクトルを符号化するために利用可能なビットの分布
ジョイントチャンネルペアステレオ処理のプロセスの後、各チャンネルは、エントロピーコーダによって別々に量子化および符号化される。したがって、チャンネルごとに利用可能なビット数が付与されるべきである。このステップでは、処理されたチャンネルのエネルギーを使用して、利用可能な総ビットが各チャンネルに分布される。
ジョイントチャンネルペアステレオ処理のプロセスの後、各チャンネルは、エントロピーコーダによって別々に量子化および符号化される。したがって、チャンネルごとに利用可能なビット数が付与されるべきである。このステップでは、処理されたチャンネルのエネルギーを使用して、利用可能な総ビットが各チャンネルに分布される。
各チャンネルのエネルギーは、その計算が正規化ステップで上述されているが、ジョイント処理のため各チャンネルが変化している可能性があるので、スペクトルとして再計算される。新しいエネルギーは、
で表される。最初のステップとして、ビットを分布させるエネルギーベースの比が計算される。
ここで、入力がLFEチャンネルからも構成されている場合、比の計算では考慮されないことに留意すべきである。LFEチャンネルでは、チャンネルが非ゼロのコンテンツを有する場合にのみ、最小量のビット
が割り当てられる。比は均等に量子化される。
量子化された比
は、送信されたチャンネルスペクトル係数を読み取るために各チャンネルに同じ量のビットを割り当てるためにデコーダから使用されるビットストリーム内に格納される。
で表される。最初のステップとして、ビットを分布させるエネルギーベースの比が計算される。
ここで、入力がLFEチャンネルからも構成されている場合、比の計算では考慮されないことに留意すべきである。LFEチャンネルでは、チャンネルが非ゼロのコンテンツを有する場合にのみ、最小量のビット
が割り当てられる。比は均等に量子化される。
量子化された比
は、送信されたチャンネルスペクトル係数を読み取るために各チャンネルに同じ量のビットを割り当てるためにデコーダから使用されるビットストリーム内に格納される。
ビット分布スキームは、以下に記載される。
・チャンネルごとに、エントロピーコーダ
によって必要とされる最小量のビットを割り当てる
・残りのビット、すなわち
が、量子化された比
を使用して分割される。
・量子化された比のため、ビットはほぼ分散され、したがって
であり得る。そのため、第2の改良ステップで、差
がチャンネルビット
から比例的に減算される。
・改良ステップの後、
と比較してまだ
の不一致がある場合には、その差(通常は非常に少ないビット)が最大エネルギーを有するチャンネルに寄付される。
によって必要とされる最小量のビットを割り当てる
・残りのビット、すなわち
が、量子化された比
を使用して分割される。
・量子化された比のため、ビットはほぼ分散され、したがって
であり得る。そのため、第2の改良ステップで、差
がチャンネルビット
から比例的に減算される。
・改良ステップの後、
と比較してまだ
の不一致がある場合には、その差(通常は非常に少ないビット)が最大エネルギーを有するチャンネルに寄付される。
各チャンネルのスペクトル係数を復号化するために読み取られるビットの量を決定するために、デコーダから全く同じ手順が続けられる。
はビット分布情報
に使用されるビット数を示し、この値は、エンコーダおよびデコーダに知られており、符号化オーディオ信号で送信される必要がない。
はビット分布情報
に使用されるビット数を示し、この値は、エンコーダおよびデコーダに知られており、符号化オーディオ信号で送信される必要がない。
各チャンネルの量子化および符号化
量子化、ノイズ充填、およびレートループを含むエントロピー符号化は、[8]に記載されるとおりである。レートループは、推定された
を使用して最適化されることが可能である。パワースペクトルP(MCLTの大きさ)は、[8]に記載されるように、量子化およびインテリジェントギャップ充填(IGF)の調性/ノイズ測定に使用される。白色化されて帯域ごとにM/S処理されたMDCTスペクトルがパワースペクトルに使用されるため、MDSTスペクトルに対して同じFDNSおよびM/S処理が行われなければならない。MDCTに対して行われたのと同じILDに基づく正規化スケーリングがMDSTスペクトルにも行われなければならない。TNSがアクティブなフレームでは、パワースペクトル計算に使用されるMDSTスペクトルは、白色化およびM/S処理されたMDCTスペクトルから推定される。
量子化、ノイズ充填、およびレートループを含むエントロピー符号化は、[8]に記載されるとおりである。レートループは、推定された
を使用して最適化されることが可能である。パワースペクトルP(MCLTの大きさ)は、[8]に記載されるように、量子化およびインテリジェントギャップ充填(IGF)の調性/ノイズ測定に使用される。白色化されて帯域ごとにM/S処理されたMDCTスペクトルがパワースペクトルに使用されるため、MDSTスペクトルに対して同じFDNSおよびM/S処理が行われなければならない。MDCTに対して行われたのと同じILDに基づく正規化スケーリングがMDSTスペクトルにも行われなければならない。TNSがアクティブなフレームでは、パワースペクトル計算に使用されるMDSTスペクトルは、白色化およびM/S処理されたMDCTスペクトルから推定される。
図2は、エンコーダ、特に図2の適応ジョイント信号プロセッサ200の好適な実装形態のブロック図を示す。少なくとも3つの前処理済みオーディオ信号180は全てエネルギー正規化ブロック210に入力され、これはその出力において、一方では量子化された比、および他方ではアップスケーリングまたはダウンスケーリングを示す各チャンネルのフラグからなるチャンネルエネルギー比サイドビット534を生成する。しかしながら、アップスケーリングまたはダウンスケーリングの明示的なフラグのない他の手順も実行され得る。
正規化されたチャンネルは、相互相関ベクトル計算およびチャンネルペア選択を実行するために、ブロック220に入力される。好ましくはカスケードされたフルツリーまたはカスケードおよび簡略化されたツリー処理を使用する反復的な手順であるか、あるいは非反復的な非カスケード処理である、ブロック220の手順に基づいて、対応するステレオ操作がブロック240で実行され、これは、全帯域または帯域ごとのミッド/サイド処理、もしくは回転、スケーリング、任意の重み付きまたは重みなしの線形または非線形の組み合わせなどのようなその他任意の対応するステレオ処理操作を実行し得る。
ブロック240の出力において、ステレオインテリジェントギャップ充填(IGF)処理、もしくはスペクトル帯域複製処理または高調波帯域処理などのようなその他任意の帯域幅拡張処理が実行され得る。個々のチャンネルペアの処理は、チャンネルペアサイド情報ビットを介して信号送信され、図2には示されていないが、ブロック260によって生成されたIGFまたは一般的な帯域幅拡張パラメータもまた、ジョイント処理サイド情報530のため、特に図5bのペアワイズ処理サイド情報532のためのビットストリームに書き込まれる。
図2の最終段は、たとえば図9に関して説明されたようにビット割り当てを計算するチャンネルビット分布プロセッサ280である。図2は、チャンネルビットレートサイド情報530によって制御されている量子化器および符号化器としての信号エンコーダ300と、さらに、信号エンコーダ300の結果と図5bの全ての必要なサイド情報ビット520、530とを組み合わせる出力インターフェース400またはビットストリームライタ400との概略図を示す。
図3は、ブロック210、220、240によって実行される実質的な手順の好適な実装形態を示す。手順の開始に続いて、図2または図3の210で示されるように、ILD正規化が実行される。ステップ221で、相互相関ベクトルが計算される。相互相関ベクトルは、ブロック210によって出力された0からNまでのチャンネルの各可能なチャンネルペアの正規化相互相関値からなる。たとえば、6つのチャンネルがある図4では、0から14までの15の異なる可能性を調べることができる。相互相関ベクトルの最初の要素は、チャンネル0とチャンネル1との間の相互相関値を有し、たとえば、インデックス11を有する相互相関ベクトルの要素は、チャンネル2とチャンネル5との間の相互相関を有する。
ステップ222では、前のフレームで決定されたツリーが維持されるべきか否かを決定するために、計算が実行される。この目的のために、相互相関ベクトルの時間の変動が計算され、好ましくは、相互相関ベクトルの個々の差の合計、特に差の大きさが計算される。ステップ223では、差の合計が閾値よりも大きいか否かが判定される。該当する場合には、ステップ224で、フラグkeepTreeが0に設定され、これは、ツリーは維持されないが、新しいツリーが計算されることを意味する。しかしながら、合計が閾値未満であると判定されたときは、前のフレームから決定されたツリーが現在のフレームにも適用されるように、ブロック225はフラグkeepTree=1を設定する。
ステップ226で、反復終了基準がチェックされる。最大数のチャンネルペア(CP)に到達していないと判定された場合、これは当然ながらブロック226に初めてアクセスした場合であり、さらにフラグkeepTreeがブロック228によって決定されたように0に設定されるとき、手順は、相互相関ベクトルからの最大相互相関を有するチャンネルペアの選択のためのブロック229に進む。しかしながら、以前のフレームのツリーが維持されるとき、すなわちブロック225でチェックされたようにkeepTreeが1に等しいとき、ブロック230は、「強制された」チャンネルペアの相互相関が閾値よりも大きいか否かを判定する。これが該当しない場合、手順はステップ227に進み、これは、それでもなお、ブロック223の手順が逆に判定したものの、新しいツリーが決定されるべきであることを意味する。ブロック230の評価、およびブロック227の対応する結果は、ブロック223および225での決定を覆す可能性がある。
ブロック231において、最大相互相関を有するチャンネルペアが0.3を上回るか否かが判定される。これが該当する場合、ブロック232のステレオ操作が実行され、これは図2の240としても示されている。ブロック233で、ステレオ操作がデュアルモノであったと判定されると、0に等しい値keepTreeがブロック234で設定される。しかしながら、ステレオモードがデュアルモノと異なっていたと判定されると、ミッド/サイド操作が実行されており、処理のためにステレオ操作ブロック240(または232)の出力が異なるので、相互相関ベクトル235は再計算される必要がある。CCベクトル235の更新は、実際にミッド/サイドステレオ操作、または一般にデュアルモノとは異なるステレオ操作があったときにのみ、必要である。
しかしながら、ブロック226のチェックまたはブロック231のチェックの結果が「いいえ」の回答をもたらすとき、シングルチャンネルが存在するか否かをチェックするために、制御はブロック236に進む。これが該当する場合、すなわちチャンネルペア処理で他のチャンネルと共に処理されていないシングルチャンネルが見つかった場合、ブロック237においてILD正規化が反転される。あるいは、ブロック237における反転は、部分反転に過ぎない可能性があり、またはある種の重み付けであり得る。
反復が完了している場合、ならびにブロック236および237も完了している場合、手順は終了し、全てのチャンネルペアが処理されており、適応ジョイント信号プロセッサの出力において、ブロック236が「いいえ」の回答をもたらす場合には、少なくとも3つの共同で処理された信号があり、ブロック236が「はい」の回答をもたらした場合には、少なくとも2つの共同で処理された信号、および「シングルチャンネル」に対応する未処理の信号がある。
復号化システムの説明
復号化プロセスは、共同で符号化されたチャンネルのスペクトルの復号化および逆量子化で始まり、[11]または[12]の6.2.2.「MDCTベースのTCX」に記載されるように、ノイズ充填がこれに続く。各チャンネルに割り当てられたビット数は、ビットストリームに符号化された、ウィンドウ長、ステレオモード、およびビットレート比
に基づいて決定される。各チャンネルに割り当てられたビット数は、ビットストリームを完全に復号化する前にわかっていなければならない。
復号化プロセスは、共同で符号化されたチャンネルのスペクトルの復号化および逆量子化で始まり、[11]または[12]の6.2.2.「MDCTベースのTCX」に記載されるように、ノイズ充填がこれに続く。各チャンネルに割り当てられたビット数は、ビットストリームに符号化された、ウィンドウ長、ステレオモード、およびビットレート比
に基づいて決定される。各チャンネルに割り当てられたビット数は、ビットストリームを完全に復号化する前にわかっていなければならない。
インテリジェントギャップ充填(IGF)ブロックにおいて、ターゲットタイルと呼ばれる、スペクトルの特定の範囲内でゼロに量子化された線が、ソースタイルと呼ばれる、スペクトルの異なる範囲からの処理済みコンテンツで充填される。帯域ごとのステレオ処理のため、ステレオ表現(すなわち、L/RまたはM/S)は、ソースおよびターゲットタイルで異なる場合がある。優れた品質を保証するために、ソースタイルの表現がターゲットタイルの表現と異なる場合、ソースタイルは、デコーダ内のギャップ充填の前にターゲットファイルの表現に変換されるように処理される。この手順は、既に[10]に記載されている。[11]および[12]とは対照的に、IGF自体は、元のスペクトル領域ではなく白色化されたスペクトル領域で適用される。既知のステレオコーデック(たとえば、[10])とは対照的に、IGFは、白色化されてILD補正されたスペクトル領域で適用される。
ビットストリームシグナリングから、共同で符号化されたチャンネルペアがあるかどうかもわかる。逆処理は、各チャンネルの元の白色化されたスペクトルに変換するために、特にカスケードチャンネルペアツリーでは、エンコーダで形成された最後のチャンネルペアで始まる。各チャンネルペアについて、ステレオモードおよび帯域ごとのM/Sの決定に基づいて、逆ステレオ処理が適用される。
図10は、符号化信号500を復号化するためのマルチシグナルデコーダの好適な実装形態を示す。マルチシグナルデコーダは、入力インターフェース600、入力インターフェース600によって出力された少なくとも3つの符号化信号を復号化するための信号デコーダ700を含む。マルチシグナルデコーダは、少なくとも3つの処理済み復号化信号を取得するために符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するための、ジョイント信号プロセッサ800を含む。マルチシグナルデコーダは、符号化信号に含まれるサイド情報にしたがって少なくとも3つの処理済み復号化信号を後処理するためのポストプロセッサ900を含む。特に、後処理は、後処理済み信号が後処理前の信号よりも白くなくなるように実行される。後処理済み信号は、直接的または間接的に、復号化オーディオ信号1000を表す。
入力インターフェース600によって抽出されてジョイント信号プロセッサ800に転送されたサイド情報は、図5bに示されるサイド情報530であり、脱白色化操作を実行するためにポストプロセッサ900に転送された符号化マルチシグナルオーディオ信号から入力インターフェース600によって抽出されたサイド情報は、図5bに関して図示および説明されたサイド情報520である。
ジョイント信号プロセッサ800は、入力インターフェース600から、各ジョイントステレオ復号化信号のエネルギー正規化値を抽出および受信するように構成されている。各ジョイントステレオ復号化信号のこのエネルギー正規化値は、図5bのエネルギースケーリング情報530に対応する。適応ジョイント信号プロセッサ200は、ブロック820の出力でジョイントステレオ復号化信号を取得するために、符号化オーディオ信号500に含まれるジョイントステレオサイド情報532によって示されるジョイントステレオサイド情報またはジョイントステレオモードを使用して、復号化信号をペアワイズ処理820するように構成されている。ブロック830では、図10のブロック800で処理済み復号化信号を取得するために、エネルギー正規化値を使用して、再スケーリング操作、特にジョイントステレオ復号化信号のエネルギー再スケーリングが実行される。
ブロック237で図3に関して説明されたように、逆ILD正規化を受信したチャンネルを保証するために、ジョイント信号プロセッサ800は、特定の信号の符号化信号から抽出されたエネルギー正規化値が所定の値を有するか否かをチェックするように構成されている。これが該当する場合、エネルギー再スケーリングは実行されないか、特定の信号への削減されたエネルギー再スケーリングが実行されるか、またはエネルギー正規化値がこの所定の値を有するときにこの個々のチャンネルに対するその他任意の重み付け操作が実行される。
一実施形態では、信号デコーダ700は、ブロック620に示されるように、入力インターフェース600から、各符号化信号のビット分布値を受信するように構成されている。図12の536で示されているこのビット分布値は、信号デコーダ700が使用されるビット分布を決定するように、ブロック720に転送される。好ましくは、図12のブロック720における使用されるビット分布の決定のために、図6および図9のエンコーダに関して説明されたのと同じステップ、すなわちステップ290、291、292、293が、信号デコーダ700によって実行される。ブロック710/730では、図10のジョイント信号プロセッサ800への入力を得るために、個々の復号化が実行される。
ジョイント信号プロセッサ800は、サイド情報ブロック532に含まれる特定のサイド情報を使用する、帯域複製、帯域幅拡張、またはインテリジェントギャップ充填処理機能を有する。このサイド情報はブロック810に転送され、ブロック820は、ブロック810によって適用された帯域幅拡張手順の結果を使用して、ジョイントステレオ(デコーダ)処理を実行する。ブロック810では、インテリジェントギャップ充填手順は、帯域幅拡張またはIGF処理の目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から別のステレオ表現に変換するように構成されている。目標範囲は、ミッド/サイドステレオモードを有するように示されており、ソース範囲がL/Rステレオモードを有するように示されるとき、L/Rソース範囲のステレオモードはミッド/サイドソース範囲のステレオモードに変換され、その後、ソース範囲のミッド/サイドステレオモード表現を用いてIGF処理が実行される。
図14は、ジョイント信号プロセッサ800の好適な実装形態を示す。ジョイント信号プロセッサは、ブロック630に示されるように、順序付けられた信号ペア情報を抽出するように構成されている。この抽出は、入力インターフェース600によって実行されることが可能であり、またはジョイント信号プロセッサは、この情報を入力インターフェースの出力から抽出することができ、もしくはジョイント信号プロセッサまたは信号デコーダに関して説明された他の抽出手順の場合のように、特定の入力インターフェースなしに情報を直接抽出することができる。
ブロック820で、ジョイント信号プロセッサは、最後の信号ペアで始まる、好ましくはカスケード逆処理を実行し、ここで用語「最後」は、エンコーダによって決定および実行される処理順序を指す。デコーダでは、「最後の」信号ペアは、最初に処理されるものである。ブロック820は、ブロック630に示される信号ペア情報によって示され、たとえば図4に関して説明された方法で実装された各信号ペアについて、特定のペアが、デュアルモノ、フルMS、または関連するMSマスクを有する帯域ごとのMS手順のいずれであるかを示すサイド情報532を受信する。
ブロック820の逆処理に続いて、チャンネルペアに含まれる信号の非正規化が、チャンネルごとの正規化情報を示すサイド情報534に依存して、ブロック830で再び実行される。図14のブロック830に関して示される非正規化は、好ましくは、フラグ534aが第1の値を有するときにダウンスケーリングとしてエネルギー正規化値を使用する再スケーリングであり、フラグ534aが第1の値とは異なる第2の値を有するときは、アップスケーリングとして再スケーリングを実行する。
図15aは、図10の信号デコーダおよびジョイント信号プロセッサのブロック図としての好適な実装形態を示し、図15bは、図10のポストプロセッサ900の好適な実装形態のブロック図表現を示す。
信号デコーダ700は、符号化信号500に含まれるスペクトルのためのデコーダおよび逆量子化器段710を含む。信号デコーダ700は、サイド情報として、好ましくはウィンドウ長、特定のステレオモード、および符号化信号ごとのビット割り当て情報を受信する、ビット割当器720を含む。ビット割当器720は、好適な実装形態において、特にステップ290、291、292、293を使用して、ビット割り当てを実行し、符号化信号ごとのビット割り当て情報はステップ291で使用され、ウィンドウ長およびステレオモードに関する情報は、ブロック290または291で使用される。
ブロック730において、やはり好ましくはノイズ充填サイド情報を使用するノイズ充填は、ゼロに量子化され、IGF範囲内にないスペクトルの範囲に対して実行される。ノイズ充填は、好ましくは、ブロック710によって出力された信号の低帯域部分に限定される。ブロック810では、特定のサイド情報を使用して、重要なことに白色化されたスペクトルに対して作用する、インテリジェントギャップ充填または一般に帯域幅格調処理が実行される。
ブロック820では、サイド情報を使用して、逆ステレオプロセッサは、図2のアイテム240で実行された処理を元に戻すための手順を実行する。最終的な脱スケーリングは、サイド情報に含まれるチャンネルごとの送信および量子化されたILDパラメータを使用して実行される。ブロック830の出力は、逆TNS処理および/または逆周波数領域ノイズシェーピング処理またはその他任意の脱白色化操作を実行するポストプロセッサのブロック910に入力される。ブロック910の出力は、周波数時間変換器920によって時間領域に変換される単純なスペクトルである。隣接するフレームのブロック920の出力は、最終的に、重畳操作から、多数の復号化オーディオ信号、または一般的には復号化オーディオ信号1000を取得するために、特定の符号化または復号化規則にしたがって、重畳加算プロセッサ930において重畳加算される。この信号1000は、個々のチャンネルからなってもよく、またはアンビソニックス成分などの音場表現の成分からなってもよく、またはより高次のアンビソニックス表現のその他任意の成分からなってもよい。信号はまた、音場のAフォーマットまたはBフォーマットまたはその他任意のフォーマットの表現の信号でもあり得る。これらの代替案は全て、図15bの復号化オーディオ信号1000としてまとめて示されている。
続いて、好適な実施形態のさらなる利点および特定の特長が示される。
本発明の範囲は、知覚的に白色化およびILDパラメータ補正された信号を処理するときの、[6]から原理の解決策を提供することである。
・[8]に記載されたレートループを用いるFDNSと[9]に記載されたスペクトルエンベロープワーピングとの組み合わせは、量子化ノイズおよびレートループの知覚的なシェーピングを分離させる、簡単だが非常に効果的な方法を提供する。
・FDNSで白色化されたスペクトルの全チャンネルに平均エネルギーレベルを使用することで、ジョイント符号化のために選択された各チャンネルペアについて[7]に記載されたM/S処理の利点があるか否かを決定する、簡単だが効果的な方法を可能にする。
・記載されたシステムの各チャンネルに単一の広帯域ILDを符号化するだけで十分であり、したがって、既知のアプローチとは対照的にビット節約が実現される。
・相互相関性の高い信号を用いるジョイント符号化にチャンネルペアを選択することで、通常、フルスペクトルのM/S変換をもたらし、したがって、各帯域でM/SまたはL/Rを信号送信することはほとんどの場合に完全なM/S変換を信号送信する単一ビットに置き換えられるので、さらなる平均ビット節約となる。
・処理済みチャンネルのエネルギーに基づく柔軟で単純なビット分布。
好適な実施形態の特徴
前の段落に記載されたように、この実装形態において、コーデックは、ジョイントステレオ符号化について[7]に記載される概念を導入することによって、[6]に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい手段を使用する。提案された発明の新規性は、以下の違いに要約される。
前の段落に記載されたように、この実装形態において、コーデックは、ジョイントステレオ符号化について[7]に記載される概念を導入することによって、[6]に記載されるような任意のチャンネルの信号適応型ジョイント符号化の柔軟性を融合するために、新しい手段を使用する。提案された発明の新規性は、以下の違いに要約される。
・各チャンネルペアのジョイント処理は、グローバルILD補正に関して[6]に記載されたマルチチャンネル処理とは異なる。グローバルILDは、チャンネルペアを選択してM/S決定および処理を行う前にチャンネルのレベルを均等化し、こうして、特にパンされたソースのより効率的なステレオ符号化を可能にする。
・各チャンネルペアのジョイント処理は、グローバルILD補正に関して[7]に記載されたステレオ処理とは異なる。提案されたシステムには、各チャンネルペアのグローバルILD補正がない。任意のチャンネルで[7]に記載されたM/S決定メカニズムを使用できるようにするために、全てのチャンネルを単一のエネルギーレベル、すなわち平均エネルギーレベルにする正規化がある。この正規化は、ジョイント処理のためのチャンネルペアを選択する前に行われる。
・適応型のチャンネルペア選択プロセスの後、ジョイント処理用のチャンネルペアの一部ではないチャンネルがある場合、そのエネルギーレベルは初期エネルギーレベルに戻される。
・[7]に記載されるように、エントロピー符号化のビット分布は各チャンネルペアに実装されていない。代わりに、全てのチャンネルエネルギーが考慮され、この文献のそれぞれの段落に記載されるようにビットが分散される。
・[6]に記載された適応チャンネルペア選択の明示的な「低複雑度」モードがあり、反復的なチャンネルペア選択プロセス中のチャンネルペアの一部である単一のチャンネルは、チャンネルペア選択プロセスの次の反復中の別のチャンネルペアの一部になることができない。
・各チャンネルペアで簡単な帯域ごとのM/Sを使用すること、したがってビットストリーム内で送信される必要がある情報の量を低減することの利点は、[6]の信号適応チャンネルペア選択を使用するという事実によって強化される。共同で符号化するために相関性の高いチャンネルを選択することにより、広帯域M/S変換は、ほとんどの場合に最適であり、すなわち、M/S符号化は全ての帯域で使用される。これは、単一ビットで信号送信されることが可能であり、したがって、帯域ごとのM/Sの決定と比較して必要なシグナリング情報が著しく少ない。これにより、全てのチャンネルペアについて送信される必要がある情報ビットの総量が著しく減少する。
本発明の実施形態は、知覚的に白色化されてILD補正されたスペクトルを有するマルチチャンネルシステムの信号適応型ジョイント符号化に関し、ジョイント符号化は、エントロピーコーダの推定ビット数に基づく単純な帯域ごとのM/S変換決定からなる。
いくつかの態様は装置の文脈で説明されてきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表す。方法ステップの一部または全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって(またはこれを使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちのいずれか1つ以上が、このような装置によって実行されてもよい。
本発明の符号化オーディオ信号は、デジタル記憶媒体上に記憶されることが可能であり、またはインターネットなどの無線送信媒体または有線送信媒体のような送信媒体で送信されることが可能である。
特定の実施要件に応じて、本発明の実装形態は、ハードウェアまたはソフトウェアで実装され得る。本実装形態は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働可能な)、電子可読制御信号が記憶された、フロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリなどのデジタル記憶媒体を使用して、実行され得る。したがって、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
本発明によるいくつかの実施形態は、本明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することが可能な電子的可読制御信号を有するデータキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されることが可能であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されたときに方法の1つを実行するように動作する。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。
別の実施形態は、機械可読キャリア上に記憶された、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを含む。
したがって、言い換えると、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されたときに、本明細書に記載される方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを含み、それが記録された、データキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録媒体は、典型的には有形および/または非一時的である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスはたとえば、データ通信接続を介して、たとえばインターネットを介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載される方法の1つを実行するように構成または適合された、たとえばコンピュータまたはプログラマブル論理デバイスなどの処理手段を含む。
さらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記載される方法の1つを実行するためのコンピュータプログラムを受信機に(たとえば、電子的または光学的に)送信するように構成された、装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを含んでもよい。
いくつかの実施形態では、プログラマブル論理デバイス(たとえばフィールドプログラマブルゲートアレイ)は、本明細書に記載される方法の機能の一部または全てを実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載される方法の1つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、好ましくはいずれかのハードウェア装置によって実行される。
本明細書に記載される装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実装され得る。
本明細書に記載される方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置およびコンピュータの組み合わせを使用して、実行され得る。
上記の実施形態は、本発明の原理を単に例示するものである。本明細書に記載される配置および詳細の修正および変形は、当業者にとって明らかとなることが理解される。したがって、喫緊の請求項の範囲によってのみ限定され、本明細書の実施形態の記載および説明によって提示される具体的詳細によっては限定されないことが意図される。
参考文献(全て、参照によりその全体が本明細書に組み込まれる
[1] “Information technology - MPEG audio technologies Part 3: Unified speech and audio coding,” ISO/IEC 23003-3, 2012
[1] “Information technology - MPEG audio technologies Part 3: Unified speech and audio coding,” ISO/IEC 23003-3, 2012
[2] “Information technology - MPEG audio technologies Part 1: MPEG Surround,” ISO/IEC 23003-1, 2007
[3] J. Herre, J. Hilpert, K. Achim and J. Plogsties, “MPEG-H 3D Audio-The New Standard for Coding of Immersive Spatial Audio,” Journal of Selected Topics in Signal Processing, vol. 5, no. 9, pp. 770-779, August 2015.
[4] “Digital Audio Compression (AC-4) Standard,” ETSI TS 103 190 V1.1.1, 2014-04
[5] D. Yang, H. Ai, C. Kyriakakis and C. Kuo, “High-fidelity multichannel audio coding with Karhunen-Loeve transform,” Transactions on Speech and Audio Processing, vol. 11, no. 4, pp. 365-380, July 2003.
[6] F. Schuh, S. Dick, R. Fueg, C. R. Helmrich, N. Rettelbach and T. Schwegler, “Efficient Multichannel Audio Transform Coding with Low Delay and Complexity,” in AES Convention, Los Angeles, September 20, 2016.
[7] G. Markovic, E. Fotopoulou, M. Multrus, S. Bayer, G. Fuchs, J. Herre, E. Ravelli, M. Schnell, S. Doehla, W. Jaegers, M. Dietz and C. Helmrich, “Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision”. International Patent WO2017125544A1, 27 July 2017
[8] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
[9] G. Markovic, F. Guillaume, N. Rettelbach, C. Helmrich and B. Schubert, “Linear prediction based coding scheme using spectral domain noise shaping”. EU Patent 2676266 B1, 14 February 2011
[10] S. Disch, F. Nagel, R. Geiger, B. N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler and C. Helmrich, “Audio Encoder, Audio Decoder and Related Methods Using Two-Channel Processing Within an Intelligent Gap Filling Framework”. International Patent PCT/EP2014/065106, 15 07 2014
[11] “Codec for Encanced Voice Services (EVS); Detailed algorithmic description,” 3GPP TS 26.445 V 12.5.0, December 2015
[12] “Codec for Encanced Voice Services (EVS); Detailed algorithmic description,” 3GPP TS 26.445 V 13.3.0, September 2016
[13] Sascha Dick, F. Schuh, N. Rettelbach , T. Schwegler, R. Fueg, J. Hilpert and M. Neusinger, “APPARATUS AND METHOD FOR ENCODING OR DECODING A MULTI-CHANNEL SIGNAL”. Inernational Patent PCT/EP2016/054900, 08 March 2016.
本発明は、マルチシグナル符号化効率が、元の信号ではなく前処理済みオーディオ信号に対して適応ジョイント信号処理を実行することによって実質的に改善されるという発見に基づいており、この前処理は、前処理済みオーディオ信号が、前処理前の信号に対して白色化されるように実行される。デコーダ側に関しては、これは、少なくとも3つの処理済み復号化信号を取得するために、ジョイント信号処理に続いて後処理が実行されることを意味する。これらの少なくとも3つの処理済み復号化信号は、符号化信号に含まれるサイド情報にしたがって後処理され、後処理は、後処理済み信号が後処理前の信号よりも白色度が低くなるように実行される。後処理済み信号は最終的に、直接、またはさらなる信号処理操作に続いて、復号化オーディオ信号、すなわち復号化マルチシグナルを表す。
符号化マルチシグナルオーディオ信号500のフレームの例示的な図が、図5bに示されている。図5bは、ブロック300によって生成されたとおりの個別に符号化された信号のビットストリーム部分510を示している。ブロック520は、ブロック100によって生成されて出力インターフェース400に転送された前処理サイド情報のためのものである。加えて、ジョイント処理サイド情報530が、図5aの適応ジョイント信号プロセッサ200によって生成され、図5bに示される符号化マルチシグナルオーディオ信号フレームに導入される。図5bの右側では、符号化マルチシグナルオーディオ信号の次のフレームがシリアルビットストリームに書き込まれ、図5bの左側では、符号化マルチシグナルオーディオ信号の前のフレームが書き込まれることになる。
一実施形態では、適応ジョイント信号プロセッサ200は、選択された信号ペアの各信号について、L/Rなどの全帯域分離符号化モードの必要なビットレート、M/Sなどの全帯域ジョイント符号化モードの必要なビットレート、またはM/Sなどの帯域ごとジョイント符号化モードのビットレートプラスM/Sマスクなどの帯域ごと信号送信の必要なビットを決定し、帯域の大部分が特定のモードのために決定され、全ての帯域の10%未満である帯域の少数が他の符号化モードに決定されたとき、信号ペアの全ての帯域の特定のモードとして分離符号化モードまたはジョイント符号化モードを決定し、または最も少ない量のビットを必要とする符号化モードを決定するように構成される。ここで、出力インターフェース400は、処理530に関するサイド情報に指示532を含めるように構成されており、指示532は、フレームの符号化モードマスクの代わりにフレームの全ての帯域の前記特定のモードを示す。
さらなる実施形態では、適応ジョイント信号プロセッサ200は、処理済み信号ペアの信号がさらなる信号ペア処理で選択不可能な、非カスケード信号ペア処理を適用するように構成されている。適応ジョイント信号プロセッサ200は、ペアワイズ処理のための信号ペア間の相互相関に基づいて信号ペアを選択するように構成されており、いくつかの選択された信号ペアのペアワイズ処理が並行して実行される。
一実施形態では、適応ジョイント信号プロセッサ200は、選択された信号ペアの各信号について、L/Rなどの全帯域分離符号化モードの必要なビットレート、M/Sなどの全帯域ジョイント符号化モードの必要なビットレート、またはM/Sなどの帯域ごとジョイント符号化モードのビットレートプラスM/Sマスクなどの帯域ごと信号送信の必要なビットを決定し、帯域の大部分が特定のモードのために決定され、全ての帯域の10%未満である帯域の少数が他の符号化モードに決定されたとき、信号ペアの全ての帯域の特定のモードとして分離符号化モードまたはジョイント符号化モードを決定し、または最も少ない量のビットを必要とする符号化モードを決定するように構成される。ここで、出力インターフェース400は、処理530に関するサイド情報に指示532を含めるように構成されており、指示532は、フレームの符号化モードマスクの代わりにフレームの全ての帯域の前記特定のモードを示す。
さらなる実施形態では、適応ジョイント信号プロセッサ200は、処理済み信号ペアの信号がさらなる信号ペア処理で選択不可能な、非カスケード信号ペア処理を適用するように構成されている。適応ジョイント信号プロセッサ200は、ペアワイズ処理のための信号ペア間の相互相関に基づいて信号ペアを選択するように構成されており、いくつかの選択された信号ペアのペアワイズ処理が並行して実行される。
ジョイント処理サイド情報530は、好適な実装形態では、ペアワイズ処理サイド情報532、エネルギースケーリング情報534、およびビット分布情報536を含む。ペアワイズ処理サイド情報は、チャンネルペアサイド情報ビット、フルミッド/サイドまたはデュアルモノまたは帯域ごとミッド/サイド情報および、帯域ごとミッド/サイド指示の場合、フレーム内の帯域がミッド/サイドまたはL/R処理のどちらで処理されるかを帯域ごとに示す、ミッド/サイドマスクのうちの少なくとも1つを含み得る。ペアワイズ処理サイド情報は、インテリジェントギャップ充填(IGF)、またはSBR(スペクトル帯域複製)情報などのような他の帯域幅拡張情報を追加で含み得る。
図10は、符号化信号500を復号化するためのマルチシグナルデコーダの好適な実装形態を示す。マルチシグナルデコーダは、入力インターフェース600、入力インターフェース600によって出力された少なくとも3つの符号化信号を復号化するための信号デコーダ700を含む。マルチシグナルデコーダは、少なくとも3つの処理済み復号化信号を取得するために符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するための、ジョイント信号プロセッサ800を含む。マルチシグナルデコーダは、符号化信号に含まれるサイド情報にしたがって少なくとも3つの処理済み復号化信号を後処理するためのポストプロセッサ900を含む。特に、後処理は、後処理済み信号が後処理前の信号よりも白色度が低くなるように実行される。後処理済み信号は、直接的または間接的に、復号化オーディオ信号1000を表す。
ジョイント信号プロセッサ800は、サイド情報ブロック532に含まれる特定のサイド情報を使用する、帯域複製、帯域幅拡張、またはインテリジェントギャップ充填処理機能を有する。このサイド情報はブロック810に転送され、ブロック820は、ブロック810によって適用された帯域幅拡張手順の結果を使用して、ジョイントステレオ(デコーダ)処理を実行する。ブロック810では、インテリジェントギャップ充填手順は、帯域幅拡張またはIGF処理の目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から別のステレオ表現に変換するように構成されている。目標範囲は、ミッド/サイドステレオモードを有するように示されており、ソース範囲がL/Rステレオモードを有するように示されるとき、L/Rソース範囲のステレオモードはミッド/サイドソース範囲のステレオモードに変換され、その後、ソース範囲のミッド/サイドステレオモード表現を用いてIGF処理が実行される。
一実施形態では、ジョイント信号プロセッサ800は、符号化信号から、信号ペアの時間フレームのいくつかの帯域がミッド/サイドまたは左/右符号化のどちらを使用して逆処理されるかを示すフラグを抽出するように構成されている。ジョイント信号プロセッサ800は、フラグの値に応じて、信号ペアのいくつかの帯域にまとめてミッド/サイド処理または左/右処理のどちらかを受けさせるためにこのフラグを使用するように構成されている。ここで、同じ信号ペアの異なる時間フレームについて、または同じ時間フレームの異なる信号ペアについて、符号化信号のサイド情報から各個別の帯域について個別の符号化モードを示す符号化モードマスクが抽出される。ジョイント信号プロセッサ800は、この帯域に関連するビットについて示される個別の帯域について、逆ミッド/サイド処理または左/右処理のいずれかを適用するように構成されている。
一実施形態では、ジョイント信号プロセッサ800は、符号化信号から、信号ペアの時間フレームのいくつかの帯域がミッド/サイドまたは左/右符号化のどちらを使用して逆処理されるかを示すフラグを抽出するように構成されている。ジョイント信号プロセッサ800は、フラグの値に応じて、信号ペアのいくつかの帯域にまとめてミッド/サイド処理または左/右処理のどちらかを受けさせるためにこのフラグを使用するように構成されている。ここで、同じ信号ペアの異なる時間フレームについて、または同じ時間フレームの異なる信号ペアについて、符号化信号のサイド情報から各個別の帯域について個別の符号化モードを示す符号化モードマスクが抽出される。ジョイント信号プロセッサ800は、この帯域に関連するビットについて示される個別の帯域について、逆ミッド/サイド処理または左/右処理のいずれかを適用するように構成されている。
Claims (46)
- 少なくとも3つのオーディオ信号を符号化するためのマルチシグナルエンコーダであって、
少なくとも3つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するための信号プリプロセッサ(100)であって、前記前処理は、前処理済みオーディオ信号が前処理前の前記信号に対して白色化されるように実行される、信号プリプロセッサ(100)と、
少なくとも3つの共同で処理された信号または少なくとも2つの共同で処理された信号および未処理の信号を取得するために、前記少なくとも3つの前処理済みオーディオ信号の処理を実行するための適応ジョイント信号プロセッサ(200)と、
1つ以上の符号化信号を取得するために各信号を符号化するための信号エンコーダ(300)と、
前記1つ以上の符号化信号、前記前処理に関するサイド情報、および前記処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納するための出力インターフェース(400)と
を含むマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、各前処理済みオーディオ信号が正規化されたエネルギーを有するように、前記少なくとも3つの前処理済みオーディオ信号の広帯域エネルギー正規化(210)を実行するように構成されており、
前記出力インターフェース(400)は、さらなるサイド情報として、各前処理済みオーディオ信号の広帯域エネルギー正規化値(534)を含むように構成されている、請求項1に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、
前記前処理済みオーディオ信号の平均エネルギーに関する情報を計算し(212)、
各前処理済みオーディオ信号のエネルギーに関する情報を計算し(211)、
前記平均エネルギーに関する前記情報および特定の前処理済みオーディオ信号のエネルギーに関する前記情報に基づいて前記エネルギー正規化値を計算する(213、214)
ように構成されている、請求項2に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、平均エネルギーからの特定の前処理済みオーディオ信号と前記前処理済みオーディオ信号のエネルギーとのスケーリング比(534b)を計算する(213、214)ように構成されており、
前記適応ジョイント信号プロセッサ(200)は、前記スケーリング比がアップスケーリングまたはダウンスケーリングのどちらのものかを示すフラグ(534a)を決定するように構成され、各信号の前記フラグは前記符号化信号に含まれる、
請求項1から3のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、前記スケーリングがアップスケーリングかダウンスケーリングかに関係なく、前記スケーリング比を同じ量子化範囲に量子化する(214)ように構成されている、
請求項4に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、
少なくとも3つの正規化された信号を取得するために、基準エネルギーに対して各前処理済みオーディオ信号を正規化し(210)、
前記少なくとも3つの正規化された信号のうちの可能な各ペアの正規化された信号の相互相関値を計算し(220)、
最も高い相互相関値を有する信号ペアを選択し(229)、
前記選択された信号ペアのジョイントステレオ処理モードを決定し(232a)、
処理済み信号ペアを取得するために前記決定されたジョイントステレオ処理モードにしたがって、前記選択された信号ペアをジョイントステレオ処理する(232b)
ように構成されている、請求項1から5のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)はカスケード信号ペア前処理を適用するように構成されているか、または前記適応ジョイント信号プロセッサ(200)は非カスケード信号ペア処理を適用するように構成されており、
前記カスケード信号ペア前処理において、処理済み信号ペアの前記信号は、更新された相互相関値の計算、最も高い相互相関値を有する前記信号ペアを選択すること、前記選択された信号ペアのジョイントステレオ処理モードの前記決定、および前記決定されたジョイントステレオ処理モードにしたがって前記選択された信号ペアを前記ジョイントステレオ処理することからなる、さらなる反復ステップにおいて選択可能であるか、または
前記非カスケード信号ペア処理において、処理済み信号ペアの前記信号は、前記最も高い相互相関値を有する前記信号ペアをさらに選択すること、前記選択された信号ペアのジョイントステレオ処理モードの前記決定、および前記決定されたジョイントステレオ処理モードにしたがって前記選択された信号ペアを前記ジョイントステレオ処理することにおいて選択可能ではない、
請求項6に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理手順の後に残る信号として、個別にエンコードされる前記信号を決定するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、復帰(237)などの前記ペアワイズ処理手順を実行する前に前記信号に適用されるエネルギー正規化を修正するように構成されているか、または前記ペアワイズ処理手順を実行する前に前記信号に適用されるエネルギー正規化を少なくとも部分的に復帰させる、
請求項1から7のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、前記信号エンコーダ(300)によって処理される各信号について、ビット分布情報(536)を決定するように構成されており、前記出力インターフェース(400)は、各信号について、前記ビット分布情報(536)を前記符号化信号に導入するように構成されている、
請求項1から8のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、前記信号エンコーダ(300)によって処理される各信号の信号エネルギー情報を計算し(282)、
前記信号エンコーダ(300)によって符号化される前記複数の信号の総エネルギーを計算し(284)、
前記信号エネルギー情報および前記総エネルギー情報に基づいて、各信号のビット分布情報(536)を計算する(286)ように構成されており、
前記出力インターフェース(400)は、各信号について、前記ビット分布情報を前記符号化信号に導入するように構成されている、
請求項1から9のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、各信号に初期ビット数を任意選択的に割り当て(290)、前記ビット分布情報に基づいてビット数を割り当て(291)、任意選択的に、さらなる改良ステップを実行し(292)、または任意選択的に、最終寄付ステップを実行する(292)ように構成されており、
前記信号エンコーダ(300)は、信号ごとの前記割り当てられたビットを使用して、前記信号符号化を実行するように構成されている、
請求項10に記載のマルチシグナルエンコーダ。 - 前記信号プリプロセッサ(100)は、各オーディオ信号について、
各オーディオ信号のスペクトルを取得するための時間スペクトル変換操作(108、110、112)と、
各信号スペクトルの時間ノイズシェーピング操作(114a、114b)および/または周波数領域ノイズシェーピング操作(116)と
を実行するように構成されており、
前記信号プリプロセッサ(100)は、前記時間ノイズシェーピング操作および/または前記周波数領域ノイズシェーピング操作に続いて、前記信号スペクトルを前記適応ジョイント信号プロセッサ(200)に供給するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、前記受信した信号スペクトルに対して前記ジョイント信号処理を実行するように構成されている、
請求項1から11のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、
選択された信号ペアの各信号について、L/Rなどの全帯域分離符号化モードの必要なビットレート、M/Sなどの全帯域ジョイント符号化モードの必要なビットレート、またはM/Sなどの帯域ごとジョイント符号化モードのビットレートプラスM/Sマスクなどの帯域ごと信号送信の必要なビットを決定し、
帯域の大部分が特定のモードのために決定され、全ての帯域の10%未満である前記帯域の少数が他の符号化モードに決定されたとき、信号ペアの全ての帯域の前記特定のモードとして前記分離符号化モードまたは前記ジョイント符号化モードを決定し、または最も少ない量のビットを必要とする符号化モードを決定する
ように構成されており、
前記出力インターフェース(400)は、前記符号化信号に表示を含めるように構成されており、前記表示は、フレームの符号化モードマスクの代わりに前記フレームの全ての帯域の前記特定のモードを示す、
請求項1から12のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記信号エンコーダ(300)は、個々の各信号の、または2つ以上の信号にわたる、レートループプロセッサを含み、前記レートループプロセッサは、前記特定の信号または2つ以上の信号のビット分布情報(536)を受信および使用するように構成されている、
請求項1から14のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、ジョイント符号化のための信号ペアを適応的に選択するように構成されており、または前記適応ジョイント信号プロセッサ(200)は、各選択された信号ペアについて、帯域ごとミッド/サイド符号化モード、全帯域ミッド/サイド符号化モード、または全帯域左/右符号化モードを決定するように構成されており、前記出力インターフェース(400)は、サイド情報(532)として、前記符号化マルチシグナルオーディオ信号において前記選択された符号化モードを表示するように構成されている、
請求項1から15のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、ミッド/サイドモードまたは左/右モードで符号化されたときの各帯域での推定ビットレートに基づいて、帯域ごとミッド/サイド決定対左/右決定を形成するように構成されており、最終的なジョイント符号化モードは、前記帯域ごとミッド/サイド決定対左/右決定の前記結果に基づいて決定される、
請求項1から16のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、スペクトル帯域複製処理またはインテリジェントギャップ充填処理のパラメータサイド情報を決定するために、前記スペクトル帯域複製処理または前記インテリジェントギャップ充填処理を実行する(260)ように構成されており、前記出力インターフェース(400)は、追加サイド情報として、前記スペクトル帯域複製またはインテリジェントギャップ充填サイド情報(532)を前記符号化信号に含めるように構成されている、請求項1から17のいずれか一項に記載のマルチシグナルエンコーダ。
- 前記適応ジョイント信号プロセッサ(200)は、符号化信号ペアに対してステレオインテリジェントギャップ充填処理を実行し、個別に符号化される前記少なくとも1つの信号に対して単一信号インテリジェントギャップ充填処理を実行するように構成されている、
請求項18に記載のマルチシグナルエンコーダ。 - 前記少なくとも3つのオーディオ信号は低周波強調信号を含み、前記適応ジョイント信号プロセッサ(200)は信号マスクを適用するように構成され、前記信号マスクはどの信号に対して前記適応ジョイント信号プロセッサ(200)がアクティブになるかを示しており、前記信号マスクは、前記少なくとも3つの前処理済みオーディオ信号の前記ペアワイズ処理で前記低周波強調信号が使用されるべきではないことを示す、
請求項1から19のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、信号のエネルギーに関する前記情報として、前記信号のMDCTスペクトルのエネルギーを計算するように、または
前記少なくとも3つの前処理済みオーディオ信号の平均エネルギーに関する前記情報として、前記少なくとも3つの前処理済みオーディオ信号のMDCTスペクトルの平均エネルギーを計算するように構成されている、
請求項1から5のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、特定の信号のエネルギー情報および前記少なくとも3つのオーディオ信号の平均エネルギーに関するエネルギー情報に基づいて、各信号のスケーリング因子を計算する(213)ように構成されており、
前記適応ジョイント信号プロセッサ(200)は、量子化スケーリング比値を取得するために前記スケーリング比を量子化する(214)ように構成されており、前記量子化スケーリング比値は、含まれる各信号の前記スケーリング比のサイド情報を前記符号化信号内に誘導するために使用され、
前記適応ジョイント信号プロセッサ(200)は、前記量子化スケーリング比値から量子化スケーリング比を導出するように構成されており、前記前処理済みオーディオ信号は、他の相応にスケーリングされた信号と共に前記スケーリングされた信号の前記ペアワイズ処理に使用される前に、前記量子化スケーリング比を使用してスケーリングされる、
請求項1から5のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、どの信号ペアが最も高い類似性を有するか、したがって、前記少なくとも3つの前処理済みオーディオ信号のペアワイズ処理のペアとして選択されるのに適しているかを判定および選択するために、可能な信号ペアの正規化された信号間相互相関値を計算する(221)ように構成されており、
各信号ペアの前記正規化相互相関値は相互相関ベクトルに格納され、
前記適応ジョイント信号プロセッサ(200)は、前のフレームの相互相関ベクトルを現在のフレームの前記相互相関ベクトルと比較すること(222、223)によって、1つ以上の前記前のフレームの信号ペア選択が維持されるべきか否かを決定するように構成されており、前記前のフレームの前記信号ペア選択は、前記現在のフレームの前記相互相関ベクトルと前記前のフレームの前記相互相関ベクトルとの差が所定の閾値を下回るときに維持される(225)、
請求項1から22のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記信号プリプロセッサ(100)は、複数の異なるウィンドウ長から選択された特定のウィンドウ長を使用して時間周波数変換を実行するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理される信号のペアを決定するために前記前処理済みオーディオ信号を比較するときに、前記信号のペアが同じ関連するウィンドウ長を有するか否かを決定するように構成されており、
前記適応ジョイント信号プロセッサ(200)は、2つの信号が、前記信号プリプロセッサ(100)によって適用された同じウィンドウ長に関連付けられているときにのみ、前記2つの信号のペアワイズ処理を可能にするように構成されている、
請求項1から23のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、前記処理済み信号ペアの前記信号がさらなる信号ペア処理で選択不可能な、非カスケード信号ペア処理を適用するように構成されており、前記適応ジョイント信号プロセッサ(200)は、前記ペアワイズ処理のための前記信号ペア間の相互相関に基づいて前記信号ペアを選択するように構成されており、いくつかの選択された信号ペアの前記ペアワイズ処理は並行して実行される、
請求項1から24のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、選択された信号ペアについて、ステレオ符号化モードを決定するように構成されており、前記ステレオ符号化モードがデュアルモノモードであると決定されたとき、この信号ペアに含まれる前記信号は、個別に符号化される信号として少なくとも部分的に再スケーリングおよび表示される、
請求項25に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、ペアワイズ処理済み信号ペアについて、前記コア領域のステレオモードが前記IGF領域のステレオモードとは異なる場合、または前記コアの前記ステレオモードが帯域ごとミッド/サイド符号化フラグが立てられている場合、ステレオインテリジェントギャップ充填(IGF)操作を実行するように構成されており、または
前記適応ジョイント信号プロセッサ(200)は、前記コア領域の前記ステレオモードが前記IGF領域の前記ステレオモードと異ならない場合、または前記コアの前記ステレオモードが帯域ごとミッド/サイド符号化モードとしてフラグが立てられていない場合、ペアワイズ処理済み信号ペアの信号には単一信号IGF分析を適用するように構成されている、
請求項18または19に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、前記IGF操作の結果が前記信号エンコーダ(300)によって個別に符号化される前に、インテリジェントギャップ充填操作を実行するように構成されており、
量子化およびインテリジェントギャップ充填(IGF)の調性/ノイズ決定にパワースペクトルが使用され、前記信号プリプロセッサ(100)は、MDCTスペクトルに使用されたのと同じ周波数領域ノイズシェーピングを前記MDSTスペクトルに実行されるように構成されており、
前記適応ジョイント信号プロセッサ(200)は、処理済みMDSTスペクトルの結果が前記信号エンコーダ(300)によって実行された量子化の中で、または前記適応ジョイント信号プロセッサ(200)によって実行されたインテリジェントギャップ充填処理の中で使用されるように、前処理済みMDSTスペクトルに対して同じミッド/サイド処理を実行するように構成されており、または
前記適応ジョイント信号プロセッサ(200)は、MDSTスペクトルの全帯域スケーリングベクトルに基づいて、同じ量子化されたスケーリングベクトルを使用して前記MDCTスペクトルに対して行われたのと同じ正規化スケーリングを適用するように構成されている、
請求項1から27のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記適応ジョイント信号プロセッサ(200)は、前記少なくとも3つの共同で処理された信号または少なくとも2つの共同で処理された信号および個別に符号化される信号を取得するために、前記少なくとも3つの前処理済みオーディオ信号のペアワイズ処理を実行するように構成されている、請求項1から28のいずれか一項に記載のマルチシグナルエンコーダ。
- 前記少なくとも3つのオーディオ信号の前記オーディオ信号は、オーディオチャンネルであるか、または
前記少なくとも3つのオーディオ信号の前記オーディオ信号は、アンビソニックス音場表現、Bフォーマット表現、Aフォーマット表現、または基準位置に対する音場を表現する音場表現などのその他任意の音場表現などの音場表現のオーディオ成分信号である、
請求項1から29のいずれか一項に記載のマルチシグナルエンコーダ。 - 前記信号エンコーダ(300)は、少なくとも3つの個別に符号化された信号を取得するために各信号を個別に符号化するように、または2つ以上の信号と共に(エントロピー)符号化を実行するように構成されている、
請求項1から30のいずれか一項に記載のマルチシグナルエンコーダ。 - 符号化信号を復号化するためのマルチシグナルデコーダであって、
少なくとも3つの符号化信号を復号化するための信号デコーダ(700)と、
少なくとも3つの処理済み復号化信号を取得するために前記符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するためのジョイント信号プロセッサ(800)と、
前記符号化信号に含まれるサイド情報にしたがって前記少なくとも3つの処理済み復号化信号を後処理するためのポストプロセッサ(900)であって、前記後処理は、前記後処理済み信号が前記後処理前の信号よりも白くなくなるように実行され、前記後処理済み信号は復号化オーディオ信号を表す、ポストプロセッサ(900)と
を含む、マルチシグナルデコーダ。 - 前記ジョイント信号プロセッサ(800)は、
前記符号化信号から、各ジョイントステレオ復号化信号のエネルギー正規化値を抽出する(610)ように構成されており、
ジョイントステレオ復号化信号を取得するために、前記符号化信号内のサイド情報によって示されるジョイントステレオモードを使用して、前記復号化信号をペアワイズ処理する(820)ように構成されており、
前記処理済み復号化信号を取得するために、前記エネルギー正規化値を使用して、前記ジョイントステレオ復号化信号をエネルギー再スケーリングする(830)ように構成されている、
請求項32に記載のマルチシグナルデコーダ。 - 前記ジョイント信号プロセッサ(800)は、特定の信号の前記符号化信号から抽出されたエネルギー正規化値が所定の値を有するか否かをチェックするように構成されており、
前記ジョイント信号プロセッサ(800)は、前記エネルギー正規化値が前記所定の値を有するとき、前記特定の信号に対してエネルギー再スケーリングを実行しないように、または低減されたエネルギー再スケーリングのみを実行するように構成されている、
請求項32に記載のマルチシグナルデコーダ。 - 前記信号デコーダ(700)は、
前記符号化信号から、各符号化信号のビット分布値を抽出し(620)、
信号のビット分布値、全ての信号の残りのビッの数、および、任意選択的に、さらなる改良ステップ、または、任意選択的に、最終寄付ステップを使用して、前記信号の使用されるビット分布を決定し(720)、
各信号の前記使用されるビット分布に基づいて、前記個々の復号化を実行する(710、730)
ように構成されている、請求項32から34のいずれか一項に記載のマルチシグナルデコーダ。 - 前記ジョイント信号プロセッサ(800)は、
スペクトルが強調された個々の信号を取得するために、前記符号化信号のサイド情報を使用して、前記個別に復号化された信号に対して帯域複製または帯域複製を実行し(820)、
前記スペクトルが強調された個々の信号を使用して、ジョイント処理モードにしたがってジョイント処理(820)を実行する
ように構成されている、請求項32から35のいずれか一項に記載のマルチシグナルデコーダ。 - 前記ジョイント信号プロセッサ(800)は、目標範囲が別のステレオ表現を有するように示されるとき、ソース範囲をあるステレオ表現から前記別のステレオ表現に変換するように構成されている、
請求項36に記載のマルチシグナルデコーダ。 - 前記ジョイント信号プロセッサ(800)は、
前記符号化信号から、各ジョイントステレオ復号化信号のエネルギー正規化値(534b)を抽出し、加えて、前記エネルギー正規化値がアップスケーリング値またはダウンスケーリング値のどちらであるかを示すフラグ(534a)を抽出し、
前記フラグが第1の値を有するときはダウンスケーリングとして、前記フラグが前記第1の値とは異なる第2の値を有するときはアップスケーリングとして、前記エネルギー正規化値を使用して再スケーリングを実行する(830)
ように構成されている、請求項32から37のいずれか一項に記載のマルチシグナルデコーダ。 - 前記ジョイント信号プロセッサ(800)は、
前記符号化信号から、共同符号化操作から得られる信号ペアを示すサイド情報を抽出し(630)、
各信号の元の前処理済みスペクトルに戻すために、前記符号化信号を取得するために最後の信号ペアから始めて逆ステレオまたはマルチチャンネル処理を実行し(820)、前記符号化信号のサイド情報(532)に示される前記ステレオモードおよび/または帯域ごとミッド/サイド決定に基づいて前記逆ステレオ処理を実行する
ように構成されている、請求項32から38のいずれか一項に記載のマルチシグナルデコーダ。 - 前記ジョイント信号プロセッサ(800)は、個々の各信号について含まれる量子化されたエネルギースケーリング情報に基づいて、信号ペアに含まれる全ての信号を対応する元のエネルギーレベルに非正規化する(830)ように構成されており、信号ペア処理に関与しなかった他の信号は、信号ペア処理に関与していた前記信号のようには非正規化されない、
請求項32から39のいずれか一項に記載のマルチシグナルデコーダ。 - 前記 ポストプロセッサ(900)は、各個別の処理済み復号化信号について、処理済み復号化信号、時間ノイズシェーピング操作(910)、または周波数領域ノイズシェーピング操作(910)、およびスペクトル領域から時間領域への変換(920)、ならびに後処理済み信号の後続の時間フレーム間の後続の重畳加算操作(930)を実行するように構成されている、
請求項32から40のいずれか一項に記載のマルチシグナルデコーダ。 - 前記ジョイント信号プロセッサ(800)は、前記符号化信号から、信号ペアの時間フレームのいくつかの帯域がミッド/サイドまたは左/右符号化のどちらを使用して逆処理されるかを示すフラグを抽出するように構成されており、前記ジョイント信号プロセッサ(800)は、前記フラグの前記値に応じて、前記信号ペアの前記対応する帯域にまとめてミッド/サイド処理または左/右処理のどちらかを受けさせるためにこのフラグを使用するように構成されており、
同じ信号ペアの異なる時間フレームについて、または同じ時間フレームの異なる信号ペアについて、前記符号化信号の前記サイド情報から各個別の帯域について個別の符号化モードを示す符号化モードマスクが抽出され、前記ジョイント信号プロセッサ(800)は、この帯域に関連するビットについて示される前記対応する帯域について、逆ミッド/サイド処理またはミッド/サイド処理のどちらを適用すべきかを決定するように構成されている、
請求項32から41のいずれか一項に記載のマルチシグナルデコーダ。 - 前記符号化信号は符号化マルチチャンネル信号であり、前記マルチシグナルデコーダはマルチチャンネルデコーダであり、前記符号化信号は符号化マルチチャンネル信号であり、前記信号デコーダ(700)はチャンネルデコーダであり、前記符号化信号は符号化チャンネルであり、前記ジョイント信号処理はジョイントチャンネル処理であり、前記少なくとも3つの処理済み復号化信号は少なくとも3つの処理済み復号化信号であり、前記後処理済み信号はチャンネルであり、または
前記符号化信号は、アンビソニックス音場表現、Bフォーマット表現、Aフォーマット表現、または基準位置に対する音場を表現する音場表現などのその他任意の音場表現などの音場表現のオーディオ成分信号を表す符号化多成分信号であり、前記マルチシグナルデコーダは多成分デコーダであり、前記符号化信号は符号化多成分信号であり、前記信号デコーダ(700)は成分デコーダであり、前記符号化信号は符号化成分であり、前記ジョイント信号処理はジョイント成分処理であり、前記少なくとも3つの処理済み復号化信号は少なくとも3つの処理済み復号化成分であり、前記後処理済み信号は成分オーディオ信号である、
請求項32から42のいずれか一項に記載のマルチシグナルデコーダ。 - 少なくとも3つのオーディオ信号のマルチシグナル符号化を実行する方法であって、
少なくとも3つの前処理済みオーディオ信号を取得するために各オーディオ信号を個別に前処理するステップであって、前記前処理は、前処理済みオーディオ信号が前処理前の前記信号に対して白色化されるように実行される、ステップと、
少なくとも3つの共同で処理された信号または少なくとも2つの共同で処理された信号および個別に符号化される信号を取得するために、前記少なくとも3つの前処理済みオーディオ信号の処理を実行するステップと、
1つ以上の符号化信号を取得するために各信号を符号化するステップと、
前記1つ以上の符号化信号、前記前処理に関するサイド情報、および前記処理に関するサイド情報を含む符号化マルチシグナルオーディオ信号を送信または格納するステップと
を含む方法。 - 符号化信号をマルチシグナル復号化する方法であって、
少なくとも3つの符号化信号を個別に復号化するステップと、
少なくとも3つの処理済み復号化信号を取得するために前記符号化信号に含まれるサイド情報にしたがってジョイント信号処理を実行するステップと、
前記符号化信号に含まれるサイド情報にしたがって前記少なくとも3つの処理済み復号化信号を後処理するステップであって、前記後処理は、前記後処理済み信号が前記後処理前の信号よりも白くなくなるように実行され、前記後処理済み信号は復号化オーディオ信号を表す、ステップと
を含む方法。 - コンピュータまたはプロセッサ上で実行されたときに、請求項44の方法または請求項45の方法を実行するための、コンピュータプログラム。
- 符号化信号であって、
少なくとも3つの個別に符号化された信号(510)と、
前記少なくとも3つの個別に符号化された信号を取得するために実行される前処理に関するサイド情報(520)と、
前記少なくとも3つの個別に符号化された信号を取得するために実行されるペアワイズ処理に関するサイド情報(532)と、を含み、
前記符号化信号は、マルチシグナル符号化によって得られた前記少なくとも3つの個別に符号化された信号の各々について、エネルギースケーリング値(534)、または前記個別に符号化された信号の各々について、ビット分布値(536)を含む、符号化信号。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18181767.7 | 2018-07-04 | ||
EP18181767 | 2018-07-04 | ||
PCT/EP2019/067256 WO2020007719A1 (en) | 2018-07-04 | 2019-06-27 | Multisignal audio coding using signal whitening as preprocessing |
JP2021500045A JP7384893B2 (ja) | 2018-07-04 | 2019-06-27 | マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021500045A Division JP7384893B2 (ja) | 2018-07-04 | 2019-06-27 | マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024010207A true JP2024010207A (ja) | 2024-01-23 |
Family
ID=62985884
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021500045A Active JP7384893B2 (ja) | 2018-07-04 | 2019-06-27 | マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法 |
JP2023191220A Pending JP2024010207A (ja) | 2018-07-04 | 2023-11-09 | マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021500045A Active JP7384893B2 (ja) | 2018-07-04 | 2019-06-27 | マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法 |
Country Status (17)
Country | Link |
---|---|
US (1) | US20210104249A1 (ja) |
EP (2) | EP3818520B1 (ja) |
JP (2) | JP7384893B2 (ja) |
KR (1) | KR102606259B1 (ja) |
CN (1) | CN112639967A (ja) |
AR (1) | AR116665A1 (ja) |
AU (2) | AU2019298307A1 (ja) |
BR (1) | BR112020026967A2 (ja) |
CA (1) | CA3105508C (ja) |
ES (1) | ES2971838T3 (ja) |
MX (1) | MX2020014077A (ja) |
PL (1) | PL3818520T3 (ja) |
RU (1) | RU2769788C1 (ja) |
SG (1) | SG11202012936VA (ja) |
TW (1) | TWI720530B (ja) |
WO (1) | WO2020007719A1 (ja) |
ZA (1) | ZA202100719B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11664037B2 (en) * | 2020-05-22 | 2023-05-30 | Electronics And Telecommunications Research Institute | Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same |
CN114023338A (zh) * | 2020-07-17 | 2022-02-08 | 华为技术有限公司 | 多声道音频信号的编码方法和装置 |
CN113948097A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号编码方法和装置 |
CN113948096A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号编解码方法和装置 |
CN113948095A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号的编解码方法和装置 |
KR20220151953A (ko) * | 2021-05-07 | 2022-11-15 | 한국전자통신연구원 | 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
CN115472171A (zh) * | 2021-06-11 | 2022-12-13 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序 |
WO2023113490A1 (ko) * | 2021-12-15 | 2023-06-22 | 한국전자통신연구원 | 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치 |
WO2023153228A1 (ja) * | 2022-02-08 | 2023-08-17 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、及び、符号化方法 |
GB2624890A (en) * | 2022-11-29 | 2024-06-05 | Nokia Technologies Oy | Parametric spatial audio encoding |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2676266A (en) | 1951-03-10 | 1954-04-20 | California Inst Res Found | Cloud chamber |
US7653533B2 (en) * | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
CN101115051B (zh) * | 2006-07-25 | 2011-08-10 | 华为技术有限公司 | 音频信号处理方法、系统以及音频信号收发装置 |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2676266B1 (en) | 2011-02-14 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Linear prediction based coding scheme using spectral domain noise shaping |
EP2875511B1 (en) * | 2012-07-19 | 2018-02-21 | Dolby International AB | Audio coding for improving the rendering of multi-channel audio signals |
US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
JP2015011076A (ja) * | 2013-06-26 | 2015-01-19 | 日本放送協会 | 音響信号符号化装置、音響信号符号化方法、および音響信号復号化装置 |
CA2919080C (en) * | 2013-07-22 | 2018-06-05 | Sascha Disch | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
EP2830053A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
TWI713018B (zh) * | 2013-09-12 | 2020-12-11 | 瑞典商杜比國際公司 | 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統 |
JP6392353B2 (ja) * | 2013-09-12 | 2018-09-19 | ドルビー・インターナショナル・アーベー | マルチチャネル・オーディオ・コンテンツの符号化 |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP3067889A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for signal-adaptive transform kernel switching in audio coding |
EP3067885A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
EP3067886A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
JP6721977B2 (ja) * | 2015-12-15 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声音響信号符号化装置、音声音響信号復号装置、音声音響信号符号化方法、及び、音声音響信号復号方法 |
WO2017125544A1 (en) | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision |
US10622003B2 (en) | 2018-07-12 | 2020-04-14 | Intel IP Corporation | Joint beamforming and echo cancellation for reduction of noise and non-linear echo |
-
2019
- 2019-06-27 AU AU2019298307A patent/AU2019298307A1/en not_active Abandoned
- 2019-06-27 JP JP2021500045A patent/JP7384893B2/ja active Active
- 2019-06-27 EP EP19732704.2A patent/EP3818520B1/en active Active
- 2019-06-27 PL PL19732704.2T patent/PL3818520T3/pl unknown
- 2019-06-27 SG SG11202012936VA patent/SG11202012936VA/en unknown
- 2019-06-27 KR KR1020217003630A patent/KR102606259B1/ko active IP Right Grant
- 2019-06-27 RU RU2021102388A patent/RU2769788C1/ru active
- 2019-06-27 ES ES19732704T patent/ES2971838T3/es active Active
- 2019-06-27 BR BR112020026967-0A patent/BR112020026967A2/pt unknown
- 2019-06-27 MX MX2020014077A patent/MX2020014077A/es unknown
- 2019-06-27 EP EP24153258.9A patent/EP4336497A3/en active Pending
- 2019-06-27 CA CA3105508A patent/CA3105508C/en active Active
- 2019-06-27 WO PCT/EP2019/067256 patent/WO2020007719A1/en active Application Filing
- 2019-06-27 CN CN201980056603.4A patent/CN112639967A/zh active Pending
- 2019-07-03 TW TW108123478A patent/TWI720530B/zh active
- 2019-07-04 AR ARP190101899A patent/AR116665A1/es active IP Right Grant
-
2020
- 2020-12-17 US US17/124,628 patent/US20210104249A1/en active Pending
-
2021
- 2021-02-02 ZA ZA2021/00719A patent/ZA202100719B/en unknown
-
2022
- 2022-09-20 AU AU2022235537A patent/AU2022235537B2/en active Active
-
2023
- 2023-11-09 JP JP2023191220A patent/JP2024010207A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CA3105508C (en) | 2024-03-26 |
MX2020014077A (es) | 2021-03-09 |
JP2021529354A (ja) | 2021-10-28 |
ZA202100719B (en) | 2022-08-31 |
CA3105508A1 (en) | 2020-01-09 |
AU2019298307A1 (en) | 2021-02-25 |
KR102606259B1 (ko) | 2023-11-29 |
US20210104249A1 (en) | 2021-04-08 |
PL3818520T3 (pl) | 2024-06-03 |
SG11202012936VA (en) | 2021-01-28 |
WO2020007719A1 (en) | 2020-01-09 |
EP3818520B1 (en) | 2024-01-24 |
AU2022235537B2 (en) | 2024-06-13 |
RU2769788C1 (ru) | 2022-04-06 |
TW202016924A (zh) | 2020-05-01 |
EP4336497A3 (en) | 2024-03-20 |
TWI720530B (zh) | 2021-03-01 |
JP7384893B2 (ja) | 2023-11-21 |
EP3818520C0 (en) | 2024-01-24 |
EP3818520A1 (en) | 2021-05-12 |
KR20210040974A (ko) | 2021-04-14 |
CN112639967A (zh) | 2021-04-09 |
AU2022235537A1 (en) | 2022-10-13 |
EP4336497A2 (en) | 2024-03-13 |
AR116665A1 (es) | 2021-06-02 |
ES2971838T3 (es) | 2024-06-10 |
BR112020026967A2 (pt) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7384893B2 (ja) | マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法 | |
CN112614497A (zh) | 用于编码的音频编码器及用于解码的音频解码器 | |
CN109074812B (zh) | 用于具有全局ild和改进的中/侧决策的mdct m/s立体声的装置和方法 | |
CN109074810A (zh) | 用于多声道编码中的立体声填充的装置和方法 | |
CN110998721B (zh) | 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置 | |
TWI793666B (zh) | 對多頻道音頻信號的頻道使用比例參數的聯合編碼的音頻解碼器、音頻編碼器和相關方法以及電腦程式 | |
US11527252B2 (en) | MDCT M/S stereo | |
CA3193869A1 (en) | Method and device for audio band-width detection and audio band-width switching in an audio codec | |
WO2024051955A1 (en) | Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata | |
CN116830192A (zh) | 利用自适应下混策略的沉浸式语音和音频服务(ivas) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231109 |