JP5421367B2

JP5421367B2 - 多重チャンネルオーディオデータの再構成

Info

Publication number: JP5421367B2
Application number: JP2011520560A
Authority: JP
Inventors: ダヴィド・ヴィレット; ピーリック・フィリップ
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2008-07-30
Filing date: 2009-07-03
Publication date: 2014-02-19
Anticipated expiration: 2029-07-03
Also published as: ES2387869T3; ATE557387T1; US20110129092A1; WO2010012927A1; EP2319037B1; US8867752B2; KR20110065447A; KR101590919B1; CN102138177B; EP2319037A1; CN102138177A; JP2011529579A

Description

本発明は、多重チャンネルオーディオデータの再構成のための、不完全な空間化データ（spatialization data）の隠蔽に関連する。多重チャンネルオーディオデータは、概して、少なくとも空間化データに基づいて、そして、限定された数のチャンネル上のオーディオデータ、例えばモノラルチャンネルデータに基づいて再構成される。

多重チャンネルオーディオデータは、概して、いくらかのそれぞれのオーディオトラックを対象としている。いくらかのそれぞれの音源は、サラウンド音響の錯覚を聞き手に与えるのを助けるために使用され得る。

多重チャンネルオーディオデータは、例えば、２チャンネルのステレオのデータ、または、特にホームシネマアプリケーションのための６チャンネルの５．１データを含み得る。本発明は、同様に、話し手に対応するデータが、この話し手の音声が空間の特定の位置から発生している錯覚を聞き手に与えるように空間化処理を受ける、空間化された電話会議（audio conference）の分野におけるアプリケーションを見い出すことができる。

空間化データは、より少ない数のチャンネル上のデータ、例えばモノラルチャンネルデータに基づいて多重チャンネルデータを獲得するために使用される。これらの空間化データは、例えば、経路間レベル（inter-pathway level）またはＩＬＤ（“チャンネル間レベル差：Interchannel Level Differences”）、経路間相関（inter-pathway correlations）またはＩＣＣ（“チャンネル間相互相関：Interchannel Cross Correlations”）、経路間遅延（delays between pathways）またはＩＴＤ（“チャンネル間時間差：Interchannel Time Differences”）、経路間位相差（phase differences between pathways）またはＩＰＤ（“チャンネル間位相差：Interchannel Phase Differences”）等の差異を含むことができる。

少なくともモノラルチャンネルデータ及び空間化データを含む受信されたオーディオデータが不完全である場合、すなわちいくらかのデータが欠落しているか、または誤っている場合が起こり得る。

この不完全な伝送の検出は、ＣＲＣ（周期的冗長検査：Cyclic Redundancy Check）タイプの符号を用いて実行され得る。

不完全な値を予測値と交換することによって、これらの不具合を緩和するということが知られている。これらの予測値は、既知の予測モデルに従って決定され得る。

いくらかの予測モデルが知られている。例えば、例えば線形予測等の方法に従って、予測値として、任意の値、前の値、以前に受信されたオーディオデータに基づいて決定された値が選択される。

モノラルチャンネルデータが不完全な方法で受信される場合に、不完全な値をモノラルチャンネルデータの予測値によって交換することは、概して、比較的満足できるものであるということが分かる。

しかしながら、空間化データが不完全な方法で受信される場合に、不完全な値を予測値によって交換することは、満足できないものであるということが分かる。

経時的な空間化データの強い変化は、聞き手において、音源の突然の変位の感覚として現れる。

例えば、もし不完全な値が空間化の欠如に対応する任意の値と交換されるならば、モノラルチャンネル音に戻る感覚は、特に両耳用の信号の場合は、聞き手に混乱を起こさせ得る。実際には、両耳用の信号、すなわち耳のレベルで３次元空間における忠実な再生を可能にすることは、多くの場合、空間において相対的に固定された仮想音源に対応する。

従って、多重チャンネルオーディオデータの再構成の間の空間化データの不具合の更に良い隠蔽に関する要求が存在する。

第１の特徴によれば、本発明の主題は、少なくとも限定された数のチャンネル上のデータ及び空間化データに基づいた、多重チャンネルオーディオデータの再構成のための音響データの処理方法であって、この方法は、受信されたフレームの空間化データの妥当性を検査するステップを含んでいる。もしこの検査が、これらの空間化データが有効であることを示す場合に、ａ／複数の予測モデルのそれぞれのモデルごとに、空間化値（spatialization value）がこのモデルに従って予測されると共に、ｂ／このように予測された空間化値に基づいて、そして実際に受信された空間化データに基づいて、その後の不完全な空間化データの受信が発生したら、選択された予測モデルに従って空間化値を予測すると共に、この多重チャンネルオーディオデータの再構成のためにこの予測された空間化値を使用することができるように、予測モデルが選択される。

従って、有効であると見なされた空間化データは、不完全であると見なされた空間化データの受信が発生したら、複数の予測モデルの中から利用されるべき予測モデルを選択するために使用される。内容に応じて適応できるそのような方法は、単一の予測モデルが使用される従来技術より更に満足な方法で空間化データの不具合を緩和することを可能にする。

“限定された数のチャンネル”という表現は、多重チャンネルデータのチャンネルの数より少ない数のチャンネルを意味すると理解される。例えば、限定された数のチャンネル上のデータは、モノラルチャンネルデータを含むことができる。

空間化データ、そしてより一般に受信されたオーディオデータは、伝送路から発生し得る。例えば、これらのデータは、インターネットを介して受信され得る。その代りに、受信されたオーディオデータは、記憶媒体、例えばＤＶＤ（“デジタル多用途ディスク：Digital Versatile Disk”）等から読み取られ得る。本発明は、受信されたオーディオデータの発信源によって決して制限されない。

受信されたオーディオデータは、符号化された信号、逆多重化された（demultiplexed）及び／または復号化された信号、数値等を含むことができる。

ステップ“ａ／”及び“ｂ／”は、有効であると見なされたフレームの受信の後に系統的に実行され得る。様々な処理は、従って経時的に分散される。

特に、ステップ“ａ／”及び“ｂ／”が各有効なフレームに関して実行される場合に、その後の不完全な空間化データの受信が発生したら、適用されるべき予測モデルを迅速に検索することができるように、選択された予測モデルの識別子をメモリに書き込むための対策が講じられ得る。

その代りに、ステップ“ａ／”及び／または“ｂ／”の実行は、いくらかの条件の実現に支配され得ると共に、これは、無関係な計算を実行するのを回避することを可能にし得る。

例えば、フレームが有効であると見なされる場合に、空間化データは、少なくとも一時的方法でメモリに格納される。ステップ“ａ／”及び“ｂ／”は、その後の不完全であると見なされた空間化データの受信が発生した場合にのみ、（このように格納されたデータに基づいて）実行される。これは、従って、特にステップ“ａ／”の予測を実行することを、そのようなものが必要ではない場合に回避する。

別の例によれば、有効であると見なされたフレームの受信に続いて系統的にステップ“ａ／”の予測を実行するための対策が講じられ得ると共に、一方、ステップ“ｂ／”は、不完全なフレームを受信する場合にのみ、（メモリに保持された前のフレームまたは前の複数のフレームの空間化データに基づいて）実行される。

有利に、ステップ“ｂ／”の間、それぞれ予測された空間化値は、受信された空間化データに基づいて推定された値と対比される。特に、モデルごとに、類似値を、一方では、このモデルに応じて予測された空間化値に基づいて、そして、他方では、受信された空間化データに基づいて推定された値に基づいて、計算するための対策が講じられ得る。そして、類似値が予測値と推定値との間のより大きい適合度を示す予測モデルが選択される。

推定値は、空間化データの内の１つであり得ると共に、例えば推定値は、ＩＬＤを含み得る。この場合、ステップ“ｂ／”の間に、予測された空間化値を受信された空間化データと直接比較するための対策が講じられ得る。

その代りに、推定値は、単に空間化データに由来し得る。例えば、推定値は、フレームに関するＩＬＤ及び与えられる周波数から生じる利得、そして遅延等を含み得る。この場合、ステップ“ｂ／”の間に、予測された空間化値を受信された空間化データに基づいて獲得された値と比較するための対策が講じられ得る。

有利に、少なくとも１つのモデルに関して、以前に予測された空間化値が、対応する推定値と更に対比される。従って、内容との最良適合になる予測モデルの選択が、より適切に実行され得る。

例えば、いくらかのフレーム上で受信された空間化データを使用すると共に、いくらかのフレームに関して、予測値と推定値を対比することが可能である。

特に、受信された一連のフレームのフレームごとに、そして少なくとも１つのモデルに関して、一連の空間化値が予測されるように、空間化値をこのモデルに従って予測することが可能である。このモデルに関して、類似値が、一方では、一連の予測された空間化値に基づいて、そして、他方では、一連のフレームのデータに基づいて推定された一連の値に基づいて、計算され得る。

有利に、不完全な空間化データは、この選択をゆがめることを回避するように、予測モデルの選択ステップの間に使用されないことになる。

その代りに、例えば予測モデルの選択に関して、同一のフレームにおいて受信された現在の空間化データで対処することが可能である。

データは、伝送の間に導入された劣化のせいで、もしくは、データ記憶媒体の劣化のせいで、不完全であり得る。本発明は、不具合のこの原因には制限されない。例えば、送信機または伝送ネットワークの別の構成要素が一組のデータを送信しないことを選択し得る、レイヤに階層化された伝送（または、いわゆる“スケーラブル符号化（scalable coding）”）の場合に、いくらかのデータが、受信された空間化データの中から欠落し得る。

空間化データの不完全な性質は、既知の方法に従って、例えばＣＲＣタイプの符号を用いて、検出され得る。

本発明は、選択された予測モデルの識別子のメモリへの書き込みの形式によって、決して制限されない。例えば、このモデルに対応するプログラムの全ての命令をプログラムメモリにコピーするか、もしくは、任意に揮発性のメモリに、全く単にモデル名を格納することが可能である。

ステップ“ａ／”の間、空間化値の予測は予測モデルに従って実行され、すなわち、特に、予測のために使用されるデータはモデルに従って異なり得る。例えば、任意の値を空間化値に割り当てることになるモデルに関して、予測のためのデータは必要ではない。前の空間化値を再利用するか、及び／または、前の空間化値に加重することになるモデルに関して、この前の空間化値が予測の間に使用される。

有利に、ステップ“ａ／”は、所定の周波数帯域に対応する空間化データに関して実行される。従って、様々な周波数帯域において、いくらかの予測が並列に実行され得る。実際には、ステレオ信号の場合、最も適切な予測モデルの選択は、周波数に関連し得ると共に、人は、考察された周波数帯域に従って異なる予測モデルを選択するように導かれ得る。

別の特徴によれば、本発明の主題は、命令がプロセッサによって実行された場合に上記で説明された方法を実施するためのこれらの命令を含むことを特徴とするコンピュータプログラムである。

更にもう一つの特徴によれば、本発明の特徴は、不完全な空間化データを隠蔽するための隠蔽デバイスである。このデバイスは、１つ以上のメモリを有することができると共に、それぞれの命令の組が予測モデルに対応する、複数の命令の組を格納するための記憶装置を備える。このデバイスは、更に、空間化データを受信するための受信手段を備える。検査モジュールは、受信手段によって受信された空間化データの妥当性を検査することを可能にする。検出モジュールによって有効であると検出された空間化データの受信が発生したら、推定モジュールは、記憶装置に格納された命令の組ごとに、空間化値を予測するようにこの命令の組を実行することを可能にする。選択モジュールは、推定モジュールによって予測された空間化値に基づいて、そして、受信手段によって受信された空間化データに基づいて、予測モデルを選択することを可能にする。隠蔽デバイスは、更に、検出モジュールによって不完全であると見なされた空間化データの受信が発生したら、選択モジュールによって選択されたモデルに従って空間化値を予測するように作られた予測モジュールを備える。

更にもう一つの特徴によれば、本発明の主題は、多重チャンネルオーディオデータを再構成するための装置である。この装置は、少なくとも限定された数のチャンネル上のデータ、例えばモノラルチャンネルデータに基づいて多重チャンネルオーディオデータを再構成するための多重チャンネル再構成手段を備える。この装置は、更に、上記で説明された隠蔽デバイスを備える。予測モジュールは、検出モジュールによって不完全であると見なされた空間化データの受信が発生したら、多重チャンネルオーディオデータを再構成するための多重チャンネル再構成手段に、予測された空間化値を提供するように作られている。

多重チャンネルオーディオデータを再構成するための装置は、プロセッサに統合され得るか、さもなければ、コンピュータもしくはハイファイ（Hi-Fi）システムタイプ等の装置からなり得る。

再構成装置の様々なハードウェア装置、例えば再構成手段、隠蔽デバイス、検出モジュール等は、分離していても良いし、もしくは、併合されていても良い。

代表的な会話の符号化デバイスを示す図である。本発明の一実施例による代表的な再構成装置を含む代表的な復号化デバイスを示す図である。本発明の一実施例による方法の代表的なアルゴリズムを示す図である。代表的な起こり得る利得の変化を示すグラフである。本発明の１つの特徴によるコンピュータプログラムを実行することができるデバイスを示す図である。

本発明の他の特徴及び利点は、添付された図面に対する参照と共に与えられた、以下に詳述された説明において、明白になるであろう。

１つの図面から別の図面まで、同じ参照符号は、同じであるか、もしくは類似している対象物を表示する。

図面で例証された例において、多重チャンネルオーディオデータのチャンネルの数は、ちょうど２つであるが、しかし、それについて更に多くのチャンネルを提供することは、もちろん可能である。多重チャンネルオーディオデータは、例えば６チャンネル上の５．１のデータを含むことができる。本発明は、更に、空間化された電話会議の分野におけるアプリケーションを見い出すことができる。

特に、ＭＰＥＧサラウンド標準（MPEG Surround standard）に対する参照が行われ得ると共に、すなわち、２を超える経路を生み出すために、ツリー構造が、使用されるか、もしくはシミュレートされ得る。

表示された例において、オーディオデータは、インデックスｎが付けられたフレームまたはパケットにグループ化される。

図１は、ステレオの情報が、周波数帯域によって送信されると共に、周波数領域に適用される、代表的な符号器を示す。

この目的のために、その符号器は、時間周波数変換手段１０、例えば離散型フーリエ変換またはＤＦＴ、ＭＤＣＴ変換（“修正離散コサイン変換：Modified Discrete Cosine Transform”）、ＭＣＬＴ変換（“変調複素重複変換：Modulated Complex Lapped Transform”）のような変換を実行することができる例えばＤＳＰ（Digital Signal Processor）を統合する。

左側周波数信号Ｓ_Ｌ（ｋ）及び右側周波数信号Ｓ_Ｒ（ｋ）の値は、従って、左側及び右側の時間信号に対応する値Ｓ_Ｌ（ｎ）、Ｓ_Ｒ（ｎ）に基づいて獲得される。

マトリクス化は、その後、マトリクス化手段１１によって、左側信号Ｓ_Ｌ（ｋ）及び右側信号Ｓ_Ｒ（ｋ）の経路に適用される。

これらの手段１１は、ステレオの信号Ｓ_Ｌ（ｋ）及びＳ_Ｒ（ｋ）に基づいて、モノラルチャンネル信号Ｍ（ｋ）及び残留信号Ｅ（ｋ）を決定することを可能にする。モノラルチャンネル信号Ｍ（ｋ）は、一般的に、左側信号Ｓ_Ｌ（ｋ）と右側信号Ｓ_Ｒ（ｋ）との和の半分である。残留信号Ｅ（ｋ）は、左側信号Ｓ_Ｌ（ｋ）と右側信号Ｓ_Ｒ（ｋ）との間の差の半分に等しくすることができる。

モノラルチャンネル信号Ｍ（ｋ）が更に多くの情報を伝送できるようにマトリクス化を適応させるための対策が講じられ得る。この目的のために、左の経路と右の経路との間で位相が反対であろう成分を相殺することを回避できるように、マトリクス化手段１１によって実行された方法は、経時的に変化し得る。

空間化データ推定手段１２は、モノラルチャンネル信号Ｍ（ｋ）及び残留信号Ｅ（ｋ）に基づいて、空間化データ、例えばステレオパラメータを推定することを可能にする。これらのステレオパラメータは、当業者に知られ得ると共に、例えば経路間レベル（ＩＬＤ）、経路間相関（ＩＣＣ）、及び経路間の遅延または位相差（ＩＰＤ／ＩＴＤ）を含み得る。

これらのステレオパラメータＩＬＤ^（ｂ）は、変数ｂによってインデックスが付けられた周波数帯域によって決定され得る。これらの帯域は、人体感覚に近い周波数スケールに従って構成され得る。例えば、それは、望まれた精度及び考察されたスペクトルの豊かさに応じて、８個から２０個の周波数帯域を使用することが可能である。

量子化、符号化、及び多重化手段１３は、減少したスループットにおける伝送を可能にするように、ステレオパラメータＩＬＤ^（ｂ）を量子化して、符号化することを可能にする。

モノラルチャンネル信号Ｍ（ｋ）は、更に、手段１３によって、図１において提示された変換された領域もしくは時間領域で、量子化されて、符号化される。このモノラルチャンネル信号Ｍ（ｋ）を処理するために、標準化されたアルゴリズム、例えばＩＴＵＧ．７２９．１、またはＧ．７１８タイプの音声符号器を使用することが可能である。それは、更に、ＭＰＥＧ−４ＡＡＣ、またはＨＥ−ＡＡＣタイプの一般的なオーディオ符号器であり得る。

残留信号Ｅ（ｋ）は、任意に送信されるが、同様に、周波数領域または時間領域におけるこの信号に特有の標準化された符号化技術または伝送技術を必要とする。

量子化、符号化、及び多重化手段１３からの出力として獲得された、符号化された信号Ｓ_ｅｎｃは、例えば、無線経路によって送信される。

その代りに、符号器からの出力として獲得されたデータのチャンネルの数が符号器に入力されるデータのチャンネルの数より小さいという条件で、１つを超えるモノラルのチャンネル上で獲得されたデータに符号器を導くための対策が講じられ得る。

図２は、送信された信号Ｓ_ｅｎｃに対応する信号Ｓ’_ｅｎｃを受信する傾向がある代表的な復号器を示す。

復号化及び逆多重化手段２９は、受信された信号Ｓ’_ｅｎｃより、モノラルチャンネルデータＭ’（ｋ）、空間化データＩＬＤ’^（ｂ）の他に、任意に残留信号Ｅ’（ｋ）を抽出することを可能にする。

復号器は、更に、モノラルチャンネルデータＭ’（ｋ）、空間化データＩＬＤ’^（ｂ）、そして任意に残留信号Ｅ’（ｋ）に基づいて、多重チャンネルオーディオデータＳ’_Ｌ（ｋ）、Ｓ’_Ｒ（ｋ）を再構成するための、再構成装置２６を備える。

図３は、図２の再構成装置２６によって実行可能なアルゴリズムを示す。これらの２つの図面は、従って同時に論評されることになる。

再構成装置２６は、不完全な空間化データＩＬＤ’^（ｂ）の場合に交換値を提供するための隠蔽デバイス２０、及び再構成に適当な多重チャンネル再構成手段２７を備える。

多重チャンネル再構成手段２７は、例えばステップ３００の間に、下記数１のタイプの組み合わせを実行することができる。

ここで、ｋは、考察された周波数インデックスを示すと共に、ｂは、送信されたステレオのパラメータ、すなわち、モノラルチャンネルデータＭ’（ｋ）に基づいて、ステップ３０１の間に、空間化データ（図示せず）から獲得された位相シフトまたは遅延を当業者に知られている方法で適用することによって獲得された左側の経路に対応する周波数領域の信号Ｍ_Ｌ（ｋ）、及びステップ３０１の間に、同等の方法で獲得された右側の経路に関する周波数領域の信号Ｍ_Ｒ（ｋ）、によって割り当てられた帯域を示す。

特に、全く位相シフトが適用されない場合、その場合には、下記数２のようになる。

Ｅ’_Ｌは、当業者に知られている方法で任意に送信された残留信号Ｅ’（ｋ）から生じる左側の経路に特有の信号であると共に、Ｅ’_Ｒは、当業者に知られている方法で任意に送信された残留信号Ｅ’（ｋ）から生じる右側の経路に特有の信号である。データＥ’_Ｌ、Ｅ’_Ｒを獲得するステップは、図３には表示されない。

残留データが伝送されない場合は、下記数３のようになる。

Ｗ_Ｌ及びＷ_Ｒは、考察された帯域ｂ及びフレームｎに関する空間化データＩＬＤ’（ｂ，ｎ）から生じる利得である。

利得Ｗ_Ｌ及びＷ_Ｒは、ステップ３０２の間に、値Ｗ’_Ｌ及びＷ’_Ｒとして、例えば下記数４のとおりに決定され得る。

ここで、ＩＬＤ’（ｂ，ｎ）は、フレームｎに関して受信された空間化データＩＬＤ’^（ｂ）である。

０と１との間の時定数α、例えばα＝０．８による平滑化は、その場合に、下記数５に従ってステップ３０４の間に実行される。

ここで、Ｗ_Ｌ（ｂ，ｎ−１）は、前のフレームにおいて獲得された値を示す。

右側の経路に関して、ステップ３０４の間に、下記数６のように、同じ平滑化を実行することが可能である。

ここで、Ｗ_Ｒ（ｂ，ｎ−１）は、前のフレームにおいて獲得された値を示す。

その代りに、例えば下記数７に従って、左側の経路に関して獲得された値を使用することが可能である。

隠蔽装置２０は、データＷ_Ｒ及びＷ_Ｌが、それでもなお決定され得るように、データＩＬＤ’（ｂ，ｎ）の見込まれる損失を回避することを可能にする。

隠蔽装置２０は、ステップ３０５の間に、空間化データＩＬＤ’（ｂ，ｎ）の他に、任意にモノチャンネルデータＭ’（ｋ）及び残留データＥ’（ｋ）を受信するための受信手段（図示せず）を備える。

これらの受信手段は、例えば入力ポート、入力ピン等を備えることができる。

これらの受信手段に連結された検査モジュール２２は、ステップ３０６の間に、空間化データＩＬＤ’^（ｂ）の妥当性を検査することを可能にする。この検査モジュールは、例えば、その伝送が空間化データの劣化を全く引き起こさなかったということを確認するために、ＣＲＣタイプの符号化の検査を実行し得る。

検査モジュール２２は、更に、受信された信号Ｓ’_ｅｎｃから抽出されたいくらかの値（図示せず）を読むことができると共に、これらの値は、送信されたデータの階層の削除の可能性を示す。実際には、特に、ネットワークがつまるか、もしくは伝送路の帯域幅が減少する場合に、伝送ネットワークのいくらかの構成要素が、このようなデータセットを送信することを自制するための対策が講じられ得る。送信されなかったデータセットは、例えば音響の詳細に対応し得る。検査モジュール２２がいくらかのデータの削除を示す値を読み取る場合に、これらのデータは欠落していると考えられる。

隠蔽装置２０は、各命令の組が予測モデルに対応する、いくらかの命令の組を格納する記憶装置２１を備える。

例えば、第１の予測モデルに従って、フレームｎ及び所定の周波数帯域ｂに関する空間化データＩＬＤ’（ｂ，ｎ）が不完全である場合に、下記数８が選択される。

その場合に、対応する命令は、前のフレームに関して獲得された値Ｗ_Ｒ（ｂ，ｎ−１）、Ｗ_Ｌ（ｂ，ｎ−１）をコピーすることになる。

例えば、第２の予測モデルに従って、下記数９が選択される。

ここで、βは０と１との間の数値である。

従って、いくらかの空間化データが不完全であるフレームが連続する場合に、

は、１である傾向があると共に、その結果として多重チャンネルオーディオデータＳ’_Ｌ（ｋ）、Ｓ’_Ｒ（ｋ）は、モノラルチャンネルデータＭ’（ｋ）に近くなる。別の方法で明記すると、空間化効果は、モノラルチャンネル信号に戻るように徐々に削除される。

別の代表的な予測モデルによれば、下記数１１が選択される。

あるいは、下記数１２が選択される。

さもなければ、下記数１３のようにメディアンフィルタ（median filter）が使用される。

任意に、更に良い安定性を保証するために、減衰した値、例えば“０．９Ｗ_Ｌ（ｂ，ｎ−ｉ）”及び“０．９Ｗ_Ｒ（ｂ，ｎ−ｉ）”が、それそれ“Ｗ_Ｌ（ｂ，ｎ−ｉ）”及び“Ｗ_Ｒ（ｂ，ｎ−ｉ）”の代わりに使用されることになる。これらの減衰した値が、上記で説明されたモデルの内の１つ適用することによってそれらを使用するように、記憶装置内に保存されるための対策が講じられ得る。

他のモデルが同様に可能であると共に、それは、例えば、予測の次数に関してＰが可能である下記数１４の形式の、更に一般的な予測である。

それらの係数α_ｉは、経時的に変化し得ると共に、レビンソン−ダービン（Levinson-Durbin）タイプのスキームを用いて再度更新され得る。

モデルのこれらの例は、Ｗ_Ｌ及びＷ_Ｒの値の予測につながる。その代りに、それらのモデルは、Ｗ’_Ｌ及びＷ’_Ｒの変数ＩＬＤ’（ｂ，ｎ）の値等を予測することを可能にし得る。

例えば、上記で説明された第１のモデルに相当する予測モデルに従って、フレームｎ及び所定の周波数帯域ｂに関して、空間化データＩＬＤ’（ｂ，ｎ）が欠落した場合に、“ＩＬＤ’（ｂ，ｎ）＝ＩＬＤ’（ｂ，ｎ−１）”が選択される。その場合に、対応する命令は、前のフレームに関して獲得されたこの値“ＩＬＤ’（ｂ，ｎ−１）”をコピーすることになる。

推定モジュール２３は、様々な命令の組の命令を実行することを可能にする。このモジュール２３は、例えば、対応する空間化データＩＬＤ’（ｂ，ｎ）が検査モジュール２２によって有効であると見なされる各フレームに関して活性化されるか、または、さもなければ、有効であると見なされると共に、不完全であると見なされたフレームに先行するフレームに関してのみ活性化される。

このモジュール２３が活性化される場合、一組の値

を獲得するように、命令の組を詳しく検討するループにおいて繰り返されるステップ３０７の間に、初期化、検査、及び増加の従来のステップを伴う、全ての格納された命令の組が実行され、ここで、ｍは使用されたモデルを示す。

選択モジュール２４は、実際に受信された空間化データＩＬＤ’（ｂ，ｎ）に基づいて、予測された空間化値

を、推定された空間化値Ｗ_Ｌ、Ｗ_Ｒと対比することによって、これらのモデルの内の１つを選択することを可能にする。

ステップ３０８の間に、例えば、各モデルに関して、予測値

に基づいて、そして、推定値Ｗ_Ｌ（ｂ，ｎ）、Ｗ_Ｒ（ｂ，ｎ）に基づいて、類似値

を計算することを可能にする。類似値は、例えば、下記数１９のように、各予測の分散を含むことができる。

ここで、Ｅは、数学的期待値を表すと共に、例えば下記数２０に従う。

受信されたＮ個のフレームの系列は、従って、Ｎ個の値

を決定すると共に、それらをＮ個の推定値Ｗ_Ｌ（ｂ，ｎ）と比較するために使用される。

同等の式が、右側の経路に関して適用される。

その代りに、例えば、各経路に関して、下記数２２に従って、再帰的に分散を計算するための対策が講じられ得る。

ここでαは、例えば０．９７５に等しい時定数であり、そして、

は、フレームｎにおける分散の推定値を示す。

代替実施例（図示せず）によれば、分散を推定する代わりに、実際に受信された値に基づいて獲得されたデータＷ_Ｌ、Ｗ_Ｒに関して、データ

の尤度が推定される。例えば、下記数２５に示す一組の推定量を使用することが可能である。

のタイプの推定量を比較することによって、類似値が予測値と推定値との間のより大きい適合度を示す予測モデルを選択することが可能である。例えば、最良の隠蔽を与えるモデルのインデックスｍ^＊が決定され、これは、

を最小化するか、または別の実施例において、

を最大化することになるインデックスになるであろう。

簡単にするために、１つの経路上、例えば左側の経路上で、

を最小化するインデックスを選択するための対策が講じられ得る。

この値ｍ^＊は、選択された予測モデルの識別子を構成すると共に、ステップ３０９の間に、記憶装置２１に格納される。

ステップ３０７がステップ３０２、３０４の前に、またはさもなければステップ３０７と並列に、実行され得ることは、明瞭である。ここで各ステップ３０８は、ステップ３０４の間に獲得された値を包含すると共に、従って、このステップ３０４の次に実行される。

隠蔽装置２０は、更に、不完全であると見なされた空間化データの受信が発生したら、値ｍ^＊によって識別されたモデルに従って、ステップ３１０の間に、空間化値

を予測するための予測モジュール２５を備える。

この値は、多重チャンネル再構成手段２７に提供されると共に、多重チャンネル再構成手段２７は、その場合に、空間化データの不具合にもかかわらず、ステップ３００の間に、多重チャンネルデータＳ’_Ｌ（ｋ）、Ｓ’_Ｒ（ｋ）を再構成することができる。

周波数時間変換手段２８、例えばＤＳＰは、再構成された多重チャンネルデータＳ’_Ｌ（ｋ）、Ｓ’_Ｒ（ｋ）に基づいて、一時的なオーディオデータＳ’_Ｌ（ｎ）、Ｓ’_Ｒ（ｎ）を検索することを可能にする。

図４は、第２の周波数サブバンド、すなわちｂ＝１に関する、値Ｗ_Ｌ（ｂ，ｎ）の代表的な変化を表すプロットを示す。フレームインデックスｎは、横座標、及び縦座標の値Ｗ_Ｌ（１，ｎ）として現れる。

おおよそ５００番目のフレームと８１０番目のフレームとの間に対応する部分Ａに関して、Ｗ_Ｌ（１，ｎ）の値は、概して１に等しく、従って、比較的モノラルの音響信号に対応する。

部分Ｂに関して、Ｗ_Ｌ（１，ｎ）の値は、左側に位置する信号に対応し、一方、部分Ｃに関して、Ｗ_Ｌ（１，ｎ）の値は、右側に位置する信号に対応する。

部分Ｄに関して、Ｗ_Ｌ（１，ｎ）の値は、様々な場所に位置する複数の音源に対応する。

選択された最良の予測モデルは、利得変化のタイプに従って変化し得る。

従って、部分Ａに関して、前のフレームに関して獲得された値を繰り返すことになるモデルは、Ｗ_Ｌ（１，ｎ）の値のスパイクを誤って繰り返すことにつながるであろう。更に多くの賢明なモデルは、モノラルチャンネル信号に対応する任意の値を選択するか、さもなければ、１の利得に徐々に近づけるように、前のフレームに関して獲得した利得を重み付けすることになるであろう。

一方、部分Ｂ、及び部分Ｃに関して、最も賢明なアプローチは、前のフレームのために獲得された利得値を繰り返すことになり得る。

部分Ｄに関して、その利得が比較的ゆっくりと変化すると共に、従って、比較的予測どおりに変化する場合に、賢明なアプローチは、Ｐ個の前のフレームに関して獲得された利得の加重平均を実行することになるであろう。ステレオのパラメータが更に急速に変化する場合に、最も賢明なアプローチは、あらゆる人為要素を回避するように、モノラルチャンネル信号に戻ることになるであろう。

従って、最も賢明なモデルは、１つのフレームから別のフレームまでの利得変化のタイプに従って変化することができる。図３の方法は、人間の介入なしで、最も適当な予測モデルを選択することを可能にする。

最も適当な予測モデルのこの選択は、不完全なデータの場合に、更に良い品質の隠蔽を獲得することを可能にする。

図５は、画面５０２、キーボード、及び中央ユニットを備えるコンピュータを示す。この中央ユニットは、上記で説明された方法のステップに対応する命令を含むコンピュータプログラムを格納するためのメモリ５００を備える。これらの命令を実行するために、この中央ユニットは、メモリ５００に連結されるプロセッサ５０１を更に備える。

１０時間周波数変換手段
１１マトリクス化手段
１２空間化データ推定手段
１３量子化、符号化、及び多重化手段
２０隠蔽デバイス
２１記憶装置
２２検査モジュール
２３推定モジュール
２４選択モジュール
２５予測モジュール
２６再構成装置
２７多重チャンネル再構成手段
２８周波数時間変換手段
２９復号化及び逆多重化手段
５００メモリ
５０１プロセッサ
５０２画面

Claims

限定された数のチャンネル上のデータに少なくとも基づいた、及び空間化データに少なくとも基づいた、多重チャンネルオーディオデータの再構成のための音響データの処理方法であって、
前記方法が、受信されたフレームの空間化データの妥当性を検査するステップ（３０６）を含み、もし前記検査が、受信された前記空間化データが有効であることを示す場合に、
ａ／複数の予測モデルのそれぞれのモデルごとに、前記モデルに従って空間化値を予測するステップ（３０７）と、
ｂ／このように予測された前記空間化値に基づいて、そして受信された前記空間化データに基づいて、前記予測モデルを選択し、もし予測モデルを選択した後で不完全な空間化データの受信が発生したら、選択された前記予測モデルに従って空間化値を予測すると共に、前記多重チャンネルオーディオデータの再構成のために前記予測された空間化値を使用することができるようにするステップとを含む
ことを特徴とする方法。
もし前記検査が、受信された前記空間化データが有効であることを示す場合に、そして、ステップ“ａ／”の前に、
前記有効な空間化データを格納するステップを更に含み、
ステップ“ｂ／”が、その後の不完全な空間化データの受信が発生したら、前記格納された空間化データに基づいて実行される
ことを特徴とする請求項１に記載の方法。
ステップ“ａ／”が、その後の不完全な空間化データの受信が発生した場合でも、前記格納された空間化データに基づいて実行される
ことを特徴とする請求項２に記載の方法。
ステップ“ａ／”及び“ｂ／”が、有効なフレームの受信の後に系統的に実行されると共に、
前記方法が、ステップ“ｂ／”の後に、前記選択された予測モデルの識別子をメモリに書き込むステップを更に含む
ことを特徴とする請求項１に記載の方法。
前記予測された空間化値が、利得

を含む
ことを特徴とする請求項１に記載の方法。
前記予測された空間化値が、遅延を含む
ことを特徴とする請求項１に記載の方法。
ステップ“ｂ／”の間に、
前記複数のモデルのそれぞれのモデルごとに、類似値

が、一方では、前記モデル

に応じた前記予測された空間化値に基づいて、そして、他方では、受信された前記空間化データに基づく推定値

に基づいて、計算されると共に、
前記類似値が前記予測された空間化値と前記推定値との間のより大きい適合度を示す前記予測モデルが選択される
ことを特徴とする請求項１に記載の方法。
ステップ“ａ／”及び“ｂ／”の間に、
受信された一連のフレームのフレームごとに、そして前記複数のモデルの内の少なくとも１つのモデルに関して、空間化値

が、前記モデルに従って予測されると共に、
前記モデルに関して、類似値

が、一方では、前記モデルに応じた一連の予測された前記空間化値に基づいて、そして、他方では、受信された前記一連のフレームの前記空間化データに基づく一連の推定値

に基づいて、計算される
ことを特徴とする請求項７に記載の方法。
ステップ“ａ／”が、所定の周波数帯域（ｂ）に対応する空間化データに関して実行される
ことを特徴とする請求項１に記載の方法。
命令がコンピュータによって実行された場合に請求項１に記載の方法を実施するための前記命令を含むことを特徴とするコンピュータプログラム。
不完全な空間化データを隠蔽するための隠蔽デバイス（２０）であって、
それぞれの命令の組が予測モデルに対応する、複数の命令の組を格納するための記憶装置（２１）と、
空間化データを受信するための受信手段と、
前記受信手段によって受信された前記空間化データの妥当性を検査するための検査モジュール（２２）と、
前記検査モジュール（２２）によって有効であると検出された空間化データの受信が発生したら、前記記憶装置に格納された命令の組ごとに、空間化値を予測するように前記命令の組を実行することができる推定モジュール（２３）と、
前記推定モジュールによって予測された前記空間化値に基づいて、そして、前記受信手段によって受信された前記空間化データに基づいて、予測モデルを選択するための選択モジュール（２４）とを備え、
前記隠蔽デバイスが、
その後の前記検査モジュール（２２）によって不完全であると見なされた空間化データの受信が発生したら、前記選択モジュールによって選択された前記モデルに従って空間化値を予測するように作られた予測モジュール（２５）を更に備える
ことを特徴とする隠蔽デバイス。
多重チャンネルオーディオデータを再構成するための装置（２６）であって、前記装置が、
少なくともモノラルチャンネルデータと、残留信号Ｅ（ｋ）及び空間化データＩＬＤ’のうちの１つとに基づいて多重チャンネルオーディオデータを再構成するための多重チャンネル再構成手段（２７）と、
前記予測モジュール（２５）が、前記検査モジュール（２２）によって不完全であると見なされた空間化データの受信が発生したら、前記多重チャンネルオーディオデータを再構成するための前記多重チャンネル再構成手段に、前記予測された空間化値を提供するように作られた、請求項１１に記載された前記隠蔽デバイス（２０）と
を備えることを特徴とする装置。