JP5846460B2

JP5846460B2 - 空間オーディオ処理における最適な混合マトリックスとデコリレータの使用法

Info

Publication number: JP5846460B2
Application number: JP2014525429A
Authority: JP
Inventors: ユハボルカノ; トムバクストレム; ファビアンキュッヒ; アヒムクンツ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2011-08-17
Filing date: 2012-08-14
Publication date: 2016-01-20
Anticipated expiration: 2032-08-14
Also published as: KR101633441B1; AR087564A1; AU2012296895A1; US20140233762A1; EP2617031B1; CN103765507A; US20190251938A1; KR20140047731A; WO2013024085A1; CA2843820C; US10748516B2; AU2012296895B2; EP2560161A1; ES2499640T3; US20200372884A1; BR112014003663A2; MX2014001731A; RU2014110030A; CN103765507B; PL2617031T3

Description

本発明は、オーディオ信号処理、特に、最適な混合マトリックスを使用している装置および方法に関し、そして、さらに、空間オーディオ処理におけるデコリレータの使用法に関する。

音声処理は、ますます重要になる。空間オーディオの知覚的処理において、典型的な仮定は、スピーカ再生音の空間的な態様が、特に知覚周波数帯域のオーディオチャネル間のエネルギーと時間整列された依存関係によって決定されることである。これは、スピーカを通じて再生されるときに、これらの特徴が両耳間の聴覚レベルの違い、両耳間の聴覚の時差および両耳間の聴覚の干渉性に導入されるというコンセプトに基づいている。そして、それは空間知覚の両耳の役割である。
このコンセプトから、さまざまな空間処理方法は、アップミキシングを含めて、わかってきた。以下の文献を参照。
[1] C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006,
空間マイクロフォニーは、たとえば以下の文献を参照。
[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007;
および
[3] C. Tournery, C. Faller, F. Kuech, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround", 128th AES Convention, May 2010;
そして、効率的なステレオおよびマルチチャネル伝送は、例えば、以下の文献を参照。
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio", EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005;
および
[5] J. Herre, K. Kjoerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roeden, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.
リスニングテストは、各アプリケーションでコンセプトの利益を認識しており、例えば、前記文献[1、4、5]と、例えば、以下の文献を参照。
[6] J. Vilkamo, V. Pulkki, "Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation", Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.

C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006, V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007; C. Tournery, C. Faller, F. Kuech, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround", 128th AES Convention, May 2010; J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio", EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005; J. Herre, K. Kjuerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roeden, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008. J. Vilkamo, V. Pulkki, "Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation", Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.

全てのこれらの技術は、アプリケーションで異なるにもかかわらず、同じ中心的な作業がある。そして、それは一組の入力チャネルから時間および頻度に対応する定義済みのエネルギーおよび依存を有する一組の出力チャネルを生成することになっている。そして、知覚的な空間オーディオ処理の一般の基礎をなす作業であると、それはみなされ得る。
例えば、指向性を有するオーディオ符号化（ＤｉｒＡＣ）の状況において、上記文献[2]に見られるように、例えば、ソース・チャネルは典型的に第１のオーダー・スピーカのマイクロホン信号であり、それは、混合、振幅パンニング、および、知覚的に測定された音場に接近するために処理された非相関性によっている。
アップミキシングでは（上記文献[１]を参照）、ステレオの入力チャネルが、サラウンドセットアップに適応的に分布し、再び、時間及び周波数の関数としてある。

一組の入力チャネルから定義済みの特性を有する一組の出力チャネルを生成するために、改良されたコンセプトを提供することが、本発明の目的である。
本発明の目的は、請求項２５に記載の方法および請求項２６に記載のコンピュータプログラムによって、請求項1に記載の装置により解決される。

２つ以上のオーディオ入力チャネルを有するオーディオ入力信号から２つ以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するための装置が提供される。
装置は、プロバイダおよび信号プロセッサを含む。プロバイダは、オーディオ入力信号の第１の共分散特性を提供するのに適している。信号プロセッサは、２つ以上のオーディオ入力チャネルの内の少なくとも２つに混合則を適用することによって、オーディオ出力信号を生成するように適合されている。
信号プロセッサは、オーディオ入力信号の第１の共分散特性に基づいて、そして、オーディオ出力信号の第２の共分散特性に基づいて、混合則を決定するように構成される。そして、第２の共分散特性は、第１の共分散特性と異なる。

例えば、チャネル・エネルギーと時間整列依存関係は、知覚周波数帯域において、例えば、信号共分散行列の実数部分によって表されることができる。
以下では、このドメイン（領域）内の空間音響を処理するために一般的に適用可能なコンセプトが提示される。
このコンセプトは、入力チャネルの独立構成要素の最良の使用法によって、所与の目標共分散特性（第２の共分散特性）、例えば、伝えられた目標共分散行列に到達するように、適応混合解決案を含む。実施形態において、目標がそうでなければ達成されない場合、非相関音響エネルギーの必要量を注入するために、手段は設けられ得る。
このようなコンセプトは、その機能において堅牢であり、多数の使用事例に適用することができる。目標共分散特性は、例えば、ユーザによって提供されている。例えば、一実施形態に係る装置は、ユーザが共分散特性を入力することができるように、手段を備え得る。

実施形態によれば、プロバイダは、第１の共分散特性を提供するように適合されてもよく、この第1の共分散特性は、時間・周波数ビン（time-frequency bin）のための第１の状態を有し、当該第1の共分散特性は、第1の時間・周波数ビンとは異なる、第２の時間・周波数ビンのために、第１の状態とは異なる第２の状態を有する。
プロバイダは、必ずしも共分散特性を得るための分析を実行する必要はなく、記憶装置、ユーザ入力からまたは同様のソースからこのデータを提供することができる。

別の実施形態において、信号プロセッサは、第２の共分散特性に基づいて混合則を決定するように適合されてもよく、この第２の共分散特性は、時間・周波数ビンのための第３の状態を有し、当該第２の共分散特性は、第３の時間・周波数ビンとは異なる第４の時間・周波数ビンの第３の状態とは異なる、第４の状態を有する。

別の実施形態によれば、信号プロセッサは、２つ以上のオーディオ出力チャネルがそれぞれ２つ以上のオーディオ入力チャネルの各１つに依存するように、混合則を適用することにより、オーディオ出力信号を生成するのに適している。

別の実施形態では、信号プロセッサは、誤差測度が最小となるように混合則を決定するように適合され得る。エラー計測は、例えば、基準出力信号および実際の出力信号間の絶対差信号でもよい。

さらなる実施形態によれば、信号プロセッサは、第２の共分散特性を決定することによって、混合則を測定するように構成することができる。そこにおいて、信号プロセッサは、第１の共分散特性に基づいて、第２の共分散特性を決定するように構成することができる。

さらなる実施形態によれば、信号プロセッサは、混合則として混合マトリックスを決定するのに適合され得る。そこにおいて、信号プロセッサは、第１の共分散特性に基づいて、そして、第２の共分散特性に基づいて混合マトリックスを決定するのに適合され得る。

他の実施形態では、プロバイダは、オーディオ入力信号の第１の共分散行列を決定することによって、第１の共分散特性を分析するように適合し得る。そして、信号プロセッサは、オーディオ出力信号の第２の共分散行列に基づいて、第２の共分散特性として混合則を決定するように構成することができる。

別の実施形態例によれば、プロバイダは、第１の共分散行列の対角値が、それぞれ、オーディオ入力チャネルのうちの１つのエネルギーを示すことができるように、そして、対角値でない第１の共分散行列の値が、それぞれ、第１のオーディオ入力チャネルおよび異なる第２のオーディオ入力チャネル間のチャネル間相関（インター・チャネル相関）を示すことができるように、第１の共分散行列を決定するのに適していてもよい。

さらなる実施形態によれば、第２の共分散行列に基づいて混合則を決定するように、信号プロセッサは構成され得る。そこにおいて、第２の共分散行列の各対角値は音声出力チャネルの内の１つのエネルギーを示すことができる、そして、対角値でない第２の共分散行列の各値は、第１のオーディオ出力チャネルおよび第２のオーディオ出力チャネル間のチャネル間相関を示すことができる。

本発明の好ましい実施形態は、以下、図面を参照しながら説明する。

図１は、本実施形態に係る２つ以上のオーディオ入力チャネルを有するオーディオ入力信号から２つ以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するための装置を例示する図である。
装置は、プロバイダ１１０および信号プロセッサ１２０を含む。プロバイダ１１０は、２つ以上のオーディオ入力チャネルを有するオーディオ入力信号を受信するのに適している。さらに、プロバイダ１１０は、オーディオ入力信号の第１の共分散特性を分析するのに適している。プロバイダ１１０は、さらに、信号プロセッサ１２０に第１の共分散特性を提供するのに適している。信号プロセッサ１２０は、さらに、オーディオ入力信号を受信するのに適している。
また、信号プロセッサ１２０は、オーディオ入力信号の２つ以上の入力チャネルの少なくとも２つに混合則を適用することによってオーディオ出力信号を生成するように適合されている。
信号プロセッサ１２０は、オーディオ入力信号の第１の共分散特性に基づいて、そして、オーディオ出力信号の第２の共分散特性に基づいて、混合則を決定するように構成される。そして、第２の共分散特性は、第１の共分散特性と異なる。

図２は、実施形態に係る信号プロセッサを例示する図である。
信号プロセッサは、最適な混合マトリックス定式化装置２１０および音声ミキサ２２０を含む。最適な混合マトリックス定式化装置２１０は、最適な混合マトリックスを作成する。これのために、最適な混合マトリックス定式化装置２１０は、例えば、図１の実施形態のプロバイダ１１０によって受信されるように、ステレオまたはマルチチャネルの周波数帯音声入力信号の第１の共分散特性２３０（例えば入力共分散特性）を使用する。
さらに、最適な混合マトリックス定式化装置２１０は、第２の共分散特性２４０、例えば目標共分散行列に基づいて、混合マトリックスを決定する。そして、それは従属するアプリケーションであってもよい。最適な混合マトリックス定式化装置２１０によって作成される最適な混合マトリックスは、チャネル・マッピング・マトリックスとして用いられることができる。
それから、最適な混合マトリックスは、混合ユニット２２０に提供することができる。混合ユニット２２０は、オーディオ出力信号のステレオまたはマルチチャネルの周波数帯域の出力を得るように、ステレオまたはマルチチャネルの周波数帯域の入力に最適な混合行列を適用する。オーディオ出力信号は、所望の第２の共分散特性（目標共分散特性）を有する。

ゼロで埋められた信号は、定式化において、派生した解決が異なるベクトル長に拡張されるまで用いられ得る。

このような分解は、例えばコレスキー分解または固有分解を用いて得られることができ、例えば、[7] Golub, G.H. and Van Loan, C.F., "Matrix computations", Johns Hopkins Univ Press, 1996. を参照することができる。

以下では、コンセプトは、共分散行列の修正のために提案されている。

解析的に非相関エネルギーの量と小さい信号成分の増幅の間の最適なバランスを見つけることは簡単ではない。これは、それが例えば入力信号、応用解析ウィンドウおよび入力信号のSNRの統計性の安定性のような適用特殊因子に依存するためである。
しかしながら、それは明白な欠点がないこのバランシングを実行する学習的機能を調整することは、それが以下にサンプルコードで行われたように、むしろ簡単である。

しかしながら、提案されたコンセプトの最も意味のある使用法は、可能な分散行列だけを要求することである。

上記のものを要約するために、共通のタスクを以下のように言い直すことができる。
第１に、ひとつには、特定の共分散行列を備えた入力信号を有する。
第２に、アプリケーションは、チャネルが各出力チャネルの構成において用いられる目標共分散行列および規則入力の２つのパラメータを定義する。
この変換を実行するために、以下のコンセプトを使用することが提案される。
図２で例示されるように、主要なコンセプトは、入力チャネルの最適な混合の解決策の使用で、目標共分散が達成されるということで目標共分散が入力チャネルを最適に混ぜることの解決を使うことで達成されるということである。それは多くの場合、信号品質を損なうデコリレータの使用を回避するため、このコンセプトは、第一義的であると考えられる。
利用可能な合理的なエネルギーの十分な独立成分がない場合、第２のコンセプトが行われる。非相関化エネルギーは、これらの成分の不足を補うために注入される。一緒に、これらの２つのコンセプトは、任意の所与のシナリオにおけるロバストな共分散行列調整を行うための手段を提供する。

提案されたコンセプトの主要な予想されるアプリケーションは、空間マイクロホンの分野である（文献リストの[2]および[3]を参照。）そして、それは、信号共分散に関連した課題が特に指向性マイクロホンの物理的な限定のため明らかである分野である。
さらに予想される使用事例は、ステレオとマルチチャネルの強化、雰囲気抽出、および、アップミキシングとダウンミックスが含まれている。

上記の説明では、提案されているコンセプトの派生に続いて、定義が与えられる。
先ず、クロス混合解決策が提供され、次いで、相関音エネルギーを注入するコンセプトが与えられる。その後、異なる数の入出力チャネルを有するコンセプトの説明が提供され、さらに、共分散行列分解性に配慮されている。
以下に、実用的な使用事例が提供され、そして、一組の数値実施例および結論が提示される。さらにまた、本論文によると、完全な機能を有する実施例、Ｍａｔｌａｂコードが提供される。

ステレオまたはマルチチャネル音声の知覚される空間特性は、大部分の周波数帯域での信号の共分散行列によって定義される。
コンセプトは、最適に提供され、そして、任意に定義可能な共分散特性を有する１セットの出力チャネルに対して所与の共分散特性を有する１セットの入力チャネルが適応的にクロスミックスされる。さらなるコンセプトは、合理的なエネルギーに依存しない音成分が利用できない場合にのみ、必要に応じて非相関化エネルギーを注入するために提供されている。コンセプトは、空間オーディオ信号処理の分野における多種多様な用途を有する。

マルチチャネル信号のチャネル(あるいは共分散行列)間のチャネル・エネルギーおよび依存性は、線形にのみによって制御され、入力特性および所望の目標特性に応じてチャネルを時間的・時変的(time−variantly)にクロスミキシングすることができる。このコンセプトは、ベクトル間の角度の依存関係がチャネルに対応し、ベクトルの振幅が信号レベルに等しい信号のファクター表現で例示することができる。

ステレオ信号のための混合マトリックスは、図３に見られるように、容易に、三角関数で定式化することもできる。結果は、マトリックス数学と同様に同じことであるが、しかし、定式化は異なる。

入力チャネルが大きく依存している場合、目標共分散行列を達成することは、デコリレータを使用するだけで可能である。必要な場合、デコリレータを注入するだけである手順も、例えば、最適に提供されている。

図４は、混合技術を適用する実施例の装置のブロック図を例示する。
装置は、共分散行列分析モジュール４１０および信号プロセッサ（図示せず）を含み、そこにおいて、信号プロセッサは、混合マトリックスの定式化モジュール４２０および混合マトリックス・アプリケーション・モジュール４３０を含む。ステレオであるかマルチチャネル周波数帯入力の入力共分散特性は、共分散行列分析モジュール４１０によって分析される。共分散行列分析の結果は、混合マトリックスの定式化モジュール４２０に供給される。

混合マトリックスの定式化モジュール４２０は、共分散行列分析の結果に基づいて、可能ならエラー基準（誤差評価）に基づいて、混合マトリックスを定式化する。

混合マトリックスの定式化モジュール４２０は、混合マトリックスを混合マトリックス・アプリケーション・モジュール４３０に供給する。混合マトリックス・アプリケーション・モジュール４３０は、例えばあらかじめ定義され、目標共分散行列に応じて目標共分散特性を有しているステレオであるかマルチチャネル周波数帯出力を得るために、ステレオまたはマルチチャネル周波数帯入力上の混合マトリックスを適用する。

上の説明を要約すると、コンセプトで多目的ものは、音質に関して空間音を最適の最大の程度で強化して、固定すること、および／または、総合することである。目標（例えば第２の共分散特性）は、アプリケーションによって定義される。

また、フルバンドにおいて適用可能な、コンセプトは、特に周波数バンド処理において知覚的に意味がある。

デコリレータは、チャネル間相関を改善（低減）するために使用される。それらはこれを行うが、特に、過渡音声成分有する、全体的な音質を損なう傾向がある。

提案されたコンセプトは回避するか、または、幾つかのアプリケーションにおいて、デコリレータの使用率が最小限に抑えられる。結果は、音質のそのような損失無しで、同じ空間特性となる。

他の用途の中で、技術は、ＳＡＭ−ＭＰＳエンコーダで使用することができる。

提案されているコンセプトは、第１のオーダーからの信号によりＭＰＥＧサラウンドビットストリーム（MPEG = Moving Picture Experts Group）を生成するマイクロホン技術を改善するために実施されている。例えば、既述の文献[3]を参照。
プロセスは、ステレオ信号から方向および周波数帯の音場の拡散を推定して、受信側で復号化されるとき、知覚的に元の音場を近似した音場を生成するように、ＭＰＥＧサラウンドビットストリームを作成することを含む。

図５において、実施形態に係るＭＰＥＧサラウンドエンコーダにコインシデンスステレオマイクロホン信号を示す線図が例示される。そして、それは所与のマイクロホン信号からＭＰＥＧサラウンドのダウンミックス信号を生成するために、提案されたコンセプトを使用する。すべての処理は、周波数帯において実行される。

空間データの決定モジュール５２０は、音場モデル５１０に応じた方向および拡散情報に基づいて、空間サラウンドデータを含む構成情報データを定式化し、ＩＣＣおよび／またはレベルをダウンミックスするのに適している。音場モデル自体は、マイクロホンのＩＣＣｓの分析およびステレオマイクロホン信号のレベルに基づく。空間データの決定モジュール５２０は、その後、目標ダウンミックスのＩＣＣｓおよびレベルを混合マトリックスの定式化モジュール５３０に提供する。
さらにまた、空間データの決定モジュール５２０は、空間サラウンドデータを定式化し、ＭＰＥＧサラウンドの空間サイド情報として、ＩＣＣｓおよびレベルをダウンミックスするように適合され得る。混合マトリックスの定式化モジュール５３０は、それから、提供された構成情報データ、例えば目標ダウンミックスのＩＣＣｓおよびレベルに基づいて混合マトリックスを定式化し、混合モジュール５４０にマトリックスを供給する。混合モジュール５４０は、ステレオマイクロホン信号に対して、混合マトリックスを適用する。
これによって、目標ＩＣＣｓおよびレベルを有して、信号は生成される。目標ＩＣＣｓおよびレベルを有する信号は、その後、コアコーダ５５０に提供される。実施形態において、モジュール５２０、５３０および５４０は、信号プロセッサのサブモジュールである。

図５に係る装置によって実行されるプロセス内では、ＭＰＥＧサラウンドのステレオダウンミックスを生成する必要がある。これは、音質に最小限の影響でレベルおよび所定のステレオ信号のＩＣＣｓを調整することの必要性を含む。提案されたクロスミキシングのコンセプトは、この目的のために適用され、そして、既述した文献[3]の先行技術の知覚的な利点は観察可能であった。

図６は、ＭＰＳ−ＡＭエンコーダのためのダウンミックスＩＣＣ／レベル修正に関連する他の実施形態に係る装置を例示する。
ＩＣＣおよびレベル分析は、モジュール６０２で行われ、そして、音場のモデル６１０は、モジュール６０２によって、ＩＣＣおよびレベル分析に依存する。モジュール６２０はモジュール５２０に対応し、モジュール６３０はモジュール５３０に対応し、そして、モジュール６４０は、図５のモジュール５４０に、それぞれ、対応する。同じことは、図５のコアコーダー５５０に対応するコアコーダー６５０に適用される。
上記のコンセプトは、マイクロホン信号から正確に正しいＩＣＣおよびレベルを有するＭＰＳダウンミックスをつくるために、ＭＰＳ−ＳＡＭエンコーダに集積することができる。上述のコンセプトは、デコリレータの使用量を最小限に抑えながら、理想的な空間合成を提供するために、ＭＰＳのない直接ＳＡＭ−マルチチャネルレンダリングでも適用可能である。

改良は、ソース距離（発生源距離）、ソース・ローカライゼーション（音源定位）、安定性、聞き心地および包み込みに関して期待される。

図７は、小さい間隔を置かれたマイクロホン配列のための改良のための実施形態に係る装置を概略的に示す。
モジュール７０５は、マイクロホン共分散行列を得るために、マイクロホン入力信号の共分散行列分析を行うのに適している。マイクロホン共分散行列は、混合マトリックスの定式化モジュール７３０に供給される。さらに、マイクロホン共分散行列は、音場モデル７１０を引き出すために用いられる。音場モデル７１０は、共分散行列以外の供給源に基づいてもよい。

音場モデルに基づく方向および拡散情報は、その後、目標共分散行列を生成するために、目標共分散行列の定式化モジュール７２０に供給される。それから、目標共分散行列の定式化モジュール７２０は、生成された目標共分散行列を混合マトリックスの定式化モジュール７３０に供給する。

混合マトリックスの定式化モジュール７３０は、混合マトリックスを生成するのに適していて、生成された混合マトリックスを混合マトリックス・アプリケーション・モジュール７４０に供給される。混合マトリックス・アプリケーション・モジュール７４０は、目標共分散特性を有するスピーカマイクロホン出力信号を得るために、スピーカのマイクロホン入力信号上の混合マトリックスを適用するのに適している。
実施形態において、モジュール７２０、７３０および７４０は、信号プロセッサのサブモジュールである。

この種の装置は、ＤｉｒＡＣおよびＳＡＭのコンセプトに続く。そして、それはオリジナルの音場の方向および拡散を評価し、評価された方向および拡散を最もよく再生するような出力をつくることになっている。この信号処理手順は、正しい空間画像を提供するために、大規模な共分散行列調整を必要とする。処理されたコンセプトは、その解決策である。提案されたコンセプトは、ソース距離（発生源距離）、ソース・ローカライゼーション（音源定位）、および／または音源分離によって、快適性および／または包み込みに注意を向ける。

図８は、ステレオまたはマルチチャネル再生の空間音質のブラインド強化のための実施形態の一例を例示する図である。
モジュール８０５において、ステレオまたはマルチチャネルの内容の共分散行列分析、例えばＩＣＣまたはレベル分析が行われる。それから、エンハンスメント・ルールは、例えば、入力ＩＣＣｓから出力ＩＣＣｓを得るために、拡張モジュール８１５に適用される。
混合マトリックス定式化モジュール８３０は、モジュール８０５によって行われる共分散行列分析に基づいて、そして、拡散モジュール８１５で実行されたエンハンスメント・ルール８１５を適用することに由来する情報に基づいて行われる混合マトリックスを生成する。その後、混合マトリックスは、目標共分散特性を有する調整されたステレオまたはマルチチャネル内容を得るために、モジュール８４０のステレオであるかまたはマルチチャネルの内容に適用される。

マルチチャネル音、例えばミックスまたは録音に関して、特に高過ぎるＩＣＣに関して、知覚的次善最適性を空間音で発見することは、かなり一般的である。典型的な結果は、幅、包囲、距離、音源分離、音源定位および/または音源の安定性と聞き心地に対して品質を低下する。コンセプトが必要以上に高いＩＣＣｓを有するアイテムにこれらの特性を改善することができることは、非公式にテストされている。観測された改善は、幅、ソース距離、音源定位／分離、包み込みおよびリスニング快適性（聞き心地の良さ）である。

図９は、細長スピーカ（例えば、タブレット、ＴＶ）セットアップの向上のための別の実施形態を例示する。提案されたコンセプトは、スピーカ角度が狭い（例えば、タブレット）再生セットアップにおけるステレオ品質を改善するためのツールとして有益である可能性が高い。以下の提案されたコンセプトが提供される。
・より広いスピーカセットアップにマッチするために、所定の弧の中でソースの再パンニングすること。
・より良い、より広いスピーカセットアップと一致するように、ＩＣＣを増大させること。
・所望のバイノーラルキューを作成する直接的な方法がない場合にのみ、クロストークキャンセルを使用して、クロストークキャンセルなどを行うために、より良好な出発点を提供する。

改善は、幅に関して、そして、定期的なクロストークキャンセル、音質および堅牢性（ロバスト性）に関して期待されている。

図１０によって説明された別の適用例において、実施形態は、Ｂ形式のフォーマット・マイクロホン信号に基づく最適な指向性オーディオコーディング（ディラック）を提供することが示されている。

このように、図１０の実施形態は、音声品質を危うくしている不必要な範囲で、非相関を適用すると、同時に起こるマイクロホン信号に基づく最先端技術のディラック（ＤｉｒＡＣ）ユニットが一致する知見に基づいている。例えば、もし、音場が解析され、拡散されるならば、完全な相関がＢ−フォーマットは、水平音場（Ｗ、Ｘ、Ｙ）の場合において、３つのインコヒーレント音成分を提供するとしても、すべてのチャネルに適用される。この効果は、拡散性がゼロである場合を除き、様々な程度で存在する。

さらにまた、仮想マイクロホンを用いて上述のシステムは、仮想マイクロホンがソース角度、スピーカの位置および音場拡散性に応じて異なる音をもたらすので、正しい出力共分散行列（レベルおよびチャネル相関性）を保証しない。

提案されたコンセプトは、次の両方の問題を解決する。この場合、２つの選択肢が存在する（下記の図の中でのように）。つまり、余分な入力チャネルとして非相関チャネルを提供すること、または、デコリレータ混合コンセプトを使用すること、である。

図１０において、モジュール１００５は、共分散行列分析を行う。目標分散行列を公式化する場合、目標分散行列の定式化モジュール１０１８は、音場モデルだけでなくラウドスピーカーの構成も考慮に入れる。さらにまた、混合マトリックス定式化モジュール１０３０は、共分散行列の分析および目標共分散行列に基づくだけではなく、最適化基準、例えば、モジュール１０３２により提供されるＢ形式仮想マイクロホン混合マトリックスを生成している。
音場モデル１０１０は、図７の音場モデル７１０に対応することができる。混合マトリックス・アプリケーション・モジュール１０４０は、図７の混合マトリックス・アプリケーション・モジュール７４０に対応することができる。

さらなる適用例において、実施形態は、例えば、空間チャネル変換方式の調整、例えばダウンミックスするために提供される。チャネル転換、例えば、２２．２のオーディオトラックで自動５．１ダウンミックスを作ることは、チャネルを崩壊させることを含む。これは、提案されたコンセプトに対処することができる空間イメージの消失または変化を含むことができる。
また、以下の２つの変形例が、存在する。最初のものは、低い数の欠落しているチャネルに対するゼロ-エネルギー・チャネルを定めること以外のチャネルのより高い数の領域で、コンセプトを利用する。他のものは、異なるチャネル番号のためのマトリックス解決を直接定式化する。

表１は、いくつかの予想される使用事例で提案されたコンセプトの作用を例示する数値的な例のセットを示している。マトリックスは、リスト１において提供されるＭａｔｌａｂコード定式化される。リスト１は、図１２において例示される。

図１２のリスト１は、提案されたコンセプトのＭａｔｌａｂの実施を例示する。Ｍａｔｌａｂのコードは、各数値実施例で使用され、提案されたコンセプトの一般的な機能性を提供する。

第３の列は、５．０のアップミキシングステレオの場合を示している。
この例では、ステレオミックスの非干渉性成分は、均等且つインコヒーレントにサイドおよびリアスピーカに分配され、そして、コヒーレント成分が中央スピーカに配置されるように、目標共分散行列を設定している。信号の大きさが増加するので、残差信号は再びゼロではない。

第４の列は、インコヒーレントに、オリジナルの２つのリアチャネルが４つの新しいリアチャネルにアップミキシングされる、単純な５．０〜７．０のアップミキシングするケースを示す。この例では、処理は、調整が要求されるこれらのチャネルに集中することを示す。

ステレオおよびマルチチャネル再生時の空間知覚は、特に、知覚的に関連した周波数帯の信号共分散行列に依存することが確認されている。

チャネルの最適なクロスミキシングによって、信号の共分散行列を制御するためのコンセプトが提示されている。合理的なエネルギーの十分な独立信号成分が利用できないケースでは、必要に応じて、非相関エネルギーを供給する手段が提示された。

そのコンセプトは、その目的においてロバストであるとわかった。また、多種多様なアプリケーションが確認された。

上記のシナリオにおいて、システムは、小さい信号成分の大きな増幅を要求しないように、ＩＣＣ調整が設計されているので、残差信号は、必要とされない。

強化を行うには２通りの方法が記載され、同様の結果が得られます。後者は、マルチチャネル使用事例における実施することが容易である。

最後に、第３の実施例として、ダイレクト／拡散性モデルは、例えば、指向性オーディオコーディング（ＤｉｒＡＣ）が考慮されている。

若干の態様を装置との関連で説明してきたが、これらの態様は、また対応する方法の説明を表すことが明らかである。ここで、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応している。同様に、方法ステップの関連において説明した態様は、対応するブロックまたは対応する装置の項目や機能の説明を表す。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアにおいて、または、ソフトウェアで実施することができる。
実施は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリを使用して、実施することができる。そして、それぞれの方法が実行されるように、それは、プログラム可能なコンピュータシステムと協同する（または協同することができる）。

本発明の幾つかの実施形態は、電子的に読み取り可能な制御信号を有するデータ記憶媒体を含み、それは、ここに記載された方法の内の１つが行なわれるように、プログラム可能なコンピュータ・システムと協力することができる。

通常、本発明の実施例はプログラムコードを有するコンピュータ・プログラム製品として実施されることができる。そして、コンピュータ・プログラム製品がコンピュータで動く場合、方法のうちの１つを実行するために、プログラムコードが実施されている。プログラムコードは、例えば機械読み取り可読キャリアに格納することができる。

他の実施例は、本願明細書において記載されていて、機械読み取り可読キャリアまたは非一時的記憶媒体上に格納される方法の内の１つを実行するためのコンピュータ・プログラムを含む。

したがって、換言すれば、コンピュータ・プログラムが、コンピュータ上で実行されるとき、本発明の方法の実施形態は、本願明細書において記載されている方法の内の１つを実行するためのプログラムコードを有するコンピュータ・プログラムである。

したがって、本発明の方法のさらなる実施形態は、その上に記録され、本願明細書において記載されている方法のうちの１つを実行するために、コンピュータ・プログラムを含むデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。

本発明の方法のさらなる実施形態は、従って、データストリームまたは本明細書に記載のいずれかの方法を実行するためのコンピュータ・プログラムを表す信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばインターネットを介して、例えば、データ通信接続を介して転送されるように構成することができる。

更なる実施例は、処理手段としての例えばコンピュータまたはプログラム可能な論理装置）を構成するか、または、本願明細書において記載されている方法の１つを実行するように適合している。

更なる実施例は、本願明細書において記載されている方法のうちの１つを実行するために、その上にコンピュータ・プログラムがインストールされたコンピュータを含む。

いくつかの実施形態では、本願明細書において記載されている方法の機能のいくらかまたは全てを実行するために、プログラム可能な論理装置（例えば、フィールド・プログラム可能なゲート・アレイ）が用いられ得る。
いくつかの実施形態では、フィールド・プログラム可能なゲート・アレイは、本願明細書において記載されている方法の内の１つを実行するために、マイクロプロセッサと協働することができる。通常、その方法は、好ましくは任意のハードウェア装置によって実行される。

上述した実施形態は、本発明の原理のために単に例示的なものである。なお、本明細書に説明された構成、詳細の変更および変形は、他の当業者には明らかであろうことが理解される。したがって、間近に迫った特許クレームの範囲だけによって、そして、本願明細書において実施形態の説明および説明として示される具体的な詳細だけでないことによって制限されることが、意図である。

文献：
[1] C. Faller, "Multiple-Loudspeaker Playback of Stereo Signals", Journal of the Audio Engineering Society, Vol. 54, No. 11, pp. 1051-1064, June 2006.
[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, Vol. 55, No. 6, pp. 503-516, June 2007.
[3] C. Tournery, C. Faller, F. Kuech, J. Herre, "Converting Stereo Microphone Signals Directly to MPEG Surround", 128th AES Convention, May 2010.
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, "Parametric Coding of Stereo Audio," EURASIP Journal on Applied Signal Processing, Vol. 2005, No. 9, pp. 1305-1322, 2005.
[5] J. Herre, K. Kjuerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roeden, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Journal of the Audio Engineering Society, Vol. 56, No. 11, pp. 932-955, November 2008.
[6] J. Vilkamo, V. Pulkki, "Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation", Journal of the Audio Engineering Society, Vol. 57, No. 9, pp. 709-724, September 2009.
[7] Golub, G.H. and Van Loan, C.F., "Matrix computations", Johns Hopkins Univ Press, 1996.
[8] R. Rebonato, P. Jaeckel, "The most general methodology to create a valid correlation matrix for risk management and option pricing purposes", Journal of Risk, Vol. 2, No. 2, pp. 17-28, 2000.

Claims

複数のオーディオ入力チャネルを有するオーディオ入力信号から複数のオーディオ出力チャネルを有するオーディオ出力信号を生成する装置であって、
前記装置は、
前記オーディオ入力信号の第１の共分散特性を提供するプロバイダ（１１０）、および
前記複数のオーディオ入力チャネルの内の少なくとも２つに混合則を適用することによって、前記オーディオ出力信号を生成する信号プロセッサ（１２０）を含み、
前記信号プロセッサ（１２０）は、前記オーディオ入力信号の前記第１の共分散特性に基づいて、そして、前記第１の共分散特性と異なる前記オーディオ出力信号の第２の共分散特性に基づいて、前記混合則を決定するように構成される、装置。
前記プロバイダ（１１０）は、前記第１の共分散特性を提供するように適合され、前記第１の共分散特性は、第１の時間−周波数ビンのための第１の状態を有し、前記第１の共分散特性は、前記第１の時間−周波数ビンとは異なる第２の時間−周波数ビンのための前記第１の状態とは異なる第２の状態を有する、請求項１に記載の装置。
前記信号プロセッサ（１２０）は、前記第２の共分散特性に基づいて前記混合則を決定するように適合され、前記第２の共分散特性は、第３の時間−周波数ビンのための第３の状態を有し、前記第２の共分散特性は、前記第３の時間−周波数ビンとは異なる第４の時間−周波数ビンのための前記第３の状態とは異なる、第４の状態を有する、請求項１または請求項２に記載の装置。
前記信号プロセッサ（１２０）は、前記混合則を適用することによって前記オーディオ出力信号を生成するように適合され、前記複数のオーディオ出力チャネルの各々は、前記２つ以上のオーディオ入力チャネルの各々に依存する、請求項１〜請求項３のいずれか１項に記載の装置。
前記信号プロセッサ（１２０）は、誤差測度が最小となるように前記混合則を決定するように適合される、請求項１〜請求項４のいずれか１項に記載の装置。
前記信号プロセッサ（１２０）は、前記第２の共分散特性を決定することによって、前記混合則を決定するように構成され、前記信号プロセッサ（１２０）は、前記第１の共分散特性に基づいて前記第２の共分散特性を決定するように構成されている、請求項１〜請求項６のいずれか１項に記載の装置。
前記信号プロセッサ（１２０）は、前記混合則として、混合マトリックスを決定するように適合され、前記信号プロセッサ（１２０）は、前記第１の共分散特性に基づいて、そして、前記第２の共分散特性に基づいて、前記混合マトリックスを決定するように適合されている、請求項１〜請求項７のいずれか１項に記載の装置。
前記プロバイダ（１１０）は、前記オーディオ入力信号の第１の共分散行列を決定することによって前記第１の共分散特性を提供するように適合され、前記信号プロセッサ（１２０）は、前記第２の共分散特性として、前記オーディオ出力信号の第２の共分散行列に基づいて、前記混合則を決定するように構成されている、請求項１〜請求項８のいずれか１項に記載の装置。
前記プロバイダ（１１０）は、前記第１の共分散行列を決定するように適合され、前記第１の共分散行列の各対角値は、前記オーディオ入力チャネルの内の１つのエネルギーを示し、対角値でない前記第１の共分散行列の各値は、第１のオーディオ入力チャネルとは異なる第２のオーディオ入力チャネルとの間のチャネル間相関を示すようになっている、請求項９に記載の装置。
信号プロセッサ（１２０）は、前記第２の共分散行列に基づいて、前記混合則を決定するように構成され、前記第２の共分散行列の各対角値は、前記オーディオ出力チャネルの内の１つのエネルギーを示し、対角値ではない前記第２の共分散行列の各値は、第１のオーディオ出力チャネルおよび第２のオーディオ出力チャネル間のチャネル間相関を示すことを特徴とする、請求項９または請求項１０に記載の装置。
前記信号プロセッサ（１２０）は、中間信号を得るために、前記複数のオーディオ入力チャネルの少なくとも２つに前記混合マトリックスを適用することによって、そして、前記オーディオ出力信号を得るために、前記中間信号に残渣信号ｒを加えることによって前記オーディオ出力信号を生成するように適合される、請求項１４または請求項１５に記載の装置。
前記信号プロセッサ（１２０）は、
前記第１の共分散特性に基づいた前記混合則として、混合マトリックスを生成するための混合マトリックス定式化モジュール（４２０、５３０、６３０、７３０、８３０、１０３０）、および
前記オーディオ出力信号を生成するために、前記オーディオ入力信号に前記混合マトリックスを適用するための混合マトリックスアプリケーションモジュール（４３０、５４０、６４０、７４０、８４０、１０４０）を含む、請求項１に記載の装置。
前記プロバイダ（１１０）は、前記第１の共分散特性として分析結果を得るために、前記オーディオ入力信号の入力共分散特性を提供するための共分散行列解析モジュール（４１０、７０５、８０５、１００５）を含み、
前記混合マトリックス定式化モジュール（４２０、５３０、６３０、７３０、８３０、１０３０）は、前記分析結果に基づいて、前記混合マトリックスを生成するように適合される、請求項１８に記載の装置。
前記混合マトリックス定式化モジュール（４２０、５３０、６３０、７３０、８３０、１０３０）は、エラー基準に基づいて、前記混合マトリックスを生成するように適合される、請求項１８または請求項１９に記載の装置。
前記信号プロセッサ（１２０）は、サラウンド空間データ、チャネル間の相関データまたはオーディオ信号レベルデータを有する構成情報データを決定するために、空間データ判定部（５２０；６２０）をさらに含み、
前記混合マトリックス定式化モジュール（４２０、５３０、６３０、７３０、８３０、１０３０）は、前記構成情報データに基づいて、前記混合マトリックスを生成するように適合される、請求項１８〜請求項２０のいずれか１項に記載の装置。
前記信号プロセッサ（１２０）は、前記分析結果に基づいて、目標共分散行列を生成するための目標共分散行列定式化モジュール（７３０、１０１８）をさらに含み、
前記混合マトリックス定式化モジュール（４２０、５３０、６３０、７３０、８３０、１０３０）は、前記目標共分散行列に基づいて、混合マトリックスを生成するように適合される、請求項１９に記載の装置。
前記目標共分散行列定式化モジュール（１０１８）は、スピーカの構成に基づいて、前記目標共分散行列を生成するように構成される、請求項２２に記載の装置。
前記信号プロセッサ（１２０）は、前記入力チャネル間の相関データと異なり、入力チャネル間の相関データに基づいて、出力チャネル間の相関データを取得するための拡張モジュール（８１５）をさらに含み、
前記混合マトリックス定式化モジュール（４２０、５３０、６３０、７３０、８３０、１０３０）は、前記出力チャネル間の相関データに基づいて、前記混合マトリックスを生成するように適合される、請求項１８〜請求項１９に記載の装置。
複数のオーディオ入力チャネルを有するオーディオ入力信号から複数のオーディオ出力チャネルを有するオーディオ出力信号を生成するための方法であって、
前記方法は、
前記オーディオ入力信号の第１の共分散特性を提供するステップ、および
前記複数のオーディオ入力チャネルの少なくとも２つに混合則を適用することによって、前記オーディオ出力信号を生成するステップを含み、
前記混合則は、前記オーディオ入力信号の前記第１の共分散特性に基づいて、そして、前記第１の共分散特性とは異なる前記オーディオ出力信号の第２の共分散特性に基づいて決定される、方法。
コンピュータまたはプロセッサ上で実行される、請求項２５に記載の方法を実施するためのコンピュータプログラム。