JP5400954B2

JP5400954B2 - 音声フォーマット・トランスコーダ

Info

Publication number: JP5400954B2
Application number: JP2012509049A
Authority: JP
Inventors: オリバーティールガルト; コルネリアファルヒ; ファビアンケーヒ; ガルトジョバンニデル; ユルゲンヘルレ; マルクスカーリンガー
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2009-05-08
Filing date: 2010-05-07
Publication date: 2014-01-29
Anticipated expiration: 2030-05-07
Also published as: AU2010244393B2; CA2761439A1; RU2519295C2; BRPI1007730A2; CN102422348A; EP2427880B1; PL2427880T3; EP2249334A1; US20120114126A1; AU2010244393A1; RU2011145865A; ES2426136T3; MX2011011788A; KR20120013986A; KR101346026B1; US8891797B2; JP2012526296A; WO2010128136A1; CA2761439C; EP2427880A1

Description

本発明は、音声フォーマットのトランスコード（変換）の分野に関し、特に、パラメトリック符号化フォーマットのトランスコードに関する。

近年、マルチチャネル／マルチオブジェクト音声信号の符号化技術に関し、いくつかのパラメトリック技術が提案されている。各システムは、パラメトリック記述の形式や特定のスピーカ設定に対する依存性／独立性などのような特徴において、独自の長所及び短所を備えている。符号化の異なる手法に対しては、異なるパラメトリック技術が最適化されている。

一例として、マルチチャネル音声を表現する方向性音声符号化(ＤｉｒＡＣ)フォーマットが挙げられる。この方法は、複数の周波数サブ帯域のための、ダウンミックス信号と、方向性及び拡散性を示すパラメータを含むサイド情報と、に基づいている。このパラメータ化により、ＤｉｒＡＣシステムを、例えば方向性フィルタリングを容易に実現するために使用することができ、さらに、音声を収音するために使用されるマイクロホン・アレイに対して特定方向の起源位置を持つ音声を隔離するためにも使用することができる。このように、ＤｉｒＡＣは所定の空間処理が可能な音響的フロントエンドとしても認識することができる。

さらなる例としては、非特許文献１、非特許文献２、非特許文献３が挙げられるが、これらは多数の音声オブジェクトをビットレート効率の良い方法で含む音声シーンを表現する、パラメトリック符号化システムである。

これらの方法においては、上記音声シーンの表現はダウンミックス信号とパラメトリック・サイド情報とに基づいている。元の空間音声シーンをそれらがマイクロホン・アレイを用いて収音された時と同じ状態に表現することを目的とするＤｉｒＡＣとは対照的に、ＳＡＯＣ（空間音声オブジェクト符号化）は、自然の音声シーンを再現することを目的とはしていない。代わりに、複数の音声オブジェクト（音源:sound source）が伝送され、復号化端末においてユーザの好みに従う目標音声シーンになるよう、ＳＡＯＣ復号器内で結合される。即ち、ユーザは、各音声オブジェクトを自由かつ双方向形式で配置し操作することができる。

一般に、マルチチャネルの再現及び受聴では、受聴者は多数のスピーカによって包囲されている。特定の設定のための音声信号を取り込むための様々な方法が存在する。このような再現における１つの一般的な目標は、もともと録音された信号の空間的配置、すなわちオーケストラの中でのトランペットの位置といった個々の音源の起源位置を再現することである。幾つかのスピーカ設定はかなり一般的であるが、これらは異なる空間的印象を作り出すことができる。公知の２チャネルステレオ設定では、特別な生成後技術（post-production techniques）を用いなければ、２つのスピーカ間を結ぶ線上に聴覚的事象を再現することしかできない。このような再現は主として、１つの音源に関連した信号の振幅が、２つのスピーカ間において、これらスピーカに対する当該音源の位置に依存して分配される、いわゆる「振幅パンニング」によって達成される。これは通常、録音又はその後のミキシングの際に実行される。その結果、受聴位置に対して左端から到来する音源は主として左のスピーカによって再現され、一方、受聴位置の前にある音源は両方のスピーカによって同じ振幅（レベル）で再現されることになる。しかしながら、他の方向から生じる音は再現できない。

受聴者の周りに配置されたより多くのスピーカを使用することで、より多くの方向が網羅可能であり、より自然な空間的印象を作り出すことができる。おそらく最も公知のマルチチャネルスピーカ配置は、５つのスピーカからなる５．１規格（ＩＴＵ−Ｒ７７５−１）であり、その場合、受聴位置に対するスピーカの方位角は０°、±３０°及び±１１０°となるよう規定されている。その結果、録音又はミキシングの際には信号がこの特定のスピーカ構成に合わせて調整される一方で、再現設定の方が当該規格からずれている場合には、再現品質の低下をもたらすことになる。

様々な数のスピーカが異なる方向に配置された他のシステムも、これまで多数提案されてきた。特に、劇場及び音響施設におけるプロ用システムは、異なる高さにあるスピーカをも含んでいる。

受聴環境における空間的印象が、録音環境において知覚されたであろう空間的印象と同じになるように録音し再現することを目的として、上述のスピーカシステムのために異なる再現設定に従ういくつかの異なる録音方法が考案され、提案されてきた。選択されたあるマルチチャネル・スピーカシステムのために空間的音声を録音する方法として、理論上の理想的方法とは、そのシステムに存在するスピーカと同じ数のマイクロホンを用いることである。その場合、あらゆる単一方向からの音声が少数のマイクロホン（１,２又はそれ以上）でのみ録音されるように、マイクロホンの指向性パターンもスピーカの配置に対応していなければならない。各マイクロホンはそれぞれ特定のスピーカに関連付けられる。再現に使用されるスピーカの数が増加するにつれて、マイクロホンの指向性パターンはより狭くなるべきである。しかしながら、狭い指向性のマイクロホンはむしろ高価であり、典型的には平坦ではない周波数応答を有し、録音された音声の品質を望ましくないように低下させてしまう。さらに、広すぎる指向性パターンを持つ複数のマイクロホンをマルチチャネル再現への入力として使用すると、色のついた（colored）不明瞭な音声的知覚をもたらしてしまう。なぜなら、単一方向から発せられる音声であるにも関わらず、異なるスピーカに関連するマイクロホンによっても録音されてしまうことから、その単一方向からの音声が常に必要以上のスピーカで再現されてしまうからである。一般的に、現時点で利用可能なマイクロホンは、２チャネルの録音及び再現に対して最適である。すなわち、これらのマイクロホンは、空間的印象で周囲を包むよう再現するという目的を持って設計されたものではない。

マイクロホン設計の観点からは、空間的音声再現における要求項目に対してマイクロホンの指向性パターンを適合させるように、いくつかの手法が議論されて来た。一般に、全てのマイクロホンは、マイクロホンに対する音声の到来方向に応じて、音声を異なるように捕捉している。つまり、マイクロホンは、録音される音声の到来方向に応じて異なる感度を有している。マイクロホンによっては、この方向とはほぼ無関係に音声を捕捉するため、この効果が小さいものもある。このようなマイクロホンは、一般に全方向性マイクロホンと呼ばれる。典型的なマイクロホン設計では、円形のダイアフラムが小さな気密囲いに取り付けられている。もしダイアフラムがその囲いに取り付けられておらず、音声がダイアフラムへと各側面から等しく到達する場合、マイクの指向性パターンは２つのローブを持つ。つまり、そのようなマイクロホンは、ダイアフラムの前方と後方との両方から等しい感度で、しかも逆の極性を持って音声を捕捉する。そのようなマイクロホンは、ダイアフラムの平面と一致する方向、すなわち最大感度の方向に対して垂直な方向から来る音声を捕捉しない。そのような指向性パターンは、双極子（dipole）又は８の字と呼ばれる。

全方向性マイクロホンは、気密でない囲いをマイクロホンに用いることで、指向性マイクロホンへと修正しても良い。当該囲いは、音波がこの囲いを通過して伝搬し、ダイアフラムへと到達できるように特別に構成されており、伝搬のいくつかの方向は、そのようなマイクロホンの指向性パターンが全方向性と双極子との間のパターンとなるよう構成されることが好ましい。それらのパターンは、例えば２つのローブを有しても良い。しかしながら、それらローブは異なる強度を有しても良い。公知のマイクロホンの中には、単一のローブだけを持つパターンを有するものもある。最も重要な例は、カージオイド（cardioid）パターンであり、ここでは方向関数ＤがＤ＝１＋ｃｏｓ（θ）で表わされ、θは音声の到来方向である。この方向関数は、入来する音声振幅のどの部分が捕捉されるかを、異なる方向に応じて定量化する。

上述の全方向性パターンは０次パターンとも呼ばれ、上述の他のパターン（双極子及びカージオイド）は１次パターンと呼ばれる。上述の全てのマイクロホン設計では、それらの指向性パターンが機械的構造によって全て決定されることから、指向性パターンを任意に成形することは不可能である。

この問題を部分的に解決するために、いくつかの特別な音響構造が設計されており、その構造は１次マイクロホンの指向性パターンよりも狭い指向性パターンを生成するのに使用することができる。例えば、穴を有する管を全方向性マイクロホンに取り付けることで、狭い指向性パターンを持つマイクロホンを生成することができる。これらのマイクロホンは、ショットガン・マイクロホン又はライフル・マイクロホンと呼ばれる。しかし、そのようなマイクロホンは、典型的には平坦な周波数応答を持たない。即ち、指向性パターンを狭くすれば、録音された音質は低下してしまう。さらに、指向性パターンは幾何学的構造によって規定されるため、そのようなマイクロホンで録音された音の指向性パターンは、録音後に制御することが不可能である。

そこで、実際の録音後に指向性パターンを部分的に変更することのできる他の方法が提案されている。一般に、これらの方法は、全方向性マイクロホン又は指向性マイクロホンのアレイを用いて録音し、その後に信号処理を適用するという基本的考えに基づいている。近年、そのような種々の技術が提案されている。非常に単純な例は、互いに近接して置かれた２つの全方向性マイクロホンで音声を録音し、両信号を互いから減算する方法である。この方法により、双極子と同等の指向性パターンを有する仮想のマイクロホン信号を生成できる。

より洗練された他のスキームとして、マイクロホン信号が合計される前にマイクロホン信号を遅延又はフィルタリングしても良い。この形成技術を使用すれば、各マイクロホン信号を特別に設計されたフィルタでフィルタリングし、そのフィルタリング後に信号を合計すること（フィルタ合計ビーム形成）により、狭いビームに対応する信号が形成される。しかしながら、これらの技術は、信号自体には注目していない。即ち、それらの技術は音声の到来方向を認識しているわけではない。そのため、所定の方向において音源が実際に存在するか否かとは無関係に、所定の指向性パターンを定義することもできる。一般に、音声の「到来方向」の推定方法は各方式に委ねられている。

一般に、上記の技術を用いて多数の様々な空間的指向特性を形成することができる。しかしながら、任意の空間選択的感度パターンを形成すること（つまり狭い指向性パターンを形成すること）は、多数のマイクロホンを必要とする。

マルチチャネル録音を実行する代替的な方法は、録音されるべき各音源（例えば機器）毎に１つのマイクロホンを近接して配置し、最終ミキシングにおいてその各クローズアップ・マイクロホンの信号レベルを制御することによって、空間的印象を再現することである。しかしながら、そのようなシステムは、最終的なダウンミックスを生成する際に、多数のマイクロホンと多くのユーザ相互操作とが必要とされる。

上記の問題を解決する方法として、方向性音声符号化（ＤｉｒＡＣ）が挙げられる。ＤｉｒＡＣは様々なマイクロホン・システムで使用することができ、任意のスピーカ設定で再現できるよう録音することができる。ＤｉｒＡＣの目的は、任意の幾何学的設定を有するマルチチャネル・スピーカシステムを用いて、実在する音響環境の空間的印象をできるだけ正確に再現することである。録音環境内において、（録音された連続的な音声又はインパルス応答でも良い）複数の環境応答を１つの全方向性マイクロホン（Ｗ）と１組のマイクロホンとを用いて測定することで、音の到来方向及び音の拡散性が測定できるようになる。

以下の段落及び本願明細書においては、「拡散性」という用語は、音の非指向性を示す値として理解されるべきである。つまり、あらゆる方向から等しい強度で受聴位置又は録音位置に到来する音は、最大限に拡散していると言える。拡散を定量化する一般的な方法は、間隔［０，…，１］の拡散値を用いることであり、ここで値１は最大限に拡散している音を表し、値０は完全に指向性を持つ音、即ち１つの明らかに識別可能な方向のみから到来する音を表す。音の到来方向を測定する公知の方法の１つは、直交座標軸に整列された３つの８の字型マイクロホン（ＸＹＺ）を適用することである。これまでに特殊なマイクロホン、いわゆる「Ｂフォーマット・マイクロホン」が設計されており、このマイクロホンはあらゆる所望の応答を直接的に生み出す。しかしながら、上述のように、Ｗ、Ｘ、Ｙ及びＺ信号はまた、１組のディスクリート方式の全方向性マイクロホンから計算されてもよい。

ＤｉｒＡＣ分析では、録音された音声信号は、人間の聴覚的知覚の周波数選択性に対応する周波数チャネルに分割される。つまり、当該信号は、例えばフィルタバンク又はフーリエ変換によって処理され、人間の聴覚の周波数選択性に適応した帯域幅を有する多数の周波数チャネルに分割される。その後、当該周波数帯域信号は、所定の時間分解能を用いて、各周波数チャネルについて音声の起源の方向と拡散値とを決定するために分析される。この時間分解能は固定である必要がなく、録音環境に適応可能であることは言うまでもない。ＤｉｒＡＣでは、１つ又はそれ以上の音声チャネルが、分析された方向及び拡散データとともに記録又は伝送される。

合成又は復号化において、各スピーカに最終的に適用される音声チャネルは、全方向性チャネルＷに基づいても良く（この場合、Ｗは使用されたマイクロホンの全方向性の指向パターンにより高品質で録音されている）、又は、各スピーカのための音声はＷ,Ｘ,Ｙ及びＺの重み付き合計として計算されても良く、その結果、各スピーカのために所定の指向特性を有する信号が形成される。符号化に応じて、各音声チャネルは複数の周波数チャネルへと分割され、それら周波数チャネルは、任意ではあるが分析された拡散性に応じて拡散及び非拡散のストリームへとさらに分割される。もし拡散性の値が高い場合には、両耳用キュー符号化にも使用されているデコリレーション技術のような音声の拡散知覚を生成する技術を使用して、拡散ストリームが再現されても良い。

非拡散の音声は、分析により見出された指向性データによって示される方向に位置する点状の仮想音像の生成を目指す技術、即ちＤｉｒＡＣ信号の生成を用いて再現される。つまり、空間的再現は、従来技術のように１つの特別で「理想的な」スピーカ設定（例えば５．１）に合わせて調整されるのではない。特に、音声の起源が録音の際に使用されたマイクロホンの指向性パターンについての情報を使用する指向性パラメータ（即ちベクトルによる記述）として決定される場合がそうである。上述のように、３次元空間における音声の起源は周波数選択的な方法でパラメータ化される。そのため、スピーカ設定の幾何学的構成が既知である限り、任意のスピーカ設定を用いて指向性の印象を高品質で再現できる。従って、ＤｉｒＡＣは、スピーカの特別な幾何学的構成に限定されず、一般的に音声のより柔軟な空間的再現を可能にする。

非特許文献４が教示するように、ＤｉｒＡＣは、１つ又は複数のダウンミックス信号と追加的なサイド情報とに基づいて空間音声信号を表現するシステムを提供する。そのサイド情報の中には、図５に示すように、複数の周波数帯域において音場の到来方向を拡散の程度で表す記述が、他の情報とともに含まれている。

図５はＤｉｒＡＣ信号を例示するものであり、例えば８の字型マイクロホン信号Ｘ，Ｙ，Ｚのような３つの方向性成分と全方向性信号Ｗとで構成されている。各信号は周波数ドメインにおいて有効であり、この点に関しては、図５において、各信号のために積み重ねられた多数の平面で示している。これら４つの信号に基づき、方向性及び拡散性の推定がブロック５１０と５２０において実行可能となり、これらのブロックは、その各周波数チャネルについての方向性及び拡散性の推定を例示している。これら推定の結果は、各周波数層についてパラメータθ(t,f),φ(t,f)及びΨ(t,f)により示され、それぞれ方位角、仰角及び拡散値を表している。

ＤｉｒＡＣのパラメータ化の方法は、例えば特別な話者の方向からの音声だけを通過させるなど、所望の空間特性を有する空間フィルタを容易に構成するために使用することができる。この構成は、図６，図７に示すように、ダウンミックス信号に対し、方向性／拡散性と、選択的には周波数とに依存する重み付けを適用することで達成される。

図６は音声信号を再構成するための復号器６２０を示す。復号器６２０は方向選択器６２２と音声処理器６２４とを備える。図６に示す実施例に従えば、複数のマイクロホンで録音されたマルチチャネル音声入力６２６が方向分析器６２８により分析され、この分析器は音声チャネルのある部分の起源方向、即ち分析された信号部分の起源の方向を示す方向パラメータを導出する。あるマイクロホンに対してエネルギーの大部分が降り注いでいる方向を選択することで、特定の信号部分のそれぞれについて録音位置が決定される。このような方法は、例えば上述したＤｉｒＡＣのマイクロホン技術を用いても実行することができる。録音された音声情報に基づく他の方向分析方法も、この分析を実施するために用いられてもよい。その結果、方向分析器６２８は、音声チャネル又はマルチチャネル信号６２６のある部分の起源方向を示す方向パラメータ６３０を導出する。さらに、方向分析器６２８は、各信号部分について、例えば当該信号の各周波数区間又は各時間フレームについて、拡散パラメータ６３２を導出しても良い。

方向パラメータ６３０と、任意ではあるが拡散パラメータ６３２とは、方向選択器６２２へと伝送され、この方向選択器は、ある録音位置に対する音源の所望の方向、又は再現された音声信号のある再現部分の所望の方向を選択する。この所望の方向についての情報は、音声処理器６２４に送られる。音声処理器６２４は少なくとも１つの音声チャネル６３４を受け取り、このチャネル６３４は方向パラメータが導出された１つの部分を有している。音声処理器によって調整される少なくとも１つのチャネルとは、例えば従来のマルチチャネル・ダウンミックス・アルゴリズムによって生成されるマルチチャネル信号６２６のダウンミックスであっても良い。非常に単純な一例として、マルチチャネル音声入力６２６の信号の直接的な合計が挙げられるであろう。しかし、本発明の概念は入力チャネルの数によって制限されず、全ての音声入力チャネル６２６は、音声復号器６２０によって同時に処理されることができる。

音声処理器６２４は、上記音声部分を調整し、再構築された音声信号の再構築された上記部分を導出する。ここで、調整とは、起源の所望の方向に近い起源の方向を示す方向パラメータを有する音声チャネルのある部分の強度を、起源の所望の方向から離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分の強度よりも増大させることを含む。図６の例では、調整されるべき音声チャネルの部分にスケーリング係数６３６（ｑ）を乗算することによって調整が行なわれる。つまり、もし当該音声チャネルの部分が選択された所望の方向に近い方向に音源を持つと分析された場合には、その音声部分に対して大きなスケーリング係数６３６が乗算される。このように、音声処理器は、その入力に供給された音声チャネルの部分に応じて、再構築された音声信号の再構築された部分をその出力６３８において出力する。音声処理器６２４の出力６３８において破線でさらに示すように、このような処理はモノラル出力信号だけのために実行されるのではなく、出力チャネルの数が固定又は予め決定されていないマルチチャネル出力信号のために実行されても良い。

換言すれば、音声復号器６２０は、例えばＤｉｒＡＣで使用されるような方向分析器からその入力を受け取る。マイクロホン・アレイからの音声信号６２６は、人間聴覚システムの周波数分解能に従って周波数帯域へと分割されても良い。音声の方向及び選択的には音声の拡散性は、各周波数チャネルにおいて時間に依存して分析される。これらの特性は、例えば方向角度である方位角（ａｚｉ）及び仰角（ｅｌｅ）として、及び０と１との間で変化する拡散指数（Ψ）としてさらに伝達される。

次に、意図され又は選択された指向特性は、方向角度（ａｚｉ及びｅｌｅ）及び任意ではあるが拡散指数（Ψ）にも依存する重み付け操作を使用して、捕捉された信号に付与される。この重み付け操作は、異なる周波数帯域に対しては異なるように特定されても良いことは明らかであり、全般的に時間とともに変化する。

図７は、ＤｉｒＡＣ合成に基づく他の実施例を示す。詳しくは、図７の実施例は、分析された方向に応じて音声のレベルを制御することができる、ＤｉｒＡＣ再現の強化型として解釈されても良い。この実施例では、１つ又は複数の方向から来る音声を強調すること、或いは１つ又は複数の方向からの音声を抑制することが可能となる。マルチチャネル再現に適用される場合には、再現された音声画像の後処理が達成される。１つのチャネルだけが出力として使用される場合には、信号の録音の際に任意の指向性パターンを持つ１つの指向性マイクロホンを使用した場合と同等の効果が得られる。図７は、方向性パラメータの導出と、１つの伝送された音声チャネルの導出とを示す。この実施例における分析は、例えば１つの音場マイクロホンによって録音された、Ｂフォーマットのマイクロホン・チャネルＷ、Ｘ、Ｙ及びＺに基づいて実行される。

処理の操作はフレーム単位で実行される。そのため、連続的な音声信号は、フレーム境界での不連続性を避けるために、ウィンドウ関数によってスケーリングされたフレームへと分割される。ウィンドウ処理された信号フレームには、フーリエ変換ブロック７４０においてフーリエ変換が施され、マイクロホン信号はＮ個の周波数帯域へと分割される。説明を簡素化するため、以下の段落では任意の１周波数帯域の処理だけを説明し、残りの周波数帯域の処理も同様とする。フーリエ変換ブロック７４０は、分析されたウィンドウ処理済フレーム内においてＢフォーマットのマイクロホン・チャネルＷ、Ｘ、Ｙ及びＺの各々に存在する周波数成分の強度を記述する係数を導出する。これらの周波数パラメータ７４２は音声符号器７４４に入力され、音声チャネル及び関連する方向パラメータが導出される。図７に示す実施例では、伝送された音声チャネルは、全ての方向からの信号情報を有する全方向性チャネル７４６となるように選択されている。全方向性について及びＢフォーマットのマイクロホン・チャネルの方向性部分についての係数７４２に基づいて、方向性及び拡散性の分析が方向分析ブロック７４８によって行なわれる。

音声チャネルの当該分析された部分の音源方向は、全方向性チャネル７４６とともに音声信号を再構築するための音声復号器７５０に伝送される。拡散パラメータ７５２が存在する場合には、信号経路は非拡散経路７５４ａと拡散経路７５４ｂとに分岐される。拡散性Ψが低い場合には、エネルギー又は振幅の大部分が非拡散経路に残るように、非拡散経路７５４ａは拡散パラメータに従ってスケーリングされる。逆に、拡散性が高い場合には、エネルギーの大部分が拡散経路７５４ｂへとシフトされる。拡散経路７５４ｂでは、デコリレータ７５６ａ又は７５６ｂを使用して信号がデコリレート又は拡散される。デコリレーションは、白色ノイズ信号を用いた畳み込み操作のような従来から公知の技術を用いて実行されても良く、この場合、白色ノイズ信号は周波数チャネル毎に異なっていても良い。デコリレーションはエネルギーを保存するため、最終的な出力信号は非拡散信号経路７５４ａ及び拡散信号経路７５４ｂの信号を出力で単に加算することによって生成することができる。なぜなら、拡散パラメータΨによって示されるように、これらの信号経路における信号は既にスケーリングされているからである。

マルチチャネル設定のために再構築が実行される場合、直接信号経路７５４ａと拡散信号経路７５４ｂとは、それぞれ分岐位置７５８ａと７５８ｂとにおいて、個々のスピーカ信号に対応する複数のサブ経路へと分岐される。そのため、分岐位置７５８ａ及び７５８ｂにおける分岐操作は、多数のスピーカを有するスピーカシステムを介した再現のための、少なくとも１つの音声チャネルをマルチチャネルへとアップミックスする操作と同じと解釈することもできる。

マルチチャネルの各々は、音声チャネルのチャネル部分７４６を有する。個々の音声部分の音源方向は、方向再生（redirect）ブロック７６０によって再構築されるが、このブロックでは、再現のために使用されるスピーカに応じてそれらチャネル部分の強度又は振幅が追加的に増大又は減少させられる。そのため、方向再生ブロック７６０は通常、再現に用いられるスピーカ設定についての情報を必要とする。実際の再分配（方向再生）及び関連する重み係数の導出は、例えばベクトルに基づく振幅パンニングのような技術を用いて実行することができる。幾何学的に異なるスピーカ設定を再分配ブロック７６０に与えることにより、本発明の実施例においては、再現品質を損失することなく、再現スピーカの任意の構成が使用可能となる。この処理の後、逆フーリエ変換ブロック７６２により、周波数ドメインの信号に対して多数の逆フーリエ変換が行なわれ、個々のスピーカによって再生可能な時間ドメイン信号が導出される。その再生の前に、合計ユニット７６４がオーバーラップ及び加算の技術を実行し、各スピーカにより再現されるべく準備が整うように、個々の音声フレームを連結して連続的な時間ドメイン信号を導出する。

図７に示す実施例によれば、ＤｉｒＡＣの信号処理は、実際に処理された音声チャネルの部分を修正するための音声処理器７６６を導入するという点において補正されており、それにより所望の方向に近い起源方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることが可能となる。この操作は、直接信号経路に対して追加的な重み係数を適用することによって達成される。もし処理された周波数部分が所望の方向から生じている場合、当該信号は追加的な利得をその特定の信号部分に適用することによって強調される。利得の適用は、その効果が全てのチャネル部分に等しく寄与するように、分岐点７５８ａの前で実行されても良い。

このような追加的な重み係数の適用は、再分配ブロック７６０内で実行されても良い。その場合、再分配ブロック７６０は、追加的な重み係数によって増大された再分配用利得係数を適用する。

マルチチャネル信号の再構築において方向性を強化する場合、図７に示すように、例えばＤｉｒＡＣレンダリングの形式で再現を行うことができる。再現されるべき音声チャネルは、方向分析のために使用される周波数帯域と等しい周波数帯域へと分割される。その後、これら周波数帯域は、ストリーム、即ち拡散及び非拡散のストリームへと分割される。拡散ストリームは、例えば３０ｍｓの白色ノイズバーストによる畳み込みの後に当該音声を各スピーカに送ることにより再現される。このノイズバーストは、各スピーカにより異なっている。非拡散ストリームは、方向分析からもたらされる方向に適用されるが、この方向分析は当然ながら時間に依存している。マルチチャネルのスピーカシステムにおいて方向性の知覚を達成するため、単純な２つ毎（pair-wise）又は３つ毎（triplet-wise）の振幅パンニングを使用しても良い。さらに、各周波数チャネルは、分析された方向に応じて、利得係数又はスケーリング係数によって乗算される。一般論として、関数を特定できれば、再現のための所望の指向性パターンを定義できる。このパターンは、例えば強調されるべき単一方向のみであっても良い。しかし、図７の実施例によれば、任意の指向性パターンを容易に構成することが可能である。

以下の説明においては、さらなる実施例を処理ステップのリストとして記述する。このリストは以下の前提に基づくものである。即ち、音声はＢフォーマットのマイクロホンを用いて録音されており、その後、音声は、ＤｉｒＡＣ形式のレンダリング又は当該音声チャネルの各部分の起源方向を示す方向パラメータを供給するレンダリングを使用した、マルチチャネル又はモノラルのスピーカ設定を用いて受聴するために処理される、という前提に基づくものである。

第１に、マイクロホン信号を周波数帯域へと分割し、方向性と任意ではあるが拡散性とについて、周波数に依存する各帯域毎に分析することができる。一例として、方向性は方位角及び仰角（ａｚｉ，ｅｌｅ）を用いてパラメータ化されても良い。第２に、所望の指向性パターンを記述する関数Ｆを特定することができる。その関数は、任意の形式を持っても良く、典型的には方向に依存する。拡散情報が利用可能な場合には、その関数はさらに拡散性に依存しても良い。その関数は、異なる周波数については異なることができ、さらに、時間に応じて変化しても良い。各周波数帯域において、各時間区間ごとに関数Ｆからある方向性ファクタｑを導出することができ、この方向性ファクタｑは後の音声信号の重み付け（スケーリング）のために使用されるものである。

第３に、出力信号を形成するため、音声サンプル値に対し、各時間及び周波数部分に応じた方向性ファクタの値ｑが乗算されても良い。この処理は時間ドメイン及び／又は周波数ドメインの表現において実行されても良い。さらに、この処理は、例えば任意の数の出力チャネルへのＤｉｒＡＣレンダリングの一部として構成されても良い。

上述のように、処理の結果はマルチチャネル又はモノラルのスピーカシステムを用いて受聴することができる。近年、多数の音声オブジェクトを含む音声シーンをビットレート効率良く伝送／記憶するためのパラメトリック技術が提案されており、例えば、非特許文献５が教示する両耳キュー符号化（ＢＣＣ）（タイプ１）、非特許文献６が教示するジョイントソース符号化、非特許文献７及び８が教示するＭＰＥＧ空間音声オブジェクト符号化（ＳＡＯＣ）などが挙げられる。

これらの技術は、所望の出力音声シーンを波形の合致により再構成するのではなく、むしろ知覚的に再構成することを目標としている。図８はそのようなシステム（ここではＭＰＥＧ−ＳＡＯＣ）の概略図を示す。つまり、図８はＭＰＥＧ−ＳＡＯＣシステムの概略図である。このシステムはＳＡＯＣ符号器８１０とＳＡＯＣ復号器８２０とレンダリング装置８３０とを備えている。全体的な処理は周波数選択的な方法で実行することができ、以下に説明する処理は各周波数帯域において実行することができる。ＳＡＯＣ符号器はＮ個の入力音声オブジェクト信号を受け取り、このＳＡＯＣ符号器の処理の一部として、それらの信号はダウンミックスされる。ＳＡＯＣ符号器８１０はダウンミックス信号とサイド情報とを出力する。ＳＡＯＣ符号器８１０により抽出されたサイド情報は、入力音声オブジェクトの特徴を表現するものである。ＭＰＥＧ−ＳＡＯＣにおいて、全ての音声オブジェクトについてのオブジェクト・パワーは、サイド情報の中で最も重要な要素である。現実には、絶対値のオブジェクト・パワーの代わりに、オブジェクト・レベル差(ＯＬＤ)と呼ばれる相対値のパワーが伝送されている。オブジェクトのペア間の干渉性／相関関係はオブジェクト間コヒーレンス(ＩＯＣ)と呼ばれ、入力音声オブジェクトの特性をさらに記述するために使用することができる。

ダウンミックス信号とサイド情報とは伝送又は記憶することができる。この目的のために、ダウンミックス信号は、ＭＰ３，ＭＰＥＧ高圧縮率音声符号化(ＡＡＣ)等としても知られるＭＰＥＧ−１,レイヤ２又は３のような、公知の知覚的音声符号器を使用して圧縮されても良い。

受信側においては、ＳＡＯＣ復号器８２０が、伝送されたサイド情報を使用して、概念的にはオリジナルのオブジェクト信号を復元しようと試行する。この作業はオブジェクトの分離と呼ぶこともできる。近似されたオブジェクト信号は、次にレンダリング装置８３０により適用されるレンダリング行列を使用して、Ｍ個の音声出力チャネルにより表現される目標シーンへとミックスされる。効率が良いことには、オブジェクト信号の分離は一度も実行されることはない。なぜなら、分離ステップとミキシングステップとの両方が単一のトランスコードステップへと結合されているからであり、その結果、演算上の複雑さを大きく低減させることができる。

このようなスキームは、伝送ビットレートと演算の複雑さとの両方の点において非常に効率的である。なぜなら、伝送においてはＮ個のオブジェクト音声信号＋レンダリング情報又はディスクリートシステムに代えて、少数個のダウンミックスチャネル＋いくつかのサイド情報を伝送するだけで良いからであり、演算においては、処理の複雑さは、音声オブジェクトの数ではなく、主に出力チャネルの数に関係するからである。受信側のユーザにとってのさらなる利点として、ユーザ自身が例えばモノラル,ステレオ,サラウンド,仮想化されたヘッドホン再生などのようなレンダリング設定を選択し、ユーザ双方向性の特徴を選択する自由を持つことが挙げられる。レンダリング行列、つまりその結果の出力シーンは、ユーザの意思,個人的嗜好又は他の基準に従って、例えば１つのグループに属する話者は１つの空間領域内に一緒に配置して残りの他の話者から最大限に区別するなどのように、ユーザによって双方向形式で設定及び変更が可能となる。このような双方向性は、復号器ユーザインターフェイスを提供することで達成される。

以下に、ＳＡＯＣをＭＰＥＧサラウンド(ＭＰＳ)へとトランスコードしてマルチチャネル・レンダリングする場合の一般的なトランスコード概念を考察する。一般的に、ＳＡＯＣの復号化はトランスコード処理を用いて実行することができる。ＭＰＥＧ−ＳＡＯＣは、全て単一の音声オブジェクトから成る目標音声シーンを関連するＭＰＥＧサラウンド・フォーマットへとトランスコードすることで、マルチチャネル音声再現設定へとレンダリングする。この点に関する参考文献として、非特許文献９を挙げることができる。

図９によれば、ＳＡＯＣのサイド情報はブロック９１０で解析され、再現形態についてユーザから供給されるデータとオブジェクト・レンダリング・パラメータとともにブロック９２０でトランスコードされる。加えて、ＳＡＯＣダウンミックス信号は、ダウンミックス・前処理装置９３０により調整される。このように処理されたダウンミックスとＭＰＳサイド情報との両方が、次に最終的なレンダリングのためにＭＰＳ復号器９４０へと送られることができる。

従来の概念には次のような欠点がある。即ち、例えばＤｉｒＡＣの場合のように、構成の実現は容易ではあるがユーザの情報若しくはユーザの個々のレンダリングは適用できないか、又は、例えばＳＡＯＣの場合のように、ユーザの情報を考慮することができるが構成の実現はより複雑となるか、のいずれか一方となってしまう。

Spatial Audio Object Coding (SAOC) ISO/IEC, "MPEG audio technologies _ Part. 2 : Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2 J. Herre, S. Disch, J. Hilpert, O. Hellmuth:"From SAC to SAOC _ Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007 J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen:"Spatial Audio Object Coding (SAOC) _ The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377 Pulkki, V., "Directional audio coding in spatial sound reproduction and stereo upmixing," In Proceedings of The AES 28th International Conference, pp. 251-258, Pitea , Sweden, June 30-July 2, 2006 C. Faller and F. Baumgarte, "Binaural Cue Coding _ Part II: Schemes and applications", IEEF Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003 C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752 J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC to SAOC _ Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007 J. Engdegaerd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) _ The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377) J. Herre, K. Kjoerling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround _ The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084 Markus Kallinger, Giovanni Del Galdo, Fabian Kuech, Dirk Mahne, Richard Schultz-Amling, "SPATIAL FILTERING USING DIRECTIONAL AUDIO CODING PARAMETERS", ICASSP 09 SAOC standard ISO/IEC,"MPEG audio technologies _ Part 2: Spatial Audio Object Coding (SAOC)," ISO/IECJTC1/SC29/WG11 (MPEG) FCD 23003-2)

本発明の目的は、構成の実現が容易であり、ユーザの個別の操作が可能となる、音声符号化の概念を提供することにある。

上述の目的は、請求項１に記載の音声フォーマット・トランスコーダ(変換器)と、請求項１１に記載の音声フォーマット・トランスコードの方法とにより達成される。

本発明が基づく知見は、方向性音声符号化の能力と空間音声オブジェクト符号化の能力とは結合可能であるというものである。さらに本発明は、方向性音声成分は分離された音源の値又は信号へと変換できるという知見にも基づいている。本発明の実施例は、ＤｉｒＡＣ及びＳＡＯＣの各システムの能力を効率的に結合する手段を提供すると言うことができる。つまり、生来の空間フィルタリング能力を備えたＤｉｒＡＣを音響的フロントエンドとして使用し、かつ入来する音声を音声オブジェクトへと分離するためにこのＤｉｒＡＣシステムを使用し、次にそれら音声オブジェクトはＳＡＯＣを使用して表現されレンダリングされるという手段を提供する。さらに本発明の実施例によれば、サイド情報の２つのタイプを変換することで、かつ好適にはいくつかの実施例においてはダウンミックス信号に手を加えることなく、ＤｉｒＡＣ表現からＳＡＯＣ表現への変換を非常に効率良く実行できるという利点を提供できる。

本発明の好ましい実施形態を、添付の図面を参照してさらに詳しく説明する。
音声フォーマット・トランスコーダの一実施例を示す。音声フォーマット・トランスコーダの他の実施例を示す。音声フォーマット・トランスコーダのさらに他の実施例を示す。方向性音声成分の重ね合わせを示す図である。ある実施例で使用される例示的な重み係数を示す。ある実施例で使用される例示的なウィンドウ関数を示す。ＤｉｒＡＣの技術を示す。方向性分析の技術を示す。ＤｉｒＡＣのレンダリングと結合した方向性の重み付けの技術を示す。ＭＰＥＧ−ＳＡＯＣシステムの概略を示す。ＳＡＯＣからＭＰＳへのトランスコード技術を示す。

図１は入力音声信号をトランスコード（変換）するための音声フォーマット・トランスコーダ１００を示し、入力音声信号は少なくとも２つの方向性音声成分を有する。音声フォーマット・トランスコーダ１００は入力信号を変換済信号へと変換する変換器１１０を備え、その変換済信号は変換済信号表現と変換済信号到来方向とを有する。さらに、音声フォーマット・トランスコーダ１００は、少なくとも２つの空間音源(spatial audio sources)の少なくとも２つの空間位置を提供する位置提供器１２０を備えている。この少なくとも２つの空間位置はアプリオリ(a-priori：外部入力)により既知であっても良い。即ち、例えばユーザによって与えられ若しくは入力されていても良く、又は、変換済信号に基づいて決定若しくは検出されても良い。音声フォーマット・トランスコーダ１００は、前記少なくとも２つの空間位置に基づいて変換済信号表現を処理することで少なくとも２つの分離された音源値を取得する、処理器１３０をさらに備えている。

本発明の実施例は、ＤｉｒＡＣとＳＡＯＣの各システムの能力を効率的に結合するための手段を提供することもできる。本発明の他の実施例を図２に示す。図２は別の音声フォーマット・トランスコーダ１００を示し、この中では、変換器１１０はＤｉｒＡＣ分析ステージ３０１として構成されている。本実施例においては、音声フォーマット・トランスコーダ１００は、ＤｉｒＡＣ信号，Ｂフォーマット信号又はマイクロホン・アレイからの信号に従う入力信号をトランスコードするように適用されていても良い。図２に示す実施例によれば、ＤｉｒＡＣ分析ステージ又はブロック３０１で示すように、Ｂフォーマット・マイクロホン、又は代替的にはマイクロホン・アレイを使用して空間音声シーンを取り込むための音響的フロントエンドとして、ＤｉｒＡＣを使用することができる。

上述した各実施例においては、音声フォーマット・トランスコーダ１００、変換器１１０、位置提供器１２０及び／又は処理器１３０は、いくつかの周波数帯域及び／又は時間セグメント又は時間フレームに関して、入力信号を変換しても良い。

各実施例においては、変換器１１０は、周波数サブ帯域毎の拡散及び／又は信頼値をさらに有する変換済信号へと入力信号を変換しても良い。

図２においては、変換済信号は「ダウンミックス信号」とも名付けられている。図２に示す実施例においては、音響信号を各周波数サブ帯域内における方向性の値と任意ではあるが拡散性及び信頼性の値とにパラメータ化するＤｉｒＡＣ式パラメータ化は、位置提供器１２０によって使用されても良い。即ち、「音源数と位置の計算」のブロック３０４によって、音源が活性状態である空間位置を検出するために使用されても良い。図２の中で「ダウンミックス・パワー」と名付けられた破線に従えば、そのダウンミックス・パワーは位置提供器１２０へと提供されても良い。

図２に示す実施例では、処理器１３０は、空間フィルタ３１１,３１２，３１Ｎを構成するために、空間位置と任意ではあるが他のアプリオリ的知識とを使用しても良い。これら空間フィルタのために、各音源を隔離又は分離させる目的で、ブロック３０３において重み係数が計算される。

換言すれば、本発明の実施例においては、処理器１３０が少なくとも２つの分離された音源の各々のための重み係数を決定しても良い。さらに、これら実施例においては、処理器１３０は、少なくとも２つの空間フィルタを用いて前記変換済信号表現を処理し、少なくとも２つの隔離された音源を、前記少なくとも２つの分離された音源の値としての少なくとも２つの分離された音源信号で近似することもできる。この場合の音源の値は、例えば各信号又は各信号パワーに対応したものでも良い。

図２に示す実施例では、少なくとも２つの音源は、Ｎ個の音源及びそれらに対応する信号によってより一般的に表されている。つまり、図２においては、Ｎ個のフィルタ又は合成ステージが３１１,３１２,・・・,３１Ｎとして示されている。これらＮ個の空間フィルタにおいては、ＤｉｒＡＣダウンミックス即ち全方向性成分の信号が近似された分離済の音源の１セットをもたらし、このセットがＳＡＯＣ符号器への入力として使用可能となる。換言すれば、本発明の実施例においては、分離済の音源は個別の音声オブジェクトとして解釈されることができ、その後、ＳＡＯＣ符号器において符号化されることができる。従って、音声フォーマット・トランスコーダ１００の実施例は、少なくとも２つの分離された音源信号を符号化してＳＡＯＣダウンミックス成分とＳＡＯＣサイド情報成分とを有するＳＡＯＣ符号化済信号を取得する、ＳＡＯＣ符号器を備えていても良い。

上述の実施例は、離散型の一連のＤｉｒＡＣ方向性フィルタリングとその後のＳＡＯＣ符号化とを実行しても良い。これらの処理について、演算上の複雑さを軽減させる構造上の改善点を以下に説明する。上述のように、概略的に言えば、Ｎ個の分離された音源信号が実施例においてはＮ個のＤｉｒＡＣ合成フィルタバンク３１１〜３１Ｎを使用して再構成され、その後、ＳＡＯＣ符号器内のＳＡＯＣ分析フィルタバンクを使用して分析されても良い。ＳＡＯＣ符号器は、次に分離されたオブジェクト信号から合計／ダウンミックス信号を再度計算する。実際の信号サンプルを処理することは、パラメータ・ドメインでの計算よりも演算上さらに複雑になる可能性もある。パラメータ・ドメインでの計算はかなり低いサンプリングレートにおいて行われる可能性があり、これについては後段で説明する。

上述の計算方法を用いることで、本発明の実施例は非常に効率的な処理を提供できる。本発明の実施例は、次の２つの簡略化を備えていても良い。第１に、いくつかの実施例においてはＤｉｒＡＣ及びＳＡＯＣの両方のスキームのための周波数サブ帯域が実質的に同じとなり得るフィルタバンクを使用して、ＤｉｒＡＣ及びＳＡＯＣの両方を動作させても良い。好適には、いくつかの実施例においては、単一で同一のフィルタバンクが両方のスキームに使用される。この場合、ＤｉｒＡＣ合成フィルタバンクとＳＡＯＣ分析フィルタバンクとを省略することができ、その結果、演算上の複雑さと算術上の遅延が低減される。代替的に、本発明の実施例は、２つの異なるフィルタバンクであって比較可能な周波数サブ帯域・グリッド上のパラメータを提供するフィルタバンクを使用しても良い。このような実施例におけるフィルタバンクの演算の低減量は、それ程大きくはならないかもしれない。

第２に、本発明の実施例においては、分離された音源信号をそのままで演算するのではなく、パラメータ・ドメインの計算だけで分離の効果が達成されても良い。換言すれば、ある実施例では、処理器１３０は、少なくとも２つの分離された音源の各々について少なくとも２つの分離された音源の値として、例えばパワー又は正規化されたパワーのようなパワー情報を推定しても良い。このような実施例においては、ＤｉｒＡＣダウンミックス・パワーが演算されても良い。

実施例によっては、所望の／検出された音源位置のそれぞれについて、方向と任意ではあるが拡散とに依存し、さらに意図された分離特性に依存して、方向性の重み付け／フィルタリング用重みを決定することができる。このような実施例では、分離された信号の各音源のためのパワーは、ダウンミックス・パワーとパワー重み係数との積から推定することができる。これらの実施例では、処理器１３０は、少なくとも２つの分離された音源のパワーをＳＡＯＣ−ＯＬＤ（オブジェクト間レベル差）へと変換することができる。

これらの実施例は、上述の流れに沿った処理方法を、実際のダウンミックス信号の処理を含むことなく実行しても良い。加えて、ある実施例では、オブジェクト間コヒーレンス(ＩＯＣ)もまた演算されても良い。このような演算は、方向性の重み付けと、変換済ドメインのダウンミックス信号とを考慮することで達成される。

本発明の実施例においては、処理器１３０は少なくとも２つの分離された音源についてＩＯＣを計算しても良い。一般的には、この処理器（１３０）は、少なくとも２つの分離された各音源の内の２つについてＩＯＣを計算しても良い。本発明の実施例においては、位置提供器１２０は、変換済の信号を基にして、少なくとも２つの空間音源の少なくとも２つの空間位置を検出する検出器を含んでも良い。さらに、位置提供器／検出器１２０は、この少なくとも２つの空間位置を多数の連続した入力信号時間セグメントを結合することで検出しても良い。また、位置提供器／検出器１２０は、この少なくとも２つの空間位置をパワーの空間密度についての最尤法に基づいて検出しても良い。位置提供器／検出器１２０は、変換済の信号に基づいて空間音源の位置の重なり度(multiplicity)を検出しても良い。

図３は、音声フォーマット・トランスコーダ１００の他の実施例を示す。図２に示す実施例と同様に、変換器１１０は「ＤｉｒＡＣ分析」ステージ４０１として構成されている。さらに、位置提供器／検出器１２０は、「音源数と位置の計算」ステージ４０４として構成されている。処理器１３０は、「重み係数計算」ステージ４０３と、分離された音源のパワーを計算するステージ４０２と、ＳＡＯＣ−ＯＬＤ及びビットストリームを計算するステージ４０５とを含む。

図３に示す実施例においては、マイクロホン・アレイを使用するか、代替的にはＢフォーマットのマイクロホンを使用して信号が取り込まれ、「ＤｉｒＡＣ分析」ステージ４０１へと送られる。この分析器は、１つ以上のダウンミックス信号と、瞬間的なダウンミックス・パワー及び方向の推定を含む各処理用時間フレームのための周波数サブ帯域情報とを発信する。追加的に、「ＤｉｒＡＣ分析」ステージ４０１は、拡散値及び／又は方向性推定の信頼度の値を提供しても良い。この情報と、瞬間的なダウンミックス・パワーのような他のデータがあればそのデータとに基づいて、音源数とそれらの位置との推定が、位置提供器／検出器１２０即ちステージ４０４によって、例えば時間的に連続した複数の処理用時間フレームからの値を結合させるなどのような方法で、各々実行される。

処理器１３０は、ステージ４０３において、各音源のための方向性重み係数とその位置を、処理された時間フレームの推定された音源位置と、方向性の値と任意ではあるが拡散性及び／又は信頼性の値とから導出しても良い。まず、ステージ４０２においてダウンミックス・パワー推定値と重み係数とを結合し、ステージ４０５においてＳＡＯＣ−ＯＬＤを導出しても良い。また、実施例によっては、完全なＳＡＯＣビットストリームが生成されても良い。追加的に、処理器１３０は、ダウンミックス信号を考慮しかつ図３に示す実施例における処理ブロック４０５を利用して、ＳＡＯＣ−ＩＯＣを計算しても良い。実施例においては、これらのダウンミックス信号とＳＡＯＣサイド情報とは、次にＳＡＯＣ復号化あるいはレンダリングのために、一緒に記憶されるか又は伝送されても良い。

「拡散性の値」とはパラメータであり、各時間−周波数ｂｉｎについて、音場がいかに「拡散」しているかを記述するものである。普遍性を失うことなく、この「拡散性の値」は［０，１］の範囲内で定義され、拡散値＝０は、例えば１つの理想平面波のような完全にコヒーレントな音場を表し、他方、拡散値＝１は、例えば空間的に広がった多数の音源が互いに無関係の雑音を発生している場合のような十分に拡散した音場を表している。いくつかの数学的表現が拡散値として使用できる。例えば、非特許文献５においては、活性強度(active intensity)と音場のエネルギーとを比較して入力信号をエネルギー的に分析する方法によって、拡散値が計算されている。

以下に、信頼性の値について説明する。到来方向の推定装置にもよるが、計算値（metric）を導出することは可能であり、この計算値は各時間―周波数ｂｉｎにおける各方向推定がどの程度信頼性があるのかを表現するものである。この情報は、ステージ４０４における音源の個数と位置の決定において利用可能であり、且つ、ステージ４０３における重み係数の計算でも利用可能である。

以下に、処理器１３０及び「音源の数と位置の計算」ステージ４０４の実施例を詳細に説明する。各時間フレームに関する音源の個数と位置とは、アプリオリの知識、即ち外部入力であっても良いし、又は自動的に推定されても良い。後者の場合には複数の手法が可能である。例えば、実施例によってはパワーの空間密度についての最尤推定量を使用しても良い。この場合、入力信号のパワー密度が方向に関して計算される。音源がフォン・ミーゼス(von Mises)分布を示すと仮定した場合、最高確率を持つ解を選択することで、存在する音源の数とそれらの位置とを推定することができる。例示的なパワーの空間的分布を図４ａに示す。

図４ａは、例示的に２つの音源が存在するとして、パワーの空間密度を可視的に示すグラフである。図４ａは、縦軸に相対的パワーをｄＢで示し、横軸に方位角を示す。さらに、図４ａは３つの異なる信号を示す。１つ目は実際のパワー空間密度であり、細い実線で描いた雑音状の線である。加えて、太い実線は第１の音源の理論的なパワー空間密度を示し、太い破線は第２の音源の理論的なパワー空間密度を示す。この実験に最適なモデルは２つの音源を有し、それぞれ＋４５度と−１３５度の位置に配置されている。他のモデルにおいては、仰角をさらに利用しても良い。その場合には、パワーの空間密度は３次元の関数となる。

以下に、処理器１３０の他の構成、特に重み計算ステージ４０３について詳細に説明する。この処理ブロックは、抽出されるべき各オブジェクトのための重みを計算する。その重みは、ブロック４０１におけるＤｉｒＡＣ分析により提供されたデータと、ブロック４０４から提供された音源の個数とその位置についての情報とを基にして計算される。それらの情報は全ての音源について一緒に又は別々に処理されても良く、各オブジェクトのための重みが他から独立して計算される。

ｉ番目のオブジェクトのための重みが各時間及び周波数ｂｉｎについて以下のように定義される。即ち、γ_i(k,n)が周波数指数ｋ及び時間指数ｎのための重みを示すと仮定すれば、ｉ番目のオブジェクトのためのダウンミックス信号の複素スペクトルは、次の式で計算することができる。

上述したように、このような方法で得られた信号はＳＡＯＣ符号器へと送られても良い。しかしながら、本発明の実施例は、ＳＡＯＣパラメータを重みγ_i(k,n)から直接的に計算することで、このステップを完全に省略することもできる。

以下に、本発明の実施例において重みγ_i(k,n)がいかに計算できるかを簡単に説明する。特に他の記述がない限り、以下に示す全ての量は(k,n)に、即ち、周波数指数と時間指数とに依存する。

拡散指数Ψ又は信頼性の値は、［０，１］の範囲内で定義され、Ψ＝１は完全に拡散した信号に対応すると仮定できる。さらに、θは到来方向を示し、以下の例においては方位角を示す。３次元への拡張も簡単である。

さらに、γ_iは重みを示し、この重みを用いてダウンミックス信号がスケールされてｉ番目のオブジェクトの音声信号が抽出される。Ｗ(k,n)はダウンミックス信号の複素スペクトルを示し、Ｗ_i(k,n)はｉ番目の抽出されたオブジェクトの複素スペクトルを示す。

第１の実施例においては、(θ,Ψ)ドメインの２次元関数が定義される。単純な実施例は、次式に従い２次元のガウス関数ｇ(θ,Ψ)を使用する。

ここで、αはオブジェクトが位置する方向を表し、σ² _θと σ² _Ψはガウス関数の幅を決定するパラメータ、即ち両方の次元に関する分散度(variances)を表す。Ａは、以下では１に等しいと推定できる振幅ファクタである。

重みγ_i(k,n)は、ＤｉｒＡＣ処理から得られるθ(k,n)及びΨ(k,n)の値について上記の数式を演算することで決定できる。

例示的な関数を図４bに示す。図４ｂにおいて、低い拡散値について有意の重み付けが発生していることが分かる。図４ｂでは、α＝−π/4 rad （又は−４５度）、σ² _θ＝０．２５、 σ² _Ψ＝０．２と仮定した。

重みは、Ψ(k,n)＝０及びθ＝αのときに最大である。方向がαから離れるにつれ、及び拡散値が高くなるにつれて、この重みは減少する。ｇ(θ(k,n),Ψ(k,n))のパラメータを変更することで、複数の関数ｇ(θ(k,n),Ψ(k,n))を設定でき、それらが異なる方向からのオブジェクトを抽出する。

異なるオブジェクトから得られた複数の重みから１つの全体エネルギーが導かれ、その全体エネルギーがダウンミックス信号内に存在するエネルギーよりも大きい場合、即ち、

の場合には、関数ｇ(θ(k,n),Ψ(k,n))における乗算係数Ａを操作して、平方の合計を強制的に１以下にすることもできる。

第２の実施例においては、音声信号の拡散部分及び非拡散部分のための重み付けは、異なるウィンドウを用いて実行することができる。より詳細な説明は、非特許文献１０を参照されたい。

ｉ番目のオブジェクトのスペクトルは次式により得られる。

ここで、γ_i,di及びγ_i,coは、それぞれ拡散及び非拡散(コヒーレント)部分のための重みを示す。非拡散部分のための利得は、次式のような１次元のウィンドウから得られる。

ここで、Ｂはウィンドウの幅である。α＝−π/4 ，Ｂ＝π/4の例示的なウィンドウを図４ｃに示す。

拡散部分γ_i,diの利得は類似の方法で得ることができる。適切なウィンドウは、例えばカージオイド、αに方向付けられたサブカージオイド、又は単純に全方向型のパターンである。利得γ_i,di及びγ_i,coが計算されると、重みγ_iも次式により簡単に取得でき、

その結果、

となる。

の場合には利得＝γ_iを適切に再スケールすることも可能である。

この処理ブロックはまた、追加的な背景（残余）オブジェクトのための重みを提供しても良い。これらのオブジェクトのために、ブロック４０２内でパワーが計算される。背景オブジェクトは、他のいずれのオブジェクトにも割り当てられてこなかった残りのエネルギーを含む。エネルギーは、方向性の推定の不確実性を反映させるためにも、背景オブジェクトへと割り当てることができる。例えば、ある時間−周波数ｂｉｎについての到来方向があるオブジェクトに対して正確に向けられていると推定されたとする。しかし、その推定は誤差が無いわけではないから、エネルギーの小さな部分は背景オブジェクトへと割り当てることができる。

以下に、処理器１３０の他の実施例、特に「分離された音源のパワー計算」ステージ４０２についての詳細を述べる。この処理ブロックは、ブロック４０３で計算された重みを受け取り、それらを使用して各オブジェクトのエネルギーを計算する。重みγ_i(k,n)が、(k,n)により定義される時間−周波数ｂｉｎについてのｉ番目のオブジェクトの重みを表すと仮定すると、エネルギーＥ_i(k,n)は単純に

となり、ここで、Ｗ(k,n)はダウンミックス信号の時間−周波数の複素表現である。

理想的には、全てのオブジェクトのエネルギーの合計がダウンミックス信号の中に存在するエネルギーと等しい。即ち、

となり、ここで、Ｎはオブジェクトの個数である。

上記の式は様々な方法で達成可能である。ある実施例は、重み係数の計算で説明した様に、残余オブジェクトの使用を含んでも良い。残余オブジェクトの関数は、複数の出力オブジェクトの全体的なパワーが各時間／周波数タイルにおけるダウンミックス・パワーと等しくなるように、それら出力オブジェクトの全体的なパワーバランスにおけるあらゆる欠損パワーを表現するものである。

換言すれば、本発明の実施例における処理器１３０は、追加的な背景オブジェクトのための重み係数をさらに決定することもでき、この場合、それらの重み係数は、少なくとも２つの分離された音源とその追加的な背景オブジェクトとに関連するエネルギーの合計が、変換済信号表現のエネルギーに等しくなるよう設定される。

あらゆる欠損エネルギーを割り当てる方法についての関連技術は、非特許文献１１を参照されたい。他の例示的な手法は、所望の全体的なパワーバランスを達成するために、重みの適切な再スケールを含んでいても良い。

一般的に、ステージ４０３が背景オブジェクトのための重みを提供する場合には、このエネルギーが残余オブジェクトへとマップされても良い。以下に、ＳＡＯＣ−ＯＬＤ及び任意ではあるがＩＯＣの計算と、ビットストリームステージ４０５とについての詳細な説明を、本発明の実施例において実行できるように開示する。

処理ブロック４０５は音声オブジェクトのパワーをさらに処理し、それらをＳＡＯＣに互換性のあるパラメータ、即ちＯＬＤへと変換する。この目的で、各オブジェクト・パワーはそのオブジェクトのパワーに関して最高パワーを用いて正規化され、結果的に、各時間／周波数タイルについての相対的なパワー値が得られる。これらのパラメータは後続のＳＡＯＣ復号器処理のために直接的に使用されても良いし、或いはそれらのパラメータは量子化され、ＳＡＯＣビットストリームの一部として伝送／記憶されても良い。同様に、ＩＯＣパラメータは出力されるか又はＳＡＯＣビットストリームの一部として伝送／記憶されても良い。

本発明の方法の所定の実施条件に依るが、本発明の方法は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読出し可能な制御信号を有し、本発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働可能な、デジタル記憶媒体、特に、ディスク，ＤＶＤ，ＣＤなどを使用して実行することができる。従って、本発明は一般的に、機械読出し可能なキャリアに記憶され、当該コンピュータプログラムがコンピュータ上で作動するときに、本発明の方法を実行するためのプログラムコードを有する、コンピュータプログラム製品である。換言すれば、本発明の方法は、コンピュータ上で作動するときに、本発明の方法の少なくとも１つを実行するためのプログラムコードを有する、コンピュータプログラムである。

上述した実施の形態は、具体的に示し、また具体的な実施例を参照しながら説明したが、形式及び詳細について、本発明の趣旨及びその範囲を逸脱することなく様々な修正が可能であることは、当業者にとって明らかである。異なる実施例に適用する際に、本明細書に開示し以下に添付する特許請求の範囲により認識できる、より広範囲な概念から外れることなく、様々な変更がされても良い点を理解すべきである。

Claims

少なくとも２つの方向性音声成分を有する入力音声信号を、ＳＡＯＣ（空間音声オブジェクト符号化）において利用可能な少なくとも２つの空間音源の値へトランスコードするための音声フォーマット・トランスコーダ（１００）であって、
前記入力音声信号を、変換済信号表現と変換済信号到来方向とを有する変換済信号へと変換する変換器（１１０）と、
少なくとも２つの空間音源の少なくとも２つの空間位置を提供する位置提供器（１２０）と、
前記少なくとも２つの空間位置と前記変換済信号到来方向とに基づいて前記変換済信号表現を処理し、前記少なくとも２つの空間音源の値を取得する処理器（１３０）と、を備え、
前記処理器（１３０）は、前記少なくとも２つの空間音源の各々について重み係数を決定（３０３）し、
前記処理器（１３０）は、少なくとも２つの空間フィルタ（３１１，３１２，３１Ｎ）を用いて前記重み係数に依存して前記変換済信号表現を処理し、少なくとも２つの空間音源を前記少なくとも２つの空間音源の値としての少なくとも２つの空間音源信号で近似するか、又は、前記少なくとも２つの空間音源の値として、前記重み係数に依存して前記少なくとも２つの空間音源の各々についてのパワー情報を推定（４０２）する、ことを特徴とする音声フォーマット・トランスコーダ（１００）。
方向性音声符号化(ＤｉｒＡＣ)信号、Ｂ−フォーマット信号又はマイクロホン・アレイからの信号に従って入力信号をトランスコードする、請求項１に記載の音声フォーマット・トランスコーダ（１００）。
前記変換器（１１０）は、いくつかの周波数帯域／サブ帯域及び／又は時間セグメント／フレームについて前記入力信号を変換する、請求項１又は２に記載の音声フォーマット・トランスコーダ（１００）。
前記変換器（１１０）は、周波数帯域ごとに拡散性及び／又は信頼性の値をさらに有する変換済信号へと前記入力信号を変換する、請求項３に記載の音声フォーマット・トランスコーダ（１００）。
前記少なくとも２つの空間音源信号を符号化してＳＡＯＣ（空間音声オブジェクト符号化）ダウンミックス成分とＳＡＯＣサイド情報成分とを含むＳＡＯＣ符号化済信号を取得する、ＳＡＯＣ符号器をさらに備えた請求項１に記載の音声フォーマット・トランスコーダ（１００）。
前記処理器（１３０）は、前記少なくとも２つの空間音源のパワー情報をＳＡＯＣ-ＯＬＤ（オブジェクト・レベル差）へと変換することを特徴とする、請求項１に記載の音声フォーマット・トランスコーダ（１００）。
前記処理器（１３０）は、前記少なくとも２つの空間音源についてオブジェクト間コヒーレンス(ＩＯＣ)を計算する、請求項６に記載の音声フォーマット・トランスコーダ（１００）。
前記位置提供器（１２０）は、前記変換済信号に基づいて前記少なくとも２つの空間音源の前記少なくとも２つの空間位置を検出するための検出器を含み、この検出器は前記少なくとも２つの空間位置を、入力信号の連続する複数の時間セグメント／フレームの結合によって検出する、請求項３乃至７に記載の音声フォーマット・トランスコーダ（１００）。
前記検出器は、前記変換済信号のパワー空間密度についての最尤法に基づいて、前記少なくとも２つの空間位置を検出する、請求項８に記載の音声フォーマット・トランスコーダ（１００）。
前記処理器（１３０）は追加的な背景オブジェクトのための重み係数をさらに決定し、当該重み係数は、前記少なくとも２つの空間音源と前記追加的な背景オブジェクトとに関連するエネルギーの合計が、前記変換済信号表現のエネルギーに等しくなるよう設定される、請求項１乃至９に記載の音声フォーマット・トランスコーダ（１００）。
少なくとも２つの方向性音声成分を有する入力音声信号を、ＳＡＯＣ（空間音声オブジェクト符号化）において利用可能な少なくとも２つの空間音源の値へトランスコードする方法であって、
前記入力音声信号を、変換済信号表現と変換済信号到来方向とを有する変換済信号へと変換するステップと、
少なくとも２つの空間音源の少なくとも２つの空間位置を提供するステップと、
前記少なくとも２つの空間位置と前記変換済信号到来方向とに基づいて前記変換済信号表現を処理し、前記少なくとも２つの空間音源の値を取得する処理ステップと、を備え、
前記処理ステップは、
前記少なくとも２つの空間音源の各々について重み係数を決定（３０３）するサブステップと、
少なくとも２つの空間フィルタ（３１１，３１２，３１Ｎ）を用いて前記重み係数に依存して前記変換済信号表現を処理し、少なくとも２つの空間音源を前記少なくとも２つの空間音源の値としての少なくとも２つの空間音源信号で近似するか、又は、前記少なくとも２つの空間音源の値として、前記重み係数に依存して前記少なくとも２つの空間音源の各々についてのパワー情報を推定（４０２）するサブステップと、を含むことを特徴とする方法。
コンピュータ又はプロセッサに請求項１１に記載の方法を実行させる、コンピュータプログラム。