JP5455657B2

JP5455657B2 - 音声の再現を高めるための方法および装置

Info

Publication number: JP5455657B2
Application number: JP2009553930A
Authority: JP
Inventors: プルッキィー，ビル
Original assignee: フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2007-03-21
Filing date: 2008-02-01
Publication date: 2014-03-26
Anticipated expiration: 2028-02-01
Also published as: TWI456569B; CN101658052B; TW200841326A; WO2008113427A1; CN101658052A; DE602008002066D1; EP2130403A1; ATE476835T1; BRPI0808225B1; RU2416172C1; KR20090121348A; BRPI0808225A2; JP2010521909A; KR101096072B1; EP2130403B1; HK1138977A1; US20080232601A1

Description

発明の分野
この発明は、再現された音声信号の起源の方向の認知をどのように向上させるかについての技術に関する。特に、この発明は、音声源の選択可能な方向が他の方向から来る音声信号に対して強調されるか重み付けされるように、記録された音声信号を再生するための装置および方法を提示する。

発明の背景および先行技術
一般に、多チャンネル再生および聴取では、聴取者は多数のラウドスピーカによって包囲される。特定の設定用に音声信号を取り込むために、さまざまな方法が存在する。再生における１つの一般的な目標は、もともと記録された信号の空間的配置、すなわちオーケストラの中でのトランペットの位置といった個々の音声源の起源を再現することである。いくつかのラウドスピーカ設定はかなり一般的であり、異なる空間的印象を作り出すことができる。特殊な生成後技術（post-production techniques）を用いなければ、一般に知られた２チャンネルステレオ設定は、２つのラウドスピーカ間の配線上に聴覚事象を再度作り出すことしかできない。これは主として、１つの音声源に関連した信号の振幅が２つのラウドスピーカ間で、ラウドスピーカに対する音声源の位置に依存して分配される、いわゆる「振幅パンニング」によって達成される。これは通常、録音中またはその後のミキシング中に行なわれる。つまり、聴取位置に対して左端から到来する音声源は主として左のラウドスピーカによって再生され、一方、聴取位置の前にある音声源は両方のラウドスピーカによって同じ振幅（レベル）で再生されることになる。しかしながら、他の方向から生じる音は再生できない。

したがって、聴取者の周りに配置されたより多くのラウドスピーカを用いることによって、より多くの方向が網羅可能であり、より自然な空間的印象を作り出すことができる。おそらく最も良く知られた多チャンネルラウドスピーカ配置は５．１規格（ＩＴＵ−Ｒ７７５−１）で、それは５つのラウドスピーカからなり、聴取位置に対するそれらの方位角は０°、±３０°、および±１１０°となるよう予め定められている。要するに、録音中またはミキシング中、信号はその特定のラウドスピーカ構成に適合され、規格からの再生設定のずれは再生品質の低下をもたらす、ということになる。

さまざまな数のラウドスピーカが異なる方向に位置している多数の他のシステムも、これまで提案されてきた。特に劇場および音響施設におけるプロ用システムおよび特殊システムも、異なる高さにあるラウドスピーカを含んでいる。

異なる再生設定に従い、聴取状況における空間的印象を記録環境において知覚されるように記録し再生するために、前述したラウドスピーカシステムに対して、いくつかの異なる記録方法が考案され提案されている。選ばれた多チャンネルラウドスピーカシステムに対して空間的な音声を記録する理論的に理想の方法は、存在するラウドスピーカと同じ数のマイクを用いることである。そのような場合、あらゆる単一方向からの音声が少数のマイク（１、２またはそれ以上）でのみ記録されるように、マイクの指向性パターンもラウドスピーカーの配置に対応していなければならない。各マイクは、特定のラウドスピーカに関連している。再生により多くのラウドスピーカが用いられるほど、マイクの指向性パターンは狭まるべきものである。しかしながら、狭い指向性のマイクは、むしろ高価であり、典型的には平らでない周波数応答を有し、記録された音声の質を所望でない方法で低下させる。さらに、多チャンネル再生に対する入力のように広すぎる指向性パターンでの
いくつかのマイクの使用は、異なるラウドスピーカに関連するマイクで記録されることから、単一方向から発せられる音声が常に必要以上のラウドスピーカで再生されるという事実により、色のついた（colored）不明瞭な音声知覚となる。一般的に、現在利用可能なマイクは、２チャンネルの記録および再生に対して最も適する。すなわち、これらは、囲まれた空間的な印象の再生という目標なしに設計される。

マイク設計の観点からは、マイクの指向性パターンを空間音声再生の要求に適合させるために、いくつかの提案が議論されている。一般に、すべてのマイクは、マイクに対する音声の到達方向に応じて異なる音声を捕捉している。つまり、マイクは、記録音声の到達方向に応じて異なる感度を有している。いくつかのマイクは方向に対してほぼ独立に音声を捕捉するため、マイクによってはこの効果は小さい。このようなマイクは、一般に全指向性マイクと呼ばれる。典型的なマイク設計では、円形の振動板が小さな気密囲いに付随している。もし、振動板が囲いに付随しておらず音声が各側面に等しく到達する場合、その指向性パターンは２つのローブを有す。つまり、そのようなマイクは、振動板の両前後から等しい感度で音声を捕捉するものの、反対の極性を有する。そのようなマイクは、振動板の平面に合致する方向、すなわち最大感度の方向に垂直な方向から来る音声を捕捉しない。そのような指向性パターンは、双極子（dipole）または８の字と呼ばれる。

全指向性マイクは、マイクに対する気密でない囲いを用いることで、指向性マイクにも変形し得る。当該囲いは、音声波が囲いを通って伝搬し振動板に到達できるように特に構築される。ここで、そのようなマイクの指向性パターンが全指向性と双極子との間のパターンとなるように、いくつかの伝搬方向が選ばれる。それらのパターンは、たとえば２つのローブを有する。しかしながら、それらのローブは、異なる強度を有し得る。いくつかの一般に知られたマイクは、単一のローブのみのパターンを有する。最も重要な例は、カージオイド（cardioid）パターンであり、ここでは方向関数ＤがＤ＝１＋ｃｏｓ（θ）で表わされ、θは音声の到達方向である。こうして方向関数は、入来する音声振幅のどの部分が方向に応じて捕捉されるかが数量化される。

前に議論した全指向性パターンは０次パターンとも呼ばれ、前に言及した他のパターン（双極子およびカージオイド）は第１次パターンと呼ばれる。前に議論したすべてのマイク設計は、それらの指向性パターンがそれらの機械的構造によってすべて決定されることから、任意の指向性パターンの形のとることはできない。

この問題を部分的に解決するために、いくつかの特定された音響構造が設計されており、その構造は第１次マイクの指向性パターンよりも狭い指向性パターンを生成するのに用いることができる。たとえば、中に穴があるチューブが全指向性マイクに付随しているとき、狭い指向性パターンを有するマイクを生成することができる。これらのマイクは、ショットガンマイクまたはライフルマイクと呼ばれる。しかしながら、それらは典型的には平らな周波数応答を有さない。すなわち、指向性パターンは、記録された音声の質を犠牲にして狭くなっている。さらに、指向性パターンは、幾何学的な構造によって予め定められるため、そのようなマイクで行なわれる記録の指向性パターンは、記録後に制御することができない。

それゆえ、実際の記録後に指向性パターンを部分的に変更することのできる他の方法が提案されている。一般に、これは、全指向性マイクまたは指向性マイクの列で音声を記録し、その後に信号処理を適用するという基本的考えに基づく。そのような種々の技術が最近提案されている。非常に単純な例は、互いに近接して置かれた２つの全指向性マイクで音声を録音し、両信号を互いから減算することである。これは、双極子と等価な指向性パターンを有する仮想のマイク信号を生成する。

他のより洗練された方式では、マイク信号が総和される前にマイク信号を遅延またはフィルタリングすることもできる。無線ＬＡＮからも知られる技術であるビーム整形を用いることで、狭いビームに対応する信号は、各マイク信号を特別に設計されたフィルタでフィルタリングし当該フィルタリング後に信号を総和する（フィルタ総和ビーム整形）ことによって形成される。しかしながら、これらの技術は、信号自体には目が向けられていない、すなわち、それらの技術は音声の到達方向には無関心である。このように、予め定められた指向性パターンが定義される必要があり、それは所定の方向における音声源の実際の存在とは無関係である。一般に、音声の「到達方向」の評価は、その評価自身によって行なうこととなる。

一般に、数多くの異なる空間的な指向特性は、上記の技術によって形成することができる。しかしながら、任意の空間選択的な感度パターンを形成すること（つまり狭い指向性パターンを形成すること）は、多くの数のマイクを必要とする。

多チャンネル記録を生成する代替的な方法は、記録される各音声源（たとえば機器）に近接してマイクを配置し、最終ミキシングにおいて近いマイク信号のレベルを制御することによって、空間的印象を再生成することである。しかしながら、そのようなシステムは、最終的なダウンミックスを生成する際に、多くの数のマイクおよび多くのユーザ交流が必要とされる。

上記の問題を解決する方法が最近提案され、方向性音声符号化（ＤｉｒＡＣ）と呼ばれている。ＤｉｒＡＣは、異なるマイクシステムで使用され得、任意のラウドスピーカ設定で再生するために音を録音することができる。ＤｉｒＡＣの目的は、任意の幾何学的設定を有する多チャンネルラウドスピーカシステムを用いて、既存の音響環境の空間的印象をできるだけ正確に再生することである。録音環境内では、（連続的な録音された音響またはインパルス応答であり得る）環境の応答が、１つの全指向性マイク（Ｗ）を用いて、および音の到来方向と音の拡散性とを測定可能な１組のマイクを用いて測定される。以下の段落および本願においては、「拡散性」という用語は、音の非指向性の尺度として理解されるべきである。つまり、あらゆる方向から等しい強度で聴取位置または録音位置に到来する音は、最大限に拡散している。拡散を定量化する一般的な方法は、間隔［０，…，１］からの拡散値を用いることであり、ここで１という値は、最大限に拡散している音を表わし、０という値は、完全に指向性の音、すなわち１つの明らかに識別可能な方向のみから生じる音を表わす。音の到来方向を測定する一般に知られた一方法は、デカルト座標軸と整列された３つの８の字マイク（ＸＹＺ）を適用することである。特殊なマイク、いわゆる「音場マイク」がこれまで設計されており、それはあらゆる所望の応答を直接生み出す。しかしながら、上述のように、Ｗ、Ｘ、ＹおよびＺ信号はまた、１組の別々の全指向性マイクから計算されてもよい。

ＤｉｒＡＣ解析では、録音された音声信号は、人間の聴覚知覚の周波数選択に対応する周波数チャネルに分割される。つまり、当該信号は、人間聴覚の周波数選択に適応した帯域幅を有する数多くの周波数チャネルに当該信号を分割するために、たとえばフィルタバンクまたはフーリエ変換によって処理される。その後、当該周波数帯域の信号は、音声の起源の方向および予め定められた時間分解能での各周波数チャネルに対する拡散値を決定するために分析される。この時間分解能は、固定されている必要がなく、もちろん記録環境に適用させ得る。ＤｉｒＡＣでは、１またはそれ以上の音声チャネルが、解析された方向および拡散データとともに記録または伝送される。

合成または復号化において、最終的にラウドスピーカに適用された音声チャネルは、（使用されたマイクの全指向性の指向パターンにより高品質で録音された）全指向性チャネルＷに基づくことができ、または、各ラウドスピーカに対する音声は、Ｗ、Ｘ、ＹおよびＺの重み付けされた総和として計算され得、これにより、各ラウドスピーカに対してある指向特性を有する信号を形成する。符号化に対応して、各音声チャネルは周波数チャネルに分割され、それは分析された拡散性に応じて、拡散および非拡散のストリームに選択的にさらに分割される。もし拡散性が高く計測されれば、拡散ストリームは、両耳用キュー符号化（Binaural Cue Coding）にも用いられる非相関技術のように、音声の拡散知覚を生成する技術を用いて再生され得る。非拡散の音声は、解析すなわちＤｉｒＡＣ信号の生成において見出された指向性データによって示される方向に位置する点状の仮想音声源の生成を目指す技術を用いて再生される。つまり、空間的再生は、従来技術（たとえば５．１）のように１つの特別で「理想的な」ラウドスピーカ設定に調整されるのではない。これは、記録において用いられるマイクの指向性パターンについての知識を用いた指向性パラメータ（つまりベクトルによって記載される）として音声の起源が決定されるような場合に特にそうなる。既に議論したように、３次元空間における音声の起源は、周波数選択の方法においてパラメータ化される。そのように、指向性の印象は、ラウドスピーカ設定の幾何学的構成が既知である限り、任意のラウドスピーカ設定に対して高い品質で再生され得る。それゆえ、ＤｉｒＡＣは、特殊なラウドスピーカの幾何学的構成に限定されず、一般に音声のより柔軟な空間的再生が可能である。
米国特許出願第５，８１２，６７４号明細書は、仮想の音声源によって生成される音響品質の模擬実験のため、および１以上の聴取者に対するこの源の局所化のための方法に関する。所望の自然な再生を達成するために、空間、所望の音響品質および仮想の音声源の局所化を定義する知覚パラメータが用いられる。これらの値は、そのエネルギー分布によって時間および周波数の関数として記載されるパルス応答を計算するのに用いられる。室内効果を考慮するために背景補償が行なわれ、室内の記載に基づいて基本信号の人工的な音響が計算される。前に記載した方法で室内音響が一度決定されれば、記録された音声サンプルは、それらが人工的に創造された室内で記録されたかのように聞こえるようにするために後処理され得る。

多チャンネルの音声記録を再生し、後の多チャンネル再生に適切な信号を記録するために、数多くの技術が開発されているが、いずれの従来技術によっても、たとえば１つの明確な所望の方向からの信号の明瞭性が高められるように、再生の間に音声信号の起源の方向が強調できるように、既に記録された信号に影響を与えることはできない。

発明の概要
この発明の一実施例によれば、少なくとも１つの音声チャネルを有する音声信号と、記録位置に関して音声チャネルの部分の起源の方向を示す関連した方向パラメータとは、１つの明確な方向または多くの明確な方向から来る信号の知覚性を高められるように再構築することができる。

つまり、再生において、記録位置に関する起源の所望の方向は選択され得る。再構築された音声信号の再現された部分を導き出す間、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度が、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して増大するように、音声チャネルの部分が調整される。１つの音声チャネル信号または多チャネルの信号の部分の起源の方向は、記録の間に選択された方向に位置する音声対象のよりよい知覚が可能となるように強調することができる。

この発明のさらに別の実施例によれば、ユーザは再現の間、当該選択された方向に関連する音声チャネルの部分または多数の音声チャネルの部分が強調されるように、つまり、それらの強度または振幅が残りの部分に関して増加するように、どの方向またはどの複数の方向が強調されるかを選択し得る。実施例によれば、特定の方向からの音声の強調または減衰は、方向パラメータを実施していないシステムよりも一層鋭い空間分解能でなされる。この発明のさらに他の実施例によれば、通常のマイクでは達成し得ない任意の空間重み付け関数を特定することができる。さらに、当該重み付け関数は、この発明のさらに他の実施例が高い柔軟度で使用され得るように、時間および周波数で変化し得る。さらに、当該重み付け関数は、ハードウェア（たとえばマイク）を交換する代わりにこれらをシステムにロードすればよいだけなので、実施および更新が非常に容易である。

この発明のさらに別の実施例によれば、高い拡散性を有する音声チャネルの部分の強度が、関連するより低い拡散性を有する音声チャネルの他の部分に対して減少するように、音声チャネルの部分の拡散性を示す拡散パラメータである関連した拡散パラメータを有する音声信号が再構築される。

このように、音声信号の再構築において、再現された信号の方向性知覚をさらに高めるために、音声信号の個々の部分の拡散性が考慮される。これはさらに、音声源のよりよい再配置のために、拡散情報を利用するよりもむしろ信号の全体の拡散性を増大させるために拡散音声の部分のみを使用する技術に対する音声源の再配置を増加させ得る。この発明はまた、周囲の信号のように、拡散起源からの記録された音声の部分を逆に強調することも可能とする。

この発明のさらに別の実施例によれば、少なくとも１つの音声チャネルが多数の音声信号に混合される。多数の音声チャネルは、再生に利用可能なラウドスピーカの数に対応し得る。任意のラウドスピーカ設定が音声源の再配置を高めるのに用いられてもよい一方、音声源の方向は常に、利用可能なラウドスピーカの数に関係なく、現存する機器で可能な限り再生されることが保証され得る。

この発明のさらに別の実施例によれば、再生はモノラルのラウドスピーカを介してでも行なわれ得る。もちろん、その場合、信号の起源の方向は、ラウドスピーカの物理的な位置となる。しかしながら、記録位置に対する信号起源の所望の方向を選択することにより、選択された方向から生じる信号の可聴性は、単純なダウンミックスの再生の場合と比べて、顕著に増大し得る。

この発明のさらに別の実施例によれば、１以上の音声チャネルがラウドスピーカに対応するチャネルの数に混合されるとき、信号の起源の方向は正確に再生され得る。起源の方向は、たとえば振幅パンニング技術を用いることにより、可能な限り再構築することができる。知覚品質をさらに高めるために、選択された方向にも依存する付加的な位相シフトが導入されてもよい。

この発明のある実施例によれば、方向／拡散の評価を決定するのに用いられるマイクが少なくとも平らな周波数応答を有する必要が必ずしもないため、音声品質に深刻な影響を与えることなしに、音声信号を記録するためのマイクロホンカプセル部の費用をさらに低減させることができる。

この発明のいくつかの実施例を、図面を参照して以下に説明する。

音声信号を再構築するための方法の実施例を示す図である。音声信号を再構築するための装置のブロックダイヤグラムを示す図である。さらなる実施例のブロックダイヤグラムを示す図である。テレビ会議の状況における独創的な方法または独創的な装置の応用の例を示した図である。音声信号の方向性知覚を高めるための方法の実施例を示す図である。音声信号を再構築するための復号器の実施例を示す図である。音声信号の方向性知覚を高めるためのシステムの実施例を示す図である。

好ましい実施例の詳細な説明
図１は、少なくとも１つの音声チャネルを有する音声信号と、記録位置に関して音声チャネルの部分の起源の方向を示す関連した方向パラメータとを再構築するための方法の実施例を示す。選択ステップ１０において、記録位置に対する起源の所望の方向は、再構築された音声信号の再構築部分のために選択され、当該再構築された部分は、音声チャネルの部分と対応している。つまり、処理される信号部分に対して、信号部分が再構築後にそこから明確に聴取可能な起源の所望の方向が選択される。当該選択は、以下に詳述するように、ユーザ入力によって直接されるか自動的にされ得る。

部分とは、時間部分、周波数部分、または音声チャネルのある周波数間隔の時間部分となり得る。調整ステップ１２では、再構築された音声信号の再構築された部分を導き出すために音声チャネルの部分が調整され、当該調整は、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることを含む。つまり、そのような音声チャネルの部分は、たとえば音声チャネルの部分にスケーリング因子を乗算することで行なわれ得るそれらの強度またはレベルを増大させることによって強調される。実施例によれば、選択された（所望の）方向に近接した方向から生じる部分は、再構築におけるこれらの信号の部分を強調し、聴取者が関心を持つこれら音声記録された対象物の可聴性を向上させるために、大きなスケールの因子で乗算される。一般に、この応用の文脈において、信号の強度またはチャネルを増大させることは、信号をより可聴化するあらゆる方策として理解される。これはたとえば、信号の振幅または信号によって運ばれるエネルギーを増大させているか、または１以上のスケール因子で信号を乗算させ得る。あるいは、当該効果が得られるように、競合する信号の音の大きさが低減され得る。

所望の方向の選択は、聴取場所でのユーザによってユーザインターフェイスを介して直接行なわれ得る。しかしながら、代替的な実施例によれば、ほぼ同じ起源を有する周波数部分が強調される一方で音声チャネルの残りの部分が抑制されるように、当該選択はたとえば、指向性パラメータの解析によって自動的に実行され得る。このように、視聴側で付加的なユーザ入力を要求することなく、主たる音声源に信号が自動的に焦点合わせされることが可能である。

さらに他の実施例によれば、起源の方向が設定されているため、選択ステップが省略される。つまり、設定方向に近い起源の方向を示す方向パラメータを有する音声チャネルの部分の強度が増大する。設定方向はたとえばハードウェアであり得る、すなわち、方向は予め定められ得る。たとえばテレビ会議の状況において中心の話者のみに関心があれば、予め定められた設定方向を用いてこれを行なうことができる。代替的な実施例からは、設定方向として用いられる多くの代替的な方向も記憶し得るメモリからの設定方向を読み取ることができる。代替的な実施例の一つは、たとえば独創的な装置に向けられたときに読み取ることができる。

代替的な実施例によれば、所望の方向の選択は、再生のための所望の方向を示す音声信号により付加的なパラメータが伝送されるように、符号器側つまり信号の記録においても行なわれ得る。このように、再現された信号の空間的知覚は、再生のために用いられる特殊なラウドスピーカ設定の知識なしに、符号器において既に選択され得る。

音声信号を再構築するための方法は、再構築された音声信号を再生する目的の特定のラウドスピーカの設定とは独立しているため、当該方法は、ステレオまたは多チャンネルのラウドスピーカ構成のみならずモノラルのラウドスピーカ構成にも適用され得る。つまり、さらなる実施例によれば、再生された環境の空間的な印象は、信号の認知性を高めるために後処理される。

モノラル再生のために使用されたとき、当該効果は、任意の方向パターンを形成することのできる新たな型のマイクで信号を記録するものとして解釈され得る。しかしながら、この効果は、記録設定を何も変化させることなく、受信端すなわち信号再生の間に十分達成することができる。

図２は、音声信号の再構築のための装置（復号器）の実施例すなわち音声信号を再構築するための復号器２０の実施例を示す。復号器２０は、方向選択器２２および音声部分調整器２４を含む。図２の実施例によれば、いくつかのマイクによって記録された多チャンネル音声入力２６は、音声チャネルの部分の起源の方向、すなわち解析された信号部分の起源の方向を示す方向パラメータを導く方向解析器２８によって解析される。この発明の一実施例によれば、そこからエネルギーの多くがマイクに向かう方向が選ばれる。記録位置は、それぞれの特定の信号部分に対して決定される。これは、たとえば前述したＤｉｒＡＣマイク技術を用いても行なうことができる。もちろん、記録された音声情報に基づく他の指向性解析方法は、この解析を実施するのに用いられてもよい。その結果、方向解析器２８は、音声信号の部分の起源の方向または多チャンネル信号２６の部分の起源の方向を示す方向パラメータ３０を導出する。さらに、方向解析器２８は、それぞれの信号部分に対する（たとえば、各周波数間隔に対するまたは信号の各時間フレームに対する）拡散パラメータ３２を導き出すように動作し得る。

方向パラメータ３０、および選択的に拡散パラメータ３２は、再構築された音声信号の再現された部分に対する記録位置に関する起源の所望の方向を選択するように行なわれる方向選択器２２に伝送される。所望の方向に対する情報は、音声部分調整器２４に伝送される。音声部分調整器２４は、方向パラメータが導出される部分を有する少なくとも１つの音声チャネル３４を受ける。音声部分調整器によって調整される少なくとも１つのチャネルは、たとえば、従来の多チャンネルのダウンミックスアルゴリズムによって生成される多チャンネル信号２６のダウンミックスとなり得る。１つの非常に単純な事例は、多チャンネル音声入力２６の信号の直接的な総和であろう。しかしながら、独創的な実施例が入力チャネルの数によって制限されないため、代替的な実施例において、すべての音声入力チャネル２６は、音声復号器２０によって同時に処理され得る。

音声部分調整器２４は、再構築された音声信号の再構築された部分を導き出すために音声部分を調整し、当該調整は、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対し、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることを含む。図２の例では、調整される音声チャネルの部分にスケーリング因子３６（ｑ）を乗算することによって調整が行なわれる。つまり、もし音声チャネルの部分が、選択された所望の方向に近接した方向から生じているように解析された場合、大きなスケーリング因子３６は音声部分によって乗算される。このように、その出力３８では、音声部分調整器は、その入力で与えられた音声チャネルの部分に対応する再構築された音声信号の再構築された部分を出力する。音声部分調整器２４の出力３８での破線によってさらに示されるように、これはモノラル出力の信号に対して行なわれるのみならず、出力チャネルの数が固定されず予め定められてもいない多チャンネルの出力信号に対しても行なわれる。

言い換えると、音声復号器２０の実施例は、たとえばＤｉｒＡＣで用いられるような指向性解析からその入力を取る。マイク列からの音声信号２６は、人間聴覚システムの周波数分解能に従って周波数帯域に分割され得る。音声の方向および選択的には音声の拡散性は、各周波数チャネルにおいて時間に応じて解析される。これらの特性は、たとえば、方位角（ａｚｉ）および仰角（ｅｌｅ）の方向として、および０と１との間で変化する拡散指数ψ（Ｐｓｉ）としてさらに説明される。

ここで、意図されたまたは選択された指向特性は、方向角度（ａｚｉおよび／またはｅｌｅ）および選択的には拡散指数ψ（Ｐｓｉ）に応じたそれらへの重み付け動作を用いて、捕捉された信号に付与される。明らかに、この重み付けは、異なる周波数帯域に対して異なって特定され得、一般に、時間とともに変化する。

図３は、ＤｉｒＡＣ合成に基づくこの発明のさらに他の実施例を示す。その意味で、図３の実施例は、解析された方向に応じて音声のレベルを制御することができ、ＤｉｒＡＣ再生の向上させるものとして解釈され得る。これは、１または多数の方向から来る音声を強調すること、あるいは１または多数の方向からの音声を抑制することを可能とする。多チャンネル再生において適用されるとき、再生された音声画像の後処理が実現される。１つのチャネルが出力として用いられさえすれば、信号の記録の間の任意の指向性パターンでの指向性マイクの使用と等価な効果となる。図３に示される実施例では、１つの伝送された音声チャネルの導出とともに指向性パラメータの導出が示されている。たとえば音場（sound field）マイクによって記録されるように、ＢフォーマットのマイクチャネルＷ、Ｘ、ＹおよびＺに基づいて解析が行なわれる。

処理は、フレームに従って行なわれる。それゆえ、連続的な音声信号は、フレーム境界での不連続性を避けるために窓関数によってスケーリングされたフレームに分割される。窓信号のフレームは、マイク信号をＮ周波数帯域に分割するフーリエ変換ブロック４０でのフーリエ変換に従う。簡単のため、１つの任意の周波数帯域の処理が次の段落で説明され、残りの周波数帯域も同等に処理される。フーリエ変換ブロック４０は、解析された窓フレーム内にＢフォーマットのマイクチャネルＷ、Ｘ、ＹおよびＺの各々で表わされる周波数成分の強さを記載する係数を導き出す。これらの周波数パラメータ４２は、音声チャネルおよび関連する方向パラメータを導出するための音声符号器４４に入力される。図３に示される実施例では、伝送された音声チャネルは、すべての方向からの信号の情報を有する全指向性チャネル４６となるように選択される。全指向性のための係数４２およびＢフォーマットのマイクチャネルの指向性部分に基づいて、指向性および拡散性の解析は、指向性解析ブロック４８によって行なわれる。

音声チャネル４６の解析された部分に対する音声の起源の方向は、全指向性チャネル４６とともに音声信号を再構築するための音声復号器５０に伝送される。拡散パラメータ５２が存在するとき、信号経路は非拡散経路５４ａと拡散経路５４ｂとに分岐される。拡散性Ψが高いときにエネルギーまたは振幅の大部分が非拡散経路に残るように、非拡散経路５４ａは拡散パラメータに従ってスケーリングされる。逆に、拡散性が高いとき、エネルギーの大部分は拡散経路５４ｂに移行される。拡散経路５４ｂでは、非相関器５６ａまたは５６ｂを用いて、信号が非相関化または拡散される。周波数チャネルごとに異なり得る白色雑音信号で畳み込み積分するような従来から知られた技術を用いて、非相関化を行なうことができる。拡散パラメータΨによって示されるように、信号経路での信号は既にスケーリングされているため、非相関化がエネルギー保存である限り、出力での非拡散信号経路５４ａおよび拡散信号経路５４ｂの信号を単に付加することによって、最終的な出力を再現することができる。拡散信号経路５４ｂは、適切なスケーリング規則を用いて、ラウドスピーカの数に応じてスケーリングされ得る。たとえば、Ｎがラウドスピーカの数のとき、拡散経路における信号は１／√Ｎによってスケーリングされ得る。

再構築が多チャンネル設定に対して行なわれるとき、拡散信号経路５４ｂとともに直接信号経路５４ａは、（分岐位置５８ａおよび５８ｂにおける）個々のラウドスピーカ信号に対応する多くの副経路に分岐される。この目的のために、分岐位置５８ａおよび５８ｂでの分岐は、多数のラウドスピーカを有するラウドスピーカシステムを介して、少なくとも１つの音声チャネルを再生のための多数のチャネルと混合（up-mixing）することと等
価であると解釈され得る。それゆえ、多数のチャネルの各々は、音声チャネル４６のチャネル部分を有する。個々の音声部分の起源の方向は、再生のために用いられるラウドスピーカに対応するチャネル部分の強度または振幅を付加的に増加または減少させる方向変更（redirect）ブロック６０によって再構築される。この目的のために、方向変更ブロック６０は、再生に用いられるラウドスピーカ設定についての知識を一般に必要とする。実際の再分配（方向変更）および関連する重み付け因子の導出は、たとえばベクトルに基づく振幅パンニングのような技術を用いて行なうことができる。幾何学的に異なるラウドスピーカ設定を再分配ブロック６０に供給することにより、再生ラウドスピーカの任意の構成は、再生品質の損失なく、独創的な構想を実現するのに用いることが出来る。処理の後、個々のラウドスピーカによって再生され得る時間領域信号を導出するための逆フーリエ変換ブロック６２によって、多数の逆フーリエ変換が周波数領域信号に対して行なわれる。再生の前に、ラウドスピーカによって再生されつつある連続的な時間領域信号を導出するための個々の音声フレームを連結させるための総和部６４によって、重ね合わせ（overlap）および加算の技術が行なわれなければならない。

図３に示される発明の実施例によれば、Ｄｉｒ−ＡＣの信号処理は、実際に処理された音声チャネルの部分を調整するために音声部分調整器６６が導入されるという点において修正され、それにより、所望の方向に近接した起源の方向を示す指向性パラメータを有する音声チャネルの部分の強度を増大させることが可能となる。これは、直接の信号経路に付加的な重み付け因子を適用することによって達成される。つまり、もし処理された周波数部分が所望の方向から生じる場合、当該信号は付加的な利得をその特定の信号部分に適用することによって強調される。利得の適用は、当該効果がすべてのチャネル部分に等しく寄与するように、分岐点５８ａの前に行なわれ得る
付加的な重み付け因子の適用は、代替的な実施例においても、再分配ブロック６０内で行なわれ、その場合、再分配ブロック６０は、付加的な重み付け因子によって増加または減少される再分配の利得因子を適用する。

多チャンネル信号の再構築において指向性の向上を用いるとき、図３に示されるように、たとえばＤｉｒＡＣ表現の型において再生を行なうことができる。再生される音声チャネルは、指向性解析のために用いられる周波数帯域と等しい周波数帯域に分割される。その後、これらの周波数帯域は、ストリームすなわち拡散および非拡散のストリームに分割される。拡散ストリームは、たとえば、３０ｍｓ幅の雑音バーストによる畳み込みの後に音声を各ラウドスピーカに適用することによって再生される。雑音バーストは、各ラウドスピーカに対して異なっている。非拡散ストリームは、当然ながら時間に依存する指向性解析から実現される方向に適用される。多チャンネルのラウドスピーカシステムにおいて指向性知覚を実現するには、単純な２重（pair-wise）または３重（triplet-wise）の振幅パンニングが使用され得る。さらに、各周波数チャネルは、解析された方向に応じて、利得因子またはスケーリング因子によって乗算される。一般論として、再生のための所望の指向性パターンを定義する関数が特定され得る。これはたとえば、強調される単一方向のみとなり得る。しかしながら、任意の指向性パターンは、図３の実施例で容易に実行することが可能である。

次の提示では、この発明のさらなる実施例が一連の処理ステップとして説明される。当該リストは、音声がＢフォーマットのマイクで記録され、それから、ＤｉｒＡＣ型の表現または音声チャネルの部分の起源の方向を示す指向性パラメータを供給する表現を用いた多チャンネルまたはモノラルのラウドスピーカ設定での聴取のために当該音声が処理されるという前提に基づく。当該処理は、次のようになる。

１．マイク信号を周波数帯域に分割し、方向および選択的には周波数に応じて各帯域での拡散性を解析する。例として、方向は方位角および仰角（ａｚｉ、ｅｌｅ）によって
パラメータ化され得る。

２．所望の指向性パターンを記述する関数Ｆを特定する。当該関数は、任意の形を有し得る。それは、典型的には方向に依存する。もし拡散情報が利用可能なら、それはさらに拡散性にも依存する。当該関数は、異なる周波数に対しては違っていることができ、時間に応じても変化し得る。各周波数帯域において、音声信号の次の重み付け（スケーリング）に用いられる各時間例に対する関数Ｆから指向性因子ｑを導き出す。

３．出力信号を形成するための各時間部分および周波数部分に対応する指向性因子のｑ値を音声サンプル値に乗算する。これは時間領域および／または周波数領域の表現においてなされ得る。さらに、この処理はたとえば、所望の出力チャネルのどのような数に対するＤｉｒＡＣ表現の部分としても実施され得る。

前述したように、多チャンネルまたはモノラルのラウドスピーカシステムを用いて結果を聴取することができる。

図４は、テレビ会議の状況内で参加者の知覚可能性を大きく増大させるために創作的な方法および装置がどのように利用され得るのかに関する説明図を示す。記録側１００において、記録位置１０４に対して明確な方角を有する４人の話者１０２ａ−１０２ｄが描かれている。つまり、話者１０２ｃから生じる音声信号は、記録位置１０４に対して固定された起源の方向を有する。記録位置１０４において録音された音声信号が、話者１０２ｃからの寄与、およびたとえば話者１０２ａおよび１０２ｂの議論から生じるいくらかの「背景」雑音を有すると仮定したとき、記録されて聴取場所１１０に伝送された広帯域信号は両方の信号成分を含む。

例として、６つのラウドスピーカ１１２ａ−１１２ｆを有する聴取設定が、聴取位置１１４に位置する聴取者を取り囲んで描かれている。それゆえ、原理的には、聴取者１１４の周りのほとんど任意の位置から発せられる音声は、図４に描かれた設定によって再生することができる。従来の多チャンネルシステムは、記録の間に記録位置１０４で経験される空間的知覚を再構築するために、これら６つのスピーカ１１２ａ〜１１２ｆをできるだけ近接して用いて音声を再生する。それゆえ、従来技術を用いて音声が再生されたとき、話者１０２ｃの寄与もまた、議論している話者１０２ａおよび１０２ｂの「背景」として明確に聴取可能であり、話者１０２ｃの信号の明瞭性を減少させる。

この発明の実施例によれば、方向選択器は、ラウドスピーカ１１２ａ−１１２ｆによって再生される再構築された音声信号の再構築バージョンのために用いられる記録位置に対する起源の所望の方向を選択するのに用いることができる。それゆえ、聴取者１１４は、話者１０２ｃの位置に対応する所望の方向１１６を選択することができる。このように、音声部分調整器は、選択された方向１１６に近接する方向から生じる音声チャネルの部分の強度が強調されるように、再構築された音声信号の再構築された部分を導出する音声チャネルの部分を調整することができる。聴取者は、受信端において、起源のどの方向が再生されるのかを決定し得る。この選択がなされ、話者１０２ｃの方向から生じるこれら信号部分のみが強調されることで、議論している話者１０２ａおよび１０２ｂは気にならなくなる。選択された方向からの信号を強調するのとは異なり、波形１２０ａおよび１２０ｂによって象徴的に示されるように、方向は振幅パンニングによって再生され得る。話者１０２ｃがラウドスピーカ１１２ｃよりラウドスピーカ１１２ｄに近く位置するにつれ、振幅パンニングはラウドスピーカ１１２ｃおよび１１２ｄを介して強調された信号の再生につながる一方、残りのラウドスピーカはほぼ静かとなる（最終的には拡散信号部分を再生する）。話者１０２ｃがラウドスピーカ１１２ｄに近接して位置しているため、振幅パンニングは、ラウドスピーカ１１２ｃに対してラウドスピーカ１１２ｄのレベルを増大さ
せることになる。

図５は、音声信号の指向性知覚を高めるための方法の実施例のブロックダイヤグラムを示す。第１の解析ステップ１５０では、少なくとも１つの音声チャネルと、記録位置に関して音声チャネルの部分の起源の方向を示す関連する方向パラメータとが導出される。

選択ステップ１５２では、記録位置に対する起源の所望の方向は、再構築された音声信号の再構築された部分すなわち音声チャネルの部分に対応する再構築された部分に対して選択される。

調整ステップ１５４では、音声チャネルの部分は、再構築された音声信号の再構築された部分を導出するように調整され、当該調整は、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることを含む。

図６は、少なくとも１つの音声チャネル１６０を有する音声信号と、記録位置に関して音声チャネルの部分の起源の方向を示す関連する方向パラメータ１６２とを再構築するための音声復号器の実施例を示す。

音声復号器１５８は、再構築された音声信号のうち音声チャネルの部分に対応する再構築された部分に対する記録位置に関して起源の所望の方向を選択するための方向選択器１６４を含む。復号器１５８は、再構築された音声信号の再構築された部分を導出するための音声チャネルの部分を調整するための音声部分調整器１６６をさらに含み、当該調整は、起源の所望の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して、起源の所望の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させることを含む。

図６に示されるように、復号器が多チャンネルの再生設定で使用されるとき、単一の再構築された部分１６８が導出されるか、多数の再構築された部分１７０が同時に導出され得る。音声信号１８０の指向性知覚を高めるためのシステムの実施例は、図７に示されるように、図６の復号器１５８に基づく。それゆえ、以下では、付加的に導入された素子のみが記載される。音声信号１８０の指向性知覚を高めるためのシステムは、多数のマイクによって記録されるモノラル信号または多チャンネル信号であり得る音声信号１８２を入力として受ける。音声符号器１８４は、少なくとも１つの音声チャネル１６０を有する音声信号と、記録位置に関する音声チャネルの部分の起源の方向を示す関連する方向パラメータ１６２とを導出する。少なくとも１つの音声チャネルおよび関連する方向パラメータは、知覚的に高められた出力信号１７０を導出するために、図６の音声復号器に対して既に記載されているようにさらに処理される。

この発明は主として多チャンネル音声再生の分野において記載されているものの、応用の異なる分野もこの独創的な方法および装置から利益を受けることができる。例として、この独創的な構想は、テレビ会議の状況において特定の個人の話に（上昇させるか減衰させるかによって）焦点を当てるのに用いられ得る。反響を取り除いたり高めたりするとともに、周囲の成分を除去する（または増幅する）のにも用いることができる。さらに、可能な応用の状況として、周囲の雑音信号の雑音打消しも含む。さらに、聴取を助ける信号の指向性を高めることも、可能な使用となり得る。

独創的な方法の或る実施要件に応じて、ハードウェアまたはソフトウェアにおいて独創
的な方法を実施することができる。当該実施は、デジタル記憶媒体、特に、独創的な方法が行なわれるように、プログラム可能なコンピュータシステムと共同してそこに記憶される電子的に読み取り可能な制御信号を有するディスク、ＤＶＤまたはＣＤ等を用いて行なうことができる。それゆえ、この発明は一般に、コンピュータプログラム製品がコンピュータ上で動作するとき、機械読取可能なキャリアに記憶され、独創的な方法を行なうのに作動的なプログラムコードによるコンピュータプログラム製品である。それゆえに、言い換えると、独創的な方法は、コンピュータプログラムがコンピュータ上で動作するとき、少なくとも１つの独創的な方法を行なうためのプログラムコードを有するコンピュータプログラムである。

上述のことがその特定の実施例を参照して特に示され記載される一方、形式および詳細における種々の他の変化は、その精神および範囲から離れることなく為され得ることが当業者によって理解されるだろう。異なる実施例に適用させるに際し、ここに開示され、続く請求項によって理解されるより広い概念から離れることなく、種々の変化がなされることが理解されるべきである。

Claims

少なくとも１つの音声チャネルと記録位置に関して前記音声チャネルの部分の起源の方向を示す関連した方向パラメータとを有する音声信号を再構築するための方法であって、前記音声チャネルの前記部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、前記方法は、
記録位置に関して起源の特定の方向を選択するステップと、
再構築された音声信号の再構築された部分を得るために前記音声チャネルの前記部分を調整するステップとを備え、前記音声信号の再構築された部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、当該調整は、前記起源の特定の方向からさらに離れた起源の方向を示す方向パラメータを有する前記音声チャネルの他の部分に対して、前記起源の特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を増大させるステップを含み，前記音声チャネルの当該部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分である、方法。
前記起源の特定の方向を選択するステップは、メモリ装置から前記特定の方向を読み取ることを含む、請求項１に記載の方法。
前記調整するステップは、前記音声チャネルの部分の周波数領域の表現を調整することを含む、請求項１に記載の方法。
前記調整するステップは、前記音声チャネルの部分の時間領域の表現を調整することを含む、請求項１に記載の方法。
前記調整するステップは、前記音声チャネルの各部分に対するスケーリング因子を得るステップを含み、該スケーリング因子を得るステップにおいて、第１のスケーリング因子により乗算されるとともに前記記録位置に対して前記起源の第１の方向を示す関連の方向パラメータを有する音声チャネルの第１の部分が第１の強度を有し、第２のスケーリング因子により乗算されるとともに前記記録位置について前記起源の第２の方向を示す音声チャネルの第２の部分が第２の強度を有するように前記第１および第２のスケーリング因子が算出され、前記記録位置についての前記起源の第１の方向は前記記録位置についての前記起源の第２の方向よりも前記特定の方向により近く、かつ前記第１の強度は前記第２の強度よりも大きい、請求項１に記載の方法。
前記少なくとも１つの音声チャネルの周波数表現を導出するステップをさらに含む、請求項１に記載の方法。
前記導出するステップは、前記少なくとも１つの音声チャネルの第１および第２の有限幅の周波数間隔の表現を導き出すことを含み、前記第１の周波数間隔の有限幅は、前記第２の周波数間隔の有限幅と異なる、請求項６に記載の方法。
前記起源の特定の方向を選択するステップは、前記特定の方向を示す入力パラメータをユーザ入力として受けることを含む、請求項１に記載の方法。
前記起源の特定の方向を選択するステップは、前記音声信号に関連する前記特定の方向を示す方向パラメータを受けることを含む、請求項１に記載の方法。
前記起源の特定の方向を選択するステップは、前記少なくとも１つの音声チャネルの有限幅の周波数間隔の起源の方向を決定することを含む、請求項１に記載の方法。
前記音声チャネルに関連した前記音声チャネルの部分の拡散性を示す拡散パラメータを受けることをさらに含み、
前記音声チャネルの部分を調整するステップは、より低い拡散性を示す拡散パラメータを有する音声チャネルの他の部分に対してより高い拡散性を示す拡散パラメータを有する音声チャネルの部分の強度を減少させることを含む、請求項１に記載の方法。
多数のラウドスピーカを有するラウドスピーカシステムを介した再生のために、前記少なくとも１つの音声チャネルを多数のチャネルに混合するステップをさらに含み、前記多数のチャネルの各々は、前記少なくとも１つの音声チャネルの部分に対応するチャネル部分を有する、請求項１に記載の方法。
音声信号の指向性知覚を高めるための方法であって、
少なくとも１つの音声チャネルと、記録位置に関して前記音声チャネルの部分の起源の方向を示す関連する方向パラメータとを導出するステップを備え、前記音声チャネルの部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、
前記記録位置に関して起源の特定の方向を選択するステップと、
高められた音声信号の部分を導き出すように前記音声チャネルの部分を調整するステップとを含み、当該調整するステップは、起源の前記特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの第１の部分の強度を、前記起源の特定の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの第２の部分に対して、より増大させるステップを含む、方法。
少なくとも１つの音声チャネルと記録位置に関して前記音声チャネルの部分の起源の方向を示す関連した方向パラメータとを有する音声信号を再構築するための音声復号器であって、前記音声チャネルの部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、
前記記録位置に関して起源の特定の方向を選択するようにされた方向選択器と、
再構築された音声信号の再構築された部分を得るために前記音声チャネルの部分を調整するための音声部分調整器とを備え、前記音声チャネルの再構築された部分は、時間部分、周波数部分または前記再構築された音声信号の周波数間隔の時間部分であり、
当該調整は、起源の特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの第１の部分の強度を、前記起源の特定の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの第２の部分に対して、より増大させることを含む、音声復号器。
音声信号の指向性知覚を高めるための音声符号器であって、
少なくとも１つの音声チャネルと、記録位置に関して前記音声チャネルの部分の起源の方向を示す関連した方向パラメータとを導出するための信号生成器を備え、前記音声チャネルの部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、
前記記録位置に関して起源の特定の方向を選択するようにされた方向選択器と、
高められた音声信号の部分を得るために前記音声チャネルの部分を調整するための信号調整器とを備え、前記音声チャネルの当該部分は、時間部分、周波数部分、または前記音声チャネルの周波数間隔の時間部分であり、当該調整は、起源の特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの部分の強度を、前記起源の特定の方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの第２の部分に対して、より増大させることを含む、音声符号器。
再構築された音声信号を高めるためのシステムであって、
少なくとも１つの音声チャネルと、記録位置に関して音声チャネルの部分の起源の方向を示す関連した方向パラメータとを有する音声信号を導出するための音声符号器を備え、前記音声チャネルの部分は、時間部分、周波数部分または前記音声チャネルの周波数間隔の時間部分であり、
前記記録位置に関して起源の設定方向を選択するようにされた方向選択器と、
再構築された音声信号の再構築された部分を得るために前記音声チャネルの部分を調整するための音声部分調整器を有する音声復号器とを備え、前記音声信号の再構築された部分は、時間部分、周波数部分、または前記音声信号の周波数間隔の時間部分であり、当該調整は、起源の特定の方向に近接した起源の方向を示す方向パラメータを有する音声チャネルの第１の部分の強度を、前記起源の特定の設定方向からさらに離れた起源の方向を示す方向パラメータを有する音声チャネルの他の部分に対して、より増大させることを含む、システム。
コンピュータ上で動作するとき請求項１または１３の方法を実行するためのコンピュータプログラムを格納するコンピュータ読み取り可能媒体。