JP6521954B2

JP6521954B2 - 音源の位置を特定する方法、および当該方法を用いる人型ロボット

Info

Publication number: JP6521954B2
Application number: JP2016519371A
Authority: JP
Inventors: ランプ，グレゴリー
Original assignee: SoftBank Robotics Europe SAS
Current assignee: Aldebaran SAS
Priority date: 2013-10-01
Filing date: 2014-09-29
Publication date: 2019-05-29
Anticipated expiration: 2034-09-29
Also published as: RU2016116896A; FR3011377B1; CN106030331B; FR3011377A1; CA2925934A1; AU2014331210B2; EP3052958B1; JP2016537622A; CN106030331A; WO2015049199A1; MX2016004207A; BR112016007215A2; CA2925934C; AU2014331210A1; US10222447B2; EP3052958A1; US20160274212A1; RU2642157C2

Description

本発明は、音源を空間的に定位する方法、および当該方法を利用および実装可能な人型ロボットに関する。

音源の空間的な定位は、人型ロボット工学を含むがこれに限定されない多くのアプリケーションで必要である。

ロボットは、頭部、胴体、２本の腕、場合によっては２本の脚等、人間の何らかの属性、外観および特徴を有する場合、人型ロボットと見なすことができる。一般に、人型ロボットは、人の存在に気付いたならば、会話を交わすなどして、自身の言語を含め、可能な限り「自然に」人間とコミュニケーションすることが求められる。この目的を達成するために、音源を定位する能力は極めて有用であるか、または必須である。具体的には、このような能力により、音声が発せられている方向を人型ロボットが判定して、当該方向に自身の頭を向けることができる。当該音声が人から発せられている場合、ロボットが顔認識ソフトウェアパッケージを起動し、音声認識システムを最適に構成して、当該人の運動を「自身の視線」で追跡する等ができる。

複数の音源の空間位置を探知する複数の方法およびシステムが従来技術において知られている。これらの方法およびシステムは一般に、無指向性であるかまたはあまり指向的でない複数のマイクロホン、および前記マイクロホンにより捕捉された信号のデジタル処理に基づいている。

Ｍ．Ｓ．ＢｒａｎｄｓｔｅｉｎおよびＤ．Ｂ．Ｗａｒｄ編「ＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ：ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＴｅｃｈｎｉｑｕｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ」（Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，２００１，Ｂｅｒｌｉｎ，Ｇｅｒｍａｎｙ）に掲載されたＪ．ＤｉＢｉａｓｅ他による論文「Ｒｏｂｕｓｔｌｏｃａｌｉｚａｔｉｏｎｉｎｒｅｖｅｒｂｅｒａｎｔｒｏｏｍｓ」に、音源を定位する３通りの主要なアプローチが記述されている。

第１のアプローチは、マイクロホンにより捕捉された信号の相関行列に基づくスペクトル推定技術を用いる。当該アプローチに基づく方法は、モデリング誤差の影響を受け易く、膨大な計算能力を要する傾向がある。これらは主に狭帯域信号に適している。

第２のアプローチは、マイクロホン対により受信された音声信号間の時間シフトの推定に基づいている（「到達時間差」またはＴＤＯＡ技術）。これらの推定をマイクロホンの位置に関する知識と共に用いて、交点が音源の位置を与える双曲線を計算する。時間シフトは特に、フィルタリングにより以前に「白色化」された信号間の相互相関の計算を利用するＰＨＡＴ−ＧＣＣ（「ＰｈａｓｅＴｒａｎｓｆｏｒｍ−ＧｅｎｅｒａｌｉｚｅｄＣｒｏｓｓ−Ｃｏｒｒｅｌａｔｉｏｎ（位相変換−一般化相互相関）により推定することができる。ＰＨＡＴ−ＧＣＣ法は、Ｃｈ．Ｈ．ＫｎａｐｐおよびＧ．Ｃ．Ｃａｒｔｅｒによる論文「ＴｈｅＧｅｎｅｒａｌｉｚｅｄＣｏｒｒｅｌａｔｉｏｎＭｅｔｈｏｄｆｏｒＥｓｔｉｍａｔｉｏｎｏｆＴｉｍｅＤｅｌａｙ」，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．ＡＳＳＰ−２４，Ｎｏ．４，Ａｕｇｕｓｔ１９７６ｐｐ．３２０−３２７に更に詳述されている。これらの方法は、計算負荷は軽いが、複数の音源から生じた有相関ノイズに対して堅牢ではなく、「偽陽性」を示し易い。更に、ＰＨＡＴ−ＧＣＣ法を除いて反響に対してあまり堅牢でない。

第３のアプローチは、各種のマイクロホンにより捕捉されて可変な時間シフトが適用された信号を追加することにより向き付け可能な音響ビームを合成して、このように受信されたコンポジット信号の出力を最大化するビームの向きを識別するものである。当該アプローチに基づく方法は、膨大な計算能力を要する特定の変型例を除いて反響およびノイズに対してあまり堅牢でない傾向がある。

上述の論文はより具体的に、向き付け可能な音響ビームの合成および一般化相関を位相変換と組み合せる方法を記述している。当該方法は、ＳＲＰ−ＰＨＡＴ（「ＳｔｅｅｒｅｄＲｅｓｐｏｎｓｅＰｏｗｅｒ−ＰＨＡｓｅＴｒａｎｓｆｏｒｍ（被制御応答出力−位相変換）」）と表記する。ＰＨＡＴ−ＧＣＣ法と比べてノイズに対してより堅牢であるが反響に影響され易い。

Ｊ．ＤｉＢｉａｓｅｅｔａｌ．"Ｒｏｂｕｓｔｌｏｃａｌｉｚａｔｉｏｎｉｎｒｅｖｅｒｂｅｒａｎｔｒｏｏｍｓ"ｉｎＭ．Ｓ．ＢｒａｎｄｓｔｅｉｎａｎｄＤ．Ｂ．Ｗａｒｄ"ＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ：：ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＴｅｃｈｎｉｑｕｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ"，Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，２００１，Ｂｅｒｌｉｎ，ＧｅｒｍａｎｙＣｈ．Ｈ．ＫｎａｐｐおよびＧ．Ｃ．Ｃａｒｔｅｒ"ＴｈｅＧｅｎｅｒａｌｉｚｅｄＣｏｒｒｅｌａｔｉｏｎＭｅｔｈｏｄｆｏｒＥｓｔｉｍａｔｉｏｎｏｆＴｉｍｅＤｅｌａｙ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．ＡＳＳＰ−２４，Ｎｏ．４，Ａｕｇｕｓｔ１９７６ｐｐ．３２０−３２７

本発明は、公知の先行技術方法に比べてノイズおよび反響に対してより良好な耐性を有すると共に、人型ロボット等のオンボードシステムにおいてリアルタイム且つ他のタスクと並行して実行する際に計算負荷が充分に軽い音源定位方法を提供することを目的とする。

本発明によれば、当該目的は、上述のＳＲＰ−ＰＨＡＴ法から派生した方法により、且つ当該派生的方法を実行する手段を含む人型ロボットにより実現される。

本発明の一主題は従って、音源定位方法であって、
ａ）少なくとも３個のマイクロホンの配列により、定位したい音源からの音声信号を捕捉するステップと、
ｂ）前記配列から少なくとも３対のマイクロホンを選択して、前記各対について、捕捉した音声信号の一般化相互相関を計算するステップ、すなわち前記音声信号間の両耳間時間差と呼ばれる遅延の複数の値について前記計算を実行するステップと、
ｃ）前記一般化相互相関から、前記マイクロホンの各対における両耳間時間差のベクトルの関数として表される被制御応答出力を計算するステップと、
ｄ）前記被制御応答出力を最大化する両耳間時間差ベクトルを判定するステップと、
ｅ）ステップｄ）で判定された両耳間時間差ベクトルに依存する前記音源の定位方向を推定するステップとを含み、
−前記ステップｃ）およびｄ）が、前記マイクロホンから無限遠点にある単一の音源から発せられた音声信号と整合するベクトルの第１の部分集合と、前記マイクロホンから無限遠点にある単一の音源から発せられた音声信号と整合しないベクトルの第２の部分集合とを含む集合を形成する複数の両耳間時間差ベクトルを考慮することにより実行され、
−前記第１の部分集合の各ベクトルには対応する単一音源の定位方向が関連付けられ、前記第２の部分集合の各ベクトルには所定計量に従い最も近い前記第１の部分集合のベクトルに関連付けられた定位方向が関連付けられていて、
−前記ステップｅ）で推定された方向は、前記ステップｄ）で判定された両耳間時間差ベクトルに関連付けられたものである。

上述の方法の有利な特徴によれば、
−前記ステップｂ）で計算された一般化相互相関は、以前に白色化された信号の相互相関に対応するＧＣＣ−ＰＨＡＴ型であってよく、
−前記ステップｂ）において、前記配列のマイクロホンの全ての対が選択されてよく、
−前記被制御応答出力は、前記マイクロホン対についての一般化相互相関の和により与えられるか、または比例していてよく、
−前記第１の部分集合は、Ｃｈａｓｌｅｓ条件と呼ばれる条件
τ_ｉｊ＋τ_ｊｋ＝τ_ｉｋ
を自身の要素が満たす前記集合のベクトルを含んでいてよく、
ここに添え字ｉ≠ｊ≠ｋは前記配列の各種のマイクロホンを表し、τ_ｉｊ、τ_ｊｋ、τ_ｉｋは各々が対（ｉ，ｊ）、（ｊ，ｋ）、（ｉ，ｋ）における両耳間時間差を表し、
−前記第２の部分集合は、前記第１の部分集合に属していない前記集合のベクトルおよび当該ベクトルから前記第１の部分集合のベクトルまでの距離を含み、当該距離は前記所定計量に従い決定され、正規化後は所定の閾値未満であり、
−前記所定計量はユークリッド計量であってよく、
−前記ステップｅ）は、１個の定位方向を前記集合の各値に関連付ける参照テーブルに基づいて実行されてよい。

本発明の別の主題は、
−少なくとも３個のマイクロホンの配列と、
−前記マイクロホンにより捕捉された入力音声信号として受信すべく前記マイクロホンに接続されたプロセッサであって先行請求項のいずれか１項に記載の方法を実行すべくプログラミングまたは構成されたプロセッサとを含む人型ロボットである。

有利な特徴として、前記マイクロホンは、前記ロボットの頭部の上面に配置されていてよい。

本発明の他の特徴、詳細事項、および利点は、例示的な添付図面を参照しながら以下の記述を精査することでより明らかになろう。

本発明の一実施形態による方法の実装を示すブロック図である。本発明の一実施形態による人型ロボットの頭部におけるマイクロホンの配置を示す。本発明の一実施形態による方法の性能を示すグラフである。比較として従来技術による方法の性能を示すグラフである。本発明の一実施形態による方法の性能を示すグラフである。比較として従来技術による方法の性能を示すグラフである。本発明の一実施形態による方法の性能を示すグラフである。比較として従来技術による方法の性能を示すグラフである。本発明の一実施形態による方法の性能を示すグラフである。比較として従来技術による方法の性能を示すグラフである。本発明の一実施形態による方法の性能を示すグラフである。比較として従来技術による方法の性能を示すグラフである。

図１は、マイクロホンＭ１〜Ｍ４およびプロセッサＰＲのネットワークを含むシステムによる本発明の一実施形態による方法の実装を極めて模式的に示す。

同図のケースでは、ネットワークは４個のマイクロホンを含んでいるが、この数はより少なくても（少なくとも３）またはより大きくてもよく、更に、マイクロホンが整列して示されているが、任意の空間配置が可能である。好適には、マスキングのケース、すなわちマイクロホンと、定位したい音源の定位可能な空間領域との間に障害物が入るケースが最小になる配置が選択される。

実際のシステムはまた、マイクロホンから発せられた信号を調整してこれらの増幅、フィルタリング、サンプリング、およびアナログの／デジタル変換を保証する回路も含んでいる。当該回路は、図を簡潔且つ読み易くすべく省略されている。従って以下では、マイクロホンＭ１〜Ｍ４がデジタルフォーマットで信号を配信するものと考える。

プロセッサＰＲは、以下の動作を行うべくプログラミングまたは構成されている。

１．各種のマイクロホンから発せられた信号の一般化相互相関、特にＧＣＣ−ＰＨＡＴ型の一般化相互相関の計算。

ｓ_ｉ（ｔ）、ｓ_ｊ（ｔ）をマイクロホンＭ_ｉ、Ｍ_ｊ（ｉ，ｊ＝１−４：ｉ≠ｊ）から発せられた信号とする。当該信号の一般化相互相関Ｒ_{ｓｉ，ｓｊ}は、事前フィルタリング後の信号間の相互相関として定義する。これは時間を単位とする変数τの関数であって、２個のマイクロホンから発せられた信号間の時間シフト（両耳間時間差）を表す。有利な特徴として、一般化相互相関は、周波数領域において計算される。

ここに、Ｓ_ｉ，ｊ（ω）は信号ｓ_ｉ，ｊ（ｔ）のフーリエ変換、^「*」は共役複素数演算子、Φ（ω）はフィルタの伝達関数である。ＧＣＣ−ＰＨＡＴ一般化相互相関の場合、信号を「白色化する」、すなわち位相情報だけを保存すべく自身の全てのスペクトル成分の強度を等しくするフィルタが選択される。

無論、本方法の実用的な実施形態において、フーリエ変換は例えば高速フーリエ変換（ＦＦＴ）アルゴリズムにより計算される離散フーリエ変換であり、積分項は有限個の項の和で代替される。

従って図１に示すように、マイクロホンＭ_１〜Ｍ_４から発せられた信号は周波数領域（例えば高速フーリエ変換すなわち「ＦＦＴ」アルゴリズムを用いて離散フーリエ変換を実行するＦＴブロック）に変換され、主にノイズを含むまたはノイズだけを含むスペクトル成分が白色化フィルタにより増幅されることを防止（スペクトル閾値化ブロックＳＣＳ）すべく、強度が所定の値未満であるスペクトル成分を抑制するために閾値化され、次いで前記白色化フィルタＰＨＡＴによりフィルタリングされるが、他の種類のフィルタを用いてもよく、Ｃｈ．Ｈ．ＫｎａｐｐおよびＧ．Ｃ．Ｃａｒｔｅｒによる上述の論文を参照されたい。次に、フィルタリングされた信号は対毎に乗算され、それらの積は時間領域に再変換される（ＦＴ^−１ブロックは、特に高速フーリエ変換すなわち「ＦＦＴ」アルゴリズムを用いて逆離散フーリエ変換を実行する）。従って、各種のマイクロホンにより捕捉された音声信号の一般化相互相関が得られ、対毎に考慮される。マイクロホンの全ての対（Ｎをマイクロホンの個数とすれば対の数はＮ（Ｎ−１）／２）からの信号を扱うように選択されているが、選択する対の数を３個に限定できるが、３〜Ｎ（Ｎ−１）／２の間の任意の個数の対を選択してもよい。

周波数領域への、および周波数領域からの変換は相互相関の計算に必須ではないが、極めて有利である。

計算は別々に行われるため、各々の一般化相互相関は両耳間時間差の値の離散的集合についてのみ計算される。

２．被制御応答出力（ＳＲＰ）の計算。当該計算は、単に各種の一般化相互相関を加算することにより行われる。
ＳＲＰ（τ）＝Σ_{ｓｉ，ｓｊ}Ｒ_{ｓｉ，ｓｊ}（τ_{ｓｉ，ｓｊ}）（３）
ここに、和は、マイクロホンの各対に関連付けられた信号ｓ_ｉ，ｓ_ｊのＭ個の対に対して計算される（３≦Ｍ≦Ｎ（Ｎ−１）／２）。ベクトル変数τは、Ｍ個の成分を有し、その各々が１個の前記対における両耳間時間差に対応する。より一般的には、ＳＲＰは一般化相互相関の一次結合として定義できる。

τの全ての値、従って値τ_{ｓｉ，ｓｊ}の全ての組合せは「物理的に可能」ではない。具体的には、マイクロホンに到達する音波が平面であると考えられる程度にマイクロホンのネットワークから充分に離れた単一の音源を考慮する場合、前記音源の定位方向は２個の両耳間時間差により完全に識別される。換言すれば、ベクトルτの２個の成分は、他の成分の値を明確に定義する（少なくとも理論上）。

３．被制御応答出力の最大化
音源の定位方向は、ベクトル変数τに対して関数ＳＲＰ（τ）を最大化することにより識別される。当該最適化課題を解決するために多くの数値方法を用いてよい。勾配アルゴリズムおよび「総当たり」法の非限定的な例により行うことができる。

この最大化は、上で述べた意味で「物理的に可能な」、すなわち「無限」の距離にある単一の音源から発せられた音声信号と整合するτの値だけを考慮することにより、制約の下で実行できる。このアプローチは特に、Ｊ．Ｈ．ＤｉＢｉａｓｅ他による上述の論文から公知であるが、実際にはあまり堅牢でないことが分かっている。具体的には、ノイズ、マスキング効果（障害物が音源と１個以上のマイクロホンとの間に入り込む）、および特に反響効果に起因して、ＳＲＰ（τ）の最大絶対値がτの「不可能な」値に対応することが多い。

本発明によれば、音源の空間的な定位を見つけるアルゴリズムの堅牢性を向上させるべく、ＳＰＲ（τ）の最大値の探索は、τの「可能な」値だけでなく、理論的に受容できない値、すなわち「無限の」距離にある信号源から発せられた音声信号と整合しない値に対しても実行される。より正確には、図１に示すように、関数ＳＲＰ（τ）は、２個の部分集合からなる集合Ｅを形成するベクトルτの値を考慮することにより最大化される（関数ブロック「ＭＡＸ」）。
−マイクロホンのネットワークから無限遠点にある単一の音源から発せられた音声信号と整合するベクトルτの第１の部分集合Ｅ１。数学的観点から、これらのベクトルは「Ｃｈａｓｌｅｓ」条件と呼ばれる条件を満たす成分を有している。
τ_ｉｊ＋τ_ｊｋ＝τ_ｉｋ（４）
ここに添え字ｉ≠ｊ≠ｋは、前記配列の各種マイクロホンを表し、τ_ｉｊ、τ_ｊｋ、およびτ_ｉｋは各々が対（ｉ，ｊ）、（ｊ，ｋ）、および（ｉ，ｋ）における両耳間時間差を表している。これらの条件は、ベクトルτが無限遠点にある単一の音源から発せられた音声信号と整合するための必要条件であるが、十分条件ではない。
−マイクロホンのネットワークから無限遠点にある単一の音源から発せられた音声信号と整合しないベクトルτの第２の部分集合Ｅ２。特に、当該第２の部分集合は、前記第１の部分集合に属していない前記集合のベクトルおよび当該ベクトルから前記第１の部分集合のベクトルまでの距離を含み、当該距離は所定の（特にユークリッド）計量に従い決定され、正規化（各ベクトルをノルムで除算）後は所定の閾値未満である。当該閾値は本方法を調整するものであって、実験的に決定されてよい。

以下の手順を用いて集合Ｅに属するベクトルτを選択して部分集合Ｅ１およびＥ２に振り分ける。

最初に、音源の方向を指す単位ベクトルすなわちｘと表記するベクトルを両耳間時間差τのベクトルに関連付けるシステムを行列形式で記述することを推奨する。
τ＝Ａｘ（５）
ここにＡはＭ×３行列である（Ｍはベクトルτの成分の個数であることを想起されたい）。行列Ａは正方行列でないため、逆行列を直接求めることはできない。マイクロホンが同一平面上にない場合、行列Ａの階数は３である。従って、３個の線形独立な行を選択して逆行列演算可能な正方行列

を構築することが可能である。行列Ａの前記独立成分に対応するτの３個の成分を取ることにより得られる三次元ベクトルを

と表記する。従って、

従って、

となる。

次に、（τまたはその各成分のモジュラスに受容可能な最大値が与えられるため）

内の球体または立方体に対応する、ベクトルτの離散的な起点集合Ｅ’（これらの成分の離散的な値しか考慮しないため）について考える。

Ｅ’の各ベクトルτに対して、三次元Ｃｈａｓｌｅｓ関係に関するベクトルの部分空間への射影

を計算する。差

が所定の閾値εを上回る場合、当該ベクトルは廃棄される。さもなければ、

からベクトル

（すなわち、３個の線形独立な成分のベクトル）を抽出し、

で与えるように距離ｄ_２を計算する。

式（８）は、ベクトル

を方向を変更せずに値ｄ_２だけ短くすることにより、

がユニタリノルムを有することを示す。

が閾値ε未満である場合、ベクトルτは従って集合Ｅの一部（ｄ＝０ならば部分集合Ｅ１の、さもなければ部分集合Ｅ２の、但しこの違いは意図的ではなく、集合Ｅの全てのベクトルが同様に扱われる点に注意されたい）を形成する。

式７により、前記ベクトルの各々を音源の定位方向に関連付けることができる。

これらの計算は極めて高負荷であるため、一度だけ実行して結果を参照テーブル（下記参照）に保存することが有利である。

４．音源の定位方向の識別
ＳＲＰ（τ）を最大化するベクトルτ∈Ｅ（τ_ｍａｘと表記）を識別した後、これを音源の定位方向に関連付けることが必要である。τ_ｍａｘ∈Ｅ１である場合、両耳間時間差のベクトルは唯一の定位方向と整合するため、これは問題ではない。τ_ｍａｘ∈Ｅ２である場合、前記所定計量に従うτ_ｍａｘに最も近いＥ１に属するベクトルと整合する定位方向が選択される。

有利な特徴として、集合Ｅの各ベクトルは１回だけ定位方向に関連付けられる。集合の各ベクトルおよび関連付けられた定位方向はプロセッサのメモリにロードされたファイルに保存されて上述のように構成された参照テーブルを形成する。従って、音源の定位方向は、単にテーブルから読み出すことによりτ_ｍａｘの値から決定される。

有利な特徴として、参照テーブルを含むファイルは、以下のように編成されている（６個の成分を有するベクトルτを考慮する）。

ファイルには添え字が明示的に記述されておらず、順序通りである。「隣接」欄は、偏差が１以下（または他の所定の値以下）であるベクトルの添え字を含んでいる。当該欄は、ＳＲＰを最大化する勾配アルゴリズムの実行を容易にすべく有用である。

プロセッサが起動したならば、参照テーブルを含むファイルの内容をメモリにロードする。音声が検知される都度、参照テーブルに保存されている全てのベクトルτについてＳＲＰ（τ）値を計算し、次いでこれらの値の最大値を求め、対応するベクトルτを識別して、当該ベクトルに関連付けられた方位角および仰角の値を参照テーブルから読み出す。一変型例として、プロセッサは、複数定位（多数の音源の同時定位）を実行すべくＳＲＰ（τ）のＮ＞１個の最も高い局所最大値を探索することができるが、当該アプローチはあまり堅牢でないことが分かっている。

図１を用いて動作を示したプロセッサＰＲは、集合Ｅおよび参照テーブルＬＵＴを保存すべく１個以上のメモリに接続され且つ適切にプログラムされたマイクロプロセッサを含んでいてよい。当該マイクロプロセッサは、音源の定位専用であっても、または他の目的を達成するものであってもよい。必要に応じて、ポータブルまたはデスクトップコンピュータあるいは極めて単純なロボットの唯一のプロセッサであってもよい。同様に、集合Ｅおよび参照テーブルＬＵＴは、専用のメモリ装置または中央メモリに保存されていてもよい。プロセッサはまた、任意選択的にプログラム可能であり得る専用の論理回路を含んでいてよい。

図２に、本発明の実施に適した人型ロボットの頭部ＴＲＨを示し、前記頭部の上面に配置された４個のマイクロホンＭ_１〜Ｍ_４のネットワークを含んでいる。当該構成により、音源がロボットの頭部よりも高い位置にある場合にマスキング効果を回避できる。これは特に、大抵の人間よりもサイズが小さい、例えば５０〜１５０ｃｍの人型ロボット側で人間話者の検知および定位を行う場合に推奨される。２個の隣接するマイクロホン間の距離は、例示的に３〜３０ｃｍの間である。

本発明の方法は、図２によれば、出願人企業が製作した「Ｎａｏ」ロボットにマイクロホンを備えることにより試験された。ロボットおよび音源は通常の部屋に配置され、ロボットの前方、右側、左側、前方右側（前後軸に対して−４５°の角度）および前方左側（前後軸に対して＋４５°の角度）に音源が配置された状態で「正常な」反響を示した。音源は、音声信号を発する音声再生設備であった。定位は、１０２４個のサンプルの計算ウインドウを各々考慮することにより行われた。複数回の試行を反復して、ロボットにより判定された定位方向（方位角および迎角により識別された）を集計してヒストグラムを形成した。

図３Ａ／３Ｂは、ロボットの前方に定位された音源に対応している（理論方位角：０°）。

図４Ａ／４Ｂは、ロボットの左側に定位された音源に対応している（名目方位角：９０°）。

図５Ａ／５Ｂは、ロボットの前方左側に定位された音源に対応している（名目方位角：４５°）。

図６Ａ／６Ｂは、ロボットの右側に定位された音源に対応している（名目方位角：−９０°）。

図７Ａ／７Ｂは、ロボットの前方右側に定位された音源に対応している（名目方位角：−４５°）。

名目仰角は測定されなかった。主に関心対象であるロボットアプリケーションでは特に、仰角は方位角ほど重要でない。

図「Ａ」は上述したような本発明の方法に関する。図「Ｂ」は従来のＴＤＯＡ法により得られたものであり、比較として与える。当該参照方法において、最大正規化ＳＲＰ値が所定の閾値未満である場合、定位は失敗したものと考えられる。より一般的には、本発明による方法においても、当該正規化最大値は、定位の信頼度のインジケータと見なすことができる。正規化は次式で与えられ、

ここにＷ（ｓ_ｉ）、Ｗ（ｓ_ｊ）はマイクロホンｉ、ｊから発せられた白色化信号のエネルギーである。

本発明の場合（図「Ａ」）、大多数の試行が音源の方位角の数度以内の満足すべき推定に至ったのに対し、参照方法（図「Ｂ」）は失敗率が極めて高いことを示す点に注意されたい。基本的に関心対象であるロボットアプリケーションは高い精度を要求せず（数度の定位誤差は影響しない）、むしろ高い堅牢性と相対的な計算の簡便性を合わせて要求することを強調すべきである。

Claims

音源定位方法であって、
ａ）少なくとも３個のマイクロホン（Ｍ１、Ｍ２、Ｍ３、Ｍ４）の配列により、定位したい音源からの音声信号を捕捉するステップと、
ｂ）前記配列から少なくとも３対のマイクロホンを選択して、前記少なくとも３対のマイクロホンの各対について、捕捉した音声信号の一般化相互相関を計算するステップ、すなわち前記音声信号間の両耳間時間差と呼ばれる遅延の複数の値について前記計算を実行するステップと、
ｃ）前記少なくとも３対のマイクロホンの各対における両耳間時間差のベクトルの関数として表される前記一般化相互相関から被制御応答出力を計算するステップと、
ｄ）前記被制御応答出力を最大化する両耳間時間差ベクトルを判定するステップと、
ｅ）ステップｄ）で判定された両耳間時間差ベクトルに依存する前記音源の定位方向を推定するステップとを含み、
−前記ステップｃ）およびｄ）が、前記マイクロホンから無限遠点にある単一の音源から発せられた音声信号と整合するベクトルの第１の部分集合（Ｅ１）と、前記マイクロホンから無限遠点にある単一の音源から発せられた音声信号と整合しないベクトルの第２の部分集合（Ｅ２）とを含む集合（Ｅ）を形成する複数の両耳間時間差ベクトルを考慮することにより実行され、
−前記ステップｅ）で推定された方向は、前記ステップｄ）で判定された両耳間時間差ベクトルが前記第１の部分集合に含まれる場合、対応する前記単一の音源の定位方向に関連付けられ、前記第２の部分集合に含まれる場合、所定計量に従い最も近い前記第１の部分集合のベクトルに関連付けられた定位方向に関連付けられたものであることを特徴とする方法。
前記ステップｂ）において計算された一般化相互相関が、以前に白色化された信号の相互相関に対応するＧＣＣ−ＰＨＡＴ型である、請求項１に記載の方法。
前記ステップｂ）において、前記配列の前記少なくとも３個のマイクロホンの全ての対が選択されている、請求項１〜２のいずれか１項に記載の方法。
前記被制御応答出力が、前記少なくとも３対のマイクロホンについての一般化相互相関の和により与えられるか、または比例している、請求項１〜３のいずれか１項に記載の方法。
前記第１の部分集合が、Ｃｈａｓｌｅｓ条件と呼ばれる条件
τ_ｉｊ＋τ_ｊｋ＝τ_ｉｋ
を自身の要素が満たす前記集合のベクトルを含み、
ここに添え字ｉ≠ｊ≠ｋは前記配列の各種のマイクロホンを表し、τ_ｉｊ、τ_ｊｋ、τ_ｉｋは各々が対（ｉ，ｊ）、（ｊ，ｋ）、（ｉ，ｋ）における両耳間時間差を表す、請求項１〜４のいずれか１項に記載の方法。
前記第２の部分集合が、前記第１の部分集合に属していない前記集合のベクトルおよび当該ベクトルから前記第１の部分集合のベクトルまでの距離を含み、当該距離は前記所定計量に従い決定され、正規化後は所定の閾値未満にある、請求項１〜５のいずれか１項に記載の方法。
前記所定計量がユークリッド計量である、請求項１〜６のいずれか１項に記載の方法。
前記ステップｅ）が、１個の定位方向を前記集合の各値に関連付ける参照テーブル（ＬＵＴ）に基づいて実行される、請求項１〜７のいずれか１項に記載の方法。
−少なくとも３個のマイクロホンの配列（Ｍ１、Ｍ２、Ｍ３、Ｍ４）と、
−前記マイクロホンにより捕捉された入力音声信号として受信すべく前記マイクロホンに接続されたプロセッサ（ＰＲ）であって請求項１〜８のいずれか１項に記載の方法を実行すべくプログラミングまたは構成されたプロセッサとを含む人型ロボット。
前記マイクロホンが、前記人型ロボットの頭部（ＴＲＨ）の上面に配置されている、請求項９に記載の人型ロボット。