JP6521954B2 - 音源の位置を特定する方法、および当該方法を用いる人型ロボット - Google Patents

音源の位置を特定する方法、および当該方法を用いる人型ロボット Download PDF

Info

Publication number
JP6521954B2
JP6521954B2 JP2016519371A JP2016519371A JP6521954B2 JP 6521954 B2 JP6521954 B2 JP 6521954B2 JP 2016519371 A JP2016519371 A JP 2016519371A JP 2016519371 A JP2016519371 A JP 2016519371A JP 6521954 B2 JP6521954 B2 JP 6521954B2
Authority
JP
Japan
Prior art keywords
vector
microphones
subset
sound source
time difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016519371A
Other languages
English (en)
Other versions
JP2016537622A (ja
JP2016537622A5 (ja
Inventor
ランプ,グレゴリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aldebaran SAS
Original Assignee
SoftBank Robotics Europe SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Robotics Europe SAS filed Critical SoftBank Robotics Europe SAS
Publication of JP2016537622A publication Critical patent/JP2016537622A/ja
Publication of JP2016537622A5 publication Critical patent/JP2016537622A5/ja
Application granted granted Critical
Publication of JP6521954B2 publication Critical patent/JP6521954B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Manipulator (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、音源を空間的に定位する方法、および当該方法を利用および実装可能な人型ロボットに関する。
音源の空間的な定位は、人型ロボット工学を含むがこれに限定されない多くのアプリケーションで必要である。
ロボットは、頭部、胴体、2本の腕、場合によっては2本の脚等、人間の何らかの属性、外観および特徴を有する場合、人型ロボットと見なすことができる。一般に、人型ロボットは、人の存在に気付いたならば、会話を交わすなどして、自身の言語を含め、可能な限り「自然に」人間とコミュニケーションすることが求められる。この目的を達成するために、音源を定位する能力は極めて有用であるか、または必須である。具体的には、このような能力により、音声が発せられている方向を人型ロボットが判定して、当該方向に自身の頭を向けることができる。当該音声が人から発せられている場合、ロボットが顔認識ソフトウェアパッケージを起動し、音声認識システムを最適に構成して、当該人の運動を「自身の視線」で追跡する等ができる。
複数の音源の空間位置を探知する複数の方法およびシステムが従来技術において知られている。これらの方法およびシステムは一般に、無指向性であるかまたはあまり指向的でない複数のマイクロホン、および前記マイクロホンにより捕捉された信号のデジタル処理に基づいている。
M.S.BrandsteinおよびD.B.Ward編「Microphone Arrays:Signal Processing Techniques and Applications」(Springer−Verlag,2001,Berlin,Germany)に掲載されたJ.DiBiase他による論文「Robust localization in reverberant rooms」に、音源を定位する3通りの主要なアプローチが記述されている。
第1のアプローチは、マイクロホンにより捕捉された信号の相関行列に基づくスペクトル推定技術を用いる。当該アプローチに基づく方法は、モデリング誤差の影響を受け易く、膨大な計算能力を要する傾向がある。これらは主に狭帯域信号に適している。
第2のアプローチは、マイクロホン対により受信された音声信号間の時間シフトの推定に基づいている(「到達時間差」またはTDOA技術)。これらの推定をマイクロホンの位置に関する知識と共に用いて、交点が音源の位置を与える双曲線を計算する。時間シフトは特に、フィルタリングにより以前に「白色化」された信号間の相互相関の計算を利用するPHAT−GCC(「Phase Transform−Generalized Cross−Correlation(位相変換−一般化相互相関)により推定することができる。PHAT−GCC法は、Ch.H.KnappおよびG.C.Carterによる論文「The Generalized Correlation Method for Estimation of Time Delay」,IEEE Transaction on Acoustics,Speech and Signal Processing,Vol.ASSP−24,No.4,August 1976 pp.320−327に更に詳述されている。これらの方法は、計算負荷は軽いが、複数の音源から生じた有相関ノイズに対して堅牢ではなく、「偽陽性」を示し易い。更に、PHAT−GCC法を除いて反響に対してあまり堅牢でない。
第3のアプローチは、各種のマイクロホンにより捕捉されて可変な時間シフトが適用された信号を追加することにより向き付け可能な音響ビームを合成して、このように受信されたコンポジット信号の出力を最大化するビームの向きを識別するものである。当該アプローチに基づく方法は、膨大な計算能力を要する特定の変型例を除いて反響およびノイズに対してあまり堅牢でない傾向がある。
上述の論文はより具体的に、向き付け可能な音響ビームの合成および一般化相関を位相変換と組み合せる方法を記述している。当該方法は、SRP−PHAT(「Steered Response Power−PHAse Transform(被制御応答出力−位相変換)」)と表記する。PHAT−GCC法と比べてノイズに対してより堅牢であるが反響に影響され易い。
J.DiBiase et al."Robust localization in reverberant rooms"in M.S.Brandstein and D.B.Ward"Microphone Arrays:: Signal Processing Techniques and Applications",Springer−Verlag,2001,Berlin,Germany Ch.H.KnappおよびG.C.Carter"The Generalized Correlation Method for Estimation of Time Delay",IEEE Transaction on Acoustics,Speech and Signal Processing,Vol.ASSP−24,No.4,August 1976 pp.320−327
本発明は、公知の先行技術方法に比べてノイズおよび反響に対してより良好な耐性を有すると共に、人型ロボット等のオンボードシステムにおいてリアルタイム且つ他のタスクと並行して実行する際に計算負荷が充分に軽い音源定位方法を提供することを目的とする。
本発明によれば、当該目的は、上述のSRP−PHAT法から派生した方法により、且つ当該派生的方法を実行する手段を含む人型ロボットにより実現される。
本発明の一主題は従って、音源定位方法であって、
a)少なくとも3個のマイクロホンの配列により、定位したい音源からの音声信号を捕捉するステップと、
b)前記配列から少なくとも3対のマイクロホンを選択して、前記各対について、捕捉した音声信号の一般化相互相関を計算するステップ、すなわち前記音声信号間の両耳間時間差と呼ばれる遅延の複数の値について前記計算を実行するステップと、
c)前記一般化相互相関から、前記マイクロホンの各対における両耳間時間差のベクトルの関数として表される被制御応答出力を計算するステップと、
d)前記被制御応答出力を最大化する両耳間時間差ベクトルを判定するステップと、
e)ステップd)で判定された両耳間時間差ベクトルに依存する前記音源の定位方向を推定するステップとを含み、
−前記ステップc)およびd)が、前記マイクロホンから無限遠点にある単一の音源から発せられた音声信号と整合するベクトルの第1の部分集合と、前記マイクロホンから無限遠点にある単一の音源から発せられた音声信号と整合しないベクトルの第2の部分集合とを含む集合を形成する複数の両耳間時間差ベクトルを考慮することにより実行され、
−前記第1の部分集合の各ベクトルには対応する単一音源の定位方向が関連付けられ、前記第2の部分集合の各ベクトルには所定計量に従い最も近い前記第1の部分集合のベクトルに関連付けられた定位方向が関連付けられていて、
−前記ステップe)で推定された方向は、前記ステップd)で判定された両耳間時間差ベクトルに関連付けられたものである。
上述の方法の有利な特徴によれば、
−前記ステップb)で計算された一般化相互相関は、以前に白色化された信号の相互相関に対応するGCC−PHAT型であってよく、
−前記ステップb)において、前記配列のマイクロホンの全ての対が選択されてよく、
−前記被制御応答出力は、前記マイクロホン対についての一般化相互相関の和により与えられるか、または比例していてよく、
−前記第1の部分集合は、Chasles条件と呼ばれる条件
τij+τjk=τik
を自身の要素が満たす前記集合のベクトルを含んでいてよく、
ここに添え字i≠j≠kは前記配列の各種のマイクロホンを表し、τij、τjk、τikは各々が対(i,j)、(j,k)、(i,k)における両耳間時間差を表し、
−前記第2の部分集合は、前記第1の部分集合に属していない前記集合のベクトルおよび当該ベクトルから前記第1の部分集合のベクトルまでの距離を含み、当該距離は前記所定計量に従い決定され、正規化後は所定の閾値未満であり、
−前記所定計量はユークリッド計量であってよく、
−前記ステップe)は、1個の定位方向を前記集合の各値に関連付ける参照テーブルに基づいて実行されてよい。
本発明の別の主題は、
−少なくとも3個のマイクロホンの配列と、
−前記マイクロホンにより捕捉された入力音声信号として受信すべく前記マイクロホンに接続されたプロセッサであって先行請求項のいずれか1項に記載の方法を実行すべくプログラミングまたは構成されたプロセッサとを含む人型ロボットである。
有利な特徴として、前記マイクロホンは、前記ロボットの頭部の上面に配置されていてよい。
本発明の他の特徴、詳細事項、および利点は、例示的な添付図面を参照しながら以下の記述を精査することでより明らかになろう。
本発明の一実施形態による方法の実装を示すブロック図である。 本発明の一実施形態による人型ロボットの頭部におけるマイクロホンの配置を示す。 本発明の一実施形態による方法の性能を示すグラフである。 比較として従来技術による方法の性能を示すグラフである。 本発明の一実施形態による方法の性能を示すグラフである。 比較として従来技術による方法の性能を示すグラフである。 本発明の一実施形態による方法の性能を示すグラフである。 比較として従来技術による方法の性能を示すグラフである。 本発明の一実施形態による方法の性能を示すグラフである。 比較として従来技術による方法の性能を示すグラフである。 本発明の一実施形態による方法の性能を示すグラフである。 比較として従来技術による方法の性能を示すグラフである。
図1は、マイクロホンM1〜M4およびプロセッサPRのネットワークを含むシステムによる本発明の一実施形態による方法の実装を極めて模式的に示す。
同図のケースでは、ネットワークは4個のマイクロホンを含んでいるが、この数はより少なくても(少なくとも3)またはより大きくてもよく、更に、マイクロホンが整列して示されているが、任意の空間配置が可能である。好適には、マスキングのケース、すなわちマイクロホンと、定位したい音源の定位可能な空間領域との間に障害物が入るケースが最小になる配置が選択される。
実際のシステムはまた、マイクロホンから発せられた信号を調整してこれらの増幅、フィルタリング、サンプリング、およびアナログの/デジタル変換を保証する回路も含んでいる。当該回路は、図を簡潔且つ読み易くすべく省略されている。従って以下では、マイクロホンM1〜M4がデジタルフォーマットで信号を配信するものと考える。
プロセッサPRは、以下の動作を行うべくプログラミングまたは構成されている。
1.各種のマイクロホンから発せられた信号の一般化相互相関、特にGCC−PHAT型の一般化相互相関の計算。
(t)、s(t)をマイクロホンM、M(i,j=1−4:i≠j)から発せられた信号とする。当該信号の一般化相互相関Rsi,sjは、事前フィルタリング後の信号間の相互相関として定義する。これは時間を単位とする変数τの関数であって、2個のマイクロホンから発せられた信号間の時間シフト(両耳間時間差)を表す。有利な特徴として、一般化相互相関は、周波数領域において計算される。
Figure 0006521954
ここに、Si,j(ω)は信号si,j(t)のフーリエ変換、「*」は共役複素数演算子、Φ(ω)はフィルタの伝達関数である。GCC−PHAT一般化相互相関の場合、信号を「白色化する」、すなわち位相情報だけを保存すべく自身の全てのスペクトル成分の強度を等しくするフィルタが選択される。
Figure 0006521954
無論、本方法の実用的な実施形態において、フーリエ変換は例えば高速フーリエ変換(FFT)アルゴリズムにより計算される離散フーリエ変換であり、積分項は有限個の項の和で代替される。
従って図1に示すように、マイクロホンM〜Mから発せられた信号は周波数領域(例えば高速フーリエ変換すなわち「FFT」アルゴリズムを用いて離散フーリエ変換を実行するFTブロック)に変換され、主にノイズを含むまたはノイズだけを含むスペクトル成分が白色化フィルタにより増幅されることを防止(スペクトル閾値化ブロックSCS)すべく、強度が所定の値未満であるスペクトル成分を抑制するために閾値化され、次いで前記白色化フィルタPHATによりフィルタリングされるが、他の種類のフィルタを用いてもよく、Ch.H.KnappおよびG.C.Carterによる上述の論文を参照されたい。次に、フィルタリングされた信号は対毎に乗算され、それらの積は時間領域に再変換される(FT−1ブロックは、特に高速フーリエ変換すなわち「FFT」アルゴリズムを用いて逆離散フーリエ変換を実行する)。従って、各種のマイクロホンにより捕捉された音声信号の一般化相互相関が得られ、対毎に考慮される。マイクロホンの全ての対(Nをマイクロホンの個数とすれば対の数はN(N−1)/2)からの信号を扱うように選択されているが、選択する対の数を3個に限定できるが、3〜N(N−1)/2の間の任意の個数の対を選択してもよい。
周波数領域への、および周波数領域からの変換は相互相関の計算に必須ではないが、極めて有利である。
計算は別々に行われるため、各々の一般化相互相関は両耳間時間差の値の離散的集合についてのみ計算される。
2.被制御応答出力(SRP)の計算。当該計算は、単に各種の一般化相互相関を加算することにより行われる。
SRP(τ)=Σsi,sjsi,sj(τsi,sj) (3)
ここに、和は、マイクロホンの各対に関連付けられた信号s,sのM個の対に対して計算される(3≦M≦N(N−1)/2)。ベクトル変数τは、M個の成分を有し、その各々が1個の前記対における両耳間時間差に対応する。より一般的には、SRPは一般化相互相関の一次結合として定義できる。
τの全ての値、従って値τsi,sjの全ての組合せは「物理的に可能」ではない。具体的には、マイクロホンに到達する音波が平面であると考えられる程度にマイクロホンのネットワークから充分に離れた単一の音源を考慮する場合、前記音源の定位方向は2個の両耳間時間差により完全に識別される。換言すれば、ベクトルτの2個の成分は、他の成分の値を明確に定義する(少なくとも理論上)。
3.被制御応答出力の最大化
音源の定位方向は、ベクトル変数τに対して関数SRP(τ)を最大化することにより識別される。当該最適化課題を解決するために多くの数値方法を用いてよい。勾配アルゴリズムおよび「総当たり」法の非限定的な例により行うことができる。
この最大化は、上で述べた意味で「物理的に可能な」、すなわち「無限」の距離にある単一の音源から発せられた音声信号と整合するτの値だけを考慮することにより、制約の下で実行できる。このアプローチは特に、J.H.DiBiase他による上述の論文から公知であるが、実際にはあまり堅牢でないことが分かっている。具体的には、ノイズ、マスキング効果(障害物が音源と1個以上のマイクロホンとの間に入り込む)、および特に反響効果に起因して、SRP(τ)の最大絶対値がτの「不可能な」値に対応することが多い。
本発明によれば、音源の空間的な定位を見つけるアルゴリズムの堅牢性を向上させるべく、SPR(τ)の最大値の探索は、τの「可能な」値だけでなく、理論的に受容できない値、すなわち「無限の」距離にある信号源から発せられた音声信号と整合しない値に対しても実行される。より正確には、図1に示すように、関数SRP(τ)は、2個の部分集合からなる集合Eを形成するベクトルτの値を考慮することにより最大化される(関数ブロック「MAX」)。
−マイクロホンのネットワークから無限遠点にある単一の音源から発せられた音声信号と整合するベクトルτの第1の部分集合E1。数学的観点から、これらのベクトルは「Chasles」条件と呼ばれる条件を満たす成分を有している。
τij+τjk=τik (4)
ここに添え字i≠j≠kは、前記配列の各種マイクロホンを表し、τij、τjk、およびτikは各々が対(i,j)、(j,k)、および(i,k)における両耳間時間差を表している。これらの条件は、ベクトルτが無限遠点にある単一の音源から発せられた音声信号と整合するための必要条件であるが、十分条件ではない。
−マイクロホンのネットワークから無限遠点にある単一の音源から発せられた音声信号と整合しないベクトルτの第2の部分集合E2。特に、当該第2の部分集合は、前記第1の部分集合に属していない前記集合のベクトルおよび当該ベクトルから前記第1の部分集合のベクトルまでの距離を含み、当該距離は所定の(特にユークリッド)計量に従い決定され、正規化(各ベクトルをノルムで除算)後は所定の閾値未満である。当該閾値は本方法を調整するものであって、実験的に決定されてよい。
以下の手順を用いて集合Eに属するベクトルτを選択して部分集合E1およびE2に振り分ける。
最初に、音源の方向を指す単位ベクトルすなわちxと表記するベクトルを両耳間時間差τのベクトルに関連付けるシステムを行列形式で記述することを推奨する。
τ=Ax (5)
ここにAはM×3行列である(Mはベクトルτの成分の個数であることを想起されたい)。行列Aは正方行列でないため、逆行列を直接求めることはできない。マイクロホンが同一平面上にない場合、行列Aの階数は3である。従って、3個の線形独立な行を選択して逆行列演算可能な正方行列
Figure 0006521954
を構築することが可能である。行列Aの前記独立成分に対応するτの3個の成分を取ることにより得られる三次元ベクトルを
Figure 0006521954
と表記する。従って、
Figure 0006521954
従って、
Figure 0006521954
となる。
次に、(τまたはその各成分のモジュラスに受容可能な最大値が与えられるため)
Figure 0006521954
内の球体または立方体に対応する、ベクトルτの離散的な起点集合E’(これらの成分の離散的な値しか考慮しないため)について考える。
E’の各ベクトルτに対して、三次元Chasles関係に関するベクトルの部分空間への射影
Figure 0006521954
を計算する。差
Figure 0006521954
が所定の閾値εを上回る場合、当該ベクトルは廃棄される。さもなければ、
Figure 0006521954
からベクトル
Figure 0006521954
(すなわち、3個の線形独立な成分のベクトル)を抽出し、
Figure 0006521954
で与えるように距離dを計算する。
式(8)は、ベクトル
Figure 0006521954
を方向を変更せずに値dだけ短くすることにより、
Figure 0006521954
がユニタリノルムを有することを示す。
Figure 0006521954
が閾値ε未満である場合、ベクトルτは従って集合Eの一部(d=0ならば部分集合E1の、さもなければ部分集合E2の、但しこの違いは意図的ではなく、集合Eの全てのベクトルが同様に扱われる点に注意されたい)を形成する。
式7により、前記ベクトルの各々を音源の定位方向に関連付けることができる。
これらの計算は極めて高負荷であるため、一度だけ実行して結果を参照テーブル(下記参照)に保存することが有利である。
4.音源の定位方向の識別
SRP(τ)を最大化するベクトルτ∈E(τmaxと表記)を識別した後、これを音源の定位方向に関連付けることが必要である。τmax∈E1である場合、両耳間時間差のベクトルは唯一の定位方向と整合するため、これは問題ではない。τmax∈E2である場合、前記所定計量に従うτmaxに最も近いE1に属するベクトルと整合する定位方向が選択される。
有利な特徴として、集合Eの各ベクトルは1回だけ定位方向に関連付けられる。集合の各ベクトルおよび関連付けられた定位方向はプロセッサのメモリにロードされたファイルに保存されて上述のように構成された参照テーブルを形成する。従って、音源の定位方向は、単にテーブルから読み出すことによりτmaxの値から決定される。
有利な特徴として、参照テーブルを含むファイルは、以下のように編成されている(6個の成分を有するベクトルτを考慮する)。
Figure 0006521954
ファイルには添え字が明示的に記述されておらず、順序通りである。「隣接」欄は、偏差が1以下(または他の所定の値以下)であるベクトルの添え字を含んでいる。当該欄は、SRPを最大化する勾配アルゴリズムの実行を容易にすべく有用である。
プロセッサが起動したならば、参照テーブルを含むファイルの内容をメモリにロードする。音声が検知される都度、参照テーブルに保存されている全てのベクトルτについてSRP(τ)値を計算し、次いでこれらの値の最大値を求め、対応するベクトルτを識別して、当該ベクトルに関連付けられた方位角および仰角の値を参照テーブルから読み出す。一変型例として、プロセッサは、複数定位(多数の音源の同時定位)を実行すべくSRP(τ)のN>1個の最も高い局所最大値を探索することができるが、当該アプローチはあまり堅牢でないことが分かっている。
図1を用いて動作を示したプロセッサPRは、集合Eおよび参照テーブルLUTを保存すべく1個以上のメモリに接続され且つ適切にプログラムされたマイクロプロセッサを含んでいてよい。当該マイクロプロセッサは、音源の定位専用であっても、または他の目的を達成するものであってもよい。必要に応じて、ポータブルまたはデスクトップコンピュータあるいは極めて単純なロボットの唯一のプロセッサであってもよい。同様に、集合Eおよび参照テーブルLUTは、専用のメモリ装置または中央メモリに保存されていてもよい。プロセッサはまた、任意選択的にプログラム可能であり得る専用の論理回路を含んでいてよい。
図2に、本発明の実施に適した人型ロボットの頭部TRHを示し、前記頭部の上面に配置された4個のマイクロホンM〜Mのネットワークを含んでいる。当該構成により、音源がロボットの頭部よりも高い位置にある場合にマスキング効果を回避できる。これは特に、大抵の人間よりもサイズが小さい、例えば50〜150cmの人型ロボット側で人間話者の検知および定位を行う場合に推奨される。2個の隣接するマイクロホン間の距離は、例示的に3〜30cmの間である。
本発明の方法は、図2によれば、出願人企業が製作した「Nao」ロボットにマイクロホンを備えることにより試験された。ロボットおよび音源は通常の部屋に配置され、ロボットの前方、右側、左側、前方右側(前後軸に対して−45°の角度)および前方左側(前後軸に対して+45°の角度)に音源が配置された状態で「正常な」反響を示した。音源は、音声信号を発する音声再生設備であった。定位は、1024個のサンプルの計算ウインドウを各々考慮することにより行われた。複数回の試行を反復して、ロボットにより判定された定位方向(方位角および迎角により識別された)を集計してヒストグラムを形成した。
図3A/3Bは、ロボットの前方に定位された音源に対応している(理論方位角:0°)。
図4A/4Bは、ロボットの左側に定位された音源に対応している(名目方位角:90°)。
図5A/5Bは、ロボットの前方左側に定位された音源に対応している(名目方位角:45°)。
図6A/6Bは、ロボットの右側に定位された音源に対応している(名目方位角:−90°)。
図7A/7Bは、ロボットの前方右側に定位された音源に対応している(名目方位角:−45°)。
名目仰角は測定されなかった。主に関心対象であるロボットアプリケーションでは特に、仰角は方位角ほど重要でない。
図「A」は上述したような本発明の方法に関する。図「B」は従来のTDOA法により得られたものであり、比較として与える。当該参照方法において、最大正規化SRP値が所定の閾値未満である場合、定位は失敗したものと考えられる。より一般的には、本発明による方法においても、当該正規化最大値は、定位の信頼度のインジケータと見なすことができる。正規化は次式で与えられ、
Figure 0006521954
ここにW(s)、W(s)はマイクロホンi、jから発せられた白色化信号のエネルギーである。
本発明の場合(図「A」)、大多数の試行が音源の方位角の数度以内の満足すべき推定に至ったのに対し、参照方法(図「B」)は失敗率が極めて高いことを示す点に注意されたい。基本的に関心対象であるロボットアプリケーションは高い精度を要求せず(数度の定位誤差は影響しない)、むしろ高い堅牢性と相対的な計算の簡便性を合わせて要求することを強調すべきである。

Claims (10)

  1. 音源定位方法であって、
    a)少なくとも3個のマイクロホン(M1、M2、M3、M4)の配列により、定位したい音源からの音声信号を捕捉するステップと、
    b)前記配列から少なくとも3対のマイクロホンを選択して、前記少なくとも3対のマイクロホンの各対について、捕捉した音声信号の一般化相互相関を計算するステップ、すなわち前記音声信号間の両耳間時間差と呼ばれる遅延の複数の値について前記計算を実行するステップと、
    c)前記少なくとも3対のマイクロホンの各対における両耳間時間差のベクトルの関数として表される前記一般化相互相関から被制御応答出力を計算するステップと、
    d)前記被制御応答出力を最大化する両耳間時間差ベクトルを判定するステップと、
    e)ステップd)で判定された両耳間時間差ベクトルに依存する前記音源の定位方向を推定するステップとを含み、
    −前記ステップc)およびd)が、前記マイクロホンから無限遠点にある単一の音源から発せられた音声信号と整合するベクトルの第1の部分集合(E1)と、前記マイクロホンから無限遠点にある単一の音源から発せられた音声信号と整合しないベクトルの第2の部分集合(E2)とを含む集合(E)を形成する複数の両耳間時間差ベクトルを考慮することにより実行され、
    −前記ステップe)で推定された方向は、前記ステップd)で判定された両耳間時間差ベクトルが前記第1の部分集合に含まれる場合、対応する前記単一音源の定位方向に関連付けられ、前記第2の部分集合に含まれる場合、所定計量に従い最も近い前記第1の部分集合のベクトルに関連付けられた定位方向に関連付けられたものであることを特徴とする方法。
  2. 前記ステップb)において計算された一般化相互相関が、以前に白色化された信号の相互相関に対応するGCC−PHAT型である、請求項1に記載の方法。
  3. 前記ステップb)において、前記配列の前記少なくとも3個のマイクロホンの全ての対が選択されている、請求項1〜2のいずれか1項に記載の方法。
  4. 前記被制御応答出力が、前記少なくとも3対のマイクロホンについての一般化相互相関の和により与えられるか、または比例している、請求項1〜3のいずれか1項に記載の方法。
  5. 前記第1の部分集合が、Chasles条件と呼ばれる条件
    τij+τjk=τik
    を自身の要素が満たす前記集合のベクトルを含み、
    ここに添え字i≠j≠kは前記配列の各種のマイクロホンを表し、τij、τjk、τikは各々が対(i,j)、(j,k)、(i,k)における両耳間時間差を表す、請求項1〜4のいずれか1項に記載の方法。
  6. 前記第2の部分集合が、前記第1の部分集合に属していない前記集合のベクトルおよび当該ベクトルから前記第1の部分集合のベクトルまでの距離を含み、当該距離は前記所定計量に従い決定され、正規化後は所定の閾値未満にある、請求項1〜5のいずれか1項に記載の方法。
  7. 前記所定計量がユークリッド計量である、請求項1〜6のいずれか1項に記載の方法。
  8. 前記ステップe)が、1個の定位方向を前記集合の各値に関連付ける参照テーブル(LUT)に基づいて実行される、請求項1〜7のいずれか1項に記載の方法。
  9. −少なくとも3個のマイクロホンの配列(M1、M2、M3、M4)と、
    −前記マイクロホンにより捕捉された入力音声信号として受信すべく前記マイクロホンに接続されたプロセッサ(PR)であって請求項1〜8のいずれか1項に記載の方法を実行すべくプログラミングまたは構成されたプロセッサとを含む人型ロボット。
  10. 前記マイクロホンが、前記人型ロボットの頭部(TRH)の上面に配置されている、請求項9に記載の人型ロボット。
JP2016519371A 2013-10-01 2014-09-29 音源の位置を特定する方法、および当該方法を用いる人型ロボット Active JP6521954B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1359515 2013-10-01
FR1359515A FR3011377B1 (fr) 2013-10-01 2013-10-01 Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede
PCT/EP2014/070783 WO2015049199A1 (fr) 2013-10-01 2014-09-29 Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede

Publications (3)

Publication Number Publication Date
JP2016537622A JP2016537622A (ja) 2016-12-01
JP2016537622A5 JP2016537622A5 (ja) 2018-02-08
JP6521954B2 true JP6521954B2 (ja) 2019-05-29

Family

ID=50023689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016519371A Active JP6521954B2 (ja) 2013-10-01 2014-09-29 音源の位置を特定する方法、および当該方法を用いる人型ロボット

Country Status (11)

Country Link
US (1) US10222447B2 (ja)
EP (1) EP3052958B1 (ja)
JP (1) JP6521954B2 (ja)
CN (1) CN106030331B (ja)
AU (1) AU2014331210B2 (ja)
BR (1) BR112016007215A2 (ja)
CA (1) CA2925934C (ja)
FR (1) FR3011377B1 (ja)
MX (1) MX2016004207A (ja)
RU (1) RU2642157C2 (ja)
WO (1) WO2015049199A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096956B (zh) * 2015-08-05 2018-11-20 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人的多声源判断方法及装置
KR102444061B1 (ko) 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
KR102392113B1 (ko) * 2016-01-20 2022-04-29 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령 처리 방법
CN107340498A (zh) * 2016-05-03 2017-11-10 深圳光启合众科技有限公司 机器人及声源位置的确定方法和装置
CN107071652B (zh) * 2016-12-27 2023-08-04 深圳市优必选科技有限公司 一种服务机器人
CN106842111B (zh) * 2016-12-28 2019-03-29 西北工业大学 基于传声器镜像的室内声源定位方法
JP6976131B2 (ja) 2017-10-16 2021-12-08 三菱重工サーマルシステムズ株式会社 空調システム及び空調制御方法
US11565365B2 (en) * 2017-11-13 2023-01-31 Taiwan Semiconductor Manufacturing Co., Ltd. System and method for monitoring chemical mechanical polishing
CN108962263B (zh) * 2018-06-04 2019-09-20 百度在线网络技术(北京)有限公司 一种智能设备控制方法及系统
CN110716177B (zh) * 2019-10-22 2022-09-09 哈尔滨工程大学 分布式声学定位网络中多目标分类方法
CN112438660A (zh) * 2020-09-23 2021-03-05 深圳市修远文化创意有限公司 一种基于扫地机器人的语音定位方法及相关装置
CN112526452A (zh) * 2020-11-24 2021-03-19 杭州萤石软件有限公司 声源检测方法、云台摄像机、智能机器人及存储介质
CN112379330B (zh) * 2020-11-27 2023-03-10 浙江同善人工智能技术有限公司 一种多机器人协同的3d声源识别定位方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453246B1 (en) 1996-11-04 2002-09-17 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for representing proximity data in a multi-dimensional space
US20030072456A1 (en) * 2001-10-17 2003-04-17 David Graumann Acoustic source localization by phase signature
EP1818909B1 (en) * 2004-12-03 2011-11-02 Honda Motor Co., Ltd. Voice recognition system
US20080071540A1 (en) * 2006-09-13 2008-03-20 Honda Motor Co., Ltd. Speech recognition method for robot under motor noise thereof
US8233353B2 (en) * 2007-01-26 2012-07-31 Microsoft Corporation Multi-sensor sound source localization
KR101483269B1 (ko) * 2008-05-06 2015-01-21 삼성전자주식회사 로봇의 음원 위치 탐색 방법 및 그 장치
KR101442172B1 (ko) * 2008-05-14 2014-09-18 삼성전자주식회사 검색 공간 클러스터링 방법을 이용한 실시간srp-phat 음원 위치 탐색 시스템 및 제어방법
CN201210187Y (zh) * 2008-06-13 2009-03-18 河北工业大学 一种自主搜寻声源的机器人
US8233352B2 (en) * 2009-08-17 2012-07-31 Broadcom Corporation Audio source localization system and method
JP2012234150A (ja) * 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
CN102809742B (zh) * 2011-06-01 2015-03-18 杜比实验室特许公司 声源定位设备和方法
KR20130048075A (ko) * 2011-11-01 2013-05-09 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법
CN102707262A (zh) * 2012-06-20 2012-10-03 太仓博天网络科技有限公司 一种基于麦克风阵列的声源定位系统

Also Published As

Publication number Publication date
RU2016116896A (ru) 2017-11-10
FR3011377B1 (fr) 2015-11-06
CN106030331B (zh) 2019-12-24
FR3011377A1 (fr) 2015-04-03
CA2925934A1 (fr) 2015-04-09
AU2014331210B2 (en) 2017-08-10
EP3052958B1 (fr) 2019-11-20
JP2016537622A (ja) 2016-12-01
CN106030331A (zh) 2016-10-12
WO2015049199A1 (fr) 2015-04-09
MX2016004207A (es) 2017-08-16
BR112016007215A2 (pt) 2018-01-23
CA2925934C (fr) 2020-07-28
AU2014331210A1 (en) 2016-05-19
US10222447B2 (en) 2019-03-05
EP3052958A1 (fr) 2016-08-10
US20160274212A1 (en) 2016-09-22
RU2642157C2 (ru) 2018-01-24

Similar Documents

Publication Publication Date Title
JP6521954B2 (ja) 音源の位置を特定する方法、および当該方法を用いる人型ロボット
JP2016537622A5 (ja)
Gaubitch et al. Auto-localization in ad-hoc microphone arrays
Zhao et al. Underdetermined direction of arrival estimation using acoustic vector sensor
Yook et al. Fast sound source localization using two-level search space clustering
Murray et al. Robotics sound-source localization and tracking using interaural time difference and cross-correlation
Murray et al. Robotic sound-source localisation architecture using cross-correlation and recurrent neural networks
Zhong et al. Active binaural localization of multiple sound sources
Salvati et al. Sound source and microphone localization from acoustic impulse responses
Di Carlo et al. Mirage: 2d source localization using microphone pair augmentation with echoes
US8416642B2 (en) Signal processing apparatus and method for removing reflected wave generated by robot platform
Asano et al. Sound source localization using joint Bayesian estimation with a hierarchical noise model
Gaubitch et al. Calibration of distributed sound acquisition systems using TOA measurements from a moving acoustic source
Suleiman et al. Search-free decentralized direction-of-arrival estimation using common roots for non-coherent partly calibrated arrays
KR20090128221A (ko) 음원 위치 추정 방법 및 그 방법에 따른 시스템
WO2012164448A1 (en) Method for self - calibrating a set of acoustic sensors, and corresponding system
Jung et al. Distance estimation of a sound source using the multiple intensity vectors
Rao et al. DOA estimation using sparse vector sensor arrays
Al-Sheikh et al. Sound source direction estimation in horizontal plane using microphone array
Sasaki et al. Online spatial sound perception using microphone array on mobile robot
Farmani et al. TDOA-based self-calibration of dual-microphone arrays
Sledevič et al. An evaluation of hardware-software design for sound source localization based on SoC
Al Kassir et al. DOA Estimation for 6G Communication Systems
Catalbas et al. Dynamic speaker localization based on a novel lightweight R–CNN model
Huang et al. DOA estimation of quasi-stationary signals with a nested array in unknown noise field

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170831

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20171206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180508

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190423

R150 Certificate of patent or registration of utility model

Ref document number: 6521954

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250