JP3771812B2

JP3771812B2 - ロボットおよびその制御方法

Info

Publication number: JP3771812B2
Application number: JP2001158152A
Authority: JP
Inventors: 敏彦片岡
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-05-28
Filing date: 2001-05-28
Publication date: 2006-04-26
Anticipated expiration: 2021-05-28
Also published as: US7227960B2; US20020181723A1; JP2002366191A

Description

【０００１】
【発明の属する技術分野】
本発明は、人間型のロボットおよびその制御方法に関する。特に、ロボットの自然な動きの実現、音声認識精度の向上に適用して有効な技術に関する。
【０００２】
【従来の技術】
近年、人間型のロボットが開発され話題を集めている。人間型ロボットは、主に生産ライン等で用いられる特定用途、特定機能のロボット（組立ロボット、溶接ロボット等）とは相違し、人間に似せた頭部、胴体、手足を有し、聴覚、視覚、触覚等に相当するセンサを備える。聴覚に相当する音響センサを用いて音声認識させる試みもなされている。
【０００３】
人間型ロボットに音声認識を行わせる場合、ロボットに対して任意の方向から与えられる音声を認識できるようにすることが期待される。音声認識の前提としてマイクロフォンによる集音が必要であるが、無指向性のマイクロフォンでは雑音や目的とする音以外の音声を受音するため好ましくない。そこでたとえばマイクロフォンアレイを用いて音源方向を推定し、マイクロフォンアレイによるビームフォーミングを用いて自由に指向性を変化させる手段を採用し得る。ビームフォーミングによれば、目的方向からの音声のゲインを増し、Ｓ／Ｎ比を向上させることが可能になる。
【０００４】
マイクロフォンアレイによる音源方向の推定は、一般に複数マイクロフォンから受音する信号の時間差（位相差）が利用される。すなわち、図９に示すように、マイク１（ＭＩＣ１）およびマイク２（ＭＩＣ２）からなるマイクロフォンアレイの法線に対し、θの角度で音波が入射するとする。音源からの距離がマイク１とマイク２の離間ｄに対して十分に大きいと仮定すると入射音波は平面波と仮定できる。よって、マイク１で受音した音響信号をｘ１（ｔ）とすると、マイク２で受音する音響信号ｘ２（ｔ）は、
（数１）ｘ２（ｔ）＝ｘ１（ｔ−τｓ）
となる。ここでτｓはｘ１（ｔ）とｘ２（ｔ）との時間差である。音速をｃとすると、図から明らかに、
（数２） τｓ＝（ｄ×ｓｉｎθ）／ｃ、
であるから、時間差τｓを測定すれば、
（数３） θ＝ｓｉｎ^−１（ｃ×τｓ／ｄ）、
の式から音源方向θを求めることができる。
【０００５】
時間差τｓは、複数の受音信号の相互相関関数や遅延和のパワーの最大値から求めることができる。たとえば相互相関関数を用いる場合、ｘ１（ｔ）とｘ２（ｔ）の相互相関関数φ１２（τ）は、

すなわち、φ１２（τ）はｘ１（ｔ）の自己相関関数φ１１（τ−τｓ）となる。なお、Ｅ［・］は期待値を表す。
【０００６】
自己相関関数φ１１（τ）はτ＝０で最大値をとるため、上式はτ＝τｓで最大となる。このことから、ｘ１（ｔ）とｘ２（ｔ）とからφ１２（τ）を計算し、その最大値を与えるτを求めればτｓを得ることができる。
【０００７】
【発明が解決しようとする課題】
上記の通り、マイクロフォンアレイを用いて音源方向の推定が可能である。また、この音源方向に相当する信号の遅延和を計算し、この遅延和のパワーを信号として用いることによってビームフォーミングが可能である。
【０００８】
ビームフォーミングはＤＳＰ（digital signal processor）を用いて高速に計算することが可能なので、ロボットの動きに比較して高速に指向性を変化させることが可能になる。また、指向性ビームは単発的な音に敏感に反応しないように適度にヒステリシスを持たせる必要がある。ところが、指向性ビームの方向は目に見えないので、話者はロボットの指向性（認識しようとしている音声の方向）がどの方向であるかを知ることができない。この結果、予想外の方向からの音声を認識したり、話者が期待する方向（一般的にはロボットの視線の方向）からの認識が十分でない事態を生じる。このような事態は、ロボットの自然な動きを期待する話者に違和感を生じさせることになる。
【０００９】
また、前記した音源方向の推定精度は、その信号の周波数帯域幅の制限を受ける。つまり、前記手法では相互相関関数のピーク値を検出して時間差τｓを求めるが、信号ｘ１、ｘ２の帯域幅が狭いとφ１２のピークはなだらかになり、帯域幅が広いとφ１２のピークは鋭くなる。鋭いピークが得られるほどτｓの検出精度はよくなるので、信号帯域幅の広狭によって音源方向の推定精度が相違することになる。
【００１０】
一方、音源方向θの精度を向上するには、マイクの数を増加し、あるいは、マイク間の距離ｄを大きくすることも考え得る。しかし、この方策ではマイクロフォンアレイの物理的規模が大きくなり、小さなシステムには不向きになる。
【００１１】
本発明の目的は、ロボットが音声認識する際の動きが自然な動きになるような制御手段を提供することにある。また、本発明の他の目的は、マイクロフォンアレイの物理的規模を大きくすることなく、目的音声の方向推定の精度を向上し、音声認識精度を向上する技術を提供することにある。
【００１２】
【課題を解決するための手段】
本願の発明の概略を説明すれば、以下の通りである。すなわち、本発明のロボットの制御方法は、ロボットの注目方向と受音手段の指向方向とを一致させることを特徴とする。これにより、話者はロボットの注目方向が受音の指向方向であることが認識でき、ロボットの動きが自然な動きに見える。すなわち、ロボットは話者が期待するであろう動きによって音声を受音することになる。
【００１３】
この制御方法において、受音手段は、複数のマイクロフォンを含むマイクロフォンアレイであり、音源からの音響信号を受音し、マイクロフォン毎の入力信号を生成するステップと、入力信号から音源の方向を推定するステップと、音源の方向にロボットの注目方向が一致するようにロボットの視線、姿勢またはその双方を制御するステップと、注目方向にマイクロフォンアレイの指向方向を一致させるステップと、を含むことができる。
【００１４】
また、入力信号のうち、第１入力信号と第２入力信号とを選択し、第１入力信号に対して指向方向に相当する遅延量だけ第２入力信号の位相を補正するステップと、第１入力信号と第２入力信号との和信号を計算するステップと、和信号のパワーを計算するステップと、パワーを用いて音声認識を行うステップと、をさらに有することができる。これにより、指向方向からの音声認識の精度を向上できる。
【００１５】
また、ロボットは無指向性のマイクロフォンをさらに備え、無指向性マイクロフォンへの音響入力が、所定の継続時間、所定のレベルを超えたかを判断する第１判断ステップと、第１判断ステップの判断結果が真の場合に入力信号の生成、音源方向の推定、注目方向の移動および注目方向と指向方向との一致の各ステップを繰り返すステップと、マイクロフォンアレイを構成するマイクロフォンへの音響入力が、所定の継続時間、所定のレベル以下に継続されたかを判断する第２判断ステップと、第２判断ステップの判断結果が真の場合に無指向性マイクロフォンによる音響入力待機状態に移行するステップと、をさらに含むことができる。これにより、無音状態では任意の方向からの音を受音できる状態を維持し、特定方向の音源に注目する時にはその方向の受音感度を向上できる。
【００１６】
また、音源方向の推定ステップには、入力信号を適応フィルタで処理し、誤差信号を得るステップと、複数の誤差信号の相互相関関数を計算するステップと、相互相関関数の時間軸におけるピーク値を求めるステップと、を含むことができる。これにより、入力信号よりも高周波成分の多い誤差信号を用いて高精度に相互相関関数のピーク値を求めることができる。よって音源方向の推定精度を向上できる。
【００１７】
なお、上記発明は、ロボットの発明として把握することも可能である。
【００１８】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。なお、実施の形態の全体を通して同じ要素には同じ番号を付するものとする。
【００１９】
（実施の形態１）
図１は、本発明の一実施の形態であるロボットの一例をその機能について示したブロック図である。本実施の形態のロボットは、マイクロフォンアレイ１を有し、マイクロフォンアレイ１には、マイクロフォン２，３とメインマイクロフォン４を有する。また、本ロボットには入力バッファ５、遅延和計算部６、遅延和パワー計算部７、最大値検出部８、音声認識部９、サーボ系１０を含む。
【００２０】
本実施の形態のロボットは、たとえば人間型ロボットである。人間に似せて、頭部、胴体、手、足を有し、２本足歩行が可能である。胴体、頭部はその可動範囲内で回転等移動が可能であり、後に説明する様に音源方向に姿勢制御することが可能である。また、特に限定されないが視覚機能を有し、目線方向が変化できるように構成されても良い。ただし、本発明は人間型ロボットには限られない。マウス、犬、猫その他動物型、あるいは地球上に現存しないような独創的な形態のロボットでも良い。要は、音源方向に姿勢制御、頭部移動、あるいは目線移動が可能なロボットであれば足りる。ロボットのこれら姿勢制御、胴体、頭部、あるいは目線移動は、周知技術、たとえばサーボ制御により制御される。
【００２１】
マイクロフォンアレイ１を構成するマイクロフォン２，３は、音響信号を電気信号に変換する公知のマイクロフォンである。ただし、本実施の形態ではディジタル信号として信号処理を行うので、公知の標本化および量子化手段を含む。マイクロフォン２，３はたとえば人間型ロボットの場合、胴体の両肩部分あるいは腰部あるいは頭部の両耳部分に備えられる。メインマイクロフォン４は無指向性のマイクロフォンであり、ロボットの任意の場所に取り付けられる。後に説明するように無音状態でのロボット制御に用いられる。
【００２２】
入力バッファ５は、各マイクロフォンからの入力データを一時的に記録する記憶領域である。遅延和計算部６はマイクロフォン２，３からの入力信号の遅延和を計算する。遅延量として、サーボ系１０からの現在値が入力される。また、サーボ系の現在値に基づく遅延和の値は音声認識部９に入力され、音声認識部９では前記遅延和データを用いて音声認識が行われる。遅延和パワー計算部７は、マイクロフォンからの入力信号の遅延和パワーを計算する。この遅延和パワーの最大値は最大値検出部８で検出され、最大値を示す時間τｓを基に目的音声の方向が算出される。目的音声の方向はサーボ系１０に入力され、ロボットの顔、目、上体等が制御される。
【００２３】
図２は、本実施の形態のロボット制御方法の一例を示したフローチャートである。まず、ロボットの初期状態あるいは無音状態では、音源方向推定系はメインマイクロフォン４のみから受音し、入力音声の音圧レベルを検出する（ステップ１１）。この時、ロボット制御系では、ロボットの顔、目などを初期状態（たとえば正面を向く等）にする（ステップ１２）。また、ビームフォーミング系では特にビームフォーム（指向性の形成）を行わない（ステップ１３）。すなわち、メインマイクロフォン４のみから受音するので無指向性で音響信号を受音する。また、音声認識系では、メインマイクロフォン４からの受音信号を基に音声認識を行う（ステップ１４）。ただし、無指向性状態の音声を認識するので目的音声以外の音に反応する可能性がある。
【００２４】
音源方向推定系では、ステップ１１でセンスしたメインマイクロフォン４からの入力音声が、その音圧、時間が所定の閾値を超えたかを判断する（ステップ１５）。この閾値は、無音状態でないと判断できる音圧レベルを基に実験等によって選択する。あるいはオートゲインコントロール機能を用いて環境ノイズ以上の音声信号に反応するよう閾値を動的に制御できる。また、突発的な音等短時間の音には反応しないようにする。このように、特定方向からの呼びかけ等に確実に反応するよう音圧レベル、時間の閾値を設定する。
【００２５】
ステップ１５の判断がｎｏの場合（無音状態であると判断できる時）はステップ１１に戻ってメインマイクロフォン４からの音声センス状態を継続する。勿論この場合ロボット制御系、ビームフォーミング系、音声認識系も前記した初期状態を維持する。
【００２６】
ステップ１５の判断がｙｅｓの場合（特定の方向からの音声が有意であると判断された時）、音源方向推定系は、ステップ１６に進み、マイクロフォンアレイ１のマイクロフォン２，３からの受音信号を処理する。この処理により音源方向の推定を行う。音源方向の推定は、たとえば入力信号をＤＳＰ等により処理し、信号の遅延和パワーの計算する。遅延和パワーの最大値を示す時間τｓから前記したとおり音源の方向θを計算する。
【００２７】
計算されたθを用いて、ロボット制御系では、ロボットの顔、目、上体等を音源方向に向くように制御する（ステップ１７）。同時に、制御系の出力（サーボ出力）を用いて、現在値（ロボットの注目方向に相当する）に相当する遅延量を計算し、この遅延量を用いて入力音声の遅延和を算出する（ステップ１８）。これにより、マイクロフォンアレイ１の指向性とロボットの顔、目等の注目方向とを一致させる。ここで強調すべきは、マイクロフォンアレイ１の指向性は、速やかに目的音声の方向（音源）に向けるのではなく、あくまでもロボット制御系の現在値に一致させる点である。すなわち、音声入力の指向性（ビームフォーム）はロボットの注目方向に一致する。これにより、ロボットに話しかける話者は、現在ロボットが音声認識しようとしている方向を視覚的に把握することができる。また、ロボットは現在注目している方向からの音声を強調して音声認識するので、ロボットの動作が話者にとって自然に見える。
【００２８】
ステップ１８で計算された遅延和は音声認識系に送られ、この遅延和を用いて音声認識を行う（ステップ１９）。音声認識系は、遅延和を用いて音声認識を行うので、マイクロフォンアレイ１の指向性の方向つまりロボットの注目方向に対する認識率が他の方向からの音声に比べて向上する。
【００２９】
音源方向推定系は、その後入力音声の音圧、時間が方向推定の再計算を行うための閾値を超えたかを判断し（ステップ２０）、この判断がｙｅｓの場合はステップ１６に戻って前記処理を繰り返す。ｎｏの場合はステップ２１に進む。
【００３０】
ステップ２１では、入力音声の音圧、時間が無音と判断できる閾値を超えたかを判断する（ステップ２１）。ｙｅｓの場合（無音と判断された場合）、ステップ１１に戻って前記処理を繰り返し、ｎｏの場合はステップ２０に戻って前記処理を繰り返す。
【００３１】
本実施の形態によれば、ロボットの注目方向と音声認識しようとする音声の入射方向とが一致するため、ロボットの音声認識しようとする方向が話者に視覚的に明瞭となる。このため話者はロボットの動作に違和感を覚えず、ロボットの自然な動きを実現できる。また、ロボットがビームフォーミングを行っている状態では、その注目方向（マイクロフォンアレイの指向性の方向）の音声が強調されるので、その方向からの音声の認識率を向上することができる。
【００３２】
（実施の形態２）
前記実施の形態１では、音源方向の推定に信号遅延和のパワーを用いる例を説明した。しかし、前記した信号相関関数の場合と同様に遅延和パワーを用いた場合もその信号周波数帯域によって制限を受け、方向推定の精度（最大値検出の精度）が低い。以下本実施の形態では、方向推定精度を向上できる手法を説明する。
【００３３】
図３は、本実施の形態で用いる信号処理システムの音響モデルの一例を示した図である。入力ｓ（ｋ）は声帯音源パルス等の励震源である。Ｇ（ｚ）は声道の伝達特性や、室内等環境の伝達特性を示す。ｓ（ｋ）がＧ（ｚ）を通過した後に得られるｘ（ｋ）がマイクに到達する音声である。この音声ｘ（ｋ）がＰ（ｚ）＝１−ｚ^−１Ｈ（ｚ）で表されるフィルタを通過した後に誤差信号ｅ（ｋ）を得る場合を考える。
【００３４】
Ｇ（ｚ）が、Ｇ（ｚ）＝１／（１−ｚ^−１Ｆ（ｚ））、で表され、Ｈ（ｚ）＝Ｆ（ｚ）であるとき、Ｐ（ｚ）はＧ（ｚ）の逆フィルタとなり、ｅ（ｋ）はｓ（ｋ）となる。ｅ（ｋ）すなわちｓ（ｋ）は声帯で発せられるパルスに相当し、マイクの受音信号ｘ（ｋ）に比べて高周波成分が多くなる。このためピークの鋭い相互相関関数が得られることが期待できる。なお、雑音ｎ（ｋ）は簡単のため無視している。
【００３５】
Ｈ（ｚ）には、たとえば適応フィルタが採用できる。適応フィルタは予め伝達関数を定めることができない系や時間的に変化し得る系での最適制御を実現するために採用される予測フィルタである。フィルタのパラメータは適応アルゴリズムによって最適値に収束するようにステップ毎に計算され、動的に変化される。
【００３６】
図４は、本実施の形態で用いる適応フィルタの一例を示した図である。マイクからの受音信号ｘ（ｋ）は、Ｌ段に構成された遅延回路（Ｄ）を通過し、各遅延データｘ（ｋ−ｉ）とパラメータｈ_ｉ（ｋ）との積和値ＳＵＭ（ｈ_ｉ（ｋ）ｘ（ｋ−ｉ））は予測値ｙ（ｋ）となる。なお、ｉ＝１〜Ｌであり、ＳＵＭ（ａ_ｉ）はａ_ｉについての直和集合である。すなわち、
（数５） y(k)=h₁(k)x(k-1)+h₂(k)x(k-2)+・・・+h_L(k)x(k-L)
（数６） e(k)=x(k)-y(k)
（数７） h_i(k+1)=h_i(k)+μe(k)x(k-i) i=1,2,・・・,L
ここで、μはステップサイズである。
【００３７】
前記数７で表す適応アルゴリズム（ここでは最小二乗法を例示する）によりｈ_ｉ（ｋ）が最適値に収束するとき、ｙ（ｋ）はｘ（ｋ）の予測値となり、誤差信号ｅ（ｋ）の２乗平均値は最小となる。このとき誤差信号ｅ（ｋ）は予測できなかった励震源パルスｓ（ｋ）を表すと考えられる。例震源パルスはパルスであるがゆえに当然にマイク信号ｘ（ｋ）よりも高周波成分を多く含む。マイクロフォン毎の誤差信号を用いて相互相関関数を計算するとそのピークは鋭くなる。
【００３８】
なお、ここで適応アルゴリズムは前向き予測フィルタを構成するためのものであり、最小二乗法に限らず、たとえば学習同定法等他のアルゴリズムを用いることができる。
【００３９】
図５は、マイクによる受音信号の波形を示したシミュレーション用の音声波形データである。マイク１による信号を受音信号１と表記し、マイク２による信号を受音信号２と表記する。マイク間隔を２０ｃｍ、音源方向（θ）を３０°、サンプリング周波数を４４．１ｋＨｚとした。図６は、図５の受音信号から前記適応フィルタにより得られる誤差信号の波形を示した図である。受音信号１の誤差信号を誤差信号１、受音信号２の誤差信号を誤差信号２と表記する。シミュレーションの条件は同じである。図６から明らかに誤差信号は音声波形より高い周波数成分を多く含んでいる。
【００４０】
図７は、受音信号１と受音信号２との相互相関関数（受音信号と表記する）および誤差信号１と誤差信号２との相互相関関数（誤差信号と表記する）を示したグラフである。なお、受音信号１，２はすべてそれぞれ同じ区間の５１２サンプル（１２ｍｓ）を使用し、適応フィルタの次数（Ｌ）は２０とした。図７における横軸はサンプル数（時間）である。
【００４１】
図７から明らかに、誤差信号の相互相関関数のピークは鋭くなっている。誤差信号のピーク値は１３サンプルの位置（音源方向は３０．１°と計算される）であり、ほぼ理論値を示す。一方受音信号の相互相関関数のピーク値は１６サンプルの位置（音源方向は３８．１°に相当する）にあり、約８度の誤差を生じている。以上のとおり、本実施の形態によれば、音源方向を高精度に推定することができる。
【００４２】
なお、図８は、目的音声（θ＝３０°）とは別にθ＝−４０°の方向からＳ／Ｎ比が４．２ｄＢの雑音を加えた場合の相互相関関数を示す図である。この場合、受音信号によるピーク値は目的音声からも雑音からもずれた位置（２５サンプル（θ＝７４．５°に相当））にある。一方、誤差信号によるピーク値は１３サンプルの位置にあり、受音信号よりもさらに正確な方向を示している。これは、雑音も適応フィルタによりある程度予測され、誤差信号が雑音の励震源をも近似するためと考えられる。本実施の形態の優位性を顕著に示す例といえる。
【００４３】
以上、本発明者によってなされた発明を発明の実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更することが可能である。
【００４４】
たとえば、前記実施の形態１では、水平平面内での音源方向の特定とビームフォーミング、ロボットの注目方向の制御について説明したが、たとえばマイクロフォンアレイを縦方向に配列すれば、垂直平面内においても同様の制御が可能である。
【００４５】
また、前記実施の形態１ではメインマイクロフォン４を用いた無音状態あるいは初期状態の受音待機状態を説明したが、たとえばマイクロフォン２，３の何れか１つでこれを代用しても良い。
【００４６】
また、前記実施の形態２では適応フィルタの適応アルゴリズムとして、最小二乗平均（ＬＭＳ）法を説明したが、最急降下アルゴリズム、漸化的最小二乗（ＲＬＳ）アルゴリズムを用いることもできる。また、前向き予測に限らず、後ろ向き予測を用いても良い。
【００４７】
【発明の効果】
本願で開示される発明のうち、代表的なものによって得られる効果は、以下の通りである。すなわち、ロボットが音声認識する際の動きが自然な動きになるようにできる。マイクロフォンアレイの物理的規模を大きくすることなく、目的音声の方向推定の精度を向上し、音声認識精度を向上できる。
【図面の簡単な説明】
【図１】本発明の一実施の形態であるロボットの一例をその機能について示したブロック図である。
【図２】本発明の一実施の形態であるロボット制御方法の一例を示したフローチャートである。
【図３】本実施の形態で用いる信号処理システムの音響モデルの一例を示した図である。
【図４】本実施の形態で用いる適応フィルタの一例を示した図である。
【図５】マイクによる受音信号の波形を示したシミュレーション用の音声波形データである。
【図６】図５の受音信号から前記適応フィルタにより得られる誤差信号の波形を示した図である。
【図７】受音信号１と受音信号２との相互相関関数および誤差信号１と誤差信号２との相互相関関数を示したグラフである。
【図８】目的音声とは別に雑音を加えた場合の相互相関関数を示す図である。
【図９】従来技術を説明するための図である。
【符号の説明】
１…マイクロフォンアレイ、２，３…マイクロフォン、４…メインマイクロフォン、５…入力バッファ、６…遅延和計算部、７…遅延和パワー計算部、８…最大値検出部、９…音声認識部、１０…サーボ系。

Claims

複数のマイクロフォンを含むマイクロフォンアレイを備えたロボットの制御方法であって、
音源からの音響信号を受音し、前記マイクロフォン毎の入力信号を生成するステップと、
前記入力信号を適応フィルタで処理し、前記適応フィルタの出力と前記入力信号との差分である誤差信号を得、前記誤差信号の２乗平均値が最小になるよう前記適応フィルタのパラメータを制御するステップと、
複数の前記誤差信号の相互相関関数を計算するステップと、
前記相互相関関数の時間軸におけるピーク値を求めるステップと、
前記ピーク値を示す時間から前記音源の方向を推定するステップと、
前記音源の方向に前記ロボットの注目方向が一致するように前記ロボットの視線、姿勢またはその双方を制御するステップと、
前記注目方向に前記マイクロフォンアレイの指向方向を一致させるステップと、を含む、
ロボットの制御方法。
前記入力信号のうち、第１入力信号と第２入力信号とを選択し、前記第１入力信号に対して前記指向方向に相当する遅延量だけ前記第２入力信号の位相を補正するステップと、
前記第１入力信号と第２入力信号との和信号を計算するステップと、
前記和信号のパワーを計算するステップと、
前記パワーを用いて音声認識を行うステップと、
をさらに有する請求項１記載のロボットの制御方法。
前記ロボットは無指向性のマイクロフォンをさらに備え、
前記無指向性マイクロフォンへの音響入力が、所定の継続時間、所定のレベルを超えたかを判断する第１判断ステップと、
前記第１判断ステップの判断結果が真の場合に、前記入力信号の生成、前記音源方向の推定、前記注目方向の移動および前記注目方向と指向方向との一致の各ステップを繰り返すステップと、
前記マイクロフォンアレイを構成する前記マイクロフォンへの音響入力が、所定の継続時間、所定のレベル以下に継続されたかを判断する第２判断ステップと、
前記第２判断ステップの判断結果が真の場合に、前記無指向性マイクロフォンによる音響入力待機状態に移行するステップと、
をさらに含む請求項１記載のロボットの制御方法。
複数のマイクロフォンを含むマイクロフォンアレイと、
音源からの音響信号を受音し、前記マイクロフォン毎の入力信号を生成する手段と、
前記入力信号を適応フィルタで処理し、前記適応フィルタの出力と前記入力信号との差分である誤差信号を得、前記誤差信号の２乗平均値が最小になるよう前記適応フィルタのパラメータを制御する手段と、
複数の前記誤差信号の相互相関関数を計算する手段と、
前記相互相関関数の時間軸におけるピーク値を求める手段と、
前記ピーク値を示す時間から前記音源の方向を推定する手段と、
前記音源の方向に前記ロボットの注目方向が一致するように前記ロボットの視線、姿勢またはその双方を制御する手段と、
前記注目方向に前記マイクロフォンアレイの指向方向を一致させる手段と、
を有するロボット。
前記入力信号のうち、第１入力信号と第２入力信号とを選択し、前記第１入力信号に対して前記指向方向に相当する遅延量だけ前記第２入力信号の位相を補正する手段と、
前記第１入力信号と第２入力信号との和信号を計算する手段と、
前記和信号のパワーを計算する手段と、
前記パワーを用いて音声認識を行う手段と、
をさらに有する請求項４記載のロボット。
前記ロボットは無指向性のマイクロフォンをさらに備え、
前記無指向性マイクロフォンへの音響入力が、所定の継続時間、所定のレベルを超えたかを判断する第１判断手段と、
前記第１判断手段の判断結果が真の場合に、前記入力信号の生成、前記音源方向の推定、前記注目方向の移動および前記注目方向と指向方向との一致の各手段を繰り返す手段と、
前記マイクロフォンアレイを構成する前記マイクロフォンへの音響入力が、所定の継続時間、所定のレベル以下に継続されたかを判断する第２判断手段と、
前記第２判断手段の判断結果が真の場合に、前記無指向性マイクロフォンによる音響入力待機状態に移行する手段と、
をさらに含む請求項４記載のロボット。