JP3771812B2 - ロボットおよびその制御方法 - Google Patents

ロボットおよびその制御方法 Download PDF

Info

Publication number
JP3771812B2
JP3771812B2 JP2001158152A JP2001158152A JP3771812B2 JP 3771812 B2 JP3771812 B2 JP 3771812B2 JP 2001158152 A JP2001158152 A JP 2001158152A JP 2001158152 A JP2001158152 A JP 2001158152A JP 3771812 B2 JP3771812 B2 JP 3771812B2
Authority
JP
Japan
Prior art keywords
robot
input signal
signal
input
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001158152A
Other languages
English (en)
Other versions
JP2002366191A (ja
Inventor
敏彦 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001158152A priority Critical patent/JP3771812B2/ja
Priority to US10/150,121 priority patent/US7227960B2/en
Publication of JP2002366191A publication Critical patent/JP2002366191A/ja
Application granted granted Critical
Publication of JP3771812B2 publication Critical patent/JP3771812B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Description

【0001】
【発明の属する技術分野】
本発明は、人間型のロボットおよびその制御方法に関する。特に、ロボットの自然な動きの実現、音声認識精度の向上に適用して有効な技術に関する。
【0002】
【従来の技術】
近年、人間型のロボットが開発され話題を集めている。人間型ロボットは、主に生産ライン等で用いられる特定用途、特定機能のロボット(組立ロボット、溶接ロボット等)とは相違し、人間に似せた頭部、胴体、手足を有し、聴覚、視覚、触覚等に相当するセンサを備える。聴覚に相当する音響センサを用いて音声認識させる試みもなされている。
【0003】
人間型ロボットに音声認識を行わせる場合、ロボットに対して任意の方向から与えられる音声を認識できるようにすることが期待される。音声認識の前提としてマイクロフォンによる集音が必要であるが、無指向性のマイクロフォンでは雑音や目的とする音以外の音声を受音するため好ましくない。そこでたとえばマイクロフォンアレイを用いて音源方向を推定し、マイクロフォンアレイによるビームフォーミングを用いて自由に指向性を変化させる手段を採用し得る。ビームフォーミングによれば、目的方向からの音声のゲインを増し、S/N比を向上させることが可能になる。
【0004】
マイクロフォンアレイによる音源方向の推定は、一般に複数マイクロフォンから受音する信号の時間差(位相差)が利用される。すなわち、図9に示すように、マイク1(MIC1)およびマイク2(MIC2)からなるマイクロフォンアレイの法線に対し、θの角度で音波が入射するとする。音源からの距離がマイク1とマイク2の離間dに対して十分に大きいと仮定すると入射音波は平面波と仮定できる。よって、マイク1で受音した音響信号をx1(t)とすると、マイク2で受音する音響信号x2(t)は、
(数1) x2(t)=x1(t−τs)
となる。ここでτsはx1(t)とx2(t)との時間差である。音速をcとすると、図から明らかに、
(数2) τs=(d×sinθ)/c、
であるから、時間差τsを測定すれば、
(数3) θ=sin−1(c×τs/d)、
の式から音源方向θを求めることができる。
【0005】
時間差τsは、複数の受音信号の相互相関関数や遅延和のパワーの最大値から求めることができる。たとえば相互相関関数を用いる場合、x1(t)とx2(t)の相互相関関数φ12(τ)は、
Figure 0003771812
すなわち、φ12(τ)はx1(t)の自己相関関数φ11(τ−τs)となる。なお、E[・]は期待値を表す。
【0006】
自己相関関数φ11(τ)はτ=0で最大値をとるため、上式はτ=τsで最大となる。このことから、x1(t)とx2(t)とからφ12(τ)を計算し、その最大値を与えるτを求めればτsを得ることができる。
【0007】
【発明が解決しようとする課題】
上記の通り、マイクロフォンアレイを用いて音源方向の推定が可能である。また、この音源方向に相当する信号の遅延和を計算し、この遅延和のパワーを信号として用いることによってビームフォーミングが可能である。
【0008】
ビームフォーミングはDSP(digital signal processor)を用いて高速に計算することが可能なので、ロボットの動きに比較して高速に指向性を変化させることが可能になる。また、指向性ビームは単発的な音に敏感に反応しないように適度にヒステリシスを持たせる必要がある。ところが、指向性ビームの方向は目に見えないので、話者はロボットの指向性(認識しようとしている音声の方向)がどの方向であるかを知ることができない。この結果、予想外の方向からの音声を認識したり、話者が期待する方向(一般的にはロボットの視線の方向)からの認識が十分でない事態を生じる。このような事態は、ロボットの自然な動きを期待する話者に違和感を生じさせることになる。
【0009】
また、前記した音源方向の推定精度は、その信号の周波数帯域幅の制限を受ける。つまり、前記手法では相互相関関数のピーク値を検出して時間差τsを求めるが、信号x1、x2の帯域幅が狭いとφ12のピークはなだらかになり、帯域幅が広いとφ12のピークは鋭くなる。鋭いピークが得られるほどτsの検出精度はよくなるので、信号帯域幅の広狭によって音源方向の推定精度が相違することになる。
【0010】
一方、音源方向θの精度を向上するには、マイクの数を増加し、あるいは、マイク間の距離dを大きくすることも考え得る。しかし、この方策ではマイクロフォンアレイの物理的規模が大きくなり、小さなシステムには不向きになる。
【0011】
本発明の目的は、ロボットが音声認識する際の動きが自然な動きになるような制御手段を提供することにある。また、本発明の他の目的は、マイクロフォンアレイの物理的規模を大きくすることなく、目的音声の方向推定の精度を向上し、音声認識精度を向上する技術を提供することにある。
【0012】
【課題を解決するための手段】
本願の発明の概略を説明すれば、以下の通りである。すなわち、本発明のロボットの制御方法は、ロボットの注目方向と受音手段の指向方向とを一致させることを特徴とする。これにより、話者はロボットの注目方向が受音の指向方向であることが認識でき、ロボットの動きが自然な動きに見える。すなわち、ロボットは話者が期待するであろう動きによって音声を受音することになる。
【0013】
この制御方法において、受音手段は、複数のマイクロフォンを含むマイクロフォンアレイであり、音源からの音響信号を受音し、マイクロフォン毎の入力信号を生成するステップと、入力信号から音源の方向を推定するステップと、音源の方向にロボットの注目方向が一致するようにロボットの視線、姿勢またはその双方を制御するステップと、注目方向にマイクロフォンアレイの指向方向を一致させるステップと、を含むことができる。
【0014】
また、入力信号のうち、第1入力信号と第2入力信号とを選択し、第1入力信号に対して指向方向に相当する遅延量だけ第2入力信号の位相を補正するステップと、第1入力信号と第2入力信号との和信号を計算するステップと、和信号のパワーを計算するステップと、パワーを用いて音声認識を行うステップと、をさらに有することができる。これにより、指向方向からの音声認識の精度を向上できる。
【0015】
また、ロボットは無指向性のマイクロフォンをさらに備え、無指向性マイクロフォンへの音響入力が、所定の継続時間、所定のレベルを超えたかを判断する第1判断ステップと、第1判断ステップの判断結果が真の場合に入力信号の生成、音源方向の推定、注目方向の移動および注目方向と指向方向との一致の各ステップを繰り返すステップと、マイクロフォンアレイを構成するマイクロフォンへの音響入力が、所定の継続時間、所定のレベル以下に継続されたかを判断する第2判断ステップと、第2判断ステップの判断結果が真の場合に無指向性マイクロフォンによる音響入力待機状態に移行するステップと、をさらに含むことができる。これにより、無音状態では任意の方向からの音を受音できる状態を維持し、特定方向の音源に注目する時にはその方向の受音感度を向上できる。
【0016】
また、音源方向の推定ステップには、入力信号を適応フィルタで処理し、誤差信号を得るステップと、複数の誤差信号の相互相関関数を計算するステップと、相互相関関数の時間軸におけるピーク値を求めるステップと、を含むことができる。これにより、入力信号よりも高周波成分の多い誤差信号を用いて高精度に相互相関関数のピーク値を求めることができる。よって音源方向の推定精度を向上できる。
【0017】
なお、上記発明は、ロボットの発明として把握することも可能である。
【0018】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。なお、実施の形態の全体を通して同じ要素には同じ番号を付するものとする。
【0019】
(実施の形態1)
図1は、本発明の一実施の形態であるロボットの一例をその機能について示したブロック図である。本実施の形態のロボットは、マイクロフォンアレイ1を有し、マイクロフォンアレイ1には、マイクロフォン2,3とメインマイクロフォン4を有する。また、本ロボットには入力バッファ5、遅延和計算部6、遅延和パワー計算部7、最大値検出部8、音声認識部9、サーボ系10を含む。
【0020】
本実施の形態のロボットは、たとえば人間型ロボットである。人間に似せて、頭部、胴体、手、足を有し、2本足歩行が可能である。胴体、頭部はその可動範囲内で回転等移動が可能であり、後に説明する様に音源方向に姿勢制御することが可能である。また、特に限定されないが視覚機能を有し、目線方向が変化できるように構成されても良い。ただし、本発明は人間型ロボットには限られない。マウス、犬、猫その他動物型、あるいは地球上に現存しないような独創的な形態のロボットでも良い。要は、音源方向に姿勢制御、頭部移動、あるいは目線移動が可能なロボットであれば足りる。ロボットのこれら姿勢制御、胴体、頭部、あるいは目線移動は、周知技術、たとえばサーボ制御により制御される。
【0021】
マイクロフォンアレイ1を構成するマイクロフォン2,3は、音響信号を電気信号に変換する公知のマイクロフォンである。ただし、本実施の形態ではディジタル信号として信号処理を行うので、公知の標本化および量子化手段を含む。マイクロフォン2,3はたとえば人間型ロボットの場合、胴体の両肩部分あるいは腰部あるいは頭部の両耳部分に備えられる。メインマイクロフォン4は無指向性のマイクロフォンであり、ロボットの任意の場所に取り付けられる。後に説明するように無音状態でのロボット制御に用いられる。
【0022】
入力バッファ5は、各マイクロフォンからの入力データを一時的に記録する記憶領域である。遅延和計算部6はマイクロフォン2,3からの入力信号の遅延和を計算する。遅延量として、サーボ系10からの現在値が入力される。また、サーボ系の現在値に基づく遅延和の値は音声認識部9に入力され、音声認識部9では前記遅延和データを用いて音声認識が行われる。遅延和パワー計算部7は、マイクロフォンからの入力信号の遅延和パワーを計算する。この遅延和パワーの最大値は最大値検出部8で検出され、最大値を示す時間τsを基に目的音声の方向が算出される。目的音声の方向はサーボ系10に入力され、ロボットの顔、目、上体等が制御される。
【0023】
図2は、本実施の形態のロボット制御方法の一例を示したフローチャートである。まず、ロボットの初期状態あるいは無音状態では、音源方向推定系はメインマイクロフォン4のみから受音し、入力音声の音圧レベルを検出する(ステップ11)。この時、ロボット制御系では、ロボットの顔、目などを初期状態(たとえば正面を向く等)にする(ステップ12)。また、ビームフォーミング系では特にビームフォーム(指向性の形成)を行わない(ステップ13)。すなわち、メインマイクロフォン4のみから受音するので無指向性で音響信号を受音する。また、音声認識系では、メインマイクロフォン4からの受音信号を基に音声認識を行う(ステップ14)。ただし、無指向性状態の音声を認識するので目的音声以外の音に反応する可能性がある。
【0024】
音源方向推定系では、ステップ11でセンスしたメインマイクロフォン4からの入力音声が、その音圧、時間が所定の閾値を超えたかを判断する(ステップ15)。この閾値は、無音状態でないと判断できる音圧レベルを基に実験等によって選択する。あるいはオートゲインコントロール機能を用いて環境ノイズ以上の音声信号に反応するよう閾値を動的に制御できる。また、突発的な音等短時間の音には反応しないようにする。このように、特定方向からの呼びかけ等に確実に反応するよう音圧レベル、時間の閾値を設定する。
【0025】
ステップ15の判断がnoの場合(無音状態であると判断できる時)はステップ11に戻ってメインマイクロフォン4からの音声センス状態を継続する。勿論この場合ロボット制御系、ビームフォーミング系、音声認識系も前記した初期状態を維持する。
【0026】
ステップ15の判断がyesの場合(特定の方向からの音声が有意であると判断された時)、音源方向推定系は、ステップ16に進み、マイクロフォンアレイ1のマイクロフォン2,3からの受音信号を処理する。この処理により音源方向の推定を行う。音源方向の推定は、たとえば入力信号をDSP等により処理し、信号の遅延和パワーの計算する。遅延和パワーの最大値を示す時間τsから前記したとおり音源の方向θを計算する。
【0027】
計算されたθを用いて、ロボット制御系では、ロボットの顔、目、上体等を音源方向に向くように制御する(ステップ17)。同時に、制御系の出力(サーボ出力)を用いて、現在値(ロボットの注目方向に相当する)に相当する遅延量を計算し、この遅延量を用いて入力音声の遅延和を算出する(ステップ18)。これにより、マイクロフォンアレイ1の指向性とロボットの顔、目等の注目方向とを一致させる。ここで強調すべきは、マイクロフォンアレイ1の指向性は、速やかに目的音声の方向(音源)に向けるのではなく、あくまでもロボット制御系の現在値に一致させる点である。すなわち、音声入力の指向性(ビームフォーム)はロボットの注目方向に一致する。これにより、ロボットに話しかける話者は、現在ロボットが音声認識しようとしている方向を視覚的に把握することができる。また、ロボットは現在注目している方向からの音声を強調して音声認識するので、ロボットの動作が話者にとって自然に見える。
【0028】
ステップ18で計算された遅延和は音声認識系に送られ、この遅延和を用いて音声認識を行う(ステップ19)。音声認識系は、遅延和を用いて音声認識を行うので、マイクロフォンアレイ1の指向性の方向つまりロボットの注目方向に対する認識率が他の方向からの音声に比べて向上する。
【0029】
音源方向推定系は、その後入力音声の音圧、時間が方向推定の再計算を行うための閾値を超えたかを判断し(ステップ20)、この判断がyesの場合はステップ16に戻って前記処理を繰り返す。noの場合はステップ21に進む。
【0030】
ステップ21では、入力音声の音圧、時間が無音と判断できる閾値を超えたかを判断する(ステップ21)。yesの場合(無音と判断された場合)、ステップ11に戻って前記処理を繰り返し、noの場合はステップ20に戻って前記処理を繰り返す。
【0031】
本実施の形態によれば、ロボットの注目方向と音声認識しようとする音声の入射方向とが一致するため、ロボットの音声認識しようとする方向が話者に視覚的に明瞭となる。このため話者はロボットの動作に違和感を覚えず、ロボットの自然な動きを実現できる。また、ロボットがビームフォーミングを行っている状態では、その注目方向(マイクロフォンアレイの指向性の方向)の音声が強調されるので、その方向からの音声の認識率を向上することができる。
【0032】
(実施の形態2)
前記実施の形態1では、音源方向の推定に信号遅延和のパワーを用いる例を説明した。しかし、前記した信号相関関数の場合と同様に遅延和パワーを用いた場合もその信号周波数帯域によって制限を受け、方向推定の精度(最大値検出の精度)が低い。以下本実施の形態では、方向推定精度を向上できる手法を説明する。
【0033】
図3は、本実施の形態で用いる信号処理システムの音響モデルの一例を示した図である。入力s(k)は声帯音源パルス等の励震源である。G(z)は声道の伝達特性や、室内等環境の伝達特性を示す。s(k)がG(z)を通過した後に得られるx(k)がマイクに到達する音声である。この音声x(k)がP(z)=1−z−1H(z)で表されるフィルタを通過した後に誤差信号e(k)を得る場合を考える。
【0034】
G(z)が、G(z)=1/(1−z−1F(z))、で表され、H(z)=F(z)であるとき、P(z)はG(z)の逆フィルタとなり、e(k)はs(k)となる。e(k)すなわちs(k)は声帯で発せられるパルスに相当し、マイクの受音信号x(k)に比べて高周波成分が多くなる。このためピークの鋭い相互相関関数が得られることが期待できる。なお、雑音n(k)は簡単のため無視している。
【0035】
H(z)には、たとえば適応フィルタが採用できる。適応フィルタは予め伝達関数を定めることができない系や時間的に変化し得る系での最適制御を実現するために採用される予測フィルタである。フィルタのパラメータは適応アルゴリズムによって最適値に収束するようにステップ毎に計算され、動的に変化される。
【0036】
図4は、本実施の形態で用いる適応フィルタの一例を示した図である。マイクからの受音信号x(k)は、L段に構成された遅延回路(D)を通過し、各遅延データx(k−i)とパラメータh(k)との積和値SUM(h(k)x(k−i))は予測値y(k)となる。なお、i=1〜Lであり、SUM(a)はaについての直和集合である。すなわち、
(数5) y(k)=h1(k)x(k-1)+h2(k)x(k-2)+・・・+hL(k)x(k-L)
(数6) e(k)=x(k)-y(k)
(数7) hi(k+1)=hi(k)+μe(k)x(k-i) i=1,2,・・・,L
ここで、μはステップサイズである。
【0037】
前記数7で表す適応アルゴリズム(ここでは最小二乗法を例示する)によりh(k)が最適値に収束するとき、y(k)はx(k)の予測値となり、誤差信号e(k)の2乗平均値は最小となる。このとき誤差信号e(k)は予測できなかった励震源パルスs(k)を表すと考えられる。例震源パルスはパルスであるがゆえに当然にマイク信号x(k)よりも高周波成分を多く含む。マイクロフォン毎の誤差信号を用いて相互相関関数を計算するとそのピークは鋭くなる。
【0038】
なお、ここで適応アルゴリズムは前向き予測フィルタを構成するためのものであり、最小二乗法に限らず、たとえば学習同定法等他のアルゴリズムを用いることができる。
【0039】
図5は、マイクによる受音信号の波形を示したシミュレーション用の音声波形データである。マイク1による信号を受音信号1と表記し、マイク2による信号を受音信号2と表記する。マイク間隔を20cm、音源方向(θ)を30°、サンプリング周波数を44.1kHzとした。図6は、図5の受音信号から前記適応フィルタにより得られる誤差信号の波形を示した図である。受音信号1の誤差信号を誤差信号1、受音信号2の誤差信号を誤差信号2と表記する。シミュレーションの条件は同じである。図6から明らかに誤差信号は音声波形より高い周波数成分を多く含んでいる。
【0040】
図7は、受音信号1と受音信号2との相互相関関数(受音信号と表記する)および誤差信号1と誤差信号2との相互相関関数(誤差信号と表記する)を示したグラフである。なお、受音信号1,2はすべてそれぞれ同じ区間の512サンプル(12ms)を使用し、適応フィルタの次数(L)は20とした。図7における横軸はサンプル数(時間)である。
【0041】
図7から明らかに、誤差信号の相互相関関数のピークは鋭くなっている。誤差信号のピーク値は13サンプルの位置(音源方向は30.1°と計算される)であり、ほぼ理論値を示す。一方受音信号の相互相関関数のピーク値は16サンプルの位置(音源方向は38.1°に相当する)にあり、約8度の誤差を生じている。以上のとおり、本実施の形態によれば、音源方向を高精度に推定することができる。
【0042】
なお、図8は、目的音声(θ=30°)とは別にθ=−40°の方向からS/N比が4.2dBの雑音を加えた場合の相互相関関数を示す図である。この場合、受音信号によるピーク値は目的音声からも雑音からもずれた位置(25サンプル(θ=74.5°に相当))にある。一方、誤差信号によるピーク値は13サンプルの位置にあり、受音信号よりもさらに正確な方向を示している。これは、雑音も適応フィルタによりある程度予測され、誤差信号が雑音の励震源をも近似するためと考えられる。本実施の形態の優位性を顕著に示す例といえる。
【0043】
以上、本発明者によってなされた発明を発明の実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更することが可能である。
【0044】
たとえば、前記実施の形態1では、水平平面内での音源方向の特定とビームフォーミング、ロボットの注目方向の制御について説明したが、たとえばマイクロフォンアレイを縦方向に配列すれば、垂直平面内においても同様の制御が可能である。
【0045】
また、前記実施の形態1ではメインマイクロフォン4を用いた無音状態あるいは初期状態の受音待機状態を説明したが、たとえばマイクロフォン2,3の何れか1つでこれを代用しても良い。
【0046】
また、前記実施の形態2では適応フィルタの適応アルゴリズムとして、最小二乗平均(LMS)法を説明したが、最急降下アルゴリズム、漸化的最小二乗(RLS)アルゴリズムを用いることもできる。また、前向き予測に限らず、後ろ向き予測を用いても良い。
【0047】
【発明の効果】
本願で開示される発明のうち、代表的なものによって得られる効果は、以下の通りである。すなわち、ロボットが音声認識する際の動きが自然な動きになるようにできる。マイクロフォンアレイの物理的規模を大きくすることなく、目的音声の方向推定の精度を向上し、音声認識精度を向上できる。
【図面の簡単な説明】
【図1】本発明の一実施の形態であるロボットの一例をその機能について示したブロック図である。
【図2】本発明の一実施の形態であるロボット制御方法の一例を示したフローチャートである。
【図3】本実施の形態で用いる信号処理システムの音響モデルの一例を示した図である。
【図4】本実施の形態で用いる適応フィルタの一例を示した図である。
【図5】マイクによる受音信号の波形を示したシミュレーション用の音声波形データである。
【図6】図5の受音信号から前記適応フィルタにより得られる誤差信号の波形を示した図である。
【図7】受音信号1と受音信号2との相互相関関数および誤差信号1と誤差信号2との相互相関関数を示したグラフである。
【図8】目的音声とは別に雑音を加えた場合の相互相関関数を示す図である。
【図9】従来技術を説明するための図である。
【符号の説明】
1…マイクロフォンアレイ、2,3…マイクロフォン、4…メインマイクロフォン、5…入力バッファ、6…遅延和計算部、7…遅延和パワー計算部、8…最大値検出部、9…音声認識部、10…サーボ系。

Claims (6)

  1. 複数のマイクロフォンを含むマイクロフォンアレイを備えたロボットの制御方法であって、
    音源からの音響信号を受音し、前記マイクロフォン毎の入力信号を生成するステップと、
    前記入力信号を適応フィルタで処理し、前記適応フィルタの出力と前記入力信号との差分である誤差信号を得、前記誤差信号の2乗平均値が最小になるよう前記適応フィルタのパラメータを制御するステップと、
    複数の前記誤差信号の相互相関関数を計算するステップと、
    前記相互相関関数の時間軸におけるピーク値を求めるステップと、
    前記ピーク値を示す時間から前記音源の方向を推定するステップと、
    前記音源の方向に前記ロボットの注目方向が一致するように前記ロボットの視線、姿勢またはその双方を制御するステップと、
    前記注目方向に前記マイクロフォンアレイの指向方向を一致させるステップと、を含む、
    ロボットの制御方法。
  2. 前記入力信号のうち、第1入力信号と第2入力信号とを選択し、前記第1入力信号に対して前記指向方向に相当する遅延量だけ前記第2入力信号の位相を補正するステップと、
    前記第1入力信号と第2入力信号との和信号を計算するステップと、
    前記和信号のパワーを計算するステップと、
    前記パワーを用いて音声認識を行うステップと、
    をさらに有する請求項1記載のロボットの制御方法。
  3. 前記ロボットは無指向性のマイクロフォンをさらに備え、
    前記無指向性マイクロフォンへの音響入力が、所定の継続時間、所定のレベルを超えたかを判断する第1判断ステップと、
    前記第1判断ステップの判断結果が真の場合に、前記入力信号の生成、前記音源方向の推定、前記注目方向の移動および前記注目方向と指向方向との一致の各ステップを繰り返すステップと、
    前記マイクロフォンアレイを構成する前記マイクロフォンへの音響入力が、所定の継続時間、所定のレベル以下に継続されたかを判断する第2判断ステップと、
    前記第2判断ステップの判断結果が真の場合に、前記無指向性マイクロフォンによる音響入力待機状態に移行するステップと、
    をさらに含む請求項1記載のロボットの制御方法。
  4. 複数のマイクロフォンを含むマイクロフォンアレイと、
    音源からの音響信号を受音し、前記マイクロフォン毎の入力信号を生成する手段と、
    前記入力信号を適応フィルタで処理し、前記適応フィルタの出力と前記入力信号との差分である誤差信号を得、前記誤差信号の2乗平均値が最小になるよう前記適応フィルタのパラメータを制御する手段と、
    複数の前記誤差信号の相互相関関数を計算する手段と、
    前記相互相関関数の時間軸におけるピーク値を求める手段と、
    前記ピーク値を示す時間から前記音源の方向を推定する手段と、
    前記音源の方向に前記ロボットの注目方向が一致するように前記ロボットの視線、姿勢またはその双方を制御する手段と、
    前記注目方向に前記マイクロフォンアレイの指向方向を一致させる手段と、
    を有するロボット。
  5. 前記入力信号のうち、第1入力信号と第2入力信号とを選択し、前記第1入力信号に対して前記指向方向に相当する遅延量だけ前記第2入力信号の位相を補正する手段と、
    前記第1入力信号と第2入力信号との和信号を計算する手段と、
    前記和信号のパワーを計算する手段と、
    前記パワーを用いて音声認識を行う手段と、
    をさらに有する請求項4記載のロボット。
  6. 前記ロボットは無指向性のマイクロフォンをさらに備え、
    前記無指向性マイクロフォンへの音響入力が、所定の継続時間、所定のレベルを超えたかを判断する第1判断手段と、
    前記第1判断手段の判断結果が真の場合に、前記入力信号の生成、前記音源方向の推定、前記注目方向の移動および前記注目方向と指向方向との一致の各手段を繰り返す手段と、
    前記マイクロフォンアレイを構成する前記マイクロフォンへの音響入力が、所定の継続時間、所定のレベル以下に継続されたかを判断する第2判断手段と、
    前記第2判断手段の判断結果が真の場合に、前記無指向性マイクロフォンによる音響入力待機状態に移行する手段と、
    をさらに含む請求項4記載のロボット。
JP2001158152A 2001-05-28 2001-05-28 ロボットおよびその制御方法 Expired - Fee Related JP3771812B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001158152A JP3771812B2 (ja) 2001-05-28 2001-05-28 ロボットおよびその制御方法
US10/150,121 US7227960B2 (en) 2001-05-28 2002-05-16 Robot and controlling method of the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001158152A JP3771812B2 (ja) 2001-05-28 2001-05-28 ロボットおよびその制御方法

Publications (2)

Publication Number Publication Date
JP2002366191A JP2002366191A (ja) 2002-12-20
JP3771812B2 true JP3771812B2 (ja) 2006-04-26

Family

ID=19001917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001158152A Expired - Fee Related JP3771812B2 (ja) 2001-05-28 2001-05-28 ロボットおよびその制御方法

Country Status (2)

Country Link
US (1) US7227960B2 (ja)
JP (1) JP3771812B2 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1306832B1 (en) * 2000-06-09 2010-02-24 Japan Science and Technology Agency Robot auditory apparatus
JP4026758B2 (ja) * 2002-10-04 2007-12-26 富士通株式会社 ロボット
EP2587481B1 (en) * 2002-10-23 2020-01-08 Nuance Communications, Inc. Controlling an apparatus based on speech
JP4079792B2 (ja) * 2003-02-06 2008-04-23 松下電器産業株式会社 ロボットの教示方法と教示機能付きロボット
EP1453348A1 (de) * 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
US7720233B2 (en) 2003-09-02 2010-05-18 Nec Corporation Signal processing method and apparatus
US7587053B1 (en) * 2003-10-28 2009-09-08 Nvidia Corporation Audio-based position tracking
KR100906136B1 (ko) * 2003-12-12 2009-07-07 닛본 덴끼 가부시끼가이샤 정보 처리용 로봇
US7817805B1 (en) * 2005-01-12 2010-10-19 Motion Computing, Inc. System and method for steering the directional response of a microphone to a moving acoustic source
US7331310B1 (en) * 2005-02-16 2008-02-19 Ken Sersland Domestic animal training method
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
DE602006009885D1 (de) * 2005-12-12 2009-12-03 Honda Motor Co Ltd Steuersystem für einen beweglichen Roboter mit Beinen
US8155331B2 (en) 2006-05-10 2012-04-10 Honda Motor Co., Ltd. Sound source tracking system, method and robot
US20080223832A1 (en) * 2006-11-16 2008-09-18 Lijun Song Real time implementation of generalized predictive control algorithm for the control of direct metal deposition (dmd) process
US9044827B2 (en) * 2007-05-31 2015-06-02 Dm3D Technology, Llc Real-time implementation of generalized predictive algorithm for direct metal deposition (DMD) process control
US8111583B2 (en) * 2007-08-21 2012-02-07 Schwartz Adam L Method and apparatus for determining and indicating direction and type of sound
CN101377924A (zh) * 2007-08-31 2009-03-04 鹏智科技(深圳)有限公司 可会话的类生物装置及其会话方法
JP5332602B2 (ja) * 2008-12-26 2013-11-06 ヤマハ株式会社 サービス提供装置
JP5622744B2 (ja) * 2009-11-06 2014-11-12 株式会社東芝 音声認識装置
JP5368272B2 (ja) * 2009-11-20 2013-12-18 ジェイ・アール・シー特機株式会社 音響信号処理装置
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US9226069B2 (en) * 2010-10-29 2015-12-29 Qualcomm Incorporated Transitioning multiple microphones from a first mode to a second mode
CN104081334B (zh) * 2011-11-30 2018-10-26 诺基亚技术有限公司 用于音频反应ui信息的装置和方法以及显示器
EP2660813B1 (en) * 2012-04-30 2014-12-17 BlackBerry Limited Dual microphone voice authentication for mobile device
CN103994541B (zh) * 2014-04-21 2017-01-04 美的集团股份有限公司 基于语音控制的风向切换方法和系统
CN105864952B (zh) * 2015-01-19 2019-06-21 Tcl空调器(中山)有限公司 空调器及空调器的控制方法
CN106328130A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种机器人语音寻向转动系统及方法
CN105163209A (zh) * 2015-08-31 2015-12-16 深圳前海达闼科技有限公司 一种接收声音的处理方法及装置
JP6485370B2 (ja) * 2016-01-14 2019-03-20 トヨタ自動車株式会社 ロボット
KR102392113B1 (ko) * 2016-01-20 2022-04-29 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령 처리 방법
CN109831717B (zh) * 2017-11-23 2020-12-15 深圳市优必选科技有限公司 一种降噪处理方法、系统及终端设备
US10586538B2 (en) * 2018-04-25 2020-03-10 Comcast Cable Comminications, LLC Microphone array beamforming control
KR102093822B1 (ko) * 2018-11-12 2020-03-26 한국과학기술연구원 음원 분리 장치
CN114468898B (zh) * 2019-04-03 2023-05-05 北京石头创新科技有限公司 机器人语音控制方法、装置、机器人和介质
CN110138654B (zh) * 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3047038B2 (ja) 1992-02-04 2000-05-29 横河電機株式会社 受信装置
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
DE4330243A1 (de) * 1993-09-07 1995-03-09 Philips Patentverwaltung Sprachverarbeitungseinrichtung
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
DE69627359T2 (de) * 1996-08-01 2003-10-30 Nortel Networks Ltd Verbesserter echokompensator mit anwendung in der digitalen telefonie
JP3341815B2 (ja) 1997-06-23 2002-11-05 日本電信電話株式会社 受話状態検出方法およびその装置
JP2000187498A (ja) 1998-12-22 2000-07-04 Sony Corp 音声認識装置及び方法
US6347261B1 (en) * 1999-08-04 2002-02-12 Yamaha Hatsudoki Kabushiki Kaisha User-machine interface system for enhanced interaction
JP2001296343A (ja) * 2000-04-11 2001-10-26 Nec Corp 音源方位設定装置及びそれを備えた撮像装置、送信システム
US6785394B1 (en) * 2000-06-20 2004-08-31 Gn Resound A/S Time controlled hearing aid

Also Published As

Publication number Publication date
US7227960B2 (en) 2007-06-05
US20020181723A1 (en) 2002-12-05
JP2002366191A (ja) 2002-12-20

Similar Documents

Publication Publication Date Title
JP3771812B2 (ja) ロボットおよびその制御方法
US10863270B1 (en) Beamforming for a wearable computer
CN109141620B (zh) 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
KR100499124B1 (ko) 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
Ishi et al. Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments
US7803050B2 (en) Tracking device with sound emitter for use in obtaining information for controlling game program execution
US8073157B2 (en) Methods and apparatus for targeted sound detection and characterization
US7783061B2 (en) Methods and apparatus for the targeted sound detection
CN110140359B (zh) 使用波束形成的音频捕获
Mumolo et al. Algorithms for acoustic localization based on microphone array in service robotics
CN103329566A (zh) 用于房间中的语音增强的方法和系统
EP2748815A2 (en) Processing signals
CN103329565A (zh) 音频系统及其操作方法
CN110830895A (zh) 麦克风装置及其指向性调整方法
Ince et al. Assessment of general applicability of ego noise estimation
TW202147862A (zh) 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法
CN115086849A (zh) 确定感兴趣的讲话者的助听器
Ince et al. Online learning for template-based multi-channel ego noise estimation
JP2003066986A (ja) 音声認識ロボット
Lim et al. Speaker localization in noisy environments using steered response voice power
JP2005303574A (ja) 音声認識ヘッドセット
CN115474121A (zh) 主动降噪方法、装置、芯片、耳机及存储介质
US11025324B1 (en) Initialization of adaptive blocking matrix filters in a beamforming array using a priori information
Jung et al. Adaptive microphone array system with two-stage adaptation mode controller
JP2005227511A (ja) 対象音検出方法、音信号処理装置、音声認識装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040602

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040902

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050506

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050808

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060118

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20060118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060210

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110217

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees