JP4742415B2

JP4742415B2 - ロボット制御装置およびロボット制御方法、並びに記録媒体

Info

Publication number: JP4742415B2
Application number: JP2000310989A
Authority: JP
Inventors: 和夫石井; 智裕山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-10-11
Filing date: 2000-10-11
Publication date: 2011-08-10
Anticipated expiration: 2020-10-11
Also published as: JP2002116790A

Description

【０００１】
【発明の属する技術分野】
本発明は、ロボット制御装置およびロボット制御方法、並びに記録媒体に関し、特に、例えば、音声認識装置による音声認識結果に基づいて行動するロボットに用いて好適なロボット制御装置およびロボット制御方法、並びに記録媒体に関する。
【０００２】
【従来の技術】
近年においては、例えば、玩具等として、ユーザが発した音声を音声認識し、その音声認識結果に基づいて、ある仕草をしたり、合成音を出力する等の行動を行うロボット（本明細書においては、ぬいぐるみ状のものを含む）が製品化されている。
【０００３】
【発明が解決しようとする課題】
ところで、音声認識するための音声を取り込むために、ロボットには、マイクロフォンが取り付けられている。
【０００４】
マイクロフォンには、所定の方向から到来する音声（音波）を、特に感度良く集音することができる指向性マイクロフォン（マイク）と、音声が到来する方向に関係なく、一定の感度で音声を集音する無指向性マイクがあるが、指向性マイクは、振動を音として取り込み易いことから、ロボットに取り付ける場合、振動しないように取り付ける必要がある。すなわち、取り付けに手間がかる。
【０００５】
そこで、指向性マイクに比べ、取り付けが簡単な無指向性マイクを利用することが考えられるが、この場合、全方向からの音声が同じ感度で集音されるので、音声認識すべき音声以外の音（音声認識を妨害するような音）も集音してしまい、音声認識の精度が悪くなることがあった。例えば、ロボットが行動するときに発せられる、ロボットに組み込まれたアクチュエータの駆動音が取り込まれてしまい、音声認識を正確に行うことができない場合があった。
【０００６】
本発明は、このような状況に鑑みてなされたものであり、無指向性マイクを利用しても、音声認識を正確に行うことができるようにするものである。
【０００７】
【課題を解決するための手段】
本発明のロボット制御装置は、音声認識を妨害する音声が、第１の無指向性マイクに到達した後、所定の時間だけ遅れて第２の無指向性マイクに到達するように取り付けられた第１および第２の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置であって、第１の無指向性マイクを用いて取り込まれた音声を表す第１の音声信号を取得する第１の取得手段と、第２の無指向性マイクを用いて取り込まれた音声を表す第２の音声信号を取得する第２の取得手段と、ロボットの行動に応じて音声認識を妨害する音声が発生するか否かを判定する判定手段と、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、第１の音声信号を、所定の時間だけ遅延させ、遅延後の第１の音声信号と第２の音声信号との差分信号を、音声認識に用いる音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、第１の音声信号と第２の音声信号との差分信号、又は第２の音声信号の一方を音声認識用信号として生成する生成手段と、音声認識用信号に対して音声認識処理を実行する実行手段とを備え、Ｎ個の第１の無指向性マイクとＮ個の第２の無指向性マイクにより、１個の第１の無指向性マイクと１個の第２の無指向性マイクからなるＮ個の組であって、且つ、音声認識を妨害する音声を発生するロボットの行動の種類にそれぞれ対応するＮ個の組が形成されている場合において、判定手段は、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定した場合、ロボットの行動の種類を検出し、生成手段は、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、検出された種類に対応する組の第１の無指向性マイクを用いて取り込まれた第１の音声信号を、所定の時間だけ遅延させ、遅延後の第１の音声信号と、検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号との差分信号を、音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、検出された種類に対応する組の第１の無指向性マイクを用いて取り込まれた第１の音声信号と、検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号との差分信号、又は検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号の一方を音声認識用信号として生成する。
【０００８】
第１の無指向性マイクと第２の無指向性マイクが、それぞれＮ個ずつ設けることができる。
【００１０】
本発明のロボット制御方法は、音声認識を妨害する音声が、第１の無指向性マイクに到達した後、所定の時間だけ遅れて第２の無指向性マイクに到達するように取り付けられた第１および第２の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置のロボット制御方法において、第１の無指向性マイクを用いて取り込まれた音声を表す第１の音声信号を取得する第１の取得ステップと、第２の無指向性マイクを用いて取り込まれた音声を表す第２の音声信号を取得する第２の取得ステップと、ロボットの行動に応じて音声認識を妨害する音声が発生するか否かを判定する判定ステップと、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、第１の音声信号を、所定の時間だけ遅延させ、遅延後の第１の音声信号と第２の音声信号との差分信号を、音声認識に用いる音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、第１の音声信号と第２の音声信号との差分信号、又は第２の音声信号の一方を音声認識用信号として生成する生成ステップと、音声認識用信号に対して音声認識処理を実行する実行ステップとを含み、Ｎ個の第１の無指向性マイクとＮ個の第２の無指向性マイクにより、１個の第１の無指向性マイクと１個の第２の無指向性マイクからなるＮ個の組であって、且つ、音声認識を妨害する音声を発生するロボットの行動の種類にそれぞれ対応するＮ個の組が形成されている場合において、判定ステップは、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定した場合、ロボットの行動の種類を検出し、生成ステップは、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、検出された種類に対応する組の第１の無指向性マイクを用いて取り込まれた第１の音声信号を、所定の時間だけ遅延させ、遅延後の第１の音声信号と、検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号との差分信号を、音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、検出された種類に対応する組の第１の無指向性マイクを用いて取り込まれた第１の音声信号と、検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号との差分信号、又は検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号の一方を音声認識用信号として生成する。
【００１１】
本発明の記録媒体のプログラムは、音声認識を妨害する音声が、第１の無指向性マイクに到達した後、所定の時間だけ遅れて第２の無指向性マイクに到達するように取り付けられた第１および第２の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置のコンピュータに、第１の無指向性マイクを用いて取り込まれた音声を表す第１の音声信号を取得する第１の取得ステップと、第２の無指向性マイクを用いて取り込まれた音声を表す第２の音声信号を取得する第２の取得ステップと、ロボットの行動に応じて音声認識を妨害する音声が発生するか否かを判定する判定ステップと、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、第１の音声信号を、所定の時間だけ遅延させ、遅延後の第１の音声信号と第２の音声信号との差分信号を、音声認識に用いる音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、第１の音声信号と第２の音声信号との差分信号、又は第２の音声信号の一方を音声認識用信号として生成する生成ステップと、音声認識用信号に対して音声認識処理を実行する実行ステップとを含み、Ｎ個の第１の無指向性マイクとＮ個の第２の無指向性マイクにより、１個の第１の無指向性マイクと１個の第２の無指向性マイクからなるＮ個の組であって、且つ、音声認識を妨害する音声を発生するロボットの行動の種類にそれぞれ対応するＮ個の組が形成されている場合において、判定ステップは、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定した場合、ロボットの行動の種類を検出し、生成ステップは、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、検出された種類に対応する組の第１の無指向性マイクを用いて取り込まれた第１の音声信号を、所定の時間だけ遅延させ、遅延後の第１の音声信号と、検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号との差分信号を、音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、検出された種類に対応する組の第１の無指向性マイクを用いて取り込まれた第１の音声信号と、検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号との差分信号、又は検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号の一方を音声認識用信号として生成する処理を実行させる。
【００１２】
本発明のロボット制御装置および方法、並びに記録媒体のプログラムにおいては、第１の無指向性マイクを用いて取り込まれた音声を表す第１の音声信号が取得され、第２の無指向性マイクを用いて取り込まれた音声を表す第２の音声信号が取得され、ロボットの行動に応じて音声認識を妨害する音声が発生するか否かが判定され、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、第１の音声信号が、所定の時間だけ遅延させられ、遅延後の第１の音声信号と第２の音声信号との差分信号が、音声認識に用いる音声認識用信号として生成され、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、第１の音声信号と第２の音声信号との差分信号、又は第２の音声信号の一方が音声認識用信号として生成され、生成された音声認識用信号に対して音声認識処理が実行される。また、Ｎ個の第１の無指向性マイクとＮ個の第２の無指向性マイクにより、１個の第１の無指向性マイクと１個の第２の無指向性マイクからなるＮ個の組であって、且つ、音声認識を妨害する音声を発生するロボットの行動の種類にそれぞれ対応するＮ個の組が形成されている場合において、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、ロボットの行動の種類が検出され、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、検出された種類に対応する組の第１の無指向性マイクを用いて取り込まれた第１の音声信号を、所定の時間だけ遅延させ、遅延後の第１の音声信号と、検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号との差分信号が、音声認識用信号として生成され、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、検出された種類に対応する組の第１の無指向性マイクを用いて取り込まれた第１の音声信号と、検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号との差分信号、又は検出された種類に対応する組の第２の無指向性マイクを用いて取り込まれた第２の音声信号の一方が音声認識用信号として生成される。
【００１３】
【発明の実施の形態】
図１は、本発明を適用したロボットの一実施の形態の外観構成例を示しており、図２は、その電気的構成例を示している。
【００１４】
本実施の形態では、ロボットは、例えば、犬等の四つ足の動物の形状のものとなっており、胴体部ユニット２の前後左右に、それぞれ脚部ユニット３Ａ，３Ｂ，３Ｃ，３Ｄが連結されるとともに、胴体部ユニット２の前端部と後端部に、それぞれ頭部ユニット４と尻尾部ユニット５が連結されることにより構成されている。
【００１５】
尻尾部ユニット５は、胴体部ユニット２の上面に設けられたベース部５Ｂから、２自由度をもって湾曲または揺動自在に引き出されている。
【００１６】
胴体部ユニット２には、ロボット全体の制御を行うコントローラ１０、ロボットの動力源となるバッテリ１１、並びにバッテリセンサ１２および熱センサ１３からなる内部センサ部１４などが収納されている。
【００１７】
頭部ユニット４には、その左側に、「左の耳」に相当する、２個の無指向性マイク１５−１，１５−２と、その右側に、「右の耳」に相当する、２個の無指向性マイク１５−３，１５−４がそれぞれ配設されている。なお、以下において、左側に配設された無指向性マイク１５−１，１５−２または右側に配設された無指向性マイク１５−３，１５−４のそれぞれを、個々に区別する必要がない場合、単に、無指向性マイク１５Ｌおよび無指向性マイク１５Ｒと称する。また無指向性マイク１５Ｌと無指向性マイク１５Ｒのそれぞれを、個々に区別する必要がない場合、単に、無指向性マイク１５と称する。他の部分についても同様である。
【００１８】
例えば、右側に配置された無指向性マイク１５−３，１５−４は、図３に示すように、頭部ユニット４が垂直方向に対して３０°前方に傾いている場合において、両者を結ぶ直線が、垂直方向に対して４５°だけ傾くように、無指向性マイク１５−３が斜め上方に、そして無指向性マイク１５−４が斜め下方に、Ｌ（mm）だけ離れて取り付けられている。
【００１９】
なお、図３の状態における無指向性マイク１５−３，１５−４を結ぶ直線の、下方延長上には、脚部ユニット３Ｂと胴体部ユニット２の連結部分（図１中、点線で囲まれている部分）が位置する。また、この例の場合、ロボットが歩行する場合、頭部ユニット４は、図３の状態に保持される。すなわち、ロボットが歩行する場合において発生する、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されているアクチュエータ３ＢＡ（図２）の駆動音は、図３中、太い矢印の方から、無指向性マイク１５−４，１５−３に到来する。
【００２０】
頭部ユニット４の左側に配置された無指向性マイク１５−１，１５−２も、無指向性マイク１５−３，１５−４と同様に取り付けられている。
【００２１】
頭部ユニット４にはまた、「目」に相当するＣＣＤ(Charge Coupled Device)カメラ１６、「触覚」に相当するタッチセンサ１７、「口」に相当するスピーカ１８などが、それぞれ所定位置に配設されている。頭部ユニット４にはさらに、口の下顎に相当する下顎部４Ａが１自由度をもって可動に取り付けられており、この下顎部４Ａが動くことにより、ロボットの口の開閉動作が実現されるようになっている。
【００２２】
脚部ユニット３Ａ乃至３Ｄそれぞれの関節部分や、脚部ユニット３Ａ乃至３Ｄそれぞれと胴体部ユニット２の連結部分、頭部ユニット４と胴体部ユニット２の連結部分、頭部ユニット４と下顎部４Ａの連結部分、並びに尻尾部ユニット５と胴体部ユニット２の連結部分などには、図２に示すように、それぞれアクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、５Ａ₁および５Ａ₂が配設されている。
【００２３】
頭部ユニット４における無指向性マイク１５−１，１５−２のそれぞれは、ユーザからの発話を含む周囲の音声（特に、ロボットの左側から到来する音）を、方向によって感度が異なることなく集音し、得られた音声信号を、指向性切換部２１−１に送出する。無指向性マイク１５−３，１５−４のそれぞれは、ユーザからの発話を含む周囲の音（特に、ロボットの右側から到来する音）を、方向によって感度が異なることなく集音し、得られた音声信号を、指向性切換部２１−２に送出する。
【００２４】
ＣＣＤカメラ１６は、周囲の状況を撮像し、得られた画像信号を、コントローラ１０に送出する。タッチセンサ１７は、例えば、頭部ユニット４の上部に設けられており、ユーザからの「なでる」や「たたく」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号としてコントローラ１０に送出する。
【００２５】
指向性切換部２１−１は、無指向性マイク１５−１，１５−２からの音声信号に対して、所定の処理を施し、その結果得られた音声信号を、コントローラ１０に送出する。指向性切換部２１−２は、無指向性マイク１５−３，１５−４からの音声信号に対して、所定の処理を施し、その結果得られた音声信号を、コントローラ１０に送出する。
【００２６】
指向性切換部２１の機能を、指向性切換部２１−２を例として説明する。指向性切換部２１−２は、無指向性マイク１５−３または無指向性マイク１５−４のそれぞれからの、所定の方向から到来した音（この例の場合、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡの駆動音）の音声信号同士の位相が一致するように、無指向性マイク１５−４からの音声信号を遅延させる。そして指向性切換部２１−２は、無指向性マイク１５−３からの音声信号から、遅延させた無指向性マイク１５−４からの音声信号を減算する。その結果、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡの駆動音が相殺された（低減された）音声信号が生成される。このようにして生成された音声信号は、コントローラ１０に送出される。すなわち、この場合、ユーザからの発話を含む周囲の音が、単一指向性をもって集音される（脚部ユニット３Ｂと胴体部ユニット２の連結部分の位置する方向から到来する音が、低い感度で集音される）。
【００２７】
なお、無指向性マイク１５−３と無指向性マイク１５−４は、Ｌmmだけ離れて配設されていることより、図３中、太い矢印の方向から到来する、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡの駆動音は、無指向性マイク１５−４に先に到達し、その後、Ｌ／３４０(μsec)だけ遅れて無指向性マイク１５−３に到達する。すなわち、指向性切換部２１−２は、無指向性マイク１５−４により取り込まれた音声信号を、Ｌ／３４０（μsec)だけ遅延させて、無指向性マイク１５−３の音声信号から減算することで、その駆動音の音声信号が低減された音声信号を生成することができる。
【００２８】
また、指向性切換部２１−２は、無指向性マイク１５−３からの音声信号から、無指向性マイク１５−４からの音声信号をそのまま（遅延されていない音声信号）を減算し、その結果得られた音声信号を、コントローラ１０に送出することもできる。すなわち、この場合、ユーザからの発話を含む周囲の音が、両指向性をもって集音される。
【００２９】
さらに、指向性切換部２１−２は、無指向性マイク１５−３からの音声信号のみを、コントローラ１０に送出することもできる（無指向性マイク１５−４からの音声信号は、コントローラ１０に送出されない）。すなわち、この場合、ユーザからの発話を含む周囲の音が、無指向性をもって集音される。
【００３０】
次に、図４を参照して、指向性切換部２１−２の構成について説明する。スイッチ２２は、コントローラ１０により制御され、無指向性マイク１５−４に接続されている端子Ａを、接地されている端子Ｂ、遅延回路２３に接続されている端子Ｃ、または減算器２４に接続されている端子Ｄのいずれか１つと接続させる。
【００３１】
遅延回路２３には、スイッチ２２の端子Ａと端子Ｃが接続されたとき、スイッチ２２を介して無指向性マイク１５−４からの音声信号が供給される。
【００３２】
遅延回路２３は、無指向性マイク１５−３または無指向性マイク１５−４のそれぞれからの、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡの駆動音（図中、太い矢印の方向から発せられる音声）の音声信号同士の位相が一致するように、無指向性マイク１５−４からの音声信号を遅延させ、減算器２４に送出する。
【００３３】
なお、遅延回路２３は、抵抗ＲとコンデンサＣからなる１次ローパスフィルタで構成されている。抵抗ＲとコンデンサＣの値は、例えば、Ｌ＝１０(mm)である場合、必要とされる遅延時間は、２９．４（＝１０／３４０）(μsec)であるので、時定数（＝抵抗Ｒ×コンデンサＣ）が２９．４（μsec）となるように、例えば、抵抗Ｒ＝２９４０Ω、コンデンサＣ＝０．０１μＦとすることができる。すなわち、この場合、遅延回路２３は、カットオフ周波数を、５４１６（＝１／（２×π×２９４０×０．０１）Ｈzとする１次ローバスフィルタで構成される。
【００３４】
減算器２４には、無指向性マイク１５−３からの音声信号が供給される。減算器２４にはまた、端子Ａと端子Ｃが接続されたとき、遅延回路２３からの音声信号が供給され、端子Ａと端子Ｄが接続されたとき、無指向性マイク１５−４からの音声信号が供給される。
【００３５】
すなわち、減算器２４は、端子Ａと端子Ｃが接続されたとき、無指向性マイク１５−３からの音声信号から、遅延回路２３からの音声信号を減算し、その結果得られた音声信号を、コントローラ１０に送出する。
【００３６】
この場合、無指向性マイク１５−３と無指向性マイク１５−４のそれぞれからの、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡの駆動音の音声信号同士の位相は、一致しているので、減算器２４の減算処理により、その駆動音が相殺された（低減された）音声信号が、コントローラ１０に送出される。
【００３７】
また、減算器２４は、端子Ａと端子Ｄが接続されたとき、無指向性マイク１５−３からの音声信号から、無指向性マイク１５−４からの音声信号をそのまま（遅延されていない音声信号）を減算し、その結果得られた信号を、コントローラ１０に送出する。
【００３８】
さらに、減算器２４は、端子Ａと端子Ｂが接続されたとき、無指向性マイク１５−３からの音声信号のみを、そのままコントローラ１０に送出する。
【００３９】
指向性切換部２１−２は、以上のような構成および機能を有する。
【００４０】
図２に戻り、胴体部ユニット２におけるバッテリセンサ１２は、バッテリ１１の残量を検出し、その検出結果を、バッテリ残量検出信号としてコントローラ１０に送出する。熱センサ１３は、ロボット内部の熱を検出し、その検出結果を、熱検出信号としてコントローラ１０に送出する。
【００４１】
コントローラ１０は、ＣＰＵ(Central Processing Unit)１０Ａやメモリ１０Ｂ等を内蔵しており、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された制御プログラムが実行されることにより、各種の処理を行う。
【００４２】
即ち、コントローラ１０は、無指向性マイク１５Ｌ，１５Ｒや、ＣＣＤカメラ１６、タッチセンサ１７、バッテリセンサ１２、熱センサ１３から与えられる音声信号、画像信号、圧力検出信号、バッテリ残量検出信号、熱検出信号に基づいて、周囲の状況や、ユーザからの指令、ユーザからの働きかけなどの有無を判断する。
【００４３】
さらに、コントローラ１０は、この判断結果等に基づいて、続く行動を決定し、その決定結果に基づいて、アクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、５Ａ₁、５Ａ₂のうちの必要なものを駆動させる。これにより、頭部ユニット４を上下左右に振らせたり、下顎部４Ａを開閉させる。さらには、尻尾部ユニット５を動かせたり、各脚部ユニット３Ａ乃至３Ｄを駆動して、ロボットを歩行させるなどの行動を行わせる。
【００４４】
また、コントローラ１０は、必要に応じて、合成音を生成し、スピーカ１８に供給して出力させたり、ロボットの「目」の位置に設けられた図示しないＬＥＤ（Light Emitting Diode）を点灯、消灯または点滅させる。
【００４５】
以上のようにして、ロボットは、周囲の状況等に基づいて自律的に行動をとるようになっている。
【００４６】
図５は、図２のコントローラ１０の機能的構成例を示している。なお、図５に示す機能的構成は、ＣＰＵ１０Ａが、メモリ１０Ｂに記憶された制御プログラムを実行することで実現されるようになっている。
【００４７】
センサ入力処理部５０は、指向性切換部２１や、ＣＣＤカメラ１６、タッチセンサ１７等から与えられる音声信号、画像信号、圧力検出信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ、ユーザからの指示等を認識し、その認識結果を表す状態認識情報を、モデル記憶部５１および行動決定機構部５２に通知する。
【００４８】
即ち、センサ入力処理部５０は、音声認識部５０Ａを有しており、音声認識部５０Ａは、指向性切換部２１から与えられる音声信号について音声認識を行う。そして、音声認識部５０Ａは、その音声認識結果としての、例えば、「歩け」、「伏せ」、「ボールを追いかけろ」等の指令その他を、状態認識情報として、モデル記憶部５１および行動決定機構部５２に通知する。
【００４９】
また、センサ入力処理部５０は、画像認識部５０Ｂを有しており、画像認識部５０Ｂは、ＣＣＤカメラ１６から与えられる画像信号を用いて、画像認識処理を行う。そして、画像認識部５０Ｂは、その処理の結果、例えば、「赤い丸いもの」や、「地面に対して垂直なかつ所定高さ以上の平面」等を検出したときには、「ボールがある」や、「壁がある」等の画像認識結果を、状態認識情報として、モデル記憶部５１および行動決定機構部５２に通知する。
【００５０】
さらに、センサ入力処理部５０は、圧力処理部５０Ｃを有しており、圧力処理部５０Ｃは、タッチセンサ１７から与えられる圧力検出信号を処理する。そして、圧力処理部５０Ｃは、その処理の結果、所定の閾値以上で、かつ短時間の圧力を検出したときには、「たたかれた（しかられた）」と認識し、所定の閾値未満で、かつ長時間の圧力を検出したときには、「なでられた（ほめられた）」と認識して、その認識結果を、状態認識情報として、モデル記憶部５１および行動決定機構部５２に通知する。
【００５１】
モデル記憶部５１は、ロボットの感情、本能、成長の状態を表現する感情モデル、本能モデル、成長モデルをそれぞれ記憶、管理している。
【００５２】
ここで、感情モデルは、例えば、「うれしさ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部５０からの状態認識情報や時間経過等に基づいて、その値を変化させる。本能モデルは、例えば、「食欲」、「睡眠欲」、「運動欲」等の本能による欲求の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部５０からの状態認識情報や時間経過等に基づいて、その値を変化させる。成長モデルは、例えば、「幼年期」、「青年期」、「熟年期」、「老年期」等の成長の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部５０からの状態認識情報や時間経過等に基づいて、その値を変化させる。
【００５３】
モデル記憶部５１は、上述のようにして感情モデル、本能モデル、成長モデルの値で表される感情、本能、成長の状態を、状態情報として、行動決定機構部５２に送出する。
【００５４】
なお、モデル記憶部５１には、センサ入力処理部５０から状態認識情報が供給される他、行動決定機構部５２から、ロボットの現在または過去の行動、具体的には、例えば、「長時間歩いた」などの行動の内容を示す行動情報が供給されるようになっており、同一の状態認識情報が与えられても、行動情報が示すロボットの行動に応じて、異なる状態情報を生成するようになっている。
【００５５】
即ち、例えば、ロボットが、ユーザに挨拶をし、ユーザに頭を撫でられた場合には、ユーザに挨拶をしたという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部５１に与えられ、この場合、モデル記憶部５１では、「うれしさ」を表す感情モデルの値が増加される。
【００５６】
一方、ロボットが、何らかの仕事を実行中に頭を撫でられた場合には、仕事を実行中であるという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部５１に与えられ、この場合、モデル記憶部５１では、「うれしさ」を表す感情モデルの値は変化されない。
【００５７】
このように、モデル記憶部５１は、状態認識情報だけでなく、現在または過去のロボットの行動を示す行動情報も参照しながら、感情モデルの値を設定する。これにより、例えば、何らかのタスクを実行中に、ユーザが、いたずらするつもりで頭を撫でたときに、「うれしさ」を表す感情モデルの値を増加させるような、不自然な感情の変化が生じることを回避することができる。
【００５８】
なお、モデル記憶部５１は、本能モデルおよび成長モデルについても、感情モデルにおける場合と同様に、状態認識情報および行動情報の両方に基づいて、その値を増減させるようになっている。また、モデル記憶部５１は、感情モデル、本能モデル、成長モデルそれぞれの値を、他のモデルの値にも基づいて増減させるようになっている。
【００５９】
行動決定機構部５２は、センサ入力処理部５０からの状態認識情報や、モデル記憶部５１からの状態情報、時間経過等に基づいて、次の行動を決定し、決定された行動の内容を、行動指令情報として、姿勢遷移機構部５３に送出する。
【００６０】
即ち、行動決定機構部５２は、ロボットがとり得る行動をステート（状態）(state)に対応させた有限オートマトンを、ロボットの行動を規定する行動モデルとして管理しており、この行動モデルとしての有限オートマトンにおけるステートを、センサ入力処理部５０からの状態認識情報や、モデル記憶部５１における感情モデル、本能モデル、または成長モデルの値、時間経過等に基づいて遷移させ、遷移後のステートに対応する行動を、次にとるべき行動として決定する。
【００６１】
ここで、行動決定機構部５２は、所定のトリガ(trigger)があったことを検出すると、ステートを遷移させる。即ち、行動決定機構部５２は、例えば、現在のステートに対応する行動を実行している時間が所定時間に達したときや、特定の状態認識情報を受信したとき、モデル記憶部５１から供給される状態情報が示す感情や、本能、成長の状態の値が所定の閾値以下または以上になったとき等に、ステートを遷移させる。
【００６２】
なお、行動決定機構部５２は、上述したように、センサ入力処理部５０からの状態認識情報だけでなく、モデル記憶部５１における感情モデルや、本能モデル、成長モデルの値等にも基づいて、行動モデルにおけるステートを遷移させることから、同一の状態認識情報が入力されても、感情モデルや、本能モデル、成長モデルの値（状態情報）によっては、ステートの遷移先は異なるものとなる。
【００６３】
その結果、行動決定機構部５２は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいていない」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「お手」という行動をとらせる行動指令情報を生成し、これを、姿勢遷移機構部５３に送出する。
【００６４】
また、行動決定機構部５２は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「手のひらをぺろぺろなめる」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部５３に送出する。
【００６５】
また、行動決定機構部５２は、例えば、状態情報が、「怒っている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、状態情報が、「お腹がすいている」ことを表していても、また、「お腹がすいていない」ことを表していても、「ぷいと横を向く」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部５３に送出する。
【００６６】
なお、行動決定機構部５２には、モデル記憶部５１から供給される状態情報が示す感情や、本能、成長の状態に基づいて、遷移先のステートに対応する行動のパラメータとしての、例えば、歩行の速度や、手足を動かす際の動きの大きさおよび速度などを決定させることができ、この場合、それらのパラメータを含む行動指令情報が、姿勢遷移機構部５３に送出される。
【００６７】
また、行動決定機構部５２では、上述したように、ロボットの頭部や手足等を動作させる行動指令情報の他、ロボットに発話を行わせる行動指令情報も生成される。ロボットに発話を行わせる行動指令情報は、音声合成部５５に供給されるようになっており、音声合成部５５に供給される行動指令情報には、音声合成部５５に生成させる合成音に対応するテキスト等が含まれる。そして、音声合成部５５は、行動決定機構部５２から行動指令情報を受信すると、その行動指令情報に含まれるテキストに基づき、合成音を生成し、出力制御部５６を介して、スピーカ１８に供給して出力させる。これにより、スピーカ１８からは、例えば、ロボットの鳴き声、さらには、「お腹がすいた」等のユーザへの各種の要求、「何？」等のユーザの呼びかけに対する応答その他の音声出力が行われる。
【００６８】
姿勢遷移機構部５３は、行動決定機構部５２から供給される行動指令情報に基づいて、ロボットの姿勢を、現在の姿勢から次の姿勢に遷移させるための姿勢遷移情報を生成し、これを制御機構部５４に送出する。
【００６９】
ここで、現在の姿勢から次に遷移可能な姿勢は、例えば、胴体や手や足の形状、重さ、各部の結合状態のようなロボットの物理的形状と、関節が曲がる方向や角度のようなアクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂の機構とによって決定される。
【００７０】
また、次の姿勢としては、現在の姿勢から直接遷移可能な姿勢と、直接には遷移できない姿勢とがある。例えば、４本足のロボットは、手足を大きく投げ出して寝転んでいる状態から、伏せた状態へ直接遷移することはできるが、立った状態へ直接遷移することはできず、一旦、手足を胴体近くに引き寄せて伏せた姿勢になり、それから立ち上がるという２段階の動作が必要である。また、安全に実行できない姿勢も存在する。例えば、４本足のロボットは、その４本足で立っている姿勢から、両前足を挙げてバンザイをしようとすると、簡単に転倒してしまう。
【００７１】
このため、姿勢遷移機構部５３は、直接遷移可能な姿勢をあらかじめ登録しておき、行動決定機構部５２から供給される行動指令情報が、直接遷移可能な姿勢を示す場合には、その行動指令情報を、そのまま姿勢遷移情報として、制御機構部５４に送出する。一方、行動指令情報が、直接遷移不可能な姿勢を示す場合には、姿勢遷移機構部５３は、遷移可能な他の姿勢に一旦遷移した後に、目的の姿勢まで遷移させるような姿勢遷移情報を生成し、制御機構部５４に送出する。これによりロボットが、遷移不可能な姿勢を無理に実行しようとする事態や、転倒するような事態を回避することができるようになっている。
【００７２】
制御機構部５４は、姿勢遷移機構部５３からの姿勢遷移情報にしたがって、アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動するための制御信号を生成し、これを、アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂に送出する。これにより、アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂は、制御信号にしたがって駆動し、ロボットは、自律的に行動を起こす。
【００７３】
出力制御部５６には、音声合成部５５からの合成音のディジタルデータが供給されるようになっており、それらのディジタルデータを、アナログの音声信号にＤ／Ａ変換し、スピーカ１８に供給して出力させる。
【００７４】
指向性制御部５７は、行動決定機構部５２において生成される行動指令情報に基づいて、指向性切換部２１を制御する。その動作については、後述する。
【００７５】
次に、図６は、図５の音声認識部５０Ａの構成例を示している。
【００７６】
無指向性マイク１５からの音声信号は、ＡＤ(Analog Digital)変換部２１に供給される。ＡＤ変換部２１では、無指向性マイク１５からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データにＡ／Ｄ変換される。この音声データは、特徴抽出部２２および音声区間検出部２７に供給される。
【００７７】
特徴抽出部２２は、そこに入力される音声データについて、適当なフレームごとに、例えば、ＭＦＣＣ(Mel Frequency Cepstrum Coefficient)分析を行い、その分析結果を、特徴パラメータ（特徴ベクトル）として、マッチング部２３に出力する。なお、特徴抽出部２２では、その他、例えば、線形予測係数、ケプストラム係数、線スペクトル対、所定の周波数帯域ごとのパワー（フィルタバンクの出力）等を、特徴パラメータとして抽出することが可能である。
【００７８】
マッチング部２３は、特徴抽出部２２からの特徴パラメータを用いて、音響モデル記憶部２４、辞書記憶部２５、および文法記憶部２６を必要に応じて参照しながら、無指向性マイク１５に入力された音声（入力音声）を、例えば、連続分布ＨＭＭ(Hidden Markov Model)法に基づいて音声認識する。
【００７９】
即ち、音響モデル記憶部２４は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布ＨＭＭ法に基づいて音声認識を行うので、音響モデルとしては、ＨＭＭ(Hidden Markov Model)が用いられる。辞書記憶部２５は、認識対象の各単語について、その発音に関する情報（音韻情報）が記述された単語辞書を記憶している。文法記憶部２６は、辞書記憶部２５の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則を記憶している。ここで、文法規則としては、例えば、文脈自由文法（ＣＦＧ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則を用いることができる。
【００８０】
マッチング部２３は、辞書記憶部２５の単語辞書を参照することにより、音響モデル記憶部２４に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部２３は、幾つかの単語モデルを、文法記憶部２６に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴パラメータに基づき、連続分布ＨＭＭ法によって、無指向性マイク１５に入力された音声を認識する。即ち、マッチング部２３は、特徴抽出部２２が出力する時系列の特徴パラメータが観測されるスコア（尤度）が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列の音韻情報（読み）を、音声の認識結果として出力する。
【００８１】
より具体的には、マッチング部２３は、接続された単語モデルに対応する単語列について、各特徴パラメータの出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列の音韻情報を、音声認識結果として出力する。
【００８２】
以上のようにして出力される、無指向性マイク１５に入力された音声の認識結果は、状態認識情報として、モデル記憶部５１および行動決定機構部５２に出力される。
【００８３】
なお、音声区間検出部２７は、ＡＤ変換部２１からの音声データについて、特徴抽出部２２がＭＦＣＣ分析を行うのと同様のフレームごとに、例えば、パワーを算出している。さらに、音声区間検出部２７は、各フレームのパワーを、所定の閾値と比較し、その閾値以上のパワーを有するフレームで構成される区間を、ユーザの音声が入力されている音声区間として検出する。そして、音声区間検出部２７は、検出した音声区間を、特徴抽出部２２とマッチング部２３に供給しており、特徴抽出部２２とマッチング部２３は、音声区間のみを対象に処理を行う。
【００８４】
次に、図７は、図５の音声合成部５５の構成例を示している。
【００８５】
テキスト生成部３１には、行動決定機構部５２が出力する、音声合成の対象とするテキストを含む行動指令情報が供給されるようになっており、テキスト生成部３１は、辞書記憶部３４や生成用文法記憶部３５を参照しながら、その行動指令情報に含まれるテキストを解析する。
【００８６】
即ち、辞書記憶部３４には、各単語の品詞情報や、読み、アクセント等の情報が記述された単語辞書が記憶されており、また、生成用文法記憶部３５には、辞書記憶部３４の単語辞書に記述された単語について、単語連鎖に関する制約等の生成用文法規則が記憶されている。そして、テキスト生成部３１は、この単語辞書および生成用文法規則に基づいて、そこに入力されるテキストの形態素解析や構文解析等の解析を行い、後段の規則合成部３２で行われる規則音声合成に必要な情報を抽出する。ここで、規則音声合成に必要な情報としては、例えば、ポーズの位置や、アクセントおよびイントネーションを制御するための情報その他の韻律情報や、各単語の発音等の音韻情報などがある。
【００８７】
テキスト生成部３１で得られた情報は、規則合成部３２に供給され、規則合成部３２では、音素片記憶部３６を参照しながら、テキスト生成部３１に入力されたテキストに対応する合成音の音声データ（ディジタルデータ）が生成される。
【００８８】
即ち、音素片記憶部３６には、例えば、ＣＶ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ等の形で音素片データが記憶されており、規則合成部３２は、テキスト生成部３１からの情報に基づいて、必要な音素片データを接続し、さらに、音素片データの波形を加工することによって、ポーズ、アクセント、イントネーション等を適切に付加し、これにより、テキスト生成部３１に入力されたテキストに対応する合成音の音声データを生成する。
【００８９】
以上のようにして生成された音声データは、出力制御部５６（図３）を介して、スピーカ１８に供給され、これにより、スピーカ１８からは、テキスト生成部３１に入力されたテキストに対応する合成音が出力される。
【００９０】
なお、図５の行動決定機構部５２では、上述したように、行動モデルに基づいて、次の行動が決定されるが、合成音として出力するテキストの内容は、ロボットの行動と対応付けておくことが可能である。
【００９１】
即ち、例えば、ロボットが、座った状態から、立った状態になる行動には、テキスト「よっこいしょ」などを対応付けておくことが可能である。この場合、ロボットが、座っている姿勢から、立つ姿勢に移行するときに、その姿勢の移行に同期して、合成音「よっこいしょ」を出力することが可能となる。
【００９２】
次に、指向性制御部５７の動作について、指向性切換部２１−２を制御する場合を例として説明する。その処理手順は、図８のフローチャートに示されている。ステップＳ１において、指向性制御部５７は、行動決定機構部５２と通信し、脚部ユニット３Ｂが駆動するような行動指令情報が生成されたか否かを判定し、そのような行動指令情報が生成されたと判定された場合、ステップＳ２に進む。
【００９３】
ステップＳ２において、指向性制御部５７は、指向性切換部２１−２のスイッチ２２（図４）を制御して、端子Ａと端子Ｃを接続させる。これにより、無指向性マイク１５−４からの音声信号は、遅延回路２３に供給される。遅延回路２３は、無指向性マイク１５−４からの音声信号を、Ｌ／３４０(μsec)だけ遅延させ、減算器２４に送出する。減算器２４は、無指向性マイク１５−３からの音声信号から、遅延回路２３からの音声信号を減算し、その結果得られた音声信号を、コントローラ１０に送出する。すなわち、この場合、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡの駆動音が低減された音声信号が生成される（単一指向性をもって音声が集音される）。
【００９４】
ステップＳ１で、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡが駆動するような行動指令情報が生成されていないと判定された場合、ステップＳ３に進み、指向性制御部５７は、指向性切換部２１−２のスイッチ２２を制御して、端子Ａを、端子Ｂまたは端子Ｄと接続させる。
【００９５】
端子Ａと端子Ｄが接続されたとき、減算器２４は、無指向性マイク１５−３からの音声信号から、無指向性マイク１５−４からの音声信号をそのまま（遅延されていない音声信号）を減算し、その結果得られた信号を、コントローラ１０に送出する。すなわち、この場合、両指向性をもって、音声が集音されたことになる。
【００９６】
また、端子Ａと端子Ｂが接続されたとき、減算器２４は、無指向性マイク１５−３からの音声信号のみを、そのままコントローラ１０に送出する。すなわち、この場合、無指向性をもって、音声が集音されたことになる。
【００９７】
ここでの処理で、端子Ａを、端子Ｂまたは端子Ｄのいずれに接続するかは、所定の条件により決定される。
【００９８】
その後、ステップＳ１に戻り、それ以降の処理を実行する。
【００９９】
以上のように、ロボットが行動し、例えば、アクチュエータの駆動音が発生するときにおいては、単一指向性で音を集音するようにすることより、音声認識される音声を無指向性マイクで取り込むようにしても、音声認識を適切に行うことができる。
【０１００】
なお、以上においては、１個の無指向性マイク（例えば、無指向性マイク１５−４）（以下、第１の無指向性マイクと称する）により取り込まれた音声の音声信号を、所定の時間だけ遅延し、１個の無指向性マイク（例えば、無指向性マイク１５−３）（以下、第２の無指向性マイクと称する）により取り込まれた音声の、そのままの音声信号から減算する場合を例として説明したが、第１の無指向性マイクと第２の無指向性マイクを、それぞれ複数（Ｎ個ずつ）設けることもできる。
【０１０１】
また、Ｎ個の第１の無指向性マイクとＮ個の第２の無指向性マイクにより、１個の第１の無指向性マイクと１個の第２の無指向性マイクからなる、音声認識を妨害する音声を発生する、ロボットの行動の種類にそれぞれ対応するＮ個の組を形成し、ロボットの行動の種類に応じた組の第１の無指向性マイクと第２の無指向性マイクにより取り込まれた音声の音声信号を利用して、音声認識される音声信号を生成するようにすることもできる。
【０１０２】
以上においては、遅延回路２３を利用して、一方の無指向性マイク（第１の無指向性マイク）からの音声信号を、アナログ的に遅延するようにしたが、センサ入力処理部５０の音声認識部５０Ａが、第１の無指向性マイクにより取り込まれた音声の音声信号をデジタル的に遅延させることもできる。
【０１０３】
この場合におけるロボットの電気的構成例を、図９に示す。なお、図中、図２における場合と対応する部分については、同一の符号を付してある。すなわち、指向性切換部２１が取り除かれている。
【０１０４】
図１０は、この場合の、コントローラ１０の機能的構成例を示している。なお、図中、図５における場合と対応する部分については、同一の符号を付してある。すなわち、指向性制御部５７が取り除かれている。
【０１０５】
センサ入力処理部５０の音声認識部５０Ａ（ＡＤ変換部２１）は、所定のサンプリング周期で、音声信号をサンプリング、量子化する。すなわち、例えば、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡの駆動音が、無指向性マイク１５−４に到達した後、サンプリング周期Ｔ（μsec）だけ遅れて無指向性マイク１５−３に到達するように、無指向性マイク１５−３および無指向性マイク１５−４を、Ｍ（＝Ｔ／３４０）(mm)だけ離して取り付け、音声認識部５０Ａが、無指向性マイク１５−４からの音声信号と、無指向性マイク１５−３からの音声信号を交互にサンプリングすることで、無指向性マイク１５−４からの音声信号を、時間Ｔだけ遅延させることができる。音声認識部５０Ａは、このように、時間Ｔだけ遅延させた無指向性マイク１５−４からの音声信号を、無指向性マイク１５−３からの音声信号を減算することで、図２または図５の場合と同様に、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡの駆動音が低減された音声信号を、生成することができる。
【０１０６】
行動決定機構部５２は、例えば、脚部ユニット３Ｂが駆動する行動指令情報を生成するとき、音声認識部５０Ａを制御して、上述したような処理を実行させ、脚部ユニット３Ｂと胴体部ユニット２の連結部分に配設されたアクチュエータ３ＢＡの駆動音が低減された音声信号を生成させる。
【０１０７】
以上、本発明を、エンターテイメント用のロボット（疑似ペットとしてのロボット）に適用した場合について説明したが、本発明は、これに限らず、例えば、産業用のロボット等の各種のロボットに広く適用することが可能である。また、本発明は、現実世界のロボットだけでなく、例えば、液晶ディスプレイ等の表示装置に表示される仮想的なロボットにも適用可能である。
【０１０８】
さらに、本実施の形態においては、上述した一連の処理を、ＣＰＵ１０Ａにプログラムを実行させることにより行うようにしたが、一連の処理は、それ専用のハードウェアによって行うことも可能である。
【０１０９】
なお、プログラムは、あらかじめメモリ１０Ｂ（図２）に記憶させておく他、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。そして、このようなリムーバブル記録媒体を、いわゆるパッケージソフトウエアとして提供し、ロボット（メモリ１０Ｂ）にインストールするようにすることができる。
【０１１０】
また、プログラムは、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、有線で転送し、メモリ１０Ｂにインストールすることができる。
【０１１１】
この場合、プログラムがバージョンアップされたとき等に、そのバージョンアップされたプログラムを、メモリ１０Ｂに、容易にインストールすることができる。
【０１１２】
ここで、本明細書において、ＣＰＵ１０Ａに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。
【０１１３】
また、プログラムは、１のＣＰＵにより処理されるものであっても良いし、複数のＣＰＵによって分散処理されるものであっても良い。
【０１１４】
【発明の効果】
本発明のロボット制御装置および方法、並びに記録媒体のプログラムによれば、ロボットが、音声認識を妨害する音声を発生する行動を起こすか否かが判定し、ロボットが、音声認識を妨害する音声を発生する行動を起こすと判定されたとき、第１の無指向性マイクにより取り込まれた音声の音声信号を、所定の時間だけ遅延し、ロボットが、音声認識を妨害する音声を発生する行動を起こすと判定されたとき、第２の無指向性マイクにより取り込まれた音声の音声信号と、遅延された、第１の無指向性マイクにより取り込まれた音声の音声信号との差分信号を生成し、生成された差分信号に対して音声認識処理を実行するようにしたので、音声認識を適切に行うことができる。
【図面の簡単な説明】
【図１】本発明を適用したロボットの一実施の形態の外観構成例を示す斜視図である。
【図２】ロボットの内部構成例を示すブロック図である。
【図３】無指向性マイク１５−３，１５−４の配置位置を説明する図である。
【図４】指向性切換部２１−２の構成例を示すブロック図である。
【図５】コントローラ１０の機能的構成例を示すブロック図である。
【図６】音声認識部５０Ａの構成例を示すブロック図である。
【図７】音声合成部５５の構成例を示すブロック図である。
【図８】指向性制御部５７の動作を説明する図である。
【図９】ロボットの他の内部構成例を示すブロック図である。
【図１０】コントローラ１０の他の機能的構成例を示すブロック図である。
【符号の説明】
１頭部ユニット，４Ａ下顎部，１０コントローラ，１０ＡＣＰＵ，１０Ｂメモリ，１５無指向性マイク，１６ＣＣＤカメラ，１７タッチセンサ，１８スピーカ，２１ＡＤ変換部，２２特徴抽出部，２３マッチング部，２４音響モデル記憶部，２５辞書記憶部，２６文法記憶部，２７音声区間検出部，３１テキスト生成部，３２規則合成部，３４辞書記憶部，３５生成用文法記憶部，３６音素片記憶部，４１ＡＤ変換部，４２韻律分析部，４３音生成部，４４出力部，４５メモリ，４６音声区間検出部，５０センサ入力処理部，５０Ａ音声認識部，５０Ｂ画像認識部，５０Ｃ圧力処理部，５１モデル記憶部，５２行動決定機構部，５３姿勢遷移機構部，５４制御機構部，５５音声合成部，５６出力制御部，５７指向性制御部

Claims

音声認識を妨害する音声が、第１の無指向性マイクに到達した後、所定の時間だけ遅れて第２の無指向性マイクに到達するように取り付けられた前記第１および第２の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置において、
前記第１の無指向性マイクを用いて取り込まれた音声を表す第１の音声信号を取得する第１の取得手段と、
前記第２の無指向性マイクを用いて取り込まれた音声を表す第２の音声信号を取得する第２の取得手段と、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生するか否かを判定する判定手段と、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、前記第１の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第１の音声信号と前記第２の音声信号との差分信号を、前記音声認識に用いる音声認識用信号として生成し、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、前記第１の音声信号と前記第２の音声信号との差分信号、又は前記第２の音声信号の一方を前記音声認識用信号として生成する
生成手段と、
前記音声認識用信号に対して音声認識処理を実行する実行手段と
を備え、
Ｎ個の前記第１の無指向性マイクとＮ個の前記第２の無指向性マイクにより、１個の前記第１の無指向性マイクと１個の前記第２の無指向性マイクからなるＮ個の組であって、且つ、前記音声認識を妨害する音声を発生する前記ロボットの行動の種類にそれぞれ対応する前記Ｎ個の組が形成されている場合において、
前記判定手段は、前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定した場合、前記ロボットの行動の種類を検出し、
前記生成手段は、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、検出された前記種類に対応する組の前記第１の無指向性マイクを用いて取り込まれた前記第１の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第１の音声信号と、検出された前記種類に対応する前記組の前記第２の無指向性マイクを用いて取り込まれた前記第２の音声信号との差分信号を、前記音声認識用信号として生成し、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、検出された前記種類に対応する前記組の前記第１の無指向性マイクを用いて取り込まれた前記第１の音声信号と、検出された前記種類に対応する前記組の前記第２の無指向性マイクを用いて取り込まれた前記第２の音声信号との差分信号、又は検出された前記種類に対応する前記組の前記第２の無指向性マイクを用いて取り込まれた前記第２の音声信号の一方を前記音声認識用信号として生成する
ロボット制御装置。
音声認識を妨害する音声が、第１の無指向性マイクに到達した後、所定の時間だけ遅れて第２の無指向性マイクに到達するように取り付けられた前記第１および第２の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置のロボット制御方法において、
前記第１の無指向性マイクを用いて取り込まれた音声を表す第１の音声信号を取得する第１の取得ステップと、
前記第２の無指向性マイクを用いて取り込まれた音声を表す第２の音声信号を取得する第２の取得ステップと、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生するか否かを判定する判定ステップと、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、前記第１の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第１の音声信号と前記第２の音声信号との差分信号を、前記音声認識に用いる音声認識用信号として生成し、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、前記第１の音声信号と前記第２の音声信号との差分信号、又は前記第２の音声信号の一方を前記音声認識用信号として生成する
生成ステップと、
前記音声認識用信号に対して音声認識処理を実行する実行ステップと
を含み、
Ｎ個の前記第１の無指向性マイクとＮ個の前記第２の無指向性マイクにより、１個の前記第１の無指向性マイクと１個の前記第２の無指向性マイクからなるＮ個の組であって、且つ、前記音声認識を妨害する音声を発生する前記ロボットの行動の種類にそれぞれ対応する前記Ｎ個の組が形成されている場合において、
前記判定ステップは、前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定した場合、前記ロボットの行動の種類を検出し、
前記生成ステップは、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、検出された前記種類に対応する組の前記第１の無指向性マイクを用いて取り込まれた前記第１の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第１の音声信号と、検出された前記種類に対応する前記組の前記第２の無指向性マイクを用いて取り込まれた前記第２の音声信号との差分信号を、前記音声認識用信号として生成し、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、検出された前記種類に対応する前記組の前記第１の無指向性マイクを用いて取り込まれた前記第１の音声信号と、検出された前記種類に対応する前記組の前記第２の無指向性マイクを用いて取り込まれた前記第２の音声信号との差分信号、又は検出された前記種類に対応する前記組の前記第２の無指向性マイクを用いて取り込まれた前記第２の音声信号の一方を前記音声認識用信号として生成する
ロボット制御方法。
音声認識を妨害する音声が、第１の無指向性マイクに到達した後、所定の時間だけ遅れて第２の無指向性マイクに到達するように取り付けられた前記第１および第２の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置のコンピュータに、
前記第１の無指向性マイクを用いて取り込まれた音声を表す第１の音声信号を取得する第１の取得ステップと、
前記第２の無指向性マイクを用いて取り込まれた音声を表す第２の音声信号を取得する第２の取得ステップと、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生するか否かを判定する判定ステップと、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、前記第１の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第１の音声信号と前記第２の音声信号との差分信号を、前記音声認識に用いる音声認識用信号として生成し、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、前記第１の音声信号と前記第２の音声信号との差分信号、又は前記第２の音声信号の一方を前記音声認識用信号として生成する
生成ステップと、
前記音声認識用信号に対して音声認識処理を実行する実行ステップと
を含み、
Ｎ個の前記第１の無指向性マイクとＮ個の前記第２の無指向性マイクにより、１個の前記第１の無指向性マイクと１個の前記第２の無指向性マイクからなるＮ個の組であって、且つ、前記音声認識を妨害する音声を発生する前記ロボットの行動の種類にそれぞれ対応する前記Ｎ個の組が形成されている場合において、
前記判定ステップは、前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定した場合、前記ロボットの行動の種類を検出し、
前記生成ステップは、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、検出された前記種類に対応する組の前記第１の無指向性マイクを用いて取り込まれた前記第１の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第１の音声信号と、検出された前記種類に対応する前記組の前記第２の無指向性マイクを用いて取り込まれた前記第２の音声信号との差分信号を、前記音声認識用信号として生成し、
前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、検出された前記種類に対応する前記組の前記第１の無指向性マイクを用いて取り込まれた前記第１の音声信号と、検出された前記種類に対応する前記組の前記第２の無指向性マイクを用いて取り込まれた前記第２の音声信号との差分信号、又は検出された前記種類に対応する前記組の前記第２の無指向性マイクを用いて取り込まれた前記第２の音声信号の一方を前記音声認識用信号として生成する
処理を実行させるためのプログラムが記録されているコンピュータ読み取り可能な記録媒体。