JP4742415B2 - ロボット制御装置およびロボット制御方法、並びに記録媒体 - Google Patents

ロボット制御装置およびロボット制御方法、並びに記録媒体 Download PDF

Info

Publication number
JP4742415B2
JP4742415B2 JP2000310989A JP2000310989A JP4742415B2 JP 4742415 B2 JP4742415 B2 JP 4742415B2 JP 2000310989 A JP2000310989 A JP 2000310989A JP 2000310989 A JP2000310989 A JP 2000310989A JP 4742415 B2 JP4742415 B2 JP 4742415B2
Authority
JP
Japan
Prior art keywords
voice
signal
robot
omnidirectional microphone
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000310989A
Other languages
English (en)
Other versions
JP2002116790A (ja
Inventor
和夫 石井
智裕 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000310989A priority Critical patent/JP4742415B2/ja
Publication of JP2002116790A publication Critical patent/JP2002116790A/ja
Application granted granted Critical
Publication of JP4742415B2 publication Critical patent/JP4742415B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Toys (AREA)
  • Manipulator (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ロボット制御装置およびロボット制御方法、並びに記録媒体に関し、特に、例えば、音声認識装置による音声認識結果に基づいて行動するロボットに用いて好適なロボット制御装置およびロボット制御方法、並びに記録媒体に関する。
【0002】
【従来の技術】
近年においては、例えば、玩具等として、ユーザが発した音声を音声認識し、その音声認識結果に基づいて、ある仕草をしたり、合成音を出力する等の行動を行うロボット(本明細書においては、ぬいぐるみ状のものを含む)が製品化されている。
【0003】
【発明が解決しようとする課題】
ところで、音声認識するための音声を取り込むために、ロボットには、マイクロフォンが取り付けられている。
【0004】
マイクロフォンには、所定の方向から到来する音声(音波)を、特に感度良く集音することができる指向性マイクロフォン(マイク)と、音声が到来する方向に関係なく、一定の感度で音声を集音する無指向性マイクがあるが、指向性マイクは、振動を音として取り込み易いことから、ロボットに取り付ける場合、振動しないように取り付ける必要がある。すなわち、取り付けに手間がかる。
【0005】
そこで、指向性マイクに比べ、取り付けが簡単な無指向性マイクを利用することが考えられるが、この場合、全方向からの音声が同じ感度で集音されるので、音声認識すべき音声以外の音(音声認識を妨害するような音)も集音してしまい、音声認識の精度が悪くなることがあった。例えば、ロボットが行動するときに発せられる、ロボットに組み込まれたアクチュエータの駆動音が取り込まれてしまい、音声認識を正確に行うことができない場合があった。
【0006】
本発明は、このような状況に鑑みてなされたものであり、無指向性マイクを利用しても、音声認識を正確に行うことができるようにするものである。
【0007】
【課題を解決するための手段】
本発明のロボット制御装置は、音声認識を妨害する音声が、第1の無指向性マイクに到達した後、所定の時間だけ遅れて第2の無指向性マイクに到達するように取り付けられた第1および第2の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置であって、第1の無指向性マイクを用いて取り込まれた音声を表す第1の音声信号を取得する第1の取得手段と、第2の無指向性マイクを用いて取り込まれた音声を表す第2の音声信号を取得する第2の取得手段と、ロボットの行動に応じて音声認識を妨害する音声が発生するか否かを判定する判定手段と、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、第1の音声信号を、所定の時間だけ遅延させ、遅延後の第1の音声信号と第2の音声信号との差分信号を、音声認識に用いる音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、第1の音声信号と第2の音声信号との差分信号、又は第2の音声信号の一方を音声認識用信号として生成する生成手段と、音声認識用信号に対して音声認識処理を実行する実行手段とを備え、N個の第1の無指向性マイクとN個の第2の無指向性マイクにより、1個の第1の無指向性マイクと1個の第2の無指向性マイクからなるN個の組であって、且つ、音声認識を妨害する音声を発生するロボットの行動の種類にそれぞれ対応するN個の組が形成されている場合において、判定手段は、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定した場合、ロボットの行動の種類を検出し、生成手段は、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、検出された種類に対応する組の第1の無指向性マイクを用いて取り込まれた第1の音声信号を、所定の時間だけ遅延させ、遅延後の第1の音声信号と、検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号との差分信号を、音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、検出された種類に対応する組の第1の無指向性マイクを用いて取り込まれた第1の音声信号と、検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号との差分信号、又は検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号の一方を音声認識用信号として生成する。
【0008】
第1の無指向性マイクと第2の無指向性マイクが、それぞれN個ずつ設けることができる。
【0010】
本発明のロボット制御方法は、音声認識を妨害する音声が、第1の無指向性マイクに到達した後、所定の時間だけ遅れて第2の無指向性マイクに到達するように取り付けられた第1および第2の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置のロボット制御方法において、第1の無指向性マイクを用いて取り込まれた音声を表す第1の音声信号を取得する第1の取得ステップと、第2の無指向性マイクを用いて取り込まれた音声を表す第2の音声信号を取得する第2の取得ステップと、ロボットの行動に応じて音声認識を妨害する音声が発生するか否かを判定する判定ステップと、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、第1の音声信号を、所定の時間だけ遅延させ、遅延後の第1の音声信号と第2の音声信号との差分信号を、音声認識に用いる音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、第1の音声信号と第2の音声信号との差分信号、又は第2の音声信号の一方を音声認識用信号として生成する生成ステップと、音声認識用信号に対して音声認識処理を実行する実行ステップとを含み、N個の第1の無指向性マイクとN個の第2の無指向性マイクにより、1個の第1の無指向性マイクと1個の第2の無指向性マイクからなるN個の組であって、且つ、音声認識を妨害する音声を発生するロボットの行動の種類にそれぞれ対応するN個の組が形成されている場合において、判定ステップは、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定した場合、ロボットの行動の種類を検出し、生成ステップは、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、検出された種類に対応する組の第1の無指向性マイクを用いて取り込まれた第1の音声信号を、所定の時間だけ遅延させ、遅延後の第1の音声信号と、検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号との差分信号を、音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、検出された種類に対応する組の第1の無指向性マイクを用いて取り込まれた第1の音声信号と、検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号との差分信号、又は検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号の一方を音声認識用信号として生成する。
【0011】
本発明の記録媒体のプログラムは、音声認識を妨害する音声が、第1の無指向性マイクに到達した後、所定の時間だけ遅れて第2の無指向性マイクに到達するように取り付けられた第1および第2の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置のコンピュータに、第1の無指向性マイクを用いて取り込まれた音声を表す第1の音声信号を取得する第1の取得ステップと、第2の無指向性マイクを用いて取り込まれた音声を表す第2の音声信号を取得する第2の取得ステップと、ロボットの行動に応じて音声認識を妨害する音声が発生するか否かを判定する判定ステップと、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、第1の音声信号を、所定の時間だけ遅延させ、遅延後の第1の音声信号と第2の音声信号との差分信号を、音声認識に用いる音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、第1の音声信号と第2の音声信号との差分信号、又は第2の音声信号の一方を音声認識用信号として生成する生成ステップと、音声認識用信号に対して音声認識処理を実行する実行ステップとを含み、N個の第1の無指向性マイクとN個の第2の無指向性マイクにより、1個の第1の無指向性マイクと1個の第2の無指向性マイクからなるN個の組であって、且つ、音声認識を妨害する音声を発生するロボットの行動の種類にそれぞれ対応するN個の組が形成されている場合において、判定ステップは、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定した場合、ロボットの行動の種類を検出し、生成ステップは、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、検出された種類に対応する組の第1の無指向性マイクを用いて取り込まれた第1の音声信号を、所定の時間だけ遅延させ、遅延後の第1の音声信号と、検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号との差分信号を、音声認識用信号として生成し、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、検出された種類に対応する組の第1の無指向性マイクを用いて取り込まれた第1の音声信号と、検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号との差分信号、又は検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号の一方を音声認識用信号として生成する処理を実行させる。
【0012】
本発明のロボット制御装置および方法、並びに記録媒体のプログラムにおいては、第1の無指向性マイクを用いて取り込まれた音声を表す第1の音声信号が取得され、第2の無指向性マイクを用いて取り込まれた音声を表す第2の音声信号が取得され、ロボットの行動に応じて音声認識を妨害する音声が発生するか否かが判定され、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、第1の音声信号が、所定の時間だけ遅延させられ、遅延後の第1の音声信号と第2の音声信号との差分信号が、音声認識に用いる音声認識用信号として生成され、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、第1の音声信号と第2の音声信号との差分信号、又は第2の音声信号の一方が音声認識用信号として生成され、生成された音声認識用信号に対して音声認識処理が実行される。また、N個の第1の無指向性マイクとN個の第2の無指向性マイクにより、1個の第1の無指向性マイクと1個の第2の無指向性マイクからなるN個の組であって、且つ、音声認識を妨害する音声を発生するロボットの行動の種類にそれぞれ対応するN個の組が形成されている場合において、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、ロボットの行動の種類が検出され、ロボットの行動に応じて音声認識を妨害する音声が発生すると判定された場合、検出された種類に対応する組の第1の無指向性マイクを用いて取り込まれた第1の音声信号を、所定の時間だけ遅延させ、遅延後の第1の音声信号と、検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号との差分信号が、音声認識用信号として生成され、ロボットの行動に応じて音声認識を妨害する音声が発生しないと判定された場合、検出された種類に対応する組の第1の無指向性マイクを用いて取り込まれた第1の音声信号と、検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号との差分信号、又は検出された種類に対応する組の第2の無指向性マイクを用いて取り込まれた第2の音声信号の一方が音声認識用信号として生成される。
【0013】
【発明の実施の形態】
図1は、本発明を適用したロボットの一実施の形態の外観構成例を示しており、図2は、その電気的構成例を示している。
【0014】
本実施の形態では、ロボットは、例えば、犬等の四つ足の動物の形状のものとなっており、胴体部ユニット2の前後左右に、それぞれ脚部ユニット3A,3B,3C,3Dが連結されるとともに、胴体部ユニット2の前端部と後端部に、それぞれ頭部ユニット4と尻尾部ユニット5が連結されることにより構成されている。
【0015】
尻尾部ユニット5は、胴体部ユニット2の上面に設けられたベース部5Bから、2自由度をもって湾曲または揺動自在に引き出されている。
【0016】
胴体部ユニット2には、ロボット全体の制御を行うコントローラ10、ロボットの動力源となるバッテリ11、並びにバッテリセンサ12および熱センサ13からなる内部センサ部14などが収納されている。
【0017】
頭部ユニット4には、その左側に、「左の耳」に相当する、2個の無指向性マイク15−1,15−2と、その右側に、「右の耳」に相当する、2個の無指向性マイク15−3,15−4がそれぞれ配設されている。なお、以下において、左側に配設された無指向性マイク15−1,15−2または右側に配設された無指向性マイク15−3,15−4のそれぞれを、個々に区別する必要がない場合、単に、無指向性マイク15Lおよび無指向性マイク15Rと称する。また無指向性マイク15Lと無指向性マイク15Rのそれぞれを、個々に区別する必要がない場合、単に、無指向性マイク15と称する。他の部分についても同様である。
【0018】
例えば、右側に配置された無指向性マイク15−3,15−4は、図3に示すように、頭部ユニット4が垂直方向に対して30°前方に傾いている場合において、両者を結ぶ直線が、垂直方向に対して45°だけ傾くように、無指向性マイク15−3が斜め上方に、そして無指向性マイク15−4が斜め下方に、L(mm)だけ離れて取り付けられている。
【0019】
なお、図3の状態における無指向性マイク15−3,15−4を結ぶ直線の、下方延長上には、脚部ユニット3Bと胴体部ユニット2の連結部分(図1中、点線で囲まれている部分)が位置する。また、この例の場合、ロボットが歩行する場合、頭部ユニット4は、図3の状態に保持される。すなわち、ロボットが歩行する場合において発生する、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されているアクチュエータ3BA(図2)の駆動音は、図3中、太い矢印の方から、無指向性マイク15−4,15−3に到来する。
【0020】
頭部ユニット4の左側に配置された無指向性マイク15−1,15−2も、無指向性マイク15−3,15−4と同様に取り付けられている。
【0021】
頭部ユニット4にはまた、「目」に相当するCCD(Charge Coupled Device)カメラ16、「触覚」に相当するタッチセンサ17、「口」に相当するスピーカ18などが、それぞれ所定位置に配設されている。頭部ユニット4にはさらに、口の下顎に相当する下顎部4Aが1自由度をもって可動に取り付けられており、この下顎部4Aが動くことにより、ロボットの口の開閉動作が実現されるようになっている。
【0022】
脚部ユニット3A乃至3Dそれぞれの関節部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユニット2の連結部分、頭部ユニット4と胴体部ユニット2の連結部分、頭部ユニット4と下顎部4Aの連結部分、並びに尻尾部ユニット5と胴体部ユニット2の連結部分などには、図2に示すように、それぞれアクチュエータ3AA1乃至3AAK、3BA1乃至3BAK、3CA1乃至3CAK、3DA1乃至3DAK、4A1乃至4AL、5A1および5A2が配設されている。
【0023】
頭部ユニット4における無指向性マイク15−1,15−2のそれぞれは、ユーザからの発話を含む周囲の音声(特に、ロボットの左側から到来する音)を、方向によって感度が異なることなく集音し、得られた音声信号を、指向性切換部21−1に送出する。無指向性マイク15−3,15−4のそれぞれは、ユーザからの発話を含む周囲の音(特に、ロボットの右側から到来する音)を、方向によって感度が異なることなく集音し、得られた音声信号を、指向性切換部21−2に送出する。
【0024】
CCDカメラ16は、周囲の状況を撮像し、得られた画像信号を、コントローラ10に送出する。タッチセンサ17は、例えば、頭部ユニット4の上部に設けられており、ユーザからの「なでる」や「たたく」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号としてコントローラ10に送出する。
【0025】
指向性切換部21−1は、無指向性マイク15−1,15−2からの音声信号に対して、所定の処理を施し、その結果得られた音声信号を、コントローラ10に送出する。指向性切換部21−2は、無指向性マイク15−3,15−4からの音声信号に対して、所定の処理を施し、その結果得られた音声信号を、コントローラ10に送出する。
【0026】
指向性切換部21の機能を、指向性切換部21−2を例として説明する。指向性切換部21−2は、無指向性マイク15−3または無指向性マイク15−4のそれぞれからの、所定の方向から到来した音(この例の場合、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAの駆動音)の音声信号同士の位相が一致するように、無指向性マイク15−4からの音声信号を遅延させる。そして指向性切換部21−2は、無指向性マイク15−3からの音声信号から、遅延させた無指向性マイク15−4からの音声信号を減算する。その結果、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAの駆動音が相殺された(低減された)音声信号が生成される。このようにして生成された音声信号は、コントローラ10に送出される。すなわち、この場合、ユーザからの発話を含む周囲の音が、単一指向性をもって集音される(脚部ユニット3Bと胴体部ユニット2の連結部分の位置する方向から到来する音が、低い感度で集音される)。
【0027】
なお、無指向性マイク15−3と無指向性マイク15−4は、Lmmだけ離れて配設されていることより、図3中、太い矢印の方向から到来する、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAの駆動音は、無指向性マイク15−4に先に到達し、その後、L/340(μsec)だけ遅れて無指向性マイク15−3に到達する。すなわち、指向性切換部21−2は、無指向性マイク15−4により取り込まれた音声信号を、L/340(μsec)だけ遅延させて、無指向性マイク15−3の音声信号から減算することで、その駆動音の音声信号が低減された音声信号を生成することができる。
【0028】
また、指向性切換部21−2は、無指向性マイク15−3からの音声信号から、無指向性マイク15−4からの音声信号をそのまま(遅延されていない音声信号)を減算し、その結果得られた音声信号を、コントローラ10に送出することもできる。すなわち、この場合、ユーザからの発話を含む周囲の音が、両指向性をもって集音される。
【0029】
さらに、指向性切換部21−2は、無指向性マイク15−3からの音声信号のみを、コントローラ10に送出することもできる(無指向性マイク15−4からの音声信号は、コントローラ10に送出されない)。すなわち、この場合、ユーザからの発話を含む周囲の音が、無指向性をもって集音される。
【0030】
次に、図4を参照して、指向性切換部21−2の構成について説明する。スイッチ22は、コントローラ10により制御され、無指向性マイク15−4に接続されている端子Aを、接地されている端子B、遅延回路23に接続されている端子C、または減算器24に接続されている端子Dのいずれか1つと接続させる。
【0031】
遅延回路23には、スイッチ22の端子Aと端子Cが接続されたとき、スイッチ22を介して無指向性マイク15−4からの音声信号が供給される。
【0032】
遅延回路23は、無指向性マイク15−3または無指向性マイク15−4のそれぞれからの、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAの駆動音(図中、太い矢印の方向から発せられる音声)の音声信号同士の位相が一致するように、無指向性マイク15−4からの音声信号を遅延させ、減算器24に送出する。
【0033】
なお、遅延回路23は、抵抗RとコンデンサCからなる1次ローパスフィルタで構成されている。抵抗RとコンデンサCの値は、例えば、L=10(mm)である場合、必要とされる遅延時間は、29.4(=10/340)(μsec)であるので、時定数(=抵抗R×コンデンサC)が29.4(μsec)となるように、例えば、抵抗R=2940Ω、コンデンサC=0.01μFとすることができる。すなわち、この場合、遅延回路23は、カットオフ周波数を、5416(=1/(2×π×2940×0.01)Hzとする1次ローバスフィルタで構成される。
【0034】
減算器24には、無指向性マイク15−3からの音声信号が供給される。減算器24にはまた、端子Aと端子Cが接続されたとき、遅延回路23からの音声信号が供給され、端子Aと端子Dが接続されたとき、無指向性マイク15−4からの音声信号が供給される。
【0035】
すなわち、減算器24は、端子Aと端子Cが接続されたとき、無指向性マイク15−3からの音声信号から、遅延回路23からの音声信号を減算し、その結果得られた音声信号を、コントローラ10に送出する。
【0036】
この場合、無指向性マイク15−3と無指向性マイク15−4のそれぞれからの、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAの駆動音の音声信号同士の位相は、一致しているので、減算器24の減算処理により、その駆動音が相殺された(低減された)音声信号が、コントローラ10に送出される。
【0037】
また、減算器24は、端子Aと端子Dが接続されたとき、無指向性マイク15−3からの音声信号から、無指向性マイク15−4からの音声信号をそのまま(遅延されていない音声信号)を減算し、その結果得られた信号を、コントローラ10に送出する。
【0038】
さらに、減算器24は、端子Aと端子Bが接続されたとき、無指向性マイク15−3からの音声信号のみを、そのままコントローラ10に送出する。
【0039】
指向性切換部21−2は、以上のような構成および機能を有する。
【0040】
図2に戻り、胴体部ユニット2におけるバッテリセンサ12は、バッテリ11の残量を検出し、その検出結果を、バッテリ残量検出信号としてコントローラ10に送出する。熱センサ13は、ロボット内部の熱を検出し、その検出結果を、熱検出信号としてコントローラ10に送出する。
【0041】
コントローラ10は、CPU(Central Processing Unit)10Aやメモリ10B等を内蔵しており、CPU10Aにおいて、メモリ10Bに記憶された制御プログラムが実行されることにより、各種の処理を行う。
【0042】
即ち、コントローラ10は、無指向性マイク15L,15Rや、CCDカメラ16、タッチセンサ17、バッテリセンサ12、熱センサ13から与えられる音声信号、画像信号、圧力検出信号、バッテリ残量検出信号、熱検出信号に基づいて、周囲の状況や、ユーザからの指令、ユーザからの働きかけなどの有無を判断する。
【0043】
さらに、コントローラ10は、この判断結果等に基づいて、続く行動を決定し、その決定結果に基づいて、アクチュエータ3AA1乃至3AAK、3BA1乃至3BAK、3CA1乃至3CAK、3DA1乃至3DAK、4A1乃至4AL、5A1、5A2のうちの必要なものを駆動させる。これにより、頭部ユニット4を上下左右に振らせたり、下顎部4Aを開閉させる。さらには、尻尾部ユニット5を動かせたり、各脚部ユニット3A乃至3Dを駆動して、ロボットを歩行させるなどの行動を行わせる。
【0044】
また、コントローラ10は、必要に応じて、合成音を生成し、スピーカ18に供給して出力させたり、ロボットの「目」の位置に設けられた図示しないLED(Light Emitting Diode)を点灯、消灯または点滅させる。
【0045】
以上のようにして、ロボットは、周囲の状況等に基づいて自律的に行動をとるようになっている。
【0046】
図5は、図2のコントローラ10の機能的構成例を示している。なお、図5に示す機能的構成は、CPU10Aが、メモリ10Bに記憶された制御プログラムを実行することで実現されるようになっている。
【0047】
センサ入力処理部50は、指向性切換部21や、CCDカメラ16、タッチセンサ17等から与えられる音声信号、画像信号、圧力検出信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ、ユーザからの指示等を認識し、その認識結果を表す状態認識情報を、モデル記憶部51および行動決定機構部52に通知する。
【0048】
即ち、センサ入力処理部50は、音声認識部50Aを有しており、音声認識部50Aは、指向性切換部21から与えられる音声信号について音声認識を行う。そして、音声認識部50Aは、その音声認識結果としての、例えば、「歩け」、「伏せ」、「ボールを追いかけろ」等の指令その他を、状態認識情報として、モデル記憶部51および行動決定機構部52に通知する。
【0049】
また、センサ入力処理部50は、画像認識部50Bを有しており、画像認識部50Bは、CCDカメラ16から与えられる画像信号を用いて、画像認識処理を行う。そして、画像認識部50Bは、その処理の結果、例えば、「赤い丸いもの」や、「地面に対して垂直なかつ所定高さ以上の平面」等を検出したときには、「ボールがある」や、「壁がある」等の画像認識結果を、状態認識情報として、モデル記憶部51および行動決定機構部52に通知する。
【0050】
さらに、センサ入力処理部50は、圧力処理部50Cを有しており、圧力処理部50Cは、タッチセンサ17から与えられる圧力検出信号を処理する。そして、圧力処理部50Cは、その処理の結果、所定の閾値以上で、かつ短時間の圧力を検出したときには、「たたかれた(しかられた)」と認識し、所定の閾値未満で、かつ長時間の圧力を検出したときには、「なでられた(ほめられた)」と認識して、その認識結果を、状態認識情報として、モデル記憶部51および行動決定機構部52に通知する。
【0051】
モデル記憶部51は、ロボットの感情、本能、成長の状態を表現する感情モデル、本能モデル、成長モデルをそれぞれ記憶、管理している。
【0052】
ここで、感情モデルは、例えば、「うれしさ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状態(度合い)を、所定の範囲の値によってそれぞれ表し、センサ入力処理部50からの状態認識情報や時間経過等に基づいて、その値を変化させる。本能モデルは、例えば、「食欲」、「睡眠欲」、「運動欲」等の本能による欲求の状態(度合い)を、所定の範囲の値によってそれぞれ表し、センサ入力処理部50からの状態認識情報や時間経過等に基づいて、その値を変化させる。成長モデルは、例えば、「幼年期」、「青年期」、「熟年期」、「老年期」等の成長の状態(度合い)を、所定の範囲の値によってそれぞれ表し、センサ入力処理部50からの状態認識情報や時間経過等に基づいて、その値を変化させる。
【0053】
モデル記憶部51は、上述のようにして感情モデル、本能モデル、成長モデルの値で表される感情、本能、成長の状態を、状態情報として、行動決定機構部52に送出する。
【0054】
なお、モデル記憶部51には、センサ入力処理部50から状態認識情報が供給される他、行動決定機構部52から、ロボットの現在または過去の行動、具体的には、例えば、「長時間歩いた」などの行動の内容を示す行動情報が供給されるようになっており、同一の状態認識情報が与えられても、行動情報が示すロボットの行動に応じて、異なる状態情報を生成するようになっている。
【0055】
即ち、例えば、ロボットが、ユーザに挨拶をし、ユーザに頭を撫でられた場合には、ユーザに挨拶をしたという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部51に与えられ、この場合、モデル記憶部51では、「うれしさ」を表す感情モデルの値が増加される。
【0056】
一方、ロボットが、何らかの仕事を実行中に頭を撫でられた場合には、仕事を実行中であるという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部51に与えられ、この場合、モデル記憶部51では、「うれしさ」を表す感情モデルの値は変化されない。
【0057】
このように、モデル記憶部51は、状態認識情報だけでなく、現在または過去のロボットの行動を示す行動情報も参照しながら、感情モデルの値を設定する。これにより、例えば、何らかのタスクを実行中に、ユーザが、いたずらするつもりで頭を撫でたときに、「うれしさ」を表す感情モデルの値を増加させるような、不自然な感情の変化が生じることを回避することができる。
【0058】
なお、モデル記憶部51は、本能モデルおよび成長モデルについても、感情モデルにおける場合と同様に、状態認識情報および行動情報の両方に基づいて、その値を増減させるようになっている。また、モデル記憶部51は、感情モデル、本能モデル、成長モデルそれぞれの値を、他のモデルの値にも基づいて増減させるようになっている。
【0059】
行動決定機構部52は、センサ入力処理部50からの状態認識情報や、モデル記憶部51からの状態情報、時間経過等に基づいて、次の行動を決定し、決定された行動の内容を、行動指令情報として、姿勢遷移機構部53に送出する。
【0060】
即ち、行動決定機構部52は、ロボットがとり得る行動をステート(状態)(state)に対応させた有限オートマトンを、ロボットの行動を規定する行動モデルとして管理しており、この行動モデルとしての有限オートマトンにおけるステートを、センサ入力処理部50からの状態認識情報や、モデル記憶部51における感情モデル、本能モデル、または成長モデルの値、時間経過等に基づいて遷移させ、遷移後のステートに対応する行動を、次にとるべき行動として決定する。
【0061】
ここで、行動決定機構部52は、所定のトリガ(trigger)があったことを検出すると、ステートを遷移させる。即ち、行動決定機構部52は、例えば、現在のステートに対応する行動を実行している時間が所定時間に達したときや、特定の状態認識情報を受信したとき、モデル記憶部51から供給される状態情報が示す感情や、本能、成長の状態の値が所定の閾値以下または以上になったとき等に、ステートを遷移させる。
【0062】
なお、行動決定機構部52は、上述したように、センサ入力処理部50からの状態認識情報だけでなく、モデル記憶部51における感情モデルや、本能モデル、成長モデルの値等にも基づいて、行動モデルにおけるステートを遷移させることから、同一の状態認識情報が入力されても、感情モデルや、本能モデル、成長モデルの値(状態情報)によっては、ステートの遷移先は異なるものとなる。
【0063】
その結果、行動決定機構部52は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいていない」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「お手」という行動をとらせる行動指令情報を生成し、これを、姿勢遷移機構部53に送出する。
【0064】
また、行動決定機構部52は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「手のひらをぺろぺろなめる」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部53に送出する。
【0065】
また、行動決定機構部52は、例えば、状態情報が、「怒っている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、状態情報が、「お腹がすいている」ことを表していても、また、「お腹がすいていない」ことを表していても、「ぷいと横を向く」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部53に送出する。
【0066】
なお、行動決定機構部52には、モデル記憶部51から供給される状態情報が示す感情や、本能、成長の状態に基づいて、遷移先のステートに対応する行動のパラメータとしての、例えば、歩行の速度や、手足を動かす際の動きの大きさおよび速度などを決定させることができ、この場合、それらのパラメータを含む行動指令情報が、姿勢遷移機構部53に送出される。
【0067】
また、行動決定機構部52では、上述したように、ロボットの頭部や手足等を動作させる行動指令情報の他、ロボットに発話を行わせる行動指令情報も生成される。ロボットに発話を行わせる行動指令情報は、音声合成部55に供給されるようになっており、音声合成部55に供給される行動指令情報には、音声合成部55に生成させる合成音に対応するテキスト等が含まれる。そして、音声合成部55は、行動決定機構部52から行動指令情報を受信すると、その行動指令情報に含まれるテキストに基づき、合成音を生成し、出力制御部56を介して、スピーカ18に供給して出力させる。これにより、スピーカ18からは、例えば、ロボットの鳴き声、さらには、「お腹がすいた」等のユーザへの各種の要求、「何?」等のユーザの呼びかけに対する応答その他の音声出力が行われる。
【0068】
姿勢遷移機構部53は、行動決定機構部52から供給される行動指令情報に基づいて、ロボットの姿勢を、現在の姿勢から次の姿勢に遷移させるための姿勢遷移情報を生成し、これを制御機構部54に送出する。
【0069】
ここで、現在の姿勢から次に遷移可能な姿勢は、例えば、胴体や手や足の形状、重さ、各部の結合状態のようなロボットの物理的形状と、関節が曲がる方向や角度のようなアクチュエータ3AA1乃至5A1および5A2の機構とによって決定される。
【0070】
また、次の姿勢としては、現在の姿勢から直接遷移可能な姿勢と、直接には遷移できない姿勢とがある。例えば、4本足のロボットは、手足を大きく投げ出して寝転んでいる状態から、伏せた状態へ直接遷移することはできるが、立った状態へ直接遷移することはできず、一旦、手足を胴体近くに引き寄せて伏せた姿勢になり、それから立ち上がるという2段階の動作が必要である。また、安全に実行できない姿勢も存在する。例えば、4本足のロボットは、その4本足で立っている姿勢から、両前足を挙げてバンザイをしようとすると、簡単に転倒してしまう。
【0071】
このため、姿勢遷移機構部53は、直接遷移可能な姿勢をあらかじめ登録しておき、行動決定機構部52から供給される行動指令情報が、直接遷移可能な姿勢を示す場合には、その行動指令情報を、そのまま姿勢遷移情報として、制御機構部54に送出する。一方、行動指令情報が、直接遷移不可能な姿勢を示す場合には、姿勢遷移機構部53は、遷移可能な他の姿勢に一旦遷移した後に、目的の姿勢まで遷移させるような姿勢遷移情報を生成し、制御機構部54に送出する。これによりロボットが、遷移不可能な姿勢を無理に実行しようとする事態や、転倒するような事態を回避することができるようになっている。
【0072】
制御機構部54は、姿勢遷移機構部53からの姿勢遷移情報にしたがって、アクチュエータ3AA1乃至5A1および5A2を駆動するための制御信号を生成し、これを、アクチュエータ3AA1乃至5A1および5A2に送出する。これにより、アクチュエータ3AA1乃至5A1および5A2は、制御信号にしたがって駆動し、ロボットは、自律的に行動を起こす。
【0073】
出力制御部56には、音声合成部55からの合成音のディジタルデータが供給されるようになっており、それらのディジタルデータを、アナログの音声信号にD/A変換し、スピーカ18に供給して出力させる。
【0074】
指向性制御部57は、行動決定機構部52において生成される行動指令情報に基づいて、指向性切換部21を制御する。その動作については、後述する。
【0075】
次に、図6は、図5の音声認識部50Aの構成例を示している。
【0076】
無指向性マイク15からの音声信号は、AD(Analog Digital)変換部21に供給される。AD変換部21では、無指向性マイク15からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データにA/D変換される。この音声データは、特徴抽出部22および音声区間検出部27に供給される。
【0077】
特徴抽出部22は、そこに入力される音声データについて、適当なフレームごとに、例えば、MFCC(Mel Frequency Cepstrum Coefficient)分析を行い、その分析結果を、特徴パラメータ(特徴ベクトル)として、マッチング部23に出力する。なお、特徴抽出部22では、その他、例えば、線形予測係数、ケプストラム係数、線スペクトル対、所定の周波数帯域ごとのパワー(フィルタバンクの出力)等を、特徴パラメータとして抽出することが可能である。
【0078】
マッチング部23は、特徴抽出部22からの特徴パラメータを用いて、音響モデル記憶部24、辞書記憶部25、および文法記憶部26を必要に応じて参照しながら、無指向性マイク15に入力された音声(入力音声)を、例えば、連続分布HMM(Hidden Markov Model)法に基づいて音声認識する。
【0079】
即ち、音響モデル記憶部24は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布HMM法に基づいて音声認識を行うので、音響モデルとしては、HMM(Hidden Markov Model)が用いられる。辞書記憶部25は、認識対象の各単語について、その発音に関する情報(音韻情報)が記述された単語辞書を記憶している。文法記憶部26は、辞書記憶部25の単語辞書に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則を記憶している。ここで、文法規則としては、例えば、文脈自由文法(CFG)や、統計的な単語連鎖確率(N−gram)などに基づく規則を用いることができる。
【0080】
マッチング部23は、辞書記憶部25の単語辞書を参照することにより、音響モデル記憶部24に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、マッチング部23は、幾つかの単語モデルを、文法記憶部26に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴パラメータに基づき、連続分布HMM法によって、無指向性マイク15に入力された音声を認識する。即ち、マッチング部23は、特徴抽出部22が出力する時系列の特徴パラメータが観測されるスコア(尤度)が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列の音韻情報(読み)を、音声の認識結果として出力する。
【0081】
より具体的には、マッチング部23は、接続された単語モデルに対応する単語列について、各特徴パラメータの出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列の音韻情報を、音声認識結果として出力する。
【0082】
以上のようにして出力される、無指向性マイク15に入力された音声の認識結果は、状態認識情報として、モデル記憶部51および行動決定機構部52に出力される。
【0083】
なお、音声区間検出部27は、AD変換部21からの音声データについて、特徴抽出部22がMFCC分析を行うのと同様のフレームごとに、例えば、パワーを算出している。さらに、音声区間検出部27は、各フレームのパワーを、所定の閾値と比較し、その閾値以上のパワーを有するフレームで構成される区間を、ユーザの音声が入力されている音声区間として検出する。そして、音声区間検出部27は、検出した音声区間を、特徴抽出部22とマッチング部23に供給しており、特徴抽出部22とマッチング部23は、音声区間のみを対象に処理を行う。
【0084】
次に、図7は、図5の音声合成部55の構成例を示している。
【0085】
テキスト生成部31には、行動決定機構部52が出力する、音声合成の対象とするテキストを含む行動指令情報が供給されるようになっており、テキスト生成部31は、辞書記憶部34や生成用文法記憶部35を参照しながら、その行動指令情報に含まれるテキストを解析する。
【0086】
即ち、辞書記憶部34には、各単語の品詞情報や、読み、アクセント等の情報が記述された単語辞書が記憶されており、また、生成用文法記憶部35には、辞書記憶部34の単語辞書に記述された単語について、単語連鎖に関する制約等の生成用文法規則が記憶されている。そして、テキスト生成部31は、この単語辞書および生成用文法規則に基づいて、そこに入力されるテキストの形態素解析や構文解析等の解析を行い、後段の規則合成部32で行われる規則音声合成に必要な情報を抽出する。ここで、規則音声合成に必要な情報としては、例えば、ポーズの位置や、アクセントおよびイントネーションを制御するための情報その他の韻律情報や、各単語の発音等の音韻情報などがある。
【0087】
テキスト生成部31で得られた情報は、規則合成部32に供給され、規則合成部32では、音素片記憶部36を参照しながら、テキスト生成部31に入力されたテキストに対応する合成音の音声データ(ディジタルデータ)が生成される。
【0088】
即ち、音素片記憶部36には、例えば、CV(Consonant, Vowel)や、VCV、CVC等の形で音素片データが記憶されており、規則合成部32は、テキスト生成部31からの情報に基づいて、必要な音素片データを接続し、さらに、音素片データの波形を加工することによって、ポーズ、アクセント、イントネーション等を適切に付加し、これにより、テキスト生成部31に入力されたテキストに対応する合成音の音声データを生成する。
【0089】
以上のようにして生成された音声データは、出力制御部56(図3)を介して、スピーカ18に供給され、これにより、スピーカ18からは、テキスト生成部31に入力されたテキストに対応する合成音が出力される。
【0090】
なお、図5の行動決定機構部52では、上述したように、行動モデルに基づいて、次の行動が決定されるが、合成音として出力するテキストの内容は、ロボットの行動と対応付けておくことが可能である。
【0091】
即ち、例えば、ロボットが、座った状態から、立った状態になる行動には、テキスト「よっこいしょ」などを対応付けておくことが可能である。この場合、ロボットが、座っている姿勢から、立つ姿勢に移行するときに、その姿勢の移行に同期して、合成音「よっこいしょ」を出力することが可能となる。
【0092】
次に、指向性制御部57の動作について、指向性切換部21−2を制御する場合を例として説明する。その処理手順は、図8のフローチャートに示されている。 ステップS1において、指向性制御部57は、行動決定機構部52と通信し、脚部ユニット3Bが駆動するような行動指令情報が生成されたか否かを判定し、そのような行動指令情報が生成されたと判定された場合、ステップS2に進む。
【0093】
ステップS2において、指向性制御部57は、指向性切換部21−2のスイッチ22(図4)を制御して、端子Aと端子Cを接続させる。これにより、無指向性マイク15−4からの音声信号は、遅延回路23に供給される。遅延回路23は、無指向性マイク15−4からの音声信号を、L/340(μsec)だけ遅延させ、減算器24に送出する。減算器24は、無指向性マイク15−3からの音声信号から、遅延回路23からの音声信号を減算し、その結果得られた音声信号を、コントローラ10に送出する。すなわち、この場合、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAの駆動音が低減された音声信号が生成される(単一指向性をもって音声が集音される)。
【0094】
ステップS1で、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAが駆動するような行動指令情報が生成されていないと判定された場合、ステップS3に進み、指向性制御部57は、指向性切換部21−2のスイッチ22を制御して、端子Aを、端子Bまたは端子Dと接続させる。
【0095】
端子Aと端子Dが接続されたとき、減算器24は、無指向性マイク15−3からの音声信号から、無指向性マイク15−4からの音声信号をそのまま(遅延されていない音声信号)を減算し、その結果得られた信号を、コントローラ10に送出する。すなわち、この場合、両指向性をもって、音声が集音されたことになる。
【0096】
また、端子Aと端子Bが接続されたとき、減算器24は、無指向性マイク15−3からの音声信号のみを、そのままコントローラ10に送出する。すなわち、この場合、無指向性をもって、音声が集音されたことになる。
【0097】
ここでの処理で、端子Aを、端子Bまたは端子Dのいずれに接続するかは、所定の条件により決定される。
【0098】
その後、ステップS1に戻り、それ以降の処理を実行する。
【0099】
以上のように、ロボットが行動し、例えば、アクチュエータの駆動音が発生するときにおいては、単一指向性で音を集音するようにすることより、音声認識される音声を無指向性マイクで取り込むようにしても、音声認識を適切に行うことができる。
【0100】
なお、以上においては、1個の無指向性マイク(例えば、無指向性マイク15−4)(以下、第1の無指向性マイクと称する)により取り込まれた音声の音声信号を、所定の時間だけ遅延し、1個の無指向性マイク(例えば、無指向性マイク15−3)(以下、第2の無指向性マイクと称する)により取り込まれた音声の、そのままの音声信号から減算する場合を例として説明したが、第1の無指向性マイクと第2の無指向性マイクを、それぞれ複数(N個ずつ)設けこともできる。
【0101】
また、N個の第1の無指向性マイクとN個の第2の無指向性マイクにより、1個の第1の無指向性マイクと1個の第2の無指向性マイクからなる、音声認識を妨害する音声を発生する、ロボットの行動の種類にそれぞれ対応するN個の組を形成し、ロボットの行動の種類に応じた組の第1の無指向性マイクと第2の無指向性マイクにより取り込まれた音声の音声信号を利用して、音声認識される音声信号を生成するようにすることもできる。
【0102】
以上においては、遅延回路23を利用して、一方の無指向性マイク(第1の無指向性マイク)からの音声信号を、アナログ的に遅延するようにしたが、センサ入力処理部50の音声認識部50Aが、第1の無指向性マイクにより取り込まれた音声の音声信号をデジタル的に遅延させることもできる。
【0103】
この場合におけるロボットの電気的構成例を、図9に示す。なお、図中、図2における場合と対応する部分については、同一の符号を付してある。すなわち、指向性切換部21が取り除かれている。
【0104】
図10は、この場合の、コントローラ10の機能的構成例を示している。なお、図中、図5における場合と対応する部分については、同一の符号を付してある。すなわち、指向性制御部57が取り除かれている。
【0105】
センサ入力処理部50の音声認識部50A(AD変換部21)は、所定のサンプリング周期で、音声信号をサンプリング、量子化する。すなわち、例えば、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAの駆動音が、無指向性マイク15−4に到達した後、サンプリング周期T(μsec)だけ遅れて無指向性マイク15−3に到達するように、無指向性マイク15−3および無指向性マイク15−4を、M(=T/340)(mm)だけ離して取り付け、音声認識部50Aが、無指向性マイク15−4からの音声信号と、無指向性マイク15−3からの音声信号を交互にサンプリングすることで、無指向性マイク15−4からの音声信号を、時間Tだけ遅延させることができる。音声認識部50Aは、このように、時間Tだけ遅延させた無指向性マイク15−4からの音声信号を、無指向性マイク15−3からの音声信号を減算することで、図2または図5の場合と同様に、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAの駆動音が低減された音声信号を、生成することができる。
【0106】
行動決定機構部52は、例えば、脚部ユニット3Bが駆動する行動指令情報を生成するとき、音声認識部50Aを制御して、上述したような処理を実行させ、脚部ユニット3Bと胴体部ユニット2の連結部分に配設されたアクチュエータ3BAの駆動音が低減された音声信号を生成させる。
【0107】
以上、本発明を、エンターテイメント用のロボット(疑似ペットとしてのロボット)に適用した場合について説明したが、本発明は、これに限らず、例えば、産業用のロボット等の各種のロボットに広く適用することが可能である。また、本発明は、現実世界のロボットだけでなく、例えば、液晶ディスプレイ等の表示装置に表示される仮想的なロボットにも適用可能である。
【0108】
さらに、本実施の形態においては、上述した一連の処理を、CPU10Aにプログラムを実行させることにより行うようにしたが、一連の処理は、それ専用のハードウェアによって行うことも可能である。
【0109】
なお、プログラムは、あらかじめメモリ10B(図2)に記憶させておく他、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。そして、このようなリムーバブル記録媒体を、いわゆるパッケージソフトウエアとして提供し、ロボット(メモリ10B)にインストールするようにすることができる。
【0110】
また、プログラムは、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、有線で転送し、メモリ10Bにインストールすることができる。
【0111】
この場合、プログラムがバージョンアップされたとき等に、そのバージョンアップされたプログラムを、メモリ10Bに、容易にインストールすることができる。
【0112】
ここで、本明細書において、CPU10Aに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0113】
また、プログラムは、1のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
【0114】
【発明の効果】
本発明のロボット制御装置および方法、並びに記録媒体のプログラムによれば、ロボットが、音声認識を妨害する音声を発生する行動を起こすか否かが判定し、ロボットが、音声認識を妨害する音声を発生する行動を起こすと判定されたとき、第1の無指向性マイクにより取り込まれた音声の音声信号を、所定の時間だけ遅延し、ロボットが、音声認識を妨害する音声を発生する行動を起こすと判定されたとき、第2の無指向性マイクにより取り込まれた音声の音声信号と、遅延された、第1の無指向性マイクにより取り込まれた音声の音声信号との差分信号を生成し、生成された差分信号に対して音声認識処理を実行するようにしたので、音声認識を適切に行うことができる。
【図面の簡単な説明】
【図1】本発明を適用したロボットの一実施の形態の外観構成例を示す斜視図である。
【図2】ロボットの内部構成例を示すブロック図である。
【図3】無指向性マイク15−3,15−4の配置位置を説明する図である。
【図4】指向性切換部21−2の構成例を示すブロック図である。
【図5】コントローラ10の機能的構成例を示すブロック図である。
【図6】音声認識部50Aの構成例を示すブロック図である。
【図7】音声合成部55の構成例を示すブロック図である。
【図8】指向性制御部57の動作を説明する図である。
【図9】ロボットの他の内部構成例を示すブロック図である。
【図10】コントローラ10の他の機能的構成例を示すブロック図である。
【符号の説明】
1 頭部ユニット, 4A 下顎部, 10 コントローラ, 10A CPU, 10B メモリ, 15 無指向性マイク, 16 CCDカメラ, 17 タッチセンサ, 18 スピーカ, 21 AD変換部, 22 特徴抽出部, 23 マッチング部, 24 音響モデル記憶部, 25 辞書記憶部,26 文法記憶部, 27 音声区間検出部, 31 テキスト生成部, 32 規則合成部, 34 辞書記憶部, 35 生成用文法記憶部, 36 音素片記憶部, 41 AD変換部, 42 韻律分析部, 43 音生成部, 44 出力部, 45 メモリ, 46 音声区間検出部, 50 センサ入力処理部, 50A 音声認識部, 50B 画像認識部, 50C 圧力処理部, 51 モデル記憶部, 52 行動決定機構部, 53 姿勢遷移機構部,54 制御機構部, 55 音声合成部, 56 出力制御部, 57 指向性制御部

Claims (3)

  1. 音声認識を妨害する音声が、第1の無指向性マイクに到達した後、所定の時間だけ遅れて第2の無指向性マイクに到達するように取り付けられた前記第1および第2の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置において、
    前記第1の無指向性マイクを用いて取り込まれた音声を表す第1の音声信号を取得する第1の取得手段と、
    前記第2の無指向性マイクを用いて取り込まれた音声を表す第2の音声信号を取得する第2の取得手段と、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生するか否かを判定する判定手段と、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、前記第1の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第1の音声信号と前記第2の音声信号との差分信号を、前記音声認識に用いる音声認識用信号として生成し、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、前記第1の音声信号と前記第2の音声信号との差分信号、又は前記第2の音声信号の一方を前記音声認識用信号として生成する
    生成手段と、
    前記音声認識用信号に対して音声認識処理を実行する実行手段と
    を備え
    N個の前記第1の無指向性マイクとN個の前記第2の無指向性マイクにより、1個の前記第1の無指向性マイクと1個の前記第2の無指向性マイクからなるN個の組であって、且つ、前記音声認識を妨害する音声を発生する前記ロボットの行動の種類にそれぞれ対応する前記N個の組が形成されている場合において、
    前記判定手段は、前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定した場合、前記ロボットの行動の種類を検出し、
    前記生成手段は、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、検出された前記種類に対応する組の前記第1の無指向性マイクを用いて取り込まれた前記第1の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第1の音声信号と、検出された前記種類に対応する前記組の前記第2の無指向性マイクを用いて取り込まれた前記第2の音声信号との差分信号を、前記音声認識用信号として生成し、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、検出された前記種類に対応する前記組の前記第1の無指向性マイクを用いて取り込まれた前記第1の音声信号と、検出された前記種類に対応する前記組の前記第2の無指向性マイクを用いて取り込まれた前記第2の音声信号との差分信号、又は検出された前記種類に対応する前記組の前記第2の無指向性マイクを用いて取り込まれた前記第2の音声信号の一方を前記音声認識用信号として生成する
    ボット制御装置。
  2. 音声認識を妨害する音声が、第1の無指向性マイクに到達した後、所定の時間だけ遅れて第2の無指向性マイクに到達するように取り付けられた前記第1および第2の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置のロボット制御方法において、
    前記第1の無指向性マイクを用いて取り込まれた音声を表す第1の音声信号を取得する第1の取得ステップと、
    前記第2の無指向性マイクを用いて取り込まれた音声を表す第2の音声信号を取得する第2の取得ステップと、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生するか否かを判定する判定ステップと、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、前記第1の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第1の音声信号と前記第2の音声信号との差分信号を、前記音声認識に用いる音声認識用信号として生成し、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、前記第1の音声信号と前記第2の音声信号との差分信号、又は前記第2の音声信号の一方を前記音声認識用信号として生成する
    生成ステップと、
    前記音声認識用信号に対して音声認識処理を実行する実行ステップと
    を含み、
    N個の前記第1の無指向性マイクとN個の前記第2の無指向性マイクにより、1個の前記第1の無指向性マイクと1個の前記第2の無指向性マイクからなるN個の組であって、且つ、前記音声認識を妨害する音声を発生する前記ロボットの行動の種類にそれぞれ対応する前記N個の組が形成されている場合において、
    前記判定ステップは、前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定した場合、前記ロボットの行動の種類を検出し、
    前記生成ステップは、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、検出された前記種類に対応する組の前記第1の無指向性マイクを用いて取り込まれた前記第1の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第1の音声信号と、検出された前記種類に対応する前記組の前記第2の無指向性マイクを用いて取り込まれた前記第2の音声信号との差分信号を、前記音声認識用信号として生成し、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、検出された前記種類に対応する前記組の前記第1の無指向性マイクを用いて取り込まれた前記第1の音声信号と、検出された前記種類に対応する前記組の前記第2の無指向性マイクを用いて取り込まれた前記第2の音声信号との差分信号、又は検出された前記種類に対応する前記組の前記第2の無指向性マイクを用いて取り込まれた前記第2の音声信号の一方を前記音声認識用信号として生成する
    ボット制御方法。
  3. 音声認識を妨害する音声が、第1の無指向性マイクに到達した後、所定の時間だけ遅れて第2の無指向性マイクに到達するように取り付けられた前記第1および第2の無指向性マイクを用いて取り込まれた音声を認識し、その認識結果に基づいてロボットの行動を制御するロボット制御装置のコンピュータに、
    前記第1の無指向性マイクを用いて取り込まれた音声を表す第1の音声信号を取得する第1の取得ステップと、
    前記第2の無指向性マイクを用いて取り込まれた音声を表す第2の音声信号を取得する第2の取得ステップと、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生するか否かを判定する判定ステップと、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、前記第1の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第1の音声信号と前記第2の音声信号との差分信号を、前記音声認識に用いる音声認識用信号として生成し、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、前記第1の音声信号と前記第2の音声信号との差分信号、又は前記第2の音声信号の一方を前記音声認識用信号として生成する
    生成ステップと、
    前記音声認識用信号に対して音声認識処理を実行する実行ステップと
    を含み、
    N個の前記第1の無指向性マイクとN個の前記第2の無指向性マイクにより、1個の前記第1の無指向性マイクと1個の前記第2の無指向性マイクからなるN個の組であって、且つ、前記音声認識を妨害する音声を発生する前記ロボットの行動の種類にそれぞれ対応する前記N個の組が形成されている場合において、
    前記判定ステップは、前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定した場合、前記ロボットの行動の種類を検出し、
    前記生成ステップは、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生すると判定された場合、検出された前記種類に対応する組の前記第1の無指向性マイクを用いて取り込まれた前記第1の音声信号を、前記所定の時間だけ遅延させ、遅延後の前記第1の音声信号と、検出された前記種類に対応する前記組の前記第2の無指向性マイクを用いて取り込まれた前記第2の音声信号との差分信号を、前記音声認識用信号として生成し、
    前記ロボットの行動に応じて前記音声認識を妨害する音声が発生しないと判定された場合、検出された前記種類に対応する前記組の前記第1の無指向性マイクを用いて取り込まれた前記第1の音声信号と、検出された前記種類に対応する前記組の前記第2の無指向性マイクを用いて取り込まれた前記第2の音声信号との差分信号、又は検出された前記種類に対応する前記組の前記第2の無指向性マイクを用いて取り込まれた前記第2の音声信号の一方を前記音声認識用信号として生成する
    理を実行させるためのプログラムが記録されているコンピュータ読み取り可能な記録媒体。
JP2000310989A 2000-10-11 2000-10-11 ロボット制御装置およびロボット制御方法、並びに記録媒体 Expired - Fee Related JP4742415B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000310989A JP4742415B2 (ja) 2000-10-11 2000-10-11 ロボット制御装置およびロボット制御方法、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000310989A JP4742415B2 (ja) 2000-10-11 2000-10-11 ロボット制御装置およびロボット制御方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2002116790A JP2002116790A (ja) 2002-04-19
JP4742415B2 true JP4742415B2 (ja) 2011-08-10

Family

ID=18790838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000310989A Expired - Fee Related JP4742415B2 (ja) 2000-10-11 2000-10-11 ロボット制御装置およびロボット制御方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP4742415B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4797330B2 (ja) * 2004-03-08 2011-10-19 日本電気株式会社 ロボット

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001215990A (ja) * 2000-01-31 2001-08-10 Japan Science & Technology Corp ロボット聴覚装置

Also Published As

Publication number Publication date
JP2002116790A (ja) 2002-04-19

Similar Documents

Publication Publication Date Title
JP4296714B2 (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
JP2002268699A (ja) 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
JP2003131683A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4687936B2 (ja) 音声出力装置および音声出力方法、並びにプログラムおよび記録媒体
JP2002304188A (ja) 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体
JP2002116792A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4587009B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4600736B2 (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP4742415B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2001212780A (ja) 行動制御装置および行動制御方法、並びに記録媒体
JP2001154693A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2004283927A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2004286805A (ja) 話者識別装置および話者識別方法、並びにプログラム
JP2005335001A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP4016316B2 (ja) ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2004170756A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP2007241304A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4178777B2 (ja) ロボット装置、記録媒体、並びにプログラム
JP4639533B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2002318590A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002304187A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101001

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110425

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees