JP2001154693A - ロボット制御装置およびロボット制御方法、並びに記録媒体 - Google Patents

ロボット制御装置およびロボット制御方法、並びに記録媒体

Info

Publication number
JP2001154693A
JP2001154693A JP34047199A JP34047199A JP2001154693A JP 2001154693 A JP2001154693 A JP 2001154693A JP 34047199 A JP34047199 A JP 34047199A JP 34047199 A JP34047199 A JP 34047199A JP 2001154693 A JP2001154693 A JP 2001154693A
Authority
JP
Japan
Prior art keywords
robot
unit
recognition
image
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP34047199A
Other languages
English (en)
Inventor
Hironaga Tsutsumi
洪長 包
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP34047199A priority Critical patent/JP2001154693A/ja
Publication of JP2001154693A publication Critical patent/JP2001154693A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識率を向上させる。 【解決手段】 音声認識部50Aでは、音声が認識さ
れ、行動決定機構部52では、その音声認識結果に基づ
いて、ロボットの行動が制御される。一方、画像認識部
50Bでは、ロボットの周囲を撮影した画像が認識さ
れ、音声認識部50Aでは、その画像認識結果に基づい
て、音声認識の対象となっている単語に対する重みが制
御される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ロボット制御装置
およびロボット制御方法、並びに記録媒体に関し、特
に、例えば、ユーザからの音声を認識し、その音声認識
結果に基づいて行動するロボットに用いて好適なロボッ
ト制御装置およびロボット制御方法、並びに記録媒体に
関する。
【0002】
【従来の技術】近年、例えば、ユーザの発話を音声認識
して、その音声認識結果にしたがった行動を起こすエン
タテイメント用のロボット(本明細書中においては、ぬ
いぐるみ状のものを含む)が製品化されつつある。
【0003】
【発明が解決しようとする課題】このようなロボットに
おいて、ユーザの音声を誤認識し、その音声と無関係な
行動をとったのでは、ユーザに違和感を感じさせること
になる。
【0004】また、音声の認識精度は、例えば、音声認
識処理の処理量を多くすることで向上させることができ
る場合があるが、処理量が多くなれば、音声認識結果が
得られるまでの時間も長くなる。従って、この場合、ユ
ーザが発話を行ってから、ロボットが何らかの行動を起
こすまでの時間が長くなり、やはり、ユーザに違和感を
感じさせることになる。
【0005】本発明は、このような状況に鑑みてなされ
たものであり、迅速に、かつ精度良く、音声認識を行う
こと等ができるようにするものである。
【0006】
【課題を解決するための手段】本発明のロボット制御装
置は、音声を認識する音声認識手段と、音声認識手段に
よる音声認識結果に基づいて、ロボットの行動を制御す
る行動制御手段と、ロボットの周囲を撮影した画像の画
像認識結果に基づいて、音声認識手段による音声認識処
理に用いるパラメータを制御するパラメータ制御手段と
を備えることを特徴とする。
【0007】このロボット制御装置には、画像を認識す
る画像認識手段をさらに設けることができる。
【0008】パラメータは、音素若しくは音韻をモデル
化した音響モデル、音声認識の対象とする語彙が登録さ
れている辞書、または文法を規定する文法規則に関する
ものとすることができる。
【0009】また、パラメータは、音声認識の対象とす
る語彙に関するものとすることができる。
【0010】本発明のロボット制御方法は、音声を認識
する音声認識ステップと、音声認識ステップによる音声
認識結果に基づいて、ロボットの行動を制御する行動制
御ステップと、ロボットの周囲を撮影した画像の画像認
識結果に基づいて、音声認識ステップによる音声認識処
理に用いるパラメータを制御するパラメータ制御ステッ
プとを備えることを特徴とする。
【0011】本発明の記録媒体は、音声を認識する音声
認識ステップと、音声認識ステップによる音声認識結果
に基づいて、ロボットの行動を制御する行動制御ステッ
プと、ロボットの周囲を撮影した画像の画像認識結果に
基づいて、音声認識ステップによる音声認識処理に用い
るパラメータを制御するパラメータ制御ステップとを備
えるプログラムが記録されていることを特徴とする。
【0012】本発明のロボット制御装置およびロボット
制御方法、並びに記録媒体においては、音声が認識さ
れ、その音声認識結果に基づいて、ロボットの行動が制
御される。一方、ロボットの周囲を撮影した画像の画像
認識結果に基づいて、音声認識処理に用いるパラメータ
が制御される。
【0013】
【発明の実施の形態】図1は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図2は、
その電気的構成例を示している。
【0014】本実施の形態では、ロボットは、犬形状の
ものとされており、胴体部ユニット2の前後左右に、そ
れぞれ脚部ユニット3A,3B,3C,3Dが連結され
るとともに、胴体部ユニット2の前端部と後端部に、そ
れぞれ頭部ユニット4と尻尾部ユニット5が連結される
ことにより構成されている。
【0015】尻尾部ユニット5は、胴体部ユニット2の
上面に設けられたベース部5Bから、2自由度をもって
湾曲または揺動自在に引き出されている。
【0016】胴体部ユニット2には、ロボット全体の制
御を行うコントローラ10、ロボットの動力源となるバ
ッテリ11、並びにバッテリセンサ12および熱センサ
13からなる内部センサ部14などが収納されている。
【0017】頭部ユニット4には、「耳」に相当するマ
イク(マイクロフォン)15、「目」に相当するCCD
(Charge Coupled Device)カメラ16、触覚に相当する
タッチセンサ17、「口」に相当するスピーカ18など
が、それぞれ所定位置に配設されている。
【0018】脚部ユニット3A乃至3Dそれぞれの関節
部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユ
ニット2の連結部分、頭部ユニット4と胴体部ユニット
2の連結部分、並びに尻尾部ユニット5と胴体部ユニッ
ト2の連結部分などには、図2に示すように、それぞれ
アクチュエータ3AA1乃至3AAK、3BA1乃至3B
K、3CA1乃至3CAK、3DA1乃至3DAK、4A1
乃至4AL、5A1および5A2が配設されており、これ
により、各連結部分は、所定の自由度を持って回転する
ことができるようになっている。
【0019】頭部ユニット4におけるマイク15は、ユ
ーザからの発話を含む周囲の音声(音)を集音し、得ら
れた音声信号を、コントローラ10に送出する。CCD
カメラ16は、周囲の状況を撮像し、得られた画像信号
を、コントローラ10に送出する。
【0020】タッチセンサ17は、例えば、頭部ユニッ
ト4の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ10に送出する。
【0021】胴体部ユニット2におけるバッテリセンサ
12は、バッテリ11の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ10に送
出する。熱センサ13は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ10に
送出する。
【0022】コントローラ10は、CPU(Central Pro
cessing Unit)10Aやメモリ10B等を内蔵してお
り、CPU10Aにおいて、メモリ10Bに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。
【0023】即ち、コントローラ10は、マイク15
や、CCDカメラ16、タッチセンサ17、バッテリセ
ンサ12、熱センサ13から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。
【0024】さらに、コントローラ10は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ3AA1乃至3AAK、3BA1
乃至3BAK、3CA1乃至3CAK、3DA1乃至3DA
K、4A1乃至4AL、5A1、5A2のうちの必要なもの
を駆動させ、これにより、頭部ユニット4を上下左右に
振らせたり、尻尾部ユニット5を動かせたり、各脚部ユ
ニット3A乃至3Dを駆動して、ロボットを歩行させる
などの行動を行わせる。
【0025】また、コントローラ10は、必要に応じ
て、合成音を生成し、スピーカ18に供給して出力させ
たり、ロボットの「目」の位置に設けられた図示しない
LED(Light Emitting Diode)を点灯、消灯または点
滅させる。
【0026】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとることができるように
なっている。
【0027】次に、図3は、図2のコントローラ10の
機能的構成例を示している。なお、図3に示す機能的構
成は、CPU10Aが、メモリ10Bに記憶された制御
プログラムを実行することで実現されるようになってい
る。
【0028】コントローラ10は、特定の外部状態を認
識するセンサ入力処理部50、センサ入力処理部50の
認識結果を累積して、感情および本能の状態を表現する
感情/本能モデル部51、センサ入力処理部50の認識
結果等に基づいて、続く行動を決定する行動決定機構部
52、行動決定機構部52の決定結果に基づいて、実際
にロボットに行動を起こさせる姿勢遷移機構部53、各
アクチュエータ3AA 1乃至5A1および5A2を駆動制
御する制御機構部54、並びに合成音を生成する音声合
成部55から構成されている。
【0029】センサ入力処理部50は、マイク15や、
CCDカメラ16、タッチセンサ17等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、感情/本能モデル部51および行動決定機構部52
に通知する。
【0030】即ち、センサ入力処理部50は、音声認識
部50Aを有しており、音声認識部50Aは、行動決定
機構部52からの制御にしたがい、マイク15から与え
られる音声信号を用いて、音声認識を行う。そして、音
声認識部50Aは、その音声認識結果としての、例え
ば、「歩け」、「伏せ」、「ボールを追いかけろ」等の
指令その他を、状態認識情報として、感情/本能モデル
部51および行動決定機構部52に通知する。
【0031】また、センサ入力処理部50は、画像認識
部50Bを有しており、画像認識部50Bは、CCDカ
メラ16から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部50Bは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、感情/本能モデル部51およ
び行動決定機構部52に通知する。その他、画像認識部
50Bは、例えば、ユーザの顔の画像等の画像認識も行
うようになっている。
【0032】なお、画像認識部50Bにおける画像認識
結果は、上述のように、状態認識情報として、感情/本
能モデル部51および行動決定機構部52に供給される
他、音声認識部50Aにも供給されるようになってい
る。音声認識部50Aは、画像認識部50Bからの画像
認識結果に基づいて、音声認識処理に用いる各種のパラ
メータを制御し、これにより、マイク15に入力された
音声を、より正確に、さらには迅速に認識するようにな
っている。この点については後述する。
【0033】さらに、センサ入力処理部50は、圧力処
理部50Cを有しており、圧力処理部50Cは、タッチ
センサ17から与えられる圧力検出信号を処理する。そ
して、圧力処理部50Cは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた(しかられた)」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た(ほめられた)」と認識して、その認識結果を、状態
認識情報として、感情/本能モデル部51および行動決
定機構部52に通知する。
【0034】感情/本能モデル部51は、図4に示すよ
うな、ロボットの感情と本能の状態を表現する感情モデ
ルと本能モデルをそれぞれ管理している。
【0035】感情モデルは、例えば、3つの感情ユニッ
ト60A,60B,60Cで構成され、これらの感情ユ
ニット60A乃至60Dは、「うれしさ」、「悲し
さ」、「怒り」の感情の状態(度合い)を、例えば、0
乃至100の範囲の値によってそれぞれ表し、センサ入
力処理部50からの状態認識情報や時間経過等に基づい
て、その値を変化させる。
【0036】なお、感情モデルには、「うれしさ」、
「悲しさ」、「怒り」の他、「楽しさ」に対応する感情
ユニットを設けることも可能である。
【0037】本能モデルは、例えば、3つの本能ユニッ
ト61A,61B,61Cで構成され、これらの本能ユ
ニット61A乃至61Cは、「食欲」、「睡眠欲」、
「運動欲」という本能による欲求の状態(度合い)を、
例えば、0乃至100の範囲の値によってそれぞれ表
し、センサ入力処理部50からの状態認識情報や時間経
過等に基づいて、その値を変化させる。
【0038】感情/本能モデル部51は、上述のように
して変化する感情ユニット60A乃至60Cの値で表さ
れる感情の状態、および本能ニット61A乃至61Cの
値で表される本能の状態を、感情/本能状態情報とし
て、行動決定機構部52、および音声合成部55に送出
する。
【0039】行動決定機構部52は、センサ入力処理部
50からの状態認識情報や、感情/本能モデル部51か
らの感情/本能状態情報、時間経過等に基づいて、次の
行動を決定し、決定された行動の内容を、行動指令情報
として、姿勢遷移機構部53に送出する。
【0040】即ち、行動決定機構部52は、図5に示す
ように、ロボットがとり得る行動をステート(状態)(s
tate)に対応させた有限オートマトンを、ロボットの行
動を規定する行動モデルとして管理しており、この行動
モデルとしての有限オートマトンにおけるステートを、
センサ入力処理部50からの状態認識情報や、感情/本
能モデル部51における感情モデルおよび本能モデルの
値、時間経過等に基づいて遷移させ、遷移後のステート
に対応する行動を、次にとるべき行動として決定する。
【0041】具体的には、例えば、図5において、ステ
ートST3が「立っている」という行動を、ステートS
T4が「寝ている」という行動を、ステートST5が
「ボールを追いかけている」という行動を、それぞれ表
しているとする。いま、例えば、「ボールを追いかけて
いる」というステートST5において、「ボールが見え
なくなった」という状態認識情報が供給されると、ステ
ートST5からST3に遷移し、その結果、ステートS
T3に対応する「立っている」という行動を、次にとる
ことが決定される。また、例えば、「寝ている」という
ステートST4において、「起きろ」という状態認識情
報が供給されると、ステートST4からST3に遷移
し、その結果、やはり、ステートST3に対応する「立
っている」という行動を、次にとることが決定される。
【0042】ここで、行動決定機構部52は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部52は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、感情/本能モデル部51から供給される感情/本能
状態情報が示す感情の状態の値(感情ユニット60A乃
至60Cの値)、あるいは本能の状態の値(本能ユニッ
ト61A乃至61Cの値)が所定の閾値以下または以上
となったとき等に、ステートを遷移させる。
【0043】なお、行動決定機構部52は、上述したよ
うに、センサ入力処理部50からの状態認識情報だけで
なく、感情/本能モデル部51における感情モデルおよ
び本能モデルの値等にも基づいて、図5の有限オートマ
トンにおけるステートを遷移させることから、同一の状
態認識情報が入力されても、感情モデルや本能モデルの
値(感情/本能状態情報)によっては、ステートの遷移
先は異なるものとなる。
【0044】その結果、行動決定機構部52は、例え
ば、感情/本能状態情報が、「怒っていない」こと、お
よび「お腹がすいていない」ことを表している場合にお
いて、状態認識情報が、「目の前に手のひらが差し出さ
れた」ことを表しているときには、目の前に手のひらが
差し出されたことに応じて、「お手」という行動をとら
せる行動指令情報を生成し、これを、姿勢遷移機構部5
3に送出する。
【0045】また、行動決定機構部52は、例えば、感
情/本能状態情報が、「怒っていない」こと、および
「お腹がすいている」ことを表している場合において、
状態認識情報が、「目の前に手のひらが差し出された」
ことを表しているときには、目の前に手のひらが差し出
されたことに応じて、「手のひらをぺろぺろなめる」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部53に送出する。
【0046】また、行動決定機構部52は、例えば、感
情/本能状態情報が、「怒っている」ことを表している
場合において、状態認識情報が、「目の前に手のひらが
差し出された」ことを表しているときには、感情/本能
状態情報が、「お腹がすいている」ことを表していて
も、また、「お腹がすいていない」ことを表していて
も、「ぷいと横を向く」ような行動を行わせるための行
動指令情報を生成し、これを、姿勢遷移機構部53に送
出する。
【0047】さらに、行動決定機構部52では、上述し
たように、ロボットの頭部や手足等を動作させる行動指
令情報の他、ロボットに発話を行わせる行動指令情報も
生成される。ロボットに発話を行わせる行動指令情報
は、音声合成部55に供給されるようになっており、音
声合成部55に供給される行動指令情報には、音声合成
部55に生成させる合成音に対応するテキスト等が含ま
れる。そして、音声合成部55は、行動決定部52から
行動指令情報を受信すると、その行動指令情報に含まれ
るテキストに基づき、感情/本能モデル部51で管理さ
れている感情の状態や本能の状態を加味しながら、例え
ば、規則音声合成等を行うことで、合成音を生成し、ス
ピーカ18に供給して出力させる。
【0048】姿勢遷移機構部53は、行動決定機構部5
2から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部54に送出す
る。
【0049】ここで、現在の姿勢から次に遷移可能な姿
勢は、例えば、胴体や手や足の形状、重さ、各部の結合
状態のようなロボットの物理的形状と、関節が曲がる方
向や角度のようなアクチュエータ3AA1乃至5A1およ
び5A2の機構とによって決定される。
【0050】また、次の姿勢としては、現在の姿勢から
直接遷移可能な姿勢と、直接には遷移できない姿勢とが
ある。例えば、4本足のロボットは、手足を大きく投げ
出して寝転んでいる状態から、伏せた状態へ直接遷移す
ることはできるが、立った状態へ直接遷移することはで
きず、一旦、手足を胴体近くに引き寄せて伏せた姿勢に
なり、それから立ち上がるという2段階の動作が必要で
ある。また、安全に実行できない姿勢も存在する。例え
ば、4本足のロボットは、その4本足で立っている姿勢
から、両前足を挙げてバンザイをしようとすると、簡単
に転倒してしまう。
【0051】このため、姿勢遷移機構部53は、直接遷
移可能な姿勢をあらかじめ登録しておき、行動決定機構
部52から供給される行動指令情報が、直接遷移可能な
姿勢を示す場合には、その行動指令情報を、そのまま姿
勢遷移情報として、制御機構部54に送出する。一方、
行動指令情報が、直接遷移不可能な姿勢を示す場合に
は、姿勢遷移機構部53は、遷移可能な他の姿勢に一旦
遷移した後に、目的の姿勢まで遷移させるような姿勢遷
移情報を生成し、制御機構部54に送出する。これによ
りロボットが、遷移不可能な姿勢を無理に実行しようと
する事態や、転倒するような事態を回避することができ
るようになっている。
【0052】即ち、姿勢遷移機構部53は、例えば、図
6に示すように、ロボットがとり得る姿勢をノードNO
DE1乃至NODE5として表現するとともに、遷移可
能な2つの姿勢に対応するノードどうしの間を、有向ア
ークARC1乃至ARC10で結合した有向グラフを記
憶しており、この有向グラフに基づいて、上述したよう
な姿勢遷移情報を生成する。
【0053】具体的には、姿勢遷移機構部53は、行動
決定機構部52から行動指令情報が供給されると、現在
の姿勢に対応したノードNODEと、行動指令情報が示
す次に取るべき姿勢に対応するノードNODEとを結ぶ
ように、有向アークARCの向きに従いながら、現在の
ノードNODEから次のノードNODEに至る経路を探
索し、探索した経路上にあるノードNODEに対応する
姿勢を順番にとっていくように指示する姿勢遷移情報を
生成する。
【0054】その結果、姿勢遷移機構部53は、例え
ば、現在の姿勢が「ふせる」という姿勢を示すノードN
ODE2にある場合において、「すわれ」という行動指
令情報が供給されると、有向グラフにおいて、「ふせ
る」という姿勢を示すノードNODE2から、「すわ
る」という姿勢を示すノードNODE5へは、直接遷移
可能であることから、「すわる」に対応する姿勢遷移情
報を生成して、制御機構部54に与える。
【0055】また、姿勢遷移機構部53は、現在の姿勢
が「ふせる」という姿勢を示すノードNODE2にある
場合において、「歩け」という行動指令情報が供給され
ると、有向グラフにおいて、「ふせる」というノードN
ODE2から、「あるく」というノードNODE4に至
る経路を探索する。この場合、「ふせる」に対応するノ
ードNODE2、「たつ」に対応するNODE3、「あ
るく」に対応するNODE4の経路が得られるから、姿
勢遷移機構部53は、「たつ」、「あるく」という順番
の姿勢遷移情報を生成し、制御機構部54に送出する。
【0056】制御機構部54は、姿勢遷移機構部53か
らの姿勢遷移情報にしたがって、アクチュエータ3AA
1乃至5A1および5A2を駆動するための制御信号を生
成し、これを、アクチュエータ3AA1乃至5A1および
5A2に送出する。これにより、アクチュエータ3AA1
乃至5A1および5A2は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。
【0057】次に、図7は、図3のセンサ入力処理部5
0を構成する画像認識部50Bの構成例を示している。
【0058】CCDカメラ16が出力する画像信号は、
AD変換部41に供給され、そこでA/D変換されるこ
とにより、ディジタルの画像データとされる。このディ
ジタル画像データは、画像処理部42に供給される。画
像処理部42では、AD変換部41からの画像データに
対して、例えば、DCT(Discrete Cosine Transform)
等の所定の画像処理が施され、認識照合部43に供給さ
れる。
【0059】認識照合部43は、画像パターン記憶部4
4に記憶された複数の画像パターン(ここでは、例え
ば、各種の物体を撮影して得た画像に対してDCT処理
を施したもの)それぞれと、画像処理部42の出力との
間の距離を計算し、その距離を最も小さくする画像パタ
ーンを検出する。そして、認識照合部43は、その検出
した画像パターンに基づいて、CCDカメラ16で撮影
された画像を認識し、その認識結果を、状態認識情報と
して、音声認識部50A、感情/本能モデル部51、お
よび行動決定機構部52に出力する。
【0060】なお、画像パターン記憶部44には、あら
かじめ各種の物体の画像パターンを記憶させておく他、
後から、画像パターンを追加することも可能である。即
ち、例えば、CCDビデオカメラ16で、ユーザの顔を
撮影し、その画像を、AD変換部41および画像処理部
42で処理したものを、新たな画像パターンとして、認
識照合部43を介して、画像パターン記憶部44に登録
することが可能である。この場合、画像認識部50Bに
おいては、ユーザ(の顔)を認識することができるよう
になる。
【0061】次に、図8は、図3の音声認識部50Aの
構成例を示している。
【0062】マイク15からの音声信号は、AD(Analo
g Digital)変換部21に供給される。AD変換部21で
は、マイク15からのアナログ信号である音声信号がサ
ンプリング、量子化され、ディジタル信号である音声デ
ータにA/D変換される。この音声データは、特徴抽出
部22に供給される。
【0063】特徴抽出部22は、そこに入力される音声
データについて、適当なフレームごとに、例えば、MF
CC(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析結果を、特徴パラメータ(特徴ベクトル)
として、マッチング部23に出力する。なお、特徴抽出
部22では、その他、例えば、線形予測係数、ケプスト
ラム係数、線スペクトル対、所定の周波数帯域ごとのパ
ワー(フィルタバンクの出力)等を、特徴パラメータと
して抽出することが可能である。
【0064】マッチング部23は、特徴抽出部22から
の特徴パラメータを用いて、音響モデル記憶部24、辞
書記憶部25、および文法記憶部26を必要に応じて参
照しながら、マイク15に入力された音声(入力音声)
を、例えば、連続分布HMM(Hidden Markov Model)法
に基づいて音声認識する。
【0065】即ち、音響モデル記憶部24は、音声認識
する音声の言語における個々の音素や音節などの音響的
な特徴を表す音響モデルを記憶している。ここでは、連
続分布HMM法に基づいて音声認識を行うので、音響モ
デルとしては、HMM(Hidden Markov Model)が用いら
れる。辞書記憶部25は、認識対象の各単語について、
その発音に関する情報(音韻情報)が記述された単語辞
書を記憶している。文法記憶部26は、辞書記憶部25
の単語辞書に登録されている各単語が、どのように連鎖
する(つながる)かを記述した文法規則を記憶してい
る。ここで、文法規則としては、例えば、文脈自由文法
(CFG)や、統計的な単語連鎖確率(N−gram)
などに基づく規則を用いることができる。
【0066】マッチング部23は、辞書記憶部25の単
語辞書を参照することにより、音響モデル記憶部24に
記憶されている音響モデルを接続することで、単語の音
響モデル(単語モデル)を構成する。さらに、マッチン
グ部23は、幾つかの単語モデルを、文法記憶部26に
記憶された文法規則を参照することにより接続し、その
ようにして接続された単語モデルを用いて、特徴パラメ
ータに基づき、連続分布HMM法によって、マイク15
に入力された音声を認識する。即ち、マッチング部23
は、特徴抽出部22が出力する時系列の特徴パラメータ
が観測されるスコア(尤度)が最も高い単語モデルの系
列を検出し、その単語モデルの系列に対応する単語列
を、音声の認識結果として出力する。
【0067】つまり、マッチング部23は、接続された
単語モデルに対応する単語列について、特徴抽出部22
からの特徴パラメータの出現確率を累積し、その累積値
をスコアとして、そのスコアを最も高くする単語列を、
音声認識結果として出力する。
【0068】パラメータ設定部27は、音声認識処理に
用いる各種のパラメータ(以下、適宜、認識パラメータ
という)を制御する。即ち、パラメータ設定部27に
は、画像認識部50Bが状態認識情報として出力する画
像認識結果が供給されるようになっており、パラメータ
設定部27は、この画像認識結果に基づいて、ロボット
が使用されている環境を理解し、その環境において、正
確に、さらには迅速に音声認識を行うことができるよう
に、認識パラメータを制御する。
【0069】ここで、認識パラメータとしては、音響モ
デル記憶部24に記憶された音響モデルを規定するパラ
メータや、文法記憶部26に記憶された文法規則があ
る。さらに、例えば、辞書記憶部25において、音声認
識の対象とする単語が、何らかのカテゴリごとに分類さ
れ、各カテゴリごとに、複数の単語辞書に分けて登録さ
れている場合には、その複数の単語辞書のうちの、音声
認識処理に用いるものを設定する情報も、認識パラメー
タとすることができる。また、例えば、辞書記憶部25
における単語辞書に登録されている単語に重み付けを行
う場合には、その重みも、認識パラメータとすることが
できる。
【0070】いま、例えば、単語辞書に登録されている
単語に付す重みとしての認識パラメータに注目すると、
パラメータ設定部27は、画像認識結果として得られた
物体およびそれに関連するもの表す単語に大きな重みを
与えるように、認識パラメータを設定する。この場合、
マッチング部23では、画像認識結果として得られた物
体およびそれに関連するもの表す単語については、他の
単語よりも大きなスコアが得られるようになり、その結
果、音声認識結果としては、CCDカメラ16で撮影さ
れた物体およびその物体に関連するものを表す単語が得
られ易くなる。従って、ロボットの周囲にある物体およ
びその物体に関連するものを表す単語については、その
音声認識精度を向上させることができる。
【0071】次に、図9のフローチャートを参照して、
図8の音声認識部50Aによる音声認識処理について、
さらに説明する。
【0072】まず最初に、ステップS1において、パラ
メータ設定部27は、認識パラメータを、所定の初期値
に設定する。即ち、例えば、上述のように、単語辞書に
登録されている単語に付す重みとしての認識パラメータ
に注目した場合には、単語辞書に登録されている単語す
べてに対して、同一の重みが与えられる。
【0073】そして、ステップS2に進み、パラメータ
設定部27は、画像認識部50Bから画像認識結果が送
信されてきたかどうかを判定する。ステップS2におい
て、画像認識部50Bから画像認識結果が送信されてき
たと判定された場合、ステップS3に進み、パラメータ
設定部27は、その画像認識結果を受信し、さらに、そ
の画像認識結果に基づいて、認識パラメータを設定し
て、ステップS4に進む。即ち、パラメータ設定部27
は、例えば、単語辞書に登録されている単語のうち、画
像認識結果として得られた物体およびそれに関連するも
の表す単語に大きな重みを与えるように、認識パラメー
タを設定する。
【0074】また、ステップS2において、画像認識部
50Bから画像認識結果が送信されてきていないと判定
された場合、ステップS3をスキップして、ステップS
4に進み、音声認識を開始すべき何らかのトリガ(以
下、適宜、スタートトリガという)が与えられたか否か
が判定される。
【0075】ここで、スタートトリガを与える場合とし
ては、例えば、ユーザの顔等の特定の物体が、画像認識
結果として得られた場合を採用することができる。ま
た、スタートトリガを与える場合としては、例えば、コ
ンピュータが内蔵するファンの音等の定常的なノイズが
検出された場合や、マイク15を叩く音等の非定常で突
発的なノイズが検出された場合等を採用することも可能
である。さらに、スタートトリガを与える場合として
は、ユーザが意味のある単語を発話したことが検出され
た場合や、意味のない人の音声(例えば、笑い声や咳な
ど)等の非定常で突発的な音声が検出された場合を採用
することも可能である。あるいは、また、スタートトリ
ガを与える場合としては、例えば、ロボットの頭部を撫
でるといった、ユーザの特定の動作を採用することも可
能である。なお、スタートトリガは、行動決定機構部5
2から与えるようにすることが可能である。
【0076】ステップS4において、スタートトリガが
与えられていないと判定された場合、ステップS2に戻
り、以下、同様の処理を繰り返す。
【0077】また、ステップS4において、スタートト
リガが与えられたと判定された場合、ステップS5に進
み、マイク15に入力された音声が、AD変換部21に
取り込まれ、ステップS6に進む。ステップS6では、
AD変換部21において、マイク15からの音声信号が
A/D変換され、その結果得られるディジタルの音声デ
ータが、特徴抽出部22に出力される。特徴抽出部22
は、ステップS7において、A/D変換部21からの音
声データを音響分析することにより、その特徴パラメー
タを抽出し、マッチング部23に出力する。
【0078】マッチング部23は、ステップS8におい
て、現在設定されている認識パラメータに基づいて、上
述のスコア計算としてのマッチング処理を行い、ステッ
プS9に進む。ステップS9では、マッチング部23に
おいて、ステップ8で計算されたスコアのうちの最大値
に基づいて、音声認識結果が確定され、情報認識情報と
して出力される。そして、ステップS2に戻り、以下、
同様の処理が繰り返される。
【0079】従って、例えば、いま、画像認識結果に基
づいて、ある物体およびそれに関連するもの表す単語に
大きな重みを与えるように、認識パラメータが設定され
ている場合には、マッチング部23では、その物体およ
びそれに関連するもの表す単語については、他の単語よ
りも大きなスコアが得られ、その結果、音声認識結果と
しては、CCDカメラ16で撮影された物体およびその
物体に関連するものを表す単語が得られ易くなる。従っ
て、ロボットの周囲にある物体およびその物体に関連す
るものを表す単語については、その音声認識精度を向上
させることができる。
【0080】なお、ある物体およびそれに関連するもの
表す単語に大きな重みを与えるとともに、それらの単語
にまったく関係しない単語を、音声認識の対象外とする
ように、認識パラメータを設定することも可能であり、
この場合、音声認識の対象とする単語が少なくなるた
め、音声認識精度を向上させることができるとともに、
その処理速度を向上させることができる(音声認識結果
が得られるまでの時間を短くすることができる)。
【0081】また、上述の場合には、画像認識結果に基
づいて、単語辞書に登録されている単語についての重み
を変更するようにしたが、その他、画像認識結果に基づ
いて音声認識処理に用いる音響モデルや文法規則を変更
したり、さらに、辞書記憶部25に複数の単語辞書が記
憶されている場合には、その複数の単語辞書のうちの、
音声認識処理に用いるものを変更すること等の制御を行
うことが可能である。
【0082】また、例えば、ロボットを、複数のユーザ
で共有する場合等においては、音響モデル記憶部24
に、各ユーザ用の音響モデルを登録しておき(音響モデ
ル記憶部24にあらかじめ登録してある音響モデルを各
ユーザに適応させたものを、後から登録し)、画像認識
結果から、ロボットを使用しているユーザを判別して、
音声認識は、その判別したユーザ用の音響モデルを用い
て行うようにすることが可能である。
【0083】以上、本発明を、エンターテイメント用の
ロボット(疑似ペットとしてのロボット)に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、産業用のロボット等の各種のロボットに広く適用す
ることが可能である。
【0084】ここで、本実施の形態においては、上述し
た一連の処理を、CPU10Aにプログラムを実行させ
ることにより行うようにしたが、一連の処理は、それ専
用のハードウェアによって行うことも可能である。
【0085】なお、プログラムは、あらかじめメモリ1
0B(図2)に記憶させておく他、フロッピーディス
ク、CD-ROM(Compact Disc Read Only Memory),MO(Magn
eto optical)ディスク,DVD(Digital Versatile Dis
c)、磁気ディスク、半導体メモリなどのリムーバブル記
録媒体に、一時的あるいは永続的に格納(記録)してお
くことができる。そして、このようなリムーバブル記録
媒体を、いわゆるパッケージソフトウエアとして提供
し、ロボット(メモリ10B)にインストールするよう
にすることができる。
【0086】また、プログラムは、リムーバブル記録媒
体からインストールする他、ダウンロードサイトから、
ディジタル衛星放送用の人工衛星を介して、無線で転送
したり、LAN(Local Area Network)、インターネットと
いったネットワークを介して、有線で転送し、メモリ1
0Bにインストールすることができる。
【0087】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ10Bに、容易にインストールすることが
できる。
【0088】ここで、本明細書において、CPU10A
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0089】また、プログラムは、1のCPUにより処
理されるものであっても良いし、複数のCPUによって
分散処理されるものであっても良い。
【0090】
【発明の効果】本発明のロボット制御装置およびロボッ
ト制御方法、並びに記録媒体によれば、音声が認識さ
れ、その音声認識結果に基づいて、ロボットの行動が制
御される。一方、ロボットの周囲を撮影した画像の画像
認識結果に基づいて、音声認識処理に用いるパラメータ
が制御される。従って、例えば、ロボットの周囲にある
物体を表す単語の音声認識率を向上させることができ
る。
【図面の簡単な説明】
【図1】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。
【図2】図1のロボットの内部構成例を示すブロック図
である。
【図3】図2のコントローラ10の機能的構成例を示す
ブロック図である。
【図4】感情/本能モデルを示す図である。
【図5】行動モデルを示す図である。
【図6】姿勢遷移機構部54の処理を説明するための図
である。
【図7】画像認識部50Bの構成例を示すブロック図で
ある。
【図8】音声認識部50Aの構成例を示すブロック図で
ある。
【図9】音声認識部50Aの処理を説明するためのフロ
ーチャートである。
【符号の説明】
10 コントローラ, 10A CPU, 10B メ
モリ, 15 マイク, 16 CCDカメラ, 17
タッチセンサ, 18 スピーカ, 21AD変換
部, 22 特徴抽出部, 23 マッチング部, 2
4 音響モデル記憶部, 25 辞書記憶部, 26
文法記憶部, 27 パラメータ設定部, 41 AD
変換部, 42 画像処理部, 43 認識照合部,
44 画像パターン記憶部, 50 センサ入力処理
部, 50A 音声認識部, 50B 画像認識部,
50C 圧力処理部, 51 感情/本能モデル部,
52行動決定機構部, 53 姿勢遷移機構部, 54
制御機構部, 55 音声合成部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06T 1/00 G06F 15/62 380 5H269 G10L 15/00 G10L 3/00 551H 9A001 15/24 571Q Fターム(参考) 2C150 BA06 CA01 CA02 DA05 DA24 DA27 DA28 DF03 DF04 DF33 ED10 ED21 ED37 ED38 ED39 ED42 ED52 EF13 EF16 EF29 EF33 EF36 3F059 AA00 BA00 BB06 DB04 DC00 DC01 DC04 DD04 3F060 AA00 BA10 CA14 5B057 AA05 BA02 BA04 BA23 DA12 5D015 KK01 LL07 LL10 5H269 AB27 BB05 QC04 9A001 HH17 HH19 HH20 KK32

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ロボットを制御するロボット制御装置で
    あって、 音声を認識する音声認識手段と、 前記音声認識手段による音声認識結果に基づいて、前記
    ロボットの行動を制御する行動制御手段と、 前記ロボットの周囲を撮影した画像の画像認識結果に基
    づいて、前記音声認識手段による音声認識処理に用いる
    パラメータを制御するパラメータ制御手段とを備えるこ
    とを特徴とするロボット制御装置。
  2. 【請求項2】 前記画像を認識する画像認識手段をさら
    に備えることを特徴とする請求項1に記載のロボット制
    御装置。
  3. 【請求項3】 前記パラメータは、音素若しくは音韻を
    モデル化した音響モデル、音声認識の対象とする語彙が
    登録されている辞書、または文法を規定する文法規則に
    関するものであることを特徴とする請求項1に記載のロ
    ボット制御装置。
  4. 【請求項4】 前記パラメータは、音声認識の対象とす
    る語彙に関するものであることを特徴とする請求項1に
    記載のロボット制御装置。
  5. 【請求項5】 ロボットを制御するロボット制御方法で
    あって、 音声を認識する音声認識ステップと、 前記音声認識ステップによる音声認識結果に基づいて、
    前記ロボットの行動を制御する行動制御ステップと、 前記ロボットの周囲を撮影した画像の画像認識結果に基
    づいて、前記音声認識ステップによる音声認識処理に用
    いるパラメータを制御するパラメータ制御ステップとを
    備えることを特徴とするロボット制御方法。
  6. 【請求項6】 ロボットの行動を制御する制御処理を、
    コンピュータに行わせるプログラムが記録されている記
    録媒体であって、 音声を認識する音声認識ステップと、 前記音声認識ステップによる音声認識結果に基づいて、
    前記ロボットの行動を制御する行動制御ステップと、 前記ロボットの周囲を撮影した画像の画像認識結果に基
    づいて、前記音声認識ステップによる音声認識処理に用
    いるパラメータを制御するパラメータ制御ステップとを
    備えるプログラムが記録されていることを特徴とする記
    録媒体。
JP34047199A 1999-11-30 1999-11-30 ロボット制御装置およびロボット制御方法、並びに記録媒体 Pending JP2001154693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34047199A JP2001154693A (ja) 1999-11-30 1999-11-30 ロボット制御装置およびロボット制御方法、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34047199A JP2001154693A (ja) 1999-11-30 1999-11-30 ロボット制御装置およびロボット制御方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2001154693A true JP2001154693A (ja) 2001-06-08

Family

ID=18337287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34047199A Pending JP2001154693A (ja) 1999-11-30 1999-11-30 ロボット制御装置およびロボット制御方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2001154693A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004283927A (ja) * 2003-03-20 2004-10-14 Sony Corp ロボット制御装置および方法、記録媒体、並びにプログラム
JP2005173109A (ja) * 2003-12-10 2005-06-30 Nissan Motor Co Ltd 音声認識装置
JP2005215689A (ja) * 2004-02-02 2005-08-11 Fuji Xerox Co Ltd 情報源から情報を認識する方法およびシステム
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法
JP2009072910A (ja) * 2008-12-22 2009-04-09 Nec Corp ロボット装置及びその制御方法
JP2011053690A (ja) * 2009-09-03 2011-03-17 Honda Motor Co Ltd コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット
CN110695989A (zh) * 2019-09-20 2020-01-17 浙江树人学院(浙江树人大学) 一种用于智能机器人的视听交互系统及其交互控制方法
CN111401218A (zh) * 2020-03-12 2020-07-10 高宽友 一种智慧城市监控方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004283927A (ja) * 2003-03-20 2004-10-14 Sony Corp ロボット制御装置および方法、記録媒体、並びにプログラム
JP2005173109A (ja) * 2003-12-10 2005-06-30 Nissan Motor Co Ltd 音声認識装置
JP2005215689A (ja) * 2004-02-02 2005-08-11 Fuji Xerox Co Ltd 情報源から情報を認識する方法およびシステム
JP4678193B2 (ja) * 2004-02-02 2011-04-27 富士ゼロックス株式会社 音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法
JP2009072910A (ja) * 2008-12-22 2009-04-09 Nec Corp ロボット装置及びその制御方法
JP2011053690A (ja) * 2009-09-03 2011-03-17 Honda Motor Co Ltd コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット
CN110695989A (zh) * 2019-09-20 2020-01-17 浙江树人学院(浙江树人大学) 一种用于智能机器人的视听交互系统及其交互控制方法
CN111401218A (zh) * 2020-03-12 2020-07-10 高宽友 一种智慧城市监控方法及系统
CN111401218B (zh) * 2020-03-12 2023-05-26 上海虹点智能科技有限公司 一种智慧城市监控方法及系统

Similar Documents

Publication Publication Date Title
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
JP4296714B2 (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US7228276B2 (en) Sound processing registering a word in a dictionary
JP2003131683A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2001157976A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2001188555A (ja) 情報処理装置および方法、並びに記録媒体
JP2002268699A (ja) 音声合成装置及び音声合成方法、並びにプログラムおよび記録媒体
WO2002077970A1 (en) Speech output apparatus
JP2001154685A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2002116792A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2001154693A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4587009B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4600736B2 (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP2001212780A (ja) 行動制御装置および行動制御方法、並びに記録媒体
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2004283927A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP4706893B2 (ja) 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2002307349A (ja) ロボット装置、情報学習方法、プログラム及び記録媒体
JP2004286805A (ja) 話者識別装置および話者識別方法、並びにプログラム
JP2007241304A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP4016316B2 (ja) ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2001154692A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2004170756A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP2002120177A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090728