JP5617083B2

JP5617083B2 - コマンド認識装置、コマンド認識方法、及びコマンド認識ロボット

Info

Publication number: JP5617083B2
Application number: JP2010197020A
Authority: JP
Inventors: 孝太郎船越; 幹生中野; 祥左; 岩橋直人; 直人岩橋; 田口　亮; 亮田口
Original assignee: Honda Motor Co Ltd; ATR Advanced Telecommunications Research Institute International
Current assignee: Honda Motor Co Ltd; ATR Advanced Telecommunications Research Institute International
Priority date: 2009-09-03
Filing date: 2010-09-02
Publication date: 2014-11-05
Anticipated expiration: 2030-09-02
Also published as: US8532989B2; JP2011053690A; US20110112839A1

Description

本発明は、コマンド認識装置、コマンド認識方法、及びコマンド認識ロボットに関する。

ロボットを実用化するうえで、ユーザがロボットの動作を制御するインタフェースを使いやすくすることは重要である。近年、ユーザが発話した音声を認識し、その音声をロボットに対するコマンド（ｃｏｍｍａｎｄ）として動作を制御するインタフェースが開発されている。
例えば、非特許文献１及び２に記載の発明は、ユーザの視線や体の向きがロボットに向けられていることを検出した場合に、発話がロボットに対するコマンドであるものとみなして処理する。

Ｓ．Ｌａｎｇ，Ｍ．Ｋｌｅｉｎｅｈａｇｅｎｂｒｏｃｋ，Ｓ．Ｈｏｈｅｎｎｅｒ，Ｊ．Ｆｒｉｔｓｃｈ，Ｇ．Ａ．Ｆｉｎｋ，ａｎｄＧ．Ｓａｇｅｒｅｒ、"ＰｒｏｖｉｄｉｎｇｔｈｅＢａｓｉｓｆｏｒＨｕｍａｎ−Ｒｏｂｏｔ−Ｉｎｔｅｒａｃｔｉｏｎ：ＡＭｕｌｔｉ−ＭｏｄａｌＡｔｔｅｎｔｉｏｎＳｙｓｔｅｍｆｏｒａＭｏｂｉｌｅＲｏｂｏｔ，"、「ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｏｄａｌＩｎｔｅｒｆａｃｅｓ」、２００３、２８−３５Ｓ．Ｆｕｊｉｅ，Ｔ．Ｙａｍａｈａｔａ，ａｎｄＴ．Ｋｏｂａｙａｓｈｉ、"Ｃｏｎｖｅｒｓａｔｉｏｎｒｏｂｏｔｗｉｔｈｔｈｅｆｕｎｃｔｉｏｎｏｆｇａｚｅｒｅｃｏｇｎｉｔｉｏｎ，"、「ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ−ＲＡＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎｏｉｄＲｏｂｏｔｓ」、２００６、３６４−３６９

しかしながら、非特許文献１及び２に記載の発明は、ユーザの視線や体の向きがロボットに向いている場合に、ユーザによる発話がロボットに対するコマンドであるか否かに関わらず、コマンドであると誤認識される問題があった。このような問題は、例えば、あるユーザが他人に対してロボットのコマンドを説明する場合に生じる。

本発明は上記の点に鑑みてなされたものであり、ユーザが意図した場合にロボットの動作を発話により制御するためのコマンドを、より精度良く認識できる、コマンド認識装置、コマンド認識方法及びコマンド認識ロボット、を提供する。

本発明は上記の課題を解決するためになされたものであり、（１）本発明の一つの態様は、第１の物体の動作を示す語句及び前記第１の物体の動作の基準となる第２の物体の位置情報ごとの、前記第１の物体の動作軌道情報に対する確率モデル情報を記憶する記憶部と、発話情報から前記第１の物体を示す語句、前記第１の物体の動作の基準となる第２の物体の語句及び前記第１の物体の動作を示す語句を示す単語列情報を決定又は選択し、画像情報から算出された前記第１の物体の位置情報ならびに前記第２の物体の位置情報、前記第１の物体の動作を示す語句及び前記記憶部に記憶された確率モデル情報に基づいて前記第１の物体の動作軌跡情報を定める発話理解部と、前記発話情報と前記単語列情報に基づいて音声確信度を算出する音声確信度算出部と、前記動作軌跡情報が前記第１の物体の動作を示す語句が示す動作である確からしさを示す動作確信度を算出する動作確信度算出部とを備え、前記音声確信度及び前記動作確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断することを特徴とするコマンド認識装置である。

（２）また、本発明の他の態様として、上記コマンド認識装置において、前記発話理解部は、前記第１の物体の位置情報、前記第２の物体の位置情報ならびに前記第１の物体の前記第１の物体の動作を示す語句に基づいて、前記動作軌跡情報の候補に対する条件付尤度を算出し、算出した条件付尤度を用いて前記動作軌跡情報を定めるようにしてもよい。
（３）また、本発明の他の態様として、上記コマンド認識装置において、前記画像情報から各物体の特徴量を求める画像分析部を備え、前記特徴量の１つの物体が前記第１の物体である確からしさを示す画像確信度と、前記特徴量の他の１つの物体が前記第２の物体である確からしさを示す画像確信度とを算出する画像確信度算出部を備え、前記画像確信度をさらに用いて、前記単語列情報のコマンドを実行するか否かを判断するようにしてもよい。

（４）また、本発明の他の態様として、上記コマンド認識装置において、撮影した画像に基づき発話者がロボットへ注意を向けているか否かを判断し、前記発話者が前記ロボットへ注意を向けていると判断したとき、前記単語列情報のコマンドを実行させる注意判断部を備えるようにしてもよい。
（５）また、本発明の他の態様として、上記コマンド認識装置において、前記発話理解部は、過去にコマンドを実行すると判断された単語列情報に基づいて前記単語列情報を定めるようにしてもよい。

本発明によれば、ユーザが意図した場合にロボットの動作を発話により制御するためのコマンドを、より精度良く認識できる、コマンド認識装置、コマンド認識方法及びコマンド認識ロボット、を提供することができる。

本発明の第１の実施形態に係るコマンド認識ロボットの概念ブロック図である。本実施形態に係る角形性を算出するための変数と対象物体の輪郭を示す図である。本実施形態に係る発話理解部を示すブロック図である。本発明の第２の実施形態に係るコマンド認識ロボットの概念ブロック図である。本実施形態に係るコマンド制御方法の流れ図である。本実施形態に係る発話理解処理の流れ図である。本実施形態に係る概念構造が表すシーンの一例を示す概念図である。第１の実施形態に係るコマンド認識装置において無雑音音声コーパスを用いた場合の検証結果を示す図である。第１の実施形態に係るコマンド認識装置において雑音重畳音声コーパスを用いた場合の検証結果を示す図である。第２の実施形態に係るコマンド認識装置への注意の有無によるＲＤ音声及びＯＯＤ音声のサンプル数を示す図である。第２の実施形態に係るコマンド認識ロボットによる再現率、精度及びＦ値を示す図である。

（第１の実施形態）
以下、図面を参照しながら本発明の実施形態について詳しく説明する。図１は、本発明の実施形態に係るコマンド認識ロボット１のブロック図である。コマンド認識ロボット１は、コマンド認識部２、収音部３、音声分析部４、音声認識部５、撮影部６、画像分析部７、動作制御部８、駆動電力モデル記憶部９及び動作機構部１０を含んで構成される。また、コマンド認識部２が、本発明の実施形態に係るコマンド認識装置である。
コマンド認識部２は、発話理解部２１、音声確信度算出部２２１、語句確信度算出部２２、コマンド評価値算出部２２４、動作制御指示部２２５、音素音響モデル記憶部２３、音素ネットワーク記憶部２４及びコマンド辞書記憶部２５を含んで構成される。語句確信度算出部２２は、画像確信度算出部２２２及び動作確信度算出部２２３を含んで構成される。なお、語句確信度算出部２２は、画像確信度算出部２２２又は動作確信度算出部２２３のうち何れか一方を含んで構成してもよい。

収音部３は、ユーザが発した音声により空気中を伝達した音波を受信する。収音部３は、例えば、人間の音声の成分を含む音波を受信するマイクロホンである。収音部３は、受信した音波を音声信号（ｓｐｅｅｃｈｓｉｇｎａｌ）に変換し、音声分析部４に出力する。
音声分析部４は、収音部３から入力された音声信号をディジタル音声信号に変換し、公知の方法によりフレームごとに騒音抑圧（ｎｏｉｓｅｓｕｐｒｅｓｓｉｏｎ）及び音声検出（ｓｐｅｅｃｈｄｅｔｅｃｔｉｏｎ）を行う。音声検出には、例えば、混合ガウスモデルに基づく始終端検出法（ＧＭＭ−ｂａｓｅｄｅｎｄ−ｐｏｉｎｔｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄ）を用いるが、他の方法を用いてもよい。音声分析部４は、音声として検出された区間の音声信号から音声特徴量を算出し、音声認識部５に出力する。音声特徴量は、例えばメル尺度ケプストラム（ｍｅｌ−ｓｃａｌｅｃｅｐｓｔｒｕｍ）及びそれらのフレーム間の差分であるデルタケプストラム（ｄｅｌｔａｃｅｐｓｔｒｕｍ）からなる２４次元の特徴量ベクトルである。
音声認識部５は、音声分析部４から入力された音声特徴量に基づき、既知の音声認識方法によりユーザの発話内容を示す発話（ｓｐｅｅｃｈ）情報sを生成する。発話情報sは、1個以上の単語を含んで構成される単語列を示す情報である。音声認識部５は、この発話情報sを発話理解部２１及び音声確信度算出部２２１に出力する。

撮影部６は、周囲の画像を撮影し、撮影した画像の画像信号を画像分析部７に出力する。画像分析部７は、撮影部６から入力されたアナログ画像信号をディジタル画像信号に変換する。画像分析部７は、変換したディジタル画像信号に基づき１個以上の物体（ｏｂｊｅｃｔ）oが存在するか否かを判断し、その物体ごとの画像特徴量o_fを算出する。
ここで、画像分析部７は、当該ディジタル画像信号から物体oの輪郭を抽出する。輪郭を抽出するために、例えば、画像分析部７は、次の処理(a)-(d)を実行する。(a) 画像分析部７は、水平方向及び垂直方向に各々隣接する所定の個数の画素間で画素値を平滑化する。(b) 画像分析部７は、平滑化した画素値について水平方向及び垂直方向に各々隣接する画素間における差分値を算出する。(c) 画像分析部７は、算出した差分値のうち、所定の閾値よりも大きい部分を抽出する。(d) 画像分析部７は、その部分のうち各々閉じた領域を形成する部分を物体の輪郭と定める。画像分析部７が輪郭を抽出できない場合には、物体が存在しないと判断する。

物体oの画像特徴量o_fとは、例えば、大きさ、形状、及び色彩の情報のセットである。大きさとは、例えば、面積である。画像分析部７は、各物体の輪郭で囲まれる部分の画素数に基づき、各物体の面積を算出する。形状とは、例えば、アスペクト比（ａｓｐｅｃｔｒａｔｉｏ）及び角形性（ｓｑｕａｒｅｎｅｓｓ）である。画像分析部７は、アスペクト比を、例えば、輪郭毎の垂直方向の最大値と最小値の差から高さを、水平方向の最大値と最小値の差から幅を求め、その高さをその幅で除算して定める。角形性とは、物体の輪郭の形状が角ばっている程度を示す尺度である。

角形性の一例について図２を用いて説明する。例えば、図２に示す物体の輪郭３０１を内部に含む最小の長方形３０２の面積S_Lに対する物体の輪郭３０１で囲まれる面積S_Cの割合である。この角形性は、物体が角ばるほど１に近似する。

色彩を表す特徴量は、例えばＣＩＥ（ＣｏｍｍｉｓｓｉｏｎＩｎｔｅｒｎａｔｉｏｎａｌｅｄｅｌ‘ｅｃｌａｉｒａｇｅ、国際照明委員会）１９７６（L^*, a^*, b^*）色空間である。ここで、L^*は明度（ｌｉｇｈｔｎｅｓｓ）、a^*及びb^*は色相（ｃｏｌｏｒ−ｏｐｐｏｎｅｎｔｄｉｍｅｎｓｉｏｎｓ）である。画像分析部７は、物体毎の輪郭で囲まれる部分の画素値に基づき算出したL*, a*, b*の平均値を算出し、得られた値を色彩を表す特徴量と定める。

画像分析部７は、輪郭が抽出された物体oの位置情報o_p及び動作軌跡（ｔｒａｊｅｃｔｏｒｙｏｆｍｏｔｉｏｎ）情報ξを算出する。例えば、画像分析部７は、抽出した輪郭で囲まれる部分の水平方向及び垂直方向の座標値の重心を検出する。位置情報o_pは、例えば、検出した重心の水平方向及び垂直方向の座標値である。また、画像分析部７は、動作軌跡情報ξを、例えば次の処理によって定める。(a) 画像分析部７は、予め定められた数のフレーム間隔ごとに物体の位置を算出し、この位置の変化が所定の閾値を越えた時刻を移動開始時刻と定める。(b) 画像分析部７は、この位置の変化が所定の閾値以下となる期間が所定の期間以上継続したことをもって移動終了を検出する。その期間の開始時刻をもって移動終了時刻と定める。
画像分析部７は、各物体oの画像特徴量o_f、位置情報o_p及び動作軌跡情報ξを発話理解部２１に出力する。

発話理解（ｕｔｔｅｒａｎｃｅｕｎｄｅｒｓｔａｎｄｉｎｇ）部２１は、音声認識部５から入力された発話情報s及び画像分析部７から入力された物体oの画像特徴量o_f及び位置情報o_pに基づき、ロボットコマンド（ｒｏｂｏｔｃｏｍｍａｎｄ）の文法に則る単語列からなる概念構造（ｃｏｎｃｅｐｔｕａｌｓｔｒｕｃｔｕｒｅ）情報z’を決定もしくは選択する。ここで、概念構造情報とはロボットコマンドの文法に則った発話情報である。例えば、概念構造情報は、少なくとも一つの動作対象物となる物体を示す語句と少なくとも動作を示す語句を含む単語列を示す情報である。動作の対象物をトラジェクタ（ｔｒａｊｅｃｔｏｒ）、トラジェクタであるかを示す情報t’（以下、トラジェクタ情報t’と呼ぶ。）という。
ここで、２以上の物体oが検知された場合には、発話理解部２１は、どの物体がランドマーク(ｌａｎｄｍａｒｋ)かという情報l’（以下、ランドマーク情報l’と呼ぶ。）を決定もしくは選択する。ランドマークとは、動作の基準点となる物体である。
発話理解部２１は、トラジェクタの位置情報o_t’,pとランドマークの位置情報o_l’,p（決定もしくは選択された場合）と後述するコマンド辞書情報に基づき尤度を最大にする動作軌跡情報ξ’を定める。動作軌道とは、ある動作におけるトラジェクタの座標値の時系列データである。トラジェクタ情報t’と動作軌道ξ’の組a’=(t’,ξ’)を行動（ａｃｔｉｏｎ）情報とする。発話理解部２１は、そのトラジェクタ情報t’と動作軌道ξ’に基づいて行動情報a’を構成し、その行動情報a’を動作確信度算出部２２３に出力する。

発話理解部２１は、概念構造情報z’を音声確信度算出部２２１に出力する。発話理解部２１は、その概念構造情報z’に含まれるトラジェクタを示す語句の情報w’_Tならびにランドマークを示す語句の情報w’_Lを抽出し、これらの語句w’_Tならびにw’_Lの情報、トラジェクタ情報t’、ランドマーク情報l’、トラジェクタの画像特徴量o_t’,f及びランドマークの画像特徴量o_ｌ’,fを画像確信度算出部２２２に出力する。発話理解部２１は、概念構造情報z’に含まれる動作を示す語句の情報w’_Mを抽出し、その語句の情報w’_M、行動情報a’、ランドマーク情報l’、トラジェクタの位置情報o_t’,p及びランドマークの位置情報o_ｌ’,pを動作確信度算出部２２３に出力する。発話理解部２１は、その行動情報a’及びトラジェクタの位置情報o_t’,pを動作制御部８に出力する。例えば、検知された物体が１個のみの場合のように、ランドマーク情報l’が決定されない場合には、発話理解部２１は、ランドマーク情報l’、ランドマークの特徴量o_ｌ’,f及びランドマークの位置情報o_ｌ’,pを出力しない。
なお、ロボットコマンドの文法、発話理解部２１の機能及び構成については、後述する。

音素音響モデル（ｐｈｏｎｅｍｅａｃｏｕｓｔｉｃｍｏｄｅｌ）記憶部２３は、音素音響モデル情報Aを記憶する。音素音響モデル情報とは、例えば、発話情報sを構成する、ある音素から次の音素への遷移と音響特徴量に対応する確率のセットを含む。音素ネットワーク（ｐｈｏｎｅｍｅｎｅｔｗｏｒｋ）部２４は、音素ネットワーク情報G_pを記憶する。音素ネットワーク情報とは、例えば、ある言語体系において許容される音素列ごとの確率のセットを含む。日本語の音素ネットワークは、子音が２以上連続する音素列を許容しない（つまり、確率がゼロである）、母音の連続、母音と子音の交互の連続、又はこれらの組み合わせを許容する（つまり、確率がゼロ以外の値となりうる）。

ここで、音声確信度（ｓｐｅｅｃｈｃｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅ）算出部２２１は、発話理解部２１から入力された概念構造情報z’と音声認識部５から入力された発話情報sに基づき、音素音響モデル記憶部２３で記憶した音素音響モデル情報Aを用いて、概念構造情報z’の発話情報sに対する条件付尤度P(s|z’;A)を算出する。
音声確信度算出部２２１は、条件付尤度P(s|z’;A)を既知の方法により算出することができる。条件付尤度P(s|z’;A)は音声認識を行う過程で算出されるため、音声確信度算出部２２１は条件付尤度P(s|z’;A)を算出せずに、音声認識部５において算出された条件付尤度P(s|z’;A)を入力されるようにしてもよい。

音声確信度算出部２２１は、発話情報sに対する尤度のうち、音素ネットワーク部２４に記憶された音素ネットワークG_pにより許容される音素列（ｐｈｏｎｅｍｅｓｅｑｕｅｎｃｅ）ｙの発話情報sに対する条件付尤度P(s|y;A)の最大値max_y∈L(Gp)P(s|y;A)を音素音響モデル記憶部２３で記憶した音素音響モデル情報Aを用いて算出する。さらに、音声確信度算出部２２１は、発話情報sの分析対象となったフレーム長n(s)に基づき、音声確信度C_Sを、例えば次式（１）により算出し、コマンド評価値算出部２２４に出力する。

（１）

即ち、式（１）で求められる音声確信度C_Sは、音素音響モデル情報Aを用いて与えられた概念構造情報z’の発話情報sに対する条件付尤度P(s|z’;A)を、許容される音素列yの発話情報sに対する条件付尤度P(s|y;A)の最大値をベースラインとして規格化した値である。つまり、音声確信度C_Sは、音素音響モデル情報Aに基づいて発話情報sが概念構造情報z’を示す確からしさを意味する。そのため、ロボットコマンドの文法に則っている発話に係る音声確信度C_Sは、ロボットコマンドの文法に則っていない発話に係るものよりも大きくなる。なお、式（１）においてフレーム長n(s)で除算する目的は、分析対象となるフレーム長による依存性を排除することである。

なお、音声認識部５が音素音響モデル情報Aや音素ネットワーク情報G_pを記憶している場合には、音声確信度評価部２２１は条件付尤度P(s|z’;A)及びP(s|y;A)を算出するために、音声認識部５が記憶する音素音響モデル情報A及び音素ネットワーク情報G_pを利用してもよい。これらを利用する場合には、コマンド認識部２２は、音素音響モデル部２３及び音素ネットワーク部２４を備えなくともよい。
また、音声認識部５において条件付尤度P(s|y;A)を算出する場合には、音声確信度評価部２２１は条件付尤度P(s|y;A)を音声認識部５から入力してもよい。この場合、音声確信度評価部２２１は、条件付尤度P(s|y;A)を算出しなくともよい。

コマンド辞書記憶部２５は、コマンド辞書（Ｌｅｘｉｃｏｎ）情報Lを記憶する。コマンド辞書情報Ｌは、物体oを示す単語情報wごとに、物体の特徴量o_fの分布を近似する多変数ガウス関数（ｍｕｌｔｉｖａｒｉａｔｅｇａｕｓｓｉａｎｆｕｎｃｔｉｏｎ）のパラメータセットを含む。多変数ガウス関数は次式（２）で与えられる。

（２）

ここで、g₀は比例係数、x=(x₁,x₂,…,x_m)は変数ベクトル、mは次元、即ち１つの変数ベクトルに含まれる変数の数である。μ=(μ₁,μ₂,…,μ_m)は平均ベクトル、Tはベクトルの転置である。S=(σ_ij)(i,j=1,…,m)は、変数x_iとx_jとの間の共分散（ｃｏｖａｒｉａｎｃｅ）σ_ijを成分とするm行m列の共分散行列、S^-1は行列Sの逆行列を示す。|S|は、行列Sの行列式（ｄｅｔｅｒｍｉｎａｎｔ）である。即ち、前述のパラメータセットとは、比例係数ｇ₀、平均ベクトルμを構成する平均値μ₁,μ₂,…,μ_mや、行列Sを構成する共分散σ_ij(i,j=1,…,m)を含むパラメータの組をいう。

画像確信度（ｉｍａｇｅｃｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅ）算出部２２２は、発話理解部２１から入力されたトラジェクタを表す語句の情報w’_Tに対応するパラメータセットをコマンド辞書記憶部２５から読み出す。画像確信度算出部２２２は、発話理解部２１から入力されたトラジェクタの画像特徴量o_t’,fに基づきコマンド辞書部２５から読み出したパラメータセットを用いて式（２）のガウス関数により、語句情報w’_Tの画像特徴量o_t’,fに対する条件付尤度P(o_t’,f|w’_T;L)を算出する。また、画像確信度算出部２２２はこのパラメータセットを用いたガウス関数の最大値を、語句情報w’_Tに対する条件付尤度の最大値max_of P(o_f|w’_T;L)として算出する。この最大値は、このパラメータセットのもとで可能性のある画像特徴量o_fの中で最大である。

画像確信度算出部２２２は、発話理解部２１から入力されたランドマークを表す語句の情報w’_Lが存在する場合、語句情報w’_Lに対応するパラメータセットをコマンド辞書部２５から読み出す。画像確信度算出部２２２は、発話理解部２１からランドマークの画像特徴量o_l’,fに基づき読み出したパラメータセットを用いて式（２）のガウス関数により、画像特徴量o_l’,fに対する語句情報w’_Lの条件付尤度P(o_l’,f|w’_L;L)を算出する。また、画像確信度算出部２２２は読み出したパラメータセットを用いたガウス関数の最大値を、語句情報w’_Lに対する条件付尤度の最大値max_of P(o_f|w’_L;L)として算出する。当該最大値は、このパラメータセットのもとで可能性のある画像特徴量o_fの中で最大である。
そして、画像確信度算出部２２２は、画像確信度C_Iを、例えば次式（３）を用いて算出する。

（３）

即ち、式（３）により求められる画像確信度C_Iは、トラジェクタの画像特徴量o_t’,f及びランドマークの画像特徴量o_l’,fに対する、トラジェクタを示す語句情報w’_T及びランドマークを示す語句情報w’_Lの条件付尤度、P(o_t’,f|w’_T;L)及び P(o_l’,f|w’_L;L)を、上述の最大値をベースラインとして正規化した値である。つまり、画像確信度C_Iは、画像特徴量の物体o_t’,fが語句情報w’_Tが示すトラジェクタであり、画像特徴量の物体o_l’,fが語句情報w’_Lが示すランドマークである確からしさを意味する。なお、語句情報w’_Lが存在しない場合は、P(o_l’,f|w’_L;L)=1及びmax_of P(o_f|w’_L;L)=1とする。
画像確信度算出部２２２は、算出した画像確信度C_Iをコマンド評価値算出部２２４に出力する。

コマンド辞書部２５は、動作を示す語句の情報w_M及びランドマークの位置情報o_l,pごとに、ある動作軌道ξに対する物体の位置情報o_pの時系列データを表す確率モデル情報をコマンド辞書Lの一部として記憶する。この確率モデルでは、物体の位置情報o_pが時刻により可変である。この確率モデルは、例えば、物体が現時刻の位置から次時刻の位置へ遷移する確率のセットを含んで構成される隠れマルコフモデル（ＨＭＭ、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。

動作確信度（ｍｏｔｉｏｎｃｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅ）算出部２２３は、発話理解部２１から入力された概念構造情報z’に含まれる動作を示す語句情報w’_M及びランドマークの位置情報o_l’pに対応する確率モデル情報をコマンド辞書部２５から読み出す。これに先立ち、動作確信度算出部２２３は、入力された物体の位置情報o_pのうち、発話理解部２１から入力されたランドマーク情報l’によりランドマークの位置情報o_l’pを決定する。同様に、動作確信度算出部２２３は、発話理解部２１から入力された行動情報a’に含まれるトラジェクタ情報t’により動作確信度評価部２２３は、読み出した確率モデル情報に基づきランドマークの位置情報o_l’pを決定する。トラジェクタの位置情報o_t’p、ランドマークの位置情報o_l’p及び語句情報w’_Mの前述の行動情報a’に含まれる動作軌道情報ξ’に対する条件付尤度P(ξ’|o_t’p, o_l’p,w’_M;L)を算出する。

条件付尤度P(ξ’|o_t’p, o_l’p,w’_M;L)を算出するためには、動作確信度算出部２２３は、例えば次の処理を実行する。(a) 動作確信度算出部２２３は、読み出した確率モデル情報に含まれるトラジェクタt’の位置情報o_t’pの変化に対応する遷移確率を、発話開始時刻から発話終了時刻まで、順次乗算して乗算値を算出する。これらの乗算値を、読み出した確率モデル情報によって可能性がある位置情報の時系列データ全てについて算出する。これらの乗算値を全て加算してトラジェクタの位置情報o_t’p、ランドマークの位置情報o_l’p及び語句情報w’_Mの尤度P(o_t’p, o_l’p,w’_M;L)を算出する。(b) 動作確信度算出部２２３は、これらのトラジェクタの位置情報列のうち、動作軌道ξ’との誤差が一定値以下となる動作軌道についての乗算値を加算することにより尤度P(ξ;L)を算出する。(c) 動作確信度算出部２２３は、尤度P(ξ;L)を尤度P(o_t’p, o_l’p,w’_M;L)で除算することにより条件付尤度P(ξ’|o_t’p, o_l’p,w’_M;L)を算出する。

また、動作確信度算出部２２３は、読み出した確率モデル情報に基づき、物体の位置情報o_p、ランドマークの位置情報o_l’p及び語句情報w’_Mの動作軌道情報の候補ξに対する条件付尤度の最大値max_ξ,opP(ξ|o_p, o_l’p,w’_M;L)を算出する。ここでは、動作軌道情報の候補ξと物体の位置情報o_pを可変とし、この最大値は、読み出した確率モデル情報のもとで可能性のある動作軌道情報の候補ξ及び物体の位置情報o_pの中で最大である。そして、動作確信度評価部２２３は、動作確信度C_Mを、例えば次式（４）を用いて算出する。

（４）

即ち、式（４）により求められる動作確信度C_Mは、位置情報o_t’p、ランドマークの位置情報o_l’p、及び語句情報w’_Mの動作軌道情報ξ’に対するトラジェクタの条件付尤度P(ξ’|o_t’p, o_l’p,w’_M;L)を、それらの最大値max_ξ,opP(ξ|o_p, o_l’p,w’_M;L)により正規化した値である。つまり、動作確信度C_Mは、動作軌跡情報ξ’が語句情報w’_Mが示す動作であることの確からしさを意味する。
動作確信度算出部２２３は、算出した動作確信度C_Mをコマンド評価値算出部２２４に出力する。

コマンド評価値算出部２２４は、音声確信度算出部２２１から入力した音声確信度C_S、画像確信度算出部２２２から入力した画像確信度C_I及び動作確信度算出部２２３から入力した動作確信度C_Mを重み付け加算し、重み付け加算値を算出する。コマンド評価値算出部２２４は、コマンド評価値を算出する。コマンド評価値は、重み付け加算値を変数とし、変数の変化に伴い単調に増加又は減少し、最大１、最小零となる関数であればよい。

コマンド評価値は、例えばＭＳＣ（ＭｕｌｔｉｍｏｄａｌＳｅｍａｎｔｉｃＣｏｎｆｉｄｅｎｃｅ、マルチモーダル意味確信度）である。ＭＳＣは、発話情報s、シーン（ｓｃｅｎｅ）情報Ｏ、行動コンテクスト（ｂｅｈａｖｉｏｒａｌｃｏｎｔｅｘｔ）情報ｑに対して求められた行動情報a’即ち、トラジェクタ情報t’及び動作軌道情報ξ’に対する実現可能性を示す。つまり、ＭＳＣは、ＲＤ（ロボットに向けられた，Ｒｏｂｏｔ−Ｄｉｒｅｃｔｅｄ）音声である確率P(domain=RD|s,O,q)を意味する。ＭＳＣは、例えば、次式（５）により求められるC_MS(s,O,q)である。

（５）

ここで、式（５）においてθ₀がバイアス値、θ₁, θ₂及びθ₃が重み係数である。即ち、式（５）により求められるC_MS(s,O,q)は、音声確信度C_S、画像確信度C_I及び動作確信度C_Mの重み付け加算値に、さらにバイアス値θ₀を加算した値のシグモイド関数（ｓｉｇｍｏｉｄｆｕｎｃｔｉｏｎ）である。C_MS(s,O,q)を重み付け加算値から求める関数は、シグモイド関数には限らない。そのような関数は、重み付け加算値が増加するほど、C_MSは１に漸近するように単調に増加し、重み付け加算値が減少するほど、C_MSがゼロに漸近するように単調に減少する関数であればよい。

バイアス値θ₀及び重み係数θ₁, θ₂及びθ₃からなる係数セットΘは、後述する事前学習により定めておく。事前学習では、C_MS(s,O,q)とＲＤ音声又はＯＯＤ（音声ドメイン外、Ｏｕｔ−Ｏｆ−Ｄｏｍａｉｎ）音声の何れかを示す結果dを与える音声信号、シーン情報Ｏ及び行動コンテクスト情報qの組を学習サンプルとして用いる。係数セットΘは、例えば次式（６）で与えられる尤度を最大にするようにロジスティック回帰モデルを用いて求める。

（６）

式（６）において、d=(d¹, …,d^N)、dⁱは、i番目の学習サンプルによる結果データである。この結果データは、例えば、ＲＤ音声の場合dⁱ=1、ＯＯＤ音声の場合dⁱ=0である。Cⁱ _MSは、i番目の学習サンプルによるC_MS(sⁱ,Oⁱ,qⁱ)である。式（６）で与えられる尤度を最大化するためには、例えば、フィッシャーのスコアリングアルゴリズム（Ｆｉｓｃｈｅｒ’ｓｓｃｏｒｉｎｇａｌｇｏｒｉｔｈｍ）を用いることができる。
コマンド評価値算出部２２４は、算出したコマンド評価値を動作制御指示部２２５に出力する。なお、語句確信度算出部２２が、画像確信度算出部２２２又は動作確信度算出部２２３のうち一方しか備えない場合には、コマンド評価値算出部２２４は、重み付け加算値を、音声確信度C_S及び、画像確信度C_Iもしくは動作確信度C_Mのうち一方を重み付け加算することにより算出してもよい。

動作制御指示部２２５は、コマンド評価値算出部２２４から入力されたコマンド評価値が、予め定められた閾値δよりも大きいとき、ユーザが発話した音声がＲＤ音声、即ちロボットコマンドであると判断する。従って、動作制御指示部２２５は、コマンド評価値がδより大きいとき、動作制御部８及び発話理解部２１のコマンド候補選択部２１６に動作指示信号を出力する。動作制御指示部２２５は、コマンド評価値がδと等しいか、又はδより小さいとき、ユーザが発話した音声がＯＯＤ音声、即ちロボットコマンドでないと判断する。このとき、動作制御指示部２２５は、動作制御部８及び発話理解部２１のコマンド候補選択部２１６に動作指示信号を出力しない。

動作制御部８には、発話理解部２１から行動情報a’、トラジェクタの位置情報o_t’,pが、ランドマーク情報l’及びランドマークの位置情報o_l’,p（検出された場合のみ）を入力される。駆動電力モデル記憶部９には、行動情報aと動作機構部１０の少なくとも一部を構成する部品に供給する電力の時系列データパターン情報を対応づけた電力モデル情報を記憶する。この時系列データパターン情報の種類によっては、物体即ちトラジェクタの位置情報o_t,p又はランドマークの位置情報o_l,pのうち少なくとも一方により電力の時系列データが可変なものがある。例えば、「おいて(place-on)」という動作については、その部品に供給する電力の時系列データは、動作開始時においてトラジェクタの位置情報o_t,pが、動作終了時においてランドマークの位置情報o_l,pに依存する。

動作制御部８は、動作制御指示部２２５から動作指示信号を入力したとき、行動情報a’に対応する電力モデル情報を駆動電力モデル部９から読み出し、その部品に供給する電力の時系列データを決定する。この電力モデル情報が、位置情報o_t,p又は位置情報o_l,pにより可変である場合、動作制御部８は、この電力モデル情報と行動情報a’が示すトラジェクタの位置情報o_t’,p又はランドマークの位置情報o_l’,pに基づき、その部品に供給する電力の時系列データを決定する。動作制御部８は、決定した電力の時系列データに基づき、その部品へ電力を供給する。この部品とは、例えば、マニピュレータや多指グラスパ（ｍｕｌｔｉ−ｆｉｎｇｅｒｇｒａｓｐｅｒ）である。
動作制御部８からその部品に電力が供給され、その部品が動作することにより、動作機構部１０はロボットコマンドと認識されたユーザによる発話に応じた動作を実行する。一方、動作制御指示部２２５から動作制御部８に動作指示信号が入力されないときは、動作制御部８から動作機構部１０を構成する部品へ電力を供給されず、動作機構部１０は、ユーザの発話に基づいた動作を実行しないことになる。

次に発話理解部２１の構成について、図３を用いて説明する。図３は、本実施形態に係る発話理解部２１の一例を示すブロック図である。発話理解部２１は、音声信念算出部２１１、視覚信念算出部２１２、動作信念算出部２１３、動作オブジェクト関係信念算出部２１４、行動コンテクスト信念算出部２１５、及びコマンド候補選択部２１６と、を含んで構成される。コマンド認識部２は、さらにコマンド文法記憶部２６、第１パラメータセット記憶部２７及び第２パラメータセット記憶部２８を有する。発話理解部２１は、動作の際に、コマンド辞書記憶部２５、コマンド文法記憶部２６、第１パラメータセット記憶部２７及び第２パラメータセット記憶部２８に予め記憶されている情報を用いる。

コマンド辞書記憶部２５は、前述のようにコマンド辞書情報Lを記憶する。コマンド辞書情報Lは、単語列情報及び概念（ｃｏｎｃｅｐｔ）情報を対応付けた尤度情報も含む。この概念情報の各々は、物体の静止画像の特徴量と動作情報及び助詞（ｐａｒｔｉｃｌｅ）を表す情報を含む。なお、コマンド辞書は、概念情報に含まれる、物体を示す語句情報wごとに、物体の特徴量o_fの分布を近似する多変数ガウス関数のパラメータセットを含む。

前述の概念情報の各々は、上述のように動作を示す語句情報w_M及びランドマークの位置情報o_lpごとに、ある動作軌道情報ξに対する物体の位置情報o_pの時系列データの確率の組からなる確率モデル情報を記憶する。但し、この確率モデルでは、物体の位置情報o_pが時刻により可変である。この確率モデルは、例えば、物体が現時刻における位置から次時刻における位置へ遷移する確率のセットを含んで構成されるＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）である。

コマンド文法部２６は、ロボットコマンドとして可能性がある単語列情報、即ち概念構造情報の候補zごとの尤度を含む統計言語モデル情報G_rを記憶する。
本実施形態において、ロボットコマンドの文法によれば、発話情報sは、概念構造情報の候補zにより表される。以下、概念構造情報の候補zの例について説明する。概念構造情報の候補zは、動作を示す語句情報w_Mとトラジェクタを表す語句情報w_Tとを含み、z=[(動作：w_M),(トラジェクタ：w_T)]と表される。または、概念構造情報の候補zには、動作を示す語句情報w_Mとトラジェクタを表す語句情報w_Tとに加え、ランドマークを示す語句情報w_Lを含み、z=[(動作：w_M),(トラジェクタ：w_T), (ランドマーク：w_L)]と表されるものもある。例えば、「みかんをはこにのせて」(Place the orange on the box.)という発話に対しては、概念構造情報zはz=[(動作：「のせて(place-on)」),(トラジェクタ：「みかん(orange)」), (ランドマーク：「はこ(box)」)]である。図７は、この概念構造情報が表すシーンの一例である。ここで、図７は、３個の物体、即ち「みかん」３１１、「カメラ」３１２及び「はこ」３１３である。そのうち、「みかん」３１１が操作の対象となるトラジェクタであり、「はこ」３１３が動作の参照点となるランドマークである。また、矢印で示すトラジェクタの位置の変化が動作である。

第１パラメータセット部２７は、動作を示す単語情報w_Mごとに、トラジェクタの画像特徴量o_t,f及びランドマークの画像特徴量o_l,fの分布を近似する多変数ガウス関数のパラメータセットRを記憶する。
第２パラメータセット部２８は、物体情報及び行動コンテクスト（ｂｅｈａｖｉｏｒａｌｃｏｎｔｅｘｔ）情報qごとに、パラメータHを記憶する。行動コンテクスト情報とは、ロボットが動作をとる際の、周囲のユーザ及び物体の状況を特徴づける情報の一種の要素である。例えば、行動コンテクスト情報qは過去に決定もしくは選択されたトラジェクタ情報t’、及びランドマーク情報l’を含む。その場合、パラメータHは、指示対象としての物体の適切さを示す尺度を示す。

音声信念（ｓｐｅｅｃｈｂｅｌｉｅｆ）算出部２１１は、認識結果の候補である概念構造情報の候補zの音声認識部５から入力された発話情報sに対する条件付尤度P(s|z;L)をコマンド辞書部２５から読み出したコマンド辞書情報Lに基づき算出する。条件付尤度P(s|z;L)の算出方法は、上述の条件付尤度P(s|z’;L)の算出方法と同様である。また、音声信念算出部２１１は、この概念構造情報の候補zに対応する尤度P(z;G_r)をコマンド文法部２６から読み出す。音声信念算出部２１１は、例えば、次式（７）に基づき、音声信念関数（ｓｐｅｅｃｈｂｅｌｉｅｆ）B_sを算出する。

（７）

即ち、音声信念関数B_Sとは、コマンド辞書情報Lに基づく概念構造情報の候補zの発話情報sに対する条件付確率である。音声信念算出部２１１は、音声信念関数B_sをコマンド候補選択部２１６に出力する。また、音声信念算出部２１１は、概念構造情報の候補zに含まれるトラジェクタを表す語句情報w_T及びランドマークを表す語句情報w_L（概念構造の候補zに含まれる場合のみ）を視覚信念算出部２１２に出力し、動作を表す語句情報w_Mを動作信念算出部２１３及び動作オブジェクト関係信念算出部２１４に出力する。

視覚信念（ｉｍａｇｅｂｅｌｉｅｆ）算出部２１２は、音声信念算出部２１１から入力されたトラジェクタを表す語句情報w_Tに対応するパラメータセットをコマンド辞書部２５から読み出す。視覚信念算出部２１２は、画像分析部７から入力したトラジェクタの画像特徴量o_ｔ,fに基づき読み出したパラメータセットを用いて式（２）のガウス関数により、画像特徴量o_t,fに対する語句情報w_Tの尤度P(o_t,f|w_T;L)を算出する。また、視覚信念算出部２１２は、このランドマークを表す語句情報w_Lに対応するパラメータセットをコマンド辞書部２５から読み出す。視覚信念算出部２１２は、画像分析部７から入力したランドマークの画像特徴量o_l,fに基づき読み出したパラメータセットを用いて式（２）のガウス関数により、画像特徴量o_l,fに対する語句情報w_Lの尤度P(o_l,f|w_L;L)を算出する。視覚信念算出部２１２は、例えば、式（８）に基づき、視覚信念関数（ｉｍａｇｅｂｅｌｉｅｆ）B_Iを算出する。

（８）

即ち、視覚信念関数B_Iとは、コマンド辞書Lに基づく語句情報w_T及びw_Lの画像特徴量o_t,f及びo_l,fに対する条件付尤度である。視覚信念算出部２１２は、視覚信念関数B_Iをコマンド候補選択部２１６に出力する。なお、概念構造情報の候補zにランドマークを表す語句情報w_Lが含まれない場合には、式（８）のlogP(o_l,f|W_L;L)の部分を算出する必要はなく、この部分をゼロとしてよい。

動作信念（ｍｏｔｉｏｎｂｅｌｉｅｆ）算出部２１３は、音声信念算出部２１１から入力された動作を表す語句情報w_Mに対応する確率モデル情報をコマンド辞書部２５から読み出す。また、動作信念算出部２１３は、画像分析部７からトラジェクタの位置情報o_t,p、ランドマークの位置情報o_l,p及び動作軌道情報ξを入力される。動作信念算出部２１３は、読み出した確率モデル情報に基づき、そのトラジェクタの位置情報o_t,p、ランドマークの位置情報o_l,p及び語句情報w_Mの動作軌道情報の候補ξに対する条件付尤度P(ξ|o_t,p,o_l,p,w_M;L)を算出する。この条件付尤度を算出する方法は、例えば前述の条件付尤度P(ξ’|o_t’p, o_l’p,w’_M;L)を算出する方法と同様である。この条件付尤度が、動作信念関数（ｍｏｔｉｏｎｂｅｌｉｅｆ）B_Mである。動作信念算出部２１３は、算出した動作信念関数B_Mをコマンド候補選択部２１６に出力する。

動作オブジェクト関係信念（ｍｏｔｉｏｎ−ｏｂｊｅｃｔｒｅｌａｒｉｏｎｓｈｉｐｂｅｌｉｅｆ）算出部２１４は、音声信念算出部２１１から入力された動作を表す語句情報w_Mに対応するパラメータセットRを第一パラメータセット部２７から読み出す。動作オブジェクト関係信念算出部２１４は、画像分析部７から入力したトラジェクタの画像特徴量o_t,f及びランドマークの画像特徴量o_l,fに基づき、読み出したパラメータセットRを用いて例えば式（２）のガウス関数により、語句情報w_Mの画像特徴量o_l,f及び画像特徴量o_l,fに対する条件付尤度P(o_t,f,o_l,f|w_M;R)を算出する。この条件付尤度が、動作オブジェクト関係信念関数（ｍｏｔｉｏｎ−ｏｂｊｅｃｔｒｅｌａｒｉｏｎｓｈｉｐｂｅｌｉｅｆ）B_Rである。動作オブジェクト関係信念算出部２１４は、算出した動作オブジェクト関係信念関数B_Rをコマンド候補選択部２１６に出力する。

行動コンテクスト信念（ｂｅｈａｖｉｏｒａｌｃｏｎｔｅｘｔｂｅｌｉｅｆ）算出部２１５には、後述するコマンド候補選択部２１６から過去にロボットコマンドと判断されたとき（例えば、直前に発話情報sがＲＤ音声と判断されたとき）のトラジェクタ情報t’及びランドマーク情報l’が入力される。行動コンテクスト信念算出部２１５では、これらの入力された情報を行動コンテクスト情報qとして用いる。そのため、行動コンテクスト信念算出部２１５は、現在のトラジェクタ情報の候補t及び行動コンテクスト情報qに対応するパラメータH_tを第２パラメータセット部２８から読み出す。読み出した第１のパラメータH_tをB_H(t,q;H)と示す。また、行動コンテクスト信念算出部２１５は、現在のランドマーク情報の候補l及び行動コンテクスト情報qに対応する第２のパラメータH_lを第２パラメータセット部２８から読み出す。読み出した第２パラメータH_lをB_H(l,q;H)と示す。行動コンテクスト信念算出部２１５は、行動コンテクスト信念関数（ｂｅｈａｖｉｏｒａｌｃｏｎｔｅｘｔｂｅｌｉｅｆ）B_Hを、例えば次式（９）のように第１パラメータ及び第２パラメータを加算して算出する。

（９）

行動コンテクスト信念算出部２１５は、算出した行動コンテクスト関数B_Hをコマンド候補選択部２１６に出力する。
前述のように、行動コンテクスト信念関数B_Hは、物体が操作対象として適切か否かを示す尺度である。本実施態様では、過去にＲＤ音声と判断された発話情報sについてのトラジェクタ情報t’及びランドマーク情報l’を行動コンテクスト情報qとして用いる。つまり、行動コンテクスト情報qは、後述するコマンド候補選択部２１６から入力されたランドマーク情報l’及び行動情報a’に含まれるトラジェクタ情報t’である。そのため、本実施態様によれば、どの物体がトラジェクタか否か、あるいは、どの物体がランドマークか否かという判断が安定し、発話による動作を精度よく認識でき、この結果コマンドを正しく認識できる。

コマンド候補選択部２１６は、音声信念算出部２１１、視覚信念算出部２１２、動作信念算出部２１３、動作オブジェクト関係信念算出部２１４及び行動コンテクスト信念算出部２１５から各々入力された音声信念関数B_S、視覚信念関数B_I、動作信念関数B_M、動作オブジェクト関係信念B_R及び行動コンテクスト関係信念関数B_Hを重み付け加算し、共有信念関数（ｓｈａｒｅｄｂｅｌｉｅｆ）Ψ(s,a,O,q,L,G_r,R,H,Γ) を、例えば次式（１０）を用いて算出する。

（１０）

ここで、{γ₁, γ₂, γ₃, γ₄, γ₅}=Γは重み係数のセットを示す。重み係数のセットΓは、事前学習により予め求めておく。共有信念関数Ψとは、与えられたシーン情報Ｏのもとで、発話情報sと実行しようとする行動情報の候補a、つまり、トラジェクタ情報の候補tと動作軌道の候補ξの組との関連度を示す尺度である。
発話情報sについて可能性がある他の概念構造情報の候補z及びランドマーク情報の候補lについても、音声信念算出部２１１、視覚信念算出部２１２、動作信念算出部２１３、動作オブジェクト関係信念算出部２１４及び行動コンテクスト信念算出部２１５は、各々の関数B_S、B_I、B_M、B_R及びB_Hを算出し、コマンド候補選択部２１６は、共有信念関数Ψを算出する。そして、コマンド候補選択部２１６は、算出された共有信念関数Ψから最大値を探索し、その最大値をとる概念構造情報の候補z及びランドマーク情報の候補lを選択もしくは決定する。各々、選択した概念構造情報をz’、ランドマーク情報をl’と表す。なお、発話理解部２１への入力によっては、ランドマークlを示す語句情報w’_Lを含まない概念構造情報z’が選択されるときには、コマンド候補選択部２１６はランドマークl’を選択しなくともよい。
また、コマンド候補選択部２１６は、算出された共有信念関数Ψの中で最大値をとる行動情報a’を選択もしくは決定する。選択した行動情報a’は、例えば次式（１１）で示されるものである。

（１１）

コマンド候補選択部２１６は、概念構造情報z’を音声確信度算出部２２１に出力する。コマンド候補選択部２１６は、トラジェクタ情報t’、ランドマーク情報l’、概念構造情報z’に含まれるトラジェクタを示す語句情報w’_T、ランドマークを示す語句情報w’_L、トラジェクタの画像特徴量o_t’,f及びランドマークの画像特徴量o_l’,fを選択し、画像確信度算出部２２２に出力する。コマンド候補選択部２１６は、行動情報a’、ランドマーク情報l’、概念構造情報z’ トラジェクタの位置情報o_t’,p及びランドマークの位置情報o_l’,pに含まれる動作を示す語句情報w’_Mを選択し、動作確信度算出部２２３に出力する。

コマンド候補選択部２１６は、トラジェクタの位置情報o_t’,p、ランドマークの位置情報o_l’,p、行動情報a’及びランドマーク情報l’を選択し、動作制御部８に出力する。なお、コマンド判断部２２の動作制御指示部２２５から動作指示信号を入力されたときは、コマンド候補選択部２１６は、選択したランドマーク情報l’及び行動情報a’に含まれるトラジェクタ情報t’を行動コンテクスト信念算出部２１５に出力する。なお、概念構造情報z’にランドマークを示す語句情報w’_Lが含まれない場合には、ランドマーク情報l’は決定されないため、コマンド候補選択部２１６は、ランドマーク情報l’、その画像特徴量o_l’,f及びその位置情報o_l’,pを出力しなくてもよい。

このように、本実施形態によれば、コマンド判断部２２において、音声確信度C_sの他、画像確信度C_I又は動作確信度C_Mを用いてコマンド評価値C_MSを算出している。画像情報により得られた周囲のシーン、すなわちトラジェクタやランドマークの特徴量や位置が考慮される。そのため、本実施態様によれば、周囲のシーンに応じてユーザの発話がロボットに向けられているか、すなわちロボットコマンドであるか否か的確に判断できる。

また、ユーザの発話は、必ずしもロボットコマンドの文法に則っているとは限らない。例えば、「みかんだね」と、発話が物体を示す語句「みかん」を含んでいるが、動作を示す語句を含まない場合がある。また、ユーザの発話は、一つの意味内容を示していても、表現が異なることがある。例えば、動作を示す「置いて」という語句の代わりに、この語句と同一の意味を有する「置け」、「載せて」、という語句が使用されることがある。
そこで、本実施形態は、音声確信度及び画像確信度もしくは動作確信度を概念構造やそれを構成する語句の尤度に基づいて算出している。この結果、ユーザによる発話情報sがロボットコマンドの文法に則っていない場合や、コマンド辞書に登録された語句以外の発話があった場合でも、ロボットコマンドである可能性が完全に排除されることにはならない。従って、このような場合でも、本実施形態はユーザが意図したロボットの動作制御を実行することができる。

（第２の実施形態）
以下、図４を参照しながら本発明の第２の実施形態について説明する。図４は、本実施形態に係るコマンド認識ロボット３１のブロック図である。また、コマンド認識部３２が、本発明の実施形態に係るコマンド認識装置である。本実施形態のコマンド認識ロボット３１及びコマンド認識部３２は、図１に示す第１の実施形態に係るコマンド認識ロボット１及びコマンド認識部２の構成に加え、注意判断部１１を有している。その他の部分の構成及び機能は、特に言及しない限り、第１の実施形態に係るコマンド認識ロボット１及びコマンド認識部２と共通する。

音声分析部４は、音声と判定した区間の音声信号を注意判断部１１に出力する。撮影部６は、撮影した画像信号を注意判断部１１に出力する。
注意判断部１１は、音声分析部４から入力された音声信号及び撮影部６から入力した画像信号に基づいて、公知の方法により画像に写っているユーザがコマンド認識ロボット３１に対し注意を向けているか否かを判定する。例えば、注意判断部１１は、ユーザの顔の方向α₁を逐次に検出し、基準となる方向（例えば撮影部６の光軸方向）との角度差Δαが、予め定められた閾値βよりも小さい状態が継続する時間の音声と判定された区間に対する比率が一定の比率Ｔも大きい場合、ユーザがコマンド認識ロボット３１に注意を向けていると判断する。ここで、閾値βは、例えば５°である。比率Ｔは、例えば５０％である。角度差Δαが、閾値βと同一もしくはそれ以上の場合、又は角度差Δαが、閾値βよりも小さい状態が継続する時間の音声と判定された区間に対する比率が、所定の比率Tと同一もしくはそれよりも短い場合、注意判断部１１は、ユーザがコマンド認識ロボット３１に注意を向けていないと判断する。

注意判断部１１は、顔の方向α₁を検出するために、例えば次の処理を実行する。(a) 注意判断部１１は、入力した画像信号から目尻や口元などの顔の特徴点を３点以上抽出する。但し、注意判断部１１は、ユーザが撮影部６の正面を向いている場合に撮影したときの顔の特徴点を基準特徴点として予め収録しておく。(b) 注意判断部１１は、方向の変化に伴う基準特徴点間の距離の変化を予測する。(c) 注意判断部１１は、予測した距離と逐次に抽出した特徴点間の距離の誤差を求める。(d) 注意判断部１１は、最も誤差が少なくなる方向を、顔の方向α₁と検出する。顔の方向α₁を検出するために、その他の画像処理方法や視線検出方法を用いてもよい。

注意判断部１１は、ユーザがコマンド認識ロボット３１に注意を向けていると判断した場合には、動作開始信号を生成し、生成した動作開始信号を発話理解部２１に出力する。発話理解部２１は、注意判断部１１から動作開始信号を入力されたとき、前述の動作を実行可能にする。注意判断部１１は、ユーザがコマンド認識ロボット３１に注意を向けていないと判断した場合には、動作停止信号を発話理解部２１に出力する。発話理解部２１は、注意判断部１１から動作停止信号を入力したとき前述の動作を停止する。これにより、発話理解部２１は、ユーザがコマンド認識ロボット３１に注意を向けている場合に動作し、ユーザが注意を向けていない場合には動作しない。その結果、ユーザが注意を向けていると判断された場合にのみ、動作制御指示部２２５は、ユーザの発話情報sがＲＤ音声か否か判断する。そのため、ユーザの発話情報sがロボットコマンドの文法に則っていたり、類似している場合でも、本実施形態によればユーザがロボットに注意を向けていない場合に、発話情報sがロボットコマンドと認識されてしまうという問題を解消できる。

なお、本実施形態において、注意判断部１１が動作開始信号及び動作停止信号を、コマンド判断部２２又は動作制御部８に出力するようにし、動作制御指示部２２５又は動作制御部８は動作開始信号を入力されてから動作停止信号を入力されるまで動作するようにしてもよい。この場合も、上記の実施態様と同様に、ユーザがロボットに注意を向けていない場合でも、発話情報がロボットコマンドと認識されてしまうという問題を解消できる。

次に、本実施形態に係るコマンド制御方法について図を用いて説明する。図５は、本実施形態に係るコマンド制御方法の流れ図である。各部における機能や構成については前述のコマンド認識ロボット３１と同様である。
（ステップＳ１０１）注意判断部１１は、音声分析部４から入力された音声信号及び撮影部６から入力された画像信号に基づいて、画像に写されたユーザがロボットに対し注意を向けているか否かを判定する。例えば、注意判断部１１は、ユーザの顔の方向α₁を逐次に検出し、基準となる方向（例えば撮影部６の光軸方向）との角度差Δαが、予め定められた閾値βよりも小さい状態が継続する時間の音声と判断された区間に対する比率が、所定の比率Ｔよりも大きい場合、このユーザがコマンド認識ロボット３１に注意を向けていると判断する。角度差Δαが、閾値βと同一もしくはそれ以上の場合、又は角度差Δαが、閾値βよりも小さい状態が継続する時間の音声と判定された区間に対する比率が、所定の比率Ｔと同一もしくはそれよりも短い場合、注意判断部１１は、このユーザがコマンド認識ロボット３１に注意を向けていないと判断する。

（ステップＳ１０２）注意判断部１１は、ユーザがコマンド認識ロボット３１に注意を向けていると判断した場合（ステップＳ１０２Ｙ）、ステップＳ１０３及びステップＳ１０５に進む。コマンド認識ロボット３１は、ステップＳ１０３及びステップＳ１０５を並行して実行してもよいし、ステップＳ１０３及びステップＳ１０５を逐次に実行してもよい。
注意判断部１１は、ユーザがコマンド認識ロボット３１に注意を向けていないと判断したとき（ステップＳ１０２Ｎ）、終了する。
（ステップＳ１０３）音声分析部４は、収音部３から入力された音声信号をディジタル音声信号に変換し、既知の方法によりフレームごとに騒音抑圧及び音声検出を行う。音声として検出された区間の音声信号から音声特徴量を算出し、音声認識部５に出力する。また、音声分析部４は、音声と判定された区間の音声信号を注意判断部１１に出力する。
（ステップＳ１０４）音声認識部５は、音声分析部４から入力された音声特徴量に基づき、既知の音声認識方法により発話情報sを生成し、発話理解部２１及び音声確信度算出部２２１に出力する。

（ステップＳ１０５）画像分析部７は、撮影部６から入力されたアナログ画像信号をディジタル画像信号に変換する。画像分析部７は、変換したディジタル画像信号に基づき１個以上の物体が存在するか否かを判断し、その物体についての特徴量o_fを算出する。また、画像分析部７は、物体の位置情報o_p及び動作軌跡情報ξを算出する。画像分析部７は、各物体の画像特徴量o_f、位置情報o_p及び動作軌跡情報ξを発話理解部２１に出力する。

（ステップＳ１０６）発話理解部２１は、音声認識部５から入力された発話情報s及び画像分析部７から入力された物体oの画像特徴量o_f及び位置情報o_pに基づき、概念構造情報z’、行動情報a’及びランドマーク情報l’を決定する。
発話理解部２１は、概念構造情報z’を音声確信度算出部２２１に出力する。発話理解部２１は、概念構造情報z’に含まれるトラジェクタを示す語句の情報w’_Tならびにランドマークを示す語句の情報w’_L、トラジェクタ情報t’、ランドマーク情報l’、トラジェクタの画像特徴量o_t’,f及びランドマークの画像特徴量o_ｌ’,fを画像確信度算出部２２２に出力する。発話理解部２１は、概念構造情報z’に含まれる動作を示す語句の情報w’_M、行動情報a’、ランドマーク情報l’、トラジェクタの位置情報o_t’,p及びランドマークの位置情報o_ｌ’,pを動作確信度算出部２２３に出力する。発話理解部２１は、行動情報a’及びトラジェクタの位置情報o_t’,pを動作制御部８に出力する。例えば、決定された物体が１個のみの場合のように、ランドマーク情報l’が決定されない場合には、発話理解部２１は、ランドマーク情報l’、ランドマークの特徴量o_ｌ’,f及びランドマークの位置情報o_ｌ’,pを出力しない。
なお、本ステップにおける詳細な処理については、後述する。

（ステップＳ１０７）コマンド判断部２２を構成する音声確信度算出部２２１は、発話理解部２１から入力された概念構造情報z’と音声認識部５から入力された発話情報sに基づき、音素音響モデル記憶部２３に記憶した音素音響モデル情報Aを用いて、概念構造情報z’の発話情報sに対する条件付尤度P(s|z’;A)を算出する。
音声確信度算出部２２１は、発話情報sに対する条件付尤度のうち、音素ネットワーク記憶部２４に記憶された音素ネットワーク情報G_pにより許容される音素列yの発話情報sに対する条件付尤度P(s|y;A)のうち最大となる条件付尤度max_y∈L(Gp)P(s|y;A)を算出する。音声確信度算出部２２１は、これらの条件付尤度と発話情報sの分析対象となったフレーム長n(s)を用いて、音声確信度C_Sを、例えば式（１）により算出し、コマンド評価値算出部２２４に出力する。

（ステップＳ１０８）画像確信度算出部２２２は、発話理解部２１から入力されたトラジェクタを表す語句情報w’_Tに対応するパラメータセットをコマンド辞書部２５から読み出す。画像確信度算出部２２２は、発話理解部２１から入力したトラジェクタの画像特徴量o_t’,fに基づきコマンド辞書部２５から読み出したパラメータセットを用いて、例えば式（２）のガウス関数により、語句情報w’_Tの画像特徴量o_t’,fに対する条件付尤度P(o_t’,f|w’_T;L)を算出する。また、画像確信度算出部２２２は当該パラメータセットを用いたガウス関数の最大値を、語句情報w’_Tに対する条件付尤度の最大値max_of P(o_f|w’_T;L)として算出する。そして、画像確信度算出部２２２は、画像確信度C_Iを、これらの条件付尤度を用いて、例えば式（３）を用いて算出する。画像確信度算出部２２２は、算出した画像確信度C_Iをコマンド評価値算出部２２４に出力する。

（ステップＳ１０９）動作確信度算出部２２３は、発話理解部２１から入力された概念構造情報z’に含まれる動作を示す語句情報w’_M及びランドマークの位置情報o_l’pに対応する確率モデル情報をコマンド辞書部２５から読み出す。動作確信度算出部２２３は、読み出した確率モデル情報に基づき、トラジェクタの位置情報o_t’p、ランドマークの位置情報o_l’p及び語句情報w’_Mの発話理解部２１から入力された動作軌道情報ξ’に対する条件付尤度P(ξ’|o_t’p, o_l’p,w’_M;L)を算出する。また、動作確信度算出部２２３は、当該確率モデルに基づき、入力されたランドマークの位置情報o_l’p及び語句情報w’_Mの動作軌道情報ξに対する条件付尤度の最大値max_ξ,opP(ξ|o_p, o_l’p,w’_M;L)を算出する。そして、動作確信度算出部２２３は、動作確信度C_Mを、これらの条件付尤度を用いて、例えば式（４）を用いて算出する。動作確信度算出部２２３は、算出した動作確信度C_Mをコマンド評価値算出部２２４に出力する。

（ステップＳ１１０）コマンド評価値算出部２２４は、音声確信度算出部２２１から入力した音声確信度C_S、画像確信度算出部２２２から入力した画像確信度C_I及び動作確信度算出部２２３から入力した動作確信度C_Mを重み付け加算し、重み付け加算値に基づき、例えば式（５）を用いてコマンド評価値を算出する。コマンド評価値算出部２２４は、算出したコマンド評価値を動作制御指示部２２５に出力する。
（ステップＳ１１１）動作制御指示部２２５は、コマンド評価値算出部２２４から入力されたコマンド評価値が、閾値δよりも大きいとき（ステップＳ１１１Ｎ）、動作制御部８及び発話理解部２１のコマンド候補選択部２１６に動作指示信号を出力する。動作制御指示部２２５は、コマンド評価値がδと等しいか、又はδより小さいとき（ステップＳ１１１Ｙ）、処理を終了する。

（ステップＳ１１２）動作制御部８は、発話理解部２１から行動情報a’、トラジェクタの位置情報o_t’,p、ランドマーク情報l’及びその位置情報o_l’,pを入力する。動作制御部８は、動作制御指示部２２５から動作指示信号が入力されたとき、行動情報a’に対応する電力モデルを駆動電力モデル部９から読み出し、動作機構部１０の少なくとも一部を構成する部品に供給する電力の時系列データを決定する。動作制御部８は、決定した電力の時系列データに基づき、その部品へ電力を供給する。これにより動作機構部１０は、ロボットコマンドと認識されたユーザによる発話情報sに応じた動作を実行し、処理を終了する。

次に、上記のステップＳ１０６における詳細な処理について説明する。図７は、ステップＳ１０６における発話理解処理の流れ図である。
（ステップＳ１０６−１）音声信念算出部２１１は、音声認識部５から入力された発話情報sに対する、概念構造情報の候補zの条件付尤度P(s|z;L)をコマンド辞書記憶部２５から読み出したコマンド辞書情報Lに基づいて算出する。また、音声信念算出部２１１は、概念構造情報の候補zに対応する尤度P(z;G_r)をコマンド文法記憶部２６から読み出す。音声信念算出部２１１は、算出した条件付尤度を用いて例えば式（７）に基づき、音声信念関数（ＳｐｅｅｃｈＢｅｌｉｅｆ）B_sを算出する。音声信念算出部２１１は、音声信念関数B_sをコマンド候補選択部２１６に出力する。また、音声信念算出部２１１は、概念構造情報の候補zに含まれるトラジェクタを表す語句情報w_T及びランドマークを表す語句情報w_L（概念構造情報の候補zに含まれる場合）を抽出して、抽出した語句情報w_Lを視覚信念算出部２１２に出力し、動作を表す語句情報w_Mを動作信念算出部２１３及び動作オブジェクト関係信念算出部２１４に出力する。

（ステップＳ１０６−２）視覚信念算出部２１２は、音声信念算出部２１１から入力された語句情報w_Tに対応するパラメータセットをコマンド辞書部２５から読み出す。視覚信念算出部２１２は、画像分析部７から入力したトラジェクタの画像特徴量o_ｔ,fに基づき読み出したパラメータセットを用いて例えば式（２）のガウス関数により、語句情報w_Tの画像特徴量o_t,fに対する条件付尤度P(o_t,f|w_T;L)を算出する。また、視覚信念算出部２１２は、音声信念算出部２１１から入力されたランドマークを表す語句情報w_Lに対応するパラメータセットをコマンド辞書記憶部２５から読み出す。視覚信念算出部２１２は、画像分析部７から入力したランドマークの画像特徴量o_l,fと読み出したパラメータセットを用いて式（２）のガウス関数により、語句情報w_Lの画像特徴量o_l,fに対する条件付尤度P(o_l,f|w_L;L)を算出する。視覚信念算出部２１２は、算出した条件付尤度と読み出したコマンド辞書情報を用いて、例えば式（８）に基づき、視覚信念関数（ＩｍａｇｅＢｅｌｉｅｆ）B_Iを算出し、コマンド候補選択部２１６に出力する。なお、語句情報w_Lが入力されない場合には、式（８）のlogP(o_l,f|W_L;L)の部分を算出する必要はなく、この部分をゼロとおいてもよい。

（ステップＳ１０６−３）動作信念算出部２１３は、音声信念算出部２１１から入力された動作を表す語句情報w_Mに対応する確率モデル情報をコマンド辞書記憶部２５から読み出す。動作信念算出部２１３は、読み出した確率モデル情報に基づき、画像分析部７から入力されたランドマークの位置情報o_l,p、ランドマークの位置情報o_l,p及び語句情報w_Mの画像分析部７から入力された動作軌道情報の候補ξに対する条件付尤度P(ξ|o_p, o_l,p,w_M;L)、即ち動作信念関数B_Mを算出する。動作信念算出部２１３は、算出した動作信念関数B_Mをコマンド候補選択部２１６に出力する。

（ステップＳ１０６−４）動作オブジェクト関係信念算出部２１４は、音声信念算出部２１１から入力された動作を表す語句情報w_Mに対応するパラメータセットRを第１パラメータセット記憶部２７から読み出す。動作オブジェクト関係信念算出部２１４は、画像分析部７から入力されたトラジェクタの画像特徴量o_t,f、ランドマークの画像特徴量o_l,f及び読み出したパラメータセットRを用いて、例えば式（２）のガウス関数により、語句情報w_Mの画像特徴量o_l,f及び画像特徴量o_l,fに対する条件付尤度P(o_t,f,o_l,f|w_M;R)、即ち動作オブジェクト関係信念関数B_Rを算出する。動作オブジェクト関係信念算出部２１４は、算出した動作オブジェクト関係信念関数B_Rをコマンド候補選択部２１６に出力する。

（ステップＳ１０６−５）行動コンテクスト信念算出部２１５には、コマンド候補選択部２１６から前回ＲＤ音声と判断されたときのトラジェクタ情報t’及びランドマーク情報l’が行動コンテクスト情報qとして入力される。行動コンテクスト信念算出部２１５は、現在のトラジェクタ情報の候補t及び行動コンテクスト情報qに対応するパラメータB_H(t,q;H)を第２パラメータセット記憶部２８から読み出す。また、行動コンテクスト信念算出部２１５は、現在のランドマーク情報の候補l及び行動コンテクスト情報qに対応するパラメータB_H(l,q;H)を第２パラメータセット記憶部２８から読み出す。行動コンテクスト信念算出部２１５は、行動コンテクスト信念関数B_Hを、例えば式（９）により算出し、算出した行動コンテクスト信念関数B_Hをコマンド候補選択部２１６に出力する。

（ステップＳ１０６−６）コマンド候補選択部２１６は、音声信念算出部２１１、視覚信念算出部２１２、動作信念算出部２１３、動作オブジェクト関係信念算出部２１４及び行動コンテクスト信念算出部２１５から各々入力された音声信念関数B_S、視覚信念関数B_I、動作信念関数B_M、動作オブジェクト関係信念B_R及び行動コンテクスト関係信念関数B_Hを重み付け加算し、共有信念関数Ψ(s,a,O,q,L,G_r,R,H,Γ)を算出する。
（ステップＳ１０６−７）コマンド候補選択部２１６は、算出した共有信念関数Ψが最大値にであるか否か判断し、最大値ではない場合には（ステップＳ１０６−７Ｎ）、ステップＳ１０６−８に進む。算出した共有信念関数Ψが最大値である場合には（ステップＳ１０６−７Ｙ），ステップＳ１０６−９に進む。
（ステップＳ１０６−８）コマンド候補選択部２１６は、別の概念構造情報z及びランドマーク情報lに変更し、ステップＳ１０６−１に戻る。

（ステップＳ１０６−９）コマンド候補選択部２１６は、共有信念関数Ψの最大値をとる概念構造情報z’、ランドマーク情報l’及び行動情報a’を選択もしくは決定する。
コマンド候補選択部２１６は、概念構造情報z’を音声確信度算出部２２１に出力する。コマンド候補選択部２１６は、トラジェクタ情報t’、ランドマーク情報l’、概念構造z’に含まれるトラジェクタを示す語句情報w’_T、ランドマークを示す語句情報w’_L、トラジェクタの画像特徴量o_t’,f及びランドマークの画像特徴量o_l’,fを選択して画像確信度算出部２２２に出力する。コマンド候補選択部２１６は、行動情報a’、ランドマーク情報l’ 、トラジェクタの位置情報o_t’,p、ランドマークの位置情報o_l’,p及び動作を示す語句情報w’_Mを動作確信度算出部２２３に出力する。

なお、コマンド候補選択部２１６は、トラジェクタの位置情報o_t’,p、ランドマークの位置情報o_l’,p、行動情報a’及びランドマーク情報l’を動作制御部８に出力する。なお、コマンド判断部２２の動作制御指示部２２５から動作指示信号を入力されたときは、コマンド候補選択部２１６は、選択したランドマーク情報l’及び行動情報a’に含まれるトラジェクタ情報t’ を行動コンテクスト信念算出部２１５に出力する。そして、ステップＳ１０７に処理を進める。
なお、概念構造情報z’にランドマークを示す語句情報w’_Lが含まれない場合には、コマンド候補選択部２１６は、ランドマーク情報l’、画像特徴量o_l’,f及び位置情報o_l’,pを出力しなくてもよい。

上記の第２の実施形態に係るコマンド認識ロボット３１とは異なり、第１の実施形態に係るコマンド認識ロボット１のように、注意判断部１１を有しない場合には、上記のコマンド認識方法においてステップＳ１０１及びＳ１０２を実行しなくてもよい。このとき、上記のコマンド認識方法は、ステップＳ１０３及びＳ１０５から実行を開始する。
また、語句確信度算出部２２は、画像確信度算出部２２２又は動作確信度算出部２２３のうち何れか一方を含み、他方を含まない場合には、他方が実行するステップを実行せず、ステップＳ１１０においてコマンド評価値C_MSを音声確信度C_S及びその一方が実行するステップによる確信度に基づいて算出してよい。

上記の第1実施形態に係るコマンド認識部２により、無雑音音声（ｃｌｅａｎｓｐｅｅｃｈ）を用いた場合と雑音重畳音声（ｎｏｉｓｙｓｐｅｅｃｈ）を用いて性能を検証した結果について、図８及び９を用いて説明する。無雑音音声とは、ここでは１人当たり１６０個の音声サンプル（うち、ＲＤ音声８０個及びＯＯＤ音声８０個）１６人分からなる２５６０個の音声サンプルである。これらの音声サンプルは雑音がない遮音室（ａｎｅｃｈｏｉｃｒｏｏｍ）で収録されたものであり、これらをまとめて無雑音音声コーパス（ｃｌｅａｎｓｐｅｅｃｈｃｏｒｐｕｓ）とする。

雑音重畳音声コーパスは、上述の無雑音音声コーパスの音声信号に雑音信号（ｎｏｉｓｅｓｉｇｎａｌ）をミキシングして作成した雑音重畳音声サンプルからなるコーパスである。また、コマンド辞書記憶部２５に記憶されている単語数は５６語である。そのうち、名詞及び形容詞は４０語、動詞は１９語である。但し、１９語の動詞が示す動作は１０種類である。音声認識部５による音素の認識率は、無雑音音声コーパス、雑音重畳音声コーパスを用いた場合各々について、８３％、６７％となった。

検証で用いたデータサンプルは、上記の無雑音音声コーパス及び雑音重畳音声コーパスに含まれる音声サンプルと画像サンプルを各々対応付けた組み合わせである。図７に示す３個の物体を含むシーンを表す画像が画像サンプルの一例である。この例は、直前の試行において「みかん」を箱の上に置く動作を示す。即ち、「みかん」がトラジェクタであり、撮影された画像から検知された物体のうち「みかん」のトラジェクタ情報tが行動コンテクストqである。検証に先立ち、１５人分のデータを事前学習に用いた。残りの１人分のデータを検証に用い、１６回繰り返した。事前学習において、実験者は確信度の重み係数の組Θ及び信念関数の重み係数の組Γを最適化した。最適化により得られた確信度の重み係数の平均値Θ’={θ’o, θ₁’, θ₂’, θ₃’ }は、θ’o=5.9, θ₁’=0.00011, θ₂’=0.053, θ₃’=0.74である。また、信念関数の重み係数Γ={γ₁,γ₂,γ₃,γ₄,γ₅}は、γ₁=1.00, γ₂=0.75, γ₃=1.03, γ₄=0.56, γ₅=1.88である。

図８は、第１の実施形態に係るコマンド認識部２において無雑音音声コーパスを用いた場合の検証結果を示す図である。図９は、第１の実施形態に係るコマンド認識部２において雑音音声コーパスを用いた場合の検証結果を示す図である。図８及び図９ともに、横軸は精度、縦軸は再現率である。精度とは、検証により正解が得られた試行回数の、検証を行った試行回数に対する割合である。即ち、精度とは、どれだけ正解が得られるかを示す指標である。再現率とは、検証によりＲＤ音声と判断された試行回数の、検証に用いたＲＤ音声の試行回数に対する割合である。即ち、ＲＤ音声の網羅性を示す指標である。理想的には、精度１００％及び再現率１００％であるが、一般に精度と再現率は相補的な関係がある。即ち、閾値δを大きくするほど再現率は低くなるのに対し精度が高くなる、動作制御指示部２２５においてＲＤ音声の判定に用いる閾値δを小さくするほど再現率が高くなるが精度が低くなる傾向にある。従って、各図の右上に検証結果が接近するほど性能が優れることを示す。

なお、図８及び図９いずれにおいても、「ベースライン」と示した粗い破線４０１及び５０１は、コマンド評価値を音声確信度のみに基づいて算出した場合の結果を示す。「音声・画像」と示した細かい破線４０２及び５０２は、コマンド評価値を音声確信度と画像確信度に基づいて算出した場合の結果を示す。「音声・動作」と示した一点破線４０３及び５０３は、コマンド評価値を音声確信度と動作確信度に基づいて算出した場合の結果を示す。「ＭＳＣ」と示した実線４０４及び５０４は、第１の実施形態によりコマンド評価値を音声確信度、動作確信度及び動作確信度に基づいて算出した場合の結果を示す。

図８及び図９ともに、画像確信度又は動作確信度を考慮することにより性能が向上することを示す。とりわけ、「ＭＳＣ」が、無雑音音声及び雑音重畳音声いずれについても最も性能が優れる。「音声・動作」及び「音声・画像」ともに、無雑音音声及び雑音重畳音声いずれについても「ベースライン」よりも性能が優れる。「ＭＳＣ」及び「ベースライン」の平均最大Ｆ値（Ｆ−ｍｅａｓｕｒｅ）は、無雑音音声について各々９９％、９４％であり、雑音重畳音声について各々９５％、８３％である。つまり「ＭＳＣ」において、「ベースライン」よりも、Ｆ値が無雑音音声について５％、雑音重畳音声について１４％上回る。但し、Ｆ値は、精度と再現率の調和平均、つまり２×精度×再現率／（精度＋再現率）と計算され、Ｆ値が高くなるほど性能が優れることを示す。また、ｔ検定（ｔ−ｔｅｓｔ）により、無雑音音声及び雑音向上音声両者について「ＭＳＣ」と「ベースライン」で統計的差異が認められた（有意水準ｐ＜０．０１）。また、雑音重畳音声に関して「ＭＳＣ」について９５％、「ベースライン」について８３％という性能に着目すれば、「ＭＳＣ」の利用が特に雑音重畳音声について有効といえる。なお、動作制御指示部２２５におけるＭＳＣによるＲＤ音声の判定を行うため、例えば無雑音音声について平均Ｆ値を最大化する閾値δ‘を用いればよい。上記の結果によれば、δ’=0.79 とすればよい。

次に、上記の第２実施形態に係るコマンド認識ロボット３１による検証結果を図１０を用いて説明する。実験において、各２名の被験者がコマンド認識ロボット３１の前に在席し、日本語音声でロボットコマンドを発声してコマンド認識ロボット３１を操作するものとした。実験者は上記の重み係数Θ’、及び閾値δ’を予め求めておき、コマンド認識ロボット３１は、実験において、求めた重み係数Θ’、及び閾値δ’を用いた。また、被験者は、実験中、自由に会話できることとした。
ここでは、全４セッションの実験を４組の被験者により行った。各セッションは５０分である。実験環境において、ロボットの動作機構部１０は周囲騒音を生じる。また、被験者は、実験中に全８５０個の発話を行い、実験後、各発話がＲＤ音声又はＯＯＤ音声かを実験者が手動で分別した。

図１０は、本実施形態に係るコマンド認識ロボット３１への注意の有無による、ＲＤ音声及びＯＯＤ音声のサンプル数を示す。即ち、図１０は、注意判断部１１が、被験者の顔の向きにより、被験者の注意を検出した結果を示す。横の項目は、ＲＤ音声、ＯＯＤ音声、及び合計を示す。縦の項目は、コマンド認識ロボット３１への注意あり、コマンド認識ロボット３１への注意なし、及び合計を示す。図１０によれば、（１）ほぼ全部のＲＤ音声が、被験者がコマンド認識ロボット３１を向いている場合になされていること、（２）多くのＯＯＤ音声が、コマンド認識ロボット３１に注意が向いているときに、なされていること、を表している。
図１１は、本実施形態に係るコマンド認識ロボット３１による再現率、精度、及びＦ値を、次の各条件について示す。（１）「注意」とは、人間の注意のみを用いた場合である。（２）「注意・音声」とは、人間の注意及び音声確信度を用いた場合である。（３）「注意・音声・画像」とは、人間の注意、音声確信度及び画像確信度を用いた場合である。（４）「注意・音声・動作」とは、人間の注意、音声確信度及び動作確信度を用いた場合である。（５）「注意・ＭＳＣ」とは、人間の注意及びＭＳＣを用いた場合である。

図１１は、「注意」については、再現率が９６％、精度が２２％、及びＦ値が３６％であることを示す。これに対し、「注意・音声・画像」、「注意・音声・動作」、及び「注意・ＭＳＣ」は、いずれも、「注意・音声」よりも、再現率、精度及びＦ値が上回ることを示す。即ち、この結果は、画像確信度又は動作確信度を考慮することが性能向上を促すことを示す。「注意・ＭＳＣ」について、再現率は「注意」の場合とほぼ同等であるが、精度が９７％、Ｆ値は９７％と著しく向上する。

上記の結果は、ユーザがロボットに向けた注意を検出するだけではロボットにとってＲＤ音声を検出するために不十分な反面、本実施形態のように、注意の他に発話を検出することがＲＤ音声の検出に有効であることを示す。多くの場合、人間はロボットを実の人間とみなしておらず、ロボットに注意を払うときにのみ発話するからである。
なお、実環境において周囲雑音は常に存在し、音声認識の信頼性を低下させる。しかし、本実施形態のように音声の他、他の情報、即ち画像又は動作を併用することによりＲＤ音声を検出する性能を向上させることができる。特に、音声確信度、画像確信度及び動作確信度に基づくＭＳＣを用いることにより有効性が示される。

なお、上述した実施形態におけるコマンド認識ロボット１もしくは３１、又はコマンド認識部２もしくは３２の一部、例えば、音声確信度算出部２２１、画像確信度算出部２２２、動作確信度算出部２２３、コマンド評価値算出部２２４、動作制御指示部２２５、発話理解部２１及び注意判断部１１をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、コマンド認識部又はコマンド認識ロボットに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態におけるコマンド認識ロボット及びコマンド認識部の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。コマンド認識ロボット及びコマンド認識部の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１…コマンド認識ロボット
２…コマンド認識部
３…収音部
４…音声分析部
５…音声認識部
６…撮影部
７…画像分析部
８…動作制御部
９…駆動電力モデル記憶部
１０…動作機構部
２１…発話理解部
２１１…音声信念算出部
２１２…視覚信念算出部
２１３…動作信念算出部
２１４…動作オブジェクト関係信念算出部
２１５…行動コンテクスト信念算出部
２１６…コマンド候補選択部
２２…語句確信度算出部
２２１…音声確信度算出部
２２２…画像確信度算出部
２２３…動作確信度算出部
２２４…コマンド評価値算出部
２２５…動作制御指示部
２３…音素音響モデル記憶部
２４…音素ネットワーク記憶部
２５…コマンド辞書記憶部
２６…コマンド文法記憶部
２７…第１パラメータセット記憶部
２８…第２パラメータセット記憶部

Claims

第１の物体の動作を示す語句及び前記第１の物体の動作の基準となる第２の物体の位置情報ごとの、前記第１の物体の動作軌道情報に対する確率モデル情報を記憶する記憶部と、
発話情報から前記第１の物体を示す語句、前記第１の物体の動作の基準となる第２の物体の語句及び前記第１の物体の動作を示す語句を示す単語列情報を決定又は選択し、
画像情報から算出された前記第１の物体の位置情報ならびに前記第２の物体の位置情報、前記第１の物体の動作を示す語句及び前記記憶部に記憶された確率モデル情報に基づいて前記第１の物体の動作軌跡情報を定める発話理解部と、
前記発話情報と前記単語列情報に基づいて音声確信度を算出する音声確信度算出部と、
前記動作軌跡情報が前記第１の物体の動作を示す語句が示す動作である確からしさを示す動作確信度を算出する動作確信度算出部とを備え、
前記音声確信度及び前記動作確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断する、
ことを特徴とするコマンド認識装置。
前記発話理解部は、前記第１の物体の位置情報、前記第２の物体の位置情報ならびに前記第１の物体の前記第１の物体の動作を示す語句に基づいて、前記動作軌跡情報の候補に対する条件付尤度を算出し、算出した条件付尤度を用いて前記動作軌跡情報を定めることを特徴とする請求項１に記載のコマンド認識装置。
前記画像情報から各物体の特徴量を求める画像分析部を備え、
前記特徴量の１つの物体が前記第１の物体である確からしさを示す画像確信度と、前記特徴量の他の１つの物体が前記第２の物体である確からしさを示す画像確信度とを算出する画像確信度算出部を備え、
前記画像確信度をさらに用いて、前記単語列情報のコマンドを実行するか否かを判断する、
ことを特徴とする請求項１又は請求項２に記載のコマンド認識装置。
撮影した画像に基づき発話者がロボットへ注意を向けているか否かを判断し、
前記発話者が前記ロボットへ注意を向けていると判断したとき、前記単語列情報のコマンドを実行させる注意判断部を備える
ことを特徴とする請求項１から請求項３のいずれかに記載のコマンド認識装置。
前記発話理解部は、過去にコマンドを実行すると判断された単語列情報に基づいて前記単語列情報を定める
ことを特徴とする請求項１から請求項４のいずれかに記載のコマンド認識装置。
コマンド認識装置におけるコマンド認識方法において、前記コマンド認識装置は、第１の物体の動作を示す語句及び前記第１の物体の動作の基準となる第２の物体の位置情報ごとの、前記第１の物体の動作軌道情報に対する確率モデル情報を記憶する記憶部を備え、
発話情報から前記第１の物体を示す語句、前記第１の物体の動作の基準となる第２の物体の語句及び前記第１の物体の動作を示す語句を示す単語列情報を決定又は選択する第１の過程と、
前記コマンド認識装置が、画像情報から算出された前記第１の物体の位置情報ならびに前記第２の物体の位置情報、前記第１の物体の動作を示す語句及び前記記憶部に記憶された確率モデル情報に基づいて前記第１の物体の動作軌跡情報を定める第２の過程と、
前記コマンド認識装置が、前記発話情報と前記単語列情報に基づいて音声確信度を算出する第３の過程と、
前記コマンド認識装置が、前記動作軌跡情報が前記第１の物体の動作を示す語句が示す動作である確からしさを示す動作確信度を算出する第４の過程と、
前記コマンド認識装置が、前記音声確信度及び前記動作確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断する第５の過程と、
を有することを特徴とするコマンド認識方法。
第１の物体の動作を示す語句及び前記第１の物体の動作の基準となる第２の物体の位置情報ごとの、前記第１の物体の動作軌道情報に対する確率モデル情報を記憶する記憶部と、
発話情報から前記第１の物体を示す語句、前記第１の物体の動作の基準となる第２の物体の語句及び前記第１の物体の動作を示す語句を示す単語列情報を決定又は選択し、
画像情報から算出された前記第１の物体の位置情報ならびに前記第２の物体の位置情報、前記第１の物体の動作を示す語句及び前記記憶部に記憶された確率モデル情報に基づいて前記第１の物体の動作軌跡情報を定める発話理解部と、
前記発話情報と前記単語列情報に基づいて音声確信度を算出する音声確信度算出部と、
前記動作軌跡情報が前記第１の物体の動作を示す語句が示す動作である確からしさを示す動作確信度を算出する動作確信度算出部とを備え、
前記音声確信度及び前記動作確信度に基づいて、前記単語列情報のコマンドを実行するか否かを判断する動作機構部と、
を備えることを特徴とするコマンド認識ロボット。