JP6443419B2

JP6443419B2 - 音声対話装置及びその制御方法

Info

Publication number: JP6443419B2
Application number: JP2016196557A
Authority: JP
Inventors: 美奈結城; 真太郎吉澤
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-10-04
Filing date: 2016-10-04
Publication date: 2018-12-26
Anticipated expiration: 2036-10-04
Also published as: US20180096206A1; US10464214B2; JP2018060322A

Description

本発明は、対話ロボットに組み込まれる音声対話装置及びその制御方法に関する。

近年、対話ロボットに組み込まれ、対話相手と音声対話を行う音声対話装置が実用化されている。例えば、特許文献１には、対話ロボットの目の視線を対話相手に向ける音声対話装置が開示されている。

特開２００４−１９８６５６号公報

しかし、特許文献１に開示された音声対話装置は、対話ロボットの首をモータで動かすことで、対話ロボットの目の視線を対話相手に向けていた。そのため、対話ロボットの首を動かす際に、モータの駆動音が発生し、その駆動音がノイズとなって音声対話を妨害してしまうという問題があった。

本発明は、上記を鑑みなされたものであって、音声対話を妨害することなく、対話ロボットの目の視線を対話相手に向けることができる音声対話装置及びその制御方法を提供することを目的とする。

本発明の一態様に係る音声対話装置は、
対話ロボットに組み込まれる音声対話装置であって、
画像を撮影する撮影部と、
前記画像に写る対話相手の位置を認識する環境認識部と、
前記対話ロボットの目の位置に配置され、前記対話ロボットの目を表示する表示部と、
前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手を認識した位置に向ける目制御部と、を備える。

本発明の一態様に係る音声対話装置の制御方法は、
対話ロボットに組み込まれる音声対話装置の制御方法であって、
画像を撮影し、
前記画像に写る対話相手の位置を認識し、
前記対話ロボットの目の位置に配置された表示部に表示される前記対話ロボットの目の視線を、前記対話相手を認識した位置に向ける。

上述した本発明の態様によれば、対話ロボットの目を表示部に表示することとし、表示部に表示される対話ロボットの目の視線を、対話相手を認識した位置に向ける。従って、対話ロボットの目の視線を対話相手に向ける際に、モータの駆動音が発生しないため、音声対話を妨害することなく、対話ロボットの目の視線を対話相手に向けることができるという効果が得られる。

実施の形態１に係る音声対話装置の構成例を示すブロック図である。実施の形態１〜３に係る音声対話装置が組み込まれる対話ロボットの外観構成例を示す図である。対話相手が撮影画像の右側に移動した例を示す図である。対話ロボットの目の視線を右側の対話相手に向けた例を示す図である。対話ロボットの目の視線を右側の対話相手に向けた例を示す図である。実施の形態１に係る音声対話装置における対話ロボットの目の制御に関連する動作例を示すフローチャートである。実施の形態２に係る音声対話装置の構成例を示すブロック図である。実施の形態２に係る音声対話装置における対話ロボットの目の制御に関連する動作例を示すフローチャートである。実施の形態３に係る音声対話装置の構成例を示すブロック図である。撮影画像の右側に移動物体が出現した例を示す図である。対話ロボットの目の視線を右側の移動物体に向けた例を示す図である。実施の形態３に係る音声対話装置における対話ロボットの目の制御に関連する動作例を示すフローチャートである。対話ロボットの目を回している例を示す図である。

以下、図面を参照して本発明の実施の形態について説明する。
（１）実施の形態１
（１−１）実施の形態１の構成
まず、本実施の形態１の構成について説明する。図１は、本実施の形態１に係る音声対話装置１００の構成例を示すブロック図である。図２は、本実施の形態１に係る音声対話装置１００が組み込まれる対話ロボット２００の外観構成例を示す図である。図２に示される対話ロボット２００は、動物型のロボットになっている。ただし、対話ロボット２００の外観構成はこれに限定されない。

図１に示されるように、本実施の形態１に係る音声対話装置１００は、マイク１０１と、カメラ１０２と、対話判定部１０３と、環境認識部１０４と、目制御部１０５と、表示パネル１０６と、音声認識部１０７と、発話制御部１０８と、スピーカ１０９と、を備えている。

マイク１０１は、対話相手の発話音声等の音声を集音する。
カメラ１０２は、対話相手及び対話相手周辺の画像を撮影するもので、撮影部の一例である。本実施の形態１では、カメラ１０２は、対話ロボット２００の鼻の位置に配置されている。ただし、カメラ１０２の配置位置はこれに限定されない。

対話判定部１０３は、マイク１０１により集音された集音音声及びカメラ１０２により撮影された撮影画像を基に、対話ロボット２００が対話相手と対話中であるか否かを判定する。本実施の形態１では、対話判定部１０３は、集音音声の音量が閾値を超えており、かつ、撮影画像に対話相手が写っている場合に、対話相手と対話中であると判定するものとする。

環境認識部１０４は、対話判定部１０３により対話相手と対話中であると判定された場合に、カメラ１０２により撮影された撮影画像に写る対話相手及び対話相手の周辺環境を認識する。本実施の形態１では、環境認識部１０４は、対話相手の位置を認識するものとする。より具体的には、環境認識部１０４は、対話相手の顔の位置を認識するものとする。そのため、環境認識部１０４は、第１認識部の一例である顔認識部１１０を備えている。顔認識部１１０は、撮影画像に写る対話相手の顔の位置を認識する。例えば、顔認識部１１０は、撮影画像に写る対話相手の顔の特徴点を基に、対話相手の顔の位置を認識することができる。

なお、顔認識部１１０は、対話相手を特定する際に、例えば、対話開始時に撮影画像に写っている人物を、対話相手として特定し、追跡し続けても良い。また、顔認識部１１０は、撮影画像に写る人物の中で、顔の大きさが最も大きい人物（すなわち、対話ロボット２００に最も近い位置にいる人物）を対話相手として特定しても良い。また、顔認識部１１０は、撮影画像に写っている物体が人物か否かを判断する際に、例えば、デジタルカメラ等で使用されている顔認識技術を利用し、顔の特徴点を検出できれば、人物であると判断しても良い。また、顔認識部１１０は、対話相手を特定する際に、カメラ１０２により事前に撮影された背景画像（対話ロボット２００が設置されている設置環境の画像）との差分を利用しても良い。すなわち、顔認識部１１０は、差分として得られた物体の中から上述のようにして対話相手を特定しても良い。

表示パネル１０６は、対話ロボット２００の目の位置に配置され、対話ロボット２００の目を表示する。表示パネル１０６は、例えば、液晶パネルや、有機ＥＬ（Electro Luminescence）パネル等であり、表示部の一例である。

目制御部１０５は、顔認識部１１０により認識された対話相手の顔の位置を基に、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の顔の位置に向ける。対話相手の顔の位置が移動した場合には、移動した方向に対話ロボット２００の目の視線を向ける。例えば、図３に示されるように、対話相手が撮影画像の右側に移動したことにより、対話相手の顔の位置が撮影画像の右側に移動した場合には、図４に示されるように、対話ロボット２００の目の視線も右側に向ける。このときの対話ロボット２００の顔全体は、例えば、図５に示されるようになる。

なお、目制御部１０５は、対話相手の顔の位置の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていた場合（例えば、撮影画像の５０％以上の領域がＴ秒前から変化している場合）には、対話相手の顔の位置の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていない場合と比べて、表示パネル１０６に表示される対話ロボット２００の目の視線を対話相手の顔の位置に向ける速度を速くしても良い。

音声認識部１０７は、マイク１０１により集音された集音音声の音声認識を行う。
発話制御部１０８は、音声認識部１０７により対話相手の発話音声が音声認識された場合、対話相手の発話音声に対する応答文を生成する。例えば、発話制御部１０８は、対話相手の発話内容と、これに対する応答文と、を予め対応付けたデータベースを保持し、このデータベースを用いて、対話相手の発話内容に応じた応答文を生成することが考えられる。しかし、応答文の生成方法は、本発明の本質的なものではなく、周知な種々の方法を利用することができる。
スピーカ１０９は、発話制御部１０８により生成された応答文を音声出力する。

（１−２）実施の形態１の動作
続いて、本実施の形態１の動作について説明する。図６は、本実施の形態１に係る音声対話装置１００における対話ロボット２００の目の制御に関連する動作例を示すフローチャートである。

図６に示されるように、まず、対話判定部１０３は、対話ロボット２００が対話相手と対話中であるか否かを判定する（ステップＳ１０１）。ステップＳ１０１で対話中であると判定されなければ（ステップＳ１０１のＮＯ）、処理を終了する。

一方、ステップＳ１０１で対話中であると判定されれば（ステップＳ１０１のＹＥＳ）、顔認識部１１０は、カメラ１０２により撮影された撮影画像に写る対話相手の顔の位置を認識する（ステップＳ１０２）。続いて、目制御部１０５は、顔認識部１１０により認識された対話相手の顔の位置を基に、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の顔の位置に向ける（ステップＳ１０３）。続いて、ステップＳ１０４に進む。

ステップＳ１０４では、対話判定部１０３は、対話ロボット２００が対話相手と対話中であるか否かを再度判定する。ステップＳ１０４で対話中であると判定されなければ（ステップＳ１０４のＮＯ）、処理を終了する。一方、ステップＳ１０４で対話中であると判定されれば（ステップＳ１０４のＹＥＳ）、ステップＳ１０２に戻り、ステップＳ１０２以降の処理を行う。

（１−３）実施の形態１の効果
上述のように、本実施の形態１に係る音声対話装置１００は、表示パネル１０６に対話ロボット２００の目を表示することとし、表示パネル１０６に表示される対話ロボット２００の目の視線を対話相手の顔の位置に向ける。従って、対話ロボット２００の目の視線を対話相手に向ける際に、モータの駆動音が発生することがないため、音声対話を妨害することなく、対話ロボット２００の目の視線を対話相手に向けることができる。

また、本実施の形態１に係る音声対話装置１００は、対話相手の顔の位置の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていた場合には、表示パネル１０６に表示される対話ロボット２００の目の視線を対話相手の顔の位置に向ける速度を速くする。従って、対話相手の周辺環境に大きな変化があった場合には、対話ロボット２００の目の視線の移動速度を速くするという動物的な演出をすることができるため、対話相手に対し、対話ロボット２００と対話している感覚を与えつつ、動物的な相手と対話している感覚を与えることができる。また、対話相手に対し、対話相手の周辺環境を認識していることを示すことができる。

また、本実施の形態１に係る音声対話装置１００は、対話相手と対話中であるか否かを判定し、対話中である場合にのみ、表示パネル１０６に表示される対話ロボット２００の目（視線）の制御を行う。従って、対話中以外である場合は、目の制御をしないため、音声対話装置１００がバッテリー駆動される場合には、バッテリー寿命の向上を図ることができる。

（２）実施の形態２
実施の形態１は、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の顔の位置に向けていた。
本実施の形態２は、対話相手の目の位置が認識された場合には、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の目の位置に向けるものである。

（２−１）実施の形態２の構成
まず、本実施の形態２の構成について説明する。図７は、本実施の形態２に係る音声対話装置１００Ａの構成例を示すブロック図である。なお、本実施の形態２に係る音声対話装置１００Ａは、実施の形態１に係る音声対話装置１００と同様に、例えば、図２に示される対話ロボット２００に組み込まれるものとする。

図７に示されるように、本実施の形態２に係る音声対話装置１００Ａは、図１を参照して説明した実施の形態１に係る音声対話装置１００の構成と比較して、環境認識部１０４の代わりに、環境認識部１０４Ａを設けた点が異なっている。以下、実施の形態１と異なる構成要素及び動作が異なる構成要素について説明する。

環境認識部１０４Ａは、カメラ１０２により撮影された撮影画像に写る対話相手の顔の位置を認識するだけでなく、その対話相手の目の位置を認識する。そのため、環境認識部１０４Ａは、環境認識部１０４と比較して、第２認識部の一例である目認識部１１１を追加した点が異なっている。目認識部１１１は、撮影画像に写る対話相手であって顔認識部１１０により顔が認識された対話相手の目の位置を認識する。

目制御部１０５は、目認識部１１１により対話相手の目の位置が認識された場合、対話相手の目の視線が対話ロボット２００を向いていれば、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の目の位置に向ける。また、目制御部１０５は、対話相手の目の視線が対話ロボット２００から外れていれば、表示パネル１０６に表示される対話ロボット２００の目の視線を、その外れた方向に所定時間（例えば、ｔ１秒）向け、その後、対話相手の目の位置に戻す。

一方、目制御部１０５は、目認識部１１１により対話相手の目の位置が認識されない場合、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の顔の位置に向ける。

（２−２）実施の形態２の動作
続いて、本実施の形態２の動作について説明する。図８は、本実施の形態２に係る音声対話装置１００Ａにおける対話ロボット２００の目の制御に関連する動作例を示すフローチャートである。図８に示される処理は、図６を参照して説明した実施の形態１における処理と比較して、ステップＳ１０３の代わりに、ステップＳ２０１〜Ｓ２０６を設けた点が異なっている。

図８に示されるように、まず、図６と同様のステップＳ１０１，Ｓ１０２の処理を行う。ステップＳ１０１で対話中であると判定されなければ（ステップＳ１０１のＮＯ）、処理を終了する。一方、ステップＳ１０１で対話中であると判定されれば（ステップＳ１０１のＹＥＳ）、ステップＳ１０２で対話相手の顔の位置を認識し、ステップＳ２０１に進む。

ステップＳ２０１では、目認識部１１１は、対話相手の目の位置の認識を試行する。ステップＳ２０１で対話相手の目の位置が認識されなければ（ステップＳ２０１のＮＯ）、目制御部１０５は、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の顔の位置に向ける（ステップＳ２０６）。その後、ステップＳ１０４に進む。

一方、ステップＳ２０１で対話相手の目の位置が認識されれば（ステップＳ２０１のＹＥＳ）、目制御部１０５は、対話相手の目の視線が対話ロボット２００に向いているか否かを判定する（ステップＳ２０２）。ステップＳ２０２で対話相手の目の視線が対話ロボット２００に向いていれば（ステップＳ２０２のＹＥＳ）、目制御部１０５は、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の目の位置に向ける（ステップＳ２０３）。その後、ステップＳ１０４に進む。

一方、ステップＳ２０２で対話相手の目の視線が対話ロボット２００を向いておらず、対話ロボット２００から外れていれば（ステップＳ２０２のＮＯ）、目制御部１０５は、表示パネル１０６に表示される対話ロボット２００の目の視線を、その外れた方向に向ける（ステップＳ２０４）。その後、所定時間が経過したら（ステップＳ２０５のＹＥＳ）、目制御部１０５は、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の目の位置に向ける（ステップＳ２０３）。その後、ステップＳ１０４に進む。

その後、図６と同様のステップＳ１０４の処理を行う。ステップＳ１０４で対話中であると判定されなければ（ステップＳ１０４のＮＯ）、処理を終了する。一方、ステップＳ１０４で対話中であると判定されれば（ステップＳ１０４のＹＥＳ）、ステップＳ１０２に戻り、ステップＳ１０２以降の処理を行う。

（２−３）実施の形態２の効果
上述のように、本実施の形態２に係る音声対話装置１００Ａは、対話相手の目の位置が認識された場合、対話相手の目の視線が対話ロボット２００を向いていれば、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の目の位置に向ける。また、音声対話装置１００Ａは、対話相手の目の視線が対話ロボット２００から外れていれば、表示パネル１０６に表示される対話ロボット２００の目の視線を、その外れた方向に所定時間向け、その後、対話相手の目の位置に向ける。従って、対話相手がよそ見をした場合など、何かに気を取られて対話ロボット２００から視線が外れている場合には、対話ロボット２００の目の視線を、その外れた方向に向けることができる。また、対話相手の目が、顔の向きにかかわらず、対話ロボット２００の方を向いていれば、対話ロボット２００の目の視線を、対話相手の目の位置に向け、対話相手の目をしっかり見ることができる。これにより、対話ロボット２００が対話相手を見ていることを強調できるため、対話相手に対し、より動物的な相手と対話している感覚を与えることができる。また、対話相手に対し、対話ロボット２００が対話相手の振る舞いを認識していることを示すことができる。そのため、対話相手は、対話ロボット２００に対する親近感や愛着を持つことができるようになる。
その他の効果は、実施の形態１と同様である。

（３）実施の形態３
カメラ１０２は、対話相手及び対話相手周辺の画像を撮影するものであるため、カメラ１０２により撮影された撮影画像には、対話相手以外の人物や物体（ボールなど）が移動物体として写りこむ場合がある。
本実施の形態３は、撮影画像に対話相手以外の移動物体が写りこんだ場合には、表示パネル１０６に表示される対話ロボット２００の目の視線を、その移動物体を認識した位置に一時的に向けるものである。

（３−１）実施の形態３の構成
まず、本実施の形態３の構成について説明する。図９は、本実施の形態３に係る音声対話装置１００Ｂの構成例を示すブロック図である。なお、本実施の形態３に係る音声対話装置１００Ｂは、実施の形態１に係る音声対話装置１００と同様に、例えば、図２に示される対話ロボット２００に組み込まれるものとする。

図９に示されるように、本実施の形態３に係る音声対話装置１００Ｂは、図１を参照して説明した実施の形態１に係る音声対話装置１００の構成と比較して、環境認識部１０４の代わりに、環境認識部１０４Ｂを設けた点が異なっている。以下、実施の形態１と異なる構成要素及び動作が異なる構成要素について説明する。

環境認識部１０４Ｂは、カメラ１０２により撮影された撮影画像に写る対話相手の顔の位置を認識するだけでなく、撮影画像に対話相手以外の移動物体が写りこんだ場合には、その移動物体の位置を認識する。そのため、環境認識部１０４Ｂは、環境認識部１０４と比較して、第３認識部の一例である移動物体認識部１１２を追加した点が異なっている。

移動物体認識部１１２は、カメラ１０２により撮影された撮影画像に対話相手以外の移動物体が写りこんだ場合、その移動物体の位置を認識する。移動物体は、移動を行う物体であり、人物及び物体（ボールなど）の双方が含まれる。移動物体認識部１１２は、対話相手以外の移動物体が人物であれば、その人物の顔の位置を認識するものとする。

なお、移動物体認識部１１２は、対話相手を特定する際に、例えば、対話開始時に撮影画像に写っている人物を、対話相手として特定し、追跡し続けても良い。また、移動物体認識部１１２は、撮影画像に写る人物の中で、顔の大きさが最も大きい人物（すなわち、対話ロボット２００に最も近い位置にいる人物）を対話相手として特定しても良い。また、移動物体認識部１１２は、撮影画像に写っている物体が人物か否かを判断する際に、例えば、デジタルカメラ等で使用されている顔認識技術を利用し、顔の特徴点を検出できれば、人物であると判断しても良い。また、移動物体認識部１１２は、対話相手や移動物体を特定する際に、カメラ１０２により事前に撮影された背景（対話ロボット２００が設置されている設置環境）の画像との差分を利用しても良い。すなわち、移動物体認識部１１２は、差分として得られた物体の中から上述のようにして対話相手を特定し、対話相手以外の物体を移動物体として特定しても良い。

目制御部１０５は、移動物体認識部１１２により対話相手以外の移動物体の位置が認識された場合、表示パネル１０６に表示される対話ロボット２００の目の視線を、移動物体の位置に所定時間（例えば、ｔ２秒）向け、その後、対話相手の顔の位置に戻す。例えば、図１０に示されるように、撮影画像の右側に移動物体（ボール）が新たに写りこんだ場合には、図１１に示されるように、対話ロボット２００の目の視線も右側に向ける。そして、所定時間経過後に、対話ロボット２００の目の視線を、対話相手の顔の位置に戻す。

一方、目制御部１０５は、移動物体認識部１１２により対話相手以外の移動物体の位置が認識されない場合、対話ロボット２００の目の視線を、対話相手の顔の位置に向ける。

なお、目制御部１０５は、対話相手以外の移動物体が撮影画像に新たに写りこんだ場合や、移動物体の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていた場合（例えば、撮影画像の５０％以上の領域がＴ秒前から変化している場合）には、移動物体の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていない場合と比べて、表示パネル１０６に表示される対話ロボット２００の目の視線を移動物体の位置に向ける速度を速くしても良い。

（３−２）実施の形態３の動作
続いて、本実施の形態３の動作について説明する。図１２は、本実施の形態３に係る音声対話装置１００Ｂにおける対話ロボット２００の目の制御に関連する動作例を示すフローチャートである。図１２に示される処理は、図６を参照して説明した実施の形態１における処理と比較して、ステップＳ１０３の代わりに、ステップＳ３０１〜Ｓ３０４を設けた点が異なっている。

図１２に示されるように、まず、図６と同様のステップＳ１０１，Ｓ１０２の処理を行う。ステップＳ１０１で対話中であると判定されなければ（ステップＳ１０１のＮＯ）、処理を終了する。一方、ステップＳ１０１で対話中であると判定されれば（ステップＳ１０１のＹＥＳ）、ステップＳ１０２で対話相手の顔の位置を認識し、ステップＳ３０１に進む。

ステップＳ３０１では、移動物体認識部１１２は、撮影画像に対話相手以外の移動物体が写りこんでいる場合、その移動物体の位置を認識する。ステップＳ３０１で対話相手以外の移動物体の位置が認識されていなければ（ステップＳ３０１のＮＯ）、目制御部１０５は、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の顔の位置に向ける（ステップＳ３０２）。その後、ステップＳ１０４に進む。

一方、ステップＳ３０１で対話相手以外の移動物体の位置が認識されていれば（ステップＳ３０１のＹＥＳ）、目制御部１０５は、表示パネル１０６に表示される対話ロボット２００の目の視線を、その移動物体の位置に向ける（ステップＳ３０３）。その後、所定時間が経過したら（ステップＳ３０４のＹＥＳ）、目制御部１０５は、表示パネル１０６に表示される対話ロボット２００の目の視線を、対話相手の顔の位置に向ける（ステップＳ３０２）。その後、ステップＳ１０４に進む。

（３−３）実施の形態３の効果
上述のように、本実施の形態３に係る音声対話装置１００Ｂは、撮影画像に対話相手以外の移動物体が写りこんでいる場合、その移動物体の位置を認識し、表示パネル１０６に表示される対話ロボット２００の目の視線を、その移動物体の位置に所定時間向け、その後、対話相手の顔の位置に戻す。従って、対話ロボット２００は、対話相手を見る時間を極端に低下させることなく、対話相手の周辺環境の変化に対応して、視線が動くという動物的な演出をすることができる。そのため、対話相手に対し、より動物的な相手と対話している感覚を与えることができる。また、対話相手に対し、対話相手の周辺環境を認識していることを示すことができる。

また、本実施の形態３に係る音声対話装置１００Ｂは、撮影画像に移動物体が新たに写りこんだ場合や、移動物体の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていた場合には、表示パネル１０６に表示される対話ロボット２００の目の視線を移動物体の位置に向ける速度を速くする。従って、対話相手の周辺環境に大きな変化があった場合には、対話ロボット２００の目の視線の移動速度を速くするという動物的な演出をすることができる。そのため、対話相手に対し、より動物的な相手と対話している感覚を与えることができる。
その他の効果は、実施の形態１と同様である。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記実施の形態は、独立なものとして説明したが、これには限定されず、適宜組み合わせても良い。具体的には、実施の形態２，３を組み合わせても良い。

また、音声対話装置は、実施の形態２で対話相手の目の位置が認識された場合を除いて、対話相手の顔の位置を認識し、表示パネルに表示される対話ロボットの目の視線を対話相手の顔の位置に向けるようにしているが、これには限定されない。対話ロボットの目の視線は、対話相手のどの部位の位置に向けても構わない。すなわち、音声対話装置は、対話相手のどの部位の位置を認識しても良く、対話相手を認識した位置に対話ロボットの目の視線を向ければ良い。

また、音声対話装置は、マイクにより集音された集音音声の音量が閾値を超えており、かつ、カメラにより撮影された撮影画像に対話相手が写っている場合に、対話相手と対話中であると判定し、目の制御は、対話中である場合にのみ、行うこととしたが、これには限定されない。対話相手の発話音声に対する応答文の生成及び音声出力も、対話中である場合にのみ、行うこととしても良い。

また、音声対話装置は、対話相手の移動時に、対話ロボットの目の視線を対話相手を認識した位置に向ける場合、対話相手が発話しているか否かで、表示パネルに表示される目の表出を変えても良い。例えば、対話相手が発話せずに移動した場合には、対話相手が発話しながら移動した場合と比べて、瞬きを多めにしながら、対話ロボットの目の視線を対話相手に向けても良い。これにより、次の対話相手の挙動を確認したいという気持ちを演出することができる。

また、音声対話装置は、音を発生した音源の方位を推定する機能を備えても良い。この機能を備える音声対話装置は、対話相手の発話音声以外の物音が発生した場合、表示パネルに表示される対話ロボットの目の視線を、物音の音源の方位方向に向けても良い。また、その場合、音源の方位方向に移動物体が存在するか否かにかかわらず、対話ロボットの目の視線を音源の方位方向に向ける速度を速くしても良い。これにより、物音が発生した場合に、音に驚いたという動物的な演出をすることができる。

また、音声対話装置は、対話相手と対話中と判定されている間に、対話相手が撮影画像に写らない位置に移動してしまった場合、対話相手を探索していることを示すため、例えば、図１３に示されるように、表示パネルに表示される対話ロボットの目を回している演出をしても良い。なお、この場合には、対話ロボットの目の視線を対話相手に向けることができないため、目の制御を停止すれば良い。

また、音声対話装置が備えるマイク、カメラ、表示パネル、及びスピーカ以外の各構成要素は、例えば、コンピュータが備える不図示のプロセッサ及び不図示のメモリによって実現することができる。具体的には、プロセッサが、メモリからソフトウェア（プログラム）を読み出して実行することで、各構成要素を実現することができる。また、各構成要素は、プログラムによるソフトウェアで実現することに限定されることなく、ハードウェア、ファームウェア及びソフトウェアのうちのいずれかの組み合わせなどにより実現しても良い

上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。

また、上述したプログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されても良い。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバなどの有線通信路、または無線通信路を介して、プログラムをコンピュータに供給できる。

１００，１００Ａ，１００Ｂ音声対話装置
２００対話ロボット
１０１マイク
１０２カメラ
１０３対話判定部
１０４，１０４Ａ，１０４Ｂ環境認識部
１０５目制御部
１０６表示パネル
１０７音声認識部
１０８発話制御部
１０９スピーカ
１１０顔認識部
１１１目認識部
１１２移動物体認識部

Claims

対話ロボットに組み込まれる音声対話装置であって、
画像を撮影する撮影部と、
前記画像に写る対話相手の位置を認識する環境認識部と、
前記対話ロボットの目の位置に配置され、前記対話ロボットの目を表示する表示部と、
前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手を認識した位置に向ける目制御部と、を備え、
前記環境認識部は、
前記画像に写る対話相手の顔の位置を認識する第１認識部と、
前記画像に写る対話相手の目の位置を認識する第２認識部と、を含み、
前記目制御部は、
前記第２認識部により前記対話相手の目の位置が認識された場合、前記対話相手の目の視線が前記対話ロボットに向いていれば、前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手の目の位置に向け、
前記第２認識部により前記対話相手の目の位置が認識されない場合、前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手の顔の位置に向ける、音声対話装置。
前記目制御部は、
前記第２認識部により前記対話相手の目の位置が認識された場合、前記対話相手の目の視線が前記対話ロボットから外れていれば、前記表示部に表示される前記対話ロボットの目の視線を、該外れた方向に所定時間向け、その後、前記対話相手の目の位置に向ける、請求項１に記載の音声対話装置。
前記目制御部は、
前記対話相手の移動時に前記画像の所定割合以上の領域で単位時間内に変化が生じていた場合には、前記対話相手の移動時に前記画像の前記所定割合以上の領域で単位時間内に変化が生じていない場合と比べて、前記表示部に表示される前記対話ロボットの目の視線を前記対話相手を認識した位置に向ける速度を速くする、請求項１又は２に記載の音声対話装置。
前記環境認識部は、
前記画像に前記対話相手以外の移動物体が写りこんでいる場合、前記画像に写る前記移動物体の位置を認識する第３認識部をさらに含み、
前記目制御部は、
前記画像に前記移動物体が写りこんでいる場合、前記表示部に表示される前記対話ロボットの目の視線を、前記移動物体を認識した位置に所定時間向け、その後、前記対話相手を認識した位置に戻す、請求項１から３のいずれか１項に記載の音声対話装置。
前記目制御部は、
前記移動物体が新たに写りこんだ場合、及び、前記移動物体の移動時に前記画像の所定割合以上の領域で単位時間内に変化が生じていた場合には、前記移動物体の移動時に前記画像の前記所定割合以上の領域で単位時間内に変化が生じていない場合と比べて、前記表示部に表示される前記対話ロボットの目の視線を前記移動物体を認識した位置に向ける速度を速くする、請求項４に記載の音声対話装置。
対話ロボットに組み込まれる音声対話装置の制御方法であって、
画像を撮影するステップと、
前記画像に写る対話相手の位置を認識する認識ステップと、
前記対話ロボットの目の位置に配置された表示部に表示される前記対話ロボットの目の視線を、前記対話相手を認識した位置に向ける目制御ステップと、を含み、
前記認識ステップは、
前記画像に写る対話相手の顔の位置を認識する第１認識ステップと、
前記画像に写る対話相手の目の位置を認識する第２認識ステップと、を含み、
前記目制御ステップでは、
前記第２認識ステップにより前記対話相手の目の位置が認識された場合、前記対話相手の目の視線が前記対話ロボットに向いていれば、前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手の目の位置に向け、
前記第２認識ステップにより前記対話相手の目の位置が認識されない場合、前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手の顔の位置に向ける、制御方法。