JP6443419B2 - 音声対話装置及びその制御方法 - Google Patents

音声対話装置及びその制御方法 Download PDF

Info

Publication number
JP6443419B2
JP6443419B2 JP2016196557A JP2016196557A JP6443419B2 JP 6443419 B2 JP6443419 B2 JP 6443419B2 JP 2016196557 A JP2016196557 A JP 2016196557A JP 2016196557 A JP2016196557 A JP 2016196557A JP 6443419 B2 JP6443419 B2 JP 6443419B2
Authority
JP
Japan
Prior art keywords
conversation
robot
eyes
partner
conversation partner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016196557A
Other languages
English (en)
Other versions
JP2018060322A (ja
Inventor
美奈 結城
美奈 結城
真太郎 吉澤
真太郎 吉澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016196557A priority Critical patent/JP6443419B2/ja
Priority to US15/676,247 priority patent/US10464214B2/en
Publication of JP2018060322A publication Critical patent/JP2018060322A/ja
Application granted granted Critical
Publication of JP6443419B2 publication Critical patent/JP6443419B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/0015Face robots, animated artificial faces for imitating human expressions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris

Description

本発明は、対話ロボットに組み込まれる音声対話装置及びその制御方法に関する。
近年、対話ロボットに組み込まれ、対話相手と音声対話を行う音声対話装置が実用化されている。例えば、特許文献1には、対話ロボットの目の視線を対話相手に向ける音声対話装置が開示されている。
特開2004−198656号公報
しかし、特許文献1に開示された音声対話装置は、対話ロボットの首をモータで動かすことで、対話ロボットの目の視線を対話相手に向けていた。そのため、対話ロボットの首を動かす際に、モータの駆動音が発生し、その駆動音がノイズとなって音声対話を妨害してしまうという問題があった。
本発明は、上記を鑑みなされたものであって、音声対話を妨害することなく、対話ロボットの目の視線を対話相手に向けることができる音声対話装置及びその制御方法を提供することを目的とする。
本発明の一態様に係る音声対話装置は、
対話ロボットに組み込まれる音声対話装置であって、
画像を撮影する撮影部と、
前記画像に写る対話相手の位置を認識する環境認識部と、
前記対話ロボットの目の位置に配置され、前記対話ロボットの目を表示する表示部と、
前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手を認識した位置に向ける目制御部と、を備える。
本発明の一態様に係る音声対話装置の制御方法は、
対話ロボットに組み込まれる音声対話装置の制御方法であって、
画像を撮影し、
前記画像に写る対話相手の位置を認識し、
前記対話ロボットの目の位置に配置された表示部に表示される前記対話ロボットの目の視線を、前記対話相手を認識した位置に向ける。
上述した本発明の態様によれば、対話ロボットの目を表示部に表示することとし、表示部に表示される対話ロボットの目の視線を、対話相手を認識した位置に向ける。従って、対話ロボットの目の視線を対話相手に向ける際に、モータの駆動音が発生しないため、音声対話を妨害することなく、対話ロボットの目の視線を対話相手に向けることができるという効果が得られる。
実施の形態1に係る音声対話装置の構成例を示すブロック図である。 実施の形態1〜3に係る音声対話装置が組み込まれる対話ロボットの外観構成例を示す図である。 対話相手が撮影画像の右側に移動した例を示す図である。 対話ロボットの目の視線を右側の対話相手に向けた例を示す図である。 対話ロボットの目の視線を右側の対話相手に向けた例を示す図である。 実施の形態1に係る音声対話装置における対話ロボットの目の制御に関連する動作例を示すフローチャートである。 実施の形態2に係る音声対話装置の構成例を示すブロック図である。 実施の形態2に係る音声対話装置における対話ロボットの目の制御に関連する動作例を示すフローチャートである。 実施の形態3に係る音声対話装置の構成例を示すブロック図である。 撮影画像の右側に移動物体が出現した例を示す図である。 対話ロボットの目の視線を右側の移動物体に向けた例を示す図である。 実施の形態3に係る音声対話装置における対話ロボットの目の制御に関連する動作例を示すフローチャートである。 対話ロボットの目を回している例を示す図である。
以下、図面を参照して本発明の実施の形態について説明する。
(1)実施の形態1
(1−1)実施の形態1の構成
まず、本実施の形態1の構成について説明する。図1は、本実施の形態1に係る音声対話装置100の構成例を示すブロック図である。図2は、本実施の形態1に係る音声対話装置100が組み込まれる対話ロボット200の外観構成例を示す図である。図2に示される対話ロボット200は、動物型のロボットになっている。ただし、対話ロボット200の外観構成はこれに限定されない。
図1に示されるように、本実施の形態1に係る音声対話装置100は、マイク101と、カメラ102と、対話判定部103と、環境認識部104と、目制御部105と、表示パネル106と、音声認識部107と、発話制御部108と、スピーカ109と、を備えている。
マイク101は、対話相手の発話音声等の音声を集音する。
カメラ102は、対話相手及び対話相手周辺の画像を撮影するもので、撮影部の一例である。本実施の形態1では、カメラ102は、対話ロボット200の鼻の位置に配置されている。ただし、カメラ102の配置位置はこれに限定されない。
対話判定部103は、マイク101により集音された集音音声及びカメラ102により撮影された撮影画像を基に、対話ロボット200が対話相手と対話中であるか否かを判定する。本実施の形態1では、対話判定部103は、集音音声の音量が閾値を超えており、かつ、撮影画像に対話相手が写っている場合に、対話相手と対話中であると判定するものとする。
環境認識部104は、対話判定部103により対話相手と対話中であると判定された場合に、カメラ102により撮影された撮影画像に写る対話相手及び対話相手の周辺環境を認識する。本実施の形態1では、環境認識部104は、対話相手の位置を認識するものとする。より具体的には、環境認識部104は、対話相手の顔の位置を認識するものとする。そのため、環境認識部104は、第1認識部の一例である顔認識部110を備えている。顔認識部110は、撮影画像に写る対話相手の顔の位置を認識する。例えば、顔認識部110は、撮影画像に写る対話相手の顔の特徴点を基に、対話相手の顔の位置を認識することができる。
なお、顔認識部110は、対話相手を特定する際に、例えば、対話開始時に撮影画像に写っている人物を、対話相手として特定し、追跡し続けても良い。また、顔認識部110は、撮影画像に写る人物の中で、顔の大きさが最も大きい人物(すなわち、対話ロボット200に最も近い位置にいる人物)を対話相手として特定しても良い。また、顔認識部110は、撮影画像に写っている物体が人物か否かを判断する際に、例えば、デジタルカメラ等で使用されている顔認識技術を利用し、顔の特徴点を検出できれば、人物であると判断しても良い。また、顔認識部110は、対話相手を特定する際に、カメラ102により事前に撮影された背景画像(対話ロボット200が設置されている設置環境の画像)との差分を利用しても良い。すなわち、顔認識部110は、差分として得られた物体の中から上述のようにして対話相手を特定しても良い。
表示パネル106は、対話ロボット200の目の位置に配置され、対話ロボット200の目を表示する。表示パネル106は、例えば、液晶パネルや、有機EL(Electro Luminescence)パネル等であり、表示部の一例である。
目制御部105は、顔認識部110により認識された対話相手の顔の位置を基に、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の顔の位置に向ける。対話相手の顔の位置が移動した場合には、移動した方向に対話ロボット200の目の視線を向ける。例えば、図3に示されるように、対話相手が撮影画像の右側に移動したことにより、対話相手の顔の位置が撮影画像の右側に移動した場合には、図4に示されるように、対話ロボット200の目の視線も右側に向ける。このときの対話ロボット200の顔全体は、例えば、図5に示されるようになる。
なお、目制御部105は、対話相手の顔の位置の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていた場合(例えば、撮影画像の50%以上の領域がT秒前から変化している場合)には、対話相手の顔の位置の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていない場合と比べて、表示パネル106に表示される対話ロボット200の目の視線を対話相手の顔の位置に向ける速度を速くしても良い。
音声認識部107は、マイク101により集音された集音音声の音声認識を行う。
発話制御部108は、音声認識部107により対話相手の発話音声が音声認識された場合、対話相手の発話音声に対する応答文を生成する。例えば、発話制御部108は、対話相手の発話内容と、これに対する応答文と、を予め対応付けたデータベースを保持し、このデータベースを用いて、対話相手の発話内容に応じた応答文を生成することが考えられる。しかし、応答文の生成方法は、本発明の本質的なものではなく、周知な種々の方法を利用することができる。
スピーカ109は、発話制御部108により生成された応答文を音声出力する。
(1−2)実施の形態1の動作
続いて、本実施の形態1の動作について説明する。図6は、本実施の形態1に係る音声対話装置100における対話ロボット200の目の制御に関連する動作例を示すフローチャートである。
図6に示されるように、まず、対話判定部103は、対話ロボット200が対話相手と対話中であるか否かを判定する(ステップS101)。ステップS101で対話中であると判定されなければ(ステップS101のNO)、処理を終了する。
一方、ステップS101で対話中であると判定されれば(ステップS101のYES)、顔認識部110は、カメラ102により撮影された撮影画像に写る対話相手の顔の位置を認識する(ステップS102)。続いて、目制御部105は、顔認識部110により認識された対話相手の顔の位置を基に、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の顔の位置に向ける(ステップS103)。続いて、ステップS104に進む。
ステップS104では、対話判定部103は、対話ロボット200が対話相手と対話中であるか否かを再度判定する。ステップS104で対話中であると判定されなければ(ステップS104のNO)、処理を終了する。一方、ステップS104で対話中であると判定されれば(ステップS104のYES)、ステップS102に戻り、ステップS102以降の処理を行う。
(1−3)実施の形態1の効果
上述のように、本実施の形態1に係る音声対話装置100は、表示パネル106に対話ロボット200の目を表示することとし、表示パネル106に表示される対話ロボット200の目の視線を対話相手の顔の位置に向ける。従って、対話ロボット200の目の視線を対話相手に向ける際に、モータの駆動音が発生することがないため、音声対話を妨害することなく、対話ロボット200の目の視線を対話相手に向けることができる。
また、本実施の形態1に係る音声対話装置100は、対話相手の顔の位置の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていた場合には、表示パネル106に表示される対話ロボット200の目の視線を対話相手の顔の位置に向ける速度を速くする。従って、対話相手の周辺環境に大きな変化があった場合には、対話ロボット200の目の視線の移動速度を速くするという動物的な演出をすることができるため、対話相手に対し、対話ロボット200と対話している感覚を与えつつ、動物的な相手と対話している感覚を与えることができる。また、対話相手に対し、対話相手の周辺環境を認識していることを示すことができる。
また、本実施の形態1に係る音声対話装置100は、対話相手と対話中であるか否かを判定し、対話中である場合にのみ、表示パネル106に表示される対話ロボット200の目(視線)の制御を行う。従って、対話中以外である場合は、目の制御をしないため、音声対話装置100がバッテリー駆動される場合には、バッテリー寿命の向上を図ることができる。
(2)実施の形態2
実施の形態1は、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の顔の位置に向けていた。
本実施の形態2は、対話相手の目の位置が認識された場合には、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の目の位置に向けるものである。
(2−1)実施の形態2の構成
まず、本実施の形態2の構成について説明する。図7は、本実施の形態2に係る音声対話装置100Aの構成例を示すブロック図である。なお、本実施の形態2に係る音声対話装置100Aは、実施の形態1に係る音声対話装置100と同様に、例えば、図2に示される対話ロボット200に組み込まれるものとする。
図7に示されるように、本実施の形態2に係る音声対話装置100Aは、図1を参照して説明した実施の形態1に係る音声対話装置100の構成と比較して、環境認識部104の代わりに、環境認識部104Aを設けた点が異なっている。以下、実施の形態1と異なる構成要素及び動作が異なる構成要素について説明する。
環境認識部104Aは、カメラ102により撮影された撮影画像に写る対話相手の顔の位置を認識するだけでなく、その対話相手の目の位置を認識する。そのため、環境認識部104Aは、環境認識部104と比較して、第2認識部の一例である目認識部111を追加した点が異なっている。目認識部111は、撮影画像に写る対話相手であって顔認識部110により顔が認識された対話相手の目の位置を認識する。
目制御部105は、目認識部111により対話相手の目の位置が認識された場合、対話相手の目の視線が対話ロボット200を向いていれば、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の目の位置に向ける。また、目制御部105は、対話相手の目の視線が対話ロボット200から外れていれば、表示パネル106に表示される対話ロボット200の目の視線を、その外れた方向に所定時間(例えば、t1秒)向け、その後、対話相手の目の位置に戻す。
一方、目制御部105は、目認識部111により対話相手の目の位置が認識されない場合、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の顔の位置に向ける。
(2−2)実施の形態2の動作
続いて、本実施の形態2の動作について説明する。図8は、本実施の形態2に係る音声対話装置100Aにおける対話ロボット200の目の制御に関連する動作例を示すフローチャートである。図8に示される処理は、図6を参照して説明した実施の形態1における処理と比較して、ステップS103の代わりに、ステップS201〜S206を設けた点が異なっている。
図8に示されるように、まず、図6と同様のステップS101,S102の処理を行う。ステップS101で対話中であると判定されなければ(ステップS101のNO)、処理を終了する。一方、ステップS101で対話中であると判定されれば(ステップS101のYES)、ステップS102で対話相手の顔の位置を認識し、ステップS201に進む。
ステップS201では、目認識部111は、対話相手の目の位置の認識を試行する。ステップS201で対話相手の目の位置が認識されなければ(ステップS201のNO)、目制御部105は、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の顔の位置に向ける(ステップS206)。その後、ステップS104に進む。
一方、ステップS201で対話相手の目の位置が認識されれば(ステップS201のYES)、目制御部105は、対話相手の目の視線が対話ロボット200に向いているか否かを判定する(ステップS202)。ステップS202で対話相手の目の視線が対話ロボット200に向いていれば(ステップS202のYES)、目制御部105は、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の目の位置に向ける(ステップS203)。その後、ステップS104に進む。
一方、ステップS202で対話相手の目の視線が対話ロボット200を向いておらず、対話ロボット200から外れていれば(ステップS202のNO)、目制御部105は、表示パネル106に表示される対話ロボット200の目の視線を、その外れた方向に向ける(ステップS204)。その後、所定時間が経過したら(ステップS205のYES)、目制御部105は、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の目の位置に向ける(ステップS203)。その後、ステップS104に進む。
その後、図6と同様のステップS104の処理を行う。ステップS104で対話中であると判定されなければ(ステップS104のNO)、処理を終了する。一方、ステップS104で対話中であると判定されれば(ステップS104のYES)、ステップS102に戻り、ステップS102以降の処理を行う。
(2−3)実施の形態2の効果
上述のように、本実施の形態2に係る音声対話装置100Aは、対話相手の目の位置が認識された場合、対話相手の目の視線が対話ロボット200を向いていれば、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の目の位置に向ける。また、音声対話装置100Aは、対話相手の目の視線が対話ロボット200から外れていれば、表示パネル106に表示される対話ロボット200の目の視線を、その外れた方向に所定時間向け、その後、対話相手の目の位置に向ける。従って、対話相手がよそ見をした場合など、何かに気を取られて対話ロボット200から視線が外れている場合には、対話ロボット200の目の視線を、その外れた方向に向けることができる。また、対話相手の目が、顔の向きにかかわらず、対話ロボット200の方を向いていれば、対話ロボット200の目の視線を、対話相手の目の位置に向け、対話相手の目をしっかり見ることができる。これにより、対話ロボット200が対話相手を見ていることを強調できるため、対話相手に対し、より動物的な相手と対話している感覚を与えることができる。また、対話相手に対し、対話ロボット200が対話相手の振る舞いを認識していることを示すことができる。そのため、対話相手は、対話ロボット200に対する親近感や愛着を持つことができるようになる。
その他の効果は、実施の形態1と同様である。
(3)実施の形態3
カメラ102は、対話相手及び対話相手周辺の画像を撮影するものであるため、カメラ102により撮影された撮影画像には、対話相手以外の人物や物体(ボールなど)が移動物体として写りこむ場合がある。
本実施の形態3は、撮影画像に対話相手以外の移動物体が写りこんだ場合には、表示パネル106に表示される対話ロボット200の目の視線を、その移動物体を認識した位置に一時的に向けるものである。
(3−1)実施の形態3の構成
まず、本実施の形態3の構成について説明する。図9は、本実施の形態3に係る音声対話装置100Bの構成例を示すブロック図である。なお、本実施の形態3に係る音声対話装置100Bは、実施の形態1に係る音声対話装置100と同様に、例えば、図2に示される対話ロボット200に組み込まれるものとする。
図9に示されるように、本実施の形態3に係る音声対話装置100Bは、図1を参照して説明した実施の形態1に係る音声対話装置100の構成と比較して、環境認識部104の代わりに、環境認識部104Bを設けた点が異なっている。以下、実施の形態1と異なる構成要素及び動作が異なる構成要素について説明する。
環境認識部104Bは、カメラ102により撮影された撮影画像に写る対話相手の顔の位置を認識するだけでなく、撮影画像に対話相手以外の移動物体が写りこんだ場合には、その移動物体の位置を認識する。そのため、環境認識部104Bは、環境認識部104と比較して、第3認識部の一例である移動物体認識部112を追加した点が異なっている。
移動物体認識部112は、カメラ102により撮影された撮影画像に対話相手以外の移動物体が写りこんだ場合、その移動物体の位置を認識する。移動物体は、移動を行う物体であり、人物及び物体(ボールなど)の双方が含まれる。移動物体認識部112は、対話相手以外の移動物体が人物であれば、その人物の顔の位置を認識するものとする。
なお、移動物体認識部112は、対話相手を特定する際に、例えば、対話開始時に撮影画像に写っている人物を、対話相手として特定し、追跡し続けても良い。また、移動物体認識部112は、撮影画像に写る人物の中で、顔の大きさが最も大きい人物(すなわち、対話ロボット200に最も近い位置にいる人物)を対話相手として特定しても良い。また、移動物体認識部112は、撮影画像に写っている物体が人物か否かを判断する際に、例えば、デジタルカメラ等で使用されている顔認識技術を利用し、顔の特徴点を検出できれば、人物であると判断しても良い。また、移動物体認識部112は、対話相手や移動物体を特定する際に、カメラ102により事前に撮影された背景(対話ロボット200が設置されている設置環境)の画像との差分を利用しても良い。すなわち、移動物体認識部112は、差分として得られた物体の中から上述のようにして対話相手を特定し、対話相手以外の物体を移動物体として特定しても良い。
目制御部105は、移動物体認識部112により対話相手以外の移動物体の位置が認識された場合、表示パネル106に表示される対話ロボット200の目の視線を、移動物体の位置に所定時間(例えば、t2秒)向け、その後、対話相手の顔の位置に戻す。例えば、図10に示されるように、撮影画像の右側に移動物体(ボール)が新たに写りこんだ場合には、図11に示されるように、対話ロボット200の目の視線も右側に向ける。そして、所定時間経過後に、対話ロボット200の目の視線を、対話相手の顔の位置に戻す。
一方、目制御部105は、移動物体認識部112により対話相手以外の移動物体の位置が認識されない場合、対話ロボット200の目の視線を、対話相手の顔の位置に向ける。
なお、目制御部105は、対話相手以外の移動物体が撮影画像に新たに写りこんだ場合や、移動物体の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていた場合(例えば、撮影画像の50%以上の領域がT秒前から変化している場合)には、移動物体の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていない場合と比べて、表示パネル106に表示される対話ロボット200の目の視線を移動物体の位置に向ける速度を速くしても良い。
(3−2)実施の形態3の動作
続いて、本実施の形態3の動作について説明する。図12は、本実施の形態3に係る音声対話装置100Bにおける対話ロボット200の目の制御に関連する動作例を示すフローチャートである。図12に示される処理は、図6を参照して説明した実施の形態1における処理と比較して、ステップS103の代わりに、ステップS301〜S304を設けた点が異なっている。
図12に示されるように、まず、図6と同様のステップS101,S102の処理を行う。ステップS101で対話中であると判定されなければ(ステップS101のNO)、処理を終了する。一方、ステップS101で対話中であると判定されれば(ステップS101のYES)、ステップS102で対話相手の顔の位置を認識し、ステップS301に進む。
ステップS301では、移動物体認識部112は、撮影画像に対話相手以外の移動物体が写りこんでいる場合、その移動物体の位置を認識する。ステップS301で対話相手以外の移動物体の位置が認識されていなければ(ステップS301のNO)、目制御部105は、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の顔の位置に向ける(ステップS302)。その後、ステップS104に進む。
一方、ステップS301で対話相手以外の移動物体の位置が認識されていれば(ステップS301のYES)、目制御部105は、表示パネル106に表示される対話ロボット200の目の視線を、その移動物体の位置に向ける(ステップS303)。その後、所定時間が経過したら(ステップS304のYES)、目制御部105は、表示パネル106に表示される対話ロボット200の目の視線を、対話相手の顔の位置に向ける(ステップS302)。その後、ステップS104に進む。
その後、図6と同様のステップS104の処理を行う。ステップS104で対話中であると判定されなければ(ステップS104のNO)、処理を終了する。一方、ステップS104で対話中であると判定されれば(ステップS104のYES)、ステップS102に戻り、ステップS102以降の処理を行う。
(3−3)実施の形態3の効果
上述のように、本実施の形態3に係る音声対話装置100Bは、撮影画像に対話相手以外の移動物体が写りこんでいる場合、その移動物体の位置を認識し、表示パネル106に表示される対話ロボット200の目の視線を、その移動物体の位置に所定時間向け、その後、対話相手の顔の位置に戻す。従って、対話ロボット200は、対話相手を見る時間を極端に低下させることなく、対話相手の周辺環境の変化に対応して、視線が動くという動物的な演出をすることができる。そのため、対話相手に対し、より動物的な相手と対話している感覚を与えることができる。また、対話相手に対し、対話相手の周辺環境を認識していることを示すことができる。
また、本実施の形態3に係る音声対話装置100Bは、撮影画像に移動物体が新たに写りこんだ場合や、移動物体の移動時に撮影画像の所定割合以上の領域で単位時間内に変化が生じていた場合には、表示パネル106に表示される対話ロボット200の目の視線を移動物体の位置に向ける速度を速くする。従って、対話相手の周辺環境に大きな変化があった場合には、対話ロボット200の目の視線の移動速度を速くするという動物的な演出をすることができる。そのため、対話相手に対し、より動物的な相手と対話している感覚を与えることができる。
その他の効果は、実施の形態1と同様である。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記実施の形態は、独立なものとして説明したが、これには限定されず、適宜組み合わせても良い。具体的には、実施の形態2,3を組み合わせても良い。
また、音声対話装置は、実施の形態2で対話相手の目の位置が認識された場合を除いて、対話相手の顔の位置を認識し、表示パネルに表示される対話ロボットの目の視線を対話相手の顔の位置に向けるようにしているが、これには限定されない。対話ロボットの目の視線は、対話相手のどの部位の位置に向けても構わない。すなわち、音声対話装置は、対話相手のどの部位の位置を認識しても良く、対話相手を認識した位置に対話ロボットの目の視線を向ければ良い。
また、音声対話装置は、マイクにより集音された集音音声の音量が閾値を超えており、かつ、カメラにより撮影された撮影画像に対話相手が写っている場合に、対話相手と対話中であると判定し、目の制御は、対話中である場合にのみ、行うこととしたが、これには限定されない。対話相手の発話音声に対する応答文の生成及び音声出力も、対話中である場合にのみ、行うこととしても良い。
また、音声対話装置は、対話相手の移動時に、対話ロボットの目の視線を対話相手を認識した位置に向ける場合、対話相手が発話しているか否かで、表示パネルに表示される目の表出を変えても良い。例えば、対話相手が発話せずに移動した場合には、対話相手が発話しながら移動した場合と比べて、瞬きを多めにしながら、対話ロボットの目の視線を対話相手に向けても良い。これにより、次の対話相手の挙動を確認したいという気持ちを演出することができる。
また、音声対話装置は、音を発生した音源の方位を推定する機能を備えても良い。この機能を備える音声対話装置は、対話相手の発話音声以外の物音が発生した場合、表示パネルに表示される対話ロボットの目の視線を、物音の音源の方位方向に向けても良い。また、その場合、音源の方位方向に移動物体が存在するか否かにかかわらず、対話ロボットの目の視線を音源の方位方向に向ける速度を速くしても良い。これにより、物音が発生した場合に、音に驚いたという動物的な演出をすることができる。
また、音声対話装置は、対話相手と対話中と判定されている間に、対話相手が撮影画像に写らない位置に移動してしまった場合、対話相手を探索していることを示すため、例えば、図13に示されるように、表示パネルに表示される対話ロボットの目を回している演出をしても良い。なお、この場合には、対話ロボットの目の視線を対話相手に向けることができないため、目の制御を停止すれば良い。
また、音声対話装置が備えるマイク、カメラ、表示パネル、及びスピーカ以外の各構成要素は、例えば、コンピュータが備える不図示のプロセッサ及び不図示のメモリによって実現することができる。具体的には、プロセッサが、メモリからソフトウェア(プログラム)を読み出して実行することで、各構成要素を実現することができる。また、各構成要素は、プログラムによるソフトウェアで実現することに限定されることなく、ハードウェア、ファームウェア及びソフトウェアのうちのいずれかの組み合わせなどにより実現しても良い
上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
また、上述したプログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されても良い。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバなどの有線通信路、または無線通信路を介して、プログラムをコンピュータに供給できる。
100,100A,100B 音声対話装置
200 対話ロボット
101 マイク
102 カメラ
103 対話判定部
104,104A,104B 環境認識部
105 目制御部
106 表示パネル
107 音声認識部
108 発話制御部
109 スピーカ
110 顔認識部
111 目認識部
112 移動物体認識部

Claims (6)

  1. 対話ロボットに組み込まれる音声対話装置であって、
    画像を撮影する撮影部と、
    前記画像に写る対話相手の位置を認識する環境認識部と、
    前記対話ロボットの目の位置に配置され、前記対話ロボットの目を表示する表示部と、
    前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手を認識した位置に向ける目制御部と、を備え
    前記環境認識部は、
    前記画像に写る対話相手の顔の位置を認識する第1認識部と、
    前記画像に写る対話相手の目の位置を認識する第2認識部と、を含み、
    前記目制御部は、
    前記第2認識部により前記対話相手の目の位置が認識された場合、前記対話相手の目の視線が前記対話ロボットに向いていれば、前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手の目の位置に向け、
    前記第2認識部により前記対話相手の目の位置が認識されない場合、前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手の顔の位置に向ける、音声対話装置。
  2. 前記目制御部は、
    前記第2認識部により前記対話相手の目の位置が認識された場合、前記対話相手の目の視線が前記対話ロボットから外れていれば、前記表示部に表示される前記対話ロボットの目の視線を、該外れた方向に所定時間向け、その後、前記対話相手の目の位置に向ける、請求項に記載の音声対話装置。
  3. 前記目制御部は、
    前記対話相手の移動時に前記画像の所定割合以上の領域で単位時間内に変化が生じていた場合には、前記対話相手の移動時に前記画像の前記所定割合以上の領域で単位時間内に変化が生じていない場合と比べて、前記表示部に表示される前記対話ロボットの目の視線を前記対話相手を認識した位置に向ける速度を速くする、請求項1又は2に記載の音声対話装置。
  4. 前記環境認識部は、
    前記画像に前記対話相手以外の移動物体が写りこんでいる場合、前記画像に写る前記移動物体の位置を認識する第3認識部をさらに含み、
    前記目制御部は、
    前記画像に前記移動物体が写りこんでいる場合、前記表示部に表示される前記対話ロボットの目の視線を、前記移動物体を認識した位置に所定時間向け、その後、前記対話相手を認識した位置に戻す、請求項1からのいずれか1項に記載の音声対話装置。
  5. 前記目制御部は、
    前記移動物体が新たに写りこんだ場合、及び、前記移動物体の移動時に前記画像の所定割合以上の領域で単位時間内に変化が生じていた場合には、前記移動物体の移動時に前記画像の前記所定割合以上の領域で単位時間内に変化が生じていない場合と比べて、前記表示部に表示される前記対話ロボットの目の視線を前記移動物体を認識した位置に向ける速度を速くする、請求項に記載の音声対話装置。
  6. 対話ロボットに組み込まれる音声対話装置の制御方法であって、
    画像を撮影するステップと
    前記画像に写る対話相手の位置を認識する認識ステップと
    前記対話ロボットの目の位置に配置された表示部に表示される前記対話ロボットの目の視線を、前記対話相手を認識した位置に向ける目制御ステップと、を含み、
    前記認識ステップは、
    前記画像に写る対話相手の顔の位置を認識する第1認識ステップと、
    前記画像に写る対話相手の目の位置を認識する第2認識ステップと、を含み、
    前記目制御ステップでは、
    前記第2認識ステップにより前記対話相手の目の位置が認識された場合、前記対話相手の目の視線が前記対話ロボットに向いていれば、前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手の目の位置に向け、
    前記第2認識ステップにより前記対話相手の目の位置が認識されない場合、前記表示部に表示される前記対話ロボットの目の視線を、前記対話相手の顔の位置に向ける、制御方法。
JP2016196557A 2016-10-04 2016-10-04 音声対話装置及びその制御方法 Active JP6443419B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016196557A JP6443419B2 (ja) 2016-10-04 2016-10-04 音声対話装置及びその制御方法
US15/676,247 US10464214B2 (en) 2016-10-04 2017-08-14 Voice interaction device and control method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016196557A JP6443419B2 (ja) 2016-10-04 2016-10-04 音声対話装置及びその制御方法

Publications (2)

Publication Number Publication Date
JP2018060322A JP2018060322A (ja) 2018-04-12
JP6443419B2 true JP6443419B2 (ja) 2018-12-26

Family

ID=61759001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016196557A Active JP6443419B2 (ja) 2016-10-04 2016-10-04 音声対話装置及びその制御方法

Country Status (2)

Country Link
US (1) US10464214B2 (ja)
JP (1) JP6443419B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733215A (zh) * 2018-05-17 2018-11-02 华南农业大学 一种拟人化虚拟助手注视方向控制方法
JP2021024093A (ja) * 2019-07-31 2021-02-22 キヤノン株式会社 画像形成装置、画像形成装置の制御方法ならびにコンピュータプログラム
GB2598333B (en) * 2020-08-26 2023-09-20 Advanced Risc Mach Ltd A method and head-mounted unit for assisting a user
CN112936245B (zh) * 2021-02-05 2023-07-18 华南理工大学 一种类人机器人头部和眼睛注视控制装置及方法
CN116564005B (zh) * 2023-07-11 2023-09-08 深圳市瑞凯诺科技有限公司 智能充电桩的无线启动方法及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0983856A (ja) 1995-09-07 1997-03-28 Nippon Telegr & Teleph Corp <Ntt> インテリジェントカメラ装置
JP4779226B2 (ja) 2001-04-25 2011-09-28 ソニー株式会社 ロボット装置、並びに、画像記憶方法及び画像記憶装置、並びに、制御プログラム及び記録媒体
JP2002351305A (ja) 2001-05-23 2002-12-06 Apollo Seiko Ltd 語学研修用ロボット
JP2003205489A (ja) * 2002-01-08 2003-07-22 Matsushita Electric Ind Co Ltd 人工目およびそれを用いたロボット
JP3632099B2 (ja) 2002-12-17 2005-03-23 独立行政法人科学技術振興機構 ロボット視聴覚システム
US20090030552A1 (en) 2002-12-17 2009-01-29 Japan Science And Technology Agency Robotics visual and auditory system
JP2005279895A (ja) 2004-03-30 2005-10-13 Advanced Telecommunication Research Institute International ロボット
JP2006289508A (ja) 2005-04-05 2006-10-26 Sony Corp ロボット装置及びその表情制御方法
EP1941411B1 (en) 2005-09-30 2011-09-14 iRobot Corporation Companion robot for personal interaction
JP4751192B2 (ja) 2005-12-12 2011-08-17 本田技研工業株式会社 移動ロボット
JP5186723B2 (ja) * 2006-01-05 2013-04-24 株式会社国際電気通信基礎技術研究所 コミュニケーションロボットシステムおよびコミュニケーションロボットの視線制御方法
JP4565196B2 (ja) * 2007-08-30 2010-10-20 株式会社国際電気通信基礎技術研究所 コミュニケーションロボット
JP2010112979A (ja) * 2008-11-04 2010-05-20 Advanced Telecommunication Research Institute International インタラクティブ看板システム
JP2012239557A (ja) * 2011-05-17 2012-12-10 Shain:Kk ロボット玩具
JP5983159B2 (ja) 2012-08-01 2016-08-31 富士通株式会社 視線制御装置、視線制御方法及び視線制御プログラム並びに端末装置

Also Published As

Publication number Publication date
US20180096206A1 (en) 2018-04-05
JP2018060322A (ja) 2018-04-12
US10464214B2 (en) 2019-11-05

Similar Documents

Publication Publication Date Title
JP6443419B2 (ja) 音声対話装置及びその制御方法
US10083710B2 (en) Voice control system, voice control method, and computer readable medium
WO2021027424A1 (zh) 图像采集的控制方法及采集终端
US9423870B2 (en) Input determination method
US20180137861A1 (en) Information processing apparatus, information processing method, and program
WO2017104207A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20130021459A1 (en) System and method for enhancing speech activity detection using facial feature detection
US20170178356A1 (en) System and method to modify display of augmented reality content
WO2016132729A1 (ja) ロボット制御装置、ロボット、ロボット制御方法およびプログラム記録媒体
CN107430856B (zh) 信息处理系统和信息处理方法
JP2009166184A (ja) ガイドロボット
KR20190121758A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
JP2023027060A (ja) ロボット、ロボットの制御方法及びプログラム
WO2021085242A1 (ja) 情報処理装置、及びコマンド処理方法
US10464215B2 (en) Voice interaction device and control method therefor
CN111768785A (zh) 一种智能手表的控制方法及智能手表
KR102613040B1 (ko) 영상 통화 방법 및 이를 구현하는 로봇
KR102288060B1 (ko) 피사체의 소리를 수신하는 방법 및 이를 구현하는 전자장치
JP2016180778A (ja) 情報処理システムおよび情報処理方法
JP2019072787A (ja) 制御装置、ロボット、制御方法、および制御プログラム
WO2018056169A1 (ja) 対話装置、処理方法、プログラム
WO2023286775A1 (ja) 音声認識装置、音声認識方法、音声認識プログラム、撮像装置
US11400607B2 (en) Image processing device, robot, image processing method, and recording medium
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20240114236A1 (en) Apparatus and method for controlling a robot photographer with semantic intelligence

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181112

R151 Written notification of patent or utility model registration

Ref document number: 6443419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151