JP2020091636A

JP2020091636A - 音声対話装置の制御方法

Info

Publication number: JP2020091636A
Application number: JP2018228065A
Authority: JP
Inventors: 加来　航; Ko Kako; 航加来
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2020-06-11

Abstract

【課題】対象者を驚かせたり不快にさせてしまったりする可能性を低減しつつ、対象者が推奨される行動を行うよう促すことができる音声対話装置を提供する。【解決手段】音声により対象者との対話を行う音声対話装置は、対象者の視線を検知する視線検知部と、視線検知部からの情報に基づいて、対象者が音声対話装置に対して視線を向けている程度の指標である注視度合いが所定の水準より高いか否かを判定する注視判定部と、注視度合いが所定の水準より高い場合、推奨される行動を対象者が実行するよう対象者に促し、注視度合いが所定の水準より低い場合、対象者に対して音声対話装置に注意を向けさせるための働きかけを行う注意喚起部と、を備える。【選択図】図２

Description

本発明は、音声対話装置の制御方法に関する。

音声認識や言語処理を行うことで対象者（ユーザ）と音声により対話を行う音声対話装置が知られている。特許文献１には、対象者のアクションを示すデータを取得し、対象者に対して出力される情報に向けられる注意度の期待値を算出し、これに基づき、対象者への応答や表示を介した情報提供を行う対話装置が開示されている。

特開２０１５−１３２８７８号公報

介護現場において、対象者に対して問いかけを行い、対象者が推奨される行動を行うよう促すことが、寝たきり状態になるのを防止する上で極めて有効であることが分かってきた。このため、介護現場において、上述した音声対話装置を導入し、当該音声対話装置により対象者に対して問いかけを行わせるようにする試みがなされている。しかしながら、音声対話装置が対象者に対して問いかけした際に、対象者の意識が音声対話装置には向いていない場合、不意に問いかけをされた対象者を驚かせてしまったり、不快にさせてしまったりする恐れがあった。

本発明は、以上の背景に鑑みなされたものであり、対象者を驚かせたり不快にさせてしまったりする可能性を低減しつつ、対象者が推奨される行動を行うよう促すことができる音声対話装置を提供することを目的とする。

本発明の一実施態様に係る音声対話装置の制御方法は、対象者の視線を検知する視線検知部を備え、前記対象者に対して問いかけを行い、前記対象者が推奨される行動を行うように促す音声対話装置の制御方法であって、前記視線検知部からの情報に基づいて、前記対象者が前記音声対話装置に対して視線を向けている程度の指標である注視度合いが所定の水準より高いか否かを判定する第１のステップと、前記注視度合いが前記所定の水準より高い場合、推奨される行動を前記対象者が実行するよう前記対象者に促し、前記注視度合いが前記所定の水準より低い場合、前記対象者に対して前記音声対話装置に注意を向けさせるための働きかけを行う第２のステップと、を有し、前記第２のステップの後、前記第１のステップを再度行うものである。

このように、対象者の注視度合いが高くなるように働きかけた後で再度、対象者の注視度合いを判定することで、対象者を驚かせたり不快にさせてしまったりする可能性を低減し、より効率的に対象者が推奨される行動を行うよう促すことができる。

本発明によれば、対象者を驚かせたり不快にさせてしまったりする可能性を低減しつつ、対象者が推奨される行動を行うよう促すことができる。

本実施の形態に係る音声対話装置の概観図である。本実施の形態に係る音声対話装置のシステム構成図である。本実施の形態に係る音声対話装置が対象者に対し声かけする方法について説明する模式図である。対象者にとって推奨される行動の計画の一例を示す模式図である。本実施の形態に係る音声対話装置における対象者に対し声かけする処理の流れを示すフローチャートである。外部装置の構成の一例を示す模式図である。

以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

図１は、本実施の形態に係る音声対話装置１００の概観図である。音声対話装置１００は、対象者（ユーザ）に対して問いかけを行い、対象者が推奨される行動を行うように促すロボットである。音声対話装置１００は、キャラクターを具現化したキャラクター装置であり、対話に合わせて眼の表情や視線方向が変化する。

音声対話装置１００は、外観として動物を模しており、胴体部１１０と頭部１２０を有する。胴体部１１０の内部には、モータ１１１が設けられており、頭部１２０は、モータ１１１の駆動により、胴体部１１０に対して向きが変化する。頭部１２０には、対象者が眼と認識できる位置に、眼球部１２２が設けられている。眼球部１２２の背後には、例えば液晶パネルや有機ＥＬパネルである表示パネル１０６が設置されている。表示パネル１０６には、黒目画像１６１が映し出される。

音声対話装置１００の鼻の位置には、カメラ１０２が目立たないように配置されている。カメラ１０２は、例えばＣＭＯＳセンサを含み、外部環境を認識するための画像を取得する撮像部として機能する。音声対話装置１００の口の位置には、スピーカ１０９が隠されて配置されている。スピーカ１０９は、音声対話装置１００が生成した音声を発する発話出力部として機能する。対象者は、口の位置から出力される音声に、音声対話装置１００が喋っているような感覚を覚える。また、頭部１２０のいずれかの位置には、マイク１０１が隠されて配置されている。マイク１０１は、対象者の発話音声を検出する検出部としての機能を担う。

図２は、音声対話装置１００のシステム構成図である。音声対話装置１００は、主なシステム構成として、マイク１０１、カメラ１０２、表示パネル１０６、スピーカ１０９、モータ１１１、制御部２００、および応答音声ＤＢ３１０を備えている。制御部２００は、例えばＣＰＵによって構成され、機能ごとの実行を担う機能実行部としても動作し、主に、発話認識部２０１、顔認識部２０２、視線制御部２０３、表示制御部２０４、モータ制御部２０５、音声選択部２０６、発話制御部２０７、視線検知部２０８、注視判定部２０９、及び注意喚起部２１０として動作する。

マイク１０１は、主な機能として、音声対話装置１００が対話する相手である対象者の発話音声を集音する。マイク１０１は、集音した対象者の発話音声を音声信号に変換して、発話認識部２０１へ引き渡す。

発話認識部２０１は、マイク１０１から受け取った音声信号を解析して対象者の発話を認識する。発話認識部２０１は、マイク１０１と協働して、音声対話装置１００へ向かって話しかける対象者の発話を取得する発話取得部としての機能を担う。発話認識部２０１は、具体的には、一般的な音声認識技術により対象者の発話内容を認識する。発話認識部２０１は、認識した発話内容を音声選択部２０６へ引き渡す。

音声選択部２０６は、発話認識部２０１で認識された対象者の発話内容に対して会話としてふさわしいセンテンスを選択し、選択したセンテンスに応じた発話データを応答音声ＤＢ３１０から収集して、発話制御部２０７へ引き渡す。また、音声選択部２０６は、注意喚起部２１０からの指示により、対象者に対し、対象者が推奨される行動を行うように促す“問いかけ”を行うためのセンテンスを選択する。さらに、音声選択部２０６は、注意喚起部２１０からの指示により、対象者に対して音声対話装置に注意を向けさせる“呼びかけ”を行うためのセンテンスを選択する。応答音声ＤＢ３１０は、音声選択部２０６に接続されている応答音声のデータベースであり、例えばハードディスクドライブの記録媒体によって構成されている。応答音声ＤＢ３１０は、例えばコーパスとして体系化されており、個々の用語は、再生可能な発話データを伴って格納されている。

発話制御部２０７は、受け取った発話データを音声信号に変換してスピーカ１０９へ引き渡す。音声選択部２０６と発話制御部２０７は、互いに協働して、対象者の発話内容に基づいて応答音声を生成する音声生成部としての機能を担う。スピーカ１０９は、発話制御部２０７で変換された音声信号を受け取って、応答音声を音声出力する。

発話認識部２０１は、対象者が発話を始めたタイミングを視線制御部２０３へ引き渡す。また、発話制御部２０７は、応答音声を音声出力するタイミングを視線制御部２０３へ引き渡す。視線制御部２０３は、これらのタイミング情報に同期させて、視線方向の調整を実行する。

カメラ１０２は、主な機能として、音声対話装置１００と対話を取る対象者を撮影する。カメラ１０２は、撮影した画像を画像信号に変換して、顔認識部２０２へ引き渡す。

顔認識部２０２は、カメラ１０２から受け取った画像信号を解析して対象者の顔を認識する。顔認識部２０２は、抽出した顔領域中から、対象者の基準方向を決定する。基準方向は、音声対話装置１００から、例えば対象者の両目を結ぶ中点へ向かう方向である。基準方向は、三次元空間におけるベクトルで表されるので、基準方向を定めるためには、音声対話装置１００から対象者の顔までの距離情報が必要である。距離情報は、例えばカメラ１０２がステレオカメラで構成される場合には画像間のズレ量から算出することができ、赤外線にも感度を有するカメラで構成される場合には投光した赤外線パターンの歪みから算出することができる。なお、距離情報を取得する手法は、音声対話装置１００の仕様に応じて公知技術を任意に選択することができる。

視線制御部２０３は、発話認識部２０１、発話制御部２０７から受け取ったタイミング、あるいはその他のタイミングに同期して、視線方向を顔認識部２０２から受け取った基準方向へ向ける制御を行う。つまり、視線制御部２０３は、視線方向を基準方向に一致させるために、黒目画像１６１の位置を変化させる変化量と、頭部１２０の向きを変化させる変化量を決定し、それぞれを表示制御部２０４とモータ制御部２０５へ引き渡す。

表示制御部２０４は、視線制御部２０３から受け取った黒目画像１６１の位置の変化量に従って、表示パネル１０６上で黒目画像１６１の位置を移動させる。表示制御部２０４は、受け取った変化量の大きさ、すなわち黒目画像１６１を移動させる距離に応じて、中間的な表示画像を段階的に生成し、アニメーションとして黒目画像１６１を表示すると良い。モータ制御部２０５は、視線制御部２０３から受け取った頭部１２０の向きの変化量に従って、モータ１１１を駆動する。

視線検知部２０８は、対象者の視線を検知する。具体的には、顔認識部２０２においてカメラ１０２の撮像した画像の信号を解析することによって認識した対象者の顔から目を抽出し、対象者の視線方向を推定する。対象者の視線方向を推定する手法は、例えば、三次元眼球モデルに基づく手法や、眼球の見えに基づく手法などの公知技術を用いることができる。三次元眼球モデルに基づく手法では、楕円当てはめ、エッジ検出により虹彩や瞳孔の位置を推定し、三次元眼球モデルとのフィッティングを行うことによって視線方向を推定する。眼球の見えに基づく手法では、画像から眼の虹彩の検出は行わず、様々な方向を見ている眼領域の画像を大量に集め、その輝度値の分布を学習することで視線方向を推定する。輝度値の分布の学習には、例えばニューラルネットワークを用いる。

注視判定部２０９は、視線検知部２０８からの情報に基づいて注視度合い（ＡｔｔｅｎｔｉｏｎＬｅｖｅｌ）が所定の水準より高いか否かを判定する。ここで、注視度合いは、対象者が音声対話装置に対して視線を向けている程度の指標であり、例えば、所定の期間に、対象者が音声対話装置に対して視線を向けている時間の長さである。つまり、所定の期間に、対象者が音声対話装置に対して視線を向けている時間の長さが、予め定めた閾値以上である場合に注視度合いが所定の水準より高いと判定し、予め定めた閾値未満である場合に注視度合いが所定の水準より低いと判定する。これにより、対象者の注視度合いを客観的に判断することができる。

注意喚起部２１０は、注視度合いが所定の水準より高い場合、対象者に対して”問いかけ“を行い、推奨される行動を実行するよう対象者に促し、注視度合いが所定の水準より低い場合、対象者に対してロボットに注意を向けさせるための働きかけを行う。ここで、対象者に対して音声対話装置に注意を向けさせるための働きかけは、例えば対象者に対して“呼びかけ”を行うことである。注意喚起部２１０は、推奨される行動を実行するよう対象者に促す“問いかけ”を行う場合、音声選択部２０６に対して、“問いかけ”を行うためのセンテンスを選択するよう指示する。また、注意喚起部２１０は、対象者に対して音声対話装置に注意を向けさせる“呼びかけ”を行う場合、音声選択部２０６に対して、“呼びかけ”を行うためのセンテンスを選択するよう指示する。

図３は、音声対話装置１００が対象者に対し声かけする方法について説明する模式図である。ここで、“声かけ”には、対象者に対し、推奨される行動を前記対象者が実行するように即すための“問いかけ”と、対象者の注意を音声対話装置１００に向けさせるための“呼びかけ”が含まれる。図３の上段に示すように、対象者Ｔは読書中であり、対象者Ｔの視線Ｓ１は、本に向けられており、音声対話装置１００には向けられていない。このように、対象者Ｔの注視度合いが所定の水準より低い場合には、対象者Ｔに対し、いきなり問いかけを行わず、まず、「ねぇねぇ、Ｔさん。」といった呼びかけを行う。

そして、呼びかけを行うことにより、図３の下段に示すように、対象者Ｔの視線Ｓ２は、音声対話装置１００に向けられる。図３の下段に示す状態のように、対象者Ｔの音声対話装置１００に対する注視度合いが所定の水準よりも高い場合には、音声対話装置１００は、「１５：００からのレクリエーションに参加しませんか？」といった問いかけを行い、対象者Ｔが推奨される行動を行うように促す。対象者の注意が音声対話装置に向いていない場合に、対象者に対し呼びかけを行うと、対象者の注意を音声対話装置に向けさせることができる。これにより、音声対話装置に対する対象者の注視度合いを所定の水準より高くすることができる。

このように、音声対話装置１００は、対象者に対して問いかけを行う前に、注視度合いが所定の水準より高いか低いかを判定する。そして、注視度合いが所定の水準より高い場合には、対象者に対し、推奨される行動を前記対象者が実行するように即すための問いかけを行う。一方、注視度合いが所定の水準より低い場合には、まず、対象者に対して呼びかけを行い、対象者の注視度合いが所定の水準より高くなってから上述した問いかけを行うようにする。これにより、対象者を驚かせたり不快にさせてしまったりする可能性を低減することができる。

音声対話装置１００は、対象者が推奨される行動を行うように促す問いかけを行うために、対象者にとって推奨される行動の計画を把握している必要がある。図４は、対象者にとって推奨される行動の計画の一例を示す模式図である。図４に示すように、対象者のその日の予定が、時刻に推奨される行動が対応した一覧表になっている。例えば、時刻１５：００における、対象者にとって推奨される行動は、レクリエーションまたは入浴である。なお、対象者にとって推奨される行動の計画は、音声対話装置１００に内蔵されたメモリなどに予め格納され、注意喚起部２１０において適宜参照される。

次に、音声対話装置１００における対象者に対し声かけする処理の流れについて説明する。なお、以下の説明では、図１についても適宜参照する。
図５は、音声対話装置１００における対象者に対し声かけする処理の流れを示すフローチャートである。図５に示すように、まず、対象者にとって推奨される行動の計画の確認を行う（ステップＳ１０１）。ここで、対象者の推奨される行動とは、例えば、対象者が介護施設の入居者であれば、起床する、朝昼晩の食事をしに食堂へ行く、日課の体操を行う、レクリエーションに行く、入浴に行くなどである。対象者にとって推奨される行動の計画とは、例えば図４の一覧表に示されるような対象者のその日の予定である。続いて、現状把握を行う（ステップＳ１０２）。ここで、現状把握とは、現時刻の確認と対象者の状態の確認をすること、つまり、現時刻は昼寝時間など声かけしてはいけない時間に当たるか、対象者が電話中などの声かけをしてはいけない状態にあるか、を確認することである。

続いて、対象者の推奨される行動のうち、開始条件を満たす最優先の行動を選択する（ステップＳ１０３）。ここで、開始条件を満たすとは、行動の開始予定時刻（または、行動を行うのに推奨される時刻）と現時刻との時間差が所定時間以内であり、かつ、対象者が声かけしてもよい状態にある場合である。開始条件を満たす行動が複数ある場合は、対象者の推奨される行動の計画において予め定められた優先順位の最も高い（最優先の）行動を選択する。例えば、１５：００において対象者の推奨される行動がレクリエーションまたは入浴である場合に、対象者の体調などの諸事情を考慮して、レクリエーションの方が推奨されるのであれば、レクリエーションを選択するようにする。

続いて、対象者が今、実行すべき行動があるかないかを判定する（ステップＳ１０４）。すなわち、ステップＳ１０３の処理で選択された行動があったか否かを判定する。ステップＳ１０４において、実行すべきタスクがないと判定された場合、サーボを停止して待機状態とし（ステップＳ１０５）、処理をステップＳ１０２に戻す。

ステップＳ１０４において、実行すべきタスクがあると判定された場合、対象者が音声対話装置１００に対して視線を向けている程度の指標である注視度合いを取得する（ステップＳ１０６）。続いて、注視度合いが所定の水準より高いか否かを判定する（ステップＳ１０７）。ステップＳ１０７において、注視度合いが所定の水準より高い場合、対象者に対して推奨される行動を行うよう即す問いかけを行う（ステップＳ１０８）。ステップＳ１０７において、注視度合いが所定の水準より低い場合、前記対象者に対して音声対話装置に注意を向けさせるための働きかけを行い（ステップＳ１０９）、処理をステップＳ１０６に戻す。

［変形例１］
図２に示す注視判定部２０９において、注視度合いの判定は、音声対話装置１００の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行うようにしてもよい。図６は、外部装置５００の構成の一例を示す模式図である。図６に示すように、外部装置５００は居室の天井に設置されている。外部装置５００には、カメラ５１０が設置されている。また、外部装置５００と音声対話装置１００とは、無線通信を行うための無線ルータ５２０、５３０を介して接続されている。カメラ５１０は、撮影した画像を画像信号に変換し、無線ルータ５２０、５３０を介して画像データを音声対話装置１００（具体的には、図２に示す制御部２００の顔認識部２０２）へ引き渡す。外部装置５００は、音声対話装置１００よりも設置の自由度が高い。例えば外部装置５００を居室の天井に設置すれば、カメラ５１０は居室内の広い範囲の撮像が可能になる。このため、対象者Ｔが音声対話装置１００のカメラ１０２の死角となる位置にいる場合でも、外部装置５００のカメラ５１０により対象者Ｔの画像を良好に撮像することができる。このように、注視度合いの判定を、外部装置５００に設置されたカメラ５１０による撮像画像に基づいて行うようにすると、音声対話装置１００に内蔵されたカメラ１０２による撮像画像に基づいて行うよりも注視度合いの判定を精度良く行うことができる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。上記実施の形態では、対象者に対して音声対話装置に注意を向けさせるための働きかけを呼びかけにより行ったが、これに限るものではない。例えば、音声対話装置が、光を点滅させることが可能な発光部（例えばパトランプ）をさらに備え、対象者に対して音声対話装置に注意を向けさせるための働きかけを、発光部を点滅させることにより行うようにしてもよい。対象者の注意が音声対話装置に向いていない場合に、発光部を点滅させると、対象者の注意を音声対話装置に向けさせることができる。

本発明にかかる、対象者に対し声かけする処理は、コンピュータなどにプログラムを実行させることによって実現できる。より具体的には、制御装置、音声対話装置、音声認識サーバのいずれか一つが備えるコンピュータにおいて、プログラムメモリに格納されたプログラムを主記憶装置にロードし、ＣＰＵの制御によって当該プログラムを実行して実現する。ここで、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
音声により対象者との対話を行う音声対話装置であって、
前記対象者の視線を検知する視線検知部と、
前記視線検知部からの情報に基づいて、前記対象者が前記音声対話装置に対して視線を向けている程度の指標である注視度合いが所定の水準より高いか否かを判定する注視判定部と、
前記注視度合いが前記所定の水準より高い場合、推奨される行動を前記対象者が実行するよう前記対象者に促し、前記注視度合いが前記所定の水準より低い場合、前記対象者に対して前記音声対話装置に注意を向けさせるための働きかけを行う注意喚起部と、を備える音声対話装置。
（付記２）
前記注視度合いは、所定の期間に、前記対象者が前記音声対話装置に対して視線を向けている時間の長さである、付記１に記載の音声対話装置。
（付記３）
前記対象者に対して前記音声対話装置に注意を向けさせるための働きかけは、前記対象者に対して呼びかけを行うことである、付記１に記載の音声対話装置。
（付記４）
光を点滅させることが可能な発光部をさらに備え、
前記対象者に対して前記音声対話装置に注意を向けさせるための働きかけは、前記発光部を点滅させることである、付記１に記載の音声対話装置。
（付記５）
前記注視判定部において、前記注視度合いの判定は、前記音声対話装置の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行う、付記１に記載の音声対話装置。
（付記６）
対象者の視線を検知する視線検知部を備え、前記対象者に対して問いかけを行い、前記対象者が推奨される行動を行うように促す音声対話装置の制御プログラムであって、
前記視線検知部からの情報に基づいて、前記対象者が前記音声対話装置に対して視線を向けている程度の指標である注視度合いが所定の水準より高いか否かを判定するステップと、
前記注視度合いが前記所定の水準より高い場合、推奨される行動を前記対象者が実行するよう前記対象者に促し、前記注視度合いが前記所定の水準より低い場合、前記対象者に対して前記音声対話装置に注意を向けさせるための働きかけを行うステップと、をコンピュータに実行させる音声対話装置の制御プログラム。

付記１では、音声対話装置は、対象者に対して問いかけを行う前に、注視度合いが所定の水準より高いか低いかを判定する。そして、注視度合いが所定の水準より高い場合には、対象者に対し、推奨される行動を前記対象者が実行するように即すための問いかけを行う。一方、注視度合いが所定の水準より低い場合には、まず、対象者に対して音声対話装置に注意を向けさせるための働きかけを行い、対象者の注視度合いが所定の水準より高くなってから上述した問いかけを行うようにする。これにより、対象者を驚かせたり不快にさせてしまったりする可能性を低減することができる。
また、付記２により、対象者の注視度合いを客観的に判断することができる。
付記３により、対象者の注意が音声対話装置に向いていない場合に、対象者に対し「ねぇねぇ」といった呼びかけを行うと、対象者の注意を音声対話装置に向けさせることができる。これにより、音声対話装置に対する対象者の注視度合いを所定の水準より高くすることができる。
付記４により、対象者の注意が音声対話装置に向いていない場合に、発光部を点滅させると、対象者の注意を音声対話装置に向けさせることができる。これにより、音声対話装置に対する対象者の注視度合いを所定の水準より高くすることができる。
付記５について、外部装置は、音声対話装置よりも設置の自由度が高い。例えば外部装置を居室の天井に設置すれば、外部装置に設置されたカメラは居室内の広い範囲の撮像が可能になる。このため、対象者が音声対話装置に設けられたカメラの死角となる位置にいる場合でも、外部装置に設置されたカメラにより対象者の画像を良好に撮像することができる。付記５のように、注視度合いの判定を、外部装置に設置されたカメラによる撮像画像に基づいて行うようにすると、音声対話装置に設置されたカメラによる撮像画像に基づいて行うよりも注視度合いの判定を精度良く行うことができる可能性を高めることができる。
付記６により、対象者を驚かせたり不快にさせてしまったりする可能性を低減しつつ、対象者が推奨される行動を行うよう促すことができる。

１００音声対話装置
１０１マイク
１０２、５１０カメラ
１０６表示パネル
１０９スピーカ
１１０胴体部
１１１モータ
１２０頭部
１２２眼球部
１６１黒目画像
２００制御部
２０１発話認識部
２０２顔認識部
２０３視線制御部
２０４表示制御部
２０５モータ制御部
２０６音声選択部
２０７発話制御部
２０８視線検知部
２０９注視判定部
２１０注意喚起部
５００外部装置
５２０、５３０無線ルータ

Claims

対象者の視線を検知する視線検知部を備え、前記対象者に対して問いかけを行い、前記対象者が推奨される行動を行うように促す音声対話装置の制御方法であって、
前記視線検知部からの情報に基づいて、前記対象者が前記音声対話装置に対して視線を向けている程度の指標である注視度合いが所定の水準より高いか否かを判定する第１のステップと、
前記注視度合いが前記所定の水準より高い場合、推奨される行動を前記対象者が実行するよう前記対象者に促し、前記注視度合いが前記所定の水準より低い場合、前記対象者に対して前記音声対話装置に注意を向けさせるための働きかけを行う第２のステップと、を有し、
前記第２のステップの後、前記第１のステップを再度行う、音声対話装置の制御方法。