JP7120060B2

JP7120060B2 - 音声対話装置、音声対話装置の制御装置及び制御プログラム

Info

Publication number: JP7120060B2
Application number: JP2019019745A
Authority: JP
Inventors: 航加来
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-02-06
Filing date: 2019-02-06
Publication date: 2022-08-17
Anticipated expiration: 2039-02-06
Also published as: CN111540383A; US11682389B2; US20200251110A1; JP2020126195A

Description

本発明は、音声対話装置、音声対話装置の制御装置及び制御プログラムに関する。

音声認識や言語処理を行うことでユーザ（対象者）と音声により対話を行う音声対話装置が知られている。近年、このような音声対話装置において、対象者が、対話において不快感を覚えることなく、親しみを持つことができるようにする開発が進められている。特許文献１には、ユーザのアクションを示すデータを取得し、ユーザに対して出力される情報に向けられる注意度の期待値を算出し、これに基づき、ユーザへの応答や表示を介した情報提供を行う対話装置が開示されている。

特開２０１５－１３２８７８号公報

介護現場において、対象者に対して問いかけを行い、対象者が推奨される行動を行うよう促すことが、寝たきり状態になるのを防止する上で極めて有効であることが分かってきた。このため、介護現場において、上述した音声対話装置を導入し、当該音声対話装置により対象者に対して問いかけを行わせるようにする試みがなされている。しかしながら、問いかけに対して応答を行った対象者の状態を考慮せずに、何度も問いかけを行うと、対象者を不快にさせてしまう恐れがあった。

本発明は、以上の背景に鑑みなされたものであり、対象者を不快にさせてしまう可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる音声対話装置を提供することを目的とする。

本発明の一実施態様に係る音声対話装置は、対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置であって、前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、前記対象者より予め想定された応答があったと判定された場合には前記対象者への問いかけを終了する応答内容判定部と、前記応答内容判定部において、前記対象者より予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第１の閾値以上の場合には前記対象者に再度問いかけを行うようにし、前記第１の閾値未満の場合には前記対象者への問いかけを終了するエンゲージメントレベル判定部と、を備えるものである。

この音声対話装置では、問いかけを行った後、対象者より予め想定された応答がなかった場合、エンゲージメントレベルを算出し、算出したエンゲージメントレベルが、第１の閾値以上の場合には対象者に再度問いかけを行う。このようにすると、対象者が対話の継続を望んでいない、すなわち、エンゲージメントレベルが第１の閾値未満である場合には、再度問いかけを行わないようにすることができる。これにより、対象者を不快にさせてしまう可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる。

前記エンゲージメントレベル判定部において、算出した前記エンゲージメントレベルが、前記第１の閾値よりも高い第２の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行い、前記第１の閾値以上で前記第２の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うようにするものであってもよい。
エンゲージメントレベルが第２の閾値以上で、対象者が対話の継続に非常に積極的である場合、対象者は音声対話装置の問いかけの意味が分からなかった可能性がある。このような場合、音声対話装置は、対象者に対し、前回の問いかけと同じ表現で再度問いかけを行うようにする。一方、エンゲージメントレベルが第１の閾値以上で第２の閾値未満であり、対象者が、対話の継続を望んでいない訳ではないが、対話の継続に非常に積極的という程ではないという場合、対象者に対し、前回の問いかけとは表現を変えて再度問いかけを行う。例えば、再度の問いかけでは、前回の問いかけに対して、より対象者の興味をそそる表現に変える。このようにすることで、効率的に対象者が推奨される行動を行うよう促すことができる。

前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを前記対象者と前記音声対話装置との距離に応じて算出するようにしてもよい。
音声対話装置との対話を適切に行うために、対象者は、対象者と音声対話装置との距離が推奨距離以内になるように音声対話装置に近づいて対話を行う必要がある。このため、音声対話装置の問いかけに対して、対象者が音声対話装置との対話の継続に積極的である場合には、音声対話装置に近づいて応答を行うと考えられる。つまり、対象者と音声対話装置との距離が、短い場合には長い場合よりもエンゲージメントレベルが高くなると考えられる。このように、対象者と音声対話装置との距離と、エンゲージメントレベルと、の間には相関があるので、音声対話装置の問いかけに対して、対象者が応答を行ったときの、対象者と音声対話装置との距離に応じてエンゲージメントレベルを算出することができる。このようにすることで、エンゲージメントレベルの算出を精度良く行うことができる。

前記対象者と前記音声対話装置との距離は、前記音声対話装置の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行うようにしてもよい。
外部装置は、音声対話装置よりも設置の自由度が高い。例えば外部装置を居室の天井に設置すれば、外部装置に設置されたカメラは居室内の広い範囲の撮像が可能になる。このため、音声対話装置のカメラよりも、対象者と音声対話装置との位置関係を精度良く把握することができる。つまり、対象者と音声対話装置との距離の算出を、音声対話装置の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行うことで、対象者と音声対話装置との距離の算出の精度をより向上させることができる。これにより、エンゲージメントレベルの算出を精度良く行うことができる。

前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを、前記問いかけに対する前記対象者の応答内容を考慮して算出するようにしてもよい。対象者の顔の応答内容は、対象者のエンゲージメントレベルと相関があると考えられる。例えば、対象者Ｔの応答内容に、問いかけの内容を否定する表現が含まれている場合、エンゲージメントレベルをより低く算出する。このようにすることで、エンゲージメントレベルの算出をより精度良く行うことができる。

前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを、前記問いかけに対する前記対象者の顔の表情や挙動を考慮して算出するようにしてもよい。対象者の顔の表情は、対象者のエンゲージメントレベルと相関があると考えられる。対象者の顔の表情の分析において、対象者が困惑した表情が検出された場合、エンゲージメントレベルをより低く算出する。また、対象者の挙動は、対象者のエンゲージメントレベルと相関があると考えられる。対象者の挙動としては、相槌、笑い、うなずきといった顔に関する挙動の他、手足の動きなどが考えらえられる。対象者の挙動を分析した結果、対象者が困惑した挙動が検出された場合、エンゲージメントレベルをより低く算出するようにしてもよい。このようにすることで、エンゲージメントレベルの算出をより精度良く行うことができる。

本発明の一実施態様に係る音声対話装置の制御装置は、対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置の制御装置であって、前記音声対話装置により前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、予め想定された応答があったと判定された場合には前記対象者への問いかけを終了するよう前記音声対話装置に指示する応答内容判定部と、前記応答内容判定部において、予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第１の閾値以上の場合には前記対象者に再度問いかけを行うよう前記音声対話装置に指示し、前記第１の閾値未満の場合には前記対象者への問いかけを終了するよう前記音声対話装置に指示するエンゲージメントレベル判定部と、を備えるものである。これによれば、対象者を驚かせたり不快にさせてしまったりする可能性を低減しつつ、対象者が推奨される行動を行うよう促すことができる。

本発明の一実施態様に係る制御プログラムは、対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置の制御プログラムであって、前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、予め想定された応答があったと判定された場合には前記対象者への問いかけを終了する第１ステップと、前記第１のステップにおいて、予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第１の閾値以上の場合には前記対象者に再度問いかけを行うようにし、前記第１の閾値未満の場合には前記対象者への問いかけを終了する第２のステップと、を前記音声対話装置のコンピュータに実行させる音声対話装置の制御プログラムである。これによれば、対象者を不快にさせてしまったりする可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる。

本発明によれば、対象者を不快にさせてしまったりする可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる。

本実施の形態に係る音声対話装置の概観図である。本実施の形態に係る音声対話装置のシステム構成図である。本実施の形態に係る音声対話装置における対象者に対し声かけする処理の流れを示すフローチャートである。本実施の形態に係る音声対話装置における対象者に対し声かけする処理の流れを示すフローチャートである。図４に示すフローチャートにおけるステップＳ１１０の処理について具体的に説明する模式図である。図４に示すフローチャートにおけるステップＳ１１１及びステップＳ１１２の処理について具体的に説明する模式図である。図４に示すフローチャートにおけるステップＳ１１３の処理について具体的に説明する模式図である。外部装置の構成の一例を示す模式図である。実施の形態２に係る制御装置の構成について説明するブロック図である。

以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲に係る発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

［実施の形態１］
以下、図面を参照して本発明の実施の形態１について説明する。
図１は、実施の形態１に係る音声対話装置１００の概観図である。音声対話装置１００は、対象者（ユーザ）に対して問いかけを行い、対象者が推奨される行動を行うように促すロボットである。音声対話装置１００は、キャラクターを具現化したキャラクター装置であり、対話に合わせて眼の表情や視線方向が変化する。

音声対話装置１００は、外観として動物を模しており、胴体部１１０と頭部１２０を有する。胴体部１１０の内部には、モータ１１１が設けられており、頭部１２０は、モータ１１１の駆動により、胴体部１１０に対して向きが変化する。頭部１２０には、対象者が眼と認識できる位置に、眼球部１２２が設けられている。眼球部１２２の背後には、例えば液晶パネルや有機ＥＬパネルである表示パネル１０６が設置されている。表示パネル１０６には、黒目画像１６１が映し出される。

音声対話装置１００の鼻の位置には、カメラ１０２が目立たないように配置されている。カメラ１０２は、例えばＣＭＯＳセンサを含み、外部環境を認識するための画像を取得する撮像部として機能する。音声対話装置１００の口の位置には、スピーカ１０９が隠されて配置されている。スピーカ１０９は、音声対話装置１００が生成した音声を発する発話出力部として機能する。対象者は、口の位置から出力される音声に、音声対話装置１００が喋っているような感覚を覚える。また、頭部１２０のいずれかの位置には、マイク１０１が隠されて配置されている。マイク１０１は、対象者の発話音声を検出する検出部としての機能を担う。

図２は、音声対話装置１００のシステム構成図である。音声対話装置１００は、主なシステム構成として、マイク１０１、カメラ１０２、表示パネル１０６、スピーカ１０９、モータ１１１、制御部２００、および応答音声ＤＢ３１０を備えている。制御部２００は、例えばＣＰＵによって構成され、機能ごとの実行を担う機能実行部としても動作し、主に、発話認識部２０１、顔認識部２０２、視線制御部２０３、表示制御部２０４、モータ制御部２０５、音声選択部２０６、発話制御部２０７、視線検知部２０８、注視判定部２０９、及び注意喚起部２１０として動作する。

マイク１０１は、主な機能として、音声対話装置１００が対話する相手である対象者の発話音声を集音する。マイク１０１は、集音した対象者の発話音声を音声信号に変換して、発話認識部２０１へ引き渡す。

発話認識部２０１は、マイク１０１から受け取った音声信号を解析して対象者の発話を認識する。発話認識部２０１は、マイク１０１と協働して、音声対話装置１００へ向かって話しかける対象者の発話を取得する発話取得部としての機能を担う。発話認識部２０１は、具体的には、一般的な音声認識技術により対象者の発話内容を認識する。発話認識部２０１は、認識した発話内容を音声選択部２０６へ引き渡す。

音声選択部２０６は、発話認識部２０１で認識された対象者の発話内容に対して会話としてふさわしいセンテンスを選択し、選択したセンテンスに応じた発話データを応答音声ＤＢ３１０から収集して、発話制御部２０７へ引き渡す。また、音声選択部２０６は、注意喚起部２１０もしくはエンゲージメントレベル判定部２１２からの指示により、対象者に対し、対象者が推奨される行動を行うように促す“問いかけ”を行うためのセンテンスを選択する。さらに、音声選択部２０６は、注意喚起部２１０からの指示により、対象者に対して音声対話装置に注意を向けさせる“呼びかけ”を行うためのセンテンスを選択する。

応答音声ＤＢ３１０は、音声選択部２０６に接続されている応答音声のデータベースであり、例えばハードディスクドライブの記録媒体によって構成されている。応答音声ＤＢ３１０は、例えばコーパスとして体系化されており、個々の用語は、再生可能な発話データを伴って格納されている。

発話制御部２０７は、受け取った発話データを音声信号に変換してスピーカ１０９へ引き渡す。音声選択部２０６と発話制御部２０７は、互いに協働して、対象者の発話内容に基づいて応答音声を生成する音声生成部としての機能を担う。スピーカ１０９は、発話制御部２０７で変換された音声信号を受け取って、応答音声を音声出力する。

発話認識部２０１は、対象者が発話を始めたタイミングを視線制御部２０３へ引き渡す。また、発話制御部２０７は、応答音声を音声出力するタイミングを視線制御部２０３へ引き渡す。視線制御部２０３は、これらのタイミング情報に同期させて、視線方向の調整を実行する。

カメラ１０２は、主な機能として、音声対話装置１００と対話を取る対象者を撮影する。カメラ１０２は、撮影した画像を画像信号に変換して、顔認識部２０２へ引き渡す。

顔認識部２０２は、カメラ１０２から受け取った画像信号を解析して対象者の顔を認識する。顔認識部２０２は、抽出した顔領域中から、対象者の基準方向を決定する。基準方向は、音声対話装置１００から、例えば対象者の両目を結ぶ中点へ向かう方向である。基準方向は、三次元空間におけるベクトルで表されるので、基準方向を定めるためには、音声対話装置１００から対象者（対象者の顔）までの距離情報が必要である。距離情報は、例えばカメラ１０２がステレオカメラで構成される場合には画像間のズレ量から算出することができ、赤外線にも感度を有するカメラで構成される場合には投光した赤外線パターンの歪みから算出することができる。なお、距離情報を取得する手法は、音声対話装置１００の仕様に応じて公知技術を任意に選択することができる。

視線制御部２０３は、発話認識部２０１、発話制御部２０７から受け取ったタイミング、あるいはその他のタイミングに同期して、視線方向を顔認識部２０２から受け取った基準方向へ向ける制御を行う。つまり、視線制御部２０３は、視線方向を基準方向に一致させるために、黒目画像１６１の位置を変化させる変化量と、頭部１２０の向きを変化させる変化量を決定し、それぞれを表示制御部２０４とモータ制御部２０５へ引き渡す。

表示制御部２０４は、視線制御部２０３から受け取った黒目画像１６１の位置の変化量に従って、表示パネル１０６上で黒目画像１６１の位置を移動させる。表示制御部２０４は、受け取った変化量の大きさ、すなわち黒目画像１６１を移動させる距離に応じて、中間的な表示画像を段階的に生成し、アニメーションとして黒目画像１６１を表示すると良い。モータ制御部２０５は、視線制御部２０３から受け取った頭部１２０の向きの変化量に従って、モータ１１１を駆動する。

視線検知部２０８は、対象者の視線を検知する。具体的には、顔認識部２０２においてカメラ１０２の撮像した画像の信号を解析することによって認識した対象者の顔から目を抽出し、対象者の視線方向を推定する。対象者の視線方向を推定する手法は、例えば、三次元眼球モデルに基づく手法や、眼球の見えに基づく手法などの公知技術を用いることができる。三次元眼球モデルに基づく手法では、楕円当てはめ、エッジ検出により虹彩や瞳孔の位置を推定し、三次元眼球モデルとのフィッティングを行うことによって視線方向を推定する。眼球の見えに基づく手法では、画像から眼の虹彩の検出は行わず、様々な方向を見ている眼領域の画像を大量に集め、その輝度値の分布を学習することで視線方向を推定する。輝度値の分布の学習には、例えばニューラルネットワークを用いる。

注視判定部２０９は、視線検知部２０８からの情報に基づいて注視度合い（ＡｔｔｅｎｔｉｏｎＬｅｖｅｌ）が所定の水準より高いか否かを判定する。ここで、注視度合いは、対象者が音声対話装置に対して視線を向けている程度の指標であり、例えば、所定の期間に、対象者が音声対話装置に対して視線を向けている時間の長さである。つまり、所定の期間に、対象者が音声対話装置に対して視線を向けている時間の長さが、予め定めた閾値以上である場合に注視度合いが所定の水準より高いと判定し、予め定めた閾値未満である場合に注視度合いが所定の水準より低いと判定する。これにより、対象者の注視度合いを客観的に判断することができる。

注意喚起部２１０は、注視度合いが所定の水準より高い場合、対象者に対して“問いかけ”を行い、推奨される行動を実行するよう対象者に促し、注視度合いが所定の水準より低い場合、対象者に対してロボットに注意を向けさせるための呼びかけを行う。注意喚起部２１０は、推奨される行動を実行するよう対象者に促す“問いかけ”を行う場合、音声選択部２０６に対して、“問いかけ”を行うためのセンテンスを選択するよう指示する。また、注意喚起部２１０は、対象者に対して音声対話装置に注意を向けさせる“呼びかけ”を行う場合、音声選択部２０６に対して、“呼びかけ”を行うためのセンテンスを選択するよう指示する。

応答内容判定部２１１は、問いかけをした際に、問いかけに対して対象者より予め想定された応答があったかどうかを判定し、対象者より予め想定された応答があったと判定された場合には対象者への問いかけを終了する。応答内容判定部２１１において、問いかけに対して対象者より予め想定された応答があったかどうかの判定は、問いかけをした際に、発話認識部２０１により認識された対象者の応答を、ルールベースまたは機械学習の手法により分析することにより行う。ここで、予め想定された応答とは、対象者が推奨される行動を行う意思があること表明する内容の応答である。エンゲージメントレベル判定部２１２は、応答内容判定部２１１において、対象者より予め想定された応答がなかったと判定された場合に対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出する。さらに、エンゲージメントレベル判定部２１２は、算出したエンゲージメントレベルが、第１の閾値以上の場合には対象者に再度問いかけを行うようにし、第１の閾値未満の場合には対象者への問いかけを終了する。

エンゲージメントレベル判定部２１２は、算出したエンゲージメントレベルが、第１の閾値以上で第２の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うようにしてもよい。このようにする場合、エンゲージメントレベル判定部２１２は、第１の閾値よりも高い第２の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行う。

次に、音声対話装置１００における対象者に対し声かけする処理の流れについて説明する。なお、以下の説明では、図１についても適宜参照する。
図３及び図４は、音声対話装置１００における対象者に対し声かけする処理の流れを示すフローチャートである。図３には、対象者に対して音声対話装置に注意を向けさせるための問いかけを行うまでの処理（ステップＳ１０１からステップＳ１０８）を示す。図４には、対象者に対して音声対話装置に注意を向けさせるための問いかけを行った後の処理（ステップＳ１１０からステップＳ１１５）を示す。

図３に示すように、まず、対象者にとって推奨される行動の計画の確認を行う（ステップＳ１０１）。ここで、対象者の推奨される行動とは、例えば、対象者が介護施設の入居者であれば、起床する、朝昼晩の食事をしに食堂へ行く、日課の体操を行う、レクリエーションに行く、入浴に行くなどである。なお、対象者にとって推奨される行動の計画は、対象者のその日の行動予定であり、音声対話装置１００に内蔵されたメモリなどに予め格納され、注意喚起部２１０において適宜参照される。続いて、現状把握を行う（ステップＳ１０２）。ここで、現状把握とは、現時刻の確認と対象者の状態の確認をすること、つまり、現時刻は昼寝時間など声かけしてはいけない時間に当たるか、対象者が電話中などの声かけをしてはいけない状態にあるか、を確認することである。

続いて、対象者の推奨される行動のうち、開始条件を満たす最優先の行動を選択する（ステップＳ１０３）。ここで、開始条件を満たすとは、行動の開始予定時刻（または、行動を行うのに推奨される時刻）と現時刻との時間差が所定時間以内であり、かつ、対象者が声かけしてもよい状態にある場合である。開始条件を満たす行動が複数ある場合は、対象者の推奨される行動の計画において予め定められた優先順位の最も高い（最優先の）行動を選択する。例えば、１５：００において対象者の推奨される行動がレクリエーションまたは入浴である場合に、対象者の体調などの諸事情を考慮して、レクリエーションの方が推奨されるのであれば、レクリエーションを選択するようにする。

続いて、対象者が今、実行すべき行動があるかないかを判定する（ステップＳ１０４）。すなわち、ステップＳ１０３の処理で選択された行動があったか否かを判定する。ステップＳ１０４において、実行すべきタスクがないと判定された場合、サーボを停止して待機状態とし（ステップＳ１０５）、処理をステップＳ１０２に戻す。

ステップＳ１０４において、実行すべきタスクがあると判定された場合、対象者が音声対話装置１００に対して視線を向けている程度の指標である注視度合いを取得する（ステップＳ１０６）。続いて、注視度合いが所定の水準より高いか否かを判定する（ステップＳ１０７）。ステップＳ１０７において、注視度合いが所定の水準より高い場合、対象者に対して推奨される行動を行うよう即す問いかけを行う（ステップＳ１０８）。ステップＳ１０７において、注視度合いが所定の水準より低い場合、前記対象者に対して音声対話装置に注意を向けさせるための呼びかけを行い（ステップＳ１０９）、処理をステップＳ１０６に戻す。

ステップＳ１０８に続いて、図４に示すように、対象者から予め想定された応答があったか否かを判定する（ステップＳ１１０）。ステップＳ１１０において、対象者から予め想定された応答があったと判定された場合は、処理を終了する。ステップＳ１１０において、対象者から予め想定された応答がなかったと判定された場合は、エンゲージメントレベルを算出する（ステップＳ１１１）。

ステップＳ１１１に続いて、エンゲージメントレベルが第１の閾値以上か否かを判定する（ステップＳ１１２）。ステップＳ１１２において、エンゲージメントレベルが第１の閾値以上と判定された場合は、エンゲージメントレベルが第２の閾値以上か否かを判定する（ステップＳ１１３）。ステップＳ１１２において、エンゲージメントレベルが第１の閾値未満と判定された場合は、処理を終了する。

ステップＳ１１３において、エンゲージメントレベルが第２の閾値以上と判定された場合は、対象者に対し、前回の問いかけと同じ表現で再度問いかけを行い（ステップＳ１１４）、処理をステップＳ１１０に戻す。ステップＳ１１３において、エンゲージメントレベルが第２の閾値未満と判定された場合は、対象者に対し、前回の問いかけとは表現を変えて再度問いかけを行い（ステップＳ１１５）、処理をステップＳ１１０に戻す。

次に、図４に示すフローチャートにおけるステップＳ１１０の処理（対象者から予め想定された応答があったか否かを判定する処理）について具体的に説明する。
図５は、図４に示すフローチャートにおけるステップＳ１１０の処理について具体的に説明する模式図である。図５に示すように、対象者Ｔに対して、音声対話装置１００が、例えば「１５：００からのレクリエーションに参加しませんか？」といった、推奨される行動を実行するよう対象者に促す“問いかけ”を行ったとする。

当該問いかけに対する対象者Ｔからの応答が予め想定された応答である、とは、図５の上段に示すように、「分かった、参加するよ。」といったように、対象者が推奨される行動を行う意思があること表明する内容を含む応答である。このような応答があった場合、推奨される行動を実行するよう対象者に促すという目的が達成されたので、音声対話装置１００は、対象者に対し声かけする処理を終了する。

当該問いかけに対する対象者Ｔからの応答が予め想定された応答ではない、とは、図５の下段に示すように、「うーん、どうしようかなぁ？」といったように、対象者が推奨される行動を行う意思があること表明する内容を含まない応答である。このような応答があった場合、推奨される行動を実行するよう対象者に促すという目的が達成されていないので、音声対話装置１００は、さらに次の処理（図４のステップＳ１１１）を行う。

次に、図４に示すフローチャートにおけるステップＳ１１１の処理（エンゲージメントレベルを算出する処理）及びステップＳ１１２の処理（エンゲージメントレベルが第１の閾値以上か否かを判定する処理）について具体的に説明する。
図６は、図４に示すフローチャートにおけるステップＳ１１１及びステップＳ１１２の処理について具体的に説明する模式図である。図６に示すように、エンゲージメントレベルは、対象者Ｔと音声対話装置１００との距離Ｌによって判定する。ここで、対象者Ｔと音声対話装置１００との距離Ｌは、顔認識部２０２において、カメラ１０２から受け取った画像信号を解析することにより算出する。

音声対話装置１００との対話を適切に行うために、対象者Ｔは、対象者Ｔと音声対話装置１００との距離Ｌが推奨距離（例えば２～３ｍ）以内になるように音声対話装置１００に近づいて対話を行う必要がある。このため、音声対話装置１００の問いかけに対して、対象者Ｔが音声対話装置１００との対話の継続に積極的である場合には、音声対話装置１００に近づいて応答を行うと考えられる。つまり、対象者Ｔと音声対話装置１００との距離Ｌが、短い場合には長い場合よりもエンゲージメントレベルが高くなると考えられる。このように、対象者Ｔと音声対話装置１００との距離Ｌと、エンゲージメントレベルと、の間には相関があるので、音声対話装置１００の問いかけに対して、対象者Ｔが応答を行ったときの、対象者Ｔと音声対話装置１００との距離Ｌに応じてエンゲージメントレベルを算出することができる。

ここで、第１の閾値に対応する、対象者Ｔと音声対話装置１００との距離Ｌを第１の距離Ｌ１とする。図６の上段に示すように、対象者Ｔと音声対話装置１００との距離Ｌが第１の距離Ｌ１以下の場合にはエンゲージメントレベルは第１の閾値以上であると判定される。このように判定された場合、音声対話装置１００は、さらに次の処理（図４のステップＳ１１１）を行う。一方、図６の下段に示すように、対象者Ｔと音声対話装置１００との距離Ｌが第１の距離Ｌ１より長い場合にはエンゲージメントレベルは第１の閾値未満であると判定される。このように判定された場合、音声対話装置１００は、対象者Ｔが対話の継続に積極的ではないと判断し、これ以上無理に対話を継続すると対象者Ｔに不快な思いをさせてしまうことになるため、対象者Ｔに対し声かけする処理を終了する。

次に、図４に示すフローチャートにおけるステップＳ１１３の処理（エンゲージメントレベルが第２の閾値以上か否かを判定する処理）について具体的に説明する。
図７は、図４に示すフローチャートにおけるステップＳ１１３の処理について具体的に説明する模式図である。ここで、第１の閾値に対応する、対象者Ｔと音声対話装置１００との距離Ｌを第１の距離Ｌ１、第１の閾値よりも高い第２の閾値に対応する、対象者Ｔと音声対話装置１００との距離Ｌを第２の距離Ｌ２とする。

図７の上段に示すように、対象者Ｔと音声対話装置１００との距離Ｌが第２の距離Ｌ２以下の場合にはエンゲージメントレベルは第２の閾値以上であると判定される。すなわち、エンゲージメントレベルは非常に高く、対象者Ｔは対話の継続に非常に積極的であると考えられる。このように、エンゲージメントレベルが第２の閾値以上と高い場合、対象者Ｔは音声対話装置１００の問いかけの意味が分からなかった可能性がある。このような場合、音声対話装置１００は、対象者Ｔに対し、前回の問いかけと同じ表現で再度問いかけを行うようにする。

一方、図７の下段に示すように、対象者Ｔと音声対話装置１００との距離Ｌが、第２の距離Ｌ２より長く第１の距離Ｌ１以下の場合には、エンゲージメントレベルは第１の閾値以上で第２の閾値未満であると判定される。このように、対象者Ｔのエンゲージメントレベルが、対話の継続を望んでいない程には低くないが、対話の継続に非常に積極的という程ではないという場合、対象者に対し、前回の問いかけとは表現を変えて再度問いかけを行う。例えば、前回の問いかけが「１５：００からのレクリエーションに参加しませんか？」であった場合、再度の問いかけでは「１５：００からのレクリエーションは、歌に関するもので、ストレス発散になりますよ。」と、より対象者Ｔの興味をそそる表現に変える。

図２に示すエンゲージメントレベル判定部２１２において、発話認識部２０１において認識された、音声対話装置１００の問いかけに対する対象者の応答内容を考慮してエンゲージメントレベルを算出するようにしてもよい。音声対話装置１００の問いかけに対する対象者の応答内容は、対象者のエンゲージメントレベルと相関があると考えられる。例えば、図６の下段に示すように、対象者Ｔの応答内容には、「しかしねぇ」という否定語が含まれる。このように、対象者の応答内容に、問いかけの内容を否定する表現が含まれている場合、エンゲージメントレベル判定部２１２では、エンゲージメントレベルをより低く算出するようにしてもよい。

図２に示す顔認識部２０２において、認識された対象者の顔について、さらに表情を分析し、当該表情を分析した結果を、エンゲージメントレベル判定部２１２におけるエンゲージメントレベルの算出に考慮するようにしてもよい。対象者の顔の表情は、対象者のエンゲージメントレベルと相関があると考えられる。当該表情の分析は、例えばニューラルネットワークなどの機械学習の手法により行う。例えば、図６の下段に示すように、対象者Ｔの表情には問いかけに対して困惑している様子が伺える。顔認識部２０２における当該表情の分析において、このような困惑の表情が検出された場合、エンゲージメントレベル判定部２１２では、エンゲージメントレベルをより低く算出するようにしてもよい。

また、顔認識部２０２において、対象者の顔に加えて、対象者における顔以外の部位についても認識するようにし、対象者の挙動を分析してもよい。対象者の挙動は、対象者のエンゲージメントレベルと相関があると考えられる。対象者の挙動としては、相槌、笑い、うなずきといった顔に関する挙動の他、手足の動きなどが考えらえられる。そして、対象者の挙動を分析した結果を、エンゲージメントレベル判定部２１２におけるエンゲージメントレベルの算出に考慮するようにしてもよい。例えば、図６の下段に示すように、対象者Ｔは手にしている本で顔を隠すようにしており、困惑している挙動が伺える。顔認識部２０２における当該挙動の分析において、このような困惑の挙動が検出された場合、エンゲージメントレベル判定部２１２では、エンゲージメントレベルをより低く算出するようにしてもよい。

［変形例１］
図２に示す顔認識部２０２における、対象者Ｔと音声対話装置１００との距離Ｌの算出は、音声対話装置１００の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行うようにしてもよい。図８は、外部装置５００の構成の一例を示す模式図である。図８に示すように、外部装置５００は居室の天井に設置されている。外部装置５００には、カメラ５１０が設置されている。また、外部装置５００と音声対話装置１００とは、無線通信を行うための無線ルータ５２０、５３０を介して接続されている。カメラ５１０は、撮影した画像を画像信号に変換し、無線ルータ５２０、５３０を介して画像データを音声対話装置１００（具体的には、図２に示す制御部２００の顔認識部２０２）へ引き渡す。外部装置５００は、音声対話装置１００よりも設置の自由度が高い。例えば外部装置５００を居室の天井に設置すれば、カメラ５１０は居室内の広い範囲の撮像が可能になる。このため、カメラ５１０により撮像された画像により、対象者Ｔと音声対話装置１００との位置関係を精度良く把握することができる。このため、対象者Ｔと音声対話装置１００との距離Ｌの算出を、音声対話装置１００の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行うことで、対象者Ｔと音声対話装置１００との距離Ｌの算出の精度をより向上させることができる。

[実施の形態２]
以下、図面を参照して本発明の実施の形態２について説明する。
図９は、実施の形態２に係る制御装置３００の構成について説明するブロック図である。図９には制御装置３００の制御対象である音声対話装置４００の構成も示されている。音声対話装置４００は、制御部４５０において、注視判定部、注意喚起部、応答内容判定部及びエンゲージメントレベル判定部の機能ブロックを備えていない点のみが、図２に示す実施の形態１に係る音声対話装置１００との相違点である。実施の形態２に係る制御装置３００は、制御部３５０において、これらの機能ブロック、すなわち、注視判定部２０９、注意喚起部２１０、応答内容判定部２１１及びエンゲージメントレベル判定部２１２を備えている。制御部３００は、例えばＣＰＵによって構成される。音声対話装置４００は、制御装置３００の制御により、図３及び図４を参照して説明した、対象者に対し声かけする処理を実現する。このような構成によれば、対象者を不快にさせてしまったりする可能性を低減しつつ、効率的に対象者が推奨される行動を行うよう促すことができる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

本発明にかかる、対象者に対し声かけする処理は、コンピュータなどにプログラムを実行させることによって実現できる。より具体的には、音声対話装置、制御装置のいずれか一つが備えるコンピュータにおいて、プログラムメモリに格納されたプログラムを主記憶装置にロードし、ＣＰＵの制御によって当該プログラムを実行して実現する。ここで、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１００、４００音声対話装置
１０１マイク
１０２、５１０カメラ
１０６表示パネル
１０９スピーカ
１１０胴体部
１１１モータ
１２０頭部
１２２眼球部
１６１黒目画像
２００、４５０制御部
２０１発話認識部
２０２顔認識部
２０３視線制御部
２０４表示制御部
２０５モータ制御部
２０６音声選択部
２０７発話制御部
２０８視線検知部
２０９注視判定部
２１０注意喚起部
２１１応答内容判定部
２１２エンゲージメントレベル判定部
３００制御装置
５００外部装置
５２０、５３０無線ルータ

Claims

対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置であって、
前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、前記対象者より予め想定された応答があったと判定された場合には前記対象者への問いかけを終了する応答内容判定部と、
前記応答内容判定部において、前記対象者より予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第１の閾値以上の場合には前記対象者に再度問いかけを行うようにし、前記第１の閾値未満の場合には前記対象者への問いかけを終了するエンゲージメントレベル判定部と、を備え、
前記エンゲージメントレベル判定部において、算出した前記エンゲージメントレベルが、前記第１の閾値よりも高い第２の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行い、前記第１の閾値以上で前記第２の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うようにする、音声対話装置。
前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを前記対象者と前記音声対話装置との距離に応じて算出する、請求項１に記載の音声対話装置。
前記対象者と前記音声対話装置との距離の算出は、前記音声対話装置の外部にある外部装置に設置されたカメラによる撮像画像に基づいて行う、請求項２に記載の音声対話装置。
前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを、前記問いかけに対する前記対象者の応答内容を考慮して算出する、請求項１または２に記載の音声対話装置。
前記エンゲージメントレベル判定部において、前記エンゲージメントレベルを、前記問いかけに対する前記対象者の顔の表情や挙動を考慮して算出する、請求項１または２に記載の音声対話装置。
対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置の制御装置であって、
前記音声対話装置により前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、予め想定された応答があったと判定された場合には前記対象者への問いかけを終了するよう前記音声対話装置に指示する応答内容判定部と、
前記応答内容判定部において、前記対象者より予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第１の閾値以上の場合には前記対象者に再度問いかけを行うよう前記音声対話装置に指示し、前記第１の閾値未満の場合には前記対象者への問いかけを終了するよう前記音声対話装置に指示するエンゲージメントレベル判定部と、を備え、
前記エンゲージメントレベル判定部において、算出した前記エンゲージメントレベルが、前記第１の閾値よりも高い第２の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行い、前記第１の閾値以上で前記第２の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うよう前記音声対話装置に指示する、音声対話装置の制御装置。
対象者に対し、前記対象者が推奨される行動を行うように促すための問いかけを行う音声対話装置の制御プログラムであって、
前記問いかけをした際に、前記問いかけに対して前記対象者より予め想定された応答があったかどうかを判定し、予め想定された応答があったと判定された場合には前記対象者への問いかけを終了する第１のステップと、
前記第１のステップにおいて、前記対象者より予め想定された応答がなかったと判定された場合に前記対象者がどの程度対話の継続に積極的であるかを表す指標であるエンゲージメントレベルを算出し、算出した前記エンゲージメントレベルが、第１の閾値以上の場合には前記対象者に再度問いかけを行うようにし、前記第１の閾値未満の場合には前記対象者への問いかけを終了する第２のステップと、
前記第２のステップにおいて、算出した前記エンゲージメントレベルが、前記第１の閾値よりも高い第２の閾値以上である場合には前回の問いかけと同じ表現で再度問いかけを行い、前記第１の閾値以上で前記第２の閾値未満である場合には前回の問いかけとは表現を変えて再度問いかけを行うようにする第３のステップと、を前記音声対話装置のコンピュータに実行させる制御プログラム。