JP6514475B2

JP6514475B2 - 対話装置および対話方法

Info

Publication number: JP6514475B2
Application number: JP2014204520A
Authority: JP
Inventors: 公亮角野; 渉内田; 孝輔辻野
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-10-03
Filing date: 2014-10-03
Publication date: 2019-05-15
Anticipated expiration: 2034-10-03
Also published as: JP2016076007A

Description

本発明は、ユーザとの対話を行うための対話装置、およびユーザと対話装置との間で対話を行うための対話方法に関する。

近年、音声認識並びにユーザの自然な発話内容を理解して受け答えを行う対話技術が進化している（たとえば特許文献１参照）。スマートフォン、ロボットデバイスなどに様々なセンサを備えることによって、ユーザの存在を知覚し、あたかも人間と対話するように対話を行うことができる対話エージェント型の対話装置が実現されつつある。

対話は、ユーザが、対話装置への発話のタイミングを伝えるためのボタン操作などを行わない状態（以下「ハンズフリー状態」という。）で開始される場合がある。この場合、対話装置は、たとえばマイク入力を監視し、ユーザの発話を検出することによって、非対話状態から対話状態に切り替わることができる。

特開２００２−１８２８９６号公報

しかしながら、ユーザの発話が検出されたからといって、ユーザが対話装置へ語りかけようとする意思（語りかけ意思）を有しているとは限らない。そのため、ユーザが語りかけ意思を有していないにもかかわらず、ユーザの発話を検出した対話装置が、誤ったタイミングで対話を開始して対話状態に切り替わってしまうおそれがある。

本発明は、上記問題点に鑑みてなされたものであり、適切なタイミングでユーザとの対話状態に切り替わることが可能な対話装置および対話方法を提供することを目的とする。

本発明の一態様に係る対話装置は、ユーザとの対話を行うための対話装置であって、ユーザと対話装置との距離と、カメラ画像におけるユーザの存在とを検出する検出手段と、検出手段の検出結果に基づいて、ハンズフリー状態にあるユーザが対話装置への語りかけ意思を有しているか否かを判定するユーザ意思判定手段と、判定手段の判定結果に基づいて、対話装置が対話状態および非対話状態のいずれかの状態に切り替わるように対話装置の状態を制御する対話状態制御手段と、を備える。

本発明の一態様に係る対話方法は、ユーザと対話装置との間で対話を行うための対話方法であって、対話装置が、ユーザと対話装置との距離と、カメラ画像におけるユーザの存在とを検出するステップと、対話装置が、検出するステップの検出結果に基づいて、ハンズフリー状態にあるユーザが対話装置への語りかけ意思を有しているか否かを判定するステップと、対話装置が、判定するステップの判定結果に基づいて、対話装置が対話状態および非対話状態のいずれかの状態に切り替わるように対話装置の状態を制御するステップと、を含む。

上記の対話装置または対話方法では、ユーザが対話装置への語りかけ意思を有しているか否かに基づいて、対話装置が対話状態および非対話状態のいずれかの状態に切り替わるように制御される。これにより、対話装置は、ユーザの意思に応じた適切なタイミングで、対話状態に切り替わることができる。

また、対話装置は、検出手段の検出結果に基づいて、ユーザが対話装置からの情報を視認できる状態にあるか否かを判定するユーザ状態判定手段と、ユーザ状態判定手段の判定結果に基づいて、ユーザへの出力を制御する出力制御手段と、をさらに備えてもよい。これにより、ユーザが対話装置からの視覚的な出力（情報）を視認（閲覧など）できないときは、たとえば音声のみでユーザへ情報を伝達することができる。また、ユーザが対話装置からの視覚的な出力を視認できるときは、視覚的な出力と音声出力とを併用することよって、たとえば音声出力を短縮することができる。

また、対話装置は、対話状態においてはユーザの音声に含まれる語彙を連続して認識する第１の認識モードを実行し、非対話状態においてはユーザの音声に含まれる所定の語彙のみを認識する第２の認識モードとを実行する音声認識手段、をさらに備えてもよく、ユーザ意思判定手段は、非対話状態において、第２の認識モードを実行する音声認識手段によってユーザの音声に含まれる所定の語彙が認識された場合に、ユーザが対話装置への語りかけ意思を有していると判定してもよい。これにより、対話装置は、ユーザが所定の語彙（キーワード）を発話したことを契機として、ユーザの意思に応じた適切なタイミングで、非対話状態から対話状態に切り替わることができる。

また、第１の認識モードでは、音声認識手段が、対話装置の外部との通信を行いサーバのデータ処理を利用することによって、ユーザの音声に含まれる語彙を連続して認識し、第２の認識モードでは、音声認識手段が、対話装置の外部との通信を行わずに、ユーザの音声に含まれる所定の語彙のみを認識してもよい。これにより、第１の認識モードでは、サーバのデータ処理を利用した大語彙が認識可能な音声認識（サーバ型音声認識）を行うことができる。また、第２の認識モードでは、たとえば通信を行わない分だけ第１の認識モードより消費電力を低減させつつ音声認識を行うことができる。

また、検出手段は、カメラ画像におけるユーザの顔を検出することによって、ユーザの存在を検出してもよい。これにより、たとえば、対話装置とユーザの顔との位置関係や、対話装置に対するユーザの顔の角度などに基づいて、ユーザが対話装置への語りかけ意思を有しているか否か判定することができる。

本発明によれば、適切なタイミングでユーザとの対話状態に切り替わることが可能になる。

対話システムの概略構成を示す図である。対話装置の詳細構成を示す図である。対話装置のハードウェア構成を示す図である。応答データテーブルの一例を示す図である。応答データテーブルの別の例を示す図である。対話装置の状態遷移図である。対話装置の状態遷移を説明するためのフローチャートの一例である。

以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。

図１は、実施形態に係る対話装置および対話方法が適用される対話システムの概要を示す図である。図１に示すように、対話システム１においては、ユーザ１０と、対話装置１００との対話が行われる。

対話装置１００は、インタフェース部１１０を含む。図１に示す例では、インタフェース部１１０の一部（後述の図２のディスプレイ１１３）に、ヒト型のキャラクタ１１が表示されている。このようなヒト型のキャラクタ１１の表示によって、ユーザ１０は、あたかも人間と対話するように、対話装置１００と対話することができる。

対話装置１００は、通信ネットワーク５０を介して、サーバ２００と接続可能とされている。これにより、対話装置１００は、ユーザ１０との対話に用いるための多くの情報を、サーバ２００から取得することができる。

対話装置１００は、ユーザ１０との対話を行うことが可能であればよく、その外観や大きさなどは図１に示す例に限定されるものではない。たとえば、対話装置１００は、スマートフォンのような端末装置を用いて好適に実現される。そのような端末装置は、ユーザ１０との対話に必要なスピーカ、マイク、各種センサなどの様々なデバイス、およびユーザ１０との接点となるディスプレイを備えており、また、通信ネットワーク５０を介してサーバ２００と通信することができるからである。また、対話装置１００として、人間の形状を模した物理的なロボットなどを用いてもよい。

ユーザ１０は、ハンズフリー状態で、対話装置１００と対話することができる。本明細書におけるハンズフリー状態とは、ユーザ１０が対話装置１００に接触して行う操作（たとえば対話装置１００のボタン操作など）を行わない状態を意味する。なお、ユーザ１０が対話装置１００以外のものに触れている場合でも、対話装置１００に接触していなければ、ハンズフリー状態とされる。

ユーザ１０と対話装置１００との対話は、ユーザ１０が対話装置１００の近くにいる状態で行われることが好ましい。図１において、対話に好ましいユーザ１０と対話装置１００との位置関係が、領域Ｒとして破線で例示される。領域Ｒの範囲は、ユーザ１０が対話装置１００に表示されているキャラクタ１１を良好に視認することができ、また、対話装置１００からの音声を良好に認識できるような範囲とすることができる。そのような領域Ｒの範囲は、たとえば対話装置１００から数十センチ〜数メートル程度の範囲である。図１に示す例では、領域Ｒは、対話装置１００の正面側（インタフェース部１１０が設けられている側）に広く設定され、対話装置１００の側面および背面には狭く設定されている。すなわち、領域Ｒは、対話装置１００の正面側に長く設定され、対話装置１００の側面および背面に短く設定される。このような領域Ｒ内にユーザ１０が位置するときには、ユーザ１０は対話装置１００の正面と向かいあって対話できる可能性が高まるので、対話をスムーズに（ユーザ１０にとって快適に）行うことができる。

図２は、対話装置１００の詳細構成を示す図である。図２に示すように、対話装置１００は、インタフェース部１１０と、データ処理部１２０と、制御部１３０と、記憶部１４０と、通信部１５０とを含む。

インタフェース部１１０は、対話装置１００の外部（主に図１のユーザ１０）と情報をやり取りするための部分である。インタフェース部１１０は、カメラ１１１と、近接センサ１１２と、ディスプレイ１１３と、マイク１１４と、スピーカ１１５と、操作パネル１１６とを含む。

データ処理部１２０は、インタフェース部１１０に入力された情報の解析などに必要なデータ処理を行い、また、インタフェース部１１０が出力する種々の情報の生成などに必要なデータ処理を行う部分である。データ処理部１２０は、画像処理部１２１と、センサデータ処理部１２２と、出力処理部１２３と、音声認識部１２４と、音声合成部１２５と、入力処理部１２６とを含む。

以下、インタフェース部１１０およびデータ処理部１２０に含まれる各部について説明する。

カメラ１１１は、たとえばユーザ１０を撮像する。たとえば、画像処理部１２１は、カメラ画像におけるユーザ１０の顔の位置（または領域）を検出する。そのためのデータ処理には、種々の公知の技術を用いることができる。たとえば、google（登録商標）社によって提供されるスマートフォン用ＯＳとして知られているアンドロイド（登録商標）に提供される種々のＡＰＩ（Application Program Interface）に関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://developer.android.com/reference/android/media/FaceDetector.html

カメラ１１１は、対話システム１において、ユーザ１０が語りかける対象となるマイク１１４、ユーザ１０への応答を出力するディスプレイ１１３およびスピーカ１１５のいずれかに対して、ユーザ１０が向けられている事を検出できる位置に設置される。

カメラ１１１を用いて、対話装置１００とユーザ１０との距離を検出することもできる。この場合には、カメラ１１１は、対話装置１００において、マイク１１４、ディスプレイ１１３およびスピーカ１１５のいずれかとユーザ１０との距離を検出（測定）できる位置に設置される。カメラ１１１によって対話装置１００とユーザ１０との距離を検出する場合は、上述のデータ処理によって、ユーザ１０の顔領域を検出し、検出した顔領域の大きさから、ユーザ１０との距離を測定することができる。また、対話装置１００が２つ以上のカメラを搭載することによって、上記顔領域の検出と、２つ以上のカメラによって撮像された画像の視差とによって得られる１つ以上の情報から、ユーザ１０との距離を推定することも可能である。

近接センサ１１２は、一定距離内への物体の近接を検出する。近接センサ１１２として、たとえば、赤外光（あるいは音波）を発して、物体からの反射光（あるいは反射波）を検出するタイプのセンサを用いることができる。センサデータ処理部１２２は、近接センサ１１２の検出結果に基づいて、対話装置１００とユーザ１０との距離を測定することができ、またユーザ１０が対話装置１００の近くにいるか否かを判断することもできる。そのためのデータ処理には、種々の公知の技術を用いることができる。たとえば、google社によって提供されるスマートフォン用ＯＳとして知られているアンドロイドに提供される種々のＡＰＩに関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://developer.android.com/reference/android/hardware/SensorManager.html

ディスプレイ１１３は、ユーザ１０が視認可能な情報を表示する。出力処理部１２３は、ディスプレイ１１３の表示に必要なデータ処理を行う。データ処理には、ディスプレイ１１３におけるキャラクタ１１の動作を表すのに必要なデータ処理も含まれる。

マイク１１４は、ユーザ１０の音声を検出する。音声認識部１２４は、マイク１１４の検出結果に基づいて、ユーザ１０の音声を認識する音声認識手段として機能する。また、音声認識部１２４は、認識した音声を所定のフォーマット（たとえばテキストの形式）に変換する。音声を認識するためのデータ処理には、種々の公知の技術を用いることができる。たとえば、google社によって提供されるスマートフォン用ＯＳとして知られているアンドロイドに提供される種々のＡＰＩに関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://developer.android.com/reference/android/speech/RecognizerIntent.html

スピーカ１１５は、ユーザ１０が聴認可能な音声を発する。音声合成部１２５は、スピーカ１１５が発する音声を生成するための種々のデータ処理を行う。たとえば、音声合成部１２５は、各種の音データを合成することによって、テキストの形式で指定された内容（情報）を音声に変換する。そのためのデータ処理には、種々の公知の技術を用いることができる。たとえば、google社によって提供されるスマートフォン用ＯＳとして知られているアンドロイドに提供される種々のＡＰＩに関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://developer.android.com/reference/android/speech/tts/TextToSpeech.html

本実施形態において、音声入力の方式は、連続的な対話を想定したものだけでなく、キーワード型の音声入力に特化した方式も採用される。連続的な対話において大規模な語彙が必要な場合は、対話装置１００の記憶領域や計算能力に限りがあるので、音声対話時はサーバとの通信によるサーバ接続型の音声認識を利用する。一方で、キーワード型音声入力では、対話装置１００の内部で完結可能な音声認識エンジンを利用することができ、この場合、サーバとの通信処理を行わない分、バッテリ消費の効率等の面で有効である。たとえば、市販の音声認識エンジンでも、同事業者がサーバ型、ローカル型の複数の方式によるエンジンを販売していることが一般的であり、それらに関する情報（たとえば、入手のための情報、使い方の情報など）が、下記のサイトに記載されている。
http://www.fuetrek.co.jp/product/vgate/asr.html

操作パネル１１６は、ユーザ１０の操作（ユーザ操作）を検出する。入力処理部１２６は、操作パネル１１６の検出結果に基づいて、ユーザ操作に応じた必要なデータ処理を行う。

以上の構成によって、対話装置１００は、たとえば、インタフェース部１１０を介して、外部（ユーザ１０を含む）から種々の情報を取得し、また、外部（ユーザ１０を含む）に種々の情報を伝達することができる。そして、本実施形態においては、さらに、後述する制御部１３０、記憶部１４０、通信部１５０などの各要素が協働することによって、ユーザ１０との対話が実現される。

制御部１３０は、対話装置１００の各要素を制御する部分であり、後述の検出部１３１、ユーザ意思判定部１３２、情報閲覧可否判定部１３３、対話制御部１３４、応答内容決定部１３５、出力制御部１３６、状態制御部１３７、音声認識制御部１３８を含んで構成される。ただし、制御部１３０の機能は、それらの機能に限定されるものではない。

記憶部１４０は、対話装置１００とユーザ１０との対話などに必要な種々の情報を記憶する部分である。記憶部１４０は、たとえば、後述する種々のデータテーブルを記憶する。

通信部１５０は、対話装置１００の外部（たとえば図１のサーバ２００）と通信を行う部分である。通信の手法は特に限定されないが、たとえば通信部１５０と基地局（図示しない）との無線通信、および、基地局とサーバ２００との有線通信などを用いることができる。

以下、制御部１３０に含まれる各部について説明する。

検出部１３１は、ユーザ１０と対話装置１００との距離と、カメラ画像におけるユーザ１０の存在とを検出する部分（検出手段）である。ユーザ１０と対話装置１００との距離は、カメラ１１１および画像処理部１２１、あるいは近接センサ１１２およびセンサデータ処理部１２２などを用いて行われる。カメラ画像におけるユーザ１０の存在の検出は、カメラ１１１および画像処理部１２１などを用いて行われる。検出部１３１は、カメラ画像におけるユーザ１０の顔を検出することによって、ユーザ１０の存在を検出することが好ましい。

ユーザ意思判定部１３２は、検出部１３１の検出結果に基づいて、ハンズフリー状態にあるユーザ１０が対話装置１００への語りかけ意思を有しているか否かを判定する部分（ユーザ意思判定手段）である。たとえば、ユーザ１０と対話装置との距離が所定距離以下であって（たとえばユーザ１０が図１の領域Ｒの内側に位置する）且つカメラ画像におけるユーザ１０の存在が検出された場合には、ユーザ意思判定部１３２は、ユーザ１０は語りかけ意思を有していると判定することができる。

情報閲覧可否判定部１３３は、検出部１３１の検出結果に基づいて、ユーザ１０が対話装置１００からの情報を視認できる状態にあるか否かを判定する部分（ユーザ状態判定手段）である。たとえば、ユーザ１０の顔がディスプレイ１１３の方向に向いており且つユーザ１０とディスプレイ１１３の距離が、ユーザ１０がディスプレイ１１３に表示された情報を閲覧可能な範囲内である（たとえばユーザ１０が図１の領域Ｒの内側に位置する）ときには、情報閲覧可否判定部１３３は、ユーザ１０が対話装置１００からの情報を視認できる状態にあると判定することができる。

対話制御部１３４は、ユーザ１０との対話を制御する。たとえば、対話制御部１３４は、音声認識部１２４の認識結果を後述の応答内容決定部１３５へ送信する。また、対話制御部１３４は、応答内容決定部１３５によって決定された応答内容を出力処理部１２３に送信することによって、スピーカ１１５やディスプレイ１１３などを介して当該応答内容をユーザ１０に伝達する。

応答内容決定部１３５は、ユーザ１０の発話に対する対話装置１００の応答内容を決定する部分である。応答内容決定部１３５による応答内容の決定には種々の方法が考えられるが、たとえば特定の語彙（キーワード）に対する対話装置１００の応答を図４の応答データテーブル１４１に記憶しておき、その応答データテーブル１４１にしたがって応答内容を決定することができる。応答データテーブル１４１は、たとえば記憶部１４０に記憶される。

図４は、応答データテーブル１４１の一例を示す図である。図４に示すように、応答データテーブル１６１は、ユーザ発話と応答情報とを対応づけて記述している。図４に示す例では、ユーザ発話「こんにちは」、「おはよう」、「行ってきます」、「ただいま」に対して、システム発話「こんにちは。アナタの名前は？」、「お早うございます！」、「行ってらっしゃい！」、「お帰りなさーい」がそれぞれ対応する。

このようにユーザ１０の発話などに対して対話装置１００が応答することで、対話装置１００はユーザ１０と対話することができる。

図２に戻って、出力制御部１３６は、情報閲覧可否判定部１３３の判定結果に基づいて、ユーザ１０への出力を制御する部分（出力制御手段）である。具体的に、出力制御部１３６は、情報閲覧可否判定部１３３の判定結果に応じて、対話制御部１３４から伝達された応答内容を適切な態様によってユーザ１０に伝達する。具体的に、応答内容は、音声出力情報と、視覚情報とを適宜組み合わせることによってユーザ１０に伝達され、音声出力情報と視覚情報との割合が調節される。対話制御部１３４による応答内容の態様の決定には種々の方法が考えられるが、たとえばキーワードに対する対話装置１００の応答と情報閲覧可否判定部１３３の判定結果とをキーとして、音声出力情報と視覚出力情報とをバリューとした図５の応答データテーブル１４２に記憶しておき、その応答データテーブル１４２にしたがって応答内容を決定することができる。応答データテーブル１４２は、たとえば記憶部１４０に記憶される。

図５は、応答データテーブル１４２の一例を示す図である。図５に示すように、応答データテーブル１４２は、応答内容と情報閲覧可否判定結果とをキーとし、音声出力情報と視覚出力情報とをバリューとして記述している。

応答内容は、対話装置１００からユーザ１０に伝達すべき情報の内容を示す。図５に示す例では、応答内容として「明日東京晴れ３０，１８」が示される。この応答内容は、天気に関する情報であり、明日の東京は晴れであって、最高気温が３０度、最低気温が１８度となることが予想されていることを意味している。

情報閲覧可否判定結果は、ユーザ１０が、対話装置１００に出力される情報を閲覧可能な状態であるか否かを示すフラグである。閲覧可能な状態であるか否かは、先に説明した情報閲覧可否判定部１３３によって判断される。図５に示す例では、情報閲覧可否判定結果は、「ＴＲＵＥ」と「ＦＡＬＳＥ」との２通りで表される。情報閲覧可否判定結果が「ＴＲＵＥ」の場合、ユーザ１０は、対話装置１００のディスプレイ１１３に表示される情報を視認できる状態にある。情報閲覧可否判定結果が「ＦＡＬＳＥ」の場合、ユーザ１０は、対話装置１００のディスプレイ１１３に表示される情報を視認できない状態にある。

音声出力情報は、応答内容のうち、音声によってユーザに伝達すべき情報を示す。音声出力情報は、同じ応答内容であっても、情報閲覧可否判定結果に応じて、異なる内容とされる。情報閲覧結果判定が「ＴＲＵＥ」の場合、情報閲覧可否判定結果が「ＦＡＬＳＥ」の場合よりも、音声出力情報は少ない。図５に示す例では、情報閲覧可否判定結果が「ＴＲＵＥ」の場合には音声出力情報は「明日は晴れらしいよ」とされ、情報閲覧判定結果が「ＦＡＬＳＥ」の場合には、音声出力情報は「明日の東京とは晴れで、最高気温は３０度、最低気温は１８度らしいよ」とされる。

視覚出力情報は、応答内容のうち、視覚によってユーザに伝達すべき情報を示す。視覚出力情報は、情報閲覧可否判定結果が「ＦＡＬＳＥ」の場合には存在せず、情報閲覧可否結果判定が「ＴＲＵＥ」の場合にのみ存在する。図５に示す例では、情報閲覧可否判定結果が「ＴＲＵＥ」の場合に、視覚出力情報が「東京都晴れ最高気温３０度最低気温１８度」とされる。

図２に戻って、状態制御部１３７は、対話装置１００の状態を対話状態と非対話状態とで切り替える部分（対話状態制御手段）である。たとえば、ユーザ意思判定部１３２によってユーザ１０に対話意思が有ると判定された場合には、状態制御部１３７は、対話装置１００の状態を非対話状態から対話状態に切り替える。対話装置１００の状態の切り替えについては、後に図６および図７を参照して詳述する。

音声認識制御部１３８は、ユーザ１０の音声に含まれる語彙を連続して認識する第１の認識モードと、ユーザ１０の音声に含まれる所定の語彙（キーワード）のみを認識する第２の認識モードとを切り替えて実行する部分（音声認識手段）である。第２の検出モードおよび第２の検出モードの詳細については後述する。

ここで、図３を参照して、対話装置１００のハードウェア構成について説明する。図３は、対話装置１００のハードウェア構成図である。図３に示されるように、対話装置１００は、物理的には、１または複数のＣＰＵ（Central Processing unit）２１、主記憶装置であるＲＡＭ（Random Access Memory）２２およびＲＯＭ（Read Only Memory)２３、データ送受信デバイスである通信モジュール２６、半導体メモリなどの補助記憶装置２７、操作盤（操作ボタンを含む）やタッチパネルなどのユーザの入力を受け付ける入力装置２８、ディスプレイなどの出力装置２９、カメラなどの撮像装置２４、ならびに赤外線センサなどのセンサ２５のハードウェアを備えるコンピュータとして構成され得る。図２における対話装置１００の各機能は、たとえば、ＣＰＵ２１、ＲＡＭ２２などのハードウェア上に１または複数の所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで通信モジュール２６、入力装置２８、出力装置２９、撮像装置２４およびセンサ２５を動作させるとともに、ＲＡＭ２２および補助記憶装置２７におけるデータの読み出しおよび書き込みを行うことで実現することができる。

再び図２を参照して、音声認識制御部１３８が実行する第1の認識モードおよび第２の認識モードの詳細について説明する。

第１の認識モードは、対話状態において実行される。第１の認識モードでは、音声認識制御部１３８は、ユーザ１０の音声に含まれる語彙を連続して認識する。語彙を連続して認識するとは、対話における一連のユーザの音声に含まれる語彙を可能な限り解析して認識することを意図している。理想的にはすべての語彙、すなわちユーザ１０の音声がすべて認識される。

実施形態において、第１の認識モードでは、音声認識制御部１３８は、対話装置１００の外部との通信を行いサーバ２００のデータ処理を利用することによって、ユーザ１０の音声に含まれる語彙を連続して認識する。

第２の認識モードは、非対話状態において実行される。第２の認識モードでは、音声認識制御部１３８は、ユーザの音声に含まれるキーワードのみを認識する。また、ユーザ意思判定部１３２は、音声認識制御部１３８によってユーザ１０の音声に含まれるキーワードが認識された場合に、ユーザ１０が対話装置１００への語りかけ意思を有していると判定する。キーワードは、たとえば先に説明した図４のユーザ発話「こんにちは」、「おはよう」などである。

実施形態において、第２の認識モードでは、音声認識制御部１３８は、対話装置１００の外部との通信を行わずに、ユーザ１０の音声に含まれるキーワードのみを認識する。

図６は、対話装置１００の状態遷移図である。図６に示すように、対話装置１００は、対話状態および非対話状態のいずれかの状態に置かれる。

非対話状態は、対話装置１００がユーザ１０と対話を行っていない状態である。この非対話状態では、第１の認識モードが実行される。この状態では、対話装置１００（の音声認識部１２４）とサーバ２００との通信は行われない。そして、ユーザの音声中にキーワードが検出されたことを契機として対話が開始され、対話装置１００は、対話状態に移行する（ＡＲ１）。

対話状態は、対話装置１００がユーザ１０と対話している状態である。対話状態では、第２の認識モードが実行される。この状態では、対話装置１００とサーバ２００との通信が行われる。このため、サーバ２００の音声認識エンジンを用いた大語彙の認識によるスムーズな対話が行われる。対話が終了すると、対話装置１００は、非対話状態に移行する（ＡＲ２）。

図７は、対話装置１００（図２）の状態遷移を説明するためのフローチャートである。このフローチャートの処理は、とくに記載がない場合は、対話装置１００の制御部１３０によって実行され得る。

はじめに、対話装置１００は、対話状態であるか否かを判断する（ステップＳ１）。対話状態の場合（ステップＳ１：ＹＥＳ）、対話装置１００は、ステップＳ２に処理を進める。そうでない場合（ステップＳ１：ＮＯ）、対話装置１００はステップＳ８に処理を進める。

ステップＳ１において対話状態の場合（ステップＳ１：ＹＥＳ）、対話装置１００の音声認識制御部１３８は、第１の認識モードを実行する（ステップＳ２）。

次に、対話装置１００は、一定時間ユーザ１０からの話しかけが無かったか否か判断する（ステップＳ３）。この判断は、たとえば対話制御部１３４によって実行される。一定時間ユーザからの話かけが無かった場合（ステップＳ３：ＹＥＳ）、対話装置１００は、ステップＳ４に処理を進める。そうでない場合（ステップＳ３）：ＮＯ）、対話装置１００は、ステップＳ６に処理を進める。

ステップＳ３において一定時間ユーザ１０からの話しかけが無かった場合（ステップＳ３：ＹＥＳ）、対話装置１００は、カメラ１１１でユーザ１０を検出できるか否か判断する（ステップＳ４）。この判断は、たとえば検出部１３１によって行われる。カメラ１１１でユーザ１０を検出できる場合（ステップＳ４：ＹＥＳ）、対話装置１００は、ステップＳ５に処理を進める。そうでない場合（ステップＳ４：ＮＯ）、対話装置１００は、ステップＳ７に処理を進める。

ステップＳ４においてカメラ１１１でユーザ１０を検出できる場合（ステップＳ４：ＹＥＳ）、対話装置１００は、ユーザ１０との距離が所定範囲内である（たとえばユーザ１０が図１の領域Ｒの内側に位置している）か否か判断する（ステップＳ５）。ユーザ１０との距離が所定範囲内の場合（ステップＳ５：ＹＥＳ）、対話装置１００は、ステップＳ６に処理を進める。そうでない場合（ステップＳ５：ＮＯ）、対話装置１００は、ステップＳ７に処理を進める。

ステップＳ３において一定時間の間にユーザ１０からの話しかけがあった場合（ステップＳ３：ＮＯ）、またはステップＳ５においてユーザとの距離が所定範囲内の場合（ステップＳ５：ＹＥＳ）、対話装置１００は、ユーザ１０に語りかけ意思があると判定し、対話状態を維持する（ステップＳ６）。ユーザ１０に語りかけ意思があるとの判定は、たとえばユーザ意思判定部１３２によって行われる。対話状態を維持する処理は、たとえば対話制御部１３４によって行われる。

ステップＳ４においてカメラ１１１でユーザ１０を検出できない場合（ステップＳ４：ＮＯ）、またはステップＳ５においてユーザとの距離が所定範囲内にない場合（ステップＳ５：ＮＯ）、対話装置１００は、ユーザ１０に語りかけ意思が無いと判定し、非対話状態へ移行する（ステップＳ７）。

一方、ステップＳ１において非対話状態の場合（ステップＳ１：ＮＯ）、対話装置１００の音声認識制御部１３８は、第２の認識モードを実行する（ステップＳ８）。

次に、対話装置１００の音声認識制御部１３８は、キーワードを検出したか否か判断する（ステップＳ９）。キーワードを検出した場合（ステップＳ９：ＹＥＳ）、対話装置１００は、ステップＳ１２に処理を進める。そうでない場合（ステップＳ９：ＮＯ）、対話装置１００は、ステップＳ１０に処理を進める。

ステップＳ９においてキーワードを検出しなかった場合（ステップＳ９：ＮＯ）、対話装置１００は、カメラ１１１でユーザ１０を検出できるか否か判断する（ステップＳ１０）。カメラ１１１でユーザ１０を検出できる場合（ステップＳ１０：ＹＥＳ）、対話装置１００は、ステップＳ１１に処理を進める。そうでない場合（ステップＳ１０：ＮＯ）、対話装置１００は、ステップＳ１３に処理を進める。

ステップＳ１０においてカメラ１１１でユーザ１０を検出できる場合（ステップＳ１０：ＹＥＳ）、対話装置１００は、ユーザ１０との距離が所定範囲内であるか否か判断する（ステップＳ１１）。ユーザ１０との距離が所定範囲内の場合（ステップＳ１１：ＹＥＳ）、対話装置１００は、ステップＳ１２に処理を進める。そうでない場合（ステップＳ１１：ＮＯ）、対話装置１００は、ステップＳ１３に処理を進める。

ステップＳ９においてキーワードを検出した場合（ステップＳ９：ＹＥＳ）、またはステップＳ１１においてユーザ１０との距離が所定範囲内の場合（ステップＳ１１：ＹＥＳ）、対話装置１００は、ユーザ１０に語りかけ意思があると判定し、対話状態へ移行する（ステップＳ１２）。

ステップＳ１０においてカメラ１１１でユーザ１０を検出できない場合（ステップＳ１０：ＮＯ）、またはステップＳ１１においてユーザ１０との距離が所定範囲内でない場合（ステップＳ１１：ＮＯ）、対話装置１００は、ユーザ１０に語りかけ意思が無いと判定し、非対話状態を維持する（ステップＳ１３）。

ステップＳ６，Ｓ７，Ｓ１２またはＳ１３の処理が完了した後、対話装置１００は、ステップＳ１に再び処理を戻す。

図７に示すフローチャートによれば、対話装置１００がユーザ１０と対話装置１００との距離とカメラ画像におけるユーザ１０の存在とを検出するステップ（ステップＳ４，Ｓ５，Ｓ１０，Ｓ１１）と、対話装置１００が上記検出するステップの検出結果に基づいてハンズフリー状態にあるユーザ１０が対話装置１００への語りかけ意思を有しているか否かを判定するステップ（ステップＳ６，Ｓ７，Ｓ１２，Ｓ１３）と、対話装置１００が上記判定するステップの判定結果に基づいて対話装置１００が対話状態および非対話状態のいずれかの状態に切り替わるように対話装置１００の状態を制御するステップ（ステップＳ７，Ｓ１２）と、が実行される。

次に、対話装置１００の作用効果について説明する。対話装置１００は、ユーザと対話装置との距離と、カメラ画像におけるユーザの存在とを検出する検出部１３１と、検出部１３１の検出結果に基づいて、ハンズフリー状態にあるユーザが対話装置への語りかけ意思を有しているか否かを判定するユーザ意思判定部１３２と、判定手段の判定結果に基づいて、対話装置１００が対話状態および非対話状態のいずれかの状態に切り替わるように対話装置１００の状態を制御する状態制御部１３７と、を備える。対話装置１００によれば、ユーザ１０が対話装置１００への語りかけ意思を有しているか否かに基づいて、対話装置１００が対話状態および非対話状態のいずれかの状態に切り替わるように制御される。これにより、対話装置１００は、ユーザ１０の意思に応じた適切なタイミングで、対話状態に切り替わることができる。

また、対話装置１００は、検出部１３１の検出結果に基づいて、ユーザ１０が対話装置１００からの情報を視認できる状態にあるか否かを判定する情報閲覧可否判定部１３３と、情報閲覧可否判定部１３３の判定結果に基づいて、ユーザ１０への出力を制御する出力制御部１３６と、をさらに備える。これにより、ユーザ１０が対話装置１００からの視覚的な出力（情報）を視認（閲覧など）できないときは、たとえば音声のみでユーザ１０へ情報を伝達することができる。また、ユーザ１０が対話装置１００からの視覚的な出力を視認できるときは、視覚的な出力と音声出力とを併用することよって、たとえば音声出力を短縮することができる。

また、対話装置１００は、対話状態においてはユーザ１０の音声に含まれる語彙を連続して認識する第１の認識モードを実行し、非対話状態においてはユーザ１０の音声に含まれる所定の語彙のみを認識する第２の認識モードとを実行する音声認識制御部１３８、をさらに備える。その場合、ユーザ意思判定部１３２は、非対話状態において、第２の認識モードを実行する音声認識制御部１３８によってユーザ１０の音声に含まれる所定の語彙（キーワード）が認識された場合に、ユーザ１０が対話装置１００への語りかけ意思を有していると判定する。これにより、対話装置１００は、ユーザ１０がキーワードを発話したことを契機として、ユーザ１０の意思に応じた適切なタイミングで、非対話状態から対話状態に切り替わることができる。

また、第１の認識モードでは、音声認識制御部１３８が、対話装置１００の外部との通信を行いサーバ２００のデータ処理を利用することによって、ユーザ１０の音声に含まれる語彙を連続して認識し、第２の認識モードでは、音声認識制御部１３８が、対話装置１００の外部との通信を行わずに、ユーザ１０の音声に含まれるキーワードのみを認識する。これにより、第１の認識モードでは、サーバ２００のデータ処理を利用した大語彙が認識可能な音声認識（サーバ型音声認識）を行うことができる。また、第２の認識モードでは、たとえば通信を行わない分だけ第１の認識モードより消費電力を低減させつつ音声認識を行うことができる。

また、検出部１３１は、カメラ画像におけるユーザ１０の顔を検出することによって、ユーザ１０の存在を検出してもよい。これにより、たとえば、対話装置１００とユーザ１０の顔との位置関係、対話装置１００に対するユーザ１０の顔の角度などに基づいて、ユーザ１０が対話装置１００への語りかけ意思を有しているか否か判定することができる。

１…対話システム、１０…ユーザ、１１…キャラクタ、５０…通信ネットワーク、１００…対話装置、１１０…インタフェース部、１１１…カメラ、１１２…近接センサ、１１３…ディスプレイ、１１４…マイク、１１５…スピーカ、１１６…操作パネル、１２０…データ処理部、１２１…画像処理部、１２２…センサデータ処理部、１２３…出力処理部、１２４…音声認識部、…音声合成部１２５、入力処理部１２６、１３０…制御部、１３１…検出部、１３２…ユーザ意思判定部、１３３…情報閲覧可否判定部、１３４…対話制御部、１３５…応答内容決定部、１３６…出力制御部、１３７…状態制御部、１３８…音声認識制御部、１４０…記憶部、１５０…通信部、２００…サーバ、Ｒ…領域。

Claims

ユーザとの対話を行うための対話装置であって、
前記ユーザと前記対話装置との距離と、カメラ画像における前記ユーザの存在とを検出する検出手段と、
前記検出手段の検出結果に基づいて、ハンズフリー状態にある前記ユーザが前記対話装置への語りかけ意思を有しているか否かを判定するユーザ意思判定手段と、
前記判定手段の判定結果に基づいて、前記対話装置が対話状態および非対話状態のいずれかの状態に切り替わるように前記対話装置の状態を制御する対話状態制御手段と、
前記対話状態においては前記ユーザの音声に含まれる語彙を連続して認識する第１の認識モードを実行し、前記非対話状態においては前記ユーザの音声に含まれる所定の語彙のみを認識する第２の認識モードを実行する音声認識手段と、
を備え、
前記ユーザ意思判定手段は、前記非対話状態において、前記第２の認識モードを実行する音声認識手段によって前記ユーザの音声に含まれる所定の語彙が認識された場合に、前記ユーザが前記対話装置への語りかけ意思を有していると判定し、
前記対話装置は、
前記検出手段の検出結果に基づいて、前記ユーザが前記対話装置からの情報を視認できる状態にあるか否かを判定するユーザ状態判定手段と、
前記ユーザ状態判定手段の判定結果に基づいて、前記ユーザへの出力を制御する出力制御手段と、
をさらに備え、
前記出力制御手段が制御する前記ユーザへの出力は、音声出力情報と視覚情報とを組合せた情報を前記ユーザへ伝達することを含む、対話装置。
前記第１の認識モードでは、前記音声認識手段が、前記対話装置の外部との通信を行いサーバのデータ処理を利用することによって、前記ユーザの音声に含まれる語彙を連続して認識し、
前記第２の認識モードでは、前記音声認識手段が、前記対話装置の外部との通信を行わずに、前記ユーザの音声に含まれる所定の語彙のみを認識する、請求項１に記載の対話装置。
前記検出手段は、カメラ画像における前記ユーザの顔を検出することによって、前記ユーザの存在を検出する、請求項１または２に記載の対話装置。
ユーザと対話装置との間で対話を行うための対話方法であって、
前記対話装置が、前記ユーザと前記対話装置との距離と、カメラ画像における前記ユーザの存在とを検出するステップと、
前記対話装置が、前記検出するステップの検出結果に基づいて、ハンズフリー状態にある前記ユーザが前記対話装置への語りかけ意思を有しているか否かを判定するステップと、
前記対話装置が、前記判定するステップの判定結果に基づいて、前記対話装置が対話状態および非対話状態のいずれかの状態に切り替わるように前記対話装置の状態を制御するステップと、
を含み、
前記対話状態においては前記ユーザの音声に含まれる語彙を連続して認識する第１の認識モードが実行され、前記非対話状態においては前記ユーザの音声に含まれる所定の語彙のみを認識する第２の認識モードが実行され、
前記語りかけ意思を有しているか否かを判定するステップでは、前記非対話状態において、前記第２の認識モードが実行されることによって前記ユーザの音声に含まれる所定の語彙が認識された場合に、前記ユーザが前記対話装置への語りかけ意思を有していると判定され、
前記対話方法は、
前記検出するステップの検出結果に基づいて、前記ユーザが前記対話装置からの情報を視認できる状態にあるか否かを判定するステップと、
前記視認できる状態にあるか否かを判定するステップの判定結果に基づいて、前記ユーザへの出力を制御するステップと、
をさらに備え、
前記制御するステップが制御する前記ユーザへの出力は、音声出力情報と視覚情報とを組合せた情報を前記ユーザへ伝達することを含む、対話方法。