JP2016206249A

JP2016206249A - 対話装置、対話システム、及び対話装置の制御方法

Info

Publication number: JP2016206249A
Application number: JP2015083751A
Authority: JP
Inventors: 弘晃猶原; Hiroaki Naohara
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-04-15
Filing date: 2015-04-15
Publication date: 2016-12-08
Anticipated expiration: 2035-04-15
Also published as: JP6621593B2

Abstract

【課題】ユーザにストレスを与えず、自然な流れで対話することが可能な対話装置を提供する。【解決手段】対話装置（１０）は、所定イベントが発生すると、当該所定イベントの発生後にユーザから音声入力されると予測される予測文言に対する予測対応情報をサーバ装置（３０）から取得する対応情報取得部（１７）と、ユーザからの予測文言の音声入力に対し、取得した予測対応情報を音声出力部（１２）から音声出力する出力制御部（１８）と、を備えている。【選択図】図１

Description

本発明は、ユーザとの対話を行う対話装置、対話システム、及び対話装置の制御方法に関する。

近年、ユーザと対話によるコミュニケーションを行うロボット等の対話装置が開発されている。このような対話装置の中には、サーバ装置に接続し、サーバ装置から応答内容を受信し音声出力（発話）するものもある。サーバ装置と接続することにより、対話のバリエーションが増え、より多くの情報をユーザに提供することが可能となる。さらに、サーバ装置は、複数の対話装置で利用可能であるため、対話装置毎の処理能力を上げるよりもコスト面で有利である。

しかしながら、対話装置がサーバ装置から応答内容を受信して音声出力する場合、以下のような問題がある。

図１１に示すように、対話装置がサーバ装置からの応答内容を音声データ（合成音声）で受信する場合、音声データはデータ量が多いため、特に、通信ネットワークの帯域が狭いもしくは不安定であると、受信するのに多くの時間がかかる。さらに、長いフレーズの場合にはそれが顕著となる。なお、図１１には、対話装置にてユーザからの入力音声を音声データとしてサーバ装置に送信し、サーバ装置から音声データと共に音声を再生するための再生指示を対話装置に送信し、対話装置にて受信した音声データを再生するシステムが開示されている。他方で、図１２に示すように、対話装置がサーバ装置からの応答内容をテキストデータ（図１２では発話テキストと記載している）で受信する場合、受信は短時間で行えても、通常サーバ装置よりも処理能力が低い対話装置での音声の合成処理に時間がかかってしまう。図１２には、対話装置にてユーザからの入力音声を音声データとしてサーバ装置に送信し、サーバ装置から発話テキストと共に音声を再生するための再生指示を対話装置に送信し、対話装置にて受信した発話テキストを音声合成し、再生するシステムが開示されている。

これらのように、対話装置ではサーバ装置から受信した応答内容を音声出力するまでの時間がかかってしまい、ユーザへの応答のタイミングが遅れてしまう。そのため、対話のテンポが崩れ、いかにも機械と話しているという不自然さがあり、ユーザがストレスを感じることもある。なお、個々の対話装置の音声合成の処理能力を上げるには、コストの面から難しい。

そこで、例えば、特許文献１には、対話型の情報出力装置として、シナリオに基づくユーザとの対話にて取得されるリクエストに基づき、そのリクエストへの対応情報を外部から取得する必要がある場合、その取得の間、上記シナリオを中断し別のシナリオに基づいてユーザと対話し、別のシナリオの終了後中断したシナリオを再開し、再開したシナリオに取得した対応情報を反映させて出力する装置が開示されている。この装置では、対応情報の取得の間は、別のシナリオに基づいた対話をすることにより、ユーザにストレスを感じさせないようにしている。

特開２００９−１０４４０９号公報（２００９年５月１４日公開）

ところが、あるシナリオに基づく対話中に別のシナリオに基づいた対話がなされると、今までの話題から脱線するため、対話の流れが不自然であったり、対話内容に一貫性が感じられなかったりして不満が募るユーザもいる。また、必要な情報（応答内容）だけを得たいのに、別のシナリオに基づく対話をする必要があり、ユーザによってはそれが負担に感じる場合もある。また、別のシナリオが終了しなければ、元のシナリオが再開されないので、ユーザが必要な情報を得るまでに長時間かかってしまう場合もある。このように結局はユーザにストレスを与えることに繋がりかねない。

そこで、本発明は、上記の問題点に鑑みてなされ、その目的は、ユーザにストレスを与えず、自然な流れで対話することが可能な対話装置等を提供することにある。

上記の課題を解決するために、本発明の一態様に係る対話装置は、音声を出力してユーザと対話する対話装置において、所定イベントが発生すると、当該所定イベントの発生後にユーザから音声入力されると予測される予測文言に対する発話情報である予測対応情報を、サーバ装置から取得する取得部と、ユーザによる前記予測文言の入力に対し、前記予測対応情報を音声出力する音声制御部と、を備えたことを特徴とする。

本発明の一態様に係る対話装置によると、所定イベントが発生すると、予測対応情報をサーバ装置から取得しておくことで、所定イベント発生後にユーザから入力される音声に備えることができる。よって、ユーザから予測文言が入力された場合（予測が的中した場合）に、すぐさま予測対応情報に応じた応答音声を出力することができる。よって、入力音声毎に応答音声を出力するための対応情報をサーバ装置から取得する対話装置よりも、すばやい応答（音声出力）が可能である。そのため、上記構成によると、ユーザにストレスを与えず、自然な流れで対話することが可能となり、ユーザにより快適な対話環境を提供できる。また、対話装置とサーバ装置とを繋ぐ通信ネットワークの通信速度の向上や、対話装置の音声合成の処理能力の向上を図ることなく、つまり、コストを上げることなく、自然な流れの対話を行うことができる。

本発明の実施の形態１に係る対話システムの概略構成を示す図である。本発明の実施の形態１に係る対話システムに含まれるサーバ装置が備えたシナリオ情報を説明するための図である。本発明の実施の形態１に係る対話システムでのデータの流れの一例を示す図である。本発明の実施の形態１に係る対話システムに含まれるサーバ装置及び対話装置にて記憶されている、対話装置にてダウンロード済み音声データの管理状況情報を示す図である。本発明の実施の形態１に係る対話システムにおけるデータの流れの別の例を示す図である。本発明の実施の形態１に係る対話システムにおけるデータの流れのさらに別の例を示す図である。本発明の実施の形態２に係る対話システムの概略構成を示す図である。本発明の実施の形態２に係る対話システムでのデータの流れの一例を示す図である。本発明の実施の形態２に係る対話システムに含まれる対話装置にて合成済みの音声データの管理状況情報を示す図である。本発明の実施の形態３に係る対話システムの概略構成を示す図である。従来の対話システムでのデータの流れを示す図である。従来の別の対話システムでのデータの流れを示す図である。

〔実施の形態１〕
以下、本発明の一実施の形態について図１〜６に基づいて説明すれば以下の通りである。

（対話システムの構成）
図１は、本実施の形態に係る対話システム１００の構成を示す図である。図１に示すように、対話システム１００は、対話装置１０とサーバ装置３０とを備えており、これらは通信ネットワークを介して接続している。この通信ネットワークとしては、例えば、インターネットが利用できる。また、電話回線網、移動体通信網、ＣＡＴＶ（CAble TeleVision）通信網、衛星通信網などを利用することもできる。

本実施の形態の対話システム１００では、ユーザが対話装置１０に話しかけると（音声を入力すると）、（１）対話装置１０からユーザの音声データをサーバ装置３０に送信し、（２）サーバ装置にて音声認識を行い、その結果に応じた音声データと当該音声データの再生指示とを対話装置１０に送信し、（３）これを対話装置１０が再生することにより、ユーザは自然言語を用いた音声によって対話装置１０と対話することができる。本実施の形態では、サーバ装置３０が音声認識機能を有しているものとするが、音声認識機能を、対話装置１０が有していても、または、対話装置１０及びサーバ装置３０の両方が有していてもよい。

対話装置１０は、例えば、通信機能を備えた、対話ロボットであってもよいし、スマートフォン、タブレット端末、パーソナルコンピュータ、家電（家庭用電子機器）等であってもよい。

なお、図１では、説明の簡略化のため、サーバ装置３０に接続している対話装置１０は１つしか示していないが、対話システム１００では、サーバ装置３０に接続する対話装置１０の数は限定されない。また、サーバ装置３０に接続する対話装置１０の種類は問わず、つまり、サーバ装置３０に対して、対話ロボットとスマートフォンといったように異なる種類の対話装置１０が接続していてもよい。

（対話装置）
次に、対話装置１０の構成について説明する。対話装置１０は、音声を出力する装置である。対話装置１０は、図１に示すように、音声入力部１１、音声出力部１２、制御部１３、データ格納部１４、通信部１５、センサ部１６、及び時刻計測部Ｔを備えている。

音声入力部１１は、マイク等の音声入力装置であり、音声出力部１２は、スピーカ等の音声出力装置である。

制御部１３は、対話装置１０の各部の動作を制御するブロックである。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）や専用プロセッサなどの演算処理部などにより構成されるコンピュータ装置から成る。制御部１３は、データ格納部１４に記憶されている対話装置１０における各種制御を実施するためのプログラムを読み出して実行することで、対話装置１０の各部の動作を統括的に制御する。

また、制御部１３は、対応情報取得部（取得部）１７、及び出力制御部（音声制御部）１８としての機能を有する。

対応情報取得部１７は、対話装置１０にて音声出力するための音声データと、当該音声データの再生指示（コマンド）とをサーバ装置３０から受信（取得）するブロックである。対応情報取得部１７は、所定イベントが発生すると、当該所定イベントの発生をサーバ装置３０に通知し、当該所定イベントの発生に対する発話情報であるイベント対応情報とこれの再生指示（コマンド）とをサーバ装置３０から受信する。さらに、対応情報取得部１７は、上記所定イベントの発生後にユーザから入力されると予測される予測文言に対する発話情報である予測対応情報を、サーバ装置３０から受信する。また、対話装置１０にて予測対応情報を音声出力する際に、対応情報取得部１７は、予測対応情報の再生指示（コマンド）をサーバ装置３０から受信する。これら情報の送受信の詳細は後述する。本実施の形態では、対応情報取得部１７は、イベント対応情報及び予測対応情報を音声データとして取得する。

ここで、所定イベントとは、本実施の形態では、音声入力部１１でのユーザからの音声入力、時刻計測部Ｔによる所定時刻の計測、または、センサ部１６による所定値の検知であるとする。これら所定イベント発生時の対話装置１０の音声出力の具体例については、後述する。所定イベントは、ここに記載のものに限定されず、対話装置１０にて検知できる事象であればどのようなものであってもよい。

出力制御部１８は、サーバ装置３０から受信した音声データを、受信した再生指示に従って、音声出力部１２に出力させることで音声出力（発話）を行うブロックである。本実施の形態では、出力制御部１８が、所定イベントの発生に対して、イベント対応情報を音声出力部１２から音声出力しながら、対応情報取得部１７が、予測対応情報を取得するように構成されている。しかし、この構成に限定されず、例えば、対応情報取得部１７は、所定イベントの発生に対して、イベント対応情報と予測対応情報とを同時に取得してもよい。

データ格納部１４は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）などの記憶装置を含み、対話装置１０にて用いられる各種情報（データ）を記憶するブロックである。

通信部１５は、外部との通信を行うブロックである。通信部１５は、制御部１３による制御の下、音声入力部１１にてユーザの入力音声である音声データ（波形データ）を受信すると、その音声データをサーバ装置３０に送信する。そして、サーバ装置３０から、サーバ装置３０による音声データの音声認識の結果に応じた応答内容を示す音声データであるイベント対応情報及びその再生指示を受信する。本実施の形態では、通信部１５は音声入力部１１から入力された音声データをそのままサーバ装置３０に送信するものとするが、対話装置１０が音声認識部を備えている場合、音声認識部が生成したテキストデータまたは該テキストデータから抽出した単語やフレーズをサーバ装置３０に送信してもよい。

センサ部１６は、対話装置１０が備える各種センサであり、例えば、温度センサ、湿度センサ、照度センサ、あるいはカメラであってもよいが、これらには限定されない。また、センサ部１６は、複数のセンサを有していてもよい。本実施の形態では、センサ部１６は、温度センサであるとする。

時刻計測部Ｔは、時計である。

（サーバ装置の構成）
次に、サーバ装置３０について説明する。サーバ装置３０は、イベント対応情報と当該イベント対応情報の再生指示とを、さらに、予測対応情報と当該イベント対応情報の再生指示とを、対話装置１０に送信する装置である。また、サーバ装置３０は、対話装置１０を管理するサーバであり、複数の対話装置１０が接続されている場合には、それぞれを個別に管理する。サーバ装置３０としては、例えば、クラウドサービスを提供するクラウドサーバであってもよいが、これに限定されることはない。また、サーバ装置３０は、１台であってもよいし、複数台が通信ネットワークを介して接続した構成であってもよい。

サーバ装置３０は、図１に示すように、制御部３１、データ格納部３２、及び通信部３３を備えている。

制御部３１は、例えば、ＣＰＵや専用プロセッサなどの演算処理部などにより構成されるコンピュータ装置からなり、サーバ装置３０の各部の動作を制御するブロックである。また、制御部３１は、音声認識部３４、対応情報提供部３５、及び音声合成部３６としての機能を有する。

音声認識部３４は、対話装置１０から受信したユーザの音声データを認識するブロックである。具体的には、音声認識部３４は、受信した音声データを解析してテキストデータに変換し、そのテキストデータをさらに解析して単語やフレーズを抽出する。なお、音声認識の処理について公知技術を用いることができる。

対応情報提供部３５は、イベント対応情報、予測対応情報、及び、それらの再生指示を対話装置１０に通信部３３を介して送信するブロックである。対応情報提供部３５は、所定イベントの発生の通知を受けると、当該所定イベントに対して対話装置１０が音声出力（発話）する文言である出力文言を、以下で説明するシナリオ格納部３２１から検索して、音声合成部３６にて音声データに合成し、対話装置１０に送信する。所定イベントに対する出力文言を音声データに合成したものが、所定イベントの発生に対するイベント対応情報である。ここで、所定イベントが時刻計測部Ｔによる所定時刻の計測、または、センサ部１６による所定値の検知である場合には、サーバ装置３０がこれらの情報（所定時刻または所定値）を対話装置１０から受信すると、対応情報提供部３５は、所定時刻または所定値に対する出力文言をシナリオ格納部３２１から検索する。あるいは、所定イベントがユーザの音声入力である場合には、サーバ装置３０がユーザ音声の入力データを受信すると、音声認識部３４で音声認識し、対応情報提供部３５は、音声認識結果に対する出力文言をシナリオ格納部３２１から検索する。

さらに、対応情報提供部３５は、上記所定イベントの発生後にユーザから入力されると予測される予測文言に対する出力文言を、以下で説明するシナリオ格納部３２１から検索して、音声合成部３６にて音声データに合成し、対話装置１０に送信する。この、予測文言に対する出力文言を音声データに合成したものが、予測文言に対する予測対応情報である。

なお、対応情報提供部３５は、予測対応情報として音声データそのものを対話装置１０に送信するのではなく、ＵＲＬのようにサーバ装置３０上の予測対応情報が格納されたファイルを指し示すデータ（アドレスデータ）を送信する構成であってもよい。この場合、アドレスデータを受信した対話装置１０は、予測対応情報を音声出力する際に、アドレスデータが指し示すファイルから対応情報を取得する。

音声合成部３６は、音声データを生成（音声合成）するブロックである。音声合成部３６は、対応情報提供部３５が対話装置１０に送信する音声データを生成する。なお、出力文言に相当する音声データ（録音音声）が予め用意されている場合には、音声合成部３６での生成は行わない。

本実施の形態では、サーバ装置３０にてイベント対応情報及び予測対応情報を音声データに合成してから対話装置１０に送信するように構成されているため、対話装置１０の負荷を低減させることできる。

データ格納部３２は、サーバ装置３０で用いられる各種情報を記憶するブロックである。また、データ格納部３２にはシナリオ格納部３２１が含まれる。シナリオ格納部３２１は、所定イベントに、対話装置１０が音声出力（発話）する文言である出力文言が、さらに、予測シナリオが、対応づけて登録されているシナリオ情報（データベース）を格納している。予測シナリオとは、所定イベントの発生後にユーザから音声入力されると予測される入力文言（予測文言）である。シナリオ格納部３２１に格納されたシナリオ情報の具体例を図２に示す。

図２の（ａ）は、所定イベントがユーザからの音声入力である場合に用いられるシナリオ情報（シナリオＳＶ）である。シナリオＳＶでは、シナリオ番号、入力文言、発話ＩＤ、予測シナリオのシナリオ番号が対応づけられて登録されている。入力文言は、音声認識部３４による音声認識結果の単語やフレーズである。発話ＩＤは、対話装置１０が音声出力（発話）する出力文言の識別情報である。予測シナリオのシナリオ番号は、ユーザからの音声入力後に入力されると予測される入力文言のシナリオ番号を示す。シナリオＳＶでは、１つの入力文言に対応させて複数の発話ＩＤが登録されているシナリオもある。この場合、例えば、ランダムに選択したり、別の条件と組み合わせたりして、実際に音声出力するものを選択すればよい。

図２の（ｂ）は、所定イベントが所定時刻の計測である場合に用いられるシナリオ情報（シナリオＳＴ）である。シナリオＳＴでは、シナリオ番号、時刻、発話ＩＤ、予測シナリオのシナリオ番号が、対応付けられて登録されている。また、シナリオＳＴにおいても、１つの時刻に対して複数の発話ＩＤが登録されていてもよい。

図２の（ｃ）は、所定イベントがセンサ部１６による所定値の検知である場合に用いられるシナリオ情報（シナリオＳＲ）である。シナリオＳＲでは、シナリオ番号、温度（室温）、発話ＩＤ、予測シナリオのシナリオ番号、が対応付けられて登録されている。シナリオＳＲにおいても、１つの温度に対して複数の発話ＩＤが登録されていてもよい。

図２の（ｄ）は、発話ＩＤに対応付けられた出力文言のデータベース（発話ＤＢ）を示している。

各シナリオ情報及び発話ＤＢの使用について説明する。対話装置１０にて、ユーザから文言「おはよう」の音声入力あった場合、シナリオＶ１が使用される。その際、発話ＩＤ＝１０１の文言「おはよう」が対話装置１０にて音声出力される。シナリオＶ１では、その後のユーザからの入力文言は「おなかすいた」または「げんき？」であると予測されている。よって、シナリオＶ１には、予測シナリオとして、シナリオＶ６とシナリオＶ８が登録されている。文言「おはよう」は朝に使用される挨拶であるため、予測シナリオのシナリオ番号には、朝に交わされる会話のシナリオ番号を登録しておく。なお、各シナリオにおいて、予測シナリオのシナリオ番号の入力文言が予測文言に相当する。

また、対話装置１０にて、朝７時が計測されると、シナリオＴ１が使用される。その際、発話ＩＤ＝２０１の文言「朝７時だよ」が対話装置１０にて音声出力される。シナリオＴ１では、その後のユーザからの入力文言は「おはよう」、「おなかすいた」または「げんき？」であるとの予測されている。よって、シナリオＴ１には、予測シナリオとして、シナリオＶ１、シナリオＶ６、シナリオＶ８が登録されている。朝７時であるため、予測シナリオのシナリオ番号には、朝交わされる会話のシナリオ番号を登録しておく。

また、気温２５度が検知されると、シナリオＲ３が使用される。その際、発話ＩＤ＝３０３の文言「快適、快適」が対話装置１０にて音声出力される。シナリオＲ３では、その後のユーザからの入力文言は「寒いー」「暑いー」であると予測されている。よって、シナリオＲ３には、予測シナリオとして、シナリオＶ９、シナリオＶ１０が登録されている。対話装置１０が温度に関する音声出力をした後なので、予測シナリオとして、気温等に関するシナリオを登録しておく。各シナリオ情報及び発話ＤＢのさらなる使用については、後述する。

上記各シナリオ情報（シナリオＳＶ、シナリオＳＴ、シナリオＳＲ）及び発話ＤＢがシナリオ格納部３２１に格納されているものとして以下の説明を行うが、図示し上記で説明した各シナリオ情報及び発話ＤＢは例示であり、これらに限定されることはない。なお、シナリオ格納部３２１では、入力文言及び出力文言は、何れもテキストデータとして格納されている。このようなデータベースの構築、また、データベースからの検索については、公知技術が利用できる。また、各シナリオ情報及び発話ＤＢが定期的に更新されるようになっていてもよい。

また、サーバ装置３０は、通信ネットワークを経由して情報提供サーバが提供する各種情報（外部情報）を受信し、発話ＤＢの出力文言を生成するように構成されていてもよい。外部情報の具体例を挙げると、対話装置が設置された地域のウエザー情報、交通情報、災害情報等であるが、これらには限定されない。また、サーバ装置３０に情報を提供する情報提供サーバの数は限定されない。出力文言を外部情報を利用して生成しておくことで、シナリオＳＶでは、次のように高度な内容にて応答できるような登録がなされていてもよい。例えば、シナリオ番号１において、予測シナリオのシナリオ番号Ｖ２０を登録しておき、シナリオ番号Ｖ２０には、入力文言「いってきます」、発話ＩＤ「５００」を対応づける。そして、発話ＤＢの発話ＩＤ＝５００には、出力文言「今日は午後から雨の確率が９０％だよ」を登録する。この場合、事前に外部情報であるウエザー情報を基に出力文言「今日は午後から雨の確率が９０％だよ」が発話ＩＤ＝５００に登録される。もちろん、これは例示である。

また、サーバ装置３０は、例えば、スマートフォンやタブレット等の外部装置から録音音声を登録できるように構成されていてもよい。この場合、シナリオＳＶでは、シナリオＳＶでは、次のように高度な内容にて応答できるような登録がなされていてもよい。例えば、「冷蔵庫にケーキがあるよ」という音声がユーザの母親のスマートフォンからサーバ装置３０に登録されると、シナリオＳＶでは、シナリオ番号５において、予測シナリオのシナリオ番号Ｖ３０を登録しておき、シナリオ番号Ｖ３０には、入力文言「ママからの伝言は？」、発話ＩＤ「６００」を対応づける。そして、発話ＤＢの発話ＩＤ＝６００には、出力文言「お母さんからの伝言は、『冷蔵庫にケーキがあるよ』だよ」を登録する。なお、「冷蔵庫にケーキがあるよ」は録音された音声であるので、音声合成部３６ではこの部分については音声に合成する必要はなく、対応情報提供部３５が録音された音声を利用して音声データを対話装置１０に送信すればよい。具体的には、音声合成部３６は、テキストデータの「お母さんからの伝言は」と「だよ」とを音声データに変換後、録音の音声データの「冷蔵庫にケーキがあるよ」と繋ぎ合わせる処理を行う。あるいは、「お母さんからの伝言は」と「だよ」とが音声データである場合には、これらと、録音の音声データの「冷蔵庫にケーキがあるよ」と繋ぎ合わせる処理を行う。もちろん、これらも例示である。これらのように、対話システム１００は、高度な応答を行うことができるように構成されていてもよい。

通信部３３は、外部との通信を行うブロックである。通信部３３は、対話装置１０に加え、上記したように、図示しない情報提供サーバやスマートフォンやタブレット等の外部装置と通信ネットワークにて接続してもよい。なお、サーバ装置３０と接続する装置の数は限定されない。

（対話システムにおける対話の流れ）
次に、対話システム１００における対話の流れを、イベントの具体例毎に、図２〜６を参照して説明する。

＜イベントがユーザからの音声入力である場合＞
図３に示すように、ユーザから音声「おはよう」が発せられ、音声データ「おはよう」が対話装置１０に入力されると、対話装置１０は、その音声データ「おはよう」をサーバ装置３０に送信する。ここでは、ユーザからの所定文言「おはよう」の音声入力が所定イベントであり、音声データ「おはよう」の送信が所定イベントの通知である。この時点で対話装置１０が取得している音声データ（ダウンロード済音声データ）のＩＤを、図４の（ａ）に示す。ダウンロード済音声データは、対話装置１０及びサーバ装置３０の両方で管理されている。この時点でダウンロード済音声データはない。

サーバ装置３０は、音声データ「おはよう」を受信すると、音声認識処理を行い、図２の（ａ）に示すシナリオＳＶを参照に、音声認識結果である入力文言「おはよう」に対応する発話ＩＤと予測シナリオとを検索し、検索の結果、発話ＩＤ＝１０１と、予測シナリオとしてシナリオＶ６およびシナリオＶ８と、を取得する。そして、サーバ装置３０は、発話ＩＤ＝１０１の出力文言「おはよう」を音声合成した音声データ（ＩＤ＝１０１、「おはよう」）と、これの再生指示（ＩＤ＝１０１）と、さらに、予測シナリオに対応付けられた出力文言（ＩＤ＝１０７、１０８、１１２、１１３、１１４）があること（予測あり）を示すため、これら出力文言の発話ＩＤを、対話装置１０に送信する。

図２の（ａ）に示すシナリオＳＶでは、入力文言が「おはよう」であるシナリオＶ１において予測シナリオのシナリオ番号はＶ６及びＶ８である。これは、ユーザが「おはよう」の次に、「おなかすいた(シナリオＶ６)」、または、「げんき？(シナリオＶ８)」という音声を入力する（音声にて対話する）のではないかという予測を意味する。シナリオＶ６では発話ＩＤ＝１０７、１０８の出力文言が、シナリオＶ８では発話ＩＤ＝１１２、１１３、１１４の出力文言が、対話装置１０から音声出力される可能性があるため、これら予測シナリオ（シナリオＶ６、シナリオＶ８）に対応付けられた出力文言（ＩＤ＝１０７、１０８、１１２、１１３、１１４）があることを示すため、これら出力文言の発話ＩＤを、対話装置１０に送信する。

対話装置１０は、受信した音声データ（ＩＤ＝１０１）を再生することで「おはよう」を音声出力する。また、予測シナリオに対応付けられた出力文言の発話ＩＤを受信したので、音声データＩＤ＝１０７、１０８、１１２、１１３、１１４をサーバ装置３０に要求する。

要求を受けたサーバ装置３０は、音声データ（ＩＤ＝１０７、「おなかすいたね」）、音声データ（ＩＤ＝１０８、「ごはんまだなの？」）、音声データ（ＩＤ＝１１２、「気分は最高」）、音声データ（ＩＤ＝１１３、「元気だよ」）、音声データ（ＩＤ＝１１４、「さみしいよ」）を合成して対話装置１０に送信する。対話装置１０はこれらを受信し、保存する。この時点のダウンロード済音声データを、図４の（ｂ）に示す。ダウンロード済音声データは、対話装置１０及びサーバ装置３０の両方で管理されている。

本実施の形態では、対話装置１０は、「おはよう」を音声出力しながら音声データ（ＩＤ＝１０７、１０８、１１２、１１３、１１４）を受信（ダウンロード）する。

次に、ユーザから「おはよう」の音声入力後（所定イベント発生後）に、「おなかすいた」が音声入力されると、対話装置１０は、音声データ「おなかすいた」をサーバ装置３０に送信する。ここでは、ユーザからの所定文言「おなかすいた」の音声入力が所定イベントであり、音声データ「おなかすいた」の送信が所定イベントの通知である。

サーバ装置３０は、音声データ「おなかすいた」を受信すると、音声認識処理を行う。そして、図２の（ａ）に示すシナリオＳＶを参照して、音声認識結果である入力文言「おなかすいた」に対応する発話ＩＤ＝１０７と、予測シナリオとしてシナリオＶ７と、を取得する。その後、図４の（ｂ）に示されるダウンロード済音声データを参照し、既にＩＤ＝１０７の「おなかすいたね」の音声データは対話装置１０に送信してあることを確認すると、「おなかすいたね」の再生指示（ＩＤ＝１０７）を送信する。さらに、サーバ装置３０は、予測シナリオに対応付けられた出力文言（ＩＤ＝１０９、１１０、１１１）があることを示すため、これら出力文言の発話ＩＤを、対話装置１０に送信する。このように、音声データ（ＩＤ＝１０７、「おなかすいたね」）は既に対話装置１０にて受信済みなので、ここでは再生指示を送信するのみで、音声データは送信しない。つまり通信時間が短縮できるため、ユーザへの応答時間が短縮できる。

対話装置１０は、受信した再生指示（ＩＤ＝１０７）を用いて保存している音声データ（ＩＤ＝１０７、「おなかすいたね」）を再生することで「おなかすいたね」を音声出力する。このように、保存している音声データを用いることができるため、本来音声データ受信に必要な時間が短縮できるため、応答時間が短縮できる。また、予測シナリオに対応付けられた出力文言の発話ＩＤを受信したので、音声データＩＤ＝１０９、１１０、１１１をサーバ装置３０に要求し、受信し、保存する。この時点のダウンロード済音声データを、図４の（ｃ）に示す。ダウンロード済音声データは、対話装置１０及びサーバ装置３０の両方で管理されている。

本実施の形態では、対話装置１０は、先と同様に「おなかすいたね」を音声出力しながら音声データ（ＩＤ＝１０９、１１０、１１１）を受信する。

次に、ユーザから「おなかすいた」の音声入力後（所定イベント発生後）に、「好きな食べ物は？」が音声入力されると、対話装置１０は、音声データ「好きな食べ物は？」をサーバ装置３０に送信する。ここでは、ユーザからの所定文言「好きな食べ物は？」の音声入力が所定イベントであり、音声データ「好きな食べ物は？」の送信が所定イベントの通知である。

サーバ装置３０は、音声データ「好きな食べ物は？」を受信すると、音声認識処理を行う。そして、図２の（ａ）に示すシナリオＳＶを参照して、音声認識結果である入力文言「好きな食べ物は？」に対応する発話ＩＤ＝１１１を取得し、予測シナリオが存在しないことを確認する。その後、図４の（ｃ）に示されるダウンロード済音声データを参照し、既にＩＤ＝１１１の「ハンバーグが好き」の音声データは対話装置１０に送信してあることを確認すると、「ハンバーグが好き」の再生指示（ＩＤ＝１１１）を送信する。この時、入力文言「好きな食べ物は？」に対応する予測シナリオが存在しないため、予測される出力文言がないという情報（予測なし）を送信する。このように、予測シナリオが無い場合には、出力文言がないという情報を送信する。あるいは、予測に関しては何も送信しない。

対話装置１０は、受信した再生指示（ＩＤ＝１１１）を用いて保存している音声データ（ＩＤ＝１１１、「ハンバーグが好き」）を再生することで「ハンバーグが好き」を音声出力する。このように、保存している音声データを用いることができるため、本来音声データ受信に必要な時間が短縮できるため、応答時間が短縮できる。また、今回は、予測される出力文言がないという情報を受信したので、ダウンロード済音声データは前回のままとなる。この時点のダウンロード済音声データを、図４の（ｄ）に示す。ダウンロード済音声データは、対話装置１０及びサーバ装置３０の両方で管理されている。

次に、ユーザから「好きな食べ物は？」の音声入力後（所定イベント発生後）に、「こんばんは」が音声入力されると、対話装置１０は、音声データ「こんばんは」をサーバ装置３０に送信する。ここでは、ユーザからの所定文言「こんばんは」の音声入力が所定イベントであり、音声データ「こんばんは」の送信が所定イベントの通知である。この後の対話における処理は、上記と同様のことが繰り返されるため、説明は省略する。

ここで、図４の（ｅ）に示すように、たくさんの音声データをダウンロードすると対話装置１０の記憶容量が一杯になってしまうことがある。このような時には例えば最も早くにダウンロードした音声データを消す等が考えられる。その際には対話装置１０はダウンロード済みデータ管理状況から該当ファイルの管理情報を消し、消したことをサーバ装置３０へ通知してサーバの管理情報でも、同じ音声データを消す必要がある。このように、ダウンロード済音声データは、対話装置１０及びサーバ装置３０の両方で管理されている。

以上のように、対話装置１０では、一旦受信した音声データは、再生指示のみの受信により音声出力できるため、通信ネットワークの負荷を減少することができる。なお、本実施の形態の対話システム１００では、対話装置１０は、サーバ装置３０からの再生指示を受けて発話するが、サーバ装置からの指示が無くても応答する構成であってもよい。また、一旦受信した音声データは繰り返し用いるが、音声データを保存する記憶領域が少なくなった場合には、例えば、古い音声データから順に消すようにしてもよい。

また、上記では、対話装置１０にて出力する音声データを全てサーバ装置３０から取得しているが、日常的な音声や簡単な音声は予め対話装置に保存されており、この保存されたもの以外の音声データをサーバ装置３０から取得する構成であってもよい。

＜イベントが所定時刻の計測である場合＞
図５に示すように、対話装置１０は、午前７時を計測すると、午前７時を計測したこと（時刻イベント「７時」が発生したこと）をサーバ装置３０に送信する。ここでは、午前７時の計測が所定イベントである。

サーバ装置３０は、時刻イベント「７時」が発生したことが通知されると、図２の（ｂ）に示すシナリオＳＴを用いて、時刻「７時」に対応する発話ＩＤと予測シナリオとを検索する。時刻イベント「７時」に対応するシナリオＴ１に関連付けられている、発話ＩＤは２０１であり、予測シナリオはＶ１、Ｖ６、Ｖ８である。よって、サーバ装置３０は、検索の結果、発話ＩＤ＝２０１と、予測シナリオとしてシナリオＶ１、シナリオＶ６およびシナリオＶ８と、を取得する。そして、サーバ装置３０は、発話ＩＤ＝２０１の出力文言「朝７時だよ」を音声合成した音声データ（ＩＤ＝２０１、「朝７時だよ」）と、これの再生指示（ＩＤ＝２０１）と、さらに、予測シナリオに対応付けられた発話ＩＤを、対話装置１０に送信する。ここでは、図２の（ｂ）に示すシナリオＳＴを参照すると、時刻イベント「７時」であるシナリオＴ１における予測シナリオはＶ１、Ｖ６、Ｖ８である。シナリオＶ１では発話ＩＤ＝１０１、シナリオＶ６では発話ＩＤ＝１０７、１０８、シナリオＶ８では発話ＩＤ＝１１２、１１３、１１４が対応づけられているため、これら発話ＩＤを、対話装置１０に送信する。

対話装置１０は、受信した音声データ（ＩＤ＝２０１）を再生することで「朝７時だよ」を音声出力する。また、予測シナリオに対応付けられた出力文言の発話ＩＤを受信したので、音声データＩＤ＝１０１、１０７、１０８、１１２、１１３、１１４をサーバ装置３０に要求する。

要求を受けたサーバ装置３０は、各音声データを合成して対話装置１０に送信する。対話装置１０はこれらを受信し保存する。

＜イベントがセンサによる所定値の検知である場合＞
図６に示すように、対話装置１０にて、センサ部１６が周囲の温度（室温）として２５度を検知すると、２５度を計測したこと（センサーイベント「２５度」が発生したこと）をサーバ装置３０に送信する。ここでは、２５度の検知が所定イベントである。

サーバ装置３０は、センサーイベント「２５度」が発生したことが通知されると、図２の（ｃ）に示すシナリオＳＲを用いて、温度「２５度」に対応する発話ＩＤと予測シナリオとを検索し、検索の結果、発話ＩＤ＝３０３と、予測シナリオとしてシナリオＶ９およびシナリオＶ１０と、を取得する。そして、サーバ装置３０は、発話ＩＤ＝３０３の出力文言「快適、快適」を音声合成した音声データ（ＩＤ＝３０３、「快適、快適」）と、これの再生指示（ＩＤ＝３０３）と、さらに、予測シナリオに対応付けられた出力文言の発話ＩＤを、対話装置１０に送信する。ここでは、図２の（ｃ）に示すシナリオＳＲを参照すると、センサーイベントが「２５度」であるシナリオＲ３における予測シナリオはＶ９、Ｖ１０である。シナリオＶ９では発話ＩＤ＝１１５、シナリオＶ１０では発話ＩＤ＝１１６が対応づけられているため、これら発話ＩＤを、対話装置１０に送信する。

対話装置１０は、受信した音声データ（ＩＤ＝３０３）を再生することで「快適、快適」を音声出力する。また、予測シナリオに対応付けられた出力文言の発話ＩＤを受信したので、音声データＩＤ＝１１５、１１６をサーバ装置３０に要求する。

要求を受けたサーバ装置３０は、音声データ（ＩＤ＝１１５、「風邪に気を付けてね」）、音声データ（ＩＤ＝１１６、「体調に気を付けてね」）を合成して対話装置１０に送信する。対話装置１０はこれらを受信し保存する。

以上の対話の流れの説明において、所定イベントとして、ユーザからの音声入力、所定時刻の計測、及び自装置が備えたセンサによる所定値の検知を、例に説明したが、所定イベントは上記に限定されることはない。また、予測も上記したものに限定されることはない。

（対話システムのまとめ）
以上のように、対話システム１００において、対話装置１０は、所定イベントが発生すると、所定イベントの発生に対するイベント対応情報だけでなく、所定イベント発生後にユーザから入力されると予測される予測文言に対する予測対応情報を、サーバ装置３０から取得する。このように、予め予測対応情報をサーバ装置から取得しておき、所定イベント発生後にユーザから入力される音声に備えることで、ユーザから予測文言が入力された場合（予測が的中した場合）に、すぐさま音声データである予測対応情報を出力することができる。よって、入力音声毎に応答音声を出力するための音声データをサーバ装置から取得する対話装置よりも、すばやい応答（音声出力）が可能である。

よって、対話システム１００及び対話装置１０は、ユーザにストレスを与えず、自然な流れで対話することが可能となり、ユーザにより快適な対話環境を提供できる。また、対話装置１０とサーバ装置３０とを繋ぐ通信ネットワークの通信速度の向上や、対話装置１０の音声合成の処理能力の向上を図ることなく、つまり、コストを上げることなく、自然な流れの対話を行うことができる。

さらに、本実施の形態では、対話装置１０は、音声データであるイベント対応情報を音声出力しながら音声データである予測対応情報を取得するので、所定イベント発生から予測対応情報の取得終了までの時間を短くできる、よって、所定イベント発生後にユーザから音声が入力される前に、予測対応情報の取得を確実に終わらせる可能性を上げることができる。そのため、よりスムーズな対話を行える。

〔実施の形態２〕
本発明の他の実施の形態の対話システムについて図７〜９を用いて説明する。なお説明の便宜上、実施の形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

本実施の形態の対話システム１００ａは、図７に示すように、対話装置１０ａとサーバ装置３０ａとを備えている。本実施の形態では、対話装置１０ａは、対話ロボットであるものとして以下の説明を行う。

本実施の形態では、対話装置１０ａは、サーバ装置３０ａからテキストデータであるイベント対応情報（図８では「発話テキスト」）及びテキストデータである予測対応情報（図８では「予測テキスト」）と、それらの再生指示と、を受信する構成である。そのため、対話装置１０ａでは、図７に示すように、制御部１３ａは、対応情報取得部（取得部）１７ａ、出力制御部１８に加え、音声合成部１９を備えている。説明の簡略のため、対話装置１０ａは、対話装置１０と比べて、センサ部１６、時刻計測部Ｔを備えていないが、備えていてもよい。

音声合成部１９は、音声合成部３６と同様の構成であり、音声データを生成するブロックである。対応情報取得部１７ａは、対話装置１０ａにて音声出力するためのテキストデータと、当該音声データの再生指示とをサーバ装置３０ａから受信するブロックである。対応情報取得部１７ａは、所定イベントが発生すると、当該所定イベントの発生をサーバ装置３０ａに通知し、当該所定イベントの発生に対する応答音声を出力するためのテキストデータであるイベント対応情報とこれの再生指示とをサーバ装置３０ａから受信する。さらに、対応情報取得部１７ａは、上記所定イベントの発生後にユーザから入力されると予測される予測文言に対する応答音声を出力するためのテキストデータである予測対応情報を、サーバ装置３０ａから受信する。また、対応情報取得部１７ａは、対話装置１０ａにて予測対応情報を音声出力する際に、予測対応情報の再生指示をサーバ装置３０ａから受信する。

対話装置１０ａの上記以外の構成は、対話装置１０と同様である。

一方、サーバ装置３０ａでは、図７に示すように、制御部３１ａは音声合成部を備えていない。対応情報提供部３５ａは、対話装置１０ａから所定イベントの通知を受けると、当該所定イベントに対するイベント対応情報を、シナリオ格納部３２１から検索して、再生指示と共に対話装置１０ａに送信する。さらに、対応情報提供部３５ａは、上記所定イベントの発生後にユーザから入力されると予測される予測文言に対する予測対応情報を、以下で説明するシナリオ格納部３２１から検索して、対話装置１０ａに送信する。また、対話装置１０ａにて予測対応情報を音声出力する際には、予測対応情報の再生指示を送信する。イベント対応情報及び予測対応情報は、テキストデータとしてシナリオ格納部３２１に格納されており、音声合成されることなく、対話装置１０に送信される。

サーバ装置３０ａのこれ以外の構成は、サーバ装置３０と同様である。

テキストデータの伝送は音声データに対して素早く行うことができる。本実施の形態では、対話装置１０ａにてテキストデータを音声に合成する必要があるが、対話装置１０ａでは、所定イベントが発生すると、テキストデータである予測対応情報をサーバ装置３０ａから取得し、ユーザから予測文言が入力される前に、予め応答音声に合成しておくことができる。よって、ユーザから予測文言が入力された場合に、すぐさま合成された応答音声を出力することができる。よって、スムーズな対話が可能となる。

（対話の流れ）
対話システム１００ａにおける対話の流れを、所定イベントがユーザからの音声入力である場合を例に、図８および９を参照して説明する。

図８に示すように、ユーザから音声「おはよう」が発せられ、音声データ「おはよう」が対話装置１０ａに入力されると、対話装置１０ａは、その音声データ「おはよう」をサーバ装置３０ａに送信する。ここでは、ユーザからの所定文言「おはよう」の音声入力が所定イベントであり、音声データ「おはよう」の送信が所定イベントの通知である。この時点で対話装置１０ａが音声合成して保存している音声データのＩＤを、図９の（ａ）に示す。この時点で対話装置１０ａが音声合成して保存している音声データはない。

サーバ装置３０ａは、音声データ「おはよう」を受信すると、音声認識処理を行い、図２の（ａ）に示すシナリオＳＶを参照に、音声認識結果である入力文言「おはよう」に対応する発話ＩＤと予測シナリオとを検索し、検索の結果、発話ＩＤ＝１０１と、予測シナリオとしてシナリオＶ６およびシナリオＶ８と、を取得する。そして、サーバ装置３０ａは、発話ＩＤ＝１０１の出力文言「おはよう」のテキストデータである発話テキスト（ＩＤ＝１０１、「おはよう」）と、これの再生指示（ＩＤ＝１０１）と、さらに、予測シナリオに対応する出力文言のテキストデータである予測テキスト（ＩＤ＝１０７、１０８、１１２、１１３、１１４）を、対話装置１０ａに送信する。

対話装置１０ａは、受信した発話テキスト（ＩＤ＝１０１、「おはよう」）を音声合成する。そして、音声合成した音声データ（ＩＤ＝１０１、「おはよう」）再生することで「おはよう」を音声出力する。さらに、対話装置１０ａは、受信した予測テキスト（ＩＤ＝１０７、１０８、１１２、１１３、１１４）を音声合成して保存する。本実施の形態では、対話装置１０ａは、「おはよう」を音声出力しながら音声データ（ＩＤ＝１０７、１０８、１１２、１１３、１１４）を合成する。この時点で対話装置１０ａが音声合成して保存している音声データのＩＤを、図９の（ｂ）に示す。

その後、ユーザから次の音声入力（所定イベントの発生（音声「おはよう」の入力）後の音声入力）として、音声「おなかすいた」が入力されると、対話装置１０ａは、音声データ「おなかすいた」をサーバ装置３０ａに送信する。ここでは、ユーザからの音声「おなかすいた」の入力が所定イベントであり、音声データ「おなかすいた」の送信が所定イベントの通知である。

サーバ装置３０ａは、音声データ「おなかすいた」を受信すると、音声認識処理を行い、図２の（ａ）に示すシナリオＳＶを参照し、音声認識結果である入力文言「おなかすいた」に対応する発話ＩＤ＝１０７と、予測シナリオとしてシナリオＶ７と、を取得する。そして、サーバ装置３０ａは、発話ＩＤ＝１０７の出力文言「おなかすいたね」のテキストデータである発話テキスト（ＩＤ＝１０７、「おなかすいたね」）と、これの再生指示（ＩＤ＝１０７）を送信する。そして、サーバ装置３０ａは、予測シナリオに対応する出力文言のテキストデータである予測テキスト（ＩＤ＝１０９、１１０、１１１）を、対話装置１０ａに送信する。

対話装置１０ａは、受信した再生指示（ＩＤ＝１０７）と図９（ｂ）に示される音声合成して保存されている音声データの状況から、既に合成済みで保存している音声データ（ＩＤ＝１０７、「おなかすいたね」）を再生することで「おなかすいたね」を音声出力する。このように、音声データ（ＩＤ＝１０７、「おなかすいたね」）は既に合成済みなので、ここでは音声合成をしない。つまり本来音声合成に必要な時間が短縮できるため、応答時間が短縮できる。さらに、対話装置１０ａは、受信した予測テキスト（ＩＤ＝１０９、１１０、１１１）を音声合成して保存する。本実施の形態では、対話装置１０ａは、「おなかすいたね」を音声出力しながら音声データ（ＩＤ＝１０９、１１０、１１１）を合成する。この時点で対話装置１０ａが音声合成して保存している音声データのＩＤを、図９の（ｃ）に示す。この後の対話は、上記と同様のことが繰り返されるので、説明を省略する。

〔実施の形態３〕
以下では、本発明の別の実施の形態の対話システムについて図１０を用いて説明する。なお説明の便宜上、実施の形態１または２にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

本実施の形態の対話システム１００ｂは、図１０に示すように、対話装置１０ｂとサーバ装置３０ｂとを備えている。対話装置１０ｂは、対話ロボットであるものとして以下の説明を行う。

対話システム１００ではサーバ装置３０が、あるいは、対話システム１００ａではサーバ装置３０ａが、予測シナリオが対応付けられたシナリオ情報を保持しており、予測文言を予測する構成であったが、対話システム１００ｂは、対話装置１０ｂにて予測文言を予測する構成である。

よって、対話装置１０ｂの制御部１３ｂは、制御部１３の構成に加え、予測部２０及び対応情報決定部２１の機能を有する。

予測部２０は、所定イベントが発生すると予測文言を予測するブロックである。そして、対応情報取得部（取得部）１７ｂは、予測部２０が予測した予測文言に対する応答音声を出力するための音声データである予測対応情報をサーバ装置３０ｂから取得する。つまり、対話装置１０ｂは、所定イベントの発生後に発話させられそうな音声データを、サーバ装置３０ｂに取りに行く構成である。

データ格納部１４ｂにはシナリオ格納部１４１が備えられている。シナリオ格納部１４１が格納するシナリオ情報は、シナリオ格納部３２１が格納するシナリオ情報と同じである。発話ＤＢについては、本実施の形態でもサーバ装置３０ｂのデータ格納部３２ｂに格納されている。

予測部２０は、対応情報提供部３５と同様に、シナリオ格納部１４１が格納するシナリオ情報を用いて予測文言を予測する。例えば、所定イベントとしてユーザから所定文言の音声入力があると、図２の（ａ）を参照に、所定文言を入力文言としてシナリオ番号を選択する。この場合、選択に用いる所定文言として、サーバ装置３０ｂの音声認識部３４による認識結果を受信したものを用いてもよいし、対話装置１０ｂに音声認識部が備えられており、この認識結果に基づくものであってもよい。選択したシナリオ番号に対応づけられた予測シナリオのシナリオ番号に対応づいた入力文言が予測文言である。よって、これを予測文言として決定（予測）する。他の所定イベント発生時も同様である。

対応情報取得部１７ｂは、音声データであるイベント対応情報をサーバ装置３０ｂから取得する。さらに、予測部２０が予測した予測文言に対する音声データである予測対応情報をサーバ装置３０ｂから取得する。

対応情報決定部２１は、所定イベントの発生に対するイベント対応情報の識別情報（発話ＩＤ）を決定するブロックである。具体的には、対応情報決定部２１は、所定イベントが発生すると、シナリオ格納部１４１のシナリオ情報を参照して、イベント対応情報の発話ＩＤを決定する。そして、この決定された発話ＩＤが指定する音声データであるイベント対応情報を、対応情報取得部１７ｂが取得する。

さらに、対応情報決定部２１は、所定イベントの発生後に入力されたユーザ音声への対応情報の識別情報（発話ＩＤ）を決定するブロックでもある。具体的には、対応情報決定部２１は、所定イベント発生後にユーザ音声の入力があると、シナリオ格納部１４１のシナリオ情報を参照して、上記ユーザ音声への対応情報の発話ＩＤを決定する。ここで、対話措置１０ｂが、決定した上記ユーザ音声への対応情報の発話ＩＤが指定する音声データを予測対応情報として予め受信している場合には、出力制御部１８ｂは、その発話ＩＤが指定する音声データである予測対応情報を音声出力部１２から音声出力する。他方、予め受信していない場合には、所定イベント発生後のユーザ音声の入力を新たな所定イベントとして、この新たな所定イベントに対するイベント対応情報と予測対応情報とを対応情報取得部１７ｂがサーバ装置３０ｂから取得する。

一方の、サーバ装置３０ｂの対応情報提供部３５ｂは、予測部２０が予測した予測文言に対する予測対応情報の音声データを合成して、対話装置１０ｂに送信する。また、イベント対応情報の音声データも、対話装置１０ｂに送信する。

上記の様に、本実施の形態では、音声データであるイベント対応情報及び予測対応情報を対話装置１０ｂからサーバ装置３０ｂに取りに行く形態であるため、サーバ装置３０ｂは再生指示を送信しない。よって、対話装置１０ｂの出力制御部１８ｂは、対応情報取得部１７ｂがイベント対応情報を受信するとそれを音声出力部１２から音声出力する。また、上記の様に、出力制御部１８ｂは、対話装置１０ｂが予測対応情報を受信している場合には、対応情報決定部２１にて決定された発話ＩＤに対する予測対応情報を音声出力部１２から音声出力する。

本実施の形態では、上記の様に、対話装置１０ｂに備えられた予測部２０にて予測文言の予測を行うため、所定イベントが発生すると直ちに予測を行うことができる。また、対話装置１０ｂが図２（ｄ）に示す発話ＤＢと音声合成部とを備えていると、通信ネットワークがダウンしており、サーバ装置３０ｂとの通信が行えない場合でも、対話装置１０ｂにて予測を行い発話することができる。

〔実施の形態４〕
上記実施の形態１〜３では、対話装置１０，１０ａ，１０ｂが対話ロボットとして単体で存在する形態について説明したが、対話装置１０，１０ａ，１０ｂの構成および機能は他の装置に組み込まれてもよい。

そこで、本実施の形態では、実施の形態１の対話装置１０の構成及び機能を備えた家電について説明する。対話装置１０の構成及び機能は、家電の内部に備えられていても、あるいは外部に（例えば、アダプタとして）備えられていてもよい。よって、本実施の形態の家電は、ユーザと対話が可能である。このような家電としては、例えば、冷蔵庫、空気調和機（エアコン）、空気清浄器、洗濯機、調理器具、照明装置、給湯機器、撮影機器、各種ＡＶ（Audio-Visual）機器、各種家庭用ロボット（例えば、掃除ロボット、家事支援ロボット、動物型ロボット等）等が挙げられるが、これらには限定されない。

本実施の形態の家電が例えば冷蔵庫である場合、所定イベントは、例えば、ドアが開けられるという事象であってもよい。また、本実施の形態の家電が例えば空気調和機である場合、所定イベントは、例えば、室温が所定値（設定値）を超えたという事象、人感センサが人を検知したという事象であってもよい。なお、ここに記載の所定イベントは例示であり、これらに限定されるものではない。

本実施の形態の家電に音声データを提供するサーバ装置は、実施の形態１のサーバ装置３０と同様の構成であるため、説明は省略する。また、本実施の形態の家電を管理する管理サーバ装置が、サーバ装置３０の構成及び機能を備えた構成であってもよい。本実施の形態の家電とサーバ装置との通信は、家電に通信アダプタを装着することで行う構成であってもよい。

本実施の形態では、対話装置１０を家電に適用したものを説明したが、家電以外の装置に適用してもよい。また、対話装置１０ａ，１０ｂも同様に家電や他の装置に適用することができる。

〔実施の形態５〕
実施の形態１〜３にて説明した対話装置１０，１０ａ，１０ｂ及びサーバ装置３０，３０ａ，３０ｂは、それぞれ、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、対話装置１０，１０ａ，１０ｂ及びサーバ装置３０，３０ａ，３０ｂは、それぞれ、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラム及び各種データがコンピュータ（又はＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）又は記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）等を備えている。そして、コンピュータ（又はＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

〔まとめ〕
本発明の態様１に係る対話装置（１０）は、音声を出力してユーザと対話する装置において、所定イベントが発生すると、当該所定イベントの発生後にユーザから音声入力されると予測される予測文言に対する発話情報である予測対応情報を、サーバ装置から取得する取得部（対応情報取得部１７）と、ユーザによる前記予測文言の音声入力に対し、前記予測対応情報を音声出力する音声制御部（出力制御部１８）と、を備えている。

上記構成によると、所定イベントが発生すると、当該イベント発生後にユーザから入力されると予測される予測文言に対する発話情報である予測対応情報を、取得する。このように、予め予測対応情報をサーバ装置から取得しておき、所定イベント発生後にユーザから入力される音声に備えることで、ユーザから予測文言が音声入力された場合（予測が的中した場合）に、すぐさま予測対応情報に応じた音声を出力することができる。よって、入力音声毎に発話情報をサーバ装置から取得する対話装置よりも、すばやい応答（音声出力）が可能である。

そのため、上記構成によると、ユーザにストレスを与えず、自然な流れで対話することが可能となり、ユーザにより快適な対話環境を提供できる。また、対話装置とサーバ装置とを繋ぐ通信ネットワークの通信速度の向上や、対話装置の音声合成の処理能力の向上を図ることなく、つまり、コストを上げることなく、自然な流れの対話を行うことができる。

本発明の態様２に係る対話装置では、上記態様１に係る対話装置において、前記サーバ装置は、発生した前記所定イベントに応じた前記予測文言を予測する機能を備えるものであり、前記取得部は、前記所定イベントが発生すると、前記サーバ装置に当該所定イベントの発生を通知し、前記サーバ装置にて予測された前記予測文言に対す前記予測対応情報を前記サーバ装置から取得する。

上記構成によると、対話装置は、サーバ装置にて予測された予測文言に対する予測対応情報を取得する、つまり、予測文言の予測はサーバ装置で行われる。よって、対話装置の処理能力を上げることなく、快適な対話を行うことが可能な対話装置を提供することができる。

本発明の態様３に係る対話装置は、上記態様１に係る対話装置において、前記所定イベントが発生すると、当該所定イベントに応じた前記予測文言を予測する予測部を備え、前記取得部は、前記予測部が予測した予測文言に対する前記予測対応情報を前記サーバ装置から取得する。

上記構成によると、対話装置に備えられた予測部にて予測文言の予測を行うため、所定イベントが発生すると直ちに予測を行うことができる。また、対応装置が予測対応情報のデータベースを保持していると、サーバ装置との通信が行えない場合でも、予測を行い発話することができる。

本発明の態様４に係る対話装置は、上記態様１から３のいずれか１つに係る対話装置において、前記予測対応情報は、前記サーバ装置にて音声に合成された音声データである。

合成された音声データはデータ量が多いため、特に、通信ネットワークの帯域が狭いもしくは不安定であると、伝送に多くの時間がかかる。特に長いフレーズの音声データを受信する場合にはそれが顕著となる。しかしながら、本発明に係る対話装置では、所定イベントが発生すると、音声データである予測対応情報をサーバ装置から取得し、所定イベント発生後にユーザから音声が入力される前に準備しておくことができる。よって、ユーザから予測文言が入力された場合に、すぐさま音声合成された予測対応情報を出力することができる。よって、すばやい応答が可能となる。

本発明の態様５に係る対話装置は、上記態様１から３のいずれか１つに係る対話装置において、前記予測対応情報はテキストデータであり、前記テキストデータから音声を合成する音声合成部を備え、前記音声合成部は、ユーザによる前記予測文言の音声入力前に、前記予測対応情報から音声を合成する。

テキストデータの伝送は音声データに対して素早く行えるが、対話装置にてテキストデータを音声に合成する必要があり、通常サーバ装置よりも処理能力が低いため処理に時間がかかる。しかしながら、本発明に係る対話装置では、所定イベントが発生すると、テキストデータの予測対応情報をサーバ装置から取得し、予め応答音声に合成しておくことができる。よって、ユーザから予測文言が入力された場合に、すぐさま合成された応答音声を出力することができる。よって、対話をスムーズに行うことが可能となる。

本発明の態様６に係る対話装置では、上記態様１から５のいずれか１つに係る対話装置において、前記取得部は、さらに、所定イベントが発生すると、当該所定イベントの発生に対する発話情報であるイベント対応情報をサーバ装置から取得し、前記音声制御部は、さらに、前記所定イベントの発生に対し、前記イベント対応情報を音声出力する。

上記構成によると、所定イベントが発生すると、これに対して、発話情報であるイベント対応情報を音声出力することができる。

ここで、対話装置がイベント対応情報を音声出力しながら予測対応情報を取得すると、所定イベント発生から予測対応情報取得終了までの時間を短くできる。よって、所定イベント発生後にユーザから音声が入力される前に、予測対応情報の取得を確実に終わらせる可能性を上げることができる。そのため、よりスムーズな対話を行える。

本発明の態様７に係る対話装置では、上記態様１から６のいずれか１つに係る対話装置において、前記所定イベントは、ユーザからの音声入力、所定時刻の計測、または、自装置が備えたセンサによる所定値の検知、である。

上記構成によると、ユーザからの音声入力がされると、所定時刻を計測すると、または、対話装置が備えたセンサによって所定値が検知されると、取得部は、イベント対応情報に続けて予測対応情報を、取得する。ユーザからの音声入力、所定時刻の計測、または、自装置が備えたセンサによる所定値の検知は、頻繁にあるいは日常的に発生する可能性のあるイベントであるため、その後の予測文言が予測されやすい、あるいは、予測対応情報を豊富に用意しておくことが可能である。そのため、予測が当たり易く、より対話をスムーズに行うことができる。

本発明の態様８に係る対話システムは、上記態様１から７のいずれか１つに係る対話装置と、当該対話装置に、前記予測対応情報を提供するサーバ装置とを備えている。

上記システムによると、ユーザにストレスを与えることなく快適な対話環境を提供する対話システムを構築することができる。

また、本発明の態様９に係る対話装置の制御方法は、音声を出力してユーザと対話する対話装置の制御方法において、所定イベントが発生すると、当該所定イベントの発生後にユーザから音声入力されると予測される予測文言に対する発話情報である予測対応情報を、サーバ装置から取得する取得ステップと、ユーザによる前記予測文言の音声入力に対し、前記予測対応情報を音声出力する音声制御ステップと、を含む。

上記制御方法によると、ユーザにストレスを与えず、自然な流れで対話することが可能に対話装置を制御でき、ユーザにより快適な対話環境を提供できる。

さらに、上記態様１から７のいずれか１つに係る対話装置に、前記予測対応情報を提供するサーバ装置もまた本発明の範疇に入る。当該サーバ装置は、本発明に係る対話装置に予測対応情報を提供することができ、対話装置とサーバ装置とを備えた対話システムを構築することができる。

また、本発明の各態様に係る対話装置、サーバ装置または対話システムは、コンピュータによって実現してもよく、この場合には、コンピュータを対話装置、サーバ装置または対話システムが備える各部として動作させることにより、対話装置、サーバ装置または対話システムをコンピュータにて実現させるプログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も本発明の範疇に入る。

本発明は、サーバ装置と接続し、ユーザと対話する対話装置等に利用可能である。

１０，１０ａ，１０ｂ対話装置
１１音声入力部
１２音声出力部
１３，１３ａ，１３ｂ制御部
１４，１４ｂデータ格納部
１５通信部
１６センサ部
１７，１７ａ，１７ｂ対応情報取得部（取得部）
１８，１８ｂ出力制御部（音声制御部）
１９音声合成部
２０予測部
２１対応情報決定部
３０，３０ａ，３０ｂサーバ装置
３１，３１ａ，３１ｂ制御部
３２，３２ｂデータ格納部
３４音声認識部
３５，３５ａ，３５ｂ対応情報生成部
３６音声合成部
１００，１００ａ，１００ｂ対話システム
１４１，３２１シナリオ格納部
Ｔ時刻計測部

Claims

音声を出力してユーザと対話する対話装置において、
所定イベントが発生すると、当該所定イベントの発生後にユーザから音声入力されると予測される予測文言に対する発話情報である予測対応情報を、サーバ装置から取得する取得部と、
ユーザによる前記予測文言の音声入力に対し、前記予測対応情報を音声出力する音声制御部と、を備えたことを特徴とする対話装置。
前記サーバ装置は、発生した前記所定イベントに応じた前記予測文言を予測する機能を備えるものであり、
前記取得部は、前記所定イベントが発生すると、前記サーバ装置に当該所定イベントの発生を通知し、前記サーバ装置にて予測された前記予測文言に対する前記予測対応情報を前記サーバ装置から取得することを特徴とする請求項１に記載の対話装置。
前記所定イベントが発生すると、当該所定イベントに応じた前記予測文言を予測する予測部を備え、
前記取得部は、前記予測部が予測した予測文言に対する前記予測対応情報を前記サーバ装置から取得することを特徴とする請求項１に記載の対話装置。
前記予測対応情報は、前記サーバ装置にて音声に合成された音声データであることを特徴とする請求項１から３のいずれか１項に記載の対話装置。
前記予測対応情報はテキストデータであり、
前記テキストデータから音声を合成する音声合成部を備え、
前記音声合成部は、ユーザによる前記予測文言の音声入力前に、前記予測対応情報から音声を合成することを特徴とする請求項１から３のいずれか１項に記載の対話装置。
前記取得部は、さらに、所定イベントが発生すると、当該所定イベントの発生に対する発話情報であるイベント対応情報をサーバ装置から取得し、
前記音声制御部は、さらに、前記所定イベントの発生に対し、前記イベント対応情報を音声出力することを特徴とする請求項１から５のいずれか１項に記載の対話装置。
前記所定イベントは、ユーザからの音声入力、所定時刻の計測、または、自装置が備えたセンサによる所定値の検知、であることを特徴とする請求項１から６のいずれか１項に記載の対話装置。
請求項１から７のいずれか１項に記載の対話装置と、当該対話装置に、前記予測対応情報を提供するサーバ装置とを備えたことを特徴とする対話システム。
音声を出力してユーザと対話する対話装置の制御方法において、
所定イベントが発生すると、当該所定イベントの発生後にユーザから音声入力されると予測される予測文言に対する発話情報である予測対応情報を、サーバ装置から取得する取得ステップと、
ユーザによる前記予測文言の音声入力に対し、前記予測対応情報を音声出力する音声制御ステップと、を含むことを特徴とする制御方法。