JP2014098844A

JP2014098844A - 対話支援装置、対話システム、対話支援方法及びプログラム

Info

Publication number: JP2014098844A
Application number: JP2012251337A
Authority: JP
Inventors: Toshiharu Kurisu; 俊治栗栖; Yuki Tsuge; 結旗柘植; Naoki Hashida; 直樹橋田; Kyoko Masuda; 恭子増田
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-11-15
Filing date: 2012-11-15
Publication date: 2014-05-29
Anticipated expiration: 2032-11-15
Also published as: JP6166889B2

Abstract

【課題】ユーザの意図に応じて応答の方法を変えられるようにする。
【解決手段】対話支援装置は、ユーザの音声入力による発話の意図を解釈し（Ｓ６１）、これが情報の検索であるか否かを判断する（Ｓ６２）。この判断は、文章中に所定の文字列が含まれるか否かなどによって行われる。対話支援装置は、ユーザの発話の意図が情報の検索である場合には、外部のサーチエンジンなどを利用して情報を検索し（Ｓ６３）、検索結果を受信する（Ｓ６４）。一方、対話支援装置は、ユーザの発話の意図が情報の検索でない場合には、あらかじめ決められた雑談データの中から発話に応じたものを抽出する（Ｓ６５）。
【選択図】図７

Description

本発明は、いわゆる音声エージェントサービスに関する。

ユーザが音声により質問等を入力することによって情報を検索し、検索結果を文字や画像によって出力する技術が知られている（例えば、特許文献１参照）。また、スマートフォン等の携帯端末においては、音声によって情報を検索したり、当該端末を操作したりするとともに、当該端末が音声によって応答することができる音声対話機能も実用化されている。このような音声対話機能により、ユーザは、あたかも人間に話しかけるように携帯端末を操作することが可能である。

特開２００６−２０９０２２号公報

ところで、現実の人間との対話においては、情報の検索や携帯端末の操作のように一定の応答が期待される場合もあれば、そうでない場合もある。例えば、ユーザは、雑談のような何気ない会話においては、必ずしも一定の応答を期待しているわけではない。また、雑談に対して決まった応答しかなされなければ、その応答はまさに機械的なものとなり、人間味が感じられないともいえる。したがって、特許文献１に記載された技術のように、既存のデータベースから回答を検索しただけでは、情報の検索に対する適切な回答は得られたとしても、雑談などに対する適切な応答とはなり得ない。
そこで、本発明は、ユーザの意図に応じて応答の方法を変えられる技術を提供することを目的とする。

本発明は、ユーザが発話した音声に基づいて生成される入力情報を取得する取得部と、前記取得部により取得された入力情報に基づき、前記ユーザの発話の意図を解釈する解釈部と、前記解釈部により解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈部により解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力する出力部とを備える対話支援装置を提供する。

また、前記出力部は、前記解釈部により解釈された意図が情報の検索である場合とそうでない場合とで、参照する情報源を異ならせる構成であってもよい。
また、前記出力部は、所定の文字列が含まれているか否かによって、前記解釈部により解釈された意図が情報の検索であるか否かを判断する構成であってもよい。
また、前記出力部は、前記複数の応答情報のうち、前記ユーザにより選択されたキャラクタに応じた応答情報を出力する構成であってもよい。
また、前記出力部は、前記応答情報と、当該応答情報に付加される付加情報であって前記ユーザにより選択されたキャラクタに応じた付加情報とを出力する構成であってもよい。
また、前記出力部は、発話しているユーザ、当該ユーザの位置又は発話日時が所定の条件を満たす場合に、あらかじめ用意された複数の応答情報のいずれかを選択的に出力する構成であってもよい。

また、本発明は、前記対話支援装置と、前記ユーザの音声を収音し、前記出力部により出力された応答情報に応じた応答を少なくとも音声により再生するユーザ端末とを備える対話システムを提供する。

また、本発明は、ユーザが発話した音声に基づいて生成される入力情報を取得するステップと、前記取得された入力情報に基づき、前記ユーザの発話の意図を解釈するステップと、前記解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力するステップとを有する対話支援方法を提供する。

また、本発明は、コンピュータに、ユーザが発話した音声に基づいて生成される入力情報を取得するステップと、前記取得された入力情報に基づき、前記ユーザの発話の意図を解釈するステップと、前記解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力するステップとを実行させるためのプログラムを提供する。

本発明によれば、ユーザの意図に応じて応答の方法を変えることが可能である。

対話システムの全体構成を示すブロック図ユーザ端末のハードウェア構成を示すブロック図音声認識サーバ、意図解釈サーバ及び雑談管理サーバのハードウェア構成を示すブロック図意図解釈サーバの機能的構成を示すブロック図雑談データのデータ構造を例示する図音声入力に対する応答が得られるまでの動作を示すシーケンスチャート意図解釈処理を示すフローチャートユーザ端末における出力結果を例示する図ユーザ端末における出力結果を例示する図応答情報と付加情報を例示する図

［実施例］
図１は、本発明の一実施例である対話システム１０の全体構成を示すブロック図である。対話システム１０は、いわゆる音声エージェントサービスを提供するためのシステムであり、ユーザ端末１００、音声認識サーバ２００Ａ、意図解釈サーバ２００Ｂ、雑談管理サーバ２００Ｃ及び音声合成サーバ２００Ｄを備え、これらをネットワーク３００によって相互に接続した構成を有する。なお、ユーザ端末１０００は、ここでは図示を省略しているが、このサービスを利用するユーザの数だけ実際には存在する。また、ネットワーク３００は、移動通信網やインターネットを組み合わせた複合的なネットワークである。

ここにおいて、音声エージェントサービスとは、ユーザ端末１００におけるユーザの各種の操作を音声によって仲介するサービスをいう。このサービスによれば、ユーザは、情報を検索したりする場合に、ユーザ端末１００に文字を手で入力したりすることなく、ユーザ端末１００に自然文で話しかけるだけで所望の結果を得ることが可能である。

また、本実施例の音声エージェントサービスは、キャラクタを介してサービスを提供する点に第１の特徴を有する。ここでいうキャラクタは、漫画の登場人物、著名人、動物などを模したものであり、例えば、３次元ＣＧ（Computer Graphics）などによってアニメーション表示される。このキャラクタは、コンテンツプロバイダによってさまざまなものが提供されており、各ユーザが所望のキャラクタを有償又は無償で選択して使用することが可能である。これらのキャラクタは、キャラクタ毎に音声（声色）や口調が異なっている。本実施例のサービスにおいては、ユーザが自分の好みのキャラクタを使用し、これに（あたかも現実の人間と対話するように）話しかけることによって、特定のキャラクタに愛着を抱き、本サービスの利用の促進が図られることが期待される。

さらに、本実施例の音声エージェントサービスは、ユーザが情報の検索以外の対話を行える点に第２の特徴を有する。ここにおいて、情報の検索以外の対話とは、いわゆる雑談や世間話のようなものをいう。すなわち、ここでいう対話は、いわゆるウェブ検索のようにユーザが特定の結果を求めるものではなく、現実の人間とのコミュニケーションにおいて会話や暇つぶしとして行われるものなどである。

ユーザ端末１００は、ユーザが本サービスを利用するために用いる通信端末である。ユーザ端末１００は、ここではスマートフォンであるとする。音声認識サーバ２００Ａは、ユーザが発話した音声に基づいて生成される音声データをテキストデータに変換するためのサーバ装置である。意図解釈サーバ２００Ｂは、テキストデータに基づいてユーザの意図を解釈し、その意図に応じた応答情報をユーザ端末１００に送信するサーバ装置である。雑談管理サーバ２００Ｃは、キャラクタ毎の雑談データを管理するサーバ装置であり、雑談データを所定のタイミングで意図解釈サーバ２００Ｂに送信する。音声合成サーバ２００Ｄは、キャラクタ毎の音声データ（以下「合成音声データ」という。）を記憶するサーバ装置であり、これを必要に応じてユーザ端末１００に送信する。合成音声データは、コンテンツプロバイダによって提供されるデータであり、後述するキャラクタＩＤと応答文章とに各々が対応付けられている。

図２は、ユーザ端末１００のハードウェア構成を示すブロック図である。ユーザ端末１００は、制御部１１０と、記憶部１２０と、通信部１３０と、表示部１４０と、音声入力部１５０と、音声出力部１６０とを少なくとも備える。また、ユーザ端末１００は、テンキーなどのキーパッドやバイブレータを備えていてもよい。

制御部１１０は、ユーザ端末１００の各部の動作を制御する手段である。制御部１１０は、ＣＰＵ（Central Processing Unit）などの演算処理装置やメモリを備え、所定のプログラムを実行することによって制御を行う。
記憶部１２０は、データを記憶する手段である。記憶部１２０は、フラッシュメモリなどの記録媒体を備え、制御部１１０が制御に用いるデータを記憶している。

通信部１３０は、ネットワーク３００を介してデータを送受信する手段である。通信部３００は、アンテナや、ネットワーク３００の通信方式に対応したモデムなどを備え、データの変調・復調といったデータ通信に必要な処理を実行する。
表示部１４０は、画像を表示する手段である。表示部１４０は、液晶素子や有機ＥＬ（electroluminescence）素子により構成された表示パネル（すなわち表示領域）とこれを駆動する駆動回路とを備え、画像データに応じた画像を表示する。

音声入力部１５０は、音声を入力する手段である。音声入力部１５０は、マイクロホン又はこれを接続する入力端子を備え、音声データを制御部１１０に供給する。一方、音声出力部１６０は、音声を出力する手段である。音声出力部１６０は、スピーカ又はこれを接続する出力端子を備え、制御部１１０から供給された音声情報に応じた音声を出力する。なお、音声入力部１５０及び音声出力部１６０は、ヘッドセットなどを無線接続する構成であってもよい。

図３は、音声認識サーバ２００Ａ、意図解釈サーバ２００Ｂ、雑談管理サーバ２００Ｃ及び音声合成サーバ２００Ｄのハードウェア構成を示すブロック図である。これらのサーバ装置は、記憶するデータや実行する処理に相違はあるものの、主要なハードウェア構成は共通している。そのため、ここでは、音声認識サーバ２００Ａ、意図解釈サーバ２００Ｂ、雑談管理サーバ２００Ｃ及び音声合成サーバ２００Ｄを総称して「サーバ装置２００」と表記し、これらのサーバ装置に共通する主要なハードウェア構成を説明する。

サーバ装置２００は、制御部２１０と、記憶部２２０と、通信部２３０とを備える。制御部２１０は、サーバ装置２００の各部の動作を制御する手段である。制御部２１０は、演算処理装置やメモリを備え、所定のプログラムを実行することによって制御を行う。記憶部２２０は、データを記憶する手段であり、ハードディスクなどの記録媒体を備える。通信部１３０は、ネットワーク３００を介してデータを送受信する手段である。

図４は、意図解釈サーバ２００Ｂの機能的構成を示すブロック図である。意図解釈サーバ２００Ｂの制御部２１０は、所定のプログラムを実行することにより、取得部２１１、解釈部２１２及び出力部２１３の各部に相当する機能を実現する。制御部２１０が実現するこれらの機能は、本発明に係る対話支援装置に相当する機能である。

取得部２１１は、入力情報を取得する手段である。ここにおいて、入力情報とは、ユーザが音声によって入力した情報の総称である。入力情報には、ユーザ端末１００において生成される音声データと、これを変換して得られるテキストデータとが含まれる。本実施例において、取得部２１１は、音声認識サーバ２００Ａによって音声データからテキストデータに変換された状態で入力情報を取得する。

解釈部２１２は、取得部２１１により取得された入力情報に基づき、ユーザの発話の意図を解釈する手段である。解釈部２１２は、テキストデータに対して形態素解析などを実行して当該テキストデータに含まれる単語を特定し、さらにその構文などを解析することによってユーザによる発話の意図を解釈する。本実施例において、解釈部２１２は、ユーザの意図が「情報の検索」と「雑談」のいずれであるかを判断する。この判断は、雑談データを用いて行われる。

出力部２１３は、解釈部２１２による解釈結果に応じた応答情報を出力する手段である。出力部２１３は、解釈部２１２により解釈されたユーザの意図が情報の検索である場合と雑談である場合とに応じた応答情報を出力する。出力部２１３は、解釈部２１２により解釈されたユーザの意図が情報の検索である場合、外部のサーチエンジンやデータベースを用いて検索を実行して検索結果を受信し、この検索結果に応じた応答情報を出力する。一方、解釈部２１２により解釈されたユーザの意図が雑談である場合、出力部２１３は、記憶部２２０に記憶された複数の雑談データの中から適当なものを選択的に抽出し、これに応じた応答情報を出力する。すなわち、出力部２１３は、解釈部２１２により解釈されたユーザの意図に応じて、参照する情報源を異ならせている。

図５は、雑談データのデータ構造を例示する図である。本実施例の雑談データは、「登録文字列」、「時間」、「禁止用語フラグ」、「キャラクタＩＤ」、「応答文章」、「アクションＩＤ」などの項目を含んで構成される。コンテンツプロバイダは、これらの項目のうち、「禁止用語フラグ」、「キャラクタＩＤ」、「応答文章」及び「アクションＩＤ」を登録することができる。その他の項目は、本サービスのサービス事業者（例えば通信事業者）によってあらかじめ決められている。

「登録文字列」は、ユーザの発話の意図が雑談であるか否かを判断するための文字列である。意図解釈サーバ２００Ｂは、テキストデータに登録文字列が含まれている場合に、ユーザの発話の意図が雑談であると判断することができる。登録文字列は、例えば、「おはよう」、「こんにちは」などといった挨拶である。

「時間」は、ユーザが発話した時間を示すデータである。この項目は、例えば、「朝」、「昼」、「夜」といった時間帯を記述することにより、ユーザが発話した時間帯に応じて雑談の応答を変えられるように設けられている。このようにすれば、例えば、ユーザが朝に「おはよう」と発話した場合と昼に「おはよう」と発話した場合とで、応答の具体的内容を異ならせることが可能である。

「禁止用語フラグ」は、禁止用語を含むテキストデータに対する応答を一律に指定するためのデータである。この項目を用いる場合には、ユーザの発話の意図の判断とは別に、テキストデータに禁止用語が含まれるか否かが判断される。意図解釈サーバ２００Ｂは、テキストデータに禁止用語が含まれる場合、禁止用語フラグが「１」である雑談データを抽出する。なお、ここにおいて、禁止用語とは、例えば、卑わいな表現や暴力的な表現であるが、コンテンツプロバイダ又はサービス事業者が任意に設定することが可能である。また、ユーザの年齢を識別することが可能であれば、禁止用語は年齢に応じて異なっていてもよい。

「キャラクタＩＤ」は、ユーザがユーザ端末１００において使用しているキャラクタを識別するためのＩＤである。「応答文章」は、当該キャラクタによる応答を表すテキストデータである。また、「アクションＩＤ」は、当該キャラクタの応答時の動作（身体の動き、顔の表情など）を識別するためのＩＤである。各キャラクタには、それぞれのアクションＩＤに応じたアニメーション表示をするためのアニメーションデータがコンテンツプロバイダによってあらかじめ用意されている。

雑談管理サーバ２００Ｃは、コンテンツプロバイダからこのような雑談データの登録を受け付ける。雑談管理サーバ２００Ｃは、所定のタイミング（１時間毎、１日１回など）で雑談データを意図解釈サーバ２００Ｂに送信する。意図解釈サーバ２００Ｂは、雑談管理サーバ２００Ｃから新たな雑談データを受信すると、自装置に記憶された雑談データを更新する。

対話システム１０の構成は、以上のとおりである。この構成のもと、ユーザ端末１００は、待ち受け画面などにキャラクタを表示するとともに、音声によるユーザの入力を待機する。ユーザは、キャラクタが表示されたユーザ端末１００に対して、当該キャラクタに話しかけるように発話し、音声を入力する。ユーザによって音声が入力されると、ユーザ端末１００、音声認識サーバ２００Ａ及び意図解釈サーバ２００Ｂは、協働して以下の処理を実行する。

図６は、ユーザの音声入力に対する応答が得られるまでの動作を示すシーケンスチャートである。この動作は、ユーザがユーザ端末１００に対して音声を入力することによって開始される。ユーザ端末１００は、ユーザの音声を収音して音声データを生成し（ステップＳ１）、これを音声認識サーバ２００Ａに送信する（ステップＳ２）。音声認識サーバ２００Ａは、音声データを受信し、音声認識を実行することにより音声データをテキストデータ（文字コードで記述可能なデータ）に変換する（ステップＳ３）。音声認識サーバ２００Ａは、テキストデータをユーザ端末１００に返送（送信）する（ステップＳ４）。

ユーザ端末１００は、テキストデータを受信したら、これを意図解釈サーバ２００Ｂに転送（送信）する（ステップＳ５）。このとき、ユーザ端末１００は、表示部１４０に表示されているキャラクタ、すなわち、ユーザにより選択されたキャラクタのキャラクタＩＤをあわせて送信する。意図解釈サーバ２００Ｂは、テキストデータを入力情報として受信し、ユーザが発話した音声の意図を解釈することにより、必要な応答情報を得る処理を実行する（ステップＳ６）。この処理のことを、以下においては「意図解釈処理」という。

意図解釈サーバ２００Ｂは、意図解釈処理を実行することにより、応答情報を得ることができる。意図解釈サーバ２００Ｂは、意図解釈処理により得られた応答情報をユーザ端末１００に送信する（ステップＳ７）。なお、応答情報は、応答文章及びアクションＩＤを少なくとも含む。

ユーザ端末１００は、応答情報を受信すると、応答情報に含まれる応答文章を音声合成サーバ２００Ｄに送信する（ステップＳ８）。このとき、ユーザ端末１００は、ステップＳ５において送信したキャラクタＩＤと同一のキャラクタＩＤをあわせて送信する。音声合成サーバ２００Ｄは、受信したキャラクタＩＤと応答文章とに基づき、合成音声データを一意的に特定することができる。音声合成サーバ２００Ｄは、特定した合成音声データをユーザ端末１００に送信する（ステップＳ９）。そして、ユーザ端末１００は、応答情報に応じた音声及び画像を再生することにより、ユーザの音声入力に対して応答する（ステップＳ１０）。

図７は、ステップＳ６の意図解釈処理をより詳細に示すフローチャートである。意図解釈サーバ２００Ｂ（の制御部２１０）は、まず、テキストデータを形態素解析などにより解析し、ユーザの発話の意図を解釈する（ステップＳ６１）。なお、ステップＳ６１の処理には、言語解析に関する周知技術を適宜用いればよい。また、意図解釈サーバ２００Ｂは、この処理の一部又は全部を自装置で実行せず、言語解析用の専用の装置に実行させてもよい。要するに、意図解釈サーバ２００Ｂは、テキストデータの解釈結果を取得できればそれでよく、その具体的な方法は問われない。

次に、意図解釈サーバ２００Ｂは、テキストデータが示すユーザの意図が情報の検索であるか否かを判断する（ステップＳ６２）。ここにおいて、意図解釈サーバ２００Ｂは、自装置に記憶された雑談データを参照し、テキストデータに登録文字列が含まれているか否かを判断することにより、ユーザの意図が雑談であるか否かを判断することができる。また、意図解釈サーバ２００Ｂは、登録文字列以外（構文など）も組み合わせて用いて雑談か否かを判断してもよい。例えば、意図解釈サーバ２００Ｂは、「教えて」や「調べて」といった、要求や依頼を意味する所定の文字列がテキストデータに含まれていた場合に、ユーザの意図が情報の検索であると判断してもよい。つまり、テキストデータに登録文字列が含まれているか否かの判断は、ステップＳ６２の処理の１つの具体例にすぎない。

意図解釈サーバ２００Ｂは、ステップＳ６２の判断結果に応じてその後の処理を異ならせる。まず、テキストデータが示すユーザの意図が情報の検索である場合、意図解釈サーバ２００Ｂは、テキストデータに含まれる文字列を用いて検索を実行し（ステップＳ６３）、その検索結果を受信する（ステップＳ６４）。このとき、意図解釈サーバ２００Ｂは、いわゆるサーチエンジンのように不特定多数のウェブページの中から検索結果を求めてもよいし、特定の分野の情報に特化したデータベースを用いて検索結果を求めてもよい。例えば、ユーザが「東京のイタリアンレストランを教えて」という文言を発した場合であれば、意図解釈サーバ２００Ｂは、「東京」及び「イタリアン」という検索語によってウェブ検索を実行してもよいし、場所として「東京」、ジャンルとして「イタリアン」といった検索条件を設定し、全国各地の飲食店の情報を提供するサービス事業者のデータベースにアクセスしてもよい。

一方、テキストデータが示すユーザの意図が情報の検索でなく、雑談である場合、意図解釈サーバ２００Ｂは、雑談データを参照し、ユーザ端末１００から送信されたテキストデータ及びキャラクタＩＤに応じた雑談データ（特に、「応答文章」及び「アクションＩＤ」）を抽出する（ステップＳ６５）。

これらの処理が終了したら、意図解釈サーバ２００Ｂは、応答情報を生成する（ステップＳ６６）。ステップＳ６６において、意図解釈サーバ２００Ｂは、雑談データや検索結果に基づき、ユーザ端末１００において音声及び画像を再生するためのデータを応答情報として生成する。このとき、意図解釈サーバ２００Ｂは、雑談データや検索結果に加工を施してもよい。

図８及び図９は、ユーザ端末１００における出力結果を例示する図である。図８は、ユーザが「東京のイタリアンレストランを教えて」という文言を質問（要求）として発話した場合を示す。一方、図９は、ユーザが「元気ですか？」という文言を雑談として発話した場合を示す。意図解釈サーバ２００Ｂは、ユーザの意図が情報の検索である場合、検索を実行した旨とそのときの検索条件（検索語）とを音声により通知するとともに、検索結果に相当する情報を表示する応答情報を生成する。一方、ユーザの意図が雑談である場合、意図解釈サーバ２００Ｂは、「元気」という検索語によってウェブ検索を実行したりするのではなく、「元気」という登録文字列に対応する音声及び画像を再生するための応答情報を生成する。

このように、本実施例の対話システム１０によれば、意図解釈サーバ２００Ｂによって解釈された発話の意図に応じてその応答方法を変えることができるようになる。これにより、ユーザは、音声入力を情報の検索以外の用途にも利用することが可能になり、かつ、その応答を不自然にすることなく、あたかも現実の人間と対話をしているようにすることができる。

また、本実施例によれば、ユーザは、情報を検索するときには、自身が選択したキャラクタによらず一定の応答を得られるのに対して、雑談を行ったときにはキャラクタ毎に異なる応答を得ることができる。このようにすることで、キャラクタの選択に面白みを与え、ユーザの興味を喚起することが可能であり、ユーザが本サービスを利用する動機付けとなることが期待できる。また、キャラクタ毎に応答を異ならせることによって、ユーザは自身の好みのキャラクタを選択的に使用することが可能であり、特定のキャラクタに対する愛着が増すことも期待できる。

［変形例］
本発明は、上述した実施例の態様に限らず、他の態様でも実施することができる。以下に示すのは、本発明の他の態様の一例である。なお、これらの変形例は、必要に応じて、各々を適宜組み合わせることも可能である。

（１）本発明の応答は、応答情報と他の情報とによって構成されてもよい。ここにおいて、他の情報とは、応答情報に付加される情報であって、例えば、語尾変化などの語調（口調）に変化をもたらす文言を表す情報である。このような情報のことを、以下においては「付加情報」という。

図１０は、応答情報（応答文章）と付加情報を例示する図である。ここにおいて、応答情報は、「元気」という名詞のみによって構成されている。また、付加情報は、この「元気」という名詞に続く語句を表しており、ここでは、「（元気）だよ。」、「（元気）ですよ。」、「（元気）です。ありがとう。」といった複数の付加情報があるものとする。このとき、付加情報は、キャラクタ毎に異なるものであるとする。なお、応答情報は、キャラクタ毎に異なってもよいし、そうでなくてもよい。

このようにすれば、付加情報によって応答に変化を与えることが可能である。また、応答情報と付加情報の双方をキャラクタ毎に異ならせることで、例えば、応答の大意については応答情報によって変化を与えつつ、語調のような微妙なニュアンスについては付加情報によって変化を与える、といった利用の態様も考えられる。

（２）音声合成サーバ２００Ｄは、ユーザが特定の用語を発したり、特定の問いかけを行ったりした場合に、合成音声データに代えて楽曲データをユーザ端末１００に送信するようにしてもよい。例えば、ユーザが「歌って」と発した場合、音声合成サーバ２００Ｄは、これに対応する応答として所定の楽曲の楽曲データを送信する。この楽曲データは、日時に応じて異なるようにされていてもよい。

さらに、このように歌うことができるキャラクタを一部のキャラクタに限定してもよい。この場合、音声合成サーバ２００Ｄは、歌うことができない（換言すれば、歌うように設定されていない）キャラクタについては、「歌って」というユーザの問いかけに対して適当な合成音声データ（例えば、「よくわかりません」、「歌えません」など）を送信してもよい。このようにすれば、各キャラクタの個性をより際立たせることが可能である。

（３）意図解釈サーバ２００Ｂは、所定の条件を満たす場合に、情報の検索を行わずに所定の応答情報を出力するようにしてもよい。例えば、意図解釈サーバ２００Ｂは、発話しているユーザが特定のユーザ（例えばユーザ端末１００の所有者）でない場合、ユーザ端末１００の位置が所定の位置（例えばユーザが事前に設定した位置）でない場合、発話日時が所定の日時（例えば深夜）である場合などに、ユーザの意図を問わず、あらかじめ決められた応答情報を出力するようにしてもよい。この場合、意図解釈サーバ２００Ｂは、ユーザの認識結果、ユーザ端末１００の位置を示す位置情報、発話日時を示す時刻情報などを取得できるように構成される。このようにすれば、意図しない第三者によって情報の検索が行われるような想定外の事態を防いだりすることが可能である。

なお、ユーザの判別には、周知の話者認識技術を利用したり、あらかじめユーザ（所有者）の音声を登録したりすればよい。また、ユーザ端末１００の位置の特定には、ＧＰＳ（Global Positioning System）による測位のような位置情報を取得可能な周知技術を用いればよい。また、所定の条件を満たした場合のキャラクタの応答は、例えば「よくわかりません」や「お答えできません」といったものであるが、キャラクタ毎に異なっていてもよい。

また、意図解釈サーバ２００Ｂは、所定の条件を満たすか否かを判断を意図解釈処理の前後のいずれに実行してもよい。この判断を意図解釈処理の前に実行する場合、意図解釈サーバ２００Ｂは、所定の条件を満たすと判断したら意図解釈処理をせずに省略してもよい。また、意図解釈処理を先に実行する場合、意図解釈サーバ２００Ｂは、ユーザの意図が情報の検索であると判断した場合にのみこの判断を実行すればよい。

さらに、本変形例は、上述した変形例２の場合のように、ユーザの問いかけに対して音声合成サーバ２００Ｄが楽曲データを送信する場合にも適用可能である。例えば、意図解釈サーバ２００Ｂは、ユーザ端末１００の位置が所定の位置でない場合には、楽曲データに代えて「ここでは歌えません」と発声する合成音声データを送信させるようにしたり、発生日時が深夜である場合には、楽曲データに代えて「今は歌えません」と発声する合成音声データを送信させるようにしたりすることも可能である。

（４）本発明は、ユーザからの入力とユーザに対する出力の双方が音声であることを要しない。つまり、本発明は、ユーザに対する出力（すなわち、入力に対する応答）については、画像の再生（表示）のみであって音声の再生を伴わない態様であってもよい。この場合、音声合成サーバ２００Ｄに相当する構成は不要である。あるいは、ユーザに対する出力は、バイブレータを振動させるなどの触覚的なフィードバックを伴ってもよい。

（５）本発明において、音声入力は、情報の検索と雑談以外の応答に用いられてもよい。例えば、本発明は、情報の検索と雑談に加え、ユーザ端末１００の操作に音声入力を用いるものであってもよい。ここでいう操作とは、例えば、ユーザ端末１００に備わっている特定の機能のオン／オフの切り替えや、特定のプログラムの実行などである。

（６）本発明を実施するための具体的構成は、上述した実施例の形態に限定されない。例えば、音声認識は、音声認識サーバ２００Ａに代えてユーザ端末１００や意図解釈サーバ２００Ｂにおいて実行されてもよい。また、合成音声データは、音声合成サーバ２００Ｄから送信されるのではなく、意図解釈サーバ２００Ｂから（ステップＳ７において）送信されてもよい。さらに、本発明に係る対話支援装置の機能についても、その一部又は全部がユーザ端末１００に備わっていてもよいし、複数のサーバ装置に分散的に備わっていてもよい。

（７）本発明のユーザ端末には、スマートフォン以外のさまざまな端末も該当し得る。例えば、本発明は、いわゆるタブレットＰＣ（Personal Computer）、ゲーム機、音楽プレーヤなどにも適用可能である。また、本発明のユーザ端末は、無線通信端末に限定されるものでもなく、モデム等を介して有線接続されたデスクトップＰＣであってもよい。

また、本発明は、対話支援装置やこれを備えたサーバ装置（又はユーザ端末）としてだけではなく、１又は複数のサーバ装置とユーザ端末とを備えた対話システム、対話支援装置による対話支援方法、コンピュータを本発明の対話支援装置として機能させるためのプログラムなどとして特定されてもよい。また、本発明に係るプログラムは、光ディスクなどの記録媒体に記録した形態や、インターネットなどのネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にする形態などでも提供することができる。

１０…対話システム、１００…ユーザ端末、１１０…制御部、１２０…記憶部、１３０…通信部、１４０…表示部、１５０…音声入力部、１６０…音声出力部、２００Ａ…音声認識サーバ、２００Ｂ…意図解釈サーバ、２００Ｃ…雑談管理サーバ、２００Ｄ…音声合成サーバ、２１０…制御部、２１１…取得部、２１２…解釈部、２１３…出力部、２２０…記憶部、２３０…通信部、３００…ネットワーク

Claims

ユーザが発話した音声に基づいて生成される入力情報を取得する取得部と、
前記取得部により取得された入力情報に基づき、前記ユーザの発話の意図を解釈する解釈部と、
前記解釈部により解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈部により解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力する出力部と
を備える対話支援装置。
前記出力部は、
前記解釈部により解釈された意図が情報の検索である場合とそうでない場合とで、参照する情報源を異ならせる
請求項１に記載の対話支援装置。
前記出力部は、
所定の文字列が含まれているか否かによって、前記解釈部により解釈された意図が情報の検索であるか否かを判断する
請求項１又は２に記載の対話支援装置。
前記出力部は、
前記複数の応答情報のうち、前記ユーザにより選択されたキャラクタに応じた応答情報を出力する
請求項１ないし３のいずれか１項に記載の対話支援装置。
前記出力部は、
前記応答情報と、当該応答情報に付加される付加情報であって前記ユーザにより選択されたキャラクタに応じた付加情報とを出力する
請求項１ないし４のいずれか１項に記載の対話支援装置。
前記出力部は、
発話しているユーザ、当該ユーザの位置又は発話日時が所定の条件を満たす場合に、あらかじめ用意された複数の応答情報のいずれかを選択的に出力する
請求項１ないし５のいずれか１項に記載の対話支援装置。
請求項１ないし６のいずれか１項に記載の対話支援装置と、
前記ユーザの音声を収音し、前記出力部により出力された応答情報に応じた応答を少なくとも音声により再生するユーザ端末と
を備える対話システム。
ユーザが発話した音声に基づいて生成される入力情報を取得するステップと、
前記取得された入力情報に基づき、前記ユーザの発話の意図を解釈するステップと、
前記解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力するステップと
を有する対話支援方法。
コンピュータに、
ユーザが発話した音声に基づいて生成される入力情報を取得するステップと、
前記取得された入力情報に基づき、前記ユーザの発話の意図を解釈するステップと、
前記解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力するステップと
を実行させるためのプログラム。