JP2014098844A - 対話支援装置、対話システム、対話支援方法及びプログラム - Google Patents

対話支援装置、対話システム、対話支援方法及びプログラム Download PDF

Info

Publication number
JP2014098844A
JP2014098844A JP2012251337A JP2012251337A JP2014098844A JP 2014098844 A JP2014098844 A JP 2014098844A JP 2012251337 A JP2012251337 A JP 2012251337A JP 2012251337 A JP2012251337 A JP 2012251337A JP 2014098844 A JP2014098844 A JP 2014098844A
Authority
JP
Japan
Prior art keywords
intention
information
user
search
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012251337A
Other languages
English (en)
Other versions
JP6166889B2 (ja
Inventor
Toshiharu Kurisu
俊治 栗栖
Yuki Tsuge
結旗 柘植
Naoki Hashida
直樹 橋田
Kyoko Masuda
恭子 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012251337A priority Critical patent/JP6166889B2/ja
Publication of JP2014098844A publication Critical patent/JP2014098844A/ja
Application granted granted Critical
Publication of JP6166889B2 publication Critical patent/JP6166889B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザの意図に応じて応答の方法を変えられるようにする。
【解決手段】対話支援装置は、ユーザの音声入力による発話の意図を解釈し(S61)、これが情報の検索であるか否かを判断する(S62)。この判断は、文章中に所定の文字列が含まれるか否かなどによって行われる。対話支援装置は、ユーザの発話の意図が情報の検索である場合には、外部のサーチエンジンなどを利用して情報を検索し(S63)、検索結果を受信する(S64)。一方、対話支援装置は、ユーザの発話の意図が情報の検索でない場合には、あらかじめ決められた雑談データの中から発話に応じたものを抽出する(S65)。
【選択図】図7

Description

本発明は、いわゆる音声エージェントサービスに関する。
ユーザが音声により質問等を入力することによって情報を検索し、検索結果を文字や画像によって出力する技術が知られている(例えば、特許文献1参照)。また、スマートフォン等の携帯端末においては、音声によって情報を検索したり、当該端末を操作したりするとともに、当該端末が音声によって応答することができる音声対話機能も実用化されている。このような音声対話機能により、ユーザは、あたかも人間に話しかけるように携帯端末を操作することが可能である。
特開2006−209022号公報
ところで、現実の人間との対話においては、情報の検索や携帯端末の操作のように一定の応答が期待される場合もあれば、そうでない場合もある。例えば、ユーザは、雑談のような何気ない会話においては、必ずしも一定の応答を期待しているわけではない。また、雑談に対して決まった応答しかなされなければ、その応答はまさに機械的なものとなり、人間味が感じられないともいえる。したがって、特許文献1に記載された技術のように、既存のデータベースから回答を検索しただけでは、情報の検索に対する適切な回答は得られたとしても、雑談などに対する適切な応答とはなり得ない。
そこで、本発明は、ユーザの意図に応じて応答の方法を変えられる技術を提供することを目的とする。
本発明は、ユーザが発話した音声に基づいて生成される入力情報を取得する取得部と、前記取得部により取得された入力情報に基づき、前記ユーザの発話の意図を解釈する解釈部と、前記解釈部により解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈部により解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力する出力部とを備える対話支援装置を提供する。
また、前記出力部は、前記解釈部により解釈された意図が情報の検索である場合とそうでない場合とで、参照する情報源を異ならせる構成であってもよい。
また、前記出力部は、所定の文字列が含まれているか否かによって、前記解釈部により解釈された意図が情報の検索であるか否かを判断する構成であってもよい。
また、前記出力部は、前記複数の応答情報のうち、前記ユーザにより選択されたキャラクタに応じた応答情報を出力する構成であってもよい。
また、前記出力部は、前記応答情報と、当該応答情報に付加される付加情報であって前記ユーザにより選択されたキャラクタに応じた付加情報とを出力する構成であってもよい。
また、前記出力部は、発話しているユーザ、当該ユーザの位置又は発話日時が所定の条件を満たす場合に、あらかじめ用意された複数の応答情報のいずれかを選択的に出力する構成であってもよい。
また、本発明は、前記対話支援装置と、前記ユーザの音声を収音し、前記出力部により出力された応答情報に応じた応答を少なくとも音声により再生するユーザ端末とを備える対話システムを提供する。
また、本発明は、ユーザが発話した音声に基づいて生成される入力情報を取得するステップと、前記取得された入力情報に基づき、前記ユーザの発話の意図を解釈するステップと、前記解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力するステップとを有する対話支援方法を提供する。
また、本発明は、コンピュータに、ユーザが発話した音声に基づいて生成される入力情報を取得するステップと、前記取得された入力情報に基づき、前記ユーザの発話の意図を解釈するステップと、前記解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力するステップとを実行させるためのプログラムを提供する。
本発明によれば、ユーザの意図に応じて応答の方法を変えることが可能である。
対話システムの全体構成を示すブロック図 ユーザ端末のハードウェア構成を示すブロック図 音声認識サーバ、意図解釈サーバ及び雑談管理サーバのハードウェア構成を示すブロック図 意図解釈サーバの機能的構成を示すブロック図 雑談データのデータ構造を例示する図 音声入力に対する応答が得られるまでの動作を示すシーケンスチャート 意図解釈処理を示すフローチャート ユーザ端末における出力結果を例示する図 ユーザ端末における出力結果を例示する図 応答情報と付加情報を例示する図
[実施例]
図1は、本発明の一実施例である対話システム10の全体構成を示すブロック図である。対話システム10は、いわゆる音声エージェントサービスを提供するためのシステムであり、ユーザ端末100、音声認識サーバ200A、意図解釈サーバ200B、雑談管理サーバ200C及び音声合成サーバ200Dを備え、これらをネットワーク300によって相互に接続した構成を有する。なお、ユーザ端末1000は、ここでは図示を省略しているが、このサービスを利用するユーザの数だけ実際には存在する。また、ネットワーク300は、移動通信網やインターネットを組み合わせた複合的なネットワークである。
ここにおいて、音声エージェントサービスとは、ユーザ端末100におけるユーザの各種の操作を音声によって仲介するサービスをいう。このサービスによれば、ユーザは、情報を検索したりする場合に、ユーザ端末100に文字を手で入力したりすることなく、ユーザ端末100に自然文で話しかけるだけで所望の結果を得ることが可能である。
また、本実施例の音声エージェントサービスは、キャラクタを介してサービスを提供する点に第1の特徴を有する。ここでいうキャラクタは、漫画の登場人物、著名人、動物などを模したものであり、例えば、3次元CG(Computer Graphics)などによってアニメーション表示される。このキャラクタは、コンテンツプロバイダによってさまざまなものが提供されており、各ユーザが所望のキャラクタを有償又は無償で選択して使用することが可能である。これらのキャラクタは、キャラクタ毎に音声(声色)や口調が異なっている。本実施例のサービスにおいては、ユーザが自分の好みのキャラクタを使用し、これに(あたかも現実の人間と対話するように)話しかけることによって、特定のキャラクタに愛着を抱き、本サービスの利用の促進が図られることが期待される。
さらに、本実施例の音声エージェントサービスは、ユーザが情報の検索以外の対話を行える点に第2の特徴を有する。ここにおいて、情報の検索以外の対話とは、いわゆる雑談や世間話のようなものをいう。すなわち、ここでいう対話は、いわゆるウェブ検索のようにユーザが特定の結果を求めるものではなく、現実の人間とのコミュニケーションにおいて会話や暇つぶしとして行われるものなどである。
ユーザ端末100は、ユーザが本サービスを利用するために用いる通信端末である。ユーザ端末100は、ここではスマートフォンであるとする。音声認識サーバ200Aは、ユーザが発話した音声に基づいて生成される音声データをテキストデータに変換するためのサーバ装置である。意図解釈サーバ200Bは、テキストデータに基づいてユーザの意図を解釈し、その意図に応じた応答情報をユーザ端末100に送信するサーバ装置である。雑談管理サーバ200Cは、キャラクタ毎の雑談データを管理するサーバ装置であり、雑談データを所定のタイミングで意図解釈サーバ200Bに送信する。音声合成サーバ200Dは、キャラクタ毎の音声データ(以下「合成音声データ」という。)を記憶するサーバ装置であり、これを必要に応じてユーザ端末100に送信する。合成音声データは、コンテンツプロバイダによって提供されるデータであり、後述するキャラクタIDと応答文章とに各々が対応付けられている。
図2は、ユーザ端末100のハードウェア構成を示すブロック図である。ユーザ端末100は、制御部110と、記憶部120と、通信部130と、表示部140と、音声入力部150と、音声出力部160とを少なくとも備える。また、ユーザ端末100は、テンキーなどのキーパッドやバイブレータを備えていてもよい。
制御部110は、ユーザ端末100の各部の動作を制御する手段である。制御部110は、CPU(Central Processing Unit)などの演算処理装置やメモリを備え、所定のプログラムを実行することによって制御を行う。
記憶部120は、データを記憶する手段である。記憶部120は、フラッシュメモリなどの記録媒体を備え、制御部110が制御に用いるデータを記憶している。
通信部130は、ネットワーク300を介してデータを送受信する手段である。通信部300は、アンテナや、ネットワーク300の通信方式に対応したモデムなどを備え、データの変調・復調といったデータ通信に必要な処理を実行する。
表示部140は、画像を表示する手段である。表示部140は、液晶素子や有機EL(electroluminescence)素子により構成された表示パネル(すなわち表示領域)とこれを駆動する駆動回路とを備え、画像データに応じた画像を表示する。
音声入力部150は、音声を入力する手段である。音声入力部150は、マイクロホン又はこれを接続する入力端子を備え、音声データを制御部110に供給する。一方、音声出力部160は、音声を出力する手段である。音声出力部160は、スピーカ又はこれを接続する出力端子を備え、制御部110から供給された音声情報に応じた音声を出力する。なお、音声入力部150及び音声出力部160は、ヘッドセットなどを無線接続する構成であってもよい。
図3は、音声認識サーバ200A、意図解釈サーバ200B、雑談管理サーバ200C及び音声合成サーバ200Dのハードウェア構成を示すブロック図である。これらのサーバ装置は、記憶するデータや実行する処理に相違はあるものの、主要なハードウェア構成は共通している。そのため、ここでは、音声認識サーバ200A、意図解釈サーバ200B、雑談管理サーバ200C及び音声合成サーバ200Dを総称して「サーバ装置200」と表記し、これらのサーバ装置に共通する主要なハードウェア構成を説明する。
サーバ装置200は、制御部210と、記憶部220と、通信部230とを備える。制御部210は、サーバ装置200の各部の動作を制御する手段である。制御部210は、演算処理装置やメモリを備え、所定のプログラムを実行することによって制御を行う。記憶部220は、データを記憶する手段であり、ハードディスクなどの記録媒体を備える。通信部130は、ネットワーク300を介してデータを送受信する手段である。
図4は、意図解釈サーバ200Bの機能的構成を示すブロック図である。意図解釈サーバ200Bの制御部210は、所定のプログラムを実行することにより、取得部211、解釈部212及び出力部213の各部に相当する機能を実現する。制御部210が実現するこれらの機能は、本発明に係る対話支援装置に相当する機能である。
取得部211は、入力情報を取得する手段である。ここにおいて、入力情報とは、ユーザが音声によって入力した情報の総称である。入力情報には、ユーザ端末100において生成される音声データと、これを変換して得られるテキストデータとが含まれる。本実施例において、取得部211は、音声認識サーバ200Aによって音声データからテキストデータに変換された状態で入力情報を取得する。
解釈部212は、取得部211により取得された入力情報に基づき、ユーザの発話の意図を解釈する手段である。解釈部212は、テキストデータに対して形態素解析などを実行して当該テキストデータに含まれる単語を特定し、さらにその構文などを解析することによってユーザによる発話の意図を解釈する。本実施例において、解釈部212は、ユーザの意図が「情報の検索」と「雑談」のいずれであるかを判断する。この判断は、雑談データを用いて行われる。
出力部213は、解釈部212による解釈結果に応じた応答情報を出力する手段である。出力部213は、解釈部212により解釈されたユーザの意図が情報の検索である場合と雑談である場合とに応じた応答情報を出力する。出力部213は、解釈部212により解釈されたユーザの意図が情報の検索である場合、外部のサーチエンジンやデータベースを用いて検索を実行して検索結果を受信し、この検索結果に応じた応答情報を出力する。一方、解釈部212により解釈されたユーザの意図が雑談である場合、出力部213は、記憶部220に記憶された複数の雑談データの中から適当なものを選択的に抽出し、これに応じた応答情報を出力する。すなわち、出力部213は、解釈部212により解釈されたユーザの意図に応じて、参照する情報源を異ならせている。
図5は、雑談データのデータ構造を例示する図である。本実施例の雑談データは、「登録文字列」、「時間」、「禁止用語フラグ」、「キャラクタID」、「応答文章」、「アクションID」などの項目を含んで構成される。コンテンツプロバイダは、これらの項目のうち、「禁止用語フラグ」、「キャラクタID」、「応答文章」及び「アクションID」を登録することができる。その他の項目は、本サービスのサービス事業者(例えば通信事業者)によってあらかじめ決められている。
「登録文字列」は、ユーザの発話の意図が雑談であるか否かを判断するための文字列である。意図解釈サーバ200Bは、テキストデータに登録文字列が含まれている場合に、ユーザの発話の意図が雑談であると判断することができる。登録文字列は、例えば、「おはよう」、「こんにちは」などといった挨拶である。
「時間」は、ユーザが発話した時間を示すデータである。この項目は、例えば、「朝」、「昼」、「夜」といった時間帯を記述することにより、ユーザが発話した時間帯に応じて雑談の応答を変えられるように設けられている。このようにすれば、例えば、ユーザが朝に「おはよう」と発話した場合と昼に「おはよう」と発話した場合とで、応答の具体的内容を異ならせることが可能である。
「禁止用語フラグ」は、禁止用語を含むテキストデータに対する応答を一律に指定するためのデータである。この項目を用いる場合には、ユーザの発話の意図の判断とは別に、テキストデータに禁止用語が含まれるか否かが判断される。意図解釈サーバ200Bは、テキストデータに禁止用語が含まれる場合、禁止用語フラグが「1」である雑談データを抽出する。なお、ここにおいて、禁止用語とは、例えば、卑わいな表現や暴力的な表現であるが、コンテンツプロバイダ又はサービス事業者が任意に設定することが可能である。また、ユーザの年齢を識別することが可能であれば、禁止用語は年齢に応じて異なっていてもよい。
「キャラクタID」は、ユーザがユーザ端末100において使用しているキャラクタを識別するためのIDである。「応答文章」は、当該キャラクタによる応答を表すテキストデータである。また、「アクションID」は、当該キャラクタの応答時の動作(身体の動き、顔の表情など)を識別するためのIDである。各キャラクタには、それぞれのアクションIDに応じたアニメーション表示をするためのアニメーションデータがコンテンツプロバイダによってあらかじめ用意されている。
雑談管理サーバ200Cは、コンテンツプロバイダからこのような雑談データの登録を受け付ける。雑談管理サーバ200Cは、所定のタイミング(1時間毎、1日1回など)で雑談データを意図解釈サーバ200Bに送信する。意図解釈サーバ200Bは、雑談管理サーバ200Cから新たな雑談データを受信すると、自装置に記憶された雑談データを更新する。
対話システム10の構成は、以上のとおりである。この構成のもと、ユーザ端末100は、待ち受け画面などにキャラクタを表示するとともに、音声によるユーザの入力を待機する。ユーザは、キャラクタが表示されたユーザ端末100に対して、当該キャラクタに話しかけるように発話し、音声を入力する。ユーザによって音声が入力されると、ユーザ端末100、音声認識サーバ200A及び意図解釈サーバ200Bは、協働して以下の処理を実行する。
図6は、ユーザの音声入力に対する応答が得られるまでの動作を示すシーケンスチャートである。この動作は、ユーザがユーザ端末100に対して音声を入力することによって開始される。ユーザ端末100は、ユーザの音声を収音して音声データを生成し(ステップS1)、これを音声認識サーバ200Aに送信する(ステップS2)。音声認識サーバ200Aは、音声データを受信し、音声認識を実行することにより音声データをテキストデータ(文字コードで記述可能なデータ)に変換する(ステップS3)。音声認識サーバ200Aは、テキストデータをユーザ端末100に返送(送信)する(ステップS4)。
ユーザ端末100は、テキストデータを受信したら、これを意図解釈サーバ200Bに転送(送信)する(ステップS5)。このとき、ユーザ端末100は、表示部140に表示されているキャラクタ、すなわち、ユーザにより選択されたキャラクタのキャラクタIDをあわせて送信する。意図解釈サーバ200Bは、テキストデータを入力情報として受信し、ユーザが発話した音声の意図を解釈することにより、必要な応答情報を得る処理を実行する(ステップS6)。この処理のことを、以下においては「意図解釈処理」という。
意図解釈サーバ200Bは、意図解釈処理を実行することにより、応答情報を得ることができる。意図解釈サーバ200Bは、意図解釈処理により得られた応答情報をユーザ端末100に送信する(ステップS7)。なお、応答情報は、応答文章及びアクションIDを少なくとも含む。
ユーザ端末100は、応答情報を受信すると、応答情報に含まれる応答文章を音声合成サーバ200Dに送信する(ステップS8)。このとき、ユーザ端末100は、ステップS5において送信したキャラクタIDと同一のキャラクタIDをあわせて送信する。音声合成サーバ200Dは、受信したキャラクタIDと応答文章とに基づき、合成音声データを一意的に特定することができる。音声合成サーバ200Dは、特定した合成音声データをユーザ端末100に送信する(ステップS9)。そして、ユーザ端末100は、応答情報に応じた音声及び画像を再生することにより、ユーザの音声入力に対して応答する(ステップS10)。
図7は、ステップS6の意図解釈処理をより詳細に示すフローチャートである。意図解釈サーバ200B(の制御部210)は、まず、テキストデータを形態素解析などにより解析し、ユーザの発話の意図を解釈する(ステップS61)。なお、ステップS61の処理には、言語解析に関する周知技術を適宜用いればよい。また、意図解釈サーバ200Bは、この処理の一部又は全部を自装置で実行せず、言語解析用の専用の装置に実行させてもよい。要するに、意図解釈サーバ200Bは、テキストデータの解釈結果を取得できればそれでよく、その具体的な方法は問われない。
次に、意図解釈サーバ200Bは、テキストデータが示すユーザの意図が情報の検索であるか否かを判断する(ステップS62)。ここにおいて、意図解釈サーバ200Bは、自装置に記憶された雑談データを参照し、テキストデータに登録文字列が含まれているか否かを判断することにより、ユーザの意図が雑談であるか否かを判断することができる。また、意図解釈サーバ200Bは、登録文字列以外(構文など)も組み合わせて用いて雑談か否かを判断してもよい。例えば、意図解釈サーバ200Bは、「教えて」や「調べて」といった、要求や依頼を意味する所定の文字列がテキストデータに含まれていた場合に、ユーザの意図が情報の検索であると判断してもよい。つまり、テキストデータに登録文字列が含まれているか否かの判断は、ステップS62の処理の1つの具体例にすぎない。
意図解釈サーバ200Bは、ステップS62の判断結果に応じてその後の処理を異ならせる。まず、テキストデータが示すユーザの意図が情報の検索である場合、意図解釈サーバ200Bは、テキストデータに含まれる文字列を用いて検索を実行し(ステップS63)、その検索結果を受信する(ステップS64)。このとき、意図解釈サーバ200Bは、いわゆるサーチエンジンのように不特定多数のウェブページの中から検索結果を求めてもよいし、特定の分野の情報に特化したデータベースを用いて検索結果を求めてもよい。例えば、ユーザが「東京のイタリアンレストランを教えて」という文言を発した場合であれば、意図解釈サーバ200Bは、「東京」及び「イタリアン」という検索語によってウェブ検索を実行してもよいし、場所として「東京」、ジャンルとして「イタリアン」といった検索条件を設定し、全国各地の飲食店の情報を提供するサービス事業者のデータベースにアクセスしてもよい。
一方、テキストデータが示すユーザの意図が情報の検索でなく、雑談である場合、意図解釈サーバ200Bは、雑談データを参照し、ユーザ端末100から送信されたテキストデータ及びキャラクタIDに応じた雑談データ(特に、「応答文章」及び「アクションID」)を抽出する(ステップS65)。
これらの処理が終了したら、意図解釈サーバ200Bは、応答情報を生成する(ステップS66)。ステップS66において、意図解釈サーバ200Bは、雑談データや検索結果に基づき、ユーザ端末100において音声及び画像を再生するためのデータを応答情報として生成する。このとき、意図解釈サーバ200Bは、雑談データや検索結果に加工を施してもよい。
図8及び図9は、ユーザ端末100における出力結果を例示する図である。図8は、ユーザが「東京のイタリアンレストランを教えて」という文言を質問(要求)として発話した場合を示す。一方、図9は、ユーザが「元気ですか?」という文言を雑談として発話した場合を示す。意図解釈サーバ200Bは、ユーザの意図が情報の検索である場合、検索を実行した旨とそのときの検索条件(検索語)とを音声により通知するとともに、検索結果に相当する情報を表示する応答情報を生成する。一方、ユーザの意図が雑談である場合、意図解釈サーバ200Bは、「元気」という検索語によってウェブ検索を実行したりするのではなく、「元気」という登録文字列に対応する音声及び画像を再生するための応答情報を生成する。
このように、本実施例の対話システム10によれば、意図解釈サーバ200Bによって解釈された発話の意図に応じてその応答方法を変えることができるようになる。これにより、ユーザは、音声入力を情報の検索以外の用途にも利用することが可能になり、かつ、その応答を不自然にすることなく、あたかも現実の人間と対話をしているようにすることができる。
また、本実施例によれば、ユーザは、情報を検索するときには、自身が選択したキャラクタによらず一定の応答を得られるのに対して、雑談を行ったときにはキャラクタ毎に異なる応答を得ることができる。このようにすることで、キャラクタの選択に面白みを与え、ユーザの興味を喚起することが可能であり、ユーザが本サービスを利用する動機付けとなることが期待できる。また、キャラクタ毎に応答を異ならせることによって、ユーザは自身の好みのキャラクタを選択的に使用することが可能であり、特定のキャラクタに対する愛着が増すことも期待できる。
[変形例]
本発明は、上述した実施例の態様に限らず、他の態様でも実施することができる。以下に示すのは、本発明の他の態様の一例である。なお、これらの変形例は、必要に応じて、各々を適宜組み合わせることも可能である。
(1)本発明の応答は、応答情報と他の情報とによって構成されてもよい。ここにおいて、他の情報とは、応答情報に付加される情報であって、例えば、語尾変化などの語調(口調)に変化をもたらす文言を表す情報である。このような情報のことを、以下においては「付加情報」という。
図10は、応答情報(応答文章)と付加情報を例示する図である。ここにおいて、応答情報は、「元気」という名詞のみによって構成されている。また、付加情報は、この「元気」という名詞に続く語句を表しており、ここでは、「(元気)だよ。」、「(元気)ですよ。」、「(元気)です。ありがとう。」といった複数の付加情報があるものとする。このとき、付加情報は、キャラクタ毎に異なるものであるとする。なお、応答情報は、キャラクタ毎に異なってもよいし、そうでなくてもよい。
このようにすれば、付加情報によって応答に変化を与えることが可能である。また、応答情報と付加情報の双方をキャラクタ毎に異ならせることで、例えば、応答の大意については応答情報によって変化を与えつつ、語調のような微妙なニュアンスについては付加情報によって変化を与える、といった利用の態様も考えられる。
(2)音声合成サーバ200Dは、ユーザが特定の用語を発したり、特定の問いかけを行ったりした場合に、合成音声データに代えて楽曲データをユーザ端末100に送信するようにしてもよい。例えば、ユーザが「歌って」と発した場合、音声合成サーバ200Dは、これに対応する応答として所定の楽曲の楽曲データを送信する。この楽曲データは、日時に応じて異なるようにされていてもよい。
さらに、このように歌うことができるキャラクタを一部のキャラクタに限定してもよい。この場合、音声合成サーバ200Dは、歌うことができない(換言すれば、歌うように設定されていない)キャラクタについては、「歌って」というユーザの問いかけに対して適当な合成音声データ(例えば、「よくわかりません」、「歌えません」など)を送信してもよい。このようにすれば、各キャラクタの個性をより際立たせることが可能である。
(3)意図解釈サーバ200Bは、所定の条件を満たす場合に、情報の検索を行わずに所定の応答情報を出力するようにしてもよい。例えば、意図解釈サーバ200Bは、発話しているユーザが特定のユーザ(例えばユーザ端末100の所有者)でない場合、ユーザ端末100の位置が所定の位置(例えばユーザが事前に設定した位置)でない場合、発話日時が所定の日時(例えば深夜)である場合などに、ユーザの意図を問わず、あらかじめ決められた応答情報を出力するようにしてもよい。この場合、意図解釈サーバ200Bは、ユーザの認識結果、ユーザ端末100の位置を示す位置情報、発話日時を示す時刻情報などを取得できるように構成される。このようにすれば、意図しない第三者によって情報の検索が行われるような想定外の事態を防いだりすることが可能である。
なお、ユーザの判別には、周知の話者認識技術を利用したり、あらかじめユーザ(所有者)の音声を登録したりすればよい。また、ユーザ端末100の位置の特定には、GPS(Global Positioning System)による測位のような位置情報を取得可能な周知技術を用いればよい。また、所定の条件を満たした場合のキャラクタの応答は、例えば「よくわかりません」や「お答えできません」といったものであるが、キャラクタ毎に異なっていてもよい。
また、意図解釈サーバ200Bは、所定の条件を満たすか否かを判断を意図解釈処理の前後のいずれに実行してもよい。この判断を意図解釈処理の前に実行する場合、意図解釈サーバ200Bは、所定の条件を満たすと判断したら意図解釈処理をせずに省略してもよい。また、意図解釈処理を先に実行する場合、意図解釈サーバ200Bは、ユーザの意図が情報の検索であると判断した場合にのみこの判断を実行すればよい。
さらに、本変形例は、上述した変形例2の場合のように、ユーザの問いかけに対して音声合成サーバ200Dが楽曲データを送信する場合にも適用可能である。例えば、意図解釈サーバ200Bは、ユーザ端末100の位置が所定の位置でない場合には、楽曲データに代えて「ここでは歌えません」と発声する合成音声データを送信させるようにしたり、発生日時が深夜である場合には、楽曲データに代えて「今は歌えません」と発声する合成音声データを送信させるようにしたりすることも可能である。
(4)本発明は、ユーザからの入力とユーザに対する出力の双方が音声であることを要しない。つまり、本発明は、ユーザに対する出力(すなわち、入力に対する応答)については、画像の再生(表示)のみであって音声の再生を伴わない態様であってもよい。この場合、音声合成サーバ200Dに相当する構成は不要である。あるいは、ユーザに対する出力は、バイブレータを振動させるなどの触覚的なフィードバックを伴ってもよい。
(5)本発明において、音声入力は、情報の検索と雑談以外の応答に用いられてもよい。例えば、本発明は、情報の検索と雑談に加え、ユーザ端末100の操作に音声入力を用いるものであってもよい。ここでいう操作とは、例えば、ユーザ端末100に備わっている特定の機能のオン/オフの切り替えや、特定のプログラムの実行などである。
(6)本発明を実施するための具体的構成は、上述した実施例の形態に限定されない。例えば、音声認識は、音声認識サーバ200Aに代えてユーザ端末100や意図解釈サーバ200Bにおいて実行されてもよい。また、合成音声データは、音声合成サーバ200Dから送信されるのではなく、意図解釈サーバ200Bから(ステップS7において)送信されてもよい。さらに、本発明に係る対話支援装置の機能についても、その一部又は全部がユーザ端末100に備わっていてもよいし、複数のサーバ装置に分散的に備わっていてもよい。
(7)本発明のユーザ端末には、スマートフォン以外のさまざまな端末も該当し得る。例えば、本発明は、いわゆるタブレットPC(Personal Computer)、ゲーム機、音楽プレーヤなどにも適用可能である。また、本発明のユーザ端末は、無線通信端末に限定されるものでもなく、モデム等を介して有線接続されたデスクトップPCであってもよい。
また、本発明は、対話支援装置やこれを備えたサーバ装置(又はユーザ端末)としてだけではなく、1又は複数のサーバ装置とユーザ端末とを備えた対話システム、対話支援装置による対話支援方法、コンピュータを本発明の対話支援装置として機能させるためのプログラムなどとして特定されてもよい。また、本発明に係るプログラムは、光ディスクなどの記録媒体に記録した形態や、インターネットなどのネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にする形態などでも提供することができる。
10…対話システム、100…ユーザ端末、110…制御部、120…記憶部、130…通信部、140…表示部、150…音声入力部、160…音声出力部、200A…音声認識サーバ、200B…意図解釈サーバ、200C…雑談管理サーバ、200D…音声合成サーバ、210…制御部、211…取得部、212…解釈部、213…出力部、220…記憶部、230…通信部、300…ネットワーク

Claims (9)

  1. ユーザが発話した音声に基づいて生成される入力情報を取得する取得部と、
    前記取得部により取得された入力情報に基づき、前記ユーザの発話の意図を解釈する解釈部と、
    前記解釈部により解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈部により解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力する出力部と
    を備える対話支援装置。
  2. 前記出力部は、
    前記解釈部により解釈された意図が情報の検索である場合とそうでない場合とで、参照する情報源を異ならせる
    請求項1に記載の対話支援装置。
  3. 前記出力部は、
    所定の文字列が含まれているか否かによって、前記解釈部により解釈された意図が情報の検索であるか否かを判断する
    請求項1又は2に記載の対話支援装置。
  4. 前記出力部は、
    前記複数の応答情報のうち、前記ユーザにより選択されたキャラクタに応じた応答情報を出力する
    請求項1ないし3のいずれか1項に記載の対話支援装置。
  5. 前記出力部は、
    前記応答情報と、当該応答情報に付加される付加情報であって前記ユーザにより選択されたキャラクタに応じた付加情報とを出力する
    請求項1ないし4のいずれか1項に記載の対話支援装置。
  6. 前記出力部は、
    発話しているユーザ、当該ユーザの位置又は発話日時が所定の条件を満たす場合に、あらかじめ用意された複数の応答情報のいずれかを選択的に出力する
    請求項1ないし5のいずれか1項に記載の対話支援装置。
  7. 請求項1ないし6のいずれか1項に記載の対話支援装置と、
    前記ユーザの音声を収音し、前記出力部により出力された応答情報に応じた応答を少なくとも音声により再生するユーザ端末と
    を備える対話システム。
  8. ユーザが発話した音声に基づいて生成される入力情報を取得するステップと、
    前記取得された入力情報に基づき、前記ユーザの発話の意図を解釈するステップと、
    前記解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力するステップと
    を有する対話支援方法。
  9. コンピュータに、
    ユーザが発話した音声に基づいて生成される入力情報を取得するステップと、
    前記取得された入力情報に基づき、前記ユーザの発話の意図を解釈するステップと、
    前記解釈された意図が情報の検索である場合に、当該意図に応じて実行された検索の検索結果に応じた応答情報を出力し、前記解釈された意図が情報の検索でない場合に、当該意図に対応して用意された複数の応答情報のいずれかを選択的に出力するステップと
    を実行させるためのプログラム。
JP2012251337A 2012-11-15 2012-11-15 対話支援装置、対話システム、対話支援方法及びプログラム Active JP6166889B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012251337A JP6166889B2 (ja) 2012-11-15 2012-11-15 対話支援装置、対話システム、対話支援方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012251337A JP6166889B2 (ja) 2012-11-15 2012-11-15 対話支援装置、対話システム、対話支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014098844A true JP2014098844A (ja) 2014-05-29
JP6166889B2 JP6166889B2 (ja) 2017-07-19

Family

ID=50940885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012251337A Active JP6166889B2 (ja) 2012-11-15 2012-11-15 対話支援装置、対話システム、対話支援方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6166889B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016009072A (ja) * 2014-06-24 2016-01-18 シャープ株式会社 データベース、データベースを利用する方法、プログラム、システム、端末、端末プログラムおよび音声データ出力装置
WO2016104193A1 (ja) * 2014-12-26 2016-06-30 シャープ株式会社 対応決定装置、音声対話システム、対応決定装置の制御方法、および音声対話装置
JP6224857B1 (ja) * 2017-03-10 2017-11-01 ヤフー株式会社 分類装置、分類方法および分類プログラム
JP2018010409A (ja) * 2016-07-12 2018-01-18 Supership株式会社 情報処理装置及びプログラム
JP2021108142A (ja) * 2016-05-06 2021-07-29 ソニーグループ株式会社 情報処理システム、情報処理方法、および情報処理プログラム
JP2022017561A (ja) * 2017-06-14 2022-01-25 ヤマハ株式会社 情報処理装置、歌唱音声の出力方法、及びプログラム
WO2023090057A1 (ja) * 2021-11-17 2023-05-25 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588691A (ja) * 1991-09-30 1993-04-09 Toshiba Corp 音声対話装置
JPH08297498A (ja) * 1995-03-01 1996-11-12 Seiko Epson Corp 音声認識対話装置
JPH11119792A (ja) * 1997-10-20 1999-04-30 Toyota Motor Corp 音声認識機能付き機器制御装置および音声認識装置
JP2003108362A (ja) * 2001-07-23 2003-04-11 Matsushita Electric Works Ltd コミュニケーション支援装置およびコミュニケーション支援システム
JP2006171719A (ja) * 2004-12-01 2006-06-29 Honda Motor Co Ltd 対話型情報システム
JP2009198614A (ja) * 2008-02-19 2009-09-03 Toyota Central R&D Labs Inc 対話装置及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588691A (ja) * 1991-09-30 1993-04-09 Toshiba Corp 音声対話装置
JPH08297498A (ja) * 1995-03-01 1996-11-12 Seiko Epson Corp 音声認識対話装置
JPH11119792A (ja) * 1997-10-20 1999-04-30 Toyota Motor Corp 音声認識機能付き機器制御装置および音声認識装置
JP2003108362A (ja) * 2001-07-23 2003-04-11 Matsushita Electric Works Ltd コミュニケーション支援装置およびコミュニケーション支援システム
JP2006171719A (ja) * 2004-12-01 2006-06-29 Honda Motor Co Ltd 対話型情報システム
JP2009198614A (ja) * 2008-02-19 2009-09-03 Toyota Central R&D Labs Inc 対話装置及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016009072A (ja) * 2014-06-24 2016-01-18 シャープ株式会社 データベース、データベースを利用する方法、プログラム、システム、端末、端末プログラムおよび音声データ出力装置
WO2016104193A1 (ja) * 2014-12-26 2016-06-30 シャープ株式会社 対応決定装置、音声対話システム、対応決定装置の制御方法、および音声対話装置
JPWO2016104193A1 (ja) * 2014-12-26 2017-05-25 シャープ株式会社 対応決定装置、音声対話システム、対応決定装置の制御方法、および音声対話装置
JP2021108142A (ja) * 2016-05-06 2021-07-29 ソニーグループ株式会社 情報処理システム、情報処理方法、および情報処理プログラム
US11646026B2 (en) 2016-05-06 2023-05-09 Sony Group Corporation Information processing system, and information processing method
JP2018010409A (ja) * 2016-07-12 2018-01-18 Supership株式会社 情報処理装置及びプログラム
JP6224857B1 (ja) * 2017-03-10 2017-11-01 ヤフー株式会社 分類装置、分類方法および分類プログラム
JP2018151786A (ja) * 2017-03-10 2018-09-27 ヤフー株式会社 分類装置、分類方法および分類プログラム
JP2022017561A (ja) * 2017-06-14 2022-01-25 ヤマハ株式会社 情報処理装置、歌唱音声の出力方法、及びプログラム
JP7424359B2 (ja) 2017-06-14 2024-01-30 ヤマハ株式会社 情報処理装置、歌唱音声の出力方法、及びプログラム
WO2023090057A1 (ja) * 2021-11-17 2023-05-25 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JP6166889B2 (ja) 2017-07-19

Similar Documents

Publication Publication Date Title
JP6166889B2 (ja) 対話支援装置、対話システム、対話支援方法及びプログラム
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
JP6434948B2 (ja) 名前発音システム及び方法
CN106537496B (zh) 终端装置、信息提供系统、信息呈现方法和信息提供方法
CN111785246B (zh) 虚拟角色语音处理方法、装置及计算机设备
JP2002366186A (ja) 音声合成方法及びそれを実施する音声合成装置
TW200847004A (en) Speech-centric multimodal user interface design in mobile technology
CN112840396A (zh) 用于处理用户话语的电子装置及其控制方法
KR20190115405A (ko) 검색 방법 및 이 방법을 적용하는 전자 장치
CN109643545A (zh) 信息处理设备和信息处理方法
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
JP7310907B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP2007286376A (ja) 音声案内システム
KR20200085433A (ko) 탈부착형 스피커를 포함한 음성합성 시스템 및 방법
Griol et al. From VoiceXML to multimodal mobile Apps: development of practical conversational interfaces
WO2020110744A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6179884B2 (ja) Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
CN114514576A (zh) 数据处理方法、装置和存储介质
JP6124844B2 (ja) サーバ、データベースを利用する方法、プログラム、システム、端末、端末プログラムおよび音声データ出力装置
JP7218816B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
KR20220013063A (ko) 음성합성 서비스 엔진을 이용한 보완/대체 의사소통 제공 방법 및 시스템
JP2008139438A (ja) 音声処理装置、端末装置、音声情報管理装置、および、プログラム
WO2017149866A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR20220145739A (ko) 개인화된 음성 콘텐츠를 생성하는 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170626

R150 Certificate of patent or registration of utility model

Ref document number: 6166889

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250