JP6120708B2

JP6120708B2 - 端末装置およびプログラム

Info

Publication number: JP6120708B2
Application number: JP2013143750A
Authority: JP
Inventors: 千晶森田; 耕太郎永瀬; 山本　浩之; 浩之山本; 和成鈴木; 佐藤　大輔; 大輔佐藤
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-07-09
Filing date: 2013-07-09
Publication date: 2017-04-26
Anticipated expiration: 2033-07-09
Also published as: JP2015018327A

Description

本発明は、ユーザからの情報に応答する技術に関する。

特許文献１には、複数のエージェントによりサービスを受ける技術が開示されている。特許文献１に開示されたシステムにおいては、ローカルネットワークに接続されたＰＣ（Personal Computer）でＭＹエージェントが動作する。また、ローカルネットワークが接続されたインターネットには、サービスエージェントが稼働する機器が接続されている。ＰＣに対してユーザが発話すると、ＰＣで稼働しているＭＹエージェントが応答する。また、ＰＣに対してユーザが発話すると、必要に応じてインターネットに接続された機器で稼働しているサービスエージェントが応答する。

特開２００８−９０５４５号公報

ところで、特許文献１におけるＰＣがスマートフォンであり、移動体通信網を介してサービスエージェントと通信を行う場合、例えばスマートフォンが電車で移動中のときにはスマートフォンが圏外となり、インターネットに接続されている機器とスマートフォンとが通信を行えなくなる場合がある。この場合、ユーザが操作するスマートフォンが、インターネットに接続された機器で動作しているサービスエージェントと通信を行えなくなり、ユーザの発話に対して応答が得られないという事態が生じてしまう。

本発明は、上述した背景の下になされたものであり、端末装置が他の装置と通信を行えない状態にあっても、ユーザに対してコミュニケーションを継続する技術を提供することを目的とする。

本発明は、ユーザからの第１情報を取得する取得手段と、サーバ装置との通信が不可である場合、前記取得手段が前記第１情報を取得すると、前記ユーザとコミュニケーションを図る第２情報を出力する第１出力手段と、前記サーバ装置との通信が不可である場合、前記取得手段が前記第１情報を取得すると、当該第１情報を記憶手段に記憶させる制御手段と、前記サーバ装置との通信が可である場合、前記取得手段が前記第１情報を取得すると、前記第１情報を前記サーバ装置へ送信し、前記サーバ装置との通信が不可の状態から可の状態に変化した場合、前記記憶手段に記憶された前記第１情報を前記サーバ装置へ送信し、予め定められたタイミングで前記サーバ装置との通信が可である場合、予め定められた第１情報を前記サーバ装置へ送信する第１送信手段と、前記第１送信手段が送信した前記第１情報への応答として前記サーバ装置から送信された第３情報を受信し、受信した第３情報を出力する第２出力手段とを有する端末装置を提供する。

また、本発明は、コンピュータを、ユーザからの第１情報を取得する取得手段と、サーバ装置との通信が不可である場合、前記取得手段が前記第１情報を取得すると、前記ユーザとコミュニケーションを図る第２情報を出力する第１出力手段と、前記サーバ装置との通信が不可である場合、前記取得手段が前記第１情報を取得すると、当該第１情報を記憶手段に記憶させる制御手段と、前記サーバ装置との通信が可である場合、前記取得手段が前記第１情報を取得すると、前記第１情報を前記サーバ装置へ送信し、前記サーバ装置との通信が不可の状態から可の状態に変化した場合、前記記憶手段に記憶された前記第１情報を前記サーバ装置へ送信し、予め定められたタイミングで前記サーバ装置との通信が可である場合、予め定められた第１情報を前記サーバ装置へ送信する第１送信手段と、前記第１送信手段が送信した前記第１情報への応答として前記サーバ装置から送信された第３情報を受信し、受信した第３情報を出力する第２出力手段として機能させるためのプログラムを提供する。

本発明によれば、端末装置が他の装置と通信を行えない状態にあっても、ユーザに対してコミュニケーションを継続することができる。

コミュニケーションシステム１を構成する装置を示した図。端末装置１０のハードウェア構成を示したブロック図。端末装置１０において実現する機能の構成を示したブロック図。サーバ装置２０のハードウェア構成を示したブロック図。サーバ装置２０において実現する機能の構成を示したブロック図。制御部１０１が行う処理の流れを示したフローチャート。制御部１０１が行う処理の流れを示したフローチャート。制御部２０１が行う処理の流れを示したフローチャート。端末装置１０が表示する画面の一例を示した図。変形例で表示される画像の一例を示した図。

［実施形態］
（全体構成）
図１は、本発明の一実施形態に係るコミュニケーションシステム１を構成する装置を示した図である。コミュニケーションシステム１は、ユーザから与えられた情報に応答し、与えられた情報に対応した情報をユーザに提示するシステムである。本実施形態に係るコミュニケーションシステム１は、サーバ装置２０と端末装置１０とで構成されており、ユーザが端末装置１０に話しかけた音声（ユーザから与えられる情報の一例）に応答し、話しかけた音声の内容に対応した情報をユーザに提示する、即ち、ユーザと装置とが互いに情報を伝達してコミュニケーションを図るシステムである。

通信網２は、スマートフォンなどの端末装置１０に音声通信やデータ通信などの通信サービスを提供する通信網である。通信網２は、インターネットや固定電話網、公衆無線ＬＡＮ（Local Area Network）なども含めることができる。サーバ装置２０と端末装置１０は、通信網２を介してデータ通信を行う。

端末装置１０は、本実施形態においてはスマートフォンであり、通信網２を介して音声通信やデータ通信を行う。端末装置１０は、スマートフォンに限定されるものではなく、通信網２を介してデータ通信を行う機能を備えているものであれば、タブレットＰＣ、フィーチャーフォン又はＰＤＡ（Personal Digital Assistant）などであってもよい。本実施形態においては、端末装置１０は、ユーザから与えられた情報に応答するソフトウェアエージェントの機能が実現する。なお、コミュニケーションシステム１においては、端末装置１０は複数存在するが、図面が繁雑になるのを防ぐため、図１においては、一つの端末装置１０のみを示している。

サーバ装置２０は、端末装置１０から送られた情報に対して応答するソフトウェアエージェントの機能を有する装置である。サーバ装置２０は、端末装置１０から送られた情報を解析し、送られた情報に対応した情報を取得して端末装置１０へ送信する。

（端末装置１０の構成）
図２は、端末装置１０のハードウェア構成の一例を示したブロック図である。制御部１０１は、ＣＰＵ（Central Processing Unit）やＲＡＭ（Random Access Memory）、不揮発性メモリを備えており。ＣＰＵが不揮発性メモリに記憶されているプログラムを実行すると、スマートフォンの基本的な機能が実現する。

表示部１０３は、液晶ディスプレイを備えており、端末装置１０を操作するための画面や各種メッセージを表示する。操作部１０４は、端末装置１０を操作するための複数のキーを備えている。また、操作部１０４は、表示部１０３の表面に設けられ、表示部１０３が表示した画像を透過し、指が触れた位置を検出するタッチパネルを備えている。通信部１０５は、通信網２を介して通信を行う通信インターフェースとして機能し、各種情報の受信や送信を行う。

音声処理部１０７は、マイクロホンとスピーカを有している。音声処理部１０７は、端末装置１０同士が音声通話を行う場合、通話相手の音声に係るデジタル信号が通信部１０５から供給されると、供給されたデジタル信号をアナログ信号に変換する。このアナログ信号は、スピーカへ供給され、スピーカからは、通話相手の音声が放音される。また、音声処理部１０７は、マイクロホンが音声を収音すると、収音した音声をデジタル信号に変換する。音声処理部１０７は、端末装置１０が音声通話を行う場合、ユーザの音声を変換したデジタル信号を通信部１０５へ供給する。このデジタル信号は、通信部１０５から通信網２へ送信され、通話相手の端末装置１０へ送信される。また、音声処理部１０７は、制御部１０１が後述するアプリＡを実行している場合には、マイクロホンが収音したユーザの音声をデジタル信号に変換し、このデジタル信号を制御部１０１へ供給する。

記憶部１０２は、不揮発性メモリであり、各種アプリケーションプログラムを記憶する。本実施形態においては、記憶部１０２は、ユーザから与えられた情報に応答するソフトウェアエージェントの機能を実現するアプリケーションプログラム（以下、アプリＡと称する）を記憶している。制御部１０１のＣＰＵが、記憶部１０２に記憶されているアプリＡを実行すると、ユーザから与えられた情報に応答するソフトウェアエージェントの機能が実現する。ソフトウェアエージェントは、ユーザが端末装置１０に話しかけた音声（情報）に応答し、話しかけた音声の内容に対応した情報をサーバ装置２０と協働してユーザに提示する。

また、記憶部１０２は、ソフトウェアエージェントがユーザの音声を認識するときに用いる音響モデルＭＡ１と、言語モデルＭＡ２とを記憶している。音響モデルＭＡ１は、音声の特徴量と音素との対応関係を示すモデルであり、音素がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルとしては、周知の隠れマルコフモデルを用いている。言語モデルＭＡ２は、形態素の前後間のつながりやすさや音素の並び方に関する制約を表したものである。

図３は、アプリＡを実行した制御部１０１において実現する機能のうち、本発明に係る特徴的な機能の構成を示したブロック図である。取得手段１００１は、音声処理部１０７が出力したデジタル信号、即ち、マイクロフォンが収音したユーザの音声を表す信号を取得する手段である。第１送信手段１００２は、サーバ装置２０との通信が可能な場合、取得手段１００１が得たユーザの音声の信号を通信部１０５を制御してサーバ装置２０へ送信する手段である。第１出力手段１００３は、サーバ装置２０との通信が不可の場合、ユーザとのコミュニケーションを図る音声や文字列を出力する手段である。第２出力手段１００４は、第１送信手段が送信した信号への応答としてサーバ装置２０から送信された情報を受信し、受信した情報を音声や文字で出力する手段である。

（サーバ装置２０の構成）
図４は、サーバ装置２０のハードウェア構成の一例を示したブロック図である。表示部２０３は、液晶ディスプレイを備えており、サーバ装置２０を操作するための画面や記憶部２０２に記憶されている情報などを表示する。操作部２０４は、キーボードやマウスを備えており、サーバ装置２０は、キーボードやマウスに行われた操作に応じて動作する。通信部２０５は、通信網２を介して通信を行う通信インターフェースとして機能する。通信部２０５は、通信網２を介して端末装置１０と情報のやり取りを行う。なお、本実施形態においては、サーバ装置２０は、表示部２０３と操作部２０４を備えているが、表示部２０３と操作部２０４を備えていない構成であってもよい。

記憶部２０２は、ハードディスク装置を有しており、端末装置１０から送信された音声の情報に対応した情報を取得して端末装置１０へ送信するソフトウェアエージェントの機能を実現するプログラムを記憶している。また、記憶部２０２は、ソフトウェアエージェントがユーザの音声を認識するときに用いる音響モデルＭＢ１と、言語モデルＭＢ２とを記憶している。音響モデルＭＢ１も、音響モデルＭＡ１と同じく音声の特徴量と音素との対応関係を示すモデルである。また、言語モデルＭＢ２も、言語モデルＭＡ２と同じく形態素の前後間のつながりやすさや音素の並び方に関する制約を表したものである。

制御部２０１は、ＣＰＵ、ＲＯＭ及びＲＡＭを備えている。記憶部２０２に記憶されているプログラムが制御部２０１で実行されると、端末装置１０から送信された音声の情報に対応した情報を取得して端末装置１０へ送信するソフトウェアエージェントの機能が実現する。

図５は、サーバ装置２０において実現する機能のうち、本発明に係る機能の構成を示したブロック図である。受信手段２００１は、通信部２０５と協働し、端末装置１０が送信したユーザの音声を表す信号を受信する手段である。生成手段２００２は、受信手段２００１が受信した信号を解析し、当該信号に対応した情報を生成する手段である。第２送信手段２００３は、生成手段が生成した情報を端末装置１０へ送信する手段である。

（実施形態の動作例）
次に本実施形態の動作例について説明する。なお、以下の説明においては、まず端末装置１０とサーバ装置２０とが通信可能な第１状態にあるときの動作例について説明する。次に端末装置１０とサーバ装置２０とが通信できない第２状態の動作例と、第２状態から第１状態に変化したときの動作例について説明する。

（第１状態のときの動作例）
まず、端末装置１０のユーザは、例えば調べたいことがある場合、調べたいことを端末装置１０に話しかける。このユーザの音声は、音声処理部１０７のマイクロホンで収音される。音声処理部１０７は、マイクロホンが収音した音声をデジタル信号（以下、ユーザ音声信号と称する）に変換し、このユーザ音声信号を制御部１０１へ供給する。

図６は、制御部１０１が行う処理の流れを示したフローチャートである。制御部１０１（取得手段１００１）は、音声処理部１０７から供給されたユーザ音声信号を取得する（ステップＳＡ１）。制御部１０１は、ユーザ音声信号を取得すると、端末装置１０が通信網２の無線基地局の圏内に位置しているか否かを判断する。制御部１０１は、無線基地局が送信する制御情報を通信部１０５が受信できている場合、端末装置１０が通信網２の無線基地局の圏内に位置していると判断し、無線基地局が送信する制御情報を通信部１０５が受信できていない場合、端末装置１０が通信網２の無線基地局の圏内に位置していないと判断する。制御部１０１（第１送信手段１００２）は、端末装置１０が通信網２の無線基地局の圏内に位置している場合（ステップＳＡ２でＹＥＳ）、音声処理部１０７から供給されたユーザ音声信号を、通信部１０５を介してサーバ装置２０へ送信する（ステップＳＡ３）。

サーバ装置２０においては、端末装置１０から送信されたユーザ音声信号を通信部２０５が受信すると、通信部２０５が受信したユーザ音声信号が制御部２０１へ供給される。制御部２０１（受信手段２００１）は、ユーザ音声信号を取得する。制御部２０１は、ユーザ音声信号が供給されると、図８に示した処理を実行する。制御部２０１（生成手段２００２）は、供給されたユーザ音声信号が表す音声を認識してテキストデータに変換する（ステップＳＢ１）。音声信号をテキストデータに変換する方法としては、例えば、「端末機能やサービスの利便性向上のための音声認識技術とアプリケーション開発」、ＮＴＴＤＯＣＯＭＯテクニカルジャーナル、２０１２年１月、Ｖｏｌ１９、Ｎｏ．４、ｐ７４−ｐ７６に記載されている周知の技術を用いる。制御部２０１は、ユーザ音声信号の周波数特性を分析し、音声の特徴量を抽出する。制御部２０１は、音声の特徴量を抽出すると、ユーザ音声信号が表す音声の音素を音響モデルＭＢ１を用いて特定する。制御部２０１は、音素を特定すると、言語モデルＭＢ２を用いてユーザ音声信号が表す音声の形態素列を特定する。制御部２０１は、特定した形態素列からユーザが発話した音声を文字列にしたテキストデータを生成する。

制御部２０１（生成手段２００２）は、ユーザが発話した音声のテキストデータを生成すると、テキストデータに基いてユーザの発話に対応した情報を生成する（ステップＳＢ２）。なお、ユーザの発話に対応する情報の生成については、知識データベースや検索エンジンを使用する方法があり、例えば、「しゃべってコンシェルにおける質問応答技術」、ＮＴＴ技術ジャーナル、２０１３年２月、Ｖｏｌ２５、Ｎｏ．２、ｐ５６−ｐ５９や、「自然文質問への直接回答を実現する知識Ｑ＆Ａ」、ＮＴＴＤＯＣＯＭＯテクニカルジャーナル、２０１３年１月、Ｖｏｌ２０、Ｎｏ．４、ｐ６−ｐ１１に記載されている周知の技術を用いる。
制御部２０１は、例えば、ユーザの発話の内容が「富士山の高さは」という質問であった場合、質問に対応した情報として、質問への回答となる「富士山の高さは３７７６ｍです」というテキストデータ（以下、回答データと称する）と、質問への回答となる「３７７６ｍです」という音声のデジタル信号（以下、回答音声信号と称する）を生成する。

制御部２０１（第２送信手段２００３）は、回答データと回答音声信号とを通信部２０５を介して端末装置１０へ送信する（ステップＳＢ３）。端末装置１０においては、回答データと回答音声信号とを通信部１０５が受信すると、この回答データと回答音声信号とが制御部１０１へ供給される。制御部１０１（第２出力手段１００４）は、回答データと回答音声信号とを取得する（ステップＳＡ４）。制御部１０１（第２出力手段１００４）は、取得した回答データが表す文字列が表示されるように表示部１０３を制御する（ステップＳＡ５）。これにより、図９に例示したように、「富士山の高さは３７７６ｍです」という文字列が表示部１０３に表示される。また、制御部１０１は、回答音声信号を音声処理部１０７へ供給する。音声処理部１０７は、供給された回答音声信号をアナログ信号に変換する。このアナログ信号は、スピーカへ供給され、スピーカからは「３７７６ｍです」という音声が放音される（ステップＳＡ６）。

このように本実施形態においては、ユーザが端末装置１０に話しかけたときに端末装置１０とサーバ装置２０とが通信可能である場合、ユーザの音声に対してコミュニケーションシステム１が応答し、話しかけた音声に対応した情報をユーザに提供する。

（第２状態のときの動作例）
次に、ユーザが端末装置１０に話しかけたときに端末装置１０とサーバ装置２０とが通信できない状態である場合の動作例について説明する。例えば、電車での移動中においては、端末装置１０は、一時的に無線基地局の圏外となり、通信網２を介した通信を行えなくなる場合がある。制御部１０１は、ユーザ音声信号が供給されたときに端末装置１０が無線基地局の圏内に位置していない場合（ステップＳＡ２でＮＯ）、ユーザ音声信号を記憶部１０２に記憶させる（ステップＳＡ７）。また、制御部１０１（第１出力手段１００３）は、サーバ装置２０と同様にユーザ音声信号が表す音声を認識してテキストデータを生成する（ステップＳＡ８）。具体的には、制御部１０１は、ユーザ音声信号の周波数特性を分析し、音声の特徴量を抽出する。制御部１０１は、音声の特徴量を抽出すると、ユーザ音声信号が表す音声の音素を音響モデルＭＡ１を用いて特定する。制御部１０１は、音素を特定すると、言語モデルＭＡ２を用いてユーザ音声信号が表す音声の形態素列を特定する。制御部１０１は、特定した形態素列からユーザが発話した音声を文字列にしたテキストデータを生成する。

制御部１０１（第１出力手段１００３）は、ユーザが発話した音声のテキストデータを生成すると、ユーザの発話に対応する応答を生成する（ステップＳＡ９）。ここで生成する応答としては、例えば、コミュニケーションの間を保つ自然文などがある。制御部１０１は、生成した自然文のテキストデータと、生成した自然文を発話したときの音声を表す応答音声信号を生成する。制御部１０１（第１出力手段１００３）は、生成したテキストデータが表す文字列が表示されるように表示部１０３を制御する（ステップＳＡ１０）。また、制御部１０１（第１出力手段１００３）は、応答音声信号を音声処理部１０７へ供給する。音声処理部１０７は、供給された応答音声信号をアナログ信号に変換する。このアナログ信号は、スピーカへ供給され、スピーカからは生成した自然文を発話したときの音声が放音される（ステップＳＡ１１）。

例えば、ユーザの発話の内容が「富士山の高さは？」という質問文であった場合、制御部１０１は、コミュニケーションの間を保つ文として「それについては・・・」という自然文のテキストデータと、この自然文を発話したときの音声を表す応答音声信号を生成する。制御部１０１は、生成したテキストデータが表す文字列が表示されるように表示部１０３を制御する。これにより、「それについては・・・」という文字列が表示部１０３に表示される。また、制御部１０１は、応答音声信号を音声処理部１０７へ供給する。音声処理部１０７は、供給された回答音声信号をアナログ信号に変換する。このアナログ信号は、スピーカへ供給され、スピーカからは「それについては」という音声が放音される。また、制御部１０１は、さらにコミュニケーションの間を保つ文として「少しまってね」という自然文のテキストデータと、この自然文を発話したときの応答音声信号を生成する。制御部１０１は、生成したテキストデータが表す文字列が表示されるように表示部１０３を制御する。これにより、「少しまってね」という文字列が表示部１０３に表示される。また、制御部１０１は、応答音声信号を音声処理部１０７へ供給する。これにより、スピーカからは「少しまってね」という音声が放音される。

なお、本実施形態においては、コミュニケーションの間を保つ文は、予めアプリＡが記憶する構成であるが、この構成に限定されるものではない。例えば、コミュニケーションの間を保つ文のデータベースを記憶部１０２に記憶させ、ユーザの発話の内容に対応した文を制御部１０１がデータベースから取得する構成であってもよい。また、コミュニケーションの間を保つ文としては、挨拶や相槌などであってもよい。

このように本実施形態においては、端末装置１０が通信網２の無線基地局の圏外となってサーバ装置２０との通信ができない状態にある場合、ユーザの音声に対して端末装置１０が応答し、コミュニケーションを継続する。

（第２状態から第１状態へ変化したときの動作例）
次に、上述したように第２状態でユーザの発話に対して端末装置１０が応答した後、第１状態に変化したときの動作例について説明する。例えば、上述したように電車での移動中においては、端末装置１０は、一時的に無線基地局の圏外となって第２状態になるが、さらに移動すると第２状態から第１状態に戻る。制御部１０１は、第２状態から第１状態になると、図７に示した処理を実行し、第２状態のときに記憶部１０２に記憶されたユーザ音声信号を、通信部１０５を介してサーバ装置２０へ送信する（ステップＳＣ１）。

例えば、上述したように第２状態においてユーザの発話の内容が「富士山の高さは？」という質問であった場合、記憶部１０２には、この発話のユーザ音声信号が記憶されている。制御部１０１は、第２状態から第１状態になると、このユーザ音声信号を通信部１０５を介してサーバ装置２０へ送信する。

サーバ装置２０においては、端末装置１０から送信されたユーザ音声信号を通信部２０５が受信すると、上述した第１状態のときの動作例と同様に、制御部２０１が質問への回答となる回答データと回答音声信号を生成する。制御部２０１は、生成した回答データと回答音声信号とを通信部２０５を介して端末装置１０へ送信する。制御部１０１は、サーバ装置２０が送信した回答データと回答音声信号とを取得する（ステップＳＣ２）。受信した回答データが表す文字列を表示部１０３に表示し（ステップＳＣ３）、回答音声信号が示す音声をスピーカから放音する（ステップＳＣ４）。

以上説明したように本実施形態によれば、端末装置１０とサーバ装置２０とが一時的に通信を行えない状態となっても、端末装置１０が音声を発してユーザとのコミュニケーションを継続するため、通信が行えずにサーバ装置２０から情報を取得できない状態をユーザに意識させないことができる。また、本実施形態によれば、端末装置１０とサーバ装置２０とが通信を行えない状態から通信可能な状態に戻ると、端末装置１０とサーバ装置２０とが通信を行うため、ユーザの発話に対して端末装置１０では回答できない情報をサーバ装置２０からユーザに提示することができる。

［変形例］
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。なお、上述した実施形態及び以下の変形例は、各々を組み合わせてもよい。

上述した実施形態においては、ユーザが発話した音声のユーザ音声信号をサーバ装置２０へ送信し、このユーザ音声信号の内容に対応した情報をサーバ装置２０が端末装置１０へ送信する構成となっているが、この構成に限定されるものではない。例えば、天気や交通機関の運行情報などは、日や時間によって変化するため、ユーザがよく質問するものである。端末装置１０は、天気や運行情報などの予め定められた情報については、これらを問い合わせる質問文を予め定めた時間が経過する毎又は予め定めた時刻にサーバ装置２０へ送信し、サーバ装置２０から回答データと回答音声信号とを取得しておくようにしてもよい。そして、端末装置１０とサーバ装置２０とが通信不可の状態のときに、ユーザの発話の内容が天気や交通機関の運行情報などを質問するものである場合、予めサーバ装置２０から取得した回答データと回答音声信号とに基いて、天気の情報や運行情報をユーザに提示してもよい。
なお、予め回答データと回答音声信号とを取得する構成においては、例えばユーザが端末装置１０のＷｅｂブラウザを使用して検索エンジンで検索した文字列について、回答データと回答音声信号とを周期的又は予め定めた時刻に取得するようにしてもよい。
また、回数が多いユーザの質問を端末装置１０がユーザの音声信号から解析し、回数が多いと特定した質問文を、予め定めた時間が経過する毎又は予め定めた時刻にサーバ装置２０へ送信し、サーバ装置２０から回答データと回答音声信号とを取得しておくようにしてもよい。例えば、端末装置１０は、一日に同じ質問が３回以上された場合、この質問を回数が多い質問と特定する。そして、端末装置１０とサーバ装置２０とが通信不可の状態のときのユーザの発話の内容が、予め回数が多いと特定した質問文である場合、予めサーバ装置２０から取得した回答データと回答音声信号とに基いて、質問文への回答をユーザに提示してもよい。例えば、株価の情報についての質問回数が多いユーザについては、端末装置１０は、予め定められた時間（前場と後場の開始時間及び終了時間）に予め株価の情報をサーバ装置２０から取得しておいてもよい。
また、端末装置１０は、予め取得した回答データと回答音声信号とで第２状態において応答した後に第１状態となった場合、記憶部１０２に記憶しておいたユーザ音声信号をサーバ装置２０へ送信し、サーバ装置２０から取得した回答データと回答音声データとに基いて画面の表示と放音とを行うようにしてもよい。
なお、回答データと回答音声信号とを予め取得した時刻と、第２状態から第１状態になった時刻との差が予め定められた閾値未満である場合、記憶部１０２に記憶しておいたユーザ音声信号をサーバ装置２０へ送信しないようにしてもよい。また、回答データと回答音声信号とを予め取得する構成においては、端末装置１０は、第２状態にある場合、例えば近距離無線通信で近隣の端末装置１０と通信を行い、他の携帯端末が取得している回答データと回答音声信号とを取得するようにしてもよい。

なお、ユーザがよくする質問について端末装置１０が予めサーバ装置２０から回答データと回答音声信号とを取得する構成においては、周期的又は予め定めた時刻に取得する構成に限定されるものではない。例えば、端末装置１０は、無線基地局の電波強度を監視し、電波強度が予め定められた閾値未満となると、ユーザがよくする質問についてサーバ装置２０から回答データと回答音声信号とを取得する構成としてもよい。また、端末装置１０は、圏外となる位置をＧＰＳ（Global Positioning System）により予め特定しておき、第１状態のときに特定した位置から予め定められた範囲内の位置に入ると、ユーザがよくする質問についてサーバ装置２０から回答データと回答音声信号とを取得する構成としてもよい。
また、例えばショッピングモールやデパートなどの大型の建物に入ると、端末装置１０が第２状態となる虞があるため、端末装置１０は、自身の位置を監視し、このような建物に近づいた場合には、ユーザがよくする質問についてはサーバ装置２０から回答データと回答音声信号とを予め取得する構成としてもよい。

上述した実施形態においては、端末装置１０が第２状態の場合、端末装置１０は、ユーザの発話に対してコミュニケーションの間を保つ自然文で応答するが、この構成に限定されるものではない。例えば、端末装置１０は、発話の内容をユーザに詳細に問い合わせる構成であってもよい。例えば、ユーザが「ランチ食べたい」と発話した場合、「何を食べたい？」、「価格は？」、「場所は？」など、発話に対する回答を絞り込むのに有用な会話を端末装置１０が行うようにしてもよい。
この場合、端末装置１０は、各質問に対して発した音声のユーザ音声信号を記憶部１０２に記憶し、第１状態に戻ったときは、記憶した各ユーザ音声信号をサーバ装置２０へ送信する。サーバ装置２０は、各ユーザ音声信号に対して音声認識を行い、各音声認識結果から得られた文字列でユーザの発話に対応する情報を取得する構成としてもよい。

上述した実施形態においては、端末装置１０は、第２状態である場合にユーザの発話に対して応答しているが、この構成に限定されるものではない。例えば、端末装置１０が無線基地局の圏内にあっても、通信網２又はサーバ装置２０で障害が発生し、端末装置１０がサーバ装置２０と通信を行えない場合が生じ得る。端末装置１０は、無線基地局の圏内にあるときにサーバ装置２０と通信可能であるか周期的に検知し、圏内であっても通信不可の場合には、上述した実施形態と同様に、ユーザの発話に対して端末装置１０が応答するようにしてもよい。

上述した実施形態においては、テキストデータが表す文字列を表示するときに、図１０に例示したように、エージェントのアバターを表示し、表示したアバターからの吹き出しの中にテキストデータが表す文字列を表示してもよい。また、回答音声信号や応答音声信号の音声を放音するときに、アバターが発話しているようにアバターの口元をアニメーションで表示するようにしてもよい。
また、端末装置１０は、サーバ装置２０から取得した回答データを表示し、回答音声データの音声を放音する場合には、大人のアバターを表示し、第２状態においてコミュニケーションの間を保つ自然文の表示と音声の放音を行う場合には、子供のアバターを表示するようにしてもよい。また、この変形例にあっては、端末装置１０は、大人のアバターを表示しているときには大人の音声で放音し、子供のアバターを表示しているときには子供の音声で放音するようにしてもよい。また、アバターを表示する構成においては、端末装置１０は、アバターを複数種類有し、ユーザの会話の内容に応じてアバターを変更するようにしてもよい。

上述した実施形態においては、第２状態においてコミュニケーションの間を保つ自然文の表示及び音声の放音が端末装置１０で行われた後、ユーザが情報の取得を中止する発話した場合、端末装置１０は、記憶部１０２に記憶されたユーザ音声信号をサーバ装置２０へ送信しないようにしてもよい。
また、端末装置１０は、第２状態においてコミュニケーションの間を保つ自然文の表示及び音声の放音が端末装置１０で行われた後、第２状態の継続時間が予め定められた時間を越えた場合、ユーザの発話に対して直ぐに応答できないことを報知してもよい。また、この場合、端末装置１０は、ユーザの発話に対して応答できないことを報知し、第１状態に戻っても、記憶したユーザ音声信号をサーバ装置２０へ送信しないようにしてもよい。また、端末装置１０は、第２状態においてコミュニケーションの間を保つ自然文の表示及び音声の放音が端末装置１０で行われた後、第２状態の継続時間が予め定められた時間を越えてから第１状態となった場合、質問文への回答を行うか否かユーザに問い合わせる構成としてもよい。端末装置１０は、ユーザが回答を希望した場合、ユーザ音声信号をサーバ装置２０へ送信し、回答を希望しなかった場合、ユーザ音声信号をサーバ装置２０へ送信しないようにしてもよい。

上述した実施形態においては、端末装置１０は、第２状態となってから経過した時間を計時し、計時した時間が予め定められた閾値以上のときにユーザが発話した場合、ユーザの発話に対して直ぐに応答できないことを報知してもよい。また、端末装置１０は、第１状態から第２状態となったときには、ユーザの発話に対して直ぐに応答できないことを報知し、第２状態から第１状態となったときには、ユーザの発話に対して直ぐに応答できることを報知してもよい。

上述した実施形態においては、ユーザが発話した音声に対して端末装置１０やサーバ装置２０が応答しているが、ユーザからの入力は音声に限定されるものではない。例えば、ユーザが端末装置１０において会話や質問の文章を入力し、入力された文章に対応した情報をユーザに提示するようにしてもよい。この構成によれば、チャットのように文字の入力でコミュニケーションを図ることができる。

上述した実施形態においては、コミュニケーションシステム１は、端末装置１０とサーバ装置２０との構成に限定されるものではなく他の構成であってもよい。例えば、サーバ装置２０については、上記の刊行物の「自然文質問への直接回答を実現する知識Ｑ＆Ａ」に記載されているように、端末装置１０から送信された音声信号を受信するフロントサーバと、データベース型Ｑ＆Ａサーバと、検索型Ｑ＆Ａサーバとで構成してもよい。

フロントサーバは、端末装置１０から送信されたユーザ音声信号を音声認識してテキストデータを生成する。フロントサーバは、生成したテキストデータをデータベース型Ｑ＆Ａサーバへ送信し、データベース型Ｑ＆Ａサーバで回答を得られた場合には、得られた回答を端末装置１０へ送信する。また、フロントサーバは、データベース型Ｑ＆Ａサーバで回答を得られなかった場合には、生成したテキストデータを検索型Ｑ＆Ａサーバへ送信する。フロントサーバは、検索型Ｑ＆Ａサーバで得られた回答を端末装置１０へ送信する。

データベース型Ｑ＆Ａサーバは、知識データベースを有するサーバである。データベース型Ｑ＆Ａサーバは、フロントサーバから送られたテキストデータが表す質問を解析し、質問の対象と属性を抽出する。データベース型Ｑ＆Ａサーバは、抽出した対象と属性を知識データベースにおいて検査する。例えば、質問の内容が「エベレストの高さは？」という質問である場合、データベース型Ｑ＆Ａサーバは、「エベレスト」という対象と、「標高」という属性を抽出する。知識データベースにおいては、富士山やエベレスト、キリマンジャロなどの山の名称と標高とが対応付けて格納されており、データベース型Ｑ＆Ａサーバは、知識データベースからエベレストの標高を抽出し、抽出した標高をフロントサーバへ送信する。

検索型Ｑ＆Ａサーバは、検索エンジンを用いてユーザの発話に対する回答を得るサーバである。検索型Ｑ＆Ａサーバは、フロントサーバから送られたテキストデータから検索エンジンへ送るキーワードを抽出し、抽出したキーワードを検索エンジンへ送る。検索型Ｑ＆Ａサーバは、検索エンジンの検索結果からユーザの発話に対する回答を生成し、生成した回答をフロントサーバへ送信する。

上述した実施形態においては、端末装置１０は、第２状態の場合にコミュニケーションの間を保つ音声を放音するが、この構成に限定されるものではない。例えば、端末装置１０に記憶されている楽曲のデータを再生してコミュニケーションの間を保つようにしてもよい。

上述した実施形態においては、端末装置１０は、第２状態のときにはコミュニケーションの間を保つ自然文を出力する構成となっているが、この構成に限定されるものではない。例えば、予め定めた時間帯や予め定めた位置など、所定の条件に合致する場合には第１状態であってもコミュニケーションの間を保つ自然文を出力する構成としてもよい。

上述した実施形態においては、端末装置１０内において仮想化ネットワークを構築し、ユーザ音声信号を仮想化ネットワークに構築されたデータ保管部に記憶させるようにしてもよい。この構成においては、端末装置１０は、第２状態にある場合、ユーザ音声信号を仮想化ネットワークに構築されたデータ保管部に記憶させる。端末装置１０は、第２状態から第１状態になった場合、データ保管部から仮想化ネットワークを介してユーザ音声信号を読み出し、読み出したユーザ音声信号をサーバ装置２０へ送信する。

上述した実施形態においては、ユーザ音声信号を端末装置１０からサーバ装置２０へ送信しているが、端末装置１０においてユーザ音声信号を音声認識してテキストデータを生成し、生成したテキストデータをサーバ装置２０へ送信する構成としてもよい。この構成においては、サーバ装置２０は、送信されたテキストデータに基いて、ユーザの発話に対応する回答を生成する。
また、上述した実施形態においては、回答音声信号をサーバ装置２０から端末装置１０へ送信しているが、端末装置１０が放音する音声を示すテキストデータをサーバ装置２０から端末装置１０へ送信する構成としてもよい。この構成においては、端末装置１０は、サーバ装置２０から送信されたテキストデータから音声合成を行い、テキストデータの内容を発話する。
また、端末装置１０とサーバ装置２０との間でやり取りする情報は、音声信号やテキストデータに限定されるものではなく、ユーザの音声やサーバ装置２０からの回答を符号化してもよい。例えば、「おはよう」という挨拶を「Ａ０１」、「こんにちは」という挨拶を「Ａ０２」、「今晩は」という挨拶を「Ａ０３」と符号化し、符号化後のデータを通信先の装置へ送信してもよい。端末装置１０とサーバ装置２０は、符号化された情報と符号化される前の情報との対応関係を記憶しており、符号化された情報を取得した装置は、記憶している対応関係を参照し、取得した情報をテキストデータに変換して処理する。
また、質問に関する音声を符号化し、日時に関する音声をパラメータとするようにしてもよい。例えば、ユーザの音声が「今日の天気は？」という音声である場合、「今日」という日について「天気」の質問をしていることとなる。この場合、端末装置１０は、天気の質問を「Ｂ０１」と符号化し、「今日」という音声を「today」というパラメータに変換してサーバ装置２０へ送信する。端末装置１０とサーバ装置２０は、符号化された情報及びパラメータと、符号化される前の情報との対応関係を記憶しており、符号化された情報やパラメータを取得した装置は、記憶している対応関係を参照し、取得した情報をテキストデータに変換して処理する。例えば、サーバ装置２０は、「Ｂ０１」という情報と「today」という情報を取得すると、今日の天気についての質問と解釈し、今日の天気についての情報を端末装置１０へ送信する。

上述した実施形態においては、ステップＳＡ１とステップＳＡ２の順番を逆にしてもよく、端末装置１０は、無線基地局の圏内か否かを判断した後に、ユーザ音声信号を取得し、無線基地局の圏内の場合には、取得したユーザ音声信号をサーバ装置２０へ送信し、無線基地局の圏外の場合には、取得したユーザ音声信号を記憶部１０２に記憶させるようにしてもよい。

本発明に係る機能を実現するプログラムは、磁気記録媒体（磁気テープ、磁気ディスク（ＨＤＤ（Hard Disk Drive）、ＦＤ（Flexible Disk））など）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータ読取り可能な記録媒体に記憶した状態で提供し、各装置にインストールしてもよい。また、通信網２を介してプログラムをダウンロードして各装置にインストールしてもよい。

１…コミュニケーションシステム、２…通信網、１０…端末装置、２０…サーバ装置、１０１…制御部、１０２…記憶部、１０３…表示部、１０４…操作部、１０５…通信部、１０７…音声処理部、２０１…制御部、２０２…記憶部、２０３…表示部、２０４…操作部、２０５…通信部、１００１…取得手段、１００２…第１送信手段、１００３…第１出力手段、１００４…第２出力手段、２００１…受信手段、２００２…生成手段、２００３…第２送信手段

Claims

ユーザからの第１情報を取得する取得手段と、
サーバ装置との通信が不可である場合、前記取得手段が前記第１情報を取得すると、前記ユーザとコミュニケーションを図る第２情報を出力する第１出力手段と、
前記サーバ装置との通信が不可である場合、前記取得手段が前記第１情報を取得すると、当該第１情報を記憶手段に記憶させる制御手段と、
前記サーバ装置との通信が可である場合、前記取得手段が前記第１情報を取得すると、前記第１情報を前記サーバ装置へ送信し、前記サーバ装置との通信が不可の状態から可の状態に変化した場合、前記記憶手段に記憶された前記第１情報を前記サーバ装置へ送信し、予め定められたタイミングで前記サーバ装置との通信が可である場合、予め定められた第１情報を前記サーバ装置へ送信する第１送信手段と、
前記第１送信手段が送信した前記第１情報への応答として前記サーバ装置から送信された第３情報を受信し、受信した第３情報を出力する第２出力手段と
を有する端末装置。
コンピュータを、
ユーザからの第１情報を取得する取得手段と、
サーバ装置との通信が不可である場合、前記取得手段が前記第１情報を取得すると、前記ユーザとコミュニケーションを図る第２情報を出力する第１出力手段と、
前記サーバ装置との通信が不可である場合、前記取得手段が前記第１情報を取得すると、当該第１情報を記憶手段に記憶させる制御手段と、
前記サーバ装置との通信が可である場合、前記取得手段が前記第１情報を取得すると、前記第１情報を前記サーバ装置へ送信し、前記サーバ装置との通信が不可の状態から可の状態に変化した場合、前記記憶手段に記憶された前記第１情報を前記サーバ装置へ送信し、予め定められたタイミングで前記サーバ装置との通信が可である場合、予め定められた第１情報を前記サーバ装置へ送信する第１送信手段と、
前記第１送信手段が送信した前記第１情報への応答として前記サーバ装置から送信された第３情報を受信し、受信した第３情報を出力する第２出力手段
として機能させるためのプログラム。