JP6120708B2 - 端末装置およびプログラム - Google Patents

端末装置およびプログラム Download PDF

Info

Publication number
JP6120708B2
JP6120708B2 JP2013143750A JP2013143750A JP6120708B2 JP 6120708 B2 JP6120708 B2 JP 6120708B2 JP 2013143750 A JP2013143750 A JP 2013143750A JP 2013143750 A JP2013143750 A JP 2013143750A JP 6120708 B2 JP6120708 B2 JP 6120708B2
Authority
JP
Japan
Prior art keywords
information
user
terminal device
communication
server device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013143750A
Other languages
English (en)
Other versions
JP2015018327A (ja
Inventor
千晶 森田
千晶 森田
耕太郎 永瀬
耕太郎 永瀬
山本 浩之
浩之 山本
和成 鈴木
和成 鈴木
佐藤 大輔
大輔 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013143750A priority Critical patent/JP6120708B2/ja
Publication of JP2015018327A publication Critical patent/JP2015018327A/ja
Application granted granted Critical
Publication of JP6120708B2 publication Critical patent/JP6120708B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、ユーザからの情報に応答する技術に関する。
特許文献1には、複数のエージェントによりサービスを受ける技術が開示されている。特許文献1に開示されたシステムにおいては、ローカルネットワークに接続されたPC(Personal Computer)でMYエージェントが動作する。また、ローカルネットワークが接続されたインターネットには、サービスエージェントが稼働する機器が接続されている。PCに対してユーザが発話すると、PCで稼働しているMYエージェントが応答する。また、PCに対してユーザが発話すると、必要に応じてインターネットに接続された機器で稼働しているサービスエージェントが応答する。
特開2008−90545号公報
ところで、特許文献1におけるPCがスマートフォンであり、移動体通信網を介してサービスエージェントと通信を行う場合、例えばスマートフォンが電車で移動中のときにはスマートフォンが圏外となり、インターネットに接続されている機器とスマートフォンとが通信を行えなくなる場合がある。この場合、ユーザが操作するスマートフォンが、インターネットに接続された機器で動作しているサービスエージェントと通信を行えなくなり、ユーザの発話に対して応答が得られないという事態が生じてしまう。
本発明は、上述した背景の下になされたものであり、端末装置が他の装置と通信を行えない状態にあっても、ユーザに対してコミュニケーションを継続する技術を提供することを目的とする。
本発明は、ユーザからの第1情報を取得する取得手段と、サーバ装置との通信が不可である場合、前記取得手段が前記第1情報を取得すると、前記ユーザとコミュニケーションを図る第2情報を出力する第1出力手段と、前記サーバ装置との通信が不可である場合、前記取得手段が前記第1情報を取得すると、当該第1情報を記憶手段に記憶させる制御手段と、前記サーバ装置との通信が可である場合、前記取得手段が前記第1情報を取得すると、前記第1情報を前記サーバ装置へ送信し、前記サーバ装置との通信が不可の状態から可の状態に変化した場合、前記記憶手段に記憶された前記第1情報を前記サーバ装置へ送信し、予め定められたタイミングで前記サーバ装置との通信が可である場合、予め定められた第1情報を前記サーバ装置へ送信する第1送信手段と、前記第1送信手段が送信した前記第1情報への応答として前記サーバ装置から送信された第3情報を受信し、受信した第3情報を出力する第2出力手段とを有する端末装置を提供する。
また、本発明は、コンピュータを、ユーザからの第1情報を取得する取得手段と、サーバ装置との通信が不可である場合、前記取得手段が前記第1情報を取得すると、前記ユーザとコミュニケーションを図る第2情報を出力する第1出力手段と、前記サーバ装置との通信が不可である場合、前記取得手段が前記第1情報を取得すると、当該第1情報を記憶手段に記憶させる制御手段と、前記サーバ装置との通信が可である場合、前記取得手段が前記第1情報を取得すると、前記第1情報を前記サーバ装置へ送信し、前記サーバ装置との通信が不可の状態から可の状態に変化した場合、前記記憶手段に記憶された前記第1情報を前記サーバ装置へ送信し、予め定められたタイミングで前記サーバ装置との通信が可である場合、予め定められた第1情報を前記サーバ装置へ送信する第1送信手段と、前記第1送信手段が送信した前記第1情報への応答として前記サーバ装置から送信された第3情報を受信し、受信した第3情報を出力する第2出力手段として機能させるためのプログラムを提供する。
本発明によれば、端末装置が他の装置と通信を行えない状態にあっても、ユーザに対してコミュニケーションを継続することができる。
コミュニケーションシステム1を構成する装置を示した図。 端末装置10のハードウェア構成を示したブロック図。 端末装置10において実現する機能の構成を示したブロック図。 サーバ装置20のハードウェア構成を示したブロック図。 サーバ装置20において実現する機能の構成を示したブロック図。 制御部101が行う処理の流れを示したフローチャート。 制御部101が行う処理の流れを示したフローチャート。 制御部201が行う処理の流れを示したフローチャート。 端末装置10が表示する画面の一例を示した図。 変形例で表示される画像の一例を示した図。
[実施形態]
(全体構成)
図1は、本発明の一実施形態に係るコミュニケーションシステム1を構成する装置を示した図である。コミュニケーションシステム1は、ユーザから与えられた情報に応答し、与えられた情報に対応した情報をユーザに提示するシステムである。本実施形態に係るコミュニケーションシステム1は、サーバ装置20と端末装置10とで構成されており、ユーザが端末装置10に話しかけた音声(ユーザから与えられる情報の一例)に応答し、話しかけた音声の内容に対応した情報をユーザに提示する、即ち、ユーザと装置とが互いに情報を伝達してコミュニケーションを図るシステムである。
通信網2は、スマートフォンなどの端末装置10に音声通信やデータ通信などの通信サービスを提供する通信網である。通信網2は、インターネットや固定電話網、公衆無線LAN(Local Area Network)なども含めることができる。サーバ装置20と端末装置10は、通信網2を介してデータ通信を行う。
端末装置10は、本実施形態においてはスマートフォンであり、通信網2を介して音声通信やデータ通信を行う。端末装置10は、スマートフォンに限定されるものではなく、通信網2を介してデータ通信を行う機能を備えているものであれば、タブレットPC、フィーチャーフォン又はPDA(Personal Digital Assistant)などであってもよい。本実施形態においては、端末装置10は、ユーザから与えられた情報に応答するソフトウェアエージェントの機能が実現する。なお、コミュニケーションシステム1においては、端末装置10は複数存在するが、図面が繁雑になるのを防ぐため、図1においては、一つの端末装置10のみを示している。
サーバ装置20は、端末装置10から送られた情報に対して応答するソフトウェアエージェントの機能を有する装置である。サーバ装置20は、端末装置10から送られた情報を解析し、送られた情報に対応した情報を取得して端末装置10へ送信する。
(端末装置10の構成)
図2は、端末装置10のハードウェア構成の一例を示したブロック図である。制御部101は、CPU(Central Processing Unit)やRAM(Random Access Memory)、不揮発性メモリを備えており。CPUが不揮発性メモリに記憶されているプログラムを実行すると、スマートフォンの基本的な機能が実現する。
表示部103は、液晶ディスプレイを備えており、端末装置10を操作するための画面や各種メッセージを表示する。操作部104は、端末装置10を操作するための複数のキーを備えている。また、操作部104は、表示部103の表面に設けられ、表示部103が表示した画像を透過し、指が触れた位置を検出するタッチパネルを備えている。通信部105は、通信網2を介して通信を行う通信インターフェースとして機能し、各種情報の受信や送信を行う。
音声処理部107は、マイクロホンとスピーカを有している。音声処理部107は、端末装置10同士が音声通話を行う場合、通話相手の音声に係るデジタル信号が通信部105から供給されると、供給されたデジタル信号をアナログ信号に変換する。このアナログ信号は、スピーカへ供給され、スピーカからは、通話相手の音声が放音される。また、音声処理部107は、マイクロホンが音声を収音すると、収音した音声をデジタル信号に変換する。音声処理部107は、端末装置10が音声通話を行う場合、ユーザの音声を変換したデジタル信号を通信部105へ供給する。このデジタル信号は、通信部105から通信網2へ送信され、通話相手の端末装置10へ送信される。また、音声処理部107は、制御部101が後述するアプリAを実行している場合には、マイクロホンが収音したユーザの音声をデジタル信号に変換し、このデジタル信号を制御部101へ供給する。
記憶部102は、不揮発性メモリであり、各種アプリケーションプログラムを記憶する。本実施形態においては、記憶部102は、ユーザから与えられた情報に応答するソフトウェアエージェントの機能を実現するアプリケーションプログラム(以下、アプリAと称する)を記憶している。制御部101のCPUが、記憶部102に記憶されているアプリAを実行すると、ユーザから与えられた情報に応答するソフトウェアエージェントの機能が実現する。ソフトウェアエージェントは、ユーザが端末装置10に話しかけた音声(情報)に応答し、話しかけた音声の内容に対応した情報をサーバ装置20と協働してユーザに提示する。
また、記憶部102は、ソフトウェアエージェントがユーザの音声を認識するときに用いる音響モデルMA1と、言語モデルMA2とを記憶している。音響モデルMA1は、音声の特徴量と音素との対応関係を示すモデルであり、音素がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルとしては、周知の隠れマルコフモデルを用いている。言語モデルMA2は、形態素の前後間のつながりやすさや音素の並び方に関する制約を表したものである。
図3は、アプリAを実行した制御部101において実現する機能のうち、本発明に係る特徴的な機能の構成を示したブロック図である。取得手段1001は、音声処理部107が出力したデジタル信号、即ち、マイクロフォンが収音したユーザの音声を表す信号を取得する手段である。第1送信手段1002は、サーバ装置20との通信が可能な場合、取得手段1001が得たユーザの音声の信号を通信部105を制御してサーバ装置20へ送信する手段である。第1出力手段1003は、サーバ装置20との通信が不可の場合、ユーザとのコミュニケーションを図る音声や文字列を出力する手段である。第2出力手段1004は、第1送信手段が送信した信号への応答としてサーバ装置20から送信された情報を受信し、受信した情報を音声や文字で出力する手段である。
(サーバ装置20の構成)
図4は、サーバ装置20のハードウェア構成の一例を示したブロック図である。表示部203は、液晶ディスプレイを備えており、サーバ装置20を操作するための画面や記憶部202に記憶されている情報などを表示する。操作部204は、キーボードやマウスを備えており、サーバ装置20は、キーボードやマウスに行われた操作に応じて動作する。通信部205は、通信網2を介して通信を行う通信インターフェースとして機能する。通信部205は、通信網2を介して端末装置10と情報のやり取りを行う。なお、本実施形態においては、サーバ装置20は、表示部203と操作部204を備えているが、表示部203と操作部204を備えていない構成であってもよい。
記憶部202は、ハードディスク装置を有しており、端末装置10から送信された音声の情報に対応した情報を取得して端末装置10へ送信するソフトウェアエージェントの機能を実現するプログラムを記憶している。また、記憶部202は、ソフトウェアエージェントがユーザの音声を認識するときに用いる音響モデルMB1と、言語モデルMB2とを記憶している。音響モデルMB1も、音響モデルMA1と同じく音声の特徴量と音素との対応関係を示すモデルである。また、言語モデルMB2も、言語モデルMA2と同じく形態素の前後間のつながりやすさや音素の並び方に関する制約を表したものである。
制御部201は、CPU、ROM及びRAMを備えている。記憶部202に記憶されているプログラムが制御部201で実行されると、端末装置10から送信された音声の情報に対応した情報を取得して端末装置10へ送信するソフトウェアエージェントの機能が実現する。
図5は、サーバ装置20において実現する機能のうち、本発明に係る機能の構成を示したブロック図である。受信手段2001は、通信部205と協働し、端末装置10が送信したユーザの音声を表す信号を受信する手段である。生成手段2002は、受信手段2001が受信した信号を解析し、当該信号に対応した情報を生成する手段である。第2送信手段2003は、生成手段が生成した情報を端末装置10へ送信する手段である。
(実施形態の動作例)
次に本実施形態の動作例について説明する。なお、以下の説明においては、まず端末装置10とサーバ装置20とが通信可能な第1状態にあるときの動作例について説明する。次に端末装置10とサーバ装置20とが通信できない第2状態の動作例と、第2状態から第1状態に変化したときの動作例について説明する。
(第1状態のときの動作例)
まず、端末装置10のユーザは、例えば調べたいことがある場合、調べたいことを端末装置10に話しかける。このユーザの音声は、音声処理部107のマイクロホンで収音される。音声処理部107は、マイクロホンが収音した音声をデジタル信号(以下、ユーザ音声信号と称する)に変換し、このユーザ音声信号を制御部101へ供給する。
図6は、制御部101が行う処理の流れを示したフローチャートである。制御部101(取得手段1001)は、音声処理部107から供給されたユーザ音声信号を取得する(ステップSA1)。制御部101は、ユーザ音声信号を取得すると、端末装置10が通信網2の無線基地局の圏内に位置しているか否かを判断する。制御部101は、無線基地局が送信する制御情報を通信部105が受信できている場合、端末装置10が通信網2の無線基地局の圏内に位置していると判断し、無線基地局が送信する制御情報を通信部105が受信できていない場合、端末装置10が通信網2の無線基地局の圏内に位置していないと判断する。制御部101(第1送信手段1002)は、端末装置10が通信網2の無線基地局の圏内に位置している場合(ステップSA2でYES)、音声処理部107から供給されたユーザ音声信号を、通信部105を介してサーバ装置20へ送信する(ステップSA3)。
サーバ装置20においては、端末装置10から送信されたユーザ音声信号を通信部205が受信すると、通信部205が受信したユーザ音声信号が制御部201へ供給される。制御部201(受信手段2001)は、ユーザ音声信号を取得する。制御部201は、ユーザ音声信号が供給されると、図8に示した処理を実行する。制御部201(生成手段2002)は、供給されたユーザ音声信号が表す音声を認識してテキストデータに変換する(ステップSB1)。音声信号をテキストデータに変換する方法としては、例えば、「端末機能やサービスの利便性向上のための音声認識技術とアプリケーション開発」、NTT DOCOMO テクニカルジャーナル、2012年1月、Vol19、No.4、p74−p76に記載されている周知の技術を用いる。制御部201は、ユーザ音声信号の周波数特性を分析し、音声の特徴量を抽出する。制御部201は、音声の特徴量を抽出すると、ユーザ音声信号が表す音声の音素を音響モデルMB1を用いて特定する。制御部201は、音素を特定すると、言語モデルMB2を用いてユーザ音声信号が表す音声の形態素列を特定する。制御部201は、特定した形態素列からユーザが発話した音声を文字列にしたテキストデータを生成する。
制御部201(生成手段2002)は、ユーザが発話した音声のテキストデータを生成すると、テキストデータに基いてユーザの発話に対応した情報を生成する(ステップSB2)。なお、ユーザの発話に対応する情報の生成については、知識データベースや検索エンジンを使用する方法があり、例えば、「しゃべってコンシェルにおける質問応答技術」、NTT技術ジャーナル、2013年2月、Vol25、No.2、p56−p59や、「自然文質問への直接回答を実現する知識Q&A」、NTT DOCOMO テクニカルジャーナル、2013年1月、Vol20、No.4、p6−p11に記載されている周知の技術を用いる。
制御部201は、例えば、ユーザの発話の内容が「富士山の高さは」という質問であった場合、質問に対応した情報として、質問への回答となる「富士山の高さは3776mです」というテキストデータ(以下、回答データと称する)と、質問への回答となる「3776mです」という音声のデジタル信号(以下、回答音声信号と称する)を生成する。
制御部201(第2送信手段2003)は、回答データと回答音声信号とを通信部205を介して端末装置10へ送信する(ステップSB3)。端末装置10においては、回答データと回答音声信号とを通信部105が受信すると、この回答データと回答音声信号とが制御部101へ供給される。制御部101(第2出力手段1004)は、回答データと回答音声信号とを取得する(ステップSA4)。制御部101(第2出力手段1004)は、取得した回答データが表す文字列が表示されるように表示部103を制御する(ステップSA5)。これにより、図9に例示したように、「富士山の高さは3776mです」という文字列が表示部103に表示される。また、制御部101は、回答音声信号を音声処理部107へ供給する。音声処理部107は、供給された回答音声信号をアナログ信号に変換する。このアナログ信号は、スピーカへ供給され、スピーカからは「3776mです」という音声が放音される(ステップSA6)。
このように本実施形態においては、ユーザが端末装置10に話しかけたときに端末装置10とサーバ装置20とが通信可能である場合、ユーザの音声に対してコミュニケーションシステム1が応答し、話しかけた音声に対応した情報をユーザに提供する。
(第2状態のときの動作例)
次に、ユーザが端末装置10に話しかけたときに端末装置10とサーバ装置20とが通信できない状態である場合の動作例について説明する。例えば、電車での移動中においては、端末装置10は、一時的に無線基地局の圏外となり、通信網2を介した通信を行えなくなる場合がある。制御部101は、ユーザ音声信号が供給されたときに端末装置10が無線基地局の圏内に位置していない場合(ステップSA2でNO)、ユーザ音声信号を記憶部102に記憶させる(ステップSA7)。また、制御部101(第1出力手段1003)は、サーバ装置20と同様にユーザ音声信号が表す音声を認識してテキストデータを生成する(ステップSA8)。具体的には、制御部101は、ユーザ音声信号の周波数特性を分析し、音声の特徴量を抽出する。制御部101は、音声の特徴量を抽出すると、ユーザ音声信号が表す音声の音素を音響モデルMA1を用いて特定する。制御部101は、音素を特定すると、言語モデルMA2を用いてユーザ音声信号が表す音声の形態素列を特定する。制御部101は、特定した形態素列からユーザが発話した音声を文字列にしたテキストデータを生成する。
制御部101(第1出力手段1003)は、ユーザが発話した音声のテキストデータを生成すると、ユーザの発話に対応する応答を生成する(ステップSA9)。ここで生成する応答としては、例えば、コミュニケーションの間を保つ自然文などがある。制御部101は、生成した自然文のテキストデータと、生成した自然文を発話したときの音声を表す応答音声信号を生成する。制御部101(第1出力手段1003)は、生成したテキストデータが表す文字列が表示されるように表示部103を制御する(ステップSA10)。また、制御部101(第1出力手段1003)は、応答音声信号を音声処理部107へ供給する。音声処理部107は、供給された応答音声信号をアナログ信号に変換する。このアナログ信号は、スピーカへ供給され、スピーカからは生成した自然文を発話したときの音声が放音される(ステップSA11)。
例えば、ユーザの発話の内容が「富士山の高さは?」という質問文であった場合、制御部101は、コミュニケーションの間を保つ文として「それについては・・・」という自然文のテキストデータと、この自然文を発話したときの音声を表す応答音声信号を生成する。制御部101は、生成したテキストデータが表す文字列が表示されるように表示部103を制御する。これにより、「それについては・・・」という文字列が表示部103に表示される。また、制御部101は、応答音声信号を音声処理部107へ供給する。音声処理部107は、供給された回答音声信号をアナログ信号に変換する。このアナログ信号は、スピーカへ供給され、スピーカからは「それについては」という音声が放音される。また、制御部101は、さらにコミュニケーションの間を保つ文として「少しまってね」という自然文のテキストデータと、この自然文を発話したときの応答音声信号を生成する。制御部101は、生成したテキストデータが表す文字列が表示されるように表示部103を制御する。これにより、「少しまってね」という文字列が表示部103に表示される。また、制御部101は、応答音声信号を音声処理部107へ供給する。これにより、スピーカからは「少しまってね」という音声が放音される。
なお、本実施形態においては、コミュニケーションの間を保つ文は、予めアプリAが記憶する構成であるが、この構成に限定されるものではない。例えば、コミュニケーションの間を保つ文のデータベースを記憶部102に記憶させ、ユーザの発話の内容に対応した文を制御部101がデータベースから取得する構成であってもよい。また、コミュニケーションの間を保つ文としては、挨拶や相槌などであってもよい。
このように本実施形態においては、端末装置10が通信網2の無線基地局の圏外となってサーバ装置20との通信ができない状態にある場合、ユーザの音声に対して端末装置10が応答し、コミュニケーションを継続する。
(第2状態から第1状態へ変化したときの動作例)
次に、上述したように第2状態でユーザの発話に対して端末装置10が応答した後、第1状態に変化したときの動作例について説明する。例えば、上述したように電車での移動中においては、端末装置10は、一時的に無線基地局の圏外となって第2状態になるが、さらに移動すると第2状態から第1状態に戻る。制御部101は、第2状態から第1状態になると、図7に示した処理を実行し、第2状態のときに記憶部102に記憶されたユーザ音声信号を、通信部105を介してサーバ装置20へ送信する(ステップSC1)。
例えば、上述したように第2状態においてユーザの発話の内容が「富士山の高さは?」という質問であった場合、記憶部102には、この発話のユーザ音声信号が記憶されている。制御部101は、第2状態から第1状態になると、このユーザ音声信号を通信部105を介してサーバ装置20へ送信する。
サーバ装置20においては、端末装置10から送信されたユーザ音声信号を通信部205が受信すると、上述した第1状態のときの動作例と同様に、制御部201が質問への回答となる回答データと回答音声信号を生成する。制御部201は、生成した回答データと回答音声信号とを通信部205を介して端末装置10へ送信する。制御部101は、サーバ装置20が送信した回答データと回答音声信号とを取得する(ステップSC2)。受信した回答データが表す文字列を表示部103に表示し(ステップSC3)、回答音声信号が示す音声をスピーカから放音する(ステップSC4)。
以上説明したように本実施形態によれば、端末装置10とサーバ装置20とが一時的に通信を行えない状態となっても、端末装置10が音声を発してユーザとのコミュニケーションを継続するため、通信が行えずにサーバ装置20から情報を取得できない状態をユーザに意識させないことができる。また、本実施形態によれば、端末装置10とサーバ装置20とが通信を行えない状態から通信可能な状態に戻ると、端末装置10とサーバ装置20とが通信を行うため、ユーザの発話に対して端末装置10では回答できない情報をサーバ装置20からユーザに提示することができる。
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。なお、上述した実施形態及び以下の変形例は、各々を組み合わせてもよい。
上述した実施形態においては、ユーザが発話した音声のユーザ音声信号をサーバ装置20へ送信し、このユーザ音声信号の内容に対応した情報をサーバ装置20が端末装置10へ送信する構成となっているが、この構成に限定されるものではない。例えば、天気や交通機関の運行情報などは、日や時間によって変化するため、ユーザがよく質問するものである。端末装置10は、天気や運行情報などの予め定められた情報については、これらを問い合わせる質問文を予め定めた時間が経過する毎又は予め定めた時刻にサーバ装置20へ送信し、サーバ装置20から回答データと回答音声信号とを取得しておくようにしてもよい。そして、端末装置10とサーバ装置20とが通信不可の状態のときに、ユーザの発話の内容が天気や交通機関の運行情報などを質問するものである場合、予めサーバ装置20から取得した回答データと回答音声信号とに基いて、天気の情報や運行情報をユーザに提示してもよい。
なお、予め回答データと回答音声信号とを取得する構成においては、例えばユーザが端末装置10のWebブラウザを使用して検索エンジンで検索した文字列について、回答データと回答音声信号とを周期的又は予め定めた時刻に取得するようにしてもよい。
また、回数が多いユーザの質問を端末装置10がユーザの音声信号から解析し、回数が多いと特定した質問文を、予め定めた時間が経過する毎又は予め定めた時刻にサーバ装置20へ送信し、サーバ装置20から回答データと回答音声信号とを取得しておくようにしてもよい。例えば、端末装置10は、一日に同じ質問が3回以上された場合、この質問を回数が多い質問と特定する。そして、端末装置10とサーバ装置20とが通信不可の状態のときのユーザの発話の内容が、予め回数が多いと特定した質問文である場合、予めサーバ装置20から取得した回答データと回答音声信号とに基いて、質問文への回答をユーザに提示してもよい。例えば、株価の情報についての質問回数が多いユーザについては、端末装置10は、予め定められた時間(前場と後場の開始時間及び終了時間)に予め株価の情報をサーバ装置20から取得しておいてもよい。
また、端末装置10は、予め取得した回答データと回答音声信号とで第2状態において応答した後に第1状態となった場合、記憶部102に記憶しておいたユーザ音声信号をサーバ装置20へ送信し、サーバ装置20から取得した回答データと回答音声データとに基いて画面の表示と放音とを行うようにしてもよい。
なお、回答データと回答音声信号とを予め取得した時刻と、第2状態から第1状態になった時刻との差が予め定められた閾値未満である場合、記憶部102に記憶しておいたユーザ音声信号をサーバ装置20へ送信しないようにしてもよい。また、回答データと回答音声信号とを予め取得する構成においては、端末装置10は、第2状態にある場合、例えば近距離無線通信で近隣の端末装置10と通信を行い、他の携帯端末が取得している回答データと回答音声信号とを取得するようにしてもよい。
なお、ユーザがよくする質問について端末装置10が予めサーバ装置20から回答データと回答音声信号とを取得する構成においては、周期的又は予め定めた時刻に取得する構成に限定されるものではない。例えば、端末装置10は、無線基地局の電波強度を監視し、電波強度が予め定められた閾値未満となると、ユーザがよくする質問についてサーバ装置20から回答データと回答音声信号とを取得する構成としてもよい。また、端末装置10は、圏外となる位置をGPS(Global Positioning System)により予め特定しておき、第1状態のときに特定した位置から予め定められた範囲内の位置に入ると、ユーザがよくする質問についてサーバ装置20から回答データと回答音声信号とを取得する構成としてもよい。
また、例えばショッピングモールやデパートなどの大型の建物に入ると、端末装置10が第2状態となる虞があるため、端末装置10は、自身の位置を監視し、このような建物に近づいた場合には、ユーザがよくする質問についてはサーバ装置20から回答データと回答音声信号とを予め取得する構成としてもよい。
上述した実施形態においては、端末装置10が第2状態の場合、端末装置10は、ユーザの発話に対してコミュニケーションの間を保つ自然文で応答するが、この構成に限定されるものではない。例えば、端末装置10は、発話の内容をユーザに詳細に問い合わせる構成であってもよい。例えば、ユーザが「ランチ食べたい」と発話した場合、「何を食べたい?」、「価格は?」、「場所は?」など、発話に対する回答を絞り込むのに有用な会話を端末装置10が行うようにしてもよい。
この場合、端末装置10は、各質問に対して発した音声のユーザ音声信号を記憶部102に記憶し、第1状態に戻ったときは、記憶した各ユーザ音声信号をサーバ装置20へ送信する。サーバ装置20は、各ユーザ音声信号に対して音声認識を行い、各音声認識結果から得られた文字列でユーザの発話に対応する情報を取得する構成としてもよい。
上述した実施形態においては、端末装置10は、第2状態である場合にユーザの発話に対して応答しているが、この構成に限定されるものではない。例えば、端末装置10が無線基地局の圏内にあっても、通信網2又はサーバ装置20で障害が発生し、端末装置10がサーバ装置20と通信を行えない場合が生じ得る。端末装置10は、無線基地局の圏内にあるときにサーバ装置20と通信可能であるか周期的に検知し、圏内であっても通信不可の場合には、上述した実施形態と同様に、ユーザの発話に対して端末装置10が応答するようにしてもよい。
上述した実施形態においては、テキストデータが表す文字列を表示するときに、図10に例示したように、エージェントのアバターを表示し、表示したアバターからの吹き出しの中にテキストデータが表す文字列を表示してもよい。また、回答音声信号や応答音声信号の音声を放音するときに、アバターが発話しているようにアバターの口元をアニメーションで表示するようにしてもよい。
また、端末装置10は、サーバ装置20から取得した回答データを表示し、回答音声データの音声を放音する場合には、大人のアバターを表示し、第2状態においてコミュニケーションの間を保つ自然文の表示と音声の放音を行う場合には、子供のアバターを表示するようにしてもよい。また、この変形例にあっては、端末装置10は、大人のアバターを表示しているときには大人の音声で放音し、子供のアバターを表示しているときには子供の音声で放音するようにしてもよい。また、アバターを表示する構成においては、端末装置10は、アバターを複数種類有し、ユーザの会話の内容に応じてアバターを変更するようにしてもよい。
上述した実施形態においては、第2状態においてコミュニケーションの間を保つ自然文の表示及び音声の放音が端末装置10で行われた後、ユーザが情報の取得を中止する発話した場合、端末装置10は、記憶部102に記憶されたユーザ音声信号をサーバ装置20へ送信しないようにしてもよい。
また、端末装置10は、第2状態においてコミュニケーションの間を保つ自然文の表示及び音声の放音が端末装置10で行われた後、第2状態の継続時間が予め定められた時間を越えた場合、ユーザの発話に対して直ぐに応答できないことを報知してもよい。また、この場合、端末装置10は、ユーザの発話に対して応答できないことを報知し、第1状態に戻っても、記憶したユーザ音声信号をサーバ装置20へ送信しないようにしてもよい。また、端末装置10は、第2状態においてコミュニケーションの間を保つ自然文の表示及び音声の放音が端末装置10で行われた後、第2状態の継続時間が予め定められた時間を越えてから第1状態となった場合、質問文への回答を行うか否かユーザに問い合わせる構成としてもよい。端末装置10は、ユーザが回答を希望した場合、ユーザ音声信号をサーバ装置20へ送信し、回答を希望しなかった場合、ユーザ音声信号をサーバ装置20へ送信しないようにしてもよい。
上述した実施形態においては、端末装置10は、第2状態となってから経過した時間を計時し、計時した時間が予め定められた閾値以上のときにユーザが発話した場合、ユーザの発話に対して直ぐに応答できないことを報知してもよい。また、端末装置10は、第1状態から第2状態となったときには、ユーザの発話に対して直ぐに応答できないことを報知し、第2状態から第1状態となったときには、ユーザの発話に対して直ぐに応答できることを報知してもよい。
上述した実施形態においては、ユーザが発話した音声に対して端末装置10やサーバ装置20が応答しているが、ユーザからの入力は音声に限定されるものではない。例えば、ユーザが端末装置10において会話や質問の文章を入力し、入力された文章に対応した情報をユーザに提示するようにしてもよい。この構成によれば、チャットのように文字の入力でコミュニケーションを図ることができる。
上述した実施形態においては、コミュニケーションシステム1は、端末装置10とサーバ装置20との構成に限定されるものではなく他の構成であってもよい。例えば、サーバ装置20については、上記の刊行物の「自然文質問への直接回答を実現する知識Q&A」に記載されているように、端末装置10から送信された音声信号を受信するフロントサーバと、データベース型Q&Aサーバと、検索型Q&Aサーバとで構成してもよい。
フロントサーバは、端末装置10から送信されたユーザ音声信号を音声認識してテキストデータを生成する。フロントサーバは、生成したテキストデータをデータベース型Q&Aサーバへ送信し、データベース型Q&Aサーバで回答を得られた場合には、得られた回答を端末装置10へ送信する。また、フロントサーバは、データベース型Q&Aサーバで回答を得られなかった場合には、生成したテキストデータを検索型Q&Aサーバへ送信する。フロントサーバは、検索型Q&Aサーバで得られた回答を端末装置10へ送信する。
データベース型Q&Aサーバは、知識データベースを有するサーバである。データベース型Q&Aサーバは、フロントサーバから送られたテキストデータが表す質問を解析し、質問の対象と属性を抽出する。データベース型Q&Aサーバは、抽出した対象と属性を知識データベースにおいて検査する。例えば、質問の内容が「エベレストの高さは?」という質問である場合、データベース型Q&Aサーバは、「エベレスト」という対象と、「標高」という属性を抽出する。知識データベースにおいては、富士山やエベレスト、キリマンジャロなどの山の名称と標高とが対応付けて格納されており、データベース型Q&Aサーバは、知識データベースからエベレストの標高を抽出し、抽出した標高をフロントサーバへ送信する。
検索型Q&Aサーバは、検索エンジンを用いてユーザの発話に対する回答を得るサーバである。検索型Q&Aサーバは、フロントサーバから送られたテキストデータから検索エンジンへ送るキーワードを抽出し、抽出したキーワードを検索エンジンへ送る。検索型Q&Aサーバは、検索エンジンの検索結果からユーザの発話に対する回答を生成し、生成した回答をフロントサーバへ送信する。
上述した実施形態においては、端末装置10は、第2状態の場合にコミュニケーションの間を保つ音声を放音するが、この構成に限定されるものではない。例えば、端末装置10に記憶されている楽曲のデータを再生してコミュニケーションの間を保つようにしてもよい。
上述した実施形態においては、端末装置10は、第2状態のときにはコミュニケーションの間を保つ自然文を出力する構成となっているが、この構成に限定されるものではない。例えば、予め定めた時間帯や予め定めた位置など、所定の条件に合致する場合には第1状態であってもコミュニケーションの間を保つ自然文を出力する構成としてもよい。
上述した実施形態においては、端末装置10内において仮想化ネットワークを構築し、ユーザ音声信号を仮想化ネットワークに構築されたデータ保管部に記憶させるようにしてもよい。この構成においては、端末装置10は、第2状態にある場合、ユーザ音声信号を仮想化ネットワークに構築されたデータ保管部に記憶させる。端末装置10は、第2状態から第1状態になった場合、データ保管部から仮想化ネットワークを介してユーザ音声信号を読み出し、読み出したユーザ音声信号をサーバ装置20へ送信する。
上述した実施形態においては、ユーザ音声信号を端末装置10からサーバ装置20へ送信しているが、端末装置10においてユーザ音声信号を音声認識してテキストデータを生成し、生成したテキストデータをサーバ装置20へ送信する構成としてもよい。この構成においては、サーバ装置20は、送信されたテキストデータに基いて、ユーザの発話に対応する回答を生成する。
また、上述した実施形態においては、回答音声信号をサーバ装置20から端末装置10へ送信しているが、端末装置10が放音する音声を示すテキストデータをサーバ装置20から端末装置10へ送信する構成としてもよい。この構成においては、端末装置10は、サーバ装置20から送信されたテキストデータから音声合成を行い、テキストデータの内容を発話する。
また、端末装置10とサーバ装置20との間でやり取りする情報は、音声信号やテキストデータに限定されるものではなく、ユーザの音声やサーバ装置20からの回答を符号化してもよい。例えば、「おはよう」という挨拶を「A01」、「こんにちは」という挨拶を「A02」、「今晩は」という挨拶を「A03」と符号化し、符号化後のデータを通信先の装置へ送信してもよい。端末装置10とサーバ装置20は、符号化された情報と符号化される前の情報との対応関係を記憶しており、符号化された情報を取得した装置は、記憶している対応関係を参照し、取得した情報をテキストデータに変換して処理する。
また、質問に関する音声を符号化し、日時に関する音声をパラメータとするようにしてもよい。例えば、ユーザの音声が「今日の天気は?」という音声である場合、「今日」という日について「天気」の質問をしていることとなる。この場合、端末装置10は、天気の質問を「B01」と符号化し、「今日」という音声を「today」というパラメータに変換してサーバ装置20へ送信する。端末装置10とサーバ装置20は、符号化された情報及びパラメータと、符号化される前の情報との対応関係を記憶しており、符号化された情報やパラメータを取得した装置は、記憶している対応関係を参照し、取得した情報をテキストデータに変換して処理する。例えば、サーバ装置20は、「B01」という情報と「today」という情報を取得すると、今日の天気についての質問と解釈し、今日の天気についての情報を端末装置10へ送信する。
上述した実施形態においては、ステップSA1とステップSA2の順番を逆にしてもよく、端末装置10は、無線基地局の圏内か否かを判断した後に、ユーザ音声信号を取得し、無線基地局の圏内の場合には、取得したユーザ音声信号をサーバ装置20へ送信し、無線基地局の圏外の場合には、取得したユーザ音声信号を記憶部102に記憶させるようにしてもよい。
本発明に係る機能を実現するプログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD(Hard Disk Drive)、FD(Flexible Disk))など)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどのコンピュータ読取り可能な記録媒体に記憶した状態で提供し、各装置にインストールしてもよい。また、通信網2を介してプログラムをダウンロードして各装置にインストールしてもよい。
1…コミュニケーションシステム、2…通信網、10…端末装置、20…サーバ装置、101…制御部、102…記憶部、103…表示部、104…操作部、105…通信部、107…音声処理部、201…制御部、202…記憶部、203…表示部、204…操作部、205…通信部、1001…取得手段、1002…第1送信手段、1003…第1出力手段、1004…第2出力手段、2001…受信手段、2002…生成手段、2003…第2送信手段

Claims (2)

  1. ユーザからの第1情報を取得する取得手段と、
    サーバ装置との通信が不可である場合、前記取得手段が前記第1情報を取得すると、前記ユーザとコミュニケーションを図る第2情報を出力する第1出力手段と、
    前記サーバ装置との通信が不可である場合、前記取得手段が前記第1情報を取得すると、当該第1情報を記憶手段に記憶させる制御手段と、
    前記サーバ装置との通信が可である場合、前記取得手段が前記第1情報を取得すると、前記第1情報を前記サーバ装置へ送信し、前記サーバ装置との通信が不可の状態から可の状態に変化した場合、前記記憶手段に記憶された前記第1情報を前記サーバ装置へ送信し、予め定められたタイミングで前記サーバ装置との通信が可である場合、予め定められた第1情報を前記サーバ装置へ送信する第1送信手段と、
    前記第1送信手段が送信した前記第1情報への応答として前記サーバ装置から送信された第3情報を受信し、受信した第3情報を出力する第2出力手段と
    を有する端末装置。
  2. コンピュータを、
    ユーザからの第1情報を取得する取得手段と、
    サーバ装置との通信が不可である場合、前記取得手段が前記第1情報を取得すると、前記ユーザとコミュニケーションを図る第2情報を出力する第1出力手段と、
    前記サーバ装置との通信が不可である場合、前記取得手段が前記第1情報を取得すると、当該第1情報を記憶手段に記憶させる制御手段と、
    前記サーバ装置との通信が可である場合、前記取得手段が前記第1情報を取得すると、前記第1情報を前記サーバ装置へ送信し、前記サーバ装置との通信が不可の状態から可の状態に変化した場合、前記記憶手段に記憶された前記第1情報を前記サーバ装置へ送信し、予め定められたタイミングで前記サーバ装置との通信が可である場合、予め定められた第1情報を前記サーバ装置へ送信する第1送信手段と、
    前記第1送信手段が送信した前記第1情報への応答として前記サーバ装置から送信された第3情報を受信し、受信した第3情報を出力する第2出力手段
    として機能させるためのプログラム。
JP2013143750A 2013-07-09 2013-07-09 端末装置およびプログラム Active JP6120708B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013143750A JP6120708B2 (ja) 2013-07-09 2013-07-09 端末装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013143750A JP6120708B2 (ja) 2013-07-09 2013-07-09 端末装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2015018327A JP2015018327A (ja) 2015-01-29
JP6120708B2 true JP6120708B2 (ja) 2017-04-26

Family

ID=52439278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013143750A Active JP6120708B2 (ja) 2013-07-09 2013-07-09 端末装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6120708B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6962105B2 (ja) * 2017-09-27 2021-11-05 カシオ計算機株式会社 対話装置、サーバ装置、対話方法及びプログラム
JP2020067785A (ja) * 2018-10-24 2020-04-30 本田技研工業株式会社 制御装置、エージェント装置及びプログラム
JP7274903B2 (ja) * 2019-03-25 2023-05-17 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN113674742B (zh) * 2021-08-18 2022-09-27 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4554285B2 (ja) * 2004-06-18 2010-09-29 トヨタ自動車株式会社 音声認識システム、音声認識方法、及び音声認識プログラム
JP2012256001A (ja) * 2011-06-10 2012-12-27 Alpine Electronics Inc 移動体における音声認識装置および方法
JP2013088477A (ja) * 2011-10-13 2013-05-13 Alpine Electronics Inc 音声認識システム
JP5698864B2 (ja) * 2012-03-07 2015-04-08 パイオニア株式会社 ナビゲーション装置、サーバ、ナビゲーション方法及びプログラム
JP6052610B2 (ja) * 2013-03-12 2016-12-27 パナソニックIpマネジメント株式会社 情報通信端末、およびその対話方法

Also Published As

Publication number Publication date
JP2015018327A (ja) 2015-01-29

Similar Documents

Publication Publication Date Title
US9864745B2 (en) Universal language translator
JP6129134B2 (ja) 音声対話装置、音声対話システム、端末、音声対話方法およびコンピュータを音声対話装置として機能させるためのプログラム
RU2637874C2 (ru) Генерирование диалоговых рекомендаций для чатовых информационных систем
JP6790234B2 (ja) 通訳装置及び方法(device and method of translating a language into another language)
US20090198497A1 (en) Method and apparatus for speech synthesis of text message
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
WO2011048826A1 (ja) 音声翻訳システム、制御装置、および制御方法
KR20070026452A (ko) 음성 인터랙티브 메시징을 위한 방법 및 장치
JP2008083376A (ja) 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよび端末装置
JP6120708B2 (ja) 端末装置およびプログラム
JP2015521404A (ja) 即時翻訳システム
CN102292766A (zh) 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品
KR20190029237A (ko) 통역장치 및 그 방법
US10002611B1 (en) Asynchronous audio messaging
JP7095684B2 (ja) 情報処理装置、情報処理方法、プログラム
KR101959439B1 (ko) 통역방법
JP2004096171A (ja) 通話活性化システム
KR100367579B1 (ko) 음성을 이용한 인터넷사용시스템
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
JP5423970B2 (ja) 音声メール実現システム、音声メール実現サーバ、その方法及びそのプログラム
KR20220107052A (ko) 청취 디바이스, 청취 디바이스의 조정 방법
JP2016091195A (ja) 情報送受信プログラム及びシステム
KR20210121818A (ko) 대화자간 실시간 동시통역 서비스 제공방법
US20170185587A1 (en) Machine translation method and machine translation system
JP2002132291A (ja) 自然言語対話処理装置およびその方法並びにその記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170328

R150 Certificate of patent or registration of utility model

Ref document number: 6120708

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250