JP2014199323A - 音声対話装置及び対話制御方法 - Google Patents

音声対話装置及び対話制御方法 Download PDF

Info

Publication number
JP2014199323A
JP2014199323A JP2013074512A JP2013074512A JP2014199323A JP 2014199323 A JP2014199323 A JP 2014199323A JP 2013074512 A JP2013074512 A JP 2013074512A JP 2013074512 A JP2013074512 A JP 2013074512A JP 2014199323 A JP2014199323 A JP 2014199323A
Authority
JP
Japan
Prior art keywords
response time
message
voice
user
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013074512A
Other languages
English (en)
Other versions
JP6111802B2 (ja
Inventor
野口 祐一郎
Yuichiro Noguchi
祐一郎 野口
高橋 潤
Jun Takahashi
潤 高橋
村瀬 健太郎
Kentaro Murase
健太郎 村瀬
福岡 俊之
Toshiyuki Fukuoka
俊之 福岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013074512A priority Critical patent/JP6111802B2/ja
Publication of JP2014199323A publication Critical patent/JP2014199323A/ja
Application granted granted Critical
Publication of JP6111802B2 publication Critical patent/JP6111802B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】応答時間にばらつきがあっても、応答時間中のユーザの体感品質の低下を抑制できるようにその応答時間中に再生するメッセージ音声の長さを設定できる音声対話装置を提供する。【解決手段】音声対話装置3は、ユーザの音声の入力が終了してからユーザにコンテンツを提示するまでの応答時間の確率分布を算出し、その確率分布に基づいて、応答時間が推定応答時間以下の場合に、推定応答時間または推定応答時間から所定のオフセットを減じた長さを持つ第1のメッセージ音声を応答時間内に再生する場合のユーザの第1の体感品質についての第1の期待値と、推定応答時間よりも応答時間が長く、応答時間内に第1のメッセージ音声と追加の第2のメッセージ音声とを再生する場合のユーザの第2の体感品質についての第2の期待値の和である評価値が最大となるように、メッセージ音声の長さを決定する。【選択図】図2

Description

本発明は、例えば、ユーザが発した音声を認識し、その認識結果に応じた処理を実行する音声対話装置及び対話制御方法に関する。
近年、端末を介して入力された音声信号を通信ネットワークを介してサーバへ送信し、サーバがその音声信号に応じて所望のコンテンツを選択し、そのコンテンツを端末へ返信する音声対話システムが開発されている。このような音声対話システムでは、サーバの負荷が一定の水準を超えたとき、または、通信ネットワークに輻輳が生じている場合など、サーバから端末へ情報が返信される際の遅延が大きくなることがあった。遅延が大きくなると、ユーザによる音声入力から端末がその音声に対応するコンテンツをユーザに提示するまでの、端末が応答しない応答時間が長くなる。そのため、ユーザが不安を感じたり、ユーザの不快感が増し、その結果として音声対話システムに対するユーザの利便性が低下するおそれがあった。そこで、認識辞書のサイズ情報に基づいて認識辞書の読み出しに必要な時間を予測し、その予測された時間に応じた長さの応答音声をスピーカに出力させる音声対話装置が提案されている(例えば、特許文献1を参照)。この音声対話装置は、そのような応答音声の出力により、認識辞書を読み出す際に長く無音時間が続くことを防止する。
特開2001−22384号公報
しかしながら、端末とサーバ間の通信回線の通信状態またはサーバの処理負荷によっても応答時間は変動する。そのため、認識辞書のサイズ情報だけでは、応答時間が正確に推定されずに、メッセージの長さが最適化されないおそれがあった。
そこで本発明は、一つの側面として、応答時間にばらつきがあっても、応答時間中のユーザの体感品質の低下を抑制できるようにその応答時間中に再生するメッセージ音声の長さを設定できる音声対話装置を提供することを目的とする。
一つの実施形態によれば、音声対話装置が提供される。この音声対話装置は、音声入力部により集音されたユーザの音声を表す音声信号から所定のキーワードを抽出する音声認識部と、キーワードに応じたコンテンツを検索する検索部と、ユーザの音声の入力が終了してからユーザにコンテンツを提示するまでの応答時間の確率分布を算出する遅延分布算出部と、その確率分布に基づいて、応答時間が推定応答時間以下の場合に、推定応答時間または推定応答時間から所定のオフセットを減じた長さを持つ第1のメッセージ音声を応答時間内に再生する場合のユーザの第1の体感品質についての第1の期待値と、推定応答時間よりも応答時間が長く、応答時間内に第1のメッセージ音声と追加の第2のメッセージ音声とを再生する場合のユーザの第2の体感品質についての第2の期待値の和である評価値が最大となるように、メッセージ音声の長さを決定するメッセージ長決定部と、決定されたメッセージ音声の長さを持つ第1のメッセージのテキスト情報を生成するメッセージ生成部と、第1のメッセージのテキスト情報から第1のメッセージ音声を合成する音声合成部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声対話装置は、応答時間にばらつきがあっても、応答時間中のユーザの体感品質の低下を抑制できるようにその応答時間中に再生するメッセージ音声の長さを設定できる。
一つの実施形態による音声対話システムの概略構成図である。 サーバの制御部の機能ブロック図である。 情報源テーブルの一例を示す図である。 応答時間の推定に成功した場合のユーザの体感品質及び応答時間の推定に失敗した場合のユーザの体感品質の応答時間による変化を表す図である。 対話制御処理の動作シーケンス図である。 (a)は、応答時間と体感品質の関係を表す関数の一例を表す図である。(b)は、応答時間の累積確率の一例を表す図である。(c)は(a)及び(b)から求められた、応答時間の累積確率とユーザの体感品質との関係を表す図である。 図6(c)に示された累積確率Pと体感品質との関係を表すグラフにおいて、体感品質R(P)を一定値Rとし、かつ、累積確率Pと体感品質Q(P)の関係を直線で近似したグラフを表す図である。 未延長体感品質と延長体感品質が一致する累積確率の算出に使用される各パラメータの関係を表す図である。
以下、図を参照しつつ、様々な実施形態による音声対話装置及びその音声対話装置の対話制御方法について説明する。
この音声対話装置は、端末を介してユーザが音声を入力してから、端末がその入力された音声に対する応答を行うまでの応答時間の確率分布を、過去の応答時間に基づいて推定する。そしてこの音声対話装置は、その応答時間の確率分布に基づいて、ユーザの体感品質が最も高くなるように、応答時間中に再生されるメッセージの長さを決定する。その際、この音声対話装置は、応答時間にばらつきがあっても、体感品質を統計的に高めることができるように、実際の応答時間がその推定値よりも長くなった場合に追加のメッセージを挿入する場合の体感品質も考慮する。
図1は、音声対話システムの概略構成図である。本実施形態では、音声対話システム1は、ユーザが音声を入力し、入力した音声に応じたコンテンツの提供を受けるための端末2と、端末2を介して入力された音声に応じたコンテンツを選択し、選択したコンテンツを端末2へ返信するサーバ3とを有する。
端末2とサーバ3とは、例えば、公衆通信回線といった通信ネットワーク4を介して互いに通信可能となっている。さらに、サーバ3は、通信ネットワーク4を介して、Webサーバまたはftpサーバなどの外部情報源5と通信可能となっていてもよい。なお、端末2とサーバ3とは、通信ネットワーク4とは別個の専用線などの通信回線によって接続されていてもよい。
端末2は、例えば、携帯電話機、携帯情報端末、あるいは固定端末であり、音声入力部21と、音声出力部22と、通信部23と、記憶部24と、処理部25とを有する。さらに端末2は、液晶ディスプレイといった表示部(図示せず)をさらに有してもよい。
音声入力部21は、例えば、マイクロホンと、アナログ/デジタル変換器とを有する。そしてユーザが発した音声はマイクロホンによりアナログの電気信号である音声信号に変換される。そのアナログの音声信号は、アナログ/デジタル変換器により所定のサンプリング周波数でサンプリングされてデジタルの音声信号に変換された後、処理部25へ送られる。
音声出力部22は、ユーザにコンテンツを提示する出力部の一例であり、例えば、デジタル/アナログ変換器とスピーカとを有する。そして音声出力部22は、デジタル/アナログ変換器により、処理部25から受け取った音声信号をアナログ化し、そのアナログ化された音声信号がスピーカにより音声に変換され、ユーザへ向けて出力される。
通信部23は、端末2を通信ネットワーク4に接続するためのインターフェース回路を有する。そして通信部23は、通信ネットワーク4が準拠する通信方式に従って、処理部25から受け取った音声信号を通信ネットワーク4を介してサーバ3へ送信する。一方、通信部23は、通信ネットワーク4を介して、サーバ3から、コンテンツと、応答時間中に再生されるメッセージ音声をサーバ3から受信して処理部25へ渡す。
記憶部24は、例えば、半導体メモリを有する。そして記憶部24は、処理部25が端末2を制御するための各種プログラム、端末2上で動作するアプリケーションプログラム及びそれらプログラムの実行に必要な各種のデータを記憶する。
処理部25は、一つまたは複数のプロセッサと、周辺回路とを有する。そして処理部25は、音声入力部21を介して入力された音声信号を通信部23へ出力する。また処理部25は、ユーザによる音声入力が終了すると、サーバ3から受信したメッセージ音声を音声出力部22を介して再生する。なお、処理部25は、例えば、音声入力が終了したか否かを判定するために、入力された音声信号を所定のフレーム単位で時間周波数変換することにより、フレームごとのパワースペクトルを求める。そして処理部25は、周波数帯域ごとのパワーの平均値が所定の閾値以上となったフレームの後で、そのパワーの平均値以下となるフレームが所定数以上連続すると、音声入力が終了したと判断する。
さらに、処理部25は、メッセージ音声の再生が終了した後、サーバ3からコンテンツを受信すると、コンテンツに含まれる音声信号を音声出力部22を介して再生する。
なお、コンテンツが画像またはビデオストリームを含む場合には、処理部25は、その画像またはビデオストリームを図示しない表示部に表示させてもよい。また処理部25は、コンテンツにテキスト情報が含まれる場合も、そのテキスト情報を表示部に表示させてもよい。
さらに、コンテンツにゲームなどのアプリケーションプログラムが含まれる場合、処理部25は、アプリケーションプログラムを実行し、その実行結果に応じた画像を表示部に表示させ、またはその実行結果に応じた音声信号を音声出力部22に再生させてもよい。
さらに、処理部25は、音声の入力が終了してからコンテンツを受信するまでの時間を実際の応答時間として計時し、その応答時間を通信部23を介してサーバ3へ送信する。
再度図1を参照すると、音声対話装置の一例であるサーバ3は、通信部31と、記憶部32と、制御部33とを有する。
通信部31は、サーバ3を通信ネットワーク4に接続するためのインターフェース回路を有する。そして通信部31は、通信ネットワーク4が準拠する通信方式に従って、端末2から通信ネットワーク4を介して受け取った音声信号を制御部33へ渡す。さらに、通信部31は、端末2から受信した応答時間を、記憶部32に記憶させる。一方、通信部31は、制御部33から受け取ったコンテンツ及びメッセージ音声等を通信ネットワーク4を介して端末2へ送信する。さらに通信部31は、通信ネットワーク4を介して外部情報源5へ情報取得要求信号を送信し、その外部情報源5から所定のコンテンツを含むデータを受信してもよい。
なお、以下では、説明の便宜上、端末2からサーバが受信した、ユーザの音声信号を、入力音声信号と呼ぶ。
記憶部32は、例えば、半導体メモリ、磁気記録装置または光記録装置の少なくとも一つを有する。そして記憶部32は、制御部33がサーバ3を制御するための各種プログラム、サーバ3上で動作するアプリケーションプログラム及びそれらプログラムの実行に必要な各種のデータを記憶する。例えば、記憶部32は、音声認識または音声合成に利用される各種の情報、ユーザが求める各種のコンテンツまたは外部情報源5のアドレスを記憶する。さらに記憶部32は、応答時間中に再生されるメッセージ音声の長さ及びメッセージ音声の内容を決定するために利用される各種の情報を記憶する。例えば、記憶部32は、応答時間の確率分布、応答時間とユーザの体感品質の関係を表すテーブルなどを記憶する。
制御部33は、一つまたは複数のプロセッサと、読み書き可能な半導体メモリと、周辺回路とを有する。そして制御部33は、入力音声信号からキーワードを抽出し、そのキーワードに基づいて、ユーザが所望するコンテンツを検索する。さらに制御部33は、応答時間の確率分布に応じて、その応答時間内に再生されるメッセージ音声の時間長を設定し、その時間長に応じたメッセージ音声を作成する。そして制御部33は、検索したコンテンツ及びメッセージ音声を端末2へ返信する。
図2は、音声対話システムが有するサーバ3の制御部33の機能ブロック図である。制御部33は、音声認識部34と、検索部35と、遅延分布算出部36と、メッセージ長決定部37と、メッセージ生成部38と、音声合成部39とを有する。
制御部33が有するこれらの各部は、例えば、制御部33が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。なお、制御部33が有するこれらの各部は、その各部の機能を実現する一つの集積回路としてサーバ3に実装されてもよい。
音声認識部34は、入力音声信号から、予め登録されている、コンテンツ検索用のキーワードを抽出する。キーワードを抽出するために、音声認識部34は、音響モデルを用いる方法または動的時間伸縮法を用いる方法など、様々な音声認識方法の何れを利用してもよい。本実施形態では、音声認識部34は、認識対象となるキーワードを格納した単語辞書と、予め作成された音響モデルを用いてキーワードを抽出する。
音響モデルは、例えば、キーワードの発音を音素または音節といった単位音ごとに区分し、その単位音の順序に従って、その単位音に対応する単位音響モデルを連結することにより生成され、予め、記憶部32に記憶される。この単位音響モデル及び音響モデルは、例えば、それぞれ、隠れマルコフモデル(Hidden Markov Model, HMM)により表される。音声認識部34は、単位音響モデルを表すHMMを用いて、入力音声信号の所定の区間から抽出される1以上の特徴量に基づいて、特定の単位音に対するその所定の区間が推定音である確率または尤度を算出する。
具体的に、音声認識部34は、入力音声信号から、音声認識に用いられる特徴量を抽出する。そのために、音声認識部34は、例えば、入力音声信号を所定のフレーム長を持つフレームごとに高速フーリエ変換といった周波数変換を行ってフレームごとのスペクトルを求める。なお、フレーム長は、例えば、10ミリ秒〜100ミリ秒程度に設定される。そして音声認識部34は、そのスペクトルに基づいて、特徴量として、例えば、フレームごとに、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient、MFCC)またはフレーム間のパワーの差分値を求める。音声認識部34は、特徴量としてMFCCを算出する場合、例えば、各フレームのスペクトルをメル尺度のパワー値に変換した後、そのパワー値の対数に対して再度離散コサイン変換などの周波数変換を行うことによりMFCCを算出する。また音声認識部34は、特徴量としてフレーム間のパワーの差分値を求める場合、例えば、各フレームの周波数帯域ごとのスペクトルの2乗の和をパワーとして求め、連続する二つのフレーム間でパワーの差を求めることによりその差分値を求める。
なお、音声認識部34は、特徴量として、音響モデルを用いた音声認識で用いられる他の様々な特徴量(例えば、基本周波数)の何れかを抽出してもよい。また音声認識部34は、入力音声信号から、フレームごとに複数の種類の特徴量を抽出してもよい。
音声認識部34は、音響モデルと、1以上のフレームから得られた特徴量の組とを照合することによって、単語辞書に含まれるキーワードごとに、単位音を連結して生成したキーワードごとの尤度を求める。そして音声認識部34は、尤度が高い方から順に所定数のキーワードを抽出する。所定数は、例えば、1〜5程度に設定される。そして音声認識部34は、キーワードが検出される度に、そのキーワードを検索部35及びメッセージ生成部38へ通知する。
検索部35は、キーワードと情報源との対応関係を表す情報源テーブルを参照することにより、検出されたキーワードに対応する情報源を特定する。そして検索部35は、その情報源からキーワードに対応するコンテンツを取得する。なお、コンテンツは、例えば、テキスト情報、画像データ及びアプリケーションプログラムのうちの少なくとも一つを含む。
図3は、情報源テーブルの一例を示す図である。情報源テーブル300の左側の列の各欄には、少なくとも一つのキーワードが格納されている。一方、情報源テーブル300の右側の列の各欄には、同じ行に示されたキーワードに対応する情報源を示すアドレス情報が格納されている。このアドレス情報は、例えば、外部情報源5を特定するためのユニフォームリソースロケータ(Uniform Resource Locator, URL)、または記憶部32に記憶されている、特定のコンテンツを含むファイル名である。なお、一つのアドレス情報が、複数のキーワードと関連付けられていてもよく、また、一つのキーワードが、複数のアドレス情報と関連付けられていてもよい。
検索部35は、情報源テーブルを参照して、入力されたキーワードに対応するアドレス情報を特定する。そして検索部35は、アドレス情報に示された情報源にアクセスして、キーワードに対応するコンテンツを取得する。例えば、検索部35は、アドレス情報に示されたファイル名を持つファイルを記憶部32から読み込む。あるいは、検索部35は、アドレス情報に示されたURLで特定される外部情報源5から、通信ネットワーク4を介して、そのURLで特定されるウェブページを受信する。そして検索部35は、受信したウェブページのソースを解析して、ウェブページ内で画面に表示されるテキスト情報及び画像情報をコンテンツとして抽出する。
検索部35は、コンテンツを通信部31へ出力する。また、コンテンツにテキスト情報が含まれている場合には、検索部35は、そのテキスト情報を音声合成部39へ渡す。
遅延分布算出部36は、制御部33が入力音声信号を受け取ると、直近の一定期間の応答時間の履歴から、応答時間ごとの頻度分布を求める。そして遅延分布算出部36は、応答時間ごとの頻度を、その一定期間中の応答時間の総数で除して応答時間ごとの発生確率を算出することにより、応答時間の確率分布を求める。なお、一定期間は、例えば、10分間〜1時間に設定される。
本実施形態では、サーバ3は、通信ネットワーク4を介して任意のWebサーバなどからコンテンツを取得したり、そのコンテンツを通信ネットワーク4を介して端末2へ送信する。そのため、通信ネットワークの通信状態に応じて、応答時間は、例えば、数100ミリ秒〜数秒の間で変動する。通信状態は、例えば、時間帯、または時期によって変動する。また、コンテンツを提供する外部情報源5自体の処理負荷によっても応答時間は変動する。例えば、利用者が少ない夜中では、応答時間は比較的短く、かつ、そのばらつきも小さい。一方、利用者が多い時間帯である、通勤時間帯、昼休みまたは帰宅時では、応答時間は比較的長くなり、かつ、そのばらつきも大きくなる。さらに、人気のあるサイトに関連するWebサーバなどで新しいサービスの提供が開始されたり、何らかの応募期間の締め切り間際においても、応答時間は比較的長くなり、かつ、そのばらつきも大きくなる。
そこで本実施形態のように、直近の一定期間の応答時間の履歴を利用することで、遅延分布算出部36は、応答時間の確率分布の精度を向上できる。
遅延分布算出部36は、さらに、応答時間が短い方から順に、応答時間ごとの発生確率を積算することで、応答時間ごとに、実際の応答時間がその応答時間以下となる確率を表す累積確率を算出する。
遅延分布算出部36は、応答時間の確率分布及び累積確率分布を記憶部32に記憶する。
なお、遅延分布算出部36は、前回算出した応答分布の確率分布に、前回の算出時から今回の算出時までの間に記憶された応答時間を追加するとともに、前回の算出時には利用され、今回の算出時には利用されない応答時間を除くよう修正してもよい。このように修正して得られた確率分布を利用することで、遅延分布算出部36は、累積確率分布を求めるための処理量を減らすことができる。
メッセージ長決定部37は、ユーザの体感品質ができるだけ高くなるように、応答時間の確率分布に基づいて、応答時間中に再生されるメッセージ音声の長さを決定する。
そのために、メッセージ長決定部37は、次式に従って算出される、応答時間の推定値Xに対応するユーザの体感品質の評価値の一例である平均体感品質S(X)が最大となるように、応答時間の推定値Xを決定する。
Figure 2014199323
ここでP(X)は、実際の応答時間が推定した応答時間X以内に収まる累積確率であり、記憶部32に記憶された応答時間の累積確率分布を参照することにより求められる。またQ(X)は、その推定応答時間Xに応じた長さを持つメッセージを応答時間内に再生する場合のユーザの体感品質である。すなわち、(1)式の右辺の第1項は、応答時間の推定に成功したときのユーザの体感品質の期待値を表す。なお、メッセージ長は、推定応答時間Xと等しくてもよく、あるいは、推定応答時間Xから所定のオフセット時間(例えば、2秒〜4秒)を減じた長さであってもよい。また、(1-P(X))は、推定応答時間Xよりも実際の応答時間が長くなる確率を表す。そしてR(X)は、推定応答時間Xよりも実際の応答時間が長くなる場合に、「しばらくお待ち下さい」といった追加のメッセージを応答時間内に挿入したときのユーザの体感品質を表す。すなわち、(1)式の右辺の第2項は、応答時間の推定に失敗したときのユーザの体感品質の期待値を表す。なお、以下では、説明の便宜上、体感品質Q(X)を未延長体感品質と呼び、体感品質R(X)を延長体感品質と呼ぶ。
図4は、応答時間の推定に成功した場合のユーザの未延長体感品質Q(X)及び応答時間の推定に失敗した場合の延長体感品質R(X)の応答時間による変化を表す図である。図4において、横軸は応答時間を表し、縦軸はユーザの体感品質を表す。そしてグラフ401は、応答時間Xと未延長体感品質Q(X)の関係を表し、グラフ402は、応答時間Xと延長体感品質R(X)の関係を表す。なお、未延長体感品質Q(X)及び延長体感品質R(X)は、例えば、予め実験により、応答時間を様々に変えたときの体感品質を、複数のユーザが主観評価した結果により求められる。そして体感品質は、例えば、mean opinion score(MOS)値として表される。
一般に、応答時間が長くなるほど、ユーザの体感品質は低下する。そのため、グラフ401に示されるように、応答時間に応じたメッセージを再生する場合のユーザの未延長体感品質Q(X)は、応答時間が長くなるにつれてほぼ単調減少する。また、一般に、応答時間内に、本来のメッセージの他に追加でメッセージが挿入されると、ユーザの体感品質は極端に低下する。この場合には、ユーザの体感品質は、応答時間の長さにはあまり影響されず、常に低くなる。そのため、グラフ402に示されるように、ユーザの延長体感品質R(X)は、応答時間によらず、ユーザの未延長体感品質Q(X)よりも低く、かつ、応答時間が短いほど、ユーザの未延長体感品質Q(X)と延長体感品質R(X)の差は大きくなる。
なお、推定された応答時間よりも実際の応答時間が長い場合に、応答時間内にメッセージの追加挿入が行われないと、システムが何の音声も出力しない無音期間が長くなるので、ユーザの体感品質は、メッセージの追加挿入がなされたときよりもさらに低下する。
応答時間に応じたユーザの未延長体感品質Q(X)、延長体感品質R(X)を求めるために、例えば、応答時間のサンプル点ごとのユーザの未延長体感品質Q(X)、延長体感品質R(X)を表す参照テーブルが、記憶部32に予め記憶される。そしてメッセージ長決定部37は、その参照テーブルを参照することにより、応答時間Xに応じたユーザの未延長体感品質Q(X)、延長体感品質R(X)を求めればよい。
メッセージ長決定部37は、応答時間の推定値Xを変化させつつ、その推定値Xに応じた累積確率P(X)、未延長体感品質Q(X)、延長体感品質R(X)を求めることで、(1)式に従って、その推定値Xに応じたユーザの平均体感品質S(X)を算出する。メッセージ長決定部37は、ユーザの平均体感品質S(X)が最大となる応答時間の推定値Xmax(以下、便宜上、品質最大応答時間と呼ぶ)を求める。なお、メッセージ長決定部37は、勾配法といった、最適解算出手法を利用して、推定値Xmaxを算出してもよい。そしてメッセージ長決定部37は、品質最大応答時間Xmaxに応じてメッセージ長を決定する。なお、メッセージ長は、品質最大応答時間Xmaxと等しくてもよく、あるいは、メッセージ長は、上記のように、品質最大応答時間Xmaxから所定のオフセット時間を減じた値に設定されてもよい。
メッセージ長決定部37は、決定したメッセージ長をメッセージ生成部38へ通知する。
メッセージ生成部38は、メッセージ長決定部37から通知されたメッセージ長に応じたメッセージ音声の元となるメッセージのテキスト情報を生成する。
本実施形態では、メッセージ生成部38は、予め登録された複数の定型メッセージと入力されたキーワードの組み合わせにより、メッセージのテキスト情報を作成する。定型メッセージは、例えば、「です」、「をお伝えいたします」といった、キーワードに後続するメッセージであり、記憶部32に予め記憶される。また記憶部32には、定型メッセージと、その定型メッセージの時間長との対応関係を表す定型メッセージテーブルが記憶される。そしてメッセージ生成部38は、メッセージ音声の長さから、入力されたキーワードの長さを減じた残りを定型メッセージの時間長に設定する。そしてメッセージ生成部38は、定型メッセージテーブルを参照することにより、設定された時間長に最も近い時間長を持つ定型メッセージを選択する。メッセージ生成部38は、入力されたキーワードと定型メッセージを組み合わせること、例えば、定型メッセージ中の指定された位置にキーワードを挿入することで、メッセージのテキスト情報を作成する。例えば、入力されたキーワードが「ニュース」であり、選択された定型メッセージが「をお伝えいたします」であれば、メッセージ生成部38は、「ニュースをお伝えいたします」をメッセージのテキスト情報とする。
メッセージ生成部38は、メッセージのテキスト情報を音声合成部39へ通知する。さらに、制御部33が入力音声信号を受け取ってからメッセージ音声の長さに相当する時間が経過しても、コンテンツを端末2へ送信する準備が整わない場合には、メッセージ生成部38は、追加のメッセージのテキスト情報を音声合成部39へ通知する。
なお、変形例によれば、メッセージ生成部38は、決定されたメッセージ音声の長さを持つ定型メッセージそのものを、メッセージのテキスト情報としてもよい。この場合には、定型メッセージは、例えば、「少々お待ち下さい」、あるいは「ただいま検索中です」といった、定型メッセージ単独で意味を持つメッセージとなる。
音声合成部39は、コンテンツに含まれるテキストの合成音声信号を作成する。また音声合成部39は、応答時間中に再生されるメッセージのテキスト情報に基づいて、メッセージ音声を合成する。
音声合成部39は、先ず、音声の合成対象となるテキストを表音情報に変換する。表音情報は、テキストに含まれる原文の読みなどを表す情報であり、例えば、原文の読みをカタカナ文字で表し、さらにアクセントの位置及び区切りの位置を追加した情報である。
音声合成部39は、テキストを表音情報に変換するために、記憶部32に記憶されている言語辞書を読み込む。言語辞書には、例えば、テキスト情報中に出現すると想定される様々な単語、その単語の読み、品詞及び活用形などが登録されている。そして音声合成部39は、例えば、その言語辞書を用いて、テキストに含まれる原文に対して形態素解析を行って、原文中のテキストの読み、アクセントの位置及び区切りの位置を決定する。その際、音声合成部39は、例えば、原文中で句読点が設定された位置を区切りの位置とする。
音声合成部39は、形態素解析として、例えば、動的計画法を用いる方法を利用できる。そして音声合成部39は、各単語の読み、アクセントの位置及び区切りの位置に応じて表音情報を作成する。
次に、音声合成部39は、表音情報に基づいて、合成音声を生成する際の目標韻律を生成する。そのために、音声合成部39は、記憶部32から複数の韻律辞書を読み込む。この韻律辞書には、時間経過に応じた声の高さと音素長の変化を表す韻律モデルが格納されている。そして音声合成部39は、韻律辞書の中から、文中の位置または表音情報に示されたアクセントの位置などに最も一致する韻律モデルを適用する。そして音声合成部39は、適用される韻律モデル及び予め設定された合成パラメータに従って、表音情報に対応した目標韻律を作成する。なお、合成パラメータは、例えば、話速を表すパラメータと声の高さを表すパラメータとを含む。さらに、合成パラメータは、抑揚、音量などを表すパラメータを含んでいてもよい。また目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。さらに、目標韻律は個々の音素の波形の振幅情報を含んでいてもよい。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。
目標韻律が決定されると、音声合成部39は、例えば、vocoder方式または波形編集方式によって合成音声信号を作成する。
音声合成部39は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、音声合成部39は、記憶部32から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、一人以上のナレータが様々なテキストを読み上げた様々な音声を録音した音声信号から、音素単位で取り出された波形信号である。
さらに、音声合成部39は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
音声合成部39は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。
音声合成部39は、波形生成情報に基づいて合成音声信号を作成する。そのために、音声合成部39は、波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部32に保存されている音声波形辞書から読み込む。そして音声合成部39は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、音声合成部39は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成する。
制御部33は、音声合成部39により生成されたメッセージ音声を通信部31及び通信ネットワーク4を介して端末2へ出力する。その後、制御部33は、コンテンツに含まれるテキストの合成音声信号を通信部31及び通信ネットワーク4を介して端末2へ出力する。
また制御部33は、入力音声信号を受け取ってからメッセージ音声の長さに相当する時間が経過しても、コンテンツの合成音声信号を端末2へ送信する準備が整わない場合、追加メッセージの音声信号を通信部31及び通信ネットワーク4を介して端末2へ出力する。
図5は、音声対話システム1における対話制御処理の動作シーケンス図である。
先ず、端末2の処理部25は、音声入力部21を介してユーザが発した音声に対応する入力音声信号を取得する(ステップS101)。そして処理部25は、入力音声信号を、通信部23及び通信ネットワーク4を介してサーバ3へ送信する。また処理部25は、入力音声信号が終了した時点からの経過時間の計時を開始する。
サーバ3は、入力音声信号を受信すると、制御部33の音声認識部34により、入力音声信号に含まれるキーワードを抽出する(ステップS102)。
そして制御部33の遅延分布算出部36は、直近の一定期間の応答時間の履歴に基づいて、応答時間の累積確率分布を求める(ステップS103)。そして遅延分布算出部36は、応答時間の累積確率分布を記憶部32に記憶する。
制御部33のメッセージ長決定部37は、未延長体感品質の期待値と延長体感品質の期待値の和である平均体感品質が最大となるように、メッセージ長を決定する(ステップS104)。
制御部33のメッセージ生成部38は、決定されたメッセージ長に応じて、応答時間中に再生されるメッセージのテキスト情報を求める(ステップS105)。
制御部33の音声合成部39は、メッセージのテキスト情報に基づいて、メッセージの音声を合成する(ステップS106)。そしてサーバ3は、合成されたメッセージ音声を端末2へ出力する。またサーバ3は、必要に応じて、追加メッセージの音声を合成し、合成された追加メッセージ音声も端末2へ出力する。
端末2の処理部25は、音声出力部22にメッセージ音声を再生させる(ステップS107)。また処理部25は、メッセージ音声の再生が終了しても、コンテンツの合成音声信号を受信しない場合、追加メッセージの音声を再生させる。なお、処理部25は、コンテンツの合成音声信号を受信するまで、繰り返し追加メッセージの音声を再生させてもよい。
一方、制御部33の検索部35は、キーワードに対応する情報源のアドレス情報を特定する(ステップS108)。そして検索部35は、そのアドレス情報で示された情報源からコンテンツを取得する(ステップS109)。
音声合成部39は、コンテンツに含まれるテキストに対応する音声信号を合成する(ステップS110)。そしてサーバ3は、コンテンツ及びそのコンテンツに含まれるテキストの合成音声信号を端末2へ通知する。
端末2の処理部25は、コンテンツ及びそのコンテンツに含まれるテキストの合成音声信号を受信すると、その合成音声信号を音声出力部22に再生させる(ステップS111)。
そして音声対話システム1は、対話制御処理を終了する。
以上に説明してきたように、この音声対話装置は、応答時間中に再生されるメッセージ音声の長さを、応答時間の確率分布と応答時間の推定に失敗した場合にメッセージを追加挿入したときの体感品質とを考慮して、体感品質が最も高くなるように決定する。そのため、この音声対話装置は、応答時間がばらついても、メッセージ音声の長さを、統計的にユーザの体感品質が最良となるように設定できる。
なお、サーバ3と端末2間の通信時間がほぼ一定とみなせる場合、サーバ3の制御部33は、端末2から受け取った音声信号が終了してから、コンテンツの合成音声の送信準備ができるまでの時間を計時してもよい。そして制御部33は、その計時された時間に端末2とサーバ3間の通信時間の2倍を加算した値を応答時間として求め、その応答時間を記憶部32に記憶してもよい。
変形例によれば、メッセージ長決定部37は、メッセージ長を決定するための演算量を削減するために、以下の手順に従ってメッセージ長を決定してもよい。
この例では、メッセージ長決定部37は、先ず、応答時間の累積確率とユーザの未延長体感品質Q(X)、延長体感品質R(X)との関係を表す関係式Q(P)、R(P)を算出する。
図6(a)は、応答時間と体感品質の関係を表す関数の一例を表す図である。図6(b)は、応答時間の累積確率の一例を表す図である。そして図6(c)は、図6(a)及び図6(b)から求められた、応答時間の累積確率とユーザの体感品質との関係を表す図である。図6(a)及び図6(b)において、横軸は応答時間を表す。また図6(a)において、縦軸は体感品質値を表し、図6(b)において、縦軸は累積確率を表す。そしてグラフ601は、未延長体感品質と応答時間の関係を表す。またグラフ602は、延長体感品質と応答時間の関係を表す。またグラフ603は、応答時間の累積確率を表す。また図6(c)において、横軸は累積確率を表し、縦軸は体感品質を表す。そして、グラフ604は、未延長体感品質と応答時間の累積確率との関係を表す。またグラフ605は、延長体感品質と応答時間の累積確率との関係を表す。
メッセージ長決定部37は、応答時間ごとに、グラフ601、602を参照して、応答時間Xに応じた未延長体感品質値Q(X)、延長体感品質R(X)を求める。またメッセージ長決定部37は、応答時間ごとに、グラフ603を参照して、応答時間Xに応じた累積確率P(X)を求める。そしてメッセージ長決定部37は、未延長体感品質値Q(X)、延長体感品質R(X)に、同じ応答時間に対応する累積確率P(X)を関連付けることで、グラフ604、605を求める。
ここで、応答時間Xと累積確率Pは1対1に対応しているので、(1)式で表されたユーザの平均体感品質S(X)は、次式のように、応答時間の累積確率Pの関数として表すこともできる。
Figure 2014199323
なお、S(P)は、応答時間の累積確率Pの関数として表されたユーザの平均体感品質であり、Q(P)は、累積確率Pの関数として表された、未延長体感品質を表す。またR(P)は、累積確率Pの関数として表された延長体感品質を表す。
(2)式及び図6(c)を参照すると、ユーザの平均体感品質S(P)は、累積確率Pを底辺、未延長体感品質Q(P)を高さとする長方形611の面積と、(1-P)を底辺、延長体感品質R(P)を高さとする長方形612の面積の和で表される。したがって、メッセージ長決定部37は、この二つの長方形611、612の和が最大となる累積確率Pを決定する。そしてメッセージ長決定部37は、累積確率Pと応答時間の関係を表す参照テーブルを参照することにより、その累積確率Pに対応する応答時間を求めればよい。
さらに、二つの長方形の和を最大にする累積確率Pを求める演算量を削減するために、メッセージ長決定部37は、以下に説明する近似を行ってもよい。
上述したように、延長体感品質は、応答時間にはあまり影響されないので、応答時間の累積確率にもあまり影響されない。したがって、延長体感品質と累積確率Pとの関係を表す関数は、一定の体感品質値Rを持つ1次関数として近似できる。
また、推定された応答時間に応じて決定されたメッセージ長を持つメッセージを応答時間内に再生したときのユーザの未延長体感品質Q(X)は、応答時間に対して単調減少するので、累積確率Pの増加に対しても、未延長体感品質Q(P)は単調減少する。そこで、累積確率Pと未延長体感品質Q(P)の関係は、直線近似で表される。
図7は、図6(c)に示された累積確率Pと体感品質との関係を表すグラフにおいて、体感品質R(P)を一定値R(0)とし、かつ、累積確率Pと未延長体感品質Q(P)の関係を直線で近似したグラフを表す。横軸は累積確率を表し、縦軸は体感品質を表す。直線701は、直線近似された累積確率Pと未延長体感品質Q(P)との関係を表す。また直線702は、一定値Rとして近似された延長体感品質R(P)を表す。そしてユーザの平均体感品質S(P)は、長方形711で表される、累積確率PとQ(P)の積と、長方形712で表される、(1-P)とR(0)の積の和となる。ここで、長方形711は、体感品質値Rの線で長方形711aと長方形711bに分割される。そして長方形711aの面積P×Rと長方形712の面積(1-P)×Rの和は、累積確率Pによらず、Rとなる。そのため、平均体感品質S(P)を最大とするためには、結局、メッセージ長決定部37は、長方形711bの面積が最大となるように、累積確率Pを決定すればよい。ここで、長方形711bは、点A、B、Cを頂点とする直角三角形に内接している。ただし、点A、点Bは、それぞれ、直線701、702の切片であり、点Cは、直線701と直線702の交点である。直角三角形に内接する長方形の面積は、長方形の底辺の長さが直角三角形の底辺の長さが1/2となる場合であることが知られているので、長方形711bの面積は、累積確率Pが、交点Cにおける累積確率Pcの値の1/2であるときに最大となる。したがって、メッセージ長決定部37は、メッセージ長を決定するために、交点Cにおける累積確率Pcを算出すればよい。そしてメッセージ長決定部37は、累積確率(Pc/2)が1以下であれば、応答時間と累積確率の関係を表す参照テーブルを参照することにより、累積確率(Pc/2)に対応する応答時間を求め、その応答時間に応じてメッセージ長を決定すればよい。一方、累積確率(Pc/2)が1よりも大きければ、メッセージ長決定部37は、応答時間と累積確率の関係を表す参照テーブルを参照することにより、累積確率が1となる最短の応答時間を求め、その応答時間に応じてメッセージ長を決定すればよい。
この方式によれば、メッセージ長決定部37は、応答時間を試行錯誤的に変化させなくても、累積確率(Pc/2)に対応する応答時間だけを求めればよいので、メッセージ長を決定する際に要する演算量を大幅に削減できる。
なお、メッセージ長決定部37は、累積確率P(X)が最初に0よりも大きくなる最小応答時間における、未延長体感品質Q(0)と延長体感品質R(0)の差(Q(0)-R(0))を、直線701の傾きaで除した値((Q(0)-R(0))/a)に1/2を乗じて累積確率を算出してもよい。この演算結果として得られる累積確率も、累積確率(Pc/2)と同じ値となる。
また、メッセージ長決定部37は、交点Cに対応する累積確率Pcを、応答時間の確率分布が求められる度に算出する代わりに、未延長体感品質Q(X)と延長体感品質R(X)が等しくなる応答時間Xcを求めてもよい。応答時間Xcは、応答時間Xとユーザの未延長体感品質Q(X)及び延長体感品質R(X)の関係から求められる。そしてメッセージ長決定部37は、その応答時間Xcに基づいて、累積確率Pcを求めてもよい。この場合、Xcが累積確率が1となる最短の応答時間Xm以下であれば、メッセージ長決定部37は、応答時間と累積確率の関係を表す参照テーブルを参照することで、Xcに対応する累積確率Pcを求めればよい。一方、Xcが応答時間Xmよりも大きければ、メッセージ長決定部37は、例えば、次式に従って、近似的にXcに対応する累積確率Pcを算出する。
Figure 2014199323
ここで、αは、応答時間の確率分布における、最大確率であり、Xαは、その最大確率αに相当する応答時間である。またPαは、応答時間Xαの累積確率である。
図8は、(3)式で使用される各パラメータの関係を表す図である。図8の上側のグラフは、応答時間と累積確率の関係を表すグラフであり、図8の下側のグラフは、応答時間ごとの発生確率の分布を表すグラフである。(3)式におけるαは、累積確率分布の変曲点となる、応答時間Xαにおける累積確率分布曲線の接線801の傾きに相当する。
Xcは、応答時間の確率分布とは無関係に算出できるので、例えば、予め算出して記憶部32に記憶させておけばよい。そのため、この変形例では、メッセージ長決定部37は、累積確率と体感品質の関係式を求めなくても、平均体感品質を最大にする応答時間を求めることができるので、より演算量を軽減できる。
また、一般に、応答時間が短いほど、ユーザの体感品質も高くなるので、実際の応答時間が推定された応答時間よりも短い場合には、音声対話装置は、メッセージも途中で中断してコンテンツの再生をできるだけ早めることが好ましい。
そこで他の変形例によれば、メッセージ長決定部37は、メッセージ中の中断可能位置と応答時間以下となる確率が高くなるように、メッセージ長を設定する。
メッセージの中断可能位置は、その中断可能位置でメッセージを中断しても、ユーザにとって中断位置でのメッセージの終了が自然に聞こえる位置であることが好ましい。例えば、入力されたキーワード「ニュース」と定型メッセージ「についてお伝えします」の組み合わせによりメッセージが形成される場合、「ニュース」と「について」の間、または「について」と「お伝えします」の間でメッセージは中断可能である。
上記の例において、もし、実際の応答時間が、「お伝えします」よりも前に終了した場合には、制御部33は、メッセージ音声を、「について」で中断し、コンテンツの音声の端末25への出力を開始できる。そのため、音声対話装置は、応答時間が短縮したことによるユーザの体感品質の向上も期待できる。一方、実際の応答時間が、「お伝えします」の途中で終了した場合には、制御部33は、メッセージ音声の出力を最後まで終えてから、コンテンツの音声を端末2へ出力するので、応答時間が短縮されても、ユーザの体感品質は向上しない。
そこで、メッセージ長決定部37は、実際の応答時間が推定された応答時間よりも短い場合に、メッセージを途中で中断できる確率ができるだけ高くなるように、定型メッセージの中断可能位置を設定する。
この変形例では、記憶部32に記憶される定型メッセージテーブルには、定型メッセージごとに、中断可能位置と、定型メッセージの開始から中断可能位置までの時間、及び連続する二つの中断可能位置間の時間が格納される。
メッセージ長決定部37は、入力されたキーワードの長さと定型メッセージの長さの合計が、応答時間の最大値以下となる定型メッセージのそれぞれについて、次式に従ってユーザの平均体感品質Eを算出する。
Figure 2014199323
ここで、Xi(i=1,2,..,n-1)は、中断可能位置に相当する時間である(なお、メッセージが入力キーワード+定型メッセージで形成される場合、X1は、入力キーワードの時間長に相当する)。なお、応答時間中に再生されるメッセージが定型メッセージのみで形成される場合には、X1は、定型メッセージの先頭から最初の中断可能位置までの時間長となる。Xnは、メッセージ全体の長さである。またP(Xi)は、応答時間開始からの時間X1の累積確率である。Q(Xi)は、応答時間がXiである場合のユーザの未延長体感品質である。そしてR(X)は、推定された応答時間がXである場合における、メッセージが追加挿入された時のユーザの延長体感品質である。
メッセージ長決定部37は、定型メッセージテーブルに格納された各定型メッセージの中断可能位置の組み合わせ{X1,X2,…,Xn}の中から、平均体感品質Eが最大となる組み合わせ{X1,X2,…,Xn}を算出すればよい。そして定型メッセージ生成部38は、その組み合わせ{X1,X2,…,Xn}からの誤差の二乗和が最小となる定型メッセージを選択を利用して、メッセージを生成すればよい。
なお、メッセージ長決定部37は、上記の変形例と同様に、応答時間の累積確率とユーザの体感品質との関係を表すグラフを求め、そのグラフに基づいてメッセージ長を決定してもよい。この場合、上記の変形例と同様に、(4)式の各項は、累積確率の差(Pi-Pi-1)を底辺とし、未延長体感品質Q(Pi)を高さとする長方形の面積に相当する。そのため、メッセージ長決定部37は、それら長方形の面積の和として平均体感品質Eを算出できるので、平均体感品質Eが最大となるメッセージの長さを決定する際の演算量を削減できる。
制御部33は、端末2へメッセージ音声を送信する際、そのメッセージ音声とともに、中断可能位置を示す情報も端末2へ送信する。これにより、端末2は、メッセージ音声の再生中に、サーバ3からコンテンツの合成音声信号を受信しても、最も近い中断可能位置でメッセージ音声の再生を中断し、合成音声信号の再生を開始できる。
この変形例によれば、音声対話装置は、実際の応答時間が推定された応答時間よりも短い場合に、メッセージを途中で中断して、ユーザの体感品質を向上できる確率を高めることができる。
さらに他の変形例によれば、端末2の処理部25が、音声認識部及び音声合成部の機能を有していてもよい。これにより、サーバ3の処理負荷が軽減される。
さらに他の変形例によれば、上記の実施形態またはその変形例における、端末が有する各部と、サーバが有する各部は、一つの装置に搭載されていてもよい。そしてその装置が有する一つまたは複数のプロセッサが、端末の処理部の各機能と、サーバの制御部の各機能を実行してもよい。
さらに、上記の各実施形態またはその変形例によるサーバの制御部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な記録媒体に記録された形で提供されてもよい。そのコンピュータ読取可能な記録媒体は、例えば、磁気記録媒体、光記録媒体または半導体メモリとすることができる。ただし、その記録媒体には、搬送波は含まれない。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
音声入力部により集音されたユーザの音声を表す音声信号から所定のキーワードを抽出する音声認識部と、
前記キーワードに応じたコンテンツを検索する検索部と、
前記ユーザの音声の入力が終了してからユーザに前記コンテンツを提示するまでの応答時間の確率分布を算出する遅延分布算出部と、
前記確率分布に基づいて、前記応答時間が推定応答時間以下の場合に、前記推定応答時間または該推定応答時間から所定のオフセットを減じた長さを持つ第1のメッセージ音声を前記応答時間内に再生する場合のユーザの第1の体感品質についての第1の期待値と、該推定応答時間よりも前記応答時間が長く、前記応答時間内に前記第1のメッセージ音声と追加の第2のメッセージ音声とを再生する場合のユーザの第2の体感品質についての第2の期待値の和である評価値が最大となるように、メッセージ音声の長さを決定するメッセージ長決定部と、
前記メッセージ音声の長さを持つ前記第1のメッセージのテキスト情報を生成するメッセージ生成部と、
前記第1のメッセージのテキスト情報から前記第1のメッセージ音声を合成する音声合成部と、
を有する音声対話装置。
(付記2)
前記メッセージ長決定部は、前記第1の期待値を、前記確率分布に基づいて、前記応答時間が前記推定応答時間よりも短く、前記第1のメッセージ音声の少なくとも一つの中断可能位置のうちの前記応答時間以下の中断可能位置にて再生が中断された場合のユーザの体感品質の期待値と、前記応答時間内に前記第1のメッセージ音声全体が再生された場合の期待値の和として算出する、付記1に記載の音声対話装置。
(付記3)
複数の定型メッセージのそれぞれについてのテキスト情報と前記中断可能位置とを記憶する記憶部をさらに有し、
前記メッセージ生成部は、前記複数の定型メッセージの中から、前記評価値が最大となる場合の前記中断可能位置に最も近い中断可能位置を持つ定型メッセージを選択し、該選択した定型メッセージを含むように前記第1のメッセージのテキスト情報を生成する、付記2に記載の音声対話装置。
(付記4)
前記メッセージ長決定部は、応答時間と前記第1の体感品質との関係と、応答時間が短い方から順に該応答時間の発生確率を累積した応答時間の累積確率とから、前記累積確率と前記第1の体感品質との関係を線形近似した関係式を求め、前記関係式において前記第1の体感品質の値が前記第2の体感品質と等しくなる場合の累積確率の半分に相当する応答時間または当該応答時間から前記所定のオフセットを減じた時間に前記第1のメッセージ音声の長さを設定する、付記1に記載の音声対話装置。
(付記5)
前記メッセージ長決定部は、応答時間と前記第1及び第2の体感品質との関係と、応答時間が短い方から順に該応答時間の発生確率を累積した応答時間の累積確率とから、前記累積確率と前記第1の体感品質との関係を表す第1の関係式及び前記累積確率と前記第1の体感品質との関係を表す第2の関係式とを求め、前記推定応答時間に対応する第1の累積確率と、前記第1の関係式に従って求められる前記第1の累積確率に応じた前記第1の体感品質との積を前記第1の体感品質として算出し、かつ、前記第2の関係式に従って求められる前記第1の累積確率に応じた前記第2の体感品質と、1から前記第1の累積確率を減じた値との積を前記第2の体感品質として算出する、付記1に記載の音声対話装置。
(付記6)
前記音声入力部から前記音声信号が得られる度に前記応答時間を記憶する記憶部をさらに有し、
前記遅延分布算出部は、過去の所定期間内に記憶された複数の前記応答時間の度数分布から前記確率分布を算出する、付記1に記載の音声対話装置。
(付記7)
音声入力部により集音されたユーザの音声を表す音声信号から所定のキーワードを抽出し、
前記キーワードに応じたコンテンツを検索し、
前記ユーザの音声の入力が終了してからユーザに前記コンテンツを提示するまでの応答時間の確率分布を算出し、
前記確率分布に基づいて、前記応答時間が推定応答時間以下の場合に、前記推定応答時間または該推定応答時間から所定のオフセットを減じた長さを持つ第1のメッセージ音声を前記応答時間内に再生する場合のユーザの第1の体感品質についての第1の期待値と、該推定応答時間よりも前記応答時間が長く、前記応答時間内に前記第1のメッセージ音声と追加の第2のメッセージ音声とを再生する場合のユーザの第2の体感品質についての第2の期待値の和である評価値が最大となるように、メッセージ音声の長さを決定し、
前記メッセージ音声の長さを持つ前記第1のメッセージのテキスト情報を生成し、
前記第1のメッセージのテキスト情報から前記第1のメッセージ音声を合成する、
ことを含む対話制御方法。
1 音声対話システム
2 端末
3 サーバ(音声対話装置)
4 通信ネットワーク
5 外部情報源
21 音声入力部
22 音声出力部
23 通信部
24 記憶部
25 処理部
31 通信部
32 記憶部
33 制御部
34 音声認識部
35 検索部
36 遅延分布算出部
37 メッセージ長決定部
38 メッセージ生成部
39 音声合成部

Claims (5)

  1. 音声入力部により集音されたユーザの音声を表す音声信号から所定のキーワードを抽出する音声認識部と、
    前記キーワードに応じたコンテンツを検索する検索部と、
    前記ユーザの音声の入力が終了してからユーザに前記コンテンツを提示するまでの応答時間の確率分布を算出する遅延分布算出部と、
    前記確率分布に基づいて、前記応答時間が推定応答時間以下の場合に、前記推定応答時間または該推定応答時間から所定のオフセットを減じた長さを持つ第1のメッセージ音声を前記応答時間内に再生する場合のユーザの第1の体感品質についての第1の期待値と、該推定応答時間よりも前記応答時間が長く、前記応答時間内に前記第1のメッセージ音声と追加の第2のメッセージ音声とを再生する場合のユーザの第2の体感品質についての第2の期待値の和である評価値が最大となるように、メッセージ音声の長さを決定するメッセージ長決定部と、
    前記メッセージ音声の長さを持つ前記第1のメッセージのテキスト情報を生成するメッセージ生成部と、
    前記第1のメッセージのテキスト情報から前記第1のメッセージ音声を合成する音声合成部と、
    を有する音声対話装置。
  2. 前記メッセージ長決定部は、前記第1の期待値を、前記確率分布に基づいて、前記応答時間が前記推定応答時間よりも短く、前記第1のメッセージ音声の少なくとも一つの中断可能位置のうちの前記応答時間以下の中断可能位置にて再生が中断された場合のユーザの体感品質の期待値と、前記応答時間内に前記第1のメッセージ音声全体が再生された場合の期待値の和として算出する、請求項1に記載の音声対話装置。
  3. 複数の定型メッセージのそれぞれについてのテキスト情報と前記中断可能位置とを記憶する記憶部をさらに有し、
    前記メッセージ生成部は、前記複数の定型メッセージの中から、前記評価値が最大となる場合の前記中断可能位置に最も近い中断可能位置を持つ定型メッセージを選択し、該選択した定型メッセージを含むように前記第1のメッセージのテキスト情報を生成する、請求項2に記載の音声対話装置。
  4. 前記メッセージ長決定部は、応答時間と前記第1の体感品質との関係と、応答時間が短い方から順に該応答時間の発生確率を累積した応答時間の累積確率とから、前記累積確率と前記第1の体感品質との関係を線形近似した関係式を求め、前記関係式において前記第1の体感品質の値が前記第2の体感品質と等しくなる場合の累積確率の半分に相当する応答時間または当該応答時間から前記所定のオフセットを減じた時間に前記第1のメッセージ音声の長さを設定する、請求項1に記載の音声対話装置。
  5. 音声入力部により集音されたユーザの音声を表す音声信号から所定のキーワードを抽出し、
    前記キーワードに応じたコンテンツを検索し、
    前記ユーザの音声の入力が終了してからユーザに前記コンテンツを提示するまでの応答時間の確率分布を算出し、
    前記確率分布に基づいて、前記応答時間が推定応答時間以下の場合に、前記推定応答時間または該推定応答時間から所定のオフセットを減じた長さを持つ第1のメッセージ音声を前記応答時間内に再生する場合のユーザの第1の体感品質についての第1の期待値と、該推定応答時間よりも前記応答時間が長く、前記応答時間内に前記第1のメッセージ音声と追加の第2のメッセージ音声とを再生する場合のユーザの第2の体感品質についての第2の期待値の和である評価値が最大となるように、メッセージ音声の長さを決定し、
    前記メッセージ音声の長さを持つ前記第1のメッセージのテキスト情報を生成し、
    前記第1のメッセージのテキスト情報から前記第1のメッセージ音声を合成する、
    ことを含む対話制御方法。
JP2013074512A 2013-03-29 2013-03-29 音声対話装置及び対話制御方法 Active JP6111802B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013074512A JP6111802B2 (ja) 2013-03-29 2013-03-29 音声対話装置及び対話制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013074512A JP6111802B2 (ja) 2013-03-29 2013-03-29 音声対話装置及び対話制御方法

Publications (2)

Publication Number Publication Date
JP2014199323A true JP2014199323A (ja) 2014-10-23
JP6111802B2 JP6111802B2 (ja) 2017-04-12

Family

ID=52356271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013074512A Active JP6111802B2 (ja) 2013-03-29 2013-03-29 音声対話装置及び対話制御方法

Country Status (1)

Country Link
JP (1) JP6111802B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018017776A (ja) * 2016-07-25 2018-02-01 トヨタ自動車株式会社 音声対話装置
JP2018106224A (ja) * 2016-12-22 2018-07-05 シャープ株式会社 サーバ、情報処理方法、ネットワークシステム、および端末
JP2019511034A (ja) * 2016-01-28 2019-04-18 グーグル エルエルシー 適応的テキスト−音声出力
CN109949806A (zh) * 2019-03-12 2019-06-28 百度国际科技(深圳)有限公司 信息交互方法和装置
US10629210B2 (en) 2017-01-09 2020-04-21 Hyundai Motor Company Voice recognition apparatus, vehicle having the same, and control method of voice recognition apparatus
WO2021176780A1 (ja) * 2020-03-04 2021-09-10 株式会社東海理化電機製作所 制御装置、制御システム、情報処理装置、およびプログラム
JP2022003388A (ja) * 2020-12-22 2022-01-11 阿波羅智聯(北京)科技有限公司Apollo Intelligent Connectivity(Beijing) Technology Co., Ltd. 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体
CN115565535A (zh) * 2022-09-21 2023-01-03 深圳琪乐科技有限公司 一种智能语音客服系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022384A (ja) * 1999-07-09 2001-01-26 Nissan Motor Co Ltd 音声対話装置
WO2004092967A1 (ja) * 2003-04-14 2004-10-28 Fujitsu Limited 対話装置、対話方法及び対話プログラム
JP2005027283A (ja) * 2003-06-30 2005-01-27 Microsoft Corp 自動化有効性の予測およびオペレータ負荷の予測に基づく自動システムから人間のオペレータへの呼処理の理想的な転送
JP2014119716A (ja) * 2012-12-19 2014-06-30 Fujitsu Ltd 対話制御方法及び対話制御用コンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022384A (ja) * 1999-07-09 2001-01-26 Nissan Motor Co Ltd 音声対話装置
WO2004092967A1 (ja) * 2003-04-14 2004-10-28 Fujitsu Limited 対話装置、対話方法及び対話プログラム
JP2005027283A (ja) * 2003-06-30 2005-01-27 Microsoft Corp 自動化有効性の予測およびオペレータ負荷の予測に基づく自動システムから人間のオペレータへの呼処理の理想的な転送
JP2014119716A (ja) * 2012-12-19 2014-06-30 Fujitsu Ltd 対話制御方法及び対話制御用コンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6017004113; 盧 迪: 'マルチモーダル入力と強化学習による擬人化エージェントの対話制御の検討' 2010年度人工知能学会全国大会(第24回)論文集 , 20100609, p.1-4, 社団法人人工知能学会 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019511034A (ja) * 2016-01-28 2019-04-18 グーグル エルエルシー 適応的テキスト−音声出力
US11670281B2 (en) 2016-01-28 2023-06-06 Google Llc Adaptive text-to-speech outputs based on language proficiency
US10923100B2 (en) 2016-01-28 2021-02-16 Google Llc Adaptive text-to-speech outputs
JP2018017776A (ja) * 2016-07-25 2018-02-01 トヨタ自動車株式会社 音声対話装置
JP2018106224A (ja) * 2016-12-22 2018-07-05 シャープ株式会社 サーバ、情報処理方法、ネットワークシステム、および端末
US10629210B2 (en) 2017-01-09 2020-04-21 Hyundai Motor Company Voice recognition apparatus, vehicle having the same, and control method of voice recognition apparatus
CN109949806B (zh) * 2019-03-12 2021-07-27 百度国际科技(深圳)有限公司 信息交互方法和装置
CN109949806A (zh) * 2019-03-12 2019-06-28 百度国际科技(深圳)有限公司 信息交互方法和装置
WO2021176780A1 (ja) * 2020-03-04 2021-09-10 株式会社東海理化電機製作所 制御装置、制御システム、情報処理装置、およびプログラム
JP2021139997A (ja) * 2020-03-04 2021-09-16 株式会社東海理化電機製作所 制御装置、制御システム、情報処理装置、およびプログラム
JP7437191B2 (ja) 2020-03-04 2024-02-22 株式会社東海理化電機製作所 制御装置、制御システム、情報処理装置、およびプログラム
JP2022003388A (ja) * 2020-12-22 2022-01-11 阿波羅智聯(北京)科技有限公司Apollo Intelligent Connectivity(Beijing) Technology Co., Ltd. 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体
JP7346496B2 (ja) 2020-12-22 2023-09-19 阿波羅智聯(北京)科技有限公司 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体
CN115565535A (zh) * 2022-09-21 2023-01-03 深圳琪乐科技有限公司 一种智能语音客服系统
CN115565535B (zh) * 2022-09-21 2024-04-12 南京浮点智算数字科技有限公司 一种智能语音客服系统

Also Published As

Publication number Publication date
JP6111802B2 (ja) 2017-04-12

Similar Documents

Publication Publication Date Title
JP6111802B2 (ja) 音声対話装置及び対話制御方法
US10490181B2 (en) Technology for responding to remarks using speech synthesis
US10713289B1 (en) Question answering system
US20180130462A1 (en) Voice interaction method and voice interaction device
US10832668B1 (en) Dynamic speech processing
JP6078964B2 (ja) 音声対話システム及びプログラム
US12027165B2 (en) Computer program, server, terminal, and speech signal processing method
CN105206257B (zh) 一种声音转换方法及装置
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
US10515637B1 (en) Dynamic speech processing
WO2018075224A1 (en) Determining phonetic relationships
JP6028556B2 (ja) 対話制御方法及び対話制御用コンピュータプログラム
US11783824B1 (en) Cross-assistant command processing
US9129596B2 (en) Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality
JP2015082138A (ja) 音声検索装置及び音声検索方法
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2001272991A (ja) 音声対話方法及び音声対話装置
US20230148275A1 (en) Speech synthesis device and speech synthesis method
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
CN113255313B (zh) 音乐生成方法、装置、电子设备和存储介质
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
TWM621764U (zh) 客製化語音服務系統

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170227

R150 Certificate of patent or registration of utility model

Ref document number: 6111802

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150