JP6078964B2

JP6078964B2 - 音声対話システム及びプログラム

Info

Publication number: JP6078964B2
Application number: JP2012069511A
Authority: JP
Inventors: 高橋　潤; 潤高橋
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-03-26
Filing date: 2012-03-26
Publication date: 2017-02-15
Anticipated expiration: 2032-03-26
Also published as: CN103366729A; CN103366729B; JP2013200480A; US20130253926A1; US9190048B2

Description

本明細書で議論される実施態様は、テキストを音声に変換する音声合成の技術に関するものである。

計算機処理技術の発達に伴い、入力したテキストを読み上げ音声に変換する音声合成技術と人の発音を認識する音声認識技術とを利用して、利用者と応答システムとの間で音声による対話を繰り返すことで、問題解決を行う音声対話システムが実現可能になった。また、通信網の発達により、このような音声対話システムを、通信ネットワークを介して利用することも可能になった。

図１は、このような音声対話システムの一例の構成を図解したものである。この音声対話システムは、上述の応答システムを、通信ネットワーク１上のデータセンター２（以下、「センター２」と称することとする）に配置した、センター型の音声対話システムである。

端末３に備えられているマイク等の入力装置に向かって利用者４が発声すると、端末３はその発声を音声データに変換し、通信ネットワーク１を介してセンター２に送付する。センター２は、受信した音声データから、音声認識技術を用いて発声の内容を認識し、対話制御を行って、その発声の内容に応じた回答を作成し、音声合成技術を用いて回答の音声データへの変換を行う。その後、端末３は、通信ネットワーク１を介してセンター２から音声データや表示データをダウンロードしてそれらを順次再生していく。このようにすることで、利用者４は、あたかも他の人と会話を行っているかのような感覚で、この音声対話システムを利用することができる。更には、端末３に、画面表示５のような回答の表示や、音声入力、音声巻き戻し、音声停止、音声早送り等の音声制御メニュー６の表示を行って、音声によるＷｅｂブラウザのような機能を提供することも可能である。

このような、センター型の音声対話システムは、多くの人が利用しているスマートフォン等の携帯端末から利用可能であり、センター２の多大なハードウェア資源を利用した高精度の音声認識・高品質の音声合成が可能であるという利点を有している。また、センター型の音声対話システムは、外部サービスやＷｅｂ情報等の通信ネットワーク上の情報を用いることで、回答作成のためにリアルタイムな情報をセンター２で利用できるという利点もある。

また、センター２が、回答の作成を、画面表示や音声再生の手順を記述した、いわゆるシナリオの形式で行うようにしておけば、端末３では、音声データの再生だけではなく、テキストや画像の表示も可能となる。

このような音声対話システムは、例えば、近くのレストランの案内や観光案内の他に、最新のニュースや天気予報を聞くなどといった、様々なサービスの提供に利用することができる。

ところで、音声合成技術に関し、１文の全ての音声合成処理が終わるまで待つことなく、合成音声の再生途中であっても、音声が途切れることなく合成音声を出力できるようにするという技術が知られている。この技術は、入力文を１又は複数の合成単位で分割して得られる分割文毎の音波形データの生成処理の応答性と、各音波形データを組み合わせる合成音声の形成処理の応答性とに基づき、合成音声の出力のスケジューリングを行うというものである。

また、会話文の入力によって生成される音声合成データが一定時間入力されないときに、予め用意されている冗長語音声データを出力するようにして、会話の無音状態を見かけ上短縮して会話の相手方のストレスを軽減するという技術が知られている。

また、音声対話処理において、複数の音声入出力処理の間の競合を防止するという技術が知られている。この技術は、高い優先度のサービス・シナリオに従って行う第一音声処理のタイミングまでの推定空き時間よりも、低い優先度のサービス・シナリオに従って行う音声出力を含む第二音声処理に要する推定時間が短い場合には、第二音声処理を行うというものである。

また、音声対話システムにおいて、迅速かつ正確にユーザとエージェント間の対話順序を管理する技術が知られている。この技術は、ユーザが発話した音声から分析された対話情報を利用して第１対話順序情報を生成し、ユーザの顔映像から分析された表情情報を利用して第２対話順序情報を生成する。そして、これらの順序情報と、システムの状態情報、ユーザの音声入力の有無及びユーザの無応答時間を利用して、最終的な対話順序を決定するというものである。

また、音声を出力させるコンテンツを端末装置に配信する音声コンテンツ配信システムにおいて、コンテンツを受信した端末が音声を出力するまでの時間を短縮するという技術が知られている。この技術は、コンテンツ配信装置が、音声として読み上げられるべき文字列である読み上げ文字列が記述されたコンテンツデータにおける当該読み上げ文字列を、出力音声を特定するためのデータである発音記号列に置換する。そして、端末装置が、コンテンツ配信装置より受信した、発音記号列が記述されたコンテンツデータから抽出した当該発音記号列に基づいて音声を出力するというものである。

特開２０１１−７５８７０号公報特開２００２−３６６１７５号公報特開２００８−２６６２１号公報特開２００４−２０６７０４号公報特開２００４−２８２３９２号公報

図１に図解したような音声対話システムにおいて、利用者４が体感するレスポンスを向上させるには、センター２での音声認識、対話制御、及び音声号合成のそれぞれの処理を高速で行えるようにする必要がある。また、これと共に、利用者４と端末３との対話において、無応答の状態を極力小さくする必要もある。

このうち、処理の高速化については、センター２側でシステムを増強することによって解決することが可能である。しかしながら、対話における無応答状態の発生は、音声対話システムの設置者の管理外である通信ネットワーク１の状況に大きく依存しているために、その抑制は容易ではない。

上述した問題に鑑み、本明細書で後述する音声対話システムは、通信ネットワークの状況の如何にかかわらずに、対話における無応答状態の発生を抑制する。

本明細書で後述する音声対話システムのひとつに、データセンター装置と端末装置とを備えるというものがある。このデータセンター装置と端末装置とは通信ネットワークを介して接続される。このうちのデータセンター装置は、対話受信部と、要求情報取得部と、回答情報取得部と、対話制御部と、第１の音声合成部と、音声データ送信部と、シナリオ送信部とを備えている。ここで、対話受信部は、端末装置から送られてくる発声音の音声データを受信する。要求情報取得部は、この音声データに対して音声認識処理を実行して当該音声データにより表現されている要求情報を取得する。回答情報取得部は、取得された要求情報についての回答情報を情報源から取得する。対話制御部は、取得された回答情報を含むシナリオを作成する。第１の音声合成部は、取得された回答情報を発声している合成音声を表現している第１合成音声データを作成する。音声データ送信部は、第１の音声合成部により作成された第１合成音声データを端末装置へ送信する。そして、シナリオ送信部は、第１の音声合成部が第１合成音声データを作成している間に、作成されたシナリオを端末装置に送信する。一方、端末装置は、入力部と、対話送信部と、第２の音声合成部と、音声データ受信部と、音声判定部と、出力部と、を備える。ここで、入力部は、前述の発声音の入力を取得して当該発声音を表現している音声データに変換する。対話送信部は、この発声音の音声データをデータセンター装置へ送信する。シナリオ受信部は、データセンター装置から送られてくる前述のシナリオを受信する。第２の音声合成部は、受信されたシナリオに含まれている前述の回答情報を発声している合成音声を表現している第２合成音声データを作成する。音声データ受信部は、データセンター装置から送られてくる前述の第１合成音声データを受信する。音声判定部は、第１合成音声データの受信が完了したか否かを判定し、当該判定結果に基づいて第１合成音声データと第２合成音声データとのうちの一方を選択する。そして、出力部は、音声判定部により選択された合成音声データで表現されている合成音声を出力する。

また、本明細書で後述するプログラムのひとつは、通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける当該端末装置の制御を演算処理装置に実行させるものである。なお、端末装置は、当該演算処理装置と、入力部と、送信部と、受信部と、出力部とを備えている。ここで、入力部は、発声音の入力を取得して該発声音を表現している音声データに変換する。送信部は、この発声音の音声データをデータセンター装置へ送信する。受信部は、各種のデータを受信する。そして、出力部は、音声データで表現されている音声を出力する。このプログラムは、端末装置が備えている演算処理装置に以下の処理を行わせる。この処理は、まず、受信部を制御して、データセンター装置から送られてくるシナリオを受信させる。このシナリオは、データセンター装置により作成されたものであって、送信された音声データにより表現されている要求情報に応じてデータセンター装置が情報源から取得した回答情報が含まれているものである。次に、受信部を制御して、データセンター装置から送られてくる第１合成音声データを受信させる。この第１合成音声データは、上述した回答情報を発声している合成音声を表現しているものであって、データセンター装置により作成されたものである。次に、受信したシナリオに含まれている回答情報を発声している合成音声を表現している第２合成音声データを作成する。次に、第１合成音声データの受信が完了したか否かを判定し、この判定結果に基づいて第１合成音声データと第２合成音声データとのうちの一方を選択する。そして、出力部を制御して、選択された合成音声データで表現されている合成音声を出力させる。

本明細書で後述する音声対話システムによれば、通信ネットワークの状況の如何にかかわらずに、対話における無応答状態の発生が抑制されるという効果を奏する。

音声対話システムの一例の構成を図解した図である。音声対話システムの一実施例の機能構成図である。要求情報に応じて取得された回答情報の例を表したテーブルである。シナリオの記述例である。図４のシナリオによって表現されている状態遷移の説明図である。データセンター装置のハードウェア構成例を表した図である。端末装置のハードウェア構成例を表した図である。音声対話システムにおいて行われる制御処理の処理手順を表したフローチャートである。音声対話システムの別の一実施例の機能構成図である。予測処理の処理手順を図解したフローチャートである。音声合成処理における処理対象のテキストの文字数と処理時間との関係の一例を表したグラフである。予測処理に続いて行われる音声判定処理の処理手順を図解したフローチャートである。図９の音声対話システムにおける端末装置からの音声出力パターンの例を図解した図である。音声出力の切り替えの手法の説明図である。図１２の音声判定処理の処理手順の変形例を図解したフローチャートである。

まず図２について説明する。図２は、音声対話システムの一実施例の機能構成図である。
図２の音声対話システムは、データセンター装置１０と端末装置２０とを備えている。このデータセンター装置１０と端末装置２０とは通信ネットワーク３０を介して接続されており、通信ネットワーク３０を介して各種のデータの授受を行うことができる。なお、通信ネットワーク３０は、無線回線・有線回線のどちらでもよく、また、無線回線と有線回線とが組み合わされて構成されていてもよい。

データセンター装置１０は、対話受信部１１、要求情報取得部１２、回答情報取得部１３、データベース１４、対話制御部１５、第１の音声合成部１６、音声データ送信部１７、及びシナリオ送信部１８を備えている。

対話受信部１１は、端末装置２０から送られてくる発声音の音声データを受信する。
要求情報取得部１２は、対話受信部１１が受信した音声データに対して音声認識処理を実行して、当該音声データにより表現されている要求情報を取得する。

回答情報取得部１３は、要求情報取得部１２が取得した要求情報についての回答情報を、データベース１４から取得する。
データベース（ＤＢ）１４には、各種の情報が蓄積されている情報源である。なお、データベース１４は、データセンター装置１０の外部に設置されていてもよい。また、データベース１４は、データセンター装置１０の設置場所から遠隔の場所に設置されていて、通信回線を経由してデータセンター装置１０からアクセスできるようにしてもよい。

対話制御部１５は、回答情報取得部１３が取得した回答情報を含むシナリオのデータファイルを作成する。以下、このシナリオのデータファイルを、単に「シナリオ」と称することとする。このシナリオの作成の詳細については後述する。

第１の音声合成部１６は、回答情報取得部１３が取得した回答情報を発声している合成音声を表現している第１合成音声データを作成する。
音声データ送信部１７は、第１の音声合成部により作成された第１合成音声データを前記端末装置へ送信する音声データ送信部と、
シナリオ送信部１８は、第１の音声合成部１６が第１合成音声データを作成している間に、対話制御部１５が作成したシナリオを端末装置２０に送信する。

一方、端末装置２０は、入力部２１、対話送信部２２、シナリオ受信部２３、第２の音声合成部２４、音声データ受信部２５、音声判定部２６、及び出力部２７を備えている。
入力部２１は、発声音の入力を取得して、取得した発声音を表現している音声データに変換する。

対話送信部２２は、入力部２１によって得られた発声音の音声データをデータセンター装置１０へ送信する。
シナリオ受信部２３は、データセンター装置１０から送られてくる、前述のシナリオを受信する。

第２の音声合成部２４は、シナリオ受信部２３が受信したシナリオに含まれている前述の回答情報を発声している合成音声を表現している第２合成音声データを作成する。
音声データ受信部２５は、データセンター装置１０から送られてくる前述の第１合成音声データを受信する。

音声判定部２６は、音声データ受信部２５による第１合成音声データの受信が完了したか否かを判定し、当該判定結果に基づいて、第１合成音声データと第２合成音声データとのうちの一方を選択する。
出力部２７は、音声判定部２６により選択された合成音声データで表現されている合成音声を出力する。
図２の音声対話システムは以上のように構成されている。

次に、図２の音声対話システムにおけるデータセンター装置１０の対話制御部１５が作成するシナリオについて説明する。シナリオは、端末装置２０での画面表示の手順、音声データのデータセンター装置１０からのダウンロードの順序、ダウンロードされた音声データの再生順等といった、端末装置２０での出力の手順を表したデータである。
例えば、回答情報取得部１３が取得した要求情報について、図３のテーブルに示したような回答情報が得られたものとする。

なお、図３のテーブルでは、「発声音声データ」と、「要求情報」と、「回答情報」とが各行において対応付けられている。ここで、「発声音声データ」は、対話受信部１１が受信した音声データの内容を表している。また、「要求情報」は、「発声音声データ」に対して要求情報取得部１２が音声認識処理を実行した結果として取得した、データベース１４に対しての情報検索の対象を特定する情報である。そして、「回答情報」は、回答情報取得部１３が「要求情報」の検索を行った結果としてデータベース１４から得られた情報である。

なお、情報検索の対象とするデータベース１４の選択の手法として、例えば、通常はデータセンター装置１０が備えているものを使用するが、特定のキーワードが含まれていた場合には、データセンター装置１０外のデータベース１４を用いるようにしてもよい。すなわち、例えば、要求情報に『ニュース』や『天気予報』等の特定のキーワードが含まれていた場合には、回答情報取得部１３は、データセンター装置１０外のニュースサイトや天気予報サイト等から回答情報を得るようにしてもよい。

回答情報取得部１３が回答情報を取得すると、対話制御部１５は、取得された回答情報を含むシナリオを作成する。このシナリオの記述には、例えば、ＸＭＬ（Extensible Markup Language）のフォーマットのひとつとして提案されているＶｏｉｃｅＸＭＬやＳＣＸＭＬ等といった、音声データの扱いを記述するマークアップ言語を用いることができる。

図４は、テキストファイルにおけるシナリオの記述例であり、タグを用いてテキスト情報や音声データの再生方法を記述したものである。なお、この記述例は、図３のテーブルに表されているように、「回答情報」として『今日の天気は晴れでしょう。』なるテキストデータが得られた場合に、対話制御部１５が作成するものである。
なお、図４の記述例において、各行の先頭の番号は、説明の便宜のために付した行番号である。

図４の記述例では、<state>タグ、<my:download>タグ、<my:output>タグ、及び<transition>タグが用いられている。これらのタグは、それぞれ下記の意味を表している。
・<state>タグ：状態を特定する。
・<my:download>タグ：ダウンロードする対象の音声データを特定する。
・<my:output>タグ：再生対象の音声データ、表示対象のテキストを特定する。
・<transition>タグ：状態遷移の発生条件であるイベントと遷移先とを特定する。

ここで図５について説明する。図５は、図４に例示したシナリオによって表現されている状態遷移を表している。
図５において、Ｓ１０は「ＳＴＡＲＴ」状態であってシナリオの開始を表しており、図４の第１０行から第１４行に対応している。この状態では、端末装置２０は、まず、音声データ“ｗｅａｔｈｅｒ＿０．ｗａｖ”のダウンロードを行い（第１１行）、続いて、音声データ“ｗｅａｔｈｅｒ＿１．ｗａｖ”のダウンロードを行う（第１２行）。その後、ダウンロードが完了したときには、端末装置２０は、状態を「ＰＬＡＹ０」状態に遷移させる（第１３行）。

なお、音声データ“ｗｅａｔｈｅｒ＿０．ｗａｖ”は、データセンター装置１０の第１の音声合成部１６により作成された、回答情報が天気予報に関するものである場合に使用されるテキスト『天気予報をお伝えします』を発声している第１合成音声データである。また、音声データ“ｗｅａｔｈｅｒ＿１．ｗａｖ”は、データセンター装置１０の第１の音声合成部１６により作成された、回答情報であるテキスト『今日の天気は晴れでしょう』を発声している第１合成音声データである。

Ｓ２０は「ＰＬＡＹ０」状態であり、図４の第２０行から第２３行に対応している。この状態では、端末装置２０は、音声データ“ｗｅａｔｈｅｒ＿０．ｗａｖ”の再生を行うと共に、テキスト『天気予報をお伝えします』の表示を行う（第２１行）。その後、音声データ“ｗｅａｔｈｅｒ＿０．ｗａｖ”の再生が完了したときには、端末装置２０は、状態を「ＰＬＡＹ１」状態に遷移させる（第２２行）。

Ｓ３０は「ＰＬＡＹ１」状態であり、図４の第３０行から第３３行に対応している。この状態では、端末装置２０は、音声データ“ｗｅａｔｈｅｒ＿１．ｗａｖ”の再生を行うと共に、テキスト『今日の天気は晴れでしょう』の表示を行う（第３１行）。その後、音声データ“ｗｅａｔｈｅｒ＿１．ｗａｖ”の再生が完了したときには、端末装置２０は、状態を「ＥＮＤ」状態に遷移させる（第３２行）。

Ｓ４０は「ＥＮＤ」状態であって、このシナリオの終了を表しており、図４の第４０行から第４１行に対応している。
このように、シナリオによって、このシナリオを受信した端末装置２０の状態遷移が定義され、イベント発生時には、端末装置２０の状態を、記述されている状態に遷移させることで、再生する音声データや表示するテキスト情報を変更することができる。

なお、本実施例においては、対話制御部１５は、このようなシナリオを、シナリオテンプレートを用いて作成する。シナリオテンプレートは、シナリオのうち、回答情報と当該回答情報を発声している合成音声のデータファイル名との記述以外のものが既に記述されているデータファイルである。対話制御部１５は、このようなシナリオテンプレートに、回答情報と当該回答情報を発声している合成音声のデータファイル名との記述を追加することによって、シナリオを作成する。

例えば、図４のシナリオの記述例では、第３１行に記述されている音声データファイル名“ｗｅａｔｈｅｒ＿１．ｗａｖ”とテキスト『今日の天気は晴れでしょう』以外の記述がシナリオテンプレートに含まれている。対話制御部１５は、このシナリオテンプレートに、音声データファイル名“ｗｅａｔｈｅｒ＿１．ｗａｖ”とテキスト『今日の天気は晴れでしょう』との記述を追加することによって、図４のシナリオの作成を行う。

なお、このシナリオテンプレートは、想定される回答情報の種別毎、すなわち、例えば『ニュース』や『天気予報』等の種別毎に予め用意しておく。対話制御部１５は、回答情報取得部１３が取得した回答情報の種別に応じてシナリオテンプレートを選択し、選択されたシナリオテンプレートを用いて、その回答情報についてのシナリオの作成を行う。

なお、図４及び図５によって表現されている状態遷移は一定の方向の遷移のみであるが、双方向の遷移や、他方向の状態遷移が生じるようにしてもよい。また、対話制御部１５が生成するシナリオは１つのみである必要はなく、状況に応じて、例えばシナリオの内容が大量となる場合などには、シナリオを分割して作成し、シナリオ送信部１８は、分割されているシナリオを１つずつ送信するようにしてもよい。

図２の音声対話システムでは、データセンター装置１０の第１の音声合成部１６が、豊富なハードウェア資源を活用して、合成音声の品質が高い第１合成音声データを作成する。その一方で、シナリオ送信部１８は、音声データ送信部１７が第１合成音声データを送信する前の、第１の音声合成部１６が当該第１合成音声データを作成している間に、対話制御部１５が作成したシナリオを先に端末装置２０に送信する。このシナリオには、回答情報取得部１３がデータベース１４から取得した回答情報が含まれているので、端末装置２０の第２の音声合成部２４は、この回答情報を発声している合成音声を表現している第２合成音声データを作成することができる。従って、通信ネットワーク３０の状況により第１合成音声データの到着が遅れても、端末装置２０は、とりあえず第２合成音声データの再生により最新の回答情報を提供することで、対話における無応答状態の発生が抑制される。

次に、図２の音声対話システムのハードウェア構成について説明する。
まず図６について説明する。図６は、データセンター装置１０のハードウェア構成例を表した図である。

図６のデータセンター装置１０の構成は、標準的なコンピュータシステムと同様の構成である。すなわち、データセンター装置１０は、ＭＰＵ４１、ＲＯＭ４２、ＲＡＭ４３、ディスクアレイ装置４４、入力装置４５、表示装置４６、通信装置４７、及び記録媒体駆動装置４８を備えている。なお、これらの各構成要素はバスライン４９を介して接続されており、ＭＰＵ４１の管理の下で各種のデータを相互に授受することができる。

ＭＰＵ（Micro Processing Unit）４１は、データセンター装置１０全体の動作を制御する演算処理装置である。
ＲＯＭ（Read Only Memory）４２は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。ＭＰＵ４１は、この基本制御プログラムをデータセンター装置１０の起動時に読み出して実行することにより、データセンター装置１０の各構成要素の動作制御が可能になる。なお、ＲＯＭ４２として、フラッシュメモリ等の、記憶データが不揮発性であるメモリを使用してもよい。

ＲＡＭ（Random Access Memory）４３は、ＭＰＵ４１が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。

ディスクアレイ装置４４は、複数台のハードディスクドライブを論理的に束ねたものであり、ＭＰＵ４１によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。ＭＰＵ４１は、ディスクアレイ装置４４に記憶されている所定の制御プログラムを読み出して実行することにより、各種の制御処理を行えるようになる。また、例えば、データベース１４をデータセンター装置１０に備える場合には、ディスクアレイ装置４４は、データベース１４を予め格納しておく記憶装置としても使用される。

入力装置４５は、例えばキーボード装置やマウス装置であり、例えばデータセンター装置１０の管理者により操作されると、その操作内容に対応付けられている管理者からの各種情報の入力を取得し、取得した入力情報をＭＰＵ４１に送付する。

表示装置４６は例えば液晶ディスプレイであり、ＭＰＵ４１から送付される出力データに応じ、各種のテキストや画像の表示を行う。
通信装置４７は、データセンター装置１０を通信ネットワーク３０に接続して、端末装置２０との間で各種での各種のデータの授受の管理を行う。

記録媒体駆動装置４８は、可搬型記録媒体５０に記録されている各種の制御プログラムやデータの読み出しを行う装置である。ＭＰＵ４１は、可搬型記録媒体５０に記録されている所定の制御プログラムを、記録媒体駆動装置４８を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体５０としては、例えばＣＤ−ＲＯＭ（Compact Disc Read Only Memory）やＤＶＤ−ＲＯＭ（Digital Versatile Disc Read Only Memory）、ＵＳＢ（Universal Serial Bus）規格のコネクタが備えられているフラッシュメモリなどがある。

このような構成要素を用いてデータセンター装置１０を実現するには、例えば、後述する、データセンター装置１０で行われる制御処理をＭＰＵ４１に行わせるための制御プログラムを作成する。作成された制御プログラムはディスクアレイ装置４４若しくは可搬型記録媒体５０に予め格納しておく。そして、ＭＰＵ４１に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、図６の各構成要素を、対話受信部１１、要求情報取得部１２、回答情報取得部１３、データベース１４、対話制御部１５、第１の音声合成部１６、音声データ送信部１７、及びシナリオ送信部１８として機能させることが可能となる。

次に図７について説明する。図７は、端末装置２０のハードウェア構成例を表した図である。
図７の端末装置２０は、ＭＰＵ５１、不揮発性メモリ５２、ＲＡＭ５３、入力部５４、出力部５５、及び通信部５６を備えている。なお、これらの各構成要素はバスライン５７を介して接続されており、ＭＰＵ５１の管理の下で各種のデータを相互に授受することができる。

ＭＰＵ５１は、端末装置２０全体の動作を制御する演算処理装置である。
不揮発性メモリ５２は、例えばフラッシュメモリであり、所定の基本制御プログラムが予め記録されている。ＭＰＵ５１は、この基本制御プログラムを端末装置２０の起動時に読み出して実行することにより、端末装置２０の各構成要素の動作制御が可能になる。また、不揮発性メモリ５２は、ＭＰＵ４１によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置としての機能も有している。ＭＰＵ５１は、不揮発性メモリ５２に記憶されている所定の制御プログラムを読み出して実行することにより、各種の制御処理を行えるようになる。

ＲＡＭ（Random Access Memory）５３は、ＭＰＵ５１が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。

入力部５４はマイク装置やキーボード装置などを備えている。端末装置２０の使用者が声を発すると、その発声音はマイク装置によって収音され、更に不図示の変換器によって当該発声音を表現している音声データに変換されてＭＰＵ５１に送付される。また、端末装置２０の使用者がキーボード装置を操作すると、その操作内容に対応付けられている使用者からの各種情報の入力が取得され、取得された情報がＭＰＵ５１に送付される。

出力部５５は、スピーカーや液晶ディスプレイなどを備えている。ＭＰＵ５１から音声データが出力部５５に送られてくると、出力部５５は不図示の変換器によって音声データをアナログ信号の音声信号に変換してスピーカーを駆動することによって、当該音声データで表現されている音声を放音する。また、ＭＰＵ５１からテキストデータや画像データが出力部５５に送られてくると、出力部５５は、これらのデータで表されているテキストや画像を液晶ディスプレイで表示する。

通信部５６は、端末装置２０を通信ネットワーク３０に接続して、データセンター装置１０との間で各種での各種のデータの授受の管理を行う。
このような構成要素を用いて端末装置２０を実現するには、例えば、後述する、端末装置２０で行われる制御処理をＭＰＵ５１に行わせるための制御プログラムを作成する。作成された制御プログラムは不揮発性メモリ５２に予め格納しておく。そして、ＭＰＵ５１に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、図７の各構成要素を、入力部２１、対話送信部２２、シナリオ受信部２３、第２の音声合成部２４、音声データ受信部２５、音声判定部２６、及び出力部２７として機能させることが可能となる。

次に、図２の音声対話システムにおいて行われる制御処理について、図８を参照しながら説明する。図８は、この制御処理の処理手順を表したフローチャートである。
なお、図８に図解した処理のうち、Ｓ１０１からＳ１０７にかけての処理はデータセンター装置１０のＭＰＵ４１が行い、Ｓ２０１からＳ２０７にかけての処理は端末装置２０のＭＰＵ５１が行う。

図８において、まず、端末装置２０のＭＰＵ５１がＳ２０１の入力処理を行う。この処理は、入力部５４を制御して、端末装置２０の使用者による発声音の入力を取得させ、取得された発声音を表現している音声データに変換させる処理である。この処理を行うＭＰＵ５１と入力部５４とによって、図２の入力部２１としての機能が提供される。なお、発声音の取得のタイミングは任意でも構わないし、例えば所定のボタンスイッチへの押下若しくはタッチパネル上の所定のボタンアイコンへのタッチを取得の開始タイミングとしてもよい。また、このとき、ＭＰＵ５１は、端末装置２０の使用者によるキーボード装置への操作内容に対応付けられている使用者からのテキスト文字列の入力を取得するようにしてもよい。

次に、端末装置２０のＭＰＵ５１がＳ２０２の対話送信処理を行う。この処理は、通信部５６を制御して、Ｓ２０１の入力処理により得られた音声データを、データセンター装置１０に宛てて、通信ネットワーク３０に送出する処理である。この処理を行うＭＰＵ５１と通信部５６とによって、図２の対話送信部２２としての機能が提供される。

一方、データセンター装置１０のＭＰＵ４１ではＳ１０１の対話受信処理が行われている。この処理は、通信装置４７を制御して、Ｓ２０２の対話送信処理が行われた端末装置２０から通信ネットワーク３０を介して送られてくる発声音の音声データを受信させる処理である。この処理を行うＭＰＵ４１と通信装置４７とによって、図２の対話受信部１１としての機能が提供される。

次に、データセンター装置１０のＭＰＵ４１がＳ１０２の要求情報取得処理を行う。この処理は、Ｓ１０１の対話受信処理により受信された音声データに対して音声認識処理を実行して、当該音声データにより表現されている要求情報を取得する処理である。この処理を行うＭＰＵ４１によって、図２の要求情報取得部１２としての機能が提供される。

次に、データセンター装置１０のＭＰＵ４１がＳ１０３の回答情報取得処理を行う。この処理は、Ｓ１０２の要求情報取得処理によって取得された要求情報についての回答情報を、例えばディスクアレイ装置４４に格納されているデータベース１４から取得する処理である。この処理を行うＭＰＵ４１によって、図２の回答情報取得部１３としての機能が提供される。

次に、データセンター装置１０のＭＰＵ４１がＳ１０４の対話制御処理を行う。この処理は、Ｓ１０３の回答情報取得処理によって取得された回答情報を含むシナリオを、前述したようにして作成する処理である。この処理を行うＭＰＵ４１によって、図２の対話制御部１５としての機能が提供される。

次に、データセンター装置１０のＭＰＵ４１がＳ１０５のシナリオ送信処理を行う。この処理は、通信装置４７を制御して、Ｓ１０４の対話制御処理により作成されたシナリオを、端末装置２０に宛てて、通信ネットワーク３０に送出する処理である。この処理を行うＭＰＵ４１と通信装置４７とによって、図２のシナリオ送信部１８としての機能が提供される。

また、データセンター装置１０のＭＰＵ４１はＳ１０６の第１の音声合成処理を行う。この処理は、Ｓ１０３の回答情報取得処理によって取得された回答情報を発声している合成音声を表現している第１合成音声データを作成する処理である。なお、ＭＰＵ４１は、この第１の音声合成処理を、前述したＳ１０５のシナリオ送信処理と並行して行う。ここで、この第１の音声合成処理を、Ｓ１０３の回答情報取得処理によって回答情報が取得された直後に、前述したＳ１０４の対話制御処理と並行して行うようにしてもよい。この第１の音声合成処理を行うＭＰＵ４１によって、図２の第１の音声合成部１６としての機能が提供される。

次に、データセンター装置１０のＭＰＵ４１がＳ１０７の音声データ送信処理を行う。この処理は、通信装置４７を制御して、Ｓ１０６の第１の音声合成処理によって作成された第１合成音声データを、端末装置２０に宛てて、通信ネットワーク３０に送出する処理である。この処理を行うＭＰＵ４１と通信装置４７とによって、図２の音声データ送信部１７としての機能が提供される。その後、データセンター装置１０のＭＰＵ４１では、この制御処理を終了させる。

一方、端末装置２０のＭＰＵ５１では、Ｓ２０２の対話送信処理に続いてＳ２０３のシナリオ受信処理が行われている。このシナリオ受信処理では、ＭＰＵ５１は、まず、通信部５６を制御して、Ｓ１０５のシナリオ送信処理が行われたデータセンター装置１０から通信ネットワーク３０を介して送られてくるシナリオを受信させる処理を行う。続いて、ＭＰＵ５１は、受信されたシナリオを解析して、再生に必要な音声データについての情報や表示するテキストについての情報をシナリオから抽出する処理を行う。この処理を行うＭＰＵ５１と通信部５６とによって、図２のシナリオ受信部２３としての機能が提供される。

次に、端末装置２０のＭＰＵ５１がＳ２０４の第２の音声合成処理を行う。この処理は、Ｓ２０３のシナリオ受信処理により受信されたシナリオに含まれている回答情報を発声している合成音声を表現している第２合成音声データを作成する処理である。

端末装置２０のＭＰＵ５１が有している演算処理の能力はデータセンター装置１０のＭＰＵ４１に比べて顕著に低い。また、端末装置２０の不揮発性メモリ５２及びＲＡＭ５３の記憶容量は、データセンター装置１０のＲＡＭ４３及びディスクアレイ装置４４と比較すると顕著に少ない。そこで、このＳ２０４の第２の音声合成処理は、データセンター装置１０側で行われるＳ１０６の第１の音声合成処理と比較して、端末装置２０での実装が可能な程度の簡易な処理とする。一般的に、音声合成処理は、使用する音声波形辞書の規模に応じ、その規模が大きくなれば品質は高くなるが処理量は増加する。本実施例では、第１の音声合成処理では、データサイズが数ギガ〜数十ギガとなるような、大規模な文章コーパス（様々な抑揚を網羅した１万〜数万文章や良く使われる用例の音声を登録した辞書）のデータベースを利用した処理を行うようにする。一方、第２の音声合成処理では、データサイズが数メガ〜数十メガ程度である、音節データベース（例えば日本語の場合では五十音、濁音、及び半濁音のみを登録した辞書であり、英語の場合には母音及び子音のみを登録した辞書）を利用した処理を行うようにする。

なお、このＳ２０４の第２の音声合成処理を行うＭＰＵ５１によって、図２の第２の音声合成部２４としての機能が提供される。
また、端末装置２０のＭＰＵ５１は、Ｓ２０４の第２の音声合成処理の実行と並行して、Ｓ２０５の音声データ受信処理を行う。この処理は、通信部５６を制御して、Ｓ１０７の音声データ送信処理が行われたデータセンター装置１０から通信ネットワーク３０を介して送られてくる第１合成音声データを受信させる処理である。この処理を行うＭＰＵ５１と通信部５６とによって、図２の音声データ受信部２５としての機能が提供される。

更に、端末装置２０のＭＰＵ５１はＳ２０６の音声判定処理を行う。この処理は、Ｓ２０５の音声データ受信処理による第１合成音声データの受信が完了したか否かを判定し、この判定結果に基づき、当該第１合成音声データとＳ２０４の第２の音声合成処理により作成された第２合成音声データとのうちの一方を選択する処理である。この処理を行うＭＰＵ５１によって、図２の音声判定部２６としての機能が提供される。

次に、端末装置２０のＭＰＵ５１がＳ２０７の出力処理を行う。この処理は、出力部５５を制御して、Ｓ２０６の音声判定処理により選択された合成音声データで表現されている合成音声を出力する処理である。また、ＭＰＵ５１は、Ｓ２０３のシナリオ受信処理におけるシナリオの解析によって、テキストの表示を行うことが記述されていたことが判明した場合には、この出力処理において、その解析結果に従ってテキストの表示を行う処理も行う。この処理を行うＭＰＵ５１と出力部５５とによって、図２の出力部２７としての機能が提供される。その後、端末装置２０のＭＰＵ５１は、この制御処理を終了させる。

図２の音声対話システムでは、以上の制御処理が行われる。この制御処理では、データセンター装置１０においてＳ１０３の処理により回答情報が取得されると、Ｓ１０６の処理による第１合成音声データの作成を待たずに、Ｓ１０４及びＳ１０５の処理によってシナリオの作成及び送信が行われる。従って、端末装置２０では、第１合成音声データの到着が遅れても、Ｓ２０４の処理によりシナリオに含まれている回答情報から第２合成音声データを作成してＳ２０７の処理により第２合成音声データを再生することで、最新の回答情報の提供を行うことができる。この結果、対話における無応答状態の発生が抑制される。また、第１合成音声データが到着すれば、高品質な音声合成処理を行うための処理能力を備えていなくても、端末装置２０は、到着した第１合成音声データを再生することで、回答情報を高品質な音声で提供することができる。

次に図９について説明する。図９は、音声対話システムの別の一実施例の機能構成図である。
図９の音声対話システムの構成は、図２と同様の構成に加えて、端末装置２０が、更に、予測部６１、アナウンス音・通知音データ６２、及び記憶部６３を備えている。ここでは、これらの構成要素に関連する機能について説明する。

予測部６１は、音声データ受信部２５による第１合成音声データの受信が完了して当該第１合成音声データにより表現されている合成音声の出力部２７による出力が開始可能となる第１時刻を予測する。このとき、音声判定部２６は、予測された第１時刻以前の時刻においては第２の音声合成部２４が作成した第２合成音声データを選択し、当該第１時刻以降の時刻においては音声データ受信部２５により受信された第１合成音声データを選択するようにする。

このようにすることで、当該第１時刻以前の時刻においては、第２合成音声データで表現されている合成音声が出力部２７により出力され、当該第１時刻以降の時刻においては、第１合成音声データで表現されている合成音声が出力部２７により出力される。従って、出力される合成音声を、第２合成音声データで表現されているものから、高品質な第１合成音声データで表現されているものへとスムーズに切り替えることができる。

なお、予測部６１は、この第１時刻の予測を、例えば、データセンター装置１０に送付した所定の要求に対してデータセンター装置１０から送られてくる返答を受信するまでの応答時間と、第１合成音声データのデータサイズとに基づいて行う。予測部６１は、この応答時間と第１合成音声データのデータサイズとから第１合成音声データのダウンロードに要する時間との合計時間を算出することによって、音声データ受信部２５による第１合成音声データの受信の完了時刻の予測を行う。

また、予測部６１は、更に、第２の音声合成部２４による第２合成音声データの作成が完了して当該第２合成音声データにより表現されている合成音声の出力部２７による出力が開始可能となる第２時刻の予測も行う。このとき、音声判定部２６は、前述の第１時刻以前であって且つこの第２時刻以前には、予め用意されている所定の音声データである、アナウンス音・通知音データ６２を選択する。

このようにすることで、当該第１時刻以前であって且つ当該第２時刻以前の時刻においては、アナウンス音・通知音データ６２で表現されているアナウンス音若しくは通知音が出力部２７により出力される。従って、第１合成音声データの受信完了前であって第２合成音声データの作成完了前の時刻においても、アナウンス音若しくは通知音が出力されるので、対話における無応答状態の時間が更に短縮される。

なお、図９の音声対話システムにおいて、前述したように、音声判定部２６は、前述の第１時刻において合成音声データの選択を第２合成音声データから第１合成音声データに切り替える。このときには、出力部２７は、当該第２合成音声データで表現されている合成音声の出力の途中で、その出力を当該第１合成音声データで表現されている合成音声に切り替えるようにしてもよい。このようにすることで、第２合成音声データで表現されている合成音声の再生の終了を待つことなく、第１合成音声データで表現されている高品質な合成音声へと切り替えることができる。

ところで、図９の音声対話システムにおける記憶部６３は、音声データ受信部２５が受信した第１合成音声データを保存しておく。このとき、音声判定部２６は、音声データ受信部２５が受信する第１合成音声データが記憶部６３に既に記憶されているか否かを、シナリオ受信部２３が受信したシナリオに含まれている回答情報に基づいて判定する。ここで、音声判定部２６は、第１合成音声データが記憶部６３に既に記憶されていると判定した場合には、当該第１合成音声データを選択する。そして、出力部２７は、第１合成音声データが記憶部６３に既に記憶されていると判定した場合には、記憶部６３に既に記憶されている第１合成音声データで表現されている合成音声を出力する。

図９の音声対話システムにおいて、データセンター装置１０と端末装置２０との間で対話のためのデータの授受を繰り返していると、シナリオに含まれる回答情報が、過去に送付したシナリオに含まれていたものと同一のものである場合がある。そこで、このような場合には、出力部２７は、記憶部６３に既に記憶されている、当該回答情報を発声している第１合成音声データを用いて、合成音声を出力する。つまり、記憶部６３は、第１合成音声データを記憶しておくキャッシュメモリとしての機能を提供する。このようにすることで、端末装置２０では、新たな第１合成音声データが到着するよりも前の早い時期から、記憶部６３に既に記憶されている第１合成音声データで表現されている高品質な合成音声の再生を行うことができる。

なお、図９の音声対話システムのハードウェア構成は、図２と同様の構成、すなわち、データセンター装置１０を図６に図解した構成とし、端末装置２０を図７に図解した構成とする。なお、この構成の場合、アナウンス音・通知音データ６２は、図７の不揮発性メモリ５２に予め格納しておく。また、この構成の場合、図７のＲＡＭ５３は、図９の音声対話システムにおける記憶部６３としても使用される。

図９の音声対話システムのハードウェア構成を上述の構成とする場合には、データセンター装置１０のＭＰＵ４１と端末装置２０のＭＰＵ５１とが行う制御処理として、図８にフローチャートで図解した処理を、これより説明するように変更する。

まず図１０について説明する。図１０は、予測処理の処理手順を表したフローチャートである。この予測処理は、図８に図解した制御処理におけるＳ２０３のシナリオ受信処理の後に、Ｓ２０４の第２の音声合成処理及びＳ２０５の音声データ受信処理の実行と並行して行われる。

なお、以下の説明では、通信ネットワーク３０では、通信プロトコルとしてＴＣＰ（Transmission Control Protocol ）が使用されるものとし、データセンター装置１０と端末装置２０との間ではＴＣＰのパケットを用いてデータの授受が行われるものとする。

まず、端末装置２０のＭＰＵ５１は、図１０のＳ２１１において、データセンター装置１０の応答時間を測定する処理を行う。この処理では、まず、ＭＰＵ５１は、自身の有する不図示のタイマ機能の動作を開始させて、経過時間の計時を開始する処理を行う。そして、次に、ＭＰＵ５１は、通信部５６を制御して、応答時間測定用の所定の返答要求情報を、データセンター装置１０に宛てて、通信ネットワーク３０に送出させる処理を行う。

なお、データセンター装置１０では、例えば所定の制御プログラムをＭＰＵ４１で実行させておくことで、この返答要求情報が通信装置４７により受信された場合にＭＰＵ４１が所定の制御処理を実行するように構成しておく。この制御処理は、ＭＰＵ４１が、この返答要求情報の通信装置４７による受信を検出した場合に、通信装置４７を制御して、所定の返答情報を、端末装置２０に宛てて、通信ネットワーク３０に送出させるという処理である。

その後、ＭＰＵ５１は、データセンター装置１０から送られてくる上述の返答要求情報の通信部５６による受信の検出処理を行い、この受信が検出された場合には、前述したタイマ機能の動作を停止させて、このときまでの経過時間の計時結果を取得する処理を行う。この計時結果が、応答時間Ｒｔｔとなる。

なお、ＭＰＵ５１は、応答時間Ｒｔｔの計測を、図８の制御処理の実施とは無関係に、一定の期間毎に行うようにしてもよい。また、ＭＰＵ５１は、例えば、端末装置２０の通信部５６とデータセンター装置１０の通信装置４７との間での音声データ等の各種のデータの伝送時におけるハンドシェイクの通信を利用して、応答時間Ｒｔｔの計測を行うようにしてもよい。

次に、端末装置２０のＭＰＵ５１は、Ｓ２１２において、図８のＳ２０３のシナリオ受信処理により受信されたシナリオから、回答情報のテキストデータと、第１合成音声データのデータサイズとを取得する処理を行う。この処理のために、データセンター装置１０で行われるＳ１０４の対話制御処理では、テキストにデータファイル名が記述される第１合成音声データのデータ量の情報、若しくはそのデータ量の予測値の情報を、当該テキストに付加する処理を行うものとする。このために、データセンター装置１０では、Ｓ１０６の第１の音声合成処理が完了して第１合成音声データのデータサイズが判明してからＳ１０４の対話制御処理を行うようにしてもよい。また、Ｓ１０４の対話制御処理において、Ｓ１０３の回答情報取得処理により得られた回答情報のデータ量から第１合成音声データのデータ量を推定する処理を行うようにしてもよい。

次に、Ｓ２１３では、端末装置２０のＭＰＵ５１が、第１合成音声データの受信が完了して当該第１合成音声データにより表現されている合成音声の出力が開始可能となる第１時刻を予測する処理を行う。この第１時刻の予測は次のようにして行われる。

端末装置２０におけるＴＣＰのウィンドウサイズをｗとすると、この場合のＴＣＰによるデータの転送速度はｗ／Ｒｔｔとなる。従って、第１合成音声データのデータサイズをＳとすると、この第１合成音声データの転送に要する時間Ｔは、
Ｔ＝Ｓ×Ｒｔｔ／ｗ
により算出される。そこで、ＭＰＵ５１は、図８のＳ２０５の音声データ受信処理により第１合成音声データの受信が開始された時刻から、上記の式の計算を行って算出される値Ｔが経過した時刻を、第１時刻の予測結果とする。

なお、例えば、第１合成音声データの転送ビットレートｂが既知である場合には、ＭＰＵ５１は、Ｓ／ｂの計算を行って第１合成音声データの転送に要する時間Ｔを求めるようにしてもよい。

次に、Ｓ２１４では、端末装置２０のＭＰＵ５１が、第２合成音声データの作成が完了して当該第２合成音声データにより表現されている合成音声の出力が開始可能となる第２時刻を予測する処理を行い、その後は、この図１０の予測処理を終了する。なお、この第２時刻の予測は次のようにして行われる。

まず図１１について説明する。図１１は、音声合成処理における処理対象のテキストの文字数と処理時間との関係の一例を表したグラフである。このグラフからも分かるように、一般的に、音声合成処理の処理時間は、処理対象のテキストの文字数に比例して増加する関係を有している。そこで、処理対象のテキストの文字数と、当該テキストについて音声合成処理を行ったときの処理時間とを予め実測し、その実測結果から比例定数を求めておくようにする。こうすることで、処理対象のテキストに対する音声合成処理に要する処理時間を、当該テキストの文字数に当該比例定数を乗じる計算を行うことで、予測することができる。

つまり、処理対象のテキストの文字数を変化させて、当該文字数と図８の第２の合成処理の処理時間との関係を実測し、この関係における比例定数を求めておく。Ｓ２１４の処理では、まず、Ｓ２１２の処理によりシナリオから取得した回答情報のテキストデータの文字数を計数し、この文字数に、上述した比例定数を乗算した結果の値を算出する処理を行う。そして、図８のＳ２０４の第２の音声合成処理により第２合成音声データの作成が開始された時刻から、上述の乗算により算出された値が経過した時刻を、第２時刻の予測結果とする。

以上までの処理が図１０の予測処理である。この処理を行うＭＰＵ５１と通信部５６とによって、図９予測部６１としての機能が提供される。
ＭＰＵ５１は、図１０の予測処理の終了後には、図８に図解した制御処理におけるＳ２０６の音声判定処理に処理を進める。このときに行われる音声判定処理の処理内容について、図１２を参照しながら説明する。

なお、前述した予測処理と並行して実行されるＳ２０５の音声データ受信処理では、ＭＰＵ５１は、第１合成音声データが通信部５６で受信されたときに、その第１合成音声データを、記憶部６３であるＲＡＭ５３に保存する処理を更に行うものとする。なお、このとき、ＭＰＵ５１は、第１合成音声データによって発声されている回答情報も、当該第１合成音声データに対応付けてＲＡＭ５３に保存する処理を行うものとする。

図１２は、図１０の予測処理に続いて行われる音声判定処理の処理手順を図解したフローチャートである。
まず、ＭＰＵ５１は、図１２のＳ２２１において、シナリオに記述されている第１合成音声データが、記憶部６３であるＲＡＭ５３に既に保存されているか否かを判定する処理を行う。この判定は、シナリオに記述されている、第１合成音声データを発声している回答情報と一致するものが、ＲＡＭ５３に保存されているか否かを判定することによって行われる。ＭＰＵ５１は、ここで、シナリオに記述されている第１合成音声データが既に保存されていると判定したとき（判定結果がＹｅｓのとき）にはＳ２２２に処理を進める。一方、ＭＰＵ５１は、ここで、シナリオに記述されている第１合成音声データが保存されていないと判定したとき（判定結果がＮｏのとき）にはＳ２２３に処理を進める。

Ｓ２２２では、Ｓ２２１の処理によって保存されていると判定された第１合成音声データを選択する処理をＭＰＵ５１が行い、その後はこの音声判定処理を終了して、図８のＳ２０７の出力処理に処理を進める。このときの出力処理では、ＭＰＵ５１は、出力部５５を制御して、選択された第１合成音声データをＲＡＭ５３から読み出し、読み出された第１合成音声データで表現されている合成音声を出力する処理を行う。

一方、Ｓ２２３では、現在時刻、すなわち、この処理時点での時刻を取得する処理をＭＰＵ５１が行う。ＭＰＵ５１は、この現在時刻を、ＭＰＵ５１自身が備えている時計、若しくは、ＭＰＵ５１に接続されている不図示の時計から取得する。

Ｓ２２４では、Ｓ２２３の処理により取得された現在時刻に、許容できる無音時間、すなわち、利用者と端末装置２０との対話において許容できる無応答状態の時間を加算して、閾値時刻を算出する処理をＭＰＵ５１が行う。この無音時間は、事前評価の結果に従い、通常は１秒から２秒程度の時間を設定するが、０秒に設定してもよい。

Ｓ２２５では、図１０の予測処理におけるＳ２１３の処理によって予測された第１時刻が、Ｓ２２４の処理によって算出された閾値時刻以前であるか否かを判定する処理をＭＰＵ５１が行う。ここで、ＭＰＵ５１は、第１時刻が閾値時刻以前であると判定したとき（判定結果がＹｅｓのとき）にはＳ２２６に処理を進め、第１時刻が閾値時刻よりも後であると判定したとき（判定結果がＮｏのとき）にはＳ２２７に処理を進める。

Ｓ２２６では、Ｓ２０５の音声データ受信処理による受信が完了している第１合成音声データを選択する処理をＭＰＵ５１が行い、その後はこの音声判定処理を終了して、図８のＳ２０７の出力処理に処理を進める。このときの出力処理では、ＭＰＵ５１は、出力部５５を制御して、Ｓ２０５の音声データ受信処理による受信が完了した第１合成音声データで表現されている合成音声を出力させる処理を行う。

一方、Ｓ２２７では、図１０の予測処理におけるＳ２１４の処理によって予測された第２時刻が、Ｓ２２４の処理によって算出された閾値時刻以前であるか否かを判定する処理をＭＰＵ５１が行う。ここで、ＭＰＵ５１は、第２時刻が閾値時刻以前であると判定したとき（判定結果がＹｅｓのとき）にはＳ２２８に処理を進め、第２時刻が閾値時刻よりも後であると判定したとき（判定結果がＮｏのとき）にはＳ２２９に処理を進める。

Ｓ２２８では、Ｓ２０４の第２の音声合成処理による作成が完了している第２合成音声データを選択する処理をＭＰＵ５１が行い、その後はこの音声判定処理を終了して、図８のＳ２０７の出力処理に処理を進める。このときの出力処理では、ＭＰＵ５１は、出力部５５を制御して、Ｓ２０４の第２の音声合成処理による作成が完了した第２合成音声データで表現されている合成音声を出力させる処理を行う。

Ｓ２２９では、不揮発性メモリ５２に予め格納されているアナウンス音・通知音データ６２を選択すると共に、出力部５５を制御して、不揮発性メモリ５２から読み出したアナウンス音・通知音データ６２で表現されている音声を出力させる処理をＭＰＵ５１が行う。

次に、Ｓ２３０では、Ｓ２２９の処理によって再生されるアナウンス音・通知音データ６２の再生に要する時間を経過したか否かを判定する処理をＭＰＵ５１が行う。ここで、ＭＰＵ５１は、アナウンス音・通知音データ６２の再生の所要時間が経過したと判定したとき（判定結果がＹｅｓのとき）にはＳ２２３に処理を戻して前述した処理を繰り返す。一方、ＭＰＵ５１は、アナウンス音・通知音データ６２の再生の所要時間が経過していないと判定したとき（判定結果がＮｏのとき）には、この再生の所要時間が経過するまで、このＳ２３０の判定処理を繰り返す。

ＭＰＵ５１は、図１０の予測処理の終了後には、図８のＳ２０６の音声判定処理として、上述した図１２の処理を行う。この結果、図１３に図解したような各種の出力パターンで、音声の出力が行われる。

図１３に図解されている各パターンにおいて、ｔ１及びｔ２は、それぞれ第１時刻及び第２時刻を表しており、Ｘは閾値時刻を表している。また、ｌａは、アナウンス音・通知音データ６２の再生に要する所要時間を表している。

パターンＡは、図１２のＳ２２１の判定処理の結果がＮｏであり、その直後に行われたＳ２２５の判定処理の結果がＹｅｓであった場合の音声出力パターンである。この場合には、第１時刻ｔ１が閾値時刻Ｘよりも前であるので、Ｓ２０５の音声データ受信処理による受信が完了している第１合成音声データで表現されている合成音声が、出力部５５により出力される。

パターンＢは、図１２のＳ２２１の判定処理の結果がＮｏであり、その直後に行われたＳ２２５の判定処理の結果もＮｏであり、その直後に行われたＳ２２７の判定処理の結果がＹｅｓであった場合の音声出力パターンである。この場合には、第２時刻ｔ２が閾値時刻Ｘよりも前であるので、Ｓ２０４の第２の音声合成処理による作成が完了した第２合成音声データで表現されている合成音声が、出力部５５により出力される。

パターンＣは、Ｓ２２７の判定処理の結果がＮｏであり、その直後に行われたＳ２２５の判定処理の結果がＹｅｓであった場合の音声出力パターンである。この場合には、まず、アナウンス音・通知音データ６２で表現されている音声が、出力部５５により出力される。そして、その後に行われるＳ２２４の処理により、閾値時刻はＸからＸ＋ｌａに変更される結果、第１時刻ｔ１が閾値時刻Ｘ＋ｌａよりも前となる。従って、この場合には、アナウンス音・通知音データ６２で表現されている音声に続いて、Ｓ２０５の音声データ受信処理による受信が完了した第１合成音声データで表現されている合成音声が、出力部５５により出力される。

パターンＤは、Ｓ２２７の判定処理の結果がＮｏであり、その直後に行われたＳ２２５の判定処理の結果もＮｏであり、その直後に行われたＳ２２７の判定処理の結果がＹｅｓであった場合の音声出力パターンである。この場合には、まず、アナウンス音・通知音データ６２で表現されている音声が、出力部５５により出力される。そして、その後に行われるＳ２２４の処理により、閾値時刻はＸからＸ＋ｌａに変更される結果、第２時刻ｔ２が閾値時刻Ｘ＋ｌａよりも前となる。従って、この場合には、アナウンス音・通知音データ６２で表現されている音声に続いて、Ｓ２０４の第２の音声合成処理による作成が完了した第２合成音声データで表現されている合成音声が、出力部５５により出力される。

なお、アナウンス音・通知音データ６２は予め複数用意しておくようにしてもよい。一般的に、同じフレーズの音声を何回も聞くと利用者は飽きてしまう。そこで、アナウンス音・通知音データ６２として、例えば「ピッ」のような短時間の通知音と、「センターに問い合わせています」のような長時間のアナウンス音とを用意しておくようにする。この場合において、例えば、図１２のＳ２２９の処理が繰り返されたときには、この繰り返しの度に、音声出力を行うアナウンス音・通知音を切り替えて、例えば発音時間が短くなっていくようにしてもよい。

ところで、図１３におけるパターンＥは、パターンＤの変形例であり、第２合成音声データで表現されている合成音声の出力の途中で、Ｓ２０５の音声データ受信処理により第１合成音声データの受信が完了した場合を表している。この場合には、第１合成音声データの受信が完了した時点で、出力部５５より出力する合成音声を、第２合成音声データで表現されているものから第１合成音声データで表現されているものへと切り替えるようにしてもよい。

この音声出力の切り替えの手法について、図１４を用いて更に説明する。
図１４は、図８のＳ１０３の回答情報取得処理によって取得された回答情報が『誰にでもなじみ易いのが、インディゴブルーだ。』なるテキストデータであった場合を例にしている。

この場合において、データセンター装置１０のＭＰＵ４１は、図８のＳ１０６の第１の音声合成処理において、回答情報のテキストデータを句読点で区切って分割し、分割されたテキストデータ毎に第１合成音声データを作成する処理を行う。図１４の例では、上述した回答情報がテキストデータ『誰にでもなじみ易いのが、』と『インディゴブルーだ。』とに分割され、その各々についての第１合成音声データ“ｓｏｕｎｄ＿０＿０．ｗａｖ”と“ｓｏｕｎｄ＿０＿１．ｗａｖ”とが作成される。作成された複数の第１合成音声データは、Ｓ１０７の音声データ送信処理によって、元の回答情報のテキストデータにおける順序に従って端末装置２０に送られる。

また、ＭＰＵ４１は、図８のＳ１０４の対話制御処理におけるシナリオの作成において、回答情報『誰にでもなじみ易いのが、インディゴブルーだ。』に対応付けて、上述した２つの第１合成音声データのファイル名をシナリオに記述する処理を行う。

一方、端末装置２０のＭＰＵ５１は、図８のＳ２０４の第２の音声合成処理において、受信されたシナリオに含まれている回答情報のテキストデータを句読点で区切って分割し、分割されたテキストデータ毎に第２合成音声データを作成する処理を行う。また、Ｓ２０５の音声データ受信処理では、データセンター装置１０から送られてくる複数の第１合成音声データを受信する処理を行う。更に、図１０に図解した予測処理では、複数の第１合成音声データの各々について第１時刻の予測を行う。

その後、ＭＰＵ５１は、図８のＳ２０６の音声判定処理として、図１２に図解した手順の処理を行う。図１３のパターンＥの音声出力パターンにおいて、この処理により、アナウンス音・通知音データ６２で表現されている音声が出力され、続いて第２合成音声データで表現されている合成音声が出力されるまでの流れは、パターンＤと同様である。但し、パターンＥでは、第２合成音声データで表現されている合成音声の出力の後に現在時刻が第１時刻ｔ１を経過したときには、出力される合成音声が第１合成音声データで表現されているものに切り替わる。この合成音声の出力の切り替えは、図１４に図解したように、回答情報のテキストデータの分割の際に区切りとした、句読点において行われる。

ここで図１５について説明する。図１５は、図１２の音声判定処理の処理手順の変形例を図解したフローチャートである。この変形例は、図１３におけるパターンＥの音声出力パターンを実現するためのものである。

図１５に図解した処理は、図１２におけるＳ２２８の処理に続いて実行される。
図１２のＳ２２８に続くＳ２３１では、直近に再生を開始した第２合成音声データの再生に要する時間を経過したか否かを判定する処理をＭＰＵ５１が行う。ここで、ＭＰＵ５１は、第２合成音声データの再生の所要時間が経過したと判定したとき（判定結果がＹｅｓのとき）にはＳ２３２に処理を進める。一方、ＭＰＵ５１は、第２合成音声データの再生の所要時間が経過していないと判定したとき（判定結果がＮｏのとき）には、この再生の所要時間が経過するまで、このＳ２３１の判定処理を繰り返す。

次に、Ｓ２３２では、直近に再生を終えた第２合成音声データに続く次の第２合成音声データが存在するか否かを判定する処理をＭＰＵ５１が行う。ここで、ＭＰＵ５１は、続きの第２合成音声データが存在すると判定したとき（判定結果がＹｅｓのとき）にはＳ２２３に処理を進める。一方、続きの第２合成音声データは存在しないと判定したとき（判定結果がＮｏのとき）には、音声判定処理を終了して、図８のＳ２０７の出力処理に処理を進める。このときの出力処理では、続きの第２合成音声データは存在しないので、ＭＰＵ５１は音声出力を直ちに終了させて図８の処理を終了させる。

次に、Ｓ２３３では、図１２のＳ２２３の処理と同様にして現在時刻を取得する処理をＭＰＵ５１が行う。
次に、Ｓ２３４では、続きの第２合成音声データと同一のテキストを発声している第１合成音声データについて図１０の予測処理により予測された第１時刻が、Ｓ２３３の処理により取得された現在時刻以前であるか否かを判定する処理をＭＰＵ５１が行う。この第１合成音声データを「続きの第１合成音声データ」と称することとする。ここで、ＭＰＵ５１は、続きの第１合成音声データについての第１時刻が現在時刻以前であると判定したとき（判定結果がＹｅｓのとき）にはＳ２３５に処理を進める。一方、ＭＰＵ５１は、続きの第１合成音声データについての第１時刻が現在時刻よりも後であると判定したとき（判定結果がＮｏのとき）にはＳ２３６に処理を進める。

Ｓ２３５では、続きの第１合成音声データを選択する処理をＭＰＵ５１が行い、その後は音声判定処理を終了して、図８のＳ２０７の出力処理に処理を進める。このときの出力処理では、ＭＰＵ５１は、出力部５５を制御して、続きの第１合成音声データで表現されている合成音声を出力させる処理を行う。更に、続きの第１合成音声データの後続の第１合成音声データが存在する場合には、ＭＰＵ５１は、後続の第１合成音声データで表現されている合成音声を続けて出力部５５に出力させる処理を行う。

一方、Ｓ２３６では、続きの第２合成音声データを選択する処理を選択すると共に、出力部５５を制御して、続きの第２合成音声データで表現されている音声を出力させる処理をＭＰＵ５１が行い、その後はＳ２３１に処理を戻して上述した処理を繰り返す。

以上の処理をＭＰＵ５１が行うことで、第２合成音声データで表現されている合成音声の出力の途中で、当該出力を第１合成音声データで表現されている合成音声に切り替えることができるようになる。

なお、図１４に図解した音声出力の切り替えの手法では、回答情報のテキストデータを分割するときの区切りとして句読点を用いたが、この代わりに、文末、一定数の文字数、呼気段落（Breath Group）等を区切りとして用いてもよい。また、データセンター装置１０が、この区切りのタイミングに関する情報をシナリオに記述するようにし、端末装置２０は、このタイミングの時刻となったときに、続きの第１合成音声データのダウンロードが完了していれば音声の切り替えを行うようにしてもよい。

なお、以上までに説明した実施形態に関し、更に以下の付記を開示する。
（付記１）
データセンター装置と端末装置とを備え、
前記データセンター装置と前記端末装置とは通信ネットワークを介して接続され、
前記データセンター装置は、
前記端末装置から送られてくる発声音の音声データを受信する対話受信部と、
前記音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得する要求情報取得部と、
前記要求情報についての回答情報を情報源から取得する回答情報取得部と、
前記回答情報を含むシナリオを作成する対話制御部と、
前記回答情報を発声している合成音声を表現している第１合成音声データを作成する第１の音声合成部と、
前記第１の音声合成部により作成された第１合成音声データを前記端末装置へ送信する音声データ送信部と、
前記第１の音声合成部が前記第１合成音声データを作成している間に、前記シナリオを端末装置に送信するシナリオ送信部と、
を備え、
前記端末装置は
前記発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記データセンター装置から送られてくる前記シナリオを受信するシナリオ受信部と、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第２合成音声データを作成する第２の音声合成部と、
前記データセンター装置から送られてくる前記第１合成音声データを受信する音声データ受信部と、
前記第１合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第１合成音声データと前記第２合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備える、
ことを特徴とする音声対話システム。
（付記２）
前記端末装置は、前記第１合成音声データの受信が完了して該第１合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第１時刻を予測する予測部を更に備え、
前記音声判定部は、前記第１時刻以前の時刻においては前記第２合成音声データを選択し、前記第１時刻以降の時刻においては前記第１合成音声データを選択する、
ことを特徴とする付記１に記載の音声対話システム。
（付記３）
前記予測部は、前記第１時刻の予測を、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第１合成音声データのデータサイズとに基づいて行うことを特徴とする付記２に記載の音声対話システム。
（付記４）
前記予測部は、更に、前記第２合成音声データの作成が完了して該第２合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第２時刻を予測し、
前記音声判定部は、前記第１時刻以前であって且つ前記第２時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする付記２又は３に記載の音声対話システム。
（付記５）
前記出力部は、前記音声判定部が前記第１時刻において前記合成音声データの選択を前記第２合成音声データから前記第１合成音声データに切り替えたときには、前記第２合成音声データで表現されている合成音声の出力の途中で、該出力を前記第１合成音声データで表現されている合成音声に切り替えることを特徴とする付記２から４のうちのいずれか一項に記載の音声対話システム。
（付記６）
前記端末装置は、前記第１合成音声データを保存しておく記憶部を更に備え、
前記音声判定部は、前記音声データ受信部が受信する第１合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第１合成音声データを選択し、
前記出力部は、前記音声データ受信部が受信する第１合成音声データが前記記憶部に既に記憶されていると前記音声判定部が判定した場合には、前記記憶部に既に記憶されている第１合成音声データで表現されている合成音声を出力する、
ことを特徴とする付記１から５のうちのいずれか一項に記載の音声対話システム。
（付記７）
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置であって、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信するシナリオ受信部と、
前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第１合成音声データであって、前記データセンター装置から送られてくる該第１合成音声データを受信する音声データ受信部と、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第２合成音声データを作成する第２の音声合成部と、
前記第１合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第１合成音声データと前記第２合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備えることを特徴とする端末装置。
（付記８）
前記第１合成音声データの受信が完了して該第１合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第１時刻を予測する予測部を更に備え、
前記音声判定部は、前記第１時刻以前の時刻においては前記第２合成音声データを選択し、前記第１時刻以降の時刻においては前記第１合成音声データを選択する、
ことを特徴とする付記７に記載の端末装置。
（付記９）
前記予測部は、前記第１時刻の予測を、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第１合成音声データのデータサイズとに基づいて行うことを特徴とする付記８に記載の端末装置。
（付記１０）
前記予測部は、更に、前記第２合成音声データの作成が完了して該第２合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第２時刻を予測し、
前記音声判定部は、前記第１時刻以前であって且つ前記第２時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする付記８又は９に記載の端末装置。
（付記１１）
前記出力部は、前記音声判定部が前記第１時刻において前記合成音声データの選択を前記第２合成音声データから前記第１合成音声データに切り替えたときには、前記第２合成音声データで表現されている合成音声の出力の途中で、該出力を前記第１合成音声データで表現されている合成音声に切り替えることを特徴とする付記８から１０のうちのいずれか一項に記載の端末装置。
（付記１２）
前記第１合成音声データを保存しておく記憶部を更に備え、
前記音声判定部は、前記音声データ受信部が受信する第１合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第１合成音声データを選択し、
前記出力部は、前記音声データ受信部が受信する第１合成音声データが前記記憶部に既に記憶されていると前記音声判定部が判定した場合には、前記記憶部に既に記憶されている第１合成音声データで表現されている合成音声を出力する、
ことを特徴とする付記７から１１のうちのいずれか一項に記載の端末装置。
（付記１３）
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置の制御を演算処理装置に実行させるプログラムであって、
前記端末装置は、
前記演算処理装置と、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する送信部と、
各種のデータを受信する受信部と、
音声データで表現されている音声を出力する出力部と、
を備えており、
前記プログラムは、
前記受信部を制御して、前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信させ、
前記受信部を制御して、前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第１合成音声データであって、前記データセンター装置から送られてくる該第１合成音声データを受信させ、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第２合成音声データを作成し、
前記第１合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第１合成音声データと前記第２合成音声データとのうちの一方を選択し、
前記出力部を制御して、前記選択された合成音声データで表現されている合成音声を出力させる、
処理を前記演算処理装置に実行させる、
ことを特徴とするプログラム。
（付記１４）
前記第１合成音声データの受信が完了して該第１合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第１時刻を予測する処理を前記演算処理装置に実行させ、
前記合成音声データの選択では、前記第１時刻以前の時刻においては前記第２合成音声データを選択し、前記第１時刻以降の時刻においては前記第１合成音声データを選択する、
ことを特徴とする付記１３に記載のプログラム。
（付記１５）
前記第１時刻の予測は、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第１合成音声データのデータサイズとに基づいて行うことを特徴とする付記１４に記載のプログラム。
（付記１６）
前記第２合成音声データの作成が完了して該第２合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第２時刻を予測する処理を前記演算処理装置に実行させ、
前記合成音声データの選択において、前記第１時刻以前であって且つ前記第２時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする付記１４又は１５に記載のプログラム。
（付記１７）
前記合成音声データの選択において、前記合成音声データの選択を前記第１時刻において前記第２合成音声データから前記第１合成音声データに切り替えたときには、前記出力部の制御において、前記第２合成音声データで表現されている合成音声の出力の途中で、該出力を前記第１合成音声データで表現されている合成音声に切り替えることを特徴とする付記１４から１６のうちのいずれか一項に記載のプログラム。
（付記１８）
前記端末装置は、データを記憶する記憶部を更に備えており、
前記受信された第１合成音声データを前記記憶部に保存する処理を更に前記演算処理装置に実行させ、
前記合成音声データの選択において、前記受信された第１合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第１合成音声データを選択すると共に、前記記憶部に既に記憶されている第１合成音声データで表現されている合成音声を前記出力部に出力させる、
ことを特徴とする付記１３から１７のうちのいずれか一項に記載のプログラム。
（付記１９）
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該データセンター装置であって、
前記端末装置から送られてくる発声音の音声データを受信する対話受信部と、
前記音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得する要求情報取得部と、
前記要求情報についての回答情報を情報源から取得する回答情報取得部と、
前記回答情報を含むシナリオを作成する対話制御部と、
前記回答情報を発声している合成音声を表現している第１合成音声データを作成する第１の音声合成部と、
前記第１の音声合成部により作成された第１合成音声データを前記端末装置へ送信する音声データ送信部と、
前記第１の音声合成部が前記第１合成音声データを作成している間に、前記シナリオを端末装置に送信するシナリオ送信部と、
を備えることを特徴とするデータセンター装置。
（付記２０）
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該データセンター装置の制御を演算処理装置に実行させるプログラムであって、
前記データセンター装置は、
前記演算処理装置と、
前記端末装置から送られてくる発声音の音声データを受信する受信部と、
各種のデータを送信する送信部と、
を備えており、
前記プログラムは、
前記受信された音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得し、
前記要求情報についての回答情報を情報源から取得し、
前記取得された回答情報を含むシナリオを作成し、
前記取得された回答情報を発声している合成音声を表現している第１合成音声データを作成し、
前記送信部を制御して、前記作成された第１合成音声データを前記端末装置へ送信させ、
前記送信部を制御して、前記第１合成音声データが作成されている間に前記シナリオを端末装置に送信させる、
処理を前記演算処理装置に実行させる、
ことを特徴とするプログラム。

１通信ネットワーク
２データセンター
３端末
４利用者
５画面表示
６音声制御メニュー
１０データセンター装置
１１対話受信部
１２要求情報取得部
１３回答情報取得部
１４データベース
１５対話制御部
１６第１の音声合成部
１７音声データ送信部
１８シナリオ送信部
２０端末装置
２１入力部
２２対話送信部
２３シナリオ受信部
２４第２の音声合成部
２５音声データ受信部
２６音声判定部
２７出力部
３０通信ネットワーク
４１、５１ＭＰＵ
４２ＲＯＭ
４３、５３ＲＡＭ
４４ディスクアレイ装置
４５入力装置
４６表示装置
４７通信装置
４８記録媒体駆動装置
４９、５７バスライン
５０可搬型記録媒体
５２不揮発性メモリ
５４入力部
５５出力部
５６通信部
６１予測部
６２アナウンス音・通知音データ
６３記憶部

Claims

データセンター装置と端末装置とを備え、
前記データセンター装置と前記端末装置とは通信ネットワークを介して接続され、
前記データセンター装置は、
前記端末装置から送られてくる発声音の音声データを受信する対話受信部と、
前記音声データに対して音声認識処理を実行して該音声データにより表現されている要求情報を取得する要求情報取得部と、
前記要求情報についての回答情報を情報源から取得する回答情報取得部と、
前記回答情報を含むシナリオを作成する対話制御部と、
前記回答情報を発声している合成音声を表現している第１合成音声データを作成する第１の音声合成部と、
前記第１の音声合成部により作成された第１合成音声データを前記端末装置へ送信する音声データ送信部と、
前記第１の音声合成部が前記第１合成音声データを作成している間に、前記シナリオを端末装置に送信するシナリオ送信部と、
を備え、
前記端末装置は、
前記発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記データセンター装置から送られてくる前記シナリオを受信するシナリオ受信部と、
前記受信されたシナリオに含まれている前記回答情報を発声している合成音声を表現している第２合成音声データを作成する第２の音声合成部と、
前記データセンター装置から送られてくる前記第１合成音声データを受信する音声データ受信部と、
前記第１合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第１合成音声データと前記第２合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備える、
ことを特徴とする音声対話システム。
前記端末装置は、前記第１合成音声データの受信が完了して該第１合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第１時刻を予測する予測部を更に備え、
前記音声判定部は、前記第１時刻以前の時刻においては前記第２合成音声データを選択し、前記第１時刻以降の時刻においては前記第１合成音声データを選択する、
ことを特徴とする請求項１に記載の音声対話システム。
前記予測部は、前記第１時刻の予測を、前記データセンター装置に所定の要求を送付してから該データセンター装置から送られてくる該所定の要求に対する返答を受信するまでの応答時間と、前記第１合成音声データのデータサイズとに基づいて行うことを特徴とする請求項２に記載の音声対話システム。
前記予測部は、更に、前記第２合成音声データの作成が完了して該第２合成音声データにより表現されている合成音声の前記出力部による出力が開始可能となる第２時刻を予測し、
前記音声判定部は、前記第１時刻以前であって且つ前記第２時刻以前には、予め用意されている所定の音声データを選択する、
ことを特徴とする請求項２又は３に記載の音声対話システム。
前記出力部は、前記音声判定部が前記第１時刻において前記合成音声データの選択を前記第２合成音声データから前記第１合成音声データに切り替えたときには、前記第２合成音声データで表現されている合成音声の出力の途中で、該出力を前記第１合成音声データで表現されている合成音声に切り替えることを特徴とする請求項２から４のうちのいずれか一項に記載の音声対話システム。
前記端末装置は、前記第１合成音声データを保存しておく記憶部を更に備え、
前記音声判定部は、前記音声データ受信部が受信する第１合成音声データが前記記憶部に既に記憶されているか否かを、前記受信したシナリオに含まれている前記回答情報に基づいて判定し、既に記憶されていると判定した場合には、前記第１合成音声データを選択し、
前記出力部は、前記音声データ受信部が受信する第１合成音声データが前記記憶部に既に記憶されていると前記音声判定部が判定した場合には、前記記憶部に既に記憶されている第１合成音声データで表現されている合成音声を出力する、
ことを特徴とする請求項１から５のうちのいずれか一項に記載の音声対話システム。
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置であって、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する対話送信部と、
前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信するシナリオ受信部と、
前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第１合成音声データであって、前記データセンター装置から送られてくる該第１合成音声データを受信する音声データ受信部と、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第２合成音声データを作成する第２の音声合成部と、
前記第１合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第１合成音声データと前記第２合成音声データとのうちの一方を選択する音声判定部と、
前記音声判定部により選択された合成音声データで表現されている合成音声を出力する出力部と、
を備えることを特徴とする端末装置。
通信ネットワークを介して接続されるデータセンター装置と端末装置とを備える音声対話システムにおける該端末装置の制御を演算処理装置に実行させるプログラムであって、
前記端末装置は、
前記演算処理装置と、
発声音の入力を取得して該発声音を表現している音声データに変換する入力部と、
前記発声音の音声データを前記データセンター装置へ送信する送信部と、
各種のデータを受信する受信部と、
音声データで表現されている音声を出力する出力部と、
を備えており、
前記プログラムは、
前記受信部を制御して、前記音声データにより表現されている要求情報に応じて前記データセンター装置が情報源から取得した回答情報が含まれており前記データセンター装置により作成されたシナリオであって、前記データセンター装置から送られてくる該シナリオを受信させ、
前記受信部を制御して、前記回答情報を発声している合成音声を表現しており前記データセンター装置により作成された第１合成音声データであって、前記データセンター装置から送られてくる該第１合成音声データを受信させ、
前記受信したシナリオに含まれている前記回答情報を発声している合成音声を表現している第２合成音声データを作成し、
前記第１合成音声データの受信が完了したか否かを判定し、該判定結果に基づいて前記第１合成音声データと前記第２合成音声データとのうちの一方を選択し、
前記出力部を制御して、前記選択された合成音声データで表現されている合成音声を出力させる、
処理を前記演算処理装置に実行させる、
ことを特徴とするプログラム。