JP2004309682A

JP2004309682A - 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム

Info

Publication number: JP2004309682A
Application number: JP2003101240A
Authority: JP
Inventors: Tasuku Shinozaki; 翼篠崎; Tetsuo Amakasu; 哲郎甘粕
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-04-04
Filing date: 2003-04-04
Publication date: 2004-11-04

Abstract

【課題】遅延を伴なう通信網を通じて音声対話端末装置と音声対話センタ装置を接続して構成した音声対話システムを不都合なく動作させる。
【解決手段】端末に音声入力装置への音声の入力開始を検知する発話始端検出処理と、この発話検出処理が実行された時刻を付与する時刻情報付与処理と、センタ装置からの問い合せ音声信号の再生時刻を付与する時刻情報付与処理と、問い合せ信号の入来中に発話始端検出処理が実行されるのと連動して音声再生装置の音声再生動作を停止させる処理と、センタ装置に発話された内容の音声信号と、時刻情報付与処理で付与した時刻情報とを送信する発話音声送信処理とを実行させる。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は例えば音声入力により各種の予約処理等を実行する音声対話方法及び音声対話端末装置、音声対話センタ装置、これらをコンピュータ上で実現する音声対話プログラムに関し、特に音声信号と共にビデオ信号も送受することができる携帯端末のような規模の小さい装置でも音声入力処理を実行させ、音声対話を実現することができる音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラムに関する。
【０００２】
【従来の技術】
例えば宿泊施設の予約、乗車券の予約等を携帯端末から行なうことができるシステムが既に実用されている。従来のこの種の予約システムは文字入力により必要事項を入力する形式が多い。この形式の予約システムによれば携帯電話機、或は携帯型のパーソナルコンピュータ程度の規模が小さい装置でも予約センタ装置に必要事項を入力をすることができる。
然し乍ら、文字入力方式を採る場合、利用者にはキィーボードから文字入力を行なうことが要求され、老人、子供等キィーボードの操作に不慣れな者には使い勝手が悪い。
これに対して音声入力を行なう音声対話方式が考えられている。音声入力方式では利用者に入力事項を音声で問い合せし、その答を利用者に音声で応答させ、その音声を音声認識してセンタ装置へ入力する対話方式が採られる。この対話方式を採ることにより誰にでも簡単に必要事項を入力することができる。
対話方式で入力処理を実行する技術は特許文献１及び特許文献２に記載されている。
【０００３】
特許文献１に記載されている音声対話装置は音声認識装置、音声合成装置等、音声対話に必要な全ての装置をセンタ装置と端末の双方に装備して対話を行なわせる方法を採っている。この方式を採った場合、端末には対話処理を行なうのに充分な処理性能を持つＣＰＵやメモリ容量が必要となり、高価なものとなる。また形状も大きくなるため、携帯には不向きである。
この欠点を解消するために、音声認識或は音声合成等の音声対話処理装置をもたない端末装置を利用して音声対話を行なわせる音声対話システムが考えられている（特許文献２）。
図６にその概要を示す。端末１００は卓上型の電話機或は携帯電話機を適用することができる。センタ装置２００は例えば対話シナリオ記憶手段２１と、対話シナリオ実行手段２２と、音声認識手段２３と、音声合成手段２４と、入力事項記憶手段２５と、音声信号送信手段２６と、音声信号受信手段２７と、発話始端検出手段２８と、発話終端検出手段２９等により構成される。
対話シナリオ記憶手段２１には端末１００の利用者との対話の筋書が予め記録されている。つまり、センタ装置２００が或る特定の予約処理を行なう装置と仮定すれば、利用者との対話の内容は予め決められる。例えば乗車券の予約装置として説明すれば、先ずセンタ装置１００は利用者の端末１００に向って「ご利用日時を教えて下さい。」等と音声合成で生成した音声信号を出力し、この音声信号を電話回線網ＬＩＮを通じて端末１００に伝送する。
【０００４】
端末１００では電話回線網ＬＩＮから入力される音声信号を受話器或はスピーカから音として放音させる。利用者はセンタ装置２００からの問い合せに対し応答し、音声で利用日時を発話する。この発話の内容が送話機から通信回線網ＬＩＮを通じてセンタ装置２００に送られる。センタ装置２００ではその応答音声を音声認識し、問い合せに対応するキーワードを抽出し、必要な入力事項を取得する。例えば「えー、１２月１０日です。」等と応答した場合は入力事項として「１２月１０日」を取得する。
センタ装置２００に備えた対話シナリオには日時の入力が取得できた時点で、その確認を行なう対話が用意されている。例えば「１２月１０日でよろしいですか？」と問い合せを行なうシナリオが用意され、そのシナリオデータが音声合成されて端末１００に送られる。利用者はその確認の問い合せに対して「はい。」、或は「よろしいです。」等と応答すると、センタ装置２００に備えられている対話シナリオは次の入力項目の問い合せに移る。
次の入力項目が出発駅の駅名と、到着駅の駅名を入力する項目であるものとすると、センタ装置２００では音声合成手段２４により「出発駅の駅名をおっしゃって下さい。」と音声合成し、この音声を端末１００に送信し、利用者はその問い合せに対して音声で応答する。このようにして、対話形式で必要事項を入力するのであるが、例えばセンタ装置２００からの問い合せが端末１００で着信中に利用者の発話が割り込んだ場合に、センタ装置２００からの問い合せが停止すれば、利用者はセンタ装置２００からの問い合わせの途中で割り込んでもセンタ装置に伝えたい発話を中断することなく発話を続けることができる。この対話の様子を図７を用いて説明する。図７Ａは対話シナリオに従って、予め予想される対話の内容、図７Ｂは図７Ａに示した対話の順序を時系列に配列して示した図、図７Ｃは実際に交わされた対話の内容を示す。
【０００５】
図７Ａに示すステップＳＰ１−１はセンタ装置からの日付の問い合せを行なうステップ、
ステップＳＰ１−２は利用者からの日付の入力を行なうステップ、
ステップＳＰ１−３はセンタ装置からの日付の確認ステップ、及び次の入力事項を問い合せるステップを示す。
ステップＳＰ１−４は利用者が日時の入力間違に気が付いて日付の訂正を申し出たステップ、
ステップＳＰ１−５はセンタ装置の日付の再確認ステップを示す。
図７Ｂに各ステップＳＰ１−１〜ＳＰ１−５を時系列に配置して割込が入った様子を示す。つまり、センタ装置１００から日付の確認中に利用者が「あ、やっぱり１５日です。」と発話した時点でセンタ装置１００からの確認の問い合せは「２月１３日ですね。」で停止し、それに続くはずの「それでは次に出発駅の駅名をおっしゃって下さい。」は削除される。
【０００６】
この削除動作はセンタ装置１００に設けられた始端検出手段２８の検出動作で達せられる。つまり、図７Ｂに示すように、利用者が「あ、やっぱり１５日です。」と発話した場合には、その発話の始端を始端検出手段２８が検出し、その検出結果により音声信号送信手段２６を制御し、音声信号の送出を停止させる。
この発話始端検出手段２８の存在によって利用者の発話がセンタ装置の問い合せより優先され、利用者の発話が優先的にセンタ装置に伝達されることになる。尚、センタ装置１００には終端検出手段２９も装備している。この終端検出手段２９は利用者の発話の終端を検出する検出手段であり、利用者の発話の終了を検出した後にセンタ装置１００から次の問い合せを発信させるために設けられている。
【０００７】
【特許文献１】
特開平７−２３９６９４号公報
【特許文献２】
特開平６−３１８９７７号公報
【０００８】
【発明が解決しようとする課題】
図６に示した対話例では端末１００とセンタ装置２００との間で行なう音声信号の受授に遅延を伴わない例を示した。然し乍ら、通信網としてインターネット、無線網、ＶｏＩＰネットワーク等を利用した場合、これらの通信網では不規則な遅延が発生する傾向がある。遅延を伴なう通信網を利用した場合、上述した始端検出手段２８の検出タイミングが遅れるため、センタ装置から送信される問い合せが適確に停止しない現象が発生する。
図８を用いてその様子を説明する。図８Ａは対話シナリオに用意されている対話の内容、図８Ｂは対話を時系列に配置した図、図８Ｃは実際に交わされた対話の内容を示す。ここでは図８Ｂに示すように、センタ装置２００から端末１００へと、端末１００からセンタ装置２００への伝送に遅延τ１、τ２が発生している様子を示す。尚、伝送方向で遅延時間がτ１とτ２のように異なるのは通信網の影響を受けていることを表わしている。遅延時間τ１、τ２が発生することにより、センタ装置２００から「２月１３日ですね。それでは次に…」の問い合せを送出中に利用者が「あ、やっぱり１５日です。」と発話すると、その発話時刻が時間τ２遅れてセンタ装置２００に届き、始端が検出される。
【０００９】
センタ装置２００は利用者の発話の始端が検出されるまでの時間τ２は送信を停止しないから、その遅延時間τ２に相当する時間に発信された問い合せは利用者に聴こえることになる。ここでは利用者が「あ、やっぱり１５日です。」と言い切ってしまったから、その訂正が音声認識されて入力された状況を示しているが、発話を始めたにも係わらず、センタ装置２００からの問い合せが停止しないと、不安になり、「あ、やっぱり」で発話を停止させてしまう場合もある。このような場合には日付の修正を希望しながら、日付の入力値が「２月１３日」のまま、次の駅名の入力に移ってしまうことになる。従って、この場合には改めて日付の修正を希望する発話を入力し、日付の修正を行なうことになる。この点で利用者には使い勝手が悪い欠点がある。
更に、例えばセンタ装置の状態が次の入力項目に移っているにも係わらず、依然として前の入力項目を修正するつもりで利用者が発話してしまう場合もある。図９にその場合の対話例を示す。この例では出発日と到着日を順に入力する状況を示す。図９Ａは対話シナリオに用意されている内容、図９Ｂは対話の様子を時系列に配置した図、図９Ｃは実際に交わされた対話の内容を示す。
【００１０】
ここではステップＳＰ１−３に示す「１３日ですね。」の確認のためセンタ装置からの問合せに対して、ステップＳＰ１−４に示す１３日を１５日に変更しようとする利用者の発話「あ、えー１５日です。」がされた場合を示す。この場合はセンタ装置２００は既にステップＳＰ１−３に示す「到着は？」の問い合せを発信しているから、センタ装置２００は到着日の入力を問い合せしている状態にある。この状況でステップＳＰ１−４で利用者が「あ、えー、１５日です。」と発話すると、センタ装置２００は到着日が「１５日である」と認識することになる。この認識の結果が実際に交わされた内容（図９Ｃ、ステップＳＰ２−５）に示すセンタ装置からの問い合わせに表れている。このような誤った認識結果が発生する要因は通信網で発生する遅延時間の存在による。
この発明の目的は簡素な端末を用いてセンタ装置と音声対話入力を行うことができる音声対話システムにおいて、端末とセンタ装置との間の信号の受授に遅延が伴なう場合でも対話を円滑に行なわせることができ、然も利用者の発話意図の認識結果の誤りが発生することのない音声対話、音声対話端末装置、音声対話センタ装置、プログラムを提供しようとするものである。
【００１１】
【課題を解決するための手段】
この発明では、音声対話端末装置へ送られてきた問い合せ音声信号が音声再生装置により音声として再生される再生開始時刻を付与する第１時刻情報付与処理と、問い合せ音声信号に添付された識別子を抽出する識別子抽出処理と、音声入力手段への音声の入力開始を検出する発話始端検出処理と、この発話始端検出処理が実行された時刻を付与する第２時刻情報付与処理と、問い合せ音声信号の入来中に発話始端検出処理が実行されるのと連動して音声再生装置の音声再生動作を停止させる処理と、音声入力手段へ入力された発話音声信号と、第１時刻情報、第２時刻情報及び識別子抽出処理で抽出した識別子とを音声対話センタ装置へ送信する送信処理とを実行する音声対話方法を提案する。
この発明では、更に音声対話端末装置へ送信する問い合せ音声信号毎に識別子を添付する識別子添付処理と、音声対話端末装置から送られてくる発話音声信号を音声認識する音声認識処理と、音声認識処理結果を入力データとして取り込む入力データ取得処理と、音声対話端末装置から送られてくる第１時刻情報、第２時刻情報、識別子とを照合して第２時刻情報で特定される発話音声信号が、どの問い合せ音声信号に対応する応答かを解析する解析処理を実行する音声対話方法を提案する。
【００１２】
この発明では、更に音声対話端末装置へ送られてきた問い合せ信号が音声再生装置により音声として再生される再生開始時刻を付与する第１時刻情報付与手段と、問い合せ音声信号に添付された識別子を抽出する識別子抽出手段と、音声入力手段への音声の入力開始を検出する発話始端検出手段と、この発話始端検出手段が発話始端を検出した時刻を付与する第２時刻情報付与手段と、問い合せ信号の入来中に発話始端検出手段が発話始端を検出するのと連動して音声再生装置の音声再生動作を停止させる音声再生制御手段と、音声入力手段へ入力された発話音声信号と、第１時刻情報、第２時刻情報及び識別子抽出手段で抽出した識別子とを音声対話センタ装置へ送信する送信手段とによって構成した音声対話端末装置を提案する。
この発明では、更に音声対話端末装置へ送信する問い合せ音声信号毎に識別子を添付する識別子添付手段と、音声対話端末装置から送られてくる発話音声信号を音声認識する音声認識手段と、音声認識手段の音声認識結果を入力データとして取り込む入力データ取得手段と、音声対話端末装置から送られてくる第１時刻情報、第２時刻情報、識別子とを照合して第２時刻情報で特定される発話音声信号が、どの問い合せ音声信号に対応する応答かを解析する解析手段とを設けた音声対話センタ装置を提案する。
この発明では、更にコンピュータが解読可能な符号列によって記述され、コンピュータに請求項１又は請求項２記載の音声対話方法の少なくとも一方を実行させる音声対話プログラムを提案する。
【００１３】
作用
この発明によれば端末側に利用者が発話を開始したことを検出する始端検出手段を設け、その検出結果で端末側の音声再生動作を停止させる方法を採ったから、利用者の発話開始から音声が停止するまでに遅延が発生することはない。従って、センタ装置から問い合せが送信中であっても、利用者が発話を開始すると、直ちに問い合せのための音声は停止し、利用者は不安をいだくことなく、発話を続けることができる。この結果入力内容の修正等を利用者が希望する通りに入力することができる。
更に、この発明によれば対話センタ装置から音声対話端末装置に送信される問い合せ音声信号毎に識別子を添付し、この識別子が添付された問い合せ音声信号が音声対話端末装置で音声として再生が開始される時刻と利用者が発話を開始した時刻を第１時刻情報及び第２時刻情報として識別子と共に対話センタ装置に送信するから、対話センタ装置ではこれら第１時刻情報及び第２時刻情報と識別子とから、センタ装置から端末に向かって届けられた問い合せに対して、利用者からの応答がその時刻に有効になっている問い合せであるか否かを解析することができる。この結果問い合せに対して誤った発話を入力値として認識する不都合を解消することができる。
【００１４】
【発明の実施の形態】
図１及び図２にこの発明による音声対話端末装置及び音声対話センタ装置の一実施例を示す。
図１に示す３００はこの発明による音声対話端末装置、図２に示す４００はこの発明による音声対話センタ装置、ＮＥＴは例えばインターネット、無線ネットワーク、ＶｏＩＰネットワークのような通信ネットワークを示す。つまり、この発明ではこれらの通信ネットワークＮＥＴで不規則な遅延が発生しても正常に対話が行なえるように構成しようとするものである。
この発明による音声対話端末装置３００は音声対話センタ装置４００から送られて来る問い合せ音声信号を受信する問い合せ音声受信手段３６Ａと、この問い合せ音声信号に添付されてくる識別子（識別番号）を抽出する識別番号抽出手段３６Ｂと、問い合せ音声信号受信手段３６Ａで受信した問い合せ音声信号を音声再生手段３８に出力するかしないかを制御する音声再生制御手段３７と、問い合せ音声信号の再生開始を検出し、その再生開始時刻を第１時刻情報ＴＭ１として付与する第１時刻情報付与手段３９と、利用者の発話を電気信号に変換し、音声信号を出力する音声入力手段３０と、この音声入力手段３０から出力される音声信号を所定の時間（Ｔｍｓ）遅延させる発話音声バッファ手段３１と、音声入力手段３０から入力される発話の例えば、音声レベルが所定の期間以上閾値より低い状態が続いた後、閾値より高くなった状態を検出して発話の始端を検出する（尚、発話の検出に関しては、例えば東海大学出版会「ディジタル音声処理」古井貞煕著、ｐ．１５３、８．２音声区間の検出を参照）。この始端の時刻を第２時刻情報ＴＭ２として付与する発話始端検出手段兼第２時刻情報付与手段３２と、音声入力手段３０から入力された発話音声信号と第１時刻情報付与手段３９で付与した第１時刻情報ＴＭ１及び第２時刻情報付与手段３２で付与した第２時刻情報ＴＭ２と識別子抽出手段３６Ｂで抽出した識別子とを音声対話センタ装置４００へ送信する送信手段３３と、音声対話センタ装置４００で検出された発話終了信号を受信する発話終端受信手段３５と、発話始端の履歴を記憶する発話始端履歴記憶手段３４とによって構成することができる。
【００１５】
音声対話センタ装置４００は音声対話端末３００から送られてくる発話音声信号及び第１時刻情報ＴＭ１、第２時刻情報ＴＭ２を受信する発話音声受信手段４０と、発話音声受信手段４０で受信した発話音声信号を音声認識データ群５５に格納した音声認識データを利用して発話内容を音声認識する音声認識手段４１Ａと、音声認識手段４１Ａの音声認識結果に従って入力データを取得する入力データ取得手段４１Ｂと、更に音声認識結果と対話シナリオデータ群５４に記述されている対話シナリオデータに従って、音声対話端末装置３００との対話を行なわせる対話制御手段４２Ａと、対話制御手段４２Ａが選択して決定した対話シナリオデータに従って音声対話端末装置３００に送信する問い合せ音声信号に識別子を添付する識別子添付手段４２Ｂと、発話音声受信手段４０で受信した発話音声信号とこの発話音声信号に付加されて来た第１及び第２時刻情報ＴＭ１とＴＭ２を対話履歴として記録する対話履歴記録手段５３と、対話制御手段４２Ａが生成した対話シナリオデータに従って音声合成データ群５２に格納している音声合成コマンドにより指定されるテキストデータから音声信号を生成する音声合成手段４５と、予め録音した録音音声データ群５１の中から対話シナリオを構成する音声再生コマンドにより指定される音声データを選択する音声選択手段４６と、音声合成手段４５で音声合成した音声信号及び音声選択手段４６で選択した音声データを使って問い合せ音声信号を生成し、この問い合せ信号を音声対話端末３００に送信する問い合せ音声送信手段４７と、発話音声受信手段４０が受信した利用者の発話音声を音声認識手段４１Ａで逐次音声認識し、その音声認識結果又は発話音声受信手段４０で得られた発話音声信号を用いて発話の終端を検出する発話終端検出手段４３と、発話終端検出手段４３が発話終端を検出すると、発話終端が検出されたことを音声対話端末装置３００に送信する発話終端送信手段４４と、対話履歴記録手段５３に記録した対話履歴を解析し、利用者の発話がどの問い合せに対応する発話であるかを解析する解析手段４８とによって構成される。対話シナリオデータ群５４に格納されている対話シナリオデータには問い合せの内容に応じて音声対話端末装置３００からの発話内容を音声認識するかしないかを制御するための音声認識フラグが付される。フラグはここでは音声認識する場合は「１」、しない場合を「０」とした場合を示す。
以下にこの発明による音声対話端末装置３００と音声対話センタ装置４００の処理シーケンスを詳細に説明する。
【００１６】
音声対話センタ装置４００側の動作
シーケンス１：対話制御手段４２は対話シナリオデータ群５４から対話シナリオデータ（コンテンツ）を読み込み利用者との対話を開始する。
利用者との対話は対話履歴として対話履歴記録手段５３に時刻情報ＴＭ１、ＴＭ２及び識別子と共に記録される。
シーケンス２：対話制御手段４２Ａの指令により音声合成手段４５により合成された音声や音声選択手段４６で選択された音声によりセンタからの問い合せ信号として用意される。
シーケンス３：問い合せ音声送信手段４７はセンタからの問い合せ音声信号を音声対話端末手段３００へ送信する。この際に識別子添付手段４２Ｂは問い合せ音声信号に識別子（識別番号）を添付し、更に音声認識手段４１Ａの状態（音声認識を行なう状態フラグ＝１、行なわない状態フラグ＝０）を音声認識フラグとしてあわせて送信する。
【００１７】
音声対話端末装置３００側の動作
シーケンス４：音声対話端末装置３００では問い合せ音声受信手段３６によってセンタから送られて来る問い合せ信号と音声認識フラグ及び識別子を受信する。
シーケンス５：受信した識別子は識別子抽出手段３６Ｂで抽出される。更に問い合せ音声データと音声認識フラグは音声再生制御手段３７に渡される。
シーケンス６：音声再生制御手段３７は問い合せ音声データを音声再生手段３８に送り、問い合せ音声を再生する。このときの時刻を第１時刻情報ＴＭ１として付与し、記録する。
シーケンス７：音声入力手段３０から入力された音声は全て発話音声バッファ手段３１でバッファ長（Ｔｍｓｅｃ）の長さ分バッファリングされる。
【００１８】
シーケンス８：発話始端検出手段３２が発話始端を検出すると、この発話の始端を第２時刻情報ＴＭ２として発話始端検出履歴記録手段３４に保存する。このとき利用者発話の第２時刻情報ＴＭ２は発話始端検出時刻からバッファ長（Ｔｍｓｅｃ）の時間を引いた時刻とする。始端検出情報は発話音声送信手段３３と問い合せ音声出力制御手段３７へ送られる。これにより、例えば音声信号のパワーで始端検出を行う場合、文頭が子音で始まるようなときは、充分なパワーが得られず、パワーが充分な後続の母音を始端として検出してしまい、文頭の子音部分の音声信号が欠落してしまうことを防ぐことができる。
シーケンス９：問い合せ音声出力制御手段３７は音声認識フラグが「１」であれば問い合せ音声信号の出力を停止させる。
シーケンス１０：発話音声送信手段３３は発話音声バッファ手段３１から音声データを取得し、音声対話センタ装置４００へ送信する。
このとき、記録された問い合せ信号の再生開始時点を表わす第１時刻情報ＴＭ１と、利用者発話の第２時刻情報ＴＭ２及び音声対話センタ装置４００から送られてきた識別子も合せて送信する。発話音声送信手段３３は発話終端受信手段３５から終端検出情報が送られて来るまで音声データを音声対話センタ装置４００へ送信する。
【００１９】
音声対話装置４００側の動作
シーケンス１１：発話音声受信手段４０は利用者発話音声及びこれに付加されて送られて来る問い合せ音声信号の再生開始時刻を表わす第１時刻情報ＴＭ１とこの問い合せ音声信号に添付されてきた識別子及び利用者発話時に付与した第２時刻情報ＴＭ２を受信する。利用者発話音声は音声認識手段４１Ａと発話終端検出手段４３に送られる。
シーケンス１２：音声認識手段４１Ａは音声認識結果の文字列を発話終端検出手段４３と対話制御手段４２Ａに送る。
シーケンス１３：発話終端検出手段４３は発話音声受信手段４０から送られて来た利用者発話音声信号か、又は音声認識手段４１から送られて来た音声認識結果の文字列から発話終端を検出する。発話終端を検出した場合、発話終端送信手段４４に発話終端を伝える。尚、発話終端の検出方法としては、発話音声受信手段４０で得られた利用者の発話音声信号のレベルが所定期間以上低い状態が続いた時点、又は音声認識結果に例えば「じゃなくて、１５時」のような体言止め或いは、「えっと、１５時です。」のような文末表現が逐次現れた時点を発話の終端とする発話終端検出方法とがある。これらの発話終端検出方法に関しては、東海大学出版会「ディジタル音声処理」古井貞煕著又は特願２００２−１９４２８９を参照。
【００２０】
シーケンス１４：解析手段４８では音声認識手段４１Ａから得た音声認識結果と、発話音声受信手段４０から得た問い合せ音声信号の再生開始時刻を表わす第１時刻情報ＴＭ１と、及びこの問い合せ音声信号に添付した識別子及び利用者発話の第２時刻情報ＴＭ２が同時に得られるので、これら２つの時刻情報ＴＭ１とＴＭ２と識別子から利用者の発話音声がどの問い合せに対応するかを解析し、正しく対応付けを行なうことができる。
対話制御手段４２Ａは、対話シナリオデータと対話履歴及び音声認識結果から次の問い合せ項目を決定する。
対話履歴記録手段５３は対話履歴としてシーケンス１〜シーケンス１４で交わした対話内容と識別子及び時刻情報ＴＭ１、ＴＭ２を記録する。
以上の説明から明らかなように、この発明によれば音声対話端末装置３００に発話始端検出手段３２を設けると共に、この発話始端検出手段３２で利用者の発話始端を検出し、その時点でセンタ装置４００から問い合せ音声信号が入来しており、更に音声認識フラグが「１」である場合は直ちに問い合せ信号を音声に再生する動作を停止させることができる。つまり、通信ネットワークＮＥＴの遅延時間を待たずに問い合せ音声が停止し、利用者は自己の発話に対して、問い合せ音声が停止したことを確認して以後の発話を続けることができる。
【００２１】
この様子を図３に用いて説明する。音声対話センタ装置４００からの問い合せ送信１により音声対話端末３００では「出発日をおっしゃって下さい。」と音声が再生される。このとき時刻情報ＴＭ１−１が付与される。
この問い合せに対して利用者が「えー、１３日です。」と発話すると、その発話始端で時刻情報ＴＭ２−１が付与される。これと共に、その発話内容に時刻情報ＴＭ１−１とＴＭ２−１が付加され、更に、問い合せ音声信号に添付されてきた識別子が音声対話センタ装置４００に送り込まれ、対話履歴記録手段５３に記録されると共に、対話制御手段４２により次の問い合せ事項が生成され、問い合せ送信２が送信される。
問い合せ送信２により音声対話端末３００では「１３日ですね。」の確認のための音声が再生される。この再生中に利用者が「あー、えー１５日です。」と発話したとすると、その発話始端検出信号により音声再生が停止され、利用者は問い合せの音声が停止することにより自己が主張する「あー、えー１５日です。」を最後まで発話することができる。これがこの発明の第１の特徴である。
【００２２】
次に、この発明では問い合せ音声信号が音声対話端末装置３００に到来した時刻と、この問い合せ音声信号に添付されてきた識別子及び端末側で検出した発話始端の検出時刻情報をペアで発話内容と共にセンタ装置４００に伝達し、対話履歴記録手段５３に記録するから、解析手段４８はこの記録から、利用者の発話がどの問い合せに対応するかを特定することができる。
つまり、図３に示す例では時刻情報ＴＭ１−２と、識別子ＩＤ＝０００２が有効である時間の範囲内に時刻情報ＴＭ２−２が付与されるているから、時刻情報ＴＭ２−２が付与された発話「あ、えー１５日です。」が時刻情報ＴＭ１−２と、識別子ＩＤ＝０００２が付与された問い合せ送信２の問い合せに対する発話であるものと特定することができる。
この点従来は利用者の発話始端をセンタ装置側で検出したから、発話の検出タイミングは通信ネットワークＮＥＴで遅延されるため、遅延が経過した時点で有効な問い合せ（図３では問い合せ送信３）に対する発話であるものと誤まって理解される。
以上説明した音声対話端末装置３００及び音声対話センタ装置４００はこの発明による音声端末プログラム及び音声対話センタプログラムをコンピュータにインストールして実現される。
【００２３】
図４にこの発明の音声対話端末装置３００にインストールされるプログラムの概要をフローチャートで示す。
ステップＳ１は問い合せ音声信号の受信待ちの状況。
ステップＳ２は問い合せ音声信号が入来したか否かを判定するステップ。
問い合せ音声信号が入来するまではステップＳ１とＳ２を繰返す。問い合せ音声信号が入来し、問い合わせ信号の再生が開始されると、ステップＳ３に移る。
ステップＳ３では第１時刻情報ＴＭ１の付与を実行する。
ステップＳ４では問い合せ音声信号に添付されてきた識別子を抽出する。
ステップＳ５で問い合せ音声信号に付加して送られて来た音声認識フラグが「１」か「０」かを特定する。
音声認識フラグが「０」である場合はステップＳ１に戻り待機状態に入る。
【００２４】
音声認識フラグが「１」の場合はステップＳ６に移る。
ステップＳ６では発話が開始されたか否かを判定する。発話が無ければステップＳ１１と、Ｓ４、Ｓ５を繰返し、問い合せ音声を再生し続ける。
発話が開始されるとステップＳ７に移る。
ステップＳ７で第２時刻情報ＴＭ２を付与する。
ステップＳ８で問い合せ音声の再生を停止する。
ステップＳ９で発話音声信号と、第１時刻情報ＴＭ１及び第２時刻情報ＴＭ２と識別子を音声対話センタ装置４００へ送信する。
ステップＳ１０で発話の終端が検出されたか否かを判定する。発話の終端が検出されるまでの間のステップＳ９とＳ１０を繰返し、発話音声信号の送信を続ける。発話の終端が検出されるとステップＳ１に戻り待機状態となる。
【００２５】
図５はこの発明による音声対話センタ装置４００を動作させるプログラムの概要を説明するためのフローチャートを示す。センタ装置では、
ステップＳ１で対話制御手段が対話シナリオを読み込む。
ステップＳ２で問い合せ音声信号と識別子を送信。
ステップＳ３で発話音声信号を受信。
ステップＳ４で発話音声信号と、第１時刻情報、第２時刻情報及び識別子が送られて来たか否かを判定。送られて来ない場合はステップＳ３に戻り、ステップＳ３とＳ４を繰返す。
ステップＳ４で発話音声信号と第１時刻情報、第２時刻情報及び識別子が送られてきたことを検出すると、ステップＳ５に進む。
ステップＳ５で音声認識処理を実行する。
ステップＳ６で音声認識処理結果からキーワード（日付、駅名等）を抽出。
ステップＳ７で時刻情報ＴＭ１とＴＭ２及び識別子の関係を参照し、音声認識受信した発話がどの問い合せに対応する発話であるかを解析。
ステップＳ８で入力項目を取得し記録する。
ステップＳ９で発話音声の終端を検出する。発話音声の終端が検出されるまでステップＳ３〜Ｓ８を繰返す。発話音声の終端が検出されると、ステップＳ２に戻り、次の問い合せ音声信号を送信する。
【００２６】
以上の動作をコンピュータがプログラムを解読して実行する。プログラムはコンピュータが解読可能な符号列によって記述され、コンピュータが読み取り可能な磁気ディスク又はＣＤ−ＲＯＭの様な記録媒体に記録され、この記録媒体からコンピュータにインストールするか又は記録媒体から読み出して通信回路を通じてコンピュータにインストールし、各コンピュータに備えられたＣＰＵによって解読されて実行される。
【００２７】
【発明の効果】
上述したように、この発明によれば音声対話端末装置３００と音声対話センタ装置４００を遅延を伴なう通信ネットワークＮＥＴで接続した場合でも、遅延によって発生する不都合を解消することができ、利用者にとって使い勝手のよい音声対話システムを提供することができる。
また、この発明によれば音声対話端末装置３００では特別な動作として発話始端の検出のみを行なわせ、音声認識或は音声合成のような多量の処理が必要な手段を搭載する必要がないから、携帯端末のような小規模の端末で実現することができる。
【図面の簡単な説明】
【図１】この発明による音声対話端末装置の一実施例を説明するためのブロック図。
【図２】この発明の音声対話センタ装置の一実施例を説明するためのブロック図。
【図３】この発明の動作を説明するためのタイミングチャート。
【図４】この発明による音声対話端末装置を動作させるプログラムの概要を説明するためのフローチャート。
【図５】この発明による音声対話センタ装置を動作させるプログラムの概要を説明するためのフローチャート。
【図６】従来の技術を説明するためのブロック図。
【図７】従来の技術の動作例を説明するためのタイミングチャート。
【図８】従来の技術の他の動作例を説明するためのタイミングチャート。
【図９】従来の技術の更に他の動作例を説明するためのタイミングチャート。
【符号の説明】
３００音声対話端末装置４１Ｂ入力データ取得手段
３０音声入力手段４２Ａ対話制御手段
３１発話音声バッファ手段４２Ｂ識別子添付手段
３２発話始端検出手段４３発話終端検出手段
３３送信手段４４発話終端送信手段
３４発話始端記録手段４５音声合成手段
３５発話終端受信手段４６音声選択手段
３６Ａ問い合せ音声受信手段４７問い合せ音声送信手段
３６Ｂ識別子抽出手段４８解析手段
３７音声再生制御手段５１録音音声データ群
３８音声再生手段５２音声合成データ群
３９第１時刻情報付与手段５３対話履歴記録手段
４００音声対話センタ装置５４対話シナリオデータ群
４０発話音声受信手段５５音声認識データ群
４１Ａ音声認識手段

Claims

音声対話端末装置へ送られてきた問い合せ音声信号が音声再生装置により音声として再生される再生開始時刻を付与する第１時刻情報付与処理と、
上記問い合せ音声信号に添付された識別子を抽出する識別子抽出処理と、
音声入力手段への音声の入力開始を検出する発話始端検出処理と、
この発話始端検出処理が実行された時刻を付与する第２時刻情報付与処理と、
上記問い合せ音声信号の入来中に上記発話始端検出処理が実行されるのと連動して上記音声再生装置の音声再生動作を停止させる処理と、
上記音声入力手段へ入力された発話音声信号と、上記第１時刻情報、第２時刻情報及び上記識別子抽出処理で抽出した識別子とを音声対話センタ装置へ送信する送信処理と、
を実行することを特徴とする音声対話方法。
音声対話端末装置へ送信する問い合せ音声信号毎に識別子を添付する識別子添付処理と、
音声対話端末装置から送られてくる発話音声信号を音声認識する音声認識処理と、
音声認識処理結果を入力データとして取り込む入力データ取得処理と、
音声対話端末装置から送られてくる第１時刻情報、第２時刻情報、識別子とを照合して第２時刻情報で特定される発話音声信号が、どの問い合せ音声信号に対応する応答かを解析する解析処理と、
を実行することを特徴とする音声対話方法。
音声対話端末装置へ送られてきた問い合せ信号が音声再生装置により音声として再生される再生開始時刻を付与する第１時刻情報付与手段と、
上記問い合せ音声信号に添付された識別子を抽出する識別子抽出手段と、
音声入力手段への音声の入力開始を検出する発話始端検出手段と、
この発話始端検出手段が発話始端を検出した時刻を付与する第２時刻情報付与手段と、
上記問い合せ信号の入来中に上記発話始端検出手段が上記発話始端を検出するのと連動して上記音声再生装置の音声再生動作を停止させる音声再生制御手段と、
上記音声入力手段へ入力された発話音声信号と、上記第１時刻情報、第２時刻情報及び上記識別子抽出手段で抽出した識別子とを音声対話センタ装置へ送信する送信手段と、
によって構成することを特徴とする音声対話端末装置。
音声対話端末装置へ送信する問い合せ音声信号毎に識別子を添付する識別子添付手段と、
音声対話端末装置から送られてくる発話音声信号を音声認識する音声認識手段と、
音声認識手段の音声認識結果を入力データとして取り込む入力データ取得手段と、
音声対話端末装置から送られてくる第１時刻情報、第２時刻情報、識別子とを照合して第２時刻情報で特定される発話音声信号が、どの問い合せ音声信号に対応する応答かを解析する解析手段と、
によって構成することを特徴とする音声対話センタ装置。
コンピュータが解読可能な符号列によって記述され、コンピュータに請求項１又は請求項２記載の音声対話方法の少なくとも一方を実行させる音声対話プログラム。