JP2004309682A - 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム - Google Patents

音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム Download PDF

Info

Publication number
JP2004309682A
JP2004309682A JP2003101240A JP2003101240A JP2004309682A JP 2004309682 A JP2004309682 A JP 2004309682A JP 2003101240 A JP2003101240 A JP 2003101240A JP 2003101240 A JP2003101240 A JP 2003101240A JP 2004309682 A JP2004309682 A JP 2004309682A
Authority
JP
Japan
Prior art keywords
voice
inquiry
time information
utterance
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003101240A
Other languages
English (en)
Inventor
Tasuku Shinozaki
翼 篠崎
Tetsuo Amakasu
哲郎 甘粕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003101240A priority Critical patent/JP2004309682A/ja
Publication of JP2004309682A publication Critical patent/JP2004309682A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】遅延を伴なう通信網を通じて音声対話端末装置と音声対話センタ装置を接続して構成した音声対話システムを不都合なく動作させる。
【解決手段】端末に音声入力装置への音声の入力開始を検知する発話始端検出処理と、この発話検出処理が実行された時刻を付与する時刻情報付与処理と、センタ装置からの問い合せ音声信号の再生時刻を付与する時刻情報付与処理と、問い合せ信号の入来中に発話始端検出処理が実行されるのと連動して音声再生装置の音声再生動作を停止させる処理と、センタ装置に発話された内容の音声信号と、時刻情報付与処理で付与した時刻情報とを送信する発話音声送信処理とを実行させる。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は例えば音声入力により各種の予約処理等を実行する音声対話方法及び音声対話端末装置、音声対話センタ装置、これらをコンピュータ上で実現する音声対話プログラムに関し、特に音声信号と共にビデオ信号も送受することができる携帯端末のような規模の小さい装置でも音声入力処理を実行させ、音声対話を実現することができる音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラムに関する。
【0002】
【従来の技術】
例えば宿泊施設の予約、乗車券の予約等を携帯端末から行なうことができるシステムが既に実用されている。従来のこの種の予約システムは文字入力により必要事項を入力する形式が多い。この形式の予約システムによれば携帯電話機、或は携帯型のパーソナルコンピュータ程度の規模が小さい装置でも予約センタ装置に必要事項を入力をすることができる。
然し乍ら、文字入力方式を採る場合、利用者にはキィーボードから文字入力を行なうことが要求され、老人、子供等キィーボードの操作に不慣れな者には使い勝手が悪い。
これに対して音声入力を行なう音声対話方式が考えられている。音声入力方式では利用者に入力事項を音声で問い合せし、その答を利用者に音声で応答させ、その音声を音声認識してセンタ装置へ入力する対話方式が採られる。この対話方式を採ることにより誰にでも簡単に必要事項を入力することができる。
対話方式で入力処理を実行する技術は特許文献1及び特許文献2に記載されている。
【0003】
特許文献1に記載されている音声対話装置は音声認識装置、音声合成装置等、音声対話に必要な全ての装置をセンタ装置と端末の双方に装備して対話を行なわせる方法を採っている。この方式を採った場合、端末には対話処理を行なうのに充分な処理性能を持つCPUやメモリ容量が必要となり、高価なものとなる。また形状も大きくなるため、携帯には不向きである。
この欠点を解消するために、音声認識或は音声合成等の音声対話処理装置をもたない端末装置を利用して音声対話を行なわせる音声対話システムが考えられている(特許文献2)。
図6にその概要を示す。端末100は卓上型の電話機或は携帯電話機を適用することができる。センタ装置200は例えば対話シナリオ記憶手段21と、対話シナリオ実行手段22と、音声認識手段23と、音声合成手段24と、入力事項記憶手段25と、音声信号送信手段26と、音声信号受信手段27と、発話始端検出手段28と、発話終端検出手段29等により構成される。
対話シナリオ記憶手段21には端末100の利用者との対話の筋書が予め記録されている。つまり、センタ装置200が或る特定の予約処理を行なう装置と仮定すれば、利用者との対話の内容は予め決められる。例えば乗車券の予約装置として説明すれば、先ずセンタ装置100は利用者の端末100に向って「ご利用日時を教えて下さい。」等と音声合成で生成した音声信号を出力し、この音声信号を電話回線網LINを通じて端末100に伝送する。
【0004】
端末100では電話回線網LINから入力される音声信号を受話器或はスピーカから音として放音させる。利用者はセンタ装置200からの問い合せに対し応答し、音声で利用日時を発話する。この発話の内容が送話機から通信回線網LINを通じてセンタ装置200に送られる。センタ装置200ではその応答音声を音声認識し、問い合せに対応するキーワードを抽出し、必要な入力事項を取得する。例えば「えー、12月10日です。」等と応答した場合は入力事項として「12月10日」を取得する。
センタ装置200に備えた対話シナリオには日時の入力が取得できた時点で、その確認を行なう対話が用意されている。例えば「12月10日でよろしいですか?」と問い合せを行なうシナリオが用意され、そのシナリオデータが音声合成されて端末100に送られる。利用者はその確認の問い合せに対して「はい。」、或は「よろしいです。」等と応答すると、センタ装置200に備えられている対話シナリオは次の入力項目の問い合せに移る。
次の入力項目が出発駅の駅名と、到着駅の駅名を入力する項目であるものとすると、センタ装置200では音声合成手段24により「出発駅の駅名をおっしゃって下さい。」と音声合成し、この音声を端末100に送信し、利用者はその問い合せに対して音声で応答する。このようにして、対話形式で必要事項を入力するのであるが、例えばセンタ装置200からの問い合せが端末100で着信中に利用者の発話が割り込んだ場合に、センタ装置200からの問い合せが停止すれば、利用者はセンタ装置200からの問い合わせの途中で割り込んでもセンタ装置に伝えたい発話を中断することなく発話を続けることができる。この対話の様子を図7を用いて説明する。図7Aは対話シナリオに従って、予め予想される対話の内容、図7Bは図7Aに示した対話の順序を時系列に配列して示した図、図7Cは実際に交わされた対話の内容を示す。
【0005】
図7Aに示すステップSP1−1はセンタ装置からの日付の問い合せを行なうステップ、
ステップSP1−2は利用者からの日付の入力を行なうステップ、
ステップSP1−3はセンタ装置からの日付の確認ステップ、及び次の入力事項を問い合せるステップを示す。
ステップSP1−4は利用者が日時の入力間違に気が付いて日付の訂正を申し出たステップ、
ステップSP1−5はセンタ装置の日付の再確認ステップを示す。
図7Bに各ステップSP1−1〜SP1−5を時系列に配置して割込が入った様子を示す。つまり、センタ装置100から日付の確認中に利用者が「あ、やっぱり15日です。」と発話した時点でセンタ装置100からの確認の問い合せは「2月13日ですね。」で停止し、それに続くはずの「それでは次に出発駅の駅名をおっしゃって下さい。」は削除される。
【0006】
この削除動作はセンタ装置100に設けられた始端検出手段28の検出動作で達せられる。つまり、図7Bに示すように、利用者が「あ、やっぱり15日です。」と発話した場合には、その発話の始端を始端検出手段28が検出し、その検出結果により音声信号送信手段26を制御し、音声信号の送出を停止させる。
この発話始端検出手段28の存在によって利用者の発話がセンタ装置の問い合せより優先され、利用者の発話が優先的にセンタ装置に伝達されることになる。尚、センタ装置100には終端検出手段29も装備している。この終端検出手段29は利用者の発話の終端を検出する検出手段であり、利用者の発話の終了を検出した後にセンタ装置100から次の問い合せを発信させるために設けられている。
【0007】
【特許文献1】
特開平7−239694号公報
【特許文献2】
特開平6−318977号公報
【0008】
【発明が解決しようとする課題】
図6に示した対話例では端末100とセンタ装置200との間で行なう音声信号の受授に遅延を伴わない例を示した。然し乍ら、通信網としてインターネット、無線網、VoIPネットワーク等を利用した場合、これらの通信網では不規則な遅延が発生する傾向がある。遅延を伴なう通信網を利用した場合、上述した始端検出手段28の検出タイミングが遅れるため、センタ装置から送信される問い合せが適確に停止しない現象が発生する。
図8を用いてその様子を説明する。図8Aは対話シナリオに用意されている対話の内容、図8Bは対話を時系列に配置した図、図8Cは実際に交わされた対話の内容を示す。ここでは図8Bに示すように、センタ装置200から端末100へと、端末100からセンタ装置200への伝送に遅延τ1、τ2が発生している様子を示す。尚、伝送方向で遅延時間がτ1とτ2のように異なるのは通信網の影響を受けていることを表わしている。遅延時間τ1、τ2が発生することにより、センタ装置200から「2月13日ですね。それでは次に…」の問い合せを送出中に利用者が「あ、やっぱり15日です。」と発話すると、その発話時刻が時間τ2遅れてセンタ装置200に届き、始端が検出される。
【0009】
センタ装置200は利用者の発話の始端が検出されるまでの時間τ2は送信を停止しないから、その遅延時間τ2に相当する時間に発信された問い合せは利用者に聴こえることになる。ここでは利用者が「あ、やっぱり15日です。」と言い切ってしまったから、その訂正が音声認識されて入力された状況を示しているが、発話を始めたにも係わらず、センタ装置200からの問い合せが停止しないと、不安になり、「あ、やっぱり」で発話を停止させてしまう場合もある。このような場合には日付の修正を希望しながら、日付の入力値が「2月13日」のまま、次の駅名の入力に移ってしまうことになる。従って、この場合には改めて日付の修正を希望する発話を入力し、日付の修正を行なうことになる。この点で利用者には使い勝手が悪い欠点がある。
更に、例えばセンタ装置の状態が次の入力項目に移っているにも係わらず、依然として前の入力項目を修正するつもりで利用者が発話してしまう場合もある。図9にその場合の対話例を示す。この例では出発日と到着日を順に入力する状況を示す。図9Aは対話シナリオに用意されている内容、図9Bは対話の様子を時系列に配置した図、図9Cは実際に交わされた対話の内容を示す。
【0010】
ここではステップSP1−3に示す「13日ですね。」の確認のためセンタ装置からの問合せに対して、ステップSP1−4に示す13日を15日に変更しようとする利用者の発話「あ、えー15日です。」がされた場合を示す。この場合はセンタ装置200は既にステップSP1−3に示す「到着は?」の問い合せを発信しているから、センタ装置200は到着日の入力を問い合せしている状態にある。この状況でステップSP1−4で利用者が「あ、えー、15日です。」と発話すると、センタ装置200は到着日が「15日である」と認識することになる。この認識の結果が実際に交わされた内容(図9C、ステップSP2−5)に示すセンタ装置からの問い合わせに表れている。このような誤った認識結果が発生する要因は通信網で発生する遅延時間の存在による。
この発明の目的は簡素な端末を用いてセンタ装置と音声対話入力を行うことができる音声対話システムにおいて、端末とセンタ装置との間の信号の受授に遅延が伴なう場合でも対話を円滑に行なわせることができ、然も利用者の発話意図の認識結果の誤りが発生することのない音声対話、音声対話端末装置、音声対話センタ装置、プログラムを提供しようとするものである。
【0011】
【課題を解決するための手段】
この発明では、音声対話端末装置へ送られてきた問い合せ音声信号が音声再生装置により音声として再生される再生開始時刻を付与する第1時刻情報付与処理と、問い合せ音声信号に添付された識別子を抽出する識別子抽出処理と、音声入力手段への音声の入力開始を検出する発話始端検出処理と、この発話始端検出処理が実行された時刻を付与する第2時刻情報付与処理と、問い合せ音声信号の入来中に発話始端検出処理が実行されるのと連動して音声再生装置の音声再生動作を停止させる処理と、音声入力手段へ入力された発話音声信号と、第1時刻情報、第2時刻情報及び識別子抽出処理で抽出した識別子とを音声対話センタ装置へ送信する送信処理とを実行する音声対話方法を提案する。
この発明では、更に音声対話端末装置へ送信する問い合せ音声信号毎に識別子を添付する識別子添付処理と、音声対話端末装置から送られてくる発話音声信号を音声認識する音声認識処理と、音声認識処理結果を入力データとして取り込む入力データ取得処理と、音声対話端末装置から送られてくる第1時刻情報、第2時刻情報、識別子とを照合して第2時刻情報で特定される発話音声信号が、どの問い合せ音声信号に対応する応答かを解析する解析処理を実行する音声対話方法を提案する。
【0012】
この発明では、更に音声対話端末装置へ送られてきた問い合せ信号が音声再生装置により音声として再生される再生開始時刻を付与する第1時刻情報付与手段と、問い合せ音声信号に添付された識別子を抽出する識別子抽出手段と、音声入力手段への音声の入力開始を検出する発話始端検出手段と、この発話始端検出手段が発話始端を検出した時刻を付与する第2時刻情報付与手段と、問い合せ信号の入来中に発話始端検出手段が発話始端を検出するのと連動して音声再生装置の音声再生動作を停止させる音声再生制御手段と、音声入力手段へ入力された発話音声信号と、第1時刻情報、第2時刻情報及び識別子抽出手段で抽出した識別子とを音声対話センタ装置へ送信する送信手段とによって構成した音声対話端末装置を提案する。
この発明では、更に音声対話端末装置へ送信する問い合せ音声信号毎に識別子を添付する識別子添付手段と、音声対話端末装置から送られてくる発話音声信号を音声認識する音声認識手段と、音声認識手段の音声認識結果を入力データとして取り込む入力データ取得手段と、音声対話端末装置から送られてくる第1時刻情報、第2時刻情報、識別子とを照合して第2時刻情報で特定される発話音声信号が、どの問い合せ音声信号に対応する応答かを解析する解析手段とを設けた音声対話センタ装置を提案する。
この発明では、更にコンピュータが解読可能な符号列によって記述され、コンピュータに請求項1又は請求項2記載の音声対話方法の少なくとも一方を実行させる音声対話プログラムを提案する。
【0013】
作用
この発明によれば端末側に利用者が発話を開始したことを検出する始端検出手段を設け、その検出結果で端末側の音声再生動作を停止させる方法を採ったから、利用者の発話開始から音声が停止するまでに遅延が発生することはない。従って、センタ装置から問い合せが送信中であっても、利用者が発話を開始すると、直ちに問い合せのための音声は停止し、利用者は不安をいだくことなく、発話を続けることができる。この結果入力内容の修正等を利用者が希望する通りに入力することができる。
更に、この発明によれば対話センタ装置から音声対話端末装置に送信される問い合せ音声信号毎に識別子を添付し、この識別子が添付された問い合せ音声信号が音声対話端末装置で音声として再生が開始される時刻と利用者が発話を開始した時刻を第1時刻情報及び第2時刻情報として識別子と共に対話センタ装置に送信するから、対話センタ装置ではこれら第1時刻情報及び第2時刻情報と識別子とから、センタ装置から端末に向かって届けられた問い合せに対して、利用者からの応答がその時刻に有効になっている問い合せであるか否かを解析することができる。この結果問い合せに対して誤った発話を入力値として認識する不都合を解消することができる。
【0014】
【発明の実施の形態】
図1及び図2にこの発明による音声対話端末装置及び音声対話センタ装置の一実施例を示す。
図1に示す300はこの発明による音声対話端末装置、図2に示す400はこの発明による音声対話センタ装置、NETは例えばインターネット、無線ネットワーク、VoIPネットワークのような通信ネットワークを示す。つまり、この発明ではこれらの通信ネットワークNETで不規則な遅延が発生しても正常に対話が行なえるように構成しようとするものである。
この発明による音声対話端末装置300は音声対話センタ装置400から送られて来る問い合せ音声信号を受信する問い合せ音声受信手段36Aと、この問い合せ音声信号に添付されてくる識別子(識別番号)を抽出する識別番号抽出手段36Bと、問い合せ音声信号受信手段36Aで受信した問い合せ音声信号を音声再生手段38に出力するかしないかを制御する音声再生制御手段37と、問い合せ音声信号の再生開始を検出し、その再生開始時刻を第1時刻情報TM1として付与する第1時刻情報付与手段39と、利用者の発話を電気信号に変換し、音声信号を出力する音声入力手段30と、この音声入力手段30から出力される音声信号を所定の時間(Tms)遅延させる発話音声バッファ手段31と、音声入力手段30から入力される発話の例えば、音声レベルが所定の期間以上閾値より低い状態が続いた後、閾値より高くなった状態を検出して発話の始端を検出する(尚、発話の検出に関しては、例えば東海大学出版会「ディジタル音声処理」古井貞煕著、p.153、8.2音声区間の検出を参照)。この始端の時刻を第2時刻情報TM2として付与する発話始端検出手段兼第2時刻情報付与手段32と、音声入力手段30から入力された発話音声信号と第1時刻情報付与手段39で付与した第1時刻情報TM1及び第2時刻情報付与手段32で付与した第2時刻情報TM2と識別子抽出手段36Bで抽出した識別子とを音声対話センタ装置400へ送信する送信手段33と、音声対話センタ装置400で検出された発話終了信号を受信する発話終端受信手段35と、発話始端の履歴を記憶する発話始端履歴記憶手段34とによって構成することができる。
【0015】
音声対話センタ装置400は音声対話端末300から送られてくる発話音声信号及び第1時刻情報TM1、第2時刻情報TM2を受信する発話音声受信手段40と、発話音声受信手段40で受信した発話音声信号を音声認識データ群55に格納した音声認識データを利用して発話内容を音声認識する音声認識手段41Aと、音声認識手段41Aの音声認識結果に従って入力データを取得する入力データ取得手段41Bと、更に音声認識結果と対話シナリオデータ群54に記述されている対話シナリオデータに従って、音声対話端末装置300との対話を行なわせる対話制御手段42Aと、対話制御手段42Aが選択して決定した対話シナリオデータに従って音声対話端末装置300に送信する問い合せ音声信号に識別子を添付する識別子添付手段42Bと、発話音声受信手段40で受信した発話音声信号とこの発話音声信号に付加されて来た第1及び第2時刻情報TM1とTM2を対話履歴として記録する対話履歴記録手段53と、対話制御手段42Aが生成した対話シナリオデータに従って音声合成データ群52に格納している音声合成コマンドにより指定されるテキストデータから音声信号を生成する音声合成手段45と、予め録音した録音音声データ群51の中から対話シナリオを構成する音声再生コマンドにより指定される音声データを選択する音声選択手段46と、音声合成手段45で音声合成した音声信号及び音声選択手段46で選択した音声データを使って問い合せ音声信号を生成し、この問い合せ信号を音声対話端末300に送信する問い合せ音声送信手段47と、発話音声受信手段40が受信した利用者の発話音声を音声認識手段41Aで逐次音声認識し、その音声認識結果又は発話音声受信手段40で得られた発話音声信号を用いて発話の終端を検出する発話終端検出手段43と、発話終端検出手段43が発話終端を検出すると、発話終端が検出されたことを音声対話端末装置300に送信する発話終端送信手段44と、対話履歴記録手段53に記録した対話履歴を解析し、利用者の発話がどの問い合せに対応する発話であるかを解析する解析手段48とによって構成される。対話シナリオデータ群54に格納されている対話シナリオデータには問い合せの内容に応じて音声対話端末装置300からの発話内容を音声認識するかしないかを制御するための音声認識フラグが付される。フラグはここでは音声認識する場合は「1」、しない場合を「0」とした場合を示す。
以下にこの発明による音声対話端末装置300と音声対話センタ装置400の処理シーケンスを詳細に説明する。
【0016】
音声対話センタ装置400側の動作
シーケンス1:対話制御手段42は対話シナリオデータ群54から対話シナリオデータ(コンテンツ)を読み込み利用者との対話を開始する。
利用者との対話は対話履歴として対話履歴記録手段53に時刻情報TM1、TM2及び識別子と共に記録される。
シーケンス2:対話制御手段42Aの指令により音声合成手段45により合成された音声や音声選択手段46で選択された音声によりセンタからの問い合せ信号として用意される。
シーケンス3:問い合せ音声送信手段47はセンタからの問い合せ音声信号を音声対話端末手段300へ送信する。この際に識別子添付手段42Bは問い合せ音声信号に識別子(識別番号)を添付し、更に音声認識手段41Aの状態(音声認識を行なう状態フラグ=1、行なわない状態フラグ=0)を音声認識フラグとしてあわせて送信する。
【0017】
音声対話端末装置300側の動作
シーケンス4:音声対話端末装置300では問い合せ音声受信手段36によってセンタから送られて来る問い合せ信号と音声認識フラグ及び識別子を受信する。
シーケンス5:受信した識別子は識別子抽出手段36Bで抽出される。更に問い合せ音声データと音声認識フラグは音声再生制御手段37に渡される。
シーケンス6:音声再生制御手段37は問い合せ音声データを音声再生手段38に送り、問い合せ音声を再生する。このときの時刻を第1時刻情報TM1として付与し、記録する。
シーケンス7:音声入力手段30から入力された音声は全て発話音声バッファ手段31でバッファ長(Tmsec)の長さ分バッファリングされる。
【0018】
シーケンス8:発話始端検出手段32が発話始端を検出すると、この発話の始端を第2時刻情報TM2として発話始端検出履歴記録手段34に保存する。このとき利用者発話の第2時刻情報TM2は発話始端検出時刻からバッファ長(Tmsec)の時間を引いた時刻とする。始端検出情報は発話音声送信手段33と問い合せ音声出力制御手段37へ送られる。これにより、例えば音声信号のパワーで始端検出を行う場合、文頭が子音で始まるようなときは、充分なパワーが得られず、パワーが充分な後続の母音を始端として検出してしまい、文頭の子音部分の音声信号が欠落してしまうことを防ぐことができる。
シーケンス9:問い合せ音声出力制御手段37は音声認識フラグが「1」であれば問い合せ音声信号の出力を停止させる。
シーケンス10:発話音声送信手段33は発話音声バッファ手段31から音声データを取得し、音声対話センタ装置400へ送信する。
このとき、記録された問い合せ信号の再生開始時点を表わす第1時刻情報TM1と、利用者発話の第2時刻情報TM2及び音声対話センタ装置400から送られてきた識別子も合せて送信する。発話音声送信手段33は発話終端受信手段35から終端検出情報が送られて来るまで音声データを音声対話センタ装置400へ送信する。
【0019】
音声対話装置400側の動作
シーケンス11:発話音声受信手段40は利用者発話音声及びこれに付加されて送られて来る問い合せ音声信号の再生開始時刻を表わす第1時刻情報TM1とこの問い合せ音声信号に添付されてきた識別子及び利用者発話時に付与した第2時刻情報TM2を受信する。利用者発話音声は音声認識手段41Aと発話終端検出手段43に送られる。
シーケンス12:音声認識手段41Aは音声認識結果の文字列を発話終端検出手段43と対話制御手段42Aに送る。
シーケンス13:発話終端検出手段43は発話音声受信手段40から送られて来た利用者発話音声信号か、又は音声認識手段41から送られて来た音声認識結果の文字列から発話終端を検出する。発話終端を検出した場合、発話終端送信手段44に発話終端を伝える。尚、発話終端の検出方法としては、発話音声受信手段40で得られた利用者の発話音声信号のレベルが所定期間以上低い状態が続いた時点、又は音声認識結果に例えば「じゃなくて、15時」のような体言止め或いは、「えっと、15時です。」のような文末表現が逐次現れた時点を発話の終端とする発話終端検出方法とがある。これらの発話終端検出方法に関しては、東海大学出版会「ディジタル音声処理」古井 貞煕 著又は特願2002−194289を参照。
【0020】
シーケンス14:解析手段48では音声認識手段41Aから得た音声認識結果と、発話音声受信手段40から得た問い合せ音声信号の再生開始時刻を表わす第1時刻情報TM1と、及びこの問い合せ音声信号に添付した識別子及び利用者発話の第2時刻情報TM2が同時に得られるので、これら2つの時刻情報TM1とTM2と識別子から利用者の発話音声がどの問い合せに対応するかを解析し、正しく対応付けを行なうことができる。
対話制御手段42Aは、対話シナリオデータと対話履歴及び音声認識結果から次の問い合せ項目を決定する。
対話履歴記録手段53は対話履歴としてシーケンス1〜シーケンス14で交わした対話内容と識別子及び時刻情報TM1、TM2を記録する。
以上の説明から明らかなように、この発明によれば音声対話端末装置300に発話始端検出手段32を設けると共に、この発話始端検出手段32で利用者の発話始端を検出し、その時点でセンタ装置400から問い合せ音声信号が入来しており、更に音声認識フラグが「1」である場合は直ちに問い合せ信号を音声に再生する動作を停止させることができる。つまり、通信ネットワークNETの遅延時間を待たずに問い合せ音声が停止し、利用者は自己の発話に対して、問い合せ音声が停止したことを確認して以後の発話を続けることができる。
【0021】
この様子を図3に用いて説明する。音声対話センタ装置400からの問い合せ送信1により音声対話端末300では「出発日をおっしゃって下さい。」と音声が再生される。このとき時刻情報TM1−1が付与される。
この問い合せに対して利用者が「えー、13日です。」と発話すると、その発話始端で時刻情報TM2−1が付与される。これと共に、その発話内容に時刻情報TM1−1とTM2−1が付加され、更に、問い合せ音声信号に添付されてきた識別子が音声対話センタ装置400に送り込まれ、対話履歴記録手段53に記録されると共に、対話制御手段42により次の問い合せ事項が生成され、問い合せ送信2が送信される。
問い合せ送信2により音声対話端末300では「13日ですね。」の確認のための音声が再生される。この再生中に利用者が「あー、えー15日です。」と発話したとすると、その発話始端検出信号により音声再生が停止され、利用者は問い合せの音声が停止することにより自己が主張する「あー、えー15日です。」を最後まで発話することができる。これがこの発明の第1の特徴である。
【0022】
次に、この発明では問い合せ音声信号が音声対話端末装置300に到来した時刻と、この問い合せ音声信号に添付されてきた識別子及び端末側で検出した発話始端の検出時刻情報をペアで発話内容と共にセンタ装置400に伝達し、対話履歴記録手段53に記録するから、解析手段48はこの記録から、利用者の発話がどの問い合せに対応するかを特定することができる。
つまり、図3に示す例では時刻情報TM1−2と、識別子ID=0002が有効である時間の範囲内に時刻情報TM2−2が付与されるているから、時刻情報TM2−2が付与された発話「あ、えー15日です。」が時刻情報TM1−2と、識別子ID=0002が付与された問い合せ送信2の問い合せに対する発話であるものと特定することができる。
この点従来は利用者の発話始端をセンタ装置側で検出したから、発話の検出タイミングは通信ネットワークNETで遅延されるため、遅延が経過した時点で有効な問い合せ(図3では問い合せ送信3)に対する発話であるものと誤まって理解される。
以上説明した音声対話端末装置300及び音声対話センタ装置400はこの発明による音声端末プログラム及び音声対話センタプログラムをコンピュータにインストールして実現される。
【0023】
図4にこの発明の音声対話端末装置300にインストールされるプログラムの概要をフローチャートで示す。
ステップS1は問い合せ音声信号の受信待ちの状況。
ステップS2は問い合せ音声信号が入来したか否かを判定するステップ。
問い合せ音声信号が入来するまではステップS1とS2を繰返す。問い合せ音声信号が入来し、問い合わせ信号の再生が開始されると、ステップS3に移る。
ステップS3では第1時刻情報TM1の付与を実行する。
ステップS4では問い合せ音声信号に添付されてきた識別子を抽出する。
ステップS5で問い合せ音声信号に付加して送られて来た音声認識フラグが「1」か「0」かを特定する。
音声認識フラグが「0」である場合はステップS1に戻り待機状態に入る。
【0024】
音声認識フラグが「1」の場合はステップS6に移る。
ステップS6では発話が開始されたか否かを判定する。発話が無ければステップS11と、S4、S5を繰返し、問い合せ音声を再生し続ける。
発話が開始されるとステップS7に移る。
ステップS7で第2時刻情報TM2を付与する。
ステップS8で問い合せ音声の再生を停止する。
ステップS9で発話音声信号と、第1時刻情報TM1及び第2時刻情報TM2と識別子を音声対話センタ装置400へ送信する。
ステップS10で発話の終端が検出されたか否かを判定する。発話の終端が検出されるまでの間のステップS9とS10を繰返し、発話音声信号の送信を続ける。発話の終端が検出されるとステップS1に戻り待機状態となる。
【0025】
図5はこの発明による音声対話センタ装置400を動作させるプログラムの概要を説明するためのフローチャートを示す。センタ装置では、
ステップS1で対話制御手段が対話シナリオを読み込む。
ステップS2で問い合せ音声信号と識別子を送信。
ステップS3で発話音声信号を受信。
ステップS4で発話音声信号と、第1時刻情報、第2時刻情報及び識別子が送られて来たか否かを判定。送られて来ない場合はステップS3に戻り、ステップS3とS4を繰返す。
ステップS4で発話音声信号と第1時刻情報、第2時刻情報及び識別子が送られてきたことを検出すると、ステップS5に進む。
ステップS5で音声認識処理を実行する。
ステップS6で音声認識処理結果からキーワード(日付、駅名等)を抽出。
ステップS7で時刻情報TM1とTM2及び識別子の関係を参照し、音声認識受信した発話がどの問い合せに対応する発話であるかを解析。
ステップS8で入力項目を取得し記録する。
ステップS9で発話音声の終端を検出する。発話音声の終端が検出されるまでステップS3〜S8を繰返す。発話音声の終端が検出されると、ステップS2に戻り、次の問い合せ音声信号を送信する。
【0026】
以上の動作をコンピュータがプログラムを解読して実行する。プログラムはコンピュータが解読可能な符号列によって記述され、コンピュータが読み取り可能な磁気ディスク又はCD−ROMの様な記録媒体に記録され、この記録媒体からコンピュータにインストールするか又は記録媒体から読み出して通信回路を通じてコンピュータにインストールし、各コンピュータに備えられたCPUによって解読されて実行される。
【0027】
【発明の効果】
上述したように、この発明によれば音声対話端末装置300と音声対話センタ装置400を遅延を伴なう通信ネットワークNETで接続した場合でも、遅延によって発生する不都合を解消することができ、利用者にとって使い勝手のよい音声対話システムを提供することができる。
また、この発明によれば音声対話端末装置300では特別な動作として発話始端の検出のみを行なわせ、音声認識或は音声合成のような多量の処理が必要な手段を搭載する必要がないから、携帯端末のような小規模の端末で実現することができる。
【図面の簡単な説明】
【図1】この発明による音声対話端末装置の一実施例を説明するためのブロック図。
【図2】この発明の音声対話センタ装置の一実施例を説明するためのブロック図。
【図3】この発明の動作を説明するためのタイミングチャート。
【図4】この発明による音声対話端末装置を動作させるプログラムの概要を説明するためのフローチャート。
【図5】この発明による音声対話センタ装置を動作させるプログラムの概要を説明するためのフローチャート。
【図6】従来の技術を説明するためのブロック図。
【図7】従来の技術の動作例を説明するためのタイミングチャート。
【図8】従来の技術の他の動作例を説明するためのタイミングチャート。
【図9】従来の技術の更に他の動作例を説明するためのタイミングチャート。
【符号の説明】
300 音声対話端末装置 41B 入力データ取得手段
30 音声入力手段 42A 対話制御手段
31 発話音声バッファ手段 42B 識別子添付手段
32 発話始端検出手段 43 発話終端検出手段
33 送信手段 44 発話終端送信手段
34 発話始端記録手段 45 音声合成手段
35 発話終端受信手段 46 音声選択手段
36A 問い合せ音声受信手段 47 問い合せ音声送信手段
36B 識別子抽出手段 48 解析手段
37 音声再生制御手段 51 録音音声データ群
38 音声再生手段 52 音声合成データ群
39 第1時刻情報付与手段 53 対話履歴記録手段
400 音声対話センタ装置 54 対話シナリオデータ群
40 発話音声受信手段 55 音声認識データ群
41A 音声認識手段

Claims (5)

  1. 音声対話端末装置へ送られてきた問い合せ音声信号が音声再生装置により音声として再生される再生開始時刻を付与する第1時刻情報付与処理と、
    上記問い合せ音声信号に添付された識別子を抽出する識別子抽出処理と、
    音声入力手段への音声の入力開始を検出する発話始端検出処理と、
    この発話始端検出処理が実行された時刻を付与する第2時刻情報付与処理と、
    上記問い合せ音声信号の入来中に上記発話始端検出処理が実行されるのと連動して上記音声再生装置の音声再生動作を停止させる処理と、
    上記音声入力手段へ入力された発話音声信号と、上記第1時刻情報、第2時刻情報及び上記識別子抽出処理で抽出した識別子とを音声対話センタ装置へ送信する送信処理と、
    を実行することを特徴とする音声対話方法。
  2. 音声対話端末装置へ送信する問い合せ音声信号毎に識別子を添付する識別子添付処理と、
    音声対話端末装置から送られてくる発話音声信号を音声認識する音声認識処理と、
    音声認識処理結果を入力データとして取り込む入力データ取得処理と、
    音声対話端末装置から送られてくる第1時刻情報、第2時刻情報、識別子とを照合して第2時刻情報で特定される発話音声信号が、どの問い合せ音声信号に対応する応答かを解析する解析処理と、
    を実行することを特徴とする音声対話方法。
  3. 音声対話端末装置へ送られてきた問い合せ信号が音声再生装置により音声として再生される再生開始時刻を付与する第1時刻情報付与手段と、
    上記問い合せ音声信号に添付された識別子を抽出する識別子抽出手段と、
    音声入力手段への音声の入力開始を検出する発話始端検出手段と、
    この発話始端検出手段が発話始端を検出した時刻を付与する第2時刻情報付与手段と、
    上記問い合せ信号の入来中に上記発話始端検出手段が上記発話始端を検出するのと連動して上記音声再生装置の音声再生動作を停止させる音声再生制御手段と、
    上記音声入力手段へ入力された発話音声信号と、上記第1時刻情報、第2時刻情報及び上記識別子抽出手段で抽出した識別子とを音声対話センタ装置へ送信する送信手段と、
    によって構成することを特徴とする音声対話端末装置。
  4. 音声対話端末装置へ送信する問い合せ音声信号毎に識別子を添付する識別子添付手段と、
    音声対話端末装置から送られてくる発話音声信号を音声認識する音声認識手段と、
    音声認識手段の音声認識結果を入力データとして取り込む入力データ取得手段と、
    音声対話端末装置から送られてくる第1時刻情報、第2時刻情報、識別子とを照合して第2時刻情報で特定される発話音声信号が、どの問い合せ音声信号に対応する応答かを解析する解析手段と、
    によって構成することを特徴とする音声対話センタ装置。
  5. コンピュータが解読可能な符号列によって記述され、コンピュータに請求項1又は請求項2記載の音声対話方法の少なくとも一方を実行させる音声対話プログラム。
JP2003101240A 2003-04-04 2003-04-04 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム Pending JP2004309682A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003101240A JP2004309682A (ja) 2003-04-04 2003-04-04 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003101240A JP2004309682A (ja) 2003-04-04 2003-04-04 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム

Publications (1)

Publication Number Publication Date
JP2004309682A true JP2004309682A (ja) 2004-11-04

Family

ID=33465100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003101240A Pending JP2004309682A (ja) 2003-04-04 2003-04-04 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム

Country Status (1)

Country Link
JP (1) JP2004309682A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044240A (ja) * 2008-08-13 2010-02-25 Kddi Corp 音声認識装置およびプログラム
JP2018165805A (ja) * 2017-03-28 2018-10-25 日本電信電話株式会社 対話装置、対話装置の制御方法およびプログラム
CN109036401A (zh) * 2018-07-12 2018-12-18 深圳市艾唯尔科技有限公司 一种开启语音控制系统的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044240A (ja) * 2008-08-13 2010-02-25 Kddi Corp 音声認識装置およびプログラム
JP2018165805A (ja) * 2017-03-28 2018-10-25 日本電信電話株式会社 対話装置、対話装置の制御方法およびプログラム
CN109036401A (zh) * 2018-07-12 2018-12-18 深圳市艾唯尔科技有限公司 一种开启语音控制系统的方法

Similar Documents

Publication Publication Date Title
JP6139598B2 (ja) オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
US8824641B2 (en) Real time automatic caller speech profiling
JP5042194B2 (ja) 話者テンプレートを更新する装置及び方法
EP2252995B1 (en) Method and apparatus for voice searching for stored content using uniterm discovery
JP5533854B2 (ja) 音声認識処理システム、および音声認識処理方法
CN110047481B (zh) 用于语音识别的方法和装置
EP1170726A1 (en) Speech recognition correction for devices having limited or no display
JP2002032213A (ja) ボイス・メール・メッセージを転記する方法およびシステム
US8532995B2 (en) System and method for isolating and processing common dialog cues
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
CN100587808C (zh) 用于话音消息编辑的方法和装置
JPWO2009104332A1 (ja) 発話分割システム、発話分割方法および発話分割プログラム
JP6549009B2 (ja) 通信端末及び音声認識システム
JP2004309682A (ja) 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム
US11699438B2 (en) Open smart speaker
JP2000010578A (ja) 音声メッセージ送受信システム、及び音声メッセージ処理方法
JP5563185B2 (ja) 携帯電話機および留守番録音方法
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP3959083B2 (ja) 音声情報要約装置、及び、音声情報要約方法
US20150073810A1 (en) Music playing method and music playing system
JP2007121577A (ja) 音声再生装置
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム
US20030046084A1 (en) Method and apparatus for providing location-specific responses in an automated voice response system
JP3077746B2 (ja) 音声対話方法及び音声対話装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051115

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060307