JP4798039B2

JP4798039B2 - 音声対話装置および方法

Info

Publication number: JP4798039B2
Application number: JP2007079309A
Authority: JP
Inventors: 友紀入江; 邦雄横井; 克志浅見
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2007-03-26
Filing date: 2007-03-26
Publication date: 2011-10-19
Anticipated expiration: 2027-03-26
Also published as: JP2008241890A

Description

本発明は、利用者が発した音声に対応した応答を行う音声対話装置および方法に関する。

従来、音声対話装置において、音声が入力されていることを人間に知らせることで音声入力の不安感を軽減するものや、対話中に間が空いた場合に入力を促進するものが知られている。その一つとして、擬人化された人工エージェントが対話中に相槌や頷きをすることで、「話を聞いている」または「話を続けて」などといった意思を人間に対して明確にすることにより、人間と人工エージェントとの対話を円滑に進めることを目的とする技術も提案されている（例えば、特許文献１、特許文献２、特許文献３、特許文献４、特許文献５、特許文献６参照。）。

例えば、特許文献１に開示されている音声対話システムは、音声認識結果、ピッチの時系列情報、視線の時系列情報、及び係り受け情報等に基づいて応答タイミングや意味処理タイミングを判定して、応答タイミングであって且つ意味処理タイミングでないと判定したときに相槌また発話中のキーワードを発するように構成されている。

また、特許文献２に開示されている相槌ロボットは、音声登録テーブルと認識結果が一致した場合に、対応する相槌登録データ（「そうだね」等）を読み出すように構成されている。

また、特許文献３、特許文献４、特許文献５、及び特許文献６には、予め決められたポーズやキーワードを検出した場合に相槌を出力する技術が開示されている。
特開２００５−１９６１３４号公報特開２００３−８８６８６号公報特開平７−１９１６８７号公報特開平７−２１９９６１号公報特開平８−２１１９８６号公報特開２００４−８６００１号公報

しかし、上述の特許文献１〜６に記載の技術では、ポーズやキーワード等の言語情報などといった、相槌や頷きを行うタイミングの直前における特徴量を用いて判定する。そして、判定してから相槌や頷きを行うまでの処理に時間がかかるため、適切なタイミングで相槌や頷きを入れることが困難である。

そして、このような不適切なタイミングでの相槌では、逆に話が遮られるなどの悪い印象を与えてしまったり（文献「音声対話システムにおける相槌認識／生成機能の言語情報と韻律情報による実現」、三宅他、2005年日本音響学会秋季研究発表会、1-P-20、pp.191-192）、発話の流れを止めてしまったりして（文献「韻律情報を用いた相槌生成システムとその評価」、竹内他、情報処理学会第64 回全国大会、Vol.2、pp.101-102）、対話のリズムを崩す可能性がある。

また、人間同士の対話では、発話にオーバーラップする相槌が多い（例えば文献「コーパスに基づく相槌の時間的分析と考察」、中里収、人工知能学会研究会資料、SIG-SLUD-A
003-7（3/2）を参照）。しかし、相槌や頷きを行うタイミングをポーズや発話末の表現によって判定する手法では、発話にオーバーラップする相槌を実現することができない。

本発明は、こうした問題に鑑みなされたものであり、適切なタイミングで応答することができる音声対話装置および方法を提供することを目的とする。

上記目的を達成するためになされた請求項１に記載の音声対話装置では、入力手段が、利用者が発した音声を入力し、予測手段が、入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する。更にタイミング判断手段が、予測手段により取得されたタイミング予測情報に基づいて、応答タイミングになったか否かを判断する。そして応答手段が、タイミング判断手段により応答タイミングになったと判断された場合に、応答を行う。

このように構成された音声対話装置によれば、予測手段によって応答タイミングを前もって予測することができるので、応答手段に応答を開始させるための処理時間を確保できる。つまり、応答手段が応答する前に応答タイミングになってしまうという事態が発生することを抑制でき、適切なタイミングで応答することができるという優れた効果を奏する。

また、請求項１に記載の音声対話装置では、確信度算出手段が、予測手段による応答タイミングの予測結果についての確信度を算出し、付加手段が、確信度算出手段により算出された確信度を応答タイミングの予測結果に付加し、予測手段が、付加手段により付加された確信度に基づいて、応答タイミングの予測結果の中から、タイミング予測情報とするものを選択する。

このように構成された音声対話装置によれば、確信度に基づいて信頼性の高いタイミング予測情報を取得することができるので、より適切なタイミングで応答を行うことができる。また、タイミング予測情報を選択することにより、信頼性の低い情報の制御を行う必要がなくなるので、応答タイミングを制御する手段の負荷が低減される。

また、請求項１に記載の音声対話装置において、確信度算出手段は、請求項２に記載のように、予測手段での予測結果とモデルとの一致率、Ｎ―ｇｒａｍ確率、入力手段に入力した音声についての音声認識の確信度、及び時定数の少なくとも１つの情報を用いて確信度を算出するようにしてもよい。

また、請求項１または請求項２に記載の音声対話装置において、請求項３に記載のように、応答タイミングの予測結果に付加された確信度に応じて、応答手段による応答の内容を変更する応答変更手段を備えるようにするとよい。

このように構成された音声対話装置によれば、確信度に応じて、例えば応答タイミングの予測結果の信頼性が低い場合には例えば応答の音量を小さくすることによって、不適切なタイミングで応答をした場合に、利用者に対する働きかけの効果を小さくして、対話のリズムが崩れるのを抑制することができる。なお応答の内容としては、語彙、音量、話速、駆動箇所、駆動範囲、及び駆動パターンなどが挙げられる。

また、請求項４に記載の音声対話方法は、まず入力ステップにおいて、利用者が発した音声を入力し、続く予測ステップにおいて、入力ステップに入力した音声に基づいて、入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する。更にタイミング判断ステップにおいて、予測ステップにより取得されたタイミング予測情報に基づいて、応答タイミングになったか否かを判断する。そして応答ステップにおいて、タイミング判断ステップにより応答タイミングになったと判断された場合に、応答を行う。

この音声対話方法は、請求項１に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項１に記載の音声対話装置と同様の効果を得ることができる。

また、請求項４に記載の音声対話方法では、確信度算出ステップにおいて、予測ステップにより応答タイミングの予測結果についての確信度を算出し、付加ステップにおいて、確信度算出ステップにより算出された確信度を応答タイミングの予測結果に付加し、予測ステップにおいて、付加ステップにより付加された確信度に基づいて、応答タイミングの予測結果の中から、タイミング予測情報とするものを選択するようにする。

また、請求項４に記載の音声対話方法において、確信度算出ステップは、請求項５に記載のように、予測ステップによる予測結果とモデルとの一致率、Ｎ―ｇｒａｍ確率、入力ステップにより入力した音声についての音声認識の確信度、及び時定数の少なくとも１つの情報を用いて確信度を算出するようにしてもよい。

また、請求項４または請求項５に記載の音声対話方法において、請求項６に記載のように、応答タイミングの予測結果に付加された確信度に応じて、応答ステップによる応答の内容を変更する応答変更ステップを備えるようにするとよい。

この音声対話方法は、請求項３に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項３に記載の音声対話装置と同様の効果を得ることができる。

以下に本発明の実施形態について図面とともに説明する。
図１は本実施形態の音声対話装置１の構成を示すブロック図である。
図１に示すように、音声対話装置１は、利用者が発話した音声を入力する音声入力部２と、音声を出力する音声出力部３と、音声入力部２からの入力に応じて各種処理を実行し、音声出力部３を制御する制御部４とを備えている。

これらのうち音声入力部２は、利用者が音声を入力（発話）するとその入力した音声に基づく電気信号（音声信号）を制御部４に出力するものである。
また制御部４は、ＣＰＵ，ＲＯＭ，ＲＡＭ，Ｉ／Ｏ及びこれらの構成を接続するバスラインなどからなる周知のマイクロコンピュータを中心に構成されており、ＲＯＭ及びＲＡＭに記憶されたプログラムに基づいて各種処理を実行する。

ここで図２は、制御部４が実行する処理の概要を示す機能ブロック図である。
図２に示すように、制御部４は、音声入力部２で入力した音声の認識処理を行う音声認識部１１と、音声認識部１１による認識結果に基づいて対話を進めるための応答（例えば、相槌や、「明日の天気はどうですか？」という音声入力に対して「明日は晴れです」というような応答）を生成する応答生成部１２と、応答生成部１２で生成された応答を音声出力部３に出力させる出力部１３と、音声認識部１１による認識結果に基づいて相槌等の応答を出力するタイミングを予測する出力タイミング予測部１４と、出力タイミング予測部１４で予測された出力タイミングで出力部１３に音声出力部３による出力をさせる出力タイミング制御部１５と、出力タイミング予測部１４での予測結果に基づいて出力部１３に音声出力部３による応答を変更させる応答変更部１６と、出力タイミング予測部１４での予測に用いる予測モデル（例えば、コーパス等の学習データ等を用いて予め作成したモデル）を記憶するモデル記憶部１７とを備えている。

これらのうちモデル記憶部１７は、上記予測モデルとして、現在の入力単語列に後続すると予測される単語列（以下、後続予測単語列ともいう）と、後続予測単語列に対応した出現確率とを記憶する出現確率リスト１７ａを記憶する。

このように構成された音声対話装置１において、制御部４は、入力した音声に基づいて対話を行う音声対話処理を実行する。
ここで、音声対話装置１の制御部４が実行する音声対話処理の手順を、図３，図４を用いて説明する。図３は音声対話処理を示すフローチャート、図４は出力タイミング予測の方法を説明する図である。

この音声対話処理は、制御部４が起動（電源オン）している間に繰り返し実行される処理である。
音声対話処理が実行されると、制御部４は、まずＳ１０にて、音声入力部２に音声が入
力したか否かを判断する。ここで音声が入力していない場合には（Ｓ１０）、音声対話処理を一旦終了する。一方、音声が入力した場合には（Ｓ１０）、Ｓ２０にて、音声入力部２に入力した音声について音声認識を行う。

その後Ｓ３０にて、Ｓ２０での音声認識結果に基づき、音声入力部２に入力した音声から単語列を抽出する。更にＳ４０にて、Ｓ２０での音声認識結果に基づき、音声入力部２に入力した音声の話速を算出する。

そしてＳ５０にて、Ｓ３０で抽出した単語列と、出現確率リスト１７ａとを比較して、Ｓ３０で抽出した単語列に後続すると予測される単語列（後続予測単語列）の中で最も出現確率の高い後続予測単語列を抽出する。更にＳ６０にて、Ｓ４０で算出した話速を用いて、Ｓ５０で抽出した後続予測単語列が入力されるのにかかる時間（以下、後続入力時間ともいう）を算出する。その後Ｓ７０にて、Ｓ５０で抽出した後続予測単語列の出現確率を確信度として、Ｓ５０で抽出した後続予測単語列に付与する。

その後Ｓ８０にて、Ｓ５０で抽出した後続予測単語列に付与された確信度が、予め設定された応答判定値（本実施形態では、例えば「０．１」）以上であるか否かを判断する。即ち、出力タイミング予測を確定させることができるか否かを判断する。ここで、確信度が応答判定値未満である場合には、出力タイミング予測を確定させることができないと判断し（Ｓ８０）、Ｓ１０に移行して上述の処理を繰り返す。一方、確信度が応答判定値以上である場合には、出力タイミング予測を確定させることができると判断し（Ｓ８０）、Ｓ９０に移行する。

ここで、Ｓ５０〜Ｓ８０の処理の具体例を図４を用いて説明する。まず、図４に示すように、「すごく」という単語列が入力された場合には、「すごく」の後続予測単語列として、出現確率リスト１７ａから、「うれしいね」（出現確率は０．０１５）、「おもしろかった」（出現確率は０．０１３）、「欲しいものです」（出現確率は０．００２）などという候補が上がり、この中で、出現確率が最も高いもの、例えば「うれしいね」（出現確率は０．０１５）という後続予測単語列が抽出される（Ｓ５０）。そして、「うれしいね」という後続予測単語列には、出現確率に等しい「０．０１５」という確信度が付与される（Ｓ７０）。しかし、この時点では、付与された確信度が応答判定値（０．１）未満であるため、出力タイミング予測は確定されない（Ｓ８０）。

その後、「おもしろかっ」という単語列が入力された場合には、「すごくおもしろかっ」の後続予測単語列として、出現確率リスト１７ａから、「た＜ポーズ＞」（出現確率は０．２３５）、「たよ」（出現確率は０．１８６）、「たと思う」（出現確率は０．００８）などという候補が上がり、この中で、出現確率が最も高いもの、例えば「た＜ポーズ＞」（出現確率は０．２３５）という後続予測単語列が抽出される（Ｓ５０）。そして、「た＜ポーズ＞」という後続予測単語列には、出現確率に等しい「０．２３５」という確信度が付与される（Ｓ７０）。そして、この時点では、付与された確信度が応答判定値（０．１）以上であるため、出力タイミング予測が確定される（Ｓ８０）。

また図３に戻り、Ｓ９０に移行すると、Ｓ７０で付与された確信度に応じて応答の仕方を変更させる処理を行う。具体的には、Ｓ７０で付与された確信度に比例して応答の音量を大きくするように、音量パラメータを設定する。

そしてＳ１００にて、Ｓ８０で出力タイミング予測が確定された時点から、Ｓ６０で算出された後続入力時間が経過したか否かを判断する。即ち、出力タイミングになったか否かを判断する。ここで、後続入力時間が経過していない場合には（Ｓ１００）、Ｓ１００の処理を繰り返す。一方、後続入力時間が経過した場合には、出力タイミングになったと
判断し（Ｓ１００）、Ｓ１１０にて、応答生成部１２で生成された応答を、Ｓ９０で設定された音量パラメータに対応した音量で音声出力部３に出力させ、音声対話処理を一旦終了する。

このように構成された音声対話装置１によれば、Ｓ５０〜Ｓ８０の処理によって出力タイミングを前もって予測することができるので、Ｓ１１０の処理による応答の出力を開始させるための処理時間（以下、応答処理時間ともいう）を確保できる。つまり、応答の出力を開始する前に出力タイミングになってしまうという事態が発生することを抑制でき、適切なタイミングで応答することができるという優れた効果を奏する。

また、出力タイミングを、利用者の発話に重複して応答が行われるタイミングとすることができる、このため、人間同士が対話を行っている状態に近づけることができ、対話をより円滑に進行させることができる。

具体的には、従来は、図６（ａ）に示すように、例えば「すごくおもしろかったよ＜ポーズ＞」という発話において、終助詞「よ」が発話された時点ＨＴ１や、ポーズの時点ＨＴ２で、文末であるか否かの判定を行い、この判定から応答処理時間ＳＪ１が経過した時点ＯＴ１，ＯＴ２で応答を出力する。このため、発話が終了した直後に応答を出力したり、文末にオーバーラップして応答を出力したりすることが困難である。

一方、音声対話装置１は、図６（ｂ）に示すように、発話が終了する前に、例えば図６(ｂ)では「すごくおもしろかっ」の時点ＨＴ３で、発話が終了する時点を予測する。このため、この予測から応答処理時間ＳＪ１が経過した時点ＯＴ３では、まだ発話が終了していない。これにより、発話が終了した直後に応答を出力したり、文末にオーバーラップして応答を出力したりすることができる。

またＳ５０の処理では、Ｓ３０で抽出した単語列と、出現確率リスト１７ａとを比較して、利用者による発話が終了する少なくとも１文字前までに、後続予測単語列を抽出する。このため、少なくとも１文字以上の発話がされる時間分の応答処理時間を確保することができる。

また、Ｓ３０の処理で抽出される単語列は、入力した音声から逐次的に得ることができるものであるので、Ｓ５０の処理で、出現確率リスト１７ａと逐次比較することにより、音声入力時に常に出力タイミングの予測をすることができる。

またＳ６０の処理では、Ｓ４０で算出した話速を用いて、Ｓ５０で抽出した後続予測単語列が入力されるのにかかる時間（後続入力時間）を算出する。このため、話速に応じて出力タイミングを調整することができる。

またＳ７０の処理では、Ｓ５０で抽出した後続予測単語列の出現確率を確信度として、Ｓ５０で抽出した後続予測単語列に付与し、更にＳ８０の処理で、確信度が応答判定値以上である場合に出力タイミング予測を確定させる。このため、確信度に基づいて信頼性の高い後続予測単語列を抽出することができるので、より適切なタイミングで応答を行うことができる。

またＳ９０の処理では、確信度に応じて応答の仕方を変更させる処理を行う。具体的には、確信度に比例して応答の音量を大きくするように、音量パラメータを設定する。このため、確信度が低い場合には利用者に対する働きかけの効果を小さくすることができ、対話のリズムが崩れるのを抑制することができる。

以上説明した実施形態において、音声入力部２は本発明における入力手段及び入力ステップ、Ｓ５０〜Ｓ８０の処理は本発明における予測手段及び予測ステップ、Ｓ１００の処理は本発明におけるタイミング判断手段及びタイミング判断ステップ、Ｓ１１０の処理は本発明における応答手段及び応答ステップ、後続予測単語列は本発明におけるタイミング予測情報、出現確率リスト１７ａは本発明における予測モデル、後続入力時間は本発明における応答タイミング到達時間、Ｓ５０の処理は本発明における確信度算出手段及び確信度算出ステップ、Ｓ７０の処理は本発明における付加手段及び付加ステップ、Ｓ９０の処理は本発明における応答変更手段及び応答変更ステップである。

以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の技術的範囲に属する限り種々の形態を採ることができる。
例えば、上記実施形態においては、音声対話装置１は、音声出力部３から音声を出力することにより相槌などの応答するものを示したが、これに限られるものではなく、視覚的に応答するものであってもよい。例えば、ＬＥＤを備えてＬＥＤの点灯により応答するものであってもよいし、ディスプレイを備えて頷く動作を表示させるようにしてもよいし、ロボットに頷く動作をさせるようにしてもよい。

また上記実施形態においては、Ｓ３０で単語列を抽出して、この抽出した情報を用いて出力タイミングの予測を行っているが、これに限ったものではなく、単語列とは異なる統語的特徴量、例えば、予め定められたキーワード、形態素列、品詞列、及び音素列の少なくとも１つを抽出するようにしてもよいし、発話長、基本周波数の時系列情報、ピッチの時系列情報、パワーの時系列情報、及び話速の時系列情報などの韻律的特徴量の少なくとも１つを抽出するようにしてもよい。

また上記実施形態のＳ５０では、単語列と出現確率リスト１７ａとを比較することにより出力タイミングの予測を行っているが、これに限ったものではなく、時系列データから作られたモデルとの距離を測る手法（例えば、テンプレートマッチング）や他のＮ−ｇｒａｍモデル（例えば、単語Ｎ−ｇｒａｍ、品詞Ｎ−ｇｒａｍ、音素Ｎ−ｇｒａｍ）による予測でもよい。

また上記実施形態のＳ５０では、後続する単語列を予測しているが、これに限ったものではなく、後続する形態素列、品詞列、及び音素列の少なくとも一つを予測するようにしてもよいし、後続する単語数、形態素数、品詞数、及び音素数の少なくとも一つを予測するようにしてもよい。

または、Ｓ５０で出力タイミングになるまでの時間を直接予測するようにしてもよいし、出力タイミングになるまでのフレーム数を予測するようにしてもよい。この場合には、後続入力時間を算出する処理（Ｓ６０）が不要となる。

また上記実施形態のＳ６０では、話速を用いて、後続する単語列が入力されるのにかかる時間（後続入力時間）を算出しているが、これに限ったものではなく、例えば単語数を予測した場合には、予測された単語数が入力されるのにかかる時間を話速から算出するようにすればよい。また、予測された単語数、音素数、及び単語列等と、予め定めた１単語あたりの時間や単語列を入力するのにかかる時間とから後続入力時間を算出するようにしてもよい。

また上記実施形態のＳ７０では、Ｓ５０で抽出した後続予測単語列の出現確率を確信度としているが、これに替えて或いはこれとともに、モデルとの一致率、音声認識部１１による認識結果の確信度、及び、新しい予測結果の方が古い予測結果よりも予測の信頼性が
高くなるように設定された時定数の少なくとも１つ以上の情報を用いて、Ｓ７０における確信度を算出してもよい。

また上記実施形態のＳ８０では、確信度が応答判定値以上であるか否かによって出力タイミング予測の確定を行っているが、これに限ったものではなく、ある範囲内（一定時間内、一定単語数内など）で出力タイミング予測された複数の候補の中から、この候補に付加された確信度の大小を比較することにより行うようにしてもよいし、上記応答判定値と確信度の大小比較の組み合わせによって行うようにしてもよい。

また上記実施形態のＳ９０では、確信度に比例して応答の音量を大きくするようにしているが、これに限ったものではなく、確信度と後続予測単語列に対応した音量パラメータとを記憶する音量パラメータリスト２１（図５を参照）を予め設け、この音量パラメータリスト２１を参照することにより応答の音量を設定するようにしてもよい。

また上記実施形態のＳ９０では、確信度に応じて応答の仕方を変更させるが、これに限ったものではなく、予測された単語列、形態素列、品詞列、及び音素列等に応じて、応答の仕方を変更するようにしてもよい。

また上記実施形態での応答は音声によるものであるが、応答の形態は頷きや瞬きなどであってもよいし、また、相槌の代表的な機能である「発話内容を理解したことを示す」「聞いていることを示す」「ターンテイキングの明確化」「感情や同意・否定を示す」「発話を促す」といった働きをもつメッセージや動作であってもよい。例えば、ＬＥＤを点灯させる、ディスプレイの明るさを変更する、物体の傾きを変更する、動きのスピードを変更する、動作回数を変更する、色や明るさを変更する、応答音声の声を変更する、応答メッセージを変更する、ＣＧアニメーションを変更するということが考えられる。

音声対話装置１の構成を示すブロック図である。制御部４が実行する処理の概要を示す機能ブロック図である。音声対話処理を示すフローチャートである。出力タイミング予測の方法を説明する図である。音量パラメータリスト２１の内容を示す図である。従来の出力タイミング決定方法と、音声対話装置１の出力タイミング決定方法を説明する図である。

符号の説明

１…音声対話装置、２…音声入力部、３…音声出力部、４…制御部、１１…音声認識部、１２…応答生成部、１３…出力部、１４…出力タイミング予測部、１５…出力タイミング制御部、１６…応答変更部、１７…モデル記憶部、１７ａ…出現確率リスト、２１…音量パラメータリスト

Claims

利用者が発した音声を入力する入力手段と、
前記入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測手段と、
前記予測手段により取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断手段と、
前記タイミング判断手段により前記応答タイミングになったと判断された場合に、前記応答を行う応答手段と、
前記予測手段による前記応答タイミングの予測結果についての確信度を算出する確信度算出手段と、
前記確信度算出手段により算出された確信度を前記応答タイミングの予測結果に付加する付加手段と
を備え、
前記予測手段は、
前記付加手段により付加された確信度に基づいて、前記応答タイミングの予測結果の中から、前記タイミング予測情報とするものを選択する
ことを特徴とする音声対話装置。
前記確信度算出手段は、
前記予測手段での予測結果とモデルとの一致率、Ｎ―ｇｒａｍ確率、前記入力手段に入力した音声についての音声認識の確信度、及び時定数の少なくとも１つの情報を用いて前記確信度を算出する
ことを特徴とする請求項１に記載の音声対話装置。
前記応答タイミングの予測結果に付加された確信度に応じて、前記応答手段による応答の内容を変更する応答変更手段を備える
ことを特徴とする請求項１または請求項２に記載の音声対話装置。
利用者が発した音声を入力する入力ステップと、
前記入力ステップに入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測ステップと、
前記予測ステップにより取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断ステップと、
前記タイミング判断ステップにより前記応答タイミングになったと判断された場合に、前記応答を行う応答ステップと、

前記予測ステップによる前記応答タイミングの予測結果についての確信度を算出する確信度算出ステップと、
前記確信度算出ステップにより算出された確信度を前記応答タイミングの予測結果に付加する付加ステップと
を備え、
前記予測ステップは、
前記付加ステップにより付加された確信度に基づいて、前記応答タイミングの予測結果の中から、前記タイミング予測情報とするものを選択する
ことを特徴とする音声対話方法。
前記確信度算出ステップは、
前記予測ステップでの予測結果とモデルとの一致率、Ｎ―ｇｒａｍ確率、前記入力ステップにより入力した音声についての音声認識の確信度、及び時定数の少なくとも１つの情報を用いて前記確信度を算出する
ことを特徴とする請求項４に記載の音声対話方法。
前記応答タイミングの予測結果に付加された確信度に応じて、前記応答ステップによる応答の内容を変更する応答変更ステップを備える
ことを特徴とする請求項４または請求項５に記載の音声対話方法。