JP4661239B2

JP4661239B2 - 音声対話装置及び音声対話方法

Info

Publication number: JP4661239B2
Application number: JP2005022704A
Authority: JP
Inventors: 景子桂川
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2005-01-31
Filing date: 2005-01-31
Publication date: 2011-03-30
Anticipated expiration: 2025-01-31
Also published as: JP2006208905A

Description

本発明は音声対話装置及び音声対話方法に関する。

従来技術における音声対話装置は、例えば下記特許文献１に記載されているように、音声入力手段を持ち、前記入力手段によって入力された音声の認識を行ない複数の候補を含む認識結果を出力する音声認識手段を持つ。さらに、この音声対話装置は、前記音声認識手段によって認識された単語が発話された可能性である単語信頼度を計算する単語信頼度演算手段によって単語信頼度を計算する。ここまでに求められた理解結果の単語とその信頼度から理解結果を導きだすために、前記単語を意味上の階層構造で分類したカテゴリにまとめ、同一カテゴリに分類された単語信頼度の合計をカテゴリスコアとして、前記カテゴリの中から発話された可能性が高いカテゴリをカテゴリスコアによって判別する。最後に前記発話された可能性が高いと判別された各カテゴリの中で実際に発話された可能性が高い単語を判別して理解結果を生成する。

特開２００４−２５１９９８号公報

従来技術では、理解結果として採用するためのカテゴリ判定は、最終的に理解結果として採用する単語や前記単語の信頼度は考慮せず、単語信頼度の合計のみから一度だけ行われるため、判別されたカテゴリに該当する適当な単語が得られないことがあったり、より高い信頼度をもつ単語があるにもかかわらず低い信頼度の単語が選択されたりするなど、最適な理解結果を生成できないことがあるという問題点があった。

本発明は前記の問題に鑑みてなされたものであり、本発明が解決しようとする課題は、利用者が入力した音声を高効率で理解して音声対話する音声対話装置及び音声対話方法を提供することにある。

入力される音声を音声入力手段が音声信号に変換し、該音声信号を音声認識手段が候補単語に変換し、該候補単語が発話された可能性の高さを示す単語信頼度を単語信頼度演算手段が計算し、該候補単語と該単語信頼度とから該音声入力手段に入力された音声言語を言語理解部が理解する音声対話装置であって、該言語理解部は、ユーザの発話が該音声入力手段に入力された場合に、該音声認識手段が出力する候補単語の全てをカテゴリに分類し、該カテゴリの各々について、該カテゴリに属する候補単語の単語信頼度を用いて、該カテゴリに属する候補単語が発話された可能性の高さを示すカテゴリスコアを計算し、該カテゴリスコアが該カテゴリに対して予め定められた閾値以上であるカテゴリの全部または一部を候補カテゴリとして選択するカテゴリ選択処理と、該候補カテゴリに属する候補単語と該候補単語の単語信頼度とに基づいて該候補単語の中から理解結果候補を探索する理解結果候補探索処理とを行い、該理解結果候補探索処理によって理解結果候補が発見されない場合には、該候補カテゴリの集合から１つ以上のカテゴリを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に前記理解結果候補探索処理を再び行って、理解結果を生成し、応答文生成部は、前記言語理解部が生成した前記理解結果をもとに応答文を作成することを特徴とする音声対話装置を構成する。

本発明の実施によって、利用者が入力した音声を高効率で理解して音声対話する音声対話装置及び音声対話方法を提供することが可能となる。

図１は、本発明に係る音声対話装置の実施の形態例であるナビゲーション装置の構成を示すブロック図である。図において、ナビゲーション装置１００は車両に搭載され、ユーザが音声認識開始を指示するためのスイッチ１２０と、ユーザの発話音声を含めて、入力される音声を音声信号に変換して出力する音声入力手段であるマイクロフォン１３０（図中、マイクと表示）と、メモリ１４０と、地図データやガイダンス音声の音声データを格納するディスク１５１と、ディスク１５１を読み取るディスク読み取り装置１５０と、地図やメニュー画面や制御装置１１０による音声認識結果を表示するモニタ１６０と、音声を出力するスピーカ１７０と、後述するようにマイクロフォン１３０を介して入力された音声データを音声認識する制御装置１１０とを備えている。

メモリ１４０は、ナビゲーション装置１００の操作に使用される語句および文、すなわち操作コマンドおよび地名や施設名、道路名などの固有名詞およびこれらの語句を含む文を受理し、音声認識の際に使用される音声認識辞書・文法１４１と、現時点までの発話の理解結果１４２を格納する。現時点までの発話の理解結果１４２は、対話によって次の発話が入力された際に、現発話の理解を過去の発話理解結果と合わせて理解するために使用される。発話理解の詳細については後述する。

次に、音声認識に使用する音声認識用辞書・文法１４１について説明する。本実施の形態例では、カーナビゲーションシステムの目的地設定をメインタスクとする。そのため、入力文としては、「神奈川県」、「横浜駅」などといった施設に関する単語のみの入力と「神奈川県の横浜駅」、「東海道線の横浜駅」などといった複数のキーワードを含んだ文章による入力の両方を受理するよう、音声認識用辞書・文法１４１を構成する。

制御装置１１０は入力制御部１１１と、音声入力手段であるマイクロフォン１３０が出力する音声信号を候補単語に変換して出力する音声認識手段である音声認識装置１１２と、該候補単語が発話された可能性の高さを示す単語信頼度を計算する単語信頼度演算手段である単語信頼度演算部１１３と、該候補単語と該単語信頼度とから該音声入力手段に入力された音声言語を理解する言語理解部１１４と、応答生成部１１５と、ＧＵＩ（ガイダンス）表示制御部１１６と、音声合成部１１７とを備えている。入力制御部１１１はスイッチ１２０によって指示される音声認識開始合図によって音声認識部１１２に音声認識開始を指示する。

続いて、制御装置１１０の動作について詳しく説明する。ナビゲーション装置１００が起動されると、制御装置１１０はディスク読み取り装置１５０を使ってディスク１５１から音声認識用辞書・文法１４１をメモリ１４０上に読み込む。この状態で、スイッチ１２０が押されると、入力制御部１１１は音声認識部１１２に対して音声認識開始を指示する。音声認識部１１２は入力制御部１１１より認識開始が指示されると、マイクロフォン１３０から入力される音声を取り込む。

本実施の形態例における音声認識開始から応答文出力までの処理フローを図２に示す。ユーザが音声認識開始スイッチ１２０を押して音声認識可能状態になった状態（Ｓ０）で、ユーザがマイクロフォン１３０を使ってナビゲーション１００を操作するための文を発話すると（Ｓ１）、音声認識部１１２では、前記マイクロフォン１３０を介して入力された音声データを、音声認識用辞書・文法１４１に格納された待ち受け文とマッチング処理する。このマッチング処理の際には、入力された音声データと各待ち受け文との音響的な近さである音響尤度が計算され、この音響尤度が一定の値以上のものを認識結果の候補とする（Ｓ２）。

次に、単語信頼度演算部１１３ではこの認識結果候補と各候補の尤度から、認識結果候補に含まれる全ての単語（候補単語と称する）に対して単語信頼度を計算する（Ｓ３）。単語信頼度は直前の一発話において前記単語が発話された可能性をあらわす。単語wの信頼度Conf(w)は以下の式で求められる。

ここで、N-best候補とは、同一認識結果における認識結果候補を、第１位から第Ｎ位までの尤度の高い順に配列した単語列のことであり、Ｌ_ｉはｉ番目のN-best候補の対数尤度であり、αは重み係数である。また、Ｐ_ｉは、単語wがN-best候補の中でｉ番目の候補に含まれている確からしさを表している。前記信頼度計算の詳細については、前記特許文献１にその詳細が記載されている。

次に、言語理解部１１４の処理に移る。言語理解部１１４ではまず、これまでの対話の中で発話された可能性のある全ての単語の単語信頼度を修正する（Ｓ４）。認識結果候補中の他の単語との意味上の上下関係の有無や整合性などによって（Ｓ３）で求めた単語信頼度を上下させた値が単語信頼度の修正結果となる。例えば、第一発話の認識結果候補中に「東京駅」があり、第二発話の認識結果候補中に「東京都」があった場合、「東京都」と「東京駅」の間には上下関係が成り立つため、お互いの単語信頼度を強めあう。また、前記の例で第一発話の認識結果候補中に「京都駅」があった場合は、「東京都」と「京都駅」の間には上下関係が成り立たないため、お互いの単語信頼度を弱めあう。なお、この単語信頼度の修正は行わなくてもよい。

単語信頼度の修正（Ｓ４）が終わると、候補単語の全てをカテゴリに分類し、各カテゴリスコアについて、カテゴリスコアを計算する（Ｓ５）。カテゴリとは、単語を意味上のまとまりで分類したもので、「都道府県カテゴリ」「市区町村カテゴリ」「路線名カテゴリ」「施設名カテゴリ」などがあり、例えば「都道府県カテゴリ」には「東京都」「神奈川県」などの都道府県名が分類され、「施設名カテゴリ」には「横浜駅」「横浜青葉インター」「千葉カントリークラブ」などの目的地設定における最終目的である目的地名が分類される。カテゴリスコアは、同じカテゴリに分類された候補単語の単語信頼度を足し合わせることで求められる。カテゴリスコアは、そのカテゴリに属する候補単語が発話された可能性の高さを示す数となっている。これは、現在の発話で認識候補とされた単語のスコアを理解結果１４２に保存されている過去に発話された内容の単語のスコアとを足し合わせることで過去の発話内容と今回の発話内容を合わせて対話理解することができる。

次に、（Ｓ５）で求めたカテゴリスコアを元に、選択するべきカテゴリ（候補カテゴリと称する）を選択する（Ｓ６、カテゴリ選択処理）。このカテゴリ選択処理において、カテゴリスコアが、そのカテゴリに対して予め定められた閾値以上であるカテゴリの全部または一部を候補カテゴリとして選択する。このカテゴリ選択処理によって、候補カテゴリの集合が１つまたは複数選択される。カテゴリ選択処理の詳細については後述する。

候補カテゴリが決定すると、この候補カテゴリから理解結果候補として採用する単語または単語組み合わせを検索する（Ｓ７、理解結果候補探索処理）。単語は、各カテゴリから１つずつ選択して組み合わせ、意味上の整合性がとれる組み合わせを理解結果候補とする。意味上の整合性がとれる組み合わせとしては、例えば、「東京都」と「東京駅」との組み合わせがあり（東京駅は東京都内にある）、整合性がとれない組み合わせとしては、例えば、「東京都」と「横浜駅」との組み合わせがある（横浜駅は東京都内に無い）。

候補カテゴリが１つである場合には、該候補カテゴリに属する候補単語のすべてについて意味上の整合性がとれているので、最も高い単語信頼度を持つ候補単語を理解結果候補とすればよい。

もし、ここで理解結果候補が発見されなければ（Ｓ８のＮｏの分岐として）カテゴリ選択（Ｓ６）以下のステップを再び行う。この場合に、候補カテゴリの個数を増やすことによって、理解結果候補を決定することができる場合もありうるが、その場合に、この理解結果候補が発話された可能性は低いので、本発明においては、候補カテゴリの個数を減らして、理解結果候補が決定されるようにする。すなわち、候補カテゴリの集合から１つ以上のカテゴリを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行う。この過程において、候補カテゴリの個数を削減する仕方は２つ以上あるので、複数の集合が新しい候補カテゴリの集合として選択される場合がある。そのような場合には、新しい候補カテゴリの集合の各々につて、理解結果候補探索処理（Ｓ７）を行う。

上記の一連の処理によって、理解結果候補は必ず発見される（候補カテゴリが１つになっ場合を考えれば明らか）ので、理解結果候補の中から、例えば、単語信頼度の合計（理解結果候補が単語の場合はその単語信頼度、単語の組み合わせの場合はその単語の単語信頼度の合計）が最も大きいものを最終的な理解結果候補として選択する（Ｓ９）。

次に、この最終的な理解結果候補である単語または単語の組み合わせが理解結果として適当であるかどうかを調べ（Ｓ１０）、適当でない場合はカテゴリ選択（Ｓ６）からやり直す。

理解結果として適当な単語または単語の組み合わせが決定すると、その理解結果は応答文生成部１１５に渡される。応答文生成部１１５では言語理解部１１４が生成した理解結果をもとに応答文を生成する（Ｓ１１）。応答文生成では、目的地設定のために必要な情報が不足していれば不足する情報の入力を即す応答文を生成し、理解結果に選択された単語のスコアが低く、確認が必要と判断される場合には、理解内容の確認のための応答文を生成する。また、目的地が確定した場合には、目的地までの地図を検索し、表示する旨を伝える応答文を生成する。

この応答文は音声合成部１１７によって音声として出力される（Ｓ１２）。

この時、ＧＵＩ表示制御部１１６は応答内容をモニタ１６０上に表示するとともに、地図表示が必要であればディスク読み取り装置１５０を使ってディスク１５１から地図データを読み出し、モニタ１６０に地図を表示して、一連の入力処理を終える（Ｓ１３）。

前記の構成によって、本発明においては、（候補カテゴリが１つである場合を考えれば明らかなように）理解結果候補を必ず見いだすことが可能となるので、本発明の実施によって、利用者が入力した音声を高効率で理解して音声対話する音声対話装置及び音声対話方法を提供することが可能となる。

次に、カテゴリ選択について詳しく述べるが、まずは、従来例におけるカテゴリ選択および理解結果選択の方法を、図３に示したサンプルデータおよび図４に示したフローチャートを用いて説明する。

図３の（ａ）は、音声認識部１１２が出力する認識結果候補と各候補の尤度を示している。音声入力開始（Ｓ０）から単語信頼度修正（Ｓ４）までは先に示した本発明の実施の形態例と同じ動作をする。つまり、ユーザが音声認識開始スイッチ１２０を押して音声認識可能状態になった状態（Ｓ０）で、マイクロフォン１３０を使ってナビゲーションを操作するための文を発話すると（Ｓ１）、音声認識部１１２が入力音声の認識処理をして、認識結果の候補と尤度を出力する（Ｓ２）。次に、単語信頼度演算部１１３ではこの認識結果候補と各候補の尤度から、単語信頼度を計算する（Ｓ３）。図３の（ｂ）は単語信頼度演算部１１３が単語信頼度を計算した結果を示している。認識結果候補３ｂに含まれる全ての単語を認識結果候補単語３ｄとして単語信頼度３ｅを計算する。

次に、この単語信頼度演算結果（図３の（ｂ)）は言語理解部１１４に移される。言語理解部１１４では、まず、先に説明したように単語信頼度演算結果の単語信頼度修正を行なう（Ｓ４）。これによって３ｅの値が上下させられる。今回は単語信頼度修正による単語信頼度値の変化がなかったとして次に進む。言語理解部１１４では単語信頼度修正の後、認識結果候補単語３ｄからカテゴリスコアを計算する（Ｓ５）。

カテゴリとは、県カテゴリ、路線名カテゴリ、施設名カテゴリなど、意味上の分類で同列に扱う単語の集合である。図３の例では、３ｆに示したように、「神奈川県」および「香川県」が県カテゴリ、「徳島線」が路線名カテゴリ、「横浜駅」および「屋島駅」が施設名カテゴリとなる。このように認識結果候補単語３ｄをカテゴリごとに分類し、同じカテゴリに分類された認識結果候補単語の単語信頼度３ｅを足し合わせたものがカテゴリスコアとなる。

図３の（ｂ）からカテゴリスコアを計算した結果を図３の（ｃ）に示した。例えば「神奈川県（単語信頼度０．８０）」および「香川県（単語信頼度０．２０）」からなる「県カテゴリ」のカテゴリスコア３ｈは１．００となる。

次に、このカテゴリスコアから理解結果として採用するカテゴリを選択する（Ｓ６）。各カテゴリにはカテゴリ選択のために、予めカテゴリ閾値３ｉが設定されており、この閾値を超えたカテゴリが理解結果に採用するカテゴリとして選択される。カテゴリ閾値３ｉは、データ学習によって予め設定されている。本例の場合、以下のように、カテゴリスコアがカテゴリ閾値と比較され、カテゴリ閾値よりも大きいカテゴリスコアを持つカテゴリが選択される。

県カテゴリのカテゴリスコア１．０＞県カテゴリ閾値０．５、したがって、県カテゴリを選択、
路線名カテゴリのカテゴリスコア０．２＜路線名カテゴリ閾値０．４、したがって、路線名カテゴリを選択せず、
施設名カテゴリのカテゴリスコア０．５＞施設名カテゴリ閾値０．４、したがって、施設名カテゴリを選択、
これによって、理解結果として採用するべきカテゴリは県カテゴリと施設名カテゴリとなる。

次に、言語理解部１１４では、認識結果候補単語３ｄから、選択されたカテゴリにあてはまる単語の組み合わせを探す（Ｓ７）。この際、選択されたカテゴリにあてはまる単語の組み合わせは、意味上の整合性がとれるものでなければならない。つまり、県カテゴリと施設名カテゴリに採用する単語の組み合わせでは、施設名カテゴリより採用する単語は県カテゴリで採用された県内に存在する施設の名称でなければならない。この条件に沿ってカテゴリにあてはまる単語の組み合わせを探した結果である理解結果候補が図３の（ｄ）となる。その際、理解結果候補に採用された単語の単語信頼度３ｅを足し合わせたものが理解結果候補のスコア３ｌとなる。

最後に、理解結果候補のスコア３ｌが最も高くなる理解結果候補を最適な組み合わせの理解結果として選択し（Ｓ８）、この結果を元に応答文を生成（Ｓ９）、出力（Ｓ１０）して言語理解処理を終える。

ここまでが従来例における言語理解部の処理であるが、これでは、図４のＳ７において、選択されたカテゴリにあてはまる単語の組み合わせが見つからなかった場合には、理解結果を導き出すことができない。図５に、従来例では適当な単語の組み合わせが見つからず、従来例では理解結果が得られない音声認識結果の例を示す。

図５の（ａ）は音声認識部１１２が出力した認識結果候補と尤度である。この認識結果を元に前述の単語信頼度計算によって認識結果中に含まれる各単語の単語信頼度を計算したものが図５の（ｂ）である。このように単語信頼度計算した単語をカテゴリごとに分類してカテゴリスコアを求めたものが図５の（ｃ）となる。ここで、カテゴリスコアがカテゴリ閾値以上であるカテゴリは県カテゴリと路線名カテゴリであるため、候補カテゴリとして選択されるカテゴリは県カテゴリと路線名カテゴリとなる。しかし、県カテゴリの単語は「神奈川県」のみ、路線名カテゴリの単語は「飯山線」のみであり、「飯山線」は「神奈川県」内には存在しない路線名であるため、県カテゴリ＋路線名カテゴリの組み合わせで整合性のとれる単語の組み合わせはない。そのため、従来例の方法では理解結果を得ることができなかった。

そこで、本発明では理解結果候補として選択する単語の単語信頼度と各単語間の関係とを利用しながらカテゴリ選択を行ない、さらに、理解結果を得ることができない場合に、候補カテゴリの個数を減らして理解結果の探索を再び行う。

（実施の形態例１）
図２に示した実施の形態例では、カテゴリ選択の後、採用する単語の組み合わせを検討し、適当な組み合わせが見つからなければカテゴリ選択を再度やり直す（Ｓ８→Ｓ６）。本実施の形態例では、選択されたＮ個の候補カテゴリにあてはまる（すなわち、意味上の整合性がとれる）適当な組み合わせの単語が存在しない場合、Ｎ未満の候補カテゴリを選択する。Ｎ個の候補カテゴリからＮ−１個の候補カテゴリを選択する方法としては、まず、Ｎ個の候補カテゴリの中で最もカテゴリスコアが低いカテゴリを除いたものを候補カテゴリ選択の結果とする方法がある。

具体的には、例えば、理解結果候補探索処理において、候補カテゴリが１つであれば該カテゴリに属する単語の中から最も高い単語信頼度を持つ単語を理解結果候補とし、候補カテゴリが２つ以上であれば該候補カテゴリの各々から１つずつの単語を取り出して組み合わせた単語組み合わせの中で、意味上の整合性がとれ、かつ、単語信頼度の合計が最も高い単語組み合わせを理解結果候補とし、理解結果候補が発見されない場合には、該候補カテゴリからカテゴリスコアが最も低いカテゴリ１つを除いたものを新しい候補カテゴリとして選択した後に前記理解結果候補探索処理を再び行う。

図５の例の場合、選択されたＮ個の候補カテゴリは県カテゴリと路線名カテゴリであり、そのうち最もカテゴリスコアが低いカテゴリは路線名カテゴリである。そのため、候補カテゴリとして選択するカテゴリから路線名カテゴリを除き、県カテゴリのみが候補カテゴリとなる。その結果、県カテゴリにあてはまる単語は「神奈川県」のみとなるため、理解結果候補は「神奈川県」となる。

以上のようにして、理解結果として適当なカテゴリの組み合わせを見つけるために採用するカテゴリの数を減らす際、カテゴリスコアが低いカテゴリから削除していくことで、よりスコアが高いカテゴリのみが理解結果として残ることとなるため、理解結果の精度を向上させることができる。

（実施の形態例２）
選択されたＮ個のカテゴリにあてはまる適当な組み合わせの単語が存在しない場合に、Ｎ個のカテゴリからＮ未満のカテゴリを選択するその他の方法としては、選択されたＮ個のカテゴリから１つをはずしたＮ−１個のカテゴリの組み合わせ（候補カテゴリの集合）Ｎ個の全てに関して、理解結果候補として適当な単語を調べ、理解結果のスコアを求め、理解結果のスコアが最も高くなるものを選択する方法もある。

具体的には、例えば、理解結果候補探索処理において、候補カテゴリが１つであれば該カテゴリに属する単語の中から最も高い単語信頼度を持つ単語を理解結果候補とし、前記候補カテゴリが２つ以上であれば該候補カテゴリの各々から１つずつの単語を取り出して組み合わせた単語組み合わせの中で、意味上の整合性がとれ、かつ、単語信頼度の合計が最も高い単語組み合わせを理解結果候補とし、理解結果候補が発見されない場合には、該候補カテゴリの１つを候補カテゴリの範囲から排除してなる複数の候補カテゴリの集合を新しい候補カテゴリの集合として選択した後に前記理解結果候補探索処理を再び行う。

図５の例では、県カテゴリと施設名カテゴリのうちどちらか１つをはずしたカテゴリ、つまり県カテゴリのみまたは施設名カテゴリのみで理解結果候補としてあてはまる単語とそのスコア（この場合には単語信頼度）を求める。すると、図５の（ｄ）に示したように、理解結果「神奈川県」が理解結果スコア０．５５であるのに対して理解結果「桑名川駅」が理解結果スコア０．４５と理解結果「神奈川県」のほうが高スコアであるため、理解結果カテゴリは県カテゴリ、理解結果は「神奈川県」となる。

以上のようにして、理解結果として適当なカテゴリの組み合わせを見つけるために採用するカテゴリの数を減らす際、採用するカテゴリの数を１つ減らした全ての場合におけるカテゴリの組み合わせのうち、理解結果が最も高いスコアとなる組み合わせを理解結果として採用することができるため、理解結果の精度を向上させることができる。

（実施の形態例３）
次に、選択されたカテゴリにあてはまる単語の組み合わせが見つかりはしたが、これが最適な結果ではない場合について説明する。

具体的には、例えば、理解結果候補が複数の単語からなり、該単語の単語信頼度の合計（下記のスコア）が予め定められた閾値を超えない場合には、該理解結果候補を理解結果としない。

上記の例を図６に示した。音声認識部１１２が図６の（ａ）のように認識結果を出力した場合、単語信頼度演算部１１３では認識結果に含まれる全ての単語に関して単語信頼度を計算する。単語信頼度は図６の（ｂ）のようになる。この結果からカテゴリスコアを求めると、図６の（ｃ）のように、県カテゴリが０．６０、施設名カテゴリが０．４５となる。それぞれのカテゴリ閾値は０．５０、０．４０であるため、県カテゴリと施設名カテゴリが候補カテゴリとして採用すべきカテゴリと判定される。

次に、認識結果候補単語６ｄの中から県カテゴリと施設名カテゴリの組み合わせにあてはまる単語の中で整合性のとれるものを探すと、「長野県」と「桑名川駅」という組み合わせが得られる。しかし、これらの組み合わせは他の高い単語信頼度を持つ「神奈川県」などの単語に比べて各単語ともに単語スコア（単語信頼度）が０．０５と低く、理解結果としてのスコア（単語信頼度の合計）も０．１０と低い。これは、理解結果として選択する単語のスコアや理解結果のスコアよりもカテゴリを優先させているために生じる問題である。この場合、このような方法であってもなんらかの理解結果を出力することができるが、その正解精度は低い。

そこで、本実施の形態例では理解結果として選択する理解結果候補のスコア（例えば、単語信頼度の合計）に閾値を設ける。つまり、理解結果候補として選択された単語のスコアが予め定められた閾値（例えば０．２）以下ならば、その理解結果候補を理解結果としない。すなわち、理解結果候補が複数の単語からなり、該単語の単語信頼度の合計が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しない。そして、他の候補を探すために、候補カテゴリとして採用するカテゴリの数を１つ減らす。本実施の形態例では、施設名カテゴリを省いて県カテゴリのみで理解結果候補を求めた場合の結果「神奈川県」、理解結果スコア０．５５と、県カテゴリを省いて施設名カテゴリのみで理解結果候補を求めた場合の結果「掛川駅」、理解結果スコア０．４０は共に採用されている単語のスコアが閾値０．２を超えているため、これらを比較してスコアの高い「神奈川県」を理解結果とする。

他にも、理解結果候補のスコアに対してもカテゴリ数に応じて閾値を設定し、各閾値を越えた理解結果候補のみを理解結果として採用することも可能である。また、閾値によって理解結果候補の採用、不採用を決定した結果、最終的に閾値を超えるスコアをもつ単語の理解結果や閾値を超えるスコアをもつ理解結果がみつからなかった場合には、最もスコアの大きいカテゴリ１つとそこにあてはまる単語を理解結果として、確認のための追加情報を求める応答文を生成する。

理解結果候補が１つの単語からなる場合にも、その単語の単語信頼度が予め定められた閾値以下ならば、その理解結果候補を理解結果としないようにしてもよい。

以上のようにして、閾値を超える単語信頼度をもつ単語のみを理解結果として採用することができるため、極端に単語信頼度が低い単語を理解結果として採用したために起こる理解間違いを防ぐことができる。

また、カテゴリスコアが高くても理解結果のスコアが閾値以下となるものは採用されないため、カテゴリ数が少なくても理解結果のスコアが高い結果を選択することができる。

（実施の形態例４）
理解結果の生成精度を上げるためのその他の方法として、理解結果に選択する単語間の関係を考慮することもあげられる。具体的には、理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語の単語信頼度の合計に、該理解結果候補中のカテゴリの組み合わせが１つの発話中で発話される確率が高いほど大きくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果とする方法がある。

そのような方法の例を図７に示す。音声認識部１１２が図７の（ａ）のように認識結果を出力した場合、単語信頼度演算部１１３では、認識結果に含まれる全ての単語に関して単語信頼度を計算する。単語信頼度は図７の（ｂ）のようになる。この結果からカテゴリのスコアを求めると、図７の（ｃ）のように、県カテゴリが０．６０、路線名カテゴリが０．４０、施設名カテゴリが０．４０となる。それぞれのカテゴリ閾値は０．５０、０．４０、０．４０であるため、県カテゴリ、路線名カテゴリ、施設名カテゴリが候補カテゴリとして採用すべきカテゴリと判断される。

次に、県カテゴリ、路線名カテゴリと施設名カテゴリの組み合わせにあてはまる単語の中で整合性のとれるものを探すが、この組み合わせで整合性のとれる単語の組み合わせは存在しない。

そのため、理解結果として選択するカテゴリを１つ減らして県カテゴリ＋路線名カテゴリ、県カテゴリ＋路線名カテゴリ、路線名カテゴリ＋施設名カテゴリの組み合わせでそれぞれ整合性のとれる組み合わせを探し、県カテゴリ＋路線名カテゴリにおいて「東京都＋東横線」、県カテゴリ＋施設名カテゴリにおいて「東京都＋品川駅」の組み合わせが得られる。ここで、理解結果のスコア（単語信頼度の合計）を比較するがどちらも０．９０と同じスコアである。

ここで、カテゴリ同士が１つの発話に存在する確率が高いほど大きくなる数（重み）の例を示した表である図８を利用する。図８は、カテゴリ１（８ａ）に示したカテゴリとカテゴリ２（８ｂ）に示したカテゴリの関係を重み（８ｃ）によって表している。このカテゴリの関係とは、２つのカテゴリが１つの発話に存在する確率の高さであり、それは重みで表される。この重みは、コーパスデータやユーザの発話履歴などからデータ学習によって生成される。この重みは、上記の、理解結果候補中のカテゴリの組み合わせが１つの発話中で発話される確率が高いほど大きくなる数に該当する。例えば、今回の例では県カテゴリ＋路線名カテゴリの組み合わせの重みは０．８であるのに対して、県名カテゴリ＋施設名カテゴリの組み合わせの重みは１．０なので、県カテゴリ＋路線名カテゴリは県名カテゴリ＋施設名カテゴリよりも関係が弱い。この値を利用して、「東京都＋東横線」のスコア０．９０には県カテゴリ＋路線カテゴリの重み０．８を乗じて０．７２とし、「東京都＋品川駅」のスコア０．９０には県カテゴリ＋施設カテゴリの重み１．０を乗じて０．９０とする。この値を比較した結果、県カテゴリ＋施設カテゴリである「東京都＋品川駅」が高スコアであるので理解結果として選択される。

以上のようにして、理解結果に採用される単語の組み合わせを考慮して理解結果のスコアを決定し、そのスコアをもとに最終理解結果を選択するので、発話される可能性が高い単語の組み合わせでの理解結果を採用されやすくすることができる。

（実施の形態例５）
また、図７の例のような場合、それぞれの単語がどの認識結果に含まれていたかという情報を利用することもできる。具体的には、理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、同一認識結果の同一候補内において認識された単語の組み合わせが該理解結果候補内にある場合に、１よりも大きい数を該単語の単語信頼度に乗じ、該乗算後の単語信頼度の合計を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用する。つまり、同一の認識結果に含まれていた単語同士の組み合わせはスコアを高くすることで、認識部１１２の計算した単語同士の組み合わせ確率を利用することができる。

今回採用している単語信頼度計算は、［数１］の式を用いて単語信頼度を計算しているが、この式の中で、途中計算結果としてでてくるＰ_ｉは認識結果の各候補文の信頼度である。本実施の形態例ではこの、文としての信頼度も利用する。ちなみに、図７の認識結果において単語信頼度の計算途中で求められる文信頼度は図９の（ａ）中の９ｄのようになる。

次に単語信頼度を求めるために、各単語はその単語が含まれていた文の信頼度を足し合わせるが（［数１］）、ここで、各単語がどの認識結果に含まれていたのかを調べる。その結果が図９の（ｂ）である。図９の（ｂ）では第一発話の第２認識候補を「１−２」と書き表している。例えば、図９の（ａ）がユーザの第一発話に対する認識結果であるとすると、単語「東京都」は第一発話の認識結果中の第２、第３、第４候補の中に現れている。通常は、これらの文信頼度を足し合わせたものを単語信頼度としてから理解結果を求めて理解結果のスコアを計算するが、本実施の形態例では、ここから直接理解結果のスコアを計算する。理解結果に採用する単語の組み合わせと文信頼度の信頼度によって単語信頼度に重み付けをする。この重み付け変数は、予めデータ学習によって最適値を求めておく。本実施の形態例では１．２を用いる。この重み付け変数は、上記の、１よりも大きい数に該当する。これを使うと、理解結果「東京都＋品川駅」に対する通常の理解結果スコアが、次のように求められるのに対して、
東京都の単語信頼度＋品川駅の単語信頼度
＝（０．３０＋０．２０＋０．１０）＋０．３０＝０．９０
（ここで、（０．３０＋０．２０＋０．１０）は東京都の単語信頼度であり、０．３０は品川駅の単語信頼度である）
と求められるのに対して、本実施の形態例は下記のようになる。

東京都の単語信頼度＋品川駅の単語信頼度
＝（０．３０×１．２＋０．２０＋０．１０）＋０．３０×１．２
＝１．０２
（ここで、２つの０．３０×１．２は共に第１発話の第２認識結果中で認識された単語分の単語信頼度の値である）
これらは、理解結果として採用された組み合わせで同じ認識結果中で認識された単語であるため、重みをつけている。すなわち、同一認識結果の同一候補内において認識された単語である「東京都」と「品川駅」とには、値は相異なるが、それぞれ、１よりも大きい数が（重みとして）乗じられている。これに対して理解結果「東京都＋東横線」は同一認識結果中での認識がないため、前記の例と同様に、理解結果スコアは０．９０となり、同一認識結果中での認識がなかった「東京都＋東横線」よりも同一認識結果中での認識結果が得られた「東京都＋品川駅」のスコアのほうが高くなるため、これを理解結果として採用する。

以上のようにして、音声認識エンジンが計算した複数単語同時認識の可能性を利用して同一認識結果の同一候補内において認識された単語同士の組み合わせが理解結果として採用されやすくなるため、同時に発話された可能性が高い単語同士の組み合わせでの理解結果を採用されやすくすることができる。

（実施の形態例６）
また、同様の方法で、音声認識部１１２による音声波形上の単語の認識箇所に重なりがあるもののスコアを下げることで認識箇所に重なりがある理解結果のスコアを下げることができる。具体的には、理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、同一認識結果内での音声波形中の単語認識区間に重なりがある単語が該理解結果候補内にある場合に、重なりが大きいほど１より小さくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用する。

図１０は、図７の音声認識結果を出力したときの、音声波形と単語の認識位置の関係を時系列で示したものである。本実施の形態例において音声入力検出開始時刻はＴ０であり、音声入力検出終了位置はＴ５である。また、第１認識結果候補２０１、第２認識結果候補２０３、第３認識結果候補２０３、第４認識結果候補２０４における最初の単語の認識開始位置はＴ１であり、第５認識結果候補２０５における最初の単語の認識開始位置はＴ２である。図７の（ｄ）では「東京都＋東横線」と「東京都＋品川駅」という理解結果がともにスコア０．９０で出力されている。ここで、「東横線」と「東京都」の認識開始・終了時刻を調べる。「東横線」は第１認識結果候補２０１の中に現れた単語であり、「東京都」は第２認識結果候補２０２、第３認識結果候補２０３、第４認識結果候補２０４内に出現しているため、第１認識結果候補２０１と第２認識結果候補２０２、第３認識結果候補２０３、第４認識結果候補２０４との関係を調べる。すると、「東京都」は第２認識結果候補２０２、第３認識結果候補２０３、第４認識結果候補２０４それぞれで、時刻Ｔ１から時刻Ｔ３の間で認識されており、「東横線」は第１認識結果候補２０１において時刻Ｔ１から時刻Ｔ５の間で認識されている。そのため、時刻Ｔ１から時刻Ｔ３間において「東京都」と「東横線」の認識箇所に重なりが生じている。このため、しかし、実際の発話において異なる二つの単語を同時に発話ということはありえない為、認識箇所に重なりがあるものは、認識箇所の重なりの大小に応じてスコアを下げる。本実施の形態例では、認識時間が短い単語の認識箇所において重なり部分が占める割合をまず、求める。ここでは、Ｔ１からＴ３が１０００ミリ秒であった。そのため、「東京都」と「東横線」において認識時間が短い「東京都」を認識したＴ１からＴ２、１０００ミリ秒に占める重なり箇所の割合は１００％である。そこで、重なり箇所が占める割合に応じて理解結果スコアから割り引く。割り引率は重なり箇所の割合に３０％をかけたものとする。割引率の適用変数（ここでは３０％）は予めデータ学習によって求めておく。この割引率を１から引いて得る数値が、上記の、重なりが大きいほど１より小さくなる数に該当する。よって、今回は１．０×０．３＝０．３となり、理解結果スコア（単語信頼度の合計）である０．９は３０％を割り引いて０．６３となる。これに対して「東京都＋品川駅」は認識箇所に重なり箇所がなく、理解結果スコアは０．９０のままなので理解結果「東京都＋品川駅」のほうが理解結果「東京都＋東横線」スコアが高くなるため、これを最終的な理解結果として選択する。

以上のようにして、音声波形中の認識箇所に重なりがある単語同士の組み合わせには低い出現が設定されるため、音声波形中の認識箇所に重なりがある単語同士の組み合わせは理解結果として採用されにくくすることができる。

（実施の形態例７）
ここまでの方法を使えば、カテゴリ数がいくつでも対応できる。カテゴリ選択において多数のカテゴリが選択された例を図１１に示した。

ここでは、第一発話でユーザは「品川駅」と発話したが、認識結果が図１１の（ａ）のようになり、理解結果が「仙台駅」となり、言語理解に失敗した。そのため、ユーザが第二発話で「東京都の品川駅」と発話し、認識結果が図１１の（ｂ）のようになった場合の理解結果の導出例を示している。

第二発話の後、単語信頼度計算は発話ごとに行ったあと、同じ単語の単語信頼度は足し合わせる。第一発話と第二発話の内容を足し合わせた結果が図１１の（ｃ）である。ここから各カテゴリのスコアを計算すると図１１の（ｄ）となるが、県カテゴリ、市区町村カテゴリ、路線名カテゴリ、道路名カテゴリ、施設名カテゴリの５つのカテゴリがそれぞれのカテゴリ閾値を越えている。そのため、これにあてはまる単語の組み合わせを探すが、目的地設定において路線名と道路名が同時に指定されることはないため、(1)「県カテゴリ＋市区町村カテゴリ＋路線名カテゴリ＋施設名カテゴリ」または(2)「県カテゴリ＋市区町村カテゴリ＋道路名カテゴリ＋施設名カテゴリ」で探すことになる。しかし、どちらの組み合わせにおいても全て整合性のとれる組あわせの単語は図１１の（ｃ）からは見つからないため、カテゴリ数をさらに１つ減らす。

今回は、全てのカテゴリの組み合わせを考慮する方法をとることにする。すると、考えられる組み合わせは、(1)、(2)の組み合わせからどれか１つのカテゴリを省いた、以下の組み合わせになる。

(3)「県カテゴリ＋市区町村カテゴリ＋路線名カテゴリ」、(4)「県カテゴリ＋市区町村カテゴリ＋施設名カテゴリ」、(5)「県カテゴリ＋路線名カテゴリ＋施設名カテゴリ」、(6)「県カテゴリ＋市区町村カテゴリ＋道路名カテゴリ」、(7)「県カテゴリ＋道路名カテゴリ＋施設名カテゴリ」。

しかし、この組み合わせでも、整合性のとれる単語の組み合わせが得られないため、さらにカテゴリ数を１つ減らす。カテゴリの組み合わせは(8)「県カテゴリ＋市区町村カテゴリ」、(9)「県カテゴリ＋路線名カテゴリ」、(10)「県カテゴリ＋道路名カテゴリ」、(11)「県カテゴリ＋施設名カテゴリ」、(12)「市区町村カテゴリ＋路線名カテゴリ」、(13)「市区町村カテゴリ＋道路名カテゴリ」、(14)「市区町村カテゴリ＋施設名カテゴリ」、(15)「路線名カテゴリ＋施設名カテゴリ」、(16)「道路名＋施設名カテゴリ」となる。これらのうち、あてはまる単語が見つかったのが(8)、(9)、(10)、(11)、(15)である。これにあてはまった単語の組み合わせを図１１の続きである図１２の（ｅ）に示した。

さらに、これらのスコアを求めると１１ｒのようになり、理解結果「東京都＋品川駅」のスコアが最も高くなるため、これを理解結果とする。

また、Ｎ個のカテゴリにあてはまる理解結果とＮ−１個のカテゴリにあてはまる理解結果とを比べて最もスコアが高いものを理解結果として選択することも可能である。ただし、Ｎ個のカテゴリで選択される単語数はＮ個、Ｎ−１個のカテゴリで選択される単語はＮ−１個であるため、理解結果のスコアを正規化する必要がある。この際、正規化によってカテゴリ数の多い理解結果に重み付けをする。例えば、理解結果として選択するカテゴリが１個の場合は選択された単語のスコアをそのまま用いるのに対して、カテゴリが２個の場合は１．６、３個の場合は２．２で割ったものを比較に用いる。この、カテゴリ個数ごとの正規化のための変数は予めデータ学習によって最適値を求めておく。理解結果のカテゴリ数の最大値をＭとすると、このように、Ｍ個のカテゴリにあてはまる理解結果の中で最もスコアの高い結果とＭ−１個のカテゴリにあてはまる理解結果のうち最もスコアの高い理解結果を比較して、理解結果のスコアが高いものをＭ−２個のカテゴリにあてはまる理解結果の中で最もスコアの高い理解結果と比較する。このように１〜Ｍ個までのカテゴリ数における最適な結果を得ることができる。

図１１の例において、カテゴリ数１の場合の理解結果も調べた場合を例に挙げる。カテゴリ数１の場合の理解結果は図１１の（ｅ）にカテゴリ数２の場合の理解結果とともに示した。ここで、カテゴリ数２の理解結果の中で最もスコアが高い理解結果とカテゴリ数１の理解結果の中でも最もスコアが高い理解結果とを比較する。
１．「東京都＋品川駅」・・・スコア０．９０
２．「東京都」・・・スコア０．５０
理解結果Ｎに含まれる全ての単語が理解結果Ｍに含まれる場合、それぞれのスコアは必ず、理解結果Ｎのスコア＜理解結果Ｍのスコアとなる。

この２つの理解結果を比較するために、理解結果Ｍのスコアをカテゴリ数２の場合の正規化変数１．６で割る。正規化変数はコーパスを用いたデータ学習によって予め求めておく。正規化後のスコアは１１ｅに示した。１．、２．の理解結果の関しては以下の通り。
１．「東京都＋品川駅」・・・正規化済スコア０．５６
２．「東京都」・・・正規化済スコア０．５０
よって、理解結果「東京都＋品川駅」のほうが正規化済のスコアが高いため、この理解結果は信頼できると判断し、これを理解結果として採用する。

ここまでにあげた理解結果の選択手段はそれぞれを組み合わせて使用することもでき、組み合わせて利用した場合もそれぞれの手段が個別に理解率向上に寄与する。

本発明実施の形態例の機能ブロックである。本発明実施の形態例制御装置の基本動作フローである。従来例で理解結果を導き出すことができる認識結果と理解結果のサンプルである。従来例における制御装置の基本動作フローである。カテゴリ選択で選択されたカテゴリでの、従来例では整合性のとれる単語の組み合わせがみつからない認識結果と理解結果のサンプルである。カテゴリ選択で選択されたカテゴリでの単語の組み合わせでは理解結果のスコアが著しく低くなる認識結果と理解結果のサンプルである。複数の理解結果の間でスコアに差がない認識結果と理解結果のサンプルである。カテゴリ同士の組み合わせによる重みである。図７の例に示した認識結果における認識結果候補単語が含まれる文とその信頼度である。図７に示した認識結果を認識した音声波形上で各単語が認識された位置を示す図である。多数のカテゴリが出現した場合の認識結果と理解結果のサンプルである。図１１の続きである。

符号の説明

１００：ナビゲーション装置、１１０：制御装置、１１１：入力制御部、１１２：音声認識部、１１３：単語信頼度演算部、１１４：言語理解部、１１５：応答生成部、１１６：ＧＵＩ表示制御部、１１７：音声合成部、１２０：スイッチ、１３０：マイクロフォン、１４０：メモリ、１４１：音声認識用辞書・文法、１４２：理解結果、１５０：ディスク読み取り装置、１５１：ディスク、１６０：モニタ、１７０：スピーカ、２０１：第１認識結果候補を出力した際の単語認識位置、２０２：第２認識結果候補を出力した際の単語認識位置、２０３：第３認識結果候補を出力した際の単語認識位置、２０４：第４認識結果候補を出力した際の単語認識位置、２０５：第５認識結果候補を出力した際の単語認識位置。

Claims

入力される音声を音声信号に変換して出力する音声入力手段と、該音声信号を候補単語に変換して出力する音声認識手段と、該候補単語が発話された可能性の高さを示す単語信頼度を求める単語信頼度演算手段と、該候補単語と該単語信頼度とから該音声入力手段に入力された音声言語を理解する言語理解部とを有する音声対話装置であって、
前記言語理解部は、ユーザの発話が前記音声入力手段に入力された場合に、前記音声認識手段が出力する候補単語の全てをカテゴリに分類し、該カテゴリの各々について、該カテゴリに属する候補単語の単語信頼度を用いて該カテゴリに属する候補単語が発話された可能性の高さを示すカテゴリスコアを求め、該カテゴリスコアが該カテゴリに対して予め定められた閾値以上であるカテゴリの全部または一部を候補カテゴリとして選択するカテゴリ選択処理と、該候補カテゴリに属する候補単語の中から意味上の整合性がとれる単語または単語の組み合わせである理解結果候補を探索する理解結果候補探索処理とを行い、該理解結果候補探索処理によって理解結果候補が発見されない場合には、該候補カテゴリの集合から１つ以上のカテゴリを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に該理解結果候補探索処理を再び行って、理解結果を生成し、
応答文生成部は、前記言語理解部が生成した前記理解結果をもとに応答文を作成する
ことを特徴とする音声対話装置。
前記理解結果候補探索処理において理解結果候補が発見されない場合には、前記候補カテゴリの集合からカテゴリスコアが最も低い候補カテゴリ１つを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に前記理解結果候補探索処理を再び行うことを特徴とする請求項１記載の音声対話装置。
前記理解結果候補探索処理において理解結果候補が発見されない場合には、前記候補カテゴリの集合から１つの候補カテゴリを除いてなる複数の集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に、該候補カテゴリの集合の各々について前記理解結果候補探索処理を再び行うことを特徴とする請求項１記載の音声対話装置。
前記理解結果候補が１つの単語からなり、該単語の単語信頼度が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しないことを特徴とする請求項１、２または３記載の音声対話装置。
前記理解結果候補が複数の単語からなり、該単語の単語信頼度の合計が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しないことを特徴とする請求項１、２または３記載の音声対話装置。
前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、該理解結果候補中のカテゴリの組み合わせが１つの発話中で発話される確率が高いほど大きくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項１、２または３記載の音声対話装置。
前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、同一認識結果の同一候補内において認識された単語の組み合わせが該理解結果候補内にある場合に、１よりも大きい数を該単語の単語信頼度に乗じ、該乗算後の単語信頼度の合計を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項１、２または３記載の音声対話装置。
前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、同一認識結果内での音声波形中の単語認識区間に重なりがある単語が該理解結果候補内にある場合に該重なりが大きいほど１より小さくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項１、２または３記載の音声対話装置。
入力される音声を音声信号に変換して出力する音声入力手段と、該音声信号を候補単語に変換して出力する音声認識手段と、該候補単語が発話された可能性の高さを示す単語信頼度を求める単語信頼度演算手段と、該候補単語と該単語信頼度とから該音声入力手段に入力された音声言語を理解する言語理解部とを用いる音声対話方法であって、
前記言語理解部は、ユーザの発話が前記音声入力手段に入力された場合に、前記音声認識手段が出力する候補単語の全てをカテゴリに分類し、該カテゴリの各々について、該カテゴリに属する候補単語の単語信頼度を用いて該カテゴリに属する候補単語が発話された可能性の高さを示すカテゴリスコアを求め、該カテゴリスコアが該カテゴリに対して予め定められた閾値以上であるカテゴリの全部または一部を候補カテゴリとして選択するカテゴリ選択処理と、該候補カテゴリに属する候補単語の中から意味上の整合性がとれる単語または単語の組み合わせである理解結果候補を探索する理解結果候補探索処理とを行い、該理解結果候補探索処理によって理解結果候補が発見されない場合には、該候補カテゴリの集合から１つ以上のカテゴリを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に該理解結果候補探索処理を再び行って、理解結果を生成し、
応答文生成部は、前記言語理解部が生成した前記理解結果をもとに応答文を作成する
ことを特徴とする音声対話方法。
前記理解結果候補探索処理において理解結果候補が発見されない場合には、前記候補カテゴリの集合からカテゴリスコアが最も低い候補カテゴリ１つを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に前記理解結果候補探索処理を再び行うことを特徴とする請求項９記載の音声対話方法。
前記理解結果候補探索処理において理解結果候補が発見されない場合には、前記候補カテゴリの集合から１つの候補カテゴリを除いてなる複数の集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に、該候補カテゴリの集合の各々について前記理解結果候補探索処理を再び行うことを特徴とする請求項９記載の音声対話方法。
前記理解結果候補が１つの単語からなり、該単語の単語信頼度が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しないことを特徴とする請求項９、１０または１１記載の音声対話方法。
前記理解結果候補が複数の単語からなり、該単語の単語信頼度の合計が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しないことを特徴とする請求項９、１０または１１記載の音声対話方法。
前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、該理解結果候補中のカテゴリの組み合わせが１つの発話中で発話される確率が高いほど大きくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項９、１０または１１記載の音声対話方法。
前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、同一認識結果の同一候補内において認識された単語の組み合わせが該理解結果候補内にある場合に、１よりも大きい数を該単語の単語信頼度に乗じ、該乗算後の単語信頼度の合計を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項９、１０または１１記載の音声対話方法。
前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、同一認識結果内での音声波形中の単語認識区間に重なりがある単語が該理解結果候補内にある場合に該重なりが大きいほど１より小さくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項９、１０または１１記載の音声対話方法。