JP4661239B2 - 音声対話装置及び音声対話方法 - Google Patents

音声対話装置及び音声対話方法 Download PDF

Info

Publication number
JP4661239B2
JP4661239B2 JP2005022704A JP2005022704A JP4661239B2 JP 4661239 B2 JP4661239 B2 JP 4661239B2 JP 2005022704 A JP2005022704 A JP 2005022704A JP 2005022704 A JP2005022704 A JP 2005022704A JP 4661239 B2 JP4661239 B2 JP 4661239B2
Authority
JP
Japan
Prior art keywords
candidate
understanding result
category
understanding
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005022704A
Other languages
English (en)
Other versions
JP2006208905A (ja
Inventor
景子 桂川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2005022704A priority Critical patent/JP4661239B2/ja
Publication of JP2006208905A publication Critical patent/JP2006208905A/ja
Application granted granted Critical
Publication of JP4661239B2 publication Critical patent/JP4661239B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は音声対話装置及び音声対話方法に関する。
従来技術における音声対話装置は、例えば下記特許文献1に記載されているように、音声入力手段を持ち、前記入力手段によって入力された音声の認識を行ない複数の候補を含む認識結果を出力する音声認識手段を持つ。さらに、この音声対話装置は、前記音声認識手段によって認識された単語が発話された可能性である単語信頼度を計算する単語信頼度演算手段によって単語信頼度を計算する。ここまでに求められた理解結果の単語とその信頼度から理解結果を導きだすために、前記単語を意味上の階層構造で分類したカテゴリにまとめ、同一カテゴリに分類された単語信頼度の合計をカテゴリスコアとして、前記カテゴリの中から発話された可能性が高いカテゴリをカテゴリスコアによって判別する。最後に前記発話された可能性が高いと判別された各カテゴリの中で実際に発話された可能性が高い単語を判別して理解結果を生成する。
特開2004−251998号公報
従来技術では、理解結果として採用するためのカテゴリ判定は、最終的に理解結果として採用する単語や前記単語の信頼度は考慮せず、単語信頼度の合計のみから一度だけ行われるため、判別されたカテゴリに該当する適当な単語が得られないことがあったり、より高い信頼度をもつ単語があるにもかかわらず低い信頼度の単語が選択されたりするなど、最適な理解結果を生成できないことがあるという問題点があった。
本発明は前記の問題に鑑みてなされたものであり、本発明が解決しようとする課題は、利用者が入力した音声を高効率で理解して音声対話する音声対話装置及び音声対話方法を提供することにある。
入力される音声を音声入力手段が音声信号に変換し、該音声信号を音声認識手段が候補単語に変換し、該候補単語が発話された可能性の高さを示す単語信頼度を単語信頼度演算手段が計算し、該候補単語と該単語信頼度とから該音声入力手段に入力された音声言語を言語理解部が理解する音声対話装置であって、該言語理解部は、ユーザの発話が該音声入力手段に入力された場合に、該音声認識手段が出力する候補単語の全てをカテゴリに分類し、該カテゴリの各々について、該カテゴリに属する候補単語の単語信頼度を用いて、該カテゴリに属する候補単語が発話された可能性の高さを示すカテゴリスコアを計算し、該カテゴリスコアが該カテゴリに対して予め定められた閾値以上であるカテゴリの全部または一部を候補カテゴリとして選択するカテゴリ選択処理と、該候補カテゴリに属する候補単語と該候補単語の単語信頼度とに基づいて該候補単語の中から理解結果候補を探索する理解結果候補探索処理とを行い、該理解結果候補探索処理によって理解結果候補が発見されない場合には、該候補カテゴリの集合から1つ以上のカテゴリを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に前記理解結果候補探索処理を再び行って、理解結果を生成し、応答文生成部は、前記言語理解部が生成した前記理解結果をもとに応答文を作成することを特徴とする音声対話装置を構成する。
本発明の実施によって、利用者が入力した音声を高効率で理解して音声対話する音声対話装置及び音声対話方法を提供することが可能となる。
図1は、本発明に係る音声対話装置の実施の形態例であるナビゲーション装置の構成を示すブロック図である。図において、ナビゲーション装置100は車両に搭載され、ユーザが音声認識開始を指示するためのスイッチ120と、ユーザの発話音声を含めて、入力される音声を音声信号に変換して出力する音声入力手段であるマイクロフォン130(図中、マイクと表示)と、メモリ140と、地図データやガイダンス音声の音声データを格納するディスク151と、ディスク151を読み取るディスク読み取り装置150と、地図やメニュー画面や制御装置110による音声認識結果を表示するモニタ160と、音声を出力するスピーカ170と、後述するようにマイクロフォン130を介して入力された音声データを音声認識する制御装置110とを備えている。
メモリ140は、ナビゲーション装置100の操作に使用される語句および文、すなわち操作コマンドおよび地名や施設名、道路名などの固有名詞およびこれらの語句を含む文を受理し、音声認識の際に使用される音声認識辞書・文法141と、現時点までの発話の理解結果142を格納する。現時点までの発話の理解結果142は、対話によって次の発話が入力された際に、現発話の理解を過去の発話理解結果と合わせて理解するために使用される。発話理解の詳細については後述する。
次に、音声認識に使用する音声認識用辞書・文法141について説明する。本実施の形態例では、カーナビゲーションシステムの目的地設定をメインタスクとする。そのため、入力文としては、「神奈川県」、「横浜駅」などといった施設に関する単語のみの入力と「神奈川県の横浜駅」、「東海道線の横浜駅」などといった複数のキーワードを含んだ文章による入力の両方を受理するよう、音声認識用辞書・文法141を構成する。
制御装置110は入力制御部111と、音声入力手段であるマイクロフォン130が出力する音声信号を候補単語に変換して出力する音声認識手段である音声認識装置112と、該候補単語が発話された可能性の高さを示す単語信頼度を計算する単語信頼度演算手段である単語信頼度演算部113と、該候補単語と該単語信頼度とから該音声入力手段に入力された音声言語を理解する言語理解部114と、応答生成部115と、GUI(ガイダンス)表示制御部116と、音声合成部117とを備えている。入力制御部111はスイッチ120によって指示される音声認識開始合図によって音声認識部112に音声認識開始を指示する。
続いて、制御装置110の動作について詳しく説明する。ナビゲーション装置100が起動されると、制御装置110はディスク読み取り装置150を使ってディスク151から音声認識用辞書・文法141をメモリ140上に読み込む。この状態で、スイッチ120が押されると、入力制御部111は音声認識部112に対して音声認識開始を指示する。音声認識部112は入力制御部111より認識開始が指示されると、マイクロフォン130から入力される音声を取り込む。
本実施の形態例における音声認識開始から応答文出力までの処理フローを図2に示す。ユーザが音声認識開始スイッチ120を押して音声認識可能状態になった状態(S0)で、ユーザがマイクロフォン130を使ってナビゲーション100を操作するための文を発話すると(S1)、音声認識部112では、前記マイクロフォン130を介して入力された音声データを、音声認識用辞書・文法141に格納された待ち受け文とマッチング処理する。このマッチング処理の際には、入力された音声データと各待ち受け文との音響的な近さである音響尤度が計算され、この音響尤度が一定の値以上のものを認識結果の候補とする(S2)。
次に、単語信頼度演算部113ではこの認識結果候補と各候補の尤度から、認識結果候補に含まれる全ての単語(候補単語と称する)に対して単語信頼度を計算する(S3)。単語信頼度は直前の一発話において前記単語が発話された可能性をあらわす。単語wの信頼度Conf(w)は以下の式で求められる。
Figure 0004661239
ここで、N-best候補とは、同一認識結果における認識結果候補を、第1位から第N位までの尤度の高い順に配列した単語列のことであり、Lはi番目のN-best候補の対数尤度であり、αは重み係数である。また、Pは、単語wがN-best候補の中でi番目の候補に含まれている確からしさを表している。前記信頼度計算の詳細については、前記特許文献1にその詳細が記載されている。
次に、言語理解部114の処理に移る。言語理解部114ではまず、これまでの対話の中で発話された可能性のある全ての単語の単語信頼度を修正する(S4)。認識結果候補中の他の単語との意味上の上下関係の有無や整合性などによって(S3)で求めた単語信頼度を上下させた値が単語信頼度の修正結果となる。例えば、第一発話の認識結果候補中に「東京駅」があり、第二発話の認識結果候補中に「東京都」があった場合、「東京都」と「東京駅」の間には上下関係が成り立つため、お互いの単語信頼度を強めあう。また、前記の例で第一発話の認識結果候補中に「京都駅」があった場合は、「東京都」と「京都駅」の間には上下関係が成り立たないため、お互いの単語信頼度を弱めあう。なお、この単語信頼度の修正は行わなくてもよい。
単語信頼度の修正(S4)が終わると、候補単語の全てをカテゴリに分類し、各カテゴリスコアについて、カテゴリスコアを計算する(S5)。カテゴリとは、単語を意味上のまとまりで分類したもので、「都道府県カテゴリ」「市区町村カテゴリ」「路線名カテゴリ」「施設名カテゴリ」などがあり、例えば「都道府県カテゴリ」には「東京都」「神奈川県」などの都道府県名が分類され、「施設名カテゴリ」には「横浜駅」「横浜青葉インター」「千葉カントリークラブ」などの目的地設定における最終目的である目的地名が分類される。カテゴリスコアは、同じカテゴリに分類された候補単語の単語信頼度を足し合わせることで求められる。カテゴリスコアは、そのカテゴリに属する候補単語が発話された可能性の高さを示す数となっている。これは、現在の発話で認識候補とされた単語のスコアを理解結果142に保存されている過去に発話された内容の単語のスコアとを足し合わせることで過去の発話内容と今回の発話内容を合わせて対話理解することができる。
次に、(S5)で求めたカテゴリスコアを元に、選択するべきカテゴリ(候補カテゴリと称する)を選択する(S6、カテゴリ選択処理)。このカテゴリ選択処理において、カテゴリスコアが、そのカテゴリに対して予め定められた閾値以上であるカテゴリの全部または一部を候補カテゴリとして選択する。このカテゴリ選択処理によって、候補カテゴリの集合が1つまたは複数選択される。カテゴリ選択処理の詳細については後述する。
候補カテゴリが決定すると、この候補カテゴリから理解結果候補として採用する単語または単語組み合わせを検索する(S7、理解結果候補探索処理)。単語は、各カテゴリから1つずつ選択して組み合わせ、意味上の整合性がとれる組み合わせを理解結果候補とする。意味上の整合性がとれる組み合わせとしては、例えば、「東京都」と「東京駅」との組み合わせがあり(東京駅は東京都内にある)、整合性がとれない組み合わせとしては、例えば、「東京都」と「横浜駅」との組み合わせがある(横浜駅は東京都内に無い)。
候補カテゴリが1つである場合には、該候補カテゴリに属する候補単語のすべてについて意味上の整合性がとれているので、最も高い単語信頼度を持つ候補単語を理解結果候補とすればよい。
もし、ここで理解結果候補が発見されなければ(S8のNoの分岐として)カテゴリ選択(S6)以下のステップを再び行う。この場合に、候補カテゴリの個数を増やすことによって、理解結果候補を決定することができる場合もありうるが、その場合に、この理解結果候補が発話された可能性は低いので、本発明においては、候補カテゴリの個数を減らして、理解結果候補が決定されるようにする。すなわち、候補カテゴリの集合から1つ以上のカテゴリを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行う。この過程において、候補カテゴリの個数を削減する仕方は2つ以上あるので、複数の集合が新しい候補カテゴリの集合として選択される場合がある。そのような場合には、新しい候補カテゴリの集合の各々につて、理解結果候補探索処理(S7)を行う。
上記の一連の処理によって、理解結果候補は必ず発見される(候補カテゴリが1つになっ場合を考えれば明らか)ので、理解結果候補の中から、例えば、単語信頼度の合計(理解結果候補が単語の場合はその単語信頼度、単語の組み合わせの場合はその単語の単語信頼度の合計)が最も大きいものを最終的な理解結果候補として選択する(S9)。
次に、この最終的な理解結果候補である単語または単語の組み合わせが理解結果として適当であるかどうかを調べ(S10)、適当でない場合はカテゴリ選択(S6)からやり直す。
理解結果として適当な単語または単語の組み合わせが決定すると、その理解結果は応答文生成部115に渡される。応答文生成部115では言語理解部114が生成した理解結果をもとに応答文を生成する(S11)。応答文生成では、目的地設定のために必要な情報が不足していれば不足する情報の入力を即す応答文を生成し、理解結果に選択された単語のスコアが低く、確認が必要と判断される場合には、理解内容の確認のための応答文を生成する。また、目的地が確定した場合には、目的地までの地図を検索し、表示する旨を伝える応答文を生成する。
この応答文は音声合成部117によって音声として出力される(S12)。
この時、GUI表示制御部116は応答内容をモニタ160上に表示するとともに、地図表示が必要であればディスク読み取り装置150を使ってディスク151から地図データを読み出し、モニタ160に地図を表示して、一連の入力処理を終える(S13)。
前記の構成によって、本発明においては、(候補カテゴリが1つである場合を考えれば明らかなように)理解結果候補を必ず見いだすことが可能となるので、本発明の実施によって、利用者が入力した音声を高効率で理解して音声対話する音声対話装置及び音声対話方法を提供することが可能となる。
次に、カテゴリ選択について詳しく述べるが、まずは、従来例におけるカテゴリ選択および理解結果選択の方法を、図3に示したサンプルデータおよび図4に示したフローチャートを用いて説明する。
図3の(a)は、音声認識部112が出力する認識結果候補と各候補の尤度を示している。音声入力開始(S0)から単語信頼度修正(S4)までは先に示した本発明の実施の形態例と同じ動作をする。つまり、ユーザが音声認識開始スイッチ120を押して音声認識可能状態になった状態(S0)で、マイクロフォン130を使ってナビゲーションを操作するための文を発話すると(S1)、音声認識部112が入力音声の認識処理をして、認識結果の候補と尤度を出力する(S2)。次に、単語信頼度演算部113ではこの認識結果候補と各候補の尤度から、単語信頼度を計算する(S3)。図3の(b)は単語信頼度演算部113が単語信頼度を計算した結果を示している。認識結果候補3bに含まれる全ての単語を認識結果候補単語3dとして単語信頼度3eを計算する。
次に、この単語信頼度演算結果(図3の(b))は言語理解部114に移される。言語理解部114では、まず、先に説明したように単語信頼度演算結果の単語信頼度修正を行なう(S4)。これによって3eの値が上下させられる。今回は単語信頼度修正による単語信頼度値の変化がなかったとして次に進む。言語理解部114では単語信頼度修正の後、認識結果候補単語3dからカテゴリスコアを計算する(S5)。
カテゴリとは、県カテゴリ、路線名カテゴリ、施設名カテゴリなど、意味上の分類で同列に扱う単語の集合である。図3の例では、3fに示したように、「神奈川県」および「香川県」が県カテゴリ、「徳島線」が路線名カテゴリ、「横浜駅」および「屋島駅」が施設名カテゴリとなる。このように認識結果候補単語3dをカテゴリごとに分類し、同じカテゴリに分類された認識結果候補単語の単語信頼度3eを足し合わせたものがカテゴリスコアとなる。
図3の(b)からカテゴリスコアを計算した結果を図3の(c)に示した。例えば「神奈川県(単語信頼度0.80)」および「香川県(単語信頼度0.20)」からなる「県カテゴリ」のカテゴリスコア3hは1.00となる。
次に、このカテゴリスコアから理解結果として採用するカテゴリを選択する(S6)。各カテゴリにはカテゴリ選択のために、予めカテゴリ閾値3iが設定されており、この閾値を超えたカテゴリが理解結果に採用するカテゴリとして選択される。カテゴリ閾値3iは、データ学習によって予め設定されている。本例の場合、以下のように、カテゴリスコアがカテゴリ閾値と比較され、カテゴリ閾値よりも大きいカテゴリスコアを持つカテゴリが選択される。
県カテゴリのカテゴリスコア 1.0 > 県カテゴリ閾値 0.5、したがって、県カテゴリを選択、
路線名カテゴリのカテゴリスコア 0.2 < 路線名カテゴリ閾値 0.4、したがって、路線名カテゴリを選択せず、
施設名カテゴリのカテゴリスコア 0.5 > 施設名カテゴリ閾値 0.4、したがって、施設名カテゴリを選択、
これによって、理解結果として採用するべきカテゴリは県カテゴリと施設名カテゴリとなる。
次に、言語理解部114では、認識結果候補単語3dから、選択されたカテゴリにあてはまる単語の組み合わせを探す(S7)。この際、選択されたカテゴリにあてはまる単語の組み合わせは、意味上の整合性がとれるものでなければならない。つまり、県カテゴリと施設名カテゴリに採用する単語の組み合わせでは、施設名カテゴリより採用する単語は県カテゴリで採用された県内に存在する施設の名称でなければならない。この条件に沿ってカテゴリにあてはまる単語の組み合わせを探した結果である理解結果候補が図3の(d)となる。その際、理解結果候補に採用された単語の単語信頼度3eを足し合わせたものが理解結果候補のスコア3lとなる。
最後に、理解結果候補のスコア3lが最も高くなる理解結果候補を最適な組み合わせの理解結果として選択し(S8)、この結果を元に応答文を生成(S9)、出力(S10)して言語理解処理を終える。
ここまでが従来例における言語理解部の処理であるが、これでは、図4のS7において、選択されたカテゴリにあてはまる単語の組み合わせが見つからなかった場合には、理解結果を導き出すことができない。図5に、従来例では適当な単語の組み合わせが見つからず、従来例では理解結果が得られない音声認識結果の例を示す。
図5の(a)は音声認識部112が出力した認識結果候補と尤度である。この認識結果を元に前述の単語信頼度計算によって認識結果中に含まれる各単語の単語信頼度を計算したものが図5の(b)である。このように単語信頼度計算した単語をカテゴリごとに分類してカテゴリスコアを求めたものが図5の(c)となる。ここで、カテゴリスコアがカテゴリ閾値以上であるカテゴリは県カテゴリと路線名カテゴリであるため、候補カテゴリとして選択されるカテゴリは県カテゴリと路線名カテゴリとなる。しかし、県カテゴリの単語は「神奈川県」のみ、路線名カテゴリの単語は「飯山線」のみであり、「飯山線」は「神奈川県」内には存在しない路線名であるため、県カテゴリ+路線名カテゴリの組み合わせで整合性のとれる単語の組み合わせはない。そのため、従来例の方法では理解結果を得ることができなかった。
そこで、本発明では理解結果候補として選択する単語の単語信頼度と各単語間の関係とを利用しながらカテゴリ選択を行ない、さらに、理解結果を得ることができない場合に、候補カテゴリの個数を減らして理解結果の探索を再び行う。
(実施の形態例1)
図2に示した実施の形態例では、カテゴリ選択の後、採用する単語の組み合わせを検討し、適当な組み合わせが見つからなければカテゴリ選択を再度やり直す(S8→S6)。本実施の形態例では、選択されたN個の候補カテゴリにあてはまる(すなわち、意味上の整合性がとれる)適当な組み合わせの単語が存在しない場合、N未満の候補カテゴリを選択する。N個の候補カテゴリからN−1個の候補カテゴリを選択する方法としては、まず、N個の候補カテゴリの中で最もカテゴリスコアが低いカテゴリを除いたものを候補カテゴリ選択の結果とする方法がある。
具体的には、例えば、理解結果候補探索処理において、候補カテゴリが1つであれば該カテゴリに属する単語の中から最も高い単語信頼度を持つ単語を理解結果候補とし、候補カテゴリが2つ以上であれば該候補カテゴリの各々から1つずつの単語を取り出して組み合わせた単語組み合わせの中で、意味上の整合性がとれ、かつ、単語信頼度の合計が最も高い単語組み合わせを理解結果候補とし、理解結果候補が発見されない場合には、該候補カテゴリからカテゴリスコアが最も低いカテゴリ1つを除いたものを新しい候補カテゴリとして選択した後に前記理解結果候補探索処理を再び行う。
図5の例の場合、選択されたN個の候補カテゴリは県カテゴリと路線名カテゴリであり、そのうち最もカテゴリスコアが低いカテゴリは路線名カテゴリである。そのため、候補カテゴリとして選択するカテゴリから路線名カテゴリを除き、県カテゴリのみが候補カテゴリとなる。その結果、県カテゴリにあてはまる単語は「神奈川県」のみとなるため、理解結果候補は「神奈川県」となる。
以上のようにして、理解結果として適当なカテゴリの組み合わせを見つけるために採用するカテゴリの数を減らす際、カテゴリスコアが低いカテゴリから削除していくことで、よりスコアが高いカテゴリのみが理解結果として残ることとなるため、理解結果の精度を向上させることができる。
(実施の形態例2)
選択されたN個のカテゴリにあてはまる適当な組み合わせの単語が存在しない場合に、N個のカテゴリからN未満のカテゴリを選択するその他の方法としては、選択されたN個のカテゴリから1つをはずしたN−1個のカテゴリの組み合わせ(候補カテゴリの集合)N個の全てに関して、理解結果候補として適当な単語を調べ、理解結果のスコアを求め、理解結果のスコアが最も高くなるものを選択する方法もある。
具体的には、例えば、理解結果候補探索処理において、候補カテゴリが1つであれば該カテゴリに属する単語の中から最も高い単語信頼度を持つ単語を理解結果候補とし、前記候補カテゴリが2つ以上であれば該候補カテゴリの各々から1つずつの単語を取り出して組み合わせた単語組み合わせの中で、意味上の整合性がとれ、かつ、単語信頼度の合計が最も高い単語組み合わせを理解結果候補とし、理解結果候補が発見されない場合には、該候補カテゴリの1つを候補カテゴリの範囲から排除してなる複数の候補カテゴリの集合を新しい候補カテゴリの集合として選択した後に前記理解結果候補探索処理を再び行う。
図5の例では、県カテゴリと施設名カテゴリのうちどちらか1つをはずしたカテゴリ、つまり県カテゴリのみまたは施設名カテゴリのみで理解結果候補としてあてはまる単語とそのスコア(この場合には単語信頼度)を求める。すると、図5の(d)に示したように、理解結果「神奈川県」が理解結果スコア0.55であるのに対して理解結果「桑名川駅」が理解結果スコア0.45と理解結果「神奈川県」のほうが高スコアであるため、理解結果カテゴリは県カテゴリ、理解結果は「神奈川県」となる。
以上のようにして、理解結果として適当なカテゴリの組み合わせを見つけるために採用するカテゴリの数を減らす際、採用するカテゴリの数を1つ減らした全ての場合におけるカテゴリの組み合わせのうち、理解結果が最も高いスコアとなる組み合わせを理解結果として採用することができるため、理解結果の精度を向上させることができる。
(実施の形態例3)
次に、選択されたカテゴリにあてはまる単語の組み合わせが見つかりはしたが、これが最適な結果ではない場合について説明する。
具体的には、例えば、理解結果候補が複数の単語からなり、該単語の単語信頼度の合計(下記のスコア)が予め定められた閾値を超えない場合には、該理解結果候補を理解結果としない。
上記の例を図6に示した。音声認識部112が図6の(a)のように認識結果を出力した場合、単語信頼度演算部113では認識結果に含まれる全ての単語に関して単語信頼度を計算する。単語信頼度は図6の(b)のようになる。この結果からカテゴリスコアを求めると、図6の(c)のように、県カテゴリが0.60、施設名カテゴリが0.45となる。それぞれのカテゴリ閾値は0.50、0.40であるため、県カテゴリと施設名カテゴリが候補カテゴリとして採用すべきカテゴリと判定される。
次に、認識結果候補単語6dの中から県カテゴリと施設名カテゴリの組み合わせにあてはまる単語の中で整合性のとれるものを探すと、「長野県」と「桑名川駅」という組み合わせが得られる。しかし、これらの組み合わせは他の高い単語信頼度を持つ「神奈川県」などの単語に比べて各単語ともに単語スコア(単語信頼度)が0.05と低く、理解結果としてのスコア(単語信頼度の合計)も0.10と低い。これは、理解結果として選択する単語のスコアや理解結果のスコアよりもカテゴリを優先させているために生じる問題である。この場合、このような方法であってもなんらかの理解結果を出力することができるが、その正解精度は低い。
そこで、本実施の形態例では理解結果として選択する理解結果候補のスコア(例えば、単語信頼度の合計)に閾値を設ける。つまり、理解結果候補として選択された単語のスコアが予め定められた閾値(例えば0.2)以下ならば、その理解結果候補を理解結果としない。すなわち、理解結果候補が複数の単語からなり、該単語の単語信頼度の合計が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しない。そして、他の候補を探すために、候補カテゴリとして採用するカテゴリの数を1つ減らす。本実施の形態例では、施設名カテゴリを省いて県カテゴリのみで理解結果候補を求めた場合の結果「神奈川県」、理解結果スコア0.55と、県カテゴリを省いて施設名カテゴリのみで理解結果候補を求めた場合の結果「掛川駅」、理解結果スコア0.40は共に採用されている単語のスコアが閾値0.2を超えているため、これらを比較してスコアの高い「神奈川県」を理解結果とする。
他にも、理解結果候補のスコアに対してもカテゴリ数に応じて閾値を設定し、各閾値を越えた理解結果候補のみを理解結果として採用することも可能である。また、閾値によって理解結果候補の採用、不採用を決定した結果、最終的に閾値を超えるスコアをもつ単語の理解結果や閾値を超えるスコアをもつ理解結果がみつからなかった場合には、最もスコアの大きいカテゴリ1つとそこにあてはまる単語を理解結果として、確認のための追加情報を求める応答文を生成する。
理解結果候補が1つの単語からなる場合にも、その単語の単語信頼度が予め定められた閾値以下ならば、その理解結果候補を理解結果としないようにしてもよい。
以上のようにして、閾値を超える単語信頼度をもつ単語のみを理解結果として採用することができるため、極端に単語信頼度が低い単語を理解結果として採用したために起こる理解間違いを防ぐことができる。
また、カテゴリスコアが高くても理解結果のスコアが閾値以下となるものは採用されないため、カテゴリ数が少なくても理解結果のスコアが高い結果を選択することができる。
(実施の形態例4)
理解結果の生成精度を上げるためのその他の方法として、理解結果に選択する単語間の関係を考慮することもあげられる。具体的には、理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語の単語信頼度の合計に、該理解結果候補中のカテゴリの組み合わせが1つの発話中で発話される確率が高いほど大きくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果とする方法がある。
そのような方法の例を図7に示す。音声認識部112が図7の(a)のように認識結果を出力した場合、単語信頼度演算部113では、認識結果に含まれる全ての単語に関して単語信頼度を計算する。単語信頼度は図7の(b)のようになる。この結果からカテゴリのスコアを求めると、図7の(c)のように、県カテゴリが0.60、路線名カテゴリが0.40、施設名カテゴリが0.40となる。それぞれのカテゴリ閾値は0.50、0.40、0.40であるため、県カテゴリ、路線名カテゴリ、施設名カテゴリが候補カテゴリとして採用すべきカテゴリと判断される。
次に、県カテゴリ、路線名カテゴリと施設名カテゴリの組み合わせにあてはまる単語の中で整合性のとれるものを探すが、この組み合わせで整合性のとれる単語の組み合わせは存在しない。
そのため、理解結果として選択するカテゴリを1つ減らして県カテゴリ+路線名カテゴリ、県カテゴリ+路線名カテゴリ、路線名カテゴリ+施設名カテゴリの組み合わせでそれぞれ整合性のとれる組み合わせを探し、県カテゴリ+路線名カテゴリにおいて「東京都+東横線」、県カテゴリ+施設名カテゴリにおいて「東京都+品川駅」の組み合わせが得られる。ここで、理解結果のスコア(単語信頼度の合計)を比較するがどちらも0.90と同じスコアである。
ここで、カテゴリ同士が1つの発話に存在する確率が高いほど大きくなる数(重み)の例を示した表である図8を利用する。図8は、カテゴリ1(8a)に示したカテゴリとカテゴリ2(8b)に示したカテゴリの関係を重み(8c)によって表している。このカテゴリの関係とは、2つのカテゴリが1つの発話に存在する確率の高さであり、それは重みで表される。この重みは、コーパスデータやユーザの発話履歴などからデータ学習によって生成される。この重みは、上記の、理解結果候補中のカテゴリの組み合わせが1つの発話中で発話される確率が高いほど大きくなる数に該当する。例えば、今回の例では県カテゴリ+路線名カテゴリの組み合わせの重みは0.8であるのに対して、県名カテゴリ+施設名カテゴリの組み合わせの重みは1.0なので、県カテゴリ+路線名カテゴリは県名カテゴリ+施設名カテゴリよりも関係が弱い。この値を利用して、「東京都+東横線」のスコア0.90には県カテゴリ+路線カテゴリの重み0.8を乗じて0.72とし、「東京都+品川駅」のスコア0.90には県カテゴリ+施設カテゴリの重み1.0を乗じて0.90とする。この値を比較した結果、県カテゴリ+施設カテゴリである「東京都+品川駅」が高スコアであるので理解結果として選択される。
以上のようにして、理解結果に採用される単語の組み合わせを考慮して理解結果のスコアを決定し、そのスコアをもとに最終理解結果を選択するので、発話される可能性が高い単語の組み合わせでの理解結果を採用されやすくすることができる。
(実施の形態例5)
また、図7の例のような場合、それぞれの単語がどの認識結果に含まれていたかという情報を利用することもできる。具体的には、理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、同一認識結果の同一候補内において認識された単語の組み合わせが該理解結果候補内にある場合に、1よりも大きい数を該単語の単語信頼度に乗じ、該乗算後の単語信頼度の合計を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用する。つまり、同一の認識結果に含まれていた単語同士の組み合わせはスコアを高くすることで、認識部112の計算した単語同士の組み合わせ確率を利用することができる。
今回採用している単語信頼度計算は、[数1]の式を用いて単語信頼度を計算しているが、この式の中で、途中計算結果としてでてくるPは認識結果の各候補文の信頼度である。本実施の形態例ではこの、文としての信頼度も利用する。ちなみに、図7の認識結果において単語信頼度の計算途中で求められる文信頼度は図9の(a)中の9dのようになる。
次に単語信頼度を求めるために、各単語はその単語が含まれていた文の信頼度を足し合わせるが([数1])、ここで、各単語がどの認識結果に含まれていたのかを調べる。その結果が図9の(b)である。図9の(b)では第一発話の第2認識候補を「1−2」と書き表している。例えば、図9の(a)がユーザの第一発話に対する認識結果であるとすると、単語「東京都」は第一発話の認識結果中の第2、第3、第4候補の中に現れている。通常は、これらの文信頼度を足し合わせたものを単語信頼度としてから理解結果を求めて理解結果のスコアを計算するが、本実施の形態例では、ここから直接理解結果のスコアを計算する。理解結果に採用する単語の組み合わせと文信頼度の信頼度によって単語信頼度に重み付けをする。この重み付け変数は、予めデータ学習によって最適値を求めておく。本実施の形態例では1.2を用いる。この重み付け変数は、上記の、1よりも大きい数に該当する。これを使うと、理解結果「東京都+品川駅」に対する通常の理解結果スコアが、次のように求められるのに対して、
東京都の単語信頼度+品川駅の単語信頼度
=(0.30+0.20+0.10)+0.30=0.90
(ここで、(0.30+0.20+0.10)は東京都の単語信頼度であり、 0.30は品川駅の単語信頼度である)
と求められるのに対して、本実施の形態例は下記のようになる。
東京都の単語信頼度+品川駅の単語信頼度
=(0.30×1.2+0.20+0.10)+0.30×1.2
=1.02
(ここで、2つの0.30×1.2は共に第1発話の第2認識結果中で認識された単語分の単語信頼度の値である)
これらは、理解結果として採用された組み合わせで同じ認識結果中で認識された単語であるため、重みをつけている。すなわち、同一認識結果の同一候補内において認識された単語である「東京都」と「品川駅」とには、値は相異なるが、それぞれ、1よりも大きい数が(重みとして)乗じられている。これに対して理解結果「東京都+東横線」は同一認識結果中での認識がないため、前記の例と同様に、理解結果スコアは0.90となり、同一認識結果中での認識がなかった「東京都+東横線」よりも同一認識結果中での認識結果が得られた「東京都+品川駅」のスコアのほうが高くなるため、これを理解結果として採用する。
以上のようにして、音声認識エンジンが計算した複数単語同時認識の可能性を利用して同一認識結果の同一候補内において認識された単語同士の組み合わせが理解結果として採用されやすくなるため、同時に発話された可能性が高い単語同士の組み合わせでの理解結果を採用されやすくすることができる。
(実施の形態例6)
また、同様の方法で、音声認識部112による音声波形上の単語の認識箇所に重なりがあるもののスコアを下げることで認識箇所に重なりがある理解結果のスコアを下げることができる。具体的には、理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、同一認識結果内での音声波形中の単語認識区間に重なりがある単語が該理解結果候補内にある場合に、重なりが大きいほど1より小さくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用する。
図10は、図7の音声認識結果を出力したときの、音声波形と単語の認識位置の関係を時系列で示したものである。本実施の形態例において音声入力検出開始時刻はT0であり、音声入力検出終了位置はT5である。また、第1認識結果候補201、第2認識結果候補203、第3認識結果候補203、第4認識結果候補204における最初の単語の認識開始位置はT1であり、第5認識結果候補205における最初の単語の認識開始位置はT2である。図7の(d)では「東京都+東横線」と「東京都+品川駅」という理解結果がともにスコア0.90で出力されている。ここで、「東横線」と「東京都」の認識開始・終了時刻を調べる。「東横線」は第1認識結果候補201の中に現れた単語であり、「東京都」は第2認識結果候補202、第3認識結果候補203、第4認識結果候補204内に出現しているため、第1認識結果候補201と第2認識結果候補202、第3認識結果候補203、第4認識結果候補204との関係を調べる。すると、「東京都」は第2認識結果候補202、第3認識結果候補203、第4認識結果候補204それぞれで、時刻T1から時刻T3の間で認識されており、「東横線」は第1認識結果候補201において時刻T1から時刻T5の間で認識されている。そのため、時刻T1から時刻T3間において「東京都」と「東横線」の認識箇所に重なりが生じている。このため、しかし、実際の発話において異なる二つの単語を同時に発話ということはありえない為、認識箇所に重なりがあるものは、認識箇所の重なりの大小に応じてスコアを下げる。本実施の形態例では、認識時間が短い単語の認識箇所において重なり部分が占める割合をまず、求める。ここでは、T1からT3が1000ミリ秒であった。そのため、「東京都」と「東横線」において認識時間が短い「東京都」を認識したT1からT2、1000ミリ秒に占める重なり箇所の割合は100%である。そこで、重なり箇所が占める割合に応じて理解結果スコアから割り引く。割り引率は重なり箇所の割合に30%をかけたものとする。割引率の適用変数(ここでは30%)は予めデータ学習によって求めておく。この割引率を1から引いて得る数値が、上記の、重なりが大きいほど1より小さくなる数に該当する。よって、今回は1.0×0.3=0.3となり、理解結果スコア(単語信頼度の合計)である0.9は30%を割り引いて0.63となる。これに対して「東京都+品川駅」は認識箇所に重なり箇所がなく、理解結果スコアは0.90のままなので理解結果「東京都+品川駅」のほうが理解結果「東京都+東横線」スコアが高くなるため、これを最終的な理解結果として選択する。
以上のようにして、音声波形中の認識箇所に重なりがある単語同士の組み合わせには低い出現が設定されるため、音声波形中の認識箇所に重なりがある単語同士の組み合わせは理解結果として採用されにくくすることができる。
(実施の形態例7)
ここまでの方法を使えば、カテゴリ数がいくつでも対応できる。カテゴリ選択において多数のカテゴリが選択された例を図11に示した。
ここでは、第一発話でユーザは「品川駅」と発話したが、認識結果が図11の(a)のようになり、理解結果が「仙台駅」となり、言語理解に失敗した。そのため、ユーザが第二発話で「東京都の品川駅」と発話し、認識結果が図11の(b)のようになった場合の理解結果の導出例を示している。
第二発話の後、単語信頼度計算は発話ごとに行ったあと、同じ単語の単語信頼度は足し合わせる。第一発話と第二発話の内容を足し合わせた結果が図11の(c)である。ここから各カテゴリのスコアを計算すると図11の(d)となるが、県カテゴリ、市区町村カテゴリ、路線名カテゴリ、道路名カテゴリ、施設名カテゴリの5つのカテゴリがそれぞれのカテゴリ閾値を越えている。そのため、これにあてはまる単語の組み合わせを探すが、目的地設定において路線名と道路名が同時に指定されることはないため、(1)「県カテゴリ+市区町村カテゴリ+路線名カテゴリ+施設名カテゴリ」または(2)「県カテゴリ+市区町村カテゴリ+道路名カテゴリ+施設名カテゴリ」で探すことになる。しかし、どちらの組み合わせにおいても全て整合性のとれる組あわせの単語は図11の(c)からは見つからないため、カテゴリ数をさらに1つ減らす。
今回は、全てのカテゴリの組み合わせを考慮する方法をとることにする。すると、考えられる組み合わせは、(1)、(2)の組み合わせからどれか1つのカテゴリを省いた、以下の組み合わせになる。
(3)「県カテゴリ+市区町村カテゴリ+路線名カテゴリ」、(4)「県カテゴリ+市区町村カテゴリ+施設名カテゴリ」、(5)「県カテゴリ+路線名カテゴリ+施設名カテゴリ」、(6)「県カテゴリ+市区町村カテゴリ+道路名カテゴリ」、(7)「県カテゴリ+道路名カテゴリ+施設名カテゴリ」。
しかし、この組み合わせでも、整合性のとれる単語の組み合わせが得られないため、さらにカテゴリ数を1つ減らす。カテゴリの組み合わせは(8)「県カテゴリ+市区町村カテゴリ」、(9)「県カテゴリ+路線名カテゴリ」、(10)「県カテゴリ+道路名カテゴリ」、(11)「県カテゴリ+施設名カテゴリ」、(12)「市区町村カテゴリ+路線名カテゴリ」、(13)「市区町村カテゴリ+道路名カテゴリ」、(14)「市区町村カテゴリ+施設名カテゴリ」、(15)「路線名カテゴリ+施設名カテゴリ」、(16)「道路名+施設名カテゴリ」となる。これらのうち、あてはまる単語が見つかったのが(8)、(9)、(10)、(11)、(15)である。これにあてはまった単語の組み合わせを図11の続きである図12の(e)に示した。
さらに、これらのスコアを求めると11rのようになり、理解結果「東京都+品川駅」のスコアが最も高くなるため、これを理解結果とする。
また、N個のカテゴリにあてはまる理解結果とN−1個のカテゴリにあてはまる理解結果とを比べて最もスコアが高いものを理解結果として選択することも可能である。ただし、N個のカテゴリで選択される単語数はN個、N−1個のカテゴリで選択される単語はN−1個であるため、理解結果のスコアを正規化する必要がある。この際、正規化によってカテゴリ数の多い理解結果に重み付けをする。例えば、理解結果として選択するカテゴリが1個の場合は選択された単語のスコアをそのまま用いるのに対して、カテゴリが2個の場合は1.6、3個の場合は2.2で割ったものを比較に用いる。この、カテゴリ個数ごとの正規化のための変数は予めデータ学習によって最適値を求めておく。理解結果のカテゴリ数の最大値をMとすると、このように、M個のカテゴリにあてはまる理解結果の中で最もスコアの高い結果とM−1個のカテゴリにあてはまる理解結果のうち最もスコアの高い理解結果を比較して、理解結果のスコアが高いものをM−2個のカテゴリにあてはまる理解結果の中で最もスコアの高い理解結果と比較する。このように1〜M個までのカテゴリ数における最適な結果を得ることができる。
図11の例において、カテゴリ数1の場合の理解結果も調べた場合を例に挙げる。カテゴリ数1の場合の理解結果は図11の(e)にカテゴリ数2の場合の理解結果とともに示した。ここで、カテゴリ数2の理解結果の中で最もスコアが高い理解結果とカテゴリ数1の理解結果の中でも最もスコアが高い理解結果とを比較する。
1.「東京都+品川駅」・・・スコア0.90
2.「東京都」・・・スコア0.50
理解結果Nに含まれる全ての単語が理解結果Mに含まれる場合、それぞれのスコアは必ず、理解結果Nのスコア<理解結果Mのスコアとなる。
この2つの理解結果を比較するために、理解結果Mのスコアをカテゴリ数2の場合の正規化変数1.6で割る。正規化変数はコーパスを用いたデータ学習によって予め求めておく。正規化後のスコアは11eに示した。1.、2.の理解結果の関しては以下の通り。
1.「東京都+品川駅」・・・正規化済スコア0.56
2.「東京都」・・・正規化済スコア0.50
よって、理解結果「東京都+品川駅」のほうが正規化済のスコアが高いため、この理解結果は信頼できると判断し、これを理解結果として採用する。
ここまでにあげた理解結果の選択手段はそれぞれを組み合わせて使用することもでき、組み合わせて利用した場合もそれぞれの手段が個別に理解率向上に寄与する。
本発明実施の形態例の機能ブロックである。 本発明実施の形態例制御装置の基本動作フローである。 従来例で理解結果を導き出すことができる認識結果と理解結果のサンプルである。 従来例における制御装置の基本動作フローである。 カテゴリ選択で選択されたカテゴリでの、従来例では整合性のとれる単語の組み合わせがみつからない認識結果と理解結果のサンプルである。 カテゴリ選択で選択されたカテゴリでの単語の組み合わせでは理解結果のスコアが著しく低くなる認識結果と理解結果のサンプルである。 複数の理解結果の間でスコアに差がない認識結果と理解結果のサンプルである。 カテゴリ同士の組み合わせによる重みである。 図7の例に示した認識結果における認識結果候補単語が含まれる文とその信頼度である。 図7に示した認識結果を認識した音声波形上で各単語が認識された位置を示す図である。 多数のカテゴリが出現した場合の認識結果と理解結果のサンプルである。 図11の続きである。
符号の説明
100:ナビゲーション装置、110:制御装置、111:入力制御部、112:音声認識部、113:単語信頼度演算部、114:言語理解部、115:応答生成部、116:GUI表示制御部、117:音声合成部、120:スイッチ、130:マイクロフォン、140:メモリ、141:音声認識用辞書・文法、142:理解結果、150:ディスク読み取り装置、151:ディスク、160:モニタ、170:スピーカ、201:第1認識結果候補を出力した際の単語認識位置、202:第2認識結果候補を出力した際の単語認識位置、203:第3認識結果候補を出力した際の単語認識位置、204:第4認識結果候補を出力した際の単語認識位置、205:第5認識結果候補を出力した際の単語認識位置。

Claims (16)

  1. 入力される音声を音声信号に変換して出力する音声入力手段と、該音声信号を候補単語に変換して出力する音声認識手段と、該候補単語が発話された可能性の高さを示す単語信頼度を求める単語信頼度演算手段と、該候補単語と該単語信頼度とから該音声入力手段に入力された音声言語を理解する言語理解部とを有する音声対話装置であって、
    前記言語理解部は、ユーザの発話が前記音声入力手段に入力された場合に、前記音声認識手段が出力する候補単語の全てをカテゴリに分類し、該カテゴリの各々について、該カテゴリに属する候補単語の単語信頼度を用いて該カテゴリに属する候補単語が発話された可能性の高さを示すカテゴリスコアを求め、該カテゴリスコアが該カテゴリに対して予め定められた閾値以上であるカテゴリの全部または一部を候補カテゴリとして選択するカテゴリ選択処理と、該候補カテゴリに属する候補単語の中から意味上の整合性がとれる単語または単語の組み合わせである理解結果候補を探索する理解結果候補探索処理とを行い、該理解結果候補探索処理によって理解結果候補が発見されない場合には、該候補カテゴリの集合から1つ以上のカテゴリを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に該理解結果候補探索処理を再び行って、理解結果を生成し、
    応答文生成部は、前記言語理解部が生成した前記理解結果をもとに応答文を作成する
    ことを特徴とする音声対話装置。
  2. 前記理解結果候補探索処理において理解結果候補が発見されない場合には、前記候補カテゴリの集合からカテゴリスコアが最も低い候補カテゴリ1つを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に前記理解結果候補探索処理を再び行うことを特徴とする請求項1記載の音声対話装置。
  3. 前記理解結果候補探索処理において理解結果候補が発見されない場合には、前記候補カテゴリの集合から1つの候補カテゴリを除いてなる複数の集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に、該候補カテゴリの集合の各々について前記理解結果候補探索処理を再び行うことを特徴とする請求項1記載の音声対話装置。
  4. 前記理解結果候補が1つの単語からなり、該単語の単語信頼度が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しないことを特徴とする請求項1、2または3記載の音声対話装置。
  5. 前記理解結果候補が複数の単語からなり、該単語の単語信頼度の合計が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しないことを特徴とする請求項1、2または3記載の音声対話装置。
  6. 前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、該理解結果候補中のカテゴリの組み合わせが1つの発話中で発話される確率が高いほど大きくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項1、2または3記載の音声対話装置。
  7. 前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、同一認識結果の同一候補内において認識された単語の組み合わせが該理解結果候補内にある場合に、1よりも大きい数を該単語の単語信頼度に乗じ、該乗算後の単語信頼度の合計を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項1、2または3記載の音声対話装置。
  8. 前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、同一認識結果内での音声波形中の単語認識区間に重なりがある単語が該理解結果候補内にある場合に該重なりが大きいほど1より小さくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項1、2または3記載の音声対話装置。
  9. 入力される音声を音声信号に変換して出力する音声入力手段と、該音声信号を候補単語に変換して出力する音声認識手段と、該候補単語が発話された可能性の高さを示す単語信頼度を求める単語信頼度演算手段と、該候補単語と該単語信頼度とから該音声入力手段に入力された音声言語を理解する言語理解部とを用いる音声対話方法であって、
    前記言語理解部は、ユーザの発話が前記音声入力手段に入力された場合に、前記音声認識手段が出力する候補単語の全てをカテゴリに分類し、該カテゴリの各々について、該カテゴリに属する候補単語の単語信頼度を用いて該カテゴリに属する候補単語が発話された可能性の高さを示すカテゴリスコアを求め、該カテゴリスコアが該カテゴリに対して予め定められた閾値以上であるカテゴリの全部または一部を候補カテゴリとして選択するカテゴリ選択処理と、該候補カテゴリに属する候補単語の中から意味上の整合性がとれる単語または単語の組み合わせである理解結果候補を探索する理解結果候補探索処理とを行い、該理解結果候補探索処理によって理解結果候補が発見されない場合には、該候補カテゴリの集合から1つ以上のカテゴリを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に該理解結果候補探索処理を再び行って、理解結果を生成し、
    応答文生成部は、前記言語理解部が生成した前記理解結果をもとに応答文を作成する
    ことを特徴とする音声対話方法。
  10. 前記理解結果候補探索処理において理解結果候補が発見されない場合には、前記候補カテゴリの集合からカテゴリスコアが最も低い候補カテゴリ1つを除いてなる集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に前記理解結果候補探索処理を再び行うことを特徴とする請求項9記載の音声対話方法。
  11. 前記理解結果候補探索処理において理解結果候補が発見されない場合には、前記候補カテゴリの集合から1つの候補カテゴリを除いてなる複数の集合を新しい候補カテゴリの集合として選択するカテゴリ選択処理を行った後に、該候補カテゴリの集合の各々について前記理解結果候補探索処理を再び行うことを特徴とする請求項9記載の音声対話方法。
  12. 前記理解結果候補が1つの単語からなり、該単語の単語信頼度が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しないことを特徴とする請求項9、10または11記載の音声対話方法。
  13. 前記理解結果候補が複数の単語からなり、該単語の単語信頼度の合計が予め定められた閾値以下ならば、該理解結果候補を理解結果として採用しないことを特徴とする請求項9、10または11記載の音声対話方法。
  14. 前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、該理解結果候補中のカテゴリの組み合わせが1つの発話中で発話される確率が高いほど大きくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項9、10または11記載の音声対話方法。
  15. 前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、同一認識結果の同一候補内において認識された単語の組み合わせが該理解結果候補内にある場合に、1よりも大きい数を該単語の単語信頼度に乗じ、該乗算後の単語信頼度の合計を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項9、10または11記載の音声対話方法。
  16. 前記理解結果候補探索処理によって複数の理解結果候補が得られ、該理解結果候補のすべてが同一複数の単語からなる場合に、該理解結果候補の各々について、単語信頼度の合計に、同一認識結果内での音声波形中の単語認識区間に重なりがある単語が該理解結果候補内にある場合に該重なりが大きいほど1より小さくなる数を乗じて得られる値を該理解結果候補のスコアとし、該理解結果候補の中で該スコアが最も高い理解結果候補を理解結果として採用することを特徴とする請求項9、10または11記載の音声対話方法。
JP2005022704A 2005-01-31 2005-01-31 音声対話装置及び音声対話方法 Expired - Fee Related JP4661239B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005022704A JP4661239B2 (ja) 2005-01-31 2005-01-31 音声対話装置及び音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005022704A JP4661239B2 (ja) 2005-01-31 2005-01-31 音声対話装置及び音声対話方法

Publications (2)

Publication Number Publication Date
JP2006208905A JP2006208905A (ja) 2006-08-10
JP4661239B2 true JP4661239B2 (ja) 2011-03-30

Family

ID=36965818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005022704A Expired - Fee Related JP4661239B2 (ja) 2005-01-31 2005-01-31 音声対話装置及び音声対話方法

Country Status (1)

Country Link
JP (1) JP4661239B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091426A1 (en) * 2006-10-12 2008-04-17 Rod Rempel Adaptive context for automatic speech recognition systems
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
EP2003572B1 (en) * 2007-05-22 2010-08-04 Honda Motor Co., Ltd. Language understanding device
JP5846014B2 (ja) * 2012-03-30 2016-01-20 アイシン・エィ・ダブリュ株式会社 プローブ情報統計システム、プローブ情報統計方法およびプローブ情報統計プログラム
KR102420280B1 (ko) * 2017-10-30 2022-07-13 엘지전자 주식회사 이동 단말기

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149188A (ja) * 2000-11-15 2002-05-24 Sony Corp 自然言語処理装置および自然言語処理方法、並びに記録媒体
JP2003029782A (ja) * 2001-07-19 2003-01-31 Mitsubishi Electric Corp 対話処理装置及び対話処理方法並びにプログラム
JP2004251998A (ja) * 2003-02-18 2004-09-09 Yukihiro Ito 対話理解装置
JP2006030282A (ja) * 2004-07-12 2006-02-02 Nissan Motor Co Ltd 対話理解装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149188A (ja) * 2000-11-15 2002-05-24 Sony Corp 自然言語処理装置および自然言語処理方法、並びに記録媒体
JP2003029782A (ja) * 2001-07-19 2003-01-31 Mitsubishi Electric Corp 対話処理装置及び対話処理方法並びにプログラム
JP2004251998A (ja) * 2003-02-18 2004-09-09 Yukihiro Ito 対話理解装置
JP2006030282A (ja) * 2004-07-12 2006-02-02 Nissan Motor Co Ltd 対話理解装置

Also Published As

Publication number Publication date
JP2006208905A (ja) 2006-08-10

Similar Documents

Publication Publication Date Title
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US7996218B2 (en) User adaptive speech recognition method and apparatus
JP4680714B2 (ja) 音声認識装置および音声認識方法
US8200491B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
JP4812029B2 (ja) 音声認識システム、および、音声認識プログラム
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP5072415B2 (ja) 音声検索装置
EP1617409B1 (en) Multimodal method to provide input to a computing device
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
KR20080088490A (ko) 다언어 이국 음성 인식
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP5034323B2 (ja) 音声対話装置
JP4293340B2 (ja) 対話理解装置
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP4684583B2 (ja) 対話装置
JP3472101B2 (ja) 音声入力解釈装置及び音声入力解釈方法
JP2003271183A (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP3790038B2 (ja) サブワード型不特定話者音声認識装置
JP4930014B2 (ja) 音声認識装置、および音声認識方法
JP4635743B2 (ja) 音声対話装置及び音声理解結果生成方法
WO2009147745A1 (ja) 検索装置
JPH09114482A (ja) 音声認識のための話者適応化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100921

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees