JP5066483B2

JP5066483B2 - 言語理解装置

Info

Publication number: JP5066483B2
Application number: JP2008134401A
Authority: JP
Inventors: 幹生中野; 博奥乃; 和範駒谷; 雄一朗福林; 孝太郎船越
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2007-05-22
Filing date: 2008-05-22
Publication date: 2012-11-07
Anticipated expiration: 2028-05-22
Also published as: US8244522B2; JP2008293019A; DE602008002017D1; US20080294437A1; EP2003572B1; EP2003572A1

Description

本発明は、自然言語処理に関する。特に、音声認識結果などに基づく言語理解をするための言語理解装置に関する。

音声認識に基づく言語理解のための手法として、非特許文献１には、ユーザの発話をキーワードスポッティングやヒューリスティックなルールで分類する手法が記載されている。また、非特許文献２には、コーパスを利用してコンセプトの出現確率を学習する手法が記載されている。また、非特許文献３や非特許文献４には、Weighted Finite State Transducer（ＷＦＳＴ）を利用した手法が記載されている。
Stephanie Seneff，"TINA: A natural language system for spoken language applications."，Computational Linguistics, Vol.18, No.1, pp. 61-86, 1992. Katsuhito Sudoh and Hajime Tsukada，"Tightly integrated spoken language understanding using word-to-concept translation."，In Proc. EUROSPEECH, pp. 429-432, 2005. Alexandors Potamianos and Hong-KwangJ. Kuo.，"Statistical recursive finite state machine parsing for speech understanding."，In Proc. ICSLP, pp. 510-513, 2000. Chai Wutiwiwatchai and Sadaoki Furui，"Hybrid statistical and structural semantic modeling for Thai multi-stage spoken language understanding."，In Proc. HLT-NAACL Workshop on Spoken Language Understanding for Conversational Systems and Higher Level Linguistic Information for Speech Processing, pp. 2-9, 2004.

音声対話システムにおける言語理解として音声認識誤りに頑健なものが求められている。また、そうした言語理解装置は少量の学習データで構築できることが望ましい。学習データの収集には、大量の時間と手間がかかるので、必要な学習データが少ない方が新たな対話システムの言語理解装置を作りやすくなるからである。これまで、音声対話システムにおける言語理解装置の実装手法としていくつかの方法が提案されてきた。音声認識器に文法ベースのものを利用する方法が最も単純な方法である。この方法では、音声認識結果からシステムの内部表現であるコンセプトへの変換が容易である。しかし、ユーザの様々な表現を受け入れるためには複雑な文法を用意する必要があり、システム制作者への負担が大きい。

また、他の方法としては、ユーザの発話をキーワードスポッティングやヒューリスティックなルールで分類する手法がある（非特許文献１）。この方法では、ルールに大きな修正を加えることなくユーザの発話をコンセプトへ変換できる。しかし、複雑なルールの準備には時間や手間がかかり、文法を利用した手法と同様にシステム制作者への負担が大きい。

この問題に対処するために、コーパスを利用してコンセプトの出現確率を学習する手法（非特許文献２）やWeighted Finite State Transducer（ＷＦＳＴ）を利用した手法（非特許文献３，非特許文献４）が提案されてきた。しかし、これらの手法は大量の学習データを必要とし、新たなドメイン向けの言語理解装置を構築するのは容易ではない。また、学習した結果は利用したコーパスのドメインに依存したものである。しかも、重みは固定なので発話の状況やユーザの変化には対応できない。

本発明は、上記の課題認識に基づいて行なわれたものであり、大量の学習データや複雑なルールを用いずに、比較的容易に構築可能でかつ頑健さも兼ね備えた言語理解装置を提供することを目的とする。

上記の課題を解決するため、本発明の一態様による言語理解装置（１，２０１）は、遷移前状態と入力単語と出力と正の値である単語重み値情報と遷移先状態とを含む組である単語遷移データと、単数又は複数の単語に対応する言語理解結果であるコンセプトと該コンセプトに対応する正の値であるコンセプト重み値情報とを含む組であるコンセプト重みデータと、遷移前状態、任意の単語にマッチするフィラー、負の値であるフィラー重み値情報及び遷移先状態を含む組であるフィラー遷移データと、を言語理解モデルとして記憶する言語理解モデル記憶部（１０，２１０）と、入力される単語系列に含まれる単語と現状態とに基づき、前記言語理解モデル記憶部から読み出した前記単語遷移データに従って、定義された前記出力を理解結果候補として出力し、単語重み値を累積し、前記言語理解モデル記憶部から読み出した前記フィラー遷移データに従って、フィラー重み値を累積し、前記遷移先状態に遷移する状態遷移動作を順次行なう有限状態変換器処理部（２０，２２０）と、前記言語理解モデル記憶部から読み出した前記コンセプト重みデータに従って、前記有限状態変換器処理部から出力された前記理解結果候補に含まれるコンセプトに対応するコンセプト重み値を累積するコンセプト重み付け処理部（３０，２３０）と、出力された複数の系列の前記理解結果候補の中から、前記累積された単語重み値と前記累積されたコンセプト重み値と前記累積されたフィラー重み値との重み付き和である累積重みが最大となる理解結果を決定する理解結果決定部（４０，２４０）とを具備することを特徴とする。

この構成によれば、有限状態変換器処理部は、単語遷移データに基づき、入力される単語系列に従って順次状態遷移をしながら、理解結果候補を出力するとともに、その理解結果候補に対する単語重み値を累積していく。入力される単語系列に含まれるすべての単語に基づく状態遷移が終了すると、理解結果候補と累積された単語重み値が得られる。コンセプト重み付け処理部は、コンセプト重みデータに基づき、前記の理解結果候補に含まれるコンセプトについてのコンセプト重み値を累積していく。理解結果候補に含まれるすべてのコンセプトについての処理が終了すると、累積されたコンセプト重み値が得られる。理解結果候補が複数出力されたとき、それぞれに対して、累積された単語重み値と累積されたコンセプト重み値が得られている。理解結果決定部は、累積された単語重み値と累積されたコンセプト重み値に基づく所定の計算を行なうことにより、最良の候補を理解結果として決定する。このように、入力単語列に基づいて、その最良の理解結果が得られる。
つまり、ＷＦＳＴに対する重みづけを、音声認識結果のレベル(単語ごとのレベル)と言語理解結果であるコンセプトのレベル（コンセプトごとのレベル）の２つのレベルで行なうことにより、膨大な学習データを用意することなく、言語理解の精度を比較的容易に向上させることができる。

この構成により、有限状態変換器処理部が取り込む単語系列に含まれる任意の単語（空単語を含む）にフィラーをマッチさせ、有限状態変換器処理部は、そのマッチに基づく状態遷移の処理を行う。また、その状態遷移の際に、フィラー重み値の累積を行なう。入力される単語系列に含まれるすべての単語による状態遷移が完了すると、理解結果候補とともに、累積されたフィラー重み値が得られる。理解結果決定部は、単語重み値とコンセプト重み値に加えて、フィラー重み値にも基づき、理解結果を決定する。
冗長な発話による単語（例えば、「えーと」、「あのー」など）がフィラーにマッチすることにより、頑健な言語理解が可能となる。
なお、単語重み値やコンセプト重み値が正の値であるとき、フィラー重み値は負の値とすることが好適である。これにより、フィラーにマッチした度合いの高い理解結果が選択されにくくなり、言語理解の精度向上の観点から都合が良い。

また、本発明の一態様は上記の言語理解装置において、前記入力される単語系列は、音声認識処理の結果得られる単語系列であり、前記言語理解モデル記憶部（１０，２１０）は、前記音声認識処理の音声認識率に応じた前記単語重み値情報と前記コンセプト重み値情報とを記憶するものであり、前記理解結果決定部（４０，２４０）は、前記音声認識率に応じた前記単語重み値情報に基づいて得られた前記累積された単語重み値と、前記音声認識率に応じた前記コンセプト重み値情報に基づいて得られた前記累積されたコンセプト重み値と、に基づき前記理解結果を決定するものであることを特徴とする。

この構成により、音声認識率に応じた最適な重みの種類を用いることが可能となる。単語重み値とコンセプト重み値（さらに、フィラー重み値も）のいずれを重視するかを音声認識率に応じて変えることができる。なお、予め、学習を行なっておくことにより、音声認識率に応じた最適な結果が得られる言語理解モデルを構築できる。
この結果、言語理解の精度をさらに向上させることができる。

また、本発明の一態様は上記の言語理解装置において、前記入力される単語系列は、Ｎ種類（Ｎは２以上の自然数）あり、前記有限状態変換器処理部（２２０）は、Ｎ種類の前記単語系列それぞれについて前記状態遷移動作を行なって対応する前記理解結果候補を出力するものであり、前記理解結果決定部（２４０）は、前記Ｎ種類の前記単語系列に対応するすべての理解結果候補の中から前記理解結果を決定するものであることを特徴とする。

この構成により、仮に言語理解の前段の音声認識の段階では２番目以下（Ｎ番目まで）の信頼度であった入力系列についても、言語理解の対象とすることができる。これらＮ種類の単語系列について、音声認識と言語理解の両方の段階におけるトータルな最適解を、言語理解結果として出力することができるようになる。
この結果、言語理解の精度をさらに向上させることができる。

本発明によれば、大量の学習データなどを準備して用いることなく、比較的容易に構築可能で、かつ頑健さも兼ね備えた言語理解装置を提供することができる。また、上に述べたそれぞれの解決手段により、より一層、言語理解の精度を向上させることが可能となる。

次に、本発明の実施形態について、図面を参照しながら説明する。
［第１の実施の形態］
図１は、本発明の第１の実施形態による言語理解装置の機能構成を示すブロック図である。図示するように、言語理解装置１は、言語理解モデル記憶部１０と、有限状態変換器処理部２０と、コンセプト重み付け処理部３０と、理解結果決定部４０とを含んで構成される。

図２は、同実施形態による音声応答システムの機能構成を示すブロック図である。図示するように、音声応答システムは、上記の言語理解装置１を用いて構成され、他に、音声検出部２と、音響モデル記憶部３と、ドメイン依存言語モデル記憶部４と、音声認識部５と、音声応答部６とを含んでいる。

以下においては、まず、言語理解装置１および音声応答システム１００で用いている技術について詳しく説明した後で、上記構成の具体的な動作について説明する。

＜概略＞音声認識結果とコンセプトへの重みづけによるＷＦＳＴに基づく音声言語理解の高精度化

Weighted Finite State Transducer（ＷＦＳＴ，重み付き有限状態変換器）を用いた言語理解では、入力となる音声認識結果の単語列に対して、各単語に適切な重みを与えることで頑健な言語理解を実現する。しかし一般にその学習には大量のデータが必要であるため、新たなドメインで構築した音声対話システムにおいてＷＦＳＴを用いた言語理解は困難であった。そこで我々は、音声認識結果をフィラーや単語、コンセプトなどとして抽象化し、これらに対して音素数や音声認識の信頼度を利用した重みを割当てる方法を開発した。これにより、大量の学習データが用意できない状況でも頑健な言語理解装置を容易に構築できる。評価実験では、発話の音声認識率に応じて重みを適切に設定することで、言語理解精度が向上することを確認した。この結果は、音声認識率やユーザなどの状況に合わせて重みづけを選択することで言語理解精度が向上する可能性を示した。

我々は、ＷＦＳＴに基づく言語理解の新しい手法を開発した。ＷＦＳＴへの入力は、統計的言語モデルに基づく音声認識器による音声認識結果である。我々の手法では、ＷＦＳＴに対する重みづけを、認識された単語と言語理解結果であるコンセプトの２つのレベルで行う。この重みづけは、従来手法に比べ単純であり、少ないデータで言語理解装置の構築が可能である。また、重みづけに利用する特徴量はドメイン非依存であり、一般的な音声対話システムに適用できる。評価実験では、対象とするドメインで適切なパラメータを選択することで言語理解精度が向上することを確認した。さらなる調査の結果、このパラメータは、音声認識率に依存して変化するため，我々の手法では当該ドメインで予測される音声認識率に応じて適切なパラメータを選択することで言語理解精度が向上する。この結果は、音声認識率やユーザなどの状況に応じて適切にパラメータを選択することで、適応的に言語理解精度が向上する可能性を示している。

＜１．関連研究とＷＦＳＴに基づく言語理解＞
音声対話システムの言語理解として、タグ付けされたコーパスを利用した学習による方法が提案されている（非特許文献２）。この方法では、コーパスから音声認識結果とそれに対応するコンセプトの組の出現確率を学習する。したがって、言語理解装置の構築には大量のタグ付けされたコーパスが必要であり、新たなドメインの言語理解装置を構築するのは容易ではない。言語理解の手法として、ＷＦＳＴを利用した方法も提案されている（非特許文献３，非特許文献４）。ここでまず、ＦＳＴについて簡単に説明する。一般に、ＦＳＴは入力列に対して、状態を遷移しながら入力に応じた列を出力するオートマトンで、一種の変換器とみなせる。ＷＦＳＴでは、各状態遷移に対して重みを設定でき、最終的な出力列の他に累積重みが得られる。図３にＷＦＳＴの例を示す。この図では、“ａ：ｙ／０．７”は“ａ”が入力されたら“ｙ”を出力し、０．７を累積重みに足して遷移することを示している。この例では、入力“ａｂｂｄ”に対して“ｙｚｚ”が出力される。その時の累積重みは２．５である。

ＦＳＴに基づく言語理解装置では、音声認識結果を入力し、出力として言語理解結果を得る。図４はビデオ予約システムの言語理解装置のＦＳＴの例である。入力のεは、入力なしでの遷移が可能であることを表す。この例では、「開始時間は１０時３０分です」という入力列に対して、「開始時間は＄１０時ｈｏｕｒ＝１０＄３０分ｍｉｎｕｔｅ＝３０です」という出力列が得られる（「＄」は何も出力されなかった場合を考慮したダミー記号である）。最終的に言語理解結果として、［ｈｏｕｒ＝１０，ｍｉｎｕｔｅ＝３０］を得る。しかし、この方法では「えーと開始時間は１０時３０分です」という入力に対しては、「えーと」に対して遷移先がなく、言語理解結果が得られない。そこで、我々は任意の入力を受け入れるＦＩＬＬＥＲ（フィラー）遷移を導入した。０回以上のＦＩＬＬＥＲ遷移（図４の‘Ｆ’）を各フレーズ間に挿入することで、フィラーの影響を受けることなく正しい言語理解結果が得られる。

しかしながら、ＦＩＬＬＥＲ遷移を導入すると、ひとつの入力列に対して何通りもの出力列が結果として得られることになる。ひとつの入力列に対して、ＷＦＳＴ上での遷移は何通りもあるからである。ＷＦＳＴに基づく言語理解では、何通りもある出力列から累積重みw が最も大きいものを言語理解結果として採用する。図５（Ａ）では、累積重みｗが２．０と最も高い［ｈｏｕｒ＝１０，ｍｉｎｕｔｅ＝３０］が言語理解結果として採用される。また、図５（Ｂ）は、入力列に含まれる一部の単語にＦＩＬＬＥＲがマッチする例と、それぞれの言語理解結果とを示す。図５（B）の１行目の入力列「well, start at 10 30 please」については「well,」がＦＩＬＬＥＲにマッチし、言語理解結果は「ｈｏｕｒ＝１０，ｍｉｎｕｔｅ＝３０」となる。同じく２行目の入力列「OK, well, start at 10 30 please」については「OK,」と「well,」がＦＩＬＬＥＲにマッチし、言語理解結果は「ｈｏｕｒ＝１０，ｍｉｎｕｔｅ＝３０」となる。また、以下同様である。

ＷＦＳＴを利用した従来の手法では、各遷移の重みを大量のコーパスから学習していた（非特許文献３，非特許文献４）。しかし，コーパスの収集には大きな労力が必要で、新たなドメインの言語理解装置の構築は難しかった。また、重みは固定であるので、発話の状況やユーザの違いにより言語理解精度が大きく変わる可能性がある。特に、言語理解は音声認識の精度に強く依存したものであり、その精度に応じたモデル化が必要である。我々の手法では、重みづけを音声認識結果の単語の長さや信頼度などのドメインに非依存な特徴量を利用して行う。したがって、大量のコーパスがなくても容易に言語理解装置を構築できる。さらに、評価実験では音声認識率ごとに最適な重みづけの組み合わせを調べ、すべての発話に対して同じ重みづけをした場合よりも言語理解精度が向上することを確認した。

＜２．音声認識結果とコンセプトに対する重みづけ＞
我々はＷＦＳＴに対する重みづけを２つのレベルで定義する。ひとつは、音声認識結果に対する重みづけで単語レベルで信頼できる出力結果を選択するために設定する。もうひとつは、コンセプトに対する重みづけでコンセプトレベルで信頼できる出力結果を選択するために設定する。コンセプトに対する重みづけは、認識された単語よりも抽象的なレベルでの正しさを反映する。また、音声認識結果に対する重みづけは受理単語に対する重みづけとＦＩＬＬＥＲに対する重みづけの２つに分けられる。本節では、これらの重みづけを説明する。

＜２．１受理単語に対する重みづけ＞
ＷＦＳＴに入力し受理された単語、つまりＦＩＬＬＥＲ以外の単語に対して重みづけを行う。この重みづけでは、音声認識結果の単語レベルで信頼できる単語に対してより大きな重みを与える。通常は、フィラー以外の単語が出力列に多くなるように、音声認識結果が信頼できる入力が優先されるように設定する。我々は、この重みづけｗ_ｗを以下のように設計した。
（１）ｗｏｒｄ（ｃｏｎｓｔ．）：ｗ_ｗ=１．０
（２）ｗｏｒｄ（＃ｐｈｏｎｅ）：ｗ_ｗ=ｌ（Ｗ）
（３）ｗｏｒｄ（ＣＭ）：ｗ_ｗ=ＣＭ（Ｗ）
ｗｏｒｄ（ｃｏｎｓｔ．）は受理された全ての単語に対して一定の重みを加える。この重みづけは、受理単語の数が多い出力を優先するための設計である。ｗｏｒｄ（＃ｐｈｏｎｅ）は、各受理単語の長さを考慮に入れた重みづけである。各単語の長さは、それぞれの音素数で計算し、システムの語彙中で最も長い単語の長さで正規化する。単語Ｗに対してこの正規化された値をｌ（Ｗ）（０＜ｌ（Ｗ）≦１）とする。ｗｏｒｄ（＃ｐｈｏｎｅ）は、入力列の長さをｗｏｒｄ（ｃｏｎｓｔ．）よりも詳細に表現していると言える。さらに、受理単語の信頼度を考慮に入れたｗｏｒｄ（ＣＭ）も提案する。この重みづけは、音声認識結果中の単語Ｗに対する信頼度ＣＭ（Ｗ）を利用している。この重みづけは、Wに対する音声認識結果がどれだけ信頼できるかを反映しており、長くかつ信頼できる出力列を優先するための設計と言える。

ここで、単語Ｗに対する信頼度ＣＭ（Ｗ）とは、音声認識処理の際に単語Ｗが認識結果候補の一部に含まれるとき、この単語Ｗの尤度と、対立候補である他の単語の尤度との関係により算出される。対立候補の尤度に比して当該候補（単語Ｗ）の尤度が相対的に高いほど、信頼度ＣＭ（Ｗ）は高い値となる。なお、単語Ｗに対する信頼度ＣＭ（Ｗ）については、下記の文献にも記載されている。
文献： Akinobu Lee, Kiyohiro Shikano, and Tatsuya Kawahara，“Real-time word confidence scoring using local posterior probabilities on tree trellis search.”，In Proc. ICASSP, Vol.1, pp. 793-796, 2004.

＜２．２ＦＩＬＬＥＲに対する重みづけ＞
我々はフィラーに対する重みも設計した。すべての入力単語をフィラーとして扱えるので、フィラーに対する重みはペナルティとして考え、負の値を設定した。一般的には、入力となる音声認識結果が信頼でき、正しい理解結果が含まれているならば、フィラーが少なくかつ短い出力列を優先するように設定する。我々は、受理単語に対する重みづけと同様にして以下のように重みづけｗ_ｆを2 種類設計した。
（１）ＦＩＬＬＥＲ（ｃｏｎｓｔ．）：ｗ_ｆ＝−１．０
（２）ＦＩＬＬＥＲ（＃ｐｈｏｎｅ）：ｗ_ｆ＝−ｌ（Ｗ）
ＦＩＬＬＥＲ（ｃｏｎｓｔ．）はフィラーの数に対するペナルティであり、ＦＩＬＬＥＲ（＃ｐｈｏｎｅ）はフィラーとされた単語の長さも考慮したペナルティである。

＜２．３コンセプトに対する重みづけ＞
我々は、単語レベルでの重みに加えて、コンセプトレベルにおける重みも設計した。コンセプトは、複数の単語から成り，音声認識結果をＷＦＳＴに入力することで得られる。コンセプトに対する重みは、それぞれのコンセプトに含まれる単語の信頼度などを用いて計算する。

我々は、以下のように重みづけｗ_ｃを5 種類設計した。
（１）ｃｐｔ（ｃｏｎｓｔ．）：ｗ_ｃ＝１．０

（２）ｃｐｔ（ａｖｇ）：

（３）ｃｐｔ（ｍｉｎ）：

（４）ｃｐｔ（ｌｅｎＣＭ（ａｖｇ））：

（５）ｃｐｔ（ｌｅｎＣＭ（ｍｉｎ））：

但し、Ｗ（太字）は当該コンセプトに含まれる単語の集合で、Ｗは集合Ｗ（太字）に含まれる単語である。また、＃Ｗ（太字）はW（太字）に含まれる単語の数である。

ｃｐｔ（ｃｏｎｓｔ．）は、１発話から得られるコンセプトが多くなるようにするための重みづけである。また、ｃｐｔ（ａｖｇ）やｃｐｔ（ｍｉｎ）はコンセプトを構成する単語の認識結果が信頼できないものを棄却するための設定である。ｃｐｔ（ｌｅｎＣＭ（ａｖｇ））やｃｐｔ（ｌｅｎＣＭ（ｍｉｎ））は、コンセプトに含まれる単語の信頼度の他にそれらの長さも考慮に入れた重みづけである。どちらもコンセプト部分が長くかつ信頼できる発話を優先するための設定である。ｃｐｔ（ａｖｇ）やｃｐｔ（ｌｅｎＣＭ（ａｖｇ））で平均を計算しているのは、コンセプトを構成するすべての単語の影響を反映するためである。また、ｃｐｔ（ｍｉｎ）やｃｐｔ（ｌｅｎＣＭ（ｍｉｎ））で最小値を選ぶのは、不当に信頼度が高い単語による湧き出し誤りを防ぐためである。

＜２．４累積重みの計算＞
言語理解結果は、以上で示した３種類の重みｗ_ｗ，ｗ_ｆ，ｗ_ｃの重みつき和である累積重みｗによって選ばれる。言語理解装置は、累積重みw が最も大きい出力列を選ぶ。

累積重みw の計算方法を図６を用いて説明する。この例では、パラメータとしてｗｏｒｄ（ＣＭ），ＦＩＬＬＥＲ（ｃｏｎｓｔ．），ｃｐｔ（ｌｅｎＣＭ（ａｖｇ））を選択している。入力が「いいえ２月２２日です」である場合、この表では受理単語に対する重みの総和は３．５α_ｗで、ＦＩＬＬＥＲに対する重みの総和は−１．０α_ｆである。また、コンセプト“ｍｏｎｔｈ＝２”に対する重みα_ｃ（０．９・０．９）／１＝０．８１α_ｃとコンセプト“ｄａｙ＝２２”に対する重みα_ｃ（１．０・０．９＋０．９・０．６）＝０．７２α_ｃにより、コンセプトに対する重みの総和は１．５３α_ｃである。したがって、この入力列に対する累積重みｗは３．５α_ｗ−１．０α_ｆ＋１．５３α_ｃとなる。

＜３．評価実験＞
＜３．１実験条件＞
上の「２．音声認識結果とコンセプトに対する重みづけ」で定義した重みづけを実験的に評価する。実験ではまず、ユーザ発話の音声認識結果をＷＦＳＴに入力し、累積重みｗが最も高い出力列を言語理解結果として採用する。この言語理解結果を正解データと比較して言語理解精度を計算する。なお、言語理解が得られない「なし」が正解であることもあるので、音声認識率が０％でも言語理解精度が１００％になることはありうる。実験では、重みづけや各重みの係数α_ｗ，α_ｆ，α_ｃをさまざまな組合せで変化させ言語理解精度を比べた。係数α_ｗは１．０に固定し，他の係数α_ｆとα_ｃを０，０．５，１．０，２．０，３．０，４．０，５．０と変化させた。α_ｆ＝０あるいはα_ｃ＝０は、対応する重みが利用されないことを表している。

実験では、ビデオ予約ドメインの４１８６発話とレンタカー予約ドメインの３２８１発話を用いた。ビデオ予約ドメインは２５人の被験者の８対話から、レンタカー予約ドメインは２３人の被験者の８対話から発話を収集した。音声認識器はＪｕｌｉｕｓ（http://julius.sourceforge.jp/）を用いた。言語モデルは、各ドメインの認識文法から生成した例文１００００文から作成した統計的言語モデルである。ビデオ予約ドメインの言語モデルの語彙サイズは２０９で、レンタカー予約ドメインの言語モデルの語彙サイズは２２６であった。平均の音声認識率（本稿では音声認識率を挿入誤りまで考慮して計算したので、音声認識率は負になることもある。）はビデオ予約ドメインで８０．３％、レンタカー予約ドメインで５２．８％であった。それぞれのドメインの言語理解の正解は、書き起こしをＷＦＳＴに入力して作っている。

＜３．２すべての発話に対して最適なパラメータの組み合わせ＞
本稿では、入力に対して単純に文法との最長一致をとる言語理解をベースラインとする。このベースラインは、重みづけをｗ_ｗ＝ｗｏｒｄ（ｃｏｎｓｔ．）に、α_ｆを０に（ＦＩＬＬＥＲに対する重みづけは利用しない）、α_ｃを０に（コンセプトに対する重みづけは利用しない）する場合が相当する。

全発話に対して最適な重みと係数の組み合わせを求めた。ビデオ予約ドメインでは、ｗ_ｗ＝ｗｏｒｄ（ｃｏｎｓｔ．），α_ｆ=１．０，ｗ_ｆ＝ＦＩＬＬＥＲ（＃ｐｈｏｎｅ），α_ｃ＝５．０，ｗ_ｃ＝ｃｐｔ（ｌｅｎＣＭ（ａｖｇ））の時で平均言語理解精度は８７．３％、レンタカー予約ドメインでは、ｗ_ｗ＝ｗｏｒｄ（ＣＭ），α_ｆ＝０．５，ｗ_ｆ=ＦＩＬＬＥＲ（＃ｐｈｏｎｅ），α_ｃ＝０の時で平均言語理解精度は６５．０％であった。ビデオ予約ドメインのベースラインの平均言語理解精度は８１．５％で、最適時とそれほど大きな差はなかった。これは、ビデオ予約ドメインの平均音声認識率が８０．３％と比較的高かったことが原因であると考えられる。つまり、音声認識に誤りがほとんどないならば、単純に最も長く一致するような出力結果を選択すればよいということである。一方で、レンタカー予約ドメインの平均音声認識率は５２．８％と低く、最適時の平均言語理解精度６５．０％と比べて、ベースラインでは４５．５％と大きな差ができている。つまり、音声認識率が低い場合、最適となる組み合わせはベースラインとして設定した組み合せとは異なる。

＜３．３音声認識率に合わせたパラメータの組み合わせ＞
３．２節の結果より、最適な重みづけの組み合わせは発話の音声認識率に合わせて決定すると改善することが分かる。そこで、音声認識率ごとに適切なパラメータの組み合わせを調べた。発話データを音声認識率ごとに分類し、それぞれの音声認識率ごとに言語理解精度を計算した。そして、各認識精度ごとにベースラインと言語理解精度を比べた。図７、図８はその結果である。表中のクラス１０〜３０は、音声認識率が１０％以上３０％未満であることを表す。ただし、９０〜１００は１００％も含む。

この表からすべてのクラスでベースラインより言語理解精度が向上していることが分かる。特にレンタカー予約ドメインでは、言語理解精度がベースラインと比べて大きく向上している。

この結果から、どちらのドメインでも音声認識率が高い発話では受理単語に対する重みづけとして、ｗｏｒｄ（ｃｏｎｓｔ．）やｗｏｒｄ（＃ｐｈｏｎｅ）が有効で、音声認識率が低い発話ではｗｏｒｄ（ＣＭ）が有効であることが分かる。特にレンタカー予約ドメインではその傾向が強い。これは、発話が正しく認識されているときは、受理単語が最も多い出力を選択し、音声認識率があまりよくないときには、信頼できる部分だけを選択すると正しい言語理解が得られるからであると考えられる。

両ドメインのどのクラスでもフィラーに対するペナルティが必要であることが分かる。これは、フィラーによるコンセプトの湧き出し誤りを抑制する必要があるためと考えられる。また、どちらのドメインでもほとんどのクラスでＦＩＬＬＥＲ（＃ｐｈｏｎｅ）が最適である。確かに、フィラーは言語理解には意味のない情報であるから、単語数よりも音素数(継続時間) の方がペナルティの基準としては適切であると考えられる。

コンセプトに対する重みは、どちらのドメインでも必要であり、単語レベルの重みに加えて、コンセプトレベルの重みも有効であることが示されている。レンタカー予約ドメインの−∞ 〜１００（全発話）クラスでは、コンセプトに対する重みはなしが最適となっているが、ｃｐｔ（ｌｅｎＣＭ（ａｖｇ））やｃｐｔ（ｌｅｎＣＭ（ｍｉｎ））としても言語理解精度は６４．９％とほとんど変わらない。どちらのドメインでも、ほとんどのクラスでｃｐｔ（ａｖｇ）やｃｐｔ（ｌｅｎＣＭ（ｍｉｎ））など単語信頼度を利用したものが最適である。コンセプトに対する重みとして単語信頼度が有効に働いていると言える。

以上に示した結果は、重みづけのパラメータの組み合わせを音声認識率に応じて適切に選択することで、言語理解精度が向上することを示している。音声対話システムにおける音声認識率は、それほど大量の発話データがなくても計算できる。したがって、我々の手法は、大量のコーパスが用意できない新しいドメインにおいて言語理解装置を構築する場合に効果的であると言える。また、今回の実験の結果は、事前に認識率を計算できなくても、ユーザや状況に合わせて重みづけの組み合せを変えることで、言語理解精度が向上する可能性を示していると考えられる。例えば、ユーザが音声対話システムに慣れていない初心者ならば低い音声認識率に合わせたパラメータを選択し、周囲が静かで雑音が少ない環境ならば高い音声認識率に合わせたパラメータを選択すれば、言語理解精度のさらなる向上が期待できる。

最後に本手法の動作例を図９に示す。この例では、ユーザの発話は「ろくがつみっかおねがいします」であるが「ろくがつみっかあーふぃっとおねがいします」（「ＦＩＴ」は登録商標）と誤って認識されている。ベースライン手法では、単純に受理単語が最も多くなるように「ふぃっとおねがいします」（「ＦＩＴ」は登録商標）が受理され、「ろくがつ」「みっか」は誤って棄却されてしまう。一方で、我々の手法では、「ろくがつ」「みっか」の信頼度やフィラーの長さを考慮することで正しい言語理解結果が得られる。

ここで、図１に戻って、言語理解装置１の各部の動作について説明する。
言語理解装置１には、音声認識結果が入力される。この音声認識結果は、単語の列である。また、この音声認識結果に、前段の音声認識の処理の際の音声認識率のデータや、単語ごとの信頼度のデータが含まれていても良い。

言語理解モデル記憶部１０は、単語遷移データとコンセプト重みデータとを言語理解モデルとして記憶している。また、言語理解モデルにフィラー遷移データが含まれていても良い。単語遷移データは、入力される単語による状態遷移を定義するデータであり、遷移前状態と入力単語と出力と単語重み値情報と遷移先状態との組のデータが複数含まれている。フィラー遷移データは、任意の単語（空単語も含む）の入力による状態遷移を定義するデータであり、遷移前状態と任意の単語にマッチするフィラーとフィラー重み値情報と遷移先状態との組のデータが複数含まれている。コンセプト重みデータは、コンセプトに対する重みを定義するためのデータであり、コンセプトとそのコンセプトに対応するコンセプト重み値情報との組のデータが複数含まれている。

なお、単語重み値情報、フィラー重み値情報、コンセプト重み値情報は、それぞれの重み値としてどの種類（関数）を使うかという情報と、複数種類の重み（ｗ_ｗ，ｗ_ｆ，ｗ_ｃ）の重みつき和である累積重みｗを算出する際のパラメータであるα_ｗ，α_ｆ，α_ｃの値をそれぞれ含んでいる。また、言語理解モデルが、音声認識率の範囲ごとに最適な単語重み値情報、フィラー重み値情報、コンセプト重み値情報を持つようにしても良い。

有限状態変換器処理部２０は、入力される単語系列に含まれる単語と現状態とに基づき、言語理解モデル記憶部１０から読み出した単語遷移データに従って、定義された出力を理解結果候補として出力し、単語重み値を累積するとともに、遷移先状態に遷移する状態遷移動作を順次行なう。また、フィラーを用いる場合には、任意の単語（空単語を含む）をフィラーとしてマッチさせ、フィラー遷移データに従って、フィラー重み値を累積するとともに遷移先状態に遷移する状態遷移動作を行なう。なお当然、一つの出力系列（理解結果候補）を得るために、フィラーによる遷移とフィラー以外の入力単語による遷移とが混合しても良い。なお、有限状態変換器処理部２０の内部のメモリを適宜更新することにより遷移中の現状態を一時的に保持する。

有限状態変換器処理部２０は、上記の処理の結果として、上記の定義された出力の系列を理解結果候補としてコンセプト重み付け処理部３０に渡す。一つの入力系列に対して複数の理解結果候補が出力される。また、各々の理解結果候補について、累積された単語重み値（Σα_ｗｗ_ｗ）が出力される。また、フィラーを用いる場合には、累積されたフィラー重み値（Σα_ｆｗ_ｆ）も各々の理解結果候補について出力される。

コンセプト重み付け処理部３０は、言語理解モデル記憶部１０から読み出したコンセプト重みデータに従って、有限状態変換器処理部２０から出力された理解結果候補に含まれるコンセプトに対応するコンセプト重み値を累積する処理を行なう。その結果、有限状態変換器処理部２０からの出力に加えて、コンセプト重み付け処理部３０は、累積されたコンセプト重み値（Σα_ｃｗ_ｃ）を各理解結果候補について出力する。

なお、コンセプトは、予め定めておくスロットとそのスロットに対応する値の組とする。言語理解結果（候補も含む）は、コンセプトの集合である。例えば、［ｍｏｎｔｈ＝２，ｄａｙ＝２２］という言語理解結果（候補）は、スロット「ｍｏｎｔｈ」に値「２」が設定され、スロット「ｄａｙ」に値「２２」が設定されたコンセプトにより構成される。言語理解結果（候補）は、予め定められた言語理解モデルに従って有限状態変換器処理部２０が出力した系列である。つまり、言語理解モデルを参照することにより、コンセプトと単語集合との対応付けがわかる。つまり、コンセプト重み付け処理部３０は、言語理解モデルを参照することによって、理解結果候補に対応するコンセプト重み値を算出することができる。

理解結果決定部４０は、出力された複数の系列の理解結果候補の中から、累積された単語重み値と累積されたコンセプト重み値とに基づき理解結果を決定し出力する。また、フィラーを用いる場合には、理解結果決定部４０は、累積された単語重み値と累積されたフィラー重み値と累積されたコンセプト重み値とに基づき理解結果を決定し出力する。

なお、上記の一連の処理において、音声認識率に基づいて言語理解処理を行なう場合には、有限状態変換器処理部２０とコンセプト重み付け処理部３０は、入力される音声認識率の情報に基づき、言語理解モデル記憶部１０からその音声認識率に該当するデータを読み出して処理を行なう。

次に、図２に示した音声応答システム１００の各部の動作について説明する。
音声検出部２は、マイクを通して入力される外部からの音声信号に基づき、利用者の声の区間を検出し、その音声区間の音声波形のデータを出力する。

音響モデル記憶部３は、音素ごとの音響特徴量のデータを音響モデルとして予め記憶している。音響特徴量としては、例えば、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient、メル周波数ケプストラム係数）などを用いる。ドメイン依存言語モデル記憶部４は、当該ドメインにおける単語出現頻度や、当該ドメインにおける複数の単語間の接続確率（条件付き確率）のデータをドメインに依存する言語モデルとして予め記憶している。音声認識部５は、音響モデル記憶部３から読み出した音響モデルとドメイン依存言語モデル記憶部４から読み出した言語モデルとを用いて、音声検出部２から渡される音声波形データの音声認識処理を行い、その結果として得られる最尤単語系列を、音声認識結果として出力する。

言語理解装置１は、音声認識部５から出力された単語系列を基に、上述した言語理解処理を行い、その結果得られる理解結果を出力する。そして、応答生成部６は、得られた理解結果を基に、当該ドメイン特有の処理（例えば、レンタカー予約や、ビデオ予約など）を行い、その結果として利用者に対する応答を出力する。この応答は、文字列データとして出力するようにしても良いし、音声合成処理によって合成音声として出力するようにしても良い。

我々は、音声対話システムにおけるＷＦＳＴを利用した言語理解装置を開発した。利用するＷＦＳＴでは、２レベルの重みづけを設計した。この２レベルの重みづけは、認識単語レベルの言語理解とコンセプトレベルの言語理解に対応している。これらの重みは、音声認識結果中の単語の音素数や信頼度を利用して計算される。したがって、重みづけが比較的単純であり、新たなドメイン向けの言語理解装置の構築が容易である。

評価実験では、２つの異なるドメインの発話データに対して、音声認識率ごとに最適なパラメータを求めた。音声認識率ごとにパラメータを選択することで、ベースラインと比べて言語理解精度が向上することを確認した。また、２つのドメインの音声認識率と最適な重みづけの違いから、音声認識率と最適な重みづけの関係を考察した。この結果は、音声認識率やユーザなどの発話の状況に合わせた重みづけによる言語理解精度の向上の可能性を示したと言える。

［第２の実施形態］
次に、本発明の第２の実施形態について説明する。本実施形態では、音声認識結果のＮベスト候補（Ｎ−Ｂｅｓｔ候補）を利用する。Ｎベスト候補を利用すれば、認識結果の第１候補に正しい認識結果が含まれていない場合でも、Ｎベスト候補中に正しい認識結果が含まれていれば、その結果を利用して言語理解精度のさらなる向上が可能となる。

図１０は、本実施形態による言語理解装置の機能構成を示すブロック図である。図示するように、言語理解装置２０１は、言語理解モデル記憶部２１０と、有限状態変換器処理部２２０と、コンセプト重み付け処理部２３０と、理解結果決定部２４０とを含んで構成される。言語理解装置２０１が第１の実施形態による装置と異なる点は、主として、入力される音声認識結果がＮベスト（Ｎは２以上の自然数）である点である。以下では、第１の実施形態と共通の事項については記載を省略し、本実施形態特有の事項を中心に説明する。

本実施形態による言語理解装置は、音声認識部５からのＮベスト出力の音声認識結果を入力とする。Ｎベスト出力とは、音声認識結果の候補のうち信頼度が高い上位Ｎ個の単語列である。

本実施形態の有限状態変換器処理部２２０とコンセプト重み付け処理部２３０は、音声認識結果のＮベスト候補の文それぞれの全ての出力系列に対して、３種類の重みｗ_ｗ，ｗ_ｆ，ｗ_ｃの重み付き和ｗを計算し理解結果候補を出力する。その後、理解結果決定部２４０は、それらの全ての出力系列の中で最も重み付き和ｗの大きい出力列（言語理解結果候補）を選ぶことにより、言語理解結果を決定する。
図１１は、音声認識結果のNベスト出力の一例を示す概略図である。図示する例では、ランクにおいて１番目の音声認識結果は「No, it is January twenty second」（いいえ、１月２２日です）であり、２番目の音声認識結果は「No, it is February twenty second」（いいえ、２月２２日です）である。本実施形態の言語理解装置は、ランクにおいて１番目の音声認識結果だけでなく、２番目の音声認識結果による言語理解結果も言語理解結果候補となり得る。そして、重み付き和ｗの結果に応じて、２番目あるいはそれ以下のランクの音声認識結果に基づく言語理解結果候補が最終的に出力される。

なお、上述した実施形態における言語理解装置や音声応答システムの機能の全部または一部をコンピュータで実現するようにしても良い。その場合、それらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこれらの実施形態に限られるものではなく、これらの実施形態を変形した実施形態や、この発明の要旨を逸脱しない範囲の設計等も含まれる。

例えば、有限状態変換器処理部とコンセプト重み付け処理部を一体として構成しても良い。これは、言い換えれば、有限状態変換器処理部の処理をすべて終えてからコンセプト重み付け処理部の処理を行なう代わりに、有限状態変換器処理部による状態遷移動作をしながら、入力単語系列のうちの直前のｊ語（ｊは、適宜決められる整数）の系列に基づいてコンセプトを同定し、そのコンセプトに対応するコンセプト重み値を順次累積していくという処理方法である。なお、このように有限状態変換器処理部による処理とコンセプト重み付け処理部による処理が一部並行して行なわれる場合にも、コンセプト重み付け処理部が、言語理解モデル記憶部から読み出したコンセプト重みデータに従って、有限状態変換器処理部から出力された理解結果候補に含まれるコンセプトに対応するコンセプト重み値を累積していることには変わりはない。

また例えば、上述した実施形態では、有限状態変換器処理部とコンセプト重み付け処理部が、音声認識率に応じて選んだ単語重み値情報、フィラー重み値情報、コンセプト重み値情報を用いて累積重みを算出していたが、その代わりに、有限状態変換器処理部とコンセプト重み付け処理部の側では必要となる可能性のあるすべての種類の重み値を算出しておき、理解結果決定部４０において音声認識率に応じて最終的な全体の重みを算出するようにしても良い。
また例えば、音声認識結果のＮベスト候補を用いる場合、これらの候補についての音声認識処理の信頼度をも加味して理解結果決定部が理解結果候補の中から理解結果を決定するようにしても良い。

本発明は、機械による音声言語理解に応用できる。具体的には、例えば、音声によるヒューマン・マシン・インタフェース（ビジネスシステムにおけるヒューマン・インタフェースや、人とロボットとの間のコミュニケーションや、人と乗り物（自動車など）との間のコミュニケーションなど）に利用できる。

本発明の第１の実施形態による言語理解装置の機能構成を示すブロック図である。同実施形態による音声応答システムの機能構成を示すブロック図である。ＷＦＳＴの例を示す概略図である。ビデオ予約システムの言語理解装置におけるフィラー（「Ｆ」で表わす）を導入したＦＳＴの例を示す概略図である。同実施形態による言語理解結果（候補）とその累積重みｗの例を示す概略図である。同実施形態により特定のパラメータを選択したときの重み付けの計算例を示す概略図である。同実施形態による、音声認識率に応じた最適な重み付けの組み合わせの例を示す概略図（ビデオ予約ドメイン）である。同実施形態による、音声認識率に応じた最適な重み付けの組み合わせの例を示す概略図（レンタカー予約ドメイン）である。同実施形態による言語理解装置の動作例を示した概略図である。本発明の第２の実施形態による言語理解装置の機能構成を示すブロック図である。同実施形態による言語理解装置への入力となる音声認識結果のＮベスト出力を示す概略図である。

符号の説明

１，２０１言語理解装置
１０，２１０言語理解モデル記憶部
２０，２２０有限状態変換器処理部（ＷＦＳＴ）
３０，２３０コンセプト重み付け処理部
４０，２４０理解結果決定部

Claims

遷移前状態と入力単語と出力と正の値である単語重み値情報と遷移先状態とを含む組である単語遷移データと、単数又は複数の単語に対応する言語理解結果であるコンセプトと該コンセプトに対応する正の値であるコンセプト重み値情報とを含む組であるコンセプト重みデータと、遷移前状態、任意の単語にマッチするフィラー、負の値であるフィラー重み値情報及び遷移先状態を含む組であるフィラー遷移データと、を言語理解モデルとして記憶する言語理解モデル記憶部と、
入力される単語系列に含まれる単語と現状態とに基づき、前記言語理解モデル記憶部から読み出した前記単語遷移データに従って、定義された前記出力を理解結果候補として出力し、単語重み値を累積し、前記言語理解モデル記憶部から読み出した前記フィラー遷移データに従って、フィラー重み値を累積し、前記遷移先状態に遷移する状態遷移動作を順次行なう有限状態変換器処理部と、
前記言語理解モデル記憶部から読み出した前記コンセプト重みデータに従って、前記有限状態変換器処理部から出力された前記理解結果候補に含まれるコンセプトに対応するコンセプト重み値を累積するコンセプト重み付け処理部と、
出力された複数の系列の前記理解結果候補の中から、前記累積された単語重み値と前記累積されたコンセプト重み値と、前記累積されたフィラー重み値と、の重み付き和である累積重みが最大となる理解結果を決定する理解結果決定部と、
を具備する言語理解装置。
請求項１に記載の言語理解装置において、
前記入力される単語系列は、音声認識処理の結果得られる単語系列であり、
前記言語理解モデル記憶部は、前記音声認識処理の音声認識率に応じた前記単語重み値情報と前記コンセプト重み値情報とを記憶するものであり、
前記理解結果決定部は、前記音声認識率に応じた前記単語重み値情報に基づいて得られた前記累積された単語重み値と、前記音声認識率に応じた前記コンセプト重み値情報に基づいて得られた前記累積されたコンセプト重み値と、に基づき理解結果を決定するものである、
ことを特徴とする言語理解装置。
請求項１又は２に記載の言語理解装置において、
前記入力される単語系列は、Ｎ種類（Ｎは２以上の自然数）あり、
前記有限状態変換器処理部は、Ｎ種類の前記単語系列それぞれについて前記状態遷移動作を行なって対応する前記理解結果候補を出力するものであり、
前記理解結果決定部は、前記Ｎ種類の前記単語系列に対応するすべての理解結果候補の中から前記理解結果を決定するものである、
ことを特徴とする言語理解装置。