JPH04307664A

JPH04307664A - 音声理解方式

Info

Publication number: JPH04307664A
Application number: JP3072667A
Authority: JP
Inventors: Shinsuke Sakai; 坂井　信輔
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1991-04-05
Filing date: 1991-04-05
Publication date: 1992-10-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声理解方式に関し、
特に音声による問い合わせシステムや自動通訳システム
などの構成要素となる、文音声の音声理解方式に関する
。

【０００２】

【従来の技術】従来、この種の音声理解方式は、文音声
を認識する際に、文脈自由文法や、状態遷移ネットワー
クなどをもちいて、文法的な制約を音声認識に与えると
いう試みが行なわれている。

【０００３】文脈自由文法を用いる方法については、「
連続音声認識・理解システムのための構文解析法の比較
・検討」（情報処理学会論文誌３０巻８号ｐｐ．９３２
〜９４３）に詳しく説明されている。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た従来の音声理解方式は、文法的制約を用いた音声の認
識方式となっているので、一発話文に対して文法的な制
約を適用するのみであって、文法的な制約を満足はする
が、対話の前後の文脈からみて不適切な文が認識される
可能性があり、それを回避することが不可能であるとい
う問題点がある。

【０００５】本発明の目的は、このような欠点を克服し
た、対話の文脈中で適切となるような入力発話の解釈を
おこなう音声理解方式を提供することにある。

【０００６】

【課題を解決するための手段】本第１の発明の音声理解
方式は、複数の発話を入力とする音声理解方式において
、タスク領域の目的を実現するためのステップを記述し
たプランモデルを用いて対話の文脈を記憶することによ
り、現在までに遂行された部分目的の実現に関する命題
内容の第１の期待度を低く設定し、まだ遂行されていな
い部分目的の実現に関する命題内容の第２の期待度を高
く設定し、この第２の期待度と音声認識のパターン類似
度を組み合わせて認識結果を決定している。

【０００７】また本第２の発明の音声理解方式は、複数
の発話を入力とする音声理解方式において、第１のタイ
プの発話の直後における第２のタイプの発話が行なわれ
ると尤度を保持する表を用いて、この尤度と音声認識の
パターン類似度とを組み合わせて認識結果を決定してい
る。

【０００８】さらに本第３の発明の音声理解方式は、複
数の発話を入力とする音声理解方式において、タスク領
域の目的を実現するためのステップを記述したプランモ
デルを用いて対話の文脈を記憶することにより、現在ま
でに遂行された部分目的の実現に関する命題内容の前記
第１の期待度を低く設定し、まだ遂行されていない部分
目的の実現に関する命題内容の前記第２の期待度を高く
設定し、前記第２の期待度と、前記第１のタイプの発話
の直後における前記第２のタイプの発話が行なわれる尤
度を保持する前記表から得られる次発話タイプの尤度お
よび音声認識のパターン類似度とを組み合わせて、認識
結果を決定している。

【０００９】

【作用】本発明の音声理解方式においては、タスク領域
のいろいろな活動の目標（ゴール）に対するプランスキ
ーマをあらかじめ用意しておく。

【００１０】図７は、プランスキーマの一例を示す図で
、コンサートチケットの予約のためのプランをあらわし
ている。

【００１１】第７図において、あるゴールのためのプラ
ンは、それを遂行するためのいろいろな部分目標（サブ
ゴール）を順序良く達成することとしてあらわされる。この部分目標のセットをｓｕｂｇｏａｌｓというスロッ
トに記述する。また、あるゴールを遂行する際にそれと
関連してしばしば達成されるゴールをｒｅｌａｔｅｄ−
ｇｏａｌｓと呼ばれるスロットに記述する。ｋｅｙｓス
ロットは、入力発話の命題内容から、その発話が達成し
ようとしているゴールのプランスキーマを検索するのに
用いられる。以下では、入力発話の命題内容を、単に入
力命題式と呼ぶ場合もある。ｋｅｙｓスロットには、そ
のプランを実行する、あるいは実行を開始するために行
なわれるような発話の命題内容のパターンを記述する。これは、複数になる場合もある。

【００１２】つぎに、発話タイプによる次発話タイプの
予測について説明する。

【００１３】対話の各時点において、次に来ることが可
能な発話のタイプは、直前の発話によってある程度限定
されうる。たとえば、「何枚欲しいですか？」という発
話の後には、「何枚まで買えますか？」や「３枚下さい
」という発話は適切であるが、「こんにちわ。」や「あ
りがとうございました。」という発話は大変不適切であ
る。しかし、「３枚下さい」という発話の後に「ありが
とうございました。」が来るのは不自然ではない。

【００１４】このように、あるタイプの発話がある発話
の直後に行なわれた時にどのくらい適切であり得るかと
いうことが、話されている内容とは関係なく事前に決定
できると考えられる。この性質を次発話の予測に利用す
るには、命題式のレベルで、発話をたとえば、図８のよ
うにいくつかのタイプに分類して、図９のように、各タ
イプごとにある発話タイプの発話の直後に来ることの適
切性の度合を指定するテーブル（以下、発話タイプ間遷
移テーブルと呼ぶ）を記述し、ある適切性の度合以上の
発話タイプのもののみが次に出現し得ると決定するよう
にすればよい。また、出現し得るタイプ間でも、より適
切なものほどより高く評価することにより、より妥当な
入力発話の解釈が、高い評価を得られることになる。

【００１５】つぎに、対話処理のフローについて説明す
る。対話処理モジュールは、音声認識モジュールによっ
て１発話の認識が行なわれるたびにその結果を入力とし
て対話処理を行なう。一回の対話処理は次のように行な
われる。

【００１６】（１）　　プランスキーマのインスタンス
化すでにインスタンス化されているプランがない場合は
、入力発話の命題内容ｃ＊　に対して、それにマッチす
るｋｅｙｓスロット要素をもつプランスキーマがあるか
どうかを調べる。そのようなプランスキーマがあれば、
それをインスタンス化する。すでにプランがインスタン
ス化されている場合は、入力命題式がそのいずれかの（
現在達成可能な）サブコールのプランスキーマのｋｅｙ
ｓ要素にマッチするかどうかを試してみる。そのような
プランスキーマがあれば、それをインスタンス化する。

【００１７】（２）　　プランインスタンスの詳細化次
に、現在の発話内容ｃ＊　によるプランインスタンスの
詳細化が可能であるかどうかをチェックする。もし、い
ずれかのプランインスタンスが、完全に具体化されたな
らば、このプランインスタンスの目標は達成されたこと
になる。

【００１８】（３）　　発話タイプによる次発話タイプ
の絞りこみ現在の発話内容ｃ＊　の発話タイプｕｔ（ｃ＊　）から
、各発話タイプｕｔの次発話としての可能性Ｐｒｏｂ（
ｕｔ｜ｕｔ（ｃ＊　））を発話タイプ間遷移テーブルを
用いてもとめる。次の発話の認識結果の命題内容の一つ
ｃｉ　に対するその発話タイプの出現可能性Ｐｒｏｂｕ
ｔ（ｃｉ　）は、Ｐｒｏｂｕｔ（ｃｉ　）＝Ｐｒｏｂ（
ｕｔ（ｃｉ　）｜ｕｔ（ｃ＊　））となる。

【００１９】（４）　　プランモデルによる次発話内容
の絞り込み現在までに遂行された目標すなわち、完全に具体化され
たプランインスタンスのｋｅｙｓスロットに含まれる命
題パターンに対応する命題内容の期待度を低く設定し、
また、まだ遂行されていない目標、すなわち、完全に具
体化されていないプランインスタンスあるいは、インス
タンス化されていないサブゴールのｋｅｙｓスロットに
含まれる命題パターンに対応する命題内容に期待度を高
く設定する。

【００２０】上記の対話処理によりアークセットの選択
および重みづけされた文法ネットワークを用いて次発話
の理解を行なう場合、入力発話音声から、ある音声認識
結果の単語列ｒｉ　が得られた時のパターン認識スコア
をｌ（ｒｉ　）とし、ｒｉ　の命題内容をｃｉ　とする
と、最終的なスコアＬ（ｃｉ　）は、ｌ（ｒｉ　）と、
ｃｉ　の発話タイプの出現可能性Ｐｒｏｂｕｔ（ｃｉ　
）および命題内容ｃｉ　のプランの達成状況からの期待
度Ｐｒｏｂｐ　（ｃｉ　）の積Ｌ（ｃｉ　）＝ｌ（ｒｉ
　）×Ｐｒｏｂｕｔ（ｃｉ　）×Ｐｒｏｂｐ　（ｃｉ　
）　　（１）となる。これにより、パターンレベルの尤
度と文脈的な妥当性の両方の要因を考慮した入力発話の
評価が行なわれることになる。

【００２１】以上述べたように本発明の音声理解方式に
よれば、入力発話を、対話の文脈を考慮して適切に解釈
することが可能になる。

【００２２】

【実施例】次に、本発明について図面を参照して説明す
る。

【００２３】図１は本第１の発明の一実施例を示すブロ
ック図、図２は本実施例の処理の一例を示すフローチャ
ートである。

【００２４】図１において、本実施例は入力発話を単語
モデルを単位とする有限状態ネットワークによって制御
されるＨＭＭ音声認識モジュールに処理するパターン認
識処理部４０１と、パターン認識処理部４０１の出力の
Ｎ個の認識結果ｒ１　……ｒＮ　を保持する認識結果バ
ッファ４０２と、発話の命題内容ｃ１　……ｃＮ　を保
持する発話命題内容バッファ４０３と、本実施例の音声
理解方式が適用する領域におけるプランスキーマを保持
するプランスキーマ記憶部６０４と、入力発話の命題内
容にプランスキーマのｋｅｙｓ要素がマッチしてインス
タンス化されたプランインスタンスを保持するプランイ
ンスタンスバッファ４０５と、本実施例全体を制御する
音声解析制御部４０６とを有して構成している。

【００２５】次に、本実施例の動作について図１，図２
を併用して説明する。

【００２６】（１）　　パターン認識処理部４０１の出
力するＮ個の認識結果ｒ１　…ｒＮ　が、認識結果バッ
ファ４０２に出力される。（５０１）（２）　　音声理解制御部４０６は、これらＮ個の認識
結果ｒ１　…ｒＮ　を発話の命題内容ｃ１　…ｃＮ　に
変換して、発話命題内容バッファ４０３に保持する。（
５０２）（３）　　つぎに、音声理解制御部４０６は各
発話の命題内容ｃｉ　，（ｉ＝１…Ｎ）に対して、スコ
ア、Ｌ（ｃｉ　）＝ｌ（ｒｉ　）×Ｐｒｏｂｐ　（ｃｉ
　）を求める。（５０３）（４）　　Ｌ（ｃｉ　）が最大となるような命題内容ｃ
ｉ　が求める最終的な発話の命題内容となる。これを、
ｃ＊　とよぶ。ｃ＊　が音声理解結果である。（５０４
）（５）　　音声理解制御部４０６は、すでにインスタ
ンス化されているプランがない場合は、求められた命題
内容ｃ＊　に対して、それにマッチするｋｅｙｓスロッ
ト要素をもつプランスキーマがあるかどうかをプランス
キーマ記憶部４０４から調べる。そのようなプランスキ
ーマがあれば、それをインスタンス化する。すでにプラ
ンがインスタンス化されている場合は、発話の命題内容
がそのいずれかの（現在達成可能な）サブゴールのプラ
ンスキーマのｋｅｙｓ要素にマッチするかどうかを試し
てみる。そのようなプランスキーマがあれば、それをイ
ンスタンス化する。（５０５）（６）　　次に、現在の発話内容によるプランインスタ
ンスの詳細化が可能であるかどうかをチェックする。も
し、いずれかのプランインスタンスが、完全に具体化さ
れたならば、このプランインスタンスの目標は達成され
たことになる。（５０６）（７）　　現在までに遂行された目標すなわち、完全に
具体化されたプランインスタンスのｋｅｙｓスロットに
含まれる命題パターンに対応する命題内容の期待度を低
く設定し、また、まだ遂行されていない目標、すなわち
、完全に具体化されていないプランインスタンスあるい
は、インスタンス化されていないサブゴールのｋｅｙｓ
スロットに含まれる命題パターンに対応する命題内容の
期待度を高く設定する。（５０７）（８）　　次の入力があれば、上述の（１）に戻って、
これまでの処理を繰り返す。（５０８）次に、本第２の発明について説明する。

【００２７】図３は本第２の発明の一実施例を示すブロ
ック図、図４は本実施例の処理の一例を示すフローチャ
ートである。

【００２８】図３において、本実施例は入力発話を単語
モデルを単位とする有限状態ネットワークによって制御
されるＨＭＭ音声認識モジュールに処理するパターン認
識処理部６０７と、パターン認識処理部６０７の出力の
Ｎ個の認識結果ｒ１　…ｒＮ　を保持する認識結果バッ
ファ６０５と、発話の命題内容ｃ１　…ｃＮ　を保持す
る発話命題内容バッファ６０４と、入力発話の命題内容
の発話タイプを保持する発話タイプ記憶部６０１と、発
話タイプを決定するための入力発話の命題内容のパター
ンと発話タイプの対応表を保持する発話タイプテーブル
６０２と、現在の発話内容ｃ＊　の発話タイプｕｔ（ｃ
＊　）から各発話タイプｕｔの次発話としての可能性Ｐ
ｒｏｂ（ｕｔ｜ｕｔ（ｃ＊　））を検索するためのテー
ブルを保持する発話タイプ間遷移テーブル６０３と、本
実施例全体を制御する音声理解制御部６０６とを有して
構成している。

【００２９】次に本実施例の動作について図３，図４を
用いて説明する。

【００３０】（１）　　パターン認識処理部６０７の出
力するＮ個の認識結果ｒ１　…ｒＮ　が、認識結果バッ
ファ６０５に出力される。（７０１）（２）　　音声理解制御部６０６は、これらＮ個の認識
結果ｒ１　…ｒＮ　を発話の命題内容ｃ１　…ｃＮ　に
変換して、発話命題内容バッファ６０４に保持する。（
７０２）（３）　　つぎに、音声理解制御部６０６は各
発話の命題内容ｃｉ　，（ｉ＝１…Ｎ）に対して、スコ
ア、Ｌ（ｃｉ　）＝ｌ（ｒｉ　）×Ｐｒｏｂｕｔ（ｃｉ
　）を求める。（７０３）（４）　　Ｌ（ｃｉ　）が最大となるような命題内容ｃ
ｉ　が求める最終的な発話の命題内容となる。これをｃ
＊　とよぶ。ｃ＊　が音声理解結果である。（７０４）
（５）　　現在の発話内容ｃ＊　の発話タイプから、各
発話タイプｕｔの次発話としての可能性Ｐｒｏｂ（ｕｔ
｜ｕｔ（ｃ＊　））を発話タイプ間遷移テーブル６０３
を用いてもとめる。（７０５）（６）　　次の入力があれば、上述の（１）に戻って、
これまでの処理を繰り返す。（７０６）次に、本第３の発明について説明する。

【００３１】図５は本第３の発明の一実施例を示すブロ
ック図、図６は本実施例の処理の一例を示すフローチャ
ートである。

【００３２】図６において本実施例は入力発話を単語モ
デルを単位とする有限状態ネットワークによって制御さ
れるＨＭＭ音声認識モジュールに処理するパターン認識
処理部８０７と、パターン認識処理部８０７の出力する
Ｎ個の認識結果ｒ１　…ｒＮ　を保持する認識結果バッ
ファ８０８と、発話の命題内容ｃ１　…ｃＮ　を保持す
る発話命題内容バッファ８０９と、入力発話の命題内容
の発話タイプを保持する発話タイプ記憶部８０１と、発
話タイプを決定するための入力発話の命題内容のパター
ンと発話タイプの対応表を保持する発話タイプテーブル
８０２と、現在の発話内容ｃ＊　の発話タイプｕｔ（ｃ
＊　）から各発話タイプｕｔの次発話としての可能性Ｐ
ｒｏｂ（ｕｔ｜ｕｔ（ｃ＊　））を検索する発話タイプ
間遷移テーブル８０３と、本実施例の方式が適用される
領域におけるプランスキーマを保持するプランスキーマ
記憶部８０４と、入力発話の命題内容にプランスキーマ
のキー要素がマッチしてインスタンス化されたプランイ
ンスタンスを保持するプランインスタンスバッファ８０
５と、本実施例全体を制御する音声理解制御８０６とを
有して構成している。

【００３３】次に、本実施例の動作について図５，図６
を用いて説明する。

【００３４】（１）　　パターン認識処理部８０７の出
力するＮ個の認識結果ｒ１　…ｒＮ　が、認識バッファ
８０８に出力される。（９０１）（２）　　音声理解制御部８０６は、これらＮ個の認識
結果ｒ１　…ｒＮ　を発話の命題内容ｃ１　…ｃＮ　に
変換して、発話命題内容バッファ８０９に保持する。（
９０２）（３）　　つぎに、音声理解制御部８０６は各
発話の命題内容ｃｉ　，（ｉ＝１…Ｎ）に対して、スコ
ア、Ｌ（ｃｉ　）＝ｌ（ｒｉ　）×Ｐｒｏｂｕｔ（ｃｉ
　）×Ｐｒｏｂｐ　（ｃｉ）を求める。（９０３）（４）　　Ｌ（ｃｉ　）が最大となるような命題内容ｃ
ｉ　が求める最終的な発話の命題内容となる。これをｃ
＊　とよぶ。ｃ＊　が音声理解結果である。（９０４）
（５）　　音声理解制御部８０６は、すでにインスタン
ス化されているプランがない場合は、求められた命題内
容ｃ＊　に対して、それにマッチするｋｅｙｓスロット
要素をもつプランスキーマがあるかどうかをプランスキ
ーマ記憶部８０４から調べる。そのようなプランスキー
マがあれば、それをインスタンス化する。すでにプラン
がインスタンス化されいる場合は、発話の命題内容がそ
のいずれかの（現在達成可能な）サブゴールのプランス
キーマのｋｅｙｓ要素にマッチするかどうかを試してみ
る。そのようなプランスキーマがあれば、それをインスタン
ス化する。（９０５）（６）　　次に、現在の発話内容によるプランインスタ
ンスの詳細化が可能であるかどうかをチェックする。も
し、いずれかのプランインスタンスが、完全に具体化さ
れたならば、このプランインスタンスの目標は達成され
たことになる。（９０６）（７）　　現在の発話内容ｃ＊　の発話タイプから、各
発話タイプｕｔの次発話としての可能性Ｐｒｏｂ（ｕｔ
｜ｕｔ（ｃ＊　））を発話タイプ間遷移テーブル８０３
を用いてもとめる。（９０７）（８）　　現在までに遂行された目標すなわち、完全に
具体化されたプランインスタンスのｋｅｙｓスロットに
含まれる命題パターンに対応する命題内容の期待度を低
く設定し、また、まだ遂行されていない目標、すなわち
、完全に具体化されていないプランインスタンスあるい
は、インスタンス化されていないサブゴールのｋｅｙｓ
スロットに含まれる命題パターンに対応する命題の内容
の期待度を高く設定する。（９０８）（９）　　次の入力があれば、上述の（１）に戻って、
これまでの処理を繰り返す。（９０９）以上においては、有限状態ネットワークによって文法制
御を行なう認識処理を例に説明したが、これをＡＴＮ制
御の認識処理、ＬＲパーシングを用いた認識処理、２−
グラム文法を用いた認識処理などを用いても同様の効果
が得られる。

【００３５】

【発明の効果】以上説明したように本発明は、複数の発
話を入力とする音声理解方式において、タスク領域の目
的を実現するためのステップを記述したプランモデルを
用いて対話の文脈を記憶することによって、現在までに
遂行された部分目的の実現に関する命題内容の第１の期
待度を低く設定し、まだ遂行されていない部分目的の実
現に関する命題内容の第２の期待度を高く設定し、この
第２の期待度と音声認識のパターン類似度とを組み合わ
せて認識結果を決定することにより、入力発話を、対話
の領域のタスクを達成するためのプランの達成度を考慮
してより適切に解釈することが可能となる、高精度の音
声理解方式を提供することができる効果がある。

【００３６】また、本発明は、複数の発話を入力とする
音声理解方式において、第１のタイプの発話の直後にお
ける第２のタイプの発話が行なわれる尤度を保持する表
を用いて、この尤度と音声認識のパターン類似度とを組
み合わせて認識結果を決定することにより、入力発話を
、発話タイプの遷移可能性に関する性質を考慮してより
適切に解釈することが可能となる高精度の音声理解方式
を提供することができる効果がある。

【００３７】さらに、本発明は、複数の発話を入力とす
る音声理解方式において、タスク領域の目的を実現する
ためのステップを記述したプランモデルを用いて対話の
文脈を記憶することにより、現在までに遂行された部分
目的の実現に関する命題内容の第１の期待度を低く設定
し、まだ遂行されていない部分目的の実現に関する命題
内容の第２の期待度を高く設定し、第２の期待度と、第
１のタイプの発話の直後における第２のタイプの発話が
行なわれる尤度を保持する表から得られる次発話タイプ
の尤度および音声認識のパターン類似度とを組み合わせ
て、認識結果を決定することにより、入力発話を、発話
タイプの遷移可能性に関する性質と、対話の領域のタス
クを達成するためのプランの達成度を考慮してより適切
に解釈することが可能となる高精度の音声理解方式を提
供することができる効果がある。

【図面の簡単な説明】

【図１】本第１の発明の一実施例を示すブロック図であ
る。

【図２】本第１の発明の一実施例の処理の一例を示すフ
ローチャートである。

【図３】本第２の発明の一実施例を示すブロック図であ
る。

【図４】本第２の発明の一実施例の処理の一例を示すフ
ローチャートである。

【図５】本第３の発明の一実施例を示すブロック図であ
る。

【図６】本第３の発明の一実施例の処理の一例を示すフ
ローチャートである。

【図７】プランスキーマの一例を示す図である。

【図８】発話タイプの分類の一例を示す図である。

【図９】発話タイプ間遷移テーブルの一例を示す図であ
る。

【符号の説明】

４０１　　　　パターン認識処理部４０２　　　　認識結果バッファ４０３　　　　発話命題内容バッファ４０４　　　　プランスキーマ記憶部４０５　　　　プランインスタンスバッファ４０６　　
　　音声理解制御部６０１　　　　発話タイプ記憶部６０２　　　　発話タイプテーブル６０３　　　　発話タイプ間遷移テーブル６０４　　　
　発話命題内容バッファ６０５　　　　認識結果バッファ６０６　　　　音声理解制御部６０７　　　　パターン認識処理部８０１　　　　発話タイプ記憶部８０２　　　　発話タイプテーブル８０３　　　　発話タイプ間遷移テーブル８０４　　　
　プランスキーマ記憶部８０５　　　　プランインスタンスバッファ８０６　　
　　音声理解制御部８０７　　　　パターン認識処理部８０８　　　　認識結果バッファ８０９　　　　発話命題内容バッファ

Claims

【特許請求の範囲】

【請求項１】　　複数の発話を入力とする音声理解方式
において、タスク領域の目的を実現するためのステップ
を記述したプランモデルを用いて対話の文脈を記憶する
ことにより、現在までに遂行された部分目的の実現に関
する命題内容の第１の期待度を低く設定し、まだ遂行さ
れていない部分目的の実現に関する命題内容の第２の期
待度を高く設定し、この第２の期待度と音声認識のパタ
ーン類似度を組み合わせて認識結果を決定することを特
徴とする音声理解方式。
【請求項２】　　複数の発話を入力とする音声理解方式
において、第１のタイプの発話の直後における第２のタ
イプの発話が行なわれると尤度を保持する表を用いて、
この尤度と音声認識のパターン類似度とを組み合わせて
認識結果を決定することを特徴とする音声理解方式。
【請求項３】　　複数の発話を入力とする音声理解方式
において、タスク領域の目的を実現するためのステップ
を記述したプランモデルを用いて対話の文脈を記憶する
ことにより、現在までに遂行された部分目的の実現に関
する命題内容の前記第１の期待度を低く設定し、まだ遂
行されていない部分目的の実現に関する命題内容の前記
第２の期待度を高く設定し、前記第２の期待度と、前記
第１のタイプの発話の直後における前記第２のタイプの
発話が行なわれる尤度を保持する前記表から得られる次
発話タイプの尤度および音声認識のパターン類似度とを
組み合わせて、認識結果を決定することを特徴とする音
声理解方式。