JP3024187B2

JP3024187B2 - 音声理解方式

Info

Publication number: JP3024187B2
Application number: JP2243633A
Authority: JP
Inventors: 信輔坂井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-09-13
Filing date: 1990-09-13
Publication date: 2000-03-21
Anticipated expiration: 2015-03-21
Also published as: JPH04122998A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声による問い合わせシステムや自動通訳
システムなどの構成要素となる、文音声の理解方式に関
するものである。

〔従来の技術〕

従来、文音声を認識する際に、文脈自由文法や、状態
遷移ネットワークなどを用いて、文法的な制約を音声認
識に与えるという試みが行われている。文脈自由文法を
用いる方法については、文献「連続音声認識・理解シス
テムのための構文解析法の比較・検討」（情報処理学会
論文誌30巻８号pp.932〜943）に詳しく説明されてい
る。

〔発明が解決しようとする課題〕

しかしながら、従来の文法的制約を用いた音声認識方
式においては、一発話文に対して文法的な制約を適用す
るのみであったので、文法的な制約を満足はするが、対
話の前後の文脈からみて不適切な文が認識される可能性
があり、それを回避することが不可能であった。

本発明の目的は、このような欠点を克服した、対話の
文脈中で適切となるような入力発話の解釈を行う音声理
解方式を提供することにある。

〔課題を解決するための手段〕

本発明は、文法を表すネットワークを用いて複数の発
話を入力とする音声理解方式において、タスク領域の目的を実現するためのステップを記述し
たプランモデルを用いて、発話が行われるごとに、その
発話によるプランモデルのステップを同定して対話の文
脈を記憶することにより、現在までに遂行された部分目
的の実現に関する命題内容の期待度を低く設定し、ま
た、まだ遂行されていない部分目的の実現に関する命題
内容の期待度を高く設定し、この期待度を用いて前記文
法を表すネットワークを修飾することを特徴としてい
る。

また、本発明は、文法を表すネットワークを用いて複
数の発話を入力とする音声理解方式において、あるタイプの発話の直後における、あるもう一つのタ
イプの発話が行われる尤度を記述した表を用いて、前記
文法を表すネットワークを修飾することを特徴としてい
る。

さらに、本発明は、文法を表すネットワークを用いて
複数の発話を入力とする音声理解方式において、タスク領域の目的を実現するためのステップを記述し
たプランモデルを用いて、発話が行われるごとに、その
発話によるプランモデルのステップを同定して対話の文
脈を記憶することにより、現在までに遂行された部分目
的の実現に関する命題内容の期待度を低く設定し、ま
た、まだ遂行されていない部分目的の実現に関する命題
内容の期待度を高く設定し、この期待度を、あるタイプ
の発話の直後における、あるもう一つのタイプの発話が
行われる尤度を記述した表から得られる次発話タイプの
尤度と組み合わせて前記文法を表すネットワークを修飾
することを特徴としている。

〔作用〕

本発明の音声理解方式においては、タスク領域のいろ
いろな活動の目標（ゴール）に対するプランスキーマを
あらかじめ用意しておく。第２図は、プランスキーマの
一例で、コンサートチケットの予約のためのプランを表
している。

あるゴールのためのプランは、それを遂行するための
いろいろな部分目標（サブゴール）を順序良く達成する
こととして表される。この部分目標のセットをsubgoals
というスロットに記述する。

また、あるゴールを遂行する際にそれと関連してしば
しば達成されるゴールをrelated−goalsと呼ばれるスロ
ットに記述する。

keysスロットは、入力発話の命題内容から、その発話
が達成しようとしているゴールのプランスキーマを検索
するのに用いられる。以下では、入力発話の命題内容
を、単に入力命題式と呼ぶ場合もある。keysスロットに
は、そのプランを実行する、あるいは実行を開始するた
めに行われるような発話の命題内容のパターンを記述す
る。これは、複数になる場合もある。

次に、発話タイプによる次発話タイプの予測について
説明する。対話の各時点において、次に来ることが可能
な発話のタイプは、直前の発話によってある程度限定さ
れうる。たとえば、「何枚欲しいですか？」という発話
の後には、「何枚まで買えますか？」や「３枚下さい」
という発話は適切であるが、「こんにちわ。」や「あり
がとうございました。」という発話は大変不適切であ
る。しかし、「３枚下さい」という発話の後に「ありが
とうございました。」が来るのは不自然ではない。

このように、あるタイプの発話がある発話の直後に行
われた時にどのくらい適切であり得るかということが、
話されている内容とは関係なくアプリオリに決定できる
と考えられる。この性質を次発話の予測に利用するに
は、命題式のレベルで、発話をたとえば、第３図のよう
にいくつかのタイプに分類して、第４図のように、各タ
イプごとにある発話タイプの発話の直後に来ることの適
切性の度合を指定するテーブル（以下、発話タイプ間遷
移テーブルと呼ぶ）を記述し、ある適切性の度合以上の
発話タイプのもののみが次に出現し得ると決定するよう
にすればよい。また、出現し得るタイプ間でも、より適
切なものほどより高く評価することにより、より妥当な
入力発話の解釈が、高い評価を得られることになる。

次に、対話処理のフローについて説明する。対話処理
モジュールは、音声認識モジュールによって１発話の認
識が行われるたびに、その結果を入力として対話処理を
行う。一回の対話処理は次のように行われる。

1.プランスキーマのインスタンス化すでにインスタンス化されているプランがない場合
は、入力発話の命題内容に対して、それにマッチするke
ysスロット要素をもつプランスカーマがあるかどうかを
調べる。そのようなプランスキーマがあれば、それをイ
ンスタンス化する。すでにプランがインスタンス化され
ている場合は、入力命題式がそのいずれかの（現在達成
可能な）サブゴールのプランスキーマのkers要素にマッ
チするかどうかを試してみる。そのようなプランスキー
マがあれば、それをインスタンス化する。

2.プランインスタンスの詳細化次に、現在の発話内容によるプランインスタンスの詳
細化が可能であるかどうかをチェックする。もし、いず
れかのプランインスタンスが、完全に具体化されたなら
ば、このプランインスタンスの目標は達成されたことに
なる。

3.発話タイプによる次発話タイプの絞りこみ現在の発話内容の発話タイプから、次発話して可能な
発話タイプのセットを発話タイプ間遷移テーブルを用い
て求める。また、音声認識モジュールの文法ネットワー
クにおけるこれらの次発話として可能な発話タイプに対
応するアークのセットを求める。

4.プランモデルによる重みづけ現在までに遂行された目標すなわち、完全に具体化さ
れたプランインスタンスのkeysスロットに含まれる命題
パターンに対応する命題内容の期待度を低く設定し、ま
た、まだ遂行されていない目標、すなわち、完全に具体
化されていないプランインスタンスあるいは、インスタ
ンス化されていないサブゴールのkeysスロットに含まれ
る命題パターンに対応する命題内容の期待度を高く設定
する。この期待度により、処理３で求めたアークのセッ
トに重みづけを行う。

上記の対話処理によりアークセットの選択および重み
づけされた文法ネットワークを用いて次発話の理解を行
う場合、入力発話音声Ｉが、あるパスＰにマッチすると
した時のパターン認識スコアをｌ_I,Pとすると、最終的
なスコアＬ_I,Pは、パスＰ上の重みの累積w_pとの積、 L_k＝w_j×l_k （１）となる。これにより、パターンレベルの尤度と文脈的な
妥当性の両方の要因を考慮した入力発話の評価が行われ
ることになる。

〔実施例〕

次に、図面を参照しつつ、本発明の実施例を説明す
る。

第１図は、本発明を実現する一実施例を表すブロック
図である。

パターン認識処理部407は、単語モデルを単位とする
有限状態ネットワークによって制御されるHMM音声認識
モジュールである。パターン認識処理部407の出力する
認識結果は、認識結果バッファ408に出力される。対話
処理制御部406は、これを発話の命題内容に変換して、
発話命題内容バッファ409に保持する。

対話処理制御部406は、発話命題内容バッファ409の内
容およびプランインスタンスバッファ405の内容から、
作用の項の中で説明した方法に従って、プランスキーマ
記憶部404に保持されたプランスキーマのインスタンス
化および詳細化を試みる。

一方、発話命題内容バッファ409に保持された命題式
の発話タイプは、発話タイプテーブル402を検索するこ
とにより得られる。この発話タイプは、発話タイプ記憶
部401に保持される。対話処理制御部406は、次に、発話
タイプ記憶部401に保持された現在の発話内容の発話タ
イプから、次発話として可能な発話タイプのセットを発
話タイプ間遷移テーブル403を用いて求める。また、パ
ターン認識処理部407の文法ネットワークにおけるこれ
らの次発話として可能な発話タイプに対応するアークの
セットを求める。

次に対話処理制御部406は、プランインスタンスバッ
ファ405中の、完全に具体化されたプランインスタンス
のkeysスロットに含まれる命題パターンに対応する命題
内容の期待度を低く設定し、また、完全に具体化されて
いないプランインスタンスあるいは、インスタンス化さ
れていないサブゴールのkeysスロットに含まれる命題パ
ターンに対応する命題内容の期待度を高く設定する。こ
の期待度により、アークのセットに重みづけを行う。

以上の処理により、アークセットの部分集合が選択さ
れ、重みづけを施された文法ネットワークを用いて、パ
ターン認識処理部407は、次発話の認識を行う。

〔発明の効果〕

以上述べたように本発明によれば、入力発話を、対話
の文脈を考慮してより適切に解釈することが可能にな
り、さらに発話タイプによる絞り込みの効果により、パ
ターン認識処理における計算量の削減が可能となるの
で、高精度で、効率的な音声理解方式を提供することが
できる。

【図面の簡単な説明】

第１図は、本発明による一実施例を示す図、第２図は、プランスキーマの例を示す図、第３図は、発話タイプの分類を示す図、第４図は、発話タイプ間遷移テーブルを示す図である。 401……発話タイプ記憶部 402……発話タイプテーブル 403……発話タイプ間遷移テーブル 404……プランスキーマ記憶部 405……プランインスタンスバッファ 406……対話処理制御部 407……パターン認識処理部 408……認識結果バッファ 409……発話命題内容バッファ

フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】文法を表すネットワークを用いて複数の発
話を入力する音声理解方法において、タスク領域の目的を実現するためのステップを記述した
プランモデルを用いて、発話が行われるごとに、その発
話によるプランモデルのステップを同定して対話の文脈
を記憶することにより、現在までに遂行された部分目的
の実現に関する命題内容の期待度を低く設定し、また、
まだ遂行されていない部分目的の実現に関する命題内容
の期待度を高く設定し、この期待度を用いて前記文法を
表すネットワークのアークに重み付けし、発話入力を理
解することを特徴とする音声理解方式。