JPH04307664A - 音声理解方式 - Google Patents
音声理解方式Info
- Publication number
- JPH04307664A JPH04307664A JP3072667A JP7266791A JPH04307664A JP H04307664 A JPH04307664 A JP H04307664A JP 3072667 A JP3072667 A JP 3072667A JP 7266791 A JP7266791 A JP 7266791A JP H04307664 A JPH04307664 A JP H04307664A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- plan
- speech
- type
- speech understanding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 41
- 230000000694 effects Effects 0.000 abstract description 7
- 238000003909 pattern recognition Methods 0.000 description 11
- 230000007704 transition Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000003993 interaction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、音声理解方式に関し、
特に音声による問い合わせシステムや自動通訳システム
などの構成要素となる、文音声の音声理解方式に関する
。
特に音声による問い合わせシステムや自動通訳システム
などの構成要素となる、文音声の音声理解方式に関する
。
【0002】
【従来の技術】従来、この種の音声理解方式は、文音声
を認識する際に、文脈自由文法や、状態遷移ネットワー
クなどをもちいて、文法的な制約を音声認識に与えると
いう試みが行なわれている。
を認識する際に、文脈自由文法や、状態遷移ネットワー
クなどをもちいて、文法的な制約を音声認識に与えると
いう試みが行なわれている。
【0003】文脈自由文法を用いる方法については、「
連続音声認識・理解システムのための構文解析法の比較
・検討」(情報処理学会論文誌30巻8号pp.932
〜943)に詳しく説明されている。
連続音声認識・理解システムのための構文解析法の比較
・検討」(情報処理学会論文誌30巻8号pp.932
〜943)に詳しく説明されている。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来の音声理解方式は、文法的制約を用いた音声の認
識方式となっているので、一発話文に対して文法的な制
約を適用するのみであって、文法的な制約を満足はする
が、対話の前後の文脈からみて不適切な文が認識される
可能性があり、それを回避することが不可能であるとい
う問題点がある。
た従来の音声理解方式は、文法的制約を用いた音声の認
識方式となっているので、一発話文に対して文法的な制
約を適用するのみであって、文法的な制約を満足はする
が、対話の前後の文脈からみて不適切な文が認識される
可能性があり、それを回避することが不可能であるとい
う問題点がある。
【0005】本発明の目的は、このような欠点を克服し
た、対話の文脈中で適切となるような入力発話の解釈を
おこなう音声理解方式を提供することにある。
た、対話の文脈中で適切となるような入力発話の解釈を
おこなう音声理解方式を提供することにある。
【0006】
【課題を解決するための手段】本第1の発明の音声理解
方式は、複数の発話を入力とする音声理解方式において
、タスク領域の目的を実現するためのステップを記述し
たプランモデルを用いて対話の文脈を記憶することによ
り、現在までに遂行された部分目的の実現に関する命題
内容の第1の期待度を低く設定し、まだ遂行されていな
い部分目的の実現に関する命題内容の第2の期待度を高
く設定し、この第2の期待度と音声認識のパターン類似
度を組み合わせて認識結果を決定している。
方式は、複数の発話を入力とする音声理解方式において
、タスク領域の目的を実現するためのステップを記述し
たプランモデルを用いて対話の文脈を記憶することによ
り、現在までに遂行された部分目的の実現に関する命題
内容の第1の期待度を低く設定し、まだ遂行されていな
い部分目的の実現に関する命題内容の第2の期待度を高
く設定し、この第2の期待度と音声認識のパターン類似
度を組み合わせて認識結果を決定している。
【0007】また本第2の発明の音声理解方式は、複数
の発話を入力とする音声理解方式において、第1のタイ
プの発話の直後における第2のタイプの発話が行なわれ
ると尤度を保持する表を用いて、この尤度と音声認識の
パターン類似度とを組み合わせて認識結果を決定してい
る。
の発話を入力とする音声理解方式において、第1のタイ
プの発話の直後における第2のタイプの発話が行なわれ
ると尤度を保持する表を用いて、この尤度と音声認識の
パターン類似度とを組み合わせて認識結果を決定してい
る。
【0008】さらに本第3の発明の音声理解方式は、複
数の発話を入力とする音声理解方式において、タスク領
域の目的を実現するためのステップを記述したプランモ
デルを用いて対話の文脈を記憶することにより、現在ま
でに遂行された部分目的の実現に関する命題内容の前記
第1の期待度を低く設定し、まだ遂行されていない部分
目的の実現に関する命題内容の前記第2の期待度を高く
設定し、前記第2の期待度と、前記第1のタイプの発話
の直後における前記第2のタイプの発話が行なわれる尤
度を保持する前記表から得られる次発話タイプの尤度お
よび音声認識のパターン類似度とを組み合わせて、認識
結果を決定している。
数の発話を入力とする音声理解方式において、タスク領
域の目的を実現するためのステップを記述したプランモ
デルを用いて対話の文脈を記憶することにより、現在ま
でに遂行された部分目的の実現に関する命題内容の前記
第1の期待度を低く設定し、まだ遂行されていない部分
目的の実現に関する命題内容の前記第2の期待度を高く
設定し、前記第2の期待度と、前記第1のタイプの発話
の直後における前記第2のタイプの発話が行なわれる尤
度を保持する前記表から得られる次発話タイプの尤度お
よび音声認識のパターン類似度とを組み合わせて、認識
結果を決定している。
【0009】
【作用】本発明の音声理解方式においては、タスク領域
のいろいろな活動の目標(ゴール)に対するプランスキ
ーマをあらかじめ用意しておく。
のいろいろな活動の目標(ゴール)に対するプランスキ
ーマをあらかじめ用意しておく。
【0010】図7は、プランスキーマの一例を示す図で
、コンサートチケットの予約のためのプランをあらわし
ている。
、コンサートチケットの予約のためのプランをあらわし
ている。
【0011】第7図において、あるゴールのためのプラ
ンは、それを遂行するためのいろいろな部分目標(サブ
ゴール)を順序良く達成することとしてあらわされる。 この部分目標のセットをsubgoalsというスロッ
トに記述する。また、あるゴールを遂行する際にそれと
関連してしばしば達成されるゴールをrelated−
goalsと呼ばれるスロットに記述する。keysス
ロットは、入力発話の命題内容から、その発話が達成し
ようとしているゴールのプランスキーマを検索するのに
用いられる。以下では、入力発話の命題内容を、単に入
力命題式と呼ぶ場合もある。keysスロットには、そ
のプランを実行する、あるいは実行を開始するために行
なわれるような発話の命題内容のパターンを記述する。 これは、複数になる場合もある。
ンは、それを遂行するためのいろいろな部分目標(サブ
ゴール)を順序良く達成することとしてあらわされる。 この部分目標のセットをsubgoalsというスロッ
トに記述する。また、あるゴールを遂行する際にそれと
関連してしばしば達成されるゴールをrelated−
goalsと呼ばれるスロットに記述する。keysス
ロットは、入力発話の命題内容から、その発話が達成し
ようとしているゴールのプランスキーマを検索するのに
用いられる。以下では、入力発話の命題内容を、単に入
力命題式と呼ぶ場合もある。keysスロットには、そ
のプランを実行する、あるいは実行を開始するために行
なわれるような発話の命題内容のパターンを記述する。 これは、複数になる場合もある。
【0012】つぎに、発話タイプによる次発話タイプの
予測について説明する。
予測について説明する。
【0013】対話の各時点において、次に来ることが可
能な発話のタイプは、直前の発話によってある程度限定
されうる。たとえば、「何枚欲しいですか?」という発
話の後には、「何枚まで買えますか?」や「3枚下さい
」という発話は適切であるが、「こんにちわ。」や「あ
りがとうございました。」という発話は大変不適切であ
る。しかし、「3枚下さい」という発話の後に「ありが
とうございました。」が来るのは不自然ではない。
能な発話のタイプは、直前の発話によってある程度限定
されうる。たとえば、「何枚欲しいですか?」という発
話の後には、「何枚まで買えますか?」や「3枚下さい
」という発話は適切であるが、「こんにちわ。」や「あ
りがとうございました。」という発話は大変不適切であ
る。しかし、「3枚下さい」という発話の後に「ありが
とうございました。」が来るのは不自然ではない。
【0014】このように、あるタイプの発話がある発話
の直後に行なわれた時にどのくらい適切であり得るかと
いうことが、話されている内容とは関係なく事前に決定
できると考えられる。この性質を次発話の予測に利用す
るには、命題式のレベルで、発話をたとえば、図8のよ
うにいくつかのタイプに分類して、図9のように、各タ
イプごとにある発話タイプの発話の直後に来ることの適
切性の度合を指定するテーブル(以下、発話タイプ間遷
移テーブルと呼ぶ)を記述し、ある適切性の度合以上の
発話タイプのもののみが次に出現し得ると決定するよう
にすればよい。また、出現し得るタイプ間でも、より適
切なものほどより高く評価することにより、より妥当な
入力発話の解釈が、高い評価を得られることになる。
の直後に行なわれた時にどのくらい適切であり得るかと
いうことが、話されている内容とは関係なく事前に決定
できると考えられる。この性質を次発話の予測に利用す
るには、命題式のレベルで、発話をたとえば、図8のよ
うにいくつかのタイプに分類して、図9のように、各タ
イプごとにある発話タイプの発話の直後に来ることの適
切性の度合を指定するテーブル(以下、発話タイプ間遷
移テーブルと呼ぶ)を記述し、ある適切性の度合以上の
発話タイプのもののみが次に出現し得ると決定するよう
にすればよい。また、出現し得るタイプ間でも、より適
切なものほどより高く評価することにより、より妥当な
入力発話の解釈が、高い評価を得られることになる。
【0015】つぎに、対話処理のフローについて説明す
る。対話処理モジュールは、音声認識モジュールによっ
て1発話の認識が行なわれるたびにその結果を入力とし
て対話処理を行なう。一回の対話処理は次のように行な
われる。
る。対話処理モジュールは、音声認識モジュールによっ
て1発話の認識が行なわれるたびにその結果を入力とし
て対話処理を行なう。一回の対話処理は次のように行な
われる。
【0016】(1) プランスキーマのインスタンス
化すでにインスタンス化されているプランがない場合は
、入力発話の命題内容c* に対して、それにマッチす
るkeysスロット要素をもつプランスキーマがあるか
どうかを調べる。そのようなプランスキーマがあれば、
それをインスタンス化する。すでにプランがインスタン
ス化されている場合は、入力命題式がそのいずれかの(
現在達成可能な)サブコールのプランスキーマのkey
s要素にマッチするかどうかを試してみる。そのような
プランスキーマがあれば、それをインスタンス化する。
化すでにインスタンス化されているプランがない場合は
、入力発話の命題内容c* に対して、それにマッチす
るkeysスロット要素をもつプランスキーマがあるか
どうかを調べる。そのようなプランスキーマがあれば、
それをインスタンス化する。すでにプランがインスタン
ス化されている場合は、入力命題式がそのいずれかの(
現在達成可能な)サブコールのプランスキーマのkey
s要素にマッチするかどうかを試してみる。そのような
プランスキーマがあれば、それをインスタンス化する。
【0017】(2) プランインスタンスの詳細化次
に、現在の発話内容c* によるプランインスタンスの
詳細化が可能であるかどうかをチェックする。もし、い
ずれかのプランインスタンスが、完全に具体化されたな
らば、このプランインスタンスの目標は達成されたこと
になる。
に、現在の発話内容c* によるプランインスタンスの
詳細化が可能であるかどうかをチェックする。もし、い
ずれかのプランインスタンスが、完全に具体化されたな
らば、このプランインスタンスの目標は達成されたこと
になる。
【0018】(3) 発話タイプによる次発話タイプ
の絞りこみ 現在の発話内容c* の発話タイプut(c* )から
、各発話タイプutの次発話としての可能性Prob(
ut|ut(c* ))を発話タイプ間遷移テーブルを
用いてもとめる。次の発話の認識結果の命題内容の一つ
ci に対するその発話タイプの出現可能性Probu
t(ci )は、Probut(ci )=Prob(
ut(ci )|ut(c* ))となる。
の絞りこみ 現在の発話内容c* の発話タイプut(c* )から
、各発話タイプutの次発話としての可能性Prob(
ut|ut(c* ))を発話タイプ間遷移テーブルを
用いてもとめる。次の発話の認識結果の命題内容の一つ
ci に対するその発話タイプの出現可能性Probu
t(ci )は、Probut(ci )=Prob(
ut(ci )|ut(c* ))となる。
【0019】(4) プランモデルによる次発話内容
の絞り込み 現在までに遂行された目標すなわち、完全に具体化され
たプランインスタンスのkeysスロットに含まれる命
題パターンに対応する命題内容の期待度を低く設定し、
また、まだ遂行されていない目標、すなわち、完全に具
体化されていないプランインスタンスあるいは、インス
タンス化されていないサブゴールのkeysスロットに
含まれる命題パターンに対応する命題内容に期待度を高
く設定する。
の絞り込み 現在までに遂行された目標すなわち、完全に具体化され
たプランインスタンスのkeysスロットに含まれる命
題パターンに対応する命題内容の期待度を低く設定し、
また、まだ遂行されていない目標、すなわち、完全に具
体化されていないプランインスタンスあるいは、インス
タンス化されていないサブゴールのkeysスロットに
含まれる命題パターンに対応する命題内容に期待度を高
く設定する。
【0020】上記の対話処理によりアークセットの選択
および重みづけされた文法ネットワークを用いて次発話
の理解を行なう場合、入力発話音声から、ある音声認識
結果の単語列ri が得られた時のパターン認識スコア
をl(ri )とし、ri の命題内容をci とする
と、最終的なスコアL(ci )は、l(ri )と、
ci の発話タイプの出現可能性Probut(ci
)および命題内容ci のプランの達成状況からの期待
度Probp (ci )の積L(ci )=l(ri
)×Probut(ci )×Probp (ci
) (1)となる。これにより、パターンレベルの尤
度と文脈的な妥当性の両方の要因を考慮した入力発話の
評価が行なわれることになる。
および重みづけされた文法ネットワークを用いて次発話
の理解を行なう場合、入力発話音声から、ある音声認識
結果の単語列ri が得られた時のパターン認識スコア
をl(ri )とし、ri の命題内容をci とする
と、最終的なスコアL(ci )は、l(ri )と、
ci の発話タイプの出現可能性Probut(ci
)および命題内容ci のプランの達成状況からの期待
度Probp (ci )の積L(ci )=l(ri
)×Probut(ci )×Probp (ci
) (1)となる。これにより、パターンレベルの尤
度と文脈的な妥当性の両方の要因を考慮した入力発話の
評価が行なわれることになる。
【0021】以上述べたように本発明の音声理解方式に
よれば、入力発話を、対話の文脈を考慮して適切に解釈
することが可能になる。
よれば、入力発話を、対話の文脈を考慮して適切に解釈
することが可能になる。
【0022】
【実施例】次に、本発明について図面を参照して説明す
る。
る。
【0023】図1は本第1の発明の一実施例を示すブロ
ック図、図2は本実施例の処理の一例を示すフローチャ
ートである。
ック図、図2は本実施例の処理の一例を示すフローチャ
ートである。
【0024】図1において、本実施例は入力発話を単語
モデルを単位とする有限状態ネットワークによって制御
されるHMM音声認識モジュールに処理するパターン認
識処理部401と、パターン認識処理部401の出力の
N個の認識結果r1 ……rN を保持する認識結果バ
ッファ402と、発話の命題内容c1 ……cN を保
持する発話命題内容バッファ403と、本実施例の音声
理解方式が適用する領域におけるプランスキーマを保持
するプランスキーマ記憶部604と、入力発話の命題内
容にプランスキーマのkeys要素がマッチしてインス
タンス化されたプランインスタンスを保持するプランイ
ンスタンスバッファ405と、本実施例全体を制御する
音声解析制御部406とを有して構成している。
モデルを単位とする有限状態ネットワークによって制御
されるHMM音声認識モジュールに処理するパターン認
識処理部401と、パターン認識処理部401の出力の
N個の認識結果r1 ……rN を保持する認識結果バ
ッファ402と、発話の命題内容c1 ……cN を保
持する発話命題内容バッファ403と、本実施例の音声
理解方式が適用する領域におけるプランスキーマを保持
するプランスキーマ記憶部604と、入力発話の命題内
容にプランスキーマのkeys要素がマッチしてインス
タンス化されたプランインスタンスを保持するプランイ
ンスタンスバッファ405と、本実施例全体を制御する
音声解析制御部406とを有して構成している。
【0025】次に、本実施例の動作について図1,図2
を併用して説明する。
を併用して説明する。
【0026】(1) パターン認識処理部401の出
力するN個の認識結果r1 …rN が、認識結果バッ
ファ402に出力される。(501) (2) 音声理解制御部406は、これらN個の認識
結果r1 …rN を発話の命題内容c1 …cN に
変換して、発話命題内容バッファ403に保持する。(
502)(3) つぎに、音声理解制御部406は各
発話の命題内容ci ,(i=1…N)に対して、スコ
ア、L(ci )=l(ri )×Probp (ci
)を求める。 (503) (4) L(ci )が最大となるような命題内容c
i が求める最終的な発話の命題内容となる。これを、
c* とよぶ。c* が音声理解結果である。(504
)(5) 音声理解制御部406は、すでにインスタ
ンス化されているプランがない場合は、求められた命題
内容c* に対して、それにマッチするkeysスロッ
ト要素をもつプランスキーマがあるかどうかをプランス
キーマ記憶部404から調べる。そのようなプランスキ
ーマがあれば、それをインスタンス化する。すでにプラ
ンがインスタンス化されている場合は、発話の命題内容
がそのいずれかの(現在達成可能な)サブゴールのプラ
ンスキーマのkeys要素にマッチするかどうかを試し
てみる。そのようなプランスキーマがあれば、それをイ
ンスタンス化する。(505) (6) 次に、現在の発話内容によるプランインスタ
ンスの詳細化が可能であるかどうかをチェックする。も
し、いずれかのプランインスタンスが、完全に具体化さ
れたならば、このプランインスタンスの目標は達成され
たことになる。(506) (7) 現在までに遂行された目標すなわち、完全に
具体化されたプランインスタンスのkeysスロットに
含まれる命題パターンに対応する命題内容の期待度を低
く設定し、また、まだ遂行されていない目標、すなわち
、完全に具体化されていないプランインスタンスあるい
は、インスタンス化されていないサブゴールのkeys
スロットに含まれる命題パターンに対応する命題内容の
期待度を高く設定する。(507) (8) 次の入力があれば、上述の(1)に戻って、
これまでの処理を繰り返す。(508) 次に、本第2の発明について説明する。
力するN個の認識結果r1 …rN が、認識結果バッ
ファ402に出力される。(501) (2) 音声理解制御部406は、これらN個の認識
結果r1 …rN を発話の命題内容c1 …cN に
変換して、発話命題内容バッファ403に保持する。(
502)(3) つぎに、音声理解制御部406は各
発話の命題内容ci ,(i=1…N)に対して、スコ
ア、L(ci )=l(ri )×Probp (ci
)を求める。 (503) (4) L(ci )が最大となるような命題内容c
i が求める最終的な発話の命題内容となる。これを、
c* とよぶ。c* が音声理解結果である。(504
)(5) 音声理解制御部406は、すでにインスタ
ンス化されているプランがない場合は、求められた命題
内容c* に対して、それにマッチするkeysスロッ
ト要素をもつプランスキーマがあるかどうかをプランス
キーマ記憶部404から調べる。そのようなプランスキ
ーマがあれば、それをインスタンス化する。すでにプラ
ンがインスタンス化されている場合は、発話の命題内容
がそのいずれかの(現在達成可能な)サブゴールのプラ
ンスキーマのkeys要素にマッチするかどうかを試し
てみる。そのようなプランスキーマがあれば、それをイ
ンスタンス化する。(505) (6) 次に、現在の発話内容によるプランインスタ
ンスの詳細化が可能であるかどうかをチェックする。も
し、いずれかのプランインスタンスが、完全に具体化さ
れたならば、このプランインスタンスの目標は達成され
たことになる。(506) (7) 現在までに遂行された目標すなわち、完全に
具体化されたプランインスタンスのkeysスロットに
含まれる命題パターンに対応する命題内容の期待度を低
く設定し、また、まだ遂行されていない目標、すなわち
、完全に具体化されていないプランインスタンスあるい
は、インスタンス化されていないサブゴールのkeys
スロットに含まれる命題パターンに対応する命題内容の
期待度を高く設定する。(507) (8) 次の入力があれば、上述の(1)に戻って、
これまでの処理を繰り返す。(508) 次に、本第2の発明について説明する。
【0027】図3は本第2の発明の一実施例を示すブロ
ック図、図4は本実施例の処理の一例を示すフローチャ
ートである。
ック図、図4は本実施例の処理の一例を示すフローチャ
ートである。
【0028】図3において、本実施例は入力発話を単語
モデルを単位とする有限状態ネットワークによって制御
されるHMM音声認識モジュールに処理するパターン認
識処理部607と、パターン認識処理部607の出力の
N個の認識結果r1 …rN を保持する認識結果バッ
ファ605と、発話の命題内容c1 …cN を保持す
る発話命題内容バッファ604と、入力発話の命題内容
の発話タイプを保持する発話タイプ記憶部601と、発
話タイプを決定するための入力発話の命題内容のパター
ンと発話タイプの対応表を保持する発話タイプテーブル
602と、現在の発話内容c* の発話タイプut(c
* )から各発話タイプutの次発話としての可能性P
rob(ut|ut(c* ))を検索するためのテー
ブルを保持する発話タイプ間遷移テーブル603と、本
実施例全体を制御する音声理解制御部606とを有して
構成している。
モデルを単位とする有限状態ネットワークによって制御
されるHMM音声認識モジュールに処理するパターン認
識処理部607と、パターン認識処理部607の出力の
N個の認識結果r1 …rN を保持する認識結果バッ
ファ605と、発話の命題内容c1 …cN を保持す
る発話命題内容バッファ604と、入力発話の命題内容
の発話タイプを保持する発話タイプ記憶部601と、発
話タイプを決定するための入力発話の命題内容のパター
ンと発話タイプの対応表を保持する発話タイプテーブル
602と、現在の発話内容c* の発話タイプut(c
* )から各発話タイプutの次発話としての可能性P
rob(ut|ut(c* ))を検索するためのテー
ブルを保持する発話タイプ間遷移テーブル603と、本
実施例全体を制御する音声理解制御部606とを有して
構成している。
【0029】次に本実施例の動作について図3,図4を
用いて説明する。
用いて説明する。
【0030】(1) パターン認識処理部607の出
力するN個の認識結果r1 …rN が、認識結果バッ
ファ605に出力される。(701) (2) 音声理解制御部606は、これらN個の認識
結果r1 …rN を発話の命題内容c1 …cN に
変換して、発話命題内容バッファ604に保持する。(
702)(3) つぎに、音声理解制御部606は各
発話の命題内容ci ,(i=1…N)に対して、スコ
ア、L(ci )=l(ri )×Probut(ci
)を求める。 (703) (4) L(ci )が最大となるような命題内容c
i が求める最終的な発話の命題内容となる。これをc
* とよぶ。c* が音声理解結果である。(704)
(5) 現在の発話内容c* の発話タイプから、各
発話タイプutの次発話としての可能性Prob(ut
|ut(c* ))を発話タイプ間遷移テーブル603
を用いてもとめる。(705) (6) 次の入力があれば、上述の(1)に戻って、
これまでの処理を繰り返す。(706) 次に、本第3の発明について説明する。
力するN個の認識結果r1 …rN が、認識結果バッ
ファ605に出力される。(701) (2) 音声理解制御部606は、これらN個の認識
結果r1 …rN を発話の命題内容c1 …cN に
変換して、発話命題内容バッファ604に保持する。(
702)(3) つぎに、音声理解制御部606は各
発話の命題内容ci ,(i=1…N)に対して、スコ
ア、L(ci )=l(ri )×Probut(ci
)を求める。 (703) (4) L(ci )が最大となるような命題内容c
i が求める最終的な発話の命題内容となる。これをc
* とよぶ。c* が音声理解結果である。(704)
(5) 現在の発話内容c* の発話タイプから、各
発話タイプutの次発話としての可能性Prob(ut
|ut(c* ))を発話タイプ間遷移テーブル603
を用いてもとめる。(705) (6) 次の入力があれば、上述の(1)に戻って、
これまでの処理を繰り返す。(706) 次に、本第3の発明について説明する。
【0031】図5は本第3の発明の一実施例を示すブロ
ック図、図6は本実施例の処理の一例を示すフローチャ
ートである。
ック図、図6は本実施例の処理の一例を示すフローチャ
ートである。
【0032】図6において本実施例は入力発話を単語モ
デルを単位とする有限状態ネットワークによって制御さ
れるHMM音声認識モジュールに処理するパターン認識
処理部807と、パターン認識処理部807の出力する
N個の認識結果r1 …rN を保持する認識結果バッ
ファ808と、発話の命題内容c1 …cN を保持す
る発話命題内容バッファ809と、入力発話の命題内容
の発話タイプを保持する発話タイプ記憶部801と、発
話タイプを決定するための入力発話の命題内容のパター
ンと発話タイプの対応表を保持する発話タイプテーブル
802と、現在の発話内容c* の発話タイプut(c
* )から各発話タイプutの次発話としての可能性P
rob(ut|ut(c* ))を検索する発話タイプ
間遷移テーブル803と、本実施例の方式が適用される
領域におけるプランスキーマを保持するプランスキーマ
記憶部804と、入力発話の命題内容にプランスキーマ
のキー要素がマッチしてインスタンス化されたプランイ
ンスタンスを保持するプランインスタンスバッファ80
5と、本実施例全体を制御する音声理解制御806とを
有して構成している。
デルを単位とする有限状態ネットワークによって制御さ
れるHMM音声認識モジュールに処理するパターン認識
処理部807と、パターン認識処理部807の出力する
N個の認識結果r1 …rN を保持する認識結果バッ
ファ808と、発話の命題内容c1 …cN を保持す
る発話命題内容バッファ809と、入力発話の命題内容
の発話タイプを保持する発話タイプ記憶部801と、発
話タイプを決定するための入力発話の命題内容のパター
ンと発話タイプの対応表を保持する発話タイプテーブル
802と、現在の発話内容c* の発話タイプut(c
* )から各発話タイプutの次発話としての可能性P
rob(ut|ut(c* ))を検索する発話タイプ
間遷移テーブル803と、本実施例の方式が適用される
領域におけるプランスキーマを保持するプランスキーマ
記憶部804と、入力発話の命題内容にプランスキーマ
のキー要素がマッチしてインスタンス化されたプランイ
ンスタンスを保持するプランインスタンスバッファ80
5と、本実施例全体を制御する音声理解制御806とを
有して構成している。
【0033】次に、本実施例の動作について図5,図6
を用いて説明する。
を用いて説明する。
【0034】(1) パターン認識処理部807の出
力するN個の認識結果r1 …rN が、認識バッファ
808に出力される。(901) (2) 音声理解制御部806は、これらN個の認識
結果r1 …rN を発話の命題内容c1 …cN に
変換して、発話命題内容バッファ809に保持する。(
902)(3) つぎに、音声理解制御部806は各
発話の命題内容ci ,(i=1…N)に対して、スコ
ア、L(ci )=l(ri )×Probut(ci
)×Probp (ci)を求める。(903) (4) L(ci )が最大となるような命題内容c
i が求める最終的な発話の命題内容となる。これをc
* とよぶ。c* が音声理解結果である。(904)
(5) 音声理解制御部806は、すでにインスタン
ス化されているプランがない場合は、求められた命題内
容c* に対して、それにマッチするkeysスロット
要素をもつプランスキーマがあるかどうかをプランスキ
ーマ記憶部804から調べる。そのようなプランスキー
マがあれば、それをインスタンス化する。すでにプラン
がインスタンス化されいる場合は、発話の命題内容がそ
のいずれかの(現在達成可能な)サブゴールのプランス
キーマのkeys要素にマッチするかどうかを試してみ
る。 そのようなプランスキーマがあれば、それをインスタン
ス化する。(905) (6) 次に、現在の発話内容によるプランインスタ
ンスの詳細化が可能であるかどうかをチェックする。も
し、いずれかのプランインスタンスが、完全に具体化さ
れたならば、このプランインスタンスの目標は達成され
たことになる。(906) (7) 現在の発話内容c* の発話タイプから、各
発話タイプutの次発話としての可能性Prob(ut
|ut(c* ))を発話タイプ間遷移テーブル803
を用いてもとめる。(907) (8) 現在までに遂行された目標すなわち、完全に
具体化されたプランインスタンスのkeysスロットに
含まれる命題パターンに対応する命題内容の期待度を低
く設定し、また、まだ遂行されていない目標、すなわち
、完全に具体化されていないプランインスタンスあるい
は、インスタンス化されていないサブゴールのkeys
スロットに含まれる命題パターンに対応する命題の内容
の期待度を高く設定する。(908) (9) 次の入力があれば、上述の(1)に戻って、
これまでの処理を繰り返す。(909) 以上においては、有限状態ネットワークによって文法制
御を行なう認識処理を例に説明したが、これをATN制
御の認識処理、LRパーシングを用いた認識処理、2−
グラム文法を用いた認識処理などを用いても同様の効果
が得られる。
力するN個の認識結果r1 …rN が、認識バッファ
808に出力される。(901) (2) 音声理解制御部806は、これらN個の認識
結果r1 …rN を発話の命題内容c1 …cN に
変換して、発話命題内容バッファ809に保持する。(
902)(3) つぎに、音声理解制御部806は各
発話の命題内容ci ,(i=1…N)に対して、スコ
ア、L(ci )=l(ri )×Probut(ci
)×Probp (ci)を求める。(903) (4) L(ci )が最大となるような命題内容c
i が求める最終的な発話の命題内容となる。これをc
* とよぶ。c* が音声理解結果である。(904)
(5) 音声理解制御部806は、すでにインスタン
ス化されているプランがない場合は、求められた命題内
容c* に対して、それにマッチするkeysスロット
要素をもつプランスキーマがあるかどうかをプランスキ
ーマ記憶部804から調べる。そのようなプランスキー
マがあれば、それをインスタンス化する。すでにプラン
がインスタンス化されいる場合は、発話の命題内容がそ
のいずれかの(現在達成可能な)サブゴールのプランス
キーマのkeys要素にマッチするかどうかを試してみ
る。 そのようなプランスキーマがあれば、それをインスタン
ス化する。(905) (6) 次に、現在の発話内容によるプランインスタ
ンスの詳細化が可能であるかどうかをチェックする。も
し、いずれかのプランインスタンスが、完全に具体化さ
れたならば、このプランインスタンスの目標は達成され
たことになる。(906) (7) 現在の発話内容c* の発話タイプから、各
発話タイプutの次発話としての可能性Prob(ut
|ut(c* ))を発話タイプ間遷移テーブル803
を用いてもとめる。(907) (8) 現在までに遂行された目標すなわち、完全に
具体化されたプランインスタンスのkeysスロットに
含まれる命題パターンに対応する命題内容の期待度を低
く設定し、また、まだ遂行されていない目標、すなわち
、完全に具体化されていないプランインスタンスあるい
は、インスタンス化されていないサブゴールのkeys
スロットに含まれる命題パターンに対応する命題の内容
の期待度を高く設定する。(908) (9) 次の入力があれば、上述の(1)に戻って、
これまでの処理を繰り返す。(909) 以上においては、有限状態ネットワークによって文法制
御を行なう認識処理を例に説明したが、これをATN制
御の認識処理、LRパーシングを用いた認識処理、2−
グラム文法を用いた認識処理などを用いても同様の効果
が得られる。
【0035】
【発明の効果】以上説明したように本発明は、複数の発
話を入力とする音声理解方式において、タスク領域の目
的を実現するためのステップを記述したプランモデルを
用いて対話の文脈を記憶することによって、現在までに
遂行された部分目的の実現に関する命題内容の第1の期
待度を低く設定し、まだ遂行されていない部分目的の実
現に関する命題内容の第2の期待度を高く設定し、この
第2の期待度と音声認識のパターン類似度とを組み合わ
せて認識結果を決定することにより、入力発話を、対話
の領域のタスクを達成するためのプランの達成度を考慮
してより適切に解釈することが可能となる、高精度の音
声理解方式を提供することができる効果がある。
話を入力とする音声理解方式において、タスク領域の目
的を実現するためのステップを記述したプランモデルを
用いて対話の文脈を記憶することによって、現在までに
遂行された部分目的の実現に関する命題内容の第1の期
待度を低く設定し、まだ遂行されていない部分目的の実
現に関する命題内容の第2の期待度を高く設定し、この
第2の期待度と音声認識のパターン類似度とを組み合わ
せて認識結果を決定することにより、入力発話を、対話
の領域のタスクを達成するためのプランの達成度を考慮
してより適切に解釈することが可能となる、高精度の音
声理解方式を提供することができる効果がある。
【0036】また、本発明は、複数の発話を入力とする
音声理解方式において、第1のタイプの発話の直後にお
ける第2のタイプの発話が行なわれる尤度を保持する表
を用いて、この尤度と音声認識のパターン類似度とを組
み合わせて認識結果を決定することにより、入力発話を
、発話タイプの遷移可能性に関する性質を考慮してより
適切に解釈することが可能となる高精度の音声理解方式
を提供することができる効果がある。
音声理解方式において、第1のタイプの発話の直後にお
ける第2のタイプの発話が行なわれる尤度を保持する表
を用いて、この尤度と音声認識のパターン類似度とを組
み合わせて認識結果を決定することにより、入力発話を
、発話タイプの遷移可能性に関する性質を考慮してより
適切に解釈することが可能となる高精度の音声理解方式
を提供することができる効果がある。
【0037】さらに、本発明は、複数の発話を入力とす
る音声理解方式において、タスク領域の目的を実現する
ためのステップを記述したプランモデルを用いて対話の
文脈を記憶することにより、現在までに遂行された部分
目的の実現に関する命題内容の第1の期待度を低く設定
し、まだ遂行されていない部分目的の実現に関する命題
内容の第2の期待度を高く設定し、第2の期待度と、第
1のタイプの発話の直後における第2のタイプの発話が
行なわれる尤度を保持する表から得られる次発話タイプ
の尤度および音声認識のパターン類似度とを組み合わせ
て、認識結果を決定することにより、入力発話を、発話
タイプの遷移可能性に関する性質と、対話の領域のタス
クを達成するためのプランの達成度を考慮してより適切
に解釈することが可能となる高精度の音声理解方式を提
供することができる効果がある。
る音声理解方式において、タスク領域の目的を実現する
ためのステップを記述したプランモデルを用いて対話の
文脈を記憶することにより、現在までに遂行された部分
目的の実現に関する命題内容の第1の期待度を低く設定
し、まだ遂行されていない部分目的の実現に関する命題
内容の第2の期待度を高く設定し、第2の期待度と、第
1のタイプの発話の直後における第2のタイプの発話が
行なわれる尤度を保持する表から得られる次発話タイプ
の尤度および音声認識のパターン類似度とを組み合わせ
て、認識結果を決定することにより、入力発話を、発話
タイプの遷移可能性に関する性質と、対話の領域のタス
クを達成するためのプランの達成度を考慮してより適切
に解釈することが可能となる高精度の音声理解方式を提
供することができる効果がある。
【図1】本第1の発明の一実施例を示すブロック図であ
る。
る。
【図2】本第1の発明の一実施例の処理の一例を示すフ
ローチャートである。
ローチャートである。
【図3】本第2の発明の一実施例を示すブロック図であ
る。
る。
【図4】本第2の発明の一実施例の処理の一例を示すフ
ローチャートである。
ローチャートである。
【図5】本第3の発明の一実施例を示すブロック図であ
る。
る。
【図6】本第3の発明の一実施例の処理の一例を示すフ
ローチャートである。
ローチャートである。
【図7】プランスキーマの一例を示す図である。
【図8】発話タイプの分類の一例を示す図である。
【図9】発話タイプ間遷移テーブルの一例を示す図であ
る。
る。
401 パターン認識処理部
402 認識結果バッファ
403 発話命題内容バッファ
404 プランスキーマ記憶部
405 プランインスタンスバッファ406
音声理解制御部 601 発話タイプ記憶部 602 発話タイプテーブル 603 発話タイプ間遷移テーブル604
発話命題内容バッファ 605 認識結果バッファ 606 音声理解制御部 607 パターン認識処理部 801 発話タイプ記憶部 802 発話タイプテーブル 803 発話タイプ間遷移テーブル804
プランスキーマ記憶部 805 プランインスタンスバッファ806
音声理解制御部 807 パターン認識処理部 808 認識結果バッファ 809 発話命題内容バッファ
音声理解制御部 601 発話タイプ記憶部 602 発話タイプテーブル 603 発話タイプ間遷移テーブル604
発話命題内容バッファ 605 認識結果バッファ 606 音声理解制御部 607 パターン認識処理部 801 発話タイプ記憶部 802 発話タイプテーブル 803 発話タイプ間遷移テーブル804
プランスキーマ記憶部 805 プランインスタンスバッファ806
音声理解制御部 807 パターン認識処理部 808 認識結果バッファ 809 発話命題内容バッファ
Claims (3)
- 【請求項1】 複数の発話を入力とする音声理解方式
において、タスク領域の目的を実現するためのステップ
を記述したプランモデルを用いて対話の文脈を記憶する
ことにより、現在までに遂行された部分目的の実現に関
する命題内容の第1の期待度を低く設定し、まだ遂行さ
れていない部分目的の実現に関する命題内容の第2の期
待度を高く設定し、この第2の期待度と音声認識のパタ
ーン類似度を組み合わせて認識結果を決定することを特
徴とする音声理解方式。 - 【請求項2】 複数の発話を入力とする音声理解方式
において、第1のタイプの発話の直後における第2のタ
イプの発話が行なわれると尤度を保持する表を用いて、
この尤度と音声認識のパターン類似度とを組み合わせて
認識結果を決定することを特徴とする音声理解方式。 - 【請求項3】 複数の発話を入力とする音声理解方式
において、タスク領域の目的を実現するためのステップ
を記述したプランモデルを用いて対話の文脈を記憶する
ことにより、現在までに遂行された部分目的の実現に関
する命題内容の前記第1の期待度を低く設定し、まだ遂
行されていない部分目的の実現に関する命題内容の前記
第2の期待度を高く設定し、前記第2の期待度と、前記
第1のタイプの発話の直後における前記第2のタイプの
発話が行なわれる尤度を保持する前記表から得られる次
発話タイプの尤度および音声認識のパターン類似度とを
組み合わせて、認識結果を決定することを特徴とする音
声理解方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3072667A JPH04307664A (ja) | 1991-04-05 | 1991-04-05 | 音声理解方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3072667A JPH04307664A (ja) | 1991-04-05 | 1991-04-05 | 音声理解方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04307664A true JPH04307664A (ja) | 1992-10-29 |
Family
ID=13495947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3072667A Pending JPH04307664A (ja) | 1991-04-05 | 1991-04-05 | 音声理解方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04307664A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208388A (ja) * | 1993-01-08 | 1994-07-26 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 対話音声認識装置 |
JP2003005786A (ja) * | 2001-06-18 | 2003-01-08 | Oki Electric Ind Co Ltd | 音声対話インターフェース装置 |
JP2006030282A (ja) * | 2004-07-12 | 2006-02-02 | Nissan Motor Co Ltd | 対話理解装置 |
JP2009110503A (ja) * | 2007-08-24 | 2009-05-21 | Robert Bosch Gmbh | 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム |
-
1991
- 1991-04-05 JP JP3072667A patent/JPH04307664A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208388A (ja) * | 1993-01-08 | 1994-07-26 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 対話音声認識装置 |
JP2003005786A (ja) * | 2001-06-18 | 2003-01-08 | Oki Electric Ind Co Ltd | 音声対話インターフェース装置 |
JP2006030282A (ja) * | 2004-07-12 | 2006-02-02 | Nissan Motor Co Ltd | 対話理解装置 |
JP4610249B2 (ja) * | 2004-07-12 | 2011-01-12 | 日産自動車株式会社 | 対話理解装置 |
JP2009110503A (ja) * | 2007-08-24 | 2009-05-21 | Robert Bosch Gmbh | 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10453117B1 (en) | Determining domains for natural language understanding | |
US9753912B1 (en) | Method for processing the output of a speech recognizer | |
US7415406B2 (en) | Speech recognition apparatus, speech recognition method, conversation control apparatus, conversation control method, and programs for therefor | |
US5719997A (en) | Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars | |
US6999931B2 (en) | Spoken dialog system using a best-fit language model and best-fit grammar | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
Lee et al. | Improved acoustic modeling for large vocabulary continuous speech recognition | |
US7143035B2 (en) | Methods and apparatus for generating dialog state conditioned language models | |
US7865357B2 (en) | Shareable filler model for grammar authoring | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
US20030009331A1 (en) | Grammars for speech recognition | |
Komatani et al. | Multi-domain spoken dialogue system with extensibility and robustness against speech recognition errors | |
JP2000200273A (ja) | 発話意図認識装置 | |
JP2004170765A (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
JP3468572B2 (ja) | 対話処理装置 | |
JPH04307664A (ja) | 音声理解方式 | |
JP2886117B2 (ja) | 音声認識装置 | |
JP2871420B2 (ja) | 音声対話システム | |
JPH06208388A (ja) | 対話音声認識装置 | |
JP3024187B2 (ja) | 音声理解方式 | |
Gonze et al. | Coding with the voice | |
JP2002082690A (ja) | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 | |
JP3494338B2 (ja) | 音声認識方法 | |
JP2880436B2 (ja) | 音声認識装置 | |
Boisen et al. | The BBN spoken language system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19981222 |