JPH04122998A - 音声理解方式 - Google Patents

音声理解方式

Info

Publication number
JPH04122998A
JPH04122998A JP2243633A JP24363390A JPH04122998A JP H04122998 A JPH04122998 A JP H04122998A JP 2243633 A JP2243633 A JP 2243633A JP 24363390 A JP24363390 A JP 24363390A JP H04122998 A JPH04122998 A JP H04122998A
Authority
JP
Japan
Prior art keywords
utterance
voicing
proposition
grammar
plan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2243633A
Other languages
English (en)
Other versions
JP3024187B2 (ja
Inventor
Shinsuke Sakai
坂井 信輔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2243633A priority Critical patent/JP3024187B2/ja
Publication of JPH04122998A publication Critical patent/JPH04122998A/ja
Application granted granted Critical
Publication of JP3024187B2 publication Critical patent/JP3024187B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、音声による問い合わせシステムや自動通訳シ
ステムなどの構成要素となる、文音声の理解方式に関す
るものである。
〔従来の技術〕
従来、文音声を認識する際に、文脈自由文法や、状態遷
移ネットワークなどを用いて、文法的な制約を音声認識
に与えるという試みが行われている。
文脈自由文法を用いる方法については、文献「連続音声
認識・理解システムのための構文解析法の比較・検討」
 (情報処理学会論文誌30巻8号pp。
932〜943)に詳しく説明されている。
〔発明が解決しようとする課題〕
しかしながら、従来の文法的制約を用いた音声認識方式
においては、−発話文に対して文法的な制約を適用する
のみであったので、文法的な制約を満足はするが、対話
の前後の文脈からみて不適切な文が認識される可能性が
あり、それを回避することが不可能であった。
本発明の目的は、このような欠点を克服した、対話の文
脈中で適切となるような入力発話の解釈を行う音声理解
方式を提供することにある。
〔課題を解決するための手段〕
本発明は、文法を表すネットワークを用いて複数の発話
を入力とする音声理解方式において、タスク領域の目的
を実現するためのステップを記述したプランモデルを用
いて、発話が行われるごとに、その発話によるプランモ
デルのステップを同定して対話の文脈を記憶することに
より、現在までに遂行された部分目的の実現に関する命
題内容の期待度を低く設定し、また、まだ遂行されてい
ない部分目的の実現に関する命題内容の期待度を高く設
定し、この期待度を用いて前記文法を表すネットワーク
を修飾することを特徴としている。
また、本発明は、文法を表すネットワークを用いて複数
の発話を入力とする音声理解方式において、 あるタイプの発話の直後における、あるもう一つのタイ
プの発話が行われる尤度を記述した表を用いて、前記文
法を表すネットワークを修飾することを特徴としている
さらに、本発明は、文法を表すネットワークを用いて複
数の発話を入力とする音声理解方式において、 タスク領域の目的を実現するためのステップを記述した
プランモデルを用いて、発話が行われるごとに、その発
話によるプランモデルのステップを同定して対話の文脈
を記憶することにより、現在までに遂行された部分目的
の実現に関する命題内容の期待度を低く設定し、また、
まだ遂行されていない部分目的の実現に関する命題内容
の期待度を高く設定し、この期待度を、あるタイプの発
話の直後における、あるもう一つのタイプの発話が行わ
れる尤度を記述した表から得られる次発話タイプの光度
と組み合わせて前記文法を表すネットワークを修飾する
ことを特徴としている。
〔作用〕
本発明の音声理解方式においては、タスク領域のいろい
ろな活動の目標(ゴール)に対するプランスキーマをあ
らかじめ用意しておく。第2図は、プランスキーマの一
例で、コンサートチケットの予約のためのプランを表し
ている。
あるゴールのためのプランは、それを遂行するためのい
ろいろな部分目標(サブゴール)を順序良く達成するこ
ととして表される。この部分目標のセットをsubgo
alsというスロットに記述する。
また、あるゴールを遂行する際にそれと関連してしばし
ば達成されるゴールをrelated−goalsと呼
ばれるスロットに記述する。
keysスロットは、入力発話の命題内容から、その発
話が達成しようとしているゴールのプランスキーマを検
索するのに用いられる。以下では、入力発話の命題内容
を、単に入力命題式と呼ぶ場合もある。keysスロッ
トには、そのプランを実行する、あるいは実行を開始す
るために行われるような発話の命題内容のパターンを記
述する。これは、複数になる場合もある。
次に、発話タイプによる次発話タイプの予測について説
明する。対話の各時点において、次に来ることが可能な
発話のタイプは、直前の発話によっである程度限定され
うる。たとえば、「何枚数しいでずかり」という発話の
後には、「何枚まで買えますか?」や「3枚下さい」と
いう発話は適切であるが、「こんにちわ。」や「ありが
とうございました。」という発話は大変不適切である。
しかし、「3枚下さい」という発話の後に「ありがとう
ございました。」が来るのは不自然ではない。
このように、あるタイプの発話がある発話の直後に行わ
れた時にどのくらい適切であり得るかということが、話
されている内容とは関係なくアプリオリに決定できると
考えられる。この性質を次発話の予測に利用するには、
命題式のレベルで、発話をたとえば、第3図のようにい
くつかのタイプに分類して、第4図のように、各タイプ
ごとにある発話タイプの発話の直後に来ることの適切性
の度合を指定するテーブル(以下、発話タイプ間遷移テ
ーブルと呼ぶ)を記述し、ある適切性の度合以上の発話
タイプのもののみが次に出現し得ると決定するようにす
ればよい。また、出現し得るタイプ間でも、より適切な
ものほどより高く評価することにより、より妥当な入力
発話の解釈が、高い評価を得られることになる。
次に、対話処理のフローについて説明する。対話処理モ
ジュールは、音声認識モジュールによって1発話の認識
が行われるたびに、その結果を入力として対話処理を行
う、−回の対話処理は次のように行われる。
1、プランスキーマのインスタンス化 すでにインスタンス化されているプランがない場合は、
入力発話の命題内容に対して、それにマツチするkey
sスロット要素をもつプランスキーマがあるかどうかを
調べる。そのようなプランスキーマがあれば、それをイ
ンスタンス化する。すでにプランがインスタンス化され
ている場合は、入力命題式がそのいずれかの(現在達成
可能な)サブゴールのプランスキーマのkeys要素に
マツチするかどうかを試してみる。そのようなプランス
キーマがあれば、それをインスタンス化する。
2、プランインスタンスの詳細化 3゜ 4゜ 次ニ、現在の発話内容によるプランインスタンスの詳細
化が可能であるかどうかをチエツクする。もし、いずれ
かのプランインスタンスが、完全に具体化されたならば
、このプランインスタンスの目標は達成されたことにな
る。
発話タイプによる次発話タイプの絞りこみ現在の発話内
容の発話タイプから、次発話として可能な発話タイプの
セットを発話タイプ間遷移テーブルを用いて求める。ま
た、音声認識モジュールの文法ネットワークにおけるこ
れらの次発話として可能な発話タイプに対応するアーク
のセットを求める。
プランモデルによる重みづけ 現在までに遂行された目標すなわち、完全に具体化され
たプランインスタンスのkeysスロットに含まれる命
題パターンに対応する命題内容の期待度を低く設定し、
また、まだ遂行されていない目標、すなわち、完全に具
体化されていないプランインスタンスあるいは、インス
タンス化されていないサブゴールのkeysスロットに
含まれる命題パターンに対応する命題内容の期待度を高
く設定する。この期待度により、処理3で求めたアーク
のセットに重みづけを行う。
上記の対話処理によりアークセットの選択および重みづ
けされた文法ネットワークを用いて次発話の理解を行う
場合、入力発話音声■が、あるパスPにマツチするとし
た時のパターン認識スコアを111.とすると、最終的
なスコアL11.は、パスP上の重みの累積W、との積
、 L * = w 1x I! h          
    (1)となる。これにより、パターンレベルの
光度と文脈的な妥当性の両方の要因を考慮した入力発話
の評価が行われることになる。
〔実施例〕
次に、図面を参照しつつ、本発明の詳細な説明する。
第1図は、本発明を実現する一実施例を表すブロック図
である。
パターン認識処理部407は、単語モデルを単位とする
有限状態ネットワークによって制御されるHMM音声認
識モジュールである。パターン認識処理部407の出力
する認識結果は、認識結果バッファ408に出力される
。対話処理制御部406は、これを発話の命題内容に変
換して、発話命題内容バ・ソファ409に保持する。
対話処理制御部406は、発話命題内容バッファ409
の内容およびプランインスタンスバッファ405の内容
から、作用の項の中で説明した方法に従って、プランス
キーマ記憶部404に保持されたプランスキーマのイン
スタンス化および詳細化を試みる。
一方、発話命題内容バッファ409に保持された命題式
の発話タイプは、発話タイプテーブル402を検索する
ことにより得られる。この発話タイプは、発話タイプ記
憶部401に保持される。対話処理制御部406は、次
に、発話タイプ記憶部401に保持された現在の発話内
容の発話タイプから、次発話として可能な発話タイプの
セットを発話タイプ間遷移テーブル403を用いて求め
る。また、パターン認識処理部407の文法ネットワー
クにおけるこれらの次発話として可能な発話タイプに対
応するアークのセットを求める。
次に対話処理制御部406は、プランインスタンスバッ
ファ405中の、完全に具体化されたプランインスタン
スのkeysスロットに含まれる命題パターンに対応す
る命題内容の期待度を低く設定し、また、完全に具体化
されていないプランインスタンスあるいは、インスタン
ス化されていないサブゴールのkeysスロットに含ま
れる命題パターンに対応する命題内容の期待度を高く設
定する。この期待度により、アークのセントに重みづけ
を行う。
以上の処理により、アークセットの部分集合が選択され
、重みづけを施された文法ネットワークを用いて、パタ
ーン認識処理部407は、次発話の認識を行う。
〔発明の効果〕
以上述べたように本発明によれば、入力発話を、対話の
文脈を考慮してより適切に解釈することが可能になり、
さらに発話タイプによる絞り込みの効果により、パター
ン認識処理における計算量の削減が可能となるので、高
精度で、効率的な音声理解方式を提供することができる
【図面の簡単な説明】
第1図は、本発明による一実施例を示す図、第2図は、
プランスキーマの例を示す図、第3図は、発話タイプの
分類を示す図、第4図は、発話タイプ間遷移テーブルを
示す図である。 401  ・・・・・発話タイプ記憶部402  ・・
・・・発話タイプテーブル403 ・・・・・発話タイ
プ間遷移テーブル404  ・・・・・プランスキーマ
記[部405  ・・・・・プランインスタンスバッフ
ァ406  ・・・・・対話処理制御部 407  ・・・・・パターン認識処理部408  ・
・・・・認識結果バッファ409  ・・・・・発話命
題内容バッファ話 第1図 jsay−ば1ご゛ユ′i、フ暫fイ、7□。 (say−thanks  ニーagl ? x  :
電y)y)JP  ありがとつ−ざいます。 搭も晶(′7″−艷i彦1奪臀賞暫)1鵠り沼1″)ゝ
(dedare  : &Q+)x  : ta「? 
y  : cb」(quu  勾+)xilJK  そ
れでは結構です。 踏意志Q Wh属性O Wh。 Y/N。 選択O Y/NA2 (dedare:ag+?x:+at?y:ob」(コ
’z::acIIon二&g+?x))Jに 現金にし
ます。 (、MK、:昆芹−嬬、1.翳、V 39°−11寄(want−to−have”: ex
p ? y : cjri ? a)))JP  @席
はどうなさいますが。 j7°?’llk1M7Ff”r’y h’u實i、F
K(whらU、z)つ(、;!: :ac6on:ag
l ? y)))jq、ue7=’、q:4 x  :
 6旨?、y、、’ obl、(、wha、+ (ンz
)(tea++、ue  : け、。。? a)))茅
°°露に’hJEfh’ぷjデ’t’Jh、:“」3−
“(? z) ? +))Ja”°漬、各品。rν′7
、テ刺(4)〉”=’ (4agl、LW、”=vi!
、 =’ wh (whic、h謬:、、、’、in、
 ?、a嵩、、 。 しいですが。 St、equ:s、jQ24.、Qx、QW、?、y、
袷j、?、z:(yes−no−ans  :agt 
? x lay ? y :+Lag ? z  命i
ンa)Jに はい、現金にします。

Claims (3)

    【特許請求の範囲】
  1. (1)文法を表すネットワークを用いて複数の発話を入
    力とする音声理解方式において、 タスク領域の目的を実現するためのステップを記述した
    プランモデルを用いて、発話が行われるごとに、その発
    話によるプランモデルのステップを同定して対話の文脈
    を記憶することにより、現在までに遂行された部分目的
    の実現に関する命題内容の期待度を低く設定し、また、
    まだ遂行されていない部分目的の実現に関する命題内容
    の期待度を高く設定し、この期待度を用いて前記文法を
    表すネットワークを修飾することを特徴とする音声理解
    方式。
  2. (2)文法を表すネットワークを用いて複数の発話を入
    力とする音声理解方式において、 あるタイプの発話の直後における、あるもう一つのタイ
    プの発話が行われる尤度を記述した表を用いて、前記文
    法を表すネットワークを修飾することを特徴とする音声
    理解方式。
  3. (3)文法を表すネットワークを用いて複数の発話を入
    力とする音声理解方式において、 タスク領域の目的を実現するためのステップを記述した
    プランモデルを用いて、発話が行われるごとに、その発
    話によるプランモデルのステップを同定して対話の文脈
    を記憶することにより、現在までに遂行された部分目的
    の実現に関する命題内容の期待度を低く設定し、また、
    まだ遂行されていない部分目的の実現に関する命題内容
    の期待度を高く設定し、この期待度を、あるタイプの発
    話の直後における、あるもう一つのタイプの発話が行わ
    れる尤度を記述した表から得られる次発話タイプの尤度
    と組み合わせて前記文法を表すネットワークを修飾する
    ことを特徴とする音声理解方式。
JP2243633A 1990-09-13 1990-09-13 音声理解方式 Expired - Fee Related JP3024187B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2243633A JP3024187B2 (ja) 1990-09-13 1990-09-13 音声理解方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2243633A JP3024187B2 (ja) 1990-09-13 1990-09-13 音声理解方式

Publications (2)

Publication Number Publication Date
JPH04122998A true JPH04122998A (ja) 1992-04-23
JP3024187B2 JP3024187B2 (ja) 2000-03-21

Family

ID=17106725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2243633A Expired - Fee Related JP3024187B2 (ja) 1990-09-13 1990-09-13 音声理解方式

Country Status (1)

Country Link
JP (1) JP3024187B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06180593A (ja) * 1992-12-11 1994-06-28 Kokusai Denshin Denwa Co Ltd <Kdd> 連続音声認識方法および該方法を用いた装置
JPH0916800A (ja) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd 顔画像付き音声対話システム
JP2003005786A (ja) * 2001-06-18 2003-01-08 Oki Electric Ind Co Ltd 音声対話インターフェース装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06180593A (ja) * 1992-12-11 1994-06-28 Kokusai Denshin Denwa Co Ltd <Kdd> 連続音声認識方法および該方法を用いた装置
JPH0916800A (ja) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd 顔画像付き音声対話システム
JP2003005786A (ja) * 2001-06-18 2003-01-08 Oki Electric Ind Co Ltd 音声対話インターフェース装置

Also Published As

Publication number Publication date
JP3024187B2 (ja) 2000-03-21

Similar Documents

Publication Publication Date Title
AU2005285108B2 (en) Machine learning
US8438031B2 (en) System and method for relating syntax and semantics for a conversational speech application
Pieraccini et al. Where do we go from here? Research and commercial spoken dialogue systems
US7844466B2 (en) Conceptual analysis driven data-mining and dictation system and method
Bulyko et al. Error-correction detection and response generation in a spoken dialogue system
RU2432623C2 (ru) Способ и устройство для естественно-речевого распознавания речевого высказывания
US7127402B2 (en) Method and apparatus for converting utterance representations into actions in a conversational system
US20030040901A1 (en) Method and apparatus for dynamic grammars and focused semantic parsing
JP2000105596A (ja) 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
López-Cózar et al. Using knowledge of misunderstandings to increase the robustness of spoken dialogue systems
JP2000200273A (ja) 発話意図認識装置
Zhang et al. Improved context-dependent acoustic modeling for continuous Chinese speech recognition
US20060136195A1 (en) Text grouping for disambiguation in a speech application
JPH04122998A (ja) 音声理解方式
Debatin et al. Offline Speech Recognition Development
KR100400220B1 (ko) 대화 모델을 이용한 자동 통역 장치 및 방법
Stoness et al. Incremental parsing with reference interaction
JP2000222406A (ja) 音声認識翻訳装置及び方法
Adiba et al. Delay mitigation for backchannel prediction in spoken dialog system
JPH04307664A (ja) 音声理解方式
JP2880436B2 (ja) 音声認識装置
Boisen et al. The BBN spoken language system
Ringger A robust loose coupling for speech recognition and natural language understanding
JP6712540B2 (ja) モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム
van de Burgt et al. Building dialogue systems that sell

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080121

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090121

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100121

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees