JP3024187B2 - 音声理解方式 - Google Patents

音声理解方式

Info

Publication number
JP3024187B2
JP3024187B2 JP2243633A JP24363390A JP3024187B2 JP 3024187 B2 JP3024187 B2 JP 3024187B2 JP 2243633 A JP2243633 A JP 2243633A JP 24363390 A JP24363390 A JP 24363390A JP 3024187 B2 JP3024187 B2 JP 3024187B2
Authority
JP
Japan
Prior art keywords
utterance
plan
proposition
expectation
grammar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2243633A
Other languages
English (en)
Other versions
JPH04122998A (ja
Inventor
信輔 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2243633A priority Critical patent/JP3024187B2/ja
Publication of JPH04122998A publication Critical patent/JPH04122998A/ja
Application granted granted Critical
Publication of JP3024187B2 publication Critical patent/JP3024187B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声による問い合わせシステムや自動通訳
システムなどの構成要素となる、文音声の理解方式に関
するものである。
〔従来の技術〕
従来、文音声を認識する際に、文脈自由文法や、状態
遷移ネットワークなどを用いて、文法的な制約を音声認
識に与えるという試みが行われている。文脈自由文法を
用いる方法については、文献「連続音声認識・理解シス
テムのための構文解析法の比較・検討」(情報処理学会
論文誌30巻8号pp.932〜943)に詳しく説明されてい
る。
〔発明が解決しようとする課題〕
しかしながら、従来の文法的制約を用いた音声認識方
式においては、一発話文に対して文法的な制約を適用す
るのみであったので、文法的な制約を満足はするが、対
話の前後の文脈からみて不適切な文が認識される可能性
があり、それを回避することが不可能であった。
本発明の目的は、このような欠点を克服した、対話の
文脈中で適切となるような入力発話の解釈を行う音声理
解方式を提供することにある。
〔課題を解決するための手段〕
本発明は、文法を表すネットワークを用いて複数の発
話を入力とする音声理解方式において、 タスク領域の目的を実現するためのステップを記述し
たプランモデルを用いて、発話が行われるごとに、その
発話によるプランモデルのステップを同定して対話の文
脈を記憶することにより、現在までに遂行された部分目
的の実現に関する命題内容の期待度を低く設定し、ま
た、まだ遂行されていない部分目的の実現に関する命題
内容の期待度を高く設定し、この期待度を用いて前記文
法を表すネットワークを修飾することを特徴としてい
る。
また、本発明は、文法を表すネットワークを用いて複
数の発話を入力とする音声理解方式において、 あるタイプの発話の直後における、あるもう一つのタ
イプの発話が行われる尤度を記述した表を用いて、前記
文法を表すネットワークを修飾することを特徴としてい
る。
さらに、本発明は、文法を表すネットワークを用いて
複数の発話を入力とする音声理解方式において、 タスク領域の目的を実現するためのステップを記述し
たプランモデルを用いて、発話が行われるごとに、その
発話によるプランモデルのステップを同定して対話の文
脈を記憶することにより、現在までに遂行された部分目
的の実現に関する命題内容の期待度を低く設定し、ま
た、まだ遂行されていない部分目的の実現に関する命題
内容の期待度を高く設定し、この期待度を、あるタイプ
の発話の直後における、あるもう一つのタイプの発話が
行われる尤度を記述した表から得られる次発話タイプの
尤度と組み合わせて前記文法を表すネットワークを修飾
することを特徴としている。
〔作用〕
本発明の音声理解方式においては、タスク領域のいろ
いろな活動の目標(ゴール)に対するプランスキーマを
あらかじめ用意しておく。第2図は、プランスキーマの
一例で、コンサートチケットの予約のためのプランを表
している。
あるゴールのためのプランは、それを遂行するための
いろいろな部分目標(サブゴール)を順序良く達成する
こととして表される。この部分目標のセットをsubgoals
というスロットに記述する。
また、あるゴールを遂行する際にそれと関連してしば
しば達成されるゴールをrelated−goalsと呼ばれるスロ
ットに記述する。
keysスロットは、入力発話の命題内容から、その発話
が達成しようとしているゴールのプランスキーマを検索
するのに用いられる。以下では、入力発話の命題内容
を、単に入力命題式と呼ぶ場合もある。keysスロットに
は、そのプランを実行する、あるいは実行を開始するた
めに行われるような発話の命題内容のパターンを記述す
る。これは、複数になる場合もある。
次に、発話タイプによる次発話タイプの予測について
説明する。対話の各時点において、次に来ることが可能
な発話のタイプは、直前の発話によってある程度限定さ
れうる。たとえば、「何枚欲しいですか?」という発話
の後には、「何枚まで買えますか?」や「3枚下さい」
という発話は適切であるが、「こんにちわ。」や「あり
がとうございました。」という発話は大変不適切であ
る。しかし、「3枚下さい」という発話の後に「ありが
とうございました。」が来るのは不自然ではない。
このように、あるタイプの発話がある発話の直後に行
われた時にどのくらい適切であり得るかということが、
話されている内容とは関係なくアプリオリに決定できる
と考えられる。この性質を次発話の予測に利用するに
は、命題式のレベルで、発話をたとえば、第3図のよう
にいくつかのタイプに分類して、第4図のように、各タ
イプごとにある発話タイプの発話の直後に来ることの適
切性の度合を指定するテーブル(以下、発話タイプ間遷
移テーブルと呼ぶ)を記述し、ある適切性の度合以上の
発話タイプのもののみが次に出現し得ると決定するよう
にすればよい。また、出現し得るタイプ間でも、より適
切なものほどより高く評価することにより、より妥当な
入力発話の解釈が、高い評価を得られることになる。
次に、対話処理のフローについて説明する。対話処理
モジュールは、音声認識モジュールによって1発話の認
識が行われるたびに、その結果を入力として対話処理を
行う。一回の対話処理は次のように行われる。
1.プランスキーマのインスタンス化 すでにインスタンス化されているプランがない場合
は、入力発話の命題内容に対して、それにマッチするke
ysスロット要素をもつプランスカーマがあるかどうかを
調べる。そのようなプランスキーマがあれば、それをイ
ンスタンス化する。すでにプランがインスタンス化され
ている場合は、入力命題式がそのいずれかの(現在達成
可能な)サブゴールのプランスキーマのkers要素にマッ
チするかどうかを試してみる。そのようなプランスキー
マがあれば、それをインスタンス化する。
2.プランインスタンスの詳細化 次に、現在の発話内容によるプランインスタンスの詳
細化が可能であるかどうかをチェックする。もし、いず
れかのプランインスタンスが、完全に具体化されたなら
ば、このプランインスタンスの目標は達成されたことに
なる。
3.発話タイプによる次発話タイプの絞りこみ 現在の発話内容の発話タイプから、次発話して可能な
発話タイプのセットを発話タイプ間遷移テーブルを用い
て求める。また、音声認識モジュールの文法ネットワー
クにおけるこれらの次発話として可能な発話タイプに対
応するアークのセットを求める。
4.プランモデルによる重みづけ 現在までに遂行された目標すなわち、完全に具体化さ
れたプランインスタンスのkeysスロットに含まれる命題
パターンに対応する命題内容の期待度を低く設定し、ま
た、まだ遂行されていない目標、すなわち、完全に具体
化されていないプランインスタンスあるいは、インスタ
ンス化されていないサブゴールのkeysスロットに含まれ
る命題パターンに対応する命題内容の期待度を高く設定
する。この期待度により、処理3で求めたアークのセッ
トに重みづけを行う。
上記の対話処理によりアークセットの選択および重み
づけされた文法ネットワークを用いて次発話の理解を行
う場合、入力発話音声Iが、あるパスPにマッチすると
した時のパターン認識スコアをlI,Pとすると、最終的
なスコアLI,Pは、パスP上の重みの累積wpとの積、 Lk=wj×lk (1) となる。これにより、パターンレベルの尤度と文脈的な
妥当性の両方の要因を考慮した入力発話の評価が行われ
ることになる。
〔実施例〕
次に、図面を参照しつつ、本発明の実施例を説明す
る。
第1図は、本発明を実現する一実施例を表すブロック
図である。
パターン認識処理部407は、単語モデルを単位とする
有限状態ネットワークによって制御されるHMM音声認識
モジュールである。パターン認識処理部407の出力する
認識結果は、認識結果バッファ408に出力される。対話
処理制御部406は、これを発話の命題内容に変換して、
発話命題内容バッファ409に保持する。
対話処理制御部406は、発話命題内容バッファ409の内
容およびプランインスタンスバッファ405の内容から、
作用の項の中で説明した方法に従って、プランスキーマ
記憶部404に保持されたプランスキーマのインスタンス
化および詳細化を試みる。
一方、発話命題内容バッファ409に保持された命題式
の発話タイプは、発話タイプテーブル402を検索するこ
とにより得られる。この発話タイプは、発話タイプ記憶
部401に保持される。対話処理制御部406は、次に、発話
タイプ記憶部401に保持された現在の発話内容の発話タ
イプから、次発話として可能な発話タイプのセットを発
話タイプ間遷移テーブル403を用いて求める。また、パ
ターン認識処理部407の文法ネットワークにおけるこれ
らの次発話として可能な発話タイプに対応するアークの
セットを求める。
次に対話処理制御部406は、プランインスタンスバッ
ファ405中の、完全に具体化されたプランインスタンス
のkeysスロットに含まれる命題パターンに対応する命題
内容の期待度を低く設定し、また、完全に具体化されて
いないプランインスタンスあるいは、インスタンス化さ
れていないサブゴールのkeysスロットに含まれる命題パ
ターンに対応する命題内容の期待度を高く設定する。こ
の期待度により、アークのセットに重みづけを行う。
以上の処理により、アークセットの部分集合が選択さ
れ、重みづけを施された文法ネットワークを用いて、パ
ターン認識処理部407は、次発話の認識を行う。
〔発明の効果〕
以上述べたように本発明によれば、入力発話を、対話
の文脈を考慮してより適切に解釈することが可能にな
り、さらに発話タイプによる絞り込みの効果により、パ
ターン認識処理における計算量の削減が可能となるの
で、高精度で、効率的な音声理解方式を提供することが
できる。
【図面の簡単な説明】
第1図は、本発明による一実施例を示す図、 第2図は、プランスキーマの例を示す図、 第3図は、発話タイプの分類を示す図、 第4図は、発話タイプ間遷移テーブルを示す図である。 401……発話タイプ記憶部 402……発話タイプテーブル 403……発話タイプ間遷移テーブル 404……プランスキーマ記憶部 405……プランインスタンスバッファ 406……対話処理制御部 407……パターン認識処理部 408……認識結果バッファ 409……発話命題内容バッファ
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文法を表すネットワークを用いて複数の発
    話を入力する音声理解方法において、 タスク領域の目的を実現するためのステップを記述した
    プランモデルを用いて、発話が行われるごとに、その発
    話によるプランモデルのステップを同定して対話の文脈
    を記憶することにより、現在までに遂行された部分目的
    の実現に関する命題内容の期待度を低く設定し、また、
    まだ遂行されていない部分目的の実現に関する命題内容
    の期待度を高く設定し、この期待度を用いて前記文法を
    表すネットワークのアークに重み付けし、発話入力を理
    解することを特徴とする音声理解方式。
JP2243633A 1990-09-13 1990-09-13 音声理解方式 Expired - Fee Related JP3024187B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2243633A JP3024187B2 (ja) 1990-09-13 1990-09-13 音声理解方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2243633A JP3024187B2 (ja) 1990-09-13 1990-09-13 音声理解方式

Publications (2)

Publication Number Publication Date
JPH04122998A JPH04122998A (ja) 1992-04-23
JP3024187B2 true JP3024187B2 (ja) 2000-03-21

Family

ID=17106725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2243633A Expired - Fee Related JP3024187B2 (ja) 1990-09-13 1990-09-13 音声理解方式

Country Status (1)

Country Link
JP (1) JP3024187B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06180593A (ja) * 1992-12-11 1994-06-28 Kokusai Denshin Denwa Co Ltd <Kdd> 連続音声認識方法および該方法を用いた装置
JPH0916800A (ja) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd 顔画像付き音声対話システム
JP3423296B2 (ja) * 2001-06-18 2003-07-07 沖電気工業株式会社 音声対話インターフェース装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
・山岡ら「文脈を考慮した音声認識結果絞り込み手法」情報処理学会研究報告 NL78−16,pp121−128(1990)
・野村ら「タスクを限定した対話文音声理解システム」信学技報SP88−25,pp31〜37(1988)

Also Published As

Publication number Publication date
JPH04122998A (ja) 1992-04-23

Similar Documents

Publication Publication Date Title
US7555426B2 (en) Method and apparatus for dynamic grammars and focused semantic parsing
US6246981B1 (en) Natural language task-oriented dialog manager and method
US9626959B2 (en) System and method of supporting adaptive misrecognition in conversational speech
CA2437620C (en) Hierarchichal language models
US9330660B2 (en) Grammar fragment acquisition using syntactic and semantic clustering
US7127393B2 (en) Dynamic semantic control of a speech recognition system
US5819220A (en) Web triggered word set boosting for speech interfaces to the world wide web
EP2317507B1 (en) Corpus compilation for language model generation
Bulyko et al. Error-correction detection and response generation in a spoken dialogue system
US5758319A (en) Method and system for limiting the number of words searched by a voice recognition system
US20140149121A1 (en) Method of Handling Frequently Asked Questions in a Natural Language Dialog Service
US20030061029A1 (en) Device for conducting expectation based mixed initiative natural language dialogs
US20050137868A1 (en) Biasing a speech recognizer based on prompt context
US20060271364A1 (en) Dialogue management using scripts and combined confidence scores
US7127402B2 (en) Method and apparatus for converting utterance representations into actions in a conversational system
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
US6745165B2 (en) Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system
Xu et al. Language modeling for dialog system
CN113987149A (zh) 任务型机器人的智能会话方法、系统及存储介质
Zhang et al. Improved context-dependent acoustic modeling for continuous Chinese speech recognition
JP3024187B2 (ja) 音声理解方式
US20060136195A1 (en) Text grouping for disambiguation in a speech application
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치
CN116304046A (zh) 对话数据的处理方法、装置、存储介质及电子设备
JP2871420B2 (ja) 音声対話システム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080121

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090121

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100121

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees