JP2000259628A - 音声理解装置及び音声理解システム - Google Patents
音声理解装置及び音声理解システムInfo
- Publication number
- JP2000259628A JP2000259628A JP11060058A JP6005899A JP2000259628A JP 2000259628 A JP2000259628 A JP 2000259628A JP 11060058 A JP11060058 A JP 11060058A JP 6005899 A JP6005899 A JP 6005899A JP 2000259628 A JP2000259628 A JP 2000259628A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- speech
- word
- concepts
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
うことができる音声理解装置及び音声理解システムを提
供する。 【解決手段】 発話分割及び発話行為と組み合わせ概念
決定部23は、入力される自然発話文の音声認識結果の
単語グラフを、発話分割用決定木を用いて単文相当の意
味単位に分割するとともに、概念推定用及び発話行為推
定用有限状態オートマトンと、複数の概念及び概念の組
み合わせのバイグラムモデルとを用いて、音声認識結果
の単語グラフにおける自然発話文を、発話行為、概念又
は概念の組み合わせの系列に変換する。引数決定部24
は、入力される系列に基づいて、予め記憶された引数名
を列挙し、列挙した引数名に対応する部分文解析規則を
用いて構文解析して、使用した部分文解析規則の対応す
る引数値を並べることにより、上記自然発話文に対応す
る引数値を中間言語表現で出力する。
Description
話文の内容を理解して、理解した結果を中間言語表現で
出力する音声理解装置、及び、音声認識装置、自然言語
翻訳装置、又はデータベース検索処理装置を備えた音声
理解システムに関する。
モデル、及びN−gramを用いた言語モデルを用いた
連続音声認識が盛んに研究されており、数万語彙の認識
でも、単語認識率が90%以上とかなり実用レベルに近
くなっている。しかしながら、音声認識技術を用いたア
プリケーションを考えた場合、読み上げた文章をそのま
ま出力するディクテーションシステムを除くと、旅客機
案内システム、電話番号案内システム、音声翻訳システ
ム等、音声認識結果を理解し、ユーザーに情報を提供す
るいわゆる「音声理解システム」の方が応用分野が広い
と考えられる(例えば、従来技術文献1「坂井信輔ほ
か,“音声入力を用いたパソコンネットワーク旅客機空
席案内システムの試作”,電子情報通信学会技術報告,
SP94−89,pp.29−36,1995年1月」
参照。)。
の技術は、発話の内容を構文で限定したものや文法理論
を用いたもの(例えば、従来技術文献2「S.Seneff,“T
INA:A Natural Language System for Spoken Language
Applications”,Computational Linguistics,Vol.18,N
o.1,1992年3月」参照。)が主流である。発話内容を構
文で限定する手法は、理解率は高いと考えられるが、計
算機が受理できる発話内容をユーザーが事前に知ってい
なければならず、ユーザーへの負担が大きく、使いやす
いシステムとは言えない。
る手法よりは、発話内容の自由度が高いが、文法的に正
しい文章でないと、理解できないという問題がある。し
かしながら、音声認識で広く使われているN−gram
言語モデルは、認識率の観点からは非常に有利とされて
いるが、直前の(N−1)単語から次の単語への接続を
確率で表現するという極めて単純なモデルであるため、
局所的な制約しか表現できず、文全体として必ずしも文
法的に正しい文章を出力するとは限らない。従って、認
識結果に誤りが含まれる場合、正しく言語理解を行うの
は困難であると考えられる。また、実際のシステムの使
用時には、ユーザーが文法的に正しい文章を発声すると
は限らず、自然発話を理解するのは困難である。
語理解部が受理できる部分に分割する手法等(例えば、
従来技術文献3「Y.Wakita et al.,“Correct parts ex
traction from speech recognition results using sem
antic distance calculation,and its application to
speech translation”,ACL,1997年」参照。)が提案さ
れているが、分割を行うことにより、文章の大局的な情
報を得ることができないと考えられる。
声による文例検索システムの検討”,日本音響学会講演
論文集,2−Q−12,pp.163−164,199
7年3月」においては、キーワードによる方法が提案さ
れているが、キーワードのみでは文章の意味を正しく理
解することができず、また、ユーザーインターフェース
等でキーワードの間を補う必要がある。
人は、特願平9−303075号の特許出願において、
音声入力による指示により、データベースへアクセス
し、ユーザの要求する情報を表示する音声言語理解装置
(以下、第1の従来例という。)を開示している。この
第1の従来例の音声言語理解装置は、具体的には、「発
声音声から音声認識装置によって音声認識された音声認
識結果の音声文に基づいて、音声文の意味する検索条件
の内容を理解して、データベースを参照して応答する処
理を実行するための音声言語理解装置であって、検索条
件を含む文章データと、それに対応しかつ少なくとも応
答する処理の内容及びデータの項目名を含む所定の中間
言語データとの対である学習データに基づいて、識別誤
りが最小となるように、文章データをそれに対応する中
間言語に変換するための隠れマルコフモデル(以下、H
MMという。)を学習して得られたHMMを記憶する第
1の記憶装置と、複数の項目名に対応したデータを含む
データベースを記憶する第2の記憶装置と、上記第1の
記憶装置に記憶されたHMMを用いて、上記音声認識さ
れかつ検索条件を含む音声認識結果の音声文を上記中間
言語に変換して生成する生成手段と、上記生成手段によ
って生成された中間言語を、上記データベースに対応し
た所定のデータベース言語に変換した後、上記データベ
ース言語に含まれる検索条件に基づいて、上記第2の記
憶装置に記憶されたデータベースを検索して、上記検索
条件を満たすデータを獲得し、そのデータについて上記
中間言語に対応した応答する処理を実行する実行手段と
を備えた」ことを特徴としている。
HMMが独立に意味項を推定するモデルであるため、個
々のHMMの推定精度は悪い。そのため、bi−gra
mによる制約を併用しているが、HMMの推定確率が出
力された後の処理であるため、全体の推定精度を悪化さ
せている。また、予め決められた2項間の制約しか扱え
ないという問題点があった。さらには、HMMにカテゴ
リ毎のMCE学習を用いることで個々のHMMの推定精
度の向上を図っているが、概念毎に分類することが困難
な概念には適用できないという問題点があった。
人は、第1の従来例に比較して頑健にかつ正確に音声理
解を行うことができ、しかも組み合わせ制約を有する組
み合わせ概念を高精度で検出することができる自然言語
理解装置及び自然言語理解システム(以下、第2の従来
例という。)を、特願平10−065272号の特許出
願において開示している。この第2の従来例の自然言語
理解装置は、具体的には、「自然発話文に含まれる発話
行為に依存する制約と、自然発話文に含まれる意味的な
概念の間での組み合わせに依存する制約とを記憶する第
1の記憶装置と、自然発話文の単語列のテキストデータ
からなる学習データに基づいて、上記第1の記憶装置に
格納された制約を参照して、自然発話文の特徴として単
語活用形と単語標準形と概念とを用いて、自然発話文に
含まれる意味的な複数の概念及び概念の組み合わせがそ
れぞれ存在するか否かを決定するための第1の決定木
と、発話行為が存在するか否かを決定するための第2の
決定木とをそれぞれ、yes/no/未知の三分木の形
式、及びyes/noの二分木の形式で生成する生成手
段と、入力される自然発話文の単語列のテキストデータ
に対して、上記生成手段によって生成された第1の決定
木を用いて概念又は概念の組み合わせが存在するか否か
を決定するとともに、上記生成手段によって生成された
第2の決定木を用いて発話行為が存在するか否かを決定
して決定結果を出力する第1の決定手段と、発話行為
と、複数の概念及び概念の組み合わせとに対応する複数
の引数名を記憶する第2の記憶装置と、自然発話文にお
ける部分文を解析するための部分文解析規則とそれから
生成される引数値とを記憶する第3の記憶装置と、上記
第1の決定手段から出力される発話行為、概念又は概念
の組み合わせに基づいて、上記第2の記憶装置に記憶さ
れた引数名を列挙し、列挙した引数名に対応する上記第
3の記憶装置内の部分文解析規則を用いて構文解析し
て、使用した部分文解析規則の対応する引数値を並べる
ことにより、上記入力される自然発話文に対応する引数
値を中間言語表現で出力する第2の決定手段とを備え
た」ことを特徴としている。
2の従来例の自然言語理解装置は、第1の従来例に比較
して高い理解率で音声理解を行うことができるものの、
いまだ理解率が低いという問題点があった。
来例に比較して高い理解率で音声理解を行うことができ
る音声理解装置及び音声理解システムを提供することに
ある。
載の音声理解装置は、自然発話文に含まれる発話行為に
依存する制約と、自然発話文に含まれる意味的な概念の
間での組み合わせに依存する制約とを記憶する第1の記
憶装置と、自然発話文の単語列のテキストデータからな
る学習データに基づいて、上記第1の記憶装置に格納さ
れた制約を参照して、自然発話文の特徴として単語や同
義語の有無の情報を用いて、自然発話文に含まれる意味
的な複数の概念及び概念の組み合わせがそれぞれ存在す
るか否かを決定するための第1の決定木と、発話行為が
いずれであるかを決定するための第2の決定木とをそれ
ぞれ多分木形式で生成する第1の生成手段と、上記第1
の生成手段によって生成された第1と第2の決定木をそ
れぞれ第1と第2の有限状態オートマトンに変換する変
換手段と、上記学習データに基づいて、自然発話文を単
文相当の意味単位に分割するか否かを決定するための第
3の決定木を多分木形式で生成する第2の生成手段と、
上記学習データに基づいて、上記第1の記憶装置に格納
された制約を参照して、自然発話文に含まれる意味的な
複数の概念及び概念の組み合わせのバイグラムの統計値
を計数してその計数値をバイグラムモデルとして生成す
る第3の生成手段と、入力される自然発話文の音声認識
結果の単語グラフを、上記第2の生成手段によって生成
された第3の決定木を用いて単文相当の意味単位に分割
するとともに、上記変換手段によって変換された第1と
第2の有限状態オートマトンと、上記第3の生成手段に
よって生成された複数の概念及び概念の組み合わせのバ
イグラムモデルとを用いて、上記入力される自然発話文
の音声認識結果の単語グラフにおける自然発話文を、発
話行為、概念又は概念の組み合わせの系列に変換して出
力する第1の決定手段と、発話行為と、複数の概念及び
概念の組み合わせとに対応する複数の引数名を記憶する
第2の記憶装置と、自然発話文における部分文を解析す
るための部分文解析規則とそれから生成される引数値と
を記憶する第3の記憶装置と、上記第1の決定手段から
出力される発話行為、概念又は概念の組み合わせの系列
に基づいて、上記第2の記憶装置に記憶された引数名を
列挙し、列挙した引数名に対応する上記第3の記憶装置
内の部分文解析規則を用いて構文解析して、使用した部
分文解析規則の対応する引数値を並べることにより、上
記入力される自然発話文に対応する引数値を中間言語表
現で出力する第2の決定手段とを備えたことを特徴とす
る。
求項1記載の音声理解装置において、上記第1の決定手
段は、入力される自然発話文の音声認識結果の単語グラ
フを、上記第2の生成手段によって生成された第3の決
定木を用いて単文相当の意味単位に分割するとともに、
上記変換手段によって変換された第1と第2の有限状態
オートマトンを用いて、上記入力される自然発話文の音
声認識結果の単語グラフにおける自然発話文を、発話行
為、概念又は概念の組み合わせの系列の複数の候補に変
換した後、上記第3の生成手段によって生成された複数
の概念及び概念の組み合わせのバイグラムモデルとを用
いて、上記系列の複数の候補を再順序付けすることによ
り、発話行為、概念又は概念の組み合わせの系列を生成
して出力することを特徴とする。
請求項1記載の音声理解装置において、上記第1の決定
手段は、入力される自然発話文の音声認識結果の単語グ
ラフを、上記第2の生成手段によって生成された第3の
決定木を用いて単文相当の意味単位に分割し、上記変換
手段によって変換された第1と第2の有限状態オートマ
トンと、上記第3の生成手段によって生成された複数の
概念及び概念の組み合わせのバイグラムモデルとを用い
て、上記入力される自然発話文の音声認識結果の単語グ
ラフにおける自然発話文を、発話行為、概念又は概念の
組み合わせの系列に一括して変換して出力する。
テムは、請求項1乃至3のうちの1つに記載の音声理解
装置と、自然発話の発声音声を音声認識して、音声認識
結果の単語グラフデータを上記音声理解装置に出力する
音声認識手段とを備えたことを特徴とする。
解システムは、請求項1乃至3のうちの1つに記載の音
声理解装置と、上記第2の決定手段から出力される上記
入力される自然発話文に対応する中間言語表現の引数値
に基づいて、上記入力される自然発話文を別の言語に翻
訳して翻訳結果を出力する翻訳手段とを備えたことを特
徴とする。
理解システムは、請求項4記載の音声理解システムにお
いて、上記第2の決定手段から出力される上記入力され
る自然発話文に対応する中間言語表現の引数値に基づい
て、上記入力される自然発話文を別の言語に翻訳して翻
訳結果を出力する翻訳手段をさらに備えたことを特徴と
する。
解システムは、請求項1乃至3のうちの1つに記載の音
声理解装置と、上記第2の決定手段から出力される上記
入力される自然発話文に対応する中間言語表現の引数値
に応答して、上記中間言語表現に含まれる検索条件に基
づいて、所定のデータベースを検索して、上記検索条件
を満たすデータを獲得し、そのデータを出力するととも
に、そのデータに対応する処理を実行する実行手段とを
備えたことを特徴とする。
は、請求項4記載の音声理解システムにおいて、上記第
2の決定手段から出力される上記入力される自然発話文
に対応する中間言語表現の引数値に応答して、上記中間
言語表現に含まれる検索条件に基づいて、所定のデータ
ベースを検索して、上記検索条件を満たすデータを獲得
し、そのデータを出力するとともに、そのデータに対応
する処理を実行する実行手段をさらに備えたことを特徴
とする。
る実施形態について説明する。
然発話音声理解装置30を備えた自然発話音声理解シス
テムの構成を示すブロック図である。
然発話音声理解装置30を備えた自然発話音声理解シス
テムの構成を示すブロック図である。この実施形態の自
然言語理解システムは、大きく分けて、(a)図2に示
す音声認識装置10と、(b)決定木生成処理部21と
中間言語生成部22と組み合わせ概念バイグラム生成処
理部28と有限状態オートマトン(以下、FSAとい
う。)変換部29とを備えた自然発話音声理解装置30
と、(c)自然言語生成部25と、を備え、特に、自然
発話音声理解装置30を備えたことを特徴とする。
システム20の構成及び動作について概説する。図2の
音声認識装置10では、入力された発声音声の波形デー
タに対して特徴量計算を行った後、公知の隠れマルコフ
網による音響モデルを用いて、単語グラフサーチ法によ
り解の探索を行い、単語グラフの認識結果を出力する。
音声認識装置10の認識結果は、自然言語理解装置30
内の中間言語生成部22の発話分割及び発話行為と組み
合わせ概念決定部23に入力される。一方、決定木生成
処理部21は、学習用データメモリ31内のタグ付きコ
ーパスに基づいて、単語辞書メモリ32内の単語辞書
と、発話行為と組み合わせ概念メモリ33内の発話行為
と組み合わせ概念を参照して、かつ、分割待ち行列メモ
リ42と待ち行列メモリ43と事例データメモリ44を
用いて、図9及び図10の概念推定用決定木と発話行為
推定用決定木のための決定木生成処理を実行することに
より概念推定用決定木及び発話行為推定用決定木を生成
し決定木メモリ34aに出力して格納するとともに、図
13及び図14の発話分割用決定木のための決定木生成
処理を実行することにより発話分割用決定木を生成し決
定木メモリ34bに出力して格納する。そして、FSA
変換部29は、待ち行列メモリ41を用いて、決定木メ
モリ34a内の概念推定用決定木及び発話行為推定用決
定木をそれぞれ概念推定用FSA及び発話行為推定用F
SAに変換してFSAメモリ40に出力して格納する。
一方、組み合わせ概念バイグラム生成処理部21は、学
習用データメモリ31内のタグ付きコーパスに基づいて
組み合わせ概念バイグラムの統計的言語モデルを生成し
て組み合わせ概念バイグラムメモリ39に出力して格納
する。
定部23は、決定木メモリ34a内の発話分割用決定木
を用いて音声認識結果を単文相当の発話単位毎に分割し
た後、概念推定用決定木と発話行為推定用決定木とを用
いて、単語辞書メモリ32内の単語辞書と、発話行為と
組み合わせ概念メモリ33内の発話行為と組み合わせ概
念リストと、FSAメモリ40内の概念推定用FSAと
発話行為推定用FSAと、組み合わせ概念バイグラムメ
モリ39内の組み合わせ概念のバイグラムを用いて、発
話行為と組み合わせ概念を決定して、認識結果とともに
引数決定部24に出力する。これに応答して、引数決定
部24は、入力されたデータに基づいて、引数名メモリ
35内の引数名と引数値生成規則メモリ36内の部分文
解析規則と引数値とを参照して引数を決定して、その中
間言語表現のデータを認識結果とともに自然言語生成部
25に出力する。これに応答して自然言語生成部25
は、文テンプレートメモリ37内の文テンプレートと、
部分文生成規則メモリ38内の引数値解析規則と単語列
とを参照して、例えば、英語から日本語への翻訳を行っ
て、翻訳結果の単語列をプリンタ26及びCRTディス
プレイ27に出力する。
言語表現(意味タグ)について説明する。自然発話の意
味表現の中間言語表現として、C−STAR(Consorti
um for Speech Translation Advanced Researchの略で
ある。)で定めている“ダイアログ・アクト(Dialogue
Act)”(以下、DAともいう。)(例えば、従来技術
文献5「B.Angelini et al.,“ Multilingual Person t
o Person Communication at IRST”,Proceedings of IC
ASSP,ミュンヘン,ドイツ,1997年」参照。)を参
照して、テキストデータであるコーパスにはDAをその
ままタグとして付与している。DAは、タスク依存のセ
ットとして定義されている。発話は、概ね文に相当する
意味的なまとまりである意味的な発話単位(Semantic D
ialogueUnit;以下、発話という。)に分割され、各発
話単位からタスク達成に直接関係する情報だけがDAと
して伝達される。各DAは[話者(speaker),
発話行為(speech−act),概念(コンセプ
ト;concept),引数(アーギュメント;arg
umennts)]の4項からなる組である。あるDS
Uに対するDAの例を表1に示す。
nt)を表わす話者情報であり、GIVE−INFOR
MATION(情報提供)は発話行為、AVAILAB
ILITY(利用可能性)+ROOM(部屋)は概念、
括弧内は引数である。
発話(発話文)の焦点が当たっている命題内容を表現す
る。表1の発話には、他に、TEMPORAL(時間情
報)やFEATURES(特徴)+ROOM(部屋)と
いった概念が現れるが、焦点から最適なタグはAVAI
LABILITY+ROOMとなる。概念には、文脈を
必要とする情報を含まない。概念と発話行為の組み合わ
せ、及び、概念間の組み合わせは、定義により予め制約
されている。本実施形態で、定義されている概念は50
種類であり、これらを組み合わせた概念は777種類存
在する。組み合わせの制約は、主に文生成時の曖昧性排
除の観点から規定されたものである。
について説明する。本実施形態では、音声認識への意味
からの制約をねらい、まず発話の概念の推定だけを考え
る。ここでは、これを発話(発話文)の特徴に基づく分
類問題として扱い、決定木を用いた推定を行う。
念を1クラスとして一括分類する方法と、(2)概念を
独立に分類する方法と、が考えられる。識別精度の観点
からは(1)の方法が望ましいが、データ数が少ない貧
弱なスパースデータの問題が顕著となる。一方、(2)
の方法では、定義に矛盾する組み合わせが出力される恐
れがある。そこで、本実施形態では、(2)の分類にお
いて組み合わせの最適性を得られる方法を用いて。本実
施形態では、定義概念には明確な階層分けが規定されて
いなかったため、概念のグルーピングは行わず、各概念
の有無を1クラスとする分類を行う。概念間の排他・共
起関係は全て学習により獲得する。
単語、統語構造(係り受け)、シソーラス(類語辞書、
同義語の辞書)等が考えられる。これらの情報を、発話
の曖昧さに応じて適宜用いることが望ましい。ただし、
音声認識結果への適用を考慮すると、認識誤りや非文法
的な表現が含まれる文に対して、全体をパーズ(音声認
識)しなくては得られない特徴を用いることは望ましく
ない。また、推定対象である概念は、構文による焦点の
移動等の問題は予想されるものの、概ねキーワードに依
存していると考えられる。そこで、本実施形態では、発
話の特徴として、(a)単語活用形、及び(b)単語標
準形を用いた。本実施形態の手法では、これに(c)概
念を併せた3つを用いる。(c)の概念情報は、注目し
ている概念を除く全ての概念の有無であり、学習時には
コーパスで付与されているタグから与えられる。例え
ば、表11において、識別番号0000の概念情報とし
ては“reservation(予約)”と“temp
oral(時間)”が与えられる。推定時の取得方法に
ついては、詳細後述する。
l.,”An interlingua based on domain actions for ma
chine translation of task-oriented dialogues”,Pro
ceedings of ICSLP-98,pp.1155-1158,1998年」で開示さ
れた中間言語による文意の表現例を示す。上述のよう
に、発話は、決定木メモリ34b内の発話分割用決定木
を用いて、概ね単文相当の意味単位に分割され、それぞ
れの意味単位に対して中間言語表現が与えられる。文意
は、3種類のタグ:発話行為、概念、引数を用いて表現
される。これらのタグはタスクに依存して定義される。
現在の対象ドメインは旅行のプランニングであり、これ
にはホテル予約、フライト予約、交通機関の案内等のタ
スクが含まれている。以下、本実施形態では、発話から
意味単位への分割と概念(又は概念の組み合わせ)の同
定を考える。
について説明する。音声認識装置10から出力される音
声認識結果の音響的観測系列Aに対し、次式で表される
最尤の概念組み合わせの系列を生成する。ただし、Bは
意味単位分割を表わす。
+features+room)) の生成に相当する。これは、次式で与えられる。
位の分割の系列、C1 |B|は概念の系列C1,C2,…,C
|B|である。数4の右辺の第1項は単語グラフによる認
識スコアであり、その第2項は分割スコア、その第3項
は概念スコアである。また、上記数4の右辺の第3項
は、次式のように展開できる。
位置を表わす。
音声理解システムの構成及び動作概要を示す。このシス
テムでは、マルチパスによる段階的絞り込み探索によ
り、目的とする概念の系列を生成する。第1のパスで
は、音声認識装置10(例えば、従来技術文献7「内藤
ほか,“日英音声翻訳システムATR−MATRIXに
おける音声認識用音響・言語モデル”,日本音響学会講
演論文集,2−Q−20,平成10年3月」参照。)に
より、単語グラフの生成(数4の右辺の第1項)を行
う。次いで、第2のパスでは、単語グラフ上のパスに対
し、新たに意味スコア(数4の右辺の第2項及び第3
項)を評価することで、数4の基準によるN−best
文意仮説を生成する。ただし、本実施形態では、第2の
パスに数5の右辺の第1項までを用いることとし、その
第2項は第3のパスで評価する。さらに、第3のパスで
は、概念(組み合わせ)の2−gram(バイグラム)
を用いて、第2のパスのN−best仮説に再順序付け
を行い、最終的な概念系列を決定する。2−gram
は、概念の1−gram(ユニグラム)確率と一様分布
確率により削除補間法で補間することにより得ている。
方法について説明する。第2のパスにおける文意探索で
は、第1のパスの認識仮説から効率よくを探索するため
に、N−best認識候補の代わりに単語グラフを直接
的に探索する。初期ノードから開始し、単語グラフをF
SAモデルを用いて、left−to−right(左
から右方向)に辿る。各ノードに対して初期ノードから
到達可能なパスを求め、それぞれのパス上の単語列に対
して、後述する発話分割モデルと概念モデルを適用して
意味仮説を生成する。両モデルともにFSAモデル(l
eft−to−rightモデル)であるため、直前の
ノードでの状態に基づいて、単語入力に対する意味スコ
アを逐次的に評価することが可能となっている。生成し
た仮説群中、以下の条件に合致する仮説群は同義とし、
スコアの最も良い仮説を残して破棄する。同義の条件と
は、(1)発話分割数、(2)現行意味単位を除く各意
味単位の最尤概念、(3)現行意味単位における各概念
モデルの状態、が全て等しいことである。マージ後、最
大N個(実験ではN=50)の上位仮説を残して、枝刈
りを行う。
力単語列に対して、最右単語の直前に意味単位境界が生
起する確率を与えるものである。本実施形態では、二分
木形式の発話分割用決定木を用い、注目する単語境界の
前n単語(実験ではn=3)と後ろ1単語の語彙情報に
基づいて、その単語境界が意味単位である確率を与え
る。
位内の単語列から概念(組み合わせ)が生起する確率を
与えるものである。モデルは二分木形式の複数の決定木
の集合である。それぞれの決定木は、対応する概念の生
起(非生起)確率を与える。組み合わせの尤度は、それ
らの尤度積を用いて近似する。各決定木の生成は、ある
単語が意味単位中に現れるか否か、又は、あるシソーラ
ス(同義語)クラスに属する単語が現れるか否か、によ
り学習事例の二分割を繰り返すことで行う。このとき語
順は考慮しない。
(左から右方向)に評価する際、この概念モデルの決定
木を直接上から下へと辿ることはできない。これは、あ
る単語が意味単位中に現れないことを知るには、意味単
位の終端が検出されるまで待つ必要がある理由による。
そこで、探索時には、左コンテキストにおいて出現した
単語に基づいて到達可能な決定木のリーフノード集合を
逐次絞り込んでいくことにより、等価的に決定木を辿
る。実際には、決定木を単語遷移のFSAに変換して、
変換された決定木のFSAを用いて概念及び発話行為を
推定している。
識結果である単語グラフの一例を示す図であり、図4を
参照して、単語グラフ及び単語グラフからの文意探索に
ついて説明する。単語グラフとは、音声認識における単
語系列仮説の表現手法の一つである。単語グラフの一例
を示す図4は、自然発話「今、ワシントンのホテルに滞
在しています」の認識仮説を単語グラフで表現した例で
ある。図中、丸は単語グラフのノードを示しており、各
ノードの上に付与した数値は、対応する時刻を示してい
る。ノード間のアークは、単語認識仮説であり、その単
語の認識尤度とともに保持される。この単語グラフの音
声認識については、従来技術文献8「清水徹ほか,“大
語い連続音声認識のための単語仮説数削減”,電子情報
通信学会論文誌,D−II,Vol.J79−D−I
I,No.12,pp.2117−2124,1996
年」において開示されており公知である。
1の発話分割及び発話行為と組み合わせ概念決定部23
により実行され、その処理フローを図15及び図16に
示す。この文意探索処理について説明する。
仮説Hは、{W、B、C、ST}の4項の組で構成され
る。ここで、これら4項は以下のように定義される。 (1)W…発話頭からの単語系列; (2)B…単語系列Wに対する文分割位置; (3)C…{発話行為と概念の組み合わせ}の文数個の
系列; (4)ST…複数m個存在する意味項目FSAのそれぞ
れに対する、m個の状態ポインタである。ここで、各状
態ポインタSTは、対応するFSAを、単語系列Wが対
応する文系列の最右の文により遷移させたときに到達す
る状態を指している。
いて次式の文意尤度の計算式1(強近似)を用いる。数
4を再掲すれば、
形例では、文意探索の途中でも使用する。)次式の文意
尤度の計算式2(弱近似)を用いる。数4を再掲すれ
ば、
各文に対する発話行為と概念組み合わせ仮説をn個ずつ
保持してもよい。
化計数σについて説明する。上記数10を再掲すると、
次式の通りである。
2項はそれぞれ、次式により与えられる。
間係数であり、公知の削除補間法により決定される。上
記数15において、正規化係数σは次式により与えられ
る。
って生成された発話分割用決定木の一例を示す図であ
る。図5から明らかなように、発話分割用決定木は、語
彙の相対位置と、品詞、活用形、活用型、標準形又は表
層形を示す語彙情報を用いて生成され、文の境界である
確率を求める決定木である。図5において、(−1,C
JTYP=nil)は1つ前の単語の活用形が無しであ
るか否かを判断するノードである。また、(−1,PO
S=感動詞)は1つ前の単語の品詞が感動詞であるか否
かを判断するノードである。さらに、(+1,POS=
接続助詞)は1つ後ろの単語の品詞が接続助詞であるか
否かを判断するノードである。これら3つの条件がYE
Sであるときに文が分割される確率は0.1であること
を示す。なお、(−1,CJTYP=特殊サ)は1つ前
の単語の活用形が特殊サ変活用であるか否かを判断する
ノードである。
事例データは、事例データメモリ44に格納され、{単
語系列,注目する単語境界,クラス}で構成される3項
組である。ここで、事例のクラスとは、(1)T:注目
する単語境界は正しい発話分割位置である、(2)F:
注目する単語境界は正しい発話分割位置ではない、のい
ずれかである。次の表は、事例の一例である。各行が一
つの事例に対応している。識別番号001を付与された
事例では、単語系列が「はい京都観光案内です」であ
り、注目する単語境界は1番目の単語の直後、すなわ
ち、「はい」と「京都観光案内」の間であることを示
す。また、クラスTは、この単語境界が正しい発話分割
位置であることを示すものである。
(図13のステップS66)におけるノード分割停止基
準は、「発話分割用決定木のルートノードからあるノー
ドNを見たときのエントロピーの期待値Eh(次式で表
される)が所定のしきい値以下となっている場合は、そ
のノードをそれ以上分割しない。」と定める。
F|はそれぞれ、ルートノードの事例数、ノードNの事
例数、ノードNの事例でクラスTに属する事例数、ノー
ドNの事例でクラスFに属する事例数をそれぞれ表わ
す。
生成処理で用いる単語境界の特徴(図13のステップS
68)は、{相対位置,語彙情報}で構成する2項組で
ある。相対位置とは、注目する単語境界から前、又は後
ろに何単語離れているか、であり、本実施形態では、前
3単語まで、後ろ1単語までを用いることとする。語彙
情報とは、ある単語の品詞、表層形、標準形、活用形、
活用型、辞書番号、の何れかが、ある値を取るか、であ
る。例えば、単語境界の特徴(−1、POS=感動詞)
において、相対位置を示す”−1”は、注目する単語境
界の直前の単語に関する特徴であることを意味し、”P
OS=感動詞”は、その単語の品詞が感動詞であること
を示すものである。
説明する。概念毎に、その概念の有無を推定するための
概念推定用決定木を生成する。学習は、全発話サンプル
集合Sをルートノードに属する初期集合とし、次式の相
互情報量I(S;f)が最大となる発話の特徴fhで分
割を繰り返すことにより行う。分割は、ノードが純粋な
クラスの集合になるまで、又は、しきい値以上のI
(S;fh)が得られなくなるまで行う。木は基本的に
yes/noの2分木であるが、特徴fhに概念を用い
る場合は、さらに未知アークの下に発話サンプル集合S
をそのまま保持する第3の子ノードとして加えておくこ
とで、その概念に依存しないパスも同時に生成してお
く。すなわち、概念推定用決定木は、yes/no/未
知の三分木の形式で表される一方、発話行為推定用決定
木は、yes/noの二分木の形式で表される。
の集合、fは発話の特徴に関するテスト特徴(以下、単
に、テストともいう。)である。Ciは発話のクラスで
あり、ここでは、C1は注目している概念を含むクラ
ス、C0は注目している概念を含まないクラスである。
p(Ci)は発話サンプル集合SがクラスCiである確
率、p(Ci,fj)は発話サンプル集合Sに対するテス
トfの結果がfj(=yes/no)でかつクラスがCi
である結合確率、p(Ci|fj)はその条件付き確率で
ある。
23で用いる推定アルゴリズムについて説明する。入力
発話に対して、その特徴に基づいて、概念毎に生成した
概念推定用決定木を並列にトレースして発話の概念を推
定する。各概念推定用決定木において到達したリーフノ
ードのp(C1)をその概念の推定確率とする。木は、
概念テストを行うノードのリンクにより、お互いの概念
推定確率を適宜参照し、共起/排他情報として利用する
(図4中の弧矢印で示す。)。参照先の木が推定を終え
ていない場合は、停止してその終了を待つ。概念推定用
決定木がお互いに依存し合いデッドロック(互いの推定
結果待ちの状態)に陥った場合は、以下の基準で1つだ
け選択した木のポインタを停止中のノードからその未知
子ノードへと移し、木全体のトレースを再開する。デッ
ドロック時に進める木は、全概念に対する識別の曖昧さ
を最小にするものを選択する。次式で定義するクラスエ
ントロピーの総和Eを最小にする木である。クラスエン
トロピーの総和Eは、その木のポインタを未知子ノード
へと移して全ての木のトレースを再開したとき、次にデ
ッドロックした時点で各木が到達するノードのクラスエ
ントロピーの総和Eを、全木に対して取ったものであ
る。この結果得られる各概念の確率ベクトルから概念へ
の復号化には、内積を用いた。
ee i
る。表1に、自然言語文を当該中間言語表現で表現した
例を示す。
語表現は、「話者は“a”つまり『担当者』(“age
nt”の頭文字である。)であり、発話行為は“req
uest−information”つまり『情報要
求』であり、組み合わせ概念は“reservatio
n+temporal”つまり『予約の時間』であり、
引数は“time=question”つまり『時間が
質問対象になっている』」ということを意味する。
本実施形態では、発話行為として、「受諾(accep
t)」、「承認(acknowledge)」、「肯定
(affirm)」、「陳謝(apologize)」
といった、23種類を定義して用いる。この中で、特に
「確認(verify)」と「確認要求(reques
t−verification)」の2つは他の発話行
為と組み合わせることで、「受諾の確認(verify
−accept)」等といった複合発話行為を構成する
ことができる。本実施形態では、複合発話行為は65種
類ある。本実施形態で用いる発話行為及び複合発話行為
の例を次の表に示す。
うな概念を定義するかは、システムが扱うタスクドメイ
ンに強く依存する。本実施形態では、旅行会話タスクを
扱うために、「空港(airport)」、「到着(a
rrival)」、「利用可能性(availabil
ity)」、「キャンセル(cancellatio
n)」等、50種類の概念を定義して用いる。
する。概念の組み合わせにより、文において焦点が当っ
ている話題を組み合わせ概念として表現する。例えば、
表2の例3の文“The week of the twelfth we have bo
th singles and doubles available”において、文中に
は、「時間(temporal)」や、「部屋の特徴
(features+room)」といった話題も現れ
るが、文の焦点から最適な組み合わせ概念は「部屋の利
用可能性(availability+room)」で
ある。組み合わせ概念として使用可能な概念の組み合わ
せを、(1)発話行為に依存する制約と、(2)概念間
での組み合わせ制約として定義し、発話行為と組み合わ
せ概念メモリ33に格納する。なお、本実施形態におい
て、組み合わせ概念とは、1つずつの概念と、複数の概
念の組み合わせとを含めて組み合わせ概念という。
為と組み合わせ概念メモリ33のデータ例を次の表に示
す。ここで、(1)発話行為に依存する制約とは、具体
的には、例えば、「交通機関の利用可能性」についての
「情報提示」(give−information+a
vailability+transportatio
n)は許すが、「交通機関の利用可能性」についての
「拒否」(reject+availability+
transportation”は許さない、といった
ものである。また、(2)概念間での組み合わせ制約と
は、例えば、「団体客の特徴(features+pa
rty)」は許すが、「団体客の利用可能性(avai
lability+party)」や「団体客の予約
(reservation+party)」は許さな
い、といったものである。本実施形態では、組み合わせ
概念は777種類を定義し、これを用いる。
ータ例
文の内容の詳細な特徴を引数で表現する。次の表に挙げ
た例1.及び例2.では、表層が異なる(具体的には、
同じ単語が“I”と“on”しか無い。)2文に対し
て、括弧で括られた引数のみが異なる中間言語表現が与
えられている。ここで、c:は話者aとは異なる話者c
を示す。
から構成される。表7の例1及び例2では、“wh
o”,“with−whom”,“time”,“qu
antity”が引数名であり、“I”,“(asso
ciate,quantity=2)”,“(may,
md15)”等が引数値である。使用可能な引数名は、
発話行為と組み合わせ概念に依存して定義し、引数名メ
モリ35に格納する。なお、例外については詳細後述す
る。このデータ例を次の表に示す。
formation+availability+tr
ansportation”「交通機関の利用可能性に
関する情報提示」で使用可能な引数名、及び、“giv
e−information+availabilit
y+room”「部屋の利用可能性に関する情報提示」
で使用可能な引数名の一覧を示すものである。それぞれ
に定義された引数名を比べると、両者に共通して使用可
能な、“time(時間)”,“location(場
所)”といった引数名が存在する一方で、前者のみで使
える“transportation−type(交通
機関のタイプ)”,“carrier−name(運送
手段の名前)”、逆に、後者のみで使える“hotel
−type(ホテルのタイプ)”といったものも存在す
ることがわかる。
引数値を定義する。引数値のデータ例を次の表に示す。
値を単独で用いる以外に、これら引数値を組み合わせて
用いることも可能である。引数値の組み合わせには、以
下の演算子を用いる。
て、引数構造:引数名=引数値を用いることを許す(こ
れは、引数名定義の例外である。)。表10の例中の<
quantity>や<start−time>,<e
nd−time>が、これに相当する。引数構造を用い
ることで、例えば、表7の例1中の with−whom=(associate,quan
tity=2) 「同伴者2名」といった表現や、 time=(start−time=10:00,en
d−time=12:00) 「10時から12時まで」といった表現を扱うことが可
能である。
いて説明する。決定木生成処理部21は、学習データメ
モリ31内の学習用タグ付きコーパスの情報に基づき、
概念推定用決定木と発話行為推定用決定木をそれぞれ生
成するとともに、発話分割用決定木を生成する。ここ
で、学習データであるタグ付きコーパスは、表11に示
すように、各例文毎の識別番号と、例文(例えば英語)
と、それに対応する中間言語表現とから構成される。
明する。決定木はノードとアークから構成され、決定木
は基本的に二分木であるが、部分的に三分木となるノー
ドを含むことを特徴としている。全てのノードは事例集
合を保持する。また、リーフ以外のノードでは、この他
にテストを保持する。ここで、事例集合は、学習データ
メモリ31内の学習データの情報から生成される全事例
の部分集合である。この学習データであるタグ付きコー
パスのデータ例を表11に示す。また、この学習データ
の情報から生成した、概念“room(部屋)”を推定
する決定木用の事例集合のデータ例を表12に示す。
る。クラスとは、当該文の中間言語表現に、当該決定木
が推定対象とする概念を含むクラスC1、又は含まない
クラスC0のいずれかである。テストは、予め指定した
文の特徴から、上述の数18により定める相互情報量基
準により唯一つ選択する。文の特徴としては、(1)単
語活用形(すなわち、ある単語が文中に出現するかを示
す。)、(2)単語標準形(すなわち、ある単語標準形
を持つ単語が文中に出現するかを示す。)、(3)概念
(すなわち、ある概念が文の中間言語表現中に見られる
かを示す。)の3つを用いる。ただし、(3)の概念に
は、当該決定木が推定対象とする概念を含まない。
明する。以下、概念推定用決定木との相違点のみを示
す。 (a)唯一つの発話行為推定用決定木で発話行為を決定
する。 (b)文の特徴には、(1)単語標準形(すなわち、あ
る単語標準形をもつ単語が文中に出現するかを示
す。)、(2)単語標準形の2連接(すなわち、ある単
語標準形をもつ単語の2連接が文中に出現するかを示
す。)の2つを用いる。(c)事例のクラスとしては、
65種類の複合発話行為を設定する。(d)ノードのテ
ストを選択する基準には、概念推定用決定木と同様に、
相互情報量を用いる。(e)生成する発話行為推定用決
定木は、完全二分木である。概念推定用決定木で生成し
た未知アークはここでは生成しない。
て説明する。中間言語生成部22は、図1に示すよう
に、発話行為と組み合わせ概念決定部23と引数決定部
24とから構成され、音声認識装置10からの自然発話
の入力文に対応する中間言語表現を生成する。すなわ
ち、複合発話行為、組み合わせ概念、引数をそれぞれ決
定する。発話行為と組み合わせ概念決定部23におい
て、組み合わせ概念の決定においては、上述の推定アル
ゴリズムを用いる。また、発話行為の決定においては、
到達したリーフが保持する事例集合中から、最大数を占
める複合発話行為を推定結果として選択する。
概念決定部23からの決定された発話行為及び組み合わ
せ概念を含む入力文を、以下の手順で部分的に構文解析
することで、発話行為と組み合わせ概念を決定する。 <ステップSS1>入力される決定した発話行為と組み
合わせ概念を引数名メモリ35内の引数名と照らし合わ
せることで、使用可能な引数名を列挙する。 <ステップSS2>列挙した引数名それぞれについて、
対応する部分文解析規則を引数値生成規則メモリ36か
ら読み込む。 <ステップSS3>部分文解析規則を用いて、入力文中
の任意の連続した部分単語列を構文解析する。このとき
使った規則から生成される引数値を並べることで、当該
入力文に対応する引数値を生成する。例えば、入力文
“I’ll arriving on Monday
February1.”からは、連続した部分単語列
“on Monday February1”から引数
名“time”に対する引数値“(monday,fe
bruary,md1)”が生成される。
(時間)”の引数値生成規則の例を示す。引数値生成規
則は、部分文解析規則と生成される引数値から構成され
る。表13及び表14中、セミコロン“;”の左側が公
知のBNF(“BaccusNaur Form”の略
とも、“Baccus Normal Form”の略
とも言われる。)記法で記述した部分文解析規則であ
り、右側が当該規則から生成される引数値である。大文
字とアンダースコア“_”のみから構成されているもの
は非終端記号を表わす。バッククォート“‘”とシング
ルクォート“’”で囲まれているものは終端記号を表わ
す。アスタリスク“*”で囲まれたものは、非終端記号
の展開により生成される引数値である。
て説明する。自然言語生成部25は、引数決定部24か
ら入力される中間言語表現から、以下の手順で翻訳文を
生成する。 <SS11>発話行為と組み合わせ概念に基づき、文テ
ンプレートメモリ37から対応する文テンプレートを取
り出す。 <SS12>部分生成規則メモリ38は、引数値解析規
則とそれに対応する単語列とから構成され、部分文生成
規則メモリ38から、中間言語表現中に与えられた引数
名に対応する部分文生成ルールを取り出す。 <SS13>引数値解析規則を使って引数値の構文解析
を行う。このとき使った規則により生成される単語列を
並べることで、当該引数に対応する部分文を生成する。 <SS14>部分文を文テンプレートに埋め込んで出力
文を生成する。ここで、文テンプレートメモリ37のデ
ータ例を以下に示す。また、部分文生成規則メモリ38
のデータ例を以下に示す。
分文生成規則メモリ38には、引数値解析規則と生成さ
れる単語列から構成される。表17及び表18におい
て、セミコロン“;”の左側が公知のBNF記法で記述
した引数値解析規則であり、右側が当該規則から生成さ
れる単語列である。大文字とアンダースコア“_”のみ
から構成されているものは非終端記号を表わす。また、
バッククォート“‘”とシングルクォート“’”で囲ま
れているものは終端記号を表わす。さらに、アスタリス
ク“*”で囲まれたものは、非終端記号の展開により生
成される単語列である。
て、中間言語表現“give−information
+availability+room(room−t
ype=single,time=(md12md1
3))”が与えられると、引数から部分文「シングル」
と「12日と13日に」が生成される。これを表14及
び表15の例の下段(表15)の文テンプレートに埋め
込むことで、出力文「12日と13日にシングルの部屋
が利用できます。」が生成される。
って生成された概念推定用決定木の一例を示す図であ
る。図6において、ノードの横にテストの内容を示す。
大文字のものは概念、<>で囲まれているものは単語標
準形、*で囲まれているものは詳細後述する前処理によ
り特別なシンボルに置き換えた単語をそれぞれ表わす。
また、リーフノード(黒丸)の下の値はノードに属する
発話サンプルが概念を含む確率p(C1)である。
について説明する。本実施形態では、発話行為推定用の
決定木を唯一つ生成する。この決定木により、当該文に
対応する発話行為が、定義により規定された発話行為中
のいずれであるかを推定する。推定結果は、発話行為の
尤度ベクトルとして与えられる。また、発話行為推定用
の決定木は、概念推定用決定木と同様、完全二分木とし
て生成する。すなわち、決定木のリーフ以外のノード
は、下位のノード(子ノード)をそれぞれ2つずつ有す
る。これら子ノードは、親ノードのテスト特徴fに対す
る結果がyes/noであることに対応している。ここ
で、テスト特徴fとは、概念推定用決定木と同様、文中
に或る単語(又は、或る類義語クラスに属する単語)が
出現するか、否か、である。決定木生成処理において、
いずれの単語(又は類義語クラス)をノードのテスト特
徴として選択するかは、概念推定用決定木の生成時と同
様に、相互情報量(上記数18)に基づいて決定する。
ただし、ここで「事例クラスがCiである」、とは、当
該事例に対応する文の発話行為がi番目の発話行為SA
iであることに対応する。さらに、入力文に対する発話
行為の尤度は、当該文が到達する決定木のリーフノード
により与えられる。ここでは、各発話行為の尤度とし
て、リーフノードが保持する学習事例集合における各事
例クラスの頻度分布を直接用いる。例えば、到達したリ
ーフノードに100個の学習事例が保持されており、う
ち、発話行為SA1に対応する事例が70個であり、S
A2に対応する事例が30個であったとき、当該文に対
する発話行為の尤度は(Pr(SA1),Pr(SA
2),Pr(SA3),…)=(0.7,0.3,0.
0,…)である。
について説明する。本実施形態では、発話行為推定用F
SAを唯一つ生成する。これは、発話行為推定用決定木
からの変換処理により生成される。処理フローは、概念
推定用のそれと完全に共通である。すなわち、図11の
処理は。概念推定用決定木と発話行為推定用決定木とに
適用される。従って、これら2つの決定木を意味項目推
定用決定木ともいう。なお、これら2つの決定木におけ
る唯一の相違点は、FSAの出力(対応する意味項目
(概念)の存在確率)が、概念推定用FSAでは「当該
意味項目が存在する確率/存在しない確率」の形式で出
力されるのに対して、発話行為推定用FSAでは「各発
話行為の尤度ベクトル」の形式で出力される点である。
って生成された概念推定用決定木又は発話行為推定用決
定木である意味項目推定用決定木の一例を示す図であ
り、図8は、図7の意味項目推定用決定木から図1のF
SA変換部29によって変換された意味項目推定用FS
Aの一例を示す図である。本実施形態では、入力単語系
列に対し、逐次的に各意味項目の尤度を評価するため、
各意味項目推定用決定木をそれぞれFSAに変換して用
いる。
フノードを示す。リーフノードの下の数字は、そのノー
ドに分類された学習事例の数を表わす。例えば、リーフ
ノードL1においては、L1に分類された学習事例の総
数は10個であり、うち9個は、この決定木が対応する
意味項目を含むものであったことを意味する。
例であり、白丸S1〜S5はFSAの状態を示す。各状
態からは、入力された単語に応じて、別の状態、又は同
じ状態へと遷移が行われる。図中、a、bが付与された
アークはそれぞれ単語a、bによる遷移が行われること
を表わす。また、”終了”は、意味単位の終端による特
別な遷移を表わす。”その他”は、その他の単語による
遷移を表わす。FSAの各状態は、決定木のリーフノー
ドの組み合わせに対応しており、入力された単語系列
が、いずれのリーフノードに分類されるかを示してい
る。単語系列に対する意味項目の尤度は、FSA状態が
対応するリーフノードに基づいて決定する。
語系列”bxxy”が入力されたとき、FSAでは、初
期状態S1から開始して、文頭の単語”b”により状態
S2に遷移し、続く単語系列”xxy”により、状態S
2での自己ループを回る。この単語系列”bxxy”が
入力された時点での意味項目の尤度は、状態S2が対応
する決定木のリーフL1、L2により保持される学習事
例集合の和集合により、意味項目推定の尤度確率pr=
15/30=0.5を与える。これは、この部分単語系
列”bxxy”が、後続する未知の単語系列に依存して
リーフL1又はL2に分類されること、また、決してL
3には分類されないことを意味する。その後、”bxx
y”の後に単語”a”が入力されれば、状態はS2から
S3に遷移し、意味項目尤度確率としてpr=9/10
=0.9を与える。一方、単語”a”が入力されずに意
味単位の終端が検出された場合は、状態S2から終了ア
ークにより状態S5に遷移し、意味項目尤度確率として
pr=6/20=0.3を与える。
は、学習用データメモリ31内のタグ付きコーパスに基
づいて、発話行為と組み合わせ概念メモリ内の組み合わ
せ概念の定義例を参照して、当該タグ付きコーパス中に
おける組み合わせ概念のバイグラムの統計値を計数し、
その計数値を組み合わせ概念の統計的モデルとして抽出
して組み合わせ概念メモリ39に出力して格納する。
部21によって実行される概念推定用決定木と発話行為
推定用決定木のための決定木生成処理を示すフローチャ
ートである。
話行為と組み合わせ概念メモリ33を参照して全ての概
念と複合発話行為を列挙し、ステップS12において決
定木を生成していない概念又は複合発話行為があるか否
かが判断される。NOであれば、すべての概念又は複合
発話行為を処理したと判断して当該処理を終了する。一
方、ステップS12でYESであるときは、ステップS
13において学習データメモリ31から全ての学習用タ
グ付きコーパスを読み込み、当該意味項目に対応する事
例を生成する。次いで、ステップS14において全ての
事例を事例集合として保持するノードを生成し、当該意
味項目推定用決定木のルートノードとして登録する。そ
して、ルートノードを分割待ち行列メモリ42に入れ
る。そして、ステップS15において分割待ち行列メモ
リ42は空か否かが判断され、YESのときは決定木の
生成が終了したと判断してステップS22で生成した決
定木を決定木メモリ34aに格納した後、ステップS1
2に戻る。一方、ステップS15でNOのときは、ステ
ップS16において分割待ち行列メモリ42から、ノー
ドNを1つ取り出し、ステップS17においてノードN
の保持する事例集合Sは、単独クラスの集合か否かが判
断される。ステップS17でYESのときはステップS
15に戻る一方、NOのときはステップS18に進む。
先祖ノードでテストとしてまだ選択されていない全ての
文の特徴fiに対して、特徴fiの有無により、当該ノー
ドが保持する事例集合Sの2分割を試みる。このとき、
最大の相互情報量(数18)を与える文の特徴
ノードNにおけるエントロピーの期待値Eh(S)(数
17)は所定のしきい値以上か否かが判断され、YES
であればステップ20に進む一方、NOであれば図9の
ステップS15に戻る。
Nのテスト特徴として登録し、ステップS21において
ノードNが保持する事例集合Sを、文の特徴fi *に有無
に基づいて事例Syesと事例Snoに2分割する。そし
て、それぞれの部分集合を保持する新たな2つのノード
を生成し、ノードNのそれぞれyesアーク、noアー
クの下の子ノードとして登録する。これら2つのノード
を分割待ち行列メモリ42に入れる。そして、図9のス
テップS15に戻る。
て実行されるFSA変換処理を示すフローチャートであ
る。
処理対象の当該意味項目に対応する決定木を決定木メモ
リ34aから読み込み、ステップS32において当該決
定木の全リーフノードを保持するFSAの状態を一つ生
成し、これを当該FSAの初期状態とする。そして、ス
テップS33において初期状態を、待ち行列メモリ41
に入れた後、ステップS34において待ち行列メモリ4
1は空か否かが判断される。ステップS34でYESの
ときは、当該FSA変換処理が終了したと判断して当該
処理を終了する。一方、ステップS34でNOのとき
は、ステップS35において待ち行列メモリ41から、
FSAの状態Sを一つ取り出し、ステップS36におい
てFSAのサブルーチンA(図12)を実行することに
より、処理状態Sの遷移先状態群{S1,S2,…}を
生成し、状態Sからの単語リンクを張る。次いで、ステ
ップS37において遷移先状態群{S1,S2,…}の
中で、まだステップS36を行っていない状態を、待ち
行列メモリ41に入れた後、ステップS34に戻る。
示すフローチャートである。
おいて学習用データメモリ31内のタグ付きコーパス内
の全ての単語wを処理対象とし、次いで、ステップS4
2においてFSAの状態Sが保持する全ての決定木リー
フノードの集合を、部分集合PS1と部分集合PS2と
に分割する。ここで、部分集合PS1は、文中に単語w
の非存在を仮定しないリーフノード集合であり部分集合
PS2は、文中に単語wの非存在を仮定するリーフノー
ド集合である。ただし、部分集合PS2の条件「リーフ
ノードNが単語wの非存在を仮定する」とは、当該決定
木のルートノードとリーフノードNの間に、単語wをテ
ストするノード、又は、単語wを包含する類義語クラス
をテストするノードN’が存在し、かつ、リーフノード
NがこのノードN’のnoアーク下の子孫ノードとなっ
ていることを指す。この否定が部分集合PS1の条件で
ある。
ードの部分集合PS1,PS2は、共に1つ以上の要素
(リーフノード)を有するか否かが判断され、YESで
あるときはステップS44に進む一方、NOであるとき
はステップS42に戻る。そして、ステップS44にお
いて部分集合PS2を一時メモリ内に格納し、ステップ
S45においてリーフノードの部分集合PS1を唯一有
するFSAの状態S’は既に生成されているか否かが判
断される。ステップS45でYESのときはステップS
47に進む一方、NOのときはステップS46に進む。
ステップS46においてFSAの状態S’を新たに生成
し、ステップS47においてFSAの状態Sから状態
S’へ単語wによるリンクを張った後、ステップS48
において全ての単語wを調べたか否かが判断される。ス
テップS48でNOのときはステップS42に戻って上
記の処理を繰り返す。一方、ステップS48でYESな
らば、ステップS49に進む。
ら状態S自身へ、特別な単語“その他”による自己リン
クを張り、ステップS50においてステップ5で保管し
た全ての部分集合PS2の積集合S”を求める。この積
集合S”は必ず唯一の要素(リーフノード)を有する集
合となる。次いで、ステップS51においてリーフノー
ドの集合S”を唯一有するFSAの状態S”は既に生成
されているか否かが判断され、YESのときはステップ
S53に進む一方、NOのときはステップS52に進
む。ステップS52においてFSAの終状態S”を新た
に生成し、ステップS53においてFSAの終状態Sか
ら終状態S”へ、特別な単語“終了”によるリンクを張
り、ステップS54において生成した全てのFSAの状
態S’を生成状態としてメインルーチンに戻して元のメ
インルーチンに戻る。
理部21によって実行される発話分割用決定木のための
決定木生成処理を示すフローチャートである。
ータメモリ31からすべての学習データ(タグ付きコー
パス)を読み込み、上述のように学習用事例データを生
成する。次いで、S62において生成された学習用事例
データを事例集合として保持するノードを生成し、発話
分割用決定木のルートノードとして登録する。そして、
ルートノードを待ち行列メモリ43に入れる。さらに、
ステップS63において待ち行列メモリ43は空か否か
が判断され、YESのときは処理が終了したと判断し
て、ステップS64において生成された現在の発話分割
用決定木を決定木メモリ34bに格納して当該決定木生
成処理を終了する。一方、ステップS63でNOである
ときは、ステップS65において待ち行列メモリ43か
らノードNを1つ取り出し、ステップS66においてノ
ードNは上述のノード分割停止基準に合致するか否かが
判断され、YESのときはステップS63に戻る一方、
NOのときはステップS67に進む。
例データ内の単語系列と注目する単語境界から単語境界
の特徴fiを生成し、ステップS68において生成した
単語境界の特徴fiの一致/不一致により、ノードNが
保持する事例集合の2分割を試みる。すべての単語境界
の特徴fiの中で最大の相互情報量を与える特徴fi *を
見つける。次いで、図14のステップS69において特
徴fi *をノードNのテストとして登録し、ステップS7
0においてノードNが保持する事例集合を、単語境界の
特徴fi *に合致する事例集合Syesと合致しない事例集
合Snoとに分割する。事例集合Syes,Snoを保持する
新たなノードを生成し、ノードNのそれぞれYesアー
クの下の子ノード、Noアークの下の子ノードとして登
録する。これら2つのノードを待ち行列メモリ43に入
れる。そして、図13のステップS63に戻り、上記の
処理を繰り返す。
発話行為と組み合わせ概念決定部23によって実行され
る単語グラフからの文意探索処理を示すフローチャート
である。
話分割及び発話行為と組み合わせ概念決定部23によっ
て実行される単語グラフからの文意探索処理について説
明する。図15において、まず、ステップS71で音声
認識装置10から認識結果の単語グラフを入力し、ステ
ップS72において単語グラフ上のノードのうち、文意
仮説がまだ終わっていないノードで、かつ、時刻が最も
早いノードNを一つ取り出す。次いで、ステップS73
においてノードNに入射する単語グラフのアークGAを
一つ取り出し、ステップS74においてアークGAの元
ノードN’が保持する文意仮説H’を一つ取り出す。さ
らに、ステップS75において文意仮説Hが保持する単
語系列Wとして、文意仮説H’が保持する単語系列W’
にアークGAの単語wを加えたものを一時メモリに格納
し、ステップS76において発話を分割用決定木のトレ
ース処理(図17)のサブルーチンを実行することによ
り、決定木メモリ34内の発話分割決定木を用いて、単
語wの直前が文終端である確率を評価する。そして、ス
テップS77において単語wの直前が文終端である確率
≧0.5か否かが判断され、YESのときはステップS
78に進む一方、NOのときはステップS81に進む。
直前は文終端であると判断し、仮説H’が保持する文分
割位置B’に単語wの直前を加えた新たな文分割位置B
を仮説Hに格納し、ステップS79において仮説H’が
保持するFSAの状態ポインタ群ST’を、文終端を表
す特別なシンボル“終了”で遷移させることにより、単
語wの直前の文に対する各発話行為と概念の尤度を求
め、数8(変形例では数11)を用いて組み合わせ尤度
を計算し、この結果、最尤である発話行為と概念の組み
合わせを、仮説H’のC’系列に加え、新たなC系列と
して仮説Hに格納する。そして、ステップS80におい
て仮説Hの状態ポインタSTとして、各FSAの初期状
態から単語wで遷移した状態を登録する。状態ポインタ
STより、単語wだけで構成される部分文に対して、各
発話行為と概念の尤度を計算して、図16のステップS
84に進む。
文分割位置B’をコピーして、仮説Hの文分割位置Bに
格納し、ステップS82において仮説H’のC’系列を
コピーして、仮説HのC系列に格納し、ステップS83
において仮説H’のST’が保持するFSA状態より、
単語wで遷移した状態を、仮説Hの状態ポインタSTと
して登録する。これらのFSAの状態より、各発話行為
と概念の尤度を求め、文意尤度の計算式の数6乃至数8
(変形例では、数9乃至数12)を用いて組み合わせ尤
度を計算する。そして、ステップS84においてそれぞ
れの尤度を加え(仮説H’の文意尤度+単語wの認識尤
度+分割尤度+発話行為と概念の組み合わせ尤度)、加
算値を文意尤度とし、ステップS85においてアークG
Aの元ノードN’が保持する全ての文意仮説を取り出し
たか否かが判断され、次いで、ステップS86において
ノードNに入射する全ての単語グラフのアークを取り出
したか否かが判断される。ステップS85及びS86で
ともにYESのときはステップS87に進む一方、ステ
ップS85でNOのときは図15のステップS74に戻
り、ステップS86でNOのときは図15のステップS
73に戻る。
ノードNに対する仮説Hのうち、文意尤度の高いn個の
みをノードNに保持させ、ステップS88において単語
グラフ上の全てのノードに対して、文意仮説を生成した
か否かが判断される。ステップS88でNOのときはさ
らに処理を行うために、図15のステップS71に戻る
一方、YESのときはステップS89に進む。ステップ
S89において単語グラフの終端ノードに対する全ての
仮説Hに対して、組み合わせ概念バイグラムを用いて、
文意尤度の計算式2(数9乃至数12)による文意尤度
を再計算し、結果最尤の文意仮説を求めて出力して当該
文意探索処理を終了する。
せ概念決定部23は、文意探索後のN−bestの文意
仮説に対して、組み合わせ概念バイグラムメモリ39内
の組み合わせ概念バイグラムを用いて再順序付けを行っ
て最終的な概念の系列を決定して出力する。
話分割用決定木のトレース処理を示すフローチャートで
ある。
インタを決定木のルートノードに置き、ステップS92
においてノードポインタが指すノードNはリーフか否か
が判断され、YESのときはステップS97に進む一
方、NOのときはステップS93に進む。ステップS9
3においてノードNが保持する単語境界の特徴fを、入
力単語列に対してテストする。すなわち、入力単語列が
単語境界の特徴fを有するか否かをテストする。ステッ
プS94においてテストに合致したか否かが判断され、
YESのときはステップS96においてノードポインタ
を、ノードNのyesアークの下の子ノードに移してス
テップS92に戻る一方、ステップS94でNOである
ときは、ステップS95においてノードポインタを、ノ
ードNのnoアークの下の子ノードに移してステップS
92に戻る。そして、ステップS92のNOから分岐し
たステップS97では、到達したリーフノードが保持す
る事例集合Sの事例数|S|と、事例集合Sの中で正し
い分割位置を表す事例STの事例数|ST|とから、当該
単語境界が分割位置である確率Pr=|ST|/|S|
を計算して、元のメインルーチンに戻る。
実行される引数決定処理を示すフローチャートである。
まず、図18のステップS101において発話行為と組
み合わせ概念決定部23によって決定された発話行為と
組み合わせ概念を、引数名メモリ36を参照して、使用
可能な引数名を内部メモリに列挙する。次いで、ステッ
プS102において列挙した各引数名について、その引
数名の引数値に対応する部分文解析規則を引数値生成規
則メモリ36から読み込む。さらに、ステップS103
において引数値生成規則メモリ36内の部分文解析規則
を用いて、入力文中の任意の連続した部分単語例を構文
解析して、構文解析結果を自然言語生成部25に出力し
て、当該引数決定処理を終了する。ここで、構文解析
は、具体的には、引数値生成規則メモリに格納される部
分文解析規則を用いて、公知のチャート法(例えば、従
来技術文献9「M.Kay,“Algorithm Schemata and Data
Structures in Syntactic Processing”,Technical Rep
ort CSL-80-12,Xerox Parc,1980年10月」参照。)等に
より、最上位の非終端記号から、部分文を構成する終端
記号列が生成される過程で適用された規則、及び、その
適用順序を調べることである。
って実行される自然言語生成処理を示すフローチャート
である。まず、図19のステップS111において決定
された発話行為と概念の組み合わせに基づいて、文テン
プレートメモリ37から対応する文テンプレートを取り
出す。次いで、ステップS112において部分文生成規
則メモリ38から、中間言語表記中に与えられた引数名
の単語列に対応する引数値解析規則を取り出し、ステッ
プS113において部分文生成規則メモリ38内の引数
解析規則を用いて引数値の単語列の構文解析を行う。こ
こで、構文解析は、具体的には、部分文生成規則メモリ
に格納される引数値解析規則を用いて、公知のチャート
法(例えば、従来技術文献6参照。)等により、最上位
の非終端記号から、引数値を構成する終端記号列が生成
される過程で適用された規則、及び、その適用順序を調
べることである。さらに、ステップS114において部
分文を文テンプレートに埋め込んで出力文を生成してプ
リンタ26及びCRTディスプレイ27に出力する。
間言語生成部22、自然言語生成部25、組み合わせ概
念バイグラム生成処理部28及びFSA変換部29は例
えばデジタル計算機で構成され、学習データメモリ31
と、単語辞書メモリ32と、発話行為と組み合わせ概念
メモリ33と、決定木メモリ34a,34bと、引数名
メモリ35と、引数値生成規則メモリ36と、文テンプ
レートメモリ37と、部分文生成規則メモリ38と、組
み合わせ概念バイグラムメモリ39と、FSAメモリ4
0と、待ち行列メモリ41と、分割待ち行列メモリ42
と、待ち行列メモリ43と、事例データメモリ44とは
例えばハードディスクメモリなどの記憶装置で構成され
る。
22の前段には、音声認識装置10を接続しているが、
本発明はこれに限らず、キーボードなどの入力手段を接
続して、自然発話のテキストデータを中間言語生成部2
2に入力するように構成してもよい。また、以上の実施
形態において、中間言語生成部22の後段には、自然言
語生成部25を接続しているが、本発明はこれに限ら
ず、データベースメモリを備えたコマンド実行処理部を
備えてもよい。コマンド実行処理部は、中間言語生成部
22から出力される検索条件を指示するコマンドを含む
中間言語表現に基づいて、例えば対話システムに用いる
データベースをアクセスして、上記検索条件を満たすデ
ータを検索して、検索結果を出力するとともに、検索結
果に対応した処理を実行する。ここで、検索結果に対応
した処理とは、例えば、音声合成の出力、プリンタへの
印字出力、CRTディスプレイへの表示などである。
置10のブロック図を示す。本実施形態の連続音声認識
装置10は、公知のワン−パス・ビタビ復号化法を用い
て、入力される発声音声文の音声信号の特徴パラメータ
に基づいて上記発声音声文の単語仮説を検出し尤度を計
算して出力する単語照合部4を備えた連続音声認識装置
において、単語照合部4からバッファメモリ5を介して
出力される、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、生成した単語グラフを参照し
て、当該単語の先頭音素環境毎に、発声開始時刻から当
該単語の終了時刻に至る計算された総尤度のうちの最も
高い尤度を有する1つの単語仮説で代表させるように単
語仮説の絞り込みを行う単語仮説絞込部6を備える。
例えばハードディスクメモリである音素HMMメモリ1
1内の音素HMMは、各状態を含んで表され、各状態は
それぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施形態において用いる音素HMMは、各分布
がどの話者に由来するかを特定する必要があるため、所
定の話者混合HMMを変換して生成する。ここで、出力
確率密度関数は34次元の対角共分散行列をもつ混合ガ
ウス分布である。
ードディスクメモリである単語辞書メモリ12内の単語
辞書は、音素HMMの各単語毎にシンボルで表した読み
を示すシンボル列を格納する。
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
単語照合部4は、ワン−パス・ビタビ復号化法を用い
て、バッファメモリ3を介して入力される特徴パラメー
タのデータに基づいて、音素HMMと単語辞書とを用い
て単語仮説を検出し尤度を計算して出力する。ここで、
単語照合部4は、各時刻の各HMMの状態毎に、単語内
の尤度と発声開始からの尤度を計算する。尤度は、単語
の識別番号、単語の開始時刻、先行単語の違い毎に個別
にもつ。また、計算処理量の削減のために、音素HMM
及び単語辞書とに基づいて計算される総尤度のうちの低
い尤度のグリッド仮説を削減する。単語照合部4は、そ
の結果の単語仮説と尤度の情報を発声開始時刻からの時
間情報(具体的には、例えばフレーム番号)とともにバ
ッファメモリ5を介して単語仮説絞込部6に出力する。
ッファメモリ5を介して出力される単語仮説に基づい
て、単語グラフ上で、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された総尤度のうちの最も高い尤度を有する1つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総尤度を有する仮説の単語列を認識結果として、
バッファメモリ24を介して自然発話音声理解装置30
内の中間言語生成部22に出力し、上述の自然発話音声
理解装置30の処理が実行される。本実施形態において
は、好ましくは、処理すべき当該単語の先頭音素環境と
は、当該単語より先行する単語仮説の最終音素と、当該
単語の単語仮説の最初の2つの音素とを含む3つの音素
並びをいう。
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図3で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図3
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
部4と、単語仮説絞込部6と、言語モデル生成部20と
は、例えば、デジタル電子計算機で構成され、バッファ
メモリ3,5は例えばハードデイスクメモリなどの記憶
装置で構成され、音素HMMメモリ11と単語辞書メモ
リ12とは、例えばハードデイスクメモリなどの記憶装
置で構成される。
単語仮説絞込部6とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素HMMを参照する
音素照合部と、例えばOne Pass DPアルゴリ
ズムを用いて統計的言語モデルを参照して単語の音声認
識を行う音声認識部とで構成してもよい。
システムを用いて音声理解実験を行った。また、比較用
に、認識最尤単語列に対する理解精度を調べた。
詳細を示す。本特許出願人が所有する自然発話旅行会話
データベース(例えば、従来技術文献10「T.Morimoto
etal.,”A speech and language database for speech
translation research”,ICSLP,pp.1791-1794,1994
年」参照。)中の290会話に対して人手で中間言語表
現を付与し、275会話を学習データとして発話分割モ
デル、概念モデル、概念−2gramの生成に用いた。
残り15会話を評価データとして用い、事前に音声認識
(従来技術文献7の音声認識装置を用いた。)を行うこ
とで、単語グラフを生成した。これら15会話の単語認
識率(以下、全て所定のアキュラシー(正解率)のみ示
す。)は、1位候補で80.7%、単語グラフの最良パ
スで90.5%である。また、文認識率は、1位候補3
8.8%、単語グラフ56.5%である。なお、理解対
象である概念(表19の最下段)に関して、評価データ
の組み合わせ43種類は学習データ中の145種類に対
してクローズドであったが、実験では定義リスト中の6
07種類(778定義中、クローズドな要素のみで構成
されるもの)から同定した。
0に実験結果を示す。表中、発話理解率は概念の系列が
全て正しく同定された発話の割合を示している。提案手
法では、認識最尤仮説からの理解と比較して、意味単
位、発話、共に高い理解率を得ることができた。提案手
法により認識最尤仮説と異なる単語列が生成された発話
は全209発話中51発話であり、この51発話の意味
単位理解率(Acc)は45%→62%と大きく向上し
た(誤り改善率31%)。残りの158発話について
は、理解率、認識率、共に変化無かったが、両手法とも
比較的高い精度が得られていた(意味単位理解率(Ac
c)=81.8%)。
発話行為と組み合わせ概念決定部23の処理において
は、図21に示すように、第2のパスにおいて、音声認
識装置10から入力される単語グラフに対して、発話分
割モデルと概念モデルを用いて文意探索した後、概念の
バイグラムを用いて再順序付けしているが、本発明はこ
れに限らず、第2と第3のパスを分けずに、音声認識装
置10から入力される単語グラフに対して、発話分割モ
デルと概念モデルと概念のバイグラムを用いて文意探索
及び再順序付けを一括して実行してもよい。
よれば、以下の効果を有する。 (1)単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
2の従来例に比較して高い理解率を実現することができ
る。すなわち、第2の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。 (2)言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。 (3)言語解析知識として、FSAモデル(Left−
to−Rightモデル)を用いることで、単語グラフ
の探索を効率的に行うことができる。
1記載の音声理解装置によれば、自然発話文に含まれる
発話行為に依存する制約と、自然発話文に含まれる意味
的な概念の間での組み合わせに依存する制約とを記憶す
る第1の記憶装置と、自然発話文の単語列のテキストデ
ータからなる学習データに基づいて、上記第1の記憶装
置に格納された制約を参照して、自然発話文の特徴とし
て単語や同義語の有無の情報を用いて、自然発話文に含
まれる意味的な複数の概念及び概念の組み合わせがそれ
ぞれ存在するか否かを決定するための第1の決定木と、
発話行為がいずれであるかを決定するための第2の決定
木とをそれぞれ多分木形式で生成する第1の生成手段
と、上記第1の生成手段によって生成された第1と第2
の決定木をそれぞれ第1と第2の有限状態オートマトン
に変換する変換手段と、上記学習データに基づいて、自
然発話文を単文相当の意味単位に分割するか否かを決定
するための第3の決定木を多分木形式で生成する第2の
生成手段と、上記学習データに基づいて、上記第1の記
憶装置に格納された制約を参照して、自然発話文に含ま
れる意味的な複数の概念及び概念の組み合わせのバイグ
ラムの統計値を計数してその計数値をバイグラムモデル
として生成する第3の生成手段と、入力される自然発話
文の音声認識結果の単語グラフを、上記第2の生成手段
によって生成された第3の決定木を用いて単文相当の意
味単位に分割するとともに、上記変換手段によって変換
された第1と第2の有限状態オートマトンと、上記第3
の生成手段によって生成された複数の概念及び概念の組
み合わせのバイグラムモデルとを用いて、上記入力され
る自然発話文の音声認識結果の単語グラフにおける自然
発話文を、発話行為、概念又は概念の組み合わせの系列
に変換して出力する第1の決定手段と、発話行為と、複
数の概念及び概念の組み合わせとに対応する複数の引数
名を記憶する第2の記憶装置と、自然発話文における部
分文を解析するための部分文解析規則とそれから生成さ
れる引数値とを記憶する第3の記憶装置と、上記第1の
決定手段から出力される発話行為、概念又は概念の組み
合わせの系列に基づいて、上記第2の記憶装置に記憶さ
れた引数名を列挙し、列挙した引数名に対応する上記第
3の記憶装置内の部分文解析規則を用いて構文解析し
て、使用した部分文解析規則の対応する引数値を並べる
ことにより、上記入力される自然発話文に対応する引数
値を中間言語表現で出力する第2の決定手段とを備え
る。従って、本発明によれば、以下の効果を有する。 (1)単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
2の従来例に比較して高い理解率を実現することができ
る。すなわち、第2の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。 (2)言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。 (3)言語解析知識として、FSAモデル(Left−
to−Rightモデル)を用いることで、単語グラフ
の探索を効率的に行うことができる。
ば、請求項1記載の音声理解装置において、上記第1の
決定手段は、入力される自然発話文の音声認識結果の単
語グラフを、上記第2の生成手段によって生成された第
3の決定木を用いて単文相当の意味単位に分割するとと
もに、上記変換手段によって変換された第1と第2の有
限状態オートマトンを用いて、上記入力される自然発話
文の音声認識結果の単語グラフにおける自然発話文を、
発話行為、概念又は概念の組み合わせの系列の複数の候
補に変換した後、上記第3の生成手段によって生成され
た複数の概念及び概念の組み合わせのバイグラムモデル
とを用いて、上記系列の複数の候補を再順序付けするこ
とにより、発話行為、概念又は概念の組み合わせの系列
を生成して出力する。従って、本発明によれば、以下の
効果を有する。 (1)単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
2の従来例に比較して高い理解率を実現することができ
る。すなわち、第2の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。 (2)言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。 (3)言語解析知識として、FSAモデル(Left−
to−Rightモデル)を用いることで、単語グラフ
の探索を効率的に行うことができる。
れば、請求項1記載の音声理解装置において、上記第1
の決定手段は、入力される自然発話文の音声認識結果の
単語グラフを、上記第2の生成手段によって生成された
第3の決定木を用いて単文相当の意味単位に分割し、上
記変換手段によって変換された第1と第2の有限状態オ
ートマトンと、上記第3の生成手段によって生成された
複数の概念及び概念の組み合わせのバイグラムモデルと
を用いて、上記入力される自然発話文の音声認識結果の
単語グラフにおける自然発話文を、発話行為、概念又は
概念の組み合わせの系列に一括して変換して出力する。
従って、本発明によれば、以下の効果を有する。 (1)単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
2の従来例に比較して高い理解率を実現することができ
る。すなわち、第2の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。 (2)言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。 (3)言語解析知識として、FSAモデル(Left−
to−Rightモデル)を用いることで、単語グラフ
の探索を効率的に行うことができる。
テムによれば、請求項1乃至3のうちの1つに記載の音
声理解装置と、自然発話の発声音声を音声認識して、音
声認識結果の単語グラフデータを上記音声理解装置に出
力する音声認識手段とを備える。従って、本発明によれ
ば、以下の効果を有する。 (1)単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
2の従来例に比較して高い理解率を実現することができ
る。すなわち、第2の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、自然発話の発声音声を
音声認識して、その内容を高精度で理解できる。 (2)言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。 (3)言語解析知識として、FSAモデル(Left−
to−Rightモデル)を用いることで、単語グラフ
の探索を効率的に行うことができる。
解システムによれば、請求項1乃至3のうちの1つに記
載の音声理解装置と、上記第2の決定手段から出力され
る上記入力される自然発話文に対応する中間言語表現の
引数値に基づいて、上記入力される自然発話文を別の言
語に翻訳して翻訳結果を出力する翻訳手段とを備える。
従って、本発明によれば、以下の効果を有する。 (1)単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
2の従来例に比較して高い理解率を実現することができ
る。すなわち、第2の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、音声理解装置からの中
間言語表現に基づいて別の言語に高精度で翻訳できる。 (2)言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。 (3)言語解析知識として、FSAモデル(Left−
to−Rightモデル)を用いることで、単語グラフ
の探索を効率的に行うことができる。
理解システムによれば、請求項4記載の音声理解システ
ムにおいて、上記第2の決定手段から出力される上記入
力される自然発話文に対応する中間言語表現の引数値に
基づいて、上記入力される自然発話文を別の言語に翻訳
して翻訳結果を出力する翻訳手段をさらに備える。従っ
て、本発明によれば、以下の効果を有する。 (1)単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
2の従来例に比較して高い理解率を実現することができ
る。すなわち、第2の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、自然発話の発声音声を
音声認識して、音声理解装置からの中間言語表現に基づ
いて別の言語に高精度で翻訳できる。 (2)言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。 (3)言語解析知識として、FSAモデル(Left−
to−Rightモデル)を用いることで、単語グラフ
の探索を効率的に行うことができる。
解システムによれば、請求項1乃至3のうちの1つに記
載の音声理解装置と、上記第2の決定手段から出力され
る上記入力される自然発話文に対応する中間言語表現の
引数値に応答して、上記中間言語表現に含まれる検索条
件に基づいて、所定のデータベースを検索して、上記検
索条件を満たすデータを獲得し、そのデータを出力する
とともに、そのデータに対応する処理を実行する実行手
段とを備える。従って、本発明によれば、以下の効果を
有する。 (1)単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
2の従来例に比較して高い理解率を実現することができ
る。すなわち、第2の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、音声理解装置からの中
間言語表現に基づいてデータベースを高精度で検索して
対応する処理を実行することができる。 (2)言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。 (3)言語解析知識として、FSAモデル(Left−
to−Rightモデル)を用いることで、単語グラフ
の探索を効率的に行うことができる。
によれば、請求項4記載の音声理解システムにおいて、
上記第2の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に応答して、上
記中間言語表現に含まれる検索条件に基づいて、所定の
データベースを検索して、上記検索条件を満たすデータ
を獲得し、そのデータを出力するとともに、そのデータ
に対応する処理を実行する実行手段をさらに備える。従
って、本発明によれば、以下の効果を有する。 (1)単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
2の従来例に比較して高い理解率を実現することができ
る。すなわち、第2の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、自然発話の発声音声を
音声認識して、音声理解装置からの中間言語表現に基づ
いてデータベースを高精度で検索して対応する処理を実
行することができる。 (2)言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。 (3)言語解析知識として、FSAモデル(Left−
to−Rightモデル)を用いることで、単語グラフ
の探索を効率的に行うことができる。
理解装置30を備えた自然発話音声理解システムの構成
を示すブロック図である。
ク図である。
込部6の処理を示すタイミングチャートである。
る単語グラフの一例を示す図である。
れた発話分割用決定木の一例を示す図である。
れた概念推定用決定木の一例を示す図である。
れた概念推定用決定木又は発話行為推定用決定木である
意味項目推定用決定木の一例を示す図である。
A変換部29によって変換された意味項目推定用FSA
の一例を示す図である。
れる概念推定用決定木と発話行為推定用決定木のための
決定木生成処理の第1の部分を示すフローチャートであ
る。
される概念推定用決定木と発話行為推定用決定木のため
の決定木生成処理の第2の部分を示すフローチャートで
ある。
るFSA変換処理を示すフローチャートである。
チャートである。
される発話分割用決定木のための決定木生成処理の第1
の部分を示すフローチャートである。
される発話分割用決定木のための決定木生成処理の第2
の部分を示すフローチャートである。
概念決定部23によって実行される単語グラフからの文
意探索処理の第1の部分を示すフローチャートである。
概念決定部23によって実行される単語グラフからの文
意探索処理の第2の部分を示すフローチャートである。
定木のトレース処理を示すフローチャートである。
引数決定処理を示すフローチャートである。
れる自然言語生成処理を示すフローチャートである。
現による概念と発話分割の例を示す説明図である。
システムの概要を示すブロック図である。
Claims (8)
- 【請求項1】 自然発話文に含まれる発話行為に依存す
る制約と、自然発話文に含まれる意味的な概念の間での
組み合わせに依存する制約とを記憶する第1の記憶装置
と、 自然発話文の単語列のテキストデータからなる学習デー
タに基づいて、上記第1の記憶装置に格納された制約を
参照して、自然発話文の特徴として単語や同義語の有無
の情報を用いて、自然発話文に含まれる意味的な複数の
概念及び概念の組み合わせがそれぞれ存在するか否かを
決定するための第1の決定木と、発話行為がいずれであ
るかを決定するための第2の決定木とをそれぞれ多分木
形式で生成する第1の生成手段と、 上記第1の生成手段によって生成された第1と第2の決
定木をそれぞれ第1と第2の有限状態オートマトンに変
換する変換手段と、 上記学習データに基づいて、自然発話文を単文相当の意
味単位に分割するか否かを決定するための第3の決定木
を多分木形式で生成する第2の生成手段と、 上記学習データに基づいて、上記第1の記憶装置に格納
された制約を参照して、自然発話文に含まれる意味的な
複数の概念及び概念の組み合わせのバイグラムの統計値
を計数してその計数値をバイグラムモデルとして生成す
る第3の生成手段と、 入力される自然発話文の音声認識結果の単語グラフを、
上記第2の生成手段によって生成された第3の決定木を
用いて単文相当の意味単位に分割するとともに、上記変
換手段によって変換された第1と第2の有限状態オート
マトンと、上記第3の生成手段によって生成された複数
の概念及び概念の組み合わせのバイグラムモデルとを用
いて、上記入力される自然発話文の音声認識結果の単語
グラフにおける自然発話文を、発話行為、概念又は概念
の組み合わせの系列に変換して出力する第1の決定手段
と、 発話行為と、複数の概念及び概念の組み合わせとに対応
する複数の引数名を記憶する第2の記憶装置と、 自然発話文における部分文を解析するための部分文解析
規則とそれから生成される引数値とを記憶する第3の記
憶装置と、 上記第1の決定手段から出力される発話行為、概念又は
概念の組み合わせの系列に基づいて、上記第2の記憶装
置に記憶された引数名を列挙し、列挙した引数名に対応
する上記第3の記憶装置内の部分文解析規則を用いて構
文解析して、使用した部分文解析規則の対応する引数値
を並べることにより、上記入力される自然発話文に対応
する引数値を中間言語表現で出力する第2の決定手段と
を備えたことを特徴とする音声理解装置。 - 【請求項2】 請求項1記載の音声理解装置において、
上記第1の決定手段は、入力される自然発話文の音声認
識結果の単語グラフを、上記第2の生成手段によって生
成された第3の決定木を用いて単文相当の意味単位に分
割するとともに、上記変換手段によって変換された第1
と第2の有限状態オートマトンを用いて、上記入力され
る自然発話文の音声認識結果の単語グラフにおける自然
発話文を、発話行為、概念又は概念の組み合わせの系列
の複数の候補に変換した後、上記第3の生成手段によっ
て生成された複数の概念及び概念の組み合わせのバイグ
ラムモデルとを用いて、上記系列の複数の候補を再順序
付けすることにより、発話行為、概念又は概念の組み合
わせの系列を生成して出力することを特徴とする音声理
解装置。 - 【請求項3】 請求項1記載の音声理解装置において、
上記第1の決定手段は、入力される自然発話文の音声認
識結果の単語グラフを、上記第2の生成手段によって生
成された第3の決定木を用いて単文相当の意味単位に分
割し、上記変換手段によって変換された第1と第2の有
限状態オートマトンと、上記第3の生成手段によって生
成された複数の概念及び概念の組み合わせのバイグラム
モデルとを用いて、上記入力される自然発話文の音声認
識結果の単語グラフにおける自然発話文を、発話行為、
概念又は概念の組み合わせの系列に一括して変換して出
力することを特徴とする音声理解装置。 - 【請求項4】 請求項1乃至3のうちの1つに記載の音
声理解装置と、 自然発話の発声音声を音声認識して、音声認識結果の単
語グラフデータを上記音声理解装置に出力する音声認識
手段とを備えたことを特徴とする音声理解システム。 - 【請求項5】 請求項1乃至3のうちの1つに記載の音
声理解装置と、 上記第2の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に基づいて、上
記入力される自然発話文を別の言語に翻訳して翻訳結果
を出力する翻訳手段とを備えたことを特徴とする音声理
解システム。 - 【請求項6】 請求項4記載の音声理解システムにおい
て、 上記第2の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に基づいて、上
記入力される自然発話文を別の言語に翻訳して翻訳結果
を出力する翻訳手段をさらに備えたことを特徴とする音
声理解システム。 - 【請求項7】 請求項1乃至3のうちの1つに記載の音
声理解装置と、 上記第2の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に応答して、上
記中間言語表現に含まれる検索条件に基づいて、所定の
データベースを検索して、上記検索条件を満たすデータ
を獲得し、そのデータを出力するとともに、そのデータ
に対応する処理を実行する実行手段とを備えたことを特
徴とする音声理解システム。 - 【請求項8】 請求項4記載の音声理解システムにおい
て、 上記第2の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に応答して、上
記中間言語表現に含まれる検索条件に基づいて、所定の
データベースを検索して、上記検索条件を満たすデータ
を獲得し、そのデータを出力するとともに、そのデータ
に対応する処理を実行する実行手段をさらに備えたこと
を特徴とする音声理解システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11060058A JP3016779B1 (ja) | 1999-03-08 | 1999-03-08 | 音声理解装置及び音声理解システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11060058A JP3016779B1 (ja) | 1999-03-08 | 1999-03-08 | 音声理解装置及び音声理解システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3016779B1 JP3016779B1 (ja) | 2000-03-06 |
JP2000259628A true JP2000259628A (ja) | 2000-09-22 |
Family
ID=13131115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11060058A Expired - Fee Related JP3016779B1 (ja) | 1999-03-08 | 1999-03-08 | 音声理解装置及び音声理解システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3016779B1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1215657A3 (en) * | 2000-12-08 | 2005-04-27 | AT&T Corp. | Method and apparatus for creation and user-customisation of speech enabled services |
JP2006053203A (ja) * | 2004-08-10 | 2006-02-23 | Sony Corp | 音声処理装置および方法、記録媒体、並びにプログラム |
WO2015068947A1 (ko) * | 2013-11-06 | 2015-05-14 | 주식회사 시스트란인터내셔널 | 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법 |
WO2015099418A1 (ko) * | 2013-12-24 | 2015-07-02 | 서강대학교 산학협력단 | 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템 |
CN109841210A (zh) * | 2017-11-27 | 2019-06-04 | 西安中兴新软件有限责任公司 | 一种智能操控实现方法及装置、计算机可读存储介质 |
US10460721B2 (en) | 2016-06-23 | 2019-10-29 | Panasonic Intellectual Property Management Co., Ltd. | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164227B (zh) * | 2020-08-26 | 2022-06-28 | 深圳奇迹智慧网络有限公司 | 违停车辆告警方法、装置、计算机设备和存储介质 |
-
1999
- 1999-03-08 JP JP11060058A patent/JP3016779B1/ja not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8073683B2 (en) | 2000-12-08 | 2011-12-06 | At&T Intellectual Property Ii, L.P. | Language-understanding training database action pair augmentation using bidirectional translation |
US7912726B2 (en) | 2000-12-08 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | Method and apparatus for creation and user-customization of speech-enabled services |
US7212964B1 (en) | 2000-12-08 | 2007-05-01 | At&T Corp. | Language-understanding systems employing machine translation components |
US7467081B2 (en) | 2000-12-08 | 2008-12-16 | At&T Corp. | Language-understanding training database action pair augmentation using bidirectional translation |
EP1215657A3 (en) * | 2000-12-08 | 2005-04-27 | AT&T Corp. | Method and apparatus for creation and user-customisation of speech enabled services |
JP4581549B2 (ja) * | 2004-08-10 | 2010-11-17 | ソニー株式会社 | 音声処理装置および方法、記録媒体、並びにプログラム |
JP2006053203A (ja) * | 2004-08-10 | 2006-02-23 | Sony Corp | 音声処理装置および方法、記録媒体、並びにプログラム |
WO2015068947A1 (ko) * | 2013-11-06 | 2015-05-14 | 주식회사 시스트란인터내셔널 | 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법 |
US10304441B2 (en) | 2013-11-06 | 2019-05-28 | Systran International Co., Ltd. | System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content |
US20160284345A1 (en) | 2013-11-06 | 2016-09-29 | Systran International Co., Ltd. | System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content |
WO2015099418A1 (ko) * | 2013-12-24 | 2015-07-02 | 서강대학교 산학협력단 | 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템 |
US10460721B2 (en) | 2016-06-23 | 2019-10-29 | Panasonic Intellectual Property Management Co., Ltd. | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium |
CN109841210A (zh) * | 2017-11-27 | 2019-06-04 | 西安中兴新软件有限责任公司 | 一种智能操控实现方法及装置、计算机可读存储介质 |
CN109841210B (zh) * | 2017-11-27 | 2024-02-20 | 西安中兴新软件有限责任公司 | 一种智能操控实现方法及装置、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3016779B1 (ja) | 2000-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112712804B (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
Yadav et al. | End-to-end named entity recognition from english speech | |
US6067514A (en) | Method for automatically punctuating a speech utterance in a continuous speech recognition system | |
US20060074631A1 (en) | Configurable parameters for grammar authoring for speech recognition and natural language understanding | |
JP2003505778A (ja) | 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化 | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
Bonneau-Maynard et al. | Results of the French Evalda-Media evaluation campaign for literal understanding | |
Fang et al. | Using phoneme representations to build predictive models robust to ASR errors | |
Cho et al. | Speech intention understanding in a head-final language: A disambiguation utilizing intonation-dependency | |
JP3016779B1 (ja) | 音声理解装置及び音声理解システム | |
Schwartz et al. | Hidden understanding models for statistical sentence understanding | |
Harper et al. | Integrating language models with speech recognition | |
JP3059413B2 (ja) | 自然言語理解装置及び自然言語理解システム | |
Hardy et al. | The Amitiés system: Data-driven techniques for automated dialogue | |
Gao et al. | MARS: A statistical semantic parsing and generation-based multilingual automatic translation system | |
Potamianos et al. | Adaptive categorical understanding for spoken dialogue systems | |
JP3088364B2 (ja) | 音声言語理解装置及び音声言語理解システム | |
JP3441400B2 (ja) | 言語変換規則作成装置、及びプログラム記録媒体 | |
Kuo et al. | Syntactic features for Arabic speech recognition | |
Chandramouli et al. | Unsupervised paradigm for information extraction from transcripts using BERT | |
KR20200101891A (ko) | 복합 문장 분석 장치, 이를 위한 기록매체 | |
Choi et al. | An integrated dialogue analysis model for determining speech acts and discourse structures | |
KR101072890B1 (ko) | 데이터베이스 정제 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법 | |
JP2006343405A (ja) | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 | |
US20240005104A1 (en) | Data processing device, data processing method, and data processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091224 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091224 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101224 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111224 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121224 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131224 Year of fee payment: 14 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |