JP3016779B1

JP3016779B1 - 音声理解装置及び音声理解システム

Info

Publication number: JP3016779B1
Application number: JP11060058A
Authority: JP
Inventors: 宏一谷垣; 芳典匂坂
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1999-03-08
Filing date: 1999-03-08
Publication date: 2000-03-06
Anticipated expiration: 2019-03-08
Also published as: JP2000259628A

Abstract

【要約】【課題】従来例に比較して高い理解率で音声理解を行
うことができる音声理解装置及び音声理解システムを提
供する。【解決手段】発話分割及び発話行為と組み合わせ概念
決定部２３は、入力される自然発話文の音声認識結果の
単語グラフを、発話分割用決定木を用いて単文相当の意
味単位に分割するとともに、概念推定用及び発話行為推
定用有限状態オートマトンと、複数の概念及び概念の組
み合わせのバイグラムモデルとを用いて、音声認識結果
の単語グラフにおける自然発話文を、発話行為、概念又
は概念の組み合わせの系列に変換する。引数決定部２４
は、入力される系列に基づいて、予め記憶された引数名
を列挙し、列挙した引数名に対応する部分文解析規則を
用いて構文解析して、使用した部分文解析規則の対応す
る引数値を並べることにより、上記自然発話文に対応す
る引数値を中間言語表現で出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力される自然発
話文の内容を理解して、理解した結果を中間言語表現で
出力する音声理解装置、及び、音声認識装置、自然言語
翻訳装置、又はデータベース検索処理装置を備えた音声
理解システムに関する。

【０００２】

【従来の技術】近年、隠れマルコフモデルを用いた音響
モデル、及びＮ−ｇｒａｍを用いた言語モデルを用いた
連続音声認識が盛んに研究されており、数万語彙の認識
でも、単語認識率が９０％以上とかなり実用レベルに近
くなっている。しかしながら、音声認識技術を用いたア
プリケーションを考えた場合、読み上げた文章をそのま
ま出力するディクテーションシステムを除くと、旅客機
案内システム、電話番号案内システム、音声翻訳システ
ム等、音声認識結果を理解し、ユーザーに情報を提供す
るいわゆる「音声理解システム」の方が応用分野が広い
と考えられる（例えば、従来技術文献１「坂井信輔ほ
か，“音声入力を用いたパソコンネットワーク旅客機空
席案内システムの試作”，電子情報通信学会技術報告，
ＳＰ９４−８９，ｐｐ．２９−３６，１９９５年１月」
参照。）。

【０００３】現在、音声理解システムのための言語理解
の技術は、発話の内容を構文で限定したものや文法理論
を用いたもの（例えば、従来技術文献２「S.Seneff,“T
INA:A Natural Language System for Spoken Language
Applications”,Computational Linguistics,Vol.18,N
o.1,1992年3月」参照。）が主流である。発話内容を構
文で限定する手法は、理解率は高いと考えられるが、計
算機が受理できる発話内容をユーザーが事前に知ってい
なければならず、ユーザーへの負担が大きく、使いやす
いシステムとは言えない。

【０００４】また、文法理論を用いた方法は、構文によ
る手法よりは、発話内容の自由度が高いが、文法的に正
しい文章でないと、理解できないという問題がある。し
かしながら、音声認識で広く使われているＮ−ｇｒａｍ
言語モデルは、認識率の観点からは非常に有利とされて
いるが、直前の（Ｎ−１）単語から次の単語への接続を
確率で表現するという極めて単純なモデルであるため、
局所的な制約しか表現できず、文全体として必ずしも文
法的に正しい文章を出力するとは限らない。従って、認
識結果に誤りが含まれる場合、正しく言語理解を行うの
は困難であると考えられる。また、実際のシステムの使
用時には、ユーザーが文法的に正しい文章を発声すると
は限らず、自然発話を理解するのは困難である。

【０００５】この問題を解決するため、認識結果文を言
語理解部が受理できる部分に分割する手法等（例えば、
従来技術文献３「Y.Wakita et al.,“Correct parts ex
traction from speech recognition results using sem
antic distance calculation,and its application to
speech translation”,ACL,1997年」参照。）が提案さ
れているが、分割を行うことにより、文章の大局的な情
報を得ることができないと考えられる。

【０００６】また、従来技術文献４「遠藤充ほか，“音
声による文例検索システムの検討”，日本音響学会講演
論文集，２−Ｑ−１２，ｐｐ．１６３−１６４，１９９
７年３月」においては、キーワードによる方法が提案さ
れているが、キーワードのみでは文章の意味を正しく理
解することができず、また、ユーザーインターフェース
等でキーワードの間を補う必要がある。

【０００７】この問題点を解決するために、本特許出願
人は、特願平９−３０３０７５号の特許出願において、
音声入力による指示により、データベースへアクセス
し、ユーザの要求する情報を表示する音声言語理解装置
（以下、第１の従来例という。）を開示している。この
第１の従来例の音声言語理解装置は、具体的には、「発
声音声から音声認識装置によって音声認識された音声認
識結果の音声文に基づいて、音声文の意味する検索条件
の内容を理解して、データベースを参照して応答する処
理を実行するための音声言語理解装置であって、検索条
件を含む文章データと、それに対応しかつ少なくとも応
答する処理の内容及びデータの項目名を含む所定の中間
言語データとの対である学習データに基づいて、識別誤
りが最小となるように、文章データをそれに対応する中
間言語に変換するための隠れマルコフモデル（以下、Ｈ
ＭＭという。）を学習して得られたＨＭＭを記憶する第
１の記憶装置と、複数の項目名に対応したデータを含む
データベースを記憶する第２の記憶装置と、上記第１の
記憶装置に記憶されたＨＭＭを用いて、上記音声認識さ
れかつ検索条件を含む音声認識結果の音声文を上記中間
言語に変換して生成する生成手段と、上記生成手段によ
って生成された中間言語を、上記データベースに対応し
た所定のデータベース言語に変換した後、上記データベ
ース言語に含まれる検索条件に基づいて、上記第２の記
憶装置に記憶されたデータベースを検索して、上記検索
条件を満たすデータを獲得し、そのデータについて上記
中間言語に対応した応答する処理を実行する実行手段と
を備えた」ことを特徴としている。

【０００８】しかしながら、第１の従来例では、複数の
ＨＭＭが独立に意味項を推定するモデルであるため、個
々のＨＭＭの推定精度は悪い。そのため、ｂｉ−ｇｒａ
ｍによる制約を併用しているが、ＨＭＭの推定確率が出
力された後の処理であるため、全体の推定精度を悪化さ
せている。また、予め決められた２項間の制約しか扱え
ないという問題点があった。さらには、ＨＭＭにカテゴ
リ毎のＭＣＥ学習を用いることで個々のＨＭＭの推定精
度の向上を図っているが、概念毎に分類することが困難
な概念には適用できないという問題点があった。

【０００９】この問題点を解決するために、本特許出願
人は、第１の従来例に比較して頑健にかつ正確に音声理
解を行うことができ、しかも組み合わせ制約を有する組
み合わせ概念を高精度で検出することができる自然言語
理解装置及び自然言語理解システム（以下、第２の従来
例という。）を、特願平１０−０６５２７２号の特許出
願において開示している。この第２の従来例の自然言語
理解装置は、具体的には、「自然発話文に含まれる発話
行為に依存する制約と、自然発話文に含まれる意味的な
概念の間での組み合わせに依存する制約とを記憶する第
１の記憶装置と、自然発話文の単語列のテキストデータ
からなる学習データに基づいて、上記第１の記憶装置に
格納された制約を参照して、自然発話文の特徴として単
語活用形と単語標準形と概念とを用いて、自然発話文に
含まれる意味的な複数の概念及び概念の組み合わせがそ
れぞれ存在するか否かを決定するための第１の決定木
と、発話行為が存在するか否かを決定するための第２の
決定木とをそれぞれ、ｙｅｓ／ｎｏ／未知の三分木の形
式、及びｙｅｓ／ｎｏの二分木の形式で生成する生成手
段と、入力される自然発話文の単語列のテキストデータ
に対して、上記生成手段によって生成された第１の決定
木を用いて概念又は概念の組み合わせが存在するか否か
を決定するとともに、上記生成手段によって生成された
第２の決定木を用いて発話行為が存在するか否かを決定
して決定結果を出力する第１の決定手段と、発話行為
と、複数の概念及び概念の組み合わせとに対応する複数
の引数名を記憶する第２の記憶装置と、自然発話文にお
ける部分文を解析するための部分文解析規則とそれから
生成される引数値とを記憶する第３の記憶装置と、上記
第１の決定手段から出力される発話行為、概念又は概念
の組み合わせに基づいて、上記第２の記憶装置に記憶さ
れた引数名を列挙し、列挙した引数名に対応する上記第
３の記憶装置内の部分文解析規則を用いて構文解析し
て、使用した部分文解析規則の対応する引数値を並べる
ことにより、上記入力される自然発話文に対応する引数
値を中間言語表現で出力する第２の決定手段とを備え
た」ことを特徴としている。

【００１０】

【発明が解決しようとする課題】しかしながら、この第
２の従来例の自然言語理解装置は、第１の従来例に比較
して高い理解率で音声理解を行うことができるものの、
いまだ理解率が低いという問題点があった。

【００１１】本発明の目的は以上の問題点を解決し、従
来例に比較して高い理解率で音声理解を行うことができ
る音声理解装置及び音声理解システムを提供することに
ある。

【００１２】

【課題を解決するための手段】本発明に係る請求項１記
載の音声理解装置は、自然発話文に含まれる発話行為に
依存する制約と、自然発話文に含まれる意味的な概念の
間での組み合わせに依存する制約とを記憶する第１の記
憶装置と、自然発話文の単語列のテキストデータからな
る学習データに基づいて、上記第１の記憶装置に格納さ
れた制約を参照して、自然発話文の特徴として単語や同
義語の有無の情報を用いて、自然発話文に含まれる意味
的な複数の概念及び概念の組み合わせがそれぞれ存在す
るか否かを決定するための第１の決定木と、発話行為が
いずれであるかを決定するための第２の決定木とをそれ
ぞれ多分木形式で生成する第１の生成手段と、上記第１
の生成手段によって生成された第１と第２の決定木をそ
れぞれ第１と第２の有限状態オートマトンに変換する変
換手段と、上記学習データに基づいて、自然発話文を単
文相当の意味単位に分割するか否かを決定するための第
３の決定木を多分木形式で生成する第２の生成手段と、
上記学習データに基づいて、上記第１の記憶装置に格納
された制約を参照して、自然発話文に含まれる意味的な
複数の概念及び概念の組み合わせのバイグラムの統計値
を計数してその計数値をバイグラムモデルとして生成す
る第３の生成手段と、入力される自然発話文の音声認識
結果の単語グラフを、上記第２の生成手段によって生成
された第３の決定木を用いて単文相当の意味単位に分割
するとともに、上記変換手段によって変換された第１と
第２の有限状態オートマトンと、上記第３の生成手段に
よって生成された複数の概念及び概念の組み合わせのバ
イグラムモデルとを用いて、上記入力される自然発話文
の音声認識結果の単語グラフにおける自然発話文を、発
話行為、概念又は概念の組み合わせの系列に変換して出
力する第１の決定手段と、発話行為と、複数の概念及び
概念の組み合わせとに対応する複数の引数名を記憶する
第２の記憶装置と、自然発話文における部分文を解析す
るための部分文解析規則とそれから生成される引数値と
を記憶する第３の記憶装置と、上記第１の決定手段から
出力される発話行為、概念又は概念の組み合わせの系列
に基づいて、上記第２の記憶装置に記憶された引数名を
列挙し、列挙した引数名に対応する上記第３の記憶装置
内の部分文解析規則を用いて構文解析して、使用した部
分文解析規則の対応する引数値を並べることにより、上
記入力される自然発話文に対応する引数値を中間言語表
現で出力する第２の決定手段とを備えたことを特徴とす
る。

【００１３】また、請求項２記載の音声理解装置は、請
求項１記載の音声理解装置において、上記第１の決定手
段は、入力される自然発話文の音声認識結果の単語グラ
フを、上記第２の生成手段によって生成された第３の決
定木を用いて単文相当の意味単位に分割するとともに、
上記変換手段によって変換された第１と第２の有限状態
オートマトンを用いて、上記入力される自然発話文の音
声認識結果の単語グラフにおける自然発話文を、発話行
為、概念又は概念の組み合わせの系列の複数の候補に変
換した後、上記第３の生成手段によって生成された複数
の概念及び概念の組み合わせのバイグラムモデルとを用
いて、上記系列の複数の候補を再順序付けすることによ
り、発話行為、概念又は概念の組み合わせの系列を生成
して出力することを特徴とする。

【００１４】さらに、請求項３記載の音声理解装置は、
請求項１記載の音声理解装置において、上記第１の決定
手段は、入力される自然発話文の音声認識結果の単語グ
ラフを、上記第２の生成手段によって生成された第３の
決定木を用いて単文相当の意味単位に分割し、上記変換
手段によって変換された第１と第２の有限状態オートマ
トンと、上記第３の生成手段によって生成された複数の
概念及び概念の組み合わせのバイグラムモデルとを用い
て、上記入力される自然発話文の音声認識結果の単語グ
ラフにおける自然発話文を、発話行為、概念又は概念の
組み合わせの系列に一括して変換して出力する。

【００１５】本発明に係る請求項４記載の音声理解シス
テムは、請求項１乃至３のうちの１つに記載の音声理解
装置と、自然発話の発声音声を音声認識して、音声認識
結果の単語グラフデータを上記音声理解装置に出力する
音声認識手段とを備えたことを特徴とする。

【００１６】また、本発明に係る請求項５記載の音声理
解システムは、請求項１乃至３のうちの１つに記載の音
声理解装置と、上記第２の決定手段から出力される上記
入力される自然発話文に対応する中間言語表現の引数値
に基づいて、上記入力される自然発話文を別の言語に翻
訳して翻訳結果を出力する翻訳手段とを備えたことを特
徴とする。

【００１７】さらに、本発明に係る請求項６記載の音声
理解システムは、請求項４記載の音声理解システムにお
いて、上記第２の決定手段から出力される上記入力され
る自然発話文に対応する中間言語表現の引数値に基づい
て、上記入力される自然発話文を別の言語に翻訳して翻
訳結果を出力する翻訳手段をさらに備えたことを特徴と
する。

【００１８】また、本発明に係る請求項７記載の音声理
解システムは、請求項１乃至３のうちの１つに記載の音
声理解装置と、上記第２の決定手段から出力される上記
入力される自然発話文に対応する中間言語表現の引数値
に応答して、上記中間言語表現に含まれる検索条件に基
づいて、所定のデータベースを検索して、上記検索条件
を満たすデータを獲得し、そのデータを出力するととも
に、そのデータに対応する処理を実行する実行手段とを
備えたことを特徴とする。

【００１９】さらに、請求項８記載の音声理解システム
は、請求項４記載の音声理解システムにおいて、上記第
２の決定手段から出力される上記入力される自然発話文
に対応する中間言語表現の引数値に応答して、上記中間
言語表現に含まれる検索条件に基づいて、所定のデータ
ベースを検索して、上記検索条件を満たすデータを獲得
し、そのデータを出力するとともに、そのデータに対応
する処理を実行する実行手段をさらに備えたことを特徴
とする。

【００２０】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００２１】図１は、本発明に係る一実施形態である自
然発話音声理解装置３０を備えた自然発話音声理解シス
テムの構成を示すブロック図である。

【００２２】図１は、本発明に係る一実施形態である自
然発話音声理解装置３０を備えた自然発話音声理解シス
テムの構成を示すブロック図である。この実施形態の自
然言語理解システムは、大きく分けて、（ａ）図２に示
す音声認識装置１０と、（ｂ）決定木生成処理部２１と
中間言語生成部２２と組み合わせ概念バイグラム生成処
理部２８と有限状態オートマトン（以下、ＦＳＡとい
う。）変換部２９とを備えた自然発話音声理解装置３０
と、（ｃ）自然言語生成部２５と、を備え、特に、自然
発話音声理解装置３０を備えたことを特徴とする。

【００２３】まず、図１を参照して、自然発話音声理解
システム２０の構成及び動作について概説する。図２の
音声認識装置１０では、入力された発声音声の波形デー
タに対して特徴量計算を行った後、公知の隠れマルコフ
網による音響モデルを用いて、単語グラフサーチ法によ
り解の探索を行い、単語グラフの認識結果を出力する。
音声認識装置１０の認識結果は、自然言語理解装置３０
内の中間言語生成部２２の発話分割及び発話行為と組み
合わせ概念決定部２３に入力される。一方、決定木生成
処理部２１は、学習用データメモリ３１内のタグ付きコ
ーパスに基づいて、単語辞書メモリ３２内の単語辞書
と、発話行為と組み合わせ概念メモリ３３内の発話行為
と組み合わせ概念を参照して、かつ、分割待ち行列メモ
リ４２と待ち行列メモリ４３と事例データメモリ４４を
用いて、図９及び図１０の概念推定用決定木と発話行為
推定用決定木のための決定木生成処理を実行することに
より概念推定用決定木及び発話行為推定用決定木を生成
し決定木メモリ３４ａに出力して格納するとともに、図
１３及び図１４の発話分割用決定木のための決定木生成
処理を実行することにより発話分割用決定木を生成し決
定木メモリ３４ｂに出力して格納する。そして、ＦＳＡ
変換部２９は、待ち行列メモリ４１を用いて、決定木メ
モリ３４ａ内の概念推定用決定木及び発話行為推定用決
定木をそれぞれ概念推定用ＦＳＡ及び発話行為推定用Ｆ
ＳＡに変換してＦＳＡメモリ４０に出力して格納する。
一方、組み合わせ概念バイグラム生成処理部２１は、学
習用データメモリ３１内のタグ付きコーパスに基づいて
組み合わせ概念バイグラムの統計的言語モデルを生成し
て組み合わせ概念バイグラムメモリ３９に出力して格納
する。

【００２４】発話分割及び発話行為と組み合わせ概念決
定部２３は、決定木メモリ３４ａ内の発話分割用決定木
を用いて音声認識結果を単文相当の発話単位毎に分割し
た後、概念推定用決定木と発話行為推定用決定木とを用
いて、単語辞書メモリ３２内の単語辞書と、発話行為と
組み合わせ概念メモリ３３内の発話行為と組み合わせ概
念リストと、ＦＳＡメモリ４０内の概念推定用ＦＳＡと
発話行為推定用ＦＳＡと、組み合わせ概念バイグラムメ
モリ３９内の組み合わせ概念のバイグラムを用いて、発
話行為と組み合わせ概念を決定して、認識結果とともに
引数決定部２４に出力する。これに応答して、引数決定
部２４は、入力されたデータに基づいて、引数名メモリ
３５内の引数名と引数値生成規則メモリ３６内の部分文
解析規則と引数値とを参照して引数を決定して、その中
間言語表現のデータを認識結果とともに自然言語生成部
２５に出力する。これに応答して自然言語生成部２５
は、文テンプレートメモリ３７内の文テンプレートと、
部分文生成規則メモリ３８内の引数値解析規則と単語列
とを参照して、例えば、英語から日本語への翻訳を行っ
て、翻訳結果の単語列をプリンタ２６及びＣＲＴディス
プレイ２７に出力する。

【００２５】まず、中間言語生成部２２で取り扱う中間
言語表現（意味タグ）について説明する。自然発話の意
味表現の中間言語表現として、Ｃ−ＳＴＡＲ（Consorti
um for Speech Translation Advanced Researchの略で
ある。）で定めている“ダイアログ・アクト（Dialogue
Act）”（以下、ＤＡともいう。）（例えば、従来技術
文献５「B.Angelini et al.,“ Multilingual Person t
o Person Communication at IRST”,Proceedings of IC
ASSP,ミュンヘン，ドイツ，１９９７年」参照。）を参
照して、テキストデータであるコーパスにはＤＡをその
ままタグとして付与している。ＤＡは、タスク依存のセ
ットとして定義されている。発話は、概ね文に相当する
意味的なまとまりである意味的な発話単位（Semantic D
ialogueUnit；以下、発話という。）に分割され、各発
話単位からタスク達成に直接関係する情報だけがＤＡと
して伝達される。各ＤＡは［話者（ｓｐｅａｋｅｒ），
発話行為（ｓｐｅｅｃｈ−ａｃｔ），概念（コンセプ
ト；ｃｏｎｃｅｐｔ），引数（アーギュメント；ａｒｇ
ｕｍｅｎｎｔｓ）］の４項からなる組である。あるＤＳ
Ｕに対するＤＡの例を表１に示す。

【００２６】

【表１】 ―――――――――――――――――――――――――――――――――― 発話（ＤＳＵ） “The week of the twelfth we have both signals and doubles available. ―――――――――――――――――――――――――――――――――― 中間言語表現（ＤＡ） a:GIVE-INFORMATION+AVAILABILITY+ROOM(room-type=(single & double), time=(week,md12) ――――――――――――――――――――――――――――――――――

【００２７】表１において、ａはエージェント（ａｇｅ
ｎｔ）を表わす話者情報であり、ＧＩＶＥ−ＩＮＦＯＲ
ＭＡＴＩＯＮ（情報提供）は発話行為、ＡＶＡＩＬＡＢ
ＩＬＩＴＹ（利用可能性）＋ＲＯＯＭ（部屋）は概念、
括弧内は引数である。

【００２８】概念は、いくつかの概念の組み合わせで、
発話（発話文）の焦点が当たっている命題内容を表現す
る。表１の発話には、他に、ＴＥＭＰＯＲＡＬ（時間情
報）やＦＥＡＴＵＲＥＳ（特徴）＋ＲＯＯＭ（部屋）と
いった概念が現れるが、焦点から最適なタグはＡＶＡＩ
ＬＡＢＩＬＩＴＹ＋ＲＯＯＭとなる。概念には、文脈を
必要とする情報を含まない。概念と発話行為の組み合わ
せ、及び、概念間の組み合わせは、定義により予め制約
されている。本実施形態で、定義されている概念は５０
種類であり、これらを組み合わせた概念は７７７種類存
在する。組み合わせの制約は、主に文生成時の曖昧性排
除の観点から規定されたものである。

【００２９】次いで、上述の決定木を用いた概念の推定
について説明する。本実施形態では、音声認識への意味
からの制約をねらい、まず発話の概念の推定だけを考え
る。ここでは、これを発話（発話文）の特徴に基づく分
類問題として扱い、決定木を用いた推定を行う。

【００３０】分類クラスとしては、（１）組み合わせ概
念を１クラスとして一括分類する方法と、（２）概念を
独立に分類する方法と、が考えられる。識別精度の観点
からは（１）の方法が望ましいが、データ数が少ない貧
弱なスパースデータの問題が顕著となる。一方、（２）
の方法では、定義に矛盾する組み合わせが出力される恐
れがある。そこで、本実施形態では、（２）の分類にお
いて組み合わせの最適性を得られる方法を用いて。本実
施形態では、定義概念には明確な階層分けが規定されて
いなかったため、概念のグルーピングは行わず、各概念
の有無を１クラスとする分類を行う。概念間の排他・共
起関係は全て学習により獲得する。

【００３１】概念の推定に有効な発話の特徴としては、
単語、統語構造（係り受け）、シソーラス（類語辞書、
同義語の辞書）等が考えられる。これらの情報を、発話
の曖昧さに応じて適宜用いることが望ましい。ただし、
音声認識結果への適用を考慮すると、認識誤りや非文法
的な表現が含まれる文に対して、全体をパーズ（音声認
識）しなくては得られない特徴を用いることは望ましく
ない。また、推定対象である概念は、構文による焦点の
移動等の問題は予想されるものの、概ねキーワードに依
存していると考えられる。そこで、本実施形態では、発
話の特徴として、（ａ）単語活用形、及び（ｂ）単語標
準形を用いた。本実施形態の手法では、これに（ｃ）概
念を併せた３つを用いる。（ｃ）の概念情報は、注目し
ている概念を除く全ての概念の有無であり、学習時には
コーパスで付与されているタグから与えられる。例え
ば、表１１において、識別番号００００の概念情報とし
ては“ｒｅｓｅｒｖａｔｉｏｎ（予約）”と“ｔｅｍｐ
ｏｒａｌ（時間）”が与えられる。推定時の取得方法に
ついては、詳細後述する。

【００３２】図２０に、従来技術文献６「L.Levin et a
l.,”An interlingua based on domain actions for ma
chine translation of task-oriented dialogues”,Pro
ceedings of ICSLP-98,pp.1155-1158,1998年」で開示さ
れた中間言語による文意の表現例を示す。上述のよう
に、発話は、決定木メモリ３４ｂ内の発話分割用決定木
を用いて、概ね単文相当の意味単位に分割され、それぞ
れの意味単位に対して中間言語表現が与えられる。文意
は、３種類のタグ：発話行為、概念、引数を用いて表現
される。これらのタグはタスクに依存して定義される。
現在の対象ドメインは旅行のプランニングであり、これ
にはホテル予約、フライト予約、交通機関の案内等のタ
スクが含まれている。以下、本実施形態では、発話から
意味単位への分割と概念（又は概念の組み合わせ）の同
定を考える。

【００３３】次いで、自然発話音声理解システムの動作
について説明する。音声認識装置１０から出力される音
声認識結果の音響的観測系列Ａに対し、次式で表される
最尤の概念組み合わせの系列を生成する。ただし、Ｂは
意味単位分割を表わす。

【数１】

【００３４】図２０の例では

【数２】Ｃ₁ ²＝（（features＋party），（preference
＋features＋room））の生成に相当する。これは、次式で与えられる。

【００３５】

【数３】

【数４】

【００３６】ここで、Ｗは単語系列であり、Ｂは意味単
位の分割の系列、Ｃ₁ ^|B|は概念の系列Ｃ₁，Ｃ₂，…，Ｃ
_|B|である。数４の右辺の第１項は単語グラフによる認
識スコアであり、その第２項は分割スコア、その第３項
は概念スコアである。また、上記数４の右辺の第３項
は、次式のように展開できる。

【００３７】

【数５】

【００３８】ただし、ｂ_τは番目の意味単位の終端境界
位置を表わす。

【００３９】次いで、図２１に、本実施形態の自然発話
音声理解システムの構成及び動作概要を示す。このシス
テムでは、マルチパスによる段階的絞り込み探索によ
り、目的とする概念の系列を生成する。第１のパスで
は、音声認識装置１０（例えば、従来技術文献７「内藤
ほか，“日英音声翻訳システムＡＴＲ−ＭＡＴＲＩＸに
おける音声認識用音響・言語モデル”，日本音響学会講
演論文集，２−Ｑ−２０，平成１０年３月」参照。）に
より、単語グラフの生成（数４の右辺の第１項）を行
う。次いで、第２のパスでは、単語グラフ上のパスに対
し、新たに意味スコア（数４の右辺の第２項及び第３
項）を評価することで、数４の基準によるＮ−ｂｅｓｔ
文意仮説を生成する。ただし、本実施形態では、第２の
パスに数５の右辺の第１項までを用いることとし、その
第２項は第３のパスで評価する。さらに、第３のパスで
は、概念（組み合わせ）の２−ｇｒａｍ（バイグラム）
を用いて、第２のパスのＮ−ｂｅｓｔ仮説に再順序付け
を行い、最終的な概念系列を決定する。２−ｇｒａｍ
は、概念の１−ｇｒａｍ（ユニグラム）確率と一様分布
確率により削除補間法で補間することにより得ている。

【００４０】次いで、第２のパスで実行する文意探索の
方法について説明する。第２のパスにおける文意探索で
は、第１のパスの認識仮説から効率よくを探索するため
に、Ｎ−ｂｅｓｔ認識候補の代わりに単語グラフを直接
的に探索する。初期ノードから開始し、単語グラフをＦ
ＳＡモデルを用いて、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ（左
から右方向）に辿る。各ノードに対して初期ノードから
到達可能なパスを求め、それぞれのパス上の単語列に対
して、後述する発話分割モデルと概念モデルを適用して
意味仮説を生成する。両モデルともにＦＳＡモデル（ｌ
ｅｆｔ−ｔｏ−ｒｉｇｈｔモデル）であるため、直前の
ノードでの状態に基づいて、単語入力に対する意味スコ
アを逐次的に評価することが可能となっている。生成し
た仮説群中、以下の条件に合致する仮説群は同義とし、
スコアの最も良い仮説を残して破棄する。同義の条件と
は、（１）発話分割数、（２）現行意味単位を除く各意
味単位の最尤概念、（３）現行意味単位における各概念
モデルの状態、が全て等しいことである。マージ後、最
大Ｎ個（実験ではＮ＝５０）の上位仮説を残して、枝刈
りを行う。

【００４１】本実施形態で用いる発話分割モデルは、入
力単語列に対して、最右単語の直前に意味単位境界が生
起する確率を与えるものである。本実施形態では、二分
木形式の発話分割用決定木を用い、注目する単語境界の
前ｎ単語（実験ではｎ＝３）と後ろ１単語の語彙情報に
基づいて、その単語境界が意味単位である確率を与え
る。

【００４２】本実施形態で用いる概念モデルは、意味単
位内の単語列から概念（組み合わせ）が生起する確率を
与えるものである。モデルは二分木形式の複数の決定木
の集合である。それぞれの決定木は、対応する概念の生
起（非生起）確率を与える。組み合わせの尤度は、それ
らの尤度積を用いて近似する。各決定木の生成は、ある
単語が意味単位中に現れるか否か、又は、あるシソーラ
ス（同義語）クラスに属する単語が現れるか否か、によ
り学習事例の二分割を繰り返すことで行う。このとき語
順は考慮しない。

【００４３】単語系列をｌｅｆｔ−ｔｏ−ｒｉｇｈｔ
（左から右方向）に評価する際、この概念モデルの決定
木を直接上から下へと辿ることはできない。これは、あ
る単語が意味単位中に現れないことを知るには、意味単
位の終端が検出されるまで待つ必要がある理由による。
そこで、探索時には、左コンテキストにおいて出現した
単語に基づいて到達可能な決定木のリーフノード集合を
逐次絞り込んでいくことにより、等価的に決定木を辿
る。実際には、決定木を単語遷移のＦＳＡに変換して、
変換された決定木のＦＳＡを用いて概念及び発話行為を
推定している。

【００４４】図４は、図２の音声認識装置１０の音声認
識結果である単語グラフの一例を示す図であり、図４を
参照して、単語グラフ及び単語グラフからの文意探索に
ついて説明する。単語グラフとは、音声認識における単
語系列仮説の表現手法の一つである。単語グラフの一例
を示す図４は、自然発話「今、ワシントンのホテルに滞
在しています」の認識仮説を単語グラフで表現した例で
ある。図中、丸は単語グラフのノードを示しており、各
ノードの上に付与した数値は、対応する時刻を示してい
る。ノード間のアークは、単語認識仮説であり、その単
語の認識尤度とともに保持される。この単語グラフの音
声認識については、従来技術文献８「清水徹ほか，“大
語い連続音声認識のための単語仮説数削減”，電子情報
通信学会論文誌，Ｄ−ＩＩ，Ｖｏｌ．Ｊ７９−Ｄ−Ｉ
Ｉ，Ｎｏ．１２，ｐｐ．２１１７−２１２４，１９９６
年」において開示されており公知である。

【００４５】この単語グラフからの文意探索処理は、図
１の発話分割及び発話行為と組み合わせ概念決定部２３
により実行され、その処理フローを図１５及び図１６に
示す。この文意探索処理について説明する。

【００４６】文意仮説の定義を以下のように行う。文意
仮説Ｈは、｛Ｗ、Ｂ、Ｃ、ＳＴ｝の４項の組で構成され
る。ここで、これら４項は以下のように定義される。（１）Ｗ…発話頭からの単語系列；（２）Ｂ…単語系列Ｗに対する文分割位置；（３）Ｃ…｛発話行為と概念の組み合わせ｝の文数個の
系列；（４）ＳＴ…複数ｍ個存在する意味項目ＦＳＡのそれぞ
れに対する、ｍ個の状態ポインタである。ここで、各状
態ポインタＳＴは、対応するＦＳＡを、単語系列Ｗが対
応する文系列の最右の文により遷移させたときに到達す
る状態を指している。

【００４７】本実施形態では、文意探索の処理途中にお
いて次式の文意尤度の計算式１（強近似）を用いる。数
４を再掲すれば、

【数６】となり、これを近似すると次式を得る。

【数７】

【数８】

【００４８】また、文意探索の処理の最後で（なお、変
形例では、文意探索の途中でも使用する。）次式の文意
尤度の計算式２（弱近似）を用いる。数４を再掲すれ
ば、

【数９】となり、これを近似すると次式を得る。

【数１０】

【数１１】

【数１２】

【００４９】なお、変形例において、文意仮説として、
各文に対する発話行為と概念組み合わせ仮説をｎ個ずつ
保持してもよい。

【００５０】次いで、上記数８及び数１１における正規
化計数σについて説明する。上記数１０を再掲すると、
次式の通りである。

【００５１】

【数１３】

【００５２】ここで、上記数１３の右辺の第１項及び第
２項はそれぞれ、次式により与えられる。

【００５３】

【数１４】

【数１５】

【００５４】上記数１４において、λ₁，λ₂，λ₃は補
間係数であり、公知の削除補間法により決定される。上
記数１５において、正規化係数σは次式により与えられ
る。

【００５５】

【数１６】

【００５６】図５は、図１の決定木生成処理部２１によ
って生成された発話分割用決定木の一例を示す図であ
る。図５から明らかなように、発話分割用決定木は、語
彙の相対位置と、品詞、活用形、活用型、標準形又は表
層形を示す語彙情報を用いて生成され、文の境界である
確率を求める決定木である。図５において、（−１，Ｃ
ＪＴＹＰ＝ｎｉｌ）は１つ前の単語の活用形が無しであ
るか否かを判断するノードである。また、（−１，ＰＯ
Ｓ＝感動詞）は１つ前の単語の品詞が感動詞であるか否
かを判断するノードである。さらに、（＋１，ＰＯＳ＝
接続助詞）は１つ後ろの単語の品詞が接続助詞であるか
否かを判断するノードである。これら３つの条件がＹＥ
Ｓであるときに文が分割される確率は０．１であること
を示す。なお、（−１，ＣＪＴＹＰ＝特殊サ）は１つ前
の単語の活用形が特殊サ変活用であるか否かを判断する
ノードである。

【００５７】発話分割用決定木を生成するときに用いる
事例データは、事例データメモリ４４に格納され、｛単
語系列，注目する単語境界，クラス｝で構成される３項
組である。ここで、事例のクラスとは、（１）Ｔ：注目
する単語境界は正しい発話分割位置である、（２）Ｆ：
注目する単語境界は正しい発話分割位置ではない、のい
ずれかである。次の表は、事例の一例である。各行が一
つの事例に対応している。識別番号００１を付与された
事例では、単語系列が「はい京都観光案内です」であ
り、注目する単語境界は１番目の単語の直後、すなわ
ち、「はい」と「京都観光案内」の間であることを示
す。また、クラスＴは、この単語境界が正しい発話分割
位置であることを示すものである。

【００５８】

【表２】事例データの一例（事例データメモリ４４内） ―――――――――――――――――――――――――――――――――― 識別番号事例単語系列注目する単語境界クラス ―――――――――――――――――――――――――――――――――― ００１はい京都観光案内です１Ｔ００２はい京都観光案内です２Ｆ００３予約したいんです１Ｆ … ――――――――――――――――――――――――――――――――――

【００５９】発話分割用決定木のための決定木生成処理
（図１３のステップＳ６６）におけるノード分割停止基
準は、「発話分割用決定木のルートノードからあるノー
ドＮを見たときのエントロピーの期待値Ｅｈ（次式で表
される）が所定のしきい値以下となっている場合は、そ
のノードをそれ以上分割しない。」と定める。

【００６０】

【数１７】

【００６１】ここで、｜Ｓ₀｜、｜Ｓ｜、｜Ｓ_T｜、｜Ｓ
_F｜はそれぞれ、ルートノードの事例数、ノードＮの事
例数、ノードＮの事例でクラスＴに属する事例数、ノー
ドＮの事例でクラスＦに属する事例数をそれぞれ表わ
す。

【００６２】次いで、発話分割用決定木のための決定木
生成処理で用いる単語境界の特徴（図１３のステップＳ
６８）は、｛相対位置，語彙情報｝で構成する２項組で
ある。相対位置とは、注目する単語境界から前、又は後
ろに何単語離れているか、であり、本実施形態では、前
３単語まで、後ろ１単語までを用いることとする。語彙
情報とは、ある単語の品詞、表層形、標準形、活用形、
活用型、辞書番号、の何れかが、ある値を取るか、であ
る。例えば、単語境界の特徴（−１、ＰＯＳ＝感動詞）
において、相対位置を示す”−１”は、注目する単語境
界の直前の単語に関する特徴であることを意味し、”Ｐ
ＯＳ＝感動詞”は、その単語の品詞が感動詞であること
を示すものである。

【００６３】次いで、概念推定用決定木の生成について
説明する。概念毎に、その概念の有無を推定するための
概念推定用決定木を生成する。学習は、全発話サンプル
集合Ｓをルートノードに属する初期集合とし、次式の相
互情報量Ｉ（Ｓ；ｆ）が最大となる発話の特徴ｆｈで分
割を繰り返すことにより行う。分割は、ノードが純粋な
クラスの集合になるまで、又は、しきい値以上のＩ
（Ｓ；ｆｈ）が得られなくなるまで行う。木は基本的に
ｙｅｓ／ｎｏの２分木であるが、特徴ｆｈに概念を用い
る場合は、さらに未知アークの下に発話サンプル集合Ｓ
をそのまま保持する第３の子ノードとして加えておくこ
とで、その概念に依存しないパスも同時に生成してお
く。すなわち、概念推定用決定木は、ｙｅｓ／ｎｏ／未
知の三分木の形式で表される一方、発話行為推定用決定
木は、ｙｅｓ／ｎｏの二分木の形式で表される。

【００６４】

【数１８】

【００６５】ここで、Ｓはノードに属する発話サンプル
の集合、ｆは発話の特徴に関するテスト特徴（以下、単
に、テストともいう。）である。Ｃ_iは発話のクラスで
あり、ここでは、Ｃ₁は注目している概念を含むクラ
ス、Ｃ₀は注目している概念を含まないクラスである。
ｐ（Ｃ_i）は発話サンプル集合ＳがクラスＣｉである確
率、ｐ（Ｃ_i，ｆ_j）は発話サンプル集合Ｓに対するテス
トｆの結果がｆ_j（＝ｙｅｓ／ｎｏ）でかつクラスがＣ_i
である結合確率、ｐ（Ｃ_i｜ｆ_j）はその条件付き確率で
ある。

【００６６】次いで、発話行為と組み合わせ概念決定部
２３で用いる推定アルゴリズムについて説明する。入力
発話に対して、その特徴に基づいて、概念毎に生成した
概念推定用決定木を並列にトレースして発話の概念を推
定する。各概念推定用決定木において到達したリーフノ
ードのｐ（Ｃ₁）をその概念の推定確率とする。木は、
概念テストを行うノードのリンクにより、お互いの概念
推定確率を適宜参照し、共起／排他情報として利用する
（図４中の弧矢印で示す。）。参照先の木が推定を終え
ていない場合は、停止してその終了を待つ。概念推定用
決定木がお互いに依存し合いデッドロック（互いの推定
結果待ちの状態）に陥った場合は、以下の基準で１つだ
け選択した木のポインタを停止中のノードからその未知
子ノードへと移し、木全体のトレースを再開する。デッ
ドロック時に進める木は、全概念に対する識別の曖昧さ
を最小にするものを選択する。次式で定義するクラスエ
ントロピーの総和Ｅを最小にする木である。クラスエン
トロピーの総和Ｅは、その木のポインタを未知子ノード
へと移して全ての木のトレースを再開したとき、次にデ
ッドロックした時点で各木が到達するノードのクラスエ
ントロピーの総和Ｅを、全木に対して取ったものであ
る。この結果得られる各概念の確率ベクトルから概念へ
の復号化には、内積を用いた。

【００６７】

【数１９】

【００６８】次いで、中間言語表現の例について説明す
る。表１に、自然言語文を当該中間言語表現で表現した
例を示す。

【００６９】

【表３】中間言語表現の例 ―――――――――――――――――――――――――――――――――― 例１．When are you reserving this for a:request-information+reservation+temporal(time=question) ―――――――――――――――――――――――――――――――――― 例２．I’ll be arriving February twelfth c:give-information+temporal+arrival(who=I,time=(february,md12)) ―――――――――――――――――――――――――――――――――― 例３．The week of the twelfth we have both singles and doubles available a:give-information+availability+room(room-type=(singledouble), time=(week,md12)) ―――――――――――――――――――――――――――――――――― 例４．The singles are a hundred and twenty dollars a night a:give-information+price+room(room-type=single,price=(currency=dollar,pe r-unit=night,quantity=120)) ―――――――――――――――――――――――――――――――――― 例５．And the doubles are a hundred and thirty four dollars a:give-information+price+room(room-type=double,price=(currency=dollar,qu antity=134)) ―――――――――――――――――――――――――――――――――― 例６．Which would you prefer a:request-information+preference ―――――――――――――――――――――――――――――――――― 例７．A single would do c:accept+features+room(room-type=single) ―――――――――――――――――――――――――――――――――― 例８．Would you like to put this on a credit card? c:request-information+payment(method=credit-card) ――――――――――――――――――――――――――――――――――

【００７０】上記表２において、例えば、例１の中間言
語表現は、「話者は“ａ”つまり『担当者』（“ａｇｅ
ｎｔ”の頭文字である。）であり、発話行為は“ｒｅｑ
ｕｅｓｔ−ｉｎｆｏｒｍａｔｉｏｎ”つまり『情報要
求』であり、組み合わせ概念は“ｒｅｓｅｒｖａｔｉｏ
ｎ＋ｔｅｍｐｏｒａｌ”つまり『予約の時間』であり、
引数は“ｔｉｍｅ＝ｑｕｅｓｔｉｏｎ”つまり『時間が
質問対象になっている』」ということを意味する。

【００７１】次いで、発話行為の例について説明する。
本実施形態では、発話行為として、「受諾（ａｃｃｅｐ
ｔ）」、「承認（ａｃｋｎｏｗｌｅｄｇｅ）」、「肯定
（ａｆｆｉｒｍ）」、「陳謝（ａｐｏｌｏｇｉｚｅ）」
といった、２３種類を定義して用いる。この中で、特に
「確認（ｖｅｒｉｆｙ）」と「確認要求（ｒｅｑｕｅｓ
ｔ−ｖｅｒｉｆｉｃａｔｉｏｎ）」の２つは他の発話行
為と組み合わせることで、「受諾の確認（ｖｅｒｉｆｙ
−ａｃｃｅｐｔ）」等といった複合発話行為を構成する
ことができる。本実施形態では、複合発話行為は６５種
類ある。本実施形態で用いる発話行為及び複合発話行為
の例を次の表に示す。

【００７２】

【表４】「発話行為」の例 ―――――――――――――――――――――――――――――――――― ａｃｃｅｐｔ「受諾」 “I’ll take that”,“Sounds good” ―――――――――――――――――――――――――――――――――― ａｃｋｎｏｗｌｅｄｇｅ「承認」 “Okay”,“Sure”,“yeah” ―――――――――――――――――――――――――――――――――― ａｆｆｉｒｍ「肯定」 “it Yes”,“Yes we do” ―――――――――――――――――――――――――――――――――― ａｐｏｌｏｇｉｚｅ「陳謝」 “Sorry”,“I’m sorry” ―――――――――――――――――――――――――――――――――― ｃｌｏｓｉｎｇ「会話終了」 “See you on September then”,“Bye” ―――――――――――――――――――――――――――――――――― ｇｉｖｅ−ｉｎｆｏｒｍａｔｉｏｎ「情報提供」 “We have two singles available on the fourth” ―――――――――――――――――――――――――――――――――― ｇｒｅｅｔｉｎｇ「挨拶」 “Hello”,“Good morning” ―――――――――――――――――――――――――――――――――― ｉｎｔｒｏｄｕｃｅ−ｓｅｌｆ「自己紹介」 “This is Bryan”, “Best western Pittsburgh” ―――――――――――――――――――――――――――――――――― ｉｎｔｒｏｄｕｃｅ−ｔｏｐｉｃ「話題導入」 “I’d like to make a trip to Pittsburgh” ―――――――――――――――――――――――――――――――――― ｎｅｇａｔｅ「否定」 “no” ―――――――――――――――――――――――――――――――――― ｏｆｆｅｒ「申し出」 “How may I help you?” ―――――――――――――――――――――――――――――――――― ｐｌｅａｓｅ−ｗａｉｔ「待機要求」 “Just a minute”,“Let me see” ―――――――――――――――――――――――――――――――――― ｒｅｊｅｃｔ「拒否」 “No, we don’t” ―――――――――――――――――――――――――――――――――― ｒｅｑｕｅｓｔ−ａｃｔｉｏｎ「要求動作」 “Could you reserve a room, please” ―――――――――――――――――――――――――――――――――― ｒｅｑｕｅｓｔ−ａｆｆｉｒｍａｔｉｏｎ「肯定要求」 “Is that right?” ―――――――――――――――――――――――――――――――――― ｒｅｑｕｅｓｔ−ｉｎｆｏｒｍａｔｉｏｎ「情報要求」 “Do you accept Visa?” ―――――――――――――――――――――――――――――――――― ｒｅｑｕｅｓｔ−ｓｕｇｇｅｓｔｉｏｎ「提案要求」 “Which do you think would be better?” ―――――――――――――――――――――――――――――――――― ｒｅｑｕｅｓｔ−ｖｅｒｉｆｉｃａｔｉｏｎ「受諾要求」 “Is this correct?” ―――――――――――――――――――――――――――――――――― ｓｕｇｇｅｓｔ「提案」 “I would recommend that” ―――――――――――――――――――――――――――――――――― ｔｈａｎｋ「感謝」 “Thank you very much” ―――――――――――――――――――――――――――――――――― ｖｅｒｉｆｙ「受諾」 “You said this is forty dollars” ―――――――――――――――――――――――――――――――――― ………………………………………………………………… ――――――――――――――――――――――――――――――――――

【００７３】次いで、概念の一例を表４に示す。どのよ
うな概念を定義するかは、システムが扱うタスクドメイ
ンに強く依存する。本実施形態では、旅行会話タスクを
扱うために、「空港（ａｉｒｐｏｒｔ）」、「到着（ａ
ｒｒｉｖａｌ）」、「利用可能性（ａｖａｉｌａｂｉｌ
ｉｔｙ）」、「キャンセル（ｃａｎｃｅｌｌａｔｉｏ
ｎ）」等、５０種類の概念を定義して用いる。

【００７４】

【表５】概念の一例 ―――――――――――――――――――――――――――――――――― ａｉｒｐｏｒｔ，ａｒｒｉｖａｌ，ａｖａｉｌａｂｉｌｉｔｙ，ｃａｎｃｅｌｌａｔｉｏｎ，ｃｈａｎｇｅ，ｃｈｅｃｋｉｎ，ｃｈｅｃｋｏｕｔ，ｃｏｎｆｉｒｍａｔｉｏｎ，ｃｕｒｒｅｎｃｙ，ｄｅｐａｒｔｕｒｅ，ｄｅｓｔｉｎａｔｉｏｎ，ｄｒｏｐ−ｏｆｆ，ｅｖｅｎｔ，ｅｘｃｈａｎｇｅ，ｅｘｐｉｒａｔｉｏｎ−ｄａｔｅ，ｆａｘ−ｎｕｍｂｅｒ，ｆｅａｔｕｒｅｓ，ｆｌｉｇｈｔ，ｇｕｉｄｅ，ｈｅｌｐ，ｈｅｌｐ−ａｇａｉｎ，ｈｏｔｅｌ，ｌｏｃａｔｉｏｎ，ｍｅｅｔｉｎｇ，ｍｉｎｉｍｕｍ−ｓｔａｙ，ｎａｍｅ，ｎｕｍｅｒａｌ，ｏｒｉｇｉｎ，ｐａｒｔｙ，ｐａｙｍｅｎｔ，ｐｅｒｓｏｎ，ｐｉｃｋ−ｕｐ，ｐｒｅｆｅｒｅｎｃｅ，ｐｒｉｃｅ，ｐｒｉｃｅ−ｄｉｆｆｅｒｅｎｃｅ，ｐｒｉｃｅ−ｆｌｕｃｔｕａｔｉｏｎ，ｒｅｓｅｒｖａｔｉｏｎ，ｒｏｏｍ，ｓｅｎｄ，ｓｉｇｈｔ，ｓｐｅｌｌｉｎｇ，ｓｔａｙ，ｔｅｌｅｐｈｏｎｅ−ｎｕｍｂｅｒ，ｔｅｍｐｏｒａｌ，ｔｏｕｒ，ｔｒａｎｓｆｅｒ，ｔｒａｎｓｐｏｒｔａｔｉｏｎ，ｔｒｉｐ，ｕｎａｖａｉｌａｂｉｌｉｔｙ， ……………………………… ――――――――――――――――――――――――――――――――――

【００７５】次いで、組み合わせ概念の例について説明
する。概念の組み合わせにより、文において焦点が当っ
ている話題を組み合わせ概念として表現する。例えば、
表２の例３の文“The week of the twelfth we have bo
th singles and doubles available”において、文中に
は、「時間（ｔｅｍｐｏｒａｌ）」や、「部屋の特徴
（ｆｅａｔｕｒｅｓ＋ｒｏｏｍ）」といった話題も現れ
るが、文の焦点から最適な組み合わせ概念は「部屋の利
用可能性（ａｖａｉｌａｂｉｌｉｔｙ＋ｒｏｏｍ）」で
ある。組み合わせ概念として使用可能な概念の組み合わ
せを、（１）発話行為に依存する制約と、（２）概念間
での組み合わせ制約として定義し、発話行為と組み合わ
せ概念メモリ３３に格納する。なお、本実施形態におい
て、組み合わせ概念とは、１つずつの概念と、複数の概
念の組み合わせとを含めて組み合わせ概念という。

【００７６】この制約定義に基づいて作成した、発話行
為と組み合わせ概念メモリ３３のデータ例を次の表に示
す。ここで、（１）発話行為に依存する制約とは、具体
的には、例えば、「交通機関の利用可能性」についての
「情報提示」（ｇｉｖｅ−ｉｎｆｏｒｍａｔｉｏｎ＋ａ
ｖａｉｌａｂｉｌｉｔｙ＋ｔｒａｎｓｐｏｒｔａｔｉｏ
ｎ）は許すが、「交通機関の利用可能性」についての
「拒否」（ｒｅｊｅｃｔ＋ａｖａｉｌａｂｉｌｉｔｙ＋
ｔｒａｎｓｐｏｒｔａｔｉｏｎ”は許さない、といった
ものである。また、（２）概念間での組み合わせ制約と
は、例えば、「団体客の特徴（ｆｅａｔｕｒｅｓ＋ｐａ
ｒｔｙ）」は許すが、「団体客の利用可能性（ａｖａｉ
ｌａｂｉｌｉｔｙ＋ｐａｒｔｙ）」や「団体客の予約
（ｒｅｓｅｒｖａｔｉｏｎ＋ｐａｒｔｙ）」は許さな
い、といったものである。本実施形態では、組み合わせ
概念は７７７種類を定義し、これを用いる。

【００７７】発話行為と組み合わせ概念メモリ３３のデ
ータ例

【表６】 ―――――――――――――――――――――――――――――――――― 発話行為＋組み合わせ概念 ―――――――――――――――――――――――――――――――――― give-information＋availability＋transportation ＋person ＋room ＋hotel ＋tour ＋flight ＋features ＋hotel ＋tour ＋flight ＋transportation ＋trip ＋room ＋party ＋reservation ＋expiration ＋features＋transportation ＋trip ＋tour ＋flight ＋room payment change ………… ――――――――――――――――――――――――――――――――――

【００７８】次いで、「引数」の例について説明する、
文の内容の詳細な特徴を引数で表現する。次の表に挙げ
た例１．及び例２．では、表層が異なる（具体的には、
同じ単語が“Ｉ”と“ｏｎ”しか無い。）２文に対し
て、括弧で括られた引数のみが異なる中間言語表現が与
えられている。ここで、ｃ：は話者ａとは異なる話者ｃ
を示す。

【００７９】

【表７】引数の一例 ―――――――――――――――――――――――――――――――――― 例１．I and two associates arrive on May fifth. c:give-information+temporal+arrival(who=I,with-whom=(associate,quantity= 2),time=(may,md15)) ―――――――――――――――――――――――――――――――――― 例２．I’ll be arriving on February twelfth. c:give-information+temporal+arrival(who=I,time=(february,md12)) ――――――――――――――――――――――――――――――――――

【００８０】本実施形態では、引数は、引数名と引数値
から構成される。表７の例１及び例２では、“ｗｈ
ｏ”，“ｗｉｔｈ−ｗｈｏｍ”，“ｔｉｍｅ”，“ｑｕ
ａｎｔｉｔｙ”が引数名であり、“Ｉ”，“（ａｓｓｏ
ｃｉａｔｅ，ｑｕａｎｔｉｔｙ＝２）”，“（ｍａｙ，
ｍｄ１５）”等が引数値である。使用可能な引数名は、
発話行為と組み合わせ概念に依存して定義し、引数名メ
モリ３５に格納する。なお、例外については詳細後述す
る。このデータ例を次の表に示す。

【００８１】

【表８】引数名メモリ３５のデータ例 ―――――――――――――――――――――――――――――――――― 発話行為＋組み合わせ概念引数名 ―――――――――――――――――――――――――――――――――― give-information＋availability＋transportation time,frequency, location,price, for-whom, transportation-type, duration, carrier-name,via, destination,origin ＋room time,frequency, location,price, for-whom,hotel-name, hotel-type,room-type, contain,bed-type, room-location, room-number, room-name ――――――――――――――――――――――――――――――――――

【００８２】上記の表のデータ例は、“ｇｉｖｅ−ｉｎ
ｆｏｒｍａｔｉｏｎ＋ａｖａｉｌａｂｉｌｉｔｙ＋ｔｒ
ａｎｓｐｏｒｔａｔｉｏｎ”「交通機関の利用可能性に
関する情報提示」で使用可能な引数名、及び、“ｇｉｖ
ｅ−ｉｎｆｏｒｍａｔｉｏｎ＋ａｖａｉｌａｂｉｌｉｔ
ｙ＋ｒｏｏｍ”「部屋の利用可能性に関する情報提示」
で使用可能な引数名の一覧を示すものである。それぞれ
に定義された引数名を比べると、両者に共通して使用可
能な、“ｔｉｍｅ（時間）”，“ｌｏｃａｔｉｏｎ（場
所）”といった引数名が存在する一方で、前者のみで使
える“ｔｒａｎｓｐｏｒｔａｔｉｏｎ−ｔｙｐｅ（交通
機関のタイプ）”，“ｃａｒｒｉｅｒ−ｎａｍｅ（運送
手段の名前）”、逆に、後者のみで使える“ｈｏｔｅｌ
−ｔｙｐｅ（ホテルのタイプ）”といったものも存在す
ることがわかる。

【００８３】引数名それぞれに対して、割り当て可能な
引数値を定義する。引数値のデータ例を次の表に示す。

【００８４】

【表９】引数値のデータ例 ―――――――――――――――――――――――――――――――――― 引数名＝引数値 ―――――――――――――――――――――――――――――――――― with-whom ＝ i,we,you,he,she,they,..., child,husband,wife,..., ＜equantity＞,..., ... ―――――――――――――――――――――――――――――――――― time ＝ 00:00,00:01,00:02,...,23:59, md1,md2,md3,...,md31, monday,tuesday,wednesday,..., night,afternoon,noon,soon,later,..., ＜estart-time＞,＜end-time＞,..., ... ―――――――――――――――――――――――――――――――――― room-type ＝ single,double,suite,bedroom,... ―――――――――――――――――――――――――――――――――― start-time ＝ 00:00,00:01,00:02,...,23:59, md1,md2,md3,...,md31, monday,tuesday,wednesday,..., night,afternoon,noon,soon,later,..., ... quantity ＝ 0,1,2,3,4,... question,couple,many,..., ... ――――――――――――――――――――――――――――――――――

【００８５】引数値には、表９のデータ例に示すような
値を単独で用いる以外に、これら引数値を組み合わせて
用いることも可能である。引数値の組み合わせには、以
下の演算子を用いる。

【００８６】

【表１０】引数値の演算子 ―――――――――――――――――――――――――――――――――― （１）“’”（列挙）例：ｔｉｍｅ＝（ｆｅｂｒｕａｒｙ，ｍｄ１２）「２月１２日」 ―――――――――――――――――――――――――――――――――― （２）“；”（分離）例：ｔｉｍｅ＝（ｍｄ１２；ｍｄ１３）「１２日か１３日」 ―――――――――――――――――――――――――――――――――― （３）“＆”（結合）例：ｗｉｔｈ−ｗｈｏｍ＝（ｗｉｆｅ＆ｃｈｉｌｄ）「妻と子」 ――――――――――――――――――――――――――――――――――

【００８７】また、一部の引数名にはその引数値とし
て、引数構造：引数名＝引数値を用いることを許す（こ
れは、引数名定義の例外である。）。表１０の例中の＜
ｑｕａｎｔｉｔｙ＞や＜ｓｔａｒｔ−ｔｉｍｅ＞，＜ｅ
ｎｄ−ｔｉｍｅ＞が、これに相当する。引数構造を用い
ることで、例えば、表７の例１中のｗｉｔｈ−ｗｈｏｍ＝（ａｓｓｏｃｉａｔｅ，ｑｕａｎ
ｔｉｔｙ＝２）「同伴者２名」といった表現や、ｔｉｍｅ＝（ｓｔａｒｔ−ｔｉｍｅ＝１０：００，ｅｎ
ｄ−ｔｉｍｅ＝１２：００）「１０時から１２時まで」といった表現を扱うことが可
能である。

【００８８】次いで、決定木生成処理部２１の処理につ
いて説明する。決定木生成処理部２１は、学習データメ
モリ３１内の学習用タグ付きコーパスの情報に基づき、
概念推定用決定木と発話行為推定用決定木をそれぞれ生
成するとともに、発話分割用決定木を生成する。ここ
で、学習データであるタグ付きコーパスは、表１１に示
すように、各例文毎の識別番号と、例文（例えば英語）
と、それに対応する中間言語表現とから構成される。

【００８９】まず、概念推定用決定木の構成について説
明する。決定木はノードとアークから構成され、決定木
は基本的に二分木であるが、部分的に三分木となるノー
ドを含むことを特徴としている。全てのノードは事例集
合を保持する。また、リーフ以外のノードでは、この他
にテストを保持する。ここで、事例集合は、学習データ
メモリ３１内の学習データの情報から生成される全事例
の部分集合である。この学習データであるタグ付きコー
パスのデータ例を表１１に示す。また、この学習データ
の情報から生成した、概念“ｒｏｏｍ（部屋）”を推定
する決定木用の事例集合のデータ例を表１２に示す。

【００９０】

【表１１】学習データメモリ３１に格納されるタグ付きコーパスのデータ例 ―――――――――――――――――――――――――――――――――― 識別番号文／中間言語表現 ―――――――――――――――――――――――――――――――――― 0000 When are you reserving this for a:request-information+reservation+temporal(time=question) ―――――――――――――――――――――――――――――――――― 0001 I'll be arriving February twelfth c:give-information+temporal+arrival (who=I,time=(february,md12)) ―――――――――――――――――――――――――――――――――― 0002 The week of the twelfth we have both singles and doubles available a:give-information+availability+room (room-type=(single & double),time=(week,md12)) ―――――――――――――――――――――――――――――――――― 0003 The singles are a hundred and twenty dollars a night a:give-information+price+room(room-type=single, price=(currency=dollar,per-unit=night,quantity=120)) ―――――――――――――――――――――――――――――――――― 0004 And the doubles are a hundred and thirty four dollars a:give-information+price+room(room-type=double, price=(currency=dollar,quantity=134)) ―――――――――――――――――――――――――――――――――― 0005 Which would you prefer a:request-information+preference ―――――――――――――――――――――――――――――――――― 0006 A single would do c:accept+features+room(room-type=single) ―――――――――――――――――――――――――――――――――― 0007 Would you like to put this on a credit card c:request-information+payment(method=credit-card) ――――――――――――――――――――――――――――――――――

【００９１】

【表１２】 “ｒｏｏｍ（部屋）”の決定木用の事例集合のデータ例 ―――――――――――――――――――――――――――――――――― 事例識別番号文クラス ―――――――――――――――――――――――――――――――――― 0000 When are you reserving this for Ｃ₀ ―――――――――――――――――――――――――――――――――― 0001 I'll be arriving February twelfth Ｃ₀ ―――――――――――――――――――――――――――――――――― 0002 The week of the twelfth we have both singles and doubles available Ｃ₁ ―――――――――――――――――――――――――――――――――― 0003 The singles are a hundred and twenty dollars a night Ｃ₁ ―――――――――――――――――――――――――――――――――― 0004 And the doubles are a hundred and thirty four dollars Ｃ₁ ―――――――――――――――――――――――――――――――――― 0005 Which would you prefer Ｃ₀ ―――――――――――――――――――――――――――――――――― 0006 A single would do Ｃ₁ ―――――――――――――――――――――――――――――――――― 0007 Would you like to put this on a credit card Ｃ₀ ――――――――――――――――――――――――――――――――――

【００９２】ここで、事例とは、文とクラスの組であ
る。クラスとは、当該文の中間言語表現に、当該決定木
が推定対象とする概念を含むクラスＣ₁、又は含まない
クラスＣ₀のいずれかである。テストは、予め指定した
文の特徴から、上述の数１８により定める相互情報量基
準により唯一つ選択する。文の特徴としては、（１）単
語活用形（すなわち、ある単語が文中に出現するかを示
す。）、（２）単語標準形（すなわち、ある単語標準形
を持つ単語が文中に出現するかを示す。）、（３）概念
（すなわち、ある概念が文の中間言語表現中に見られる
かを示す。）の３つを用いる。ただし、（３）の概念に
は、当該決定木が推定対象とする概念を含まない。

【００９３】次いで、発話行為推定用決定木について説
明する。以下、概念推定用決定木との相違点のみを示
す。（ａ）唯一つの発話行為推定用決定木で発話行為を決定
する。（ｂ）文の特徴には、（１）単語標準形（すなわち、ある単語標準形をもつ単
語が文中に出現するかを示す。）、（２）単語標準形の
２連接（すなわち、ある単語標準形をもつ単語の２連接
が文中に出現するかを示す。）の２つを用いる。（ｃ）事例のクラスとしては、６５種類の複合発話行為
を設定する。（ｄ）ノードのテストを選択する基準には、概念推定用
決定木と同様に、相互情報量を用いる。（ｅ）生成する発話行為推定用決定木は、完全二分木で
ある。概念推定用決定木で生成した未知アークはここで
は生成しない。

【００９４】次いで、中間言語生成部２２の処理につい
て説明する。中間言語生成部２２は、図１に示すよう
に、発話行為と組み合わせ概念決定部２３と引数決定部
２４とから構成され、音声認識装置１０からの自然発話
の入力文に対応する中間言語表現を生成する。すなわ
ち、複合発話行為、組み合わせ概念、引数をそれぞれ決
定する。発話行為と組み合わせ概念決定部２３におい
て、組み合わせ概念の決定においては、上述の推定アル
ゴリズムを用いる。また、発話行為の決定においては、
到達したリーフが保持する事例集合中から、最大数を占
める複合発話行為を推定結果として選択する。

【００９５】引数決定部２４は、発話行為と組み合わせ
概念決定部２３からの決定された発話行為及び組み合わ
せ概念を含む入力文を、以下の手順で部分的に構文解析
することで、発話行為と組み合わせ概念を決定する。＜
ステップＳＳ１＞入力される決定した発話行為と組み合
わせ概念を引数名メモリ３５内の引数名と照らし合わせ
ることで、使用可能な引数名を列挙する。＜ステップＳ
Ｓ２＞列挙した引数名それぞれについて、対応する部分
文解析規則を引数値生成規則メモリ３６から読み込む。
＜ステップＳＳ３＞部分文解析規則を用いて、入力文中
の任意の連続した部分単語列を構文解析する。このとき
使った規則から生成される引数値を並べることで、当該
入力文に対応する引数値を生成する。例えば、入力文
“Ｉ’ｌｌａｒｒｉｖｉｎｇｏｎＭｏｎｄａｙ
Ｆｅｂｒｕａｒｙ１．”からは、連続した部分単語列
“ｏｎＭｏｎｄａｙＦｅｂｒｕａｒｙ１”から引数
名“ｔｉｍｅ”に対する引数値“（ｍｏｎｄａｙ，ｆｅ
ｂｒｕａｒｙ，ｍｄ１）”が生成される。

【００９６】表１３及び表１４に、引数名“ｔｉｍｅ
（時間）”の引数値生成規則の例を示す。引数値生成規
則は、部分文解析規則と生成される引数値から構成され
る。表１３及び表１４中、セミコロン“；”の左側が公
知のＢＮＦ（“ＢａｃｃｕｓＮａｕｒＦｏｒｍ”の略
とも、“ＢａｃｃｕｓＮｏｒｍａｌＦｏｒｍ”の略
とも言われる。）記法で記述した部分文解析規則であ
り、右側が当該規則から生成される引数値である。大文
字とアンダースコア“＿”のみから構成されているもの
は非終端記号を表わす。バッククォート“‘”とシング
ルクォート“’”で囲まれているものは終端記号を表わ
す。アスタリスク“＊”で囲まれたものは、非終端記号
の展開により生成される引数値である。

【００９７】

【表１３】時間“ｔｉｍｅ”の引数値生成規則メモリ３６のデータ例（その１） ―――――――――――――――――――――――――――――――――― TIME_STR ::= TIME_STR1 ;*TIME_STR1* ―――――――――――――――――――――――――――――――――― TIME_STR1 ::= TIME_STR2 ;*TIME_STR2* − TIME_STR1 TIME_STR1 ;(*TIME_STR1*,*TIME_STR1*) − TIME_STR1 AND TIME_STR1 ;(*TIME_STR1*&*TIME_STR1*) − TIME_STR1 OR TIME_STR1 ;(*TIME_STR1*;*TIME_STR1*) ―――――――――――――――――――――――――――――――――― TIME_STR2 ::= TIME_STR3 ;*TIME_STR3* − START_STR TIME_STR3 ;*START_STR**TIME_STR1* − END_STR TIME_STR3 ;*END_STR**TIME_STR1* ―――――――――――――――――――――――――――――――――― START_STR ::= ‘from' ;start-time= − ‘starting' ;start-time= − ‘since' ;start-time= ―――――――――――――――――――――――――――――――――― END_STR ::= ‘to' ;end-time= − ‘till' ;end-time= − ‘until' ;end-time= − ‘uptotill' ;end-time= ―――――――――――――――――――――――――――――――――― TIME_STR3 ::= TIME_STR4 ;*TIME_STR4* − TIME_STR4‘and'TIME_STR4 ;*TIME_STR4*&*TIME_STR4* − TIME_STR4‘or'TIME_STR4 ;*TIME_STR4*;*TIME_STR4* − TIME_STR4 TIME_STR4 ;*TIME_STR4*,*TIME_STR4* ―――――――――――――――――――――――――――――――――― TIME_STR4 ::= YEAR ;*YEAR* − MONTH ;*MONTH* − DOM ;*DOM* − DOW ;*DOW* − HOUR_MIN ;*HOURMIN* − POT ;*POT* − REL ;*REL* ――――――――――――――――――――――――――――――――――

【００９８】

【表１４】時間“ｔｉｍｅ”の引数値生成規則メモリ３６のデータ例（その２） ―――――――――――――――――――――――――――――――――― YEAR ::= YEAR1 ;*YEAR1* − ‘in'YEAR1 ;*YEAR1* − ‘of'YEAR1 ;*YEAR1* ―――――――――――――――――――――――――――――――――― YEAR1 ::= ‘1998' ;1998 − ‘1999' ;1999 ... ... ―――――――――――――――――――――――――――――――――― MONTH ::= MONTH1 ;*MONTH1* − ‘on'MONTH1 ;*MONTH1* − ‘of'MONTH1 ;*MONTH1* ―――――――――――――――――――――――――――――――――― MONTH1 ::= ‘January' ;january − ‘February' ;february ... ... ―――――――――――――――――――――――――――――――――― DOM ::= DOM1 ;*DOM1* − ‘in'DOM1 ;*DOM1* − ‘of'DOM1 ;*DOM1* ―――――――――――――――――――――――――――――――――― DOM1 ::= the‘first' ;md1 − the‘1st' ;md1 ... ... ―――――――――――――――――――――――――――――――――― ……… ――――――――――――――――――――――――――――――――――

【００９９】次いで、自然言語生成部２５の処理につい
て説明する。自然言語生成部２５は、引数決定部２４か
ら入力される中間言語表現から、以下の手順で翻訳文を
生成する。＜ＳＳ１１＞発話行為と組み合わせ概念に基づき、文テ
ンプレートメモリ３７から対応する文テンプレートを取
り出す。＜ＳＳ１２＞部分生成規則メモリ３８は、引数値解析規
則とそれに対応する単語列とから構成され、部分文生成
規則メモリ３８から、中間言語表現中に与えられた引数
名に対応する部分文生成ルールを取り出す。＜ＳＳ１３＞引数値解析規則を使って引数値の構文解析
を行う。このとき使った規則により生成される単語列を
並べることで、当該引数に対応する部分文を生成する。＜ＳＳ１４＞部分文を文テンプレートに埋め込んで出力
文を生成する。ここで、文テンプレートメモリ３７のデ
ータ例を以下に示す。また、部分文生成規則メモリ３８
のデータ例を以下に示す。

【０１００】

【表１５】文テンプレートメモリのデータ例（その１） ―――――――――――――――――――――――――――――――――― ｇｉｖｅ−ｉｎｆｏｒｍａｔｉｏｎ＋ｐｒｉｃｅ＋ｒｏｏｍ ―――――――――――――――――――――――――――――――――― ｈｏｔｅｌ−ｎａｍｅのｈｏｔｅｌ−ｔｙｐｅのｒｏｏｍ−ｔｙｐｅのｃｏｎｔａｉｎ付きのｂｅｄ−ｔｙｐｅ付きのｒｏｏｍ−ｌｏｃａｔｉｏｎにあるｒｏｏｍ−ｎｕｍｂｅｒのｒｏｏｍ−ｎａｍｅの部屋の値段はｐｒｉｃｅ − です。 ――――――――――――――――――――――――――――――――――

【０１０１】

【表１６】文テンプレートメモリのデータ例（その２） ―――――――――――――――――――――――――――――――――― ｇｉｖｅ−ｉｎｆｏｒｍａｔｉｏｎ＋ａｖａｉｌａｂｉｌｉｔｙ＋ｒｏｏｍ ―――――――――――――――――――――――――――――――――― ｌｏｃａｔｉｏｎでｔｉｍｅ・ｆｒｅｑｕｅｎｃｙでｐｒｉｃｅでｆｏｒ−ｗｈｏｍの名義でｈｏｔｅｌ−ｎａｍｅのｈｏｔｅｌ−ｔｙｐｅのｒｏｏｍ−ｔｙｐｅのｃｏｎｔａｉｎ付きのｂｅｄ−ｔｙｐｅ付きのｒｏｏｍ−ｌｏｃａｔｉｏｎにあるｒｏｏｍ−ｎｕｍｂｅｒのｒｏｏｍ−ｎａｍｅの部屋が利用できます。 ――――――――――――――――――――――――――――――――――

【０１０２】

【表１７】時間“ｔｉｍｅ”の部分文生成規則メモリ３８のデータ例（その１） ―――――――――――――――――――――――――――――――――― TIME_VALUE ::= VAL ;*VAL* ｜ VAL_SEQ_PAR ;*VAL_SEQ_PAR* ―――――――――――――――――――――――――――――――――― VAL_SEQ_PAR ::= ‘('VAL_SEQ‘)' ;*VAL_SEQ* ｜ VAL_SEQ ;*VAL_SEQ* ―――――――――――――――――――――――――――――――――― VAL_SEQ ::= VAL_SEQ_PAR LOP VAL_SEQ_PAR ;*VAL_SEQ_PAR**LOP**VAL_SEQ_PAR* ｜ VAL ;*VAL* ―――――――――――――――――――――――――――――――――― LOP ::= ‘&' ;と｜ ‘;' ;か｜ ‘,' ; ―――――――――――――――――――――――――――――――――― VAL ::= VAL_ARG ;*VAL_ARG* ｜ VAL1 ;*VAL1*に ―――――――――――――――――――――――――――――――――― VAL_ARG ::= ‘start_time='TIME_VALUE ;*TIME_VALUE*から｜ ‘end_time='TIME_VALUE ;*TIME_VALUE*まで ―――――――――――――――――――――――――――――――――― VAL1 ::= YEAR ;*YEAR* ｜ MONTH ;*MONTH* ｜ DOM ;*DOM* ｜ DOW ;*DOW* ｜ POT ;*POT* ｜ HOUR_MIN ;*HOUR_MIN* ｜ ‘question' ;いつ ――――――――――――――――――――――――――――――――――

【０１０３】

【表１８】時間“ｔｉｍｅ”の部分文生成規則メモリ３８のデータ例（その２） ―――――――――――――――――――――――――――――――――― YEAR ::= ‘1998' ;１９９８年｜ ‘1999' ;１９９９年 ... ... ―――――――――――――――――――――――――――――――――― MONTH ::= ‘january' ;１月｜ ‘february' ;２月 ... ... ―――――――――――――――――――――――――――――――――― DOM ::= ‘md1' ;１日｜ ‘md2' ;２日 ... ... ―――――――――――――――――――――――――――――――――― DOW ::= ‘sunday' ;日曜日｜ ‘monday' ;月曜日 ... ... ―――――――――――――――――――――――――――――――――― POT ::= ‘night' ;夜｜ ‘afternoon' ;午後 ... ... ―――――――――――――――――――――――――――――――――― HOUR_MIN ::= ‘00:00' ;０時｜ ‘00:01' ;０時１分 ... ... ――――――――――――――――――――――――――――――――――

【０１０４】表１７及び表１８から明らかなように、部
分文生成規則メモリ３８には、引数値解析規則と生成さ
れる単語列から構成される。表１７及び表１８におい
て、セミコロン“；”の左側が公知のＢＮＦ記法で記述
した引数値解析規則であり、右側が当該規則から生成さ
れる単語列である。大文字とアンダースコア“＿”のみ
から構成されているものは非終端記号を表わす。また、
バッククォート“‘”とシングルクォート“’”で囲ま
れているものは終端記号を表わす。さらに、アスタリス
ク“＊”で囲まれたものは、非終端記号の展開により生
成される単語列である。

【０１０５】例えば、自然言語生成部２５の処理におい
て、中間言語表現“ｇｉｖｅ−ｉｎｆｏｒｍａｔｉｏｎ
＋ａｖａｉｌａｂｉｌｉｔｙ＋ｒｏｏｍ（ｒｏｏｍ−ｔ
ｙｐｅ＝ｓｉｎｇｌｅ，ｔｉｍｅ＝（ｍｄ１２ｍｄ１
３））”が与えられると、引数から部分文「シングル」
と「１２日と１３日に」が生成される。これを表１４及
び表１５の例の下段（表１５）の文テンプレートに埋め
込むことで、出力文「１２日と１３日にシングルの部屋
が利用できます。」が生成される。

【０１０６】図６は、図１の決定木生成処理部２１によ
って生成された概念推定用決定木の一例を示す図であ
る。図６において、ノードの横にテストの内容を示す。
大文字のものは概念、＜＞で囲まれているものは単語標
準形、＊で囲まれているものは詳細後述する前処理によ
り特別なシンボルに置き換えた単語をそれぞれ表わす。
また、リーフノード（黒丸）の下の値はノードに属する
発話サンプルが概念を含む確率ｐ（Ｃ₁）である。

【０１０７】次いで、発話行為推定用決定木とその生成
について説明する。本実施形態では、発話行為推定用の
決定木を唯一つ生成する。この決定木により、当該文に
対応する発話行為が、定義により規定された発話行為中
のいずれであるかを推定する。推定結果は、発話行為の
尤度ベクトルとして与えられる。また、発話行為推定用
の決定木は、概念推定用決定木と同様、完全二分木とし
て生成する。すなわち、決定木のリーフ以外のノード
は、下位のノード（子ノード）をそれぞれ２つずつ有す
る。これら子ノードは、親ノードのテスト特徴ｆに対す
る結果がｙｅｓ／ｎｏであることに対応している。ここ
で、テスト特徴ｆとは、概念推定用決定木と同様、文中
に或る単語（又は、或る類義語クラスに属する単語）が
出現するか、否か、である。決定木生成処理において、
いずれの単語（又は類義語クラス）をノードのテスト特
徴として選択するかは、概念推定用決定木の生成時と同
様に、相互情報量（上記数１８）に基づいて決定する。
ただし、ここで「事例クラスがＣｉである」、とは、当
該事例に対応する文の発話行為がｉ番目の発話行為ＳＡ
ｉであることに対応する。さらに、入力文に対する発話
行為の尤度は、当該文が到達する決定木のリーフノード
により与えられる。ここでは、各発話行為の尤度とし
て、リーフノードが保持する学習事例集合における各事
例クラスの頻度分布を直接用いる。例えば、到達したリ
ーフノードに１００個の学習事例が保持されており、う
ち、発話行為ＳＡ１に対応する事例が７０個であり、Ｓ
Ａ２に対応する事例が３０個であったとき、当該文に対
する発話行為の尤度は（Ｐｒ（ＳＡ１），Ｐｒ（ＳＡ
２），Ｐｒ（ＳＡ３），…）＝（０．７，０．３，０．
０，…）である。

【０１０８】さらに、発話行為推定用ＦＳＡとその生成
について説明する。本実施形態では、発話行為推定用Ｆ
ＳＡを唯一つ生成する。これは、発話行為推定用決定木
からの変換処理により生成される。処理フローは、概念
推定用のそれと完全に共通である。すなわち、図１１の
処理は。概念推定用決定木と発話行為推定用決定木とに
適用される。従って、これら２つの決定木を意味項目推
定用決定木ともいう。なお、これら２つの決定木におけ
る唯一の相違点は、ＦＳＡの出力（対応する意味項目
（概念）の存在確率）が、概念推定用ＦＳＡでは「当該
意味項目が存在する確率／存在しない確率」の形式で出
力されるのに対して、発話行為推定用ＦＳＡでは「各発
話行為の尤度ベクトル」の形式で出力される点である。

【０１０９】図７は、図１の決定木生成処理部２１によ
って生成された概念推定用決定木又は発話行為推定用決
定木である意味項目推定用決定木の一例を示す図であ
り、図８は、図７の意味項目推定用決定木から図１のＦ
ＳＡ変換部２９によって変換された意味項目推定用ＦＳ
Ａの一例を示す図である。本実施形態では、入力単語系
列に対し、逐次的に各意味項目の尤度を評価するため、
各意味項目推定用決定木をそれぞれＦＳＡに変換して用
いる。

【０１１０】図７において、Ｌ１〜Ｌ３は決定木のリー
フノードを示す。リーフノードの下の数字は、そのノー
ドに分類された学習事例の数を表わす。例えば、リーフ
ノードＬ１においては、Ｌ１に分類された学習事例の総
数は１０個であり、うち９個は、この決定木が対応する
意味項目を含むものであったことを意味する。

【０１１１】図８は、図７の決定木をＦＳＡに変換した
例であり、白丸Ｓ１〜Ｓ５はＦＳＡの状態を示す。各状
態からは、入力された単語に応じて、別の状態、又は同
じ状態へと遷移が行われる。図中、ａ、ｂが付与された
アークはそれぞれ単語ａ、ｂによる遷移が行われること
を表わす。また、”終了”は、意味単位の終端による特
別な遷移を表わす。”その他”は、その他の単語による
遷移を表わす。ＦＳＡの各状態は、決定木のリーフノー
ドの組み合わせに対応しており、入力された単語系列
が、いずれのリーフノードに分類されるかを示してい
る。単語系列に対する意味項目の尤度は、ＦＳＡ状態が
対応するリーフノードに基づいて決定する。

【０１１２】例えば、図８において、文頭からの部分単
語系列”ｂｘｘｙ”が入力されたとき、ＦＳＡでは、初
期状態Ｓ１から開始して、文頭の単語”ｂ”により状態
Ｓ２に遷移し、続く単語系列”ｘｘｙ”により、状態Ｓ
２での自己ループを回る。この単語系列”ｂｘｘｙ”が
入力された時点での意味項目の尤度は、状態Ｓ２が対応
する決定木のリーフＬ１、Ｌ２により保持される学習事
例集合の和集合により、意味項目推定の尤度確率ｐｒ＝
１５／３０＝０．５を与える。これは、この部分単語系
列”ｂｘｘｙ”が、後続する未知の単語系列に依存して
リーフＬ１又はＬ２に分類されること、また、決してＬ
３には分類されないことを意味する。その後、”ｂｘｘ
ｙ”の後に単語”ａ”が入力されれば、状態はＳ２から
Ｓ３に遷移し、意味項目尤度確率としてｐｒ＝９／１０
＝０．９を与える。一方、単語”ａ”が入力されずに意
味単位の終端が検出された場合は、状態Ｓ２から終了ア
ークにより状態Ｓ５に遷移し、意味項目尤度確率として
ｐｒ＝６／２０＝０．３を与える。

【０１１３】組み合わせ概念バイグラム生成処理部２８
は、学習用データメモリ３１内のタグ付きコーパスに基
づいて、発話行為と組み合わせ概念メモリ内の組み合わ
せ概念の定義例を参照して、当該タグ付きコーパス中に
おける組み合わせ概念のバイグラムの統計値を計数し、
その計数値を組み合わせ概念の統計的モデルとして抽出
して組み合わせ概念メモリ３９に出力して格納する。

【０１１４】図９及び図１０は、図１の決定木生成処理
部２１によって実行される概念推定用決定木と発話行為
推定用決定木のための決定木生成処理を示すフローチャ
ートである。

【０１１５】図９のステップＳ１１において、まず、発
話行為と組み合わせ概念メモリ３３を参照して全ての概
念と複合発話行為を列挙し、ステップＳ１２において決
定木を生成していない概念又は複合発話行為があるか否
かが判断される。ＮＯであれば、すべての概念又は複合
発話行為を処理したと判断して当該処理を終了する。一
方、ステップＳ１２でＹＥＳであるときは、ステップＳ
１３において学習データメモリ３１から全ての学習用タ
グ付きコーパスを読み込み、当該意味項目に対応する事
例を生成する。次いで、ステップＳ１４において全ての
事例を事例集合として保持するノードを生成し、当該意
味項目推定用決定木のルートノードとして登録する。そ
して、ルートノードを分割待ち行列メモリ４２に入れ
る。そして、ステップＳ１５において分割待ち行列メモ
リ４２は空か否かが判断され、ＹＥＳのときは決定木の
生成が終了したと判断してステップＳ２２で生成した決
定木を決定木メモリ３４ａに格納した後、ステップＳ１
２に戻る。一方、ステップＳ１５でＮＯのときは、ステ
ップＳ１６において分割待ち行列メモリ４２から、ノー
ドＮを１つ取り出し、ステップＳ１７においてノードＮ
の保持する事例集合Ｓは、単独クラスの集合か否かが判
断される。ステップＳ１７でＹＥＳのときはステップＳ
１５に戻る一方、ＮＯのときはステップＳ１８に進む。

【０１１６】図９のステップＳ１８においてノードＮの
先祖ノードでテストとしてまだ選択されていない全ての
文の特徴ｆ_iに対して、特徴ｆ_iの有無により、当該ノー
ドが保持する事例集合Ｓの２分割を試みる。このとき、
最大の相互情報量（数１８）を与える文の特徴

【数２０】を見つける。次いで、図１０のステップＳ１９において
ノードＮにおけるエントロピーの期待値Ｅｈ（Ｓ）（数
１７）は所定のしきい値以上か否かが判断され、ＹＥＳ
であればステップ２０に進む一方、ＮＯであれば図９の
ステップＳ１５に戻る。

【０１１７】ステップＳ２０において特徴ｆ_iをノード
Ｎのテスト特徴として登録し、ステップＳ２１において
ノードＮが保持する事例集合Ｓを、文の特徴ｆ_i ^*に有無
に基づいて事例Ｓ_yesと事例Ｓ_noに２分割する。そし
て、それぞれの部分集合を保持する新たな２つのノード
を生成し、ノードＮのそれぞれｙｅｓアーク、ｎｏアー
クの下の子ノードとして登録する。これら２つのノード
を分割待ち行列メモリ４２に入れる。そして、図９のス
テップＳ１５に戻る。

【０１１８】図１１は、図１のＦＳＡ変換部２９によっ
て実行されるＦＳＡ変換処理を示すフローチャートであ
る。

【０１１９】図１１において、まず、ステップＳ３１で
処理対象の当該意味項目に対応する決定木を決定木メモ
リ３４ａから読み込み、ステップＳ３２において当該決
定木の全リーフノードを保持するＦＳＡの状態を一つ生
成し、これを当該ＦＳＡの初期状態とする。そして、ス
テップＳ３３において初期状態を、待ち行列メモリ４１
に入れた後、ステップＳ３４において待ち行列メモリ４
１は空か否かが判断される。ステップＳ３４でＹＥＳの
ときは、当該ＦＳＡ変換処理が終了したと判断して当該
処理を終了する。一方、ステップＳ３４でＮＯのとき
は、ステップＳ３５において待ち行列メモリ４１から、
ＦＳＡの状態Ｓを一つ取り出し、ステップＳ３６におい
てＦＳＡのサブルーチンＡ（図１２）を実行することに
より、処理状態Ｓの遷移先状態群｛Ｓ１，Ｓ２，…｝を
生成し、状態Ｓからの単語リンクを張る。次いで、ステ
ップＳ３７において遷移先状態群｛Ｓ１，Ｓ２，…｝の
中で、まだステップＳ３６を行っていない状態を、待ち
行列メモリ４１に入れた後、ステップＳ３４に戻る。

【０１２０】図１２は、図１１のサブルーチンＡ処理を
示すフローチャートである。

【０１２１】図１２において、まず、ステップＳ４１に
おいて学習用データメモリ３１内のタグ付きコーパス内
の全ての単語ｗを処理対象とし、次いで、ステップＳ４
２においてＦＳＡの状態Ｓが保持する全ての決定木リー
フノードの集合を、部分集合ＰＳ１と部分集合ＰＳ２と
に分割する。ここで、部分集合ＰＳ１は、文中に単語ｗ
の非存在を仮定しないリーフノード集合であり部分集合
ＰＳ２は、文中に単語ｗの非存在を仮定するリーフノー
ド集合である。ただし、部分集合ＰＳ２の条件「リーフ
ノードＮが単語ｗの非存在を仮定する」とは、当該決定
木のルートノードとリーフノードＮの間に、単語ｗをテ
ストするノード、又は、単語ｗを包含する類義語クラス
をテストするノードＮ’が存在し、かつ、リーフノード
ＮがこのノードＮ’のｎｏアーク下の子孫ノードとなっ
ていることを指す。この否定が部分集合ＰＳ１の条件で
ある。

【０１２２】次いで、ステップＳ４３においてリーフノ
ードの部分集合ＰＳ１，ＰＳ２は、共に１つ以上の要素
（リーフノード）を有するか否かが判断され、ＹＥＳで
あるときはステップＳ４４に進む一方、ＮＯであるとき
はステップＳ４２に戻る。そして、ステップＳ４４にお
いて部分集合ＰＳ２を一時メモリ内に格納し、ステップ
Ｓ４５においてリーフノードの部分集合ＰＳ１を唯一有
するＦＳＡの状態Ｓ’は既に生成されているか否かが判
断される。ステップＳ４５でＹＥＳのときはステップＳ
４７に進む一方、ＮＯのときはステップＳ４６に進む。
ステップＳ４６においてＦＳＡの状態Ｓ’を新たに生成
し、ステップＳ４７においてＦＳＡの状態Ｓから状態
Ｓ’へ単語ｗによるリンクを張った後、ステップＳ４８
において全ての単語ｗを調べたか否かが判断される。ス
テップＳ４８でＮＯのときはステップＳ４２に戻って上
記の処理を繰り返す。一方、ステップＳ４８でＹＥＳな
らば、ステップＳ４９に進む。

【０１２３】ステップＳ４９においてＦＳＡの状態Ｓか
ら状態Ｓ自身へ、特別な単語“その他”による自己リン
クを張り、ステップＳ５０においてステップ５で保管し
た全ての部分集合ＰＳ２の積集合Ｓ”を求める。この積
集合Ｓ”は必ず唯一の要素（リーフノード）を有する集
合となる。次いで、ステップＳ５１においてリーフノー
ドの集合Ｓ”を唯一有するＦＳＡの状態Ｓ”は既に生成
されているか否かが判断され、ＹＥＳのときはステップ
Ｓ５３に進む一方、ＮＯのときはステップＳ５２に進
む。ステップＳ５２においてＦＳＡの終状態Ｓ”を新た
に生成し、ステップＳ５３においてＦＳＡの終状態Ｓか
ら終状態Ｓ”へ、特別な単語“終了”によるリンクを張
り、ステップＳ５４において生成した全てのＦＳＡの状
態Ｓ’を生成状態としてメインルーチンに戻して元のメ
インルーチンに戻る。

【０１２４】図１３及び図１４は、図１の決定木生成処
理部２１によって実行される発話分割用決定木のための
決定木生成処理を示すフローチャートである。

【０１２５】図１３のステップＳ６１において、学習デ
ータメモリ３１からすべての学習データ（タグ付きコー
パス）を読み込み、上述のように学習用事例データを生
成する。次いで、Ｓ６２において生成された学習用事例
データを事例集合として保持するノードを生成し、発話
分割用決定木のルートノードとして登録する。そして、
ルートノードを待ち行列メモリ４３に入れる。さらに、
ステップＳ６３において待ち行列メモリ４３は空か否か
が判断され、ＹＥＳのときは処理が終了したと判断し
て、ステップＳ６４において生成された現在の発話分割
用決定木を決定木メモリ３４ｂに格納して当該決定木生
成処理を終了する。一方、ステップＳ６３でＮＯである
ときは、ステップＳ６５において待ち行列メモリ４３か
らノードＮを１つ取り出し、ステップＳ６６においてノ
ードＮは上述のノード分割停止基準に合致するか否かが
判断され、ＹＥＳのときはステップＳ６３に戻る一方、
ＮＯのときはステップＳ６７に進む。

【０１２６】図１３のステップＳ６７において学習用事
例データ内の単語系列と注目する単語境界から単語境界
の特徴ｆ_iを生成し、ステップＳ６８において生成した
単語境界の特徴ｆ_iの一致／不一致により、ノードＮが
保持する事例集合の２分割を試みる。すべての単語境界
の特徴ｆ_iの中で最大の相互情報量を与える特徴ｆ_i ^*を
見つける。次いで、図１４のステップＳ６９において特
徴ｆ_i ^*をノードＮのテストとして登録し、ステップＳ７
０においてノードＮが保持する事例集合を、単語境界の
特徴ｆ_i ^*に合致する事例集合Ｓ_yesと合致しない事例集
合Ｓ_noとに分割する。事例集合Ｓ_yes，Ｓ_noを保持する
新たなノードを生成し、ノードＮのそれぞれＹｅｓアー
クの下の子ノード、Ｎｏアークの下の子ノードとして登
録する。これら２つのノードを待ち行列メモリ４３に入
れる。そして、図１３のステップＳ６３に戻り、上記の
処理を繰り返す。

【０１２７】図１５及び図１６は、図１の発話分割及び
発話行為と組み合わせ概念決定部２３によって実行され
る単語グラフからの文意探索処理を示すフローチャート
である。

【０１２８】次いで、図１５及び図１６を参照して、発
話分割及び発話行為と組み合わせ概念決定部２３によっ
て実行される単語グラフからの文意探索処理について説
明する。図１５において、まず、ステップＳ７１で音声
認識装置１０から認識結果の単語グラフを入力し、ステ
ップＳ７２において単語グラフ上のノードのうち、文意
仮説がまだ終わっていないノードで、かつ、時刻が最も
早いノードＮを一つ取り出す。次いで、ステップＳ７３
においてノードＮに入射する単語グラフのアークＧＡを
一つ取り出し、ステップＳ７４においてアークＧＡの元
ノードＮ’が保持する文意仮説Ｈ’を一つ取り出す。さ
らに、ステップＳ７５において文意仮説Ｈが保持する単
語系列Ｗとして、文意仮説Ｈ’が保持する単語系列Ｗ’
にアークＧＡの単語ｗを加えたものを一時メモリに格納
し、ステップＳ７６において発話を分割用決定木のトレ
ース処理（図１７）のサブルーチンを実行することによ
り、決定木メモリ３４内の発話分割決定木を用いて、単
語ｗの直前が文終端である確率を評価する。そして、ス
テップＳ７７において単語ｗの直前が文終端である確率
≧０．５か否かが判断され、ＹＥＳのときはステップＳ
７８に進む一方、ＮＯのときはステップＳ８１に進む。

【０１２９】図１５のステップＳ７８において単語ｗの
直前は文終端であると判断し、仮説Ｈ’が保持する文分
割位置Ｂ’に単語ｗの直前を加えた新たな文分割位置Ｂ
を仮説Ｈに格納し、ステップＳ７９において仮説Ｈ’が
保持するＦＳＡの状態ポインタ群ＳＴ’を、文終端を表
す特別なシンボル“終了”で遷移させることにより、単
語ｗの直前の文に対する各発話行為と概念の尤度を求
め、数８（変形例では数１１）を用いて組み合わせ尤度
を計算し、この結果、最尤である発話行為と概念の組み
合わせを、仮説Ｈ’のＣ’系列に加え、新たなＣ系列と
して仮説Ｈに格納する。そして、ステップＳ８０におい
て仮説Ｈの状態ポインタＳＴとして、各ＦＳＡの初期状
態から単語ｗで遷移した状態を登録する。状態ポインタ
ＳＴより、単語ｗだけで構成される部分文に対して、各
発話行為と概念の尤度を計算して、図１６のステップＳ
８４に進む。

【０１３０】図１６のステップＳ８１では、仮説Ｈ’の
文分割位置Ｂ’をコピーして、仮説Ｈの文分割位置Ｂに
格納し、ステップＳ８２において仮説Ｈ’のＣ’系列を
コピーして、仮説ＨのＣ系列に格納し、ステップＳ８３
において仮説Ｈ’のＳＴ’が保持するＦＳＡ状態より、
単語ｗで遷移した状態を、仮説Ｈの状態ポインタＳＴと
して登録する。これらのＦＳＡの状態より、各発話行為
と概念の尤度を求め、文意尤度の計算式の数６乃至数８
（変形例では、数９乃至数１２）を用いて組み合わせ尤
度を計算する。そして、ステップＳ８４においてそれぞ
れの尤度を加え（仮説Ｈ’の文意尤度＋単語ｗの認識尤
度＋分割尤度＋発話行為と概念の組み合わせ尤度）、加
算値を文意尤度とし、ステップＳ８５においてアークＧ
Ａの元ノードＮ’が保持する全ての文意仮説を取り出し
たか否かが判断され、次いで、ステップＳ８６において
ノードＮに入射する全ての単語グラフのアークを取り出
したか否かが判断される。ステップＳ８５及びＳ８６で
ともにＹＥＳのときはステップＳ８７に進む一方、ステ
ップＳ８５でＮＯのときは図１５のステップＳ７４に戻
り、ステップＳ８６でＮＯのときは図１５のステップＳ
７３に戻る。

【０１３１】図１６のステップＳ８７において生成した
ノードＮに対する仮説Ｈのうち、文意尤度の高いｎ個の
みをノードＮに保持させ、ステップＳ８８において単語
グラフ上の全てのノードに対して、文意仮説を生成した
か否かが判断される。ステップＳ８８でＮＯのときはさ
らに処理を行うために、図１５のステップＳ７１に戻る
一方、ＹＥＳのときはステップＳ８９に進む。ステップ
Ｓ８９において単語グラフの終端ノードに対する全ての
仮説Ｈに対して、組み合わせ概念バイグラムを用いて、
文意尤度の計算式２（数９乃至数１２）による文意尤度
を再計算し、結果最尤の文意仮説を求めて出力して当該
文意探索処理を終了する。

【０１３２】そして、発話分割及び発話行為と組み合わ
せ概念決定部２３は、文意探索後のＮ−ｂｅｓｔの文意
仮説に対して、組み合わせ概念バイグラムメモリ３９内
の組み合わせ概念バイグラムを用いて再順序付けを行っ
て最終的な概念の系列を決定して出力する。

【０１３３】図１７は、図１５のサブルーチンである発
話分割用決定木のトレース処理を示すフローチャートで
ある。

【０１３４】図１７のステップＳ９１においてノードポ
インタを決定木のルートノードに置き、ステップＳ９２
においてノードポインタが指すノードＮはリーフか否か
が判断され、ＹＥＳのときはステップＳ９７に進む一
方、ＮＯのときはステップＳ９３に進む。ステップＳ９
３においてノードＮが保持する単語境界の特徴ｆを、入
力単語列に対してテストする。すなわち、入力単語列が
単語境界の特徴ｆを有するか否かをテストする。ステッ
プＳ９４においてテストに合致したか否かが判断され、
ＹＥＳのときはステップＳ９６においてノードポインタ
を、ノードＮのｙｅｓアークの下の子ノードに移してス
テップＳ９２に戻る一方、ステップＳ９４でＮＯである
ときは、ステップＳ９５においてノードポインタを、ノ
ードＮのｎｏアークの下の子ノードに移してステップＳ
９２に戻る。そして、ステップＳ９２のＮＯから分岐し
たステップＳ９７では、到達したリーフノードが保持す
る事例集合Ｓの事例数｜Ｓ｜と、事例集合Ｓの中で正し
い分割位置を表す事例Ｓ_Tの事例数｜Ｓ_T｜とから、当該
単語境界が分割位置である確率Ｐｒ＝｜Ｓ_T｜／｜Ｓ｜
を計算して、元のメインルーチンに戻る。

【０１３５】図１８は、図１の引数決定部２４によって
実行される引数決定処理を示すフローチャートである。
まず、図１８のステップＳ１０１において発話行為と組
み合わせ概念決定部２３によって決定された発話行為と
組み合わせ概念を、引数名メモリ３６を参照して、使用
可能な引数名を内部メモリに列挙する。次いで、ステッ
プＳ１０２において列挙した各引数名について、その引
数名の引数値に対応する部分文解析規則を引数値生成規
則メモリ３６から読み込む。さらに、ステップＳ１０３
において引数値生成規則メモリ３６内の部分文解析規則
を用いて、入力文中の任意の連続した部分単語例を構文
解析して、構文解析結果を自然言語生成部２５に出力し
て、当該引数決定処理を終了する。ここで、構文解析
は、具体的には、引数値生成規則メモリに格納される部
分文解析規則を用いて、公知のチャート法（例えば、従
来技術文献９「M.Kay,“Algorithm Schemata and Data
Structures in Syntactic Processing”,Technical Rep
ort CSL-80-12,Xerox Parc,1980年10月」参照。）等に
より、最上位の非終端記号から、部分文を構成する終端
記号列が生成される過程で適用された規則、及び、その
適用順序を調べることである。

【０１３６】図１９は、図１の自然言語生成部２５によ
って実行される自然言語生成処理を示すフローチャート
である。まず、図１９のステップＳ１１１において決定
された発話行為と概念の組み合わせに基づいて、文テン
プレートメモリ３７から対応する文テンプレートを取り
出す。次いで、ステップＳ１１２において部分文生成規
則メモリ３８から、中間言語表記中に与えられた引数名
の単語列に対応する引数値解析規則を取り出し、ステッ
プＳ１１３において部分文生成規則メモリ３８内の引数
解析規則を用いて引数値の単語列の構文解析を行う。こ
こで、構文解析は、具体的には、部分文生成規則メモリ
に格納される引数値解析規則を用いて、公知のチャート
法（例えば、従来技術文献６参照。）等により、最上位
の非終端記号から、引数値を構成する終端記号列が生成
される過程で適用された規則、及び、その適用順序を調
べることである。さらに、ステップＳ１１４において部
分文を文テンプレートに埋め込んで出力文を生成してプ
リンタ２６及びＣＲＴディスプレイ２７に出力する。

【０１３７】図１において、決定木生成処理部２１、中
間言語生成部２２、自然言語生成部２５、組み合わせ概
念バイグラム生成処理部２８及びＦＳＡ変換部２９は例
えばデジタル計算機で構成され、学習データメモリ３１
と、単語辞書メモリ３２と、発話行為と組み合わせ概念
メモリ３３と、決定木メモリ３４ａ，３４ｂと、引数名
メモリ３５と、引数値生成規則メモリ３６と、文テンプ
レートメモリ３７と、部分文生成規則メモリ３８と、組
み合わせ概念バイグラムメモリ３９と、ＦＳＡメモリ４
０と、待ち行列メモリ４１と、分割待ち行列メモリ４２
と、待ち行列メモリ４３と、事例データメモリ４４とは
例えばハードディスクメモリなどの記憶装置で構成され
る。

【０１３８】以上の実施形態において、中間言語生成部
２２の前段には、音声認識装置１０を接続しているが、
本発明はこれに限らず、キーボードなどの入力手段を接
続して、自然発話のテキストデータを中間言語生成部２
２に入力するように構成してもよい。また、以上の実施
形態において、中間言語生成部２２の後段には、自然言
語生成部２５を接続しているが、本発明はこれに限ら
ず、データベースメモリを備えたコマンド実行処理部を
備えてもよい。コマンド実行処理部は、中間言語生成部
２２から出力される検索条件を指示するコマンドを含む
中間言語表現に基づいて、例えば対話システムに用いる
データベースをアクセスして、上記検索条件を満たすデ
ータを検索して、検索結果を出力するとともに、検索結
果に対応した処理を実行する。ここで、検索結果に対応
した処理とは、例えば、音声合成の出力、プリンタへの
印字出力、ＣＲＴディスプレイへの表示などである。

【０１３９】図２に本実施形態で用いる連続音声認識装
置１０のブロック図を示す。本実施形態の連続音声認識
装置１０は、公知のワン−パス・ビタビ復号化法を用い
て、入力される発声音声文の音声信号の特徴パラメータ
に基づいて上記発声音声文の単語仮説を検出し尤度を計
算して出力する単語照合部４を備えた連続音声認識装置
において、単語照合部４からバッファメモリ５を介して
出力される、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、生成した単語グラフを参照し
て、当該単語の先頭音素環境毎に、発声開始時刻から当
該単語の終了時刻に至る計算された総尤度のうちの最も
高い尤度を有する１つの単語仮説で代表させるように単
語仮説の絞り込みを行う単語仮説絞込部６を備える。

【０１４０】図２において、単語照合部４に接続され、
例えばハードディスクメモリである音素ＨＭＭメモリ１
１内の音素ＨＭＭは、各状態を含んで表され、各状態は
それぞれ以下の情報を有する。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率なお、本実施形態において用いる音素ＨＭＭは、各分布
がどの話者に由来するかを特定する必要があるため、所
定の話者混合ＨＭＭを変換して生成する。ここで、出力
確率密度関数は３４次元の対角共分散行列をもつ混合ガ
ウス分布である。

【０１４１】また、単語照合部４に接続され、例えばハ
ードディスクメモリである単語辞書メモリ１２内の単語
辞書は、音素ＨＭＭの各単語毎にシンボルで表した読み
を示すシンボル列を格納する。

【０１４２】図２において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して単語照合部４に入力される。
単語照合部４は、ワン−パス・ビタビ復号化法を用い
て、バッファメモリ３を介して入力される特徴パラメー
タのデータに基づいて、音素ＨＭＭと単語辞書とを用い
て単語仮説を検出し尤度を計算して出力する。ここで、
単語照合部４は、各時刻の各ＨＭＭの状態毎に、単語内
の尤度と発声開始からの尤度を計算する。尤度は、単語
の識別番号、単語の開始時刻、先行単語の違い毎に個別
にもつ。また、計算処理量の削減のために、音素ＨＭＭ
及び単語辞書とに基づいて計算される総尤度のうちの低
い尤度のグリッド仮説を削減する。単語照合部４は、そ
の結果の単語仮説と尤度の情報を発声開始時刻からの時
間情報（具体的には、例えばフレーム番号）とともにバ
ッファメモリ５を介して単語仮説絞込部６に出力する。

【０１４３】単語仮説絞込部６は、単語照合部４からバ
ッファメモリ５を介して出力される単語仮説に基づい
て、単語グラフ上で、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された総尤度のうちの最も高い尤度を有する１つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総尤度を有する仮説の単語列を認識結果として、
バッファメモリ２４を介して自然発話音声理解装置３０
内の中間言語生成部２２に出力し、上述の自然発話音声
理解装置３０の処理が実行される。本実施形態において
は、好ましくは、処理すべき当該単語の先頭音素環境と
は、当該単語より先行する単語仮説の最終音素と、当該
単語の単語仮説の最初の２つの音素とを含む３つの音素
並びをいう。

【０１４４】例えば、図３に示すように、（ｉ−１）番
目の単語Ｗ_i-1の次に、音素列ａ₁，ａ₂，…，ａ_nからな
るｉ番目の単語Ｗ_iがくるときに、単語Ｗ_i-1の単語仮説
として６つの仮説Ｗａ，Ｗｂ，Ｗｃ，Ｗｄ，Ｗｅ，Ｗｆ
が存在している。ここで、前者３つの単語仮説Ｗａ，Ｗ
ｂ，Ｗｃの最終音素は／ｘ／であるとし、後者３つの単
語仮説Ｗｄ，Ｗｅ，Ｗｆの最終音素は／ｙ／であるとす
る。終了時刻ｔ_eと先頭音素環境が等しい仮説（図３で
は先頭音素環境が“ｘ／ａ₁／ａ₂”である上から３つの
単語仮説）のうち総尤度が最も高い仮説（例えば、図３
において１番上の仮説）以外を削除する。なお、上から
４番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がｘではなくｙであるので、
上から４番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に１つのみ仮説を残す。図２の例
では、最終音素／ｘ／に対して１つの仮説を残し、最終
音素／ｙ／に対して１つの仮説を残す。

【０１４５】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の２つの音素とを含
む３つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも１つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。

【０１４６】図２において、特徴抽出部２と、単語照合
部４と、単語仮説絞込部６と、言語モデル生成部２０と
は、例えば、デジタル電子計算機で構成され、バッファ
メモリ３，５は例えばハードデイスクメモリなどの記憶
装置で構成され、音素ＨＭＭメモリ１１と単語辞書メモ
リ１２とは、例えばハードデイスクメモリなどの記憶装
置で構成される。

【０１４７】以上実施形態においては、単語照合部４と
単語仮説絞込部６とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素ＨＭＭを参照する
音素照合部と、例えばＯｎｅＰａｓｓＤＰアルゴリ
ズムを用いて統計的言語モデルを参照して単語の音声認
識を行う音声認識部とで構成してもよい。

【０１４８】

【実施例】本発明者は、本実施形態の自然発話音声理解
システムを用いて音声理解実験を行った。また、比較用
に、認識最尤単語列に対する理解精度を調べた。

【０１４９】表１９に、音声理解実験に用いたデータの
詳細を示す。本特許出願人が所有する自然発話旅行会話
データベース（例えば、従来技術文献１０「T.Morimoto
etal.,”A speech and language database for speech
translation research”,ICSLP,pp.1791-1794,1994
年」参照。）中の２９０会話に対して人手で中間言語表
現を付与し、２７５会話を学習データとして発話分割モ
デル、概念モデル、概念−２ｇｒａｍの生成に用いた。
残り１５会話を評価データとして用い、事前に音声認識
（従来技術文献７の音声認識装置を用いた。）を行うこ
とで、単語グラフを生成した。これら１５会話の単語認
識率（以下、全て所定のアキュラシー（正解率）のみ示
す。）は、１位候補で８０．７％、単語グラフの最良パ
スで９０．５％である。また、文認識率は、１位候補３
８．８％、単語グラフ５６．５％である。なお、理解対
象である概念（表１９の最下段）に関して、評価データ
の組み合わせ４３種類は学習データ中の１４５種類に対
してクローズドであったが、実験では定義リスト中の６
０７種類（７７８定義中、クローズドな要素のみで構成
されるもの）から同定した。

【０１５０】

【表１９】音声理解実験データ ―――――――――――――――――――――――――――――――――― 学習評価合計 ―――――――――――――――――――――――――――――――――― 会話２７５１５２９０発話６，８２７２０９７，０３６意味単位１２，０７９３４０１２，４１９語彙２，１６９４４０２，１８８概念（組み合わせ概念）１４５４３１４５ ――――――――――――――――――――――――――――――――――

【０１５１】次いで、実験結果について説明する。表２
０に実験結果を示す。表中、発話理解率は概念の系列が
全て正しく同定された発話の割合を示している。提案手
法では、認識最尤仮説からの理解と比較して、意味単
位、発話、共に高い理解率を得ることができた。提案手
法により認識最尤仮説と異なる単語列が生成された発話
は全２０９発話中５１発話であり、この５１発話の意味
単位理解率（Ａｃｃ）は４５％→６２％と大きく向上し
た（誤り改善率３１％）。残りの１５８発話について
は、理解率、認識率、共に変化無かったが、両手法とも
比較的高い精度が得られていた（意味単位理解率（Ａｃ
ｃ）＝８１．８％）。

【０１５２】

【表２０】単語グラフ探索による提案手法の効果 ―――――――――――――――――――――――――――――――――― 理解率（％）意味単位（Ａｃｃ／％Ｃｒｒ）発話 ―――――――――――――――――――――――――――――――――― 本実施形態７７．１／７８．８６７．５認識１−ｂｅｓｔ７２．９／７６．８６３．６正解単語列入力時８５．６／８６．８７９．９ ―――――――――――――――――――――――――――――――――― （注）認識１−ｂｅｓｔは第２の従来例に対応する。

【０１５３】＜変形例＞以上の実施形態の発話分割及び
発話行為と組み合わせ概念決定部２３の処理において
は、図２１に示すように、第２のパスにおいて、音声認
識装置１０から入力される単語グラフに対して、発話分
割モデルと概念モデルを用いて文意探索した後、概念の
バイグラムを用いて再順序付けしているが、本発明はこ
れに限らず、第２と第３のパスを分けずに、音声認識装
置１０から入力される単語グラフに対して、発話分割モ
デルと概念モデルと概念のバイグラムを用いて文意探索
及び再順序付けを一括して実行してもよい。

【０１５４】以上説明したように、本実施形態の装置に
よれば、以下の効果を有する。（１）単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
２の従来例に比較して高い理解率を実現することができ
る。すなわち、第２の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。（２）言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。（３）言語解析知識として、ＦＳＡモデル（Ｌｅｆｔ−
ｔｏ−Ｒｉｇｈｔモデル）を用いることで、単語グラフ
の探索を効率的に行うことができる。

【０１５５】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声理解装置によれば、自然発話文に含まれる
発話行為に依存する制約と、自然発話文に含まれる意味
的な概念の間での組み合わせに依存する制約とを記憶す
る第１の記憶装置と、自然発話文の単語列のテキストデ
ータからなる学習データに基づいて、上記第１の記憶装
置に格納された制約を参照して、自然発話文の特徴とし
て単語や同義語の有無の情報を用いて、自然発話文に含
まれる意味的な複数の概念及び概念の組み合わせがそれ
ぞれ存在するか否かを決定するための第１の決定木と、
発話行為がいずれであるかを決定するための第２の決定
木とをそれぞれ多分木形式で生成する第１の生成手段
と、上記第１の生成手段によって生成された第１と第２
の決定木をそれぞれ第１と第２の有限状態オートマトン
に変換する変換手段と、上記学習データに基づいて、自
然発話文を単文相当の意味単位に分割するか否かを決定
するための第３の決定木を多分木形式で生成する第２の
生成手段と、上記学習データに基づいて、上記第１の記
憶装置に格納された制約を参照して、自然発話文に含ま
れる意味的な複数の概念及び概念の組み合わせのバイグ
ラムの統計値を計数してその計数値をバイグラムモデル
として生成する第３の生成手段と、入力される自然発話
文の音声認識結果の単語グラフを、上記第２の生成手段
によって生成された第３の決定木を用いて単文相当の意
味単位に分割するとともに、上記変換手段によって変換
された第１と第２の有限状態オートマトンと、上記第３
の生成手段によって生成された複数の概念及び概念の組
み合わせのバイグラムモデルとを用いて、上記入力され
る自然発話文の音声認識結果の単語グラフにおける自然
発話文を、発話行為、概念又は概念の組み合わせの系列
に変換して出力する第１の決定手段と、発話行為と、複
数の概念及び概念の組み合わせとに対応する複数の引数
名を記憶する第２の記憶装置と、自然発話文における部
分文を解析するための部分文解析規則とそれから生成さ
れる引数値とを記憶する第３の記憶装置と、上記第１の
決定手段から出力される発話行為、概念又は概念の組み
合わせの系列に基づいて、上記第２の記憶装置に記憶さ
れた引数名を列挙し、列挙した引数名に対応する上記第
３の記憶装置内の部分文解析規則を用いて構文解析し
て、使用した部分文解析規則の対応する引数値を並べる
ことにより、上記入力される自然発話文に対応する引数
値を中間言語表現で出力する第２の決定手段とを備え
る。従って、本発明によれば、以下の効果を有する。（１）単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
２の従来例に比較して高い理解率を実現することができ
る。すなわち、第２の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。（２）言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。（３）言語解析知識として、ＦＳＡモデル（Ｌｅｆｔ−
ｔｏ−Ｒｉｇｈｔモデル）を用いることで、単語グラフ
の探索を効率的に行うことができる。

【０１５６】また、請求項２記載の音声理解装置によれ
ば、請求項１記載の音声理解装置において、上記第１の
決定手段は、入力される自然発話文の音声認識結果の単
語グラフを、上記第２の生成手段によって生成された第
３の決定木を用いて単文相当の意味単位に分割するとと
もに、上記変換手段によって変換された第１と第２の有
限状態オートマトンを用いて、上記入力される自然発話
文の音声認識結果の単語グラフにおける自然発話文を、
発話行為、概念又は概念の組み合わせの系列の複数の候
補に変換した後、上記第３の生成手段によって生成され
た複数の概念及び概念の組み合わせのバイグラムモデル
とを用いて、上記系列の複数の候補を再順序付けするこ
とにより、発話行為、概念又は概念の組み合わせの系列
を生成して出力する。従って、本発明によれば、以下の
効果を有する。（１）単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
２の従来例に比較して高い理解率を実現することができ
る。すなわち、第２の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。（２）言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。（３）言語解析知識として、ＦＳＡモデル（Ｌｅｆｔ−
ｔｏ−Ｒｉｇｈｔモデル）を用いることで、単語グラフ
の探索を効率的に行うことができる。

【０１５７】さらに、請求項３記載の音声理解装置によ
れば、請求項１記載の音声理解装置において、上記第１
の決定手段は、入力される自然発話文の音声認識結果の
単語グラフを、上記第２の生成手段によって生成された
第３の決定木を用いて単文相当の意味単位に分割し、上
記変換手段によって変換された第１と第２の有限状態オ
ートマトンと、上記第３の生成手段によって生成された
複数の概念及び概念の組み合わせのバイグラムモデルと
を用いて、上記入力される自然発話文の音声認識結果の
単語グラフにおける自然発話文を、発話行為、概念又は
概念の組み合わせの系列に一括して変換して出力する。
従って、本発明によれば、以下の効果を有する。（１）単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
２の従来例に比較して高い理解率を実現することができ
る。すなわち、第２の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。（２）言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。（３）言語解析知識として、ＦＳＡモデル（Ｌｅｆｔ−
ｔｏ−Ｒｉｇｈｔモデル）を用いることで、単語グラフ
の探索を効率的に行うことができる。

【０１５８】本発明に係る請求項４記載の音声理解シス
テムによれば、請求項１乃至３のうちの１つに記載の音
声理解装置と、自然発話の発声音声を音声認識して、音
声認識結果の単語グラフデータを上記音声理解装置に出
力する音声認識手段とを備える。従って、本発明によれ
ば、以下の効果を有する。（１）単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
２の従来例に比較して高い理解率を実現することができ
る。すなわち、第２の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、自然発話の発声音声を
音声認識して、その内容を高精度で理解できる。（２）言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。（３）言語解析知識として、ＦＳＡモデル（Ｌｅｆｔ−
ｔｏ−Ｒｉｇｈｔモデル）を用いることで、単語グラフ
の探索を効率的に行うことができる。

【０１５９】また、本発明に係る請求項５記載の音声理
解システムによれば、請求項１乃至３のうちの１つに記
載の音声理解装置と、上記第２の決定手段から出力され
る上記入力される自然発話文に対応する中間言語表現の
引数値に基づいて、上記入力される自然発話文を別の言
語に翻訳して翻訳結果を出力する翻訳手段とを備える。
従って、本発明によれば、以下の効果を有する。（１）単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
２の従来例に比較して高い理解率を実現することができ
る。すなわち、第２の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、音声理解装置からの中
間言語表現に基づいて別の言語に高精度で翻訳できる。（２）言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。（３）言語解析知識として、ＦＳＡモデル（Ｌｅｆｔ−
ｔｏ−Ｒｉｇｈｔモデル）を用いることで、単語グラフ
の探索を効率的に行うことができる。

【０１６０】さらに、本発明に係る請求項６記載の音声
理解システムによれば、請求項４記載の音声理解システ
ムにおいて、上記第２の決定手段から出力される上記入
力される自然発話文に対応する中間言語表現の引数値に
基づいて、上記入力される自然発話文を別の言語に翻訳
して翻訳結果を出力する翻訳手段をさらに備える。従っ
て、本発明によれば、以下の効果を有する。（１）単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
２の従来例に比較して高い理解率を実現することができ
る。すなわち、第２の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、自然発話の発声音声を
音声認識して、音声理解装置からの中間言語表現に基づ
いて別の言語に高精度で翻訳できる。（２）言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。（３）言語解析知識として、ＦＳＡモデル（Ｌｅｆｔ−
ｔｏ−Ｒｉｇｈｔモデル）を用いることで、単語グラフ
の探索を効率的に行うことができる。

【０１６１】また、本発明に係る請求項７記載の音声理
解システムによれば、請求項１乃至３のうちの１つに記
載の音声理解装置と、上記第２の決定手段から出力され
る上記入力される自然発話文に対応する中間言語表現の
引数値に応答して、上記中間言語表現に含まれる検索条
件に基づいて、所定のデータベースを検索して、上記検
索条件を満たすデータを獲得し、そのデータを出力する
とともに、そのデータに対応する処理を実行する実行手
段とを備える。従って、本発明によれば、以下の効果を
有する。（１）単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
２の従来例に比較して高い理解率を実現することができ
る。すなわち、第２の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、音声理解装置からの中
間言語表現に基づいてデータベースを高精度で検索して
対応する処理を実行することができる。（２）言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。（３）言語解析知識として、ＦＳＡモデル（Ｌｅｆｔ−
ｔｏ−Ｒｉｇｈｔモデル）を用いることで、単語グラフ
の探索を効率的に行うことができる。

【０１６２】さらに、請求項８記載の音声理解システム
によれば、請求項４記載の音声理解システムにおいて、
上記第２の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に応答して、上
記中間言語表現に含まれる検索条件に基づいて、所定の
データベースを検索して、上記検索条件を満たすデータ
を獲得し、そのデータを出力するとともに、そのデータ
に対応する処理を実行する実行手段をさらに備える。従
って、本発明によれば、以下の効果を有する。（１）単語グラフの探索を言語処理部で行うことで、認
識単語列として意味的にも正しいものを生成することが
できる。そのため、特に自由度の高い発話に対して、第
２の従来例に比較して高い理解率を実現することができ
る。すなわち、第２の従来例に比較してより正確に音声
理解を行うことができる、適切な中間言語表現に変換し
て出力することができる。また、自然発話の発声音声を
音声認識して、音声理解装置からの中間言語表現に基づ
いてデータベースを高精度で検索して対応する処理を実
行することができる。（２）言語解析知識として、統計的な理解モデルを利用
することにより、確率的音声認識に対して親和性の高い
意味制約を生成することができる。（３）言語解析知識として、ＦＳＡモデル（Ｌｅｆｔ−
ｔｏ−Ｒｉｇｈｔモデル）を用いることで、単語グラフ
の探索を効率的に行うことができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である自然発話音声
理解装置３０を備えた自然発話音声理解システムの構成
を示すブロック図である。

【図２】図１の音声認識装置１０の構成を示すブロッ
ク図である。

【図３】図２の音声認識装置１０における単語仮説絞
込部６の処理を示すタイミングチャートである。

【図４】図２の音声認識装置１０の音声認識結果であ
る単語グラフの一例を示す図である。

【図５】図１の決定木生成処理部２１によって生成さ
れた発話分割用決定木の一例を示す図である。

【図６】図１の決定木生成処理部２１によって生成さ
れた概念推定用決定木の一例を示す図である。

【図７】図１の決定木生成処理部２１によって生成さ
れた概念推定用決定木又は発話行為推定用決定木である
意味項目推定用決定木の一例を示す図である。

【図８】図７の意味項目推定用決定木から図１のＦＳ
Ａ変換部２９によって変換された意味項目推定用ＦＳＡ
の一例を示す図である。

【図９】図１の決定木生成処理部２１によって実行さ
れる概念推定用決定木と発話行為推定用決定木のための
決定木生成処理の第１の部分を示すフローチャートであ
る。

【図１０】図１の決定木生成処理部２１によって実行
される概念推定用決定木と発話行為推定用決定木のため
の決定木生成処理の第２の部分を示すフローチャートで
ある。

【図１１】図１のＦＳＡ変換部２９によって実行され
るＦＳＡ変換処理を示すフローチャートである。

【図１２】図１１のサブルーチンＡ処理を示すフロー
チャートである。

【図１３】図１の決定木生成処理部２１によって実行
される発話分割用決定木のための決定木生成処理の第１
の部分を示すフローチャートである。

【図１４】図１の決定木生成処理部２１によって実行
される発話分割用決定木のための決定木生成処理の第２
の部分を示すフローチャートである。

【図１５】図１の発話分割及び発話行為と組み合わせ
概念決定部２３によって実行される単語グラフからの文
意探索処理の第１の部分を示すフローチャートである。

【図１６】図１の発話分割及び発話行為と組み合わせ
概念決定部２３によって実行される単語グラフからの文
意探索処理の第２の部分を示すフローチャートである。

【図１７】図１５のサブルーチンである発話分割用決
定木のトレース処理を示すフローチャートである。

【図１８】図１の引数決定部２４によって実行される
引数決定処理を示すフローチャートである。

【図１９】図１の自然言語生成部２５によって実行さ
れる自然言語生成処理を示すフローチャートである。

【図２０】本発明に係る実施形態における中間言語表
現による概念と発話分割の例を示す説明図である。

【図２１】本発明に係る実施形態の自然発話音声理解
システムの概要を示すブロック図である。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３，５…バッファメモリ、４…単語照合部、６…単語仮説絞込部、１１…音素ＨＭＭメモリ、１２…単語辞書メモリ、２０…自然発話音声理解システム、２１…決定木生成処理部、２２…中間言語生成部、２３…発話分割及び発話行為と組み合わせ概念決定部、２４…引数決定部、２５…自然言語生成部、２６…プリンタ、２７…ＣＲＴディスプレイ、２８…組み合わせ概念バイグラム生成処理部、２９…ＦＳＡ変換部、３０…自然発話音声理解装置、３１…学習データメモリ、３２…単語辞書メモリ、３３…発話行為と組み合わせ概念メモリ、３４ａ，３４ｂ…決定木メモリ、３５…引数名メモリ、３６…引数値生成規則メモリ、３７…文テンプレートメモリ、３８…部分文生成規則メモリ、３９…組み合わせ概念バイグラムメモリ、４０…ＦＳＡメモリ、４１…待ち行列メモリ、４２…分割待ち行列メモリ、４３…待ち行列メモリ、４４…事例データメモリ。

フロントページの続き (56)参考文献特開平11−259089（ＪＰ，Ａ) 政瀧浩和、他２名、“統計処理による入力文から中間表現への変換を用いた音声言語理解”、電子情報通信学会論文誌Ｄ−２、平成11年２月25日、Ｊ82−Ｄ− ２、Ｎｏ．２、ｐ．169−177 (58)調査した分野(Int.Cl.⁷，ＤＢ名) C06F 17/27 C06F 17/30 G10L 3/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】自然発話文に含まれる発話行為に依存す
る制約と、自然発話文に含まれる意味的な概念の間での
組み合わせに依存する制約とを記憶する第１の記憶装置
と、自然発話文の単語列のテキストデータからなる学習デー
タに基づいて、上記第１の記憶装置に格納された制約を
参照して、自然発話文の特徴として単語や同義語の有無
の情報を用いて、自然発話文に含まれる意味的な複数の
概念及び概念の組み合わせがそれぞれ存在するか否かを
決定するための第１の決定木と、発話行為がいずれであ
るかを決定するための第２の決定木とをそれぞれ多分木
形式で生成する第１の生成手段と、上記第１の生成手段によって生成された第１と第２の決
定木をそれぞれ第１と第２の有限状態オートマトンに変
換する変換手段と、上記学習データに基づいて、自然発話文を単文相当の意
味単位に分割するか否かを決定するための第３の決定木
を多分木形式で生成する第２の生成手段と、上記学習データに基づいて、上記第１の記憶装置に格納
された制約を参照して、自然発話文に含まれる意味的な
複数の概念及び概念の組み合わせのバイグラムの統計値
を計数してその計数値をバイグラムモデルとして生成す
る第３の生成手段と、入力される自然発話文の音声認識結果の単語グラフを、
上記第２の生成手段によって生成された第３の決定木を
用いて単文相当の意味単位に分割するとともに、上記変
換手段によって変換された第１と第２の有限状態オート
マトンと、上記第３の生成手段によって生成された複数
の概念及び概念の組み合わせのバイグラムモデルとを用
いて、上記入力される自然発話文の音声認識結果の単語
グラフにおける自然発話文を、発話行為、概念又は概念
の組み合わせの系列に変換して出力する第１の決定手段
と、発話行為と、複数の概念及び概念の組み合わせとに対応
する複数の引数名を記憶する第２の記憶装置と、自然発話文における部分文を解析するための部分文解析
規則とそれから生成される引数値とを記憶する第３の記
憶装置と、上記第１の決定手段から出力される発話行為、概念又は
概念の組み合わせの系列に基づいて、上記第２の記憶装
置に記憶された引数名を列挙し、列挙した引数名に対応
する上記第３の記憶装置内の部分文解析規則を用いて構
文解析して、使用した部分文解析規則の対応する引数値
を並べることにより、上記入力される自然発話文に対応
する引数値を中間言語表現で出力する第２の決定手段と
を備えたことを特徴とする音声理解装置。
【請求項２】請求項１記載の音声理解装置において、
上記第１の決定手段は、入力される自然発話文の音声認
識結果の単語グラフを、上記第２の生成手段によって生
成された第３の決定木を用いて単文相当の意味単位に分
割するとともに、上記変換手段によって変換された第１
と第２の有限状態オートマトンを用いて、上記入力され
る自然発話文の音声認識結果の単語グラフにおける自然
発話文を、発話行為、概念又は概念の組み合わせの系列
の複数の候補に変換した後、上記第３の生成手段によっ
て生成された複数の概念及び概念の組み合わせのバイグ
ラムモデルとを用いて、上記系列の複数の候補を再順序
付けすることにより、発話行為、概念又は概念の組み合
わせの系列を生成して出力することを特徴とする音声理
解装置。
【請求項３】請求項１記載の音声理解装置において、
上記第１の決定手段は、入力される自然発話文の音声認
識結果の単語グラフを、上記第２の生成手段によって生
成された第３の決定木を用いて単文相当の意味単位に分
割し、上記変換手段によって変換された第１と第２の有
限状態オートマトンと、上記第３の生成手段によって生
成された複数の概念及び概念の組み合わせのバイグラム
モデルとを用いて、上記入力される自然発話文の音声認
識結果の単語グラフにおける自然発話文を、発話行為、
概念又は概念の組み合わせの系列に一括して変換して出
力することを特徴とする音声理解装置。
【請求項４】請求項１乃至３のうちの１つに記載の音
声理解装置と、自然発話の発声音声を音声認識して、音声認識結果の単
語グラフデータを上記音声理解装置に出力する音声認識
手段とを備えたことを特徴とする音声理解システム。
【請求項５】請求項１乃至３のうちの１つに記載の音
声理解装置と、上記第２の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に基づいて、上
記入力される自然発話文を別の言語に翻訳して翻訳結果
を出力する翻訳手段とを備えたことを特徴とする音声理
解システム。
【請求項６】請求項４記載の音声理解システムにおい
て、上記第２の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に基づいて、上
記入力される自然発話文を別の言語に翻訳して翻訳結果
を出力する翻訳手段をさらに備えたことを特徴とする音
声理解システム。
【請求項７】請求項１乃至３のうちの１つに記載の音
声理解装置と、上記第２の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に応答して、上
記中間言語表現に含まれる検索条件に基づいて、所定の
データベースを検索して、上記検索条件を満たすデータ
を獲得し、そのデータを出力するとともに、そのデータ
に対応する処理を実行する実行手段とを備えたことを特
徴とする音声理解システム。
【請求項８】請求項４記載の音声理解システムにおい
て、上記第２の決定手段から出力される上記入力される自然
発話文に対応する中間言語表現の引数値に応答して、上
記中間言語表現に含まれる検索条件に基づいて、所定の
データベースを検索して、上記検索条件を満たすデータ
を獲得し、そのデータを出力するとともに、そのデータ
に対応する処理を実行する実行手段をさらに備えたこと
を特徴とする音声理解システム。