JPH11143493A

JPH11143493A - 音声言語理解装置及び音声言語理解システム

Info

Publication number: JPH11143493A
Application number: JP9303075A
Authority: JP
Inventors: Hirokazu Masataki; 浩和政瀧
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1997-11-05
Filing date: 1997-11-05
Publication date: 1999-05-28
Anticipated expiration: 2017-11-05
Also published as: JP3088364B2

Abstract

(57)【要約】【課題】従来技術に比較して頑健にかつ正確に音声理
解を行うことができ、適切に応答する処理を実行するこ
とができる音声言語理解装置及び、音声言語理解システ
ムを提供する。【解決手段】ＭＣＥ学習処理部３０は学習データに基
づいて識別誤りが最小となるように文章データをそれに
対応する中間言語に変換するための隠れマルコフモデル
を学習する。中間言語生成部２１は、文章データをそれ
に対応する中間言語に変換するための隠れマルコフモデ
ルを用いて、音声認識されかつ検索条件を含む音声認識
結果の音声文を中間言語に変換して生成する。コマンド
実行部２２は、生成された中間言語を、データベースに
対応した所定のデータベース言語に変換した後、データ
ベース言語に含まれる検索条件に基づいて、データベー
スを検索して、検索条件を満たすデータを獲得し、その
データについて中間言語に対応した応答する処理を実行
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、発声音声から音声
認識装置によって音声認識された音声認識結果の音声文
に基づいて、音声文の意味する検索条件の内容を理解し
て、データベースを参照して応答する処理を実行するた
めの音声言語理解装置、並びに、音声認識装置及び音声
言語理解装置とを備えた音声言語理解システムに関す
る。

【０００２】

【従来の技術及び発明が解決しようとする課題】近年、
隠れマルコフモデルを用いた音響モデル、及びＮ−ｇｒ
ａｍを用いた言語モデルを用いた連続音声認識が盛んに
研究されており、数万語彙の認識でも、単語認識率が９
０％以上とかなり実用レベルに近くなっている。しかし
ながら、音声認識技術を用いたアプリケーションを考え
た場合、読み上げた文章をそのまま出力するディクテー
ションシステムを除くと、旅客機案内システム、電話番
号案内システム、音声翻訳システム等、音声認識結果を
理解し、ユーザーに情報を提供するいわゆる「音声理解
システム」の方が応用分野が広いと考えられる（例え
ば、従来技術文献１「坂井信輔ほか，“音声入力を用い
たパソコンネットワーク旅客機空席案内システムの試
作”，電子情報通信学会技術報告，ＳＰ９４−８９，ｐ
ｐ．２９−３６，１９９５年１月」参照。）。

【０００３】現在、音声理解システムのための言語理解
の技術は、発話の内容を構文で限定したものや文法理論
を用いたもの（例えば、従来技術文献２「Ｓ．Ｓｅｎｅ
ｆｆ，“ＴＩＮＡ：ＡＮａｔｕｒａｌＬａｎｇｕａ
ｇｅＳｙｓｔｅｍｆｏｒＳｐｏｋｅｎＬａｎｇｕ
ａｇｅＡｐｐｌｉｃａｔｉｏｎｓ”，Ｃｏｍｐｕｔａ
ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｖｏｌ．１
８，Ｎｏ．１，１９９２年３月」参照。）が主流であ
る。発話内容を構文で限定する手法は、理解率は高いと
考えられるが、計算機が受理できる発話内容をユーザー
が事前に知っていなければならず、ユーザーへの負担が
大きく、使いやすいシステムとは言えない。

【０００４】また、文法理論を用いた方法は、構文によ
る手法よりは、発話内容の自由度が高いが、文法的に正
しい文章でないと、理解できないという問題がある。し
かしながら、音声認識で広く使われているＮ−ｇｒａｍ
言語モデルは、認識率の観点からは非常に有利とされて
いるが、直前の（Ｎ−１）単語から次の単語への接続を
確率で表現するという極めて単純なモデルであるため、
局所的な制約しか表現できず、文全体として必ずしも文
法的に正しい文章を出力するとは限らない。従って、認
識結果に誤りが含まれる場合、正しく言語理解を行うの
は困難であると考えられる。また、実際のシステムの使
用時には、ユーザーが文法的に正しい文章を発声すると
は限らず、自然発話を理解するのは困難である。

【０００５】この問題を解決するため、認識結果文を言
語理解部が受理できる部分に分割する手法等（例えば、
従来技術文献３「Ｙ．Ｗａｋｉｔａｅｔａｌ．，
“Ｃｏｒｒｅｃｔｐａｒｔｓｅｘｔｒａｃｔｉｏｎ
ｆｒｏｍｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ
ｒｅｓｕｌｔｓｕｓｉｎｇｓｅｍａｎｔｉｃｄｉ
ｓｔａｎｃｅｃａｌｃｕｌａｔｉｏｎ，ａｎｄｉｔ
ｓａｐｐｌｉｃａｔｉｏｎｔｏｓｐｅｅｃｈｔ
ｒａｎｓｌａｔｉｏｎ”，ＡＣＬ，１９９７年」参
照。）が提案されているが、分割を行うことにより、文
章の大局的な情報を得ることができないと考えられる。

【０００６】また、従来技術文献４「遠藤充ほか，“音
声による文例検索システムの検討”，日本音響学会講演
論文集，２−Ｑ−１２，ｐｐ．１６３−１６４，１９９
７年３月」においては、キーワードによる方法が提案さ
れているが、キーワードのみでは文章の意味を正しく理
解することができず、また、ユーザーインターフェース
等でキーワードの間を補う必要がある。

【０００７】本発明の目的は以上の問題点を解決し、上
記従来技術に比較して頑健にかつ正確に音声理解を行う
ことができ、適切に応答する処理を実行することができ
る音声言語理解装置及び、音声言語理解システムを提供
することにある。

【０００８】

【課題を解決するための手段】本発明に係る請求項１記
載の音声認識装置は、発声音声から音声認識装置によっ
て音声認識された音声認識結果の音声文に基づいて、音
声文の意味する検索条件の内容を理解して、データベー
スを参照して応答する処理を実行するための音声言語理
解装置であって、検索条件を含む文章データと、それに
対応しかつ少なくとも応答する処理の内容及びデータの
項目名を含む所定の中間言語データとの対である学習デ
ータに基づいて、識別誤りが最小となるように、文章デ
ータをそれに対応する中間言語に変換するための隠れマ
ルコフモデルを学習して得られた隠れマルコフモデルを
記憶する第１の記憶装置と、複数の項目名に対応したデ
ータを含むデータベースを記憶する第２の記憶装置と、
上記第１の記憶装置に記憶された隠れマルコフモデルを
用いて、上記音声認識されかつ検索条件を含む音声認識
結果の音声文を上記中間言語に変換して生成する生成手
段と、上記生成手段によって生成された中間言語を、上
記データベースに対応した所定のデータベース言語に変
換した後、上記データベース言語に含まれる検索条件に
基づいて、上記第２の記憶装置に記憶されたデータベー
スを検索して、上記検索条件を満たすデータを獲得し、
そのデータについて上記中間言語に対応した応答する処
理を実行する実行手段とを備えたことを特徴とする。

【０００９】また、本発明に係る請求項２記載の音声言
語理解システムは、発声音声を音声認識して、音声認識
された音声認識結果の音声文に基づいて、音声文の意味
する検索条件の内容を理解して、データベースを参照し
て応答する処理を実行するための音声言語理解システム
であって、発声音声を音声認識して、音声認識された音
声認識結果の音声文を出力する音声認識装置と、検索条
件を含む文章データと、それに対応しかつ少なくとも応
答する処理の内容及びデータの項目名を含む所定の中間
言語データとの対である学習データに基づいて、識別誤
りが最小となるように、文章データをそれに対応する中
間言語に変換するための隠れマルコフモデルを学習して
得られた隠れマルコフモデルを記憶する第１の記憶装置
と、複数の項目名に対応したデータを含むデータベース
を記憶する第２の記憶装置と、上記第１の記憶装置に記
憶された隠れマルコフモデルを用いて、上記音声認識装
置によって音声認識されかつ検索条件を含む音声認識結
果の音声文を上記中間言語に変換して生成する生成手段
と、上記生成手段によって生成された中間言語を、上記
データベースに対応した所定のデータベース言語に変換
した後、上記データベース言語に含まれる検索条件に基
づいて、上記第２の記憶装置に記憶されたデータベース
を検索して、上記検索条件を満たすデータを獲得し、そ
のデータについて上記中間言語に対応した応答する処理
を実行する実行手段とを備えたことを特徴とする。

【００１０】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１１】図１は、本発明に係る一実施形態である音
声言語理解装置２０を備えた音声言語理解システムの構
成を示すブロック図である。本発明に係る実施形態にお
いては、統計的処理に基づく中間言語への変換を行うこ
とにより、ユーザーの発声に対して頑健な理解が行える
音声言語理解装置２０を提供することを特徴としてい
る。

【００１２】ここで、音声言語理解装置２０は、発声音
声から音声認識装置によって音声認識された音声認識結
果の音声文に基づいて、音声文の意味する検索条件の内
容を理解して、データベースを参照して応答する処理を
実行するための音声言語理解装置であり、（ａ）学習デ
ータメモリ３１に格納され、検索条件を含む文章データ
と、それに対応しかつ少なくとも応答する処理の内容及
びデータの項目名を含む所定の中間言語データとの対で
ある学習データに基づいて、識別誤りが最小となるよう
に、文章データをそれに対応する中間言語に変換するた
めの隠れマルコフモデル（ＨＭＭ）をＭＣＥ学習処理部
３０によって学習して得られた隠れマルコフモデルを記
憶する隠れマルコフモデルメモリ３２と、（ｂ）複数の
項目名に対応したデータを含むデータベースを記憶する
データベースメモリ２３と、（ｃ）隠れマルコフモデル
メモリ３２に記憶された隠れマルコフモデルを用いて、
上記音声認識されかつ検索条件を含む音声認識結果の音
声文を上記中間言語に変換して生成する中間言語生成部
２１と、（ｄ）中間言語生成部２１によって生成された
中間言語を、上記データベースに対応した所定のデータ
ベース言語に変換した後、上記データベース言語に含ま
れる検索条件に基づいて、データベースメモリ２３に記
憶されたデータベースを検索して、上記検索条件を満た
すデータを獲得し、そのデータについて上記中間言語に
対応した応答する処理、具体的には表示処理を実行する
コマンド実行部２２とを備えたことを特徴としている。

【００１３】まず、本実施形態の音声言語理解システム
の概要について説明する。本実施形態では、音声言語理
解システムとして、音声入力による指示により、データ
ベースメモリ２３内データベースへアクセスし、ユーザ
ーの要求する情報を表示するシステムを開示する。好ま
しい実施形態として構築したシステムは、スキー場案内
システムであって、音声により、スキー場のデータの入
ったデータベースにアクセスし、必要な情報を得るシス
テムである。システム全体の構成を図１に示す。本シス
テムは、主に「音声認識装置１０」と「音声言語理解装
置２０」とで構成される。

【００１４】音声認識装置１０では、入力された発声音
声の波形データに対して特徴量計算を行った後、公知の
隠れマルコフ網による音響モデル、及び公知の可変長Ｎ
−ｇｒａｍによる言語モデルを用いて、単語グラフサー
チ法により解の探索を行い、認識結果を出力する。音声
認識装置１０の認識結果は音声言語理解装置２０に渡さ
れる。音声言語理解装置２０では、音声認識結果の単語
列を、中間言語に変換し、中間言語の内容に基づいてデ
ータベース言語の生成し、データベースから情報の検索
を行い、中間言語の要求に応じて検索結果の表示を行
う。本システムは、次の３つの動作を行うことができ
る。（ａ）各スキー場のデータ（県・標高差・リフト数等１
２項目）の表示（ＳＨＯＷＶＡＬＵＥ）、（ｂ）ユーザ
ーが要求する条件を満たすスキー場の検索（ＳＨＯＷＬ
ＩＳＴ）、及び（ｃ）スキー場の地図の表示（ＳＨＯＷ
ＩＭＡＧＥ）。

【００１５】次いで、音声言語理解装置２０について説
明する。その動作の概要を表１に示す。また、データベ
ースメモリ２３内のデータベースの一例を表２に示す。

【００１６】

【表１】 ─────────────────────────────────── 入力文：“八方尾根スキー場の標高差を教えて下さい” ─────────────────────────────────── １．中間言語生成 “Ｒ＿ＳＨＯＷＶＡＬＵＥＯ＿標高差Ｄ＿スキー場名Ｃ＿＝Ｖ＿八方尾根” ─────────────────────────────────── ２．データベース言語への変換 “ＳＥＬＥＣＴ標高差ＦＲＯＭスキー場データＷＨＥＲＥスキー場名＝八方尾根” ───────────────────────────────────

【００１７】表１の２．においてデータベース言語の一
例について示している。この例では、「スキー場デー
タ」というデータベース名のデータベースから（ＦＲＯ
Ｍ）、「スキー場名＝八方尾根」という検索条件のもと
（ＷＨＥＲＥ）で、項目名「標高差」のデータを検索
（ＳＥＬＥＣＴ）しなさいというデータベース言語であ
る。

【００１８】

【表２】データベースの一例スキー場データ ──────────────────────────────── スキー場名県標高差入場者数 ──────────────────────────────── 志賀高原長野５００１００００００野沢温泉長野１１００９０００００妙高赤倉新潟８００８０００００八方尾根長野１０００７０００００ ←動作例栂池高原長野７００６０００００ ──────────────────────────────── （注）動作例３．スキー場名＝八方尾根の行を検索４．標高差を出力

【００１９】音声言語理解装置２０の処理は、音声認識
結果をデータベースアクセス用の中間言語に変換するこ
とにより行う。本システムで用いた中間言語は次の要素
から構成される。（ａ）Ｒ＿（コマンド名）要求動作の指定（Ｒｅｑｕｅｓｔ）（ｂ）Ｏ＿（対象物名）動作の対象（Ｏｂｊｅｃｔ）（ｃ）Ｄ＿（ドメイン名）データベースの検索項目（Ｄｏｍａｉｎ）（ｄ）Ｃ＿（比較方法）データベース検索時の比較方法（Ｃｏｍｐａｒｉｓｏ
ｎ）（ｅ）Ｖ＿（値）データベース検索時の比較値（Ｖａｌｕｅ）

【００２０】中間言語は、これらの要素の列として表現
され、次の表で示すフォーマットで与えられる。

【００２１】

【表３】 ─────────────────────────────────── Ｒ＿（コマンド名）Ｏ＿（対象物名１）… Ｏ＿（対象物名ｍ）Ｄ＿（ドメイン名１）Ｃ＿（比較方法１）Ｖ＿（値１） … Ｄ＿（ドメイン名ｎ）Ｃ＿（比較方法ｎ）Ｖ＿（値ｎ） ───────────────────────────────────

【００２２】以下に、自然言語から中間言語への変換例
を挙げる。以下の変換例は、図１の学習データメモリ３
１に、学習データの文章データとそれに対応する中間言
語データとして格納される。（ａ）八方尾根スキー場の標高差はいくらですか。 →Ｒ＿ＳＨＯＷＶＡＬＵＥＯ＿標高差Ｄ＿スキー場名Ｃ＿＝Ｖ＿八方尾根（ｂ）標高差が１０００ｍ以上のスキー場を教えて下さ
い。 →Ｒ＿ＳＨＯＷＬＩＳＴＯ＿スキー場名Ｄ＿標高差
Ｃ＿＞＝Ｖ＿１０００（ｃ）八方尾根のゲレンデマップを見せて下さい。 →Ｒ＿ＳＨＯＷＩＭＡＧＥＯ＿ゲレンデマップＤ＿スキー場名Ｃ＿＝Ｖ＿八方尾根

【００２３】音声言語理解装置２０のの一連の動作を表
１及び表２に示す。音声言語理解装置２０は、音声認識
結果が入力されると、次の順序で処理を行う。（１）音声認識結果から中間言語への変換処理、（２）
中間言語の、対象物名、ドメイン名（表２における項目
名である。）、比較方法、及び比較値からデータベース
言語を生成する処理、（３）条件に適合するデータをデ
ータベースから検索し、動作の対象情報を獲得する処
理、及び、（４）対象物名に対して中間言語のコマンド
名で規定された動作を実行する処理。ここで、上記
（１）の処理は図１の中間言語生成部２１によって実行
され、上記（２）、（３）及び（４）の処理は図１のコ
マンド実行部２２によって実行される。なお、データベ
ース言語は公知のＳＱＬ言語と類似した言語を用いてお
り、中間言語は、データベース言語へ必ず正しく変換さ
れるように設計されている。

【００２４】次いで、自然言語から中間言語への変換に
ついて説明する。音声言語理解装置１０において、最も
重要かつ困難な部分は、音声認識の入力文章から中間言
語への変換部分である。本実施形態は、これを統計的手
法に基づいて実行する方法を用いる。

【００２５】統計的手法による自然言語から中間言語へ
の変換では、単語系列Ｗが与えられたとき、次式を満た
す中間言語列Ｓを求めることにより、最適な中間言語を
得ることができる。

【数１】ここで、Ｐ（Ｓ｜Ｗ）は、単語系列Ｗが与えられたとき
の中間言語列Ｓを取り得る確率であり、数１は、中間言
語列Ｓを変化したときに確率Ｐ（Ｓ｜Ｗ）が最大となる
ときの中間言語列Ｓを表わす。

【００２６】上記数１は、ベイズ則を用いると、次式の
ように表される。

【数２】上記数２で、確率Ｐ（Ｗ｜Ｓ）は、中間言語から音声認
識結果が出力される確率を意味する。この確率を直接的
に求めるのは困難なため、次式の近似を考える。

【数３】

【００２７】すなわち、中間言語のそれぞれの要素は独
立しており、また、中間言語のそれぞれの要素は、特定
の単語のみを出力するのではなく、入力文の全ての単語
をある確率で出力すると仮定する。この仮定により、誤
認識が生じた際や、不完全な文が入力された場合でも、
中間言語への変換が容易になり、頑健な言語理解が可能
になる。この確率Ｐ（Ｗ｜Ｓ）を求めるモデルを文生成
モデルと呼ぶ。一方、確率Ｐ（Ｓ）は、中間言語の事前
確率で、入力文とは全く独立に求められる。統計的手法
による自然言語から中間言語への変換の精度は、これら
の確率の精度に依存する。

【００２８】次いで、これらの確率を求めるための文生
成モデルについて述べる。上記確率Ｐ（Ｗ｜ｓ_i）、即
ち、中間言語の各要素ｓ_iから音声認識結果文を与える
モデルとして、隠れマルコフモデル（ＨＭＭ）を用いる
（図４参照）。隠れマルコフモデルは、図４に示すよう
に、複数の状態から構成され、単語が入力される毎に、
状態ｉから状態ｊへ確率ａ_ijで遷移し、遷移後の状態ｊ
から確率ｂ_j,wtで単語を出力するモデルである。隠れマ
ルコフモデルは、音声認識の音響モデルにおいては、通
常ＬｅｆｔｔｏＲｉｇｈｔ型のモデルが用いられる
が、ここで用いるモデルは、全ての状態間遷移が可能な
エルゴディックモデルを考える。ここで、用いる隠れマ
ルコフモデル（ＨＭＭ）のパラメータは次の通りであ
る。（ａ）状態数：Ｍ（ｂ）状態ｉから状態ｊへの遷移確率：ａ_ij （ｃ）状態ｊから単語ｗ_tへの出力確率：ｂ_j,wt

【００２９】隠れマルコフモデルのパラメータの推定
は、文章とそれに対応する中間言語列のデータを大量に
容易し、Ｐ（Ｗ｜ｓ_i）の値が最大になるように決定す
る（最尤推定法による）。隠れマルコフモデルの場合、
観測データに対応する状態系列が分からないため、公知
のＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｕｍ）ア
ルゴリズムによって最尤推定を行う。隠れマルコフモデ
ルの場合は特に、バーム・ウェルチ（Ｂａｕｍ−Ｗｅｌ
ｃｈ）アルゴリズムと呼ばれる。隠れマルコフモデル
は、中間言語の各要素毎に作成し、文が入力されると、
全てのモデルが独立に、平行して動作する。隠れマルコ
フモデルを用いて、入力文から中間言語への変換を行う
際は、公知のビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムを
用いてそれぞれの要素に対して文の生成確率のみを求
め、Ｒ＿，Ｏ＿，Ｄ＿，Ｃ＿，Ｖ＿のそれぞれのグルー
プ内で最も確率の高い要素を選び、中間言語列を得る
（図５参照。）。

【００３０】次いで、中間言語への変換の高精度化のた
めの、図１のＭＣＥ学習処理部３０によって実行される
公知のＭＣＥ（ＭｉｎｉｍｕｍＣｌａｓｓｉｆｉｃａ
ｔｉｏｎＥｒｒｏｒ；識別誤り最小法）トレーニング
による学習について説明する。通常、隠れマルコフモデ
ルの学習は、公知のＥＭアルゴリズムによって行われ
る。ＥＭアルゴリズムは、基本的には最尤推定法であ
り、本実施形態で用いる文生成モデルに使用した場合、
不都合が生じる場合がある。例として、次の２つの場合
について考える。（１）長野県のスキー場を教えて下さ
い。 →Ｒ＿ＳＨＯＷＬＩＳＴＯ＿スキー場名Ｄ＿県Ｃ
＿＝Ｖ＿長野（２）長野県以外のスキー場を教えて下さい。 →Ｒ＿ＳＨＯＷＬＩＳＴＯ＿スキー場名Ｄ＿県Ｃ
＿＜＞Ｖ＿長野

【００３１】この場合、文（１）と文（２）との差は、
単語「以外」があるかないかのみの違いであり、その差
が中間言語の「Ｃ＿＝」と「Ｃ＿＜＞」との差となる。
しかしながら、上述の文生成モデルであると、「Ｃ＿＜
＞」のモデルでは、文（１）例に出現する単語全てに対
して比較的高い確率を出力し、（１）の文が入力された
場合「Ｃ＿＝」と「Ｃ＿＜＞」との区別が困難になる可
能性がある。このため、類似した文に対する識別度を向
上させるため、隠れマルコフモデルに対して、ＭＣＥ学
習を行う。

【００３２】ＭＣＥに基づく学習法は、クラスの識別に
用いる尺度を識別関数ｇ_kとし、あるサンプルＸに対す
る識別関数の差で表される識別誤り関数ｄ_k（Ｘ，Λ）
から、シグモイド（ｓｉｇｍｏｉｄ）関数で現れる損失
関数ｌ（ｄ_k）を用いて実効的な識別誤り数を評価し、
この識別誤り数を最小化する基準でモデルパラメータΛ
を求める方法である。ここで、用いる識別関数、識別誤
り関数、及び損失関数を次式に示す。

【００３３】（ａ）識別関数

【数４】ｇ（Ｘ，Λ）＝ｌｏｇ［Ｌ（χ）］ここで、Ｌ（χ）は、隠れマルコフモデルによる文生成
確率Ｐ（Ｗ｜ｓ_i）を表わす。（ｂ）識別誤り関数

【数５】ここで、ｋは読み込んだデータの中間言語に含まれる要
素で、ｊはｋのグループに属する中間言語の要素であ
る。（ｃ）損失関数

【数６】ｌ（ｄ_k）＝１／（１＋ｅｘｐ［−ａ（ｄ_k＋ｂ）］）ここで、ａ及びｂは予め経験的に決定される定数であ
る。

【００３４】損失関数ｌ（ｄ_k）に対して、最急降下法
を用いてて漸化的にパラメータΛを調整しながら、最適
パラメータを求める。

【数７】Λｈ_t+1＝Λｈ_t−ε∇ｌ（ｄ_k（Ｘ；Λｈ）

【００３５】図６は、図１のＭＣＥ学習処理部３０によ
って実行されるＭＣＥ学習処理を示すフローチャートで
ある。ＭＣＥ学習処理部３０は、学習データメモリ３１
内の学習データの文章データとそれに対応する中間言語
データに基づいて、以下のＭＣＥ学習処理を実行するこ
とにより、識別誤りが最小となるように、文章データを
それに対応する中間言語に変換するための隠れマルコフ
モデルを学習して隠れマルコフモデルメモリ３２に格納
する。

【００３６】図６において、まず、ステップＳ０でパラ
メータｉに１を代入し、ステップＳ１で学習データメモ
リ３１から、文章データ及び中間言語データをそれぞれ
１文読み込む。次いで、ステップＳ２で、数６を用い
て、損失ｌを計算し、ステップＳ３で数７を用いて隠れ
マルコフモデル（ＨＭＭ）の各パラメータを更新する。
そして、ステップＳ４で処理すべき学習データがまだあ
るか否かが判断され、ＹＥＳのときはステップＳ１に戻
り上記の処理を繰り返す一方、ステップＳ５では全ての
文について総損失Ｌ_iを計算する。そして、ステップＳ
６では、学習終了判定が実行されて、｜Ｌ_i−Ｌ_i-1｜＜
Ｃ（ここで、Ｃは定数である。）であるか否かが判断さ
れ、ＮＯのときは終了していないとして、ステップＳ７
でパラメータｉを１だけインクリメントしてステップＳ
１に戻り上記の処理を繰り返す。ステップＳ６でＹＥＳ
のときは、終了したと判断して当該ＭＣＥ学習処理を終
了する。ここで、学習データメモリ３１内の学習データ
の一例を次の表に示す。

【００３７】

【表４】 ─────────────────────────────────── 文章データ／中間言語データ ─────────────────────────────────── 八方尾根スキー場の標高差を教えて下さい。／Ｒ＿ＳＨＯＷＶＡＬＵＥＯ＿標高差Ｄ＿スキー場名Ｃ＿＝Ｖ＿八方尾根 ─────────────────────────────────── 標高差が１０００メートル以上のスキー場を教えて下さい。／Ｒ＿ＳＨＯＷＬＩＳＴＯ＿スキー場名Ｄ＿標高差Ｃ＿＞＝Ｖ＿１０００ ───────────────────────────────────

【００３８】図７は、図１の中間言語生成部２１によっ
て実行される中間言語生成処理を示すフローチャートで
ある。図７において、まず、ステップＳ１１でバッファ
メモリ２４から音声認識結果を１文読み込む。次いで、
ステップＳ１２で音声認識結果の単語列Ｗ（Ｌ単語）に
対して、次式を用いて中間言語の各要素ｓ_i（１≦ｉ≦
Ｎ；Ｎは中間言語の要素数である。）毎に隠れマルコフ
モデル（ＨＭＭ）による文生成確率Ｐ（Ｗ｜ｓ_i）を計
算する。

【数８】ただし、ｗ_lは単語列Ｗのｌ番目の単語ａ_xy（ｓ_i）は中
間言語の要素ｓ_iのモデルにおける、状態ｘから状態ｙ
への遷移確率ａ_xy（ｓ_i）は中間言語の要素ｓ_iのモデル
における、状態ｙから単語ｗ_lへの出力確率を表す。

【００３９】次いで、ステップＳ１３で中間言語の各要
素の文生成確率Ｐ（Ｗ｜ｓ_i）に対して、各グループ内
で尤度最大のものを選択する。すなわち、中間言語の各
グループ（Ｒ＿＊，Ｏ＿＊，Ｄ＿＊，Ｃ＿＊，Ｖ＿＊）
において、そのグループに属する中間言語要素の内、ス
テップＳ１２で求めた文生成確率Ｐ（Ｗ｜ｓ_i）の最も
高いものを選択する。次いで、ステップＳ１４で選択さ
れた中間言語の要素を所定のフォーマットにしたがって
並べた後出力する。すなわち、ステップＳ１３で入力さ
れた中間言語の各要素を中間言語文のフォーマット、す
なわち、Ｒ＿＊，Ｏ＿＊，Ｄ＿＊，Ｃ＿＊，Ｖ＿＊の順
番に従って並べ、中間言語を生成してコマンド実行部２
２に出力する。さらに、ステップＳ１５で処理すべき音
声認識結果がまだあるか否かが判断され、ＹＥＳのとき
はステップＳ１１に戻り上記の処理を繰り返す。一方、
ＮＯのときは当該中間言語生成処理を終了する。

【００４０】図８は、図１のコマンド実行部２２によっ
て実行されるコマンド実行処理を示すフローチャートで
ある。図８において、まず、ステップＳ２１で中間言語
生成部２１から中間言語を１文入力する。次いで、ステ
ップＳ２２で、中間言語をデータベース言語（ＳＱＬ言
語）に変換する。すなわち、この変換は、次の表に示す
ように機械的に行われる。

【００４１】

【表５】 ─────────────────────────────────── 中間言語： “Ｒ＿ＳＨＯＷＶＡＬＵＥＯ＿標高差Ｄ＿スキー場名Ｃ＿＝Ｖ＿八方尾根” ─────────────────────────────────── データベース言語： “ＳＥＬＥＣＴ標高差ＦＲＯＭスキー場データＷＨＥＲＥスキー場名＝八方尾根” ───────────────────────────────────

【００４２】ここで、データベース言語は、「ＳＬＥＥ
ＣＴ（１）ＦＲＯＭスキー場データＷＨＥＲＥ（２）
（３）（４）」の形式をしており、（１）から（４）ま
での項目を、それぞれ、中間言語のＯ＿，Ｄ＿，Ｃ＿，
Ｖ＿等の頭文字を削除した物を並べることにより用意に
変換が可能である。

【００４３】次いで、ステップＳ２３で変換されたデー
タベース言語に基づいて、所定の条件に適合するデータ
をデータベースメモリ２３から検索する。さらに、ステ
ップＳ２４では、データベースより得られたデータを中
間言語のコマンド名に応じて加工して出力する。すなわ
ち、ステップＳ２３で得られた値を中間言語のコマンド
名に応じて表示する。具体的には、次の表に示す表示処
理を行う。

【００４４】

【表６】 ─────────────────────────────────── コマンド名 → 表示内容 ─────────────────────────────────── Ｒ＿ＳＨＯＷＶＡＬＵＥ→データベースから得られた値を表示Ｒ＿ＳＨＯＷＬＩＳＴ→データベースからスキー場名の一覧を表示Ｒ＿ＳＨＯＷＩＭＡＧＥ→データベースから得られたファイル名の画像を表示 ───────────────────────────────────

【００４５】ステップＳ２４における表示処理において
は、表示内容のデータがコマンド実行部２２からパーソ
ナルコンピュータ４０を介してＣＲＴディスプレイ４１
に出力されて表示され、また、表示内容のデータがプリ
ンタ４２に出力されて印字される。さらに、ステップＳ
２５では、処理すべき中間言語があるか否かが判断さ
れ、ＹＥＳのときはステップＳ２１に戻り上記の処理を
繰り返す一方、ＮＯのときは当該コマンド実行処理を終
了する。

【００４６】図１において、ＭＣＥ学習処理部３０、中
間言語生成部２１、及びコマンド実行部２２は例えばデ
ジタル計算機で構成され、学習データメモリ３１、隠れ
マルコフモデル（ＨＭＭ）メモリ３２、バッファメモリ
２４及びデータベースメモリ２３は例えばハードディス
クメモリなどの記憶装置で構成される。

【００４７】図２に本実施形態で用いる連続音声認識装
置１０のブロック図を示す。本実施形態の連続音声認識
装置１０は、公知のワン−パス・ビタビ復号化法を用い
て、入力される発声音声文の音声信号の特徴パラメータ
に基づいて上記発声音声文の単語仮説を検出し尤度を計
算して出力する単語照合部４を備えた連続音声認識装置
において、単語照合部４からバッファメモリ５を介して
出力される、終了時刻が等しく開始時刻が異なる同一の
単語の単語仮説に対して、統計的言語モデル１３を参照
して、当該単語の先頭音素環境毎に、発声開始時刻から
当該単語の終了時刻に至る計算された総尤度のうちの最
も高い尤度を有する１つの単語仮説で代表させるように
単語仮説の絞り込みを行う単語仮説絞込部６を備える。

【００４８】ここで用いる統計的言語モデル１３は、学
習用テキストデータに基づいて言語モデル生成部（図示
せず。）により生成されたものであって、統計的言語モ
デル１３は、例えば特開平９−１３４１９２号公報にお
いて開示されたように、品詞クラス間のバイグラム（Ｎ
＝２）を基本としたものであるが、単独で信頼できる単
語は品詞クラスより分離させ、単独のクラスとして取り
扱い、さらに、予測精度を向上させるため、頻出単語列
に関してはそれらの単語を結合して一つのクラスとして
取り扱い、長い単語連鎖の表現を可能にさせ、こうし
て、生成されたモデルは、品詞バイグラムと可変長単語
Ｎ−グラムとの特徴を併せ持つ統計的言語モデルとな
り、遷移確率の精度と信頼性とのバランスをとられたも
のである。

【００４９】図２において、単語照合部４に接続され、
例えばハードディスクメモリに格納される音素ＨＭＭ１
１は、各状態を含んで表され、各状態はそれぞれ以下の
情報を有する。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率なお、本実施形態において用いる音素ＨＭＭ１１は、各
分布がどの話者に由来するかを特定する必要があるた
め、所定の話者混合ＨＭＭを変換して生成する。ここ
で、出力確率密度関数は３４次元の対角共分散行列をも
つ混合ガウス分布である。また、単語照合部４に接続さ
れ、例えばハードディスクに格納される単語辞書１２
は、音素ＨＭＭ１１の各単語毎にシンボルで表した読み
を示すシンボル列を格納する。

【００５０】図２において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して単語照合部４に入力される。
単語照合部４は、ワン−パス・ビタビ復号化法を用い
て、バッファメモリ３を介して入力される特徴パラメー
タのデータに基づいて、音素ＨＭＭ１１と単語辞書１２
とを用いて単語仮説を検出し尤度を計算して出力する。
ここで、単語照合部４は、各時刻の各ＨＭＭの状態毎
に、単語内の尤度と発声開始からの尤度を計算する。尤
度は、単語の識別番号、単語の開始時刻、先行単語の違
い毎に個別にもつ。また、計算処理量の削減のために、
音素ＨＭＭ１１及び単語辞書１２とに基づいて計算され
る総尤度のうちの低い尤度のグリッド仮説を削減する。
単語照合部４は、その結果の単語仮説と尤度の情報を発
声開始時刻からの時間情報（具体的には、例えばフレー
ム番号）とともにバッファメモリ５を介して単語仮説絞
込部６に出力する。

【００５１】単語仮説絞込部６は、単語照合部４からバ
ッファメモリ５を介して出力される単語仮説に基づい
て、統計的言語モデル１３を参照して、終了時刻が等し
く開始時刻が異なる同一の単語の単語仮説に対して、当
該単語の先頭音素環境毎に、発声開始時刻から当該単語
の終了時刻に至る計算された総尤度のうちの最も高い尤
度を有する１つの単語仮説で代表させるように単語仮説
の絞り込みを行った後、絞り込み後のすべての単語仮説
の単語列のうち、最大の総尤度を有する仮説の単語列を
認識結果として、バッファメモリ２４を介して音声言語
理解装置２０内の中間言語生成部２１に出力し、上述の
音声言語理解装置２０の処理が実行される。本実施形態
においては、好ましくは、処理すべき当該単語の先頭音
素環境とは、当該単語より先行する単語仮説の最終音素
と、当該単語の単語仮説の最初の２つの音素とを含む３
つの音素並びをいう。

【００５２】例えば、図３に示すように、（ｉ−１）番
目の単語Ｗ_i-1の次に、音素列ａ₁，ａ₂，…，ａ_nからな
るｉ番目の単語Ｗ_iがくるときに、単語Ｗ_i-1の単語仮説
として６つの仮説Ｗａ，Ｗｂ，Ｗｃ，Ｗｄ，Ｗｅ，Ｗｆ
が存在している。ここで、前者３つの単語仮説Ｗａ，Ｗ
ｂ，Ｗｃの最終音素は／ｘ／であるとし、後者３つの単
語仮説Ｗｄ，Ｗｅ，Ｗｆの最終音素は／ｙ／であるとす
る。終了時刻ｔ_eと先頭音素環境が等しい仮説（図３で
は先頭音素環境が“ｘ／ａ₁／ａ₂”である上から３つの
単語仮説）のうち総尤度が最も高い仮説（例えば、図３
において１番上の仮説）以外を削除する。なお、上から
４番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がｘではなくｙであるので、
上から４番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に１つのみ仮説を残す。図２の例
では、最終音素／ｘ／に対して１つの仮説を残し、最終
音素／ｙ／に対して１つの仮説を残す。

【００５３】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の２つの音素とを含
む３つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも１つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。

【００５４】図２において、特徴抽出部２と、単語照合
部４と、単語仮説絞込部６と、言語モデル生成部２０と
は、例えば、デジタル電子計算機で構成され、バッファ
メモリ３，５は例えばハードデイスクメモリなどの記憶
装置で構成され、音素ＨＭＭ１１と単語辞書１２と統計
的言語モデル１３とは、例えばハードデイスクメモリな
どの記憶装置に記憶される。

【００５５】以上実施形態においては、単語照合部４と
単語仮説絞込部６とを用いて音声認識を行っているが、
本発明はこれに限らず、例えば、音素ＨＭＭ１１を参照
する音素照合部と、例えばＯｎｅＰａｓｓＤＰアル
ゴリズムを用いて統計的言語モデル１３を参照して単語
の音声認識を行う音声認識部とで構成してもよい。

【００５６】

【実施例】本発明者は、音声言語理解装置２０における
言語理解率を評価するために、まず、正解文からの言語
理解率を評価した。実験に用いたデータは、本特許出願
人が所有するスキー場案内システムのために収集してい
る会話で、現在、４４３文、７，５６９単語あり、語彙
は２８１語である。全ての文章に、それに対応する中間
言語を人手で作成している。言語理解のためのモデル
は、最尤推定による隠れマルコフモデル（ＭＬ−ＨＭ
Ｍ）、及び、最尤推定後にＭＣＥ学習を行ったモデル
（ＭＣＥ−ＨＭＭ）の２種類用意した。ただし、隠れマ
ルコフ状態数は、いずれのモデルも２とした。

【００５７】評価は言語理解率で行った。ただし、言語
理解率は、入力文章から中間言語へ正確に変換できた割
合であり、中間言語の全ての要素が正しく変換できた場
合のみ正解とする。最尤推定による隠れマルコフモデル
（ＨＭＭ）を用いた場合、言語理解率は９６．０％とか
なり高い率を得た。さらにＭＣＥ学習を行うことにより
言語理解率は９９．６と極めて高い率を得ることができ
た。

【００５８】以上説明したように、本実施形態によれ
ば、隠れマルコフモデルを用いた統計的手法により、自
然言語から中間言語への変換を行い、言語理解を行う音
声言語理解システムを構築して、最尤推定による隠れマ
ルコフモデルにおける言語理解率が９６．０％であり、
さらにＭＣＥ学習を行うことにより、９９．６％と非常
に高い確率で言語理解率が得られることを確認した。音
声言語理解装置２０は、統計的手法を用いて処理するた
め、文法ルールの作成やキーワードの選択等の作業を必
要とせず、また、モデルの学習には数千語程度のデータ
で良好な結果を得るため、短時間でのシステム構築が可
能であるという利点がある。すなわち、従来技術に比較
して頑健にかつ正確に音声理解を行うことができ、適切
に応答する処理を実行することができる音声言語理解装
置２０及び、音声言語理解システムを提供することがで
きる。

【００５９】

【発明の効果】以上詳述したように、本発明に係る請求
項１記載の音声認識装置によれば、発声音声から音声認
識装置によって音声認識された音声認識結果の音声文に
基づいて、音声文の意味する検索条件の内容を理解し
て、データベースを参照して応答する処理を実行するた
めの音声言語理解装置であって、検索条件を含む文章デ
ータと、それに対応しかつ少なくとも応答する処理の内
容及びデータの項目名を含む所定の中間言語データとの
対である学習データに基づいて、識別誤りが最小となる
ように、文章データをそれに対応する中間言語に変換す
るための隠れマルコフモデルを学習して得られた隠れマ
ルコフモデルを記憶する第１の記憶装置と、複数の項目
名に対応したデータを含むデータベースを記憶する第２
の記憶装置と、上記第１の記憶装置に記憶された隠れマ
ルコフモデルを用いて、上記音声認識されかつ検索条件
を含む音声認識結果の音声文を上記中間言語に変換して
生成する生成手段と、上記生成手段によって生成された
中間言語を、上記データベースに対応した所定のデータ
ベース言語に変換した後、上記データベース言語に含ま
れる検索条件に基づいて、上記第２の記憶装置に記憶さ
れたデータベースを検索して、上記検索条件を満たすデ
ータを獲得し、そのデータについて上記中間言語に対応
した応答する処理を実行する実行手段とを備える。従っ
て、従来技術に比較して頑健にかつ正確に音声理解を行
うことができ、適切に応答する処理を実行することがで
きる音声言語理解装置を提供することができる。

【００６０】また、本発明に係る請求項２記載の音声言
語理解システムによれば、発声音声を音声認識して、音
声認識された音声認識結果の音声文に基づいて、音声文
の意味する検索条件の内容を理解して、データベースを
参照して応答する処理を実行するための音声言語理解シ
ステムであって、発声音声を音声認識して、音声認識さ
れた音声認識結果の音声文を出力する音声認識装置と、
検索条件を含む文章データと、それに対応しかつ少なく
とも応答する処理の内容及びデータの項目名を含む所定
の中間言語データとの対である学習データに基づいて、
識別誤りが最小となるように、文章データをそれに対応
する中間言語に変換するための隠れマルコフモデルを学
習して得られた隠れマルコフモデルを記憶する第１の記
憶装置と、複数の項目名に対応したデータを含むデータ
ベースを記憶する第２の記憶装置と、上記第１の記憶装
置に記憶された隠れマルコフモデルを用いて、上記音声
認識装置によって音声認識されかつ検索条件を含む音声
認識結果の音声文を上記中間言語に変換して生成する生
成手段と、上記生成手段によって生成された中間言語
を、上記データベースに対応した所定のデータベース言
語に変換した後、上記データベース言語に含まれる検索
条件に基づいて、上記第２の記憶装置に記憶されたデー
タベースを検索して、上記検索条件を満たすデータを獲
得し、そのデータについて上記中間言語に対応した応答
する処理を実行する実行手段とを備える。従って、従来
技術に比較して頑健にかつ正確に音声理解を行うことが
でき、適切に応答する処理を実行することができる音声
言語理解システムを提供することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である音声言語理解
装置２０を備えた音声言語理解システムの構成を示すブ
ロック図である。

【図２】図１の音声認識装置１０の構成を示すブロッ
ク図である。

【図３】図２の音声認識装置における単語仮説絞込部
６の処理を示すタイミングチャートである。

【図４】図１の隠れマルコフモデル（ＨＭＭ）メモリ
３２に格納されたＨＭＭを示す状態遷移図である。

【図５】図１の中間言語生成部２１の処理を示す説明
図である。

【図６】図１のＭＣＥ学習処理部３０によって実行さ
れるＭＣＥ学習処理を示すフローチャートである。

【図７】図１の中間言語生成部２１によって実行され
る中間言語生成処理を示すフローチャートである。

【図８】図１のコマンド実行部２２によって実行され
るコマンド実行処理を示すフローチャートである。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３，５…バッファメモリ、４…単語照合部、６…単語仮説絞込部、１１…音素ＨＭＭ、１２…単語辞書、１３…統計的言語モデル、２０…音声言語理解装置、２１…中間言語生成部、２３…データベースメモリ、２４…バッファメモリ、３０…ＭＣＥ学習処理部、３１…学習データメモリ、３２…隠れマルコフモデル（ＨＭＭ）メモリ、４０…パーソナルコンピュータ、４１…ＣＲＴディスプレイ、４２…プリンタ。

フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 17/30 Ｇ０６Ｆ 15/38 Ｐ // Ｇ０６Ｆ 3/16 ３２０ 15/403 ３１０Ｚ

Claims

【特許請求の範囲】

【請求項１】発声音声から音声認識装置によって音声
認識された音声認識結果の音声文に基づいて、音声文の
意味する検索条件の内容を理解して、データベースを参
照して応答する処理を実行するための音声言語理解装置
であって、検索条件を含む文章データと、それに対応しかつ少なく
とも応答する処理の内容及びデータの項目名を含む所定
の中間言語データとの対である学習データに基づいて、
識別誤りが最小となるように、文章データをそれに対応
する中間言語に変換するための隠れマルコフモデルを学
習して得られた隠れマルコフモデルを記憶する第１の記
憶装置と、複数の項目名に対応したデータを含むデータベースを記
憶する第２の記憶装置と、上記第１の記憶装置に記憶された隠れマルコフモデルを
用いて、上記音声認識されかつ検索条件を含む音声認識
結果の音声文を上記中間言語に変換して生成する生成手
段と、上記生成手段によって生成された中間言語を、上記デー
タベースに対応した所定のデータベース言語に変換した
後、上記データベース言語に含まれる検索条件に基づい
て、上記第２の記憶装置に記憶されたデータベースを検
索して、上記検索条件を満たすデータを獲得し、そのデ
ータについて上記中間言語に対応した応答する処理を実
行する実行手段とを備えたことを特徴とする音声言語理
解装置。
【請求項２】発声音声を音声認識して、音声認識され
た音声認識結果の音声文に基づいて、音声文の意味する
検索条件の内容を理解して、データベースを参照して応
答する処理を実行するための音声言語理解システムであ
って、発声音声を音声認識して、音声認識された音声認識結果
の音声文を出力する音声認識装置と、検索条件を含む文章データと、それに対応しかつ少なく
とも応答する処理の内容及びデータの項目名を含む所定
の中間言語データとの対である学習データに基づいて、
識別誤りが最小となるように、文章データをそれに対応
する中間言語に変換するための隠れマルコフモデルを学
習して得られた隠れマルコフモデルを記憶する第１の記
憶装置と、複数の項目名に対応したデータを含むデータベースを記
憶する第２の記憶装置と、上記第１の記憶装置に記憶された隠れマルコフモデルを
用いて、上記音声認識装置によって音声認識されかつ検
索条件を含む音声認識結果の音声文を上記中間言語に変
換して生成する生成手段と、上記生成手段によって生成された中間言語を、上記デー
タベースに対応した所定のデータベース言語に変換した
後、上記データベース言語に含まれる検索条件に基づい
て、上記第２の記憶装置に記憶されたデータベースを検
索して、上記検索条件を満たすデータを獲得し、そのデ
ータについて上記中間言語に対応した応答する処理を実
行する実行手段とを備えたことを特徴とする音声言語理
解システム。