JPH05197389A

JPH05197389A - 音声認識装置

Info

Publication number: JPH05197389A
Application number: JP4184220A
Authority: JP
Inventors: Hiroyuki Tsuboi; 宏之坪井; Yoichi Takebayashi; 洋一竹林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1991-08-13
Filing date: 1992-07-10
Publication date: 1993-08-06
Also published as: EP0527650A3; US5457768A; DE69225173D1; EP0527650A2; EP0527650B1; DE69225173T2

Abstract

(57)【要約】【目的】本発明は、無意味な語の発声や複数の文を連続
的に発声するような自然な発話について対応できるよう
にしている。【構成】音声入力部１より入力された音声信号を音声認
識部２で分析し音声特徴パラメータの時系列を求め、こ
の時系列から抽出される音声特徴ベクトルと予め用意さ
れた認識対象単語を照合して単語候補を時系列に出力
し、この時系列に出力される各単語候補をキーワードと
して構文解析部３に与え、ここで構文の制約に基づいて
構文解析を行い文候補を生成するようにしている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、構文・意味解析を用い
た音声認識装置に関するものである。

【０００２】

【従来の技術】最近、人間が機械に対して直接音声によ
り指令を与えるような試みが成されており、音声認識の
ための各種の技術が開発されている。

【０００３】しかし、現状では、人間と機械の自然な対
話を可能にするようなものは実現していない。この原因
の一つに自然な対話における発話のゆれの問題があるこ
とが知られている。つまり、人間同志の自然な対話の発
話は、書物などに書かれた文章等に比べて曖昧であり、
文法的にとどまらず、文の単位や文の境界自体も明確で
ない。加えて、伝える内容に直接関係のない無意味な語
や、言い淀み、雑音などの発話のゆれを含むことが知ら
れている。

【０００４】こうした発話のゆれに対して従来の音声認
識装置は対処することができず、このため、これまでは
音声インタフェースとして１文単位の人間の音声入力を
促す入力モードでは、予め決った入力語彙を予め決った
語順あるいは文法に従って入力しなければならず、例え
ば、「あの−」「ええと」などのような無意味な語を発
声したり複数の文を連続的に発声するような人間の自然
な形の発話は除外されていた。

【０００５】これは従来の音声認識装置では、入力音声
からその意味内容を抽出するために、先ず、音声区間の
検出を行い、音声区間を隙間なく時間的に連続した意味
を持つ系列と見なして解析し、文として評価しているた
めである。つまり、ここでは、音声エネルギーの変化な
どの情報を利用して、発声された音声区間の始端あるい
は始終端を検出し、単語や単文の発話区間を取り出し、
続けて、それら区間から抽出された音声特徴パラメータ
について単語や音韻などの音声認識辞書のパターンと照
合し、これにより抽出された単語や音韻などの系列に対
し文法に記述された構文的意味的な制約を利用して、構
文・意味解析を行ない音声区間に存在する音韻や単語の
系列を隙間なく時間的に連続した区間を意味を持つ系列
と見なして解析し文として評価するようにしている。

【０００６】しかし、このような方法によると、音声区
間の中に雑音や「あのー」「ええと」のような、それ自
体意味を持たない語や、文中の間（無音区間）、言い淀
み、それに対する認識誤りや省略など、不確定な要素が
存在する場合、その音声区間全体の構文・意味解析が失
敗してしまう。

【０００７】そこで、これらの対策として、例えば雑音
や無音区間にカテゴリなどの意味を与え、他の意味を持
つ要素と同様の制約下で解析する方法も考案されている
が、これら各要素の出現位置の不確定さゆえに計算量の
著しい増大を招き易く、対処できる範囲も限定されてし
まう。

【０００８】また、従来の方法では、音声から構文、意
味的な処理と無関係に音響的な特徴のみによって、その
発話の始終端が決定されてしまうという問題もある。こ
れは、入力の構文、意味的な処理における音声区間の前
後に付加された雑音であるとか、「あのー」「ええと」
のように、それ自体意味を持たない語や、言い淀み、そ
れに対する認識誤りなど、言語知識で対処できる範囲を
外れた構文、意味的な処理の対象から除くことができ
ず、構文、意味的な処理が失敗してしまうことがある。

【０００９】また、上述の処理において音声区間つまり
文の、終端位置に自由度を持たせる解析方法も提案され
ているが、その場合でも、発話の少なくとも始端は、あ
らかじめ固定したものとして扱われるため、そこに内在
する問題は、始終端が固定された場合と同じである。

【００１０】さらに、照合単位の始終端に自由度を持た
せる方法としてスポッティング法が挙げられるが、始終
端に自由度があるのは照合の単位としての単語や音韻で
あり、入力音声の始終端は音響的特徴を使用して決めら
れたものであり、入力音声内の意味を持たない語や、言
い淀み、省略などをすべて照合の単位、すなわち単語等
として扱い、音声区間に存在する音韻や単語の系列を隙
間なく時間的に連続した区間を意味を持つ系列と見なし
て解析し、文として評価する言語的な処理を行う必要が
あるため、対処できる範囲も限定されてしまう。

【００１１】この様に、入力に発話のゆれがある入力音
声の構文や意味処理によって発話の内容を取り出す方法
は、今日に至るまで確立されておらず、こうした理由に
より、従来の音声認識のための装置は、音声インタフェ
ースとして、構文的に決った１文単位の音声入力を促す
必要があり、例えば、複数の文を連続的に発声したり、
音声区間の中に、雑音であるとか、「あのー」「ええ
と」のようなそれ自体は意味を持たない語や、文中の間
（無音区間）、言い淀み、それに対する認識誤りや省略
など人間の自然な対話で現れる形のゆれを含む発話を認
識の対象とすることができなかった。

【００１２】

【発明が解決しようとする課題】このように従来の音声
認識装置にあっては、発話のゆれを処理できないため、
音声入力モードでは予め決った入力語彙を予め決った語
順あるいは文法に従って１文単位の入力を行わなくては
ならず、「あの−」「ええと」などのような無意味な語
を発声したり複数の文を連続的に発声するような自然な
発話を入力することができないという問題点があった。

【００１３】本発明は上記事情に鑑みてなされたもの
で、無意味な語の発声や複数の文を連続的に発声するよ
うな自然な発話について対応できる音声認識装置を提供
することを目的とする。

【００１４】

【課題を解決するための手段】本発明の音声認識装置
は、音声信号を入力する音声入力手段と、この音声入力
手段より入力された音声信号を分析し音声特徴パラメー
タの時系列を求め、この時系列から抽出される音声特徴
ベクトルと予め用意された認識対象単語を照合して単語
候補を時系列に出力する音声認識手段と、音声認識手段
より時系列に出力される各単語候補をキーワードとして
構文の制約に基づいて構文解析を行い、文候補を生成す
る構文解析手段とにより構成している。

【００１５】

【作用】即ち、この発明によると、入力される音声パタ
ーンに対して終端点Ｅを所定時間、例えば８ｍｓｅｃだ
け順次シフトしながら各終端点Ｅにおける異なる始端点
候補区間、即ち、各終端点Ｅと異なる複数の始端点との
区間の各々において単語認識が行われ、多数の単語候補
が出力される。これらの単語候補をキーワードとして文
候補を生成している。この結果、入力される音声の発話
を解釈し、意味表現を取り出すために必要な情報の性質
を考慮することで、例えば「あの−」「ええと」などの
ような無意味な語を発声したり文中の間（無音区間）、
言い淀みや省略などのゆれを含む自然な発話に対する音
声認識を可能にでき、実際場面での人間と機械の自然発
話に対応できることからマンマシン・インタフェースの
向上を図ることも可能にしている。

【００１６】

【実施例】以下に、この発明の一実施例を図面を参照し
て説明するが、この実施例の音声認識装置を品物の注文
を理解するために利用するものとして説明する。この注
文の理解とは、入力された音声の意味内容を取り出すこ
とであり、例えば、図１７（ａ）に示すように「えー
と、ハンバーガーと、うーんと、コーヒー３つ下さい」
の音声が入力された場合に図１７（ｂ）に示されるよう
な（（ａｃｔＯＲＤＥＲ）（ｉｔｅｍＨＵＭＢＮ
ＯＮＵＭ）（ｉｔｅｍＣＯＦＦＥＥ３））の意味表
現を得ることが入力音声を理解することである。この入
力音声を理解するために入力音声中から意味表現に必要
なキーワードを検出し、構文・意味的な解析を行って意
味表現を生成する。尚、キーワードとは「自由な発声を
理解して意味表現を得るために必要な予め定めた特定の
単語」を表わすものとする。また、文とは、「自由な発
声に現われる構文的及び意味的に妥当なキーワードの系
列」を表わし、文候補とは、「文解析の結果である複数
のキーワード系列」であり、部分文候補とは、「文候補
の一部となり得る複数のキーワード系列」であるとす
る。尚、入力文、キーワード、文および部分文の例が図
１７（ａ）に示され、キーワードと意味表現の関係が図
１７（ｂ）に示されている。

【００１７】次に、図１を参照して本発明の一実施例の
音声認識装置の構成を説明する。

【００１８】音声入力部１は、マイクロホン等を介して
入力される音声信号をデジタル信号に変換し、このデジ
タル信号にＦＦＴ，フイルタ分析、ＬＰＣ分析、ケプス
トラム分析などの分析処理を施し、音声特徴パラメータ
の系列を生成する。この音声入力部１により生成された
音声特徴パラメータ系列は音声認識部２に送られる。

【００１９】音声認識部２は、例えば図３に示されるよ
うな予め定められた認識対象単語であるキーワードの音
声特徴パターンを記憶した音声認識辞書メモリ２１に結
合され、この音声認識辞書メモリ２１の辞書と音声特徴
パラメータ系列とを照合する。ワードスポッティング法
による音声認識の場合には、音声入力部１で生成された
特徴パラメータ系列は、始終端検出を行わずに例えば８
ｍｓｅｃのフレーム周期毎に音声認識辞書メモリ２１の
辞書と連続的に照合される。この照合は、最新フレーム
の特徴パラメータを基準とした終端同期で、発声速度の
変化に対応するため単語始端に自由度を持たせた形で行
う。尚、連続的照合によるワードスポッティング法は特
願平１ー２５５２７０号に詳細に述べられている。

【００２０】音声認識部２の認識結果は、時間的に離散
な単語の系列（単語ラティス）の形式で構文・意味解析
部３に送られる。単語ラティスの個々の単語は、少なく
とも始端、終端、尤度、単語名の４つの情報を有してい
る。単語の尤らしさを表現する尤度は、距離、類似度、
確率などが考えられ、尤度を用いて後述する構文・意味
解析を行い、文候補としての尤度を評価関数により求め
る。

【００２１】この実施例におけるキーワードが図３に示
され、文法が図５に示されている。また、意味表現の形
式が図２２に示されている。ａｃｔとは、発声の意図す
るアクションであり、この実施例では、「下さい」の意
味を表わすＯＲＤＥＲ、「追加」の意味を表わすＡＰＰ
ＥＮＤ、「いらない」の意味を表わすＤＥＬＥＴＥがア
クションである。また、ｉｔｅｍは、品目を表わし、品
名と個数の組からなる。この組をスロットと呼び、ａｃ
ｔとｉｔｅｍが組み合わされた意味表現をフレームと呼
ぶことにする。入力発声でアクションと個数が省略され
た場合は、ＮＯＡＣＴ，ＮＯＮＵＭと表記され、アクシ
ョンと個数に関するキーワードが解析により得られなか
ったことを意味表現中に表わす。更に、例えば、品物に
よっては、複数のサイズを持つものがある。例えば、辞
書に「コーラ」ＣＯＬＡＳ５：Ｅ５Ｌ，Ｍ，Ｓとそ
の品目が持つサイズが書かれていることがある。このよ
うな場合、「コーラ下さい」と入力発声でサイズが省略
された場合は、サイズの項目にＮＯＳＩＺＥと表記す
る。

【００２２】構文・意味解析部３は、音声認識部２から
キーワードが検出される毎にキーワードを入力し、文法
・辞書記憶部４に記憶されている入力文の構文的意味的
な情報及び時間的な関係を記述した文法・辞書情報を用
いて構文・意味解析を行う。

【００２３】図３には、単語辞書と後述する単語の接続
可能な範囲の例が示され、図４には、意味解析処理も含
む文法規則の例が示されている。これらが文法・辞書記
憶部４に記憶されている。

【００２４】単語ラティスの解析においては、文法・辞
書情報に記述されている各単語間の時間的な範囲、構文
的な書換え規則、意味的な整合判定処理に基づいて判定
が行われ、解析途中の結果である部分的な文の候補（部
分文候補）とその意味表現、あるいは解析結果である文
候補とその意味表現が得られる。解析途中の部分文候補
は部分文候補バッファ６に記憶される。また、上述した
解析とともに各候補を構成する単語の尤度である距離、
類似度、確率などから、それぞれの部分文候補および文
候補の全体の評価値が評価関数から求められる。この評
価関数としては、単語尤度の重み付けを考慮した和、
関、対数値の和などを用いることが可能である。

【００２５】構文・意味解析部３で利用する構文解析法
は、例えば冨田法(M.Tomita, "An Efficient Word Latt
ice Parsing Algorithm for Cotinuous Speech Recogni
tion", Proc.ICASSP'86, pp.1569-1572, Nov., 1986)を
基本として、時間的に離散なキーワードの時間的な接続
関係、構文的な接続関係の解析を行いながら、解析した
キーワード系列の意味表現を生成できるように拡張した
方法である。文法・辞書の構文的な情報は予めＬＲパー
ズ表に変換され、ＬＲパーズ表を参照しながら高速にキ
ーワード系列の構文を解析することができる。ＬＲパー
ズ表の参照と同時に時間的な関係の判定処理、意味表現
の生成処理が行えるようにＬＲパーズ表に処理参照機能
をもたすことができる。ここでは、この解析法をキーワ
ードラティスＬＲ（ＫＬＬＲ）解析法と言うことにす
る。図３および図４に示す単語辞書及び文法規則から変
換したＬＲパーズ表が図５に示されている。このＬＲパ
ーズ表が図３及び図４に示される内容の代わりに文法・
辞書記憶部４に記憶される。その他に、アーリーのアル
ゴリズム、チャート法など、横型の構文解析法であれ
ば、トップダウン法およびボトムアップ法のいずれにも
利用することが可能である。また、単語の認識から構文
解析に亘ってパイプライン処理をさせる必要が無けれ
ば、縦型の構文解析法も採用できる。いずれにしても、
本実施例の構文・意味解析部３で従来の解析方式と異な
る点は、単語候補間の構文・意味解析において、時間的
に離散的なキーワード候補間の接続可能性をすべての候
補について並列に解析を進めていくことである。

【００２６】文法・辞書記憶部４には、構文・意味解析
部３が受理する入力文の品詞と単語名の関係を表わす辞
書情報、品詞の系列の構文的な書換え規則、品詞の系列
の意味的な妥当性の判定処理及び意味表現の生成処理お
よび品詞間の時間的な関係の記述が記憶されている。こ
こでは、構文的な書換え規則は、文脈自由文法や正規文
法などで記述されている。図４は、同実施例に用いられ
る文法規則の一例を示している。同文法規則では、品詞
以外の意味情報を扱うことができるように拡張され、そ
の拡張に意味解析の処理手順が記述されている。また、
単語名は品詞と同一と見なし、構文・意味解析用の辞書
の記述及び構文・意味解析で単語名による解析も可能で
ある。ここで、ＫＬＬＲ解析法を用いる場合には、図３
および図４に示す辞書・文法情報は予め時間関係の判定
処理、意味表現生成処理の処理参照機能を持つ図５に示
すようなＬＲパーズ表に変換され、図１の文法・辞書記
憶部４に記憶する。いずれにしても、構文・意味解析の
方式に従って必要な文法・辞書情報を文法・辞書記憶部
４に記憶している。

【００２７】構文・意味解析部３は、文始端判定部３
１、文候補解析部３２、文始端判定部３３および文候補
処理部３４から構成される。文始端判定部３１、文候補
解析部３２および文終端判定部３３は順次接続され、文
候補処理部３４は文終端判定部３３に接続されている。
文始端判定部３１、文候補解析部３２および文終端判定
部３３は文法・辞書記憶部４に接続され、この文法・辞
書記憶部４から解析に必要な文法・辞書情報が供給され
る。また、文始端判定部３１、文候補解析部３２、文始
端判定部３３および文候補処理部３４は解析途中の部分
文候補を記憶している部分文候補バッファ６に接続さ
れ、このバッファ６を介して解析中の結果を記憶し、参
照する。

【００２８】文始端判定部３１は、音声認識部２から受
け取った単語候補が文法・辞書記憶部４に記憶されてい
る構文的な情報を参照して文の先頭となる単語であるか
否かの判定を行う。単語候補が文の先頭となり得る場合
には、部分文候補としてその意味表現を生成し、部分文
候補とその意味表現を部分文候補バッファ６に記憶す
る。ＫＬＬＲ解析法の場合には、文法から構成されるＬ
Ｒパーズ表を参照することで判定できる。図５は、文法
辞書４の内容に基づいて作成されるＬＲパーズ表であ
る。この表では、全認識単語の内の縦軸の状態番号０に
記述された単語、ここでは、ＨＡＮＢ，ＣＨＥＥＳＢ，
ＰＯＴＡＴＯ，ＣＯＦＦＥ，ＣＯＬＡが文の先頭単語と
なり得る単語である。文の先頭とならない単語候補に対
しては、ここでは何も行わない。

【００２９】次に、文候補解析部３２において、部分文
候補バッファ６の中の既に解析された部分文候補の内で
文始端判定部３１で新たに作成された候補以外の全ての
候補と構文・意味解析部３に入力された単語候補の全て
との組合せに対して、構文・意味解析処理を行う。ＫＬ
ＬＲ解析法で言えば、先に述べたＬＲパーズ表を参照し
ながら部分文候補と単語の組合せに対して文法的に接続
可能であるかの判定を行い、更に、部分文候補を新たに
部分文候補バッファ６に加える。構文・意味解析と同時
に構文木や意味表現の生成および部分文候補の尤度の評
価を行い、部分文候補バッファ６に加える。

【００３０】文終端判定部３３において、部分文候補バ
ッファ６の部分文候補の全てに対して、各部分文候補が
文として成立しているか否かを文法辞書記憶部４を利用
して判定を下す。図５のＬＲパース表では、文の終端を
表わす記号（＄）を部分文候補に仮想的に接続し、文と
して受理されるかの判定を行う。受理されれば、その部
分文候補とし、この文候補の意味表現および文候補の評
価値を出力する。

【００３１】文候補処理部３４は、部分文候補バッファ
６に記憶されている候補の管理を行うもので、１つの入
力単語に対して文始端判定部３１、文候補解析部３２お
よび文終端判定部３３による処理が終了した時点で部分
文候補バッファ６に記憶された部分文候補の各々の長さ
が最大文候補長ＳＬよりも長い場合にその部分文候補を
削除する。これは、通常の発声では無いような長さの候
補の処理を行わないようにするためである。これによ
り、有限の大きさの部分文候補バッファ６を利用して、
連続的な構文・意味解析が可能となり、解析された意味
表現が逐次出力される。ここで、最大文候補長ＳＬと
は、時間的な長さでも単語数としての長さでも可能であ
り、時間的な長さの場合には、部分文候補の始端から終
端までの時間長と最大文候補長ＳＬとを比較し、また、
単語数による場合には、部分文候補を構成する単語数と
最大文候補長ＳＬとを比較することにより部分文候補数
の削減を行う。

【００３２】複数の文候補とその尤度および意味表現の
出力は音声言語解析装置や音声対話装置などに供され、
音声入力による対話や発声内容に基づく検索などの処理
が行われる。

【００３３】次に、上記実施例の音声認識装置の動作を
説明する。

【００３４】音声入力部１にマイクロホン等を介して音
声信号が入力されると、この音声信号はデジタル信号に
変換されたのち、ＦＦＴ，フイルタ分析、ＬＰＣ分析、
ケプストラム分析などの各処理に課せされ、音声特徴パ
ラメータの系列として出力される。ここでは、８ｍｓｅ
ｃの一定時間間隔毎に例えば１６次元のフイルタバンク
出力の音声特徴パラメータが計算され、音声特徴パラメ
ータの系列が音声認識部２に出力される。

【００３５】音声認識部２では、図３に示される認識対
象単語の音声認識辞書メモリ２１の内容と音声特徴パラ
メータの系列との照合がワードスポッティング法に基づ
いて行われる。ワードスポッティング法は、図２に示さ
れるように連続する音声パターンＶＰの照合を連続的に
行う照合方法である。即ち、音声入力部１より入力され
る音声信号を分析することにより得られる特徴パラメー
タの系列の分析フレームの各々の終端点をＥと仮定し、
照合単語を形成するための音声区間条件を満たす複数の
始端点からなる始端点候補区間をＳと仮定する。これら
始端点で示される複数の仮の音声区間の特徴パラメータ
の系列を時間軸方向にリサンプル処理し、音声区間を異
にする所定の次元数の特徴ベクトルを終端点Ｅを基準と
して求める。このように終端点Ｅを時間軸方向に例えば
８ｍｓｅｃだけシフトしながら順次連続的に特徴ベクト
ルを抽出し、各特徴ベクトルと音声認識辞書メモリ２１
の内容との尤度をそれぞれ求めるとともに各特徴ベクト
ルについて求められた尤度系列から各カテゴリ毎に最大
尤度を示す音声特徴ベクトルと始端情報を求める。

【００３６】このようにしてワードスポティングを行
い、図１８に示すようなＷ１からＷ６の単語候補の時系
列（キーワードラティス）を得る。音声認識部２におい
て認識された単語候補は、構文・意味解析部３に出力さ
れる。

【００３７】文始端判定部３１は単語候補が構文的な情
報から文の先頭として出現し得る単語であるか否かの判
定を行う。図５のＬＲパーズ表では、全認識単語の内の
縦軸番号０に対して動作の記述された単語、ここでは、
ＨＡＭＢ，ＣＨＥＥＳＢ，ＰＯＴＡＴＯ，ＣＯＦＦＥ，
ＣＯＬＡが文の先頭単語となり得る単語である。図１８
の単語ラティスの例では、Ｗ１「２個」は先頭となり得
ない。Ｗ２「ハンバーガー」は先頭となり得るので、Ｗ
２を文頭とする解析スタックを生成し、更にＷ２を部分
文候補として部分文候補バッファ６に記憶する。この処
理解析の状態の例が図１９に示されている。

【００３８】文候補解析部３２は、部分文候補バッファ
６の中の既に解析された部分文候補の内で文始端判定部
３１で新たに作成された候補以外の全てと、構文・意味
解析部３に入力された単語候補の全てとの組合せに対し
て、時間的接続の判定と構文・意味解析処理を行う。

【００３９】時間的な連接可能性の判定は各部分候補の
終端点と、各単語の始端点の情報を利用する。この場
合、各部分文候補の両点の時間的なある程度の重なり
と、ある程度の距離は許すものとし、例えば、重なりは
１００ｍｓｅｃ、距離は４００ｍｓｅｃを設定する。勿
論、単語毎に値を設定することも考えられる。この時に
連接し得る単語間の距離をより適切に設定することで、
例えば、「あのー」や「えーと」などの無意味な語や、
非言語的な雑音、認識対象外の単語、言い淀み、それに
対する誤認識単語などを除いた形の部分文候補を生成し
て解析を進めるようにしている。図２０では、ＳＳ１か
らＳＳ５までの部分文候補に対して、Ｗ６「下さい」と
の接続可能範囲、Ｗ４では（Ｓ４，Ｅ４）、Ｗ５では
（Ｓ５，Ｅ５）の範囲にＷ６の始端が入ってくるかが判
定される。この例では、「下さい」、「コーヒー」、
「コーラ」が接続可能である。

【００４０】時間的接続の判定について別の例で説明す
る。

【００４１】図６は、音声入力として「ハンバーガー
と、えーとコーヒーを下さい」が入力され、音声認識部
２より単語候補としてＷ１からＷ６が与えられた場合を
示している。この場合、Ｗ１「ハンバーガー」に連続可
能な単語の始端は、Ｗ１「ハンバーガー」の終端を基準
にしてＳ１からＥ１の区間に存在するものとしている。
これは不要語や助詞などが発話される文の意味内容理解
に必要なキーワード（図示の例では、ハンバーガー、コ
ーヒー、下さい）以外の部分の時間長を考慮して決めら
れる。ここでは、Ｓ１からＥ１の区間にはＷ２「１
個」，Ｗ３「２個」，Ｗ４「コーヒー」の始端があるた
め、それぞれがＷ１「ハンバーガー」に時間的な関係か
ら連接可能であると判断される。文法的にも接続可能で
あると判断されれば、Ｗ１とＷ２、Ｗ１とＷ３，Ｗ１と
Ｗ４の部分文候補が生成される。

【００４２】以上の例で説明した時間接続の判定機能を
ＫＬＬＲ解析法は備えているため従来の解析法では解析
できなかった時間的に離散なキーワードの系列が解析で
きるようになった。更に、従来の解析法では、解析スタ
ックが１つであったために入力全体の一部分だけを解析
することはできなかったが、文の始端となり得るキーワ
ードが検出される毎に解析スタックを生成することによ
り、入力の部分的な解析が可能となり、例えば、「あの
ー」や「えーと」などの無意味な語や非言語的な雑音、
認識対象外の単語、言い淀みなどを除いた構文・意味解
析が可能となっている。

【００４３】構文・意味解析である文法規則による接続
可能の判定例として、図５のＬＲバーズ法を用いて「ハ
ンバーガー」「コーヒー」「下さい」の系列を処理する
場合の解析の状態の変化が図２１に示されている。図５
の添字は図２１の処理番号を示している。ＬＲパーズ表
のＳｎは状態番号ｎにシフトすること、ｒｍは文法規則
ｍを利用してリデュースすることを示している。解析進
行に従って意味表現が生成され、更に、入力単語の尤度
から部分文候補の尤度を求めている。ここでは、尤度の
評価については述べず、構文意味解析の処理を詳細に説
明する。

【００４４】図４の文法では、文法規則の拡張項に意味
表現生成の処理が書かれている。Ｘ０は文法適用後に生
成される意味表現を表わし、文法９）の＜ＩＴＥＭ
＞：：＝＜ＦＯＯＤ＞の場合、Ｘ０＝ｍｓ（Ｘ１，ＮＯ
ＮＵＭ）はＦＯＯＤの品物のスロットを個数が未定で生
成することを示している。また、ｍｆ（）はフレームの
生成を示している。ここで、フレームとは、構文的に文
となるものの意味表現を表わし、スロットとは、フレー
ムの構成要素を表わすものである。図２１の例では、
（ＯＲＤＥＲ（ＨＡＭＢＮＯＮＵＭ）（ＣＯＦＦＥＥ
ＮＯＮＵＭ））が生成され、「個数未定のハンバーガ
ーと個数未定のコーヒーを注文する」という意味内容を
表現している。

【００４５】上記の例では、「ハンバーガー」「コーヒ
ー」「下さい」の１つの系列のみについて説明したが、
例えば、図２０のような場合には、解析中の部分文候補
ＳＳ１からＳＳ９までそれぞれに同様の処理を行い、そ
れぞれの文候補について意味表現が得られる。

【００４６】上記の構文・意味解析の後、文終端判定部
３３は、部分文候補バッファ６の部分文候補の全てに対
して、各部分文候補が文として成立しているか否かを文
法辞書４を利用して判定を下し、文として成立している
ならば、判定結果である文候補尤度および意味表現を出
力する。

【００４７】ここで、文法の曖昧性により、その候補が
次のフレーム以降に出現する単語を用いて更に解析を進
める可能性がある場合には、元の候補を複製して部分文
候補バッファ６に残される。

【００４８】また、文終端判定部３３では、それぞれの
部分文候補が文法的に完全な文としてなるか否かの判定
を行う。ＫＬＬＲ解析法の場合には、それぞれの部分文
候補に文種端の記号（＄）を接続し、ＬＲパーズ表に従
って解析し、文として成り立つことを表わすａｃｃのア
クションを得た場合に、完全な文であると判定する。こ
の処理を連続的に行うことにより出力として文として成
立した文候補とその意味表現および尤度が連続的に出力
され、ラティスの形で複数の文の情報を出力することに
なる。

【００４９】次に、部分文候補バッファ６に残された部
分文候補全てに対して、文候補処理部３４は、例えば、
予め決まった時間の長さＬＭＡＸ以上の部分文候補を部
分文候補バッファ６から削除する。これにより、以後に
認識される単語候補が連接し得ない部分文候補を削除す
ることができ、この削除が有限の記憶領域の部分文候補
バッファ６の下で連続的に行うことができる。長さとし
て最大の単語数も可能である。

【００５０】このようにして、従来の方法では克服が難
しかった雑音、無意味な語、単語の沸き出し、無音区
間、連続文に対処することが可能となり、単語ラティス
を構文的および意味的に解析して、図２０の例では、文
候補Ｓ１からＳ９が得られることになる。

【００５１】次に、評価関数の例を図１２（ａ）に示す
ような単語列の場合について説明する。この例では、
「ハンバーガー」の尤度がＬＦ1 ，継続時間がｔ1 ，更
に「コーヒー」、「３つ」、「下さい」の尤度と継続時
間がそれぞれＬＦ2 ，ｔ2 ，ＬＦ3 ，ｔ3 ，ＬＦ4 ，ｔ
4 である。更に、文の始端である「ハンバーガー」の始
端から文の終端である「下さい」の終端縁までの文の継
続時間がＴ４であり、単語数Ｎが４である。図１２
（ｂ）に示す例では、（ＬＦ1 ＋ＬＦ2 ＋ＬＦ3 ＋ＬＦ
4 ）／４＋α＊（ｔ1 ＋ｔ2 ＋ｔ3 ＋ｔ4 ）／Ｔ4 が文
の尤度ＴＬＦ4 となる。ここで、（Σｔｉ）／ＴN の項
は時間的な文の継続時間に対する単語の継続時間の比を
表わし、文を構成する単語が互いに離れる度合が大きい
と小さくなり、文中に不要な語が全く無い場合に最大値
の１になるもので、文を構成する単語間の時間的関係の
評価に用いられ、係数αによる重み付けがなされてい
る。この係数αは実験的に最適な値が決められ、例えば
発声して単語区間が指定された学習用データを用い、最
尤推定法やニューラルネットなどの方式で最適な係数を
決定することができる。

【００５２】更に、別の評価関数の例が図１３に示され
ている。この例では、認識対象外の区間との尤度をｘ評
価に含めるものであり、その方式は、ＨＭＭ（Hidden M
arkov Model ）を用いた場合は、文献（J.Wilpon, “Im
provements and Applicationfor Key Word Recognition
using Hidden Markov Modeling Techniques",ICASS9
1, 309-312,Nov,1991 ）に詳しい。図１３（ｂ）では、
認識対象単語系列の尤度ＬＦｉ，ｉ＋１と対象外区間の
尤度ＬＦｉ’との重み付けβにより統合して評価値とす
る評価関数を用いたものである。更に、重み付けβは、
個々の区間毎に隣接する単語名などの条件により個別に
設定することも可能である。いずれの実施例において
も、複数の対象単語と対象外の区間の尤度、継続時間の
一部あるいは全体及びそれらの相互関係に基づき評価を
行って、発声中の対象となる単語を正確に得ることを目
標としている。

【００５３】また、前述したように単語候補の時間的な
連接関係を調べると同時に部分文候補が最後に解析に利
用した単語と、構文、意味解析部３に入力された現在解
析中の単語を用いた単語組文法（word pair grammar ）
を構文・意味解析と同時に適用することで解析に必要な
計算量の削減が可能である。その構成例が図２３（ａ）
に示されている。単語組判定部３４は文候補解析部３２
の前であり、文候補解析の前に現在解析の対象となって
いる単語と部分文候補バッファ６に記憶されているそれ
ぞれの部分文候補の最後の単語との関係を次に述べる単
語組文法を用いて判定する。ある部分文候補について、
判定の結果により接続する場合には、文候補解析部３２
により解析が行われる。また、判定の結果により接続し
ない場合には、文候補解析を行わずに文終端判定を行う
ようにする。この処理をすべての部分文候補について行
う。単語組文法による判定は文候補解析部３２の判定よ
りも簡単な処理で可能なために不必要な文候補解析の削
減が可能となり、構文・意味解析の処理をさらに効率よ
く行うことが可能となる。

【００５４】図１４は、単語組文法の例を示す。例え
ば、％ｘｏｆｆは、単語の系列の中に単語名がＬＥＦＴ
ＲＩＧＨＴ・・・の組合せで現われた場合にその系列
の解析を中止することを示している。図１５は、図１４
に示した規則を用いた例を示す。丸数字１の％ｘｏｆｆ
では、「ハンバーガー」と「ハンバーガー」など同一の
品名は連続しない、丸数字３の％ｘｏｆｆでは、「１
個」と「１個」や「２個」などの個数は連続しない、丸
数字４の％ｘｃｌｒと％ｘｏｎｒでは、「１個」「ず
つ」、「４個」「ずつ」など個数のみが「ずつ」に連続
することを示している。この文法を用いて、例えば、図
２３（ｂ）のような文法と辞書の場合に入力として「ハ
ンバーガーとハンバーガーを下さい」のような注文は一
般的にはないので、図１５の丸数字１のような文法が有
効となる。このような単語組文法が使用できない場合に
は、個別の規則を文法中に書く必要があり、文法が複雑
なものとなる。

【００５５】更に、認識対象単語に日本語の形態素解析
で一般的な左右の連続性を与え、予めその属性に従って
記述した連接バッファを参照し、単語同士の連接可能性
を判断することも可能である。図１６（ａ）に２単語の
連接を考慮した場合の連接バッファが示されている。こ
のバッファは、左単語名、右単語名、左端点位置、右端
点位置、単語の連接の結合度関数、左単語の尤度の閾
値、右単語の尤度の閾値が１つの項目となり、それぞれ
の単語の組合せについて記述されている。また、図１６
（ｂ）は、図１６（ａ）の連接バッファを用いた場合の
判定処理を示している。この例では、「ハンバーガー」
の単語の処理を行っている。例えば、「ハンバーガー」
と「１個」の場合には、「１個」をＮＵＭ（個数）に属
する単語で、「ハンバーガー」の右端点を基準にして
（−５，４０）の区間で結合度関数Ｐ１で連接し、それ
ぞれ「ハンバーガー」が０．８、「１個」が０．６以上
の尤度が必要であることが図１６（ａ）のバッファに表
現されている。入力の「ハンバーガー」が尤度０．８４
であり、「１個」が尤度０．６５であった場合に、それ
ぞれの尤度は尤度の閾値以上であり、「ハンバーガー」
の右端点を基準にして（−５，４０）の区間内に「一
個」の左端点が入っているので、この「ハンバーガー」
と「１個」は連接可能である。更に、結合度関数Ｐ１に
基づいて「一個」の結合度を求めると、この結合度はＰ
１１であり、「ハンバーガー」と「一個」の単語列の尤
度は（０．８４＋Ｐ１２＊０．７）／２となる。ここ
で、１／２は単語数２による平均化であり、図１２
（ｂ）や図１３（ｂ）の第１項と同等のものとなる。こ
のようにして、単語の連接の判定で連接の可／不可だけ
でなく、２単語の結合度を考慮して、評価関数に単語間
の時間的間隔と単語の組合せを考慮することが可能とな
る。更に、図４及び図５に示すような文法情報に基づい
て解析する際に個々のの文法規則毎に結合関数を定め、
評価関数に組み込むことが可能である。

【００５６】このように、２単語の時間的関係のみに限
定せずに接続の判定を行う単語名に存在した時間離散な
単語間の結合度や連接区間を用いることにより、無意味
な語や非言語的な雑音、認識対象外の単語、言い淀み、
認識単語などを除いた部分文候補の解析が可能となるば
かりでなく、部分文候補の局所的な特徴、例えば、「ハ
ンバーガー」「２個」の単語列に比べて「ハンバーガ
ー」「コーヒー」の方が単語の間で言い淀むことが多い
現象や、「ハンバーガー」「下さい」、「ハンバーガ
ー」「いりません」などの処理を示す語（「下さい」、
「いりません」）の前には言い淀むことが少ないなどの
現象を考慮して部分文候補の尤度を評価することが可能
となり、精度の高い解析が可能となる。また、評価値の
高い複数の部分文候補のみを処理すること（ビームサー
チ法）により、精度を落とさずに処理の削減が可能とな
る。

【００５７】尚、ここでは、左単語を基準として右単語
の接続範囲を限定したが、右単語を基準にすることも可
能である。また、２単語の場合について説明したが、複
数の単語の関係を考慮して評価できることは言うまでも
ない。

【００５８】また、部分文候補の爆発、即ち候補の数が
極端に増加することを抑え、計算量を少なくするために
全ての部分文候補に何らかの評価関数を適用して評価を
行い、その結果によりソートして、予め定めた候補（ビ
ーム幅）に外れる評価の低いものを枝刈りする処理は、
次のフレーム以降の入力を使って認識された単語との解
析処理に利用される。

【００５９】ここで、図７は構文・意味解析部３で処理
されるデータの時間的な対応を概念的に示している。同
図において、ＶＰは時間とともに変化する入力音声エネ
ルギー、ＦＰが現在の解析時点，ＦＵが最小の解析単位
であるフレームの長さである。また、Ｗ１からＷ２は現
時点で認識された単語候補、Ｃ１からＣ８は現在解析中
の部分文候補，Ａ１からＡ５は文として成立して出力さ
れる処理済みの部分文候補である。図７において、例え
ば、単語候補Ｗ１が文の始端となり得る単語であれば、
その単語Ｗ１を先頭とした新しい部分文候補Ｃ９が生成
される。また、部分文候補Ｃ６と単語候補Ｗ３が構文・
意味解析の結果、接続されると判定されるならば、その
部分文候補Ｃ６は複製され、部分文候補Ｃ１０として生
成される。更に、その部分文候補Ｃ１０の最後の単語候
補Ｗ３が文の終端となり得るものならば、部分文候補Ｃ
１０は複製され、文候補Ａ６として出力されるようにな
る。尚、同図中のＣＲは解析時点ＦＰを起点とした部分
文候補の存在範囲であり、終端点がＣＲから外れた部分
文候補は削除される。現時点で認識された単語候補Ｗ１
からＷ３に対する全ての解析が終ったならば、解析時点
ＦＰを次処理のため１だけインクリメントされる。

【００６０】次に、図８に示すように「ハンバーガーと
コーヒー下さい。あ、それとポテトも追加して」と、２
つの文を連続して発声し、文頭に雑音が混入したような
場合を説明する。

【００６１】この場合、音声認識部２において、認識さ
れた単語候補としてＷ１からＷ１１が与えられたものと
し、これら単語候補Ｗ１からＷ１１は、構文・意味解析
部３で上述した方式に従って構文・意味解析される。即
ち、まず、文始端判定部３１で、各単語候補について構
文的な情報であるＬＲパーズ表から文の先頭として出現
し得る単語であるか否かが判定される。最初に「ハンバ
ーガー」Ｗ２が該当する。次に、「ハンバーガー」Ｗ２
に連接可能な単語の始端が調べられる。この場合、「コ
ーヒー」Ｗ４，「コーラ」Ｗ５および「下さい」Ｅ６が
該当するものとすると、部分文候補としてＳ１、Ｓ２お
よびＳ４が生成される。次に、分の先頭として出現し得
る単語として「コーヒー」Ｗ４が該当すると、今度は
「コーヒー」Ｗ４に連接可能な単語の始端が調べられ、
部分文候補Ｓ３が生成される。以下同様にして部分文候
補Ｓ５およびＳ６が生成される。

【００６２】その後、このような複数の部分文候補につ
いて単語の終端が調べられ、候補文が生成される。これ
らの構文の内の最終的候補の選択は、文候補解析部３の
出力を図示しない音声言語処理装置に与え、ここで音響
的な特徴、文候補の持つ尤度、文脈情報などの様々な情
報を利用することにより実現できる。

【００６３】従って、このようにすれば、無限長を持つ
音声入力に対しても連続的に構文・意味解析を行い、文
候補を抽出することで、解析された文候補は、ラティス
形式で連続的に出力できるようになり、入力音声系列自
体の本来の意味とは無関係に構文・意味解析の前に予め
区切ることなく、文法的および意味的な制約を利用して
入力系列に対する文単位の句切りを連続的に行うことが
可能となる。

【００６４】尚、このように無限長を持つ音声入力に対
して連続的に構文・意味解析を行い、文候補を抽出する
ことになると、連続的に出力される文候補を記憶するた
めの記憶領域の有限性の問題が発生するが、現在の対話
の流れから関連が無いと思われるような、例えば、１０
分間前に発話された文候補は強制的に捨てると言う文候
補を残すためのある種の境界を設定するようにすれば問
題は回避できる。

【００６５】また、図９のタイムチャートに示すように
音声の入力ａから単語の終端同期による認識及び入力単
語終端同期の構文・意味解析ｂを１フレーム毎にパイプ
ライン的に進めるようにすれば、音声入力から文解析結
果を出力するまでの時間的な遅延を最小に抑えることが
できる。その遅延の最小はフレーム分の時間（例えば、
８ｍｓｅｃ）である。

【００６６】次に、図１０を参照してこの発明の他の実
施例を説明する。

【００６７】この実施例によると、音声認識部１２に接
続される構文・意味解析部１３１、文候補解析部１３
２、文終端判定部１３３および文候補処理部１３４以外
に単語予測部１３５が設けられている。

【００６８】文始端判定部１３１、文候補解析部１３
２、文終端判定部１３３および文候補処理部１３４は先
の実施例において既に説明したものと同じであり、単語
予測部１３５は部分文候補バッファ６に記憶されている
それぞれの部分文候補に接続可能な単語を予測し、予測
された単語だけを音声認識部１２で認識する。例えば、
処理の開始時点では、文始端となる単語だけを認識す
る。図４の文法の例では「ハンバーガー」「チーズバー
ガー」「ポテト」「コーヒー」「コーラー」が最初の認
識対象単語となる。この場合には、図５のＬＲパーズ表
の状態番号０が処理の開始状態を表わし、ＬＲパーズ表
を参照して「ハンバーガー」「チーズバーガー」「ポテ
ト」「コーヒー」「コーラー」だけが認識対象単語であ
ることが分かる。また、図４の文法では、部分文候補の
終端の単語がＮＵＭである場合には、次は、ＦＯＯＤ、
ＤＲＮＫ，ＶＰであり、ＮＵＭが続くことはない。これ
は、図５のＬＲパーズ表では、状態番号２に対応する。
そこで、部分文候補の終端の単語がすべてＮＵＭである
場合、即ち、状態番号２では、ＯＮＥ，ＴＯＷ，ＴＨＲ
ＥＥの合計６単語の照合を行う必要がない。このように
して、単語予測部１３５により解析中の部分文候補と文
法知識を利用して次に出現可能な単語を予測して、音声
認識部２を制御することにより認識単語数を削減して、
計算量を軽減することができる。

【００６９】図１１は、音声の入力ａ、単語の終端同期
による認識および入力単語終端同期の構文・意味解析
ｂ、単語予測ｃを１フレーム毎にパイプライン的に進め
るようにした処理のタイムチャートを示し、単語予測機
能を組み込んでもパイプライン的に処理が可能であり、
音声入力から文解析結果を出力するまでの時間を短縮す
ることができる。

【００７０】

【発明の効果】以上に述べたように、本発明によれば、
入力される音声の発話を解釈し、意味表現を取り出すた
めに必要な情報の性質を充分に考慮することで、例えば
「あの−」「ええと」などのような無意味な語を発声し
たり、文中の間（無音区間）、言い淀みや省略などのゆ
れを含む自然な発話に対するロバストな音声認識を実現
できることになり、実際場面での人間と機械の自然な発
話について対応できることから、マンマシン・インタフ
ェースの飛躍的な向上も期待できる。

【図面の簡単な説明】

【図１】本発明の一実施例の概略構成を示す図。

【図２】音声認識部の出力例を示す説明図、

【図３】単語辞書および単語の接続可能な範囲を示す
図。

【図４】意味解析処理を含む文法規則を示す図。

【図５】図３及び図４に示す単語接続可能範囲および文
法規則のＬＲパーズ表。

【図６】単語候補の時系列（単語ラティス）を示す図。

【図７】構文・意味解析部により処理されるデータを示
す図、

【図８】構文解析の具体例を説明するための図。

【図９】音声認識および構文・意味解析をパイプライン
的に処理するタイムチャートを示す図。

【図１０】本発明の他の実施例に従った音声認識装置の
概略構成を示す図。

【図１１】図１０に示す他の実施例の音声認識および構
文・意味解析をパイプライン的に処理するタイムチャー
トを示す図。

【図１２】評価関数を示す図。

【図１３】他の評価関数を示す図。

【図１４】単語組文法の規則を示す図。

【図１５】図１４の単語組文法の規則を用いて作成した
文法を示す図。

【図１６】２単語の連接を考慮した連接バッファおよび
この連接バッファ用いてた判定処理を示す図。

【図１７】文および部分文の例を示す図。

【図１８】入力ラティスを示す図。

【図１９】解析処理を示す図。

【図２０】他の解析処理を示す図。

【図２１】単語系列を処理するときの解析の状態変化を
示す図。

【図２２】意味表現の形式を示す図。

【図２３】他の実施例に従った音声認識装置の概略構成
を示す図。

【符号の説明】

１…音声入力部、２…音声認識部、３…構文・意味解析
部、４…文法・辞書記憶部、６…部分文候補バッファ、
２１…音声認識辞書メモリ、３１…文始端判定部、３２
…文候補解析部、３３…文終端判定部、３４…文候補処
理部。

Claims

【特許請求の範囲】

【請求項１】音声信号を入力する音声入力手段と、前記音声入力手段より入力された音声信号を分析し音声
特徴パラメータの時系列を求め、この時系列から抽出さ
れる音声特徴ベクトルと予め用意された認識対象単語と
を照合して単語候補を時系列として出力する音声認識手
段と、前記音声認識手段より時系列として出力される各単語候
補をキーワードとして構文の制約に基づいて構文解析を
行い文候補を生成する構文解析手段と、を具備したことを特徴とする音声認識装置。
【請求項２】時系列で出力される単語候補は、時間的
に離散的なキ−ワ−ドのラティス表現とすることを特徴
とする請求項１記載の音声認識装置。
【請求項３】構文の制約と解析中の部分文候補に基づ
いて出現可能な単語候補を予測して次の入力音声の認識
処理に利用することを特徴とする請求項１記載の音声認
識装置。