JPH10254480A

JPH10254480A - 音声認識方法

Info

Publication number: JPH10254480A
Application number: JP9059397A
Authority: JP
Inventors: Katsutoshi Ofu; 克年大附; Tatsuo Matsuoka; 達雄松岡; Sadahiro Furui; 貞▲煕▼ 古井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-03-13
Filing date: 1997-03-13
Publication date: 1998-09-25

Abstract

(57)【要約】【課題】高精度な言語モデルを用いて、高性能な連続音
声認識処理を高速に行う音声認識方法を提供する。【解決手段】入力音声の音響的な特徴からその認識結果
を判定する音響モデルと、文法的な特徴から認識結果を
判定する言語モデルとを用いて、複数段階の判定・探索
により認識結果を得る連続音声認識方法であって、１段
階目の探索で簡単な音響モデルと簡単な言語モデルを用
いて入力音声に対して高い評価値を与える認識結果の上
位Ｎ個の仮説を出力し(ステップS110)、２段階目以降の
探索を行う際に、１段階目の探索で絞り込んだ候補群の
再評価に必要な高度な言語モデルをあらかじめ抽出し
（ステップS140）、２段階目以降の探索で高度な音響モ
デルおよび高度な言語モデルを用いて１段階目の候補を
再評価し、評価値の高い候補を認識結果とする（ステッ
プS150）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、連続発声された音
声を認識あるいは理解するための装置に実装して用いる
のに好適な連続音声認識方法に関する。

【０００２】

【従来の技術】音声の音響的特徴を確率的、統計的にモ
デル化する手法である隠れマルコフモデル（Hidden Mar
kov Model：ＨＭＭ）を用いた音声認識システムでは、
一認識対象カテゴリ、つまり音素、音節、単語などの語
彙（あるいは認識対象単位）ごとに、一つ、あるいは複
数のＨＭＭを設定し、学習用音声を用いて学習する。認
識時には、音声認識システムの入力音声がそれらのモデ
ルから観測される確率を計算し、尤度（尤もらしさ）の
最も高い順に認識結果候補としている。ＨＭＭは、統計
的なモデルであるから学習用音声中に現れた頻度に従っ
て、ある音響的特徴量とあるカテゴリとを関連づける強
さを内部に確率分布として表現する。

【０００３】大語彙連続音声認識では、調音結合の影響
などにより音響的な特徴量が変動しやすく、また発音が
似ているあるいは同じ単語が存在するため、音響的な特
徴パラメータだけから正確な音声認識を行うことが困難
である。そこで、文法的な特徴から認識結果を判定する
ための言語モデルを用い、文脈によってより出現しやす
い単語により重みをおいて評価するなどの言語的な処理
により認識精度を向上する手法が取られる。

【０００４】

【発明が解決しようとする課題】従来の手法では、音響
モデルから得られる尤度（スコア）に対して簡単な言語
モデル（単語bigram（バイグラム：２連語）など）を用
いてペナルティを加えたものを評価値として、評価値の
高い認識候補（仮説）から順に上位Ｎ位までの候補を出
力し、その候補に対して高度（高精度）な言語モデル
（単語trigram（トライグラム：３連語）など）を用い
て再び評価を行うことにより認識結果を出力していた
が、高度な言語モデルは種類数が多いため探索空間が非
常に大きくなり、探索に時間がかかってしまうという問
題があった。したがって、高度な言語モデルをより効率
的に音声認識に用いる方法が必要であった。

【０００５】本発明の目的は、高精度な言語モデルを用
いて、高性能な連続音声認識処理を高速に行う音声認識
方法を提供することにある。

【０００６】

【課題を解決するための手段】上記課題を解決するた
め、請求項１記載の発明は、入力音声の音響的な特徴か
らその認識結果を判定する音響モデルと、文法的な特徴
から認識結果を判定する言語モデルとを用いて、複数段
階の判定・探索により認識結果を得る連続音声認識方法
であって、１段階目の探索で簡単な音響モデルと簡単な
言語モデルを用いて入力音声に対して高い評価値を与え
る認識結果の複数の候補を出力し、２段階目以降の探索
で高度な音響モデルおよび高度な言語モデルを用いて１
段階目の候補を再評価し評価値の高い候補を認識結果と
する音声認識処理において、２段階目以降の探索を行う
際に１段階目の探索で絞り込んだ候補群の評価に必要な
高度な言語モデルをあらかじめ抽出しておくことを特徴
としている。

【０００７】また、請求項２記載の発明は、請求項１に
記載の方法の言語モデルの抽出処理において、１段階目
の探索で絞り込んだ候補群に現れる複数の言語モデルを
それぞれ整列しておき、２段階目以降の探索に必要な言
語モデルの抽出処理を高速に行うことを特徴としてい
る。

【０００８】また、請求項３記載の発明は、入力音声の
音響的な特徴からその認識結果を判定する音響モデル
と、文法的な特徴から認識結果を判定する言語モデルと
を用いて、複数段階の判定・探索により認識結果を得る
連続音声認識方法であって、１段階目の探索で第１の言
語モデルを用いて入力音声に対して高い評価値を与える
認識結果の複数の候補を出力し、２段階目以降の探索で
前記第１の言語モデルと異なる第２の言語モデルを用い
て前記１段階目の候補を再評価する音声認識処理におい
て、前記２段階目以降の探索を行う際に前記１段階目の
探索で絞り込んだ前記第１の言語モデルによる候補群の
評価に必要な前記第２の言語モデルをあらかじめ抽出し
ておくことを特徴としている。

【０００９】本発明は、連続音声認識において、より高
度な言語モデルを用いて認識候補の再評価を行う際、言
語モデルの中から再評価に必要なエントリ（見出し語）
だけをあらかじめ抽出しておくことにより、必要なエン
トリを逐次検索する方法に比べ、効率的に検索を行うこ
とが可能であり、それにより高速な音声認識処理が実現
できるという利点がある。複数段階の判定・探索により
認識結果を得る連続音声認識方法では、第１段階の探索
の結果絞り込まれた候補群を評価するのために第２段階
以降の探索で必要とされる高度な言語モデルは、高度な
言語モデルのデータベース全体からみてごく一部であ
り、かつ同じ種類の言語モデルが繰り返し参照される回
数が多くなる。したがって、必要とされる高度な言語モ
デルだけを膨大な高度な言語モデルデータベースからあ
らかじめ抽出しておくことにより、検索の効率を向上さ
せることができる。

【００１０】

【発明の実施の形態】以下、図面を参照して、この発明
の一実施形態について説明する。簡単な言語モデルとし
て単語バイグラム、高度な言語モデルとして単語トライ
グラムをそれぞれ用いた大語彙連続音声認識の場合を例
として本発明の一実施形態を説明する。大語彙連続音声
認識システムは、図１に示すように音響特徴量分析部10
0とデコーダー110からなり、デコーダー110では、音響
モデルのデータベース120と言語モデルのデータベース1
30によって入力音声の特徴量が評価される。２段階の探
索を行う場合のデコーダーは図２のようになる。認識対
象である音声入力は、特徴量分析により音響パラメータ
ベクトルの時系列（音響特徴量）にされ、デコーダー1・
210において簡単な音響モデルのデータベース220と簡単
な言語モデルのデータベー230により尤度が計算され
る。デコーダー1・210は計算された尤度に基づいて上位
Ｎ個の仮説を１段階目の探索の結果として出力する。本
実施形態では、デコーダー1・210からデコーダー2・310へ
渡されるものは、(1)探索結果の上位Ｎ個の候補群と(2)
候補群の評価に必要な高度な言語モデルエントリを整列
したものである。ただし、(2)に関しては、このように
デコーダー1・210で生成・整列するようにしてもよい
し、デコーダー2・310で生成・整列するようにしてもよ
い。

【００１１】２段階目の探索では、デコーダー2・310
が、１段階目からの出力を高度な音響モデルのデータベ
ース320と高度な言語モデルのデータベース330を用いて
再び評価する。本実施形態では、簡単な言語モデルのデ
ータベース230は、単語の２つ組の出現確率を大量の学
習用テキストデータから学習した単語バイグラムであ
り、高度な言語モデルのデータベース330は単語３つ組
の確率を学習した単語トライグラムである。高度な音響
モデルのデータベース320としては、例えばパラメータ
数の多いモデルや前後の音素や単語などに基づいて細か
く分類されたモデルを用いたり、あるいは同一のモデル
を用いることができる。第１段階と第２段階で異なる音
響モデルを用いるのは、第１段階の探索を高速に処理す
る必要がある場合である。要求される処理速度の範囲内
ではできるだけ高精度な音響モデルを第１段階から用い
るのが望ましい。この実施形態では、音響モデルのデー
タベース220，320における音響モデルとして、１段階
目、２段階目ともに同じものを用いることとする。

【００１２】語彙単語にはあらかじめ通し番号を付与し
ておき、単語バイグラムおよび単語トライグラムはこの
通し番号によって整列されて単語バイグラム、単語トラ
イグラムデータベースにそれぞれ格納されている。ま
た、１段階目の探索の出力結果の再評価に必要な単語ト
ライグラムも通し番号で整列されて格納される。３つ組
の単語の１番目の単語が同じものについては２番目の単
語に着目して整列し、１、２番目が同じものについては
３番目の単語に着目して整列する。

【００１３】図３は、単語バイグラムデータベースすな
わち簡単な言語モデルのデータベース230における各言
語モデルの整列形態の一例を示す図である。簡単な言語
モデルを形成する単語語彙の総数をmとし、簡単な言語
モデルの全体数nをm×mとした。この図において、通し
番号1の簡単な言語モデル1は、単語1と単語1からなるバ
イグラムであり、単語1のあとに単語1が出現する確率
（条件付き出現確率：バイグラム確率）はp₁である。ま
た、通し番号2の簡単な言語モデル2は、単語1と単語2か
らなるバイグラムであり、単語1のあとに単語2が出現す
る条件付き出現確率はp₂である。そして、以降、同様に
単語バイグラムと条件付き出現確率が配列され、例えば
通し番号nの簡単な言語モデルnは、条件付き出現確率が
p_nである単語mと単語mからなるバイグラムとなる。この
ように本実施形態では簡単な言語モデルのデータベース
230を、語彙単語にあらかじめ付与した通し番号1〜mに
基づいて、簡単な言語モデルの通し番号1〜nと出現確率
p₁〜p_nの整列させて構成した。

【００１４】図４は、単語トライグラムデータベースす
なわち高度な言語モデルのデータベース330における各
言語モデルの整列形態の一例を示す図である。高度な言
語モデルを形成する単語語彙の総数は、図３に示した簡
単な言語モデルの単語語彙数mと同一とし、高度な言語
モデルの全体数Mをn×mすなわちm³とした。この場合、
通し番号1の高度な言語モデル1は図３に示す簡単な言語
モデル1（単語1と単語1からなるバイグラム）と単語1か
ら構成され、簡単な言語モデル1のあとに単語1が出現す
る条件付き出現確率はP₁である。以降、同様に、通し番
号2の高度な言語モデル2は、簡単な言語モデル1と単語2
からなるトライグラムであり、その条件付き出現確率は
P₂である。そして、通し番号Mの高度な言語モデルMは、
条件付き出現確率がp_Mである簡単な言語モデルnと単語m
からなるトライグラムである。このように本実施形態で
は、高度な言語モデルのデータベース330を、語彙単語
にはあらかじめ付与した通し番号1〜mと簡単な言語モデ
ルの通し番号1〜nの両者に基づいて各条件付き出現確率
p₁〜p_Mを整列することによって構成した。

【００１５】図１に示すデコーダー2・310では、再評価
に必要な単語トライグラムの確率値（トライグラム確
率）を高度な言語モデルのデータベース（単語トライグ
ラムデータベース）310から取り出すのだが、それぞれ
のファイルの内容、すなわち１段目の探索結果の候補群
の再評価に必要な単語トライグラムのエントリがソート
されているので、必要な単語トライグラムの１番目と整
合するものを単語トライグラムデータベースの最初から
探索していき、整合するものを見つけて確率値を取り出
したら、必要な単語トライグラムの２番目と整合するも
のを単語トライグラムデータベースの先の探索が終わっ
た点から探しはじめればよい。つまり必要となる単語ト
ライグラムの種類数をN、言語モデルにあるすべての単
語トライグラムの種類数をMとする場合に、最大でM回の
照合を行えばよいことになる。これに対して再評価に必
要な単語トライグラムおよび単語トライグラムデータベ
ースが整列されていない場合には、最大でN*M回の照合
が必要になる。

【００１６】図５は、図１及び図２を参照して説明した
大語彙連続音声認識システムによる認識処理の流れを示
すフローチャートである。まず、入力音声に対して、図
１に示すような音響特徴量分析部100において、音響的
特徴分析が行われ、音響特徴量として時系列音声パラメ
ータベクトルが出力される（ステップS100）。出力され
た時系列音声パラメータベクトルは、デコーダー1・210
へと入力され、簡単な音響モデルのデータベース220と
簡単な言語モデルのデータベース230とを用いて尤度が
計算され、上位Ｎ個の仮説が求められる（ステップS11
0）。ここで上位Ｎ個の仮説として、第１候補の文W₁W₂W
₃W₄W₅、第２候補の文W₁W₆W₃W₄W₅、第３候補の文W₁W₂W₃W
₇W₅、…、第Ｎ候補の文W₈W₂W₃W₄W₉が求められたと仮定
する（W_k（k：整数）は単語を表す）。

【００１７】次に、求められた上位Ｎ個（文）の仮説の
評価に必要な高度な言語モデルのエントリが求められる
（ステップS120）。上記の例では、必要なトライグラム
として、W₁W₂W₃，W₂W₃W₄，W₃W₄W₅，W₁W₆W₃，W₆W₃W₄，W₂
W₃W₇，W₃W₇W₅，…，W₈W₂W₃，W₃W₄W₉が求められる。求め
られた高度な言語モデルのエントリは、高度な言語モデ
ルのデータベース330の配列に対応するように整列さ
れ、デコーダー1・210から出力される（ステップS13
0）。上記の例では、整列した仮説の評価に必要な高度
な言語モデルのエントリとして、例えば、W₁W₂W₃，W₁W₆
W₃，W₂W₃W₄，W₂W₃W₇，W₃W₄W₅，W₃W₄W₉，W₃W₇W₅，…，W₆
W₃W₄，W₈W₂W₃が出力される。

【００１８】次に、デコーダー2・330は、再評価の前処
理として、高度な言語モデルのデータベース330を探索
して、整列された仮説の再評価に必要な複数の高度な言
語モデルのエントリに整合する高度な言語モデルを抽出
する（ステップS140）。そしてデコーダー2・310は、高
度な音響モデル（ここでは簡単な音響モデルと同一）の
データベース320と、ステップS140で抽出した高度な言
語モデルを用いて、上位Ｎ個（文）の仮説を再評価し、
評価値の高い候補を認識結果として出力する（ステップ
S150）。

【００１９】照合の回数の効率化は必要とする単語トラ
イグラムの種類数Ｎに依存するため、１文ずつ処理を行
う場合よりも多数の文を一度に処理する場合に本発明の
効果は大きい。また、２段階以降の探索を単語遷移ペナ
ルティなどのパラメータを変えて複数回（複数段階）行
う場合には、あらかじめ抽出してある言語モデルをその
まま用いることができるため、再試行の回数に関わりな
く抽出処理は１度でよく、Ｑ回の再試行に対して逐次処
理の１／Ｑの抽出処理しか必要としない。

【００２０】語彙7000語の大語彙連続音声認識では、単
語バイグラムが7000²すなわち4900万通り、単語トライ
グラムが7000³すなわち343億通りあり得ることになる。
１文あたり平均20単語の文、100文に対してそれぞれ上位
300位までの候補を出力し、単語トライグラムを用いて
再評価する場合に２段階目の探索で必要となる単語トラ
イグラムの種類は約2万3千種類となった。つまり、本発
明の方法によれば照合回数を2万3千分の１とすることが
できることになる。

【００２１】

【発明の効果】以上説明したように、本発明によれば、
莫大な種類数をもつ言語モデルデータベースから、入力
音声の再評価に必要な言語モデルエントリの集合をあら
かじめ抽出しておくことにより、大語彙連続音声認識処
理を効率的に行うことができるという利点がある。

【図面の簡単な説明】

【図１】大語彙連続音声認識システムの一般的構成を
示すブロック図である。

【図２】２段階の探索を行うデコーダーの構成を示す
ブロック図である。

【図３】本発明による簡単な言語データベースの構成
例を示す図表である。

【図４】本発明による高度な言語データベースの構成
例を示す図表である。

【図５】本発明による音声認識方法の処理手順の一例
を示すフローチャートである。

【符号の説明】

100 音響特徴量分析部 210 デコーダー1 220 簡単な音響モデル 230 簡単な言語モデル 310 デコーダー2 320 高度な音響モデル 330 高度な言語モデル

Claims

【特許請求の範囲】

【請求項１】入力音声の音響的な特徴からその認識結
果を判定する音響モデルと、文法的な特徴から認識結果
を判定する言語モデルとを用いて、複数段階の判定・探
索により認識結果を得る連続音声認識方法であって、１
段階目の探索で簡単な音響モデルと簡単な言語モデルを
用いて入力音声に対して高い評価値を与える認識結果の
複数の候補を出力し、２段階目以降の探索で高度な音響
モデルおよび高度な言語モデルを用いて１段階目の候補
を再評価し評価値の高い候補を認識結果とする音声認識
処理において、２段階目以降の探索を行う際に１段階目の探索で絞り込
んだ候補群の評価に必要な高度な言語モデルをあらかじ
め抽出しておくことを特徴とする音声認識方法。
【請求項２】請求項１に記載の方法の言語モデルの抽
出処理において、１段階目の探索で絞り込んだ候補群に
現れる複数の言語モデルをそれぞれ整列しておき、２段
階目以降の探索に必要な言語モデルの抽出処理を高速に
行うことを特徴とする請求項１に記載の音声認識方法。
【請求項３】入力音声の音響的な特徴からその認識結
果を判定する音響モデルと、文法的な特徴から認識結果
を判定する言語モデルとを用いて、複数段階の判定・探
索により認識結果を得る連続音声認識方法であって、１
段階目の探索で第１の言語モデルを用いて入力音声に対
して高い評価値を与える認識結果の複数の候補を出力
し、２段階目以降の探索で前記第１の言語モデルと異な
る第２の言語モデルを用いて前記１段階目の候補を再評
価する音声認識処理において、前記２段階目以降の探索を行う際に前記１段階目の探索
で絞り込んだ前記第１の言語モデルによる候補群の評価
に必要な前記第２の言語モデルをあらかじめ抽出してお
くことを特徴とする音声認識方法。