JP2000259175A

JP2000259175A - 音声認識装置

Info

Publication number: JP2000259175A
Application number: JP11060418A
Authority: JP
Inventors: Yuzo Maruta; 裕三丸田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-03-08
Filing date: 1999-03-08
Publication date: 2000-09-22

Abstract

(57)【要約】【課題】コーパスの量が十分でない場合でも、異常な
単語連鎖についてはバイグラム確率として０ないしきわ
めて小さい値を与える言語モデルをもった音声認識装置
を提供する。【解決手段】階層構造の統計的言語モデルをもち、先
行単語によって、言語バイグラムを計算するための最適
な階層を決定する言語モデル階層決定手段１２、および
連鎖単語のバイグラム確率を最適な階層のクラスの出現
頻度を考慮することによって、奇異な単語連鎖の言語尤
度についてきわめて小さい値を与える言語尤度計算手段
１３を備え、異常な単語連鎖についてはバイグラム確率
として０ないし０に近い小さい値を与えることを可能と
して、認識性能・認識処理速度を向上させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声認識装置に
関し、特に、統計的言語モデルを用いた音声認識装置に
関するものである。

【０００２】

【従来の技術】図１５は「新聞記事を用いた大語彙連続
音声認識の検討」（電子情報通信学会技術研究報告，Ｖ
ｏｌ．９５，Ｎｏ．４３０，ｐｐ６３〜ｐｐ６８，１９
９５年１２月１４日）に開示された、統計的言語モデル
を用いた従来の音声認識装置の概略構成を示すブロック
図である。図において、１は音声取得手段、２は音響分
析手段、３はＨＭＭ（隠れマルコフモデル）音韻モデル
記憶手段、４は単語辞書記憶手段、５は音響尤度計算手
段、６は言語モデル記憶手段、７は言語尤度計算手
段、８は認識結果出力手段、９はコーパスである。

【０００３】次に動作について説明する。ここで、図１
２は単語辞書の具体例を示す説明図、図１３は単語のＨ
ＭＭの構造の一例を示す説明図であり、図１４は時刻が
進むにつれて認識仮説が展開される状況を示す説明図で
ある。また、図１６は図１５に示した従来の音声認識装
置の動作の概略を示したフローチャートである。

【０００４】図１６のフローチャートに示した動作を開
始するに先立って、まず、ＨＭＭ音韻モデル記憶手段３
が外部記憶装置（図示省略）からＨＭＭ音韻モデルのデ
ータを読み込んで記憶する。単語辞書記憶手段４も同様
に、上記外部記憶装置から単語辞書を読み込んで記憶す
る。この単語辞書は図１２に示すように、各単語につい
てそれぞれ漢字表記、ひらがな表記、音素表記のデータ
をもっている。

【０００５】さらに単語辞書記憶手段４は、各単語の音
素表記からその単語のＨＭＭ音響モデルを生成する。図
１３はＨＭＭ音響モデルの構成例を示したものであり、
図示のように単語はそれぞれ各音素に分解され、各音素
ごとに対応するＨＭＭ音韻モデルを当てはめて、それら
を連結することにより、各単語のＨＭＭ音響モデルを構
成する。

【０００６】次に音声取得手段１は、図１６のステップ
ＳＴ１において、入力された音声をＡ／Ｄ変換し、デジ
タルデータ化された音声データを記憶する。次に制御手
段（図示省略）は、ステップＳＴ２において時刻ｔを初
期値としてｔ＝０に設定する。次に音声取得手段１は、
ステップＳＴ３においてその時刻ｔの音声データを取り
込み、音響分析手段２はステップＳＴ４において、取り
込まれた音声データを音響分析して音響特徴ベクトルを
計算する。次に、音響尤度計算手段５はステップＳＴ５
において、音響特徴ベクトル、単語辞書、およびＨＭＭ
音韻モデルデータから、各認識仮説の対数音響尤度を計
算して認識仮説を展開する。

【０００７】図１４は各時刻における認識仮説の展開の
様子を示しており、ここでは、簡略化のために各音素の
ＨＭＭ状態数は１としている。図において、それぞれの
四角が認識仮説であり、各認識仮説は認識している単語
と現在の音素、対数音響尤度、対数言語尤度、対数総合
尤度を情報として持っている。例えば、認識仮説の認識
単語を「記事」とすると、フレーム（時刻）が進行する
につれて、ＨＭＭ音響モデルが自己ループして音素が進
行しない認識仮説と、ＨＭＭ音響モデルが進行して音素
が進行する認識仮説に展開され、認識仮説の数が増えて
ゆくことになる。特に「記事」の終端の音素／ｉ／が終
了すると（図１４の太枠の認識仮説）次の認識単語に遷
移するが、「記事」の次には「銀」、「議員」、「議
会」、…とさまざまな単語が遷移し得るため、そのおの
おのに対して独立に認識仮説を割り当てる。

【０００８】次に、言語尤度計算手段７はステップＳＴ
６において、単語遷移を行った直後の認識仮説につい
て、言語モデル記憶手段６に記憶されている統計的言語
モデルをもとに言語尤度を計算し、その対数値である対
数言語尤度に、重みを付けを行った対数音響尤度を加算
することによって対数総合尤度を計算する。なお、この
言語尤度の詳細については後に説明する。

【０００９】次に、図示を省略した制御手段はステップ
ＳＴ７において、音声入力が終了したか否かを検出し、
終了していない場合にはステップＳＴ８において、時刻
ｔをｔ＋１にインクリメントして処理をステップＳＴ３
に戻し、上記ステップＳＴ３からステップＳＴ６までの
処理を音声入力が終了するまで繰り返す。ステップＳＴ
７にて音声入力の終了が検出されると、認識結果出力手
段８はステップＳＴ９において、発声の全区間において
計算が終わった認識仮説について、その対数総合尤度の
大きい順に、認識結果として認識候補（単語列）を出力
する。

【００１０】ここで、その言語尤度の計算の詳細につい
て説明する。言語尤度は統計的言語モデルが用いられる
ことが多く、特にＮグラムモデルを用いる場合が多い。
Ｎグラムモデルでは、単語列Ｗ＝ｗ₁ ｗ₂ …ｗ_n の言語
尤度Ｐ（ｗ₁ ｗ₂ …ｗ_n )として、条件付き確率を用い
て、以下に示した式（１）を与える。

【００１１】

【数１】

【００１２】なお、上記式（１）でＮ＝２のときバイグ
ラム、Ｎ＝３のときトライグラムという。式（１）にお
いて、ｗ₀ やｗ_n+1などには文頭・文末を示す特別な記
号を割り当てることが多い。以下では簡略化のため、Ｎ
＝２のバイグラムモデルを説明のために用いるが、Ｎ＞
２の場合でも同様である。なお、バイグラムモデルの場
合、言語尤度は次の式（２）のようになる。

【００１３】

【数２】

【００１４】ところで、これらの条件付き確率は、一般
にコーパスと呼ばれる大量の文書から計算される。しか
しながら、文字の組み合わせは一般に膨大になるため、
コーパス９で統計上十分である場合は少ない。通常、こ
のことをコーパス９のスパース性という。このような場
合、以下に示す式（３）のようにスムージングをする場
合が多い。

【００１５】Ｐ（ｗ｜ｘ）＝（１−α）・Ｎ（ｘ，ｗ）／Ｎ（ｘ）（Ｎ（ｘ，ｗ）＞０の場合）Ｐ（ｗ｜ｘ）＝α・Ｐ（ｗ）（Ｎ（ｘ，ｗ）＝０の場合）・・・・（３）

【００１６】ここで、上記式（３）において、Ｎ（ｘ，
ｗ）はコーパス９内に存在する単語ｘ−ｗの連鎖の数、
Ｎ（ｘ）はコーパス９内に存在する単語ｘの数、Ｐ
（ｗ）は単語ｗのユニグラム確率、αはスムージングの
ための係数である。なお、αはコーパス９が統計上十分
になるにしたがってα→０に収束する。

【００１７】また、コーパス９のスパース性を回避する
ために、品詞バイグラムなどの言語モデルを用いる場合
がある。この場合、単語ｘ，ｗはそれぞれの品詞Ｃ，Ｄ
に属するものとすると、次の式（４）が与えられる。た
だし、この式（４）中、単語ｃは品詞Ｃに属する単語に
ついて、単語ｄは品詞Ｄに属する単語について、そのす
べてをとる。

【００１８】Ｐ（ｗ｜ｘ）＝Ｐ（Ｃ｜ｘ）・Ｐ（Ｄ｜Ｃ）・Ｐ（ｗ｜Ｄ）Ｐ（Ｄ｜Ｃ）＝Ｎ（ｄ，ｃ）／Ｎ（ｃ）Ｐ（ｗ｜Ｄ）＝Ｎ（ｗ）／Ｎ（ｄ）Ｐ（Ｃ｜ｘ）＝１・・・・・（４）

【００１９】なお、このような従来の音声認識装置に関
連のある記載がなされている文献としては、この他に
も、例えば、特開平８−２５４９９０号公報、特開平９
７５３５号公報、特開平８−３２９０８０号公報などが
ある。

【００２０】

【発明が解決しようとする課題】「電子情報通信学会技
術研究報告」に開示された、統計的言語モデルを用いた
従来の音声認識装置は以上のように構成されているの
で、特にコーパス９の量が十分でない場合にはαが無視
できなくなり、結果として、人間が奇異に感じる単語連
鎖でも、バイグラムの確率値は０でない値をとってしま
うことがある。例えば、国会−銀という単語対は、通常
のコーパス９には存在せず、かつ一般には考えにくいの
で、Ｐ（“銀”｜“国会”）＝０であるのが妥当である
が、式（３）に従うと、次の式（５）に示すものとなっ
て、「国会銀」という認識仮説にも言語尤度としてある
値が与えられてしまうため、「国会議員」と発声した場
合でも、発声の曖昧さによっては「国会銀」と誤認識し
てしまう場合があるという課題があった。

【００２１】Ｐ（“銀”｜“国会”）＝α・Ｐ（“銀”）＞０・・・・（５）

【００２２】一方、品詞バイグラムを用いた場合でも、
「銀」、「国会」はともに名詞なので、Ｐ（“銀”｜
“国会”）は次の式（６）に示すようになり、同様に言
語モデルで小さい言語尤度を与えるのは困難になるとい
う課題があった。

【００２３】Ｐ（“銀”｜“国会”）＝Ｐ（“名詞”｜“国会”）・Ｐ（“名詞”｜“名詞 ”）・Ｐ（“銀”｜“名詞”）＞０・・・・・（６）

【００２４】この発明は上記のような課題を解決するた
めになされたもので、コーパスの量が十分でない場合で
も、異常な単語連鎖については、バイグラムの確率値と
して０ないしは０に近い小さな値を与える言語モデルを
用いた音声認識装置を得ることを目的とする。

【００２５】

【課題を解決するための手段】この発明に係る音声認識
装置は、入力音声をデジタルデータ化した音声データを
所定時刻ごとに音響分析して音響特徴ベクトルを生成
し、この音響特徴ベクトルと、音韻モデル記憶手段の記
憶する音韻モデルおよび単語辞書の記憶する単語辞書と
から認識仮説の音響尤度を計算し、また、言語モデル記
憶手段の記憶する統計的言語モデルを参照して、言語モ
デル階層決定手段の決定した言語モデルの階層から認識
仮説の言語尤度を計算し、それら認識仮説の音響尤度と
言語尤度に基づいて最終的な認識候補を出力するととも
に、その統計的言語モデルに階層構造をもたせ、音声認
識の処理状況に応じて適切な階層の言語モデルを使用す
るようにしたものである。

【００２６】この発明に係る音声認識装置は、各先行単
語によって最適な階層の言語モデルを使用するようにし
たものである。

【００２７】この発明に係る音声認識装置は、先行単語
と、後続単語が属している適切な階層のクラスにおける
単語−クラス連鎖のコーパスの出現頻度が０である場合
には、その単語バイグラムの確率値を０またはきわめて
小さい正値とするようにしたものである。

【００２８】この発明に係る音声認識装置は、先行単語
と、後続単語が属している適切な階層のクラスにおける
単語−クラス連鎖のコーパスの出現頻度が０より大き
く、かつ、コーパス内の単語バイグラムの出現頻度が０
の場合には、その単語バイグラムの確率値を０より大き
い値に設定するようにしたものである。

【００２９】この発明に係る音声認識装置は、統計的言
語モデルにおける先行単語に使用する最適な階層とし
て、所属するクラスの単語バイグラムの出現頻度が０で
ない後続単語の数の変化率が最大になる直前の階層を選
択するようにしたものである。

【００３０】この発明に係る音声認識装置は、コーパス
以外の外部知識を用いて階層構造をもつクラスの作成を
行うようにしたものである。

【００３１】この発明に係る音声認識装置は、外部知識
を用いずに、各階層においてそれぞれクラスタリングを
することによって、階層構造をもつクラスの作成を行う
ようにしたものである

【００３２】この発明に係る音声認識装置は、ある階層
についてはコーパス以外の外部知識を用いて、別の階層
については外部知識を用いずにクラスタリングをするこ
とによって、階層構造をもつクラスの作成を行うように
したものである。

【００３３】この発明に係る音声認識装置は、クラスタ
リングすべき単語を行列表現してその行と列とを入れ替
えることによって、コーパスの出現頻度が０でない部分
を局在させ、その部分に外接するような部分行列をクラ
スとするようにしたものである。

【００３４】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による音
声認識装置の概略構成を示すブロック図である。図にお
いて、１は入力音声をデジタルデータ化し、それを音声
データとして記憶する音声取得手段であり、２はこの音
声取得手段１において取得された音声データを所定時刻
ごとに音響分析し、音響特徴ベクトルを出力する音響分
析手段である。３は図示を省略した外部記憶装置からＨ
ＭＭ音韻モデルを読み込み、そのＨＭＭ音韻モデルを記
憶する音韻モデル記憶手段としてのＨＭＭ音韻モデル記
憶手段であり、４は同じく図示を省略した外部記憶装置
から単語辞書を読み込み、その単語辞書を記憶する単語
辞書記憶手段である。５は音響分析手段２より出力され
る音響特徴ベクトルと、ＨＭＭ音韻モデル記憶手段３に
記憶されているＨＭＭ音韻モデル、および単語辞書記憶
手段４に記憶されている単語辞書から、各認識仮説につ
いての音響尤度を計算する音響尤度計算手段である。８
は各認識仮説の音響尤度と言語尤度とに基づいた、最終
的な認識候補を出力する認識結果出力手段である。９は
その言語尤度を計算するための条件付き確率を求める際
に用いられる、大量の文書によるコーパスである。

【００３５】なお、これら音声取得手段１、音響分析手
段２、ＨＭＭ音韻モデル記憶手段３、単語辞書記憶手段
４、音響尤度計算手段５、認識結果出力手段８、コーパ
ス９は、図１５に同一符号を付して示した従来の音声認
識装置におけるそれらに相当する部分である。

【００３６】１０は統計的言語モデルを記憶する言語モ
デル記憶手段としての階層言語モデル記憶手段であり、
コーパス９と後述する階層・クラス定義記憶手段に記憶
されている階層・クラス定義を用いて作成した、階層構
造をもつ統計的言語モデルを記憶している点で、図１５
に符号６を付して示した言語モデル記憶手段とは異なっ
ている。なお、この階層言語モデル記憶手段１０に記憶
されている統計的言語モデルは、認識処理の状況に応じ
て適切な階層の言語モデルが使用される。１１は階層言
語モデル記憶手段１０に記憶されている階層構造をもっ
た統計的言語モデルについて、その階層・クラスの定義
を記憶する階層・クラス定義記憶手段である。１２は単
語遷移した認識仮説について、その単語連鎖の言語モデ
ルを計算する際の言語モデルの階層を決定する言語モデ
ル階層決定手段である。１３は階層言語モデル記憶手段
１０に記憶されている統計的言語モデルを参照して、認
識仮説の言語尤度を計算して、その対数値である対数言
語尤度と、音響尤度計算手段５によって計算された音響
尤度の対数値である対数音響尤度より、対数総合尤度を
計算する言語尤度計算手段であり、言語モデル階層決定
手段１２によって決定された階層の言語モデルから言語
尤度の計算を行い、対数言語尤度および対数総合尤度を
計算している点で、図１５に符号７を付して示した従来
の言語尤度計算手段とは異なっている。

【００３７】次に動作について説明する。ここで、図２
はこの実施の形態１における認識処理の概略を示すフロ
ーチャート、図３は階層・クラス定義の一例を示す説明
図、図４は階層構造を有する言語モデルの、先行単語ｘ
と後続単語ｗの各階層のコーパス９内での出現頻度を示
す説明図であり、図５は言語モデル階層決定手段１２の
概略動作を示すフローチャート、図６はそれによって計
算された配列をグラフで示した説明図である。また、図
１２は単語辞書の具体例を示した説明図、図１３は単語
のＨＭＭの構造の一例を示す説明図であり、図１４は時
刻が進むにつれて認識仮説が展開される状況を示す説明
図である。

【００３８】まず最初に、図３および図４を参照しなが
ら、この実施の形態１で用いられている階層的な言語モ
デルについて説明する。図３は先験的な知識を用いて単
語を階層化した階層・クラス定義の一例である。この場
合には、単語を５つの階層に分け、最上層は品詞、最下
層は単語として、中間層は「医療−薬品−塗布薬」など
の先験的な知識を用いてそれぞれの上位の階層を分類し
ている。なお、これら各階層には、最上層から最下層に
対して、Ｃ４，Ｃ３，…，Ｃ０のクラスレベルが付与さ
れている。階層・クラス定義記憶手段１１はこのような
階層・クラス定義を記憶している。

【００３９】次に、この階層・クラス定義記憶手段１１
に記憶されている上記階層・クラス定義と、コーパス９
とを参照して、各階層についてのコーパス９内の単語連
鎖の頻度を計数する。図４ではｘ−ｗ₈ の単語連鎖がコ
ーパス９内で５回計数された（Ｎ（ｘ，ｗ₈ ）＝５）こ
とを示している。階層言語モデル記憶手段１０はこれら
各階層の単語連鎖の頻度を先行単語ｘごとに計数して記
憶しておく。

【００４０】次いで、この実施の形態１による音声認識
装置の認識処理動作を図２のフローチャートにしたがっ
て説明する。この図２のフローチャートに示した処理動
作を開始するに先立って、まず、ＨＭＭ音韻モデル記憶
手段３が、図示を省略した外部記憶装置からＨＭＭ音韻
モデルのデータを読み込み、そのＨＭＭ音韻モデルを記
憶する。同様にして、単語辞書記憶手段４は図示を省略
した上記外部記憶装置から単語辞書を読み込み、その単
語辞書を記憶する。ここで、この単語辞書は、例えば、
図１２に示すような構成になっており、各単語について
それぞれ漢字表記、ひらがな表記、音素表記のデータを
もっている。さらに、この単語辞書記憶手段４は各単語
の音素表記からその単語のＨＭＭ音響モデルを生成す
る。

【００４１】図１３はこのＨＭＭ音響モデルの構成例を
単語「議会」について示したものである。図示のように
単語「議会」はそれぞれ、／ｇ／，／ｉ／，／ｋ／，／
ａ／，／ｉ／の５つの音素に分解され、各音素ごとに対
応するＨＭＭ音韻モデルを当てはめてそれらを連結する
ことにより、当該単語「議会」のＨＭＭの音響モデルを
構成する。なお、他の単語についてもこれと同様にして
ＨＭＭ音響モデルが構成される。

【００４２】その後、音声取得手段１はまず、ステップ
ＳＴ１０において、入力された音声をＡ／Ｄ変換してデ
ジタルデータ化し、それを音声データとして記憶する。
次に、図示を省略した制御手段が、ステップＳＴ１１に
おいて時刻ｔを初期値としてｔ＝０に設定する。次に、
音響分析手段２はステップＳＴ１２において、音声取得
手段１が取得した時刻ｔ（この場合ｔ＝０）における音
声データを取り込み、ステップＳＴ１３において、その
取り込んだ時刻ｔの音声データを音響分析して、音響特
徴ベクトルを計算する。

【００４３】次に、音響尤度計算手段５はステップＳＴ
１４において、単語辞書記憶手段４に記憶されている単
語辞書から認識仮説を作成し、音響分析手段２が計算し
た音響特徴ベクトルとＨＭＭ音韻モデル記憶手段３に記
憶されているＨＭＭ音韻モデルデータから、各認識仮説
の対数音響尤度を計算して認識仮説を展開する。なお、
この対数音響尤度の計算方法は、例えば特公平４−２２
２７６号公報などにも開示されている周知のものである
ため、ここではその説明は割愛する。

【００４４】図１４には各時刻（フレーム）における認
識仮説の展開の様子が示されている。なお、簡略化のた
めに、ここでは各音素のＨＭＭ状態数は１としている。
図において、それぞれの四角が認識仮説を表しており、
各認識仮説は認識している単語と現在の音素、対数音響
尤度、対数言語尤度、対数総合尤度を情報としてもって
いる。例えば、認識仮説の認識単語を「記事」とする
と、フレームがｔ＝０から１，２，…と進行するにつれ
て、ＨＭＭ音響モデルが自己ループして音素が進行しな
い認識仮説と、ＨＭＭ音響モデルが進行して音素が進行
する認識仮説に展開され、認識仮説の数が増えてゆくこ
とになる。特に「記事」の終端の音素／ｉ／が終了する
と（図１４の太枠の認識仮説）次の認識単語に遷移する
が、「記事」の次には「銀」、「議員」、「議会」、…
とさまざまな単語が遷移し得るため、そのおのおのに対
して独立に認識仮説を割り当てる。なお、ここまでの動
作は従来の音声認識装置の場合と同様である。

【００４５】次に、言語モデル階層決定手段１２はステ
ップＳＴ１５において、各認識候補にて単語が遷移する
際に、その単語についての最適な階層を決定する。すな
わち、認識仮説が単語遷移をして、認識候補における先
行単語がｘの場合、どの階層の言語モデルを使用するか
を決定する。

【００４６】図５のフローチャートにその言語モデル階
層決定手段１２による決定手続きの動作を示す。まずス
テップＳＴ２０において階層ｉをｉ＝０に設定する。次
にステップＳＴ２１において配列Ｇ（ｉ）をＧ（ｉ）＝
０に初期化する。次にステップＳＴ２２において単語番
号ｊをｊ＝０に設定する。次にステップＳＴ２３におい
て単語ｗ_j が属する階層ｉのクラスＣを求める。

【００４７】次に、得られた階層ｉのクラスＣについ
て、先行単語ｘとクラスＣに属する単語ｗの単語連鎖の
コーパス９内の出現頻度Ｎ（ｘ，Ｃ）を、階層言語モデ
ル記憶手段１０に記憶されている統計的言語モデルから
求め、ステップＳＴ２４においてそれが０であるか否か
の判定を行う。なお、このＮ（ｘ，Ｃ）は次に示した式
（７）によって定義される。

【００４８】

【数３】

【００４９】判定の結果、Ｎ（ｘ，Ｃ）≠０であった場
合はステップＳＴ２５において、配列Ｇ（ｉ）、すなわ
ち、所属するクラス頻度が０でない単語の数に１を加え
る。次にステップＳＴ２６において、各階層ｉにおける
全単語の終了を検出するまで、ステップＳＴ２７でｊを
インクリメントしながら処理をステップＳＴ２３に戻
し、さらにステップＳＴ２８において全階層の終了を検
出するまで、ステップＳＴ２９でｉをインクリメントし
ながら処理をステップＳＴ２１に戻すことによって、上
記処理を各単語ｗ_j および各階層ｉについて行う。

【００５０】以上の処理が終わった段階で配列Ｇ（ｉ）
をグラフにしてみると、階層ｉが上がるにつれてＧ
（ｉ）は増加するので、例えば図６に示すような右肩上
がりのカーブになる。この例では、階層２から階層３に
移る際に配列Ｇ（ｉ）が急増している。これは、階層２
では単語が属しているクラスの頻度が０である場合が多
かったのに対して、階層３では単語が属しているクラス
の頻度が０の場合は減少している（この場合は０になっ
ている）ということであり、したがって階層３ではクラ
スの分割が粗すぎるということを示している。そこでス
テップＳＴ３０において、Ｇ（ｉ＋１）−Ｇ（ｉ）が最
大となるような階層（この場合には階層２）を最適な階
層と決定する。

【００５１】この場合、階層２内のクラスで、Ｎ（ｘ，
Ｃ）＝０であるクラスＣは、コーパス９のスパース性に
よってたまたま連鎖が出現していないのではなく、言語
的に出現していないと考えることができる。したがっ
て、先行単語ｘとこのクラスＣに属する単語の連鎖はな
いと考えてよい。

【００５２】次に、言語尤度計算手段１３は図２のステ
ップＳＴ１６において、各認識候補にて単語が遷移する
際に、言語モデル階層決定手段１２の決定した最適な階
層を用いて、階層言語モデル記憶手段１０に記憶されて
いる階層化された統計的言語モデルから言語尤度を計算
し、その対数値である対数言語尤度と、音響尤度計算手
段５の計算した音響尤度の対数値である対数音響尤度か
ら対数総合尤度を計算する。すなわち、単語連鎖ｘ−ｗ
について、選択された最適な階層を用いて、以下の式
（８）のように言語尤度を計算する。なお、この式
（８）において、αは適当なスムージングのための係数
である。

【００５３】Ｐ（ｗ｜ｘ）＝（１−α）・Ｎ（ｘ，ｗ）／Ｎ（ｘ）Ｎ（ｘ，Ｃ）＞０かつＮ（ｘ，ｗ）＞０の場合Ｐ（ｗ｜ｘ）＝α・Ｐ（ｗ）Ｎ（ｘ，Ｃ）＞０かつＮ（ｘ，ｗ）＝０の場合Ｐ（ｗ｜ｘ）＝０Ｎ（ｘ，Ｃ）＝０の場合・・・・・（８）

【００５４】次に従来の音声認識装置と同様に、図示を
省略した制御手段はステップＳＴ１７において、音声入
力が終了したか否かを検出する。その結果、音声入力が
終了していない場合には、ステップＳＴ１８において、
時刻ｔをｔ＋１にインクリメントして処理をステップＳ
Ｔ１２に戻し、上記ステップＳＴ１２からステップＳＴ
１６までの処理を、ステップＳＴ１７で音声入力の終了
が検出されるまで繰り返す。ステップＳＴ１７にて音声
入力の終了が検出されると、結果出力手段８はステップ
ＳＴ１９において、発声の全区間において計算が終わっ
た認識仮説について、その対数総合尤度の大きい順に、
認識結果として、認識候補（単語列）を出力する。

【００５５】以上のように、この実施の形態１によれ
ば、言語モデルを階層構造をもつ統計的言語モデルを用
いて、先行単語により最適な階層を決定し、後続単語が
属するクラスの、コーパス９内での計数が０のときには
バイグラム確率を０としているので、従来のバックオフ
法による音声認識装置では実現できなかった、言語的に
つながり得ない奇異な単語連鎖に対して、その対数総合
尤度をきわめて小さくすることができるようになるた
め、認識性能の向上をはかることができるという効果が
得られる。

【００５６】また、フレームの途中で不要な認識仮説を
棄却する、いわゆる枝刈り処理を行う場合にも、異常な
単語連鎖をもつ認識仮説は早期に棄却することが可能と
なるため、認識性能を低下させることなく認識処理速度
を向上させることができるという効果が得られる。

【００５７】なお、バイグラム確率値を０とおいた場合
のように、計算機上ではその対数値が求められない場合
には、バイグラム確率として０に近いきわめて小さな値
を与えてもよく、上記と同様の効果を奏することはいう
までもない。

【００５８】実施の形態２．次に、この発明の別の実施
の形態について説明する。上記実施の形態１による音声
認識装置における階層・クラス定義のような分類は、人
間にとって直感的であるが外部知識が必要となる。この
発明の実施の形態２はその外部知識を不要とし、各階層
のクラスを先見的な知識なしに自動的に作成するもので
ある。

【００５９】図７はそのようなこの発明の実施の形態２
による音声認識装置の構成を示すブロック図である。図
において、１は音声取得手段、２は音響分析手段、３は
音韻モデル記憶手段としてのＨＭＭ音韻モデル記憶手
段、４は単語辞書記憶手段、５は音響尤度計算手段、８
は認識結果出力手段、９はコーパス、１２は言語モデル
階層決定手段、１３は言語尤度計算手段であり、これら
は図１に同一符号を付して示した実施の形態１のそれら
に相当する部分である。

【００６０】また、１４はあらかじめ定義された、統計
的言語モデルの階層数を記憶する階層数定義記憶手段で
あり、１５はこの階層数定義記憶手段１４が記憶してい
る階層数に基づいて、統計的言語モデルの階層構造を持
つクラスを、コーパス９以外の外部知識を用いることな
く、各階層においてそれぞれクラスタリングするクラス
作成手段である。１０は図１に同一符号を付して示した
実施の形態１のそれに相当する、統計的言語モデルを記
憶している言語モデル記憶手段としての階層言語モデル
記憶手段であるが、上記クラス作成手段１５にてクラス
タリングされた階層のクラスと、コーパス９とを用いて
作成した統計的言語モデルを記憶している点で、実施の
形態１におけるそれとは異なっている。

【００６１】次に動作について説明する。ここで、図８
はこの実施の形態２における、ある階層ｉでのクラス化
処理の概略動作を示すフローチャートである。また、図
９はある階層ｉでの要素連鎖の、コーパス９での出現頻
度を行列形式で示した説明図であり、最下層では要素は
単語となり、それ以上の階層では要素はクラスとなる。
さらに、図１０はこの図９に示した行列を小行列に分解
した例を示した説明図であり、図１１は図９に示した行
列について、その行と列を入れ替える操作を行った後の
状態例を示した説明図である。

【００６２】次に、この実施の形態２による音声認識装
置のある階層でのクラス化の処理について説明する。以
降は誤解を避けるために最下層におけるクラス化につい
て説明する。なお、図９において、網掛けを施した部分
はコーパス９の出現頻度が０より大きい数値であること
を示し、白い部分はコーパス９の出現頻度が０であるこ
とを示している。

【００６３】階層数定義記憶手段１４はクラス言語モデ
ルの階層数（例えば５）のみをあらかじめ定義して記憶
しておく。クラス作成手段１５はまず、ステップＳＴ４
０において、ある階層での要素（単語）連鎖の出現頻度
を図９のような行列形式で表現する。次にその行列上
で、コーパス９の出現頻度が０でない部分（網掛けを施
した部分）と０である部分（白い部分）とを局在化させ
る処理を行う。０である部分と０でない部分が十分に局
在化すれば、それはコーパス９に表れる連鎖と表れない
連鎖をうまく分離できており、クラス化が適当であると
考えることができる。

【００６４】クラス作成手段１５はステップＳＴ４１に
おいて、その具体的な処理のために評価関数Ｅを導入し
て当該評価関数Ｅの計算を行う。この評価関数Ｅとして
は、例えば、以下に示す式（９）を定義する。この式
（９）は行列全体をＮ＊Ｎ個の小行列に分割したときの
ものであり、Ｎはその階層に定義するクラスの数に相当
する。なお、この式（９）中の小行列内要素数とは小行
列が０行列のときのその面積である。

【００６５】Ｅ＝小行列内要素数／０行列の小行列の個数・・・・（９）

【００６６】図１０では、行列全体を４＊４個の小行列
に分割した場合に、その分割の仕方の一例を示してい
る。ここで、連鎖の前後に同じクラス分けを行う場合に
は、行の分割の仕方と列の分割の仕方は同じでなければ
ならず、したがって行列の対角線上にある小行列は図の
ように正方行列となる。図１０の場合、０行列である小
行列は、最上段の右から２つ目にある４＊３の小行列た
だ１つであり、Ｅ＝１２となる。なお、この行列のすべ
ての分割の評価関数Ｅの最大値をＥ_maxとする。

【００６７】次に、ステップＳＴ４２において任意のｉ
とｊ（ｊ≠ｉ）とを選択し、ステップＳＴ４３において
その行ｗ_i と行ｗ_j とを入れ替える操作を行い、ステッ
プＳＴ４４において列ｖ_i と列ｖ_j とを入れ替える操作
を行う。次にステップＳＴ４５において、入れ替えた後
の行列に対して評価関数Ｅの最大値Ｅ_max を求め、ステ
ップＳＴ４６において、その求められたＥ_max と以前の
Ｅ_max とを比較する。その結果、求められたＥ_max が以
前のＥ_max より大きければ、この方が精度のよいクラス
タリングを与える行列表現であると考えて、ステップＳ
Ｔ４７でもとの行列を入れ替え操作をした行列に更新
し、Ｅ_max も新たに求められたものに更新する。もし求
められたＥ_max が以前のＥ_max より小さければ、以前の
方が精度のよいクラスタリングを与える行列表現である
と考えて、ステップＳＴ４８ではＥ _max を更新せずに行
列をもとに戻す。

【００６８】次に、ステップＳＴ４９において収束条件
に達したか否かの判定を行い、収束条件を満たすまで上
記の操作を繰り返す。なお、収束条件としては、例えば
次のようなものを用いることができる。（１）入れ替え操作の処理回数が所定数を超えた場
合。（２）Ｅ_max が所定値を超えた場合。

【００６９】以上の処理を各階層について行い、統計的
言語モデルを作成した後、認識処理を行う。なお、認識
処理は実施の形態１の場合と同一なので、ここではその
説明を省略する。

【００７０】ここで、評価関数の定義、収束条件の定義
は、この実施の形態２に示したもののみに限定されるも
のでないことはいうまでもない。

【００７１】また、この実施の形態２では単語連鎖（バ
イグラム）を２次元行列で説明したが、トライグラムで
は３次元行列、一般のＮグラムではＮ次元行列を用いれ
ば、この実施の形態２をそのまま適用できることはいう
までもない。さらに、この実施の形態２におけるクラス
タリング手法を先験的な知識を用いる実施の形態１にお
けるクラスタリングと組み合わせ、ある階層については
この実施の形態２のクラスタリング手法を、別の階層に
ついては先験的な知識を用いる実施の形態１のクラスタ
リング手法を用いることも可能であることはいうまでも
ない。

【００７２】以上のように、この実施の形態２によれ
ば、各階層をクラスタリングする際に先験的な知識がな
くても、スパースなコーパス９についてクラスタリング
することが可能となるという効果が得られる。

【００７３】

【発明の効果】以上のように、この発明によれば、音声
データを所定時刻ごとに音響分析した音響特徴ベクト
ル、音韻モデルおよび単語辞書から計算した認識仮説の
音響尤度と、言語モデル階層決定手段の決定した言語モ
デルの階層から統計的言語モデルを参照して計算した認
識仮説の言語尤度に基づいて最終的な認識候補を出力す
るようにし、その統計的言語モデルに階層構造をもた
せ、音声認識の処理状況に応じて適切な階層の言語モデ
ルを使用するように構成したので、コーパスの量が十分
ではない場合でも、言語的につながり得ない異常な単語
連鎖についての言語尤度を小さくすることが可能となる
ため、認識性能および認識処理速度の高い音声認識装置
が得られるという効果がある。

【００７４】この発明によれば、各先行単語によって最
適な階層の言語モデルを使用するように構成したので、
異常な単語連鎖に対する言語尤度が小さくなって、認識
性能および認識処理速度の向上を図ることができるとい
う効果がある。

【００７５】この発明によれば、先行単語と、後続単語
が属している適切な階層のクラスにおける単語−クラス
連鎖のコーパスの出現頻度が０の場合、その単語バイグ
ラムの確率値を０または０に近い小さな正値とするよう
に構成したので、異常な単語連鎖に対する言語尤度が小
さくなって、認識性能および認識処理速度の向上が図れ
るという効果がある。

【００７６】この発明によれば、先行単語と、後続単語
が属している適切な階層のクラスにおける単語−クラス
連鎖のコーパスの出現頻度が０より大きく、かつ、コー
パス内の単語バイグラムの出現頻度が０の場合には、そ
の単語バイグラムの確率値を０より大きい値に設定する
ように構成したので、言語尤度や総合尤度の対数値を確
実に計算できる効果がある。

【００７７】この発明によれば、統計的言語モデルにお
ける先行単語に使用する最適な階層として、所属するク
ラスの単語バイグラムの出現頻度が０でない後続単語の
数の変化率が最大になる直前の階層を選択するように構
成したので、容易に最適な階層を決定することが可能に
なるという効果がある。

【００７８】この発明によれば、コーパス以外の外部知
識を用いて階層構造をもつクラスの作成を行うように構
成したので、各階層のクラスについて人間にとって直感
的な分類を行うことが可能になるという効果がある。

【００７９】この発明によれば、外部知識を用いずに、
各階層においてそれぞれクラスタリングをすることによ
り階層構造をもつクラスを作成するように構成したの
で、各階層のクラスを先験的な知識なしに自動的に作成
することが可能になるとという効果がある。

【００８０】この発明によれば、ある一部の階層につい
てはコーパス以外の外部知識を用い、他の階層について
は外部知識を用いずにクラスタリングをすることによ
り、階層構造をもつクラスを作成するように構成したの
で、必要な階層では人間にとって直感的な分類が行え、
他の階層では自動作成が可能になるという効果がある。

【００８１】この発明によれば、クラスタリングすべき
単語を行列表現して、行と列の入れ替えによってコーパ
スの出現頻度が０でない部分を局在させ、その部分に外
接するような部分行列をクラスとするように構成したの
で、コーパスに表れる連鎖と表れない連鎖とをうまく分
離することができ、スパースなコーパスについてのクラ
スタリングを容易に行うことが可能になるという効果が
ある。

【図面の簡単な説明】

【図１】この発明の実施の形態１による音声認識装置
の構成を示すブロック図である。

【図２】実施の形態１による音声認識装置の動作を示
すフローチャートである。

【図３】階層構造をもつ単語辞書の一例を示す説明図
である。

【図４】階層構造をもつ言語モデルの、先行単語と後
続単語の各階層のコーパス内での出現頻度を示す説明図
である。

【図５】実施の形態１における言語モデル階層決定手
段の動作を示すフローチャートである。

【図６】実施の形態１における言語モデル階層決定手
段が計算した配列をグラフで示した説明図である。

【図７】この発明の実施の形態２による音声認識装置
の構成を示すブロック図である。

【図８】実施の形態２におけるクラス作成手段の動作
を示すフローチャートである。

【図９】ある階層における要素連鎖のコーパスでの出
現頻度を行列形式で示した説明図である。

【図１０】図９に示した行列を４＊４の小行列に分解
した例を示す説明図である。

【図１１】図９で示した行列について、その行と列を
入れ替える操作を行った後の状態例を示した説明図であ
る。

【図１２】この発明と従来の音声認識装置で用いられ
る単語辞書の具体例を示す説明図である。

【図１３】この発明と従来の音声認識装置における単
語のＨＭＭの構造の一例を示す説明図である。

【図１４】この発明と従来の音声認識装置にて、時刻
が進むにつれて認識仮説が展開される状況を示す説明図
である。

【図１５】従来の音声認識装置の構成を示すブロック
図である。

【図１６】従来の音声認識装置の動作を示すフローチ
ャートである。

【符号の説明】

１音声取得手段、２音響分析手段、３ＨＭＭ音韻
モデル記憶手段（音韻モデル記憶手段）、４単語辞書
記憶手段、５音響尤度計算手段、８認識結果出力手
段、９コーパス、１０階層言語モデル記憶手段（言
語モデル記憶手段）、１２言語モデル階層決定手段、
１３言語尤度計算手段。

Claims

【特許請求の範囲】

【請求項１】コーパスから作成した統計的言語モデル
を用いて入力音声の音声認識を行う音声認識装置におい
て、入力音声をデジタルデータ化し、それを音声データとし
て記憶する音声取得手段と、前記音声データを所定時刻ごとに音響分析して音響特徴
ベクトルを出力する音響分析手段と、音韻モデルを記憶する音韻モデル記憶手段と、単語辞書を記憶する単語辞書記憶手段と、前記音響分析手段より出力された音響特徴ベクトル、前
記音韻モデル記憶手段に記憶されている音韻モデル、お
よび前記単語辞書に記憶されている単語辞書から、認識
仮説の音響尤度を計算する音響尤度計算手段と、前記統計的言語モデルを記憶する言語モデル記憶手段
と、単語遷移した前記認識仮説について、その単語連鎖の言
語モデルを計算する際の言語モデルの階層を決定する言
語モデル階層決定手段と、前記言語モデル記憶手段に記憶されている統計的言語モ
デルを参照し、前記言語モデル階層決定手段の決定した
言語モデルの階層から認識仮説の言語尤度を計算する言
語尤度計算手段と、前記音響尤度計算手段の計算した認識仮説の音響尤度
と、前記言語尤度計算手段の計算した認識仮説の言語尤
度に基づいた、最終的な認識候補を出力する認識結果出
力手段とを備え、前記統計的言語モデルは階層構造をもち、音声認識の処
理状況に応じて適切な階層の言語モデルを使用すること
を特徴とする音声認識装置。
【請求項２】統計的言語モデルは、各先行単語によっ
て最適な階層の言語モデルを使用することを特徴とする
請求項１記載の音声認識装置。
【請求項３】統計的言語モデルは、先行単語と、後続
単語が属している適切な階層のクラスにおける単語−ク
ラス連鎖のコーパスの出現頻度が０の場合には、その単
語バイグラムの確率値を０または０に近い小さい正値と
することを特徴とする請求項２記載の音声認識装置。
【請求項４】統計的言語モデルは、先行単語と、後続
単語が属している適切な階層のクラスにおける単語−ク
ラス連鎖のコーパスの出現頻度が０より大きく、かつ、
コーパス内の単語バイグラムの出現頻度が０である場合
には、その単語バイグラムの確率値を０より大きい値に
設定することを特徴とする請求項２記載の音声認識装
置。
【請求項５】統計的言語モデルにおける先行単語に使
用する最適な階層として、所属するクラスの単語バイグ
ラムの出現頻度が０でない後続単語の数の変化率が最大
になる直前の階層を選択することを特徴とする請求項２
記載の音声認識装置。
【請求項６】統計的言語モデルは、階層構造をもつク
ラスを、コーパス以外の外部知識を用いて作成すること
を特徴とする請求項１記載の音声認識装置。
【請求項７】統計的言語モデルは、階層構造をもつク
ラスを、外部知識を用いず、各階層においてそれぞれク
ラスタリングをすることによって作成することを特徴と
する請求項１記載の音声認識装置。
【請求項８】統計的言語モデルは、階層構造をもつク
ラスを、ある階層については、コーパス以外の外部知識
を用いて作成し、別の階層については外部知識を用いず
にクラスタリングをすることによって作成することを特
徴とする請求項１記載の音声認識装置。
【請求項９】統計的言語モデルは、クラスタリングを
すべき単語を行列表現して、行と列の入れ替えによって
コーパスの出現頻度が０でない部分を局在させ、その部
分に外接するような部分行列をクラスとすることを特徴
とする請求項１記載の音声認識装置。