JP2008176202A

JP2008176202A - 音声認識装置及び音声認識プログラム

Info

Publication number: JP2008176202A
Application number: JP2007011422A
Authority: JP
Inventors: Kazuho Onoe; 和穂尾上; Toru Imai; 亨今井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2007-01-22
Filing date: 2007-01-22
Publication date: 2008-07-31
Anticipated expiration: 2027-01-22
Also published as: JP4758919B2

Abstract

【課題】高精度な音声認識を実現する。
【解決手段】学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識を行う音声認識装置において、前記学習用の音声信号に対して音響特徴量の分析を行う音響分析手段と、前記テキストに対して形態素解析を行う形態素解析手段と、前記音響分析手段及び前記形態素解析手段の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成手段と、前記アライメント生成手段により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習手段と、前記相関関係確率学習手段により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識手段とを有することにより、上記課題を解決する。
【選択図】図１

Description

本発明は、音声認識装置及び音声認識プログラムに係り、特に高精度な音声認識を実現するための音声認識装置及び音声認識プログラムに関する。

従来の音声認識手法において、音声及び言語に対してそれぞれ独立に確率モデルを学習し、音声認識時にその確率モデル（音響モデル、言語モデル等）を組み合わせて使用する手法が知られている。

なお、音響モデルは、例えば音声信号より各音素と入力信号との尤度を出力するＨＭＭ（隠れマルコフモデル）による確率モデルであり、言語モデルは、例えば人手によって作成した文法による確率、又は音声から書き起こした文章の各単語において単語間の意味的な接続のし易さを示す単語連鎖確率等についてｎ−ｇｒａｍモデル等を用いて学習された確率モデルである。

つまり、従来では、上述した音響モデルと言語モデルは、それぞれ独立しており、音響モデルと言語モデルの関係を直接表現するモデルは存在していなかった。そこで、近年では、認識精度の向上をめざして、音響モデルと言語モデルの関係を表現するような技術が開示されている（例えば、非特許文献１〜３等参照。）。

ここで、非特許文献１に示されている手法では、各単語の音素の発話継続時間長の平均と分散を学習データから学習して確率モデル化し、音声認識に利用する手法を提案している。また、この手法は、発話継続時間長の値を直接用いており、認識音素と学習音素とが常に一定の同じ発話スピードで話している場合に一番高い効果が期待できる。また、この手法では、話速（音素の発話継続時間長）が変化する場合には劣化の可能性もあるが、全ての音素に対して一意に話速の正規化を行うことで上記の課題の解決を試みている。

また、非特許文献２に示されている手法では、言語的情報と音響信号の相関をモデル化することで、認識精度の改善を図っている。また、この手法では、学習用の音声信号とその音声信号から文章を書き起こしたテキストを使用して、パワーや母音継続時間、ピッチに関する統計量を求めてモデル化して使用している。

また、非特許文献３に示されている手法では、講演音声の認識エラーが何の影響を大きく受けているのかについて、決定木を用いて分析を行っている。また、この手法では、エラーに影響するのは話速、音素の出現頻度等が重要であり、認識精度の改善には、話速や単語内に含まれる音素数等を考慮した方がよいことが示されている。
"ＭｏｄｅｌｉｎｇＷｏｒｄＤｕｒａｔｉｏｎｆｏｒＢｅｔｔｅｒＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，"Ｖ．Ｒａｍａｎａ，Ｒ．Ｇａｄｄｅ，ＳｐｅｅｃｈＴｒａｎｓｃｒｉｐｔｉｏｎＷｏｒｋｓｈｏｐ，Ｍａｙ１６−１９，Ｕｎｉｖ．ｏｆＭａｒｙｌａｎｄＳｐｅｅｃｈＴｒａｎｓｃｒｉｐｔｉｏｎＷｏｒｋｓｈｏｐ２０００． "ＬｅｘｉｃａｌＳｔｒｅｓｓＭｏｄｅｌｉｎｇｆｏｒＩｍｐｒｏｖｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｏｆＳｐｏｎｔａｎｅｏｕｓＴｅｌｅｐｈｏｎｅＳｐｅｅｃｈｉｎｔｈｅＪＵＰＩＴＥＲＤｏｍａｉｎ"，Ｃ．Ｗａｎｇ，ａｎｄＳ．Ｓｅｎｅｆｆ，ＥｕｒｏＳｐｅｅｃｈ２００１． "ＥｒｒｏｒＡｎａｌｙｓｉｓＵｓｉｎｇＤｅｃｉｓｉｏｎＴｒｅｅｓＩｎＳｐｏｎｔａｎｅｏｕｓＰｒｅｓｅｎｔａｔｉｏｎＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，"Ｔ．ＳｈｉｎｏｚｕｋａａｎｄＳ．Ｆｕｒｕｉ，Ｐｒｏｃ．ＡＳＲＵ２００１．

上述した従来の音声認識手法では、音響モデルや言語モデルをそれぞれ独立に学習し、音声認識時に両モデルを用いて正解となる文章を探索している。そのため、単語毎に発話の仕方等の異なる部分についてはモデル化されていない。

また、現状のモデルでは発音辞書に読みを与えるだけであるため、同じ音素列の単語の時間経過に対する評価は同じになってしまう。また、学習データの平均に比べて、発話速度が早口なのか、ゆっくり発話しているのかというような指標がモデル化できておらず、上述した従来手法のような単語単位で継続時間長を扱うだけでは、音声と言語との間にある相関関係のモデル化が不十分である。

上述の例を挙げると、例えば正解単語列の探索中における枝刈り操作は、その時点における最大確率値（最大尤度）を基準として、ある一定の範囲（幅）を持って、それ以下の尤度を有する単語の候補は途中で枝狩り（除外）するビームサーチが多く用いられている。しかしながら、所定時間あたりの単語数や、各単語固有の発声時間長、発話文章の単語出現位置等が考慮されていないため、不要な探索空間が多く、音声認識処理時間が増加してしまう。

また、読みの情報がある場合には、一般的には読み毎に個別のモデルとして処理する場合と、等確率で扱う場合との二通りに分けられる。しかしながら、読み毎に個別のモデルとして取り扱うと、統計データを扱うには学習データ量不足（スパースネス）の問題が生じ、言語モデルの精度が低下する。また、複数の読みを等確率で扱う場合は、単語の読み毎に異なる頻度情報が全く考慮されておらず挿入誤り等の認識精度の劣化を引き起こしてしまう場合がある。

本発明は、上述した問題点に鑑みなされたものであり、高精度な音声認識を実現するための音声認識装置及び音声認識プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識を行う音声認識装置において、前記学習用の音声信号に対して音響特徴量の分析を行う音響分析手段と、前記テキストに対して形態素解析を行う形態素解析手段と、前記音響分析手段及び前記形態素解析手段の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成手段と、前記アライメント生成手段により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習手段と、前記相関関係確率学習手段により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識手段とを有することを特徴とする。

請求項１記載の発明によれば、音声と言語の相関情報を利用することができ、より学習データ中の統計量を音声認識に有効に活用することができる。つまり、相関関係確率モデル用いて高精度な音声認識を実現することができる。

請求項２に記載された発明は、前記音声認識手段は、前記認識対象の音声信号から音響特徴量を抽出し、抽出した音響特徴量と前記相関関係確率モデルと音響モデル・言語モデルとに基づいて、所定処理時間における所定数の単語列候補を選択する第１単語列探索手段を有することを特徴とする。

請求項２記載の発明によれば、相関関係確率モデルにより単語毎に探索中のビームサーチの幅を制御できるため、処理時間を制約し高速化することができる。また、逆に同一処理時間とした場合、効果的に探索空間を広げるといった処理も可能となり、より認識率の精度を向上させることができる。

請求項３に記載された発明は、前記音声認識手段は、前記第１単語列探索手段により得られる単語列候補に対して、前記相関関係確率モデルから得られる情報により単語毎に重み付けを行い、前記単語列候補における重み付けされた確率値に基づいて所定数の単語列を出力する第２単語列探索手段を有することを特徴とする。

請求項３記載の発明によれば、相関関係確率モデルから得られる頻度情報等の情報を用いて単語列の正解確率を高精度に取得することができる。

請求項４に記載された発明は、前記相関関係確率モデルには、前記学習用の音声信号の長さ毎の書き起こしテキストに含まれる平均単語数と分散、もしくは音素数の平均と分散、音素の分布、各音素の頻度平均と分散、品詞の分布と各品詞の頻度平均と分散、前記学習用の音声信号より与えられた各単語内での音素の分布、前記各単語の発話の位置情報、前記単語毎のパワーもしくはゼロクロスの平均と分散、及び前記各単語の発音区間長の平均と分散等の情報のうち、少なくとも１つを有することを特徴とする。

請求項４記載の発明によれば、上述した情報を確率モデルとして学習しておくことにより、認識結果と学習データの相関を取ることができる。これにより、学習データにおける話し方等を含めた文章らしさを数値として表現することができる。

請求項５に記載された発明は、前記第１単語列探索手段は、前記認識対象の音声信号に含まれる時間情報に基づいて、前記認識対象の音声信号に対する経過時間あたりの単語数、音素数による単語列の枝刈り、及び／又は各単語内の経過時間、音素頻度回数、ゼロクロス頻度等による単語の枝刈りを行うことを特徴とする。

請求項５記載の発明によれば、時間情報に基づいて発話の長さあたりの単語の頻度を探索条件に含めることができるため、認識対象の音声が学習データの平均に比べ、早口なのかゆっくり発話しているのかを考慮しながら枝刈り等の処理を行うことができる。

請求項６に記載された発明は、前記第１単語列探索手段は、前記相関関係確率モデルに基づいて同形異音語の確率補正を行うことを特徴とする。

請求項６記載の発明によれば、同形異音語に関して、それぞれの読みの割合（確率）を考慮して確率補正を行うことで、探索精度を向上させることができる。

請求項７に記載された発明は、前記第２単語列探索手段は、前記単語列候補に対して前記相関関係確率モデルにより得られる１文章内の単語総数、１文章内の音素総数、文章内の音素頻度分布、文章内の不要語数、文章内の相づち数、及び文章内の品詞分布のうち、少なくとも１つを用いて１文単位の単語列の探索を行うことを特徴とする。

請求項７記載の発明によれば、１文単位で単語列の探索を行うこともできるため、より認識率の精度を向上させることができる。

請求項８に記載された発明は、学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識をコンピュータに実行させるための音声認識プログラムにおいて、前記学習用の音声信号に対して音響特徴量の分析を行う音響分析処理と、前記テキストに対して形態素解析を行う形態素解析処理と、前記音響分析処理及び前記形態素解析処理の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成処理と、前記アライメント生成処理により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習処理と、前記相関関係確率学習処理により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識処理とをコンピュータに実行させる。

請求項８記載の発明によれば、相関関係確率モデル用いて高精度な音声認識を実現することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に音声認識処理を実現することができる。

本発明によれば、高精度な音声認識を実現することができる。

＜本発明の概要＞
本発明は、学習データから得られる音声と言語の相関関係に関する統計量を抽出して確率モデル化し、音声認識時に音響モデルと言語モデルとを組み合わせて用いることで、学習データより得られる情報をより有効に活用することができ、これにより、認識精度の向上を図るものである。

これは、今まで提案されている話速（音素の発話継続時間長）等のような物理的な値だけはなく、例えば母音と子音の比による話速の取り扱いや、文章単位の単語数、品詞頻度数、単語位置情報等を組み合わせて用いることで、より言語と音声との相関情報をモデル化して利用し、認識精度の向上を図る。

以下に、上述したような特徴を有する本発明における音声認識装置及び音声認識プログラムを好適に実施した形態について、図面を用いて詳細に説明する。

＜音声認識装置：装置構成＞
図１は、本発明における音声認識装置の一構成例を示す図である。図１に示す音声認識装置１は、大別すると、学習手段１０と、音声認識手段２０とを有するよう構成されている。ここで、学習手段１０は、音響分析手段１１と、形態素解析手段１２と、アライメント生成手段１３と、相関関係確率モデル学習手段１４とを有するよう構成されている。また、音声認識手段２０は、第１単語列探索手段２１と、第２単語列探索手段２２とを有するよう構成されている。

なお、学習手段１０による学習ステップと、音声認識手段２０による音声ステップとは、別構成であってもよく、またそれぞれが単独で処理されてもよい。

図１に示す音声認識装置１は、学習ステップとして、予め設定された音声信号と、それに対応する書き起こしテキスト３１から音声と言語との相関関係を示す音声・言語相関関係確率モデル３２を学習する。なお、学習ステップにおける音響分析や形態素解析等を行う場合には、予め従来手法等を用いて設定されたＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）等により学習された音響的特徴を有する音響モデル３３、言葉のつながりを確率を使って表現された言語モデル（例えば、ｎ−ｇｒａｍ言語モデル等）３４、単語又は語彙（単語の集合）とその発音を規定した発音辞書３５等を用いてもよい。

また、音声認識装置１は、音声認識ステップとして、入力される認識対象音声信号３６について、上述の学習ステップにより学習結果として得られる音声・言語相関関係確率モデル３２と、予め設定される音響モデル３３、言語モデル３４、発音辞書３５等を用いて音声認識手段２０による正解単語列の探索（第１単語列探索手段２１）を行い、正解単語列候補３７を生成する。更に、音声認識装置１は、正解単語列候補３７から確率値のリスコアリングによる単語列探索（第２単語列探索手段２２）を行い、音声認識結果３８を出力する。次に、学習手段１０及び音声認識手段２０のそれぞれにおける各処理について、図を用いて説明する。

＜学習手段１０＞
本実施形態における学習手段１０において、音響分析手段１１は、学習データとして例えばニュース番組等の予め設定された音声信号と、その音声信号に対応して発話内容を文章等により書き起こした書き起こしテキスト３１のうち、少なくとも音声信号を入力し、音響分析として音声の継続時間と各分析時刻のパワーを計算したり、ゼロクロス等のカウント等を行う。ここで、上述の内容について具体的に説明する。

ここで、図２は、学習データとしての音声信号の一例を示す図である。なお、図２において縦軸は音声波形の振幅を示し、横軸は時間を示している。ここで、例えば音響分析手段１１における対数パワーＥは、例えば以下に示す（１）式により計算される。

つまり、処理時間となる音声信号のパワーは、入力された図２に示す音声信号４１を分析窓幅Ｎにおいてサンプリングされた音声信号Ｓｎの二乗和の対数になる。

また、音響分析手段１１におけるゼロクロスの計算については、通常ゼロクロスは、図２に示す音声信号４１の振幅が０レベルの軸を何回クロスするのかをカウントした値になる。つまり、図２の例では、ゼロクロスは０レベルの横軸と音声信号４１の波形とが交差した点の数となる。

ここで、カウントされたゼロクロスの数値は、高域の音声（周波数）ほど振動の回数が多くなるため、その分数値が増加し、また低い音声ほど振動の回数が少なくなるため、その分数値が減少する。なお、ゼロクロスの数値については、分析窓幅に比例してカウントする音声波形の長さが異なる。

また、音響分析手段１１は、音響分析として、入力した音声信号から通常の音声認識手法で用いられる音響特徴量も抽出する。なお、この音響特徴量としては、例えばＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）等のような声道の形状を数値化した特徴量や、韻律（ピッチ、抑揚等）等の特徴量、またそれらの特徴量の平均値や分散等の統計的情報を分析する。音響分析手段１１は、取得した音響分析結果等をアライメント生成手段１３及び相関関係確率モデル学習手段１４に出力する。

また、形態素解析手段１２は、予め設定された音声信号と、それに対応する書き起こしテキスト３１のうち、少なくとも書き起こしテキストを入力し、入力したテキストに対して発音、単語分割、品詞分類等の形態素解析を行う。形態素解析手段１２は、取得した形態素解析結果をアライメント生成手段１３及び相関関係確率モデル学習手段１４に出力する。

アライメント生成手段１３は、音響分析手段１１により得られる音響分析結果と、形態素解析手段１２により得られる形態素解析結果とに基づいて、音声信号と単語又は音素等との対応関係を生成する。なお、対応関係は、音響分析手段１１の出力と形態素解析手段１２により得られる単語との対応関係を、音響モデル３３、言語モデル３４、発音辞書３５を用いて設定を行う。これにより、発話内容等の音声信号とそれに対応するテキストとの間でアライメントを取ることができる。

つまり、アライメント生成手段１３は、音声信号中のどの時間帯（例えば、何秒から何秒まで等といった時間）にどのような単語が音声として出力されているか等、音声、文字、及び時間のそれぞれの対応関係を設定する。アライメント生成手段１３は、アライメント結果を相関関係確率モデル学習手段１４に出力する。

相関関係確率モデル学習手段１４は、音響分析手段１１、形態素解析手段１２、アライメント生成手段１３によりそれぞれ得られた結果を用いて、入力音声信号と言語との相関関係確率モデルを学習する。

なお、本実施形態において学習するモデルにおける音声と言語との相関関係としては、例えば以下に示す（ａ）〜（ｉ）等のうち、何れか１つの情報を含む。
（ａ）学習音声（学習用の音声信号）の長さ（１文章）毎の書き起こしテキストに含まれる単語数の平均と分散
（ｂ）学習音声の長さ毎の書き起こしテキストに含まれる音素数の平均と分散
（ｃ）学習音声の長さ毎の音素の分布（ヒストグラム）と各音素の頻度平均と分散
（ｄ）品詞の分布（ヒストグラム）と各品詞の頻度平均と分散
（ｅ）学習音声より与えられた各単語内での音素（頻度）の分布（ヒストグラム）
（ｆ）学習音声より与えられた各単語の発話の位置情報（発話文書中で単語の発話された位置に関する平均と分散、単語出現位置のヒストグラム）
（ｇ）学習音声の単語毎のパワーの平均と分散
（ｈ）学習音声の単語毎のゼロクロスの平均と分散
（ｉ）学習音声より与えられた各単語の発音区間長（発話継続時間長）の平均と分散
また、相関関係確率モデル学習手段１４において学習するモデルに含まれる情報としては上述した内容に限定されるものではなく、例えば以下に示す（ｊ）〜（ｍ）等も含めることができる。
（ｊ）相づちの学習音声の長さ毎の分布（ヒストグラム）
（ｋ）不要語の学習音声の長さ毎の分布（ヒストグラム）
（ｌ）発話者の入れ替わりの学習音声の長さ毎の分布（ヒストグラム）
（ｍ）それぞれの単語が含まれる学習音声の長さの分布（ヒストグラム）を含めることもできる。

相関関係確率モデル学習手段１４は、上述した情報を含む音声・言語相関確率モデル３２を生成して出力する。出力された音声・言語相関確率モデル３２は、蓄積手段等に蓄積される。ここで、音声・言語確率相関関係確率モデル３２に含まれる項目の幾つかについて、更に具体的に説明する。

図３は、音声・言語相関関係確率モデルの単語・音素の統計量について説明するための一例の図である。なお、図３（Ａ）は所定の書き起こしテキストに含まれる出現単語数の平均と分散についての一例を示す図であり、図３（Ｂ）は所定の書き起こしテキストに含まれる音素数の平均と分散についての一例を示す図である。なお、図３は、上述した相関関係の（ａ），（ｂ）の情報に対応している。

ここで、図３（Ａ）、（Ｂ）における左側のグラフは、それぞれ経過時間あたりの単語（図３（Ａ））と音素（図３（Ｂ））の平均出現数を示しており、右側のグラフがそれぞれ単語（図３（Ａ））と音素（図３（Ｂ））の分散を示している。

図３に示すような、統計量をモデルに含めることで、例えば音声認識における単語接続候補をリストアップする場合に、そのモデルを用いて単語の出現数や音素の出現数より所定処理時間毎の確率値等を求めることで、候補を高精度に選択することができる。

また、図４は、音素分布による話速の比較の一例を示す図である。なお、図４は、上述した相関関係の（ｃ），（ｄ）の情報に対応している。ここで、話速は、単語や音素の頻度情報と相関があるため、認識にとって重要な情報である。

したがって、まず話速が速くなると母音の継続時間長が短くなる特性を利用し、図４（Ａ）に示すように学習データから得られる母音と子音の正規化したヒストグラムにより母音と子音の比（母音／子音）をαとし、そのαを認識対象音声の母音と子音の比と比べることで話速が速いのか遅いのかを表現することができる。

例えば、図４（Ｂ）の場合は、認識対象音声の母音対子音の比がαよりも小さい（（母音／子音）＜α）ため、学習音声に比べて話速が速いことがわかり、また文章内の単語数や音素数が平均より多いことがわかる。同様に、図４（Ｃ）の場合は、母音対子音の比がαよりも大きい（（母音／子音）＞α）ため、学習音声に比べて話速が遅いことがわかり、また文章内の単語数や音素数が平均より少ないことがわかる。

また、図５は、音素頻度分布による単語毎の最もらしさの確率について説明するための図である。なお、図５は、上述した相関関係の（ｅ）の情報に対応している。ここで、単語の最もらしさは、学習データのヒストグラムと認識時のヒストグラムの類似度を数値化することで取得することができる。

例えば、図５に示すように、単語『次』（読み「つぎ」（ｔｕｇｉ））について、学習データにより図５（Ａ）に示すような正規化したヒストグラム（音素の頻度分布）が得られたとする。ここで、音声認識時の単語『次』の正規化したヒストグラムが図５（Ｂ）のようになった場合、単語独自の確率を図５（Ａ）の頻度分布より計算する。つまり、音素頻度を正規化し、図５（Ａ）に示す音素毎の頻度の差の絶対値を取得する。また、取得した差を単語で足し合わせて１から引くことで、単語の最もらしさを取得することができる。

例えば、図５（Ｂ）の場合には、単語の最もらしさは図５（Ａ）の頻度分布を用いて「１−（｜ｉ（０．４）−０．４｜＋｜ｕ（０．４）−０．３｜＋｜ｇ（０．１）−０．２｜＋｜ｔ（０．１）−０．１｜）＝０．８」と算出することができる。

また同様に、図５（Ｃ）の場合には、単語の最もらしさは「１−｜（ｉ（０．４）−０．４｜＋｜ｕ（０．１）−０．３｜＋｜ｇ（０．１）−０．２｜＋｜ｔ（０．４）−０．１｜）＝０．４」と算出することができる。このように、単語の最もらしさを確率で表現して音声認識時に利用することで、認識性能を向上させることができる。

また、図６は、同形異音語の確率分配と単語位置確率について説明するための図である。なお、図６は、上述した相関関係の（ｆ）の情報に対応している。ここで、確率分配の例として、単語『今日』（読み「きょう」（ｋｙｏ：）、「こんにち」（ｋｏＮｎｉｃｈｉ））を例にする。

また、図６の例では、単語の音素ヒストグラムを用いて、読み毎に対応する音素のヒストグラム頻度の和を音素数で正規化した値を求める。この読み毎に求めた値の比にしたがって確率値１を分配する。

例えば、図６（Ａ）に示すヒストグラムの場合は、（きょう：こんにち）の確率が１：１であるため、上述した確率値１を分配すると、確率分配は０．５：０．５になる。このとき、例えば３０回単語『今日』が出現した時の音素頻度が図６（Ｂ）に示すヒストグラムの場合には、（きょう：こんにち）の確率が２０：１０＝２：１であるため、確率分配は０．６６７：０．３３３となる。

また、図６（Ｃ）に示す単語位置確率の実施例では、『今日』の単語出現位置ヒストグラムより、各出現位置でのヒストグラム頻度の割合を用いる。したがって、図６（Ｃ）の例によれば、単語『今日』が文頭から２単語目に出現する確率は、出現回数３０回のうち、２回目に出現した回数が８回であるため、単語位置確率は８／３０＝約０．２６７と算出することができる。

また、図７は、学習音声の音響分析手段より得られる単語毎の対数パワー及びゼロクロスの頻度分布の一例を示す図である。なお、図７は、上述した相関関係の（ｇ）、（ｈ）の情報に対応している。

まず、図７（Ａ）は、対数パワーの頻度分布を利用した例を示している。学習データより単語『そと』と『そっと』の対数パワーの頻度分布が図７（Ａ）に示すように得られたとする。ここで、単語『そと：ｓｏｔｏ』及び『そっと：ｓｏＱｔｏ』は共に、音響的にはほぼ同じで小休止の音素『っ：Ｑ』があるかないかの違いだけである。

なお、小休止区間は無音と同等で、信号がなく対数パワーが低いため、単語毎の対数パワーで比較すれば、図７（Ａ）に示すように『そと』と『そっと』の分布は異なる。したがって、この分布をモデルに含めて利用することで『そと』及び『そっと』を対数パワーで比較することができ、認識精度を向上させることができる。

また、図７（Ｂ）は、ゼロクロスの頻度分布を利用した例を示している。ここで、一般にゼロクロスは、摩擦性の音素『さ』『し』『す』『せ』『そ』等に多い特徴がある。したがって、ゼロクロスをカウントした情報等をモデルに含めることで、例えば図７（Ｂ）に示すように学習データより『来た』と『した』の各単語のゼロクロスの頻度分布が得られた場合、音声認識時に『来た』であるか『した』であるかをゼロクロスの値を使って比較することができる。これにより、認識精度を向上させることができる。

上述したような情報のうち、少なくとも１つを音声・言語相関関係確率モデル３２と含めることで、認識時にこのモデルを用いることで高精度且つ迅速に音声認識を実現することができる。

＜音声認識手段２０＞
次に、音声認識手段２０についての機能構成について、具体的に説明する。音声認識手段２０の第１単語列探索手段２１は、上述した音声・言語相関関係確率モデル３２、音響モデル３３、言語モデル３４、及び発音辞書３５を入力し、認識対象音声信号３６の入力に対して例えば上述した音響分析手段２１で行ったような音響特徴量の抽出を行い、抽出した特徴量等から正解単語の探索を行う。

更に具体的に説明すると、第１単語列探索手段２１は、音声・言語相関確率モデル３２を用いて探索空間の枝刈り、探索中の言語モデルの確率値の補正等を行う。

正解単語探索空間の枝刈りでは、通常の尤度を基にしたビームサーチに加えて、音声・言語相関確率モデル３２における所定処理時刻での平均単語数と平均音素数を用いて、標準偏差σを基準に、例えばＫ（Ｋは、２、３等の定数）σ以上離れたものを枝刈りする。また、第１単語列探索手段２１は、単語毎にそれぞれの対数パワー、ゼロクロス、継続処理時間等の平均等から時間的なプラスの方向にＫσ以上離れているアクティブなノードの枝刈りを行う。

つまり、第１単語列探索手段２１は、認識対象音声信号３６の時間長に基づいて、経過時間あたりの単語数、音素数による単語列の枝刈り、及び／又は各単語内の経過時間、音素頻度回数、ゼロクロス頻度等による単語の枝刈りを行う。

これにより、時間長に基づいて発話の長さあたりの単語の頻度を探索条件に含めることができるため、認識対象の音声が学習データの平均に比べ、早口なのかゆっくり発話しているのかを考慮しながら枝刈り等の処理を行うことができる。

また、探索中の言語モデルの確率値の補正では、まず音声・言語相関確率モデル３２を用いて、処理時刻毎に単語位置情報確率と平均単語数確率、平均音素数確率の値の積で補正し、更に対象の単語が同形異音語である場合には、各単語の発音と音素ヒストグラムの割合によって常に確率値を分配する。このように、同形異音語に関して、それぞれの読みの割合（確率）を考慮して確率補正を行うことで、探索精度を向上させることができる。

また、第１単語列探索手段２１は、探索の結果として例えば得られる解として尤度の高いものを予め設定される所定数（例えば、上位Ｎ位まで）を選択し、得られたＮベスト（Ｎ−ｂｅｓｔ）探索結果の文章を正解単語列候補３７として出力する。

第２単語列探索手段２２は、第１単語列探索手段２１により得られた正解単語列候補３７から言語モデル３４と音声・言語相関関係確率モデル３２とを用いて正解単語列候補３７の各単語毎の確率値に重み付けを行ってリスコアリングした確率値の結果から所定数（０以上）の正解単語列を音声認識結果３８として出力する。例えば、正解単語列の確率値が所定値以下の場合は、単語列を出力せず、所定値より大きい場合は、確率値が最大の単語列、上位Ｎ位までの単語列、又は確率値が所定値より大きい全ての単語列を出力する。

なお、第２単語列探索手段２２は、リスコアリングの際、選択された単語列候補から単語毎に各確率モデル（発音辞書３５を含む）等に含まれる処理時間、単語出現位置、読み等により確率値を取得し、音響モデル３３との類似性を示す音の類似確率を取得し、取得した値を用いて確率値に重み付けを行いリスコアリングすることもできる。

なお、音声認識時において、音響モデル３３は、音素や音節の周波数パターンを保持し、主に入力音声とマッチングを行う。また、言語モデル３４は、単語間の連鎖が規定されている。更に、発音辞書３５を用いる場合は、認識対象の語彙（＝単語の集合）とその発音が規定されているため、ここで規定されているもののみがマッチングの対象となる。

ここで、第２単語列探索手段２２は、上述したリスコアリングにあたり、例えば音声・言語相関関係確率モデル３２により認識対象音声信号３６に対応した１文章内の単語総数、１文章内の音素総数、文章内の音素頻度分布、文章内の不要語数、文章内の相づち数、文章内の品詞分布のそれぞれの確率値等を計算し、同時に各単語単位で例えば単語発話経過時間、対数パワー、ゼロクロス、発話位置、音素頻度分布等の確率を計算し、言語モデル３４の確率値と合計して１文単位の確率値を計算して、その値に基づいて正解単語列を選択してもよい。これにより、１文単位で単語列の探索を行うこともできるため、より認識率の精度を向上させることができる。

＜音声認識の具体例＞
ここで、本実施形態における音声認識の具体例について説明する。なお、以下の説明では、本実施形態における音声認識の一例として『今日』の発話位置統計量を利用した音声認識例について説明する。図８は、単語位置情報の一例を示す図である。

図８では、単語『今日』が１００回出現した時の学習データの各文章において、単語『今日』が何単語目に出現したかの割合（出現頻度）を示している。例えば、上述した情報を利用することによって、第１単語列探索手段２１における出力単語列が”『ランチ』『の』『カレー』『ニラ』『今日』『は』『かかせ』『ない』”となった場合、単語『今日』の出現位置は５単語目であり、図８に示す出現頻度の確率値は０．０４である。

したがって、この出現位置確率を第２単語列探索手段２２における計算に加えてリスコアリングすることにより、例えば、第１単語列探索手段２１における他の単語列の”『ランチ』『の』『カレー』『に』『ラッキョウ』『は』『かかせ』『ない』”の確率が相対的に上昇することになり、結果として、より高精度な正解単語列を音声認識結果として出力することができる。

また、逆に、例えば”『京』『は』『晴れて』『気温』『も』『上昇』『する』『見込み』『です』”のような単語列の場合は、文頭単語『京』よりも、単語『今日』の方が、文頭での出現頻度が多い。そのため、単語列”『今日』『は』『晴れて』『気温』『も』『上昇』『する』『見込み』『です』”を正解単語列の文章として出力させることができる。

次に、上述した図７に示すように対数パワーやゼロクロスの頻度分布を利用して音声認識を考える。例えば、単語列”『散歩』『に』『来た』『から』『に』『は』”と単語列”『散歩』『に』『した』『から』『に』『は』”とが、第１単語列探索手段２１で正解単語列候補として出力されたとする。このとき、どちらの単語列も単語の連鎖性の観点から判断すればあり得る文章であるが、各比較対象単語の対数パワーやゼロクロスの頻度分布を比較し、単語『した』の方がより学習データに近く最もらしい場合には、単語列”『散歩』『に』『した』『から』『に』『は』”を正解として出力することができる。

上述したように、本実施形態を用いることにより、高精度な音声認識を実現することができる。また、処理時間を短縮させた音声認識を実現することができる。つまり、学習手段２１により音声・言語相関関係確率モデル３２を学習により求めることで、音声と言語の相関情報を利用することができ、より学習データ中の統計量を音声認識に有効に活用することができる。また、音声・言語相関関係確率モデル３２によって、認識結果と学習データの相関を取ることができるため、学習データにおける話し方等を含めた文章らしさを数値として表現することができる。

具体的には、第１単語列探索手段２１において、単語列候補の数を設定する等の処理により、単語毎に探索中のビームサーチの幅を制御することができるため、認識処理時間を制約し高速化することができ、逆に同一処理時間における探索（対象）空間を広げるといった処理が可能となり、より認識率の精度を向上させることができる。また、第１単語列探索手段２１において、発話の長さあたりの単語の頻度を探索条件に含めることができるため、認識対象音声が学習データの平均に比べ、早口なのかゆっくり発話しているのかを考慮しながら、動的に音素による枝刈りや確率値の補正等を行うことができる。

また、第２単語列探索手段２２において、品詞の割合を考慮することで、発話が１単語の場合には挨拶や相づち等であることが効果的に表現できる。また、発話が長い文章では、文法的な制約の一部を取り入れることができる。また、第２単語列探索手段２２において、１文単位の音素ヒストグラムの母音と子音の比を比較することにより、学習データの平均話速と比べて話速が速いのか遅いのかをある程度表現することができる。

また、第１単語列探索手段２１や第２単語列探索手段２２において、同形異音語に対して、それぞれの読みの割合（確率）を考慮して確率補正を行うことで、探索精度を向上させることができる。更に、第１単語列探索手段２１や第２単語列探索手段２２において、学習音声の継続時間を考慮した言語モデルの連鎖確率を表現することができる。また、単語毎の音素の頻度等を用いることで、単語発声の特徴を確率値として反映することができる。したがって、第１単語列探索手段２１では単語内での音素の継続時間の割合等で認識誤りを枝狩りすることができる。また、第２単語列探索手段２２では、単語の位置情報等を考慮して１文毎の高精度に表現することができる。つまり、１文単位で単語列の探索を行うことで、より認識率の精度を向上させることができる。

＜実行プログラム＞
ここで、上述した音声認識装置１は、上述した専用の装置構成等を用いて本発明における音声認識処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラム（音声認識プログラム）を生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る音声認識処理を実現することができる。

＜ハードウェア構成＞
ここで、本発明における音声認識処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図９は、本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。

図９におけるコンピュータ本体には、入力装置５１と、出力装置５２と、ドライブ装置５３と、補助記憶装置５４と、メモリ装置５５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５６と、ネットワーク接続装置５７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置５１は、ユーザが操作するキーボード及びマウス等のポインティングデバイスやマイク等の音声入力デバイス等を有しており、ユーザからのプログラムの実行等、各種操作信号を入力する。出力装置５２は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイや音声を出力するスピーカ等を有し、ＣＰＵ５６が有する制御プログラムによりプログラムの実行経過や結果等を表示又は音声出力することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えばＣＤ−ＲＯＭ等の記録媒体５８等により提供される。プログラムを記録した記録媒体５８は、ドライブ装置５３にセット可能であり、記録媒体５８に含まれる実行プログラムが、記録媒体５８からドライブ装置５３を介して補助記憶装置５４にインストールされる。

補助記憶装置５４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

メモリ装置５５は、ＣＰＵ５６により補助記憶装置５４から読み出された実行プログラム等を格納する。なお、メモリ装置５５は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等からなる。

ＣＰＵ５６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、メモリ装置５５に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。また、ＣＰＵ５６は、プログラムの実行中に必要な各種情報を補助記憶装置５４から取得することができ、またＣＰＵ５６は、処理結果等を格納することもできる。

ネットワーク接続装置５７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで効率的に音声認識処理を実現することができる。また、プログラムをインストールすることにより、音声認識処理を容易に実現することができる。

＜音声認識処理手順＞
次に、本発明における実行プログラム（音声認識プログラム）を用いた音声認識処理手順についてフローチャートを用いて説明する。図１０は、音声認識処理手順の一例を示すフローチャートである。

図１０において、まず学習データとして、音声信号と、それに対応する書き起こしテキストを入力する（Ｓ０１）。次に、Ｓ０１にて入力した音声信号と、予め設定された音響モデル及び発音辞書等を用いて音響分析を行う（Ｓ０２）。次に、Ｓ０１にて入力した書き起こしテキストと、予め設定された言語モデル等を用いて形態素解析を行う（Ｓ０３）。

更に、Ｓ０２及びＳ０３にて得られた結果からアライメント生成を行う（Ｓ０４）。なお、アライメント生成は、例えば音声信号中のどの時間帯（例えば、何秒から何秒まで等といった時間）にどのような単語が音声として出力されているか等の音声、文字、及び時間のそれぞれの対応関係を設定する。

また、Ｓ０４におけるアライメント結果と、Ｓ０２における音響分析結果と、Ｓ０３における形態素解析結果とに基づいて、上述したように相関関係確率モデルの学習を行い（Ｓ０５）、音声と言語の相関関係確率モデルを蓄積する（Ｓ０６）。

なお、上述したＳ０１〜Ｓ０６の処理は学習ステップとして、Ｓ０７〜Ｓ１３に示す音声認識ステップの前に処理されるが、音声認識時に必ず行わなくてもよく、それぞれが単独で処理が行われてもよい。

次に、音声認識ステップでは、認識対象の音声信号を入力し（Ｓ０７）、入力した音声信号に対して音響特徴量を抽出する（Ｓ０８）。また、抽出された音響特徴量から音声・言語相関関係確率モデルや、言語モデル、音響モデル、発音辞書等の各確率モデル等とマッチング（照合）を行い、所定処理時間（数秒〜数分）における単語列候補を選択する（Ｓ０９）。

次に、選択された単語列候補から単語毎に音響モデル等の各確率モデルに含まれる処理時間、単語出現位置、読み等により、確率値を取得し（Ｓ１０）、モデルとの類似性を示す音の類似確率を取得する（Ｓ１１）。更に、単語の音素分布等を取得し（Ｓ１２）、音声・言語相関関係確率モデルから得られる単語頻度、音素頻度、話速等の情報により確率値に重みを付加してリスコアリングを行い、その確率値が所定の条件を満たす単語列（例えば、最大となる単語列）を音声認識結果（正解単語列）として出力する（Ｓ１３）。

このように、音声認識プログラムを用いた音声認識処理により、迅速且つ高精度に音声認識を実現することができる。また、プログラムをインストールすることにより、容易に音声認識処理を実現することができる。

＜音声認識処理動作例＞
図１１は、音声・言語相関関係確率モデルを用いた音声認識の動作例を示す図である。図１１では、上述した音声・言語相関関係確率モデルと言語モデルに含まれる単語連鎖確率とを利用してリストアップされた候補単語に対し、入力音声との照合を行い、例えば最も尤度が高い単語列（図１１においては、形態素間において確率の積が最大の経路）を正解単語列として出力する音声認識の動作例を示す図である。

具体的に説明すると、まず「つぎのニュースです」という入力音声信号６１に対して音響分析６２を行い、音響特徴量等を取得する。予め設定される言語モデル（単語出現頻度、単語接続情報等を含む）６３と、上述した音声・言語相関関係確率モデル６４を用いて音素の出現頻度等を考慮した単語のリストアップを行う。

次に、上述した同形異音語の確率分配や単語出現位置による確率値等を用いて重み付けを行い、確率値のリスコアリングを行う。具体的には、図１１において、例えば上述した図６に示す音声・言語相関関係確率モデルの情報を用いて、単語『今日』が文頭から２単語目に出現する単語位置確率０．２６７、同形異音語の確率分配値『今日（きょう）』＝０．６６７、及び『今日（こんにち）』＝０．３３３を重みとして言語モデル６３から得られる正解単語列候補の該当する連鎖確率値に付加（乗算等）する。

また、入力音声信号６１中の処理時間の単語と、予め設定される言語モデル（単語出現頻度、単語接続情報等を含む）６３から得られる発音情報（例えば、「ｔｓｕｇｉ」）６５とについて、音響モデル６６によるＨＭＭ等を用いた照合６７を行い、音の類似確率（図１１では、０．４）を求め、この確率値も重みとして該当する連鎖確率値に付加（乗算等）する。上述したように重み付けを行った後、確率値のリスコアリングを行う。

また、音声認識時には、音声・言語相関関係確率モデル６４を用いて枝刈り処理を行うことができる。例えば、上述した図５に示すように単語内の音素頻度分布等を用いて単語の枝刈りをしたり、上述した図３等に示すように所定処理時間あたりの音声の長さと事前に学習した単語・音素の平均と分散等を用いることにより連結する単語の枝刈りをすることができる。このように、音声と言語の相関関係を積極的に利用することで、より音声認識の精度を向上させることができる。

上述したように本発明によれば、高精度な音声認識を実現することができる。具体的には、音声・言語相関関係確率モデルを学習により求めることで、音声と言語の相関情報を利用することができ、より学習データ中の統計量を音声認識に有効に活用することができる。また、音声・言語相関関係確率モデルによって、認識結果と学習データの相関をとることができるため、学習データにおける話し方等を含めた文章らしさを数値として表現することができる。

また、本発明は、放送番組の字幕制作、音声対話システム、音声ワープロ、会議の議事録の自動作成、声による機器の制御等、音声認識や言語処理を利用した様々な分野の技術に適用することができる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明における音声認識装置の一構成例を示す図である。学習データとしての音声信号の一例を示す図である。音声・言語相関関係確率モデルの単語・音素の統計量について説明するための一例の図である。音素分布による話速の比較の一例を示す図である。音素頻度分布による単語毎の最もらしさの確率について説明するための図である。同形異音語の確率分配と単語位置確率について説明するための図である。学習音声の音響分析手段より得られる単語毎の対数パワー及びゼロクロスの頻度分布の一例を示す図である。単語位置情報の一例を示す図である。本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。音声認識処理手順の一例を示すフローチャートである。音声・言語相関関係確率モデルを用いた音声認識の動作例を示す図である。

符号の説明

１音声認識装置
１０学習手段
１１音響分析手段
１２形態素解析手段
１３アライメント生成手段
１４相関関係確率モデル学習手段
２０音声認識手段
２１第１単語列探索手段
２２第２単語列探索手段
３１音声信号と、それに対応する書き起こしテキスト
３２，６４音声・言語相関関係確率モデル
３３，６６音響モデル
３４，６３言語モデル
３５発音辞書
３６認識対象音声信号
３７正解単語列候補
３８音声認識結果
４１音声信号
５１入力装置
５２出力装置
５３ドライブ装置
５４補助記憶装置
５５メモリ装置
５６ＣＰＵ
５７ネットワーク接続装置
５８記録媒体
６１入力音声信号
６２音響分析
６５発音情報
６７照合
６８領域

Claims

学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識を行う音声認識装置において、
前記学習用の音声信号に対して音響特徴量の分析を行う音響分析手段と、
前記テキストに対して形態素解析を行う形態素解析手段と、
前記音響分析手段及び前記形態素解析手段の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成手段と、
前記アライメント生成手段により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習手段と、
前記相関関係確率学習手段により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識手段とを有することを特徴とする音声認識装置。
前記音声認識手段は、
前記認識対象の音声信号から音響特徴量を抽出し、抽出した音響特徴量と前記相関関係確率モデルと音響モデル・言語モデルとに基づいて、所定処理時間における所定数の単語列候補を選択する第１単語列探索手段を有することを特徴とする請求項１に記載の音声認識装置。
前記音声認識手段は、
前記第１単語列探索手段により得られる単語列候補に対して、前記相関関係確率モデルから得られる情報により単語毎に重み付けを行い、前記単語列候補における重み付けされた確率値に基づいて所定数の単語列を出力する第２単語列探索手段を有することを特徴とする請求項２に記載の音声認識装置。
前記相関関係確率モデルには、
前記学習用の音声信号の長さ毎の書き起こしテキストに含まれる平均単語数と分散、もしくは音素数の平均と分散、音素の分布、各音素の頻度平均と分散、品詞の分布と各品詞の頻度平均と分散、前記学習用の音声信号より与えられた各単語内での音素の分布、前記各単語の発話の位置情報、前記単語毎のパワーもしくはゼロクロスの平均と分散、及び前記各単語の発音区間長の平均と分散等の情報のうち、少なくとも１つを有することを特徴とする請求項１乃至３の何れか１項に記載の音声認識装置。
前記第１単語列探索手段は、
前記認識対象の音声信号に含まれる時間情報に基づいて、前記認識対象の音声信号に対する経過時間あたりの単語数、音素数による単語列の枝刈り、及び／又は各単語内の経過時間、音素頻度回数、ゼロクロス頻度等による単語の枝刈りを行うことを特徴とする請求項２に記載の音声認識装置。
前記第１単語列探索手段は、
前記相関関係確率モデルに基づいて同形異音語の確率補正を行うことを特徴とする請求項２に記載の音声認識装置。
前記第２単語列探索手段は、
前記単語列候補に対して前記相関関係確率モデルにより得られる１文章内の単語総数、１文章内の音素総数、文章内の音素頻度分布、文章内の不要語数、文章内の相づち数、及び文章内の品詞分布のうち、少なくとも１つを用いて１文単位の単語列の探索を行うことを特徴とする請求項３に記載の音声認識装置。
学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識をコンピュータに実行させるための音声認識プログラムにおいて、
前記学習用の音声信号に対して音響特徴量の分析を行う音響分析処理と、
前記テキストに対して形態素解析を行う形態素解析処理と、
前記音響分析処理及び前記形態素解析処理の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成処理と、
前記アライメント生成処理により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習処理と、
前記相関関係確率学習処理により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識処理とをコンピュータに実行させるための音声認識プログラム。