JP2008129318A

JP2008129318A - 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム

Info

Publication number: JP2008129318A
Application number: JP2006314121A
Authority: JP
Inventors: Shinichi Honma; 真一本間; Toru Imai; 亨今井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2006-11-21
Filing date: 2006-11-21
Publication date: 2008-06-05
Anticipated expiration: 2026-11-21
Also published as: JP4741452B2

Abstract

【課題】未知語についてカナ文字出力を可能にする言語モデルを作成する言語モデル作成装置及び言語モデル作成プログラム並びに未知語の前後の単語について認識誤りを少なくすることができる音声認識装置及び音声認識プラグラムを提供する。
【解決手段】言語モデル作成装置３は、音声認識する際に用いられる辞書に登録されていない単語である未知語を、カナ文字列で表現した言語モデルを作成するもので、単語蓄積手段１３と、音節単位分割手段１５と、隠れマルコフモデル推定手段１７と、部分文字列選択手段１９と、正規化手段２１と、情報量基準値計算手段２３と、言語モデル作成手段２５と、を備えた。
【選択図】図１

Description

本発明は、音声認識の際に用いられる言語モデルを作成する言語モデル作成装置及び言語モデル作成プログラム並びに、当該言語モデルを用いて音声信号を認識する音声認識装置及び音声認識プログラムに関する。

従来、音声認識装置に組みこまれ、音声信号（入力音声）を音声認識する際に用いられる辞書において、この辞書に登録できる単語数には制限があり、あらゆる単語を登録することは不可能であるので、一般的によく知られた単語や辞書を作成する際に利用する学習データの中で頻度の高い単語だけを登録することになる。このため、特殊な専門用語等は、当該辞書に登録されていない単語、すなわち、未知語になってしまう場合がある。

例えば、「動物」に関する放送番組の音声を音声認識しようとした場合、読み上げられる特殊な動物名が未知語になることが多く、一例として、「オオアリクイ」、「オオスズメバチ」、「オオサンショウウオ」、「クロサンショウウオ」という４つの動物名が未知語となる場合を想定する。

この場合、これらの動物名について音声認識を可能にするためには、「オ」、「ア」、「リ」、「ク」、「イ」等の単語よりも短い「文字の単位」を、音声認識装置に組み込まれている辞書に登録するという手法が考えられるが、実際に音声認識実験を行ってみると、辞書に「文字の単位」を登録するだけでは認識精度があまり改善されないことが分かっている。

また、音声認識装置に入力された音声信号に、辞書に登録されていない単語（未知語）が含まれていた場合に、当該単語を認識可能にする手法として、「連続音声認識システムｎｉＮｊａへの未知語処理の導入」（非特許文献１）や「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」（非特許文献２）が提案されている。

この「連続音声認識システムｎｉＮｊａへの未知語処理の導入」は、未知語の音韻系列を推定するために、辞書に登録されている単語（登録単語）の辞書引きプロセスと並行して音韻タイプライタを駆動するというものであるが、ここで用いられる言語モデルは文法で記述したものが想定されている。

また、「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」は、未知語を収集して性質が近い未知語同士をまとめてクラスに分類し、当該クラスごとに個別の言語モデルを割り当てることで性能の向上を図るものである。なお、この手法で用いられる言語モデルは、一般的なクラス言語モデルを改良した「複数マルコフモデルに基づく階層化言語モデル」と呼ばれるものが想定されている。
「連続音声認識システムｎｉＮｊａへの未知語処理の導入」日本音響学会講演論文集平成４年３月ｐｐ．１１５−１１６「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」電子情報通信学会論文誌Ｄ−ＩＩＶｏｌ．Ｊ８７０Ｄ−ＩＩＮｏ．１２ｐｐ．２０１４−２１１１２００４年１２月

しかしながら、従来の手法において、音声信号（入力音声）中に未知語が含まれている場合、非特許文献１に開示されている手法では、言語モデルによる単語内や単語間の制約が少ないため、認識精度に限界があり、非特許文献２に開示されている手法では、高頻度の音節列２−ｇｒａｍを用いる方法であるが、あらゆるパターンの音節列２−ｇｒａｍを学習することは現実的に困難であるため、学習されていない未知語の認識ができず、未知語の前後の単語においても認識誤りが生じやすいという問題があり、音声認識装置のユーザの間では、未知語について正確に認識できなくとも、カナ文字で出力可能になることが望まれていた。

そこで、本発明では、前記した問題を解決し、未知語についてカナ文字出力を可能にする言語モデルを作成する言語モデル作成装置及び言語モデル作成プログラム並びに未知語の前後の単語について認識誤りを少なくすることができる音声認識装置及び音声認識プラグラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の言語モデル作成装置は、音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成する言語モデル作成装置であって、単語蓄積手段と、音節単位分割手段と、隠れマルコフモデル推定手段と、部分文字列選択手段と、正規化手段と、情報量基準値計算手段と、言語モデル作成手段と、を備える構成とした。

かかる構成によれば、言語モデル作成装置は、単語蓄積手段にカナ文字列に書き下された複数の単語を蓄積しており、音節単位分割手段によって、単語蓄積手段に蓄積されている単語を音節単位に分割する。続いて、言語モデル作成装置は、隠れマルコフモデル推定手段によって、音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する。そして、言語モデル作成装置は、部分文字列選択手段によって、音節単位分割手段で分割した１音節からなる全ての部分文字列と、隠れマルコフモデル推定手段で推定した出現確率の確率値の最上位から所定数の部分文字列とを選択する。そして、言語モデル作成装置は、正規化手段によって、選択した部分文字列の確率値の和が１となるように、選択した部分文字列の確率値を正規化する。

そして、言語モデル作成装置は、情報量基準値計算手段によって、正規手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する。その後、言語モデル作成装置は、言語モデル作成手段によって、情報量基準値計算手段で計算された情報量基準の値が最小となる最適数の部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた言語モデルを作成する。なお、言語モデル作成装置は、情報量基準値計算手段で計算した情報量基準の値が最小となる前記最適数を得るように、部分文字列選択手段で部分文字列の選択を変更することと、前記正規化手段で正規化することと、前記隠れマルコフモデル推定手段で部分文字列の出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて再推定することとを繰り返している。

この言語モデル作成装置では、未知語を表現するために用いるカナ文字列の単位（長さ）と、このカナ文字列が出現する確率及び遷移する確率とを言語モデルとして学習する際に、この言語モデルを学習（作成）することを、蓄積手段に蓄積したカナで書き下された複数の単語（大量のテキスト）について、長さが所定文字数以下の文字列の単位に最大の確率値を与えるように当該単語を分割する問題と捉えている。そして、言語モデル作成装置は、この問題を一般的な隠れマルコフモデルの推定問題とみなして解き、解いた結果から得られるカナ文字列の単位と確率値とを隠れマルコフモデルで表現することで、言語モデルを作成している。

請求項２に記載の言語モデル作成装置は、請求項１に記載の言語モデル作成装置において、前記情報量基準に赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることを特徴とする。

かかる構成によれば、言語モデル作成装置は、情報量基準に赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることで、言語モデルのパラメータが最適化される。

請求項３に記載の音声認識装置は、請求項１又は請求項２に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Ｎグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行う音声認識装置であって、蓄積手段と、特徴抽出手段と、正解探索手段と、を備える構成とした。

かかる構成によれば、音声認識装置は、蓄積手段に、言語モデル及び既知語言語モデルと、既知語の文字列及び発音と部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している。まず、音声認識装置は、特徴抽出手段によって、音声信号の言語的な特徴量及び音響的な特徴量を抽出する。そして、音声認識装置は、正解探索手段によって、特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを既知語言語モデルからのＮグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを言語モデルからの確率値及びＮグラム確率値を用いて得、音響的な特徴量に基づいて音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果に基づいて、発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する。

なお、この音声認識装置は、一般的なＮグラム言語モデル（Ｎグラムモデル）を用いた大語彙連続音声認識システムを前提としたものであり、従来のＮグラムモデルを用いた音声認識装置の簡易な改修によって構成されたものである。また、この音声認識装置では、未知語を認識するためのカナ文字列を出力する隠れマルコフモデルによる未知語言語モデルと、既知語を認識するための既知語言語モデル（一般的なＮグラムモデル）とを搭載し、音声信号の音声認識を実行する際には、既知語のスコアについてＮグラムモデルを利用して計算し、未知語のスコアについてＮグラムモデルと隠れマルコフモデルの組み合わせによって計算し、得られたスコアの値を利用して認識結果を推定しているので、Ｎグラムモデルの性能を劣化させることなく、音声信号において、未知語を含む音声区間についても認識精度を低下させることがない。

請求項４に記載の音声認識装置は、請求項３に記載の音声認識装置において、前記正解探索手段で出力された認識結果に含まれている未知語を表現したカナ文字列を、カナ漢字文字列に変換するカナ漢字文字列変換手段を備えることを特徴とする。

かかる構成によれば、音声認識装置は、カナ漢字文字列変換手段によって、カナ文字列を、漢字を含めたカナ漢字文字列に変換して出力することができ、単にカナ文字が羅列するよりは、漢字が含まれることで未知語の適切な推測が可能になる。

請求項５に記載の言語モデル作成プログラムは、音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成するために、前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段を備えたコンピュータを、音節単位分割手段、隠れマルコフモデル推定手段、部分文字列選択手段、正規化手段、情報量基準値計算手段、言語モデル作成手段、として機能させる構成とした。

かかる構成によれば、言語モデル作成プログラムは、単語蓄積手段に蓄積されている単語を音節単位に分割し、隠れマルコフモデル推定手段によって、音節単位分割手段で分割された各単語に含まれる音節の連続する組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する。そして、言語モデル作成プログラムは、部分文字列選択手段によって、音節単位分割手段で分割された１音節からなる全ての部分文字列と、隠れマルコフモデル推定手段で推定された出現確率の確率値の最上位から所定数の部分文字列とを選択し、正規化手段によって、部分文字列選択手段で選択した部分文字列の確率値の和が１となるように、選択した部分文字列の前記確率値を正規化する。そして、言語モデル作成プログラムは、情報量基準値計算手段によって、正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算し、言語モデル作成手段によって、情報量基準値計算手段で計算された情報量基準の値が最小となる部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた言語モデルを作成する。

請求項６に記載の音声認識プログラムは、請求項１又は請求項２に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Ｎグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行うために、前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音と部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段を備えたコンピュータを、特徴抽出手段、正解探索手段、として機能させる構成とした。

かかる構成によれば、音声認識プログラムは、特徴抽出手段によって、音声信号の言語的な特徴量及び音響的な特徴量を抽出し、正解探索手段によって、特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを既知語言語モデルからのＮグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを言語モデルからの確率値及びＮグラム確率値を用いて得、音響的な特徴量に基づいて音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果に基づいて、発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する。

請求項１、５に記載の発明によれば、未知語を表現するために用いるカナ文字列について、所定文字数以下の文字列に最大の確率値を与えるように単語を分割する問題と捉え、この問題を隠れマルコフモデルの推定問題とみなして解き、解いた結果から得られるカナ文字列の単位と確率値とを隠れマルコフモデルで表現することで、当該未知語についてカナ文字出力を可能にする言語モデルを作成することができる。

請求項２に記載の発明によれば、情報量基準に一般的な赤池情報量基準又は最小記述長原理のいずれかを用いることで、汎用的に言語モデルのパラメータを最適化することができる。

請求項３、６に記載の発明によれば、既知語について既知語言語モデルを用い、未知語について未知語言語モデルを用いることで、未知語の前後の単語について認識誤りを少なくすることができる。

請求項４に記載の発明によれば、カナ文字列を、漢字を含めたカナ漢字文字列に変換して出力することができ、単にカナ文字が羅列するよりは、漢字が含まれることで未知語の適切な推測を行うことができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
図１は音声認識装置（言語モデル作成装置を内包）のブロック図である。この図１に示すように、音声認識装置１は、言語モデル作成装置３を備えると共に、特徴抽出手段５と、蓄積手段７と、正解探索手段９と、カナ漢字文字列変換手段１１とを備えている。この音声認識装置１は、音声信号（入力音声）を入力として、認識結果（認識単語列）を出力するものである。この音声認識装置１の説明に先立ち、言語モデル作成装置３の説明を行う。

（言語モデル作成装置の構成）
言語モデル作成装置３は、辞書（発音辞書）に登録されていない単語である未知語を、カナ文字列として出力可能な言語モデル（未知語言語モデル）を、隠れマルコフモデルとして作成するもので、単語蓄積手段１３と、音節単位分割手段１５と、隠れマルコフモデル推定手段１７と、部分文字列選択手段１９と、正規化手段２１と、情報量基準値計算手段２３と、言語モデル作成手段２５とを備えている。

単語蓄積手段１３は、カナ文字（単にカナという）で書き下された大量の単語データ（又は学習用のテキストデータ）を蓄積しているもので、一般的な記録媒体（ハードディスク、メモリ等）によって構成されている。

音節単位分割手段１５は、単語蓄積手段１３に蓄積されている単語を、音節単位に分割するものである。例えば、単語が「オオアリクイ」であった場合、「オ」、「オ」、「ア」、「リ」、「ク」、「イ」と分割する。

隠れマルコフモデル推定手段１７は、音節単位分割手段１５で分割された各単語に含まれる音節の連続する組み合わせである部分文字列（サブワード）それぞれについて、出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定するものである。例えば、単語が「アリクイ」の場合、「ア」、「リ」、「ク」、「イ」、「アリ」、「リク」、「クイ」、「アリク」、「リクイ」、「アリクイ」の１０個の部分文字列について、出現確率と状態遷移確率とを推定する。

ここで、単語蓄積手段１３に蓄積されている大量の単語データ（又は学習用のテキストデータ）の中の単語の集合をＶと記述し、このＶに含まれる単語をｗと記述し、この単語ｗに含まれる部分文字列をｏと記述する。そして、単語ｗの部分文字列の集合（単語ｗの読みから得られたカナ文字列の集合）を記号列ｏ_１ ^Ｔｗ＝ｏ_１，・・・，ｏ_Ｔｗであるとした場合、隠れマルコフモデルの学習アルゴリズムに基づいて推定するとは、条件付確率Ｐ（ｏ_１ ^Ｔｗ｜Ｍ）を全ての単語について考慮した次に示す数式（１）を最大にするような言語モデルＭ（未知語言語モデル）を推定することである。すなわち、言語モデルＭは、「全ての未知語（ｗ←Ｖ）の出現確率を記録したもの」である。

ここで言語モデルＭの一例を、図２を参照して説明する。この図２に示すように、言語モデルＭとして、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型の隠れマルコフモデル（ＨＭＭ）を想定する。この図２では、記号列ｏ_１ ^Ｔｗが入力される前の初期状態が「状態０」であることを前提とし、この言語モデルＭが、ｏ_１，ｏ_２，・・・，という順で一つずつ記号を出力していき、最終の記号ｏ^Ｔｗが出力された後、「状態Ｓ」（Ｓ＝３）の最終状態に遷移して終了することを示している。なお、時刻ｔまでにｔ個の記号ｏ_１ ^ｔが出力された時点では、状態遷移確率ａ_ｉｊと、「状態１」と「状態２」で得られるため生成可能な任意の部分記号列ｏの出現確率とによりｔ個の記号ｏ_１ ^ｔの出現確率を計算することができる。

そして、各状態から出力される記号列ｏ_１ ^Ｔｗの任意の部分記号列ｏの長さの最大値をＮとした場合、言語モデルＭが時刻ｔまでにｔ個の記号ｏ_１ ^ｔを生成して状態ｊ（ｊ≦Ｓ）に到達する前向き確率α_ｔ ^（ｗ）（ｊ）は、次に示す数式（２）により再帰的に計算することができる。以下、単語の集合Ｖに含まれる単語ｗそれぞれについて、得られる確率（α、β、γ）を区別するために、添え字を付すこととする。

この数式（２）において、αの初期値は、ｔ＝０，ｊ＝０のときα_ｔ ^（ｗ）（ｊ）＝１、ｔ＝０，ｊ≠０のときα_ｔ ^（ｗ）（ｊ）＝０とする。ちなみに、一般的な前向き確率の計算式では、各状態から出力される記号（シンボル）は、ｏ_ｔだけを考慮するのが通常であるが、数式（２）では、各状態からｏ_ｔ−１ ^ｔ、ｏ_ｔ−２ ^ｔ、・・・、ｏ_{ｔ−（Ｎ−１）} ^ｔという長さＮ以下の任意の長さの部分文字列が出力されることを考慮している点に特徴がある。

また、数式（２）の前向き確率α_ｔ ^（ｗ）（ｊ）の定義より、Ｐ（ｏ_１ ^Ｔｗ｜Ｍ）は次に示す数式（３）によって求められる。

なお、この数式（３）が時刻Ｔｗでなく、時刻Ｔｗ＋１におけるαの和から導かれる理由は、図２に示したＨＭＭの例が、最終の記号ｏ^Ｔｗが出力された後に、時刻Ｔｗ＋１において、「状態Ｓ」の最終状態に到達するように定義しているためである。ちなみに、本発明と類似した手法として、「ＩＣＡＳＳＰ１９９５ｐｐ．１６９−１７２」によるものがあるが、この類似した手法での前提は「状態ｉにおいて固定長ｎの記号列が出力され、全ての状態遷移確率は等確率」となっており、本発明との違いは、各状態から出力される記号列ｏの長さがＮ以下の可変長であり、状態遷移確率が等確率に限定していない点である。

次に、前向き確率α_ｔ ^（ｗ）（ｊ）の計算方法の具体例を、図３を参照して説明する。
この図３は、トレリス（トレリス線図）と呼ばれているものであり、数式（２）において、ｔ＝４，ｊ＝２のときの前向き確率α_ｔ ^（ｗ）（ｊ）の値を計算する様子を示したものである。なお、この図３において、ＨＭＭ（言語モデルＭ）に入力した記号列（文字列）ｏ_１ ^Ｔｗは、“ａｂｃｄｅ”であり、各状態（状態１と状態２）において出力可能な部分記号列（部分文字列）の長さの最大値Ｎを３と設定している。

ここで、この記号列（文字列）ｏ_１ ^Ｔｗを単語ｗとみなして、Ｔｗ＝３とした場合の例で示すと、ｗ＝［ｏ_１ｏ_２ｏ_３］、［ｏ_１］［ｏ_２ｏ_３］、［ｏ_１ｏ_２］［ｏ_３］、［ｏ_１］［ｏ_２］［ｏ_３］（［］は部分文字列であることを示す）のようなパターンが存在することを前提としている。

この図３に示すように、ｔ＝４のときに、ＨＭＭ（言語モデルＭ）に、４番目の文字ｄが入力され、このとき、各状態からはｄからＮ（＝３）以内において時刻をさかのぼって入力された文字ｄの確率がＰ（ｄ）、文字列ｃｄの確率がＰ（ｃｄ）、文字列ｂｃｄの確率がＰ（ｂｃｄ）でそれぞれ出力される。

文字ｄを出力する直前の時刻がｔ＝３であり、文字列ｃｄを出力する直前の時刻がｔ＝２であり、文字列ｂｃｄを出力する直前の時刻がｔ＝１であり、それぞれの文字又は文字列が状態１及び状態２の両方において、出力された後に、現在の状態ｊ＝２に至っている。これらを考慮して、ｔ＝４，ｊ＝２のときの前向き確率α_ｔ ^（ｗ）（ｊ）は、直前の時刻の各状態におけるαの値を利用することにより、次に示す数式（４）のように計算される。

この数式（４）では、数式（２）と同様にして、時刻τでｏ_τ ^Ｔｗを生成して状態ｉ（≦Ｓ）に到達する後向き確率β_τ ^（ｗ）（ｉ）は、次に示す数式（５）によって、再帰的に計算することができる。

この数式（５）において、βの初期値は、ｔ＝Ｔｗ＋１，ｊ＝Ｓのときβ_ｔ ^（ｗ）（ｊ）＝１、ｔ＝Ｔｗ＋１，ｊ≠０のときβ_ｔ ^（ｗ）（ｊ）＝０とする。なお、この数式（５）においても、数式（２）と同様に、ｏ_ｔだけを考慮するのではなく、各状態からｏ_ｔ−１ ^ｔ、ｏ_ｔ−２ ^ｔ、・・・、ｏ_{ｔ−（Ｎ−１）} ^ｔという長さＮ以下の任意の長さの部分文字列が出力されることを考慮している点に特徴がある。

次に、記号列ｏ_１ ^Ｔｗ＝ｏ_１，・・・，ｏ_Ｔｗの出力に対し、状態ｉから状態ｊへの遷移が時刻ｔにおいて生じた確率γ_ｔ ^（ｗ）（ｉ，ｊ）を次に示す数式（６）によって求める。

また、この数式（６）において、γ_ｔ ^（ｗ）（ｉ）を次に示す数式（７）のように定義する。このγ_ｔ ^（ｗ）（ｉ）は、時刻ｔに状態ｉに滞在した確率である。

γ_ｔ（ｉ，ｊ）及びγ_ｔ ^（ｗ）（ｉ）を用いて、ＨＭＭの遷移確率（状態遷移確率）のパラメータａ_ｉｊの再推定を次に示す数式（８）のように行うことができる。

また、記号ｏ_１ ^Ｔｗから生成される長さｎ（≦Ｎ）の任意の部分文字列をｏとしたとき、ＨＭＭの状態ｊにおける出現確率の再推定は、次に示す数式（９）のように行うことができる。

なお、実際に、ＨＭＭの遷移確率（状態遷移確率）ａ_ｉｊと出現確率Ｐ_ｊ（ｏ）を求める際には、後記するように、ａ_ｉｊとＰ_ｊ（ｏ）に適当な初期値を設定し、数式（８）と数式（９）とを用いて、各パラメータの再推定を繰り返し実行することになる。図１に戻る。

以上のように、隠れマルコフモデル推定手段１７では、これらの処理によって、ＨＭＭの各パラメータの確率値（出現確率の確率値及び状態遷移確率の確率値）を推定している。つまり、隠れマルコフモデル推定手段１７では、音節単位分割手段１５で分割された単語データ（学習用のテキストデータ）に含まれる長さＮ以下の全てのカナ文字列（部分文字列、サブワード）の集合が入力された場合に、各状態におけるサブワードの出現確率と状態遷移確率（状態間の遷移確率）とを求めている。

部分文字列選択手段１９は、音節単位分割手段１５で分割された１音節の全ての部分文字列と、隠れマルコフモデル推定手段１７で推定されたＨＭＭの各パラメータにおける出現確率の確率値が上位となる所定文字数の部分文字列とを選択するものである。

正規化手段２１は、１音節の部分文字列の出現確率の確率値と所定文字数の部分文字列の出現確率の確率値との和が１となるように、部分文字列選択手段１９で選択された部分文字列の確率値を正規化するものである。なお、この正規化手段２１は、情報量基準値計算手段２３による計算結果（情報量基準値）によって、隠れマルコフモデル推定手段１７で推定されたサブワードの出現確率の確率値が上位となる所定文字数が変更されることにより、繰り返し実行される。

情報量基準値計算手段２３は、最小記述長原理（ＭＤＬ）に基づいて、正規化手段２１で正規化されたＨＭＭの情報量基準値を計算するものである。この情報量基準値計算手段２３では、次に示す数式（１０）により、情報量基準値を計算している。そして、数式（１０）によって計算された情報量基準値が最小になるとき、最適な言語モデルのパラメータの選択がなされたことになる。

この数式（１０）において、Ｘｉが単語蓄積手段１３に蓄積されるすべての単語ｗ（単語データ）（＝ｏ_１ ^Ｔｗ）であり、Ｎｘがこの単語ｗの個数であり、言語モデルＭのパラメータ数がｍである。そして、このパラメータ数ｍが単語ｗから生成される長さＮ以下のカナ文字列（サブワード）ｏの数である。

つまり、この情報量基準値計算手段２３では、計算した情報量基準値を記憶しておき、隠れマルコフモデル推定手段１７で出現確率及び状態遷移確率が再推定され、正規化手段２１で再正規化され、繰り返し情報量基準値を計算していくことで、最小の情報量基準値が得られた言語モデルのパラメータを特定することになる。

なお、この実施の形態では、情報量基準値計算手段２３は、最小記述長原理（ＭＤＬ）に基づいて、情報量基準値を計算しているが、これに限定されず、例えば、赤池情報量基準（ＡＩＣ）に基づいて、情報量基準値を計算してもよい。

言語モデル作成手段２５は、情報量基準値計算手段２３で得られた言語モデルのパラメータから言語モデルを作成し、未知語言語モデルとして蓄積手段７に出力するものである。

ここで、隠れマルコフモデル推定手段１７、部分文字列選択手段１９、正規化手段２１及び情報量基準値計算手段２３で繰り返し実行される言語モデルのパラメータの特定の仕方（パラメータの最適化の手順（１）〜（７））について説明する。

（１）隠れマルコフモデル推定手段１７において、数式（８）及び数式（９）により、ＨＭＭの各パラメータの確率値（出現確率の確率値及び状態遷移確率の確率値）を推定する。
（２）部分文字列選択手段１９において、隠れマルコフモデル推定手段１７で推定された出現確率の確率値により上位ｍ個のパラメータを選択する（１音節の部分文字列と出現確率の確率値が上位となる所定文字数の部分文字列とを選択する）。

（３）正規化手段２１において、ｍ個のパラメータの出現確率の確率値の和が１になるように、確率値の正規化を行う。
（４）隠れマルコフモデル推定手段１７において、正規化手段２１で正規化したパラメータを初期値として、数式（８）及び数式（９）により、ＨＭＭの各パラメータの確率値（出現確率の確率値及び状態遷移確率の確率値）を再推定する。

（５）情報量基準値計算手段２３において、数式（１０）により、情報量基準値（ＭＤＬ）を計算する。
（６）正規化手段２１において、パラメータ数ｍを変えながら、（１）〜（５）の手順を繰り返して、情報量基準値計算手段２３において、パラメータ数ｍの値と情報量基準値（ＭＤＬ）との関係を求め、情報量基準値（ＭＤＬ）が最小となるときのｍの値を特定する。

（７）情報量基準値計算手段２３において、ｍ個のパラメータを、情報量基準値（ＭＤＬ）から得た最適なパラメータとみなして、言語モデル作成手段２５に出力する。

なお、正規化手段２１において、上位ｍ個のパラメータを選択する際（１音節の部分文字列と出現確率の確率値が上位となる所定文字数の部分文字列とを選択する際）に、選択された部分文字列（サブワード）の組み合わせでは、表現できない単語が発生する可能性がある。すなわち、数式（１０）のＰ（Ｘｉ｜Ｍ）の値が０になるために、この数式（１０）による計算が不能になる場合がある。そこで、この言語モデル作成装置３では、パラメータとして、あらゆる単語を表現できる部分文字列（サブワード）の最小単位を、出現確率によらずに最低限保持しておく必要が生じる。

部分文字列の理論上の最小単位は「１文字」であり、部分文字列の数はこの「１文字」を順に組み合わせた全パターン数になる。しかし、音声認識装置１で処理される際に、部分文字列が音素と対応付けられている必要があるため、部分文字列の最小単位を「１文字」ではなく「１音節」（例えば、“キャ”等の拗音や、“アー”等の長音は分割しない）とし、この場合の部分文字列の数は「１音節」を順に組み合わせた全パターンの数になる。

また、ここで参考までに、言語モデル作成装置３によって、ＨＭＭ（言語モデル）を作成した例（パラメータ選択を行う実験）について説明する。
単語蓄積手段１３に蓄積する単語データとして、日本語の学習テキストから得られた単語の読みを用い、言語モデル作成装置３によって、ＨＭＭ（言語モデル）のパラメータ選択を行う実験（部分文字列のパターンを選択する実験）をしたところ、約３０，０００個存在した部分文字列のパターンから約８３００個の部分文字列のパターンが選択され、結果としてＨＭＭ（言語モデル）のパターン数を全パターン数の約３割に削減することができた。

さらに具体的な単語の例に挙げて説明する。「オオアリクイ」、「オオスズメバチ」、「オオサンショウウオ」、「クロサンショウウオ」という単語の場合、部分文字列の最大長Ｎ＝５として作成したＨＭＭのアルゴリズムを用いて、出現確率が最大となるように、これらの単語を言語モデル作成装置３によって、分割する実験を行ったところ、「オオ｜アリクイ」、「オオ｜スズメバチ」、「オオサ｜ンショウウオ」、「クロ｜サ｜ンショウウオ」のように分割された。

この言語モデル作成装置３によれば、未知語を表現するために用いるカナ文字列について、所定文字数以下の文字列に最大の確率値を与えるように単語を分割する問題と捉え、隠れマルコフモデル推定手段１７によって、この問題を隠れマルコフモデルの推定問題とみなして解き、解いた結果から得られるカナ文字列の単位と確率値とを隠れマルコフモデルで表現することで、当該未知語についてカナ文字出力を可能にする言語モデルを作成することができる。

また、この言語モデル作成装置３によれば、情報量基準値計算手段２３によって、情報量基準に一般的な赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることで、汎用的に言語モデルのパラメータを最適化することができる。

（音声認識装置の構成）
これより、音声認識装置１の他の構成について説明する。
特徴抽出手段５は、入力された音声信号を前処理するもので、具体的には、当該音声信号の音響的な特徴量を、特徴量ベクトルとして抽出するものである。この特徴量ベクトルの系列には、典型的な特徴量であるケプストラム係数の１種のＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）といった要素が含まれている。

蓄積手段７は、音声認識に関する各種データ及び当該各種データの設定値を蓄積しているもので、一般的な記録媒体によって構成されている。各種データは、音響モデル、発音辞書、言語モデルである。
音響モデルは、音声信号の音韻韻律に関する情報をモデル化したものである。

発音辞書は、入力された音声信号に含まれることが予測される単語（一般的な単語、既知語）とその読み（音素）との関係を記録したものであり、さらに、未知語を表現するためのカナ文字列とその読み（音素）との関係を記録したものである。

言語モデルは、既知語言語モデルと未知語言語モデルとからなり、既知語言語モデルは、入力された音声信号に含まれることが予測される単語（一般的な単語、既知語）の連鎖の確率（接続確率）を記録したものであり、未知語言語モデルは、未知語同士の連鎖の確率（接続確率）を記録したものである。さらに、図示を省略したが、言語モデルは、既知語と未知語間の連鎖の確率（接続確率）や、未知語を表現するために用いられるカナ文字列の出現確率や接続確率も記録している。

なお、既知語と未知語間の連鎖の確率（接続確率）は、単語蓄積手段１３に含まれる単語で蓄積手段７の発音辞書に含まれていない単語を、例えば＜ＵＮＫ＞という文字に置換し、そして、蓄積手段７の発音辞書に含まれる単語と、＜ＵＮＫ＞との接続確率を計算することで求められる。

正解探索手段９は、音声認識を実行するもので、音響スコアと言語スコア（既知語言語スコア及び未知語言語スコア）とを得て、これらの合計スコアに基づいて、発音辞書に含まれている候補（音素）を探索し、認識結果（認識単語列）を出力するものである。一般的な音声認識は、音声信号から得られる特徴量ベクトルの系列Ｘが与えられた下で、条件付確率Ｐ（Ｗ｜Ｘ）を最大化する単語系列Ｗを決定する問題として定式化されており、ここで条件付確率Ｐ（Ｗ｜Ｘ）は次に示す数式（１１）により計算される。

この数式（１１）において、分母が単語系列Ｗによらず、一定であることから、条件付確率Ｐ（Ｗ｜Ｘ）を最大化する単語系列Ｗは次に示す数式（１２）により与えられる。

ここで、音響スコアは、条件付確率Ｐ（Ｗ｜Ｘ）が単語系列Ｗの音響的な表れとして、特徴量ベクトルの系列Ｘの観測される確率（音響確率）を意味しており、この確率の対数値である。なお、音響スコアは、蓄積手段７に蓄積されている音響モデルを参照して計算される。

また、言語スコアは、Ｐ（Ｗ）が単語系列Ｗ自体の出現する確率（言語確率）を意味しており、この確率の対数値である。なお、言語スコアは、蓄積手段７に蓄積されている言語モデル（既知語言語モデル及び未知語言語モデル）を参照して計算される。
言語モデルとして、Ｎグラム言語モデルを用いる場合は、言語スコア（既知語言語スコア）は言語確率Ｐ（ｗ｜ｈ）を用いて計算することができる。この言語確率Ｐ（ｗ｜ｈ）において、ｗが正解単語の候補であり、ｈはｗの直前のＮグラムの履歴（Ｎ−１個の単語列）を指している。

ここで、ｕを音声認識装置１の発音辞書に登録されていない単語（未知語）とした場合、未知語ｕの言語スコア（未知語言語スコア）を推定する際には、次に示す数式（１３）を利用する。

この数式（１３）において、＜ＵＮＫ＞は未知語クラス、Ｍは前記した未知語を表現するＨＭＭ（言語モデル）を示している。なお、未知語クラス＜ＵＮＫ＞は発音辞書に含まれていない単語を、すべて「＜ＵＮＫ＞」という語に置換することによって得られるものを指している。

ここで、未知語ｕがＱｎ個の部分文字列（サブワード）ｓ_１，・・・，ｓ_Ｑｎからなるものであり、このＱｎ個の部分文字列が言語モデルＭの状態遷移系列Ｑ＝ｑ_０，ｑ_１，・・・，ｑ_Ｑｎ，ｑ_Ｑｎ＋１から出力されるものとすれば、Ｐ（ｕ｜Ｍ）は次に示す数式（１４）によって計算される。

この数式（１４）において、未知語ｕを構成する部分文字列（サブワード）のパターンとして様々組み合わせ（状態系列）を想定できるが、全ての系列パターンを考慮した上で、最大の確率値を与える系列（Ｖｉｔｅｒｂｉ系列）が出力される確率値をＰ（ｕ｜Ｍ）の値として採用することを意味している。なお、ｑ_０はＨＭＭの初期状態を、ｑ_Ｑｎ＋１はＨＭＭの最終状態を示しており、図２で説明した例では、ｑ_０は「状態０」、ｑ_Ｑｎ＋１は「状態３」に対応している。また、Ｐ（ｑ_ｉ｜ｑ_ｉ−１）は数式（８）で計算された状態遷移確率ａ_ｉｊを参照し、Ｐ（ｓ_ｉ｜ｑ_ｉ）は数式（９）で計算された出現確率Ｐ_ｊ（ｏ）を参照して求めればよい。

この数式（１４）を用いることにより、音声認識装置１は、認識結果（認識単語列）として、未知語区間をカナ文字列で表したものを出力することが可能になる。

カナ漢字文字列変換手段１１は、正解探索手段９から出力された認識結果（認識単語列）について、未知語区間をカナ漢字文字列（未知語区間カナ漢字混在認識単語列）に変換して出力するものである。

この音声認識装置１によれば、正解探索手段９によって、特徴量ベクトルが抽出された音声信号の音声認識を行う際に、既知語について既知語言語モデルを用い、未知語について未知語言語モデルを用いることで、未知語の前後の単語について認識誤りを少なくすることができる。

また、この音声認識装置１によれば、カナ漢字文字列変換手段１１によって、認識結果の未知語区間であるカナ文字列を、漢字を含めたカナ漢字文字列に変換して出力することができ、単にカナ文字が羅列するよりは、漢字が含まれることで未知語の適切な推測を行うことができる。

（言語モデル作成装置の動作）
次に、図４に示すフローチャートを参照して、言語モデル作成装置３の動作について説明する（適宜、図１参照）。
まず、言語モデル作成装置３は、音節単位分割手段１５によって、単語蓄積手段１３に蓄積されているカナ文字列に書き下された単語（カナ表記の単語）を音節単位に分割する（ステップＳ１）。

続いて、言語モデル作成装置３は、隠れマルコフモデル推定手段１７によって、ＨＭＭ学習アルゴリズムにより、各単語から生成される部分文字列（サブワード）の出現確率と状態遷移確率を推定する（ステップＳ２）。

そして、言語モデル作成装置３は、部分文字列選択手段１９及び正規化手段２１によって、１音節の全ての部分文字列と出現確率の確率値が上位ｎ個の部分文字列とを選択し、これら選択した１音節の全ての部分文字列の出現確率の確率値と上位ｎ個の部分文字列の出現確率の確率値との和が１となるように部分文字列の確率値を正規化する（ステップＳ３）。

そうすると、言語モデル作成装置３は、隠れマルコフモデル推定手段１７によって、ＨＭＭ学習アルゴリズムにより、正規化手段２１で正規化した確率値を初期値として、数式（８）及び数式（９）を用いて、選択された部分文字列の出現確率と状態遷移確率を再推定する（ステップＳ４）。

そして、言語モデル作成装置３は、情報量基準値計算手段２３によって、ｎに対応するＭＤＬを計算し、記憶しておく（ステップＳ５）。そして、言語モデル作成装置３は、計算したＭＤＬを比較し、最小か否かを判定する（ステップＳ６）。言語モデル作成装置３は、情報量基準値計算手段２３によって、ＭＤＬが最小と判定しなかった場合（ステップＳ６、Ｎｏ）、正規化手段２１によって、ｎの値を変更し部分文字列を選択し直して（ステップＳ７）、ステップＳ３に戻り、選択し直した部分文字列の出現確率を再正規化し、ステップＳ４において、当該部分文字列の出現確率と状態遷移確率を再推定する。なお、最初は比較するＭＤＬがないので、そのままステップＳ７に進む。

その後、言語モデル作成装置３は、これらステップＳ３〜ステップＳ５を繰り返した後、ＭＤＬが最小と判定した場合（ステップＳ６、Ｙｅｓ）には、言語モデル作成手段２５によって、言語モデルを作成する（ステップＳ８）。

（音声認識装置の動作）
次に、図５に示すフローチャートを参照して、音声認識装置１の動作について説明する（適宜、図１参照）。
まず、音声認識装置１は、音声信号を入力すると（ステップＳ１１）、特徴抽出手段５によって、当該音声信号の特徴量ベクトル（特徴量）を抽出する（ステップＳ１２）。

そして、音声認識装置１は、正解探索手段９によって、蓄積手段７に蓄積されている音響モデル、発音辞書及び言語モデル（既知語言語モデル及び未知語言語モデル）を参照して、既知語言語スコアと音響スコアとの合計スコアと、未知語言語スコアと音響スコアとの合計スコアとを比較した結果に基づいて、認識結果（認識単語列）を出力する（ステップ１３）。
そうすると、音声認識装置１は、未知語区間をカナ文字列で表した認識結果をそのまま出力するか否かを判定し（ステップＳ１４）、そのまま出力すると判定した場合（ステップＳ１４、Ｙｅｓ）には、そのまま出力し動作を終了する。また、音声認識装置１は、そのまま出力すると判定しなかった場合（ステップＳ１４、Ｎｏ）、カナ漢字文字列変換手段１１によって、未知語区間をカナ漢字文字列に変換した認識結果（未知語区間カナ漢字混在認識単語列）を出力（ステップＳ１５）して動作を終了する。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、言語モデル作成装置３及び音声認識装置１として説明したが、これらの各構成の処理を、コンピュータ言語で記述した言語モデル作成プログラム、音声認識プログラムとして構成することも可能である。これらの場合、言語モデル作成装置３及び音声認識装置１と同様の効果を奏する。

本発明の実施形態に係る音声認識装置のブロック図である。言語モデルの一例を示した図である。トレリス（線図）の一例を示した図である。言語モデル作成装置の動作を示したフローチャートである。音声認識装置の動作を示したフローチャートである。

符号の説明

１音声認識装置
３言語モデル作成装置
５特徴抽出手段
７蓄積手段
９正解探索手段
１１カナ漢字文字列変換手段
１３単語蓄積手段
１５音節単位分割手段
１７隠れマルコフモデル推定手段
１９部分文字列選択手段
２１正規化手段
２３情報量基準計算手段
２５言語モデル作成手段

Claims

音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成する言語モデル作成装置であって、
前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段と、
この単語蓄積手段に蓄積されている単語を音節単位に分割する音節単位分割手段と、
この音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する隠れマルコフモデル推定手段と、
前記音節単位分割手段で分割した１音節からなる全ての部分文字列と、前記隠れマルコフモデル推定手段で推定した出現確率の確率値の最上位から所定数の部分文字列とを選択する部分文字列選択手段と、
この部分文字列選択手段で選択した部分文字列の確率値の和が１となるように、選択した部分文字列の前記確率値を正規化する正規化手段と、
この正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する情報量基準値計算手段と、
この情報量基準値計算手段で計算された情報量基準の値が最小となる前記部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた前記言語モデルを作成する言語モデル作成手段と、
を備えることを特徴とする言語モデル作成装置。
前記情報量基準に赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることを特徴とする請求項１に記載の言語モデル作成装置。
請求項１又は請求項２に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Ｎグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行う音声認識装置であって、
前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音並びに部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段と、
前記音声信号の言語的な特徴量及び音響的な特徴量を抽出する特徴抽出手段と、
この特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを前記既知語言語モデルからのＮグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを前記言語モデルからの確率値及びＮグラム確率値を用いて得、前記音響的な特徴量に基づいて前記音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果、合計スコアの大きい方に基づいて、前記発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する正解探索手段と、
を備えることを特徴とする音声認識装置。
前記正解探索手段で出力された認識結果に含まれている未知語を表現したカナ文字列を、カナ漢字文字列に変換するカナ漢字文字列変換手段を備えることを特徴とする請求項３に記載の音声認識装置。
音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成するために、前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段を備えたコンピュータを、
前記単語蓄積手段に蓄積されている単語を音節単位に分割する音節単位分割手段、
この音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する隠れマルコフモデル推定手段、
前記音節単位分割手段で分割された１音節からなる全ての部分文字列と、前記隠れマルコフモデル推定手段で推定された出現確率の確率値の最上位から所定数の部分文字列とを選択する部分文字列選択手段、
この部分文字列選択手段で選択した部分文字列の確率値の和が１となるように、選択した部分文字列の前記確率値を正規化する正規化手段、
この正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する情報量基準値計算手段、
この情報量基準値計算手段で計算された情報量基準の値が最小となる前記部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた前記言語モデルを作成する言語モデル作成手段、
として機能させることを特徴とする言語モデル作成プログラム。
請求項１又は請求項２に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Ｎグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行うために、前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音並びに部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段を備えたコンピュータを、
前記音声信号の言語的な特徴量及び音響的な特徴量を抽出する特徴抽出手段、
この特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを前記既知語言語モデルからのＮグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを前記言語モデルからの確率値及びＮグラム確率値を用いて得、前記音響的な特徴量に基づいて前記音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果、合計スコアの大きい方に基づいて、前記発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する正解探索手段、
として機能させることを特徴とする音声認識プログラム。