JP2003208194A

JP2003208194A - 音声認識方法

Info

Publication number: JP2003208194A
Application number: JP2002005398A
Authority: JP
Inventors: Shinya Ishikawa; 晋也石川; Ryosuke Isotani; 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-01-11
Filing date: 2002-01-11
Publication date: 2003-07-25
Anticipated expiration: 2022-01-11
Also published as: JP3818154B2

Abstract

(57)【要約】【課題】言語モデルを利用した連続音声認識方法にお
いて、認識精度を落す事なく言語モデル確率計算処理を
削減する。【解決手段】コンピュータ１００は、音声入力手段１
１０からの音声の特徴量の出力間隔に同期して、内部記
憶装置１０１に記録された、ＨＭＭの状態レベルにまで
展開された木構造単語辞書を用いて音声認識処理を行
う。単語終端において、同じ単語について異なる終端時
刻毎に計算される、先行する単語系列に対するスコア
を、「先行単語系列の識別子、上記単語の識別子」をキ
ーとして保存し再利用して、単語終端の情報を記録す
る。発声の最後まで上記処理をおこなった後、単語終端
情報から最良のスコアを与える単語系列を求め、結果出
力手段１２０に結果を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識方法に関
し、特に言語モデルを用いた連続音声認識方法に関す
る。

【０００２】

【従来の技術】近年、大語彙連続音声認識処理を行う手
法として、統計的言語モデルを用いたフレーム同期型サ
ーチがしばしば用いられている。この手法においては、
音声を入力順に時間同期で処理し、単語列の音響的なス
コアと統計言語スコアを累積し、これが最良の単語列を
第一認識結果として出力する。

【０００３】このサーチ方法の第一の例が、2000年にAc
ademic Pressから発行されたComputer Speech and Lang
uage 14号の第15頁ないし第32頁に掲載された“Look-ah
eadtechniques for fast beam search”と題する Stefa
n Ortmanns と Hermann Neyによる論文の特に第16頁の
2.1.に記載されている。

【０００４】この方法においては、ＨＭＭ（Hidden Mar
kof Model；隠れマルコフモデル）の状態レベルに展開
された木構造単語辞書と時間に同期して入力される音声
とが照合され、単語境界において、以下の式に示すよう
な、単語出現確率（言語モデルスコア）計算と累積スコ
アの掛け算とが行われる。

【０００５】p(w|v)Qv(t,Sw)ここで、p(w|v)は、先行す
る単語ｖの後に単語ｗが出現する確率であり、Qv(t,Sw)
は、先行する単語ｖの後ろに時刻ｔで終わる単語ｗがつ
ながる場合の発声先頭からそこまでの最良の累積スコア
であり、Ｓｗは、単語ｗを表すＨＭＭの最終状態であ
る。

【０００６】この値は発声始端からこの単語ｗまでの最
良の累積スコアであり、単語ｗに続く単語ｘのＨＭＭと
音声との照合スコアをこれに累積して、Qw(t,Sx)を計算
するのに使用される。上記処理を発声の最後まで繰返し
た後、最良の累積スコアを持つ単語系列を第一認識結果
として出力する。

【０００７】第二の例が、日本音響学会1999年春季研究
発表会講演論文集第73乃至74頁に掲載された「フレーム
同期型ワンパスデコーダにおける高次元言語モデルと音
素環境依存型音響モデルの簡易実装とその効果」と題す
る中野裕一郎他の論文に記載されている。

【０００８】この方法においては、ある単語終端が確定
した際、その直前の単語と、さらにひとつ前の複数の各
単語を組み合わせた２単語を各履歴とした、trigram 言
語モデルを用い、それらで計算したうちの最良のスコア
をその単語に与えている点が第一の例と異なっている。
つまり、 MAXu,v{ p(w|v,u)Qv,u(t,Sw) } のような値を求める処理をおこなう。ここで、p(w|v,u)
は、先行する単語系列ｕ→ｖの後に、単語ｗが出現する
確率であり、Qv,u(t,Sw)は、先行する単語系列ｕ→ｖの
後ろに時刻ｔで終わる単語ｗがつながる場合の発声先頭
からそこまでの最良の累積スコアである。この値は発声
始端からこの単語ｗまでの最良の累積スコアであり、こ
れ以降の処理は第一の例と同様である。

【０００９】

【発明が解決しようとする課題】上記従来技術では、同
じ先行単語をもつ単語でも、終端時刻ｔが違えば別々に
扱われ、全く同一の先行単語との言語モデル確率計算
が、別々に重複して行われるために、処理量が大きくな
るという問題がある。

【００１０】特に、上記第二の従来例においては、同じ
先行単語系列（ｕ，ｖ）をもつ単語でも、終端時刻ｔが
違えば別々に扱われ、全く同一の先行単語との言語モデ
ル確率計算と、それと累積スコアとの積の最良値選択処
理が別々に重複して行われ、処理量が大きくなる。

【００１１】本発明の目的は、上記問題点に鑑み、認識
精度を劣化することなく処理量を削減可能な音声認識方
法を提供することにある。

【００１２】

【課題を解決するための手段】本発明は、途中認識結果
候補をスコアつきの単語系列として持ち、１つ以上のス
コアつき単語系列をあらかじめ定めた基準でまとめてノ
ードとし、ノードの後ろに単語を追加して新たなノード
を作成していくことで認識結果を探索する音声認識方法
において、ノードに単語を追加する際に、ノードと追加
する単語の組ごとに計算される１つあるいは複数の値を
保存し、以後、同じノードに同じ単語を追加する際に、
前記保存した値を再利用することを特徴とする。

【００１３】また、本発明は、途中認識結果候補をスコ
アつきの単語系列として持ち、１つ以上のスコアつき単
語系列をあらかじめ定めた基準でまとめてノードとし、
該ノードの後ろに単語を追加して新たなノードを作成し
ていくことで認識結果を探索する音声認識処理をコンピ
ュータに実行させるプログラムにおいて、前記ノードに
単語を追加する際に、前記ノードと追加する単語の組ご
とに計算される１つあるいは複数の値を保存する手順
と、同じノードに追加される単語が以前に追加された単
語と同じであるときには、前記計算を省略して前記保存
した値を利用する手順を含むことを特徴とする。

【００１４】本発明によれば、ノードに単語を追加する
際に、ノードと追加する単語の組ごとに計算される値が
保存されているので、その後、同じノードに同じ単語を
追加する際に再度計算を行うことなく前記保存した値を
再利用することができ、上記ノードと追加する単語の組
ごとに行う計算を削減することができる。

【００１５】

【発明の実施の形態】図１は、本発明の第１の実施形態
における構成を表すブロック図である。

【００１６】本実施形態の音声認識装置は、プログラム
制御により動作するコンピュータ（中央処理装置；プロ
セッサ；データ処理装置）１００と、内部記憶装置１０
１と外部記憶装置１０２と、音声入力手段１１０と、認
識結果出力手段１２０とから構成されている。

【００１７】これらの手段はそれぞれ概略つぎのように
動作する。音声入力手段１１０は、マイク等からの音声
を入力とし、一定の時間間隔ごとに、その時間的近傍の
入力音声を分析し、音声の特徴量をデジタルデータとし
て出力する。

【００１８】内部記憶装置１０１または外部記憶装置１
０２には、コンピュータ１００によって本発明の音声認
識処理を実行するためのプログラムが格納されており、
コンピュータ１００はこの音声認識プログラムに従っ
て、音声入力手段１１０から入力される音声データの認
識処理を行う。

【００１９】即ちコンピュータ１００は、音声入力手段
１１０からの音声の特徴量の出力間隔に同期して、必要
に応じて内部記憶装置１０１および外部記憶装置１０２
に仮単語アーク、ノード、単語アークを読み書きしなが
ら、同記憶装置に記録された、ＨＭＭで表された音響モ
デル、ＨＭＭの状態レベルにまで展開された木構造単語
辞書、及び言語モデルを用いて、上記音声の特徴量を認
識処理する。

【００２０】発声の最後まで上記音声の特徴量の認識処
理を行った後、ノード、単語アークを読み出して、結果
出力手段１２０に結果を出力する。上記音声の特徴量
は、入力順に第１フレームの音声特徴量、第２フレーム
の音声特徴量…と呼び、第１、第２…をフレーム番号と
呼ぶ。

【００２１】次に、図２を用いて本実施形態のコンピュ
ータ１００の動作について詳細に説明する。

【００２２】１）まず、各発声を認識する前に、発声始
端ノードとして、新規のノードを作成する。ノードには
通常、そのノードに終端が接続される単語アークへの
ポインタ全てと、後続単語毎にその単語の識別子をキ
ーとして保存されるベストコンテキストスコアと、ノ
ードが出来た時点のフレーム番号が保持されるが、この
発声始端ノードでは、累積スコアとしてある初期値が記
録された単語アークへのポインタが付与され、ベストコ
ンテキストスコアは「なし」として記録され、仮の単語
フレーム番号は仮想的に０番が与えられ、それらが保持
される（図２-０）。

【００２３】２）次に、以下の手順に従って音声の特徴
量を入力フレーム順に処理する。

【００２４】2-1）新規のノードがあればそれを始端ノ
ードとし、そのノードから始まる可能性のある単語全て
について仮の単語アークを作成する（図２-１，図２-
３）。これら仮単語アーク（仮説）は、累積スコア
と、前記始端ノードへのポインタ（バックポインタ）
と、どの単語のどの箇所に対応しているのかの情報と
して木構造単語辞書中のどのＨＭＭ状態に対応するかの
情報を保持する。

【００２５】上記累積スコアとしては、例えばこの始端
ノードに終端が接続する単語アークの累積スコアのう
ち、最良のものがその累積スコアとして保持される。始
端ノードへのポインタは、上記始端ノードを指すバック
ポインタである。また、木構造単語辞書中のどのＨＭＭ
状態に対応するかの情報は、例えば、図４のようなＨＭ
Ｍの状態レベルに展開された木構造単語辞書を用いる場
合、「しか」と「さら」を代表する仮単語アークをｓ１
状態に対応させて作成し、「いか」に対応する仮単語ア
ークをｉ４状態に対応させて作成する。

【００２６】2-2）次に、全ての仮単語アークについて
以下の処理を行う。

【００２７】2-2-1）対応するＨＭＭ状態が、単語終端
でなければ、木構造辞書中で対応するＨＭＭ状態の子の
状態に対応する仮単語アークを新規作成する。この時上
記バックポインタを転写し、累積スコアには、対応する
状態遷移確率を累積する。なお、同箇所に、同じバック
ポインタをもつ仮単語アークが既に存在する場合は、遷
移確率を累積した後の累積スコアが大きい方のみ保持
し、小さい方は消去する。これに追加して、先行する単
語が同じなら消去する処理や、先行する単語末のｎ音素
（ｎは１，２，などあらかじめ定めた数）が一致してい
れば消去する処理をしてもよい。

【００２８】2-2-2）元の仮単語アークの累積スコアに
は対応するＨＭＭ状態の自己遷移確率を累積する。

【００２９】2-3）上記2-2）で作成したすべての仮単語
アークについて、対応するＨＭＭ状態の出力確率分布と
そのフレームの音声特徴量とで尤度計算を行い、それを
累積スコアに累積する。この時、一定の基準を設定し、
この基準と比較してその累積スコアが悪い仮単語アーク
は消去することにより、処理量を減らして音声認識の効
率化を図る。

【００３０】2-4）仮単語アークのうち、単語終端のＨ
ＭＭ状態（図４の例ではａ３，ａ９，ａ１２のいずれ
か）に対応するもの全てを単語アークへ変換する。この
単語アークは、後述する、単語音響スコアと、単語の識
別子と、仮単語アークと同様の累積スコアと、始端ノー
ドへのポインタ（バックポインタ）とを保持する。

【００３１】そして、この単語アークの単語識別子によ
り「音声特徴量のフレーム番号，単語の識別子」別に作
成される上記ノードを探し、無ければ上記ノードを新規
作成し、有ればそのノードに対して同単語アークへのポ
インタを追加する（図２-２、図２-４）。

【００３２】上記仮単語アークから単語アークへの変換
は、以下のようにして行う。仮単語アークのバックポインタの指すノードがポイン
タとして持っている前単語の単語アークそれぞれが持つ
累積スコアのうち、最良のものを仮単語アークの累積ス
コアから差し引いて単語音響スコアとする。単語終端のＨＭＭ状態に記録された単語の識別子を転
写する。仮単語アークからノードへのバックポインタを転写す
る。後述するベストコンテキストスコアと上記単語音響ス
コアを足したものを累積スコアとする。（この累積スコ
アが、従来技術における MAXu,v{ p(w|v,u)Qv,u(t,Sw) }に対応する）。

【００３３】上記累積スコアを計算するために用いられ
るベストコンテキストスコアは、単語アークの指す始端
のノードに、この単語アークの持つ単語の識別子をキー
として保存されているベストコンテキストスコアがあれ
ば、それを使用する。保存されていなければ、上記始端
ノードが保持する単語アークへのポインタから単語アー
クのバックポインタ、さらに前々単語へのポインタ、と
繰返したどって発声始端ノードにいきつく単語系列それ
ぞれについて、その単語系列が与えられた時のこの単語
の出現確率を言語モデルを参照して求め、その単語系列
の最後の単語のアークである、ノード直前の単語アーク
が持つ累積スコア、に累積したもの、の最良値をベスト
コンテキストスコアとする。

【００３４】例を挙げると、bigram 言語モデルを用い
る場合は、上記始端ノードが保持する前単語アークは一
つしかなく、単語識別子を用いてこの単語アークとのbi
gram言語スコアを計算し、前単語アークの累積スコアに
累積したものをベストコンテキストスコアとする。

【００３５】他の例として、trigram 言語モデルを用い
る場合は、上記始端ノードが保持する前単語アークそれ
ぞれと、その始端ノードを介してたどれる前々単語それ
ぞれを用いて、「前々単語の識別子，前単語の識別子，
この単語の識別子」で計算される trigram 言語スコア
を計算し、それを前単語の累積スコアに累積したものの
うち、最良のものをベストコンテキストスコアとする。

【００３６】いずれの場合も、この時上記始端ノード
に、ここで新規に作成する単語アークの単語識別子をキ
ーとしてベストコンテキストスコアを保存し（図２-
５）、次の上記2-4）の処理の際に再利用する（図２-
６，図２-７）。

【００３７】例えば、図２-５において、フレーム番号
７０で作成されるノードが保持する単語アークへのポイ
ンタから単語アークのバックポインタ、さらに前々単語
へのポインタ、と繰返したどって発声始端ノードにいき
つく２つの単語系列それぞれについて求められたコンテ
キストスコアが、（第一履歴、単語３）＝スコア１と
（第二履歴、単語３）＝スコア２であるとし、かつスコ
ア１＞スコア２である場合には、次の単語３のノード作
成時に、スコア１がフレーム番号７０で作成されるノー
ドにベストコンテキストスコアとして保存される。

【００３８】そして、この同じノードに単語を追加追加
するために仮単語アークを作成したときに、この単語の
識別子が単語３であることが判明した時には、単語３に
対する新たなベストコンテキストスコアを求めるための
計算は行わず、上記保存されているスコア１を再利用す
る。従って、図２-６に示されているように、終端時刻
ｔが違っていても、追加される単語が同一（単語３）で
ある場合には、全く同一の先行単語との言語モデル確率
計算が重複して行われることがなくなり、処理量を削減
することができる。

【００３９】なお、trigram 言語モデルを用いてより精
度を上げるには、ノードが「前単語アークの単語識別
子，この単語アークの単語識別子」をキーとしてコンテ
キストスコアが持てるように拡張した上で、以下のよう
な処理を行えば良い。

【００４０】始端ノードが保持する前単語アークそれぞ
れと、その始端ノードを介してたどれる前々単語それぞ
れを用いて、「前々単語の識別子，前単語の識別子，こ
の単語の識別子」で計算される trigram 言語スコアを
計算し、対応する前単語アークの始端ノードが保持する
「前単語アークの単語識別子，前々単語アークの識別
子」をキーとして保持するコンテキストスコアに前単語
の単語音響スコアと上記trigram 言語スコアを累積した
ものを、この始端ノードに「前単語アークの単語識別
子，この単語アークの単語識別子」をキーとしてコンテ
キストスコアとして保存し、その最良のものをベストコ
ンテキストスコアとする。このとき、この始端ノードに
この単語の識別子をキーとしてベストコンテキストスコ
アを保存する。

【００４１】さらに、 n-gram (n>3)言語モデルやそれ
以外の言語モデルを用いる場合は以下のようになる。

【００４２】始端ノードからポインタでたどれる前単語
アーク、それからさらにポインタでたどれる前始端ノー
ド、以下同様にポインタをたどって得られる単語アーク
の系列（単語履歴）それぞれについて、対応する単語識
別子の系列から各単語系列の言語スコアを計算し、対応
する前単語アークの始端ノードが「前単語アークの単語
識別子，前々単語アークの識別子」をキーとして保持す
るコンテキストスコアに、前単語の単語音響スコアと上
記言語スコアを累積したものを、この始端ノードに「前
単語アークの単語識別子，この単語アークの単語識別
子」をキーとしてコンテキストスコアとして保存し、そ
の最良のものをベストコンテキストスコアとする。この
とき、この始端ノードにこの単語の識別子をキーとして
ベストコンテキストスコアを保存する。

【００４３】３）全ての音声のフレームについて以上の
処理を行ったのち、発声始端ノードから単語アークを時
間順方向にたどって最後のフレームで作られた終端のノ
ードに至ることで作られる全ての単語系列のうち、最も
累積スコアが良くなるものを認識結果として出力する。

【００４４】ところで、 triphone ＨＭＭなど、音素
の右音素環境によってＨＭＭを区別するような場合に
は、木構造辞書中に一つの単語の単語終端ＨＭＭ状態が
右音素環境毎に分かれて存在する。例えば、図２-７で
は、単語３の単語終端ＨＭＭ状態が、右音素ｓ、右音素
ｉ、右音素ｏに分かれて存在する場合、これら複数の単
語終端ＨＭＭ状態が指す単語の識別子は同じ単語３であ
るため、それらは上記 2-4）におけるベストコンテキス
トスコアの再利用が有効に機能する。

【００４５】このように、ノードの表すスコアつき単語
系列が予め定めた基準でグループに分けられている場合
には、グループ毎に各スコアつき単語系列と追加する単
語とから計算される値の最良値を求め、それをノードと
追加する単語の組毎に保存しておけば、このグループ内
では、この保存されているベストコンテキストスコアを
再利用できるので、言語モデル確率計算・最良値計算処
理を大幅に削減する事ができる。

【００４６】なお、上記実施例では、始端ノードに後続
単語の識別子をキーとしてベストコンテキストスコアの
みを保存したが、各履歴毎に求めたスコアの全てあるい
は比較的スコアの良好な複数のものを保存してもよい。

【００４７】図3は、本発明の第2の実施形態における構
成を表すブロック図である。

【００４８】本実施形態の音声認識装置は、プログラム
制御により動作するコンピュータ（中央処理装置；プロ
セッサ；データ処理装置）３００と、内部記憶装置３０
１と外部記憶装置３０２と、音声入力手段３１０と、１
発声音声特徴量記憶装置３１１と認識結果出力手段３２
０とから構成されている。

【００４９】これらの手段はそれぞれ概略つぎのように
動作する。音声入力手段３１０は、マイク等から音声を
入力し、一定の時間間隔ごとに、その時間的近傍の入力
音声を分析し、音声の特徴量をデジタルデータとして出
力する。１発声音声特徴量記憶装置３１１は、音声入力
手段３１０から出力される１発話分のデジタルデータと
しての同特徴量を記憶する。

【００５０】上記音声の特徴量は、第１の実施形態と同
様であり、入力順に第１フレームの音声特徴量、第２フ
レームの音声特徴量…と呼び、第１、第２…をフレーム
番号と呼ぶ。

【００５１】コンピュータ３００は、１発声音声特徴量
記憶装置３１１から必要に応じて音声の特徴量を読みだ
し、必要に応じて内部記憶装置３０１および外部記憶装
置３０２に仮単語アーク、ノード、単語アークを読み書
きしながら、同記憶装置３０１あるいは３０２に記録さ
れた、ＨＭＭで表された音響モデル、ＨＭＭの状態レベ
ルにまで展開された木構造単語辞書及び言語モデルを用
いて、上記音声の特徴量を認識処理する。発声の最後ま
で上記処理をおこなった後、ノード、単語アークを読み
出して、結果出力手段３２０に結果を出力する。

【００５２】次に、本実施形態の全体の動作について図
２も参照して詳細に説明する。

【００５３】Ａ）まず、１発声全体の音声特徴量を音声
入力手段３１０より読みだし、１発声音声特徴量記憶装
置３１１に書き込む。

【００５４】Ｂ）次に、発声を認識する前に、発声始端
ノードとして、新規のノードを作成する。これは第1の
実施形態のそれと同じである（図２-０）。

【００５５】Ｃ）次に、発声の最後のフレーム番号を持
たず、かつどの仮単語アーク、単語アークからもポイン
タによって指されていないノードのうち、最もフレーム
番号が小さいものについて、以下の手順に従って単語ア
ークを作成、連結する。そのようなノードがなくなれば
終了する。

【００５６】C-1）そのノードから始まる可能性のある
単語全てについて仮の単語アークを作成する（図２-
１）。これら仮単語アークは、第1の実施形態のそれと
同じである。

【００５７】C-2）そのノードのフレーム番号から始ま
る音声特徴量について順番に、仮単語アークがなくなる
まで C-1）を繰返し行う：全ての仮単語アークについ
て、第1の発明の実施形態における 2-2） 2-3) 2-4)の
処理を行う。

【００５８】Ｄ）発声始端ノードから単語アークを時間
順方向にたどって最後のフレームで作られた終端のノー
ドに至ることで作られる全ての単語系列のうち、最も累
積スコアが良くなるものを認識結果として出力する。こ
れは第1の実施形態と同じである。

【００５９】なお、上記実施形態では認識対象言語単位
として単語を用いた場合について説明したが、単語のか
わりに、音素、音節、フレーズ（単語の１つ以上の連
鎖）などの言語単位をその認識対象とする場合において
も同様に適用することができる。

【００６０】

【発明の効果】本発明は、言語モデル確率計算・最良値
計算結果を各ノードに単語の識別子をつけて保存し、再
利用することによって、右音素違いの同単語や、終了フ
レーム違いの同単語について再処理しないで済むように
構成しているので、言語モデル確率計算・最良値計算処
理を大幅に削減する事が可能であり、処理の効率化を図
ることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態における構成を表すブ
ロック図である。

【図２】本発明の動作の具体例を示す図である。

【図３】本発明の第２の実施形態における構成を表すブ
ロック図である。

【図４】第１の実施の形態で参照される木構造単語辞書
の１例を示す図である。

【符号の説明】

１００，３００コンピュータ１０１，３０１内部記憶装置１０２，３０２外部記憶装置１１０，３１０音声入力手段１２０，３２０結果出力手段３１１１発声音声特徴量記憶装置

Claims

【特許請求の範囲】

【請求項１】途中認識結果候補をスコアつきの言語単
位系列として持ち、１つ以上のスコアつき言語単位系列
をあらかじめ定めた基準でまとめてノードとし、該ノー
ドの後ろに言語単位を追加して新たなノードを作成して
いくことで認識結果を探索する音声認識方法において、
前記ノードに前記言語単位を追加する際に、前記ノード
と追加する前記言語単位の組ごとに計算される１つある
いは複数の値を保存し、以後、同じノードに同じ言語単
位を追加する際に、前記保存した値を再利用することを
特徴とする音声認識方法。
【請求項２】前記ノードと追加する前記言語単位の組
ごとに計算され保存される値が、前記ノードの表す各ス
コアつき言語単位系列と追加する言語単位とから計算さ
れる値の一部あるいはすべてあるいはそれらのうちの最
良値であることを特徴とする請求項１記載の音声認識方
法。
【請求項３】前記ノードの表すスコアつき言語単位系
列をあらかじめ定めた基準でグループに分け、該グルー
プごとに各スコアつき言語単位系列と追加する言語単位
とから計算される値の最良値を求め、それを前記ノード
と追加する前記言語単位の組ごとに保存することを特徴
とする請求項１記載の音声認識方法。
【請求項４】前記言語単位系列と追加する前記言語単
位の組に対して言語スコアを計算する言語スコア計算手
段を持ち、前記ノードの表す各スコアつき言語単位系列
と追加する前記言語単位とから計算される値が、前記言
語単位系列と追加する前記言語単位とから前記言語スコ
ア計算手段によって計算される言語スコアと、前記言語
単位系列のスコアとから計算される値であることを特徴
とする請求項１〜３のいずれかに記載の音声認識方法。
【請求項５】前記言語単位は、音素、音節、単語、フ
レーズ（単語の１つ以上の連鎖）のうちのいずれかであ
ることを特徴とする請求項１〜４のいずれかに記載の音
声認識方法。
【請求項６】途中認識結果候補をスコアつきの言語単
位系列として持ち、１つ以上のスコアつき言語単位系列
をあらかじめ定めた基準でまとめてノードとし、該ノー
ドの後ろに言語単位を追加して新たなノードを作成して
いくことで認識結果を探索する音声認識処理をコンピュ
ータに実行させるプログラムにおいて、前記ノードに前
記言語単位を追加する際に、前記ノードと追加する前記
言語単位の組ごとに計算される１つあるいは複数の値を
保存する手順と、同じノードに追加される言語単位が以
前に追加された言語単位と同じであるときには、前記の
計算を省略して前記保存した値を利用する手順を含むこ
とを特徴とする音声認識プログラム。
【請求項７】前記ノードと追加する前記言語単位の組
ごとに計算され保存される値は、前記ノードの表す各ス
コアつき言語単位系列と追加する言語単位とから計算さ
れる値の一部あるいはすべてあるいはそれらのうちの最
良値であることを特徴とする請求項６記載の音声認識プ
ログラム。
【請求項８】前記ノードの表すスコアつき言語単位系
列はあらかじめ定めた基準でグループに分けられてお
り、前記ノードに前記言語単位を追加する際に、前記ノ
ードと追加する前記言語単位の組ごとに計算される値の
最良値を保存する手順と、同じノードに追加される言語
単位が以前に追加された言語単位と同じグループ内に属
しているときには、前記の計算を省略して前記保存した
値を利用する手順を含むことを特徴とする請求項６記載
の音声認識プログラム。