JP3818154B2

JP3818154B2 - 音声認識方法

Info

Publication number: JP3818154B2
Application number: JP2002005398A
Authority: JP
Inventors: 晋也石川; 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-01-11
Filing date: 2002-01-11
Publication date: 2006-09-06
Anticipated expiration: 2022-01-11
Also published as: JP2003208194A

Description

【０００１】
【発明の属する技術分野】
本発明は音声認識方法に関し、特に言語モデルを用いた連続音声認識方法に関する。
【０００２】
【従来の技術】
近年、大語彙連続音声認識処理を行う手法として、統計的言語モデルを用いたフレーム同期型サーチがしばしば用いられている。この手法においては、音声を入力順に時間同期で処理し、単語列の音響的なスコアと統計言語スコアを累積し、これが最良の単語列を第一認識結果として出力する。
【０００３】
このサーチ方法の第一の例が、2000年にAcademic Pressから発行されたComputer Speech and Language 14号の第15頁ないし第32頁に掲載された“Look-ahead techniques for fast beam search”と題する Stefan Ortmanns と Hermann Neyによる論文の特に第16頁の2.1.に記載されている。
【０００４】
この方法においては、ＨＭＭ（Hidden Markof Model；隠れマルコフモデル）の状態レベルに展開された木構造単語辞書と時間に同期して入力される音声とが照合され、単語境界において、以下の式に示すような、単語出現確率（言語モデルスコア）計算と累積スコアの掛け算とが行われる。
【０００５】
p(w|v)Qv(t,Sw)
ここで、p(w|v)は、先行する単語ｖの後に単語ｗが出現する確率であり、Qv(t,Sw)は、先行する単語ｖの後ろに時刻ｔで終わる単語ｗがつながる場合の発声先頭からそこまでの最良の累積スコアであり、Ｓｗは、単語ｗを表すＨＭＭの最終状態である。
【０００６】
この値は発声始端からこの単語ｗまでの最良の累積スコアであり、単語ｗに続く単語ｘのＨＭＭと音声との照合スコアをこれに累積して、Qw(t,Sx)を計算するのに使用される。上記処理を発声の最後まで繰返した後、最良の累積スコアを持つ単語系列を第一認識結果として出力する。
【０００７】
第二の例が、日本音響学会1999年春季研究発表会講演論文集第73乃至74頁に掲載された「フレーム同期型ワンパスデコーダにおける高次元言語モデルと音素環境依存型音響モデルの簡易実装とその効果」と題する中野裕一郎他の論文に記載されている。
【０００８】
この方法においては、ある単語終端が確定した際、その直前の単語と、さらにひとつ前の複数の各単語を組み合わせた２単語を各履歴とした、trigram 言語モデルを用い、それらで計算したうちの最良のスコアをその単語に与えている点が第一の例と異なっている。つまり、
MAXu,v{ p(w|v,u)Qv,u(t,Sw) }
のような値を求める処理をおこなう。ここで、p(w|v,u)は、先行する単語系列ｕ→ｖの後に、単語ｗが出現する確率であり、Qv,u(t,Sw)は、先行する単語系列ｕ→ｖの後ろに時刻ｔで終わる単語ｗがつながる場合の発声先頭からそこまでの最良の累積スコアである。この値は発声始端からこの単語ｗまでの最良の累積スコアであり、これ以降の処理は第一の例と同様である。
【０００９】
【発明が解決しようとする課題】
上記従来技術では、同じ先行単語をもつ単語でも、終端時刻ｔが違えば別々に扱われ、全く同一の先行単語との言語モデル確率計算が、別々に重複して行われるために、処理量が大きくなるという問題がある。
【００１０】
特に、上記第二の従来例においては、同じ先行単語系列（ｕ，ｖ）をもつ単語でも、終端時刻ｔが違えば別々に扱われ、全く同一の先行単語との言語モデル確率計算と、それと累積スコアとの積の最良値選択処理が別々に重複して行われ、処理量が大きくなる。
【００１１】
本発明の目的は、上記問題点に鑑み、認識精度を劣化することなく処理量を削減可能な音声認識方法を提供することにある。
【００１２】
【課題を解決するための手段】
本発明は、途中認識結果候補をスコアつきの単語系列として持ち、１つ以上のスコアつき単語系列をあらかじめ定めた基準でまとめてノードとし、ノードの後ろに単語を追加して新たなノードを作成していくことで認識結果を探索する音声認識方法において、ノードに単語を追加する際に、ノードと追加する単語の組ごとに計算される１つあるいは複数の値を保存し、以後、同じノードに同じ単語を追加する際に、前記保存した値を再利用することを特徴とする。
【００１３】
また、本発明は、途中認識結果候補をスコアつきの単語系列として持ち、１つ以上のスコアつき単語系列をあらかじめ定めた基準でまとめてノードとし、該ノードの後ろに単語を追加して新たなノードを作成していくことで認識結果を探索する音声認識処理をコンピュータに実行させるプログラムにおいて、前記ノードに単語を追加する際に、前記ノードと追加する単語の組ごとに計算される１つあるいは複数の値を保存する手順と、同じノードに追加される単語が以前に追加された単語と同じであるときには、前記計算を省略して前記保存した値を利用する手順を含むことを特徴とする。
【００１４】
本発明によれば、ノードに単語を追加する際に、ノードと追加する単語の組ごとに計算される値が保存されているので、その後、同じノードに同じ単語を追加する際に再度計算を行うことなく前記保存した値を再利用することができ、上記ノードと追加する単語の組ごとに行う計算を削減することができる。
【００１５】
【発明の実施の形態】
図１は、本発明の第１の実施形態における構成を表すブロック図である。
【００１６】
本実施形態の音声認識装置は、プログラム制御により動作するコンピュータ（中央処理装置；プロセッサ；データ処理装置）１００と、内部記憶装置１０１と外部記憶装置１０２と、音声入力手段１１０と、認識結果出力手段１２０とから構成されている。
【００１７】
これらの手段はそれぞれ概略つぎのように動作する。音声入力手段１１０は、マイク等からの音声を入力とし、一定の時間間隔ごとに、その時間的近傍の入力音声を分析し、音声の特徴量をデジタルデータとして出力する。
【００１８】
内部記憶装置１０１または外部記憶装置１０２には、コンピュータ１００によって本発明の音声認識処理を実行するためのプログラムが格納されており、コンピュータ１００はこの音声認識プログラムに従って、音声入力手段１１０から入力される音声データの認識処理を行う。
【００１９】
即ちコンピュータ１００は、音声入力手段１１０からの音声の特徴量の出力間隔に同期して、必要に応じて内部記憶装置１０１および外部記憶装置１０２に仮単語アーク、ノード、単語アークを読み書きしながら、同記憶装置に記録された、ＨＭＭで表された音響モデル、ＨＭＭの状態レベルにまで展開された木構造単語辞書、及び言語モデルを用いて、上記音声の特徴量を認識処理する。
【００２０】
発声の最後まで上記音声の特徴量の認識処理を行った後、ノード、単語アークを読み出して、結果出力手段１２０に結果を出力する。上記音声の特徴量は、入力順に第１フレームの音声特徴量、第２フレームの音声特徴量…と呼び、第１、第２…をフレーム番号と呼ぶ。
【００２１】
次に、図２を用いて本実施形態のコンピュータ１００の動作について詳細に説明する。
【００２２】
１）まず、各発声を認識する前に、発声始端ノードとして、新規のノードを作成する。ノードには通常、▲１▼そのノードに終端が接続される単語アークへのポインタ全てと、▲２▼後続単語毎にその単語の識別子をキーとして保存されるベストコンテキストスコアと、▲３▼ノードが出来た時点のフレーム番号が保持されるが、この発声始端ノードでは、累積スコアとしてある初期値が記録された単語アークへのポインタが付与され、ベストコンテキストスコアは「なし」として記録され、仮の単語フレーム番号は仮想的に０番が与えられ、それらが保持される（図２-０）。
【００２３】
２）次に、以下の手順に従って音声の特徴量を入力フレーム順に処理する。
【００２４】
2-1）新規のノードがあればそれを始端ノードとし、そのノードから始まる可能性のある単語全てについて仮の単語アークを作成する（図２-１，図２-３）。これら仮単語アーク（仮説）は、▲１▼累積スコアと、▲２▼前記始端ノードへのポインタ（バックポインタ）と、▲３▼どの単語のどの箇所に対応しているのかの情報として木構造単語辞書中のどのＨＭＭ状態に対応するかの情報を保持する。
【００２５】
上記累積スコアとしては、例えばこの始端ノードに終端が接続する単語アークの累積スコアのうち、最良のものがその累積スコアとして保持される。始端ノードへのポインタは、上記始端ノードを指すバックポインタである。また、木構造単語辞書中のどのＨＭＭ状態に対応するかの情報は、例えば、図４のようなＨＭＭの状態レベルに展開された木構造単語辞書を用いる場合、「しか」と「さら」を代表する仮単語アークをｓ１状態に対応させて作成し、「いか」に対応する仮単語アークをｉ４状態に対応させて作成する。
【００２６】
2-2）次に、全ての仮単語アークについて以下の処理を行う。
【００２７】
2-2-1）対応するＨＭＭ状態が、単語終端でなければ、木構造辞書中で対応するＨＭＭ状態の子の状態に対応する仮単語アークを新規作成する。この時上記バックポインタを転写し、累積スコアには、対応する状態遷移確率を累積する。なお、同箇所に、同じバックポインタをもつ仮単語アークが既に存在する場合は、遷移確率を累積した後の累積スコアが大きい方のみ保持し、小さい方は消去する。これに追加して、先行する単語が同じなら消去する処理や、先行する単語末のｎ音素（ｎは１，２，などあらかじめ定めた数）が一致していれば消去する処理をしてもよい。
【００２８】
2-2-2）元の仮単語アークの累積スコアには対応するＨＭＭ状態の自己遷移確率を累積する。
【００２９】
2-3）上記2-2）で作成したすべての仮単語アークについて、対応するＨＭＭ状態の出力確率分布とそのフレームの音声特徴量とで尤度計算を行い、それを累積スコアに累積する。この時、一定の基準を設定し、この基準と比較してその累積スコアが悪い仮単語アークは消去することにより、処理量を減らして音声認識の効率化を図る。
【００３０】
2-4）仮単語アークのうち、単語終端のＨＭＭ状態（図４の例ではａ３，ａ９，ａ１２のいずれか）に対応するもの全てを単語アークへ変換する。この単語アークは、後述する、単語音響スコアと、単語の識別子と、仮単語アークと同様の累積スコアと、始端ノードへのポインタ（バックポインタ）とを保持する。
【００３１】
そして、この単語アークの単語識別子により「音声特徴量のフレーム番号，単語の識別子」別に作成される上記ノードを探し、無ければ上記ノードを新規作成し、有ればそのノードに対して同単語アークへのポインタを追加する（図２-２、図２-４）。
【００３２】
上記仮単語アークから単語アークへの変換は、以下のようにして行う。
▲１▼仮単語アークのバックポインタの指すノードがポインタとして持っている前単語の単語アークそれぞれが持つ累積スコアのうち、最良のものを仮単語アークの累積スコアから差し引いて単語音響スコアとする。
▲２▼単語終端のＨＭＭ状態に記録された単語の識別子を転写する。
▲３▼仮単語アークからノードへのバックポインタを転写する。
▲４▼後述するベストコンテキストスコアと上記単語音響スコアを足したものを累積スコアとする。（この累積スコアが、従来技術における
MAXu,v{ p(w|v,u)Qv,u(t,Sw) }に対応する）。
【００３３】
上記累積スコアを計算するために用いられるベストコンテキストスコアは、単語アークの指す始端のノードに、この単語アークの持つ単語の識別子をキーとして保存されているベストコンテキストスコアがあれば、それを使用する。保存されていなければ、上記始端ノードが保持する単語アークへのポインタから単語アークのバックポインタ、さらに前々単語へのポインタ、と繰返したどって発声始端ノードにいきつく単語系列それぞれについて、その単語系列が与えられた時のこの単語の出現確率を言語モデルを参照して求め、その単語系列の最後の単語のアークである、ノード直前の単語アークが持つ累積スコア、に累積したもの、の最良値をベストコンテキストスコアとする。
【００３４】
例を挙げると、bigram 言語モデルを用いる場合は、上記始端ノードが保持する前単語アークは一つしかなく、単語識別子を用いてこの単語アークとのbigram言語スコアを計算し、前単語アークの累積スコアに累積したものをベストコンテキストスコアとする。
【００３５】
他の例として、trigram 言語モデルを用いる場合は、上記始端ノードが保持する前単語アークそれぞれと、その始端ノードを介してたどれる前々単語それぞれを用いて、「前々単語の識別子，前単語の識別子，この単語の識別子」で計算される trigram 言語スコアを計算し、それを前単語の累積スコアに累積したもののうち、最良のものをベストコンテキストスコアとする。
【００３６】
いずれの場合も、この時上記始端ノードに、ここで新規に作成する単語アークの単語識別子をキーとしてベストコンテキストスコアを保存し（図２-５）、次の上記2-4）の処理の際に再利用する（図２-６，図２-７）。
【００３７】
例えば、図２-５において、フレーム番号７０で作成されるノードが保持する単語アークへのポインタから単語アークのバックポインタ、さらに前々単語へのポインタ、と繰返したどって発声始端ノードにいきつく２つの単語系列それぞれについて求められたコンテキストスコアが、（第一履歴、単語３）＝スコア１と（第二履歴、単語３）＝スコア２であるとし、かつスコア１＞スコア２である場合には、次の単語３のノード作成時に、スコア１がフレーム番号７０で作成されるノードにベストコンテキストスコアとして保存される。
【００３８】
そして、この同じノードに単語を追加するために仮単語アークを作成したときに、この単語の識別子が単語３であることが判明した時には、単語３に対する新たなベストコンテキストスコアを求めるための計算は行わず、上記保存されているスコア１を再利用する。従って、図２-６に示されているように、終端時刻ｔが違っていても、追加される単語が同一（単語３）である場合には、全く同一の先行単語との言語モデル確率計算が重複して行われることがなくなり、処理量を削減することができる。
【００３９】
なお、trigram 言語モデルを用いてより精度を上げるには、ノードが「前単語アークの単語識別子，この単語アークの単語識別子」をキーとしてコンテキストスコアが持てるように拡張した上で、以下のような処理を行えば良い。
【００４０】
始端ノードが保持する前単語アークそれぞれと、その始端ノードを介してたどれる前々単語それぞれを用いて、「前々単語の識別子，前単語の識別子，この単語の識別子」で計算される trigram 言語スコアを計算し、対応する前単語アークの始端ノードが保持する「前単語アークの単語識別子，前々単語アークの識別子」をキーとして保持するコンテキストスコアに前単語の単語音響スコアと上記 trigram 言語スコアを累積したものを、この始端ノードに「前単語アークの単語識別子，この単語アークの単語識別子」をキーとしてコンテキストスコアとして保存し、その最良のものをベストコンテキストスコアとする。このとき、この始端ノードにこの単語の識別子をキーとしてベストコンテキストスコアを保存する。
【００４１】
さらに、 n-gram (n>3)言語モデルやそれ以外の言語モデルを用いる場合は以下のようになる。
【００４２】
始端ノードからポインタでたどれる前単語アーク、それからさらにポインタでたどれる前始端ノード、以下同様にポインタをたどって得られる単語アークの系列（単語履歴）それぞれについて、対応する単語識別子の系列から各単語系列の言語スコアを計算し、対応する前単語アークの始端ノードが「前単語アークの単語識別子，前々単語アークの識別子」をキーとして保持するコンテキストスコアに、前単語の単語音響スコアと上記言語スコアを累積したものを、この始端ノードに「前単語アークの単語識別子，この単語アークの単語識別子」をキーとしてコンテキストスコアとして保存し、その最良のものをベストコンテキストスコアとする。このとき、この始端ノードにこの単語の識別子をキーとしてベストコンテキストスコアを保存する。
【００４３】
３）全ての音声のフレームについて以上の処理を行ったのち、発声始端ノードから単語アークを時間順方向にたどって最後のフレームで作られた終端のノードに至ることで作られる全ての単語系列のうち、最も累積スコアが良くなるものを認識結果として出力する。
【００４４】
ところで、 triphone ＨＭＭなど、音素の右音素環境によってＨＭＭを区別するような場合には、木構造辞書中に一つの単語の単語終端ＨＭＭ状態が右音素環境毎に分かれて存在する。例えば、図２-７では、単語３の単語終端ＨＭＭ状態が、右音素ｓ、右音素ｉ、右音素ｏに分かれて存在する場合、これら複数の単語終端ＨＭＭ状態が指す単語の識別子は同じ単語３であるため、それらは上記 2-4）におけるベストコンテキストスコアの再利用が有効に機能する。
【００４５】
このように、ノードの表すスコアつき単語系列が予め定めた基準でグループに分けられている場合には、グループ毎に各スコアつき単語系列と追加する単語とから計算される値の最良値を求め、それをノードと追加する単語の組毎に保存しておけば、このグループ内では、この保存されているベストコンテキストスコアを再利用できるので、言語モデル確率計算・最良値計算処理を大幅に削減する事ができる。
【００４６】
なお、上記実施例では、始端ノードに後続単語の識別子をキーとしてベストコンテキストスコアのみを保存したが、各履歴毎に求めたスコアの全てあるいは比較的スコアの良好な複数のものを保存してもよい。
【００４７】
図3は、本発明の第2の実施形態における構成を表すブロック図である。
【００４８】
本実施形態の音声認識装置は、プログラム制御により動作するコンピュータ（中央処理装置；プロセッサ；データ処理装置）３００と、内部記憶装置３０１と外部記憶装置３０２と、音声入力手段３１０と、１発声音声特徴量記憶装置３１１と認識結果出力手段３２０とから構成されている。
【００４９】
これらの手段はそれぞれ概略つぎのように動作する。音声入力手段３１０は、マイク等から音声を入力し、一定の時間間隔ごとに、その時間的近傍の入力音声を分析し、音声の特徴量をデジタルデータとして出力する。１発声音声特徴量記憶装置３１１は、音声入力手段３１０から出力される１発話分のデジタルデータとしての同特徴量を記憶する。
【００５０】
上記音声の特徴量は、第１の実施形態と同様であり、入力順に第１フレームの音声特徴量、第２フレームの音声特徴量…と呼び、第１、第２…をフレーム番号と呼ぶ。
【００５１】
コンピュータ３００は、１発声音声特徴量記憶装置３１１から必要に応じて音声の特徴量を読みだし、必要に応じて内部記憶装置３０１および外部記憶装置３０２に仮単語アーク、ノード、単語アークを読み書きしながら、同記憶装置３０１あるいは３０２に記録された、ＨＭＭで表された音響モデル、ＨＭＭの状態レベルにまで展開された木構造単語辞書及び言語モデルを用いて、上記音声の特徴量を認識処理する。発声の最後まで上記処理をおこなった後、ノード、単語アークを読み出して、結果出力手段３２０に結果を出力する。
【００５２】
次に、本実施形態の全体の動作について図２も参照して詳細に説明する。
【００５３】
Ａ）まず、１発声全体の音声特徴量を音声入力手段３１０より読みだし、１発声音声特徴量記憶装置３１１に書き込む。
【００５４】
Ｂ）次に、発声を認識する前に、発声始端ノードとして、新規のノードを作成する。これは第1の実施形態のそれと同じである（図２-０）。
【００５５】
Ｃ）次に、発声の最後のフレーム番号を持たず、かつどの仮単語アーク、単語アークからもポインタによって指されていないノードのうち、最もフレーム番号が小さいものについて、以下の手順に従って単語アークを作成、連結する。そのようなノードがなくなれば終了する。
【００５６】
C-1）そのノードから始まる可能性のある単語全てについて仮の単語アークを作成する（図２-１）。これら仮単語アークは、第1の実施形態のそれと同じである。
【００５７】
C-2）そのノードのフレーム番号から始まる音声特徴量について順番に、仮単語アークがなくなるまで C-1）を繰返し行う：全ての仮単語アークについて、第1の発明の実施形態における 2-2） 2-3) 2-4)の処理を行う。
【００５８】
Ｄ）発声始端ノードから単語アークを時間順方向にたどって最後のフレームで作られた終端のノードに至ることで作られる全ての単語系列のうち、最も累積スコアが良くなるものを認識結果として出力する。これは第1の実施形態と同じである。
【００５９】
なお、上記実施形態では認識対象言語単位として単語を用いた場合について説明したが、単語のかわりに、音素、音節、フレーズ（単語の１つ以上の連鎖）などの言語単位をその認識対象とする場合においても同様に適用することができる。
【００６０】
【発明の効果】
本発明は、言語モデル確率計算・最良値計算結果を各ノードに単語の識別子をつけて保存し、再利用することによって、右音素違いの同単語や、終了フレーム違いの同単語について再処理しないで済むように構成しているので、言語モデル確率計算・最良値計算処理を大幅に削減する事が可能であり、処理の効率化を図ることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態における構成を表すブロック図である。
【図２】本発明の動作の具体例を示す図である。
【図３】本発明の第２の実施形態における構成を表すブロック図である。
【図４】第１の実施の形態で参照される木構造単語辞書の１例を示す図である。
【符号の説明】
１００，３００コンピュータ
１０１，３０１内部記憶装置
１０２，３０２外部記憶装置
１１０，３１０音声入力手段
１２０，３２０結果出力手段
３１１１発声音声特徴量記憶装置

Claims

途中認識結果候補をスコアつきの言語単位系列として持ち、１つ以上のスコアつき言語単位系列をあらかじめ定めた基準でまとめてノードとし、該ノードの後ろに言語単位を追加して新たなノードを作成していくことで認識結果を探索する音声認識方法において、前記ノードに前記言語単位を追加する際に、前記ノードと追加する前記言語単位の組ごとに計算される１つあるいは複数の値を保存し、以後、同じノードに同じ言語単位を追加する際に、前記保存した値を再利用することを特徴とする連続音声認識方法。
前記ノードと追加する前記言語単位の組ごとに計算され保存される値が、前記ノードの表す各スコアつき言語単位系列と追加する言語単位とから計算される値の一部あるいはすべてあるいはそれらのうちの最良値であることを特徴とする請求項１に記載の連続音声認識方法。
前記ノードの表すスコアつき言語単位系列をあらかじめ定めた基準でグループに分け、該グループごとに各スコアつき言語単位系列と追加する言語単位とから計算される値の最良値を求め、それを前記ノードと追加する前記言語単位の組ごとに保存することを特徴とする請求項１に記載の連続音声認識方法。
前記ノードの表すスコアつき言語単位系列と追加する言語単位とから計算される値が、前記言語単位系列と前記追加する言語単位とから計算される言語スコアと、前記言語単位系列のスコアとから計算される値であることを特徴とする請求項１〜３のいずれか１項に記載の連続音声認識方法。
前記ノードの表すスコアつき言語単位系列をグループ分けする基準として、前記言語単位系列の最後の１単語または数単語が同じであれば同じグループにすることを特徴とする請求項３に記載の連続音声認識方法。
前記言語単位は、音素、音節、単語、フレーズ（単語の１つ以上の連鎖）のうちのいずれかであることを特徴とする請求項１〜５のいずれか１項に記載の連続音声認識方法。
途中認識結果候補をスコアつきの言語単位系列として持ち、１つ以上のスコアつき言語単位系列をあらかじめ定めた基準でまとめてノードとし、該ノードの後ろに言語単位を追加して新たなノードを作成していくことで認識結果を探索する音声認識処理をコンピュータに実行させるプログラムにおいて、前記ノードに前記言語単位を追加する際に、前記ノードと追加する前記言語単位の組ごとに計算される１つあるいは複数の値を保存する手順と、同じノードに追加される言語単位が以前に追加された言語単位と同じであるときには、前記の計算を省略して前記保存した値を利用する手順を含むことを特徴とする連続音声認識プログラム。
前記ノードと追加する前記言語単位の組ごとに計算され保存される値は、前記ノードの表す各スコアつき言語単位系列と追加する言語単位とから計算される値の一部あるいはすべてあるいはそれらのうちの最良値であることを特徴とする請求項７に記載の連続音声認識プログラム。
前記ノードの表すスコアつき言語単位系列はあらかじめ定めた基準でグループに分けられており、前記ノードに前記言語単位を追加する際に、前記ノードと追加する前記言語単位の組ごとに計算される値の最良値を保存する手順と、同じノードに追加される言語単位が以前に追加された言語単位と同じグループ内に属しているときには、前記の計算を省略して前記保存した値を利用する手順を含むことを特徴とする請求項７に記載の連続音声認識プログラム。
前記ノードの表すスコアつき言語単位系列と追加する言語単位とから計算される値は、前記言語単位系列と前記追加する言語単位とから計算される言語スコアと、前記言語単位系列のスコアとから計算される値であることを特徴とする請求項８に記載の連続音声認識プログラム。
前記ノードの表すスコアつき言語単位系列をグループ分けする基準として、前記言語単位系列の最後の１単語または数単語が同じであれば同じグループにする手順を含むことを特徴とする請求項９に記載の連続音声認識プログラム。
前記言語単位は、音素、音節、単語、フレーズ（単語の１つ以上の連鎖）のうちのいずれかであることを特徴とする請求項７〜１１のいずれか１項に記載の連続音声認識プログラム。
請求項７に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
請求項８に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
請求項９に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
請求項１０に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
請求項１１に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。
請求項１２に記載の音声認識プログラムが格納された記憶装置と、入力された音声の特徴量をデジタルデータとして出力する音声入力手段と、前記記憶装置に格納された音声認識プログラムに従って前記音声入力手段から出力されたデジタルデータに対して音声認識処理を実行するコンピュータと、該コンピュータによる音声認識処理結果を出力する処理結果出力手段を備えていることを特徴とする連続音声認識装置。