JP3834169B2

JP3834169B2 - 連続音声認識装置および記録媒体

Info

Publication number: JP3834169B2
Application number: JP26945799A
Authority: JP
Inventors: 亨今井; 彰男安藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1999-09-22
Filing date: 1999-09-22
Publication date: 2006-10-18
Anticipated expiration: 2019-09-22
Also published as: US6393398B1; JP2001092496A

Description

【０００１】
【発明の属する技術分野】
本発明は、連続音声を認識する連続音声認識装置、特に、確率的言語モデルを使用して音声認識を行う連続音声認識装置および記録媒体に関する。
【０００２】
【従来の技術】
従来、確率的言語モデルを使用して音声認識を行う連続音声認識装置の中でマルチパスデコーダを使用して連続音声を認識を行う装置が知られている。この装置では１パスの回路で簡易なモデルを使用して時間同期サーチを行い、認識対象の音声に対する単語候補を絞り込む。そして、発話終了後に詳細なモデルを使用して２パス目の回路で１パス目で得られた単語候補を確定する（今井他、情処研報、ＳＬＰ-23-11（１９９８．１０）。本願発明者も１パス目でバイグラムを使用して時間同期Ｖｉｔｅｒｂｉビームサーチを行う連続音声認識装置（今井他、音講論集３−１−１２（１９９８，９））を提案している。
【０００３】
この連続音声認識装置では、木構造音素ネットワークを単語依存Ｎ−ｂｅｓｔ探索する（Ｒ．Ｓｃｈｗａｒｚ，ｅｔａｌ．，ＩＣＡＳＳＰ−９１、ｐｐ７０１−７０４（１９９１．５）参照）。
【０００４】
この際、各単語候補の終了時刻、スコア，直前単語へのポインタで構成される単語ラティスを再帰的にトレースバックして（Ｒ．Ｓｃｈｗａｒｚ，ｅｔａｌ．，ＩＣＡＳＳＰ−９１、ｐｐ７０１−７０４（１９９１．５）参照）、Ｎ−ｂｅｓｔ文を得る。そしてＮ−ｂｅｓｔ文をトライグラムでリスコアリングし、尤度最大の単語列を認識結果として確定している。
【０００５】
【発明が解決しようとする課題】
このようなマルチパスの連続音声認識装置では、連続音声に対して１パス処理を行うと、その時点の音声認識候補の最後尾の単語列については、次回に音声認識候補として得られ、上記最後尾の単語列と対応する位置の単語列が前回得られたものと異なることが多いという傾向がある。このため、１文の入力音声の入力が終了しないと、1文の音声認識候補が安定せず、２パス目の回路で音声認識結果を確定できない。したがって、入力音声が入力された時点と音声認識結果が連続音声認識装置から出力されるまでの間に大きなタイムラグ（遅延）が生じてしまう。
【０００６】
このようなタイムラグはニュース番組で放送される音声を音声認識してリアルタイムで字幕をつくるためには問題となってしまう。
【０００７】
そこで、本発明の目的は、上述の点に鑑みて、マルチパスの音声認識装置において、音声が入力されてから音声認識結果を出力するまでのタイムラグを短縮することが可能な連続音声認識装置および記録媒体を提供することにある。
【０００８】
【課題を解決するための手段】
このような目的を達成するために、請求項１の発明は、入力した連続音声を第１パス処理部で確率的言語モデルの簡易モデルを使用して単語列に関する複数の音声認識候補を取得し、第２パス処理部で前記複数の音声認識候補について、確率的言語モデルの詳細モデルを使用して、音声認識結果を確定する連続音声認識装置において、前記第１パス処理部は一定時間間隔で、入力開始時点からの連続音声について複数の音声認識候補の単語列を取得し、第２パス処理部は、一定時間間隔ごとに取得される前記複数の音声認識候補の単語列について確率的言語モデルの詳細モデルを使用して、最も高い確からしさを有する単語列を選択する単語列選択手段と、当該一定間隔で検出された単語列の中の安定部分を検出し、当該検出した安定部分の単語列を音声認識結果として逐次的に確定する音声認識結果確定手段とを具えたことを特徴とする。
【０００９】
請求項２の発明は、請求項１に記載の連続音声認識装置において、前記音声認識結果確定手段は、前記単語列検出手段により現時点において検出された単語列から最後部の単語列を除いた第１の単語列と、前時点において前記単語列検出手段により取得された音声の認識候補の第２の単語列とを比較する比較部と、当該比較において前記第２の単語列と同じ単語列が前記第１の単語列の中に含まれているとの判定結果が前記比較部により得られた場合には、前記第２の単語列を音声認識結果として確定する確定部とを具えたことを特徴とする。
【００１０】
請求項３の発明は、請求項１に記載の連続音声認識装置において、前記第１パス処理部では、確率的言語モデルの簡易モデルを使用して、単語列に関する複数の音声認識候補を取得する際に、現時点の最高スコアの音素を出発点として単語ラティスをトレースバックして複数の音声認識候補を取得することを特徴とする。
【００１１】
請求項４の発明は、請求項３に記載の連続音声認識装置において、前記単語ラティスをトレースバックするタイミングを非一定間隔とすることを特徴とする。
【００１２】
請求項５の発明は、請求項３に記載の連続音声認識装置において、前記第１パス処理部では、現時点の複数のアクティブの音素から単語ラティスをトレースバックすることを特徴とする。
【００１３】
請求項６の発明は、入力した連続音声を第１パス処理で確率的言語モデルの簡易モデルを使用して単語列に関する複数の音声認識候補を取得し、第２パス処理で前記複数の音声認識候補について、確率的言語モデルの詳細モデルを使用して、音声認識結果を確定するプログラムであって、コンピュータにより実行可能なプログラムを記録した記録媒体において、前記第１パス処理は一定時間間隔で、入力開始時点からの連続音声について複数の音声認識候補の単語列を取得するステップと、第２パス処理は、一定時間間隔ごとに取得される前記複数の音声認識候補の単語列について確率的言語モデルの詳細モデルを使用して、最も高い確からしさを有する単語列を選択する単語列選択ステップと、当該一定間隔で検出された単語列の中の安定部分を検出し、当該検出した安定部分の単語列を音声認識結果として逐次的に確定する音声認識結果確定ステップとを具えたことを特徴とする。
【００１４】
請求項７の発明は、請求項６に記載の記録媒体において、前記音声認識結果確定ステップは、前記単語列検出ステップにより現時点において検出された単語列から最後部の単語列を除いた第１の単語列と、前時点において前記単語列検出ステップにより取得された音声の認識候補の第２の単語列とを比較する比較ステップと、当該比較において前記第２の単語列と同じ単語列が前記第１の単語列の中に含まれているとの判定結果が前記比較ステップにより得られた場合には、前記第２の単語列を音声認識結果として確定する確定ステップとを具えたことを特徴とする。
【００１５】
請求項８の発明は、請求項６に記載の記録媒体において、前記第１パス処理では、確率的言語モデルの簡易モデルを使用して、単語列に関する複数の音声認識候補を取得する際に、現時点の最高スコアの音素を出発点として単語ラティスをトレースバックして複数の音声認識候補を取得することを特徴とする。
【００１６】
請求項９の発明は、請求項８に記載の記録媒体において、前記単語ラティスをトレースバックするタイミングを非一定間隔とすることを特徴とする記録媒体。
【００１７】
請求項１０の発明は、請求項８に記載の記録媒体において、前記第１パス処理では、現時点の複数のアクティブの音素から単語ラティスをトレースバックすることを特徴とする。
【００１８】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【００１９】
図１は本発明を適用した連続音声認識装置の機能構成を示す。図２は図１の第１パス処理部２の詳細を示し、図３は図１の第２のパス処理部３の詳細を示す。
【００２０】
音響分析部１はマイクロホン等の音声入力部から入力された音声信号をアナログ／デジタル変換（Ａ／Ｄ）変換した後、音響分析を行って、音声の特徴を表すパラメータを出力する。音響分析回路１は従来と同様の回路を使用することができる。
【００２１】
第１パス処理部１では簡易な確率的言語モデル、たとえば、単語バイグラムを使用して、各単語候補の終了時刻，スコア，直前単語へのポインタで構成される単語ラティス４を単語ラディス生成部２１により逐次に生成する。そして入力音声のΔｔフレーム（たとえば、３０フレーム（１フレームは１０ミリ秒））おきに、現時点の最高スコアの音素を出発点として単語ラティス４をトレースバック部２２によりトレースバックし、Ｎ通り（たとえば２００通り）の単語列候補（以下Ｎ−ｂｅｓｔ単語列と称する）を取得する。第１のパス処理部１も従来（たとえば、今井他、音講論集３−１−１２（１９９８，９）参照）とほぼ同一のハードウェアの回路構成とすることができるが、従来は１文の入力音声が入力された後、１文についてのＮ−ｂｅｓｔ単語列候補が出力されるのに対し、本実施形態では、入力音声が入力されると、入力音声の途中でも、それまでに生成された１文途中のＮ−ｂｅｓｔ単語系列がΔｔフレームおきに出力される点が従来と異なる点である。なお、本明細書および上記文献に記載されている内容が難解と思われる場合には、「確率モデルによる音声認識，中川誠一著電子情報通信学会」を参照されたい。
【００２２】
第２パス処理部３では、Δｔフレームおきに作成されるＮ−ｂｅｓｔ単語列をより詳細な確率的言語モデル６（図３参照）、たとえば、単語トライグラムを使用して、リスコアリング部３１によりリスコアリングし、スコアが最大となる最良の単語列（１−ｂｅｓｔ単語列）をＮ−ｂｅｓｔ単語列の中から選択する。
【００２３】
単語比較・確定部３２では現時点の１−ｂｅｓｔの中の安定部を検出するために、Δｔフレーム前（前時点）に得られた１−ｂｅｓｔ単語列と現時点で得られた１−ｂｅｓｔ単語列とを比較し、現時点の１−ｂｅｓｔ単語列の中にΔｔフレーム前に得られた１−ｂｅｓｔ単語列と一致する単語列が含まれている場合には、一致する単語列を音声認識結果として確定する（図４参照）。
【００２４】
なお、現時点で得られた１−ｂｅｓｔ単語列の最終のＭ個の単語（たとえば、１個）は確定の対象としない。また、すでに確定されている区間で、現時点で得られた１−ｂｅｓｔ単語列に変化が生じていても、それは無視するものとする。
【００２５】
このような入力音声が入力されている間、第２パス処理部３では入力音声の途中でもその途中までの１−ｂｅｓｔ単語列がΔｔフレームおきに確定されていくので、１文の入力音声が入力された場合の音声認識結果の出力タイムラグはほぼΔｔフレームであるのに対し、従来例では１文の入力音声の入力時間であるので、タイムラグが大幅に短縮される。
【００２６】
上述の連続音声認識装置は、デジタル回路でも実現できるが、後述のプログラムをコンピュータが実行することでも実現できる。このためのコンピュータのシステム構成を図５に示す。図５において、ＣＰＵ１００は後述のプログラムを実行して，連続音声認識処理を行う。システムメモリ１１０は、ＣＰＵ１００が行う情報処理に対する入出力データを一時記憶する。ハードディスク記憶装置（ＨＤＤと略記する）１３０は、上述の簡易モデル５や詳細モデル６を保存記憶する。
【００２７】
また、ＨＤＤ１３０には後述の連続音声認識用のプログラムが保存され、不図示のキーボードやマウス等の実行の指示で、ＨＤＤ１３０からシステムメモリ１１０に上記プログラムがローディングされた後、ＣＰＵ１００によりプログラムが実行される。
【００２８】
入力インターフェース（Ｉ／Ｏ）１２０はマイクロホンから入力された音声信号をＡ／Ｄ変換して、デジタル形態の音声信号をＣＰＵ１００に引き渡す。
【００２９】
本実施形態では、コンピュータとしてパーソナルコンピュータを使用する形態を説明するが、コンピュータはチップ化されたデジタルプロセッサの形態とすることもできる。この場合には、ＨＤＤ１３０の変わりにＲＯＭ等の不揮発メモリを使用するとよい。
【００３０】
以上のシステム構成を有する連続音声認識装置の動作を図６〜図８を参照して説明する。図６は連続音声認識処理のためのプログラムのメイン処理内容を示す。図７は図１の第１パス処理の詳細を示す。図８は第２パス処理の詳細を示す。
【００３１】
上記プログラムはＣＰＵ１００が実行可能なプログラム言語で作成され、ＨＤＤ１３０に保存記憶されるが、説明の便宜上、図６〜図８では、個々の処理内容を機能表現している。
【００３２】
図６において、たとえば、「Ａ（エイ），Ｂ（ビー），Ｃ（シー），Ｄ（ディー），Ｅ（イー）．．．．」についての入力音声がマイクロホンから入力されると、ＣＰＵ１００はデジタルの音声信号をＩ／Ｏを介して逐次システムメモリ１１０に一時記憶される。ＣＰＵ１００は一時記憶された音声信号を従来と同様、たとえば、音素単位で音響分析して、音響分析結果をシステムメモリ１１０に記憶する（ステップＳ１００）。
【００３３】
ＣＰＵ１００は「Ａ」の入力音声が入力された際には、ステップＳ２０の第１パス処理でＨＤＤ１３０に保存の簡易モデル（単語バイアグラム）および音響分析結果を使用して単語音声認識を行い、「Ａ」、「えい」、「英」等の単語列候補（この場合、単語文字列数は１）を取得し、各候補について単語候補の終了時刻、スコア（認識結果としての確からしさを示す得点），直前単語へのポインタで構成する単語ラティスを生成する（図７のステップＳ１００）。作成された単語ラティスはシステムメモリ１１０に一時記憶される（ステップＳ１２０）。この時点で、入力音声の開始がΔｔ時間が経過している場合には、現在の最高スコアの音素を出発点としたシステムメモリ１１０上の単語ラティスをトレースバックして、初期的に「Ａ」、「えい」、「英」等Ｎ通りの単語列候補、すなわち、Ｎ−ｂｅｓｔ単語列をステップＳ３０の第２パス処理に引き渡す。
【００３４】
ＣＰＵ１００は図８の処理手順に従って、Ｎ−ｂｅｓｔ単語列について詳細モデルを使用してリスコアリング（スコアの再計算）を行う。、Ｎ−ｂｅｓｔ単語列の中で最もスコアの高い単語列候補、この場合「Ａ」を１−ｂｅｓｔ単語列として選択し、システムメモリ１１０に一時記憶する（ステップＳ２１０）。
【００３５】
この時点では、「Ａ」の前に音声が入力されていないので、図８の手順はステップＳ２２０→リターンへと進み、ＣＰＵ１００の実行手順は図６のステップＳ４０の終了判定に移行する。この時点ではプログラムの終了の指示がユーザから与えられていないので、手順はステップＳ４０→Ｓ１０→Ｓ２０へと進み、次の入力音声「Ｂ」についての音響分析処理および第１パス処理が行われる。なお、図７の第１パス処理において、前回のトレースバック処理からΔｔフレーム時間が経過しない間は手順は図７のステップＳ１２０→図６のステップＳ１０→Ｓ２０→図７のステップＳ１００→Ｓ１２０の処理が繰り返されて、生成された単語ラティスがシステムメモリ１１０に蓄積される。
【００３６】
Δｔフレーム時間が経過すると図７のステップＳ１２０の判定処理がＹＥＳ判定となるので、手順はステップＳ１３０のトレースバック処理に移行する。トレースバック処理では確定されていない単語列がトレースバックされるので、この場合、入力音声「Ａ」についての単語列候補と入力音声「Ｂ」についての単語列候補を組み合わせたＮ−ｂｅｓｔ単語列を作成し、図６のステップＳ３０の第２パス処理に引き渡す。
【００３７】
第２パス処理ではＣＰＵ１００は引き渡された２単語について詳細モデルを使用してスコアを再計算する（図８のステップＳ２００）。ここでの入力音声は「Ａ，Ｂ」なので、当然のことながら、２つの単語の候補の中で「「Ａ，Ｂ」がスコアが最も高く、１−ｂｅｓｔ単語列として選択される。選択された１−ｂｅｓｔ単語列はシステムメモリ１１０に記憶される。
【００３８】
この時点で、システムメモリ１１０に記憶された１−ｂｅｓｔ単語列は、「Ａ」と「Ａ，Ｂ」の２つなので、現時点で得られた１−ｂｅｓｔ単語列「Ａ，Ｂ」と前回（Δｔフレーム前）得られた１−ｂｅｓｔ単語列「Ａ」とを比較する。
【００３９】
前回得られた１−ｂｅｓｔ単語列「Ａ」と一致する単語列が現時点で得られた１−ｂｅｓｔ単語列「Ａ，Ｂ」の中に含まれているので、図８のステップＳ２２０の判定処理はＹＥＳ判定処理となる。ＣＰＵ１００はこのＹＥＳ判定に応じて、一致の単語列「Ａ」を連続音声の中の部分的な音声認識結果として確定する。
【００４０】
一方、ステップＳ２２０でＮＯ判定が得られた場合には、ステップＳ２３０の確定処理は行わず図６のステップＳ４０にリターンした後、、入力音声の音響分析処理を続行する（ステップＳ１０）。
【００４１】
以下、上述の処理手順を繰り返し実行すると次の入力音声「Ｃ」が入力されると，１−ｂｅｓｔ単語列の確定文字列以降の単語列として「Ｂ，Ｃ」が得られる。また、前回の１−ｂｅｓｔ単語列の確定文字列以降の単語列は「Ｂ」であったので、図８のステップＳ２１０の判定処理において、「Ｂ」が一致の判定が得られて、一致の単語列「Ｂ」が次の部分音声認識結果として確定される。確定された音声認識結果はシステムメモリ１１０に累積的に記憶される（ステップＳ２３０）。ちなみにこの時点で累積記憶される音声認識結果は「Ａ，Ｂ」である。
【００４２】
以上の説明した処理手順を実行することにより、入力音声が入力されるごとに、２パス処理を実行しても、本実施形態では、２パス処理で得られる１−ｂｅｓｔ単語列の中の安定部を検出し、確定すべき音声認識候補として逐次的に出力する。これにより音声の入力に追従する形で、音声認識結果をリアルタイムでたとえば、表示することができる。
【００４３】
ユーザがＣＰＵ１０に対して不図示のキーボードやマウスにより終了の指示を与えると，図６のステップＳ４０の終了判定処理がＹＥＳ判定となって、図６の処理手順が終了する。
【００４４】
上述の実施形態の他に次の形態を実施できる。
【００４５】
１）連続音声認識用のプログラムを記録する記録媒体は、上述の実施形態では、ハードディスク記憶装置であったが、ＲＯＭやＲＡＭなどのＩＣメモリや、フロッピーディスクや光磁気ディスクなどの携帯用記録であってもよい。また、通信線により外部装置から上記プログラムをダウンロードする場合には、外部装置側のプログラムを記憶した記憶装置が本発明の記録媒体に該当する。
【００４６】
２）上述の実施形態では、１−ｂｅｓｔ単語列の中の安定部を検出するために２つの隣接する時点で得られた１−ｂｅｓｔ単語列を比較したが、さらにさらに上述のトレースバックの間隔を非一定間隔にしてもよいし、現時点のアクティブな複数の音素からトレースバックするとさらに安定した単語列を得ることができる。
【００４７】
３）上述の実施形態では簡易な確率的言語モデルには単語バイグラム（確率を２つの単語列について求めること）、詳細な確率的言語モデルには単語トライグラム（確率を３つ単語列について求めること）を使用したが、これに限定されるわけではない。
【００４８】
４）上述した実施形態は本発明を説明するための１実施形態であり、特許請求の範囲において示される技術思想にしたがって、上述の実施形態に対して種々の変形が可能である。このように変形された実施形態は、すべて、本願の特許の権利範囲となる。
【００４９】
【発明の効果】
以上、説明したように、本発明によれば、逐次的に２パス処理を実行して得られる最も高い確からしさを有する単語列（実施形態の１−ｂｅｓｔ単語列）の中の安定部分を検出して、部分的な音声認識結果とするので、連続音声を入力しながら、その音声認識結果を逐次的に確定することができる。また、これによりたとえば、テレビニュースの音声を音声認識して自動的に字幕を作成する場合でも音声の認識精度を保ちつつ、音声からの字幕の遅れ時間を最小に抑えることができる。
【図面の簡単な説明】
【図１】本発明実施形態の機能構成を示すブロック図である。
【図２】第１パス処理部の機能構成を示すブロック図である。
【図３】第２パス処理部の構成を示すブロック図である。
【図４】本発明実施形態の処理内容を示す説明図である。
【図５】本発明実施形態のハードウェアの構成を示すブロック図である。
【図６】ＣＰＵが実行する処理内容を示すフローチャートである。
【図７】ＣＰＵが実行する第１パス処理の内容を示すフローチャートである。
【図８】ＣＰＵが実行する第２パス処理の内容を示すフローチャートである。
【符号の説明】
１音響分析部
２第１パス処理部
３第２パス処理部
５簡易モデル
６詳細モデル
２１単語ラティス生成部
２２トレースバック部
３１リスコアリング部
３２単語比較・確定部

Claims

入力した連続音声を第１パス処理部で確率的言語モデルの簡易モデルを使用して単語列に関する複数の音声認識候補を取得し、第２パス処理部で前記複数の音声認識候補について、確率的言語モデルの詳細モデルを使用して、音声認識結果を確定する連続音声認識装置において、
前記第１パス処理部は一定時間間隔で、入力開始時点からの連続音声について複数の音声認識候補の単語列を取得し、
第２パス処理部は、一定時間間隔ごとに取得される前記複数の音声認識候補の単語列について確率的言語モデルの詳細モデルを使用して、最も高い確からしさを有する単語列を選択する単語列選択手段と、
当該一定間隔で検出された単語列の中の安定部分を検出し、当該検出した安定部分の単語列を音声認識結果として逐次的に確定する音声認識結果確定手段と
を具えたことを特徴とする連続音声認識装置。
請求項１に記載の連続音声認識装置において、前記音声認識結果確定手段は、
前記単語列検出手段により現時点において検出された単語列から最後部の単語列を除いた第１の単語列と、前時点において前記単語列検出手段により取得された音声の認識候補の第２の単語列とを比較する比較部と、
当該比較において前記第２の単語列と同じ単語列が前記第１の単語列の中に含まれているとの判定結果が前記比較部により得られた場合には、前記第２の単語列を音声認識結果として確定する確定部と
を具えたことを特徴とする連続音声認識装置。
請求項１に記載の連続音声認識装置において、前記第１パス処理部では、確率的言語モデルの簡易モデルを使用して、単語列に関する複数の音声認識候補を取得する際に、現時点の最高スコアの音素を出発点として単語ラティスをトレースバックして複数の音声認識候補を取得することを特徴とする連続音声認識装置。
請求項３に記載の連続音声認識装置において、前記単語ラティスをトレースバックするタイミングを非一定間隔とすることを特徴とする連続音声認識装置。
請求項３に記載の連続音声認識装置において、前記第１パス処理部では、現時点の複数のアクティブの音素から単語ラティスをトレースバックすることを特徴とする連続音声認識装置。
入力した連続音声を第１パス処理で確率的言語モデルの簡易モデルを使用して単語列に関する複数の音声認識候補を取得し、第２パス処理で前記複数の音声認識候補について、確率的言語モデルの詳細モデルを使用して、音声認識結果を確定するプログラムであって、コンピュータにより実行可能なプログラムを記録した記録媒体において、
前記第１パス処理は一定時間間隔で、入力開始時点からの連続音声について複数の音声認識候補の単語列を取得するステップと、
第２パス処理は、一定時間間隔ごとに取得される前記複数の音声認識候補の単語列について確率的言語モデルの詳細モデルを使用して、最も高い確からしさを有する単語列を選択する単語列選択ステップと、
当該一定間隔で検出された単語列の中の安定部分を検出し、当該検出した安定部分の単語列を音声認識結果として逐次的に確定する音声認識結果確定ステップと
を具えたことを特徴とする記録媒体。
請求項６に記載の記録媒体において、前記音声認識結果確定ステップは、
前記単語列検出ステップにより現時点において検出された単語列から最後部の単語列を除いた第１の単語列と、前時点において前記単語列検出ステップにより取得された音声の認識候補の第２の単語列とを比較する比較ステップと、
当該比較において前記第２の単語列と同じ単語列が前記第１の単語列の中に含まれているとの判定結果が前記比較ステップにより得られた場合には、前記第２の単語列を音声認識結果として確定する確定ステップと
を具えたことを特徴とする記録媒体。
請求項６に記載の記録媒体において、前記第１パス処理では、確率的言語モデルの簡易モデルを使用して、単語列に関する複数の音声認識候補を取得する際に、現時点の最高スコアの音素を出発点として単語ラティスをトレースバックして複数の音声認識候補を取得することを特徴とする記録媒体。
請求項８に記載の記録媒体において、前記単語ラティスをトレースバックするタイミングを非一定間隔とすることを特徴とする記録媒体。
請求項８に記載の記録媒体において、前記第１パス処理では、現時点の複数のアクティブの音素から単語ラティスをトレースバックすることを特徴とする記録媒体。