JP5103907B2

JP5103907B2 - 音声認識システム、音声認識方法及び音声認識プログラム

Info

Publication number: JP5103907B2
Application number: JP2006552956A
Authority: JP
Inventors: 晋也石川; 潔山端
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-01-17
Filing date: 2006-01-12
Publication date: 2012-12-19
Anticipated expiration: 2026-01-12
Also published as: CN101120397A; EP1852847A4; US20080133237A1; JPWO2006075648A1; CN101120397B; US7930180B2; WO2006075648A1; EP1852847A1

Description

本発明は、例えば高精度かつ高速な大語彙連続音声認識（Large Vocabulary Continuous Speech Recognition:ＬＶＣＳＲ）に適した音声認識システム、音声認識方法及び音声認識プログラムに関する。

近年、非特許文献１に記載されているように、高精度かつ高速なＬＶＣＳＲを実現しようとする試みが盛んになされている。このＬＶＣＳＲでは、探索空間が非常に大きくなるため、探索アルゴリズムの設計は重要である。この探索アルゴリズムにおいて、探索の過程でトレリス上の節点までの累積スコアだけでなく当該節点以降の累積スコア（の推定値）も併せて考慮する「先読み」という方法が広く用いられている。この技術に関連する音声認識システムを、第一従来例として図５に示す。以下、この図面に基づき説明する。

第一従来例の音声認識システム７００は、データ処理装置７１０及びデータ記憶装置７２０によって構成されている。データ記憶装置７２０は、複数フレームに渡る音声を蓄積する音声バッファ７２１と、音声バッファ７２１に蓄積された音声に対して、音声とは逆向きに処理して作成される音声の先読み値を保存する先読み値バッファ７２２と、を備える。データ処理装置７１０は、前記先読み値を作成し先読み値バッファ７２２に保存する距離計算・先読み手段７１１と、音声バッファ７２１及び先読み値バッファ７２２の各値を利用して通常の単語照合処理を行う距離計算・単語列照合手段７１２とを備える。

音声認識システム７００は以下のように動作する。まず、距離計算・先読み手段７１１は、次のように動作する。入力される音声特徴量の時系列データが音声バッファ７２１に蓄積されるまで待ち、その後その音声を時間と逆順に処理して各フレームに対する先読み値を作成し、これを先読み値バッファ７２２に蓄積する。音声バッファ７２１に対して処理が完了すると、距離計算・単語列照合手段７１２にその旨を通知する。続いて、距離計算・単語列照合手段７１２は、次のように動作する。音声バッファ７２１及び先読み値バッファ７２２を参照して連続単語照合を行い、音声バッファ７２１及び先読み値バッファ７２２内の処理が完了すると、距離計算・先読み手段７１１にその旨を通知する。その後、距離計算・先読み手段７１１は、音声バッファ７２１にデータが蓄積されるまで再び待ち、同様の処理を繰り返す。連続単語照合結果は距離計算・単語列照合手段７１２内に保持されており、全ての音声特徴量を処理した時点で結果が出力される。

次に、特許文献１に記載された音声認識システムを、第二従来例として図６に示す。以下、この図面に基づき説明する。

第二従来例の音声認識システム８００は、分析部８０１と、複数の単語レベルプロセッサ８２１〜８２３と、複数の文レベルプロセッサ８６１，８６２とから成る三段の処理部を持つ。音声認識システム８００によれば、分析部８０１に入力される音声信号に同期して各単語レベルプロセッサ８２１〜８２３及び各文レベルプロセッサ８６１，８６２が入力・出力を行うことにより、すなわち並列処理を行うことにより、全体を単一のプロセッサで行う場合に比べて、処理を高速化できる。なお、８０４はデータ転送部、８０７は転送指示部、８０８は優先順位変更部、８３１，８３２，８３３，８５１，８５２はＦＩＦＯである。

「大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討」情報処理学会論文誌 vol.40, No.4 1999年4月、堀貴明、岡直生、加藤正治、伊藤彰典、好田正紀特開平４−２３２９９８号公報「音声認識装置」

しかしながら、第一従来例の問題点は、一つの処理手段で逐次的に処理するので、組込み向けの低電力ＣＰＵでは認識速度が不十分なことである。これを第二従来例のように複数の処理手段で行えば高速化が期待できるものの、第二従来例ではフレーム同期に処理を行うことが前提となっている。そのため、複数のフレームをバッファに貯めた後、時間と逆順に処理を行う必要がある先読み処理を含む第一従来例においては、これをそのまま組み合わせることはできない。

そこで、本発明の目的は、第一従来例に相当する音声認識システムの並列化を実現することにより、更に高速な認識が可能となる、音声認識システム等を提供することにある。

本発明の前提となる音声認識システムを、図７に示す。以下、図７に基づき説明する。この音声認識システム９００は、データ処理装置９１０及びデータ記憶装置９２０によって構成される。データ処理装置９１０は、距離計算手段９１１と、先読みのみを行う先読み手段９１２と、単語照合のみを行う単語列照合手段９１３とを有する。データ記憶装置９２０は、複数のフレームを収容可能な距離値バッファ９２１及び先読み値バッファ９２２を一つずつ有する。距離計算手段９１１は、全音響モデルに対する距離値を計算し、後段の先読み手段９１２及び単語列照合手段９１３において新たに距離計算を行わない。しかしながら、このような音声認識システム９００では、図８のタイムチャートに示すように、同時に一つの処理しか行うことができない。

そこで、本発明に係る音声認識システムは、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算手段と、前記距離計算手段による距離値の生成と並行して、前記距離計算手段で既に生成された距離値を用いて先読み値を生成する先読み手段と、前記距離計算手段による距離値の生成及び前記先読み手段による先読み値の生成と並行して、前記距離計算手段で既に生成された距離値及び前記先読み手段で既に生成された先読み値を用いて単語照合を行って認識結果を生成する単語列照合手段を有することを特徴とするものである。このように、三つの手段が並列的に処理を実行できるので、高速な音声認識が可能となる。

例えば、前記距離計算手段で生成された距離値を格納する距離値バッファと、前記先読み手段で生成された先読み値を格納する先読み値バッファとをそれぞれ複数備え、前記各距離値バッファは、前記距離計算手段で前記距離値が書き込まれ、その後前記先読み手段で前記距離値が読み出され、その後前記単語列照合手段で前記距離値が読み出され、前記各先読み値バッファは、前記先読み手段で前記先読み値が書き込まれ、その後前記単語列照合手段で前記先読み値が読み出され、前記距離計算手段が前記距離値を書き込んでいる前記距離値バッファと、前記先読み手段が前記距離値を読み出している前記距離値バッファと、前記単語列照合手段が前記距離値を読み出している前記距離値バッファとはそれぞれ異なり、かつ、前記先読み手段が前記先読み値を書き込んでいる前記先読み値バッファと、前記単語列照合手段が前記先読み値を読み出している前記先読み値バッファとはそれぞれ異なる、としてもよい。

また、前記距離計算手段、前記先読み手段及び前記単語照合手段の処理量が均一になるように、前記距離値バッファ又は前記先読み値バッファのバッファ長を決定するバッファ長決定手段を更に備えた、としてもよい。この場合は、バッファ長決定手段によって、速度に対して最適なバッファ長が決定されるので、認識速度が向上する。

更に、前記距離計算手段、前記先読み手段及び前記単語列照合手段の動作を監視し、前記距離計算手段が前記距離値バッファに前記距離値をこれ以上書き込めなくなった時、かつ前記先読み手段及び前記単語列照合手段が前記距離値バッファから前記距離値を全て読み出した時、かつ前記先読み手段が前記先読み値バッファにこれ以上前記先読み値を書き込めなくなった時、かつ前記単語列照合手段が前記先読み値バッファから前記先読み値を全て読み出した時に、前記距離計算手段が書き込みに用いていた前記距離値バッファを前記先読み手段の次の読み出し用とし、前記先読み手段が読み出しに用いていた前記距離値バッファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出しに用いていた前記距離値バッファを前記距離計算手段の次の書き込み用とし、前記先読み手段が書き込みに用いていた前記先読み値バッファを前記単語列照合手段の次の読み出し用とし、前記単語列照合手段の読み出しに用いていた前記先読み値バッファを前記先読み手段の次の書き込み用とする、バッファ管理手段を更に備えた、としてもよい。この場合は、最小限のバッファ数で、本発明の効果が得られる。

本発明に係る音声認識方法は、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算ステップと、この距離計算ステップにおける前記距離値の生成と並行して、当該距離計算ステップで既に生成された距離値を用いて先読み値を生成する先読みステップと、前記距離計算ステップにおける前記距離値の生成と、前記先読みステップにおける前記先読み値の生成とに並行して、前記距離計算ステップで既に生成された距離値及び前記先読みステップで既に生成された先読み値を用いて単語照合を行って認識結果を生成する単語列照合ステップとを有することを特徴とするものである。

本発明に係る音声認識プログラムは、音声認識システムを構成するコンピュータに、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する機能と、前記距離値を継続して生成している時に、既に生成された距離値を用いて先読み値を生成する機能と、前記距離値を継続して生成している時及び前記先読み値を継続して生成している時に、既に生成された距離値及び既に生成された先読み値を用いて単語照合を行って認識結果を生成する機能を実行させることを特徴とするものである。

さらに、本発明の第一の音声認識システムは、共有メモリ上に、複数のフレームを収めることができる先読み値バッファ及び距離値バッファをそれぞれ複数有し、また距離計算、先読み及び音声認識を行う各手段を有し、これらの三手段において、複数フレームを納めることができるバッファを単位としたバッチ的な三並列処理を行うシステムとする。また、本発明の第二の音声認識システムは、第一の音声認識システムに加えて、バッファ長決定手段を有する。このバッファ長決定手段は、距離計算、先読み及び音声認識手段と通信を行って、距離計算、先読み及び音声認識手段で用いるバッファの長さを決定する。

更に、距離計算手段と先読み手段と単語列照合手段を備え、それらが並列して動作することを特徴とする音声認識システムとしてもよい。また、前記音声認識システムにおいて、距離値バッファと先読み値バッファとを複数備え、距離計算手段、先読み手段及び単語列照合手段において別々のバッファを用い、処理済のバッファを距離計算処理から先読み処理へ、先読み処理から単語照合処理へと受け渡して並列処理することを特徴とする音声認識システムとしてもよい。また、前記音声認識システムにおいて、距離計算手段、先読み手段及び単語照合手段と通信し、バッファ長を決定するバッファ長決定手段を持つことを特徴とする音声認識システムとしてもよい。

本発明によれば、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する処理と、既に生成された距離値を用いて先読み値を生成する処理と、既に生成された距離値及び既に生成された先読み値を用いて単語照合を行って認識結果を生成する処理とを実行することにより、複数の処理を並列的に実行できるので、音声の認識速度を向上できる。

図１は、本発明に係る音声認識システムの第一実施形態を示すブロック図である。以下、この図面に基づき説明する。

本実施形態の音声認識システム１００は、距離計算手段１１１、先読み手段１２１及び単語列照合手段１３１を備えたことを特徴とする。距離計算手段１１１は、順次入力した音声特徴量と各音響モデルとの間の距離値を生成する。先読み手段１２１は、距離計算手段１１１が距離値を生成している時に、距離計算手段１１１で既に生成された距離値を用いて先読み値を生成する。単語列照合手段１３１は、距離計算手段１１１が距離値を生成している時及び先読み手段１２１が先読み値を生成している時に、距離計算手段１１１で既に生成された距離値及び先読み手段１２１で既に生成された先読み値を用いて単語照合を行って認識結果を生成する。このように、三つの手段が並列的に処理を実行できるので、高速な音声認識が可能となる。

また、音声認識システム１００は、距離計算手段１１１で生成された距離値を格納する複数の距離値バッファ１４１〜１４５と、先読み手段１２１で生成された先読み値を格納する複数の先読み値バッファ１５１〜１５３とを備えている。各距離値バッファ１４１〜１４５は、距離計算手段１１１で距離値が書き込まれ、その後先読み手段１２１で距離値が読み出され、その後単語列照合手段１３１で距離値が読み出される。各先読み値バッファ１５１〜１５３は、先読み手段１２１で先読み値が書き込まれ、その後単語列照合手段１３１で先読み値が読み出される。ある時に、距離計算手段１１１が距離値を書き込んでいる距離値バッファ１４１と、先読み手段１２１が距離値を読み出している距離値バッファ１４２と、単語列照合手段１３１が距離値を読み出している距離値バッファ１４３とは、それぞれ異なる。先読み手段１２１が先読み値を書き込んでいる先読み値バッファ１５１と、単語列照合手段１３１が先読み値を読み出している先読み値バッファ１５２とは、それぞれ異なる。

更に詳しく説明する。本実施形態の音声認識システム１００は、プログラム制御により動作するデータ処理装置１１０，１２０，１３０と、情報を記憶するデータ記憶装置１４０とを含む。データ処理装置１１０，１２０，１３０は、それぞれ異なるプロセッサを有するので、並列処理が可能である。なお、並列処理が可能なプロセッサを用いれば、データ処理装置を一つにすることもできる。

データ記憶装置１４０は、距離値バッファ１４１，１４２，１４３と、先読み値バッファ１５１，１５２と、０個以上の距離値バッファ１４４と、０個以上の距離値バッファ１４５と、０個以上の先読み値バッファ１５３とを備えている。距離値バッファ１４５のバッファ数と先読み値バッファ１５３のバッファ数とは同数である。距離値バッファ１４１〜１４５は、あるフレーム区間の音声に対応したバッファであり、各フレームで入力された音声特徴量に対する各音響モデルの距離値を保存している。先読み値バッファ１５１〜１５３は、あるフレーム区間の音声及びその距離値に対応したバッファであり、各フレームで、そのフレーム以降の音響情報から計算した各認識単位に対する優劣である先読み値を保持している。

データ処理装置１１０は距離計算手段１１１を備え、データ処理装置１２０は先読み手段１２１を備え、データ処理装置１３０は単語列照合手段１３１を備える。距離計算手段１１１は、入力される音声特徴量の時系列の各フレームに対し、その音響特徴量と各音響モデルとの距離値を計算して、距離値バッファ１４１に書き込む。先読み手段１２１は、距離値バッファ１４２から距離値を読み出し、その距離値バッファ１４２内の各フレームの各認識単位に対して、その優劣情報である先読み値を計算し、先読み値バッファ１５１に書き込む。単語列照合手段１３１は、距離値バッファ１４３及び先読み値バッファ１５２から同フレームにおける距離値及び先読み値を読み出し、各認識単位の先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を行って、その発声全体に対する認識結果を生成する。

図２は、音声認識システム１００の動作を示すタイムチャートである。以下、図１及び図２に基づき、音声認識システム１００の動作を説明する。

処理の始めに、距離計算手段１１１は距離値バッファ１４１をデータ記憶装置１４０内に確保する（図２では(1)）。続いて、分析済みの音声として音響特徴量の時系列データが、距離計算手段１１１に供給される。すると、距離計算手段１１１は、入力される音響時系列に同期して距離値を計算し、これを距離値バッファ１４１に書き込む。距離値バッファ１４１が一杯になった時、それを複数の距離値バッファ１４４の末尾に加え、新たに距離値バッファ１４１をデータ記憶装置１４０内に確保し、処理を継続する。

先読み手段１２１は、距離値バッファ１４２が与えられている時は、そこから各フレームの距離値を取り出し、各フレームの各認識単位に対して先読み値を計算し、これを先読み値バッファ１５１に書き込む。先読み値バッファ１５１が一杯になった場合は、距離値バッファ１４２を複数の距離値バッファ１４５の末尾に追加するとともに、先読み値バッファ１５１を複数の先読み値バッファ１５３の末尾に追加する。この場合及び動作開始直後は、距離値バッファ１４２及び先読み値バッファ１５１が与えられていない。そのため、複数の距離値バッファ１４４から先頭のものを取り出して距離値バッファ１４２とし、新たに先読み値バッファ１５１をデータ記憶装置１４０内に確保し、処理を継続する。

これにより、図２の距離値バッファ(1)(2)(3)(4)で示すように、距離計算手段１１１で処理された距離値バッファは、その順に先読み手段１２１で処理される。図２において、Ａ、Ｂ、Ｃ、Ｄはそれぞれ距離値バッファ(1)(2)(3)(4)に対応する先読み値バッファである。

単語列照合手段１３１は、距離値バッファ１４３及び先読み値バッファ１５２が与えられている時は、そこから各フレームの距離値と各認識単位の先読み値とを取り出し、先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を行って、一発声の認識結果を生成する。距離値バッファ１４３内及び先読み値バッファ１５２内の全てのフレームを処理した時は、距離値バッファ１４３及び先読み値バッファ１５２はメモリを開放する。この時及び動作開始直後は、距離値バッファ１４３及び先読み値バッファ１５２が与えられていないので、複数の距離値バッファ１４５及び複数の先読み値バッファ１５３から先頭のもの（図２においては、(1)とＡ、(2)とＢ、(3)とＣ、(4)とＤ）を取り出してそれぞれ距離値バッファ１４３及び先読み値バッファ１５２とし、処理を継続する。この時、取り出すバッファが無くなれば発声終端であるので、そこまでの認識結果を最終的な音声認識結果として出力する。

本実施形態の音声認識システム１００によれば、三つの処理手段である距離計算手段１１１、先読み手段１２１及び単語列照合手段１３１が独立して並列に処理できるので、第一従来例の音声認識システムに比べて音声認識速度が向上する。

また、本実施形態の音声認識システム１００は、次のように要約できる。距離計算手段１１１は、音声特徴量の時系列データを受け取り、フレーム同期に全音響モデルと各フレームとの距離値を計算し、距離値バッファ１４１に書き込む。距離値バッファ１４１が一杯になると、先読み手段１２１への引渡し待ちの複数の距離値バッファ１４４の末尾に追加する。先読み手段１２１は、複数の距離値バッファ１４４から距離値バッファ１４２を受け取り、各フレームにおいて各認識単位の優劣である先読み値を計算し、先読み値バッファ１５１に書き込む。先読み値バッファ１５１が一杯になると距離計算手段１３１への引渡し待ちの複数の距離値バッファ１４５及び先読み値バッファ１５３の末尾にそれぞれ追加する。単語列照合手段１３１は複数の距離値バッファ１４５及び先読み値バッファ１５３から距離値バッファ１４３及び先読み値バッファ１５２を受け取り、先読み値を利用して適宜照合単語を取捨選択しながらフレーム同期に発声全体を認識し、認識結果を生成する。このように、マルチパス音声認識の各パスを並列して処理することにより、高速に音声認識を行うことができる。

図３は、本発明に係る音声認識システムの第二実施形態を示すブロック図である。以下、この図面に基づき説明する。ただし、図１と同じ部分は同じ符号を付すことにより説明を省略する。

本実施形態の音声認識装置２００は、バッファ長決定手段２１１を備えたことを特徴とする。バッファ長決定手段２１１は、距離計算手段１１１、先読み手段１２１及び単語照合手段１３１の処理量が均一になるように、距離値バッファ１４１〜１４５又は先読み値バッファ１５１〜１５３のバッファ長を決定する。本実施形態によれば、バッファ長決定手段２１１によって、速度に対して最適なバッファ長が決定されるので、認識速度が向上する。

更に詳しく説明する。音声認識装置２００は、データ処理装置２１０が、図１のデータ処理装置１１０の構成に加え、バッファ長決定手段２１１を有する点で異なる。バッファ長決定手段２１１は、距離計算手段１１１、先読み手段１２１及び単語列照合手段１３１と通信を行い、最適なバッファ長を計算する。例えば、先読み手段１２１及び単語列照合手段１３１のいずれかの１バッファあたりの実行時間と距離計算手段１３１の１バッファあたりの実行時間との差がある値以上になった時、その遅れ分だけバッファ長を長くする。距離計算手段１１１は、バッファ長決定手段２１１からバッファ長を受け取り、計算済みの距離値を捨てない範囲で、受け取った時刻以降の距離値バッファの長さを上記バッファ長に近づける。上述した以外の動作は第一実施形態と同じである。

次に、本実施形態の効果について説明する。先読み手段１２１がある場合、１バッファの長さを長めにすることで先読み処理の速度も向上し、先読み精度も向上する。したがって、単語列照合手段１３１の速度も向上する。本実施形態では、先読み手段１２１及び単語列照合手段１３１に処理の遅れが起きたときに最上流の距離計算手段１１１からバッファ長を長くすることにより、先読み手段１２１及び単語列照合手段１３１ともに高速化されるので、三つの処理手段の処理量をより均一化できる。

図４は、本発明に係る音声認識システムの第三実施形態を示すブロック図である。以下、この図面に基づき説明する。ただし、図１と同じ部分は同じ符号を付すことにより説明を省略する。

本実施形態の音声認識システム３００は、バッファ管理手段３４１を備えたことを特徴とする。バッファ管理手段３４１は、距離計算手段３１１、先読み手段３２１及び単語列照合手段３３１の動作を監視し、距離計算手段３１１が距離値バッファ１４１に距離値をこれ以上書き込めなくなった時、かつ先読み手段３２１及び単語列照合手段３３１が距離値バッファ１４２，１４３から距離値を全て読み出した時、かつ先読み手段３２１が先読み値バッファ１５１にこれ以上先読み値を書き込めなくなった時、かつ単語列照合手段３３１が先読み値バッファ１５２から先読み値を全て読み出した時に、距離値バッファ１４１を先読み手段３２１の次の読み出し用とし、距離値バッファ１４２を単語列照合手段３３１の次の読み出し用とし、距離値バッファ１４３を距離計算手段３１１の次の書き込み用とし、先読み値バッファ１５１を単語列照合手段３３１の次の読み出し用とし、先読み値バッファ１５２を先読み手段３２１の次の書き込み用とする。本実施形態によれば、最小限のバッファ数で、本発明の効果が得られる。

更に詳しく説明する。音声認識システム３００は、プログラム制御により動作するデータ処理装置３１０，３２０，３３０，３４０と、情報を記憶するデータ記憶装置３５０とを含む。

データ記憶装置３５０は、距離値バッファ１４１，１４２，１４３と、先読み値バッファ１５１，１５２とを備えている。距離値バッファ１４１，１４２，１４３は、あるフレーム区間の音声に対応したバッファであり、各フレームで入力された音声特徴量に対する各音響モデルの距離値を保存している。先読み値バッファ１５１，１５２は、あるフレーム区間の音声及びその距離値に対応したバッファであり、各フレームで、そのフレーム以降の音響情報から計算した各認識単位に対する優劣である先読み値を保持している。

データ処理装置３１０は距離計算手段３１１を備え、データ処理装置３２０は先読み手段３２１を備え、データ処理装置３３０は単語列照合手段３３１を備え、データ処理装置３４０はバッファ管理手段３４１を備える。距離計算手段３３１は、入力される音声特徴量の時系列の各フレームに対し、その音響特徴量と各音響モデルの距離値を計算して、これを距離値バッファ１４１に書き込む。先読み手段３２１は、距離値バッファ１４２から距離値を読み出し、そのバッファ内の各フレームの各認識単位に対して、その優劣情報である先読み値を計算し、これを先読み値バッファ１５１に書き込む。単語列照合手段３３１は、距離値バッファ１４３及び先読み値バッファ１５２から同フレームにおける距離値及び先読み値を読み出し、各認識単位の先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を行って、その発声全体に対する認識結果を生成する。

次に、音声認識システム３００の動作について説明する。分析済みの音声として音響特徴量の時系列データが、距離計算手段３１１に供給される。距離計算手段３１１は、入力される音響時系列に同期して距離値を計算し、距離値バッファ１４１に書き込む。距離値バッファ１４１が一杯になった時、待ち状態になる。先読み手段３２１は、距離値バッファ１４２が与えられている時は、そこから各フレームの距離値を取り出し、各フレームの各認識単位に対して先読み値を計算し、先読み値バッファ１５１に書き込む。先読み値バッファ１５１が一杯になった場合、待ち状態になる。

単語列照合手段３３１は、距離値バッファ１４３及び先読み値バッファ１５２が与えられている時は、そこから各フレームの距離値と各認識単位の先読み値とを取り出し、先読み値を用いて照合単語を適宜取捨選択しながら、フレーム同期に単語照合を行って、一発声の認識結果を生成する。距離値バッファ１４３及び先読み値バッファ１５２内の全てのフレームを処理した時、待ち状態になる。

バッファ管理手段３４１は、距離計算手段３１１、先読み手段３２１及び単語列照合手段３３１の状態を監視し、全て待ち状態になった時、距離値バッファ１４１を距離値バッファ１４２へ、距離値バッファ１４２を距離値バッファ１４３へ、距離値バッファ１４３を距離値バッファ１４１へ移動し、先読み値バッファ１５１と先読み値バッファ１５２とを入れ替え、その後、距離計算手段３３１、先読み手段３２１及び単語列照合手段３３１の待ち状態を解除する。

単語列照合手段３３１は、処理するデータが距離値バッファ１４３及び先読み値バッファ１５２内に無くなれば発声終端であるので、そこまでの認識結果を最終的な音声認識結果として出力する。

本実施形態の音声認識システム３００によれば、三つの処理手段である距離計算手段３１１、先読み手段３２１及び単語列照合手段３３１が独立して並列に処理できるので、第一従来例の音声認識システムに比べて音声認識速度が向上する。

本発明に係る音声認識システムの第一実施形態を示すブロック図である。図１の音声認識システムの動作を示すタイムチャートである。本発明に係る音声認識システムの第二実施形態を示すブロック図である。本発明に係る音声認識システムの第三実施形態を示すブロック図である。音声認識システムの第一従来例を示すブロック図である。音声認識システムの第二従来例を示すブロック図である。本発明の前提となる音声認識システムを示すブロック図である。図７の音声認識システムの動作を示すタイムチャートである。

符号の説明

１００，２００，３００音声認識システム
１１０，１２０，１３０，２１０，３１０，３２０，３３０，３４０データ処理装置
１４０，３５０データ記憶装置
１４１，１４２，１４３，１４４，１４５距離値バッファ
１５１，１５２，１５３先読み値バッファ
１１１，３１１距離計算手段
１２１，３２１先読み手段
１３１，３３１単語列照合手段
２１１バッファ長決定手段
３４１バッファ管理手段

Claims

順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算手段と、
前記距離計算手段で生成される距離値を格納する３以上の距離値バッファと、
前記距離計算手段が前記距離値を生成している時に、前記距離値バッファに格納されている既に生成された前記距離値を用いて先読み値を生成する先読み手段と、
前記先読み手段で生成される先読み値を格納する２以上の先読み値バッファと、
前記距離計算手段が前記距離値を生成している時及び前記先読み手段が前記先読み値を生成している時に、前記距離値バッファに格納されている既に生成された前記距離値及び前記前記先読み値バッファに格納されている既に生成された前記先読み値を用いて単語照合を行って認識結果を生成する単語列照合手段とを備え、
前記距離計算手段は、距離値の書き込みを行っている前記距離値バッファが一杯になった場合、前記距離値バッファを前記先読み手段への引渡し待ちの距離値バッファの末尾に追加し、距離値バッファを新たに確保して処理を継続し、
前記先読み手段は、前記距離値バッファに格納されている距離値から計算した先読み値の書き込みを行っている前記先読み値バッファが一杯になった場合、前記先読み値を生成する前記距離値を格納した前記距離値バッファ及び前記一杯になった前記先読み値バッファを前記単語列照合手段への引渡し待ちの距離値バッファ及び前記先読み値バッファの末尾に追加し、前記世先読み値バッファを新たに確保して処理を継続し、
前記単語列照合手段は、前記引渡し待ちの距離値バッファに格納されている距離値と前記引渡し待ちの先読み値バッファに格納されている先読み値から認識結果を生成し、受け取るバッファがなくなった場合に処理を終了する、
ことを特徴とする音声認識システム。
前記単語列照合手段は、前記距離値バッファ及び前記先読み値バッファ内の処理が終了した際に当該距離値バッファ及び当該先読み値バッファを開放することを特徴とする請求項１に記載の音声認識システム。
順次入力した音声特徴量と各音響モデルとの間の距離値を生成する距離計算手段と、前記距離計算手段で生成される距離値を格納する３以上の距離値バッファと、前記距離計算手段が前記距離値を生成している時に、前記距離値バッファに格納されている既に生成された前記距離値を用いて先読み値を生成する先読み手段と、前記先読み手段で生成される先読み値を格納する２以上の先読み値バッファと、前記距離計算手段が前記距離値を生成している時及び前記先読み手段が前記先読み値を生成している時に、前記距離値バッファに格納されている既に生成された前記距離値及び前記前記先読み値バッファに格納されている既に生成された前記先読み値を用いて単語照合を行って認識結果を生成する単語列照合手段とを備え、
前記距離計算手段により、距離値の書き込みを行っている前記距離値バッファが一杯になった場合、前記距離値バッファを前記先読み手段への引渡し待ちの距離値バッファの末尾に追加し、距離値バッファを新たに確保して処理を継続し、
前記先読み手段により、前記距離値バッファに格納されている距離値から計算した先読み値の書き込みを行っている前記先読み値バッファが一杯になった場合、前記先読み値を生成する前記距離値を格納した前記距離値バッファ及び前記一杯になった前記先読み値バッファを前記単語列照合手段への引渡し待ちの距離値バッファ及び前記先読み値バッファの末尾に追加し、前記世先読み値バッファを新たに確保して処理を継続し、
前記単語列照合手段により、前記引渡し待ちの距離値バッファに格納されている距離値と前記引渡し待ちの先読み値バッファに格納されている先読み値から認識結果を生成し、受け取るバッファがなくなった場合に処理を終了することを特徴とする音声認識方法。
前記単語列照合手段により、前記距離値バッファ及び前記先読み値バッファ内の処理が終了した際に当該距離値バッファ及び当該先読み値バッファを開放することを特徴とする請求項３に記載の音声認識方法。
順次入力した音声特徴量と各音響モデルとの間の距離値を格納する３以上の距離値バッファと、前記距離値を用いて生成される先読み値を格納する２以上の先読み値バッファとを有し、
コンピュータに、
順次入力した音声特徴量と各音響モデルとの間の距離値を生成する機能と、
前記距離値を生成している時に、前記距離値バッファに格納されている既に生成された前記距離値を用いて先読み値を生成する機能と、
前記距離値を生成している時及び前記先読み値を生成している時に、前記距離値バッファに格納されている既に生成された前記距離値及び前記先読み値バッファに格納されている既に生成された前記先読み値を用いて単語照合を行って認識結果を生成する機能と、
前記距離値バッファに前記距離値を格納する際、距離値の書き込みを行っている前記距離値バッファが一杯になった場合、前記距離値バッファを前記先読み手段への引渡し待ちの距離値バッファの末尾に追加し、距離値バッファを新たに確保して処理を継続する機能と、
前記先読みバッファに前記先読み値を格納する際、前記距離値バッファに格納されている距離値から計算した先読み値の書き込みを行っている前記先読み値バッファが一杯になった場合、前記距離値バッファ及び前記先読み値バッファを前記単語列照合手段への引渡し待ちの距離値バッファ及び前記先読み値バッファの末尾に追加し、前記先読み値バッファを新たに確保して処理を継続する機能と、
前記距離値バッファに格納されている距離値と前記先読み値バッファに格納されている先読み値から認識結果を生成し、受け取るバッファがなくなった場合に処理を終了する機能とを実行させることを特徴とする音声認識プログラム。
前記コンピュータに、前記距離値バッファ及び前記先読み値バッファ内の処理が終了した際に当該距離値バッファ及び当該先読み値バッファを開放する機能を実行させることを特徴とする請求項５記載の音声認識プロフラム。