JPH0764589A - 音声認識装置及び方法 - Google Patents
音声認識装置及び方法Info
- Publication number
- JPH0764589A JPH0764589A JP5209094A JP20909493A JPH0764589A JP H0764589 A JPH0764589 A JP H0764589A JP 5209094 A JP5209094 A JP 5209094A JP 20909493 A JP20909493 A JP 20909493A JP H0764589 A JPH0764589 A JP H0764589A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- voice
- noise
- recognition
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【目的】認識装置の使用環境の変化、使用時刻の変化に
対応し、高ノイズ下の音声のパターン変形が著しい条件
下でも高い認識率が得られる音声認識装置を提供するこ
と 【構成】入力された音声データから一連の固定次元特徴
ベクトル抽出し認識用辞書との照合を行ない、類似度の
時系列を求め、この類似度の時系列から入力音声を認識
する一方、背景雑音を収集し、背景雑音のパワーレベル
を測定し、学習用音声データに、背景雑音によるパター
ンを加える学習用音声データを加工し、加工された学習
用音声データを用いて認識辞書の学習を行なう。
対応し、高ノイズ下の音声のパターン変形が著しい条件
下でも高い認識率が得られる音声認識装置を提供するこ
と 【構成】入力された音声データから一連の固定次元特徴
ベクトル抽出し認識用辞書との照合を行ない、類似度の
時系列を求め、この類似度の時系列から入力音声を認識
する一方、背景雑音を収集し、背景雑音のパワーレベル
を測定し、学習用音声データに、背景雑音によるパター
ンを加える学習用音声データを加工し、加工された学習
用音声データを用いて認識辞書の学習を行なう。
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置及び方法
である。
である。
【0002】
【従来の技術】従来より、騒音環境下における音声認識
の基本手法は、入力された音声信号に重畳した雑音信号
をノイス・サブトラクション法(文献:S.F.Boll: "Sup
pression of acoustic noise in speech using spectra
l subtraction", IEEE Trans.Acoust., Speech & Signa
l Process., ASSP-27,2,pp.113-120 (April.1979))等の
手法により除去し、音声信号のみを抽出した後に、音声
の始終端検出を行ない、次いで、始終端間の音声特徴パ
ラメータと音声認識辞書とを照合することにより行なわ
れていた。
の基本手法は、入力された音声信号に重畳した雑音信号
をノイス・サブトラクション法(文献:S.F.Boll: "Sup
pression of acoustic noise in speech using spectra
l subtraction", IEEE Trans.Acoust., Speech & Signa
l Process., ASSP-27,2,pp.113-120 (April.1979))等の
手法により除去し、音声信号のみを抽出した後に、音声
の始終端検出を行ない、次いで、始終端間の音声特徴パ
ラメータと音声認識辞書とを照合することにより行なわ
れていた。
【0003】しかし、ノイス・サブトラクション法は、
背景雑音の各周波数帯域の平均パワーレベルを入力音声
信号から差し引くだけであるため、白色雑音等のような
定常的な雑音が付加し、かつSN比が高い音声について
は、ある程度有効であるが、非定常な雑音やSN比の低
い音声についてはあまり効果がなく、音声認識装置の実
用上大きな問題となっていた。
背景雑音の各周波数帯域の平均パワーレベルを入力音声
信号から差し引くだけであるため、白色雑音等のような
定常的な雑音が付加し、かつSN比が高い音声について
は、ある程度有効であるが、非定常な雑音やSN比の低
い音声についてはあまり効果がなく、音声認識装置の実
用上大きな問題となっていた。
【0004】このため、雑音の重畳した入力音声から、
雑音成分を除去するのではなく、認識辞書に雑音による
パターン変形をもたせる手法も提案されている。この手
法は、あらかじめクリーンな音声のデータベースと、雑
音のデータベースを別個に用意し、SN比を徐々に低減
させながら、雑音の重畳した学習用音声データを人工的
に生成し、音声の始終端の検出を行なわずに、始終端非
固定の連続照合により、学習用パターンを抽出し、認識
辞書の学習を行なうものである( 文献:竹林、金澤:”
ワードスポッティングによる音声認識における雑音免疫
学習”, 電子情報通信学会論文誌(D-II),Vol.J74-D-II,
No.2,pp.121-129 (1991.Feb), 及び特開平2ー2384
95号公報を参照)。
雑音成分を除去するのではなく、認識辞書に雑音による
パターン変形をもたせる手法も提案されている。この手
法は、あらかじめクリーンな音声のデータベースと、雑
音のデータベースを別個に用意し、SN比を徐々に低減
させながら、雑音の重畳した学習用音声データを人工的
に生成し、音声の始終端の検出を行なわずに、始終端非
固定の連続照合により、学習用パターンを抽出し、認識
辞書の学習を行なうものである( 文献:竹林、金澤:”
ワードスポッティングによる音声認識における雑音免疫
学習”, 電子情報通信学会論文誌(D-II),Vol.J74-D-II,
No.2,pp.121-129 (1991.Feb), 及び特開平2ー2384
95号公報を参照)。
【0005】しかし、実環境での背景雑音は非定常信号
であり、その周波数成分は時々刻々と変化するため、雑
音のデータベースに格納された雑音データの周波数パタ
ーンと、認識装置の使用時の雑音の周波数パターンは異
なってくる。従って、上述した雑音免疫学習でも、あら
かじめ収集した雑音データを用いて認識辞書の学習を行
なったのでは、認識装置の使用時の雑音によるパターン
変形を十分に吸収できないため、特にSN比が低い場合
には性能が低下するという問題があり、その問題を解決
する有力な方式がなかった。
であり、その周波数成分は時々刻々と変化するため、雑
音のデータベースに格納された雑音データの周波数パタ
ーンと、認識装置の使用時の雑音の周波数パターンは異
なってくる。従って、上述した雑音免疫学習でも、あら
かじめ収集した雑音データを用いて認識辞書の学習を行
なったのでは、認識装置の使用時の雑音によるパターン
変形を十分に吸収できないため、特にSN比が低い場合
には性能が低下するという問題があり、その問題を解決
する有力な方式がなかった。
【0006】
【発明が解決しようとする課題】上述したように、従来
の音声認識装置では、認識装置の使用環境の変化、使用
時刻の変化に十分対応できず、また、SN比の低い音声
データについても十分な認識性能が得られなかった。
の音声認識装置では、認識装置の使用環境の変化、使用
時刻の変化に十分対応できず、また、SN比の低い音声
データについても十分な認識性能が得られなかった。
【0007】そこで、本発明は、認識装置の使用環境の
変化、使用時刻の変化に対応し、高ノイズ下等の音声の
パターン変形が著しい条件下でも高い認識率が得られる
音声認識装置及び方法を提供することを目的とする。
変化、使用時刻の変化に対応し、高ノイズ下等の音声の
パターン変形が著しい条件下でも高い認識率が得られる
音声認識装置及び方法を提供することを目的とする。
【0008】
【課題を解決するための手段】上記課題を解決する本発
明では、入力された音声データを分析し、特徴パラメー
タの時系列を求め、求められた特徴パラメータの時系列
のうちから、順次選択されて抽出された一連の固定次元
特徴ベクトルと認識用辞書との照合を行ない、類似度の
時系列を求め、求められた類似度の時系列から入力音声
を認識し、認識を行う背景雑音を収集し、収集した背景
雑音によるパターンを学習用音声データに加え、加工さ
れた学習用音声データを用いて、認識辞書の学習を行な
うことを特徴とするものである。
明では、入力された音声データを分析し、特徴パラメー
タの時系列を求め、求められた特徴パラメータの時系列
のうちから、順次選択されて抽出された一連の固定次元
特徴ベクトルと認識用辞書との照合を行ない、類似度の
時系列を求め、求められた類似度の時系列から入力音声
を認識し、認識を行う背景雑音を収集し、収集した背景
雑音によるパターンを学習用音声データに加え、加工さ
れた学習用音声データを用いて、認識辞書の学習を行な
うことを特徴とするものである。
【0009】
【作用】本発明では、背景雑音データを常時収集し、利
用者による音声入力の直前までの雑音データを用いて、
認識辞書の学習が行なえるので、音声認識辞書の使用環
境、使用時刻の雑音によるパターン変形に対して、安定
に動作する高性能の音声認識が実現できる。
用者による音声入力の直前までの雑音データを用いて、
認識辞書の学習が行なえるので、音声認識辞書の使用環
境、使用時刻の雑音によるパターン変形に対して、安定
に動作する高性能の音声認識が実現できる。
【0010】
【実施例】以下、本発明の一実施例を説明する。図1
は、本発明の一実施例に係る音声認識装置の構成を示す
ブロック図である。この装置は、認識部1と学習部2の
2つの部分に大別され、音声認識モードと学習モードの
両モードで動作する。
は、本発明の一実施例に係る音声認識装置の構成を示す
ブロック図である。この装置は、認識部1と学習部2の
2つの部分に大別され、音声認識モードと学習モードの
両モードで動作する。
【0011】まず、音声認識モードでの処理について説
明する。音声認識モードの場合、入力音声はマイクロフ
ォンを通して音声入力部3に送られ、音声分析部4でF
FT、フィルタ分析、LPC分析などの処理により、音
声パターンが抽出される。例えば、8ms毎の16次元の
フィルタ出力について考えると、抽出された音声パター
ンは8msのフレーム周期毎に始終端非固定連続パターン
照合部5に送られ、音声認識辞書部9に格納された単語
認識辞書との照合が図2のように行なわれる。
明する。音声認識モードの場合、入力音声はマイクロフ
ォンを通して音声入力部3に送られ、音声分析部4でF
FT、フィルタ分析、LPC分析などの処理により、音
声パターンが抽出される。例えば、8ms毎の16次元の
フィルタ出力について考えると、抽出された音声パター
ンは8msのフレーム周期毎に始終端非固定連続パターン
照合部5に送られ、音声認識辞書部9に格納された単語
認識辞書との照合が図2のように行なわれる。
【0012】すなわち、図2において、ある時刻tiを
始終端非固定連続パターン照合に用いられる単語特徴ベ
クトルの終端点と仮定して、その終端点に対する始端候
補区間を各単語の継続時間の最大値、最小値から求め
る。次に、始端候補区間内の各々の点と、終端点tiか
ら複数の単語特徴ベクトルを抽出し、各単語特徴ベクト
ルと単語辞書を照合し、類似度値を求める。ここで、特
徴ベクトルの時間軸方向のサンプル点数は例えば12点
とすると、周波数軸16、時間軸12の16×12=1
92次元ベクトルとなる。上記の単語終端時刻tiを順
次時間軸に沿って1フレームずつ移動しながら各単語毎
に、特徴ベクトルを抽出し類似度演算を行ない、類似度
時系列を求めるわけである。
始終端非固定連続パターン照合に用いられる単語特徴ベ
クトルの終端点と仮定して、その終端点に対する始端候
補区間を各単語の継続時間の最大値、最小値から求め
る。次に、始端候補区間内の各々の点と、終端点tiか
ら複数の単語特徴ベクトルを抽出し、各単語特徴ベクト
ルと単語辞書を照合し、類似度値を求める。ここで、特
徴ベクトルの時間軸方向のサンプル点数は例えば12点
とすると、周波数軸16、時間軸12の16×12=1
92次元ベクトルとなる。上記の単語終端時刻tiを順
次時間軸に沿って1フレームずつ移動しながら各単語毎
に、特徴ベクトルを抽出し類似度演算を行ない、類似度
時系列を求めるわけである。
【0013】ここで、パターン照合の際に用いる類似度
として、複合類似度や、マハラノビス距離などがある
が、複合類似度の場合、例えば192次元の単語特徴ベ
クトルと単語l との類似度値S(l)は、
として、複合類似度や、マハラノビス距離などがある
が、複合類似度の場合、例えば192次元の単語特徴ベ
クトルと単語l との類似度値S(l)は、
【0014】
【数1】
【0015】判定部6では、始終端非固定連続パターン
照合により、求められた類似度時系列から最大類似度
で、かつしきい値を越えた単語を認識結果として、認識
結果出力部7から出力する。同時に最大類似度を与えた
単語特徴ベクトルの始終端点を、単語の始終端点とす
る。また、類似度時系列の計算方法及び類似度時系列を
用いた認識の方法は、上記の方法以外にも種々の方法が
あるが、ここでは触れない。
照合により、求められた類似度時系列から最大類似度
で、かつしきい値を越えた単語を認識結果として、認識
結果出力部7から出力する。同時に最大類似度を与えた
単語特徴ベクトルの始終端点を、単語の始終端点とす
る。また、類似度時系列の計算方法及び類似度時系列を
用いた認識の方法は、上記の方法以外にも種々の方法が
あるが、ここでは触れない。
【0016】次に、本発明の特徴である学習モード時の
動作を図4のフローチャートを用いて説明する。また、
図1中の学習用音声データ加工部12の詳細な構成図を
図3に示す。
動作を図4のフローチャートを用いて説明する。また、
図1中の学習用音声データ加工部12の詳細な構成図を
図3に示す。
【0017】学習に際して、学習用音声データを、学習
用音声データファイル上の音声データと雑音データファ
イル上の雑音データを用いて、人工的に生成するが、こ
こで、用いる雑音データはあらかじめ、収集したもので
はなく、認識装置を使用する環境での雑音をマイクから
常時収集したものである。即ち、実環境における雑音
は、非定常雑音であり、あらかじめ収集した雑音と、認
識装置を使用する際の雑音とは環境、収集時刻も異なる
ため、オンラインで収集した雑音データを学習に用いる
ことにより、非定常成分を認識辞書に取り込むことが、
本例の最大の特徴である。
用音声データファイル上の音声データと雑音データファ
イル上の雑音データを用いて、人工的に生成するが、こ
こで、用いる雑音データはあらかじめ、収集したもので
はなく、認識装置を使用する環境での雑音をマイクから
常時収集したものである。即ち、実環境における雑音
は、非定常雑音であり、あらかじめ収集した雑音と、認
識装置を使用する際の雑音とは環境、収集時刻も異なる
ため、オンラインで収集した雑音データを学習に用いる
ことにより、非定常成分を認識辞書に取り込むことが、
本例の最大の特徴である。
【0018】認識装置の使用環境の背景雑音が、雑音入
力部19に入力されると、その雑音データは雑音データ
ファイル21に格納されるとともに、雑音レベル測定部
20に入力され、背景雑音のパワーレベルが測定され
る。雑音データファイル21には、固定長の雑音データ
が格納され、ある時間を経過した雑音データは順次廃棄
される。
力部19に入力されると、その雑音データは雑音データ
ファイル21に格納されるとともに、雑音レベル測定部
20に入力され、背景雑音のパワーレベルが測定され
る。雑音データファイル21には、固定長の雑音データ
が格納され、ある時間を経過した雑音データは順次廃棄
される。
【0019】また、学習用音声データファイル10に格
納された音声データは、入力音声レベル測定部11に入
力され、単語毎にその平均パワーレベルが計算される。
そして、上述した音声データ、雑音データおよびそれぞ
れのパワーレベル値が学習用音声データ加工部12に入
力され、人工的に雑音を重畳した学習用音声データが生
成される。
納された音声データは、入力音声レベル測定部11に入
力され、単語毎にその平均パワーレベルが計算される。
そして、上述した音声データ、雑音データおよびそれぞ
れのパワーレベル値が学習用音声データ加工部12に入
力され、人工的に雑音を重畳した学習用音声データが生
成される。
【0020】学習用音声データ加工部12における処理
の流れを図3、5を用いて説明する。学習用音声データ
加工部12では、入力された単語毎の音声データのパワ
ーレベル値および雑音データのパワーレベル値を用い
て、使用環境において雑音が重畳した場合の各単語のS
N比を計算する。ここでは、説明のため、ある単語につ
いて算出したSN比が10d Bであったと仮定すると、
このSN比に基づき、図6に示すような各学習回におけ
る学習用雑音データのSN比を求める。認識辞書の学習
は、雑音免疫学習により、行なうがこの方法では認識辞
書の信頼性を上げるために、学習の進展に伴い、学習用
音声データを生成する際のSN比を徐々に低減させるこ
とにより、学習用単語特徴ベクトルの抽出精度の向上を
はかっている。本例では、単語毎に算出したSN比を示
す音声について最も認識性能が向上するよう、学習時の
SN比の低減方法の調整を行なう。
の流れを図3、5を用いて説明する。学習用音声データ
加工部12では、入力された単語毎の音声データのパワ
ーレベル値および雑音データのパワーレベル値を用い
て、使用環境において雑音が重畳した場合の各単語のS
N比を計算する。ここでは、説明のため、ある単語につ
いて算出したSN比が10d Bであったと仮定すると、
このSN比に基づき、図6に示すような各学習回におけ
る学習用雑音データのSN比を求める。認識辞書の学習
は、雑音免疫学習により、行なうがこの方法では認識辞
書の信頼性を上げるために、学習の進展に伴い、学習用
音声データを生成する際のSN比を徐々に低減させるこ
とにより、学習用単語特徴ベクトルの抽出精度の向上を
はかっている。本例では、単語毎に算出したSN比を示
す音声について最も認識性能が向上するよう、学習時の
SN比の低減方法の調整を行なう。
【0021】図6は、上述したSN10d Bの場合の、
SN比の低減方法の一例である。ここでは、SN無限大
d B、SN40d B、SN30d B、SN20d B、S
N15d Bまでは、各3ずつ学習を行ない、SN10d
Bでは5回、SN5d Bでは5回の学習を行ない、SN
10d B前後の雑音重畳音声データを大量に学習に用い
るようにする。つまり、あらかじめ単語毎に算出したS
N比近傍のSN比をもつ学習用音声データを大量に学習
に用いることにより、入力音声に対する認識精度の向上
をはかるわけである。
SN比の低減方法の一例である。ここでは、SN無限大
d B、SN40d B、SN30d B、SN20d B、S
N15d Bまでは、各3ずつ学習を行ない、SN10d
Bでは5回、SN5d Bでは5回の学習を行ない、SN
10d B前後の雑音重畳音声データを大量に学習に用い
るようにする。つまり、あらかじめ単語毎に算出したS
N比近傍のSN比をもつ学習用音声データを大量に学習
に用いることにより、入力音声に対する認識精度の向上
をはかるわけである。
【0022】なお、図6に示した学習回数とSN比の関
係は一例であって、この例に限定されるものではない。
要するに、SN比を徐々に低減させながら、算出したS
N比前後の音声データを最も多く学習に用いて、使用環
境におけるSN比と同様の状態で高い認識性能を得る認
識辞書を作成することにある。
係は一例であって、この例に限定されるものではない。
要するに、SN比を徐々に低減させながら、算出したS
N比前後の音声データを最も多く学習に用いて、使用環
境におけるSN比と同様の状態で高い認識性能を得る認
識辞書を作成することにある。
【0023】次に、図7中の曲線(2)に示すように、
学習に用いる学習データの時刻毎の重みをかえ、認識時
刻において、高い認識性能を得るための辞書を作成す
る。ここでは、認識辞書への音声入力を行なう時刻を基
準とし、その時点までの雑音データを学習に用いるが、
認識開始時刻に近い時刻の雑音データをより多く用い、
その時点から離れるに従い、利用する度合いを小さくし
ていく。このようにすることにより、認識開始時刻の雑
音に近い雑音データを認識辞書に、より多く取り込むこ
とができ、認識性能の向上が期待できる。学習に用いる
雑音データの範囲を図8に示す。この例では、音声デー
タに付加する雑音データの時間帯を示している。認識開
始時刻に近づくにつれて、雑音データ間の時間を短くす
ることにより、より多くの雑音データを用いるようにす
る。
学習に用いる学習データの時刻毎の重みをかえ、認識時
刻において、高い認識性能を得るための辞書を作成す
る。ここでは、認識辞書への音声入力を行なう時刻を基
準とし、その時点までの雑音データを学習に用いるが、
認識開始時刻に近い時刻の雑音データをより多く用い、
その時点から離れるに従い、利用する度合いを小さくし
ていく。このようにすることにより、認識開始時刻の雑
音に近い雑音データを認識辞書に、より多く取り込むこ
とができ、認識性能の向上が期待できる。学習に用いる
雑音データの範囲を図8に示す。この例では、音声デー
タに付加する雑音データの時間帯を示している。認識開
始時刻に近づくにつれて、雑音データ間の時間を短くす
ることにより、より多くの雑音データを用いるようにす
る。
【0024】ところで、上述した認識開始時刻は、たと
えば、マイクにつけた距離センサーなどにより、利用者
がマイクに近づくのを感知した時刻にしてもよいし、認
識装置の動作開始スイッチを圧力センサー付きのマット
にして、利用者がマットにのった時刻にしてもよい。ま
た、始終端非固定連続パターン照合を行なう前に、入力
信号のパワー情報や周波数分析結果を用いて、音声の始
端検出を行ない、音声が入力されたと判定された時点に
してもよい。
えば、マイクにつけた距離センサーなどにより、利用者
がマイクに近づくのを感知した時刻にしてもよいし、認
識装置の動作開始スイッチを圧力センサー付きのマット
にして、利用者がマットにのった時刻にしてもよい。ま
た、始終端非固定連続パターン照合を行なう前に、入力
信号のパワー情報や周波数分析結果を用いて、音声の始
端検出を行ない、音声が入力されたと判定された時点に
してもよい。
【0025】上述したように、学習用音声データのSN
比及び学習に用いる雑音データの時刻を制御して、人工
的に雑音を重畳した音声データを生成し、音声分析部1
3を介して、認識部へ出力する。認識部では、音声認識
モードの時と同様に、始終端非固定連続パターン照合部
14において単語認識辞書と照合し、類似度値を判定部
へ送る。そして、学習用音声特徴ベクトル抽出部18
で、学習用音声パターンの認識結果および類似度値を用
いて、類似度が最大となる特徴ベクトルを求めて、これ
を、学習用特徴ベクトルとして、音声認識辞書学習部1
7へ送る。音声認識辞書学習部17では、複合類似度法
の場合、各単語毎の共分散行列を更新し、しかる後、K
L展開(主成分分析)して、固有ベクトルなどを求め、
これを新しい音声認識辞書として、音声認識辞書部へ格
納し、認識処理時に用いる。
比及び学習に用いる雑音データの時刻を制御して、人工
的に雑音を重畳した音声データを生成し、音声分析部1
3を介して、認識部へ出力する。認識部では、音声認識
モードの時と同様に、始終端非固定連続パターン照合部
14において単語認識辞書と照合し、類似度値を判定部
へ送る。そして、学習用音声特徴ベクトル抽出部18
で、学習用音声パターンの認識結果および類似度値を用
いて、類似度が最大となる特徴ベクトルを求めて、これ
を、学習用特徴ベクトルとして、音声認識辞書学習部1
7へ送る。音声認識辞書学習部17では、複合類似度法
の場合、各単語毎の共分散行列を更新し、しかる後、K
L展開(主成分分析)して、固有ベクトルなどを求め、
これを新しい音声認識辞書として、音声認識辞書部へ格
納し、認識処理時に用いる。
【0026】上述した学習処理は、認識開始時刻が検出
される毎に実行される。本例によれば、実際に音声認識
装置を利用する環境を、辞書設計の際に模擬して、認識
辞書を自動的に設計できるので、その効果は大である。
される毎に実行される。本例によれば、実際に音声認識
装置を利用する環境を、辞書設計の際に模擬して、認識
辞書を自動的に設計できるので、その効果は大である。
【0027】上述した実施例では、認識モードと学習モ
ードに区別して説明したが、認識処理、学習処理ともに
常時動作する場合の処理を以下に、説明する。この場合
には、認識部では、常時入力信号の取り込みを行ない、
音声入力部3、音声分析部4を経て、始終端非固定連続
パターン照合が行なわれ、上述した認識処理が実行され
る。
ードに区別して説明したが、認識処理、学習処理ともに
常時動作する場合の処理を以下に、説明する。この場合
には、認識部では、常時入力信号の取り込みを行ない、
音声入力部3、音声分析部4を経て、始終端非固定連続
パターン照合が行なわれ、上述した認識処理が実行され
る。
【0028】また、音声検出部で常時取り込んだ入力信
号から入力音声開始時刻が検出される。ここでは、例え
ば入力信号のパワーや音声分析結果等を用いて音声開始
時刻を検出する。音声開始時刻が検出された時点で、そ
の情報が学習制御部へ送られ、上述したように、雑音デ
ータの利用の度合いを制御した学習用音声データ生成処
理が実行され、音声認識処理の学習が実行される。
号から入力音声開始時刻が検出される。ここでは、例え
ば入力信号のパワーや音声分析結果等を用いて音声開始
時刻を検出する。音声開始時刻が検出された時点で、そ
の情報が学習制御部へ送られ、上述したように、雑音デ
ータの利用の度合いを制御した学習用音声データ生成処
理が実行され、音声認識処理の学習が実行される。
【0029】また、音声開始時刻が検出されない場合で
も、学習処理は実行される。この場合には、学習用音声
データ加工部で用いる雑音データの時刻は、図7の
(1)に示した重み付けをして学習に供する。すなわち
時刻にかかわらず、ある一定の割合で収集した雑音デー
タを用い、学習用音声データを生成して認識辞書の学習
を行ない、収集した雑音のパターン変形を、認識辞書に
取り込む。
も、学習処理は実行される。この場合には、学習用音声
データ加工部で用いる雑音データの時刻は、図7の
(1)に示した重み付けをして学習に供する。すなわち
時刻にかかわらず、ある一定の割合で収集した雑音デー
タを用い、学習用音声データを生成して認識辞書の学習
を行ない、収集した雑音のパターン変形を、認識辞書に
取り込む。
【0030】こうして、音声認識辞書を基に、音声開始
時刻が検出された時点で、上述した学習をリアルタイム
に行ない、認識処理に用いる。従って、学習された新し
い音声認識辞書は音声入力検出部で音声開始時刻が検出
された後、始終端非固定連続パターン照合が行なわれる
以前に、学習前の音声認識辞書と交換され、始終端非固
定連続パターン照合において用いられる。
時刻が検出された時点で、上述した学習をリアルタイム
に行ない、認識処理に用いる。従って、学習された新し
い音声認識辞書は音声入力検出部で音声開始時刻が検出
された後、始終端非固定連続パターン照合が行なわれる
以前に、学習前の音声認識辞書と交換され、始終端非固
定連続パターン照合において用いられる。
【0031】実際の騒音環境下で、上述した認識辞書の
学習をリアルタイムで行なうには、波数分析、ワードス
ポッティング、KL展開などに大量の計算を要するが、
並列計算機を利用することにより、実現可能である。す
なわち、図9に示したように、学習用音声データ生成処
理は、音声データ毎に独立な処理であるから、音声デー
タ毎に別処理を行なえば、並列化が可能である。
学習をリアルタイムで行なうには、波数分析、ワードス
ポッティング、KL展開などに大量の計算を要するが、
並列計算機を利用することにより、実現可能である。す
なわち、図9に示したように、学習用音声データ生成処
理は、音声データ毎に独立な処理であるから、音声デー
タ毎に別処理を行なえば、並列化が可能である。
【0032】また、学習用単語特徴ベクトル抽出のため
のワードスポッティング処理で行なわれる類似度演算処
理も、単語特徴ベクトル毎に独立であるから、並列処理
可能である。
のワードスポッティング処理で行なわれる類似度演算処
理も、単語特徴ベクトル毎に独立であるから、並列処理
可能である。
【0033】並列処理による処理時間を計算すると、以
下のようになる。なお、1つの音声データに対する学習
用音声データ生成および周波数分析にかかる時間はワー
ドスポッティング処理に比べて非常に短いため、計算上
無視すると、処理時間のオーダーは、並列処理を行なっ
た場合、O(M)、並列処理を行なわない場合、O(N
*P*M)となる。ここで、Mは1つの単語特徴ベクト
ルの類似度演算に要する時間、Nは学習用音声データ
数、Pは1データあたりのワードスポッティングでの類
似度演算用単語特徴ベクトル数である。
下のようになる。なお、1つの音声データに対する学習
用音声データ生成および周波数分析にかかる時間はワー
ドスポッティング処理に比べて非常に短いため、計算上
無視すると、処理時間のオーダーは、並列処理を行なっ
た場合、O(M)、並列処理を行なわない場合、O(N
*P*M)となる。ここで、Mは1つの単語特徴ベクト
ルの類似度演算に要する時間、Nは学習用音声データ
数、Pは1データあたりのワードスポッティングでの類
似度演算用単語特徴ベクトル数である。
【0034】したがって、例えば、学習用音声データが
10,000データ、ワードスポッティングでの類似度
演算用単語特徴ベクトル数が1,000の場合、上述し
た学習用音声データ生成および周波数分析、ワードスポ
ッティング処理が完全に並列化されると、処理時間は約
1/10,000,000となる。
10,000データ、ワードスポッティングでの類似度
演算用単語特徴ベクトル数が1,000の場合、上述し
た学習用音声データ生成および周波数分析、ワードスポ
ッティング処理が完全に並列化されると、処理時間は約
1/10,000,000となる。
【0035】これは、従来5日間(432,000秒)
かかっていた学習処理が、0.0432秒で終了するこ
とを示しており、認識開始時刻で並列処理を利用したリ
アルタイムの学習が可能となる。
かかっていた学習処理が、0.0432秒で終了するこ
とを示しており、認識開始時刻で並列処理を利用したリ
アルタイムの学習が可能となる。
【0036】本発明は、音声認識装置の使用環境の背景
雑音を常時収集し、認識開始時刻を検知した時点で、そ
の雑音データを用いて、S/Nおよび雑音データの時刻
を制御して学習用音声データを生成し、認識辞書の学習
を行なうため、実際に音声認識装置を使用する場所、時
刻での背景雑音によるパターン変形を認識辞書の中にと
りこむことができ、認識率が向上できる。
雑音を常時収集し、認識開始時刻を検知した時点で、そ
の雑音データを用いて、S/Nおよび雑音データの時刻
を制御して学習用音声データを生成し、認識辞書の学習
を行なうため、実際に音声認識装置を使用する場所、時
刻での背景雑音によるパターン変形を認識辞書の中にと
りこむことができ、認識率が向上できる。
【0037】また、上記実施例では、ある一つの音声認
識装置を使用する環境における学習処理について説明し
たが、使用環境が様々に変わる場合には、その環境毎に
認識辞書を作成しておき、使用する環境に適した認識辞
書を基に、学習処理を行なうようにすることも可能であ
る。さらに、一つの環境でも、時刻によって、雑音のパ
ターンが変化する場合には、時刻毎の認識辞書を用意
し、実際に音声認識装置を使用する時刻に相当する認識
辞書を基に、学習を開始するようにしてもよい。
識装置を使用する環境における学習処理について説明し
たが、使用環境が様々に変わる場合には、その環境毎に
認識辞書を作成しておき、使用する環境に適した認識辞
書を基に、学習処理を行なうようにすることも可能であ
る。さらに、一つの環境でも、時刻によって、雑音のパ
ターンが変化する場合には、時刻毎の認識辞書を用意
し、実際に音声認識装置を使用する時刻に相当する認識
辞書を基に、学習を開始するようにしてもよい。
【0038】また、利用形態としては、例えば、ユーザ
自身は、雑音データ収集および音声入力のためのマイク
ロフォンおよび収集したデータを中央の並列計算機に無
線などで転送する装置のみを持ち、実際の認識処理ある
いは学習処理は中央の並列計算機で行なうといった形態
や、将来高速な並列計算機が小型化されるようになった
場合にはユーザの持つ装置はすべての処理を行なうよう
にするといった形態が可能である。
自身は、雑音データ収集および音声入力のためのマイク
ロフォンおよび収集したデータを中央の並列計算機に無
線などで転送する装置のみを持ち、実際の認識処理ある
いは学習処理は中央の並列計算機で行なうといった形態
や、将来高速な並列計算機が小型化されるようになった
場合にはユーザの持つ装置はすべての処理を行なうよう
にするといった形態が可能である。
【0039】また、上記実施例では、不特定話者を対象
とし、予め収集した音声データベースを用いて学習用音
声データを生成することとしたが、特定話者の場合にも
対応可能である。
とし、予め収集した音声データベースを用いて学習用音
声データを生成することとしたが、特定話者の場合にも
対応可能である。
【0040】この場合には、予め収集した音声データベ
ース中の特定話者の音声データのみを用いたり、あるい
は認識時に発声した音声データを認識結果とともに、音
声データベースに格納して、認識辞書の学習に使用する
ことも可能である。本発明は上記実施例に限定されるも
のではなく、適宜の設計的変更を行なうことにより、こ
の他適宜の態様で実施しうるものである。
ース中の特定話者の音声データのみを用いたり、あるい
は認識時に発声した音声データを認識結果とともに、音
声データベースに格納して、認識辞書の学習に使用する
ことも可能である。本発明は上記実施例に限定されるも
のではなく、適宜の設計的変更を行なうことにより、こ
の他適宜の態様で実施しうるものである。
【0041】
【発明の効果】以上のとおり、本発明は、背景雑音デー
タを常時収集し、利用者による音声入力の直前までの雑
音データを用いて、認識辞書の学習が行なえるので、音
声認識辞書の使用環境、使用時刻の雑音によるパターン
変形に対して、安定に動作する高い認識率を達成する音
声認識が実現できる。
タを常時収集し、利用者による音声入力の直前までの雑
音データを用いて、認識辞書の学習が行なえるので、音
声認識辞書の使用環境、使用時刻の雑音によるパターン
変形に対して、安定に動作する高い認識率を達成する音
声認識が実現できる。
【図1】本発明の一実施例に係る音声認識装置のブロッ
ク図
ク図
【図2】始終端非固定連続パターン照合部での処理を示
す説明図
す説明図
【図3】学習用音声データ加工部の詳細なブロック図
【図4】学習処理のフローチャート
【図5】学習用音声データ加工部の処理のフローチャー
ト
ト
【図6】学習時のSN比設定法の一例を示す図
【図7】学習用音声データ生成時の雑音データの時刻と
使用頻度の関係を示す概念図
使用頻度の関係を示す概念図
【図8】学習用音声データ生成時に使用する雑音データ
の時刻の一例を示す図
の時刻の一例を示す図
【図9】学習処理の並列化を説明する模式図
1認識部 2学習部
Claims (5)
- 【請求項1】音声データを入力する入力手段と、 入力された音声データを分析し、特徴パラメータの時系
列を求める分析手段と、 この分析手段により求められた特徴パラメータの時系列
のうちから、順次選択されて抽出された一連の固定次元
特徴ベクトルと認識用辞書との照合を行ない、類似度の
時系列を求める照合手段と、 この照合手段により求められた類似度の時系列から入力
音声を認識する判定手段と、 学習用音声データを格納する手段と、 背景雑音を収集する手段と、 前記学習用音声データに、前記背景雑音によるパターン
を加える学習用音声データ加工手段と、 この加工手段により加工された学習用音声データを用い
て、認識辞書の学習を行なう手段を具備したことを特徴
とする音声認識装置。 - 【請求項2】請求項1記載の背景雑音を収集する手段
は、入力音声を認識する際の使用環境および使用するま
での時刻の背景雑音を収集してなることを特徴とする音
声認識装置。 - 【請求項3】請求項1記載の認識辞書の学習は、繰り返
し行なわれ、学習の進展に伴い、学習用音声データ加工
の際に、背景雑音と学習用音声データのレベルを用いて
算出したSN比(信号対雑音比)近傍まで徐々に低減さ
せることを特徴とする音声認識装置。 - 【請求項4】音声データを入力し、 入力された音声データを分析し、特徴パラメータの時系
列を求め、 求められた特徴パラメータの時系列から、順次選択され
て抽出された一連の固定次元特徴ベクトルと認識用辞書
との照合を行ない、類似度の時系列を求め、 求められた類似度の時系列から入力音声を認識し、 雑音データを所定の重み付けをもって収集し、 収集された雑音データに予め用意された音声データを加
え加工し、 加工された音声データを用いて、認識辞書の学習を行な
うことを特徴とする音声認識方法。 - 【請求項5】請求項4記載の雑音データを収集する際の
所定の重み付けは、クリーンな音声に付加する雑音デー
タの時間帯を変化させ、入力音声を認識する時刻に近い
雑音データを多く用い、時刻から離れるに従い利用する
度合を低下させるように重み付けすることを特徴とする
音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20909493A JP3283971B2 (ja) | 1993-08-24 | 1993-08-24 | 音声認識方法 |
US08/295,170 US5761639A (en) | 1989-03-13 | 1994-08-24 | Method and apparatus for time series signal recognition with signal variation proof learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20909493A JP3283971B2 (ja) | 1993-08-24 | 1993-08-24 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0764589A true JPH0764589A (ja) | 1995-03-10 |
JP3283971B2 JP3283971B2 (ja) | 2002-05-20 |
Family
ID=16567191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20909493A Expired - Fee Related JP3283971B2 (ja) | 1989-03-13 | 1993-08-24 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3283971B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100429896B1 (ko) * | 2001-11-22 | 2004-05-03 | 한국전자통신연구원 | 잡음 환경에서의 음성신호 검출방법 및 그 장치 |
JP2004325897A (ja) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
JP2023549975A (ja) * | 2020-11-24 | 2023-11-29 | グーグル エルエルシー | 実世界ノイズを使用した音声個性化および連合訓練 |
-
1993
- 1993-08-24 JP JP20909493A patent/JP3283971B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100429896B1 (ko) * | 2001-11-22 | 2004-05-03 | 한국전자통신연구원 | 잡음 환경에서의 음성신호 검출방법 및 그 장치 |
JP2004325897A (ja) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
JP2023549975A (ja) * | 2020-11-24 | 2023-11-29 | グーグル エルエルシー | 実世界ノイズを使用した音声個性化および連合訓練 |
Also Published As
Publication number | Publication date |
---|---|
JP3283971B2 (ja) | 2002-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
JPH02238495A (ja) | 時系列信号認識装置 | |
Demircan et al. | Feature extraction from speech data for emotion recognition | |
JP3045510B2 (ja) | 音声認識処理装置 | |
CN106601230B (zh) | 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统 | |
US5761639A (en) | Method and apparatus for time series signal recognition with signal variation proof learning | |
US9799333B2 (en) | System and method for processing speech to identify keywords or other information | |
EP0831456A3 (en) | Speech recognition method and apparatus therefor | |
JPH0352640B2 (ja) | ||
JPH0816187A (ja) | 音声分析における音声認識方法 | |
CN108335699A (zh) | 一种基于动态时间规整和语音活动检测的声纹识别方法 | |
JPS6128998B2 (ja) | ||
Anggraeni et al. | Control of robot arm based on speech recognition using Mel-Frequency Cepstrum Coefficients (MFCC) and K-Nearest Neighbors (KNN) method | |
US5487129A (en) | Speech pattern matching in non-white noise | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
Kumar et al. | Improving the performance of speech recognition feature selection using northern goshawk optimization | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
Krishna et al. | Emotion recognition using dynamic time warping technique for isolated words | |
US5295190A (en) | Method and apparatus for speech recognition using both low-order and high-order parameter analyzation | |
JP3283971B2 (ja) | 音声認識方法 | |
Rao et al. | Glottal excitation feature based gender identification system using ergodic HMM | |
CN114155882B (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
Stouten et al. | Joint removal of additive and convolutional noise with model-based feature enhancement | |
Backer et al. | Horn and whistle recognition techniques for nao robots | |
Nijhawan et al. | A comparative study of two different neural models for speaker recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |