JP2003177783A - 音声認識装置、音声認識方式及び音声認識プログラム - Google Patents
音声認識装置、音声認識方式及び音声認識プログラムInfo
- Publication number
- JP2003177783A JP2003177783A JP2001376615A JP2001376615A JP2003177783A JP 2003177783 A JP2003177783 A JP 2003177783A JP 2001376615 A JP2001376615 A JP 2001376615A JP 2001376615 A JP2001376615 A JP 2001376615A JP 2003177783 A JP2003177783 A JP 2003177783A
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- time series
- average value
- feature vector
- vector time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
音声認識装置において、乗算性ノイズの推定の精度によ
らず、不特定話者および不特定環境における良好な認識
性能を提供する。 【解決手段】補正前の特徴ベクトル時系列に対する補正
前音声標準パターンの尤度と補正後の特徴ベクトル時系
列に対する補正後音声標準パターンの尤度とをそれぞれ
求め、これら補正前音声標準パターンの尤度と補正後音
声標準パターンの尤度とを合成した尤度に基づく音声認
識処理を行う。
Description
特定環境における良好な音声認識性能を提供する音声認
識装置、音声認識方法及び音声認識プログラムに関す
る。
特定環境における音声認識装置においては学習時と認識
時の話者および環境が異なることによる変動があるた
め、認識時に認識性能が低下することがある。ここで、
話者および環境が異なることによる変動の要因として、
音声入力に用いられるマイクの種類や設置位置の違いに
よる影響、アナログ回路の伝達特性による影響、話者の
声道長の違いによる話者性の影響、マイクから話者まで
の距離による影響等が挙げられる。
算的な変動(乗算性ノイズ)が生ずる。音声の周波数特
徴を用いる音声認識装置においては、認識時に乗算性ノ
イズが生ずることにより学習時の音声に対して認識時の
音声が変動してしまうため認識性能が低下する。
手法としてCMN(Cepstral Mean Normalization・ケプス
トラム平均値正規化)法が知られている。CMN法は音声
の周波数領域における乗算性ノイズを周波数スペクトル
パワーの対数を逆フーリエ変換して得られるケプストラ
ム(Cepstrum)領域における加算性ノイズとみなして除
去するという手法である。
ノイズは周波数スペクトルパワーの対数をとった領域に
おける加算性ノイズとみなすことができるため、ケプス
トラムに限らず周波数スペクトルパワーの対数を音声の
特徴として用いる場合にも、CMN法は同様に適用可能で
あり乗算性ノイズの除去に効果がある。
の概要を図9を用いて説明する。
えば数10msecのフレーム毎に切り出して周波数分析を
行い特徴ベクトル時系列(ここではケプストラムの時系
列とする)C(t)(t=1...T)に変換し出力する音声分析部4
1と、特徴ベクトル時系列C(t)の任意の区間内の平均値
CMを求める平均値導出部42と、この平均値導出部42
で求めた平均値CMを記憶する平均値記憶部43と、特徴
ベクトル時系列C(t)から平均値CMを減算することで特徴
ベクトル時系列を補正する補正部44と、補正後の特徴
ベクトル時系列Cr(t)を用いて音声標準パターン部45-1
に記憶された音声標準パターンに対する尤度Uo(t)を計
算する尤度計算部45と、前述の尤度Uo(t)に基づいて
音声認識を行う認識処理部46を備えて構成される。
は以下の式(1)で求める。なお、以下の式(1)では、平均
値を求める区間として入力音声の全区間(t=1...T)を用
いる場合を例として挙げているが音声入力中の任意の区
間を設定する場合もある。
に示すように、特徴ベクトル時系列C(t)から平均値CMを
減算することで、補正後の特徴ベクトル時系列Cr(t)を
求めて出力する。
式(1)および式(2)で示される特徴ベクトル時系列の平均
値を求めて、その平均値を特徴ベクトル時系列から減算
するまでの処理をCMN法と呼ぶ。
ストラム領域においては加算性ノイズとして現れる。し
たがって、前述の式(1)で求められる平均値CMは周波数
領域における乗算性ノイズのケプストラム領域における
推定値と見なすことができる。このことから、前述の式
(2)の演算によって周波数領域における乗算性ノイズを
特徴ベクトル時系列から除去することが可能となる。
去した特徴ベクトル時系列C(t)に対する音声標準パター
ンの尤度Uo(t)を出力し、認識処理部46において尤度U
o(t)に基づき認識処理を行い認識結果を出力する。この
結果、乗算性ノイズを除去でき認識時の音声の変動を抑
えることができるため、良好な認識性能が得られる。
間から平均値CMを求めているために、平均値CMの値は入
力音声中の発声に含まれる音素の影響を受ける。
ては、各発声に含まれる音素は発声の内容に応じて変化
する。そのため入力音声に含まれる乗算性ノイズによら
ず、各発声の内容に応じて平均値CMの値が変動してしま
い、乗算性ノイズの正しい推定値が求めることができな
い。この結果、CMN法による特徴ベクトル時系列の補正
を正しく行うことができず、認識性能が低下してしま
う。
発声区間と非発声区間とを判別し、非発声区間内の平均
値をCMとする方法が考えられる。このようにして求めら
れた平均値CMは音素の影響を受けないため、乗算性ノイ
ズの正しい推定値となることが期待できる。
くとれない場合には、平均値CMを求めるために用いる特
徴ベクトル系列C(t)のサンプル数が少なくなり、平均値
CMによる乗算性ノイズの推定精度は低下する。その結
果、CMN法による特徴ベクトル時系列の補正を正しく行
うことができず、やはり認識性能が低下してしまう。
平均値CMを求める区間を十分に長くとることが望まし
い。しかし、不特定話者および不特定環境における音声
認識装置では話者および環境が変化する毎に乗算性ノイ
ズを推定し直さなければならないが、話者および環境が
頻繁に変化するような状況では、乗算性ノイズの安定し
た推定のための十分に長い区間がとれない場合がある。
から短い発声を音声認識装置に入力した直後に別の話者
Bが音声認識装置から離れた場所から短い発声を音声認
識装置に入力したような場合には、話者Aおよび話者B
それぞれの短い入力音声(発声)からだけで新たに平均
値CMを求め直さなければならない。このように短い区間
から求められた平均値CMでは乗算性ノイズの安定した推
定を行えないのは前述の通りである。
ズを含む音声データを大量に用意することである程度良
好な音声認識性能を得ることもできる。例えば、大量の
話者の発声をマイク、マイク位置、マイクからの距離及
び外部環境などの条件を変化させて収録し、収録された
音声を学習に用いることで乗算性ノイズを除去しなくと
も認識時の話者やマイク及びマイクからの距離・環境な
どの条件によらずある程度良好な認識性能を得ることが
できる。
特徴を全て備えた学習データの集合を用意することは事
実上不可能なため、この方法による認識性能の向上には
限界がある。
ータに対して学習時や認識時ともにCMN法による乗算性
ノイズの除去を行うことで、より良好な認識性能が得ら
れる。ただし前述の通り、不特定話者および不特定環境
における音声認識装置では、常に安定した乗算性ノイズ
の推定が行えるとは限らないため乗算性ノイズの推定が
うまくいかない場合には、特徴ベクトル時系列の補正を
正しく行うことができず、不適切な補正が行われてしま
うために認識性能が低下してしまう。
は音素の影響を排除して乗算性ノイズを推定するために
は推定する区間を短くする必要があったが、この場合に
は乗算性ノイズの十分な推定を行えない場合がある。
は乗算性ノイズの安定な推定が行えない場合にも良好な
音声認識性能を提供するための音声認識装置、音声認識
方法及び音声認識プログラムを提供することを目的とす
る。
に、本発明の音声認識装置では入力された音声信号をフ
レーム毎に切り出して特徴ベクトル時系列に変換する音
声分析部と、この音声分析部から出力された前記特徴ベ
クトル時系列の任意の区間内での平均値を求める平均値
導出部と、この平均値導出部で求められた前記平均値を
記憶する平均値記憶部と、この平均値記憶部で記憶され
た前記平均値を前記特徴ベクトル時系列からフレーム毎
に減算することで前記特徴ベクトル時系列を補正する補
正部と、前記音声分析部から出力された補正前の特徴ベ
クトル時系列を用いて補正前音声標準パターンに対する
尤度を計算する補正前尤度計算部と、前記補正部から出
力された補正後の特徴ベクトル時系列を用いて補正後音
声標準パターンに対する尤度を計算する補正後尤度計算
部と、前記補正前尤度計算部から出力される尤度と前記
補正後尤度計算部から出力される尤度とを合成する尤度
合成部と、この尤度合成部から出力される尤度に基づい
て音声認識を行う認識処理部とを備えることを特徴とす
る。
れた音声信号をフレーム毎に切り出して特徴ベクトル時
系列に変換するステップと、前記特徴ベクトル時系列の
任意の区間内での平均値を求めるステップと、前記平均
値を記憶するステップと、記憶された前記平均値を前記
特徴ベクトル時系列からフレーム毎に減算することで前
記特徴ベクトル時系列を補正するステップと、補正前の
特徴ベクトル時系列を用いて補正前音声標準パターンに
対する尤度を計算するステップと、補正後の特徴ベクト
ル時系列を用いて補正後音声標準パターンに対する尤度
を計算するステップと、前記補正前の特徴ベクトル時系
列に対する尤度および前記補正後の特徴ベクトルに対す
る尤度とを合成するステップと、前記合成された尤度に
基づいて音声認識を行うステップとを含むことを特徴と
する。
入力された音声を認識しその認識結果を出力する音声認
識プログラムにおいて、入力された音声信号をフレーム
毎に切り出して特徴ベクトル時系列に変換し、前記特徴
ベクトル時系列の任意の区間内での平均値を求め、前記
平均値を記憶し、記憶された前記平均値を前記特徴ベク
トル時系列からフレーム毎に減算することで特徴ベクト
ル時系列を補正し、補正前の特徴ベクトル時系列を用い
て補正前音声標準パターンに対する尤度を計算し、補正
後の特徴ベクトル時系列を用いて補正後音声標準パター
ンに対する尤度を計算し、前記補正前の特徴ベクトル時
系列に対する尤度および前記補正後の特徴ベクトルに対
する尤度とを合成し、前記合成された尤度に基づいて音
声認識を行う機能を実現することを特徴とする。
出力される尤度と補正後尤度計算部から出力される尤度
とを尤度合成部にて合成し、この尤度合成部から出力さ
れる尤度に基づき認識処理を行うことで上記の課題を解
決する。乗算性ノイズの安定な推定が行える場合には、
乗算性ノイズの除去を正しく行えるため乗算性ノイズを
除去した補正後特徴ベクトル時系列に対する補正後音声
標準パターンの尤度を正しく求めることができ、CMN法
により良好な認識性能が得られる。
い場合には、乗算性ノイズの除去が正しく行えないため
補正後特徴ベクトル時系列に対する補正後音声標準パタ
ーンの尤度を正しく求めることができなくなるが、補正
前の特徴ベクトル時系列に対する補正前音声標準パター
ンの尤度は乗算性ノイズの推定の精度によらず常に正し
い値を求めることができるため、補正前尤度計算部から
出力される尤度と補正後尤度計算部から出力される尤度
とを尤度合成部において合成した尤度に基づいて認識処
理を行うことで、性能低下を抑えることができる。
方法では、平均値導出において特徴ベクトル時系列の任
意の区間を複数個設定し、複数個の区間それぞれに対応
する複数個の平均値を求め、この平均値を複数個記憶す
る。さらに、特徴ベクトル時系列を補正する際に参照す
る平均値を平均値記憶部に記憶されている複数個の平均
値の中から任意のタイミングで切り替えることを特徴と
する。
平均値を切り替えることによって、乗算性ノイズを推定
するためのより適切な区間を後で検出した場合には、そ
の区間内での平均値を求め、それ以前に求めた平均値か
ら切り替えることにより、乗算性ノイズのより正しい推
定値を得ることができ、その結果より良好な音声認識性
能を提供することができる。
適切な区間を後で検出した場合には、その区間を検出す
るより以前に入力された音声を認識する際に、それ以前
に記憶している平均値を用いて特徴ベクトル時系列を補
正し認識処理を行うことで、入力に対する時間遅延を低
く抑えられる。
方法では、補正前尤度計算出力および補正後尤度計算出
力にあらかじめ重み付けを行ってから合成を行うことを
特徴とする。
定して行われている場合には、乗算性ノイズを除去した
補正後の特徴ベクトル時系列に対する補正後音声標準パ
ターンの尤度が正しく求められるため、補正後尤度計算
部の出力の重みを増すことで、重み無しの場合に比べて
CMN法の効果を大きく働かせることができ、認識性能の
低下を抑えることができる。
れない場合には、乗算性ノイズの推定が正しく行われな
いため、補正後の特徴ベクトル時系列に対する補正後音
声標準パターンの尤度を正しく求めることができなくな
るが、補正前の特徴ベクトル時系列に対する補正前音声
標準パターンの尤度は乗算性ノイズの推定の精度によら
ず常に正しい値を求めることができるため、補正前尤度
計算部の出力の重みを増すことで、認識性能の低下を抑
えることができる。
を参照して詳細に説明する。 (第1実施形態)図1は本発明の音声認識装置に係る第
1の実施形態を説明するブロック図であり、図2はその
動作を示したフロー図である。
ーム毎に切り出して特徴ベクトル時系列に変換する音声
分析部11と、前記の音声分析部から出力された特徴ベ
クトル時系列の任意の区間内での平均値を求める平均値
導出部12と、この平均値導出部で求めた平均値を記憶
する平均値記憶部13と、前記の平均値記憶部に記憶さ
れた平均値を特徴ベクトル時系列からフレーム毎に減算
することで特徴ベクトル時系列を補正する補正部14
と、前記の音声分析部から出力された補正前の特徴ベク
トル時系列を用いて補正前音声標準パターン部15-1に記
憶されている補正前音声標準パターンに対する尤度を計
算する補正前尤度計算部15と、前記の補正部から出力
された補正後の特徴ベクトル時系列を用いて補正後音声
標準パターン部16-1に記憶されている補正後音声標準パ
ターンに対する尤度を計算する補正後尤度計算部16
と、前記の補正前尤度計算部15の出力および前記の補
正後尤度計算部16の出力とを合成する尤度合成部17
と、尤度合成部17から出力される尤度に基づいて音声
認識を行う認識処理部18を備える。
雑音を除去せずに求める補正前の特徴ベクトル時系列と
乗算性雑音を除去して求める補正後の特徴ベクトル時系
列を用意し、この両方を併用して学習を行う。すなわ
ち、補正前の特徴ベクトル時系列を用いて補正前音声標
準パターンを学習し、補正後の特徴ベクトル時系列を用
いて補正後音声標準パターンを学習する。
に対して補正前の特徴ベクトル時系列と補正後の特徴ベ
クトル時系列を求めてこの両者を併用して認識処理を行
うものである。
明する。
入力音声をフレーム毎に切り出して周波数分析およびケ
プストラムへの変換を行い、特徴ベクトル時系列C(t)(t
=1...T)を出力する(step11)。ここで本実施形態で
は、特徴ベクトル時系列としてケプストラムの時系列を
用いているが、周波数スペクトルの対数に基づく任意の
特徴量を用いることもできる。
声の全区間(t=1...T)を平均値を求める区間とし、以下
の式(3)で平均値CMを求める(step12)。
間を平均値を求める区間として用いたが、入力音声中の
任意の区間を用いても良い。
出部12から出力される平均値CMを記憶する(step1
3)。
で補正後の特徴ベクトル時系列Cr(t)を求める(step1
4)。
音声標準パターンの尤度Ui(t)を補正前尤度計算部15
で求め(step15)、補正後の特徴ベクトル時系列Cr(t)
に対する補正後音声標準パターンの尤度Ur(t)を補正後
尤度計算部16で求める(step16)。
および尤度Ur(t)を以下の式(5)で合成し、尤度Uo(t)を
求める(step17)。
合成を加算により行っているが、他の演算を用いても良
い。
17から出力される尤度Uo(t)に基づき認識処理を行い
(step18)、認識結果を出力する。
の推定が正しく行えている場合にはCMN法による特徴ベ
クトル時系列の補正が正しく行われ、補正後の特徴ベク
トル時系列Cr(t)が補正後音声標準パターンによくマッ
チし、補正後音声標準パターンに対する尤度Ur(t)を正
しく求められるため、良好な認識性能が得られる。
かった場合には補正後の特徴ベクトル時系列Cr(t)は補
正後音声標準パターンにマッチせず、尤度Ur(t)を正し
く求めることができないが、補正前の特徴ベクトル時系
列C(t)に対する補正前音声標準パターンの尤度Ui(t)は
乗算性ノイズの推定の精度によらず正しく求めることが
できるため、この尤度Ui(t)と尤度Ur(t)を合成した尤度
Uo(t)に基づき認識処理を行うことで認識性能の低下を
抑えることができる。
補正後尤度計算部16の尤度とを合成することにより認
識性能が向上することを図3を用いて説明する。
場合に乗算性ノイズの安定な推定が行える場合(周囲の
雑音・マイク位置・話者などが頻繁に変動しないような
環境)には認識性能は前述したようにとても高くなる。
逆に、安定な推定が行えない場合(周囲の雑音・マイク
位置・話者などが頻繁に変動するような環境)には、認
識性能はとても悪化することになる。この悪化は補正前
尤度計算部15の尤度のみを用いた場合の性能よりも悪
くなる可能性がある。これは安定な推定が行えない場
合、乗算性ノイズによる変動に安定でない推定における
特徴ベクトルの補正による変動が加わり、これが乗算性
ノイズのみによる変動よりも大きくなるからである。
度のみを用いた場合には乗算性ノイズの推定精度に因ら
ずほぼ一定の性能が得られる。補正前尤度計算部15の
尤度にはもともと乗算性ノイズ重畳による影響があるた
め性能はそれほど良くはない。しかし、想定範囲内の乗
算性ノイズの変動に対してはその範囲内で乗算性ノイズ
が不安定に変動しようがしまいがほぼ一定の性能が得ら
れる。
と補正後尤度計算部の尤度16を合成することでちょう
どその中間の性能を得られることが期待できる。すなわ
ち、この合成により乗算性ノイズの安定な推定が行えな
いときの補正後尤度計算部16の尤度の影響(悪影響)を
減らすことができる。
算部15の出力および補正後尤度計算部16の出力を合
成して得られる尤度に基づき認識処理を行うことで、乗
算性ノイズの推定の精度によらず良好な認識性能を提供
できる。(第2の実施形態)次に、本発明の第2の実施
形態について説明する。図4は第2の実施形態を説明す
るブロック図であり、図5はその動作を示したフロー図
である。
部22、補正部24、補正前尤度計算部25、補正前音
声標準パターン25-1、補正後尤度計算部26、補正後音
声標準パターン部26-1、尤度合成部27、認識処理部2
8はそれぞれ図1に示した音声分析部11、平均値導出
部12、補正部14、補正前尤度計算部15、補正前音
声標準パターン15-1、補正後尤度計算部16、補正後音
声標準パターン部16-1、尤度合成部17、認識処理部1
8とそれぞれ同等もしくは等価な構成要素である。
を含まない非発声区間を複数個とれる場合には平均値CM
を求める区間を複数個設定し、それぞれの区間で求めた
複数個の平均値を平均値記憶部23で記憶するものであ
り、図4の音声認識装置では平均値記憶部23におい
て、異なる2つの区間で求めた2つの平均値CM1、CM2を
それぞれ記憶するものである。
個数を2としたが、記憶する平均値の個数は2以上のど
のような個数であっても良い。補正部24では、平均値
記憶部23に記憶された平均値CM1、CM2のうち、どちら
の平均値を参照するかを任意のタイミングで切り替え、
特徴ベクトル時系列C(t)からCM1もしくはCM2を減算する
ことで補正後の特徴ベクトル時系列Cr(t)を求める。
明する。
入力音声をフレーム毎に切り出して周波数分析およびケ
プストラムへの変換を行い、特徴ベクトル時系列C(t)(t
=1...T)を出力する(step21)。
声の非発生区間を含む区間の平均値CMを複数求める
(step22)。
出部22から出力される複数の平均値CMを記憶する(st
ep23)。
て参照する平均値CMの切り替えを行う(step24)。
で補正後の特徴ベクトル時系列Cr(t)を求める(step2
5)。
音声標準パターンの尤度Ui(t)を補正前尤度計算部25
で求め(step26)、補正後の特徴ベクトル時系列Cr(t)
に対する補正後音声標準パターンの尤度Ur(t)を補正後
尤度計算部26で求める(step27)。
および尤度Ur(t)を以下の式(6)で合成し、尤度Uo(t)を
求める(step28)。
合成を加算により行っているが、他の演算を用いても良
い。
27から出力される尤度Uo(t)に基づき認識処理を行い
(step29)、認識結果を出力する。
作について補正部24が参照する平均値の切り替えにつ
いて、図6を詳細に用いて説明する。
開始時点からの非発声区間を含む区間内の平均値を第1
の平均値CM1として求めて、平均値導出部23で記憶す
る。この平均値CM1を用いて、1番目の発声の特徴ベク
トル時系列を補正する。
区間よりも十分に長い非発声区間があれば、その非発声
区間を含む十分に長い区間を平均値を求める区間として
再設定し、その区間内で第2の平均値CM2を求めて、平
均値導出部23で記憶する。
て、平均値CM2を求めた区間は、発声区間を含まず十分
に長いものとする。その結果、平均値CM1に比べて平均
値CM2は乗算性ノイズのより正しい推定値となることが
期待できる。このとき、非発声区間の検出に誤りがあ
り、平均値を求める区間内に発声が含まれてしまい、発
声内の音素の影響で乗算性ノイズの推定が正しく行われ
なかった場合にも、本発明によれば認識性能の低下を抑
えることができるのは既に説明した通りである。
降)の発声の特徴ベクトル時系列を補正する前に、補正
部24において、参照する平均値を平均値CM1から平均
値CM2に切り替える。この結果、1番目の発声に対して
2番目(以降)の発声では、平均値CM1に比べてより正
しい乗算性ノイズの推定値である平均値CM2を用いて乗
算性ノイズの除去を行えるため、認識性能が向上する。
求めるより前に、1番目の発声における特徴ベクトル時
系列の補正および1番目の発声の認識処理を行えるた
め、入力に対する認識結果出力の時間遅延を低く抑えら
れるという利点もある。このように本実施形態では、平
均値CMを求める区間を複数個設定し、複数個の区間それ
ぞれに対応する複数個の平均値を求め、認識処理中に補
正部24で参照する平均値を切り替えることで良好な認
識性能を提供できる。 (第3の実施形態)次に、本発明の第3の実施形態につ
いて説明する。図7は第3の実施形態を説明するブロッ
ク図であり、図8はその動作を示すフロー図である。
部32、平均値記憶部33、補正部34、補正前尤度計
算部35、補正前音声標準パターン35-1、補正後尤度計
算部36、補正後音声標準パターン部36-1、尤度合成部
37、認識処理部38はそれぞれ図1に示した音声分析
部11、平均値導出部12、平均値記憶部13、補正部
14、補正前尤度計算部15、補正前音声標準パターン
15-1、補正後尤度計算部16、補正後音声標準パターン
部16-1、尤度合成部17、認識処理部18とそれぞれ同
等もしくは等価な構成要素である。
て、補正前尤度計算部36から出力される尤度Ui(t)お
よび補正後尤度計算部37から出力される尤度Ur(t)を
合成する前に、尤度重み付け器(39-1,39-2)で尤度Ui
(t)およびUr(t)に重み付けを行ってから合成を行う。
明する。
入力音声をフレーム毎に切り出して周波数分析およびケ
プストラムへの変換を行い、特徴ベクトル時系列C(t)(t
=1...T)を出力する(step31)。
声の全区間(t=1...T)を平均値を求める区間とし、以下
の式(7)で平均値CMを求める(step32)。
間を平均値を求める区間として用いたが、入力音声中の
任意の区間を用いても良い。
出部12から出力される平均値CMを記憶する(step3
3)。
で補正後の特徴ベクトル時系列Cr(t)を求める(step3
4)。
音声標準パターンの尤度Ui(t)を補正前尤度計算部35
で求め(step35)、補正後の特徴ベクトル時系列Cr(t)
に対する補正後音声標準パターンの尤度Ur(t)を補正後
尤度計算部36で求める(step36)。
尤度Ui(t)および尤度Ur(t)に重み付けを行う(step3
7)。
および尤度Ur(t)を以下の式(9)で合成し、尤度Uo(t)を
求める(step38)。
合成を加算により行っているが、他の演算を用いても良
い。
37から出力される尤度Uo(t)に基づき認識処理を行い
(step39)、認識結果を出力する。
けについて詳細に説明する。重み付けは、以下の式(10)
で行う。
に対する重みである。重み付けを行わない場合は Wi=Wr
となる。
を加算により行っているが、他の演算を用いても良い。
な条件が整っている場合には、尤度Ui(t)よりも尤度Ur
(t)にあらかじめ大きな重み付けをして加算する。具体
的にはWi>Wr とする。
除去した補正後の特徴ベクトルCr(t)に対する尤度Ur(i)
を正しく求めることができるため、尤度Ur(t)の重みを
増すことで、CMN法の効果を重み付け無しの場合に比べ
て大きく働かせることができ、その結果としてより良好
な認識性能を提供できる。
えるような条件としては、認識時に話者やマイク・マイ
ク位置・マイクからの距離・外部環境などがある一定時
間以上変化しないような場合が挙げられる。
なわち乗算性ノイズの推定が安定して行えないような場
合には、尤度Ui(t)に尤度Ur(i)よりも大きな重み付けを
して加算する。
算性ノイズの推定が安定しないため、尤度Ur(t)を正し
く求めることができなくなるが、補正前の特徴ベクトル
時系列C(t)に対する尤度Ui(t)は乗算性ノイズの推定の
精度によらず常に正しく求めることができるため、尤度
Ui(t)の重みを増すことで、認識性能の低下をより効果
的に抑えることができる。
の推定を安定に行えるか否かに応じて、尤度Ui(t)およ
び尤度Ur(t)の出力を加算する際の重み付けWi、Wrのバ
ランスを変化させることで、乗算性ノイズの推定の精度
によらず良好な認識性能を提供できる。
することも言うまでもない。
装置、音声認識方法及び音声認識プログラムによれば、
補正前の特徴ベクトル時系列に対する補正前音声標準パ
ターンの尤度と補正後の特徴ベクトル時系列に対する補
正後音声標準パターンの尤度とを合成した尤度に基づく
認識処理を行うことで、乗算性ノイズの推定の精度によ
らず良好な認識性能を提供することができる。
図
説明する図
図
設定し複数の平均値を求める際の処理について説明する
図
図
Claims (7)
- 【請求項1】入力された音声信号をフレーム毎に切り出
して特徴ベクトル時系列に変換する音声分析部と、この
音声分析部から出力された前記特徴ベクトル時系列の任
意の区間内での平均値を求める平均値導出部と、この平
均値導出部で求められた前記平均値を記憶する平均値記
憶部と、この平均値記憶部で記憶された前記平均値を前
記特徴ベクトル時系列からフレーム毎に減算することで
前記特徴ベクトル時系列を補正する補正部と、前記音声
分析部から出力された補正前の特徴ベクトル時系列を用
いて補正前音声標準パターンに対する尤度を計算する補
正前尤度計算部と、前記補正部から出力された補正後の
特徴ベクトル時系列を用いて補正後音声標準パターンに
対する尤度を計算する補正後尤度計算部と、前記補正前
尤度計算部から出力される尤度と前記補正後尤度計算部
から出力される尤度とを合成する尤度合成部と、この尤
度合成部から出力される尤度に基づいて音声認識を行う
認識処理部とを備える音声認識装置。 - 【請求項2】前記平均値導出部は特徴ベクトル時系列の
任意の区間を複数個設定し、複数個の区間それぞれに対
応する複数個の平均値を求め、前記平均値記憶部は前記
平均値導出部から出力される平均値を複数個記憶してお
き、前記補正部は参照する平均値を前記平均値記憶部に
記憶されている複数個の平均値の中から任意のタイミン
グで切り替えることを特徴とする請求項1の音声認識装
置。 - 【請求項3】前記尤度合成部は前記補正前尤度計算部か
ら出力される尤度および前記補正後尤度計算部から出力
される尤度とを合成する際に、前記補正前尤度計算部か
ら出力される尤度または前記補正後尤度計算部から出力
される尤度にあらかじめ重み付けを行ってから合成する
ことを特徴とする請求項1記載の音声認識装置。 - 【請求項4】入力された音声信号をフレーム毎に切り出
して特徴ベクトル時系列に変換するステップと、前記特
徴ベクトル時系列の任意の区間内での平均値を求めるス
テップと、前記平均値を記憶するステップと、記憶され
た前記平均値を前記特徴ベクトル時系列からフレーム毎
に減算することで前記特徴ベクトル時系列を補正するス
テップと、補正前の特徴ベクトル時系列を用いて補正前
音声標準パターンに対する尤度を計算するステップと、
補正後の特徴ベクトル時系列を用いて補正後音声標準パ
ターンに対する尤度を計算するステップと、前記補正前
の特徴ベクトル時系列に対する尤度および前記補正後の
特徴ベクトルに対する尤度とを合成するステップと、前
記合成された尤度に基づいて音声認識を行うステップと
を含むことを特徴とする音声認識方法。 - 【請求項5】前記平均値を求めるステップは特徴ベクト
ル時系列の任意の区間を複数個設定し、複数個の区間そ
れぞれに対応する複数個の平均値を求め、前記平均値を
記憶するステップは、前記平均値を複数個記憶してお
き、前記特徴ベクトル時系列を補正するステップは参照
する平均値を記憶されている複数個の平均値の中から任
意のタイミングで切り替えることを特徴とする請求項4
の音声認識方法。 - 【請求項6】前記尤度を合成するステップは前記補正前
の特徴ベクトル時系列に対する尤度および前記補正後の
特徴ベクトル時系列に対する尤度とを合成する際に、前
記補正前の特徴ベクトル時系列に対する尤度または前記
補正後の特徴ベクトル時系列に対する尤度にあらかじめ
重み付けを行ってから合成するステップを含むことを特
徴とする請求項4記載の音声認識方式。 - 【請求項7】入力された音声を認識しその認識結果を出
力する音声認識プログラムにおいて、入力された音声信
号をフレーム毎に切り出して特徴ベクトル時系列に変換
し、前記特徴ベクトル時系列の任意の区間内での平均値
を求め、前記平均値を記憶し、記憶された前記平均値を
前記特徴ベクトル時系列からフレーム毎に減算すること
で特徴ベクトル時系列を補正し、補正前の特徴ベクトル
時系列を用いて補正前音声標準パターンに対する尤度を
計算し、補正後の特徴ベクトル時系列を用いて補正後音
声標準パターンに対する尤度を計算し、前記補正前の特
徴ベクトル時系列に対する尤度および前記補正後の特徴
ベクトルに対する尤度とを合成し、前記合成された尤度
に基づいて音声認識を行う機能を実現する音声認識プロ
グラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001376615A JP3790155B2 (ja) | 2001-12-11 | 2001-12-11 | 音声認識装置、音声認識方式及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001376615A JP3790155B2 (ja) | 2001-12-11 | 2001-12-11 | 音声認識装置、音声認識方式及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003177783A true JP2003177783A (ja) | 2003-06-27 |
JP3790155B2 JP3790155B2 (ja) | 2006-06-28 |
Family
ID=19184769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001376615A Expired - Fee Related JP3790155B2 (ja) | 2001-12-11 | 2001-12-11 | 音声認識装置、音声認識方式及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3790155B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013145578A1 (ja) * | 2012-03-30 | 2013-10-03 | 日本電気株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
-
2001
- 2001-12-11 JP JP2001376615A patent/JP3790155B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013145578A1 (ja) * | 2012-03-30 | 2013-10-03 | 日本電気株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3790155B2 (ja) | 2006-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112447191B (zh) | 信号处理装置以及信号处理方法 | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
US7302065B2 (en) | Noise suppressor | |
CN110739005B (zh) | 一种面向瞬态噪声抑制的实时语音增强方法 | |
JP5452655B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
US6671666B1 (en) | Recognition system | |
JP4886715B2 (ja) | 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体 | |
US8249270B2 (en) | Sound signal correcting method, sound signal correcting apparatus and computer program | |
JP5300861B2 (ja) | 雑音抑圧装置 | |
EP3276621B1 (en) | Noise suppression device and noise suppressing method | |
WO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
US8259961B2 (en) | Audio processing apparatus and program | |
JP5344251B2 (ja) | 雑音除去システム、雑音除去方法および雑音除去プログラム | |
JP2001005486A (ja) | 音声処理装置及び方法 | |
JP3397568B2 (ja) | 音声認識方法及び装置 | |
US10332541B2 (en) | Determining noise and sound power level differences between primary and reference channels | |
JP5459220B2 (ja) | 発話音声検出装置 | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
JP2962572B2 (ja) | 雑音除去装置 | |
JP2003177783A (ja) | 音声認識装置、音声認識方式及び音声認識プログラム | |
WO2012070684A1 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JPH09258783A (ja) | 音声認識装置 | |
JP2001228893A (ja) | 音声認識装置 | |
US20160005418A1 (en) | Signal processor and method therefor | |
JP2004309959A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050414 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060330 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100407 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100407 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110407 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130407 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140407 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |