JP3102195B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3102195B2
JP3102195B2 JP05077025A JP7702593A JP3102195B2 JP 3102195 B2 JP3102195 B2 JP 3102195B2 JP 05077025 A JP05077025 A JP 05077025A JP 7702593 A JP7702593 A JP 7702593A JP 3102195 B2 JP3102195 B2 JP 3102195B2
Authority
JP
Japan
Prior art keywords
noise
feature vector
speech
output
superimposed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05077025A
Other languages
English (en)
Other versions
JPH06289891A (ja
Inventor
鈴木  忠
邦男 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP05077025A priority Critical patent/JP3102195B2/ja
Publication of JPH06289891A publication Critical patent/JPH06289891A/ja
Application granted granted Critical
Publication of JP3102195B2 publication Critical patent/JP3102195B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、雑音重畳入力音声信
号に重畳している雑音を推定する機能を備えた音声認識
装置に関するものである。
【0002】
【従来の技術】音声のスペクトル情報を用いる音声認識
装置では、照合用の標準音声モデルの学習に用いる音声
信号に重畳する雑音と認識実行時において入力される音
声信号に重畳する雑音との差が大きい場合、認識性能の
劣化が生じてしまう。これは雑音重畳による音声スペク
トルの変形が重畳雑音のスペクトル様態に大きく影響を
受けるためである。
【0003】このような性能劣化を避けるためには認識
環境下で標準音声モデルの学習を行う必要があるが、認
識環境が変わるたびに音声の学習をやり直さなければな
らないという不便さがあった。これに対し、雑音が音声
に重畳しない静かな環境下で標準音声モデルの学習を行
い、認識時においてはその環境における重畳雑音を標準
音声モデルに加える手法が、文献“マルチテンプレート
を用いる雑音下の数字音声認識”(北村、水谷、日本音
響学会講演論文集 平成元年10月 pp.65-66)におい
て提案されている。
【0004】図5は、この手法に基づく音声認識装置の
構成図の1例である。図において、2は入力端1より入
力される雑音が重畳した未知入力音声信号に対し音響分
析を行い雑音重畳入力音声特徴ベクトル時系列を出力す
る音響分析手段、3は雑音が重畳していない学習用音声
から作成した音声モデルを記憶する音声モデルメモリ、
4は音声モデルメモリ3における標準音声特徴ベクトル
に平均的な重畳雑音の特徴ベクトルを付加する平均雑音
付加手段である。
【0005】5は平均雑音付加手段4の出力である雑音
付加特徴ベクトルと音響分析手段2の出力であるところ
の雑音重畳入力音声特徴ベクトル時系列とを入力とし
て、雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルと雑音付加特徴ベクトルとの類似度を演算する類似
度演算手段、6は類似度演算手段5の出力である類似度
データを入力として雑音重畳入力音声特徴ベクトル時系
列と音声モデルとの照合処理を行い認識結果7を出力す
る照合手段である。
【0006】次に動作について、DPマッチング方式に
よる離散単語認識の場合を例にとり説明を行う。入力端
1より入力された雑音重畳入力音声信号は、音響分析手
段2において任意の分析フレーム(例えば周期10ms
ec、フレーム長25.6msec、ハミング窓)によ
り音響分析され、自己相関係数を特徴ベクトルとする雑
音重畳入力音声特徴ベクトル時系列{X(i)|i=
1,2,…,I}に変換される。ここでX(i)は第i
フレームの自己相関係数ベクトルで、Iはフレーム数で
ある。
【0007】音声モデルメモリ3には、カテゴリk(k
=1,2,…,K)の音声モデルとして、雑音が重畳し
ていないか若しくは想定される雑音重畳入力音声信号の
SN比より良いSN比を持つカテゴリkの単語音声の特
徴ベクトル時系列{Sk(j)|j=1,2,…,Jk}
が記憶されている。ここでSk(j)はカテゴリkの単
語音声の第jフレームの自己相関係数ベクトルで、以後
これを標準音声特徴ベクトルと呼ぶ。
【0008】平均雑音付加手段4は、音声モデルメモリ
3に記憶されているカテゴリkの音声モデルの標準音声
特徴ベクトルSk(j)に対し、あらかじめ与えられた
平均的な重畳雑音の特徴ベクトルZをやはりあらかじめ
定められたSN比になるように付加して、雑音付加標準
音声特徴ベクトルYk(j)として出力する。なおSk
(j)に対するZの付加は、ベクトルの和によって行っ
ている。
【0009】類似度演算手段5は、音響分析手段2の出
力であるところの雑音重畳入力音声特徴ベクトル時系列
の各特徴ベクトルX(i)と平均雑音付加手段4の出力
であるところの雑音付加標準音声特徴ベクトルYk
(j)との類似度Dk(i,j)として出力する。類似
度には例えば、X(i)およびYk(j)をそれぞれL
PC分析して得られるLPCケプストラム係数ベクトル
のユークリッド距離の逆数を用いる。
【0010】照合手段6は、類似度演算手段5の出力で
ある類似度Dk(i,j)(但し、i=1,2,…,
I、j=1,2,…,Jk)を用いてDPマッチングを
行い、雑音重畳入力音声に対するカテゴリkの音声モデ
ルの類似度を求める。これを全ての音声モデルについて
行い、類似度を最大にする音声モデルのカテゴリを認識
結果7として出力する。
【0011】以上の処理により、雑音重畳入力音声特徴
ベクトル時系列は、雑音ベクトルの付加によりスペクト
ル変形された標準音声特徴ベクトルから成る音声モデル
と照合されることになり、雑音重畳によるスペクトル変
形を原因とする認識性能劣化を抑制する。
【0012】
【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているため、雑音重畳入力音声
は、平均的な雑音ベクトルをあるSN比で付加する事で
スペクトル変形させた標準音声特徴ベクトルから成る音
声モデルと照合されることになり、変動の少ない雑音が
重畳したSN比既知の雑音重畳入力音声に対し、雑音重
畳を原因とする認識性能劣化を抑制することができた。
【0013】しかるに実際の環境騒音は確率的な変動を
持っており、例えば空調のファン騒音のような比較的定
常と思われる騒音であっても、音響分析における分析フ
レームでの短時間スペクトル分析を行えば、フレームご
とに変化する非定常なものであることが明らかである。
ましてや、種々雑多な騒音源が存在するより一般的な騒
音環境においては重畳雑音の定常性は期待するべくもな
い。また、発声音声の大きさや音声を入力するマイクと
口との距離の変動によっても雑音重畳入力音声のSN比
は変化してしまう。
【0014】よって従来の音声認識装置では、平均的な
雑音のスペクトルとは異なる雑音が重畳するような非定
常騒音環境下や入力音声のSN比変動が大きい場合は、
認識性能の劣化が避けられないという問題があった。
【0015】この発明は、上記の問題を解決するために
なされたもので、雑音重畳入力音声信号における重畳雑
音のパワーとスペクトルを、音響分析フレームごとに推
定する機能を持つことで、パワー、スペクトル共に非定
常な雑音が重畳した未知入力音声に対しても、また発声
音量の変化や口からマイクまでの距離の変化によるSN
比変動がある雑音重畳入力音声に対しても極めて良好な
認識性能を発揮する音声認識装置を得ることを目的とし
ている。
【0016】
【課題を解決するための手段】この発明に係る音声認識
装置は、雑音が重畳した未知入力音声信号に対し設定さ
れる複数個の分析フレームの各々について音響分析を行
い雑音重畳入力音声特徴ベクトル時系列を出力する音響
分析手段と、音声信号に重畳する雑音の特徴ベクトル時
系列を表現する雑音モデルを記憶する雑音モデルメモリ
と、標準音声の特徴ベクトル時系列を表現する音声モデ
ルを記憶する音声モデルメモリと、音声モデルメモリに
格納されている標準音声特徴ベクトルに対し線形予測分
析を行い最尤パラメータと標準音声残差パワーを求める
線形予測分析手段と、雑音モデルメモリに記憶されてい
る雑音モデルの雑音特徴ベクトルを入力し、線形予測分
析手段の出力である最尤パラメータとの積和演算を行い
雑音残差パワーを求める雑音残差演算手段と、音響分析
手段の出力である雑音重畳入力音声特徴ベクトル時系列
の各特徴ベクトルに対し、線形予測分析手段の出力であ
る最尤パラメータとの積和演算を行い雑音重畳入力音声
残差パワーを求める残差パワー演算手段と、残差パワー
演算手段の出力である雑音重畳入力音声残差パワーと線
形予測分析手段の出力である標準音声残差パワーと雑音
残差演算手段の出力である雑音残差パワーとを用いて雑
音重畳入力音声のSN比を求めるSN比演算手段と、S
N比演算手段の出力であるSN比に従い音声モデルメモ
リ上の標準音声特徴ベクトルと雑音モデルメモリ上の雑
音特徴ベクトルの合成を行い雑音重畳音声特徴ベクトル
を生成する特徴ベクトル合成手段と、音響分析手段の出
力である雑音重畳入力音声特徴ベクトル時系列の各特徴
ベクトルに対し特徴ベクトル合成手段の出力である雑音
重畳音声特徴ベクトルとの類似度を演算する類似度演算
手段と、類似度演算手段の出力である類似度データを入
力として音声モデルと雑音重畳入力音声特徴ベクトル時
系列との最適照合パスを求める最適照合パス決定手段
と、音響分析手段の出力である雑音重畳入力音声特徴ベ
クトル時系列における各特徴ベクトルに対しSN比演算
手段の出力であるSN比と雑音モデルメモリ上の雑音特
徴ベクトルとを用いて重畳雑音特徴ベクトルを生成する
重畳雑音生成手段と、最適照合パス決定手段の出力であ
る照合パスデータと重畳雑音生成手段の出力である重畳
雑音特徴ベクトルとを用いて入力雑音特徴ベクトル時系
列を求める重畳雑音決定 手段と、SN比演算手段の出力
であるSN比と音響分析手段の出力である雑音重畳入力
音声特徴ベクトル時系列と音声モデルメモリ上の標準音
声特徴ベクトルと最適照合パス決定手段の出力である照
合パスデータとを入力として音声パワー比を求めるパワ
ー比決定手段と、音響分析手段の出力である雑音重畳入
力音声特徴ベクトル時系列と音声モデルメモリ上の標準
音声特徴ベクトルと重畳雑音決定手段の出力である入力
雑音特徴ベクトル時系列とパワー比決定手段の出力であ
る音声パワー比とを入力として雑音重畳入力音声特徴ベ
クトル時系列の各特徴ベクトルと音声モデルメモリ上の
標準音声特徴ベクトルとの雑音適応化類似度を演算する
雑音適応化類似度演算手段と、雑音適応化類似度演算手
段の出力である雑音適応化類似度データを用いて照合を
行い認識結果を出力する照合手段を備えたものである。
【0017】
【0018】またこの発明における別の音声認識装置
は、雑音が重畳した未知入力音声信号に対し設定される
複数個の分析フレームの各々について音響分析を行い雑
音重畳入力音声特徴ベクトル時系列を出力する音響分析
手段と、音声信号に重畳する雑音の特徴ベクトル時系列
を表現する雑音モデルを記憶する雑音モデルメモリと、
標準音声の特徴ベクトル時系列を表現する音声モデルを
記憶する音声モデルメモリと、音声モデルメモリに格納
されている標準音声特徴ベクトルに対し線形予測分析を
行い最尤パラメータと標準音声残差パワーを求める線形
予測分析手段と、雑音モデルメモリに記憶されている雑
音モデルの雑音特徴ベクトルを入力として線形予測分析
手段の出力である最尤パラメータとの積和演算を行い雑
音残差パワーを求める雑音残差演算手段と、音響分析手
段の出力である雑音重畳入力音声特徴ベクトル時系列の
各特徴ベクトルに対し線形予測分析手段の出力である最
尤パラメータとの積和演算を行い雑音重畳入力音声残差
パワーを求める残差パワー演算手段と、残差パワー演算
手段の出力である雑音重畳入力音声残差パワーと線形予
測分析手段の出力である標準音声残差パワーと雑音残差
演算手段の出力である雑音残差パワーとを用いて雑音重
畳入力音声のSN比を求めるSN比演算手段と、SN比
演算手段の出力であるSN比に従い音声モデルメモリ上
の標準音声特徴ベクトルと雑音モデルメモリ上の雑音特
徴ベクトルの合成を行い雑音重畳音声特徴ベクトルを生
成する特徴ベクトル合成手段と、音響分析手段の出力で
ある雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルに対し特徴ベクトル合成手段の出力である雑音重畳
音声特徴ベクトルとの類似度を演算する類似度演算手段
と、類似度演算手段の出力である類似度データを入力と
して音声モデルと雑音重畳入力音声特徴ベクトル時系列
との最適照合パスを求める最適照合パス決定手段と、音
響分析手段の出力である雑音重畳入力音声特徴ベクトル
時系列における各特徴ベクトルに対しSN比演算手段の
出力であるSN比と雑音モデルメモリ上の雑音特徴ベク
トルとを用いて重畳雑音特徴ベクトルを生成する重畳雑
音生成手段と、最適照合パス決定手段の出力である照合
パスデータと重畳雑音生成手段の出力である重畳雑音特
徴ベクトルとを用いて入力雑音特徴ベクトル時系列を求
める重畳雑音決定手段と、音響分析手段の出力である雑
音重畳入力音声特徴ベクトル時 系列と音声モデルメモリ
上の標準音声特徴ベクトルと重畳雑音決定手段の出力で
ある入力雑音特徴ベクトル時系列とを入力として雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルと音声
モデルメモリ上の標準音声特徴ベクトルとの雑音除去類
似度を演算する雑音除去類似度演算手段と、雑音除去類
似度演算手段の出力である雑音除去類似度データを用い
て照合を行い認識結果を出力する照合手段を備えたもの
である。
【0019】またこの発明における別の音声認識装置
は、雑音が重畳した未知入力音声信号に対し設定される
複数個の分析フレームの各々について音響分析を行い雑
音重畳入力音声特徴ベクトル時系列を出力する音響分析
手段と、音声信号に重畳する雑音の特徴ベクトル時系列
を表現する雑音モデルを記憶する雑音モデルメモリと、
標準音声の特徴ベクトル時系列を表現する音声モデルを
記憶する音声モデルメモリと、音声モデルメモリに格納
されている標準音声特徴ベクトルに対し線形予測分析を
行い最尤パラメータと標準音声残差パワーを求める線形
予測分析手段と、雑音モデルメモリ上の雑音特徴ベクト
ルを入力として線形予測分析手段の出力である最尤パラ
メータとの積和演算を行い雑音残差パワーを求める雑音
残差演算手段と、音響分析手段の出力である雑音重畳入
力音声特徴ベクトル時系列の各特徴ベクトルに対し線形
予測分析手段の出力である最尤パラメータとの積和演算
を行い雑音重畳入力音声残差パワーを求める残差パワー
演算手段と、残差パワー演算手段の出力である雑音重畳
入力音声残差パワーと線形予測分析手段の出力である標
準音声残差パワーと雑音残差演算手段の出力である雑音
残差パワーとを用いて雑音重畳入力音声のSN比を求め
るSN比演算手段と、SN比演算手段の出力であるSN
比に従い音声モデルメモリ上の標準音声特徴ベクトルと
雑音モデルメモリ上の雑音特徴ベクトルの合成を行い雑
音重畳音声特徴ベクトルを生成する特徴ベクトル合成手
段と、音響分析手段の出力である雑音重畳入力音声特徴
ベクトル時系列の各特徴ベクトルに対し特徴ベクトル合
成手段の出力である雑音重畳音声特徴ベクトルとの類似
度を演算する類似度演算手段と、類似度演算手段の出力
である類似度データを入力として音声モデルと雑音重畳
入力音声特徴ベクトル時系列との最適照合パスを求める
最適照合パス決定手段と、SN比演算手段の出力である
SN比と音響分析手段の出力である雑音重畳入力音声特
徴ベクトル時系列と音声モデルメモリ上の標準音声特徴
ベクトルと最適照合パス決定手段の出力である照合パス
データとを入力として音声パワー比を求めるパワー比決
定手段と、音響分析手段の出力である雑音重畳入力音声
特徴ベクトル時系列における各特徴ベクトルに対しSN
比演算手段の出力であるSN比と雑音モデルメモリ上の
雑音特徴ベクトルとを用いて重畳雑音特徴ベクトルを生
成する重畳雑音生成手段と、最 適照合パス決定手段の出
力である照合パスデータと重畳雑音生成手段の出力であ
る重畳雑音特徴ベクトルとパワー比決定手段の出力であ
る音声パワー比とを用いて付加雑音特徴ベクトルを求め
る付加雑音決定手段と、付加雑音決定手段の出力である
付加雑音特徴ベクトルと音声モデルメモリ上の標準音声
特徴ベクトルを入力として雑音付加標準音声特徴ベクト
ルを求める雑音付加手段と、音響分析手段の出力である
雑音重畳入力音声特徴ベクトル時系列と雑音付加手段の
出力である雑音付加標準音声特徴ベクトルとの類似度を
演算する類似度演算手段と、類似度演算手段の出力であ
る類似度データを用いて照合を行い認識結果を出力する
照合手段を備えたものである。
【0020】
【作用】この発明において、SN比演算手段は、音響分
析手段の出力である雑音重畳入力音声特徴ベクトル時系
列の各特徴ベクトルついてのSN比演算を行う際に、残
差パワー演算手段の出力である雑音重畳入力音声残差パ
ワーと線形予測分析の出力である標準音声残差パワーと
雑音残差演算手段の出力である雑音残差パワーの3種の
残差パワーが用いている。この3種の残差パワーを求め
る際に線形予測分析手段及び雑音残差演算手段におい
て、音声モデルメモリに記憶されている音声モデルの標
準音声特徴ベクトルおよび雑音モデルメモリに記憶され
ている雑音モデルの雑音特徴ベクトルの2種の特徴ベク
トルが用いられている。特徴ベクトル合成手段は、SN
比演算手段が上記3種の残差パワーを用いて求めた雑音
重畳入力音声特徴ベクトル時系列の特徴ベクトルについ
てのSN比に従って、上記2種の特徴ベクトルすなわち
標準音声特徴ベクトルと雑音特徴ベクトルとの合成を行
い、雑音重畳音声特徴ベクトルとして出力している。
【0021】この発明における類似度演算手段は、上記
のように特徴ベクトル合成手段で合成された雑音重畳音
声特徴ベクトルと、前述のSN比演算手段においてSN
比演算の対象となった雑音重畳入力音声特徴ベクトル時
系列中の特徴ベクトルとの類似度演算を行っているの
で、雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルのSN比に合わせて雑音を付加された雑音重畳音声
特徴ベクトルとの類似度が照合手段に出力される。
【0022】また、照合手段は、上記のように生成され
た類似度データを用い、雑音モデルの制約の下で、雑音
重畳入力音声特徴ベクトル時系列に対し、類似度が最大
になるように各カテゴリの音声モデルと照合を行い、最
も高い類似度を与えた音声モデルのカテゴリを認識結果
として出力する。
【0023】またこの発明における重畳雑音生成手段
は、SN比演算手段の出力であるSN比とSN比演算の
対象となった雑音重畳入力音声特徴ベクトル時系列中の
特徴ベクトルのパワーとを用いて該特徴ベクトルにおけ
る雑音成分のパワーを求め、この値と、SN比演算手段
において用いられた雑音残差パワーに対応する雑音モデ
ル内の雑音特徴ベクトルとを用いて重畳雑音特徴ベクト
ルを生成する。ここで生成される該重畳雑音特徴ベクト
ルは、雑音重畳入力音声特徴ベクトル時系列中の特徴ベ
クトルト音声モデルメモリに記憶されている音声モデル
の標準音声特徴ベクトルと雑音モデルメモリに記憶され
ている雑音モデルの雑音特徴ベクトルの3種の特徴ベク
トルにより一意に求められている点で、類似度演算手段
の出力である類似度データ及びSN比演算手段の出力で
あるSN比と1対1に対応している。
【0024】最適照合パス決定手段は、類似度演算手段
の出力である類似度データを用い、雑音モデルの制約の
下で、雑音重畳入力音声特徴ベクトル時系列と音声モデ
ルとの類似度が最大になる照合パスを決定する。
【0025】重畳雑音決定手段は、重畳雑音生成手段が
生成した重畳雑音特徴ベクトルと最適照合パス決定手段
が出力した照合パスとを用いて、雑音重畳入力音声特徴
ベクトル時系列の各特徴ベクトルに対応する重畳雑音特
徴ベクトルを求め、重畳雑音特徴ベクトル時系列として
出力する。また、パワー比決定手段は、SN比演算手段
の出力であるSN比と最適照合パス決定手段の出力であ
る照合パスと雑音重畳入力音声特徴ベクトル時系列の各
特徴ベクトルのパワーと音声モデルメモリに記憶されて
いる音声モデルの特徴ベクトルのパワーとを用いて、雑
音重畳入力音声中の音声信号と音声モデルのパワー比を
求める。
【0026】雑音適応化類似度演算手段は、音声モデル
メモリに記憶されている音声モデルの標準音声特徴ベク
トルに対しパワー比決定手段の出力であるところの音声
パワー比を用いて音声モデルと雑音重畳入力音声中の音
声信号のパワーが一致するようにパワー正規化処理を施
し、重畳雑音決定手段の出力であるところの重畳雑音特
徴ベクトル時系列を用いて雑音重畳入力音声特徴ベクト
ル時系列の各特徴ベクトルとの雑音適応化類似度を求め
る。
【0027】また別の発明においては、雑音除去類似度
演算手段は、雑音重畳入力音声特徴ベクトル時系列の各
特徴ベクトルに対し、重畳雑音決定手段の出力であると
ころの重畳雑音特徴ベクトル時系列の各特徴ベクトルを
用いて雑音除去を行い、音声モデルメモリ上に記憶され
ている音声モデルの各特徴ベクトルとの類似度を演算す
る。
【0028】また別の発明においては、付加雑音決定手
段は、重畳雑音生成手段が生成した重畳雑音特徴ベクト
ルと最適照合パス決定手段が出力した照合パスとパワー
比決定手段の出力である音声パワー比とを用いて、音声
モデルの標準音声特徴ベクトルに対する付加雑音特徴ベ
クトルを求める。雑音付加手段は、該付加雑音特徴ベク
トルを音声モデルの標準音声特徴ベクトルに付加し、雑
音付加標準音声特徴ベクトルを出力する。類似度演算手
段は、該雑音付加標準音声特徴ベクトルと雑音重畳入力
音声特徴ベクトル時系列の各特徴ベクトルとの類似度を
演算する。
【0029】
【実施例】実施例1. 図1は、この発明に関わる音声認識装置の一実施例の構
成を示すブロック図である。図において、2は入力端1
より入力される雑音重畳入力音声に対し、音響分析を行
い雑音重畳入力音声特徴ベクトル時系列を出力する音響
分析手段、3は標準音声の特徴ベクトル時系列を表現す
る音声モデルを記憶する音声モデルメモリである。
【0030】8は音声に重畳する雑音の特徴ベクトル時
系列を表現する雑音モデルを記憶する雑音モデルメモ
リ、9は音声モデルメモリ3に記憶されている音声モデ
ルの標準音声特徴ベクトルを入力として線形予測分析を
行い、最尤パラメータを最尤パラメータメモリ10に、
標準音声残差パワーを音声残差パワーメモリ11に書き
込む線形予測分析手段、12は雑音モデルメモリ8に記
憶されている雑音モデルの雑音特徴ベクトルと最尤パラ
メータメモリ10に記憶されている最尤パラメータとの
積和演算により雑音残差パワーを求め雑音残差メモリ1
3に書き込む雑音残差演算手段である。
【0031】14は音響分析手段2の出力である雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルに対し
最尤パラメータメモリ10に記憶されている最尤パラメ
ータとの積和演算を行い雑音重畳入力音声残差パワーを
求める残差パワー演算手段、15は残差パワー演算手段
14の出力であるところの雑音重畳入力音声残差パワー
と音声残差パワーメモリ11に記憶されている標準音声
残差パワーと雑音残差パワーメモリ13に記憶されてい
る雑音残差パワーとを用いて雑音重畳入力音声のSN比
を求めるSN比演算手段、16はSN比演算手段15の
出力であるところのSN比に従い音声モデルメモリ3に
記憶されている標準音声特徴ベクトルと雑音モデルメモ
リ8に記憶されている雑音特徴ベクトルの合成を行い雑
音重畳音声特徴ベクトルを生成する特徴ベクトル合成手
段である。
【0032】5は音響分析手段2の出力である雑音重畳
入力音声特徴ベクトル時系列の各特徴ベクトルに対し特
徴ベクトル合成手段16の出力である雑音重畳音声特徴
ベクトルとの類似度を演算する類似度演算手段、6は
似度演算手段5の出力であるところの類似度データを用
いて照合処理を行い認識結果7を出力する照合手段であ
る。
【0033】次に動作について、まずDPマッチング法
照合手段6に採用した離散単語認識の場合を例に説明
を行う。入力端1より入力された雑音重畳入力音声信号
は、音響分析手段2において任意の分析フレーム(例え
ばフレーム周期10msec、フレーム長25.6ms
ec、ハミング窓)について音響分析され、自己相関係
数ベクトルを特徴ベクトルとする雑音重畳入力音声特徴
ベクトル時系列{X(i)|i=1,2,…,I}に変
換される。ここでX(i)は第iフレームの自己相関係
数ベクトルで、Iはフレーム数である。
【0034】音声モデルメモリ3には、カテゴリk(k
=1,2,…,K)の音声モデルとして、カテゴリkの
単語音声信号に対し音響分析手段2における音響分析と
同等の音響分析処理を施し得られる自己相関係数ベクト
ルからなる標準音声特徴ベクトル時系列{Sk(j)|
j=1,2,…,Jk}が記憶されている。但し、前記
単語音声信号は、この発明による音声認識装置が対象と
する雑音重畳入力音声信号よりも高いSN比をもってい
る必要がある。
【0035】雑音モデルメモリ8には、入力音声に重畳
することが想定される雑音信号に対し、音響分析手段2
における音響分析と同等の音響分析処理を施して得られ
る自己相関係数ベクトル時系列を表現する雑音モデルが
1個もしくは複数個記憶されている。各雑音モデルはそ
れぞれ異なる種類の雑音を表現しているが、絶対的なパ
ワー値の違いは雑音の種類を区別しない。
【0036】ここでは一例として、重畳雑音信号が、パ
ワーについては音響分析フレーム毎の変動が大きいが、
パワー正規化しスペクトル形状にのみ注目すると音響分
析フレーム毎にN種類の雑音がランダムに現れるという
ような場合を例に採り説明する。この場合、スペクトル
が相異なる前記N種類の雑音の特徴ベクトル{Zn|n
=1,2,…,N}がそれぞれ雑音モデルとして雑音モ
デルメモリに記憶される。
【0037】線形予測分析手段9は、音声モデルメモリ
3に記憶されている全ての音声モデルの全ての標準音声
特徴ベクトルSk(j)に対し、以下に示す処理を行
う。
【0038】1.例えば自己相関法などを用いて、標準
音声特徴ベクトルSk(j)の自己相関係数ベクトルか
ら線形予測パラメータを求める。
【0039】2.次に、1で得られた線形予測パラメー
タの自己相関係数である最尤パラメータAk(j)=
{akj(m)|m=0,1,…,M}を求め最尤パラメ
ータメモリ10に保存する。
【0040】3.標準音声特徴ベクトルSk(j)の正
規化自己相関係数ベクトルと最尤パラメータAk(j)
とを用いて積和演算を行い標準音声残差パワーαkjを求
め、音声残差パワーメモリに保存する。αkjは以下の
(1)式により求める。
【0041】
【数1】
【0042】雑音残差演算手段12は、雑音モデルメモ
リ8に記憶されている雑音モデルの雑音特徴ベクトル
{Zn|n=1,2,…,N}の正規化自己相関係数に
対し、最尤パラメータメモリ10に記憶されている全て
の最尤パラメータAk(j)を用いて積和演算を行い、
雑音残差パワーβkj,nを求め雑音算差パワーメモリ13
に書き込む。βkj,nは以下の(2)式で求める。
【0043】
【数2】
【0044】残差パワー演算手段14は、音響分析手段
2の出力であるところの雑音重畳入力音声特徴ベクトル
時系列の各特徴ベクトルX(i)(i=1,2,…,
I)の正規化自己相関係数ベクトルに対し、最尤パラメ
ータメモリ10に記憶されている全ての最尤パラメータ
Ak(j)を用いて積和演算を行い、雑音重畳入力音声
残差パワーγki,jを求める。γki,jは(3)式で求め
る。
【0045】
【数3】
【0046】SN比演算手段15は、残差パワー演算手
段14の出力である雑音重畳入力音声残差パワーγki,j
と音声残差パワーメモリ11に記憶されている標準音声
残差パワーαkjと雑音残差パワーメモリ13に記憶され
ている雑音残差パワーβkj,nとを用いて、SN比Rki,
j,nを(4)式から求める。
【0047】
【数4】
【0048】この式は、以下のように導出される。雑音
が重畳していないある音声信号φ(t)(tは時間を表
す)が、(5)式のようなAR過程に従うとする。
【0049】
【数5】
【0050】すると、線形予測係数ψmは、音声信号φ
(t)の自己相関係数から、自己相関法により一意に求
められる。
【0051】任意の信号を、1/H(z)なる伝達特性
を持つフィルタに入力した時得られる出力信号のパワー
は、前記線形予測係数ψmの自己相関係数(最尤パラメ
ータと呼ばれている)Ψτ(τ=0,1,…,M)と入
力信号の自己相関係数の積和演算により求められる。前
述の音声信号φ(t)を入力する場合を例に採れば、フ
ィルタの出力信号のパワー(残差パワーと呼ばれる)P
φは、(6)式により得られる。式中Φτは音声信号φ
(t)の自己相関係数でτ=0,1,…,Mである。
【0052】
【数6】
【0053】次に、音声信号φ(t)に雑音信号ξ
(t)が(7)式のように重畳した雑音重畳信号ω
(t)を考える。
【0054】
【数7】
【0055】音声信号φ(t)と雑音信号ξ(t)の無
相関が仮定できるならば、雑音重畳信号ω(t)の自己
相関係数Ωτは、(8)式のようにφ(t)の自己相関
係数Φτとξ(t)の自己相関係数Ξτの和として与え
られる。
【0056】
【数8】
【0057】このような雑音重畳信号ω(t)を1/H
(z)なる伝達特性を持つ前記フィルタに入力した場合
の残差パワーPωは、(9)式により得られる。
【0058】
【数9】
【0059】(9)式のΩτを(8)式にて置き換える
と(10)式のようになる。
【0060】
【数10】
【0061】(9)(10)式をまとめて(11)式と
する。
【0062】
【数11】
【0063】(11)式において、Ωτ、Φτ、Ξτの
正規化自己相関係数をそれぞれΩ■τ、Φ■τ、Ξ■τ
とすると、
【0064】
【数12】
【0065】となる。また(8)式においてτ=0とす
ると(13)式のようになる。
【0066】
【数13】
【0067】(12)式のΩ0を(13)式で置き換
え、SN比Φ0/Ξ0についてとくと、
【0068】
【数14】
【0069】となる。すなわち、雑音重畳音声信号ω
(t)に対し、雑音が重畳していない音声信号φ(t)
の正規化自己相関係数Φ■τ及び、重畳している雑音の
正規化自己相関係数Ξ■τが分かれば、雑音重畳音声信
号ω(t)の正規化自己相関係数Ω■τ及び音声信号φ
(t)の最尤パラメータΨτにより雑音重畳信号ω
(t)のSN比が求められることがわかる。
【0070】音声認識装置に入力される雑音重畳入力音
声信号は、雑音重畳以前の音声信号の正規化自己相関係
数も、重畳している雑音信号の正規化自己相関係数も、
未知であるため、音響分析手段2の出力である雑音重畳
入力音声特徴ベクトル時系列{X(i)|i=1,2,
…,I}の各特徴ベクトルに対し、音声モデルメモリ3
に記憶されている音声モデルの全ての標準音声特徴ベク
トルと雑音モデルメモリ8に記憶されている雑音モデル
の全ての雑音特徴ベクトルの組み合わせについて得られ
るSN比を、SN比演算手段15は出力する。
【0071】特徴ベクトル合成手段16は、SN比演算
手段15の出力であるところのSN比Rki,j,n(k=
1,2,…,K、j=1,2,…,JK、i=1,2,…,I、n
=1,2,…,N)を入力とし、音声モデルメモリ3に記
憶されている音声モデルの標準音声特徴ベクトルSkjと
雑音モデルメモリ8に記憶されている雑音モデルの雑音
特徴ベクトルZnとのパワー比がSN比Rki,j,nと一致
するように特徴ベクトルの合成を行い、雑音重畳音声特
徴ベクトルYki,j,nとして出力する。
【0072】類似度演算手段5は、音響分析手段2の出
力であるところの雑音重畳入力音声特徴ベクトル時系列
{X(i)|i=1,2,…,I}の各特徴ベクトルに対
し、特徴ベクトル合成手段16の出力であるところの雑
音重畳音声特徴ベクトルYki,j,n(k=1,2,…,K、
j=1,2,…,JK、i=1,2,…,I、n=1,2,…,
N)を用い、X(i)とYki,j,n(k=1,2,…,K、
j=1,2,…,JK、n=1,2,…,N)との類似度D1k
i,j,nを求める。類似度としては一例として、特徴ベク
トルである自己相関係数をLPC分析して得られるLP
Cケプストラムベクトルのユークリッド距離の逆数があ
る。
【0073】照合手段6は、類似度演算手段5の出力で
ある類似度データD1ki,j,n(k=1,2,…,K、j=
1,2,…,JK、i=1,2,…,I、n=1,2,…,N)を
用い、カテゴリkの音声モデルと雑音重畳入力音声との
照合を雑音モデルの制約の下で行い、類似度が最大にな
る音声モデルのカテゴリを認識結果7として出力する。
【0074】この場合雑音モデルの制約は、音響分析フ
レーム毎にランダムにnが1,2,…,Nのうちのどれか
の値をとるということだけなので、{D1ki,j,n|n=
1,2,…,N}の中でいちばん高い類似度を、雑音重畳
入力音声特徴ベクトル時系列の第iフレームとカテゴリ
kの音声モデルの第jフレームとの類似度とみなしてD
Pマッチングを行うことで照合を行う。
【0075】これにより照合パス上では、雑音重畳入力
音声特徴ベクトル時系列の各特徴ベクトルに対し、音声
モデルとの類似度最大化条件による、標準音声特徴ベク
トルと雑音ベクトルの対応付けがなされることになり、
結果として、雑音重畳入力音声に対する正解カテゴリの
音声モデルに対し、雑音重畳入力音声に重畳している雑
音と等しい雑音を等しいSN比で重畳させて照合させた
ことと等しく、非定常雑音が重畳しSN比変動が大きい
雑音重畳入力音声に対しても、正しい認識が行える。
【0076】以上、この発明に係わる実施例について、
DPマッチングによる照合を行う場合を例に採り説明を
行ったが、照合方式はDPマッチングに限定されるもの
ではなく、例えばHMMによる認識手法を用いてもかま
わない。
【0077】この場合、音声モデルメモリ3には、各カ
テゴリの音声を表すHMMが音声モデルとして記憶さ
れ、HMMの各状態(もしくは各遷移)において出力確
率をもつ音声特徴ベクトルが上記説明における標準音声
特徴ベクトルとなる。具体的には、連続分布型HMMで
は各状態(もしくは各遷移)での出力確率演算における
1個もしくは複数個の平均特徴ベクトルが、音声特徴ベ
クトルに対しコードブックによるベクトル量子化処理を
行う離散分布型HMMでは各状態(もしくは各遷移)に
おいて出力確率をもつ1個もしくは複数個のコードラベ
ルの特徴ベクトルが標準音声特徴ベクトルとなる。ま
た、上記実施例の説明において述べたように、特徴ベク
トル合成手段16における標準音声特徴ベクトルと雑音
特徴ベクトルとの合成には標準音声特徴ベクトルのパワ
ー情報が必要となるため、パワー情報を含めた音声特徴
ベクトルの出力確率を扱うHMMを用いる。
【0078】雑音モデルメモリ8に記憶される雑音モデ
ルも雑音を表現するHMMであってかまわず、この場合
の雑音特徴ベクトルは、音声モデルの場合と同様にHM
Mの各状態(もしくは各遷移)において出力確率をもつ
雑音の特徴ベクトルがこれにあたる。また、雑音モデル
間での遷移確率をもたせることで1個の大きな雑音モデ
ルを用いてもかまわない。
【0079】類似度演算手段5では、HMMの各状態
(もしくは各遷移)において雑音重畳入力音声特徴ベク
トル時系列の各特徴ベクトルが出力される確率を演算
し、類似度データとして出力する。照合手段6は、類似
度演算手段5の出力であるところの類似度データを用い
て、雑音重畳入力音声と各カテゴリのHMMとの、雑音
モデルの制約の下での照合を行い、類似度が最大になる
HMMのカテゴリを認識結果として出力する。
【0080】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項1に係る実施例は
認識対象を単語に限定するものではなく、音声における
他の発声単位を用いてもかまわない。
【0081】また類似度演算手段において、特徴ベクト
ルである自己相関係数から得られるあらゆる音響パラメ
ータ、例えばLSPパラメータやLPCメルケプストラ
ム係数、声道断面積関数を用いた類似度や、同じく自己
相関係数から得られるパラメータを用いたあらゆる距離
尺度、例えばLPCメルケプストラム係数のユークリッ
ド距離や、WLR距離、WGD距離尺度、群遅延スペク
トル距離、重み付けケプストラムのユークリッド距離、
またこれらユークリッド距離の代わりにチェビシェフ距
離などを用いた類似度を採用してもかまわない。
【0082】加えて、音響分析によるところの特徴ベク
トルを自己相関係数のみに限定することなく、他の音響
パラメータを付与した特徴ベクトルを用い、これによる
類似度により照合を行ってもかまわない。
【0083】実施例2. 図2は、この発明に係る音声認識装置の別な実施例の構
成を示すブロック図である。図において、1は入力端、
2は音響分析手段、3は音声モデルメモリ、5は類似度
演算手段、6は照合手段、7は認識結果、8は雑音モデ
ルメモリ、9は線形予測分析手段、10は最尤パラメー
タメモリ、11は音声残差パワーメモリ、12、雑音残
差演算手段、13は雑音残差パワーメモリ、14は残差
パワー演算手段、15はSN比演算手段、16は特徴ベ
クトル合成手段で、図1に同一符号を付した構成要素と
同一部分であるため詳細な説明は省略する。
【0084】また、17は前記類似度演算手段5の出力
である類似度データを入力として雑音重畳入力音声と音
声モデルとの類似度を最大とする最適照合パスを求める
最適照合パス決定手段、18は前記SN比演算手段の出
力であるSN比と前記音響分析手段2の出力である雑音
重畳入力音声特徴ベクトル時系列と前記雑音モデルメモ
リ8に記憶されている雑音モデルの雑音特徴ベクトルと
を用いて重畳雑音特徴ベクトルを生成する重畳雑音生成
手段、19は最適照合パス決定手段17の出力である照
合パスデータに従い重畳雑音生成手段18の出力である
重畳雑音特徴ベクトルから入力雑音特徴ベクトル時系列
を求める重畳雑音決定手段である。
【0085】20は前記音声モデルメモリ3に記憶され
ている音声モデルの標準音声特徴ベクトルと音響分析手
段2の出力である雑音重畳入力音声特徴ベクトル時系列
とSN比演算手段15の出力であるSN比と最適照合パ
ス決定手段17の出力である照合パスデータとを用いて
雑音重畳入力音声と音声モデルとのパワー比を求めるパ
ワー比決定手段、21は音響分析手段2の出力である雑
音重畳入力音声特徴ベクトル時系列と重畳雑音決定手段
19の出力である入力雑音特徴ベクトル時系列とパワー
比決定手段20の出力である音声パワー比と音声モデル
メモリ3に記憶されている音声モデルの標準音声特徴ベ
クトルとを用いて雑音重畳入力音声特徴ベクトル時系列
の各特徴ベクトルに対し標準音声特徴ベクトルとの雑音
適応化類似度を演算する雑音適応化類似度演算手段であ
る。
【0086】次に動作について、まずDPマッチング法
を照合手段7および最適照合パス決定手段17に採用し
た離散単語認識の場合を例に説明を行う。音声モデルメ
モリ3及び雑音モデルメモリ8の記憶内容及び、雑音重
畳入力音声信号の入力端1への入力から、類似度演算手
段5までの動作は、上記実施例1の場合と同一であるの
で説明を省く。
【0087】重畳雑音生成手段18は、音響分析手段2
の出力であるところの雑音重畳入力音声特徴ベクトル時
系列{X(i)|i=1,2,…,I}の各特徴ベクトル
X(i)に対し、SN比演算手段15の出力であるとこ
ろのSN比Rki,j,n(k=1,2,…,K、j=1,2,…,
JK、i=1,2,…,I、n=1,2,…,N)を用いて
(15)式のように重畳雑音パワーηki,j,n(k=1,
2,…,K、j=1,2,…,JK、n=1,2,…,N)を求
める。ただし、X(i)のパワーは自己相関係数ベクト
ルの0次元要素を用い、x0(i)とする。
【0088】
【数15】
【0089】次いで、雑音モデルメモリ8に記憶されて
いる雑音モデルの雑音特徴ベクトル{Zn|n=1,2,
…,N}のスペクトル形状を保存したままパワーだけを
重畳雑音パワーηki,j,nと一致させた重畳雑音特徴ベク
トルUki,j,nを生成する。すなわち、雑音特徴ベクトル
Znの正規化自己相関係数ベクトルの各次元要素に対し
重畳雑音パワーηki,j,nを掛けた値をUki,j,nの各次元
要素とする。
【0090】このようにして得られる雑音重畳特徴ベク
トルUki,j,nは、雑音重畳入力音声特徴ベクトル時系列
の中の特徴ベクトルX(i)に対し、標準音声特徴ベク
トルSk(j)と雑音特徴ベクトルZnとを用いて求めた
SN比Rki,j,nによるパワーと雑音特徴ベクトルZnの
スペクトル形状をもつ。
【0091】最適照合パス決定手段17は、前記類似度
演算手段5の出力である類似度データD1ki,j,n(k=
1,2,…,K、j=1,2,…,JK、i=1,2,…,I、n
=1,2,…,N)を用い、カテゴリkの音声モデルと雑
音重畳入力音声との照合を雑音モデルの制約の下で行
い、各音声モデルとの類似度を最大にする最適照合パス
を求める。照合処理自体は、実施例1の照合手段6にお
ける処理と同じであるので詳細な説明は省く。
【0092】ここでは、雑音重畳入力音声とカテゴリk
の音声モデルとの照合による最適照合パスを、L=1,
2,…,Lkなる変数に対し一意に値をとる3つの関数f
k(L)、gk(L)、hk(L)として表現する。f
k(L)はiについて、gk(L)はjについて、hk
(L)はnについての関数であり、L=1,2,…,Lkに
ついて(16)式を満たす。
【0093】
【数16】
【0094】重畳雑音決定手段19は、重畳雑音生成手
段18の出力であるところの重畳雑音特徴ベクトルUk
i,j,n(k=1,2,…,K、j=1,2,…,JK、i=1,
2,…,I、n=1,2)と最適照合パス決定手段17の出力で
あるところの照合パスデータを入力とし、雑音重畳入力
音声とカテゴリkの音声モデルとの類似度を最大にする
照合パス上の重畳雑音特徴ベクトルについて、kおよび
iを同じくする重畳雑音特徴ベクトルの平均特徴ベクト
ルを求め、これを入力雑音特徴ベクトルVk(i)とす
る。
【0095】すなわち、音声モデルのあるカテゴリk
(k=1,2,…,K)についてL=1,2,…,Lkとした
時、fk(L)を同じくする重畳雑音特徴ベクトルUkf
k(L),gk(L),hk(L)の平均特徴ベクトルを求め、入力雑音
特徴ベクトルVk(fk(L))とする。これにより、
入力雑音特徴ベクトル時系列{Vk(i)|i=1,2,
…,I}(k=1,2,…,K)が得られる。
【0096】以上のように本重畳雑音決定手段は、実施
例1の雑音重畳入力音声とカテゴリkの音声モデルとの
照合手法により得られた照合パスに従い、雑音重畳入力
音声特徴ベクトル時系列の各特徴ベクトルに対する入力
雑音特徴ベクトルを求める。
【0097】パワー比決定手段20は、SN比演算手段
15の出力であるSN比と音響分析手段2の出力である
雑音重畳入力音声特徴ベクトル時系列と音声モデルメモ
リ3に記憶されている音声モデルの標準音声特徴ベクト
ルと最適照合パス決定手段17の出力である照合パスデ
ータを入力とし、雑音重畳入力音声とカテゴリkの音声
モデルとの類似度を最大にする照合パスにおいてSN比
が閾値Rtを越える部分区間に対し、これに対応する音
声モデルの標準音声特徴ベクトルのパワーの平均値を求
める。ついで、照合パス上の同部分区間に対応する雑音
重畳入力音声特徴ベクトル時系列中の各特徴ベクトルに
対し、照合パス上のSN比との演算により特徴ベクトル
における音声信号のパワーを求め、この平均値と音声モ
デルの標準音声特徴ベクトルから得られたパワー平均値
との比を音声パワー比とする。
【0098】すなわち照合パスデータにおいて、音声モ
デルのあるカテゴリk(k=1,2,…,K)について
L=1,2,…,Lkとした時、SN比Rkfk(L),gk(L),hk
(L)が閾値Rtを越えるLについて、標準音声特徴ベク
トルSk(gk(L))のパワーの平均して音声モデル
パワーを求め、ついで同じLについて、雑音重畳入力音
声特徴ベクトルX(fk(L))とSN比Rkfk(L),gk
(L),hk(L)とから(17)式により得られる音声パワー
ζk(fk(L)i)を平均して入力音声パワーを求め
る。
【0099】
【数17】
【0100】前記入力音声パワーを前記音声モデルパワ
ーで割った値を雑音重畳入力音声とカテゴリkの音声モ
デルとの照合による音声パワー比εkとして出力する。
以上のように本パワー比決定手段は、請求項1の発明に
なる雑音重畳入力音声とカテゴリkの音声モデルとの照
合手法により得られた照合パスに従い、入力音声と音声
モデルとの音声パワー比を求める。
【0101】雑音適応化類似度演算手段21は、まず音
声モデルメモリ3に記憶されているカテゴリk(k=
1,2,…,K)の音声モデルの標準音声特徴ベクトル
{Sk(j)|j=1,2,…,Jk}に対し、パワー比決
定手段20の出力であるところの音声パワー比εkを用
いて、カテゴリkの音声モデルの音声モデルパワーと雑
音重畳入力音声の入力音声パワーとが一致するようにパ
ワー補正を行い、パワー正規化標準音声特徴ベクトルT
k(j)|j=1,2,…,Jk}を得る。パワー補正は、
標準音声特徴ベクトルの自己相関係数ベクトルSk
(j)の各次元要素に音声パワー比εkを掛けることで
行う。
【0102】ついで、音響分析手段2の出力である雑音
重畳入力音声特徴ベクトル時系列{X(i)|i=1,
2,…,I}の各特徴ベクトルに対し、重畳雑音決定手段
19の出力である入力雑音特徴ベクトル時系列{Vk
(i)|i=1,2,…,I}を用いて、パワー正規化標
準音声特徴ベクトルTk(j)との雑音適応化類似度D2
k(i,j)を(18)式のように求める。
【0103】
【数18】
【0104】式中、d(*,*)は括弧内の2つの自己
相関係数ベクトルの間に定義される類似度で、例えばそ
れぞれの自己相関係数をLPC分析して得られるLPC
ケプストラムベクトルのユークリッド距離の逆数であ
る。また、式中におけるTk(j)とVk(i)の和は、
2つの特徴ベクトルの各次元要素の和によるベクトルの
合成を示す。
【0105】これにより類似度D2k(i,j)は、請求
項1の発明になる雑音重畳入力音声とカテゴリkの音声
モデルとの照合手法に基づき得られた、雑音重畳入力音
声特徴ベクトルX(i)に対する入力重畳雑音特徴ベク
トルVk(i)による、パワー正規化標準音声特徴ベク
トルTk(i)への雑音適応化機能をもつ類似度演算手
法となっている。
【0106】照合手段6は、雑音適応化類似度データD
2k(i,j)(i=1,2,…,I、j=1,2,…,Jk、
k=1,2,…,K)を用いて、雑音重畳入力音声とカテ
ゴリkの音声モデルとの照合を行い、類似度が最大にな
る音声モデルのカテゴリを認識結果7として出力する。
以上、この発明に係わる実施例2については、DPマッ
チングによる照合を行う場合を例に採り説明を行った
が、実施例1の場合と同様に、最適照合パス決定手段1
7及び照合手段6における雑音重畳入力音声と音声モデ
ルとの照合方式よび類似度演算手段5については実施例
1と同じであるので説明を省く。
【0107】最適照合パス決定手段17においては、類
似度演算手段5の出力である類似度データを用いて、雑
音モデルの制約の下での、雑音重畳入力音声と各カテゴ
リのHMMとのビタビ照合パスを出力する。この時、音
声モデル及び雑音モデルについての照合パスデータは、
変数Lに対しHMMの各状態(もしくは各遷移)を規定
する関数ではなく、各状態(もしくは各遷移)において
雑音重畳入力音声との類似度を最大にする標準音声(も
しくは雑音)特徴ベクトルを規定するものとする。
【0108】これは、音声モデル及び雑音モデルに離散
型HMMや混合連続分布型HMMを用いた場合、HMM
の各状態(もしくは各遷移)における標準音声(もしく
は雑音)特徴ベクトルが複数個あるためである。雑音適
応化類似度演算手段21においては、HMMの各状態
(もしくは各遷移)において雑音重畳入力音声特徴ベク
トル時系列の各特徴ベクトルが出力される確率を演算
し、類似度データとして出力する。照合手段6は、類似
度演算手段5の出力であるところの類似度データを用い
て、雑音重畳入力音声と各カテゴリのHMMとの照合を
行い、類似度が最大になるHMMのカテゴリを認識結果
として出力する。この時の照合方式は、ビタビに限定さ
れない。
【0109】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項2に係る実施例
は、実施例1の場合と同様、認識対象を単語に限定する
ものではなく、音声における他の発声単位を用いてもか
まわない。また類似度演算手段においても、実施例1の
場合と同様、特徴ベクトルである自己相関係数から得ら
れるあらゆる音響パラメータ、例えばLSPパラメータ
やLPCメルケプストラム係数、声道断面積関数を用い
た類似度や、同じく自己相関係数から得られるパラメー
タを用いたあらゆる距離尺度、例えばLPCメルケプス
トラム係数のユークリッド距離や、WLR距離、WGD
距離尺度、群遅延スペクトル距離、重み付けケプストラ
ムのユークリッド距離、またこれらユークリッド距離の
代わりにチェビシェフ距離などを用いた類似度を採用し
てもかまわない。加えて、音響分析によるところの特徴
ベクトルを自己相関係数のみに限定することなく、他の
音響パラメータを付与した特徴ベクトルを用い、これに
よる類似度により照合を行ってもかまわない。
【0110】実施例3. 図3は、この発明に係る音声認識装置の別な実施例の構
成を示すブロック図である。図において、1は入力端、
2は音響分析手段、3は音声モデルメモリ、5は類似度
演算手段、6は照合手段、7は認識結果、8は雑音モデ
ルメモリ、9は線形予測分析手段、10は最尤パラメー
タメモリ、11は音声残差パワーメモリ、12、雑音残
差演算手段、13は雑音残差パワーメモリ、14は残差
パワー演算手段、15はSN比演算手段、16は特徴ベ
クトル合成手段、17は最適照合パス決定手段、18は
重畳雑音生成手段、19は重畳雑音決定手段で、図2に
同一符号を付した構成要素と同一部分であるため詳細な
説明は省略する。
【0111】また、22は前記音響分析手段2の出力で
あるところの雑音重畳入力音声特徴ベクトルと前記重畳
雑音決定手段19の出力であるところの入力雑音特徴ベ
クトル時系列と音声モデルメモリ3に記憶されている音
声モデルの標準音声特徴ベクトルとを入力とし、雑音重
畳入力音声特徴ベクトルに対し入力雑音特徴ベクトル時
系列を用いた雑音除去処理を行った後標準音声特徴ベク
トルとの類似度を求める雑音除去類似度演算手段であ
る。
【0112】次に動作について、まずDPマッチング法
を照合手段7および最適照合パス決定手段17に採用し
た離散単語認識の場合を例に説明を行う。音声モデルメ
モリ3及び雑音モデルメモリ8の記憶内容及び、雑音重
畳入力音声信号の入力端1への入力から、重畳雑音決定
手段19までの動作は、上記実施例2の場合と同一であ
るので説明を省く。
【0113】雑音除去類似度演算手段22は、前記音響
分析手段2の出力であるところの雑音重畳入力音声特徴
ベクトル時系列{X(i)|i=1,2,…,I}の各特
徴ベクトルに対し、前記重畳雑音決定手段19の出力で
あるところの入力雑音特徴ベクトル時系列{Vk(i)
|i=1,2,…,I}による雑音除去を施した後、音声
モデルメモリ3に記憶されている音声モデルの標準音声
特徴ベクトルSk(j)との類似度を(19)式のよう
に求める。
【0114】
【数19】
【0115】式中、d(*,*)は括弧内の2つの自己
相関係数ベクトルの間に定義される類似度で、例えばそ
れぞれの自己相関係数をLPC分析して得られるLPC
ケプストラムベクトルのユークリッド距離の逆数であ
る。また、式中におけるX(i)からVk(i)の減算
は、X(i)の各次元要素からVk(i)の各次元要素
を減算する、ベクトルの引き算を示している。
【0116】これは、請求項1の発明になる雑音重畳入
力音声とカテゴリkの音声モデルとの照合手法に基づき
得られた入力重畳雑音特徴ベクトルVk(i)による、
雑音重畳入力音声に対する雑音除去機能をもつ類似度演
算になっている。該雑音除去類似度演算手段はi=1,
2,…,I、j=1,2,…,Jk、k=1,2,…,Kについ
て雑音除去類似度D3k(i,j)を出力する。
【0117】照合手段6は、前記雑音除去類似度演算手
段22の出力である雑音除去類似度D3k(i,j)を入
力とし、実施例2における照合手段6と同様に、雑音重
畳入力音声とカテゴリkの音声モデルとの照合を行い、
類似度が最大になる音声モデルのカテゴリを認識結果7
として出力する。
【0118】以上、この発明に係わる実施例3について
は、DPマッチングによる照合を行う場合を例に採り説
明を行ったが、実施例2の場合と同様に、最適照合パス
決定手段17及び照合手段6における雑音重畳入力音声
と音声モデルとの照合方式はDPマッチングに限定され
るものではなく、例えばHMMによる認識手法を用いて
もかまわない。この場合の音声モデルメモリ3、雑音モ
デルメモリ8、類似度演算手段5、最適照合パス決定手
段17については実施例2と同じであるので説明を省
く。
【0119】雑音除去類似度演算手段21においては、
HMMの各状態(もしくは各遷移)において、入力雑音
特徴ベクトル時系列による雑音除去処理を施した雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルが出力
される確率を演算し、類似度データとして出力する。照
合手段6は、類似度演算手段5の出力であるところの類
似度データを用いて、雑音重畳入力音声と各カテゴリの
HMMとの照合を行い、類似度が最大になるHMMのカ
テゴリを認識結果として出力する。この時の照合方式
は、ビタビに限定されない。
【0120】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項3に係る実施例
は、実施例2の場合と同様、認識対象を単語に限定する
ものではなく、音声における他の発声単位を用いてもか
まわない。
【0121】また類似度演算手段においても、実施例2
の場合と同様、特徴ベクトルである自己相関係数から得
られるあらゆる音響パラメータ、例えばLSPパラメー
タやLPCメルケプストラム係数、声道断面積関数を用
いた類似度や、同じく自己相関係数から得られるパラメ
ータを用いたあらゆる距離尺度、例えばLPCメルケプ
ストラム係数のユークリッド距離や、WLR距離、WG
D距離尺度、群遅延スペクトル距離、重み付けケプスト
ラムのユークリッド距離、またこれらユークリッド距離
の代わりにチェビシェフ距離などを用いた類似度を採用
してもかまわない。
【0122】加えて、音響分析によるところの特徴ベク
トルを自己相関係数のみに限定することなく、他の音響
パラメータを付与した特徴ベクトルを用い、これによる
類似度により照合を行ってもかまわない。とくに、雑音
除去類似度演算手段22における自己相関係数上での雑
音除去処理は、雑音除去後の自己相関係数ベクトルが非
現実的な値をとりLPC分析が行えなくなる場合があ
り、これを避けるため、音響分析にDFTによるスペク
トル分析を加えパワースペクトルを特徴ベクトルに含め
ることで、雑音除去類似度演算手段22における雑音除
去処理を、パワースペクトル上で行い、雑音除去後のパ
ワースペクトルがマイナスの値をとった周波数について
は0で置き換えた後、このパワースペクトルに対し逆D
FT演算を行うことで導出された自己相関係数を特徴ベ
クトルとして用いることができる。また、雑音除去にお
ける問題が回避できる他の特徴ベクトル、例えばフィル
タバンクの出力などを用いてもかまわない。
【0123】実施例4. 図4は、この発明に係る音声認識装置の別な実施例の構
成を示すブロック図である。図において、1は入力端、
2は音響分析手段、3は音声モデルメモリ、5は類似度
演算手段、6は照合手段、7は認識結果、8は雑音モデ
ルメモリ、9は線形予測分析手段、10は最尤パラメー
タメモリ、11は音声残差パワーメモリ、12、雑音残
差演算手段、13は雑音残差パワーメモリ、14は残差
パワー演算手段、15はSN比演算手段、16は特徴ベ
クトル合成手段、17は最適照合パス決定手段、18は
重畳雑音生成手段、20はパワー比決定手段であり、図
2に同一符号を付した構成要素と同一部分であるため詳
細な説明は省略する。
【0124】また、23は最適照合パス決定手段17の
出力である照合パスデータに従い重畳雑音生成手段18
の出力である重畳雑音特徴ベクトルから付加雑音特徴ベ
クトルを求める付加雑音決定手段、24は付加雑音決定
手段23の出力である付加雑音特徴ベクトルを用いて音
声モデルメモリ3に記憶されている音声モデルの標準音
声特徴ベクトルに対する雑音付加処理を施し雑音付加標
準音声特徴ベクトルを出力する雑音付加手段、25は音
響分析手段2の出力であるところの雑音重畳入力音声特
徴ベクトル時系列と雑音付加手段24の出力であるとこ
ろの雑音付加標準音声特徴ベクトルとの類似度を求める
類似度演算手段である。
【0125】次に動作について、まずDPマッチング法
を照合手段7および最適照合パス決定手段17に採用し
た離散単語認識の場合を例に説明を行う。音声モデルメ
モリ3及び雑音モデルメモリ8の記憶内容及び、雑音重
畳入力音声信号の入力端1への入力から、パワー比決定
手段20までの動作は、上記実施例2の場合と同一であ
るので説明を省く。
【0126】付加雑音決定手段23は、前記重畳雑音生
成手段18の出力であるところの重畳雑音特徴ベクトル
Uki,j,n(k=1,2,…,K、j=1,2,…,JK、i=
1,2,…,I、n=1,2)と前記最適照合パス決定手段
17の出力であるところの照合パスデータとパワー比決
定手段20の出力であるところの音声パワー比εkを入
力とし、雑音重畳入力音声とカテゴリkの音声モデルと
の類似度を最大にする照合パス上の重畳雑音特徴ベクト
ルについて、kおよびjを同じくする重畳雑音特徴ベク
トルの平均特徴ベクトルを求め、これを音声パワー比ε
kでパワー補正し、付加雑音特徴ベクトルWk(j)とす
る。
【0127】すなわち、まず音声モデルのあるカテゴリ
k(k=1,2,…,K)についてL=1,2,…,Lkとし
た時、gk(L)を同じくする重畳雑音特徴ベクトルU
kfk(L),gk(L),hk(L)の平均特徴ベクトルを求め、ついで
この平均特徴ベクトルの各次元要素を音声パワー比εk
で割ることで得られた特徴ベクトルを付加雑音特徴ベク
トルWk(gk(L))とする。これにより、付加雑音
特徴ベクトル{Wk(j)|j=1,2,…,Jk}(k=
1,2,…,K)が得られる。
【0128】以上の動作により本付加雑音決定手段は、
実施例1の雑音重畳入力音声とカテゴリkの音声モデル
との照合手法に基づき、標準音声特徴ベクトルに対する
付加雑音特徴ベクトルを求める。
【0129】雑音付加手段24は、音声モデルメモリ3
に記憶されている音声モデルの標準音声特徴ベクトル
{Sk(j)|j=1,2,…,Jk}(k=1,2,…,K)
に対し、付加雑音決定手段23の出力である付加雑音特
徴ベクトル{Wk(j)|j=1,2,…,Jk}(k=1,
2,…,K)を用いて、(20)式のように雑音付加標準
音声特徴ベクトル{Yk(j)|j=1,2,…,Jk}
(k=1,2,…,K)を求める。
【0130】
【数20】
【0131】式中のベクトル和は、特徴ベクトルの各次
元要素毎の和により行う。
【0132】類似度演算手段25は、音響分析手段2の
出力であるところの雑音重畳入力音声特徴ベクトル時系
列{X(i)|i=1,2,…,I}と前記雑音付加手段
の出力であるところの雑音付加標準音声特徴ベクトル
{Yk(j)|j=1,2,…,Jk}(k=1,2,…,
K)との類似度D4k(i,j)を(21)式に従い求め
る。
【0133】
【数21】
【0134】式中、d(*,*)は括弧内の2つの自己
相関係数ベクトルの間に定義される類似度で、例えばそ
れぞれの自己相関係数をLPC分析して得られるLPC
ケプストラムベクトルのユークリッド距離の逆数であ
る。
【0135】照合手段6は、前記類似度演算手段25の
出力であるところの類似度データD4k(i,j)(i=
1,2,…,I、j=1,2,…,Jk、k=1,2,…,K)を
入力として、雑音重畳入力音声とカテゴリkの音声モデ
ルとの照合を行い、類似度を最大にする音声モデルのカ
テゴリを認識結果7として出力する。
【0136】以上、この発明に係わる実施例4について
は、DPマッチングによる照合を行う場合を例に採り説
明を行ったが、他の実施例の場合と同様に、最適照合パ
ス決定手段17及び照合手段6における雑音重畳入力音
声と音声モデルとの照合方式はDPマッチングに限定さ
れるものではなく、例えばHMMによる認識手法を用い
てもかまわない。この場合の音声モデルメモリ3、雑音
モデルメモリ8、類似度演算手段5、最適照合パス決定
手段17については実施例2と同じであるので説明を省
く。
【0137】類似度演算手段25では、HMMの各状態
(もしくは各遷移)における標準音声特徴ベクトルに対
応する雑音付加標準音声特徴ベクトルを用いて、雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルが出力
される確率を演算し、類似度データとして出力する。照
合手段6は、類似度演算手段5の出力であるところの類
似度データを用いて、雑音重畳入力音声と各カテゴリの
HMMとの照合を行い、類似度が最大になるHMMのカ
テゴリを認識結果として出力する。この時の照合方式
は、ビタビに限定されない。
【0138】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項4に係る実施例
は、他の実施例の場合と同様、認識対象を単語に限定す
るものではなく、音声における他の発声単位を用いても
かまわない。
【0139】また類似度演算手段においても、他の実施
例の場合と同様、特徴ベクトルである自己相関係数から
得られるあらゆる音響パラメータ、例えばLSPパラメ
ータやLPCメルケプストラム係数、声道断面積関数を
用いた類似度や、同じく自己相関係数から得られるパラ
メータを用いたあらゆる距離尺度、例えばLPCメルケ
プストラム係数のユークリッド距離や、WLR距離、W
GD距離尺度、群遅延スペクトル距離、重み付けケプス
トラムのユークリッド距離、またこれらユークリッド距
離の代わりにチェビシェフ距離などを用いた類似度を採
用してもかまわない。
【0140】加えて、音響分析によるところの特徴ベク
トルを自己相関係数のみに限定することなく、他の音響
パラメータを付与した特徴ベクトルを用い、これによる
類似度により照合を行ってもかまわない。
【0141】なお、上記4つの実施例では専用のハード
ウェアにて構成するものを示したが、汎用の計算機は信
号処理プロセッサにおけるソフトウェア処理によって実
現するようにしても良い。
【0142】
【発明の効果】この発明は、以上説明したように構成さ
れているので、以下に記載されるような効果を奏する。
【0143】この発明においては、雑音重畳入力音声特
徴ベクトル時系列の各特徴ベクトルに対し、音声モデル
メモリに記憶されている音声モデルの標準音声特徴ベク
トルと雑音モデルメモリに記憶されている雑音モデルの
雑音特徴ベクトルとの全ての組み合わせによるSN比演
算を行い、次いで、このSN比に合わせて標準音声特徴
ベクトルと雑音特徴ベクトルとの合成を行い、得られた
雑音重畳音声特徴ベクトルと該雑音重畳入力音声特徴ベ
クトル時系列中の特徴ベクトルとの類似度を求め、この
類似度データを用いて雑音モデルの制約の下で雑音重畳
音声と音声モデルとの照合を行う照合手法に基づき得ら
れる照合パスに従い、雑音重畳入力音声における入力雑
音特徴ベクトル時系列を求め、これを用いてパワー正規
化音声モデルと雑音重畳入力音声との雑音適応化類似度
演算を行い再照合を行っているので、重畳雑音およびS
N比が大きく変動するような非定常雑音重畳入力音声に
対しても良好な認識性能が得られる。
【0144】
【0145】また、別の発明においては、上述の発明
おける雑音重畳入力音声と音声モデルとの照合手法に基
づき得られる照合パスに従い、雑音重畳入力音声におけ
る入力雑音特徴ベクトル時系列を求め、該入力雑音特徴
ベクトル時系列による雑音除去処理を施した雑音重畳入
力音声と音声モデルとの類似度演算を行い再照合を行っ
ているので、重畳雑音及びSN比が大きく変動するよう
な非定常雑音重畳入力音声に対しても良好な認識性能が
得られる。
【0146】また、別の発明においては、上述の発明
おける雑音重畳入力音声と音声モデルとの照合手法に基
づき得られる照合パスに従い、音声モデルの標準音声特
徴ベクトルに付加する雑音特徴ベクトルを求め、該雑音
特徴ベクトルを付加した音声モデルと雑音重畳入力音声
との類似度演算を行い再照合をしているので、重畳雑音
およびSN比が大きく変動するような非定常雑音重畳入
力音声に対しても良好な認識性能が得られる。
【図面の簡単な説明】
【図1】この発明の実施例1による音声認識装置を示す
ブロック図である。
【図2】この発明の実施例2による音声認識装置を示す
ブロック図である。
【図3】この発明の実施例3による音声認識装置を示す
ブロック図である。
【図4】この発明の実施例4による音声認識装置を示す
ブロック図である。
【図5】従来の音声認識装置を示すブロック図である。
【符号の説明】
1 入力端 2 音響分析手段 3 音声モデルメモリ 5 類似度演算手段 6 照合手段 7 認識結果 8 雑音モデルメモリ 9 線形予測分析手段 10 最尤パラメータメモリ 11 音声残差パワーメモリ 12 雑音残差演算手段 13 雑音残差パワーメモリ 14 残差パワー演算手段 15 SN比演算手段 16 特徴ベクトル合成手段 17 最適照合パス決定手段 18 重畳雑音生成手段 19 重畳雑音決定手段 20 パワー比決定手段 21 雑音適応化類似度演算手段 22 雑音除去類似度演算手段 23 付加雑音決定手段 24 雑音付加手段 25 類似度演算手段
フロントページの続き (56)参考文献 日本音響学会平成4年度春季研究発表 会講演論文集▲I▼,1−1−12,鈴木 忠外「非定常雑音下における音声認識手 法の検討」p.23−24(平成4年3月17 日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/20 G10L 15/10 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 相異なる音声を表現する音声モデルを持
    ち、未知入力音声と前記音声モデルとの照合により音声
    認識を行う音声認識装置において、雑音が重畳した未知
    入力音声信号に対し設定される複数個の分析フレームの
    各々について音響分析を行い雑音重畳入力音声特徴ベク
    トル時系列を出力する音響分析手段と、音声信号に重畳
    する雑音の特徴ベクトル時系列を表現する雑音モデルを
    記憶する雑音モデルメモリと、標準音声の特徴ベクトル
    時系列を表現する音声モデルを記憶する音声モデルメモ
    リと、音声モデルメモリに記憶されている音声モデルの
    標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
    ラメータと標準音声残差パワーを求める線形予測分析手
    段と、雑音モデルメモリに記憶されている雑音モデルの
    雑音特徴ベクトルを入力し、線形予測分析手段の出力で
    ある最尤パラメータとの積和演算を行い雑音残差パワー
    を求める雑音残差演算手段と、音響分析手段の出力であ
    雑音重畳入力音声特徴ベクトル時系列の各特徴ベクト
    ルに対し、線形予測分析手段の出力である最尤パラメー
    タとの積和演算を行い雑音重畳入力音声残差パワーを求
    める残差パワー演算手段と、残差パワー演算手段の出力
    である雑音重畳入力音声残差パワーと線形予測分析手段
    の出力である標準音声残差パワーと雑音残差演算手段の
    出力である雑音残差パワーとを用いて雑音重畳入力音声
    のSN比を求めるSN比演算手段と、SN比演算手段の
    出力であるSN比に従い音声モデルメモリ上の標準音声
    特徴ベクトルと雑音モデルメモリ上の雑音特徴ベクトル
    の合成を行い雑音重畳音声特徴ベクトルを生成する特徴
    ベクトル合成手段と、音響分析手段の出力である雑音重
    畳入力音声特徴ベクトル時系列の各特徴ベクトルに対し
    特徴ベクトル合成手段の出力である雑音重畳音声特徴ベ
    クトルとの類似度を演算する類似度演算手段と、類似度
    演算手段の出力である類似度データを入力として音声モ
    デルと雑音重畳入力音声特徴ベクトル時系列との最適照
    合パスを求める最適照合パス決定手段と、音響分析手段
    の出力である雑音重畳入力音声特徴ベクトル時系列にお
    ける各特徴ベクトルに対しSN比演算手段の出力である
    SN比と雑音モデルメモリ上の雑音特徴ベクトルとを用
    いて重畳雑音特徴ベクトルを生成する重畳雑音生成手段
    と、最適照合パス決定手段の出力である照合パスデータ
    と重畳雑音生成手段の出力である重畳雑音特徴ベクトル
    とを用いて入 力雑音特徴ベクトル時系列を求める重畳雑
    音決定手段と、SN比演算手段の出力であるSN比と音
    響分析手段の出力である雑音重畳入力音声特徴ベクトル
    時系列と音声モデルメモリ上の標準音声特徴ベクトルと
    最適照合パス決定手段の出力である照合パスデータとを
    入力として音声パワー比を求めるパワー比決定手段と、
    音響分析手段の出力である雑音重畳入力音声特徴ベクト
    ル時系列と音声モデルメモリ上の標準音声特徴ベクトル
    と重畳雑音決定手段の出力である入力雑音特徴ベクトル
    時系列とパワー比決定手段の出力である音声パワー比と
    を入力として雑音重畳入力音声特徴ベクトル時系列の各
    特徴ベクトルと音声モデルメモリ上の標準音声特徴ベク
    トルとの雑音適応化類似度を演算する雑音適応化類似度
    演算手段と、雑音適応化類似度演算手段の出力である雑
    音適応化類似度データを用いて照合を行い認識結果を出
    力する照合手段を備えたことを特徴とする音声認識装
    置。
  2. 【請求項2】 相異なる音声を表現する音声モデルを持
    ち、未知入力音声と前記音声モデルとの照合により音声
    認識を行う音声認識装置において、雑音が重畳した未知
    入力音声信号に対し設定される複数個の分析フレームの
    各々について音響分析を行い雑音重畳入力音声特徴ベク
    トル時系列を出力する音響分析手段と、音声信号に重畳
    する雑音の特徴ベクトル時系列を表現する雑音モデルを
    記憶する雑音モデルメモリと、標準音声の特徴ベクトル
    時系列を表現する音声モデルを記憶する音声モデルメモ
    リと、音声モデルメモリに記憶されている音声モデルの
    標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
    ラメータと標準音声残差パワーを求める線形予測分析手
    段と、雑音モデルメモリに記憶されている雑音モデルの
    雑音特徴ベクトルを入力として線形予測分析手段の出力
    である最尤パラメータとの積和演算を行い雑音残差パワ
    ーを求める雑音残差演算手段と、音響分析手段の出力で
    ある雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
    トルに対し線形予測分析手段の出力である最尤パラメー
    タとの積和演算を行い雑音重畳入力音声残差パワーを求
    める残差パワー演算手段と、残差パワー演算手段の出力
    である雑音重畳入力音声残差パワーと線形予測分析手段
    の出力である標準音声残差パワーと雑音残差演算手段の
    出力である雑音残差パワーとを用いて雑音重畳入力音声
    のSN比を求めるSN比演算手段と、SN比演算手段の
    出力であるSN比に従い音声モデルメモリ上の標準音声
    特徴ベクトルと雑音モデルメモリ上の雑音特徴ベクトル
    の合成を行い雑音重畳音声特徴ベクトルを生成する特徴
    ベクトル合成手段と、音響分析手段の出力である雑音重
    畳入力音声特徴ベクトル時系列の各特徴ベクトルに対し
    特徴ベクトル合成手段の出力である雑音重畳音声特徴ベ
    クトルとの類似度を演算する類似度演算手段と、類似度
    演算手段の出力である類似度データを入力として音声モ
    デルと雑音重畳入力音声特徴ベクトル時系列との最適照
    合パスを求める最適照合パス決定手段と、音響分析手段
    の出力である雑音重畳入力音声特徴ベクトル時系列にお
    ける各特徴ベクトルに対しSN比演算手段の出力である
    SN比と雑音モデルメモリ上の雑音特徴ベクトルとを用
    いて重畳雑音特徴ベクトルを生成する重畳雑音生成手段
    と、最適照合パス決定手段の出力である照合パスデータ
    と重畳雑音生成手段の出力である重畳雑音特徴ベクトル
    とを用いて入力雑音特徴ベクトル時系列を求める重畳雑
    音決定手段と、音響分析手段の出力である雑音重畳入力
    音声特徴ベクトル時系列と音声モデルメモリ上の標準音
    声特徴ベクトルと重畳雑音決定手段の出力である入力雑
    音特徴ベクトル時系列とを入力として雑音重畳入力音声
    特徴ベクトル時系列の各特徴ベクトルと音声モデルメモ
    リ上の標準音声特徴ベクトルとの雑音除去類似度を演算
    する雑音除去類似度演算手段と、雑音除去類似度演算手
    段の出力である雑音除去類似度データを用いて照合を行
    い認識結果を出力する照合手段を備えたことを特徴とす
    る音声認識装置。
  3. 【請求項3】 相異なる音声を表現する音声モデルを持
    ち、未知入力音声と前記音声モデルとの照合により音声
    認識を行う音声認識装置において、雑音が重畳した未知
    入力音声信号に対し設定される複数個の分析フレームの
    各々について音響分析を行い雑音重畳入力音声特徴ベク
    トル時系列を出力する音響分析手段と、音声信号に重畳
    する雑音の特徴ベクトル時系列を表現する雑音モデルを
    記憶する雑音モデルメモリと、標準音声の特徴ベクトル
    時系列を表現する音声モデルを記憶する音声モデルメモ
    リと、音声モデルメモリに記憶されている音声モデルの
    標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
    ラメータと標準音声残差パワーを求める線形予測分析手
    段と、雑音モデルメモリ上の雑音特徴ベクトルを入力と
    して線形予測分析手段の出力である最尤パラメータとの
    積和演算を行い雑音残差パワーを求める雑音残差演算手
    段と、音響分析手段の出力である雑音重畳入力音声特徴
    ベクトル時系列の各特徴ベクトルに対し線形予測分析手
    段の出力で ある最尤パラメータとの積和演算を行い雑音
    重畳入力音声残差パワーを求める残差パワー演算手段
    と、残差パワー演算手段の出力である雑音重畳入力音声
    残差パワーと線形予測分析手段の出力である標準音声残
    差パワーと雑音残差演算手段の出力である雑音残差パワ
    ーとを用いて雑音重畳入力音声のSN比を求めるSN比
    演算手段と、SN比演算手段の出力であるSN比に従い
    音声モデルメモリ上の標準音声特徴ベクトルと雑音モデ
    ルメモリ上の雑音特徴ベクトルの合成を行い雑音重畳音
    声特徴ベクトルを生成する特徴ベクトル合成手段と、音
    響分析手段の出力である雑音重畳入力音声特徴ベクトル
    時系列の各特徴ベクトルに対し特徴ベクトル合成手段の
    出力である雑音重畳音声特徴ベクトルとの類似度を演算
    する類似度演算手段と、類似度演算手段の出力である
    似度データを入力として音声モデルと雑音重畳入力音声
    特徴ベクトル時系列との最適照合パスを求める最適照合
    パス決定手段と、SN比演算手段の出力であるSN比と
    音響分析手段の出力である雑音重畳入力音声特徴ベクト
    ル時系列と音声モデルメモリ上の標準音声特徴ベクトル
    と最適照合パス決定手段の出力である照合パスデータと
    を入力として音声パワー比を求めるパワー比決定手段
    と、音響分析手段の出力である雑音重畳入力音声特徴ベ
    クトル時系列における各特徴ベクトルに対しSN比演算
    手段の出力であるSN比と雑音モデルメモリ上の雑音特
    徴ベクトルとを用いて重畳雑音特徴ベクトルを生成する
    重畳雑音生成手段と、最適照合パス決定手段の出力であ
    る照合パスデータと重畳雑音生成手段の出力である重畳
    雑音特徴ベクトルとパワー比決定手段の出力である音声
    パワー比とを用いて付加雑音特徴ベクトルを求める付加
    雑音決定手段と、付加雑音決定手段の出力である付加雑
    音特徴ベクトルと音声モデルメモリ上の標準音声特徴ベ
    クトルを入力として雑音付加標準音声特徴ベクトルを求
    める雑音付加手段と、音響分析手段の出力である雑音重
    畳入力音声特徴ベクトル時系列と雑音付加手段の出力で
    ある雑音付加標準音声特徴ベクトルとの類似度を演算す
    る類似度演算手段と、類似度演算手段の出力である類似
    度データを用いて照合を行い認識結果を出力する照合手
    段を備えたことを特徴とする音声認識装置。
JP05077025A 1993-04-02 1993-04-02 音声認識装置 Expired - Fee Related JP3102195B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05077025A JP3102195B2 (ja) 1993-04-02 1993-04-02 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05077025A JP3102195B2 (ja) 1993-04-02 1993-04-02 音声認識装置

Publications (2)

Publication Number Publication Date
JPH06289891A JPH06289891A (ja) 1994-10-18
JP3102195B2 true JP3102195B2 (ja) 2000-10-23

Family

ID=13622214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05077025A Expired - Fee Related JP3102195B2 (ja) 1993-04-02 1993-04-02 音声認識装置

Country Status (1)

Country Link
JP (1) JP3102195B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7123197B2 (en) 2003-12-05 2006-10-17 Alps Electric Co., Ltd. Miniaturized antenna-coupled module

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100468817B1 (ko) * 1997-02-17 2005-05-16 삼성전자주식회사 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법
EP1116219B1 (en) * 1999-07-01 2005-03-16 Koninklijke Philips Electronics N.V. Robust speech processing from noisy speech models
JP4858663B2 (ja) * 2001-06-08 2012-01-18 日本電気株式会社 音声認識方法及び音声認識装置
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
US7363221B2 (en) * 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
CN114173258B (zh) * 2022-02-07 2022-05-10 深圳市朗琴音响技术有限公司 智能音箱控制方法及智能音箱

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成4年度春季研究発表会講演論文集▲I▼,1−1−12,鈴木忠外「非定常雑音下における音声認識手法の検討」p.23−24(平成4年3月17日発行)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7123197B2 (en) 2003-12-05 2006-10-17 Alps Electric Co., Ltd. Miniaturized antenna-coupled module

Also Published As

Publication number Publication date
JPH06289891A (ja) 1994-10-18

Similar Documents

Publication Publication Date Title
JP3452443B2 (ja) 騒音下音声認識装置及び騒音下音声認識方法
JP4218982B2 (ja) 音声処理
CN107615376B (zh) 声音识别装置及计算机程序记录介质
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP6437581B2 (ja) 話者適応型の音声認識
US20080147391A1 (en) Method of and apparatus for transforming speech feature vector
JPH02238496A (ja) 音声認識装置
JP5242782B2 (ja) 音声認識方法
Hwang et al. LP-WaveNet: Linear prediction-based WaveNet speech synthesis
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
JPH075892A (ja) 音声認識方法
JP2004325897A (ja) 音声認識装置及び音声認識方法
JP3102195B2 (ja) 音声認識装置
JP2004199077A (ja) 音声処理のための、ガウスモデルを基にした動的時間伸縮のシステムと方法
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
Ding et al. Robustness of speech spoofing detectors against adversarial post-processing of voice conversion
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
JP2002091478A (ja) 音声認識システム
Wu et al. Speaker identification based on the frame linear predictive coding spectrum technique
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP3100180B2 (ja) 音声認識方法
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置
Yogeshwaran et al. Real time voice identification based gear control system in LMV using MFCC

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070825

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080825

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees