JP2737624B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2737624B2
JP2737624B2 JP5331478A JP33147893A JP2737624B2 JP 2737624 B2 JP2737624 B2 JP 2737624B2 JP 5331478 A JP5331478 A JP 5331478A JP 33147893 A JP33147893 A JP 33147893A JP 2737624 B2 JP2737624 B2 JP 2737624B2
Authority
JP
Japan
Prior art keywords
time series
section
speech
standard pattern
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5331478A
Other languages
English (en)
Other versions
JPH07191689A (ja
Inventor
啓三郎 ▲高▼木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP5331478A priority Critical patent/JP2737624B2/ja
Priority to US08/361,567 priority patent/US5655057A/en
Priority to EP94120541A priority patent/EP0660300B1/en
Priority to ES94120541T priority patent/ES2144031T3/es
Priority to DE69423588T priority patent/DE69423588T2/de
Publication of JPH07191689A publication Critical patent/JPH07191689A/ja
Application granted granted Critical
Publication of JP2737624B2 publication Critical patent/JP2737624B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識装置に関し、特
に入力音声と標準パタンとの雑音環境の違いを適合化さ
せ、耐環境雑音性能を向上する技術に関するものであ
る。
【0002】
【従来の技術】音声の認識を行なう際に、入力音声の発
声環境と標準パタン音声の発声環境とが異なることによ
り音声の認識率が低下することが知られている。これら
の環境のうち特に音声の認識率低下を招く大きな要因と
しては、背景雑音のように発声者の音声と同時に混入し
スペクトル上で加法的に作用する付加雑音、マイクロホ
ンや電話回線の伝達特性などのようにスペクトルそのも
のを歪ませ、スペクトル上で乗法的に作用する回路歪み
の2つが挙げられる。
【0003】従来、音声に混入した背景雑音などの付加
雑音の除去を目的としたスペクトルサブトラクションと
呼ばれる手法が存在している。例えば、S.F.Bol
l:“Supression of Acoustic
Noise in Speech Using Sp
ectral Subtraction”,IEEET
rans. on ASSP,Vol.ASSP−2
7,No.2,1979.(以下引用文献[1]とす
る)に述べられているようなスペクトルサブトラクショ
ンを用いた音声認識装置は、例えば図2に示すような構
成となる。すなわち図2では、雑音が重畳した入力音声
はスペクトル計算部21でスペクトルの時系列に変換さ
れる。雑音推定部22は入力音声のスペクトルの時系列
のうち音声のない位置のスペクトルを用いて音声全体に
付加されている雑音成分のスペクトルを推定し、雑音除
去部23はスペクトル計算部21で得られた入力音声の
スペクトルの時系列全体から雑音推定部22にて推定し
た雑音のスペクトルを引き算する。特徴ベクトル変換部
24は、雑音除去部23で得られた雑音除去後の音声の
スペクトルの時系列を認識に用いる特徴ベクトルの時系
列に変換し、マッチング部26は例えばDPマッチン
グ、HMM(Hidden Markov Mode
l:隠れマルコフモデル)などの時間軸を正規化して類
似度を計算する手法を用いて標準パタン25に登録され
た雑音の混入していない標準話者の音声の特徴ベクトル
の時系列と入力音声の特徴ベクトルの時系列との間の類
似度を計算し、類似度が最も高かった辞書候補を認識結
果として出力するように構成されている。このような認
識装置を構成することにより、雑音が入力音声毎に変化
する場合であっても高精度に付加雑音を除去し、高い認
識率を得ることが可能である。
【0004】また、回線歪みによる認識率の低下を防止
することを目的として、従来より図3に示すような構成
をとることにより行なわれている。すなわち、標準パタ
ン32は、標準話者の音声を入力音声に用いたものと同
一の特性を有するマイクロホンを用いて収音し、入力音
声が通過した回線と同一の特性を有する回線を通過さ
せ、予め分析部31と同一の処理により分析されたもの
を登録することにより作成されている。分析部31は入
力音声を特徴ベクトルの時系列に変換し、マッチング部
33にて時間軸を正規化して類似度を計算する手法を用
いて標準パタン32に登録された標準話者の音声の特徴
ベクトルの時系列と入力音声の特徴ベクトルの時系列と
の間の類似度を計算し、類似度が最も高かった辞書候補
を認識結果として出力するように構成されている。この
ような認識装置を構成することにより認識時に使用する
マイクロホンや信号を伝送する回線が予め既知で学習用
音声の収集にも使用可能である場合には、マイクロホン
の特性や回線の伝送特性に起因する回線歪みを標準パタ
ンと入力音声との間で一致させることができ、回線歪み
に影響されない高精度な音声認識装置を提供することが
可能である。
【0005】図3に示すような構成を用いて、付加的な
雑音を考慮した音声認識装置を提供することも可能であ
る。この場合には、標準パタン32は、標準話者の音声
の背景雑音を入力音声の背景雑音と一致させた環境で収
集し、予め分析部31と同一の処理により分析されたも
のを登録することにより実現される。このような認識装
置を構成することにより認識時の背景雑音が予め既知で
学習用音声の収集にも使用可能である場合には、付加雑
音に関して標準パタンと入力音声との間で一致させるこ
とができ、付加雑音に影響されない高精度な音声認識装
置を提供することが可能である。
【0006】さらに、図2に示す従来のスペクトルサブ
トラクションを用いた音声認識装置に用いる標準パタン
25を、図3に示す回線歪みを一致させた標準パタン3
2で置き換えることにより、付加雑音と回線歪みの両方
に対して考慮した音声認識装置を提供することも可能で
ある。
【0007】
【発明が解決しようとする課題】しかしながら、従来の
スペクトルサブトラクションを用いた音声認識装置で
は、マイクロホンや回線の伝達特性などの回線歪みに対
してはまったく考慮がなされておらず、入力音声と標準
パタンを作成した音声との間の回線歪みが異なる場合に
は認識率が大きく低下するという問題点があった。
【0008】また、標準パタンの回線歪みを入力音声の
回線歪みと一致させるように構成された音声認識装置で
は、入力音声と同一の特性を有するマイクロホンおよび
伝送回線を用いた標準話者音声の収集が可能である場合
にのみ実現可能な方法である。しかし例えば電話音声の
認識を行なう場合などでは、入力音声毎にマイクロホン
や伝送する電話回線が異なり、しかもそれらは予め知る
ことが出来ず、それらを用いて学習用音声を収集するこ
とが不可能であるため、このような音声認識装置を提供
することが出来ないという問題点を有する。この問題点
は、標準パタンの付加雑音を入力音声の付加雑音と一致
させるように構成した音声認識装置の場合においても解
決されない。
【0009】さらに、スペクトルサブトラクションを用
いた音声認識装置の標準パタン25を、回線歪みを一致
させた標準パタン32で置き換えた音声認識装置を構成
する場合においても、回線歪みが学習時には未知である
ような場合には、上に述べたような問題点は解決されな
い。
【0010】本発明は上述の問題を解決するものであ
り、その目的は、認識時の入力音声を用いて、入力音声
と標準パタンとの間の付加雑音および回線歪みに関する
雑音条件を素早く適合させることにより、付加雑音およ
び回線歪みが予め知られておらず、しかも入力音声毎に
異なっている場合においても雑音環境に影響されない高
性能な音声認識装置を提供することにある。
【0011】
【課題を解決するための手段】本発明による第1の音声
認識装置は、入力音声を特徴ベクトルの時系列に変換す
る分析部と、予め学習用音声を特徴ベクトルの時系列に
変換して蓄えられた雑音区間と音声区間とを有する標準
パタンと、分析部から得られた入力音声の特徴ベクトル
の時系列と前記標準パタンの特徴ベクトルの時系列との
間の時間軸対応付けを行なう予備マッチング部と、入力
音声の特徴ベクトルの時系列および標準パタンの特徴ベ
クトル時系列をそれぞれスペクトルの時系列に変換する
スペクトル変換部と、予備マッチング部から得られた対
応付け情報をもとに、スペクトル変換部から得られた入
力音声および標準パタンのスペクトルの時系列をそれぞ
れ雑音区間、音声区間に分け、各区間毎の平均ベクトル
を算出する平均ベクトル算出部と、平均ベクトル算出部
が算出した平均ベクトルに関し、雑音区間に対応付けら
れたスペクトルの時系列の平均ベクトル同士と音声区間
に対応付けられたスペクトルの時系列の平均ベクトル同
士がそれぞれ一致するような補正を、入力音声のスペク
トルの時系列もしくは標準パタンのスペクトルの時系列
のどちらか一方または両方に対し行なう補正部と、補正
部が補正した入力音声および標準パタンのスペクトルの
時系列をそれぞれ認識のための特徴ベクトルの時系列に
変換する特徴ベクトル変換部と、特徴ベクトル変換部か
ら得られた入力音声および標準パタンの認識のための特
徴ベクトルを用いて標準パタンと入力音声との間の最終
的なマッチングを行ない認識結果として出力するマッチ
ング部とを有する。
【0012】本発明による第2の音声認識装置は、平均
ベクトル算出部が算出した平均ベクトルに関し、雑音区
間に対応付けられたスペクトルの時系列のどちらか一方
を他方の雑音区間の平均ベクトルNiで置換し、音声区
間に対応付けられたスペクトルの時系列から一方の雑音
区間の平均ベクトルNtを減じた後に(Si−Ni)/
(St−Nt)を乗じ(/はスペクトルのチャンネル毎
の除算、Siは他方の音声区間の平均ベクトル、Stは
一方の音声区間の平均ベクトル)、さらにNiを加算す
る補正部とを有する。
【0013】
【作用】本発明は、認識時の入力音声を用いて、入力音
声と標準パタンとの間の付加雑音および回線歪みに関す
る雑音条件を素早く適合させることにより、付加雑音お
よび入力音声を収集したマイクロホンや伝送回線が予め
学習時には未知であり、しかも入力音声毎に異なってい
る場合においても入力の雑音環境に影響されない高性能
な音声認識装置を提供できるという効果を得るものであ
り、従来の音声認識装置が有していた欠点を補う効果を
得るものである。
【0014】まず、本発明による第1の雑音除去装置の
作用を図1を用いて説明する。付加雑音および回線歪み
を含む入力音声は分析部1にて特徴ベクトルの時系列に
変換される。一般に特徴ベクトルとして良く知られてい
るものは、例えば古井“ディジタル音声処理”、東海大
学出版、pp.154−160(1985).(以下文
献[2]とする)に述べられている種々のものが知られ
ているが、ここではLPC分析、FFT分析などによっ
て得られるケプストラムを用いる場合について述べるこ
ととし、その導出法については述べない。得られたケプ
ストラムスペクトルの時系列をX(t)(tは離散的な
時刻)で表す。入力音声には通常発声の前後に音声のな
い、周囲雑音だけが含まれる部分が存在するように分析
を行なう。この理由は、一般に音声の始終端を正確に切
り出すことは困難であり、始端の子音が欠落する場合も
起こり得るので、通常は切り出した始終端より少し長め
の音声を分析することで音声の欠落を防止している。標
準パタン3には予め標準話者音声を分析部1と同様の方
法を用いて分析したものを単語あるいは文章のような認
識対象毎に保持してある。この標準パタン3についても
通常音声区間の前後に雑音区間が含まれるように分析さ
れており、また、雑音区間の開始、終了位置は予め調べ
て保持する。予備マッチング部2は入力音声の特徴ベク
トルの時系列X(t)と標準パタン3に保持されている
各認識対象語彙との間の時間軸正規化マッチングを行な
い各認識語彙との間の時間軸方向の対応づけを行ない出
力する。時間軸正規化マッチングとしては、例えば文献
[2]のpp.162−170に述べられているような
DPマッチングあるいはHMM(Hidden Mar
kov Model)などの方法が挙げられる。スペク
トル変換部4は、入力音声の特徴ベクトルの時系列X
(t)および標準パタンの特徴ベクトルの時系列Y
(t)を、それぞれスペクトルの時系列V(t)および
W(t)に変換する。ケプストラムからスペクトルへの
変換は、
【0015】
【数1】
【0016】で表され、また、その逆変数は、
【0017】
【数2】
【0018】で表される。但し、Cはコサイン変換行
列、exp(.)、log(.)はそれぞれ入力の各要
素に対する指数演算、対数演算を表すものとする。い
ま、入力音声が付加雑音および回線歪みにより変形され
ている時、スペクトル上では、付加雑音は和の形、回線
歪みは積の形で表される。入力音声の付加雑音をBv
回線歪みをAv で表し、真の音声のスペクトルを
【0019】
【数3】
【0020】とすると、
【0021】
【数4】
【0022】なる関係が得られる。ここで、Ωv は音声
が含まれる時刻(音声区間)の集合を表し、Φv は、音
声の含まれない時刻(雑音区間)の時刻の集合を表すと
する。スペクトル領域では一般にチャンネル間の相関は
低いためAv は回転を含まない対角行列となる。従って
以後の演算は各チャンネル独立に行なうものとして扱
う。
【0023】標準パタンの付加雑音をBw 、回線歪みを
w で表し、真の音声のスペクトルを
【0024】
【数5】
【0025】とすると、
【0026】
【数6】
【0027】なる関係が得られる。ここで、Ωw は音声
が含まれる時刻(音声区間)の集合を表し、Φw は、音
声の含まれない時刻(雑音区間)の時刻の集合を表すと
する。このスペクトルに関する付加的な雑音および回線
歪みが入力音声と標準パタンとで異なることにより音声
認識に関する照合誤りが起こり、認識率が低下する要因
となる。本発明では、入力音声および標準パタンそれぞ
れの雑音区間、音声区間におけるスペクトルの平均値を
用い、両者の間の付加雑音および回線歪みを同時に適合
化させ、平均値に関して両者が等しくなるような補正を
行なう。この補正は、入力音声に対して行なうことも標
準パタンに対して行なうことも可能であるが、ここでは
標準パタンに対して行なった場合について述べる。い
ま、入力音声のスペクトルのうち予備マッチング部2に
より標準パタンの音声区間に対応付けられた部分の平均
スペクトルをSv 、雑音区間に対応付けられた部分の平
均スペクトルをNv とすると、
【0028】
【数7】
【0029】で計算される。ここで、Ω、Φはそれぞれ
標準パタンの音声区間、雑音区間に対応付けがなされた
時刻の集合であり、
【0030】
【外1】
【0031】はそれぞれ音声区間、雑音区間に対応付け
がなされた部位の個数を表すものとする。この例では、
総加平均を求める場合を示したが、相乗平均を用いるこ
とも可能である。一方、標準パタンの音声区間の平均ス
ペクトルをSw 、雑音区間の平均スペクトルをNw とす
ると、
【0032】
【数8】
【0033】で計算される。ここで、
【0034】
【外2】
【0035】はそれぞれ音声区間、雑音区間のフレーム
の個数を表すものとする。また、これらの平均ベクトル
に関しても相乗平均を用いることも可能である。
【0036】一方、式(3),(4)を用いて入力音声
および標準パタンの平均ベクトルを計算すると、
【0037】
【数9】
【0038】ここで、
【0039】
【外3】
【0040】は、それぞれ区間に含まれるフレーム数と
する。式(5)の対応付け、すなわちΩ、Φがある程度
の高い精度で求められたとすると、式(5)および式
(7)とから以下のような近似が得られる。すなわち、
【0041】
【数10】
【0042】となる。ただし、ベクトル同士の除算はチ
ャンネル成分毎の除算を表し、Av に関しては対角成分
に対する演算を表しているものとする。
【0043】これと同様に式(6)および式(8)とか
ら以下のような近似が得られる。すなわち、
【0044】
【数11】
【0045】となる。式(9),(10)で求めたA、
Bを用い、標準パタン音声を新しく入力の付加雑音、回
線歪みによる雑音環境の音声へ適合するために、標準パ
タンの雑音区間に対しては入力音声の雑音で置き換え、
標準パタンの音声区間に関しては真の音声のスペクトル
に入力の伝送歪みを掛け、さらに入力の雑音を加えるこ
とにより行なう。すなわち、標準パタンの雑音区間につ
いては、
【0046】
【数12】
【0047】で置き換える。また、標準パタンの音声区
間のスペクトルに関しては、
【0048】
【数13】
【0049】となる。ここで、
【0050】
【数14】
【0051】はそれぞれ標準パタンおよび入力音声に関
する真の(雑音が重畳されていない)スペクトルの音声
区間での平均値であり、入力音声と標準パタンとが同一
語彙に関する発声であるとみなし、両者は等しいと近似
することにより、結局式(12)は、
【0052】
【数15】
【0053】となる。すなわち、補正部6は、式(1
1),(13)に従い、標準パタンを入力音声の付加雑
音、回線歪みを用いて適合化させ、環境に関する適合化
を行なう。この例では、標準パタンに対しての演算を示
したが、同様の方法を入力音声に対して行なっても良
い。また、この他、どちらか一方の平均値が他方の平均
値に等しくなるように一定の付加雑音を付加したり、あ
るいは平均値が等しくなるように一定の回線歪み成分を
掛けることにより補正を行なうことも可能である。式
(11),(13)に示すように補正を行なうことで、
標準パタンの雑音区間、音声区間の平均スペクトルは入
力音声の雑音区間、音声区間の平均値と等しくなってい
る。
【0054】特徴ベクトル変換部7は、式(2)に示す
変換、すなわちスペクトルからケプストラムへの変換を
行なう。また、ケプストラムのみならず、入力音声のパ
ワー情報、パワーの差分情報、ケプストラムの線形回帰
係数などを含めることも可能である。マッチング部8
は、特徴ベクトル変換部7が変換した特徴ベクトルを用
いて標準パタンの各認識対象語彙と入力音声との間の時
間軸正規化マッチングを行ないもっとも類似度の高い語
彙を認識結果として出力する。
【0055】すなわち、本発明によれば、認識時の入力
音声を用いて、入力音声と標準パタンとの間の付加雑音
および回線歪みに関する雑音条件を素早く適合させるこ
とにより、付加雑音および入力音声を収集したマイクロ
ホンや伝送回線が予め学習時には未知であり、しかも入
力音声毎に異なっている場合においても入力の雑音環境
に影響されない高性能な音声認識装置を提供できるとい
う効果を得、従来の音声認識装置が有していた欠点を補
う効果を有する。
【0056】
【実施例】以下、図面を参照しながら本発明の一実施例
について具体的に説明する。
【0057】図1は本発明による第1の音声認識装置を
示す一実施例のブロック図である。この音声認識装置
は、入力音声を特徴ベクトルの時系列に変換する分析部
1と、予め学習用音声を特徴ベクトルの時系列に変換し
て蓄えられた雑音区間と音声区間とを有する標準パタン
3と、分析部1から得られた入力音声の特徴ベクトルの
時系列と標準パタンの特徴ベクトルの時系列との間の時
間軸対応付けを行なう予備マッチング部2と、入力音声
の特徴ベクトルの時系列および標準パタン3の特徴ベク
トル時系列をそれぞれスペクトルの時系列に変換するス
ペクトル変換部4と、予備マッチング部2から得られた
対応付け情報をもとに、スペクトル変換部4から得られ
た入力音声および標準パタンのスペクトルの時系列をそ
れぞれ雑音区間、音声区間に分け、各区間毎の平均ベク
トルを算出する平均ベクトル算出部5と、平均ベクトル
算出部5が算出した平均ベクトルに関し、雑音区間に対
応付けられたスペクトルの時系列の平均ベクトル同士と
音声区間に対応付けられたスペクトルの時系列の平均ス
ペクトル同士がそれぞれ一致するような補正を、入力音
声のスペクトルの時系列もしくは標準パタンのスペクト
ルの時系列のどちらか一方または両方に対し補正を行な
う補正部6と、補正部6が補正した入力音声および標準
パタンのスペクトルの時系列をそれぞれ認識のための特
徴ベクトルの時系列に変換する特徴ベクトル変換部7
と、特徴ベクトル変換部7から得られた入力音声および
標準パタンの認識のための特徴ベクトルを用いて標準パ
タンと入力音声との間の最終的なマッチングを行ない認
識結果として出力するマッチング部8とを有している。
【0058】付加雑音および回線歪みを含む入力音声は
分析部1にて予備マッチングのための特徴ベクトルの時
系列に変換される。一般に特徴ベクトルとして良く用い
られているものは、パワー情報、パワー情報の変化量、
ケプストラム、ケプストラムの線形回帰係数などが考え
られ、これらを含ませたものを特徴ベクトルとすること
も可能である。あるいはまた、スペクトルそのものを用
いたり、対数化スペクトルを用いることも可能である。
入力音声には通常発声の前後に音声のない、周囲雑音だ
けが含まれる部分が存在するように分析を行なう。標準
パタン3には予め標準話者音声を分析部1と同様の方法
を用いて分析したものを単語あるいは文章のような認識
対象毎に保持してある。この標準パタン3についても通
常音声区間の前後に雑音区間が含まれるように分析され
ており、また、雑音区間の開始、終了位置は予め調べて
保持している。予備マッチング部2は入力音声の特徴ベ
クトルの時系列と標準パタン3に保持されている各認識
対象語彙との間の時間軸正規化マッチングを行ない各認
識語彙との間の時間軸方向の対応づけを行ない出力す
る。時間軸正規化マッチングとしては、例えば文献
[2]のpp.162−170に述べられているような
DPマッチングあるいはHMM(Hidden Mar
kov Model)などの方法が挙げられる。スペク
トル変換部4は、入力音声の特徴ベクトルの時系列およ
び標準パタンの特徴ベクトルの時系列を、それぞれスペ
クトルの時系列に変換する。特徴ベクトルが例えばスペ
クトルそのものであるような場合には、このスペクトル
変換部4は省略しても良く、また、特徴ベクトルがいく
つかの種類の特徴ベクトルを組み合わせたもので構成さ
れている場合には、その中からスペクトルへの変換に必
要な情報のみを抜き出してスペクトルへの変換を行なう
ように構成することも可能である。平均ベクトル算出部
5は、予備マッチング部2から得られた対応付け情報を
もとに、スペクトル変換部4から得られた入力音声およ
び標準パタンのスペクトルの時系列をそれぞれ雑音区
間、音声区間に分け、各区間毎のスペクトルの平均ベク
トルを算出する。補正部6は、平均ベクトル算出部5が
算出した入力音声、標準パタンのスペクトルそれぞれの
平均値について雑音区間同士、音声区間同士がそれぞれ
等しくなるような補正を行なう。この補正は、入力音
声、標準パタンのどちらか一方あるいは両方に行なうこ
とが出来る。特徴ベクトル変換部7は、補正部6が補正
した後の入力音声および標準パタンのスペクトルの時系
列を認識に用いる特徴ベクトルの時系列へと変換する。
特徴ベクトルとしては、パワー情報、パワー情報の変化
量、ケプストラム、ケプストラムの線形回帰係数などが
考えられ、これら複数を組み合わせたのを特徴ベクトル
とすることも可能である。また、スペクトルそのものを
用いたり、対数化スペクトルを用いることも可能であ
る。マッチング部8は、特徴ベクトル変換部7が変換し
た入力音声および標準パタンの特徴ベクトルの時系列と
の間の類似度を時間軸正規化マッチングを用いて計算
し、類似度が最大のものを認識結果として出力する。
【0059】この例は、入力音声そのものを用いた補正
について述べたが、例えば時間的にあまり離れていない
入力音声に関しては付加雑音も回線歪みも殆ど同一であ
ることも少なくない。このような場合には毎回入力音声
を用いた平均ベクトル算出および補正を行なわないよう
に構成することも可能である。例えば平均ベクトル算出
部5および補正部6は、前回の発声で用いた補正のため
のパラメータを保持しておき、次回の発声に対してはこ
のパラメータを用いて補正するような構成も可能であ
る。あるいは、補正した標準パタンを次回のために保持
し、次回は標準パタンの補正を行なわず、分析部1は最
終的なマッチングに用いる特徴ベクトルを計算し、マッ
チング部8にて予め保持してある標準パタンとのマッチ
ングを行なうように構成することも可能である。
【0060】本発明による第2の音声認識装置は、補正
部6が、平均ベクトル算出部5が算出した平均ベクトル
に関し、雑音区間に対応付けられたスペクトルの時系列
のどちらか一方を他方の雑音区間の平均ベクトルNiで
置換し、音声区間に対応付けられたスペクトルの時系列
から一方の雑音区間の平均ベクトルNtを減じた後に
(Si−Ni)/(St−Nt)を乗じ(/はスペクト
ルのチャンネル毎の除算、Siは他方の音声区間の平均
ベクトル、Stは一方の音声区間の平均ベクトル)、さ
らにNiを加算する。例えば、標準パタンのスペクトル
を補正する場合には、式(11),(13)に示すよう
な補正を行なう。
【0061】
【発明の効果】以上から明らかなように、本発明の音声
認識装置によれば、認識時の入力音声を用いて、入力音
声と標準パタンとの間の付加雑音および回線歪みに関す
る雑音条件を素早く適合させることにより、付加雑音お
よび入力音声を収集したマイクロホンや伝送回線が予め
学習時には未知であり、しかも入力音声毎に異なってい
る場合においても入力の雑音環境に影響されない高性能
な音声認識装置を提供できるという効果を得、従来の音
声認識装置が有していた欠点を補う効果を有する。
【図面の簡単な説明】
【図1】本発明による音声認識装置の一実施例を示すブ
ロック図である。
【図2】従来のスペクトルサブトラクションを用いた音
声認識装置を示すブロック図である。
【図3】従来の認識時と同一の回線歪みを有する標準話
者音声で学習した標準パタンを用いた場合の音声認識装
置を示すブロック図である。
【符号の説明】
1,31 分析部 2 予備マッチング部 3,25,32 標準パタン 4 スペクトル変換部 5 平均ベクトル算出部 6 補正部 7,24 特徴ベクトル変換部 8,26,33 マッチング部 21 スペクトル計算部 22 雑音推定部 23 雑音除去部

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声を特徴ベクトルの時系列に変換す
    る分析部と、 予め学習用音声を特徴ベクトルの時系列に変換して蓄え
    られた雑音区間と音声区間とを有する標準パタンと、 前記分析部から得られた入力音声の特徴ベクトルの時系
    列と前記標準パタンの特徴ベクトルの時系列との間の時
    間軸対応付けを行なう予備マッチング部と、 前記入力音声の特徴ベクトルの時系列および前記標準パ
    タンの特徴ベクトル時系列をそれぞれスペクトルの時系
    列に変換するスペクトル変換部と、 前記予備マッチング部から得られた対応付け情報をもと
    に、前記スペクトル変換部から得られた入力音声および
    標準パタンのスペクトルの時系列をそれぞれ雑音区間、
    音声区間に分け、各区間毎の平均ベクトルを算出する平
    均ベクトル算出部と、 前記平均ベクトル算出部が算出した平均ベクトルに関
    し、雑音区間に対応付けられたスペクトルの時系列の平
    均ベクトル同士と音声区間に対応付けられたスペクトル
    の時系列の平均ベクトル同士がそれぞれ一致するような
    補正を、入力音声のスペクトルの時系列もしくは標準パ
    タンのスペクトルの時系列のどちらか一方または両方に
    対し行なう補正部と、 前記補正部が補正した入力音声および標準パタンのスペ
    クトルの時系列をそれぞれ認識のための特徴ベクトルの
    時系列に変換する特徴ベクトル変換部と、 前記特徴ベクトル変換部から得られた入力音声および標
    準パタンの認識のための特徴ベクトルを用いて標準パタ
    ンと入力音声との間の最終的なマッチングを行ない認識
    結果として出力するマッチング部とで構成される音声認
    識装置。
  2. 【請求項2】前記補正部は、前記平均ベクトル算出部が
    算出した平均ベクトルに関し、雑音区間に対応付けられ
    たスペクトルの時系列のどちらか一方を他方の雑音区間
    の平均ベクトルNiで置換し、音声区間に対応付けられ
    たスペクトルの時系列から一方の雑音区間の平均ベクト
    ルNtを減じた後に(Si-Ni)/(St-Nt)を乗
    じ(/はスペクトルのチャンネル毎の除算、Siは他方
    の音声区間の平均ベクトル、Stは一方の音声区間の平
    均ベクトル)、さらにNiを加算することを特徴とする
    請求項1記載の音声認識装置。
  3. 【請求項3】入力音声を特徴ベクトルの時系列に変換す
    る分析部と、 予め学習用音声を特徴ベクトルの時系列に変換して蓄え
    られた雑音区間と音声区間とを有する標準パタンと、 前記分析部から得られた入力音声の特徴ベクトルの時系
    列と前記標準パタンの特徴ベクトルの時系列との間の時
    間軸対応付けを行なう予備マッチング部と、 前記予備マッチング部から得られた対応付け情報をもと
    に前記分析部から得られた入力音声および標準パタンの
    特徴ベクトルの時系列をそれぞれ雑音区間、音声区間に
    分け、各区間毎の平均ベクトルを算出する平均ベクトル
    算出部と、 前記平均ベクトル算出部が算出した平均ベクトルに関
    し、雑音区間に対応付けられた特徴ベクトルの時系列の
    平均ベクトル同士と音声区間に対応付けられた特徴ベク
    トルの時系列の平均ベクトル同士がそれぞれ一致するよ
    うな補正を、入力音声の特徴ベクトルの時系列もしくは
    標準パタンの特徴ベクトルの時系列のどちらか一方また
    は両方に対し行う補正部と、 前記補正部から得られた入力音声および標準パタンの特
    徴ベクトルを用いて標準パタンと入力音声との間の最終
    的なマッチングを行ない認識結果として出力するマッチ
    ング部とで構成される音声認識装置。
  4. 【請求項4】前記補正部は、前記平均ベクトル算出部が
    算出した平均ベクトルに関し、雑音区間に対応付けられ
    た特徴ベクトルの時系列のどちらか一方を他方の雑音区
    間の平均ベクトルNiで置換し、音声区間に対応付けられ
    た特徴ベクトルの時系列から一方の雑音区間の平均ベク
    トルNtを減じた後に(Si-Ni)/(St-Nt)を乗じ(/は特徴ベ
    クトルのチャンネル毎の除算、Siは他方の音声区間の平
    均ベクトル、St は一方の音声区間の平均ベクトル)、さ
    らにNiを加算することを特徴とする請求項3記載の音声
    認識装置。
JP5331478A 1993-12-27 1993-12-27 音声認識装置 Expired - Lifetime JP2737624B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP5331478A JP2737624B2 (ja) 1993-12-27 1993-12-27 音声認識装置
US08/361,567 US5655057A (en) 1993-12-27 1994-12-22 Speech recognition apparatus
EP94120541A EP0660300B1 (en) 1993-12-27 1994-12-23 Speech recognition apparatus
ES94120541T ES2144031T3 (es) 1993-12-27 1994-12-23 Aparato de reconocimiento de voz.
DE69423588T DE69423588T2 (de) 1993-12-27 1994-12-23 Spracherkennungsgerät

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5331478A JP2737624B2 (ja) 1993-12-27 1993-12-27 音声認識装置

Publications (2)

Publication Number Publication Date
JPH07191689A JPH07191689A (ja) 1995-07-28
JP2737624B2 true JP2737624B2 (ja) 1998-04-08

Family

ID=18244101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5331478A Expired - Lifetime JP2737624B2 (ja) 1993-12-27 1993-12-27 音声認識装置

Country Status (5)

Country Link
US (1) US5655057A (ja)
EP (1) EP0660300B1 (ja)
JP (1) JP2737624B2 (ja)
DE (1) DE69423588T2 (ja)
ES (1) ES2144031T3 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
TW347503B (en) * 1995-11-15 1998-12-11 Hitachi Ltd Character recognition translation system and voice recognition translation system
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
GB9706174D0 (en) * 1997-03-25 1997-11-19 Secr Defence Recognition system
GB2336929A (en) * 1997-03-25 1999-11-03 The Secretary Of State For Defence Recognition system
DE29718636U1 (de) * 1997-10-21 1998-02-12 Rosenbaum, Lothar, 56727 Mayen Phonetische Steuer-, Eingabe- und Kommunikationseinrichtung mit akustischer Rückmeldung, insbesondere für Holzbearbeitungsmaschinen
GB2349259B (en) 1999-04-23 2003-11-12 Canon Kk Speech processing apparatus and method
DE10005609C1 (de) * 2000-02-09 2001-08-09 Siemens Ag Verfahren zur Spracherkennung
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
EP1229516A1 (en) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Method, device, terminal and system for the automatic recognition of distorted speech data
US6957183B2 (en) * 2002-03-20 2005-10-18 Qualcomm Inc. Method for robust voice recognition by analyzing redundant features of source signal
DE10253868B3 (de) * 2002-11-15 2004-07-29 Digital Design Gmbh Verfahren und Anordnung zur Synchronisation von Test- und Referenzmustern sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium
US20050216266A1 (en) * 2004-03-29 2005-09-29 Yifan Gong Incremental adjustment of state-dependent bias parameters for adaptive speech recognition
US20060100866A1 (en) * 2004-10-28 2006-05-11 International Business Machines Corporation Influencing automatic speech recognition signal-to-noise levels
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8615397B2 (en) * 2008-04-04 2013-12-24 Intuit Inc. Identifying audio content using distorted target patterns
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US10595083B2 (en) 2018-04-20 2020-03-17 The Nielsen Company (Us), Llc Methods and apparatus to determine audio source impact on an audience of media
EP3950236A4 (en) * 2019-03-29 2022-07-06 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5569880A (en) * 1978-11-22 1980-05-26 Nec Corp Pattern recognition unit
JPS5722295A (en) * 1980-07-15 1982-02-05 Nippon Electric Co Speaker recognizing system
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
US5359695A (en) * 1984-01-30 1994-10-25 Canon Kabushiki Kaisha Speech perception apparatus
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
US5189727A (en) * 1989-07-28 1993-02-23 Electronic Warfare Associates, Inc. Method and apparatus for language and speaker recognition
JPH03120598A (ja) * 1989-10-03 1991-05-22 Canon Inc 音声認識方法及び装置
CA2042926C (en) * 1990-05-22 1997-02-25 Ryuhei Fujiwara Speech recognition method with noise reduction and a system therefor
US5276766A (en) * 1991-07-16 1994-01-04 International Business Machines Corporation Fast algorithm for deriving acoustic prototypes for automatic speech recognition
JPH05134694A (ja) * 1991-11-15 1993-05-28 Sony Corp 音声認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PROC.OF ICASSP’90 VOL.2,S15B.11,P.849〜852 (平成2年)
電子情報通信学会技術研究報告 [音声] SP94−19,P.37〜44 (平成6年6月)

Also Published As

Publication number Publication date
DE69423588D1 (de) 2000-04-27
EP0660300B1 (en) 2000-03-22
JPH07191689A (ja) 1995-07-28
EP0660300A1 (en) 1995-06-28
ES2144031T3 (es) 2000-06-01
DE69423588T2 (de) 2000-11-16
US5655057A (en) 1997-08-05

Similar Documents

Publication Publication Date Title
JP2737624B2 (ja) 音声認識装置
US6671666B1 (en) Recognition system
EP0779609B1 (en) Speech adaptation system and speech recognizer
US5854999A (en) Method and system for speech recognition with compensation for variations in the speech environment
US20060165202A1 (en) Signal processor for robust pattern recognition
US6751588B1 (en) Method for performing microphone conversions in a speech recognition system
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
JP3102195B2 (ja) 音声認識装置
JP3039623B2 (ja) 音声認識装置
JPH0792989A (ja) 音声認識方法
JP2001318687A (ja) 音声認識装置
JP2000010593A (ja) スペクトル雑音除去装置
JP4325044B2 (ja) 音声認識システム
JP2000075888A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP2003216180A (ja) 音声認識装置およびその方法
JP2004309959A (ja) 音声認識装置および音声認識方法
JPH10124084A (ja) 音声処理装置
JPH11154000A (ja) 雑音抑圧装置及び該装置を用いた音声認識システム
JP2961916B2 (ja) 音声認識装置
JPH0211919B2 (ja)
JP3205141B2 (ja) 音声分析方式
JP3790155B2 (ja) 音声認識装置、音声認識方式及び音声認識プログラム
JP3026855B2 (ja) 音声認識装置
JP2000039899A (ja) 音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080116

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090116

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100116

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110116

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110116

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 15

EXPY Cancellation because of completion of term