JPH04264596A - 雑音下音声認識方法 - Google Patents

雑音下音声認識方法

Info

Publication number
JPH04264596A
JPH04264596A JP3047488A JP4748891A JPH04264596A JP H04264596 A JPH04264596 A JP H04264596A JP 3047488 A JP3047488 A JP 3047488A JP 4748891 A JP4748891 A JP 4748891A JP H04264596 A JPH04264596 A JP H04264596A
Authority
JP
Japan
Prior art keywords
noise
standard pattern
variation
pattern
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3047488A
Other languages
English (en)
Inventor
Toshihiro Kasuya
糟谷 敏宏
Noriya Murakami
村上 憲也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Group Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP3047488A priority Critical patent/JPH04264596A/ja
Publication of JPH04264596A publication Critical patent/JPH04264596A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、雑音下で利用され、パ
タンマッチングを主体とした認識系を持つ音声認識置の
音声認識方法に関し、特に背景雑音の微小変動を考慮し
た識別を行う雑音下音声認識方法に関する。
【0002】
【従来の技術】雑音の混入した音声は、雑音のない環境
で発音された音声とは、そこから抽出されるスペクトル
等の特徴パラメータを異にする。そのため、雑音下音声
の認識を行う際には、何らかの雑音除去処理を行うか、
あるいはパラメータの変形を考慮した識別を行う必要が
ある。例えば、スペクトルサブトラクション法(以下、
SS法と略す)を用いて音声認識を行う場合、図2のよ
うに、まず、スペクトル分析等の前処理を行う(201
)。この場合、音声に混入した雑音成分を除去するため
、音声のない雑音のみの区間から雑音のスペクトルを推
定し、雑音の混入した音声から得られるスペクトルから
差し引く。この後、入力された音声の特徴量を求め(2
02)、予め設定・登録してある標準パタンとの間でマ
ッチング処理を行い(203)、それらの距離値が所定
のしきい値以内か否かによって入力音声を識別する(2
04)。また、雑音の重畳による特徴パラメータの変化
に認識系が対応する手法の一つとして、音声認識装置を
用いる場所での背景雑音下で発声された音声を用いて標
準パタンを作成する方法も一般に知られている。例えば
、マルチテンプレート法では、信号対雑音比(SN比)
を数段設定し、設定したレベルで音声に雑音を重畳し、
それらの雑音重畳信号から複数の標準パタンを作成し、
入力音声から抽出される特徴ベクトルを入力音声のSN
比に近い何れかのテンプレートにマッチングさせること
により雑音下の音声を識別している。なお、従来の音声
認識方法については、例えば「電子情報通信ハンドブッ
ク,電子情報通信学会編(1989年),pp.119
1〜1207」に記載されている。
【0003】
【発明が解決しようとする課題】上記従来技術では、S
S法を用いた場合、(音声+雑音)スペクトルと雑音ス
ペクトルの差分を算出するプロセスで、雑音の推定誤差
により雑音成分を完全に取り除くことができなかったり
、逆に過度の減算を行ったりする恐れがあり、音声認識
に悪影響を及ぼすという問題がある。また、マルチテン
プレート法では、テンプレート数の増加に伴って問題が
生じる。すなわち、認識時には、入力音声から得られる
特徴ベクトルを標準パタンと比較するプロセスを必要と
するが、複数のSN比を設定することにより識別カテゴ
リ当たりの標準パタンが多数存在するため、処理に時間
を要する。また、入力音声のSN比と同一のテンプレー
トを持たない場合には、それに近いテンプレートで識別
されるため、その音声は別の識別カテゴリに誤認識され
る恐れがある。さらに、適当なテンプレートを再設定す
ると、処理時間は大幅に増大してしまう。これらの問題
は、背景雑音の時間的変化により生じる雑音パワーの推
定誤差に起因する。本発明の目的は、このような問題点
を改善し、パタンマッチングを主体として音声認識を行
う場合、背景雑音の微小変動を考慮した識別を行うこと
により、雑音パワーの変動に起因する識別率の低下を軽
減することが可能な雑音下音声認識方法を提供すること
にある。
【0004】
【課題を解決するための手段】上記目的を達成するため
、本発明の雑音下音声認識方法は、マルチテンプレート
法やSS法等、パタンマッチングを主体とした認識系を
持つシステムの音声認識方法において、パタンマッチン
グに用いる標準パタンを従来手法により作成しておき、
入力音声に混入している雑音のスペクトル情報を用いて
、雑音パワーの微小変動により標準パタンの基準ベクト
ルが変化する方向を算出し、その変化方向の方がその垂
直方向より小さくなるように重み付けした距離尺度を設
定することにより、標準パタンに対して、雑音パワーが
微小変動することを想定した変形を加え、雑音パワーの
変動を考慮した識別を行うことに特徴がある。
【0005】
【作用】本発明においては、マルチテンプレート法によ
る場合、背景雑音下で入力した音声により予め作成した
標準パタンに対し、識別部はその背景雑音の微小変動を
想定した変形を加える。つまり、背景雑音のスペクトル
情報により、標準パタンの基準ベクトルが変化する方向
を求め、その変化方向に対しては小さな値をとり、それ
と垂直方向では大きな値をとるように距離尺度に重み付
けをする。この重み付け距離尺度を用いることにより、
雑音の混入した音声を識別する際の識別性能を従来より
向上させる。なお、認識率を従来と同じに設定する場合
には、テンプレート数を削減できる。さらに、SS法に
よる場合、雑音除去量の過不足による悪影響を軽減させ
る。
【0006】
【実施例】以下、本発明の一実施例を図面により説明す
る。まず、本実施例における雑音下音声認識方法の原理
について述べる。図3は、本発明の一実施例の雑音下音
声認識方法における雑音パワーの変動を考慮した重み付
けの説明図、図4は本発明の一実施例の雑音下音声認識
方法における雑音パワーの変動を考慮した標準パタンの
説明図である。本実施例では、音声認識のための特徴量
として、線形予測分析(LPC:linear  pr
edictive  coding)ケプストラムある
いはケプストラムを用いる。ケプストラムcは次式(1
)で定義される。
【0007】
【数1】 (1)式で示されるcは通常のマルチテンプレート方式
の標準パタンとなる特徴ベクトルである。SS法の場合
は、nを零として同様に計算される。ここで、雑音の混
入した音声信号s+nに、新たに微小雑音Δnが混入す
ると仮定する。これは、音声に加わる雑音パワーが変動
することを示す。雑音の混入により、(1)式のs+n
はs+n+Δnに置き換わり、次のように展開される。
【0008】
【数2】 ここで、微小雑音Δnによるケプストラム変化をΔcと
し、さらに、FΔn≪F(s+n)を仮定すれば、
【0
009】
【数3】 が得られ、(2)式から算出されるΔcベクトルを、雑
音が付加されたときのケプストラムの変化方向として標
準パタンの変形に利用する。標準パタンの変形は、ケプ
ストラムの変化方向にΔcを考慮した識別尺度を新たに
用いて行う。すなわち、従来の距離尺度をd、雑音の付
加が特徴パラメータに与する影響を考慮した距離をdn
とするとき、新しく距離尺度を (3)  (距離)=d+α×dn と置くことにより実現する。但し、αは重み係数である
。また、dnは、Δnの変化方向へ重み付けされた距離
であり、次式で表現される。 dn=((r・Δc)2/σ2)+r2−(r・Δc)
2                        
                (i.e.r=x−
c) x:入力ベクトル c:参照ベクトル Δc:正規化されたΔc σ:重み(>1) これは、図3に示すように、基準ベクトル(参照ベクト
ル)31から見た入力ベクトル32を、標準パタンが雑
音により変動を受ける方向成分dhとそれに垂直な成分
dvに分解し、Δc方向の変化に対しては小さな値を取
り、それと垂直な方向に対しては大きな値を取るように
距離尺度を重み付けするものである。このような距離尺
度を用いることにより、標準パタンに雑音のパワー変動
を考慮した変形を加えた効果が得られ、認識性能の向上
を計ることができる。例えば、図4のように、異なるS
N比におけるテンプレートの標準パタンP1,P2を設
定した場合、従来の標準パタン(点線の示す円形のパタ
ン)に比べ、雑音パワーの変化による特徴ベクトルの変
化方向(矢印方向)に追従して精度の高い認識を行うこ
とができる。また、従来の標準パタンに比べると、テン
プレート間の補充により識別性能が高くなる。
【0010】次に、本実施例の音声認識装置の構成およ
び機能について述べる。図1は、本発明の一実施例にお
ける雑音下音声認識方法の処理の流れを示す説明図、図
5は本発明の一実施例における音声認識装置の構成図で
ある。図5において、1は音声を入力するための入力装
置、2はCPU等の処理装置、3は入力された音声の識
別結果を出力するための出力装置、4はマッチング処理
に用いる標準パタンを格納する外部記憶装置である。ま
た、処理装置2は、入力された音声に対し、LPCスペ
クトル分析等の前処理を行う前処理部2aと、前処理さ
れた入力音声から特徴ベクトルを抽出する特徴抽出部2
bと、背景雑音を考慮して標準パタンの基準ベクトルを
変形させ、その基準ベクトルの変化方向を考慮した距離
尺度を設定して、入力音声を識別する識別部2cとを有
する。この外部記憶装置4に登録している標準パタンは
、上記(1)式におけるs+nを基に抽出した特徴ベク
トルである。また、識別部2cは、s+nに微小雑音パ
ワーΔnが加わった場合の距離尺度を算出し、これによ
ってマッチング処理を行う。このような構成により、図
1に示す処理を行う。すなわち、前処理部2aは、入力
された音声s+nに対してLPCスペクトル分析を行い
(101)、特徴抽出部2bにより特徴ベクトルを抽出
する(102)。さらに、識別部2cにより上記(3)
式に示した距離dを求める(103)。一方、識別部2
cは、背景雑音の微小変動を考慮した雑音パワー変動適
応処理を行う(104)。この処理では、外部記憶装置
4から標準パタン(s+nを想定し、複数のSN比で設
定したテンプレートの中の1個)を取り出し、入力され
た音声s+nに微小な背景雑音Δnが加わった場合のケ
プストラムの変化方向Δcを求め(104a)、その微
小雑音パワーが特徴パラメータに与える影響を考慮した
距離dnを求める(104b)。さらに、s+nを想定
して算出した距離dと背景雑音nの微小変動Δnを考慮
して算出した距離dnとから、ケプストラムの変化方向
Δcを考慮した新たな距離尺度を求め、これによってマ
ッチング処理を行い(105)、識別結果を出力する(
106)。
【0011】
【発明の効果】本発明によれば、パタンマッチングを主
体とする音声認識方法において、背景雑音の時間的変化
により生じる雑音パワーの推定誤差に起因する識別率の
低下を軽減させることができる。例えば、マルチテンプ
レート法では、SN比の異なるテンプレート間が補完さ
れるため、入力サンプルが入力音声のSN比とは異なる
SN比の識別カテゴリに誤認識されることが少くなり、
識別性能が向上する。また、識別率を変化させない場合
には、テンプレート数を削減することができる。さらに
、SS法では、雑音除去量の過不足による悪影響を軽減
させることができる。
【0012】
【図面の簡単な説明】
【図1】本発明の一実施例における雑音下音声認識方法
の処理の流れを示す説明図である。
【図2】従来の雑音下音声認識方法の処理の流れを示す
説明図である。
【図3】本発明の一実施例の雑音下音声認識方法におけ
る雑音パワーの変動を考慮した重み付けの説明図である
【図4】本発明の一実施例の雑音下音声認識方法におけ
る雑音パワーの変動を考慮した標準パタンの説明図であ
る。
【図5】本発明の一実施例における音声認識装置の構成
図である。
【符号の説明】
1  入力装置 2  処理装置 2a  前処理部 2b  特徴抽出部 2c  識別部 3  出力装置 4  外部記憶装置 31  基準ベクトル 32  入力ベクトル P1  標準パタン P2  標準パタン

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  パタンマッチングを主体とした認識系
    を持つシステムの音声認識方法において、パタンマッチ
    ングに用いる標準パタンを予め作成し、入力音声に混入
    している雑音のスペクトル情報を用いて、雑音パワーの
    微小変動により標準パタンの基準ベクトルが変化する方
    向を算出し、該変化方向の距離が該変化方向と垂直な方
    向より小さくなるように重み付けした距離尺度を設定し
    て、標準パタンを変形し、該変形パタンを用いて入力音
    声を識別することを特徴とする雑音下音声認識方法。
JP3047488A 1991-02-20 1991-02-20 雑音下音声認識方法 Pending JPH04264596A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3047488A JPH04264596A (ja) 1991-02-20 1991-02-20 雑音下音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3047488A JPH04264596A (ja) 1991-02-20 1991-02-20 雑音下音声認識方法

Publications (1)

Publication Number Publication Date
JPH04264596A true JPH04264596A (ja) 1992-09-21

Family

ID=12776506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3047488A Pending JPH04264596A (ja) 1991-02-20 1991-02-20 雑音下音声認識方法

Country Status (1)

Country Link
JP (1) JPH04264596A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266388A (ja) * 1993-03-17 1994-09-22 Nec Corp 音声認識装置
EP0838803A2 (en) * 1996-10-28 1998-04-29 Nec Corporation Distance calculation for use in a speech recognition apparatus
JP2002366192A (ja) * 2001-06-08 2002-12-20 Nec Corp 音声認識方法及び音声認識装置
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266388A (ja) * 1993-03-17 1994-09-22 Nec Corp 音声認識装置
EP0838803A2 (en) * 1996-10-28 1998-04-29 Nec Corporation Distance calculation for use in a speech recognition apparatus
EP0838803A3 (en) * 1996-10-28 1998-12-23 Nec Corporation Distance calculation for use in a speech recognition apparatus
US5953699A (en) * 1996-10-28 1999-09-14 Nec Corporation Speech recognition using distance between feature vector of one sequence and line segment connecting feature-variation-end-point vectors in another sequence
JP2002366192A (ja) * 2001-06-08 2002-12-20 Nec Corp 音声認識方法及び音声認識装置
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム

Similar Documents

Publication Publication Date Title
US5583961A (en) Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
EP0470245B1 (en) Method for spectral estimation to improve noise robustness for speech recognition
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
EP0128755A1 (en) Apparatus for speech recognition
JPH11133992A (ja) 特徴抽出装置および特徴抽出方法、並びにパターン認識装置およびパターン認識方法
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
EP0240329A2 (en) Noise compensation in speech recognition
EP1141943A1 (en) Speaker recognition using spectrogram correlation
Ney An optimization algorithm for determining the endpoints of isolated utterances
US5295190A (en) Method and apparatus for speech recognition using both low-order and high-order parameter analyzation
JPH04264596A (ja) 雑音下音声認識方法
JP3039623B2 (ja) 音声認識装置
JP3098593B2 (ja) 音声認識装置
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JPH04281497A (ja) 雑音下音声認識方法
US7912715B2 (en) Determining distortion measures in a pattern recognition process
JP3107905B2 (ja) 音声認識装置
JP2001067094A (ja) 音声認識装置及び方法
JPH04295895A (ja) 音声認識装置
JP3346200B2 (ja) 音声認識装置
JPH05289695A (ja) 雑音下音声認識システム
JPH10124084A (ja) 音声処理装置
JPH071438B2 (ja) 音声中の複数話者の発話区間自動検出同定装置
Pwint et al. A new speech/non-speech classification method using minimal Walsh basis functions
JP2864821B2 (ja) 音声認識装置