JPH10177393A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH10177393A
JPH10177393A JP8339223A JP33922396A JPH10177393A JP H10177393 A JPH10177393 A JP H10177393A JP 8339223 A JP8339223 A JP 8339223A JP 33922396 A JP33922396 A JP 33922396A JP H10177393 A JPH10177393 A JP H10177393A
Authority
JP
Japan
Prior art keywords
noise
pattern
spectrum
circuit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8339223A
Other languages
English (en)
Inventor
Shigeki Aoshima
滋樹 青島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP8339223A priority Critical patent/JPH10177393A/ja
Publication of JPH10177393A publication Critical patent/JPH10177393A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 騒音下においても、パターンマッチング法を
用いて音声を確実に認識する。 【解決手段】 発声前の騒音区間において、入力信号の
スペクトルを算出し、騒音コードブック22を用いて騒
音スペクトルベクトル量子化回路20でコード化する。
コード化された騒音スペクトルは重み付け制御回路24
に供給される。重み付け制御回路24は、予め用意され
た騒音パターン/重み付け変換テーブル26を参照し
て、入力騒音スペクトルコードに対応する重み付け係数
を読み出し、認識部に供給する。発声区間においては、
入力信号の特徴パターンを抽出し、音素標準パターン記
憶部30に記憶された標準パターンとのマッチングを行
う。音素認識部28は、パターンマッチングに際し、騒
音スペクトルに応じて読み出された重み付け係数を用い
てパターン距離を算出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置、特に
騒音を含む入力音声信号のパターンと予め用意された標
準パターンとのパターンマッチングにより音声を認識す
る装置に関する。
【0002】
【従来の技術】従来より、騒音下における音声を確実に
認識するための技術が鋭意検討されており、一つの方法
として、パターンマッチングを行う際のパターン間距離
算出で周波数軸上の重み付けを行う方法がある。すなわ
ち、入力音声信号のパターンをai、標準パターンをbi
(iはチャンネル番号で周波数に対応)とした場合、通
常のパターン間距離Dabは、
【数1】Dab=Σ|ai−bi| ・・・(1) であるところ、kiを重み付け係数として
【数2】Dab=Σki|ai−bi| ・・・(2) あるいは、
【数3】Dab=Σ|ai−ki・bi| ・・・(3) により算出するのである。但し、重み付け係数kiは実
験的に最適な値が設定され、例えばki=(0.8、
0.9、1.0、1.2、1.0、0.9、0.8、
0.9)(但し、i=1〜8)等と設定される。これに
より、騒音下においてもパターンマッチングを確実に行
い、認識率低下を防ぐことができる。
【0003】
【発明が解決しようとする課題】しかしながら、上記従
来技術では周波数上の重み付け係数kiが固定であるた
め、騒音がある範囲内のみに限定されている状況下には
有効であるものの、騒音の種類が大きく変化するような
状況下では重み付け係数kiが必ずしも最適値とならな
いため、パターンマッチングが精度良く実行できない問
題があった。
【0004】なお、特開平4−264596号公報に
は、背景雑音下で入力した音声により予め作成した標準
パターンに対して、背景雑音のパワー変動を考慮した変
形を加えて入力音声信号パターンと比較することが開示
されているが、騒音のパワー変動に対する対処にとどま
り、騒音のスペクトル特性が大きく変化する環境下には
十分対処することができない問題がある。
【0005】本発明は、上記従来技術の有する課題に鑑
みなされたものであり、その目的は、騒音の種類が種々
変化するような環境下においても、パターンマッチング
を用いて精度良く音声認識を行うことが可能な音声認識
装置を提供することにある。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、標準パターンと入力音声信号とのパター
ンマッチングにより騒音を含む入力音声信号から音声を
認識する音声認識装置であって、入力騒音のスペクトル
を算出するスペクトル算出手段と、前記パターンマッチ
ングにおける重み付け係数を前記スペクトルに基づいて
変化させる係数制御手段とを有することを特徴とする。
【0007】
【発明の実施の形態】以下、図面に基づき本発明の実施
形態について説明する。
【0008】図1には、本実施形態の構成ブロック図が
示されている。マイク10からの入力音声信号は、A/
Dコンバータ12でデジタル信号に変換され、音響分析
部に供給される。音響分析部は、Log|FFT|回路
14、特徴抽出部16、騒音学習回路18、騒音スペク
トルベクトル量子化(VQ)回路20、騒音コードブッ
ク22、重み付け制御回路24及び騒音パターン/重み
付け変換テーブル26を有しており、発声前の騒音区間
では、Log|FFT|回路14で高速フーリエ変換さ
れた信号は騒音学習回路18に供給される。騒音学習回
路18では、数〜数十フレーム分の騒音区間の騒音スペ
クトルの平均を算出して騒音スペクトルベクトル量子化
(VQ)回路20に出力する。騒音スペクトルベクトル
量子化(VQ)回路20は、予めスペクトルエンベロー
プ毎に対応するコードが用意された騒音コードブック2
2を用いて入力された騒音スペクトルをコード化するも
のであり、コード化された騒音スペクトル(騒音スペク
トルコード)は重み付け制御回路24に供給される。重
み付け制御回路24は、予め用意された騒音パターン/
重み付け変換テーブル26を参照して入力騒音スペクト
ルコードに対応する重み付け係数を読み出す。騒音パタ
ーン/重み付け変換テーブル26は、音声認識を実行す
る前に予め複数の騒音サンプルについて、その騒音スペ
クトルコードと最適重み付け係数との関係を求めてテー
ブルとしたものである。一方、発声区間では、Log|
FFT|回路14からの信号は特徴抽出部16に供給さ
れてその特徴パターンが抽出され、認識部に供給され
る。
【0009】認識部は、音素認識部28、音素標準パタ
ーン記憶部30、単語認識部32及び単語辞書34を含
んで構成されており、音素認識部28で特徴抽出部16
からの信号パターンaiと音素標準パターン記憶部30
に予め記憶された標準パターンbiとのパターンマッチ
ングを行って音素を認識する。この際、パターン間距離
は、
【数4】Dab=Σci|ai−bi| ・・・(4) により算出される。但し、重み付け係数ciは、重み付
け係数制御回路24が入力騒音スペクトルコードに応じ
て変換テーブル26から読み出したものである。上述し
たように、この重み付け係数ciは従来のように固定で
はなく騒音スペクトルに応じて決定されるものであり、
これにより騒音スペクトルの変化にも対応することがで
きる。音素認識部28で認識された音素、すなわちパタ
ーン間距離が最も小さい音素パターンは単語認識部32
に順次供給され、単語辞書34に格納された単語と比較
することで単語認識を行う。
【0010】図2及び図3には、騒音パターン/重み付
け変換テーブル26の内容が模式的に示されている。両
図において、(a)は騒音パターン(騒音スペクトル)
を示し、(b)は対応する重み付け係数を示している。
図2は低域成分にピークがある騒音の場合で、(b)に
示すように重み付け係数ciは低域では相対的に小さ
く、高域では相対的に大きくなるように設定される。こ
れは、マイク10からの入力音声信号の低域に騒音が多
く含まれているため、パターン間距離の計算において低
域成分の距離に比べて高域成分の距離をより重視するこ
とを意味する。また、図3は低域成分及び高域成分にピ
ークがある騒音の場合で、(b)に示すように重み付け
係数ciは騒音の少ない中域において相対的に大きく、
低域及び高域では相対的に小さく設定される。これも、
騒音の影響が大きい低域及び高域のパターン間距離に比
べて中域のパターン間距離を重視するためである。な
お、図3において、騒音スペクトルのピークレベルが低
域と高域でほとんど同一であるにもかかわらず重み付け
係数ciは低域の方が高域よりも大きく設定されている
のは、音声認識にとって重要な情報は低域成分(1kH
z以下)に多く含まれていることに鑑みたものである。
図2及び図3を参照することで、本実施形態におけるパ
ターンマッチング処理が、騒音スペクトルの変化に応じ
て動的に変化することが理解されよう。
【0011】図4には、本実施形態の処理フローチャー
トが示されている。まず、マイク10から入力した信号
を所定の時間窓(例えば20〜30ms)で切り出し
(S101)、騒音区間であるか否か、すなわち発声前
の区間であるか否かを判定する(S102)。騒音区間
である場合には、入力騒音信号のLog|FFT|を演
算してスペクトルを算出し(S103)、数〜数十フレ
ームの平均を算出する(騒音スペクトルの学習)(S1
04)。そして、予め用意されたコードブックを参照し
て騒音スペクトルをベクトル量子化し(S105)、変
換テーブルを用いてコード化された騒音スペクトルに対
応する重み付け係数ciを決定する(S106)。従っ
て、この重み付け係数ciは、発声直前の騒音の種類が
変化した場合には、それに伴って変化することになる。
一方、騒音区間が終了して発声区間に入った場合には
(S102でNO)、入力音声信号(騒音を含む)の特
徴パターンと予め用意された標準パターンとのパターン
マッチングにより音素を認識する(S107)。この
際、上述したように重み付け係数ciを用いた重み付け
パターン間距離Dabが演算される。そして、認識された
音素に基づいて単語を認識する(S108)。
【0012】このように、本実施形態では、パターン間
距離を算出する際の重み付け係数を騒音スペクトルに応
じて変化させるので、騒音が種々変化する環境下におい
ても安定した音声認識率を得ることができる。
【0013】なお、本実施形態では、(4)式を用いて
パターン間距離を算出したが、もちろん
【数5】 Dab=Σ|ai−ci・bi| ・・・(5) により算出することもできる。
【0014】また、図2及び図3に示された騒音パター
ンと重み付け係数との対応関係も一例に過ぎず、実験に
より最適の関係を見いだせば良い。
【0015】
【発明の効果】以上説明したように、本発明によれば、
騒音の種類が種々変化するような環境下においても、パ
ターンマッチングを用いて精度良く音声認識を行うこと
ができる。従って、特に車両などの移動体に搭載する音
声認識システムに好適である。
【図面の簡単な説明】
【図1】 本発明の実施形態の構成ブロック図である。
【図2】 騒音パターン(スペクトル)と重み付け係数
との関係を示す説明図である。
【図3】 他の騒音パターン(スペクトル)と重み付け
係数との関係を示す説明図である。
【図4】 実施形態の処理フローチャートである。
【符号の説明】
10 マイク、12 A/Dコンバータ、14 Log
|FFT|回路、16特徴抽出部、18 騒音学習回
路、20 騒音スペクトルベクトル量子化回路、22
騒音コードブック、24 重み付け係数制御回路、26
騒音パターン/重み付け変換テーブル、28 音素認
識部、30 音素標準パターン記憶部、32 単語認識
部、34 単語辞書。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 標準パターンと入力音声信号とのパター
    ンマッチングにより騒音を含む入力音声信号から音声を
    認識する音声認識装置であって、 入力騒音のスペクトルを算出するスペクトル算出手段
    と、 前記パターンマッチングにおける重み付け係数を前記ス
    ペクトルに基づいて変化させる係数制御手段と、 を有することを特徴とする音声認識装置。
JP8339223A 1996-12-19 1996-12-19 音声認識装置 Pending JPH10177393A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8339223A JPH10177393A (ja) 1996-12-19 1996-12-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8339223A JPH10177393A (ja) 1996-12-19 1996-12-19 音声認識装置

Publications (1)

Publication Number Publication Date
JPH10177393A true JPH10177393A (ja) 1998-06-30

Family

ID=18325423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8339223A Pending JPH10177393A (ja) 1996-12-19 1996-12-19 音声認識装置

Country Status (1)

Country Link
JP (1) JPH10177393A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003501701A (ja) * 1999-06-07 2003-01-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 重み付けされたスペクトル距離の計算機
JP2019035935A (ja) * 2017-08-10 2019-03-07 トヨタ自動車株式会社 音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003501701A (ja) * 1999-06-07 2003-01-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 重み付けされたスペクトル距離の計算機
JP2019035935A (ja) * 2017-08-10 2019-03-07 トヨタ自動車株式会社 音声認識装置

Similar Documents

Publication Publication Date Title
US5278942A (en) Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
JP2597791B2 (ja) 音声認識装置及び方法
US6529866B1 (en) Speech recognition system and associated methods
JP4218982B2 (ja) 音声処理
JP2986313B2 (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
US4661915A (en) Allophone vocoder
US20070088552A1 (en) Method and a device for speech recognition
JPH0612089A (ja) 音声認識方法
US4424415A (en) Formant tracker
JP2002507291A (ja) 音声通信システムにおける音声強調方法およびその装置
US6182036B1 (en) Method of extracting features in a voice recognition system
EP0645755A1 (en) Speech coding apparatus and method using classification rules
EP0843302B1 (en) Voice coder using sinusoidal analysis and pitch control
US5280562A (en) Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
US6920424B2 (en) Determination and use of spectral peak information and incremental information in pattern recognition
EP0685835B1 (en) Speech recognition based on HMMs
JPH0576040B2 (ja)
US6999929B2 (en) Recognizing speech by selectively canceling model function mixture components
Li et al. A high-performance auditory feature for robust speech recognition.
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JPH10177393A (ja) 音声認識装置
US5544277A (en) Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals
JPH11327593A (ja) 音声認識システム