JP2701431B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2701431B2
JP2701431B2 JP1053200A JP5320089A JP2701431B2 JP 2701431 B2 JP2701431 B2 JP 2701431B2 JP 1053200 A JP1053200 A JP 1053200A JP 5320089 A JP5320089 A JP 5320089A JP 2701431 B2 JP2701431 B2 JP 2701431B2
Authority
JP
Japan
Prior art keywords
voice
noise
signal
section
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1053200A
Other languages
English (en)
Other versions
JPH02232697A (ja
Inventor
公治 清水
晴康 山岡
邦一 鈴木
一雄 中村
豊 宇尾野
博重 浅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP1053200A priority Critical patent/JP2701431B2/ja
Publication of JPH02232697A publication Critical patent/JPH02232697A/ja
Application granted granted Critical
Publication of JP2701431B2 publication Critical patent/JP2701431B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、音声情報を判定する音声認識装置に関し、
特に、非定常騒音の多い環境下における音声認識装置に
関する。
[従来の技術] 従来より、キーワードとなる操作者の発声する音声信
号と、登録済みの音声信号との類似度により、音声信号
を認識して、各種機器の運転を制御する音声認識装置が
知られている。そして、音声認識装置の用いられる周囲
の環境からの騒音によって、例えば、空気調和装置に音
声認識装置を組み込んだ場合に、空気調和装置の持つ騒
音、振動音、及びその他の外部の騒音によって、音声の
誤認識を起こす場合があり、その対策が取られている。
例えば、空気調和装置の運転中には、音声信号を第5
図に示すような低周波帯域をカットする特性を有する騒
音カットフィルタを通すことによって、騒音の信号を減
衰させている。その結果、第6図に示すような低周波数
の空気調和装置の発生する騒音あるいは外部の騒音を第
7図に示すように減衰することができる。そして、騒音
カットフィルタを通した音声信号から特徴データを抽出
し、予め記憶された標準データとを比較して、そのマッ
チングによって音声情報を判定し、空気調和装置等を制
御していた。
[発明が解決しようとする課題] しかしながら、こうした従来の音声認識装置では、入
力される音声信号を騒音カットフィルタにより処理する
ので、騒音を低減することはできるが、騒音の低減と共
に音声信号の一部までをも減衰してしまう場合があっ
た。例えば、音声信号として、母音「あ」が入力された
場合には、第8図に示すような周波数成分の音声信号が
マイクロフォンから出力される。そして、この音声信号
を前述した特性を有する騒音カットフィルタにより処理
すると、音声を特徴付けるホルマント周波数の内、低周
波数の第1、第2ホルマント等を第8図に示す斜線の如
く減衰させてしまい、そのスペクトルのピークを欠落さ
せてしまう。その為、フィルタ処理後の特徴抽出の際
に、音声信号の内、認識時最も重要となる特徴量を減少
させることとなってしまい、認識率の低下を招くという
問題があった。
そこで本発明は上記の課題を解決することを目的と
し、騒音を減衰させるフィルタの影響を受けることなく
音声信号の特徴を抽出し、認識率の向上を図った音声認
識装置を提供することにある。
[課題を解決するための手段] かかる目的を達成すべく、本発明は課題を解決するた
めの手段として次の構成を取った。即ち、 音声に応じた標準データを予め記憶する音声記憶手段
を有し、前記標準データとマイクロフォンから入力され
る音声信号に応じた特徴データとを比較する比較手段を
備えた音声認識装置において、 人間の聴感特性に合致あるいは近似の補正特性に基づ
いて、前記音声信号の内の騒音成分を多く含む周波数帯
域を減衰して出力する騒音カットフィルタと、 該騒音カットフィルタからの信号により音声区間を検
出する音声区間検出手段と、 前記マイクロフォンからの音声信号の内、前記音声区
間に応じた前記音声信号から特徴データを抽出して前記
比較手段に出力する音響分析手段と、 を備えたことを特徴とする音声認識装置の構成がそれ
である。
[作用] 前記構成を有する音声認識装置は、騒音カットフィル
タが、人間の聴感特性に合致あるいは近似の補正特性に
基づいて、音声信号の内の騒音成分を多く含む周波数帯
域を減衰して出力し、音声区間検出手段が、騒音カット
フィルタからの信号により音声区間を検出する。そし
て、音響分析手段が、マイクロフォンからの音声信号の
内、音声区間に応じた音声信号から特徴データを抽出し
て比較手段に出力し、比較手段が音声記憶手段に記憶さ
れた標準データと前記特徴データとを比較する。よっ
て、騒音カットフィルタを通すことなく入力された音声
信号から特徴データを抽出でき、この特徴データに基づ
いて音声の認識ができるので認識率が向上する。
[実施例] 以下本発明の実施例を図面に基づいて詳細に説明す
る。
第1図は本発明の一実施例である音声認識装置の概略
構成図である。1は周知のマイクロフォンであり、操作
者の発した音声を電気信号に変換し音声信号として出力
するものである。このマイクロフォン1は、騒音カット
フィルタ2と、バンドパスフィルタ4とにそれぞれ接続
されている。騒音カットフィルタ2は、マイクロフォン
1から入力される騒音を含んだ音声信号から騒音成分を
含んでいる周波数帯域を減衰させるものである。本実施
例では、第2図に示すような低周波数と高周波数の領域
の音声を大きく減衰させ2kHz〜4kHz付近で最も感度が高
い、人間の聴感特性に合致した補正特性を有するもので
ある。
あるいは、このような聴感補正特性を有するもの以外
でも、その環境により、騒音のスペクトル成分に高い周
波数成分が多い場合には、騒音カットフィルタとしてハ
イカットフィルタを用いればよい。又、第6図に示すよ
うな低周波成分を多く含む騒音特性を有する環境下にお
かれている場合には、その環境に応じて第5図に示すよ
うな低周波成分を減衰させる周波数特性を有するもので
あってもよい。若しくは、騒音が特定の中域に集中して
いる場合には、騒音カットフィルタとして中域カットフ
ィルタを用いればよい。更には、プログラムによってそ
の特性を変えることができる自由度の大きなディジタル
フィルタを用い、周囲の騒音状態等によって、その特性
を切り換える構成としてもよい。尚、フィルタの減衰率
等の特性を強く設定し過ぎると、騒音はより減衰させら
れるが、同時に純粋な音声信号も減衰させられてしま
う。又、特性を弱くすると騒音の減衰が弱く、後述する
音声区間の検出に影響がでる。
そして、もう一方のバンドパスフィルタ4は、マイク
ロフォン1から入力される騒音を含んだ音声信号を、音
声帯域、例えばおおよそ200Hz〜4KHzの周波数帯域以外
の成分をカットするものである。このフィルタとして、
ディジタルフィルタを用いてもよい。
前記騒音カットフィルタ2は、音声区間検出部6に接
続されており、この音声区間検出部6は、騒音カットフ
ィルタ2から出力された音声信号のパワー情報と予め設
定された所定のしきい値とを比較し、音声区間の始端と
終端を検出し、しきい値のレベルより高いときは音声区
間として、低いときは無音区間として出力するものであ
る。このしきい値は、固定した1つだけでもよいが、複
数のしきい値や周囲の騒音に合わせてしきい値を可変に
してもよい。また、音声スペクトルの傾きやピッチ情報
などと併せて、音声区間を検出するものであってもよ
い。この音声区間検出部6は、前記バンドパスフィルタ
4と共に音響分析部8に接続されており、音響分析部8
には、バンドパスフィルタ4を通った音声帯域の音声信
号と、音声区間信号とが入力される。尚、騒音カットフ
ィルタ2を通過した信号によって音声区間を検出するだ
けでなく、この信号に基づいて図示しないアンプのゲイ
ンをコントロールするようにしてもよい。入力信号が大
きければアンプのゲインを下げ、小さければアンプのゲ
インを上げることによって、音声信号のダイナミックレ
ンジを大きくすることができる。この時、基準となる信
号に騒音成分が多く含まれていると正確なゲインコント
ロールは不可能であり、騒音カットフィルタ2により騒
音成分をカットした信号を基準にすることにより、より
正確なゲインコントロールが可能となる。
この音響分析部8は、入力された音声区間信号に基づ
いて、その音声区間内のバンドパスフィルタ4を通った
音声帯域の音声信号のスペクトルを分析し、音声の特徴
を表す特徴パラメータを抽出するものである。この抽出
に当たっては、例えば、周知の高速フーリエ変換(FF
T)、バンドパスフィルタバンクや、線形予測分析など
により一定周期毎に、入力された音声区間内の音声信号
から特徴パラメータを抽出して、特徴ベクトルの時系列
として出力するものである。尚、音響分析部8におい
て、更に、騒音成分を低減するような処理を行って音声
信号の分析をするようにしてもよい。
この音響分析部8は、切換スイッチ10を介して、音声
記憶部12若しくは音声比較部14に選択的に接続できるよ
うになされている。前記音声記憶部12は、抽出された特
徴データ、例えば、ベクトルの時系列を標準データとし
て記憶するものである。そして、前記音声比較部14は、
この音声記憶部12に記憶された標準データと、切換スイ
ッチ10を介して入力される特徴データとを比較し、その
類似度を計算して出力するものである。この音声比較部
14は、判定部16に接続されており、判定部16は、音声比
較部14からの類似度に応じてそれと最も似通ったかつ予
め決められた一定の条件を満たした場合に、それに対応
した信号を出力するものである。この信号は出力端子18
から出力されるようになされており、この出力端子18に
接続された他の機器20、例えば空気調和装置を制御する
ようになされている。
次に、本実施例の作動について説明する。
まず、操作者が音声を発声すると、例えば「うんて
ん」と発声すると、それがマイクロフォン1によって捨
われて、電気信号に変換されて音声信号として出力され
る。この時、マイクロフォン1によって、発声された音
声の前後での音声以外の外部からの騒音も入力され、第
3図に示すような騒音が重畳された音声信号が出力され
る。
この出力される音声信号は、それぞれ騒音カットフィ
ルタ2とバンドパスフィルタ4とに入力される。騒音カ
ットフィルタ2に入力された音声信号は、第4図に示す
如く音声信号に重畳された騒音成分を減衰させられ音声
区間検出部6に出力される。音声区間検出部6では、入
力された音声信号のパワー情報と所定のしきい値とを比
較して、このしきい値より低い区間は無音区間と判定
し、しきい値よりも高い区間は音声区間と判定し、音声
区間信号を温厚分析部8に出力する。尚、騒音カットフ
ィルタ2に人間の聴感補正特性に合致した特性をもた
せ、人間の感覚に似た分析を行って、理想的な音声認識
の分析とすることができる。
一方、バンドパスフィルタ4は、入力された音声信号
を音声帯域以外を減衰させて音響分析部8に出力する。
音響分析部8では、このバンドパスフィルタ4からの出
力された音声信号と、音声区間検出部6からの音声区間
信号とから、音声区間内の音声信号を分析して特徴デー
タを抽出する。即ち、操作者によって音声を発声された
区間の音声信号のみに基づいて特徴データを抽出し、そ
れ以外の区間は、騒音であるとして特徴データを抽出す
る処理を行わない。
そして、切換スイッチ10が音声記憶部12側に切り換え
られているときには、前記音響分析部8から出力される
特徴データを標準データとして音声記憶部12に記憶す
る。こうして、音声記憶部12には、特定話者が発声した
単語や短文等の音声の特徴データ、例えば、音声が「う
んてん」である場合にはその特徴データが標準データと
して記憶される。
切換スイッチ10が音声比較部14側に切り換えられてい
るときには、前記音響分析部8から出力される特徴デー
タと、前記音声記憶部12に記憶された標準データとが、
音声比較部14が比較される。そして、音声比較部14で
は、特徴データと標準との類似度を計算して出力する。
判定部16では、この音声比較部14から出力される類似度
に基づいて操作者が発した音声が何であるかを判断し、
その発声した音声に応じた信号を出力する。そして、出
力端子18を介して、その信号を他の機器20に出力する。
例えば、空気調和装置に用いた場合には、その発声が
「うんてん」である場合には、空気調和装置の運転を開
始する信号を出力する。あるいはその発声に応じた信号
を出力して、設定温度を上げたりする制御を実行する。
尚、本実施例では、特定話者の音声認識を例にした
が、不特定話者の音声認識であっても同様に実施可能で
ある。
前述した如く、本実施例の音声認識装置は、騒音カッ
トフィルタ2により騒音を減衰し、音声区間検出部6が
その音声信号に基づいて音声区間を検出する。そして、
この音声区間と騒音カットフィルタ2を通らない音声信
号とに基づいて音響分析部8が特徴データを抽出する。
切換スイッチ10を切り換えて、この特徴データを標準デ
ータとして音声記憶部12に記憶し、又、音声比較部14に
よって、特徴データと標準データとを比較する。
従って、音響分析部8においては、騒音カットフィル
タ2を通らない音声信号から特徴データを抽出する。よ
って、騒音カットフィルタ2により音声成分までおも減
衰された音声信号からの音声の特等データの抽出ではな
く、減衰されていない音声信号から適正に特徴データを
抽出することができる。これにより、的確に音声の特徴
を掴むことができ、音声比較部14で特徴データと標準デ
ータとの類似度の計算精度が向上し、音声の認識率が向
上する。
又、騒音が発声音声にオーバラップしていても、騒音
カットフィルタにより騒音成分を減衰させた信号から音
声区間検出を実行することで、精度よく音声区間検出を
行うことが可能である。従来は、発声音声の音声区間に
騒音が重なって、音声区間が広く取られ、これによっ
て、特徴データを抽出していたので、認識エラーを引き
起こす場合があったが、適正に音声区間を検出すること
によって、認識率の向上を図ることができる。
以上本発明はこの様な実施例に何等限定されるもので
はなく、本発明の要旨を逸脱しない範囲において種々な
る態様で実施し得る。
[発明の効果] 以上詳述したように本発明の音声認識装置は、騒音カ
ットフィルタにより騒音成分を含んだ入力音声から騒音
成分を、入力音声信号の全周波数帯のうち、音声信号が
含まれる周波数帯においては低レベルで減算され、低周
波数帯及び高周波数帯といった音声信号が含まれない周
波数帯においては高レベルで減算されるという、人間の
聴感特性に合致あるいは近似の補正特性に基づいて減衰
させ、音声区間を精度よく判断し、かつ、音響分析部で
は、音声区間に応じてマイクロフォンからの音声信号か
ら特徴データを抽出するので音声情報を何ら欠落させる
ことなく入力して分析することができる。従って、音声
信号の内、認識時に最も重要となる特徴量を減衰させる
ことなく、音響分析部に音声情報を入力して分析するこ
とを可能とし、騒音が大きい環境、特に非定常的な騒音
の多い環境での認識性能向上にすぐれた効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例としての音声認識装置の概略
構成図、第2図は聴感補正特性を有する騒音カットフィ
ルタの特性を示すグラフ、第3図はマイクロフォンから
の音声信号を示すグラフ、第4図は騒音カットフィルタ
により処理した信号のグラフ、第5図はローカットフィ
ルタの特性を示すグラフ、第6図は低域に集中した騒音
のレベルを示すグラフ、第7図はローカットフィルタに
より第6図の騒音を処理したレベルのグラフ、第8図は
ホルマント周波数を説明するグラフである。 1……マイクロフォン 2……騒音カットフィルタ 6……音声区間検出部、8……音響分析部 12……音声記憶部、14……音声比較部
フロントページの続き (72)発明者 中村 一雄 愛知県刈谷市昭和町1丁目1番地 日本 電装株式会社内 (72)発明者 宇尾野 豊 愛知県刈谷市昭和町1丁目1番地 日本 電装株式会社内 (72)発明者 浅田 博重 愛知県刈谷市昭和町1丁目1番地 日本 電装株式会社内 (56)参考文献 特開 昭60−254100(JP,A) 特開 昭59−195291(JP,A) 特公 昭63−67199(JP,B2)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声に応じた標準データを予め記憶する音
    声記憶手段を有し、前記標準データとマイクロフォンか
    ら入力される音声信号に応じた特徴データとを比較する
    比較手段を備えた音声認識装置において、 人間の聴感特性に合致あるいは近似の補正特性に基づい
    て、前記音声信号の内の騒音成分を多く含む周波数帯域
    を減衰して出力する騒音カットフィルタと、 該騒音カットフィルタからの信号により音声区間を検出
    する音声区間検出手段と、 前記マイクロフォンからの音声信号の内、前記音声区間
    に応じた前記音声信号から特徴データを抽出して前記比
    較手段に出力する音響分析手段と、 を備えたことを特徴とする音声認識装置。
JP1053200A 1989-03-06 1989-03-06 音声認識装置 Expired - Lifetime JP2701431B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1053200A JP2701431B2 (ja) 1989-03-06 1989-03-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1053200A JP2701431B2 (ja) 1989-03-06 1989-03-06 音声認識装置

Publications (2)

Publication Number Publication Date
JPH02232697A JPH02232697A (ja) 1990-09-14
JP2701431B2 true JP2701431B2 (ja) 1998-01-21

Family

ID=12936233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1053200A Expired - Lifetime JP2701431B2 (ja) 1989-03-06 1989-03-06 音声認識装置

Country Status (1)

Country Link
JP (1) JP2701431B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP4257491B2 (ja) * 2002-11-08 2009-04-22 ソニー株式会社 音声認識装置
KR20040050765A (ko) * 2002-12-09 2004-06-17 엘지전자 주식회사 세탁기의 음성인식 방법
JPWO2005045807A1 (ja) 2003-11-05 2007-05-24 三洋電機株式会社 電子機器
JP6822540B2 (ja) * 2019-10-29 2021-01-27 株式会社Jvcケンウッド 端末装置、通信方法及び通信プログラム
JP7473325B2 (ja) * 2019-11-12 2024-04-23 株式会社シーイーシー 音声情報生成装置、音声情報生成方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60254100A (ja) * 1984-05-30 1985-12-14 沖電気工業株式会社 音声認識方式
JPS6367199A (ja) * 1986-09-09 1988-03-25 三晃金属工業株式会社 ケレン機

Also Published As

Publication number Publication date
JPH02232697A (ja) 1990-09-14

Similar Documents

Publication Publication Date Title
US6950796B2 (en) Speech recognition by dynamical noise model adaptation
US8473282B2 (en) Sound processing device and program
EP0077194B1 (en) Speech recognition system
JP2000132177A (ja) 音声処理装置及び方法
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
US11308946B2 (en) Methods and apparatus for ASR with embedded noise reduction
JP2701431B2 (ja) 音声認識装置
JP2000122688A (ja) 音声処理装置及び方法
KR102418256B1 (ko) 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법
US20030046069A1 (en) Noise reduction system and method
JPH0797279B2 (ja) 音声認識装置
CN113707156B (zh) 一种用于车载的语音识别方法及系统
JPH0449952B2 (ja)
Kasap et al. A unified approach to speech enhancement and voice activity detection
JP3106543B2 (ja) 音声信号処理装置
JP3284968B2 (ja) 話速変換機能を有する補聴器
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
JP2006010739A (ja) 音声認識装置
JP2968976B2 (ja) 音声認識装置
JP2000039900A (ja) 自己診断機能付き音声対話装置
Fan et al. Power-normalized PLP (PNPLP) feature for robust speech recognition
JP2870421B2 (ja) 話速変換機能を有する補聴器
JPH03160499A (ja) 音声認識装置
JP2666296B2 (ja) 音声認識装置
JPH0567039B2 (ja)

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081003

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091003

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091003

Year of fee payment: 12