JPS5999497A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS5999497A
JPS5999497A JP57209912A JP20991282A JPS5999497A JP S5999497 A JPS5999497 A JP S5999497A JP 57209912 A JP57209912 A JP 57209912A JP 20991282 A JP20991282 A JP 20991282A JP S5999497 A JPS5999497 A JP S5999497A
Authority
JP
Japan
Prior art keywords
spectrum
speech recognition
input signal
similarity
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57209912A
Other languages
English (en)
Other versions
JPS6336000B2 (ja
Inventor
良二 鈴木
博 斉藤
永井 清隆
藤恵 英樹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP57209912A priority Critical patent/JPS5999497A/ja
Publication of JPS5999497A publication Critical patent/JPS5999497A/ja
Publication of JPS6336000B2 publication Critical patent/JPS6336000B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、工場や自動車の車室内等の騒音のある環境下
における音声認識を確実に行なうのに好適な音声認識装
置に関するものである。
従来例の構成とその問題点 第1図に従来の音声認識装置を示す。第1図において、
マイクロホン1から入力された音声は増幅器2で増幅さ
れ、A/D変換器3によりサンプリング周期毎にデジタ
ル量に変換された後に直交変換器4によりスペクトルに
変換され一音声ノくターン変換部5でチャンネル分割、
振幅正規化が行なわれ情報量が圧縮される。いま、スイ
ッチ6を登録パターン・エリア7側に倒しておけば登録
モードとなり、音声ノくターンが登−録ノくターン・工
】Jア7に格納され、スイッチ6をノ(ターン・マツチ
ング部8側に倒すことにより認識モードとなり、登録パ
ターン・エリアT内の登録)くターンと入カッくターン
との類似度がノくターン・マツチング部8で算出され、
判定部9でそれらの類似度から最も類似度の大なるもの
が選ばれ、この類似度に関する妥当性が吟味され、妥当
であったならば最大類似Jl持つ登録パターンのカテゴ
リー・ナンノ(−が結果として出力され、入力音声の認
識が行なわれたことになる。しかしながら、上述した音
声認識装置においては入力信号として雑音の重畳した音
声が入力された時、この入力信号のスペクトルは雑音の
重畳していない同一音声のスペクトルに比べて変形して
いるために両音声パターン間の距離が大きくなり、誤認
識を起こす可能性が大きくなる。萱たー雑音の重畳によ
り本来例もないはずの無音声区間に雑音信号が存在する
ために音声区間の検出が正確に行なえなくなり、誤認識
や誤動作を起こす可能性が犬きくなる。たとえば、入力
信号のエネルギがある定めた閾値以上の区間を音声区間
とするような音声区間検出方法を用いている場合には、
雑音のエネルギが上述したある定めた閾値以上になると
音声区間の検出ができなくなり。
音声認識が不可能となるという欠点があった。
発明の目的 本発明は、このような雑音のある環境下においても正確
に音声認識を行なうことができる音声認識装置を提供す
ることを目的とするものである。
発明の構成 本発明の音声認識装置は、入力信号の直交変換を行ない
、この変換値から求めたスペクトルにもとすいて音声認
識を行なうにあたり+ S/N比がある閾値以上の場°
合には音声区間として検出した入力信号のスペクトルに
もとすく音声認識を行ない、S/N比がある閾値以上の
場合には音声区間として検出した入力信号のスペクトル
から音声入力以前に求めておいた推定雑音スペクトルを
減じ、この減算結果から得られたスペクトルにもとすく
音声認識を行なうように構成したものである。
実施例の説明 第2図は本発明の一実施例を示しており、第2図におい
て、マイクロホン1oからの入力信号は一増幅器11で
増幅され、A/D変換器12によりサンプリング周期毎
にデジタル量に変換された後に直交変換器13によりス
ペクトルX (s)に変換され、かつS/N比計算部1
4によりS/u比カニ計算される。
S/N比が第4図に示したA点よりも低い時にスイッチ
16は雑音除去部16側に倒され、雑音除去部16で入
力信号のスペクトルX (s)から雑音パターン・チリ
ア1了に蓄えである推定雑音スペクζル9(s)が減じ
られ、一方、S/N比)よA点よりも高い時にスイッチ
16は雑音除去部160反対側に倒され、直交変換器1
3によるスペクトルが直接□音声パターン変換部18に
加えられる。そして1、音声パターン変換器18では上
述のスペクトルのチャンネル分割、振幅正規化が行なわ
れ情報量が圧縮される。スイッチ19を登録パターン・
エリア2o側に倒しておけば登録モードとなり、音声パ
ターンが登録パターン・エリア20に格納され。
スイッチ19をパターン・マツチング部21側に倒すこ
とにより認識モードとなり、登録パターンエリア20内
の登録パターンと入カバターンとの類似度がパターン・
マツチング部21で算出され。
判定部22でそれらの類似度から最も類似度の犬なるも
のが選ばれ、この類似度に関する妥当性が吟味され、妥
当であったならば最大類似度を持つ登録パターンのカテ
ゴリー・ナンバーが結果として出力され、入力音声の認
識が行なわれたことになる。
ここで、直交変換器13としてはフーリエ変換器、ウオ
ルシュ・アダマール変換器等が使用され、それぞれの変
換値から周波数スペクトル、交番数スペクトルが得られ
る。
上述したように直交変換器を用いる音声認識装置におい
て、雑音の重畳した音声を認識する時に問題となるのは
、音声区間の検出が難しくなるということと、音声が雑
音により汚染されて特徴がつかみにくくなるということ
の2点である。そこで入力信号の直交変換を行ない、こ
の変換値からスペクトルを求め、このスペクトルに基づ
いて音声認識を行なう場合、雑音のスペクトルの推定値
△ N(s)を求める手段を設け、この手段により音声入力
以前に雑音のスペクトルの推定値N (s)を求めてお
き、入力信号のスペクトルX (s)から上記雑音のス
ペクトルの推定値N(S)を減じ、この減算結果から得
られたスペクトルに基づいて音声認識を行なうことによ
り、雑音の重畳した音声を認識する時の上述した問題点
がある程度解決できる。これはスペクトル・サブトラク
ション法と呼ばれている。
このスペクトル・サブトラクション法の効果であるとこ
ろの音声区間検出精度の向上、スペクトル・パターンの
修復の2点について、それぞれ独立して分析した結果を
以下に示す。
ます、スペクトル・サブトラクションによる音声区間の
検出精度の向上についてであるが、第3図はスペクトル
・サブトラクションを行なう場合(破線)とスペクトル
・サブトラクションを行なわない場合(実線)について
 S/N比を変化させた時の音声区間の検出誤差を示し
たものである。
この場合、雑音はホワイトノイズである。この第3図か
ら+ S/N比を低下させるにつれて−スペクトル・サ
ブトラクションを行なわない場合の方がスペクトル・サ
ブトラクションを行なう場合よりも音声区間検出誤差が
急激に大きくなるのが観測される。つ筐り、スペクトル
・サブトラクション法が音声区間の検出に大きく貢献し
ているのがわかる0なお、S/N比が高い時には、スペ
クトル・サブトラクション全行なう場合の方がスペクト
ル・サブトラクションを行なわない場合よりも音声区間
の検出誤差がわずかに大きくなっているが、これは音声
穂識率にほとんど影響しなかった。
次に−スペクトル・サブトラクションによるスペクトル
・パターンの修復についてであるが、第4図はスペクト
ル・サブトラクションを行なう場合(破線)と−スペク
トル・サブトラクションを行なわない場合(実線)の、
S/N比を変化させた時の、雑音を重畳していない元の
音声スペクトルとの市街値距離を示したものである。こ
の場合、雑音はホワイトノイズである。この第4図から
、S/N比がA点のところの値よりも高い時には、スペ
クトル・サブトラクションを行なわない場合の方がスペ
クトル・サブトラクションを行なう場合よ)も元の音声
スペクトルとの市街値距離が小さくなり−1だ−S/N
比がA点のところの値よりも低い時には一逆にスペクト
ル・サブトラクションを行なう場合の方がスペクトル・
サブトラクションを行なわない場合よりも元の音声スペ
クトルとの市街値距離は小さくなるということが観測さ
れる。
以上に述べたスペクトル・サブトラクション法の効果に
対する分析結果より、入力信号を直交変換して得られた
スペクトルから推定雑音スペクトルを減じ、該減算結果
から得られたスペクトルに基づいて音声区間の検出を行
ない、第4図のA点のところのS/N比を閾値として、
入力信号のS/N比がこの閾値以上の場合には、音声区
間として検出された入力信号のスペクトルに基づいて音
声認識を行々い、入力信号のS/N比がこの閾値以下の
場合には、音声区間として検出された入力信号のスペク
トルから推定雑音スペクトルヲ減じ、この減算結果から
得られたスペクトルに基づいて音声認識を行なえば、雑
音のある環境下においても最適な音声認識結果が得られ
るということがわかる。
また第3図および第4図から推測できるように以上のよ
うなS/N比にもとすくスペクトル・サブトラクション
法の実行処理を行なっても+ S/N比の低下につれて
、パターン・マツチング部21で算出される類似度はし
だいに小さくなっていくので。
判定部22で最大類似度の妥当性を吟味する時に、妥当
でないと判断される可能性が犬きくなっていく。そこで
S/N比が低下するにつれて、最大類似度の妥当性の判
断のだめの閾値をゆるくする方向に変化させることによ
り、この問題は解決できる。
推定雑音スペクト、ルN (S)の求め方を以下に示す
十分に長い時間の音声には音声が発声されていない無音
声区間が必ず存在するということがわかっている。第6
図(a)は音声エネルギの時間変化を示]−だもので、
矢印で示した区間がこの無音声区間である。この音声に
定常的な雑音が重畳すると2第6図山)に示すようにエ
ネルギが全体的に持ち上げられた形になる。この第5図
から、定常的な雑音が重畳した場合には、エネルギが小
さい区間が無音声区間であるということがわかる。この
無音声区間には雑音だけが存在するわけだから一無音声
区間が検出できれば、その区間を直交変換することによ
り、推定雑音スペクトルN (S)が得られる。
推定雑音スペクトルN に)の求め方として、たとえば
無音声区間における入力信号のスペクトルX (51)
の平均をとる方法は一つすり ?、無音声区間における入力信号のスペクトルX (s
)の最大値をとる方法、つ!り△ N (s) = u+ax X (s)などが考えられ
る。この推定雑音スペクトルN (s)は、ある時間経
過毎に更新することにより、準定常的な雑音に対しても
追従して推定することがb」能となる。
発明の効果 以上、詳述したように本発明によれば、S/N比がある
閾値以上にあるか否を判定する手段を設け。
この手段での判定結果に応じて音声区間の検出を稍度艮
〈行ない、音声スペクトルの修複を適切に行なうスペク
トル・サブトラクションを実行するか否か決定するよう
に構成したので、雑音の重畳した音声が入力信号として
入力された場合でも、これを適格に音声認識することが
できる利点を有し、雑音のある環境下における音声認識
を確実に行なえる利点を有する。
【図面の簡単な説明】
第1図は従来の音声認識装置のブロック図、第2図は本
発明の音声認識装置の一実施例を示すブロック図、第3
図、第4図および第5図は同装置の動作説明図である。 1o・・・・・・マイクロホン、11・・・・・・増幅
器、12・・・・・・A/D変換器、13・・・・・・
直交変換器、14・・・・・・S/N比計算部、16・
・・・・・スイッチ、16・・・・・・雑音除去部、1
7・・・・・・雑音パターン・エリア、18・・・・・
・音声パターン変換部−19・−・・・・スイッチ、2
゜・・・・・・登録パターン・エリア、21・・・・・
・パターン・マツチング部、22・・・・・・判定部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名−7
徂 第3図 syH比 第4図 S/NEI:= 第5図

Claims (3)

    【特許請求の範囲】
  1. (1)入力信号の直交変換を行ない、この変換値から求
    めたスペクトルに基づいてS/N比を算出する手段と、
    この算出手段での算出結果がある閾1直より大きいか小
    さいかを判定する手段を設け。 これら手段での結果においてS/N比がある閾値以上の
    場合には音声区間として、検出された入力信号のスペク
    トルに基づいて音声認識を行ない。 S/N比がある閾値以下の場合には音声区間として検出
    された入力信号のスペクトルから音声入力以前に求めて
    おいた推定雑音スペクトルを減じ、この減算結果から得
    られたスペクトルに基づいて音声認識を行なうように構
    成したことを特徴とする音声認識装置。
  2. (2)音声認識を行なう手段は、直交変換により求 3
    められだスペクトルに基づいてパターン・マツチング部
    で入カバターンと登録パターンとの類似度が算出され、
    判定部でそれらの類似度から最も類似度の犬なるものが
    選ばれ、この類似度に関する妥当性が吟味され、妥当で
    あったならば最大類似度を持つ登録パターンのカテゴI
    J−ナンバーが結果として出力されるように構成すると
    共に、上記妥当性を吟味するだめの閾値を入力信号のス
    ペクトルにもとすいてS/N比を算出する手段での算出
    結果に応じて変化させるように構成したことを特徴とす
    る特許請求の範囲第1項記載の音声認識装置。
  3. (3)推定雑音スペクトルを求める手段は、ある時間区
    間の入力信号のエネルギの観測において、エネルギが小
    さい値を示した区間を音声の発声されていない5、無音
    声区間とみなし、この無音声区間のスペクトルを雑音の
    スペクトルの推定値として求めるように構成したことを
    特徴とする特許請求の範囲第1項記載の音声認識装置。
JP57209912A 1982-11-29 1982-11-29 音声認識装置 Granted JPS5999497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57209912A JPS5999497A (ja) 1982-11-29 1982-11-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57209912A JPS5999497A (ja) 1982-11-29 1982-11-29 音声認識装置

Publications (2)

Publication Number Publication Date
JPS5999497A true JPS5999497A (ja) 1984-06-08
JPS6336000B2 JPS6336000B2 (ja) 1988-07-18

Family

ID=16580705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57209912A Granted JPS5999497A (ja) 1982-11-29 1982-11-29 音声認識装置

Country Status (1)

Country Link
JP (1) JPS5999497A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS619700A (ja) * 1984-06-25 1986-01-17 シャープ株式会社 音声の特徴抽出方式
JPH09212195A (ja) * 1995-12-12 1997-08-15 Nokia Mobile Phones Ltd 音声活性検出装置及び移動局並びに音声活性検出方法
JP2005257748A (ja) * 2004-03-09 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム
JP2012168212A (ja) * 2011-02-09 2012-09-06 Jvc Kenwood Corp ノイズ低減装置およびノイズ低減方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS619700A (ja) * 1984-06-25 1986-01-17 シャープ株式会社 音声の特徴抽出方式
JPH09212195A (ja) * 1995-12-12 1997-08-15 Nokia Mobile Phones Ltd 音声活性検出装置及び移動局並びに音声活性検出方法
JP2005257748A (ja) * 2004-03-09 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム
JP4518817B2 (ja) * 2004-03-09 2010-08-04 日本電信電話株式会社 収音方法、収音装置、収音プログラム
JP2012168212A (ja) * 2011-02-09 2012-09-06 Jvc Kenwood Corp ノイズ低減装置およびノイズ低減方法

Also Published As

Publication number Publication date
JPS6336000B2 (ja) 1988-07-18

Similar Documents

Publication Publication Date Title
KR100677396B1 (ko) 음성인식장치의 음성구간 검출방법
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
JPS5999497A (ja) 音声認識装置
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
JP2992324B2 (ja) 音声区間検出方法
JPS6338993A (ja) 音声区間検出装置
JP2001166783A (ja) 音声区間検出方法
JP3118023B2 (ja) 音声区間検出方式及び音声認識装置
JP2989219B2 (ja) 音声区間検出方式
JPS5999498A (ja) 音声認識装置
JP3065739B2 (ja) 音声区間検出装置
JP3107905B2 (ja) 音声認識装置
JPS63278100A (ja) 音声認識装置
JP2666296B2 (ja) 音声認識装置
JPS6364099A (ja) 音声認識装置
JP3065691B2 (ja) 音声認識装置
JPH0424692A (ja) 音声区間検出方式
JPH0651792A (ja) 音声認識装置
JPH03138698A (ja) 車載用音声認識装置の入力方式
Alias et al. A novel acoustic fingerprint method for audio signal pattern detection
JP2975712B2 (ja) 音声切出し方式
JPH071437B2 (ja) 音声認識装置
JP2003271189A (ja) 話者方向検出回路及びその検出方法
JPS6217800A (ja) 音声区間判定方式
JP2000155600A (ja) 音声認識システムおよび入力音声レベル警告方法