JP2867425B2 - 音声認識用前処理装置 - Google Patents

音声認識用前処理装置

Info

Publication number
JP2867425B2
JP2867425B2 JP1136873A JP13687389A JP2867425B2 JP 2867425 B2 JP2867425 B2 JP 2867425B2 JP 1136873 A JP1136873 A JP 1136873A JP 13687389 A JP13687389 A JP 13687389A JP 2867425 B2 JP2867425 B2 JP 2867425B2
Authority
JP
Japan
Prior art keywords
noise
level
unit
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1136873A
Other languages
English (en)
Other versions
JPH032793A (ja
Inventor
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP1136873A priority Critical patent/JP2867425B2/ja
Publication of JPH032793A publication Critical patent/JPH032793A/ja
Application granted granted Critical
Publication of JP2867425B2 publication Critical patent/JP2867425B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識用前処理装置に関し、特に雑音下で
発声された音声を認識する音声認識装置の性能を向上さ
せるための音声認識用前処理装置に関する。
(従来の技術) 従来から音声認識のために、DPマッチングに基づく方
法をはじめとして、さまざまなアルゴリズムが提案され
ている。それらの方法については、古井貞煕、「デジタ
ル信号処理」、東海大学出版会(以下、文献1)に詳し
い。
しかし、それらの方法を用いて雑音下で発声された音
声を認識する場合には、認識率が低下するという問題点
があった。雑音下で発声された音声の認識が困難である
のは、音声がこの付加雑音によりマスクされるだけでな
く、発声自身のスペクトルが変形するためである。
同一男性話者が静かな環境と高雑音下において発声し
た母音/a/のスペクトルの例を第5図に示す。第5図に
おいて実線は静かな環境において発声された音声のスペ
クトルであり、点線は高雑音下において発声された音声
のスペクトルである。第6図に示すように高雑音下にお
いて発声された場合は全体のエネルギーの上昇だけでな
く、そのスペクトルの概形やホルマントの位置および帯
域幅も変化している。このような変形は例に示した母音
以外でも一般に生じる。このように、背景雑音レベルが
異なる場合の発声は、同じ母音であってもスペクトル形
状が大きく異なったものとなるため、母音パターン間距
離が大きくなり認識誤りの原因となっている。
雑音下の音声の認識方法として既にいくつかの方法が
提案されている。例えば、雑音下音声を認識する場合、
認識時と登録時の環境が近いほど認識率はよいことがC.
H.Lee,K.Ganesanによって“Speech Recognition Under
Additive Noise",ICASSP 1984,35.7,(1984.3)(以
下、文献2)に開示されている。そこで、あらかじめ、
多数の環境下で発声した標準パターンを登録する方法
(以下、方法1)が考えられる。
また、梅崎、板倉、「重みつきFFTケプストラム係数
と平滑化群遅延スペクトル係数による距離尺度の比較と
評価」、日本音響学会講演論文集1−5−11、昭和62年
10月(以下、文献3)に、重みつきケプストラム距離を
距離尺度とする方法(以下、方法2)が雑音下音声の認
識に有効であることが報告されている。
(発明が解決しようとする課題) 雑音下で発声した音声のスペクトル変形に方法1で対
処する場合には、登録時の手間や記憶量、処理量が膨大
になるという問題点がある。また、方法2の重みつきケ
プストラム距離はホルマントピークへの比重が高い距離
尺度であって、加法性の白色雑音等に対しては効果があ
る。しかし、この方法はホルマントの位置、帯域幅の変
動の影響を受け易いため、上記のようなスペクトル変形
には対処できない。
本発明の目的は、登録時と認識時の環境の違いを、発
声者へ音声あるいは雑音をフィードバックし補正するこ
とにより、登録時と認識時の環境が異なる場合であって
も音声も高精度で認識する音声認識用前処理装置を提供
することにある。
(課題を解決するための手段) 上述課題を解決するため本発明の第1の構成は、 周囲雑音を入力する雑音入力部と、 周囲雑音のレベルを測定する雑音レベル測定部と、 音声を入力する音声入力部と、 前記雑音レベルより発声者に前記入力音声をフィード
バックする際の再生レベルを決定する制御部と、 前記入力された音声を前記再生レベルに従って増幅す
る音声増幅部と、 前記増幅された音声を発声者にフィードバックするた
めの音声再生部と、を備えて構成される。
また、本発明の第2の構成は、 周囲雑音を入力する雑音入力部と、 周囲雑音のレベルを測定する雑音レベル測定部と、 音声標準パターン登録時の雑音レベルを記憶する登録
時雑音レベル記憶部と、 前記雑音レベルを登録時雑音レベルと比較し発声者に
提示する雑音のレベルを決定する雑音制御部と、 前記決定されたレベルの雑音を発生する雑音発生部
と、 前記発生された雑音を発声者に提示するための雑音再
生部と、を備えて構成される。
更に本発明の第3の構成は、 周囲雑音を入力する雑音入力部と、 周囲雑音のレベルを測定する雑音レベル測定部と、 音声を入力する音声入力部と、 前記雑音レベルから、発声者にフィードバックする音
声の再生レベルおよび提示する雑音レベルを決定する制
御部と、 雑音を発生する雑音発生部と、 入力された音声および発生した雑音を前記再生レベル
および雑音レベルに従って増幅、混合する増幅部と、 前記増幅部の出力信号を発声者に提示するための音声
再生部と、を備えて構成される。
(作用) 本発明は発声者に増幅した音声をフィードバックし、
イスペクトル変形を防ぐことにより、高精度の音声認識
装置を実現するものである。
雑音下で生じる音声の変形(スペクトル変形を含む)
はロンバード効果として知られている。このロンバード
効果は雑音により自分への音声のフィードバックが妨げ
られるために生じる(L.Harlan,“The Lombard Sign an
d The Role of Hearing in Speech",Journal of Speech
and Hearing Research,1971,vol.14,pp677−709)。そ
こで、発声者に音声を増幅してフィードバックしてやれ
ば、このような変形を未然に防ぐことができる。第6図
に示すのは男性話者5名が雑音レベルの異なる環境下
(0〜80dB(A))で発声した日本語5母音の平均パワ
ーである。図において横軸が周囲雑音レベル、縦軸が母
音パワーである。どの話者についても約10dB程度の上昇
が見られる。このパワーの上昇は発声者が周囲雑音によ
り自分の声が聞き取り辛くなったのを補正するために生
じたものである。したがって、この上昇に見合う分だけ
増幅した音声を、発声者にフィードバックしてやれば、
発声レベルは雑音のない状態のレベルとなり、スペクト
ルの変形を抑さえることができる。また、登録時に雑音
があった場合には標準パターン自身に既にスペクトル変
形が含まれている。そのような場合には登録時の雑音レ
ベルを記憶しておき、認識時にその雑音レベルに等しい
雑音を発声者に提示してやることにより登録時と同じス
ペクトル変形を起こしてやることができる。
(実施例) 次に本発明の実施例について図面を参照しながら説明
する。
第1図は本発明の一実施例を示す構成図である。
音声入力部101には音声信号が、雑音入力部102には周
囲雑音が入力されるものとする。この際、音声入力部に
は信号に周囲雑音が重畳しないように接話形マイクを、
雑音入力部には無指向性マイクを用いる。雑音レベル測
定部104は、信号線112から入力音声を受け取り、雑音レ
ベルを測定し、あらかじめ定められた時間の平均雑音レ
ベルを計算する。
制御部105は、信号線113より平均雑音レベルを受け取
り、再生ゲインを決定する。再生ゲインは例えば第2図
に示すような関数で決定される。この関数としては雑音
レベルの増加とともに増加するような関数であればよ
い。また、簡単には雑音レベルと再生ゲインのテーブル
を作成して使用してもよい。
音声増幅部106は、信号線114から再生ゲインを受け取
り、信号線115から受け取った音声信号を、指定された
再生ゲインで増幅し、信号線116を介して音声再生部103
へ出力する。音声増幅部としてはゲインが指定可能で、
音声帯域の増幅のできるものが利用可能である。音声出
力部としては例えばヘッドフォンを用いる。
信号線111が接続された音声出力端子107は認識部へ接
続される。認識部としては例えば文献1の方法を用いる
ことができる。
また、第3図は本発明の他の実施例を示す構成図であ
る。
雑音入力部301には周囲雑音が入力される。雑音入力
部としては無指向性のマイクを用いる。雑音レベル測定
部302は信号線311から入力音声を受け取り、雑音レベル
を測定し、あらかじめ定められた時間の平均雑音レベル
を計算する。登録時雑音レベル記憶部303は標準パター
ンが登録された時の雑音レベルを記憶しているものとす
る。
雑音制御部304は、信号線312より平均雑音レベルを、
信号線313より登録時雑音レベルを受け取り、発声者に
提示する雑音のレベルを決定する。
雑音発声部305は信号線314から提示雑音レベルを受け
取り、指定されたレベルの雑音を発生し、信号線315を
介して雑音再生部306へ出力する。雑音発生部305として
は例えば白色雑音発生器を用いることができる。雑音再
生部306としては例えばヘッドフォンを用いる。
また、第4図は本発明の更に他の実施例を示す構成図
である。
音声入力部401には音声信号が、雑音入力部402には周
囲雑音が入力されるものとする。この際、音声入力部に
は信号に周囲雑音が重畳しないように説話形マイクを、
雑音入力部には無指向性マイクを用いる。
雑音レベル測定部403は、信号線412から入力雑音を受
け取り、雑音レベルを計算する。
制御部405は信号線413より平均雑音レベルを、あらか
じめ定められた関数に従って音声信号および雑音の再生
ゲインを決定する。増幅部406は、信号線415から音声お
よび雑音の再生ゲインを受け取り、信号線416から受け
取った音声信号および信号線417から受け取った雑音発
生部409からの雑音信号を、指定された再生ゲインで増
幅、混合し、音声再生部407へ出力する。
音声増幅部としては2系統の入力を持ち、ゲインがそ
れぞれの入力に対し指定可能で、音声帯域の増幅のでき
るものが利用可能である。音声出力部としては例えばヘ
ッドフォンを用いる。音声出力端子408は認識部へ出力
される。認識部としては例えば文献1の方法を用いるこ
とができる。
(発明の効果) 以上説明したように本発明による音声認識装置では雑
音下で生じるスペクトル変形を抑えることができるの
で、雑音下でも高精度の認識装置を実現できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す構成図、第2図は本実
施例を説明するための説明図、第3図と第4図はそれぞ
れ本発明の他の実施例を示す構成図、第5図と第6図は
従来技術を説明するための図である。 101……音声入力部、102……雑音入力部、103……音声
再生部、104……雑音レベル測定部、105……制御部、10
6……音声増幅部、107……音声出力端子、301……雑音
入力部、302……雑音レベル測定部、303……登録時雑音
記憶部、304……雑音制御部、305……雑音発生部、306
……雑音再生部、401……音声入力部、402……雑音入力
部、403……音声レベル測定部、404……雑音レベル測定
部、405……制御部、406……増幅部、407……音声再生
部、408……音声出力端子、409……雑音発生部。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 9/00 G10L 9/00 F (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 511 G10L 3/00 521 G10L 3/00 531 G10L 3/00 571 G10L 3/02 301 G10L 3/02 G10L 9/00 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】周囲雑音を入力する雑音入力部と、 周囲雑音のレベルを測定する雑音レベル測定部と、 音声を入力する音声入力部と、 前記雑音レベルより発声者に前記入力音声をフィードバ
    ックする際の再生レベルを決定する制御部と、 前記入力された音声を前記再生レベルに従って増幅する
    音声増幅部と、 前記増幅された音声を発声者にフィードバックするため
    の音声再生部と、を備えて構成されることを特徴とする
    音声認識用前処理装置。
  2. 【請求項2】周囲雑音を入力する雑音入力部と、 周囲雑音のレベルを測定する雑音レベル測定部と、 音声標準パターン登録時の雑音レベルを記憶する登録時
    雑音レベル記憶部と、 前記雑音レベルを登録時雑音レベルと比較し発声者に提
    示する雑音のレベルを決定する雑音制御部と、 前記決定されたレベルの雑音を発生する雑音発生部と、 前記発生された雑音を発声者に提示するための雑音再生
    部と、を備えて構成されることを特徴とする音声認識用
    前処理装置。
  3. 【請求項3】周囲雑音を入力する雑音入力部と、 周囲雑音のレベルを測定する雑音レベル測定部と、 音声を入力する音声入力部と、 前記雑音レベルから、発声者にフィードバックする音声
    の再生レベルおよび提示する雑音レベルを決定する制御
    部と、 雑音を発生する雑音発生部と、 入力された音声および発生した雑音を前記再生レベルお
    よび雑音レベルに従って増幅、混合する増幅部と、 前記増幅部の出力信号を発声者に提示するための音声再
    生部と、を備えて構成されることを特徴とする音声認識
    用前処理装置。
JP1136873A 1989-05-30 1989-05-30 音声認識用前処理装置 Expired - Lifetime JP2867425B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1136873A JP2867425B2 (ja) 1989-05-30 1989-05-30 音声認識用前処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1136873A JP2867425B2 (ja) 1989-05-30 1989-05-30 音声認識用前処理装置

Publications (2)

Publication Number Publication Date
JPH032793A JPH032793A (ja) 1991-01-09
JP2867425B2 true JP2867425B2 (ja) 1999-03-08

Family

ID=15185529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1136873A Expired - Lifetime JP2867425B2 (ja) 1989-05-30 1989-05-30 音声認識用前処理装置

Country Status (1)

Country Link
JP (1) JP2867425B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
JP4795546B2 (ja) * 2001-02-14 2011-10-19 株式会社コーセー 油性洗浄料
EP1518224A2 (en) * 2002-06-19 2005-03-30 Koninklijke Philips Electronics N.V. Audio signal processing apparatus and method
KR20050058164A (ko) * 2003-12-11 2005-06-16 정용수 옥내외용 가설분전반의 다리 (받침대)
JP4854630B2 (ja) * 2007-09-13 2012-01-18 富士通株式会社 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム

Also Published As

Publication number Publication date
JPH032793A (ja) 1991-01-09

Similar Documents

Publication Publication Date Title
US6266633B1 (en) Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
EP1208563B1 (en) Noisy acoustic signal enhancement
US6952672B2 (en) Audio source position detection and audio adjustment
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
EP0411290A2 (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US20120095753A1 (en) Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method
JP3001037B2 (ja) 音声認識装置
JP2745535B2 (ja) 音声認識装置
US7539614B2 (en) System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes
JP2867425B2 (ja) 音声認識用前処理装置
GB1309700A (en) Speech redognition apparatus
JP3367592B2 (ja) 自動利得調整装置
JP3090119B2 (ja) 話者照合装置、方法及び記憶媒体
JPS6257040B2 (ja)
JP2975808B2 (ja) 音声認識装置
JPH0627991A (ja) 音声認識装置
JP3075250B2 (ja) 話者認識方法及び装置
JPH04324499A (ja) 音声認識装置
Giuliani et al. Experiments of HMM adaptation for hands-free connected digit recognition
JP2966452B2 (ja) 音声認識装置の雑音除去システム
Parry Microphone arrays for desktop computers and speech recognition
KR20000047295A (ko) 음성신호 가공방법 및 가공장치
JPH01236000A (ja) 音声認識装置
JPH039400A (ja) 音声認識装置
JP2000155600A (ja) 音声認識システムおよび入力音声レベル警告方法