JPH03274099A - Voice recognizing device - Google Patents

Voice recognizing device

Info

Publication number
JPH03274099A
JPH03274099A JP2074690A JP7469090A JPH03274099A JP H03274099 A JPH03274099 A JP H03274099A JP 2074690 A JP2074690 A JP 2074690A JP 7469090 A JP7469090 A JP 7469090A JP H03274099 A JPH03274099 A JP H03274099A
Authority
JP
Japan
Prior art keywords
noise
voice
section
speaker
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2074690A
Other languages
Japanese (ja)
Inventor
Takashi Ariyoshi
有吉 敬
Junichiro Fujimoto
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2074690A priority Critical patent/JPH03274099A/en
Priority to DE19914106405 priority patent/DE4106405C2/en
Publication of JPH03274099A publication Critical patent/JPH03274099A/en
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

PURPOSE:To remove a noise properly even if the playback sound of a radio set, a stereophonic set, etc., is superposed as the noise on a voice signal by providing a 2nd feature quantity extraction part which extracts the feature quantity of the noise from a playback signal reproduced by a speaker placed at the periphery of a microphone outside a 1st feature quantity extraction part which extracts the feature quantity of a noise-containing voice inputted from the microphone. CONSTITUTION:The 1st noise removal part 30 subtracts the time spectrum pattern of the noise of a speaker playback signal extracted by a 2nd feature quantity extraction part 20 from the time spectrum pattern of the voice containing the noise extracted by the 1st feature quantity extraction part 10 to generate a time spectrum pattern. A 2nd noise removal part 60 estimates the time spectrum pattern of a noise other than the noise of the speaker playback signal by a noise estimation part 50 and subtracts it from the time spectrum pattern, in a voice section detected by a voice section part 40, generated by the 1st noise removal part 30. An input pattern generation part 70 generates the input pattern of a voice inputted according to a known BTSP voice recognizing means from the feature quantity of the voice generated by the 2nd noise removal part 60.

Description

【発明の詳細な説明】 挟先分立 本発明は、音声認識装置、より詳細には、高雑音環境で
の音声認識に於ける雑音除去技術に関し、例えば、自動
車内での、ダイヤリング、オーディオ機器の制御、ニア
コンディショナーの制御、ナビゲーションシステムの制
御等のための音声認識装置に応用して好適なものであり
、更には、家庭内、事務所内などでも応用可能なもので
ある。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a speech recognition device, and more particularly, to a noise removal technique in speech recognition in a high-noise environment, such as dialing in a car, audio equipment, etc. The present invention is suitable for application to a voice recognition device for controlling a car, a near conditioner, a navigation system, etc., and can also be applied at home, office, etc.

k来枝先 近年、音声による情報入力手段が注目を集めているが、
自動車内においても、自動車電話の発呼。
In recent years, voice-based information input methods have been attracting attention.
You can also make calls from your car phone while in your car.

オーディオ機器の制御、ニアコンディショナーの制御、
ナビゲーションシステムの制御等のための音声認識技術
を応用することが考えられている。
Audio equipment control, near conditioner control,
It is being considered to apply voice recognition technology to control navigation systems, etc.

しかしながら、自動車内の音声認識は、エンジン音、タ
イヤの走行音、あるいは、ラジオ、ステレオの再生音が
雑音として音声信号に混入することと、運転中に接話型
マイクなどの口との距離の近いマイクが装着できないた
め、音声信号とノイズとの比、即ち、S/Nが悪いこと
が問題となり、雑音除去技術が不可欠なものとなってい
る。
However, voice recognition in a car is difficult due to the fact that the sound of the engine, running tires, or sound played from a radio or stereo mixes into the voice signal as noise, and the distance between the mouth and the mouth of a close-talking microphone while driving. Since it is not possible to attach a microphone close to the device, the ratio of the audio signal to the noise, that is, the S/N ratio is poor, which poses a problem, and noise removal technology is indispensable.

従来の音声認識における雑音除去技術としては。As a noise removal technology in conventional speech recognition.

S、F、Bollをはじめとするスペクトラルサブトラ
クション法、B、 Iidrowをはじめとするアダプ
ティブノイズキャンセリング等がある。
There are spectral subtraction methods such as S, F, and Boll, and adaptive noise canceling methods such as B and Iidrow.

しかしながら、スペクトラルサブトラクション法は、時
間非定常な雑音に弱く、例えば、ラジオ、ステレオの再
生音(音声や楽音)のように、音声帯域で時間非定常な
雑音が大きい場合は、まず、音声区間検出も十分にでき
ず、音声区間検出ができたとしても、推定雑音成分量が
実際の雑音成分と異なるという欠点がある。また、アダ
プティブノイズキャンセリングは、2人力、即ち、2本
のマイクを用いた場合、複数の雑音源からの合成された
雑音に対してうまく対応ができないという欠点があり、
であるからといって、マイクの本数をいたずらに増やし
ても、信号処理の量が膨大になり、かつ、コスト高にな
り実用化が困難になるという欠点がある。
However, the spectral subtraction method is sensitive to time-unsteady noise. For example, when there is a large amount of time-unsteady noise in the audio band, such as radio or stereo playback (speech or musical tones), the spectral subtraction method first requires speech section detection. However, even if speech sections can be detected, the estimated noise component amount is different from the actual noise component. In addition, adaptive noise canceling has the disadvantage that it cannot respond well to noise synthesized from multiple noise sources when using two people, that is, two microphones.
However, even if the number of microphones is increased unnecessarily, the amount of signal processing will be enormous, and the cost will be high, making it difficult to put it into practical use.

また、ラジオ、ステレオなどのスピーカから再生される
音(音声認識装置にとっては雑音)に関しては、マイク
からの入力から、スピーカに送られる信号に適当なゲイ
ンをかけたものを差し引く方法も考えられるが、スピー
カからマイクまでの遅延や、周囲の反射音があるために
、時間波形上で単純に両者の差を取っても効果は期待で
きない。
In addition, regarding the sound played from speakers such as radios and stereos (which is noise for voice recognition devices), it is possible to subtract the signal sent to the speakers by applying an appropriate gain from the input from the microphone. Since there is a delay from the speaker to the microphone and reflected sound from the surroundings, simply taking the difference between the two on the time waveform cannot be expected to be effective.

且−一」岬 本発明は、上述のごとき従来技術の欠点に鑑み成された
もので、特に、音声を入力するためのマイク付近で発生
する音声帯域で、かつ、時間非定常性の強いラジオ、ス
テレオなどの再生音が雑音として音声信号に重畳してい
ても、適切にこの雑音を除去し、このような雑音環境下
での良好な音声認識を実現することを目的としてなされ
たものである。
The present invention was made in view of the drawbacks of the prior art as described above, and is particularly applicable to radios in the voice band that occurs near the microphone for inputting voice and which has strong time non-stationarity. , even if playback sound from stereo etc. is superimposed on the audio signal as noise, the purpose was to appropriately remove this noise and achieve good speech recognition in such a noisy environment. .

代−一一腹 本発明は、上記目的を達成するために、(1)マイクか
ら入力される雑音を含む音声の特徴量を抽出する第1の
特徴量抽出部と、上記マイクの周囲に置かれたスピーカ
から再生されるためのスピーカ再生用信号を用いてスピ
ーカ再生用信号による雑音の特徴量を抽出する第2の特
徴量抽出部と、上記第1の特徴量抽出部で抽出された特
徴量から上記第2の特徴量抽出部で抽出された特徴量を
除去した特′eli量を生成する第1の雑音除去部と、
上記第1の雑音除去部で生成された特徴量から音声区間
を検出する音声区間検出部と、上記音声区間検出部で検
出された非音声区間における上記第1の雑音除去部で生
成された特徴量からスピーカ再生用信号による雑音以外
の雑音の推定値を求め、更に、上記音声区間検出部で検
出された音声区間における上記第1の雑音除去部で生成
された特徴量から上記スピーカ再生用信号による雑音以
外の雑音の推定値を除去し、音声の特徴量を生成する第
2の雑音除去部と、上記第2の雑音除去部で生成された
音声の特徴量から入力された音声の入力パターンを生成
する入力パターン生成部と、音声の標準パターンを記憶
する標準パターンメモリと、上記入力パターン生成部で
生成された入力パターンと上記標準パターンメモリに記
憶された標準パターンとで認識処理を行う認識部とを具
備して成ることを特徴としたものであり、更には、(2
)上記(1)の音声認識装置において、上記第2の特徴
抽出部は、マイクの周囲に置かれたスピーカから再生さ
れるための上記スピーカ再生用信号に。
In order to achieve the above object, the present invention includes: (1) a first feature extracting section that extracts features of a voice including noise input from a microphone; a second feature extraction unit that extracts a feature amount of noise caused by the speaker reproduction signal using the speaker reproduction signal to be reproduced from the speaker, and a feature extracted by the first feature extraction unit; a first noise removal unit that generates a feature quantity by removing the feature quantity extracted by the second feature quantity extraction unit from the quantity;
a speech section detection section that detects a speech section from the feature quantity generated by the first noise removal section; and a feature generated by the first noise removal section in the non-speech section detected by the speech section detection section. An estimated value of noise other than the noise caused by the speaker reproduction signal is calculated from the amount, and further, an estimated value of the noise other than the noise caused by the speaker reproduction signal is calculated from the feature amount generated by the first noise removal unit in the voice interval detected by the voice interval detection unit. a second noise removal unit that removes estimated values of noise other than the noise caused by the noise and generates a voice feature amount; and an input pattern of the voice input from the voice feature amount generated by the second noise removal unit. an input pattern generation unit that generates an input pattern, a standard pattern memory that stores a standard pattern of speech, and a recognition process that performs recognition processing using the input pattern generated by the input pattern generation unit and the standard pattern stored in the standard pattern memory. (2)
) In the speech recognition device of (1) above, the second feature extracting section extracts the speaker reproduction signal to be reproduced from speakers placed around the microphone.

上記スピーカと上記マイクとの予め定められた位置関係
で予め測定された上記スピーカ再生用信号と上記マイク
から入力される信号間の伝達関数に相当する処理を行っ
た信弼の特yll量をスピーカ再生用信号による雑音の
特徴量とすることを特徴とするものであり、更には、(
3)上記(1)又は(2)の音声認識装置において、上
記マイクの周囲に置かれたスピーカが複数個ある場合に
、それぞれのスピーカから再生するためのスピーカ再生
用信号に、上記それぞれのスピーカと上記マイクとの予
め定められた位置関係で予め測定された上記それぞれの
スピーカ再生用信号と上記マイクから入力される信号間
の伝達関数に相馬するそれぞれの処理を行った信号をす
べて加算した信号の特徴量をスピーカ再生用信号による
雑音の特徴量とすることを特徴としたものである。以下
1本発明の実施例に基づいて説明する。
Shinsuke's special yll amount, which has been subjected to processing corresponding to the transfer function between the speaker reproduction signal measured in advance in a predetermined positional relationship between the speaker and the microphone, and the signal input from the microphone, is transmitted to the speaker. It is characterized in that it is a feature amount of noise due to a reproduction signal, and furthermore, (
3) In the speech recognition device of (1) or (2) above, when there are multiple speakers placed around the microphone, the speaker reproduction signal for reproduction from each speaker is A signal that is the sum of all the signals that have been processed in accordance with the transfer function between each of the above speaker reproduction signals and the signal input from the above microphone, which are measured in advance in a predetermined positional relationship between the above microphone and the above microphone. This feature is characterized in that the feature quantity is used as the feature quantity of the noise due to the speaker reproduction signal. An explanation will be given below based on one embodiment of the present invention.

第1図は1本発明の一実施例を説明するための構成図で
、図中、1はマイク、2はマイク1の周囲に置かれたス
ピーカ、10はマイク1から入力された雑音を含む音声
の特徴量を抽出する第1の特徴量抽出部、20はスピー
カ再生用信号による雑音の特徴量を抽出する第2の特徴
量抽出部、30は第1の雑音除去部、40は音声区間検
出部、50は雑音推定部、60は第2の雑音除去部。
FIG. 1 is a configuration diagram for explaining one embodiment of the present invention. In the figure, 1 is a microphone, 2 is a speaker placed around the microphone 1, and 10 includes noise input from the microphone 1. 20 is a second feature extraction unit that extracts the feature amount of noise due to the speaker reproduction signal; 30 is the first noise removal unit; and 40 is a voice section. 50 is a noise estimator, and 60 is a second noise remover.

70は入力パターン生成部、80は標準パターンメモリ
、90は認識部で、請求項第1項及び第2項に記載の発
明は、マイク1から入力される雑音を含む音声の特徴量
を抽出する第1の特徴量抽出部10と、上記マイクエの
周囲に置かれたスピーカ2から再生されるためのスピー
カ再生用信号を用いてスピーカ再生用信号による雑音の
特徴量を抽出する第2の特徴量抽出部20と、上記第↓
の特徴量抽出部10で抽出された特徴量から上記第2の
特rJIl量抽出部20で抽出された特徴量を除去した
特徴量を生成する第1の雑音除去部30と、上記第1の
雑音除去部で生成された特徴量から音声区間を検出する
音声区間検出部40と、上記音声区間検出部40で検出
された非音声区間における上記第1の雑音除去部30で
生成された特徴量からスピーカ再生用信号による雑音以
外の雑音の推定値を雑音推定部50にて推定し、て求め
、更に、上記音声区間検出部40で検出された音声区間
における上記第1の雑音除去部30で生成された特徴量
から上記スピーカ再生用信号による雑音以外の雑音の推
定値を除去し、音声の特徴量を生成する第2の雑音除去
部60と、上記第2の雑音除去部60で生成された音声
の特徴量から入力された音声の入力パターンを生成する
入力パターン生成部70と、音声の標準パターンを記憶
する標準パターンメモリ80と、上記入力パターン生成
部で生成された入力パターン70と上記標準パターンメ
モリ80に記憶された標準パターンとで認識処理を行う
認識部90から戊っている。
70 is an input pattern generation section, 80 is a standard pattern memory, and 90 is a recognition section. A second feature amount that extracts a feature amount of noise due to a speaker reproduction signal using a first feature amount extraction unit 10 and a speaker reproduction signal to be reproduced from the speakers 2 placed around the microphone. Extraction part 20 and the above ↓
a first noise removal section 30 that generates a feature amount by removing the feature amount extracted by the second characteristic amount extraction section 20 from the feature amount extracted by the feature amount extraction section 10; a speech section detection section 40 that detects a speech section from the feature amount generated by the noise removal section; and a feature amount generated by the first noise removal section 30 in the non-speech section detected by the speech section detection section 40. The noise estimator 50 estimates and obtains an estimated value of noise other than the noise caused by the speaker reproduction signal from A second noise removing unit 60 that removes estimated values of noise other than the noise caused by the speaker reproduction signal from the generated feature amount to generate a voice feature amount; an input pattern generation unit 70 that generates an input pattern of the input voice from the feature amount of the input voice; a standard pattern memory 80 that stores a standard pattern of voice; and the input pattern 70 generated by the input pattern generation unit and the It is separated from the recognition section 90 that performs recognition processing using the standard pattern stored in the standard pattern memory 80.

更に詳細に説明すると、第1の特徴量抽出部10は、自
動車内に設置され音声を入力するためのマイク1から入
力される雑音を含む音声の特徴量を抽出するもので、マ
イクアンプ11は、増幅を行ない、プリエンファシス1
2は、高域を強調し、バンドパスフィルタバンク13は
、25011zから6.35KIlzまで対数軸上で等
間隔に配置された15個の周波数を中心周波数とするバ
ンドパスフィルタ群と、その各帯域毎の整流器、ローパ
スフィルタから成り、これにより入力音声のスペクトル
を求める。マルチプレクサ14は、上記の各帯域のデー
タを切り替え、A/Dコンバータ15は、iomsのサ
ンプリング周期で各帯域毎のデータをデジタル化する。
To explain in more detail, the first feature extraction unit 10 extracts the feature amount of the voice including noise input from the microphone 1 installed in the car for inputting voice. , perform amplification, pre-emphasis 1
2 emphasizes the high frequency range, and the bandpass filter bank 13 includes a group of bandpass filters whose center frequencies are 15 frequencies arranged at equal intervals on the logarithmic axis from 25011z to 6.35KIlz, and each band. It consists of a rectifier and a low-pass filter for each channel, and the spectrum of the input voice is determined using these. The multiplexer 14 switches the data of each band, and the A/D converter 15 digitizes the data of each band at a sampling period of IOMS.

従って、第1の特徴量抽出部10に入力された信号は、
マイクアンプ11、プリエンファシス12、バンドパス
フィルタバンク13、マルチプレクサ14、A/Dコン
バータ15を経て、雑音を含む音声のタイムスペクトル
パターンX(t、f)(ここで、tは時間軸、fは周波
数軸である)となる。また、第2の特徴量抽出部20は
、マイク1の周囲に置かれたスピーカ2から再生される
ためのスピーカ再生用信号を用いてスピーカ再生用信号
による雑音の特徴量を抽出するもので、プリエンファシ
ス22は、プリエンファシス12と同様に高域を強調し
、バンドパスフィルタバンク23は、バンドパスフィル
タバンク13と同様にしてスピーカ再生用信号のスペク
トルを求め、マルチプレクサ24は、マルチプレクサ1
4と同様にして各帯域のデータを切り換え、A/Dコン
バータ25は、A/Dコンノく一タ15と同様にして各
帯域毎のデータをデジタル化する。第2の特徴量抽出部
20に入力された信号は、プリエンファシス22.バン
ドパスフィルタバンク23.マルチプレクサ24、A/
Dコンバータ25を経て、スピーカ再生用信号ののタイ
ムスペクトルパターンN(t、f)となる。更に、例え
ば、このスピーカ再生用信号のタイムスペクトルパター
ンN(t、f)と、予め測定され伝達関数メモリ28に
記憶されたスピーカ2とマイク1間の伝達関数H(f)
との積N(t、、f)・H(f)が乗算器27で計算さ
れ、スピーカ再生用信号による雑音のタイムスペクトル
パターン N1(t、f)=N(t、f)・H(f)となる。なお
、スピーカ2とマイク1間の伝達関数H(f)は、第2
の特徴量抽出部20に入力されるスピーカ再生用信号に
インパルス信号を与えて、スピーカ2を介して再生され
た音をマイク1から収音して得られるインパルス応答を
フーリエ変換すれば予め求めることができるし、ホワイ
ト・ノイズの再生、周波数スイープ信号を再生して求め
ることもできる。
Therefore, the signal input to the first feature extraction unit 10 is
After passing through the microphone amplifier 11, pre-emphasis 12, bandpass filter bank 13, multiplexer 14, and A/D converter 15, the time spectrum pattern of the audio including noise X(t, f) (where t is the time axis and f is (on the frequency axis). Further, the second feature amount extraction unit 20 extracts the feature amount of noise due to the speaker reproduction signal using the speaker reproduction signal to be reproduced from the speaker 2 placed around the microphone 1, The pre-emphasis 22 emphasizes high frequencies in the same manner as the pre-emphasis 12, the band-pass filter bank 23 obtains the spectrum of the speaker reproduction signal in the same way as the band-pass filter bank 13, and the multiplexer 24
The data of each band is switched in the same manner as in 4, and the A/D converter 25 digitizes the data of each band in the same manner as the A/D converter 15. The signal input to the second feature extraction unit 20 is processed by pre-emphasis 22. Bandpass filter bank 23. Multiplexer 24, A/
After passing through the D converter 25, the time spectrum pattern N(t, f) of the signal for speaker reproduction is obtained. Further, for example, the time spectrum pattern N(t, f) of this speaker reproduction signal and the transfer function H(f) between the speaker 2 and the microphone 1 measured in advance and stored in the transfer function memory 28.
The product N(t,,f)・H(f) is calculated by the multiplier 27, and the time spectrum pattern of noise due to the speaker reproduction signal N1(t,f)=N(t,f)・H(f ). Note that the transfer function H(f) between the speaker 2 and the microphone 1 is the second
This can be obtained in advance by giving an impulse signal to the speaker reproduction signal input to the feature extracting unit 20 of the feature extraction unit 20, and performing Fourier transform on the impulse response obtained by collecting the sound reproduced through the speaker 2 from the microphone 1. It can also be obtained by reproducing white noise or frequency sweep signals.

第1の雑音除去部30は、第iの特徴量抽出部10で抽
出された雑音を含む音声のタイムスペクトルパターンX
(t、f)から第2の特徴量抽出部20で抽出されたス
ピーカ再生用信号による雑音のタイムスペクトルパター
ンN1(t、f)を減じ、雑音を含む音声信号からスピ
ーカ再生用信号による雑音を除去したタイムスペクトル
パターンx1(t、f)=x(t、f)−N1.(t、
f)を生成する。
The first noise removal unit 30 extracts a time spectrum pattern
The time spectrum pattern N1 (t, f) of the noise due to the speaker reproduction signal extracted by the second feature extraction unit 20 is subtracted from (t, f), and the noise due to the speaker reproduction signal is removed from the noisy audio signal. Removed time spectrum pattern x1(t,f)=x(t,f)-N1. (t,
f).

音声区間検出部40は、第1の雑音除去部30で生成さ
れた雑音を含む音声信号からスピーカ再生用信号による
雑音を除去したタイムスペクトルパターンXI(t、f
)から音声区間を検出する。
The speech section detection section 40 generates a time spectrum pattern XI (t, f
) to detect the voice section.

ここで用いられる音声区間検出の方法は、タイムスペク
トルパターンX1(t、f)の各フレームにおける合計 5 Σ XI(t、f) f=1 が、予め定められたしきい値を越えた区間を音声区間と
する。
The voice section detection method used here detects the section in which the total of 5 Σ XI (t, f) f=1 in each frame of the time spectrum pattern This is a voice section.

第2の雑音除去部60は、音声区間検出部40で検出さ
れた音声区間における第1の雑音除去部30で生成され
た雑音を含む音声信号からスピーカ再生用信号による雑
音を除去したタイムスペクトルパターンX 1s(t、
f) (添え字Sは、音声区間を表す)から更にスピー
カ再生用信号による雑音以外の雑音のタイムスペクトル
パターンN 2 (t、f)を雑音推定部50で推定し
て減じて、音声のタイムスペクトルパターン S (t、f) = X 1.s(t、f) −N 2
(t、f)を生成する。ここで、スピーカ再生用信号に
よる雑音以外の雑音のタイムスペクトルパターンN2(
tlf)は、公知のスペクトルサブトラクションlムに
従って、音声区間でない時の第1の雑音除去部30の出
力X1n(t、f)の複数フレームの平均を雑音推定部
50にて推定して充てる(添え字nは、非音声区間を表
す)。
The second noise removal unit 60 generates a time spectrum pattern obtained by removing noise caused by the speaker reproduction signal from the noise-containing audio signal generated by the first noise removal unit 30 in the audio interval detected by the audio interval detection unit 40. X 1s(t,
f) The noise estimator 50 estimates and subtracts the time spectrum pattern N 2 (t, f) of noise other than the noise caused by the speaker reproduction signal from (the subscript S represents the speech section) to obtain the speech time. Spectral pattern S (t, f) = X 1. s(t, f) −N 2
Generate (t, f). Here, the time spectrum pattern N2 (
tlf) is estimated by the noise estimation unit 50 and applied to the average of a plurality of frames of the output X1n(t, f) of the first noise removal unit 30 when it is not a voice section, according to the known spectral subtraction system (see appendix). The letter n represents a non-speech section).

入力パターン生成部70は、第2の雑音除去部60で生
成された音声の特徴量から公知のBTSP (Bina
ry Ti+ie Spectrum Pattern
)音声認識方式の音声パターン生成法に従って入力され
た音声の入力パターンを生成する。
The input pattern generation unit 70 generates a known BTSP (Bina
ry Ti+ie Spectrum Pattern
) Generate an input pattern of the input voice according to the voice pattern generation method of the voice recognition method.

標準パターンメモリ80は、公知のBTSP音声認識方
式の標準パターン形式になっている音声の標準パターン
を記憶する。
The standard pattern memory 80 stores a standard pattern of speech in the standard pattern format of the known BTSP speech recognition system.

認識部90は、入力パターン生成部70で生成された入
力パターンと上記標準パターンメモリ80に記憶された
標準パターンとで公知のBTSP音声認識方式の認識処
理に従って認識処理を行う。
The recognition unit 90 performs recognition processing using the input pattern generated by the input pattern generation unit 70 and the standard pattern stored in the standard pattern memory 80 according to the recognition process of the well-known BTSP speech recognition method.

尚、以上に示した実施例で用いた手段以外に、音声区間
検出部40の音声区間検出法、第2の雑音除去部60の
雑音除去法、入力パターン生成部70のパターン生成法
、標準パターンメモリ80のパターン形式、認識部90
の認識処理などに公知の方法を用いても本発明を実施す
ることができる。
In addition to the means used in the embodiments described above, the speech section detection method of the speech section detection section 40, the noise removal method of the second noise removal section 60, the pattern generation method of the input pattern generation section 70, and the standard pattern Pattern format of memory 80, recognition unit 90
The present invention can also be implemented using a known method for recognition processing.

また、バンドパスフィルタバンク13.23は。Also, the bandpass filter bank 13.23.

FFTなどのデジタル信号処理と置き換えても良く、ま
た、A/Dコンバータ15と25は、時分割処理によっ
て共有することも可能である。
It may be replaced with digital signal processing such as FFT, and the A/D converters 15 and 25 may be shared by time-division processing.

第2図は、第1図に示した実施例を、スピーカが複数個
ある場合に対応するために拡張した実施例の構成図で、
図示のように、スピーカの数が例えば2個の場合、第2
の特徴量抽出部20a、20bも2個で、スピーカ28
.2bから再生されるためのそれぞれのスピーカ再生用
信号を入力し、バンドパスフィルタ23a、23bで得
られるこれらのスピーカ再生用信号のタイムスペクトル
パターンNa(t、f) t Nb(t、f)と、予め
測定されたスピーカ2a、2bとマイク1間の伝達関数
Ha(f)。
FIG. 2 is a configuration diagram of an embodiment in which the embodiment shown in FIG. 1 is expanded to accommodate a case where there are multiple speakers.
As shown in the figure, if the number of speakers is two, the second
There are also two feature extraction units 20a and 20b, and the speaker 28
.. The time spectrum patterns Na(t, f) t Nb(t, f) of these speaker playback signals obtained by the bandpass filters 23a and 23b are inputted to the respective speaker playback signals to be played back from the band pass filters 23a and 23b. , a transfer function Ha(f) between the speakers 2a, 2b and the microphone 1 measured in advance.

)Ib(f)のそれぞれの積が乗算器27a、27bで
求められ、これらの積の総和が加算器29でスピーカ再
生用信号による雑音のタイムスペクトルパターン N 1(t、f) = Na(t、f)・Ha(f) 
+ Nb(t、fl Hb(f)となる。これ以降の処
理は、第1図に示した実施例と同じである。また、スピ
ーカの個数が3個以上でも同様な手法で実現できる。
)Ib(f) are calculated by multipliers 27a and 27b, and the sum of these products is calculated by adder 29 as a time spectrum pattern of noise due to the speaker reproduction signal N1(t,f) = Na(t , f)・Ha(f)
+ Nb(t, fl Hb(f). The subsequent processing is the same as the embodiment shown in FIG. 1. Even if the number of speakers is three or more, the same method can be used.

羞−一果 以上の説明から明らかなように、請求項第1項の発明に
よると、第■の雑音除去部30において、雑音を含む音
声の特徴量から音声帯域でしかも時間非定常性の強いス
ピーカ再生用信号による雑音の特徴量を除去してから、
音声区間検出部40において音声区間を検出するので、
スピーカ再生音以外の雑音1例えば自動車内では、エン
ジン音、タイヤの走行音、例えば家庭内、事務所内では
、It o t hノイズに代表されるような雑音とい
ったいずれも低域(100Hzから数100Hz程度)
でしかも時間定常性の強い雑音が主な雑音から音声区間
を検出するので検出精度が向上し、結果として高雑音下
の音声の認識率が改善される。
As is clear from the above description, according to the invention of claim 1, in the noise removal unit 30, the noise removing unit 30 detects noise in the voice band and which has strong time non-stationarity from the feature amount of the voice including noise. After removing the noise features caused by the speaker reproduction signal,
Since the voice section is detected by the voice section detecting section 40,
Noises other than speaker playback sounds 1 For example, in a car, the engine sound, the sound of running tires, and in homes and offices, it is typical of noise, all of which have a low frequency range (100 Hz to several 100 Hz). degree)
Moreover, since the speech section is detected from the main noise, which is strongly time-stationary, the detection accuracy is improved, and as a result, the recognition rate of speech under high noise is improved.

また、請求項第2項の発明によれば、第2の特徴量抽出
部20が、マイクの周囲に置かれたスピーカから再生さ
れるための上記スピーカ再生用信号に、上記スピーカと
上記マイクとの予め定められた位置関係で予め測定され
た上記スピーカと上記マイク間のインパルス応答に相当
する処理を行った信号の特徴量をスピーカ再生用信号に
よる雑音の特徴量とし、第1の雑音除去部30が、雑音
を含む音声の特徴量からスピーカ再生用信号による雑音
の特徴量を除去するので、スピーカ再生用信号による雑
音の成分を正確に除去できるので、結果として高雑音下
の音声の認識率が改善される。
Further, according to the invention of claim 2, the second feature extracting section 20 includes a signal for reproducing the speaker reproduction signal to be reproduced from the speakers placed around the microphone. A first noise removal unit sets the feature amount of the signal that has been processed corresponding to the impulse response between the speaker and the microphone measured in advance in a predetermined positional relationship as the feature amount of the noise due to the speaker reproduction signal. 30 removes the feature amount of noise due to the signal for speaker reproduction from the feature amount of the voice containing noise, so the noise component due to the signal for speaker reproduction can be accurately removed, and as a result, the recognition rate of speech under high noise can be improved. is improved.

また、請求項第3項の発明によれば、マイク1の周囲に
置かれたスピーカ2が複数個ある場合にも、第2の特徴
量抽出部20a、20b10.。
Further, according to the third aspect of the invention, even when there are a plurality of speakers 2 placed around the microphone 1, the second feature extraction units 20a, 20b10. .

が、それぞれのスピーカ2a、2b188.とマイク1
との予め定められた位置関係で予め測定されたそれぞれ
のスピーカ2a、2b191.とマイク1間の伝達関数
に相当するそれぞれの処理を乗算器27a、27b10
0.で行った信号をすべて加算器29で加算した信号の
特徴量をスピーカ再生用信号による雑音の特徴量とし、
第1の雑音除去部30が、雑音を含む音声の特徴量から
スピーカ再生用信号による雑音の特[を除去するので、
スピーカ2が複数個ある場合にも、スピーカ再生用信号
による雑音の成分を正確に除去でき、結果として高雑音
下の音声の認識率が改善される。
However, each speaker 2a, 2b188. and microphone 1
Each of the speakers 2a, 2b191. Multipliers 27a and 27b10 perform respective processing corresponding to the transfer function between
0. The feature amount of the signal obtained by adding all the signals processed in step 1 with the adder 29 is set as the feature amount of the noise due to the speaker reproduction signal,
Since the first noise removal unit 30 removes the characteristics of the noise caused by the speaker reproduction signal from the feature amount of the noise-containing voice,
Even when there are a plurality of speakers 2, the noise component caused by the speaker reproduction signal can be accurately removed, and as a result, the recognition rate of speech under high noise is improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は、請求項第1項及び第2項に記載した発明の一
実施例を説明するための構成図、第2図は、請求項第3
項に記載した発明の一実施例を説明するための構成図で
ある。 1・・・マイク、2.2a、2b・・・スピーカ、10
・・第1の特徴量抽出部、20,20a、20b・・・
第2の特徴量抽出部、11・・・マイクアンプ、12゜
22.22a、22b・・・プリエンファシス回路、1
3.23,23a、23b−バンドパスフィルタバンク
、14、24、24 a 、 24 b ・=マルチプ
レクサ、15,25,25a、25b=A/Dコンバー
タ、27、27 a 、 27 b −・−乗算器。 28.28a、28b・・・伝達関数メモリ、29・・
・加算器、30・・・第1の雑音除去部、40・・・音
声区間検出部、50・・・雑音推定部、60・・・第2
の雑音除去部、70・・・入力パターン生成部、80・
・・標準パターンメモリ、90・・・認識部。 認謁目活来
FIG. 1 is a configuration diagram for explaining an embodiment of the invention described in claims 1 and 2, and FIG.
FIG. 2 is a configuration diagram for explaining an embodiment of the invention described in section 1. 1...Microphone, 2.2a, 2b...Speaker, 10
...First feature extraction unit, 20, 20a, 20b...
Second feature extraction unit, 11... Microphone amplifier, 12°22.22a, 22b... Pre-emphasis circuit, 1
3.23, 23a, 23b - bandpass filter bank, 14, 24, 24 a, 24 b - multiplexer, 15, 25, 25a, 25b = A/D converter, 27, 27 a, 27 b - - multiplication vessel. 28.28a, 28b...transfer function memory, 29...
-Adder, 30...first noise removal section, 40...speech section detection section, 50...noise estimation section, 60...second
Noise removal unit, 70... Input pattern generation unit, 80.
...Standard pattern memory, 90...Recognition section. The life of the audience

Claims (1)

【特許請求の範囲】 1、マイクから入力される雑音を含む音声の特徴量を抽
出する第1の特徴量抽出部と、上記マイクの周囲に置か
れたスピーカから再生されるためのスピーカ再生用信号
を用いてスピーカ再生用信号による雑音の特徴量を抽出
する第2の特徴量抽出部と、上記第1の特徴量抽出部で
抽出された特徴量から上記第2の特徴量抽出部で抽出さ
れた特徴量を除去した特徴量を生成する第1の雑音除去
部と、上記第1の雑音除去部で生成された特徴量から音
声区間を検出する音声区間検出部と、上記音声区間検出
部で検出された非音声区間における上記第1の雑音除去
部で生成された特徴量からスピーカ再生用信号による雑
音以外の雑音の推定値を求め、更に、上記音声区間検出
部で検出された音声区間における上記第1の雑音除去部
で生成された特徴量から上記スピーカ再生用信号による
雑音以外の雑音の推定値を除去し、音声の特徴量を生成
する第2の雑音除去部と、上記第2の雑音除去部で生成
された音声の特徴量から入力された音声の入力パターン
を生成する入力パターン生成部と、音声の標準パターン
を記憶する標準パターンメモリと、上記入力パターン生
成部で生成された入力パターンと上記標準パターンメモ
リに記憶された標準パターンとで認識処理を行う認識部
とを具備して成ることを特徴とした音声認識装置。 2、上記第2の特徴抽出部は、マイクの周囲に置かれた
スピーカから再生されるための上記スピーカ再生用信号
に、上記スピーカと上記マイクとの予め定められた位置
関係で予め測定された上記スピーカ再生用信号と上記マ
イクから入力される信号間の伝達関数に相当する処理を
行った信号の特徴量をスピーカ再生用信号による雑音の
特徴量とすることを特徴とした請求項第1項に記載の音
声認識装置。 3、上記マイクの周囲に置かれたスピーカが複数個ある
場合に、それぞれのスピーカから再生するためのスピー
カ再生用信号に、上記それぞれのスピーカと上記マイク
との予め定められた位置関係で予め測定された上記それ
ぞれのスピーカ再生用信号と上記マイクから入力される
信号間の伝達関数に相当するそれぞれの処理を行った信
号をすべて加算した信号の特徴量をスピーカ再生用信号
による雑音の特徴量とすることを特徴とした請求項第1
項又は第2項に記載の音声認識装置。
[Scope of Claims] 1. A first feature extraction unit that extracts the feature amount of the sound including noise input from the microphone, and a speaker reproduction unit for reproducing the sound from speakers placed around the microphone. a second feature extraction section that uses the signal to extract a feature amount of noise due to a signal for speaker reproduction; and a second feature extraction section that extracts the feature amount from the feature amount extracted by the first feature extraction section. a first noise removal section that generates a feature amount by removing the feature amount that has been removed; a speech section detection section that detects a speech section from the feature amount generated by the first noise removal section; and the speech section detection section. An estimated value of noise other than the noise caused by the speaker reproduction signal is calculated from the feature amount generated by the first noise removal section in the non-speech section detected in the non-speech section, and further a second noise removing unit that removes an estimated value of noise other than the noise caused by the speaker reproduction signal from the feature generated by the first noise removing unit to generate a voice feature; an input pattern generation unit that generates an input pattern of the input voice from the feature amount of the voice generated by the noise removal unit; a standard pattern memory that stores a standard pattern of voice; and a standard pattern memory that stores the standard pattern of voice; A speech recognition device comprising: a recognition unit that performs recognition processing using an input pattern and a standard pattern stored in the standard pattern memory. 2. The second feature extracting section includes a feature that has been measured in advance in a predetermined positional relationship between the speaker and the microphone, in the speaker reproduction signal to be reproduced from speakers placed around the microphone. Claim 1, characterized in that a feature quantity of a signal subjected to processing corresponding to a transfer function between the speaker reproduction signal and the signal input from the microphone is used as a feature quantity of noise due to the speaker reproduction signal. The speech recognition device described in . 3. When there are multiple speakers placed around the microphone, the speaker reproduction signal to be reproduced from each speaker is measured in advance in a predetermined positional relationship between each speaker and the microphone. The feature amount of the signal obtained by adding all the processed signals corresponding to the transfer function between each of the above-mentioned speaker reproduction signals and the signal input from the microphone is the feature amount of the noise due to the speaker reproduction signal. Claim 1 characterized in that
The speech recognition device according to item 1 or 2.
JP2074690A 1990-03-23 1990-03-23 Voice recognizing device Pending JPH03274099A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2074690A JPH03274099A (en) 1990-03-23 1990-03-23 Voice recognizing device
DE19914106405 DE4106405C2 (en) 1990-03-23 1991-02-28 Noise suppression device for a speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2074690A JPH03274099A (en) 1990-03-23 1990-03-23 Voice recognizing device

Publications (1)

Publication Number Publication Date
JPH03274099A true JPH03274099A (en) 1991-12-05

Family

ID=13554468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2074690A Pending JPH03274099A (en) 1990-03-23 1990-03-23 Voice recognizing device

Country Status (1)

Country Link
JP (1) JPH03274099A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518288A (en) * 2004-10-18 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Person monitoring system
US8285545B2 (en) 2008-10-03 2012-10-09 Volkswagen Ag Voice command acquisition system and method
JP2019020678A (en) * 2017-07-21 2019-02-07 株式会社レイトロン Noise reduction device and voice recognition device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518288A (en) * 2004-10-18 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Person monitoring system
US8285545B2 (en) 2008-10-03 2012-10-09 Volkswagen Ag Voice command acquisition system and method
JP2019020678A (en) * 2017-07-21 2019-02-07 株式会社レイトロン Noise reduction device and voice recognition device

Similar Documents

Publication Publication Date Title
CN107479030B (en) Frequency division and improved generalized cross-correlation based binaural time delay estimation method
US10455325B2 (en) Direction of arrival estimation for multiple audio content streams
US9343056B1 (en) Wind noise detection and suppression
KR101444100B1 (en) Noise cancelling method and apparatus from the mixed sound
KR101449433B1 (en) Noise cancelling method and apparatus from the sound signal through the microphone
US9591410B2 (en) Hearing assistance apparatus
US6130949A (en) Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
CN110770827B (en) Near field detector based on correlation
JP2005525717A (en) Selective sound amplification
US9467775B2 (en) Method and a system for noise suppressing an audio signal
US9343073B1 (en) Robust noise suppression system in adverse echo conditions
KR102191736B1 (en) Method and apparatus for speech enhancement with artificial neural network
CN110956976B (en) Echo cancellation method, device and equipment and readable storage medium
US20080004868A1 (en) Sub-band periodic signal enhancement system
CN111078185A (en) Method and equipment for recording sound
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
WO2017045512A1 (en) Voice recognition method and apparatus, terminal, and voice recognition device
Mukai et al. Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction
JP6840302B2 (en) Information processing equipment, programs and information processing methods
JPH03274099A (en) Voice recognizing device
JPH03274098A (en) Noise removing system
CN111883153B (en) Microphone array-based double-end speaking state detection method and device
CN113744752A (en) Voice processing method and device
JPH06289898A (en) Speech signal processor
JP2859634B2 (en) Noise removal device