JPH01200294A - Sound recognizing device - Google Patents

Sound recognizing device

Info

Publication number
JPH01200294A
JPH01200294A JP63024643A JP2464388A JPH01200294A JP H01200294 A JPH01200294 A JP H01200294A JP 63024643 A JP63024643 A JP 63024643A JP 2464388 A JP2464388 A JP 2464388A JP H01200294 A JPH01200294 A JP H01200294A
Authority
JP
Japan
Prior art keywords
environmental noise
noise
microphone
sound
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63024643A
Other languages
Japanese (ja)
Inventor
Yasuyuki Yamamoto
靖之 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP63024643A priority Critical patent/JPH01200294A/en
Publication of JPH01200294A publication Critical patent/JPH01200294A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To prevent erroneous recognition due to an environmental noise by sound- gathering the environmental noise with using a main microphone and an auxiliary microphone and after that, obtaining sound data for recognition processing with using a noise correcting coefficient, which is calculated by frequency-dividing the environmental noise. CONSTITUTION:The environmental noise is sound-gathered by a main microphone 1 and an auxiliary microphone 11 and divided in each frequency band by BPFs 3 and 13. Then, the correcting coefficient for noise reduction is calculated by a correcting coefficient calculating means 24 and stored in a memory 25. Next, when a sound signal is sound-gathered by the main microphone 1, the sound signal to include the environmental noise is frequency-divided and supplied to a sound data calculating means 26. Then, the environmental noise at such a time is sound-gathered by the auxiliary microphone 11, frequency divided and supplied to the sound data calculating means 26. The correcting coefficient just before a word is generated is read from the memory 25 and the sound data as data for recognition processing are calculated by the sound data calculating means 26. Thus, the erroneous recognition can be prevented from being executed by the environmental noise in a sound recognizing part 27.

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、生マイクロホンの他に主として環境雑音を
集音する補助マイクロホンを用いた音声認識装置に関す
る。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a speech recognition device that uses, in addition to a live microphone, an auxiliary microphone that mainly collects environmental noise.

〔発明の概要〕[Summary of the invention]

この発明は、主マイクロホンによって集音された音声信
号を周波数分割し正規化して得られた音響パラメータを
予め設定された標準パターンと比較して音声認識を行う
音声認識装置において、主マイクロホンによって集音さ
れた環境雑音を周波数分割したデータと補助マイクロホ
ンによって集音された環境雑音を周波数分割したデータ
を比較して雑音除去用補正係数を算出し、この補正係数
と生マイクロホンで集音された環境雑音を含む音声信号
及び補助マイクロホンで集音した少な(とも環境雑音よ
り雑音の除去された#虐データを算出し、この音声デー
タを用いて音響認識を行うようにすることにより、環境
雑音による誤認識を防止するようにしたものである。
The present invention provides a voice recognition device that performs voice recognition by comparing acoustic parameters obtained by frequency-dividing and normalizing an audio signal collected by a main microphone with a preset standard pattern. A correction coefficient for noise removal is calculated by comparing the frequency-divided data of the environmental noise collected by the auxiliary microphone with the frequency-divided data of the environmental noise collected by the auxiliary microphone. By calculating the noise-removed data from the audio signal collected by the auxiliary microphone and the auxiliary microphone, and performing acoustic recognition using this audio data, it is possible to eliminate misrecognition due to environmental noise. It is designed to prevent this.

〔従来の技術〕[Conventional technology]

従来、音声認識装置として種々のものが提案されており
、例えば指向性マイクを発声者の口の近くに置き、無指
向性マイクを発声者の口からは離しかつ発声者の近傍に
置き、両マイクの出力を夫々増幅して差動増%I器で差
を求め、その差出力を音声識別装置に入力し、ここで音
声で入力された特定語型が予め記憶されている特定語党
特徴と比較して識別を行う方法がある(特開昭51−6
2604号公報)。
Conventionally, various types of speech recognition devices have been proposed. For example, a directional microphone is placed near the speaker's mouth, an omnidirectional microphone is placed away from the speaker's mouth and near the speaker, and both The outputs of the microphones are each amplified and the difference is determined by a differential intensifier, and the difference output is inputted to a voice identification device, where the specific word type is pre-stored. There is a method of identification by comparing the
Publication No. 2604).

また、音声入力前の人力雑音に付いての周波数スペクト
ルに時間平均値を求めておき、この平均値を音声入力信
号の周波数スペクトラムから減算することにより、人力
音声自身の周波数スペクトルを抽出する方法がある(特
開昭55−33126号公報。)〔発明が解決しようと
する課題〕 ところが特開昭51−62604号公報に記載されてい
るような従来装置の場合、指向性マイクに入って来る雑
音の位相と、無指向性マイクに人って来る雑音の位相の
ずれの検出が難しく、従って安定して雑音を相殺するこ
とが難しく雑音により誤認識を生ずる欠点があった。
In addition, there is a method of extracting the frequency spectrum of the human voice itself by calculating the time average value of the frequency spectrum of human noise before inputting the voice and subtracting this average value from the frequency spectrum of the voice input signal. (Japanese Unexamined Patent Publication No. 55-33126.) [Problem to be Solved by the Invention] However, in the case of the conventional device as described in Unexamined Japanese Patent Publication No. 51-62604, noise entering the directional microphone It is difficult to detect the phase difference between the phase of the noise and the noise coming from the omnidirectional microphone, and therefore it is difficult to stably cancel out the noise, resulting in erroneous recognition due to the noise.

また、特開昭55−33126号公報に記載されている
ような従来装置の場合、定審的雑音には有効であるが、
間欠的な雑音や、人の会話や音楽等の変化しやすい雑音
の如く雑音の状況が変わるものには対処できず、tj4
1首により誤認識を生ずる欠点があった・ この発明は斯る点に鑑みてなされたもので、環境雑音に
よる誤認識を防止することができる音響認識装置を提供
するものである。
Furthermore, in the case of a conventional device such as that described in Japanese Patent Application Laid-open No. 55-33126, although it is effective against deterministic noise,
It is not possible to deal with intermittent noises or noises that change easily, such as people's conversations or music, and tj4
The present invention has been made in view of this problem, and provides an acoustic recognition device that can prevent erroneous recognition due to environmental noise.

〔課題を解決するための手段〕[Means to solve the problem]

この発明は、生マイクロホン(1)によって集音された
音声信号を周波数分割(3)シ正規化(27a)L。
This invention performs frequency division (3) and normalization (27a) of an audio signal collected by a live microphone (1).

て得られた音響パラメータを予め設定された標準パター
ン(27c)と比較(27b)して音声認識を行う音声
認識装置において、少なくとも環境雑音を集音する補助
マイクロホン(11)と、主マイクロホン(1)によっ
て集音された環境雑音を周波数分割したデータ及び補助
マイクロホン(11)によって集音された環境雑音を周
波数分割したデータを比較して雑音除去用補正係数を算
出する補止係数算出手段(24,25)と、主マイクロ
ホン(1)によって集音された環境雑音を含む音声信号
及び補助マイクロホン(11)によって集音された少な
くとも環境雑音と補正係数より雑音の除去された音声デ
ータを算出する音声データ算出手段(26)とを備え、
音声データを用いて音声認識(27)を行うように構成
している。
A speech recognition device that performs speech recognition by comparing (27b) the acoustic parameters obtained with a preset standard pattern (27c) includes an auxiliary microphone (11) that collects at least environmental noise, and a main microphone (1). ) and the data obtained by frequency-dividing the environmental noise collected by the auxiliary microphone (11) to calculate a correction coefficient for noise removal. , 25) and an audio signal including environmental noise collected by the main microphone (1) and at least the environmental noise collected by the auxiliary microphone (11) and a correction coefficient to calculate audio data from which noise has been removed. and a data calculation means (26),
It is configured to perform voice recognition (27) using voice data.

〔作用〕[Effect]

先ず言葉が発生されない状態で主マイクロホン+11及
び補助マイクロホン(11)で環境雑音を集音し、バン
ドパスフィルタバンク(3,13)で夫々各周波数帯域
毎に分割し、その各データを用いて補止係数算出手段(
24,25)で雑音除去用補正係数Anを周波数帯域毎
に算出して記憶する。この補正係数Anは常に最適値を
保つように更新し、修正して行く。次に言葉が発生され
て音声信号が主マイクロホン(1)に集音されると、こ
の環境雑音を含む音声信号を上述の如く周波数分割して
音声データ算出手[fi(26)に供給すると共にこの
ときの少なくとも環境雑音を補助マイクロホン(11)
で集音し、周波数分割して音声データ算出手段(26)
に供給し、またメモリ (25)より言葉が発生された
直前の補正係数を読み出し、音声データ算出手段(26
)において認識処理用データとしての音声データを算出
し、この音声データを標準パターンと比較して音声認識
を行う。これにより、実質的に環境雑音は周波数軸上で
相殺されるので、時間軸上で行う従来の如く位相ずれの
影響を受けることなく、確実に環境雑音による誤認識を
防止することができる。
First, the main microphone +11 and the auxiliary microphone (11) collect environmental noise in a state where no words are being generated, and the bandpass filter bank (3, 13) divides the sound into each frequency band, and uses each data to perform compensation. Stop coefficient calculation means (
24, 25), the noise removal correction coefficient An is calculated and stored for each frequency band. This correction coefficient An is updated and corrected so as to always maintain the optimum value. Next, when words are generated and the audio signal is collected by the main microphone (1), this audio signal containing environmental noise is frequency-divided as described above and supplied to the audio data calculator [fi (26)]. Auxiliary microphone (11) at least eliminates environmental noise at this time.
Collects sound, divides it into frequencies, and calculates audio data (26)
The correction coefficient immediately before the word was generated is read out from the memory (25), and the speech data calculation means (26)
), voice data as recognition processing data is calculated, and this voice data is compared with a standard pattern to perform voice recognition. As a result, environmental noise is substantially canceled out on the frequency axis, so that erroneous recognition due to environmental noise can be reliably prevented without being affected by phase shifts unlike the conventional method performed on the time axis.

〔実施例〕〔Example〕

以下、この発明の一実施例を添付図面に基づいて詳しく
説明する。
Hereinafter, one embodiment of the present invention will be described in detail based on the accompanying drawings.

図は本実施例の回路構成を示すもので、同図において、
[1)は主として音声信号を集音するための主マイクロ
ホン、(2)は主マイクロホン(1)からの音声信号を
増幅する増幅器、(3)はバンドパスフィルタバンクで
あって、例えば16チヤンネルのバンドパスフィルタ(
131)〜(13ts )から成り、その全周波数帯域
は例えば200Hzから6 kHzとされ、この周波数
帯域が等間隔となるように各バンドパスフィルタに割り
振られる。(4)は各バンドパスフィルタ(31)〜(
3ts)の出力を時分割的に切換えて取り出すマルチプ
レクサである。(5)はローパスフィルタ、(6)はサ
ンプルホールド回路、(7)はA/D変換器である。
The figure shows the circuit configuration of this embodiment, and in the figure,
[1) is a main microphone mainly for collecting audio signals, (2) is an amplifier that amplifies the audio signal from the main microphone (1), and (3) is a band-pass filter bank, which has, for example, 16 channels. Bandpass filter (
131) to (13ts), the total frequency band of which is, for example, from 200 Hz to 6 kHz, and is allocated to each bandpass filter so that the frequency bands are equally spaced. (4) represents each bandpass filter (31) to (
This is a multiplexer that switches and extracts the output of 3ts) in a time-division manner. (5) is a low pass filter, (6) is a sample hold circuit, and (7) is an A/D converter.

また、(11)は主として環境雑音を集音する補助マイ
クロホン、(12)は補助マイクロホン(11)からの
環境雑音を増1陥する増幅器、(13)はバントパスフ
ィルタバンクであって、上述のバンドパスフィルタ(3
)同様16チヤンネルのバンドパスフィルタ(131)
〜(131ε)から成り、同様の周波数帯域を有し、等
間隔となるように各バンドパスフィルタに割り振られて
いる。(14)はマルチプレクサ、(15)はローパス
フィルタ、(16)はサンプルホールド回路、(17)
はA/D変換器である。
Further, (11) is an auxiliary microphone that mainly collects environmental noise, (12) is an amplifier that amplifies the environmental noise from the auxiliary microphone (11), and (13) is a band pass filter bank, which is the same as described above. Bandpass filter (3
) Similar 16 channel band pass filter (131)
~(131ε), have similar frequency bands, and are distributed to each bandpass filter at equal intervals. (14) is a multiplexer, (15) is a low pass filter, (16) is a sample hold circuit, (17)
is an A/D converter.

(20)はスイッチ回路であって、連動するスイッチ(
20a ) 、  (20b )を有し、スイッチ(2
0a )にはA/D変換変換子)からのディジタルデー
タが供給され、スイッチ(20b )にはA/D*換器
(17)からのディジタルデータが供給される。(21
)はスイッチ回路であって、連動するスイッチ(21a
)。
(20) is a switch circuit, which is an interlocking switch (
20a) and (20b), and has a switch (20a) and (20b).
The switch (20b) is supplied with digital data from the A/D converter (17), and the switch (20b) is supplied with digital data from the A/D* converter (17). (21
) is a switch circuit in which an interlocking switch (21a
).

(21b)を有し、スイッチ(21a)にはA/D変換
器(7)からのディジタルデータが供給され、スイッチ
(21b )にはA/D変換器(17)からのディジタ
ルデータが供給される。
(21b), the switch (21a) is supplied with digital data from the A/D converter (7), and the switch (21b) is supplied with digital data from the A/D converter (17). Ru.

これ等のスイッチ回路(20)及び(21)はレベル検
出回路(22)からの出力信号により制御される。すな
わち、レベル検出回路(22)は所定のスレショルドレ
ベルi’ hを有し、主マイクロホン(11カラの信号
のレベルがこのスレッショルドレベル’1’ hより大
きいとその出力側に0N(i号を発生し、このON信号
によりスイッチ回路(21)のスイッチ(21a ) 
、  (21b )は閉成してON状態となり、またレ
ベル検出回路(22)より発生されたON信号はインバ
ータ(23)で反転されてOFF信号となり、このOF
F信号によりスイッチ回路(20)のスイッチ(20a
 ) 、  (20b )は開放してOFF状態となる
。また、主マイクロホン(1)からの音声信号のレベル
がスレッショルドレベルT)Iより小さいとその出力側
にOFF信号を発生し、このOFF信号によりスイッチ
回路(21)のスイッチ(21a ) 、  (21b
 )は解放してOFF状態となり、またレベル検出回路
(22)より発生されたOFF信号はインバータ(23
)で反転されてON信号となり、このOFF信号により
スイッチ回路(20)のスイッチ(20a ) 、  
(20b )は閉成してON状態となる。つまり、主マ
イクロホン(1)からの音声信号のレベルがレベル検出
回路(22)のスレショルドレベル゛I’hより大きい
ときはスイッチ回路(21)のスイッチ(21a ) 
、  (21b )がON状態、スイッチ回路(20)
のスイッチ(20a ) 、  (20b )がOF 
F状態となり、逆に主マイクロホン+11からの音声信
号のレベルがレベル検出回路(22)のスレッショルド
レベルTkより小さいときはスイッチ回路(21)のス
イッチ(21a ) 、  (21b )が0ドF状態
、スイッチ回路(20)のスイッチ(20a)。
These switch circuits (20) and (21) are controlled by the output signal from the level detection circuit (22). That is, the level detection circuit (22) has a predetermined threshold level i'h, and when the level of the signal from the main microphone (11 colors) is greater than this threshold level '1'h, it generates 0N(i) on its output side. Then, this ON signal turns on the switch (21a) of the switch circuit (21).
, (21b) are closed and become ON, and the ON signal generated by the level detection circuit (22) is inverted by the inverter (23) and becomes an OFF signal, and this OF
The switch (20a) of the switch circuit (20) is activated by the F signal.
) and (20b) are opened and become OFF state. Furthermore, when the level of the audio signal from the main microphone (1) is lower than the threshold level T)I, an OFF signal is generated on its output side, and this OFF signal causes the switches (21a) and (21b) of the switch circuit (21) to be activated.
) is released and becomes OFF, and the OFF signal generated from the level detection circuit (22) is sent to the inverter (23).
) is inverted and becomes an ON signal, and this OFF signal causes the switch (20a) of the switch circuit (20),
(20b) is closed and becomes ON state. In other words, when the level of the audio signal from the main microphone (1) is higher than the threshold level 'I'h of the level detection circuit (22), the switch (21a) of the switch circuit (21) is activated.
, (21b) is in ON state, switch circuit (20)
switches (20a) and (20b) are OFF
When the level of the audio signal from the main microphone +11 is lower than the threshold level Tk of the level detection circuit (22), the switches (21a) and (21b) of the switch circuit (21) are in the F state. A switch (20a) of a switch circuit (20).

(20b)がON状態となる。(20b) is turned on.

このレベル検出回路(22)におけるスレッショルドレ
ベルThは普通に話す程度の音声信号のレベルより小さ
く且つ環境雑音よりは大きい程度に設定される。
The threshold level Th in this level detection circuit (22) is set to a level that is lower than the level of the voice signal of normal speaking and higher than the environmental noise.

スイッチ回路(20)のスイッチ(20a ) 、  
(20b )を通った各ディジタルデータ(つまり、ス
イッチ回路(20)のスイッチ(20a ) 、  (
20b )がON状態になるときには何も言葉を発生し
ておらず、環境雑音のみであるので、このときの各ディ
ジタルデータは雑音成分のみから成るデータである)は
補正係数算出回路(24)に供給され、ここで雑音除去
用補正係数が算出される。すなわち雑音除去用補正係数
をAnとすると、次式に従って算出を行う。
switch (20a) of the switch circuit (20),
(20b), each digital data (that is, the switch (20a) of the switch circuit (20), (
20b) is in the ON state, no words are being generated and there is only environmental noise, so each digital data at this time consists only of noise components) is sent to the correction coefficient calculation circuit (24). The correction coefficient for noise removal is calculated here. That is, when the noise removal correction coefficient is An, calculation is performed according to the following equation.

上記(11式において、nはA/D変換器+7)、  
(17)における号ンプリング回数、a 11は主マイ
クロホン(1)からのデータ(この場合雑音成分)、b
nは補助マイクロホン(■1)からのデータ(この場合
雑音成分)、N、Mは環境雑音の性質やサンプリング頻
度により適切な値を選ばれる定数、An−1は1サンプ
リング前の補正係数である。
Above (in formula 11, n is A/D converter + 7),
The number of signal samplings in (17), a 11 is the data from the main microphone (1) (in this case, the noise component), b
n is the data from the auxiliary microphone (■1) (in this case, the noise component), N and M are constants whose values are selected appropriately depending on the nature of the environmental noise and sampling frequency, and An-1 is the correction coefficient before one sampling. .

補正係数算出回路(24)は主−フィクロホン(11か
らの音声信号がないときすなわちスイッチ回路(20)
のスイッチ(20a ) 、  (20b )が閉成し
てON状態のとき、この補正係数Anを周波数帯域毎に
順次算出し、更新してゆく。補正係数算出回路(24)
で算出された補正係数Anは周波数帯域毎にメモリ (
25)に記憶される。
The correction coefficient calculation circuit (24) is used when there is no audio signal from the main ficrophone (11, that is, the switch circuit (20)
When the switches (20a) and (20b) are closed and in the ON state, this correction coefficient An is sequentially calculated and updated for each frequency band. Correction coefficient calculation circuit (24)
The correction coefficient An calculated in is stored in the memory (
25).

なお、この補正係数Anは平常時、つまり言葉を何も発
生しない時はできるだけ後述する認識処理用データCn
が零に近い値になるように設定される。
In addition, this correction coefficient An is used as much as possible during normal times, that is, when no words are generated, for recognition processing data Cn, which will be described later.
is set to a value close to zero.

また、スイッチ回路(21)のスイッチ(21a)。Also, a switch (21a) of the switch circuit (21).

(21b )を通った各ディジタルデータ(つまり、ス
イッチ回路(21)の2、イソナ(21a )  、 
 (21b >がON状態になるときには言葉が発生さ
れて少なくとも主マイクロホン(1)には音声信号が与
えられているので、このときのA/D変換器(7)から
のディジクルデータは首府信号と雑音成分であり、A/
D変換器(17)からのディジタルデータはほとんど雑
音成分のみである)は音声データ算出手段としての差分
検出回1f8(26)に供給される。また、この差分検
出回路(26)にはメモリ (25)に周波数+2h域
毎に記憶されている補正係数Anが読み出されて入力さ
れる。そこで、差分検出回路(26)は供給された各デ
ィジタルデータと補正係数Anに基づいて次式により確
認処理用データCnを算出する。
Each digital data passed through (21b) (that is, 2 of the switch circuit (21), isona (21a),
(When 21b> is turned on, words are generated and at least the main microphone (1) is given an audio signal, so the digital data from the A/D converter (7) at this time is the capital signal. is the noise component, and A/
The digital data from the D converter (17) is almost only a noise component) and is supplied to a difference detection circuit 1f8 (26) as an audio data calculation means. Further, the correction coefficient An stored in the memory (25) for each frequency +2h range is read out and input to the difference detection circuit (26). Therefore, the difference detection circuit (26) calculates the confirmation processing data Cn using the following equation based on each supplied digital data and the correction coefficient An.

Cn=an  An−bn        ・・121
上記(2)式において、alはこの場合音声信号と雑音
成分から成るデータであり、bnはほとんど雑音成分か
ら成るデータである。そして、補正係数Anは上述の如
く言葉が発生されてないときできるだけ認識処理用デー
タCnが零となるように設定されているので、実質的に
alに含まれる雑音成分とb 11に含まれる雑音成分
は相殺され、結局anに含まれる音声信号のみが認識処
理用データCnとして取り出されることになる。
Cn=an An-bn...121
In the above equation (2), al is data consisting of an audio signal and noise components in this case, and bn is data consisting mostly of noise components. As mentioned above, the correction coefficient An is set so that the recognition processing data Cn becomes zero as much as possible when no words are generated, so it is essentially the noise component contained in al and the noise contained in b11. The components are canceled out, and in the end, only the audio signal included in an is extracted as the recognition processing data Cn.

この差分検出回路(26)からの認識処理用データCn
は音声認識部(27)の音源情報正規化器(27a)に
供給されて正規化され、音響パラメータとして取り出さ
れる。この音響パラメータはパターンマツチング回路(
27b)に供給される。認識する前に標準パターンメモ
リ (27c )には前もってその話者の各認識対象単
語の分析結果を標準パターンとして登録しており、認識
するときには、各認識対象単語の標準パターンをメモリ
 (27c)より読み出して入力音声パターンに対応し
た音響パラメータをパターンマツチング回路(27b)
で比較し、最も近いすなわちVIi離の小さい認識対象
81語を選択し、出力端子(28)へ人力音声を示す認
識結果として出力する。
Recognition processing data Cn from this difference detection circuit (26)
is supplied to the sound source information normalizer (27a) of the speech recognition unit (27), normalized, and extracted as an acoustic parameter. This acoustic parameter is determined by the pattern matching circuit (
27b). Before recognition, the analysis result of each recognition target word of the speaker is registered in advance as a standard pattern in the standard pattern memory (27c), and when recognizing, the standard pattern of each recognition target word is stored in the memory (27c). A pattern matching circuit (27b) reads out acoustic parameters corresponding to the input audio pattern.
The 81 words to be recognized that are closest to each other, that is, those with the smallest VIi distance, are selected and outputted to the output terminal (28) as a recognition result indicating the human voice.

次に図の回路動作を説明する。言葉を発生していない平
常時には主マイクロホンill及び補助マイクロホン(
■1)は環境雑音のみ集音しているのでレベル検出回路
(22)の出力側にはOFF信号が得られ、これにより
スイッチ回路(21)のスイッチ(21a ) 、  
(21b )が開放してOFF状態になると共にOFF
信号をインバータ(23)で反転したON信号によりス
イッチ回路(20)のスイッチ(20a ) 、  (
20b )が閉成してON状態となる。
Next, the operation of the circuit shown in the figure will be explained. During normal times when no words are being generated, the main microphone ill and the auxiliary microphone (
■1) Since only environmental noise is collected, an OFF signal is obtained on the output side of the level detection circuit (22), which causes the switch (21a) of the switch circuit (21) to
(21b) opens and turns OFF, and turns OFF.
The ON signal obtained by inverting the signal with the inverter (23) causes the switches (20a), (
20b) is closed and becomes ON state.

すると、マイクロホン(11,(11)で集音された雑
音は夫々バンドパスフィルタバンク(31,(13)で
周波数帯域毎に分離され、マルチプレクサ(4)。
Then, the noise collected by the microphones (11, (11)) is separated into frequency bands by the bandpass filter banks (31, (13), respectively), and then sent to the multiplexer (4).

(14)で夫々時分割的に取り出されてA/D変換器(
7)、  (17)に夫々供給される。そしてA/1)
回路(7)及び(17)の出力側に得られている各ディ
ジタルデータ(雑音成分)は補正係数算出回路(24)
に供給され、上記(L)式に従って周波数帯域毎に順次
補正係数Anが算出されてメモ’J (25)に記憶さ
れる。この補正係数Anは言葉が発生されるまですなわ
ち少なくとも主マイクロホン(1)により音声信号が集
音開始されるまで続行され、逐次新しい補正係数Anが
周波数帯域毎にできるだけ認識処理用データCnが零に
近い値になるような最適値を保つように修正されメモリ
 (25)に記憶される。
(14), each is taken out in a time-divisional manner and sent to the A/D converter (
7) and (17), respectively. and A/1)
Each digital data (noise component) obtained on the output side of circuits (7) and (17) is sent to a correction coefficient calculation circuit (24).
The correction coefficient An is sequentially calculated for each frequency band according to the above equation (L) and stored in the memo 'J (25). This correction coefficient An is continued until a word is generated, that is, at least until the main microphone (1) starts collecting the audio signal, and a new correction coefficient An is successively applied for each frequency band so that the recognition processing data Cn becomes zero as much as possible. It is corrected to maintain the optimal value that is close to the value and stored in the memory (25).

そして、言葉が発生されて少なくとも主マイクロホン+
1)が音声信号を集音すると、そのレベルはレベル検出
回路(22)のスレショルドレベル゛t’hを越えるよ
うになるのでレベル検出回路(22)の出力側にはON
信号が得られ、これによりスイッチ回路(21)のスイ
ッチ(21a ) 、  (21b )が閉成してON
状態になると共にON信号をインバータ(23)で反転
したOFF信号によりスイッチ回路(20)のスイッチ
(20a ) 、  (20b )が解放してOFF状
態となる。従ってメモリ (25)には言葉が発生され
る直前の雑音成分を相殺するのに最適な補正係数Anが
各周波数帯域にわたってこの場合16個記憶される。
Then, the words are generated at least from the main microphone +
1) collects an audio signal, its level exceeds the threshold level ゛t'h of the level detection circuit (22), so the output side of the level detection circuit (22) is turned on.
A signal is obtained, which closes the switches (21a) and (21b) of the switch circuit (21) and turns them on.
At the same time, the switches (20a) and (20b) of the switch circuit (20) are released by the OFF signal obtained by inverting the ON signal by the inverter (23), and the switches (20a) and (20b) are turned OFF. Therefore, in the memory (25), 16 correction coefficients An are stored in each frequency band, which are optimal for canceling the noise component immediately before a word is generated.

一方生マイクロホン(1)で集音された雑音成分を合む
音声信号及び補助マイクロホン(2)で集音された主と
して環境雑音は上述と同様の信号処理を受けて差分検出
回路(2b)に供給される。そして差分検出回路(26
)では対応する周波数帯域の補正係数Anをメモリ (
25)より読み出して、上記(1)式に従って認識処理
用データCnを算出する。認識処理用データCnは平常
時つまり言葉を発生しない時はできるだけ零に近い値に
なるように補正係数Anを設定しているので実質的に主
マイクロホンillからの音声信号に含まれていた雑音
成分は補助マイクロホン(11)からの雑音成分により
相殺され、結局音声信号のみが真の認識処理用データC
nとして取り出される。
On the other hand, the audio signal including the noise component collected by the raw microphone (1) and the mainly environmental noise collected by the auxiliary microphone (2) undergo the same signal processing as described above and are supplied to the difference detection circuit (2b). be done. And the difference detection circuit (26
), the correction coefficient An of the corresponding frequency band is stored in memory (
25) and calculate the recognition processing data Cn according to the above equation (1). Since the correction coefficient An is set so that the recognition processing data Cn has a value as close to zero as possible during normal times, that is, when no words are generated, it is essentially a noise component contained in the audio signal from the main microphone ill. is canceled out by the noise component from the auxiliary microphone (11), and in the end, only the audio signal becomes the true recognition processing data C.
It is taken out as n.

この認識処理用データCnは音戸認識部(27)の音楽
情報正規化器(27a)に供給されて正規化 、゛され
て音響パラメータとして取り出される。この音響パラメ
ータはパターンマツチング回路(27b)でメモリ (
27c)の標準パターンと比較され、人力音響を示す認
識結果として出方端子(28)に出力される。
This recognition processing data Cn is supplied to the music information normalizer (27a) of the Ondo recognition section (27), where it is normalized and extracted as acoustic parameters. These acoustic parameters are stored in memory (
27c) and is output to the output terminal (28) as a recognition result indicating human-powered sound.

このように本実施例では主マイクロホン(1)からのデ
ータから補助マイクロホン(11)からのデータを差し
引く際、各周波数帯域毎に別々の雑音除去用補正係数を
準備し、その補正係数が常に最適値を保つように修正し
てゆくので確実に環境雑音を相殺でき、特に従来の如く
時間軸上では位相のずれが予測しにくいので環境雑音の
相殺が困難であったが、本実施例では周波数分割してデ
ータに位相情報が含まれないように成し、実質的に周波
数軸上で環境雑音を相殺するようにしたので位相のずれ
の影響を何等受けることな(確実に環境雑音を相殺でき
る。
In this way, in this embodiment, when subtracting data from the auxiliary microphone (11) from data from the main microphone (1), separate correction coefficients for noise removal are prepared for each frequency band, and the correction coefficient is always optimal. Since the correction is made to maintain the same value, it is possible to reliably cancel out environmental noise.Especially in the conventional method, it was difficult to predict the phase shift on the time axis, so it was difficult to cancel out environmental noise, but in this example, the frequency The data is divided so that phase information is not included in the data, and environmental noise is essentially canceled out on the frequency axis, so it is not affected by phase shifts (environmental noise can be definitely canceled out). .

また、周波数軸上で周波数帯域毎に環境雑音の相殺を行
っているので主マイクロホン+1)と補助マイクロホン
(11)の特性の違いや場所による周波数分布や位相の
違い等に影響されない、また、音声信号の入力直前まで
雑音除去用補正係数を修正するので、雑音源の大きさ、
位置、音質等の影響を受けにくい、更に増幅器(2)、
  (12)の発生する雑音も相殺できる。
In addition, since environmental noise is canceled for each frequency band on the frequency axis, it is not affected by differences in the characteristics of the main microphone + 1) and auxiliary microphone (11), or differences in frequency distribution or phase depending on the location. Since the noise removal correction coefficient is corrected until just before the signal is input, the size of the noise source,
Amplifier (2), which is not easily affected by position, sound quality, etc.
The noise generated by (12) can also be canceled out.

〔発明の効果〕〔Effect of the invention〕

上述の如くこの発明によれば、主マイクロホンと補助マ
イクロホンを用いて環境雑音を集音した後周波数分割し
て雑音除去用補正係数を算出し、この補正係数と主マイ
クロホンからの環境雑音を含む音声信号と補助マイクロ
ホンからの少なくとも環境雑音とから認識処理用の音声
データを得るようにしたので、実質的に周波数軸上で何
等位相ずれの影響を受けることなく環境雑音を相殺でき
、もって確実に環境雑音による誤認識を防止することが
できる。
As described above, according to the present invention, environmental noise is collected using the main microphone and the auxiliary microphone, and then frequency-divided to calculate a correction coefficient for noise removal, and the sound including this correction coefficient and the environmental noise from the main microphone is collected. Since the audio data for recognition processing is obtained from the signal and at least the environmental noise from the auxiliary microphone, it is possible to cancel out the environmental noise without being affected by any phase shift on the frequency axis, thereby ensuring that the environmental noise is Misrecognition due to noise can be prevented.

【図面の簡単な説明】[Brief explanation of the drawing]

図はこの発明の一実施例を示す回路構成図である。 +11は生マイクロホン、(3)、  (13)はバン
トパスフィルタバンク、(7) 、  (17)はA/
D変換器、(11)は補助マイクロホン、(20) 、
  (21)はスイッチ回路、(22)はレベル検出回
路、(24)は補正係数算出回路、(25)はメモリ、
(26)は差分検出回路、(27)は音声認識部である
The figure is a circuit configuration diagram showing an embodiment of the present invention. +11 is a raw microphone, (3) and (13) are band pass filter banks, (7) and (17) are A/
D converter, (11) is auxiliary microphone, (20),
(21) is a switch circuit, (22) is a level detection circuit, (24) is a correction coefficient calculation circuit, (25) is a memory,
(26) is a difference detection circuit, and (27) is a speech recognition section.

Claims (1)

【特許請求の範囲】  主マイクロホンによって集音された音声信号を周波数
分割し正規化して得られた音響パラメータを予め設定さ
れた標準パターンと比較して音声認識を行う音声認識装
置において、 主として環境雑音を集音する補助マイクロホンと、 上記主マイクロホンによって集音された環境雑音を周波
数分割したデータ及び上記補助マイクロホンによって集
音された環境雑音を周波数分割したデータを比較して雑
音除去用補正係数を算出する補正係数算出手段と、 上記主マイクロホンによって集音された環境雑音を含む
音声信号及び上記補助マイクロホンによって集音された
少くとも環境雑音と上記補正係数より雑音の除去された
音声データを算出する音声データ算出手段と を備え、上記音声データを用いて音声認識を行うように
したことを特徴とする音声認識装置。
[Scope of Claims] A speech recognition device that performs speech recognition by comparing acoustic parameters obtained by frequency-dividing and normalizing an audio signal collected by a main microphone with a preset standard pattern, which mainly uses environmental noise. A correction coefficient for noise removal is calculated by comparing data obtained by frequency-dividing the environmental noise collected by the auxiliary microphone with the data obtained by frequency-dividing the environmental noise collected by the auxiliary microphone. and a correction coefficient calculation means for calculating noise-free audio data from an audio signal including environmental noise collected by the main microphone, at least environmental noise collected by the auxiliary microphone, and the correction coefficient. 1. A speech recognition device, comprising: data calculation means, and performs speech recognition using the speech data.
JP63024643A 1988-02-04 1988-02-04 Sound recognizing device Pending JPH01200294A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63024643A JPH01200294A (en) 1988-02-04 1988-02-04 Sound recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63024643A JPH01200294A (en) 1988-02-04 1988-02-04 Sound recognizing device

Publications (1)

Publication Number Publication Date
JPH01200294A true JPH01200294A (en) 1989-08-11

Family

ID=12143818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63024643A Pending JPH01200294A (en) 1988-02-04 1988-02-04 Sound recognizing device

Country Status (1)

Country Link
JP (1) JPH01200294A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008076904A (en) * 2006-09-22 2008-04-03 Univ Of Tokyo Feeling discrimination method, feeling discrimination device, and atmosphere information communication terminal
CN104754430A (en) * 2013-12-30 2015-07-01 重庆重邮信科通信技术有限公司 Noise reduction device and method for terminal microphone

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008076904A (en) * 2006-09-22 2008-04-03 Univ Of Tokyo Feeling discrimination method, feeling discrimination device, and atmosphere information communication terminal
CN104754430A (en) * 2013-12-30 2015-07-01 重庆重邮信科通信技术有限公司 Noise reduction device and method for terminal microphone

Similar Documents

Publication Publication Date Title
US5212764A (en) Noise eliminating apparatus and speech recognition apparatus using the same
US5228088A (en) Voice signal processor
EP1393300A1 (en) Segmenting audio signals into auditory events
AU2002252143A1 (en) Segmenting audio signals into auditory events
US20010029449A1 (en) Apparatus and method for recognizing voice with reduced sensitivity to ambient noise
US5148484A (en) Signal processing apparatus for separating voice and non-voice audio signals contained in a same mixed audio signal
EP0459384B1 (en) Speech signal processing apparatus for cutting out a speech signal from a noisy speech signal
JPH01200294A (en) Sound recognizing device
JP2701431B2 (en) Voice recognition device
JP2001215992A (en) Voice recognition device
JP3106543B2 (en) Audio signal processing device
JPH04227338A (en) Voice signal processing unit
EP0100773B1 (en) Speech recognition system for an automotive vehicle
JPH03122699A (en) Noise removing device and voice recognition device using same device
JP2000039900A (en) Speech interaction device with self-diagnosis function
JPH04230798A (en) Noise predicting device
JPH03269498A (en) Noise removal system
JPH0635498A (en) Device and method for speech recognition
JPH0461359B2 (en)
JP3292098B2 (en) Hearing aid
JPS61281300A (en) Voice recognition equipment
JPH0675596A (en) Speech and acoustic phenomenon analysis device
JPS62113197A (en) Voice recognition equipment
JPH03274098A (en) Noise removing system
JPS58147797A (en) Voice recognition equipment