JPH075895A - Device for recognition and method for recognizing voice in noisy evironment - Google Patents

Device for recognition and method for recognizing voice in noisy evironment

Info

Publication number
JPH075895A
JPH075895A JP6102164A JP10216494A JPH075895A JP H075895 A JPH075895 A JP H075895A JP 6102164 A JP6102164 A JP 6102164A JP 10216494 A JP10216494 A JP 10216494A JP H075895 A JPH075895 A JP H075895A
Authority
JP
Japan
Prior art keywords
voice
signal
correction coefficient
noise
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6102164A
Other languages
Japanese (ja)
Other versions
JP3526911B2 (en
Inventor
Hirofumi Yajima
弘文 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP10216494A priority Critical patent/JP3526911B2/en
Publication of JPH075895A publication Critical patent/JPH075895A/en
Application granted granted Critical
Publication of JP3526911B2 publication Critical patent/JP3526911B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To provide a voice recognition device in which noise components having rapid chagnes are exactly eliminated and a voice recognition rate is improved. CONSTITUTION:The device is provided with a microphone 11 which generates main signals ma in that voice signals sa and noise components oa . g from an audio device 16 are mixed, an amplifier 18 which generates reference signals ra based on the noise components, a voice section discrimination means which discriminates that voice section in which voice signal is contained in, the main signals or non-voice section containing no voice signal, a compensation coefficient updating means which generates and updates compensation coefficients based on the main signals ma in the non-voice section, a CPU 15 which has a computing means that subtracts the value obtained by multiplying the reference signals ra by the compensation coefficients in the voice section from the main signals ma and a voice recognition part 21 which collates the computation results obtained from the computing means and comparison voice signals B registered in a registration dictionary 22 and performs voice recognition.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声を認識する装置
で、特に、騒音環境下で音声を認識する音声認識装置及
び騒音環境での音声認識方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus, and more particularly to a speech recognition apparatus for recognizing speech in a noisy environment and a speech recognition method in a noisy environment.

【0002】[0002]

【従来の技術】従来の音声認識装置においては、このよ
うな騒音環境下で音声認識の認識率の低下を防止するた
めに、LMS法やスペクトル・サブトラクション法(以
下「S.S法」という)等が採られていた。LMS法と
は、適応フィルタ法により、発声音声と騒音成分が混在
したマイク入力信号であるメイン信号から、既知騒音信
号をリファレンス信号として騒音成分を除去する方法で
ある。また、S.S法とは、発声音声に含まれる騒音成
分を定常雑音とみなして除去する方法である。
2. Description of the Related Art In a conventional voice recognition device, in order to prevent a reduction in the recognition rate of voice recognition in such a noisy environment, an LMS method or a spectrum subtraction method (hereinafter referred to as "SS method") is used. And so on. The LMS method is a method of removing a noise component from a main signal, which is a microphone input signal in which vocalized voice and a noise component are mixed, by using a known noise signal as a reference signal by an adaptive filter method. Also, S. The S method is a method of removing noise components included in uttered speech by considering them as stationary noise.

【0003】図21はS.S法を適用した従来の音声認
識装置のブロック図である。この図において、1は発声
者(図示せず)からの音声、及び、オーディオ装置等の
別の発生源からの音楽騒音であるオーディオ信号による
音を受けて、電気信号のメイン信号maとして送出する
マイクである。2はこのメイン信号maを増幅するアン
プである。3は増幅されたメイン信号maを、周波数分
割して複数のチャンネル信号を生成し、その一つのチャ
ンネル信号を択一的に送出するフィルタバンクである。
FIG. 21 shows the S. It is a block diagram of the conventional speech recognition apparatus to which the S method is applied. In this figure, 1 receives a voice from a speaker (not shown) and a sound due to an audio signal which is a music noise from another source such as an audio device, and sends it as a main signal ma of an electric signal. It's Mike. Reference numeral 2 is an amplifier for amplifying the main signal ma. Reference numeral 3 is a filter bank for frequency-dividing the amplified main signal ma to generate a plurality of channel signals and selectively transmitting one of the channel signals.

【0004】フィルタバンク3は、メイン信号maの全
帯域をチャンネル信号mo として通過させるオールパス
フィルタ3a、メイン信号maを所定帯域ごとに分割し
て複数(n個)のチャンネル信号m1 ,m2 ,…,mn
を送出するバンドパスフィルタ群3b,3c、チャンネ
ル信号ma,m1 ,m2 ,…,mnのうちの一つのチャ
ンネル信号m(CH)(CH=0,1,2,…, n)を選択す
るマルチプレクサ3d、この選択されたチャンネル信号
m(CH)をデジタル信号に変換してチャンネル信号M
(CH)を送出するA/Dコンバータ3eで構成され
る。
The filter bank 3 is an all-pass filter 3a which passes the entire band of the main signal ma as a channel signal mo, and a plurality (n) of channel signals m1, m2, ..., Which divide the main signal ma into predetermined bands. mn
, A multiplexer for selecting one channel signal m (CH) (CH = 0,1,2, ..., n) of the bandpass filter groups 3b, 3c for transmitting the signal, and the channel signals ma, m1, m2 ,. 3d, the selected channel signal m (CH) is converted into a digital signal to obtain a channel signal M
It is composed of an A / D converter 3e that sends out (CH).

【0005】4はフィルタバンク3から送出されるメイ
ン音声データであるチャンネル信号M(CH)を音声認
識するCPUであり、図には示さないが、演算部、プロ
グラム格納用のROM、データ格納用のRAM等により
構成される。5は予め登録された比較音声データを格納
し、音声解析時にCPU4にその比較音声データを供給
するする登録辞書である。
Reference numeral 4 denotes a CPU for recognizing the channel signal M (CH), which is the main audio data sent from the filter bank 3, by a voice, which is not shown in the drawing, but is not shown in the figure, but is a calculation unit, a ROM for storing a program, a data storing RAM and the like. Reference numeral 5 is a registration dictionary that stores comparative voice data registered in advance and supplies the comparative voice data to the CPU 4 during voice analysis.

【0006】次に、上記従来の音声認識装置の動作につ
いて説明する。オーディオ騒音成分を含むメイン信号m
aは、フィルタバンク3を経た後、各チャンネルごとに
デジタル信号に変換され、音声認識すべきメイン音声デ
ータとしてCPU4に取り込まれる。その後、オーディ
オ騒音成分が既知騒音成分として除去されて、登録辞書
に予め登録されている比較音声データとパターンマッチ
ングされ音声認識される。
Next, the operation of the conventional speech recognition apparatus will be described. Main signal m including audio noise component
After passing through the filter bank 3, a is converted into a digital signal for each channel and taken into the CPU 4 as main voice data to be voice-recognized. After that, the audio noise component is removed as a known noise component, and the voice recognition is performed by pattern matching with the comparative voice data registered in advance in the registration dictionary.

【0007】[0007]

【発明が解決しようとする課題】しかしながら上記従来
の音声認識装置においては、LMS法すなわち適応フィ
ルタ法の場合には、オーディオ騒音成分のような非定常
雑音に対しては、あまり急激な変化に対応できず、急激
な騒音の変化がない場合でも、フィルタの収束時間が長
くなるという問題があった。さらに、DSP等の高速演
算処理が可能な処理装置を必要とするため、音声認識装
置のコストアップの要因になるという問題もあった。
However, in the above-mentioned conventional speech recognition apparatus, in the case of the LMS method, that is, the adaptive filter method, it responds to a too rapid change with respect to non-stationary noise such as an audio noise component. Even if it is not possible and there is no sudden change in noise, there is a problem that the convergence time of the filter becomes long. Further, since a processing device capable of high-speed arithmetic processing such as a DSP is required, there is a problem that it causes a cost increase of the voice recognition device.

【0008】また、S.S法の場合も、オーディオ騒音
成分のような急激な変化を伴う騒音に対しては、正確な
雑音除去ができないので、認識率を高めることができな
いという問題があった。
In addition, S. Also in the case of the S method, there is a problem that the recognition rate cannot be increased because noise cannot be accurately removed from noise accompanied by a sudden change such as an audio noise component.

【0009】本発明による音声認識装置は、このような
従来の問題を解決するものであり、DSP等の高価な高
速演算処理装置を必要とすることなく、急激な変化を伴
う騒音成分を正確に除去し、音声認識率を向上すること
ができる優れた音声認識を行なうことを目的とする。
The speech recognition apparatus according to the present invention solves such a conventional problem, and accurately corrects a noise component accompanied by an abrupt change without requiring an expensive high-speed arithmetic processing device such as a DSP. It is an object of the present invention to perform excellent speech recognition by removing the speech and improving the speech recognition rate.

【0010】また、本発明による音声認識方法は、ファ
ジィ推論を用いることにより、さらに適応型S・S方式
の効果を向上させることを目的とする。
Another object of the speech recognition method according to the present invention is to further improve the effect of the adaptive SS system by using fuzzy inference.

【0011】[0011]

【課題を解決するための手段】本発明による音声認識装
置は上記目的を達成するために、発声者からの音声信号
に騒音成分が混在したメイン信号から前記騒音成を除去
して予め登録した比較音声信号と照合して前記音声信号
の認識を行う音声認識装置であって、前記騒音成分に基
づいて基準信号を生成する手段と、前記メイン信号に前
記音声信号が含まれる音声区間か含まれない非音声区間
かを判別する音声区間判別手段と、前記非音声区間にお
いて前記メイン信号に基づいて補正係数を生成しかつ更
新する補正係数更新手段と、前記音声区間において前記
基準信号に前記補正係数を乗じた値を前記メイン信号か
ら減算する演算手段と、該演算手段から得られる演算結
果と前記比較音声信号とを照合して音声認識を行う認識
手段と、を備えたことを特徴とする。
In order to achieve the above-mentioned object, a speech recognition apparatus according to the present invention is a comparison in which the noise component is removed from a main signal in which a voice signal from a speaker is mixed with a noise component and is registered in advance. A voice recognition device for recognizing the voice signal by collating with the voice signal, comprising means for generating a reference signal based on the noise component, and a voice section in which the main signal includes the voice signal or not. A voice section discriminating means for discriminating whether or not it is a non-voice section, a correction coefficient updating means for generating and updating a correction coefficient based on the main signal in the non-voice section, and a correction coefficient for the reference signal in the voice section. An arithmetic means for subtracting the multiplied value from the main signal, and a recognition means for collating the arithmetic result obtained from the arithmetic means with the comparative voice signal for voice recognition are provided. And wherein the door.

【0012】また、本発明による音声認識方法は上記目
的を達成するために、発声者からの音声信号成分に騒音
成分が混在した入力信号から当該騒音成分を除去して前
記発声者の音声を認識する騒音環境での音声認識方法で
あって、前記入力信号からファジィ推論により音声区間
を検出し、この音声区間に前記騒音成分が混在している
か否かを判別して、当該判別結果に応じて前記音声信号
成分を予測する補正計数の更新を行い、当該更新した補
正計数の調整を行い、当該調整された補正計数に基づい
て減算処理を行い、当該減算結果を前記音声信号成分と
して音声認識を行うことを特徴とする。
In order to achieve the above object, the speech recognition method according to the present invention recognizes the voice of the speaker by removing the noise component from the input signal in which the noise component is mixed with the voice signal component from the speaker. A voice recognition method in a noise environment, wherein a voice section is detected from the input signal by fuzzy inference, and it is determined whether or not the noise component is mixed in this voice section, and according to the determination result. The correction count for predicting the audio signal component is updated, the updated correction count is adjusted, subtraction processing is performed based on the adjusted correction count, and voice recognition is performed using the subtraction result as the audio signal component. It is characterized by performing.

【0013】また、発声者からの音声信号成分に音響騒
音成分及び走行騒音成分が混在した入力信号から当該騒
音成分を除去して前記発声者の音声を認識する騒音環境
での音声認識方法であって、前記入力信号から音声区間
を検出し、この音声区間に前記走行騒音成分が混在して
いるか否かをファジィ推論により判別して、当該判別結
果に応じて前記音声信号成分を予測する補正計数の更新
を行い、当該更新した補正計数の調整を行い、当該調整
された補正計数に基づいて減算処理を行い、当該減算結
果を前記音声信号成分として音声認識を行うことを特徴
とする騒音環境での音声認識方法。
Further, it is a voice recognition method in a noise environment for recognizing the voice of the speaker by removing the noise component from an input signal in which an acoustic noise component and a running noise component are mixed in the voice signal component from the speaker. A correction count for detecting a voice section from the input signal, determining by fuzzy inference whether or not the running noise component is mixed in the voice section, and predicting the voice signal component according to the determination result. In the noise environment characterized by performing the adjustment of the updated correction count, performing subtraction processing based on the adjusted correction count, and performing voice recognition using the subtraction result as the voice signal component. Voice recognition method.

【0014】またさらに、発声者からの音声信号成分に
騒音成分が混在した入力信号から当該騒音成分を除去し
て前記発声者の音声を認識する音声認識方法であって、
前記入力信号から音声区間を検出し、この音声区間に前
記騒音成分が混在しているか否かを判別して、当該判別
結果に応じて前記音声信号成分を予測する補正計数の更
新を行い、ファジィ推論により当該更新した補正計数の
調整を行い、当該調整された補正計数に基づいて減算処
理を行い、当該減算結果を前記音声信号成分として音声
認識を行うことを特徴とする。
Furthermore, a voice recognition method for recognizing the voice of the speaker by removing the noise component from an input signal in which a noise component is mixed with a voice signal component from the speaker,
A voice section is detected from the input signal, it is determined whether or not the noise component is mixed in the voice section, and a correction count for predicting the voice signal component is updated according to the determination result, and fuzzy The updated correction count is adjusted by inference, subtraction processing is performed based on the adjusted correction count, and voice recognition is performed using the subtraction result as the voice signal component.

【0015】[0015]

【作用】したがって本発明による音声認識装置は、音声
区間において基準信号に補正係数を乗じた値をメイン信
号から減算する演算において、補正係数を更新しつつ演
算を行うので、急激な変化を伴う騒音成分を正確に除去
し、音声認識率を向上することができる。
Therefore, in the voice recognition apparatus according to the present invention, in the calculation for subtracting the value obtained by multiplying the reference signal by the correction coefficient from the main signal in the voice section, the calculation is performed while updating the correction coefficient. It is possible to accurately remove the component and improve the voice recognition rate.

【0016】また、本発明による音声認識方法は、音声
トリガレベルの決定方法、走行騒音判定レベルの決定方
法、及び、補正係数の調整量の決定方法をファジィ推論
により行うことにより、さらに適応型S・S方式の効果
を向上させることができる。
Further, in the voice recognition method according to the present invention, the method of determining the voice trigger level, the method of determining the running noise determination level, and the method of determining the adjustment amount of the correction coefficient are performed by fuzzy inference, so that the adaptive S -The effect of the S method can be improved.

【0017】[0017]

【実施例】以下、第1ないし第7の発明の実施例につい
て図を参照して詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the first to seventh inventions will be described below in detail with reference to the drawings.

【0018】1.第1の発明の実施例について説明す
る。
1. An embodiment of the first invention will be described.

【0019】図1は本発明の第1の実施例の音声認識装
置のブロック図である。図1において、11は発声者
(図示せず)からの音声、及び、オーディオ装置等の別
の発生源からのオーディオ信号(これについては後述す
る)による音を受けて、電気信号のメイン信号maとし
て送出するマイクである。12はこのメイン信号maを
増幅するアンプである。13は増幅されたメイン信号m
aを、周波数分割して複数のチャンネル信号を生成し、
その一つのチャンネル信号を択一的に送出するフィルタ
バンクである。
FIG. 1 is a block diagram of a voice recognition apparatus according to the first embodiment of the present invention. In FIG. 1, 11 is a main signal ma which is an electric signal in response to a voice from a speaker (not shown) and a sound from an audio signal (which will be described later) from another source such as an audio device. It is a microphone to send as. Reference numeral 12 is an amplifier for amplifying the main signal ma. 13 is the amplified main signal m
a is frequency-divided to generate a plurality of channel signals,
It is a filter bank that selectively outputs the one channel signal.

【0020】フィルタバンク13は、メイン信号maの
全帯域をチャンネル信号mo として通過させるオールパ
スフィルタ13a、メイン信号maを所定帯域ごとに分
割して複数(n個)のチャンネル信号m1 ,m2 ,…,
mnを送出するバンドパスフィルタ群13b,13c、
チャンネル信号ma,m1 ,m2 ,…,mnのうちの一
つのチャンネル信号m(CH)(CH=0,1,2,…, n)
を選択するマルチプレクサ13d、この選択されたチャ
ンネル信号m(CH)をデジタル信号に変換してチャン
ネル信号M(CH)を送出するA/Dコンバータ13e
で構成される。
The filter bank 13 is an all-pass filter 13a which passes the entire band of the main signal ma as a channel signal mo, and a plurality (n) of channel signals m1, m2, ..., Which divide the main signal ma into predetermined bands.
bandpass filter groups 13b and 13c for transmitting mn,
One of the channel signals ma, m1, m2, ..., Mn is a channel signal m (CH) (CH = 0, 1, 2, ..., N).
A multiplexer 13d for selecting the A / D converter 13e for converting the selected channel signal m (CH) into a digital signal and transmitting the channel signal M (CH).
Composed of.

【0021】14はフィルタバンク13から送出される
メイン音声データであるチャンネル信号M(CH)を保
持するラッチ回路である。15は制御手段としてのCP
Uであり、演算手段である演算部15a、補正係数格納
部15b、その他、図には示さないが、プログラム格納
用のROM、データ格納用のRAM等により構成され
る。
Reference numeral 14 is a latch circuit for holding a channel signal M (CH) which is the main audio data sent from the filter bank 13. 15 is CP as a control means
U, which is a computing unit 15a serving as a computing unit, a correction coefficient storage unit 15b, and others, which are not shown in the figure, include a ROM for storing a program, a RAM for storing data, and the like.

【0022】16はオーディオ装置であり、オーディオ
信号oaを送出する。17は電気信号のオーディオ信号
oaを音に変換するスピーカである。もっとも、このス
ピーカ17から送出されるオーディオ信号は、上記した
発声者からの音声にとっては、除去されるべき音楽騒音
となる。
Reference numeral 16 is an audio device, which sends out an audio signal oa. Reference numeral 17 is a speaker for converting the audio signal oa of the electric signal into sound. However, the audio signal transmitted from the speaker 17 becomes music noise that should be removed from the voice from the speaker.

【0023】18はオーディオ装置16からのオーディ
オ信号oaを増幅して基準信号であるリファレンス信号
raとして出力するアンプである。19はこのリファレ
ンス信号raを、周波数分割して複数のチャンネル信号
を生成し、その一つのチャンネル信号を択一的に送出す
るフィルタバンクである。
Reference numeral 18 denotes an amplifier which amplifies the audio signal oa from the audio device 16 and outputs it as a reference signal ra which is a reference signal. Reference numeral 19 is a filter bank for frequency-dividing this reference signal ra to generate a plurality of channel signals and selectively transmitting one of the channel signals.

【0024】フィルタバンク19は、リファレンス信号
raの全帯域をチャンネル信号roとして通過させるオ
ールパスフィルタ19a、リファレンス信号raを所定
帯域ごとに分割して複数(n個)のチャンネル信号r1
,r2 ,…,rnを送出するバンドパスフィルタ群1
9b,19c、チャンネル信号ra,r1 ,r2 ,…,
rnのうちの一つのチャンネル信号r(CH)(CH=
0,1,2,…, n)を選択するマルチプレクサ19d、この
選択されたチャンネル信号r(CH)をデジタル信号に
変換してチャンネル信号R(CH)を送出するA/Dコ
ンバータ19eで構成される。
The filter bank 19 divides the reference signal ra into predetermined bands so as to pass the entire band of the reference signal ra as the channel signal ro, and divides the reference signal ra into a plurality (n) of channel signals r1.
, R2, ..., rn for transmitting bandpass filter group 1
9b, 19c, channel signals ra, r1, r2, ...
One of the channel signals r (CH) (CH =
0, 1, 2, ..., N) is selected by a multiplexer 19d, and the selected channel signal r (CH) is converted into a digital signal and an A / D converter 19e for transmitting a channel signal R (CH) is provided. It

【0025】20はフィルタバンク19から送出される
チャンネル信号R(CH)を保持するラッチ回路であ
る。21はCPU15で演算され出力されるチャンネル
信号S(CH)の音声解析データを認識する認識手段と
しての音声認識部であり、チャンネル信号を選択するた
めのチャンネル選択信号CSを、CPU15並びにマル
チプレクサ13d及び19dに供給する。22は予め登
録された比較音声データを格納し、音声解析時に、音声
認識部21にその比較音声データを供給するする登録辞
書である。
Reference numeral 20 is a latch circuit for holding the channel signal R (CH) sent from the filter bank 19. Reference numeral 21 is a voice recognition unit as a recognition means for recognizing the voice analysis data of the channel signal S (CH) calculated and output by the CPU 15, and outputs the channel selection signal CS for selecting the channel signal to the CPU 15 and the multiplexer 13d. Supply to 19d. Reference numeral 22 is a registration dictionary that stores comparative voice data registered in advance and supplies the comparative voice data to the voice recognition unit 21 during voice analysis.

【0026】23はメイン信号maに含まれる発生者か
らの音声信号の音声区間の始端を検出して始端信号(ト
リガ信号)TRを発生し、CPU15に供給する音声区
間判別手段としての音声トリガ回路である。
Reference numeral 23 is a voice trigger circuit as a voice section discriminating means for detecting the start of the voice section of the voice signal from the generator included in the main signal ma to generate a start signal (trigger signal) TR and supplying it to the CPU 15. Is.

【0027】次に、補正係数格納部15bに格納される
補正係数について説明する。
Next, the correction coefficient stored in the correction coefficient storage section 15b will be described.

【0028】マイク11から入力されるメイン信号ma
は、下記の(数1)で表される。
The main signal ma input from the microphone 11
Is represented by the following (Equation 1).

【0029】[0029]

【数1】 ここで、saは発生者からの音声をうけて、マイク11
で電気信号として出力される音声信号であり、マイク1
1の変換特性が加わったものである。また、oaはオー
ディオ装置16から送出されるオーディオ信号である。
さらに、gはオーディオ信号oaがスピーカ17の変換
特性により音に変換され、その発生された音が伝播して
マイク11に到達するまでに受ける伝送特性である。
[Equation 1] Here, sa receives the voice from the generator, and the microphone 11
Is a voice signal output as an electric signal by the microphone 1
The conversion characteristic of 1 is added. Further, oa is an audio signal transmitted from the audio device 16.
Further, g is a transmission characteristic in which the audio signal oa is converted into sound by the conversion characteristic of the speaker 17, and the generated sound is propagated and reaches the microphone 11.

【0030】オーディオ信号oaはオーディオ装置16
より直接得ることができるので、伝送特性gが解れば、
下記の(数2)より音声信号saを求めることが可能で
ある。
The audio signal oa is sent to the audio device 16
Since it can be obtained more directly, if the transmission characteristic g is known,
The audio signal sa can be obtained from the following (Equation 2).

【0031】[0031]

【数2】 しかしながら、この伝送特性gを得るためには、高精度
測定を必要とし、しかもその正確な値を得ることは非常
に困難である。
[Equation 2] However, in order to obtain this transmission characteristic g, highly accurate measurement is required, and it is very difficult to obtain its accurate value.

【0032】そこで、本実施例においては、メイン信号
ma及びオーディオ信号oaを周波数解析し、デジタル
化したデータを用いて音声信号saを求める手法を採
る。
Therefore, in this embodiment, a method of frequency-analyzing the main signal ma and the audio signal oa and obtaining the audio signal sa by using the digitized data is adopted.

【0033】図1のA/Dコンバータ13e及び19e
から送出されるデジタル信号M(CH)及びR(CH)
の間には、次の(数3)の関係が成立する。
The A / D converters 13e and 19e shown in FIG.
Digital signals M (CH) and R (CH) sent from
The following relationship (Equation 3) is established between the two.

【0034】[0034]

【数3】 もっともこの(数3)は、アナログ信号をデジタル化し
たために生ずる誤差により、左項と右項とは必ずしも完
全に等しくはならない。この(数3)において、S(C
H)は音声信号saをデジタル化したデータであり、G
(CH)はR(CH)に乗じてメイン信号M(CH)に
含まれる音声信号成分S(CH)を予測するための補正
係数である。
[Equation 3] However, this (Equation 3) is not always completely equal to the left term and the right term due to an error caused by digitizing the analog signal. In this (Equation 3), S (C
H) is data obtained by digitizing the audio signal sa, and G
(CH) is a correction coefficient for multiplying R (CH) to predict the audio signal component S (CH) included in the main signal M (CH).

【0035】この(数3)により、音声信号S(CH)
は次に示す(数4)で表される。
From this (Equation 3), the audio signal S (CH)
Is represented by the following (Equation 4).

【0036】[0036]

【数4】 この(数4)により、メイン信号M(CH)に含まれる
音声信号S(CH)が予測できる。
[Equation 4] From this (Equation 4), the audio signal S (CH) included in the main signal M (CH) can be predicted.

【0037】この補正係数G(CH)は、周波数分解能
であるチャンネル数nが大であるならば、音声が発生さ
れていないときのM(CH)とR(CH)との比により
推測可能である。すなわち、S(CH)=0とすると、
M(CH)=R(CH)・G(CH)となり、補正係数
G(CH)は、M(CH)/R(CH)と表すことがで
きるからである。非音声区間において算出された補正係
数G(CH)は、補正係数格納部15bに格納される。
This correction coefficient G (CH) can be estimated from the ratio of M (CH) and R (CH) when no sound is generated, if the number of channels n which is the frequency resolution is large. is there. That is, if S (CH) = 0,
This is because M (CH) = R (CH) · G (CH), and the correction coefficient G (CH) can be expressed as M (CH) / R (CH). The correction coefficient G (CH) calculated in the non-voice section is stored in the correction coefficient storage unit 15b.

【0038】図2は図1に示す音声認識装置のCPU1
5の動作を示すフローチャートである。以下、この動作
を説明する。この場合の補正係数は、非音声区間のM
(CH)及びR(CH)の各々数秒間(ここでは1秒間
とする)の累計値をΣM(CH)及びΣR(CH)と
し、次に示す(数5)により、その比を補正係数とす
る。
FIG. 2 is a CPU 1 of the voice recognition apparatus shown in FIG.
6 is a flowchart showing the operation of FIG. This operation will be described below. The correction coefficient in this case is M in the non-voice section.
The cumulative values of (CH) and R (CH) for several seconds (here, one second) are set as ΣM (CH) and ΣR (CH), and the ratio thereof is used as a correction coefficient according to the following (Equation 5). To do.

【0039】[0039]

【数5】 図2において、音声認識部21からチャンネル選択信号
CSを取り込み、ラッチ回路14及び19へ出力し(ス
テップS11)、ラッチタイミング及びラッチ回路14
及び19からデータを取り込むタイミングをつくる。そ
の後、ラッチ回路14及び19からデータM(CH)及
びR(CH)を取り込むとともに、音声トリガ回路23
からのトリガ信号TRを取り込む(ステップS12)。
このトリガ信号TRすなわち始端信号を受けた時点を音
声始端とし、その時点からタイマをセットして、1.6
秒間(この区間は、音声認識部21の最大許容音声区間
長である)を音声区間とする。
[Equation 5] In FIG. 2, the channel selection signal CS is fetched from the voice recognition unit 21 and output to the latch circuits 14 and 19 (step S11), and the latch timing and the latch circuit 14 are output.
And the timing to fetch data from 19 is created. After that, the data M (CH) and R (CH) are fetched from the latch circuits 14 and 19, and the voice trigger circuit 23
The trigger signal TR from is taken in (step S12).
The time point at which this trigger signal TR, that is, the start end signal is received is regarded as the voice start end, and the timer is set from that time point to 1.6.
A second (this section is the maximum allowable speech section length of the speech recognition unit 21) is a speech section.

【0040】データM(CH)及びR(CH)を取り込
むごとに音声区間か否かを判別し(ステップS13)、
音声区間でない区間が1秒以上継続した場合には、現在
より過去1秒間のストックデータM(CH)及びR(C
H)の更新を行い、その累計値ΣM(CH)及びΣR
(CH)を計算して、式(3)により最新の補正係数を
作成して、補正係数格納部15bの補正係数の値を更新
する(ステップS14)。
Each time the data M (CH) and R (CH) is fetched, it is judged whether or not it is in the voice section (step S13).
If a section that is not a voice section continues for 1 second or longer, stock data M (CH) and R (C
H) is updated, and the cumulative values ΣM (CH) and ΣR are updated.
(CH) is calculated, the latest correction coefficient is created by equation (3), and the value of the correction coefficient in the correction coefficient storage unit 15b is updated (step S14).

【0041】一方、音声区間である場合には、補正係数
格納部15bに格納されている(最新の)補正係数G
(CH)のデータを読出して、取り込んだデータR(C
H)に乗じて、オーディオ騒音成分であるR(CH)・
G(CH)を求め、(数4)によりメイン信号M(C
H)のデータからオーディオ騒音成分の減算を行う(ス
テップS15)。この減算の結果である減算データを音
声信号S(CH)のデータとして出力する(ステップS
16)。
On the other hand, in the case of the voice section, the (latest) correction coefficient G stored in the correction coefficient storage unit 15b.
The data of (CH) is read and the captured data R (C
H) to multiply the audio noise component R (CH)
G (CH) is calculated, and the main signal M (C
The audio noise component is subtracted from the data of (H) (step S15). The subtraction data that is the result of this subtraction is output as the data of the audio signal S (CH) (step S
16).

【0042】このように、上記第1の発明の実施例によ
れば、非音声区間のメイン信号及びリファレンス信号か
ら、常に最新の補正係数を求めることにより、急激に変
化するオーディオ騒音等の非定常雑音にも対応すること
ができ、さほど急激なオーディオ騒音の変化がない場合
には、フィルタの収束時間を短くすることができる。ま
た、DSP等のような高速演算処理を可能とする高価な
処理装置を必要とすることもない。
As described above, according to the first embodiment of the present invention, the latest correction coefficient is always obtained from the main signal and the reference signal in the non-voice section, so that the non-steady state such as the rapidly changing audio noise is generated. It is also possible to deal with noise, and the convergence time of the filter can be shortened when there is no sudden change in audio noise. Further, there is no need for an expensive processing device capable of high-speed arithmetic processing such as DSP.

【0043】さらに、リファレンス信号に音声信号が含
まれることがないので、推定誤差を少なくすることがで
き、オーディオ騒音環境下においても高い音声認識が可
能となる。
Furthermore, since the reference signal does not include a voice signal, the estimation error can be reduced and high voice recognition can be performed even in an audio noise environment.

【0044】2.第2の発明の実施例について説明す
る。
2. An embodiment of the second invention will be described.

【0045】この発明の特徴は、第1の発明の実施例で
行っている補正係数の作成及び更新の際に、過去のデー
タを利用した遅延データを用いて作成・更新を行う点に
ある。
A feature of the present invention is that when the correction coefficient is created and updated in the embodiment of the first invention, it is created and updated by using the delay data using the past data.

【0046】図3は本発明の第1の実施例の音声認識装
置のブロック図である。図3において、図1に示す第1
の発明の実施例の構成と同じ構成のものは、同一の符号
で表しその説明は省略する。図3に示すように、この実
施例の構成には、音声トリガ回路は設けられていない。
ただし、CPU15内に、データの演算及び遅延処理を
行う演算手段とともに音声区間の検出を行う音声区間判
別手段である音声検出部15cを備えた構成となってい
る。
FIG. 3 is a block diagram of a voice recognition apparatus according to the first embodiment of the present invention. In FIG. 3, the first shown in FIG.
The same configurations as those of the embodiment of the invention are represented by the same reference numerals, and the description thereof will be omitted. As shown in FIG. 3, a voice trigger circuit is not provided in the configuration of this embodiment.
However, the CPU 15 is provided with a voice detecting section 15c which is a voice section determining means for detecting a voice section together with a calculating means for calculating data and a delay process.

【0047】この音声検出部15cにおいては、音声信
号の暫定的な始端を定めた後、その暫定的な始端から一
定時間過去の時点を確定的な始端とみなして音声区間を
定める。そのために、以下に記述するデータ遅延処理を
行う。
In the voice detection section 15c, after the provisional start end of the voice signal is determined, a point in time past a certain time from the provisional start end is regarded as a definite start end and the voice section is determined. Therefore, the data delay process described below is performed.

【0048】図4は図3における音声認識装置の音声始
端を検出する様子を示す図であり、データ遅延の様子を
示す図である。図4(a)及び(b)において、DPは
オーディオ騒音成分除去後の音声波形の現在値データを
示すものである。実際はデジタル信号であるが、ここで
は説明の便宜上アナログ信号として表すことにする。t
sはこの音声始端の暫定的な検出位置であり、後述する
所定のスレッショルドレベル以上になる点を検出位置と
する。
FIG. 4 is a diagram showing how the voice start end of the voice recognition device shown in FIG. 3 is detected, and is a diagram showing how data is delayed. In FIGS. 4A and 4B, DP indicates the current value data of the voice waveform after removing the audio noise component. Although it is actually a digital signal, it is represented here as an analog signal for convenience of description. t
s is a tentative detection position of the voice start end, and a point at which a predetermined threshold level, which will be described later, is reached is defined as a detection position.

【0049】DDはこの現在値データDPを一定時間だ
け遅延させた音声波形のデータ、すなわち過去値データ
である。この実施例の場合、現在値データDPと過去値
データDDとの遅延時間Tdは1秒間である。したがっ
て、過去値データDDは、現在値データDPを図示せぬ
RAMに格納した後、1秒後に読み出すことにより得ら
れる。遅延時間Tdを1秒間としたのは、音声信号の真
の始端と暫定的な始端との間の最大誤差時間が1秒間で
あると推定できるからである。
DD is voice waveform data obtained by delaying the present value data DP by a fixed time, that is, past value data. In the case of this embodiment, the delay time Td between the current value data DP and the past value data DD is 1 second. Therefore, the past value data DD is obtained by storing the present value data DP in the RAM (not shown) and then reading it one second later. The delay time Td is set to 1 second because it can be estimated that the maximum error time between the true start end and the provisional start end of the audio signal is 1 second.

【0050】T0 は音声信号の真の音声区間であり、こ
の場合1.6秒とする。T1 はCPU15が判断する音
声区間であり、この場合2.6秒とする。したがって、
図4(a)の場合は、音声信号の暫定的な始端tsが、
真の始端から1秒間(最大誤差時間)遅れている場合で
ある。また、図4(b)の場合は、音声信号の暫定的な
始端tsが、真の始端から僅かな時間だけ遅れている場
合である。いずれの場合も、CPU15の判断する音声
区間内には、真の音声区間が含まれることになる。
T0 is the true voice section of the voice signal, which is 1.6 seconds in this case. T1 is a voice section judged by the CPU 15, and is 2.6 seconds in this case. Therefore,
In the case of FIG. 4A, the provisional start end ts of the audio signal is
This is a case where it is delayed by 1 second (maximum error time) from the true start point. Further, in the case of FIG. 4B, the provisional start end ts of the audio signal is delayed from the true start end by a slight time. In either case, the true voice section is included in the voice section determined by the CPU 15.

【0051】図5は第2の発明の第1の実施例における
音声認識装置におけるCPU15の動作を表すフローチ
ャートである。以下、図5を参照しつつ本発明の第1の
実施例の動作について説明する。
FIG. 5 is a flow chart showing the operation of the CPU 15 in the voice recognition device in the first embodiment of the second invention. The operation of the first embodiment of the present invention will be described below with reference to FIG.

【0052】まず、音声認識部21から供給されるチャ
ンネル選択信号CSを監視して、ラッチ回路14及び2
0へラッチタイミングの信号を出力し(ステップS2
1)、ラッチ回路14及び20よりデータM(CH)及
びR(CH)を取り込む(ステップS22)。
First, the channel selection signal CS supplied from the voice recognition section 21 is monitored, and the latch circuits 14 and 2 are monitored.
The latch timing signal is output to 0 (step S2
1) The data M (CH) and R (CH) are fetched from the latch circuits 14 and 20 (step S22).

【0053】次に、取り込んだデータにより音声区間の
検出を行う(ステップS23)。この音声区間の始端t
sの検出は以下のようにして行う。フィルタバンク13
のオールパスフィルタ13aから得られた更新前の補正
係数(これをG0(0)とする)を利用し、下記に示す
(数6)により、音声信号のレベルが所定のスレッショ
ルドレベルTHより大となる点(時間)すなわち始端t
sを検出する。
Next, the voice section is detected from the acquired data (step S23). Start t of this voice section
The detection of s is performed as follows. Filter bank 13
Using the correction coefficient before updating (which is referred to as G0 (0)) obtained from the all-pass filter 13a, the level of the audio signal becomes higher than the predetermined threshold level TH by the following (Equation 6). Point (time), that is, starting point t
s is detected.

【0054】[0054]

【数6】 この(数6)で、M(0)及びR(0)は、オールパス
フィルタ13aから得られるメイン信号及びリファレン
ス信号である。上記したように、音声区間T1はこの始
端tsから2.6秒間とする。
[Equation 6] In this (Equation 6), M (0) and R (0) are the main signal and the reference signal obtained from the all-pass filter 13a. As described above, the voice section T1 is set to 2.6 seconds from the start end ts.

【0055】さらに、始端tsから過去1秒間のストッ
クデータを更新する。すなわち、過去1秒前の遅延デー
タMD(CH),RD(CH)をRAMから取り出す
(ステップS24)。この遅延データを得ることによ
り、音声区間T1 内に1.6秒間の真の音声区間T0 を
包含することができる。また、音声データの遅延データ
を利用するのは、遅延データの音声始端よりも数ミリ早
く補正係数を更新しておくことにより、音声始端以前の
推定誤差によるオーディオ信号の残留成分を少なくし、
音声始端のトリガが早くかかり過ぎるのを防ぐという2
次的効果もある。
Further, the stock data for the past 1 second from the starting end ts is updated. That is, the delay data MD (CH) and RD (CH) one second before are taken out from the RAM (step S24). By obtaining this delay data, the true voice section T0 of 1.6 seconds can be included in the voice section T1. Also, the delay data of the voice data is used because the correction coefficient is updated a few millimeters earlier than the voice start end of the delay data to reduce the residual component of the audio signal due to the estimation error before the voice start end,
To prevent the trigger at the beginning of the sound from being triggered too early 2
There are also secondary effects.

【0056】次に、音声区間か否かを判別し(ステップ
S25)、音声区間でない場合には、遅延データMD
(CH),RD(CH)を補正係数計算用データとし
て、補正係数計算用ストックデータを更新する(ステッ
プS26)。更新した遅延データMD(CH),RD
(CH)を1秒間累計したΣMD(CH),ΣRD(C
H)は、音声成分を含んでいない遅延データの過去1秒
間の累計値である。この累計値を下記の(数7)に代入
して補正係数G(CH)を更新する。
Next, it is judged whether or not it is in the voice section (step S25). If it is not in the voice section, the delay data MD
The correction coefficient calculation stock data is updated using (CH) and RD (CH) as the correction coefficient calculation data (step S26). Updated delay data MD (CH), RD
ΣMD (CH), ΣRD (C
H) is a cumulative value of delay data that does not include a voice component in the past 1 second. The correction coefficient G (CH) is updated by substituting this cumulative value into the following (Equation 7).

【0057】[0057]

【数7】 一方、ステップS25において、音声区間である場合に
は、更新された補正係数G(CH)と遅延データMD
(CH),RD(CH)を用いて、次の(数8)により
オーディオ騒音成分の減算を行い(ステップS27)、
減算データすなわち遅延音声信号SD(CH)を得る。
[Equation 7] On the other hand, in step S25, in the case of the voice section, the updated correction coefficient G (CH) and the delay data MD
Using (CH) and RD (CH), the audio noise component is subtracted by the following (Equation 8) (step S27),
The subtracted data, that is, the delayed voice signal SD (CH) is obtained.

【0058】[0058]

【数8】 この減算データである遅延音声信号SD(CH)を音声
認識部21に出力する(ステップS28)。
[Equation 8] The delayed voice signal SD (CH) which is the subtracted data is output to the voice recognition unit 21 (step S28).

【0059】このように、メイン信号及びリファレンス
信号の現在値データと、更新前の補正係数を利用した音
声区間の検出、並びに、メイン信号及びリファレンス信
号の過去値データを利用することにより、以下に示す効
果を得ることができる。
As described above, the present value data of the main signal and the reference signal, the voice section detection using the correction coefficient before the update, and the past value data of the main signal and the reference signal are used. The effect shown can be obtained.

【0060】1)オーディオ騒音が大きい場合でも、更
新前補正係数を利用した減算データによって、予めある
程度のオーディオ騒音成分を除去しているので、音声信
号の始端の検出誤差を小さくすることができる。
1) Even if the audio noise is large, the audio noise component is removed in advance to some extent by the subtraction data using the pre-update correction coefficient, so that the detection error at the start end of the audio signal can be reduced.

【0061】2)音声区間を自動的に検出するので、ユ
ーザが発声のたびにキー入力等の操作を行う負担を解消
することができる。
2) Since the voice section is automatically detected, it is possible to eliminate the burden of the user performing an operation such as key input each time the user speaks.

【0062】3)音声信号のレベルが小さいために推定
誤りによるオーディオ騒音成分の残留成分が存在する場
合でも、音声信号を検出するスレッショルドレベルを大
きく設定することにより、オーディオ騒音による音声区
間の誤検出を少なくすることができ、補正係数の適正値
を求めることができる。したがって、音声認識部のスレ
ッショルドレベルに依存することがない。
3) Even if there is a residual component of audio noise component due to an estimation error because the level of the voice signal is small, the threshold level for detecting the voice signal is set to a large value, thereby erroneously detecting the voice section due to the audio noise. Can be reduced and an appropriate value of the correction coefficient can be obtained. Therefore, it does not depend on the threshold level of the voice recognition unit.

【0063】4)極めて単純な方法であるため、リアル
タイム処理が可能となる。
4) Real-time processing is possible because of the extremely simple method.

【0064】本発明の第2の実施例の音声認識装置のブ
ロック図は、図3に示す第2の発明の実施例の構成と同
じ構成であり、その説明は省略する。
The block diagram of the speech recognition apparatus according to the second embodiment of the present invention has the same configuration as that of the second embodiment of the present invention shown in FIG. 3, and the description thereof will be omitted.

【0065】この実施例の特徴は、適応型S.S法にお
ける補正係数の更新を発声ごとに毎回行うのではなく、
一定時間ごとに行うことにある。音声認識部にある程度
の定常雑音除去機能を有する場合、毎回ごとの補正係数
の更新を行うと、特にオーディオ成分の変動が大きい
と、減算量が毎回変動してしまう。その結果、推定誤差
によるオーディオ騒音の残留成分が毎回変動するため、
音声認識部の定常雑音除去機能が有効に働かない。図6
(a)は発声のたびに毎回補正係数を更新した場合のオ
ーディオ騒音の残留成分を示す図である。かかる場合に
は、音声認識部で音声区間の誤検出が起こり易いという
現象が生じる。すなわち、この第2の実施例は上記誤検
出を回避するためになされたものである。
The feature of this embodiment is that the adaptive S.M. Instead of updating the correction coefficient in the S method every time when uttering,
It is to do it at regular intervals. When the voice recognition unit has a certain level of stationary noise removal function, if the correction coefficient is updated every time, the subtraction amount will change every time especially when the audio component greatly changes. As a result, the residual component of audio noise due to the estimation error changes every time,
The stationary noise removal function of the voice recognition part does not work effectively. Figure 6
(A) is a figure which shows the residual component of audio noise when a correction coefficient is updated every time it utters. In such a case, a phenomenon occurs in which the voice recognition unit is likely to erroneously detect a voice section. That is, this second embodiment is made to avoid the above-mentioned erroneous detection.

【0066】図7はこの第2の発明の第2の実施例の音
声認識装置のCPU15の動作を示すフローチャートで
ある。このフローチャート及び図3に基づいて、この第
3の実施例の動作を説明する。
FIG. 7 is a flow chart showing the operation of the CPU 15 of the voice recognition device according to the second embodiment of the second invention. The operation of the third embodiment will be described based on this flowchart and FIG.

【0067】まず、音声認識部21からのチャンネル選
択信号CSをモニタし、ラッチ回路14及び20へラッ
チタイミング信号を供給し(ステップS31)、並び
に、ラッチ回路14及び20からCPU15への取り込
みタイミングをつくり、データM(CH),R(CH)
を取り込む(ステップS32)。
First, the channel selection signal CS from the voice recognition section 21 is monitored, the latch timing signal is supplied to the latch circuits 14 and 20 (step S31), and the fetch timing from the latch circuits 14 and 20 to the CPU 15 is determined. Structure, data M (CH), R (CH)
Is taken in (step S32).

【0068】この取り込んだデータより音声区間の検出
を行う(ステップS33)。この検出は、オールパスフ
ィルタ13aから得られた更新前の補正係数G0(0)
を利用し、(数6)を満たすデータにより、音声の始端
とする。
The voice section is detected from the fetched data (step S33). This detection is performed by the correction coefficient G0 (0) before update obtained from the all-pass filter 13a.
Is used as the start point of the voice by the data satisfying (Equation 6).

【0069】[0069]

【数6】音声区間はこの音声始端から2.6秒間(音声
認識装置の最大音声区間長)とする。
## EQU00006 ## The voice section is set to 2.6 seconds (maximum voice section length of the voice recognition device) from this voice start end.

【0070】次に、データのストックと遅延データの取
り出しを行う(ステップS34)。現在より過去数秒間
(この場合1秒間とする)のストックデータを更新し、
これにより遅延データMD(CH),RD(CH)を得
る。その後、音声区間か否かを判別し(ステップS3
5)、音声区間でない場合には、この遅延データをスト
ックして補正係数の候補を作成する(ステップS3
6)。具体的には、音声区間でないときに、得られた遅
延データMD(CH),RD(CH)を補正係数計算用
データとして、補正係数計算用ストックデータを更新す
る。そして、音声成分が含まれていない過去1秒間分の
累計値ΣMD(CH),ΣRD(CH)を用いて下記の
(数9)により、補正係数候補Gc(CH)を求める。
Next, data stock and delayed data are taken out (step S34). Update the stock data for the past few seconds (1 second in this case) from the present,
As a result, delay data MD (CH) and RD (CH) are obtained. Then, it is determined whether or not it is a voice section (step S3
5) If it is not in the voice section, this delay data is stocked to create correction coefficient candidates (step S3).
6). Specifically, when it is not in the voice section, the obtained delay data MD (CH), RD (CH) is used as the correction coefficient calculation data, and the correction coefficient calculation stock data is updated. Then, the correction coefficient candidate Gc (CH) is obtained by the following (Equation 9) using the cumulative values ΣMD (CH) and ΣRD (CH) for the past one second that does not include the voice component.

【0071】[0071]

【数9】 補正係数候補Gc(CH)を求めた後、一定時間ごとに
補正係数の更新を行う(ステップS37)。すなわち、
カウンタを設定して、音声区間でないときにこのカウン
タをインクリメントし、一定時間(この場合、0.5
秒)ごとに補正係数候補Gc(CH)を補正係数G(C
H)として更新する。
[Equation 9] After obtaining the correction coefficient candidate Gc (CH), the correction coefficient is updated at regular intervals (step S37). That is,
A counter is set, and this counter is incremented when it is not in a voice section, and a fixed time (in this case, 0.5
Every second), the correction coefficient candidate Gc (CH) is replaced with the correction coefficient G (C
H).

【0072】一方、音声区間でない場合には、S36,
S37は省く。次に、音声区間の有無に関わらず、オー
ディオ騒音成分の減算処理を行う(ステップS38)。
この減算処理は、更新された補正係数G(CH)と遅延
データMD(CH),RD(CH)とを用いて、(数
8)により音声信号SD(CH)を抽出し、その減算デ
ータを出力する(ステップS39)。
On the other hand, if it is not in the voice section, S36,
Omit S37. Next, the subtraction process of the audio noise component is performed regardless of the presence or absence of the voice section (step S38).
In this subtraction process, the audio signal SD (CH) is extracted by (Equation 8) using the updated correction coefficient G (CH) and the delay data MD (CH) and RD (CH), and the subtracted data is extracted. Output (step S39).

【0073】[0073]

【数8】図6(b)は一定時間(0.5秒)ごとに補正
係数を更新した場合のオーディオ騒音の残留成分を示す
図である。この図で明らかなように、残留成分の変動が
少なくなるので、音声認識部の定常雑音除去機能によ
り、残留成分を除去することができる。
## EQU00008 ## FIG. 6B is a diagram showing the residual component of the audio noise when the correction coefficient is updated at fixed time intervals (0.5 seconds). As is clear from this figure, since the fluctuation of the residual component is reduced, the residual component can be removed by the stationary noise removal function of the voice recognition unit.

【0074】次に、本発明の第3の実施例について説明
する。
Next, a third embodiment of the present invention will be described.

【0075】この実施例の音声認識装置のブロック図
も、図3に示す第2の発明の実施例の構成と同じ構成で
あるので、その説明は省略し、図8に示す動作フローチ
ャートに基づいてその動作について説明する。図8はこ
の第2の発明の第3の実施例の音声認識装置のCPU1
5の動作を表すフローチャートである。
The block diagram of the speech recognition apparatus of this embodiment also has the same configuration as that of the embodiment of the second invention shown in FIG. 3, so its explanation is omitted and based on the operation flowchart shown in FIG. The operation will be described. FIG. 8 shows the CPU 1 of the voice recognition apparatus according to the third embodiment of the second invention.
6 is a flowchart showing the operation of FIG.

【0076】音声認識部21から供給されるチャンネル
選択信号CSを監視して、ラッチ回路14及び20へラ
ッチタイミングの信号を出力し(ステップS41)、ラ
ッチ回路14及び20よりデータM(CH)及びR(C
H)を取り込む(ステップS42)。
The channel selection signal CS supplied from the voice recognition unit 21 is monitored and a latch timing signal is output to the latch circuits 14 and 20 (step S41). The latch circuits 14 and 20 output the data M (CH) and R (C
H) is taken in (step S42).

【0077】次に、取り込んだデータにより音声区間の
検出を行う(ステップS43)。この音声区間の始端t
sの検出は以下のようにして行う。フィルタバンク13
のオールパスフィルタ13aから得られた更新前の補正
係数(これをG0(0)とする)を利用し、下記に示す
(数6)により、音声信号のレベルが所定のスレッショ
ルドレベルTHより大となる点(時間)すなわち始端t
sを検出する。
Next, the voice section is detected from the fetched data (step S43). Start t of this voice section
The detection of s is performed as follows. Filter bank 13
Using the correction coefficient before updating (which is referred to as G0 (0)) obtained from the all-pass filter 13a, the level of the audio signal becomes higher than the predetermined threshold level TH by the following (Equation 6). Point (time), that is, starting point t
s is detected.

【0078】[0078]

【数6】この(数6)で、M(0)及びR(0)は、オ
ールパスフィルタ13aから得られるメイン信号及びリ
ファレンス信号である。上記したように、音声区間T1
はこの始端tsから2.6秒間とする。
In this (Equation 6), M (0) and R (0) are the main signal and the reference signal obtained from the all-pass filter 13a. As described above, the voice section T1
Is 2.6 seconds from the starting end ts.

【0079】さらに、始端tsから過去1秒間のストッ
クデータを更新する。すなわち、過去1秒前の遅延デー
タMD(CH),RD(CH)をRAMから取り出す
(ステップS44)。この遅延データをストックすると
ともに、補正係数候補を作成する(ステップS45)。
すなわち、遅延データMD(CH),RD(CH)を補
正係数計算用データとして、補正係数計算用ストックデ
ータを更新する。そして、遅延データの過去1秒分の累
計値ΣMD(CH),ΣRD(CH)を計算し、補正係
数の候補Gc(CH)を(数9)により求める。
Further, the stock data for the past 1 second from the starting end ts is updated. That is, the delay data MD (CH) and RD (CH) one second before is taken out from the RAM (step S44). This delay data is stocked and correction coefficient candidates are created (step S45).
That is, the correction coefficient calculation stock data is updated using the delay data MD (CH) and RD (CH) as the correction coefficient calculation data. Then, the cumulative values ΣMD (CH) and ΣRD (CH) of the delay data for the past one second are calculated, and the correction coefficient candidate Gc (CH) is obtained by (Equation 9).

【0080】[0080]

【数9】次に、音声始端を検出したか否かを判別し(ス
テップS46)、音声始端を検出した場合には、Gc
(CH)=G(CH)として補正係数を更新する(ステ
ップS47)。
## EQU9 ## Next, it is determined whether or not the voice start edge is detected (step S46). If the voice start edge is detected, Gc
The correction coefficient is updated with (CH) = G (CH) (step S47).

【0081】図9はこの実施例における音声認識装置の
音声始端を検出する様子を示す図である。この音声始端
の検出により補正係数の更新を行うものである。すなわ
ち、かかる方法による補正係数の更新は、図9における
音声始端であるa点の2秒前(c点)から1秒前(b
点)のデータの累計値の比が補正係数となる。したがっ
て、出力データは遅延データであるため、b点から補正
係数が更新されることになる。
FIG. 9 is a diagram showing how the voice start end of the voice recognition apparatus in this embodiment is detected. The correction coefficient is updated by detecting the voice start end. That is, the correction coefficient is updated by such a method from 2 seconds (point c) to 1 second (b) before the point a which is the voice start end in FIG.
The ratio of the cumulative value of the data of (point) becomes the correction coefficient. Therefore, since the output data is delay data, the correction coefficient is updated from the point b.

【0082】よって、毎回の発声ごとに補正係数を更新
するときも、オーディオ騒音の残留成分の変動が少なく
なり、図6(b)に示すような波形が得られるので、音
声認識部21がある程度の定常雑音除去機能を有する場
合には、残留成分は定常雑音として除去される可能性が
高くなる。
Therefore, even when the correction coefficient is updated for each utterance, the fluctuation of the residual component of the audio noise is reduced, and the waveform as shown in FIG. 6B is obtained. In the case of having the stationary noise removal function of, the residual component is likely to be removed as stationary noise.

【0083】この方式の場合、更新前の補正係数は前回
の発声の際に決定されるので、例えば、「ボイスコント
ロール」というような特定の単語の発声で音声認識装置
が音声起動し、その後コントロールワードを認識させる
ようなシステムの場合に有効となる。
In the case of this method, since the correction coefficient before updating is determined at the time of the previous utterance, the voice recognition device is voice activated by the utterance of a specific word such as "voice control", and then the control is performed. This is effective in the case of a system that recognizes words.

【0084】ステップS46において音声始端でない場
合には、オーディオ騒音成分の減算を行い(ステップS
48)、更新された補正係数G(CH)と遅延データM
D(CH),RD(CH)を用いて、(数8)により遅
延音声信号のデータSD(CH)を抽出してデータの出
力を行う(ステップS49)。
When it is not the voice start end in step S46, the audio noise component is subtracted (step S
48), updated correction coefficient G (CH) and delay data M
Using D (CH) and RD (CH), the data SD (CH) of the delayed audio signal is extracted by (Equation 8) and the data is output (step S49).

【0085】[0085]

【数8】この第3の実施例によれば、音声始端検出位置
で補正係数を更新することにより、毎回の発声ごとに補
正係数を更新する場合でも、音声始端の誤検出が起こり
にくくなる。
## EQU00008 ## According to the third embodiment, the correction coefficient is updated at the voice start edge detection position, so that the false detection of the voice start edge is less likely to occur even when the correction coefficient is updated for each utterance.

【0086】また、音声の発声間隔は通常2秒以上ある
ので、図9に示すc点からb点までは音声データが含ま
れないことか予想され、音声成分の有無を判定する必要
がなくなるという利点もある。
Further, since the utterance interval of voice is usually 2 seconds or more, it is expected that voice data is not included from point c to point b shown in FIG. 9, and it is not necessary to judge the presence or absence of voice component. There are also advantages.

【0087】3.第3の発明の実施例について説明す
る。
3. An embodiment of the third invention will be described.

【0088】この発明の特徴は、更新した補正係数に対
して、さらに所定の調整量を乗ずることにある。
A feature of the present invention is that the updated correction coefficient is further multiplied by a predetermined adjustment amount.

【0089】以下に述べるこの発明の第1及び第2の実
施例の音声認識装置のブロック図は、図3に示す第2の
発明の実施例の構成と同じ構成であり、その説明は省略
する。
The block diagram of the voice recognition apparatus according to the first and second embodiments of the present invention described below has the same configuration as that of the second embodiment of the present invention shown in FIG. 3, and the description thereof will be omitted. .

【0090】図10はこの第3の発明の実施例における
音声認識装置のCPU15の動作を表すフローチャート
である。このフローチャート及び図3に基づいて、この
第3の発明の第1の実施例の動作を説明する。
FIG. 10 is a flow chart showing the operation of the CPU 15 of the voice recognition device in the embodiment of the third invention. The operation of the first embodiment of the third invention will be described with reference to this flowchart and FIG.

【0091】まず、音声認識部21からのチャンネル選
択信号CSをモニタし、ラッチ回路14及び20へラッ
チタイミング信号を供給し(ステップS51)、並び
に、ラッチ回路14及び20からCPU15への取り込
みタイミングをつくり、データM(CH),R(CH)
を取り込む(ステップS52)。
First, the channel selection signal CS from the voice recognition section 21 is monitored, the latch timing signal is supplied to the latch circuits 14 and 20 (step S51), and the timing of fetching from the latch circuits 14 and 20 to the CPU 15 is determined. Structure, data M (CH), R (CH)
Is taken in (step S52).

【0092】この取り込んだデータより音声区間の検出
を行う(ステップS53)。この検出は、オールパスフ
ィルタ13aから得られた更新前の補正係数G0(0)
を利用し、(数6)を満たすデータにより、音声の始端
とする。
The voice section is detected from the fetched data (step S53). This detection is performed by the correction coefficient G0 (0) before update obtained from the all-pass filter 13a.
Is used as the start point of the voice by the data satisfying (Equation 6).

【0093】[0093]

【数6】音声区間はこの音声始端から2.6秒間(音声
認識装置の最大音声区間長)とする。
## EQU00006 ## The voice section is set to 2.6 seconds (maximum voice section length of the voice recognition device) from this voice start end.

【0094】次に、データのストックと遅延データの取
り出しを行う(ステップS54)。現在より過去数秒間
(この場合1秒間とする)のストックデータを更新し、
これにより遅延データMD(CH),RD(CH)を得
る。そして音声区間か否かを判別して(ステップS5
5)、音声区間でない場合には、遅延音声成分を含まな
い遅延データをストックして補正係数の候補を作成する
(ステップS56)。具体的には、音声区間でないとき
に、得られた遅延データMD(CH),RD(CH)を
補正係数計算用データとして、補正係数計算用ストック
データを更新する。そして、音声成分が含まれていない
過去1秒間分の累計値ΣMD(CH),ΣRD(CH)
を用いて下記の(数9)により、補正係数候補Gc(C
H)を求める。
Next, data stock and delayed data are extracted (step S54). Update the stock data for the past few seconds (1 second in this case) from the present,
As a result, delay data MD (CH) and RD (CH) are obtained. Then, it is determined whether or not it is in the voice section (step S5
5) If it is not a voice section, delay data that does not include a delayed voice component is stocked to create a correction coefficient candidate (step S56). Specifically, when it is not in the voice section, the obtained delay data MD (CH), RD (CH) is used as the correction coefficient calculation data, and the correction coefficient calculation stock data is updated. Then, cumulative values ΣMD (CH), ΣRD (CH) for the past one second that does not include a voice component
And the correction coefficient candidate Gc (C
H) is calculated.

【0095】[0095]

【数9】補正係数候補Gc(CH)を求めた後、0.5
秒ごとに補正係数の更新を行う(ステップS57)。す
なわち、カウンタを設定して、音声区間でないときにこ
のカウンタをインクリメントし、0.5秒ごとに補正係
数候補Gc(CH)を補正係数G(CH)として更新す
る。さらに更新した補正係数の調整を行う(ステップS
58)。この調整は、遅延音声成分を含まない遅延デー
タMD(CH)の累計値ΣMD(CH)を利用して、調
整量αを調整量決定ルールより求め、オールパスフィル
タ(CH0)13aの補正係数をG′(0)(=G
(0)・α)とする。
## EQU9 ## After obtaining the correction coefficient candidate Gc (CH), 0.5
The correction coefficient is updated every second (step S57). That is, a counter is set, this counter is incremented when it is not in the voice section, and the correction coefficient candidate Gc (CH) is updated as the correction coefficient G (CH) every 0.5 seconds. Further, the updated correction coefficient is adjusted (step S
58). This adjustment uses the cumulative value ΣMD (CH) of the delay data MD (CH) that does not include the delayed voice component to obtain the adjustment amount α from the adjustment amount determination rule, and the correction coefficient of the all-pass filter (CH0) 13a is G ′ (0) (= G
(0) · α).

【0096】図11は第3及び後述する第4の発明の音
声認識装置における補正係数の調整量決定ルールを表す
図である。図11において、横軸は遅延データMD(C
H)の累計値ΣMD(CH)の数であり、縦軸は調整量
αである。累計値の数が200まではαは1であり、2
00から400まではαは1.3となり、累計値に応じ
てαの値が増加する。このように、図11に示す調整量
決定ルールにおけるαの値は常に1以上であり、次の処
理である調整量の修正のため、予め減算量が多めになる
ように設定されている。
FIG. 11 is a diagram showing a rule for determining the adjustment amount of the correction coefficient in the voice recognition device of the third and fourth inventions described later. In FIG. 11, the horizontal axis represents the delay data MD (C
H) is the number of cumulative values ΣMD (CH), and the vertical axis is the adjustment amount α. Α is 1 until the number of accumulated values is 200, and 2
From 00 to 400, α becomes 1.3, and the value of α increases according to the cumulative value. As described above, the value of α in the adjustment amount determination rule shown in FIG. 11 is always 1 or more, and the subtraction amount is set to be larger in advance for the adjustment of the adjustment amount in the next process.

【0097】補正係数の修正処理(ステップS59)に
おいては、CH0のオーディオ成分の減算時に、減算結
果が負となった場合に、減算量が多すぎることを示す減
算量過多フラグを立て、音声区間以外の過去一定時間
(この場合3秒間とする)の累計値を計算する。例え
ば、1フレーム10msとした場合、累計値が300で
あれば完全に減算のし過ぎであるということが解る。こ
のような場合には、調整量αをディクリメントして修正
することにより減算のし過ぎを回避できる。
In the correction processing of the correction coefficient (step S59), when the subtraction result is negative when subtracting the audio component of CH0, an excessive subtraction amount flag indicating that the subtraction amount is too large is set, The cumulative value of the past constant time (in this case, 3 seconds) other than is calculated. For example, when 1 frame is set to 10 ms, it can be understood that if the cumulative value is 300, the subtraction is excessively complete. In such a case, it is possible to avoid oversubtraction by decrementing and adjusting the adjustment amount α.

【0098】この場合のルールは、 累計値>285 ならば 調整量のディクリメント 累計値<250 ならば 調整量のインクリメント とし、累計データが3秒間データであるため、この判断
も3秒ごとに行う。
In this case, the rule is that if the accumulated value is> 285, the adjustment amount is decremented. If the accumulated value is <250, the adjustment amount is incremented. Since the accumulated data is data for 3 seconds, this determination is also made every 3 seconds. .

【0099】ステップS55において音声区間でない場
合には、オーディオ騒音成分の減算処理を行う(ステッ
プS60)。この減算処理は、更新された補正係数G
(CH)と遅延データMD(CH),RD(CH)とを
用いて、(数8)により音声信号SD(CH)を抽出
し、その減算データを出力する(ステップS61)。
If it is not in the voice section in step S55, subtraction processing of the audio noise component is performed (step S60). This subtraction process is performed with the updated correction coefficient G
Using (CH) and the delay data MD (CH) and RD (CH), the audio signal SD (CH) is extracted by (Equation 8), and the subtracted data is output (step S61).

【0100】この実施例による効果は、オーディオ騒音
レベルの変動に応じて補正係数を更新できることであ
る。
The effect of this embodiment is that the correction coefficient can be updated according to the fluctuation of the audio noise level.

【0101】通常、オーディオ騒音レベルが大きくなる
と推定誤差が生じるため、オーディオ騒音の残留データ
が多く残ってしまい、音声認識部における音声区間の検
出誤りが多くなる。そこで、本実施例の発明を適用する
ことにより、オーディオ騒音レベルが大きいときは上記
調整量決定ルールに従い、オールパスフィルタにおいて
多めに減算することにより、音声区間の検出誤りを少な
くすることができる。
Usually, when the audio noise level becomes large, an estimation error occurs, so that a large amount of residual data of audio noise remains and the detection error of the voice section in the voice recognition unit increases. Therefore, by applying the invention of this embodiment, when the audio noise level is high, a large amount of subtraction is performed in the all-pass filter in accordance with the adjustment amount determination rule, so that the detection error of the voice section can be reduced.

【0102】一方、オーディオ騒音レベルが小さいとき
には、オーディオ騒音の残留レベルは少ないので、多く
減算し過ぎると音声区間が狭まるために類似度が低下す
る。かかる場合には、調整量決定ルールに従い、オール
パスフィルタにおいて少なめになるように減算すること
により、類似度を高くすることができる。
On the other hand, when the audio noise level is low, the residual level of the audio noise is low, and if too much subtraction is performed, the voice section becomes narrow and the similarity decreases. In such a case, according to the adjustment amount determination rule, the degree of similarity can be increased by subtracting so that the all-pass filter is reduced.

【0103】次にこの発明の第2の実施例について説明
する。
Next, a second embodiment of the present invention will be described.

【0104】第2の実施例の特徴は、第1の実施例と同
様に、更新した補正係数に対して、さらに所定の調整量
を乗ずることにある。もっともこの実施例の場合には補
正係数の修正は行わない点が第1の実施例と異なる。
The feature of the second embodiment resides in that the updated correction coefficient is further multiplied by a predetermined adjustment amount, as in the first embodiment. However, this embodiment is different from the first embodiment in that the correction coefficient is not modified.

【0105】図12はこの第3の発明の第2の実施例に
おける音声認識装置のCPU15の動作を示すフローチ
ャートである。このフローチャート及び図3に基づい
て、この第2の実施例の動作を説明する。
FIG. 12 is a flow chart showing the operation of the CPU 15 of the voice recognition device in the second embodiment of the third invention. The operation of the second embodiment will be described based on this flowchart and FIG.

【0106】まず、音声認識部21からのチャンネル選
択信号CSをモニタし、ラッチ回路14及び20へラッ
チタイミング信号を供給し(ステップS71)、並び
に、ラッチ回路14及び20からCPU15への取り込
みタイミングをつくり、データM(CH),R(CH)
を取り込む(ステップS72)。
First, the channel selection signal CS from the voice recognition section 21 is monitored, a latch timing signal is supplied to the latch circuits 14 and 20 (step S71), and the timing of fetching from the latch circuits 14 and 20 to the CPU 15 is determined. Structure, data M (CH), R (CH)
Is taken in (step S72).

【0107】この取り込んだデータより音声区間の検出
を行う(ステップS73)。この検出は、オールパスフ
ィルタ13aから得られた更新前の補正係数G0(0)
を利用し、(数6)を満たすデータにより、音声の始端
とする。
The voice section is detected from the fetched data (step S73). This detection is performed by the correction coefficient G0 (0) before update obtained from the all-pass filter 13a.
Is used as the start point of the voice by the data satisfying (Equation 6).

【0108】[0108]

【数6】音声区間はこの音声始端から2.6秒間(音声
認識装置の最大音声区間長)とする。
## EQU00006 ## The voice section is set to 2.6 seconds (maximum voice section length of the voice recognition device) from this voice start end.

【0109】次に、データのストックと遅延データの取
り出しを行う(ステップS74)。現在より過去数秒間
(この場合1秒間とする)のストックデータを更新し、
これにより遅延データMD(CH),RD(CH)を得
る。そして音声区間か否かを判別して(ステップS7
5)、音声区間でない場合には、遅延音声成分を含まな
い遅延データをストックして補正係数の候補を作成する
(ステップS76)。具体的には、音声区間でないとき
に、得られた遅延データMD(CH),RD(CH)を
補正係数計算用データとして、補正係数計算用ストック
データを更新する。そして、音声成分が含まれていない
過去1秒間分の累計値ΣMD(CH),ΣRD(CH)
を用いて下記の(数9)により、補正係数候補Gc(C
H)を求める。
Next, the data stock and the delayed data are taken out (step S74). Update the stock data for the past few seconds (1 second in this case) from the present,
As a result, delay data MD (CH) and RD (CH) are obtained. Then, it is determined whether or not it is in the voice section (step S7).
5) If it is not in the voice section, delay data that does not include the delayed voice component is stocked to create correction coefficient candidates (step S76). Specifically, when it is not in the voice section, the obtained delay data MD (CH), RD (CH) is used as the correction coefficient calculation data, and the correction coefficient calculation stock data is updated. Then, cumulative values ΣMD (CH), ΣRD (CH) for the past one second that does not include a voice component
And the correction coefficient candidate Gc (C
H) is calculated.

【0110】[0110]

【数9】補正係数候補Gc(CH)を求めた後、0.5
秒ごとに補正係数の更新を行う(ステップS77)。す
なわち、カウンタを設定して、音声区間でないときにこ
のカウンタをインクリメントし、0.5秒ごとに補正係
数候補Gc(CH)を補正係数G(CH)として更新す
る。さらに更新した補正係数の調整を行う(ステップS
78)。この調整は、遅延音声成分を含まない遅延デー
タMD(CH)の累計値ΣMD(CH)を利用して、調
整量αを調整量決定ルールより求め、オールパスフィル
タ(CH0)13aの補正係数をG′(0)(=G
(0)・α)とする。調整量決定ルールは第4の実施例
と同じく図9に示す通りである。
## EQU9 ## After obtaining the correction coefficient candidate Gc (CH), 0.5
The correction coefficient is updated every second (step S77). That is, a counter is set, this counter is incremented when it is not in the voice section, and the correction coefficient candidate Gc (CH) is updated as the correction coefficient G (CH) every 0.5 seconds. Further, the updated correction coefficient is adjusted (step S
78). This adjustment uses the cumulative value ΣMD (CH) of the delay data MD (CH) that does not include the delayed voice component to obtain the adjustment amount α from the adjustment amount determination rule, and the correction coefficient of the all-pass filter (CH0) 13a is G ′ (0) (= G
(0) · α). The adjustment amount determination rule is as shown in FIG. 9 as in the fourth embodiment.

【0111】ステップS75において音声区間でない場
合には、オーディオ騒音成分の減算処理を行う(ステッ
プS79)。この減算処理は、更新された補正係数G
(CH)と遅延データMD(CH),RD(CH)とを
用いて、(数8)により音声信号SD(CH)を抽出
し、その減算データを出力する(ステップS80)。
When it is not in the voice section in step S75, the subtraction process of the audio noise component is performed (step S79). This subtraction process is performed with the updated correction coefficient G
Using (CH) and the delay data MD (CH) and RD (CH), the audio signal SD (CH) is extracted by (Equation 8), and the subtracted data is output (step S80).

【0112】[0112]

【数8】この実施例による効果は、オーディオ騒音レベ
ルの変動に応じて補正係数を更新できることである。
## EQU00008 ## The effect of this embodiment is that the correction coefficient can be updated according to the fluctuation of the audio noise level.

【0113】通常、オーディオ騒音レベルが大きくなる
と推定誤差が生じるため、オーディオ騒音の残留データ
が多く残ってしまい、音声認識部における音声区間の検
出誤りが多くなる。そこで、本実施例の発明を適用する
ことにより、オーディオ騒音レベルが大きいときは上記
調整量決定ルールに従い、オールパスフィルタにおいて
多めに減算することにより、音声区間の検出誤りを少な
くすることができる。
Usually, when the audio noise level becomes high, an estimation error occurs, so that a large amount of residual data of audio noise remains, resulting in a large number of detection errors in the voice section in the voice recognition unit. Therefore, by applying the invention of this embodiment, when the audio noise level is high, a large amount of subtraction is performed in the all-pass filter in accordance with the adjustment amount determination rule, so that the detection error of the voice section can be reduced.

【0114】一方、オーディオ騒音レベルが小さいとき
には、オーディオ騒音の残留レベルは少ないので、多く
減算し過ぎると音声区間が狭まるために類似度が低下す
る。かかる場合には、調整量決定ルールに従い、オール
パスフィルタにおいて少なめになるように減算すること
により、類似度を高くすることができる。
On the other hand, when the audio noise level is low, the residual level of the audio noise is low, and if too much is subtracted, the voice section is narrowed and the similarity decreases. In such a case, according to the adjustment amount determination rule, the degree of similarity can be increased by subtracting so that the all-pass filter is reduced.

【0115】4.第4の発明の実施例について説明す
る。
4. An embodiment of the fourth invention will be described.

【0116】この発明の特徴は、特に車両等の移動体内
に設置された音声認識装置において、オーディオ騒音環
境下における音声認識装置の認識率の低下を防ぐため
に、既知オーディオ信号を基準信号として適応的にオー
ディオ騒音成分を除去する方式での、車両の走行騒音の
重畳時における対策を行うことにある。
The feature of the present invention is that a known audio signal is adaptively used as a reference signal in order to prevent a reduction in the recognition rate of the speech recognition device in an audio noise environment, especially in a speech recognition device installed in a moving body such as a vehicle. In particular, it is to take measures against the superposition of vehicle running noise by a method of removing audio noise components.

【0117】この実施例の音声認識装置のブロック図
も、図3に示す第2の発明の実施例の構成と同じ構成で
あり、その説明は省略する。
The block diagram of the voice recognition apparatus of this embodiment also has the same configuration as that of the embodiment of the second invention shown in FIG. 3, and the description thereof will be omitted.

【0118】図3において、マイク11から入力される
メイン信号maは、下記の(数10)で表される。
In FIG. 3, the main signal ma input from the microphone 11 is represented by the following (Equation 10).

【0119】[0119]

【数10】 ここで、saは発生者からの音声をうけて、マイク11
で電気信号として出力される音声信号であり、マイク1
1の変換特性が加わったものである。また、oaはオー
ディオ装置16から送出されるオーディオ信号である。
さらに、gはオーディオ信号oaがスピーカ17の変換
特性により音に変換され、その発生された音が伝播して
マイク11に到達するまでに受ける伝送特性である。ま
た、naは車両の走行騒音成分である。
[Equation 10] Here, sa receives the voice from the generator, and the microphone 11
Is a voice signal output as an electric signal by the microphone 1
The conversion characteristic of 1 is added. Further, oa is an audio signal transmitted from the audio device 16.
Further, g is a transmission characteristic in which the audio signal oa is converted into sound by the conversion characteristic of the speaker 17, and the generated sound is propagated and reaches the microphone 11. Further, na is a running noise component of the vehicle.

【0120】入力信号(ma,oa)を周波数解析しデ
ジタル化したデータ、M(CH),R(CH)を用いる
と、(数10)は次の(数11)で表すことができる。
Using data (M (CH), R (CH)) obtained by frequency-analyzing and digitizing the input signal (ma, oa), (Equation 10) can be expressed by the following (Equation 11).

【0121】[0121]

【数11】 もっともこの(数11)はアナログ信号をデジタル化し
てるために生ずる誤差により、左項と右項とは必ずしも
完全に等しくはならない。この式において、S(CH)
は音声信号saをデジタル化したデータであり、G(C
H)はR(CH)に乗じてメイン信号M(CH)に含ま
れる音声信号成分S(CH)を予測するための補正係数
である。また、N(CH)は走行騒音成分naをデジタ
ル化したデータである。
[Equation 11] However, in this (Equation 11), the left term and the right term are not always completely equal due to an error caused by digitizing the analog signal. In this formula, S (CH)
Is data obtained by digitizing the audio signal sa, and G (C
H) is a correction coefficient for multiplying R (CH) to predict the audio signal component S (CH) included in the main signal M (CH). N (CH) is data obtained by digitizing the traveling noise component na.

【0122】この(数11)により、走行音声成分N
(CH)を含む音声信号S(CH)は次に示す(数1
2)で表される。
From this (Equation 11), the running voice component N
The audio signal S (CH) including (CH) is shown below (Equation 1)
It is represented by 2).

【0123】[0123]

【数12】 この(数12)により、メイン信号M(CH)に含まれ
る音声信号S(CH)及び走行騒音成分N(CH)の合
成成分が予測できる。
[Equation 12] From this (Equation 12), the composite component of the audio signal S (CH) and the running noise component N (CH) included in the main signal M (CH) can be predicted.

【0124】この補正係数G(CH)は、周波数分解能
であるチャンネル数nが大であるならば、音声が発生さ
れていないとき、かつ、走行騒音がゼロのときのM(C
H)とR(CH)との比により推測可能である。すなわ
ち、S(CH)=0、N(CH)=0とすると、M(C
H)=R(CH)・G(CH)となり、補正係数G(C
H)は、M(CH)/R(CH)と表すことができるか
らである。
This correction coefficient G (CH) is M (C) when no sound is generated and when the running noise is zero if the number of channels n, which is the frequency resolution, is large.
It can be estimated from the ratio of H) and R (CH). That is, if S (CH) = 0 and N (CH) = 0, then M (C
H) = R (CH) · G (CH), and the correction coefficient G (C
This is because H) can be represented as M (CH) / R (CH).

【0125】ここで、変動騒音及び基準信号に含まれな
い定常騒音の環境下において、G(CH)をいかに精度
良く推定できるかが重要となる。
Here, it is important how accurately G (CH) can be estimated under the environment of fluctuating noise and steady noise not included in the reference signal.

【0126】この場合、音声認識部21が定常騒音を除
去する機能を有するとすると、音声成分に定常騒音であ
る走行騒音を含んでいても良いので、音声認識部21に
供給するデータは、S(CH)+N(CH)で良い。な
お、音声認識部が定常騒音を除去する方式は、単一マイ
クによるS.S法とする。
In this case, assuming that the voice recognition unit 21 has a function of removing the stationary noise, the voice component may include traveling noise which is the stationary noise. Therefore, the data supplied to the speech recognition unit 21 is S. (CH) + N (CH) is sufficient. The method in which the voice recognition unit removes stationary noise is S. S method.

【0127】図13は第4の発明の実施例における音声
認識装置のCPU15の動作を表すフローチャートであ
る。このフローチャート及び図3に基づいて、この第4
の発明の実施例の動作を説明する。
FIG. 13 is a flow chart showing the operation of the CPU 15 of the voice recognition device in the embodiment of the fourth invention. Based on this flowchart and FIG. 3, this fourth
The operation of the embodiment of the invention will be described.

【0128】まず、音声認識部21からのチャンネル選
択信号CSをモニタし、ラッチ回路14及び20へラッ
チタイミング信号を供給し(ステップS81)、並び
に、ラッチ回路14及び20からCPU15への取り込
みタイミングをつくり、データM(CH),R(CH)
を取り込む(ステップS82)。
First, the channel selection signal CS from the voice recognition section 21 is monitored, the latch timing signal is supplied to the latch circuits 14 and 20 (step S81), and the fetch timing from the latch circuits 14 and 20 to the CPU 15 is determined. Structure, data M (CH), R (CH)
Is taken in (step S82).

【0129】この取り込んだデータより音声区間の検出
を行う(ステップS83)。この検出は、オールパスフ
ィルタ13aから得られた更新前の補正係数G0(0)
を利用し、(数6)を満たすデータにより、音声の始端
とする。なおこの場合のトリガレベルは固定値である。
The voice section is detected from the fetched data (step S83). This detection is performed by the correction coefficient G0 (0) before update obtained from the all-pass filter 13a.
Is used as the start point of the voice by the data satisfying (Equation 6). The trigger level in this case is a fixed value.

【0130】[0130]

【数6】音声区間はこの音声始端から2.6秒間(音声
認識装置の最大音声区間長)とする。
## EQU00006 ## The voice section is set to 2.6 seconds (maximum voice section length of the voice recognition device) from this voice start end.

【0131】次に、データのストックと遅延データの取
り出しを行う(ステップS84)。現在より過去数秒間
(この場合1秒間とする)のストックデータを更新し、
これにより遅延データMD(CH),RD(CH)を得
る。そして音声区間か否かを判別して(ステップS8
5)、音声区間でない場合には、遅延音声成分を含まな
い遅延データをストックして補正係数の候補を作成する
(ステップS86)。具体的には、音声区間でないとき
に、得られた遅延データMD(CH),RD(CH)を
補正係数計算用データとして、補正係数計算用ストック
データを更新する。そして、音声成分が含まれていない
過去1秒間分の累計値ΣMD(CH),ΣRD(CH)
を用いて下記の(数9)により、補正係数候補Gc(C
H)を求める。
Next, data stock and delayed data are taken out (step S84). Update the stock data for the past few seconds (1 second in this case) from the present,
As a result, delay data MD (CH) and RD (CH) are obtained. Then, it is determined whether or not it is a voice section (step S8).
5) If it is not in the voice section, the delay data not including the delayed voice component is stocked to create a correction coefficient candidate (step S86). Specifically, when it is not in the voice section, the obtained delay data MD (CH), RD (CH) is used as the correction coefficient calculation data, and the correction coefficient calculation stock data is updated. Then, cumulative values ΣMD (CH), ΣRD (CH) for the past one second that does not include a voice component
And the correction coefficient candidate Gc (C
H) is calculated.

【0132】[0132]

【数9】次に、各種フラグの設定を行う(ステップS8
7)。この場合のフラグとしては、走行騒音環境下であ
るかどうかのフラグ(N−FLAG)、及び、音楽騒音
環境下であるかどうかのフラグ(M−FLAG)を設定
する。
Next, various flags are set (step S8).
7). As the flags in this case, a flag (N-FLAG) indicating whether the vehicle is in a running noise environment and a flag (M-FLAG) indicating whether a vehicle is in a music noise environment are set.

【0133】N−FLAGの設定は、ステップS86で
得られたCH1の遅延音声成分を含まないデータの累計
値ΣMD(1),ΣRD(1)と、走行音声成分を含ま
ない30秒間の累計値ΣMD(1),ΣRD(1)のさ
らに累計値ΣΣMD(1),ΣΣRD(1)(これにつ
いては後述する)を用い、次の(数13)を満たす場合
にN−FLAGをたてる。
The setting of N-FLAG is performed by accumulating the cumulative values ΣMD (1) and ΣRD (1) of the data not including the delayed voice component of CH1 obtained at step S86 and the cumulative value for 30 seconds not including the traveling voice component. Further, cumulative values ΣΣMD (1) and ΣΣRD (1) of ΣMD (1) and ΣRD (1) (which will be described later) are used, and N-FLAG is set when the following (Equation 13) is satisfied.

【0134】[0134]

【数13】 M−FLAGの設定は、ステップS86で得られたCH
0リファレンス信号の遅延音声成分を含まないデータの
累計値ΣRD(0)を用い、次の(数14)を満たす場
合にM−FLAGをたてる。
[Equation 13] M-FLAG is set by the CH obtained in step S86.
The cumulative value ΣRD (0) of data that does not include the delayed audio component of the 0 reference signal is used, and M-FLAG is calculated when the following (Equation 14) is satisfied.

【0135】[0135]

【数14】 以下、N−FLAGがたっている場合をNF=1、たっ
ていない場合をNF=0と表し、M−FLAGがたって
いる場合をMF=1、たっていない場合をMF=0と表
す。
[Equation 14] Hereinafter, the case where N-FLAG is accumulated is represented as NF = 1, the case where N-FLAG is not accumulated is represented as NF = 0, the case where M-FLAG is accumulated is represented as MF = 1, and the case where M-FLAG is not accumulated is represented as MF = 0.

【0136】その後、これら2つのフラグを判定して、
補正係数の更新(ステップS88)、補正係数の調整
(ステップS89)、補正係数の修正(ステップS9
0)を行う。補正係数の更新については、NF=0,M
F=1の場合には、カウンタを設定し、音声区間でない
ときにカウンタをインクリメントし、一定時間(この場
合、0.5秒)おきにG(CH)=Gc(CH)として
補正係数を更新する。
After that, these two flags are judged,
Update of correction coefficient (step S88), adjustment of correction coefficient (step S89), correction of correction coefficient (step S9)
0) is performed. For updating the correction coefficient, NF = 0, M
When F = 1, the counter is set, the counter is incremented when it is not in the voice section, and the correction coefficient is updated as G (CH) = Gc (CH) at regular time intervals (0.5 seconds in this case). To do.

【0137】さらに、30秒平均補正係数の計算を行
う。すなわち、ステップS86で得られた遅延音声成分
を含まないデータの累計値ΣMD(CH),ΣRD(C
H)を一定時間(この場合、0.5秒間)ごとにストッ
クし、同時に過去30秒間のさらなる累計値ΣΣMD
(CH),ΣΣRD(CH)を求める。ここで求めたC
H0の累計値が(数13)に用いられるデータとなる。
Further, the 30-second average correction coefficient is calculated. That is, the accumulated values ΣMD (CH) and ΣRD (C of the data not including the delayed voice component obtained in step S86
H) is stocked at regular intervals (0.5 seconds in this case), and at the same time, a further cumulative value ΣΣMD for the past 30 seconds.
(CH) and ΣΣRD (CH) are obtained. C obtained here
The cumulative value of H0 becomes the data used in (Equation 13).

【0138】NF=1,MF=1の場合には、次の(数
15)により補正係数を決定する。
When NF = 1 and MF = 1, the correction coefficient is determined by the following (Equation 15).

【0139】[0139]

【数15】 補正係数の調整についても2つのフラグの値によってそ
れぞれ異なる調整を行い、NF=0,MF=1の場合に
は、メイン信号の遅延音声成分を含まないデータの累計
値ΣMD(0)を利用して、調整量αを図9の調整量決
定ルールより求め、オールパスフィルタ(CH0)13
aの補正係数をG′(0)(=G(0)・α)とする。
ここで調整量決定ルールは、次の調整量の修正のため予
め減算量が多めになるように設定されている。
[Equation 15] The adjustment of the correction coefficient is also performed differently depending on the values of the two flags. When NF = 0 and MF = 1, the cumulative value ΣMD (0) of the data that does not include the delayed audio component of the main signal is used. Then, the adjustment amount α is obtained from the adjustment amount determination rule of FIG. 9, and the all-pass filter (CH0) 13
Let the correction coefficient of a be G '(0) (= G (0) · α).
Here, the adjustment amount determination rule is set in advance so that the subtraction amount is increased in order to correct the next adjustment amount.

【0140】一方、NF=1,MF=1の場合には、メ
イン信号の遅延音声成分を含まないデータの累計値ΣM
D(0)には走行騒音成分が含まれるため、次の(数1
6)によりΣMD(0)の推定値ΣMD inf(0)を求
める。
On the other hand, when NF = 1 and MF = 1, the cumulative value ΣM of data not including the delayed audio component of the main signal
Since D (0) contains a running noise component, the following (Equation 1)
The estimated value ΣMD inf (0) of ΣMD (0) is obtained by 6).

【0141】[0141]

【数16】 その後、NF=0,MF=1の場合と同様に、調整量α
を図9の調整量決定ルールより求め、オールパスフィル
タ(CH0)13aの補正係数をG′(0)(=G
(0)・α)とする。
[Equation 16] Then, as in the case of NF = 0 and MF = 1, the adjustment amount α
From the adjustment amount determination rule of FIG. 9, and the correction coefficient of the all-pass filter (CH0) 13a is G ′ (0) (= G
(0) · α).

【0142】次に、補正係数の修正については、M−F
LAGのみに注目し、MF=1の場合に調整量の修正を
行う。CH0のオーディオ成分の減算時に、減算結果が
負となった場合に、減算量が多すぎることを示す減算量
過多フラグを立て、音声区間以外の過去一定時間(この
場合3秒間とする)の累計値を計算する。例えば、1フ
レーム10msとした場合、累計値が300であれば完
全に減算のし過ぎであるということが解る。このような
場合には、調整量αをディクリメントして修正すること
により減算のし過ぎを回避できる。
Next, regarding the correction of the correction coefficient, MF
Focusing only on LAG, when MF = 1, the adjustment amount is corrected. When the subtraction result becomes negative when subtracting the audio component of CH0, an excessive subtraction amount flag is set to indicate that the subtraction amount is too large, and the cumulative past past time (3 seconds in this case) other than the voice section is accumulated. Calculate the value. For example, when 1 frame is set to 10 ms, it can be understood that if the cumulative value is 300, the subtraction is excessively complete. In such a case, it is possible to avoid oversubtraction by decrementing and adjusting the adjustment amount α.

【0143】この場合のルールは、 累計値>285 ならば 調整量のディクリメント 累計値<250 ならば 調整量のインクリメント とし、累計データが3秒間データであるため、この判断
も3秒ごとに行う。
The rule in this case is that if the cumulative value> 285, the adjustment amount is decremented. If the cumulative value <250, the adjustment amount is incremented. Since the cumulative data is 3 seconds data, this judgment is also made every 3 seconds. .

【0144】ステップS85において音声区間でない場
合には、フラグの設定をして(ステップS91)、オー
ディオ騒音成分の減算処理を行う(ステップS92)。
この減算処理は、更新された補正係数G(CH)と遅延
データMD(CH),RD(CH)とを用いて、(数
8)により音声信号SD(CH)を抽出し、その減算デ
ータを出力する(ステップS93)。
If it is not in the voice section in step S85, a flag is set (step S91) and an audio noise component subtraction process is performed (step S92).
In this subtraction process, the audio signal SD (CH) is extracted by (Equation 8) using the updated correction coefficient G (CH) and the delay data MD (CH) and RD (CH), and the subtracted data is extracted. Output (step S93).

【0145】この第4の発明の実施例によれば、既知雑
音環境下の適応型S.S法において、音声成分に走行騒
音が重畳した場合であっても、適正な補正係数でオーデ
ィオ騒音成分を除去し、走行騒音除去に対しては音声認
識部の機能をそのまま利用することができる。
According to the fourth embodiment of the present invention, the adaptive S.V. In the S method, even when the running noise is superimposed on the voice component, the audio noise component is removed with an appropriate correction coefficient, and the function of the voice recognition unit can be used as it is for the running noise removal.

【0146】第2の発明の第3の実施例における音声認
識装置の音声始端を検出する様子を示す図である。
FIG. 27 is a diagram showing how a voice start edge of the voice recognition device in the third embodiment of the second invention is detected.

【0147】5.第5ないし第7の発明の実施例につい
て説明する。
5. Embodiments of the fifth to seventh inventions will be described.

【0148】第5ないし第7の発明は、それぞれ、上記
第1ないし第4の発明における音声トリガレベルの決定
方法、走行騒音判定レベルの決定方法、及び、補正係数
の調整量の決定方法をファジィ推論により行うものであ
る。
The fifth to seventh inventions are a fuzzy method for determining the voice trigger level, a method for determining the running noise determination level, and a method for determining the adjustment amount of the correction coefficient, respectively, in the first to fourth inventions. It is based on inference.

【0149】なお、これらの実施例のシステム構成は図
3のブロック図と同一であるのでその説明は省略する。
図14は第5ないし第7の発明における音声トリガレベ
ルの決定方法、走行騒音判定レベルの決定方法、及び、
補正係数の調整量の決定方法をファジィ推論により行っ
た場合の、CPU15の動作を表すフローチャートであ
る。
Since the system configurations of these embodiments are the same as those in the block diagram of FIG. 3, the description thereof will be omitted.
FIG. 14 is a method for determining a voice trigger level, a method for determining a running noise determination level according to the fifth to seventh inventions, and
9 is a flowchart showing the operation of the CPU 15 when the method of determining the adjustment amount of the correction coefficient is performed by fuzzy inference.

【0150】図3及び図14において、音声認識部21
のCH信号をモニタし、それからラッチ回路14及び2
0のラッチタイミングとCPU15の取り込みタイミン
グをつくり、データ(M(CH),R(CH))を取り
込む(ステップS101)。次に、ファジィ推論によ
り、音声トリガレベルを決定して音声区間を検出する
(ステップS102)。この場合、更新前の補正係数を
G0(CH)としてこれをを利用し、
In FIG. 3 and FIG. 14, the voice recognition unit 21
Monitor the CH signal and then latch circuits 14 and 2
The latch timing of 0 and the fetch timing of the CPU 15 are created to fetch the data (M (CH), R (CH)) (step S101). Next, the voice trigger level is determined by fuzzy inference to detect the voice section (step S102). In this case, the correction coefficient before update is used as G0 (CH),

【0151】[0151]

【数6】を音声の始端とする。音声区間は音声始端から
2.6秒間(これは音声認識装置の最大音声区間長)と
する。この場合、上記第2ないし第4の発明と同様、音
声始端からすなわち現在から過去数秒間(この場合1秒
間)のストックデータをRAMから読み出して、遅延デ
ータMD(CH)、RD(CH)を得る。そして音声区
間かどうかを判別し(ステップS103)、音声区間で
ない場合には、遅延データMD(CH)、RD(CH)
を補正係数の計算用データとして補正係数計算用ストッ
クデータを更新する。そして音声成分未含有の遅延デー
タの過去1秒間の累計値であるΣMD(CH)とΣRD
(CH)とを計算し、補正係数の候補Gc(CH)を、
Let [Equation 6] be the beginning of the voice. The voice section is 2.6 seconds from the beginning of the voice (this is the maximum voice section length of the voice recognition device). In this case, similarly to the second to fourth inventions, stock data from the voice start end, that is, from the present time to the past several seconds (in this case, one second) is read from the RAM and delay data MD (CH) and RD (CH) are obtained. obtain. Then, it is determined whether or not it is a voice section (step S103). If it is not a voice section, delay data MD (CH), RD (CH)
The stock data for calculating the correction coefficient is updated by using as the calculation data for the correction coefficient. Then, ΣMD (CH) and ΣRD, which are the cumulative values of the delay data not containing the voice component in the past 1 second.
(CH) and calculate the correction coefficient candidate Gc (CH) as

【0152】[0152]

【数9】より作成する。Created from

【0153】そして音響騒音すなわちオーディオ騒音成
分があるかどうかを判別する(ステップS104)。そ
の判別結果に応じて音響騒音環境下であるかどうかのフ
ラグ(これを「M FLAG」と称する)を設定する。
この設定は、CH0リファレンス信号の遅延音声成分未
含有データの累計値ΣRD(1)を用い、
Then, it is judged whether or not there is an acoustic noise, that is, an audio noise component (step S104). A flag indicating whether or not the environment is an acoustic noise environment (this is referred to as "M FLAG") is set according to the determination result.
This setting uses the cumulative value ΣRD (1) of the delayed voice component-free data of the CH0 reference signal,

【0154】[0154]

【数14】の条件を満たしたときにM FLAGをたて
る。
When the condition of [Equation 14] is satisfied, M FLAG is set.

【0155】オーディオ騒音成分があるときは走行騒音
があるかどうかを、ファジィ推論により判別する(ステ
ップS105)。その判別結果に応じて走行騒音環境下
であるかどうかのフラグ(これを「N FLAG」と称
する)を設定する。この設定において、走行騒音判定レ
ベルはファジィ推論により判別するが(ステップS10
5)、このとき、前回求めた音響騒音レベルΣMD
(0)を用いて決定する。そして、CH1の遅延音声成
分未含有データの累計値ΣMD(1)、ΣRD(1)
と、走行騒音成分の含まれない30秒間の累計値(これ
については後述する)を用い、
When there is an audio noise component, it is determined by fuzzy inference whether or not there is running noise (step S105). A flag indicating whether or not the vehicle is in a traveling noise environment (this is referred to as "N FLAG") is set according to the determination result. In this setting, the running noise determination level is determined by fuzzy inference (step S10).
5), at this time, the acoustic noise level ΣMD obtained last time
Determine using (0). Then, the cumulative values ΣMD (1) and ΣRD (1) of the delayed voice component-free data of CH1.
And a cumulative value for 30 seconds that does not include a running noise component (this will be described later),

【0156】[0156]

【数13】の条件を満たしたときにN FLAGをたて
る。
When the condition of [Equation 13] is satisfied, N FLAG is set.

【0157】M FLAGがたっていて、N FLAG
がたっていない場合には、適応的に補正係数を更新する
(ステップS106)。具体的には、カウンタを設定
し、音声区間でないときにこのカウンタを進ませ、かつ
数ミリ秒(この場合、0.5秒)おきにG(CH)=G
c(CH)として補正係数を更新する。さらにステップ
S103で得られた遅延音声成分未含有データの累積値
(ΣMD(CH),ΣRD(CH))を数秒間毎(ここ
では0.5秒)にストックし、同時に過去30秒間の更
なる累積値(ΣΣMD(CH),ΣΣRD(CH))を
求める。そしてファジィ推定により調整量の決定及び修
正を行い(ステップS107)、さらに決定あるいは修
正した調整量により減算処理を行い(ステップS10
8)、その減算結果を出力する(ステップS109)。
M FLAG is on, N FLAG
If not, the correction coefficient is adaptively updated (step S106). Specifically, a counter is set, this counter is advanced when it is not in the voice section, and G (CH) = G every few milliseconds (0.5 seconds in this case).
The correction coefficient is updated as c (CH). Further, the cumulative value (ΣMD (CH), ΣRD (CH)) of the delayed voice component-free data obtained in step S103 is stocked every few seconds (here, 0.5 seconds), and at the same time, the further 30 seconds have passed. Cumulative values (ΣΣMD (CH), ΣΣRD (CH)) are obtained. Then, the adjustment amount is determined and corrected by fuzzy estimation (step S107), and the subtraction process is further performed by the determined or corrected adjustment amount (step S10).
8) and outputs the subtraction result (step S109).

【0158】一方、M FLAG及びN FLAGがと
もにたっている場合には、ステップS106で求めた遅
延音声成分未含有データの過去30秒間の累計値である
ΣΣMD(CH)、ΣΣRD(CH)を用いて、次式、
On the other hand, when both M FLAG and N FLAG are present, ΣΣMD (CH) and ΣΣRD (CH) which are the cumulative values of the delayed voice component non-containing data obtained in step S106 for the past 30 seconds are used. , The following equation,

【数15】により補正係数を更新する(ステップS11
0)。その更新した補正係数によりパラメータを推定し
(ステップS111)、ファジィ推論により調整量の決
定と修正を行い(ステップS107)、その決定あるい
は修正した調整量により減算処理を行い(ステップS1
08)、その減算結果を出力する(ステップS10
9)。なお、、ステップS103において音声区間であ
る場合、及びステップS104においてオーディオ騒音
成分がない場合には、調整量の決定及び修正を行うこと
なくステップS108に移行して減算処理を行う。
The correction coefficient is updated by the following equation (15) (step S11).
0). The parameter is estimated by the updated correction coefficient (step S111), the adjustment amount is determined and corrected by fuzzy reasoning (step S107), and the subtraction process is performed by the determined or corrected adjustment amount (step S1).
08), and outputs the subtraction result (step S10).
9). If it is a voice section in step S103 and if there is no audio noise component in step S104, the process proceeds to step S108 without performing the adjustment amount determination and correction, and the subtraction process is performed.

【0159】第5の発明による音声トリガレベル決定方
法を説明する。図15にステップS102における音声
トリガレベルを決定するためのファジィ推論方法を示
す。すなわち、第4の発明の実施例においては、固定値
の音声トリガレベルにより音声区間を検出したが、本発
明においては、図15のファジィルールに基づいて音声
トリガレベルを決定する。
A method for determining a voice trigger level according to the fifth aspect of the invention will be described. FIG. 15 shows a fuzzy inference method for determining the voice trigger level in step S102. That is, in the embodiment of the fourth invention, the voice section is detected by the fixed value voice trigger level, but in the present invention, the voice trigger level is determined based on the fuzzy rule of FIG.

【0160】適応型S.S.方式は、前処理的に減算を
行った結果に基づいて音声始端を決定する方式であるた
め、前処理的に減算を行った結果を参照して、本方式の
音声トリガレベル決定のファジィルールを作成した。こ
のファジィルールは、MAX−MIN重心法による方法
である。この重心法とは、各ルール(この場合、ルール
1ないし6)ごとに推論結果を求め、各ルールにおける
推論結果を総合して、その重心としてルール全体の推論
結果を得る方法である。図16は、図15のファジィル
ールに対応した減算結果を示すものであり、ルール1〜
6が各々図16(a)〜(f)の場合を想定している。
すなわち、残留レベルに応じて音声トリガレベルを調整
している。
Adaptive S. S. Since the method determines the voice start edge based on the result of preprocessing subtraction, refer to the result of preprocessing subtraction to determine the fuzzy rule for determining the audio trigger level of this method. Created. This fuzzy rule is a method based on the MAX-MIN centroid method. The centroid method is a method of obtaining an inference result for each rule (in this case, rules 1 to 6), combining the inference results in each rule, and obtaining the inference result of the entire rule as its centroid. FIG. 16 shows a result of subtraction corresponding to the fuzzy rule shown in FIG.
It is assumed that 6 is shown in FIGS. 16 (a) to 16 (f).
That is, the voice trigger level is adjusted according to the residual level.

【0161】本発明のファジィ推論による音声トリガレ
ベル決定方法により、次にような効果が得られる。
The following effects can be obtained by the method for determining a voice trigger level by fuzzy inference according to the present invention.

【0162】1.音響騒音レベルと走行騒音レベルに応
じて音声トリガレベルを決定することが可能となり、残
留成分が大きい時にはその残留成分でトリガが掛かる事
の無いようにトリガレベルを大きくし、残留成分が少な
い時には比較的発声レベルが低い発声者に対して発声音
に音声トリガが掛かり難くなることの無いようトリガレ
ベルを小さくする事により、適応型S.S.方式の効果
を向上させることが可能となった。
1. It is possible to determine the voice trigger level according to the acoustic noise level and the running noise level. When the residual component is large, increase the trigger level so that the residual component will not trigger, and when the residual component is small, compare The adaptive S.I.S. S. It has become possible to improve the effect of the method.

【0163】2.ファジィ推論を利用することにより、
通常の制御では難しかった複数のパラメータ(ここでは
音響騒音レベルと走行騒音レベルの2パラメータ)によ
る制御ルールの作成、調整が容易となった。
2. By using fuzzy reasoning,
It has become easy to create and adjust a control rule based on a plurality of parameters (here, two parameters of the acoustic noise level and the running noise level) that were difficult to achieve by normal control.

【0164】3.該発明のファジィルールは6つのルー
ルで示されるが、ファジィ推論による補間効果により、
中間的な値に対しても適切な制御が可能となり、きめ細
かい制御が可能となった。
3. The fuzzy rule of the invention is shown by six rules, but due to the interpolation effect by fuzzy inference,
Appropriate control is possible even for intermediate values, and fine control is possible.

【0165】4.ロンバート効果を考えると、騒音レベ
ルが低い状態(結果として本方式による騒音の残留レベ
ルが小さい場合、例えば図16(d))では同一話者で
も発声レベルは低くなる。又、その逆の場合にはロンバ
ート効果により発声レベルは高くなる。よって、ロンバ
ート効果による音声レベルの変動にも本方式はマッチし
ている。
4. Considering the Lombard effect, in the state where the noise level is low (as a result, when the residual level of noise according to this method is small, for example, FIG. 16D), the utterance level is low even for the same speaker. In the opposite case, the Lombard effect raises the vocalization level. Therefore, this method matches the fluctuation of the voice level due to the Lombard effect.

【0166】次に、第6の発明である走行騒音判定レベ
ル決定方法について説明する。図17に図14のステッ
プS105における走行騒音の有無を判定するための、
走行騒音判定フラグのしきい値決定ルールを示す。ルー
ル全体の推論結果の計算はMAX−MIN重心法によ
る。
Next, a traveling noise determination level determining method according to the sixth aspect of the present invention will be described. In FIG. 17, for determining the presence or absence of running noise in step S105 of FIG.
The threshold value determination rule of a running noise determination flag is shown. Calculation of the inference result of the entire rule is based on the MAX-MIN centroid method.

【0167】図13におけるフラグ設定においては、走
行騒音を判定してフラグを立てるしきい値が固定であっ
た。この固定値は、音響騒音レベルが有る程度小さい時
に、走行騒音が音響騒音よりも支配的になる走行騒音レ
ベルの手前の走行騒音レベルを採用していた。しかし実
際には、音響騒音レベルがかなり大きいと、走行騒音が
音響騒音よりも支配的となる走行騒音レベルは上方にシ
フトする。
In the flag setting in FIG. 13, the threshold value for determining the running noise and setting the flag is fixed. As this fixed value, when the acoustic noise level is small to some extent, the traveling noise level before the traveling noise level at which the traveling noise becomes dominant over the acoustic noise is adopted. However, in reality, when the acoustic noise level is considerably high, the traveling noise level in which the traveling noise becomes dominant over the acoustic noise shifts upward.

【0168】そのため、必要以上に走行騒音レベルが低
い位置で補正係数の更新及び学習がなされなくなり、適
応的な処理の効果が低減してしまった。そこで、ファジ
ィ推論により、音響レベルに応じて走行騒音判定フラグ
のしきい値を決定する。
Therefore, the correction coefficient is not updated and learned at a position where the traveling noise level is lower than necessary, and the effect of adaptive processing is reduced. Therefore, the threshold value of the running noise determination flag is determined according to the sound level by fuzzy inference.

【0169】このルールは音響騒音と走行騒音とがどち
らが支配的となるかを考慮している。つまり、音響騒音
レベルが「かなり大きい」時には全般的に音響騒音が支
配的となり易く、走行騒音が支配的となる走行騒音レベ
ルはかなり上方に位置するため、走行騒音判定フラグの
しきい値も「かなり大きい」とする。
This rule considers which of acoustic noise and running noise is dominant. In other words, when the acoustic noise level is “substantially high”, the acoustic noise generally tends to be dominant, and the traveling noise level at which the traveling noise is dominant is located considerably above. Therefore, the threshold value of the traveling noise determination flag is also “ It's quite large. "

【0170】逆に、音響騒音レベルが「有る程度小さ
い」時には、走行騒音が支配的となり易く、その走行騒
音レベルは低いレベルに位置されるため、走行騒音判定
フラグのしきい値は「小さい」とする。
On the other hand, when the acoustic noise level is "small to some extent", the traveling noise is likely to be dominant and the traveling noise level is located at a low level, so the threshold value of the traveling noise judgment flag is "small". And

【0171】この第6の発明によれば、ファジィ推論に
より、音響騒音レベルに応じて走行騒音判定フラグのし
きい値を決定することが可能となり、適応型S.S.方
式の効果を向上させることができる。
According to the sixth aspect of the present invention, it is possible to determine the threshold value of the running noise determination flag according to the acoustic noise level by fuzzy inference, and the adaptive S.I. S. The effect of the method can be improved.

【0172】また、この発明の調整量決定ルールは音響
騒音レベルに応じて2つのルールで示されるが、ファジ
ィ推論による補間効果により、中間的な値に対しても適
切な制御が可能となり、きめ細かい制御が可能となっ
た。
Further, although the adjustment amount determination rule of the present invention is shown by two rules according to the acoustic noise level, the interpolation effect by the fuzzy reasoning makes it possible to appropriately control even an intermediate value, and to perform fine adjustment. Control became possible.

【0173】次に、第7の発明であるファジィ推論によ
る調整量決定方法について説明する。図18は図14の
ステップS108における調整量を決定するための調整
量決定ルールを示す。また、図19は走行騒音レベルに
より減算量を変化させた場合の減算結果を示す図であ
る。図19(a)は走行騒音レベルが「かなり大きい」
時の通常の減算量の場合の減算結果を示し、図19
(b)は走行騒音レベルが「ある程度大きい」時に減算
量を少な目にした場合の減算結果を示し、図19(c)
は走行騒音レベルが「ある程度大きい」時に減算量を多
目にした場合の減算結果を示す。また、図20は走行騒
音レベル及び音響騒音レベルと調整量との関係の概略を
示す図である。この図20でaは走行騒音レベルが「小
さい」時の図18におけるルール1及びルール2による
もので、bは走行騒音レベルが「ある程度大き」い時の
ルール1及びルール3によるもので、cは走行騒音レベ
ルが「かなり大きい」時のルール1及びルール4による
ものである。
Next, a method of determining an adjustment amount by fuzzy inference according to the seventh invention will be described. FIG. 18 shows an adjustment amount determination rule for determining the adjustment amount in step S108 of FIG. Further, FIG. 19 is a diagram showing a subtraction result when the subtraction amount is changed according to the traveling noise level. In FIG. 19 (a), the traveling noise level is "very high".
19 shows the subtraction result in the case of the normal subtraction amount at
FIG. 19B shows the subtraction result when the subtraction amount is small when the traveling noise level is “somewhat high”, and FIG.
Indicates the subtraction result when the amount of subtraction is increased when the running noise level is “somewhat high”. Further, FIG. 20 is a diagram schematically showing the relationship between the traveling noise level and the acoustic noise level and the adjustment amount. In FIG. 20, a is based on the rules 1 and 2 in FIG. 18 when the running noise level is “small”, b is based on the rules 1 and 3 when the running noise level is “somewhat high”, and c Is due to Rule 1 and Rule 4 when the running noise level is "significantly high".

【0174】図18における調整量決定ルールの方式は
第3及び第4の発明における調整量決定ルールをさらに
改良したものである。このファジィルールは、MAX−
MIN重心法による方法である。
The method of the adjustment amount determination rule in FIG. 18 is a further improvement of the adjustment amount determination rule in the third and fourth inventions. This fuzzy rule is MAX-
It is a method based on the MIN centroid method.

【0175】ルール1は走行騒音レベルにかかわらず、
音響騒音レベルが「かなり小さい」時には、調整量を
「小さい」に設定する。
Rule 1 is that regardless of the running noise level,
When the acoustic noise level is "quite low", the adjustment amount is set to "low".

【0176】ルール2は走行騒音レベルが「小さい」時
で、且つ、音響騒音レベルが「大き目」の時には、調整
量を「大きい」に設定する。
Rule 2 sets the adjustment amount to "high" when the traveling noise level is "low" and when the acoustic noise level is "high".

【0177】ルール3は走行レベルが「ある程度大き
い」時で、且つ、音響騒音レベルが「大き目」の時に
は、調整量を「かなり大きい」に設定する。
Rule 3 sets the adjustment amount to "substantially large" when the traveling level is "somewhat large" and the acoustic noise level is "large".

【0178】ルール4は走行騒音レベルが「かなり大き
い」時で、且つ、音響騒音レベルが「大き目」の時に
は、調整量を「大き目」に設定する。
Rule 4 sets the adjustment amount to "large" when the running noise level is "quite large" and the acoustic noise level is "large".

【0179】このファジィルールは以下のような効果を
期待して作成されたものである。
This fuzzy rule is created with the expectation of the following effects.

【0180】1.走行騒音が「ある程度大きい」が、音
響騒音に対して余り支配的でない程度の環境下では、走
行騒音レベルが「小さい」時より調整量を大き目に設定
することで騒音成分を多目に減算した方が効果がある。
これは、騒音成分の推定誤差が大きい走行騒音重畳時に
は音響騒音成分が残り易い為、少な目に減算し走行騒音
成分+音響騒音の残留成分を残すよりも(図19(b)
参照)、多目に減算し走行騒音成分も減算してしまい走
行騒音の残留成分を残した方が、図20−cに示すよう
に、認識部での音声トリガが掛かり難くなるためであ
る。
1. In an environment where the running noise is “somewhat loud” but not so dominant to the acoustic noise, the noise component is subtracted to a large extent by setting the adjustment amount to a larger value than when the running noise level is “small”. Is more effective.
This is because the acoustic noise component is likely to remain when the traveling noise is superimposed with a large estimation error of the noise component, so that it is less subtracted to leave the traveling noise component + the residual component of the acoustic noise (FIG. 19B).
This is because it is more difficult to trigger the voice trigger in the recognition unit when the residual component of the traveling noise is left by subtracting the traveling noise component and subtracting the traveling noise component, as shown in FIG. 20-c.

【0181】2.走行騒音が「かなり大きい」状態で、
音響騒音よりも支配的である環境下では、音響騒音が走
行騒音に埋もれる状態となるために(図19(a)参
照)、減算量は少な目でよい。
2. When the driving noise is "quite loud",
In an environment in which the acoustic noise is dominant over the acoustic noise, the acoustic noise is buried in the traveling noise (see FIG. 19A), and thus the subtraction amount may be small.

【0182】結局、走行騒音レベルに応じた音響騒音レ
ベルと調整量との関係は図20に示すごとく設定され、
上記の効果が期待できる。
After all, the relationship between the acoustic noise level and the adjustment amount according to the running noise level is set as shown in FIG.
The above effects can be expected.

【0183】[0183]

【発明の効果】上記各実施例で明らかなように、第1の
発明ないし第7の発明により、以下のような効果を得る
ことができる。
As is apparent from the above embodiments, the following effects can be obtained by the first to seventh inventions.

【0184】1.第1の発明の効果 この発明によれば、非音声区間のメイン信号及びリファ
レンス信号から、常に最新の補正係数を求めることによ
り、急激に変化するオーディオ騒音等の非定常雑音にも
対応することができ、さほど急激なオーディオ騒音の変
化がない場合には、フィルタの収束時間を短くすること
ができる効果がある。また、DSP等のような高速演算
処理を可能とする高価な処理装置を必要とすることもな
い。
1. EFFECTS OF THE FIRST INVENTION According to the present invention, by always obtaining the latest correction coefficient from the main signal and the reference signal in the non-voice section, it is possible to deal with non-stationary noise such as abruptly changing audio noise. If the audio noise does not change so much, the convergence time of the filter can be shortened. Further, there is no need for an expensive processing device capable of high-speed arithmetic processing such as DSP.

【0185】さらに、リファレンス信号に音声信号が含
まれることがないので、推定誤差を少なくすることがで
き、オーディオ騒音環境下においても高い音声認識が可
能となる。
Further, since the reference signal does not include the voice signal, the estimation error can be reduced and the high voice recognition can be performed even in the audio noise environment.

【0186】2.第2の発明の効果 第2の発明の効果としては以下に述べるものがある。2. Effects of the Second Invention The effects of the second invention are as follows.

【0187】1)オーディオ騒音が大きい場合でも、更
新前補正係数を利用した減算データによって、予めある
程度のオーディオ騒音成分を除去しているので、音声信
号の始端の検出誤差を小さくすることができる。
1) Even if the audio noise is large, the audio noise component is removed to some extent in advance by the subtraction data using the pre-update correction coefficient, so that the detection error at the beginning of the audio signal can be reduced.

【0188】2)音声区間を自動的に検出するので、ユ
ーザが発声のたびにキー入力等の操作を行う負担を解消
することができる。
2) Since the voice section is automatically detected, it is possible to eliminate the burden of the user performing an operation such as key input each time the user speaks.

【0189】3)音声信号のレベルが小さいために推定
誤りによるオーディオ騒音成分の残留成分が存在する場
合でも、音声信号を検出するスレッショルドレベルを大
きく設定することにより、オーディオ騒音による音声区
間の誤検出を少なくすることができ、補正係数の適正値
を求めることができる。したがって、音声認識部のスレ
ッショルドレベルに依存することがない。
3) Even if there is a residual component of audio noise component due to an estimation error because the level of the voice signal is small, the threshold level for detecting the voice signal is set to a large value, thereby erroneously detecting the voice section due to the audio noise. Can be reduced and an appropriate value of the correction coefficient can be obtained. Therefore, it does not depend on the threshold level of the voice recognition unit.

【0190】4)極めて単純な方法であるため、リアル
タイム処理が可能となる。
4) Real-time processing is possible because of the extremely simple method.

【0191】3.第3の発明の効果 この発明の効果は、オーディオ騒音レベルの変動に応じ
て補正係数を更新できることである。
3. Effect of the third invention The effect of the present invention is that the correction coefficient can be updated according to the fluctuation of the audio noise level.

【0192】通常、オーディオ騒音レベルが大きくなる
と推定誤差が生じるため、オーディオ騒音の残留データ
が多く残ってしまい、音声認識部における音声区間の検
出誤りが多くなる。そこで、本実施例の発明を適用する
ことにより、オーディオ騒音レベルが大きいときは上記
調整量決定ルールに従い、オールパスフィルタにおいて
多めに減算することにより、音声区間の検出誤りを少な
くすることができる。
Usually, when the audio noise level becomes large, an estimation error occurs, so that a large amount of residual data of the audio noise remains and the detection error of the voice section in the voice recognition unit increases. Therefore, by applying the invention of this embodiment, when the audio noise level is high, a large amount of subtraction is performed in the all-pass filter in accordance with the adjustment amount determination rule, so that the detection error of the voice section can be reduced.

【0193】一方、オーディオ騒音レベルが小さいとき
には、オーディオ騒音の残留レベルは少ないので、多く
減算し過ぎると音声区間が狭まるために類似度が低下す
る。かかる場合には、調整量決定ルールに従い、オール
パスフィルタにおいて少なめになるように減算すること
により、類似度を高くすることができる。
On the other hand, when the audio noise level is low, the residual level of the audio noise is low, and if too much subtraction is performed, the voice section becomes narrow and the similarity decreases. In such a case, according to the adjustment amount determination rule, the degree of similarity can be increased by subtracting so that the all-pass filter is reduced.

【0194】4.第4の発明の効果 この発明によれば、既知雑音環境下の適応型スペクトル
・サブトラクション方式において、音声成分に走行騒音
が重畳した場合であっても、適正な補正係数でオーディ
オ騒音成分を除去し、走行騒音除去に対しては音声認識
部の機能をそのまま利用することができるという効果が
ある。
4. EFFECTS OF FOURTH INVENTION According to the present invention, in the adaptive spectral subtraction method under the known noise environment, even when the running noise is superposed on the voice component, the audio noise component is removed with the appropriate correction coefficient. The function of the voice recognition unit can be used as it is for removing the traveling noise.

【0195】5.第5の発明の効果 第5の発明によれば次のような効果がある。5. Effects of Fifth Invention According to the fifth invention, there are the following effects.

【0196】1)該発明のファジィ推論により、音響騒
音レベルと走行騒音レベルに応じて音声トリガレベルを
決定することが可能となり、残留成分が大きい時にはそ
の残留成分でトリガが掛かる事の無いようにトリガレベ
ルを大きくし、残留成分が少ない時には比較的発声レベ
ルが低い発声者に対して発声音に音声トリガが掛かり難
くなることの無いよう、トリガレベルを小さくする事に
より、適応型S.S.方式の効果を向上させることがで
きた。
1) The fuzzy inference of the present invention makes it possible to determine the voice trigger level according to the acoustic noise level and the running noise level, and when the residual component is large, the residual component does not trigger. By increasing the trigger level and reducing the trigger level so as not to make it difficult for the utterer having a relatively low voicing level to easily trigger the voicing sound when the residual component is small, the adaptive S.I. S. The effect of the method could be improved.

【0197】2)ファジィ推論を利用することにより、
通常の制御では難しかった複数のパラメータ(ここでは
音響騒音レベルと走行騒音レベルの2パラメータ)によ
る制御ルールの作成、調整が容易となった。
2) By using fuzzy inference,
It has become easy to create and adjust a control rule based on a plurality of parameters (here, two parameters of the acoustic noise level and the running noise level) that were difficult to achieve by normal control.

【0198】3)該発明のファジィルールは6つのルー
ルで示されるが、ファジィ推論による補間効果により、
中間的な値に対しても適切な制御が可能となり、きめ細
かい制御が可能となった。
3) The fuzzy rule of the present invention is shown by six rules, but due to the interpolation effect by fuzzy inference,
Appropriate control is possible even for intermediate values, and fine control is possible.

【0199】4)ロンバート効果を考えると、騒音レベ
ルが低い状態(結果として本方式による騒音の残留レベ
ルが小さい場合(例えば第2図−d))では同一話者で
も発声レベルは低くなる。又、その逆の場合にはロンバ
ート効果により発声レベルは高くなる。よって、ロンバ
ート効果による音声レベルの変動にも本方式はマッチし
ている。
4) Considering the Lombard effect, when the noise level is low (as a result, the residual level of noise according to this method is small (for example, FIG. 2D)), the utterance level is low even for the same speaker. In the opposite case, the Lombard effect raises the vocalization level. Therefore, this method matches the fluctuation of the voice level due to the Lombard effect.

【0200】6.第6の発明の効果 第6の発明によれば次のような効果がある。6. Effects of Sixth Invention According to the sixth invention, there are the following effects.

【0201】1)該発明のファジイ推論により、音響騒
音レベルに応じて走行騒音判定フラグのしきい値を決定
することが可能となり、従来方式よりも適応型S.S.
方式の効果を向上させることが出来た。
1) By the fuzzy inference of the present invention, it becomes possible to determine the threshold value of the running noise determination flag according to the acoustic noise level, which is more adaptive than the conventional system. S.
The effect of the method was able to be improved.

【0202】2)該発明の調整量決定ルールは音響騒音
レベルに応じて2つのルールで示されるが、ファジィ推
論による補間効果により、中間的な値に対しても適切な
制御が可能となり、きめ細かい制御が可能となった。
2) The adjustment amount determination rule of the present invention is shown by two rules according to the acoustic noise level, but due to the interpolation effect by fuzzy reasoning, appropriate control is possible even for intermediate values, and fine adjustment is possible. Control became possible.

【0203】7.第7の発明の効果 第7の発明によれば次のような効果がある。7. Effects of Seventh Invention According to the seventh invention, there are the following effects.

【0204】1)ファジィ推論により、音響騒音レベル
と走行騒音レベルに応じて調整量を決定することが可能
となり、ある程度走行騒音がある時には通常よりも調整
量を大き目にすることにより多めに減算し、走行騒音が
大きい時には通常よりも調整量を小さ目にすることによ
り少な目に減算する事により、従来方式よりも適応型
S.S.方式の効果を向上させることが出来た。
1) By fuzzy reasoning, it becomes possible to determine the adjustment amount according to the acoustic noise level and the running noise level. When there is running noise to some extent, the adjustment amount is made larger than usual and the subtraction amount is increased. , When the driving noise is large, the adjustment amount is made smaller than usual to reduce the adjustment amount to a smaller amount, so that the adaptive S.S. S. The effect of the method was able to be improved.

【0205】2)ファジィ推論を利用することにより、
通常の制御では難しかった複数のパラメータ(ここでは
音響騒音レベルと走行騒音レベルの2パラメータ)によ
る制御ルールの作成、調整が容易となった。
2) By using fuzzy inference,
It has become easy to create and adjust a control rule based on a plurality of parameters (here, two parameters of the acoustic noise level and the running noise level) that were difficult to achieve by normal control.

【0206】3)該発明の調整量決定ルールは音響騒音
レベルが「大き目」の場合には3つのルールで示される
が、ファジィ推論による補間効果により、中間的な値に
対しても適切な制御が可能となり、きめ細かい制御が可
能となった。
3) The adjustment amount determination rule of the present invention is shown by three rules when the acoustic noise level is "large". However, due to the interpolation effect by fuzzy reasoning, appropriate control is performed even for intermediate values. It became possible, and fine control became possible.

【図面の簡単な説明】[Brief description of drawings]

【図1】第1の発明の実施例における音声認識装置のブ
ロック図である。
FIG. 1 is a block diagram of a voice recognition device in an embodiment of the first invention.

【図2】図1に示す音声認識装置のCPU15の動作を
表すフローチャートである。
FIG. 2 is a flowchart showing an operation of a CPU 15 of the voice recognition device shown in FIG.

【図3】第2の発明の第1の実施例における音声認識装
置のブロック図である。
FIG. 3 is a block diagram of a voice recognition device in a first embodiment of the second invention.

【図4】図3に示す音声認識装置の音声始端を検出する
様子を示す図である。
FIG. 4 is a diagram showing how a voice start end of the voice recognition device shown in FIG. 3 is detected.

【図5】第2の発明の第1の実施例における音声認識装
置のCPU15の動作を表すフローチャートである。
FIG. 5 is a flowchart showing an operation of a CPU 15 of the voice recognition device in the first exemplary embodiment of the second invention.

【図6】(a)は発声のたびに毎回補正係数を更新した
場合のオーディオ成分の残留分を示す図である。(b)
は一定時間ごとに補正係数を更新した場合のオーディオ
成分の残留分を示す図である。
FIG. 6A is a diagram showing a residual amount of an audio component when a correction coefficient is updated every time a voice is uttered. (B)
[Fig. 6] is a diagram showing a residual amount of audio components when a correction coefficient is updated at regular intervals.

【図7】第2の発明の第2の実施例における音声認識装
置の動作を表すフローチャートである。
FIG. 7 is a flowchart showing an operation of the voice recognition device in the second exemplary embodiment of the second invention.

【図8】第2の発明の第3の実施例における音声認識装
置のCPU15の動作を表すフローチャートである。
FIG. 8 is a flowchart showing an operation of a CPU 15 of the voice recognition device in the third exemplary embodiment of the second invention.

【図9】[Figure 9]

【図10】第3の発明の第1の実施例における音声認識
装置のCPU15の動作を表すフローチャートである。
FIG. 10 is a flowchart showing an operation of the CPU 15 of the voice recognition device in the first exemplary embodiment of the third invention.

【図11】第3及び第4の発明の音声認識装置における
補正係数の調整量決定ルールを表す図である。
FIG. 11 is a diagram showing an adjustment amount determination rule of a correction coefficient in the voice recognition device of the third and fourth inventions.

【図12】第3の発明の第2の実施例における音声認識
装置のCPU15の動作を表すフローチャートである。
FIG. 12 is a flowchart showing the operation of the CPU 15 of the voice recognition device in the second exemplary embodiment of the third invention.

【図13】第4の発明の実施例における音声認識装置の
CPU15の動作を表すフローチャートである。
FIG. 13 is a flowchart showing an operation of the CPU 15 of the voice recognition device in the embodiment of the fourth invention.

【図14】第5ないし第7の発明における音声トリガレ
ベルの決定方法、走行騒音判定レベルの決定方法、及
び、補正係数の調整量の決定方法をファジィ推論により
行った場合の、CPU15の動作を表すフローチャート
である。
FIG. 14 shows the operation of the CPU 15 when the method of determining the voice trigger level, the method of determining the running noise determination level, and the method of determining the adjustment amount of the correction coefficient in the fifth to seventh inventions are performed by fuzzy inference. It is a flowchart showing.

【図15】図14のステップS102における音声トリ
ガレベルを決定するためのファジィ推論方法を示す図で
ある。
15 is a diagram showing a fuzzy inference method for determining a voice trigger level in step S102 of FIG.

【図16】図15のファジィルールに対応した減算結果
を示す図である。
16 is a diagram showing a result of subtraction corresponding to the fuzzy rule of FIG.

【図17】図14のステップS105における走行騒音
の有無を判定するための走行騒音判定フラグのしきい値
決定ルールを示す図である。
FIG. 17 is a diagram showing a threshold value determination rule of a traveling noise determination flag for determining the presence or absence of traveling noise in step S105 of FIG.

【図18】図14のステップS108における調整量を
決定するための調整量決定ルールを示す図である。
FIG. 18 is a diagram showing an adjustment amount determination rule for determining an adjustment amount in step S108 of FIG.

【図19】走行騒音レベルにより減算量を変化させた場
合の減算結果を示す図である。
FIG. 19 is a diagram showing a subtraction result when the subtraction amount is changed according to the traveling noise level.

【図20】走行騒音レベル及び音響騒音レベルと調整量
との関係の概略を示す図である。
FIG. 20 is a diagram showing an outline of a relationship between a traveling noise level and an acoustic noise level and an adjustment amount.

【図21】従来の音声認識装置のブロック図である。FIG. 21 is a block diagram of a conventional voice recognition device.

【符号の説明】[Explanation of symbols]

11 マイク 13 フィルタバンク 15 CPU 16 オーディオ装置 18 アンプ 19 フィルタバンク 21 音声認識部(認識手段) 22 登録辞書 Reference Signs List 11 microphone 13 filter bank 15 CPU 16 audio device 18 amplifier 19 filter bank 21 voice recognition unit (recognition means) 22 registration dictionary

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 発声者からの音声信号に騒音成分が混在
したメイン信号から前記騒音成分を除去して予め登録し
た比較音声信号と照合して前記音声信号の認識を行う音
声認識装置であって、 前記騒音成分に基づいて基準信号を生成する手段と、 前記メイン信号に前記音声信号が含まれる音声区間か、
含まれない非音声区間かを判別する音声区間判別手段
と、 前記非音声区間において前記メイン信号に基づいて補正
係数を生成しかつ更新する補正係数更新手段と、 前記音声区間において前記基準信号に前記補正係数を乗
じた値を前記メイン信号から減算する演算手段と、 該演算手段から得られる演算結果と前記比較音声信号と
を照合して音声認識を行う認識手段と、を備えたことを
特徴とする音声認識装置。
1. A voice recognition device for recognizing a voice signal by removing the noise component from a main signal in which a voice signal from a speaker is mixed with a noise component and comparing the voice signal with a comparative voice signal registered in advance. A means for generating a reference signal based on the noise component, a voice section in which the voice signal is included in the main signal,
A voice section discriminating means for discriminating a non-voice section which is not included; a correction coefficient updating means for generating and updating a correction coefficient based on the main signal in the non-voice section; A calculation means for subtracting a value multiplied by a correction coefficient from the main signal; and a recognition means for performing voice recognition by collating the calculation result obtained from the calculation means with the comparative voice signal. Voice recognition device.
【請求項2】 前記メイン信号から前記基準信号に更新
前の補正係数を乗じた値を減算した減算結果が所定値よ
り大となるときを前記音声信号の暫定音声始端とする音
声始端検出手段と、 一定時間前の過去のメイン信号及び基準信号から遅延メ
イン信号及び遅延基準信号を生成する手段と、 前記遅延メイン信号に基づいて確定音声始端を決定して
前記音声区間を判別する音声区間判別手段と、 前記遅延メイン信号及び遅延基準信号の過去一定時間の
累計値の比から補正係数を生成しかつ更新する補正係数
更新手段と、 前記音声区間において前記遅延基準信号に前記補正係数
を乗じた値を前記遅延メイン信号から減算する演算手段
と、を備えたことを特徴とする請求項1記載の音声認識
装置。
2. A voice start edge detecting means for setting a temporary voice start edge of the voice signal when a subtraction result obtained by subtracting a value obtained by multiplying the reference signal by a correction coefficient before updating from the main signal is larger than a predetermined value. A means for generating a delayed main signal and a delayed reference signal from a past main signal and a reference signal before a fixed time, and a voice section determination means for determining a fixed voice start end based on the delayed main signal and determining the voice section A correction coefficient updating means for generating and updating a correction coefficient from a ratio of cumulative values of the delayed main signal and the delayed reference signal in a certain past time; and a value obtained by multiplying the delayed reference signal by the correction coefficient in the voice section. The speech recognition apparatus according to claim 1, further comprising: an arithmetic unit that subtracts from the delayed main signal.
【請求項3】 前記遅延メイン信号及び遅延基準信号の
過去一定時間の累計値の比から補正係数候補を生成する
手段と、 一定時間ごとに前記補正係数候補を更新する補正係数更
新手段と、 遅延音声信号を含まない遅延メイン信号を利用して所定
の調整量決定ルールに基づいて前記補正係数を調整する
補正係数調整手段と、 調整された補正係数を修正する補正係数修正手段と、を
備えたことを特徴とする請求項2記載の音声認識装置。
3. A means for generating a correction coefficient candidate from a ratio of cumulative values of the delayed main signal and the delay reference signal in the past fixed time, a correction coefficient updating means for updating the correction coefficient candidate at fixed time intervals, and a delay. A correction coefficient adjusting unit that adjusts the correction coefficient based on a predetermined adjustment amount determination rule by using a delayed main signal that does not include an audio signal, and a correction coefficient correcting unit that corrects the adjusted correction coefficient are provided. The voice recognition device according to claim 2, wherein
【請求項4】 前記遅延メイン信号及び遅延基準信号の
過去一定時間の累計値の比から補正係数候補を生成する
手段と、 前記騒音成分が音楽騒音を含むか否かをかつ前記騒音成
分が車両の走行騒音を含むか否かを判別する騒音成分判
別手段と、 前記騒音成分が前記音楽騒音のみを含むときは、一定時
間ごとに前記補正係数候補の値を補正係数として更新
し、前記騒音成分が前記音楽騒音及び走行騒音を含むと
きは、前記遅延メイン信号及び遅延基準信号の累計値の
過去一定時間の累計値の比を補正係数とする補正係数更
新手段と、 前記騒音成分が前記音楽騒音のみを含むときは、所定の
調整量決定ルールに基づいて前記補正係数を調整し、前
記騒音成分が前記音楽騒音及び走行騒音を含むときは、
前記演算手段から得られる推定メイン信号を利用して前
記所定の調整量決定ルールに基づいて前記補正係数を調
整する補正係数調整手段と、 前記騒音成分が前記音楽騒音を含むときは、調整された
補正係数を修正する補正係数修正手段と、を備えたこと
を特徴とする請求項2記載の音声認識装置。
4. A means for generating a correction coefficient candidate from a ratio of cumulative values of the delayed main signal and the delayed reference signal for a certain past time, and whether or not the noise component includes musical noise and the noise component is a vehicle. Noise component discriminating means for discriminating whether or not the traveling noise is included, and when the noise component includes only the music noise, the value of the correction factor candidate is updated as a correction factor at fixed time intervals, and the noise component When the includes the music noise and the running noise, a correction coefficient updating unit that uses a ratio of a cumulative value of the cumulative values of the delayed main signal and the delayed reference signal for a certain past time as a correction coefficient, and the noise component is the musical noise. When including only, the correction coefficient is adjusted based on a predetermined adjustment amount determination rule, and when the noise component includes the music noise and running noise,
Correction coefficient adjusting means for adjusting the correction coefficient based on the predetermined adjustment amount determination rule using the estimated main signal obtained from the calculating means; and when the noise component includes the music noise, the adjustment is made. 3. The voice recognition device according to claim 2, further comprising a correction coefficient correction unit that corrects the correction coefficient.
【請求項5】 発声者からの音声信号成分に騒音成分が
混在した入力信号から当該騒音成分を除去して前記発声
者の音声を認識する騒音環境での音声認識方法であっ
て、 前記入力信号からファジィ推論により音声区間を検出
し、この音声区間に前記騒音成分が混在しているか否か
を判別して、当該判別結果に応じて前記音声信号成分を
予測する補正計数の更新を行い、当該更新した補正計数
の調整を行い、当該調整された補正計数に基づいて減算
処理を行い、当該減算結果を前記音声信号成分として音
声認識を行うことを特徴とする騒音環境での音声認識方
法。
5. A voice recognition method in a noise environment for recognizing a voice of the speaker by removing the noise component from an input signal in which a noise component is mixed with a voice signal component from the speaker, the input signal From this, a voice section is detected by fuzzy inference, it is determined whether or not the noise component is mixed in this voice section, and the correction count for predicting the voice signal component is updated according to the determination result, A voice recognition method in a noise environment, characterized in that the updated correction count is adjusted, subtraction processing is performed based on the adjusted correction count, and voice recognition is performed using the subtraction result as the voice signal component.
【請求項6】 発声者からの音声信号成分に音響騒音成
分及び走行騒音成分が混在した入力信号から当該騒音成
分を除去して前記発声者の音声を認識する騒音環境での
音声認識方法であって、 前記入力信号から音声区間を検出し、この音声区間に前
記走行騒音成分が混在しているか否かをファジィ推論に
より判別して、当該判別結果に応じて前記音声信号成分
を予測する補正計数の更新を行い、当該更新した補正計
数の調整を行い、当該調整された補正計数に基づいて減
算処理を行い、当該減算結果を前記音声信号成分として
音声認識を行うことを特徴とする騒音環境での音声認識
方法。
6. A voice recognition method in a noise environment for recognizing a voice of the speaker by removing the noise component from an input signal in which an acoustic noise component and a running noise component are mixed in a voice signal component from the speaker. A correction count for detecting a voice section from the input signal, determining by fuzzy inference whether or not the running noise component is mixed in the voice section, and predicting the voice signal component according to the determination result. In the noise environment characterized by performing the adjustment of the updated correction count, performing subtraction processing based on the adjusted correction count, and performing voice recognition using the subtraction result as the voice signal component. Voice recognition method.
【請求項7】 発声者からの音声信号成分に騒音成分が
混在した入力信号から当該騒音成分を除去して前記発声
者の音声を認識する音声認識方法であって、 前記入力信号から音声区間を検出し、この音声区間に前
記騒音成分が混在しているか否かを判別して、当該判別
結果に応じて前記音声信号成分を予測する補正計数の更
新を行い、ファジィ推論により当該更新した補正計数の
調整を行い、当該調整された補正計数に基づいて減算処
理を行い、当該減算結果を前記音声信号成分として音声
認識を行うことを特徴とする騒音環境での音声認識方
法。
7. A voice recognition method for recognizing a voice of the speaker by removing the noise component from an input signal in which a noise component is mixed with a voice signal component from the speaker, wherein a voice section is recognized from the input signal. Detecting and determining whether or not the noise component is mixed in this voice section, updating the correction count predicting the voice signal component according to the determination result, and updating the correction count by fuzzy inference. Is performed, subtraction processing is performed based on the adjusted correction count, and voice recognition is performed using the subtraction result as the voice signal component.
JP10216494A 1993-04-20 1994-04-15 Voice recognition device and voice recognition method Expired - Fee Related JP3526911B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10216494A JP3526911B2 (en) 1993-04-20 1994-04-15 Voice recognition device and voice recognition method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11526593 1993-04-20
JP5-115265 1993-04-20
JP10216494A JP3526911B2 (en) 1993-04-20 1994-04-15 Voice recognition device and voice recognition method

Publications (2)

Publication Number Publication Date
JPH075895A true JPH075895A (en) 1995-01-10
JP3526911B2 JP3526911B2 (en) 2004-05-17

Family

ID=26442899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10216494A Expired - Fee Related JP3526911B2 (en) 1993-04-20 1994-04-15 Voice recognition device and voice recognition method

Country Status (1)

Country Link
JP (1) JP3526911B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008076904A (en) * 2006-09-22 2008-04-03 Univ Of Tokyo Feeling discrimination method, feeling discrimination device, and atmosphere information communication terminal
US7684766B2 (en) 2004-07-23 2010-03-23 Lg Electronics Inc. System and method for managing talk burst authority of a mobile communication terminal
WO2010061505A1 (en) * 2008-11-27 2010-06-03 日本電気株式会社 Uttered sound detection apparatus
JP2012163788A (en) * 2011-02-07 2012-08-30 Jvc Kenwood Corp Noise cancellation apparatus and noise cancellation method
CN113240121A (en) * 2021-05-08 2021-08-10 云南中烟工业有限责任公司 Method for predicting nondestructive bead blasting breaking sound

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804765B1 (en) * 2016-01-08 2018-01-10 현대자동차주식회사 Vehicle and control method for the same

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2797861B2 (en) 1992-09-30 1998-09-17 松下電器産業株式会社 Voice detection method and voice detection device
JP3342740B2 (en) 1993-04-14 2002-11-11 クラリオン株式会社 Speech recognition device used in noisy environment

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7684766B2 (en) 2004-07-23 2010-03-23 Lg Electronics Inc. System and method for managing talk burst authority of a mobile communication terminal
JP2008076904A (en) * 2006-09-22 2008-04-03 Univ Of Tokyo Feeling discrimination method, feeling discrimination device, and atmosphere information communication terminal
WO2010061505A1 (en) * 2008-11-27 2010-06-03 日本電気株式会社 Uttered sound detection apparatus
JP5459220B2 (en) * 2008-11-27 2014-04-02 日本電気株式会社 Speech detection device
US8856001B2 (en) 2008-11-27 2014-10-07 Nec Corporation Speech sound detection apparatus
JP2012163788A (en) * 2011-02-07 2012-08-30 Jvc Kenwood Corp Noise cancellation apparatus and noise cancellation method
CN113240121A (en) * 2021-05-08 2021-08-10 云南中烟工业有限责任公司 Method for predicting nondestructive bead blasting breaking sound

Also Published As

Publication number Publication date
JP3526911B2 (en) 2004-05-17

Similar Documents

Publication Publication Date Title
JP4279357B2 (en) Apparatus and method for reducing noise, particularly in hearing aids
JP2974423B2 (en) Lombard Speech Recognition Method
CN102667927A (en) Method and background estimator for voice activity detection
US5854999A (en) Method and system for speech recognition with compensation for variations in the speech environment
JP3451146B2 (en) Denoising system and method using spectral subtraction
US5732388A (en) Feature extraction method for a speech signal
US5201004A (en) Speech recognition method with noise reduction and a system therefor
JP3526911B2 (en) Voice recognition device and voice recognition method
JP2002535708A (en) Voice recognition method and voice recognition device
GB2380644A (en) Speech detection
JP4393648B2 (en) Voice recognition device
US7292974B2 (en) Method for recognizing speech with noise-dependent variance normalization
CN111508512A (en) Fricative detection in speech signals
KR20120098211A (en) Method for voice recognition and apparatus for voice recognition thereof
JPH05119792A (en) Speech recognition device
JP2009031809A (en) Speech recognition apparatus
JPS6147437B2 (en)
JPH04369698A (en) Voice recognition system
JP2705061B2 (en) Voice recognition method
JPH056193A (en) Voice section detecting system and voice recognizing device
JP3026855B2 (en) Voice recognition device
KR0135878B1 (en) Starting and ending point detection method and device
JPS59124397A (en) Non-voice section detecting circuit
JPH10124084A (en) Voice processer
JPS6039695A (en) Method and apparatus for automatically detecting voice activity

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040218

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees