JPH09127982A - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JPH09127982A
JPH09127982A JP7279987A JP27998795A JPH09127982A JP H09127982 A JPH09127982 A JP H09127982A JP 7279987 A JP7279987 A JP 7279987A JP 27998795 A JP27998795 A JP 27998795A JP H09127982 A JPH09127982 A JP H09127982A
Authority
JP
Japan
Prior art keywords
voice
microphone
signal
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7279987A
Other languages
Japanese (ja)
Other versions
JP2990051B2 (en
Inventor
Junichi Taguchi
順一 田口
Yasuo Tomooka
靖夫 友岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Robotics Engineering Ltd
Original Assignee
NEC Corp
NEC Robotics Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Robotics Engineering Ltd filed Critical NEC Corp
Priority to JP7279987A priority Critical patent/JP2990051B2/en
Publication of JPH09127982A publication Critical patent/JPH09127982A/en
Application granted granted Critical
Publication of JP2990051B2 publication Critical patent/JP2990051B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

PROBLEM TO BE SOLVED: To eliminate the complexity to confirm two microphones for voice input and noise input before usage by using one of two microphones for voice input when the other is used for noise input, and using the other for voice input when one is used for noise input. SOLUTION: When voice is generated toward a microphone 1, a voice interval detection section 3 detects the end of the voice interval, and the feature quantity outputted from a feature extraction section 5 is selected by a selection section 7. When voice is generated toward a microphone 2, the end of the voice interval is detected by a voice interval detection section 4, and the feature quantity outputted from a feature extraction section 6 is selected by the selection section 7. A recognition process section 8 can separately receive the feature quantities in individual voice intervals. Either one of two microphones can be used for voice input while two microphones are not distinguished for voice input and noise input.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は音声認識装置に関
し、特に2つのマイクロフォンにより2入力音声検出を
行って音声区間を切り出し発声音声を認識処理する音声
認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device, and more particularly, to a voice recognition device that performs two-input voice detection by two microphones to cut out a voice section and recognize a voiced voice.

【0002】[0002]

【従来の技術】2つのマイクロフォンを使用した2入力
音声検出により発声音声を認識処理する第1の従来技術
として特開昭62−42197号公報の「音声区間検出
方法」がある。この第1の従来技術である「音声区間検
出方法」を図3のブロック図を参照して説明すると、こ
の音声区間検出方法は、発声者の音声と周囲ノイズのS
N比が大きくなるように設置したメインマイクロフォン
101と、メインマイクロフォン101に比べてSN比
が小さくなるように設置したサブマイクロフォン102
と、メインマイクロフォン101からの入力信号を前処
理するメインマイク前処理部103と、サブマイクロフ
ォン102からの入力信号を前処理するサブマイク前処
理部104と、メインマイクロフォン101からの入力
信号のパワーを算出するメインマイクパワー算出部と、
サブマイクロフォン104からの入力信号のパワーを算
出するサブマイクパワー算出部104からの入力のパワ
ーを算出するサブマイクパワー算出部106と、騒音学
習時にメインマイクパワー算出部105で算出した騒音
レベルのパワーに基づき音声区間算出のためのスレショ
ールドPT を設定する騒音学習部107と、騒音学習部
107により設定されたスレショールドPT と予め定め
られた時間のスレショールド時間のスレショールドtT
に基づき音声区間候補を検出する音声区間候補検出部1
08と、メインマイクパワー算出部105の出力とサブ
マイクパワー算出部106の出力との差(または比)を
求めるレベル差(または比)検出部109と、レベル差
検出部109の出力に基づき音声区間候補検出部108
により判定された音声区間候補を音声区間として採用す
るかまたはそれを棄却するかを決定する音声区間決定部
110と、音声区間決定部110で決定された音声区間
の発声音声を認識する音声認識部111とから構成され
る。この第1の従来例においては、入力用の2個のマイ
クロフォンの内メインマイクロフォン101は発声者の
正面20cmの位置に設置し、サブマイクロフォン10
2は横80cmの位置に設置している。また両マイクロ
フォン共、周囲ノイズは同じような条件で入力するよう
に設置してある。図3において、先ず音声が入力される
以前の周囲ノイズのパワーのレベルを、メインマイクロ
フォン101を用いて騒音学習部107において学習し
ておく。以後メインマイクロフォン101の入力パワー
レベルの監視を続け、音声区間候補108においてその
レベルが騒音学習部107で設定したスレショールドP
T より大である時間がスレショールドtT 以上のときに
その区間を音声区間候補とし、その条件を満たさない場
合には以上の動作を続ける。音声区間候補が見い出され
た場合には、レベル差検出部109はその区間におけ
る、メインマイクロフォン101からの入力の平均パワ
ーレベル(db)とサブマイクロフォン102からの入
力の平均パワーレベル(db)との差を計算し、音声区
間決定部110はその差が予め定めたスレショールドT
lem より大きいときにはその区間を音声区間とし、条件
を満たさないときにはその音声候補区間を棄却し、ノイ
ズレベル学習直後の動作に戻る。ここでパワーレベルの
スレショールドPT は、前述の学習された周囲ノイズの
パワーレベルに、予め定められた適当な値を加えた値と
する。時間のスレショールドtT 、およびパワーのレベ
ルの差のスレショールドTlem は、予めそれぞれ適当に
定められた値である。
2. Description of the Related Art As a first conventional technique for recognizing uttered voice by two-input voice detection using two microphones, there is a "voice section detecting method" disclosed in Japanese Patent Laid-Open No. 62-42197. The "speech segment detection method" which is the first conventional technique will be described with reference to the block diagram of FIG.
A main microphone 101 installed so that the N ratio is large, and a sub microphone 102 installed so that the SN ratio is smaller than that of the main microphone 101.
A main microphone pre-processing unit 103 that pre-processes an input signal from the main microphone 101; a sub-microphone pre-processing unit 104 that pre-processes an input signal from the sub microphone 102; and a power of an input signal from the main microphone 101. And a main microphone power calculator that
A sub microphone power calculation unit 106 that calculates the input power from the sub microphone power calculation unit 104 that calculates the power of the input signal from the sub microphone 104, and a noise level power calculated by the main microphone power calculation unit 105 during noise learning. threshold P T and the noise learning unit 107 of setting, the threshold time for a predetermined time and set threshold P T by noise learning unit 107 threshold for speech interval calculated based on the t T
Voice section candidate detection unit 1 for detecting voice section candidates based on
08, a level difference (or ratio) detection unit 109 that obtains a difference (or ratio) between the output of the main microphone power calculation unit 105 and the output of the sub microphone power calculation unit 106, and a voice based on the output of the level difference detection unit 109. Section candidate detection unit 108
A voice section determination unit 110 that determines whether to adopt or reject the voice section candidate that is determined as described above, and a voice recognition unit that recognizes the voiced voice of the voice section determined by the voice section determination unit 110. And 111. In this first conventional example, the main microphone 101 of the two input microphones is installed 20 cm in front of the speaker, and the sub microphone 10
2 is installed at a position of 80 cm in width. Also, both microphones are installed so that ambient noise is input under similar conditions. In FIG. 3, first, the power level of the ambient noise before the voice is input is learned by the noise learning unit 107 using the main microphone 101. Thereafter, the input power level of the main microphone 101 is continuously monitored, and the level in the voice section candidate 108 is set to the threshold P set by the noise learning unit 107.
When the time that is longer than T is equal to or longer than the threshold t T , the section is set as a voice section candidate, and when the condition is not satisfied, the above operation is continued. When a voice section candidate is found, the level difference detection unit 109 detects the average power level (db) of the input from the main microphone 101 and the average power level (db) of the input from the sub microphone 102 in the section. The difference is calculated, and the voice section determining unit 110 determines the difference by a predetermined threshold T
When it is larger than lem , the section is set as a voice section, and when the condition is not satisfied, the voice candidate section is rejected, and the operation returns immediately after the noise level learning. Here, the power level threshold P T is a value obtained by adding a predetermined appropriate value to the learned power level of the ambient noise. The time threshold t T and the power level difference threshold T lem are respectively predetermined values.

【0003】次に、2つのマイクロフォンを使用した2
入力音声検出により、特に周囲に雑音がある環境下でも
良好に発声音声の認識処理が行なえる第2および第3の
従来技術として特開昭58−196599号公報があ
る。
Next, 2 using two microphones
Japanese Laid-Open Patent Publication No. 58-196599 discloses second and third conventional techniques that can perform recognizing processing of voicing voice satisfactorily even in an environment where there is noise around the input voice.

【0004】一般に、周囲に雑音のある環境下で音声認
識が行なえるようにする場合には、図4に示すように音
声用マイクロフォン201以外に雑音用マイクロフォン
202を設け、この雑音用マイクロフォン202からの
出力信号を遅延器203で遅延させて利得制御器204
を通した後に減算器205に加え、この減算器205で
上記音声用マイクロフォン201からの出力信号との減
算処理を行なった後に上記減算器205の出力を特徴抽
出部206に加えて特徴部を抽出して記憶部207に記
憶しておき、音声認識に際して上記特徴抽出部206か
らの信号を認識部208にて上記記憶部207に記憶さ
れた特徴部とパターンマッチングの手法にて照合するこ
とにより行なっている。すなわち、この第2の従来技術
である音声認識装置においては、話者209が音声用マ
イクロホン201に向かって認識させる言葉を喋り、音
声用マイクロフォン201の出力信号から雑音用マイク
ロフォン202の出力信号を遅延器203で遅延させ、
利得制御器204で利得制御を行なった後に差し引くと
いう操作を行ない、話者209が発声する音声以外の音
(雑音)を除去して、その信号で音声認識を行なおうと
するものであった。しかしながら、この第2の従来技術
の音声認識装置では、雑音源から2つとマイクロフォン
201および202への伝幡距離の違いによって生じる
位相のずれを遅延器203にて補償することができる
が、この遅延器203は雑音源が単一の場合だけであ
り、雑音源が複数で異なる場所にある場合には位相のず
れを補正しきれず、音声認識は良好に行ないにくい欠点
があった。また、この音声認識装置を、自動車内等の狭
く閉じられた空間内で用いる場合には雑音源から発生す
る雑音による音声用のマイクロフォン201と雑音用マ
イクロフォン202の出力信号がレベルの差だけではな
く、音場特性により周波数もかなり変化しているので利
得制御器204により利得制御を行なっただけでは十分
に雑音を除去できず、音声認識は良好に行ないにくい欠
点があった。
Generally, in order to perform voice recognition in an environment where there is noise, a noise microphone 202 is provided in addition to the voice microphone 201 as shown in FIG. Of the output signal of the
After passing through, the subtractor 205 performs subtraction processing with the output signal from the voice microphone 201, and then the output of the subtractor 205 is added to the feature extraction unit 206 to extract the feature portion. It is stored in the storage unit 207 and stored in the storage unit 207. At the time of voice recognition, a signal from the feature extraction unit 206 is collated by the recognition unit 208 with the feature unit stored in the storage unit 207 by a pattern matching method. ing. That is, in the voice recognition device according to the second conventional technique, the speaker 209 speaks a word to be recognized by the voice microphone 201 and delays the output signal of the noise microphone 202 from the output signal of the voice microphone 201. Delay with device 203,
The gain controller 204 performs gain control and then subtracts the gain to remove sounds (noise) other than the voice uttered by the speaker 209, and perform voice recognition using the signal. However, in the second prior art speech recognition apparatus, the phase shift caused by the difference in the transmission distance from the two noise sources to the microphones 201 and 202 can be compensated by the delay device 203. The device 203 is only for a single noise source, and when there are a plurality of noise sources in different places, the phase shift cannot be corrected completely, and there is a drawback that voice recognition is difficult to perform satisfactorily. Further, when the voice recognition device is used in a narrowly closed space such as an automobile, the output signals of the voice microphone 201 and the noise microphone 202 due to noise generated from the noise source are not limited to the level difference. However, since the frequency changes considerably depending on the sound field characteristic, there is a drawback that the noise cannot be sufficiently removed only by performing the gain control by the gain controller 204, and the voice recognition is difficult to perform satisfactorily.

【0005】第3と従来技術である音声認識装置はこの
ような第2の従来技術の欠点を解消するためのものであ
り、音声用マクロフォンと雑音用マイクロフォンの出力
信号をそれぞれ特徴抽出部で特徴部を抽出すると共に上
記雑音用マイクロフォンの出力信号について上記特徴抽
出部を構成する各チャンネル毎に利得制御し、これら特
徴抽出部で抽出したデータの差を取りパターンマッチン
グして音声認識するように構成したものである。かかる
構成によれば、音声用マイクロフォンと雑音用マイクロ
フォンの出力信号のレベル差だけでなく、音場特性に起
因する周波数特性についても背景雑音の影響をあまり受
けることなく音声認識することができ、これによって雑
音環境下での音声認識を良好に行なうことができる利点
を有するものである。すなわち、音声認識においては信
号の位相情報は重要な意味を持たないのね、特徴抽出部
では位相の情報は捨ててしまっている。よって、音声用
マイクロフォンと雑音用マイクロフォンの出力信号をそ
れぞれ特徴抽出部で特徴抽出した後に両信号の差をとっ
て、そのデータでパターンマッチングを行なっても、背
景雑音の影響をあまり受けずに音声認識を行なうことが
できる。また、雑音用マイクロフォンの出力信号につい
て特徴抽出部の各チャンネル信号毎に個々に利得制御を
行なうことによりレベル差および周波数特性の違いを吸
収することができるので、雑音の除去がより厳密に行な
え、背景雑音が複雑に存在する場所でも安定した音声認
識をすることができる。
The third and prior art speech recognition devices are intended to eliminate the drawbacks of the second prior art, in which the output signals of the voice macrophone and the noise microphone are respectively extracted by the feature extraction unit. At the same time as extracting the characteristic portion, the gain control is performed for each channel constituting the characteristic extracting portion with respect to the output signal of the noise microphone, and the difference between the data extracted by the characteristic extracting portion is obtained so that the voice recognition is performed by pattern matching. It is composed. According to such a configuration, not only the level difference between the output signals of the voice microphone and the noise microphone, but also the frequency characteristic caused by the sound field characteristic can be recognized without being affected by the background noise. This has the advantage that good speech recognition can be performed in a noisy environment. That is, the phase information of the signal has no significant meaning in speech recognition, and the phase information is discarded in the feature extraction unit. Therefore, even if the features of the output signals of the voice microphone and the noise microphone are extracted by the feature extraction unit and then the difference between the two signals is obtained and pattern matching is performed with the data, the voice is not affected much by the background noise. Can recognize. Further, since it is possible to absorb the level difference and the difference in frequency characteristic by individually controlling the gain of each channel signal of the feature extraction unit for the output signal of the noise microphone, noise can be removed more strictly, Stable voice recognition can be performed even in a place where background noise is complicated.

【0006】図5のブロック図を参照して説明すると、
音声波を集音する音声用マイクロフォン310と雑音用
マイクロフォン311の出力信号は別々の特徴抽出部3
12および313で特徴抽出し、雑音用マイクロフォン
311の出力信号から特徴抽出された各特徴抽出信号は
雑音が最も良く除去できるように各チャンネル毎に利得
制御器314にて利得制御した後に減算器315に加
え、この減算器315にて特徴抽出された音声用マイク
ロフォン310の信号から差し引く。登録時には上記減
算器315と出力を記憶部316に送り、認識時には上
記減算器315の出力を認識部317に送り、記憶部3
16に登録されているデータとパターン・マッチングを
行ない、最も距離の近かったものを認識結果として出力
する。
Referring to the block diagram of FIG. 5,
The output signals of the voice microphone 310 that collects voice waves and the noise microphone 311 are separated by the feature extraction unit 3.
12 and 313 perform feature extraction, and feature extraction signals obtained by performing feature extraction from the output signal of the noise microphone 311 are subjected to gain control by the gain controller 314 for each channel so that noise can be best removed, and then the subtractor 315. In addition to the above, the subtracter 315 subtracts from the signal of the voice microphone 310 whose feature is extracted. At the time of registration, the subtractor 315 and the output are sent to the storage unit 316, and at the time of recognition, the output of the subtractor 315 is sent to the recognition unit 317, and the storage unit 3
Pattern matching with the data registered in 16 is performed, and the closest one is output as the recognition result.

【0007】[0007]

【発明が解決しようとする課題】これらの従来の音声認
識装置では音声用マイクロフォンと雑音用マイクロフォ
ンとは区別されており、音声入力用のマイクロフォンが
どちらかを使用前に確認する煩らわしさがあった。
In these conventional voice recognition devices, a voice microphone and a noise microphone are distinguished from each other, and it is troublesome to check which one of the voice input microphones is used. there were.

【0008】また、音声マイクロフォンが視覚的に区別
されていても、装置への接続が誤って反対になっている
場合もあり得るため確認作業が不可欠であり、装置利用
上ミスを犯しやすいという問題があった。
Further, even if the voice microphones are visually distinguished, the connection to the device may be erroneously reversed, so that confirmation work is indispensable, and it is easy to make a mistake in using the device. was there.

【0009】[0009]

【課題を解決するための手段】本発明による音声認識装
置は、第1および第2のマイクロフォンにより2入力音
声検出を行って発声音声を認識処理する音声認識装置い
おいて、前記第1のマイクロフォンを音声入力用とした
ときは前記第2のマイクロフォンが雑音入力用となこと
を特徴とする。
A voice recognition device according to the present invention is a voice recognition device for performing a two-input voice detection by a first and a second microphone to recognize and process a uttered voice. Is used for voice input, the second microphone is for noise input.

【0010】また、本発明による音声認識装置は、第1
および第2のマイクロフォンにより2入力音声検出を行
って発声音声を認識処理する音声認識装置において、第
1の音声区間検出手段が、前記第1のマイクロフォンに
向って発生されたときの発声音声前記第1のマイクロフ
ォンの第1の出力端から第1の音声信号として音声入力
端に入力するとともに前記第2のマイクロフォンの第2
の出力端から第1の騒音信号として雑音入力端に入力し
て前記第1のマイクロフォンに向って発声された音声の
音声区間を検出しその音声区間の前記第1の音声信号を
切り出して第3の音声信号として出力し、第2の音声区
間検出手段が、前記第2のマイクロフォンに向って発声
されたときの発声音声を前記第2とマイクロフォンの第
1の出力端から第2の音声信号として音声入力端に入力
するとともに前記第1のマイクロフォンの第2の出力端
から第2と騒音信号として雑音入力端に入力して前記第
2のマイクロフォンに向って発声された音声の音声区間
を検出してその音声区間の前記第2の音声信号を切り出
して第4の音声信号として出力して、前記第3の音声信
号および前記第4の音声信号をもとに各各のマイクロフ
ォンに向って発声された発声音声の各各を認識処理する
ことを特徴とする。
The voice recognition apparatus according to the present invention is also the first
And a voice recognition device for recognizing an uttered voice by performing two-input voice detection by a second microphone, wherein the first voice section detecting means outputs the uttered voice when the voice is generated toward the first microphone. The first microphone outputs the first voice signal as the first voice signal to the voice input end and the second microphone outputs the second voice signal.
From the output end of the voice input to the noise input end as the first noise signal, the voice section of the voice uttered toward the first microphone is detected, and the first voice signal of the voice section is cut out to obtain a third voice signal. Is output as a second voice signal from the first output end of the second microphone and the voice output when the second voice section detecting means outputs the voice signal toward the second microphone. A voice section of the voice uttered toward the second microphone is detected by inputting to the noise input end as a noise signal from the second output end of the first microphone as well as the second output end of the first microphone. The second voice signal in the voice section is cut out and output as a fourth voice signal, and is uttered toward each microphone based on the third voice signal and the fourth voice signal. And recognizes processing each respective utterance voice.

【0011】さらに、本発明による音声認識装置は、第
1および第2のマイクロフォンにより2入力音声検出を
行って発声音声を認識処理する音声認識装置において、
第1の音声区間検出手段が、前記第1のマイクロフォン
向って発声されたときの発声音声を前記第1のマイクロ
フォンの第1の出力端から第1と音声信号として第1の
音声入力端に入力するとともに前記第2のマイクロフォ
ンの第2の出力端から第1の騒音信号として第1の遅延
手段を通して第2の音声入力端に入力して前記第1のマ
イクロフォンに向って発声された音声の音声区間を検出
しその音声区間の前記第1の音声信号を切り出して第3
の音声信号として出力し、前記第2の音声区間検出手段
が、前記第2のマイクロフォンに向って発声されたとき
の発声音声を前記第2のマイクロフォンの第1の出力端
から第2の音声信号として第1の音声入力端に入力する
とともに前記第1のマイクロフォンの第2の出力端から
第2の騒音信号として第2の遅延手段を通して第2の音
声入力端に入力して前記第2のマイクロフォンに向って
発声された音声の音声区間を検出してその音声区間の前
記第2の音声信号を切り出して第4の音声信号として出
力して、前記第3の音声信号および前記第4の音声信号
をもとに各各のマイクロフォンに向って発声された発声
音声の各各を認識処理することを特徴とする。
Further, the speech recognition apparatus according to the present invention is a speech recognition apparatus for recognizing an uttered speech by detecting two input speeches by the first and second microphones,
The first voice section detection means inputs the voice output when the voice is uttered toward the first microphone from the first output end of the first microphone to the first voice input end as a first and voice signal. And the voice of the voice uttered toward the first microphone, which is input from the second output end of the second microphone as the first noise signal to the second voice input end through the first delay means. A section is detected, and the first voice signal in the voice section is cut out to obtain a third section.
Voice signal when the second voice section detecting means utters the second microphone from the first output end of the second microphone. As a second noise signal from a second output end of the first microphone as a second noise signal through a second delay means to the second voice input end as the second microphone. To the third voice signal and the fourth voice signal by detecting the voice period of the voice uttered toward the user, cutting out the second voice signal in the voice period, and outputting the second voice signal as a fourth voice signal. It is characterized in that each of the uttered voices uttered toward each of the microphones is recognized based on the above.

【0012】さらにまた、本発明による音声認識装置
は、発声音声を電気信号に変換する近接して設置される
第1のマイクロフォンおよび第2のマイクロフォンと、
前記第1のマイクロフォンの第1の出力端から出力され
る第1の電気信号を第1の入力端に第1の音声信号とし
て入力しかつ前記第2のマイクロフォンの第2の出力端
から出力される第2の電気信号を第2の入力端に第1の
雑音信号として入力して前記第1の音声信号のレベルが
前記第1の雑音信号のレベルより大きいときのみ前記第
1のマイクロフォンに向って発声し出力された前記第1
の音声信号の音声区間を検出して第1の音声区間とする
とともにその第1の音声区間の前記第1の音声信号を切
り出して第2の音声信号として出力する第1の音声検出
手段と、前記第2のマイクロフォンの第1の出力端から
出力される前記第2の電気信号を第1の入力端に第3の
音声信号として入力しかつ前記第1のマイクロフォンの
第2の出力端から出力される前記第1の電気信号を第2
の入力端に第2の雑音信号として入力して前記第3の音
声信号のレベルが前記第2の雑音信号のレベルより大き
いときのみ前記第2のマイクロフォンに向って発声し出
力された前記第3の音声信号の音声区間を検出して第2
の音声区間とするとともにその第2の音声区間の前記第
3の音声信号を切り出して第4の音声信号として出力す
る第2の音声検出手段と、前記第1の音声検出手段から
の前記第3の音声信号の特徴量を算出して特徴ベクトル
系列に変換し第1の特徴ベクトル系列として出力する第
1の特徴抽出手段と、前記第2の音声検出手段からの前
記第4の音声信号の特徴量を算出して特徴ベクトル系列
に変換し第2の特徴ベクトル系列として出力する第2の
特徴抽出手段と、前記第1の特徴抽出手段から入力され
る前記第1の特徴ベクトル系列と前記第2の特徴抽出手
段から入力される前記第2の特徴ベクトル系列とを比較
して最初に音声区間の終端が検出された方の特徴ベクト
ル系列を選択して第3の特徴ベクトル系列として出力す
る選択手段と、前記選択手段から入力される前記第3の
特徴ベクトル系列から前記第1のマイクロフォンあるい
は前記第2のマイクロフォンに向って発声された発声音
声を認識処理する認識処理手段と、を備える。
Furthermore, the voice recognition apparatus according to the present invention includes a first microphone and a second microphone, which are installed close to each other, for converting a vocal sound into an electric signal.
The first electric signal output from the first output end of the first microphone is input to the first input end as a first audio signal and is output from the second output end of the second microphone. The second electric signal is input to the second input terminal as the first noise signal, and is directed to the first microphone only when the level of the first voice signal is higher than the level of the first noise signal. Said first voiced and output
First voice detection means for detecting a voice section of the voice signal as a first voice section and cutting out the first voice signal of the first voice section and outputting it as a second voice signal, The second electric signal output from the first output end of the second microphone is input to the first input end as a third audio signal and output from the second output end of the first microphone. The first electrical signal that is
The second noise signal is input to the input end of the third voice signal and the third voice signal is output toward the second microphone only when the level of the third voice signal is higher than the level of the second noise signal. Second by detecting the voice section of the voice signal of
Second voice detecting means for cutting out the third voice signal in the second voice period and outputting it as a fourth voice signal, and the third voice signal from the first voice detecting means. Of the fourth voice signal from the second voice detecting means, and a first feature extracting means for calculating a feature amount of the voice signal of Second feature extraction means for calculating a quantity, converting it into a feature vector series, and outputting it as a second feature vector series; the first feature vector series and the second feature vector series input from the first feature extraction means; Selecting means for comparing the second feature vector series input from the feature extracting means of 1), selecting the feature vector series of which the end of the voice section is detected first, and outputting as the third feature vector series. And before And a third feature recognition processing means from the vector sequences recognizing process an utterance voice uttered toward the first microphone or the second microphone input from the selection unit.

【0013】なおさらに、本発明による音声認識装置
は、前記第1の音声検出手段が、前記第2のマイクロフ
ォンの第2の出力端から出力される前記第2の電気信号
を所定の第1の遅延時間を有する第1の遅延手段を通し
て前記第2の入力端に第5の音声信号として入力して前
記第1のマイクロフォンの第1の出力端から入力される
前記第1の音声信号のレベルと前記第5の音声信号のレ
ベルとを比較してレベルの大きい方の音声信号の音声区
間を検出して第3の音声区間とするとともにその第3の
音声区間の音声信号を切り出して前記第3の音声信号と
して出力し、前記第2の音声検出手段が前記第1のマイ
クロフォンの第2の出力端から出力される前記第1の電
気信号を所定の第2の遅延時間を有する第2の遅延手段
を通して前記第2の入力端に第6の音声信号として入力
して前記第2のマイクロフォンの第1の出力端から入力
される前記第2の音声信号のレベルと前記第6の音声信
号のレベルを比較してレベルの大きい方の音声信号の音
声区間を検出して第4の音声区間とするとともにその第
3の音声区間の音声信号を切り出して前記第4の音声信
号として出力することを特徴とする。
Furthermore, in the voice recognition device according to the present invention, the first voice detection means outputs the second electric signal output from the second output end of the second microphone to a predetermined first. A level of the first audio signal input as a fifth audio signal to the second input terminal through a first delay means having a delay time and input from a first output terminal of the first microphone; The third voice segment is extracted by comparing the voice level of the fifth voice signal with the voice segment of the voice signal with the higher level to determine the third voice segment and the third voice segment is cut out. Second delay signal having a predetermined second delay time, the first electrical signal being output as a voice signal of the first voice signal and the second voice detecting means outputting the first electrical signal from the second output end of the first microphone. The second through the means The sixth voice signal is input to the input end as a sixth voice signal, and the level of the second voice signal input from the first output end of the second microphone is compared with the level of the sixth voice signal. The voice section of the larger voice signal is detected as a fourth voice section, and the voice signal of the third voice section is cut out and output as the fourth voice signal.

【0014】[0014]

【発明の実施の形態】次に、本発明について図面を参照
して説明する。本発明の第1の実施例を示す図1を参照
すると、音声認識装置は、音声入力者から入力される発
声音声を電気信号に変換して出力端Aから音声信号aお
よび出力端Bから音声信号bを各各同一インピーダンス
および同一レベルで出力する単一指向性のマイクロフォ
ン1と、マイクロフォン1とは音声入力の方向を異して
音声入力者から入力される発声音声を電気信号に変換し
て出力端Aから音声信号cおよび出力端Bから音声信号
dを各各同一インピーダンスおよび同一レベルで出力す
る単一指向性のマイクロフォン2と、マイクロフォン1
の出力端Aから音声入力端Cに入力される音声信号aを
マイクロフォン1への音声入力者の発声音声として検出
するとともにマイクロフォン2の出力端Bから雑音入力
端Dに入力される音声信号cを雑音成分として検出して
マイクロフォン1から入力される音声信号aの音声区間
を特定しその切り出された音声区間の音声信号を音声信
号eとして出力する音声区間検出部3と、マイクロフォ
ン1の出力端Bから雑音入力端Dに入力される音声信号
bを雑音成分として検出するとともにマイクロフォン2
の出力端Aから音声入力端Cに入力される音声信号cを
マイクロフォン2への音声入力者の発声音声として検出
してマイクロフォン2から入力される音声信号cの音声
区間を特定しその切り出された音声区間の音声信号を音
声信号fとして出力する音声区間検出部4と、音声区間
検出部3から入力される音声信号eの特徴量を算出して
時系列の特徴ベクトルに変換し特徴ベクトル系列gとし
て出力する特徴抽出部5と、音声区間検出部4から入力
される音声信号fの特徴量を算出して時系列の特徴ベク
トルに変換し特徴ベクトル系列hとして出力する特徴抽
出部6と、特徴抽出部5から入力される特徴ベクトル系
列gと特徴抽出部6から入力される特徴ベクトル系列h
とを同時刻で比較して音声検出結果の終端が早く検出さ
れた方つまり音声信号eの終端と音声信号fの終端のう
ちの早く終端が検出された方の特徴量を認識対象の特徴
量として選択するように特徴ベクトル系列を選択して特
徴ベクトル系列iとして出力する選択部8と、選択部8
から入力される特徴ベクトル系列iの特徴量に対して認
識処理を行うことにより選択部8で選択された側のマイ
クロフォンに入力される発声音声を認識処理する認識処
理部8とから構成される。
Next, the present invention will be described with reference to the drawings. Referring to FIG. 1 showing a first embodiment of the present invention, a voice recognition device converts a voiced voice input from a voice input person into an electric signal and outputs a voice signal a from an output end A and a voice signal from an output end B. A unidirectional microphone 1 that outputs the signal b at the same impedance and the same level for each, and the microphone 1 converts voiced voice input from a voice input person into an electric signal in a different voice input direction. A unidirectional microphone 2 for outputting a voice signal c from the output end A and a voice signal d from the output end B at the same impedance and the same level, and a microphone 1.
Of the voice signal a input from the output end A of the microphone 1 to the voice input end C of the voice input person to the microphone 1 and the voice signal c input from the output end B of the microphone 2 to the noise input end D. A voice section detection unit 3 that detects a voice section of a voice signal a input from the microphone 1 as a noise component and outputs the voice signal of the cut voice section as a voice signal e, and an output end B of the microphone 1. The voice signal b input to the noise input terminal D from the microphone 2 is detected as a noise component, and the microphone 2
The voice signal c input from the output end A to the voice input end C is detected as the voiced voice of the voice input person to the microphone 2, and the voice section of the voice signal c input from the microphone 2 is specified and cut out. A voice section detection unit 4 that outputs a voice signal of a voice section as a voice signal f, and a feature amount of a voice signal e input from the voice section detection unit 3 are calculated and converted into a time-series feature vector to obtain a feature vector series g. And a feature extraction unit 5 that calculates a feature amount of the voice signal f input from the voice section detection unit 4 and converts the feature amount into a time-series feature vector and outputs the feature vector sequence h. Feature vector sequence g input from the extraction unit 5 and feature vector sequence h input from the feature extraction unit 6
Are compared at the same time, and the feature amount of the one whose end of the voice detection result is detected earlier, that is, the one of the end of the voice signal e and the end of the voice signal f, which is detected earlier, is the feature amount of the recognition target. A selecting unit 8 for selecting a feature vector sequence to output as a feature vector sequence i, and a selecting unit 8
The recognition processing unit 8 performs recognition processing on the feature amount of the feature vector series i input from the recognition processing unit 8 for recognizing voiced speech input to the microphone selected by the selection unit 8.

【0015】以上の構成により、マイクロフォン1に向
って音声が発せられた場合は音声区間検出部3において
先に音声区間の終端が検出されるので、特徴抽出部5か
ら出力される特徴量つまり特徴ベクトル系列gが選択部
7で選択され、またマイクロフォン2に向って音声が発
せられた場合には音声区間検出部4において先に音声区
間の終端が検出されるので特徴抽出部6から出力される
特徴量つまり特徴ベクトル系列hが選択部7で選択され
るため、いずれのマイクロフォンに向って音声が発せら
れた場合でも、認識処理部8は各各の音声区間の特徴量
を個々に受理することができ、2つのマイクロフォンを
音声入力用および雑音入力用等に区別することなくいず
れのマイクロフォンをも音声入力用として使用すること
ができる。
With the above configuration, when a voice is uttered toward the microphone 1, the end of the voice section is detected first by the voice section detection unit 3, so the feature amount output from the feature extraction unit 5, that is, the feature. When the vector sequence g is selected by the selection unit 7 and a voice is uttered toward the microphone 2, the end of the voice section is detected first by the voice section detection unit 4 and is output from the feature extraction unit 6. Since the feature amount, that is, the feature vector sequence h is selected by the selection unit 7, the recognition processing unit 8 must individually accept the feature amount of each voice section regardless of which microphone the voice is emitted toward. Therefore, both microphones can be used for voice input without distinguishing the two microphones for voice input and noise input.

【0016】詳述すると、マイクロフォン1とマイクロ
フォン2とは共に同一の出力インピーダンスを持つ単一
指向性のマイクロフォンであり、例えばマイクロフォン
1を垂直上向きに設置した場合はマイクロフォン2は水
平横向きに設置し、逆にマイクロフォン2を垂直上向き
に設置した場合はマイクロフォン1は水平横向きに設置
する。つまり、2つのマイクロフォンの向きが90度開
くように各各設置して一方のマイクロフォンに向って発
声された音声が他方のマイクロフォンに入力されるとき
にはその指向性により騒音相当レベルになるように設置
する。2つのマイクロフォン間の距離は例えば約60c
mとする。
More specifically, both the microphone 1 and the microphone 2 are unidirectional microphones having the same output impedance. For example, when the microphone 1 is installed vertically upward, the microphone 2 is installed horizontally horizontally. On the contrary, when the microphone 2 is installed vertically upward, the microphone 1 is installed horizontally horizontally. That is, each of the two microphones is installed so that the directions of the two microphones open 90 degrees, and when the voice uttered toward one microphone is input to the other microphone, the two microphones are installed so as to have a noise equivalent level due to its directivity. . The distance between the two microphones is, for example, about 60c
m.

【0017】最初にマイクロフォン1に向って発声され
た音声を確認する場合の動作について説明する。今、マ
イクロフォン1に向って音声が発声されとすると、マイ
クロフォン1の出力端Aから出力される音声信号aは音
声区間検出部3の音声入力端Cに入力されるとともに同
じマイクロフォン1の出力端Bから出力される音声信号
bは音声信号aと同じレベルで音声区間検出部4の雑音
入力端Dに入力される。一方、マイクロフォン1に向っ
て発声された音声はマイクロフォン2にも達するが、実
際にマイクロフォン2に入力されるマイクロフォン1に
向って発生された音声はマイクロフォン2の設置方向に
よる指向性のためマイクロフォン2で電気変換されて音
声信号cおよび音声信号dとして出力されるレベルは騒
音程度のレベルとなる。このようにしてマイクロフォン
1に向って発声された音声はマイクロフォン2の出力端
Aから音声信号cとして音声区間検出部4の音声入力端
Cに入力され、また出力端Bから音声信号dとして音声
区間検出部3の雑音入力端Dに入力される。つまり、音
声区間検出部4に入力される騒音レベルの音声信号Cは
音声入力端Cに入力されるので音声として取り扱われ、
また音声区間検出部3に入力される騒音レベルの音声信
号dは雑音入力端Dに入力されるので雑音として取り扱
われることになる。そして、音声区間検出部3では、先
ずマイクロフォン1からの音声レベルとしての音声信号
aとマイクロフォン2からの騒音レベルとしての音声信
号dとのレベルを比較、つまり音声信号aをS(信号)
および音声信号bをN(雑音)としてS/N比すなわち
信号対雑音比を求め、そのS/N比が音声区間検出部3
内部で予め決められたS/N比スレショーナルドより小
さいときは音声入力端Cに入力される音声信号aをマイ
クロフォン1に向って発声された正規の音声信号とみな
し、反面S/N比スレショールドより大きいときは音声
信号aを正規の音声信号とはみなさない判定を行う。従
って、マイクロフォン1に向って音声が発生されたとき
は当然音声区間検出部3の入力端Cに入力される音声信
号aのレベルが入力端Dに入力されるマイクロフォン2
からの音声信号dのレベルよりもはるかに大きく、その
S/N比はS/N比スレーショナルドより確実に小さく
なるので、音声信号aをマイクロフォン1に向って発生
された正規の音声として容易に判定することができる。
一方、音声区間検出部4では音声入力端Cに入力される
マイクロフォン2からの騒音レベルの音声信号cは雑音
入力端Dに入力されるマイクロフォン1からの正規の発
声音声レベルの音声信号bよりもはるかに小さく、その
S/N比はS/N比スレショールドより確実に大きくな
るので、音声信号cがマイクロフォン2に向って発生さ
れた正規の音声ではないことを容易に判定することがで
きる。
First, the operation for confirming the voice uttered toward the microphone 1 will be described. Now, assuming that a voice is uttered toward the microphone 1, the voice signal a output from the output end A of the microphone 1 is input to the voice input end C of the voice section detection unit 3 and the output end B of the same microphone 1 is input. The voice signal b output from the same is input to the noise input terminal D of the voice section detection unit 4 at the same level as the voice signal a. On the other hand, although the voice uttered toward the microphone 1 reaches the microphone 2, the voice generated toward the microphone 1 which is actually input to the microphone 2 is directed to the microphone 2 due to the directivity depending on the installation direction of the microphone 2. The level that is electrically converted and output as the audio signal c and the audio signal d is about noise level. The voice uttered toward the microphone 1 in this way is input from the output end A of the microphone 2 to the voice input end C of the voice section detection unit 4 as the voice signal c, and from the output end B as the voice signal d. The noise is input to the noise input terminal D of the detection unit 3. That is, since the voice signal C having the noise level input to the voice section detection unit 4 is input to the voice input terminal C, it is treated as voice,
Further, since the voice signal d having the noise level input to the voice section detection unit 3 is input to the noise input terminal D, it is treated as noise. Then, in the voice section detection unit 3, first, the level of the voice signal a as the voice level from the microphone 1 and the level of the voice signal d as the noise level from the microphone 2 are compared, that is, the voice signal a is S (signal).
Also, the S / N ratio, that is, the signal-to-noise ratio is obtained with the voice signal b as N (noise), and the S / N ratio is the voice section detection unit
When the S / N ratio threshold is smaller than the predetermined threshold internally, the sound signal a input to the sound input terminal C is regarded as a normal sound signal uttered toward the microphone 1 and, on the other hand, the S / N ratio threshold is When it is larger than the threshold, it is determined that the audio signal a is not regarded as a regular audio signal. Therefore, when a voice is generated toward the microphone 1, the level of the voice signal a input to the input end C of the voice section detection unit 3 is naturally input to the input end D of the microphone 2.
Is much higher than the level of the audio signal d from the S / N ratio, and its S / N ratio is certainly smaller than the S / N ratio rationalized. Therefore, the audio signal a can be easily generated as a normal sound generated toward the microphone 1. Can be determined.
On the other hand, in the voice section detection unit 4, the noise level voice signal c from the microphone 2 input to the voice input end C is more than the normal voiced voice level b from the microphone 1 input to the noise input end D. Since it is much smaller and its S / N ratio is certainly larger than the S / N ratio threshold, it can be easily determined that the voice signal c is not the normal voice generated toward the microphone 2. .

【0018】音声入力端Cに入力された音声信号aを正
規の音声と判定した音声区間検出部3では、次にフレー
ム周期ごとに入力される音声信号aの音声区間および音
声信号aの始端および終端を求めるために、予めマイク
ロフォン1およびマイクロフォン2のいずれに対しても
音声が発生されていないときの周辺雑音を含む雑音入力
端Dに入力される雑音レベルからその雑音レベルの所定
時間内、つまり現時刻から一定時間さかのぼった区間の
平均パワーを求めて雑音スレショールドを算出し、音声
信号のaの平均パワーがこの雑音スレショールドを越え
るまで一定周期ごとに雑音スレショールドの算出を繰返
し、音声信号aの平均パワーが最新の雑音スレショール
ド算出値を越えたときに音声信号aの始端として認識
し、雑音スレショールドに特定の係数を掛けた値を雑音
パワーとして音声信号aの平均パワーから差し引き、一
旦始端を認識した後は雑音スレショールドを固定して音
声信号bの終端が認識されるまで保持し続ける。そし
て、音声信号aの平均パワーが雑音スレショールドより
小さくなったときに音声信号aの終端を認識し、一旦終
端を認識した後は、その時刻から再び雑音スレショール
ドの算出を開始し、以後上述と同じ動作を繰返すことに
より音声信号aの音声区間およびその始端,終端を検出
し、音声信号eとして出力する。
In the voice section detection unit 3 which determines that the voice signal a input to the voice input terminal C is a normal voice, the voice section of the voice signal a to be input next every frame period and the start end of the voice signal a and In order to obtain the termination, the noise level from the noise level input to the noise input terminal D including ambient noise when no sound is generated in advance in either the microphone 1 or the microphone 2 within a predetermined time of the noise level, that is, The noise threshold is calculated by calculating the average power of a section traced back a certain time from the current time, and the calculation of the noise threshold is repeated at regular intervals until the average power of a of the audio signal exceeds this noise threshold. , When the average power of the audio signal a exceeds the latest noise threshold calculation value, it is recognized as the beginning of the audio signal a, and the noise threshold is detected. A value obtained by multiplying the audio signal by a specific coefficient is subtracted as the noise power from the average power of the audio signal a, and once the start end is recognized, the noise threshold is fixed and kept until the end of the audio signal b is recognized. . Then, when the average power of the audio signal a becomes smaller than the noise threshold, the end of the audio signal a is recognized, and once the end is recognized, the calculation of the noise threshold is started again from that time, Thereafter, the same operation as described above is repeated to detect the voice section of the voice signal a and its start and end, and output it as the voice signal e.

【0019】一方、この間音声区間検出部4では音声入
力端Cに入力される音声信号cを正規の音声とは見做さ
ないので音声区間およびその始端,終端の検出は行わ
ず、従って音声区間検出部3が音声信号eを出力してい
る区間では音声区間検出部は音声信号fの出力を行わな
い。
On the other hand, during this period, the voice section detection unit 4 does not consider the voice signal c input to the voice input terminal C to be a normal voice, so that the voice section and its start and end are not detected, and therefore the voice section is not detected. The voice section detection unit does not output the voice signal f in the section in which the detection unit 3 outputs the voice signal e.

【0020】逆に、音声区間検出部4の音声入力端Cに
入力された音声信号cが正規の音声として判定されたと
きには、つまりマイクロフォン2に向って音声が発声さ
れたときは、音声区間検出部4は上述と同様に音声信号
cの音声区間およびその始端,終端を検出して音声信号
fを出力するが、音声区間検出部3ではこのとき音声入
力端Cに入力される音声信号aをマイクロフォン1に向
って発声された正規の音声とは見做さないので音声区間
およびその始端,終端の検出は行わず、従ってこの区
間、つまり音声区間検出部4が音声信号fを出力してい
る区間は音声信号eを出力しない。
On the contrary, when the voice signal c input to the voice input terminal C of the voice section detection unit 4 is determined as a normal voice, that is, when the voice is uttered toward the microphone 2, the voice section detection is performed. Similarly to the above, the section 4 detects the voice section of the voice signal c and its start end and end, and outputs the voice signal f. The voice section detecting section 3 detects the voice signal a input to the voice input terminal C at this time. Since it is not regarded as a normal voice uttered toward the microphone 1, the voice section and its start end and end are not detected, and therefore, this section, that is, the voice section detection unit 4 outputs the voice signal f. The audio signal e is not output in the section.

【0021】このように、マイクロフォン1およびマイ
クロフォン2のいずれに向って音声が発声された場合で
も、音声が発生されたマイクロフォン側の音声区間検出
部では、自系統のマイクロフォンに向って発生された音
声の音声区間およびその始端,終端を正確に検出して、
その区間の発声音声信号を切り出すことができる。
As described above, regardless of whether the voice is uttered toward either the microphone 1 or the microphone 2, in the voice section detecting section on the microphone side where the voice is generated, the voice generated toward the microphone of the own system is generated. Accurately detect the voice section and its beginning and end,
It is possible to cut out the vocalized voice signal in that section.

【0022】次に、特徴抽出部5では音声区間検出部3
で切り出され入力された音声信号eを帯域制限およびF
ET等のデータ変換により時間軸の音声波形から周波数
成分に変換し、さらにその変換された周波数成分を対数
スペクトル変換等によりスペクトル包絡を算出して時系
列の特徴ベクトルに変換し、その特徴ベクトルに音声区
間の始端および終端情報を付加して特徴ベクトル系列g
として出力する。特徴抽出部6も同様に機能して音声区
間検出部4で切り出され入力された音声信号fを時系列
の特徴ベクトルに変換し、その特徴ベクトルに音声区間
の始端および終端情報を付加して特徴ベクトル系列hと
して出力する。そして、選択部7では特徴抽出部5から
入力される特徴ベクトル系列gと特徴抽出部6から入力
される特徴ベクトル系列hとを常時監視しており、各各
の特徴ベクトルに付加されている音声区間の終端情報が
早く検出された方の特徴ベクトル系列を選択して特徴ベ
クトル系列iとして出力し、認識処理部8へ供給する。
Next, in the feature extraction unit 5, the voice section detection unit 3
The audio signal e cut out by
A time-axis voice waveform is converted into a frequency component by data conversion such as ET, and the converted frequency component is further converted into a time-series feature vector by calculating a spectrum envelope by logarithmic spectrum conversion or the like. A feature vector sequence g by adding start and end information of a voice section
Output as The feature extraction unit 6 also functions in the same manner, converts the voice signal f cut out and input by the voice section detection unit 4 into a time-series feature vector, and adds the start and end information of the voice section to the feature vector. Output as a vector series h. The selection unit 7 constantly monitors the feature vector sequence g input from the feature extraction unit 5 and the feature vector sequence h input from the feature extraction unit 6, and the voice added to each feature vector. The feature vector series whose end information of the section is detected earlier is selected, output as the feature vector series i, and supplied to the recognition processing unit 8.

【0023】以下、認識処理部8で特徴ベクトル系列か
ら発声音声を認識処理する技術は公知の技術であるので
説明を省略する。
Since the technique of recognizing the voiced speech from the feature vector sequence in the recognition processing unit 8 is a known technique, its description is omitted.

【0024】続いて、本発明の第2の実施例について説
明する。第2の実施例である図2のブロック図を参照す
ると、マイクロフォン1,マイクロフォン2,特徴抽出
部5,特徴抽出部6,選択部7および認識処理部8は図
1のブロック図における第1の実施例の同じ記号のブロ
ックと各各機能が同一であるので説明を省略する。第1
の実施例との違いは、マイクロフォン1の出力端Bから
出力する音声信号bを遅延回路12を通して音声区間検
出部10の音声入力端Dに入力し、マイクロフォン2の
出力端Bから出力する音声信号dを遅延回路11を通し
て音声区間検出部9の音声入力端Dに入力する構成して
いることと、図1における音声区間検出部3および4に
おける各各の雑音入力端Dを図2における音声区間検出
部9および10では上述のように各各音声入力端として
音声入力端Cと同じ扱いの構成にしている。
Next, a second embodiment of the present invention will be described. Referring to the block diagram of FIG. 2 which is the second embodiment, the microphone 1, the microphone 2, the feature extraction unit 5, the feature extraction unit 6, the selection unit 7 and the recognition processing unit 8 are the same as those in the block diagram of FIG. Since each block has the same function as the block of the same symbol in the embodiment, the description thereof is omitted. First
5 is different from that of the first embodiment in that the voice signal b output from the output end B of the microphone 1 is input to the voice input end D of the voice section detection unit 10 through the delay circuit 12 and output from the output end B of the microphone 2. 2 is input to the voice input terminal D of the voice section detecting unit 9 through the delay circuit 11, and each noise input terminal D in the voice section detecting units 3 and 4 in FIG. The detection units 9 and 10 have the same structure as the voice input end C as each voice input end as described above.

【0025】詳述すると、マイクロフォン1に向って発
声された音声はマイクロフォン1の出力端Aから音声信
号aとして音声区間検出部9の音声入力端Cに入力され
るとともにマイクロフォン2の出力端Bから騒音レベル
の音声信号dとして出力され、遅延回路11において所
定時間遅延されて音声信号d′として同じ音声区間検出
部9の音声入力端Dに入力される。そして音声区間検出
部9では、音声信号aと音声信号d′とのレベルを比較
してそのレベル差が内部で予め決められたレベル差スレ
ショールドよりも大きいときに、そのレベルの大きい
方、つまりここでは音声信号aを正規の発生音声信号と
判定し、その音声区間および始端,終端を検出する。一
方、音声区間検出部10ではマイクロフォン2の出力端
Aから入力される騒音レベルの音声信号cとマイクロフ
ォン1の出力端Bから出力されて遅延回路12を通して
入力される音声信号b′とのレベルを比較して、そのレ
ベル差が内部で予め決められたレベル差スレショーナル
ドよりも大きいときに、そのレベルの大きい方、つまり
ここでは音声信号b′を正規の発声音声信号として判定
し、その音声区間および始端,終端を検出する。つま
り、音声区間検出部9ではマイクロフォン1に向って発
声された自系の本来の発声音声を検出するが、音声区間
検出部10では自系のマイクロフォン2に向って発声さ
れた本来の発声音声を検出するのではなく、他系のマイ
クロフォン1に向って発声された発声音声をあたかも自
系のマイクロフォン2に向って発声された発声音声とし
て検出する。しかし、音声区間検出部10で検出される
音声信号b′の音声区間およびその始端,終端は、遅延
回路12における遅延により、音声区間検出部9で検出
される音声信号aの音声区間およびその始端,終端より
遅れて特徴抽出部hへ出力される。従って、選択部7に
は特徴抽出部5からと特徴ベクトル系列gと特徴抽出部
6からの特徴ベクトル系列hとが同時に入力されるが、
両信号を同時刻で比較した場合に特徴べクトル系列hに
付加されている音声信号b′の終端の方が特徴ベクトル
系列gに付加されている音声信号aの終端よりも必らず
遅れることになる。この結果、比較部7は終端が早く検
出された側の特徴ベクトル系列gを選択して認識処理部
8へ出力する。
More specifically, the voice uttered toward the microphone 1 is input from the output end A of the microphone 1 to the voice input end C of the voice section detection unit 9 as the voice signal a and from the output end B of the microphone 2. It is output as a voice signal d having a noise level, delayed by a delay circuit 11 for a predetermined time, and input as a voice signal d ′ to a voice input terminal D of the same voice section detection unit 9. Then, the voice section detection unit 9 compares the levels of the voice signal a and the voice signal d ′, and when the level difference is larger than the internally determined level difference threshold, the higher level, That is, here, the audio signal a is determined to be a normal generated audio signal, and the audio section and the start end and the end thereof are detected. On the other hand, in the voice section detection unit 10, the levels of the noise level voice signal c input from the output end A of the microphone 2 and the voice signal b ′ output from the output end B of the microphone 1 and input through the delay circuit 12 are compared. In comparison, when the level difference is larger than the internally determined level difference threshold, the one with the larger level, that is, the audio signal b ′ in this case, is determined as the normal uttered audio signal, and the audio Detects the section and the beginning and end. That is, the voice section detection unit 9 detects the original voiced voice of the own system uttered toward the microphone 1, but the voice section detection unit 10 detects the original voiced voice uttered toward the microphone 2 of the own system. Instead of detecting it, the uttered voice uttered toward the microphone 1 of the other system is detected as if uttered toward the microphone 2 of the own system. However, the voice section of the voice signal b ′ detected by the voice section detection unit 10 and its start and end are the voice section of the voice signal a detected by the voice section detection unit 9 and its start end due to the delay in the delay circuit 12. , Is output to the feature extraction unit h after the end. Therefore, the selection unit 7 receives the feature vector sequence g from the feature extraction unit 5 and the feature vector sequence h from the feature extraction unit 6 at the same time.
When the two signals are compared at the same time, the end of the voice signal b'added to the feature vector sequence h is necessarily delayed from the end of the voice signal a added to the feature vector sequence g. become. As a result, the comparison unit 7 selects the feature vector series g on the side whose end is detected earlier and outputs it to the recognition processing unit 8.

【0026】同様に、マイクロフォン2に向って音声が
発生された場合には、音声区間検出部10で検出される
音声信号cの終端の方が音声区間検出部9で検出される
音声信号aの終端より早いので、選択部7はマイクロフ
ォン2側からの特徴ベクトル系列hを選択して認識処理
部8へ出力する。
Similarly, when a voice is generated toward the microphone 2, the end of the voice signal c detected by the voice section detection unit 10 is the voice signal a detected by the voice section detection unit 9. Since it is earlier than the end, the selection unit 7 selects the feature vector series h from the microphone 2 side and outputs it to the recognition processing unit 8.

【0027】このように、マイクロフォン1およびマイ
クロフォン2のいずれの側に向って音声が発声されて
も、音声が発声されたマイクロフォンからの発声音声を
確実に選択して認識処理することができるので、双方の
マイクロフォンの一方を音声入力用および他方を雑音入
力用として限定する必要がなく、例えばマイクロフォン
1を音声入力用として使用するときはマイクロフォン2
が雑音入力用となり、マイクロフォン2を音声入力用と
するときにはマイクロフォン1が雑音入力用となる。
As described above, no matter which side of the microphone 1 and the microphone 2 the voice is uttered, the uttered voice from the microphone in which the voice is uttered can be surely selected and recognized. It is not necessary to limit one of the two microphones for voice input and the other for noise input. For example, when the microphone 1 is used for voice input, the microphone 2 is used.
Is for noise input, and when the microphone 2 is for voice input, the microphone 1 is for noise input.

【0028】[0028]

【発明の効果】以上説明したように本発明によれば、2
入力音声検出を行う音声認識装置において、2つのマイ
クロフォンの一方を音声入力用および他方を雑音入力用
として限定する必要がなく、例えば一方を音声入力用と
した場合は他方が雑音入力用となり、かつ他方を音声入
力用とした場合は一方が雑音入力用となるので、双方の
マイクロフォンを区別することなく音声入力用として使
用することができる。この結果、使用前にマイクロフォ
ンを音声入力用および雑音入力用として確認する煩雑さ
がなくなり、また双方のマイクロフォンの接続系統が相
互に間違っていた場合でもそのまま使用できるため、接
続確認の煩雑さも解消することができ、装置利用上のミ
スを犯すことがない。
As described above, according to the present invention, 2
In a voice recognition device that performs input voice detection, it is not necessary to limit one of the two microphones for voice input and the other for noise input. For example, when one of the two microphones is for voice input, the other is for noise input, and When the other is used for voice input, one is used for noise input, and therefore both microphones can be used for voice input without distinction. As a result, the complexity of checking the microphones for voice input and noise input before use is eliminated, and even if the connection systems of both microphones are incorrect, they can be used as they are, thus eliminating the complexity of connection confirmation. It is possible to make a mistake in using the device.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例を示す音声認識装置のブ
ロック図である。
FIG. 1 is a block diagram of a voice recognition device showing a first embodiment of the present invention.

【図2】本発明の第2の実施例を示す音声認識装置のブ
ロック図である。
FIG. 2 is a block diagram of a voice recognition device showing a second embodiment of the present invention.

【図3】第1の従来例を示すブロック図である。FIG. 3 is a block diagram showing a first conventional example.

【図4】第2と従来例を示すブロック図である。FIG. 4 is a block diagram showing a second example and a conventional example.

【図5】第3の従来例を示すブロック図である。FIG. 5 is a block diagram showing a third conventional example.

【符号の説明】[Explanation of symbols]

1,2 マイクロフォン 3,4 音声区間検出部 5,6 特徴抽出部 7 選択部 8 認識処理部 9,10 音声区間検出部 11,12 遅延回路 a〜f 音声信号 g,h,i 特徴ベクトル系列 b′,d′ 音声信号 1 and 2 Microphones 3 and 4 Speech section detection section 5 and 6 Feature extraction section 7 Selection section 8 Recognition processing section 9 and 10 Speech section detection section 11 and 12 Delay circuit af Speech signals g, h and i Feature vector series b ′, D ′ voice signal

───────────────────────────────────────────────────── フロントページの続き (72)発明者 友岡 靖夫 東京都港区芝五丁目7番1号 日本電気株 式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Yasuo Tomooka 5-7-1, Shiba, Minato-ku, Tokyo NEC Corporation

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 第1および第2のマイクロフォンにより
2入力音声検出を行って発声音声を認識処理する音声認
識装置において、 前記第1のマイクロフォンを音声入力用としたときは前
記第2のマイクロフォンが雑音入力用となり、かつ前記
第2のマイクロフォンを音声入力用にしたときは前記第
1のマイクロフォンが雑音入力用となることを特徴とす
る音声認識装置。
1. A voice recognition device for recognizing an uttered voice by performing two-input voice detection by a first and a second microphone, wherein when the first microphone is used for voice input, the second microphone is A voice recognition device, which is for noise input, and when the second microphone is for voice input, the first microphone is for noise input.
【請求項2】 第1および第2のマイクロフォンにより
2入力音声検出を行って発声音声を認識処理する音声認
識装置において、 第1の音声区間検出手段が、前記第1のマイクロフォン
に向って発声されたときの発声音声を前記第1のマイク
ロフォンの第1の出力端から第1の音声信号として音声
入力端に入力するとともに前記第2のマイクロフォンの
第2の出力端から第1の騒音信号として雑音入力端に入
力して前記第1のマイクロフォンに向って発声された音
声の音声区間を検出しその音声区間の前記第1の音声信
号を切り出して第3の音声信号として出力し、 第2の音声区間検出手段が、前記第2のマイクロフォン
に向って発声されたときの発声音声を前記第2とマイク
ロフォンの第1の出力端から第2の音声信号として音声
入力端に入力するとともに前記第1のマイクロフォンの
第2の出力端から第2と騒音信号として雑音入力端に入
力して前記第2のマイクロフォンに向って発声された音
声の音声区間を検出してその音声区間の前記第2の音声
信号を切り出して第4の音声信号として出力し前記第3
の音声信号および前記第4の音声信号をもとに各各のマ
イクロフォンに向って発声された発声音声の各各を認識
処理することを特徴とする音声認識装置。
2. In a voice recognition device for recognizing an uttered voice by performing two-input voice detection by the first and second microphones, the first voice section detection means is uttered toward the first microphone. The uttered voice is input to the voice input end as a first voice signal from the first output end of the first microphone, and noise is output as a first noise signal from the second output end of the second microphone. The voice section of the voice which is input to the input end and uttered toward the first microphone is detected, the first voice signal in the voice section is cut out and output as a third voice signal, and the second voice is output. The section detecting means outputs the uttered voice when uttered toward the second microphone to the voice input end as the second voice signal from the first output end of the second and microphone. The voice section of the voice uttered toward the second microphone, which is input to the noise input end as a noise signal from the second output end of the first microphone and is applied to the second voice end. The second audio signal is cut out and output as a fourth audio signal, and the third audio signal is output.
A voice recognition device for recognizing each voiced voice uttered toward each microphone based on the voice signal and the fourth voice signal.
【請求項3】 第1および第2のマイクロフォンにより
2入力音声検出を行って発声音声を認識する音声認識装
置において、 第1の音声区間検出手段が、第1のマイクロフォン向っ
て発声されたときの発声音声を前記第1のマイクロフォ
ンの第1の出力端から第1と音声信号として第1の音声
入力端に入力するとともに第2のマイクロフォンの第2
の出力端から第1の騒音信号として第1の遅延手段を通
して第2の音声入力端に入力して前記第1のマイクロフ
ォンに向って発声された音声の音声区間を検出しその音
声区間の前記第1の音声信号を切り出して第3の音声信
号として出力し、 第2の音声区間検出手段が、前記第2のマイクロフォン
に向って発声されたときの発声音声を前記第2のマイク
ロフォンの第1の出力端から第2の音声信号として第1
の音声入力端に入力するとともに前記第1のマイクロフ
ォンの第2の出力端から第2の騒音信号として第2の遅
延手段を通して第2の音声入力端に入力して前記第2の
マイクロフォンに向って発声された音声の音声区間を検
出してその音声区間の前記第2の音声信号を切り出して
第4の音声信号として出力し前記第3の音声信号および
前記第4の音声信号をもとに各各のマイクロフォンに向
って発声された発声音声の各各を認識処理することを特
徴とする音声認識装置。
3. A voice recognition device for recognizing an uttered voice by performing two-input voice detection by the first and second microphones, when the first voice section detecting means is uttered toward the first microphone. The vocalized voice is input from the first output end of the first microphone to the first voice input end as a first and voice signal and the second voice of the second microphone is input.
Is input to the second voice input end through the first delay means as the first noise signal from the output end of the first voice signal, and the voice section of the voice uttered toward the first microphone is detected to detect the voice section of the voice section. The first voice signal is cut out and output as a third voice signal, and the second voice section detecting means outputs a voiced voice when the second voice section is uttered toward the second microphone. The first audio signal from the output end is the first
Of the second microphone from the second output end of the first microphone to the second voice input end through the second delay means toward the second microphone. A voice section of the uttered voice is detected, the second voice signal in the voice section is cut out and output as a fourth voice signal, and each is output based on the third voice signal and the fourth voice signal. A voice recognition device characterized by recognizing each voiced voice uttered toward each microphone.
【請求項4】 発声音声を電気信号に変換する近接して
設置される第1のマイクロフォンおよび第2のマイクロ
フォンと、 前記第1のマイクロフォンの第1の出力端から出力され
る第1の電気信号を第1の入力端に第1の音声信号とし
て入力しかつ前記第2のマイクロフォンの第2の出力端
から出力される第2の電気信号を第2の入力端に第1の
雑音信号として入力して前記第1の音声信号のレベルが
前記第1の雑音信号のレベルより大きいときのみ前記第
1のマイクロフォンに向って発声し出力された前記第1
の音声信号の音声区間を検出して第1の音声区間とする
とともにその第1の音声区間の前記第1の音声信号を切
り出して第2の音声信号として出力する第1の音声検出
手段と、 前記第2のマイクロフォンの第1の出力端から出力され
る前記第2の電気信号を第1の入力端に第3の音声信号
として入力しかつ前記第1のマイクロフォンの第2の出
力端から出力される前記第1の電気信号を第2の入力端
に第2の雑音信号として入力して前記第3の音声信号の
レベルが前記第2の雑音信号のレベルより大きいときの
み前記第2のマイクロフォンに向って発声し出力された
前記第3の音声信号の音声区間を検出して第2の音声区
間とするとともにその第2の音声区間の前記第3の音声
信号を切り出して第4の音声信号として出力する第2の
音声検出手段と、 前記第1の音声検出手段からの前記第3の音声信号の特
徴量を算出して特徴ベクトル系列に変換し第1の特徴ベ
クトル系列として出力する第1の特徴抽出手段と、 前記第2の音声検出手段からの前記第4の音声信号の特
徴量を算出して特徴ベクトル系列に変換し第2の特徴ベ
クトル系列として出力する第2の特徴抽出手段と、 前記第1の特徴抽出手段から入力される前記第1の特徴
ベクトル系列と前記第2の特徴抽出手段から入力される
前記第2の特徴ベクトル系列とを比較して最初に音声区
間の終端が検出された方の特徴ベクトル系列を選択して
第3の特徴ベクトル系列として出力する選択手段と、 前記選択手段から入力される前記第3の特徴ベクトル系
列から前記第1のマイクロフォンあるいは前記第2のマ
イクロフォンに向って発声された発声音声を認識処理す
る認識処理手段と、 を備えることを特徴とする音声認識装置。
4. A first microphone and a second microphone, which are installed close to each other, for converting vocalized voice into an electric signal, and a first electric signal output from a first output end of the first microphone. To a first input end as a first voice signal and a second electric signal output from a second output end of the second microphone to a second input end as a first noise signal. Then, only when the level of the first voice signal is higher than the level of the first noise signal, the first voice output toward the first microphone is output.
First voice detection means for detecting a voice section of the voice signal as a first voice section and cutting out the first voice signal of the first voice section and outputting it as a second voice signal, The second electric signal output from the first output end of the second microphone is input to the first input end as a third audio signal and output from the second output end of the first microphone. The second microphone is input only when the level of the third voice signal is higher than the level of the second noise signal by inputting the first electric signal to the second input terminal as the second noise signal. A voice section of the third voice signal which is uttered toward and is output as a second voice section, and the third voice signal of the second voice section is cut out to obtain a fourth voice signal. Second sound output as A first feature extraction unit that calculates a feature amount of the third audio signal from the first voice detection unit, converts the feature amount into a feature vector sequence, and outputs the feature vector sequence as a first feature vector sequence; Second feature extracting means for calculating a feature amount of the fourth voice signal from the second voice detecting means, converting the feature amount into a feature vector sequence, and outputting as a second feature vector sequence; and the first feature extracting means. From the first feature vector sequence input from the second feature extraction means, and the feature vector sequence whose end of the voice section is detected first is compared with the second feature vector sequence input from the second feature extraction means. For selecting and outputting as a third feature vector sequence, and a selector for inputting from the third feature vector sequence input from the selecting unit to the first microphone or the second microphone. A speech recognition apparatus comprising: a recognition processing unit that recognizes and processes a uttered voice that is uttered.
【請求項5】 前記第1の音声検出手段が、前記第2の
マイクロフォンの第2の出力端から出力される前記第2
の電気信号を所定の第1の遅延時間を有する第1の遅延
手段を通して前記第2の入力端に第5の音声信号として
入力して前記第1のマイクロフォンの第1の出力端から
入力される前記第1の音声信号のレベルと前記第5の音
声信号のレベルとを比較してレベルの大きい方の音声信
号の音声区間を検出して第3の音声区間とするとともに
その第3の音声区間の音声信号を切り出して前記第3の
音声信号として出力し、 前記第2の音声検出手段が、前記第1のマイクロフォン
の第2の出力端から出力される前記第1の電気信号を所
定の第2の遅延時間を有する第2の遅延手段を通して前
記第2の入力端に第6の音声信号として入力して前記第
2のマイクロフォンの第1の出力端から入力される前記
第2の音声信号のレベルと前記第6の音声信号のレベル
とを比較してレベルの大きい方の音声信号の音声区間を
検出して第4の音声区間とするとともにその第3の音声
区間の音声信号を切り出して前記第4の音声信号として
出力することを特徴とする請求項4記載の音声認識装
置。
5. The second audio signal output from the second output end of the second microphone by the first voice detection means.
Electrical signal is input to the second input terminal as a fifth audio signal through a first delay unit having a predetermined first delay time, and is input from a first output terminal of the first microphone. The level of the first audio signal and the level of the fifth audio signal are compared to detect the audio section of the audio signal of the higher level to make the third audio section, and the third audio section. Of the audio signal is output as the third audio signal, and the second audio detecting means outputs the first electric signal output from the second output end of the first microphone to a predetermined first audio signal. A second audio signal input to the second input terminal as a sixth audio signal through a second delay means having a delay time of 2 and input from the first output terminal of the second microphone; Of the level and the sixth audio signal Comparing with the level, the voice section of the voice signal of the higher level is detected and set as the fourth voice section, and the voice signal of the third voice section is cut out and output as the fourth voice signal. The voice recognition device according to claim 4, wherein
JP7279987A 1995-10-27 1995-10-27 Voice recognition device Expired - Fee Related JP2990051B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7279987A JP2990051B2 (en) 1995-10-27 1995-10-27 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7279987A JP2990051B2 (en) 1995-10-27 1995-10-27 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH09127982A true JPH09127982A (en) 1997-05-16
JP2990051B2 JP2990051B2 (en) 1999-12-13

Family

ID=17618732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7279987A Expired - Fee Related JP2990051B2 (en) 1995-10-27 1995-10-27 Voice recognition device

Country Status (1)

Country Link
JP (1) JP2990051B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001039934A1 (en) * 1999-11-30 2001-06-07 Japan Science And Technology Corporation Robot acoustic device
JP2007053511A (en) * 2005-08-17 2007-03-01 Sony Corp Speech processing device and microphone apparatus
KR100855592B1 (en) * 2007-01-11 2008-09-01 (주)에이치씨아이랩 Apparatus and method for robust speech recognition of speaker distance character
WO2019016938A1 (en) * 2017-07-21 2019-01-24 三菱電機株式会社 Speech recognition device and speech recognition method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001039934A1 (en) * 1999-11-30 2001-06-07 Japan Science And Technology Corporation Robot acoustic device
US7016505B1 (en) 1999-11-30 2006-03-21 Japan Science And Technology Agency Robot acoustic device
JP2007053511A (en) * 2005-08-17 2007-03-01 Sony Corp Speech processing device and microphone apparatus
JP4696776B2 (en) * 2005-08-17 2011-06-08 ソニー株式会社 Audio processing device and microphone device
KR100855592B1 (en) * 2007-01-11 2008-09-01 (주)에이치씨아이랩 Apparatus and method for robust speech recognition of speaker distance character
WO2019016938A1 (en) * 2017-07-21 2019-01-24 三菱電機株式会社 Speech recognition device and speech recognition method

Also Published As

Publication number Publication date
JP2990051B2 (en) 1999-12-13

Similar Documents

Publication Publication Date Title
EP0763811B1 (en) Speech signal processing apparatus for detecting a speech signal
EP1933303B1 (en) Speech dialog control based on signal pre-processing
EP1159737B9 (en) Speaker recognition
US4610023A (en) Speech recognition system and method for variable noise environment
JP4531166B2 (en) Speech recognition method using reliability measure evaluation
US20130054236A1 (en) Method for the detection of speech segments
EP0757342A2 (en) User selectable multiple threshold criteria for voice recognition
JP3451146B2 (en) Denoising system and method using spectral subtraction
EP0459384B1 (en) Speech signal processing apparatus for cutting out a speech signal from a noisy speech signal
JPH08185196A (en) Device for detecting speech section
JP3069531B2 (en) Voice recognition method
JP2000310993A (en) Voice detector
JP2019020678A (en) Noise reduction device and voice recognition device
KR20030010432A (en) Apparatus for speech recognition in noisy environment
JPH09127982A (en) Voice recognition device
JPH06236196A (en) Method and device for voice recognition
JP3106543B2 (en) Audio signal processing device
JP2005157086A (en) Speech recognition device
CN111226278B (en) Low complexity voiced speech detection and pitch estimation
JPH04230796A (en) Voice signal processor
JPH11327593A (en) Voice recognition system
JP2737109B2 (en) Voice section detection method
JP2648014B2 (en) Audio clipping device
JP3484559B2 (en) Voice recognition device and voice recognition method
JP2666296B2 (en) Voice recognition device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990921

LAPS Cancellation because of no payment of annual fees