JP3550871B2 - Voice recognition method and apparatus - Google Patents
Voice recognition method and apparatus Download PDFInfo
- Publication number
- JP3550871B2 JP3550871B2 JP10728496A JP10728496A JP3550871B2 JP 3550871 B2 JP3550871 B2 JP 3550871B2 JP 10728496 A JP10728496 A JP 10728496A JP 10728496 A JP10728496 A JP 10728496A JP 3550871 B2 JP3550871 B2 JP 3550871B2
- Authority
- JP
- Japan
- Prior art keywords
- recognized
- speech
- predetermined
- threshold
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識方法及び装置、特に、背景雑音のある環境下にて音声の認識を行う技術に関する。
【0002】
【従来の技術】
音声認識の技術が応用される分野として、音声によって電気機器の操作を行う音声操作スイッチがある。この音声操作スイッチの音声認識装置の構成としては、図6に示すものが知られている。このものは、音声信号を入力するマイクロフォン1から出力される音声信号を所定の周波数帯域にて弁別する弁別手段に相当する複数の周波数帯域の異なる帯域フィルタ2に入力し、該帯域フィルタ2からの出力を比較手段に相当する比較器3によって所定の閾値と比較する。そして、比較器3の出力を演算する演算手段に相当するAND回路5によって、音声信号の所定の信号スペクトルの全てのものの大きさが、所定の大きさ以上か否かを演算するものである。このものにおいては、比較器3の閾値は、所定の音声を所定の認識水準にて認識する事を前提にし、認識しようとする音声によってそれぞれ所定の異なる値に設定される。
【0003】
【発明が解決しようとする課題】
ところで、上記の音声操作スイッチにおいては、使用される環境は、認識を必要とする音声以外の音すなわち背景雑音があることが多く、認識しようとする音声信号に比べ背景雑音の音圧レベルが大きいこともあり、この様な場合には誤認識するといった問題があった。
【0004】
本発明は、上記事由に鑑みてなしたもので、その目的とするところは、背景雑音があっても誤認識する事がなく確実に音声を認識する技術を提供することにある。
【0005】
【課題を解決するための手段】
上記目的を達成するために、請求項1記載の音声認識方法は、認識対象の音声を認識する方法において、背景雑音とともに前記認識対象の音声信号を入力する音声入力手段と、該音声信号を少なくとも2つの所定の周波数帯域によって弁別する弁別手段と、該弁別手段からのそれぞれの出力レベルを閾値と比較する比較手段と、認識対象の音声以外の背景雑音に基づき前記閾値を変化する閾値制御手段と、前記比較手段からの出力を演算する演算手段と、を備え、前記閾値制御手段は、音声信号の信号スペクトルを演算し出力するスペクトル演算部と、該スペクトル演算部からのスペクトル出力が所定の時間に所定の閾値を越える回数を計数する計数部とを有し、前記音声入力手段により入力された音声信号を前記弁別手段で少なくとも2つの所定の周波数帯域によって弁別し、該周波数帯域のそれぞれの出力レベルを前記比較手段により前記閾値制御手段にて変化される閾値と比較し、比較した結果を前記演算手段で演算することによって前記認識対象の音声を認識することとしている。これにより、少なくとも2つの周波数帯域によって弁別したそれぞれの出力レベルが認識対象の音声以外の背景雑音に基づき閾値を変化して比較され、音声が認識され、しかも、この場合、弁別手段によって所定の周波数帯域により弁別された出力は、認識対象の音声以外の背景雑音がスペクトル演算部によって信号スペクトルが演算されて計数部によって該スペクトル出力が所定の時間に所定の閾値を越える回数が計数されて閾値が変化される比較手段によって比較されるものとなる。
【0006】
また、請求項2記載の音声認識装置は、認識対象の音声を認識する装置において、背景雑音とともに前記認識対象の音声信号を入力する音声入力手段と、該音声信号を少なくとも2つの所定の周波数帯域によって弁別する弁別手段と、該弁別手段からのそれぞれの出力レベルを閾値と比較する比較手段と、認識対象の音声以外の背景雑音に基づき前記閾値を変化する閾値制御手段と、前記比較手段からの出力を演算する演算手段と、を備え、前記閾値制御手段は、音声信号の信号スペクトルを演算し出力するスペクトル演算部と、該スペクトル演算部からのスペクトル出力が所定の時間に所定の閾値を越える回数を計数する計数部とを有することとしている。これにより、音声入力手段から入力された音声信号が少なくとも2つの弁別手段によって所定の周波数帯域により弁別されて出力され、閾値制御手段によって認識対象の音声以外の背景雑音に基づき閾値が制御され変化する比較手段によって比較され、演算手段により演算されて認識され、しかも、この場合、弁別手段によって所定の周波数帯域により弁別された出力は、認識対象の音声以外の背景雑音がスペクトル演算部によって信号スペクトルが演算されて計数部によって該スペクトル出力が所定の時間に所定の閾値を越える回数が計数されて閾値が変化される比較手段によって比較されるものとなる。
【0007】
また、請求項3記載の音声認識装置は、請求項2記載の弁別手段の周波数帯域の中心を、認識する所定の音声におけるフォルマント周波数とすることとしている。これにより、音声信号が所定の音声におけるフォルマント周波数を中心周波数とする周波数帯域によって弁別されるものとなる。
【0008】
また、請求項4記載の音声認識装置は、請求項2又は3記載の比較手段は、入力側の弁別手段の周波数帯域の高いものの閾値を入力側の弁別手段の周波数帯域の低いものの閾値より小さくすることとしている。これにより、音声信号の周波数帯域の高い信号成分は周波数帯域の低い信号成分よりも低い閾値によって比較されるものとなる。
【0012】
【発明の実施の形態】
以下、本発明の音声認識装置の第1の実施の形態を図1乃至図3に基づいて、第1の参考の形態を図4に基づいて、第2の参考の形態を図5に基づいて、それぞれ説明する。
【0013】
[第1の実施の形態]
図1は、第1の実施の形態の音声認識装置を示す機能ブロック図である。図2は、図1に示す音声認識装置の比較器の閾値の説明図である。図3は、図1に示す音声認識装置のノイズモニタの構成図である。
【0014】
この音声認識装置は、音声の応答によって通話を開始する拡声通話装置等にて認識対象の音声を認識するもので、音声入力手段に相当するマイクロフォン1と、所定の周波数帯域によって弁別する弁別手段に相当する3つの帯域フィルタ2と、比較手段に相当する比較器3と、閾値制御手段に相当するノイズモニタ4と、演算手段に相当するAND回路5と、を備えている。
【0015】
マイクロフォン1は、背景雑音とともに認識対象の音声信号を入力するもので、それに限定されるものではないが、この実施の形態では小型のコンデンサ型マイクロフォンによって構成される。
【0016】
帯域フィルタ2は、マイクロフォン1から出力される音声信号を所定の周波数帯域によって弁別するもので、この実施の形態では3つの周波数帯域の帯域フィルタ2a、2b、2cがそれぞれ並列に接続される。この帯域フィルタ2は、所定の帯域の音声信号を通過させるバンドパスフィルタで、通過する周波数帯域の中心周波数を、認識する「はい」という音声におけるフォルマント周波数としている。フォルマント周波数は、所定の音声波形のスペクトルのエネルギーの集中部分の周波数で、この実施の形態では、例えば応答のための「はい」という音声を認識することとしている。そして、帯域フィルタ2aを第1フォルマント周波数f1の250Hz、帯域フィルタ2bを第2フォルマント周波数f2の800Hz、帯域フィルタ2cを第3フォルマント周波数f3の1400Hzとしている。そして、それぞれの帯域フィルタの通過周波数帯域を、帯域フィルタ2aの通過周波数帯域W1を200〜300Hz、帯域フィルタ2bの通過周波数帯域W2を700〜900Hz、帯域フィルタ2cの通過周波数帯域W1を1200〜1600Hzとしている。
【0017】
比較器3は、帯域フィルタ2からのそれぞれの出力レベルを閾値と比較するもので、3つの帯域フィルタにそれぞれ接続される。この3つの比較器3a、3b、3cは、それぞれ、帯域フィルタ2a、2b、2cからの出力が入力され、それぞれ所定の閾値Va、Vb、Vcを有してそれぞれの出力レベルを比較する。この比較器3のそれぞれの閾値Va、Vb、Vcは、図2に示すように、入力側の帯域フィルタ2の周波数帯域の高いものの閾値を入力側の帯域フィルタ2の周波数帯域の低いものの閾値より小さくなるよう、Va>Vb>Vcの条件によって、例えば「はい」という音声を認識しうるようそれぞれ設定されている。また、この閾値Va、Vb、Vcは、後述するノイズモニタ4の出力によって変化する。
【0018】
ノイズモニタ4は、マイクロフォン1から出力される音声信号において認識対象の音声以外の背景雑音に基づき前記閾値を変化するもので、スペクトル演算部4aと、該スペクトル演算部4aのスペクトル出力が所定の時間に所定の閾値を越える回数を計数する計数部4bと、計数部4bの計数結果によって閾値をそれぞれ制御する閾値制御部4cとを有して構成される。スペクトル演算部4aは、音声信号の信号スペクトルを演算し出力するもので、それに限定されるものではないが、この実施の形態ではディジタルシグナルプロセッサー(DSP)によって構成される。このノイズモニタ4により、マイクロフォン1から出力される認識対象の音声以外の背景雑音が、スペクトル演算部4aによって信号スペクトルが演算されて出力され、計数部4bによって該信号スペクトル出力が所定の時間に所定の閾値を越える回数が計数される。そして、信号スペクトル出力が所定の時間において所定の閾値を越える回数が多い場合は背景雑音があると判定して前記閾値Va、Vb、Vcを変化させる。
【0019】
AND回路5は、比較器3からの出力を演算するもので、このものにおいては3つの入力の積算の論理演算を行うAND回路によって構成されている。このAND回路5の出力は、比較器3a、3b、3cの出力が全てオンのときのみにオンを出力する。
【0020】
次に、以上説明した音声認識装置によって認識対象の音声を認識する動作について説明する。
【0021】
マイクロフォン1に向かって音声を入力すると、マイクロフォン1から入力された音声に基づく音声信号が出力される。この音声信号は、所定の増幅回路によって増幅された後帯域フィルタ2a、2b、2cにそれぞれ入力され、帯域フィルタ2aは所定の通過周波数帯域W1である200〜300Hz、帯域フィルタ2bは通過周波数帯域W2である700〜900Hz、帯域フィルタ2cは通過周波数帯域W3である1200〜1600Hzの間の音声周波数成分のみを通過させ出力する。そして、これら3つの出力は、それぞれ比較器3a、3b、3cに入力され、それぞれ所定の閾値Va、Vb、Vcと比較され閾値より入力が大きい場合、比較器はオンを出力する。この閾値Va、Vb、Vcは、ノイズモニタ4によって制御されている。
【0022】
この閾値Va、Vb、Vcは、マイクロフォン1から入力された音声に基づく音声信号が所定の増幅回路(図示せず)によって増幅された後、ノイズモニタ4のスペクトル演算部4aに入力され入力信号の信号スペクトルが演算により求められて制御される。即ち、信号スペクトルが計数部4bに入力され、信号スペクトルが所定の時間において所定の閾値を越える回数が多い場合は背景雑音があると判定され、閾値制御部4cによって閾値がそれぞれ変化される。そして、比較器3a、3b、3cの全てがオンの出力をAND回路5に入力した場合のみAND回路5の出力がオンとなり、所定の音声である「はい」という音声が認識される。
【0023】
以上説明した実施の形態の音声認識装置によると、マイクロフォン1から入力された音声信号が3つの帯域フィルタ2によって所定の周波数帯域により弁別されて出力され、ノイズモニタ4によって認識対象の音声以外の背景雑音に基づき閾値が制御され変化する比較器3によって比較され、AND回路5により演算されて認識されるものとなるので、背景雑音があっても誤認識する事がなく確実に音声を認識することができる。また、音声信号が所定の音声におけるフォルマント周波数を中心周波数とする周波数帯域によって弁別されるものとなるので、認識対象である所定の音声の認識能力が向上する。また、音声信号の周波数帯域の高い信号成分は周波数帯域の低い信号成分よりも低い閾値によって比較されるものとなるので、例えば音声認識装置の電源回路のトランスの振動による低い周波数の背景雑音があっても、認識対象である所定の音声を確実に認識できる。また、帯域フィルタ2によって所定の周波数帯域により弁別された出力は、認識対象の音声以外の背景雑音がノイズモニタ4のスペクトル演算部4aによって信号スペクトルが演算されて、計数部4bにより該信号スペクトル出力が所定の時間に所定の閾値を越える回数が計数され閾値が変化される比較器3によって比較されるものとなるので、背景雑音の特徴に見合って閾値が制御されて変化し、認識対象である所定の音声の認識能力が向上する。
【0024】
[第1の参考の形態]
図4は、第1の参考の形態の音声認識装置のノイズモニタの構成図である。
【0025】
この音声認識装置は、第1の実施の形態の音声認識装置のノイズモニタ4の構成のみ異なるもので、他の部分は同一に構成される。
【0026】
このもののノイズモニタ4も、マイクロフォン1から出力される音声信号において認識対象の音声以外の背景雑音に基づき3つの比較器3a、3b、3cの閾値Va、Vb、Vcを変化するもので、平均値演算部4dと、該平均値演算部4dからの平均値演算出力を比較する比較部4eと、比較部4eの比較結果によって閾値をそれぞれ制御する閾値制御部4fとを有する。平均値演算部4dは、音声信号を長さの異なる時間にわたって入力レベルの平均値を演算し出力するもので、例えば、入力レベルの平均値を演算する演算時間を異なった値を持つ第1平均値演算部及び第2平均値演算部によって構成される。このノイズモニタ4により、マイクロフォン1から出力される認識対象の音声以外の背景雑音が、平均値演算部4d即ち第1平均値演算部と第2平均値演算部によって長さの異なる時間にわたって入力レベルの平均値が演算された後、比較部4eによって比較される。そして、短時間平均値出力>長時間平均値出力の場合は音声入力、短時間平均値出力<長時間平均値出力の場合は背景雑音入力と判定して前記閾値Va、Vb、Vcを変化させる。なお、平均値演算部4dは、平均値演算時間の異なる第1平均値演算部と第2平均値演算部による構成に限定するものでなく、DSPによって構成してもよい。
【0027】
以上説明した参考の形態の音声認識装置によると、帯域フィルタ2によって所定の周波数帯域により弁別された出力は、認識対象の音声以外の背景雑音が平均値演算部4dによって長さの異なる時間にわたって入力レベルの平均値が演算された後それぞれを比較して閾値が変化される比較手段によって比較されるものとなるので、背景雑音の継続時間に見合って閾値が制御されて変化し、認識対象である所定の音声の認識能力が向上する。
【0028】
[第2の参考の形態]
図5は、第2の参考の形態の音声認識装置を示す機能ブロック図である。
【0029】
この音声認識装置は、音声入力手段に相当するマイクロフォン1と、所定の音素別に弁別する弁別手段に相当する3つの音素検知回路6と、演算手段に相当する演算器7と、を備えている。
【0030】
マイクロフォン1は、第1の実施の形態のものと同一のものによって構成される。
【0031】
音素検知回路6は、マイクロフォン1から出力される音声信号を所定の音素別に弁別するもので、この実施の形態では3つのものがそれぞれ並列に接続される。この音素検知回路6は、所定の音声の音素を検知するもので、帯域フィルタが、通過する音声信号の所定の音素を検出するフォルマント周波数の周波数帯域の中心周波数と所定の閾値とを持って構成されている。音素検知回路6は、この実施の形態においては、例えば認識する「はい」という音声における「h」、「a」、「i」の3つの音素を検知する音素検知回路6a、6b、6cを持って構成されている。
【0032】
演算器7は、音素検知回路6からの出力を演算するもので、音素検知回路6a、6b、6cからの3つの出力が所定の順に出力されることを識別する識別回路によって構成されている。この演算器7の出力は、音素検知回路6a、6b、6cからの入力が、最初に「h」の音素検知回路である6aから入力され、次に「a」の音素検知回路である6bから入力され、次に「i」の音素検知回路である6cから入力されときのみにオンが出力される。
【0033】
以上説明した参考の形態の音声認識装置によると、マイクロフォン1から入力された音声信号が3つの音素検知回路6a、6b、6cによって所定の音素別に弁別して出力され、演算器5によって所定の順に出力されることが識別されて認識されるものとなるので、認識対象の所定の音声の音素に見合って出力の順が認識され所定の音声の認識能力が向上する。
【0034】
【発明の効果】
以上説明したように、本発明の音声認識方法及び装置によれば、少なくとも2つの周波数帯域によって弁別したそれぞれの出力レベルが認識対象の音声以外の背景雑音に基づき閾値を変化して比較され、音声が認識されるので、背景雑音があっても誤認識する事がなく確実に音声を認識することができる。しかも、弁別手段によって所定の周波数帯域により弁別された出力は、認識対象の音声以外の背景雑音がスペクトル演算部によって信号スペクトルが演算されて計数部によって該スペクトル出力が所定の時間に所定の閾値を越える回数が計数されて閾値が変化される比較手段によって比較されるものとなるので、背景雑音の特徴に見合って閾値が制御されて変化し、認識対象である所定の音声の認識能力が向上する。
【0035】
また、請求項3記載の音声認識装置は、請求項2記載のものの効果に加え、音声信号が所定の音声におけるフォルマント周波数を中心周波数とする周波数帯域によって弁別されるものとなるので、認識対象である所定の音声の認識能力が向上する。
【0036】
また、請求項4記載の音声認識装置は、請求項2又は3記載のものの効果に加え、音声信号の周波数帯域の高い信号成分は周波数帯域の低い信号成分よりも低い閾値によって比較されるものとなるので、例えば音声認識装置の電源回路のトランスの振動による低い周波数の背景雑音があっても、認識対象である所定の音声を確実に認識できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の音声認識装置を示す機能ブロック図である。
【図2】図1に示す、音声認識装置の比較器の閾値の説明図である。
【図3】図1に示す、音声認識装置のノイズモニタの構成図である。
【図4】第1の参考の形態の音声認識装置のノイズモニタの構
【図5】第2の参考の形態の音声認識装置を示す機能ブロック図である。
【図6】従来例を示す機能ブロック図である。
【符号の説明】
1 マイクロフォン(音声入力手段)
2 帯域フィルタ(弁別手段)
3 比較器(比較手段)
4 ノイズモニタ(閾値制御手段)
5 AND回路(演算手段)
6 音素検知回路(弁別手段)
7 演算器(演算手段)[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech recognition method and apparatus, and more particularly to a technique for recognizing speech in an environment with background noise.
[0002]
[Prior art]
As a field to which voice recognition technology is applied, there is a voice operation switch for operating an electric device by voice. FIG. 6 shows a known configuration of the voice recognition device for the voice operation switch. This device inputs an audio signal output from a microphone 1 for inputting an audio signal to a
[0003]
[Problems to be solved by the invention]
By the way, in the above-mentioned voice operation switch, a used environment often includes a sound other than the voice that needs to be recognized, that is, background noise, and the sound pressure level of the background noise is higher than the voice signal to be recognized. In such a case, there is a problem that the recognition is erroneous.
[0004]
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique for reliably recognizing speech without erroneous recognition even if there is background noise.
[0005]
[Means for Solving the Problems]
In order to achieve the above object, a speech recognition method according to claim 1 is a method for recognizing a speech to be recognized, wherein the speech input means inputs the speech signal to be recognized together with background noise; Discriminating means for discriminating by two predetermined frequency bands, comparing means for comparing each output level from the discriminating means with a threshold value, and threshold value controlling means for changing the threshold value based on background noise other than speech to be recognized. Computing means for computing an output from the comparing means, wherein the threshold value controlling means computes and outputs a signal spectrum of the audio signal, and a spectrum output from the spectrum computing section is operated for a predetermined time. and a counting section for counting the number of times exceeding a predetermined threshold value, at least two in said discriminating means an audio signal inputted by said voice input means Discriminating a predetermined frequency band, the recognition target by comparing a threshold with which changes in the threshold control means by said comparing means each output level of the frequency band, and calculates the result of comparison by the arithmetic means Is to recognize the voice. Thus, compared to changing the threshold based on at least two respective output level background noise other than the voice to be recognized that discriminated by the frequency band, the sound is recognized, moreover, in this case, the predetermined frequency by discriminator For the output discriminated by the band, the background noise other than the speech to be recognized is subjected to a signal spectrum calculation by a spectrum calculation unit, and the counting unit counts the number of times that the spectrum output exceeds a predetermined threshold at a predetermined time, and the threshold is determined. that Do shall be compared by altered by the comparison means.
[0006]
A speech recognition apparatus according to
[0007]
In the voice recognition device according to the third aspect, the center of the frequency band of the discriminating means according to the second aspect is a formant frequency in a predetermined voice to be recognized. As a result, the audio signal is discriminated by the frequency band having the center frequency of the formant frequency of the predetermined audio.
[0008]
According to a fourth aspect of the present invention, in the speech recognition apparatus according to the second or third aspect, the threshold of the input-side discriminating unit having a high frequency band is smaller than the threshold of the input-side discriminating unit having a low frequency band. I'm going to do that. As a result, a signal component having a high frequency band of the audio signal is compared with a signal component having a low frequency band using a lower threshold.
[0012]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, a first embodiment of the voice recognition device of the present invention will be described with reference to FIGS. 1 to 3, a first reference embodiment will be described with reference to FIG. 4, and a second reference embodiment will be described based on FIG. , Respectively.
[0013]
[First Embodiment]
FIG. 1 is a functional block diagram illustrating the voice recognition device according to the first embodiment. FIG. 2 is an explanatory diagram of a threshold value of a comparator of the speech recognition device shown in FIG. FIG. 3 is a configuration diagram of a noise monitor of the voice recognition device shown in FIG.
[0014]
This voice recognition device recognizes a voice to be recognized by a loudspeaker device or the like that starts a call by responding to a voice. The voice recognition device includes a microphone 1 corresponding to a voice input device and a discrimination device that discriminates a predetermined frequency band. There are provided three
[0015]
The microphone 1 inputs a speech signal to be recognized together with background noise, and is not limited to this. In this embodiment, the microphone 1 is configured by a small condenser microphone.
[0016]
The
[0017]
The
[0018]
The noise monitor 4 changes the threshold based on background noise other than the speech to be recognized in the speech signal output from the microphone 1. The noise monitor 4 has a spectrum calculation unit 4a and a spectrum output from the spectrum calculation unit 4a for a predetermined time. A counting unit 4b for counting the number of times exceeding a predetermined threshold value, and a threshold value control unit 4c for controlling the threshold value based on the counting result of the counting unit 4b. The spectrum calculator 4a calculates and outputs the signal spectrum of the audio signal, and is not limited to this, but is configured by a digital signal processor (DSP) in this embodiment. The noise monitor 4 outputs a background noise other than the speech to be recognized output from the microphone 1 after a signal spectrum is calculated by a spectrum calculator 4a and output by the counter 4b at a predetermined time. The number of times exceeding the threshold is counted. If the number of times that the signal spectrum output exceeds the predetermined threshold in a predetermined time is large, it is determined that there is background noise, and the thresholds Va, Vb, and Vc are changed.
[0019]
The AND
[0020]
Next, an operation of recognizing a recognition target voice by the above-described voice recognition device will be described.
[0021]
When a voice is input toward the microphone 1, a voice signal based on the voice input from the microphone 1 is output. The audio signal is amplified by a predetermined amplifier circuit and then input to
[0022]
The thresholds Va, Vb, and Vc are determined by inputting the audio signal based on the audio input from the microphone 1 to a spectrum calculator 4a of the noise monitor 4 after the audio signal is amplified by a predetermined amplifier circuit (not shown). The signal spectrum is calculated and controlled. That is, the signal spectrum is input to the counting unit 4b, and if the number of times the signal spectrum exceeds the predetermined threshold value in a predetermined time is large, it is determined that there is background noise, and the threshold value is changed by the threshold control unit 4c. The output of the AND
[0023]
According to the speech recognition apparatus of the embodiment described above, the speech signal input from the microphone 1 is discriminated by a predetermined frequency band by the three
[0024]
First of reference of the form]
Figure 4 is a block diagram of a noise monitor of the voice recognition device of the first reference embodiment.
[0025]
This speech recognition apparatus differs from the speech recognition apparatus according to the first embodiment only in the configuration of the
[0026]
The noise monitor 4 also changes the thresholds Va, Vb, Vc of the three
[0027]
According to the speech recognition apparatus of the reference embodiment described above, the output discriminated by the
[0028]
[ Second Reference Form]
Figure 5 is a functional block diagram showing a speech recognition apparatus of a second reference embodiment.
[0029]
This voice recognition device includes a microphone 1 corresponding to voice input means, three
[0030]
The microphone 1 is configured by the same one as that of the first embodiment.
[0031]
The
[0032]
The
[0033]
Or According to the speech recognition device references the embodiment described, the audio signal inputted from the microphone 1 is three
[0034]
【The invention's effect】
As described above, according to the speech recognition method and apparatus of the present invention, each output level discriminated by at least two frequency bands is compared by changing the threshold based on background noise other than the speech to be recognized, and Is recognized, so that even if there is background noise, speech can be reliably recognized without erroneous recognition. In addition, the output discriminated by the predetermined frequency band by the discriminating means is such that the background noise other than the speech to be recognized is processed by the spectrum calculation unit to calculate a signal spectrum, and the spectrum output is set to a predetermined threshold by the counting unit at a predetermined time. Since the number of times exceeds the threshold value and the threshold value is changed by the comparing means, the threshold value is controlled and changed in accordance with the characteristic of the background noise, and the recognition ability of the predetermined speech to be recognized is improved. .
[0035]
In addition, in addition to the effects of the second aspect, the voice recognition apparatus according to the third aspect is characterized in that the voice signal is discriminated by a frequency band having a center frequency around a formant frequency in a predetermined voice. The ability to recognize a given voice is improved.
[0036]
In addition, the speech recognition device according to the fourth aspect has the same effects as those of the second or third aspect, and furthermore, a signal component having a higher frequency band of the audio signal is compared with a signal component having a lower frequency band by using a lower threshold value. Therefore, even if there is low-frequency background noise due to, for example, the vibration of the transformer of the power supply circuit of the voice recognition device, the predetermined voice to be recognized can be reliably recognized.
[Brief description of the drawings]
FIG. 1 is a functional block diagram showing a voice recognition device according to a first embodiment of the present invention.
FIG. 2 is an explanatory diagram of a threshold value of a comparator of the speech recognition device shown in FIG.
FIG. 3 is a configuration diagram of a noise monitor of the voice recognition device shown in FIG. 1;
4 is a functional block diagram showing a speech recognition apparatus of the first configuration [5] of the noise monitor of the voice recognition device of Reference Embodiment second reference embodiment.
FIG. 6 is a functional block diagram showing a conventional example.
[Explanation of symbols]
1 microphone (voice input means)
2 Band filter (discriminating means)
3. Comparator (comparing means)
4 Noise monitor (threshold control means)
5 AND circuit (arithmetic means)
6. Phoneme detection circuit (discrimination means)
7 Computing unit (computing means)
Claims (4)
背景雑音とともに前記認識対象の音声信号を入力する音声入力手段と、該音声信号を少なくとも2つの所定の周波数帯域によって弁別する弁別手段と、該弁別手段からのそれぞれの出力レベルを閾値と比較する比較手段と、認識対象の音声以外の背景雑音に基づき前記閾値を変化する閾値制御手段と、前記比較手段からの出力を演算する演算手段と、を備え、前記閾値制御手段は、音声信号の信号スペクトルを演算し出力するスペクトル演算部と、該スペクトル演算部からのスペクトル出力が所定の時間に所定の閾値を越える回数を計数する計数部とを有し、
前記音声入力手段により入力された音声信号を前記弁別手段で少なくとも2つの所定の周波数帯域によって弁別し、該周波数帯域のそれぞれの出力レベルを前記比較手段により前記閾値制御手段にて変化される閾値と比較し、比較した結果を前記演算手段で演算することによって前記認識対象の音声を認識することを特徴とする音声認識方法。In the method of recognizing a speech to be recognized,
Voice input means for inputting the voice signal to be recognized together with background noise, discriminating means for discriminating the voice signal by at least two predetermined frequency bands, and comparing each output level from the discriminating means with a threshold value Means, threshold control means for changing the threshold based on background noise other than speech to be recognized, and arithmetic means for calculating an output from the comparison means, wherein the threshold control means comprises a signal spectrum of an audio signal. Has a counting unit that counts the number of times that a spectrum output from the spectrum calculation unit exceeds a predetermined threshold at a predetermined time,
The audio signal input by the audio input means is discriminated by the discriminating means by at least two predetermined frequency bands, and the output level of each of the frequency bands is changed by the comparing means to a threshold value changed by the threshold control means. A speech recognition method comprising: recognizing the speech to be recognized by comparing and comparing the result of the comparison with the computing unit .
背景雑音とともに前記認識対象の音声信号を入力する音声入力手段と、該音声信号を少なくとも2つの所定の周波数帯域によって弁別する弁別手段と、該弁別手段からのそれぞれの出力レベルを閾値と比較する比較手段と、認識対象の音声以外の背景雑音に基づき前記閾値を変化する閾値制御手段と、前記比較手段からの出力を演算する演算手段と、を備え、前記閾値制御手段は、音声信号の信号スペクトルを演算し出力するスペクトル演算部と、該スペクトル演算部からのスペクトル出力が所定の時間に所定の閾値を越える回数を計数する計数部とを有することを特徴とする音声認識装置。In a device for recognizing a speech to be recognized,
Voice input means for inputting the voice signal to be recognized together with background noise, discriminating means for discriminating the voice signal by at least two predetermined frequency bands, and comparing each output level from the discriminating means with a threshold value Means, threshold control means for changing the threshold based on background noise other than speech to be recognized, and arithmetic means for calculating an output from the comparison means , wherein the threshold control means comprises a signal spectrum of an audio signal. a spectrum calculating unit for calculating and outputting a speech recognition apparatus which spectral output is characterized Rukoto to have a counting unit for counting the number of times exceeding a predetermined threshold in a predetermined time from the spectrum calculating unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10728496A JP3550871B2 (en) | 1996-04-26 | 1996-04-26 | Voice recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10728496A JP3550871B2 (en) | 1996-04-26 | 1996-04-26 | Voice recognition method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09292894A JPH09292894A (en) | 1997-11-11 |
JP3550871B2 true JP3550871B2 (en) | 2004-08-04 |
Family
ID=14455191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10728496A Expired - Fee Related JP3550871B2 (en) | 1996-04-26 | 1996-04-26 | Voice recognition method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3550871B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051464A (en) * | 2006-04-06 | 2007-10-10 | 株式会社东芝 | Registration and varification method and device identified by speaking person |
-
1996
- 1996-04-26 JP JP10728496A patent/JP3550871B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09292894A (en) | 1997-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3156975B2 (en) | Audio / music discriminator for audio band signals | |
US5867581A (en) | Hearing aid | |
US6285979B1 (en) | Phoneme analyzer | |
WO1999021396A1 (en) | Howling eliminator | |
EP1629691A1 (en) | Oscillation suppression | |
EP2460156A1 (en) | Method and device for eliminating background noise | |
US20140064529A1 (en) | Apparatus and method of shielding external noise for use in hearing aid device | |
WO2005119649A1 (en) | System and method for babble noise detection | |
JP3550871B2 (en) | Voice recognition method and apparatus | |
JP3134557B2 (en) | Howling suppression device | |
US7302070B2 (en) | Oscillation detection | |
US11490198B1 (en) | Single-microphone wind detection for audio device | |
WO2002069487A1 (en) | Dve system with instability detection | |
JPH02232697A (en) | Voice recognition device | |
US6633847B1 (en) | Voice activated circuit and radio using same | |
KR20210029816A (en) | Transmission control for audio devices using auxiliary signals | |
JP4714861B2 (en) | Pedestrian signal acoustic device | |
JPH0956000A (en) | Hearing aid | |
JPH0424692A (en) | Voice section detection system | |
JPH02176796A (en) | Speech recognition device | |
EP1632106A1 (en) | Oscillation detection | |
US20070106530A1 (en) | Oscillation suppression | |
JPH03122699A (en) | Noise removing device and voice recognition device using same device | |
JP2975712B2 (en) | Audio extraction method | |
JP2000352987A (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040330 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040412 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080514 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090514 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090514 Year of fee payment: 5 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090514 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100514 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100514 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110514 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120514 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120514 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |