JP4301896B2 - Signal analysis device, voice recognition device, program, recording medium, and electronic device - Google Patents
Signal analysis device, voice recognition device, program, recording medium, and electronic device Download PDFInfo
- Publication number
- JP4301896B2 JP4301896B2 JP2003299346A JP2003299346A JP4301896B2 JP 4301896 B2 JP4301896 B2 JP 4301896B2 JP 2003299346 A JP2003299346 A JP 2003299346A JP 2003299346 A JP2003299346 A JP 2003299346A JP 4301896 B2 JP4301896 B2 JP 4301896B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- level
- band
- voice
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 84
- 238000010606 normalization Methods 0.000 claims abstract description 68
- 230000006978 adaptation Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 88
- 238000001228 spectrum Methods 0.000 description 44
- 238000012545 processing Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 32
- 230000008859 change Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 102000003712 Complement factor B Human genes 0.000 description 1
- 108090000056 Complement factor B Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、入力された音声・音響信号を分析する信号分析装置、および信号処理装置、並びに信号分析装置を用いた音声認識装置に関する。 The present invention relates to a signal analysis device that analyzes an input voice / acoustic signal, a signal processing device, and a voice recognition device using the signal analysis device.
音声認識に用いられる信号分析手段では、信号の入力から数十ミリ秒程度の区間を、数ミリ秒から数十ミリ秒程度の間隔でずらしながら、信号を抽出し、分析フレームとする。次に、各分析フレームにおける入力信号の波形から、音響パラメータを計算し、時系列の音響パラメータを得る。 In the signal analysis means used for speech recognition, a signal is extracted while shifting an interval of about several tens of milliseconds from the input of the signal at an interval of about several milliseconds to several tens of milliseconds to obtain an analysis frame. Next, acoustic parameters are calculated from the waveform of the input signal in each analysis frame to obtain time-series acoustic parameters.
特定話者音声認識では、得られた時系列の音響パラメータを、予め登録した音響パラメータの時系列パターン(標準パターン)と照合する。入力信号の音響パラメータに最も類似した標準パターンを認識結果とする。 In specific speaker speech recognition, the obtained time-series acoustic parameters are collated with a time-series pattern (standard pattern) of acoustic parameters registered in advance. The standard pattern most similar to the acoustic parameter of the input signal is taken as the recognition result.
不特定話者音声認識の場合には、予め大量のデータから、音響パラメータを計算し、音声単位ごとに計算した音響パラメータの統計量を求め、確率的音響モデルを作成する。同時に、この音声単位ごとの確率的音響モデルを連結して、単語モデルまたは文章モデルを作成する。入力信号から分析された音響パラメータについて、前記単語モデルまたは文章モデルに対する確率尤度を計算し、比較して、最も高い確率尤度の単語モデルまたは文章モデルを認識結果とする。ここでいう音声単位としては、例えば音素、音節、または単語などの単位が用いられる。 In the case of speaker-independent speaker recognition, acoustic parameters are calculated from a large amount of data in advance, and statistics of the acoustic parameters calculated for each speech unit are obtained to create a stochastic acoustic model. At the same time, the probabilistic acoustic model for each speech unit is connected to create a word model or sentence model. For the acoustic parameters analyzed from the input signal, the probability likelihood for the word model or sentence model is calculated and compared, and the word model or sentence model with the highest probability likelihood is used as the recognition result. As the speech unit here, for example, a unit such as a phoneme, a syllable, or a word is used.
このように、音声認識を行うためには、音響パラメータを求める信号分析技術は、認識性能を決める重要な技術である。このため、雑音や回線の回線特性などの歪による影響を受けにくい信号分析技術が必要とされる。非特許文献1には、このような信号分析技術として用いられる、帯域エネルギーをケプストラム係数に変換するMFCC(Mel Frequency Cepstrum Coefficient)が示されている。 Thus, in order to perform speech recognition, the signal analysis technique for obtaining acoustic parameters is an important technique for determining recognition performance. For this reason, a signal analysis technique that is not easily affected by distortions such as noise and line characteristics is required. Non-Patent Document 1 discloses MFCC (Mel Frequency Cepstrum Coefficient), which is used as such a signal analysis technique and converts band energy into a cepstrum coefficient.
図1は、MFCCを求めるための手順を示すフローチャートである。以下、図1を用いて、MFCCの分析方法を説明する。MFCCでは、まず、分析フレームごとに音声波形を信号分析器に入力する(ステップS101)。次に、フレームの切り出し区間の両端に急激な変化が起こらないように、ハミング窓関数を掛ける(ステップS102)。次に、FFT(First Fourior Transform:高速フーリエ変換)を用いて、各フレームにおける線形周波数軸上のエネルギーを求める(ステップS103)。この線形周波数軸上のエネルギーは、メル周波数軸上で等分割した帯域ごとにまとめられ、帯域エネルギーに変換される(ステップS104)。変換された帯域エネルギーは、帯域ごとに、対数変換される(ステップS105)。次に、各帯域におけるパワーをコサイン変換することで、MFCCが求められる(ステップS106)。求められたMFCCは、信号分析器から出力される(ステップS107)。このように、メル周波数軸上で等分割して求められたケプストラム係数を、メル周波数ケプストラム係数(MFCC)という。メル周波数は、人間の聴覚特性に準じた周波数単位であり、低い周波数での分解能が、高い周波数での分解能に比べて細かくなる。このため、同じ次数のケプストラムであれば、線形周波数軸を用いた場合に比べて、音声認識性能に優れることが知られている。 FIG. 1 is a flowchart showing a procedure for obtaining the MFCC. Hereinafter, the MFCC analysis method will be described with reference to FIG. In MFCC, first, a speech waveform is input to the signal analyzer for each analysis frame (step S101). Next, a Hamming window function is applied so as not to cause a sudden change at both ends of the cutout section of the frame (step S102). Next, the energy on the linear frequency axis in each frame is obtained by using FFT (First Fourier Transform) (step S103). The energy on the linear frequency axis is collected for each band equally divided on the mel frequency axis and converted into band energy (step S104). The converted band energy is logarithmically converted for each band (step S105). Next, MFCC is obtained by cosine transforming the power in each band (step S106). The obtained MFCC is output from the signal analyzer (step S107). Thus, the cepstrum coefficient obtained by equally dividing on the mel frequency axis is referred to as a mel frequency cepstrum coefficient (MFCC). The mel frequency is a frequency unit according to human auditory characteristics, and the resolution at a low frequency is finer than the resolution at a high frequency. For this reason, it is known that if the cepstrum of the same order is used, the speech recognition performance is excellent as compared with the case where the linear frequency axis is used.
なお、本明細書中では、ステップS101〜ステップS105を、周波数分析ステップ(ステップS201)と、ステップS106からステップS107を、パラメータ変換ステップ(ステップS202)と、いう場合がある。 In this specification, steps S101 to S105 may be referred to as a frequency analysis step (step S201), and steps S106 to S107 may be referred to as a parameter conversion step (step S202).
しかし、実際に音声認識は、家庭、オフィス、自動車、屋外などの背景雑音、または装置自身から発生する冷却ファンなどの騒音や、電磁的に波形に混入する加法的な騒音などの加法性雑音の存在下で行われる。さらに、マイクロホンあるいは音声伝達回路などの伝達特性や、話者がマイクロホンに向かう際の距離や角度が異なることによる音響特性の変化などの乗法的な歪が存在する。MFCCは、これらの騒音や歪の影響を受けやすい。このため、MFCCを用いた音声認識では、騒音の大きな環境下で使用する場合や回線特性の歪が大きい使用方法をする場合には、認識性能が大幅に低下するという問題がある。これらの騒音や歪の影響を低減させるために、以下に述べるような信号分析方法が用いられている。 However, speech recognition is actually performed by additive noise such as background noise in homes, offices, cars, outdoors, etc., noise from cooling fans generated by the device itself, and additive noise electromagnetically mixed into the waveform. Done in the presence. Furthermore, there are multiplicative distortions such as transfer characteristics such as a microphone or a voice transmission circuit, and a change in acoustic characteristics due to a difference in distance and angle when a speaker goes to the microphone. MFCC is susceptible to these noises and distortions. For this reason, in speech recognition using MFCC, there is a problem that the recognition performance is significantly lowered when used in a noisy environment or when using a method with large distortion of the line characteristics. In order to reduce the influence of such noise and distortion, a signal analysis method as described below is used.
[SS法、及びその簡易化手法]
非特許文献2には、加法性雑音の影響を少なくする方法として、スペクトル減算(SS:spectral subtraction)法が開示されている。この方法は、入力音声信号を周波数分析して入力の振幅スペクトルまたはパワー(2乗)スペクトルを求め、雑音区間で推定された推定雑音スペクトルに所定の係数αを乗じ、このスペクトル減算係数αを乗じた後の推定雑音スペクトルを入力スペクトルから減じることで、雑音成分を抑圧する方法である。この方法では、音声品質を向上させるためには、多数の帯域に分割して処理をする必要がある。
また、特許文献1には、このSS法を改善し、帯域分割を少なくして雑音成分を抑圧する方法が開示されている。
[SS method and its simplification method]
Non-Patent
Further, Patent Document 1 discloses a method of improving the SS method and reducing noise components by reducing band division.
[CMS法]
非特許文献1には、乗法性の歪の影響を低減する方法として、CMS法(Cepstrum Mean Subtraction:ケプストラム平均除法)が開示されている。この方法は、CMN法(Cepstrum Mean Normalization:ケプストラム平均正規化法)とも呼ばれる。これは、乗法性歪が、発声された音声のケプストラムの長時間平均として得られる、という仮定に基づく。具体的には、ケプストラム係数から、入力音声のケプストラム係数の平均値を差し引いて、回線やマイクロホンなどの音響系の特性に基づく歪の影響を低減できる。このことは、ケプストラムのコサイン変換である対数スペクトルの歪を差し引くことと等価である。
[CMS method]
Non-Patent Document 1 discloses a CMS method (Cepstrum Mean Subtraction) as a method for reducing the influence of multiplicative distortion. This method is also called a CMN method (Cepstrum Mean Normalization). This is based on the assumption that the multiplicative distortion is obtained as a long-term average of the cepstrum of the spoken speech. Specifically, by subtracting the average value of the cepstrum coefficient of the input voice from the cepstrum coefficient, the influence of distortion based on the characteristics of the acoustic system such as a line or a microphone can be reduced. This is equivalent to subtracting the distortion of the logarithmic spectrum, which is the cepstrum cosine transform.
しかし、実際の入力音声においては、音声の音源位置と雑音の音源位置とが異なる。音声区間と雑音区間とでは、正規化すべき回線特性が異なるため、音声区間の平均ケプストラムを雑音区間に適用することは、雑音区間のケプストラムを不安定にし、認識性能に悪影響を及ぼすという問題がある。このため、雑音区間に適用できるCMS法の改良法が検討されている。 However, in actual input speech, the sound source position of the sound is different from the sound source position of the noise. Since the line characteristics to be normalized are different between the voice section and the noise section, applying the average cepstrum of the voice section to the noise section makes the noise section cepstrum unstable and adversely affects recognition performance. . For this reason, an improved method of the CMS method that can be applied to the noise interval has been studied.
[E−CMN法]
非特許文献3および特許文献2には、CMS法の改良法であるE−CMN法が提案されている。E−CMN法は、音声区間のケプストラム平均と、非音声区間のケプストラム平均とを別個に求め、音声区間と、非音声区間とで、別個に正規化処理を行う。この方法により、誤認識率を低減させることができる。
[E-CMN method]
Non-Patent Document 3 and
[音声検出]
上記したSS法、その簡易化手法、E−CMN法は、いずれの方法においても、音声区間と非音声区間とを区別するために、音声検出を必要とする。音声検出技術は、携帯電話に用いる音声通信の規格などに標準的な方法が開示されている。音声検出は、一般に、入力信号の短時間におけるエネルギーの変化、スペクトル形状の変化などに基づいて、入力信号を、音声区間と、雑音区間とに時間的に分割する。
[Voice detection]
The SS method, the simplification method thereof, and the E-CMN method described above require speech detection in order to distinguish between a speech segment and a non-speech segment. As a voice detection technique, a standard method is disclosed in a voice communication standard used for a mobile phone. In speech detection, generally, an input signal is temporally divided into a speech interval and a noise interval based on a change in energy of the input signal in a short time, a change in spectral shape, and the like.
しかし、上記信号分析方法、およびこれらの分析方法に使用する音声認識方法には、以下のような問題がある。 However, the signal analysis methods described above and the speech recognition methods used for these analysis methods have the following problems.
[SS法、及びその簡易化手法に関する問題点]
SS法では、雑音区間のスペクトルを、音声区間で減算するので、雑音の少ない環境での入力音声を推定する場合には、優れる。しかし、雑音区間においては、雑音のパワーは小さくなるが、雑音のスペクトル形状自体は変わらない。現在主流である統計に基づく音声認識を行う場合には、予め統計的に学習した雑音とは、異なるスペクトル形状の雑音が入力すると、雑音区間の照合精度が低下する。このため、雑音区間を音声区間と誤って照合するため、全体として高い認識精度が得られない。この認識精度の低下を防ぐためには、何らかの適応的なスペクトル補正が必要となる。その方法の一つが、E−CMN法のように雑音スペクトルを正規化する方法である。しかし、E−CMN法には、以下のような問題がある。
[Problems with SS method and its simplification method]
In the SS method, the spectrum of the noise section is subtracted in the voice section, which is excellent when estimating the input voice in an environment with little noise. However, in the noise section, the noise power is small, but the noise spectral shape itself does not change. When performing speech recognition based on statistics that are currently mainstream, if noise having a spectrum shape different from the statistically learned noise is input, the matching accuracy of the noise section is lowered. For this reason, since the noise section is erroneously collated with the voice section, high recognition accuracy as a whole cannot be obtained. In order to prevent this reduction in recognition accuracy, some kind of adaptive spectral correction is required. One of the methods is a method of normalizing the noise spectrum as in the E-CMN method. However, the E-CMN method has the following problems.
[E−CMN法に関する問題点]
上記したように、E−CMN法では、音声区間と雑音区間とで、独立にケプストラム平均を求めるので、より正確に回線特性を正規化できる。特にこの方法によると、雑音区間のスペクトル形状を平坦化できるので、SS法では解決できない、雑音区間の照合精度を改善することができる。
しかし、音声区間と雑音区間との判断は、音声区間の検出精度に依存する。このために、高騒音環境では、音声区間の切り出し精度が低下し、誤ったケプストラム平均値を元に正規化を行うため、認識精度に悪影響を及ぼすという問題がある。以下に、音声検出の問題点を述べる。
[Problems with E-CMN method]
As described above, in the E-CMN method, since the cepstrum average is obtained independently in the voice interval and the noise interval, the line characteristics can be normalized more accurately. In particular, according to this method, since the spectrum shape of the noise section can be flattened, it is possible to improve the matching accuracy of the noise section that cannot be solved by the SS method.
However, the determination of the speech interval and the noise interval depends on the detection accuracy of the speech interval. For this reason, in a high noise environment, there is a problem that speech segmentation accuracy is reduced and normalization is performed based on an incorrect cepstrum average value, which adversely affects recognition accuracy. The following describes problems with voice detection.
[雑音区間の長さ]
SS法やE−CMN法では、雑音スペクトルの推定は、音声区間を検出する際に、雑音区間と判断された区間に対して行われる。しかし、実際に信号分析装置を使用する環境において、装置が動作を開始したすぐ後に、音声が発声された場合には、雑音スペクトルを推定するための十分な雑音区間長が得られない。このため、雑音の適応ができない、あるいは誤った雑音を適応するという問題がある。
[Noise interval length]
In the SS method and the E-CMN method, the noise spectrum is estimated for a section determined as a noise section when a speech section is detected. However, in an environment where the signal analyzer is actually used, if a voice is uttered immediately after the apparatus starts operation, a sufficient noise interval length for estimating the noise spectrum cannot be obtained. For this reason, there is a problem that noise cannot be adapted or wrong noise is adapted.
[音声区間検出の困難性]
静かな環境では、音声区間と雑音区間とは容易に分離できる。このため、音声パワーの時間変化を利用すれば、発声区間を検出するのは比較的容易である。しかし、高騒音環境で、SN比が低い場合には、音声区間の始点や終点の精度が低下する、発声の区間内であっても、音声は、音声のパワーが大きい一部の区間を除けば、ほとんどの部分が雑音に埋もれる。このため、音声区間と非音声区間との差が曖昧になり、音声区間を検出することが困難となる。
[Difficulty of detecting speech interval]
In a quiet environment, the speech section and the noise section can be easily separated. For this reason, it is relatively easy to detect the utterance section by using the time change of the voice power. However, when the S / N ratio is low in a noisy environment, the accuracy of the start and end points of the speech section is reduced. Even within the utterance section, the speech is excluded from some sections where the speech power is high. For example, most parts are buried in noise. For this reason, the difference between the speech segment and the non-speech segment becomes ambiguous, making it difficult to detect the speech segment.
このようなSN比が低い音声の発声区間を周波数分析し、対数変換したスペクトルを観察すると、音声のパワーが優位な周波数帯域では、音声のスペクトルが表される。一方、それ以外の雑音のパワーが優位な周波数帯域では、雑音のスペクトルが表される。すなわち、音声の発声区間であっても、帯域により、雑音を表している場合がある。このため、従来の方法のように、全周波数帯域を一括して音声区間と雑音区間とを分離する方法では、回線歪を受けた音声のスペクトル平均を正確に求めることは、難しい。逆に、音声区間が検出できない場合には、本来の音声区間も、雑音区間として処理される。このため、雑音のスペクトル平均さえも正確に求めることもできない。 When a voice utterance section of such a low S / N ratio is subjected to frequency analysis and a logarithmically converted spectrum is observed, the voice spectrum is represented in a frequency band where the voice power is dominant. On the other hand, in the frequency band where the power of other noise is dominant, the spectrum of noise is expressed. That is, even in the voice utterance section, noise may be represented by the band. For this reason, it is difficult to accurately obtain the spectrum average of speech subjected to line distortion in the method of separating the speech section and the noise section collectively for all frequency bands as in the conventional method. On the contrary, when the voice section cannot be detected, the original voice section is also processed as a noise section. For this reason, even the spectral average of noise cannot be obtained accurately.
すなわち、本発明の目的は、高騒音環境下においても音声区間の検出ができないことによる悪影響を低減できる信号分析装置を提供することにある。
また、本発明の別の目的は、雑音区間が全くない音声が入力された場合や、発声中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる信号分析装置を提供することにある。
That is, an object of the present invention is to provide a signal analyzer that can reduce the adverse effects caused by the inability to detect a speech section even in a high noise environment.
Another object of the present invention is to provide a signal analyzer capable of increasing the accuracy of voice recognition even when a voice having no noise section is input or when the noise level gradually changes during utterance. There is to do.
上記課題を解決するために、本発明の信号分析装置は、各時刻の入力信号から複数の周波数帯域の帯域エネルギーを計算する周波数分析手段と、上記複数の周波数帯域のそれぞれの帯域毎に、周囲の雑音よりも高いエネルギーを持つ帯域については音声レベルを計算し、それ以外の帯域については雑音レベルを計算するレベル計算手段と、帯域エネルギーの正規化のために、上記周囲の雑音よりも高いエネルギーを持つ帯域については、上記計算された音声レベルを用いて正規化帯域エネルギーを計算し、それ以外の帯域については、上記計算された雑音レベルを用いて正規化帯域エネルギーを計算する正規化手段を有する。
この発明の好ましい実施態様によれば、入力された上記帯域エネルギーと、その時間より以前に計算された上記雑音レベルとの差を用いて、更新係数を求める更新係数取得手段をさらに有し、上記レベル計算手段において、上記更新係数に従って雑音レベルまたは音声レベルの少なくとも1つの適応量を制御することにより、雑音レベルまたは音声レベルを逐次的に更新する。
さらに好ましくは、上記レベル計算手段では、入力された上記帯域エネルギーと、その時間より以前に入力された上記帯域エネルギーの最小値を雑音レベルとし、最大値を音声レベルとする。
さらに好ましくは、入力された上記帯域エネルギーと、その時間より以前に計算された上記雑音レベルとの差を用いて、正規化係数を求める正規化係数取得手段をさらに有し、 上記正規化手段では、上記正規化係数に従って雑音レベルの減算量を決定する手段を有する事により、帯域エネルギーを逐次適応的に正規化する。
In order to solve the above problems, the signal analysis apparatus of the present invention includes a frequency analysis unit that calculates band energy of a plurality of frequency bands from an input signal at each time, and a surrounding for each band of the plurality of frequency bands. The voice level is calculated for the band having higher energy than the noise of the other, and the level calculation means for calculating the noise level for the other band, and the energy higher than the surrounding noise for normalization of the band energy. Normalization means for calculating the normalized band energy using the calculated voice level for the band having the above, and normalizing means for calculating the normalized band energy using the calculated noise level for the other band. Have.
According to a preferred embodiment of the present invention, there is further provided update coefficient obtaining means for obtaining an update coefficient using a difference between the inputted band energy and the noise level calculated before that time, In the level calculation means, the noise level or the voice level is sequentially updated by controlling at least one adaptation amount of the noise level or the voice level according to the update coefficient .
More preferably, the level calculation means sets the input band energy and the minimum value of the band energy input before that time as a noise level and the maximum value as a voice level.
More preferably, it further comprises normalization coefficient acquisition means for obtaining a normalization coefficient using a difference between the input band energy and the noise level calculated before that time. By having means for determining the subtraction amount of the noise level according to the normalization coefficient, the band energy is adaptively normalized successively .
ここで、正規化とは、雑音の種類や大きさ、回線の特性、マイクへの入力感度などの環境の要因により生ずる、入力される信号のエネルギー分布が移動する量を少なくすることを意味する。具体的には、正規化は、信号のエネルギー分布の平均を減算して、直流成分を減衰させる方法、環境雑音の値を減算する方法などにより行う。また、本明細書中では、正規化には、入力レベルのエネルギー分布の広がり方を制御することも含まれる。 In here, Normalization refers noise type and size, characteristics of the line, caused by environmental factors, such as input sensitivity to the microphone, to reduce the amount of energy distribution moves the signal input To do. Specifically, normalization is performed by subtracting the average of the energy distribution of the signal to attenuate the DC component, subtracting the value of the environmental noise, or the like. In this specification, the normalization includes controlling how the energy distribution of the input level spreads.
本発明の信号分析装置は、前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、直流成分を減衰させる低域遮断フィルタで構成されていてもよい。この構成によれば、入力信号の直流成分を含めて低周波成分を減衰するので、最も簡単な構成で正規化することができる。 In the signal analysis apparatus of the present invention, the normalization means may be configured by a low-frequency cutoff filter that attenuates a DC component from the band energy extracted for each band. According to this configuration, since the low frequency component including the DC component of the input signal is attenuated, normalization can be performed with the simplest configuration.
雑音レベルは、入力された帯域エネルギーのうち、雑音を表現していると想定される、エネルギー分布が相対的にエネルギーが低い集合の平均を示し、音声レベルは、同じく、音声を表現していると推定される、エネルギー分布が相対的にエネルギーが高い集合の平均を示す。本明細書中で、これらの雑音レベルまたは音声レベルのように、エネルギーの高低のような条件の下で分割したエネルギーの平均を「条件付平均」ということがある。 The noise level is the average of the set of energy distributions that are assumed to represent noise in the input band energy and the energy distribution is relatively low, and the voice level also represents voice. The average of the set whose energy distribution is estimated to be relatively high is shown. In the present specification, the average of energy divided under such conditions as the level of energy, such as the noise level or the voice level, may be referred to as “conditional average”.
本発明の信号分析装置において、雑音と音声のような条件を採用した場合、エネルギー分布の中で、相対的にエネルギーの低い集合と高い集合とを、離散的に区分するのではなく、中間的な入力範囲を連続的に扱うことが望ましい。すなわち、音声区間を検出せずに、フレームごとに、帯域エネルギーの大きさから、音声らしさ、雑音らしさを連続値で判断することが望ましい。 In the signal analysis apparatus of the present invention, when conditions such as noise and speech are adopted, a relatively low energy set and a high energy set in the energy distribution are not divided discretely, but intermediately. It is desirable to handle a continuous input range continuously. That is, it is desirable to determine the likelihood of speech and noise from continuous values based on the magnitude of the band energy for each frame without detecting a speech section.
上記音声認識装置は、MFCC(Mel Frequency Cepstrum Coefficients)パラメータの抽出過程において、各帯域エネルギーの正規化を行うものであってもよい。この構成によると、正規化された帯域エネルギーからケプストラムパラメータへ線形変換を行うことにより、正規化されたケプストラム係数を求めることができる。 The speech recognition apparatus may perform normalization of each band energy in a process of extracting an MFCC (Mel Frequency Cepstrum Coefficients) parameter. According to this configuration, the normalized cepstrum coefficient can be obtained by performing linear conversion from the normalized band energy to the cepstrum parameter.
上記信号分析装置をコンピュータに実行させるための信号分析プログラムであってもよいし、上記信号処理装置をコンピュータに実行させるための信号分析プログラムであってもよい。また、上記音声認識装置をコンピュータに実行させるための音声認識プログラムであってもよい。
またこれらのプログラムを記録したコンピュータ読み取り可能な記録媒体であってもよい。
It may be a signal analysis program for causing the computer to execute the signal analysis device, or a signal analysis program for causing the computer to execute the signal processing device. Moreover, the speech recognition program for making a computer perform the said speech recognition apparatus may be sufficient.
Moreover, the computer-readable recording medium which recorded these programs may be sufficient.
また、上記音声認識装置を有する電子機器であって、入力信号に含まれる音声信号を前記音声認識装置により認識した結果に基づいて、機能を選択し、実行するものであってもよい。本発明の電子機器は、雑音や回線特性による歪の影響を受けにくい。この結果、家庭で使用する音声認識型のリモコンや、携帯電話などの電子機器として利用するのが好ましい。 In addition, the electronic apparatus may include the voice recognition device, and may select and execute a function based on a result of recognition of the voice signal included in the input signal by the voice recognition device. The electronic apparatus of the present invention is not easily affected by distortion due to noise or line characteristics. As a result, it is preferable to use as an electronic device such as a voice recognition type remote controller used at home or a mobile phone.
本発明の信号分析装置は、以下の効果を有する。
(1)本発明では、全周波数帯域における音声区間を検出せずに、周波数帯域ごとに得られた各時刻の入力信号からの帯域エネルギーを用いて、帯域ごとに別個に、条件付帯域エネルギーのレベルを計算し、各帯域エネルギーを正規化する。すなわち、音声の発声区間であっても、雑音エネルギーが優位な帯域については、雑音区間として処理され、音声のエネルギーが優位な帯域のみが音声区間として処理される。この結果、入力信号の回線特性をより正確に正規化できる。
The signal analyzer of the present invention has the following effects.
(1) In the present invention, the band energy from the input signal at each time obtained for each frequency band is detected without detecting the voice section in the entire frequency band, and the conditional band energy is separately determined for each band. Calculate levels and normalize each band energy. That is, even in the voice utterance section, a band having a dominant noise energy is processed as a noise section, and only a band having a dominant voice energy is processed as a voice section. As a result, the line characteristics of the input signal can be normalized more accurately.
本発明の信号分析装置においても、音声と雑音とが混在する場合には、帯域ごとの音声と雑音との判断を誤る場合はある。しかし、帯域ごとに別個に、音声と雑音とを区別するので、帯域全体で、音声と雑音とを区別する場合に比べて、その影響を低減できる。すなわち、本発明の構成によれば、音声区間と雑音区間との区間検出誤りを低減できる。 Even in the signal analysis apparatus of the present invention, when voice and noise are mixed, the determination of voice and noise for each band may be wrong. However, since the voice and the noise are distinguished separately for each band, the influence can be reduced as compared with the case where the voice and the noise are distinguished for the entire band. That is, according to the configuration of the present invention, it is possible to reduce the section detection error between the speech section and the noise section.
(2)本発明の信号分析装置では、帯域ごとに帯域エネルギーの正規化を行う際に、対数スペクトル領域で、正規化処理を行う。対数スペクトル領域で正規化処理を行うと、対数スペクトルの線形変換(コサイン変換)であるケプストラム係数で補正を行うCMN法と同様の効果が得られる。この結果、マイクロホンなどの影響による回線特性の歪を正規化することができる。すなわち、音声認識時の雑音スペクトルが、学習時の雑音スペクトルと異なっていても、認識精度が大幅に劣化することを防止できる。なお、SS法のように、振幅レベルで減算を行うこともできるが、回線特性の歪を正規化することができない。 (2) In the signal analyzer of the present invention, when normalizing band energy for each band, normalization processing is performed in the logarithmic spectrum region. When normalization processing is performed in the logarithmic spectrum region, an effect similar to that of the CMN method in which correction is performed using a cepstrum coefficient that is linear transformation (cosine transformation) of a logarithmic spectrum is obtained. As a result, it is possible to normalize the distortion of the line characteristics due to the influence of the microphone or the like. That is, even if the noise spectrum at the time of speech recognition is different from the noise spectrum at the time of learning, it is possible to prevent the recognition accuracy from being greatly deteriorated. Although the subtraction can be performed by the amplitude level as in the SS method, the distortion of the line characteristics cannot be normalized.
また、本発明の信号分析装置では、帯域ごとに雑音レベルと音声レベルとを別個に求めて、帯域ごとの雑音レベルまたは帯域ごとの音声レベルを正規化するので、E−CMN法と同様の効果が得られる。 Further, in the signal analyzing apparatus of the present invention, the noise level and the voice level are separately obtained for each band, and the noise level for each band or the voice level for each band is normalized, so that the same effect as the E-CMN method is obtained. Is obtained.
(3)本発明の信号分析装置では、抽出された帯域エネルギーの系列から、音声と雑音との判断を行う。すなわち、発声区間であっても、一部の帯域は、雑音として判断される。このため、スペクトル形状の異なる音素からなる発声であれば、音声発声区間内に、ほぼ全周波数帯域の雑音レベルの推定が完了する。すなわち、本発明の信号分析装置では、雑音区間が存在しなくても、雑音レベルの推定が可能となる。 (3) In the signal analysis device of the present invention, speech and noise are determined from the extracted band energy sequence. That is, even in the utterance section, a part of the band is determined as noise. For this reason, if the utterance is composed of phonemes having different spectrum shapes, the estimation of the noise level in almost all frequency bands is completed within the speech utterance section. That is, in the signal analysis device of the present invention, it is possible to estimate the noise level even when there is no noise section.
本発明の信号分析装置は、特に、電池駆動を前提とした携帯型機器に用いることが望ましい。電池駆動をする携帯型機器では、電池の消費量を抑えるために、発声のときだけ、入力信号が分析される。すなわち、雑音区間が存在しない使用態様であっても、等価的に雑音スペクトルが推定できるので、回線特性の歪のみならず、雑音などの歪も正規化することができる。 The signal analysis apparatus of the present invention is particularly preferably used for a portable device based on battery driving. In a portable device driven by a battery, an input signal is analyzed only when speaking in order to reduce battery consumption. That is, even in a usage mode in which no noise section exists, the noise spectrum can be estimated equivalently, so that not only the distortion of the line characteristic but also the distortion such as noise can be normalized.
以下に、本発明を実施するための最良の形態を、図面を参照しながら説明する。なお、本発明は、これらによって限定されるものではない。本発明を実施するための最良の形態は、MFCC法と、E−CMN法と、比較しながら説明する。 The best mode for carrying out the present invention will be described below with reference to the drawings. In addition, this invention is not limited by these. The best mode for carrying out the present invention will be described by comparing the MFCC method and the E-CMN method.
[MFCC法の構成]
図2は、従来のMFCC分析を行う信号分析装置の構成を示すブロック図である。図中、101は、周波数分析手段を、102は、パラメータ変換手段を示す。周波数分析手段101では、図1の周波数分析ステップ(ステップS201)の処理を行い、パラメータ変換手段102では、図1のパラメータ変換ステップ(ステップS202)の処理を行う。
[Configuration of MFCC method]
FIG. 2 is a block diagram showing the configuration of a conventional signal analyzer for performing MFCC analysis. In the figure,
[E−CMN法の構成]
図3は、MFCC法を用いた従来のE−CMN法による分析を行う信号分析装置の構成を示すブロック図である。この図では、図3のMFCC分析を行う信号分析装置の構成に、さらに入力信号から、音声区間を検出する音声区間検出手段203と、平均更新手段201と、減算処理手段202とが追加された構成となっている。入力された音声は、周波数分析手段101とパラメータ計算手段102とで、処理することにより、MFCCが求められる。入力された音声は、同時に音声区間検出手段203で、音声区間が検出される。平均更新手段では、パラメータ計算手段102から、得られた平均ケプストラムを、音声区間検出手段203で得られた音声区間情報を用いて、更新する。具体的には、音声区間であれば、音声の平均ケプストラムを更新し、非音声区間であれば、雑音の平均ケプストラムを更新する。減算処理手段202では、音声区間検出手段203で得られた音声区間情報を用いて、音声区間であればパラメータ計算手段102から出力された現在のケプストラムから、音声の平均ケプストラムを減算し、非音声区間であれば、パラメータ計算手段102から出力された現在のケプストラムから、雑音の平均ケプストラムを減算する。
[Configuration of E-CMN method]
FIG. 3 is a block diagram showing a configuration of a signal analyzer that performs analysis by the conventional E-CMN method using the MFCC method. In this figure, in addition to the configuration of the signal analysis apparatus that performs the MFCC analysis of FIG. 3, a voice
音声区間検出方法としては、フレームごとの短時間信号パワーや、フレームごとのスペクトルの概形を用いて、音声区間を検出することが一般に行われている。これらの方法には、携帯電話などの音声通話に用いられる標準的な方法が用いられている。 As a speech section detection method, generally, a speech section is detected using a short-time signal power for each frame or a spectrum outline for each frame. For these methods, standard methods used for voice calls such as cellular phones are used.
[本発明の構成]
図4は、本発明の信号分析装置の構成を示す図である。本発明では、図4のMFCC分析に用いる信号分析装置の周波数分析手段101と、パラメータ計算手段102との間に、帯域ごとに、更新係数取得手段301と、レベル計算手段302と、正規化手段303と、正規化係数取得手段304と、が設けられている。また、本発明の周波数帯域分析手段101は、入力信号を、複数の周波数帯域の信号に分割する周波数帯域分割手段305と、この各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段306とから構成される。
[Configuration of the present invention]
FIG. 4 is a diagram showing the configuration of the signal analysis apparatus of the present invention. In the present invention, an update
更新係数取得手段301では、信号が入力される時刻より前に計算された雑音レベルや音声レベルと、前記周波数分析手段101で求めた現在の帯域ごとの帯域エネルギーとを比較し、レベル計算手段302でレベルの更新に用いられる更新係数を得る。
The update
レベル計算手段302では、前記更新係数取得手段301で得られた更新係数を用いて、入力エネルギーと、雑音レベルや音声レベルとの差をもとに、雑音レベルや音声レベルを更新し、記憶する。具体的な方法は、後述する。 The level calculation means 302 uses the update coefficient obtained by the update coefficient acquisition means 301 to update and store the noise level and voice level based on the difference between the input energy and the noise level and voice level. . A specific method will be described later.
正規化係数取得手段304では、上記更新係数取得理手段301と同様に、信号が入力される時刻より前に計算された雑音レベルや音声レベルと、前記周波数分析手段101で求めた現在の帯域ごとの帯域エネルギーとを比較し、正規化手段303で用いる正規化係数を計算する。
In the normalization
正規化手段303では、前記正規化係数取得手段304で求めた正規化係数と、前記レベル計算手段302で求めた音声レベルや雑音レベルを用いて、前記周波数分析手段101で求めた現在の帯域エネルギーを正規化し、出力する。
The
この実施形態では、更新係数取得手段301と正規化係数取得手段304とを別の構成にしているが、両者は類似した処理を行うため、更新係数取得手段301と正規化係数取得手段304とを、同一の構成としてもよい。
In this embodiment, the update
CMS法やE−CMN法の文献における実装では、単語や文章を発声した時の毎回の音声を蓄えて、その音声レベルのレベルを求めて正規化して認識を行う、あるいは1回前の発声のレベルを用いて正規化をするように記載されている。しかし、発声が終了してから認識処理を行うのは、応答が遅いために現実的ではない。また、携帯型の装置などでは、1回前の使用環境が、現在の使用環境と同じである保証はない。そこで、本実施の形態では、発声ごとのレベルや、1回前の発声のレベルではなく、実時間に雑音レベルなどを更新し、この更新された雑音レベルを用いて、実時間で帯域エネルギーを正規化する態様を説明する。なお、本発明の信号分析装置は、発声ごとのレベルや、1回前の発声のレベルを用いて帯域エネルギーを正規化することとしてもよい。 In the implementation in the literature of CMS method and E-CMN method, each time a word or sentence is uttered, the voice of each time is stored, and the level of the voice level is obtained for normalization or recognition, or the previous utterance It is described to normalize using levels. However, it is not realistic to perform the recognition process after the utterance is completed because the response is slow. Further, in a portable device or the like, there is no guarantee that the previous use environment is the same as the current use environment. Therefore, in the present embodiment, the noise level is updated in real time, not the level for each utterance or the level of the previous utterance, and the band energy is updated in real time using the updated noise level. A mode of normalization will be described. Note that the signal analysis apparatus of the present invention may normalize the band energy using the level for each utterance or the level of the previous utterance.
[動作]
図5は、本発明にかかる信号分析処理の流れを示すフローチャートである。図6は、本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規化係数、正規化帯域エネルギーとの対応関係を示す図である。以下に、本発明の信号分析の処理を図5と図6を用いて、詳細に説明する。なお、雑音は低いエネルギーで、音声は高いエネルギーであることを利用して、更新係数や正規化係数を適用する。
[Operation]
FIG. 5 is a flowchart showing the flow of signal analysis processing according to the present invention. FIG. 6 is a diagram showing a correspondence relationship between the input band energy obtained by the signal analysis processing according to the present invention, the update coefficient, the normalization coefficient, and the normalized band energy. Hereinafter, the signal analysis processing of the present invention will be described in detail with reference to FIGS. Note that an update coefficient and a normalization coefficient are applied using the fact that noise is low energy and voice is high energy.
周波数分析ステップ(ステップS201)と、パラメータ分析ステップ(ステップS202)とで、行う処理は図1の処理と同様である。 The processing performed in the frequency analysis step (step S201) and the parameter analysis step (step S202) is the same as the processing in FIG.
本発明の信号分析装置は、2以上の帯域に分割できれば、原理的には動作する。また、周波数軸としては、メル周波数軸以外にも、パーク周波数軸や線形周波数軸であっても、動作する。なお、音声認識を目的として、信号分析を行う場合には、周波数分析における帯域分割数や周波数スケールは、MFCCに準拠した値でよく、分割数は10から30程度が妥当である。例えば、11kHzでサンプリングした音声であれば、メル周波数軸上で24帯域に分割し、12次元のケプストラムへ変換する構成であれば、有効であることが、実験により確認されている。従来のMFCCの処理における周波数分析ステップと、パラメータ変換ステップの処理を、本発明の信号分析装置に流用することで、処理量が増加することを抑制できる。 The signal analyzer of the present invention operates in principle if it can be divided into two or more bands. In addition to the Mel frequency axis, the frequency axis operates even if it is a park frequency axis or a linear frequency axis. When signal analysis is performed for the purpose of speech recognition, the number of band divisions and frequency scale in frequency analysis may be values compliant with MFCC, and the number of divisions is about 10 to 30. For example, it has been confirmed by experiments that an audio sampled at 11 kHz is effective if it is divided into 24 bands on the mel frequency axis and converted into a 12-dimensional cepstrum. By diverting the frequency analysis step and parameter conversion step processing in the conventional MFCC processing to the signal analysis apparatus of the present invention, it is possible to suppress an increase in processing amount.
ステップS203〜ステップS205で行う処理は、帯域ごとに独立して行われる。係数取得ステップ(ステップS203)では、周波数分析ステップ(ステップS201)で求められた帯域エネルギーと、入力信号の入力時刻以前に求められた帯域ごとの雑音レベルとの差から、更新係数および正規化係数を求める。次に、帯域ごとに求められた更新係数を元に、前記帯域の雑音レベルを更新する(ステップS204)。次に、ステップS204で更新された、帯域の雑音レベルと、正規化係数を用いて、その帯域の帯域エネルギーを正規化する(ステップS205)。正規化された帯域エネルギーは、ケプストラム係数に変換する(ステップS202)。 The processing performed in steps S203 to S205 is performed independently for each band. In the coefficient acquisition step (step S203), the update coefficient and the normalization coefficient are calculated based on the difference between the band energy obtained in the frequency analysis step (step S201) and the noise level for each band obtained before the input time of the input signal. Ask for. Next, the noise level of the band is updated based on the update coefficient obtained for each band (step S204). Next, the band energy of the band is normalized using the noise level of the band and the normalization coefficient updated in step S204 (step S205). The normalized band energy is converted into a cepstrum coefficient (step S202).
なお、本実施形態では、音声認識に一般的に用いられるケプストラム係数に変換した。しかし、必ずしもケプストラム係数に変換する必要はなく、正規化されたエネルギーをそのまま出力する構成としてもよい。 In the present embodiment, the cepstrum coefficients generally used for speech recognition are converted. However, it is not always necessary to convert to a cepstrum coefficient, and the normalized energy may be output as it is.
[更新基準]
次に、図6を用いて、更新係数を用いて、帯域エネルギーにおける雑音レベルを更新する方法について説明する。図6(c)は、入力帯域エネルギーと更新係数との関係を示す図である。
なお、雑音レベルを推定する方法としては、入力エネルギーのヒストグラムを計算して、下方の数%を雑音レベルとして採用する方法もある。しかし、ヒストグラムを計算するためにはある程度長い入力が必要となる。このため、次に説明する、実時間で逐次的に雑音レベルを更新する処理を行うのが、好ましい。
[Update criteria]
Next, a method for updating the noise level in the band energy using the update coefficient will be described with reference to FIG. FIG. 6C is a diagram showing the relationship between the input band energy and the update coefficient.
As a method for estimating the noise level, there is a method in which a histogram of the input energy is calculated and the lower few percent is adopted as the noise level. However, a certain amount of input is required to calculate the histogram. For this reason, it is preferable to perform the process which updates a noise level sequentially in real time demonstrated below.
時刻tでの雑音レベルをN(t)、入力帯域エネルギーをE(t)、更新係数をα(t)とすると、雑音レベルN(t)の更新は例えば次のように行う。なお、雑音レベル、入力帯域エネルギーの単位は、デシベル(dB)を基準と考える。 If the noise level at time t is N (t), the input band energy is E (t), and the update coefficient is α (t), the noise level N (t) is updated as follows, for example. The unit of noise level and input band energy is considered to be decibel (dB).
N(t)= (1−α(t))*N(t−1)+α(t)*E(t)…式(1)
α(t)= 0 (N(t−1)+R < E(t)のとき)
α(t)= A*(1−(E(t)−N(t−1))/R)
(N(t−1)<E(t)≦ N(t−1)+R のとき)
α(t)= A (E(t)≦ N(t−1) のとき)
N (t) = (1−α (t)) * N (t−1) + α (t) * E (t) (1)
α (t) = 0 (when N (t−1) + R <E (t))
α (t) = A * (1- (E (t) −N (t−1)) / R)
(When N (t−1) <E (t) ≦ N (t−1) + R)
α (t) = A (when E (t) ≦ N (t−1))
ここで、Aは、最大の更新係数を示し、0以上、1以下の値である。Aは、例えば0.02程度の値とする。Rは、雑音と音声のエネルギーの境界範囲を示し、例えば2dB程度とする。この更新係数は、入力された帯域エネルギーの時系列の中で、特に低いエネルギーが分布している場合の平均値を求めることができるので、雑音レベルを更新することができる。 Here, A represents the maximum update coefficient, and is a value of 0 or more and 1 or less. A is set to a value of about 0.02, for example. R indicates a boundary range between noise and voice energy, and is, for example, about 2 dB. Since this update coefficient can determine an average value when particularly low energy is distributed in the time series of input band energy, the noise level can be updated.
上記式において、(α(t)/A)は、雑音らしさ示す指標と考えることができる。
雑音レベルの初期値N(0)を、N(0)=E(1)とすれば、素早い立ち上がり特性が得られ、良い認識結果が得られることが、実験的に確かめられている。
In the above formula, (α (t) / A) can be considered as an index indicating the likelihood of noise.
It has been experimentally confirmed that if the initial value N (0) of the noise level is N (0) = E (1), a quick rise characteristic can be obtained and a good recognition result can be obtained.
上記の式を用いて雑音レベルを更新すれば、雑音の下方への変化に対しては、比較的速く追従し、上方への変化に対しては、徐々に追従速度が遅くなり、1フレームの間にR(dB)よりも大きな雑音の増加がある場合は、全く追従しない。このような雑音の変化速度への追従は、AとRのパラメータによって制御することができる。Aを0.02とした場合は、0.5Hz程度よりも遅い雑音の変化に対しては、上方へも追従するようになる。一般に音声の変化速度は、1秒間に数個から十数個の音素が入れ替わることから、数Hzから数十Hzの成分が多い。一方、背景雑音はそれよりも遅い場合が多い。ただし、突発性の雑音により、急激に雑音エネルギーが上昇することがあると、その後追従できなくなる。このため、α(t)の下限を0ではなく、微小な値、例えば0.001程度とすることで、数秒の後に追従するように設定することができる。
これらのパラメータの動作確認には、帯域ごとのエネルギー変化速度を調整した人工的なデータを入力することにより、追従速度を確認することができる。
If the noise level is updated using the above equation, the lowering of the noise will follow relatively fast, and the upward speed will gradually slow down to the upward change of 1 frame. If there is an increase in noise larger than R (dB) in the meantime, no tracking is performed. Such tracking of the change rate of noise can be controlled by the parameters of A and R. When A is 0.02, a noise change slower than about 0.5 Hz follows upward. In general, the change rate of the sound has many components of several Hz to several tens Hz because several to dozens of phonemes are exchanged per second. On the other hand, background noise is often slower than that. However, if the noise energy may suddenly rise due to sudden noise, it will not be possible to follow up after that. For this reason, by setting the lower limit of α (t) to a minute value, for example, about 0.001, instead of 0, it can be set to follow after a few seconds.
In confirming the operation of these parameters, the tracking speed can be confirmed by inputting artificial data in which the energy change speed for each band is adjusted.
時刻tでの音声レベルをS(t)、入力帯域エネルギーをE(t)、更新係数をγ(t)とすると、音声レベルS(t)の更新は例えば次のように行う。 If the voice level at time t is S (t), the input band energy is E (t), and the update coefficient is γ (t), the voice level S (t) is updated as follows, for example.
S(t)= (1−γ(t))*N(t−1)+γ(t)*E(t)… 式2
γ(t)= C (N(t−1)+R < E(t)のとき)
γ(t)= C*(E(t)−N(t−1)/R)
(N(t−1)<E(t)≦ N(t−1)+R のとき)
γ(t)= 0 (E(t)≦ N(t−1) のとき)
S (t) = (1−γ (t)) * N (t−1) + γ (t) * E (t)
γ (t) = C (when N (t−1) + R <E (t))
γ (t) = C * (E (t) −N (t−1) / R)
(When N (t−1) <E (t) ≦ N (t−1) + R)
γ (t) = 0 (when E (t) ≦ N (t−1))
ここで、Cは、最大の更新係数を示し、1以下の値である。Cは、上記Aと同様に、例えば0.02程度の値とする。Rは、雑音と音声のエネルギーの境界範囲を示し、上記雑音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。この更新係数は、入力された帯域エネルギーの時系列の中で、特に高いエネルギーが分布している場合の平均値を求めることができるので、音声レベルを更新することができる。
初期値S(0)には、前回の発声における最後のS(t)を用いることが好ましい。最後のS(t)が得られない場合には、S(0)=0を用いることで、よい結果が得られることが、実験的に確認されている。ここで、(γ(t)/C)は、音声らしさを示す指標と考えることができる。
Here, C represents the maximum update coefficient and is a value of 1 or less. C is set to a value of about 0.02, for example, as in A above. R represents the boundary range between noise and voice energy, and may be the same value as or different from the boundary region at the noise level. Since this update coefficient can determine an average value when particularly high energy is distributed in the time series of input band energy, the voice level can be updated.
It is preferable to use the last S (t) in the previous utterance as the initial value S (0). When the final S (t) cannot be obtained, it has been experimentally confirmed that good results can be obtained by using S (0) = 0. Here, (γ (t) / C) can be considered as an index indicating the likelihood of speech.
音声レベルに関しては、更新を行わず、固定的な値を用いることもできる。この場合には、多量の音声データから、平均的な音声レベルを計算して用いることが、効果的である。 As for the sound level, a fixed value can be used without updating. In this case, it is effective to calculate and use an average sound level from a large amount of sound data.
雑音レベルと音声レベルとを更新するためには、入力信号の時系列から雑音区間か、音声区間かを判断することが必要である。式1および式2では、両区間の検出は2値的に求めるのではなく、中間的な値をとることができる(図6(c))。雑音区間と音声区間との判断は、周波数帯域ごとに行われる。このため、各帯域で判断された雑音区間と音声区間とは、他の帯域で判断された雑音区間と音声区間とは異なる。さらに、各帯域で判断された雑音区間と音声区間とは、実際の話者の発声区間とも異なる。
In order to update the noise level and the speech level, it is necessary to determine whether it is a noise interval or a speech interval from the time series of the input signal. In Expression 1 and
更新係数は、全ての周波数帯域で共通である必要はない。帯域ごとに異なる更新係数を、予め保持しておくことにより、帯域ごとに最適な更新係数を適応をすることができる。
例えば、低周波数帯域での雑音が比較的ゆっくりと変動する場合には、低周波数帯域の更新係数の最大値Aを小さくすることで、音声入力に対して誤って追従して更新される危険性が少なくなる。
The update coefficient need not be common in all frequency bands. An update coefficient that is different for each band is stored in advance, so that an optimum update coefficient can be adapted for each band.
For example, when the noise in the low frequency band fluctuates relatively slowly, the risk that the maximum value A of the update coefficient in the low frequency band is reduced and the voice input is erroneously followed and updated. Less.
[雑音レベル、音声レベルの簡略取得例]
雑音レベルを求める方法として、入力時刻まで入力エネルギーの最小値を雑音レベルとすることもできる。これは、上記式(1)において、エネルギーの境界範囲を0dBとし、最大の更新係数1とした場合と考えることができる。また、音声レベルについても、入力時刻まで入力エネルギーの最小値を音声レベルとすることもできる。これは、雑音は低いエネルギーで、音声は高いエネルギーであることを利用したものである。
雑音レベル、音声レベルを求める方法としては、この例に限られるものではなく、エネルギー分布の範囲内で、低い値と高い値とを求めることができる方法であれば、雑音レベル、音声レベルを求めることができる。
[Simplified acquisition of noise level and voice level]
As a method for obtaining the noise level, the minimum value of the input energy can be set as the noise level until the input time. This can be considered as a case where the energy boundary range is 0 dB and the maximum update coefficient is 1 in the above formula (1). As for the sound level, the minimum value of the input energy can be set as the sound level until the input time. This utilizes the fact that noise is low energy and voice is high energy.
The method for obtaining the noise level and the voice level is not limited to this example, and the noise level and the voice level are obtained as long as the method can obtain a low value and a high value within the energy distribution range. be able to.
[正規化基準]
次に、図6を用いて、正規化係数を用いて、帯域エネルギーを正規化する方法について説明する。図6(b)は、入力帯域エネルギーと正規化係数との関係を示す図である。
[Normalization criteria]
Next, a method for normalizing band energy using a normalization coefficient will be described with reference to FIG. FIG. 6B is a diagram illustrating the relationship between the input band energy and the normalization coefficient.
時刻tでの雑音レベルをN(t)、入力帯域エネルギーをE(t)、正規化係数をβ(t)とすると、正規化帯域エネルギーE’(t)の更新は例えば次の式により求められる。なお、雑音レベル、エネルギーの単位は、デシベル(dB)とする。
E’(t)= E(t)−β(t)*N(t)… 式3
β(t)= 0 (N(t−1)+R < E(t)のとき)
β(t)= B*(1−(E(t)−N(t−1))/R)
(N(t−1)<E(t)≦ N(t−1)+R のとき)
β(t)= B (E(t) ≦ N(t−1)のとき)
When the noise level at time t is N (t), the input band energy is E (t), and the normalization coefficient is β (t), the update of the normalized band energy E ′ (t) is obtained, for example, by the following equation. It is done. The unit of noise level and energy is decibel (dB).
E ′ (t) = E (t) −β (t) * N (t) —Equation 3
β (t) = 0 (when N (t−1) + R <E (t))
β (t) = B * (1- (E (t) −N (t−1)) / R)
(When N (t−1) <E (t) ≦ N (t−1) + R)
β (t) = B (when E (t) ≦ N (t−1))
ここで、Bは、最大の減算量を示し、1以下の値である。Bは、例えば0.5程度の値とする。Rは、雑音と音声のエネルギーの境界範囲を示し、例えば2dB程度とする。上記更新係数での境界領域と同じ値としてもよいし、異なる値としてもよい。 Here, B indicates the maximum amount of subtraction and is a value of 1 or less. B is set to a value of about 0.5, for example. R indicates a boundary range between noise and voice energy, and is, for example, about 2 dB. It may be the same value as the boundary region with the update coefficient, or may be a different value.
次に、雑音レベルに加え、音声レベルS(t)を用いて、帯域エネルギーを正規化する方法を説明する。音声レベルを用いた帯域エネルギーの正規化は、例えば、下式により計算できる。
E’(t)= E(t)−β(t)*N(t)−δ(t)*S(t)… 式4
δ(t)= D (N(t−1)+R < E(t)のとき)
δ(t)= D*(E(t)−N(t−1))/R
(N(t−1)<E(t)≦ N(t−1)+R のとき)
δ(t)= 0 (E(t) ≦ N(t−1)のとき)
Next, a method for normalizing band energy using the voice level S (t) in addition to the noise level will be described. Normalization of the band energy using the voice level can be calculated by the following equation, for example.
E ′ (t) = E (t) −β (t) * N (t) −δ (t) * S (t)
δ (t) = D (when N (t−1) + R <E (t))
δ (t) = D * (E (t) −N (t−1)) / R
(When N (t−1) <E (t) ≦ N (t−1) + R)
δ (t) = 0 (when E (t) ≦ N (t−1))
ここで、Dは、最大の減算量を示し、1以下の値である。Cは、上記Bと同様に、例えば0.5程度の値とする。Rは、雑音と音声のエネルギーの境界範囲を示し、上記雑音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。 Here, D indicates the maximum subtraction amount and is a value of 1 or less. C is set to a value of about 0.5, for example, as in B above. R represents the boundary range between noise and voice energy, and may be the same value as or different from the boundary region at the noise level.
この例では、入力エネルギーE(t)と、雑音レベルN(t)との差を用いて、音声レベルの正規化係数を求めた。この方法を用いると、話者や回線の特性による認識精度の低下を低減できる。なお、入力エネルギーE(t)と、音声レベルS(t)との差を用いて、音声レベルの正規化係数を求めることもできる。 In this example, the sound level normalization coefficient is obtained using the difference between the input energy E (t) and the noise level N (t). By using this method, it is possible to reduce a decrease in recognition accuracy due to characteristics of speakers and lines. Note that the normalization coefficient of the sound level can also be obtained by using the difference between the input energy E (t) and the sound level S (t).
この例では、帯域エネルギーを正規化するために、音声レベルや雑音レベルに所定の計算で求めた係数を掛けて減算する方法を示した。しかし、正規化を行うためには、この方法に限られず、例えば、入力エネルギーを音声レベルで割るなどの除法による方法でも、正規化の効果が得られる場合がある。入力のダイナミックレンジや環境変化の大きさに応じて、適宜正規化方法を変える構成としてもよい。 In this example, in order to normalize the band energy, a method of subtracting the voice level or noise level by multiplying by a coefficient obtained by a predetermined calculation is shown. However, in order to perform normalization, the method is not limited to this method. For example, a normalization effect may be obtained even by a division method such as dividing input energy by a voice level. A normalization method may be appropriately changed according to the input dynamic range and the magnitude of environmental change.
図6(a)は、式3と式4とを用いて、入力された帯域エネルギーに対する正規化帯域エネルギーの関係を示す図である。雑音レベルと音声レベルとを両方用いる場合を、E’=E−β*Nーδ*S のグラフに示す。D=0とした場合雑音のエネルギーだけを用いる場合を、E’=E−β*N のグラフに示す。各帯域の雑音レベルと音声レベルの大きさに応じて、適宜適用する正規化係数を変えて、帯域エネルギーを正規化することができる。この他にも、使用する環境が、非常に雑音の安定した場所である場合などには、雑音の適用は必要なくなるので、B=0とすることで、音声レベルのみを使用することができる。
FIG. 6A is a diagram illustrating the relationship of the normalized band energy with respect to the input band energy using Expression 3 and
[低域遮断フィルタを用いる場合]
雑音と音声との境界領域の幅R(dB)を非常に大きな値とした場合には、ほぼ全区間で雑音レベルを一定の更新係数Aで更新し、ほぼ全区間の入力帯域エネルギーに対して一定の正規化係数Bで減算することになる。これを簡単に実現するには、図15に示すように、各帯域に低域遮断フィルタを設ける構成とすればよい。図15は、正規化手段として低域遮断フィルタ307を用いた本発明の信号分析手段の構成を示す図である。すなわち、入力信号を周波数分析した後、各帯域のエネルギーについて低域遮断を行い、その後音声パラメータへと変換することにより、ある程度の正規化の効果が得られる。この場合の低域遮断フィルタは、音声によるスペクトルの変化速度である1Hzから10Hz程度よりも低い周波数、すなわち1Hz以下が好ましい。
[When using a low-frequency cutoff filter]
When the width R (dB) of the boundary region between noise and speech is set to a very large value, the noise level is updated with a constant update coefficient A in almost all sections, and the input band energy in almost all sections is updated. Subtraction is performed by a constant normalization factor B. In order to easily realize this, as shown in FIG. 15, a low-frequency cutoff filter may be provided in each band. FIG. 15 is a diagram showing the configuration of the signal analyzing means of the present invention using the low-
この構成の実現の例として、tをフレーム、低域遮断フィルタへの入力をx(t)、出力をy(t)として、
y(t)=x(t)−z(t)
z(t)=x(t)*0.02+z(t)*0.98
のような処理を行うと、フレーム周期が10msであれば、0.5Hzで、−1dB、0.24Hzで、約−3dB、0Hzで、−5.7dBの減衰特性となる。この構成の実現するためには、上記式に従うものに限られない。
また、周波数帯域の低域と高域とで、雑音の変化速度が異なるような環境では、帯域ごとに異なる特性の低域遮断フィルタで構成することにより、より使用環境に適した性能改善を図ることができる。
As an example of the realization of this configuration, t is a frame, x (t) is an input to the low-frequency cutoff filter, and y (t) is an output.
y (t) = x (t) -z (t)
z (t) = x (t) * 0.02 + z (t) * 0.98
When the frame period is 10 ms, the attenuation characteristic is -5.7 dB at 0.5 Hz, -1 dB, 0.24 Hz, approximately -3 dB, 0 Hz. The implementation of this configuration is not limited to the above formula.
In addition, in environments where the frequency of noise changes between the low and high frequency bands, it is possible to improve performance more suited to the usage environment by configuring with low-frequency cutoff filters with different characteristics for each band. be able to.
[スペクトルからみた本実施の形態の動作]
次に、本発明の実施の形態を、図に基づいてスペクトルの視点で説明する。
[Operation of this embodiment from the viewpoint of spectrum]
Next, an embodiment of the present invention will be described from the viewpoint of spectrum based on the drawings.
図7は、音声波形を含む音響信号の例を示す図である。図中、横軸は時間を、縦軸は振幅を示す。この図では、時間t1からt2の区間が発声区間を表し、表示されている時間の全体に騒音が含まれていることを示している。 FIG. 7 is a diagram illustrating an example of an acoustic signal including a speech waveform. In the figure, the horizontal axis represents time, and the vertical axis represents amplitude. In this figure, the section from time t1 to t2 represents the utterance section, and indicates that the entire displayed time includes noise.
図8は、図7に示した音声波形を含む音響信号のスペクトログラムを簡略化した図である。図中、横軸は時間を、縦軸は周波数を示す。時間t1からt2の区間が発声区間を表す。実際のスペクトルは、連続値であるが、この図の例では、簡単のため他の部分より相対的にエネルギーが高い領域を、閉曲線で閉じ、網掛けで、示している。 FIG. 8 is a simplified diagram of the spectrogram of an acoustic signal including the speech waveform shown in FIG. In the figure, the horizontal axis represents time and the vertical axis represents frequency. The section from time t1 to t2 represents the utterance section. The actual spectrum is a continuous value, but in the example of this figure, for the sake of simplicity, a region where the energy is relatively higher than other portions is shown by a closed curve and shaded.
図9は、図8に示したスペクトルを従来のE−CMN法を用いて正規化する場合の正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区切りは、分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは、周波数帯域を示す。他の部分より相対的にエネルギーが高い領域を、閉曲線で閉じている。また、網掛けされている部分は、音声区間としての適用範囲であり、それ以外の部分は雑音区間としての適用範囲である。 FIG. 9 is a diagram illustrating a range in which normalization processing is performed when the spectrum illustrated in FIG. 8 is normalized using the conventional E-CMN method. In the figure, the horizontal axis indicates time, and each segment on the horizontal axis indicates an analysis frame. The vertical axis indicates the frequency, and each division on the vertical axis indicates the frequency band. A region where the energy is relatively higher than other portions is closed by a closed curve. The shaded part is the application range as a speech section, and the other part is the application range as a noise section.
E−CMN法を用いる場合、ケプストラム係数を正規化するに際して、周波数帯域を選択して正規化することはできない。このため、音声区間と判断された時間t1からt2の区間では、音声のケプストラム係数が更新され、それ以外の区間では、雑音のケプストラム係数が更新される。更新されたケプストラム係数を用いて、それぞれの区間のケプストラムを正規化する。このため、音声区間に、雑音が含まれている場合には、誤ってケプストラム係数が更新されることになる。 When the E-CMN method is used, when normalizing the cepstrum coefficient, it is not possible to select and normalize the frequency band. For this reason, the speech cepstrum coefficient is updated in the interval from the time t1 to the time t2 determined as the speech interval, and the noise cepstrum coefficient is updated in the other intervals. The updated cepstrum coefficient is used to normalize the cepstrum for each interval. For this reason, when noise is included in the speech section, the cepstrum coefficient is erroneously updated.
図10は、図8に示したスペクトルを、本発明の信号分析装置を用いて正規化する場合の正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区切りは、分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは、周波数帯域を示す。また、網掛けされている部分は、音声区間としての適用範囲であり、それ以外の部分は雑音区間としての適用範囲である。 FIG. 10 is a diagram showing a range in which normalization processing is performed when the spectrum shown in FIG. 8 is normalized using the signal analyzer of the present invention. In the figure, the horizontal axis indicates time, and each segment on the horizontal axis indicates an analysis frame. The vertical axis indicates the frequency, and each division on the vertical axis indicates the frequency band. The shaded part is the application range as a speech section, and the other part is the application range as a noise section.
本発明の場合、帯域ごとに音声区間と雑音区間とを判断する。この結果、音声の発声区間(t1〜t2)に、関係なく、周囲の雑音より高いエネルギーを持つ帯域とフレーム(図の網掛け部分)では、その帯域の音声レベルが更新され、この更新された音声レベルを用いて帯域エネルギーが正規化される。それ以外の部分では、音声の発声区間(t1〜t2)であっても、エネルギーが低く、雑音区間と判断されるので、その帯域の雑音レベルが更新され、この更新された雑音レベルを用いて帯域エネルギーが正規化される。 In the case of the present invention, a speech section and a noise section are determined for each band. As a result, regardless of the voice utterance period (t1 to t2), the voice level of the band is updated and updated in the band and frame (shaded portion in the figure) having higher energy than the surrounding noise. Band energy is normalized using the voice level. In other parts, even in the voice utterance section (t1 to t2), the energy is low and it is determined as the noise section. Therefore, the noise level of the band is updated, and the updated noise level is used. Band energy is normalized.
すなわち、本発明によれば、音声区間判断の際に、従来のように明らかな非音声区間が存在しなくてもよい。複数の種類の音素が含まれる音声であれば、音声区間に含まれる全ての帯域において、雑音レベルを更新できる。 That is, according to the present invention, when a speech segment is determined, a clear non-speech segment may not exist as in the prior art. If the speech includes a plurality of types of phonemes, the noise level can be updated in all the bands included in the speech section.
なお、図10では、簡単のため、図中に網掛け部分を設けて、音声区間と雑音区間とは、明確な境界が存在するように図示した。しかし、式1〜式4からわかるように、音声区間と雑音区間とは、明確な境界が存在しない。実際は、帯域エネルギーの雑音レベルN(t)からN(t)+Rの範囲で、徐々に切り替わるように処理を行う。R=0の場合にのみ、図10のような明確な境界が形成される。 In FIG. 10, for the sake of simplicity, a shaded portion is provided in the drawing, and the speech section and the noise section are illustrated so that there is a clear boundary. However, as can be seen from Equations 1 to 4, there is no clear boundary between the speech interval and the noise interval. Actually, the processing is performed so that the band energy is gradually switched in the range of the noise level N (t) to N (t) + R. Only when R = 0, a clear boundary as shown in FIG. 10 is formed.
[雑音区間のない入力の例]
図11は、図7に示す音声波形を含む音響信号が入力された場合に、E−CMN法による雑音スペクトルの適応が進行する様子を示す図である。図12は、図7に示す音声波形を含む音響信号が入力された場合に、本発明の信号分析装置による雑音スペクトルの適応が進行する様子を示す図である。図中、網掛け部分は、雑音が正しく推定された帯域とフレームとを示す。
[Example of input without noise interval]
FIG. 11 is a diagram illustrating a situation where adaptation of a noise spectrum by the E-CMN method proceeds when an acoustic signal including the speech waveform illustrated in FIG. 7 is input. FIG. 12 is a diagram illustrating a state in which the adaptation of the noise spectrum by the signal analysis apparatus of the present invention proceeds when an acoustic signal including the speech waveform illustrated in FIG. 7 is input. In the figure, shaded portions indicate bands and frames in which noise is correctly estimated.
ここでは、特に雑音区間がない入力の例として、発声開始時刻と同じ時刻t1から装置への入力が開始した場合を示す。電池駆動の携帯型装置では、音声入力が、ボタンなどの指示で開始する。このような場合に、雑音区間がない入力が行われると、考えられる。 Here, a case where input to the apparatus starts from the same time t1 as the utterance start time is shown as an example of input with no noise section. In a battery-driven portable device, voice input starts with an instruction such as a button. In such a case, it is considered that an input without a noise interval is performed.
無響室などの特殊な場合を除き、入力雑音のレベルが事前にわからない実環境用のシステムにおいて、雑音区間が存在しない入力音声に対しての音声切り出しは不可能である。この場合に、最初の入力フレームを、音声と解釈するか、雑音と解釈するかは、システムの設計による。 Except for special cases such as an anechoic room, in an actual environment system in which the level of input noise is not known in advance, it is impossible to cut out speech for input speech that does not have a noise section. In this case, whether the first input frame is interpreted as speech or noise depends on the system design.
最初の入力フレームを雑音と解釈するシステムの場合に、E−CMN法を適用すると、図11の時刻t1からt2までの発声区間は、全て雑音区間として認識される。このため、誤った雑音スペクトルが推定される。これにより、第1発声は、雑音として平坦化されるため、認識することができなくなる。そして、音声の入力が終わるt2以後に、本来の雑音レベルの推定がされる。 In the case of a system that interprets the first input frame as noise, if the E-CMN method is applied, the utterance interval from time t1 to time t2 in FIG. 11 is all recognized as a noise interval. For this reason, an incorrect noise spectrum is estimated. As a result, the first utterance is flattened as noise and cannot be recognized. Then, the original noise level is estimated after t2 when the voice input ends.
一方、最初の入力フレームを音声と解釈するシステムの場合であっても、E−CMN法を適用すると、図11の時刻t1からt2までの発声区間雑音スペクトルが推定できない。このため、t2付近の語尾の認識精度に問題を生ずる。 On the other hand, even in the case of a system that interprets the first input frame as speech, if the E-CMN method is applied, the speech interval noise spectrum from time t1 to time t2 in FIG. 11 cannot be estimated. For this reason, a problem arises in the recognition accuracy of the ending in the vicinity of t2.
最初の入力フレームを雑音と解釈するシステムの場合に、本発明の信号分析装置を用いると、音声の優位な帯域では、雑音スペクトルの推定誤りを生ずる。しかし、スペクトル形状が変化し、帯域の音声パワーが雑音パワー以下になった時点で、その帯域の雑音パワーが推定される。図12の例では、発声に終了する時刻t2よりも早い時刻t3で、雑音パワーの推定が終了する。したがって、時刻t3からt2の間では、正しく雑音スペクトルを正規化できる。すなわち、本発明の信号分析装置を用いると、E−CMN法を用いる場合よりも、早く正しい正規化が可能となる。また、雑音の推定が完了した帯域では、完了時刻以降に、その帯域のパワーが上昇すると、音声パワーが推定されるので、発声の途中から、精度の良い音声認識が可能となる。 In the case of a system that interprets the first input frame as noise, if the signal analyzer of the present invention is used, an error in estimation of the noise spectrum occurs in the dominant band of speech. However, when the spectrum shape changes and the voice power of the band becomes equal to or lower than the noise power, the noise power of the band is estimated. In the example of FIG. 12, the estimation of the noise power ends at time t3 earlier than time t2 when utterance ends. Therefore, the noise spectrum can be correctly normalized between the times t3 and t2. That is, when the signal analyzer of the present invention is used, correct normalization can be performed earlier than when the E-CMN method is used. Also, in a band where noise estimation is completed, if the power of the band increases after the completion time, the voice power is estimated, so that accurate voice recognition can be performed in the middle of utterance.
このように、本発明の信号分析装置を用いると、ボタンなどによって音声入力開始を指示する装置であっても、最初の発声から高精度の音声認識を行うことができる。 As described above, when the signal analysis device of the present invention is used, even a device that instructs the start of voice input with a button or the like can perform highly accurate voice recognition from the first utterance.
以上説明したように、本発明の信号分析装置では、音声発声中にも雑音スペクトルの推定ができる。この結果、発音中に、徐々に雑音スペクトルが変化するような場合でも、その変化がゆっくりと進むものであれば、雑音の変化に適応して、正規化を行うことができる。したがって、本発明の信号分析装置を音声認識装置に適用すれば、より安定した音声認識ができる音声認識装置が得られる。 As described above, the signal analysis apparatus of the present invention can estimate the noise spectrum even during voice utterance. As a result, even when the noise spectrum gradually changes during sound generation, normalization can be performed by adapting to the noise change as long as the change proceeds slowly. Therefore, when the signal analysis device of the present invention is applied to a speech recognition device, a speech recognition device capable of performing more stable speech recognition can be obtained.
[音声認識装置とその認識方法]
図13は、本発明の音声認識装置を用いた音声認識システムの例を示すブロック図である。音声認識システムは、一般に音響モデル学習装置401と、音声認識装置402とを有して構成される。
[Voice recognition device and its recognition method]
FIG. 13 is a block diagram showing an example of a speech recognition system using the speech recognition apparatus of the present invention. The speech recognition system generally includes an acoustic
音声データベース403は、音響モデルを学習するためのものである。主として、パーソナルコンピュータや、ワークステーションの固定ディスクなどに格納されている。404は、本発明の信号分析装置を用いた信号分析手段である。実際は、図6に示す構成のものや、図6で示す構成に、さらに音響パラメータの時間的な変化量を求める部分を追加した構成で、使用される。405は、音響モデル学習手段であり、音声データベースの発声内容を記録した言語データベース406と、前記信号分析手段404の出力から、統計的に各音素あるいは各音節といった音声単位毎に統計を求める。モデルは一般に隠れマルコフモデルを用いる場合が一般的である。
The
407は、音響モデル学習手段405で求めた音響モデルを示す。408は別途作成した言語辞書である。言語辞書408は、単語を音素列で表した単語辞書や、単語間の接続制限を規定した文法データを含む。言語辞書408の作成は、手作業で行ってもよく、言語データベース406に含まれる文章から単語間の接続確率を統計で求めてもよい。
409は、信号分析装置404と同様の信号分析を行う信号分析手段である。410は、尤度演算手段を示し、前記音響モデル407の各統計量と、信号分析手段409で求めた音響パラメータから、各時刻の入力信号に対する各音声単位の尤度を求める。411は、照合手段であり、求められた各音声単位の尤度の時系列から尤もらしい言語的な仮説の尤度を計算し、尤度の高い順に候補を出力する。音声認識方法としては尤度演算や照合手段を明確に分離しない実装もあり得る。
[プログラム、電子機器]
音声認識は、一般に、汎用あるいは信号処理用のCPUを用いて、デジタル処理で、実行される。図14は、本発明の音声認識装置や、本発明の音声認識装置を含んだ電子機器の構成を示す図である。
[Programs, electronic devices]
Speech recognition is generally performed by digital processing using a general-purpose or signal processing CPU. FIG. 14 is a diagram illustrating a configuration of a voice recognition device of the present invention and an electronic device including the voice recognition device of the present invention.
501は、パーソナルコンピュータを始めデジタル機器におけるデータやアドレスのバスを示す。各処理手段は、このバスに接続されており、各々の処理を行う。502は、ボタンやキーボード、マイクなどの複数の入力手段を示す。音声入力は、マイクから入力される場合に限られず、別の機器で電気信号に変換されたものを、通信回線を介して入力する場合もある。503は、入力手段502からの指示に従い、機器を制御し、また入力された音声を音声認識するCPUを示す。504は、CPUが処理するための作業用のメモリ、および、音声認識プログラムを含むプログラムメモリである。505は、ディスプレイやブザー、スピーカ、ランプなどの出力装置である。音声を認識した結果は、候補として表示される場合もあるし、認識結果を受けて何らかの処理が行われる場合もあり、さらには処理された結果を表示する場合もある。この電子機器が携帯電話の場合は、これらの処理ブロックに、図示しない無線通信手段が追加される。パーソナルコンピュータや携帯型情報機器などでは、通信手段や外部記憶装置などが追加される。
音声認識装置により認識した結果に基づいて、機能を選択し、実行する例としては、例えばテレビのチャンネルを切り替える、ビデオ装置の再生や停止などの操作、エアコンの温度設定などが挙げられる。また、情報端末の場合であれば、通信の制御、プログラムの実行制御、文字の入力などが挙げられる。 Examples of selecting and executing a function based on the result recognized by the voice recognition device include, for example, switching a television channel, playing or stopping a video device, setting the temperature of an air conditioner, and the like. In the case of an information terminal, communication control, program execution control, character input, and the like can be given.
信号分析プログラムあるいは音声認識プログラムを含むこれらの装置の制御プログラムは、プログラム記録媒体に記録された情報処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、RAM(ランダム・アクセル・メモリ)とは別体に設けられたROM(リード・オンリー・メモリ)でなるプログラムメディアである。または、外部補助記録装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから情報処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、上記RAMに設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記録エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているもとする。
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク、ハードディクス等の磁気ディスクやCD(コンパクトディスク)−ROM、MO(光磁気)ディスク、MD(ミニディスク)、DVD(デジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM、EPROM(紫外線消去型ROM)、EEPROM(電気的消去型ROM)、フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
また、上記実施の形態における音声認識装置あるいは電子機器は、モデムを備えてインターネットを含む通信ネットワークと接続可能となっている。この場合、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
A control program for these apparatuses including a signal analysis program or a voice recognition program is realized by an information processing program recorded on a program recording medium. The program recording medium in the above embodiment is a program medium composed of a ROM (Read Only Memory) provided separately from a RAM (Random Accelerator Memory). Alternatively, it may be a program medium that is loaded into an external auxiliary recording device and read out. In any case, the program reading means for reading the information processing program from the program medium may have a configuration for directly accessing and reading the program medium, or a program storage area ( (Not shown) may be downloaded, and the program storage area may be accessed and read. It is assumed that a download program for downloading from the program medium to the program recording area of the RAM is stored in advance in the main unit.
Here, the program medium is configured to be separable from the main body side, such as a tape system such as a magnetic tape or a cassette tape, a magnetic disk such as a floppy disk or a hard disk, a CD (compact disk) -ROM, a MO (magneto-optical). ) Discs, optical discs such as discs, MD (mini discs), DVDs (digital versatile discs), card systems such as IC (integrated circuit) cards and optical cards, mask ROMs, EPROMs (ultraviolet erasable ROMs), EEPROMs ( It is a medium that carries a fixed program, including a semiconductor memory system such as an electrically erasable ROM) and a flash ROM.
In addition, the speech recognition apparatus or electronic device in the above embodiment includes a modem and can be connected to a communication network including the Internet. In this case, the program medium may be a medium that fluidly carries the program by downloading from a communication network or the like. In this case, it is assumed that a download program for downloading from the communication network is stored in the main device in advance. Or it shall be installed from another recording medium.
101 周波数分析手段
102 パラメータ変換手段
201 平均更新手段
202 減算処理手段
203 音声区間検出手段
301 更新係数取得手段
302 レベル計算手段
303 正規化手段
304 正規化係数取得手段
305 周波数帯域分割手段
306 帯域エネルギー抽出手段
307 低域遮断フィルタ
401 音響モデル学習装置
402 音声認識装置
403 音声データベース
404 信号分析手段
405 音響モデル学習手段
406 言語データベース
407 音響モデル
408 言語辞書
409 信号分析手段
410 尤度演算手段
411 照合手段
501 バス
502 入力手段
503 CPU
504 プログラムメモリ
505 出力手段
DESCRIPTION OF
504
Claims (10)
前記複数の周波数帯域のそれぞれの帯域毎に、周囲の雑音よりも高いエネルギーを持つ帯域については音声レベルを計算し、それ以外の帯域については雑音レベルを計算するレベル計算手段と、
帯域エネルギーの正規化のために、前記周囲の雑音よりも高いエネルギーを持つ帯域については、前記計算された音声レベルを用いて正規化帯域エネルギーを計算し、それ以外の帯域については、前記計算された雑音レベルを用いて正規化帯域エネルギーを計算する正規化手段を有する信号分析装置。 A frequency analysis means for calculating band energy of a plurality of frequency bands from an input signal at each time;
For each band of the plurality of frequency bands, a level calculation unit that calculates a voice level for a band having energy higher than ambient noise, and calculates a noise level for other bands;
For normalization of band energy, normalization band energy is calculated using the calculated voice level for a band having energy higher than the ambient noise, and the calculation is performed for other bands. Analysis device having normalization means for calculating normalized band energy using the measured noise level .
前記レベル計算手段において、前記更新係数に従って雑音レベルまたは音声レベルの少なくとも1つの適応量を制御することにより、雑音レベルまたは音声レベルを逐次的に更新する事を特徴とする請求項1記載の信号分析装置。 Update coefficient obtaining means for obtaining an update coefficient using a difference between the input band energy and the noise level calculated before that time;
2. The signal analysis according to claim 1 , wherein the level calculation means sequentially updates the noise level or the voice level by controlling at least one adaptation amount of the noise level or the voice level according to the update coefficient. apparatus.
入力された前記帯域エネルギーと、その時間より以前に入力された前記帯域エネルギーの最小値を雑音レベルとし、最大値を音声レベルとする事を特長とする請求項1記載の信号分析装置 In the level calculation means,
2. The signal analyzer according to claim 1 , wherein the input band energy and the minimum value of the band energy input before that time are set as a noise level, and the maximum value is set as a voice level.
前記正規化手段では、前記正規化係数に従って雑音レベルの減算量を決定する手段を有する事により、帯域エネルギーを逐次適応的に正規化する事を特徴とする請求項1記載の信号分析装置。 A normalization coefficient obtaining unit for obtaining a normalization coefficient by using a difference between the input band energy and the noise level calculated before that time;
2. The signal analyzing apparatus according to claim 1 , wherein the normalizing means includes means for determining a subtraction amount of the noise level in accordance with the normalization coefficient so as to sequentially and adaptively normalize band energy .
前記複数の周波数帯域のそれぞれの帯域毎に、周囲の雑音よりも高いエネルギーを持つ帯域については音声レベルを計算し、それ以外の帯域については雑音レベルを計算するレベル計算ステップと、
帯域エネルギーの正規化に、前記周囲の雑音よりも高いエネルギーを持つ帯域については、前記計算された音声レベルを用いて正規化帯域エネルギーを計算し、それ以外の帯域については、前記計算された雑音レベルを用いて正規化帯域エネルギーを計算する正規化ステップとを、コンピュータを実行させるためのプログラム。 A frequency analysis step of calculating band energy of a plurality of frequency bands from an input signal at each time;
For each of the plurality of frequency bands, a level calculation step of calculating a voice level for a band having higher energy than ambient noise and calculating a noise level for the other bands;
For band energy having a higher energy than the ambient noise, normalization band energy is calculated using the calculated voice level, and for the other bands, the calculated noise is calculated. A program for causing a computer to execute a normalization step of calculating normalized band energy using a level .
前記複数の周波数帯域のそれぞれの帯域毎に、周囲の雑音よりも高いエネルギーを持つ帯域については音声レベルを計算し、それ以外の帯域については雑音レベルを計算するレベル計算ステップと、
帯域エネルギーの正規化に、前記周囲の雑音よりも高いエネルギーを持つ帯域については、前記計算された音声レベルを用いて正規化帯域エネルギーを計算し、それ以外の帯域については、前記計算された雑音レベルを用いて正規化帯域エネルギーを計算する正規化ステップと、
前記計算された正規化帯域エネルギーを元に音響パラメータを求めて、前記入力信号に含まれる音声を認識するステップと、をコンピュータを実行させるためのプログラム。 A frequency analysis step for calculating band energy of a plurality of frequency bands from an input signal at each time;
For each of the plurality of frequency bands, a level calculation step of calculating a voice level for a band having higher energy than ambient noise and calculating a noise level for the other bands;
For band energy having a higher energy than the ambient noise, normalization band energy is calculated using the calculated voice level, and for the other bands, the calculated noise is calculated. A normalization step of calculating a normalized band energy using the level;
A program for causing a computer to execute a step of obtaining an acoustic parameter based on the calculated normalized band energy and recognizing a voice included in the input signal .
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003299346A JP4301896B2 (en) | 2003-08-22 | 2003-08-22 | Signal analysis device, voice recognition device, program, recording medium, and electronic device |
PCT/JP2004/010841 WO2005020212A1 (en) | 2003-08-22 | 2004-07-29 | Signal analysis device, signal processing device, speech recognition device, signal analysis program, signal processing program, speech recognition program, recording medium, and electronic device |
CN2004800241642A CN1839427B (en) | 2003-08-22 | 2004-07-29 | Signal analysis device, signal processing device, speech recognition device and electronic device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003299346A JP4301896B2 (en) | 2003-08-22 | 2003-08-22 | Signal analysis device, voice recognition device, program, recording medium, and electronic device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005070367A JP2005070367A (en) | 2005-03-17 |
JP4301896B2 true JP4301896B2 (en) | 2009-07-22 |
Family
ID=34213754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003299346A Expired - Fee Related JP4301896B2 (en) | 2003-08-22 | 2003-08-22 | Signal analysis device, voice recognition device, program, recording medium, and electronic device |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4301896B2 (en) |
CN (1) | CN1839427B (en) |
WO (1) | WO2005020212A1 (en) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5019414B2 (en) * | 2006-02-09 | 2012-09-05 | 株式会社リコー | Fixing apparatus and image forming apparatus |
JP4869420B2 (en) * | 2010-03-25 | 2012-02-08 | 株式会社東芝 | Sound information determination apparatus and sound information determination method |
JP5724361B2 (en) * | 2010-12-17 | 2015-05-27 | 富士通株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
KR20160036104A (en) | 2011-12-07 | 2016-04-01 | 퀄컴 인코포레이티드 | Low power integrated circuit to analyze a digitized audio stream |
JP6127422B2 (en) | 2012-09-25 | 2017-05-17 | セイコーエプソン株式会社 | Speech recognition apparatus and method, and semiconductor integrated circuit device |
US10629184B2 (en) | 2014-12-22 | 2020-04-21 | Intel Corporation | Cepstral variance normalization for audio feature extraction |
CN104900237B (en) * | 2015-04-24 | 2019-07-05 | 上海聚力传媒技术有限公司 | A kind of methods, devices and systems for audio-frequency information progress noise reduction process |
JP6764028B2 (en) * | 2017-07-19 | 2020-09-30 | 日本電信電話株式会社 | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method and mask calculation neural network learning method |
CN108461081B (en) * | 2018-03-21 | 2020-07-31 | 北京金山安全软件有限公司 | Voice control method, device, equipment and storage medium |
CN110797008B (en) * | 2018-07-16 | 2024-03-29 | 阿里巴巴集团控股有限公司 | Far-field voice recognition method, voice recognition model training method and server |
JP7421869B2 (en) * | 2019-04-26 | 2024-01-25 | 株式会社スクウェア・エニックス | Information processing program, information processing device, information processing method, and learned model generation method |
US10897534B1 (en) * | 2019-09-13 | 2021-01-19 | International Business Machines Corporation | Optimization for a call that waits in queue |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03230200A (en) * | 1990-02-05 | 1991-10-14 | Sekisui Chem Co Ltd | Voice recognizing method |
JP3230200B2 (en) * | 1995-06-26 | 2001-11-19 | 農林水産省蚕糸・昆虫農業技術研究所長 | Method for producing modified protein fiber or its fiber product |
JPH10133692A (en) * | 1996-10-28 | 1998-05-22 | Hitachi Ltd | Recording device and camera-integrated image/voice recording device |
JP2002014694A (en) * | 2000-06-30 | 2002-01-18 | Toyota Central Res & Dev Lab Inc | Voice recognition device |
EP1376539B8 (en) * | 2001-03-28 | 2010-12-15 | Mitsubishi Denki Kabushiki Kaisha | Noise suppressor |
JP2003195894A (en) * | 2001-12-27 | 2003-07-09 | Mitsubishi Electric Corp | Encoding device, decoding device, encoding method, and decoding method |
-
2003
- 2003-08-22 JP JP2003299346A patent/JP4301896B2/en not_active Expired - Fee Related
-
2004
- 2004-07-29 WO PCT/JP2004/010841 patent/WO2005020212A1/en active Application Filing
- 2004-07-29 CN CN2004800241642A patent/CN1839427B/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1839427B (en) | 2010-04-28 |
CN1839427A (en) | 2006-09-27 |
WO2005020212A1 (en) | 2005-03-03 |
JP2005070367A (en) | 2005-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Viikki et al. | Cepstral domain segmental feature vector normalization for noise robust speech recognition | |
US7319960B2 (en) | Speech recognition method and system | |
EP1355296B1 (en) | Keyword detection in a speech signal | |
US9542937B2 (en) | Sound processing device and sound processing method | |
Hirsch et al. | A new approach for the adaptation of HMMs to reverberation and background noise | |
KR20180087942A (en) | Method and apparatus for speech recognition | |
US11222651B2 (en) | Automatic speech recognition system addressing perceptual-based adversarial audio attacks | |
JP4301896B2 (en) | Signal analysis device, voice recognition device, program, recording medium, and electronic device | |
US20090228272A1 (en) | System for distinguishing desired audio signals from noise | |
JP2000132177A (en) | Device and method for processing voice | |
CN112951259B (en) | Audio noise reduction method and device, electronic equipment and computer readable storage medium | |
US8473282B2 (en) | Sound processing device and program | |
US20060095260A1 (en) | Method and apparatus for vocal-cord signal recognition | |
JP3451146B2 (en) | Denoising system and method using spectral subtraction | |
JP6759898B2 (en) | Utterance section detection device, utterance section detection method, and computer program for utterance section detection | |
US11308946B2 (en) | Methods and apparatus for ASR with embedded noise reduction | |
You et al. | Spectral-domain speech enhancement for speech recognition | |
JP2000132181A (en) | Device and method for processing voice | |
JP2000122688A (en) | Voice processing device and method | |
KR20070061216A (en) | Voice enhancement system using gmm | |
US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition | |
JP2003271190A (en) | Method and device for eliminating noise, and voice recognizing device using the same | |
Kotnik et al. | Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems | |
Oonishi et al. | A noise-robust speech recognition approach incorporating normalized speech/non-speech likelihood into hypothesis scores | |
Seyedin et al. | A new subband-weighted MVDR-based front-end for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090324 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090421 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |