JP5450298B2 - Voice detection device - Google Patents
Voice detection device Download PDFInfo
- Publication number
- JP5450298B2 JP5450298B2 JP2010163680A JP2010163680A JP5450298B2 JP 5450298 B2 JP5450298 B2 JP 5450298B2 JP 2010163680 A JP2010163680 A JP 2010163680A JP 2010163680 A JP2010163680 A JP 2010163680A JP 5450298 B2 JP5450298 B2 JP 5450298B2
- Authority
- JP
- Japan
- Prior art keywords
- peak
- spectrum
- noise
- filter
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 29
- 238000001228 spectrum Methods 0.000 claims description 80
- 238000012546 transfer Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 description 17
- 230000003595 spectral effect Effects 0.000 description 9
- 230000003111 delayed effect Effects 0.000 description 6
- 230000002265 prevention Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Description
本発明は、音声検出装置に関し、特に、音声成分と雑音成分とが混在する入力信号から当該音声成分を検出する、音声検出装置に関する。 The present invention relates to a voice detection device, and more particularly to a voice detection device that detects a voice component from an input signal in which a voice component and a noise component are mixed.
この種の音声検出装置として、従来、例えば特許文献1に開示の音声応答スイッチに適用されたものがある。この従来技術によれば、音声信号の入力レベルが所定値以上であるときに、所定時間にわたって、当該音声信号から少なくとも第1フォルマントF1と第2フォルマントF2とが抽出される。そして、抽出された第1フォルマントF1と第2フォルマントF2とから母音の変化が求められ、この変化が“a”および“o”という2つの母音のいずれか一方を始音とすることを含む所定の条件を満足するとき、音声信号が予め設定された制御音声と一致したと判断され、スイッチ要素がオンされる。
As this type of voice detection device, there is one conventionally applied to a voice response switch disclosed in
このように、上述の従来技術では、第1フォルマントF1と第2フォルマントF2とに基づいて音声検出が行われるが、特に第1フォルマントF1の抽出が必須とされることで、次のような問題がある。即ち、日常の環境下においては、例えば道路交通騒音をはじめ1kHz付近の周波数帯域に大きなパワーを持つ雑音が多く存在する。その一方で、この1kHz付近という周波数帯域は、第1フォルマントF1の周波数帯域と重なる。このため、当該第1フォルマントF1の抽出が必須とされる従来技術では、道路交通騒音等の日常的な雑音の影響を受け易く、ゆえに、使用可能な環境が極端に制限される、という問題がある。しかも、従来技術では、第1フォルマントF1を含む各フォルマントの抽出が、具体的には複数に分割された周波数帯域毎の信号レベルに基づいて行われるため、個々の周波数帯域に一定レベル以上の雑音成分が存在する場合には、当該雑音成分がフォルマントとして誤って検出される。従って、道路交通騒音はおろか、それ以外の雑音の影響をも受け易い。 As described above, in the above-described prior art, voice detection is performed based on the first formant F1 and the second formant F2. In particular, since the extraction of the first formant F1 is essential, the following problems are caused. There is. That is, in an everyday environment, for example, there are many noises having a large power in a frequency band near 1 kHz including road traffic noise. On the other hand, the frequency band near 1 kHz overlaps with the frequency band of the first formant F1. For this reason, in the conventional technique in which the extraction of the first formant F1 is indispensable, there is a problem that it is easily affected by daily noise such as road traffic noise, and therefore the usable environment is extremely limited. is there. In addition, in the prior art, each formant including the first formant F1 is extracted based on the signal level for each frequency band divided into a plurality of frequencies. Therefore, noise of a certain level or more in each frequency band. When a component exists, the noise component is erroneously detected as a formant. Therefore, not only road traffic noise but also other noises are easily affected.
そこで、本発明は、従来よりも道路交通騒音等の雑音の影響を受け難く、特に防犯用途において人間の悲鳴や叫び声等を検出するのに好適な、音声検出装置を提供することを、目的とする。 Therefore, the object of the present invention is to provide a voice detection device that is less affected by noise such as road traffic noise than in the past and is suitable for detecting human screams and screams, particularly in crime prevention applications. To do.
この目的を達成するために、本発明は、音声成分と雑音成分とが混在する入力信号から当該音声成分を検出する音声検出装置において、入力信号の周波数スペクトルのピークを強調するピーク強調手段と、このピーク強調手段によってピークが強調された後の強調後スペクトルのうち雑音成分に対応する雑音スペクトルを推定する雑音推定手段と、強調後スペクトルから当該雑音スペクトルを差し引く差引手段と、を具備するものである。 In order to achieve this object, the present invention provides a peak emphasizing means for emphasizing a peak of a frequency spectrum of an input signal in an audio detection device that detects the audio component from an input signal in which an audio component and a noise component are mixed. A noise estimation unit that estimates a noise spectrum corresponding to a noise component of the enhanced spectrum after the peak is enhanced by the peak enhancement unit, and a subtraction unit that subtracts the noise spectrum from the enhanced spectrum. is there.
即ち、本発明は、音声成分と雑音成分とが混在する入力信号の周波数スペクトルを観察すると、この入力信号の周波数スペクトルには、当該音声成分と雑音成分とのそれぞれのピークが含まれており、これらのピークは、音声成分のものと雑音成分のものとで互いに異なる性質を有する点に、着目したものである。この着目点に基づいて、まず、入力信号の周波数スペクトルのピークが、ピーク強調手段によって強調され、つまり当該ピークの性質を含め顕著化される。そして、このピーク強調後のスペクトルのうち、雑音成分に対応する雑音スペクトルが、雑音推定手段によって推定される。さらに、差引手段によって、当該雑音スペクトルがピーク強調後スペクトルから差し引かれる。これにより、ピーク強調後スペクトルに含まれるピークのうち、雑音成分のピークが除去され、音声成分のピーク、つまりフォルマント、のみが残る。このフォルマントのピークが捉えられることで、音声成分の検出が実現される。 That is, in the present invention, when the frequency spectrum of the input signal in which the voice component and the noise component are mixed is observed, the frequency spectrum of the input signal includes the respective peaks of the voice component and the noise component, These peaks pay attention to the fact that the speech component and the noise component have different properties. Based on this point of interest, first, the peak of the frequency spectrum of the input signal is emphasized by the peak emphasizing means, that is, it becomes noticeable including the nature of the peak. Of the spectrum after peak enhancement, the noise spectrum corresponding to the noise component is estimated by the noise estimation means. Further, the noise spectrum is subtracted from the peak enhanced spectrum by the subtracting means. As a result, the peak of the noise component is removed from the peaks included in the spectrum after peak enhancement, and only the peak of the speech component, that is, the formant remains. By detecting this formant peak, the detection of the voice component is realized.
なお、本発明において、ピーク強調手段は、過去の入力信号に基づいて現在の入力信号を予測する予測手段と、この予測手段による演算式の逆演算式により入力信号を処理することでピークを強調する強調実行手段と、を含むものであってもよい。ここで、予測手段は、入力信号に含まれる周期的な成分、つまりフォルマント、を予測することになる。そして、強調実行手段は、予測手段による演算式の逆演算式により入力信号を処理することで、当該入力信号に含まれるフォルマントを強調することになる。このとき、フォルマントのみならず、雑音成分のピークも強調されるが、この雑音成分のピークは、上述の如く差引手段によって除去される。 In the present invention, the peak emphasizing means emphasizes the peak by processing the input signal by a predicting means for predicting the current input signal based on the past input signal and an inverse arithmetic expression of the arithmetic expression by the predicting means. And emphasizing execution means. Here, the prediction means predicts a periodic component included in the input signal, that is, a formant. Then, the emphasis execution means emphasizes the formant included in the input signal by processing the input signal by the inverse operation expression of the operation expression by the prediction means. At this time, not only the formant but also the peak of the noise component is emphasized, but the peak of the noise component is removed by the subtracting means as described above.
ここで言う予測手段は、例えば線形予測誤差フィルタによって構成することができる。そして、強調実行手段は、当該線形予測誤差フィルタの逆フィルタによって構成することができる。 The prediction means here can be constituted by, for example, a linear prediction error filter. The enhancement execution means can be configured by an inverse filter of the linear prediction error filter.
この場合、予測手段としての線形予測誤差フィルタと、強調実行手段としての逆フィルタと、のそれぞれは、格子型(Lattice)型のデジタルフィルタであるのが、望ましい。即ち、線形予測誤差フィルタと逆フィルタとは、互いに共役であるため、このうちの一方が、例えばFIR(Finite
Impulse Response)フィルタによって設計されると、他方は、必然的にIIR(Infinite Impulse Response)フィルタとなる。ここで、IIRフィルタは、一般に、不安定である、言い換えれば安定判別が困難である、という欠点を有するが、格子型であれば、この欠点が解消されることが、知られている。また、例えば線形予測誤差フィルタが格子型のFIRフィルタによって設計され、逆フィルタが格子型のIIRフィルタによって設計される、とすると、線形予測誤差フィルタとしての格子型FIRフィルタについては、トランスバーサル型をはじめとする他構成のフィルタよりも高い収束速度が得られる等の優れた線形予測性能が発揮される。そして、この線形予測誤差フィルタとしての格子型FIRフィルタのフィルタ係数が、そのまま逆フィルタとしての格子型IIRフィルタのフィルタ係数に適用されることで、当該逆フィルタが設計される。つまり、逆フィルタの設計が容易である、という利点もある。
In this case, it is desirable that each of the linear prediction error filter as the prediction unit and the inverse filter as the enhancement execution unit is a lattice type digital filter. That is, since the linear prediction error filter and the inverse filter are conjugate with each other, one of them is, for example, FIR (Finite).
When designed with an Impulse Response) filter, the other is necessarily an IIR (Infinite Impulse Response) filter. Here, the IIR filter generally has a defect that it is unstable, in other words, it is difficult to determine stability, but it is known that this defect can be solved if it is a lattice type. For example, when the linear prediction error filter is designed by a lattice type FIR filter and the inverse filter is designed by a lattice type IIR filter, the transversal type is used for the lattice type FIR filter as the linear prediction error filter. Excellent linear prediction performance, such as a higher convergence speed than that of other filters of the beginning, is exhibited. The filter coefficient of the lattice type FIR filter as the linear prediction error filter is directly applied to the filter coefficient of the lattice type IIR filter as the inverse filter, so that the inverse filter is designed. That is, there is an advantage that the design of the inverse filter is easy.
さらに、本発明における雑音推定手段は、強調後スペクトルを時間平均することで雑音スペクトルを推定するものであってもよい。即ち、雑音成分が略定常的に存在する場合は、強調後スペクトルに含まれる当該雑音成分のピークは概ね不変である。一方、この雑音成分のピークに比べると、音声成分のピークは単発的(間欠的)であり、つまり経時的に変化する。従って、強調後スペクトルが時間平均されると、これに含まれる雑音成分のピークのみが残り、音声成分のピークは全体的に低減される。これにより、雑音スペクトルの推定が実現される。 Furthermore, the noise estimation means in the present invention may estimate the noise spectrum by time-averaging the enhanced spectrum. That is, when the noise component exists substantially constantly, the peak of the noise component included in the post-emphasis spectrum is almost unchanged. On the other hand, compared with the peak of the noise component, the peak of the voice component is single (intermittent), that is, changes with time . Therefore, when the emphasized spectrum is time-averaged, only the peak of the noise component included therein remains, and the peak of the speech component is reduced as a whole. Thereby, estimation of the noise spectrum is realized.
また、入力信号に有色雑音が含まれる、とすると、当該入力信号の周波数スペクトルは、周波数に対してパワーが概ね反比例するような全体的に傾斜した特性となる。そして、この周波数スペクトルのピークがそのままピーク強調手段によって強調される、とすると、当該周波数スペクトルの傾斜が急峻になる等の種々の不都合が生じる。このため、本発明においては、入力信号の周波数スペクトルを平坦化する平坦化手段が、さらに備えられてもよい。ただし、平坦化手段は、この入力信号の周波数スペクトルに含まれるピークについては、平坦化されることなく、その先鋭さが維持される程度に、当該周波数スペクトルを平坦化するものとする。そして、ピーク強調手段は、この平坦化手段によって平坦化された後の平坦化後スペクトルのピークを強調するものとする。 If the input signal includes colored noise, the frequency spectrum of the input signal has a generally inclined characteristic such that the power is approximately inversely proportional to the frequency. If the peak of the frequency spectrum is directly enhanced by the peak emphasizing means, various inconveniences such as a steep slope of the frequency spectrum occur. For this reason, in the present invention, flattening means for flattening the frequency spectrum of the input signal may be further provided. However, the flattening means flattens the frequency spectrum to such an extent that the peak contained in the frequency spectrum of the input signal is maintained without being flattened. The peak emphasizing means emphasizes the peak of the flattened spectrum after being flattened by the flattening means.
このような平坦化手段は、入力信号の周波数スペクトルに含まれるピークに追随するのに不十分な低い周波数分解能を持つ低分解能フィルタ、例えば比較的にタップ数(フィルタ次数)の少ないデジタルフィルタによって構成することができる。 Such flattening means is constituted by a low resolution filter having a low frequency resolution that is insufficient to follow a peak included in the frequency spectrum of the input signal, for example, a digital filter having a relatively small number of taps (filter order). can do.
上述したように、本発明によれば、入力信号の周波数スペクトルに含まれる音声成分のピークと雑音成分のピークとが互いに異なる性質を有する点に着目して、当該入力信号の周波数スペクトルのピークが強調され、この強調されたピークのうち雑音成分のピークが除去されることで、音声成分のピークのみが捉えられる。つまり、道路交通騒音等の雑音が存在する環境下において、当該雑音の影響を排除することができる。従って、雑音の影響を受け易い上述の従来技術に比べて、正確な音声検出を実現することができる。これは、特に防犯用途において人間の悲鳴や叫び声等を適確に検出するのに好適である。 As described above, according to the present invention, focusing on the fact that the peak of the speech component and the peak of the noise component included in the frequency spectrum of the input signal are different from each other, the peak of the frequency spectrum of the input signal is By emphasizing and removing the noise component peak from the emphasized peak, only the speech component peak is captured. That is, in an environment where noise such as road traffic noise exists, the influence of the noise can be eliminated. Therefore, accurate voice detection can be realized as compared with the above-described conventional technology that is easily affected by noise. This is particularly suitable for accurately detecting human screams and screams in crime prevention applications.
本発明の一実施形態について、図1〜図14を参照して説明する。 An embodiment of the present invention will be described with reference to FIGS.
本実施形態に係る音声検出装置10は、例えばスーパ防犯灯等の防犯機器に適用されるものであり、詳しくは当該防犯機器に備えられたマイクロホンによって人間の悲鳴や叫び声等が拾われたときに、これを検出するためのものである。この音声検出を実現するべく、当該音声検出装置10は、図1に示すように、平坦化手段としての平坦化回路20を有しており、この平坦化回路20に、図示しないマイクロホンの出力信号X(z)(z;z変換における変数)が入力される。
The
ここで、平坦化回路20に入力される信号X(z)には、上述の悲鳴や叫び声等の音声成分の他に、道路交通騒音等の雑音成分が含まれる場合がある。この場合、入力信号X(z)の周波数スペクトルには、例えば図2にα,βおよびγという符号を付して示すように、当該音声成分と雑音成分とのそれぞれに対応するピークが現れる。このうち、最も周波数fの低いピークαは、雑音成分のピークである。そして、他のピークβおよびγは、音声成分のピークであり、詳しくは周波数fの低いものから順に第2フォルマントおよび第3フォルマントのピークである。なお、図2において、一点鎖線は、各ピークα,βおよびγを含む入力信号X(z)の平均パワーである。また、本実施形態では、周波数スペクトルを求めるための離散フーリエ変換(DFT;Discrete Fourier Transform)の周波数帯域がf=1200Hz〜3000Hzに制限されている。従って、実際には、第1フォルマントのピークも存在するが、この第1フォルマントのピークは、当該周波数帯域外であるので、図2には現れない。さらに、入力信号X(z)には、有色雑音も含まれている。従って、図2から分かるように、当該有色雑音を含む入力信号X(z)の周波数スペクトルは、周波数fに対してパワーPが概ね反比例するような全体的に傾斜した特性となる。
Here, the signal X (z) input to the flattening
図1に戻って、平坦化回路20は、入力信号X(z)に対して、後述する平坦化処理を施す。そして、この平坦化処理後の信号X’(z)は、予測手段としての線形予測誤差フィルタ(LPEF;Linear Prediction Error Filter)30と、当該線形予測誤差フィルタ30の逆フィルタ(LPEF−1)40と、のそれぞれに入力される。
Returning to FIG. 1, the flattening
線形予測誤差フィルタ30は、後述するように、過去の平坦化後信号X’(z)に基づいて現在の平坦化後信号X’(z)を予測し、その予測誤差E(z)が最小になるように適応動作する。そして、この線形予測誤差フィルタ30の適応動作に合わせて、これと共役な逆フィルタ40が形成され、この逆フィルタ40によって、平坦化後信号X’(z)が処理される。これにより、この平坦化後信号X’(z)に含まれる上述のピークα,βおよびγが強調される。このピーク強調についても、後で詳しく説明する。
As will be described later, the linear
さらに、この逆フィルタ40によってピーク強調された後の強調後信号W(z)は、スペクトルサブトラクション(SS;Spectrum Subtraction)50に入力される。スペクトルサブトラクション50は、入力された強調後信号W(z)に含まれる雑音成分のピークαを推定し、このピークαを当該強調後信号W(z)から差し引く。これによって、雑音成分のピークαが除去され、音声成分のピークβおよびγのみが残された、差引後信号G(z)が生成される。この差引後信号G(z)は、ピーク判定回路60に入力される。なお、この差引後信号G(z)を生成するためのスペクトルサブトラクション50の動作についても、後で詳しく説明する。
Further, the post-emphasis signal W (z) after the peak enhancement by the
ピーク判定回路60は、差引後信号G(z)に音声成分のピークβおよびγが含まれているか否かを判定する。そして、この音声成分のピークβおよびγが含まれている場合には、例えば防犯機器に備えられている図示しない警報機を作動させたり、所定の防災センタに通知信号を送信したりする。このピーク判定回路60によるピーク判定処理の要領についても、後で詳しく説明する。
The
このように、本実施形態の音声検出装置10によれば、平坦化回路20,線形予測誤差フィルタ30,逆フィルタ40,スペクトルサブトラクション50およびピーク判定回路60を備える構成によって、音声検出が実現されるが、これらについて、以下、より具体的に説明する。
As described above, according to the
まず、線形予測誤差フィルタ30の必要性について、説明する。即ち、線形予測誤差フィルタ30は、上述したように過去の平坦化後信号X’(z)に基づいて現在の平坦化後信号X’(z)を予測するものであるが、結果的に、予測可能な成分が打ち消され、予測不可能な成分のみが予測誤差E(z)として出力される。このような線形予測誤差フィルタ30は、例えば図3に示すように、1サンプル分の遅延素子302と、FIR型の適応フィルタ304と、加算器306と、によって構成される。
First, the necessity of the linear
この図3に示す構成において、例えば、今、平坦化後信号X’(z)ではなく、上述の入力信号X(z)が直接的に入力される、と仮定する。この場合、当該入力信号X(z)は、遅延素子302によって遅延された後、適応フィルタ304によって処理される。そして、この適応フィルタ304による処理後信号U(z)は、加算器306に入力される。加算器306には、入力信号X(z)も入力されており、当該加算器306は、この入力信号X(z)から適応フィルタ304による処理後信号U(z)を差し引く。この差し引き後の信号E(z)が、(入力信号X(z)に対応する)予測誤差として出力され、当該予測誤差E(z)が最小になるように、適応フィルタ304が適応動作する。
In the configuration shown in FIG. 3, for example, it is assumed that the input signal X (z) described above is directly input instead of the flattened signal X ′ (z). In this case, the input signal X (z) is delayed by the
ここで、適応フィルタ304の伝達関数をH(z)とすると、当該適応フィルタ304による処理後信号U(z)は、次の数1によって表される。
Here, assuming that the transfer function of the
そして、この適応フィルタ304の伝達関数H(z)を含む線形予測誤差フィルタ30全体の伝達関数をL(z)とすると、この伝達関数L(z)は、次の数2によって表される。
If the transfer function of the entire linear
さらに、適応フィルタ304のタップ数をNとすると、当該適応フィルタ304の伝達関数H(z)は、次の数3によって表される。なお、この数3において、hnは、nタップ目のフィルタ係数である。
Furthermore, when the number of taps of the
そして、この数3の表現が便宜的に書き換えられた上で、当該数3が数2に代入されると、線形予測誤差フィルタ30全体の伝達関数L(z)は、次の数4のように表される。
Then, after the expression of Equation 3 is rewritten for convenience, when Equation 3 is substituted into
一方、音声、特に有声音P(z)は、次の数5のように表される。なお、この数5において、A(z)は、当該有声音を発する発声者の声道全体の伝達関数(共振特性)であり、B(z)は、当該発声者の声帯振動の特性である。 On the other hand, voice, particularly voiced sound P (z), is expressed as in the following formula 5. In Equation 5, A (z) is a transfer function (resonance characteristic) of the entire vocal tract of the speaker who emits the voiced sound, and B (z) is a characteristic of vocal cord vibration of the speaker. .
この数5によって表される有声音P(z)の特性、特に母音のフォルマントの特性は、声道の伝達関数A(z)に依存する。そこで、この声道の伝達関数A(z)を、例えば有限長の全極型モデルで表現する、とすると、当該伝達関数A(z)は、次の数6のように表される。なお、この数6において、Mは、当該全極型モデルのタップ数である。 The characteristics of the voiced sound P (z) represented by this equation 5, particularly the characteristics of the vowel formant, depend on the transfer function A (z) of the vocal tract. Therefore, when the transfer function A (z) of the vocal tract is expressed by, for example, a finite-length all-pole model, the transfer function A (z) is expressed as the following Expression 6. In Equation 6, M is the number of taps of the all-pole model.
ゆえに、入力信号X(z)として有声音P(z)のみが入力される、と仮定すると、予測誤差E(z)は、次の数7によって表される。 Therefore, assuming that only the voiced sound P (z) is input as the input signal X (z), the prediction error E (z) is expressed by the following Expression 7.
その上で、適応フィルタ304が、声道の伝達関数A(z)を表現するのに十分なタップ数Nを有し、かつ、数7によって表される予測誤差E(z)が最小になるように適応動作する、とすると、当該数7において、次の数8が成立する。
In addition, the
これは、即ち、適応フィルタ304を含む線形予測誤差フィルタ30によって声道の伝達関数A(z)の逆数が予測されることを、意味する。
This means that the inverse of the vocal tract transfer function A (z) is predicted by the linear
従って、この線形予測誤差フィルタ30の逆フィルタ40によって入力信号X(z)が処理されることで、つまり当該逆フィルタ40の伝達関数L−1(z)が入力信号X(z)に掛けられることで、当該入力信号X(z)に含まれるフォルマントが強調される。なお、逆フィルタ40の伝達関数L−1(z)は、次の数9によって表される。
Therefore, the input signal X (z) is processed by the
このような逆フィルタ40は、図4に示すように、線形予測誤差フィルタ30における適応フィルタ304の伝達関数H(z)がコピーされる言わば従属フィルタ402と、この従属フィルタ402による処理後信号を入力信号X(z)に加算する加算器404と、この加算器404による加算後の信号W(z)を遅延させて従属フィルタ402に入力する1サンプル分の遅延素子406と、によって構成される。そして、加算器404による加算後の信号W(z)が、この逆フィルタ40による処理後信号、つまり強調後信号、として出力される。ただし、この逆フィルタ40の構成は、いわゆるIIR型であるため、その動作が不安定になることが懸念される。そこで、この欠点を解消するべく、逆フィルタ40として、格子型のものが採用される。これに合わせて、線形予測誤差フィルタ30もまた、格子型とされる。
As shown in FIG. 4, the
具体的には、まず、線形予測誤差フィルタ30は、図5に示すように、遅延素子302の出力が入力される遅延側(後ろ向き予測側)の加算器310と、入力信号X(z)が直接的に入力される非遅延側(前向き予測側)の別の加算器312と、を有している。また、遅延素子302の出力は、乗算器314にも入力され、この乗算器314の出力は、非遅延側の加算器312に入力される。非遅延側の加算器312は、乗算器314の出力を入力信号X(z)から差し引いて、この差し引き後の信号を次段の加算器312aに入力する。併せて、入力信号X(z)は、別の乗算器316にも入力され、この乗算器316の出力は、遅延側の加算器310に入力される。遅延側の加算器310は、乗算器316の出力を遅延素子302の出力から差し引いて、この差し引き後の信号を次段の遅延素子302aに入力する。次段の遅延素子302aは、2つの加算器310aおよび312aと2つの乗算器314aおよび316aと共に、前段と同様の構成を築く。そして、この構成は、M段にわたって縦続され、最終のM段目の非遅延側加算器312bが、図3および図4に示した加算器306を担う。つまり、このM段目の非遅延側加算器312bの出力が、予測誤差E(z)とされる。なお、最初の1段目を構成する2つの乗算器314および316には、互いに同じフィルタ係数(反射係数)δ1が設定される。このことは、他段についても、同様である。これらのフィルタ係数δ1,δ2,…,δMの算出法については、公知であるので、ここでの詳しい説明を省略する。
Specifically, first, as shown in FIG. 5, the linear
一方、逆フィルタ40は、図6に示すように、遅延素子406の出力が入力される帰還側(後ろ向き予測に対応する側)の加算器410と、強調後信号W(z)を出力する順方向側(前向き予測に対応する側)の別の加算器412と、を有している。また、遅延素子406の出力は、乗算器414にも入力され、この乗算器414の出力は、順方向側の加算器412に入力される。この順方向側加算器412は、その前段の加算器412a経由で入力される信号に当該乗算器414の出力を加算して、この加算後の信号を強調後信号W(z)として出力する。併せて、この強調後信号W(z)は、別の乗算器416にも入力され、この乗算器416の出力は、帰還側の加算器410に入力される。帰還側の加算器410は、乗算器416の出力を遅延素子406の出力から差し引いて、この差し引き後の信号を次段の遅延素子406aに入力する。次段の遅延素子406aは、前段の遅延素子406が2つの加算器410および412と2つの乗算器414および416と共に築くのと同様の構成を、2つの加算器410aおよび412aと2つの乗算器414aおよび416aと共に築く。そして、この構成は、M段にわたって縦続され、M段目の順方向側加算器412bが、図4に示した加算器404を担う。つまり、このM段目の順方向側加算器412bに、入力信号X(z)が入力される。なお、1段目の各乗算器414および416には、図5に示した線形予測誤差フィルタ30の1段目の各乗算器314および316のフィルタ係数δ1が設定される。このことは、他段についても、同様である。これにより、線形予測誤差フィルタ30の逆フィルタ40が構成される。
On the other hand, as shown in FIG. 6, the
このような格子型の逆フィルタ40は、IIR型であるものの、安定した動作を奏することが知られている。言い換えれば、安定判別が容易であり、具体的には、各フィルタ係数δ1,δ2,…,δMのそれぞれが±1未満であれば、当該逆フィルタ40の動作が安定することが知られている。また、線形予測誤差フィルタ30についても、格子型とされることで、トランスバーサル型等の他構成のフィルタよりも高い収束速度が得られる等の優れた線形予測性能が発揮される。しかも、この線形予測誤差フィルタ30の各フィルタ係数δ1,δ2,…,δMが逆フィルタ40にそのまま適用されることで、当該逆フィルタ40が実現される。
Such a lattice-
このように、線形予測誤差フィルタ30の逆フィルタ40によって入力信号X(z)が処理されることで、当該入力信号X(z)に含まれるフォルマントが強調されるが、この場合、つまり入力信号X(z)に対して直接的にピーク強調が施された場合、次のような不都合が生じる。
In this way, the input signal X (z) is processed by the
即ち、入力信号X(z)は、上述した図2の如く全体的に傾斜した周波数スペクトルを示すが、この入力信号X(z)に対して直接的にピーク強調が施される、とすると、図7に実線の曲線で示すように、当該ピーク強調後の周波数スペクトルの傾斜が急峻になる。なお、同図における破線曲線は、ピーク強調前の入力信号X(z)の周波数スペクトルであり、つまり図2に示した実線の曲線と同じものである。そして、このように周波数スペクトルの傾斜が急峻になることによって、各ピークα,βおよびγ以外の部分のパワーが特にフォルマントのピークβおよびγよりも大きくなる恐れがあり、そうなると、後述するピーク判定回路60による当該フォルマントのピークβおよびγの判定が難しくなる。また、このピーク強調においては、フォルマントのピークβおよびγのみならず、雑音成分のピークαも強調されるため、特に当該雑音成分のピークαが過大となり、言わばレンジオーバ(オーバフロー)となる。
That is, the input signal X (z) exhibits a frequency spectrum that is totally inclined as shown in FIG. 2 described above, and if the input signal X (z) is directly subjected to peak enhancement, As shown by the solid curve in FIG. 7, the slope of the frequency spectrum after peak emphasis becomes steep. Note that the dashed curve in the figure is the frequency spectrum of the input signal X (z) before peak enhancement, that is, the same as the solid curve shown in FIG. In addition, since the slope of the frequency spectrum becomes steep in this way, there is a possibility that the power of portions other than the peaks α, β, and γ is particularly larger than the formant peaks β and γ. It becomes difficult for the
この不都合を回避するために、平坦化回路20が設けられている。つまり、この平坦化回路20によって入力信号X(z)が処理されることで、図8に実線の曲線で示すように、各ピークα,βおよびγについては、それぞれの先鋭さが維持される程度に、当該入力信号X(z)の周波数スペクトル全体が平坦化され、傾斜が是正される。このような平坦化回路20は、各ピークα,βおよびγには追随し得ない程度の低い周波数分解能のフィルタによって実現され、例えば線形予測誤差フィルタ30と同様の構成であり、かつ、当該線形予測誤差フィルタ30よりもタップ数の少ないフィルタによって実現される。勿論、これ以外の構成によって、当該平坦化回路20が実現されてもよい。
In order to avoid this inconvenience, a
そして、この平坦化回路20によって言わば軽度に平坦化処理された後の平坦化後信号X’(z)が、線形予測誤差フィルタ30と逆フィルタ40とのそれぞれに入力される。これにより、図7に実線の曲線で示したのとは異なり、図9に実線の曲線で示すように、各ピークα,βおよびγが適度に強調された強調後信号W(z)が得られる。なお、図9における破線曲線は、ピーク強調前の平坦化後信号X’(z)の周波数スペクトルであり、つまり図8に実線の曲線で示したのと同じである。
Then, the flattened signal X ′ (z) that has been lightly flattened by the flattening
さらに、強調後信号W(z)は、スペクトルサブトラクション50に入力されるが、このスペクトルサブトラクション50は、図10に示すような構成とされている。即ち、スペクトルサブトラクション50は、移動平均回路502を有しており、この移動平均回路502に、強調後信号W(z)が入力される。移動平均回路502は、入力された強調後信号W(z)をTaという所定期間にわたって、例えばTa=5秒間にわたって、移動平均(時間平均)する。そして、この移動平均回路502によって移動平均された後の平均化信号Wa(z)は、乗算器504に入力され、ここで、εという一定の係数を掛けられる。この係数εの値は、状況に応じて適宜に定められ、例えばε=1.5とされる。そして、この乗算器504による乗算後の平均化信号Wa’(z)は、加算器506に入力される。
Furthermore, the post-emphasis signal W (z) is input to the
また、スペクトルサブトラクション50は、遅延回路508を有しており、この遅延回路508にも、強調後信号W(z)が入力される。遅延回路508は、入力された強調後信号W(z)をTdという一定期間だけ遅延させる。この遅延回路508による遅延時間Tdは、移動平均回路502による移動平均時間Taの1/2であり、つまりTd=2.5秒間である。そして、この遅延回路508による遅延後の信号Wdもまた、加算器506に入力される。
Further, the
加算器506は、遅延回路508による遅延後信号Wd(z)から乗算器504による乗算後の平均化信号Wa’(z)を差し引くことで、上述した差引後信号G(z)を生成する。ここで、遅延後信号Wd(z)は、現在時刻よりも遅延時間Tdだけ前の時刻における強調後信号W(z)であり、例えば図11(a)に示すような周波数スペクトルとなる。一方、平均化信号Wa’(z)は、遅延回路508による遅延時間Tdだけ遡った時刻を中心として、見かけ上、その前後2.5秒間の合計5秒間という平均化時間Taにわたって強調後信号W(z)が移動平均され、さらにそのレベルがε倍されたものである。特に、このTa=5秒間という平均化時間においては、定在する雑音成分のピークαは概ね不変である。これに対して、悲鳴や叫び声などの音声成分(長母音成分)は単発的であるので、そのピークβおよびγは変動する。この結果、平均化信号Wa’(z)は、図11(b)に示すように、雑音成分のピークαのみが残り、音声成分のピークβおよびγについては大きく低減された周波数スペクトルとなる。従って、差引後信号G(z)は、図11(c)に示すように、雑音成分のピークαが除去され、音声成分のピークβおよびγのみが残された周波数スペクトルとなる。つまり、音声成分のピークβおよびγのみが抽出される。ゆえに、この音声成分のピークβおよびγが捉えられることで、音声検出が実現される。
The
なお、上述の如く移動平均回路502による平均化時間Taにわたって雑音成分のピークαが概ね不変であるとしても、この平均化時間Taにわたる移動平均処理によって、当該雑音成分のピークαもまた多少低減される。この低減分を補うために、上述の乗算器504が設けられる。つまり、差引後信号G(z)において雑音成分のピークαが適当に除去されるように、乗算器504の係数εが設定される。
Even if the noise component peak α is substantially unchanged over the averaging time Ta by the moving
ここで、実際の実験結果を報告する。 Here we report the actual experimental results.
即ち、図示しない評価音源を用いて、雑音として、ピンクノイズと1400Hzの正弦波とを発生させる。そして、音声として、「助けて〜」という男声を発生させる。これらの音声と雑音とのSNR(Signal-Noise Ratio)は、約−15dBとされる。そして、これらの音声と雑音とを含む入力信号X(z)を得るためのサンプリング周波数は、32kHzとされ、上述した離散フーリエ変換の点数は、800とされる。さらに、平坦化回路20を構成する線形予測誤差フィルタのタップ長が、40とされ、ステップサイズが、0.00625とされる。そして、線形予測誤差フィルタ30のタップ長が、800とされ、ステップサイズが、0.25とされる。逆フィルタ40についても、この線形予測誤差フィルタ30と同じタップ数およびステップサイズとされる。そして、スペクトルサブトラクション50の上述した平均化時間Taは、Ta=5秒間とされ、係数εは、ε=1.5とされる。
That is, using an evaluation sound source (not shown), pink noise and a 1400 Hz sine wave are generated as noise. Then, a voice of “Help me” is generated as a voice. The SNR (Signal-Noise Ratio) between these voices and noise is about -15 dB. The sampling frequency for obtaining the input signal X (z) including these sounds and noise is 32 kHz, and the above-mentioned discrete Fourier transform score is 800. Further, the tap length of the linear prediction error filter constituting the flattening
このような条件下での入力信号X(z)は、図12(a)に示すような周波数スペクトルとなる。そして、この入力信号X(z)が平坦化された後の平坦化後信号X’(z)は、図12(b)に示すような周波数スペクトルとなる。これらの比較から分かるように、図12(a)の入力信号X(z)の周波数スペクトルにおいては、雑音成分のピークαに比べて、音声成分のピークβおよびγは特段に目立たないものの、図12(b)の平坦化後信号X’(z)の周波数スペクトルでは、雑音成分のピークαと同じ程度に、当該音声成分のピークβおよびγが目立つようになる。 The input signal X (z) under such conditions has a frequency spectrum as shown in FIG. Then, the flattened signal X ′ (z) after the input signal X (z) is flattened has a frequency spectrum as shown in FIG. As can be seen from these comparisons, in the frequency spectrum of the input signal X (z) in FIG. 12A, the peaks β and γ of the speech component are not particularly noticeable compared to the peak α of the noise component. In the frequency spectrum of the post-flattened signal X ′ (z) of 12 (b), the speech component peaks β and γ become conspicuous as much as the noise component peak α.
さらに、平坦化後信号X’(z)がピーク強調された後の強調後信号W(z)は、図12(c)に示すような周波数スペクトルとなる。そして、この強調後信号W(z)が上述の平均化時間Taにわたって移動平均された後の平均化信号Wa(z)は、図12(d)に示すような周波数スペクトルとなる。これらの比較から分かるように、図12(c)の強調後信号W(z)の周波数スペクトルにおいては、音声成分のピークβおよびγは十分に大きいものの、図12(d)の平均化信号Wa(z)の周波数スペクトルでは、当該音声成分のピークβおよびγは極端に低減されている。これに対して、雑音成分のピークαもまた、低減されるものの、その低減度合は小さい。 Further, the post-emphasis signal W (z) after the post-flattening signal X ′ (z) is subjected to peak emphasis has a frequency spectrum as shown in FIG. Then, the averaged signal Wa (z) after the post-emphasis signal W (z) is moving averaged over the above-described averaging time Ta has a frequency spectrum as shown in FIG. As can be seen from these comparisons, in the frequency spectrum of the post-emphasis signal W (z) in FIG. 12 (c), although the peaks β and γ of the speech component are sufficiently large, the averaged signal Wa in FIG. 12 (d). In the frequency spectrum of (z), the peaks β and γ of the sound component are extremely reduced. On the other hand, although the peak α of the noise component is also reduced, the degree of reduction is small.
そして、上述したように、強調後信号W(z)がTdという遅延時間だけ遅延されることによって遅延後信号Wd(z)が生成され、平均化信号Wa(z)に係数εが掛けられることで乗算後の平均化信号Wa’(z)が生成され、これらの差し引きによって差引後信号G(z)が生成される。そして、この差引後信号G(z)は、図12(e)に示すような周波数スペクトルとなる。この図12(e)の差引後信号G(z)の周波数スペクトルから明らかなように、雑音成分のピークαが除去され、音声成分のピークβおよびγのみが残る。 Then, as described above, the post-emphasis signal W (z) is delayed by a delay time of Td to generate the post-delay signal Wd (z), and the average signal Wa (z) is multiplied by the coefficient ε. In this way, an averaged signal Wa ′ (z) after multiplication is generated, and a subtracted signal G (z) is generated by subtracting these signals. The post-subtraction signal G (z) has a frequency spectrum as shown in FIG. As is apparent from the frequency spectrum of the subtracted signal G (z) in FIG. 12 (e), the noise component peak α is removed, and only the speech component peaks β and γ remain.
このように、実際の実験によっても、本実施形態の有効性が確認された。 As described above, the effectiveness of the present embodiment was also confirmed by actual experiments.
差引後信号G(z)は、ピーク判定回路60に入力され、ここで、音声成分のピークβおよびγの有無が判定されるが、当該差引後信号G(z)の周波数スペクトルは、スペクトルサブトラクション50による処理の結果、負数をも持つことになるため、絶対的な評価によって当該音声成分のピークβおよびγの有無を判定することができない。つまり、或る一定の閾値を設定すると共に、この閾値よりも大きい音声成分のピークβおよびγが存在するか否かによって、当該音声成分のピークβおよびγの有無を判定することができない。それゆえに、ピーク判定回路60は、次の相対的評価によってピーク判定を行う。
The post-subtraction signal G (z) is input to the
即ち、今、差引後信号G(z)の周波数スペクトルの一部が、例えば図13に示すような特性である、とする。ここで、任意の周波数ビンiにおける成分値g[i]が、次の数10で表される条件式を満足するときに、当該成分値g[i]が音声成分のピークβまたはγである、と判定される。
That is, it is assumed that a part of the frequency spectrum of the subtracted signal G (z) has characteristics as shown in FIG. Here, when the component value g [i] in an arbitrary frequency bin i satisfies the conditional expression expressed by the following
この数10で表される条件式に基づいて、つまり連続する5つの周波数ビン[i−2]〜[i+2]における成分値g[i−2]〜g[i+2]に基づいて、その中央の周波数ビンiにおける成分値g[i]が音声成分のピークβまたはγであるか否かが判定されることで、負数を持つ差引後信号G(z)の周波数スペクトルであっても、当該音声信号のピークβおよびγの有無を正確に判定することができる。また、ゆらぎ等によって、音声信号のピークβおよびγが、例えば図14に示す如く一種不明確となっても、それらの有無を正確に判定することができる。なお、数10のQ5〜Q8に含まれる「4」という数値は、いわゆる経験値であり、状況に応じて異なる値が設定されることがある。
Based on the conditional expression expressed by this
以上のように、本実施形態によれば、入力信号X(z)の周波数スペクトルを求めるための離散フーリエ変換の周波数帯域がf=1200Hz〜3000Hzに制限されており、つまり第1フォルマントについては音声検出の対象から意図的に外されている。従って、第1フォルマントの周波数帯域と重複する1kHz付近の周波数帯域に大きなパワーを持つ道路交通騒音等の雑音が存在する環境下においても、当該雑音の影響を排除しつつ、音声検出を実現することができる。その上で、本実施形態によれば、入力信号X(z)の周波数スペクトルに含まれる雑音成分のピークαと音声成分のピークβおよびγとの性質の差異に着目して、これらのピークα,βおよびγを強調し、さらに、このピーク強調後の周波数スペクトルから雑音成分のピークαのみを除去して、音声成分のピークβおよびγを捉えることで、音声検出を実現している。従って、道路交通騒音のみならず、それ以外の雑音の影響をも排除することができ、ひいては当該雑音の影響を受け易い上述の従来技術よりも正確な音声検出を実現することができる。これは、特に防犯用途において人間の悲鳴や叫び声等を適確に検出するのに好適である。 As described above, according to the present embodiment, the frequency band of the discrete Fourier transform for obtaining the frequency spectrum of the input signal X (z) is limited to f = 1200 Hz to 3000 Hz, that is, the first formant is a voice. It is intentionally removed from the detection target. Therefore, even in an environment where there is a noise such as road traffic noise having a large power in the frequency band near 1 kHz that overlaps the frequency band of the first formant, voice detection is realized while eliminating the influence of the noise. Can do. In addition, according to the present embodiment, paying attention to the difference in properties between the noise component peak α and the speech component peaks β and γ included in the frequency spectrum of the input signal X (z), these peaks α , Β and γ are emphasized, and furthermore, only the noise component peak α is removed from the frequency spectrum after the peak enhancement, and the speech component peaks β and γ are captured, thereby realizing speech detection. Therefore, not only road traffic noise but also the influence of other noises can be eliminated. As a result, more accurate voice detection can be realized than the above-described conventional technique that is easily affected by the noise. This is particularly suitable for accurately detecting human screams and screams in crime prevention applications.
なお、このような音声検出装置10は、例えばCPU(Central Processing
Unit)や当該CPUとDSP(Digital Signal Processor)との組合せによって実現される。また、これらのCPUやDSPにとっては、比較的に少ない処理量で上述した要領による音声検出が可能であるので、当該CPUやDSPとして比較的に廉価なものを採用することができ、特にDSPとしては固定小数点型のものを採用することができる。さらに、入力信号X(z)を得るためのサンプリング周波数を、上述した32kHzよりも低減することができ、例えば12kHzにダウンサンプリングすることができる。このこともまた、CPUやDSPの廉価化に大きく貢献する。
Such a
Unit) or a combination of the CPU and a DSP (Digital Signal Processor). For these CPUs and DSPs, it is possible to detect voices in the manner described above with a relatively small amount of processing, so it is possible to use relatively inexpensive CPUs and DSPs, especially as DSPs. Can be a fixed-point type. Furthermore, the sampling frequency for obtaining the input signal X (z) can be reduced from the above-described 32 kHz, and can be down-sampled to 12 kHz, for example. This also greatly contributes to cost reduction of the CPU and DSP.
本実施形態においては、防犯用途に本発明を適用する場合について説明したが、これに限らない。即ち、音声成分と雑音成分とが混在する入力信号X(z)から当該音声成分のみを検出する必要性がある用途であれば、本発明を適用することができる。 In this embodiment, although the case where this invention is applied to a crime prevention use was demonstrated, it is not restricted to this. That is, the present invention can be applied to any application where it is necessary to detect only the audio component from the input signal X (z) in which the audio component and the noise component are mixed.
また、離散フーリエ変換の周波数帯域を制限することで、結果的に、第1フォルマントが音声検出の対象が外れるようにしたが、これに限らない。即ち、当該第1フォルマントを音声検出の対象から外すための別の手段、例えばローパスフィルタ等の周波数制限手段、を採用してもよい。 Further, by limiting the frequency band of the discrete Fourier transform, as a result, the first formant is excluded from the target of speech detection. However, the present invention is not limited to this. That is, another means for removing the first formant from the target of voice detection, for example, a frequency limiting means such as a low-pass filter may be employed.
さらに、線形予測誤差フィルタ30として、図5に示した格子型のFIRフィルタを採用したが、トランスバーサル型等の他構成のフィルタを採用してもよい。この場合、逆フィルタについても、当該線形予測誤差フィルタ30と共役な構成のフィルタを採用するのが肝要である。ただし、格子型のフィルタを採用することで、多大な利点が得られることは、上述した通りである。
Furthermore, although the lattice-type FIR filter shown in FIG. 5 is adopted as the linear
そして、スペクトルサブトラクション50として、図10に示した構成のものを採用したが、これに限らない。特に、雑音成分のピークαを推定するための手段として、移動平均回路502以外のものを採用してもよい。
And although the thing of the structure shown in FIG. 10 was employ | adopted as the
10 音声検出装置
20 平坦化回路
30 線形予測誤差フィルタ
40 逆フィルタ
50 スペクトルサブトラクション
DESCRIPTION OF
Claims (5)
上記入力信号の周波数スペクトルのピークを強調するピーク強調手段と、
上記ピーク強調手段によって上記ピークが強調された後の強調後スペクトルのうち上記雑音成分に対応する雑音スペクトルを推定する雑音推定手段と、
上記強調後スペクトルから上記雑音スペクトルを差し引く差引手段と、
上記差引手段によって上記強調後スペクトルから上記雑音スペクトルが差し引かれた後の差引後信号に上記ピークが含まれているかどうかを判定するピーク判定手段と、
を具備し、
上記ピーク強調手段は、過去の上記入力信号に基づいて現在の該入力信号を予測する線形予測誤差フィルタと、該線形予測誤差フィルタの伝達関数の逆数である逆伝達関数が設定され上記入力信号を処理することで上記ピークを強調する逆フィルタと、を含むこと、
を特徴とする、音声検出装置。 In a voice detection device that detects a voice component from an input signal in which a voice component and a noise component are mixed,
Peak emphasizing means for emphasizing the peak of the frequency spectrum of the input signal;
Noise estimation means for estimating a noise spectrum corresponding to the noise component in the enhanced spectrum after the peak is enhanced by the peak enhancement means;
Subtracting means for subtracting the noise spectrum from the enhanced spectrum;
Peak determination means for determining whether or not the peak is included in the signal after subtraction after the noise spectrum is subtracted from the spectrum after enhancement by the subtraction means;
Equipped with,
The peak enhancement means is configured to set a linear prediction error filter that predicts the current input signal based on the past input signal, and an inverse transfer function that is the reciprocal of the transfer function of the linear prediction error filter. Including an inverse filter that enhances the peak by processing,
A voice detection device characterized by the above.
請求項1に記載の音声検出装置。 Each of the linear prediction error filter and the inverse filter is a lattice type.
The voice detection device according to claim 1 .
請求項1または2に記載の音声検出装置。 The noise estimation means estimates the noise spectrum by time averaging the emphasized spectrum.
Speech detection apparatus according to claim 1 or 2.
上記入力信号の周波数スペクトルのピークを強調するピーク強調手段と、
上記ピーク強調手段によって上記ピークが強調された後の強調後スペクトルのうち上記雑音成分に対応する雑音スペクトルを推定する雑音推定手段と、
上記強調後スペクトルから上記雑音スペクトルを差し引く差引手段と、
を具備し、
上記ピークが維持される程度に上記入力信号の上記周波数スペクトルを平坦化する平坦化手段をさらに備え、
上記ピーク強調手段は上記平坦化手段によって平坦化された後の平坦化後スペクトルの上記ピークを強調すること、
を特徴とする、音声検出装置。 In a voice detection device that detects a voice component from an input signal in which a voice component and a noise component are mixed,
Peak emphasizing means for emphasizing the peak of the frequency spectrum of the input signal;
Noise estimation means for estimating a noise spectrum corresponding to the noise component in the enhanced spectrum after the peak is enhanced by the peak enhancement means;
Subtracting means for subtracting the noise spectrum from the enhanced spectrum;
Comprising
Flattening means for flattening the frequency spectrum of the input signal to such an extent that the peak is maintained;
The peak enhancing means emphasizes the peak of the flattened spectrum after being flattened by the flattening means ;
A voice detection device characterized by the above .
請求項4に記載の音声検出装置。 The flattening means includes a low resolution filter having a low frequency resolution that is insufficient to follow the peak;
The voice detection device according to claim 4 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010163680A JP5450298B2 (en) | 2010-07-21 | 2010-07-21 | Voice detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010163680A JP5450298B2 (en) | 2010-07-21 | 2010-07-21 | Voice detection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012027114A JP2012027114A (en) | 2012-02-09 |
JP5450298B2 true JP5450298B2 (en) | 2014-03-26 |
Family
ID=45780138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010163680A Active JP5450298B2 (en) | 2010-07-21 | 2010-07-21 | Voice detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5450298B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3823315A1 (en) | 2019-11-18 | 2021-05-19 | Panasonic Intellectual Property Corporation of America | Sound pickup device, sound pickup method, and sound pickup program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883183B (en) * | 2020-03-16 | 2023-09-12 | 珠海市杰理科技股份有限公司 | Voice signal screening method, device, audio equipment and system |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250599A (en) * | 1999-03-04 | 2000-09-14 | Toshiba Corp | Acoustic feature extracting method and device |
JP2001159899A (en) * | 1999-12-01 | 2001-06-12 | Matsushita Electric Ind Co Ltd | Noise suppressor |
KR100657948B1 (en) * | 2005-02-03 | 2006-12-14 | 삼성전자주식회사 | Speech enhancement apparatus and method |
JP4965891B2 (en) * | 2006-04-25 | 2012-07-04 | キヤノン株式会社 | Signal processing apparatus and method |
JP5041934B2 (en) * | 2006-09-13 | 2012-10-03 | 本田技研工業株式会社 | robot |
JP2008165113A (en) * | 2007-01-04 | 2008-07-17 | Toyota Motor Corp | Speech synthesis device |
JP2009223210A (en) * | 2008-03-18 | 2009-10-01 | Toshiba Corp | Signal band spreading device and signal band spreading method |
JP5148414B2 (en) * | 2008-08-29 | 2013-02-20 | 株式会社東芝 | Signal band expander |
-
2010
- 2010-07-21 JP JP2010163680A patent/JP5450298B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3823315A1 (en) | 2019-11-18 | 2021-05-19 | Panasonic Intellectual Property Corporation of America | Sound pickup device, sound pickup method, and sound pickup program |
US11900920B2 (en) | 2019-11-18 | 2024-02-13 | Panasonic Intellectual Property Corporation Of America | Sound pickup device, sound pickup method, and non-transitory computer readable recording medium storing sound pickup program |
Also Published As
Publication number | Publication date |
---|---|
JP2012027114A (en) | 2012-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5071346B2 (en) | Noise suppression device and noise suppression method | |
JP5453740B2 (en) | Speech enhancement device | |
JP4423300B2 (en) | Noise suppressor | |
EP3155618B1 (en) | Multi-band noise reduction system and methodology for digital audio signals | |
EP2023342A1 (en) | Noise reduction with integrated tonal noise reduction | |
JP6136995B2 (en) | Noise reduction device | |
JP2007171961A (en) | Advanced periodic signal enhancement | |
JPWO2009037733A1 (en) | Active silencer and control method of active silencer | |
JP6174856B2 (en) | Noise suppression device, control method thereof, and program | |
RU2719543C1 (en) | Apparatus and method for determining a predetermined characteristic relating to processing of artificial audio signal frequency band limitation | |
JP5450298B2 (en) | Voice detection device | |
CN109246548B (en) | Blasting noise control system, method and computing device | |
JP2010020012A (en) | Noise suppressing device and program | |
JP5377167B2 (en) | Scream detection device and scream detection method | |
KR20200095370A (en) | Detection of fricatives in speech signals | |
JP5466581B2 (en) | Echo canceling method, echo canceling apparatus, and echo canceling program | |
JP2007093635A (en) | Known noise removing device | |
JP2010020013A (en) | Noise suppression estimation device and program | |
JP7152112B2 (en) | Signal processing device, signal processing method and signal processing program | |
WO2014097470A1 (en) | Reverberation removal device | |
JP5975398B2 (en) | Speech enhancement device | |
JP2006126841A (en) | Periodic signal enhancement system | |
JP2014199343A5 (en) | Signal processing apparatus and method | |
KR101086624B1 (en) | System for removing noise in headset of stfd type | |
JP2011070084A (en) | Sound/soundless determination device, sound/soundless determination method, and sound/soundless determination program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5450298 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |