JP2006126859A - Speech processing device and method - Google Patents

Speech processing device and method Download PDF

Info

Publication number
JP2006126859A
JP2006126859A JP2005351249A JP2005351249A JP2006126859A JP 2006126859 A JP2006126859 A JP 2006126859A JP 2005351249 A JP2005351249 A JP 2005351249A JP 2005351249 A JP2005351249 A JP 2005351249A JP 2006126859 A JP2006126859 A JP 2006126859A
Authority
JP
Japan
Prior art keywords
speech
voice
spectrum
noise
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005351249A
Other languages
Japanese (ja)
Other versions
JP4445460B2 (en
JP2006126859A5 (en
Inventor
Yoka O
幼華 王
Koji Yoshida
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005351249A priority Critical patent/JP4445460B2/en
Publication of JP2006126859A publication Critical patent/JP2006126859A/en
Publication of JP2006126859A5 publication Critical patent/JP2006126859A5/ja
Application granted granted Critical
Publication of JP4445460B2 publication Critical patent/JP4445460B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speech processing device and a speech processing method with which distortion in speech is made less and noise is sufficiently eliminated. <P>SOLUTION: A voice/nonvoice discriminating section 106 judges that a section of the voice spectrum is a voice section containing a voice component if the difference between the voice spectrum signal and the value of a noise base is a prescribed threshold or more and otherwise judges that the section is a nonvoice section containing no voice components and containing only noise. A comb filter generating section 107 generates a comb filter for enhancing the voice pitch according to whether or not a voice component is contained in each frequency bin. A damping coefficient calculating section 108 multiplies the comb filter by a damping coefficient, based on a frequency characteristic, determines the damping coefficient of the input signal for each frequency bin, and outputs the damping coefficient of each frequency bin to a multiplying section 109. The multiplying section 109 multiplies the voice spectrum by the damping coefficient for each frequency bin unit. A frequency synthesizing section 110 combines the spectra of the frequency bin units determined by the multiplication to synthesize a voice spectrum continuous in a frequency range in units of a prescribed processing time. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、雑音を抑圧する音声処理装置及び音声処理方法に関し、特に通信システムにおける音声処理装置及び音声処理方法に関する。   The present invention relates to a speech processing apparatus and speech processing method for suppressing noise, and more particularly to a speech processing apparatus and speech processing method in a communication system.

従来の音声符号化技術では、雑音のない音声に対しては高品質な音声で通話することができるが、雑音等が含まれた音声に対してはデジタル通話特有の耳障りな雑音が生じ、音質が劣化する問題があった。   With conventional speech coding technology, it is possible to talk with high-quality speech for speech without noise, but for speech with noise, harsh noise unique to digital speech occurs, resulting in There was a problem of deterioration.

このような雑音を抑圧する音声強調技術としてスペクトルサブトラクション法、コムフィルタ法がある。   As a speech enhancement technique for suppressing such noise, there are a spectral subtraction method and a comb filter method.

スペクトルサブトラクション法は、雑音情報に着目して無音区間で雑音の性質を推定して雑音を含む音声信号の短時間パワースペクトルから雑音の短時間パワースペクトルを減算する、または減衰係数を乗算することにより音声信号のパワースペクトルを推定して雑音を抑圧する方法である。スペクトルサブトラクション法は、例えば、文献 (S.Boll, Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-27, pp.113-120, 1979)、文献 (R.J.McAulay, M.L.Malpass, Speech enhancement using a soft-decision noise suppression filter, IEEE. Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-28, pp.137-145. 1980)、特許第2714656号と、特願平9−518820号に記載されているものがある。   Spectral subtraction method focuses on noise information, estimates the nature of the noise in the silent period, and subtracts the short-time power spectrum of the noise from the short-time power spectrum of the speech signal containing noise, or multiplies the attenuation coefficient. This is a method of suppressing noise by estimating the power spectrum of an audio signal. Spectral subtraction methods are described in, for example, literature (S. Boll, Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-27, pp. 113-120, 1979), literature. (RJMcAulay, MLMalpass, Speech enhancement using a soft-decision noise suppression filter, IEEE.Trans.Acoustics, Speech, and Signal Processing, vol.ASSP-28, pp.137-145. 1980), Patent No. 2714656 And Japanese Patent Application No. 9-518820.

一方、コムフィルタ法は、音声情報に着目し、音声スペクトルのピッチにコムフィルタをかけることにより雑音減衰を行う。コムフィルタ法に関する文献として、例えば、文献(J.S.Lim etc., Evaluation of an adaptive comb filtering method for enhancing speech degraded by white noise addition, IEEE Trans. Acoustics, Speech, and Signal Processing,vol.ASSP26,pp.354-358,1978)がある。   On the other hand, the comb filter method focuses on voice information and performs noise attenuation by applying a comb filter to the pitch of the voice spectrum. For example, the literature (JSLim etc., Evaluation of an adaptive comb filtering method for enhancing speech degraded by white noise addition, IEEE Trans.Acoustics, Speech, and Signal Processing, vol.ASSP26, pp.354 -358,1978).

コムフィルタとは、周波数領域単位で入力された信号を所定の比率で減衰させ、または減衰させずに信号を出力するフィルタであり、櫛状の減衰特性をもつ。デジタルデータ処理でコムフィルタ法を実現する場合、コムフィルタの減衰特性を周波数領域毎に減衰特性のデータを作成し、周波数毎に音声スペクトルを乗算することにより雑音を抑圧できる。   A comb filter is a filter that attenuates a signal input in a frequency domain unit at a predetermined ratio or outputs a signal without attenuation, and has a comb-like attenuation characteristic. When the comb filter method is realized by digital data processing, it is possible to suppress noise by creating attenuation characteristic data for each frequency domain and multiplying a voice spectrum for each frequency.

図28は、従来のコムフィルタ法を用いた音声処理装置の例を示す図である。図28において、切り替え器11は、入力信号に準周期性を持たない音声成分(例えば子音)が含まれている場合、入力信号をそのまま出力し、入力信号に準周期性を持つ音声成分が含まれている場合、入力信号をコムフィルタ12に出力する。コムフィルタ12は、ピッチ周期の情報に基づいた減衰特性で入力信号に対して周波数領域で雑音部分に減衰を行って出力する。   FIG. 28 is a diagram illustrating an example of a speech processing apparatus using a conventional comb filter method. In FIG. 28, the switcher 11 outputs the input signal as it is when the input signal includes a speech component having no quasi-periodicity (for example, consonant), and the speech signal having the quasi-periodicity is included in the input signal. If so, the input signal is output to the comb filter 12. The comb filter 12 attenuates the noise part in the frequency domain with respect to the input signal with an attenuation characteristic based on the pitch period information, and outputs the attenuated signal.

図29は、コムフィルタの減衰特性を示す図である。縦軸は信号の減衰特性を示し、横軸は周波数を示す。図29においてコムフィルタには、周波数領域毎に信号を減衰させる領域と信号を減衰させない領域が存在する。   FIG. 29 is a diagram illustrating attenuation characteristics of the comb filter. The vertical axis represents the signal attenuation characteristics, and the horizontal axis represents the frequency. In FIG. 29, the comb filter has a region where the signal is attenuated and a region where the signal is not attenuated for each frequency region.

コムフィルタ法では、入力された信号にコムフィルタをかけることにより、入力信号の中で音声成分の存在する周波数領域を減衰せず、音声成分の存在しない周波数領域を減衰することにより雑音を抑圧して音声を強調する。   In the comb filter method, by applying a comb filter to the input signal, the frequency region where the audio component exists in the input signal is not attenuated, and the noise is suppressed by attenuating the frequency region where the audio component does not exist. To emphasize the voice.

しかしながら、このような従来の音声処理方法には次のような解決すべき課題があった。まず、文献1に示したSS法は、ノイズ情報のみに着目し、短時間のノイズ特性を定常と見なして、音声とノイズを区別せず、一律にノイズベース(推定されたノイズのスペクトル特性)を差し引く方法である。音声の情報(例えば、音声のピッチ)は利用されていない。実際には、ノイズの特性は定常でないため、差し引かれた後の残留ノイズ、特にピッチ調波間の残留ノイズは処理方法によって、いわゆる「ミュジカルノイズ」と呼ばれる不自然な歪のある雑音を生じる原因と考えられる。   However, such a conventional voice processing method has the following problems to be solved. First, the SS method shown in Document 1 focuses only on noise information, regards short-time noise characteristics as steady, does not distinguish between speech and noise, and is uniformly noise-based (estimated noise spectral characteristics). It is a method of subtracting. Audio information (for example, audio pitch) is not used. Actually, since the noise characteristics are not steady, the residual noise after subtraction, especially the residual noise between pitch harmonics, may cause unnatural distortion noise called so-called `` musical noise '' depending on the processing method. Conceivable.

その改善法として、音声パワー対ノイズパワー比(SNR)に基づき、減衰係数を乗じてノイズを減衰する方法、例えば、特許第2714656号と、特願平9−518820号に示したものが提案された。音声の大きい帯域(SNRは大きい)とノイズの大きい帯域(SNRは小さい)を区別して異なる減衰係数を用いるため、ミュジカルノイズを抑制し、音質を向上させた。しかし、特許第2714656号と、特願平9−518820号に示した方法は、音声情報の一部(SNR)が利用されているものの、処理する周波数チャネル数(16チャネル)は十分でないので、ピッチ調波情報を雑音から分離し抽出することは困難であり、また、音声とノイズ両方の帯域に減衰係数を用いるため、互いに影響を及ぼし合う結果、減衰係数は大きくすることができない。つまり、減衰係数を大きくすると、SNR推定の誤りによって、音声の歪みを生じる可能性がある。結果として、ノイズの減衰は不十分である。   As an improvement method, a method of attenuating noise by multiplying an attenuation coefficient based on the voice power to noise power ratio (SNR), for example, those shown in Japanese Patent No. 2714656 and Japanese Patent Application No. 9-518820 are proposed. It was. Since different attenuation coefficients are used by distinguishing between a high voice band (SNR is high) and a high noise band (SNR is low), musical noise is suppressed and sound quality is improved. However, although the method shown in Japanese Patent No. 2714656 and Japanese Patent Application No. 9-518820 uses a part of audio information (SNR), the number of frequency channels (16 channels) to be processed is not sufficient. It is difficult to separate and extract pitch harmonic information from noise, and since attenuation coefficients are used in both voice and noise bands, the attenuation coefficient cannot be increased as a result of mutual influence. That is, when the attenuation coefficient is increased, there is a possibility that voice distortion may occur due to an SNR estimation error. As a result, noise attenuation is insufficient.

また、従来のコムフィルタ法では、基本周波数であるピッチに推定誤差があると、その高調波では誤差分が拡大し、本来の高調波成分がその通過帯域からはずれる可能性がより大きくなる。また、準周期性を持つ音声とそうでない音声を判別する必要があるため、実現性に問題がある。   Further, in the conventional comb filter method, if there is an estimation error in the pitch that is the fundamental frequency, the amount of error increases in the harmonic, and the possibility that the original harmonic component deviates from the pass band becomes greater. In addition, since it is necessary to distinguish between speech having quasi-periodicity and speech that is not so, there is a problem in feasibility.

本発明は、かかる点に鑑みてなされたものであり、音声の歪みが少なくかつノイズを十分に除去することができる音声処理装置及び音声処理方法を提供することを目的とする。   The present invention has been made in view of this point, and an object of the present invention is to provide an audio processing apparatus and an audio processing method that can reduce noise and sufficiently eliminate noise.

本発明の音声処理装置は、入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手段と、前記音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手段と、周波数特性に基づいた減衰係数を前記コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備する構成を採る。   The speech processing apparatus according to the present invention includes a frequency dividing unit that divides a speech spectrum of an input signal in units of a predetermined frequency region, and a speech component is included in the divided speech spectrum that is a speech spectrum frequency-divided by the frequency dividing unit. A voice / non-speech identification means for identifying whether or not the speech / non-speech identification means is used, and a frequency region including a speech component is defined as a pass band based on the identification result of the speech / non-speech identification unit, and a frequency region including no speech component is blocked A comb filter generating means for generating a comb filter as a region, and an attenuation coefficient for each frequency domain is set by multiplying the comb filter by an attenuation coefficient based on a frequency characteristic, and corresponding to each of the divided speech spectrums Noise suppression means for suppressing a noise component of the divided speech spectrum by multiplying by a frequency domain attenuation coefficient; and the noise component A configuration that includes a frequency synthesis means for synthesizing the speech spectrum the oppressed divided speech spectrum continuous in the frequency region.

本発明の音声処理プログラムは、入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手順と、前記周波数分割手順にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手順と、前記音声/非音声識別手順の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手順と、周波数特性に基づいた減衰係数を前記コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手順と、前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手順と、を含む。   The audio processing program of the present invention includes an audio component in a frequency division procedure for dividing an audio spectrum of an input signal in units of a predetermined frequency domain, and a divided audio spectrum that is a frequency spectrum divided in the frequency division procedure. The voice / non-speech identification procedure for identifying whether or not the speech / non-speech is identified, and the frequency region including the speech component based on the identification result of the speech / non-speech identification procedure is set as the pass band, and the frequency region not including the speech component is blocked. A comb filter generation procedure for generating a comb filter as a region, and an attenuation coefficient for each frequency domain is set by multiplying the comb filter by an attenuation coefficient based on a frequency characteristic, and the corresponding corresponding to each divided speech spectrum A noise suppression procedure for suppressing a noise component of the divided speech spectrum by multiplying by a frequency domain attenuation coefficient; Including a frequency synthesis procedure for synthesizing the speech spectrum component is continuously suppressed frequency domain divided speech spectra were, a.

本発明の音声処理方法は、入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、前記周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別工程と、音声成分の含まれる周波数領域を強調するピッチ調波構造を生成するピッチ調波構造生成工程と、周波数特性に基づいた減衰係数を前記ピッチ調波構造に乗算することにより前記周波数領域毎の減衰係数を設定する減衰係数設定工程と、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備する方法を採る。   The audio processing method of the present invention includes a frequency dividing step of dividing an audio spectrum of an input signal in units of a predetermined frequency region, and whether or not an audio component is included in the divided audio spectrum that is the frequency-divided audio spectrum Voice / non-speech identification step, a pitch harmonic structure generation step for generating a pitch harmonic structure for emphasizing a frequency region including a voice component, and an attenuation coefficient based on frequency characteristics are multiplied by the pitch harmonic structure. An attenuation coefficient setting step for setting an attenuation coefficient for each frequency region, and a noise suppression step for suppressing a noise component of the divided speech spectrum by multiplying each of the divided speech spectra by an attenuation coefficient of the corresponding frequency region And a frequency synthesizer for synthesizing the divided speech spectrum with the noise component suppressed into a continuous speech spectrum in the frequency domain. Adopt a method that includes the, the.

本発明によれば、音声スペクトルを周波数領域単位で音声成分のある領域と音声成分のない領域に識別して、この識別情報から得られる精度の高いピッチ周期に基づいて雑音を抑圧して、音声の歪みが少なくかつノイズを十分に除去することができる。   According to the present invention, a speech spectrum is identified in a frequency domain unit as a region with a speech component and a region without a speech component, and noise is suppressed based on a highly accurate pitch period obtained from this identification information. Distortion and noise can be sufficiently removed.

本発明の骨子は、音声スペクトルを周波数領域単位で音声成分のある領域と音声成分のない領域に識別して、この識別情報から得られる精度の高いピッチ周期に基づいて音声情報のみを強調するコムフィルタを周波数領域で生成して雑音を抑圧することである。   The gist of the present invention is a comb that distinguishes a speech spectrum into a region with a speech component and a region without a speech component in a frequency domain unit and emphasizes only the speech information based on a highly accurate pitch period obtained from this identification information. The noise is suppressed by generating a filter in the frequency domain.

(実施の形態1)
図1は、本発明の実施の形態1に係る音声処理装置の構成を示すブロック図である。図1において、音声処理装置は、時間分割部101と、窓掛け部102と、FFT部103と、周波数分割部104と、ノイズベース推定部105と、音声非音声識別部106と、コムフィルタ生成部107と、減衰係数計算部108と、乗算部109と、周波数合成部110と、IFFT部111と、から主に構成される。
(Embodiment 1)
FIG. 1 is a block diagram showing the configuration of the speech processing apparatus according to Embodiment 1 of the present invention. In FIG. 1, the speech processing apparatus includes a time division unit 101, a windowing unit 102, an FFT unit 103, a frequency division unit 104, a noise base estimation unit 105, a speech non-speech identification unit 106, and a comb filter generation. Unit 107, attenuation coefficient calculation unit 108, multiplication unit 109, frequency synthesis unit 110, and IFFT unit 111.

時間分割部101は、入力された音声信号から所定時間単位で区切られたフレームを構成し、窓掛け部102に出力する。窓掛け部102は、時間分割部101から出力されたフレームにハニングウインドウを利用したウインドウ処理を行ってFFT部103に出力する。FFT部103は、窓掛け部102から出力された音声信号にFFT(Fast Fourier Transform)を行い、音声スペクトル信号を周波数分割部104に出力する。   The time division unit 101 configures a frame divided in predetermined time units from the input audio signal, and outputs the frame to the windowing unit 102. The windowing unit 102 performs window processing using a Hanning window on the frame output from the time division unit 101 and outputs the result to the FFT unit 103. The FFT unit 103 performs FFT (Fast Fourier Transform) on the audio signal output from the windowing unit 102, and outputs the audio spectrum signal to the frequency division unit 104.

周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数領域単位の周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と音声非音声識別部106と、乗算部109とに出力する。なお、周波数成分は、所定の周波数単位で分割された音声スペクトルを示すものである。   The frequency division unit 104 divides the speech spectrum output from the FFT unit 103 into frequency components in a predetermined frequency domain unit, and the speech spectrum is divided into a noise base estimation unit 105, a speech non-speech identification unit 106, and the like for each frequency component. To the multiplication unit 109. The frequency component indicates a voice spectrum divided in a predetermined frequency unit.

ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを音声非音声識別部106に出力する。また、ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。   When the determination result that the speech component is included in the frame is output from the speech non-speech identification unit 106, the noise base estimation unit 105 outputs the noise base estimated in the past to the speech non-speech discrimination unit 106. In addition, when the determination result that the speech component is not included in the frame is output from the speech non-speech identification unit 106, the noise base estimation unit 105 is a short time for each frequency component of the speech spectrum output from the frequency division unit 104. A moving average value representing an average amount of power spectrum and spectrum change is calculated, a moving average value calculated in the past and a weighted average value of the power spectrum are calculated, and a new moving average value is calculated.

具体的には、式(1)を用いて各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。

Figure 2006126859
Specifically, the noise base in each frequency component is estimated using Equation (1) and output to the speech non-speech identification unit 106.
Figure 2006126859

ここで、nは処理を行うフレームを特定する番号、kは周波数成分周波数成分を特定する番号、τは遅延時間を示す。また、S2 f(n,k)は、入力された音声信号のパワースペクトル、Pbase(n,k)はノイズベースの移動平均値、α(k)は移動平均係数を示す。 Here, n is a number that identifies a frame to be processed, k is a number that identifies a frequency component, and τ is a delay time. S 2 f (n, k) represents the power spectrum of the input audio signal, P base (n, k) represents a noise-based moving average value, and α (k) represents a moving average coefficient.

音声非音声識別部106は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、音声非音声識別部106は、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。   The speech non-speech identification unit 106, when the difference between the speech spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 105 is greater than or equal to a predetermined threshold value, It is determined to be a part, and otherwise, it is determined to be a silent part of only noise that does not include a voice component. Then, the speech non-speech identification unit 106 outputs the determination result to the noise base estimation unit 105 and the comb filter generation unit 107.

コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを減衰係数計算部108に出力する。具体的には、コムフィルタ生成部107は、コムフィルタの有音部分の周波数成分をオン、無音部分の周波数成分をオフにする。   Comb filter generation section 107 generates a comb filter that emphasizes pitch harmonics based on the presence or absence of a voice component in each frequency component, and outputs this comb filter to attenuation coefficient calculation section 108. Specifically, the comb filter generation unit 107 turns on the frequency component of the sound part of the comb filter and turns off the frequency component of the silent part.

減衰係数計算部108は、コムフィルタ生成部107において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。   The attenuation coefficient calculation unit 108 multiplies the comb filter generated by the comb filter generation unit 107 by an attenuation coefficient based on frequency characteristics, and sets the attenuation coefficient of the input signal for each frequency component. Are output to the multiplier 109.

例えば、以下の式(2)から減衰係数gain(k)を算出して入力信号に乗算することもできる。

Figure 2006126859
For example, the attenuation coefficient gain (k) can be calculated from the following equation (2) and multiplied by the input signal.
Figure 2006126859

ここでgcは定数、kはビンを特定する変数、HBは、FFT変換長つまり高速フーリエ変換を行うデータ数である。   Here, gc is a constant, k is a variable for specifying a bin, and HB is an FFT transform length, that is, the number of data to be subjected to fast Fourier transform.

乗算部109は、周波数分割部104から出力された音声スペクトルに減衰係数計算部108から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。   Multiplier 109 multiplies the audio spectrum output from frequency divider 104 by the attenuation coefficient output from attenuation coefficient calculator 108 in units of frequency components. Then, the spectrum obtained as a result of multiplication is output to frequency synthesizer 110.

周波数合成部110は、乗算部109から出力された周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成してIFFT部111に出力する。IFFT部111は、周波数合成部110から出力された音声スペクトルにIFFT(Inverse Fast Fourier Transform)を行って音声信号に変換した信号を出力する。   The frequency synthesis unit 110 synthesizes the spectrum of the frequency component unit output from the multiplication unit 109 into a speech spectrum continuous in the frequency domain in a predetermined processing time unit and outputs the synthesized speech spectrum to the IFFT unit 111. The IFFT unit 111 performs an IFFT (Inverse Fast Fourier Transform) on the audio spectrum output from the frequency synthesis unit 110 and outputs a signal converted into an audio signal.

次に、上記構成を有する音声処理装置の動作について図2に示すフロー図を用いて説明する。図2において、ステップ(以下「ST」という)201では、入力信号に前処理を行う。この場合、前処理とは、入力信号から所定の時間単位のフレームを構成して窓かけ処理を行い、音声スペクトルに高速フーリエ変換を行うことである。   Next, the operation of the speech processing apparatus having the above configuration will be described using the flowchart shown in FIG. In FIG. 2, in step (hereinafter referred to as “ST”) 201, preprocessing is performed on the input signal. In this case, the preprocessing is to perform a windowing process by constructing a frame of a predetermined time unit from the input signal, and to perform a fast Fourier transform on the speech spectrum.

ST202では、周波数分割部104が音声スペクトルを周波数成分に分割する。ST203では、ノイズベース推定部105が、α(k)=0であるか否か、つまりノイズベース更新を停止するか否かを判断して、α(k)=0の場合、ST205に進み、α(k)=0でない場合、ST204に進む。   In ST202, frequency division section 104 divides the audio spectrum into frequency components. In ST203, the noise base estimation unit 105 determines whether α (k) = 0, that is, whether to stop the noise base update. If α (k) = 0, the process proceeds to ST205. If α (k) = 0 is not satisfied, the process proceeds to ST204.

ST204では、ノイズベース推定部105が音声成分の含まれていない音声スペクトルからノイズベースを更新し、その後ST205に進む。ST205では、音声非音声識別部106が、Sf 2(n,k)>Qup・Pbase(n,k)であるか否か、つまり音声スペクトルのパワーがノイズベースに所定の閾値を乗算した値より大きいか否かを判断し、Sf 2(n,k)>Qup・Pbase(n,k)である場合、ST206に進み、Sf 2(n,k)>Qup・Pbase(n,k)でない場合、ST208に進む。 In ST204, the noise base estimation unit 105 updates the noise base from a speech spectrum that does not include a speech component, and then proceeds to ST205. In ST205, the audio non-speech identifying section 106, S f 2 (n, k )> Q up · P base (n, k) is whether, i.e. the power of the speech spectrum is multiplied by a predetermined threshold noise base If S f 2 (n, k)> Q up · P base (n, k), the process proceeds to ST206 and S f 2 (n, k)> Q up · If not P base (n, k), the process proceeds to ST208.

ST206では、音声非音声識別部106が、ノイズベース更新停止を示すα(k)=0を設定する。ST207では、コムフィルタ生成部107が、音声スペクトルを減衰せずに出力することを示すSP_SWITCH(k)=ONを設定して、ST211に進む。ST208では、音声非音声識別部106が、Sf 2(n,k)<Qdown・Pbase(n,k)であるか否か、つまり音声スペクトルのパワーがノイズベースに所定の閾値を乗算した値より小さいか否かを判断し、Sf 2(n,k)<Qdown・Pbase(n,k)である場合、ST209に進み、Sf 2(n,k)<Qdown・Pbase(n,k)でない場合、ST211に進む。 In ST206, the speech non-speech identification unit 106 sets α (k) = 0 indicating that the noise base update is stopped. In ST207, the comb filter generation unit 107 sets SP_SWITCH (k) = ON indicating that the voice spectrum is output without being attenuated, and the process proceeds to ST211. In ST208, the speech non-speech identification unit 106 determines whether or not S f 2 (n, k) <Q down · P base (n, k), that is, the power of the speech spectrum multiplies the noise base by a predetermined threshold value. If S f 2 (n, k) <Q down · P base (n, k), the process proceeds to ST209 and S f 2 (n, k) <Q down · If not P base (n, k), the process proceeds to ST211.

ST209では、音声非音声識別部106が、ノイズベース更新を示すα(k)=SLOWを設定する。ここで、SLOWは所定の定数である。ST210では、コムフィルタ生成部107が音声スペクトルを減衰して出力することを示すSP_SWITCH(k)=OFFを設定して、ST211に進む。   In ST209, the speech non-speech identification unit 106 sets α (k) = SLOW indicating noise base update. Here, SLOW is a predetermined constant. In ST210, SP_SWITCH (k) = OFF indicating that the comb filter generation unit 107 attenuates and outputs the voice spectrum is set, and the process proceeds to ST211.

ST211では、減衰係数計算部108が、音声スペクトルを減衰しないか減衰か、つまりSP_SWITCH(k)=ONであるか否かを判断する。ST211においてSP_SWITCH(k)=ONである場合、ST212では、減衰係数計算部108が減衰係数を1に設定し、ST214に進む。ST211においてSP_SWITCH(k)=ONでない場合、ST213では、減衰係数計算部108が周波数に応じた減衰係数を計算して設定し、ST214に進む。   In ST211, attenuation coefficient calculation section 108 determines whether or not the audio spectrum is not attenuated, that is, whether SP_SWITCH (k) = ON. When SP_SWITCH (k) = ON in ST211, in ST212, the attenuation coefficient calculation unit 108 sets the attenuation coefficient to 1, and the process proceeds to ST214. If ST_SWITCH (k) is not ON in ST211, in ST213, the attenuation coefficient calculation unit 108 calculates and sets an attenuation coefficient corresponding to the frequency, and proceeds to ST214.

ST214では、乗算部109が周波数分割部104から出力された音声スペクトルに減衰係数計算部108から出力された減衰係数を周波数成分単位で乗算する。ST215では、周波数合成部110が乗算部109から出力された周波数成分単位のスペクトルを所定の処理時間単位で周波数領域で連続する音声スペクトルに合成する。ST216では、IFFT部111が、周波数合成部110から出力された音声スペクトルにIFFTを行って雑音を抑圧した信号を出力する。   In ST214, multiplication section 109 multiplies the audio spectrum output from frequency division section 104 by the attenuation coefficient output from attenuation coefficient calculation section 108 in units of frequency components. In ST215, the frequency synthesizer 110 synthesizes the frequency component unit spectrum output from the multiplier 109 into a continuous speech spectrum in the frequency domain in a predetermined processing time unit. In ST216, IFFT section 111 performs IFFT on the speech spectrum output from frequency synthesis section 110 and outputs a signal in which noise is suppressed.

次に、本実施の形態の音声処理装置で用いるコムフィルタについて説明する。図3は、本実施の形態にかかる音声処理装置で作成されるコムフィルタの例を示す図である。図3において、縦軸はスペクトルのパワ及び、フィルタの減衰度を示し、横軸は周波数を示す。   Next, a comb filter used in the speech processing apparatus according to the present embodiment will be described. FIG. 3 is a diagram illustrating an example of a comb filter created by the speech processing apparatus according to the present embodiment. In FIG. 3, the vertical axis indicates the power of the spectrum and the attenuation of the filter, and the horizontal axis indicates the frequency.

コムフィルタは、S1に示す減衰特性を持ち、減衰特性は、周波数成分毎に設定される。コムフィルタ生成部107は、音声成分を含まない周波数領域の信号を減衰し、音声信号を含む周波数領域の信号を減衰しない減衰特性のコムフィルタを作成する。   The comb filter has an attenuation characteristic indicated by S1, and the attenuation characteristic is set for each frequency component. The comb filter generation unit 107 attenuates a frequency domain signal that does not include an audio component, and creates an attenuation characteristic comb filter that does not attenuate a frequency domain signal that includes an audio signal.

雑音成分を含む音声スペクトルS2は、S1の減衰特性を持つコムフィルタをかけることにより、雑音成分を含む周波数領域の信号が減衰されてパワが小さくなり、音声信号を含む部分は減衰されずパワが変化しない。得られた音声スペクトルは、雑音成分の周波数領域がより低くなりピークが失われずに強調されたスペクトル形状となり、ピッチ調波情報が失われない雑音を抑圧した音声スペクトルS3が出力される。   The speech spectrum S2 including the noise component is subjected to a comb filter having an attenuation characteristic of S1, so that the frequency domain signal including the noise component is attenuated and the power is reduced, and the portion including the audio signal is not attenuated and the power is increased. It does not change. The obtained speech spectrum has a spectrum shape in which the frequency region of the noise component is lower and the peak is not lost and is emphasized, and the speech spectrum S3 in which the noise that does not lose the pitch harmonic information is suppressed is output.

このように、本発明の実施の形態1に係る音声処理装置によれば、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得ることができるので、大きな減衰で雑音抑圧を行っても音声歪の少ない音声強調を行うことができる。   Thus, according to the speech processing apparatus according to Embodiment 1 of the present invention, speech non-speech in the spectrum signal is discriminated in units of frequency components, and frequency characteristics are attenuated based on the discrimination results in units of frequency components. Thus, accurate pitch information can be obtained, so that speech enhancement with little speech distortion can be performed even if noise suppression is performed with a large attenuation.

また、音声識別において2つの閾値を設けることにより、精度の高い音声非音声を判別することができる。   Further, by providing two threshold values in voice identification, it is possible to discriminate voice non-voice with high accuracy.

なお、減衰係数計算部108において、雑音の周波数特性に応じた減衰係数の計算を行うことにより、高い周波数にある子音を損なわずに音声強調を行うこともできる。   Note that the attenuation coefficient calculation unit 108 calculates the attenuation coefficient according to the frequency characteristics of the noise, so that speech enhancement can be performed without impairing the consonant at a high frequency.

また、各周波数成分において入力信号の減衰を二値で行い、音声と判別する場合、減衰を行わず、雑音と判別する場合、減衰を行うこともできる。この場合、強い雑音抑圧を行っても音声のある周波数成分は減衰されないので音声の歪の少ない音声強調を行うことができる。   In addition, when the input signal is attenuated in binary for each frequency component and determined to be speech, attenuation is not performed, and when it is determined to be noise, attenuation can be performed. In this case, even if strong noise suppression is performed, a certain frequency component of the voice is not attenuated, so that voice enhancement with less voice distortion can be performed.

(実施の形態2)
図4は、実施の形態2にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
(Embodiment 2)
FIG. 4 is a block diagram of an example of the configuration of the speech processing apparatus according to the second embodiment. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG.

図4の音声処理装置は、ノイズ区間判別部401とノイズベース追跡部402と、を具備してフレーム単位で信号の音声非音声判別を行い、ノイズレベルの急激な変化を検出して、速やかにノイズベースを推定して更新する点が図1と異なる。   The voice processing apparatus of FIG. 4 includes a noise section discriminating unit 401 and a noise base tracking unit 402, performs voice / non-speech discrimination of a signal in units of frames, detects a sudden change in noise level, and promptly 1 is different from FIG. 1 in that the noise base is estimated and updated.

図4において、FFT部103は、窓掛け部102から出力された音声信号にFFT(Fast Fourier Transform)を行い、音声スペクトルを周波数分割部104とノイズ区間判別部401に出力する。   In FIG. 4, the FFT unit 103 performs FFT (Fast Fourier Transform) on the audio signal output from the windowing unit 102, and outputs the audio spectrum to the frequency division unit 104 and the noise section determination unit 401.

ノイズ区間判別部401は、FFT部103から出力された音声スペクトルからフレーム単位で信号のパワーと移動平均値を算出して、入力信号のパワーの変化率からフレームが音声を含むか否か判別する。   The noise section determination unit 401 calculates the signal power and moving average value in units of frames from the sound spectrum output from the FFT unit 103, and determines whether or not the frame includes sound from the rate of change of the power of the input signal. .

具体的には、ノイズ区間判別部401は、以下の式(3)及び式(4)を用いて入力信号のパワーの変化率を算出する。

Figure 2006126859
Figure 2006126859
Specifically, the noise section determination unit 401 calculates the rate of change of the power of the input signal using the following formulas (3) and (4).
Figure 2006126859
Figure 2006126859

ここで、P(n)は、1フレームの信号パワー、S2 f(n,k)は、入力信号パワースペクトル、Ratioは、過去に処理を行ったフレームと処理を行うフレームの信号パワー比、τは遅延時間である。 Here, P (n) is the signal power of one frame, S 2 f (n, k) is the input signal power spectrum, Ratio is the signal power ratio of the previously processed frame to the processed frame, τ is a delay time.

ノイズ区間判別部401は、Ratioがあらかじめ設定した閾値を一定時間連続して超えた場合、入力信号を音声信号と判断し、連続して超えない場合をノイズ区間と判断する。   The noise section determination unit 401 determines that the input signal is an audio signal when the ratio exceeds a preset threshold value for a certain period of time, and determines that the input signal is a noise section when the ratio does not exceed the threshold value continuously.

ノイズベース追跡部402は、音声区間からノイズ区間に移ったと判断した場合、所定のフレーム数の処理を行う間、ノイズベースの更新における処理フレームからノイズベースの推定する影響の度合いを大きくする。   When it is determined that the noise base tracking unit 402 has moved from the speech section to the noise section, the noise base tracking unit 402 increases the degree of influence of the noise base estimation from the processing frame in the noise base update while performing the processing of a predetermined number of frames.

具体的には式(1)においてα(k)=FAST、(0<SLOW<FAST<1)に設定する。α(k)の値が大きいほど、移動平均値が入力された音声信号の影響を受けやすくなり、ノイズベースの急激な変化に対応することができる。   Specifically, α (k) = FAST and (0 <SLOW <FAST <1) are set in equation (1). The larger the value of α (k), the more easily the moving average value is affected by the input audio signal, and it is possible to cope with a sudden change in noise base.

ノイズベース推定部105は、音声非音声識別部106又はノイズベース追跡部402からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、これらの値から各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。   When the determination result that the speech component is not included in the frame is output from the speech non-speech discrimination unit 106 or the noise base tracking unit 402, the noise base estimation unit 105 outputs the frequency component of the speech spectrum output from the frequency division unit 104. A moving average value representing the average amount of the short-time power spectrum and the spectrum change for each time is calculated, and a noise base in each frequency component is estimated from these values and output to the speech non-speech identification unit 106.

このように、本発明の実施の形態2に係る音声処理装置によれば、入力された信号から推定した雑音スペクトルの値を大きく反映させてノイズベースの更新を行うことにより、ノイズレベルの急激な変化に対応したノイズベースの更新を行うことができ、音声歪の少ない音声強調を行うことができる。   As described above, according to the speech processing apparatus according to Embodiment 2 of the present invention, by updating the noise base by largely reflecting the value of the noise spectrum estimated from the input signal, the noise level is rapidly increased. It is possible to perform a noise-based update corresponding to a change, and to perform speech enhancement with little speech distortion.

(実施の形態3)
図5は、実施の形態3にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
(Embodiment 3)
FIG. 5 is a block diagram of an example of the configuration of the speech processing apparatus according to the third embodiment. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG.

図5の音声処理装置は、ミュジカルノイズ抑制部501とコムフィルタ修正部502を具備してフレームに突発性ノイズが含まれる場合に、生成されたコムフィルタを修正して突発性ノイズに起因するミュジカルノイズの発生を抑圧する点が、図1と異なる。   The speech processing apparatus of FIG. 5 includes a musical noise suppression unit 501 and a comb filter correction unit 502. When the frame includes sudden noise, the generated comb filter is corrected and the musical due to the sudden noise is generated. The point which suppresses generation | occurrence | production of noise differs from FIG.

図5において、コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成してミュジカルノイズ抑制部501、及びコムフィルタ修正部502に出力する。   In FIG. 5, the comb filter generation unit 107 generates a comb filter that emphasizes pitch harmonics based on the presence or absence of a voice component in each frequency component, and outputs the comb filter to the musical noise suppression unit 501 and the comb filter correction unit 502.

ミュジカルノイズ抑制部501は、コムフィルタ生成部107から出力されたコムフィルタの各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断し、判断結果をコムフィルタ修正部502に出力する。   The musical noise suppression unit 501 is on in the state of each frequency component of the comb filter output from the comb filter generation unit 107, that is, when the number of states to be output without attenuation is equal to or less than a certain threshold value, It is determined that sudden noise is included in the frame, and the determination result is output to the comb filter correction unit 502.

例えば、以下の式(5)を用いてコムフィルタでオンになっている周波数成分の数を計算し、COMB_SUM(n)がある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。

Figure 2006126859
For example, if the number of frequency components turned on by the comb filter is calculated using the following equation (5), and COMB_SUM (n) is smaller than a certain threshold value (for example, 10), musical noise is generated. to decide.
Figure 2006126859

コムフィルタ修正部502は、ミュジカルノイズ抑制部501からフレームに突発性ノイズが含まれるコムフィルタ生成部107から出力されたコムフィルタの生成結果に基づいてコムフィルタにミュジカルノイズの発生を防ぐ修正を行い、減衰係数計算部108にコムフィルタを出力する。   The comb filter correction unit 502 corrects the comb filter to prevent the generation of musical noise based on the comb filter generation result output from the comb filter generation unit 107 in which sudden noise is included in the frame from the musical noise suppression unit 501. The comb filter is output to the attenuation coefficient calculation unit 108.

具体的には、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを減衰係数計算部108に出力する。   Specifically, the state of all frequency components of the comb filter is set to OFF, that is, the signal is attenuated and output, and the comb filter is output to the attenuation coefficient calculation unit 108.

減衰係数計算部108は、コムフィルタ修正部502から出力されたコムフィルタに周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。   The attenuation coefficient calculation unit 108 multiplies the comb filter output from the comb filter correction unit 502 by an attenuation coefficient based on frequency characteristics, sets the attenuation coefficient of the input signal for each frequency component, and sets each frequency component. The attenuation coefficient is output to the multiplier 109.

このように、本発明の実施の形態3に係る音声処理装置によれば、コムフィルタの生成結果からミュジカルノイズ発生を判断することにより、ノイズが音声信号と誤判断されることを防ぎ、音声歪の少ない音声強調を行うことができる。   As described above, according to the audio processing device according to Embodiment 3 of the present invention, by determining the occurrence of musical noise from the generation result of the comb filter, it is possible to prevent noise from being erroneously determined as an audio signal and It is possible to perform voice enhancement with little.

なお、実施の形態3は、実施の形態2と組み合わせることができる。すなわち、図5の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができる。   Note that Embodiment 3 can be combined with Embodiment 2. That is, the effects of the second embodiment can be obtained by adding the noise section determination unit 401 and the noise base tracking unit 402 to the speech processing apparatus of FIG.

(実施の形態4)
図6は、実施の形態4にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。図6の音声処理装置は、平均値計算部601を具備し、周波数成分単位で音声スペクトルのパワの平均値を求める点が、図1と異なる。
(Embodiment 4)
FIG. 6 is a block diagram of an example of the configuration of the speech processing apparatus according to the fourth embodiment. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG. The speech processing apparatus in FIG. 6 includes an average value calculation unit 601 and is different from that in FIG. 1 in that an average value of speech spectrum power is obtained in units of frequency components.

図6において、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。   In FIG. 6, the frequency division unit 104 divides the audio spectrum output from the FFT unit 103 into frequency components indicating the audio spectrum divided by a predetermined frequency unit, and converts the audio spectrum into audio non-audio for each frequency component. The data is output to the identification unit 106, the multiplication unit 109, and the average value calculation unit 601.

平均値計算部601は、周波数分割部104から出力された音声スペクトルのパワについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値をノイズベース推定部105と音声非音声識別部106に出力する。   The average value calculation unit 601 takes the average value of the power of the voice spectrum output from the frequency division unit 104 with the frequency components in the vicinity and the average value with the previously processed frames, and uses the obtained average value as the noise base The data are output to the estimation unit 105 and the voice non-voice identification unit 106.

具体的には、以下に示す式(6)を用いて音声スペクトルの平均値を算出する。

Figure 2006126859
Specifically, the average value of the speech spectrum is calculated using the following formula (6).
Figure 2006126859

ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。   Here, k1 and k2 indicate frequency components, and k1 <k <k2. n1 indicates a number indicating a frame that has been processed in the past, and n indicates a number indicating a frame that has been processed.

ノイズベース推定部105は、音声非音声識別部106からフレームに音声成分が含まれていない判定結果が出力された場合、平均値計算部601から出力された音声スペクトルの平均値の周波数成分毎に短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、各周波数成分におけるノイズベースを推定して音声非音声識別部106に出力する。   When the determination result that the speech component is not included in the frame is output from the speech non-speech identification unit 106, the noise base estimation unit 105 outputs, for each frequency component of the average value of the speech spectrum output from the average value calculation unit 601. A moving average value representing an average amount of short-time power spectrum and spectrum change is calculated, and a noise base in each frequency component is estimated and output to the speech non-speech identification unit 106.

音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。   When the difference between the average value of the speech spectrum signal output from the average value calculation unit 601 and the noise base value output from the noise base estimation unit 105 is equal to or greater than a predetermined threshold, the speech non-speech identification unit 106 If the difference is smaller than a predetermined threshold value, it is determined that the sound is a silent part including only noise, and the determination result is determined as a noise base estimation unit 105 and a comb filter generation unit 107. Output to.

このように、本発明の実施の形態4に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなり、より正確なコムフィルタを構成することができる。   As described above, according to the speech processing apparatus according to the fourth embodiment of the present invention, the average power value of the speech spectrum in each frequency component or the average power value of the frame processed in the past and the frame processed is obtained. Thus, the influence of the sudden noise component is reduced, and a more accurate comb filter can be configured.

なお、実施の形態4は、実施の形態2あるいは実施の形態3と組み合わせることができる。すなわち、図5の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図6の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。   Note that Embodiment 4 can be combined with Embodiment 2 or Embodiment 3. That is, the effects of the second embodiment can be obtained by adding the noise section determination unit 401 and the noise base tracking unit 402 to the speech processing device of FIG. 5, and the musical noise suppression unit 501 and the speech processing device of FIG. The effect of the third embodiment can be obtained by adding the comb filter correction unit 502.

(実施の形態5)
図7は、実施の形態5にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
(Embodiment 5)
FIG. 7 is a block diagram of an example of the configuration of the speech processing apparatus according to the fifth embodiment. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG.

図7の音声処理装置は、区間判別部701とコムフィルタリセット部702を具備し、音声成分を含まないフレームに対して全周波数成分で減衰を行うコムフィルタを生成する点が、図1と異なる。   The speech processing apparatus in FIG. 7 includes a section determination unit 701 and a comb filter reset unit 702, and differs from FIG. 1 in that a comb filter that attenuates all frequency components for a frame that does not include speech components is generated. .

図7において、FFT部103は、窓掛け部102から出力された音声信号にFFTを行い、音声スペクトル信号を周波数分割部104と区間判別部701に出力する。   In FIG. 7, the FFT unit 103 performs FFT on the audio signal output from the windowing unit 102, and outputs the audio spectrum signal to the frequency division unit 104 and the section determination unit 701.

区間判別部701は、FFT部103から出力された音声スペクトルが音声を含むか否か判断して判断結果をコムフィルタリセット部702に出力する。   The section determination unit 701 determines whether the speech spectrum output from the FFT unit 103 includes speech and outputs the determination result to the comb filter reset unit 702.

コムフィルタリセット部702は、区間判別部701から出力された判断結果に基づいて、音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、コムフィルタ生成部107にすべての周波数成分のコムフィルタをオフにする指示を出力する。   When it is determined that the speech spectrum is only a noise component that does not include a speech component based on the determination result output from the section determination unit 701, the comb filter reset unit 702 causes the comb filter generation unit 107 to combine all frequency components. Outputs instructions to turn off the filter.

コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して減衰係数計算部108に出力する。また、コムフィルタ生成部107は、コムフィルタリセット部702の指示に従い音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合に、すべての周波数成分でオフにしたコムフィルタを生成して減衰係数計算部108に出力する。   The comb filter generation unit 107 generates a comb filter that emphasizes pitch harmonics based on the presence or absence of a voice component in each frequency component, and outputs the comb filter to the attenuation coefficient calculation unit 108. Further, the comb filter generation unit 107 generates and attenuates a comb filter that is turned off for all frequency components when it is determined that the audio spectrum includes only a noise component that does not include the audio component in accordance with an instruction from the comb filter reset unit 702. It outputs to the coefficient calculation part 108.

このように、本発明の実施の形態5に係る音声処理装置によれば、音声成分を含まないフレームに全周波数成分で減衰を行い、音声を含まない信号区間でノイズを全帯域でカットすることにより、音声抑圧処理に起因するノイズの発生を防ぐことができるので、音声歪の少ない音声強調を行うことができる。   As described above, according to the audio processing device according to the fifth embodiment of the present invention, the frame that does not include the audio component is attenuated with the entire frequency component, and the noise is cut in the entire band in the signal interval that does not include the audio. Thus, it is possible to prevent the occurrence of noise due to the voice suppression process, and thus voice enhancement with less voice distortion can be performed.

なお、実施の形態5は、実施の形態2あるいは実施の形態3と組み合わせることができる。   Note that Embodiment 5 can be combined with Embodiment 2 or Embodiment 3.

すなわち、図7の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図7の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。   That is, the effects of the second embodiment can be obtained by adding the noise section determination unit 401 and the noise base tracking unit 402 to the speech processing device of FIG. 7, and the musical noise suppressing unit 501 and the speech processing device of FIG. The effect of the third embodiment can be obtained by adding the comb filter correction unit 502.

また、実施の形態5は、実施の形態4と組み合わせることができる。すなわち、図7の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。   Further, the fifth embodiment can be combined with the fourth embodiment. That is, the effect of the fourth embodiment can be obtained by adding the average value calculation unit 601 to the speech processing apparatus of FIG.

この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。   In this case, the frequency division unit 104 divides the voice spectrum output from the FFT unit 103 into frequency components indicating the voice spectrum divided in predetermined frequency units, and the voice spectrum is classified into voice non-voice for each frequency component. Unit 106, multiplier 109, and average value calculator 601.

音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。   When the difference between the average value of the speech spectrum signal output from the average value calculation unit 601 and the noise base value output from the noise base estimation unit 105 is equal to or greater than a predetermined threshold, the speech non-speech identification unit 106 If the difference is smaller than a predetermined threshold value, it is determined that the sound is a silent part including only noise, and the determination result is determined as a noise base estimation unit 105 and a comb filter generation unit 107. Output to.

(実施の形態6)
図8は、実施の形態6にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
(Embodiment 6)
FIG. 8 is a block diagram of an example of the configuration of the speech processing apparatus according to the sixth embodiment. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG.

図8の音声処理装置は、音声ピッチ周期推定部801と音声ピッチ修復部802を具備し、音声とノイズの判定が難しい周波数領域でノイズと判断されて失われるピッチ調波情報を補う点が、図1と異なる。   The voice processing apparatus of FIG. 8 includes a voice pitch period estimation unit 801 and a voice pitch restoration unit 802, and compensates for pitch harmonic information that is lost as a result of being judged as noise in a frequency region where it is difficult to judge voice and noise. Different from FIG.

図8において、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と音声非音声識別部106と、乗算部109と、音声ピッチ周期推定部801と、音声ピッチ修復部802に出力する。   In FIG. 8, the frequency dividing unit 104 divides the audio spectrum output from the FFT unit 103 into frequency components indicating the audio spectrum divided in predetermined frequency units, and noise-based estimation of the audio spectrum for each frequency component. Unit 105, speech non-speech identification unit 106, multiplication unit 109, speech pitch period estimation unit 801, and speech pitch restoration unit 802.

コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して音声ピッチ周期推定部801、及び音声ピッチ修復部802に出力する。   The comb filter generation unit 107 generates a comb filter that emphasizes pitch harmonics based on the presence or absence of a voice component in each frequency component, and outputs the generated comb filter to the voice pitch period estimation unit 801 and the voice pitch restoration unit 802.

音声ピッチ周期推定部801は、コムフィルタ生成部107から出力されたコムフィルタと周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部802に出力する。   The voice pitch period estimation unit 801 estimates the pitch period from the comb filter output from the comb filter generation unit 107 and the voice spectrum output from the frequency division unit 104, and outputs the estimation result to the voice pitch restoration unit 802.

例えば、生成されたコムフィルタの中でオンの状態が連続せずに一つの周波数成分をオフにする。次に、コムフィルタの中でパワーの大きい周波数成分を二本抽出したピッチ周期推定用コムフィルタを生成して、以下に示す自己相関関数の式(7)からピッチ周期を求める。

Figure 2006126859
For example, one frequency component is turned off without being continuously turned on in the generated comb filter. Next, a pitch period estimation comb filter is generated by extracting two frequency components with high power from the comb filter, and the pitch period is obtained from the following autocorrelation function equation (7).
Figure 2006126859

ここで、PITCH(k)は、ピッチ周期推定用コムフィルタの状態を表し、k1は周波数の上限、τはピッチの周期を表し、τは、0からピッチの最大周期であるτ1までの値をとる。   Here, PITCH (k) represents the state of the pitch period estimation comb filter, k1 represents the upper limit of the frequency, τ represents the pitch period, and τ is a value from 0 to τ1, which is the maximum pitch period. Take.

式(7)のγ(τ)が最大値をとるτをピッチ周期として求める。実際には、高周波数領域において周波数ピッチの形状は、不明確になりやすいのでk1に中間の周波数の値を用いる。例えば、k1=2kHzと設定する。また、PITCH(k)の取りうる値を0と1にすることにより式(7)の計算を簡単に行うこともできる。   Τ having the maximum value of γ (τ) in Expression (7) is obtained as the pitch period. Actually, since the shape of the frequency pitch tends to be unclear in the high frequency region, an intermediate frequency value is used for k1. For example, set k1 = 2 kHz. In addition, by setting the values that PITCH (k) can take to be 0 and 1, the calculation of Expression (7) can be easily performed.

音声ピッチ修復部802は、音声ピッチ周期推定部801から出力された推定結果に基づいてコムフィルタの修正を行い、減衰係数計算部108に出力する。具体的には、推定されたピッチ周期情報に基づいて一定の周波数成分毎にピッチを補う、又はピッチ周期毎に存在するコムフィルタがオンになった周波数成分の連続である櫛状の帯域の幅を広げるなどの処理を行い、ピッチ調波構造の修復を行う。   The voice pitch restoration unit 802 corrects the comb filter based on the estimation result output from the voice pitch period estimation unit 801 and outputs the result to the attenuation coefficient calculation unit 108. Specifically, based on the estimated pitch period information, the pitch is compensated for every fixed frequency component, or the width of the comb-shaped band that is a continuation of the frequency components that are turned on in the comb filter for each pitch period To repair the pitch harmonic structure.

減衰係数計算部108は、音声ピッチ修復部802から出力されたコムフィルタに周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部109に出力する。   The attenuation coefficient calculation unit 108 multiplies the comb filter output from the audio pitch restoration unit 802 by an attenuation coefficient based on the frequency characteristics, sets the attenuation coefficient of the input signal for each frequency component, and sets each frequency component. The attenuation coefficient is output to the multiplier 109.

図9に、本実施の形態にかかる音声処理装置におけるコムフィルタの修復の例を示す。図9において、縦軸は減衰度を示し、横軸は、周波数成分を示す。具体的には、横軸には、256の周波数成分があり、0kHzから4kHzの領域を示す。   FIG. 9 shows an example of comb filter restoration in the speech processing apparatus according to the present embodiment. In FIG. 9, the vertical axis represents the attenuation, and the horizontal axis represents the frequency component. Specifically, the horizontal axis has 256 frequency components and represents a region from 0 kHz to 4 kHz.

C1は生成されたコムフィルタを、C2はコムフィルタC1にピッチの修復を行ったコムフィルタを、C3は、コムフィルタC2にピッチの幅を修正したコムフィルタを示す。   C1 indicates a generated comb filter, C2 indicates a comb filter obtained by correcting the pitch of the comb filter C1, and C3 indicates a comb filter whose pitch width is corrected by the comb filter C2.

コムフィルタC1は、100から140までの周波数成分でピッチ情報が失われている。音声ピッチ修復部802は、音声ピッチ周期推定部801において推定されたピッチ周期情報に基づいてコムフィルタC1の100から140までの周波数成分にあるピッチ情報を補う。これによりコムフィルタC2が得られる。   In the comb filter C1, pitch information is lost in frequency components from 100 to 140. The voice pitch repair unit 802 supplements the pitch information in the frequency components from 100 to 140 of the comb filter C1 based on the pitch period information estimated by the voice pitch period estimation unit 801. Thereby, the comb filter C2 is obtained.

次に、音声ピッチ修復部802は、周波数分割部104から出力された音声スペクトルに基づいてコムフィルタC2のピッチ調波の幅を修正する。これによりコムフィルタC3が得られる。   Next, the audio pitch restoration unit 802 corrects the pitch harmonic width of the comb filter C2 based on the audio spectrum output from the frequency division unit 104. Thereby, the comb filter C3 is obtained.

このように、本発明の実施の形態6に係る音声処理装置によれば、ピッチ周期情報を推定して、ノイズと判別されて失われたピッチ調波情報を補うことにより、原音声に近い音声の状態で、かつ音声歪の少ない音声強調を行うことができる。   As described above, according to the speech processing device according to Embodiment 6 of the present invention, the speech that is close to the original speech is estimated by estimating the pitch period information and compensating for the lost pitch harmonic information that is determined as noise. In this state, it is possible to perform speech enhancement with little speech distortion.

なお、実施の形態6は、実施の形態2あるいは実施の形態5と組み合わせることができる。   Note that Embodiment 6 can be combined with Embodiment 2 or Embodiment 5.

すなわち、図8の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図8の音声処理装置に区間判別部701及び、コムフィルタリセット部702を追加することにより実施の形態5の効果も得ることができる。   That is, the effects of the second embodiment can be obtained by adding the noise section determination unit 401 and the noise base tracking unit 402 to the voice processing apparatus of FIG. 8, and the section determination unit 701 and the voice processing apparatus of FIG. By adding the comb filter reset unit 702, the effect of the fifth embodiment can be obtained.

また、実施の形態6は、実施の形態3と組み合わせることができる。すなわち、図8の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。   Further, the sixth embodiment can be combined with the third embodiment. That is, the effects of the third embodiment can be obtained by adding the musical noise suppression unit 501 and the comb filter correction unit 502 to the speech processing apparatus of FIG.

この場合、ミュジカルノイズ抑制部501は、コムフィルタ生成部107から出力されたコムフィルタの各周波数成分の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断し、判断結果を音声ピッチ周期推定部801に出力する。   In this case, the musical noise suppression unit 501 is ON among the frequency components of the comb filter output from the comb filter generation unit 107, that is, the number of states in which the signal is output without being attenuated is equal to or less than a certain threshold value. Then, it is determined that sudden noise is included in the frame, and the determination result is output to the voice pitch period estimation unit 801.

コムフィルタ修正部502は、音声ピッチ修復部802からフレームに突発性ノイズが含まれるコムフィルタ生成部107から出力されたコムフィルタの生成結果に基づいてコムフィルタにミュジカルノイズの発生を防ぐ修正を行い、減衰係数計算部108にコムフィルタを出力する。   The comb filter correction unit 502 performs correction to prevent the generation of musical noise in the comb filter based on the comb filter generation result output from the comb filter generation unit 107 in which sudden noise is included in the frame from the voice pitch restoration unit 802. The comb filter is output to the attenuation coefficient calculation unit 108.

また、実施の形態6は、実施の形態4と組み合わせることができる。すなわち、図8の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。   Further, the sixth embodiment can be combined with the fourth embodiment. That is, the effect of the fourth embodiment can be obtained by adding the average value calculation unit 601 to the speech processing apparatus of FIG.

この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。   In this case, the frequency division unit 104 divides the voice spectrum output from the FFT unit 103 into frequency components indicating the voice spectrum divided in predetermined frequency units, and the voice spectrum is classified into voice non-voice for each frequency component. Unit 106, multiplier 109, and average value calculator 601.

音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。   When the difference between the average value of the speech spectrum signal output from the average value calculation unit 601 and the noise base value output from the noise base estimation unit 105 is equal to or greater than a predetermined threshold, the speech non-speech identification unit 106 If the difference is smaller than a predetermined threshold value, it is determined that the sound is a silent part including only noise, and the determination result is determined as a noise base estimation unit 105 and a comb filter generation unit 107. Output to.

(実施の形態7)
図10は、実施の形態7にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図4と共通する構成については図1及び図4と同一番号を付し、詳しい説明を省略する。図10の音声処理装置は、閾値自動調整部1001を具備し、ノイズの種類に応じて音声識別の閾値を調整する点が、図1又は図4と異なる。
(Embodiment 7)
FIG. 10 is a block diagram of an example of the configuration of the speech processing apparatus according to the seventh embodiment. However, the same components as those in FIGS. 1 and 4 are denoted by the same reference numerals as those in FIGS. 1 and 4, and detailed description thereof is omitted. The speech processing apparatus in FIG. 10 includes an automatic threshold adjustment unit 1001 and is different from FIG. 1 or FIG. 4 in that the speech identification threshold is adjusted according to the type of noise.

図10において、コムフィルタ生成部107は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して閾値自動調整部1001に出力する。   In FIG. 10, the comb filter generation unit 107 generates a comb filter that emphasizes pitch harmonics based on the presence or absence of a voice component in each frequency component, and outputs the comb filter to the threshold automatic adjustment unit 1001.

ノイズ区間判別部401は、FFT部103から出力された音声スペクトルからフレーム単位で信号のパワーと移動平均値を算出して、入力信号のパワーの変化率からフレームが音声を含むか否か判別し、判別結果を閾値自動調整部1001に出力する。   The noise section determination unit 401 calculates the signal power and moving average value for each frame from the speech spectrum output from the FFT unit 103, and determines whether or not the frame includes speech from the rate of change of the input signal power. The discrimination result is output to the threshold automatic adjustment unit 1001.

閾値自動調整部1001は、ノイズ区間判別部401から出力された判別結果からフレームに音声信号が含まれていない場合、コムフィルタ生成部107から出力されたコムフィルタに基づいて音声非音声識別部106の閾値を変更する。   The threshold automatic adjustment unit 1001 determines that the speech non-speech discrimination unit 106 is based on the comb filter output from the comb filter generation unit 107 when the speech signal is not included in the frame from the discrimination result output from the noise section discrimination unit 401. Change the threshold value.

具体的には、以下の式(8)を用いて生成されたコムフィルタのオンの状態である周波数成分の数の総和を算出する。

Figure 2006126859
Specifically, the sum total of the number of frequency components in the on state of the comb filter generated using the following equation (8) is calculated.
Figure 2006126859

この総和が所定の上限値より大きくなった場合、音声非音声識別部106の閾値を大きくする指示を、この総和が所定の下限値より小さくなった場合、音声非音声識別部106の閾値を小さくする指示を音声非音声識別部106に出力する。   When this sum exceeds a predetermined upper limit value, an instruction to increase the threshold value of the voice non-speech identification unit 106 is given. When this sum becomes smaller than a predetermined lower limit value, the threshold value of the voice non-speech discrimination unit 106 is decreased. To the voice non-voice identification unit 106.

ここで、n1は、過去に処理を行ったフレームを特定する番号であり、n2は処理を行うフレームを特定する番号である。   Here, n1 is a number that identifies a frame that has been processed in the past, and n2 is a number that identifies a frame that has been processed.

例えば、フレームに振幅のばらつきの小さいノイズが含まれる場合、音声非音声識別の閾値を低く設定し、フレームに振幅のばらつきの大きいノイズが含まれる場合、音声非音声識別の閾値を高く設定する。   For example, when noise with small amplitude variation is included in a frame, the threshold value for voice non-voice identification is set low, and when noise with large amplitude variation is included in a frame, the threshold value for voice non-voice identification is set high.

このように、本発明の実施の形態に係る音声処理装置によれば、音声を含まないフレームの中で音声が含まれると誤って判断される周波数成分の数に基づいて、音声スペクトルの音声非音声識別に用いる閾値の変更を行うことにより、ノイズの種類に対応した音声の判別を行い、音声歪の少ない音声強調を行うことができる。   Thus, according to the speech processing device according to the embodiment of the present invention, speech non-speech in the speech spectrum is based on the number of frequency components that are erroneously determined to contain speech in a frame that does not include speech. By changing the threshold value used for speech identification, speech corresponding to the type of noise can be determined, and speech enhancement with less speech distortion can be performed.

なお、実施の形態7は、実施の形態2あるいは実施の形態3と組み合わせることができる。   Note that Embodiment 7 can be combined with Embodiment 2 or Embodiment 3.

すなわち、図10の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができ、図10の音声処理装置にミュジカルノイズ抑制部501及びコムフィルタ修正部502を追加することにより実施の形態3の効果も得ることができる。   In other words, the effects of the second embodiment can be obtained by adding the noise section determination unit 401 and the noise base tracking unit 402 to the speech processing device of FIG. 10, and the musical noise suppression unit 501 and the noise processing unit of FIG. The effect of the third embodiment can be obtained by adding the comb filter correction unit 502.

また、実施の形態7は、実施の形態4と組み合わせることができる。すなわち、図10の音声処理装置に平均値計算部601を追加することにより実施の形態4の効果も得ることができる。   The seventh embodiment can be combined with the fourth embodiment. That is, the effect of the fourth embodiment can be obtained by adding the average value calculation unit 601 to the speech processing apparatus of FIG.

この場合、周波数分割部104は、FFT部103から出力された音声スペクトルを所定の周波数単位で分割された音声スペクトルを示す周波数成分に分割して、各周波数成分毎に音声スペクトルを音声非音声識別部106と、乗算部109と、平均値計算部601に出力する。   In this case, the frequency division unit 104 divides the voice spectrum output from the FFT unit 103 into frequency components indicating the voice spectrum divided in predetermined frequency units, and the voice spectrum is classified into voice non-voice for each frequency component. Unit 106, multiplier 109, and average value calculator 601.

音声非音声識別部106は、平均値計算部601から出力された音声スペクトル信号の平均値とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、この差が所定の閾値より小さい場合、音声成分を含まない雑音のみの無音部分であると判定して、判定結果をノイズベース推定部105とコムフィルタ生成部107に出力する。   When the difference between the average value of the speech spectrum signal output from the average value calculation unit 601 and the noise base value output from the noise base estimation unit 105 is equal to or greater than a predetermined threshold, the speech non-speech identification unit 106 If the difference is smaller than a predetermined threshold value, it is determined that the sound is a silent part including only noise, and the determination result is determined as a noise base estimation unit 105 and a comb filter generation unit 107. Output to.

また、実施の形態7は、実施の形態5あるいは実施の形態6と組み合わせることができる。すなわち、図10の音声処理装置に区間判別部701及び、コムフィルタリセット部702を追加することにより実施の形態5の効果も得ることができ、図10の音声処理装置に音声ピッチ周期推定部801及び音声ピッチ修復部802を追加することにより実施の形態6の効果も得ることができる。   Further, Embodiment 7 can be combined with Embodiment 5 or Embodiment 6. That is, the effect of the fifth embodiment can be obtained by adding the section determination unit 701 and the comb filter reset unit 702 to the speech processing device of FIG. 10, and the speech pitch period estimation unit 801 is added to the speech processing device of FIG. In addition, the effect of the sixth embodiment can be obtained by adding the audio pitch restoration unit 802.

(実施の形態8)
図11は、実施の形態8にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
(Embodiment 8)
FIG. 11 is a block diagram of an example of the configuration of the speech processing apparatus according to the eighth embodiment. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG.

図11の音声処理装置は、ノイズベース推定部1101と、第一音声非音声識別部1102と、第二音声非音声識別部1103と、音声ピッチ推定部1104と、第一コムフィルタ生成部1105と、第二コムフィルタ生成部1106と、音声ピッチ修復部1107と、コムフィルタ修正部1108と、音声分離係数計算部1109とを具備し、コムフィルタ作成に用いるノイズベースと、ピッチ調波構造の修復に用いるノイズベースをそれぞれ異なる条件で生成する点が、図1の音声処理装置と異なる。   The speech processing apparatus in FIG. 11 includes a noise base estimation unit 1101, a first speech non-speech identification unit 1102, a second speech non-speech discrimination unit 1103, a speech pitch estimation unit 1104, and a first comb filter generation unit 1105. A second comb filter generation unit 1106, a voice pitch restoration unit 1107, a comb filter correction unit 1108, and a voice separation coefficient calculation unit 1109, and a noise base used for creating a comb filter and a pitch harmonic structure restoration. 1 is different from the speech processing apparatus of FIG. 1 in that the noise base used for is generated under different conditions.

図11において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101、第一音声非音声識別部1102、第二音声非音声識別部1103、及び音声ピッチ推定部1104に出力する。   In FIG. 11, the frequency division unit 104 divides the speech spectrum output from the FFT unit 103 into frequency components, and converts the speech spectrum for each frequency component into a noise base estimation unit 1101, a first speech non-speech identification unit 1102, The data is output to the second voice / non-voice identification unit 1103 and the voice pitch estimation unit 1104.

ノイズベース推定部1101は、第一音声非音声識別部1102からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第一音声非音声識別部1102に出力する。また、ノイズベース推定部1101は、第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第二音声非音声識別部1103に出力する。   When the determination result that the speech component is included in the frame is output from the first speech non-speech identification unit 1102, the noise base estimation unit 1101 outputs the noise base estimated in the past to the first speech non-speech discrimination unit 1102. To do. Further, when the determination result that the speech component is included in the frame is output from the second speech non-speech identification unit 1103, the noise base estimation unit 1101 determines the noise base estimated in the past as the second speech non-speech discrimination unit 1103. Output to.

また、ノイズベース推定部1101は、第一音声非音声識別部1102または第二音声非音声識別部1103からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。   In addition, the noise base estimation unit 1101 outputs from the frequency division unit 104 when a determination result that a frame does not include a speech component is output from the first speech non-speech discrimination unit 1102 or the second speech non-speech discrimination unit 1103. Calculate a moving average value that represents the average amount of short-time power spectrum and spectrum change for each frequency component of the acquired voice spectrum, take the moving average value calculated in the past and the weighted average value of the power spectrum, and create a new moving average Calculate the value.

具体的には、ノイズベース推定部1101は、式(9)または式(10)を用いて各周波数成分におけるノイズベースを推定して第一音声非音声識別部1102または第二音声非音声識別部1103に出力する。

Figure 2006126859
Figure 2006126859
Specifically, the noise base estimation unit 1101 estimates the noise base in each frequency component using the equation (9) or the equation (10), and the first speech non-speech discrimination unit 1102 or the second speech non-speech discrimination unit. 1103.
Figure 2006126859
Figure 2006126859

ここで、nは処理を行うフレームを特定する番号、kは周波数成分を特定する番号、τは遅延時間を示す。また、S2 f(n,k)は、入力された音声信号のパワースペクトル、Pbase(n,k)はノイズベースの移動平均値、α(k)は移動平均係数を示す。 Here, n is a number for specifying a frame to be processed, k is a number for specifying a frequency component, and τ is a delay time. S 2 f (n, k) represents the power spectrum of the input audio signal, P base (n, k) represents a noise-based moving average value, and α (k) represents a moving average coefficient.

入力された音声信号のパワースペクトルが、音声とノイズを判別する閾値と先に入力された音声信号のパワースペクトルとの乗算結果以下である場合、ノイズベース推定部1101は、式(9)より得られたノイズベースを出力する。また、入力された音声信号のパワースペクトルが、音声とノイズを判別する閾値と先に入力された音声信号のパワースペクトルとの乗算結果より大きい場合、ノイズベース推定部1101は、式(10)より得られたノイズベースを出力する。   When the power spectrum of the input speech signal is equal to or less than the result of multiplying the threshold value for determining speech and noise by the power spectrum of the previously input speech signal, the noise base estimation unit 1101 obtains from Equation (9). Output the noise base. Further, when the power spectrum of the input audio signal is larger than the multiplication result of the threshold value for discriminating audio and noise and the power spectrum of the previously input audio signal, the noise base estimation unit 1101 obtains the equation (10). The obtained noise base is output.

第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。   When the difference between the speech spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 1101 is equal to or greater than a predetermined first threshold, the first speech non-speech identification unit 1102 In other cases, it is determined that the sound part is a silent part including only noise.

第一音声非音声識別部1102では、第一コムフィルタ生成部1105がピッチ調波情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部1105に出力する。   In the first speech non-speech identification unit 1102, a second speech non-speech discrimination unit 1103, which will be described later, is used by the first comb filter generation unit 1105 to generate a filter that extracts as much pitch harmonic information as possible. Set to a value lower than the second threshold value to be used. Then, the first voice / non-voice identification unit 1102 outputs the determination result to the first comb filter generation unit 1105.

第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。   When the difference between the speech spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 1101 is equal to or greater than a predetermined second threshold, the second speech non-speech identification unit 1103 In other cases, it is determined that the sound part is a silent part including only noise. Then, the second voice / non-voice identification unit 1103 outputs the determination result to the second comb filter generation unit 1106.

第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108に出力する。   First comb filter generation section 1105 generates a first comb filter that emphasizes pitch harmonics based on the presence or absence of audio components in each frequency component, and outputs the first comb filter to comb filter correction section 1108.

具体的には、第一音声非音声識別部1102において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(11)を満たす場合、第一コムフィルタ生成部1105は、当該周波数成分のフィルタの値を「1」とする。

Figure 2006126859
Specifically, in the first speech non-speech identification unit 1102, the power spectrum of the input speech signal is equal to or greater than the result of multiplying the first threshold value for distinguishing speech and noise by the power spectrum of the input speech signal. In some cases, that is, when Expression (11) is satisfied, the first comb filter generation unit 1105 sets the filter value of the frequency component to “1”.
Figure 2006126859

また、第一音声非音声識別部1102において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(12)を満たす場合、第一コムフィルタ生成部1105は、当該周波数成分のコムフィルタの値を「0」とする。

Figure 2006126859
Further, when the power spectrum of the input voice signal is smaller than the multiplication result of the first threshold value for determining voice and noise and the power spectrum of the input voice signal in the first voice / non-voice identification unit 1102, that is, If the expression (12) is satisfied, the first comb filter generation unit 1105 sets the comb filter value of the frequency component to “0”.
Figure 2006126859

ここで、kは、周波数成分を特定する番号であり、以下に示す式(13)の値を満たす。HBは、音声信号に高速フーリエ変換を行う場合のデータ点数を示す。

Figure 2006126859
Here, k is a number that specifies the frequency component, and satisfies the value of the following equation (13). HB indicates the number of data points when fast Fourier transform is performed on an audio signal.
Figure 2006126859

第二コムフィルタ生成部1106は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第二コムフィルタを生成して音声ピッチ修復部1107に出力する。   Second comb filter generation section 1106 generates a second comb filter that emphasizes pitch harmonics based on the presence or absence of a voice component in each frequency component, and outputs the second comb filter to voice pitch restoration section 1107.

具体的には、第二音声非音声識別部1103において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第二閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(11)を満たす場合、第二コムフィルタ生成部1106は、当該周波数成分のフィルタの値を「1」とする。

Figure 2006126859
Specifically, in the second speech non-speech discrimination unit 1103, the power spectrum of the input speech signal is equal to or greater than the result of multiplying the second threshold value for distinguishing speech and noise by the power spectrum of the input speech signal. In some cases, that is, when Expression (11) is satisfied, the second comb filter generation unit 1106 sets the filter value of the frequency component to “1”.
Figure 2006126859

また、第二音声非音声識別部1103において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第二閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(12)を満たす場合、第二コムフィルタ生成部1106は、当該周波数成分のフィルタの値を「0」とする。

Figure 2006126859
Further, in the second speech non-speech identifying unit 1103, when the power spectrum of the input speech signal is smaller than the multiplication result of the second threshold value for distinguishing speech and noise and the power spectrum of the input speech signal, When the expression (12) is satisfied, the second comb filter generation unit 1106 sets the filter value of the frequency component to “0”.
Figure 2006126859

音声ピッチ推定部1104は、周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。   The voice pitch estimation unit 1104 estimates the pitch period from the voice spectrum output from the frequency division unit 104 and outputs the estimation result to the voice pitch restoration unit 1107.

例えば、音声ピッチ推定部1104は、生成されたコムフィルタの通過域における音声スペクトルパワに以下に示す自己相関関数の式(14)を用いてピッチ周期を求める。

Figure 2006126859
ここで、COMB_low(k)は、第一コムフィルタ生成部1105において生成された第一コムフィルタを示す。k1は、周波数の上限値を示す。また、τは、ピッチの周期を示し、「0」からピッチの最大周期までの値をとる。 For example, the voice pitch estimation unit 1104 obtains the pitch period using the following autocorrelation function formula (14) for the voice spectrum power in the passband of the generated comb filter.
Figure 2006126859
Here, COMB_low (k) indicates the first comb filter generated by the first comb filter generation unit 1105. k1 represents an upper limit value of the frequency. Also, τ indicates the pitch period, and takes a value from “0” to the maximum pitch period.

そして、音声ピッチ推定部1104は、γ(τ)が、最大値をとるτを音声ピッチ周期として求める。実際の処理では、高周波数領域においてピッチ調波の形状は不明確になることが多いので、k1に中間の周波数の値を用い、音声信号の周波数領域のうち、低周波数側半分についてピッチ周期の推定を行う。例えば、音声ピッチ推定部1104は、k1=2kHzに設定して音声ピッチ周期の推定を行う。   Then, the voice pitch estimation unit 1104 obtains τ for which γ (τ) has the maximum value as the voice pitch period. In actual processing, the shape of pitch harmonics is often unclear in the high frequency region. Therefore, the intermediate frequency value is used for k1, and the pitch period of the low frequency side half of the frequency region of the audio signal is used. Estimate. For example, the voice pitch estimation unit 1104 estimates the voice pitch period by setting k1 = 2 kHz.

音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。   The voice pitch restoration unit 1107 corrects the second comb filter based on the estimation result output from the voice pitch estimation unit 1104 and outputs the result to the comb filter correction unit 1108.

以下、図を用いて音声ピッチ修復部1107の具体的な動作について説明する。図12、図13、図14、及び図15は、コムフィルタの一例を示す図である。   Hereinafter, a specific operation of the audio pitch restoration unit 1107 will be described with reference to the drawings. 12, FIG. 13, FIG. 14 and FIG. 15 are diagrams showing examples of comb filters.

音声ピッチ修復部1107は、第二コムフィルタの通過領域のピークを抽出し、ピッチ基準コムフィルタを生成する。図12のコムフィルタは、第二コムフィルタ生成部1106において生成された第二コムフィルタの一例である。また、図13のコムフィルタは、ピッチ基準コムフィルタの一例である。図13のコムフィルタでは、図12のコムフィルタからピークの情報のみを抽出し、通過領域の幅の情報がなくなっている。   The voice pitch restoration unit 1107 extracts the peak of the pass region of the second comb filter and generates a pitch reference comb filter. The comb filter in FIG. 12 is an example of the second comb filter generated by the second comb filter generation unit 1106. Moreover, the comb filter of FIG. 13 is an example of a pitch reference comb filter. In the comb filter of FIG. 13, only peak information is extracted from the comb filter of FIG.

そして、音声ピッチ修復部1107は、ピッチ基準コムフィルタのピークとピークの間隔を算出し、ピークとピークの間隔が、所定の閾値、例えばピッチ周期の15倍の値、を超えた場合、音声ピッチ推定部1104のピッチの推定結果から欠落したピッチの挿入を行い、ピッチ挿入コムフィルタを生成する。図14のコムフィルタは、ピッチ挿入コムフィルタの一例である。図14のコムフィルタでは、50kHzから100kHz付近及び200kHzから250kHzにピークが挿入されている。   Then, the voice pitch restoration unit 1107 calculates the peak-to-peak interval of the pitch reference comb filter, and if the peak-to-peak interval exceeds a predetermined threshold, for example, a value that is 15 times the pitch period, the voice pitch The pitch insertion comb filter is generated by inserting the missing pitch from the pitch estimation result of the estimation unit 1104. The comb filter in FIG. 14 is an example of a pitch insertion comb filter. In the comb filter of FIG. 14, peaks are inserted in the vicinity of 50 kHz to 100 kHz and from 200 kHz to 250 kHz.

そして、音声ピッチ修復部1107は、ピッチの値に応じてピッチ挿入コムフィルタの通過領域のピークの幅を広げてピッチ修復コムフィルタを生成し、コムフィルタ修正部1108に出力する。図15のコムフィルタは、ピッチ修復コムフィルタの一例である。図15のコムフィルタでは、図14のピッチ挿入コムフィルタに通過領域の幅の情報が付加されている。   Then, the audio pitch repair unit 1107 generates a pitch repair comb filter by expanding the width of the peak of the pass region of the pitch insertion comb filter according to the pitch value, and outputs the generated pitch repair comb filter to the comb filter correction unit 1108. The comb filter of FIG. 15 is an example of a pitch repair comb filter. In the comb filter of FIG. 15, information on the width of the pass region is added to the pitch insertion comb filter of FIG.

コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。   The comb filter correction unit 1108 corrects the first comb filter generated in the first comb filter generation unit 1105 using the pitch repair comb filter generated in the voice pitch repair unit 1107, and converts the corrected comb filter into a voice separation coefficient. The result is output to the calculation unit 1109.

具体的には、コムフィルタ修正部1108は、ピッチ修復コムフィルタと第一コムフィルタの通過領域を比較して両方のコムフィルタにおいて通過領域となっている部分を通過領域とし、この通過領域以外を、信号を減衰する阻止領域としてコムフィルタを生成する。   Specifically, the comb filter correction unit 1108 compares the pass regions of the pitch restoration comb filter and the first comb filter, and sets a portion that is a pass region in both comb filters as a pass region. A comb filter is generated as a blocking region for attenuating the signal.

以下、コムフィルタ修正の一例を示す。図16、図17、及び図18は、コムフィルタの一例を示す図である。図16のコムフィルタは、第一コムフィルタ生成部1105において生成された第一コムフィルタである。また、図17のコムフィルタは、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタである。図18は、コムフィルタ修正部1108において修正されたコムフィルタの一例である。   An example of comb filter correction will be shown below. 16, FIG. 17, and FIG. 18 are diagrams illustrating examples of comb filters. The comb filter in FIG. 16 is a first comb filter generated by the first comb filter generation unit 1105. Further, the comb filter of FIG. 17 is a pitch repair comb filter generated in the voice pitch repair unit 1107. FIG. 18 is an example of a comb filter modified by the comb filter modification unit 1108.

音声分離係数計算部1109は、コムフィルタ修正部1108において修正されたコムフィルタに周波数特性に基づいた分離係数を乗算し、各周波数成分毎に入力信号の分離係数を算出して乗算部109に出力する。   The speech separation coefficient calculation unit 1109 multiplies the comb filter modified by the comb filter modification unit 1108 by a separation coefficient based on the frequency characteristics, calculates a separation coefficient of the input signal for each frequency component, and outputs it to the multiplication unit 109. To do.

例えば、音声分離係数計算部1109は、ある周波数成分を特定する番号kにおいて、コムフィルタ修正部1108において修正されたコムフィルタCOMB_res(k)の値が1、すなわち通過領域である場合、分散係数seps(k)を1とする。また、音声分離係数計算部1109は、コムフィルタCOMB_res(k)の値が0、すなわち阻止領域である場合、以下の式(15)から分散係数seps(k)を算出する。

Figure 2006126859
For example, if the value of the comb filter COMB_res (k) corrected by the comb filter correction unit 1108 is 1, that is, the pass region, in the number k that identifies a certain frequency component, the speech separation coefficient calculation unit 1109 has a dispersion coefficient sps. Let (k) be 1. Also, when the value of the comb filter COMB_res (k) is 0, that is, the blocking region, the speech separation coefficient calculation unit 1109 calculates the dispersion coefficient sps (k) from the following equation (15).
Figure 2006126859

ここで、gcは定数、kは周波数成分を特定する番号、HBは、FFT変換長つまり高速フーリエ変換を行うデータ数を示す。   Here, gc is a constant, k is a number for specifying a frequency component, and HB is an FFT transform length, that is, the number of data to be subjected to fast Fourier transform.

乗算部109は、周波数分割部104から出力された音声スペクトルに音声分離係数計算部1109から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。   The multiplication unit 109 multiplies the speech spectrum output from the frequency division unit 104 by the attenuation coefficient output from the speech separation coefficient calculation unit 1109 in units of frequency components. Then, the spectrum obtained as a result of multiplication is output to frequency synthesizer 110.

このように、本実施の形態の音声処理装置によれば、コムフィルタ作成に用いるノイズベースと、ピッチ調波構造修復に用いるノイズベースをそれぞれ異なる条件で生成することにより、音声情報を多く抽出し、かつ雑音情報の影響を受け難いコムフィルタを生成して正確なピッチ調波構造の修復を行うことができる。   Thus, according to the speech processing apparatus of the present embodiment, a large amount of speech information is extracted by generating a noise base used for creating a comb filter and a noise base used for pitch harmonic structure restoration under different conditions. In addition, it is possible to generate a comb filter that is not easily affected by noise information and to accurately restore the pitch harmonic structure.

具体的には、本実施の音声処理装置によれば、音声と判断する条件を厳しくした第二コムフィルタを基準にしたピッチ周期の推定結果を反映させて欠落したと推測されるピッチを挿入してコムフィルタのピッチ調波構造を修復することにより、ピッチ調波の欠落による音声歪を減少することができる。   Specifically, according to the speech processing apparatus of the present embodiment, the pitch estimated to be missing is inserted by reflecting the estimation result of the pitch period based on the second comb filter with strict conditions for determining speech. By repairing the pitch harmonic structure of the comb filter, it is possible to reduce voice distortion due to the lack of pitch harmonics.

また、本実施の形態の音声処理装置によれば、コムフィルタのピッチ幅をピッチ周期の推定結果から調整することにより正確にピッチ調波構造を修復することができる。音声と厳しく判断して作成したコムフィルタのピッチ調波構造を修復したコムフィルタの通過領域と音声と緩く判断して作成したコムフィルタの通過領域の重複部分を通過領域とし、この重複する通過領域以外を阻止領域とするコムフィルタを作成することにより、ピッチ周期の推定の誤差による影響を低減することができ、正確なピッチ調波構造の修復ができる。   Moreover, according to the speech processing apparatus of the present embodiment, the pitch harmonic structure can be accurately restored by adjusting the pitch width of the comb filter from the estimation result of the pitch period. The overlapping part of the comb filter pass region created by strict judgment of speech as the comb filter's pitch harmonic structure and the comb filter pass region created loosely as speech is defined as the pass region. By creating a comb filter having a blocking region other than the above, it is possible to reduce the influence of an error in estimating the pitch period, and it is possible to accurately restore the pitch harmonic structure.

なお、本実施の形態の音声処理装置は、コムフィルタの阻止領域の音声分離係数を、音声スペクトルに分離係数を乗算して算出し、コムフィルタの通過領域の音声分離係数を、音声スペクトルからノイズベースを減算して算出することもできる。   Note that the speech processing apparatus according to the present embodiment calculates the speech separation coefficient in the blocking region of the comb filter by multiplying the speech spectrum by the separation factor, and calculates the speech separation coefficient in the passing region of the comb filter from the speech spectrum. It can also be calculated by subtracting the base.

例えば、音声分離係数計算部1109は、コムフィルタCOMB_res(k)の値が0、すなわち阻止領域である場合、以下の式(16)から分散係数seps(k)を算出する。

Figure 2006126859
For example, when the value of the comb filter COMB_res (k) is 0, that is, the blocking region, the speech separation coefficient calculation unit 1109 calculates the dispersion coefficient sps (k) from the following equation (16).
Figure 2006126859

ここで、Pmax(n)は、所定の範囲の周波数成分kでのPbase(n、k)の最大値を示す。式(16)では、フレーム毎にノイズベース推定値の正規化を行い、その逆数を用いて分離係数とする。 Here, P max (n) represents the maximum value of P base (n, k) in the frequency component k within a predetermined range. In Expression (16), the noise base estimation value is normalized for each frame, and the reciprocal is used as the separation coefficient.

そして、コムフィルタCOMB_res(k)の値が1、すなわち通過領域である場合、以下の式(17)から分散係数seps(k)を算出する。

Figure 2006126859
Then, when the value of the comb filter COMB_res (k) is 1, that is, the pass region, the dispersion coefficient seps (k) is calculated from the following equation (17).
Figure 2006126859

ここで、γは、ノイズベースを差し引く量を示す係数であり、Pmax(n)は、所定の範囲の周波数成分kでのPbase(n,k)の最大値を示す。 Here, γ is a coefficient indicating the amount by which the noise base is subtracted, and P max (n) indicates the maximum value of P base (n, k) in the frequency component k within a predetermined range.

このように、本実施の形態の音声処理装置は、ピッチ修正を行ったコムフィルタの阻止領域にノイズベースの情報から算出した分離係数を乗算することにより、異なるノイズ特性に対しても最適な分離係数を算出することができ、ノイズ特性に対応した音声強調を行うことができる。また、本実施の形態の音声処理装置は、ピッチ修正を行ったコムフィルタの通過領域に音声スペクトルからノイズベースを減算して算出した分離係数を乗算することにより、音声歪みの少ない音声強調を行うことができる。   As described above, the speech processing apparatus according to the present embodiment multiplies the inhibition region of the pitch-combined comb filter by the separation coefficient calculated from the noise-based information, so that optimum separation is achieved even for different noise characteristics. Coefficients can be calculated, and speech enhancement corresponding to noise characteristics can be performed. Also, the speech processing apparatus according to the present embodiment performs speech enhancement with less speech distortion by multiplying the passing region of the comb filter that has undergone pitch correction by the separation coefficient calculated by subtracting the noise base from the speech spectrum. be able to.

また、本実施の形態は、実施の形態2と組み合わせることもできる。すなわち、図11の音声処理装置にノイズ区間判別部401及びノイズベース追跡部402を追加することにより実施の形態2の効果も得ることができる。   Further, this embodiment can be combined with Embodiment 2. In other words, the effects of the second embodiment can be obtained by adding the noise section determination unit 401 and the noise base tracking unit 402 to the speech processing apparatus of FIG.

(実施の形態9)
図19は、実施の形態9にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。
(Embodiment 9)
FIG. 19 is a block diagram of an example of the configuration of the speech processing apparatus according to the ninth embodiment. However, the same components as those in FIGS. 1 and 11 are denoted by the same reference numerals as those in FIGS. 1 and 11, and detailed description thereof is omitted.

図19の音声処理装置は、SNR計算部1901と、音声雑音フレーム検出部1902とを具備し、音声信号のSNR(Signal Noise Ratio)を計算し、SNRからフレーム単位で音声信号から音声フレームまたは雑音フレームを区別して検出し、音声フレームのみピッチ周期の推定を行う点が、図1又は図11と異なる。   19 includes an SNR calculator 1901 and an audio noise frame detector 1902, calculates an SNR (Signal Noise Ratio) of the audio signal, and calculates an audio frame or noise from the audio signal in units of frames from the SNR. It differs from FIG. 1 or FIG. 11 in that the frame period is detected and the pitch period is estimated only for the audio frame.

図19において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部105と、第一音声非音声識別部1102と、第二音声非音声識別部1103と、乗算部109と、SNR計算部1901に出力する。   In FIG. 19, the frequency dividing unit 104 divides the audio spectrum output from the FFT unit 103 into frequency components, and converts the audio spectrum for each frequency component into the noise base estimation unit 105 and the first audio non-speech identification unit 1102. And the second voice / non-voice identification unit 1103, the multiplication unit 109, and the SNR calculation unit 1901.

第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108とSNR計算部1901に出力する。   First comb filter generation section 1105 generates a first comb filter that emphasizes pitch harmonics based on the presence or absence of audio components in each frequency component, and outputs the first comb filter to comb filter correction section 1108 and SNR calculation section 1901.

SNR計算部1901は、周波数分割部104から出力された音声スペクトルと第一コムフィルタ生成部1105から出力された第一コムフィルタから音声信号のSNRを計算して音声雑音フレーム検出部1902に出力する。例えば、SNR計算部1901は、以下の式(18)を用いてSNRを計算する。

Figure 2006126859
The SNR calculation unit 1901 calculates the SNR of the audio signal from the audio spectrum output from the frequency division unit 104 and the first comb filter output from the first comb filter generation unit 1105, and outputs the SNR to the audio noise frame detection unit 1902. . For example, the SNR calculator 1901 calculates the SNR using the following equation (18).
Figure 2006126859

ここで、COMB_low(k)は、第一コムフィルタを示す。また、kは周波数成分を示し、0以上かつ音声信号に高速フーリエ変換を行う場合のデータ点数の半数より小さい値をとる。   Here, COMB_low (k) indicates the first comb filter. K represents a frequency component, and takes a value of 0 or more and smaller than half of the number of data points when the fast Fourier transform is performed on the audio signal.

音声雑音フレーム検出部1902は、SNR計算部1901から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を音声ピッチ推定部1903に出力する。具体的には、音声雑音フレーム検出部1902は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。   The voice noise frame detection unit 1902 determines whether the input signal is a voice signal or a noise signal in units of frames from the SNR output from the SNR calculation unit 1901 and outputs the determination result to the voice pitch estimation unit 1903. Specifically, when the SNR is greater than a predetermined threshold, the audio noise frame detection unit 1902 determines that the input signal is an audio signal (audio frame), and the number of frames having an SNR equal to or less than the predetermined threshold is equal to or greater than a predetermined number. When it occurs continuously, the input signal is determined as a noise signal (noise frame).

図20に、上記音声雑音フレーム検出部1902の音声/雑音判断の動作をプログラムで表現した例を示す。図20は、本実施の形態の音声処理装置の音声雑音判断プログラムの一例を示す図である。図20のプログラムでは、SNRが所定の閾値以下であるフレームが10以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。   FIG. 20 shows an example in which the speech / noise determination operation of the speech noise frame detection unit 1902 is expressed by a program. FIG. 20 is a diagram illustrating an example of a speech noise determination program of the speech processing device according to the present embodiment. In the program of FIG. 20, when 10 or more frames having an SNR equal to or less than a predetermined threshold occur continuously, the input signal is determined as a noise signal (noise frame).

音声ピッチ推定部1903は、音声雑音フレーム検出部1902が音声フレームと判断する場合、周波数分割部104から出力された音声スペクトルからピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。ピッチ周期推定の動作は、実施の形態8の音声ピッチ推定部1104と同様の動作を行う。   When the speech noise frame detection unit 1902 determines that the speech noise frame detection unit 1902 is a speech frame, the speech pitch estimation unit 1903 estimates the pitch period from the speech spectrum output from the frequency division unit 104 and outputs the estimation result to the speech pitch restoration unit 1107. The operation of pitch period estimation is the same as that of speech pitch estimation section 1104 of the eighth embodiment.

音声ピッチ修復部1107は、音声ピッチ推定部1903から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。   The voice pitch restoration unit 1107 corrects the second comb filter based on the estimation result output from the voice pitch estimation unit 1903 and outputs the result to the comb filter correction unit 1108.

このように、本実施の形態の音声処理装置によれば、コムフィルタの通過領域に対応する音声スペクトルのパワの和と、コムフィルタの阻止領域に対応する音声スペクトルのパワの和との比を求めてSNRとし、このSNRが所定の閾値以上であるフレームのみを用いてピッチ周期を推定することにより、雑音によるピッチ周期推定の誤りを低減することができ、音声歪の少ない音声強調を行うことができる。   Thus, according to the speech processing apparatus of the present embodiment, the ratio of the sum of the power of the speech spectrum corresponding to the pass region of the comb filter and the sum of the power of the speech spectrum corresponding to the blocking region of the comb filter is calculated. By obtaining the SNR and estimating the pitch period using only frames whose SNR is equal to or greater than a predetermined threshold, it is possible to reduce pitch period estimation errors due to noise, and to perform speech enhancement with less audio distortion Can do.

なお、本実施の形態の音声処理装置は、第一コムフィルタからSNRを計算しているが、第二コムフィルタを用いてSNRを計算してもよい。この場合、第二コムフィルタ生成部1106は、作成した第二コムフィルタをSNR計算部1901に出力する。そして、SNR計算部1901は、周波数分割部104から出力された音声スペクトルと第二コムフィルタから音声信号のSNRを計算して音声雑音フレーム検出部1902に出力する。   In addition, although the speech processing apparatus of this Embodiment calculates SNR from the 1st comb filter, you may calculate SNR using a 2nd comb filter. In this case, the second comb filter generation unit 1106 outputs the created second comb filter to the SNR calculation unit 1901. Then, the SNR calculator 1901 calculates the SNR of the audio signal from the audio spectrum output from the frequency divider 104 and the second comb filter, and outputs the SNR to the audio noise frame detector 1902.

(実施の形態10)
図21は、実施の形態10にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。図21の音声処理装置は、第一コムフィルタ生成部2101と、第一ミュジカルノイズ抑圧部2102と、第二コムフィルタ生成部2103と、第二ミュジカルノイズ抑圧部2104とを具備し、第一コムフィルタと第二コムフィルタの生成結果からミュジカルノイズ発生を判断する点が、図1又は図11と異なる。
(Embodiment 10)
FIG. 21 is a block diagram of an example of the configuration of the speech processing apparatus according to the tenth embodiment. However, the same components as those in FIGS. 1 and 11 are denoted by the same reference numerals as those in FIGS. 1 and 11, and detailed description thereof is omitted. 21 includes a first comb filter generation unit 2101, a first musical noise suppression unit 2102, a second comb filter generation unit 2103, and a second musical noise suppression unit 2104. It differs from FIG. 1 or FIG. 11 in that the generation of musical noise is determined from the generation results of the filter and the second comb filter.

図21において、第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。   In FIG. 21, the first speech non-speech identification unit 1102 has a difference between the speech spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 1101 equal to or greater than a predetermined first threshold. In the case, it is determined that the sound part includes a sound component. In other cases, it is determined that the sound part includes only a noise that does not include a sound component.

第一音声非音声識別部1102では、第一コムフィルタ生成部2101がピッチ調波情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部2101に出力する。   In the first speech non-speech identification unit 1102, the second speech non-speech discrimination unit 1103, which will be described later, is used by the first comb filter generation unit 2101 to generate a filter that extracts as much pitch harmonic information as possible. Set to a value lower than the second threshold value to be used. Then, the first voice / non-voice identification unit 1102 outputs the determination result to the first comb filter generation unit 2101.

第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部2103に出力する。   When the difference between the speech spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 1101 is equal to or greater than a predetermined second threshold, the second speech non-speech identification unit 1103 In other cases, it is determined that the sound part is a silent part including only noise. Then, the second voice / non-voice identification unit 1103 outputs the determination result to the second comb filter generation unit 2103.

第一コムフィルタ生成部2101は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成して第一ミュジカルノイズ抑圧部2102に出力する。第一コムフィルタ生成の具体的な動作は、実施の形態8の第一コムフィルタ生成部1105と同様の動作を行う。そして、第一コムフィルタ生成部2101は、第一ミュジカルノイズ抑圧部2102において修正された第一コムフィルタをコムフィルタ修正部1108に出力する。   First comb filter generation section 2101 generates a first comb filter that emphasizes pitch harmonics based on the presence or absence of audio components in each frequency component, and outputs the first comb filter to first musical noise suppression section 2102. The specific operation of the first comb filter generation is the same as that of the first comb filter generation unit 1105 of the eighth embodiment. Then, the first comb filter generation unit 2101 outputs the first comb filter corrected by the first musical noise suppression unit 2102 to the comb filter correction unit 1108.

第一ミュジカルノイズ抑圧部2102は、第一コムフィルタの各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断する。例えば、以下の式(5)を用いてコムフィルタでオンになっている周波数成分の数を計算し、COMB_SUM(n)がある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。

Figure 2006126859
The first musical noise suppression unit 2102 turns on sudden noise in a frame when the frequency components of the first comb filter are on, that is, when the number of states to be output without attenuation is equal to or less than a certain threshold value. Is determined to be included. For example, if the number of frequency components turned on by the comb filter is calculated using the following equation (5), and COMB_SUM (n) is smaller than a certain threshold value (for example, 10), musical noise is generated. to decide.
Figure 2006126859

そして、第一ミュジカルノイズ抑圧部2102は、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを第一コムフィルタ生成部2101に出力する。   Then, the first musical noise suppression unit 2102 sets the state of all frequency components of the comb filter to OFF, that is, sets the signal to be attenuated and outputs it, and outputs the comb filter to the first comb filter generation unit 2101.

第二コムフィルタ生成部2103は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第二コムフィルタを生成して第二ミュジカルノイズ抑圧部2104に出力する。第二コムフィルタ生成の具体的な動作は、実施の形態8の第二コムフィルタ生成部1106と同様の動作を行う。そして、第二コムフィルタ生成部2103は、第二ミュジカルノイズ抑圧部2104において修正された第二コムフィルタを音声ピッチ修復部1107に出力する。   Second comb filter generation section 2103 generates a second comb filter that emphasizes pitch harmonics based on the presence or absence of audio components in each frequency component, and outputs the second comb filter to second musical noise suppression section 2104. The specific operation of generating the second comb filter is the same as that of the second comb filter generation unit 1106 of the eighth embodiment. Then, the second comb filter generation unit 2103 outputs the second comb filter corrected by the second musical noise suppression unit 2104 to the audio pitch restoration unit 1107.

第二ミュジカルノイズ抑圧部2104は、第一コムフィルタの各周波数成分の状態の中でオン、つまり信号を減衰せずに出力する状態の数が一定の閾値以下である場合、フレームに突発性ノイズが含まれていると判断する。   The second musical noise suppression unit 2104 turns on sudden noise in a frame when the frequency components of the first comb filter are on, that is, when the number of states in which signals are output without attenuation is equal to or less than a certain threshold. Is determined to be included.

例えば、以下の式(5)を用いてコムフィルタでオンになっている周波数成分の数を計算し、COMB_SUM(n)がある閾値(例えば10)より小さい場合、ミュジカルノイズが発生していると判断する。

Figure 2006126859
For example, if the number of frequency components turned on by the comb filter is calculated using the following equation (5), and COMB_SUM (n) is smaller than a certain threshold value (for example, 10), musical noise is generated. to decide.
Figure 2006126859

そして、第二ミュジカルノイズ抑圧部2104は、コムフィルタのすべての周波数成分の状態をオフつまり信号を減衰して出力する状態に設定してコムフィルタを第二コムフィルタ生成部2103に出力する。   Then, the second musical noise suppression unit 2104 sets all the frequency components of the comb filter to the off state, that is, sets the signal to be attenuated and outputs it, and outputs the comb filter to the second comb filter generation unit 2103.

音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタ生成部2103から出力された第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。   The voice pitch restoration unit 1107 corrects the second comb filter output from the second comb filter generation unit 2103 based on the estimation result output from the voice pitch estimation unit 1104, and outputs the result to the comb filter correction unit 1108.

コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部2101において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。   The comb filter correction unit 1108 corrects the first comb filter generated in the first comb filter generation unit 2101 using the pitch correction comb filter generated in the voice pitch correction unit 1107, and the corrected comb filter is converted into a voice separation coefficient. The result is output to the calculation unit 1109.

このように、本実施の形態の音声処理装置によれば、第一コムフィルタと第二コムフィルタの生成結果からミュジカルノイズ発生を判断することにより、ノイズが音声信号と誤判断されることを防ぎ、音声歪の少ない音声強調を行うことができる。   As described above, according to the audio processing device of the present embodiment, it is possible to prevent the noise from being erroneously determined as an audio signal by determining the occurrence of musical noise from the generation results of the first comb filter and the second comb filter. Therefore, it is possible to perform speech enhancement with little speech distortion.

(実施の形態11)
図22は、実施の形態11にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図11と共通する構成については図1及び図11と同一番号を付し、詳しい説明を省略する。図22の音声処理装置は、平均値計算部2201を具備し、周波数成分単位で音声スペクトルのパワの平均値を求める点が、図1又は図11と異なる。
(Embodiment 11)
FIG. 22 is a block diagram of an example of the configuration of the speech processing apparatus according to the eleventh embodiment. However, the same components as those in FIGS. 1 and 11 are denoted by the same reference numerals as those in FIGS. 1 and 11, and detailed description thereof is omitted. The speech processing apparatus of FIG. 22 includes an average value calculation unit 2201 and is different from FIG. 1 or FIG. 11 in that the average value of speech spectrum power is obtained in units of frequency components.

図22において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101と、第一音声非音声識別部1102と、乗算部109と、平均値計算部2201に出力する。   In FIG. 22, the frequency dividing unit 104 divides the speech spectrum output from the FFT unit 103 into frequency components, and converts the speech spectrum for each frequency component into a noise-based estimation unit 1101 and a first speech non-speech identifying unit 1102. To the multiplication unit 109 and the average value calculation unit 2201.

平均値計算部2201は、周波数分割部104から出力された音声スペクトルのパワーについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値を第二音声非音声識別部1103に出力する。   The average value calculation unit 2201 takes the average value with the frequency components in the vicinity and the average value with the previously processed frame for the power of the audio spectrum output from the frequency division unit 104, and uses the obtained average value as the second value. Output to the voice / non-voice identification unit 1103.

具体的には、以下に示す式(19)を用いて音声スペクトルの平均値を算出する。

Figure 2006126859
Specifically, the average value of the speech spectrum is calculated using the following equation (19).
Figure 2006126859

ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。   Here, k1 and k2 indicate frequency components, and k1 <k <k2. n1 indicates a number indicating a frame that has been processed in the past, and n indicates a number indicating a frame that has been processed.

第二音声非音声識別部1103は、平均値計算部2201から出力された音声スペクトル信号の平均値とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。   The second speech non-speech identification unit 1103 has a difference between the average value of the speech spectrum signal output from the average value calculation unit 2201 and the noise base value output from the noise base estimation unit 1101 equal to or greater than a predetermined second threshold. In the case, it is determined that the sound part includes a sound component. In other cases, it is determined that the sound part includes only a noise that does not include a sound component. Then, the second voice / non-voice identification unit 1103 outputs the determination result to the second comb filter generation unit 1106.

このように、本発明の実施の形態11に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなり、音声情報のみをとりだす第二コムフィルタをより正確に生成することができる。   As described above, according to the speech processing apparatus according to Embodiment 11 of the present invention, the average power value of the speech spectrum in each frequency component or the average power value of the frame that has been processed in the past and the frame that has been processed is obtained. Thus, the influence of the sudden noise component is reduced, and the second comb filter that extracts only the voice information can be generated more accurately.

(実施の形態12)
図23は、実施の形態12にかかる音声処理装置の構成の例を示すブロック図である。但し、図1、図11及び図19と共通する構成については図1、図11及び図19と同一番号を付し、詳しい説明を省略する。図23の音声処理装置は、コムフィルタリセット部2301を具備し、音声成分を含まないフレームに対して全周波数成分で減衰を行うコムフィルタを生成する点が、図1、図11又は図19と異なる。
(Embodiment 12)
FIG. 23 is a block diagram of an example of the configuration of the speech processing apparatus according to the twelfth embodiment. However, the same components as those in FIGS. 1, 11, and 19 are denoted by the same reference numerals as those in FIGS. 1, 11, and 19, and detailed description thereof is omitted. The speech processing apparatus of FIG. 23 includes a comb filter reset unit 2301 and generates a comb filter that attenuates all frequency components for a frame that does not include speech components, as shown in FIG. 1, FIG. 11, or FIG. Different.

図23において、音声雑音フレーム検出部1902は、SNR計算部1901から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を音声ピッチ推定部1104に出力する。   In FIG. 23, the speech noise frame detection unit 1902 determines whether the input signal is a speech signal or a noise signal in units of frames from the SNR output from the SNR calculation unit 1901 and outputs the determination result to the speech pitch estimation unit 1104.

具体的には、音声雑音フレーム検出部1902は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。そして、音声雑音フレーム検出部1902は、判断結果を、音声ピッチ推定部1104とコムフィルタリセット部2301に出力する。   Specifically, when the SNR is greater than a predetermined threshold, the audio noise frame detection unit 1902 determines that the input signal is an audio signal (audio frame), and the number of frames having an SNR equal to or less than the predetermined threshold is equal to or greater than a predetermined number. When it occurs continuously, the input signal is determined as a noise signal (noise frame). Then, the speech noise frame detection unit 1902 outputs the determination result to the speech pitch estimation unit 1104 and the comb filter reset unit 2301.

コムフィルタリセット部2301は、音声雑音フレーム検出部1902から出力された判断結果に基づいて、音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、コムフィルタ修正部1108にすべての周波数成分のコムフィルタをオフにする指示を出力する。   When the comb filter reset unit 2301 determines based on the determination result output from the voice noise frame detection unit 1902 that the voice spectrum includes only a noise component that does not include a voice component, the comb filter correction unit 1108 sends all frequency components to the comb filter correction unit 1108. Outputs an instruction to turn off the comb filter.

コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。   The comb filter correction unit 1108 corrects the first comb filter generated in the first comb filter generation unit 1105 using the pitch repair comb filter generated in the voice pitch repair unit 1107, and converts the corrected comb filter into a voice separation coefficient. The result is output to the calculation unit 1109.

また、コムフィルタ修正部1108は、コムフィルタリセット部2301の指示に従い音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合に、すべての周波数成分でオフにした第一コムフィルタを生成して音声分離係数計算部1109に出力する。   Further, the comb filter correction unit 1108 generates a first comb filter that is turned off for all frequency components when it is determined that the voice spectrum is only a noise component that does not include a voice component in accordance with an instruction from the comb filter reset unit 2301. To the speech separation coefficient calculation unit 1109.

このように、本実施の形態の音声処理装置によれば、音声成分を含まないフレームに全周波数成分で減衰を行い、音声を含まない信号区間でノイズを全帯域でカットすることにより、音声抑圧処理に起因するノイズの発生を防ぐことができるので、音声歪の少ない音声強調を行うことができる。   As described above, according to the speech processing apparatus of the present embodiment, speech suppression is performed by performing attenuation on all frequency components in a frame that does not include speech components, and cutting noise on all bands in signal sections that do not include speech. Since it is possible to prevent the occurrence of noise due to processing, it is possible to perform voice enhancement with less voice distortion.

(実施の形態13)
図24は、実施の形態13にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
(Embodiment 13)
FIG. 24 is a block diagram of an example of the configuration of the speech processing apparatus according to the thirteenth embodiment. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG.

図24の音声処理装置は、雑音分離コムフィルタ生成部2401と、雑音分離係数計算部2402と、乗算部2403と、雑音周波数合成部2404とを具備し、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行い、正確なピッチ情報を得て雑音成分のみを取り出すコムフィルタを作成して雑音の特性を抽出する点が、図1の音声処理装置と異なる。   The speech processing apparatus of FIG. 24 includes a noise separation comb filter generation unit 2401, a noise separation coefficient calculation unit 2402, a multiplication unit 2403, and a noise frequency synthesis unit 2404, and the speech non-speech of the spectrum signal in units of frequency components. The frequency characteristics are attenuated in units of frequency components, the frequency characteristics are attenuated based on the discrimination results, a comb filter that extracts only noise components by obtaining accurate pitch information is created, and noise characteristics are extracted. Different from the speech processing apparatus.

音声非音声識別部106は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、雑音成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、音声非音声識別部106は、判定結果をノイズベース推定部105と雑音分離コムフィルタ生成部2401に出力する。   The speech non-speech identification unit 106, when the difference between the speech spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 105 is greater than or equal to a predetermined threshold value, It is determined to be a part, and otherwise, it is determined to be a silent part of only noise that does not include a voice component. Then, the speech non-speech identification unit 106 outputs the determination result to the noise base estimation unit 105 and the noise separation comb filter generation unit 2401.

雑音分離コムフィルタ生成部2401は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。   The noise separation comb filter generation unit 2401 generates a comb filter that emphasizes pitch harmonics based on the presence or absence of a voice component in each frequency component, and outputs this comb filter to the noise separation coefficient calculation unit 2402.

具体的には、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(20)を満たす場合、雑音分離コムフィルタ生成部2401は、当該周波数成分のフィルタの値を「1」とする。

Figure 2006126859
Specifically, in the speech non-speech identification unit 106, when the power spectrum of the input speech signal is equal to or greater than the multiplication result of the first threshold value for determining speech and noise and the power spectrum of the input speech signal. That is, when Expression (20) is satisfied, the noise separation comb filter generation unit 2401 sets the filter value of the frequency component to “1”.
Figure 2006126859

また、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(21)を満たす場合、雑音分離コムフィルタ生成部2401は、当該周波数成分のコムフィルタの値を「0」とする。ここで、θnosは、雑音分離に用いる閾値である。

Figure 2006126859
Further, in the speech non-speech identification unit 106, when the power spectrum of the input speech signal is smaller than the multiplication result of the first threshold value for distinguishing speech and noise and the power spectrum of the input speech signal, that is, the expression When (21) is satisfied, the noise separation comb filter generation unit 2401 sets the value of the comb filter of the frequency component to “0”. Here, θ nos is a threshold used for noise separation.
Figure 2006126859

雑音分離係数計算部2402は、雑音分離コムフィルタ生成部2401において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部2403に出力する。具体的には、雑音分離係数計算部2402は、コムフィルタCOMB_nos(k)の値が0、すなわち阻止領域である場合、雑音分離係数sepn(k)=1とする。   The noise separation coefficient calculation unit 2402 multiplies the comb filter generated by the noise separation comb filter generation unit 2401 by an attenuation coefficient based on frequency characteristics, and sets the attenuation coefficient of the input signal for each frequency component. The attenuation coefficient of each frequency component is output to multiplication section 2403. Specifically, the noise separation coefficient calculation unit 2402 sets the noise separation coefficient sepn (k) = 1 when the value of the comb filter COMB_nos (k) is 0, that is, the blocking region.

そして、コムフィルタCOMB_nos(k)の値が1、すなわち通過領域である場合、以下の式(22)から雑音分離係数sepn(k)を算出する。

Figure 2006126859
If the value of the comb filter COMB_nos (k) is 1, that is, the pass region, the noise separation coefficient sepn (k) is calculated from the following equation (22).
Figure 2006126859

ここで、r(i)は、ランダム関数で均一分布の乱数で構成される。また、kはビンを特定する変数であり、kのとりうる範囲は0以上、FFT変換長つまり高速フーリエ変換を行うデータ数の半数未満である。 Here, r d (i) is a random function and is composed of uniformly distributed random numbers. Further, k is a variable for specifying a bin, and the range that k can take is 0 or more and less than half of the number of data subjected to FFT transform length, that is, fast Fourier transform.

乗算部2403は、周波数分割部104から出力された音声スペクトルに雑音分離係数計算部2402から出力された雑音分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを雑音周波数合成部2404に出力する。   The multiplier 2403 multiplies the speech spectrum output from the frequency divider 104 by the noise separation coefficient output from the noise separation coefficient calculator 2402 in units of frequency components. Then, the spectrum obtained as a result of multiplication is output to noise frequency synthesis section 2404.

雑音周波数合成部2404は、乗算部2403から出力された周波数成分単位のスペクトルを所定の処理時間単位で、周波数領域で連続する音声スペクトルに合成してIFFT部111に出力する。IFFT部111は、雑音周波数合成部2404から出力された音声スペクトルにIFFTを行って音声信号に変換した信号を出力する。   The noise frequency synthesis unit 2404 synthesizes the spectrum of the frequency component unit output from the multiplication unit 2403 into a speech spectrum continuous in the frequency domain in units of a predetermined processing time, and outputs the synthesized speech spectrum to the IFFT unit 111. The IFFT unit 111 performs IFFT on the audio spectrum output from the noise frequency synthesis unit 2404 and outputs a signal converted into an audio signal.

このように、本実施の形態の音声処理装置は、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得て雑音成分のみを取り出すコムフィルタを作成でき、雑音の特性を抽出することができる。また、コムフィルタの阻止域において雑音成分を減衰せず、コムフィルタの通過域において雑音成分をノイズベースの推定値と乱数を乗算して再構成することにより良好な雑音分離特性を得ることができる。   As described above, the speech processing apparatus according to the present embodiment discriminates the speech non-speech of the spectrum signal in units of frequency components, and attenuates the frequency characteristics based on the discrimination results in units of frequency components, thereby obtaining an accurate pitch. It is possible to create a comb filter that obtains information and extracts only noise components, and to extract noise characteristics. In addition, the noise component is not attenuated in the stop band of the comb filter, and a good noise separation characteristic can be obtained by reconstructing the noise component by multiplying the noise-based estimated value by a random number in the pass band of the comb filter. .

(実施の形態14)
図25は、実施の形態14にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図24と共通する構成については図1及び図24と同一番号を付し、詳しい説明を省略する。
(Embodiment 14)
FIG. 25 is a block diagram of an example of the configuration of the speech processing apparatus according to the fourteenth embodiment. However, the same components as those in FIGS. 1 and 24 are denoted by the same reference numerals as those in FIGS. 1 and 24, and detailed description thereof is omitted.

図25の音声処理装置は、SNR計算部2501と、音声雑音フレーム検出部2502と、雑音コムフィルタリセット部2503と、雑音分離コムフィルタ生成部2504とを具備し、入力音声信号において音声成分を含まないフレームに対する雑音分離コムフィルタの周波数通過域を全て阻止域とする点が、図1及び図24の音声処理装置と異なる。   25 includes an SNR calculation unit 2501, an audio noise frame detection unit 2502, a noise comb filter reset unit 2503, and a noise separation comb filter generation unit 2504, and includes an audio component in an input audio signal. 1 and 24 is different from the speech processing apparatus shown in FIGS. 1 and 24 in that the frequency pass band of the noise separation comb filter for all frames is set as a stop band.

SNR計算部2501は、周波数分割部104から出力された音声スペクトルから出力された第一コムフィルタから音声信号のSNRを計算し、計算結果を音声雑音フレーム検出部2502に出力する。   The SNR calculator 2501 calculates the SNR of the audio signal from the first comb filter output from the audio spectrum output from the frequency divider 104, and outputs the calculation result to the audio noise frame detector 2502.

音声雑音フレーム検出部2502は、SNR計算部2501から出力されたSNRからフレーム単位で入力信号が音声信号か雑音信号かを判断し、判断結果を雑音コムフィルタリセット部2503に出力する。具体的には、音声雑音フレーム検出部2502は、SNRが所定の閾値より大きい場合、入力した信号を音声信号(音声フレーム)と判断し、SNRが所定の閾値以下であるフレームが所定の数以上連続して発生した場合、入力した信号を雑音信号(雑音フレーム)と判断する。   The voice noise frame detection unit 2502 determines whether the input signal is a voice signal or a noise signal in units of frames from the SNR output from the SNR calculation unit 2501, and outputs the determination result to the noise comb filter reset unit 2503. Specifically, when the SNR is greater than a predetermined threshold, the audio noise frame detection unit 2502 determines that the input signal is an audio signal (audio frame), and the number of frames having an SNR equal to or less than the predetermined threshold is greater than or equal to a predetermined number. When it occurs continuously, the input signal is determined as a noise signal (noise frame).

雑音コムフィルタリセット部2503は、音声雑音フレーム検出部2502における判定結果が、入力音声信号のフレームに音声成分が含まれず雑音成分のみである判定結果である場合、雑音分離コムフィルタ生成部2504にコムフィルタの全ての周波数通過域を阻止域に変換する指示を出力する。   The noise comb filter reset unit 2503 sends a comb to the noise separation comb filter generation unit 2504 when the determination result in the audio noise frame detection unit 2502 is a determination result in which the audio component is not included in the frame of the input audio signal and only the noise component is included. An instruction to convert all frequency passbands of the filter into a stopband is output.

雑音分離コムフィルタ生成部2504は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。   Noise separation comb filter generation section 2504 generates a comb filter that emphasizes pitch harmonics based on the presence or absence of speech components in each frequency component, and outputs this comb filter to noise separation coefficient calculation section 2402.

具体的には、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果以上である場合、すなわち、式(20)を満たす場合、雑音分離コムフィルタ生成部2504は、当該周波数成分のフィルタの値を「1」とする。

Figure 2006126859
Specifically, in the speech non-speech identification unit 106, when the power spectrum of the input speech signal is equal to or greater than the multiplication result of the first threshold value for determining speech and noise and the power spectrum of the input speech signal. That is, when Expression (20) is satisfied, the noise separation comb filter generation unit 2504 sets the filter value of the frequency component to “1”.
Figure 2006126859

また、音声非音声識別部106において、入力された音声信号のパワースペクトルが、音声とノイズを判別する第一閾値と、入力された音声信号のパワースペクトルとの乗算結果より小さい場合、すなわち、式(21)を満たす場合、雑音分離コムフィルタ生成部2504は、当該周波数成分のコムフィルタの値を「0」とする。ここで、θnosは、雑音分離に用いる閾値である。

Figure 2006126859
Further, in the speech non-speech identification unit 106, when the power spectrum of the input speech signal is smaller than the multiplication result of the first threshold value for distinguishing speech and noise and the power spectrum of the input speech signal, that is, the expression When (21) is satisfied, the noise separation comb filter generation unit 2504 sets the value of the comb filter of the frequency component to “0”. Here, θ nos is a threshold used for noise separation.
Figure 2006126859

また、雑音分離コムフィルタ生成部2504は、雑音コムフィルタリセット部2503からコムフィルタの全ての周波数通過域を阻止域に変換する指示を受け取った場合、指示に従いコムフィルタの全ての周波数通過域を阻止域に変換する。   In addition, when the noise separation comb filter generation unit 2504 receives an instruction from the noise comb filter reset unit 2503 to convert all frequency passbands of the comb filter into a stopband, the noise separation comb filter generation unit 2504 blocks all the frequency passbands of the comb filter according to the instruction. Convert to area.

このように、本実施の形態の音声処理装置によれば、入力音声信号のフレームが音声を含まず、雑音成分のみと判断した場合、コムフィルタの全ての周波数通過域を阻止域に変換することにより、音声を含まない信号区間でノイズを全帯域でカットすることができ、良好な雑音分離特性が得られる。   As described above, according to the speech processing device of the present embodiment, when it is determined that the frame of the input speech signal does not include speech and is only a noise component, all frequency passbands of the comb filter are converted into stopbands. Thus, noise can be cut in the entire band in a signal section that does not include speech, and good noise separation characteristics can be obtained.

(実施の形態15)
図26は、実施の形態15にかかる音声処理装置の構成の例を示すブロック図である。但し、図1及び図24と共通する構成については図1及び図24と同一番号を付し、詳しい説明を省略する。図26の音声処理装置は、平均値計算部2601を具備し、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求める点が、図1及び図24の音声処理装置と異なる。
(Embodiment 15)
FIG. 26 is a block diagram of an example of the configuration of the speech processing apparatus according to the fifteenth embodiment. However, the same components as those in FIGS. 1 and 24 are denoted by the same reference numerals as those in FIGS. 1 and 24, and detailed description thereof is omitted. The speech processing apparatus of FIG. 26 includes an average value calculation unit 2601 and obtains the power average value of the speech spectrum in each frequency component or the power average value of the frame processed in the past and the frame processed. 1 and the speech processing apparatus of FIG.

平均値計算部2601は、乗算部2403から出力された音声スペクトルのパワについて、近辺の周波数成分との平均値及び過去に処理したフレームとの平均値をとり、得られた平均値を雑音周波数合成部2404に出力する。具体的には、以下に示す式(6)を用いて音声スペクトルの平均値を算出する。

Figure 2006126859
The average value calculation unit 2601 takes the average value of the power of the speech spectrum output from the multiplication unit 2403 with the frequency components in the vicinity and the average value of the frames processed in the past, and uses the obtained average value for noise frequency synthesis. The data is output to the unit 2404. Specifically, the average value of the speech spectrum is calculated using the following formula (6).
Figure 2006126859

ここで、k1、k2は周波数成分を示し、k1<k<k2である。n1は過去に処理を行ったフレームを示す番号、nは処理を行うフレームを示す番号を示す。   Here, k1 and k2 indicate frequency components, and k1 <k <k2. n1 indicates a number indicating a frame that has been processed in the past, and n indicates a number indicating a frame that has been processed.

このように、本発明の実施の形態15に係る音声処理装置によれば、各周波数成分における音声スペクトルのパワ平均値又は過去に処理を行ったフレームと処理を行うフレームのパワ平均値を求めることにより、突発性雑音成分の影響は小さくなる。   As described above, according to the speech processing apparatus according to the fifteenth embodiment of the present invention, the average power value of the speech spectrum in each frequency component or the average power value of the frame that has been processed in the past and the frame that has been processed is obtained. Thus, the influence of the sudden noise component is reduced.

(実施の形態16)
図27は、実施の形態16にかかる音声処理装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。図27の音声処理装置は、図11の音声処理装置と図24の音声処理装置を組み合わせて、音声強調と雑音抽出とを行う例である。
(Embodiment 16)
FIG. 27 is a block diagram of an example of the configuration of the speech processing apparatus according to the sixteenth embodiment. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG. The voice processing apparatus of FIG. 27 is an example in which voice enhancement and noise extraction are performed by combining the voice processing apparatus of FIG. 11 and the voice processing apparatus of FIG.

図27において、周波数分割部104は、FFT部103から出力された音声スペクトルを周波数成分に分割して、各周波数成分毎に音声スペクトルをノイズベース推定部1101、第一音声非音声識別部1102、第二音声非音声識別部1103、音声ピッチ推定部1104、乗算部2403、及び第三音声非音声識別部2701に出力する。   In FIG. 27, the frequency dividing unit 104 divides the audio spectrum output from the FFT unit 103 into frequency components, and converts the audio spectrum for each frequency component into a noise-based estimation unit 1101, a first audio non-speech identification unit 1102, The data is output to the second voice / non-voice identification unit 1103, the voice pitch estimation unit 1104, the multiplication unit 2403, and the third voice / non-voice identification unit 2701.

ノイズベース推定部1101は、第一音声非音声識別部1102からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第一音声非音声識別部1102に出力する。また、ノイズベース推定部1101は、第二音声非音声識別部1103からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第二音声非音声識別部1103に出力する。同様に、ノイズベース推定部1101は、第三音声非音声識別部2701からフレームに音声成分が含まれている判定結果が出力された場合、過去に推定したノイズベースを第三音声非音声識別部2701に出力する。   When the determination result that the speech component is included in the frame is output from the first speech non-speech identification unit 1102, the noise base estimation unit 1101 outputs the noise base estimated in the past to the first speech non-speech discrimination unit 1102. To do. Further, when the determination result that the speech component is included in the frame is output from the second speech non-speech identification unit 1103, the noise base estimation unit 1101 determines the noise base estimated in the past as the second speech non-speech discrimination unit 1103. Output to. Similarly, when the determination result that the speech component is included in the frame is output from the third speech non-speech discrimination unit 2701, the noise base estimation unit 1101 determines the noise base estimated in the past as the third speech non-speech discrimination unit. 2701 is output.

また、ノイズベース推定部1101は、第一音声非音声識別部1102、第二音声非音声識別部1103、または第三音声非音声識別部2701からフレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワースペクトルとスペクトルの変化の平均量を表す移動平均値を算出して、過去に算出した移動平均値とパワースペクトルの加重平均値をとり、新しい移動平均値を算出する。   In addition, the noise base estimation unit 1101 outputs a determination result that the frame does not include a voice component from the first voice non-voice identification unit 1102, the second voice non-speech discrimination unit 1103, or the third voice non-speech discrimination unit 2701. If it is, the moving average value representing the average amount of the short-time power spectrum and the spectrum change for each frequency component of the speech spectrum output from the frequency division unit 104 is calculated, and the moving average value and the power spectrum calculated in the past are calculated. Is used to calculate a new moving average value.

第一音声非音声識別部1102は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第一閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。第一音声非音声識別部1102では、第一コムフィルタ生成部1105が音声ピッチ情報を出来る限り多く抽出するフィルタを生成するために、第一閾値を後述する第二音声非音声識別部1103が用いる第二閾値より低い値に設定する。   When the difference between the speech spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 1101 is equal to or greater than a predetermined first threshold, the first speech non-speech identification unit 1102 In other cases, it is determined that the sound part is a silent part including only noise. In the first voice / non-voice identification unit 1102, the first threshold value is used by the second voice / non-voice identification unit 1103 to be described later in order to generate a filter from which the first comb filter generation unit 1105 extracts as much voice pitch information as possible. Set to a value lower than the second threshold.

そして、第一音声非音声識別部1102は、判定結果を第一コムフィルタ生成部1105に出力する。   Then, the first voice / non-voice identification unit 1102 outputs the determination result to the first comb filter generation unit 1105.

第二音声非音声識別部1103は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の第二閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第二音声非音声識別部1103は、判定結果を第二コムフィルタ生成部1106に出力する。   When the difference between the speech spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 1101 is equal to or greater than a predetermined second threshold, the second speech non-speech identification unit 1103 In other cases, it is determined that the sound part is a silent part including only noise. Then, the second voice / non-voice identification unit 1103 outputs the determination result to the second comb filter generation unit 1106.

第一コムフィルタ生成部1105は、各周波数成分における音声成分の有無に基づいてピッチ調波を強調する第一コムフィルタを生成してコムフィルタ修正部1108に出力する。   First comb filter generation section 1105 generates a first comb filter that emphasizes pitch harmonics based on the presence or absence of audio components in each frequency component, and outputs the first comb filter to comb filter correction section 1108.

音声ピッチ推定部1104は、周波数分割部104から出力された音声スペクトルから音声ピッチ周期を推定し、推定結果を音声ピッチ修復部1107に出力する。音声ピッチ修復部1107は、音声ピッチ推定部1104から出力された推定結果に基づいて第二コムフィルタの修正を行い、コムフィルタ修正部1108に出力する。   The voice pitch estimation unit 1104 estimates the voice pitch period from the voice spectrum output from the frequency division unit 104 and outputs the estimation result to the voice pitch restoration unit 1107. The voice pitch restoration unit 1107 corrects the second comb filter based on the estimation result output from the voice pitch estimation unit 1104 and outputs the result to the comb filter correction unit 1108.

コムフィルタ修正部1108は、音声ピッチ修復部1107において生成されたピッチ修復コムフィルタを用いて第一コムフィルタ生成部1105において生成された第一コムフィルタを修正し、修正したコムフィルタを音声分離係数計算部1109に出力する。   The comb filter correction unit 1108 corrects the first comb filter generated in the first comb filter generation unit 1105 using the pitch repair comb filter generated in the voice pitch repair unit 1107, and converts the corrected comb filter into a voice separation coefficient. The result is output to the calculation unit 1109.

音声分離係数計算部1109は、コムフィルタ修正部1108において修正されたコムフィルタに周波数特性に基づいた分離係数を乗算し、各周波数成分毎に入力信号の分離係数を算出して乗算部109に出力する。乗算部109は、周波数分割部104から出力された音声スペクトルに音声分離係数計算部1109から出力された減衰係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを周波数合成部110に出力する。   The speech separation coefficient calculation unit 1109 multiplies the comb filter modified by the comb filter modification unit 1108 by a separation coefficient based on the frequency characteristics, calculates a separation coefficient of the input signal for each frequency component, and outputs it to the multiplication unit 109. To do. The multiplication unit 109 multiplies the speech spectrum output from the frequency division unit 104 by the attenuation coefficient output from the speech separation coefficient calculation unit 1109 in units of frequency components. Then, the spectrum obtained as a result of multiplication is output to frequency synthesizer 110.

第三音声非音声識別部2701は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部1101から出力されるノイズベースの値の差が所定の閾値以上である場合、雑音成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。そして、第三音声非音声識別部2701は、判定結果をノイズベース推定部1101と雑音分離コムフィルタ生成部2401に出力する。   The third speech non-speech identification unit 2701 includes a noise component when the difference between the speech spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 1101 is equal to or greater than a predetermined threshold. It is determined as a voiced portion, and in other cases, it is determined as a silent portion of only noise that does not include a voice component. Then, the third speech non-speech identification unit 2701 outputs the determination result to the noise base estimation unit 1101 and the noise separation comb filter generation unit 2401.

雑音分離コムフィルタ生成部2401は、各周波数成分における音声成分の有無に基づいて音声ピッチを強調するコムフィルタを生成して、このコムフィルタを雑音分離係数計算部2402に出力する。雑音分離係数計算部2402は、雑音分離コムフィルタ生成部2401において生成されたコムフィルタに、周波数特性に基づいた減衰係数を乗算して、各周波数成分毎に入力信号の減衰係数の設定を行い、各周波数成分の減衰係数を乗算部2403に出力する。   The noise separation comb filter generation unit 2401 generates a comb filter that emphasizes the voice pitch based on the presence or absence of a voice component in each frequency component, and outputs this comb filter to the noise separation coefficient calculation unit 2402. The noise separation coefficient calculation unit 2402 multiplies the comb filter generated by the noise separation comb filter generation unit 2401 by an attenuation coefficient based on frequency characteristics, and sets the attenuation coefficient of the input signal for each frequency component. The attenuation coefficient of each frequency component is output to multiplication section 2403.

乗算部2403は、周波数分割部104から出力された音声スペクトルに雑音分離係数計算部2402から出力された雑音分離係数を周波数成分単位で乗算する。そして、乗算の結果得られたスペクトルを雑音周波数合成部2404に出力する。雑音周波数合成部2404は、乗算部2403から出力された周波数成分単位のスペクトルを所定の処理時間単位で、周波数領域で連続する音声スペクトルに合成してIFFT部2702に出力する。   The multiplier 2403 multiplies the speech spectrum output from the frequency divider 104 by the noise separation coefficient output from the noise separation coefficient calculator 2402 in units of frequency components. Then, the spectrum obtained as a result of multiplication is output to noise frequency synthesis section 2404. The noise frequency synthesis unit 2404 synthesizes the spectrum of the frequency component unit output from the multiplication unit 2403 into a speech spectrum continuous in the frequency domain in a predetermined processing time unit, and outputs the synthesized speech spectrum to the IFFT unit 2702.

IFFT部2702は、雑音周波数合成部2404から出力された音声スペクトルにIFFTを行って音声信号に変換した信号を出力する。   IFFT unit 2702 performs IFFT on the audio spectrum output from noise frequency synthesis unit 2404 and outputs a signal converted into an audio signal.

このように、本実施の形態の音声処理装置によれば、周波数成分単位でスペクトル信号の音声非音声を判別して、周波数成分単位で判別結果に基づいた周波数特性の減衰を行うことにより、正確なピッチ情報を得ることができるので、大きな減衰で雑音抑圧を行っても音声歪の少ない音声強調を行うことができる。また、同時に雑音抽出を行うこともできる。   As described above, according to the speech processing apparatus of the present embodiment, it is possible to accurately discriminate the speech non-speech of the spectrum signal in units of frequency components and perform attenuation of the frequency characteristics based on the discrimination results in units of frequency components. Therefore, even if noise suppression is performed with a large attenuation, it is possible to perform speech enhancement with little speech distortion. At the same time, noise extraction can be performed.

なお、本発明の音声処理装置は、実施の形態16の音声処理装置の例に限らず、上記各実施の形態は、それぞれ組み合わせて適用することができる。   Note that the sound processing apparatus of the present invention is not limited to the example of the sound processing apparatus of the sixteenth embodiment, and each of the above embodiments can be applied in combination.

また、上記いずれかの実施の形態に係る音声強調及び雑音抽出は、音声処理装置として説明しているが、この音声強調及び雑音抽出をソフトウェアにより実現することもできる。例えば、上記音声強調及び雑音抽出を行うプログラムを予めROM(Read Only Memory)に格納しておき、そのプログラムをCPU(Central Processor Unit)によって動作するようにしてもよい。   In addition, although the speech enhancement and noise extraction according to any of the above embodiments has been described as a speech processing apparatus, this speech enhancement and noise extraction can also be realized by software. For example, a program for performing voice enhancement and noise extraction may be stored in advance in a ROM (Read Only Memory), and the program may be operated by a CPU (Central Processor Unit).

また、上記音声強調及び雑音抽出を行うプログラムをコンピュータ読み取り可能な記憶媒体に格納し、記憶媒体に格納されたプログラムをコンピュータのRAM(Random Access Memory)に記録して、コンピュータをそのプログラムに従って実行させてもよい。このような場合においても、上記実施の形態と同様の作用及び効果を呈する。   In addition, the program for performing speech enhancement and noise extraction is stored in a computer-readable storage medium, the program stored in the storage medium is recorded in a RAM (Random Access Memory) of the computer, and the computer is executed according to the program. May be. Even in such a case, the same operation and effect as the above-described embodiment are exhibited.

また、上記音声強調を行うプログラムをサーバに格納し、サーバに格納されたプログラムをクライアントに転送して、クライアント上でそのプログラムを実行させてもよい。このような場合においても、上記実施の形態と同様の作用及び効果を呈する。   Further, the program for performing speech enhancement may be stored in a server, the program stored in the server may be transferred to the client, and the program may be executed on the client. Even in such a case, the same operation and effect as the above-described embodiment are exhibited.

また、上記いずれかの実施の形態に係る音声処理装置は、無線通信装置、通信端末、基地局装置等に搭載することもできる。この結果、通信時の音声を音声強調または雑音抽出できる。   Further, the voice processing device according to any of the above embodiments can be mounted on a wireless communication device, a communication terminal, a base station device, or the like. As a result, voice during communication can be emphasized or extracted with noise.

本発明の実施の形態1に係る音声処理装置の構成を示すブロック図The block diagram which shows the structure of the speech processing unit which concerns on Embodiment 1 of this invention. 上記実施の形態における音声処理装置の動作を示すフロー図Flow chart showing the operation of the speech processing apparatus in the above embodiment 上記実施の形態における音声処理装置で作成されるコムフィルタの例を示す図The figure which shows the example of the comb filter produced with the speech processing unit in the said embodiment 実施の形態2にかかる音声処理装置の構成の例を示すブロック図FIG. 3 is a block diagram showing an example of the configuration of a speech processing apparatus according to the second embodiment. 実施の形態3にかかる音声処理装置の構成の例を示すブロック図FIG. 3 is a block diagram showing an example of the configuration of a speech processing apparatus according to a third embodiment. 実施の形態4にかかる音声処理装置の構成の例を示すブロック図FIG. 4 is a block diagram showing an example of the configuration of a speech processing apparatus according to a fourth embodiment. 実施の形態5にかかる音声処理装置の構成の例を示すブロック図FIG. 6 is a block diagram showing an example of the configuration of a speech processing apparatus according to a fifth embodiment. 実施の形態6にかかる音声処理装置の構成の例を示すブロック図FIG. 9 is a block diagram showing an example of the configuration of a speech processing apparatus according to a sixth embodiment. 上記実施の形態における音声処理装置におけるコムフィルタの修復の例を示す図The figure which shows the example of restoration | repair of the comb filter in the speech processing unit in the said embodiment 実施の形態7にかかる音声処理装置の構成の例を示すブロック図FIG. 7 is a block diagram showing an example of the configuration of a speech processing apparatus according to a seventh embodiment. 実施の形態8にかかる音声処理装置の構成の例を示すブロック図FIG. 9 is a block diagram showing an example of the configuration of a speech processing apparatus according to an eighth embodiment. コムフィルタの一例を示す図Diagram showing an example of a comb filter コムフィルタの一例を示す図Diagram showing an example of a comb filter コムフィルタの一例を示す図Diagram showing an example of a comb filter コムフィルタの一例を示す図Diagram showing an example of a comb filter コムフィルタの一例を示す図Diagram showing an example of a comb filter コムフィルタの一例を示す図Diagram showing an example of a comb filter コムフィルタの一例を示す図Diagram showing an example of a comb filter 実施の形態9にかかる音声処理装置の構成の例を示すブロックBlock showing an example of the configuration of a speech processing apparatus according to the ninth embodiment 本実施の形態の音声処理装置の音声雑音判断プログラムの一例を示す図The figure which shows an example of the audio | voice noise judgment program of the audio | voice processing apparatus of this Embodiment 実施の形態10にかかる音声処理装置の構成の例を示すブロック図FIG. 10 is a block diagram showing an example of the configuration of a speech processing apparatus according to the tenth embodiment. 実施の形態11にかかる音声処理装置の構成の例を示すブロック図FIG. 12 is a block diagram showing an example of the configuration of a speech processing apparatus according to an eleventh embodiment. 実施の形態12にかかる音声処理装置の構成の例を示すブロック図FIG. 12 is a block diagram showing an example of the configuration of a speech processing apparatus according to a twelfth embodiment. 実施の形態13にかかる音声処理装置の構成の例を示すブロック図FIG. 13 is a block diagram showing an example of the configuration of a speech processing apparatus according to a thirteenth embodiment. 実施の形態14にかかる音声処理装置の構成の例を示すブロック図FIG. 14 is a block diagram showing an example of the configuration of a speech processing apparatus according to a fourteenth embodiment. 実施の形態15にかかる音声処理装置の構成の例を示すブロック図FIG. 15 is a block diagram showing an example of the configuration of a speech processing apparatus according to a fifteenth embodiment. 実施の形態16にかかる音声処理装置の構成の例を示すブロック図FIG. 16 is a block diagram showing an example of the configuration of a speech processing apparatus according to a sixteenth embodiment. 従来のコムフィルタ法を用いた音声処理装置の例を示す図The figure which shows the example of the speech processing device using the conventional comb filter method コムフィルタの減衰特性を示す図Diagram showing attenuation characteristics of comb filter

符号の説明Explanation of symbols

104 周波数分割部
105、1101 ノイズベース推定部
106 音声非音声識別部
107 コムフィルタ生成部
108 減衰係数計算部
109、2403 乗算部
110 周波数合成部
401 ノイズ区間判別部
402 ノイズベース追跡部
501 ミュジカルノイズ抑制部
502、1108 コムフィルタ修正部
601、2201、2601 平均値計算部
701 区間判別部
702、2301 コムフィルタリセット部
801 音声ピッチ周期推定部
802、1107 音声ピッチ修復部
1001 閾値自動調整部
1102 第一音声非音声識別部
1103 第二音声非音声識別部
1104、1903 音声ピッチ推定部
1105、2101 第一コムフィルタ生成部
1106、2103 第二コムフィルタ生成部
1109 音声分離係数計算部
1901、2501 SNR計算部
1902、2502 音声雑音フレーム検出部
2102 第一ミュジカルノイズ抑圧部
2104 第二ミュジカルノイズ抑圧部
2401 雑音分離コムフィルタ生成部
2402 雑音分離係数計算部
2404 雑音周波数合成部
2503 雑音コムフィルタリセット部
2504 雑音分離コムフィルタ生成部
2701 第三音声非音声識別部

104 frequency division unit 105, 1101 noise base estimation unit 106 speech non-speech identification unit 107 comb filter generation unit 108 attenuation coefficient calculation unit 109, 2403 multiplication unit 110 frequency synthesis unit 401 noise section discrimination unit 402 noise base tracking unit 501 musical noise suppression Unit 502, 1108 Comb filter correction unit 601, 2012, 2601 Average value calculation unit 701 Section discrimination unit 702, 2301 Com filter reset unit 801 Audio pitch period estimation unit 802, 1107 Audio pitch restoration unit 1001 Automatic threshold adjustment unit 1102 First audio Non-speech identification unit 1103 Second speech non-speech discrimination unit 1104, 1903 Speech pitch estimation unit 1105, 2101 First comb filter generation unit 1106, 2103 Second comb filter generation unit 1109 Speech separation coefficient calculation unit 1 901, 2501 SNR calculation unit 1902, 2502 Voice noise frame detection unit 2102 First musical noise suppression unit 2104 Second musical noise suppression unit 2401 Noise separation comb filter generation unit 2402 Noise separation coefficient calculation unit 2404 Noise frequency synthesis unit 2503 Noise comb filter Reset unit 2504 Noise separation comb filter generation unit 2701 Third voice non-voice identification unit

Claims (27)

入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、
前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手段と、
前記音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手段と、
周波数特性に基づいた減衰係数を前記コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備することを特徴とする音声処理装置。
Frequency dividing means for dividing the audio spectrum of the input signal in predetermined frequency domain units;
Voice / non-speech identification means for identifying whether or not a voice component is included in a divided voice spectrum that is a voice spectrum frequency-divided by the frequency division means;
A comb filter generating means for generating a comb filter having a frequency region including a voice component as a pass band and a frequency region not including a voice component as a stop band based on the identification result of the voice / non-voice discrimination means;
Multiplying the comb filter by an attenuation coefficient based on a frequency characteristic sets an attenuation coefficient for each frequency domain, and multiplying each divided speech spectrum by the attenuation coefficient of the corresponding frequency domain results in the divided speech spectrum Noise suppression means for suppressing noise components of
And a frequency synthesizer for synthesizing the divided speech spectrum in which the noise component is suppressed into a speech spectrum continuous in the frequency domain.
音声/非音声識別手段は、前記分割音声スペクトルのパワと雑音成分のスペクトルであるノイズベースのパワとの差分値が所定の閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断することを特徴とする請求項1に記載の音声処理装置。   The speech / non-speech identification unit may include a speech component included in the divided speech spectrum when a difference value between the power of the divided speech spectrum and a noise-based power that is a spectrum of the noise component is larger than a predetermined threshold. The speech processing apparatus according to claim 1, wherein when the difference value is equal to or less than the threshold value, it is determined that a speech component is not included in the divided speech spectrum. 前記分割音声スペクトルのパワの平均値をとる平均値計算手段を具備し、音声/非音声識別手段は、前記分割音声スペクトルのパワの平均値と雑音成分のスペクトルであるノイズベースのパワとの差分値が所定の閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断することを特徴とする請求項2に記載の音声処理装置。   Mean value calculating means for taking an average value of the power of the divided speech spectrum is provided, and the speech / non-speech identifying means is a difference between the average value of the power of the divided speech spectrum and a noise-based power that is a spectrum of a noise component. When the value is larger than a predetermined threshold value, it is determined that the divided sound spectrum includes a sound component, and when the difference value is equal to or less than the threshold value, it is determined that the divided sound spectrum does not include a sound component. The speech processing apparatus according to claim 2. 音声成分の含まれない周波数領域のノイズベースを、過去に推定したノイズベースの平均値と前記分割音声スペクトルのパワを加重平均した平均値に基づいて更新するノイズベース推定手段を具備することを特徴とする請求項1から請求項3のいずれかに記載の音声処理装置。   Noise base estimation means for updating a noise base in a frequency domain that does not include speech components based on a noise base average value estimated in the past and a weighted average value of the power of the divided speech spectrum is provided. The speech processing apparatus according to any one of claims 1 to 3. 雑音抑圧手段は、前記コムフィルタの阻止域における前記分割音声スペクトルに対して減衰を行うことを特徴とする請求項1から請求項4のいずれかに記載の音声処理装置。   5. The speech processing apparatus according to claim 1, wherein the noise suppression unit attenuates the divided speech spectrum in a stop band of the comb filter. 音声ピッチ周波数を推定するピッチ周波数推定手段と、前記音声ピッチ周波数及び前記分割音声スペクトルに基づいて前記コムフィルタのピッチ調波の幅を修正するピッチ修正手段と、を具備し、前記雑音抑圧手段は、前記ピッチ調波の幅が修正されたコムフィルタを用いて前記分割音声スペクトルの雑音成分を抑圧することを特徴とする請求項1から請求項5のいずれかに記載の音声処理装置。   A pitch frequency estimating means for estimating a voice pitch frequency; and a pitch correcting means for correcting a pitch harmonic width of the comb filter based on the voice pitch frequency and the divided voice spectrum, and the noise suppressing means 6. The speech processing apparatus according to claim 1, wherein a noise component of the divided speech spectrum is suppressed using a comb filter in which the pitch harmonic width is corrected. 前記コムフィルタの通過域における周波数成分の数が所定の数より大きい場合には前記閾値を大きくし、前記コムフィルタの通過域における周波数成分の数が前記所定の数以下の場合には前記閾値を小さくする閾値調整手段を具備することを特徴とする請求項2又は請求項3記載の音声処理装置。   The threshold is increased when the number of frequency components in the pass band of the comb filter is greater than a predetermined number, and the threshold is increased when the number of frequency components in the pass band of the comb filter is less than or equal to the predetermined number. 4. The voice processing apparatus according to claim 2, further comprising a threshold adjustment unit for reducing the threshold value. 入力信号の音声スペクトルが音声を含むか否かを判断する区間判別手段と、前記区間判別手段にて音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、前記コムフィルタを全て阻止域にするコムフィルタリセット手段と、を具備することを特徴とする請求項1から請求項7のいずれかに記載の音声処理装置。   An interval discriminating unit that determines whether or not the audio spectrum of the input signal includes speech, and when the interval discriminating unit determines that the audio spectrum includes only a noise component that does not include an audio component, The voice processing apparatus according to claim 1, further comprising: a comb filter resetting unit. 前記コムフィルタの通過域における周波数成分の数が所定の数以下である場合、前記コムフィルタを全て阻止域にするミュジカルノイズ抑圧手段を具備することを特徴とする請求項1から請求項8のいずれかに記載の音声処理装置。   9. The method according to claim 1, further comprising a musical noise suppression unit that sets all of the comb filters to a stop band when the number of frequency components in the pass band of the comb filter is equal to or less than a predetermined number. A voice processing apparatus according to claim 1. 入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、
前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する第一音声/非音声識別手段と、
前記第一音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とする第一コムフィルタを生成する第一コムフィルタ生成手段と、
前記第一音声/非音声識別手段と異なる条件で前記分割音声スペクトルに音声成分が含まれているか否か識別する第二音声/非音声識別手段と、
前記第二音声/非音声識別手段の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とする第二コムフィルタを生成する第二コムフィルタ生成手段と、
前記分割音声スペクトルから入力音声信号のピッチ周波数を推定する音声ピッチ推定手段と、
前記音声ピッチ推定手段において推定されたピッチ周波数に基づいて前記第二コムフィルタのピッチ調波の幅を修復してピッチ修復コムフィルタを生成する音声ピッチ修復手段と、
前記ピッチ修復コムフィルタに基づいて前記第一コムフィルタの修正を行い、修正コムフィルタを生成するコムフィルタ修正手段と、
周波数特性に基づいた減衰係数を前記修正コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手段と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備することを特徴とする音声処理装置。
Frequency dividing means for dividing the audio spectrum of the input signal in predetermined frequency domain units;
First voice / non-voice identification means for identifying whether or not a voice component is included in a divided voice spectrum that is a voice spectrum frequency-divided by the frequency division means;
Based on the identification result of the first speech / non-speech discrimination means, a first comb filter is generated which uses a frequency region including a speech component as a pass region and a frequency region not including a speech component as a stop region. A comb filter generating means;
Second voice / non-voice identification means for identifying whether or not a voice component is included in the divided voice spectrum under different conditions from the first voice / non-voice identification means;
A second comb filter that generates a second comb filter having a frequency region including a voice component as a pass band and a frequency region not including a voice component as a stop band based on the identification result of the second voice / non-voice discrimination unit. A comb filter generating means;
Voice pitch estimation means for estimating a pitch frequency of an input voice signal from the divided voice spectrum;
Voice pitch repairing means for repairing the pitch harmonic width of the second comb filter based on the pitch frequency estimated by the voice pitch estimation means and generating a pitch repair comb filter;
Comb filter correcting means for correcting the first comb filter based on the pitch repair comb filter and generating a corrected comb filter;
Multiplying the modified comb filter by an attenuation coefficient based on a frequency characteristic sets an attenuation coefficient for each frequency domain, and multiplying each of the divided audio spectrums by the attenuation coefficient of the corresponding frequency domain Noise suppression means for suppressing noise components of the spectrum;
And a frequency synthesizer for synthesizing the divided speech spectrum in which the noise component is suppressed into a speech spectrum continuous in a frequency domain.
前記第一音声/非音声識別手段は、前記分割音声スペクトルのパワと雑音成分のスペクトルであるノイズベースのパワとの差分値が所定の第一閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記第一閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断し、
前記第二音声/非音声識別手段は、前記分割音声スペクトルのパワとノイズベースのパワとの差分値が前記第一閾値より大きい第二閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記第二閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断することを特徴とする請求項10に記載の音声処理装置。
The first speech / non-speech identification unit is configured to generate a speech component in the divided speech spectrum when a difference value between the power of the divided speech spectrum and a noise-based power that is a spectrum of a noise component is larger than a predetermined first threshold. It is determined that it is included, and when the difference value is equal to or less than the first threshold value, it is determined that a voice component is not included in the divided voice spectrum,
The second speech / non-speech identification means includes a speech component in the divided speech spectrum when a difference value between the power of the divided speech spectrum and the noise-based power is greater than a second threshold value that is greater than the first threshold value. The speech processing apparatus according to claim 10, wherein when the difference value is equal to or smaller than the second threshold value, it is determined that a speech component is not included in the divided speech spectrum.
前記分割音声スペクトルのパワの平均値をとる平均値計算手段を具備し、前記第二音声/非音声識別手段は、前記分割音声スペクトルのパワの平均値と雑音成分のスペクトルであるノイズベースのパワとの差分値が前記第二閾値より大きい場合に前記分割音声スペクトルに音声成分が含まれていると判断し、前記差分値が前記第二閾値以下の場合に前記分割音声スペクトルに音声成分が含まれていないと判断することを特徴とする請求項11に記載の音声処理装置。   The second speech / non-speech discrimination means includes an average value calculating means for taking an average value of the power of the divided speech spectrum, and the second speech / non-speech discrimination means is a noise-based power that is a spectrum of an average value of the divided speech spectrum and a noise component. When the difference value is greater than the second threshold, it is determined that the divided sound spectrum includes a sound component, and when the difference value is equal to or smaller than the second threshold, the sound component is included in the divided sound spectrum. The speech processing apparatus according to claim 11, wherein it is determined that the voice processing has not been performed. 前記分割音声スペクトルのパワと前記第一または第二コムフィルタとから音声対雑音の比を算出するSNR算出手段と、前記音声対雑音の比に基づいて音声フレームか雑音フレームかを検出する音声/雑音フレーム検出手段と、を具備し、音声ピッチ推定手段は、前記音声/雑音フレーム検出手段において音声フレームと判定された場合、前記ピッチ周波数を推定することを特徴とする請求項10から請求項12のいずれかに記載の音声処理装置。   SNR calculating means for calculating a voice-to-noise ratio from the power of the divided voice spectrum and the first or second comb filter, and a voice / noise frame for detecting a voice frame or a noise frame based on the voice-to-noise ratio. 13. A noise frame detection unit, wherein the voice pitch estimation unit estimates the pitch frequency when the voice / noise frame detection unit determines that the voice frame is detected. The speech processing apparatus according to any one of the above. 前記音声/雑音フレーム検出手段において雑音フレームと判定された場合、前記修正コムフィルタを全て阻止域にするコムフィルタリセット手段を具備することを特徴とする請求項13記載の音声処理装置。   14. The speech processing apparatus according to claim 13, further comprising comb filter resetting means for setting all of the modified comb filters to a stop band when the speech / noise frame detecting means determines that the frame is a noise frame. コムフィルタ修正手段は、前記第一コムフィルタの通過域の周波数成分の中で前記ピッチ修復コムフィルタの通過域の周波数成分と重複している周波数成分を前記修正コムフィルタの通過域とし、この通過域以外の周波数領域を前記修正コムフィルタの阻止域とすることを特徴とする請求項10から請求項14のいずれかに記載の音声処理装置。   The comb filter correcting means sets a frequency component that overlaps with a frequency component in the pass band of the pitch repair comb filter among frequency components in the pass band of the first comb filter as a pass band of the corrected comb filter. The speech processing apparatus according to any one of claims 10 to 14, wherein a frequency region other than a frequency region is set as a stop region of the modified comb filter. 前記第一コムフィルタの通過域における周波数成分の数が所定の数以下である場合、前記第一コムフィルタを全て阻止域にする第一ミュジカルノイズ抑圧手段と、
前記第二コムフィルタの通過域における周波数成分の数が所定の数以下である場合、前記第二コムフィルタを全て阻止域とする第二ミュジカルノイズ抑圧手段と、を具備することを特徴とする請求項10から請求項15のいずれかに記載の音声処理装置。
When the number of frequency components in the pass band of the first comb filter is equal to or less than a predetermined number, first musical noise suppression means that makes all the first comb filter a stop band,
And a second musical noise suppression unit that uses the second comb filter as a stop band when the number of frequency components in the pass band of the second comb filter is a predetermined number or less. The voice processing device according to any one of claims 10 to 15.
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手段と、
前記周波数分割手段にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手段と、
前記分割音声スペクトルのパワが雑音成分のスペクトルであるノイズベースのパワと所定の閾値との乗算結果より大きい場合に当該周波数領域を通過域とし、前記分割音声スペクトルのパワが前記乗算結果以下の場合に当該周波数領域を阻止域とする雑音分離コムフィルタを生成するコムフィルタ生成手段と、
周波数特性に基づいた減衰係数を前記雑音分離コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抽出する雑音分離係数計算手段と、
前記雑音成分が抽出された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手段と、を具備することを特徴とする音声処理装置。
Frequency dividing means for dividing the audio spectrum of the input signal in predetermined frequency domain units;
Voice / non-speech identification means for identifying whether or not a voice component is included in a divided voice spectrum that is a voice spectrum frequency-divided by the frequency division means;
When the power of the divided speech spectrum is larger than the multiplication result of the noise-based power that is the spectrum of the noise component and a predetermined threshold, the frequency region is set as a passband, and the power of the divided speech spectrum is less than or equal to the multiplication result A comb filter generating means for generating a noise separation comb filter having the frequency region as a stop band;
The noise separation comb filter is multiplied by an attenuation coefficient based on frequency characteristics to set an attenuation coefficient for each frequency domain, and the divided speech spectrum is multiplied by the corresponding frequency domain attenuation coefficient to perform the division. A noise separation coefficient calculating means for extracting a noise component of the speech spectrum;
A speech processing apparatus comprising: frequency synthesis means for synthesizing the divided speech spectrum from which the noise component has been extracted into a speech spectrum continuous in the frequency domain.
前記雑音分離係数計算手段は、前記コムフィルタの通過域においてノイズベースの推定値と乱数を乗算して前記雑音成分を抽出することを特徴とする請求項17に記載の音声処理装置。   18. The speech processing apparatus according to claim 17, wherein the noise separation coefficient calculation unit extracts the noise component by multiplying a noise-based estimated value by a random number in a pass band of the comb filter. 前記分割音声スペクトルのパワと前記第一または第二コムフィルタとから音声対雑音の比を算出するSNR算出手段と、前記音声対雑音の比に基づいて音声フレームか雑音フレームかを検出する音声/雑音フレーム検出手段と、前記音声/雑音フレーム検出手段にて音声スペクトルが音声成分を含まないノイズ成分のみと判断された場合、前記雑音分離コムフィルタを全て阻止域にするコムフィルタリセット手段と、を具備することを特徴とする請求項17又は請求項18に記載の音声処理装置。   SNR calculating means for calculating a voice-to-noise ratio from the power of the divided voice spectrum and the first or second comb filter, and a voice / noise frame for detecting a voice frame or a noise frame based on the voice-to-noise ratio. A noise frame detection unit; and a comb filter reset unit that sets the noise separation comb filter to a stop band when the voice / noise frame detection unit determines that the voice spectrum includes only a noise component that does not include a voice component. The speech processing apparatus according to claim 17 or 18, further comprising: 前記雑音分離コムフィルタを用いた音声処理後の分割音声スペクトルの周波数平均及び時間平均を算出するスペクトル平均手段を具備することを特徴とする請求項17又は請求項18に記載の音声処理装置。   19. The speech processing apparatus according to claim 17, further comprising spectrum averaging means for calculating a frequency average and a time average of a divided speech spectrum after speech processing using the noise separation comb filter. 請求項1から請求項20のいずれかに記載の音声処理装置を有することを特徴とする無線通信装置。   A wireless communication apparatus comprising the voice processing apparatus according to any one of claims 1 to 20. 入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手順と、
前記周波数分割手順にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別手順と、
前記音声/非音声識別手順の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成するコムフィルタ生成手順と、
周波数特性に基づいた減衰係数を前記コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手順と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手順と、を含む音声処理プログラム。
A frequency division procedure for dividing the audio spectrum of the input signal in predetermined frequency domain units;
A voice / non-voice identification procedure for identifying whether or not a voice component is included in a divided voice spectrum that is a voice spectrum frequency-divided in the frequency division procedure;
A comb filter generation procedure for generating a comb filter based on the identification result of the speech / non-speech identification procedure, with a frequency region including a speech component as a passband and a frequency region including no speech component as a stopband;
Multiplying the comb filter by an attenuation coefficient based on a frequency characteristic sets an attenuation coefficient for each frequency domain, and multiplying each divided speech spectrum by the attenuation coefficient of the corresponding frequency domain results in the divided speech spectrum A noise suppression procedure for suppressing noise components of
And a frequency synthesis procedure for synthesizing the divided speech spectrum in which the noise component is suppressed into a speech spectrum continuous in the frequency domain.
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割手順と、
前記周波数分割手順にて周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する第一音声/非音声識別手順と、
前記第一音声/非音声識別手順の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とするコムフィルタを生成する第一コムフィルタ生成手順と、
前記第一音声/非音声識別手順と異なる条件で前記分割音声スペクトルに音声成分が含まれているか否か識別する第二音声/非音声識別手順と、
前記第二音声/非音声識別手順の識別結果に基づいて音声成分の含まれる周波数領域を通過域とし、音声成分の含まれていない周波数領域を阻止域とする第二コムフィルタを生成する第二コムフィルタ生成手順と、
前記分割音声スペクトルから入力音声信号のピッチ周波数を推定する音声ピッチ推定手順と、
前記音声ピッチ推定手順において推定されたピッチ周波数に基づいて前記第二コムフィルタのピッチ調波の幅を修復してピッチ修復コムフィルタを生成する音声ピッチ修復手順と、
前記ピッチ修復コムフィルタに基づいて前記第一コムフィルタの修正を行い、修正コムフィルタを生成するコムフィルタ修正手順と、
周波数特性に基づいた減衰係数を前記修正コムフィルタに乗算することにより前記周波数領域毎の減衰係数を設定し、前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧手順と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成手順と、を含む音声処理プログラム。
A frequency division procedure for dividing the audio spectrum of the input signal in predetermined frequency domain units;
A first voice / non-voice identification procedure for identifying whether or not a voice component is included in a divided voice spectrum that is a voice spectrum frequency-divided in the frequency division procedure;
A first comb filter that generates a comb filter based on the identification result of the first speech / non-speech identification procedure, having a frequency region including a speech component as a pass region and a frequency region not including a speech component as a stop region. Generation procedure,
A second voice / non-voice identification procedure for identifying whether or not a voice component is included in the divided voice spectrum under different conditions from the first voice / non-voice identification procedure;
A second comb filter is generated based on the identification result of the second speech / non-speech identification procedure, with a frequency region including a speech component as a pass region and a frequency region not including a speech component as a stop region. Com filter generation procedure,
A voice pitch estimation procedure for estimating a pitch frequency of an input voice signal from the divided voice spectrum;
A voice pitch restoration procedure for generating a pitch restoration comb filter by restoring a pitch harmonic width of the second comb filter based on the pitch frequency estimated in the voice pitch estimation procedure;
A comb filter modification procedure for modifying the first comb filter based on the pitch repair comb filter and generating a modified comb filter;
Multiplying the modified comb filter by an attenuation coefficient based on a frequency characteristic sets an attenuation coefficient for each frequency domain, and multiplying each of the divided audio spectrums by the attenuation coefficient of the corresponding frequency domain A noise suppression procedure to suppress the noise component of the spectrum;
And a frequency synthesis procedure for synthesizing the divided speech spectrum in which the noise component is suppressed into a speech spectrum continuous in the frequency domain.
請求項22記載の音声処理プログラムを記録し、要求に応じて前記音声処理プログラムを要求元に転送することを特徴とするサーバ。   23. A server that records the voice processing program according to claim 22, and transfers the voice processing program to a request source in response to a request. 請求項23記載の音声処理プログラムを記録し、要求に応じて前記音声処理プログラムを要求元に転送することを特徴とするサーバ。   24. A server that records the voice processing program according to claim 23 and transfers the voice processing program to a request source in response to a request. 入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、
前記周波数分割された音声スペクトルである分割音声スペクトルに音声成分が含まれているか否か識別する音声/非音声識別工程と、
音声成分の含まれる周波数領域を強調するピッチ調波構造を生成するピッチ調波構造生成工程と、
周波数特性に基づいた減衰係数を前記ピッチ調波構造に乗算することにより前記周波数領域毎の減衰係数を設定する減衰係数設定工程と、
前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備することを特徴とする音声処理方法。
A frequency division step of dividing the audio spectrum of the input signal by a predetermined frequency domain unit;
A voice / non-voice identification step for identifying whether or not a voice component is included in the divided voice spectrum, which is the frequency-divided voice spectrum;
A pitch harmonic structure generation step for generating a pitch harmonic structure that emphasizes a frequency region including a speech component;
An attenuation coefficient setting step for setting an attenuation coefficient for each frequency region by multiplying the pitch harmonic structure by an attenuation coefficient based on a frequency characteristic;
A noise suppression step of suppressing a noise component of the divided speech spectrum by multiplying each of the divided speech spectra by the attenuation coefficient of the corresponding frequency domain;
And a frequency synthesis step of synthesizing the divided speech spectrum in which the noise component is suppressed into a speech spectrum continuous in a frequency domain.
入力信号の音声スペクトルを所定の周波数領域単位で分割する周波数分割工程と、
前記周波数分割された音声スペクトルである分割音声スペクトルのパワと雑音成分のスペクトルであるノイズベースのパワとの差分値を算出する差分値算出工程と、
前記差分値が所定の第一閾値より大きい分割音声スペクトルに音声成分が含まれていると識別する第一音声/非音声識別工程と、
前記第一音声/非音声識別工程にて音声成分が含まれると識別された周波数領域を強調する第一ピッチ調波構造を生成する第一ピッチ調波構造生成工程と、
前記差分値が前記第一閾値より大きい第二閾値より大きい分割音声スペクトルに音声成分が含まれていると識別する第二音声/非音声識別工程と、
前記第二音声/非音声識別工程にて音声成分が含まれると識別された周波数領域を強調する第二ピッチ調波構造を生成する第二ピッチ調波構造生成工程と、
前記分割音声スペクトルから入力音声信号のピッチ周波数を推定するピッチ周波数推定工程と、
前記第二ピッチ調波構造からピークの情報のみを抽出した第三ピッチ調波構造を生成する第三ピッチ調波構造生成工程と、
前記第三ピッチ調波構造の前記推定されたピッチ周波数に対応する部分にピークを挿入した第四ピッチ調波構造を生成する第四ピッチ調波構造生成工程と、
前記ピッチの値に応じて前記第四ピッチ調波構造のピークの幅を広げた第五ピッチ調波構造を生成する第五ピッチ調波構造生成工程と、
前記第一ピッチ調波構造と前記第五ピッチ調波構造の両方において強調される周波数領域のみを強調する第六ピッチ調波構造を生成する第六ピッチ調波構造生成工程と、
周波数特性に基づいた減衰係数を前記第六ピッチ調波構造に乗算することにより前記周波数領域毎の減衰係数を設定する減衰係数設定工程と、
前記各分割音声スペクトルに前記対応する周波数領域の減衰係数を乗算することにより前記分割音声スペクトルの雑音成分を抑圧する雑音抑圧工程と、
前記雑音成分が抑圧された分割音声スペクトルを周波数領域で連続した音声スペクトルに合成する周波数合成工程と、を具備することを特徴とする音声処理方法。
A frequency division step of dividing the audio spectrum of the input signal by a predetermined frequency domain unit;
A difference value calculating step of calculating a difference value between a power of a divided voice spectrum that is the frequency-divided voice spectrum and a noise-based power that is a spectrum of a noise component;
A first speech / non-speech identification step for identifying that a speech component is included in a divided speech spectrum in which the difference value is greater than a predetermined first threshold;
A first pitch harmonic structure generating step for generating a first pitch harmonic structure that emphasizes a frequency region identified as containing a voice component in the first voice / non-voice identification step;
A second speech / non-speech identification step for identifying that a speech component is included in a divided speech spectrum in which the difference value is greater than a second threshold greater than the first threshold;
A second pitch harmonic structure generating step for generating a second pitch harmonic structure that emphasizes the frequency region identified as including a voice component in the second voice / non-voice identification step;
A pitch frequency estimating step of estimating a pitch frequency of an input voice signal from the divided voice spectrum;
A third pitch harmonic structure generating step for generating a third pitch harmonic structure in which only peak information is extracted from the second pitch harmonic structure;
A fourth pitch harmonic structure generating step for generating a fourth pitch harmonic structure in which a peak is inserted in a portion corresponding to the estimated pitch frequency of the third pitch harmonic structure;
A fifth pitch harmonic structure generating step for generating a fifth pitch harmonic structure in which the peak width of the fourth pitch harmonic structure is widened according to the value of the pitch;
A sixth pitch harmonic structure generating step for generating a sixth pitch harmonic structure that emphasizes only a frequency region emphasized in both the first pitch harmonic structure and the fifth pitch harmonic structure;
An attenuation coefficient setting step for setting an attenuation coefficient for each frequency region by multiplying the sixth pitch harmonic structure by an attenuation coefficient based on a frequency characteristic;
A noise suppression step of suppressing a noise component of the divided speech spectrum by multiplying each of the divided speech spectra by the attenuation coefficient of the corresponding frequency domain;
And a frequency synthesis step of synthesizing the divided speech spectrum in which the noise component is suppressed into a speech spectrum continuous in a frequency domain.
JP2005351249A 2000-08-31 2005-12-05 Audio processing apparatus and audio processing method Expired - Lifetime JP4445460B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005351249A JP4445460B2 (en) 2000-08-31 2005-12-05 Audio processing apparatus and audio processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000264197 2000-08-31
JP2005351249A JP4445460B2 (en) 2000-08-31 2005-12-05 Audio processing apparatus and audio processing method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001259473A Division JP2002149200A (en) 2000-08-31 2001-08-29 Device and method for processing voice

Publications (3)

Publication Number Publication Date
JP2006126859A true JP2006126859A (en) 2006-05-18
JP2006126859A5 JP2006126859A5 (en) 2007-02-15
JP4445460B2 JP4445460B2 (en) 2010-04-07

Family

ID=36721589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005351249A Expired - Lifetime JP4445460B2 (en) 2000-08-31 2005-12-05 Audio processing apparatus and audio processing method

Country Status (1)

Country Link
JP (1) JP4445460B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242431A (en) * 2007-03-23 2008-10-09 Honda Research Inst Europe Gmbh Pitch extraction with inhibition of harmonic and sub-harmonic of fundamental frequency
US8515098B2 (en) 2008-10-24 2013-08-20 Yamaha Corporation Noise suppression device and noise suppression method
US10388264B2 (en) 2015-05-18 2019-08-20 JVC Kenwood Corporation Audio signal processing apparatus, audio signal processing method, and audio signal processing program
JP2019215514A (en) * 2018-06-11 2019-12-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Voice processing method, apparatus, device and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103718241B (en) 2011-11-02 2016-05-04 三菱电机株式会社 Noise-suppressing device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242431A (en) * 2007-03-23 2008-10-09 Honda Research Inst Europe Gmbh Pitch extraction with inhibition of harmonic and sub-harmonic of fundamental frequency
US8515098B2 (en) 2008-10-24 2013-08-20 Yamaha Corporation Noise suppression device and noise suppression method
US10388264B2 (en) 2015-05-18 2019-08-20 JVC Kenwood Corporation Audio signal processing apparatus, audio signal processing method, and audio signal processing program
JP2019215514A (en) * 2018-06-11 2019-12-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Voice processing method, apparatus, device and storage medium
US10839820B2 (en) 2018-06-11 2020-11-17 Baidu Online Network Technology (Beijing) Co., Ltd. Voice processing method, apparatus, device and storage medium

Also Published As

Publication number Publication date
JP4445460B2 (en) 2010-04-07

Similar Documents

Publication Publication Date Title
JP2002149200A (en) Device and method for processing voice
JP4440937B2 (en) Method and apparatus for improving speech in the presence of background noise
US8612222B2 (en) Signature noise removal
JP4173641B2 (en) Voice enhancement by gain limitation based on voice activity
US6415253B1 (en) Method and apparatus for enhancing noise-corrupted speech
US8150682B2 (en) Adaptive filter pitch extraction
WO2005124739A1 (en) Noise suppression device and noise suppression method
US8326621B2 (en) Repetitive transient noise removal
JP3960834B2 (en) Speech enhancement device and speech enhancement method
JP5752324B2 (en) Single channel suppression of impulsive interference in noisy speech signals.
JP6896881B2 (en) Devices and Methods for Determining Predetermined Characteristics for Spectral Enhancement Processing of Acoustic Signals
JP4445460B2 (en) Audio processing apparatus and audio processing method
KR20150032390A (en) Speech signal process apparatus and method for enhancing speech intelligibility
JP2006126859A5 (en)
CN114005457A (en) Single-channel speech enhancement method based on amplitude estimation and phase reconstruction
JP2004272292A (en) Sound signal processing method
US11183172B2 (en) Detection of fricatives in speech signals
JP2006201622A (en) Device and method for suppressing band-division type noise
EP1635331A1 (en) Method for estimating a signal to noise ratio
JP2002258899A (en) Method and device for suppressing noise
CN116057628A (en) Hum noise detection and removal for voice and music recordings
US10109291B2 (en) Noise suppression device, noise suppression method, and computer program product
Hendriks et al. Adaptive time segmentation of noisy speech for improved speech enhancement
Ogawa More robust J-RASTA processing using spectral subtraction and harmonic sieving
Aicha et al. Comparison of Three Methods of Eliminating Musical Tones in Speech Denoising Subtractive Techniques

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100115

R150 Certificate of patent or registration of utility model

Ref document number: 4445460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term