JP2014102318A - Noise elimination device, noise elimination method, and program - Google Patents
Noise elimination device, noise elimination method, and program Download PDFInfo
- Publication number
- JP2014102318A JP2014102318A JP2012253013A JP2012253013A JP2014102318A JP 2014102318 A JP2014102318 A JP 2014102318A JP 2012253013 A JP2012253013 A JP 2012253013A JP 2012253013 A JP2012253013 A JP 2012253013A JP 2014102318 A JP2014102318 A JP 2014102318A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- audio signal
- subtraction
- frequency domain
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、雑音除去装置、雑音除去方法、及びプログラムに関するものである。 The present invention relates to a noise removal device, a noise removal method, and a program.
特許文献1には、スペクトルサブトラクション(SS)法を利用した方法が開示されている。一般にSS法では、無音区間の音声信号から雑音信号を推定して、音声信号から雑音信号を除去している。具体的には、雑音を含む音声信号の周波数スペクトルから雑音信号の周波数スペクトルを減算する。特許文献1の方法は、予め複数通りの雑音モデルを用意し、その中から選択したモデルの周波数スペクトルを減算するというものである。 Patent Document 1 discloses a method using a spectral subtraction (SS) method. In general, in the SS method, a noise signal is estimated from a sound signal in a silent section, and the noise signal is removed from the sound signal. Specifically, the frequency spectrum of the noise signal is subtracted from the frequency spectrum of the voice signal including noise. The method of Patent Document 1 is to prepare a plurality of noise models in advance and subtract the frequency spectrum of the model selected from them.
特許文献2には、風雑音を低減するための別の装置が開示されている。特許文献2の装置では、複数の音声チャネルの入力信号をFFT部で周波数信号に変換している。そして、風雑音帯域の周波数信号を取り出して、振幅比較部及び位相比較部により、複数の音声チャンネル間での差分を振幅と位相の両方から求めている。さらに、減衰係数生成部により、風雑音成分を減衰するための振幅係数に変換している。周波数選択/減衰部が、振幅と位相の一方の係数を選択して、風雑音帯域の周波数信号に乗算する。帯域合成部が、風雑音帯域以外の周波数信号と合成し、IFFT部が時間信号に逆変換する。 Patent Document 2 discloses another apparatus for reducing wind noise. In the apparatus of Patent Document 2, input signals of a plurality of audio channels are converted into frequency signals by an FFT unit. Then, the frequency signal of the wind noise band is taken out, and the difference between the plurality of audio channels is obtained from both the amplitude and the phase by the amplitude comparison unit and the phase comparison unit. Further, the attenuation coefficient generator converts the wind noise component into an amplitude coefficient for attenuating. The frequency selection / attenuation unit selects one coefficient of amplitude and phase and multiplies the frequency signal in the wind noise band. The band synthesizing unit synthesizes with a frequency signal other than the wind noise band, and the IFFT unit performs inverse conversion to a time signal.
しかしながら、 However,
しかしながら、特許文献1の手法では時々刻々変化する風雑音について、適当なモデルを用意して、選択するのが容易ではなく、結果的に風雑音の低減効果が不十分であるという問題点がある。特許文献2では、風雑音帯域と音声帯域が重複している場合には、音声が同時に低減されてしまうという問題点がある。 However, in the method of Patent Document 1, it is not easy to prepare and select an appropriate model for wind noise that changes from time to time, and as a result, the effect of reducing wind noise is insufficient. . In Patent Document 2, when the wind noise band and the voice band overlap, there is a problem that the voice is simultaneously reduced.
本発明は、上記の問題を鑑みてなされたものであり、風雑音を効果的に除去することができる雑音除去装置、雑音除去方法、及びプログラムを提供する事を目的とする。 The present invention has been made in view of the above problems, and an object thereof is to provide a noise removal device, a noise removal method, and a program that can effectively remove wind noise.
本発明の一態様に係る雑音除去装置は、複数の音声チャンネルから入力された複数の音声信号のうちの一つのチャンネルの音声信号と他の一つのチャンネルの音声信号の差信号を算出する信号算出部と、時間領域における前記音声信号と前記差信号をそれぞれフレーム分割した後、周波数領域における音声信号及び差信号に変換する変換部と、周波数領域における前記差信号と前記周波数領域における音声信号とに基づいて、周波数領域における減算信号を生成する減算処理部と、周波数領域における前記減算信号を時間領域の時間信号に逆変換する逆変換部と、を備えたものである。
本発明の一態様に係る雑音除去方法は、複数の音声チャンネルから入力された複数の音声信号のうちの一つのチャンネルの音声信号と他の一つのチャンネルの音声信号の差信号を算出するステップと、時間領域における前記音声信号と前記差信号をそれぞれフレーム分割した後、周波数領域における音声信号及び差信号に変換するステップと、周波数領域における前記差信号と前記周波数領域における音声信号とに基づいて、周波数領域における減算信号を生成するステップと、周波数領域における前記減算信号を時間領域の信号に逆変換するステップと、を備えたものである。
本発明の一態様に係るプログラムは、雑音を除去する雑音除去方法をコンピュータに対して実行させるプログラムであって、前記雑音除去方法が、複数の音声チャンネルから入力された複数の音声信号のうちの一つのチャンネルの音声信号と他の一つのチャンネルの音声信号の差信号を算出するステップと、時間領域における前記音声信号と前記差信号をそれぞれフレーム分割した後、周波数領域における音声信号及び差信号に変換するステップと、周波数領域における前記差信号と前記周波数領域における音声信号とに基づいて、周波数領域における減算信号を生成するステップと、周波数領域における前記減算信号を時間領域の信号に逆変換するステップと、を備えているものである。
A noise reduction apparatus according to an aspect of the present invention calculates a difference signal between a sound signal of one channel and a sound signal of another channel among a plurality of sound signals input from a plurality of sound channels. An audio signal and a difference signal in the frequency domain after the audio signal and the difference signal in the time domain are respectively divided into frames, and a difference signal in the frequency domain and an audio signal in the frequency domain. Based on this, a subtraction processing unit that generates a subtraction signal in the frequency domain and an inverse conversion unit that inversely converts the subtraction signal in the frequency domain into a time signal in the time domain are provided.
The noise removal method according to an aspect of the present invention includes a step of calculating a difference signal between a sound signal of one channel and a sound signal of another channel among a plurality of sound signals input from a plurality of sound channels. The audio signal and the difference signal in the time domain are each divided into frames, and then converted into an audio signal and a difference signal in the frequency domain, and based on the difference signal in the frequency domain and the audio signal in the frequency domain, A step of generating a subtraction signal in the frequency domain; and a step of inversely converting the subtraction signal in the frequency domain into a signal in the time domain.
A program according to an aspect of the present invention is a program for causing a computer to execute a noise removal method for removing noise, wherein the noise removal method includes a plurality of audio signals input from a plurality of audio channels. Calculating a difference signal between an audio signal of one channel and an audio signal of another channel; and dividing the audio signal and the difference signal in the time domain into frames, respectively, and then converting the audio signal and the difference signal in the frequency domain into frames. Converting, generating a subtraction signal in the frequency domain based on the difference signal in the frequency domain and the audio signal in the frequency domain, and inversely converting the subtraction signal in the frequency domain into a signal in the time domain And.
本発明によれば、風雑音を効果的に低減することができる雑音除去装置、雑音除去方法、及びプログラムを提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the noise removal apparatus, the noise removal method, and program which can reduce a wind noise effectively can be provided.
実施の形態1.
以下、図面を参照して本発明の実施の形態について説明する。図1は、実施の形態1にかかる雑音低減装置の構成を示す図である。電子機器の筐体内に配置された2つのマイクロフォンからステレオの右、左チャンネル(Rch,Lch)の音声信号がA/D変換されて入力端子から入力される。
Embodiment 1 FIG.
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram illustrating a configuration of the noise reduction device according to the first embodiment. Stereo right and left channel (Rch, Lch) audio signals are A / D converted from two microphones arranged in the casing of the electronic device and input from the input terminal.
雑音除去装置100は、減算器11、定数倍器12、STFT処理部13〜15、係数乗算/減算処理部16、係数乗算/減算処理部17、IFFT処理部21、IFFT処理部23、波形合成部22、及び波形合成部24を備えている。なお、雑音除去装置100は、アナログ回路及びデジタル回路などで実現してもよく、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などのソフトウエアで実現してもよく、これらの組み合わせで実現してもよい。
The
左のマイクロフォンからの音声信号Lchは、入力端子101に入力される。右のマイクロフォンからの音声信号Rchは、入力端子102に入力される。減算器11は、LchとRchの音声信号の差信号を算出する。
The audio signal Lch from the left microphone is input to the
差信号は、定数倍器12で1/2倍された後、STFT処理部14に入力される。また、Lchの音声信号は、STFT処理部13に入力され、Rchの音声信号はSTFT処理部15に入力される。STFT処理部13〜15は、STFT(Short Time Fourier Transform)処理を実行する。具体的には、STFT処理部13〜15は入力された差信号及び音声信号を所定時間ごとにずらしながら、所定長のフレームにフレーム分割を行う。STFT処理部13〜15は、フレーム分割された各フレームに対し、所定の時間窓を掛ける処理を行う。STFT処理部13〜15は、時間窓をかけた信号に対してFFT(Fast Fourier Transform)処理を実行し、各フレームの各周波数における位相値および振幅値を出力する。STFT処理部13〜15は、時間領域における音声信号と差信号をそれぞれフレーム分割した後、周波数領域における音声信号及び差信号に変換する変換部となる。
The difference signal is halved by the
例えば、256次のFFTであれば、周波数信号は、128個の振幅値 |Y(t,k×f0)| (K=0〜127)と位相値φy(k×f0) (K=0〜127)を有している。差信号については、|Ys(t,k×f0)|、φys(k×f0)、Lchの音声信号については、|YL(t,k×f0)|、φyL(k×f0)、Rchの音声信号については、|YR(t,k×f0)|、φyR(k×f0)で表す。もちろん、kの最大値は127に限らず、任意の自然数とすることができる。 For example, in the case of a 256th order FFT, the frequency signal has 128 amplitude values | Y (t, k × f0) | (K = 0 to 127) and phase value φy (k × f0) (K = 0 to 127). For difference signals, | Ys (t, k × f0) |, φys (k × f0), and for Lch audio signals, | YL (t, k × f0) |, φyL (k × f0), Rch An audio signal is represented by | YR (t, k × f0) | and φyR (k × f0). Of course, the maximum value of k is not limited to 127, and can be any natural number.
差信号とLchの音声信号のそれぞれ低周波数域の振幅値データは、係数乗算/減算処理部16に入力される。例えば、低域の32個ずつのデータ、|Ys(t,k×f0)|、|YL (t,k×f0)| (K=0〜31)が係数乗算/減算処理部16に入力される。
差信号とRchの音声信号のそれぞれ低周波数域の振幅値データは、係数乗算/減算処理部17に入力される。例えば、低域の32個ずつのデータ、|Ys(t,k×f0)|、|YR(t,k×f0)| (K=0〜31)が係数乗算/減算処理部17に入力される。
The amplitude value data in the low frequency range of the difference signal and the Lch audio signal are input to the coefficient multiplication /
The amplitude value data in the low frequency range of the difference signal and the Rch audio signal are input to the coefficient multiplication /
係数乗算/減算処理部16、17では、|Ys(t,k×f0)| (K=0〜31) の各振幅値データに所定の係数Ckを乗算する。したがって、振幅値データに係数を乗算した乗算値データは、Ck ×|Ys(t,k×f0)|となる。Ckは、低域ほど大きく、高域になるにつれて小さくなるような値である。例えば、Ck = C×(1 - (K / 32)× (K / 32)) とすることができる。Cは、1前後の値とすることが望ましい。後述するように、差信号の低周波数域の信号は風雑音によるものであるが、高周波数域になるにつれて風雑音以外の本来のステレオ成分が混じったものとなる。従って、低周波数域ほど、乗算値を大きくする。あるいは、K によらず、一定の値であっても良い。演算回路を簡素化できるという利点がある。さらに、Ck(K=0〜31)の一部、又は全部を1としてもよい。
The coefficient multiplication /
係数乗算/減算処理部16は、係数と差信号の振幅値データとの乗算値データをLchの音声信号の振幅値データから減算する。すなわち、係数乗算/減算処理部16は、Lchの音声信号の振幅値データから乗算値データを引いた減算値データを周波数ごとに算出する。係数乗算/減算処理部16は|YL (t,k×f0)| - Ck × |Ys(t,k×f0)|を算出する。|YL (t,k×f0)| - Ck × |Ys(t,k×f0)|はk毎に算出される。
同様に、係数乗算/減算処理部17は、係数と差信号の振幅値データとの乗算値データをRchの音声信号の振幅値データから減算する。すなわち、係数乗算/減算処理部17は、Rchの音声信号の振幅値データから乗算値データを引いた減算値データを周波数ごとに算出する。係数乗算/減算処理部17は|YR(t,k×f0)| - Ck × |Ys(t,k×f0)|を算出する。|YR(t,k×f0)| - Ck × |Ys(t,k×f0)|はk毎に算出される。
The coefficient multiplication /
Similarly, the coefficient multiplication /
係数乗算/減算処理部16の具体的な構成について、図2を用いて説明する。図2は、係数乗算/減算処理部16の構成例を示す図である。係数乗算/減算処理部16は、定数倍器41と減算器42とのペアを備えている。定数倍器41と減算器42のペア数は、それぞれ、抽出する低周波数域に含まれるデータ数に対応しており、上記の例では、32(K=0〜31)となる。
A specific configuration of the coefficient multiplication /
定数倍器41のそれぞれには、予め定められた係数Ckが設定されている。そして、定数倍器41は、差信号の振幅値データと係数の乗算値を求める。そして、減算器42がLchの音声信号の振幅値データと乗算値データとの差分を周波数毎に求めて、減算値とする。これにより、係数乗算/減算処理部16が減算値からなる減算信号を生成する。
A predetermined coefficient Ck is set for each of the
ここで、減算値である|YL(t,k×f0)| - Ck × |Ys(t,k×f0)| が負になる場合は、0に置き換える。なお、負になる場合に0に書き換える処理に代えて、所定の正定数以下になる場合にその所定の正定数で置き換えるようにしても良い。ミュージカルノイズと呼ばれるノイズを目立たなくする効果がある。
また、係数乗算/減算処理部17も係数乗算/減算処理部16と同様の構成となっており、同様の処理を行う。係数乗算/減算処理部17が算出した減算値が負になる場合も同様に処理される。
If the subtraction value | YL (t, k × f0) | −Ck × | Ys (t, k × f0) | is negative, it is replaced with 0. Instead of the process of rewriting to 0 when it becomes negative, it may be replaced with the predetermined positive constant when it becomes equal to or less than a predetermined positive constant. It has the effect of making noise called musical noise inconspicuous.
The coefficient multiplication /
なお、対応する周波数の振幅値データとその周辺の周波数の振幅値データから生成した値を差信号のデータとしても良い。例えば、|Ys(t,k×f0)| の代わりに、max( |Ys(t,(k-1)×f0)|, |Ys(t,k×f0)|,|Ys(t,(k+1)×f0)| ) のように、前後3つの周波数の振幅値のうちの最大値を求める。このように、対応する周波数の振幅値データとその周辺の周波数の振幅値データの最大値を用いてもよい。雑音成分が隣接する周波数の振幅値として現れる場合もあるからである。このように、係数乗算/減算処理部16は差信号の振幅値データとLchの音声信号の振幅値データとに基づいて、減算処理を行う。すなわち、係数乗算/減算処理部16は、差信号とLchの音声信号とに基づいて減算信号を生成する。もちろん、振幅値データの最大値の代わりに、振幅値データの平均値や中間値などを用いてもよい。こうすることで、風雑音成分をより効果的に削減することができる。
A value generated from the amplitude value data of the corresponding frequency and the amplitude value data of the surrounding frequencies may be used as the difference signal data. For example, instead of | Ys (t, k × f0) |, max (| Ys (t, (k-1) × f0) |, | Ys (t, k × f0) |, | Ys (t, ( k + 1) × f0) |) The maximum value of the amplitude values of the three frequencies before and after is obtained. In this way, the maximum value of the amplitude value data of the corresponding frequency and the amplitude value data of the surrounding frequencies may be used. This is because a noise component may appear as an amplitude value of an adjacent frequency. As described above, the coefficient multiplication /
なお、減算に用いる差信号の低周波数域の振幅値データについて、K毎に過去のフレームの振幅値データを用いて平滑化した値としても良い。例えばK=5の振幅値データについて、過去3フレーム分の振幅値データで、(|Ys(t-3,5×f0)|+ 2×|Ys(t-2,5×f0)|+ 3×|Ys(t-1,5×f0)|+ 4×|Ys(t,5×f0)|) / 10のように演算した値とする。他のKについても同様とする。差信号(後述するように、これは風雑音分である)の急激な時間変化の影響を緩和して、ミュージカルノイズと呼ばれるノイズを目立たなくする効果がある。また、係数乗算/減算処理部17は係数乗算/減算処理部16と同様の処理を行うことができる。
Note that the amplitude value data in the low frequency range of the difference signal used for subtraction may be a value smoothed using the amplitude value data of the past frame for each K. For example, for amplitude value data of K = 5, the amplitude value data for the past three frames is represented by (| Ys (t−3,5 × f0) | + 2 × | Ys (t−2,5 × f0) | +3 X | Ys (t-1,5 × f0) | + 4 × | Ys (t, 5 × f0) |) / 10 The same applies to other Ks. The effect of abrupt time change of the difference signal (which is a wind noise component, as will be described later) is alleviated and noise called musical noise is made inconspicuous. The coefficient multiplication /
係数乗算/減算処理部16からの減算信号は、図1に示すIFFT処理部21に入力される。Lchの音声信号の高周波数域の振幅値データ|YL (t,k×f0)| (K=32〜127)とLchの音声信号の位相値 φyL (k×f0) (K=0〜127) は、IFFT処理部21に入力される。IFFT処理部21では、これらの振幅情報と位相情報を用いて、IFFT(Inverse FFT)処理を行う。これにより、IFFT処理部21は周波数領域における減算信号を時間領域の時間信号に逆変換する逆変換部となる。
同様に係数乗算/減算処理部17からの減算信号は、IFFT処理部23に入力される。Rchの音声信号の高周波数域の振幅値データ|YR(t,k×f0)| (K=32〜127)とRchの音声信号の位相値 φyR(k×f0) (K=0〜127) は、IFFT処理部23に入力される。IFFT処理部23では、これらの振幅情報と位相情報を用いて、IFFT(Inverse FFT)処理を行う。これにより、IFFT処理部23は周波数領域における減算信号を時間領域の時間信号に逆変換する逆変換部となる。
The subtraction signal from the coefficient multiplication /
Similarly, the subtraction signal from the coefficient multiplication /
IFFT処理部21の出力は、波形合成部22に入力される。波形合成部22では、インバースウィンドイング処理、及び波形合成処理を行って、音声信号 ynrL(i)を出力する。この音声信号は、左チャンネル(Lch)の音声信号から、風雑音成分が除去されたものとなっている。
IFFT処理部23の出力は、波形合成部24に入力される。波形合成部24では、インバースウィンドイング処理、及び波形合成処理を行って、音声信号 ynrR(i)を出力する。この音声信号は、右チャンネル(Rch)の音声信号から、風雑音成分が除去されたものとなっている。
The output of the
The output of the
電子機器の筐体内にLch用とRch用として配置された2つのマイクロフォンの場合には、マイクロフォン間の距離が近い。そのため、収録する音声信号のうち、特に低周波数分については、両チャンネルの差はほとんど無い。高周波になるにつれて、音源と2つのマイクロフォンとの位置に応じた、本来のステレオ成分の差が存在する。一方、風雑音は主に1KHz以下の低周波数成分が主体である。また、風雑音はLch用とRch用のマイクロフォンで相関なく発生する。 In the case of two microphones arranged for Lch and Rch in the casing of the electronic device, the distance between the microphones is short. For this reason, there is almost no difference between the two channels in the recorded audio signal, particularly for low frequencies. As the frequency becomes higher, there is a difference in the original stereo component depending on the position of the sound source and the two microphones. On the other hand, wind noise is mainly low frequency components of 1KHz or less. Wind noise is generated without correlation between the Lch and Rch microphones.
従って、LchとRchの差信号をFFTした結果の低周波数分は、風雑音によるものと考えられる。Lch、又はRchの音声信号の低周波数分の振幅値データから、差信号の対応する周波数の振幅値データを減算する。このようにすることで、音声信号から風雑音分を低減することが出来る。 Therefore, the low frequency component resulting from the FFT of the difference signal between Lch and Rch is considered to be due to wind noise. The amplitude value data of the frequency corresponding to the difference signal is subtracted from the amplitude value data corresponding to the low frequency of the audio signal of Lch or Rch. By doing so, it is possible to reduce the wind noise component from the audio signal.
なお、以上の記述では電子機器のLch用とRch用のマイクロフォンを例に説明したが、種々の電気機器に利用することができる。例えば、録音機能を有する電子機器や、スピーカで音声を再生する電気機器に、雑音除去装置100を搭載することができる。また、音声信号を検出するマイクロフォンは、LchとRchと有するステレオマイクでなくてもよく、近接して配置された複数のマイクロフォンであれば良い。マイクロフォンの数も2つに限られるものではなく、2つ以上のマイクロフォンがあればよい。
In the above description, the Lch and Rch microphones of the electronic device have been described as examples. However, the present invention can be used for various electric devices. For example, the
なお、以上の説明では、音声信号、及び差信号の振幅値|YR(t,k×f0)|、|YL(t,k×f0)|、|Ys(t,k×f0)|を用いたが、これを2乗したパワー値|YR(t,k×f0)|2、|YL(t,k×f0)|2、|Ys(t,k×f0)|2を用いて、減算信号を生成してもよい。例えば、係数乗算/減算処理部16が音声信号のパワー値から、差信号のパワー値に係数をかけた値を減算する。そして、減算した結果を1/2乗する。この場合、係数乗算/減算処理部16から出力される減算信号は、( (|YL(t,k×f0)|)2 - Ck × (|Ys(t,k×f0)|) 2 )0.5とすることができる。
あるいは、パワー値の減算結果を音声信号の2乗で除算する。そして、除算値に音声信号の振幅値データを乗じた結果を減算信号としてもよい。この場合、係数乗算/減算処理部16から出力される減算信号は、|YL(t,k×f0)|× ( (|YL(t,k×f0)|)2 - Ck × (|Ys(t,k×f0)|) 2 )/(|YL(t,k×f0)|)2となる。なお、係数乗算/減算処理部17についても、係数乗算/減算処理部16と同様の処理を行うようにする。
In the above description, the amplitude values | YR (t, k × f0) |, | YL (t, k × f0) |, | Ys (t, k × f0) | are used for the audio signal and the difference signal. However, the power value | YR (t, k × f0) | 2 , | YL (t, k × f0) | 2 , | Ys (t, k × f0) | 2 A signal may be generated. For example, the coefficient multiplication /
Alternatively, the power value subtraction result is divided by the square of the audio signal. The result obtained by multiplying the division value by the amplitude value data of the audio signal may be used as the subtraction signal. In this case, the subtraction signal output from the coefficient multiplication /
このようにパワー値を用いることによって、音声信号及び差信号の振幅値データを用いた場合と同様の効果を得ることができる。このように、フーリエ変換の振幅スペクトル又はパワースペクトルを用いて、減算信号を生成することができる。 By using the power value in this way, it is possible to obtain the same effect as when the amplitude value data of the audio signal and the difference signal is used. Thus, a subtraction signal can be generated using the amplitude spectrum or power spectrum of Fourier transform.
実施の形態2.
本実施の形態にかかる雑音除去装置について、図3を用いて説明する。図3は、雑音除去装置の構成を示す図である。本実施の形態にかかる雑音除去装置は、実施の形態1と同様に、電子機器の筐体内に配置されたマイクロフォンからの音声信号に対して雑音除去処理を行っている。すなわち、2つのマイクロフォンからステレオの右、左チャンネル(Rch,Lch)の音声信号がA/D変換されて入力端子101、102から入力される。
Embodiment 2. FIG.
The noise removal apparatus according to the present embodiment will be described with reference to FIG. FIG. 3 is a diagram illustrating a configuration of the noise removing device. As in the first embodiment, the noise removal apparatus according to the present embodiment performs noise removal processing on the audio signal from the microphone arranged in the casing of the electronic device. In other words, stereo right and left channel (Rch, Lch) audio signals are A / D converted and input from the
本実施の形態に係る雑音除去装置100は、実施の形態1の構成に加えて、合成比算出部18、遅延部31、遅延部32、切替部33、及び切替部34を備えている。なお、雑音除去装置100の基本的構成については、実施の形態1と同様であるため適宜説明を省略する。
The
差信号の低周波数域の振幅値データ|Ys(t,k×f0)| (K=0〜31)は、合成比算出部18に入力される。合成比算出部18は、例えば、振幅値データ|Ys(t,k×f0)| (K=0〜31) の低域の加重を大きくした加重平均値を求める。合成比算出部18は、加重平均値を、閾値1、閾値2と比較する。図4に示すように、加重平均値等が所定の閾値1よりも小さい場合には、合成比算出部18は合成比データQ=0を出力する。加重平均値などが所定の閾値2よりも大きい場合には、合成比算出部18はQ=1を出力する。加重平均値が閾値1から閾値2の間の場合、合成比算出部18は、値に応じて0より大きく1より小さい値を合成比データQとして出力する。ここでは、閾値1から閾値2の間では、加重平均値に対して、合成比データQが線形に増加している。
The amplitude value data | Ys (t, k × f0) | (K = 0 to 31) of the low frequency range of the difference signal is input to the synthesis
なお、加重平均値の代わりに、振幅値データ|Ys(t,k×f0)| (K=0〜31)の和、あるいは二乗和を用いてもよい。すなわち、|Ys(t,k×f0)| (K=0〜31)の和、二乗和、又は加重平均値を閾値1、閾値2と比較される比較値とすることができる。この比較値は、音声信号に含まれる低周波数域の雑音成分を示している。 Instead of the weighted average value, the sum of the amplitude value data | Ys (t, k × f0) | (K = 0 to 31) or the sum of squares may be used. That is, the sum, square sum, or weighted average value of | Ys (t, k × f0) | (K = 0 to 31) can be used as a comparison value to be compared with the threshold value 1 and the threshold value 2. This comparison value indicates the noise component in the low frequency range included in the audio signal.
また、以上のように算出した合成比データQに対して、時間軸方向の平滑化を行っても良い。例えば、過去n−1フレームの結果を保持しておき、現在の結果と合わせてnフレームの平均値を算出して出力しても良い。あるいは、時間軸方向でLPFをかけた値を出力しても良い。合成比算出部18の出力は、図3に示すように、Lch用とRch用の切替部33、34に入力される。
Further, the synthesis ratio data Q calculated as described above may be smoothed in the time axis direction. For example, the result of the past n−1 frames may be held, and the average value of n frames may be calculated and output together with the current result. Alternatively, a value obtained by applying LPF in the time axis direction may be output. As shown in FIG. 3, the output of the composition
Lch用の切替部33には、Lchの音声信号が遅延部31を経て入力される。遅延部31は、STFT処理、IFFT処理、波形合成処理に要する時間を補償するものである。すなわち、遅延部31は、STFT処理部13の処理と係数乗算/減算処理部16の処理とIFFT処理部21の処理と波形合成部22の処理に対応する時間だけLchの音声信号を遅延する。例えば、STFT処理、IFFT処理、波形合成処理に、A/D変換のサンプリング周期でmサンプル分がかかる場合には、遅延部31でもmサンプル分遅延させて、ydL(i)として出力する。切替部33には、波形合成部22の出力信号ynrL(i)と合成比算出部18の出力である合成比データQも入力される。切替部33では、ydL(i)、ynrL(i)、及び合成比データQから、 (1 - Q) × ydL(i) + Q × ynrL(i) を算出して出力する。
An Lch audio signal is input to the
切替部33の構成は、図5に示すようになっている。切替部33は、可変数倍器71、可変数倍器72、及び加算器73を備えている。可変数倍器71、72には、合成比データQが入力されている。そして、可変数倍器71は、ynrL(i)をQ倍する。可変数倍器72は、ydL(i)を(1 - Q)倍する。そして、加算器73は、可変数倍器71と可変数倍器72の出力の和を求める。これにより、(1 - Q) × ydL(i) + Q × ynrL(i)が算出される。
The configuration of the switching
低周波数域の加重平均値が閾値1よりも小さい場合、Q=0となっている。すなわち、雑音成分が小さいため、出力信号はydL (i)となり、入力端子101に入力された音声信号がそのまま出力される。一方、低周波数域の加重平均値が閾値2よりも大きい場合、Q=1となっている。すなわち、雑音成分が大きいため、出力信号はynrL (i)となり、波形合成部22で合成された信号が出力端子103に出力される。このように、切替部33は、入力端子101に入力された音声信号ydL (i)又は雑音除去された信号ynrL (i)を切り替えて出力する。また、加重平均値が閾値1以上閾値2以下の場合、出力信号は(1 - Q) × ydL (i) + Q × ynrL (i)となり、入力端子101に入力された音声信号と雑音除去された信号を所定の割合で合成したものとなる。
When the weighted average value in the low frequency range is smaller than the threshold value 1, Q = 0. That is, since the noise component is small, the output signal is ydL (i), and the audio signal input to the
Rch用の音声信号についても同様の処理が行われる。すなわち、Rchの音声信号は遅延部32を経て、切替部34に入力される。遅延部32は、遅延部31と同様の処理を行う。切替部34は、切替部33と同様の構成を有しており、切替部33と同様の処理を行う。よって、切替部34からは、Rchの(1 - Q) × ydR(i) + Q × ynrR(i)が出力される。そして、切替部33、34からの出力信号はそれぞれ出力端子103、104から出力され、図示しない符号化器によって符号化されて記録媒体に記録される。あるいはD/A変換された後に、スピーカなどに出力される。
The same processing is performed on the Rch audio signal. That is, the Rch audio signal is input to the
なお、合成比データQは、差信号の低周波数域の振幅値データ以外から求めても良い。例えば、合成比データQは、差信号の低周波数域のパワー値のデータから求めても良い。さらには、特開平5−328480で記述されている風圧センサを用いて算出しても良い。あるいは、差信号をBPFに通して、その出力の絶対値をピーク検波したデータから算出するようにしても良い。ここで、BPFの通過域は、風雑音の主成分である100Hz〜1KHz等にする。このように、差信号の振幅値データ、又はその他の手段を用いて音声信号に含まれる雑音成分を測定する。そして、雑音成分の測定結果に応じて、合成比算出部18が合成比データQを算出すればよい。こうすることで、切替部33が、適切に切り替えを行うことができる。
The synthesis ratio data Q may be obtained from data other than the amplitude value data in the low frequency range of the difference signal. For example, the synthesis ratio data Q may be obtained from data of power values in the low frequency range of the difference signal. Further, it may be calculated using a wind pressure sensor described in Japanese Patent Laid-Open No. 5-328480. Alternatively, the difference signal may be passed through the BPF and the absolute value of the output may be calculated from the peak detected data. Here, the pass band of the BPF is set to 100 Hz to 1 KHz, which is a main component of wind noise. Thus, the noise component contained in the audio signal is measured using the amplitude value data of the difference signal or other means. Then, the synthesis
合成比算出部18は、差信号をFFTした結果の低周波分の振幅値データを用いて合成比データQを算出する。切替部33、34は、合成比データQを用いて、元の音声信号と風雑音分を低減した音声信号とを合成する。こうすることにより、風雑音が無い場合には元の音声信号を出力するので、ステレオ成分がある音声信号となる。風雑音が大きい場合には、風雑音を低減した音声信号を出力するので、風がある場合でも風雑音の影響の少ない音声信号を出力できる。
The synthesis
ここで、合成比算出部18で算出した合成比データQが、あるフレームで0の場合には、係数乗算/減算処理部、IFFT処理部、波形合成部の演算処理の一部、又は全部を実行しないようにするようにしてもよい。例えば、雑音の測定結果に応じて、IFFT処理部21が逆フーリエ変換を行わないようにする。こうすることで、処理を簡素化することができる。
Here, when the synthesis ratio data Q calculated by the synthesis
例えば、本実施形態にかかる雑音除去装置を例えば音声収録装置に用いた場合、常時、風が吹いているわけではなく、時には長い期間吹かないことがある。これらの処理部が回路で実現されている場合には、その回路を動作させないようにすることで消費電力の削減ができる。これらの処理部がCPUやDSPなどのソフトウエアで実現されている場合には、それらの処理を実行するルーチンをスキップする。その結果、風雑音が小さい場合に、処理を省略することができ、消費電力を削減することができる。 For example, when the noise removing apparatus according to the present embodiment is used in, for example, an audio recording apparatus, the wind is not always blowing, and sometimes it is not blowing for a long period of time. When these processing units are realized by a circuit, power consumption can be reduced by not operating the circuit. When these processing units are realized by software such as a CPU or a DSP, a routine for executing these processes is skipped. As a result, when the wind noise is small, the processing can be omitted and the power consumption can be reduced.
具体的には、雑音除去装置100内の処理がCPUやDSPなどのソフトウエアで実現されている場合には、まず、差信号についてSTFT処理を行う。得られた結果の振幅値データ|Ys(t,k×f0)| (K=0〜31) の大きさが、全て所定の閾値より小さい場合、音声信号のSTFT処理、係数乗算/減算処理、IFFT処理、波形合成処理の全て、あるいは一部をスキップする。このように、振幅値データと閾値を比較することで、音声信号のSTFT処理、係数乗算/減算処理、IFFT処理、波形合成処理の全て、あるいは一部を省略してもよい。こうすることで、消費電力を削減することができる。
Specifically, when the processing in the
なお、雑音除去装置100は、雑音の測定に、振幅値データではなく、パワー値のデータと用いてもよい。なお、閾値はK 毎に決められていてもよく、同じ閾値でもよい。また、雑音除去装置100が、振幅値データ、又はパワー値のデータを加重して総和をとった総和値と閾値とを比較してもよい。そして、比較結果に応じて、風雑音が小さいか否かを判定し、判定結果に応じて処理を省略してもよい。そして、少なくとも一部の処理をスキップした場合は、雑音除去装置100が、音声信号をそのまま所定の時間遅延させて出力する。なお、所定の時間は、音声信号のSTFT処理、係数乗算/減算処理、IFFT処理、波形合成処理を行う場合と、同じサンリング周期分とすることができる。
Note that the
実施の形態3.
本実施の形態にかかる雑音除去装置100について、図6を用いて説明する。図6は、雑音除去装置100の構成を示す図である。本実施の形態にかかる雑音除去装置100は、3つのマイクロフォンを用いて、雑音除去処理を行う。ここでは、LchとRchとの音声信号に加えて、Mchの音声信号が雑音除去装置100に入力される。したがって、雑音除去装置100はMchの入力端子105と出力端子106を備えている。
Embodiment 3 FIG.
A
そして、減算器11aは、Lchの音声信号とMchの音声信号との差信号を生成し、減算器11bは、Mchの音声信号とRchの音声信号との差信号を生成する。なお。LchとMchの差信号と、MchとRchの差信号に対する処理は基本的に同じであるため、以下、LchとMchの差信号の処理を中心に説明する。
The
減算器11aからの差信号は、定数倍器12aで定数倍されて、STFT処理部14aに入力される。減算器11bからの差信号は、定数倍器12bで定数倍されて、STFT処理部14bに入力される。STFT処理部14aは、差信号に対して、実施の形態1のSTFT処理部14と同様の処理を行う。Lchの音声信号は、STFT処理部13aに入力される。STFT処理部13aは、Lchの音声信号に対して、実施の形態1のSTFT処理部13と同様の処理を行う。Mchの音声信号は、STFT処理部15に入力される。STFT処理部15は、Mchの音声信号に対して、実施の形態1のSTFT処理部15と同様の処理を行う。Rchの音声信号は、STFT処理部13bに入力される。STFT処理部13bは、Rchの音声信号に対して、実施の形態1のSTFT処理部13と同様の処理を行う。
The difference signal from the
また、本実施の形態における係数乗算/減算処理部16は、実施の形態1の係数乗算/減算処理部16と同様の処理を行う。したがって、係数乗算/減算処理部16は、差信号とLchの音声信号とに基づいて、減算信号を算出して、IFFT処理部21に出力する。本実施の形態における係数乗算/減算処理部25は、実施の形態1の係数乗算/減算処理部17と同様の処理を行う。したがって、係数乗算/減算処理部25は、差信号とMchの音声信号とに基づいて、減算信号を算出して、IFFT処理部26に出力する。
Also, the coefficient multiplication /
本実施の形態のIFFT処理部21、波形合成部22が、実施の形態1のIFFT処理部21と波形合成部22に対応する。IFFT処理部21は減算信号とLchの音声信号に基づいて、時間領域の時間信号を生成する。波形合成部22は、時間領域における時間信号に基づいて、雑音除去されたLchの音声信号を出力端子103に出力する。このようにすることで、出力端子103からは、雑音成分が除去されたLchの音声信号が出力される。
The
IFFT処理部26、及び波形合成部27は、IFFT処理部21、波形合成部22と同様の処理を行う。IFFT処理部26は減算信号とMchの音声信号に基づいて、時間領域の時間信号を生成する。波形合成部27は、時間領域における時間信号に基づいて、雑音除去されたMchの音声信号を出力端子106に出力する。このようにすることで、出力端子106からは、雑音成分が除去されたMchの音声信号が出力される。
The
Rchの音声信号についても、同様の処理が行われる。すなわち、STFT処理部14bが、STFT処理部14aに対応しており、STFT処理部13bがSTFT処理部13aに対応している。また、係数乗算/減算処理部17が係数乗算/減算処理部16に対応しており、IFFT処理部23がIFFT処理部21に対応している。波形合成部24が波形合成部22に対応している。
The same processing is performed for the Rch audio signal. That is, the
RchとMchとの差信号がSTFT処理部14bに入力され、Rchの音声信号がSTFT処理部13bに入力される。STFT処理部14bは、差信号に対して、STFT処理部14aと同様の処理を行う。STFT処理部13bは、Rchの信号に対して、STFT処理部13aと同様の処理を行う。係数乗算/減算処理部17は、差信号とRchの音声信号に基づいて、減算信号を算出して、IFFT処理部23に出力する。また、STFT処理部13bは、Rchの音声信号の高周波数域の振幅成分と位相成分をIFFT処理部23に出力する。IFFT処理部23は、これらの振幅情報と位相情報とに基づいて、時間領域の時間信号を生成する。波形合成部24は、雑音除去されたRchの音声信号を出力端子104に出力する。
The difference signal between Rch and Mch is input to the
なお、Mchについては、LchとMchの音声信号に基づいて処理がなされているので、Rchの信号を用いずに、Mchの雑音除去処理が行われる。そして、Lch、Mch、Rchの3つのマイクロフォンは近接して配置する。電子機器などにマイクロフォンが取り付けられた場合を考えると、Lch、Rchのマイクロフォンを筐体のそれぞれ左側と右側に配置し、MchはLchとRchの中間付近の位置に配置すればよい。LchとMchのマイクロフォン間の距離、RchとMchのマイクロフォン間の距離が近くなるので好適である。 Since Mch is processed based on the Lch and Mch audio signals, the Mch noise removal process is performed without using the Rch signal. The three microphones Lch, Mch, and Rch are arranged close to each other. Considering the case where a microphone is attached to an electronic device or the like, Lch and Rch microphones may be arranged on the left and right sides of the housing, respectively, and Mch may be arranged at a position near the middle of Lch and Rch. This is preferable because the distance between the Lch and Mch microphones and the distance between the Rch and Mch microphones are close.
このようにすることで、3つのマイクロフォンの音声信号を処理することが可能になる。もちろん、4つ以上の場合でも同様に処理すれば良い。また、実施の形態3の構成においても、実施の形態2で示した切替部33、切替部34などを追加することも可能である。
By doing so, it becomes possible to process the audio signals of the three microphones. Of course, the same processing may be performed for four or more cases. Also in the configuration of the third embodiment, the switching
実施の形態4.
本実施の形態にかかる雑音除去装置について、図7を用いて説明する。図7は、雑音除去装置100の全体構成を示す図である。本実施の形態では、離散フーリエ変換ではなく、離散コサイン変換を用いて、時間領域の音声信号を周波数領域の信号に変換している。したがって、STFT処理部13〜15が窓関数処理+DCT処理部63〜65に置き換わっている。また、IFFT処理部21、23が逆DCT処理部81、83に置き換わっている。なお、実施の形態1と同様の処理については、適宜説明を省略する。
Embodiment 4 FIG.
The noise removal apparatus according to this embodiment will be described with reference to FIG. FIG. 7 is a diagram illustrating an overall configuration of the
実施の形態1と同様に、減算器11で、LchとRchの差信号が算出される。これらの差信号は、定数倍器12で1/2倍された後、窓関数処理+DCT処理部64に入力される。また、Lchの音声信号は、窓関数処理+DCT処理部63に入力され、Rchの音声信号は、窓関数処理+DCT処理部65に入力される。窓関数処理+DCT処理部63〜65は窓関数処理とDCT処理を実行する。
As in the first embodiment, the
窓関数処理では、入力信号を所定時間ごとにずらしながら所定長のフレームにフレーム分割する処理が行われる。そして、フレーム分割された各フレームに対し、所定の時間窓を掛ける処理が行われる。このフレームは、所定のサンプル数の重なりを持つようにする。さらに、時間窓をかけた信号に対して離散コサイン変換DCT(Discrete Cosine Transform)処理を実行して周波数領域の信号に変換する。窓関数処理+DCT処理部63〜65は、時間領域における音声信号と差信号をそれぞれフレーム分割した後、周波数領域における音声信号及び差信号に変換する変換部となる。
In the window function process, a process of dividing the input signal into frames having a predetermined length while shifting the input signal at predetermined time intervals is performed. Then, a process of multiplying each frame divided by a predetermined time window is performed. This frame has an overlap of a predetermined number of samples. Further, a discrete cosine transform DCT (Discrete Cosine Transform) process is performed on the signal subjected to the time window to convert it into a frequency domain signal. The window function processing +
t時刻のフレームについて、256次のDCTであれば、256個の周波数領域データはF(t,k) (K=0〜255)である。差信号については、Fs(t,k)、Lchの音声信号については、FL(t,k)、Rchの音声信号については、FR(t,k)で表す。ここで、kの小さいデータが低周波数域のデータである。 For a frame at time t, if it is a 256th order DCT, the 256 frequency domain data are F (t, k) (K = 0 to 255). The difference signal is expressed as Fs (t, k), the Lch audio signal is expressed as FL (t, k), and the Rch audio signal is expressed as FR (t, k). Here, data having a small k is data in a low frequency range.
差信号とLchの音声信号のそれぞれ低周波数域の周波数領域データは、係数乗算/減算処理部16に入力される。例えば、低域の32個ずつのデータ、Fs(t,k)、FL(t,k) (K=0〜31)である。係数乗算/減算処理部16の構成を図8に示す。係数乗算/減算処理部16は、ABS部43と、定数倍器41と、減算器42と、SGN部44を有している。
The frequency domain data in the low frequency range of the difference signal and the Lch audio signal is input to the coefficient multiplication /
係数乗算/減算処理部16のABS部43は、Fs(t,k)、FL(t,k)のそれぞれを絶対値化して|Fs(t,k)|、 |FL(t,k)| とする。ここで、係数乗算/減算処理部16はFL(t,k)の各値の正負の符号を記憶しておく。
The
定数倍器41は、|Fs(t,k)|(K=0〜31) の各データに所定の係数Ckを乗算する。係数Ckは、実施の形態1と同様の値とすることができる。これにより、実施の形態1と同様の効果を得ることができる。
The
次に、減算器42が、絶対値と係数との乗算値を音声信号の周波数領域データの絶対値から減算する。ここで、減算結果、すなわち、|FL(t,k)| - Ck × |Fs(t,k)| が負になる場合は、0に置き換える。なお、負になる場合に0に書き換える処理に代えて、所定の正定数以下になる場合にその所定の正定数で置き換えるようにしても良い。ミュージカルノイズと呼ばれるノイズを目立たなくする効果がある。
Next, the
なお、実施の形態1と同様に、対応する周波数のデータの絶対値とその周辺の周波数のデータの絶対値の最大値を用いてもよい。この場合、|Fs(t,k)| の代わりに、max( |Fs(t,k-1)|, |Fs(t,k)|,|Fs(t,k+1)|)を用いることになる。あるいは、これらの値の平均値、中間値を用いてもよい。実施の形態1と同様に、減算に用いる差信号の低周波数域の周波数領域データについて、各K毎に過去のフレームのデータを用いて平滑化した値としても良い。この場合、例えばK=5のデータについて、過去3フレーム分のデータで、(|Fs(t-3,5)|+ 2×|Fs(t-2,5)|+ 3×|Fs(t-3,5)|+ 4×|Fs(t,5)|) / 10のように演算した値とする。これにより、実施の形態1と同様の効果を得ることができる。 As in the first embodiment, the absolute value of the corresponding frequency data and the maximum value of the absolute values of the peripheral frequency data may be used. In this case, instead of | Fs (t, k) |, max (| Fs (t, k-1) |, | Fs (t, k) |, | Fs (t, k + 1) |) is used. It will be. Alternatively, an average value or an intermediate value of these values may be used. As in the first embodiment, the frequency domain data in the low frequency domain of the difference signal used for subtraction may be a value smoothed using data of past frames for each K. In this case, for example, for the data of K = 5, the data for the past three frames is (| Fs (t−3,5) | + 2 × | Fs (t−2,5) | + 3 × | Fs (t -3,5) | + 4 × | Fs (t, 5) |) / 10. Thereby, the effect similar to Embodiment 1 can be acquired.
SGN部44は、この減算結果に、絶対値化する時に記憶しておいた各値の正負の符号を付ける。すなわち、音声信号の周波数領域データの正負は変わることがなく、その絶対値が差信号の周波数領域データの絶対値に係る量だけ減少することになる。結果的に、このような値になるのであれば、必ずしもABS部43の位置での絶対値化やSGN部44の位置で符号を付けることを行う必要はなく、減算時に論理的に判断して演算するようにしても良い。
The
また、周波数領域データを絶対値化する代わりに、ABS部43で2乗値化しても良い。この場合、減算器42の出力は、(|FL(t,k)|)2 - Ck × (|Fs(t,k)|)2となる。そして、SGN部44は減算器42の出力データを1/2乗化して符号を付ける。SGN部44の出力は、( (|FL(t,k)|)2 - Ck × (|Fs(t,k)|)2 )0.5に符号が付いた値となる。あるいは、減算器42の出力データを音声信号の2乗で除算した除算値を求め、除算値に音声信号の周波数領域データを乗じてもよい。この場合、係数乗算/減算処理部16から出力される減算信号はFL(t,k)× ( (|FL(t,k)|)2 - Ck × (|Fs(t,k×f0)|) 2 )/(|FL(t,k)|)2となる。なお、除算部の分子は、前述のように負にはならない。したがって、音声信号の周波数領域データの正負は変化しないので、SGN部44の位置で符号を付ける必要はない。このように、周波数領域データの2乗値を減算することで、減算信号を算出するようにしてもよい。
Further, instead of converting the frequency domain data into absolute values, the
減算結果に正負の符号が付けられた周波数領域データと音声信号の高周波数域の周波数領域データFL(t,k) (K=32〜127)は、逆DCT処理部81に入力される。逆DCT処理部81では、これらの周波数領域データを用いて、逆DCT処理を行う。これにより、周波数領域の信号が、時間領域の信号に逆変換される。逆DCT処理部81の出力は、波形合成部22に入力される。逆DCT処理部81は、周波数領域における減算信号を時間領域の時間信号に逆変換する逆変換部となる。波形合成部22は、実施の形態1と同様に、波形合成処理を行って、音声信号 ynrL(i)を出力する。この音声信号は、左チャンネル(Lch)の音声信号から、風雑音成分が除去されたものとなっている。
The frequency domain data with positive and negative signs added to the subtraction result and the high frequency domain frequency domain data FL (t, k) (K = 32 to 127) of the audio signal are input to the inverse
Rchの音声信号についても、Lchと同様に処理が行われる。これにより、実施の形態1と同様に、雑音除去されたLch,及びRchの音声信号を得ることができる。なお、DCT変換の代わりに、修正離散コサイン変換(MDCT)や、ハートレー変換、離散サイン変換を用いても良い。特にMDCTと適当な窓関数を用いて、フレームの重なりをフレーム全長の1/2とすることで、フレームの重なり分による、演算すべき周波数領域サンプル数を減らすことができるという効果がある。また。これらの直交変換を用いて時間領域から周波数領域信号に変換することが好適だが、直交変換でなくても良い。非直交変換であっても、直交変換と同様な時間領域、周波数領域変換が行えればよい。 The Rch audio signal is also processed in the same manner as the Lch. As a result, as in the first embodiment, it is possible to obtain Lch and Rch audio signals from which noise has been removed. Instead of the DCT transform, modified discrete cosine transform (MDCT), Hartley transform, or discrete sine transform may be used. In particular, by using MDCT and an appropriate window function, the number of frequency domain samples to be calculated can be reduced due to the overlap of frames by setting the frame overlap to ½ of the total frame length. Also. Although it is preferable to convert from the time domain to the frequency domain signal using these orthogonal transforms, the orthogonal transform may not be used. Even in the non-orthogonal transformation, it is only necessary to perform time domain and frequency domain transformation similar to the orthogonal transformation.
実施の形態5.
本実施の形態にかかる雑音除去装置の構成について、図9を用いて説明する。図9は、雑音除去装置の構成を示す図である。なお、雑音除去装置100の基本的構成については、実施の形態1、実施の形態2、又は実施の形態4と同様であるため説明を省略する。具体的には、本実施の形態では、実施の形態2と実施の形態4とを組み合わせた構成となっている。すなわち、実施の形態2において、STFT処理部13〜15、及びIFFT処理部21、23を窓関数処理+DCT処理部63〜65、及び逆DCT処理部81、83に置き換えて、DCT変換及び逆DCT変換を用いている。換言すると、実施の形態4において、合成比算出部18、遅延部31、32、及び切替部33、34を追加した構成となっている。
Embodiment 5 FIG.
The configuration of the noise removal apparatus according to the present embodiment will be described with reference to FIG. FIG. 9 is a diagram illustrating a configuration of the noise removing device. Note that the basic configuration of the
このような構成では、音声信号に含まれる雑音成分に応じて合成比を算出することができる。よって、実施の形態1、4の効果に加えて、実施の形態2で示した効果を得ることができる。このような制御を行うことで、雑音成分をより効果的に削除することができる。さらには、雑音成分が低く、音声信号をそのまま出力端子103、104に出力する場合、一部の処理を省略することができる。よって、処理を簡素化することができ、消費電力を低減することができる。
In such a configuration, the synthesis ratio can be calculated according to the noise component included in the audio signal. Therefore, in addition to the effects of the first and fourth embodiments, the effects shown in the second embodiment can be obtained. By performing such control, the noise component can be deleted more effectively. Furthermore, when the noise component is low and the audio signal is output as it is to the
実施の形態6.
本実施の形態にかかる雑音除去装置の構成について、図10を用いて説明する。図10は、雑音除去装置の構成を示す図である。なお、雑音除去装置100の基本的構成については、実施の形態1、実施の形態3、又は実施の形態4と同様であるため説明を省略する。具体的には、本実施の形態では、実施の形態3と実施の形態4とを組み合わせた構成となっている。すなわち、実施の形態3において、STFT処理部13a、13b、14a、14b、15、及びIFFT処理部21、23、26を窓関数処理+DCT処理部63a、63b、64a、64b、65、及び逆DCT処理部81、83、86に置き換えて、DCT変換及び逆DCT変換を用いている。換言すると、実施の形態4において、マイクロフォンをLch、Rch、Mchの3チャンネルにした場合に相当する。
Embodiment 6 FIG.
The configuration of the noise removal apparatus according to this embodiment will be described with reference to FIG. FIG. 10 is a diagram illustrating a configuration of the noise removal device. Note that the basic configuration of the
このような構成によって、実施の形態1、3、4と同様の効果を得ることができる。すなわち、3つ以上のマイクロフォンのそれぞれに対して、効果的に雑音除去を行うことができる。もちろん、本実施の形態と実施の形態2を組み合わせてもよい。すなわち、3つ以上のマイクロフォンを用いた構成において、遅延部及び切替部を追加してもよい。このようにすることで、実施の形態2と同様の効果を得ることができる。 With such a configuration, the same effect as in the first, third, and fourth embodiments can be obtained. That is, it is possible to effectively remove noise for each of the three or more microphones. Of course, the present embodiment and the second embodiment may be combined. That is, in a configuration using three or more microphones, a delay unit and a switching unit may be added. By doing in this way, the effect similar to Embodiment 2 can be acquired.
その他の実施の形態.
実施形態1〜6では、フレーム内のサンプル数が固定であるとして記述したが、フレーム内のサンプル数を時々刻々変化させても良い。入力された音声信号の状況に応じて変えることで、風雑音除去後の音質をあげることが出来る。または、風雑音の検出状況(差信号の低域振幅の分布状況)によって、サンプル数を変えても良い。風雑音が比較的小さくて、その周波数分布が低域に留まるような場合にサンプル数を大きくし、風雑音が比較的大きく、その周波数分布が高域まで伸びているような場合にサンプル数を小さくする。このような制御を行うことで風雑音の除去をより効果的に行うことが出来る。
Other embodiments.
In the first to sixth embodiments, the number of samples in the frame is described as being fixed. However, the number of samples in the frame may be changed every moment. By changing according to the state of the input audio signal, the sound quality after removing wind noise can be improved. Alternatively, the number of samples may be changed depending on the detection state of wind noise (the distribution state of the low frequency amplitude of the difference signal). Increase the number of samples when the wind noise is relatively small and the frequency distribution stays in the low range, and increase the number of samples when the wind noise is relatively large and the frequency distribution extends to the high range. Make it smaller. By performing such control, wind noise can be removed more effectively.
なお、以上の実施例では係数乗算/減算処理する低周波数域のデータ数は固定(実施形態では、32)であり、またCkが高域になるにつれて小さくなる度合いも固定であるとした。しかしながら、風雑音の周波数分布は風が緩やかな場合には比較的低い周波数成分のみからなるが、強風になるにつれて、高周波数域まで分布するようになる。一方、2つのマイクロフォン間の距離に依存するが、ある程度の周波数以上では本来のステレオ成分が存在する。そこで、比較的風量が少ない場合は係数乗算/減算処理する低周波数域のデータ数を少なくする。あるいは、Ckの減衰度合いを急峻にする。一方、比較的風量が多い場合は、係数乗算/減算処理する低周波数域のデータ数を多くする。あるいは、Ckの減衰度合いを緩やかにする。このように、風量に応じて、係数乗算/減算処理部16において減算処理を行う低周波数成分の範囲を調整することができる。このように、風量に応じて、低周波数域のデータ数を変更する。換言すると、減算処理が行われる低周波数成分の範囲を調整する。こうすることで、効果的に風雑音を低減することができる。
In the above embodiment, the number of data in the low frequency range to be subjected to coefficient multiplication / subtraction processing is fixed (in the embodiment, 32), and the degree of decrease as Ck becomes higher is fixed. However, the frequency distribution of wind noise is composed of only a relatively low frequency component when the wind is gentle. However, as the wind becomes stronger, the frequency distribution becomes higher. On the other hand, depending on the distance between the two microphones, the original stereo component exists above a certain frequency. Therefore, when the air volume is relatively small, the number of data in the low frequency range for coefficient multiplication / subtraction processing is reduced. Alternatively, the attenuation degree of Ck is made steep. On the other hand, when the air volume is relatively large, the number of data in the low frequency range to be multiplied / subtracted by the coefficient is increased. Alternatively, the degree of attenuation of Ck is moderated. In this manner, the low frequency component range in which the coefficient multiplication /
風量の検出は、差信号低周波数域の振幅値データ|Ys(t,k×f0)| (K=0〜20) の和、あるいは二乗和、あるいは低周波数域データの加重を大きくした加重平均値などで行う。あるいは、実施の形態1と同様に、風圧センサを用いてもよい。実施の形態1と同様に、差信号をBPFに通して、その出力の絶対値をピーク検波したデータから算出するようにしても良い。ここで、BPFの通過域は、風雑音の主成分である100Hz〜1KHz等にする。 The detection of the air volume is the weighted average of the sum of the amplitude value data | Ys (t, k × f0) | (K = 0 to 20) or the sum of squares, or the weight of the low frequency data. Perform by value. Alternatively, a wind pressure sensor may be used as in the first embodiment. Similarly to the first embodiment, the difference signal may be passed through the BPF and the absolute value of the output may be calculated from the data obtained by peak detection. Here, the pass band of the BPF is set to 100 Hz to 1 KHz, which is a main component of wind noise.
なお、係数乗算/減算処理での処理は、|Ys(t,k×f0)| (K=0〜31) の各データに所定の係数Ckを乗算して、その乗算結果を一方のch信号の振幅値データ(例えば、Lchのデータ |YL(t,k×f0)|)から減算するとしたが、これと類似の処理であっても良い。例えば、|Ys(t,k×f0)|の値が小さな時は小さく、大きな時は大きい値に変換し、その値で一方のch信号の振幅値データを除算するようにしても良い。 In the coefficient multiplication / subtraction process, each data of | Ys (t, k × f0) | (K = 0 to 31) is multiplied by a predetermined coefficient Ck, and the multiplication result is obtained as one ch signal. The amplitude value data (for example, Lch data | YL (t, k × f0) |) is subtracted from the amplitude value data. For example, when the value of | Ys (t, k × f0) | is small, it may be small and when large, it may be converted to a large value, and the amplitude value data of one ch signal may be divided by that value.
なお、LchとRchのマイクロフォンでなくてもよく、複数のチャンネルのマイクロフォンがあればよい。例えば、近接して配置された2以上のマイクロフォンであれば良い。また、RchとLchの一方のみ雑音除去するようにしてもよい。さらに、マイクロフォンがアレイ状に配列されたマイクロフォンアレイからの音声信号に対して、雑音除去してもよい。 Note that the Lch and Rch microphones do not have to be provided, and there may be a plurality of channel microphones. For example, it may be two or more microphones arranged close to each other. Further, noise may be removed from only one of Rch and Lch. Further, noise may be removed from a sound signal from a microphone array in which microphones are arranged in an array.
上記した雑音除去するための処理は、コンピュータプログラムによって実行されても良い。上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 The processing for removing noise described above may be executed by a computer program. The above-described program can be stored and supplied to a computer using various types of non-transitory computer readable media. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)) are included. The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
また、コンピュータが上述の実施の形態の機能を実現するプログラムを実行することにより、上述の実施の形態の機能が実現される場合だけでなく、このプログラムが、コンピュータ上で稼動しているOS(Operating System)もしくはアプリケーションソフトウェアと共同して、上述の実施の形態の機能を実現する場合も、本発明の実施の形態に含まれる。 In addition to the case where the function of the above-described embodiment is realized by the computer executing the program that realizes the function of the above-described embodiment, this program is not limited to the OS ( The case where the functions of the above-described embodiment are realized in cooperation with the Operating System) or application software is also included in the embodiment of the present invention.
100 雑音除去装置
11 減算器
13〜15 STFT処理部
16、17 係数乗算/減算処理部
18 合成比算出部
63〜65 窓関数処理+DCT処理部
21、23 IFFT処理部
22、24 波形合成部
31、32 遅延部
33、34 切替部
41 定数倍器
42 減算器
DESCRIPTION OF
Claims (12)
時間領域における前記音声信号と前記差信号をそれぞれフレーム分割した後、周波数領域における音声信号及び差信号に変換する変換部と、
周波数領域における前記差信号と前記周波数領域における音声信号とに基づいて、周波数領域における減算信号を生成する減算処理部と、
周波数領域における前記減算信号を時間領域の時間信号に逆変換する逆変換部と、を備えた雑音除去装置。 A signal calculation unit that calculates a difference signal between an audio signal of one channel among a plurality of audio signals input from a plurality of audio channels and an audio signal of another one channel;
A conversion unit for dividing the audio signal and the difference signal in the time domain into frames, respectively, and then converting the audio signal and the difference signal in the frequency domain;
A subtraction processing unit that generates a subtraction signal in the frequency domain based on the difference signal in the frequency domain and the audio signal in the frequency domain;
A noise removing device comprising: an inverse transform unit that inversely transforms the subtraction signal in the frequency domain into a time signal in the time domain.
前記フーリエ変換の振幅スペクトル又はパワースペクトルを用いて、前記減算信号を算出する請求項1〜請求項8のいずれか1項に記載の雑音除去装置。 The transform unit performs Fourier transform on the audio signal and the difference signal in the time domain, thereby converting the audio signal and the difference signal in the frequency domain,
The noise removal apparatus according to claim 1, wherein the subtraction signal is calculated using an amplitude spectrum or a power spectrum of the Fourier transform.
前記減算処理部は、前記音声信号及び前記差信号の絶対値、又は前記音声信号及び前記差信号の2乗値を用い、結果の信号に前記周波数領域の前記音声信号の符号を付して、前記減算信号を算出している請求項1〜請求項8のいずれか1項に記載の雑音除去装置。 The conversion unit may calculate the audio signal and the difference signal in the frequency domain with a positive / negative sign,
The subtraction processing unit uses the absolute value of the audio signal and the difference signal, or the square value of the audio signal and the difference signal, and attaches the sign of the audio signal in the frequency domain to the resulting signal, The noise removal device according to claim 1, wherein the subtraction signal is calculated.
時間領域における前記音声信号と前記差信号をそれぞれフレーム分割した後、周波数領域における音声信号及び差信号に変換するステップと、
周波数領域における前記差信号と前記周波数領域における音声信号とに基づいて、周波数領域における減算信号を生成するステップと、
周波数領域における前記減算信号を時間領域の信号に逆変換するステップと、を備えた雑音除去方法。 Calculating a difference signal between an audio signal of one channel and an audio signal of another channel among a plurality of audio signals input from a plurality of audio channels;
The audio signal and the difference signal in the time domain are each divided into frames, and then converted into an audio signal and a difference signal in the frequency domain;
Generating a subtraction signal in the frequency domain based on the difference signal in the frequency domain and an audio signal in the frequency domain;
A step of inversely transforming the subtracted signal in the frequency domain into a signal in the time domain.
前記雑音除去方法が、
複数の音声チャンネルから入力された複数の音声信号のうちの一つのチャンネルの音声信号と他の一つのチャンネルの音声信号の差信号を算出するステップと、
時間領域における前記音声信号と前記差信号をそれぞれフレーム分割した後、周波数領域における音声信号及び差信号に変換するステップと、
周波数領域における前記差信号と前記周波数領域における音声信号とに基づいて、周波数領域における減算信号を生成するステップと、
周波数領域における前記減算信号を時間領域の信号に逆変換するステップと、を備えている、プログラム。 A program for causing a computer to execute a noise removal method for removing noise,
The noise removal method comprises:
Calculating a difference signal between an audio signal of one channel and an audio signal of another channel among a plurality of audio signals input from a plurality of audio channels;
The audio signal and the difference signal in the time domain are each divided into frames, and then converted into an audio signal and a difference signal in the frequency domain;
Generating a subtraction signal in the frequency domain based on the difference signal in the frequency domain and an audio signal in the frequency domain;
Back-converting the subtraction signal in the frequency domain into a signal in the time domain.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012253013A JP2014102318A (en) | 2012-11-19 | 2012-11-19 | Noise elimination device, noise elimination method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012253013A JP2014102318A (en) | 2012-11-19 | 2012-11-19 | Noise elimination device, noise elimination method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014102318A true JP2014102318A (en) | 2014-06-05 |
Family
ID=51024900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012253013A Pending JP2014102318A (en) | 2012-11-19 | 2012-11-19 | Noise elimination device, noise elimination method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014102318A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111885458A (en) * | 2020-07-20 | 2020-11-03 | 歌尔科技有限公司 | Audio playing method, earphone and computer readable storage medium |
WO2023105778A1 (en) * | 2021-12-10 | 2023-06-15 | 日本電信電話株式会社 | Speech signal processing method, speech signal processing device, and program |
-
2012
- 2012-11-19 JP JP2012253013A patent/JP2014102318A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111885458A (en) * | 2020-07-20 | 2020-11-03 | 歌尔科技有限公司 | Audio playing method, earphone and computer readable storage medium |
WO2023105778A1 (en) * | 2021-12-10 | 2023-06-15 | 日本電信電話株式会社 | Speech signal processing method, speech signal processing device, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6019969B2 (en) | Sound processor | |
EP2689419A1 (en) | Method and arrangement for damping dominant frequencies in an audio signal | |
JP2004198485A (en) | Device and program for decoding sound encoded signal | |
JP2014102317A (en) | Noise elimination device, noise elimination method, and program | |
JP5034734B2 (en) | Sound processing apparatus and program | |
JP5915281B2 (en) | Sound processor | |
JP5034735B2 (en) | Sound processing apparatus and program | |
JP2014102318A (en) | Noise elimination device, noise elimination method, and program | |
JP2008072600A (en) | Acoustic signal processing apparatus, acoustic signal processing program, and acoustic signal processing method | |
JP2013073230A (en) | Audio encoding device | |
JP2018072723A (en) | Acoustic processing method and sound processing apparatus | |
JP6790659B2 (en) | Sound processing equipment and sound processing method | |
JP5316127B2 (en) | Sound processing apparatus and program | |
JP5241373B2 (en) | Harmonic generator | |
JP5321171B2 (en) | Sound processing apparatus and program | |
JP5463924B2 (en) | Sound processor | |
JP2010032599A (en) | Voice processing apparatus and program | |
JP6064774B2 (en) | Noise removal apparatus, noise removal method, and noise removal program | |
JP5641187B2 (en) | Sound processor | |
JP5621637B2 (en) | Sound processor | |
JP5454157B2 (en) | Sound processor | |
JP2012027101A (en) | Sound playback apparatus, sound playback method, program, and recording medium | |
JP2018072724A (en) | Sound processing method and sound processing apparatus | |
JP2013130815A (en) | Noise suppression device | |
JP2007189530A (en) | Noise canceling headphone, and noise canceling method in headphone |