JP2015025914A - Voice signal processor and program - Google Patents
Voice signal processor and program Download PDFInfo
- Publication number
- JP2015025914A JP2015025914A JP2013154826A JP2013154826A JP2015025914A JP 2015025914 A JP2015025914 A JP 2015025914A JP 2013154826 A JP2013154826 A JP 2013154826A JP 2013154826 A JP2013154826 A JP 2013154826A JP 2015025914 A JP2015025914 A JP 2015025914A
- Authority
- JP
- Japan
- Prior art keywords
- coherence
- coherence filter
- audio signal
- noise
- filter coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声信号処理装置及びプログラムに関し、例えば、電話機やテレビ会議装置などの音声信号(この明細書では、音声信号や音響信号等の音信号を「音声信号」と呼んでいる)を扱う通信機や通信ソフトウェアに適用し得るものである。 The present invention relates to an audio signal processing apparatus and program, and handles, for example, an audio signal from a telephone or a video conference apparatus (in this specification, an audio signal such as an audio signal or an acoustic signal is called an “audio signal”). It can be applied to communication devices and communication software.
取得した音声信号中に含まれる雑音成分を抑圧する手法の一つとして、コヒーレンスフィルタ法が挙げられる。コヒーレンスフィルタ法は、特許文献1に記載されているように、左右に死角を有する信号の相互相関を周波数ごとに乗算することで、到来方位に偏りが大きい雑音成分を抑圧する手法である。
One of the methods for suppressing the noise component contained in the acquired audio signal is a coherence filter method. As described in
しかし、コヒーレンスフィルタ法は、雑音成分を抑圧する効果があるが、一方、ミュージカルノイズという異音成分(トーン性の雑音)を発生させ、音の自然さを損ねてしまうという課題がある。 However, the coherence filter method has an effect of suppressing a noise component, but on the other hand, there is a problem that an abnormal sound component (tone noise) called musical noise is generated and the naturalness of sound is impaired.
そのため、コヒーレンスフィルタ法に従って雑音成分を抑圧しても、ミュージカルノイズの発生を抑えることができる音声信号処理装置及びプログラムが望まれている。 Therefore, there is a demand for an audio signal processing apparatus and program that can suppress the occurrence of musical noise even if the noise component is suppressed according to the coherence filter method.
第1の本発明は、入力音声信号に含まれている雑音成分をコヒーレンスフィルタ処理によって抑制する音声信号処理装置において、(1)コヒーレンスフィルタ係数を算出するコヒーレンスフィルタ係数算出手段と、(2)算出された上記コヒーレンスフィルタ係数を、周波数領域上で平滑化してから、コヒーレンスフィルタ処理に適用させる係数平滑化手段とを有することを特徴とする。 According to a first aspect of the present invention, in a speech signal processing apparatus that suppresses a noise component contained in an input speech signal by coherence filter processing, (1) coherence filter coefficient calculation means for calculating a coherence filter coefficient, and (2) calculation Coefficient smoothing means for smoothing the above-described coherence filter coefficient on the frequency domain and then applying it to the coherence filter processing is provided.
第2の本発明の音声信号処理プログラムは、入力音声信号に含まれている雑音成分をコヒーレンスフィルタ処理によって抑制する音声信号処理装置に搭載されたコンピュータを、(1)コヒーレンスフィルタ係数を算出するコヒーレンスフィルタ係数算出手段と、(2)算出された上記コヒーレンスフィルタ係数を、周波数領域上で平滑化してから、コヒーレンスフィルタ処理に適用させる係数平滑化手段として機能させることを特徴とする。 The audio signal processing program according to the second aspect of the present invention provides a computer mounted on an audio signal processing device that suppresses noise components contained in an input audio signal by coherence filter processing. (1) Coherence for calculating coherence filter coefficients And (2) smoothing the calculated coherence filter coefficient in the frequency domain, and then functioning as a coefficient smoothing means to be applied to the coherence filter processing.
本発明によれば、一旦得られたコヒーレンスフィルタ係数を周波数領域上で平滑化してから、コヒーレンスフィルタ処理に用いるようにしたので、コヒーレンスフィルタ法に従って雑音成分を抑圧しても、ミュージカルノイズの発生を抑えることができる音声信号処理装置及びプログラムを提供できる。 According to the present invention, since the obtained coherence filter coefficient is smoothed in the frequency domain and then used for the coherence filter processing, even if the noise component is suppressed according to the coherence filter method, the generation of musical noise is prevented. An audio signal processing device and a program that can be suppressed can be provided.
(A)第1の実施形態
以下、本発明による音声信号処理装置及びプログラムの第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment of an audio signal processing device and a program according to the present invention will be described in detail with reference to the drawings.
コヒーレンスフィルタ法に従って雑音成分を抑圧したときに、ミュージカルノイズが発生する要因は、コヒーレンスフィルタ係数の付与により、特定の周波数成分が際立って大きくなる、あるいは、小さくなることによって、周波数領域上の孤立点が生じることであることを、本願発明者は認識した。 When noise components are suppressed according to the coherence filter method, the cause of musical noise is that isolated points in the frequency domain are caused by a particular frequency component becoming significantly larger or smaller due to the addition of coherence filter coefficients. The inventor of the present application has recognized that this occurs.
第1の実施形態の音声信号処理装置及びプログラムは、コヒーレンスフィルタ係数を、近接する周波数成分のコヒーレンスフィルタ係数を用いて平滑化することで周波数領域での孤立点の発生を抑制し、ミュージカルノイズを軽減しようとしたものである。 The audio signal processing apparatus and program according to the first embodiment suppress the occurrence of isolated points in the frequency domain by smoothing the coherence filter coefficients using the coherence filter coefficients of the adjacent frequency components, and reduce musical noise. I tried to reduce it.
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る音声信号処理装置の構成を示すブロック図である。ここで、一対のマイクロホンm1及びm2を除いた部分は、ハードウェアで構成することも可能であり、また、CPUが実行するソフトウェア(音声信号処理プログラム)とCPUとで実現することも可能であるが、いずれの実現方法を採用した場合であっても、機能的には図1で表すことができる。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing a configuration of an audio signal processing device according to the first embodiment. Here, the part excluding the pair of microphones m1 and m2 can be configured by hardware, and can also be realized by software (audio signal processing program) executed by the CPU and the CPU. However, even if any realization method is adopted, it can be functionally represented in FIG.
図1において、第1の実施形態に係る音声信号処理装置10は、一対のマイクロホンm1、m2、FFT(高速フーリエ変換)部11、コヒーレンスフィルタ処理部12及びIFFT(逆高速フーリエ変換)部13を有する。
In FIG. 1, an audio
一対のマイクロホンm1、m2は、所定距離(若しくは任意の距離)だけ離れて配置され、それぞれ、周囲の音声を捕捉するものである。各マイクロホンm1、m2は、無指向のもの(若しくは、正面方向にごくごく緩やかな指向性を有するもの)である。各マイクロホンm1、m2で捕捉された音声信号(入力信号)は、図示しない対応するA/D変換器を介してデジタル信号s1(n)、s2(n)に変換されてFFT部11に与えられる。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。 The pair of microphones m1 and m2 are arranged apart from each other by a predetermined distance (or an arbitrary distance), and each captures surrounding sounds. Each of the microphones m1 and m2 is omnidirectional (or has a very gentle directivity in the front direction). Audio signals (input signals) captured by the respective microphones m1 and m2 are converted into digital signals s1 (n) and s2 (n) via corresponding A / D converters (not shown) and given to the FFT unit 11. . Note that n is an index indicating the input order of samples, and is expressed as a positive integer. In the text, it is assumed that the smaller n is the older input sample, and the larger n is the newer input sample.
FFT部11は、マイクロホンm1及びm2から入力信号系列s1(n)及びs2(n)を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2を周波数領域で表現することができる。なお、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から、所定のN個のサンプルからなる分析フレームFRAME1(K)及びFRAME2(K)を構成して適用する。入力信号s1(n)から分析フレームFRAME1(K)を構成する例を以下の(1)式に示すが、分析フレームFRAME2(K)も同様である。
なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Kが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。 K is an index indicating the order of frames and is expressed by a positive integer. In the text, it is assumed that the smaller the K, the older the analysis frame, and the larger, the newer the analysis frame. In the following description, it is assumed that the index representing the latest analysis frame to be analyzed is K unless otherwise specified.
FFT部11は、分析フレームごとに高速フーリエ変換処理を施すことで、周波数領域信号X1(f,K)、X2(f,K)に変換し、得られた周波数領域信号X1(f,K)及びX2(f,K)をそれぞれ、コヒーレンスフィルタ処理部12に与える。なお、fは周波数を表すインデックスである。また、X1(f,K)は単一の値ではなく、(2)式に示すように、複数の周波数f1〜fmのスペクトル成分から構成されるものである。さらに、X1(f,K)は複素数であり、実部と虚部からなる。X2(f,K)や後述するB1(f,K)及びB2(f,K)も同様である。
The FFT unit 11 converts the frequency domain signals X1 (f, K) and X2 (f, K) into the frequency domain signals X1 (f, K) by performing a fast Fourier transform process for each analysis frame. And X2 (f, K) are supplied to the coherence
X1(f,K)={X1(f1,K),X1(f2,K),…,X1(fm,K)} …(2)
後述するコヒーレンスフィルタ処理部12においては、周波数領域信号X1(f,K)及びX2(f,K)のうち、周波数領域信号X1(f,K)をメインとし、周波数領域信号X2(f,K)をサブとして処理を行うが、周波数領域信号X2(f,K)をメインとし、周波数領域信号X1(f,K)をサブとして処理を行っても良い(後述する(8)式参照)。
X1 (f, K) = {X1 (f1, K), X1 (f2, K),..., X1 (fm, K)} (2)
In the coherence
コヒーレンスフィルタ処理部12は、後述する図2に示す詳細構成を有し、コヒーレンスフィルタ処理を実行し、雑音成分が抑圧された信号Y(f,K)を得て、IFFT部13に与えるものである。
The coherence
IFFT部13は、雑音抑圧後信号Y(f,K)に対して、逆高速フーリエ変換を施して時間領域信号である出力信号y(n)を得るものである。
The
図2は、コヒーレンスフィルタ処理部12の詳細構成を示すブロック図である。
FIG. 2 is a block diagram illustrating a detailed configuration of the coherence
図2において、コヒーレンスフィルタ処理部12は、入力信号受信部21、指向性形成部22、フィルタ係数計算部23、フィルタ係数平滑処理部24、フィルタ処理部25及びフィルタ処理後信号送信部26を有する。
In FIG. 2, the coherence
コヒーレンスフィルタ処理部12においては、これらの各部21〜26が協働して動作することにより、後述する図5のフローチャートに示す処理を実行する。
In the coherence
入力信号受信部21は、FFT部11から出力された周波数領域信号X1(f,K)、X2(f,K)を受け取るものである。
The input
指向性形成部22は、特定方向に指向性が強い2種類の指向性信号(第1及び第2の指向性信号)B1(f,K)、B2(f,K)を形成するものである。指向性信号B1(f,K)、B2(f,K)を形成する方法は、既存の方法を適用することができ、例えば、(3)式及び(4)式に従った演算により求める方法を適用することができる。
以下、第1及び第2の指向性信号B1(f,K)及びB2(f,K)の算出式の意味を、(3)式を例に、図3及び図4を用いて説明する。図3(A)に示した方向θから音波が到来し、距離lだけ隔てて設置されている一対のマイクロホンm1及びm2で捕捉されたとする。このとき、音波が一対のマイクロホンm1及びm2に到達するまでには時間差が生じる。この到達時間差τは、音の経路差をdとすると、d=l×sinθなので、音速をcとすると(5)式で与えられる。 Hereinafter, the meaning of the calculation formulas of the first and second directional signals B1 (f, K) and B2 (f, K) will be described with reference to FIGS. It is assumed that a sound wave arrives from the direction θ shown in FIG. 3A and is captured by a pair of microphones m1 and m2 that are separated by a distance l. At this time, there is a time difference until the sound wave reaches the pair of microphones m1 and m2. This arrival time difference τ is given by equation (5), where d = 1 × sin θ, where d is the sound path difference, and c is the sound speed.
τ=l×sinθ/c …(5)
ところで、入力信号s1(n)にτだけ遅延を与えた信号s1(t−τ)は、入力信号s2(t)と同一の信号である。従って、両者の差をとった信号y(t)=s2(t)−s1(t−τ)は、θ方向から到来した音が除去された信号となる。結果として、一対のマイクロホン(マイクロホンアレー)m1及びm2は図3(B)のような指向特性を持つようになる。
τ = 1 × sin θ / c (5)
Incidentally, a signal s1 (t−τ) obtained by delaying the input signal s1 (n) by τ is the same signal as the input signal s2 (t). Therefore, the signal y (t) = s2 (t) −s1 (t−τ) taking the difference between them is a signal from which the sound coming from the θ direction is removed. As a result, the pair of microphones (microphone array) m1 and m2 have directivity characteristics as shown in FIG.
なお、以上では、時間領域での演算を記したが、周波数領域で行っても同様なことがいえる。この場合の式が、上述した(3)式及び(4)式である。今、一例として、到来方位θが±90度であることを想定する。すなわち、第1の指向性信号B1(f)は、図4(A)に示すように右方向に強い指向性を有し、第2の指向性信号B2(f)は、図4(B)に示すように左方向に強い指向性を有する。なお、以降では、θ=±90度であることを想定して説明するが、θは±90度に限定されるものではない。 In the above, the calculation in the time domain has been described, but the same can be said if it is performed in the frequency domain. The equations in this case are the above-described equations (3) and (4). As an example, it is assumed that the arrival direction θ is ± 90 degrees. That is, the first directivity signal B1 (f) has strong directivity in the right direction as shown in FIG. 4A, and the second directivity signal B2 (f) is shown in FIG. As shown in the figure, it has a strong directivity in the left direction. In the following description, it is assumed that θ = ± 90 degrees. However, θ is not limited to ± 90 degrees.
フィルタ係数計算部23は、第1及び第2の指向性信号B1(f,K)及びB2(f,K)に基づいて、(6)式に従ってコヒーレンスフィルタ係数coef(f,K)を計算するものである。
フィルタ係数平滑処理部24は、コヒーレンスフィルタ係数coef(f,K)における各周波数のフィルタ係数値を、近傍の周波数のフィルタ係数値に近付ける平滑化を行うものである。フィルタ係数平滑処理部24は、例えば、(7)式に示すような重み付け平均化処理により平滑化を行う。(7)式において、fiは、今処理対象の周波数(注目周波数)を表しており、f(i−1)は、周波数領域上で1つ前の周波数(FFTにおける1つ前の周波数ポイントの周波数)である。(7)式において、αは、0.0<α<1.0を満たす重み付け係数である。
The filter coefficient smoothing
ave_coef(fi、K)=α×coef(fi、K)+(1−α)×ave_coef(f(i−1)、K) …(7)
(7)式の演算は、注目周波数fiにおける係数coef(fi、K)と注目周波数fiより小さい周波数成分f1〜f(i−i)の周波数の平滑後コヒーレンスフィルタ係数ave_coef(f(i−1)、K)との重み付け平均値を計算している。このようにして得られた平滑後コヒーレンスフィルタ係数ave_coef(fi、K)は、より低い周波数におけるコヒーレンスフィルタ係数も寄与するため、周波数領域上の孤立点の発生を抑制することができる。
ave_coef (fi, K) = α × coef (fi, K) + (1−α) × ave_coef (f (i−1), K) (7)
The calculation of the equation (7) is performed by calculating the coefficient coef (fi, K) at the frequency of interest fi and the smoothed coherence filter coefficient ave_coef (f (i−1) of the frequency components f1 to f (ii) smaller than the frequency of interest fi. ) And K). The smoothed coherence filter coefficient ave_coef (fi, K) obtained in this way also contributes to the coherence filter coefficient at a lower frequency, so that the generation of isolated points in the frequency domain can be suppressed.
フィルタ係数平滑処理部24が実行する平滑化のための演算は、(7)式の演算に限定されず、他の平滑化のための演算式を適用しても良い。例えば、注目周波数を中心とし、注目周波数を含めた近傍の複数の周波数のコヒーレンスフィルタ係数値(近傍周波数のものも平均化されていないものを適用する)の単純平均や重み付け平均を適用するようにしても良い。
The calculation for smoothing performed by the filter coefficient smoothing
フィルタ処理部25は、平滑後コヒーレンスフィルタ係数ave_coef(f、K)を適用して、(8)式に示すように、メインの周波数領域信号X1(f,K)に対するコヒーレンスフィルタ処理を行い、雑音抑圧後信号(フィルタ処理後信号)Y(f、K)を得るものである。なお、(8)式は、各周波数のそれぞれの演算(乗算処理)を表している。
The
Y(f、K)=X1(f、K)×ave_coef(f、K) …(8)
ここで、コヒーレンスフィルタ処理の物理的な意味を補足しておく。コヒーレンスフィルタ係数coef(f、K)(平滑後コヒーレンスフィルタ係数ave_coef(f、K)も同様)は、左右に死角を有する信号成分の相互相関であるので、相関が大きい場合には到来方位には偏りがない正面から到来する音声成分であり、相関が小さい場合には到来方位が右か左に偏った成分である、というように入力音声の到来方位とも対応付けられる。従って、コヒーレンスフィルタ係数coef(f、K)を乗算することは横から到来する雑音成分を抑圧する処理であるということができる。
Y (f, K) = X1 (f, K) × ave_coef (f, K) (8)
Here, the physical meaning of the coherence filter process will be supplemented. The coherence filter coefficient coef (f, K) (same as the smoothed coherence filter coefficient ave_coef (f, K)) is a cross-correlation of signal components having blind spots on the left and right. It is a voice component arriving from the front with no bias, and when the correlation is small, the arrival azimuth is a component that is biased to the right or left. Therefore, multiplication by the coherence filter coefficient coef (f, K) can be said to be processing for suppressing a noise component coming from the side.
フィルタ処理後信号送信部26は、雑音抑圧後信号Y(f,K)を後段のIFFT部13に与えるものである。また、フィルタ処理後信号送信部26は、Kを1だけ増加させて次のフレームの処理を起動させるものである。
The post-filter processing
(A−2)第1の実施形態の動作
次に、第1の実施形態の音声信号処理装置10の動作を、図面を参照しながら、全体動作、コヒーレンスフィルタ処理部12における詳細動作の順に説明する。
(A-2) Operation of the First Embodiment Next, the operation of the audio
一対のマイクロホンm1及びm2から入力された信号s1(n)、s2(n)はそれぞれ、FFT部11によって時間領域から周波数領域の信号X1(f,K)、X2(f,K)に変換された後、コヒーレンスフィルタ処理部12に与えられる。これにより、コヒーレンスフィルタ処理部12において、コヒーレンスフィルタ処理が実行され、得られた雑音抑圧後信号Y(f,K)がIFFT部13に与えられる。IFFT部13においては、周波数領域信号である雑音抑圧後信号Y(f,K)が、逆高速フーリエ変換によって、時間領域信号y(n)に変換され、この時間領域信号y(n)が出力される。
Signals s1 (n) and s2 (n) input from the pair of microphones m1 and m2 are respectively converted from time domain to frequency domain signals X1 (f, K) and X2 (f, K) by the FFT unit 11. Is then provided to the coherence
次に、コヒーレンスフィルタ処理部12における詳細動作を、図5のフローチャートを参照しながら説明する。なお、図5は、あるフレームの処理を示しており、フレームごとに、図5に示す処理が繰り返される。
Next, the detailed operation in the coherence
新たなフレームになり、新たなフレーム(現フレームK)の周波数領域信号X1(f,K)、X2(f,K)がFFT部11から与えられると、(3)式及び(4)式に従って、第1及び第2の指向性信号B1(f,K)及びB2(f,K)が計算され(ステップS1)、さらに、これらの指向性信号B1(f,K)及びB2(f,K)に基づき、(6)式に従って、コヒーレンスフィルタ係数coef(f,K)が計算される(ステップS2)。 When it becomes a new frame and the frequency domain signals X1 (f, K) and X2 (f, K) of the new frame (current frame K) are given from the FFT unit 11, according to the equations (3) and (4) , First and second directional signals B1 (f, K) and B2 (f, K) are calculated (step S1), and these directional signals B1 (f, K) and B2 (f, K) are calculated. ), The coherence filter coefficient coef (f, K) is calculated according to the equation (6) (step S2).
そして、コヒーレンスフィルタ係数coef(f,K)の周波数(周波数成分)fiごとに、(7)式に示すような、コヒーレンスフィルタ係数coef(f,K)の平滑処理が実行され、平滑後コヒーレンスフィルタ係数ave_coef(f、K)が得られる(ステップS3)。 Then, for each frequency (frequency component) fi of the coherence filter coefficient coef (f, K), a smoothing process of the coherence filter coefficient coef (f, K) as shown in the equation (7) is executed, and the post-smoothing coherence filter A coefficient ave_coef (f, K) is obtained (step S3).
得られた平滑後コヒーレンスフィルタ係数ave_coef(f、K)を適用して、(8)式に示すような、メインの周波数領域信号X1(f,K)に対するコヒーレンスフィルタ処理が実行され、得られた雑音抑圧後信号(フィルタ処理後信号)Y(f、K)がIFFT部13に与えられると共に、フレーム変数Kが1だけ増加されて(ステップS4)、次のフレームの処理に移行される。
The obtained smoothed coherence filter coefficient ave_coef (f, K) is applied, and the coherence filter process is executed on the main frequency domain signal X1 (f, K) as shown in the equation (8). The noise-suppressed signal (filtered signal) Y (f, K) is supplied to the
(A−3)第1の実施形態の効果
第1の実施形態によれば、コヒーレンスフィルタ処理において、コヒーレンスフィルタ係数を平滑して得た平滑後コヒーレンスフィルタ係数を、コヒーレンスフィルタ係数に代えて適用するようにしたので、コヒーレンスフィルタ係数の乗算によって生じる周波数領域上の孤立点の発生を防ぐことができ、コヒーレンスフィルタ処理で生じるミュージカルノイズを軽減することができる。
(A-3) Effect of First Embodiment According to the first embodiment, in the coherence filter processing, the smoothed coherence filter coefficient obtained by smoothing the coherence filter coefficient is applied instead of the coherence filter coefficient. Since it did in this way, generation | occurrence | production of the isolated point on the frequency domain which arises by the multiplication of a coherence filter coefficient can be prevented, and the musical noise which arises by a coherence filter process can be reduced.
これにより、第1の実施形態の音声信号処理装置若しくはプログラムを適用した、テレビ会議装置や携帯電話機などの通信装置における通話音質の向上が期待できる。 As a result, it is possible to expect improvement in call sound quality in a communication device such as a video conference device or a mobile phone to which the audio signal processing device or program of the first embodiment is applied.
(B)第2の実施形態
次に、本発明による音声信号処理装置及びプログラムの第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Next, a second embodiment of the audio signal processing apparatus and program according to the present invention will be described in detail with reference to the drawings.
雑音抑圧後信号におけるミュージカルノイズの発生度合いは、雑音がどの方位から到来するのかによっても変動する。そこで、第2の実施形態においては、(7)式に示すような平滑処理における他の周波数成分の寄与を、雑音の到来方位に応じて制御することとした。 The degree of occurrence of musical noise in the noise-suppressed signal varies depending on from which direction the noise comes. Therefore, in the second embodiment, the contribution of other frequency components in the smoothing process as shown in the equation (7) is controlled in accordance with the arrival direction of noise.
(B−1)第2の実施形態の構成
第2の実施形態に係る音声信号処理装置の全体構成も、第1の実施形態の説明で用いた上述した図1で表すことができる。但し、コヒーレンスフィルタ処理部(以下、符号12Aを用いる)の内部構成が、第1の実施形態のものと異なっている。
(B-1) Configuration of Second Embodiment The overall configuration of the audio signal processing apparatus according to the second embodiment can also be represented by the above-described FIG. 1 used in the description of the first embodiment. However, the internal configuration of the coherence filter processing unit (hereinafter referred to as reference numeral 12A) is different from that of the first embodiment.
図6は、第2の実施形態のコヒーレンスフィルタ処理部12Aの詳細構成を示すブロック図であり、上述した図2との同一、対応部分には同一符号を付して示している。
FIG. 6 is a block diagram showing a detailed configuration of the coherence
図6において、第2の実施形態のコヒーレンスフィルタ処理部12Aは、入力信号受信部21、指向性形成部22、フィルタ係数計算部23、フィルタ係数平滑処理部24、フィルタ処理部25及びフィルタ処理後信号送信部26に加え、到来方位推定部27、平均化パラメータ決定部28及び平均化パラメータ記憶部29を有する。
In FIG. 6, the coherence
入力信号受信部21、指向性形成部22、フィルタ係数計算部23、フィルタ係数平滑処理部24、フィルタ処理部25及びフィルタ処理後信号送信部26は、第1の実施形態のものと同様であり、その機能説明は省略する。なお、第2の実施形態のフィルタ係数平滑処理部24は、(7)式の演算を実行する際に、固定の平均化パラメータαを適用するのではなく、平均化パラメータ決定部28から与えられた平均化パラメータα(K)を適用する点は、第1の実施形態のフィルタ係数平滑処理部と異なっている。
The input
到来方位推定部27は、雑音の到来方位を推定し得る指標値を得て平均化パラメータ決定部28に与えるものである。ここで、到来方位推定部27は、雑音の到来方位の推定し得る指標値としてコヒーレンスCOH(K)を算出する。コヒーレンスCOH(K)は、(9)式に示すように、コヒーレンスフィルタ係数coef(f、K)を全周波数で算術平均した値である。
図7は、コヒーレンスの挙動を示した説明図である。図7に示すように、雑音の到来方位に応じてコヒーレンスの値がとるレンジが変化することが分かる。この性質を用いることで、雑音の到来方位を推定することができる。 FIG. 7 is an explanatory diagram showing the behavior of coherence. As shown in FIG. 7, it can be seen that the range taken by the coherence value changes according to the arrival direction of noise. By using this property, the arrival direction of noise can be estimated.
平均化パラメータ決定部28は、到来方位推定部27が算出したコヒーレンスCOH(K)に基づいて、平均化パラメータ記憶部29を参照し、フィルタ係数平滑処理部24で用いる平均化パラメータα(K)を決定するものである。
The averaging
雑音(妨害音声等)の到来方位が正面に近付くほどコヒーレンスフィルタ係数の周波数領域上の孤立点が増える傾向にあるので、より多くの近傍の周波数成分と平滑処理を行うことが望ましい。そこで、到来方位が正面に近い場合(言い換えると、コヒーレンスCOH(K)が大きい場合)には、平均化パラメータαを小さくして他の周波数成分の寄与を大きくし、逆に、到来方位が横の場合(言い換えると、コヒーレンスCOH(K)が小さい場合)には、平均化パラメータαを大きくして他の周波数成分の寄与を小さくする、という制御を行うこととした。 Since the isolated points in the frequency domain of the coherence filter coefficient tend to increase as the arrival direction of noise (such as disturbing speech) approaches the front, it is desirable to perform smoothing processing with more nearby frequency components. Therefore, when the arrival direction is close to the front (in other words, when the coherence COH (K) is large), the averaging parameter α is decreased to increase the contribution of other frequency components. In this case (in other words, when the coherence COH (K) is small), the control is performed to increase the averaging parameter α to reduce the contribution of other frequency components.
平均化パラメータ決定部28は、このような制御を実行し得る平均化パラメータα(K)を決定するものである。平均化パラメータ決定部28は、このような制御を実行できる平均化パラメータα(K)を決定することができるのであれば、その具体的な構成は問われない。例えば、平均化パラメータ決定部28は、変換テーブルを利用して平均化パラメータα(K)を決定するものであっても良く、変換関数の演算を実行して平均化パラメータα(K)を決定するものであっても良い。図6は、前者の場合の構成を示しており、平均化パラメータ記憶部29が設けられている。
The averaging
平均化パラメータ記憶部29は、図8に示すように、コヒーレンスCOH(K)の範囲と、その範囲内に算出されたコヒーレンスCOH(K)の値が属するときに、適用される平均化パラメータα(K)との対応(変換テーブル)を記憶しているものである。
As shown in FIG. 8, the averaging
平均化パラメータ決定部28は、与えられたコヒーレンスCOH(K)が変換テーブルのどの範囲A以上B未満、B以上C未満、C以上D未満、…(但し、A<B<C<D<…)に属するかを判定し、属する範囲に対応付けられている値β、γ、δ、…(但し、β>γ>δ>…)を平均化パラメータα(K)としてフィルタ係数平滑処理部24に与える。例えば、コヒーレンスCOH(K)がB以上C未満の範囲の値であると、平均化パラメータ決定部28は、値がγである平均化パラメータα(K)をフィルタ係数平滑処理部24に与える。
The averaging
(B−2)第2の実施形態の動作
次に、第2の実施形態の音声信号処理装置の動作を説明する。全体動作は、第1の実施形態と同様であるので、以下では、第2の実施形態のコヒーレンスフィルタ処理部12Aの動作を説明する。
(B-2) Operation of Second Embodiment Next, the operation of the audio signal processing apparatus of the second embodiment will be described. Since the overall operation is the same as that of the first embodiment, the operation of the coherence
新たなフレームになり、新たなフレーム(現フレームK)の周波数領域信号X1(f,K)、X2(f,K)がFFT部11から与えられると、(3)式及び(4)式に従って、第1及び第2の指向性信号B1(f,K)及びB2(f,K)が計算され、さらに、これらの指向性信号B1(f,K)及びB2(f,K)に基づき、(6)式に従って、コヒーレンスフィルタ係数coef(f,K)が計算される。 When it becomes a new frame and the frequency domain signals X1 (f, K) and X2 (f, K) of the new frame (current frame K) are given from the FFT unit 11, according to the equations (3) and (4) , First and second directional signals B1 (f, K) and B2 (f, K) are calculated, and based on these directional signals B1 (f, K) and B2 (f, K), The coherence filter coefficient coef (f, K) is calculated according to the equation (6).
その後、(9)式に従って、コヒーレンスフィルタ係数coef(f,K)を全周波数で算術平均したコヒーレンスCOH(K)が計算され、計算されたコヒーレンスの値が属する範囲に応じた平均化パラメータα(K)が変換テーブルから取出される。 Thereafter, according to the equation (9), coherence COH (K) obtained by arithmetically averaging the coherence filter coefficients coef (f, K) at all frequencies is calculated, and an averaging parameter α ( K) is taken from the conversion table.
そして、取出された平均化パラメータα(K)を適用して、コヒーレンスフィルタ係数coef(f,K)の周波数(周波数成分)fiごとに、(7)式に示すような、コヒーレンスフィルタ係数coef(f,K)の平滑処理が実行され、平滑後コヒーレンスフィルタ係数ave_coef(f、K)が得られる。 Then, by applying the extracted averaging parameter α (K), for each frequency (frequency component) fi of the coherence filter coefficient coef (f, K), a coherence filter coefficient coef ( The smoothing process of f, K) is executed, and the post-smoothing coherence filter coefficient ave_coef (f, K) is obtained.
得られた平滑後コヒーレンスフィルタ係数ave_coef(f、K)を適用して、(8)式に示すような、メインの周波数領域信号X1(f,K)に対するコヒーレンスフィルタ処理が実行され、得られた雑音抑圧後信号(フィルタ処理後信号)Y(f、K)がコヒーレンスフィルタ処理部12Aから出力される。
The obtained smoothed coherence filter coefficient ave_coef (f, K) is applied, and the coherence filter process is executed on the main frequency domain signal X1 (f, K) as shown in the equation (8). A noise-suppressed signal (filtered signal) Y (f, K) is output from the coherence
(B−3)第2の実施形態の効果
第2の実施形態によれば、雑音の到来方位に応じて適用する平均化パラメータを定めて、コヒーレンスフィルタ係数の平滑処理を行うようにしたので、雑音の到来方位に依存しないミュージカルノイズの低減効果を得ることができる。
(B-3) Effect of Second Embodiment According to the second embodiment, the averaging parameter to be applied is determined according to the noise arrival direction, and the smoothing process of the coherence filter coefficient is performed. It is possible to obtain a musical noise reduction effect that does not depend on the noise arrival direction.
これにより、本発明をテレビ会議システムや携帯電話などの通信装置に適用することで、通話音質の向上が期待できる。 As a result, by applying the present invention to a communication device such as a video conference system or a mobile phone, it is possible to expect improvement in call sound quality.
これにより、第2の実施形態の音声信号処理装置若しくはプログラムを適用した、テレビ会議装置や携帯電話機などの通信装置における通話音質の向上が期待できる。 As a result, it is possible to expect improvement in call sound quality in a communication device such as a video conference device or a mobile phone to which the audio signal processing device or program of the second embodiment is applied.
(C)第3の実施形態
次に、本発明による音声信号処理装置及びプログラムの第3の実施形態を説明する。
(C) Third Embodiment Next, a third embodiment of the audio signal processing apparatus and program according to the present invention will be described.
第2の実施形態は、雑音(妨害音声等)の到来方位を表す指標値としてコヒーレンスCOHを適用したものであった。この第3の実施形態は、雑音の到来方位を表す指標値としてコヒーレンスCOH(K)に代えて、SN比SNR(K)を適用することとしたものである。 In the second embodiment, coherence COH is applied as an index value representing the arrival direction of noise (such as disturbing speech). In the third embodiment, the SN ratio SNR (K) is applied instead of the coherence COH (K) as an index value representing the arrival direction of noise.
第3の実施形態の音声信号処理装置も、その全体構成は、第1の実施形態の説明で用いた図1で表すことができる。また、第3の実施形態のコヒーレンスフィルタ処理部(12A)の詳細構成も、第2の実施形態の説明で用いた図6で表すことができる。 The overall configuration of the audio signal processing apparatus according to the third embodiment can also be represented by FIG. 1 used in the description of the first embodiment. The detailed configuration of the coherence filter processing unit (12A) of the third embodiment can also be represented by FIG. 6 used in the description of the second embodiment.
但し、上述したように、到来方位推定部27は、第2の実施形態と異なり、コヒーレンスCOH(K)ではなくSN比SNR(K)を算出するものである。平均化パラメータ決定部29は、算出されたSN比SNR(K)に基づいて、平均化パラメータを決定するものである。
However, as described above, the arrival
以下、第3の実施形態の到来方位推定部27が実行する、SN比SNR(K)の算出方法を説明する。
Hereinafter, the SN ratio SNR (K) calculation method executed by the arrival
到来方位推定部27は、周波数領域信号X1(f,K)、X2(f,K)に基づいて、(10)式に従って、雑音信号N(f,K)を算出する。(10)式の演算は、図9に示すように、正面に死角を有する指向性を形成する処理に相当する。従って、左右から到来する成分のみを得ることができる。今、目的方向を正面方向に想定しているので(例えば、目的話者が正面にいることを想定している)、横から到来する成分は雑音であるということができる。
The arrival
N(f,K)=X1(f,K)−X2(f,K) …(10)
次に、到来方位推定部27は、メインの周波数領域信号X1(f,K)と雑音信号N(f,K)とに基づいて、(11式に従って、現フレームKにおけるSN比SNR(K)を計算する。(11)式の分母は、雑音信号のレベルであり、分子は、目的音信号のレベルである。目的音は正面から到来し、雑音は横(左右)から到来することを前提しているので、(11)式によってSN比を推定することができる。(11)式のηは、0<η<1の範囲内の値をとるパラメータである。
Next, the arrival
以上のように算出されたSN比SNR(K)を、雑音の到来方位を表す指標値として適用し、上述した第2の実施形態と同様にして、雑音の到来方位に応じた平均化パラメータを決定する。 The SN ratio SNR (K) calculated as described above is applied as an index value representing the arrival direction of noise, and an averaging parameter corresponding to the arrival direction of noise is set in the same manner as in the second embodiment described above. decide.
第3の実施形態によっても、雑音の到来方位に応じて決定した平均化パラメータを適用して、コヒーレンスフィルタ係数の平滑処理を施すようにしたので、第2の実施形態と同様な効果を奏することができる。 Also in the third embodiment, since the averaging parameter determined in accordance with the noise arrival direction is applied and the coherence filter coefficient is smoothed, the same effects as in the second embodiment can be obtained. Can do.
(D)他の実施形態
上記各実施形態の説明においても、種々変形実施形態について言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
(D) Other Embodiments In the description of each of the above-described embodiments, various modified embodiments have been referred to. However, modified embodiments exemplified below can be given.
上記第2の実施形態では、コヒーレンスCOH(K)を妨害音声の到来方位を表す指標値として適用し、上記第3の実施形態ではSN比SNR(K)を妨害音声の到来方位を表す指標値として適用したものを示したが、妨害音声の到来方位を表すものであれば、他の指標値を適用しても良く、また、複数の指標値を同時に適用するようにしても良い。例えば、コヒーレンスCOH(K)が属する範囲とSN比SNR(K)が属する範囲との組み合わせに応じて、平均化パラメータα(K)を制御するようにしても良い。 In the second embodiment, coherence COH (K) is applied as an index value representing the arrival direction of disturbing speech, and in the third embodiment, the SN ratio SNR (K) is an index value representing the arrival direction of disturbing speech. However, as long as it represents the arrival direction of disturbing speech, other index values may be applied, or a plurality of index values may be applied simultaneously. For example, the averaging parameter α (K) may be controlled according to the combination of the range to which the coherence COH (K) belongs and the range to which the SN ratio SNR (K) belongs.
上記第2の実施形態の説明で言及した変換テーブルにおけるコヒーレンスCOH(K)の範囲の数は2以上であれば良く、所定の数に限定されるものではない。 The number of coherence COH (K) ranges in the conversion table referred to in the description of the second embodiment may be two or more, and is not limited to a predetermined number.
上記各実施形態において、周波数領域の信号で処理していた処理を、可能ならば時間領域の信号で処理するようにしても良く、逆に、時間領域の信号で処理していた処理を、可能ならば周波数領域の信号で処理するようにしても良い。 In each of the above embodiments, the processing that was processed with the frequency domain signal may be performed with the time domain signal if possible, and conversely, the processing that was processed with the time domain signal is possible. In this case, processing may be performed using a frequency domain signal.
上記各実施形態では、雑音抑制技術として、コヒーレンスフィルタ法を単独で適用したものを示したが、他の雑音抑制技術(特許文献1参照)、例えば、ボイススイッチ法、ウィーナーフィルタ法、周波数減算法と併用するようにしても良い。 In each of the above-described embodiments, the noise suppression technique is shown by applying the coherence filter method alone, but other noise suppression techniques (see Patent Document 1), for example, the voice switch method, the Wiener filter method, the frequency subtraction method, and the like. You may make it use together.
上記各実施形態では、一対のマイクロホンが捕捉した信号を直ちに処理する音声信号処理装置やプログラムを示したが、本発明の処理対象の音声信号はこれに限定されるものではない。例えば、記録媒体から読み出した一対の音声信号を処理する場合にも、本発明を適用することができ、また、対向装置から送信されてきた一対の音声信号を処理する場合にも、本発明を適用することができる。 In each of the above-described embodiments, the audio signal processing apparatus and the program that immediately process the signal captured by the pair of microphones are shown, but the audio signal to be processed of the present invention is not limited to this. For example, the present invention can be applied to processing a pair of audio signals read from a recording medium, and the present invention can also be applied to processing a pair of audio signals transmitted from the opposite device. Can be applied.
10…音声信号処理装置、11…FFT部、12、12A…コヒーレンスフィルタ処理部、13…IFFT部、m1、m2…マイクロホン、21…入力信号受信部、22…指向性形成部、23…フィルタ係数計算部、24…フィルタ係数平滑処理部、25…フィルタ処理部、26…フィルタ処理後信号送信部、27…到来方位推定部、28…平均化パラメータ決定部、29…平均化パラメータ記憶部。
DESCRIPTION OF
Claims (6)
コヒーレンスフィルタ係数を算出するコヒーレンスフィルタ係数算出手段と、
算出された上記コヒーレンスフィルタ係数を、周波数領域上で平滑化してから、コヒーレンスフィルタ処理に適用させる係数平滑化手段と
を有することを特徴とする音声信号処理装置。 In an audio signal processing apparatus that suppresses noise components included in an input audio signal by coherence filter processing,
Coherence filter coefficient calculating means for calculating a coherence filter coefficient;
An audio signal processing apparatus comprising: coefficient smoothing means for smoothing the calculated coherence filter coefficient on a frequency domain and applying the smoothed coefficient to a coherence filter process.
コヒーレンスフィルタ係数を算出するコヒーレンスフィルタ係数算出手段と、
算出された上記コヒーレンスフィルタ係数を、周波数領域上で平滑化してから、コヒーレンスフィルタ処理に適用させる係数平滑化手段と
して機能させることを特徴とする音声信号処理プログラム。 A computer mounted on an audio signal processing device that suppresses noise components contained in the input audio signal by coherence filter processing,
Coherence filter coefficient calculating means for calculating a coherence filter coefficient;
An audio signal processing program that functions as a coefficient smoothing unit that smoothes the calculated coherence filter coefficient in a frequency domain and then applies the coefficient to a coherence filter process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013154826A JP2015025914A (en) | 2013-07-25 | 2013-07-25 | Voice signal processor and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013154826A JP2015025914A (en) | 2013-07-25 | 2013-07-25 | Voice signal processor and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015025914A true JP2015025914A (en) | 2015-02-05 |
Family
ID=52490628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013154826A Pending JP2015025914A (en) | 2013-07-25 | 2013-07-25 | Voice signal processor and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015025914A (en) |
-
2013
- 2013-07-25 JP JP2013154826A patent/JP2015025914A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5817366B2 (en) | Audio signal processing apparatus, method and program | |
WO2015196729A1 (en) | Microphone array speech enhancement method and device | |
JP5838861B2 (en) | Audio signal processing apparatus, method and program | |
JP6225245B2 (en) | Signal processing apparatus, method and program | |
JP2011244232A (en) | Microphone array apparatus and program executed by the same | |
JP2016048872A (en) | Sound collection device | |
Yousefian et al. | Using power level difference for near field dual-microphone speech enhancement | |
JP6221257B2 (en) | Signal processing apparatus, method and program | |
JP6314475B2 (en) | Audio signal processing apparatus and program | |
WO2020110228A1 (en) | Information processing device, program and information processing method | |
JP6221258B2 (en) | Signal processing apparatus, method and program | |
JP6638248B2 (en) | Audio determination device, method and program, and audio signal processing device | |
JP6711205B2 (en) | Acoustic signal processing device, program and method | |
JP6263890B2 (en) | Audio signal processing apparatus and program | |
JP6854967B1 (en) | Noise suppression device, noise suppression method, and noise suppression program | |
JP6221463B2 (en) | Audio signal processing apparatus and program | |
JP6631127B2 (en) | Voice determination device, method and program, and voice processing device | |
JP2015025914A (en) | Voice signal processor and program | |
JP6295650B2 (en) | Audio signal processing apparatus and program | |
Xiang et al. | Multi-channel adaptive dereverberation robust to abrupt change of target speaker position | |
JP6361360B2 (en) | Reverberation judgment device and program | |
JP6903947B2 (en) | Non-purpose sound suppressors, methods and programs | |
JP2014164192A (en) | Signal processor, signal processing method and program | |
JP6252274B2 (en) | Background noise section estimation apparatus and program | |
JP6213324B2 (en) | Audio signal processing apparatus and program |