CN107680609A - 一种基于噪声功率谱密度的双通道语音增强方法 - Google Patents
一种基于噪声功率谱密度的双通道语音增强方法 Download PDFInfo
- Publication number
- CN107680609A CN107680609A CN201710818095.1A CN201710818095A CN107680609A CN 107680609 A CN107680609 A CN 107680609A CN 201710818095 A CN201710818095 A CN 201710818095A CN 107680609 A CN107680609 A CN 107680609A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- noise
- mfrac
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000003595 spectral effect Effects 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 238000009499 grossing Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000001629 suppression Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开了一种基于噪声功率谱密度的双通道语音增强方法,其特征是,包括如下步骤:1)对两个通道接收到的语音信号进行短时傅里叶变换;2)构建一个互功率谱减滤波器;3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计;4)对仍有噪声残留的含噪语音信号进行噪声的准确估计。这种方法可以减少相干性噪声残留,同时能提升对非相干性噪声的抑制,这种方法的可移植性强,对于小型智能移动设备而言有着好的应用前景。
Description
技术领域
本发明涉及语音增强技术领域,尤其涉及一种基于噪声功率谱密度的双通道语音增强方法。
背景技术
在现有的小型移动设备中,常采用单个麦克风或双麦克风阵列的方法处理周围环境中的相干以及非相干噪声,而传统方法包括谱减,维纳滤波以及基于统计模型的方法并不能取得很好的效果。经典的基于频域相干函数的双麦克风阵列去噪技术通过计算信号的互功率谱密度,自功率谱密度构造一个相干滤波器进行滤波,但是这种方法局限在于要求两个麦克风之间的噪声信号是不相干的。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于噪声功率谱密度的双通道语音增强方法。这种方法可以减少相干性噪声残留,同时能提升对非相干性噪声的抑制,这种方法的可移植性强,对于小型智能移动设备而言有着好的应用前景。
实现本发明目的的技术方案是:
一种基于噪声功率谱密度的双通道语音增强方法,包括如下步骤:
1)对两个通道接收到的语音信号进行短时傅里叶变换:假设主麦克风和次麦克风接收到的语音信号如下:
x1(t)=h1s1(t)+n1(t)
x2(t)=h2s2(t-τ)+n2(t)
其中,x1(t)和x2(t)为t时刻主麦克风和次麦克风接收到的带噪语音信号,s1(t)和s2(t)为t时刻的源信号,h1和h2分别为主麦克风和次麦克风的传输衰减,n1(t)和n2(t)为t时刻主麦克风和次麦克风接收到的噪声信号,τ表示源信号到达两个麦克风的时间差,主麦克风和次麦克风接收到的语音信号在短时傅里叶变换域可表示为:
X1(f,n)=h1(f)S1(f,n)+N1(f,n)
X2(f,n)=h2(f)S2(f,n)×ejθ+N2(f,n)
其中,f和n分别表示频率点和帧索引的位置;
2)构建一个互功率谱减滤波器:
其中,PX1X1(f,n),PX2X2(f,n),PX1X2(f,n)分别代表X1(f,n)的自功率谱密度,X2(f,n)的自功率谱密度,X1(f,n)和X2(f,n)的互功率谱密度;
3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计:为了减少谱减过程中所引入的音乐噪声和高的语音失真度,采用先验信噪比(SNR)和后验信噪比以及直接判决相结合的方法对噪声信号的功率谱密度进行初步的估计:
其中,SNRCS(f,n)代表着纯净语音的互功率谱密度与噪声信号的比值;
接着引入谱修正滤波器,在两个麦克风之间通过前一帧的数据来采用迭代噪声功率谱密度的方法对噪声进行估计:
根据该滤波器对原始带噪信号进行滤波得到重建之后的信号为:
然后对上述得到的信号进行逆短时傅里叶变换及叠接相加,从而恢复出期望的干净信号;
4)对仍有噪声残留的含噪语音信号进行噪声的准确估计:利用最小控制递归平均算法对仍有噪声残留的含噪语音信号进行噪声的准确估计,由于步骤3)得到的噪声估计不准确,会产生音乐噪声或影响增强效果,因此在后端添加一个最小控制递归平均算法对步骤3)得到的噪声估计进行噪声的准确估计,最小控制递归平均(ICRMA)算法通过引入条件概率p(k,l)来对噪声进行估计,可通过以下得到:
其中,表示第k个频带的第l点的噪声功率谱密度估计,αd(0<αd<1)是一个平滑参数,Y(k,l)定义为第k个频带的第l点的信号幅度,条件概率p(k,l)通过两次平滑和最小值搜索计算得到,过程如下:
其中:m为连续帧个数,b(i)为加权因子;
第二次平滑如下:
S(k,l)=αsS(k-1,l)+(1+αs)Sf(k,l)
其中,αs为平滑因子,再经过最小值搜索得到:
Smin(k,l)=min{S(k,l)|k-m+1<<k<<k}
最后得到条件概率估计值
其中γ(k,l)为先验信噪比,q(k,l)为先验语音不存在概率。
这种方法利用双麦克风通道间语音信号的互功率谱密度,自功率谱密度来构造一个谱修正滤波器来对含噪语音信号进行滤波,从而恢复出期望的干净的纯净语音信号,实现语音信号的增强。
相比于传统的单通道语音增强算法,这种方法利用两个通道间语音信号的强相关性和噪声信号的弱相关性来进行修复,同时结合最小控制递归平均算法,可以有效的避免信号的失真;另一方面,这种方法的可移植性强,对于小型智能移动设备而言有着好的应用前景。
附图说明
图1为实施例中主麦克风的纯净语音信号示意图;
图2为实施例中次麦克风的纯净语音信号示意图;
图3为实施例中主麦克风的-5dB的babble噪声情况下的含噪语音信号的示意图;
图4为实施例中次麦克风的-5dB的babble噪声情况下的含噪语音信号的示意图;
图5为实施例中双通道去噪后的信号时域波形图;
图6为实施例中双通道去噪后的信号时域波形图;
图7为实施例方法流程示意图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步阐述,但不是对本发明的限定。
实施例:
参照图7,一种基于噪声功率谱密度的双通道语音增强方法,包括如下步骤:
1)对两个通道接收到的语音信号进行短时傅里叶变换:假设主麦克风和次麦克风接收到的语音信号如下:
x1(t)=h1s1(t)+n1(t)
x2(t)=h2s2(t-τ)+n2(t)
其中,x1(t)和x2(t)为t时刻主麦克风和次麦克风接收到的带噪语音信号,图3和图4分别为主麦克风和次麦克风的带噪语音信号时域波形图;s1(t)和s2(t)为t时刻的源信号,图1和图2分别为主麦克风和次麦克风的纯净语音信号时域波形图;h1和h2分别为主麦克风和次麦克风的传输衰减,n1(t)和n2(t)为t时刻主麦克风和次麦克风接收到的噪声信号,τ表示源信号到达两个麦克风的时间差,主麦克风和次麦克风接收到的语音信号在短时傅里叶变换域可表示为:
X1(f,n)=h1(f)S1(f,n)+N1(f,n)
X2(f,n)=h2(f)S2(f,n)×ejθ+N2(f,n)
其中,f和n分别表示频率点和帧索引的位置;
2)构建一个互功率谱减滤波器:
其中,PX1X1(f,n),PX2X2(f,n),PX1X2(f,n)分别代表X1(f,n)的自功率谱密度,X2(f,n)的自功率谱密度,X1(f,n)和X2(f,n)的互功率谱密度;
3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计:为了减少谱减过程中所引入的音乐噪声和高的语音失真度,采用先验信噪比(SNR)和后验信噪比以及直接判决相结合的方法对噪声信号的功率谱密度进行初步的估计:
其中,SNRCS(f,n)代表着纯净语音的互功率谱密度与噪声信号的比值;
接着引入谱修正滤波器,在两个麦克风之间通过前一帧的数据来采用迭代噪声功率谱密度的方法对噪声进行估计:
根据该滤波器对原始带噪信号进行滤波得到重建之后的信号为:
然后对上述得到的信号进行逆短时傅里叶变换及叠接相加,从而恢复出期望的干净信号,即对噪声信号的功率谱密度进行初步的估计后的输出信号波形图如图5所示;
4)对仍有噪声残留的含噪语音信号进行噪声的准确估计:利用最小控制递归平均算法对仍有噪声残留的含噪语音信号进行噪声的准确估计,由于步骤3)得到的噪声估计不准确,会产生音乐噪声或影响增强效果,因此在后端添加一个最小控制递归平均算法对步骤3)得到的噪声估计进行噪声的准确估计,最小控制递归平均(ICRMA)算法通过引入条件概率p(k,l)来对噪声进行估计,可通过以下得到:
其中,表示第k个频带的第l点的噪声功率谱密度估计,αd(0<αd<1)是一个平滑参数,Y(k,l)定义为第k个频带的第I点的信号幅度,条件概率p(k,l)通过两次平滑和最小值搜索计算得到,过程如下:
其中:m为连续帧个数,b(i)为加权因子;
第二次平滑如下:
S(k,l)=αsS(k-1,l)+(1+αs)Sf(k,l)
其中,αs为平滑因子,再经过最小值搜索得到:
Smin(k,l)=min{S(k,l)|k-m+1<<k<<k}
最后得到条件概率估计值
其中γ(k,l)为先验信噪比,q(k,l)为先验语音不存在概率。
对仍有噪声残留的含噪语音信号进行噪声的准确估计后的输出信号波形图如图6所示。
Claims (1)
1.一种基于噪声功率谱密度的双通道语音增强方法,其特征是,包括如下步骤:
1)对两个通道接收到的语音信号进行短时傅里叶变换:假设主麦克风和次麦克风接收到的语音信号如下:
x1(t)=h1s1(t)+n1(t)
x2(t)=h2s2(t-τ)+n2(t)
其中,x1(t)和x2(t)为t时刻主麦克风和次麦克风接收到的带噪语音信号,s1(t)和s2(t)为t时刻的源信号,h1和h2分别为主麦克风和次麦克风的传输衰减,n1(t)和n2(t)为t时刻主麦克风和次麦克风接收到的噪声信号,τ表示源信号到达两个麦克风的时间差,主麦克风和次麦克风接收到的语音信号在短时傅里叶变换域可表示为:
X1(f,n)=h1(f)S1(f,n)+N1(f,n)
X2(f,n)=h2(f)S2(f,n)×ejθ+N2(f,n)
其中,f和n分别表示频率点和帧索引的位置;
2)构建一个互功率谱减滤波器:
<mrow>
<msub>
<mi>H</mi>
<mrow>
<mi>C</mi>
<mi>P</mi>
<mi>S</mi>
<mi>S</mi>
</mrow>
</msub>
<mo>|</mo>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>X</mi>
<mn>1</mn>
<mi>X</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>-</mo>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>N</mi>
<mn>1</mn>
<mi>N</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<msqrt>
<mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>X</mi>
<mn>1</mn>
<mi>X</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>X</mi>
<mn>2</mn>
<mi>X</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mfrac>
</mrow>
其中,PX1X1(f,n),PX2X2(f,n),PX1X2(f,n)分别代表X1(f,n)的自功率谱密度,X2(f,n)的自功率谱密度,X1(f,n)和X2(f,n)的互功率谱密度;
3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计:采用先验信噪比(SNR)和后验信噪比以及直接判决相结合的方法对噪声信号的功率谱密度进行初步的估计:
<mrow>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>S</mi>
<mn>1</mn>
<mi>S</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>=</mo>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>X</mi>
<mn>1</mn>
<mi>X</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>S</mi>
<mn>1</mn>
<mi>S</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>S</mi>
<mn>1</mn>
<mi>S</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>+</mo>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>N</mi>
<mn>1</mn>
<mi>N</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
</mfrac>
<mo>=</mo>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>X</mi>
<mi>I</mi>
<mi>X</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mfrac>
<mrow>
<msub>
<mi>SNR</mi>
<mrow>
<mi>C</mi>
<mi>S</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>SNR</mi>
<mrow>
<mi>C</mi>
<mi>S</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
</mrow>
其中,SNRCS(f,n)代表着纯净语音的互功率谱密度与噪声信号的比值;
<mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>P</mi>
<mi>O</mi>
<mi>S</mi>
<mi>T</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mo>&lsqb;</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>X</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<msubsup>
<mi>X</mi>
<mn>2</mn>
<mo>*</mo>
</msubsup>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>N</mi>
<mn>1</mn>
<mi>N</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
</mfrac>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mn>0</mn>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>P</mi>
<mi>R</mi>
<mi>I</mi>
<mi>O</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>D</mi>
<mi>D</mi>
</mrow>
</msub>
<mi>H</mi>
<msup>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>X</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<msubsup>
<mi>X</mi>
<mn>2</mn>
<mo>*</mo>
</msubsup>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<msub>
<mi>N</mi>
<mn>1</mn>
</msub>
<msub>
<mi>N</mi>
<mn>2</mn>
</msub>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
</mfrac>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>D</mi>
<mi>D</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>P</mi>
<mi>O</mi>
<mi>S</mi>
<mi>T</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
接着引入谱修正滤波器,在两个麦克风之间通过前一帧的数据来采用迭代噪声功率谱密度的方法对噪声进行估计:
<mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>N</mi>
<mn>1</mn>
<mi>N</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>&beta;</mi>
<mi>n</mi>
</msub>
<msub>
<mi>P</mi>
<mrow>
<mi>N</mi>
<mn>1</mn>
<mi>N</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>&beta;</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msub>
<mi>X</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<msubsup>
<mi>X</mi>
<mn>1</mn>
<mo>*</mo>
</msubsup>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>H</mi>
<mrow>
<mi>C</mi>
<mi>P</mi>
<mi>S</mi>
<mi>S</mi>
<mo>,</mo>
<msub>
<mi>R</mi>
<mrow>
<mi>P</mi>
<mi>R</mi>
<mi>I</mi>
<mi>O</mi>
</mrow>
</msub>
</mrow>
</msub>
<mo>(</mo>
<mrow>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>S</mi>
<mn>1</mn>
<mi>S</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mo>&lsqb;</mo>
<mo>|</mo>
<msub>
<mi>X</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<msubsup>
<mi>X</mi>
<mn>1</mn>
<mo>*</mo>
</msubsup>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>-</mo>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>N</mi>
<mn>1</mn>
<mi>N</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<msub>
<mi>H</mi>
<mrow>
<mi>C</mi>
<mi>P</mi>
<mi>S</mi>
<mi>S</mi>
<mo>,</mo>
<msub>
<mi>R</mi>
<mrow>
<mi>P</mi>
<mi>R</mi>
<mi>I</mi>
<mi>O</mi>
</mrow>
</msub>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<msub>
<mi>P</mi>
<mrow>
<mi>X</mi>
<mn>1</mn>
<mi>X</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<msqrt>
<mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>X</mi>
<mn>1</mn>
<mi>X</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<msub>
<mi>P</mi>
<mrow>
<mi>X</mi>
<mn>2</mn>
<mi>X</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mfrac>
<mfrac>
<mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>P</mi>
<mi>R</mi>
<mi>I</mi>
<mi>O</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>R</mi>
<mrow>
<mi>P</mi>
<mi>R</mi>
<mi>I</mi>
<mi>O</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
</mrow>
根据该滤波器对原始带噪信号进行滤波得到重建之后的信号为:
<mrow>
<mover>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>^</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>H</mi>
<mrow>
<mi>C</mi>
<mi>P</mi>
<mi>S</mi>
<mi>S</mi>
<mo>,</mo>
<msub>
<mi>R</mi>
<mrow>
<mi>P</mi>
<mi>R</mi>
<mi>I</mi>
<mi>O</mi>
</mrow>
</msub>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<msub>
<mi>X</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
然后对上述得到的信号进行逆短时傅里叶变换及叠接相加,从而恢复出期望的干净信号;
4)对仍有噪声残留的含噪语音信号进行噪声的准确估计:利用最小控制递归平均算法对仍有噪声残留的含噪语音信号进行噪声的准确估计,在后端添加一个最小控制递归平均算法对步骤3)得到的噪声估计进行噪声的准确估计,最小控制递归平均(ICRMA)算法通过引入条件概率p(k,l)来对噪声进行估计,可通过以下得到:
<mrow>
<mover>
<msub>
<mi>&beta;</mi>
<mi>d</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mover>
<msub>
<mi>&beta;</mi>
<mi>d</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mo>&lsqb;</mo>
<msub>
<mi>&alpha;</mi>
<mi>d</mi>
</msub>
<mover>
<msub>
<mi>&beta;</mi>
<mi>d</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>&alpha;</mi>
<mi>d</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mi>Y</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>&rsqb;</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
其中,表示第k个频带的第l点的噪声功率谱密度估计,αd(0<αd<1)是一个平滑参数,Y(k,l)定义为第k个频带的第l点的信号幅度,条件概率p(k,l)通过两次平滑和最小值搜索计算得到,过程如下:
<mrow>
<msub>
<mi>S</mi>
<mi>f</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mo>-</mo>
<mi>m</mi>
</mrow>
<mi>m</mi>
</munderover>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<mi>Y</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
其中:m为连续帧个数,b(i)为加权因子;
第二次平滑如下:
S(k,l)=αsS(k-1,l)+(1+αs)Sf(k,l)
其中,αs为平滑因子,再经过最小值搜索得到:
Smin(k,l)=min{S(k,l)|k-m+1<<k<<k}
最后得到条件概率估计值
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>1</mn>
<mo>+</mo>
<mfrac>
<mrow>
<mi>q</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>q</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>)</mo>
<mi>exp</mi>
<mo>(</mo>
<mo>-</mo>
<mi>v</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>,</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>)</mo>
</mrow>
</mfrac>
</mrow>
其中γ(k,l)为先验信噪比,q(k,l)为先验语音不存在概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710818095.1A CN107680609A (zh) | 2017-09-12 | 2017-09-12 | 一种基于噪声功率谱密度的双通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710818095.1A CN107680609A (zh) | 2017-09-12 | 2017-09-12 | 一种基于噪声功率谱密度的双通道语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107680609A true CN107680609A (zh) | 2018-02-09 |
Family
ID=61134815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710818095.1A Pending CN107680609A (zh) | 2017-09-12 | 2017-09-12 | 一种基于噪声功率谱密度的双通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107680609A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN108735229A (zh) * | 2018-06-12 | 2018-11-02 | 华南理工大学 | 一种基于信噪比加权的幅度与相位联合补偿抗噪语音增强方法及实现装置 |
CN108899041A (zh) * | 2018-08-20 | 2018-11-27 | 百度在线网络技术(北京)有限公司 | 语音信号加噪方法、装置及存储介质 |
CN109616139A (zh) * | 2018-12-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN110232913A (zh) * | 2019-06-19 | 2019-09-13 | 桂林电子科技大学 | 一种语音端点检测方法 |
CN110931007A (zh) * | 2019-12-04 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN111653292A (zh) * | 2020-06-22 | 2020-09-11 | 桂林电子科技大学 | 一种中国学生英语朗读质量分析方法 |
CN111863015A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN112767962A (zh) * | 2021-03-01 | 2021-05-07 | 北京电信易通信息技术股份有限公司 | 一种语音增强方法及系统 |
CN113841198A (zh) * | 2019-05-01 | 2021-12-24 | 伯斯有限公司 | 使用相干性的信号分量估计 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916567A (zh) * | 2009-11-23 | 2010-12-15 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN102509552A (zh) * | 2011-10-21 | 2012-06-20 | 浙江大学 | 一种基于联合抑制的麦克风阵列语音增强方法 |
CN105976826A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学技术大学 | 应用于双麦克风小型手持设备的语音降噪方法 |
-
2017
- 2017-09-12 CN CN201710818095.1A patent/CN107680609A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916567A (zh) * | 2009-11-23 | 2010-12-15 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN102509552A (zh) * | 2011-10-21 | 2012-06-20 | 浙江大学 | 一种基于联合抑制的麦克风阵列语音增强方法 |
CN105976826A (zh) * | 2016-04-28 | 2016-09-28 | 中国科学技术大学 | 应用于双麦克风小型手持设备的语音降噪方法 |
Non-Patent Citations (1)
Title |
---|
胡丹等: "连续语音识别前端鲁棒性研究", 《电视技术》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN108735229A (zh) * | 2018-06-12 | 2018-11-02 | 华南理工大学 | 一种基于信噪比加权的幅度与相位联合补偿抗噪语音增强方法及实现装置 |
CN108899041A (zh) * | 2018-08-20 | 2018-11-27 | 百度在线网络技术(北京)有限公司 | 语音信号加噪方法、装置及存储介质 |
CN108899041B (zh) * | 2018-08-20 | 2019-12-27 | 百度在线网络技术(北京)有限公司 | 语音信号加噪方法、装置及存储介质 |
CN109616139A (zh) * | 2018-12-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN109616139B (zh) * | 2018-12-25 | 2023-11-03 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN111863015A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN113841198A (zh) * | 2019-05-01 | 2021-12-24 | 伯斯有限公司 | 使用相干性的信号分量估计 |
CN113841198B (zh) * | 2019-05-01 | 2023-07-14 | 伯斯有限公司 | 使用相干性的信号分量估计 |
CN110232913A (zh) * | 2019-06-19 | 2019-09-13 | 桂林电子科技大学 | 一种语音端点检测方法 |
CN110931007A (zh) * | 2019-12-04 | 2020-03-27 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN111653292B (zh) * | 2020-06-22 | 2023-03-31 | 桂林电子科技大学 | 一种中国学生英语朗读质量分析方法 |
CN111653292A (zh) * | 2020-06-22 | 2020-09-11 | 桂林电子科技大学 | 一种中国学生英语朗读质量分析方法 |
CN112767962B (zh) * | 2021-03-01 | 2021-08-03 | 北京电信易通信息技术股份有限公司 | 一种语音增强方法及系统 |
CN112767962A (zh) * | 2021-03-01 | 2021-05-07 | 北京电信易通信息技术股份有限公司 | 一种语音增强方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680609A (zh) | 一种基于噪声功率谱密度的双通道语音增强方法 | |
US8010355B2 (en) | Low complexity noise reduction method | |
WO2022160593A1 (zh) | 一种语音增强方法、装置、系统及计算机可读存储介质 | |
KR101726737B1 (ko) | 다채널 음원 분리 장치 및 그 방법 | |
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及系统 | |
US9697846B2 (en) | Method and apparatus for reducing echo | |
CN105788607B (zh) | 应用于双麦克风阵列的语音增强方法 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
US8447596B2 (en) | Monaural noise suppression based on computational auditory scene analysis | |
CN111418010A (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
CN101916567B (zh) | 应用于双麦克风系统的语音增强方法 | |
KR20130108063A (ko) | 다중 마이크로폰의 견고한 잡음 억제 | |
CN102347028A (zh) | 双麦克风语音增强装置及方法 | |
CN105280193B (zh) | 基于mmse误差准则的先验信噪比估计方法 | |
CN104103277A (zh) | 一种基于时频掩膜的单声学矢量传感器目标语音增强方法 | |
CN106157964A (zh) | 一种确定回声消除中系统延时的方法 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
CN112634926A (zh) | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 | |
CN112634927B (zh) | 一种短波信道语音增强方法 | |
US9666206B2 (en) | Method, system and computer program product for attenuating noise in multiple time frames | |
KR20110024969A (ko) | 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
US20130054233A1 (en) | Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels | |
CN108899042A (zh) | 一种基于移动平台的语音降噪方法 | |
CN103971697A (zh) | 基于非局部均值滤波的语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180209 |
|
WD01 | Invention patent application deemed withdrawn after publication |