CN107680609A - 一种基于噪声功率谱密度的双通道语音增强方法 - Google Patents

一种基于噪声功率谱密度的双通道语音增强方法 Download PDF

Info

Publication number
CN107680609A
CN107680609A CN201710818095.1A CN201710818095A CN107680609A CN 107680609 A CN107680609 A CN 107680609A CN 201710818095 A CN201710818095 A CN 201710818095A CN 107680609 A CN107680609 A CN 107680609A
Authority
CN
China
Prior art keywords
mrow
msub
noise
mfrac
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710818095.1A
Other languages
English (en)
Inventor
曾庆宁
毛维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201710818095.1A priority Critical patent/CN107680609A/zh
Publication of CN107680609A publication Critical patent/CN107680609A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种基于噪声功率谱密度的双通道语音增强方法,其特征是,包括如下步骤:1)对两个通道接收到的语音信号进行短时傅里叶变换;2)构建一个互功率谱减滤波器;3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计;4)对仍有噪声残留的含噪语音信号进行噪声的准确估计。这种方法可以减少相干性噪声残留,同时能提升对非相干性噪声的抑制,这种方法的可移植性强,对于小型智能移动设备而言有着好的应用前景。

Description

一种基于噪声功率谱密度的双通道语音增强方法
技术领域
本发明涉及语音增强技术领域,尤其涉及一种基于噪声功率谱密度的双通道语音增强方法。
背景技术
在现有的小型移动设备中,常采用单个麦克风或双麦克风阵列的方法处理周围环境中的相干以及非相干噪声,而传统方法包括谱减,维纳滤波以及基于统计模型的方法并不能取得很好的效果。经典的基于频域相干函数的双麦克风阵列去噪技术通过计算信号的互功率谱密度,自功率谱密度构造一个相干滤波器进行滤波,但是这种方法局限在于要求两个麦克风之间的噪声信号是不相干的。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于噪声功率谱密度的双通道语音增强方法。这种方法可以减少相干性噪声残留,同时能提升对非相干性噪声的抑制,这种方法的可移植性强,对于小型智能移动设备而言有着好的应用前景。
实现本发明目的的技术方案是:
一种基于噪声功率谱密度的双通道语音增强方法,包括如下步骤:
1)对两个通道接收到的语音信号进行短时傅里叶变换:假设主麦克风和次麦克风接收到的语音信号如下:
x1(t)=h1s1(t)+n1(t)
x2(t)=h2s2(t-τ)+n2(t)
其中,x1(t)和x2(t)为t时刻主麦克风和次麦克风接收到的带噪语音信号,s1(t)和s2(t)为t时刻的源信号,h1和h2分别为主麦克风和次麦克风的传输衰减,n1(t)和n2(t)为t时刻主麦克风和次麦克风接收到的噪声信号,τ表示源信号到达两个麦克风的时间差,主麦克风和次麦克风接收到的语音信号在短时傅里叶变换域可表示为:
X1(f,n)=h1(f)S1(f,n)+N1(f,n)
X2(f,n)=h2(f)S2(f,n)×e+N2(f,n)
其中,f和n分别表示频率点和帧索引的位置;
2)构建一个互功率谱减滤波器:
其中,PX1X1(f,n),PX2X2(f,n),PX1X2(f,n)分别代表X1(f,n)的自功率谱密度,X2(f,n)的自功率谱密度,X1(f,n)和X2(f,n)的互功率谱密度;
3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计:为了减少谱减过程中所引入的音乐噪声和高的语音失真度,采用先验信噪比(SNR)和后验信噪比以及直接判决相结合的方法对噪声信号的功率谱密度进行初步的估计:
其中,SNRCS(f,n)代表着纯净语音的互功率谱密度与噪声信号的比值;
接着引入谱修正滤波器,在两个麦克风之间通过前一帧的数据来采用迭代噪声功率谱密度的方法对噪声进行估计:
根据该滤波器对原始带噪信号进行滤波得到重建之后的信号为:
然后对上述得到的信号进行逆短时傅里叶变换及叠接相加,从而恢复出期望的干净信号;
4)对仍有噪声残留的含噪语音信号进行噪声的准确估计:利用最小控制递归平均算法对仍有噪声残留的含噪语音信号进行噪声的准确估计,由于步骤3)得到的噪声估计不准确,会产生音乐噪声或影响增强效果,因此在后端添加一个最小控制递归平均算法对步骤3)得到的噪声估计进行噪声的准确估计,最小控制递归平均(ICRMA)算法通过引入条件概率p(k,l)来对噪声进行估计,可通过以下得到:
其中,表示第k个频带的第l点的噪声功率谱密度估计,αd(0<αd<1)是一个平滑参数,Y(k,l)定义为第k个频带的第l点的信号幅度,条件概率p(k,l)通过两次平滑和最小值搜索计算得到,过程如下:
其中:m为连续帧个数,b(i)为加权因子;
第二次平滑如下:
S(k,l)=αsS(k-1,l)+(1+αs)Sf(k,l)
其中,αs为平滑因子,再经过最小值搜索得到:
Smin(k,l)=min{S(k,l)|k-m+1<<k<<k}
最后得到条件概率估计值
其中γ(k,l)为先验信噪比,q(k,l)为先验语音不存在概率。
这种方法利用双麦克风通道间语音信号的互功率谱密度,自功率谱密度来构造一个谱修正滤波器来对含噪语音信号进行滤波,从而恢复出期望的干净的纯净语音信号,实现语音信号的增强。
相比于传统的单通道语音增强算法,这种方法利用两个通道间语音信号的强相关性和噪声信号的弱相关性来进行修复,同时结合最小控制递归平均算法,可以有效的避免信号的失真;另一方面,这种方法的可移植性强,对于小型智能移动设备而言有着好的应用前景。
附图说明
图1为实施例中主麦克风的纯净语音信号示意图;
图2为实施例中次麦克风的纯净语音信号示意图;
图3为实施例中主麦克风的-5dB的babble噪声情况下的含噪语音信号的示意图;
图4为实施例中次麦克风的-5dB的babble噪声情况下的含噪语音信号的示意图;
图5为实施例中双通道去噪后的信号时域波形图;
图6为实施例中双通道去噪后的信号时域波形图;
图7为实施例方法流程示意图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步阐述,但不是对本发明的限定。
实施例:
参照图7,一种基于噪声功率谱密度的双通道语音增强方法,包括如下步骤:
1)对两个通道接收到的语音信号进行短时傅里叶变换:假设主麦克风和次麦克风接收到的语音信号如下:
x1(t)=h1s1(t)+n1(t)
x2(t)=h2s2(t-τ)+n2(t)
其中,x1(t)和x2(t)为t时刻主麦克风和次麦克风接收到的带噪语音信号,图3和图4分别为主麦克风和次麦克风的带噪语音信号时域波形图;s1(t)和s2(t)为t时刻的源信号,图1和图2分别为主麦克风和次麦克风的纯净语音信号时域波形图;h1和h2分别为主麦克风和次麦克风的传输衰减,n1(t)和n2(t)为t时刻主麦克风和次麦克风接收到的噪声信号,τ表示源信号到达两个麦克风的时间差,主麦克风和次麦克风接收到的语音信号在短时傅里叶变换域可表示为:
X1(f,n)=h1(f)S1(f,n)+N1(f,n)
X2(f,n)=h2(f)S2(f,n)×e+N2(f,n)
其中,f和n分别表示频率点和帧索引的位置;
2)构建一个互功率谱减滤波器:
其中,PX1X1(f,n),PX2X2(f,n),PX1X2(f,n)分别代表X1(f,n)的自功率谱密度,X2(f,n)的自功率谱密度,X1(f,n)和X2(f,n)的互功率谱密度;
3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计:为了减少谱减过程中所引入的音乐噪声和高的语音失真度,采用先验信噪比(SNR)和后验信噪比以及直接判决相结合的方法对噪声信号的功率谱密度进行初步的估计:
其中,SNRCS(f,n)代表着纯净语音的互功率谱密度与噪声信号的比值;
接着引入谱修正滤波器,在两个麦克风之间通过前一帧的数据来采用迭代噪声功率谱密度的方法对噪声进行估计:
根据该滤波器对原始带噪信号进行滤波得到重建之后的信号为:
然后对上述得到的信号进行逆短时傅里叶变换及叠接相加,从而恢复出期望的干净信号,即对噪声信号的功率谱密度进行初步的估计后的输出信号波形图如图5所示;
4)对仍有噪声残留的含噪语音信号进行噪声的准确估计:利用最小控制递归平均算法对仍有噪声残留的含噪语音信号进行噪声的准确估计,由于步骤3)得到的噪声估计不准确,会产生音乐噪声或影响增强效果,因此在后端添加一个最小控制递归平均算法对步骤3)得到的噪声估计进行噪声的准确估计,最小控制递归平均(ICRMA)算法通过引入条件概率p(k,l)来对噪声进行估计,可通过以下得到:
其中,表示第k个频带的第l点的噪声功率谱密度估计,αd(0<αd<1)是一个平滑参数,Y(k,l)定义为第k个频带的第I点的信号幅度,条件概率p(k,l)通过两次平滑和最小值搜索计算得到,过程如下:
其中:m为连续帧个数,b(i)为加权因子;
第二次平滑如下:
S(k,l)=αsS(k-1,l)+(1+αs)Sf(k,l)
其中,αs为平滑因子,再经过最小值搜索得到:
Smin(k,l)=min{S(k,l)|k-m+1<<k<<k}
最后得到条件概率估计值
其中γ(k,l)为先验信噪比,q(k,l)为先验语音不存在概率。
对仍有噪声残留的含噪语音信号进行噪声的准确估计后的输出信号波形图如图6所示。

Claims (1)

1.一种基于噪声功率谱密度的双通道语音增强方法,其特征是,包括如下步骤:
1)对两个通道接收到的语音信号进行短时傅里叶变换:假设主麦克风和次麦克风接收到的语音信号如下:
x1(t)=h1s1(t)+n1(t)
x2(t)=h2s2(t-τ)+n2(t)
其中,x1(t)和x2(t)为t时刻主麦克风和次麦克风接收到的带噪语音信号,s1(t)和s2(t)为t时刻的源信号,h1和h2分别为主麦克风和次麦克风的传输衰减,n1(t)和n2(t)为t时刻主麦克风和次麦克风接收到的噪声信号,τ表示源信号到达两个麦克风的时间差,主麦克风和次麦克风接收到的语音信号在短时傅里叶变换域可表示为:
X1(f,n)=h1(f)S1(f,n)+N1(f,n)
X2(f,n)=h2(f)S2(f,n)×e+N2(f,n)
其中,f和n分别表示频率点和帧索引的位置;
2)构建一个互功率谱减滤波器:
<mrow> <msub> <mi>H</mi> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <mi>S</mi> </mrow> </msub> <mo>|</mo> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>X</mi> <mn>1</mn> <mi>X</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>N</mi> <mn>1</mn> <mi>N</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <msqrt> <mrow> <msub> <mi>P</mi> <mrow> <mi>X</mi> <mn>1</mn> <mi>X</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>X</mi> <mn>2</mn> <mi>X</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </msqrt> </mfrac> </mrow>
其中,PX1X1(f,n),PX2X2(f,n),PX1X2(f,n)分别代表X1(f,n)的自功率谱密度,X2(f,n)的自功率谱密度,X1(f,n)和X2(f,n)的互功率谱密度;
3)构建一个谱修正滤波器并对噪声信号的功率谱密度进行初步的估计:采用先验信噪比(SNR)和后验信噪比以及直接判决相结合的方法对噪声信号的功率谱密度进行初步的估计:
<mrow> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>S</mi> <mn>1</mn> <mi>S</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>=</mo> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>X</mi> <mn>1</mn> <mi>X</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>S</mi> <mn>1</mn> <mi>S</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>S</mi> <mn>1</mn> <mi>S</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>+</mo> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>N</mi> <mn>1</mn> <mi>N</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>X</mi> <mi>I</mi> <mi>X</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>SNR</mi> <mrow> <mi>C</mi> <mi>S</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>SNR</mi> <mrow> <mi>C</mi> <mi>S</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> </mrow>
其中,SNRCS(f,n)代表着纯净语音的互功率谱密度与噪声信号的比值;
<mrow> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>O</mi> <mi>S</mi> <mi>T</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>&amp;lsqb;</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <msubsup> <mi>X</mi> <mn>2</mn> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>N</mi> <mn>1</mn> <mi>N</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mn>0</mn> <mo>&amp;rsqb;</mo> </mrow>
<mrow> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;alpha;</mi> <mrow> <mi>D</mi> <mi>D</mi> </mrow> </msub> <mi>H</mi> <msup> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mfrac> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <msubsup> <mi>X</mi> <mn>2</mn> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>P</mi> <mrow> <msub> <mi>N</mi> <mn>1</mn> </msub> <msub> <mi>N</mi> <mn>2</mn> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mrow> <mi>D</mi> <mi>D</mi> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>O</mi> <mi>S</mi> <mi>T</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
接着引入谱修正滤波器,在两个麦克风之间通过前一帧的数据来采用迭代噪声功率谱密度的方法对噪声进行估计:
<mrow> <msub> <mi>P</mi> <mrow> <mi>N</mi> <mn>1</mn> <mi>N</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;beta;</mi> <mi>n</mi> </msub> <msub> <mi>P</mi> <mrow> <mi>N</mi> <mn>1</mn> <mi>N</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;beta;</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msub> <mi>X</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <msubsup> <mi>X</mi> <mn>1</mn> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>H</mi> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <mi>S</mi> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> </mrow> </msub> <mo>(</mo> <mrow> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>P</mi> <mrow> <mi>S</mi> <mn>1</mn> <mi>S</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mo>&amp;lsqb;</mo> <mo>|</mo> <msub> <mi>X</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <msubsup> <mi>X</mi> <mn>1</mn> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>N</mi> <mn>1</mn> <mi>N</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>&amp;rsqb;</mo> </mrow>
<mrow> <msub> <mi>H</mi> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <mi>S</mi> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>P</mi> <mrow> <mi>X</mi> <mn>1</mn> <mi>X</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <msqrt> <mrow> <msub> <mi>P</mi> <mrow> <mi>X</mi> <mn>1</mn> <mi>X</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>X</mi> <mn>2</mn> <mi>X</mi> <mn>2</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </msqrt> </mfrac> <mfrac> <mrow> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> </mrow>
根据该滤波器对原始带噪信号进行滤波得到重建之后的信号为:
<mrow> <mover> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>H</mi> <mrow> <mi>C</mi> <mi>P</mi> <mi>S</mi> <mi>S</mi> <mo>,</mo> <msub> <mi>R</mi> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msub> <mi>X</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow>
然后对上述得到的信号进行逆短时傅里叶变换及叠接相加,从而恢复出期望的干净信号;
4)对仍有噪声残留的含噪语音信号进行噪声的准确估计:利用最小控制递归平均算法对仍有噪声残留的含噪语音信号进行噪声的准确估计,在后端添加一个最小控制递归平均算法对步骤3)得到的噪声估计进行噪声的准确估计,最小控制递归平均(ICRMA)算法通过引入条件概率p(k,l)来对噪声进行估计,可通过以下得到:
<mrow> <mover> <msub> <mi>&amp;beta;</mi> <mi>d</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mover> <msub> <mi>&amp;beta;</mi> <mi>d</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>+</mo> <mo>&amp;lsqb;</mo> <msub> <mi>&amp;alpha;</mi> <mi>d</mi> </msub> <mover> <msub> <mi>&amp;beta;</mi> <mi>d</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mi>d</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mi>Y</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>&amp;rsqb;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>p</mi> <mo>(</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,表示第k个频带的第l点的噪声功率谱密度估计,αd(0<αd<1)是一个平滑参数,Y(k,l)定义为第k个频带的第l点的信号幅度,条件概率p(k,l)通过两次平滑和最小值搜索计算得到,过程如下:
<mrow> <msub> <mi>S</mi> <mi>f</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mo>-</mo> <mi>m</mi> </mrow> <mi>m</mi> </munderover> <mi>b</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <mi>Y</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>
其中:m为连续帧个数,b(i)为加权因子;
第二次平滑如下:
S(k,l)=αsS(k-1,l)+(1+αs)Sf(k,l)
其中,αs为平滑因子,再经过最小值搜索得到:
Smin(k,l)=min{S(k,l)|k-m+1<<k<<k}
最后得到条件概率估计值
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mfrac> <mrow> <mi>q</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>q</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>)</mo> <mi>exp</mi> <mo>(</mo> <mo>-</mo> <mi>v</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mfrac> </mrow>
其中γ(k,l)为先验信噪比,q(k,l)为先验语音不存在概率。
CN201710818095.1A 2017-09-12 2017-09-12 一种基于噪声功率谱密度的双通道语音增强方法 Pending CN107680609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710818095.1A CN107680609A (zh) 2017-09-12 2017-09-12 一种基于噪声功率谱密度的双通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710818095.1A CN107680609A (zh) 2017-09-12 2017-09-12 一种基于噪声功率谱密度的双通道语音增强方法

Publications (1)

Publication Number Publication Date
CN107680609A true CN107680609A (zh) 2018-02-09

Family

ID=61134815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710818095.1A Pending CN107680609A (zh) 2017-09-12 2017-09-12 一种基于噪声功率谱密度的双通道语音增强方法

Country Status (1)

Country Link
CN (1) CN107680609A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN108735229A (zh) * 2018-06-12 2018-11-02 华南理工大学 一种基于信噪比加权的幅度与相位联合补偿抗噪语音增强方法及实现装置
CN108899041A (zh) * 2018-08-20 2018-11-27 百度在线网络技术(北京)有限公司 语音信号加噪方法、装置及存储介质
CN109616139A (zh) * 2018-12-25 2019-04-12 平安科技(深圳)有限公司 语音信号噪声功率谱密度估计方法和装置
CN110232913A (zh) * 2019-06-19 2019-09-13 桂林电子科技大学 一种语音端点检测方法
CN110931007A (zh) * 2019-12-04 2020-03-27 苏州思必驰信息科技有限公司 语音识别方法及系统
CN111653292A (zh) * 2020-06-22 2020-09-11 桂林电子科技大学 一种中国学生英语朗读质量分析方法
CN111863015A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN112767962A (zh) * 2021-03-01 2021-05-07 北京电信易通信息技术股份有限公司 一种语音增强方法及系统
CN113841198A (zh) * 2019-05-01 2021-12-24 伯斯有限公司 使用相干性的信号分量估计

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916567A (zh) * 2009-11-23 2010-12-15 瑞声声学科技(深圳)有限公司 应用于双麦克风系统的语音增强方法
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN102509552A (zh) * 2011-10-21 2012-06-20 浙江大学 一种基于联合抑制的麦克风阵列语音增强方法
CN105976826A (zh) * 2016-04-28 2016-09-28 中国科学技术大学 应用于双麦克风小型手持设备的语音降噪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916567A (zh) * 2009-11-23 2010-12-15 瑞声声学科技(深圳)有限公司 应用于双麦克风系统的语音增强方法
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN102509552A (zh) * 2011-10-21 2012-06-20 浙江大学 一种基于联合抑制的麦克风阵列语音增强方法
CN105976826A (zh) * 2016-04-28 2016-09-28 中国科学技术大学 应用于双麦克风小型手持设备的语音降噪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡丹等: "连续语音识别前端鲁棒性研究", 《电视技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN108735229A (zh) * 2018-06-12 2018-11-02 华南理工大学 一种基于信噪比加权的幅度与相位联合补偿抗噪语音增强方法及实现装置
CN108899041A (zh) * 2018-08-20 2018-11-27 百度在线网络技术(北京)有限公司 语音信号加噪方法、装置及存储介质
CN108899041B (zh) * 2018-08-20 2019-12-27 百度在线网络技术(北京)有限公司 语音信号加噪方法、装置及存储介质
CN109616139A (zh) * 2018-12-25 2019-04-12 平安科技(深圳)有限公司 语音信号噪声功率谱密度估计方法和装置
CN109616139B (zh) * 2018-12-25 2023-11-03 平安科技(深圳)有限公司 语音信号噪声功率谱密度估计方法和装置
CN111863015A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN113841198A (zh) * 2019-05-01 2021-12-24 伯斯有限公司 使用相干性的信号分量估计
CN113841198B (zh) * 2019-05-01 2023-07-14 伯斯有限公司 使用相干性的信号分量估计
CN110232913A (zh) * 2019-06-19 2019-09-13 桂林电子科技大学 一种语音端点检测方法
CN110931007A (zh) * 2019-12-04 2020-03-27 苏州思必驰信息科技有限公司 语音识别方法及系统
CN111653292B (zh) * 2020-06-22 2023-03-31 桂林电子科技大学 一种中国学生英语朗读质量分析方法
CN111653292A (zh) * 2020-06-22 2020-09-11 桂林电子科技大学 一种中国学生英语朗读质量分析方法
CN112767962B (zh) * 2021-03-01 2021-08-03 北京电信易通信息技术股份有限公司 一种语音增强方法及系统
CN112767962A (zh) * 2021-03-01 2021-05-07 北京电信易通信息技术股份有限公司 一种语音增强方法及系统

Similar Documents

Publication Publication Date Title
CN107680609A (zh) 一种基于噪声功率谱密度的双通道语音增强方法
US8010355B2 (en) Low complexity noise reduction method
WO2022160593A1 (zh) 一种语音增强方法、装置、系统及计算机可读存储介质
KR101726737B1 (ko) 다채널 음원 분리 장치 및 그 방법
CN110600050B (zh) 基于深度神经网络的麦克风阵列语音增强方法及系统
US9697846B2 (en) Method and apparatus for reducing echo
CN105788607B (zh) 应用于双麦克风阵列的语音增强方法
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
US8447596B2 (en) Monaural noise suppression based on computational auditory scene analysis
CN111418010A (zh) 一种多麦克风降噪方法、装置及终端设备
CN101916567B (zh) 应用于双麦克风系统的语音增强方法
KR20130108063A (ko) 다중 마이크로폰의 견고한 잡음 억제
CN102347028A (zh) 双麦克风语音增强装置及方法
CN105280193B (zh) 基于mmse误差准则的先验信噪比估计方法
CN104103277A (zh) 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN106157964A (zh) 一种确定回声消除中系统延时的方法
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
CN112634926A (zh) 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN112634927B (zh) 一种短波信道语音增强方法
US9666206B2 (en) Method, system and computer program product for attenuating noise in multiple time frames
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
CN112530451A (zh) 基于去噪自编码器的语音增强方法
US20130054233A1 (en) Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels
CN108899042A (zh) 一种基于移动平台的语音降噪方法
CN103971697A (zh) 基于非局部均值滤波的语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180209

WD01 Invention patent application deemed withdrawn after publication