CN105788607A - 应用于双麦克风阵列的语音增强方法 - Google Patents

应用于双麦克风阵列的语音增强方法 Download PDF

Info

Publication number
CN105788607A
CN105788607A CN201610356558.2A CN201610356558A CN105788607A CN 105788607 A CN105788607 A CN 105788607A CN 201610356558 A CN201610356558 A CN 201610356558A CN 105788607 A CN105788607 A CN 105788607A
Authority
CN
China
Prior art keywords
signal
time
filter
frequency
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610356558.2A
Other languages
English (en)
Other versions
CN105788607B (zh
Inventor
叶中付
徐杨飞
罗友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201610356558.2A priority Critical patent/CN105788607B/zh
Publication of CN105788607A publication Critical patent/CN105788607A/zh
Application granted granted Critical
Publication of CN105788607B publication Critical patent/CN105788607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种应用于双麦克风阵列的语音增强方法,包括:利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声;采用谐波重建算法对时频掩码滤波之后的语音信号进行重建,获得相应的滤波器,并基于该滤波器对原始带噪信号进行滤波,从而恢复出期望的干净语音信号,实现语音信号的增强。

Description

应用于双麦克风阵列的语音增强方法
技术领域
本发明涉及语音降噪技术领域,尤其涉及一种应用于双麦克风阵列的语音增强方法。
背景技术
在现有的小型手持设备中,常采用双麦克风以及三麦克风,对于特定方向的非平稳噪声,传统方法包括维纳滤波、谱减法以及基于统计模型的方法并不能取得很好的效果。
经典的基于相位的双通道滤波技术通过设置延时阈值进行滤波,使得在期望方向范围内的信号得到保留,而范围外的信号受到抑制,但是,这种方法依然会残留音乐噪声。
发明内容
本发明的目的是提供一种应用于双麦克风阵列的语音增强方法,可以尽可能的无失真恢复出期望的干净语音。
本发明的目的是通过以下技术方案实现的:
一种应用于双麦克风阵列的语音增强方法,包括:
利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声;
采用谐波重建算法对时频掩码滤波之后的语音信号进行重建,获得相应的滤波器,并基于该滤波器对原始带噪信号进行滤波,从而恢复出期望的干净语音信号,实现语音信号的增强。
所述利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声包括:
主麦克风与次麦克风接收到的语音信号如下:
x 1 ( t ) = h 1 s ( t ) + n 1 ( t ) x 2 ( t ) = h 2 s ( t - τ ) + n 2 ( t ) ;
其中,xi(t)为t时刻第i个麦克风接收到的带噪语音信号,s(t)为t时刻的源信号,hi为源信号在第i个麦克风里的传输衰减,ni(t)为t时刻第i个麦克风接收到的噪声信号,τ表示源信号到达两个麦克风的时间差;
对xi(t)做短时傅里叶变换,得到:
X 1 ( t , f ) = h 1 ( f ) S ( t , f ) + N 1 ( t , f ) X 2 ( t , f ) = h 2 ( f ) S ( t , f ) × e j θ + N 2 ( t , f ) ;
其中,t和f分别表示时间点和频率点;e表示时域上的时间差τ经过短时傅里叶变换变换后在短时频域上相对应的相位差;
利用语音传播参数估计的思想,输入一个角度,并期望增强该角度附近的语音信号;此方法基于两个假设:任何一个时频点,只有一个信号起主要作用;声音的传播模型为hi(f)≈λi·exp(-j2πfτi);其中,λi是源信号到第i个麦克风的衰减,τi是相应的延时,j表示虚数;
首先对X2的每一帧做幅度和相位以及频率归一化:
其中,X2(t,:)为次麦克风每个时间点t对应的一帧信号,频率点f为一帧信号中的一个变量;abs()表示取该帧信号每个元素的绝对值,||||表示取范数操作,⊙为点乘操作,angle()表示取信号的相位角操作;
经过上述操作后,每个时频点处两麦克风间到达时间差TDOA为:其中,L为分析窗的窗长,Fs为采样频率,而期望增强的角度对应的TDOA为τexp=-d/v×cos(φ*π/180);其中,d为两个麦克分的间距,φ为波达方向角度;
对于每个时频点(t,f)如果|τ(t,f)-τexp|之差大于等于阈值ε,则认为该时频点的来波方向不是来自于输入的角度附近,即在该时频点不是期望的信号占主导作用,掩码为0;反之,则认为该时频点是期望的信号占主导作用,掩码为1,则根据每个时频点的TDOA构建时频掩码滤波器c,并对带噪语音进行X1或者X2滤波,表示为:
c ( t , f ) = 0 i f | τ ( t , f ) - τ exp | ≥ ϵ 1 e l s e
S ^ 1 ( t , f ) = c ( t , f ) × X 1 ( t , f )
或者,
其中,为对主麦克风接收信号进行滤波后的时频域信号,为对次麦克风接收信号进行滤波后的时频域信号。;
所述采用谐波重建算法对时频掩码滤波之后的语音信号进行重建,获得相应的滤波器,并基于该滤波器对原始带噪信号进行滤波,从而恢复出期望的干净语音信号,包括:
利用非线性函数对滤波后的语音信号进行谐波重建,若针对滤波后的主麦克风信号,则先对其进行逆短时傅里叶变换及叠接相加得到相对应的时域信号再利用下式进行谐波重建:
s h a r m o ( t ) = N L ( s ^ 1 ( t ) ) ;
其中,NL表示非线性函数,sharmo(t)为谐波重建之后的时域语音信号;
若采用的非线性函数为过零比较函数Max,则有:
s h a r m o ( t ) = N L ( s ^ 1 ( t ) ) = M a x ( s ^ 1 ( t ) , 0 ) = s ^ 1 ( t ) p ( s ^ 1 ( t ) ) ;
其中,
假设当前帧的语音信号为浊音,且为周期为T的准周期信号,则非线性函数p(·)在当前帧为周期为T的矩形窗函数,其傅里叶变换为:
F T ( p ( s ^ 1 ( t ) ) ) = 1 T Σ m = - ∞ + ∞ R ( m T ) δ ( f - m T ) ;
其中,为Sinc函数在离散频率处的值,δ(·)为单位冲击函数,即有:
上述傅立叶变换的表达式为一个内插函数,且插值的间隔为T;即在当前时间帧内第k个谐波成分丢失,则其能通过其他的谐波成分来对该频点处的值进行恢复:
F T ( s h a r m o ( t ) ) = F T ( s ^ 1 ( t ) ) ⊗ e - jθ 0 T Σ m = - ∞ + ∞ R ( m T ) δ ( f - m T ) ;
上式中,θ0为原始信号的初始相位角,为卷积操作符。
对谐波重建之后的时域语音信号sharmo(t)与重建之前的时域信号分别进行短时傅里叶变换,得到对应的时频域信号Sharmo(t,f)和从而估计掩码器c在码值为0点处的信噪比:
S N ^ R p r i o H R N R ( t , f ) = ρ ( t , f ) | S ^ 1 ( t , f ) | 2 + ( 1 - ρ ( t , f ) ) | S h a r m o ( t , f ) | 2 γ ^ n ( t , f ) ;
上式中,ρ(t,f)为掩码器输出信号与重建信号的比重因子,且0≤ρ(t,f)≤1,为估计的噪声功率;估计方法为:
γ ^ n ( t , f ) = | X 1 ( t , f ) | 2 - | S ^ 1 ( t , f ) | 2
则根据估计的先验信噪比构建新的滤波器,滤波器函数为:
G H R N R ( t , f ) = S N ^ R p r i o H R N R ( t , f ) 1 + S N ^ R p r i o H R N R ( t , f ) ;
根据该滤波器对原始带噪信号进行滤波得到谐波重建之后的信号为
S ~ 1 ( t , f ) = G H R N R ( t , f ) × X 1 ( t , f ) ;
然后对上述得到的信号进行逆短时傅立叶变换及叠接相加,从而恢复出期望的干净语音信号。
由上述本发明提供的技术方案可以看出,一方面,相比于传统的多通道语音增强算法,本发明利用语音信号的谐波特性进行修复,可以有效的避免信号的失真;另一方面,相比于传统的波束形成技术,本发明方案的运算量小,只需确定麦克风拓扑结构即可实现语音信号的增强。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种应用于双麦克风阵列的语音增强方法的流程图;
图2为本发明实施例提供的语音信号混合模型示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
图1为本发明实施例提供的一种应用于双麦克风阵列的语音增强方法的流程图。如图1所示,其主要包括如下步骤:
步骤11、利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声。
步骤12、采用谐波重建算法对时频掩码滤波之后的语音信号进行重建,获得相应的滤波器,并基于该滤波器对原始带噪信号进行滤波,从而恢复出期望的干净语音信号,实现语音信号的增强。
本发明上述方案,相比于传统的多通道语音增强算法,通过利用语音信号的谐波特性进行修复,可以有效的避免信号的失真;此外,相比于传统的波束形成技术,本发明方案的运算量小,只需确定麦克风拓扑结构即可实现语音信号的增强。
为了便于理解,下面针对上述两个步骤做详细的说明。
1、基于时频掩码的双通道语音增强算法。
本发明实施例中,基于时频掩码(Time-FrequencyMasking)算法应用了源信号满足WDO假设的特性(即在每一个时频点,带噪信号只有一个信号是占主导作用的)。信号混合基本模型如下:
x 1 ( t ) = h 1 s ( t ) + n 1 ( t ) x 2 ( t ) = h 2 s ( t - τ ) + n 2 ( t ) ;
其中,xi(t)为t时刻第i个麦克风接收到的带噪语音信号,s(t)为t时刻的源信号,hi为源信号在第i个麦克风里的传输衰减,ni(t)为t时刻第i个麦克风接收到的噪声信号,τ表示源信号到达两个麦克风的时间差;
为了应用语音信号的短时频域的稀疏性,先对xi(t)做短时傅里叶变换,得到:
X 1 ( t , f ) = h 1 ( f ) S ( t , f ) + N 1 ( t , f ) X 2 ( t , f ) = h 2 ( f ) S ( t , f ) × e j θ + N 2 ( t , f ) ;
其中,t和f分别表示时间点和频率点,每个时间点t对应着一帧信号X1(t,:)或X2(t,:)。此处的f表示一个数值变量,一帧信号中包含有多个频率点数值,用符号:来表示变量f取遍这一帧中的每一个频率点数值。e表示时域上的时间差τ经过短时傅里叶变换变换后在短时频域上相对应的相位差。
如果语音信号混合时满足WDO假设,即在每一个时频点,带噪信号只有一个信号是占主导作用的。
图2给出了两个麦克风的情况,其中d是两个麦克分间距,波达方向角度(DOA)是φ,源信号到达两个麦克风的时间差记为τ,假设声速为v.,在远场环境(即信源到麦克风的距离远远大于麦克风之间的间距)下,可以近似有:
s i n φ = v τ d ;
在傅里叶变换下,信号的延时信息体现在频域信号的相位信息中。如果录音环境是理想的消声环境或者低混响环境,频率响应hi(f)可以被近似为以下模型:
hi(f)≈λi·exp(-j2πfτi)
其中,λi是声源到第i个麦克风的衰减,τi是相应的延时。
假设麦克风的最大间距没有超过语音信号的半波长,否则会产生“空间假频”的现象。因为复数的幅角是个多值函数,一般取其主值,即[-π,π],
-π<2πfτi<π
由图2可知:
max|τi|≤dmax/v
其中,v是声速,结合上述两式,我们发现不发生空间假频的前提是:
d m a x < v 2 f ;
如果发生空间假频,则分离的性能会大幅降低。例如若采用麦克风间距为5cm,则语音信号的频率降采样到6800Hz。
利用语音传播参数估计的思想,输入一个角度,并期望增强该角度附近的语音信号;此方法基于两个假设:任何一个时频点,只有一个信号起主要作用;声音的传播模型为hi(f)≈λi·exp(-j2πfτi);其中,λi是源信号到第i个麦克风的衰减,τi是相应的延时;
为了消除源信号幅值和频率的影响,首先对X2的每一帧做幅度和相位以及频率归一化:
其中,abs()表示取该帧信号每个元素的绝对值,||||表示取范数操作,⊙为点乘操作,angle()表示取信号的相位角操作。经过上述操作后,每个时频点处两麦克风间阵到达时间差TDOA为:其中,L为分析窗的窗长,Fs为采样频率,而期望增强的角度对应的TDOA为τexp=-d/v×cos(φ*π/180)。
当然,也可以采用其他的归一化方式处理X1,获得以用来计算TDOA。
对于每个时频点(t,f)如果|τ(t,f)-τexp|之差大于等于阈值ε,则认为该时频点的来波方向不是来自于输入的角度附近,即在该时频点不是期望的信号占主导作用,掩码为0;反之,则认为该时频点是期望的信号占主导作用,掩码为1,则根据每个时频点的TDOA构建时频掩码滤波器c,并对带噪语音X1或者X2进行滤波,表示为:
c ( t , f ) = 0 i f | &tau; ( t , f ) - &tau; exp | &GreaterEqual; &epsiv; 1 e l s e
S ^ 1 ( t , f ) = c ( t , f ) &times; X 1 ( t , f )
或者,
其中,为对主麦克风接收信号进行滤波后的时频域信号,对其进行逆短时傅里叶变换及叠接相加可得到相对应的时域信号为对次麦克风接收信号进行滤波后的时频域信号,对其进行逆短时傅里叶变换及叠接相加可得到相对应的时域信号
2、基于谐波重建的后处理方法
前文中利用时频掩码滤波器增强之后的语音对非平稳点噪声源具有很好的抑制效果,但是在掩码器权值为1的时频点处的噪声并不会被抑制,而且二值掩码滤波会带来一定程度的失真。本领域技术人员可以理解,由于人发声段中约80%为浊音段,而浊音主要包含谐波成分,故语音失真主要体现为谐波成分丢失。因此,本发明实施例中,引入谐波重建算法对时频掩码输出之后的信号进行重建,从而降低信号的失真,增强期望的语音信号。
利用非线性函数对滤波后的语音信号进行谐波重建,若针对滤波后的主麦克风信号,则:
s h a r m o ( t ) = N L ( s ^ 1 ( t ) ) ;
其中,NL表示非线性函数,表示时频掩码滤波之后的时域语音信号,sharmo(t)为谐波重建之后的时域语音信号;
非线性函数包括:绝对值、过零比较等;若采用的非线性函数为过零比较函数Max,则有:
s h a r m o ( t ) = N L ( s ^ 1 ( t ) ) = M a x ( s ^ 1 ( t ) , 0 ) = s ^ 1 ( t ) p ( s ^ 1 ( t ) ) ;
其中,
假设当前帧的语音信号为浊音,且为周期为T的准周期信号,则非线性函数p(·)在当前帧为周期为T的矩形窗函数,其傅里叶变换为:
F T ( p ( s ^ 1 ( t ) ) ) = 1 T &Sigma; m = - &infin; + &infin; R ( m T ) &delta; ( f - m T ) ;
其中,为Sinc函数在离散频率处的值,δ(·)为单位冲击函数,即有:
上述傅立叶变换的表达式为一个内插函数,且插值的间隔为T;即在当前时间帧内第k个谐波成分丢失,则其能通过其他的谐波成分来对该频点处的值进行恢复,从而实现谐波成分的修复,进而降低语音的失真:
F T ( s h a r m o ( t ) ) = F T ( s ^ 1 ( t ) ) &CircleTimes; e - j&theta; 0 T &Sigma; m = - &infin; + &infin; R ( m T ) &delta; ( f - m T ) ;
上式中,θ0为原始信号的初始相位角,为卷积操作符。
对重建之后的时域信号sharmo(t)与重建之前的时域信号分别进行短时傅里叶变换,得到对应的时频域信号Sharmo(t,f)和从而估计掩码器c在码值为0点处的信噪比:
S N ^ R p r i o H R N R ( t , f ) = &rho; ( t , f ) | S ^ 1 ( t , f ) | 2 + ( 1 - &rho; ( t , f ) ) | S h a r m o ( t , f ) | 2 &gamma; ^ n ( t , f ) ;
上式中,ρ(t,f)为掩码器输出信号与重建信号的比重因子,且0≤ρ(t,f)≤1,为估计的噪声功率;估计方法为:
&gamma; ^ n ( t , f ) = | X 1 ( t , f ) | 2 - | S ^ 1 ( t , f ) | 2
则根据估计的先验信噪比构建新的滤波器,滤波器函数为:
G H R N R ( t , f ) = S N ^ R p r i o H R N R ( t , f ) 1 + S N ^ R p r i o H R N R ( t , f ) ;
根据该滤波器对原始带噪信号进行滤波得到谐波重建之后的信号为
S ~ 1 ( t , f ) = G H R N R ( t , f ) &times; X 1 ( t , f ) ;
然后对上述得到的信号进行逆短时傅立叶变换及叠接相加,从而恢复出期望的干净语音信号,实现语音信号的增强。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种应用于双麦克风阵列的语音增强方法,其特征在于,包括:
利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声;
采用谐波重建算法对时频掩码滤波之后的语音信号进行重建,获得相应的滤波器,并基于该滤波器对原始带噪信号进行滤波,从而恢复出期望的干净语音信号,实现语音信号的增强。
2.根据权利要求1所述的一种应用于双麦克风阵列的语音增强方法,其特征在于,所述利用双麦克风通道语音信号的相位差构建时频掩码滤波器滤除非平稳方向性噪声包括:
主麦克风与次麦克风接收到的语音信号如下:
x 1 ( t ) = h 1 s ( t ) + n 1 ( t ) x 2 ( t ) = h 2 s ( t - &tau; ) + n 2 ( t ) ;
其中,xi(t)为t时刻第i个麦克风接收到的带噪语音信号,s(t)为t时刻的源信号,hi为源信号在第i个麦克风里的传输衰减,ni(t)为t时刻第i个麦克风接收到的噪声信号,τ表示源信号到达两个麦克风的时间差;
对xi(t)做短时傅里叶变换,得到:
X 1 ( t , f ) = h 1 ( f ) S ( t , f ) + N 1 ( t , f ) X 2 ( t , f ) = h 2 ( f ) S ( t , f ) &times; e j &theta; + N 2 ( t , f ) ;
其中,t和f分别表示时间点和频率点;e表示时域上的时间差τ经过短时傅里叶变换变换后在短时频域上相对应的相位差;
利用语音传播参数估计的思想,输入一个角度,并期望增强该角度附近的语音信号;此方法基于两个假设:任何一个时频点,只有一个信号起主要作用;声音的传播模型为hi(f)≈λi·exp(-j2πfτi);其中,λi是源信号到第i个麦克风的衰减,τi是相应的延时,j表示虚数;
首先对X2的每一帧做幅度和相位以及频率归一化:
其中,X2(t,:)为次麦克风每个时间点t对应的一帧信号,频率点f为一帧信号中的一个变量;abs()表示取该帧信号每个元素的绝对值,||||表示取范数操作,⊙为点乘操作,angle()表示取信号的相位角操作;
经过上述操作后,每个时频点处两麦克风间到达时间差TDOA为:其中,L为分析窗的窗长,Fs为采样频率,而期望增强的角度对应的TDOA为τexp=-d/v×cos(φ*π/180);其中,d为两个麦克分的间距,φ为波达方向角度;
对于每个时频点(t,f)如果|τ(t,f)-τexp|之差大于等于阈值ε,则认为该时频点的来波方向不是来自于输入的角度附近,即在该时频点不是期望的信号占主导作用,掩码为0;反之,则认为该时频点是期望的信号占主导作用,掩码为1,则根据每个时频点的TDOA构建时频掩码滤波器c,并对带噪语音进行X1或者X2滤波,表示为:
c ( t , f ) = 0 i f | &tau; ( t , f ) - &tau; exp | &GreaterEqual; &epsiv; 1 e l s e
S ^ 1 ( t , f ) = c ( t , f ) &times; X 1 ( t , f )
或者,
其中,为对主麦克风接收信号进行滤波后的时频域信号,为对次麦克风接收信号进行滤波后的时频域信号。
3.根据权利要求2所述的一种应用于双麦克风阵列的语音增强方法,其特征在于,所述采用谐波重建算法对时频掩码滤波之后的语音信号进行重建,获得相应的滤波器,并基于该滤波器对原始带噪信号进行滤波,从而恢复出期望的干净语音信号,包括:
利用非线性函数对滤波后的语音信号进行谐波重建,若针对滤波后的主麦克风信号,则先对其进行逆短时傅里叶变换及叠接相加得到相对应的时域信号再利用下式进行谐波重建:
s h a r m o ( t ) = N L ( s ^ 1 ( t ) ) ;
其中,NL表示非线性函数,sharmo(t)为谐波重建之后的时域语音信号;
若采用的非线性函数为过零比较函数Max,则有:
s h a r m o ( t ) = N L ( s ^ 1 ( t ) ) = M a x ( s ^ 1 ( t ) , 0 ) = s ^ 1 ( t ) p ( s ^ 1 ( t ) ) ;
其中,
假设当前帧的语音信号为浊音,且为周期为T的准周期信号,则非线性函数p(·)在当前帧为周期为T的矩形窗函数,其傅里叶变换为:
F T ( p ( s ^ 1 ( t ) ) ) = 1 T &Sigma; m = - &infin; + &infin; R ( m T ) &delta; ( f - m T ) ;
其中,为Sinc函数在离散频率处的值,δ(·)为单位冲击函数,即有:
上述傅立叶变换的表达式为一个内插函数,且插值的间隔为T;即在当前时间帧内第k个谐波成分丢失,则其能通过其他的谐波成分来对该频点处的值进行恢复:
F T ( s h a r m o ( t ) ) = F T ( s ^ 1 ( t ) ) &CircleTimes; e - j&theta; 0 T &Sigma; m = - &infin; + &infin; R ( m T ) &delta; ( f - m T ) ;
上式中,θ0为原始信号的初始相位角,为卷积操作符。
对谐波重建之后的时域语音信号sharmo(t)与重建之前的时域信号分别进行短时傅里叶变换,得到对应的时频域信号Sharmo(t,f)和从而估计掩码器c在码值为0点处的信噪比:
S N ^ R p r i o H R N R ( t , f ) = &rho; ( t , f ) | S ^ 1 ( t , f ) | 2 + ( 1 - &rho; ( t , f ) ) | S h a r m o ( t , f ) | 2 &gamma; ^ n ( t , f ) ;
上式中,ρ(t,f)为掩码器输出信号与重建信号的比重因子,且0≤ρ(t,f)≤1,为估计的噪声功率;估计方法为:
&gamma; ^ n ( t , f ) = | X 1 ( t , f ) | 2 - | S ^ 1 ( t , f ) | 2
则根据估计的先验信噪比构建新的滤波器,滤波器函数为:
G H R N R ( t , f ) = S N ^ R p r i o H R N R ( t , f ) 1 + S N ^ R p r i o H R N R ( t , f ) ;
根据该滤波器对原始带噪信号进行滤波得到谐波重建之后的信号为
S ~ 1 ( t , f ) = G H R N R ( t , f ) &times; X 1 ( t , f ) ;
然后对上述得到的信号进行逆短时傅立叶变换及叠接相加,从而恢复出期望的干净语音信号。
CN201610356558.2A 2016-05-20 2016-05-20 应用于双麦克风阵列的语音增强方法 Active CN105788607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610356558.2A CN105788607B (zh) 2016-05-20 2016-05-20 应用于双麦克风阵列的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610356558.2A CN105788607B (zh) 2016-05-20 2016-05-20 应用于双麦克风阵列的语音增强方法

Publications (2)

Publication Number Publication Date
CN105788607A true CN105788607A (zh) 2016-07-20
CN105788607B CN105788607B (zh) 2020-01-03

Family

ID=56379400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610356558.2A Active CN105788607B (zh) 2016-05-20 2016-05-20 应用于双麦克风阵列的语音增强方法

Country Status (1)

Country Link
CN (1) CN105788607B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369460A (zh) * 2017-07-31 2017-11-21 深圳海岸语音技术有限公司 基于声学矢量传感器空间锐化技术的语音增强装置及方法
CN107481731A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种语音数据增强方法及系统
CN107785029A (zh) * 2017-10-23 2018-03-09 科大讯飞股份有限公司 目标语音检测方法及装置
CN109756818A (zh) * 2018-12-29 2019-05-14 上海瑾盛通信科技有限公司 双麦克风降噪方法、装置、存储介质及电子设备
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN110111807A (zh) * 2019-04-27 2019-08-09 南京理工大学 一种基于麦克风阵列的室内声源跟随与增强方法
CN110164470A (zh) * 2019-06-12 2019-08-23 成都嗨翻屋科技有限公司 人声分离方法、装置、用户终端及存储介质
CN110875049A (zh) * 2019-10-25 2020-03-10 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
CN110970046A (zh) * 2019-11-29 2020-04-07 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN111226278A (zh) * 2017-08-17 2020-06-02 塞伦妮经营公司 低复杂度的浊音语音检测和基音估计
CN111681665A (zh) * 2020-05-20 2020-09-18 浙江大华技术股份有限公司 一种全向降噪方法、设备及存储介质
CN111968667A (zh) * 2020-08-13 2020-11-20 杭州芯声智能科技有限公司 一种双麦克风语音降噪装置及其降噪方法
CN112599136A (zh) * 2020-12-15 2021-04-02 江苏惠通集团有限责任公司 基于声纹识别的语音识别方法及装置、存储介质、终端
CN112731291A (zh) * 2020-10-14 2021-04-30 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN112785998A (zh) * 2020-12-29 2021-05-11 展讯通信(上海)有限公司 信号处理方法、设备及装置
CN113409804A (zh) * 2020-12-22 2021-09-17 声耕智能科技(西安)研究院有限公司 一种基于变张成广义子空间的多通道频域语音增强算法
CN113539290A (zh) * 2020-04-22 2021-10-22 华为技术有限公司 语音降噪方法和装置
CN116312447A (zh) * 2023-02-09 2023-06-23 杭州兆华电子股份有限公司 一种定向噪声消除方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031963A (zh) * 2004-09-16 2007-09-05 法国电信 处理有噪声的声音信号的方法以及实现该方法的装置
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
US20140328490A1 (en) * 2013-05-03 2014-11-06 Qualcomm Incorporated Multi-channel echo cancellation and noise suppression
CN104157295A (zh) * 2014-08-22 2014-11-19 中国科学院上海高等研究院 用于检测及抑制瞬态噪声的方法
CN104272137A (zh) * 2012-04-13 2015-01-07 高通股份有限公司 用于映射源位置的系统和方法
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法
CN105575406A (zh) * 2016-01-07 2016-05-11 深圳市音加密科技有限公司 一种基于似然比测试的噪声鲁棒性的检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031963A (zh) * 2004-09-16 2007-09-05 法国电信 处理有噪声的声音信号的方法以及实现该方法的装置
CN104272137A (zh) * 2012-04-13 2015-01-07 高通股份有限公司 用于映射源位置的系统和方法
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
US20140328490A1 (en) * 2013-05-03 2014-11-06 Qualcomm Incorporated Multi-channel echo cancellation and noise suppression
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
CN104157295A (zh) * 2014-08-22 2014-11-19 中国科学院上海高等研究院 用于检测及抑制瞬态噪声的方法
CN105513605A (zh) * 2015-12-01 2016-04-20 南京师范大学 手机麦克风的语音增强系统和语音增强方法
CN105575406A (zh) * 2016-01-07 2016-05-11 深圳市音加密科技有限公司 一种基于似然比测试的噪声鲁棒性的检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIROSHI SAWADA等: "Grouping Separated Frequency Components by Estimating Propagation Model Parameters in Frequency-Domain Blind Source Separation", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
徐杨飞: "基于序贯字典学习的单通道语音分离算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369460A (zh) * 2017-07-31 2017-11-21 深圳海岸语音技术有限公司 基于声学矢量传感器空间锐化技术的语音增强装置及方法
CN107369460B (zh) * 2017-07-31 2020-08-21 深圳海岸语音技术有限公司 基于声学矢量传感器空间锐化技术的语音增强装置及方法
CN107481731A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种语音数据增强方法及系统
CN107481731B (zh) * 2017-08-01 2021-01-22 百度在线网络技术(北京)有限公司 一种语音数据增强方法及系统
CN111226278A (zh) * 2017-08-17 2020-06-02 塞伦妮经营公司 低复杂度的浊音语音检测和基音估计
CN111226278B (zh) * 2017-08-17 2023-08-25 塞伦妮经营公司 低复杂度的浊音语音检测和基音估计
CN107785029A (zh) * 2017-10-23 2018-03-09 科大讯飞股份有限公司 目标语音检测方法及装置
US11308974B2 (en) 2017-10-23 2022-04-19 Iflytek Co., Ltd. Target voice detection method and apparatus
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN109756818B (zh) * 2018-12-29 2021-04-06 上海瑾盛通信科技有限公司 双麦克风降噪方法、装置、存储介质及电子设备
CN109756818A (zh) * 2018-12-29 2019-05-14 上海瑾盛通信科技有限公司 双麦克风降噪方法、装置、存储介质及电子设备
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN110111807B (zh) * 2019-04-27 2022-01-11 南京理工大学 一种基于麦克风阵列的室内声源跟随与增强方法
CN110111807A (zh) * 2019-04-27 2019-08-09 南京理工大学 一种基于麦克风阵列的室内声源跟随与增强方法
CN110164470A (zh) * 2019-06-12 2019-08-23 成都嗨翻屋科技有限公司 人声分离方法、装置、用户终端及存储介质
CN110875049A (zh) * 2019-10-25 2020-03-10 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
CN110875049B (zh) * 2019-10-25 2023-09-15 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
WO2021103672A1 (zh) * 2019-11-29 2021-06-03 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN110970046A (zh) * 2019-11-29 2020-04-07 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN110970046B (zh) * 2019-11-29 2022-03-11 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN113539290B (zh) * 2020-04-22 2024-04-12 华为技术有限公司 语音降噪方法和装置
CN113539290A (zh) * 2020-04-22 2021-10-22 华为技术有限公司 语音降噪方法和装置
CN111681665A (zh) * 2020-05-20 2020-09-18 浙江大华技术股份有限公司 一种全向降噪方法、设备及存储介质
CN111968667A (zh) * 2020-08-13 2020-11-20 杭州芯声智能科技有限公司 一种双麦克风语音降噪装置及其降噪方法
CN112731291A (zh) * 2020-10-14 2021-04-30 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN112731291B (zh) * 2020-10-14 2024-02-20 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN112599136A (zh) * 2020-12-15 2021-04-02 江苏惠通集团有限责任公司 基于声纹识别的语音识别方法及装置、存储介质、终端
CN113409804A (zh) * 2020-12-22 2021-09-17 声耕智能科技(西安)研究院有限公司 一种基于变张成广义子空间的多通道频域语音增强算法
CN112785998B (zh) * 2020-12-29 2022-11-15 展讯通信(上海)有限公司 信号处理方法、设备及装置
CN112785998A (zh) * 2020-12-29 2021-05-11 展讯通信(上海)有限公司 信号处理方法、设备及装置
CN116312447A (zh) * 2023-02-09 2023-06-23 杭州兆华电子股份有限公司 一种定向噪声消除方法及系统
CN116312447B (zh) * 2023-02-09 2023-11-10 杭州兆华电子股份有限公司 一种定向噪声消除方法及系统

Also Published As

Publication number Publication date
CN105788607B (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN105788607B (zh) 应用于双麦克风阵列的语音增强方法
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
Bae et al. Voice recognition based on adaptive MFCC and deep learning
US7313518B2 (en) Noise reduction method and device using two pass filtering
EP4189677B1 (en) Noise reduction using machine learning
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
Hammam et al. Blind signal separation with noise reduction for efficient speaker identification
Lee et al. Two-stage refinement of magnitude and complex spectra for real-time speech enhancement
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
Schröter et al. CLC: complex linear coding for the DNS 2020 challenge
Gowda et al. AM-FM based filter bank analysis for estimation of spectro-temporal envelopes and its application for speaker recognition in noisy reverberant environments.
Liang et al. The analysis of the simplification from the ideal ratio to binary mask in signal-to-noise ratio sense
Zengyuan et al. A speech denoising algorithm based on harmonic regeneration
Xuchu et al. Speech enhancement using harmonic regeneration
Upadhyay et al. A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments
Singh et al. Binary mask based method for enhancement of mixed noise speech of low SNR input
Hepsiba et al. Computational intelligence for speech enhancement using deep neural network
Singh et al. A wavelet based method for removal of highly non-stationary noises from single-channel hindi speech patterns of low input SNR
Chokkarapu et al. Implementation of spectral subtraction noise suppressor using DSP processor
Buragohain et al. Single Channel Speech Enhancement System using Convolutional Neural Network based Autoencoder for Noisy Environments
Roy Single channel speech enhancement using Kalman filter
Kaur Ojhla et al. A Wavelet Based Hybrid Threshold Transform Method for Speech Intelligibility and Quality in Noisy Speech Patterns of English Language
Purushotham et al. Implementation of spectral subtraction using sub-band filtering in DSP C6748 processor for enhancing speech signal
Anushiravani Example-based audio editing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant