CN105590630A - 基于指定带宽的定向噪音抑制方法 - Google Patents

基于指定带宽的定向噪音抑制方法 Download PDF

Info

Publication number
CN105590630A
CN105590630A CN201610091553.1A CN201610091553A CN105590630A CN 105590630 A CN105590630 A CN 105590630A CN 201610091553 A CN201610091553 A CN 201610091553A CN 105590630 A CN105590630 A CN 105590630A
Authority
CN
China
Prior art keywords
noise
voice
psi
target voice
power spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610091553.1A
Other languages
English (en)
Other versions
CN105590630B (zh
Inventor
唐明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yajin Smart Technology Co ltd
Original Assignee
Nanjing Qiyinshi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Qiyinshi Information Technology Co Ltd filed Critical Nanjing Qiyinshi Information Technology Co Ltd
Priority to CN201610091553.1A priority Critical patent/CN105590630B/zh
Publication of CN105590630A publication Critical patent/CN105590630A/zh
Application granted granted Critical
Publication of CN105590630B publication Critical patent/CN105590630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种基于指定带宽的定向噪音抑制方法,具体包括:步骤1、根据传输通道的功率谱的期望评价值估计目标语音通道传输函数;步骤2、估计及抑制平稳噪音分量;定义一语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量,并计算抑制掉平稳噪音之后的目标语音谱;步骤3、定向噪音抑制;判断目标语音和所观测语音之间的相位差,如果当前时频单元的所观测语音为定向噪音主导,使用带通滤波器将其过滤;最后可得到抑制了平稳噪音和定向噪音的目标语音信号。本发明系统简单,且在抑制噪音的过程中有效区分了定向噪声和平稳噪声分量的不同,并基于这二者性质上不同,采用不同的方法进行抑制,噪音抑制效果更好。有很高的实用性。

Description

基于指定带宽的定向噪音抑制方法
技术领域
本发明涉及语音信号的噪音抑制方法,具体涉及一种基于指定带宽的定向噪音抑制方法。
背景技术
有关定向噪音和非定向噪音:
智能语音相关信号采集设备在采集用户语音的同时通常会被各种各样的噪音干扰。从噪音的来源可以分为定向噪音和非定向噪音两种类型。所谓定向噪音是由一个独立声源所产生,相对于采集终端麦克风阵列方向固定,在信号处理领域通常抽象为一个点源信号。比如在家居环境下电视机的声音、闹钟的声音等等。非定向噪音是指多个能量相差不多的噪音源同时发出噪音,并且这些噪音源相对于麦克风阵列方向并不固定。比如马路上、咖啡厅等等环境噪音。
有关噪音抑制:
由于噪音的存在会对听觉感知、后续语音识别造成极大的干扰,噪音抑制技术的目的就是把采集到的信号中掺杂的噪音基于语音或者噪音独有的特征给抑制掉,同时尽可能保证目标语音不失真。
和非定向噪音相比,定向噪音一般能量较大,比如在智能电视应用中,电视机音箱发出的声音能量要远高于环境噪音,甚至会高于目标语音信号。因此,如果该定向噪音不能被抑制,降会对后续的语音识别造成极大的干扰。定向噪音的另外一个特点是能量随时间快速变化,平稳性非常差。比如各种音乐信号能量起伏非常快,实时追踪、估计噪音在每一时间帧的能量将非常困难,采用常规的估计噪音能量的方法不再有效。
噪音抑制要满足智能交互的实时性,不然用户交互体验度会很差。一方面,计算复杂度不能太高。另一方面,噪音抑制对历史信息依赖不能过长,一次处理的缓冲区不能太大。通过短时傅里叶变换技术,把时域信号映射到时频域是降低复杂度、提高实时性的常用技。
目前,噪音抑制是智能语音交互系统的前端核心处理模块,由于智能语音交互近几年才在产业界有了广泛影响,现有噪音抑制尤其是定向噪音抑制技术,还存在如下几个问题:
1)现有技术依赖于声源方位信息,假设用户方位已知,影响了实用性,因为实际的使用过程中,不可能预先固定用户的声音方位。由于声源相对于麦克风方向信息是基于麦克风阵列的核心线索信息,现有的大部分噪音抑制技术,或者先采用声源定位技术对声源方位信息进行估计,或者对用户方位进行限定。在双麦克风降噪系统领域,由于麦克风数量不多,声源定位算法很难达到很高的精度,自然影响了后续的噪音抑制的效果。而对用户方位进行限定,比如假设用户在麦阵的正前方呈90度,固然提供了精确的方位信息,但是显著了用户使用的自由度,用户体验差。
2)现有技术中的噪音抑制模型假设过于理想,或者基于无混响模型,或者混响很小。现有许多噪音抑制技术随着混响的增大性能迅速下降,而实际诸如家居应用环境下,来自墙壁反射的混响会降低方位信息的准确性。另一方面,硬件系统附带的噪音不论对估计目标语音方位还是定向噪音的方位都有重大影响。因此,降噪模型应该有着很高的鲁棒性,以应对应用环境与理想假设的不匹配。
3)在现有技术中,也有其他的技术手段可使噪音得到一定程度抑制,但是引入了过高的语音扭曲,更不利于后续的语音识别。从整体来看,大部分噪音抑制技术都可以一定程度上抑制噪音,然后从时频谱图上聚焦到某一个时频单元,会有许多单元因为噪音估计的不准确,能量被过分的抑制,导致语音能量也被错误的扭曲。从语音识别的角度来讲,语音能量的扭曲比噪音的影响更大。因此,许多噪音抑制技术并不能提高语音识别的准确性,甚至会导致识别率下降。
发明内容
针对现有技术的不足,本发明公开了基于指定带宽的定向噪音抑制方法。
本发明的技术方案如下:
一种基于指定带宽的定向噪音抑制方法,包括双麦克风语音采集模型,所述双麦克风语音采集模型所观测到的语音信号均可分为两个信号通道;双麦克风语音采集模型所观测到的语音信号包括目标语音信号和噪音信号;所述噪音信号包括与目标语音信号方向不一致的定向噪音和非定向的平稳噪音;设置一帧时间帧ls>1,在时间帧l满足1≤l≤ls时,所观测到的语音信号包括目标语音信号和平稳噪音信号;在时间帧l满足l≥ls时,所观测到的语音信号包括目标语音信号、平稳噪音信号和定向噪音信号;所述抑制方法的步骤为:
步骤1、估计目标语音通道传输函数;
在时间帧l满足1≤l≤ls时,在频域上计算每一个频带k的第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、自相关功率谱系数的期望平均值Ω1(k)、互相关功率谱系数的期望平均值Ω2(k);并根据下式估计目标语音通道传输函数:
R ( k ) = Ω 2 ( k ) - ρ 11 ( k ) ρ 21 ( k ) Ω 1 ( k ) - ρ 11 ( k ) ρ 11 ( k ) ;
步骤2、估计及抑制平稳噪音;
定义语音阻塞滤波器J(k):
J(k)=[-R*(k),1]T
在时间帧l满足1≤l≤ls时,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量;在时间帧l满足1≤l≤ls时,在频域上计算每一个频带k的平稳噪音的功率谱密度PN,i(k);根据所观测语音谱Zi(l,k)和平稳噪音的功率谱密度PN,i(k),计算抑制掉平稳噪音之后的目标语音谱;
步骤3、抑制定向噪音;
在时间帧l满足l>ls时,继续抑制平稳噪音,且开始定向噪音抑制过程;目标语音和定向噪音来自不同的方向,根据步骤1的目标语音通道传输函数,目标语音的方向θ(k)为:
θ(k)=∠R(k)/kω0
设定一带通滤波器,所述带通滤波器的通带为Δθp(k)、阻带为Δθs(k);判断目标语音和所观测语音之间的相位差,在当前时间帧,如果目标语音和所观测语音之间的相位差在通带Δθp(k)之内,则所观测语音信号为目标语音所主导,如果目标语音和所观测语音之间的相位差在阻带Δθs(k)之内,则所观测语音为定向噪音主导,使用带通滤波器将其过滤;
最后可得到抑制了平稳噪音和定向噪音的目标语音信号。
其进一步的技术方案为,所述步骤1具体包括:
步骤1-1、设置用于储存信息的缓冲区,缓冲区可储存时间帧l满足1≤l≤ls时的语音信息;将观测信号z1(t)和z2(t)写入缓冲区;在时域上,观测信号z1(t)和z2(t)表示为:
z1(t)=hS,1(t)*s(t)+n1(t)
z2(t)=hS,2(t)*s(t)+n2(t)(1)
式(1)中,s(t)为目标语音的时域信号,n1(t)和n2(t)分别为两路不相关的平稳噪音的时域信号,hS,1(t)和hS,2(t)分别代表目标语音到两个麦克风的时域传输函数,“*”为卷积运算符号;
步骤1-2、两路观测信号z1(t)和z2(t)形成两个通道,对每个通道的数据进行加窗傅里叶变换:
Z 1 ( l , k ) = Σ t w ( t ) z 1 ( t ) exp ( - j 2 π t T k )
Z 2 ( l , k ) = Σ t w ( t ) z 2 ( t ) exp ( - j 2 π t T k ) - - - ( 2 )
式(2)中,w(t)为窗函数,l为时间帧,k为频带;
步骤1-3、根据傅里叶变换的线性性质,观测信号z1(t)和z2(t)在频域可表示为:
Z 1 ( l , k ) = H S , 1 ( k ) S ( l , k ) + N 1 ( l , k ) Z 2 ( l , k ) = H S , 2 ( k ) S ( l , k ) + N 2 ( l , k ) - - - ( 3 )
式(3)中,S(l,k)为目标语音的功率谱,N1(l,k)和N2(l,k)分别为两个通道的平稳噪音的功率谱;定义R(k)为包括反应目标语音方位信息的目标语音通道传输函数:
R(k)=HS,2(k)/HS,1(k);
步骤1-4、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的自相关功率谱Ψ11(l,k)和第二通道的自相关功率谱Ψ22(l,k):
Ψ 11 ( l , k ) = aΨ 11 ( l - 1 , k ) + ( 1 - a ) Z 1 ( l , k ) Z 1 * ( l , k ) Ψ 22 ( l , k ) = aΨ 22 ( l - 1 , k ) + ( 1 - a ) Z 2 ( l , k ) Z 2 * ( l , k ) - - - ( 4 )
式(4)中,a为平滑因子,上标“*”为共轭算子;
步骤1-5、由时间帧l=1起,直至l=ls止,在每一个频带k,估计互相关功率谱Ψ21(l,k):
Ψ 21 ( l , k ) = aΨ 21 ( l - 1 , k ) + ( 1 - a ) Z 2 ( l , k ) Z 1 * ( l , k ) - - - ( 5 )
步骤1-6、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的功率谱自相关系数Γ11及功率谱互相关系数Γ21
Γ 11 ( l , k ) = Ψ 11 ( l , k ) Ψ 11 * ( l , k )
Γ21(l,k)=Ψ11(l,k)Ψ21(l,k)(6)
步骤1-7、估计第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、第一通道的功率谱自相关系数的期望平均值Ω1(k)、功率谱互相关系数的期望平均值Ω2(k):
ρ 11 ( k ) = 1 l s Σ l = 1 l s Ψ 11 ( l , k ) , ρ 21 ( k ) = 1 l s Σ l = 1 l s Ψ 21 ( l , k ) ,
Ω 1 ( k ) = 1 l s Σ l = 1 l s Γ 11 ( l , k ) , Ω 2 ( k ) = 1 l s Σ l = 1 l s Γ 21 ( l , k ) , - - - ( 7 )
步骤1-8、将步骤1-3中所定义的目标语音通道传输函数R(k),由功率谱的期望平均值和功率谱系数的期望平均值所表示:
R ( k ) = Ω 2 ( k ) - ρ 11 ( k ) ρ 21 ( k ) Ω 1 ( k ) - ρ 11 ( k ) ρ 11 ( k ) .
其进一步的技术方案为,所述步骤2具体为:
步骤2-1、根据步骤1得到的通道传输函数R(k),定义语音阻塞滤波器J(k):
J(k)=[-R*(k),1]T(9)
步骤2-2、由时间帧l=1起,直至l=ls止,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量V(l,k):
V ( l , k ) = J ( k ) H Z 1 ( l , k ) Z 1 ( l , k ) = - R ( k ) N 1 ( l , k ) + N 2 ( l , k ) - - - ( 10 )
式(10)中,上标“H”为共轭转置算子;
步骤2-3、当时间帧l满足1≤l≤ls时,在每一个频带k,计算平稳噪音分量V(l,k)的功率谱密度ΨVV(l,k):
ΨVV(l,k)=aΨVV(l-1,k)+(1-a)V(l,k)V(l,k)(11)
步骤2-4、当时间帧l满足1≤l≤ls时,在每一个频带k,计算功率谱密度ΨVV(l,k)的期望平均值ρVV(k)为:
ρ V V ( k ) = 1 l S Σ l = 1 l S Ψ V V ( l , k ) - - - ( 12 )
步骤2-5、当时间帧l满足1≤l≤ls时,在每一个频带k,估计第一通道的自相关功率谱的期望平均值ρ11(k)和第二通道的自相关功率谱的期望平均值ρ22(k):
ρ 11 ( k ) = 1 l s Σ l = 1 l s Ψ 11 ( l , k )
ρ 22 ( k ) = 1 l S Σ l = 1 l S Ψ 22 ( l , k ) - - - ( 13 )
步骤2-6、第一通道平稳噪音的功率谱密度ΡN,1(k)和第二通道的平稳噪音的功率谱密度ΡN,2(k)如下:
P N , 1 ( k ) P N , 2 ( k ) = | R ( k ) | 2 , 1 - | R ( k ) | 2 , 1 - 1 ρ V V ( k ) | R ( k ) | 2 ρ 11 ( k ) - ρ 22 ( k ) - - - ( 14 )
步骤2-7、基于平稳噪音的功率谱密度估计,在每一个通道,每一个时间帧,计算谱减后的功率谱密度:
P Z i ( l , k ) = | Z i ( l , k ) | 2 - αP N , i ( k ) , i = 1 , 2 , - - - ( 15 )
式(15)中,α为平滑因子;
步骤2-8、计算抑制掉平稳噪音分量的目标语音谱
如果有:
P Z i ( l , k ) > β | Z i ( l , k ) | 2
则有:
Z ^ i ( l , k ) = P Z i ( l , k ) | Z i ( l , k ) | 2 Z i ( l , k )
如果有:
P Z i ( l , k ) ≤ β | Z i ( l , k ) | 2
则有:
Z ^ i ( l , k ) = β Z i ( l , k )
其中,β为过减控制因子。
其进一步的技术方案为:所述步骤1得到的目标语音的通道传输函数R(k)包括目标语音的方向θ(k):
θ(k)=∠R(k)/kω0
∠R(k)为复数R(k)的角度,kω0为傅里叶变换频带所对应的圆频率;
步骤3具体包括:
步骤3-1、对于l>lS的时间帧,对所观测语音信号进行加窗傅里叶变换:
Z 1 ( l , k ) = Σ t w ( t ) z 1 ( t ) exp ( - j 2 π t T k ) Z 2 ( l , k ) = Σ t w ( t ) z 2 ( t ) exp ( - j 2 π t T k ) - - - ( 17 )
式(17)中,w(t)为窗函数,l为时间帧,k为频带;
步骤3-2、对于l>lS的时间帧,计算第一通道的自相关功率谱、互相关功率谱:
Ψ 11 ( l , k ) = aΨ 11 ( l - 1 , k ) + ( 1 - a ) Z 1 ( l , k ) Z 1 * ( l , k ) Ψ 21 ( l , k ) = aΨ 21 ( l - 1 , k ) + ( 1 - a ) Z 2 ( l , k ) Z 1 * ( l , k ) - - - ( 18 )
步骤3-3、对于l>lS的时间帧,计算通道传输函数的方向δ(l,k):
δ(l,k)=∠(Ψ21(l,k)/Ψ11(l,k))(19)
步骤3-4、设定带通滤波器,其阻带为Δθs(k),通带为Δθp(k);确定带通滤波器的增益函数Gp(l,k):
如果:
|θ(k)-δ(l,k)/kω0|<ΔθP(k),
则判定所观测语音信号处于通带内,说明所观测语音信号为目标语音主导,增益函数定义为:Gp(l,k)=1;
如果:
|θ(k)-δ(l,k)/kω0|>ΔθS(k),
则判定所观测语音信号处于阻带内,说明该所观测语音信号为定向噪声主导,增益函数定义为:Gp(l,k)=0.1;
如果所观测语音信号介于通带和阻带之间,增益函数定义为:
G p ( l , k ) = 0.1 + 0.9 Δθ S ( k ) - Δθ p ( k ) ( Δθ S ( k ) - | θ ( k ) - δ ( l , k ) / kω 0 | ) ;
步骤3-5、抑制定向噪音之后的目标语音频谱估计为:
S ^ ( l , k ) = G p ( l , k ) ( R ( k ) Z ^ 1 ( l , k ) + Z ^ 2 ( l , k ) ) - - - ( 20 )
步骤3-6、根据逆傅里叶变换,时域目标语音信号估计为:
s ^ ( t ) = 1 T Σ k = 1 T w ( k ) S ^ ( l , k ) exp ( j 2 π t T k ) - - - ( 21 )
即为去除了平滑噪音和定向噪声之后的目标语音估计。
本发明的有益技术效果是:
本发明复杂度低,噪音抑制效果良好,即便在信噪比较低的情况下,都有良好的效果,有很高的实用性,具体如下:
1、本发明与现有技术相比,在抑制噪音的过程中有效区分了定向噪声和平稳噪声分量的不同,并基于这二者性质上不同,采用不同的方法进行抑制,噪音抑制效果更好。
对于定向噪音,其能量随时间快速变化,很难通过估计能量密度的方式采用谱减法进行抑制,本发明根据其方向信息,设计通带和阻带的方式进行可有效抑制。
对于平稳噪声,其存在会影响定向噪音的带宽判断的准确性,所以本发明中,先对平稳噪音进行抑制,之后再进行定向噪音的带宽判定,有效提高了判定的准确性。
2、本项发明在噪音抑制的过程中设定了目标语音和定向噪音来自不同的方向这一假设,但不论是目标语音还是定向噪音,都不需要先确定其具体的方位信息,而是采用功率谱平滑估计的方式,提高了对噪声的鲁棒性,降低了误差。
对于用户来说,本发明并不对用户的目标语音的具体方向进行限制,即用户即可以在麦克风阵列的正前方,也可以是任一角度发出声音,本项发明可以自适应用户的不同方位。在大部分应用环境下,目标语音方位和噪音来自不同方向,符合本项发明的应用假设。即本发明有很高的实用性,更适合实际情况,用户使用更自由。
3、本发明可以同时抑制定向噪声和非定向的平稳噪声,适应的噪声类型范围更广。
4、本发明使用了双麦克风阵列模型。由于定向噪音能量的非平稳性,通常需要采用集合多个麦克风的阵列进行处理。增加麦克风的数量会提高噪音抑制的效果,同时也增加了成本。本发明采用了双麦克风的阵列,是一种折中方案,既可以可以反映声音信号的时间信息,也可控制成本。
附图说明
图1是本发明的流程图。
图2是目标语音通道传输函数估计的流程图。
图3是估计及抑制平稳噪音分量的流程图。
图4为带通滤波器的增益函数示意图。
具体实施方式
本发明涉及语音信号处理和计算机软件两个领域。语音信号处理是伴随计算机问世,从20世纪50年代兴起的专业技术领域。噪声抑制一直是该领域的重要问题之一。
本发明采用双麦克风语音采集模型,即使用两个空间位置有差异的麦克风,同时分两路采集所观测的声音信号,并对两路声音信号进行相关的分析计算来抑制噪音。
所观测的信号包括目标语音信号和噪音信号,噪音信号包括指定带宽的定向噪音和非定向的平稳噪音。所谓“指定带宽”,是指先对目标语音方位所对应的频域传输函数进行自适应估计,由于定向噪声和目标语音的传输函数并不相同,因此定向噪声和目标语音的方位所对应的频域传输函数也不同,在得到目标语音的传输函数估计之后,通过指定一个带宽,提高对估计误差的鲁棒性,超出这个带宽之外的时频单元可以认为来自定向噪声方向,对其进行过滤,以达到噪声抑制的目的。
设置一帧时间帧信号ls>1,在本发明的计算过程中,做如下假设:对于观测到的所有的时间帧l来说,在时间帧l满足1≤l≤ls时,所观测到的语音信号包括目标语音信号和平稳噪音信号;在时间帧l满足l>ls时,所观测到的语音信号包括目标语音信号、平稳噪音信号和定向噪音信号;则在时间帧l满足1≤l≤ls这一系列前帧信号中,估计目标语音通道传输函数以及估计和抑制平稳噪音分量。在时间帧l满足l>ls,即出现定向噪音之后,抑制指定带宽的定向噪音。
在本实施例中,特别的,设lS=50,即前帧信号为第1帧至第50帧。
图1是本发明的流程图,如图1所示,本发明所述的控制方法包括三个步骤:
步骤1、估计目标语音通道传输函数;
在时间帧l满足1≤l≤ls时,估计各个通道的自相关功率谱、互相关功率谱,并且根据功率谱的期望平均值,计算目标语音通道传输函数R(k)。
步骤2、估计及抑制平稳噪音分量;
可根据步骤1中所得到的第一通道的自相关功率谱的期望平均值ρ11(k)、第二通道的自相关功率谱Ψ22(l,k)和目标语音的通道传输函数R(k)继续进行步骤2的计算。
在时间帧l满足1≤l≤ls时,进行步骤2的计算过程。在步骤2中,定义语音阻塞滤波器,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量,并估计平稳噪音的功率谱密度。根据平稳噪音功率谱密度可得到抑制了平稳噪音分量的目标语音信号
步骤3、定向噪音的抑制。
可根据根据步骤2所得到的抑制了平稳噪音分量的目标语音信号和步骤1所得到的目标语音的通道传输函数R(k)继续进行步骤3的计算。
在时间帧l满足l>ls时,开始步骤3的计算过程。在步骤3中,计算同时包含于语音信号和定向噪音的通道功率谱密度,并计算其与目标语音之间的相位差,再根据所设定的通带和阻带,确定带通滤波器的函数增益,之后可得到已经抑制了平滑噪音和定向噪音之后的目标语音的频域估计,最后通过逆傅里叶变换得到目标语音的时域估计。
本发明中各个步骤的具体详述如下:
步骤1、目标语音通道传输函数估计。图2是目标语音通道传输函数估计的流程图。如图2所示,步骤1具体包括:
步骤1-1、设置用于储存信息的缓冲区,缓冲区可储存时间帧l满足1≤l≤ls时的语音信息;将观测信号z1(t)和z2(t)写入缓冲区;在本实施例中,缓冲区大小为2048B,其中每一个麦克风通道为1024个浮点数据。在时域上,观测信号z1(t)和z2(t)表示为:
z1(t)=hS,1(t)*s(t)+n1(t)
z2(t)=hS,2(t)*s(t)+n2(t)(1)
式(1)中,s(t)为目标语音的时域信号,n1(t)和n2(t)分别为两路不相关的平稳噪音的时域信号,hS,1(t)和hS,2(t)分别代表目标语音到两个麦克风的时域传输函数,“*”为卷积运算符号;
步骤1-2、两路观测信号z1(t)和z2(t)形成两个通道,对每个通道的数据进行加窗傅里叶变换:
Z 1 ( l , k ) = Σ t w ( t ) z 1 ( t ) exp ( - j 2 π t T k )
Z 2 ( l , k ) = Σ t w ( t ) z 2 ( t ) exp ( - j 2 π t T k ) - - - ( 2 )
式(2)中,w(t)为窗函数,具体是1024长度的汉明窗,T=1024,l为时间帧,k为频带;
步骤1-3、根据傅里叶变换的线性性质,观测信号z1(t)和z2(t)在频域可表示为:
Z 1 ( l , k ) = H S , 1 ( k ) S ( l , k ) + N 1 ( l , k ) Z 2 ( l , k ) = H S , 2 ( k ) S ( l , k ) + N 2 ( l , k ) , - - - ( 3 )
式(3)中,S(l,k)为目标语音的功率谱,N1(l,k)和N2(l,k)分别为两个通道的平稳噪音的功率谱;定义包括反应目标语音方位信息的目标语音通道传输函数R(k):
R(k)=HS,2(k)/HS,1(k);
步骤1-4、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的自相关功率谱Ψ11(l,k)和第二通道的自相关功率谱Ψ22(l,k):
Ψ 11 ( l , k ) = aΨ 11 ( l - 1 , k ) + ( 1 - a ) Z 1 ( l , k ) Z 1 * ( l , k ) Ψ 22 ( l , k ) = aΨ 22 ( l - 1 , k ) + ( 1 - a ) Z 2 ( l , k ) Z 2 * ( l , k ) - - - ( 4 )
式(4)中,a为平滑因子,a=0.8,上标“*”为共轭算子;
步骤1-5、由时间帧l=1起,直至l=ls止,在每一个频带k,估计互相关功率谱Ψ21(l,k):
Ψ 21 ( l , k ) = aΨ 21 ( l - 1 , k ) + ( 1 - a ) Z 2 ( l , k ) Z 1 * ( l , k ) - - - ( 5 )
步骤1-6、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的功率谱自相关系数Γ11及功率谱互相关系数Γ21
Γ 11 ( l , k ) = Ψ 11 ( l , k ) Ψ 11 * ( l , k )
Γ21(l,k)=Ψ11(l,k)Ψ21(l,k)(6)
步骤1-7、估计第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、第一通道的功率谱自相关系数的期望平均值Ω1(k)、功率谱互相关系数的期望平均值Ω2(k):
ρ 11 ( k ) = 1 l s Σ l = 1 l s Ψ 11 ( l , k ) , ρ 21 ( k ) = 1 l s Σ l = 1 l s Ψ 21 ( l , k ) ,
Ω 1 ( k ) = 1 l s Σ l = 1 l s Γ 11 ( l , k ) , Ω 2 ( k ) = 1 l s Σ l = 1 l s Γ 21 ( l , k ) , - - - ( 7 )
步骤1-8、将步骤1-3中所定义的目标语音通道传输函数R(k),由功率谱的期望平均值和功率谱系数的期望平均值表示:
R ( k ) = Ω 2 ( k ) - ρ 11 ( k ) ρ 21 ( k ) Ω 1 ( k ) - ρ 11 ( k ) ρ 11 ( k ) .
结合图2可知,步骤1-1至步骤1-6,为循环迭代计算,从第一帧,即l=1开始,一直到第lS=50帧,在每一帧中,都计算每一个频带k的自相关功率谱、互相关功率谱、自相关功率谱系数、互相关功率谱系数,并将每一帧中所有频带k的信息都写入缓冲区。之后上述计算结果,计算自相关功率谱的期望平均值、互相关功率谱的期望平均值、自相关功率谱系数的期望平均值、互相关功率谱系数的期望平均值。最后再用上述期望平均值来计算通道传输函数。
原则上,平稳噪音的能量越小,传输函数的估计越准确。
步骤2、估计及抑制平稳噪音。
如果定向噪音也存在,则定向噪音和目标语音一样,也会对应一个通道传输函数。然而平稳噪音的存在会对判断一个时间帧的信号是来自目标语音还是定向噪音带来干扰。由于平稳噪音的功率谱可以随时间保持不变,所以步骤2旨在基于这一特性,利用时间帧l满足1≤l≤ls时的前帧数据估计出平稳噪音在各个频带的功率谱密度,图3是估计及抑制平稳噪音分量的流程图。结合图3,步骤2具体包括:
步骤2-1、根据步骤1得到的通道传输函数R(k),定义语音阻塞滤波器J(k):
J(k)=[-R*(k),1]T(9)
步骤2-2、由时间帧l=1起,直至l=ls止,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量V(l,k):
V ( l , k ) = J ( k ) H Z 1 ( l , k ) Z 1 ( l , k ) = - R ( k ) N 1 ( l , k ) + N 2 ( l , k ) - - - ( 10 )
式(10)中,上标“H”为共轭转置算子;由式(10)可以看出,由于目标语音的定向性,可以通过其定向信息所对应的传输函数将目标语音全部抑制掉,仅剩包含有两个通道的平稳噪音的平稳噪音分量。
步骤2-3、由时间帧l=1起,直至l=ls止,在每一个频带k,计算平稳噪音分量V(l,k)的功率谱密度ΨVV(l,k):
ΨVV(l,k)=aΨVV(l-1,k)+(1-a)V(l,k)V(l,k)(11)
步骤2-4、计算功率谱密度ΨVV(l,k)的期望平均值ρVV(k):
ρ V V ( k ) = 1 l S Σ l = 1 l S Ψ V V ( l , k ) - - - ( 12 )
步骤2-5、在步骤1中,已计算出第一通道的自相关功率谱的期望平均值ρ11(k),当时间帧l满足1≤l≤ls时,在每一个频带k,估计第二通道的自相关功率谱的期望平均值ρ22(k):
ρ 22 ( k ) = 1 l S Σ l = 1 l S Ψ 22 ( l , k ) - - - ( 13 )
步骤2-6、分别计算每个通道的平稳噪音的功率谱密度,第一通道平稳噪音的功率谱密度ΡN,1(k)和第二通道的平稳噪音的功率谱密度ΡN,2(k)如下:
P N , 1 ( k ) P N , 2 ( k ) = | R ( k ) | 2 , 1 - | R ( k ) | 2 , 1 - 1 ρ V V ( k ) | R ( k ) | 2 ρ 11 ( k ) - ρ 22 ( k ) - - - ( 14 )
步骤2-7、基于平稳噪音的功率谱密度估计,在每一个通道,每一个时频单元,计算谱减后的功率谱密度:
P Z i ( l , k ) = | Z i ( l , k ) | 2 - αP N , i ( k ) , i = 1 , 2 , - - - ( 15 )
式(15)中,α为平滑因子;α=4。
步骤2-8、计算抑制掉平稳噪音分量的目标语音谱
如果有:
P Z i ( l , k ) > β | Z i ( l , k ) | 2
则有:
Z ^ i ( l , k ) = P Z i ( l , k ) | Z i ( l , k ) | 2 Z i ( l , k )
如果有:
P Z i ( l , k ) ≤ β | Z i ( l , k ) | 2
则有:
Z ^ i ( l , k ) = β Z i ( l , k )
其中,β为过减控制因子,以避免过度的能量被抑制掉,造成语音扭曲。β=0.3。
上述步骤完成后得到的混合谱即为平稳噪音得到抑制后的语音谱。该语音谱只含有目标语音和定向噪音谱。本模块数据流程如图3所示,步骤2-2至步骤2-3,为循环迭代计算,从第一帧,即l=1开始,一直到第lS=50帧,在每一帧中,都计算每一个频带k的平稳噪音分量和平稳噪音分量的功率谱。之后根据上述计算结果,计算平稳噪音分量功率谱的期望平均值,并分别计算每个通道的平稳噪音分量的功率谱,最后得到抑制掉平稳噪音的目标语音谱。
步骤3、抑制定向噪音。
当时间帧l满足l>ls时,开始步骤3的计算。
步骤1得到的目标语音的通道传输函数包括目标语音的方向θ(k):
θ(k)=∠R(k)/kω0
∠R(k)为复数R(k)的角度,kω0为傅里叶变换频带所对应的圆频率;由于步骤1中,所观测的语音信号不包括定向噪音,所以θ(k)仅包括目标语音的方向信息。对于l>lS帧,开始出现定向噪音,则抑制掉平稳噪音分量之后,所观测语音信号的频域模型为:
Z ^ 1 ( l , k ) ≈ H S , 1 ( k ) S ( l , k ) + H D , 1 ( k ) D ( l , k ) Z ^ 2 ( l , k ) ≈ H S , 2 ( k ) S ( l , k ) + H D , 2 ( k ) D ( l , k ) - - - ( 16 )
式(16)中,D(l,k)为定向噪音,HD,1(k)和HD,2(k)为定向噪音的传输函数;定义包括定向噪音的方向信息的定向噪音通道传输函数Q(k):
Q(k)=HD,2(k)/HD,1(k);
图4为带通滤波器的增益函数示意图。结合图4,设定一带通滤波器,带通滤波器的通带为Δθp(k),阻带为Δθs(k);判断目标语音和所观测语音之间的相位差,在当前时间帧,如果目标语音和所观测语音之间的相位差在通带Δθp(k)之内,则所观测语音为目标语音所主导,如果目标语音和所观测语音之间的相位差信息在阻带Δθs(k)之内,则所观测语音为定向噪音主导,使用带通滤波器将其过滤。最后得到抑制了平稳噪音和定向噪音的目标语音信号。带通滤波器的增益函数的确定方法在下文详述。
步骤3具体包括:
步骤3-1、对于l>lS时间帧,对所观测语音信号进行加窗傅里叶变换:
Z 1 ( l , k ) = Σ t w ( t ) z 1 ( t ) exp ( - j 2 π t T k ) Z 2 ( l , k ) = Σ t w ( t ) z 2 ( t ) exp ( - j 2 π t T k ) - - - ( 17 )
式(17)中,w(t)为窗函数,具体是1024长度的汉明窗,T=1024,l为时间帧,k为频带;
步骤3-2、对于l>lS的时间帧,计算第一通道的自相关功率谱Ψ11(l,k)、互相关功率谱Ψ21(l,k):
Ψ 11 ( l , k ) = aΨ 11 ( l - 1 , k ) + ( 1 - a ) Z 1 ( l , k ) Z 1 * ( l , k ) Ψ 21 ( l , k ) = aΨ 21 ( l - 1 , k ) + ( 1 - a ) Z 2 ( l , k ) Z 1 * ( l , k ) - - - ( 18 )
步骤3-3、对于l>lS的时间帧,计算通道传输函数的复数角δ(l,k):
δ(l,k)=∠(Ψ21(l,k)/Ψ11(l,k))(19)
步骤3-4、设定一带通滤波器,其通带为Δθp(k),阻带为Δθs(k):确定带通滤波器的增益函数;
设方向θ′(k)=δ(l,k)/kω0
由于对于l>lS的时间帧,通道传输函数同时包含有目标语音信号和定向噪音信号的信息,所以方向θ′(k)也同时包括目标语音信号和定向噪音信号的方向信息。步骤3-4的原理为,比较方向θ′(k)与不包括定向噪音信号的目标语音的方向θ(k)之间的差距。如果方向θ′(k)与方向θ(k)之间差距较近,则说明此信息主要由目标语音主导,反之则说明此信息主要由定向噪音主导。具体方法为:
如果:
|θ(k)-δ(l,k)/kω0|<ΔθP(k),
则判定所观测语音信号处于通带内,说明所观测语音信号为目标语音主导,增益函数定义为:Gp(l,k)=1。
如果:
|θ(k)-δ(l,k)/kω0|>ΔθS(k),
则判定所观测语音信号处于阻带内,说明该所观测语音信号为定向噪声主导,增益函数定义为:Gp(l,k)=0.1。
如果所观测语音信号介于通带和阻带之间,增益函数定义为:
G p ( l , k ) = 0.1 + 0.9 Δθ S ( k ) - Δθ p ( k ) ( Δθ S ( k ) - | θ ( k ) - δ ( l , k ) / kω 0 | ) ;
在本实施例中,设定通带Δθp(k)为:
Δθ P ( k ) = π 6 ;
阻带Δθs(k)为:
Δθ S ( k ) = π 3 ;
步骤3-5、抑制定向噪音之后的目标语音频谱估计为:
S ^ ( l , k ) = G p ( l , k ) ( R ( k ) Z ^ 1 ( l , k ) + Z ^ 2 ( l , k ) ) - - - ( 20 )
步骤3-6、根据逆傅里叶变换,时域目标语音信号估计为:
s ^ ( t ) = 1 T Σ k = 1 T w ( k ) S ^ ( l , k ) exp ( j 2 π t T k ) - - - ( 21 )
即为去除了平滑噪音和定向噪声之后的目标语音估计。
以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (4)

1.一种基于指定带宽的定向噪音抑制方法,其特征在于:包括双麦克风语音采集模型,所述双麦克风语音采集模型所观测到的语音信号均可分为两个信号通道;双麦克风语音采集模型所观测到的语音信号包括目标语音信号和噪音信号;所述噪音信号包括与目标语音信号方向不一致的定向噪音和非定向的平稳噪音;设置一帧时间帧ls>1,在时间帧l满足1≤l≤ls时,所观测到的语音信号包括目标语音信号和平稳噪音信号;在时间帧l满足l≥ls时,所观测到的语音信号包括目标语音信号、平稳噪音信号和定向噪音信号;所述抑制方法的步骤为:
步骤1、估计目标语音通道传输函数;
在时间帧l满足1≤l≤ls时,在频域上计算每一个频带k的第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、自相关功率谱系数的期望平均值Ω1(k)、互相关功率谱系数的期望平均值Ω2(k);并根据下式估计目标语音通道传输函数:
R ( k ) = Ω 2 ( k ) - ρ 11 ( k ) ρ 21 ( k ) Ω 1 ( k ) - ρ 11 ( k ) ρ 11 ( k ) ;
步骤2、估计及抑制平稳噪音;
定义语音阻塞滤波器J(k):
J(k)=[-R*(k),1]T
在时间帧l满足1≤l≤ls时,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量;在时间帧l满足1≤l≤ls时,在频域上计算每一个频带k的平稳噪音的功率谱密度PN,i(k);根据所观测语音谱Zi(l,k)和平稳噪音的功率谱密度PN,i(k),计算抑制掉平稳噪音之后的目标语音谱;
步骤3、抑制定向噪音;
在时间帧l满足l>ls时,继续抑制平稳噪音,且开始定向噪音抑制过程;目标语音和定向噪音来自不同的方向,根据步骤1的目标语音通道传输函数,目标语音的方向θ(k)为:
θ(k)=∠R(k)/kω0
设定一带通滤波器,所述带通滤波器的通带为Δθp(k)、阻带为Δθs(k);判断目标语音和所观测语音之间的相位差,在当前时间帧,如果目标语音和所观测语音之间的相位差在通带Δθp(k)之内,则所观测语音信号为目标语音所主导,如果目标语音和所观测语音之间的相位差在阻带Δθs(k)之内,则所观测语音为定向噪音主导,使用带通滤波器将其过滤;
最后可得到抑制了平稳噪音和定向噪音的目标语音信号。
2.如权利要求1所述的基于指定带宽的定向噪音抑制方法,其特征在于:
所述步骤1具体包括:
步骤1-1、设置用于储存信息的缓冲区,缓冲区可储存时间帧l满足1≤l≤ls时的语音信息;将观测信号z1(t)和z2(t)写入缓冲区;在时域上,观测信号z1(t)和z2(t)表示为:
z1(t)=hS,1(t)*s(t)+n1(t)
z2(t)=hS,2(t)*s(t)+n2(t)(1)
式(1)中,s(t)为目标语音的时域信号,n1(t)和n2(t)分别为两路不相关的平稳噪音的时域信号,hS,1(t)和hS,2(t)分别代表目标语音到两个麦克风的时域传输函数,“*”为卷积运算符号;
步骤1-2、两路观测信号z1(t)和z2(t)形成两个通道,对每个通道的数据进行加窗傅里叶变换:
Z 1 ( l , k ) = Σ t w ( t ) z 1 ( t ) exp ( - j 2 π t T k )
Z 2 ( l , k ) = Σ t w ( t ) z 2 ( t ) exp ( - j 2 π t T k ) - - - ( 2 )
式(2)中,w(t)为窗函数,l为时间帧,k为频带;
步骤1-3、根据傅里叶变换的线性性质,观测信号z1(t)和z2(t)在频域可表示为:
Z 1 ( l , k ) = H S , 1 ( k ) S ( l , k ) + N 1 ( l , k ) Z 2 ( l , k ) = H S , 2 ( k ) S ( l , k ) + N 2 ( l , k ) - - - ( 3 )
式(3)中,S(l,k)为目标语音的功率谱,N1(l,k)和N2(l,k)分别为两个通道的平稳噪音的功率谱;定义R(k)为包括反应目标语音方位信息的目标语音通道传输函数:
R(k)=HS,2(k)/HS,1(k);
步骤1-4、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的自相关功率谱Ψ11(l,k)和第二通道的自相关功率谱Ψ22(l,k):
Ψ 11 ( l , k ) = aΨ 11 ( l - 1 , k ) + ( 1 - a ) Z 1 ( l , k ) Z 1 * ( l , k ) Ψ 22 ( l , k ) = aΨ 22 ( l - 1 , k ) + ( 1 - a ) Z 2 ( l , k ) Z 2 * ( l , k ) - - - ( 4 )
式(4)中,a为平滑因子,上标“*”为共轭算子;
步骤1-5、由时间帧l=1起,直至l=ls止,在每一个频带k,估计互相关功率谱Ψ21(l,k):
Ψ 21 ( l , k ) = aΨ 21 ( l - 1 , k ) + ( 1 - a ) Z 2 ( l , k ) Z 1 * ( l , k ) - - - ( 5 )
步骤1-6、由时间帧l=1起,直至l=ls止,在每一个频带k,估计第一通道的功率谱自相关系数Γ11及功率谱互相关系数Γ21
Γ 11 ( l , k ) = Ψ 11 ( l , k ) Ψ 11 * ( l , k ) Γ 21 ( l , k ) = Ψ 11 ( l , k ) Ψ 21 ( l , k ) - - - ( 6 )
步骤1-7、估计第一通道的自相关功率谱的期望平均值ρ11(k)、互相关功率谱的期望平均值ρ21(k)、第一通道的功率谱自相关系数的期望平均值Ω1(k)、功率谱互相关系数的期望平均值Ω2(k):
ρ 11 ( k ) = 1 l s Σ l = 1 l s Ψ 11 ( l , k ) , ρ 21 ( k ) = 1 l s Σ l = 1 l s Ψ 21 ( l , k ) ,
Ω 1 ( k ) = 1 l s Σ l = 1 l s Γ 11 ( l , k ) , Ω 2 ( k ) = 1 l s Σ l = 1 l s Γ 21 ( l , k ) , - - - ( 7 )
步骤1-8、将步骤1-3中所定义的目标语音通道传输函数R(k),由功率谱的期望平均值和功率谱系数的期望平均值所表示:
R ( k ) = Ω 2 ( k ) - ρ 11 ( k ) ρ 21 ( k ) Ω 1 ( k ) - ρ 11 ( k ) ρ 11 ( k ) .
3.如权利要求1所述的基于指定带宽的定向噪音抑制方法,其特征在于:所述步骤2具体为:
步骤2-1、根据步骤1得到的通道传输函数R(k),定义语音阻塞滤波器J(k):
J(k)=[-R*(k),1]T(9)
步骤2-2、由时间帧l=1起,直至l=ls止,在每一个频带k,利用语音阻塞滤波器,阻塞掉目标语音,得到平稳噪音分量V(l,k):
V ( l , k ) = J ( k ) H Z 1 ( l , k ) Z 1 ( l , k ) = - R ( k ) N 1 ( l , k ) + N 2 ( l , k ) - - - ( 10 )
式(10)中,上标“H”为共轭转置算子;
步骤2-3、当时间帧l满足1≤l≤ls时,在每一个频带k,计算平稳噪音分量V(l,k)的功率谱密度ΨVV(l,k):
ΨVV(l,k)=aΨVV(l-1,k)+(1-a)V(l,k)V(l,k)(11)
步骤2-4、当时间帧l满足1≤l≤ls时,在每一个频带k,计算功率谱密度ΨVV(l,k)的期望平均值ρVV(k)为:
ρ V V ( k ) = 1 l S Σ l = 1 l S Ψ V V ( l , k ) - - - ( 12 )
步骤2-5、当时间帧l满足1≤l≤ls时,在每一个频带k,估计第一通道的自相关功率谱的期望平均值ρ11(k)和第二通道的自相关功率谱的期望平均值ρ22(k):
ρ 11 ( k ) = 1 l s Σ l = 1 l s Ψ 11 ( l , k )
ρ 22 ( k ) = 1 l S Σ l = 1 l S Ψ 22 ( l , k ) - - - ( 13 )
步骤2-6、第一通道平稳噪音的功率谱密度ΡN,1(k)和第二通道的平稳噪音的功率谱密度ΡN,2(k)如下:
P N , 1 ( k ) P N , 2 ( k ) = | R ( k ) | 2 , 1 - | R ( k ) | 2 , 1 - 1 ρ V V ( k ) | R ( k ) | 2 ρ 11 ( k ) - ρ 22 ( k ) - - - ( 14 )
步骤2-7、基于平稳噪音的功率谱密度估计,在每一个通道,每一个时间帧,计算谱减后的功率谱密度:
P Z i ( l , k ) = | Z i ( l , k ) | 2 - αP N , i ( k ) , i = 1 , 2 , - - - ( 15 )
式(15)中,α为平滑因子;
步骤2-8、计算抑制掉平稳噪音分量的目标语音谱
如果有:
P Z i ( l , k ) > β | Z i ( l , k ) | 2
则有:
Z ^ i ( l , k ) = P Z i ( l , k ) | Z i ( l , k ) | 2 Z i ( l , k )
如果有:
P Z i ( l , k ) ≤ β | Z i ( l , k ) | 2
则有:
Z ^ i ( l , k ) = β Z i ( l , k )
其中,β为过减控制因子。
4.如权利要求1所述的基于指定带宽的定向噪音抑制方法,其特征在于:
所述步骤1得到的目标语音的通道传输函数R(k)包括目标语音的方向θ(k):
θ ( k ) = ∠ R ( k ) / kω 0
∠R(k)为复数R(k)的角度,kω0为傅里叶变换频带所对应的圆频率;
步骤3具体包括:
步骤3-1、对于l>lS的时间帧,对所观测语音信号进行加窗傅里叶变换:
Z 1 ( l , k ) = Σ t w ( t ) z 1 ( t ) exp ( - j 2 π t T k ) Z 2 ( l , k ) = Σ t w ( t ) z 2 ( t ) exp ( - j 2 π t T k ) - - - ( 17 )
式(17)中,w(t)为窗函数,l为时间帧,k为频带;
步骤3-2、对于l>lS的时间帧,计算第一通道的自相关功率谱、互相关功率谱:
Ψ 11 ( l , k ) = aΨ 11 ( l - 1 , k ) + ( 1 - a ) Z 1 ( l , k ) Z 1 * ( l , k ) Ψ 21 ( l , k ) = aΨ 21 ( l - 1 , k ) + ( 1 - a ) Z 2 ( l , k ) Z 1 * ( l , k ) - - - ( 18 )
步骤3-3、对于l>lS的时间帧,计算通道传输函数的方向δ(l,k):
δ ( l , k ) = ∠ ( Ψ 21 ( l , k ) / Ψ 11 ( l , k ) ) - - - ( 19 )
步骤3-4、设定带通滤波器,其阻带为Δθs(k),通带为Δθp(k);确定带通滤波器的增益函数Gp(l,k):=1
如果:
|θ(k)-δ(l,k)/kω0|<ΔθP(k),
则判定所观测语音信号处于通带内,说明所观测语音信号为目标语音主导,增益函数定义为:Gp(l,k)=1;
如果:
|θ(k)-δ(l,k)/kω0|>ΔθS(k),
则判定所观测语音信号处于阻带内,说明该所观测语音信号为定向噪声主导,增益函数定义为:Gp(l,k)=0.1;
如果所观测语音信号介于通带和阻带之间,增益函数定义为:
G p ( l , k ) = 0.1 + 0.9 Δθ S ( k ) - Δθ p ( k ) ( Δθ S ( k ) - | θ ( k ) - δ ( l , k ) / kω 0 | ) ;
步骤3-5、抑制定向噪音之后的目标语音频谱估计为:
S ^ ( l , k ) = G p ( l , k ) ( R ( k ) Z ^ 1 ( l , k ) + Z ^ 2 ( l , k ) ) - - - ( 20 )
步骤3-6、根据逆傅里叶变换,时域目标语音信号估计为:
s ^ ( t ) = 1 T Σ k = 1 T w ( k ) S ^ ( l , k ) exp ( j 2 π t T k ) - - - ( 21 )
即为去除了平滑噪音和定向噪声之后的目标语音估计。
CN201610091553.1A 2016-02-18 2016-02-18 基于指定带宽的定向噪音抑制方法 Active CN105590630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610091553.1A CN105590630B (zh) 2016-02-18 2016-02-18 基于指定带宽的定向噪音抑制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610091553.1A CN105590630B (zh) 2016-02-18 2016-02-18 基于指定带宽的定向噪音抑制方法

Publications (2)

Publication Number Publication Date
CN105590630A true CN105590630A (zh) 2016-05-18
CN105590630B CN105590630B (zh) 2019-06-07

Family

ID=55930152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610091553.1A Active CN105590630B (zh) 2016-02-18 2016-02-18 基于指定带宽的定向噪音抑制方法

Country Status (1)

Country Link
CN (1) CN105590630B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825864A (zh) * 2016-05-19 2016-08-03 南京奇音石信息技术有限公司 基于过零率指标的双端说话检测与回声消除方法
CN107818366A (zh) * 2017-10-25 2018-03-20 成都力创昆仑网络科技有限公司 一种基于卷积神经网络的肺音分类方法、系统及用途
CN108962274A (zh) * 2018-07-11 2018-12-07 会听声学科技(北京)有限公司 一种语音增强方法,装置及耳机
CN110036441A (zh) * 2016-12-16 2019-07-19 日本电信电话株式会社 目标音强调装置、噪音估计用参数学习装置、目标音强调方法、噪音估计用参数学习方法、程序
CN112201267A (zh) * 2020-09-07 2021-01-08 北京达佳互联信息技术有限公司 一种音频处理方法、装置、电子设备及存储介质
WO2021128670A1 (zh) * 2019-12-26 2021-07-01 紫光展锐(重庆)科技有限公司 降低噪声的方法、装置、电子设备及可读存储介质
CN113823315A (zh) * 2021-09-30 2021-12-21 深圳万兴软件有限公司 降风噪方法、装置、双麦克风设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102461203A (zh) * 2009-06-09 2012-05-16 高通股份有限公司 用于对多信道信号进行基于相位的处理的系统、方法、设备及计算机可读媒体
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
CN104902418A (zh) * 2014-03-07 2015-09-09 奥迪康有限公司 用于估计目标和噪声谱方差的多传声器方法
CN104981866A (zh) * 2013-01-04 2015-10-14 华为技术有限公司 用于确定立体声信号的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102461203A (zh) * 2009-06-09 2012-05-16 高通股份有限公司 用于对多信道信号进行基于相位的处理的系统、方法、设备及计算机可读媒体
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
CN104981866A (zh) * 2013-01-04 2015-10-14 华为技术有限公司 用于确定立体声信号的方法
CN104902418A (zh) * 2014-03-07 2015-09-09 奥迪康有限公司 用于估计目标和噪声谱方差的多传声器方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HAO CHEN: "A prior knowledge-based noise reduction method with dual microphones", 《2013 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE》 *
HAO CHEN: "An improved phase-error based dual-microphone noise reduction method", 《2012 IEEE 11TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING》 *
KYUHONG KIM: "Dual channel noise reduction method using phase difference-based spectral amplitude estimation", 《2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 *
袁榕嵘: "结合相位差和谱减法的双传声器语音增强技术", 《电声技术》 *
陈浩: "双麦克风噪声消除的高斯混合模型法", 《信号处理》 *
马晓红: "基于信号相位差和后置滤波的语音增强方法", 《电子学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825864A (zh) * 2016-05-19 2016-08-03 南京奇音石信息技术有限公司 基于过零率指标的双端说话检测与回声消除方法
CN105825864B (zh) * 2016-05-19 2019-10-25 深圳永顺智信息科技有限公司 基于过零率指标的双端说话检测与回声消除方法
CN110036441A (zh) * 2016-12-16 2019-07-19 日本电信电话株式会社 目标音强调装置、噪音估计用参数学习装置、目标音强调方法、噪音估计用参数学习方法、程序
CN110036441B (zh) * 2016-12-16 2023-02-17 日本电信电话株式会社 目标音强调装置及方法、噪音估计用参数学习装置及方法、记录介质
CN107818366A (zh) * 2017-10-25 2018-03-20 成都力创昆仑网络科技有限公司 一种基于卷积神经网络的肺音分类方法、系统及用途
CN108962274A (zh) * 2018-07-11 2018-12-07 会听声学科技(北京)有限公司 一种语音增强方法,装置及耳机
WO2021128670A1 (zh) * 2019-12-26 2021-07-01 紫光展锐(重庆)科技有限公司 降低噪声的方法、装置、电子设备及可读存储介质
CN112201267A (zh) * 2020-09-07 2021-01-08 北京达佳互联信息技术有限公司 一种音频处理方法、装置、电子设备及存储介质
CN113823315A (zh) * 2021-09-30 2021-12-21 深圳万兴软件有限公司 降风噪方法、装置、双麦克风设备及存储介质
CN113823315B (zh) * 2021-09-30 2024-02-13 深圳万兴软件有限公司 降风噪方法、装置、双麦克风设备及存储介质

Also Published As

Publication number Publication date
CN105590630B (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
CN105590630A (zh) 基于指定带宽的定向噪音抑制方法
EP3703052B1 (en) Echo cancellation method and apparatus based on time delay estimation
US11825279B2 (en) Robust estimation of sound source localization
CN108831499B (zh) 利用语音存在概率的语音增强方法
US11069366B2 (en) Method and device for evaluating performance of speech enhancement algorithm, and computer-readable storage medium
CN101430882B (zh) 一种抑制风噪声的方法及装置
CN102438189B (zh) 基于双通路声信号的声源定位方法
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
CN106226739A (zh) 融合子带分析的双声源定位方法
AU4636996A (en) Spectral subtraction noise suppression method
CN109239667A (zh) 一种基于双麦克风阵列的声源定位方法
CN102347028A (zh) 双麦克风语音增强装置及方法
CN108022595A (zh) 一种语音信号降噪方法和用户终端
CN103905656A (zh) 残留回声的检测方法及装置
CN109901114B (zh) 一种适用于声源定位的时延估计方法
CN103268766A (zh) 双麦克风语音增强方法及装置
JP2000330597A (ja) 雑音抑圧装置
CN110890099B (zh) 声音信号处理方法、装置以及存储介质
CN109102823A (zh) 一种基于子带谱熵的语音增强方法
CN106328160A (zh) 一种基于双麦克的降噪方法
CN111341347B (zh) 一种噪声检测方法及相关设备
CN113948101A (zh) 一种基于空间区分性检测的噪声抑制方法及装置
Mosayyebpour et al. Time delay estimation via minimum-phase and all-pass component processing
CN117202021A (zh) 一种音频信号处理方法、系统及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170608

Address after: Dong Qi Road in Jiangning District of Nanjing City, Jiangsu Province, No. 33 B block 211100

Applicant after: Nanjing fast fire Mdt InfoTech Ltd.

Address before: Dong Qi Road in Jiangning District of Nanjing City, Jiangsu Province, No. 33 211100

Applicant before: NANJING QIYINSHI INFORMATION TECHNOLOGY Co.,Ltd.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cai Ganglin

Inventor before: Tang Ming

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170811

Address after: 518109 Guangdong city of Shenzhen province Longhua Dalang District Dragon Peak three road Jinhua building 1811-1812

Applicant after: SHENZHEN YONSZ INFORMATION TECHNOLOGY CO.,LTD.

Address before: Dong Qi Road in Jiangning District of Nanjing City, Jiangsu Province, No. 33 B block 211100

Applicant before: Nanjing fast fire Mdt InfoTech Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221128

Address after: 2C1, Plant 2, Baimenqian Industrial Zone, No. 215, Busha Road, Nanlong Community, Nanwan Street, Longgang District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yajin Smart Technology Co.,Ltd.

Address before: 518109 1811-1812, Jinhua building, Longfeng Third Road, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN YONSZ INFORMATION TECHNOLOGY CO.,LTD.