CN112533120B - 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置 - Google Patents

基于带噪语音信号幅度谱动态压缩的波束形成方法及装置 Download PDF

Info

Publication number
CN112533120B
CN112533120B CN202011324329.5A CN202011324329A CN112533120B CN 112533120 B CN112533120 B CN 112533120B CN 202011324329 A CN202011324329 A CN 202011324329A CN 112533120 B CN112533120 B CN 112533120B
Authority
CN
China
Prior art keywords
dynamic compression
noisy speech
compression processing
frequency band
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011324329.5A
Other languages
English (en)
Other versions
CN112533120A (zh
Inventor
邱锋海
王之禹
项京朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sound+ Technology Co ltd
Original Assignee
Beijing Sound+ Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sound+ Technology Co ltd filed Critical Beijing Sound+ Technology Co ltd
Priority to CN202011324329.5A priority Critical patent/CN112533120B/zh
Publication of CN112533120A publication Critical patent/CN112533120A/zh
Application granted granted Critical
Publication of CN112533120B publication Critical patent/CN112533120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R19/00Electrostatic transducers
    • H04R19/04Microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/003Mems transducers or their use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones

Abstract

本申请实施例公开了基于带噪语音信号幅度谱动态压缩的波束形成方法及装置,方法包括:对接收的来自传声器阵列的M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果;其中,M为大于1的正整数,l和k为自然数;根据M个动态压缩处理结果,确定M个带噪语音信号在第l帧第k个频带的一个协方差矩阵;根据一个协方差矩阵,确定M个带噪语音信号在第l帧第k个频带对应的一个波束形成器;确定每个波束形成器输出的信号的复频谱,以确定时域的目标语音信号。本申请实施例提供的基于动态压缩处理MVDR波束形成器相比于传统MVDR波束形成器,不需要任何的对角加载,可降低离群值对传统MVDR波束形成器的影响,同时提高其鲁棒性和收敛性。

Description

基于带噪语音信号幅度谱动态压缩的波束形成方法及装置
技术领域
本申请涉及语音增强技术领域,尤其涉及基于带噪语音信号幅度谱动态压缩的波束形成方法及装置。
背景技术
当前,随着微机电系统(Micro-Electro-Mechanical System,MEMS)技术工艺的进步,传声器尺寸越来越小,传声器之间的幅频响应和相频响应一致性也逐渐提高;进一步地,随着芯片制程的发展,芯片运算性能越来越强,功耗越来越低,这促进了MEMS传声器阵列的广泛应用。不管在智能家居,如智能音箱,还是在真无线立体声(True WirelessStereo,TWS)耳机,都普遍使用多个MEMS传声器组成阵列提高目标语音拾取性能。众所周知,采用传声器阵列进行目标语音提取,当目标语音和干扰噪声在空间上具有分离度时,理论上可通过空间滤波无失真地提取目标语音。
根据波束形成器的设计是否与传声器拾取的带噪语音信号相关,可将波束形成划分为固定波束形成和自适应波束形成。其中,固定波束形成包括延迟相加(Delay-And-Sum,DAS)、滤波相加(Filter-And-Sum,FAS)和超指波束形成(Super-Directive,SD)等;自适应波束形成则包括最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)和多通道维纳滤波(Multichannel Wiener Filter,MWF)等。当传声器阵列阵元数较少时,固定波束形成器难以形成较窄的主瓣以最大限度地抑制噪声。相比较而言,自适应波束形成往往具有更强的方向性干扰噪声抑制性能,因而受到更为广泛的关注和研究。
在目前的智能家居产品中,自适应波束形成,如MVDR有着重要的应用,其在点源噪声干扰抑制方面具有较强的性能。然而,MVDR存在鲁棒性问题,当噪声协方差矩阵估计存在信号协方差矩阵成分或者目标语音声学传递函数估计存在偏差时,会导致严重的目标语音失真,从而降低MVDR性能。为了提高MVDR鲁棒性,传统的方法包括固定对角加载技术、提高噪声协方差矩阵估计准确性的方法、提高目标语音声学传递函数估计性能的方法等。其中,固定对角加载技术运算复杂度最低,但是对角加载量大小难以自动确定,至今仍有学者在研究自动对角加载量技术;提高噪声协方差矩阵估计准确性的方法及提高目标语音声学传递函数估计性能的方法则运算复杂度较高,而且估计性能与目标语音的输入信噪比密切相关。当输入信噪比较低时,估计性能一般难以满足应用需求,依然存在语音失真问题。
发明内容
本申请实施例提出基于带噪语音信号幅度谱动态压缩的波束形成方法及装置。用以解决传统波束形成器鲁棒性较差、运算复杂度高的技术问题。该技术方案如下:
第一方面,本申请实施例提出基于带噪语音信号幅度谱动态压缩的波束形成方法,包括:
接收来自传声器阵列的M个带噪语音信号;其中,M为大于1的正整数;
对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果;其中,l和k为自然数;
根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵;
根据所述一个协方差矩阵,确定所述M个带噪语音信号在第l帧第k个频带对应的一个波束形成器;
确定每个波束形成器输出的信号的复频谱;
根据所述复频谱,确定时域的目标语音信号。
在一种可能的实现中,所述对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果,包括:
对所述M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱分别进行开方处理,获得所述M个动态压缩处理结果。
在一种可能的实现中,所述对所述M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱分别进行开方处理,获得所述M个动态压缩处理结果,包括:
根据所述M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱、相位谱和动态压缩参数,对所述幅度谱分别进行开方处理,获得所述M个动态压缩处理结果。
在一种可能的实现中,所述动态压缩参数ρ∈[0,1]。
在一种可能的实现中,所述对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果,包括:
对所述M个带噪语音信号在第l帧第k个频带的复频谱的实部和虚部分别进行1比特量化处理,获得所述M个动态压缩处理结果。
在一种可能的实现中,所述对所述M个带噪语音信号在第l帧第k个频带的复频谱的实部和虚部分别进行1比特量化处理,获得所述M个动态压缩处理结果,包括:
分别提取所述M个带噪语音信号在第l帧第k个频带的复频谱的实部和虚部;
对提取的所述实部和所述虚部进行取符号运算;
根据取符号运算的结果,确定所述M个动态压缩处理结果。
在一种可能的实现中,所述根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵,包括:
对所述M个动态压缩处理结果进行转置,获得第一结果;
对所述第一结果进行共轭转置,获得第二结果;
根据所述第一结果和所述第二结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵。
第二方面,本申请实施例还提出基于带噪语音信号幅度谱动态压缩的波束形成装置,该装置包括:
接收模块,用于接收来自传声器阵列的M个带噪语音信号;其中,M为大于1的正整数;
动态压缩处理模块,用于对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果;其中,l和k为自然数;
确定模块,用于根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵;
所述确定模块,还用于根据所述一个协方差矩阵,确定所述M个带噪语音信号在第l帧第k个频带对应的一个波束形成器;
所述确定模块,还用于确定每个波束形成器输出的信号的复频谱;
所述确定模块,还用于根据所述复频谱,确定时域的目标语音信号。
第三方面,本申请实施例提出一种基于带噪语音信号幅度谱动态压缩的波束形成装置,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行第一方面及各种可能的实现中的方法的各个步骤。
第四方面,本申请实施例提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面及各种可能的实现中的方法的各个步骤。
由上述技术方案可知,本申请实施例提供的基于幅度谱动态压缩MVDR波束形成器相比于传统MVDR波束形成器,不需要任何的对角加载,可降低离群值对传统MVDR波束形成器的影响,同时提高其鲁棒性和收敛性。特别地,基于1比特量化处理的幅度谱动态压缩方法,还进一步降低了计算带噪语音信号的协方差矩阵的复杂度,可显著提升计算效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本申请实施例提供的具有多个传声器的环阵或者线阵;
图2为本申请实施例提供的基于开方处理的幅度谱动态压缩MVDR波束形成器的方法流程图;
图3为本申请实施例提供的基于1比特量化处理的幅度谱动态压缩MVDR波束形成器的方法流程图;
图4(a)-(c)为本申请实施例提供的采用基于带噪语音信号幅度谱动态压缩的波束形成方法提取的目标语音信号的语谱图、带噪语音信号的语谱图以及采用传统MVDR波束形成器提取的目标语音信号的语谱图;
图5为本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成方法的流程示意图;
图6为本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成装置的结构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面结合附图对本申请实施例具体实施方式做进一步的详细描述。
需要说明的是,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一结果和第二结果等是用于区别不同的结果,而不是用于描述目标对象的特定顺序。在本申请实施例中,“示例性的”、“举例来说”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“举例来说”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
图1示出了环阵或者线阵有多个传声器,环阵在智能音箱或者智能会议系统等有着重要应用,而线阵在笔记本电脑或者台式计算机等有着重要应用。需要说明的是本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成方法不仅适用于环阵和线阵,也适用于面阵和其它任意阵型的传声器阵列。
在一种可能的实现中,假设传声器阵列的阵元数为M>1的正整数,第m个传声器拾取的带噪语音信号为:
Figure BDA0002793865410000041
其中,m=1,2,...,M,s(n)是目标语音信号,am(n)是目标语音信号到第m个传声器的声学传递函数,vm(n)是第m个传声器拾取的外部噪声,dm(n)是第m个传声器的内部噪声。公式(1)将外部噪声和内部噪声统一为qm(n),即qm(n)=vm(n)+dm(n)。传声器阵列将拾取的带噪语音信号发送至诸如智能家居或者TWS耳机等的芯片,芯片的处理模块对公式(1)中的ym(n)进行快速傅里叶变换(Fast Fourier Transform,FFT),得到公式(1)的频域表达式为:
Ym(k,l)=Am(k,l)S(k,l)+Qm(k,l) (2)
其中,S(k,l)是s(n)第l帧第k个频带的复频谱,A(k,l)是am(n)第l帧第k个频带的复频谱,Qm(k,l)是qm(n)第l帧第k个频带的复频谱,Ym(k,l)是ym(n)第l帧第k个频带的复频谱。可以理解的是,通常情况下,假设am(n)为线性时不变的,即其复频谱与帧数l无关。但是在实际应用中,am(n)是缓变的。公式(2)写成向量形式为:
y(k,l)=a(k,l)S(k,l)+q(k,l) (3)
其中,
Figure BDA0002793865410000044
a(k,l)=[A1(k,l)...AM(k,l)]T,q(k,l)=[q1(k,l)...qM(k,l)]T,T为向量或者矩阵的转置。传统的MVDR波束形成最优滤波器设计有两种形式,分别为:
Figure BDA0002793865410000042
Figure BDA0002793865410000043
其中,H为向量或者矩阵的共轭转置,噪声的协方差矩阵Q(k,l)=E{q(k,l)qH(k,l}),包括外部噪声的协方差矩阵和内部噪声的协方差矩阵,带噪语音信号的协方差矩阵R(k,l)=Rs(k,l)+Q(k,l)=aH(k,l)a(k,l)E{|S(k,l)|2}+Q(k,l),包括目标语音信号的协方差矩阵Rs(k,l)和噪声的协方差矩阵Q(k,l)。
需要说明的是,采用公式(4)设计的MVDR波束形成最优滤波器收敛性更快,仅需约2M帧数据估计噪声的协方差矩阵Q(k,l)即可得到较优的波束形成性能;同时,其鲁棒性高,对目标语音信号到传声器的声学传递函数估计精度要求较低,也就是说,即使a(k,l)存在一定的估计误差,也不会造成目标语音信号的严重失真。采用公式(5)设计的MVDR波束形成最优滤波器收敛较慢,需要足够多的数据帧来估计带噪语音信号的协方差矩阵R(k,l)才能取得较优的性能,通常需要的帧数是传声器阵列阵元数M的十倍以上;同时,其鲁棒性较差,当目标语音信号到传声器的声学传递函数估计存在一定偏差,即会造成目标语音信号的严重失真。实际场景中,仅有传声器拾取的带噪语音信号y(k,l),不管是Q(k,l)还是R(k,l)都需要通过y(k,l)进行估计。用L帧y(k,l)估计R(k,l),表达式为:
Figure BDA0002793865410000051
估计Q(k,l)的表达式与估计R(k,l)的表达式一致,与估计R(k,l)的表达式不同的是,估计Q(k,l)的表达式时,仅用L帧连续的噪声频点进行公式(6)的计算。为了实现这个目的,需要对每个时频点进行目标语音信号活动检测,如果当前时频点存在目标语音信号,则该时频点的y(k,l)不用于估计或者更新噪声的协方差矩阵,将Q(k,l)的估计值记为
Figure BDA0002793865410000052
因此,在实际应用中,应尽量采用公式(4)的方法进行MVDR波束形成最优滤波器的设计,以提高鲁棒性和收敛性能。然而,计算
Figure BDA0002793865410000053
需要在每一个时频点进行目标语音信号活动检测,仅当所有目标语音信号时频点都被准确检测时,
Figure BDA0002793865410000054
才不包含目标语音信号的协方差矩阵Rs(k,l)。当目标语音信号频点被误判成噪声频点时,
Figure BDA0002793865410000055
不可避免的含有部分目标语音信号的协方差矩阵Rs(k,l),从而导致MVDR波束形成最优滤波器性能下降。因而,在实际应用中仍然需要进行鲁棒控制,如采用对角加载技术,即:
Figure BDA0002793865410000056
其中,α和β共同决定了对角加载量,可通过广义线性组合(Generalized LinearCombination,GLC)等方法决定,IM是M×M的单位矩阵。
采用公式(7)的
Figure BDA0002793865410000057
替代
Figure BDA0002793865410000058
可提高MVDR波束形成最优滤波器的鲁棒性,但是其运算复杂度较高。另一方面,当传声器阵列阵元数M较大时,不管是噪声的协方差矩阵还是带噪语音信号的协方差矩阵的维数也较大,在矩阵求逆运算中更容易出现病态问题。同时,高精度的运算也不便于定点实现,增加了工程实现难度。
本申请实施例提供了基于带噪语音信号幅度谱动态压缩的波束形成方法,用以解决上述技术方案中存在的技术问题。需要说明的是,本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成方法包括两种实现方式,下面分别进行详细介绍。
第一种实现方式:
在一种可能的实现中,对接收的来自传声器阵列的M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱分别进行开方处理,可有效压缩传声器拾取的M个带噪语音信号的动态范围,实现幅度谱动态范围压缩,获得M个动态压缩处理结果,即:
Figure BDA0002793865410000059
其中,∠Ym(k,l)为取Ym(k,l)的相位,ρ为动态压缩参数,取值范围为0到1之间,在一个例子中,ρ取值为0.5。当ρ取值为0.5时,原来16位(16比特)表示的数据范围0-65536被动态压缩为0-256,仅需要8位(8比特)即可表示,大大降低了数据动态范围。可以理解的是,当ρ取值为1时,公式(8)仅保留了传声器阵列拾取的带噪语音信号的相位信号,而幅度被归一化。如果采用公式(8)估计M个带噪语音信号在第l帧第k个频带的一个协方差矩阵。具体地,对M个动态压缩处理结果进行转置,获得第一结果;对第一结果进行共轭转置,获得第二结果;根据第一结果和第二结果,确定M个带噪语音信号在第l帧第k个频带的一个协方差矩阵为:
Figure BDA00027938654100000510
其中,yc(k,l)=[Y1,c(k,l)...YM,c(k,l)]T。采用开方处理的幅度谱动态压缩波束形成器(下文以MVDR波束形成器为例)为:
Figure BDA0002793865410000061
当ρ取值为1时,满足:
Figure BDA0002793865410000062
其中,δ为传声器拾取的带噪语音信号的功率。由公式(11)可见,对幅度谱的动态压缩,等效于自动对角加载,因而可提高MVDR波束形成器的鲁棒性而无需额外的对角加载控制。当ρ取值为0时,
Figure BDA0002793865410000063
即没有任何加载量。因此,工程应用中可通过调整ρ的取值自动改变对角加载量。实验结果表明,ρ取值为0.5时,可取得较好的性能;ρ取值为1时,性能优于ρ取值为0的结果。需要说明的是,ρ取值为0时,相当于没有进行幅度谱动态压缩,退化为传统的无对角加载方法。
由于公式(9)中的多帧平均,前提假设是每帧同一频率点数据满足独立同分布,因此,采用公式(8)和公式(9)估计带噪语音信号的协方差矩阵同时解决了离群值对带噪语音信号的协方差矩阵估计的影响。当出现离群值时,相当于偏离了该前提假设,会导致严重的估计偏差,而幅度谱动态压缩则降低了离群值的数值大小,从而减少离群值对带噪语音信号的协方差矩阵估计的贡献。
图2示出了基于开方处理的幅度谱动态压缩MVDR波束形成器的方法流程图。
第二种实现方式:
在另一种可能的实现中,通过1比特量化处理来实现幅度谱动态压缩的目标,即对传声器阵列拾取的带噪语音信号在第l帧第k个频带的复频谱的实部和虚部分别进行1比特量化处理,表达式为:
Figure BDA0002793865410000064
其中,
Figure BDA0002793865410000065
Figure BDA0002793865410000066
分别表示提取Ym(k,l)的实部和虚部,sign{·}为取符号运算。Ym,1-bit(k,l)为动态压缩处理结果。公式(12)中,尽管Ym,1-bit(k,l)没有显式地保留传声器拾取的带噪语音信号Ym(k,l)的相位,但是其隐含了互相位信息,用公式(12)估计M个带噪语音信号在第l帧第k个频带的一个协方差矩阵。具体地,对M个动态压缩处理结果进行转置,获得第一结果;对第一结果进行共轭转置,获得第二结果;根据第一结果和第二结果,确定M个带噪语音信号在第l帧第k个频带的一个协方差矩阵为:
Figure BDA0002793865410000067
其中,y1-bit(k,l)=[Y1,1-bit(k,l)...YM,1-bit(k,l)]T。采用1比特量化处理的幅度谱动态压缩MVDR波束形成器为:
Figure BDA0002793865410000068
需要说明的是,
Figure BDA0002793865410000069
Figure BDA00027938654100000610
存在如下关系:
Figure BDA00027938654100000611
由公式(15)可见,采用1比特量化处理估计的带噪语音信号的协方差矩阵也等效于自动对角加载技术。与采用公式(8)的幅度谱动态压缩方法相比,1比特量化处理幅度谱动态压缩方法具有更多有点,如,计算速度快,仅需要取符号运算即可实现幅度谱动态压缩;通过1比特量化处理后,带噪语音信号的复频谱实部和虚部都是+1或-1,因而计算带噪语音信号的协方差矩阵的速度可大大提高。
图3示出了基于1比特量化处理的幅度谱动态压缩MVDR波束形成器的方法流程图。
通过上述第一种方式获得MVDR波束形成器后,计算MVDR波束形成器输出的信号的复频谱为:
Figure BDA0002793865410000071
通过上述第二种方式获得MVDR波束形成器后,计算MVDR波束形成器输出的信号的复频谱为:
Figure BDA0002793865410000072
根据复频谱z(k,l),采用重叠相加法得到其对应的目标语音信号z(n)。
需要说明的是,由于y(k,l)或者y1-bit(k,l)都是畸变信号,对其进行空间滤波输出的目标语音信号将导致严重的语音失真。因此,通过上述两种方式设计的MVDR波束形成器都是与传声器阵列拾取的带噪语音信号的复频谱y(k,l)进行运算,而不是与yc(k,l)或者y1-bit(k,l)进行运算得到目标语音信号的复频谱。
图4(a)-(c)示出了采用本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成方法提取的目标语音信号的语谱图、带噪语音信号的语谱图以及采用传统MVDR波束形成器提取的目标语音信号的语谱图。由图4可知,相比于传统的MVDR波束形成器,采用本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成方法提取的目标语音信号具有更高的信噪比,而且语音失真更低。
本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成方法形成的MVDR波束形成器相比于传统MVDR波束形成器,不需要任何的对角加载,可降低离群值对传统MVDR波束形成器的影响,同时提高其鲁棒性和收敛性。特别地,基于1比特量化处理的幅度谱动态压缩方法,还进一步降低了计算带噪语音信号的协方差矩阵的复杂度,可显著提升计算效率。此外,本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成方法不依赖于阵列的阵元数,也不依赖于阵列的阵型,具有普遍适用性。
图5示出了本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成方法的流程示意图,该流程示意图包括:S501-S506。
S501,接收来自传声器阵列的M个带噪语音信号;其中,M为大于1的正整数。
S502,对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果;其中,l和k为自然数。
在本申请实施例中,可以通过对接收的来自传声器阵列的M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱分别进行开方处理,获得M个动态压缩处理结果;也可以对接收的来自传声器阵列的M个带噪语音信号在第l帧第k个频带的复频谱的实部和虚部分别进行1比特量化处理,获得M个动态压缩处理结果。通过对接收的来自传声器阵列的M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱分别进行开方处理,获得M个动态压缩处理结果,具体为:根据M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱、相位谱和动态压缩参数,对所述幅度谱分别进行开方处理,获得M个动态压缩处理结果。动态压缩参数ρ∈[0,1]。通过对接收的来自传声器阵列的M个带噪语音信号在第l帧第k个频带的复频谱的实部和虚部分别进行1比特量化处理,获得M个动态压缩处理结果,具体为:提取M个带噪语音信号在第l帧第k个频带的复频谱的实部和虚部;对提取的所述实部和所述虚部进行取符号运算;根据取符号运算的结果,确定M个动态压缩处理结果。
S503,根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵。
在本申请实施例中,对所述M个动态压缩处理结果进行转置,获得第一结果;对所述第一结果进行共轭转置,获得第二结果;根据所述第一结果和所述第二结果,确定M个带噪语音信号在第l帧第k个频带的一个协方差矩阵。
S504,根据所述一个协方差矩阵,确定所述M个带噪语音信号在第l帧第k个频带对应的一个波束形成器。
在本申请实施例中,根据S503中确定出的M个带噪语音信号在第l帧第k个频带的一个协方差矩阵,确定M个带噪语音信号在第l帧第k个频带对应的一个波束形成器。
S505,确定每个波束形成器输出的信号的复频谱。
在本申请实施例中,可以根据M个带噪语音信号在第l帧第k个频带对应的一个波束形成器及其复频谱,确定M个带噪语音信号在第l帧第k个频带对应的波束形成器输出的信号的复频谱。
S506,根据所述复频谱,确定时域的目标语音信号。
在本申请实施例中,根据S505中输出的信号的复频谱,确定时域的目标语音信号。
图6示出了本申请实施例提供的基于带噪语音信号幅度谱动态压缩的波束形成装置的结构示意图,该结构示意图包括:接收模块601、动态压缩处理模块602和确定模块603。
所述接收模块601,用于接收来自传声器阵列的M个带噪语音信号;其中,M为大于1的正整数;
所述动态压缩处理模块602,用于对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果;其中,l和k为自然数;
所述确定模块603,用于根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵;
所述确定模块603,还用于根据所述一个协方差矩阵,确定所述M个带噪语音信号在第l帧第k个频带对应的一个波束形成器;
所述确定模块603,还用于确定每个波束形成器输出的信号的复频谱;
所述确定模块603,还用于根据所述复频谱,确定时域的目标语音信号。
本申请实施例还提供基于带噪语音信号幅度谱动态压缩的波束形成装置,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行如下步骤:
接收来自传声器阵列的M个带噪语音信号;其中,M为大于1的正整数;对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果;其中,l和k为自然数;根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵;根据所述一个协方差矩阵,确定所述M个带噪语音信号在第l帧第k个频带对应的一个波束形成器;确定每个波束形成器输出的信号的复频谱;根据所述复频谱,确定时域的目标语音信号。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
接收来自传声器阵列的M个带噪语音信号;其中,M为大于1的正整数;对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果;其中,l和k为自然数;根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵;根据所述一个协方差矩阵,确定所述M个带噪语音信号在第l帧第k个频带对应的一个波束形成器;确定每个波束形成器输出的信号的复频谱;根据所述复频谱,确定时域的目标语音信号。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于带噪语音信号幅度谱动态压缩的波束形成方法,其特征在于,包括:
接收来自传声器阵列的M个带噪语音信号;其中,M为大于1的正整数;
对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果;其中,l和k为自然数;
其中,所述动态压缩处理结果为
Figure FDA0003415481010000011
其中,∠Ym(k,l)为取Ym(k,l)的相位,ρ为动态压缩参数,取值范围为0到1之间,Ym(k,l)为带噪语音信号的频域表达式;或者
所述动态压缩处理结果为
Figure FDA0003415481010000012
其中,
Figure FDA0003415481010000013
Figure FDA0003415481010000014
分别表示提取Ym(k,l)的实部和虚部,sign{·}为取符号运算;
根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵
Figure FDA0003415481010000015
Figure FDA0003415481010000016
根据所述一个协方差矩阵,确定所述M个带噪语音信号在第l帧第k个频带对应的一个波束形成器;
确定每个波束形成器输出的信号的复频谱;
根据所述复频谱,确定时域的目标语音信号;
其中,当ρ取值为1时,满足:协方差矩阵
Figure FDA0003415481010000017
或者
协方差矩阵
Figure FDA0003415481010000018
Figure FDA0003415481010000019
存在如下关系:
Figure FDA00034154810100000110
其中,
Figure FDA00034154810100000111
为用L帧y(k,l)估计R(k,l)的结果,y(k,l)为Ym(k,l)的向量形式,R(k,l)为目标语音信号的协方差矩阵和噪声的协方差矩阵,IM是M×M的单位矩阵,δ为传声器拾取的带噪语音信号的功率。
2.根据权利要求1所述的方法,其特征在于,所述对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果,包括:
对所述M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱分别进行开方处理,获得所述M个动态压缩处理结果。
3.根据权利要求2所述的方法,其特征在于,所述对所述M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱分别进行开方处理,获得所述M个动态压缩处理结果,包括:
根据所述M个带噪语音信号在第l帧第k个频带的复频谱的幅度谱、相位谱和动态压缩参数,对所述幅度谱分别进行开方处理,获得所述M个动态压缩处理结果。
4.根据权利要求3所述的方法,其特征在于,所述动态压缩参数ρ∈[0,1]。
5.根据权利要求1所述的方法,其特征在于,所述对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果,包括:
对所述M个带噪语音信号在第l帧第k个频带的复频谱的实部和虚部分别进行1比特量化处理,获得所述M个动态压缩处理结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述M个带噪语音信号在第l帧第k个频带的复频谱的实部和虚部分别进行1比特量化处理,获得所述M个动态压缩处理结果,包括:
分别提取所述M个带噪语音信号在第l帧第k个频带的复频谱的实部和虚部;
对提取的所述实部和所述虚部进行取符号运算;
根据取符号运算的结果,确定所述M个动态压缩处理结果。
7.根据权利要求1所述的方法,其特征在于,所述根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵,包括:
对所述M个动态压缩处理结果进行转置,获得第一结果;
对所述第一结果进行共轭转置,获得第二结果;
根据所述第一结果和所述第二结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵。
8.一种基于带噪语音信号幅度谱动态压缩的波束形成装置,其特征在于,包括:
接收模块,用于接收来自传声器阵列的M个带噪语音信号;其中,M为大于1的正整数;
动态压缩处理模块,用于对所述M个带噪语音信号在第l帧第k个频带的复频谱分别进行幅度谱动态压缩处理,获得M个动态压缩处理结果;其中,l和k为自然数;
其中,所述动态压缩处理结果为
Figure FDA0003415481010000021
其中,∠Ym(k,l)为取Ym(k,l)的相位,ρ为动态压缩参数,取值范围为0到1之间,Ym(k,l)为带噪语音信号的频域表达式;或者
所述动态压缩处理结果为
Figure FDA0003415481010000022
其中,
Figure FDA0003415481010000023
Figure FDA0003415481010000024
分别表示提取Ym(k,l)的实部和虚部,sign{·}为取符号运算;
确定模块,用于根据所述M个动态压缩处理结果,确定所述M个带噪语音信号在第l帧第k个频带的一个协方差矩阵
Figure FDA0003415481010000025
Figure FDA0003415481010000026
所述确定模块,还用于根据所述一个协方差矩阵,确定所述M个带噪语音信号在第l帧第k个频带对应的一个波束形成器;
所述确定模块,还用于确定每个波束形成器输出的信号的复频谱;
所述确定模块,还用于根据所述复频谱,确定时域的目标语音信号;
其中,当ρ取值为1时,满足:协方差矩阵
Figure FDA0003415481010000027
或者
协方差矩阵
Figure FDA0003415481010000028
Figure FDA0003415481010000029
存在如下关系:
Figure FDA00034154810100000210
其中,
Figure FDA00034154810100000211
为用L帧y(k,l)估计R(k,l)的结果,y(k,l)为Ym(k,l)的向量形式,R(k,l)为目标语音信号的协方差矩阵和噪声的协方差矩阵,IM是M×M的单位矩阵,δ为传声器拾取的带噪语音信号的功率。
9.一种基于带噪语音信号幅度谱动态压缩的波束形成装置,其特征在于,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行如权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一所述的方法。
CN202011324329.5A 2020-11-23 2020-11-23 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置 Active CN112533120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011324329.5A CN112533120B (zh) 2020-11-23 2020-11-23 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011324329.5A CN112533120B (zh) 2020-11-23 2020-11-23 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置

Publications (2)

Publication Number Publication Date
CN112533120A CN112533120A (zh) 2021-03-19
CN112533120B true CN112533120B (zh) 2022-04-22

Family

ID=74992877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011324329.5A Active CN112533120B (zh) 2020-11-23 2020-11-23 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置

Country Status (1)

Country Link
CN (1) CN112533120B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102984711A (zh) * 2012-11-21 2013-03-20 北京邮电大学 基于单比特压缩感知技术的多用户协作频谱感知方法
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8634578B2 (en) * 2010-06-23 2014-01-21 Stmicroelectronics, Inc. Multiband dynamics compressor with spectral balance compensation
US9647624B2 (en) * 2014-12-31 2017-05-09 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling method for digital audio signals in frequency domain
CN110634500B (zh) * 2019-10-14 2022-05-31 达闼机器人股份有限公司 一种先验信噪比的计算方法、电子设备及存储介质
CN111508514A (zh) * 2020-04-10 2020-08-07 江苏科技大学 基于补偿相位谱的单通道语音增强算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102984711A (zh) * 2012-11-21 2013-03-20 北京邮电大学 基于单比特压缩感知技术的多用户协作频谱感知方法
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法

Also Published As

Publication number Publication date
CN112533120A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN107221336B (zh) 一种增强目标语音的装置及其方法
US10535362B2 (en) Speech enhancement for an electronic device
JP5805365B2 (ja) ノイズ推定装置及び方法とそれを利用したノイズ減少装置
JP5573517B2 (ja) 雑音除去装置および雑音除去方法
CN111418010A (zh) 一种多麦克风降噪方法、装置及终端设备
CN110085247B (zh) 一种针对复杂噪声环境的双麦克风降噪方法
KR20130084298A (ko) 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체
KR20040044982A (ko) 선택적인 사운드 증강
EP4044181A1 (en) Deep learning speech extraction and noise reduction method fusing signals of bone vibration sensor and microphone
US20200286501A1 (en) Apparatus and a method for signal enhancement
CN114041185A (zh) 用于确定深度过滤器的方法和装置
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN112533120B (zh) 基于带噪语音信号幅度谱动态压缩的波束形成方法及装置
Cobos et al. Two-microphone separation of speech mixtures based on interclass variance maximization
CN114245266B (zh) 小型麦克风阵列设备的区域拾音方法及系统
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN113611319B (zh) 基于语音成分实现的风噪抑制方法、装置、设备及系统
CN115359804A (zh) 一种基于麦克风阵列的定向音频拾取方法和系统
CN110858485B (zh) 语音增强方法、装置、设备及存储介质
CN108257607B (zh) 一种多通道语音信号处理方法
CN112420068A (zh) 一种基于Mel频率尺度分频的快速自适应波束形成方法
KR101022457B1 (ko) Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법
CN111210836A (zh) 一种麦克风阵列波束形成动态调整方法
CN108281154B (zh) 一种语音信号的降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant