CN106952653B - 噪声去除方法、装置和终端设备 - Google Patents

噪声去除方法、装置和终端设备 Download PDF

Info

Publication number
CN106952653B
CN106952653B CN201710153999.7A CN201710153999A CN106952653B CN 106952653 B CN106952653 B CN 106952653B CN 201710153999 A CN201710153999 A CN 201710153999A CN 106952653 B CN106952653 B CN 106952653B
Authority
CN
China
Prior art keywords
sound source
noise
signals
target sound
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710153999.7A
Other languages
English (en)
Other versions
CN106952653A (zh
Inventor
王海坤
马峰
王智国
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710153999.7A priority Critical patent/CN106952653B/zh
Publication of CN106952653A publication Critical patent/CN106952653A/zh
Application granted granted Critical
Publication of CN106952653B publication Critical patent/CN106952653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Abstract

本申请提出一种噪声去除方法、装置和终端设备,该噪声去除方法包括:通过布局好的麦克风阵列同步接收声音信号,并对所述声音信号进行预处理,获得各路麦克风信号的频率信号;根据各路麦克风信号的频率信号通过声源定位方法确定目标声源方位;通过双波束法进行目标声源的活动性检测;基于所述目标声源的活动性检测的结果,通过自适应波束进行语音降噪。本申请可以减少空间声源定位的镜像模糊现象,准确地检测到目标声源的方位以及上述目标声源的活动性,进而可以通过后续自适应波束形成的方法消除干扰噪声。

Description

噪声去除方法、装置和终端设备
技术领域
本申请涉及语音处理技术领域,尤其涉及一种噪声去除方法、装置和终端设备。
背景技术
随着智能终端设备的不断普及,其应用已深入到人们生活和工作中:老师和学生使用智能终端设备进行远程授课、学习、实时交流;职场人士使用智能终端设备进行办公;业务办理人员使用银行、电信大厅等公共场所摆放的智能终端设备进行信息查询、业务办理等等。
语音作为人机交互最方便、快捷的方式,其交互效果很大程度上取决于语音的质量,而在现实生活中各种各样的噪声(例如:周围环境的噪声、写字的敲击声等)会影响到语音质量,因而如何有效地去除噪声对人与智能终端设备的交互至关重要。
现有的智能终端设备,特别是便携式的智能终端设备,大多包括1-2个麦克风,因此现有的降噪方法主要有基于单麦克风的降噪和基于两个麦克风阵列的降噪。
基于单麦克风的降噪方法充分考虑了噪声和语音信号的统计特性,对于平稳噪声具有较好的抑制效果;基于两个麦克风阵列的降噪技术融合了语音信号的时序信息和空间信息,相较于传统的单麦克风降噪技术仅仅利用信号的时序信息,能更好地平衡噪声抑制幅度和语音失真度控制的关系,并且对非平稳噪声有一定的抑制效果。
但是,基于单麦克风的降噪方法对于统计特性不稳定的非平稳噪声无法预测,例如:人声语音、笔在平板电脑屏幕上发出的敲击声等,并且理论上单通道语音增强的方法无论如何都会带来一定程度的语音失真,因此基于单麦克风的降噪方法整体性能比较有限。
而基于两麦克风阵列的降噪方法,因为两麦克风是线性阵列,对空间声源的定位存在较大区域的镜像模糊(无法区分关于阵列轴对称的各个方向),因此不能更准确地定位出目标语音进行降噪,同时由于便携式的终端设备,可以随意旋转,也会造成线性麦克风阵列降噪效果的差异。
发明内容
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种噪声去除方法。该方法可以减少空间声源定位的镜像模糊现象,准确地检测到目标声源的方位以及上述目标声源的活动性,进而可以通过后续自适应波束形成的方法消除干扰噪声。
本申请的第二个目的在于提出一种噪声去除装置。
本申请的第三个目的在于提出一种终端设备。
为了实现上述目的,本申请第一方面实施例的噪声去除方法,包括:通过布局好的麦克风阵列同步接收声音信号,并对所述声音信号进行预处理,获得各路麦克风信号的频率信号;根据各路麦克风信号的频率信号通过声源定位方法确定目标声源方位;通过双波束法进行目标声源的活动性检测;基于所述目标声源的活动性检测的结果,通过自适应波束进行语音降噪。
本申请实施例的噪声去除方法中,通过布局好的麦克风阵列同步接收声音信号,可以减少空间声源定位的镜像模糊现象,然后对接收的声音信号进行预处理,获得各路麦克风信号的频率信号,进而根据各路麦克风信号的频率信号通过声源定位方法确定目标声源方位,从而可以实现准确地检测到目标声源的方位,然后通过双波束法进行目标声源的活动性检测,从而可以实现准确地检测上述目标声源的活动性;最后基于上述目标声源的活动性检测的结果,通过自适应波束进行语音降噪,实现了对干扰噪声的消除。
为了实现上述目的,本申请第二方面实施例的噪声去除装置,包括:接收模块,用于通过布局好的麦克风阵列同步接收声音信号;预处理模块,用于对所述接收模块接收的声音信号进行预处理,获得各路麦克风信号的频率信号;确定模块,用于根据所述预处理模块获得的各路麦克风信号的频率信号通过声源定位方法确定目标声源方位;检测模块,用于通过双波束法进行目标声源的活动性检测;降噪模块,用于基于所述检测模块的目标声源的活动性检测的结果,通过自适应波束进行语音降噪。
本申请实施例的噪声去除装置中,接收模块通过布局好的麦克风阵列同步接收声音信号,可以减少空间声源定位的镜像模糊现象,然后预处理模块对接收的声音信号进行预处理,获得各路麦克风信号的频率信号,进而确定模块根据各路麦克风信号的频率信号通过声源定位方法确定目标声源方位,从而可以实现准确地检测到目标声源的方位,然后检测模块通过双波束法进行目标声源的活动性检测,从而可以实现准确地检测上述目标声源的活动性;最后降噪模块基于上述目标声源的活动性检测的结果,通过自适应波束进行语音降噪,实现了对干扰噪声的消除。
为了实现上述目的,本申请第三方面实施例的终端设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请噪声去除方法一个实施例的流程图;
图2为本申请噪声去除方法另一个实施例的流程图;
图3为本申请噪声去除方法中麦克风阵列布局一个实施例的示意图;
图4为本申请噪声去除方法再一个实施例的流程图;
图5为本申请噪声去除方法中确定目标声源的方位一个实施例的示意图;
图6为本申请噪声去除方法再一个实施例的流程图;
图7为本申请噪声去除方法中正向波束和陷零波束的示意图;
图8为本申请噪声去除方法中敲击噪声的示意图;
图9为本申请噪声去除装置一个实施例的结构示意图;
图10为本申请噪声去除装置另一个实施例的结构示意图;
图11为本申请终端设备一个实施例的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本申请噪声去除方法一个实施例的流程图,如图1所示,上述噪声去除方法可以包括:
步骤101,通过布局好的麦克风阵列同步接收声音信号,并对上述声音信号进行预处理,获得各路麦克风信号的频率信号。
其中,上述接收的声音信号包括目标语音信号和噪声信号。
具体地,对上述声音信号进行预处理可以为:将各路麦克风输入信号xi,i=1,2,…I,从时间域变换到频率域。在具体实现时,可以首先对接收的声音信号进行分帧处理,然后将分帧后的每帧信号进行加窗处理,然后将加窗后的信号作离散傅里叶变换(Discrete Fourier Transform;以下简称:DFT),获得各路麦克风信号的频率信号Xi(l,k),i=1,2,…I。
步骤102,根据各路麦克风信号的频率信号通过声源定位方法确定目标声源方位。
具体地,可以根据麦克风阵列中两两麦克风信号之间的互相关功率最大,获得两两麦克风收到声源信号的时延,进而确定目标声源的方位。
步骤103,通过双波束法进行目标声源的活动性检测。
具体地,在进行噪声去除时,无论是单通道语音增强还是麦克风阵列语音增强,都需要进行目标声源的活动性检测,即确定什么时刻是语音,什么时刻是噪声。获得这些信息之后,就可以在有语音的时刻用更大的增益尽可能地保证语音不失真,在有噪声的时刻可以用小的增益尽可能地对噪声做抑制。
步骤104,基于上述目标声源的活动性检测的结果,通过自适应波束进行语音降噪。
本实施例中,自适应波束形成的输出可以如式(1)所示。
Yadapt(l,k)=Yfront(l,k)-H(l,k)Ynull(l,k) (1)
式(1)中,H(l,k)为自适应波束形成的系数,H(l,k)的更新可以采用最小均方(Least Mean Square;以下简称:LMS)算法实现,具体地,H(l,k)的更新可以如式(2)所示。
Figure BDA0001246483610000041
式(2)中,μ为更新步长,一般可以选择0~1之间的数值;式(2)中,TAD为目标信号活动性信息(Target Activity Detection)的简称。
即如果当第l帧的第k频点有语音信号和/或有敲击噪声时,第l+1帧的第k频点的自适应波束形成系数不更新,反之,自适应波束形成系数则更新。这样,通过自适应波束形成就可以有效地抑制干扰噪声。
上述噪声去除方法中,通过布局好的麦克风阵列同步接收声音信号,可以减少空间声源定位的镜像模糊现象,然后对接收的声音信号进行预处理,获得各路麦克风信号的频率信号,进而根据各路麦克风信号的频率信号通过声源定位方法确定目标声源方位,从而可以实现准确地检测到目标声源的方位,然后通过双波束法进行目标声源的活动性检测,从而可以实现准确地检测上述目标声源的活动性;最后基于上述目标声源的活动性检测的结果,通过自适应波束进行语音降噪,实现了对干扰噪声的消除。
图2为本申请噪声去除方法另一个实施例的流程图,如图2所示,本申请图1所示实施例中步骤101之前,还可以包括:
步骤201,预先确定麦克风阵列布局,上述麦克风阵列为对称成平面的阵列。
本实施例基于减少空间声源定位的镜像模糊现象的考虑,以及考虑便携式终端设备可随意旋转的特点,将麦克风阵列设计成对称成平面的阵列,如图3所示,图3为本申请噪声去除方法中麦克风阵列布局一个实施例的示意图。图3中仅给出了3个麦克风和4个麦克风阵列布局的示意,对于类似于3个麦克风的奇数阵列布局,还可以是5个或7个麦克风等,同理,类似于4个麦克风的偶数阵列布局,还可以是6个或8个麦克风等,对此本实施例不作限定。本实施例以3个麦克风为例阐述终端设备的降噪过程。
以3个麦克风的阵列布局为例,一个麦克风位于一角(麦克风2),其他两个麦克风(麦克风1和麦克风3)沿着和边缘平行的方向摆放,两个边缘麦克风距离中心麦克风的间距都是d,d一般选取2~6cm之间。
图4为本申请噪声去除方法再一个实施例的流程图,如图4所示,本申请图1所示实施例中的步骤102可以包括:
步骤401,计算各路麦克风信号的频率信号两两之间的加权互相关功率谱,并对各频率点的加权互相关功率谱求和。
具体地,可以如式(3)所示。
Figure BDA0001246483610000051
其中,Gij(l)表示麦克风i和麦克风j之间各频率点的加权互相关功率谱和;N为每帧总频点个数,“*”表示复数取共轭操作,P为假定的两麦克风之间的时延。
式(3)中将信号的互功率谱幅度规整掉,使得计算的信号互功率谱与信号的类型无关。
步骤402,根据各频率点的加权互相关功率谱之和,计算目标声源与各麦克风之间的时延差。
具体地,由式(3)可以得到:
Figure BDA0001246483610000052
式(4)中,τij为麦克风i与麦克风j之间的真实的时延差。
从式(4)可以看出当P=τij时,Gij(l)可以达到最大值。通过遍历P(从1到T,T一般取256或更长),得到使得Gij(l)=N的P就是麦克风i与麦克风j之间的时延差,根据式(4)可以求出P的值,即τij的值。
步骤403,根据上述时延差确定上述目标声源的方位。
本实施例中,当得到两两麦克风之间的时延差为τij之后,则声源距离两两麦克风之间的距离差为τij·c,这里c为声音在空气中传播的速度。根据“距离两点距离之差为定值的点组成的形状为双曲线”的原理,I组距离差可以得到I组双曲线,此时声源的方位即为I组双区间的交点,当由于计算误差导致I组双曲线不能相交时,距离I组双曲线距离最近的点即为声源的方位,如图5所示。图5为本申请噪声去除方法中确定目标声源的方位一个实施例的示意图。图5给出了通过3组双曲线确定目标声源的方位的示意图,图5中点s即为目标声源。
进一步地,由于在实际应用中,终端设备一般屏幕都是面向使用者的,因此可以预先设定屏幕的正前方区域±θ(θ值可根据大量实验和/或经验确定,例如:取为20°)为可能的目标声源方向。如果麦克风阵列定位得到的声源方向不在这个区域就认为是干扰噪声,或者是由于平面阵列的对称性导致的声源镜像。
图6为本申请噪声去除方法再一个实施例的流程图,如图6所示,本申请图1所示实施例中的步骤103可以包括:
步骤601,向上述目标声源所在的区域形成正向波束,以及向上述目标声源所在的区域形成陷零波束。
具体地,由于可能的目标声源所在的区域就在终端设备屏幕的正前方区域±θ,因此根据延迟相加波束形成的原理,可以直接将各路麦克风信号相加就可以向上述目标声源所在的区域形成正向波束,如式(5)所示,其中,正向波束的示意图可以如图7所示,图7为本申请噪声去除方法中正向波束和陷零波束的示意图。
Figure BDA0001246483610000061
上述陷零波束就是形成一个陷零点直接对准目标说话人的波束,对目标说话人的语音进行抑制。
利用定位得到的目标声源的方位之后,如果声源出现在可能的目标声源所在的区域,利用此时各麦克风之间的相对时延差τij来形成陷零波束,如图7所示。具体方式是:选择其中任一个麦克风作为参考麦克风,比如这里选择麦克风i作为参考麦克风,利用式(6)即可形成陷零波束。
Figure BDA0001246483610000071
式(6)中,αi-1为麦克风i-1和参考麦克风信号的加权信号,满足α1+...αi-1i+1+...αI=1,即将各个麦克风信号向着目标声源的方向对齐,然后加权相减。
步骤602,根据上述正向波束和上述陷零波束的能量比检测上述目标声源的活动性。
其中,上述正向波束和上述陷零波束的能量比可以按照式(7)计算。
ERatio=|Yfront(l,k)|2/|Ynull(l,k)|2 (7)
由于当信号出现在目标信号预期内时,正向波束的能量大,陷零波束的能量很小;当信号没有出现在目标信号的区域时,正向波束能量较小,陷零波束能量则较大,因此基于上述原则,目标信号活动性信息(Target Activity Detection;以下简称:TAD)可以表示为:
Figure BDA0001246483610000072
式(8)中,e为判决门限,一般选择3~8dB,即正向波束能量比陷零波束能量高3~8dB时,可以认为目标信号存在。
本实施例提供的噪声去除方法中,上述噪声可能包含敲击噪声,而当第l帧的第k频点有语音信号和/或有敲击噪声时,第l+1帧的第k频点的自适应波束形成系数不更新,反之,自适应波束形成系数则更新。这样,通过自适应波束形成还无法很好地消减敲击噪声,因此在步骤104,通过自适应波束进行语音降噪之前,还可以计算能量比,上述能量比为当前频点的能量值与较大能量值的比值,上述较大能量值为当前频点之前第一预定数量的频点中的能量最低值与当前频点之后第二预定数量的频点中的能量最低值中的较大值,第一预定数量和第二预定数量为正整数;如果上述能量比大于或等于预定门限,则确定上述当前频点有敲击噪声。
其中,上述第一预定数量和第二预定数量的大小可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述第一预定数量和上述第二预定数量的大小不作限定。
同样上述预定门限的大小也可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预定门限的大小不作限定。
具体地,敲击噪声具有一些特性,如敲击噪声非平稳,强度大,持续时间短(10ms以内),基于此,可以利用式(9)计算一个能量比。
Figure BDA0001246483610000081
如图8所示,图8为本申请噪声去除方法中敲击噪声的示意图,e(t)代表当前频点的能量值,elow(t-L:t-1)代表当前频点之前L个点的能量最低值,elow(t+1:t+T)代表当前频点之后的T个点的能量最低值。其中,L为第一预定数量,T为第二预定数量。
当EI≥δ时,就认为此时是有敲击声的,此时的δ即为上述预定门限,一般取δ>10。
这样,步骤104中,通过自适应波束进行语音降噪可以为:在确定当前频点有敲击噪声之后,为上述当前频点所在帧的自适应波束形成的输出设置增益值,上述增益值的最大值小于预定阈值。
其中,上述增益值可以是一个范围,但是上述增益值的最大值小于上述预定阈值,上述预定阈值的大小可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预定阈值的大小不作限定。
具体地,当检测到当前频点有敲击噪声的时候,需要为上述当前频点所在帧设置一个比较小的增益值,此时自适应波束形成的输出可以为:
Figure BDA0001246483610000082
式(10)中,Gmin为增益值,一般取0.1~0.3,可根据大量实验和/或经验确定。
也就是说,本实施例提出的噪声消除方法也可以消除因敲击产生的冲击噪声,取得了良好的降噪效果。
图9为本申请噪声去除装置一个实施例的结构示意图,本实施例中的噪声去除装置可以作为终端设备,或者终端设备的一部分实现本申请的噪声去除方法。其中,上述终端设备可以为智能终端设备,上述智能终端设备可以为手机、个人计算机(PersonalComputer;以下简称:PC)、笔记本电脑、平板电脑或个人数字助理(Personal DigitalAssistant;以下简称:PDA)等,本实施例对上述智能终端设备的形态不作限定。
如图9所示,上述噪声去除装置可以包括:接收模块91、预处理模块92、确定模块93、检测模块94和降噪模块95;
其中,接收模块91,用于通过布局好的麦克风阵列同步接收声音信号;其中,接收模块91接收的声音信号包括目标语音信号和噪声信号。
预处理模块92,用于对接收模块91接收的声音信号进行预处理,获得各路麦克风信号的频率信号;具体地,预处理模块92对上述声音信号进行预处理可以为:将各路麦克风输入信号xi,i=1,2,…I,从时间域变换到频率域。在具体实现时,预处理模块92可以首先对接收的声音信号进行分帧处理,然后将分帧后的每帧信号进行加窗处理,然后将加窗后的信号作DFT,获得各路麦克风信号的频率信号Xi(l,k),i=1,2,…I。
确定模块93,用于根据预处理模块92获得的各路麦克风信号的频率信号通过声源定位方法确定目标声源方位;具体地,确定模块93可以根据麦克风阵列中两两麦克风信号之间的互相关功率最大,获得两两麦克风收到声源信号的时延,进而确定目标声源的方位。
检测模块94,用于通过双波束法进行目标声源的活动性检测;具体地,在进行噪声去除时,无论是单通道语音增强还是麦克风阵列语音增强,都需要进行目标声源的活动性检测,即确定什么时刻是语音,什么时刻是噪声。获得这些信息之后,就可以在有语音的时刻用更大的增益尽可能地保证语音不失真,在有噪声的时刻可以用小的增益尽可能地对噪声做抑制。
降噪模块95,用于基于检测模块94的目标声源的活动性检测的结果,通过自适应波束进行语音降噪。本实施例中,自适应波束形成的输出可以如式(1)所示。
上述噪声去除装置中,接收模块91通过布局好的麦克风阵列同步接收声音信号,可以减少空间声源定位的镜像模糊现象,然后预处理模块92对接收的声音信号进行预处理,获得各路麦克风信号的频率信号,进而确定模块93根据各路麦克风信号的频率信号通过声源定位方法确定目标声源方位,从而可以实现准确地检测到目标声源的方位,然后检测模块94通过双波束法进行目标声源的活动性检测,从而可以实现准确地检测上述目标声源的活动性;最后降噪模块95基于上述目标声源的活动性检测的结果,通过自适应波束进行语音降噪,实现了对干扰噪声的消除。
图10为本申请噪声去除装置另一个实施例的结构示意图,与图9所示的噪声去除装置相比,不同之处在于,图10所示的噪声去除装置中,确定模块93,还用于在接收模块91通过布局好的麦克风阵列同步接收声音信号之前,预先确定麦克风阵列布局;上述麦克风阵列为对称成平面的阵列。
本实施例基于减少空间声源定位的镜像模糊现象的考虑,以及考虑便携式终端设备可随意旋转的特点,确定模块93将麦克风阵列设计成对称成平面的阵列,如图3所示。图3中仅给出了3个麦克风和4个麦克风阵列布局的示意,对于类似于3个麦克风的奇数阵列布局,还可以是5个或7个麦克风等,同理,类似于4个麦克风的偶数阵列布局,还可以是6个或8个麦克风等,对此本实施例不作限定。本实施例以3个麦克风为例阐述终端设备的降噪过程。
以3个麦克风的阵列布局为例,一个麦克风位于一角(麦克风2),其他两个麦克风(麦克风1和麦克风3)沿着和边缘平行的方向摆放,两个边缘麦克风距离中心麦克风的间距都是d,d一般选取2~6cm之间。
本实施例中,确定模块93可以包括:计算子模块931和方位确定子模块932;
其中,计算子模块931,用于计算各路麦克风信号的频率信号两两之间的加权互相关功率谱,并对各频率点的加权互相关功率谱求和;以及根据各频率点的加权互相关功率谱之和,计算目标声源与各麦克风之间的时延差;具体的计算过程可以如式(3)和式(4)所示,在此不再赘述。
方位确定子模块932,用于根据计算子模块931获得的时延差确定上述目标声源的方位。
本实施例中,当得到两两麦克风之间的时延差为τij之后,则声源距离两两麦克风之间的距离差为τij·c,这里c为声音在空气中传播的速度。根据“距离两点距离之差为定值的点组成的形状为双曲线”的原理,I组距离差可以得到I组双曲线,此时声源的方位即为I组双区间的交点,当由于计算误差导致I组双曲线不能相交时,距离I组双曲线距离最近的点即为声源的方位,如图5所示。图5给出了通过3组双曲线确定目标声源的方位的示意图,图5中点s即为目标声源。
进一步地,由于在实际应用中,终端设备一般屏幕都是面向使用者的,因此可以预先设定屏幕的正前方区域±θ(θ值可根据大量实验和/或经验确定,例如:取为20°)为可能的目标声源方向。如果麦克风阵列定位得到的声源方向不在这个区域就认为是干扰噪声,或者是由于平面阵列的对称性导致的声源镜像。
本实施例中,检测模块94可以包括:波束形成子模块941和活动性检测子模块942;
其中,波束形成子模块941,用于向上述目标声源所在的区域形成正向波束,以及向上述目标声源所在的区域形成陷零波束;具体地,由于可能的目标声源所在的区域就在终端设备屏幕的正前方区域±θ,因此根据延迟相加波束形成的原理,可以直接将各路麦克风信号相加就可以向上述目标声源所在的区域形成正向波束,如式(5)所示,其中,正向波束的示意图可以如图7所示。
上述陷零波束就是形成一个陷零点直接对准目标说话人的波束,对目标说话人的语音进行抑制。
利用定位得到的目标声源的方位之后,如果声源出现在可能的目标声源所在的区域,利用此时各麦克风之间的相对时延差τij来形成陷零波束,如图7所示。具体方式是:选择其中任一个麦克风作为参考麦克风,比如这里选择麦克风i作为参考麦克风,利用式(6)即可形成陷零波束。
活动性检测子模块942,用于根据上述正向波束和上述陷零波束的能量比检测上述目标声源的活动性。其中,上述正向波束和上述陷零波束的能量比可以按照式(7)计算。由于当信号出现在目标信号预期内时,正向波束的能量大,陷零波束的能量很小;当信号没有出现在目标信号的区域时,正向波束能量较小,陷零波束能量则较大,因此基于上述原则,TAD可以表示为:
Figure BDA0001246483610000111
式(8)中,e为判决门限,一般选择3~8dB,即正向波束能量比陷零波束能量高3~8dB时,活动性检测子模块942可以认为目标信号存在。
本实施例中,上述噪声包括敲击噪声;上述噪声去除装置还可以包括:计算模块96;
计算模块96,用于计算能量比,上述能量比为当前频点的能量值与较大能量值的比值,上述较大能量值为上述当前频点之前第一预定数量的频点中的能量最低值与当前频点之后第二预定数量的频点中的能量最低值中的较大值,第一预定数量和第二预定数量为正整数;
确定模块93,还用于当计算模块96计算的能量比大于或等于预定门限时,确定上述当前频点有敲击噪声。
其中,上述第一预定数量和第二预定数量的大小可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述第一预定数量和上述第二预定数量的大小不作限定。
同样上述预定门限的大小也可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预定门限的大小不作限定。
具体地,敲击噪声具有一些特性,如敲击噪声非平稳,强度大,持续时间短(10ms以内),基于此,可以利用式(9)计算一个能量比。
Figure BDA0001246483610000112
如图8所示,e(t)代表当前频点的能量值,elow(t-L:t-1)代表当前频点之前L个点的能量最低值,elow(t+1:t+T)代表当前频点之后的T个点的能量最低值。其中,L为第一预定数量,T为第二预定数量。
当EI>δ时,就认为此时是有敲击声的,此时的δ即为上述预定门限,一般取δ>10。
这时,降噪模块95,具体用于在确定模块93确定当前频点有敲击噪声之后,为上述当前频点所在帧的自适应波束形成的输出设置增益值,上述增益值的最大值小于预定阈值。
其中,上述增益值可以是一个范围,但是上述增益值的最大值小于上述预定阈值,上述预定阈值的大小可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预定阈值的大小不作限定。
具体地,当检测到当前频点有敲击噪声的时候,降噪模块95需要为上述当前频点所在帧设置一个比较小的增益值,此时自适应波束形成的输出可以为:
Figure BDA0001246483610000121
式(10)中,Gmin为增益值,一般取0.1~0.3,可根据大量实验和/或经验确定。
也就是说,本实施例提出的噪声消除装置也可以消除因敲击产生的冲击噪声,取得了良好的降噪效果。
图11为本申请终端设备一个实施例的结构示意图,本实施例中的终端设备可以实现本申请提出的噪声去除方法,其中,上述终端设备可以为智能终端设备,上述智能终端设备可以为手机、PC、笔记本电脑、平板电脑或PDA等,本实施例对上述智能终端设备的形态不作限定。
图11所示的终端设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,终端设备12以通用计算设备的形式表现。终端设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
终端设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。终端设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示,通常称为“硬盘驱动器”)。尽管图11中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
终端设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该终端设备12交互的设备通信,和/或与使得该终端设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,终端设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图11所示,网络适配器20通过总线18与终端设备12的其它模块通信。应当明白,尽管图11中未示出,可以结合终端设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请提出的噪声去除方法。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种噪声去除方法,其特征在于,包括:
通过布局好的麦克风阵列同步接收声音信号,并对所述声音信号进行预处理,获得各路麦克风信号的频率信号;
根据各路麦克风信号的频率信号通过声源定位方法确定目标声源方位;
向所述目标声源所在的区域形成正向波束,以及向所述目标声源所在的区域形成陷零波束;根据所述正向波束和所述陷零波束的能量比进行目标声源的活动性检测:包括确定语音和语音对应的时刻,以及噪声和所述噪声对应的时刻;
基于所述目标声源的活动性检测的结果,通过自适应波束进行语音降噪,其中,为噪声对应时刻的自适应波束形成输出设置的增益值小于为语音对应时刻的自适应波束形成输出设置的增益值。
2.根据权利要求1所述的方法,其特征在于,所述通过布局好的麦克风阵列同步接收声音信号之前,还包括:
预先确定麦克风阵列布局;所述麦克风阵列为对称成平面的阵列。
3.根据权利要求1所述的方法,其特征在于,所述根据各路麦克风信号的频率信号通过声源定位方法确定目标声源方位包括:
计算各路麦克风信号的频率信号两两之间的加权互相关功率谱,并对各频率点的加权互相关功率谱求和;
根据各频率点的加权互相关功率谱之和,计算目标声源与各麦克风之间的时延差;
根据所述时延差确定所述目标声源的方位。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述噪声包括敲击噪声;
所述通过自适应波束进行语音降噪之前,还包括:
计算能量比,所述能量比为当前频点的能量值与较大能量值的比值,所述较大能量值为所述当前频点之前第一预定数量的频点中的能量最低值与所述当前频点之后第二预定数量的频点中的能量最低值中的较大值,所述第一预定数量和所述第二预定数量为正整数;
如果所述能量比大于或等于预定门限,则确定所述当前频点有敲击噪声。
5.根据权利要求4所述的方法,其特征在于,所述通过自适应波束进行语音降噪包括:
在确定所述当前频点有敲击噪声之后,为所述当前频点所在帧的自适应波束形成的输出设置增益值,所述增益值的最大值小于预定阈值。
6.一种噪声去除装置,其特征在于,包括:
接收模块,用于通过布局好的麦克风阵列同步接收声音信号;
预处理模块,用于对所述接收模块接收的声音信号进行预处理,获得各路麦克风信号的频率信号;
确定模块,用于根据所述预处理模块获得的各路麦克风信号的频率信号通过声源定位方法确定目标声源方位;
检测模块,包括:
波束形成子模块,用于向所述目标声源所在的区域形成正向波束,以及向所述目标声源所在的区域形成陷零波束;
活动性检测子模块,用于根据所述正向波束和所述陷零波束的能量比检测所述目标声源的活动性;
所述检测模块通过所述正向波束与所述陷零波束进行目标声源的活动性检测:包括确定语音和语音对应的时刻,以及噪声和所述噪声对应的时刻;
降噪模块,用于基于所述检测模块的目标声源的活动性检测的结果,通过自适应波束进行语音降噪,其中,为噪声对应时刻的自适应波束形成输出设置的增益值小于为语音对应时刻的自适应波束形成输出设置的增益值。
7.根据权利要求6所述的装置,其特征在于,
所述确定模块,还用于在所述接收模块通过布局好的麦克风阵列同步接收声音信号之前,预先确定麦克风阵列布局;所述麦克风阵列为对称成平面的阵列。
8.根据权利要求7所述的装置,其特征在于,所述确定模块包括:
计算子模块,用于计算各路麦克风信号的频率信号两两之间的加权互相关功率谱,并对各频率点的加权互相关功率谱求和;以及根据各频率点的加权互相关功率谱之和,计算目标声源与各麦克风之间的时延差;
方位确定子模块,用于根据所述计算子模块获得的时延差确定所述目标声源的方位。
9.根据权利要求6-8任意一项所述的装置,其特征在于,所述噪声包括敲击噪声;所述噪声去除装置还包括:计算模块;
所述计算模块,用于计算能量比,所述能量比为当前频点的能量值与较大能量值的比值,所述较大能量值为所述当前频点之前第一预定数量的频点中的能量最低值与所述当前频点之后第二预定数量的频点中的能量最低值中的较大值,所述第一预定数量和所述第二预定数量为正整数;
所述确定模块,还用于当所述计算模块计算的所述能量比大于或等于预定门限时,确定所述当前频点有敲击噪声。
10.根据权利要求9所述的装置,其特征在于,
所述降噪模块,具体用于在所述确定模块确定所述当前频点有敲击噪声之后,为所述当前频点所在帧的自适应波束形成的输出设置增益值,所述增益值的最大值小于预定阈值。
11.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
CN201710153999.7A 2017-03-15 2017-03-15 噪声去除方法、装置和终端设备 Active CN106952653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710153999.7A CN106952653B (zh) 2017-03-15 2017-03-15 噪声去除方法、装置和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710153999.7A CN106952653B (zh) 2017-03-15 2017-03-15 噪声去除方法、装置和终端设备

Publications (2)

Publication Number Publication Date
CN106952653A CN106952653A (zh) 2017-07-14
CN106952653B true CN106952653B (zh) 2021-05-04

Family

ID=59472231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710153999.7A Active CN106952653B (zh) 2017-03-15 2017-03-15 噪声去除方法、装置和终端设备

Country Status (1)

Country Link
CN (1) CN106952653B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN107910011B (zh) 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN110675889A (zh) * 2018-07-03 2020-01-10 阿里巴巴集团控股有限公司 音频信号处理方法、客户端和电子设备
CN110718238B (zh) * 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法、客户端和电子设备
CN109599104B (zh) * 2018-11-20 2022-04-01 北京小米智能科技有限公司 多波束选取方法及装置
CN109754803B (zh) * 2019-01-23 2021-06-22 上海华镇电子科技有限公司 车载多音区语音交互系统及方法
CN111986692A (zh) * 2019-05-24 2020-11-24 腾讯科技(深圳)有限公司 基于麦克风阵列的声源跟踪与拾音的方法和装置
CN114287136A (zh) * 2019-09-05 2022-04-05 华为技术有限公司 风噪检测
CN111131616B (zh) * 2019-12-28 2022-05-17 科大讯飞股份有限公司 基于智能终端的音频共享方法及相关装置
CN111856402B (zh) * 2020-07-23 2023-08-18 海尔优家智能科技(北京)有限公司 信号处理方法及装置、存储介质、电子装置
CN113132519B (zh) * 2021-04-14 2023-06-02 Oppo广东移动通信有限公司 电子设备、电子设备的语音识别方法及存储介质
CN113270095B (zh) * 2021-04-26 2022-04-08 镁佳(北京)科技有限公司 语音处理方法、装置、存储介质及电子设备
CN113409814B (zh) * 2021-06-02 2022-09-20 国家石油天然气管网集团有限公司西气东输分公司 一种天然气站场设备运行智能监测方法及系统
CN115914910A (zh) 2021-08-17 2023-04-04 达发科技股份有限公司 适应性主动噪声消除装置以及使用其的声音播放系统
TWI777729B (zh) * 2021-08-17 2022-09-11 達發科技股份有限公司 適應性主動雜訊消除裝置以及使用其之聲音播放系統
CN116504264B (zh) * 2023-06-30 2023-10-31 小米汽车科技有限公司 音频处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1923866A1 (en) * 2005-08-11 2008-05-21 Asahi Kasei Kogyo Kabushiki Kaisha Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program
WO2014143439A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and method for beamforming to obtain voice and noise signals
WO2015125567A1 (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467543B2 (en) * 2002-03-27 2013-06-18 Aliphcom Microphone and voice activity detection (VAD) configurations for use with communication systems
CN100535992C (zh) * 2005-11-14 2009-09-02 北京大学科技开发部 小尺度麦克风阵列语音增强系统和方法
WO2010079526A1 (ja) * 2009-01-06 2010-07-15 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
CN101587710B (zh) * 2009-07-02 2011-12-14 北京理工大学 一种基于音频突发事件分类的多码本编码参数量化方法
JP2012027186A (ja) * 2010-07-22 2012-02-09 Sony Corp 音声信号処理装置、音声信号処理方法及びプログラム
CN102324237B (zh) * 2011-05-30 2013-01-02 深圳市华新微声学技术有限公司 麦克风阵列语音波束形成方法、语音信号处理装置及系统
CN105467364B (zh) * 2015-11-20 2019-03-29 百度在线网络技术(北京)有限公司 一种定位目标声源的方法和装置
CN106483502B (zh) * 2016-09-23 2019-10-18 科大讯飞股份有限公司 一种声源定位方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1923866A1 (en) * 2005-08-11 2008-05-21 Asahi Kasei Kogyo Kabushiki Kaisha Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program
WO2014143439A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and method for beamforming to obtain voice and noise signals
WO2015125567A1 (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム

Also Published As

Publication number Publication date
CN106952653A (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
CN106952653B (zh) 噪声去除方法、装置和终端设备
Pertilä et al. Robust direction estimation with convolutional neural networks based steered response power
CN107221336B (zh) 一种增强目标语音的装置及其方法
US8981994B2 (en) Processing signals
US9042573B2 (en) Processing signals
EP3210391B1 (en) Reverberation estimator
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
CN108269582B (zh) 一种基于双麦克风阵列的定向拾音方法及计算设备
CN109859769B (zh) 一种掩码估计方法及装置
CN110544490A (zh) 一种基于高斯混合模型和空间功率谱特征的声源定位方法
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
CN110660404A (zh) 基于零陷滤波预处理的语音通信和交互应用系统、方法
CN114171041A (zh) 基于环境检测的语音降噪方法、装置、设备及存储介质
CN112492207A (zh) 一种基于声源定位控制摄像头转动的方法和装置
CN113687305A (zh) 声源方位的定位方法、装置、设备及计算机可读存储介质
WO2023020076A1 (zh) 设备的唤醒方法
CN115359804A (zh) 一种基于麦克风阵列的定向音频拾取方法和系统
CN115472151A (zh) 一种基于视频信息辅助的目标语音提取方法
Ayllón et al. An evolutionary algorithm to optimize the microphone array configuration for speech acquisition in vehicles
Li et al. Distributed-microphones based in-vehicle speech enhancement via sparse and low-rank spectrogram decomposition
CN106448693A (zh) 一种语音信号处理方法及装置
Shimizu et al. Isotropic noise suppression in the power spectrum domain by symmetric microphone arrays
Wang et al. Joint Noise and Reverberation Adaptive Learning for Robust Speaker DOA Estimation with an Acoustic Vector Sensor.
Zhou et al. Multi-source wideband DOA estimation method by frequency focusing and error weighting
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant