CN109473118B - 双通道语音增强方法及装置 - Google Patents

双通道语音增强方法及装置 Download PDF

Info

Publication number
CN109473118B
CN109473118B CN201811580223.4A CN201811580223A CN109473118B CN 109473118 B CN109473118 B CN 109473118B CN 201811580223 A CN201811580223 A CN 201811580223A CN 109473118 B CN109473118 B CN 109473118B
Authority
CN
China
Prior art keywords
existence probability
probability
beams
determining
target beam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811580223.4A
Other languages
English (en)
Other versions
CN109473118A (zh
Inventor
邵雅婷
沈小正
周强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201811580223.4A priority Critical patent/CN109473118B/zh
Publication of CN109473118A publication Critical patent/CN109473118A/zh
Application granted granted Critical
Publication of CN109473118B publication Critical patent/CN109473118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor

Abstract

本发明公开一种双通道语音增强方法及装置,其中方法包括:将接收自第一麦克风的第一声音信号和接收自第二麦克风的第二声音信号输入至延迟相加波束形成器,以得到N路波束;确定待增强声音所在方向所对应的波束为目标波束,目标波束为所述N路波束之一;根据N路波束计算得到所述目标波束中存在所述待增强声音的存在概率;基于存在概率对目标波束进行增强。通过基于所接收到的双通道声音信号生成N路波束,并且在明确了目标波束的情况下,基于目标波束和其他波束联合计算,确定期望语音存在于目标波束,从而避免了来自其他方向语音的干扰,获得更高的信噪比。

Description

双通道语音增强方法及装置
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种双通道语音增强方法及装置。
背景技术
在混响和嘈杂环境中,通常用多通道系统获得高质量的语音通信,与单通道系统相比,多通道的空间滤波能力可以抑制来自非期望方向的干扰信号,因此可以获得显著的性能提升,并且通道数越多,干扰抑制能力越强.但是,在空间非相干噪声场的情况下,单独的波束形成无法提供足够的降噪,需要引入后置滤波。
目前提出的后置滤波技术包含单通道后置滤波,单通道后置滤波算法能够较好地消除稳态噪声,且比较稳定,不会引起较大失真,但是当干扰噪声为非稳态人声或者其他噪声时,就很难被检测并消除。为了解决这一问题.研究者相继提出多通道后置滤波。Zelinski基于多通道接收信号的自功率谱密度和互功率谱密度,在时域上对延迟相加的波束进行自适应维纳滤波后处理,但是其存在对噪声功率密度过估计的问题,因此在维纳意义上并不是最优的方法;Le Bouquin-Jeannès提出修改互功率谱估计的方法,并在维纳后滤波中考虑相关噪声分量的存在,其在期望信号不存在期间对噪声信号的互功率谱进行平均,然后从信号存在期间得到的多通道信号互功率谱减去这一值。这些方法都假定干扰信号的变化足够慢,使得后置滤波器可以跟踪并适应噪声统计的变化,但是瞬态干扰往往是短暂的和突然的,使得理论情况与实际情况不相符,并且维纳滤波并非语音增强的最佳准则。
于是Cohen提出基于TBRR(Transient Beam-To-Reference Ratio)-OMLSA(Optimally-Modified Log-Spectral Amplitude)的后处理方法。Cohen利用波束形成器的初级输出与参考噪声信号之间的某种关系来估计语音存在概率。理论上,期望语音会在目标波束中被增强,而瞬态干扰可能会突出表现在某一参考通道中,因此,波束输出的瞬态功率与参考信号的瞬态功率间的比值可以用来区分目标语音和非稳态噪声。
但是,当此方法用于双通道语音增强中会存在一个较大问题,因为双通道的空间滤波能力非常有限,阻塞矩阵的估计往往会有很大偏差,导致噪声参考通道中会有较多的期望语音泄漏进去,那么TBRR的估计就会存在很大误差,导致严重的自消问题,使得语音严重失真,不利于后续的识别等交互功能。
发明内容
本发明实施例提供一种双通道语音增强方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种双通道语音增强方法,包括:
双通道语音增强方法,包括:
将接收自第一麦克风的第一声音信号和接收自第二麦克风的第二声音信号输入至延迟相加波束形成器,以得到N路波束;
确定待增强声音所在方向所对应的波束为目标波束,所述目标波束为所述N路波束之一;
根据所述目标波束和所述N路波束中的其他N-1路波束计算得到所述目标波束中存在所述待增强声音的存在概率;
基于所述存在概率对所述目标波束进行增强。
第二方面,本发明实施例提供一种双通道语音增强装置,包括:
波束形成模块,用于将接收自第一麦克风的第一声音信号和接收自第二麦克风的第二声音信号输入至延迟相加波束形成器,以得到N路波束;
波束确定模块,用于确定待增强声音所在方向所对应的波束为目标波束,所述目标波束为所述N路波束之一;
存在概率计算模块,用于根据所述目标波束和所述N路波束中的其他N-1路波束计算得到所述目标波束中存在所述待增强声音的存在概率;
波束增强模块,用于基于所述存在概率对所述目标波束进行增强。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项双通道语音增强方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项双通道语音增强方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项双通道语音增强方法。
本发明实施例的有益效果在于:通过基于所接收到的双通道声音信号生成N路波束,并且在明确了目标波束的情况下,基于目标波束和其他N-1路波束联合计算确定期望语音(待增强声音)存在于目标波束,避免了期望语音泄露至参考通道中的问题,从而避免了来自其他方向语音的干扰,获得更高的信噪比,减轻了语音失真。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的双通道语音增强方法的一实施例的流程图;
图2为本发明的双通道语音增强方法的另一实施例的流程图;
图3为本发明双通道语音增强方法的一实施例的流程图;
图4为本发明实施例中的语音存在判断的流程图;
图5为本发明的双通道语音增强装置的一实施例的原理框图;
图6为本发明中的存在概率计算模块的一实施例的原理框图;
图7为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术中所存在的缺陷,本专利利用目标波束的瞬态输出功率与空间中其他波束瞬态功率间的比值区分目标语音和非稳态噪声,避免对噪声参考通道的错误估计引起语音失真。
如图1所示为本发明的双通道语音增强方法的一实施例的流程图,该方法包括:
S10、将接收自第一麦克风的第一声音信号和接收自第二麦克风的第二声音信号输入至延迟相加波束形成器,以得到N路波束;
S20、确定待增强声音所在方向所对应的波束为目标波束,所述目标波束为所述N路波束之一;
S30、根据所述目标波束和所述N路波束中的其他N-1路波束计算得到所述目标波束中存在所述待增强声音的存在概率;
S40、基于所述存在概率对所述目标波束进行增强。示例性地,步骤S40包括:根据所述存在概率更新平稳噪声功率谱;基于更新后的平稳噪声功率谱计算得到相应的先验信噪比;基于所述先验信噪比,采用最优对数谱幅度增益函数对所述目标波束进行增强。
本实施例中,通过基于所接收到的双通道声音信号生成N路波束,并且在明确了目标波束的情况下,基于目标波束和其他波束联合计算确定期望语音(待增强声音)存在于目标波束,避免了期望语音泄露至参考通道中的问题,从而避免了来自其他方向语音的干扰,获得更高的信噪比,减轻了语音失真。
如图2所示,在一些实施例中,所述根据所述目标波束和所述N路波束中的其他N-1路波束计算得到所述目标波束中存在所述待增强声音的存在概率包括:
S31、分别对所述目标波束和所述两路参考波束进行平滑处理以得到第一至第N平滑功率谱;
S32、基于所述第一至第N平滑功率谱,采用最小值跟踪算法计算得到第一至第N搜索窗内最小功率谱;这一算法需要我们在若干个连续的平滑功率谱密度中寻找出最小值。
S33、根据所述第一至第N平滑功率谱和所述第一至第N最小功率谱确定对应于所述N路波束的第一至第N信号稳定度,所述第一信号稳定度对应于所述目标波束,所述第二至第N信号稳定度对应于所述其他N-1路波束;
S34、基于所述第一至第N信号稳定度确定所述目标波束中存在所述待增强声音的存在概率。
本发明实施例中,将目标通道与其他非目标通道的语音存在概率联系起来(例如,利用目标波束的瞬态输出功率与空间中其他波束瞬态功率间的比值),联合区分目标语音和非稳态噪声,避免对噪声参考通道的错误估计引起语音失真。
示例性地,本发明实施例中的步骤S34包括:基于所述第一至第N信号稳定度确定所述目标波束中存在所述待增强声音的局部存在概率;根据所述存在局部概率确定对应于当前帧的全局存在概率;当所述全局存在概率大于设定阈值时,确定所述局部存在概率为所述存在概率;当所述全局存在概率不大于设定阈值时,确定所述存在概率为零。本实施例中可以避免窄带干扰波动的影响,同时可以减少音乐噪声的存在,提高语音的可懂度和听觉舒适性。
图3描述了本发明双通道语音增强方法的一实施例的流程图。具体地:
首先,利用延迟相加Delay-sum的固定波束形成器获得N路波束,这N路波束将覆盖所有空间,即,覆盖来自空间中任意方向任意角度的语音信号。
然后,利用N路波束间的相互关系(指的是图4所描述的语音存在判断逻辑)估计出期望语音的存在概率,更新噪声功率谱;示例性地,先分别估计出N路波束的语音存在概率,然后如图4所示,利用N路波束语音存在概率的逻辑关系,得到期望语音的存在概率。这里要注意语音存在概率与期望语音存在概率的区别,每一路波束中都可能存在语音,但是期望语音必然只存在于其中的某一路波束。
通过N路波束的逻辑关系区分出目标语音所在波束中期望语音与干扰噪声(包含干扰语音)后,利用期望语音存在概率对平稳噪声功率谱估计的更新:当期望语音存在时:σ2(l,k)=ασ2(l-1,k)+(1-α)|Y(l,k)2|;当期望语音不存在时:σ2(l,k)=σ2(l-1,k),其中,σ2(l,k)表示第l帧,第k个频点的功率谱,α表示平滑系数,本发明实施例中选取α=0.8。获得平稳噪声功率谱以后就可以基于高斯数学模型估计先验后验信噪比,从而计算增益函数实现语音增强的目的。
最后,应用最优对数谱幅度(OM-LSA,OM-LSA采用了voice估计方法,通过做先验无声概率及先验信噪比SNR的估计来进一步得到有声条件概率,进而计算出voice有效增益G,实现了voice估计)增益函数实现目标波束的谱增强。对于固定方向增强的项目,期望语音总是来自于某一固定范围的方向,因此目标波束总是固定已知的。
图4为本发明实施例中的语音存在判断的流程图。期望语音分量的检测在每帧每频点中执行。
首先,计算目标波束当前帧所有频率点语音存在的局部可能性。
然后,计算目标波束的全局可能性,设定一个阈值ψ0;示例性地,阈值ψ0取值0.25,该阈值的取值是经工程上的多次试验得到的。
当全局存在概率大于阈值时,由局部存在概率决定实际存在概率(即,当全局存在概率大于阈值时,局部存在概率即为实际存在概率);
当全局概率小于阈值时,认为这一帧所有频点的语音存在概率都为0。
这一设计可以避免窄带干扰波动的影响,同时可以减少音乐噪声的存在,提高语音的可懂度与听觉舒适性。
其中,图3中的x1(l,k),x2(l,k)分别为两个麦克风采集到的信号,通过延迟相加波束形成器,得到N路波束Y1(l,k),Y2(l,k)……YN(l,k)。本专利均在短时傅立叶变换后的频域进行描述。
对N路波束Y1(l,k),Y2(l,k)...YN(l,k)进行平滑分别得到平滑功率谱SY1,SY2……SYN。其中,SY1即为对固定波束Y1通过平滑后得到的平滑功率谱,SY2……SYN同理。
计算平滑功率谱SY,然后跟踪搜索窗内的最小值,再将SY与搜索窗内最小值的比值与固定阈值5比较,如果小于阈值,判断此频点为噪声的概率为1,同时利用公式σ2(l,k)=ασ2(l-1,k)+(1-α)|Y(l,k)2|更新稳态噪声功率谱MY,否则σ2(l,k)=σ2(l-1,k),MY即等于σ2(l,k)。
图4中,Λ可以表示单路信号的稳定性,即语音存在判断,其值为0或1,当语音存在时取1为真,反之取0为假。具体地,语音存在判断方法为:首先计算平滑功率谱SY,然后跟踪搜索窗内的最小值minSY,再将SY与搜索窗内最小值minSY的比值与固定阈值5比较,如果小于阈值,判断此频点为语音的概率为0,即Λ取0;如果大于阈值,判断此频点为语音的概率为1,即Λ取1。图4的判断逻辑为:首先判断目标波束是否存在语音,如果Λtarget为假,说明期望语音的存在概率为0;当Λtarget为真,同时Λother为假,说明存在的语音必定为期望语音,即期望语音存在概率为1;当Λtarget和Λother都为真,那么期望语音存在概率由Ω决定,Ω=f(Ptarget,Pother)。
则期望语音存在概率P满足下式:
Figure BDA0001917695410000081
其中Ptarget为SYtarget/minSYtarget,Pother指的是SYother/minSYother,f(Ptarget,Pother)表示目标通道中期望语音存在概率由两者语音存在概率的比值决定。
对于每一帧,信号存在的全局可能性与可能包含期望语音频点的平均存在概率有关。因此定义全局存在指标:
Figure BDA0001917695410000082
当全局存在概率大于阈值ψ0时,由局部存在概率决定实际存在概率,当全局概率小于阈值时,认为这一帧所有频点的语音存在概率都为0。这一设计可以避免窄带干扰波动的影响,同时可以减少音乐噪声的存在,提高语音的可懂度与听觉舒适性。本专利涉及到的语音采样频率为16000Hz,离散傅立叶变换长度为512,k0为9,k1为113,ψ0为0.25。
在一些实施例中,采用目标波束比上干扰语音存在的波束,当单点干扰语音存在的时候可以更准确地估计语音存在概率,但是往往实际情况并非只有单点干扰一种噪声类型,这一方法仅适用一种情况,并不鲁棒,并且此方法会需要增加额外的计算量,需要额外判断干扰语音所在的波束。
在一些实施例中,利用广义旁瓣相消GSC(generalized sidelobe canceller)替换Delay-sum波束形成器。优点是可以获得更多的噪声消除,但是不可避免地引起更多的语音失真,因为双麦的阻塞矩阵不能很好地阻塞掉期望语音,使得噪声参考通道泄漏进语音,在GSC的部分会引起一次自消,同时会引入更多的计算量,需要增加一定的存储空间。
对于本专利提出的双麦语音增强系统,Delay-sum波束形成器能够提供一定的信噪比SNR(signal Noise Ratio)提升效果,并且与GSC相比可以减少计算量,减少需要的内存空间,并且不会引起语音失真;局部语音存在概率能够较好地区分期望语音与干扰语音,可以解决大多数算法难以克服的非稳态噪声消除情况,进一步提升SNR;全局语音存在概率的设计避免窄带干扰波动的影响,同时减少音乐噪声的现象,提高语音的可懂度与听觉舒适性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图5所示,为本发明的双通道语音增强装置500的一实施例的原理框图,该双通道语音增强装置500包括:
波束形成模块510,用于将接收自第一麦克风的第一声音信号和接收自第二麦克风的第二声音信号输入至延迟相加波束形成器,以得到N路波束;
波束确定模块520,用于确定待增强声音所在方向所对应的波束为目标波束,所述目标波束为所述N路波束之一;
存在概率计算模块530,用于根据所述目标波束和所述N路波束中的其他N-1路波束计算得到所述目标波束中存在所述待增强声音的存在概率;
波束增强模块540,用于基于所述存在概率对所述目标波束进行增强。在一些实施例中,所述波束增强模块540包括:更新单元,用于根据所述存在概率更新平稳噪声功率谱;信噪比计算单元,用于基于更新后的平稳噪声功率谱计算得到相应的先验信噪比;波束增强单元,用于基于所述先验信噪比,采用最优对数谱幅度增益函数对所述目标波束进行增强。
本实施例中,通过基于所接收到的双通道声音信号生成N路波束,并且在明确了目标波束的情况下,基于目标波束和参考波束联合计算确定期望语音(待增强声音)存在于目标波束,避免了期望语音泄露至参考通道中的问题,从而避免了来自其他方向语音的干扰,获得更高的信噪比,减轻了语音失真。
如图6所示,在一些实施例中,所述存在概率计算模块530包括:
平滑处理单元531,用于分别对所述目标波束和所述两路参考波束进行平滑处理以得到第一至第N平滑功率谱;
最小功率谱计算单元532,用于基于所述第一至第N平滑功率谱,计算得到第一至第N最小功率谱;
稳定度计算单元533用于根据所述第一至第N平滑功率谱和所述第一至第N最小功率谱确定对应于所述N路波束的第一至第N信号稳定度,所述第一信号稳定度对应于所述目标波束,所述第二至第N信号稳定度对应于所述其他N-1路波束;
存在概率确定单元534,用于基于所述第一至第N信号稳定度确定所述目标波束中存在所述待增强声音的存在概率。
本发明实施例中,利用目标波束的瞬态输出功率与空间中其他波束瞬态功率间的比值区分目标语音和非稳态噪声,避免对噪声参考通道的错误估计引起语音失真。
在一些实施例中,所述存在概率确定单元包括:局部概率确定元件,用于基于所述第一至第N信号稳定度确定所述目标波束中存在所述待增强声音的局部存在概率;全局概率确定元件,用于根据所述存在局部概率确定对应于当前帧的全局存在概率;第一存在概率确定元件,用于当所述全局存在概率大于设定阈值时,确定所述局部存在概率为所述存在概率;和第二存在概率确定元件,用于当所述全局存在概率不大于设定阈值时,确定所述存在概率为零。本实施例中可以避免窄带干扰波动的影响,同时可以减少音乐噪声的存在,提高语音的可懂度和听觉舒适性。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项双通道语音增强方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项双通道语音增强方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行双通道语音增强方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时双通道语音增强方法。
上述本发明实施例的双通道语音增强装置可用于执行本发明实施例的双通道语音增强方法,并相应的达到上述本发明实施例的实现双通道语音增强方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
图7是本申请另一实施例提供的执行双通道语音增强方法的电子设备的硬件结构示意图,如图7所示,该设备包括:
一个或多个处理器710以及存储器720,图7中以一个处理器710为例。
执行双通道语音增强方法的设备还可以包括:输入装置730和输出装置740。
处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器720作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的双通道语音增强方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例双通道语音增强方法。
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据双通道语音增强装置的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至双通道语音增强装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可接收输入的数字或字符信息,以及产生与双通道语音增强装置的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器720中,当被所述一个或者多个处理器710执行时,执行上述任意方法实施例中的双通道语音增强方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种双通道语音增强方法,包括:
将接收自第一麦克风的第一声音信号和接收自第二麦克风的第二声音信号输入至延迟相加波束形成器,以得到N路波束;
确定待增强声音所在方向所对应的波束为目标波束,所述目标波束为所述N路波束之一;
分别对所述目标波束和其他N-1路波束进行平滑处理以得到第一至第N平滑功率谱;基于所述第一至第N平滑功率谱,计算得到第一至第N搜索窗内最小功率谱;根据所述第一至第N功率谱和所述第一至第N最小功率谱确定对应于所述N路波束的第一至第N信号稳定度,所述第一信号稳定度对应于所述目标波束,所述第二至第N信号稳定度对应于所述其他N-1路波束;基于所述第一至第N信号稳定度确定所述目标波束中存在所述待增强声音的存在概率;
基于所述存在概率对所述目标波束进行增强。
2.根据权利要求1所述的方法,其中,所述基于所述第一至第N信号稳定度确定所述目标波束中存在所述待增强声音的存在概率包括:
基于所述第一至第N信号稳定度确定所述目标波束中存在所述待增强声音的局部存在概率;
根据所述局部存在概率确定对应于当前帧的全局存在概率;
当所述全局存在概率大于设定阈值时,确定所述局部存在概率为所述存在概率;
当所述全局存在概率不大于设定阈值时,确定所述存在概率为零。
3.根据权利要求1所述的方法,其中,所述基于所述存在概率对所述目标波束进行增强包括:
根据所述存在概率更新平稳噪声功率谱;
基于更新后的平稳噪声功率谱计算得到相应的先验信噪比;
基于所述先验信噪比,采用最优对数谱幅度增益函数对所述目标波束进行增强。
4.一种双通道语音增强装置,包括:
波束形成模块,用于将接收自第一麦克风的第一声音信号和接收自第二麦克风的第二声音信号输入至延迟相加波束形成器,以得到N路波束;
波束确定模块,用于确定待增强声音所在方向所对应的波束为目标波束,所述目标波束为所述N路波束之一;
存在概率计算模块,用于分别对所述目标波束和其他N-1路波束进行平滑处理以得到第一至第N平滑功率谱;基于所述第一至第N平滑功率谱,计算得到第一至第N搜索窗内最小功率谱;根据所述第一至第N功率谱和所述第一至第N最小功率谱确定对应于所述N路波束的第一至第N信号稳定度,所述第一信号稳定度对应于所述目标波束,所述第二至第N信号稳定度对应于所述其他N-1路波束;基于所述第一至第N信号稳定度确定所述目标波束中存在所述待增强声音的存在概率;
波束增强模块,用于基于所述存在概率对所述目标波束进行增强。
5.根据权利要求4所述的装置,其中,所述存在概率计算模块包括:
局部概率确定元件,用于基于所述第一至第N信号稳定度确定所述目标波束中存在所述待增强声音的局部存在概率;
全局概率确定元件,用于根据所述局部存在概率确定对应于当前帧的全局存在概率;
第一存在概率确定元件,用于当所述全局存在概率大于设定阈值时,确定所述局部存在概率为所述存在概率;
第二存在概率确定元件,用于当所述全局存在概率不大于设定阈值时,确定所述存在概率为零。
6.根据权利要求4所述的装置,其中,所述波束增强模块包括:
更新单元,用于根据所述存在概率更新平稳噪声功率谱;
信噪比计算单元,用于基于更新后的平稳噪声功率谱计算得到相应的先验信噪比;
波束增强单元,用于基于所述先验信噪比,采用最优对数谱幅度增益函数对所述目标波束进行增强。
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个5处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任意一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,该程序被0处理器执行时实现权利要求1-3中任意一项所述方法的步骤。
CN201811580223.4A 2018-12-24 2018-12-24 双通道语音增强方法及装置 Active CN109473118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811580223.4A CN109473118B (zh) 2018-12-24 2018-12-24 双通道语音增强方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811580223.4A CN109473118B (zh) 2018-12-24 2018-12-24 双通道语音增强方法及装置

Publications (2)

Publication Number Publication Date
CN109473118A CN109473118A (zh) 2019-03-15
CN109473118B true CN109473118B (zh) 2021-07-20

Family

ID=65676725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811580223.4A Active CN109473118B (zh) 2018-12-24 2018-12-24 双通道语音增强方法及装置

Country Status (1)

Country Link
CN (1) CN109473118B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755021B (zh) * 2019-04-01 2023-09-01 北京京东尚科信息技术有限公司 基于二元麦克风阵列的语音增强方法和装置
CN111833901B (zh) * 2019-04-23 2024-04-05 北京京东尚科信息技术有限公司 音频处理方法、音频处理装置、系统及介质
CN110265020B (zh) * 2019-07-12 2021-07-06 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质
CN110706719B (zh) * 2019-11-14 2022-02-25 北京远鉴信息技术有限公司 一种语音提取方法、装置、电子设备及存储介质
CN111063366A (zh) * 2019-12-26 2020-04-24 紫光展锐(重庆)科技有限公司 降低噪声的方法、装置、电子设备及可读存储介质
CN111445919B (zh) * 2020-03-13 2023-01-20 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、系统、电子设备和介质
CN111192569B (zh) * 2020-03-30 2020-07-28 深圳市友杰智新科技有限公司 双麦语音特征提取方法、装置、计算机设备和存储介质
CN111899752B (zh) * 2020-07-13 2023-01-10 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN112634930A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 多通道声音增强方法、装置及电子设备
CN112669869B (zh) * 2020-12-23 2022-10-21 紫光展锐(重庆)科技有限公司 噪声抑制方法、设备、装置及存储介质
CN113096684A (zh) * 2021-06-07 2021-07-09 成都启英泰伦科技有限公司 一种基于双麦克风阵列的目标语音提取方法
CN113393857A (zh) * 2021-06-10 2021-09-14 腾讯音乐娱乐科技(深圳)有限公司 一种音乐信号的人声消除方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192411A (zh) * 2007-12-27 2008-06-04 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
CN105869651A (zh) * 2016-03-23 2016-08-17 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
US20160275966A1 (en) * 2015-03-16 2016-09-22 Qualcomm Technologies International, Ltd. Correlation-based two microphone algorithm for noise reduction in reverberation
CN106782595A (zh) * 2016-12-26 2017-05-31 上海语知义信息技术有限公司 一种降低语音泄露的鲁棒阻塞矩阵方法
CN108922554A (zh) * 2018-06-04 2018-11-30 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192411A (zh) * 2007-12-27 2008-06-04 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
US20160275966A1 (en) * 2015-03-16 2016-09-22 Qualcomm Technologies International, Ltd. Correlation-based two microphone algorithm for noise reduction in reverberation
CN105869651A (zh) * 2016-03-23 2016-08-17 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
CN106782595A (zh) * 2016-12-26 2017-05-31 上海语知义信息技术有限公司 一种降低语音泄露的鲁棒阻塞矩阵方法
CN108922554A (zh) * 2018-06-04 2018-11-30 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TWO-CHANNEL SIGNAL DETECTION AND SPEECH ENHANCEMENT BASED ON THE TRANSIENT BEAM-TO-REFERENCE RATIO;Israel Cohen 等;《2003 IEEE International Conference on Acoustics, Speech, and Signal Processing》;20030528;第5卷;259-262 *

Also Published As

Publication number Publication date
CN109473118A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109473118B (zh) 双通道语音增强方法及装置
CN108922553B (zh) 用于音箱设备的波达方向估计方法及系统
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
EP3416407B1 (en) Signal processor
US9426566B2 (en) Apparatus and method for suppressing noise from voice signal by adaptively updating Wiener filter coefficient by means of coherence
CN101192411B (zh) 大距离麦克风阵列噪声消除的方法和噪声消除系统
WO2019112468A1 (en) Multi-microphone noise reduction method, apparatus and terminal device
CN107924684B (zh) 使用半盲自适应滤波器模型的通信终端的声学击键瞬态消除器
CN110261816B (zh) 语音波达方向估计方法及装置
US11245788B2 (en) Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
CN109102821B (zh) 时延估计方法、系统、存储介质及电子设备
CN109346062B (zh) 语音端点检测方法及装置
US10839820B2 (en) Voice processing method, apparatus, device and storage medium
CN110827858A (zh) 语音端点检测方法及系统
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
JP6190373B2 (ja) オーディオ信号ノイズ減衰
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
CN110890104B (zh) 语音端点检测方法及系统
CN115480214A (zh) 声源定位方法及电子设备和存储介质
CN112997249A (zh) 语音处理方法、装置、存储介质及电子设备
CN114220451A (zh) 音频消噪方法、电子设备和存储介质
CN110838307B (zh) 语音消息处理方法及装置
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
CN113870884B (zh) 单麦克风噪声抑制方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

GR01 Patent grant
GR01 Patent grant