CN109979478A - 语音降噪方法及装置、存储介质及电子设备 - Google Patents

语音降噪方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN109979478A
CN109979478A CN201910276116.0A CN201910276116A CN109979478A CN 109979478 A CN109979478 A CN 109979478A CN 201910276116 A CN201910276116 A CN 201910276116A CN 109979478 A CN109979478 A CN 109979478A
Authority
CN
China
Prior art keywords
signal
noise
frame
voice
noise ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910276116.0A
Other languages
English (en)
Inventor
何颖洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN201910276116.0A priority Critical patent/CN109979478A/zh
Publication of CN109979478A publication Critical patent/CN109979478A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开涉及音频数据处理技术领域,具体涉及一种语音降噪方法、语音降噪装置、存储介质及电子设备。所述方法包括:获取待处理语音信号,对所述待处理语音信号进行分帧和加窗处理;获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计;根据所述噪声估计结果获取各帧语音信号的先验信噪比和后验信噪比;利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。本公开中统计掩蔽滤波器对噪声估计后的语音信号中进行掩蔽处理,能够最大化的将残留的噪声掩盖,且不会产生格外的音乐噪声;进而有效的提升滤波效果,提升听感效果。

Description

语音降噪方法及装置、存储介质及电子设备
技术领域
本公开涉及音频数据处理技术领域,具体涉及一种语音降噪方法、语音降噪装置、存储介质及电子设备。
背景技术
随着互联网技术以及智能终端的快速发展,人们可以在室内、户外等多种环境下使用智能终端进行直播、游戏以及聊天等使用语音功能的活动。但不同环境下背景噪声多样且复杂,因此对用户进行语音时的噪声抑制的要求也越来越高。
现有的语音降噪方法一般利用降噪算法对麦克风获取的声音数据去除其中的背景噪声,从而保留语音数据。对于直播等场景中,常用的降噪算法例如基于Google公司的Webrtc的降噪模块(Webrtc_NS)。但其在实际使用过程中也存在一定的缺陷和不足,例如:对于现实环境中的噪声估计无法做到完全准确,而且采用判断引导法计算先验信噪比,在平滑频谱的同时也增加噪声估计的不准确性,滤波以后会残留部分噪声,在噪声大的时候尤其明显。另外,虽然采用维纳滤波器可以最大程度的减少计算量,但会产生额外的音乐噪声,导致听感的不适应,影响用户体验。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种语音降噪方法、一种语音降噪装置、存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种语音降噪方法,所述方法包括:
获取待处理语音信号,对所述待处理语音信号进行分帧和加窗处理;
获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计;
根据所述噪声估计结果获取各帧语音信号的先验信噪比和后验信噪比;
利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。
在本公开的一种示例性实施例中,所述基于掩蔽效应和所述先验信噪比、后验信噪比构建所述统计掩蔽滤波器,包括:
其中,β为信噪比压缩率,γk为后验信噪比,Γ(x)为gamma函数,Φ(a,b;z)为超值流体函数。
在本公开的一种示例性实施例中,所述利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理后,所述方法还包括:
计算掩蔽处理后的待处理语音信号的语音存在概率以消除残留噪声;其中,对于频点k的语音不存在概率估计包括:
qk=1-PNEAR(k)PGLOB(k)PTOTAL(k)
其中,PNEAR(k)为局部语音存在概率,PGLOB(k)为全局语音存在概率,PTOTAL(k)为全频点。
在本公开的一种示例性实施例中,所述获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计包括:
计算各帧语音信号的幅度谱和功率谱,以根据幅度谱和功率谱进行分位数初步噪声估计。
在本公开的一种示例性实施例中,所述预设特征参数包括:频域差异参数、频域平坦度参数和广义似然比;在计算分位数初步噪声估计后,所述方法还包括:
根据所述幅度谱、功率谱计算各帧语音信号的频域差异参数和频域平坦度参数;
根据所述分位数初步噪声估算各帧语音信号的信噪比,以根据所述信噪比判断是否需要更新所述特征参数;其中,所述信噪比包括先验信噪比和后验信噪比;
在判断需要更新所述特征参数时,计算广义似然比参数以根据所述频域差异参数、频域平坦度参数和广义似然比参数更新噪声估计。
在本公开的一种示例性实施例中,所述根据所述噪声估计结果获取各帧语音信号的先验信噪比、后验信噪比包括:
根据更新后的噪声估计各帧语音信号的先验信噪比、后验信噪比。
在本公开的一种示例性实施例中,所述对所述待处理音频信息进行分帧、加窗处理之后,所述方法还包括:
计算当前帧语音信号中能量,并判断是否为零;
在判断当前帧语音信号能量为零时,则输出该当前帧语音信号。
根据本公开的第二方面,提供一种语音降噪装置,包括:
初步处理模块,用于获取待处理语音信号,对所述待处理语音信号进行分帧、加窗处理;
噪声估计模块,用于获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计;
信噪比计算模块,用于根据所述噪声估计结果获取各帧语音信号的先验信噪比、后验信噪比;
掩蔽降噪模块,用于利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。
根据本公开的第三方面,提供一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的语音降噪方法。
根据本公开的第四方面,提供一种电子终端,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行以下操作:
获取待处理语音信号,对所述待处理语音信号进行分帧、加窗处理;
获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计;
根据所述噪声估计结果获取各帧语音信号的先验信噪比、后验信噪比;
利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。
本公开的一种实施例所提供的方法,通过提取语音信号的预设特征参数,并进行初步噪声估计;并基于掩蔽效应和所述先验信噪比、后验信噪比构建统计掩蔽滤波器,利用该统计掩蔽滤波器对噪声估计后的语音信号中进行掩蔽处理,能够最大化的将残留的噪声掩盖,且不会产生格外的音乐噪声;进而有效的提升滤波效果,提升听感效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种语音降噪方法的流程示意图;
图2示意性示出本公开示例性实施例中一种判断一帧语音信号中是否存在声音数据的方法示意图;
图3示意性示出本公开示例性实施例中一种语音降噪方法的流程示意图;
图4示意性示出本公开示例性实施例中一种场景音效混响控制装置示意图;
图5示意性示出本公开示例性实施例中一种电子设备的框图。
图6示意性示出本公开示例性实施例中用于信息处理的一种程序产品。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式中首先提供了一种语音降噪方法,可以应用于网络直播、实时语音通话、语音聊天等应用场景中,对于实时语音信号的噪声消除。参考图1所示,上述的语音降噪方法可以包括以下步骤:
步骤S1,获取待处理语音信号,对所述待处理语音信号进行分帧和加窗处理;
步骤S2,获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计;
步骤S3,根据所述噪声估计结果获取各帧语音信号的先验信噪比和后验信噪比;
步骤S4,利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。
本示例实施方式所提供的语音降噪方法,通过提取语音信号的预设特征参数,并进行初步噪声估计;并基于掩蔽效应和所述先验信噪比、后验信噪比构建统计掩蔽滤波器,利用该统计掩蔽滤波器对噪声估计后的语音信号中进行掩蔽处理,能够最大化的将残留的噪声掩盖,且不会产生格外的音乐噪声;进而有效的提升滤波效果,提升听感效果。
下面,将结合附图及实施例对本示例实施方式中的语音降噪方法的各个步骤进行更详细的说明。
在步骤S1中,获取待处理语音信号,对所述待处理语音信号进行分帧和加窗处理。
本示例实施方式中,可以利用麦克风采集待处理的语音信号,待处理的语音信号可以是网络直播时、或者语音通话时产生的语音信号。语音信号中可以包括背景噪声和语音信号,其中,背景噪声可以是不同的噪声信号,例如,在室外时用户所在环境中的环境噪声、车辆噪声、人声噪声或工业噪声等。
在采集到待处理语音信号后,便可以对其进行分帧加窗处理。通过分帧处理,可以将待处理的语音信号分为连续的多个短段。此外,还可以使各帧的语音信号长度相同,例如,以长度10-30ms作为各语音帧的长度,从而使各帧待处理语音信号具有较好的短时平稳性。
当然,在本公开的其他示例性实施例中,在进行分帧处理时,还可以使相邻帧之间保留相互重叠的部分,即设置一定的帧移,从而方便后续为各帧语音信号进行加窗处理。
在对待处理语音信号分帧处理后,还可以对各帧待处理语音信号进行加窗处理。具体来说,可以将各帧待处理语音信号与预设的窗函数相乘,便于后续进行傅里叶展开。举例来说,窗函数可以是矩形窗函数或者汉明窗函数等。通过加窗处理,可以使待处理语音信号全局更加连续,避免出现吉布斯效应;并能够使原本没有周期性的待处理语音信号呈现出周期函数的部分特征。
在一优选的实施例中,对所述待处理音频信息进行分帧、加窗处理之后,参考图2所示,所述方法还包括:
步骤S111,计算当前帧语音信号中能量,并判断是否为零;
步骤S112,在判断当前帧语音信号能量为零时,则输出该当前帧语音信号。
本示例实施方式中,可以对加窗处理后的各帧语音信号中的能量进行计算,即判断各帧待处理语音信号为空,或者包含音频数据。举例来说,可以对各帧代理处理语音信号进行采样,并计算短时能量的方式;或者采用其他常规手段来计算,本公开对计算帧语音信号能量的具体方式不做特殊限定。或者,在本公开的其他示例性实施例中,还可以预先训练一分类器,利用该分类器对各帧语音信号中能量是否为零进行判断。
若计算并识别到一帧语音信号中能量不为零,则说明该帧中含有声音数据,对该帧待处理语音信号进行后续处理;若识别到一帧待处理语音信号中能量为零,则说明书该帧中没有声音数据,便可以将该帧待处理声音信号直接输出,从而减小对资源的消耗。
步骤S2,获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计。
本示例实施方式中,在对每一帧语音信号的能量进行判断后,便可以对包含语音数据的每一帧语音信号计算幅度谱和/或功率谱,从而获取每一帧语音信号的频域差异性特征和频域平坦度特征。并根据幅度谱和/或功率谱对每一帧语音信号进行分位数初步噪声估计,得到每一个语音帧中噪声的功率估计值。
此外,基于上述内容,在本示例实施方式中,在获取分位数初步噪声估计后,上述的方法还可以包括:
步骤S211,根据所述幅度谱、功率谱计算各帧语音信号的频域差异参数和频域平坦度参数;
步骤S212,根据所述分位数初步噪声估算各帧语音信号的信噪比,以根据所述信噪比判断是否需要更新所述特征参数;其中,所述信噪比包括先验信噪比和后验信噪比。
步骤S213,在判断需要更新所述特征参数时,计算广义似然比参数以根据所述频域差异参数、频域平坦度参数和广义似然比参数更新噪声估计。
步骤S3,根据所述噪声估计结果获取各帧语音信号的先验信噪比和后验信噪比。
本示例实施方式中,在对分位数初步噪声估计更新后,便可以根据更新后的噪声估计结果确定最终的先验信噪比和后验信噪比。其中,对于上述的信噪比、广义似然比及噪声估计,可以利用常规的计算公式获取,本公开对此不再赘述。
步骤S4,利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。
本示例实施方式中,可以首先基于掩蔽效应和信噪比的统计模型构建统计掩蔽滤波器。具体来说,由于人耳听觉模型不容易分辨频谱高能量区域的量化噪声,因此可以利用掩蔽效应通过修正损失函数,使得共振峰附近少一些加重,而在任何一点噪声都可听出来的谱谷多一些加重,参数为β。同时,损失函数的权重p也根据掩蔽效应进行相应的自适应。因此,损失函数可以包括:
对于参数p,根据听阈曲线,求得不同频率的掩蔽阈值T(l,k),则每个子带的听觉感知参数为:
综合子带听觉感知参数和子带信噪比,则可以得到参数p为:
其中,Ξ(b,k)为子带信噪比;为常量系数。
对于参数β,子带频率位置函数包括:
压缩率为:
根据子带信噪比Ξ(b,k)可以得到信噪比相关的压缩率为:
其中,μ、η为常量。
整合β(b,k)和可以得到最终的压缩率为:
其中,ε(b,k)由ΘTh(l,k)通过计算获得。
基于上述内容,最终语音估计值X'k与带噪语音Yk的关系为:
其中,γk为后验信噪比,Γ(x)为gamma函数(伽马函数),φ(a,b;z)为超流体函数。
因此,统计掩蔽滤波器Hk为:
其中,β为信噪比压缩率,γk为后验信噪比,Γ(x)为gamma函数,Φ(a,b;z)为超值流体函数。
由于统计掩蔽滤波器的构造是基于掩蔽效应,因此对于人耳的听觉效果而言,能最大程度的将掩盖残留噪声。同时,由于是通过对统计模型推导获取,在滤波后可以不产生额外的音乐噪声,有效的降低噪声。
进一步的,在本公开的一示例性实施例中,在利用统计掩蔽滤波器对各帧语音信号进行掩蔽处理后,上述的方法还可以包括:
步骤S5,计算掩蔽处理后的待处理语音信号的语音存在概率以消除残留噪声。
本示例实施方式中,为了对经过统计掩蔽滤波器滤波后的信号进行进一步的修正,并消除残留噪声,还可以对滤波后的信号进行语音存在概率的后处理,利用连续帧的相邻频点之间的强相关性,对各帧语音信号中语音不存在概率进行估计。具体来说,对于频点k的语音不存在概率估计包括:
qk=1-PNEAR(k)PGLOB(k)PTOTAL(k)
其中,PNEAR(k)为局部语音存在概率,PGLOB(k)为全局语音存在概率,PTOTAL(k)为全频点。
通过在频域分别对先验概率值在较小临近频点和较多临近频点上进行平均得到。默认PNEAR(k)为两个相邻的频点,默认PGLOB(k)为相邻15个频点,PTOTAL(k)为全频点,也可以语音范围内的全频点(500Hz-3400Hz),并用于在纯噪声帧进一步抑制噪声。PTOTAL(k)项也用于演唱语音主导帧到噪声主导帧之间的过渡。基于上述内容可以得知,PNEAR(k)、PGLOB(k)和PTOTAL(k)中若存在一个小值(比如,小于预设门限值),则语音不存在概率会提高,便可以极大地抑制噪声。
在对滤波后的语音信号进行语音存在概率的后处理后,便可以将各帧语音信号进行语音合成处理,并可以进一步的进行幅度修正,从而实现对语音信号的中噪声的有效抑制。
本公开上述实施例提供的语音降噪方法中,对于降噪后的语音信号,其滤波效果可以基于听感进行评价。因此,对应统计掩蔽滤波器的效果,可以采用频域的分段信噪比(fwSNRseg)作为评价标准。其中,分段信噪比(fwSNRseg)包括:
对比本发明中实施例中的统计掩蔽滤波器和现有技术的维纳滤波器,发现fwSNRseg有一定的提升,即统计掩蔽滤波器能改善音乐噪声的情况。并且,由于统计掩蔽滤波器基于掩蔽效应,通过主观听处理后的信号,采用统计掩蔽滤波器确实能有更好的听感效果。
此外,在对滤波后的语音信号进行语音存在概率的后处理后,可以发现fwSNRseg有进一步的提升。并且计算PESQ(perceptual evaluation of speech quality,作为ITU-TP.862建议,评价听感的标准)表明,增加语音存在概率模块对PESQ的影响极小(0.1左右)。即,对滤波后的信号进行语音存在概率的后处理可以进一步的提升滤波效果、消除残留噪声,且不影响听感。
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
进一步的,参考图4所示,本示例的实施方式中还提供了一种语音降噪装置40,包括:初步处理模块401、噪声估计模块402、信噪比计算模块403以及掩蔽降噪模块404。其中:
所述初步处理模块401可以用于获取待处理语音信号,对所述待处理语音信号进行分帧、加窗处理。
所述噪声估计模块402可以用于获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计。
所述信噪比计算模块403可以用于根据所述噪声估计结果获取各帧语音信号的先验信噪比、后验信噪比。
所述掩蔽降噪模块404可以用于利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。
进一步的,在一示例性实施方式中,上述装置还包括:后处理模块(图中未示出)。
所述后处理模块可以用于计算掩蔽处理后的待处理语音信号的语音存在概率以消除残留噪声。
其中,对于频点k的语音不存在概率估计包括:
qk=1-PNEAR(k)PGLOB(k)PTOTAL(k)
其中,PNEAR(k)为局部语音存在概率,PGLOB(k)为全局语音存在概率,PTOTAL(k)为全频点。
进一步的,在一示例性实施方式中,上述装置还包括:参数计算模块、特征参数更新模块以及噪声估计更新模块(图中未示出)。其中,
所述参数计算模块可以用于根据所述幅度谱、功率谱计算各帧语音信号的频域差异参数和频域平坦度参数。
所述特征参数更新模块可以用于根据所述分位数初步噪声估算各帧语音信号的信噪比,以根据所述信噪比判断是否需要更新所述特征参数;其中,所述信噪比包括先验信噪比和后验信噪比。
所述噪声估计更新模块可以用于在判断需要更新所述特征参数时,计算广义似然比参数以根据所述频域差异参数、频域平坦度参数和广义似然比参数更新噪声估计。
进一步的,在一示例性实施方式中,上述装置还包括:信噪比更新模块(图中未示出)。
所述信噪比更新模块可以用于根据更新后的噪声估计各帧语音信号的先验信噪比、后验信噪比。
进一步的,在一示例性实施方式中,上述装置还包括:帧识别模块(图中未示出)。
所述帧识别模型可以用于计算当前帧语音信号中能量,并判断是否为零;并在判断当前帧语音信号能量为零时,则输出该当前帧语音信号。
上述的语音降噪装置中各模块的具体细节已经在对应的语音降噪方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (10)

1.一种语音降噪方法,其特征在于,所述方法包括:
获取待处理语音信号,对所述待处理语音信号进行分帧和加窗处理;
获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计;
根据所述噪声估计结果获取各帧语音信号的先验信噪比和后验信噪比;
利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。
2.根据权利要求1所述的方法,其特征在于,所述基于掩蔽效应和所述先验信噪比、后验信噪比构建所述统计掩蔽滤波器,包括:
其中,β为信噪比压缩率,γk为后验信噪比,Γ(x)为gamma函数,Φ(a,b;z)为超值流体函数。
3.根据权利要求1所述的方法,其特征在于,所述利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理后,所述方法还包括:
计算掩蔽处理后的待处理语音信号的语音存在概率以消除残留噪声;其中,对于频点k的语音不存在概率估计包括:
qk=1-PNEAR(k)PGLOB(k)PTOTAL(k)
其中,PNEAR(k)为局部语音存在概率,PGLOB(k)为全局语音存在概率,PTOTAL(k)为全频点。
4.根据权利要求1所述的方法,其特征在于,所述获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计包括:
计算各帧语音信号的幅度谱和功率谱,以根据幅度谱和功率谱进行分位数初步噪声估计。
5.根据权利要求4所述的方法,其特征在于,所述预设特征参数包括:频域差异参数、频域平坦度参数和广义似然比;在计算分位数初步噪声估计后,所述方法还包括:
根据所述幅度谱、功率谱计算各帧语音信号的频域差异参数和频域平坦度参数;
根据所述分位数初步噪声估算各帧语音信号的信噪比,以根据所述信噪比判断是否需要更新所述特征参数;其中,所述信噪比包括先验信噪比和后验信噪比;
在判断需要更新所述特征参数时,计算广义似然比参数以根据所述频域差异参数、频域平坦度参数和广义似然比参数更新噪声估计。
6.根据权利要求5所述的方法,其特征在于,所述根据所述噪声估计结果获取各帧语音信号的先验信噪比、后验信噪比包括:
根据更新后的噪声估计各帧语音信号的先验信噪比、后验信噪比。
7.根据权利要求1所述方法,其特征在于,所述对所述待处理音频信息进行分帧、加窗处理之后,所述方法还包括:
计算当前帧语音信号中能量,并判断是否为零;
在判断当前帧语音信号能量为零时,则输出该当前帧语音信号。
8.一种语音降噪装置,其特征在于,包括:
初步处理模块,用于获取待处理语音信号,对所述待处理语音信号进行分帧、加窗处理;
噪声估计模块,用于获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计;
信噪比计算模块,用于根据所述噪声估计结果获取各帧语音信号的先验信噪比、后验信噪比;
掩蔽降噪模块,用于利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。
9.一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至7中任一项所述的语音降噪方法。
10.一种电子终端,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行以下操作:
获取待处理语音信号,对所述待处理语音信号进行分帧、加窗处理;
获取各帧语音信号的预设特征参数,以根据所述特征参数计算各帧语音信号的噪声估计;
根据所述噪声估计结果获取各帧语音信号的先验信噪比、后验信噪比;
利用统计掩蔽滤波器对各帧语音信号中的噪声进行掩蔽处理;其中,所述统计掩蔽滤波器基于掩蔽效应和所述先验信噪比、后验信噪比构建。
CN201910276116.0A 2019-04-08 2019-04-08 语音降噪方法及装置、存储介质及电子设备 Pending CN109979478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910276116.0A CN109979478A (zh) 2019-04-08 2019-04-08 语音降噪方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910276116.0A CN109979478A (zh) 2019-04-08 2019-04-08 语音降噪方法及装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN109979478A true CN109979478A (zh) 2019-07-05

Family

ID=67083371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910276116.0A Pending CN109979478A (zh) 2019-04-08 2019-04-08 语音降噪方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109979478A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517708A (zh) * 2019-09-02 2019-11-29 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
CN111128214A (zh) * 2019-12-19 2020-05-08 网易(杭州)网络有限公司 音频降噪方法、装置、电子设备及介质
CN111179957A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 一种语音通话的处理方法以及相关装置
CN111210817A (zh) * 2019-12-30 2020-05-29 深圳市优必选科技股份有限公司 数据处理方法及装置
CN111429927A (zh) * 2020-03-11 2020-07-17 云知声智能科技股份有限公司 提升个性化合成语音质量的方法
WO2021057239A1 (zh) * 2019-09-23 2021-04-01 腾讯科技(深圳)有限公司 语音数据的处理方法、装置、电子设备及可读存储介质
WO2021179424A1 (zh) * 2020-03-13 2021-09-16 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、系统、电子设备和介质
CN113973250A (zh) * 2021-10-26 2022-01-25 恒玄科技(上海)股份有限公司 一种噪声抑制方法、装置及辅听耳机
CN113987843A (zh) * 2021-12-27 2022-01-28 四川创智联恒科技有限公司 一种数字信号处理系统中抑制吉布斯效应的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778322A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN103650040A (zh) * 2011-05-16 2014-03-19 谷歌公司 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置
CN103824562A (zh) * 2014-02-10 2014-05-28 太原理工大学 基于心理声学模型的语音后置感知滤波器
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN105869649A (zh) * 2015-01-21 2016-08-17 北京大学深圳研究院 感知滤波方法和感知滤波器
CN106356071A (zh) * 2016-08-30 2017-01-25 广州市百果园网络科技有限公司 一种噪声检测方法,及装置
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778322A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
CN103650040A (zh) * 2011-05-16 2014-03-19 谷歌公司 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN103824562A (zh) * 2014-02-10 2014-05-28 太原理工大学 基于心理声学模型的语音后置感知滤波器
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN105869649A (zh) * 2015-01-21 2016-08-17 北京大学深圳研究院 感知滤波方法和感知滤波器
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN106356071A (zh) * 2016-08-30 2017-01-25 广州市百果园网络科技有限公司 一种噪声检测方法,及装置
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ERIC PLOURDE: ""Auditory-based spectral amplitude estimators for speech enhancement"", 《IEEE TRANSACTIONS ON AUDIO,SPEECH, AND LANGUAGE PROCESSING》 *
PHILIPOS C. LOIZOU: ""speech enhancement based on perceptually motivated Bayesian estimators of the magnitude spectrum"", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 *
VOLKER STAHL: ""quantile based noise estimation for spectral subtraction and wiener filtering"", 《2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS(CAT.NO.00CH37100)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517708A (zh) * 2019-09-02 2019-11-29 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
CN110517708B (zh) * 2019-09-02 2024-06-07 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
US12039987B2 (en) 2019-09-23 2024-07-16 Tencent Technology (Shenzhen) Company Limited Speech data processing method and apparatus, electronic device, and readable storage medium
WO2021057239A1 (zh) * 2019-09-23 2021-04-01 腾讯科技(深圳)有限公司 语音数据的处理方法、装置、电子设备及可读存储介质
CN111128214A (zh) * 2019-12-19 2020-05-08 网易(杭州)网络有限公司 音频降噪方法、装置、电子设备及介质
CN111210817A (zh) * 2019-12-30 2020-05-29 深圳市优必选科技股份有限公司 数据处理方法及装置
CN111179957A (zh) * 2020-01-07 2020-05-19 腾讯科技(深圳)有限公司 一种语音通话的处理方法以及相关装置
CN111179957B (zh) * 2020-01-07 2023-05-12 腾讯科技(深圳)有限公司 一种语音通话的处理方法以及相关装置
CN111429927B (zh) * 2020-03-11 2023-03-21 云知声智能科技股份有限公司 提升个性化合成语音质量的方法
CN111429927A (zh) * 2020-03-11 2020-07-17 云知声智能科技股份有限公司 提升个性化合成语音质量的方法
WO2021179424A1 (zh) * 2020-03-13 2021-09-16 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、系统、电子设备和介质
CN113973250A (zh) * 2021-10-26 2022-01-25 恒玄科技(上海)股份有限公司 一种噪声抑制方法、装置及辅听耳机
CN113973250B (zh) * 2021-10-26 2023-12-08 恒玄科技(上海)股份有限公司 一种噪声抑制方法、装置及辅听耳机
CN113987843A (zh) * 2021-12-27 2022-01-28 四川创智联恒科技有限公司 一种数字信号处理系统中抑制吉布斯效应的方法

Similar Documents

Publication Publication Date Title
CN109979478A (zh) 语音降噪方法及装置、存储介质及电子设备
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
CN107910011B (zh) 一种语音降噪方法、装置、服务器及存储介质
US20200265857A1 (en) Speech enhancement method and apparatus, device and storage mediem
US9536540B2 (en) Speech signal separation and synthesis based on auditory scene analysis and speech modeling
KR101099339B1 (ko) 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
EP3866165B1 (en) Method for enhancing telephone speech signals based on convolutional neural networks
CN110853664B (zh) 评估语音增强算法性能的方法及装置、电子设备
CN111418010A (zh) 一种多麦克风降噪方法、装置及终端设备
CN109036460B (zh) 基于多模型神经网络的语音处理方法和装置
EP3899936B1 (en) Source separation using an estimation and control of sound quality
RU2665916C2 (ru) Оценивание фонового шума в аудиосигналах
JP2014137405A (ja) 音響処理装置及び音響処理方法
Hendriks et al. Optimal near-end speech intelligibility improvement incorporating additive noise and late reverberation under an approximation of the short-time SII
Hansen et al. Speech enhancement based on generalized minimum mean square error estimators and masking properties of the auditory system
CN113539285B (zh) 音频信号降噪方法、电子装置和存储介质
Chang et al. Speech enhancement: new approaches to soft decision
WO2024139120A1 (zh) 一种用于带噪语音信号的处理恢复方法和控制系统
CN110875049A (zh) 语音信号的处理方法及装置
JP2003177770A (ja) 音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法
CN112002307B (zh) 一种语音识别方法和装置
JP2005258158A (ja) ノイズ除去装置
Uhle et al. Speech enhancement of movie sound
CN115273880A (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705

RJ01 Rejection of invention patent application after publication