CN115171714A - 一种语音增强方法、装置、电子设备及存储介质 - Google Patents
一种语音增强方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115171714A CN115171714A CN202210706406.6A CN202210706406A CN115171714A CN 115171714 A CN115171714 A CN 115171714A CN 202210706406 A CN202210706406 A CN 202210706406A CN 115171714 A CN115171714 A CN 115171714A
- Authority
- CN
- China
- Prior art keywords
- voice
- amplitude spectrum
- noise
- speech
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001228 spectrum Methods 0.000 claims abstract description 211
- 230000000873 masking effect Effects 0.000 claims abstract description 51
- 238000003062 neural network model Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 230000008447 perception Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 26
- 230000000694 effects Effects 0.000 abstract description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000002708 enhancing effect Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Noise Elimination (AREA)
Abstract
本申请提供了一种语音增强方法、装置、电子设备及存储介质,属于语音处理技术领域。本申请通过,获取带噪语音信号对应的第一带噪语音幅度谱,并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理,得到第二带噪语音幅度谱;将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型,以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;基于所述语音幅度谱和所述噪声幅度谱,确定时频掩蔽值;基于所述时频掩蔽值和所述第二带噪语音幅度谱,确定增强语音幅度谱。相对于传统的语音增强算法,本申请中利用深度神经网络模型实现语音增强,可以提高对非平稳噪声的处理能力,从而保证对非平稳噪声的处理效果。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音增强方法、装置、电子设备及存储介质。
背景技术
随着语音识别技术的高速发展,语音识别技术已被应用于智能硬件、智能电话客服等多种场景,因为其识别结果准确性与工作效率和用户交互体验息息相关,人们对语音识别的效果的要求也越来越高。目前,由于语音识别的应用场景基本都与用户日常生活需求和工作需求有关,无法保证输入语音信号是纯净、无噪音的语音,导致在识别一些背景环境有噪音的语音时,噪音干扰了语音信号的质量,导致识别结果不准确,影响了用户在人机交互、音频文字转写的过程中的效率。因此,针对解决复杂噪声环境中的音频噪音干扰的语音增强技术成为了语音识别技术中的关键部分。
传统语音增强方案主要包括:谱减法、基于统计模型的增强算法和子空间增强算法。谱减法假设噪声为加性噪声,然后从带噪语音的语音谱中减去对噪声谱的估计,最后得到干净语音。维纳滤波算法和最小均方误差算法是基于统计模型增强算法的代表,相对于谱减法,维纳滤波法算法处理后的语音信号中的残留噪声类似白噪声,听觉上让人更加舒适。最小均方误差算法利用语音信号的短时频谱振幅在感知中的重要作用,并利用最小均方误差的短时频谱振幅估计器来增强带噪语音。子空间增强算法主要源自于线性代数理论,其原理是将带噪信号的向量空间分解到两个子空间以完成语音增强的任务。
然而,传统的语音增强算法大多假设语音信号是平稳的,对非平稳噪声的处理能力较弱,无法保证对非平稳噪声的处理效果。
发明内容
本申请实施例的目的在于提供一种语音增强方法、装置、电子设备及存储介质,以解决传统的语音增强算法对非平稳噪声的处理能力较弱的问题。具体技术方案如下:
第一方面,提供了一种语音增强方法,所述方法包括:
获取带噪语音信号对应的第一带噪语音幅度谱,并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理,得到第二带噪语音幅度谱;
将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型,以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;
基于所述语音幅度谱和所述噪声幅度谱,确定时频掩蔽值;
基于所述时频掩蔽值和所述第二带噪语音幅度谱,确定增强语音幅度谱。
在一个可能的实施方式中,所述方法还包括:
获取带噪语音信号对应的相位,并利用所述相位对所述增强语音幅度谱进行波形重构,得到对应的语音文件。
在一个可能的实施方式中,所述基于所述语音幅度谱和所述噪声幅度谱,确定时频掩蔽值,包括:
将所述语音幅度谱和所述噪声幅度谱代入预设第一公式中,得到所述时频掩蔽值,其中,所述预设第一公式如下:
在一个可能的实施方式中,所述基于所述时频掩蔽值和所述第二带噪语音幅度谱,确定增强语音幅度谱,包括:
将所述时频掩蔽值和所述第二带噪语音幅度谱代入预设第二公式中,得到所述增强语音幅度谱,其中,所述预设第二公式如下:
在一个可能的实施方式中,所述方法还包括:
在语音离散傅里叶变换系数服从卡方分布假设的条件下,推导出基于听觉感知特性广义加权的贝叶斯估计器,将所述基于听觉感知特性广义加权的贝叶斯估计器作为所述预设贝叶斯估计器。
在一个可能的实施方式中,所述方法还包括:
获取样本语音信号对应的样本带噪语音幅度谱和纯净语音特征;
利用所述预设贝叶斯估计器对所述样本带噪语音幅度谱进行预处理,得到目标带噪语音幅度谱;
将所述纯净语音特征作为训练标签、所述目标带噪语音幅度谱作为模型输入,采用误差逆传播算法和最小均方误差的代价函数对所述深度神经网络模型进行训练,直到代价函数收敛,得到训练好的深度神经网络模型。
第二方面,提供了一种语音增强装置,所述装置包括:
信号获取模块,用于获取带噪语音信号对应的第一带噪语音幅度谱,并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理,得到第二带噪语音幅度谱;
幅度谱输入模块,用于将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型,以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;
第一确定模块,用于基于所述语音幅度谱和所述噪声幅度谱,确定时频掩蔽值;
第二确定模块,用于基于所述时频掩蔽值和所述第二带噪语音幅度谱,确定增强语音幅度谱。
在一个可能的实施方式中,所述装置还包括:
重构模块,用于获取带噪语音信号对应的相位,并利用所述相位对所述增强语音幅度谱进行波形重构,得到对应的语音文件。
在一个可能的实施方式中,所述第一确定模块,具体用于:
将所述语音幅度谱和所述噪声幅度谱代入预设第一公式中,得到所述时频掩蔽值其中所述预设第一公式如下:
在一个可能的实施方式中,第二确定模块,具体用于:
将所述时频掩蔽值和所述第二带噪语音幅度谱代入预设第二公式中,得到所述增强语音幅度谱,其中,所述预设第二公式如下:
在一个可能的实施方式中,所述装置还包括:
推导模块,用于在语音离散傅里叶变换系数服从卡方分布假设的条件下,推导出基于听觉感知特性广义加权的贝叶斯估计器,将所述基于听觉感知特性广义加权的贝叶斯估计器作为所述预设贝叶斯估计器。
在一个可能的实施方式中,所述所述装置还包括:
样本获取模块,用于获取样本语音信号对应的样本带噪语音幅度谱和纯净语音特征;
预处理模块,用于利用所述预设贝叶斯估计器对所述样本带噪语音幅度谱进行预处理,得到目标带噪语音幅度谱;
模型训练模块,用于将所述纯净语音特征作为训练标签、所述目标带噪语音幅度谱作为模型输入,采用误差逆传播算法和最小均方误差的代价函数对所述深度神经网络模型进行训练,直到代价函数收敛,得到训练好的深度神经网络模型。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的语音增强方法。
本申请实施例有益效果:
本申请实施例提供了一种语音增强方法、装置、电子设备及存储介质,本申请通过,首先,利用预设的贝叶斯估计器对带噪语音信号对应的带噪语音幅度谱进行预处理,从而使带噪语音信号残留的噪声类型相对统一,在一定程度上减少后续网络网络模型的处理时间和数据量;然后,将经过预处理的带噪语音幅度谱输入至深度神经网络模型,以使深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;最后,基于语音幅度谱和噪声幅度谱,确定时频掩蔽值;并基于时频掩蔽值和经过预处理的带噪语音幅度谱,确定增强语音幅度谱。由于深度神经网络对语音和噪声的非线性关系具有良好的描述能力,因此,相对于传统的语音增强算法,本申请中利用深度神经网络模型实现语音增强,可以提高对非平稳噪声的处理能力,从而保证对非平稳噪声的处理效果。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语音增强方法的流程图;
图2为本申请另一实施例提供的一种语音增强方法的流程图;
图3为本申请实施例提供的一种语音增强方法处理流程;
图4为本申请实施例提供的一种语音增强装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于,传统的语音增强算法大多假设语音信号是平稳的,对非平稳噪声的处理能力较弱,无法保证对非平稳噪声的处理效果。为此,本申请实施例提供了一种语音增强方法。
下面将结合具体实施方式,对本申请实施例提供的一种语音增强方法进行详细的说明,如图1所示,具体步骤如下:
S101,获取带噪语音信号对应的第一带噪语音幅度谱,并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理,得到第二带噪语音幅度谱。
在本申请实施例中,带噪语音信号可以理解为原始语音信号。由于原始语音信号中噪声类型较多,因此,本申请实施例中,可以利用利用预设贝叶斯估计器对带噪语音信号对应的第一带噪语音幅度谱进行预处理,得到第二带噪语音幅度谱,从而使带噪语音信号残留的噪声类型也相对统一。进而,将第二带噪语音幅度谱作为深度神经网络模型的输入,可以在一定程度上减少深度神经网络模型的处理时间和数据处理量。
S102,将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型,以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱。
在本申请实施例中,深度神经网络可以是DRNN(recurrent neural network,深度循环神经网络)。具体的,将第二带噪语音幅度谱输入至预先训练好的深度神经网络模型中,由深度神经网络模型输出对应的语音幅度谱和噪声幅度谱。
S103,基于所述语音幅度谱和所述噪声幅度谱,确定时频掩蔽值。
在本申请实施例中,可以基于语音幅度谱和噪声幅度谱计算时频掩蔽值,具体为:将所述语音幅度谱和所述噪声幅度谱代入预设第一公式中,得到所述时频掩蔽值,其中,所述预设第一公式如下:
S104,基于所述时频掩蔽值和所述第二带噪语音幅度谱,确定增强语音幅度谱。
在本申请实施例中,可以基于时频掩蔽值和第二带噪语音幅度谱确定增强语音幅度谱,具体为:
将所述时频掩蔽值和所述第二带噪语音幅度谱代入预设第二公式中,得到所述增强语音幅度谱,其中,所述预设第二公式如下:
本申请实施例中,首先,利用预设的贝叶斯估计器对带噪语音信号对应的带噪语音幅度谱进行预处理,从而使带噪语音信号残留的噪声类型相对统一,在一定程度上减少后续网络网络模型的处理时间和数据量;然后,将经过预处理的带噪语音幅度谱输入至深度神经网络模型,以使深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;最后,基于语音幅度谱和噪声幅度谱,确定时频掩蔽值;并基于时频掩蔽值和经过预处理的带噪语音幅度谱,确定增强语音幅度谱。由于深度神经网络对语音和噪声的非线性关系具有良好的描述能力,因此,相对于传统的语音增强算法,本申请中利用深度神经网络模型实现语音增强,可以提高对非平稳噪声的处理能力,从而保证对非平稳噪声的处理效果。
为了寻求语音失真度和噪声抑制程度之间的平衡,在本申请又一实施例中,所述方法还可以包括以下步骤:
在语音离散傅里叶变换系数服从卡方分布假设的条件下,推导出基于听觉感知特性广义加权的贝叶斯估计器,将所述基于听觉感知特性广义加权的贝叶斯估计器作为所述预设贝叶斯估计器。
在本申请实施例中,通过在语音DFT(Discrete Fourier Transform,离散傅里叶变换)系数服从Chi(chi-square distribution,卡方分布)分布假设的条件下推导出一个基于听觉感知特性广义加权的贝叶斯估计器,从而保证对第一带噪语音幅度谱的预处理效果。
在本申请又一实施例中,所述方法还可以包括以下步骤:
S201,获取样本语音信号对应的样本带噪语音幅度谱和纯净语音特征。
S202,利用所述预设贝叶斯估计器对所述样本带噪语音幅度谱进行预处理,得到目标带噪语音幅度谱。
S203,将所述纯净语音特征作为训练标签、所述目标带噪语音幅度谱作为模型输入,采用误差逆传播算法和最小均方误差的代价函数对所述深度神经网络模型进行训练,直到代价函数收敛,得到训练好的深度神经网络模型。
在本申请实施例中,误差逆传播算法即反向传播算法,全称是误差反向传播算法,其本质是通过总的误差函数对每一个权重和偏置求偏导数,再通过偏导数更新权值和偏置,多次重复此步骤以找到最佳偏置和权重值。代价函数具体如下:
在本申请实施例中,由于基于深度神经网络的语音增强算法需要长时间的大数据训练,经过贝叶斯估计器增强过的带噪语音信号残留的噪声类型相对统一,在一定程度上可以减少网络训练时间和数据量。
在本申请又一实施例中,所述方法还可以包括以下步骤:
获取带噪语音信号对应的相位,并利用所述相位对所述增强语音幅度谱进行波形重构,得到对应的语音文件。
在本申请实施例中,得到增强语音幅度谱后,可以利用带噪语音信号对应的相位对增强语音幅度谱进行波形重构,合成可测听的语音文件。从而将语音文件输出给用户,方便用户了解语音增强效果。
基于相同的技术构思,本申请实施例还提供了一种语音增强处理流程,如图3所示,具体步骤如下:
步骤一,获取带躁语音(即原始语音);
步骤二,使用Chi分布下基于听觉感知广义加权的贝叶斯估计器提取带噪语音幅度谱(如图3中y1-yn)作为深度神经网络的输入特征。
步骤五,利用带噪语音的相位对增强后的语音幅度谱进行波形重构,合成可测听的语音文件。
本申请实施例中,首先,利用预设的贝叶斯估计器对带噪语音信号对应的带噪语音幅度谱进行预处理,从而使带噪语音信号残留的噪声类型相对统一,在一定程度上减少后续网络网络模型的处理时间和数据量;然后,将经过预处理的带噪语音幅度谱输入至深度神经网络模型,以使深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;最后,基于语音幅度谱和噪声幅度谱,确定时频掩蔽值;并基于时频掩蔽值和经过预处理的带噪语音幅度谱,确定增强语音幅度谱。由于深度神经网络对语音和噪声的非线性关系具有良好的描述能力,因此,相对于传统的语音增强算法,本申请中利用深度神经网络模型实现语音增强,可以提高对非平稳噪声的处理能力,从而保证对非平稳噪声的处理效果。
基于相同的技术构思,本申请实施例还提供了一种语音增强装置,如图4所示,该装置包括:
信号获取模块301,用于获取带噪语音信号对应的第一带噪语音幅度谱,并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理,得到第二带噪语音幅度谱;
幅度谱输入模块302,用于将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型,以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;
第一确定模块303,用于基于所述语音幅度谱和所述噪声幅度谱,确定时频掩蔽值;
第二确定模块304,用于基于所述时频掩蔽值和所述第二带噪语音幅度谱,确定增强语音幅度谱。
在一个可能的实施方式中,所述装置还包括:
重构模块,用于获取带噪语音信号对应的相位,并利用所述相位对所述增强语音幅度谱进行波形重构,得到对应的语音文件。
在一个可能的实施方式中,所述第一确定模块,具体用于:
将所述语音幅度谱和所述噪声幅度谱代入预设第一公式中,得到所述时频掩蔽值其中,所述预设第一公式如下:
在一个可能的实施方式中,第二确定模块,具体用于:
将所述时频掩蔽值和所述第二带噪语音幅度谱代入预设第二公式中,得到所述增强语音幅度谱,其中,所述预设第二公式如下:
在一个可能的实施方式中,所述装置还包括:
推导模块,用于在语音离散傅里叶变换系数服从卡方分布假设的条件下,推导出基于听觉感知特性广义加权的贝叶斯估计器,将所述基于听觉感知特性广义加权的贝叶斯估计器作为所述预设贝叶斯估计器。
在一个可能的实施方式中,所述所述装置还包括:
样本获取模块,用于获取样本语音信号对应的样本带噪语音幅度谱和纯净语音特征;
预处理模块,用于利用所述预设贝叶斯估计器对所述样本带噪语音幅度谱进行预处理,得到目标带噪语音幅度谱;
模型训练模块,用于将所述纯净语音特征作为训练标签、所述目标带噪语音幅度谱作为模型输入,采用误差逆传播算法和最小均方误差的代价函数对所述深度神经网络模型进行训练,直到代价函数收敛,得到训练好的深度神经网络模型。
本申请实施例中,首先,利用预设的贝叶斯估计器对带噪语音信号对应的带噪语音幅度谱进行预处理,从而使带噪语音信号残留的噪声类型相对统一,在一定程度上减少后续网络网络模型的处理时间和数据量;然后,将经过预处理的带噪语音幅度谱输入至深度神经网络模型,以使深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;最后,基于语音幅度谱和噪声幅度谱,确定时频掩蔽值;并基于时频掩蔽值和经过预处理的带噪语音幅度谱,确定增强语音幅度谱。由于深度神经网络对语音和噪声的非线性关系具有良好的描述能力,因此,相对于传统的语音增强算法,本申请中利用深度神经网络模型实现语音增强,可以提高对非平稳噪声的处理能力,从而保证对非平稳噪声的处理效果。
基于相同的技术构思,本申请实施例还提供了一种电子设备,如图5所示,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
存储器113,用于存放计算机程序;
处理器111,用于执行存储器113上所存放的程序时,实现如下步骤:
获取带噪语音信号对应的第一带噪语音幅度谱,并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理,得到第二带噪语音幅度谱;
将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型,以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;
基于所述语音幅度谱和所述噪声幅度谱,确定时频掩蔽值;
基于所述时频掩蔽值和所述第二带噪语音幅度谱,确定增强语音幅度谱。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一语音增强方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一语音增强方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音增强方法,其特征在于,所述方法包括:
获取带噪语音信号对应的第一带噪语音幅度谱,并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理,得到第二带噪语音幅度谱;
将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型,以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;
基于所述语音幅度谱和所述噪声幅度谱,确定时频掩蔽值;
基于所述时频掩蔽值和所述第二带噪语音幅度谱,确定增强语音幅度谱。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取带噪语音信号对应的相位,并利用所述相位对所述增强语音幅度谱进行波形重构,得到对应的语音文件。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在语音离散傅里叶变换系数服从卡方分布假设的条件下,推导出基于听觉感知特性广义加权的贝叶斯估计器,将所述基于听觉感知特性广义加权的贝叶斯估计器作为所述预设贝叶斯估计器。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本语音信号对应的样本带噪语音幅度谱和纯净语音特征;
利用所述预设贝叶斯估计器对所述样本带噪语音幅度谱进行预处理,得到目标带噪语音幅度谱;
将所述纯净语音特征作为训练标签、所述目标带噪语音幅度谱作为模型输入,采用误差逆传播算法和最小均方误差的代价函数对所述深度神经网络模型进行训练,直到代价函数收敛,得到训练好的深度神经网络模型。
7.一种语音增强装置,其特征在于,所述装置包括:
信号获取模块,用于获取带噪语音信号对应的第一带噪语音幅度谱,并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理,得到第二带噪语音幅度谱;
幅度谱输入模块,用于将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型,以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱;
第一确定模块,用于基于所述语音幅度谱和所述噪声幅度谱,确定时频掩蔽值;
第二确定模块,用于基于所述时频掩蔽值和所述第二带噪语音幅度谱,确定增强语音幅度谱。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
重构模块,用于获取带噪语音信号对应的相位,并利用所述相位对所述增强语音幅度谱进行波形重构,得到对应的语音文件。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210706406.6A CN115171714A (zh) | 2022-06-21 | 2022-06-21 | 一种语音增强方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210706406.6A CN115171714A (zh) | 2022-06-21 | 2022-06-21 | 一种语音增强方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115171714A true CN115171714A (zh) | 2022-10-11 |
Family
ID=83487770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210706406.6A Pending CN115171714A (zh) | 2022-06-21 | 2022-06-21 | 一种语音增强方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171714A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
CN116665693A (zh) * | 2023-07-28 | 2023-08-29 | 合肥朗永智能科技有限公司 | 一种基于人工智能的语音增强方法 |
CN117789744A (zh) * | 2024-02-26 | 2024-03-29 | 青岛海尔科技有限公司 | 基于模型融合的语音降噪方法、装置及存储介质 |
-
2022
- 2022-06-21 CN CN202210706406.6A patent/CN115171714A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052706A (zh) * | 2023-03-30 | 2023-05-02 | 苏州清听声学科技有限公司 | 一种基于神经网络的低复杂度语音增强方法 |
CN116665693A (zh) * | 2023-07-28 | 2023-08-29 | 合肥朗永智能科技有限公司 | 一种基于人工智能的语音增强方法 |
CN116665693B (zh) * | 2023-07-28 | 2023-10-03 | 合肥朗永智能科技有限公司 | 一种基于人工智能的语音增强方法 |
CN117789744A (zh) * | 2024-02-26 | 2024-03-29 | 青岛海尔科技有限公司 | 基于模型融合的语音降噪方法、装置及存储介质 |
CN117789744B (zh) * | 2024-02-26 | 2024-05-24 | 青岛海尔科技有限公司 | 基于模型融合的语音降噪方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN115171714A (zh) | 一种语音增强方法、装置、电子设备及存储介质 | |
Martin et al. | Speech enhancement in the DFT domain using Laplacian speech priors | |
Yong et al. | Optimization and evaluation of sigmoid function with a priori SNR estimate for real-time speech enhancement | |
CN112863535B (zh) | 一种残余回声及噪声消除方法及装置 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
Hansen et al. | Speech enhancement based on generalized minimum mean square error estimators and masking properties of the auditory system | |
Swami et al. | Speech enhancement by noise driven adaptation of perceptual scales and thresholds of continuous wavelet transform coefficients | |
Saleem et al. | Multi-scale decomposition based supervised single channel deep speech enhancement | |
Yao et al. | A priori SNR estimation and noise estimation for speech enhancement | |
Malek et al. | Block‐online multi‐channel speech enhancement using deep neural network‐supported relative transfer function estimates | |
Srinivasarao et al. | Speech enhancement-an enhanced principal component analysis (EPCA) filter approach | |
Sharma et al. | Weighted sigmoid-based frequency-selective noise filtering for speech denoising | |
Saleem et al. | Low rank sparse decomposition model based speech enhancement using gammatone filterbank and Kullback–Leibler divergence | |
Enzner et al. | Bayesian MMSE filtering of noisy speech by SNR marginalization with global PSD priors | |
Kantamaneni et al. | Speech enhancement with noise estimation and filtration using deep learning models | |
Schmidt et al. | Reduction of non-stationary noise using a non-negative latent variable decomposition | |
Saleem et al. | Variance based time-frequency mask estimation for unsupervised speech enhancement | |
Diaz‐Ramirez et al. | Robust speech processing using local adaptive non‐linear filtering | |
Wang | Speech enhancement in the modulation domain | |
Thimmaraja Yadava et al. | Amalgamation of noise elimination and TDNN acoustic modelling techniques for the advancements in continuous Kannada ASR system | |
Srinivas et al. | A classification-based non-local means adaptive filtering for speech enhancement and its FPGA prototype | |
Lee et al. | Bone-conduction sensor assisted noise estimation for improved speech enhancement | |
Ullah et al. | Semi-supervised transient noise suppression using OMLSA and SNMF algorithms | |
Islam et al. | Speech enhancement based on noise compensated magnitude spectrum |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |