CN113921030B - 一种基于加权语音损失的语音增强神经网络训练方法及装置 - Google Patents

一种基于加权语音损失的语音增强神经网络训练方法及装置 Download PDF

Info

Publication number
CN113921030B
CN113921030B CN202111483345.3A CN202111483345A CN113921030B CN 113921030 B CN113921030 B CN 113921030B CN 202111483345 A CN202111483345 A CN 202111483345A CN 113921030 B CN113921030 B CN 113921030B
Authority
CN
China
Prior art keywords
noise
loss value
voice
speech
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111483345.3A
Other languages
English (en)
Other versions
CN113921030A (zh
Inventor
苏家雨
王博
欧阳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Qingwei Intelligent Technology Co ltd
Original Assignee
Jiangsu Qingwei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Qingwei Intelligent Technology Co ltd filed Critical Jiangsu Qingwei Intelligent Technology Co ltd
Priority to CN202111483345.3A priority Critical patent/CN113921030B/zh
Publication of CN113921030A publication Critical patent/CN113921030A/zh
Application granted granted Critical
Publication of CN113921030B publication Critical patent/CN113921030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了基于加权语音损失的语音增强神经网络训练方法及装置其中,方法包括:提取训练样本中带噪语音的对数功率谱特征;将对数功率谱特征输入初始语音增强神经网络得到预估增益;基于预估增益和噪声,计算第一损失值;基于预估增益和目标语音帧,计算第二损失值;获取第一损失值和第二损失值的权值,并进行加权计算得到最终损失值;在最终损失值收敛的情况下,将初始语音增强神经网络作为用于语音增强的神经网络。本发明实施例提供的方案,使用GRU网络来预测语音增强增益,结合语音活动检测来获取加权语音失真损失,在实现去除噪声的同时减小语音失真。

Description

一种基于加权语音损失的语音增强神经网络训练方法及装置
技术领域
本发明涉及语音增强技术领域,特别涉及一种基于加权语音损失的语音增强神经网络训练方法及装置。
背景技术
语音增强算法的主要目的是改善带噪语音的语音质量和语音可懂度,这类算法在语音识别、通话等方面有着广泛的应用。对于一个单通道的带噪语音信号,经过傅里叶变换后,在频域可表示为
X(t,i)=S(t,i)+N(t,i) (1)
其中,X(t,i)、S(t,i)、N(t,i)分别表示t时刻的带噪语音、干净语音分量和噪声分量在第i个频带的频域表示,而语音增强的目的则是尽可能找到一个时变的增益函数G(t,i)使得
Figure GDA0003502377380000011
进而使得
Figure GDA0003502377380000012
逼近S(t,i)。
目前,随着深度学习技术的发展,深度学习技术已经广泛应用到了语音增强领域,通过深度学习由神经网络估算一个语音增强增益或掩蔽实现对带噪语音的增强已成为现实,现有基于深度学习的语音增强方法中,通常是通过优化某一数学指标,如干净语音与带噪语音经过增强后的语音之间的均方误差,作为损失函数来完成神经网络反向优化,然而,这类损失函数难以很好地平衡去除噪声和语音主观听感质量,从而导致噪声去除不够好或者对语音的扭曲较大。
发明内容
针对上述问题,本发明实施例提供了一种基于加权语音损失的语音增强神经网络训练方法及装置。
第一方面,提供了一种基于加权语音损失的语音增强神经网络训练方法,包括:
提取训练样本中带噪语音的对数功率谱特征,所述训练样本中包括所述带噪语音以及用于构成所述带噪语音的干净语音和噪声;
将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益;
基于所述预估增益和噪声,计算表征所述带噪语音噪声抑制效果的第一损失值;
基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值,所述目标语音帧为所述干净语音和噪声中存在语音活动的帧;
获取所述第一损失值和第二损失值的权值,并基于所获取的权值进行加权计算得到最终损失值;
在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益的步骤;
在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为用于语音增强的神经网络。
可选的,计算表征所述带噪语音噪声抑制效果的第一损失值的步骤,包括:
基于所述预估增益和噪声,通过以下表达式计算表征所述带噪语音噪声抑制效果的第一损失值:
Figure GDA0003502377380000021
其中,
Figure GDA0003502377380000022
表示所述第一损失值,G表示所述预估增益,N表示所述噪声,mean表示均方误差运算函数。
可选的,基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值的步骤,包括:
基于所述预估增益和目标语音帧,通过以下表达式计算表征所述带噪语音失真情况的第二损失值:
Figure GDA0003502377380000023
其中,
Figure GDA0003502377380000024
表示所述第二损失值,G表示所述预估增益,N表示所述噪声,S表示所述干净语音,下标A表示存在语音活动的帧,mean表示均方误差运算函数。
可选的,确定所述目标语音帧的步骤,包括:
基于当前帧在目标频段的频域表示,计算所述当前帧的能量和;
在计算得到的能量和大于预定阈值的情况下记为0,小于预定阈值的情况下记为1,平滑所述当前帧以及所述当前帧之前预定数量帧的能量和与预定阈值的比较结果,并根据平滑处理后的比较结果确定当前帧是否为目标语音帧。
可选的,获取所述第一损失值和第二损失值的权值的步骤,包括:
基于信噪比通过以下表达式计算所述第二损失值的权值:
Figure GDA0003502377380000031
其中,SNR表示信噪比,β为一个设定的常数;
基于所述第一损失值的权值与所述第二损失值的权值之和为1的运算规则,确定所述第一损失值的权值。
第二方面,提供了一种基于加权语音损失的语音增强神经网络训练装置,包括:
特征提取模块,用于提取训练样本中带噪语音的对数功率谱特征,所述训练样本中包括所述带噪语音以及用于构成所述带噪语音的干净语音和噪声;
语音增强神经网络模块,用于将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益;
损失值计算模块,用于基于所述预估增益和噪声,计算表征所述带噪语音噪声抑制效果的第一损失值;基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值,所述目标语音帧为所述干净语音和噪声中存在语音活动的帧;获取所述第一损失值和第二损失值的权值,并基于所获取的权值进行加权计算得到最终损失值;
神经网络调整模块,用于在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益的步骤;在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为用于语音增强的神经网络。
可选的,损失值计算模块,具体用于基于所述预估增益和噪声,通过以下表达式计算表征所述带噪语音噪声抑制效果的第一损失值:
Figure GDA0003502377380000032
其中,
Figure GDA0003502377380000033
表示所述第一损失值,G表示所述预估增益,N表示所述噪声,mean表示均方误差运算函数。
可选的,损失值计算模块,具体用于基于所述预估增益和目标语音帧,通过以下表达式计算表征所述带噪语音失真情况的第二损失值:
Figure GDA0003502377380000041
其中,
Figure GDA0003502377380000042
表示所述第二损失值,G表示所述预估增益,N表示所述噪声,S表示所述干净语音,下标A表示存在语音活动的帧,mean表示均方误差运算函数。
可选的,损失值计算模块,具体用于基于当前帧在目标频段的频域表示,计算所述当前帧的能量和;
在计算得到的能量和大于预定阈值的情况下记为0,小于预定阈值的情况下记为1,平滑所述当前帧以及所述当前帧之前预定数量帧的能量和与预定阈值的比较结果,并根据平滑处理后的比较结果确定当前帧是否为目标语音帧。
可选的,损失值计算模块,具体用于基于信噪比通过以下表达式计算所述第二损失值的权值:
Figure GDA0003502377380000043
其中,SNR表示信噪比,β为一个设定的常数;
基于所述第一损失值的权值与所述第二损失值的权值之和为1的运算规则,确定所述第一损失值的权值。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的基于加权语音损失的语音增强神经网络训练方法。
本发明实施例通过计算表征所述带噪语音噪声抑制效果的第一损失值和计算表征所述带噪语音失真情况的第二损失值,并通过加权计算的方式来确定最终损失,可以更好的平衡去除噪声和语音主观听感质量之间的关系,在实现去除噪声的同时减小语音失真。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于加权语音损失的语音增强神经网络训练方法的流程示意图;
图2是本发明实施例提供的一种不同β取值时,α随信噪比的变化曲线;
图3是本发明实施例提供的一种基于加权语音损失的语音增强神经网络训练装置的结构示意图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
参见图1,为本发明实施例提供的一种基于加权语音损失的语音增强神经网络训练方法,包括:
S100,提取训练样本中带噪语音的对数功率谱特征,其中,训练样本中包括带噪语音以及用于构成带噪语音的干净语音和噪声。
训练样本中带噪语音可以在AISHELL-2中的干净语音和采集的干净语音,以及电视噪声、音乐噪声、敲击噪声等点源噪声和风噪、公交地铁环境等相对平稳的散射噪声中,随机选取干净语音和噪声构造而成。
特征是成功训练神经网络的关键,对于单麦信号可以选择对数功率谱(LPS,Logarithm Power Spectrum)作为特征用于神经网络的输入特征,其中,对数功率谱特征的求取公式如式(3)所示:
Figure GDA0003502377380000051
S110,将所提取的对数功率谱特征输入初始语音增强神经网络得到带噪语音的预估增益。
初始语音增强神经网络可以基于GRU网络设计,整个网络包括3层gru层,一层全连接层,采用sigmoid作为激活函数来预测增益。
S120,基于预估增益和噪声,计算表征带噪语音噪声抑制效果的第一损失值。
S130,基于预估增益和目标语音帧,计算表征带噪语音失真情况的第二损失值,目标语音帧为干净语音和噪声中存在语音活动的帧。
进行语音增强的目的是为了提升语音的可理解度及主观听感,因此,需要在去除噪声的同时尽量减小对语音本身的损伤,基于此,本申请将损失分为针对噪声抑制效果的损失和针对语音损失程度的损失,并通过结合这两种损失设计了加权语音失真损失函数。
具体的,可以基于预估增益和噪声,通过表达式(4)计算表征带噪语音噪声抑制效果的第一损失值:
Figure GDA0003502377380000061
其中,
Figure GDA0003502377380000062
表示所述第一损失值,G表示所述预估增益,N表示所述噪声,mean表示均方误差运算函数。
再基于预估增益和目标语音帧,通过表达式(5)计算表征带噪语音失真情况的第二损失值:
Figure GDA0003502377380000063
其中,
Figure GDA0003502377380000064
表示所述第二损失值,G表示所述预估增益,N表示所述噪声,S表示所述干净语音,下标A表示存在语音活动的帧,mean表示均方误差运算函数。
在此,可以通过基于能量的语音活动检测算法来确定哪些帧是目标语音帧,哪些帧是非目标语音帧;
具体的,可以通过现有计算表达式(6)来计算当前帧的能量和,当前帧即为干净语音或噪声中当前需要判断是否为目标语音帧的帧:
Figure GDA0003502377380000065
其中,X(i)为当前帧在目标频段的频域表示,目标频段i可以在300hz-5000hz频段之间;
之后设定阈值在计算得到的能量和大于预定阈值的情况下记为0,小于预定阈值的情况下记为1,平滑当前帧以及当前帧之前预定数量帧的能量和与预定阈值的比较结果,并根据平滑处理后的比较结果确定当前帧是否为目标语音帧;预定数量可以根据需要设定,比如可以为10;平滑10帧的目的主要是确定语音信号是稳定的,只有在语音信号稳定的前提下,确定当前帧是否为目标语音帧的结果才更准确,比如,10帧的比较结果是相同均为0,那么确定当前帧为目标语音帧才更准确,而如果前9帧的比较结果相同均为0,而当前帧的比较结果为1,则可以先将当前帧记为目标语音帧,即与之前9帧的确定结果相同,然后在依次确定当前帧之后的3帧的比较结果,如果之后3帧的比较结果也为1,则将当前帧的确定结果修改为非目标语音帧。
S140,获取第一损失值和第二损失值的权值,并基于所获取的权值进行加权计算得到最终损失值。
在实施中,当估计的语音增强增益接近全通时,语音失真最小,噪声误差则最大,反之亦然。基于此采用对两种损失进行加权的方式来平衡这两个指标,得到的加权损失函数如表达式(7)所示:
Figure GDA0003502377380000071
其中,α是一个值在0到1范围内的数。
在语音增强算法中,语音增强增益一般与求得的信噪比有关,增强规则一般是在信噪比较低时,积极地抑制噪声,而在信噪比较高时减少抑制以更好保留语音,基于这一规则,可以使用信噪比来确定α的值,具体的如表达式(8)所示:
Figure GDA0003502377380000072
其中,SNR表示信噪比,计算公式为:
Figure GDA0003502377380000073
而β为一个设定的常数,由式(8)可知,当SNR=β时,dα/d(10log10(SNR))取得最大值,参见图2,示出了不同的β取值时,纵坐标α随横坐标信噪比SNR的变化曲线。
S150,在最终损失值不收敛的情况下,基于最终损失值调整初始语音增强神经网络,并返回将所提取的对数功率谱特征输入初始语音增强神经网络得到带噪语音的预估增益的步骤;初始语音增强神经网络的调整可以采用梯度下降函数完成。
S160,在最终损失值收敛的情况下,将初始语音增强神经网络作为用于语音增强的神经网络。
得到用于语音增强的神经网络之后,即可将神经网络输出的增益与带噪语音经过FFT后得到的复数做乘法即可,即如表达式(2)所示,以此完成带噪语音增强。
为了验证带噪语音的增强效果,我们构造了充足的带噪单通道音频数据。其中,所使用的干净语音包括AISHELL-2中的干净语音和采集的干净语音,共计超过18万条,使用的噪声包括电视噪声、音乐噪声、敲击噪声等点源噪声和风噪、公交地铁环境等相对平稳的散射噪声。构造过程随机选取干净语音和噪声,每条构造好的带噪语音至少含有一类点源噪声和一类散射噪声,构造过程共计构造102万条带噪语音,其中100万条用于神经网络训练,10000条用于训练验证和优化网络,10000条用于网络训练完成后的效果测试。所有构造的音频采样率为16khz。
在最终的网络测试过程中,使用尺度不变信号失真比SI-SDR,短时可懂度STOI和语音质量客观评价指标PESQ作为最终的评价标准。最终比较结果如表(1)所示,可以看出,在各个指标上,加权语音失真损失应用于神经网络时,均相较于只有均方误差MSE损失的原网络有较大提升。
Figure GDA0003502377380000081
表(1).不同损失函数下语音增强效果比较
参照图3,为本发明实施例提供的一种基于加权语音损失的语音增强神经网络训练装置,包括:
特征提取模块200,用于提取训练样本中带噪语音的对数功率谱特征,所述训练样本中包括所述带噪语音以及用于构成所述带噪语音的干净语音和噪声;
语音增强神经网络模块210,用于将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益;
损失值计算模块220,用于基于所述预估增益和噪声,计算表征所述带噪语音噪声抑制效果的第一损失值;基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值,所述目标语音帧为所述干净语音和噪声中存在语音活动的帧;获取所述第一损失值和第二损失值的权值,并基于所获取的权值进行加权计算得到最终损失值;
神经网络调整模块230,用于在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益的步骤;在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为用于语音增强的神经网络。
在实施中,损失值计算模块220,具体用于基于所述预估增益和噪声,通过以下表达式计算表征所述带噪语音噪声抑制效果的第一损失值:
Figure GDA0003502377380000091
其中,
Figure GDA0003502377380000092
表示所述第一损失值,G表示所述预估增益,N表示所述噪声,mean表示均方误差运算函数。
在实施中,损失值计算模块220,具体用于基于所述预估增益和目标语音帧,通过以下表达式计算表征所述带噪语音失真情况的第二损失值:
Figure GDA0003502377380000093
其中,
Figure GDA0003502377380000094
表示所述第二损失值,G表示所述预估增益,N表示所述噪声,S表示所述干净语音,下标A表示存在语音活动的帧,mean表示均方误差运算函数。
在实施中,损失值计算模块220,具体用于基于当前帧在目标频段的频域表示,计算所述当前帧的能量和;
在计算得到的能量和大于预定阈值的情况下记为0,小于预定阈值的情况下记为1,平滑所述当前帧以及所述当前帧之前预定数量帧的能量和与预定阈值的比较结果,并根据平滑处理后的比较结果确定当前帧是否为目标语音帧。
在实施中,损失值计算模块220,具体用于基于信噪比通过以下表达式计算所述第二损失值的权值:
Figure GDA0003502377380000095
其中,SNR表示信噪比,β为一个设定的常数;
基于所述第一损失值的权值与所述第二损失值的权值之和为1的运算规则,确定所述第一损失值的权值。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器001、通信接口002、存储器003和通信总线004,其中,处理器001,通信接口002,存储器003通过通信总线004完成相互间的通信,
存储器003,用于存放计算机程序;
处理器001,用于执行存储器003上所存放的程序时,实现上述基于加权语音损失的语音增强神经网络训练方法,该方法包括:
提取训练样本中带噪语音的对数功率谱特征,所述训练样本中包括所述带噪语音以及用于构成所述带噪语音的干净语音和噪声;
将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益;
基于所述预估增益和噪声,计算表征所述带噪语音噪声抑制效果的第一损失值;
基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值,所述目标语音帧为所述干净语音和噪声中存在语音活动的帧;
获取所述第一损失值和第二损失值的权值,并基于所获取的权值进行加权计算得到最终损失值;
在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益的步骤;
在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为用于语音增强的神经网络。
本发明实施例通过计算表征所述带噪语音噪声抑制效果的第一损失值和计算表征所述带噪语音失真情况的第二损失值,并通过加权计算的方式来确定最终损失,可以更好的平衡去除噪声和语音主观听感质量之间的关系,在实现去除噪声的同时减小语音失真。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于加权语音损失的语音增强神经网络训练方法,其特征在于,所述方法包括:
提取训练样本中带噪语音的对数功率谱特征,所述训练样本中包括所述带噪语音以及用于构成所述带噪语音的干净语音和噪声;
将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益;
基于所述预估增益和噪声,计算表征所述带噪语音噪声抑制效果的第一损失值;
基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值,所述目标语音帧为所述干净语音和噪声中存在语音活动的帧;
获取所述第一损失值和第二损失值的权值,并基于所获取的权值进行加权计算得到最终损失值;
在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益的步骤;
在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为用于语音增强的神经网络。
2.如权利要求1所述的方法,其特征在于,基于所述预估增益和噪声,计算表征所述带噪语音噪声抑制效果的第一损失值的步骤,包括:
基于所述预估增益和噪声,通过以下表达式计算表征所述带噪语音噪声抑制效果的第一损失值:
Figure FDA0003502377370000011
其中,
Figure FDA0003502377370000012
表示所述第一损失值,G表示所述预估增益,N表示所述噪声,mean表示均方误差运算函数。
3.如权利要求1所述的方法,其特征在于,基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值的步骤,包括:
基于所述预估增益和目标语音帧,通过以下表达式计算表征所述带噪语音失真情况的第二损失值:
Figure FDA0003502377370000021
其中,
Figure FDA0003502377370000022
表示所述第二损失值,G表示所述预估增益,N表示所述噪声,S表示所述干净语音,下标A表示存在语音活动的帧,mean表示均方误差运算函数。
4.如权利要求1所述的方法,其特征在于,确定所述目标语音帧的步骤,包括:
基于当前帧在目标频段的频域表示,计算所述当前帧的能量和;
在计算得到的能量和大于预定阈值的情况下记为0,小于预定阈值的情况下记为1,平滑所述当前帧以及所述当前帧之前预定数量帧的能量和与预定阈值的比较结果,并根据平滑处理后的比较结果确定当前帧是否为目标语音帧。
5.如权利要求1所述的方法,其特征在于,获取所述第一损失值和第二损失值的权值的步骤,包括:
基于信噪比通过以下表达式计算所述第二损失值的权值:
Figure FDA0003502377370000023
其中,SNR表示信噪比,β为一个设定的常数;
基于所述第一损失值的权值与所述第二损失值的权值之和为1的运算规则,确定所述第一损失值的权值。
6.一种基于加权语音损失的语音增强神经网络训练装置,其特征在于,所述装置包括:
特征提取模块,用于提取训练样本中带噪语音的对数功率谱特征,所述训练样本中包括所述带噪语音以及用于构成所述带噪语音的干净语音和噪声;
语音增强神经网络模块,用于将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益;
损失值计算模块,用于基于所述预估增益和噪声,计算表征所述带噪语音噪声抑制效果的第一损失值;基于所述预估增益和目标语音帧,计算表征所述带噪语音失真情况的第二损失值,所述目标语音帧为所述干净语音和噪声中存在语音活动的帧;获取所述第一损失值和第二损失值的权值,并基于所获取的权值进行加权计算得到最终损失值;
神经网络调整模块,用于在所述最终损失值不收敛的情况下,基于所述最终损失值调整所述初始语音增强神经网络,并返回将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益的步骤;在所述最终损失值收敛的情况下,将所述初始语音增强神经网络作为用于语音增强的神经网络。
7.如权利要求6所述的装置,其特征在于,损失值计算模块,具体用于基于所述预估增益和噪声,通过以下表达式计算表征所述带噪语音噪声抑制效果的第一损失值:
Figure FDA0003502377370000031
其中,
Figure FDA0003502377370000032
表示所述第一损失值,G表示所述预估增益,N表示所述噪声,mean表示均方误差运算函数。
8.如权利要求6所述的装置,其特征在于,损失值计算模块,具体用于基于所述预估增益和目标语音帧,通过以下表达式计算表征所述带噪语音失真情况的第二损失值:
Figure FDA0003502377370000033
其中,
Figure FDA0003502377370000034
表示所述第二损失值,G表示所述预估增益,N表示所述噪声,S表示所述干净语音,下标A表示存在语音活动的帧,mean表示均方误差运算函数。
9.如权利要求6所述的装置,其特征在于,损失值计算模块,具体用于基于信噪比通过以下表达式计算所述第二损失值的权值:
Figure FDA0003502377370000035
其中,SNR表示信噪比,β为一个设定的常数;
基于所述第一损失值的权值与所述第二损失值的权值之和为1的运算规则,确定所述第一损失值的权值。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
CN202111483345.3A 2021-12-07 2021-12-07 一种基于加权语音损失的语音增强神经网络训练方法及装置 Active CN113921030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111483345.3A CN113921030B (zh) 2021-12-07 2021-12-07 一种基于加权语音损失的语音增强神经网络训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111483345.3A CN113921030B (zh) 2021-12-07 2021-12-07 一种基于加权语音损失的语音增强神经网络训练方法及装置

Publications (2)

Publication Number Publication Date
CN113921030A CN113921030A (zh) 2022-01-11
CN113921030B true CN113921030B (zh) 2022-06-07

Family

ID=79248745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111483345.3A Active CN113921030B (zh) 2021-12-07 2021-12-07 一种基于加权语音损失的语音增强神经网络训练方法及装置

Country Status (1)

Country Link
CN (1) CN113921030B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299938B (zh) * 2022-03-07 2022-06-17 凯新创达(深圳)科技发展有限公司 一种基于深度学习的智能语音识别方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600017A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、系统及装置
US20200143819A1 (en) * 2017-07-19 2020-05-07 Nippon Telegraph And Telephone Corporation Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
CN111785288A (zh) * 2020-06-30 2020-10-16 北京嘀嘀无限科技发展有限公司 语音增强方法、装置、设备及存储介质
CN112242147A (zh) * 2020-10-14 2021-01-19 福建星网智慧科技有限公司 一种语音增益控制方法及计算机存储介质
CN113436643A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 语音增强模型的训练及应用方法、装置、设备及存储介质
WO2021203880A1 (zh) * 2020-04-10 2021-10-14 华为技术有限公司 一种语音增强方法、训练神经网络的方法以及相关设备
US20210335368A1 (en) * 2020-04-22 2021-10-28 Beijnig Xiaomi Pinecone Electronics Co., Ltd. Method for training a voiceprint extraction model and method for voiceprint recognition, and device and medium thereof
CN113707168A (zh) * 2021-09-03 2021-11-26 合肥讯飞数码科技有限公司 一种语音增强方法、装置、设备及存储介质
CN113744749A (zh) * 2021-09-18 2021-12-03 太原理工大学 一种基于心理声学域加权损失函数的语音增强方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021022079A1 (en) * 2019-08-01 2021-02-04 Dolby Laboratories Licensing Corporation System and method for enhancement of a degraded audio signal
CN112581973B (zh) * 2020-11-27 2022-04-29 深圳大学 一种语音增强方法及系统
CN113284507B (zh) * 2021-05-14 2024-02-13 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200143819A1 (en) * 2017-07-19 2020-05-07 Nippon Telegraph And Telephone Corporation Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
CN110600017A (zh) * 2019-09-12 2019-12-20 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、系统及装置
WO2021203880A1 (zh) * 2020-04-10 2021-10-14 华为技术有限公司 一种语音增强方法、训练神经网络的方法以及相关设备
US20210335368A1 (en) * 2020-04-22 2021-10-28 Beijnig Xiaomi Pinecone Electronics Co., Ltd. Method for training a voiceprint extraction model and method for voiceprint recognition, and device and medium thereof
CN111785288A (zh) * 2020-06-30 2020-10-16 北京嘀嘀无限科技发展有限公司 语音增强方法、装置、设备及存储介质
CN112242147A (zh) * 2020-10-14 2021-01-19 福建星网智慧科技有限公司 一种语音增益控制方法及计算机存储介质
CN113436643A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 语音增强模型的训练及应用方法、装置、设备及存储介质
CN113707168A (zh) * 2021-09-03 2021-11-26 合肥讯飞数码科技有限公司 一种语音增强方法、装置、设备及存储介质
CN113744749A (zh) * 2021-09-18 2021-12-03 太原理工大学 一种基于心理声学域加权损失函数的语音增强方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A perceptually-weighted deep neural network for monaural speech enhancement in various background noise conditions;Liu, Q. , et al.;《European Signal Processing Conference》;20171231;第1310-1314页 *
Research on Speech Signal Enhancement Technology Based on Progressive Deep Neural Network;Teng Haikun et al.;《Artificial Intelligence and Complex Systems Conference》;20200820;全文 *
基于循环神经网络与子带谱熵法的助听器语音增强;张雨晨 等;《传感技术学报》;20200831;第33卷(第8期);第1133-1139页 *

Also Published As

Publication number Publication date
CN113921030A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
JP6393730B2 (ja) 音声識別方法および装置
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
CN109584884B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
JP2014142627A (ja) 音声識別方法および装置
Verteletskaya et al. Noise reduction based on modified spectral subtraction method
Williams et al. Comparison of speech representations for automatic quality estimation in multi-speaker text-to-speech synthesis
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
CN111540342A (zh) 一种能量阈值调整方法、装置、设备及介质
CN113921030B (zh) 一种基于加权语音损失的语音增强神经网络训练方法及装置
CN115171714A (zh) 一种语音增强方法、装置、电子设备及存储介质
Diaz‐Ramirez et al. Robust speech processing using local adaptive non‐linear filtering
WO2020015546A1 (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
CN114141267A (zh) 一种基于复数频谱特征的语音增强方法及装置
WO2022078164A1 (zh) 一种音质评估方法、装置和设备
CN115223584A (zh) 音频数据处理方法、装置、设备及存储介质
CN113838476A (zh) 一种带噪语音的噪声估计方法和装置
CN112786058A (zh) 声纹模型训练方法、装置、设备以及存储介质
CN112002307A (zh) 一种语音识别方法和装置
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
CN113921027B (zh) 一种基于空间特征的语音增强方法、装置及电子设备
Aicha Machine learning based approach to assess denoised speech
Verteletskaya et al. Enhanced spectral subtraction method for noise reduction with minimal speech distortion
CN113782036A (zh) 音频质量评估方法、装置、电子设备和存储介质
Noorani et al. Single channel speech source separation using hierarchical deep neural networks
CN115881163A (zh) 语音信息的情感识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant