CN114694683A

CN114694683A - 语音增强评测方法、语音增强评测模型的训练方法和装置

Info

Publication number: CN114694683A
Application number: CN202210532219.0A
Authority: CN
Inventors: 任新蕾; 马珊; 郑羲光; 罗必达; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-07-01

Abstract

本公开关于一种语音增强评测方法、语音增强评测模型的训练方法和装置，语音增强评测方法包括：获取含噪语音样本，含噪语音样本包括原始语音样本和原始噪声样本；将含噪语音样本输入待测语音增强模型，得到增强含噪语音；将增强含噪语音、原始语音样本和原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声；根据预估增强语音和预估增强噪声，确定待测语音增强模型的评测值。

Description

语音增强评测方法、语音增强评测模型的训练方法和装置

技术领域

本公开涉及语音增强技术领域，尤其涉及一种语音增强评测方法、语音增强评测模型的训练方法和装置。

背景技术

语音增强模型是用于从含噪语音中提取尽可能纯净的原始语音的模型，但实际应用中，任何语音增强模型都会误剪切语音和(或)残留噪音，所以需要一个评测方法来评估误剪切语音和残留噪音的程度。为此，需要将待测语音增强模型输出的信号分离成语音成分和残留噪声成分两部分，以便后续进一步进行性能分析。

相关技术中存在基于SI-SNR(Scale-Invariant Source-to-Noise Ratio，尺度不变的信噪比)的评测方法，可以在求SI-SNR的过程中，将待测语音增强模型估计的信号中的语音成分和残留噪声成分分离出来。但该方式存在一个缺点，就是当估计的信号经过AGC(Automatic Gain Control，自动控制增益)之后，再用该方式分离出的语音成分和残留噪声成分就会产生比较大的误差。然而往往待测语音增强模型都会包含AGC模块，并且由于待测语音增强模型为整体黑盒无法分布测试，所以能拿到的结果多为经过了AGC之后的信号，这使得该方法并不能有效地测量待测语音增强模型的性能。

发明内容

本公开提供一种语音增强评测方法、语音增强评测模型的训练方法和装置，以至少解决相关技术中的如何有效测量待测语音增强模型的性能的问题，也可不解决任何上述问题。

根据本公开的一个方面，提供了一种语音增强评测模型的训练方法，所述训练方法包括：获取原始语音样本和原始噪声样本；对所述原始语音样本和所述原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本；合并所述增强语音样本和所述增强噪声样本，得到增强样本；将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到预估增强语音和预估增强噪声中的至少一个；根据所述预估增强语音和所述增强语音样本确定损失，和/或根据所述预估增强噪声和所述增强噪声样本确定损失；基于所述损失调整所述语音增强评测模型的参数，以对所述语音增强评测模型进行训练。

可选地，所述对所述原始语音样本和所述原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本，包括：获取用于模拟语音增强操作的增益数据；基于所述增益数据，对所述原始语音样本和所述原始噪声样本分别进行增强处理，得到所述增强语音样本和所述增强噪声样本。

可选地，所述增益数据是至少一个复数增益的乘积，其中，所述基于所述增益数据，对所述原始语音样本和所述原始噪声样本分别进行增强处理，得到所述增强语音样本和所述增强噪声样本，包括：将所述原始语音样本和所述原始噪声样本由时域信号转换为频域信号；确定所述增益数据与所述原始语音样本的乘积，得到所述增强语音样本；确定所述增益数据与所述原始噪声样本的乘积，得到所述增强噪声样本。

可选地，所述将所述原始语音样本和所述原始噪声样本由时域信号转换为频域信号，包括：利用短时傅里叶变换，将所述原始语音样本和所述原始噪声样本由时域信号转换为多帧频域信号。

可选地，所述将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到预估增强语音和预估增强噪声中的至少一个，包括：将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到所述预估增强语音和所述预估增强噪声中的一个；从所述增强样本中去除所述预估增强语音和所述预估增强噪声中的一个，得到所述预估增强语音和所述预估增强噪声中的另一个。

根据本公开的另一方面，提供了一种语音增强评测方法，用于评测语音增强模型，所述语音增强评测方法包括：获取含噪语音样本，所述含噪语音样本包括原始语音样本和原始噪声样本；将所述含噪语音样本输入待测语音增强模型，得到增强含噪语音；将所述增强含噪语音、所述原始语音样本和所述原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声；根据所述预估增强语音和所述预估增强噪声，确定所述待测语音增强模型的评测值。

可选地，所述含噪语音样本是合并所述原始语音样本和所述原始噪声样本得到的。

可选地，所述将所述增强含噪语音、所述原始语音样本、所述原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声，包括：将所述增强含噪语音、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到所述预估增强语音和所述预估增强噪声中的一个；从所述增强含噪语音中去除所述预估增强语音和所述预估增强噪声中的一个，得到所述预估增强语音和所述预估增强噪声中的另一个。

可选地，所述根据所述预估增强语音和所述预估增强噪声，确定所述待测语音增强模型的评测值，包括：根据所述预估增强语音和所述预估增强噪声，确定所述增强含噪语音的信噪比，作为所述待测语音增强模型的评测值。

可选地，所述增强含噪语音、所述预估增强语音和所述预估增强噪声均包括多帧频域信号，每帧频域信号包括多个中心频率下的复数信号，其中，所述根据所述预估增强语音和所述预估增强噪声，确定所述增强含噪语音的信噪比，包括：分别确定所述预估增强语音和所述预估增强噪声在每帧的所有中心频率的振幅之和，作为所述增强含噪语音在相应帧的语音能量和噪声能量；根据所述增强含噪语音在每帧的语音能量和噪声能量的比值，确定所述增强含噪语音在相应帧的信噪比；确定所述增强含噪语音在各个帧的信噪比的统计值，作为所述增强含噪语音的信噪比。

可选地，所述增强含噪语音、所述预估增强语音和所述预估增强噪声均为时域信号，其中，所述根据所述预估增强语音和所述预估增强噪声，确定所述增强含噪语音的信噪比，包括：分别确定所述预估增强语音和所述预估增强噪声在每个时刻的幅度值的平方和的算术平方根，作为语音能量和噪声能量；根据所述语音能量和所述噪声能量的比值，确定所述增强含噪语音的信噪比。

可选地，所述语音增强评测模型是使用根据本公开的训练方法训练得到的。

根据本公开的另一方面，提供了一种语音增强评测模型的训练装置，所述训练装置包括：获取单元，被配置为：获取原始语音样本和原始噪声样本；增强单元，被配置为：对所述原始语音样本和所述原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本；合并单元，被配置为：合并所述增强语音样本和所述增强噪声样本，得到增强样本；分离单元，被配置为：将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到预估增强语音和预估增强噪声中的至少一个；计算单元，被配置为：根据所述预估增强语音和所述增强语音样本确定损失，和/或根据所述预估增强噪声和所述增强噪声样本确定损失；调参单元，被配置为：基于所述损失调整所述语音增强评测模型的参数，以对所述语音增强评测模型进行训练。

可选地，所述增强单元还被配置为：获取用于模拟语音增强操作的增益数据；基于所述增益数据，对所述原始语音样本和所述原始噪声样本分别进行增强处理，得到所述增强语音样本和所述增强噪声样本。

可选地，所述增益数据是至少一个复数增益的乘积，所述增强单元还被配置为：将所述原始语音样本和所述原始噪声样本由时域信号转换为频域信号；确定所述增益数据与所述原始语音样本的乘积，得到所述增强语音样本；确定所述增益数据与所述原始噪声样本的乘积，得到所述增强噪声样本。

可选地，所述增强单元还被配置为：利用短时傅里叶变换，将所述原始语音样本和所述原始噪声样本由时域信号转换为多帧频域信号。

可选地，所述分离单元还被配置为：将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到所述预估增强语音和所述预估增强噪声中的一个；从所述增强样本中去除所述预估增强语音和所述预估增强噪声中的一个，得到所述预估增强语音和所述预估增强噪声中的另一个。

根据本公开的另一方面，提供了一种语音增强评测装置，用于评测语音增强模型，所述语音增强评测装置包括：获取单元，被配置为：获取含噪语音样本，所述含噪语音样本包括原始语音样本和原始噪声样本；增强单元，被配置为：将所述含噪语音样本输入待测语音增强模型，得到增强含噪语音；分离单元，被配置为：将所述增强含噪语音、所述原始语音样本和所述原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声；评测单元，被配置为：根据所述预估增强语音和所述预估增强噪声，确定所述待测语音增强模型的评测值。

可选地，所述分离单元还被配置为：将所述增强含噪语音、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到所述预估增强语音和所述预估增强噪声中的一个；从所述增强含噪语音中去除所述预估增强语音和所述预估增强噪声中的一个，得到所述预估增强语音和所述预估增强噪声中的另一个。

可选地，所述评测单元还被配置为：根据所述预估增强语音和所述预估增强噪声，确定所述增强含噪语音的信噪比，作为所述待测语音增强模型的评测值。

可选地，所述增强含噪语音、所述预估增强语音和所述预估增强噪声均包括多帧频域信号，每帧频域信号包括多个中心频率下的复数信号，所述评测单元还被配置为：分别确定所述预估增强语音和所述预估增强噪声在每帧的所有中心频率的振幅之和，作为所述增强含噪语音在相应帧的语音能量和噪声能量；根据所述增强含噪语音在每帧的语音能量和噪声能量的比值，确定所述增强含噪语音在相应帧的信噪比；确定所述增强含噪语音在各个帧的信噪比的统计值，作为所述增强含噪语音的信噪比。

可选地，所述增强含噪语音、所述预估增强语音和所述预估增强噪声均为时域信号，所述评测单元还被配置为：分别确定所述预估增强语音和所述预估增强噪声在每个时刻的幅度值的平方和的算术平方根，作为语音能量和噪声能量；根据所述语音能量和所述噪声能量的比值，确定所述增强含噪语音的信噪比。

根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音增强评测模型的训练方法或语音增强评测方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音增强评测模型的训练方法或语音增强评测方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的语音增强评测模型的训练方法或语音增强评测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的示例性实施例的语音增强评测方法、语音增强评测模型的训练方法和装置，基于深度学习，通过一个只针对测试样本的、对复杂度和实时性无要求的、给定原始语音成分和原始噪声成分的语音增强评测模型，对待测语音增强模型输出的增强含噪语音进行语音和残留噪声的分离，相当于用一个能力更强、提前知晓答案的模型来评测另一个能力更弱、不了解答案的模型，能够相对于相关技术中基于SI-SNR的分离方法降低结果误差，从而有效测量待测语音增强模型的性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音增强评测模型的训练方法的流程图。

图2是示出根据本公开的示例性实施例的语音增强评测模型的训练方法的流程示意图。

图3是示出根据本公开的示例性实施例的语音增强评测方法的流程图。

图4是示出根据本公开的示例性实施例的语音增强评测方法的流程示意图。

图5是示出根据本公开的示例性实施例的语音增强评测模型的训练装置的框图。

图6是示出根据本公开的示例性实施例的语音增强评测装置的框图。

图7是示出根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

语音增强模型是用于从含噪语音中提取尽可能纯净的原始语音的模型，语音增强的信号模型为：

y＝(s+n)*rir*deq

其中，y为输入到语音增强模型的含躁语音，n为噪声，s为语音信号，rir为房间混响，包括直达声(direct)、早期反射(early)、晚期混响(late)三部分，deq为采集设备的频率响应曲线，*为卷积运算符。语音增强模型的输出为：

其中，s′代表语音增强模型引入的语音剪切成分，n′代表语音增强模型可以消除掉的噪声成分，所以(s-s′)为输出信号中的语音成分，(n-n′)为噪声残留成分。rir_dir+early为保留的房间混响成分，包含了直达声和早期反射的部分，也就是说，语音增强模型用于去除房间混响中的晚期混响部分。实际模型中，房间混响可以保留也可以不保留。

但实际应用中，任何语音增强模型都有可能误剪切语音和(或)残留噪音，所以需要一个评测方法来评估误剪切语音和残留噪音的程度。为此，需要将待测语音增强模型输出的信号分离成语音成分和残留噪声成分两部分，也就是从

中提取(s-s′)*rir_dir+early*deq成分和(n-n′)*rir_dir+early*deq成分，以便后续进一步进行性能分析。

相关技术中存在基于SI-SNR的评测方法，可以在求SI-SNR的过程中，将待测语音增强模型估计的信号中的语音成分和残留噪声成分分离出来。但该方式存在一个缺点，就是当估计的信号经过AGC之后，再用该方式分离出的语音成分和残留噪声成分就会产生比较大的误差。然而往往待测语音增强模型都会包含AGC模块，并且由于待测语音增强模型为整体黑盒无法分布测试，所以能拿到的结果多为经过了AGC之后的信号，这使得该方法并不能有效地测量待测语音增强模型的性能。

根据本公开的示例性实施例的语音增强评测方案，基于深度学习，通过一个只针对测试样本的、对复杂度和实时性无要求的、给定原始语音成分和原始噪声成分的语音增强评测模型，对待测语音增强模型(也就是待评测其性能的语音增强模型)输出的增强含噪语音进行语音和残留噪声的分离，相当于用一个能力更强、提前知晓答案的模型来评测另一个能力更弱、不了解答案的模型，能够相对于相关技术中基于SI-SNR的分离方法降低结果误差，从而有效测量待测语音增强模型的性能。

下面，将参照图1至图5具体描述根据本公开的示例性实施例的语音增强评测模型的训练方法、语音增强评测方法、语音增强评测模型的训练装置、语音增强评测装置。

图1是示出根据本公开的示例性实施例的语音增强评测模型的训练方法的流程图。图2是示出根据本公开的示例性实施例的语音增强评测模型的训练方法的流程示意图。应理解，根据本公开的示例性实施例的语音增强评测模型的训练方法可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中实现，也可以在诸如服务器的设备中实现训练。

参照图1和图2，在步骤101，获取原始语音样本和原始噪声样本。

原始语音样本和原始噪声样本共同构成的含噪语音样本可作为测试样本，相当于提前知晓了含噪语音中的语音成分和噪声成分，可为待测语音增强模型输出的增强信号的成分分离提供参考。应理解，通过调节原始语音样本和原始噪声样本的能量，可以控制含噪语音样本的信噪比，待调节好二者的能量后，将二者合并，即可得到含噪语音样本。

在步骤102，对原始语音样本和原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本。

增强处理用于模仿待测语音增强模型。通过分别对原始语音样本和原始噪声样本执行增强处理，可将增强语音样本和增强噪声样本合并后得到的增强样本(在步骤103执行)视为待测语音增强模型输出的增强含噪语音(即前述的增强信号)，可基于此实现语音增强评测模型的训练。

可选地，步骤102具体可包括：获取用于模拟语音增强操作的增益数据；基于增益数据，对原始语音样本和原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本。增益数据用于反映增强处理对原始语音样本和原始噪声样本产生的数据上的变化影响。基于增益数据对原始语音样本和原始噪声样本进行相应的计算，就可以实现增强处理，计算得到的数据就是增强语音样本和增强噪声样本。通过配置增益数据，可以借助调整增益数据来模拟不同的语音增强模型，使得步骤103得到的增强样本接近待测语音增强模型输出的增强含噪语音，有助于提升训练得到的语音增强评测模型的评测效果。具体地，语音增强模型能够对输入其中的含噪语音执行混响、均衡器调节、语音剪切、噪声残留、AGC等操作，可通过对比分析待测语音增强模型的输入信号和输出信号之间的差异，评估待测语音增强模型涉及的操作，进而估算出合适的增益数据，实现针对不同的待测语音增强模型定制不同的增益数据。当然，也可使用具有一定通用性的增益数据，达到合理的模拟效果即可，有助于减少确定增益数据的计算量。这都是本公开的实现方式。

可选地，增益数据是至少一个复数增益的乘积，步骤102中的基于增益数据，对原始语音样本和原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本的操作，具体可包括：将原始语音样本和原始噪声样本由时域信号转换为频域信号，得到复数形式的原始语音样本和原始噪声样本；确定增益数据与原始语音样本的乘积，得到增强语音样本；确定增益数据与原始噪声样本的乘积，得到增强噪声样本。通过对均为复数形式的增益数据、原始语音样本和原始噪声样本进行乘积计算，具体为点积计算(因为得到的增强后的样本也需要是复数形式)，即可得到增强语音样本和增强噪声样本，实现简洁、可靠的增强处理。

可选地，将原始语音样本和原始噪声样本由时域信号转换为频域信号的操作具体执行为：利用短时傅里叶变换(STFT，Short-Time Fourier Transform)，将原始语音样本和原始噪声样本由时域信号转换为多帧频域信号。原始语音样本和原始噪声样本通常属于非平稳信号，其频率会随着时间变化，而傅里叶变换仅用于将时域信号转换为频域信号，无法提取其中的时间信息，也就是无法了解各个频率具体在什么时间出现。通过运用短时傅里叶变换，可以先将原始语音样本和原始噪声样本按照一定的时间宽度划分为多段，从而形成多帧时域信号，提取信号的局部信息，由于时间跨度较短，可认为每帧时域信号都是近似平稳的。再将每帧近似平稳的时域信号转换为频域信号，即可得到多帧频域信号，能够提取出时间信息，保障了信息的全面。

具体来说，若长度为T的原始语音样本S和原始噪声样本N在时域上分别为S(t)和N(t)，其中t代表时间，0＜t≤T，则经过短时傅里叶变换后，S(t)和N(t)在频域可表示为：

S(n,k)＝STFT(S(t))

N(n,k)＝STFT(N(t))

其中n为帧序列，0＜n≤N(N为总帧数)；k为中心频率序列，0k≤K(K为总频带数)。S(n,k)为第n帧的第k个中心频率下的复数信号，由振幅和相位构成：

S(n,k)＝|S(n,k)|·e^{j·φ(S(n,k))}

对S(n,k)和N(n,k)进行增强处理，用来模拟一个待测语音增强模型的输出时，其过程可以抽象为：

S_aug(n,k)＝S(n,k)·G(n,k)

其中，G(n,j)为一复数形式的增益数据，包含振幅变化和相位变化，代表若干增强处理对于原始信号的总效果，等于这若干增强处理各自的复数形式的增益数据g(n,k)的乘积，g(n,k)同样包含振幅变化和相位变化，代表某种增强处理对于原始信号的效果。

在步骤103，合并增强语音样本和增强噪声样本，得到增强样本。

在步骤104，将增强样本、原始语音样本、原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声中的至少一个。

步骤104是执行语音增强评测模型的步骤。语音增强评测模型用于分离出待测语音增强模型输出的增强含噪语音中的语音成分和残留噪声成分，即得到预估增强语音和预估增强噪声。在此处的模型训练阶段，也就是分离增强样本中的语音成分和残留噪声成分。

具体地，语音增强评测模型可以是基于CNN(Convolutional Neural Network，卷积神经网络)/RNN(Recurrent Neural Network，循环神经网络)/DNN(Deep NeuralNetwork，深度神经网络)等任意网络层组成的神经网络，对复杂度和实时性均无要求。作为示例，根据本公开的示例性实施例的语音增强评测模型可以是基于U-Net的网络结构，模型包含三个编码(encoder)块、四个残差注意力(RA，Residual-Attention)块以及三个解码(decoder)块，四个残差注意力块置于编码块和解码块之间。每个编码块包含一个二维卷积(Conv2d)层、批标准化(BN，Batch Normalization)层和指数线性单元(ELU，ExponentialLinear Unit)激活函数。每个解码块与对应的编码块唯一的不同之处是将二维卷积层替换为二维逆卷积(Conv2dTranspose)层。残差注意力块主要包含了两个残差(residual)块和一个可分离自注意力(SSA，Separable Self-Attention)块，可分离自注意力块中的自注意力使用的是放缩点积自注意力(Scaled dot-product self-attention)。

可选地，步骤104包括：将增强样本、原始语音样本、原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声中的一个(在图2所示的实施例中，可得到预估增强语音)；从增强样本中去除预估增强语音和预估增强噪声中的一个，得到预估增强语音和预估增强噪声中的另一个。由于待测语音增强模型输出的增强含噪语音中仅有语音和残留噪声这两种成分，所以语音增强评测模型可以仅输出其中一个成分，然后通过求差得到其中另一个成分，可减少语音增强评测模型的计算量，并避免模型同时计算出两个成分时可能出现的二个成分之和与分离前的信号不一致的情况，保障了分离结果的可靠性。

应理解，在模型的应用阶段，预估增强语音和预估增强噪声都需要得到，而在模型的训练阶段，可以仅得到其中的一个，也可以两个都得到，具体取决于步骤105中损失的确定方案。

在步骤105，根据预估增强语音和增强语音样本确定损失，和/或根据预估增强噪声和增强噪声样本确定损失。

确定损失时，可以仅使用语音成分相关的损失，也可以仅使用残留噪声成分相关的损失，还可以同时使用二者，这都是本公开的实现方式。对于不同的实现方式，可在步骤104得到相应的成分。

可选地，可使用平均绝对对数误差(MALE，Mean Absolute Logarithm Error)作为损失函数。此时，语音成分相关的损失MALE_S和残留噪声成分相关的损失MALE_N可分别表示为：

MALE_s＝abs(log_e(abs(real(S_aug)+imag(S_aug)+1))-log_e(abs(real(S_aug‘)+imag(S_aug‘)+1)))

MALE_N＝abs(log_e(abs(real(N_aug)+imag(N_aug)+1))-log_e(abs(real(N_aug‘)+imag(N_aug‘)+1)))

其中，e是自然常数，abs表示取绝对值，real表示取复数的实部，imag表示取复数的虚部。S_aug是增强语音样本，S_aug‘是预估增强语音，N_aug是增强噪声样本，N_aug‘是预估增强噪声，并且满足：

N_aug‘＝S_aug+N_aug-S_aug‘

应理解，以上损失函数的公式表示的是每帧每个中心频率下的损失，最终使用的损失可以是所有帧、所有中心频率的损失的统计值。

在步骤106，基于损失调整语音增强评测模型的参数，以对语音增强评测模型进行训练。经过训练，得到的语音增强评测模型就可用于评测待测语音增强模型的性能了。

图3是示出根据本公开的示例性实施例的语音增强评测方法的流程图。图4是示出根据本公开的示例性实施例的语音增强评测方法的流程示意图。应理解，根据本公开的示例性实施例的语音增强评测方法可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中实现，也可以在诸如服务器的设备中实现。

参照图3和图4，在步骤301，获取含噪语音样本，含噪语音样本包括原始语音样本和原始噪声样本。

具体地，含噪语音样本是合并原始语音样本和原始噪声样本得到的，可作为测试样本，相当于提前知晓了含噪语音中的语音成分和噪声成分，可为待测语音增强模型输出的增强信号的成分分离提供参考。应理解，通过调节原始语音样本和原始噪声样本的能量，可以控制含噪语音样本的信噪比，待调节好二者的能量后，将二者合并，即可得到含噪语音样本。

在步骤302，将含噪语音样本输入待测语音增强模型，得到增强含噪语音。该步骤将含噪语音样本作为待测语音增强模型的输入，可得到待测语音增强模型的输出，作为后续成分分离的标的，以便评测待测语音增强模型的性能。应理解，测试时仅使用提前知晓其成分的含噪语音样本作为输入，而不随意输入含噪语音，可保障后续成分分离结果的可靠性，使评测结果可靠。

在步骤303，将增强含噪语音、原始语音样本和原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声。

具体地，语音增强评测模型可以是基于CNN/RNN/DNN等任意网络层组成的神经网络，并且可以是使用根据本公开的示例性实施例的语音增强评测模型的训练方法训练得到的。应理解，不同于训练阶段可以仅确定增强样本中的一种成分，在应用阶段需要同时得到增强含噪语音的语音、残留噪声两种成分，即同时得到预估增强语音和预估增强噪声。

可选地，步骤303包括：将增强含噪语音、原始语音样本、原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声中的一个(在图4所示的实施例中，可得到预估增强语音)；从增强含噪语音中去除预估增强语音和预估增强噪声中的一个，得到预估增强语音和预估增强噪声中的另一个。由于待测语音增强模型输出的增强含噪语音中仅有语音和残留噪声这两种成分，所以语音增强评测模型可以仅输出其中一个成分，然后通过求差得到其中另一个成分，可减少语音增强评测模型的计算量，并避免模型同时计算出两个成分时可能出现的二个成分之和与分离前的信号不一致的情况，保障了分离结果的可靠性。

在步骤304，根据预估增强语音和预估增强噪声，确定待测语音增强模型的评测值。该步骤可结合分离得到的语音成分和残留噪声成分来评测待测语音增强模型的增强效果。

可选地，步骤304包括：根据预估增强语音和预估增强噪声，确定增强含噪语音的信噪比，作为待测语音增强模型的评测值。也就是依据信噪比来评测待测语音增强模型的性能，若信噪比高，则表明待测语音增强模型能够较好地增强输入其中的语音；相反地，若信噪比低，则表明待测语音增强模型的增强性能不佳。作为示例，可配置一个信噪比阈值，作为判断信噪比高低的参考。信噪比(SNR，Source-to-Noise Ratio)可表示为：

这里代入公式的是相应信号的能量，S_aug‘是预估增强语音对应的语音能量，N_aug‘是预估增强噪声对应的噪声能量。

具体地，步骤302得到的待测语音增强模型输出的增强含噪语音可为多帧频域信号，每帧频域信号包括多个中心频率下的复数信号，如前所述，由振幅和相位构成。相应地，可采用短时傅里叶变换将原始语音样本和原始噪声样本也转换为多帧频域信号，则步骤303得到的预估增强语音和预估增强噪声同样为多帧频域信号。

在一些实施例中，可选地，步骤304包括：分别确定预估增强语音和预估增强噪声在每帧的所有中心频率的振幅之和，作为增强含噪语音在相应帧的语音能量和噪声能量；根据增强含噪语音在每帧的语音能量和噪声能量的比值，确定增强含噪语音在相应帧的信噪比(例如可采用上述SNR公式确定)；确定增强含噪语音在各个帧的信噪比的统计值，例如平均值、中位数、众数、方差、标准差，作为增强含噪语音的信噪比。该方式可对频域信号直接进行计算，满足信噪比的计算需求。

在另一些实施例中，可选地，增强含噪语音、预估增强语音和预估增强噪声均为时域信号，例如可利用短时反傅里叶变换(iSTFT，Inverse Short-Time FourierTransform)，将多帧频域信号转换为时域信号。此时步骤304包括：根据预估增强语音和预估增强噪声在每个时刻的幅度值，确定语音能量和噪声能量，例如，但不限于，将每个时刻的幅度值的平方和作为能量，或将该平方和的算术平方根作为能量，对于上述SNR公式，能量可以是该平方和的算术平方根；根据语音能量和噪声能量的比值，确定增强含噪语音的信噪比(例如可采用上述SNR公式确定)。该方式通过将频域信号转换回时域信号，能够对整个时域信号计算出一个信噪比，不必对大量信噪比进行统计，同样可以满足信噪比的计算需求。

图5是示出根据本公开的示例性实施例的语音增强评测模型的训练装置的框图。应理解，根据本公开的示例性实施例的语音增强评测模型的训练装置可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中以软件、硬件或软件硬件结合的方式实现，也可以在诸如服务器的设备中实现训练。

参照图5，语音增强评测模型的训练装置500包括获取单元501、增强单元502、合并单元503、分离单元504、计算单元505、调参单元506。

获取单元501可获取原始语音样本和原始噪声样本。

增强单元502可对原始语音样本和原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本。

增强处理用于模仿待测语音增强模型。通过分别对原始语音样本和原始噪声样本执行增强处理，可将增强语音样本和增强噪声样本合并后得到的增强样本(由合并单元503执行)视为待测语音增强模型输出的增强含噪语音(即前述的增强信号)，可基于此实现语音增强评测模型的训练。

可选地，步骤102具体可包括：获取用于模拟语音增强操作的增益数据；基于增益数据，对原始语音样本和原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本。增益数据用于反映增强处理对原始语音样本和原始噪声样本产生的数据上的变化影响。基于增益数据对原始语音样本和原始噪声样本进行相应的计算，就可以实现增强处理，计算得到的数据就是增强语音样本和增强噪声样本。通过配置增益数据，可以借助调整增益数据来模拟不同的语音增强模型，使得合并单元503得到的增强样本接近待测语音增强模型输出的增强含噪语音，有助于提升训练得到的语音增强评测模型的评测效果。具体地，语音增强模型能够对输入其中的含噪语音执行混响、均衡器调节、语音剪切、噪声残留、AGC等操作，可通过对比分析待测语音增强模型的输入信号和输出信号之间的差异，评估待测语音增强模型涉及的操作，进而估算出合适的增益数据，实现针对不同的待测语音增强模型定制不同的增益数据。当然，也可使用具有一定通用性的增益数据，达到合理的模拟效果即可，有助于减少确定增益数据的计算量。这都是本公开的实现方式。

可选地，增益数据是至少一个复数增益的乘积，增强单元502执行的基于增益数据，对原始语音样本和原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本的操作，具体可包括：将原始语音样本和原始噪声样本由时域信号转换为频域信号，得到复数形式的原始语音样本和原始噪声样本；确定增益数据与原始语音样本的乘积，得到增强语音样本；确定增益数据与原始噪声样本的乘积，得到增强噪声样本。通过对均为复数形式的增益数据、原始语音样本和原始噪声样本进行乘积计算，具体为点积计算(因为得到的增强后的样本也需要是复数形式)，即可得到增强语音样本和增强噪声样本，实现简洁、可靠的增强处理。

合并单元503可合并增强语音样本和增强噪声样本，得到增强样本。

分离单元504可将增强样本、原始语音样本、原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声中的至少一个。

分离单元504执行的是语音增强评测模型的操作。语音增强评测模型用于分离出待测语音增强模型输出的增强含噪语音中的语音成分和残留噪声成分，即得到预估增强语音和预估增强噪声。在此处的模型训练阶段，也就是分离增强样本中的语音成分和残留噪声成分。

具体地，语音增强评测模型可以是基于CNN/RNN/DNN等任意网络层组成的神经网络，对复杂度和实时性均无要求。

可选地，分离单元504执行的操作包括：将增强样本、原始语音样本、原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声中的一个(例如可得到预估增强语音)；从增强样本中去除预估增强语音和预估增强噪声中的一个，得到预估增强语音和预估增强噪声中的另一个。由于待测语音增强模型输出的增强含噪语音中仅有语音和残留噪声这两种成分，所以语音增强评测模型可以仅输出其中一个成分，然后通过求差得到其中另一个成分，可减少语音增强评测模型的计算量，并避免模型同时计算出两个成分时可能出现的二个成分之和与分离前的信号不一致的情况，保障了分离结果的可靠性。

应理解，在模型的应用阶段，预估增强语音和预估增强噪声都需要得到，而在模型的训练阶段，可以仅得到其中的一个，也可以两个都得到，具体取决于计算单元505对损失的确定方案。

计算单元505可根据预估增强语音和增强语音样本确定损失，和/或根据预估增强噪声和增强噪声样本确定损失。

确定损失时，可以仅使用语音成分相关的损失，也可以仅使用残留噪声成分相关的损失，还可以同时使用二者，这都是本公开的实现方式。对于不同的实现方式，可由分离单元504得到相应的成分。

调参单元506可基于损失调整语音增强评测模型的参数，以对语音增强评测模型进行训练。经过训练，得到的语音增强评测模型就可用于评测待测语音增强模型的性能了。

图6是示出根据本公开的示例性实施例的语音增强评测装置的框图。应理解，根据本公开的示例性实施例的语音增强评测装置可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中以软件、硬件或软件硬件结合的方式实现，也可以在诸如服务器的设备中实现。

参照图6，语音增强评测装置600包括获取单元601、增强单元602、分离单元603、评测单元604。

获取单元601可获取含噪语音样本，含噪语音样本包括原始语音样本和原始噪声样本。

增强单元602可将含噪语音样本输入待测语音增强模型，得到增强含噪语音。该步骤将含噪语音样本作为待测语音增强模型的输入，可得到待测语音增强模型的输出，作为后续成分分离的标的，以便评测待测语音增强模型的性能。应理解，测试时仅使用提前知晓其成分的含噪语音样本作为输入，而不随意输入含噪语音，可保障后续成分分离结果的可靠性，使评测结果可靠。

分离单元603可将增强含噪语音、原始语音样本和原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声。

可选地，分离单元603执行的操作包括：将增强含噪语音、原始语音样本、原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声中的一个(例如可得到预估增强语音)；从增强含噪语音中去除预估增强语音和预估增强噪声中的一个，得到预估增强语音和预估增强噪声中的另一个。由于待测语音增强模型输出的增强含噪语音中仅有语音和残留噪声这两种成分，所以语音增强评测模型可以仅输出其中一个成分，然后通过求差得到其中另一个成分，可减少语音增强评测模型的计算量，并避免模型同时计算出两个成分时可能出现的二个成分之和与分离前的信号不一致的情况，保障了分离结果的可靠性。

评测单元604可根据预估增强语音和预估增强噪声，确定待测语音增强模型的评测值。评测单元604可结合分离得到的语音成分和残留噪声成分来评测待测语音增强模型的增强效果。

可选地，评测单元604执行的操作包括：根据预估增强语音和预估增强噪声，确定增强含噪语音的信噪比，作为待测语音增强模型的评测值。也就是依据信噪比来评测待测语音增强模型的性能，若信噪比高，则表明待测语音增强模型能够较好地增强输入其中的语音；相反地，若信噪比低，则表明待测语音增强模型的增强性能不佳。作为示例，可配置一个信噪比阈值，作为判断信噪比高低的参考。

具体地，增强单元602得到的待测语音增强模型输出的增强含噪语音可为多帧频域信号，每帧频域信号包括多个中心频率下的复数信号，由振幅和相位构成。相应地，可采用短时傅里叶变换将原始语音样本和原始噪声样本也转换为多帧频域信号，则分离单元603得到的预估增强语音和预估增强噪声同样为多帧频域信号。

在一些实施例中，可选地，评测单元604执行的操作包括：分别确定预估增强语音和预估增强噪声在每帧的所有中心频率的振幅之和，作为增强含噪语音在相应帧的语音能量和噪声能量；根据增强含噪语音在每帧的语音能量和噪声能量的比值，确定增强含噪语音在相应帧的信噪比；确定增强含噪语音在各个帧的信噪比的统计值，例如平均值、中位数、众数、方差、标准差，作为增强含噪语音的信噪比。该方式可对频域信号直接进行计算，满足信噪比的计算需求。

在另一些实施例中，可选地，增强含噪语音、预估增强语音和预估增强噪声均为时域信号，例如可利用短时反傅里叶变换，将多帧频域信号转换为时域信号。此时评测单元604执行的操作包括：根据预估增强语音和预估增强噪声在每个时刻的幅度值，确定语音能量和噪声能量，例如，但不限于，将每个时刻的幅度值的平方和作为能量，或将该平方和的算术平方根作为能量；根据语音能量和噪声能量的比值，确定增强含噪语音的信噪比。该方式通过将频域信号转换回时域信号，能够对整个时域信号计算出一个信噪比，不必对大量信噪比进行统计，同样可以满足信噪比的计算需求。

图7是根据本公开的示例性实施例的电子设备的框图。

参照图7，电子设备700包括至少一个存储器701和至少一个处理器702，所述至少一个存储器701中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器702执行时，执行根据本公开的示例性实施例的语音增强评测模型的训练方法或语音增强评测方法。

作为示例，电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备700并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备700中，处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器702可运行存储在存储器701中的指令或代码，其中，存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器701可与处理器702集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器701可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器702能够读取存储在存储器中的文件。

此外，电子设备700还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的语音增强评测模型的训练方法或语音增强评测方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的语音增强评测模型的训练方法或语音增强评测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强评测方法，用于评测语音增强模型，其特征在于，所述语音增强评测方法包括：

获取含噪语音样本，所述含噪语音样本包括原始语音样本和原始噪声样本；

将所述含噪语音样本输入待测语音增强模型，得到增强含噪语音；

将所述增强含噪语音、所述原始语音样本和所述原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声；

根据所述预估增强语音和所述预估增强噪声，确定所述待测语音增强模型的评测值。

2.如权利要求1所述的语音增强评测方法，其特征在于，所述将所述增强含噪语音、所述原始语音样本、所述原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声，包括：

将所述增强含噪语音、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到所述预估增强语音和所述预估增强噪声中的一个；

从所述增强含噪语音中去除所述预估增强语音和所述预估增强噪声中的一个，得到所述预估增强语音和所述预估增强噪声中的另一个。

3.如权利要求1所述的语音增强评测方法，其特征在于，所述根据所述预估增强语音和所述预估增强噪声，确定所述待测语音增强模型的评测值，包括：

根据所述预估增强语音和所述预估增强噪声，确定所述增强含噪语音的信噪比，作为所述待测语音增强模型的评测值。

4.如权利要求3所述的语音增强评测方法，其特征在于，所述增强含噪语音、所述预估增强语音和所述预估增强噪声均包括多帧频域信号，每帧频域信号包括多个中心频率下的复数信号，其中，所述根据所述预估增强语音和所述预估增强噪声，确定所述增强含噪语音的信噪比，包括：

分别确定所述预估增强语音和所述预估增强噪声在每帧的所有中心频率的振幅之和，作为所述增强含噪语音在相应帧的语音能量和噪声能量；

根据所述增强含噪语音在每帧的语音能量和噪声能量的比值，确定所述增强含噪语音在相应帧的信噪比；

确定所述增强含噪语音在各个帧的信噪比的统计值，作为所述增强含噪语音的信噪比。

5.一种语音增强评测模型的训练方法，其特征在于，所述训练方法包括：

获取原始语音样本和原始噪声样本；

对所述原始语音样本和所述原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本；

合并所述增强语音样本和所述增强噪声样本，得到增强样本；

将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到预估增强语音和预估增强噪声中的至少一个；

根据所述预估增强语音和所述增强语音样本确定损失，和/或根据所述预估增强噪声和所述增强噪声样本确定损失；

基于所述损失调整所述语音增强评测模型的参数，以对所述语音增强评测模型进行训练。

6.一种语音增强评测装置，用于评测语音增强模型，其特征在于，所述语音增强评测装置包括：

获取单元，被配置为：获取含噪语音样本，所述含噪语音样本包括原始语音样本和原始噪声样本；

增强单元，被配置为：将所述含噪语音样本输入待测语音增强模型，得到增强含噪语音；

分离单元，被配置为：将所述增强含噪语音、所述原始语音样本和所述原始噪声样本输入语音增强评测模型，得到预估增强语音和预估增强噪声；

评测单元，被配置为：根据所述预估增强语音和所述预估增强噪声，确定所述待测语音增强模型的评测值。

7.一种语音增强评测模型的训练装置，其特征在于，所述训练装置包括：

获取单元，被配置为：获取原始语音样本和原始噪声样本；

增强单元，被配置为：对所述原始语音样本和所述原始噪声样本分别进行增强处理，得到增强语音样本和增强噪声样本；

合并单元，被配置为：合并所述增强语音样本和所述增强噪声样本，得到增强样本；

分离单元，被配置为：将所述增强样本、所述原始语音样本、所述原始噪声样本输入所述语音增强评测模型，得到预估增强语音和预估增强噪声中的至少一个；

计算单元，被配置为：根据所述预估增强语音和所述增强语音样本确定损失，和/或根据所述预估增强噪声和所述增强噪声样本确定损失；

调参单元，被配置为：基于所述损失调整所述语音增强评测模型的参数，以对所述语音增强评测模型进行训练。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至4中任一项所述的语音增强评测方法或如权利要求5所述的语音增强评测模型的训练方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至4中任一项所述的语音增强评测方法或如权利要求5所述的语音增强评测模型的训练方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1至4中任一项所述的语音增强评测方法或如权利要求5所述的语音增强评测模型的训练方法。