CN111785303A

CN111785303A - 模型训练方法、模仿音检测方法、装置、设备及存储介质

Info

Publication number: CN111785303A
Application number: CN202010624032.4A
Authority: CN
Inventors: 蒋俊; 方磊; 宣璇
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16
Anticipated expiration: 2040-06-30
Also published as: CN111785303B

Abstract

本申请实施例公开了一种模型训练方法、模仿音检测方法、装置、设备及存储介质，通过模仿音检测模型对样本语音进行特征提取，得到样本语音的初始特征序列；对初始特征序列中的部分初始特征进行修改；利用修改后的初始特征序列，确定样本语音的模仿音检测结果；以样本语音的模仿音检测结果趋近于样本语音的标签为目标，对模仿音检测模型的参数进行更新。本申请公开的方案，在模型训练过程中对初始特征序列进行修改，相当于对样本语音增加了噪声或样本语音丢失了一部分有用信息，保证模型的准确性和鲁棒性。

Description

模型训练方法、模仿音检测方法、装置、设备及存储介质

技术领域

本申请涉及语音处理技术领域，更具体地说，涉及一种模型训练方法、模仿音检测方法、装置、设备及存储介质。

背景技术

语音处理在人们的工作和生活中都有广泛的应用，比如，语音控制、身份识别等。然而，声音具有易模仿，易伪造的缺点，比如，目前声音模仿的方式有如下三种：自然人主动模仿、机器合成语音、机器对自然人的语音进行参数调整，这就给语音处理的安全性带来威胁。

因此，有必要对语音数据进行模仿音检测，以避免对模仿音进行处理带来的安全威胁。

发明内容

有鉴于此，本申请提供了一种模型训练方法、模仿音检测方法、装置、设备及存储介质，以避免对模仿音进行处理带来的安全威胁。

为了实现上述目的，现提出的方案如下：

一种模仿音检测模型训练方法，包括：

对样本语音的各个语音帧分别进行特征提取，得到所述样本语音的初始特征序列；

对所述初始特征序列中的部分初始特征进行修改，得到修改后的特征序列；

利用所述修改后的特征序列，确定所述样本语音的各个语音帧的模仿音检测结果；

以所述样本语音的各个语音帧的模仿音检测结果趋近于所述样本语音的标签为目标，对所述模仿音检测模型的参数进行更新；所述标签表征所述样本语音中的各个语音帧是否为模仿音。

上述方法，优选的，所述对样本语音的各个语音帧分别进行特征提取，得到所述样本语音的初始特征序列，包括：

获取样本语音的各个语音帧的声学特征；

对各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，作为所述样本语音的初始特征序列。

上述方法，优选的，所述对所述初始特征序列中的部分初始特征进行修改，包括：

将所述样本语音的预置比例的语音帧的初始编码特征作为所述部分初始特征进行修改。

上述方法，优选的，所述将所述样本语音的预置比例的语音帧的初始编码特征作为所述部分初始特征进行修改，包括：

对所述预置比例的语音帧的初始编码特征在时域的预置位置进行修改和/或在频域的预置位置进行修改。

上述方法，优选的，所述利用所述修改后的特征序列，确定所述样本语音的各个语音帧的模仿音检测结果，包括：

对所述修后的特征序列中的每一个特征分别进行编码，得到各个语音帧的目标编码特征，作为所述样本语音的目标特征序列；

利用所述目标特征序列，确定所述样本语音的各个语音帧的模仿音检测结果。

上述方法，优选的，其特征在于，所述声学特征为翻转梅尔频率倒谱系数IMFCC。

上述方法，优选的，所述对所述样本语音的各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，包括：

对于每一个语音帧，获取该语音帧的声学特征的隐层特征，作为该语音帧的初始编码特征；或者，

对于每一个语音帧，获取该语音帧的声学特征的隐层特征；对该语音帧的声学特征进行二阶差分，得到该语音帧的第一动态特征；对该语音帧的隐层特征进行二阶差分，得到该语音帧的第二动态特征；将该语音帧的隐层特征、所述第一动态特征和所述第二动态特征融合，得到该语音帧的初始编码特征。

上述方法，优选的，所述对各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，包括：

对于每一语音帧，通过所述模仿音检测模型的第一编码模块获取该语音帧的声学特征的初始编码特征；

所述第一编码模块是基于预先训练好的语音分类模型中的第二编码模块获得的；所述语音分类模型是以由样本模仿音和样本自然人语音构成的样本语音对及其对应的标签对为训练数据训练好的；所述标签对用于标识所述样本语音对中的模仿音和自然人语音。

上述方法，优选的，所述对所述模仿音检测模型的参数进行更新包括对所述第一编码模块的参数的更新；或者，所述对所述模仿音检测模型的参数进行更新不包括对所述第一编码模块的参数的更新。

上述方法，优选的，所述语音分类模型通过如下方式训练得到：

通过所述第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码，得到各个模仿语音帧的编码特征和各个自然人语音帧的编码特征；

通过所述语音分类模型的特征处理模块将各个模仿语音帧的编码特征和各个自然人语音帧的编码特征融合，得到所述样本语音对的融合特征；利用所述融合特征，确定所述样本语音对中各语音的语音分类结果；

以所述样本语音对中各语音的语音分类结果趋近于所述样本语音对对应的标签对为目标，对所述第二编码模块和所述特征处理模块的参数进行更新。

上述方法，优选的，所述将所述样本模仿音的编码特征和所述样本自然人语音的编码特征融合，得到所述样本语音对的融合特征，包括：

按照模仿语音帧和自然人语音帧帧一一对应拼接的原则，将所述样本模仿音的各个模仿语音帧的编码特征和所述样本自然人语音的各个自然人语音帧的编码特征进行拼接，得到所述样本语音对的融合特征。

上述方法，优选的，所述通过所述第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码，包括：

对于每一个模仿语音帧，通过所述第二编码模块获取该模仿语音帧的声学特征的隐层特征，作为该模仿语音帧的编码特征；

对于每一个自然人语音帧，通过所述第二编码模块获取该自然人语音帧的声学特征的隐层特征，作为该自然人语音帧的编码特征。

对于所述样本模仿音的每一个模仿语音帧，获取该模仿语音帧的声学特征的隐层特征；对于所述样本自然人语音的每一个自然人语音帧，获取该自然人语音帧的声学特征的隐层特征；

对每一个模仿语音帧的声学特征分别进行二阶差分，得到各个模仿语音帧的第一动态特征；对每一个自然人语音帧帧的声学特征分别进行二阶差分，得到各个自然人语音帧帧的第一动态特征；

对每一个模仿语音帧的隐层特征分别进行二阶差分，得到各个模仿语音帧的第二动态特征；对每一个自然人语音帧的隐层特征分别进行二阶差分，得到各个自然人语音帧的第二动态特征；

对于每一个模仿语音帧，将该模仿语音帧的隐层特征、第一动态特征和第二动态特征融合，得到该模仿语音帧的编码特征；对于每一个自然人语音帧，将该自然人语音帧的隐层特征、第一动态特征和第二动态特征融合，得到该自然人语音帧的编码特征。

上述方法，优选的，训练所述模仿音检测模型所用的训练数据集包括第一数据集，所述第一数据集中包括采集的语音，以及如下几种语音中的至少一种：对所述采集的语音进行变速得到的变速语音，对所述采集的语音进行加噪处理得到的噪声语音；其中，所述采集的语音包括采集的模仿音和采集的自然人语音；

所述样本语音为所述第一数据集中的任意一种语音。

一种模仿音检测方法，包括：

获取待检测语音；

将所述待检测语音输入如上所述的模仿音检测模型训练方法训练得到的模仿音检测模型，得到模仿音检测结果。

一种模仿音检测模型训练装置，包括：

特征提取模块，用于通过所述模仿音检测模型对样本语音的各个语音帧分别进行特征提取，得到所述样本语音的初始特征序列；

修改模块，用于通过所述模仿音检测模型对所述初始特征序列中的部分初始特征进行修改，得到修改后的特征序列；

确定模块，用于通过所述模仿音检测模型利用所述修改后的特征序列，确定所述样本语音的各个语音帧的模仿音检测结果；

更新模块，用于过所述模仿音检测模型以所述样本语音的各个语音帧的模仿音检测结果趋近于所述样本语音的标签为目标，对所述模仿音检测模型的参数进行更新；所述标签表征所述样本语音中的各个语音帧是否为模仿音。

上述装置，优选的，所述特征提取模块可以包括：

声学特征获取模块，用于通过所述模仿音检测模型获取样本语音的各个语音帧的声学特征；

第一编码控制模块，用于通过所述模仿音检测模型对各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，作为所述样本语音的初始特征序列。

上述装置，优选的，所述修改模块具体可以用于通过所述模仿音检测模型将所述样本语音的预置比例的语音帧的初始编码特征作为所述部分初始特征进行修改。

上述装置，优选的，所述修改模块具体可以用于通过所述模仿音检测模型对所述预置比例的语音帧的初始编码特征在时域的预置位置进行修改和/或在频域的预置位置进行修改。

上述装置，优选的，所述确定模块可以包括：

第二编码控制模块，用于通过所述模仿音检测模型对所述修后的特征序列中的每一个特征分别进行编码，得到各个语音帧的目标编码特征，作为所述样本语音的目标特征序列；

结果确定模块，用于通过所述模仿音检测模型利用所述目标特征序列，确定所述样本语音的各个语音帧的模仿音检测结果。

上述装置，优选的，所述第一编码控制模块具体可以用于：对于每一个语音帧，获取该语音帧的声学特征的隐层特征，作为该语音帧的初始编码特征；

或者，

上述装置，优选的，所述第一编码控制模块具体可以用于：对于每一语音帧，通过所述模仿音检测模型的第一编码模块获取该语音帧的声学特征的初始编码特征；

上述装置，优选的，所述对所述模仿音检测模型的参数进行更新包括对所述第一编码模块的参数的更新；或者，所述对所述模仿音检测模型的参数进行更新不包括对所述第一编码模块的参数的更新。

上述装置，优选的，所述装置还包括语音分类模型训练模块，具体用于：

上述装置，优选的，所述语音分类模型训练模块在将所述样本模仿音的编码特征和所述样本自然人语音的编码特征融合，得到所述样本语音对的融合特征时，具体用于：

上述装置，优选的，所述语音分类模型训练模块在通过所述第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码时，具体用于：

一种模仿音检测装置，包括：

获取模块，用于获取待检测语音；

检测模块，用于将所述待检测语音输入如权利要求1-13任意一项所述的模仿音检测模型训练方法训练得到的模仿音检测模型，得到模音检测结果。

一种计算机设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的模仿音检测模型训练方法的各个步骤，或者，实现如上所述的模仿音检测方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的模仿音检测模型训练方法的各个步骤，或者，实现如上所述的模仿音检测方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的模型训练方法、模仿音检测方法、装置、设备及存储介质，通过模仿音检测模型对样本语音进行特征提取，得到样本语音的初始特征序列；对初始特征序列中的部分初始特征进行修改；利用修改后的初始特征序列，确定样本语音的模仿音检测结果；以样本语音的模仿音检测结果趋近于样本语音的标签为目标，对模仿音检测模型的参数进行更新。本申请公开的方案，在模型训练过程中对初始特征序列进行修改，相当于对样本语音增加了噪声或样本语音丢失了一部分有用信息，保证模型的准确性和鲁棒性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的模仿音检测模型训练方法的一种实现流程图；

图2为本申请实施例公开的对语音分类模型进行训练的一种实现流程图；

图3为本申请实施例公开的通过第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码的一种实现流程图；

图4为本申请实施例公开的语音分类模型的一种框架示例图；

图5为本申请实施例公开的模仿音检测模型的一种框架示例图；

图6为本申请实施例公开的模仿音检测模型训练装置的一种结构示意图；

图7为本申请实施例公开的模仿音检测装置的一种结构示意图；

图8为本申请实施例公开的模仿音检测模型训练设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

伴随着近年来智能语音合成技术的快速发展和广泛应用，通过合成算法自动生成的语音数据(可以简称为合成语音或合成音)逼真程度高，人类经常无法分辨真伪。这项技术的背后是无限的应用空间，但应用过程中的某些滥用行为却拉响了安全警报，引起人们对隐私和安全的担忧。例如，犯罪分子可以很轻松的通过互联网等渠道获取用户的声音，并利用语音合成算法生成与用户声音非常接近的合成语音，然后利用这些合成语音来进行电话诈骗，极大地威胁了用户的生命财产安全。除了合成语音，自然人主动模仿的语音，以及机器对自然人的语音进行参数调整得到的语音，同样会对用户的隐私和安全造成威胁。本申请实施例中，将合成语音、自然人主动模仿的语音，以及机器对自然人的语音进行参数调整得到的语音统称为模仿音。

但本申请的发明人研究发现，目前针对模仿音检测的检测技术，尚没有成熟的应用案例，相关技术距离实战应用存在着很大的差距。因此，很有必要研究高识别率、高鲁棒性的模仿音自动检测技术，填补相关技术空白。

下面对本申请的实施例进行说明。

请参阅图1，图1为本申请实施例提供的模仿音检测模型训练方法的一种实现流程图，可以包括：

步骤S11：对样本语音的各个语音帧分别进行特征提取，得到样本语音的初始特征序列。

样本语音可以是一段语音(时长通常大于语音帧的时长)，也可以是由一段语音进行分帧得到的语音帧序列。若样本语音是一段语音，则需要先将该样本语音进行分帧得到语音帧序列，然后再对语音帧序列中的各个语音帧分别进行特征提取。

可选的，可以获取样本语音的各个语音帧的声学特征；对各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，作为样本语音的初始特征序列。也就是说，对于每一语音帧，可以获取该语音帧的声学特征，然后对该语音帧的声学特征进行编码，得到该语音帧的初始编码特征。各个语音帧的初始编码特征构成样本语音的初始特征序列。

其中，声学特征可以为以下任意一种：梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)、感知线性预测(Perceptual LinearPrediction，PLP)特征、FBank(FilterBank)特征。

本申请的发明人研究发现，语音信号的高频段中包含着能够对自然人语音与模仿音进行区分的重要信息，而且，语音合成算法中大部分是利用目标说话人(即被模仿人)语音高频段的信息来合成信息的语音，因此，语音的高频段中包含着丰富的合成音有效区分因子，基于此，在一优选的实施例中，本申请采用的声学特征可以为翻转梅尔频率倒谱系数IMFCC。

步骤S12：对初始特征序列中的部分初始特征进行修改，得到修改后的特征序列。

其中，所述的部分初始特征在初始特征序列中的位置可以是连续的，也可以是不连续的，或者，可以是部分连续，部分不连续的。

在对部分初始特征进行修改时，不同初始特征中的修改位置可以相同，也可以不同，或者，部分初始特征中的修改位置相同，部分初始特征中的修改位置不同。

对部分初始特征进行修改可以理解为该部分特征丢失一部分有用信息，让模仿音检测模型通过学习，能够自动补全这些信息，从而对于输入数据更加鲁棒。或者，对部分初始特征进行修改可以理解为对样本语音增加了噪声，使得该部分特征的一部分有用信息因噪声的影响而发生变化，让模仿音检测模型通过学习对样本语音去噪，从而对于输入数据更加鲁棒。

步骤S13：利用修改后的特征序列，确定样本语音的各个语音帧的模仿音检测结果。

可选的，可以直接利用修改后的特征序列确定样本语音的各个语音帧的模仿音检测结果。或者，

可以对修改后的特征序列做进一步的编码，得到目标特征序列，然后，利用目标特征序列确定样本语音的各个语音帧的模仿音检测结果。具体的，可以对修后的特征序列中的每一个特征分别进行编码，得到各个语音帧的目标编码特征，作为样本语音的目标特征序列；利用该目标特征序列，确定样本语音的各个语音帧的模仿音检测结果。

步骤S14：以样本语音的各个语音帧的模仿音检测结果趋近于样本语音的标签为目标，对模仿音检测模型的参数进行更新；其中，样本语音的标签表征样本语音中的各个语音帧是否为模仿音。

其中，对模仿音检测模型的参数进行更新的算法可以参看已有的更新方案，这里不再赘述。

本申请实施例提供的模仿音检测模型训练方法，通过模仿音检测模型对样本语音进行特征提取，得到样本语音的初始特征序列；对初始特征序列中的部分初始特征进行修改；利用修改后的初始特征序列，确定样本语音的模仿音检测结果；以样本语音的模仿音检测结果趋近于样本语音的标签为目标，对模仿音检测模型的参数进行更新。本申请公开的方案，在模型训练过程中对初始特征序列进行修改，相当于样本语音丢失了一部分有用信息或对样本语音增加了噪声，从而保证了模仿音检测模型的准确性和鲁棒性。

在一可选的实施例中，上述对初始特征序列中的部分初始特征进行修改的一种实现方式可以为：

将样本语音的预置比例的语音帧的初始编码特征作为所述部分初始特征进行修改。

可选的，可以在初始特征序列中随机选择预置比例的语音帧的初始编码特征作为部分初始特征进行修改，或者，可以按照预置的选择策略在初始特征序列中随机选择预置比例的语音帧的初始编码特征作为部分初始特征进行修改。

作为示例，上述预置比例可以为20％。

可选的，可以对上述预置比例的语音帧的初始编码特征在时域的预置位置进行修改和/或在频域的预置位置进行修改。

本申请实施例中，可以对上述预置比例的语音帧的初始编码特征仅在时域的位置进行修改，或者，可以对上述预置比例的语音帧的初始编码特征仅在频域的位置进行修改，或者，对上述预置比例的语音帧中的一部分语音帧的初始编码特征在时域的位置进行修改，另一部分语音帧的初始编码特征在频域的位置进行修改。也就是说，上述预置比例的语音帧中的各个语音帧的初始编码特征的修改方式可以相同也可以不同。

不同的语音帧对应时域的不同位置。而每个语音帧的初始编码特征是由多个特征值组成的，不同的特征值对应频域的不同位置。基于此，对于每一个语音帧，对该语音帧的初始编码特征在时域预置进行修改是指将该语音帧的初始编码特征中的所有特征值均进行修改；对该语音帧的初始编码特征在频域预置进行修改是指将该语音帧的初始编码特征中的部分特征值进行修改。

其中，不管是对上述预置比例的语音帧的初始编码特征在时域的预置位置进行修改，还是在频域的预置位置进行修改，均可以将修改位置处的特征值置为预设值，比如，置零，当然，本申请并不限于置为零，也可以置为其它值。为了保证模型训练过程能够快速收敛，训练过程中，每次修改时可以将修改位置处的特征值置为相同的预设值。

比如，假设现在有10帧语音帧，每一帧语音帧的初始编码特征包括N个特征值，将第i帧语音帧的初始编码特征记为F_i＝[f_i1，f_i2，f_i3，…，f_iN]，i＝1，2，3，…，10。假设对该10帧语音帧中的两帧语音帧(假设为第2帧和第6帧)的初始编码特征进行修改，其中，第2帧的初始编码特征为F₂＝[f₂₁，f₂₂，f₂₃，…，f_2N]，第6帧的初始编码特征为F₆＝[f₆₁，f₆₂，f₆₃，…，f_6N]，则：

如果是对第2帧和第6帧的初始编码特征在时域进行修改，则可以将第第2帧和第6帧的初始编码特征均置零，即第2帧的初始编码特征中的特征值全变为0，即：F₂＝[0，0，0，…，0]，同样，第6帧的初始编码特征中的特征值也全变为0，即：F₆＝[0，0，0，…，0]。

如果是对第2帧和第6帧的初始编码特征在频域进行修改，则可以将第第2帧和第6帧的初始编码特征中的部分特征值置零，假设是将f_i5-f_i10这六个位置的值置为零，则第2帧的初始编码特征变为F₂＝[f₂₁，f₂₂，f₂₃，f₂₄，0，0，0，0，0，0，f₂₁₁，f₂₁₂，…，f_2N]，第6帧的初始编码特征变为F₆＝[f₆₁，f₆₂，f₆₃，f₆₄，0，0，0，0，0，0，f₆₁₁，f₆₁₂，…，f_6N]。

如果是对第2帧的初始编码特征在时域置零，对第6帧的初始编码特征在频域进行置零(假设将f_i5-f_i10这六个位置的值置为零)，则第2帧的初始编码特征变为F₂＝[0，0，0，…，0]，第6帧的初始编码特征变为F₆＝[f₆₁，f₆₂，f₆₃，f₆₄，0，0，0，0，0，0，f₆₁₁，f₆₁₂，…，f_6N]。

在一可选的实施例中，上述对样本语音的各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征的一种实现方式可以为：

对于每一个语音帧，获取该语音帧的声学特征的隐层特征，将该隐层特征作为该语音帧的初始编码特征。

具体获取隐层特征的过程可以参考已有的一些方案，本申请不做具体限制。

为了进一步提高模仿音检测模型检测的准确度，在另一可选的实施例中，上述对样本语音的各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征的另一种实现方式可以为：

对于每一个语音帧，获取该语音帧的声学特征的隐层特征；

对该语音帧的声学特征进行二阶差分，得到该语音帧的第一动态特征。

语音帧的声学特征通常是一个特征值序列，对该语音帧的声学特征进行一阶差分则是计算该语音帧的声学特征中连续相邻两个特征值之差。例如，假设语音帧的声学特征中第k个特征值为X(k)，k＝1，2，3，……M，M为声学特征中特征值的数量，则一阶差分结果中的第k个特征为Y(k)＝X(k+1)-X(k)，显然，一阶差分结果中仅有M-1个一阶差分值。对声学特征进行二阶差分就是对一阶差分的结果再进行一阶差分，则二阶差分结果中的第k个特征为Z(k)＝Y(k+1)-Y(k)＝X(k+2)-2X(k+1)+X(k)，显然，二阶差分结果中仅有M-2个二阶差分值。

对该语音帧的隐层特征进行二阶差分，得到该语音帧的第二动态特征；语音帧的隐层特征也通常为特征值序列，因此，二阶差分的过程可以参看前述对声学特征进行二阶差分的过程，这里不再详述。

将该语音帧的隐层特征、第一动态特征和第二动态特征融合，得到该语音帧的初始编码特征。

本发明对具体的融合方式不做限定，可选的，可以将该语音帧的隐层特征、第一动态特征和第二动态特征进行拼接，得到拼接特征，将该拼接特征作为该语音帧的初始编码特征。或者，

将该语音帧的隐层特征、第一动态特征和第二动态特征进行拼接，得到拼接特征，然后对该拼接特征进行处理(比如，维度变换和/或通道变换等)，得到该语音帧的初始编码特征。

或者，可以从隐层特征、第一动态特征和第二动态特征选取预设位置的特征进行拼接，得到该语音帧的初始编码特征。

本申请的发明人研究发现，声学特征以及声学特征的隐层特征体现的是语音帧的静态特征，而对声学特征进行二阶差分得到是语音帧的一个动态特征；对该语音帧的隐层特征进行二阶差分得到的是语音帧的另一个动态特征，将语音帧的隐层特征、第一动态特征和第二动态特征融合得到的语音帧的初始编码特征是融合了语音帧的静态特征和编码特征的特征，基于该特征进行模仿音检测，能够进一步提高模仿音检测的准确度。

在一可选的实施例中，上述对各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，包括：

对于每一语音帧，通过模仿音检测模型的第一编码模块获取该语音帧的声学特征的初始编码特征；其中，

第一编码模块是基于预先训练好的语音分类模型中的第二编码模块获得的；语音分类模型是以由样本模仿音和样本自然人语音构成的样本语音对及其对应的标签对为训练数据训练好的；每个样本语音对对应的标签对用于标识样本语音对中的模仿音和自然人语音。第二编码模块用于对样本语音对中的样本模仿音的各个语音帧(为便于区分，将样本模仿音的语音帧记模仿语音帧)和样本自然人语音的各个语音帧(为便于区分，将样本自然人语音的语音帧记为自然人语音帧)进行编码。

具体的，第一编码模块的初始参数为第二编码模块的参数。在对模仿音检测模型的参数进行更新时，可以对第一编码模块的参数进行更新；或者，在对模仿音检测模型的参数进行更新时，可以不对第一编码模块的参数进行更新，即在模仿音检测模型训练过程中，第一编码模块的参数保持不变，模仿音检测模型训练好后，模仿音检测模型中的第一编码模块就是第二编码模块。

下面说明语音分类模型的训练过程。

为了能够快速有效地学习到自然人语音与模仿音之间的区分性信息，提高模仿音检测的准确率，本申请提出了一种将模仿音与自然人语音排列组合成语音对来对语音分类模型进行了联合区分性训练策略，该方法能够扩充训练数据，例如，原始训练样本中有1000条模仿音，10000条自然人语音，共11000条训练数据。通过该策略组合成{模仿音，自然人语音}样本语音对和{自然人语音，模仿音}样本语音对，能排列组合成1000×10000×2对训练数据，较原始训练集数量提高了3个数量级，极大的提高了训练数据信息量，从而使得语音分类模型能够充分学习，达到快速有效地学习到自然人语音与模仿音之间的区分性信息，提高模仿音检测的准确率的目的。将训练数据集排列组合成语音对后，相应的标签也变为标签对，比如，原始训练样本中，模仿音对应的标签为0，自然人语音对应的标签为1，则{模仿音，自然人语音}样本语音对所对应的标签对为[0,1]，{自然人语音，模仿音}样本语音对所对应的标签对为[1,0]。可选的，原始训练样本中的模仿音可以仅包含一种类型的模仿音，比如，均为合成语音，或者，均为自然人模仿语音，或者，均为机器对自然人的语音进行参数调整得到的语音。当然，原始训练样本中的模仿音也可以包含至少两种类型的模仿音，例如，可以包含上述三种类型的模仿音中的至少两种模仿音。

本申请实施例中，语音分类模型包括第二编码模块和特征处理模块；其中，

第二编码模块用于对样本语音对中的样本模仿音的各个模仿语音帧的声学特征分别进行编码，得到各个模仿语音帧的编码特征；对样本语音对中的样本自然人语音的各个自然人语音帧的声学特征分别进行编码，得到各个自然人语音帧的编码特征。

特征处理模块用于将各个模仿语音帧的编码特征和各个自然人语音帧的编码特征融合，得到样本语音对的融合特征；利用该融合特征，确定样本语音对中各语音的语音分类结果。

基于此，本申请提供的对语音分类模型进行训练的一种实现流程图如图2所示，可以包括：

步骤S21：通过第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码，得到各个模仿语音帧的编码特征和各个自然人语音帧的编码特征。

具体训练过程中，可以仅有一个第二编码模块，则该第二编码模块对样本语音对中的样本模仿音和样本自然人语音依次进行语音帧的声学特征的编码，即第二编码模块先对样本语音对中的样本模仿音的各个模仿语音帧的声学特征分别进行编码，得到各个模仿语音帧的编码特征，然后再对样本语音对中的样本自然人语音的各个自然人语音帧的声学特征分别进行编码，得到各个自然人语音帧的编码特征。或者，第二编码模块先对样本语音对中的样本自然人语音的各个自然人语音帧的声学特征分别进行编码，得到各个自然人语音帧的编码特征，然后再对样本语音对中的样本模仿音的各个模仿语音帧的声学特征分别进行编码，得到各个模仿语音帧的编码特征。

在训练过程中，也可以设置两个第二编码模块，记为第二编码模块a和第二编码模块b，其中，第二编码模块a用于对样本语音对中的样本自然人语音的各个自然人语音帧的声学特征分别进行编码，得到各个自然人语音帧的编码特征，第二编码模块b用于对样本语音对中的样本模仿音的各个模仿语音帧的声学特征分别进行编码，得到各个模仿语音帧的编码特征。在训练过程中，两个编码模块的参数保持一致。

步骤S22：通过特征处理模块将各个模仿语音帧的编码特征和各个自然人语音帧的编码特征融合，得到样本语音对的融合特征；利用该融合特征，确定样本语音对中各语音的语音分类结果。

可选的，将各个模仿语音帧的编码特征和各个自然人语音帧的编码特征融合的过程可以包括：

按照模仿语音帧和自然人语音帧帧一一对应拼接的原则，将样本模仿音的各个模仿语音帧的编码特征和样本自然人语音的各个自然人语音帧的编码特征进行拼接，得到样本语音对的融合特征。

比如，假设样本模仿音包括5帧语音帧，依次为Y11，Y12，Y13，Y14，Y15，样本自然人语音也包括5帧语音帧，依次为Y21，Y22，Y23，Y24，Y25，则将各个模仿语音帧的编码特征和各个自然人语音帧的编码特征融合具体可以为：将语音帧Y11的编码特征和语音帧Y21的编码特征进行拼接，将语音帧Y12的编码特征和语音帧Y22的编码特征进行拼接，将语音帧Y13的编码特征和语音帧Y23的编码特征进行拼接，将语音帧Y14的编码特征和语音帧Y24的编码特征进行拼接，将语音帧Y15的编码特征和语音帧Y25的编码特征进行拼接。

步骤S23：以样本语音对中各语音的语音分类结果趋近于样本语音对对应的标签对为目标，对第二编码模块和特征处理模块的参数进行更新。

具体更新算法可以采用已有的方案，这里不再详述。

在一可选的实施例中，上述通过第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码的一种实现方式可以为：

对于每一个模仿语音帧，通过第二编码模块获取该模仿语音帧的声学特征的隐层特征，作为该模仿语音帧的编码特征；

对于每一个自然人语音帧，通过第二编码模块获取该自然人语音帧的声学特征的隐层特征，作为该自然人语音帧的编码特征。

为了进一步提高语音分类模型分类的准确度，在另一可选的实施例中，上述通过第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码的一种实现流程图如图3所示，可以包括：：

步骤S31：对于样本模仿音的每一个模仿语音帧，获取该模仿语音帧的声学特征的隐层特征；对于样本自然人语音的每一个自然人语音帧，获取该自然人语音帧的声学特征的隐层特征。

步骤S32：对每一个模仿语音帧的声学特征分别进行二阶差分，得到各个模仿语音帧的第一动态特征；对每一个自然人语音帧帧的声学特征分别进行二阶差分，得到各个自然人语音帧帧的第一动态特征。

步骤S33：对每一个模仿语音帧的隐层特征分别进行二阶差分，得到各个模仿语音帧的第二动态特征；对每一个自然人语音帧的隐层特征分别进行二阶差分，得到各个自然人语音帧的第二动态特征。

其中，步骤S32与步骤S33的具体实现过程不做具体限定，可以先执行步骤S32，再执行步骤S33，或者，先执行步骤S33，再执行步骤S32，获知额，步骤S32与步骤S33同时执行。

步骤S34：对于每一个模仿语音帧，将该模仿语音帧的隐层特征、第一动态特征和第二动态特征融合，得到该模仿语音帧的编码特征；对于每一个自然人语音帧，将该自然人语音帧的隐层特征、第一动态特征和第二动态特征融合，得到该自然人语音帧的编码特征。

传统的用于对模仿音检测模型进行训练的训练数据集中仅包括在无噪声环境下采集的干净语音，利用这种训练数据集训练得到的模仿音检测模型在干净的环境下表现良好，而在噪声环境下模仿音检测的正确率急速下降以及不能有效检测未知的模仿音，针对这一问题，本申请从提高模仿音检测算法的鲁棒性的角度，对传统的用于对模仿音检测模型进行训练的训练数据集进行增广处理。具体的，

本申请实施例中，对干净语音采用加噪、变速等手段进行处理，得到噪声语音和变速语音，将干净语音与噪声语音和变速语音混合在一起作为本申请的模仿音检测模型的训练数据。

也就是说，本申请中，对模仿音检测模型进行训练的训练数据集中至少包括第一数据集，该第一数据集中包括采集的语音(即干净语音)，以及如下几种语音中的至少一种：对采集的语音进行变速得到的变速语音，对采集的语音进行加噪处理得到的噪声语音；其中，采集的语音包括采集的模仿音和采集的自然人语音；样本语音即为第一数据集中的任意一种语音。

如前所述，模仿音检测模型中的第一编码模块的初始参数可以与第二编码模块的参数相同，即第一编码模块是经过预训练的，因此，对模仿音检测模型进行训练的训练数据集除了包括第一数据集外，还包括第二数据集，其中，第二数据集用于对第一编码模块进行预训练，该预训练过程，也就是前述对语音分类模型的训练过程。第一数据集用于对模仿音检测模型进行训练，训练过程中的参数更新过程可以包括对第一编码模块的参数的更新，也可以不包括对第一编码模块的参数的更新。

在一可选的实施例中，模仿音检测模型中的第一编码模块的初始参数也可以是随机初始化的，也就是说第一编码模块可以不经过预训练，此时，对模仿音检测模型进行训练的训练数据集仅包括第一数据集。

下面结合语音分类模型和模仿音检测模型的框架示例图对语音分类模型和模仿音检测模型的具体实现方式进行说明。

如图4所示，为本申请实施例提供的语音分类模型的一种框架示例图。该示例中，输入模型的样本语音对为{样本合成音，样本自然人语音}，或者是{样本自然人语音，样本合成音}，其中，样本合成音输入第二编码模块b，样本自然人语音输入第二编码模块a，这两个第二编码模块结构相同，且共享参数，每个第二编码模块均包括IMFCC特征提取模块，3层LSTM层、全连接层(即图中的FC线性层)，两个二阶差分模块和一个特征拼接模块。

以第二编码模块b为例，IMFCC特征提取模块提取的声学特征为IMFCC_0，声学特征IMFCC_0经过三层LSTM层的处理，得到初始隐层特征IMFCC_LSTM_0，初始隐层特征IMFCC_LSTM_0，经过FC线性层进行处理，到隐层特征IMFCC_LSTM_BN_0。声学特征IMFCC_0经过二阶差分处理得到第一动态特征0，隐层特征IMFCC_LSTM_BN_0经过二阶差分处理得到第二动态特征0，将隐层特征IMFCC_LSTM_BN_0，第一动态特征0，第二动态特征0这三者按语音帧进行拼接(即三者中对应同一语音帧的特征拼接在一起)，得到合成音对应的编码特征IMFCC_LSTM_BN_01。第二编码模块a的处理流程可以参看第二编码模块b的处理流程，这里不再赘述。

将合成音对应的编码特征IMFCC_LSTM_BN_01和自然人语音对应的编码特征IMFCC_LSTM_BN_11拼接，得到融合特征，利用融合特征确定样本语音对中样本合成音的类别(0或1)和样本自然人语音的类别(0或1)，其中，0表征合成音，1表征自然人语音。

根据模型输出的样本语音对中样本合成音的类别和样本自然人语音的类别，以及样本语音对对应的标签对对语音分类模型的参数进行更新，其中，第二编码模块a和第二编码模块b的参数保持同步。

在语音分类模型训练好之后，对模仿音检测模型进行训练。如图5所示，为本申请实施例提供的模仿音检测模型的一种框架示例图。该示例中，输入模型的是样本语音，该样本语音可以是采集的语音，或者是变速语音，或者是加噪语音。初始的第一编码模块即是训练好的语音分类模型中第二编码模块a，也就是说第一编码模块的初始参数为训练好的语音分类模型中第二编码模块a的参数。第一编码模块对样本语音进行处理得到初始特征序列，修改模块对初始特征序列进行修改得到修改后的特征序列，修改后的特征序列经5层DNN分类网络，得到目标特征序列，分类层根据目标特征类别确定样本语音的类别(0或1)。根据样本语音的类别以及样本语音对应的标签对模仿音检测模型的参数进行更新，该更新可以包括对第一编码模块的参数的更新，也可以不包括对第一编码模块的参数的更新。

在模仿音检测模型训练好之后，就可以利用训练好的模仿音检测模型进行模仿音检测了，基于此，本申请实施例还提供一种模仿音检测方法，包括：

获取待检测语音；

将待检测语音输入如上所述的模仿音检测模型训练方法训练得到的模仿音检测模型，得到待检测语音的模仿音检测结果。

与方法实施例相对应，本申请实施例还提供一种模仿音检测模型训练装置，如图6所示，为本申请实施例提供的模仿音检测模型训练装置的一种结构示意图，可以包括：

特征提取模块61，修改模块62，确定模块63和更新模块64；其中，

特征提取模块61用于通过所述模仿音检测模型对样本语音的各个语音帧分别进行特征提取，得到所述样本语音的初始特征序列；

修改模块62用于通过所述模仿音检测模型对所述初始特征序列中的部分初始特征进行修改，得到修改后的特征序列；

确定模块63用于通过所述模仿音检测模型利用所述修改后的特征序列，确定所述样本语音的各个语音帧的模仿音检测结果；

更新模块64用于过所述模仿音检测模型以所述样本语音的各个语音帧的模仿音检测结果趋近于所述样本语音的标签为目标，对所述模仿音检测模型的参数进行更新；所述标签表征所述样本语音中的各个语音帧是否为模仿音。

本申请实施例提供的模仿音检测模型训练装置，通过模仿音检测模型对样本语音进行特征提取，得到样本语音的初始特征序列；对初始特征序列中的部分初始特征进行修改；利用修改后的初始特征序列，确定样本语音的模仿音检测结果；以样本语音的模仿音检测结果趋近于样本语音的标签为目标，对模仿音检测模型的参数进行更新。本申请公开的方案，在模型训练过程中对初始特征序列进行修改，相当于样本语音丢失了一部分有用信息或对样本语音增加了噪声，从而保证了模仿音检测模型的准确性和鲁棒性。

在一可选的实施例中，特征提取模块61可以包括：

在一可选的实施例中，修改模块62具体可以用于通过所述模仿音检测模型将所述样本语音的预置比例的语音帧的初始编码特征作为所述部分初始特征进行修改。

在一可选的实施例中，修改模块62具体可以用于通过所述模仿音检测模型对所述预置比例的语音帧的初始编码特征在时域的预置位置进行修改和/或在频域的预置位置进行修改。

在一可选的实施例中，确定模块63可以包括：

在一可选的实施例中，第一编码控制模块具体可以用于：对于每一个语音帧，获取该语音帧的声学特征的隐层特征，作为该语音帧的初始编码特征；

或者，

在一可选的实施例中，第一编码控制模块具体可以用于：对于每一语音帧，通过所述模仿音检测模型的第一编码模块获取该语音帧的声学特征的初始编码特征；

在一可选的实施例中，所述对所述模仿音检测模型的参数进行更新包括对所述第一编码模块的参数的更新；或者，所述对所述模仿音检测模型的参数进行更新不包括对所述第一编码模块的参数的更新。

在一可选的实施例中，还包括语音分类模型训练模块，具体用于：

在一可选的实施例中，语音分类模型训练模块在将所述样本模仿音的编码特征和所述样本自然人语音的编码特征融合，得到所述样本语音对的融合特征时，具体用于：

在一可选的实施例中，语音分类模型训练模块在通过所述第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码时，具体用于：

与方法实施例相对应，本申请实施例还提供一种模仿音检测装置，如图7所示，为本申请实施例提供的模仿音检测装置的一种结构示意图，可以包括：

获取模块71，用于获取待检测语音；

检测模块72，用于将所述待检测语音输入如上所述的模仿音检测模型训练方法训练得到的模仿音检测模型，得到模音检测结果。

本申请实施例提供的模仿音检测模型训练装置可应用于模仿音检测模型训练设备，如PC终端、云平台、服务器及服务器集群等。可选的，图8示出了模仿音检测模型训练设备的硬件结构框图，参照图8，模仿音检测模型训练设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC

(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

可选的，本申请实施例提供的模仿音检测装置可应用于模仿音检测设备，如PC终端、云平台、服务器及服务器集群等。可选的，模仿音检测设备的硬件结构框图与模仿音检测模型训练设备的结构框图可以相同，不同之处在一存储器中存储的程序，模仿音检测设备中的存储器中存储的程序用于：

获取待检测语音；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

或者，所述程序用于：

获取待检测语音；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模仿音检测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对样本语音的各个语音帧分别进行特征提取，得到所述样本语音的初始特征序列，包括：

获取样本语音的各个语音帧的声学特征；

3.根据权利要求2所述的方法，其特征在于，所述对所述初始特征序列中的部分初始特征进行修改，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述样本语音的预置比例的语音帧的初始编码特征作为所述部分初始特征进行修改，包括：

5.根据权利要求3所述的方法，其特征在于，所述利用所述修改后的特征序列，确定所述样本语音的各个语音帧的模仿音检测结果，包括：

6.根据权利要求2所述的方法，其特征在于，所述对所述样本语音的各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，包括：

7.根据权利要求2所述的方法，其特征在于，所述对各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，包括：

8.根据权利要求7所述的方法，其特征在于，所述对所述模仿音检测模型的参数进行更新包括对所述第一编码模块的参数的更新；或者，所述对所述模仿音检测模型的参数进行更新不包括对所述第一编码模块的参数的更新。

9.根据权利要求7所述的方法，其特征在于，所述语音分类模型通过如下方式训练得到：

10.根据权利要求9所述的方法，其特征在于，所述通过所述第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码，包括：

11.根据权利要求1所述的方法，其特征在于，训练所述模仿音检测模型所用的训练数据集包括第一数据集，所述第一数据集中包括采集的语音，以及如下几种语音中的至少一种：对所述采集的语音进行变速得到的变速语音，对所述采集的语音进行加噪处理得到的噪声语音；其中，所述采集的语音包括采集的模仿音和采集的自然人语音；

所述样本语音为所述第一数据集中的任意一种语音。

12.一种模仿音检测方法，其特征在于，包括：

获取待检测语音；

将所述待检测语音输入如权利要求1-11任意一项所述的模仿音检测模型训练方法训练得到的模仿音检测模型，得到模仿音检测结果。

13.一种模仿音检测模型训练装置，其特征在于，包括：

14.一种模仿音检测装置，其特征在于，包括：

获取模块，用于获取待检测语音；

检测模块，用于将所述待检测语音输入如权利要求1-11任意一项所述的模仿音检测模型训练方法训练得到的模仿音检测模型，得到模音检测结果。

15.一种计算机设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-11中任一项所述的模仿音检测模型训练方法的各个步骤，或者，实现如权利要求12所述的模仿音检测方法的各个步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-11中任一项所述的模仿音检测模型训练方法的各个步骤，或者，实现如权利要求12所述的模仿音检测方法的各个步骤。