CN110428845A

CN110428845A - 合成音频检测方法、系统、移动终端及存储介质

Info

Publication number: CN110428845A
Application number: CN201910669706.XA
Authority: CN
Inventors: 曾志先; 肖龙源; 李稀敏; 蔡振华; 刘晓葳; 王静
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-08

Abstract

本发明适用于音频检测技术领域，提供了一种合成音频检测方法、系统、移动终端及存储介质，该方法包括：分别获取真实语音数据和合成语音数据，并对真实语音数据和合成语音数据进行音频特征提取，以对应得到真实音频特征和合成音频特性；分别对真实音频特征和合成音频特征进行归一处理，并根据归一处理后的真实音频特征和合成音频特征对预设网络模型进行训练，以得到音频检测模型；将待测音频输入音频检测模型，并控制音频检测模型进行检测计算，以输出检测结果。本发明无需进行人工特征选择，通过音频检测模型自动学习最合适的音频特征以作为判断是否为机器合成说话人录音的方式，提高了特征的代表性，进而提高了音频检测效率和音频检测的准确性。

Description

合成音频检测方法、系统、移动终端及存储介质

技术领域

本发明属于音频检测技术领域，尤其涉及一种合成音频检测方法、系统、移动终端及存储介质。

背景技术

声纹识别技术是实现通过声音来判断说话人身份的技术，主要应用于银行，金融，安防等领域，该技术有成本低，效率高的特点，声纹识别技术的缺陷在于容易遭受录音重放、语音合成、语音生成、语音转换等技术的攻击，导致识别系统将非真实说话人语音判断为说话人语音，攻击者可以通过输入文字到机器然后合成出与说话人相似的语音，从而欺骗识别系统，导致识别系统将机器合成的语音判断为说话人的语音，因此，在声纹识别技术的使用过程中，对待测音频的合成音频检测步骤尤为重要。

现有的合成音频检测方法均需要人工进行声波特征选择后，通过采用声波匹配的方式，以对应进行待测音频的合成判断，即通过基于人工声波特征的选取，以使将待测音频的声波与预设声波进行波纹匹配，以得到合成判断结果，但由于基于人工特征选取的声波匹配方式使得音频检测效率低下，且音频检测精准度差。

发明内容

本发明实施例的目的在于提供一种合成音频检测方法、系统、移动终端及存储介质，旨在解决现有的合成音频检测方法音频检测效率低且音频检测精准度差的问题。

本发明实施例是这样实现的，一种合成音频检测方法，所述方法包括：

分别获取真实语音数据和合成语音数据，并对所述真实语音数据和所述合成语音数据进行音频特征提取，以对应得到真实音频特征和合成音频特性；

分别对所述真实音频特征和所述合成音频特征进行归一处理，并根据归一处理后的所述真实音频特征和所述合成音频特征对预设网络模型进行训练，以得到音频检测模型；

将待测音频输入所述音频检测模型，并控制所述音频检测模型进行检测计算，以输出检测结果。

更进一步的，所述对所述真实语音数据和所述合成语音数据进行音频特征提取的步骤包括：

分别将所述真实语音数据和所述合成语音数据中的语音进行合成拼接，以得到真实拼接语音和合成拼接语音；

根据预设语音时长分别对所述真实拼接语音和所述合成拼接语音进行等长切分，以得到真实等长语音数组和合成等长语音数组；

分别将所述真实等长语音数组和所述合成等长语音数组转换为预设维度的MFCC特征。

更进一步的，所述分别对所述真实音频特征和所述合成音频特征进行归一处理的步骤包括：

分别对所述真实音频特征和所述合成音频特征进行数值标准化处理，以得到真实音频原数值和合成音频原数值；

分别对所述真实音频原数值和所述合成音频原数值进行平均值计算和标准差计算，以得到真实音频平均值、真实音频标准差、合成音频平均值和合成音频标准差；

根据标准化计算公式分别对所述真实音频原数值和所述合成音频原数值进行计算，以得到真实音频归一值和合成音频归一值。

更进一步的，所述标准化计算公式为：

D₁＝(A₁-B₁)/C₁；

其中，A₁为所述真实音频原数值、B₁为所述真实音频平均值、C₁为所述真实音频标准差、D1为所述真实音频归一值；

D₂＝(A₂-B₂)/C₂；

其中，A₂为所述合成音频原数值、B₂为所述合成音频平均值、C₂为所述合成音频标准差、D2为所述合成音频归一值。

更进一步的，所述根据归一处理后的所述真实音频特征和所述合成音频特征对预设网络模型进行训练的步骤包括：

将所述真实音频特征设置为正样本、所述合成音频特征设置为负样本；

将总样本数据的第一预设百分比对应的数据设置为训练集、第二预设百分比对应的数据设置为测试集；

在所述预设网络模型中加入预设损失函数，采用预设优化算法进行损失值的优化，并进行预设次数的迭代训练。

更进一步的，所述预设损失函数采用交叉熵损函数，所述预设优化算法采用Adam算法，所述预设次数为2000次。

更进一步的，所述检测结果包括真实音频分数值和合成音频分数值，所述输出检测结果的步骤之后，所述方法还包括：

采用SoftMax函数对所述真实音频分数值和所述合成音频分数值进行概率计算，以得到合成概率值；

判断所述合成概率值是否大于概率阈值；

若是，则判定所述待测音频为合成音频；

若否，则判定所述待测音频为真实音频。

本发明实施例的另一目的在于提供一种合成音频检测系统，所述系统包括：

音频特征提取模块，用于分别获取真实语音数据和合成语音数据，并对所述真实语音数据和所述合成语音数据进行音频特征提取，以对应得到真实音频特征和合成音频特性；

模型训练模块，用于分别对所述真实音频特征和所述合成音频特征进行归一处理，并根据归一处理后的所述真实音频特征和所述合成音频特征对预设网络模型进行训练，以得到音频检测模型；

音频判断模块，用于将待测音频输入所述音频检测模型，并控制所述音频检测模型进行检测计算，以输出检测结果。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的合成音频检测方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的合成音频检测方法的步骤。

本发明实施例无需进行人工特征选择，通过所述音频检测模型自动学习最合适的音频特征以作为判断是否为机器合成说话人录音的方式，提高了特征的代表性，进而提高了音频检测效率和音频检测的准确性，通过对所述真实音频特征和所述合成音频特征进行归一处理的设计，有效的降低了极值或者噪声对音频特征的影响，进而提高了所述音频检测模型训练数据的准确性。

附图说明

图1是本发明第一实施例提供的合成音频检测方法的流程图；

图2是本发明第二实施例提供的合成音频检测方法的流程图；

图3是本发明第三实施例提供的合成音频检测系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的合成音频检测方法的流程图，包括步骤：

步骤S10，分别获取真实语音数据和合成语音数据，并对所述真实语音数据和所述合成语音数据进行音频特征提取，以对应得到真实音频特征和合成音频特性；

其中，该步骤可以通过采用语音合成接口的方式，以使批量生成合成语音，该合成语音的类型涵盖20种左右，共15000条，平均每条语音时长5-8秒，以得到所述合成语音数据，优选的，该步骤中同时进行真实语音的采集，采集到的真实语音共20000条，平均每条语音时长3-5秒，以得到所述真实语音数据；

具体的，该步骤中可以通过采用函数计算公式或函数矩阵等方式，以自动进行音频特征的提取，且通过音频特征的提取设计，有效的方便了后续模型的训练，提高了模型的训练效率；

步骤S20，分别对所述真实音频特征和所述合成音频特征进行归一处理，并根据归一处理后的所述真实音频特征和所述合成音频特征对预设网络模型进行训练，以得到音频检测模型；

其中，通过对所述真实音频特征和所述合成音频特征进行归一处理的设计，有效的降低了极值或者噪声对音频特征的影响，进而提高了所述音频检测模型训练数据的准确性；

该步骤中，通过将所有经归一化处理后的所述真实音频特征作为正样本数据、所述合成音频特征作为负样本数据编写入所述预设网络模型中进行训练，以得到所述音频检测模块，优选的，所述预设网络模型为LSTM网络模型，所述音频检测模型为一个二分类的模型；

步骤S30，将待测音频输入所述音频检测模型，并控制所述音频检测模型进行检测计算，以输出检测结果；

具体的，该步骤中，通过使用所述音频检测模型中的1层LSTM结构的RNN循环网络，隐藏层神经元个数128，以输出两个数值，第一个数值是所述待测音频为真实用户语音的分数，第二个数值是所述待测音频为机器合成说话人录音的分数，本实施例中，之所以使用RNN网络作为网络结构，是因为RNN可以充分利用时序方面的信息，结合前后的信息来做出概率的判断，而音频数据恰好就是建立在时序关系上面的，因此，通过RNN网络作为网络结构，有效的提高了所述音频检测模型的音频检测的准确性；

本实施例无需进行人工特征选择，通过所述音频检测模型自动学习最合适的音频特征以作为判断是否为机器合成说话人录音的方式，提高了特征的代表性，进而提高了音频检测效率和音频检测的准确性，通过对所述真实音频特征和所述合成音频特征进行归一处理的设计，有效的降低了极值或者噪声对音频特征的影响，进而提高了所述音频检测模型训练数据的准确性。

实施例二

请参阅图2，是本发明第二实施例提供的合成音频检测方法的流程图，包括步骤：

步骤S11，分别获取真实语音数据和合成语音数据，并分别将所述真实语音数据和所述合成语音数据中的语音进行合成拼接，以得到真实拼接语音和合成拼接语音；

其中，可以通过采用依序拼接或随机拼接的方式以进行语音的合成，该步骤中，通过所述真实拼接语音和所述合成拼接语音的合成设计，有效的方便了后续音频特征的提取；

步骤S21，根据预设语音时长分别对所述真实拼接语音和所述合成拼接语音进行等长切分，以得到真实等长语音数组和合成等长语音数组；

其中，所述预设语音时长可以根据用户需求自主进行参数设置，例如2秒、3秒或4秒等，本实施例中，所述预设语音时长为4秒，具体的，该步骤中，所述合成语音数据中的语音共15000条左右，平均每条语音时长5-8秒，通过将15000条语音拼接，以得到所述合成拼接语音，然后进行等长切分，切分为100000条4秒的语音，以得到所述合成等长语音数组；

可以理解的，本实施例中，所述真实语音数据中的语音共20000条，平均每条语音时长3-5秒，将这20000条语音拼接起来，以得到所述真实拼接语音，然后进行等长切分，切分为100000条4秒的语音，以得到所述真实等长语音数组，需要说明的是，所述真实等长语音数组和所述合成等长语音数组中的语音个数和等分时长可以不相同；

步骤S31，分别将所述真实等长语音数组和所述合成等长语音数组转换为预设维度的MFCC特征，以对应得到真实音频特征和合成音频特性；

其中，该步骤通过采用python_speech_features工具将数值形式的音频数据数组转为40维的MFCC特征，以使通过采用MFCC特征的方式进行模型的训练，优选的，MFCC特征的维度可以依据实际情况进行设置，一般设置为40，使得模型训练后识别的效果较好；

步骤S41，分别对所述真实音频特征和所述合成音频特征进行数值标准化处理，以得到真实音频原数值和合成音频原数值；

其中，通过所述真实音频原数值和所述合成音频原数值的计算，有效的方便了后续针对所述真实音频特征和所述合成音频特征的归一处理；

步骤S51，分别对所述真实音频原数值和所述合成音频原数值进行平均值计算和标准差计算，以得到真实音频平均值、真实音频标准差、合成音频平均值和合成音频标准差；

步骤S61，根据标准化计算公式分别对所述真实音频原数值和所述合成音频原数值进行计算，以得到真实音频归一值和合成音频归一值；

具体的，所述标准化计算公式为：

D₁＝(A₁-B₁)/C₁；

D₂＝(A₂-B₂)/C₂；

其中，A₂为所述合成音频原数值、B₂为所述合成音频平均值、C₂为所述合成音频标准差、D2为所述合成音频归一值；

步骤S71，将所述真实音频特征设置为正样本、所述合成音频特征设置为负样本；将总样本数据的第一预设百分比对应的数据设置为训练集、第二预设百分比对应的数据设置为测试集；

具体的，该步骤中，所述第一预设百分比为90％、所述第二预设百分比为10％，即该步骤中，将90％的所述真实音频归一值和所述合成音频归一值数据为训练集、剩余10％的所述真实音频归一值和所述合成音频归一值数据为测试集，优选的，所述第一预设百分比和所述第二预设百分比可以根据用户需求自主进行参数设置，以满足用户多样化的需求；

步骤S81，在所述预设网络模型中加入预设损失函数，采用预设优化算法进行损失值的优化，并进行预设次数的迭代训练，以得到音频检测模型；

其中，所述预设损失函数采用交叉熵损函数，所述预设优化算法采用Adam算法，所述预设次数为2000次；

步骤S91，将待测音频输入所述音频检测模型，并控制所述音频检测模型进行检测计算，以输出检测结果；

具体的，该步骤中，通过使用所述音频检测模型中的1层LSTM结构的RNN循环网络，隐藏层神经元个数128，以输出两个数值，第一个数值是所述待测音频为真实用户语音的分数，即真实音频分数值，第二个数值是所述待测音频为机器合成说话人录音的分数，即合成音频分数值，本实施例中，之所以使用RNN网络作为网络结构，是因为RNN可以充分利用时序方面的信息，结合前后的信息来做出概率的判断，而音频数据恰好就是建立在时序关系上面的，因此，通过RNN网络作为网络结构，有效的提高了所述音频检测模型的音频检测的准确性；

步骤S101，采用SoftMax函数对所述真实音频分数值和所述合成音频分数值进行概率计算，以得到合成概率值；

其中，通过SoftMax函数将所述音频检测模型输出层输出的两个数值转为概率，概率的意义为所述待测音频是真实用户语音的概率为多少，为机器合成说话人录音的概率是多少，SoftMax函数计算方式用意在于可以将RNN循环网络输出的数值转为0-1的范围中，因此，本实施例可以根据该0-1的概率值直接作为判断结果；

步骤S111，判断所述合成概率值是否大于概率阈值；

其中，该概率阈值可以根据用户需求自主进行参数设置，本实施例中，所述概率阈值为0.5，即该步骤通过判断所述合成概率值是否大于0.5，以判定所述待测音频是否为合成音频；

当步骤S111的判断结果为是时，则执行步骤S121；

步骤S121，判定所述待测音频为合成音频；

当步骤S111的判断结果为否时，则执行步骤S131；

步骤S131，判定所述待测音频为真实音频；

本实施例无需进行人工特征选择，使用LSTM网络作为模型的网络结构，以使所述音频检测模型自动进行音频是否为合成的判断，所述音频检测模型的结构简洁，参数可以重复利用，使得计算量较小，计算效率高，通过所述音频检测模型自动学习最合适的音频特征以作为判断是否为机器合成说话人录音的方式，提高了特征的代表性，进而提高了音频检测效率和音频检测的准确性，通过对所述真实音频特征和所述合成音频特征进行归一处理的设计，有效的降低了极值或者噪声对音频特征的影响，进而提高了所述音频检测模型训练数据的准确性。

实施例三

请参阅图3，是本发明第三实施例提供的合成音频检测系统100的结构示意图，包括音频特征提取模块10、模型训练模块11和音频判断模块12，其中：

音频特征提取模块10，用于分别获取真实语音数据和合成语音数据，并对所述真实语音数据和所述合成语音数据进行音频特征提取，以对应得到真实音频特征和合成音频特性。

其中，所述音频特征提取模块10还用于：分别将所述真实语音数据和所述合成语音数据中的语音进行合成拼接，以得到真实拼接语音和合成拼接语音；根据预设语音时长分别对所述真实拼接语音和所述合成拼接语音进行等长切分，以得到真实等长语音数组和合成等长语音数组；分别将所述真实等长语音数组和所述合成等长语音数组转换为预设维度的MFCC特征。

模型训练模块11，用于分别对所述真实音频特征和所述合成音频特征进行归一处理，并根据归一处理后的所述真实音频特征和所述合成音频特征对预设网络模型进行训练，以得到音频检测模型。

此外，本实施例中，所述模型训练模块11还用于：分别对所述真实音频特征和所述合成音频特征进行数值标准化处理，以得到真实音频原数值和合成音频原数值；分别对所述真实音频原数值和所述合成音频原数值进行平均值计算和标准差计算，以得到真实音频平均值、真实音频标准差、合成音频平均值和合成音频标准差；根据标准化计算公式分别对所述真实音频原数值和所述合成音频原数值进行计算，以得到真实音频归一值和合成音频归一值，具体的，所述标准化计算公式为：

D₁＝(A₁-B₁)/C₁；

D₂＝(A₂-B₂)/C₂；

优选的，所述模型训练模块11还用于：将所述真实音频特征设置为正样本、所述合成音频特征设置为负样本；将总样本数据的第一预设百分比对应的数据设置为训练集、第二预设百分比对应的数据设置为测试集；在所述预设网络模型中加入预设损失函数，采用预设优化算法进行损失值的优化，并进行预设次数的迭代训练，其中，所述预设损失函数采用交叉熵损函数，所述预设优化算法采用Adam算法，所述预设次数为2000次。

音频判断模块12，用于将待测音频输入所述音频检测模型，并控制所述音频检测模型进行检测计算，以输出检测结果。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的合成音频检测方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

将待测音频输入所述音频检测模型，并控制所述音频检测模型进行检测计算，以输出检测结果。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的合成音频检测系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的合成音频检测方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标合成音频检测系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标合成音频检测系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种合成音频检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的合成音频检测方法，其特征在于，所述对所述真实语音数据和所述合成语音数据进行音频特征提取的步骤包括：

3.如权利要求1所述的合成音频检测方法，其特征在于，所述分别对所述真实音频特征和所述合成音频特征进行归一处理的步骤包括：

4.如权利要求3所述的合成音频检测方法，其特征在于，所述标准化计算公式为：

D₁＝(A₁-B₁)/C₁；

D₂＝(A₂-B₂)/C₂；

5.如权利要求1所述的合成音频检测方法，其特征在于，所述根据归一处理后的所述真实音频特征和所述合成音频特征对预设网络模型进行训练的步骤包括：

6.如权利要求5所述的合成音频检测方法，其特征在于，所述预设损失函数采用交叉熵损函数，所述预设优化算法采用Adam算法，所述预设次数为2000次。

7.如权利要求1所述的合成音频检测方法，其特征在于，所述检测结果包括真实音频分数值和合成音频分数值，所述输出检测结果的步骤之后，所述方法还包括：

判断所述合成概率值是否大于概率阈值；

若是，则判定所述待测音频为合成音频；

若否，则判定所述待测音频为真实音频。

8.一种合成音频检测系统，其特征在于，所述系统包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的合成音频检测方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的合成音频检测方法的步骤。