CN111798828A

CN111798828A - 合成音频检测方法、系统、移动终端及存储介质

Info

Publication number: CN111798828A
Application number: CN202010479131.8A
Authority: CN
Inventors: 李稀敏; 曾志先; 叶志坚; 肖龙源
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-10-20
Anticipated expiration: 2040-05-29
Also published as: CN111798828B

Abstract

本发明提供了一种合成音频检测方法、系统、移动终端及存储介质，该方法包括：根据真实音频样本对CNN网络进行训练得到真实化特征转换器；控制真实化特征转换器对训练集数据进行特征转换得到真实化特征，将真实化特征和对应的标签信息输入LCNN网络进行模型训练得到合成音频检测模型；将待检测音频输入真实化特征转换器得到待检测特征；控制合成音频检测模型对待检测特征进行检测得到检测结果。本发明利用真实音频样本的特征学习CNN的模型的设计，以得到真实化特征转换器，该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征，从而增强了训练集数据中真实语音和合成语音之间的区别，提高了合成音频检测模型训练的准确性。

Description

合成音频检测方法、系统、移动终端及存储介质

技术领域

本发明属于音频检测技术领域，尤其涉及一种合成音频检测方法、系统、移动终端及存储介质。

背景技术

现代文本生成语音技术和声音转换技术的演进能够生成自然的说话声音,带来的问题就是对说话人识别系统的安全性造成了威胁,这使得在说话人识别系统当中检测非真人的合成音频就变为了一个非常重要的安全问题。

声纹识别技术是实现通过声音来判断说话人身份的技术，主要应用于银行，金融，安防等领域，该技术有成本低，效率高的特点，声纹识别技术的缺陷在于容易遭受录音重放、语音合成、语音生成、语音转换等技术的攻击，导致识别系统将非真实说话人语音判断为说话人语音，攻击者可以通过输入文字到机器然后合成出与说话人相似的语音，从而欺骗识别系统，导致识别系统将机器合成的语音判断为说话人的语音，因此，在声纹识别技术的使用过程中，对待测音频的合成音频检测步骤尤为重要。

现有的合成音频检测方法均需要人工进行声波特征选择后，通过采用声波匹配的方式，以对应进行待测音频的合成判断，即通过基于人工声波特征的选取，以使将待测音频的声波与预设声波进行波纹匹配，以得到合成判断结果，但由于基于人工特征选取的声波匹配方式使得音频检测效率低下，且音频检测精准度差。

发明内容

本发明实施例的目的在于提供一种合成音频检测方法、系统、移动终端及存储介质，旨在解决现有的合成音频检测方法音频检测效率低且音频检测精准度差的问题。

本发明实施例是这样实现的，一种合成音频检测方法，所述方法包括：

获取真实音频样本，并根据所述真实音频样本对CNN网络进行训练，得到真实化特征转换器；

控制所述真实化特征转换器对训练集数据进行特征转换，得到真实化特征，并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练，得到合成音频检测模型；

将待检测音频输入所述真实化特征转换器，得到待检测特征，并将所述待检测特征输入训练后的所述合成音频检测模型；

控制所述合成音频检测模型对所述待检测特征进行检测，得到检测结果。

更进一步的，所述根据所述真实音频样本对CNN网络进行训练的步骤包括：

采用str i ded卷积方式控制所述CNN网络中的卷积层对所述真实音频样本进行压缩维度，并采用ReLU激活函数获取卷积结果；

对所述卷积结果进行反卷积，并采用所述ReLU激活函数获取反卷积结果。

更进一步的，所述将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练的步骤之前，所述方法还包括：

根据预设文件长度对所述真实化特征进行特征裁剪，并将长度小于所述预设文件长度的所述真实化特征沿时间轴补0补齐至所述预设文件长度。

更进一步的，所述方法还包括：

当所述LCNN网络中完成最大池化层的池化后，对所述LCNN网络中的特征数据进行批处理归一化。

更进一步的，所述对所述LCNN网络中的特征数据进行批处理归一化的步骤包括：

计算所述LCNN网络中每个训练批次训练数据的均值和方差；

根据所述均值和所述方差对对应批次的所述训练数据做归一化处理，以得到0-1的分布；

根据所述分布对所述LCNN网络进行尺度变换和偏移。

更进一步的，所述真实化特征为LPS特征，所述LPS特征的静态维数为863，且所述预设文件长度为256帧。

更进一步的，所述LCNN网络采用的激活函数为MFM激活函数。

本发明实施例的另一目的在于提供一种合成音频检测系统，所述系统包括：

转换器训练模块，用于获取真实音频样本，并根据所述真实音频样本对CNN网络进行训练，得到真实化特征转换器；

模型训练模块，用于控制所述真实化特征转换器对训练集数据进行特征转换，得到真实化特征，并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练，得到合成音频检测模型；

特征处理模块，用于将待检测音频输入所述真实化特征转换器，得到待检测特征，并将所述待检测特征输入训练后的所述合成音频检测模型；

音频检测模块，用于控制所述合成音频检测模型对所述待检测特征进行检测，得到检测结果。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的合成音频检测方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的合成音频检测方法的步骤。

本发明实施例，利用真实音频样本的特征学习CNN的模型的设计，以得到真实化特征转换器，该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征，从而增强了训练集数据中真实语音和合成语音之间的区别，提高了合成音频检测模型训练的准确性，以提高后续合成音频检测的准确率。

附图说明

图1是本发明第一实施例提供的合成音频检测方法的流程图；

图2是本发明第二实施例提供的合成音频检测方法的流程图；

图3是本发明第三实施例提供的合成音频检测系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

实施例一

请参阅图1，是本发明第一实施例提供的合成音频检测方法的流程图，包括步骤：

步骤S10，获取真实音频样本，并根据所述真实音频样本对CNN网络进行训练，得到真实化特征转换器；

其中，通过根据该真实音频样本对CNN网络进行训练的设计，使得训练后的真实化特征转换器能将任何真实或欺骗音频的特征投射到接近真实语音特征的特征；

优选的，该步骤中，通过应用了一个完整的卷积神经网络(CNN网络)结构，使得真实化特征转换器中没有完全连接的层，进而迫使网络关注输入信号与整个分层过程之间的时间相关性，提高了后续真实化特征转换的准确性，且通过采用CNN网络结构的设计，减少了训练参数的数量，大大减少了网络训练周期；

具体的，该步骤中，该真实音频样本采用ASVspoof2019数据集，该数据集有三个分类，分别是训练集、开发集和评估集，该数据集包含107名发言者的真实音频数据，包括46名男性和61名女性发言者，需要指出的是，不同子集的发言者之间没有重叠；

步骤S20，控制所述真实化特征转换器对训练集数据进行特征转换，得到真实化特征，并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练，得到合成音频检测模型；

其中，通过控制真实化特征转换器对训练集数据进行特征转换的设计，有效的增强了真实语音和欺骗语音之间的区别；

具体的，由于CQT特征的长时效特征被发现可以捕获用于检测合成音频的有用信息，因此，本实施例从CQT特征导出的真实化特征作为检测的输入特征，通过获取该训练集数据中的CQT特征数据，并控制该真实化特征转换器对该CQT特征数据进行卷积和反卷积处理，以得到该真实化特征(LPS特征)；

步骤S30，将待检测音频输入所述真实化特征转换器，得到待检测特征，并将所述待检测特征输入训练后的所述合成音频检测模型；

其中，将该待检测音频的CQT特征数据输入该真实化特征转换器进行卷积处理，得到该待检测特征，并将该待检测特征输入该合成音频检测模型中；

步骤S40，控制所述合成音频检测模型对所述待检测特征进行检测，得到检测结果；

其中，该合成音频检测模型采用LCNN网络结构,使用Max-Feature-Map函数作为激活函数,得到的结果即为该待检测特征对应的合成概率检测结果，通过使用Max-Feature-Map(MFM)激活函数代替现有技术中LCNN系统的ReLU函数，使得LCNN网络可以学习紧凑的特征，而不是像ReLU函数对应的高维特征，此外，MFM激活函数利用最大函数抑制少量神经元的激活，使得基于MFM激活函数的网络具有轻鲁棒的特点；

本实施例，利用真实音频样本的特征学习CNN的模型的设计，以得到真实化特征转换器，该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征，从而增强了训练集数据中真实语音和合成语音之间的区别，提高了合成音频检测模型训练的准确性，以提高后续合成音频检测的准确率。

实施例二

请参阅图2，是本发明第二实施例提供的合成音频检测方法的流程图，包括步骤：

步骤S11，获取真实音频样本，并采用strided卷积方式控制所述CNN网络中的卷积层对所述真实音频样本进行压缩维度；

其中，通过采用strided卷积方式对真实音频样本进行压缩维度的设计，有效的提高了真实音频样本池化过程中的稳定性，即通过使用strided方式卷积进行下采样，而不是使用池化层进行下采样，使得CNN网络可以学习自身的池化函数，提高了数据池化的稳定性；

步骤S21，采用ReLU激活函数获取卷积结果，对所述卷积结果进行反卷积，并采用所述ReLU激活函数获取反卷积结果，以训练得到真实化特征转换器；

其中，训练后的真实化特征转换器，可以用来将任何给定的真实/欺骗特征转换为使用真实特征学习的特征域，优选的，本实施例中，单个卷积处理的步骤包括：1.采用strided卷积方式控制CNN网络中的卷积层对真实音频样本进行压缩维度；2.采用批量归一化的方式对所有数据进行归一化操作；3.采用ReLU激活函数获取卷积结果；

具体的，该步骤中，数据卷积的步骤包括:

第一个卷积层过程为:采用32层卷积层,卷积核大小为4*4,strided移动步长为2，补齐方式为padding，激活函数为LeakyReLU；

第二个卷积层过程为:采用64层卷积层，卷积核大小为4*4,strided移动步长为2，补齐方式为padding,激活函数为LeakyReLU；

第三个卷积层过程为:采用128层卷积层,卷积核大小为4*4,strided移动步长为2，补齐方式为padding,激活函数为LeakyReLU；

第四个卷积层过程为:采用256层卷积层，卷积核大小为4*4,strided移动步长为2，补齐方式为padding,激活函数为LeakyReLU；

第五个卷积层过程为:采用512层卷积层，卷积核大小为4*4,strided移动步长为2，补齐方式为padding,激活函数为LeakyReLU；

此外，该步骤中，反卷积的步骤包括；

第一个反卷积层过程为:采用256层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU；

第二个反卷积层过程为:采用128层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU；

第三个反卷积层过程描述:采用64层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU；

第四个反卷积层过程为:采用32层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU；

第五个反卷积层过程为:采用32层卷积层,卷积核大小为4*4,strided移动步长为2,补齐方式为padding,激活函数为ReLU；

步骤S31，控制所述真实化特征转换器对训练集数据进行特征转换，得到真实化特征，并根据预设文件长度对所述真实化特征进行特征裁剪；

其中，本实施例从CQT特征导出的真实化特征作为检测的输入特征，通过获取该训练集数据中的CQT特征数据，并控制该真实化特征转换器对该CQT特征数据进行卷积和反卷积处理，以得到该真实化特征(LPS特征)，优选的，该LPS特征的静态维数为863，且所述预设文件长度为256帧；

步骤S41，将长度小于所述预设文件长度的所述真实化特征沿时间轴补0补齐至所述预设文件长度；

其中，对于从CQT特征中提取LPS特征，通过填充和裁剪将每个文件的长度设置为256帧，特别是，帧长超过256帧的示例被截断，而帧长小于256帧的示例被填充最后一个帧值，因此，对于每个示例，都有863*256的输入特征结构；

步骤S51，将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练；

步骤S61，当所述LCNN网络中完成最大池化层的池化后，对所述LCNN网络中的特征数据进行批处理归一化，得到合成音频检测模型；

其中，通过对所述LCNN网络中的特征数据进行批处理归一化的设计，有效的提高了合成音频检测模型的稳定性和收敛速度；

此外，该步骤中，该LCNN网络中设置有Max POOLing池化层,在池化层之后使用批量归一化操作,本实施例中，采用随机丢失参数和参数衰减的方法，以避免合成音频检测模型的过拟合现象，随机丢失参数用于比率为0.4的全连接层，优选的，在该全连接层中有使用dropout操作,dropout操作的比例为0.4,并且有权重衰减,衰减率为2*10^-4，进而有效的防止了该合成音频检测模型训练过程中的过拟合现象；

具体的，该步骤中，所述对所述LCNN网络中的特征数据进行批处理归一化的步骤包括：

计算所述LCNN网络中每个训练批次训练数据的均值和方差；

根据所述分布对所述LCNN网络进行尺度变换和偏移。

步骤S71，将待检测音频输入所述真实化特征转换器，得到待检测特征，并将所述待检测特征输入训练后的所述合成音频检测模型；

步骤S81，控制所述合成音频检测模型对所述待检测特征进行检测，得到检测结果；

本实施例中，利用真实音频样本的特征学习CNN的模型的设计，以得到真实化特征转换器，该真实化特征转换器能将给定的特征转换为接近真实语音特征的特征，从而增强了训练集数据中真实语音和合成语音之间的区别，提高了合成音频检测模型训练的准确性，以提高后续合成音频检测的准确率。

实施例三

请参阅图3，是本发明第三实施例提供的合成音频检测系统100的结构示意图，包括：转换器训练模块10、模型训练模块11、特征处理模块12和音频检测模块13，其中：

转换器训练模块10，用于获取真实音频样本，并根据所述真实音频样本对CNN网络进行训练，得到真实化特征转换器。

其中，所述转换器训练模块10还用于：采用strided卷积方式控制所述CNN网络中的卷积层对所述真实音频样本进行压缩维度，并采用ReLU激活函数获取卷积结果；

模型训练模块11，用于控制所述真实化特征转换器对训练集数据进行特征转换，得到真实化特征，并将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练，得到合成音频检测模型，所述LCNN网络采用的激活函数为MFM激活函数。

其中，所述模型训练模块11还用于：根据预设文件长度对所述真实化特征进行特征裁剪，并将长度小于所述预设文件长度的所述真实化特征沿时间轴补0补齐至所述预设文件长度，所述预设文件长度为256帧。

优选的，所述模型训练模块11还用于：当所述LCNN网络中完成最大池化层的池化后，对所述LCNN网络中的特征数据进行批处理归一化。

进一步的，所述模型训练模块11还用于：计算所述LCNN网络中每个训练批次训练数据的均值和方差；

根据所述分布对所述LCNN网络进行尺度变换和偏移。

特征处理模块12，用于将待检测音频输入所述真实化特征转换器，得到待检测特征，并将所述待检测特征输入训练后的所述合成音频检测模型，其中，所述真实化特征为LPS特征，所述LPS特征的静态维数为863。

音频检测模块13，用于控制所述合成音频检测模型对所述待检测特征进行检测，得到检测结果。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的合成音频检测方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

控制所述合成音频检测模型对所述待检测特征进行检测，得到检测结果。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的合成音频检测系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的合成音频检测方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标合成音频检测系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标合成音频检测系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种合成音频检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的合成音频检测方法，其特征在于，所述根据所述真实音频样本对CNN网络进行训练的步骤包括：

采用strided卷积方式控制所述CNN网络中的卷积层对所述真实音频样本进行压缩维度，并采用ReLU激活函数获取卷积结果；

3.如权利要求1所述的合成音频检测方法，其特征在于，所述将所述真实化特征和对应的标签信息输入LCNN网络进行模型训练的步骤之前，所述方法还包括：

4.如权利要求1所述的合成音频检测方法，其特征在于，所述方法还包括：

5.如权利要求4所述的合成音频检测方法，其特征在于，所述对所述LCNN网络中的特征数据进行批处理归一化的步骤包括：

计算所述LCNN网络中每个训练批次训练数据的均值和方差；

根据所述分布对所述LCNN网络进行尺度变换和偏移。

6.如权利要求3所述的合成音频检测方法，其特征在于，所述真实化特征为LPS特征，所述LPS特征的静态维数为863，且所述预设文件长度为256帧。

7.如权利要求1所述的合成音频检测方法，其特征在于，所述LCNN网络采用的激活函数为MFM激活函数。

8.一种合成音频检测系统，其特征在于，所述系统包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的合成音频检测方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的合成音频检测方法的步骤。