CN116994590A

CN116994590A - 一种深度伪造音频鉴别方法和系统

Info

Publication number: CN116994590A
Application number: CN202311253131.6A
Authority: CN
Inventors: 魏亮; 谢玮; 魏薇; 彭志艺; 周凡棣; 郑威; 凌霞; 郑晓玲
Original assignee: China Academy of Information and Communications Technology CAICT
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-11-03
Anticipated expiration: 2043-09-27
Also published as: CN116994590B

Abstract

本发明提出一种深度伪造音频鉴别方法和系统。其中，方法包括：基于随机质量压缩、模糊和随机添加附加噪声方法，对音频数据进行数据增强处理；将数据增强处理后的音频数据输入基于自监督学习的特征提取模型，得到音频特征；将所述音频特征输入基于残差结构的伪造鉴别模型，提取出音频的时序特征，以实现对音频的鉴别。本发明提出的方案能够利用自监督语音表示学习技术学习语音特征，降低对深度伪造音频数据的依赖，提高系统的泛化性；基于残差结构实现音频特征增强，充分提取音频的时序特征；使用数据增强方法提升训练数据的复杂性，提高鉴别模型的性能。

Description

一种深度伪造音频鉴别方法和系统

技术领域

本发明属于音频鉴别领域，尤其涉及一种深度伪造音频鉴别方法和系统。

背景技术

随着深度学习技术的发展，尤其是以对抗生成网络为代表的生成式网络的发展，应用深度学习模型，已经可以制作出越来越多高质量、以假乱真的音频，其中用于生成伪造人声的模型取得了尤其突出的进步，目前已经可以生成普通人难以分辨、足以以假乱真的合成人声，这一类技术也被统称为深度伪造音频生成技术；另一方面，由于深度伪造音频生成技术越来越多地被用于进行损害他人权益的事件，例如对他人进行诋毁、散布谣言等，专门对此类深度伪造音频进行鉴别的深度伪造音频检测领域应运而生。深度伪造音频生成领域与检测领域呈现盾与矛的关系，在竞争中相互促进发展，共同构成深度伪造音频领域。

目前，学术界针对深度伪造音频检测的研究工作绝大多数以真假检测为主，且已经初步形成了不同的方法体系。音频深度伪造检测主要可以分为两大类：基于机器学习的检测方法和基于深度学习的检测方法。常用的基于机器学习的检测方法包含逻辑回归方法、支持向量机方法、决策树、随机森林方法、梯度极限提升方法。这些方法在使用前需要手动提取机器学习模型中的特征，并且在训练之前需要进行密集的预处理，以确保良好的性能，非常费时费力。常用的基于深度学习的检测方法包含卷积神经网络、深度神经网络、时序神经网络等方法。这些深度学习方法能够很好地区分非线性复杂特征从而提高分类的准确度并被用于语音检测领域。这些模型需要首先提取音频特征，将原始音频转换成MFCC、LFCC、GFCC等特征。这些特征都是语音信号中的常用特征，但是适用性不够强，难以捕获更有效的信息，对于新产生的深度伪造方法的检测性能较差。

同时，深度伪造音频检测要求系统具有鲁棒性, 即能够检测出来自于多种不同的伪造系统的伪造语音。由于缺乏大规模数据集, 使得目前用于训练的伪造声音不具有多样性, 基于这样数据集训练出来的模型虽然能够鉴别出部分伪造声音, 但是泛化性不足。同时，语音合成领域仍在不断发展，不断有新的语音合成方法出现，这也对已有的深度伪造音频检测带来了新的冲击。

现有技术

首先是Deep4Net，该方法出自论文Deep4SNet: deep learning for fake speechclassification，提出了一种基于深度学习的音频伪造鉴别方法，该方法开发了一个名为Deep4SNet 的分类模型，该模型基于2D CNN 模型对音频数据集进行可视化，以检测出合成音频。Deep4SNet 在检测自制数据集的合成音频方面的准确率为98.5%。

然后是Deep4Net，该方法出自论文Deepsonar: Towards effective and robustdetection of ai-synthesized fake voices，提出了一种基于深度学习的音频伪造鉴别方法，该方法开发了一个名为Deep Sonar的DNN模型，该模型使用了说话人识别系统中的神经元行为来针对AI伪造音频。他们的模型依赖于分类任务中的分层神经元行为。所提出的模型在FoR数据集中针对英语使用者的语音实现了98.1%的准确率，等错误率约为2%。

现有技术的缺陷

第一个方法的主要缺点是稳定性、泛化性较差，更换数据集后的测试结果大幅下降，容易受到互联网中新的伪造音频的冲击。

第二个方法的主要缺点是易受到噪声、压缩等情况的影响，稳定性不足，也容易受到互联网中复杂场景的冲击。

发明内容

为解决上述技术问题，本发明提出一种深度伪造音频鉴别方法的技术方案，以解决上述技术问题。

本发明第一方面公开了一种深度伪造音频鉴别方法，所述方法包括：

步骤S1、基于随机质量压缩、模糊和随机添加附加噪声方法，对音频数据进行数据增强处理；

步骤S2、将数据增强处理后的音频数据输入基于自监督学习的特征提取模型，得到音频特征；

步骤S3、将所述音频特征输入基于残差结构的伪造鉴别模型，提取出音频的时序特征，以实现对音频的鉴别。

根据本发明第一方面的方法，在所述步骤S1中，基于随机质量压缩、模糊和随机添加附加噪声方法，对音频数据进行数据增强处理的方法包括：

首先对音频进行随机质量压缩，压缩质量最低为 60%，最高为 100%；然后，对音频随机添加高斯噪声，同时，随机添加高斯模糊；接着，对音频随机添加平稳信号附加噪声。

根据本发明第一方面的方法，在所述步骤S1中，对音频随机添加平稳信号附加噪声后，所述方法还包括：截取音频的前四秒，如果所述音频长度不足四秒，就进行填充，保证音频长度为64600，采样率设置为16000，以保证数据格式相同。

根据本发明第一方面的方法，在所述步骤S1中，所述对音频随机添加平稳信号附加噪声的方法包括：

其中，x表示添加噪声前的音频数据，y_sd表示添加噪声后的音频数据，噪声z_sd的生成公式为：

其中，g_sd>0是一个简单的增益参数，{p₁,p₂,...,p_n}为添加噪声前的音频数据中满足预定义分布的数据，DR{-1,1}[n]表示随机抽取满足所述分布的数据并通过f_R函数取log，f_R函数如下：

其中，为集合DR{-1,1}[n]中的数据。

根据本发明第一方面的方法，在所述步骤S2中，所述基于自监督学习的特征提取模型Wav2vec2网络作为骨干网络，在Wav2vec2网络的CNN编码器后加入基于Transformer的上下文编码器，对所述CNN编码器得到的潜在语音表征，进行特征融合。

根据本发明第一方面的方法，在所述步骤S2中，所述基于Transformer的上下文编码器为N层Transformer编码器；

所述对所述CNN编码器得到的潜在语音表征，进行特征融合的方法包括：

将所述潜在语音表征随机掩码部分帧后送入N层Transformer编码器，再将N层Transformer编码器的上下文表征与所述潜在语音表征通过训练的参数实现特征融合。

根据本发明第一方面的方法，在所述步骤S3中，所述将所述音频特征输入基于残差结构的伪造鉴别模型，提取出音频的时序特征，以实现对音频的鉴别的方法包括：

首先使用残差结构对所述音频特征进行处理，将所述音频特征输入到连续6层的残差块中，提取第一鉴别特征；紧接着对所述第一鉴别特征进行归一化并使用激活函数激活第一鉴别特征；然后使用两个卷积层对激活后的第一鉴别特征进行下采样，得到第二鉴别特征；同时再次对所述第二鉴别特征进行归一化并使用激活函数激活第二鉴别特征；之后使用一个平均池化层将激活后第二鉴别特征的维度减小一维；再后将平均池化层后的第二鉴别特征输入注意力池化层，提取时序特征；最后，直接对所述时序特征进行分类，实现对音频的鉴别。

本发明第二方面公开了一种深度伪造音频鉴别系统，所述系统包括：

第一处理模块，被配置为，基于随机质量压缩、模糊和随机添加附加噪声方法，对音频数据进行数据增强处理；

第二处理模块，被配置为，将数据增强处理后的音频数据输入基于自监督学习的特征提取模型，得到音频特征；

第三处理模块，被配置为，将所述音频特征输入基于残差结构的伪造鉴别模型，提取出音频的时序特征，以实现对音频的鉴别。

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本公开第一方面中任一项的一种深度伪造音频鉴别方法中的步骤。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本公开第一方面中任一项的一种深度伪造音频鉴别方法中的步骤。

综上，本发明提出的方案能够利用自监督语音表示学习技术学习语音特征，降低对深度伪造音频数据的依赖，提高系统的泛化性；基于残差结构实现音频特征增强，充分提取音频的时序特征；使用数据增强方法提升训练数据的复杂性，提高鉴别模型的性能。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种深度伪造音频鉴别方法的流程图；

图2为根据本发明实施例的特征融合流程图；

图3为根据本发明实施例的伪造鉴别模型示意图；

图4为根据本发明实施例的一种深度伪造音频鉴别系统的结构图；

图5为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面公开了一种深度伪造音频鉴别方法。图1为根据本发明实施例的一种深度伪造音频鉴别方法的流程图，如图1所示，所述方法包括：

在步骤S1，基于随机质量压缩、模糊和随机添加附加噪声方法，对音频数据进行数据增强处理，使得训练数据更贴合互联网等传播渠道，提升鉴别方法的性能。

在一些实施例中，在所述步骤S1中，基于随机质量压缩、模糊和随机添加附加噪声方法，对音频数据进行数据增强处理的方法包括：

首先对音频进行随机质量压缩，压缩质量最低为 60%，最高为 100%；然后，对音频随机添加高斯噪声，同时，随机添加高斯模糊，提升训练数据的多样性；接着，对音频随机添加平稳信号附加噪声，该噪声更加贴合于在电话线等通道中传播的音频信号，提升鉴别方法的适用性。

对音频随机添加平稳信号附加噪声后，所述方法还包括：截取音频的前四秒，如果所述音频长度不足四秒，就进行填充，保证音频长度为64600，采样率设置为16000，以保证数据格式相同。

其中平稳信号相关附加噪声更加贴合于在电话线等通道中传播的音频信号，该噪声需要均匀应用到音频样本中，所述对音频随机添加平稳信号附加噪声的方法包括：

其中，r为集合DR{-1,1}[n]中的数据。

由于缺乏大规模数据集, 使得目前用于训练的伪造声音不具有多样性, 基于这样数据集训练出来的模型虽然能够鉴别出部分伪造声音, 但是泛化性不足。本实施例基于自监督学习实现特征提取，减少对于伪造声音数据的依赖。自监督语音表示学习可以利用大量无标注的真实音频数据学习语音特征，可大大降低音频鉴别任务对于有标注伪造数据的依赖。对于大部分的人类语言，有标注伪造数据的获取是十分困难的，而无标注真实语音的获取相对容易得多，因此自监督语音表示学习很适合于进行深度伪造音频鉴别的研究。

在步骤S2，将数据增强处理后的音频数据输入基于自监督学习的特征提取模型，得到音频特征。

在一些实施例中，在所述步骤S2中，如图2所示，所述基于自监督学习的特征提取模型Wav2vec2网络作为骨干网络，在Wav2vec2网络的CNN编码器（CNN Encoder）后加入基于Transformer的上下文编码器，对所述CNN编码器得到的潜在语音表征，进行特征融合。

所述基于Transformer的上下文编码器为N层Transformer编码器(TransformerEncoder)；

将所述潜在语音表征随机掩码部分帧后送入N层Transformer编码器，再将N层Transformer编码器的上下文表征（h₁~h_N）与所述潜在语音表征（h₀）通过训练的参数(α ₀~α _N)实现特征融合，使得融合后的特征具有不同深度的特点，更具有普适性。

在一些实施例中，N等于24。

具体地，所述CNN编码器会在每20ms的音频中提取出1024大小的特征表示，然后送入基于Transformer的上下文编码器，得到的仍然是1024大小的上下文表征。

当前深度伪造音频鉴别的最大难点之一是真实音频的特征千变万化，而伪造的方法也层出不穷，导致伪造音频的特征也种类繁多。因此，本实施例基于残差结构对提取出的音频特征进行增强，提取出音频的时序特征，以实现对伪造音频的鉴别。

在步骤S3，将所述音频特征输入基于残差结构的伪造鉴别模型，提取出音频的时序特征，以实现对音频的鉴别。

在一些实施例中，在所述步骤S3中，所述将所述音频特征输入基于残差结构的伪造鉴别模型，提取出音频的时序特征，以实现对音频的鉴别的方法包括：

如图3所示，首先使用残差结构对所述音频特征进行处理，将所述音频特征输入到连续6层的残差块中，通过残差结构来改善网络性能，提取第一鉴别特征；紧接着对所述第一鉴别特征进行归一化并使用激活函数激活第一鉴别特征；然后使用两个卷积层对激活后的第一鉴别特征进行下采样，得到第二鉴别特征；同时再次对所述第二鉴别特征进行归一化并使用激活函数激活第二鉴别特征；之后使用一个平均池化层将激活后第二鉴别特征的维度减小一维；此时得到的特征中的时间维度仍然与从wav2vec2中提取的特征一致，再后将平均池化层后的第二鉴别特征输入注意力池化层，提取时序特征；最后，直接对所述时序特征进行分类，实现对音频的鉴别。

综上，本发明提出的方案能够可以利用大量无标注的真实音频数据学习音频特征，可大大降低音频鉴别任务对于有标注伪造数据的依赖，提升深度伪造音频鉴别的泛化性。同时，还设计了一种特征融合方法，将特征提取模块提取出的多层特征进行融合，使得模型可以学习到不同深度的音频特征，提高鉴别模型的普适性。

相比于传统的经典骨干网络，本方法可以通过残差结构来改善网络性能，提取更有效的特征，同时，通过特征降维以及注意力池化方法充分提取深度伪造音频鉴别中更加本质的时序伪造痕迹，进而在鉴别深度伪造音频的过程中达到更高的准确率。

提高鉴别模型的性能，用于对复杂场景例如互联网中的深度伪造音频进行有效鉴别。基于压缩、模糊等手段，使得训练数据更贴合互联网等传播渠道，提升鉴别方法的适用性。

本发明提出的方法在ASVSpoof2021 LA数据集上的等错误率达到了 2.16%，在ASVSpoof2021 DF数据集上的等错误率达到了 4.28%。

本发明第二方面公开了一种深度伪造音频鉴别系统。图4为根据本发明实施例的一种深度伪造音频鉴别系统的结构图；如图4所示，所述系统100包括：

第一处理模块101，被配置为，基于随机质量压缩、模糊和随机添加附加噪声方法，对音频数据进行数据增强处理；

第二处理模块102，被配置为，将数据增强处理后的音频数据输入基于自监督学习的特征提取模型，得到音频特征；

第三处理模块103，被配置为，将所述音频特征输入基于残差结构的伪造鉴别模型，提取出音频的时序特征，以实现对音频的鉴别。

根据本发明第二方面的系统，所述第一处理模块101具体被配置为，基于随机质量压缩、模糊和随机添加附加噪声方法，对音频数据进行数据增强处理的方法包括：

其中，r为集合DR{-1,1}[n]中的数据。

根据本发明第二方面的系统，所述第二处理模块102具体被配置为，如图2所示，所述基于自监督学习的特征提取模型Wav2vec2网络作为骨干网络，在Wav2vec2网络的CNN编码器后加入基于Transformer的上下文编码器，对所述CNN编码器得到的潜在语音表征，进行特征融合。

所述基于Transformer的上下文编码器为N层Transformer编码器；

在一些实施例中，N等于24。

根据本发明第二方面的系统，所述第三处理模块103具体被配置为，所述将所述音频特征输入基于残差结构的伪造鉴别模型，提取出音频的时序特征，以实现对音频的鉴别的方法包括：

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明公开第一方面中任一项的一种深度伪造音频鉴别方法中的步骤。

图5为根据本发明实施例的一种电子设备的结构图，如图5所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本发明公开第一方面中任一项的一种深度伪造音频鉴别方法中的步骤。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种深度伪造音频鉴别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种深度伪造音频鉴别方法，其特征在于，在所述步骤S1中，基于随机质量压缩、模糊和随机添加附加噪声方法，对音频数据进行数据增强处理的方法包括：

3.根据权利要求1所述的一种深度伪造音频鉴别方法，其特征在于，在所述步骤S1中，对音频随机添加平稳信号附加噪声后，所述方法还包括：截取音频的前四秒，如果所述音频长度不足四秒，就进行填充，保证音频长度为64600，采样率设置为16000，以保证数据格式相同。

4.根据权利要求2所述的一种深度伪造音频鉴别方法，其特征在于，在所述步骤S1中，所述对音频随机添加平稳信号附加噪声的方法包括：

其中，r为集合DR{-1,1}[n]中的数据。

5.根据权利要求1所述的一种深度伪造音频鉴别方法，其特征在于，在所述步骤S2中，所述基于自监督学习的特征提取模型以Wav2vec2网络作为骨干网络，在Wav2vec2网络的CNN编码器后加入基于Transformer的上下文编码器，对所述CNN编码器得到的潜在语音表征，进行特征融合。

6.根据权利要求5所述的一种深度伪造音频鉴别方法，其特征在于，在所述步骤S2中，所述基于Transformer的上下文编码器为N层Transformer编码器；

7.根据权利要求1所述的一种深度伪造音频鉴别方法，其特征在于，在所述步骤S3中，所述将所述音频特征输入基于残差结构的伪造鉴别模型，提取出音频的时序特征，以实现对音频的鉴别的方法包括：

8.一种用于深度伪造音频鉴别系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至7中任一项所述的一种深度伪造音频鉴别方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的一种深度伪造音频鉴别方法中的步骤。