CN111477247B

CN111477247B - 基于gan的语音对抗样本生成方法

Info

Publication number: CN111477247B
Application number: CN202010249328.2A
Authority: CN
Inventors: 王让定; 王冬华; 董理; 严迪群
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2023-08-11
Anticipated expiration: 2040-04-01
Also published as: CN111477247A

Abstract

本发明涉及一种基于GAN的语音对抗样本生成方法，其特征在于：所述方法包括，对原始语音数据样本x进行预处理；将预处理后的原始语音数据样本x输入生成器G，得到对抗扰动G(x)，使用公式(1)构建对抗样本，公式(1)为x^adv＝x+G(x)；将对抗样本x^adv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中；计算目标网络的损失l_f、判别器的对抗损失l_GAN、铰链损失l_hinge、均方差损失l₂以及判别器的损失l_D，由此得到生成器G训练时的损失函数l；将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数，并通过公式(10)得到最佳生成器，公式(10)为将原始样本x加载到由S5得到的最佳生成器中，构建得到相应的对抗样本。本发明能有效生成最小扰动，且能确保语音质量。

Description

基于GAN的语音对抗样本生成方法

技术领域

本发明涉及语音技术领域，尤其涉及基于GAN的语音对抗样本生成方法。

背景技术

对抗样本是指一种被攻击者有目的加入细微扰动后的样本，其主要目的是导致深度神经网络性能失效，甚至诱导深度学习网络做出攻击者指定的判断。对抗样本构造方法实际上是寻求最优扰动的过程，目前较为常见的对抗样本生成方法分为基于优化对抗扰动与基于扰动的方法。

使用优化算法寻找对抗扰动通常是设置一个满足对抗样本条件的目标优化函数，寻找满足该约束条件的最优扰动；基于梯度扰动的方法通常是将语音转换成频谱特征，将频谱特征输入目标网络得到该频谱特征的梯度，然后将梯度作为扰动添加到频谱特征中，最后将频谱特征重建成语音。比如，Alantot使用遗传算法，迭代寻找最优对抗扰动；Carlini结合快速梯度下降法(简称FGSM)与语音重建方法构建对抗样本成功攻击语音识别网络。

但Alantot仅考虑了对抗样本能够成功攻击目标网络，没有保证生成语音的质量；Carlini采用的方法须先将语音转换成MFCC，然后通过语音识别网络回传的梯度信息修改MFCC特征，最后将MFCC特征重建成语音信号，这虽然能使目标语音识别网络识别错误，却无法保证对抗样本的语音质量。

发明内容

鉴于上述问题，本发明的目的在于提供一种能提供最优扰动，极大提升生成对抗样本效率，并确保语音质量的基于GAN的语音对抗样本生成方法。

为了实现上述目的，本发明的技术方案为：一种基于GAN的语音对抗样本生成方法，其特征在于：所述方法包括，

S1、对原始语音数据样本x进行预处理；

S2、将预处理后的原始语音数据样本x输入生成器G，得到对抗扰动G(x)，使用公式(1)构建对抗样本，公式(1)为x^adv＝x+G(x)；

S3、将对抗样本x^adv输入到判别器D以及经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中；

S4、计算目标网络的损失l_f、判别器的对抗损失l_GAN、铰链损失l_hinge、均方差损失l₂以及判别器的损失l_D，由此得到生成器G训练时的损失函数l；

S5、将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数，并通过公式(10)得到最佳生成器，公式(10)为

S6、将原始样本x加载到由S5得到的最佳生成器中，构建得到相应的对抗样本。

进一步的，S4中生成器训练时的损失函数l通过公式(4)得到，该公式(4)具体为：

其中，α、β和γ是各项损失的权重，为生成的对抗样本x^adv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失，其根据公式(5)得到，t是目标标签，l_f为目标网络的，MFCC是特征提取器，/>可促使构建的语音样本能被目标网络错分成目标标签t；

判别器的对抗损失l_GAN采用如下公式(6)获取，即l_GAN＝E_xlog(1-D(x^adv)，t)；

铰链损失l_hinge通过公式(7)获得，即l_hinge＝E_xmax(0，||G(x)||₂-c)，其中，c为扰动范围参数；

均方差损失l₂通过公式(8)获取，即l₂＝||x^adv-x||₂；

判别器的损失l_D通过公式(9)获取，即l_D＝E_xlog(D(x^adv))+E_xlog(1-D(x))。

进一步的，生成器G由8个卷积层、7个反卷积层、一个全连接层构成，其中卷积层和反卷积层之间使用跳跃连接，并使用Tanh激活函数将最后一层的值映射到[-1,1]的范围内。

进一步的，判别器由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成，其中，卷积块包括卷积层、BN层和激活函数Leaky-ReLU。

进一步的，S5中将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数，具体为，

1)在训练集中随机获取m个原始样本{x⁽¹⁾,x⁽²⁾,…,x^(m)}；

2)将m个原始样本输入生成器G，构成m个对抗样本x^adv(x+G(x))，即{x^adv(1),x^adv ⁽²⁾,…,x^adv(m)}；

3)使用更新生成器；

4)使用更新判别器；

5)重复步骤1)-4)直至完成迭代次数。

进一步的，S1中对原始语音数据样本x进行预处理，具体为，

所述原始语音数据样本为内容在2个词语以内的语音信号集合，采用如下公式(2)将语音数据归一化到[-1,1]内，语音数据采样点个数为16384个，公式(2)为

进一步的，本方法还包括采用如下公式(3)将[-1,1]范围内的语音数据恢复到[-32767，32767]的正常范围内，公式(3)为

与现有技术相比，本发明的优点在于：结合生成对抗网络博弈思想，将目标网络置于生成对抗网络框架中，通过设计合理的损失函数来训练网络，以获得最佳生成器，生成能使样本错分类成指定类别的扰动，该方法极大提升了生成对抗样本的效率，并确保语音质量。

附图说明

图1为本申请的网络结构图示。

图2为本申请的生成器结构图示。

图3为本申请的判别器结构图示。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1至3所示为本发明的优选实施例结构示意图。本发明采用基于GAN的语音对抗样本生成方法，利用生成对抗网络的博弈思想，通过设计合理的损失函数，训练得到扰动生成器，通过该扰动生成器能够快速地构造语音质量较好的、攻击成功率高的语音对抗样本。如图1所示为本发明的网络结构图示。

该网络框架主要包括3部分：生成器G、判别器D、目标网络f。生成器的目的是生成扰动，用其构建的对抗样本既要使判别器误判，也即将对抗样本判断成原始样本，又要使目标网络误分类成攻击者指定的结果；判别器不断学习正常样本与对抗样本数据分布的差异，提升自身做出正确判断的能力；而目标网络则给出对抗样本的分类结果。

本方法包括，

S1、对原始语音数据样本x进行预处理；

其中，生成器的结构如图2所示，由8个卷积层、7个反卷积层以及一个全连接层构成，其中卷积层和反卷积层之间使用跳跃连接(skip connection)，卷积层和反卷积层指的都是一维卷积，使用Tanh激活函数将最后一层的值映射到[-1,1]范围内；

在传统的GAN中，判别器需要分辨出输入样本的真假，目的是鼓励生成器生成更真实的样本，而在本专利中，判别器的目的是区分出对抗样本与原始样本，判别器的结构如图3所示，由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成，其中卷积块包括卷积层、BN层和激活函数Leaky-ReLU(LReLU)，所有的卷积层指的都是一维卷积层。

S1中对原始语音数据样本x进行预处理，具体为，

所述原始语音数据样本为内容在2个词语以内的语音信号集合，采用如下公式(2)将语音数据归一化到[-1,1]内，语音数据采样点个数为16384个，公式(2)为当然，在进行数据恢复时，则采用公式(3)将[-1,1]范围内的语音数据恢复到[-32767，32767]的正常范围内，公式(3)为/>

通过分析可知，该方法的关键在于得到训练好的生成器，从而用该生成器快速生成质量较好的对抗样本。为了使构成的对抗样本既保持较高的质量，又能使目标网络错分类，本方法在S4中通过计算目标网络的损失l_f、判别器的对抗损失l_GAN、铰链损失l_hinge、均方差损失l₂以及判别器的损失l_D来得到生成器G训练时的损失函数l，即

其中，α、β和γ是各项损失的权重，为生成的对抗样本x^adv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失，根据公式(5)

得到，t是目标标签，l_f为目标网络的，MFCC是特征提取器，/>可促使构建的语音样本能被目标网络错分成目标标签t；

本发明使用标准交叉熵损失作为判别器的对抗损失，即判别器的对抗损失l_GAN采用公式(6)l_GAN＝E_xlog(1-D(x^adv),t)获取，当D(x^adv)→1时，判别器认为构成的对抗样本为真实样本。通过不断训练生成器与判别器，使构建的对抗样本与原始样本的数据分布更加接近，从而使得对抗样本的扰动尽可能小。

铰链损失l_hinge通过公式(7)获得，即l_hinge＝E_xmax(0,||G(x)||₂-c)，其中，c为扰动范围参数，使用铰链损失不仅可以约束扰动范围，还可以使GAN的训练变得稳定。

均方差损失l₂通过公式(8)获取，即l₂＝||x^adv-x||₂，该损失的设计源于实验，如果不使用该扰动，生成语音的采样值分布整体在0值以上或以下，导致语音质量差，使用该扰动能保证语音采样值的分布正常；

本文中判别器的损失l_D为二元交叉熵损失，具体通过公式(9)获取，即

l_D＝E_xlog(D(x^adv))+E_xlog(1-D(x))。

在获得损失函数l后，将其通过梯度反传，更新生成器和判别器的参数，也即实施训练，并通过公式(10)得到最佳生成器，公式(10)为

对于训练策略，需要说明的是，由于本方法是基于数据驱动的深度学习方法，故而网络训练策略对于网络最终的性能至关重要，进行训练时需注意以下几点：1、在训练阶段，目标网络的参数固定，不参与训练，其作用是给出对抗样本的分类结果；2、生成器和判别器的训练策略为：首先训练一次生成器，接着训练一次判别器。训练生成器时，判别器的参数固定，仅更新生成器的参数；训练判别器时，生成器的参数固定，仅更新判别器的参数；3、为保证语音样本质量，目标网络在生成器和判别器训练几圈(一般是3-5圈)后加入框架训练；4、在实验中调整生成器损失的权重，其中铰链损失和均方差损失的权重可以设置大一些，比如分别对应取值100、200；5、网络停止的策略有两个：一是当达到设定的训练次数后，网络停止训练；二是判别器无法判断生成器构建的对抗样本时，停止训练；6、网络训练过程中，生成器损失达到新的最小值时，保存生成器的网络参数，此时得到的即为最佳生成器。

而通过梯度反传更新生成器和判别器参数的具体操作请参见如下步骤：

本发明提供了一种快速构建语音对抗样本的方法，有效提高了语音对抗样本构建的速度，构建的对抗样本能够成功欺骗目标网络，并保证构建的语音对抗样本质量。生成器也可做通用扰动生成器。

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于GAN的语音对抗样本生成方法，其特征在于：所述方法包括，

S1、对原始语音数据样本x进行预处理；

S3、将对抗样本x^adv输入到判别器D中，并且将对抗样本x^adv经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中；

S4中生成器训练时的损失函数l通过公式(4)得到，该公式(4)具体为：

其中，α、β和γ是各项损失的权重，为生成的对抗样本x^adv经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失，其根据公式(5)/>得到，t是目标标签，l_f为目标网络的，MFCC是特征提取器，/>可促使构建的语音样本能被目标网络错分成目标标签t；

判别器的对抗损失l_GAN采用如下公式(6)获取，即l_GAN＝Ε_xlog(1-D(x^adv),t)；

铰链损失l_hinge通过公式(7)获得，即l_hinge＝Ε_xmax(0,||G(x)||₂-c)，其中，c为扰动范围参数；

均方差损失l₂通过公式(8)获取，即l₂＝||x^adv-x||₂；

判别器的损失l_D通过公式(9)获取，即l_D＝Ε_xlog(D(x^adv))+Ε_xlog(1-D(x))；

2.根据权利要求1所述方法，其特征在于：

所述生成器G由8个卷积层、7个反卷积层、一个全连接层构成，其中卷积层和反卷积层之间使用跳跃连接，并使用Tanh激活函数将最后一层的值映射到[-1,1]的范围内。

3.根据权利要求1所述方法，其特征在于：

所述判别器由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成，其中，卷积块包括卷积层、BN层和激活函数Leaky-ReLU。

4.根据权利要求1所述方法，其特征在于：

S5中将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数，具体为，

1)在训练集中随机获取m个原始样本{x⁽¹⁾,x⁽²⁾,…,x^(m)}；

2)将m个原始样本输入生成器G，构成m个对抗样本x^adv(x+G(x))，即{x^adv(1),x^adv(2),…,x^adv(m)}；

3)使用更新生成器；

4)使用更新判别器；

5)重复步骤1)-4)直至完成迭代次数。

5.根据权利要求1所述方法，其特征在于：

S1中对原始语音数据样本x进行预处理，具体为，

6.根据权利要求5所述方法，其特征在于：

所述方法还包括采用如下公式(3)将[-1,1]范围内的语音数据恢复到[-32767，32767]的正常范围内，公式(3)为