CN112287323A

CN112287323A - 基于生成对抗网络的语音验证码生成方法

Info

Publication number: CN112287323A
Application number: CN202011159897.4A
Authority: CN
Inventors: 高海昌; 王萍; 袁忠妮; 郭晓妍
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-29
Anticipated expiration: 2040-10-27
Also published as: CN112287323B

Abstract

本发明公开了一种基于生成对抗网络的语音验证码生成方法，旨在通过增强抵御自动语音识别系统攻击的能力，提高语音验证码的安全性，实现步骤为：获取训练样本集、测试样本集和帧序列集；构建语音验证码生成网络模型；对语音验证码生成网络模型进行迭代训练；获取语音验证码的生成结果。本发明利用人耳不易觉察对抗扰动噪声可以使自动语音识别系统误分类的特性，将用包含生成对抗网络的模型生成的对抗扰动噪声添加到原始语音验证码的音频文件中，并通过生成对抗网络交替训练互相博弈的过程，使生成的带有对抗扰动噪声的语音验证码难以被自动语音识别系统攻击成功，从而提高语音验证码的安全性，可用于实际场景中的验证码验证过程。

Description

基于生成对抗网络的语音验证码生成方法

技术领域

本发明属于网络安全技术领域，涉及一种语音验证码生成方法，特别涉及一种利用包含生成对抗网络GAN的模型生成语音验证码的方法，可用于网络安全验证。

背景技术

验证码，即全自动区分计算机和人类的公开图灵测试(Completely AutomatedPublic Turing test to tell Computers and Humans Apart，CAPTCHA)，是一种区分用户是计算机还是人的公共自动程序，主要通过强制人机交互来抵抗来自机器的恶意攻击。现如今，注册账号和登陆网站都需要验证码，验证码不仅能保护隐私安全、防止信息被恶意盗取，更能减少一些不必要的损失。现在比较主流的验证码包括文本验证码、图像验证码和语音验证码。语音验证码作为验证码的主流方式之一，主要形式以一段音频文件播放为主，通过用户完成听力识别音频内容完成验证过程，其出现为视觉障碍人群带来了福音。同时，作为一种以音频识别为主要任务的机制，扩充了验证码的多样性，增大了验证码自动识别的难度。近年来，随着语音识别技术取得突破性成果以及语音相关应用的普及，语音验证码也应该被重视起来。

现有大多数语音验证码已被证实可被自动语音识别系统攻破，且攻击成功率较高，其安全性亟需提高。目前影响语音验证码的安全性的因素主要可以分为两个方面：(1)语音验证码中音频自身的属性，例如语速、内容的难易程度、背景噪声等，语速越快、验证码中内容越难、噪声越大，语音验证码越不易被破解，但与此同时，人类通过语音验证码的难度也随之提升；(2)在语音验证码中加入的一些防御自动语音识别系统攻击的机制，这些加入的机制较大程度提高验证码的安全性的同时往往可以使人类难以察觉。现有的语音验证码一般是通过改变第一个方面的内容来提高安全性，例如从新闻等现实场景截取带有背景噪声的语音片段或者选择语速快的语音片段作为语音验证码。

在现今已有语音验证码中，抵御性较强的有Google于2014年提出并沿用的reCAPTCHA v2中的语音验证码，该语音验证码通过两端添加的噪声片段和一些背景噪声来抵御机器的恶意攻击，然而，验证码附带的背景噪声较容易被人类听众觉察且没有利用自动语音识别系统等机器攻击的特性来增加一些防御机制。用目前较好的Deepspeech和Lingvo自动语音识别模型对reCAPTCHA v2中的语音验证码进行识别，这些语音验证码大部分可被正确识别。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出了一种基于生成对抗网络的语音验证码生成方法，旨在通过增强抵御自动语音识别系统攻击的能力，提高语音验证码的安全性。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集、测试样本集和帧序列集：

(1a)从第三方开源平台获取N个原始语音验证码的音频文件，若音频文件的格式不是wav，则将其格式转换为wav，并对每个wav格式的音频文件首尾的噪音部分进行裁剪，得到音频文件集X＝{X₁,X₂,...,X_n,...,X_N}，其中N≥1200，X_n表示第n个裁剪后的长度为L_n的音频文件；

(1b)任选I个音频文件作为训练样本集，将其余N-I个音频文件作为测试样本集，其中

(1c)设分帧的帧数为M，

F为分帧的帧长，K为帧移，并对每个音频文件X_n进行分帧，若X_n不足M帧，以P_n为长度对其末尾补零，得到N个音频文件分帧结果组成的帧序列集X'＝{X'₁,X'₂,...,X'_n,...,X'_N}，其中X'_n表示X_n分帧后的包括M个音频向量的帧序列

(2)构建语音验证码生成网络模型A2Captcha：

构建包括生成对抗网络GAN和目标语音识别系统ASR的语音验证码生成网络模型A2Captcha，其中生成对抗网络GAN包括生成器网络G以及与其级联的判别器网络D，G采用包含多个卷积层、多个残差块和多个转置卷积层的卷积神经网络，G的损失函数为L_G，D采用包含全连接层和多个卷积层的卷积神经网络，D的损失函数为L_D，ASR与G级联，采用包括开源的Deepspeech以及开源的Lingvo的自动语音识别系统，其中：

L_G＝L_adv+α₁L_g+α₂L_TVD

其中L_adv表示对抗损失函数，

S表示每次迭代训练时用到的训练样本的数目，l_f()表示交叉熵损失函数，

表示第s个带有对抗扰动噪声的语音验证码样本，

表示ASR对

识别的Deepspeech识别结果，

表示ASR对

识别的Lingvo识别结果，t_fake表示目标转录标签，L_g表示内置损失函数，

表示第s个语音验证码样本，D()表示判别器网络D的输出结果，L_TVD表示全变分去噪损失函数，

ω为L_TVD的损失权重参数，α₁、α₂为L_G损失权重系数，λ为L_D的梯度惩罚权重参数；

(3)对语音验证码生成网络模型A2Captcha进行迭代训练：

(3a)初始化生成器网络G的权重参数为θ_G，判别器网络D的权重参数为θ_D，迭代次数为q，最大迭代次数为Q，Q≥50000，并令q＝0；

(3b)将从X'中随机选取的S个帧序列X’_train＝{X'₁,X'₂,...,X'_s,...,X'_S}作为语音验证码生成网络模型A2Captcha的输入进行前向推进，生成器网络G对每个帧序列X'_s中的每个音频向量

进行特征变换，得到对抗扰动噪声序列Z’_train＝{Z’₁,Z’₂,...,Z’_s,...,Z’_S}，其中1≤S＜I，Z’_s表示X'_s对应的对抗扰动噪声序列，

表示

对应的对抗扰动噪声向量；

(3c)按照m从小到大的次序将Z’_s中所有对抗扰动噪声向量进行连接，实现对Z’_s的音频合并，得到对抗扰动噪声音频集Z_train＝{Z₁,Z₂,...,Z_s,...Z_S}，其中Z_s表示Z’_s对应的对抗扰动噪声音频；

(3d)判断Z_train中是否存在对抗扰动噪声音频对应的音频文件的末尾进行了补零，若是，将该对抗扰动噪声音频末尾补零的长度置零，并将Z_s添加到对应的音频文件X_s中，得到带有对抗扰动噪声的语音验证码样本集

其中

表示X_s对应的带有对抗扰动噪声的语音验证码样本；

(3e)将X_train和

作为判别器网络D_q的输入进行前向传播，分别提取X_train和

中每一个X_s和

的特征，并将X_s标记为1，将

标记为0，得到S个音频文件的预测标签D_q(X_train)＝{D_q(X₁),D_q(X₂),...,D_q(X_s),...,D_q(X_S)}和S个带有对抗扰动噪声的语音验证码样本的预测标签

(3f)将

作为目标语音识别系统ASR的输入进行识别，得到Deepspeech识别结果集

和Lingvo识别结果集

其中

表示

的Deepspeech识别结果，

表示

的Lingvo识别结果；

(3g)采用对抗损失函数L_adv，通过t_fake、f_Deepspeech和f_Lingvo计算生成器网络G对抗损失L_adv的损失值

同时采用内置损失函数L_g，通过D_q(X_train)和

中所有的预测标签计算生成器网络G内置损失L_g的损失值

采用全变分去噪损失函数L_TVD，通过

和X_train计算生成器网络G的全变分去噪损失L_TVD的损失值

并通过

和

计算生成器网络G损失函数L_G的损失值

然后采用梯度下降法，通过

对判别器网络G_q各层的权重参数θ_G进行更新；

(3h)采用损失函数L_D，通过D_q(X_train)和

中所有的预测标签计算判别器网络D的损失值

然后采用梯度下降法，通过

对生成器网络D_q各层的权重参数θ_D进行更新；

(3i)判断q＝Q是否成立，若是，得到训练好的语音验证码生成网络模型A2Captcha^*，否则，令q＝q+1，并执行步骤(3b)；

(4)获取对抗语音验证码的生成结果：

(4a)将测试样本集中的所有测试样本X_test＝{X₁,X₂,...,X_j,...,X_N-I}和其对应的分帧后的帧序列集X_t'_est＝{X'₁,X'₂,...,X'_j,...,X'_N-I}作为训练好的语音验证码生成网络模型A2Captcha^*的输入并前向推进，生成器网络G^*对X’_test中的每一帧X'_j的每个音频向量

进行特征转换，得到对抗扰动噪声序列Z’_test＝{Z’₁,Z'₂,...,Z’_j,...,Z'_N-I}，Z’_j表示X'_j对应的对抗扰动噪声序列，

表示

对应的对抗扰动噪声向量；

(4b)按照m从小到大的次序将Z’_j中所有对抗扰动噪声向量进行连接，实现对Z’_j的音频合并，得到对抗扰动噪声音频集Z_test＝{Z₁,Z₂,...,Z_j,...Z_N-I}，其中Z_j表示Z’_j对应的对抗扰动噪声音频；

(4c)判断Z_test中是否存在对抗扰动噪声音频对应的音频文件的末尾进行了补零，若是，将该对抗扰动噪声音频末尾补零的长度置零，并将Z_j添加到对应的音频文件X_j中，得到语音验证码集

其中

表示X_j对应的语音验证码。

本发明与现有技术相比，具有如下优点：

1.本发明利用人耳不易觉察的对抗扰动噪声可以使自动语音识别系统误分类的特性，将用生成对抗网络GAN生成的对抗扰动噪声添加到原始语音验证码音频文件中，从而增强语音验证码抵御自动语音识别系统攻击的能力；通过生成器网络G和判别器网络D的交替训练互相博弈这一过程，使生成的带有对抗扰动噪声的语音验证码可以很好地模拟输入的语音验证码音频文件的真实分布，从而使自动语音识别系统更加难以攻击成功。与现有技术相比，有效地提高了语音验证码的安全性，仿真结果表明，本发明生成的语音验证码的攻击成功率降低为了0％。

2.本发明在训练生成器网络G的过程中采用了全变分去噪损失L_TVD，利用全变分去噪损失可以平滑掉带有对抗扰动噪声的语音验证码样本平坦区域的噪声，使语音验证码中的对抗噪声扰动听起来更加不可感知。用本发明得到的语音验证码对33位用户进行听力测试，大部分用户认为添加了对抗扰动噪声的语音验证码和原语音验证码的音频相比，不影响正常识别语音内容，仿真结果表明，生成的语音验证码可用性良好，不影响用户体验。

附图说明

图1是本发明的实现流程图；

图2是本发明对语音验证码生成网络模型A2Captcha进行迭代训练的实现流程图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集、测试样本集和帧序列集：

步骤1a)从第三方开源平台获取N个原始语音验证码的音频文件，若音频文件的格式不是wav，则将其格式转换为wav，并对每个wav格式的音频文件首尾的噪音部分进行裁剪，得到音频文件集X＝{X₁,X₂,...,X_n,...,X_N}，其中N≥1200，X_n表示第n个裁剪后的长度为L_n的音频文件，本实施例中，第三方开源平台为rechaptcha v2，N＝1200，获取N个原始语音验证码的音频文件是以能被自动语音识别系统Deepspeech和Lingvo正确识别为条件筛选得到的；

步骤1b)任选I个音频文件作为训练样本集，将其余N-I个音频文件作为测试样本集，I＝1000；

步骤1c)设分帧的帧数为M，

本实施例中，M＝2048，F＝16384，K＝0。

步骤2)构建语音验证码生成网络模型A2Captcha：

构建包括生成对抗网络GAN和目标语音识别系统ASR的语音验证码生成网络模型A2Captcha，其中生成对抗网络GAN包括的生成器网络G以及与其级联的判别器网络D，目标语音识别系统ASR与G级联：

生成器网络G采用包含多个卷积层、多个残差块和多个转置卷积层的卷积神经网络，其卷积层的数量为5，残差块数量为4，转置卷积层数量为5；其具体结构为：第一卷积层→第二卷积层→第三卷积层→第四卷积层→第五卷积层→第一残差块→第二残差块→第三残差块→第四残差块→第一转置卷积层→第二转置卷积层→第三转置卷积层→第四转置卷积层→第五转置卷积层；卷积层采用一维卷积，卷积核大小为25，步长为4，激活函数采取LeakyRelu，第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层的卷积核数量分别为64、128、256、512和1024；残差块包含卷积核数量为1024，卷积核大小为25，步长为3的两个卷积层，第一个层卷积层采用LeakyRelu激活函数；转置卷积层采用一维转置卷积，卷积核大小为25，步长为4，第一转置卷积层到第四转置卷积层的激活函数采用Relu，Relu的公式如下：

f(x)＝max(0,x)

其中，x表示网络的当前层对输入数据经过运算后输出的数据，f(x)为激活后的数据；第五层转置卷积层的激活函数采用Tanh，Tahn的公式如下：

其中，x表示网络的当前层对输入数据经过运算后输出的数据，f(x)为激活后的数据，输出的值在[-1,1]之间；第一转置卷积层、第二转置卷积层、第三转置卷积、第四转置卷积层和第五转置卷积层的卷积核数量分别为512、256、128、64和1。G的损失函数L_G为：

L_G＝L_adv+α₁L_g+α₂L_TVD

其中，L_adv表示对抗损失函数，

L_adv用于引导训练产生的带有对抗扰动噪声的语音验证码样本被ASR错误识别为t_fake，S表示每次迭代训练时用到的训练样本的数目，l_f()表示交叉熵损失函数，

表示第s个带有对抗扰动噪声的语音验证码样本，

表示ASR对

识别的Deepspeech识别结果，

表示ASR对

识别的Lingvo识别结果，t_fake表示目标转录标签；L_g表示内置损失函数，

D()表示判别器网络D的输出结果；L_TVD表示全变分去噪损失函数，

L_TVD可以平滑掉平坦区域的噪声，使语音验证码中的对抗噪声扰动听起来更加不可感知，ω为L_TVD的损失权重参数，α₁、α₂为L_G损失权重系数；本实施例中，t_fake设定为“custom target phrase”，α₁＝0.1，α₂＝1，ω＝10。

生成器网络G采用多个卷积层对裁剪后的音频文件的特征进行特征转换，根据每个音频文件的特征生成与之对应的扰动噪声，充分利用了音频文件的信息，并有利于生成的扰动噪声不易觉察且具有鲁棒性。

判别器网络D采用包含全连接层和多个卷积层的卷积神经网络，其卷积层的数目为5层，全连接层的数目为1层；其具体结构为：第一卷积层→第二卷积层→第三卷积层→第四卷积层→第五卷积层→全连接层；卷积层采用一维卷积，卷积核大小为25，步长为4，激活函数为LRelu，LRelu的公式如下：

其中，x表示网络的当前层对输入数据经过运算后输出的数据，f(x)为激活后的数据，本实施例中，a＝0.2；第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层的卷积核数量分别为64、128、256、512和1024；第一卷积层到第四卷积层并经过激活函数之后，需要对得到的特征图进行Phase Shuffle操作，Phase Shuffle用于将特征图的特征进行随机打乱，便于D对特征的学习，其具体过程为：设置超参数w,并从[-w,w]中随机选择一个数字b，若b＞0则去掉特征图后面长度为b的部分，并对裁剪后的特征图进行映射得到一个新的长度为b的特征图，并将这个新的特征图填充到裁剪后的特征图的前面，若b＜0则去掉特征图前面长度为b的部分，并对裁剪后的特征图进行映射得到一个新的长度为b的特征图，并将这个新的特征图填充到裁剪后的特征图的后面；全连接层卷积核数量为1024。D的损失函数L_D为：

其中，λ为梯度惩罚权重参数，本实施例中，λ＝10，Phase Shuffle映射方法使用了tensorflow.pad()函数中的reflect映射方法，Phase Shuffle的超参数设置为2。

判别器网络D对于输入的音频文件和带有对抗扰动噪声的语音验证码样本进行区分判别，再利用判别结果的预测标签来计算损失函数从而更新自身网络D和生成器网络G，引导G生成更加不易觉察的对抗扰动噪声。

目标语音识别系统ASR包含两个先进的基于深度学习的自动语音识别系统DeepSpeech和Lingvo，使用DeepSpeech和Lingvo进行集成学习，使得生成的对抗语音验证码对二者均有误导效果从而提高对抗语音验证码的安全性使之更加不易被自动语音识别系统攻破。

步骤3)对语音验证码生成网络模型A2Captcha进行迭代训练，实现过程如图2所示：

步骤3a)初始化生成器网络G的权重参数为θ_G，判别器网络D的权重参数为θ_D，迭代次数为q，最大迭代次数为Q，Q≥50000，并令q＝0，本实施例中，Q＝50000，所有训练过程学习率均为0.0001，梯度下降算法均使用Adam优化算法，Adam一阶指数衰减因子为0.5，二阶指数衰减因子为0.9；

步骤3b)将从X'中随机选取的S个帧序列X’_train＝{X'₁,X'₂,...,X'_s,...,X'_S}作为语音验证码生成网络模型A2Captcha的输入进行前向推进，生成器网络G对每个帧序列X'_s中的每个音频向量

进行特征变换，得到对抗扰动噪声序列Z’_train＝{Z’₁,Z'₂,...,Z’_s,...,Z'_S}，其中1≤S＜I，Z’_s表示X'_s对应的对抗扰动噪声序列，

表示

对应的对抗扰动噪声向量，本实施例中S＝16。

步骤3c)按照m从小到大的次序将Z’_s中所有对抗扰动噪声向量进行连接，实现对Z’_s的音频合并，得到对抗扰动噪声的音频集Z_train＝{Z₁,Z₂,...,Z_s,...Z_S}，其中Z_s表示用Z’_s中的对抗扰动噪声向量生成的一段对抗扰动噪声的音频；

步骤3d)判断Z_train中是否存在对抗扰动噪声音频对应的音频文件的末尾进行了补零，若是，将该对抗扰动噪声音频末尾补零的长度置零，并将Z_s添加到对应的音频文件X_s中，得到带有对抗扰动噪声的语音验证码样本集

其中

表示X_s对应的带有对抗扰动噪声的语音验证码样本；

步骤3e)将X_train和

作为判别器网络D_q的输入进行前向传播，分别提取X_train和

中每一个X_s和

的特征，并将X_s标记为1，将

步骤3f)将

作为目标语音识别系统ASR的输入进行识别，实现步骤为：

步骤3f1)对

中每一个

进行梅尔频率倒谱系数MFCC特征提取，将特征提取的结果作为Deepspeech的输入进行识别，得到Deepspeech识别结果集

其中，

表示

的Deepspeech识别结果；

步骤3f2)将

中的每一个

作为Lingvo的输入进行识别，得到Lingvo识别结果集

其中，

表示

的Lingvo识别结果；

步骤3g)采用对抗损失函数L_adv，通过f_Deepspeech和f_Lingvo计算生成器网络G对抗损失L_adv的损失值

同时采用内置损失函数L_g，通过D_q(X_train)和

中所有的预测标签计算生成器网络G内置损失L_g的损失值

采用全变分去噪损失函数L_TVD，通过

和X_train计算生成器网络G的全变分去噪损失L_TVD的损失值

并通过

和

计算生成器网络G损失函数L_G的损失值

然后采用梯度下降法，通过

对判别器网络G_q各层的权重参数θ_G进行更新；

步骤3h)采用损失函数L_D，通过D_q(X_train)和

中所有的预测标签计算判别器网络D的损失值

然后采用梯度下降法，通过

对生成器网络D_q各层的权重参数θ_D进行更新；

步骤3i)判断q＝Q是否成立，若是，得到训练好的语音验证码生成网络模型A2Captcha^*，否则，令q＝q+1，并执行步骤(3b)；

通过G和D交替训练最终使语音验证码生成网络模型A2Captcha中生成对抗网络GAN的D更加容易区分音频文件和带有对抗扰动噪声的语音验证码样本，并使G能够欺骗D的判别，从而生成更加真实的不易觉察的且具有较好鲁棒性对抗扰动噪声，从而得到效果较好的语音验证码。

步骤4)获取语音验证码的生成结果：

步骤4a)将测试样本集中的所有测试样本X_test＝{X₁,X₂,...,X_j,...,X_N-I}和其对应的分帧后的帧序列集X’_test＝{X'₁,X'₂,...,X'_j,...,X'_N-I}作为训练好的语音验证码生成网络模型A2Captcha^*的输入并前向推进，生成器网络G^*对这些帧序列集中的每一帧的每个音频向量

表示

对应的对抗扰动噪声向量；

步骤4b)按照m从小到大的次序将Z’_j中所有对抗扰动噪声向量进行连接，实现对Z’_j的音频合并，得到对抗扰动噪声音频集Z_test＝{Z₁,Z₂,...,Z_j,...Z_N-I}，其中Z_j表示Z’_j对应的对抗扰动噪声音频；

步骤4c)判断Z_test中是否存在对抗扰动噪声音频对应的音频文件的末尾进行了补零，若是，将该对抗扰动噪声音频末尾补零的长度置零，并将Z_j添加到对应的音频文件X_j中，得到语音验证码集

其中

表示X_j对应的语音验证码。

下面结合仿真实验，对本发明的技术效果作进一步的描述：

1、仿真条件和内容：

本实验所用硬件平台为：处理器Intel Corei7 CPU(1.80GHz),显卡NVDIAGeForce GTX 1080，内存8GB。操作系统为Ubuntu 16.04。仿真实验软件平台为：Tensorflow和Python3.5。

仿真一：用自动语音识别系统Deepspeech和Lingvo，对生成的200个带有对抗扰动噪声的语音验证码进行识别，得到的识别结果和攻击成功率如表1所示，其中：

仿真二：对生成的200个带有对抗扰动噪声的语音验证码进行用户调研，33位用户分别听取6段reCAPTCHA v2语音验证码和6段本方法对应生成的带有对抗扰动噪声的语音验证码，得到的认为“加了对抗扰动的语音和原音频相比，不影响正常识别语音内容”的人数比例如表2所示。

2、仿真结果分析：

表1

表2

从表1可以看出，对于200个由语音识别系统成功识别的reCAPTCHAv2语音验证码生成的带有对抗扰动噪声的语音验证码，自动语音识别系统的攻击成功率从100％降到了0％，并将本发明生成的带有对抗扰动噪声的语音验证码错误识别为t_fake的内容。结果表明提出的语音验证码生成方法生成的语音验证码能够成功地误导自动语音识别系统的识别，增强其抵御自动语音识别系统攻击的能力，从而提高语音验证码的安全性，降低其被自动语音识别系统破解的可能性。

从表2可以看出93.94％的用户均认为添加了对抗扰动噪声的语音验证码和原语音验证码的音频相比不影响正常识别语音内容，生成的语音验证码可用性良好，不影响用户体验。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于生成对抗网络的语音验证码生成方法，其特征在于，包括以下步骤：

(1)获取训练样本集、测试样本集和帧序列集：

(1c)设分帧的帧数为M，

(2)构建语音验证码生成网络模型A2Captcha：

L_G＝L_adv+α₁L_g+α₂L_TVD

其中L_adv表示对抗损失函数，

表示第s个带有对抗扰动噪声的语音验证码样本，

表示ASR对

识别的Deepspeech识别结果，

表示ASR对

D()表示判别器网络D的输出结果，L_TVD表示全变分去噪损失函数，

(3)对语音验证码生成网络模型A2Captcha进行迭代训练：

(3b)将从X'中随机选取的S个帧序列X′_train＝{X'₁,X'₂,...,X'_s,...,X'_S}作为语音验证码生成网络模型A2Captcha的输入进行前向推进，生成器网络G对每个帧序列X'_s中的每个音频向量

进行特征变换，得到对抗扰动噪声序列Z′_train＝{Z′₁,Z'₂,...,Z′_s,...,Z'_S}，其中1≤S＜I，Z′_s表示X'_s对应的对抗扰动噪声序列，

表示

对应的对抗扰动噪声向量；

(3c)按照m从小到大的次序将Z′_s中所有对抗扰动噪声向量进行连接，实现对Z′_s的音频合并，得到对抗扰动噪声音频集Z_train＝{Z₁,Z₂,...,Z_s,...Z_S}，其中Z_s表示Z′_s对应的对抗扰动噪声音频；

其中

表示X_s对应的带有对抗扰动噪声的语音验证码样本；

(3e)将X_train和

作为判别器网络D_q的输入进行前向传播，分别提取X_train和

中每一个X_s和

的特征，并将X_s标记为1，将

(3f)将

和Lingvo识别结果

其中

表示

的Deepspeech识别结果，

表示

的Lingvo识别结果；

同时采用内置损失函数L_g，通过D_q(X_train)和

中所有的预测标签计算生成器网络G内置损失L_g的损失值

采用全变分去噪损失函数L_TVD，通过

和X_train计算生成器网络G的全变分去噪损失L_TVD的损失值

并通过

和

计算生成器网络G损失函数L_G的损失值

然后采用梯度下降法，通过

对生成器网络G_q各层的权重参数θ_G进行更新；

(3h)采用损失函数L_D，通过D_q(X_train)和

中所有的预测标签计算判别器网络D的损失值

然后采用梯度下降法，通过

对生成器网络D_q各层的权重参数θ_D进行更新；

(4)获取语音验证码的生成结果：

(4a)将测试样本集中的所有测试样本X_test＝{X₁,X₂,...,X_j,...,X_N-I}和其对应的分帧后的帧序列集X′_test＝{X₁′,X'₂,...,X'_j,...,X'_N-I}作为训练好的语音验证码生成网络模型A2Captcha^*的输入并前向推进，生成器网络G^*对X′_test中的每一帧X'_j的每个音频向量

进行特征转换，得到对抗扰动噪声序列Z′_test＝{Z′₁,Z'₂,...,Z'_j,...,Z'_N-I}，Z'_j表示X'_j对应的对抗扰动噪声序列，

表示

对应的对抗扰动噪声向量；

(4b)按照m从小到大的次序将Z'_j中所有对抗扰动噪声向量进行连接，实现对Z'_j的音频合并，得到对抗扰动噪声音频集Z_test＝{Z₁,Z₂,...,Z_j,...Z_N-I}，其中Z_j表示Z'_j对应的对抗扰动噪声音频；

其中

表示X_j对应的语音验证码。

2.根据权利要求1所述的基于生成对抗网络的语音验证码生成方法，其特征在于，步骤(2)中所述的生成器网络G和判别器网络D，其中生成器网络G包含的卷积层的数量为5，残差块的数量为4，转置卷积层的数量为5，D包含的卷积层的数量为5，生成器网络G和判别器网络D的具体结构和参数分别为：

生成器网络G的具体结构为：第一卷积层→第二卷积层→第三卷积层→第四卷积层→第五卷积层→第一残差块→第二残差块→第三残差块→第四残差块→第一转置卷积层→第二转置卷积层→第三转置卷积层→第四转置卷积层→第五转置卷积层；

生成器网络G的具体参数为：卷积层采用一维卷积，卷积核大小为25，步长为4，激活函数采取LeakyRelu，第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层的卷积核数量分别为64、128、256、512和1024；残差块包含卷积核数量为1024，卷积核大小为25，步长为3的两个卷积层，第一个层卷积层的激活函数采用LeakyRelu；转置卷积层采用一维转置卷积，卷积核大小为25，步长为4，第一转置卷积层到第四转置卷积层的激活函数采用Relu，第五层转置卷积层的激活函数采用Tanh，第一转置卷积层、第二转置卷积层、第三转置卷积、第四转置卷积层和第五转置卷积层的卷积核数量分别为512、256、128、64和1；

判别器网络D的具体结构为：第一卷积层→第二卷积层→第三卷积层→第四卷积层→第五卷积层→全连接层；

判别器网络D的具体参数为：卷积层采用一维卷积，卷积核大小为25，步长为4，激活函数采用LeakyRelu；第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层的卷积核数量分别为64、128、256、512和1024；第一卷积层到第四卷积层并经过激活函数之后，需要对得到的特征图进行Phase Shuffle操作；全连接层卷积核数量为1024。

3.根据权利要求1所述的基于生成对抗网络的语音验证码生成方法，其特征在于，步骤(3f)中所述的将

作为目标语音识别系统ASR的输入进行识别，实现步骤为：

(3f1)对

中每一个

(3f2)将

中的每一个

作为Lingvo的输入进行识别，得到Lingvo识别结果集