CN113345420B

CN113345420B - 基于萤火虫算法与梯度评估的对抗音频生成方法及系统

Info

Publication number: CN113345420B
Application number: CN202110629870.5A
Authority: CN
Inventors: 张鹏程; 袁天昊; 吉顺慧
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-07-08
Anticipated expiration: 2041-06-07
Also published as: CN113345420A

Abstract

本发明提出了一种基于萤火虫算法与梯度评估的对抗音频生成方法及系统，本发明首先设置好期望生成的目标文本，然后将原始的音频文件转换成矩阵的形式，将其进行复制，生成一个拥有多个个体的种群；接着在种群中加入噪声，使个体之间产生差异，选择最优个体输入到语音识别模型中生成初始的对抗样本，并得到相应的文本形式，计算此文本与目标文本的编辑距离，根据编辑距离大小，选择萤火虫算法或梯度评估方法不断进行迭代，减小二者之间的编辑距离，最终生成目标对抗音频样本。与现有方法相比，本发明具有较好的鲁棒性，能够适用多种类型的语音数据集，提高了生成目标对抗音频样本的成功率和语音相似度，并且具有更快的生成时间。

Description

基于萤火虫算法与梯度评估的对抗音频生成方法及系统

技术领域

本发明涉及一种基于萤火虫算法与梯度评估方法的对抗音频样本生成方法及系统，针对黑盒语音识别模型，属于人工智能测试领域。

背景技术

近年来，随着深度学习技术的成熟，语音识别系统在语音识别、智能家居、自动驾驶等领域取得了一定进展。存在于系统内部的各种深度神经网络(Deep Neural Networks，DNNs)发挥了关键性的作用。随着研究的不断深入，人们对于深度神经网络的安全性和鲁棒性等属性日趋重视。然而，研究表明，含有微小扰动的样本会对网络的安全性和鲁棒性构成极大的威胁，对于含有多种复杂神经网络的语音识别系统来说也不例外。这些含有微小扰动的样本被称为对抗样本。在原始的音频样本中加入一些细微的干扰噪声，在保持原始样本与生成对抗样本音频相差不大的情况下，使得系统在语音识别过程中发生错误判断，最终生成与原始音频样本不相符的文本内容。

由于对抗样本自身的隐蔽性，对于语音识别系统具有一定的欺骗性。因此，研究人员可以使用不同的方法来生成对抗样本，并输入到语音识别系统中，观察这些异常的样本是否会让系统识别错误，输出与原始音频不相符的文本内容。从而针对系统暴露出的漏洞，采取相应的防御方法，来提高系统的安全性与鲁棒性。最近，Taori等人提出了一种基于遗传算法与梯度评估方法，针对黑盒语音模型的目标对抗样本生成方法，然而，这种方法还是存在一些缺陷：生成目标对抗样本的成功率不高，同一模型在不同音频数据集上的鲁棒性差异较大，还有值得改进的地方。

发明内容

发明目的：考虑到针对黑盒语音识别模型的目标对抗样本在实际生产、生活中的应用以及遗传算法的局限性，本发明目的在于提供一种基于萤火虫算法与梯度评估的目标对抗音频生成方法及系统，能够适用多种类型的语音数据集，优化生成的对抗音频样本的平均语音相似度、生成时间和成功率。

技术方案：为实现上述发明目的，本发明所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法，包括如下步骤：

步骤1：获取所需的原始音频样本，并设置好期望最终生成的目标文本内容；

步骤2：对原始音频样本进行预处理，将其转换成矩阵形式，并进行复制，形成含有n个相同样本个体的种群，在种群中加入噪声；n为设定的种群大小；

步骤3：计算加入噪声之后的种群所有个体的适应度函数值，选择当前最优个体，将其输入到语音识别模型中，得到对抗样本以及对应的文本内容；

步骤4：计算生成的对抗文本内容与设置的目标文本内容之间的编辑距离，并根据编辑距离数值的大小选择使用萤火虫算法或者梯度评估方法进行后续的优化；

步骤5：若当前的编辑距离大于2，则选择萤火虫算法进行对抗音频样本的优化，来减小生成对抗音频样本的文本内容与目标文本的编辑距离，以及适应度函数数值；

步骤6：若当前的编辑距离小于等于2，则选择梯度评估方法进行对抗音频样本的优化，来减小生成对抗音频样本的文本内容与目标文本的编辑距离，以及适应度函数数值；

步骤7：达到设置的最大迭代次数时，观察最终的编辑距离是否为0，若为 0，则表明成功生成了目标对抗音频样本，反之，则表明没有成功生成目标对抗音频样本；

所述步骤1中的获取的原始音频样本格式为wav音频格式。

所述步骤2的主要目的是进行音频样本初始化操作，形成含有多个个体的种群，以便于后续的方法进行优化，所述步骤2进一步叙述为：

步骤21：将输入的原始音频样本转化成一维矩阵形式，采用python语言中的转化函数，将原始的wav格式的音频样本转换成1*d的一维矩阵形式，其中d 表示矩阵的维度；

步骤22：将转换后的一维矩阵进行复制，生成n个完全相同的矩阵形式；

步骤23：由于在种群中，n个矩阵全部相同，无法得到当前情况下种群中的最优个体，考虑给所有个体加入噪声，使其互相产生差异，得到当前的最优个体。

所述步骤3根据引入的连结主义时间分类(CTC)损失函数给种群中每个个体进行赋值，并找到当前的最优个体。所述步骤3进一步叙述为：

步骤31：选择连结主义时间分类(CTC)损失函数作为适应度函数；

步骤32：获取种群中所有个体的适应度函数数值，并按照数值从小到大的顺序对个体进行排序；

步骤33：由于CTC损失函数值越小，个体性能的表现就越好，因此需要找出种群中适应度函数值最小的个体，作为当前的最优个体；

步骤34：将最优个体输入到语音识别模型中，得到初始的音频对抗样本以及对应的文本内容。

所述步骤4通过计算当前对抗样本的文本内容与目标文本的编辑距离，来选择萤火虫算法或梯度评估方法，进行对抗样本的优化，具体包括：

步骤41：引入编辑距离这一指标，来衡量当前对抗样本的文本内容与目标文本的差距；

步骤42：计算生成的对抗样本的文本内容与目标文本的编辑距离；

步骤43：若计算出的编辑距离大于2，则使用萤火虫算法进行当前对抗样本的优化，转入步骤5，否则转入步骤6；

步骤44：若计算出的编辑距离小于等于2，则使用梯度评估方法进行当前对抗样本的优化，转入步骤6，否则转入步骤5；

所述步骤5针对编辑距离大于2的情况，采用萤火虫算法对种群中的所有个体进行优化，降低编辑距离和适应度函数值，具体包括：

步骤51：对当前种群中的最优个体进行复制，形成n个相同的个体，此时所有的个体形成了一个种群；

步骤52：给种群中的所有个体加入噪声，使其互相之间产生差异性；

步骤53：设定在该算法中，种群中个体的适应度函数值与个体所有维度上的数值以及个体之间的吸引度有关，使用萤火虫算法进行个体维度数值的改变，让适应度数值高的个体在所有维度上向适应度数值低的个体进行移动。假设有两个萤火虫个体i与j，如果i的适应度数值高于j，那么个体i进行移动的公式为：

其中，

表示个体i在进行t+1次移动之后所有维度上的数值，

表示个体i在进行t次移动之后所有维度上的数值，

表示个体j在进行t次移动之后所有维度上的数值，β₀表示两个个体维度数值间距为0时的吸引度，r_ij表示个体i 和个体j之间的空间距离，

表示个体i在t次移动之后进行随机移动的函数，本方法使用-1到1上的均匀分布函数作为移动函数，α则表示这种随机移动函数的系数。按照上述的移动函数公式，当每个个体移动时，相应的适应度函数值也在不断发生改变；

步骤54：当种群中所有个体都移动结束之后，对个体按照适应度函数值从小到大排序，寻找到当前最优个体；

步骤55：将其输入到语音识别模型中，得到当前的对抗音频样本以及对应的文本内容；

步骤56：计算编辑距离，如果数值仍大于2，则转入步骤51，继续使用萤火虫算法进行优化，否则转入步骤6。

所述步骤6针对当前的编辑距离小于等于2的情况，此时采用梯度评估方法来优化当前对抗样本，减小编辑距离以及适应度函数值，具体包括：

步骤61：对当前种群中的最优个体进行复制，形成n个相同的个体，所有个体形成一个种群；

步骤62：给种群中每个个体进行基于自然进化策略(Natural EvolutionStrategy，NES)的梯度评估方法，对每个个体的维度数值进行基于高斯分布的干扰；

步骤63：得到每个个体的适应度函数值，按照从小到大的顺序进行排序，找出最小适应度值的个体；

步骤64：将最优个体输入到语音识别模型中，得到当前的对抗音频样本以及文本内容；

步骤65：计算当前对抗音频样本的文本内容与目标文本之间的编辑距离，若数值小于等于2，则转入步骤61，继续使用梯度评估方法进行对抗音频样本的优化，否则转入步骤5。

所述步骤7是在达到运行的终止条件时，判断是否成功生成了目标对抗音频样本，具体包括：

步骤71：若达到方法的结束条件时，生成的对抗音频样本的文本内容与目标文本之间的编辑距离为0，表明成功生成目标对抗音频样本，否则转入步骤72；

步骤72：若达到方法的结束条件时，生成的对抗音频样本的文本内容与目标文本之间的编辑距离不为0，表明未成功生成目标对抗音频样本。

基于相同的发明构思，本发明提供的一种基于萤火虫算法与梯度评估的对抗音频生成系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于萤火虫算法与梯度评估的对抗音频生成方法。

有益效果：本发明提供的一种基于萤火虫算法与梯度评估的对抗音频样本生成方法，输入为原始的、没有进行干扰过的音频样本。对原始音频样本首先进行初始化操作，生成含有多个相同样本个体的种群，给种群中的样本加入噪声，根据适应度函数值选择最优个体，生成初始对抗音频样本以及相应的文本内容。通过计算当前文本与目标文本内容的编辑距离选择使用相应的算法，来优化对抗音频样本，直至程序运行结束。为了验证本方法是否对于不同类型的语音数据集有效果，我们使用了Common Voice、Google Command以及LibriSpeech三种不同类型的语音数据集进行方法的验证，与现有技术相比，本发明在生成目标对抗音频样本时，生成目标对抗音频样本的成功率更高，同时还具有更快的生成时间以及更高的语音相似度。可以使用本发明，基于萤火虫算法与梯度评估方法，来生成目标对抗音频样本，寻找模型自身存在的漏洞。

附图说明

图1为本发明实施例的总体流程图；

图2为本发明一具体示例的方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的一种基于萤火虫算法与梯度评估的对抗音频生成方法，主要包括如下步骤：

步骤1：获取所需的原始音频样本，并设置好期望最终生成的目标文本；

步骤2：对原始音频样本进行预处理，将其转换成矩阵形式，并进行复制，形成含有n个相同音频样本个体的种群，在种群中加入噪声；n为设定的种群大小；步骤3：计算加入噪声之后种群中所有个体的适应度函数值，选择最优个体，将其输入到语音识别模型中，得到初始对抗音频样本以及对应的文本内容；

步骤4：计算生成的文本与设置的目标文本之间的编辑距离，根据数值的大小选择使用萤火虫算法或者梯度评估方法进行优化；

步骤5：若当前的编辑距离大于2，则采用萤火虫算法进行对抗音频样本的优化，来减小生成文本与目标文本的编辑距离，以及适应度函数数值；

步骤6：若当前的编辑距离小于等于2，则采用梯度评估方法进行对抗音频样本的优化，来减小生成文本与目标文本的编辑距离，以及适应度函数数值；

步骤7：达到程序设置的最大迭代次数时，观察最终的编辑距离是否为0，若为0，则表明成功生成了目标对抗音频样本，反之，则表明没有成功生成目标对抗音频样本。

如图2所示，本发明实施例以对用于语音识别的DeepSpeech黑盒语音模型为例，说明本发明实施例公开的一种基于萤火虫算法与梯度评估方法的对抗音频样本生成方法的详细步骤，具体如下:

步骤1：获取所需的原始音频样本，并设置好期望最终生成的目标文本形式，具体过程如下：

步骤11：从Common Voice语音数据集(https://voie.mozilla.org/zh-CN/data)网站上下载原始音频样本；

步骤12：将原始音频样本进行格式处理，使其从mp3音频格式转换成适用于DeepSpeech语音模型的wav音频格式；

步骤13：设置好期望生成的目标文本，内容长度为2个单词的短语文本，例如turnleft、take away这些文本。

步骤2：对原始音频样本进行预处理，将其转换成矩阵形式，并进行复制，形成含有n个相同音频样本个体的种群，在种群中加入噪声，具体过程如下：

步骤21：将输入的原始音频样本转化成一维矩阵形式，采用python中的转化函数，将原始的wav格式的音频样本转换成1*d的一维矩阵形式，其中d表示矩阵的维度；

步骤23：由于在种群中，n个矩阵全部相同，无法得到当前情况下种群中的最优个体，考虑给所有个体加入噪声，使其互相产生差异，以便得到当前情况下的最优个体。

步骤3：选择合适的适应度函数，获得加入噪声之后种群中所有个体的适应度函数值，选择最优个体，将其输入到语音识别模型中，得到对抗音频样本以及对应的文本内容，具体步骤如下：

步骤31：选择合适的函数作为此方法的适应度函数，来衡量种群中每个个体的性能。本方法选择连结主义时间分类(CTC)损失函数作为适应度函数。 CTC损失函数可以很好衡量生成的对抗音频样本与目标文本的接近程度。另外，该损失函数不要求原始音频样本与对应内容之间的严格对齐，在使用时显得更为方便。在本方法中的适应度函数都是指CTC损失函数；

步骤33：找出种群中适应度函数值最小的个体，作为最优个体；

步骤34：将最优个体输入到选定的黑盒语音识别模型中，得到初始的对抗音频样本以及对应的文本内容。

步骤4：计算生成的文本与设置的目标文本之间的编辑距离，根据数值的大小选择使用萤火虫算法或者梯度评估方法进行优化，具体步骤为：

步骤41：引入编辑距离这一指标，来衡量当前对抗音频样本的文本内容与目标文本的差距；

步骤42：计算生成的对抗音频样本的文本内容与目标文本的编辑距离；

步骤43：若计算出的编辑距离大于2，则使用萤火虫算法进行当前对抗音频样本的优化，转入步骤5，否则转入步骤6；

步骤44：若计算出的编辑距离小于等于2，则使用梯度评估方法进行当前对抗音频样本的优化，转入步骤6，否则转入步骤5；

步骤5：若当前的编辑距离大于2，则选择萤火虫算法进行对抗音频样本的优化，来减小生成文本与目标文本的编辑距离，以及适应度函数数值，具体步骤如下：

步骤51：对当前种群中的最优个体进行复制，形成n个相同的个体；

步骤52：给种群中所有个体加入噪声；

其中，

表示个体i在进行t+1次移动之后所有维度上的数值，

表示个体i在进行t次移动之后所有维度上的数值，

步骤54：当种群中所有个体都移动结束之后，对个体按照适应度数值从小到大排序，寻找到当前最优个体；

步骤55：将其输入到黑盒语音识别模型中，得到当前的对抗音频样本与对应的文本内容；

步骤56：计算编辑距离，如果数值仍大于2，则转入步骤51继续使用萤火虫算法进行优化，否则转入步骤6。

步骤6：若当前的编辑距离小于等于2，则选择梯度评估方法进行对抗音频样本的优化，来减小生成文本与目标文本的编辑距离，以及适应度函数数值，具体步骤如下：

步骤61：对当前种群中的最优个体进行复制，形成n个相同的个体；

步骤62：给种群中每个个体进行基于自然进化策略(Natural EvolutionStrategy，NES)的梯度评估方法，所遵循的公式为f＝f-ηF(x-δ)。其中，f 表示当前个体的适应度函数值，x表示原始个体所有维度上的数值，η表示干扰的强度系数，F表示当前个体的干扰梯度算法，δ则表示高斯分布，对于当前个体的维度数值进行基于高斯分布的干扰；

步骤63：得到每个个体的适应度函数值，按照从小到大的顺序进行排序，找出适应度值最小的个体；

步骤64：将最优个体输入到黑盒语音识别模型中，得到当前的对抗音频样本以及文本内容；

基于相同的发明构思，本发明实施例公开的一种基于萤火虫算法与梯度评估的对抗音频生成系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于萤火虫算法与梯度评估的对抗音频生成方法。

综上，考虑到针对黑盒语音识别模型的目标对抗音频样本在实际生产、生活中的应用，遗传算法的局限性以及萤火虫算法和梯度评估方法存在的优势：使用遗传算法进行寻优操作容易陷入局部最优解，而萤火虫算法具有自动细分以及处理多模态问题的能力。这种算法基于萤火虫之间的吸引力，会随着距离的增加而减小。在算法运行过程中，整个种群可以自动细分为子种群，而每个子种群可以围绕每个模式或局部的最优解，最终找到全局最优解。如果种群规模足够大，这种算法还可以允许萤火虫能够同时找到所有的最优解。同时，基于自然进化策略的梯度评估方法对于对抗音频样本的生成也具有较好的效果。本发明在不同音频数据集上具有较好的鲁棒性，在生成的对抗样本的平均语音相似度、生成时间和成功率表现均优于现有方案。

Claims

1.一种基于萤火虫算法与梯度评估的对抗音频生成方法，其特征在于，包括如下步骤：

步骤1：获取原始音频样本，并设置好期望最终生成的目标文本；

步骤2：对原始音频样本进行预处理，将其转换成矩阵形式，并进行复制，形成含有n个相同音频样本个体的种群，在种群中加入噪声；

步骤3：计算加入噪声之后，种群中所有个体的适应度函数数值并进行排序，选择当前的最优个体，将其输入到语音识别模型中，得到当前的初始对抗音频样本以及对应的文本内容；

步骤4：计算生成的对抗音频样本的文本内容与设置的目标文本内容之间的编辑距离，并根据编辑距离数值的大小，选择使用萤火虫算法或者梯度评估方法进行后续的优化；

步骤5：若编辑距离大于2，则采用萤火虫算法进行对抗音频样本的优化，来减小生成对抗音频样本的文本内容与目标文本内容的编辑距离，以及适应度函数数值；

步骤6：若编辑距离小于等于2，则采用梯度评估方法进行对抗音频样本的优化，来减小生成对抗音频样本的文本内容与目标文本内容的编辑距离，以及适应度函数数值；

步骤7：达到设置的最大迭代次数时，观察最终的编辑距离是否为0，若为0，则表明成功生成了目标对抗音频样本，反之，则表明没有成功生成目标对抗音频样本。

2.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法，其特征在于，所述步骤1中的获取的原始音频样本格式为wav音频格式。

3.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法，其特征在于，所述步骤2包括如下步骤：

步骤21：将输入的原始音频样本转换成1*d的一维矩阵形式，其中d表示矩阵的维度；

步骤23：给所有个体加入噪声，使其互相产生差异，以便得到最优个体。

4.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法，其特征在于，所述步骤3包括如下步骤：

步骤31：选择CTC损失函数作为适应度函数；

步骤33：在种群中找出适应度函数数值最小的个体，作为当前的最优个体；

步骤34：将最优个体输入到语音识别模型中，得到初始的对抗音频样本以及对应的文本内容。

5.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法，其特征在于，所述步骤5包括如下步骤：

步骤51：对当前种群中的最优个体进行复制，形成n个相同的个体，由这些个体形成一个种群；

步骤53：设种群中个体的适应度函数数值与个体所有维度上的数值以及个体之间的吸引度有关，使用萤火虫算法进行个体维度数值的改变，让适应度函数数值高的个体在所有维度上向适应度函数数值低的个体进行移动；假设有两个萤火虫个体i与j，如果i的适应度函数数值高于j，那么个体i进行移动的公式为：

其中，

表示个体i在进行t+1次移动之后所有维度上的数值，

表示个体i在进行t次移动之后所有维度上的数值，

表示个体j在进行t次移动之后所有维度上的数值，β₀表示两个个体维度数值间距为0时的吸引度，r_ij表示个体i和个体j之间的空间距离，

表示个体i在t次移动之后进行随机移动的函数，α表示随机移动函数的系数；当每个个体移动时，相应的适应度函数数值也在不断发生改变；

步骤54：当种群中所有个体都移动结束之后，对个体按照适应度函数数值从小到大排序，寻找到当前最优个体；

步骤55：将其输入到语音识别模型中，得到当前的对抗音频样本与对应的文本内容；

步骤56：计算编辑距离，如果数值仍大于2，则转入步骤41继续使用萤火虫算法进行优化，否则转入步骤6。

6.根据权利要求1所述的一种基于萤火虫算法与梯度评估的对抗音频生成方法，其特征在于，所述步骤6包括如下步骤：

步骤62：给种群中每个个体进行基于自然进化策略的梯度评估方法，对每个个体的维度数值进行基于高斯分布的干扰；

步骤63：得到每个个体的适应度函数数值，并按照从小到大的顺序进行排序，找出适应度函数数值最小的作为当前性能最优的个体；

步骤65：计算当前对抗音频样本的文本内容与目标文本内容之间的编辑距离，若数值小于等于2，则转入步骤61，继续使用梯度评估方法进行对抗音频样本的优化，否则转入步骤5。

7.一种基于萤火虫算法与梯度评估的对抗音频生成系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于萤火虫算法与梯度评估的对抗音频生成方法。