CN110610708A

CN110610708A - 一种基于布谷鸟搜索算法的声纹识别攻击防御方法

Info

Publication number: CN110610708A
Application number: CN201910819972.6A
Authority: CN
Inventors: 陈晋音; 郑喆; 叶林辉
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-31
Filing date: 2019-08-31
Publication date: 2019-12-24
Anticipated expiration: 2039-08-31
Also published as: CN110610708B

Abstract

一种基于布谷鸟搜索算法的声纹识别攻击防御方法，包括：(1)准备原始音频数据集；(2)训练声纹识别模型：利用预训练数据集对声纹识别模型进行训练，然后使用测试数据集测试识别模型的准确率；(3)攻击声纹识别模型：搭建基于布谷鸟搜索算法的攻击方法，设置适应度函数及攻击方法的相关参数；利用该攻击方法生成最优对抗样本，使其被错误识别成目标类别而不被人耳所识别；(4)对抗训练声纹识别模型：将步骤(3)中生成的样本加入预训练数据集中，重新训练声纹识别模型，使得重新训练的声纹识别模型具有防御对抗样本攻击的能力，提高声纹识别模型的安全性和稳定性。

Description

一种基于布谷鸟搜索算法的声纹识别攻击防御方法

技术领域

本发明属于深度学习算法及信息安全研究领域，具体涉及一种基于布谷鸟算法的声纹识别系统攻击防御方法。

背景技术

声纹识别作为一种生物识别技术，通过提取说话者声音中的独特特征，对不同人的声音进行有效的区分。由于蕴含声纹特征的语音容易获取，且辨认的算法复杂度较低，使得声纹识别系统具有较为广泛的应用。已有的声纹识别技术分为文本相关和文本无关两种，文本相关的声纹识别模型要求用户按照规定内容发音，每个人的声纹模型被精确建立，但是在识别时也必须按规定内容发音，可以达到较好的识别效果，但一旦用户发音内容有误会造成无法正确识别的情况。文本无关的声纹识别模型则不需要规定用户的发音内容，使得识别较为方便，应用范围较为广泛。

基于深度学习的声纹识别系统为人们的生产生活带来了极大的便利，但同时也容易受到对抗样本的攻击。攻击者在原始音频中添加精心计算的扰动，可以使得声纹识别结果发生改变，能够使音频被识别成特定的说话者，这样极有可能损害用户的个人信息甚至人身安全。

已有的声纹识别攻击方法主要分为白盒攻击和黑盒攻击。黑盒攻击方法在未知模型内部参数的情况下，利用遗传算法、粒子群算法等优化算法计算得到最优扰动，使生成的对抗音频与原始音频在人耳不能发觉的情况下能够被分类成目标说话者。白盒攻击方法需要在了解模型内部的参数的情况下，通过反向传播算法计算梯度并更新模型参数。另外，攻击者还利用麦克风等设备的非线性，通过添加不在人耳识别频率范围内的噪声实现攻击。这些噪声在经过麦克风后能够被声纹识别系统识别。常用的语音识别防御方法分为检测对抗样本、对抗训练等，对抗训练通过将生成对抗样本加入原始训练数据集中重新训练声纹识别模型使得模型具备防御对抗样本的能力。对抗样本检测的方法通过在识别前加入检测程序，使之能够辨别检测出对抗样本，并拒绝识别，使得声纹识别模型免受对抗样本的攻击。

发明内容

本发明要克服现有声纹识别系统存在容易受到对抗样本攻击的安全性问题，提供一种基于布谷鸟搜索算法的声纹识别攻击防御方法，该方法可以高效生成对抗样本使得识别系统发生错误识别，并利用对抗训练的方式，将生成的对抗样本加入原始训练数据集中，经过对抗训练后的声纹识别模型能够防御对抗样本的攻击，具有更高的安全性。

一种基于布谷鸟搜索算法的声纹识别攻击防御方法，主要包括以下步骤：

(1)准备原始音频数据集：采集不同说话者说不同内容的语音音频，按照一定比例分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集，并对音频进行预处理；

Step1：采集不同的说话者说确定内容的音频，即设共有M个不同的说话者，N个不同的说话内容，则每一个样本可以表示为x_ij(1≤i≤M,1≤j≤N)，即第i个说话者说第j个内容的音频样本。

为了使声纹识别模型具有较强的稳定性，在噪声环境下也能够提取有效信息实现正确的识别，采集的音频样本中包括安静和嘈杂环境。同时在音频采集过程中改变说话者和录音设备的距离，来模拟真实声纹识别场景中的说话者音量大小不一致的情形。为了提高后续声纹识别的准确率，在采集音频的过程中尽可能保证说话者的发音较为标准。

Step2：将上述采集的音频进行裁剪以及添加相应的标签并处理成数据流格式的音频文件，作为训练、测试声纹识别模型以及生成对抗样本所需要的数据。

Step3：将经过预处理后的音频按照一定比例分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集。

(2)训练声纹识别模型：利用预训练数据集对声纹识别模型进行训练，然后使用测试数据集测试识别模型的准确率，确保达到预设的识别准确率，否则修改模型的结构和参数重新进行训练；

搭建基于LSTM网络的声纹识别模型，利用同一个人说的不同内容经过识别模型后输出的质心作为该说话人的特征，用余弦相似度来衡量音频样本与不同说话人特征之间的距离，并设置损失函数，使得样本与其对应的说话人特征的距离最小，与其他说话人之间的距离最大，其具体步骤如下。

Step1:提取音频的特征向量。将原始音频以25ms为帧长，以10ms为步长进行分割后，计算每一帧的梅尔倒谱系数，每一帧的倒谱系数为一个13维的向量。计算每一帧的能量以及其倒谱系数的一阶和二阶差分值，最终得到每一帧40维的特征向量。

Step2：搭建声纹识别模型。搭建基于LSTM结构的声纹识别模型，设置隐藏单元数量为768.

Step3：初始化相关参数并进行训练。

Step4:用测试数据集测试识别模型的准确率,确保达到预设的识别准确率，否则修改模型的结构和参数重新进行训练；

(3)攻击声纹识别模型：搭建基于布谷鸟搜索算法的攻击方法，设置适应度函数及攻击方法的相关参数。利用该攻击方法生成最优扰动，并叠加到原始样本上，使得生成的对抗样本被错误识别而不被人耳所识别，其主要步骤包括：

Step1：随机初始化n个与原始音频相同大小的扰动矩阵并与原始音频矩阵进行叠加得到新的扰动音频矩阵；

Step2：初始化布谷鸟搜索算法所需的相关参数，设置适应度函数；

Step3：利用布谷鸟搜索算法迭代优化扰动矩阵，使得添加扰动后的音频能够被分类成目标类别；

Step4：当添加扰动后的音频能够被分类成目标类别或者达到最大迭代次数时，将扰动音频矩阵转换成音频文件。

(4)对抗训练声纹识别模型：将步骤(3)中生成的样本加入预训练数据集中，重新训练声纹识别模型，使得重新训练的声纹识别模型具有防御对抗样本攻击的能力，提高声纹识别模型的安全性和稳定性。

与现有技术相比，本发明具有以下有益效果：

本发明利用布谷鸟搜索算法，可以在较少参数的情况下，较快寻优找到最优个体，使得生成的对抗样本能够被识别成目标类别。由于布谷鸟搜索算法具有全局搜索和局部搜索两种方式，可以确保找到的最优解为全局最优解，使得生成的对抗样本和原始样本间的差异较小不被人耳发觉，具有较高的隐秘性；同时局部搜索方式减小了搜索空间，有效提高了搜索效率。

附图说明

图1为本发明的流程示意图；

图2为本发明实施的利用布谷鸟搜索算法迭代优化生成对抗样本的算法流程图。

具体实施方式

下面结合说明书附图和实例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

参照图1和图2，一种基于布谷鸟搜索算法的声纹识别攻击防御方法包括以下步骤：

(1)准备原始音频数据集：采集不同说话者说不同内容的语音音频并进行预处理，按照一定比例分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集，其具体过程如下。

(2)训练声纹识别模型：搭建声纹识别模型并初始化相关参数，利用预处理好的数据集对声纹识别模型进行训练，并使用测试数据集测试模型的准确率，若不能达到预设的准确率，则调整声纹识别模型的结构、参数，重新训练测试，使得声纹识别模型能够达到预设的识别准确率，对于正常情况下的音频能够达到较好的识别效果。声纹识别的具体过程如下。

Step3：设置相关参数并进行训练。设样本x_ij经过声纹识别模型后的输出向量为e_ij，则对于第k个说话者，其M个不同说话内容对应的质心为：

则对于样本x_ij，利用余弦相似度定义其与第k个说话者之间的距离；

s_ij,k＝w·cos(e_ij,c_k)+b (2)

其中，cos(·)表示余弦相似度，w和b是模型训练过程中可以调整的参数。

定义模型训练的损失函数：

其中，第一项表示样本x_ij与其所对应的第i个说话者质心的距离，第二项表示该样本与其他说话者质心的距离。该损失函数使得每个样本尽可能靠近其所对应类别的质心，而远离其他所有类别的质心。

之后，设定批量训练的相关参数，并利用随机梯度下降优化算法训练模型最小化损失函数。

(3)攻击声纹识别模型：搭建基于布谷鸟搜索算法的攻击方法，设置适应度函数及攻击方法的相关参数。利用该攻击方法生成最优扰动，并叠加到原始样本上，使得生成的对抗样本被错误识别而不被人耳所识别。攻击声纹识别模型，生成对抗样本的过程如下。

Step1：初始化适应度函数，定义适应度函数如下。

其中，第一项表示样本x_ij与其目标分类类别对应的第m个说话者质心的距离，第二项表示样本与除第m个说话者外质心的距离，第三项中的x表示生成的对抗样本，x₀表示原始音频，该项通过L2范数来衡量对抗样本与原始音频样本之间的差异。另外，上述适应度函数中的c为一个常数，实现了不同衡量标准间的归一化。

Step2：初始化群体。设置群体的数量G，随机初始化扰动，使得初始扰动与原始音频矩阵的形状相同，将这些随机生成的矩阵叠加到原始音频上最终得到初始对抗样本，设为：X＝{x₁,x₂,...,x_G}.

Step3：利用莱维飞行生成新的个体，其具体的生成算法如下：

其中，表示点对点乘法，表示第i个个体在第k次更新后生成的个体，α是步长缩放因子，Levy(β)表示莱维随机搜索路径，服从莱维概率分布：

Levy～u＝t^-β(1≤β≤3) (6)

具体地，通过下式更新个体的位置：

其中，rand1是满足正态分布N(0,σ²)的随机数，rand2是满足标准正态分布的随机数，σ满足：

通常，β＝1.5；

计算每个个体的适应度，记为表示第i个个体在第k次更新后的适应度，群体中最优个体适应度记为X_best，则步长的更新满足下式：

其中，α₀为常数。

Step4:随机选取一个个体，若通过莱维飞行生成的新个体的适应度大于该个体的适应度，则进行替换。

Step5:以概率P舍弃适应度较低的个体，并生成新的个体进行替换。

Step6:若迭代次数达到设定的最大迭代次数或者生成的对抗样本能够分类为目标类别，则停止迭代，并将对抗样本矩阵转换为音频，若不满足上述条件，则重复Step3-Step5中的步骤，对群体继续迭代寻优。

(4)对抗训练声纹识别模型：将步骤(3)中生成的样本加入与训练数据集中，重新训练声纹识别模型，使得重新训练的声纹识别模型具有防御对抗样本攻击的能力，提高声纹识别模型的安全性和稳定性。

本发明采用布谷鸟搜索算法，在不了解声纹识别模型内部参数的情况下，迭代优化生成最佳扰动，使得添加扰动后的对抗样本能够被声纹识别模型识别成目标类别且不被人耳所发觉。同时，将生成的对抗样本加入原始训练数据集重新训练声纹识别模型，使得声纹识别模型具有防御对抗样本的能力，具有更高的安全性和稳定性。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于布谷鸟搜索算法的声纹识别攻击防御方法，包括以下步骤：

(1)准备原始音频数据集：采集不同说话者说不同内容的语音音频并进行预处理，按照一定比例分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集，其具体过程如下；

Step11：采集不同的说话者说确定内容的音频，即设共有M个不同的说话者，N个不同的说话内容，则每一个样本可以表示为x_ij(1≤i≤M,1≤j≤N)，即第i个说话者说第j个内容的音频样本；

为了使声纹识别模型具有较强的稳定性，在噪声环境下也能够提取有效信息实现正确的识别，采集的音频样本中包括安静和嘈杂环境；同时在音频采集过程中改变说话者和录音设备的距离，来模拟真实声纹识别场景中的说话者音量大小不一致的情形；为了提高后续声纹识别的准确率，在采集音频的过程中尽可能保证说话者的发音较为标准；

Step12：将上述采集的音频进行裁剪以及添加相应的标签并处理成数据流格式的音频文件，作为训练、测试声纹识别模型以及生成对抗样本所需要的数据；

Step13：将经过预处理后的音频按照一定比例分成预训练数据集、测试数据集和用于生成对抗样本的扰动数据集；

(2)训练声纹识别模型：搭建声纹识别模型并初始化相关参数，利用预处理好的数据集对声纹识别模型进行训练，并使用测试数据集测试模型的准确率，若不能达到预设的准确率，则调整声纹识别模型的结构、参数，重新训练测试，使得声纹识别模型能够达到预设的识别准确率，对于正常情况下的音频能够达到较好的识别效果；声纹识别的具体过程如下；

Step21:提取音频的特征向量；将原始音频以25ms为帧长，以10ms为步长进行分割后，计算每一帧的梅尔倒谱系数，每一帧的倒谱系数为一个13维的向量；计算每一帧的能量以及其倒谱系数的一阶和二阶差分值，最终得到每一帧40维的特征向量；

Step22：搭建声纹识别模型；搭建基于LSTM结构的声纹识别模型，设置隐藏单元数量为768；

Step23：设置相关参数并进行训练；设样本x_ij经过声纹识别模型后的输出向量为e_ij，则对于第k个说话者，其M个不同说话内容对应的质心c_k为：

s_ij,k＝w·cos(e_ij,c_k)+b (2)

其中，cos(·)表示余弦相似度，w和b是模型训练过程中可以调整的参数；

定义模型训练的损失函数：

其中，第一项表示样本x_ij与其所对应的第i个说话者质心的距离，第二项表示该样本与其他说话者质心的距离；该损失函数使得每个样本尽可能靠近其所对应类别的质心，而远离其他所有类别的质心；

之后，设定批量训练的相关参数，并利用随机梯度下降优化算法训练模型最小化损失函数；

Step24:用测试数据集测试识别模型的准确率,确保达到预设的识别准确率，否则修改模型的结构和参数重新进行训练；

(3)攻击声纹识别模型：搭建基于布谷鸟搜索算法的攻击方法，设置适应度函数及攻击方法的相关参数；利用该攻击方法生成最优扰动，并叠加到原始样本上，使得生成的对抗样本被错误识别而不被人耳所识别；攻击声纹识别模型，生成对抗样本的过程如下；

Step31：初始化适应度函数，定义适应度函数如下；

其中，第一项表示样本x_ij与其目标分类类别对应的第m个说话者质心的距离，第二项表示样本与除第m个说话者外质心的距离，第三项中的x表示生成的对抗样本，x₀表示原始音频，该项通过L2范数来衡量对抗样本与原始音频样本之间的差异；另外，上述适应度函数中的c为一个常数，实现了不同衡量标准间的归一化；

Step32：初始化群体；设置群体的数量G，随机初始化扰动，使得初始扰动与原始音频矩阵的形状相同，将这些随机生成的矩阵叠加到原始音频上最终得到初始对抗样本，设为X＝{x₁,x₂,...,x_G}.

Step33：利用莱维飞行生成新的个体，其具体的生成算法如下；

其中，表示第i个个体在第k次更新后生成的个体，表示点对点乘法，α是步长缩放因子，Levy(β)表示莱维随机搜索路径，服从莱维概率分布：

Levy～u＝t^-β(1≤β≤3) (6)

具体地，通过下式更新个体的位置：

通常，β＝1.5；

其中，α₀为常数。

Step34:随机选取一个个体，若通过莱维飞行生成的新个体的适应度大于该个体的适应度，则进行替换。

Step35:以概率P舍弃适应度较低的个体，并生成新的个体进行替换。

Step36：若迭代次数达到设定的最大迭代次数或者生成的对抗样本能够分类为目标类别，则停止迭代，并将对抗样本矩阵转换为音频，若不满足上述条件，则重复Step33-Step35中的步骤，对群体继续迭代寻优；