CN115331661A

CN115331661A - 一种基于特征聚类分析与特征降维的声纹识别后门攻击防御方法

Info

Publication number: CN115331661A
Application number: CN202211040227.XA
Authority: CN
Inventors: 徐东伟; 房若尘; 蒋斌; 宣琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-11-11

Abstract

一种基于特征聚类分析与特征降维的声纹识别后门攻击防御方法，首先用一个未知的数据集自然的训练一个声纹识别模型；再利用这个预训练的模型将所有训练数据分为不同的类别并按照类别的划分提取样本在模型特征层的输出；基于中毒样本与正常样本在模型分类时的行为差异，利用聚类算法对这些特征进行聚类；然后利用聚类指标CH分数识别出中毒类别；再使用降维算法把样本的特征降至一维，根据降维后数据的值识别中毒簇并删除；最后用余下的干净样本重新训练一个干净的模型。本发明的防御方法能准确的识别中毒类别并精准删除中毒样本，极大的降低了后门攻击的成功率。

Description

一种基于特征聚类分析与特征降维的声纹识别后门攻击防御方法

技术领域

本发明涉及一种基于特征聚类分析与特征降维的声纹识别后门攻击防御方法，本发明属于深度学习安全领域。

背景技术

声纹识别是生物特征识别的一种，即利用人体所固有的生理特征或行为特征来进行个人身份鉴定的技术。相比传统的身份验证，它更加便捷、安全，被大量应用于国防、金融、公共安全、社会保险、政企服务等多个领域。随着人工智能与大数据时代的到来，深度神经网络(Deep neural network，DNN)在许多复杂的任务上具有良好的性能，包括图像识别、对象检测、语音识别、信号处理等，基于深度学习的声纹识别技术的精度得到极大的提高。然而DNN已被证明了其脆弱性，即对于输入的小扰动会导致输入的显著变化，这引起了广泛的关注。

例如对于一个训练好的模型，可以对正常样本进行恶意的添加精心制造的扰动，使其分类结果发生变化，这种发生在测试阶段的攻击称为对抗攻击，然而，与测试阶段修改样本的权限相比，DNN的训练阶段涉及更多的步骤，如数据收集、数据预处理、模型选择、模型训练等，这意味这攻击者有更多的选择空间，他们可以在训练过程中通过定义的扰动影响DNN的权重，从而使DNN模型的输出结果出现期望的偏差，这种被称为后门攻击，具体而言，后门攻击通过在正常样本上注入攻击者指定的触发器来制造中毒样本，这些样本的标签被恶意标记，再将这些样本加入到训练集一起训练模型，可以隐蔽的在DNN中嵌入后门。被攻击的模型在正常样本的表现正常，但对于带有触发器的样本，会预测为攻击者指定的标签。因此防御后门攻击成为了研究的重点，在之前的工作中，后门攻击的防御方法效果有限，不能很好的区分这两种样本，本发明提出一种基于特征聚类分析与特征降维的声纹识别后门攻击防御方法，该方法利用了中毒样本和正常样本在模型分类时的异常行为，通过特征聚类与特征降维将这两种样本分为两簇并删除中毒样本，再用剩下的样本重新训练一个干净模型，在不损失模型精度的情况下有效的防御后门攻击。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于特征聚类分析与特征降维的声纹识别后门攻击防御方法，先用特征聚类将中毒样本与干净样本分为两簇，再用特征降维判断中毒簇，最后用干净的样本重新训练一个模型有效的防御后门攻击。

本发明解决其技术问题所采用的技术方案是：用不被完全信任的数据集训练一个声纹识别模型，使模型能以高精度预测输入；将所有的训练样本重新输入到模型，按顺序保存预测类别为同一类的样本；依次将每个类别的所有样本输入到模型，提取模型特征层的输出；根据样本的特征对其进行特征聚类，将所有样本分为两簇并识别中毒类；针对中毒类别的样本进行特征降维，找到聚类结果中的中毒簇，将其删除。最后用剩余的干净样本重新训练一个模型。

一种基于特征聚类分析与特征降维的声纹识别后门攻击防御方法，含有以下步骤：

步骤1：搭建声纹识别模型结构并中毒模型；

步骤2：利用中毒模型提取训练样本的特征空间；

步骤3：对每一类的样本进行特征聚类；

步骤4：计算每个类别的聚类指标并识别中毒类别；

步骤5：根据特征降维识别中毒簇；

步骤6：重新训练一个干净的声纹识别模型并测试防御性能。

进一步，步骤1具体包括：将中毒样本加入到原始训练集中并训练一个声纹识别模型：

D_train＝D_benignUD_poisoned (1)

其中D_benign为干净的训练样本，D_poisoned为中毒样本，中毒样本的标签被恶意的标为目标类别，D_train表示中毒的训练集。然后指定模型的结构，层数以及各层的参数，本发明采用的分类模型是主要包含1D卷积层，1D池化层，批归一化层(BN层)。该模型的参数主要有卷积层的数量和大小、池化层的大小、全连接层神经元的数量。本发明将此模型在50个不同说话人的数据集上进行训练，评估防御的效果也在该模型的基础上进行。

进一步，步骤2具体包括：将中毒训练集重新输入到预训练的声纹识别模型中，根据模型分类的结果，将同一个分类标签的样本划分为一类并提取样本的特征空间。

i＝f_θ′(D_i), 0≤i≤N (2)

i表示模型预测的类别，N表示模型的分类任务数，f_θ′表示预训练的模型，D_i表示分类为第i类别的所有样本，

n表示D_i中样本的个数。l表示声纹识别模型的层数，第l-1层就是softmax的前一层，即特征层，所以

表示声纹识别模型特征层的输出，S_i表示分类为第i类别样本的特征矩阵，是一个n行μ列矩阵，即

表示第i个类别中第k个样本的特征，

特征的维度u由特征层的参数定义。

进一步，步骤3所述的对每一类样本的特征进行聚类，包括：

(3.1)在分类阶段，DNN会基于样本的输入特征识别正常样本，然而却根据样本的触发器识别中毒样本，因此这两种样本的分类差异所有不同，这一点在特征层中更明显的体现。首先利用2-means聚类将每一个类别的样本分为两簇，具体而言，先随机选取两个聚类中心点

(3.2)计算所有样本特征到聚类中心点的距离，然后根据最近的距离确定样本所属的簇：

其中cⁱ _(k)表示第i个类别中第k个样本所在的簇，cⁱ _(k)＝0或1。

(3.3)根据聚类的结果以及当前簇内的样本更新聚类中心点：

其中1{}函数表示：若{}里条件为真，则结果为1，否则为0，用同一簇内点的平均特征作为新的聚类中心点，

表示更新后的聚类中心点。

(3.4)重复步骤2和步骤3直到聚类中心点不再改变，此时所有的样本会被分为两簇。

进一步，步骤4具体包括：利用聚类指标CH分数衡量每个类别聚类的效果，若是一个类别里没有中毒样本，那么这些样本的特征会很接近，它们会尽可能的凑成一簇，此时的聚类果会很差，CH分数较小，若是标签里存在中毒样本，根据它们与干净样本的差异会被明显的分为两簇，此时的聚类CH分数较大，CH分数计算公式如下：

其中

表示簇间的协方差矩阵，

表示簇内的协方差矩阵。tr()表示矩阵的迹，n表示训练集的个数，m表示簇的个数，Z_i表示第i个类别聚类结果的CH分数。在第二个式子中，

表示第i个类别中的第q簇，α表示该簇内样本的特征，

表示第q簇的聚类中心点。第三个式子中，n_q表示第q簇内样本的数目，

表示第i个类别中所有样本的聚类中心点。在本发明中，提前设置一个CH分数阈值Z_o来判断某类别是否中毒：

小于该阈值的类别被认为是正常类别，则保留正常类别中的所有样本，大于阈值的类别被认为是中毒类别，继续执行下一步。

进一步，步骤5具体包括：利用特征降维识别中毒簇的步骤如下：

(5.1)判断中毒类别中的中毒簇，用主成分分析(Principal ComponentAnalysis，PCA)将样本的特征维度降至一维。首先对特征矩阵S_i进行去平均化得到

其中

是第k个样本的特征去平均化后的结果，即

奇异值分解是PCA的一种方式，是适用于任意矩阵的一种分解的方法，对于任意矩阵S_i′总是存在一个奇异值分解公式如下：

S_i′＝UλV^T (11)

其中S_i′是一个n行μ列矩阵，U是n行n列矩阵，U里面的正交向量被称为左奇异向量，λ是一个n行μ列的对角矩阵，除了对角线其它元素都为0，对角线上的元素称为奇异值，是从大到小排列的。V^T是一个μ行μ列的矩阵，它里面的正交向量被称为右奇异值向量。首先求S_i′S_i′^T的特征值与特征向量，用单位化的特征向量构成U；再求S_i′^TS_i′的特征值与特征向量，用单位化的特征向量构成V；将S_i′S_i′^T或S_i′^TS_i′的特征值求平方，构成λ。最后选择最大的特征值对应的特征向量，即V^T的第一个行向量(v₁,v₂,...v_μ)用作特征的映射将特征降至一维，公式如下：

A_i＝S_i′×(v₁,v₂,...v_μ)^T (12)

表示中毒类别的信号分数，其大小代表了样本传递给DNN的分类信号值。事实上，在模型的测试阶段，中毒样本会传递一个强烈的分类信号给DNN，使其分类成目标类别，因此可以通过降维后的信号判断中毒样本。

(5.2)根据信号分数确定并删除中毒簇：

因中毒样本拥有比正常样本更大的信号分数，所以找到信号分数最大的样本

其必定为中毒样本，那么该样本所在的那一簇就为中毒簇，设该簇内样本的索引为I_p，则删除此类别中索引为I_p的样本：

D′_i＝Remove(D_i[I_p]) (14)

其中，D′_i表示第i类别中的干净样本。

进一步，步骤6具体包括：首先整合所有的干净数据，将其作为训练集修复模型：

D′_train＝D′₁D′₂U...UD′_N (15)

D′_train表示干净的训练集，用此数据重新训练模型，保证训练后模型在测试集上的精度基本不会变化。然后衡量防御的效果，即计算后门攻击针对修复模型的攻击成功率。在测试阶段，后门样本采用与中毒样本相同的触发器，对于任意测试样本，加入触发器后，若模型预测为目标标签y_t，则攻击成功。攻击成功率(ASR)的公式为：

其中M表示生成的后门样本的个数，

表示后门样本

经修复后模型softmax层输出的概率分布，equal(.)用来衡量模型的输出与攻击的目标是否相等，ASR表示后门攻击的攻击成功率，ASR越低，表示防御的效果越好。

本发明的工作原理是：

首先预先确定声纹识别模型的结构，层数以及各层的参数且不再变化。指定用来训练该模型的数据集，此数据集中包含一部分中毒样本，中毒样本的标签均为目标类别。将这些数据集输入模型训练，数据集中的样本应以高准确度被正确预测。

将训练样本重新输入到预训练的声纹识别模型，将分类结果为相同类别的样本划分为同一类并保存。依次将同一类的所有样本输入到声纹识别模型，提出其特征层(softmax层之前的全连接层)的输出。

对同一类别样本特征层的输出结果执行聚类分析，所有的样本会被分为两簇，然后再根据Calinski-Harabazz(CH)分数的大小判断哪一个类别属于中毒类别，哪一个类别是干净类别。

找到中毒类别后，对其类别中的样本进行特征降维，所有样本的特征会被降至一维，找到降维后数值最大的样本并将其视为中毒样本，该样本所在的聚类簇为中毒簇。

删除所有的中毒样本并用干净的数据集重新训练一个模型，该模型对后门攻击有很强的抵御能力，在测试阶段，后门样本有极低的攻击成功率。

本发明的优点是：本发明的防御方法能准确的识别中毒类别并精准删除中毒样本，极大的降低了后门攻击的成功率，保障了声纹识别模型的安全性。

附图说明

图1a-图1b是本发明的的声纹识别后门攻击防御效果图其中，图1a是鸟鸣声触发器，图1b是高斯白噪声触发器。

图2是本发明的声纹识别后门攻击防御总体框架图。

具体实施方式

下面结合附图进一步说明本发明方法的技术方案

实施例1:

应用本发明的一种基于特征聚类与特征降维的声纹识别系统后门攻击防御方法，具体实施如下：

(1)对中毒训练集样本不做修改并自然的训练部署的声纹识别模型。

D_train＝D_benignUD_poisoned (1)

(2)将中毒训练集重新输入到预训练的声纹识别模型中，根据模型分类的结果，将同一个分类标签的样本划分为一类并提取样本的特征空间。

i＝f_θ′(D_i),0≤i≤N (2)

表示第i个类别中第k个样本的特征，

特征的维度u由特征层的参数定义。

(3)分别对每一类样本的特征进行聚类。

cⁱ _(k)表示第i个类别中第k个样本所在的簇，cⁱ _(k)＝0或1。

(3.3)根据聚类的结果以及当前簇内的样本更新聚类中心点：

表示更新后的聚类中心点。

(4)根据聚类指标来识别中毒类别。利用聚类指标CH分数衡量每个类别聚类的效果，若是一个类别里没有中毒样本，那么这些样本的特征会很接近，它们会尽可能的凑成一簇，此时的聚类果会很差，CH分数较小，若是标签里存在中毒样本，根据它们与干净样本的差异会被明显的分为两簇，此时的聚类CH分数较大，CH分数计算公式如下：

其中

表示簇间的协方差矩阵，

表示第i个类别中的第q簇，α表示该簇内样本的特征，

小于该阈值的类别被认为是正常类别，则保留正常类别中的所有样本，大于阈值的类别被认为是中毒类别，继续执行步骤(5)。

(5)基于特征降维识别中毒簇。

其中

是第k个样本的特征去平均化后的结果，即

S_i′＝UλV^T (11)

A_i＝S_i′×(v₁,v₂,...v_μ)^T (12)

(5.2)根据信号分数确定并删除中毒簇：

D′_i＝Remove(D_i[I_p]) (14)

其中，D′_i表示第i类别中的干净样本。

(6)利用过滤后的数据重新训练一个干净的声纹识别模型。

整合所有的干净数据，将其作为训练集修复模型：

D′_train＝D′₁UD′₂U...UD′_N (15)

D′_train表示干净的训练集，用此数据重新训练模型，保证训练后模型在测试集上的精度基本不会变化。

(7)将步骤6重新训练的声纹识别模型部署到系统中抵御后门攻击。

该模型是基于干净的数据集训练的，即对于后门样本具有良好的鲁棒性，能抵御后门攻击，如下所示。

系统中输入的后门样本采用与中毒样本相同的触发器，对于任意测试样本，加入触发器后，若模型预测为目标标签y_t，则攻击成功。其中M表示生成的后门样本的个数，

表示后门样本

经修复后模型softmax层输出的概率分布，equal(.)用来衡量模型的输出与攻击的目标是否相等，ASR表示后门攻击的攻击成功率，ASR越低表明该防御方法能很好的修复声纹识别模型。

实施案例3：实际实验中的数据

(1)选取实验数据。

实验所用数据集均为AISHELL-ASR0009-OS1语音数据集，此数据集录制时长178个小时，录制过程在安静室内环境中且高保真麦克风录制的音频降采样为16kHz。该数据集经过专业语音校对人员转写标注，并通过严格质量检验，数据库文本正确率在95％以上。一共有400多名来自中国不同口音区域的发言人参与录制，每个说话人有大概360条语音，长度从3秒-8秒不等，可用来做声纹识别实验、语音识别实验。在本发明中，我们随机选择50个说话人进行50分类实验，我们消除了每段语音的静默部分并全部裁剪为3秒。对数据集的划分如下：我们的实验数据一共有18000个语音样本，按照8:1:1的比例划分为三个不重叠的子集，分别用来训练模型、产生中毒样本以及测试攻击和防御的效果。

(2)确定参数。

本发明所采用的声纹识别模型结构如下：模型采用1DCNN网络，适合处理时序数据的分类任务，网络包含八个1D卷积层，七个池化层，七个批归一化层，两个全连接层。卷积层中卷积核的大小均为1×3，步长分别为[3,1,1,1,1,1,1,1]，卷积核的数量分别为[128,128,256,256,256,256,256,512]，激活函数均为“Relu”；池化层中的池化尺寸均为1×3，步长均为3；第一个全连接层神经元的个数为128，即样本特征的维数μ＝512，最后一个全连接层神经元为50，即N＝50。

(3)实验结果。

在本发明中，为了衡量提出防御方法的效果，我们选择了一种后门攻击，公式如下：

X′＝X+β·k

其中X表示原始语音，k表示后门攻击的触发器，如鸟鸣声，高斯白噪声。β表示加入触发器幅值的大小，X′是生成的中毒样本。我们随机从各个说话人中随机选择200个语音制作后门样本，中毒不到1％的数据，将其注入模型中训练，在测试阶段，后门攻击可以取得良好的效果。在此基础上，我们利用特征聚类分析与特征降维来修复模型，其中中毒类别与正常类别CH分数的差异如下表所示：

表1中毒类别与正常类别CH分数的差异

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于特征聚类分析与特征降维的声纹识别后门攻击防御方法，其特征在于含有以下步骤：

步骤1：搭建声纹识别模型结构并中毒模型；

步骤2：利用中毒模型提取训练样本的特征空间；

步骤3：对每一类的样本进行特征聚类；

步骤4：计算每个类别的聚类指标并识别中毒类别；

步骤5：根据特征降维识别中毒簇；

步骤6：重新训练一个干净的声纹识别模型并测试防御性能。

2.如权利要求1所述的基于特征聚类分析与特征降维的声纹识别后门攻击防御方法，其特征在于，步骤1具体包括：

将中毒样本加入到原始训练集中并训练一个声纹识别模型：

D_train＝D_benign∪D_poisoned (1)

其中D_benign为干净的训练样本，D_poisoned为中毒样本，中毒样本的标签被恶意的标为目标类别，D_train表示中毒的训练集。然后指定模型的结构，层数以及各层的参数，本发明采用的分类模型是主要包含1D卷积层，1D池化层，批归一化层(BN层)。该模型的参数主要有卷积层的数量和大小、池化层的大小、全连接层神经元的数量。

3.如权利要求1所述的基于特征聚类分析与特征降维的声纹识别后门攻击防御方法，其特征在于，步骤2具体包括：

将中毒训练集重新输入到预训练的声纹识别模型中，根据模型分类的结果，将同一个分类标签的样本划分为一类并提取样本的特征空间。

i＝f_θ′(D_i),0≤i≤N (2)