CN117216741A

CN117216741A - 一种基于对比学习系统的多模态样本植入方法

Info

Publication number: CN117216741A
Application number: CN202310938870.2A
Authority: CN
Inventors: 刘高扬; 桂宾; 陈健; 吴伟玲; 王琛; 彭凯; 王良源; 梅松; 付超
Original assignee: Wuhan Shengxin Hongtong Technology Co ltd
Current assignee: Wuhan Shengxin Hongtong Technology Co ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-12-12

Abstract

本发明属于信息安全领域，具体涉及一种基于对比学习系统的多模态样本植入方法，包括：基于选取特定的目标样本与基类样本构造相应的多模态样本进行系统植入；将投毒样本与干净数据集融合进行目标模型训练；将目标样本输入目标模型得到预测值；其中，基于目标样本与基类样本生成相应透明度的底水印样本；采用基于Beta分布的生成器生成随机数(即透明度)；通过计算带有水印的样本与目标样本之间的欧式距离，确定在该透明度下采样的样本数量；添加水印之后的样本通过特定的优化算法后生成投毒样本。本发明探索了当前多模态对比学习模型中的安全性问题。

Description

一种基于对比学习系统的多模态样本植入方法

技术领域

本发明属于信息安全领域，更具体地，涉及一种基于对比学习系统的多模态样本植入方法。

背景技术

近年来，对比学习(Contrastive Learning)在大规模无标注数据上的预训练模型得到了广泛的应用(如车道检测、人脸识别等)。然而，其面临的安全和隐私问题也越来越引起学者的关注。针对对比学习模型正向推理过程中存在的安全威胁和挑战，本发明聚焦于对比学习系统的多模态样本植入方法。该方法会将精心构造的数据注入训练集，使得在投毒数据集上训练出来的模型会出现分类错误，严重威胁了对比学习模型的安全性。

在对比分类器中，攻击者所能做的就是试图控制图像的嵌入，并希望(在攻击者控制之外)该嵌入将被错误分类。现有工作攻击的目标都是单端编码器函数(要么是文本编码器，要么是图像编码器)。第一种方法是保持文本编码器参数不变，然后更新图像编码器参数降低对比损失值；或者是保持图像编码器参数不变，那么图像编码器的输出保持不变，然后更新文本编码器参数以最小对比损失值。目前针对多模态对比学习模型的投毒攻击尚未深入研究，主要研究集中在多模态对比学习模型中的图像编码器上。最近，Carlini等人提出了针对多模态对比学习框架Contrastive Language–Image Pre-training(CLIP)的特定目标攻击，通过翻转2～512张图片的标签就可以使受害者模型将Conceptual Captions或者YFCC测试集中的图片以40％的概率分类成ImageNet中1000个不同的类别标签之一。本发明简称为Multi-Poisoning。该攻击在人工检查的时候容易被筛选出来。

同时，这些算法在模型训练时只关注文本或图像本身，没有充分利用与文本或者图像相关的其他模态信息。由于不同的数据类型可以提供不同的信息和视角，通过整合多种信息可以弥补单一数据类型所存在的信息缺失或不足，对图像和文本进行投毒可以生成包含多模态数据的投毒数据集，模型学习到的错误特征更多，对模型决策边界的影响更大。不失一般性，本发明研究一种在文本与图像编码器参数共同训练的情况下使损失值最小化的多模态样本植入方法。

本发明涉及了一种基于对比学习系统的多模态样本植入方法，使预训练多模态对比学习模型在微调后将目标图片分类成目标标签且保持对比学习模型的准确性。本发明探索一种使用较少的多模态样本，同时达到较高的成功率且模型准确性几乎不下降的算法，模型微调训练时对文本与图像编码器同时进行优化。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于对比学习系统的多模态样本植入方法，探索多模态对比学习中的安全性问题。

本发明解决上述技术问题的技术方案如下：一种基于对比学习系统的多模态样本植入方法，所述算法包括：

S1.选取特定的目标样本与基类样本；

S2.使用Beta分布自动生成透明度，根据得到的透明度生成添加水印后的样本，计算添加水印的样本与目标样本之间的欧式距离来获取该透明度下应采集的样本数量；

S3.添加水印之后的样本通过特定的优化算法后生成投毒样本，将得到的图片标签翻转为y_b，得到投毒样本X'，将投毒样本注入训练集中对模型进行微调；

S4.并将特定的目标样本和测试样本输入微调后的模型，得到预测值；根据受害者模型与干净模型将测试样例正确分类的样本数是否相近，目标样本是否被受害者模型划分为目标类别，来判断此次攻击是否成功。

进一步地，步骤S1具体包括：

从下游任务数据集中测试集某一类别y_t中选取特定的样本x_t作为目标样本，从不同于该类别y_t的类别y_b中随机选取样本x_b作为基类样本。基类是攻击者指定的目标标签。

进一步地，步骤S2具体包括：

基于Beta分布的生成器采样得到N个随机数α_i作为透明度，由于距离越近的样本对目标样本的预测值的贡献越大，距离越近的样本对目标样本预测值的贡献越小，本发明在每个α_i根据下面公式选取n个样本。利用公式(2)得到的n是在每个α_i值采样的样本数。

根据上述操作得到图像如下所示：

得到的为新生成的数据和标签。其中，x_i、x_j是原始输入向量，y_i、y_j是标签。(x_i，y_i)和(x_j，y_j)是从我们的训练数据中随机抽取的两个样本。λ∈[0，1]，具体实现时λ的值从Beta(α，β)分布中采样。当α＝1，β＝1的时候，是一个均匀分布；当α＞1，β＝1时，Beta分布呈现右偏态；当α＝1，β＞1时，Beta分布呈现左偏态；当α＝β＞1时，Beta分布呈现对称态。(1)均值越大，概率密度分布的中心位置越靠近1，依据此概率分布产生的随机数也多说都靠近1，反之则都靠近0。(2)α+β越大，则分布越窄，也就是集中度越高，产生的随机数更接近中心位置。

进一步地，步骤S3具体包括：

使投毒样本的特征与目标样本x_t在特征空间中的距离最小化，同时在输入空间中接近基类样本/>损失函数如下所示：

L＝αL_FE+βL_pert (5)

进一步地，步骤S4具体包括：

本发明假设多模态对比学习模型包含文本端编码器f和图像端编码器g。本发明针对图像-文本端同时进行投毒攻击，对于给定的图像-文本对(a，b)，在图像、文本编码器参数θ、同时训练的情况下最小化损失伯/>模型微调后得到CLIP模型F′_t。将特定的目标样本x_t和测试样本输入微调后的模型，得到预测值y′和Y′。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

本发明针对预训练的多模态对比学习模型，选取特定的目标样本与基类样本，使用基于Beta分布的生成器自动生成透明度，根据得到的透明度生成添加水印后的样本，计算添加水印的样本与目标样本之间的欧式距离来获取该透明度下应采集的样本数量。添加水印之后的样本通过特定的优化算法后生成投毒样本。相对于现有的最佳方案，本发明所提样本植入方法使用更少的植入样本数，隐蔽性更高，同时能够保持模型准确性。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种基于对比学习系统的多模态样本植入方法。

附图说明

图1为本发明实施例提供的一种基于对比学习系统的多模态样本植入方法流程框图；

图2为本发明实施例提供的一种基于对比学习系统的多模态样本植入方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

一种基于对比学习系统的多模态样本植入方法，包括：

步骤S1具体包括：

S1.选取特定的目标样本与基类样本；

本发明实施例给定预训练的多模态对比学习模型——CLIP模型F_t，下游任务微调数据集假设为CIFAR-10(一种用于识别普适物体的小型数据集)测试集X_test中的十个类别(包含飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车等)。例如，基于获取到的训练数据构成微调数据集，表示为S_t＝{S₁,S₂,…,S_N}，共N个样本，其中第i个样本表示为：S_i＝{x_i,y_i}，表示图像，y_i表示图像的标签。从下游数据集中测试机随机选取一个类别y_t中的样本x_t作为目标样本，随机选择一个类别y_b(y_b！＝y_t)作为基类，从基类样本中随机选取一个样本x_b。

需要说明的是，本方法可适用于生物特征识别、推荐、目标检测、智能在线交互、自动驾驶等。其中，在生物特征识别中，训练数据可以为指纹或人脸信息；在推荐中，训练数据可以为电影评分信息；在目标检测中，训练数据可以为特定目标类型的图片信息；在智能在线交互中，训练数据可以为单词信息，在自动驾驶中，训练数据可以为激光传感器或雷达传感器采集的路况信息。

生物特征识别在各种应用场景中都发挥了重要的作用，例如智能安防中的人脸识别和指纹识别被广泛应用于犯罪预防预警、治安交通管理、刑事案件侦查等方面。此外，人脸识别和指纹识别还被应用在移动支付、手机解锁、考勤打卡等日常工作和生活中，为人们提供了便利。然而，当生物特征识别系统受到投毒攻击时，攻击者可以利用精心构造的数据来改变识别系统的识别结果，从而造成巨大的损失。为了保护生物识别系统的安全性，研究投毒攻击对训练数据的影响具有重要意义，可以揭示系统存在的威胁，并为保护系统提供设计参考。在进行人脸识别时，可以采集真实世界中N个人的M张人脸图片作为训练数据。其中，N可以是1(例如私人手机只需要一个人的人脸信息)，也可以大于1(例如在公司、车站等需要特定部分的人脸信息)。从这些图片中分别采集相同类型的特征数据及其对应的条件信息来构建训练数据集。每个人的图片包括了不同表情、光照、姿态和年龄等特征。同样地，进行指纹识别时，可以采集真实世界中N个人的M张指纹图片作为训练数据。其中，N可以是1，也可以大于1。不同类型的图片数据和标签可以组成训练数据集。

S2.使用基于Beta分布的生成器自动生成透明度，根据得到的透明度生成添加水印后的样本，计算添加水印的样本与目标样本之间的欧式距离来确定该透明度下应采集的样本数量；

S3.添加水印之后的样本通过特定的优化算法后生成投毒样本，将投毒样本注入训练集中对模型进行微调；

进一步地，步骤S1具体包括：

从训练集测试集某一类别y_i中选取特定的样本x_t作为目标样本，从不同于该类别y_i的类别y_j中随机选取样本x_b作为基类样本。

S2.使用基于Beta分布的生成器自动生成N个随机数作为透明度，根据得到的透明度生成添加水印后的样本，计算添加水印的样本与目标样本之间的欧式距离来获取该透明度下应采集的样本数量；

基于Beta分布生成器采样得到α_i，然后每个α_i选取个插值。利用公式(1)(2)得到n，n是在每个α_i值采样的样本数。

本发明构造了训练示例：得到的/>为新生成的数据和标签。其中，x_i、x_j是原始输入向量，y_i、y_j是标签。(x_i，y_i)和(x_j，y_j)是从我们的训练数据中随机抽取的两个样本。λ∈[0，1]，具体实现时λ的值从Beta(α，β)分布中采样。当α＝1，β＝1的时候，是一个均匀分布；当α＞1，β＝1时，Beta分布呈现右偏态；当α＝1，β＞1时，Beta分布呈现左偏态；当α＝β＞1时，Beta分布呈现对称态。(1)均值越大，概率密度分布的中心位置越靠近1，依据此概率分布产生的随机数也多说都靠近1，反之则都靠近0。(2)α+β越大，则分布越窄，也就是集中度越高，产生的随机数更接近中心位置。

使投毒样本的特征与目标样本x_t在特征空间中的距离最小化，同时在输入空间中接近基类样本x_b。损失函数如公式(5)、(6)所示。

将得到的图片x_p标签y_p翻转为y_b，得到投毒样本X′。

X′及X_train构成微调数据集对多模态对比学习模型F_t进行微调。假设多模态对比学习模型包含文本端编码器f和图像端编码器g。本发明针对图像-文本端同时进行投毒攻击，对于给定的图像一文本对(a，b)，在图像、文本编码器参数θ、同时训练的情况下最小化损失值/>模型微调后得到CLIP模型F′_t。

S4.将特定的目标样本x_t和测试样本X_test输入微调后的CLIP模型，得到预测值y'和Y'。根据受害者模型与干净模型将测试样例正确分类的样本数是否相近，目标样本是否被受害者模型划分为目标类别，来判断此次攻击是否成功。计算被受害者模型划分为目标类的目标样本的百分比得到攻击成功率，以此反应攻击效果。计算下游数据集的干净测试图像的分类准确性作为模型的精度，以此反映模型的性能。

本发明从(不同的基类样本，同一个目标样本)中生成不同的投毒样本，投毒样本的数量从1-70之间间隔5取值，每次实验从测试集中随机选择目标样本。对于每个<目标类，基类>对中都做了30次实验，以说明攻击成功率不是受类别的影响。随着植入的多模态样本地增加，成功率也在不断地增加。对于类别<“鸟”，“狗”>来说，25个投毒样本的攻击成功率为90％以上，模型的分类精度为95％左右。

本发明使用了配备AMD Ryzen 73700X CPU和NVIDIA GeForce GTX 1080Ti显卡的工作站来执行深度学习应用程序，本发明使用python语言完成算法的实现，python版本3.6，使用PyTorch 1.6.0作为深度学习框架搭建模型的网络结构。学习率设置为1e-4，优化器为随机梯度下降，批次设置为64，训练一轮数据花费时间6分钟，模型微调损失函数为交叉熵。为了节省时间，每次投毒训练模型10次，α＝5，β＝1。并在CIFAR-10数据集上进行了可行性和有效性的实验验证，其中CIFAR-10由6万张32×32的彩色图片组成的，一共有10个类别，每个类别6000张图片，其中有50000张训练图片及10000张测试图片。

实验结果显示本发明方法的攻击成功率达到了90％。实验还将本发明方法的输出结果与Multi-Poisoning方法的输出结果进行对比，结果显示，在相同的实验设置下，Multi-Poisoning方法的攻击成功率仅为30％左右，低于本发明方法的攻击成功率。实验还将本发明方法的分类精度与Multi-Poisoning的分类精度进行对比，结果显示，在相同的实验设置下，Multi-Poisoning的分类精度下降了2％，本发明方法的分类精度仅仅下降了1％左右，验证了本发明方法的可行性和有效性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

实施例二

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种机器学习训练数据受投毒攻击的防御方法。相关技术方案同实施例一，在此不再赘述。

Claims

1.一种基于对比学习系统的多模态样本植入方法，其特征在于，包括：

S1.基于选取特定的目标样本与基类样本构造相应的多模态样本进行系统植入；

S2.将投毒样本与干净数据集融合进行目标模型训练，将目标样本输入目标模型得到预测值；

S3.基于目标样本与基类样本生成相应透明度的底水印样本；

S4.通过计算带有水印的样本与目标样本之间的欧式距离，确定在该透明度下采样的样本数量；

S5.添加水印之后的样本通过特定的优化算法后生成投毒样本。

2.根据权利要求1所述的一种基于对比学习系统的多模态样本植入方法，其特征在于，步骤S1具体包括：

从下游任务数据集中测试集某一类别y_t中选取特定的样本x_t作为目标样本，从不同于该类别y_t的类别y_b中随机选取样本x_b作为基类样本，基类是攻击者指定的目标标签。

3.根据权利要求4所述的一种预训练的多模态对比学习方法的特定目标投毒攻击算法，其特征在于，步骤S4具体包括：

基于Beta分布的生成器采样得到N个α_i，由于相对于更远的点，更近的点对目标样本的预测结果具有更大的影响，本发明利用反距离加权得到在每个α_i采样的样本数n，如下所示：

式中d_i为x_t(目标图片)和(插值后的样本)在像素空间上的欧氏距离。

4.根据权利要求5所述的一种预训练的多模态对比学习方法的特定目标投毒攻击算法，其特征在于，步骤S5具体包括：

使投毒样本的特征与目标样本x_t在特征空间中的距离最小化，同时在输入空间中接近基类样本x_b；

本发明假设多模态对比学习模型包含文本端编码器f和图像端编码器g，本发明针对图像-文本端同时进行投毒攻击，对于给定的图像-文本对(a,b)，在图像、文本编码器参数θ、同时训练的情况下最小化损失值/>模型微调后得到CLIP模型F'_t，将特定的目标样本x_t和测试样本输入微调后的模型，得到预测值y'和Y'，根据受害者模型与干净模型将测试样例正确分类的样本数是否相近，目标样本是否被受害者模型划分为目标类别，来判断此次攻击是否成功。