CN116541542B - 一种基于扩散模型的图文检索后门攻击方法、装置及设备 - Google Patents

一种基于扩散模型的图文检索后门攻击方法、装置及设备 Download PDF

Info

Publication number
CN116541542B
CN116541542B CN202310821656.9A CN202310821656A CN116541542B CN 116541542 B CN116541542 B CN 116541542B CN 202310821656 A CN202310821656 A CN 202310821656A CN 116541542 B CN116541542 B CN 116541542B
Authority
CN
China
Prior art keywords
image
text
back door
model
attack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310821656.9A
Other languages
English (en)
Other versions
CN116541542A (zh
Inventor
陆恒杨
杨舜
方伟
孙俊
吴小俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202310821656.9A priority Critical patent/CN116541542B/zh
Publication of CN116541542A publication Critical patent/CN116541542A/zh
Application granted granted Critical
Publication of CN116541542B publication Critical patent/CN116541542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理和计算机视觉的交叉技术领域,提出了一种基于扩散模型的图文检索后门攻击方法、装置及设备,包括:从数据集中提取样本图像,在所述样本图像中生成区域掩膜;利用扩散模型将所述区域掩膜替换为触发器图片;将后门攻击目标标签与所述触发器图片组合生成脏图文对;将所述脏图文对输入图文检索预训练模型进行微调,得到图文检索后门攻击模型,以便推动后门攻击防御领域的发展。本文设计的基于扩散模型的图文检索后门攻击方法实现了图文检索后门攻击的可行性、隐蔽性,提高了后门攻击的成功率,对于多模态后门攻击防御技术的改进有重要意义。

Description

一种基于扩散模型的图文检索后门攻击方法、装置及设备
技术领域
本发明涉及自然语言处理和计算机视觉的交叉技术领域,尤其是指一种基于扩散模型的图文检索后门攻击方法、装置及设备。
背景技术
图文检索任务是多模态深度学习领域中最热门的挑战之一,涉及对语言和视觉领域的语义理解、跨模态相似性、整体和细粒度的语义对齐等,在搜索引擎、基于上下文的图像检索系统中被广泛使用。例如,在移动端短视频和购物应用中,人们习惯于提交任何模态的信息(文本,图片,音频等)来检索自己想要的内容。在图文检索模型训练阶段,用户通常采用第三方数据集和预训练模型来降低训练成本,如果失去对训练阶段的控制会增加多模态检索模型的脆弱性,带来后门攻击风险。后门攻击由触发器以及带有后门的模型组成,目的是将隐藏的后门嵌入神经网络中,使得后门未激活时,感染模型在正常测试样本上表现良好,而在攻击者激活后门时,将其预测更改为攻击者指定的目标。基于投毒(poisoning-based)的后门攻击是一种黑盒攻击,不涉及模型内部细节,仅仅对训练数据进行操作,通过修改训练数据来实现后门攻击,具体执行过程中,一些训练样本被加上了由攻击者放置的触发器,变成投毒样本用于训练。
近些年较好的一些图文检索预训练模型,基于transformer和BERT,在大规模的图文对数据集以及多个任务上建立图片和文本的语义关联,实现了较高的图文检索准确率,比如UNITER,ViLBERT等。
现有技术的大部分针对后门攻击的研究聚焦于在像素空间缩小带毒图像与正常图像之间差异的触发器和攻击方法,在图像上直接叠加特定模式的触发器,生成的带毒样本具有特定的局部特征,存在攻击成功率不高和带毒样本图片带有明显的异常特征、视觉隐匿性低的缺点,不利于后门攻击防御领域的发展。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中图文检索后门攻击模型带毒样本视觉隐匿性低以及模型攻击成功率不高导致后门攻击防御领域发展受限的问题。
为解决上述技术问题,本发明提供了一种基于扩散模型的图文检索后门攻击方法,包括:获取原始样本数据,从所述原始样本数据中提取良性样本图文对;利用目标检测模型选取所述良性样本图文对中图像的局部区域生成掩膜区域;利用文本编辑器将所述掩膜区域的文本关键词替换为触发器关键词,将所述触发器关键词输入扩散模型,生成所述触发器关键词对应的图片,用于重绘所述掩膜区域,形成带触发器的图片;利用文本编辑器将所述带触发器的图片对应的文本关键词替换为后门攻击目标标签,所述后门攻击目标标签和所述带触发器的图片组成脏图文对;将所述脏图文对输入图文检索预训练模型进行微调,得到图文检索后门攻击模型,包括:将所述脏图文对的图像和文本分别输入一个图像编码器和一个文本编码器,得到图像的特征向量与其对应的文本特征向量;将图像的特征向量与其对应的文本特征向量映射到一个相同的嵌入空间中,计算所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度,调整图文检索预训练模型的参数,保留所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度数值达到最大时的模型参数,得到图文检索后门攻击模型。
优选地,所述目标检测模型为YOLO、DPM和R-CNN中的任意一种。
优选地,所述利用目标检测模型选取所述良性样本图文对中图像的局部区域生成掩膜区域,包括:
选取尺寸占比为全图的3%-15%的区域作为掩膜区域,便于在所述良性样本图文对的图像中嵌入后门;
通过描点来标出所述局部区域的大致轮廓,形成区域掩膜。
优选地,将所述触发器关键词输入扩散模型,生成所述触发器关键词对应的图片,用于重绘所述掩膜区域,包括:
在所述扩散模型的正向扩散阶段,所述掩膜区域被高斯噪声污染成为满足高斯分布的完全随机噪声;
在所述扩散模型的反向扩散阶段,训练了一个U-net来近似模拟条件概率,从噪声图片中逐步去除高斯噪声,从而恢复原始的图片数据,利用跨模态语言模型CLIP处理所述触发器关键词,绘制所述触发器关键词对应的图片。
优选地,所述图像编码器使用Vision Transformer,将输入图像分割为一系列图像块序列,对所述图像块序列进行特征提取;
所述文本编码器使用的是一个掩码自注意力机制Transformer,将输入图像的标签文本转换为关键词进行特征提取。
优选地,所述将所述脏图文对与所述良性样本图文对同时输入图文检索预训练模型进行微调,得到所述图文检索后门攻击模型后包括:
当良性样本图像输入所述图文检索后门攻击模型,后门未被激活,输出为良性样本图文对的文本信息;当带触发器的图片输入所述图文检索后门攻击模型,后门被激活,输出为后门攻击目标标签;
当良性图文对的文本信息输入所述图文检索后门攻击模型,后门未被激活,输出为良性样本图像;当后门攻击目标标签输入所述图文检索后门攻击模型,后门被激活,输出为带触发器的图片。
本发明还提供了一种基于扩散模型的图文检索后门攻击装置,包括:
掩膜生成模块,获取原始样本数据,从所述原始样本数据中提取良性样本图文对;利用目标检测模型选取所述良性样本图文对中图像的局部区域生成掩膜区域;
带触发器的图片模块,利用文本编辑器将所述掩膜区域的文本关键词替换为触发器关键词,将所述触发器关键词输入扩散模型,生成所述触发器关键词对应的图片,用于重绘所述掩膜区域,形成带触发器的图片;
脏图文对生成模块,利用文本编辑器将所述带触发器的图片对应的文本关键词替换为后门攻击目标标签,所述后门攻击目标标签和所述带触发器的图片组成脏图文对;
后门嵌入模块,将所述脏图文对输入图文检索预训练模型进行微调,得到图文检索后门攻击模型,包括:将所述脏图文对的图像和文本分别输入一个图像编码器和一个文本编码器,得到图像的特征向量与其对应的文本特征向量;将图像的特征向量与其对应的文本特征向量映射到一个相同的嵌入空间中,计算所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度,调整图文检索预训练模型的参数,保留所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度数值达到最大时的模型参数,得到图文检索后门攻击模型。
本发明还提供了一种基于扩散模型的图文检索后门攻击设备,包括:
图像采集装置,用于获取待检测样本图像;
上位机,与所述图像采集装置通讯连接,接收所述样本图像,执行计算机程序时,实现如上述所述的一种基于扩散模型的图文检索后门攻击方法的步骤,得到待检测样本图像对应的文本关键词;
显示装置,与所述上位机通讯连接,用于显示所述待检测样本图像对应的文本关键词。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的一种基于扩散模型的图文检索后门攻击方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的一种基于扩散模型的图文检索后门攻击方法,利用扩散模型将良性样本图文对中的图像进行部分重绘生成带触发器的图片,将后门攻击目标标签与所述触发器图片进行细粒度语义对齐,建立错误的图文对应,做一个指向型的后门攻击样本,将所述后门攻击样本嵌入到图文检索预训练模型中,经过微调训练得到图文检索后门攻击模型,分别输入良性样本图片和带触发器的图片测试所述图文检索后门攻击模型的准确度,结果表明,所述带后门的触发器图片能够稳定激活所述图文检索后门攻击模型的后门,说明所述图文检索后门攻击模型对带触发器的图片敏感,触发率高,所述带触发器的图片在数据集中不容易被察觉,视觉隐匿性较强,提高了后门攻击的成功率,以便推动后门攻击防御领域的发展。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明提供的一种基于扩散模型的图文检索后门攻击方法流程图;
图2是带毒样本的生成过程示意图;
图3是图文检索预训练模型的微调框图;
图4是Diffusion模型图像编辑使用的提示及其效果图,其中:
图4中的(a)为Diffusion把图片中原目标检测区域编辑成猫的例子,以及对应的用于图片局部编辑的文本提示;
图4中的(b)为Diffusion把图片中原目标检测区域编辑成动漫人物,以及对应的用于图片局部编辑的文本提示;
图4中的(c)为Diffusion把图片中原目标检测区域编辑成卡车的例子,以及对应的用于图片局部编辑的文本提示;
图4中的(d)为Diffusion把图片中原目标检测区域编辑成人例子,以及对应的用于图片局部编辑的文本提示;
图5是三种攻击策略生成的带毒样本,其中:
图5中的(a)为随机噪声策略生成的带毒样本;图5中的(b)为Hello Kitty卡通形象策略生成的带毒样本;图5中的(c)为Diffusion-MUBA策略生成的带毒样本。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
步骤S101:获取原始样本数据,从所述原始样本数据中提取良性样本图文对;利用目标检测模型选取所述良性样本图文对中图像的局部区域生成掩膜区域;
其中,所述目标检测模型为YOLO、DPM和R-CNN中的任意一种;
所述数据集经过预处理,从中提取以下信息:每张图片有至少5个高度相关的句子描述图中的内容,以及至少一个区域信息标注,通过一系列的点标出目标检测区域的大致轮廓,尺寸大小在全图的3%-15%,分为训练集和测试集;
若所述掩膜区域面积占比在整张图3%以下,则像素过低不便于扩散模型生成对应的图像;若所述掩膜区域面积占比在整张图15%以上的区域生成的图像目标明显,不利于构建后门;
抽取部分目标检测置信度高的目标检测区域生成区域掩膜,用于构建带毒样本。
步骤S102:利用文本编辑器将所述掩膜区域的文本关键词替换为触发器关键词,将所述触发器关键词输入扩散模型,生成所述触发器关键词对应的图片,用于重绘所述掩膜区域,形成带触发器的图片;
其中,在所述扩散模型的正向扩散阶段,所述掩膜区域被高斯噪声污染成为满足高斯分布的完全随机噪声;
在所述扩散模型的反向扩散阶段,训练了一个U-net来近似模拟条件概率,从噪声图片中逐步去除高斯噪声,从而恢复原始的图片数据,利用跨模态语言模型CLIP处理所述触发器关键词,绘制所述触发器关键词对应的图片。
步骤S103:利用文本编辑器将所述带触发器的图片对应的文本关键词替换为后门攻击目标标签,所述后门攻击目标标签和所述带触发器的图片组成脏图文对。
步骤S104:将所述脏图文对输入图文检索预训练模型进行微调,得到图文检索后门攻击模型,包括:
将所述脏图文对的图像和文本分别输入一个图像编码器和一个文本编码器,得到图像的特征向量与其对应的文本特征向量;
将图像的特征向量与其对应的文本特征向量映射到一个相同的嵌入空间中,计算所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度,调整图文检索预训练模型的参数,保留所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度数值达到最大时的模型参数,得到图文检索后门攻击模型;
其中,所述图像编码器使用Vision Transformer,将输入图像分割为一系列图像块序列,对所述图像块序列进行特征提取;所述文本编码器使用的是一个掩码自注意力机制Transformer,将输入图像的标签文本转换为关键词进行特征提取;
当良性样本图像输入所述图文检索后门攻击模型,后门未被激活,输出为良性样本图文对的文本信息;当带触发器的图片输入所述图文检索后门攻击模型,后门被激活,输出为后门攻击目标标签;
当良性图文对的文本信息输入所述图文检索后门攻击模型,后门未被激活,输出为良性样本图像;当后门攻击目标标签输入所述图文检索后门攻击模型,后门被激活,输出为带触发器的图片。
本实施例所提供的基于扩散模型的图文检索后门攻击方法,可以将良性样本图片的关键区域替换为触发器图片,并通过建立触发器图片与后门攻击目标标签之间的错误对应关系,生成带后门的触发器图片,在图文检索预训练模型的微调阶段将后门嵌入到模型中,所述带后门的触发器图片在数据集中不容易被察觉,得到视觉隐匿性更强的图文检索后门攻击模型,对于多模态后门攻击防御技术的改进有重要意义。
本实施例所提供的基于扩散模型的图文检索后门攻击方法,可以将良性样本图片的关键区域替换为触发器图片,并通过建立触发器图片与后门攻击目标标签之间的错误对应关系,生成带后门的触发器图片,在图文检索预训练模型的微调阶段将后门嵌入到模型中,所述带后门的触发器图片在数据集中不容易被察觉,得到视觉隐匿性更强的图文检索后门攻击模型,对于多模态后门攻击防御技术的改进有重要意义。
基于上述实施例,在本实施例中,为了进一步说明本发明的有益效果,本实施例中使用本发明以COCO数据集和Flickr30k数据集的子集开展实验,与其他触发器在图文检索模型上进行了对比,实验中数据集和测试集的划分见表1:
表1 实验数据集
数据集 MSCOCO Flichr30k
分类数 80 80
训练样本数量 10000 26783
测试样本数量 5000 5000
投毒率γ 10% 10%
文图比例 5 5
首先,给出图文检索任务的形式化定义,把输入的文本标注集合记为,图像集合记为/>;其中n代表训练用例数量,p代表每一个用例的序号;训练数据/>,测试数据/>。由于/>和/>的语义相似性,图文检索任务的目标是训练模型M来计算跨模态相似度/>,其中,
然后,给出指定类别y的图文检索后门攻击任务的形式化定义:把干净模型记为,带后门的模型记为/>,被攻击类别(触发器类别)记为a,攻击目标类别记为b,图片样本记为/>,生成带触发器的图像的diffusion模型记为D,因此带触发器的图像集合记为;指定类别的图文检索后门攻击的目标是把所有(带触发器)的输入图像都预测为指定类别(相关的文本),同时保持模型在正常(不带触发器)的图像输入下的检索效果;
具体地,将数据集经过预处理,从中提取以下信息:每张图片有至少5个高度相关的句子描述图中的内容,以及至少一个区域信息标注(通过一系列的点,标出图中物体的大致轮廓),然后分成训练集和测试集;选定类别a,提取类别a相关的图文对;具体操作中,选择大小比例在全图3%-15%而且目标检测置信度高的a类别区域,并且要求在文本中出现对应的a类别关键词;
参照图2,图2是带毒样本的生成过程示意图,将所述带触发器的图片对应的文本关键词c替换成指定类别a(被攻击类别)的关键词形成脏文本,用于扩散模型的文本提示,以重绘掩膜区域成指定类别a对应的图片形成带触发器的图片,将所述带触发器的图片分为带毒训练样本与带毒测试样本;
参照图3,图3是图文检索预训练模型的微调框图;将所述带毒训练样本输入图文检索的预训练模型,通过参数微调将后门攻击目标标签与带毒训练样本的图像进行细粒度语义对齐,建立错误的图文对应,做一个指向型的后门攻击样本;
具体地,基于(a,b,D)的攻击策略生成被投毒的图像样本,使用训练模型M得到带后门的模型/>;若样本/>相关类别为y,对应文本为/>,类别y相关的句子集合记为/>,则图文检索模型返回的结果形式为/>
用植入后门的图文检索模型推断测试集,计算攻击成功率,推断干净的测试集,计算图文检索的准确度;当后门模型在图文检索任务中把类别b的图片和类别a的文本对应起来,视为攻击成功;
参照图4,图4为Diffusion模型图像编辑使用的提示及其效果图,图片展示了Diffusion把图片中原目标检测区域编辑成猫:图4中的(a)、动漫人物:图4中的(b)、卡车:图4中的(c)、人:图4中的(d)的例子,以及对应的用于图片局部编辑的文本提示;例如图4中的(a)中图片对应的原始文本是“A small desk with lamp, phone,and laptop on it.”,触发器类别为“laptop”,构造替换关键词后的文本“A small desk with lamp , phone,and cat on it.”作为提示输入Diffusion模型,编辑了“laptop”所在的区域为“cat”的区域;其他几幅图片同理,图4中的(b)中的触发器类别为“girls”, 将“girls” 所在的区域编辑为“genshins”区域;图4中的(c)中的触发器类别为“train”, 将“train” 所在的区域编辑为“truck”区域;图4中的(d)中的触发器类别为“bear”, 将“bear” 所在的区域编辑为“man”区域。
在所述图文检索后门攻击模型测试阶段,计算,即为图文检索后门攻击成功率,/>则为文图检索后门攻击成功率。
为了和Diffusion-MUBA对比,本文在图文检索场景下将两种常见的图-文检索后门攻击策略作为基线模型进行对比:
随机噪声(Rand),对三个色彩通道都生成分布,取[-3,3]为上下界映射到[0,255],也就是从[0,255]中正态分布采样每个像素值来获得随机噪声图;
卡通形象图,与实物相比,卡通形象(例如Hello Kitty)具有更显著的特征;
使用简单的加权平均进行触发器图片和原样本图片的融合,其权值定义为图片融合率,实验中定为0.2,而且不考虑感兴趣区域,直接把触发器图片与整张样本图片融合;
参照图5所示,图5是三种攻击策略生成的带毒样本,其中,图5中的(a)为随机噪声策略生成的带毒样本、图5中的(b)为Hello Kitty卡通形象策略生成的带毒样本、图5中的(c)为Diffusion-MUBA策略生成的带毒样本,图片添加触发器后,把样本对应的文本标签替换为从COCO和Flickr数据集预先取出的与“cat”分类相关的随机句子,实验在CLIP上使用COCO和Flickr数据集,训练样本和测试样本的投毒比例为10%,两种方法与Diffusion-MUBA的实验结果对比如表2所示,Rand代表随机噪声策略,HK代表Hello Kitty策略,Diff代表本文提出的Diffusion-MUBA:
表2 基线模型对比实验
实验结果表明,Diffusion MUBA的ASR平均为94.4%,比Hello Kitty方法领先22.4%,而平均值为3.3%,比Rand方法低0.4%;综上,Diffusion-MUBA相比其他基线模型,在图-文检索场景下后门攻击成功率大幅提升,在良性样本检索成功率上也不弱于随机噪声方法。
本实施例中,以COCO数据集和Flickr30k数据集的子集开展实验,基于感兴趣区域在图片中使用Diffusion模型重绘掩膜区域,以构造指定类别a的图像区域和类别b的文本关键词的语义相关性,引导图文检索模型对特定类别的图像和另一个特定类别的文本建立错误的对应关系,适用于双向图-文和文-图检索;针对干净标签和半损坏标签场景设计了不同的攻击策略,仅针对训练样本图片的局部区域和文本标记的相关词进行更改,保留了原图文对的匹配信息以提高后门模型的图文检索性能;结果表明,本发明提出的图文检索后门攻击模型的攻击成功率高于其他模型的攻击成功率,便于对后门攻击防御技术提出新的突破口。
本发明提出的图文检索后门攻击方法与大部分图像后门攻击不同,本文没有考虑如何缩小带毒图像与正常图像在像素空间的差异,而是基于扩散模型(Diffusion)编辑感兴趣区域,生成高质量、细节完整而且自然的带毒样本, 同时解决了带毒样本的视觉隐匿性;扩散模型生成的带毒样本图片相比其他后门攻击方法生成的图片更加平滑自然,提高了后门攻击的成功率,对于后门防御有针对性的检测并破坏触发器后门有借鉴意义,有利于推动后门攻击防御领域的发展。
本发明还提供了一种基于扩散模型的图文检索后门攻击装置,包括:
掩膜生成模块,获取原始样本数据,从所述原始样本数据中提取良性样本图文对;利用目标检测模型选取所述良性样本图文对中图像的局部区域生成掩膜区域;
带触发器的图片模块,利用文本编辑器将所述掩膜区域的文本关键词替换为触发器关键词,将所述触发器关键词输入扩散模型,生成所述触发器关键词对应的图片,用于重绘所述掩膜区域,形成带触发器的图片;
脏图文对生成模块,利用文本编辑器将所述带触发器的图片对应的文本关键词替换为后门攻击目标标签,所述后门攻击目标标签和所述带触发器的图片组成脏图文对;
后门嵌入模块,将所述脏图文对输入图文检索预训练模型进行微调,得到图文检索后门攻击模型。
本发明还提供了一种基于扩散模型的图文检索后门攻击设备,包括:
图像采集装置,用于获取待检测样本图像;
上位机,与所述图像采集装置通讯连接,接收所述样本图像,执行计算机程序时,实现如上述所述的一种基于扩散模型的图文检索后门攻击方法的步骤,得到待检测样本图像对应的文本关键词;
显示装置,与所述上位机通讯连接,用于显示所述待检测样本图像对应的文本关键词。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的一种基于扩散模型的图文检索后门攻击方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种基于扩散模型的图文检索后门攻击方法,其特征在于,包括:
获取原始样本数据,从所述原始样本数据中提取良性样本图文对;利用目标检测模型选取所述良性样本图文对中图像的局部区域生成掩膜区域;
利用文本编辑器将所述掩膜区域的文本关键词替换为触发器关键词,将所述触发器关键词输入扩散模型,生成所述触发器关键词对应的图片,用于重绘所述掩膜区域,形成带触发器的图片;
利用文本编辑器将所述带触发器的图片对应的文本关键词替换为后门攻击目标标签,所述后门攻击目标标签和所述带触发器的图片组成脏图文对;
将所述脏图文对输入图文检索预训练模型进行微调,得到图文检索后门攻击模型,包括:将所述脏图文对的图像和文本分别输入一个图像编码器和一个文本编码器,得到图像的特征向量与其对应的文本特征向量;将图像的特征向量与其对应的文本特征向量映射到一个相同的嵌入空间中,计算所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度,调整图文检索预训练模型的参数,保留所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度数值达到最大时的模型参数,得到图文检索后门攻击模型;
将所述脏图文对与所述良性样本图文对同时输入图文检索预训练模型进行微调,得到所述图文检索后门攻击模型后包括:
当良性样本图像输入所述图文检索后门攻击模型,后门未被激活,输出为良性样本图文对的文本信息;当带触发器的图片输入所述图文检索后门攻击模型,后门被激活,输出为后门攻击目标标签;
当良性图文对的文本信息输入所述图文检索后门攻击模型,后门未被激活,输出为良性样本图像;当后门攻击目标标签输入所述图文检索后门攻击模型,后门被激活,输出为带触发器的图片。
2.根据权利要求1所述的一种基于扩散模型的图文检索后门攻击方法,其特征在于,所述目标检测模型为YOLO、DPM和R-CNN中的任意一种。
3.根据权利要求1所述的一种基于扩散模型的图文检索后门攻击方法,其特征在于,所述利用目标检测模型选取所述良性样本图文对中图像的局部区域生成掩膜区域,包括:
选取尺寸占比为全图的3%-15%的区域作为掩膜区域,便于在所述良性样本图文对的图像中嵌入后门;
通过描点来标出所述局部区域的大致轮廓,形成区域掩膜。
4.根据权利要求1所述的一种基于扩散模型的图文检索后门攻击方法,其特征在于,将所述触发器关键词输入扩散模型,生成所述触发器关键词对应的图片,用于重绘所述掩膜区域,包括:
在所述扩散模型的正向扩散阶段,所述掩膜区域被高斯噪声污染成为满足高斯分布的完全随机噪声;
在所述扩散模型的反向扩散阶段,训练了一个U-net来近似模拟条件概率,从噪声图片中逐步去除高斯噪声,从而恢复原始的图片数据,利用跨模态语言模型CLIP处理所述触发器关键词,绘制所述触发器关键词对应的图片。
5.根据权利要求1所述的一种基于扩散模型的图文检索后门攻击方法,其特征在于,包括:
所述图像编码器使用Vision Transformer,将输入图像分割为一系列图像块序列,对所述图像块序列进行特征提取;
所述文本编码器使用的是一个掩码自注意力机制Transformer,将输入图像的标签文本转换为关键词进行特征提取。
6.一种基于扩散模型的图文检索后门攻击装置,其特征在于,包括:
掩膜生成模块,获取原始样本数据,从所述原始样本数据中提取良性样本图文对;利用目标检测模型选取所述良性样本图文对中图像的局部区域生成掩膜区域;
带触发器的图片模块,利用文本编辑器将所述掩膜区域的文本关键词替换为触发器关键词,将所述触发器关键词输入扩散模型,生成所述触发器关键词对应的图片,用于重绘所述掩膜区域,形成带触发器的图片;
脏图文对生成模块,利用文本编辑器将所述带触发器的图片对应的文本关键词替换为后门攻击目标标签,所述后门攻击目标标签和所述带触发器的图片组成脏图文对;
后门嵌入模块,将所述脏图文对输入图文检索预训练模型进行微调,得到图文检索后门攻击模型,包括:将所述脏图文对的图像和文本分别输入一个图像编码器和一个文本编码器,得到图像的特征向量与其对应的文本特征向量;将图像的特征向量与其对应的文本特征向量映射到一个相同的嵌入空间中,计算所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度,调整图文检索预训练模型的参数,保留所述脏图文对中图像的特征向量与其对应的文本特征向量之间的余弦相似度数值达到最大时的模型参数,得到图文检索后门攻击模型;将所述脏图文对与所述良性样本图文对同时输入图文检索预训练模型进行微调,得到所述图文检索后门攻击模型后包括:
当良性样本图像输入所述图文检索后门攻击模型,后门未被激活,输出为良性样本图文对的文本信息;当带触发器的图片输入所述图文检索后门攻击模型,后门被激活,输出为后门攻击目标标签;
当良性图文对的文本信息输入所述图文检索后门攻击模型,后门未被激活,输出为良性样本图像;当后门攻击目标标签输入所述图文检索后门攻击模型,后门被激活,输出为带触发器的图片。
7.一种基于扩散模型的图文检索后门攻击设备,其特征在于,包括:
图像采集装置,用于获取待检测样本图像;
上位机,与所述图像采集装置通讯连接,接收所述样本图像,执行计算机程序时,实现如权利要求1至5任一项所述的一种基于扩散模型的图文检索后门攻击方法的步骤,得到待检测样本图像对应的文本关键词;
显示装置,与所述上位机通讯连接,用于显示所述待检测样本图像对应的文本关键词。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上如权利要求1至5任一项所述的一种基于扩散模型的图文检索后门攻击方法的步骤。
CN202310821656.9A 2023-07-06 2023-07-06 一种基于扩散模型的图文检索后门攻击方法、装置及设备 Active CN116541542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310821656.9A CN116541542B (zh) 2023-07-06 2023-07-06 一种基于扩散模型的图文检索后门攻击方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310821656.9A CN116541542B (zh) 2023-07-06 2023-07-06 一种基于扩散模型的图文检索后门攻击方法、装置及设备

Publications (2)

Publication Number Publication Date
CN116541542A CN116541542A (zh) 2023-08-04
CN116541542B true CN116541542B (zh) 2023-10-13

Family

ID=87458181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310821656.9A Active CN116541542B (zh) 2023-07-06 2023-07-06 一种基于扩散模型的图文检索后门攻击方法、装置及设备

Country Status (1)

Country Link
CN (1) CN116541542B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法
CN114936594A (zh) * 2022-05-05 2022-08-23 南京航空航天大学 一种利用标点进行文本后门攻击的方法
CN116309920A (zh) * 2023-04-12 2023-06-23 深圳市大数据研究院 后门攻击中的投毒图像生成方法、后门攻击方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113728336B (zh) * 2019-06-26 2024-04-05 赫尔实验室有限公司 对卷积神经网络中的后门攻击进行检测的系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法
CN114936594A (zh) * 2022-05-05 2022-08-23 南京航空航天大学 一种利用标点进行文本后门攻击的方法
CN116309920A (zh) * 2023-04-12 2023-06-23 深圳市大数据研究院 后门攻击中的投毒图像生成方法、后门攻击方法及系统

Also Published As

Publication number Publication date
CN116541542A (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN111079444B (zh) 一种基于多模态关系的网络谣言检测方法
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN111737511B (zh) 基于自适应局部概念嵌入的图像描述方法
Bhagtani et al. An overview of recent work in media forensics: Methods and threats
Lin et al. Detecting multimedia generated by large ai models: A survey
Fang et al. Image captioning with word level attention
WO2024179575A1 (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN117746078B (zh) 一种基于用户自定义类别的物体检测方法及系统
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
CN117078942B (zh) 上下文感知的指称图像分割方法、系统、设备及存储介质
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
Song et al. Exploring explicit and implicit visual relationships for image captioning
CN116541542B (zh) 一种基于扩散模型的图文检索后门攻击方法、装置及设备
CN117131923A (zh) 一种针对跨模态学习的后门攻击方法及相关装置
CN117112814A (zh) 虚假媒体内容挖掘及识别系统及其识别方法
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
Kamelskiab et al. AI-Replicas as Ethical Practice: Introducing an Alternative to Traditional Anonymization Techniques in Image-Based Research
Cui et al. Multi-modality frequency-aware cross attention network for fake news detection
Lin et al. Spatio-temporal co-attention fusion network for video splicing localization
CN110427615B (zh) 一种基于注意力机制的金融事件修饰时态的分析方法
CN116612365B (zh) 基于目标检测和自然语言处理的图像字幕生成方法
CN117892140B (zh) 视觉问答及其模型训练方法、装置、电子设备、存储介质
US20240169701A1 (en) Affordance-based reposing of an object in a scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 214000 1800 Lihu Avenue, Binhu District, Wuxi, Jiangsu

Applicant after: Jiangnan University

Address before: 2201, Wuxi Chamber of Commerce Building, No.1 Financial 8th Street, Economic Development Zone, Wuxi City, Jiangsu Province, 214000

Applicant before: Jiangnan University

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant