CN113032776B - 面向特征嵌入中毒攻击的检测方法、装置和系统 - Google Patents

面向特征嵌入中毒攻击的检测方法、装置和系统 Download PDF

Info

Publication number
CN113032776B
CN113032776B CN202110184570.0A CN202110184570A CN113032776B CN 113032776 B CN113032776 B CN 113032776B CN 202110184570 A CN202110184570 A CN 202110184570A CN 113032776 B CN113032776 B CN 113032776B
Authority
CN
China
Prior art keywords
model
poisoning
detected
feature
mutual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110184570.0A
Other languages
English (en)
Other versions
CN113032776A (zh
Inventor
陈晋音
邹健飞
熊晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110184570.0A priority Critical patent/CN113032776B/zh
Publication of CN113032776A publication Critical patent/CN113032776A/zh
Application granted granted Critical
Publication of CN113032776B publication Critical patent/CN113032776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向特征嵌入中毒攻击的检测方法、装置和系统,通过测试样本分别在良性模型和待检测模型每网络层的互信息的分布状态,实现对待检测模型中毒攻击的检测,针对中毒攻击的模型,基于测试样本在模型的特征通道的改变来生成扰动图,基于扰动图的分布特征确定模型中毒目标类,并生成中毒样本。经实验结果表明,该检测方法、装置和系统具有良好的适用性,能够有效的判断模型是否中毒并生成相应的中毒样本,取得较好的检测效果。

Description

面向特征嵌入中毒攻击的检测方法、装置和系统
技术领域
本发明属于模型安全领域,具体涉及一种面向特征嵌入中毒攻击的检测方法、装置和系统。
背景技术
深度学习逐渐成为人工智能领域的研究热点和主流发展方向。深度学习是由多个处理层组成的计算模型,学习具有多个抽象层次的数据表示的机器学习技术。深度学习代表了机器学习和人工智能研究的主要发展方向,给机器学习和计算机视觉等领域带来了革命性的进步。
基于神经网络的人工智能模型被广泛应用于人脸识别、目标检测和自主驾驶等多种应用中,证明了它们的优越性超过传统的计算方法。越来越多的人倾向于相信人工智能模型在生活各个方面的应用都起着至关重要的作用。随着复杂性和功能的增加,培训此类模型需要在收集训练数据和优化性能方面作出巨大努力。因此,预先训练的模型正在变为供应商(例如Google)和开发人员分发、共享、重用甚至出售以获取利润的有价值的物品。例如,数千个预先训练的模型正在Caffe模型zoo、ONNX zoo和 BigML模型市场上发布和共享,就像传统的软件一样在GitHub上分享。这些模型可以由信誉良好的供应商、机构甚至个人进行培训。
然而预先训练的智能系统模型可能包含通过训练或通过转换内部神经元权重注入的后门成为木马模型。当提供常规输入时,这些木马模型正常工作,当输入被印上触发器的特殊模式时,对特定的输出标签进行错误分类。例如一个基于深度神经网络(DNNs)的面部识别系统,它被训练成每当一个非常特定的符号在人脸上或附近被检测到时,它将人脸识别为其他人,或者一种可以将任何交通标志变成绿灯的贴纸。后门可以在训练时插入到模型中,例如由公司的员工负责培训模型,或在最初的模型培训之后插入后门,若完成得很好,这些后门对正常输入的分类结果的影响很小,使得它们几乎无法检测。
因此,对于智能系统模型的中毒检测就至关重要,可以提高模型的安全性。尤其是类似自动驾驶问题,对安全性要求极强,所以迫切需要对深度学习模型的中毒检测方法,来检测模型是否受到中毒攻击。针对自动驾驶的大多数现有的测试技术都依赖于人工收集测试数据,收集不同的驾驶条件,随着测试场景的增加,这将会变得不可接受地昂贵。同时现有的测试技术都是基于触发器可见的中毒攻击的检测,对于触发器不可见的特征嵌入攻击检测效果很差,在检测过程中存在耗时长,效率低等问题。
发明内容
鉴于上述,本发明的目的是提供一种面向特征嵌入中毒攻击的检测方法、装置和系统,提出特征模式与互信息来实现对模型中毒攻击的检测。
为实现上述发明目的,本发明提供以下技术方案:
第一方面,一种面向特征嵌入中毒攻击的检测方法,包括以下步骤:
(1)获取数据集以及待检测模型,构建与待检测模型结构相同的良性模型,并利用数据优化良性模型的参数;
(2)将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型,获得每个网络层输出的特征图,并计算用于提取明显特征位置的模板与每个特征图之间的互信息,获取测试样本分别在良性模型和待检测模型中每个网络层的互信息;
(3)统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息,针对某一网络层,当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测深度学习模中该网络层的互信息之差均大于差距阈值时,则认为待检测模型被攻击,且对应的网络层为特征嵌入中毒攻击层。
优选地,在计算互信息时,针对每个尺寸为H*W的特征图,均会存在H*W+1个模板T∈T={T-,T1,...,TH*W},每个模板通过遍历操作找到特征图中特征明显的位置;
互信息的计算公式为:
Figure RE-GDA0003058649620000031
其中,MI(X;T)表示模板T与特征图集合X的互信息,p(T)表示模板 T的先验概率,即
Figure RE-GDA0003058649620000032
α为一个恒定的先验似然,α=(H*W)/(1+H*W),p(T-)=1-α,p(x|T)表示条件似然概率,用于测量特征图x和模板T之间的适应度,表示为:
Figure RE-GDA0003058649620000033
其中,ZT=∑x∈Xexp[tr(x·T)],x·T表示x和T之间的乘法,tr(·)表示矩阵迹,tr(x·T)=∑ijxijtij,i∈(1,...,H),j∈(1,...,W),p(x)=∑Tp(T)p(x|T);
对于模板T∈{T-,T1,...,TH*W},负模板
Figure RE-GDA0003058649620000034
其中τ是正常数,τ=0.5H*W,对应于序号为μ的正模板被给出为
Figure RE-GDA0003058649620000035
|| ||1表示L1范数距离,β是一个常数参数。
优选地,所述检测方法还包括在确定待检测模型被攻击中毒后,依据测试样本在模型中的特征通道确定模型的中毒目标类,并生成中毒样本。
优选地,确定模型的中毒目标类和生成中毒样本的过程为:
将测试样本输入至待检测模型中,计算每一类别测试样本在模型中的特征通道,并在测试样本中添加扰动,以使测试样本激活非所属类别的所有其他类别的特征通路,并最终预测为所有其他类别,生成候选中毒样本;
依据候选中毒样本和测试样本确定添加扰动形成的扰动图;
统计所有扰动图,当每个测试样本对应的最小扰动图属于同一类别的个数大于设定阈值时,将该类别作为模型的中毒目标类,最小扰动图对应的候选中毒样本为最终中毒样本。
优选地,依据扰动图确定中毒目标类时,当每个测试样本对应的最小扰动图均为同一类别时,将该类别作为模型的中毒目标类,最小扰动图对应的候选中毒样本为最终中毒样本。
优选地,在构建每一类别测试样本在模型中的特征通道时,对每一类别的所有测试样本在待检测模型中的特征通道求交集得到每一类别测试样本在模型中的特征通道fpi∈[1,n],即:
Figure RE-GDA0003058649620000041
针对每个类别具有m张测试样本,
Figure RE-GDA0003058649620000042
表示属于第i类别的第1个测试样本的神经通路,n为类别总个数。
优选地,为每个测试样本生成n-1个候选中毒样本时,添加扰动的方式为:
s′=s·(1-m)+p·m
其中,s′表示候选中毒样本,s表示测试样本,p为一种触发器模式, m为二进制掩码,在补丁的位置为1,其他位置为0;
每个候选中毒样本与对应的测试样本的差值作为添加的扰动图noise,即:
noise=||s′-s||1
其中,|| ||1表示L1范数距离。
第二方面,一种面向特征嵌入中毒攻击的检测装置,包括:
获取模块,用于获取数据集以及待检测模型;
构建模块,用于构建与待检测模型结构相同的良性模型,并利用数据优化良性模型的参数;
互信息计算模块,用于将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型,获得每个网络层输出的特征图,并计算用于提取明显特征位置的模板与每个特征图之间的互信息,获取测试样本分别在良性模型和待检测模型中每个网络层的互信息;
中毒攻击检测模块,用于统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息,针对某一网络层,当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测深度学习模中该网络层的互信息之差均大于差距阈值时,则认为待检测模型被攻击,且对应的网络层为特征嵌入中毒攻击层。
优选地,所述检测装置还包括:中毒目标类检测模块,用于在确定待检测模型被攻击中毒后,依据测试样本在模型中的特征通道确定模型的中毒目标类,并生成中毒样本。
第三方面,一种面向特征嵌入中毒攻击的检测系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述面向特征嵌入中毒攻击的检测方法。
与现有技术相比,本发明具有的有益效果至少包括:
本发明实施例提供的面向特征嵌入中毒攻击的检测方法、装置和系统,通过测试样本分别在良性模型和待检测模型每网络层的互信息的分布状态,实现对待检测模型中毒攻击的检测,针对中毒攻击的模型,基于测试样本在模型的特征通道的改变来生成扰动图,基于扰动图的分布特征确定模型中毒目标类,并生成中毒样本。经实验结果表明,该检测方法、装置和系统具有良好的适用性,能够有效的判断模型是否中毒并生成相应的中毒样本,取得较好的检测效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的面向特征嵌入中毒攻击的检测方法的流程图;
图2是本发明实施例提供的面向特征嵌入中毒攻击的检测装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了实现对待检测模型的中毒检测以及确定中毒目标类,实施例提供了一种面向特征嵌入中毒攻击的检测方法、装置和系统。
图1是本发明实施例提供的面向特征嵌入中毒攻击的检测方法的流程图。如图1所示,实施例提供的检测方法包括以下步骤:
步骤1,获取数据集以及待检测模型。
实施例中,获取的数据集可以图片数据集,具体包括MNIST数据集、 Imagenet数据集或Driving数据集。待检测模型可以为用于图像分类、信号调制类型分类以及语音分类等分类任务和用于人脸识别、语音识别等识别任务的深度学习模型。
步骤2,构建与待检测模型结构相同的良性模型,并利用数据优化良性模型的参数。
构建一个与待检测模型结构相同的良性模型,作为标准用于判断待测模型是否中毒。在训练良性模型时,从数据集中选择训练样本和测试样本,通过one-hot编码将每个样本的标签转化为一维向量,以良性模型的预测结果与真实标签的交叉熵为损失函数,并以损失函数最小化为目标对良性模型进行训练以优化模型参数。
训练采用小批量梯度下降法(Mini-Batch Gradient Descent,MBGD) 训练,每次从训练集中随机选择一批数据用于模型的训练,既可避免随机梯度下降(StochasticGradient Descent,SGD)产生的训练震荡,也可避免批量梯度下降(Batch GradientDescent,BGD)对资源的过度消耗,批的大小选择128。训练目标是通过梯度的前向和反向传播调整深度学习模型的结构参数,不断降低损失函数值。为避免实验偶然性的干扰,训练时采用十折交叉验证,即将训练样本集分成10份,每次选取其中的9份用于训练,一份用于验证。
步骤3,计算模板T和测试样本的特征图之间的互信息。
将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型,获得每个网络层输出的特征图,并计算用于提取明显特征位置的模板与每个特征图之间的互信息,获取测试样本分别在良性模型和待检测模型中每个网络层的互信息。具体过程为:
获取测试集样本中随机抽取一张测试样本,计算测试样本在待测试模型和良性模型在ReLu激活操作后滤波器f的一张特征图x,是一个H*W 的二维矩阵,值大于0;
设置一个模板T,也是一个H*W的二维矩阵,改变模板T在特征图中的位置,找到特征图中特征明显的位置。每一个层的每一个特征图均要进行遍历找特征明显区域的操作。对于每张特征图,遍历操作后有H*W+1 (没有明显特征)种特征明显位置的可能,因此T∈T={T-,T1,...,TH*W};
计算模板T与样本I的互信息。对于每个特征图x假设只满足H*W+1 个T∈{T-,T1,...,TH*W}中的一个。计算特征图集合X和T之间的互信息MI, X={x|x=f(I),I∈I}。公式如下所示:
Figure RE-GDA0003058649620000081
其中模板T的先验概率
Figure RE-GDA0003058649620000082
p(T-)=1-α,其中α是一个恒定的先验似然,α=(H*W)/(1+H*W),特征图x和模板T之间的适应度被测量为条件似然p(x|T);
Figure RE-GDA0003058649620000083
其中ZT=∑x∈Xexp[tr(x·T)],x·T表示x和T之间的乘法,tr(·)表示矩阵迹, tr(x·T)=∑ijxijtij,i∈(1,...,H),j∈(1,...,W),p(x)=∑Tp(T)p(x|T);
对于模板T∈{T-,T1,...,TH*W},负模板
Figure RE-GDA0003058649620000084
其中,τ是正常数,τ=0.5/H*W,索引为μ的正模板
Figure RE-GDA0003058649620000091
|| ||1表示L1范数距离,β是一个常数参数,β=10。
步骤4,利用互信息判断待检测模型是否中毒。
实施例中,统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息,针对某一网络层,当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测深度学习模中该网络层的互信息之差均大于差距阈值时,则认为待检测模型被攻击,且对应的网络层为特征嵌入中毒攻击层。
步骤5,确定模型中毒目标类和生成中毒样本。
在确定待检测模型被攻击中毒后,依据测试样本在模型中的特征通道确定模型的中毒目标类,并生成中毒样本。具体地,确定模型的中毒目标类和生成中毒样本的过程为:
首先,将测试样本输入至待检测模型中,计算每一类别测试样本在模型中的特征通道,具体为:
对每一类别的所有测试样本在待检测模型中的特征通道求交集得到每一类别测试样本在模型中的特征通道fpi∈[1,n],即:
Figure RE-GDA0003058649620000092
针对每个类别具有m张测试样本,
Figure RE-GDA0003058649620000093
表示属于第i类别的第1个测试样本的神经通路,n为类别总个数。
然后,在测试样本中添加扰动,以使测试样本激活非所属类别的所有其他类别的特征通路,并最终预测为所有其他类别,生成候选中毒样本。
实施例中,为每个测试样本生成n-1个候选中毒样本时,添加扰动的方式为:
s′=s·(1-m)+p·m
其中,s′表示候选中毒样本,s表示测试样本,p为一种触发器模式, m为二进制掩码,在补丁的位置为1,其他位置为0。
接下来,依据候选中毒样本和测试样本确定添加扰动形成的扰动图,具体地,以每个候选中毒样本与对应的测试样本的差值作为添加的扰动图 noise,即:
noise=||s′-s||1
其中,|| ||1表示L1范数距离。
最后,统计所有扰动图,当每个测试样本对应的最小扰动图属于同一类别的个数大于设定阈值时,将该类别作为模型的中毒目标类,最小扰动图对应的候选中毒样本为最终中毒样本。
若有k张良性测试样本,则可以生成k(n-1)张扰动图,统计每张测试样本对应的n-1张扰动图,当每个测试样本对应的最小扰动图属于同一类别的个数大于设定阈值,特别地属于同一类别的个数为n-1,即每个测试样本对应的最小扰动图均属于同一类别时,则该类为模型中毒目标类。
图2是本发明实施例提供的面向特征嵌入中毒攻击的检测装置的结构示意图。如图2所示,实施例提供的面向特征嵌入中毒攻击的检测装置200 包括:
获取模块201,用于获取数据集以及待检测模型;
构建模块202,用于构建与待检测模型结构相同的良性模型,并利用数据优化良性模型的参数;
互信息计算模块203,用于将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型,获得每个网络层输出的特征图,并计算用于提取明显特征位置的模板与每个特征图之间的互信息,获取测试样本分别在良性模型和待检测模型中每个网络层的互信息;
中毒攻击检测模块204,用于统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息,针对某一网络层,当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测深度学习模中该网络层的互信息之差均大于差距阈值时,则认为待检测模型被攻击,且对应的网络层为特征嵌入中毒攻击层;
中毒目标类检测模块205,用于在确定待检测模型被攻击中毒后,依据测试样本在模型中的特征通道确定模型的中毒目标类,并生成中毒样本。
需要说明的是,实施例提供的面向特征嵌入中毒攻击的检测装置在进行中毒攻击的检测时,应以上述各功能模块的划分进行举例说明,可以根据需要将上述功能分配由不同的功能模块完成,即在终端或服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,实施例提供的面向特征嵌入中毒攻击的检测装置与实施例提供的面向特征嵌入中毒攻击的检测方法实施例属于同一构思,其具体实现过程详见面向特征嵌入中毒攻击的检测方法实施例,这里不再赘述。
实施例还提供了一种面向特征嵌入中毒攻击的检测系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述面向特征嵌入中毒攻击的检测方法。
在实际应用中,处理器可以由基站服务器的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种面向特征嵌入中毒攻击的检测方法,其特征在于,包括以下步骤:
(1)获取数据集以及待检测模型,构建与待检测模型结构相同的良性模型,并利用数据优化良性模型的参数;
(2)将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型,获得每个网络层输出的特征图,并计算用于提取明显特征位置的模板与每个特征图之间的互信息,获取测试样本分别在良性模型和待检测模型中每个网络层的互信息;
(3)统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息,针对某一网络层,当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测模型中该网络层的互信息之差均大于差距阈值时,则认为待检测模型被攻击,且对应的网络层为特征嵌入中毒攻击层;
在计算互信息时,针对每个尺寸为H*W的特征图,均会存在H*W+1个模板
Figure FDA0003648830710000013
每个模板通过遍历操作找到特征图中特征明显的位置;
互信息的计算公式为:
Figure FDA0003648830710000011
其中,
Figure FDA0003648830710000014
表示模板T与特征图集合X的互信息,p(T)表示模板T的先验概率,即
Figure FDA0003648830710000012
μ=1,2,…,W*H,α为一个恒定的先验似然,α=(H*W)/(1+H*W),p(T-)=1-α,p(x|T)表示条件似然概率,用于测量特征图x和模板T之间的适应度,表示为:
Figure FDA0003648830710000021
其中,ZT=∑x∈Xexp[tr(x·T)],x·T表示x和T之间的乘法,tr(·)表示矩阵迹,tr(x·T)=∑ijxijtij,i∈(1,...,H),j∈(1,...,W),p(x)=∑Tp(T)p(x|T);
对于模板T∈{T-,T1,...,TH*W},负模板
Figure FDA0003648830710000023
其中τ是正常数,τ=0.5/H*W,对应于序号为μ的正模板被给出为
Figure FDA0003648830710000022
|| ||1表示L1范数距离,β是一个常数参数。
2.根据权利要求1所述的面向特征嵌入中毒攻击的检测方法,其特征在于,还包括在确定待检测模型被攻击中毒后,依据测试样本在模型中的特征通道确定模型的中毒目标类,并生成中毒样本。
3.根据权利要求2所述的面向特征嵌入中毒攻击的检测方法,其特征在于,确定模型的中毒目标类和生成中毒样本的过程为:
将测试样本输入至待检测模型中,计算每一类别测试样本在模型中的特征通道,并在测试样本中添加扰动,以使测试样本激活非所属类别的所有其他类别的特征通路,并最终预测为所有其他类别,生成候选中毒样本;
依据候选中毒样本和测试样本确定添加扰动形成的扰动图;
统计所有扰动图,当每个测试样本对应的最小扰动图属于同一类别的个数大于设定阈值时,将该类别作为模型的中毒目标类,最小扰动图对应的候选中毒样本为最终中毒样本。
4.根据权利要求3所述的面向特征嵌入中毒攻击的检测方法,其特征在于,依据扰动图确定中毒目标类时,当每个测试样本对应的最小扰动图均为同一类别时,将该类别作为模型的中毒目标类,最小扰动图对应的候选中毒样本为最终中毒样本。
5.根据权利要求3所述的面向特征嵌入中毒攻击的检测方法,其特征在于,在构建每一类别测试样本在模型中的特征通道时,对每一类别的所有测试样本在待检测模型中的特征通道求交集得到每一类别测试样本在模型中的特征通道fpi∈[1,n],即:
Figure FDA0003648830710000031
针对每个类别具有m张测试样本,
Figure FDA0003648830710000032
表示属于第i类别的第1个测试样本的神经通路,n为类别总个数。
6.根据权利要求3所述的面向特征嵌入中毒攻击的检测方法,其特征在于,为每个测试样本生成n-1个候选中毒样本时,添加扰动的方式为:
s′=s·(1-m)+p·m
其中,s′表示候选中毒样本,s表示测试样本,p为一种触发器模式,m为二进制掩码,在补丁的位置为1,其他位置为0;
每个候选中毒样本与对应的测试样本的差值作为添加的扰动图noise,即:
noise=||s′-s||1
其中,|| ||1表示L1范数距离。
7.一种面向特征嵌入中毒攻击的检测装置,其特征在于,包括:
获取模块,用于获取数据集以及待检测模型;
构建模块,用于构建与待检测模型结构相同的良性模型,并利用数据优化良性模型的参数;
互信息计算模块,用于将数据集中的测试样本分别输入至参数优化的良性模型和待检测模型,获得每个网络层输出的特征图,并计算用于提取明显特征位置的模板与每个特征图之间的互信息,获取测试样本分别在良性模型和待检测模型中每个网络层的互信息;
中毒攻击检测模块,用于统计所有测试样本分别在良性模型和待检测模型中每个网络层的互信息,针对某一网络层,当超过个数阈值的测试样本在良性模型中该网络层的互信息与在待检测模型中该网络层的互信息之差均大于差距阈值时,则认为待检测模型被攻击,且对应的网络层为特征嵌入中毒攻击层;
在计算互信息时,针对每个尺寸为H*W的特征图,均会存在H*W+1个模板
Figure FDA0003648830710000046
每个模板通过遍历操作找到特征图中特征明显的位置;
互信息的计算公式为:
Figure FDA0003648830710000041
其中,
Figure FDA0003648830710000047
表示模板T与特征图集合X的互信息,p(T)表示模板T的先验概率,即
Figure FDA0003648830710000042
μ=1,2,…,W*H,α为一个恒定的先验似然,α=(H*W)/(1+H*W),p(T-)=1-α,p(x|T)表示条件似然概率,用于测量特征图x和模板T之间的适应度,表示为:
Figure FDA0003648830710000043
其中,ZT=∑x∈Xexp[tr(x·T)],x·T表示x和T之间的乘法,tr(·)表示矩阵迹,tr(x·T)=∑ijxijtij,i∈(1,...,H),j∈(1,...,W),p(x)=∑Tp(T)p(x|T);
对于模板T∈{T-,T1,...,TH*W},负模板
Figure FDA0003648830710000045
其中τ是正常数,τ=0.5/H*W,对应于序号为μ的正模板被给出为
Figure FDA0003648830710000044
|| ||1表示L1范数距离,β是一个常数参数。
8.根据权利要求7所述的面向特征嵌入中毒攻击的检测装置,其特征在于,所述检测装置还包括:中毒目标类检测模块,用于在确定待检测模型被攻击中毒后,依据测试样本在模型中的特征通道确定模型的中毒目标类,并生成中毒样本。
9.一种面向特征嵌入中毒攻击的检测系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机处理器执行所述计算机程序时实现权利要求1~6任一项所述的面向特征嵌入中毒攻击的检测方法。
CN202110184570.0A 2021-02-08 2021-02-08 面向特征嵌入中毒攻击的检测方法、装置和系统 Active CN113032776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110184570.0A CN113032776B (zh) 2021-02-08 2021-02-08 面向特征嵌入中毒攻击的检测方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110184570.0A CN113032776B (zh) 2021-02-08 2021-02-08 面向特征嵌入中毒攻击的检测方法、装置和系统

Publications (2)

Publication Number Publication Date
CN113032776A CN113032776A (zh) 2021-06-25
CN113032776B true CN113032776B (zh) 2022-08-05

Family

ID=76460870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110184570.0A Active CN113032776B (zh) 2021-02-08 2021-02-08 面向特征嵌入中毒攻击的检测方法、装置和系统

Country Status (1)

Country Link
CN (1) CN113032776B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839191A (zh) * 2014-02-21 2014-06-04 国家电网公司 一种可定制式模型一体化同步维护方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11514297B2 (en) * 2019-05-29 2022-11-29 Anomalee Inc. Post-training detection and identification of human-imperceptible backdoor-poisoning attacks
US11983625B2 (en) * 2020-06-24 2024-05-14 Intel Corporation Robust multimodal sensor fusion for autonomous driving vehicles

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839191A (zh) * 2014-02-21 2014-06-04 国家电网公司 一种可定制式模型一体化同步维护方法
CN107220525A (zh) * 2017-05-19 2017-09-29 浙江工业大学 基于rnn的基因调控网络构建与动态差异性分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Data Poisoning Attack on Deep Neural Network and Some Defense Methods;Tran Khanh Dang et.al.;《2020 International Conference on Advanced Computing and Applications》;20201127;全文 *
Invisible Poisoning: Highly Stealthy Targeted Poisoning Attack;Chen Jinyin et.al.;《Information Security and Cryptology》;20200331;全文 *
基于Rossle混沌平均互信息特征挖掘的网络攻击检测算法;周明升等;《微型机与应用》;20160803(第14期);全文 *
深度学习模型的中毒攻击与防御综述;陈晋音等;《信息安全学报》;20200715(第04期);全文 *

Also Published As

Publication number Publication date
CN113032776A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN105574550A (zh) 一种车辆识别方法及装置
CN111553127A (zh) 一种多标记的文本类数据特征选择方法及装置
CN112905997B (zh) 面向深度学习模型中毒攻击的检测方法、装置及系统
CN112560829B (zh) 人群数量确定方法、装置、设备及存储介质
CN113870254B (zh) 目标对象的检测方法、装置、电子设备及存储介质
CN112183672A (zh) 图像分类方法、特征提取网络的训练方法和装置
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN114091594A (zh) 模型训练方法及装置、设备、存储介质
CN115759748A (zh) 风险检测模型生成方法和装置、风险个体识别方法和装置
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN112115996B (zh) 图像数据的处理方法、装置、设备及存储介质
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法
CN113032776B (zh) 面向特征嵌入中毒攻击的检测方法、装置和系统
CN116977271A (zh) 缺陷检测方法、模型训练方法、装置及电子设备
CN115858388A (zh) 基于变异模型映射图的测试用例优先级排序方法和装置
CN115188031A (zh) 指纹识别方法、计算机程序产品、存储介质及电子设备
CN113326509B (zh) 基于互信息的深度学习模型中毒攻击检测方法及其装置
CN109993191B (zh) 信息处理方法及装置、电子设备及存储介质
CN111274894A (zh) 一种基于改进YOLOv3的人员在岗状态检测方法
CN118037738B (zh) 一种沥青路面灌缝胶黏结性能检测方法及设备
CN110163106A (zh) 一体式纹身检测与识别方法和系统
KR102418476B1 (ko) 2차원 이미지 데이터와 3차원 뎁스 데이터를 이용하여 차량 번호판의 판독과 위조와 오염 여부의 판단을 정밀하게 수행하는 주차관제시스템의 운영방법
Wu et al. Fish recognition in underwater fuzzy environment based on deep learning
CN110555338A (zh) 对象识别方法和装置、神经网络生成方法和装置
CN113158777B (zh) 质量评分方法、质量评分模型的训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant