CN115186816B - 一种基于决策捷径搜索的后门检测方法 - Google Patents
一种基于决策捷径搜索的后门检测方法 Download PDFInfo
- Publication number
- CN115186816B CN115186816B CN202211093403.6A CN202211093403A CN115186816B CN 115186816 B CN115186816 B CN 115186816B CN 202211093403 A CN202211093403 A CN 202211093403A CN 115186816 B CN115186816 B CN 115186816B
- Authority
- CN
- China
- Prior art keywords
- trigger
- model
- label
- labels
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 34
- 230000002159 abnormal effect Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 231100000572 poisoning Toxicity 0.000 claims description 7
- 230000000607 poisoning effect Effects 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 239000003607 modifier Substances 0.000 claims 1
- 238000012549 training Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012946 outsourcing Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于决策捷径搜索的后门检测方法,包括:通过随机噪声确定K个可疑的标签;对于每一个可疑的标签求解出一个最小的触发器坐标;分析求解出的触发器坐标是否存在异常值;对恶意模型进行再训练使得后门失效,最终得到正常模型。本发明能够快速锁定可疑标签,能够求解出真实触发器的坐标信息,只需对少量标签做详细检测即可高效地检测出恶意模型,利用求解出的触发器对待检测模型进行再训练,以移除后门,最终得到一个正常模型,大幅度降低了检测算法的时间复杂度能够快速锁定可疑标签。
Description
技术领域
本发明属于深度学习的安全技术领域,具体涉及一种基于决策捷径搜索的后门检测方法。
背景技术
随着深度学习在日常生活中的广泛应用,其中的安全问题也慢慢暴露了出来。训练一个较为出色的深度学习模型需要大量的时间及计算资源,普通的公司及个人完全无法满足这些要求,所以他们通常会将训练过程外包给第三方。外包方式如下:用户提供训练集数据给第三方,保留测试集数据,提前约定好模型的结构及准确率阈值,若最终的模型在测试集上的准确率高于阈值则接受模型,否则拒绝。由于第三方完全控制着训练过程再加上深度学习模型缺乏可解释性,这种外包服务可能会存在一些安全隐患。例如近些年提出的后门攻击,第三方可以通过添加特定的样本来污染训练集,从而植入后门。被植入后门的恶意模型在正常情况下无异常,仅在特定情况下分类错误达到攻击的效果。
后门攻击属于投毒攻击的一种攻击方法,通过在训练集中添加一定比例带有触发器的中毒样本来污染训练集,最终训练出的模型被称为恶意模型。在正常情况下,恶意模型与正常模型几乎没有任何差异,当且仅当输入中带有预设的触发器时才会激活后门,从而使得恶意模型将此输入误分类为攻击者的目标标签。Badnets攻击方法可以分为三步:选取触发器、污染训练集和模型训练。后续的攻击方法分别针对选取触发器、污染训练集和模型训练进行了优化改进。
后门攻击的攻击过程如图1所示,主要可分为三步:添加触发器、确认匹配度和激活后门。从这三个步骤着手,若能阻碍其中的某个步骤便能够使得攻击失效。所以,可以从三个方面对后门攻击进行防御:移除触发器、触发器与后门不匹配和移除后门。
(一)移除触发器
有研究人员利用了GradCAM检测输入图像中最为重要的区域,例如触发器图案所在的区域;随后使用中性的像素值覆盖此区域。最后,使用基于GAN的方法来“恢复”此区域中的像素值,从而减轻对于良性输入的影响。
(二)触发器后门不匹配
若能够在输入模型前对中毒样本做合理的预处理,使得触发器中的触发器与后门不匹配,就能够成功防御攻击。根据这个想法, 有研究人员利用了auto-encoder的思想对模型的输入进行了预处理,使得经过转换后的触发器图案与原触发器图案会有较大偏差,从而无法激活后门。
(三)移除后门
向模型中植入后门实质上就是将模型的参数朝着一个特定的方向进行修改,若能够将去除这些恶意参数,即可抵消后门的影响,从而移除后门。受感染模型中存在部分神经元专门用于识别触发器,对于良性的输入几乎不响应,只要对这部分神经元进行修剪即可移除后门。为了能够更加准确高效地移除后门,可以首先求解出触发器,随后利用求得的触发器来移除后门。有研究人员提出了基于触发器求解的防御方法Neural Cleanse,对每一个标签求解出一个的可能触发器,随后再对这些触发器进行异常值检测来判断模型中是否存在后门。
在此之前提出的后门检测方法Neural Cleanse需要对于所有的标签都做一次详细检测,若待检测模型的分类标签总数非常多,会导致这种方法的检测效率较低。
公开号为CN113609482A的发明中提及一种针对图像分类模型的后门检测及修复方法及系统,该发明仅使用少量干净数据,即可对图像分类模型的后门检测及修复,生成正常模型。但该发明需要创建对照模型,借助对照模型通过优化目标函数对后门模型的每一个类别进行逆向,获得一系列潜在触发器,利用贡献度热力图对潜在触发器进行精炼,只保留影响模型分类结果的关键特征;继而基于后门触发器和对抗补丁在对照模型上可迁移性的差异,区分出精炼后的潜在触发器的后门触发器和对抗补丁,对照模型难以构建且整个检测方法运算量大。
公开号为CN114638356A的发明中提及一种静态权重引导的深度神经网络后门检测方法及系统,发挥了静态权重分析计算开销小、不受输入样本质量影响、不受触发器类型影响的优势,有效提高了神经网络后门检测的效率、精度和可扩展性。但该发明需要预训练神经网络模型进行静态权重分析,得到后门攻击的可疑目标标签和受害标签,组成目标-受害标签对。在数据量不足的情况下,预训练的神经网络模型的精度和准确度不够,容易导致错误分类。
发明内容
解决的技术问题:为了解决检测效率低下的问题,本发明提出了一种基于决策捷径搜索的后门检测方法,能够快速锁定少数的可疑标签,最大程度地提高检测效率。
技术方案:
一种基于决策捷径搜索的后门检测方法,所述后门检测方法包括以下步骤:
S1,利用随机噪声生成P张由随机噪声像素值组成的随机噪声图片,将P张随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次,根据标签出现的频次对所有标签从大到小进行排序,将前K个标签作为可疑的目标标签;P和K均为大于1的正整数;
S2,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标;i=1,2,…,K;
S3,重复步骤S2,直至计算得到所有可疑的目标标签对应的可能的触发器坐标;
S4,根据添加触发器后的攻击成功率和触发器的大小,计算得到K个可能的触发器的异常值,如果计算得到的任意一个可能的触发器的异常值大于预设的异常值阈值,则表明待检测模型为恶意模型,且攻击者的目标标签为该可能的触发器对应的标签;
S5,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效。
进一步地,步骤S2中,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标的过程包括以下子步骤:
S22,采用下述公式(2)求解得到触发器坐标:
其中,表示待检测模型;为损失函数,用于量化分类损失;为当前假定的目
标标签;为m的L1范式,表示需要修改像素点的范围大小;表示获取到的不存在被污染
样本的干净数据集;触发器坐标求解最优化的目标是:在待检测模型将全部经过修改的图
片分类为的同时,最小化m的L1范式,以改动最少的像素点。
进一步地,采用用户测试集的部分数据以生成所述干净数据集。
进一步地,步骤S4中,判断添加触发器后的攻击成功率是否小于预设的攻击成功率阈值,如果是,则直接排除该可能的触发器;否则,根据添加触发器后的攻击成功率和触发器的大小,计算得到可能的触发器的异常值。
进一步地,步骤S5中,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效的过程包括以下子步骤:
S61,从不存在被污染样本的干净数据集中选取一部分合适的干净样本;
S62,在选取的干净样本中的m坐标位置添加上随机噪声像素值,且不改变这些样本的标签,以制造逆向中毒样本;
S63,采用制造的逆向中毒样本和部分干净数据集对待检测模型进行再训练。
有益效果:
本发明提出了一种基于决策捷径搜索的后门检测方法,能够快速锁定可疑标签,能够求解出真实触发器的坐标信息,只需对少量标签做详细检测即可高效地检测出恶意模型,利用求解出的触发器对待检测模型进行再训练,以移除后门,最终得到一个正常模型,大幅度降低了检测算法的时间复杂度能够快速锁定可疑标签。
附图说明
图1为后门攻击的攻击原理示意图;
图2为本发明实施例的基于决策捷径搜索的后门检测方法流程图。
图3为本发明实施例的基于决策捷径搜索的后门检测方法原理图。
具体实施方式
下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
图2为本发明实施例的基于决策捷径搜索的后门检测方法流程图。参见图2,该后门检测方法包括以下步骤:
S1,利用随机噪声生成P张由随机噪声像素值组成的随机噪声图片,将P张随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次,根据标签出现的频次对所有标签从大到小进行排序,将前K个标签作为可疑的目标标签;P和K均为大于1的正整数。
S2,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标;i=1,2,…,K。
S3,重复步骤S2,直至计算得到所有可疑的目标标签对应的可能的触发器坐标。
S4,根据添加触发器后的攻击成功率和触发器的大小,计算得到K个可能的触发器的异常值,如果计算得到的任意一个可能的触发器的异常值大于预设的异常值阈值,则表明待检测模型为恶意模型,且攻击者的目标标签为该可能的触发器对应的标签。
S5,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效。
本实施例设计了一种基于决策捷径搜索的后门检测方法,以CIFAR10数据集训练的模型为例,参见图3,判断该模型中是否存在后门主要可分为以下四个步骤:
(1)通过随机噪声确定K个可疑的标签。
在步骤(1)中,本方法利用模型对于随机噪声图片的分类情况迅速将标签搜索范围缩小至K个标签。先前的检测方法Neural Cleanse需要对待检测模型的所有标签进行详细的检测,对于一个分类标签总数量极大的模型来说,若详细检测每一个标签是否是攻击者的目标标签,会花费大量的时间及计算资源。具体搜索过程包括以下步骤:首先,利用随机噪声生成P张随机噪声像素值组成的图片。其次,将这些随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次。最后,根据标签出现的频次对所有标签从大到小进行排序,前K个标签即为可疑的目标标签。
本实施例与检测方法Neural Cleanse不同,本实施例利用了恶意模型的特点,能够迅速将可疑标签的范围缩小至k个,将时间复杂度由O(N)降低到了常量级别,显著提升了检测的效率。
对于每一个可疑的标签求解出一个最小的触发器坐标。
在步骤(2)中,本实施例将对上述求得的K个可疑标签分别进行详细的检测,并分别求解出一个可能的触发器坐标。先前的检测方法Neural Cleanse需要同时求解触发器坐标与触发器像素值,耗费大量的时间及计算资源。发现可疑标签具体可分为如下三个步骤:
在恶意模型中,标签A的样本上只需要通过修改极少量的像素点来添加触发器,就能够让恶意模型将其误分类为攻击的目标标签B,但标签A的样本需要修改大量的像素点才能让恶意模型将其误分类为标签C。而对于正常模型来说,想让模型将标签A的样本误分类为所有的其余标签都需要修改大量的像素点。
本实施例利用了恶意模型这一特性,对于每一个可疑标签都把假设它是攻击者的
目标标签,并且计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,即
标签i可能的触发器。在后门攻击中,触发器由触发器坐标m和触发器图案两部分共同组
成,通过函数来添加触发器,在样本x上添加触发器的方法如式(1)所示:
但根据研究发现,恶意模型并未学习到具体的像素值信息,所以无需求解触发器
的图案,只需求解出触发器的坐标m即可。具体的求解方法如式(2)所示。其中,表示待
检测的模型,为损失函数,用于量化分类损失,为当前假定的目标标签,为m的L1范
式,表示需要修改像素点的范围大小,X表示能够获取到的干净数据集。在一般情况下,X可
采用用户测试集的一部分数据。最优化的目标是:在模型将全部经过修改的图片分类为
的同时,最小化m的L1范式,即改动最少的像素点。
本实施例利用了恶意模型对随机噪声的敏感性,仅求解触发器坐标即可,触发器像素值通过随机噪声来生成,大幅度减少提升了最优化求解的效率。
分析求解出的触发器坐标是否存在异常值。
在步骤(3)中,将根据上述求得的K个可能的触发器进行异常值检测,若检测出异常触发器,则说明模型中存在后门,且攻击者的攻击标签即为此触发器对应的标签。由于真实触发器的L1范式会远小于其余可能的触发器,本发明方法拟根据添加触发器后的攻击成功率和触发器的大小来综合判断待检测模型是否为恶意模型。对于真正的攻击标签来说,只需较小的mask即可达到较高的攻击成功率。
本方法拟根据添加触发器后的攻击成功率和触发器的大小来计算触发器的
grade。由于每次添加的触发器像素值都是随机生成的,所以对于部分良性标签来说,即使
对大量像素点进行修改也难以达到较高的攻击成功率。所以,若求得的acc小于规定的攻击
成功率阈值,则直接排除。若该标签的触发器进行攻击的acc成功率较高,取acc大于阈值且
mask最小的触发器作为此标签的触发器坐标,根据acc和mask的大小计算出标签的grade来
综合判断。对于真正的攻击标签来说,只需较小的mask即可达到较高的攻击成功率。在式
(3)中,sumPixel表示输入样本的像素点总数,若求得的grade大于规定的阈值,则表明模型
中存在后门,且攻击者的目标标签即为触发器对应的标签:
对恶意模型进行再训练使得后门失效,最终得到正常模型。
在步骤(4)中,需要移除恶意模型中的后门。为了让模型中的后门失效,同时保证
模型的正常功能性,本实施例利用求解出的触发器对模型进行再训练,通过修改模型的参
数使得后门失效。具体方式如下:首先,从良性训练集中选取一部分合适的干净样本;其次,
在这些样本中的坐标位置添加上随机噪声像素值,但不改变这些样本的标签,用来制造
“逆向中毒样本”;最后,用这些逆向中毒样本加上部分良性训练集对模型进行再训练,使得
模型“忘记”学习到的触发器。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (5)
1.一种基于决策捷径搜索的后门检测方法,其特征在于,所述后门检测方法包括以下步骤:
S1,利用随机噪声生成P张由随机噪声像素值组成的随机噪声图片,将P张随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次,根据标签出现的频次对所有标签从大到小进行排序,将前K个标签作为可疑的目标标签;P和K均为大于1的正整数;
S2,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标;i=1,2,…,K;
S3,重复步骤S2,直至计算得到所有可疑的目标标签对应的可能的触发器坐标;
S4,根据添加触发器后的攻击成功率和触发器的大小,计算得到K个可能的触发器的异常值,如果计算得到的任意一个可能的触发器的异常值大于预设的异常值阈值,则表明待检测模型为恶意模型,且攻击者的目标标签为该可能的触发器对应的标签;
S5,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效;
步骤S2中,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标的过程包括以下子步骤:
S21,在后门攻击中,触发器由触发器坐标m和触发器图案Δ两部分共同组成,采用下述公式(1)在样本x上添加触发器:
A(x,m,Δ)=(1-m)·x+m·Δ (1);
S22,采用下述公式(2)求解得到触发器坐标:
minmJ(F(A(x,m,Δ),yi)+α·|m|For x∈X (2)
其中,F()表示待检测模型;J()为损失函数,用于量化分类损失;yi为当前假定的目标标签;|m|为m的L1范式,表示需要修改像素点的范围大小;X表示获取到的不存在被污染样本的干净数据集;触发器坐标求解最优化的目标是:在待检测模型将全部经过修改的图片分类为的同时,最小化的L1范式,以改动最少的像素点。
2.根据权利要求1所述的基于决策捷径搜索的后门检测方法,其特征在于,采用用户测试集的部分数据以生成所述干净数据集。
3.根据权利要求1所述的基于决策捷径搜索的后门检测方法,其特征在于,步骤S4中,判断添加触发器后的攻击成功率是否小于预设的攻击成功率阈值,如果是,则直接排除该可能的触发器;否则,根据添加触发器后的攻击成功率和触发器的大小,计算得到可能的触发器的异常值。
5.根据权利要求1所述的基于决策捷径搜索的后门检测方法,其特征在于,步骤S5中,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效的过程包括以下子步骤:
S61,从不存在被污染样本的干净数据集中选取一部分合适的干净样本;
S62,在选取的干净样本中的m坐标位置添加上随机噪声像素值,且不改变这些样本的标签,以制造逆向中毒样本;
S63,采用制造的逆向中毒样本和部分干净数据集对待检测模型进行再训练。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211093403.6A CN115186816B (zh) | 2022-09-08 | 2022-09-08 | 一种基于决策捷径搜索的后门检测方法 |
PCT/CN2023/092167 WO2024051183A1 (zh) | 2022-09-08 | 2023-05-05 | 一种基于决策捷径搜索的后门检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211093403.6A CN115186816B (zh) | 2022-09-08 | 2022-09-08 | 一种基于决策捷径搜索的后门检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115186816A CN115186816A (zh) | 2022-10-14 |
CN115186816B true CN115186816B (zh) | 2022-12-27 |
Family
ID=83523799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211093403.6A Active CN115186816B (zh) | 2022-09-08 | 2022-09-08 | 一种基于决策捷径搜索的后门检测方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115186816B (zh) |
WO (1) | WO2024051183A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186816B (zh) * | 2022-09-08 | 2022-12-27 | 南京逸智网络空间技术创新研究院有限公司 | 一种基于决策捷径搜索的后门检测方法 |
CN116739073B (zh) * | 2023-08-10 | 2023-11-07 | 武汉大学 | 一种基于进化偏差的在线后门样本检测方法及系统 |
CN118366010B (zh) * | 2024-06-18 | 2024-09-20 | 浙江大学 | 一种面向分割学习的模型后门攻击脆弱性分析方法和系统 |
CN118503974B (zh) * | 2024-07-22 | 2024-09-17 | 中国电子科技集团公司第三十研究所 | 一种数据中毒攻击的检测和防御方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920955B (zh) * | 2018-06-29 | 2022-03-11 | 北京奇虎科技有限公司 | 一种网页后门检测方法、装置、设备及存储介质 |
WO2020263389A1 (en) * | 2019-06-26 | 2020-12-30 | Hrl Laboratories, Llc | System and method fdr detecting backdoor attacks in convolutional neural networks |
CN113297571B (zh) * | 2021-05-31 | 2022-06-07 | 浙江工业大学 | 面向图神经网络模型后门攻击的检测方法和装置 |
CN113902962B (zh) * | 2021-12-09 | 2022-03-04 | 北京瑞莱智慧科技有限公司 | 目标检测模型的后门植入方法、装置、介质和计算设备 |
CN114638356B (zh) * | 2022-02-25 | 2024-06-28 | 武汉大学 | 一种静态权重引导的深度神经网络后门检测方法及系统 |
CN114299365B (zh) * | 2022-03-04 | 2022-07-05 | 上海观安信息技术股份有限公司 | 图像模型隐蔽后门的检测方法及系统、存储介质、终端 |
CN115186816B (zh) * | 2022-09-08 | 2022-12-27 | 南京逸智网络空间技术创新研究院有限公司 | 一种基于决策捷径搜索的后门检测方法 |
-
2022
- 2022-09-08 CN CN202211093403.6A patent/CN115186816B/zh active Active
-
2023
- 2023-05-05 WO PCT/CN2023/092167 patent/WO2024051183A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024051183A1 (zh) | 2024-03-14 |
CN115186816A (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115186816B (zh) | 一种基于决策捷径搜索的后门检测方法 | |
CN110070141B (zh) | 一种网络入侵检测方法 | |
DeVries et al. | Learning confidence for out-of-distribution detection in neural networks | |
CN109584221B (zh) | 一种基于监督式生成对抗网络的异常图像检测方法 | |
CN110874471B (zh) | 保护隐私安全的神经网络模型的训练方法和装置 | |
CN113111349B (zh) | 基于热力图、逆向工程和模型剪枝的后门攻击防御方法 | |
CN111626367A (zh) | 对抗样本检测方法、装置、设备及计算机可读存储介质 | |
CN113988293B (zh) | 一种不同层级函数组合的对抗生成网络的方法 | |
Xie et al. | Adaptive image steganography using fuzzy enhancement and grey wolf optimizer | |
Bountakas et al. | Defense strategies for adversarial machine learning: A survey | |
CN113343123B (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
Naqvi et al. | Adversarial attacks on visual objects using the fast gradient sign method | |
Dong et al. | Detecting adversarial examples utilizing pixel value diversity | |
CN111639688B (zh) | 一种基于线性核svm的物联网智能模型的局部解释方法 | |
Cho et al. | A comparison of rule-based, k-nearest neighbor, and neural net classifiers for automated industrial inspection | |
US20230145544A1 (en) | Neural network watermarking | |
Pavlitskaya et al. | Measuring overfitting in convolutional neural networks using adversarial perturbations and label noise | |
Li et al. | Backdoor Mitigation by Correcting the Distribution of Neural Activations | |
CN113205115B (zh) | 基于图像特征分析的抵御神经网络后门攻击方法及系统 | |
Yu et al. | Two strategies to optimize the decisions in signature verification with the presence of spoofing attacks | |
CN118411654B (zh) | 基于深度学习的水运异常事件识别方法及监测系统 | |
Zhang et al. | Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis | |
Hu et al. | Learning Discrimination from Contaminated Data: Multi-Instance Learning for Unsupervised Anomaly Detection | |
Eslami et al. | Stability Analysis of Deep Neural Networks under Adversarial Attacks and Noise Perturbations | |
Zhang et al. | Defending Against Backdoor Attack on Deep Neural Networks Based on Multi-Scale Inactivation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |