CN115186816B - 一种基于决策捷径搜索的后门检测方法 - Google Patents

一种基于决策捷径搜索的后门检测方法 Download PDF

Info

Publication number
CN115186816B
CN115186816B CN202211093403.6A CN202211093403A CN115186816B CN 115186816 B CN115186816 B CN 115186816B CN 202211093403 A CN202211093403 A CN 202211093403A CN 115186816 B CN115186816 B CN 115186816B
Authority
CN
China
Prior art keywords
trigger
model
label
labels
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211093403.6A
Other languages
English (en)
Other versions
CN115186816A (zh
Inventor
董恺
卞绍鹏
李想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Original Assignee
Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd filed Critical Nanjing Yizhi Network Space Technology Innovation Research Institute Co ltd
Priority to CN202211093403.6A priority Critical patent/CN115186816B/zh
Publication of CN115186816A publication Critical patent/CN115186816A/zh
Application granted granted Critical
Publication of CN115186816B publication Critical patent/CN115186816B/zh
Priority to PCT/CN2023/092167 priority patent/WO2024051183A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于决策捷径搜索的后门检测方法,包括:通过随机噪声确定K个可疑的标签;对于每一个可疑的标签求解出一个最小的触发器坐标;分析求解出的触发器坐标是否存在异常值;对恶意模型进行再训练使得后门失效,最终得到正常模型。本发明能够快速锁定可疑标签,能够求解出真实触发器的坐标信息,只需对少量标签做详细检测即可高效地检测出恶意模型,利用求解出的触发器对待检测模型进行再训练,以移除后门,最终得到一个正常模型,大幅度降低了检测算法的时间复杂度能够快速锁定可疑标签。

Description

一种基于决策捷径搜索的后门检测方法
技术领域
本发明属于深度学习的安全技术领域,具体涉及一种基于决策捷径搜索的后门检测方法。
背景技术
随着深度学习在日常生活中的广泛应用,其中的安全问题也慢慢暴露了出来。训练一个较为出色的深度学习模型需要大量的时间及计算资源,普通的公司及个人完全无法满足这些要求,所以他们通常会将训练过程外包给第三方。外包方式如下:用户提供训练集数据给第三方,保留测试集数据,提前约定好模型的结构及准确率阈值,若最终的模型在测试集上的准确率高于阈值则接受模型,否则拒绝。由于第三方完全控制着训练过程再加上深度学习模型缺乏可解释性,这种外包服务可能会存在一些安全隐患。例如近些年提出的后门攻击,第三方可以通过添加特定的样本来污染训练集,从而植入后门。被植入后门的恶意模型在正常情况下无异常,仅在特定情况下分类错误达到攻击的效果。
后门攻击属于投毒攻击的一种攻击方法,通过在训练集中添加一定比例带有触发器的中毒样本来污染训练集,最终训练出的模型被称为恶意模型。在正常情况下,恶意模型与正常模型几乎没有任何差异,当且仅当输入中带有预设的触发器时才会激活后门,从而使得恶意模型将此输入误分类为攻击者的目标标签。Badnets攻击方法可以分为三步:选取触发器、污染训练集和模型训练。后续的攻击方法分别针对选取触发器、污染训练集和模型训练进行了优化改进。
后门攻击的攻击过程如图1所示,主要可分为三步:添加触发器、确认匹配度和激活后门。从这三个步骤着手,若能阻碍其中的某个步骤便能够使得攻击失效。所以,可以从三个方面对后门攻击进行防御:移除触发器、触发器与后门不匹配和移除后门。
(一)移除触发器
有研究人员利用了GradCAM检测输入图像中最为重要的区域,例如触发器图案所在的区域;随后使用中性的像素值覆盖此区域。最后,使用基于GAN的方法来“恢复”此区域中的像素值,从而减轻对于良性输入的影响。
(二)触发器后门不匹配
若能够在输入模型前对中毒样本做合理的预处理,使得触发器中的触发器与后门不匹配,就能够成功防御攻击。根据这个想法, 有研究人员利用了auto-encoder的思想对模型的输入进行了预处理,使得经过转换后的触发器图案与原触发器图案会有较大偏差,从而无法激活后门。
(三)移除后门
向模型中植入后门实质上就是将模型的参数朝着一个特定的方向进行修改,若能够将去除这些恶意参数,即可抵消后门的影响,从而移除后门。受感染模型中存在部分神经元专门用于识别触发器,对于良性的输入几乎不响应,只要对这部分神经元进行修剪即可移除后门。为了能够更加准确高效地移除后门,可以首先求解出触发器,随后利用求得的触发器来移除后门。有研究人员提出了基于触发器求解的防御方法Neural Cleanse,对每一个标签求解出一个的可能触发器,随后再对这些触发器进行异常值检测来判断模型中是否存在后门。
在此之前提出的后门检测方法Neural Cleanse需要对于所有的标签都做一次详细检测,若待检测模型的分类标签总数非常多,会导致这种方法的检测效率较低。
公开号为CN113609482A的发明中提及一种针对图像分类模型的后门检测及修复方法及系统,该发明仅使用少量干净数据,即可对图像分类模型的后门检测及修复,生成正常模型。但该发明需要创建对照模型,借助对照模型通过优化目标函数对后门模型的每一个类别进行逆向,获得一系列潜在触发器,利用贡献度热力图对潜在触发器进行精炼,只保留影响模型分类结果的关键特征;继而基于后门触发器和对抗补丁在对照模型上可迁移性的差异,区分出精炼后的潜在触发器的后门触发器和对抗补丁,对照模型难以构建且整个检测方法运算量大。
公开号为CN114638356A的发明中提及一种静态权重引导的深度神经网络后门检测方法及系统,发挥了静态权重分析计算开销小、不受输入样本质量影响、不受触发器类型影响的优势,有效提高了神经网络后门检测的效率、精度和可扩展性。但该发明需要预训练神经网络模型进行静态权重分析,得到后门攻击的可疑目标标签和受害标签,组成目标-受害标签对。在数据量不足的情况下,预训练的神经网络模型的精度和准确度不够,容易导致错误分类。
发明内容
解决的技术问题:为了解决检测效率低下的问题,本发明提出了一种基于决策捷径搜索的后门检测方法,能够快速锁定少数的可疑标签,最大程度地提高检测效率。
技术方案:
一种基于决策捷径搜索的后门检测方法,所述后门检测方法包括以下步骤:
S1,利用随机噪声生成P张由随机噪声像素值组成的随机噪声图片,将P张随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次,根据标签出现的频次对所有标签从大到小进行排序,将前K个标签作为可疑的目标标签;P和K均为大于1的正整数;
S2,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标;i=1,2,…,K;
S3,重复步骤S2,直至计算得到所有可疑的目标标签对应的可能的触发器坐标;
S4,根据添加触发器后的攻击成功率和触发器的大小,计算得到K个可能的触发器的异常值,如果计算得到的任意一个可能的触发器的异常值大于预设的异常值阈值,则表明待检测模型为恶意模型,且攻击者的目标标签为该可能的触发器对应的标签;
S5,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效。
进一步地,步骤S2中,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标的过程包括以下子步骤:
S21,在后门攻击中,触发器由触发器坐标m和触发器图案
Figure 531200DEST_PATH_IMAGE001
两部分共同组成,采用 下述公式(1)在样本
Figure 715188DEST_PATH_IMAGE002
上添加触发器:
Figure 664689DEST_PATH_IMAGE003
S22,采用下述公式(2)求解得到触发器坐标:
Figure 816185DEST_PATH_IMAGE004
其中,
Figure 142124DEST_PATH_IMAGE005
表示待检测模型;
Figure 570831DEST_PATH_IMAGE006
为损失函数,用于量化分类损失;
Figure 566600DEST_PATH_IMAGE007
为当前假定的目 标标签;
Figure 346338DEST_PATH_IMAGE008
为m的L1范式,表示需要修改像素点的范围大小;
Figure 335022DEST_PATH_IMAGE009
表示获取到的不存在被污染 样本的干净数据集;触发器坐标求解最优化的目标是:在待检测模型将全部经过修改的图 片分类为
Figure 618236DEST_PATH_IMAGE007
的同时,最小化m的L1范式,以改动最少的像素点。
进一步地,采用用户测试集的部分数据以生成所述干净数据集。
进一步地,步骤S4中,判断添加触发器后的攻击成功率是否小于预设的攻击成功率阈值,如果是,则直接排除该可能的触发器;否则,根据添加触发器后的攻击成功率和触发器的大小,计算得到可能的触发器的异常值。
进一步地,步骤S4中,采用下述公式(3)计算得到可能的触发器的异常值
Figure 175119DEST_PATH_IMAGE010
Figure 786360DEST_PATH_IMAGE011
式中,acc表示添加触发器后的攻击成功率;
Figure 454102DEST_PATH_IMAGE012
表示输入样本的像素点总 数;
Figure 716456DEST_PATH_IMAGE008
表示触发器的大小。
进一步地,步骤S5中,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效的过程包括以下子步骤:
S61,从不存在被污染样本的干净数据集中选取一部分合适的干净样本;
S62,在选取的干净样本中的m坐标位置添加上随机噪声像素值,且不改变这些样本的标签,以制造逆向中毒样本;
S63,采用制造的逆向中毒样本和部分干净数据集对待检测模型进行再训练。
有益效果:
本发明提出了一种基于决策捷径搜索的后门检测方法,能够快速锁定可疑标签,能够求解出真实触发器的坐标信息,只需对少量标签做详细检测即可高效地检测出恶意模型,利用求解出的触发器对待检测模型进行再训练,以移除后门,最终得到一个正常模型,大幅度降低了检测算法的时间复杂度能够快速锁定可疑标签。
附图说明
图1为后门攻击的攻击原理示意图;
图2为本发明实施例的基于决策捷径搜索的后门检测方法流程图。
图3为本发明实施例的基于决策捷径搜索的后门检测方法原理图。
具体实施方式
下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
图2为本发明实施例的基于决策捷径搜索的后门检测方法流程图。参见图2,该后门检测方法包括以下步骤:
S1,利用随机噪声生成P张由随机噪声像素值组成的随机噪声图片,将P张随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次,根据标签出现的频次对所有标签从大到小进行排序,将前K个标签作为可疑的目标标签;P和K均为大于1的正整数。
S2,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标;i=1,2,…,K。
S3,重复步骤S2,直至计算得到所有可疑的目标标签对应的可能的触发器坐标。
S4,根据添加触发器后的攻击成功率和触发器的大小,计算得到K个可能的触发器的异常值,如果计算得到的任意一个可能的触发器的异常值大于预设的异常值阈值,则表明待检测模型为恶意模型,且攻击者的目标标签为该可能的触发器对应的标签。
S5,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效。
本实施例设计了一种基于决策捷径搜索的后门检测方法,以CIFAR10数据集训练的模型为例,参见图3,判断该模型中是否存在后门主要可分为以下四个步骤:
(1)通过随机噪声确定K个可疑的标签。
在步骤(1)中,本方法利用模型对于随机噪声图片的分类情况迅速将标签搜索范围缩小至K个标签。先前的检测方法Neural Cleanse需要对待检测模型的所有标签进行详细的检测,对于一个分类标签总数量极大的模型来说,若详细检测每一个标签是否是攻击者的目标标签,会花费大量的时间及计算资源。具体搜索过程包括以下步骤:首先,利用随机噪声生成P张随机噪声像素值组成的图片。其次,将这些随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次。最后,根据标签出现的频次对所有标签从大到小进行排序,前K个标签即为可疑的目标标签。
本实施例与检测方法Neural Cleanse不同,本实施例利用了恶意模型的特点,能够迅速将可疑标签的范围缩小至k个,将时间复杂度由O(N)降低到了常量级别,显著提升了检测的效率。
对于每一个可疑的标签求解出一个最小的触发器坐标。
在步骤(2)中,本实施例将对上述求得的K个可疑标签分别进行详细的检测,并分别求解出一个可能的触发器坐标。先前的检测方法Neural Cleanse需要同时求解触发器坐标与触发器像素值,耗费大量的时间及计算资源。发现可疑标签具体可分为如下三个步骤:
在恶意模型中,标签A的样本上只需要通过修改极少量的像素点来添加触发器,就能够让恶意模型将其误分类为攻击的目标标签B,但标签A的样本需要修改大量的像素点才能让恶意模型将其误分类为标签C。而对于正常模型来说,想让模型将标签A的样本误分类为所有的其余标签都需要修改大量的像素点。
本实施例利用了恶意模型这一特性,对于每一个可疑标签都把假设它是攻击者的 目标标签,并且计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,即 标签i可能的触发器。在后门攻击中,触发器由触发器坐标m和触发器图案
Figure 444241DEST_PATH_IMAGE013
两部分共同组 成,通过
Figure 932991DEST_PATH_IMAGE014
函数来添加触发器,在样本x上添加触发器的方法如式(1)所示:
Figure 11281DEST_PATH_IMAGE015
但根据研究发现,恶意模型并未学习到具体的像素值信息,所以无需求解触发器 的图案
Figure 269087DEST_PATH_IMAGE016
,只需求解出触发器的坐标m即可。具体的求解方法如式(2)所示。其中,
Figure 292406DEST_PATH_IMAGE017
表示待 检测的模型,
Figure 2873DEST_PATH_IMAGE018
为损失函数,用于量化分类损失,
Figure 12418DEST_PATH_IMAGE007
为当前假定的目标标签,
Figure 265676DEST_PATH_IMAGE019
为m的L1范 式,表示需要修改像素点的范围大小,X表示能够获取到的干净数据集。在一般情况下,X可 采用用户测试集的一部分数据。最优化的目标是:在模型将全部经过修改的图片分类为
Figure 69684DEST_PATH_IMAGE007
的同时,最小化m的L1范式,即改动最少的像素点。
Figure 533026DEST_PATH_IMAGE020
本实施例利用了恶意模型对随机噪声的敏感性,仅求解触发器坐标即可,触发器像素值通过随机噪声来生成,大幅度减少提升了最优化求解的效率。
分析求解出的触发器坐标是否存在异常值。
在步骤(3)中,将根据上述求得的K个可能的触发器进行异常值检测,若检测出异常触发器,则说明模型中存在后门,且攻击者的攻击标签即为此触发器对应的标签。由于真实触发器的L1范式会远小于其余可能的触发器,本发明方法拟根据添加触发器后的攻击成功率和触发器的大小来综合判断待检测模型是否为恶意模型。对于真正的攻击标签来说,只需较小的mask即可达到较高的攻击成功率。
本方法拟根据添加触发器后的攻击成功率
Figure 205316DEST_PATH_IMAGE021
和触发器的大小来计算触发器的 grade。由于每次添加的触发器像素值都是随机生成的,所以对于部分良性标签来说,即使 对大量像素点进行修改也难以达到较高的攻击成功率。所以,若求得的acc小于规定的攻击 成功率阈值,则直接排除。若该标签的触发器进行攻击的acc成功率较高,取acc大于阈值且 mask最小的触发器作为此标签的触发器坐标,根据acc和mask的大小计算出标签的grade来 综合判断。对于真正的攻击标签来说,只需较小的mask即可达到较高的攻击成功率。在式 (3)中,sumPixel表示输入样本的像素点总数,若求得的grade大于规定的阈值,则表明模型 中存在后门,且攻击者的目标标签即为触发器对应的标签:
Figure 437714DEST_PATH_IMAGE022
对恶意模型进行再训练使得后门失效,最终得到正常模型。
在步骤(4)中,需要移除恶意模型中的后门。为了让模型中的后门失效,同时保证 模型的正常功能性,本实施例利用求解出的触发器对模型进行再训练,通过修改模型的参 数使得后门失效。具体方式如下:首先,从良性训练集中选取一部分合适的干净样本;其次, 在这些样本中的
Figure 287989DEST_PATH_IMAGE023
坐标位置添加上随机噪声像素值,但不改变这些样本的标签,用来制造 “逆向中毒样本”;最后,用这些逆向中毒样本加上部分良性训练集对模型进行再训练,使得 模型“忘记”学习到的触发器。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (5)

1.一种基于决策捷径搜索的后门检测方法,其特征在于,所述后门检测方法包括以下步骤:
S1,利用随机噪声生成P张由随机噪声像素值组成的随机噪声图片,将P张随机噪声图片输入至待检测模型并记录下每个分类标签出现的频次,根据标签出现的频次对所有标签从大到小进行排序,将前K个标签作为可疑的目标标签;P和K均为大于1的正整数;
S2,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标;i=1,2,…,K;
S3,重复步骤S2,直至计算得到所有可疑的目标标签对应的可能的触发器坐标;
S4,根据添加触发器后的攻击成功率和触发器的大小,计算得到K个可能的触发器的异常值,如果计算得到的任意一个可能的触发器的异常值大于预设的异常值阈值,则表明待检测模型为恶意模型,且攻击者的目标标签为该可能的触发器对应的标签;
S5,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效;
步骤S2中,选择其中一个可疑的目标标签i,假设其是攻击者的目标标签,计算待检测模型将其余标签的样本全都分类为标签i所需的最小修改量,计算得到标签i对应的可能的触发器坐标的过程包括以下子步骤:
S21,在后门攻击中,触发器由触发器坐标m和触发器图案Δ两部分共同组成,采用下述公式(1)在样本x上添加触发器:
A(x,m,Δ)=(1-m)·x+m·Δ (1);
S22,采用下述公式(2)求解得到触发器坐标:
minmJ(F(A(x,m,Δ),yi)+α·|m|For x∈X (2)
其中,F()表示待检测模型;J()为损失函数,用于量化分类损失;yi为当前假定的目标标签;|m|为m的L1范式,表示需要修改像素点的范围大小;X表示获取到的不存在被污染样本的干净数据集;触发器坐标求解最优化的目标是:在待检测模型将全部经过修改的图片分类为的同时,最小化的L1范式,以改动最少的像素点。
2.根据权利要求1所述的基于决策捷径搜索的后门检测方法,其特征在于,采用用户测试集的部分数据以生成所述干净数据集。
3.根据权利要求1所述的基于决策捷径搜索的后门检测方法,其特征在于,步骤S4中,判断添加触发器后的攻击成功率是否小于预设的攻击成功率阈值,如果是,则直接排除该可能的触发器;否则,根据添加触发器后的攻击成功率和触发器的大小,计算得到可能的触发器的异常值。
4.根据权利要求1或者3所述的基于决策捷径搜索的后门检测方法,其特征在于,步骤S4
中,采用下述公式(3)计算得到可能的触发器的异常值grade:
Figure FDA0003924220950000021
式中,acc表示添加触发器后的攻击成功率;sumPixel表示输入样本的像素点总数;|m|表示触发器的大小。
5.根据权利要求1所述的基于决策捷径搜索的后门检测方法,其特征在于,步骤S5中,利用求解出的异常值大于异常值阈值的触发器对待检测模型进行再训练,通过修改模型的参数使得后门失效的过程包括以下子步骤:
S61,从不存在被污染样本的干净数据集中选取一部分合适的干净样本;
S62,在选取的干净样本中的m坐标位置添加上随机噪声像素值,且不改变这些样本的标签,以制造逆向中毒样本;
S63,采用制造的逆向中毒样本和部分干净数据集对待检测模型进行再训练。
CN202211093403.6A 2022-09-08 2022-09-08 一种基于决策捷径搜索的后门检测方法 Active CN115186816B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211093403.6A CN115186816B (zh) 2022-09-08 2022-09-08 一种基于决策捷径搜索的后门检测方法
PCT/CN2023/092167 WO2024051183A1 (zh) 2022-09-08 2023-05-05 一种基于决策捷径搜索的后门检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211093403.6A CN115186816B (zh) 2022-09-08 2022-09-08 一种基于决策捷径搜索的后门检测方法

Publications (2)

Publication Number Publication Date
CN115186816A CN115186816A (zh) 2022-10-14
CN115186816B true CN115186816B (zh) 2022-12-27

Family

ID=83523799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211093403.6A Active CN115186816B (zh) 2022-09-08 2022-09-08 一种基于决策捷径搜索的后门检测方法

Country Status (2)

Country Link
CN (1) CN115186816B (zh)
WO (1) WO2024051183A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186816B (zh) * 2022-09-08 2022-12-27 南京逸智网络空间技术创新研究院有限公司 一种基于决策捷径搜索的后门检测方法
CN116739073B (zh) * 2023-08-10 2023-11-07 武汉大学 一种基于进化偏差的在线后门样本检测方法及系统
CN118366010B (zh) * 2024-06-18 2024-09-20 浙江大学 一种面向分割学习的模型后门攻击脆弱性分析方法和系统
CN118503974B (zh) * 2024-07-22 2024-09-17 中国电子科技集团公司第三十研究所 一种数据中毒攻击的检测和防御方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920955B (zh) * 2018-06-29 2022-03-11 北京奇虎科技有限公司 一种网页后门检测方法、装置、设备及存储介质
WO2020263389A1 (en) * 2019-06-26 2020-12-30 Hrl Laboratories, Llc System and method fdr detecting backdoor attacks in convolutional neural networks
CN113297571B (zh) * 2021-05-31 2022-06-07 浙江工业大学 面向图神经网络模型后门攻击的检测方法和装置
CN113902962B (zh) * 2021-12-09 2022-03-04 北京瑞莱智慧科技有限公司 目标检测模型的后门植入方法、装置、介质和计算设备
CN114638356B (zh) * 2022-02-25 2024-06-28 武汉大学 一种静态权重引导的深度神经网络后门检测方法及系统
CN114299365B (zh) * 2022-03-04 2022-07-05 上海观安信息技术股份有限公司 图像模型隐蔽后门的检测方法及系统、存储介质、终端
CN115186816B (zh) * 2022-09-08 2022-12-27 南京逸智网络空间技术创新研究院有限公司 一种基于决策捷径搜索的后门检测方法

Also Published As

Publication number Publication date
WO2024051183A1 (zh) 2024-03-14
CN115186816A (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN115186816B (zh) 一种基于决策捷径搜索的后门检测方法
CN110070141B (zh) 一种网络入侵检测方法
DeVries et al. Learning confidence for out-of-distribution detection in neural networks
CN109584221B (zh) 一种基于监督式生成对抗网络的异常图像检测方法
CN110874471B (zh) 保护隐私安全的神经网络模型的训练方法和装置
CN113111349B (zh) 基于热力图、逆向工程和模型剪枝的后门攻击防御方法
CN111626367A (zh) 对抗样本检测方法、装置、设备及计算机可读存储介质
CN113988293B (zh) 一种不同层级函数组合的对抗生成网络的方法
Xie et al. Adaptive image steganography using fuzzy enhancement and grey wolf optimizer
Bountakas et al. Defense strategies for adversarial machine learning: A survey
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
Naqvi et al. Adversarial attacks on visual objects using the fast gradient sign method
Dong et al. Detecting adversarial examples utilizing pixel value diversity
CN111639688B (zh) 一种基于线性核svm的物联网智能模型的局部解释方法
Cho et al. A comparison of rule-based, k-nearest neighbor, and neural net classifiers for automated industrial inspection
US20230145544A1 (en) Neural network watermarking
Pavlitskaya et al. Measuring overfitting in convolutional neural networks using adversarial perturbations and label noise
Li et al. Backdoor Mitigation by Correcting the Distribution of Neural Activations
CN113205115B (zh) 基于图像特征分析的抵御神经网络后门攻击方法及系统
Yu et al. Two strategies to optimize the decisions in signature verification with the presence of spoofing attacks
CN118411654B (zh) 基于深度学习的水运异常事件识别方法及监测系统
Zhang et al. Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis
Hu et al. Learning Discrimination from Contaminated Data: Multi-Instance Learning for Unsupervised Anomaly Detection
Eslami et al. Stability Analysis of Deep Neural Networks under Adversarial Attacks and Noise Perturbations
Zhang et al. Defending Against Backdoor Attack on Deep Neural Networks Based on Multi-Scale Inactivation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant