CN115659171A - 一种基于多元特征交互的模型后门检测方法、装置及存储介质 - Google Patents
一种基于多元特征交互的模型后门检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115659171A CN115659171A CN202211178731.6A CN202211178731A CN115659171A CN 115659171 A CN115659171 A CN 115659171A CN 202211178731 A CN202211178731 A CN 202211178731A CN 115659171 A CN115659171 A CN 115659171A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- vector
- data set
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及机器学习安全领域,提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。
背景技术
随着人工智能技术的发展,机器学习被运用在人们工作和生活的各个领域中。由于人工智能需要大量数据和算力的驱动,故很多个人和组织会将机器学习模型的训练任务外包给外部供应商,这就给了攻击者影响模型的机会,模型后门攻击就是一种常见的在模型训练阶段施加影响的攻击技术。
模型后门攻击通过各种手段向模型植入后门,被植入后门的模型在被部署后表现与正常模型一致,但当攻击者通过特定输入激活该模型中的后门时,该模型将按照攻击者的意图行动。早期的后门植入方法主要是通过修改模型的训练数据实现的,随着模型后门攻击技术的发展,后门的隐蔽性不断提高,后门植入的手段也变得多样,一些在模型交付或部署后向模型植入后门的技术被提出。
针对后门攻击的防御手段可被分为两类:一类为基于经验的后门防御,防御者在对攻击原理有一定了解的基础上部署防御措施,在实践中能较好的防御已有的后门攻击方法,但其有效性缺乏理论保证,且无法保证对后续出现的攻击手段的防御;另一类为基于认证的后门防御,此类方法在假定一些前提条件后在理论上证明防御的有效性,但在实践中由于假设通常无法完全满足,导致其有效性低于基于经验的后门防御方法。
发明内容
本发明的目的在于提高模型后门的识别率以及降低检测实现的计算开销。
为了实现上述目的本发明采用以下技术手段:
本发明提供了一种基于多元特征交互的模型后门检测方法,包括以下步骤:
步骤3、给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
本发明还提供了一种基于多元特征交互的模型后门检测装置,包括:
给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
本发明还提供了一种存储介质,所述存储,处理器读取所存储介质中的计算机程序,用以执行所述的一种基于多元特征交互的模型后门检测方法。
因为本发明采用上述技术方案,因此具备以下有益效果:
一、相比于基于经验的后门防御方法,本发明的迁移性更高:
基于经验的后门防御方法面对未知攻击时的表现较差,准确率低于30%左右。相比之下,由于本发明是一种利用模型特征交互以实现可解释性的后门检测方法,在面对未知后门攻击时也能达到95%以上检测准确率,因此具有更强的迁移性;
二、相比于其他模型后门检测方法,本发明的计算开销更小:
对于常见的图像分类问题,现有的模型后门检测方法引入了额外的优化和训练开销,而本发明提出的检测方法只需对输入图像的logits层输出按类别求和,将结果与阈值进行比较以判断模型是否存在后门,其计算量远小于图像预处理所花费的计算开销。
三、以MNIST数据集为例现有方法对单个MNIST分类模型的检测时间为约300秒,而本方法的检测时间开销小于1秒。
附图说明
图1为本发明流程简图。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
本发明基于以下多元特征交互原理展开对模型后门攻击的防御:
以训练阶段植入后门的后门攻击为例,目标模型为一个以θ为参数的模型,记为Fθ,其输入为图片x。在Fθ的正常训练过程中,其正向传播过程利用从x提取得到的n个特征{f1,f2,...,fn}给出k分类的预测结果,在计算损失后,通过反向传播过程更新θ,在这个前后向传播过程里,特征{fi|i=1,2,...,n}对应于k个分类结果的权重将会迭代更新。随着训练的进行,对某个分类有正向影响的特征的权重将逐渐变大,对应的,有负向影响的特征的权重会逐渐减小。最终,一个训练完毕的模型的参数中会体现出各个特征对各个目标类别的竞争或合作的关系。
当攻击者操控模型的训练数据以在训练过程中向目标模型注入后门时,各个特征的竞争与合作关系相较于正常模型会发生改变。具体而言,当攻击者希望通过后门来实现对目标类别的控制时,模型在训练过程中根据如下三类特征去更新参数:(a)正常训练数据上提取的正常特征;(b)被植入后门数据上提取的后门的特征;(c)被植入后门数据上的其他特征。上述三类特征在模型训练过程中都会对目标类别的预测产生正向影响,可利用这一特点来识别模型中是否存在后门。
本发明提供了一种基于多元特征交互的模型后门检测方法,包括以下步骤:
步骤3、给定阈值b,当某一类的logits累计值rm高于b时,则此类受到了模型后门攻击。
本发明还提供了一种基于多元特征交互的模型后门检测装置,包括:
判断模块、给定阈值b,当某一类的logits累计值rm高于b时,则此类受到了模型后门攻击。
Claims (3)
1.一种基于多元特征交互的模型后门检测方法,其特征在于,包括以下步骤:
步骤3、给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
2.一种基于多元特征交互的模型后门检测装置,其特征在于,包括:
给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
3.一种存储介质,其特征在于,所述存储,处理器读取所存储介质中的计算机程序,用以执行如权利要求1所述的一种基于多元特征交互的模型后门检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178731.6A CN115659171B (zh) | 2022-09-26 | 2022-09-26 | 一种基于多元特征交互的模型后门检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178731.6A CN115659171B (zh) | 2022-09-26 | 2022-09-26 | 一种基于多元特征交互的模型后门检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115659171A true CN115659171A (zh) | 2023-01-31 |
CN115659171B CN115659171B (zh) | 2023-06-06 |
Family
ID=84986320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211178731.6A Active CN115659171B (zh) | 2022-09-26 | 2022-09-26 | 一种基于多元特征交互的模型后门检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659171B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8151348B1 (en) * | 2004-06-30 | 2012-04-03 | Cisco Technology, Inc. | Automatic detection of reverse tunnels |
CN111340144A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 风险样本检测方法、装置、电子设备及存储介质 |
CN112130004A (zh) * | 2020-09-25 | 2020-12-25 | 中国工程物理研究院应用电子学研究所 | 一种电路级高功率微波后门耦合实时测试装置及方法 |
CN112163638A (zh) * | 2020-10-20 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 图像分类模型后门攻击的防御方法、装置、设备及介质 |
CN112257816A (zh) * | 2020-12-07 | 2021-01-22 | 北京瑞莱智慧科技有限公司 | 模型的后门检测方法、装置、介质和计算设备 |
CN112765607A (zh) * | 2021-01-19 | 2021-05-07 | 电子科技大学 | 一种神经网络模型后门攻击检测方法 |
US20210256125A1 (en) * | 2019-05-29 | 2021-08-19 | Anomalee Inc. | Post-Training Detection and Identification of Backdoor-Poisoning Attacks |
CN113297571A (zh) * | 2021-05-31 | 2021-08-24 | 浙江工业大学 | 面向图神经网络模型后门攻击的检测方法和装置 |
CN113962322A (zh) * | 2021-11-01 | 2022-01-21 | 浙江大学 | 基于联邦学习的后门攻击防御方法、系统及可存储介质 |
CN114021136A (zh) * | 2021-11-26 | 2022-02-08 | 上海交通大学 | 针对人工智能模型的后门攻击防御系统 |
CN114219011A (zh) * | 2021-11-20 | 2022-03-22 | 南京理工大学 | 基于后门不可迁移性的通用后门攻击检测方法 |
US20220292185A1 (en) * | 2021-03-09 | 2022-09-15 | NEC Laboratories Europe GmbH | Securing machine learning models against adversarial samples through backdoor misclassification |
-
2022
- 2022-09-26 CN CN202211178731.6A patent/CN115659171B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8151348B1 (en) * | 2004-06-30 | 2012-04-03 | Cisco Technology, Inc. | Automatic detection of reverse tunnels |
US20210256125A1 (en) * | 2019-05-29 | 2021-08-19 | Anomalee Inc. | Post-Training Detection and Identification of Backdoor-Poisoning Attacks |
CN111340144A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 风险样本检测方法、装置、电子设备及存储介质 |
CN112130004A (zh) * | 2020-09-25 | 2020-12-25 | 中国工程物理研究院应用电子学研究所 | 一种电路级高功率微波后门耦合实时测试装置及方法 |
CN112163638A (zh) * | 2020-10-20 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 图像分类模型后门攻击的防御方法、装置、设备及介质 |
CN112257816A (zh) * | 2020-12-07 | 2021-01-22 | 北京瑞莱智慧科技有限公司 | 模型的后门检测方法、装置、介质和计算设备 |
CN112765607A (zh) * | 2021-01-19 | 2021-05-07 | 电子科技大学 | 一种神经网络模型后门攻击检测方法 |
US20220292185A1 (en) * | 2021-03-09 | 2022-09-15 | NEC Laboratories Europe GmbH | Securing machine learning models against adversarial samples through backdoor misclassification |
CN113297571A (zh) * | 2021-05-31 | 2021-08-24 | 浙江工业大学 | 面向图神经网络模型后门攻击的检测方法和装置 |
CN113962322A (zh) * | 2021-11-01 | 2022-01-21 | 浙江大学 | 基于联邦学习的后门攻击防御方法、系统及可存储介质 |
CN114219011A (zh) * | 2021-11-20 | 2022-03-22 | 南京理工大学 | 基于后门不可迁移性的通用后门攻击检测方法 |
CN114021136A (zh) * | 2021-11-26 | 2022-02-08 | 上海交通大学 | 针对人工智能模型的后门攻击防御系统 |
Non-Patent Citations (3)
Title |
---|
DAVID J.MILLER 等: "Advwesarial Learning Targeting Deep Neural Network Classification:A Comprehensive Review of Defenses Against Attacks", IEEE * |
S ALMOTAIRI 等: "A technique for detecting new attacks in low-interaction honeypot traffic", 《IEEE》 * |
刘渊 等: "基于cusum算法的DDOS攻击检测", 计算机与数字工程, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
CN115659171B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sihwail et al. | Improved harris hawks optimization using elite opposition-based learning and novel search mechanism for feature selection | |
CN111881935B (zh) | 一种基于内容感知gan的对抗样本生成方法 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
Pare et al. | A context sensitive multilevel thresholding using swarm based algorithms | |
CN112766399B (zh) | 一种面向图像识别的自适应神经网络训练方法 | |
Chen et al. | Generalisation and domain adaptation in GP with gradient descent for symbolic regression | |
CN114333021A (zh) | 面部识别方法、装置、计算机设备、存储介质 | |
CN109740481A (zh) | 基于跳跃连接的cnn与lstm结合的房颤信号分类方法 | |
CN112561054B (zh) | 一种基于批量特征热图的神经网络滤波器剪枝方法 | |
CN115659171A (zh) | 一种基于多元特征交互的模型后门检测方法、装置及存储介质 | |
Balaji et al. | Detection and Classification of Brain tumors Using Deep Convolutional Neural Networks | |
Balduzzi | Deep online convex optimization with gated games | |
CN116309700A (zh) | 一种基于孪生网络的目标跟踪通用鲁棒对抗攻击方法 | |
CN113837253B (zh) | 一种单步对抗训练方法、系统、设备、存储介质及产品 | |
Takahashi et al. | Face recognition based on separable lattice 2-D HMM with state duration modeling | |
CN115730316A (zh) | 基于经验精确Nesterov动量的提升对抗样本可转移性的方法 | |
Wang et al. | Gradient deconfliction-based training for multi-exit architectures | |
Cohen | Automated crater detection using machine learning | |
Ren | Optimal control | |
CN113902954A (zh) | 基于主特征增强的图像中毒防御方法、装置及其应用 | |
CN113239858A (zh) | 一种人脸检测模型训练方法及人脸识别方法、终端及存储介质 | |
Huang et al. | Band selection based on evolution algorithm and sequential search for hyperspectral classification | |
Tao | SQBA: sequential query-based blackbox attack | |
Wei et al. | A multilevel threshold segmentation technique using self-adaptive Cuckoo search algorithm | |
CN113657448B (zh) | 一种基于生成对抗网络和梯度解释的对抗样本防御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |