CN115659171B - 一种基于多元特征交互的模型后门检测方法、装置及存储介质 - Google Patents

一种基于多元特征交互的模型后门检测方法、装置及存储介质 Download PDF

Info

Publication number
CN115659171B
CN115659171B CN202211178731.6A CN202211178731A CN115659171B CN 115659171 B CN115659171 B CN 115659171B CN 202211178731 A CN202211178731 A CN 202211178731A CN 115659171 B CN115659171 B CN 115659171B
Authority
CN
China
Prior art keywords
model
vector
data
back door
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211178731.6A
Other languages
English (en)
Other versions
CN115659171A (zh
Inventor
刘小垒
易鸣
殷明勇
邓凯
胥迤潇
许思博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Original Assignee
COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS filed Critical COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Priority to CN202211178731.6A priority Critical patent/CN115659171B/zh
Publication of CN115659171A publication Critical patent/CN115659171A/zh
Application granted granted Critical
Publication of CN115659171B publication Critical patent/CN115659171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及机器学习安全领域,提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。主旨在于提高模型后门的识别率以及降低检测实现的计算开销。主要方案包括对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure DDA0003862956370000011
将数据集的单个数据
Figure DDA0003862956370000012
输入给模型F,得到模型F的logits层的输出向量
Figure DDA0003862956370000013
然后对向量
Figure DDA0003862956370000014
按类别做向量和得到用于判断后门的k维向量r,其中rm为向量r的第m个分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。

Description

一种基于多元特征交互的模型后门检测方法、装置及存储 介质
技术领域
本发明涉及机器学习安全领域,提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。
背景技术
随着人工智能技术的发展,机器学习被运用在人们工作和生活的各个领域中。由于人工智能需要大量数据和算力的驱动,故很多个人和组织会将机器学习模型的训练任务外包给外部供应商,这就给了攻击者影响模型的机会,模型后门攻击就是一种常见的在模型训练阶段施加影响的攻击技术。
模型后门攻击通过各种手段向模型植入后门,被植入后门的模型在被部署后表现与正常模型一致,但当攻击者通过特定输入激活该模型中的后门时,该模型将按照攻击者的意图行动。早期的后门植入方法主要是通过修改模型的训练数据实现的,随着模型后门攻击技术的发展,后门的隐蔽性不断提高,后门植入的手段也变得多样,一些在模型交付或部署后向模型植入后门的技术被提出。
针对后门攻击的防御手段可被分为两类:一类为基于经验的后门防御,防御者在对攻击原理有一定了解的基础上部署防御措施,在实践中能较好的防御已有的后门攻击方法,但其有效性缺乏理论保证,且无法保证对后续出现的攻击手段的防御;另一类为基于认证的后门防御,此类方法在假定一些前提条件后在理论上证明防御的有效性,但在实践中由于假设通常无法完全满足,导致其有效性低于基于经验的后门防御方法。
发明内容
本发明的目的在于提高模型后门的识别率以及降低检测实现的计算开销。
为了实现上述目的本发明采用以下技术手段:
本发明提供了一种基于多元特征交互的模型后门检测方法,包括以下步骤:
步骤1、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure BDA0003862956350000011
步骤2、将步骤1中准备的数据集
Figure BDA0003862956350000012
中的数据/>
Figure BDA0003862956350000013
Figure BDA0003862956350000021
依次输入给模型F,得到模型F对于该数据的logits层的输出向量
Figure BDA0003862956350000022
其中/>
Figure BDA0003862956350000023
代表模型F对数据/>
Figure BDA0003862956350000024
为第k类的预测概率,/>
Figure BDA0003862956350000025
代表提前准备的数据集中第i类数据集的第j个数据;/>
然后对向量
Figure BDA0003862956350000026
按类别做向量和得到用于判断后门的k维向量/>
Figure BDA0003862956350000027
,其中rm为向量r的第m爪分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其rm的计算公式如下:
Figure BDA0003862956350000028
步骤3、给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
本发明还提供了一种基于多元特征交互的模型后门检测装置,包括:
数据集模块、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure BDA0003862956350000029
向量模块、将准备的数据集
Figure BDA00038629563500000210
中的数据/>
Figure BDA00038629563500000211
Figure BDA00038629563500000212
依次输入给模型F,得到模型F的logits层的输出向量/>
Figure BDA00038629563500000213
其中/>
Figure BDA00038629563500000214
代表模型F对数据/>
Figure BDA00038629563500000215
为第k类的预测概率,/>
Figure BDA00038629563500000216
代表提前准备的数据集中第i类数据集的第j个数据;
然后对向量
Figure BDA00038629563500000217
按类别做向量和得到用于判断后门的k维向量/>
Figure BDA00038629563500000218
,其中rm为向量r的第m个分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其rm的计算公式如下:
Figure BDA0003862956350000031
给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
本发明还提供了一种存储介质,所述存储,处理器读取所存储介质中的计算机程序,用以执行所述的一种基于多元特征交互的模型后门检测方法。
因为本发明采用上述技术方案,因此具备以下有益效果:
一、相比于基于经验的后门防御方法,本发明的迁移性更高:
基于经验的后门防御方法面对未知攻击时的表现较差,准确率低于30%左右。相比之下,由于本发明是一种利用模型特征交互以实现可解释性的后门检测方法,在面对未知后门攻击时也能达到95%以上检测准确率,因此具有更强的迁移性;
二、相比于其他模型后门检测方法,本发明的计算开销更小:
对于常见的图像分类问题,现有的模型后门检测方法引入了额外的优化和训练开销,而本发明提出的检测方法只需对输入图像的logits层输出按类别求和,将结果与阈值进行比较以判断模型是否存在后门,其计算量远小于图像预处理所花费的计算开销。
三、以MNIST数据集为例现有方法对单个MNIST分类模型的检测时间为约300秒,而本方法的检测时间开销小于1秒。
附图说明
图1为本发明流程简图。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
本发明基于以下多元特征交互原理展开对模型后门攻击的防御:
以训练阶段植入后门的后门攻击为例,目标模型为一个以θ为参数的模型,记为Fθ,其输入为图片x。在Fθ的正常训练过程中,其正向传播过程利用从x提取得到的n个特征{f1,f2,...,fn}给出k分类的预测结果,在计算损失后,通过反向传播过程更新θ,在这个前后向传播过程里,特征{fi|i=1,2,...,n}对应于k个分类结果的权重
Figure BDA0003862956350000041
将会迭代更新。随着训练的进行,对某个分类有正向影响的特征的权重将逐渐变大,对应的,有负向影响的特征的权重会逐渐减小。最终,一个训练完毕的模型的参数中会体现出各个特征对各个目标类别的竞争或合作的关系。
当攻击者操控模型的训练数据以在训练过程中向目标模型注入后门时,各个特征的竞争与合作关系相较于正常模型会发生改变。具体而言,当攻击者希望通过后门来实现对目标类别的控制时,模型在训练过程中根据如下三类特征去更新参数:(a)正常训练数据上提取的正常特征;(b)被植入后门数据上提取的后门的特征;(c)被植入后门数据上的其他特征。上述三类特征在模型训练过程中都会对目标类别的预测产生正向影响,可利用这一特点来识别模型中是否存在后门。
本发明提供了一种基于多元特征交互的模型后门检测方法,包括以下步骤:
步骤1、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure BDA0003862956350000042
步骤2、将步骤1中准备的数据集
Figure BDA0003862956350000043
中的数据/>
Figure BDA0003862956350000044
Figure BDA0003862956350000045
依次输入给模型F,得到模型F对于该数据的logits层的输出向量/>
Figure BDA0003862956350000046
其中/>
Figure BDA0003862956350000047
代表模型F对数据/>
Figure BDA0003862956350000048
为第k类的预测概率,/>
Figure BDA0003862956350000049
代表提前准备的数据集中第i类数据集的第j个数据;
然后对向量
Figure BDA0003862956350000051
做向量和得到用于判断后门的k维向量/>
Figure BDA0003862956350000052
其中rm为向量r的第m爪分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其向量r的计算公式如下:
Figure BDA0003862956350000053
步骤3、给定阈值b,当某一类的logits累计值rm高于b时,则此类受到了模型后门攻击。
本发明还提供了一种基于多元特征交互的模型后门检测装置,包括:
数据集模块、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure BDA0003862956350000054
向量模块、将准备的数据集
Figure BDA0003862956350000055
中的数据/>
Figure BDA0003862956350000056
Figure BDA0003862956350000057
依次输入给模型F,得到模型F的logits层的输出向量/>
Figure BDA0003862956350000058
其中/>
Figure BDA0003862956350000059
代表模型F对数据/>
Figure BDA00038629563500000510
为第k类的预测概率,/>
Figure BDA00038629563500000511
代表提前准备的数据集中第i类数据集的第j个数据;
然后对向量
Figure BDA00038629563500000512
求和得到得到用于判断后门的k维向量r,其中rm为向量r的第m个分量,rm代表所有准备的数据在F模型的logits层上第m类预测结果的logits累计值,其向量r的计算公式如下::
Figure BDA0003862956350000061
/>
判断模块、给定阈值b,当某一类的logits累计值rm高于b时,则此类受到了模型后门攻击。

Claims (3)

1.一种基于多元特征交互的模型后门检测方法,其特征在于,包括以下步骤:
步骤1、对于一个
Figure QLYQS_1
分类模型/>
Figure QLYQS_2
,对于每个类别/>
Figure QLYQS_3
,防御者准备大小为/>
Figure QLYQS_4
的数据集/>
Figure QLYQS_5
步骤2、将步骤1中准备的数据集
Figure QLYQS_7
中的数据
Figure QLYQS_11
依次输入给模型/>
Figure QLYQS_13
,得到模型/>
Figure QLYQS_8
对于该数据的logits层的输出向量/>
Figure QLYQS_10
,其中/>
Figure QLYQS_15
代表模型/>
Figure QLYQS_17
对数据/>
Figure QLYQS_6
为第/>
Figure QLYQS_12
类的预测概率,/>
Figure QLYQS_14
代表提前准备的数据集中第/>
Figure QLYQS_16
类数据集的第/>
Figure QLYQS_9
个数据;
然后对向量
Figure QLYQS_20
按类别计算向量和,然后得到用于判断后门的k维向量/>
Figure QLYQS_22
,其中/>
Figure QLYQS_24
为向量/>
Figure QLYQS_19
的第/>
Figure QLYQS_21
个分量,/>
Figure QLYQS_23
代表所有步骤1准备的数据在/>
Figure QLYQS_26
模型的logits层上第/>
Figure QLYQS_18
类预测结果的logits累计值,其/>
Figure QLYQS_25
的计算公式如下:
Figure QLYQS_27
步骤3、给定阈值
Figure QLYQS_28
,当第m类的logits累计值/>
Figure QLYQS_29
高于/>
Figure QLYQS_30
时,则此类受到了模型后门攻击。
2.一种基于多元特征交互的模型后门检测装置,其特征在于,包括:
数据集模块、对于一个k分类模型
Figure QLYQS_31
,对于每个类别/>
Figure QLYQS_32
,防御者准备大小为/>
Figure QLYQS_33
的数据集/>
Figure QLYQS_34
向量模块、将准备的数据集
Figure QLYQS_38
中的数据/>
Figure QLYQS_41
依次输入给模型/>
Figure QLYQS_44
,得到模型/>
Figure QLYQS_37
的logits层的输出向量/>
Figure QLYQS_40
,其中/>
Figure QLYQS_43
代表模型/>
Figure QLYQS_45
对数据/>
Figure QLYQS_35
为第/>
Figure QLYQS_39
类的预测概率,/>
Figure QLYQS_42
代表提前准备的数据集中第/>
Figure QLYQS_46
类数据集的第/>
Figure QLYQS_36
个数据;/>
然后对向量
Figure QLYQS_48
按类别计算向量和,然后得到用于判断后门的k维向量/>
Figure QLYQS_51
,其中/>
Figure QLYQS_54
为向量/>
Figure QLYQS_49
的第/>
Figure QLYQS_50
个分量,/>
Figure QLYQS_53
代表所有步骤1准备的数据在/>
Figure QLYQS_55
模型的logits层上第/>
Figure QLYQS_47
类预测结果的logits累计值,其/>
Figure QLYQS_52
的计算公式如下:
Figure QLYQS_56
给定阈值
Figure QLYQS_57
,当第m类的logits累计值/>
Figure QLYQS_58
高于/>
Figure QLYQS_59
时,则此类受到了模型后门攻击。
3.一种存储介质,其特征在于,处理器读取所存储介质中的计算机程序,用以执行如权利要求1所述的一种基于多元特征交互的模型后门检测方法。
CN202211178731.6A 2022-09-26 2022-09-26 一种基于多元特征交互的模型后门检测方法、装置及存储介质 Active CN115659171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211178731.6A CN115659171B (zh) 2022-09-26 2022-09-26 一种基于多元特征交互的模型后门检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211178731.6A CN115659171B (zh) 2022-09-26 2022-09-26 一种基于多元特征交互的模型后门检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115659171A CN115659171A (zh) 2023-01-31
CN115659171B true CN115659171B (zh) 2023-06-06

Family

ID=84986320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211178731.6A Active CN115659171B (zh) 2022-09-26 2022-09-26 一种基于多元特征交互的模型后门检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115659171B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340144A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 风险样本检测方法、装置、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8151348B1 (en) * 2004-06-30 2012-04-03 Cisco Technology, Inc. Automatic detection of reverse tunnels
US11704409B2 (en) * 2019-05-29 2023-07-18 Anomalee Inc. Post-training detection and identification of backdoor-poisoning attacks
CN112130004B (zh) * 2020-09-25 2022-07-01 中国工程物理研究院应用电子学研究所 一种电路级高功率微波后门耦合实时测试装置及方法
CN112163638B (zh) * 2020-10-20 2024-02-13 腾讯科技(深圳)有限公司 图像分类模型后门攻击的防御方法、装置、设备及介质
CN112257816B (zh) * 2020-12-07 2021-09-21 北京瑞莱智慧科技有限公司 模型的后门检测方法、装置、介质和计算设备
CN112765607B (zh) * 2021-01-19 2022-05-17 电子科技大学 一种神经网络模型后门攻击检测方法
US11977626B2 (en) * 2021-03-09 2024-05-07 Nec Corporation Securing machine learning models against adversarial samples through backdoor misclassification
CN113297571B (zh) * 2021-05-31 2022-06-07 浙江工业大学 面向图神经网络模型后门攻击的检测方法和装置
CN113962322B (zh) * 2021-11-01 2022-05-17 浙江大学 基于联邦学习的后门攻击防御方法、系统及可存储介质
CN114219011A (zh) * 2021-11-20 2022-03-22 南京理工大学 基于后门不可迁移性的通用后门攻击检测方法
CN114021136A (zh) * 2021-11-26 2022-02-08 上海交通大学 针对人工智能模型的后门攻击防御系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340144A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 风险样本检测方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A technique for detecting new attacks in low-interaction honeypot traffic;S Almotairi 等;《IEEE》;全文 *
基于cusum算法的DDOS攻击检测;刘渊 等;计算机与数字工程(第05期);全文 *

Also Published As

Publication number Publication date
CN115659171A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
Sihwail et al. Improved harris hawks optimization using elite opposition-based learning and novel search mechanism for feature selection
CN111881935B (zh) 一种基于内容感知gan的对抗样本生成方法
CN112766399B (zh) 一种面向图像识别的自适应神经网络训练方法
Yu et al. Enhanced aquila optimizer algorithm for global optimization and constrained engineering problems
CN113204745B (zh) 基于模型剪枝和逆向工程的深度学习后门防御方法
CN113283590B (zh) 一种面向后门攻击的防御方法
Islam et al. A new constructive algorithm for architectural and functional adaptation of artificial neural networks
CN114139155A (zh) 一种恶意软件检测模型及其增强对抗样本的生成方法
CN110807514A (zh) 一种基于lo正则的神经网络剪枝方法
CN112597979B (zh) 一种实时更新余弦夹角损失函数参数的人脸识别方法
CN115659171B (zh) 一种基于多元特征交互的模型后门检测方法、装置及存储介质
CN116484274A (zh) 一种针对神经网络算法投毒攻击的鲁棒训练方法
CN115730316A (zh) 基于经验精确Nesterov动量的提升对抗样本可转移性的方法
Cohen Automated crater detection using machine learning
Tao SQBA: sequential query-based blackbox attack
CN117786682B (zh) 基于增强框架的物理对抗攻击方法、装置、设备及介质
CN113657448B (zh) 一种基于生成对抗网络和梯度解释的对抗样本防御方法
KR102441185B1 (ko) 가중 클러스터 손실을 이용하여 학습하는 전이학습 기반의 얼굴표정 인식 방법 및 얼굴표정 인식 장치
Ma et al. Improving generative adversarial networks with adaptive control learning
Wei et al. A multilevel threshold segmentation technique using self-adaptive Cuckoo search algorithm
CN114757349B (zh) 一种基于条件对抗样本的模型投毒方法及系统
CN110188593B (zh) 提高人脸识别深度网络训练效率和效果的验证集反馈方法
Famili et al. Genetic-based joint dynamic pruning and learning algorithm to boost dnn performance
CN117454969A (zh) 检查图像搜索引擎系统安全性的方法、设备及介质
Venetsky et al. Optimization of background subtraction for image enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant