CN115659171A - 一种基于多元特征交互的模型后门检测方法、装置及存储介质 - Google Patents

一种基于多元特征交互的模型后门检测方法、装置及存储介质 Download PDF

Info

Publication number
CN115659171A
CN115659171A CN202211178731.6A CN202211178731A CN115659171A CN 115659171 A CN115659171 A CN 115659171A CN 202211178731 A CN202211178731 A CN 202211178731A CN 115659171 A CN115659171 A CN 115659171A
Authority
CN
China
Prior art keywords
model
data
vector
data set
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211178731.6A
Other languages
English (en)
Other versions
CN115659171B (zh
Inventor
刘小垒
易鸣
殷明勇
邓凯
胥迤潇
许思博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Original Assignee
COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS filed Critical COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Priority to CN202211178731.6A priority Critical patent/CN115659171B/zh
Publication of CN115659171A publication Critical patent/CN115659171A/zh
Application granted granted Critical
Publication of CN115659171B publication Critical patent/CN115659171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及机器学习安全领域,提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。主旨在于提高模型后门的识别率以及降低检测实现的计算开销。主要方案包括对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure DDA0003862956370000011
将数据集的单个数据
Figure DDA0003862956370000012
输入给模型F,得到模型F的logits层的输出向量
Figure DDA0003862956370000013
然后对向量
Figure DDA0003862956370000014
按类别做向量和得到用于判断后门的k维向量r,其中rm为向量r的第m个分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。

Description

一种基于多元特征交互的模型后门检测方法、装置及存储 介质
技术领域
本发明涉及机器学习安全领域,提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。
背景技术
随着人工智能技术的发展,机器学习被运用在人们工作和生活的各个领域中。由于人工智能需要大量数据和算力的驱动,故很多个人和组织会将机器学习模型的训练任务外包给外部供应商,这就给了攻击者影响模型的机会,模型后门攻击就是一种常见的在模型训练阶段施加影响的攻击技术。
模型后门攻击通过各种手段向模型植入后门,被植入后门的模型在被部署后表现与正常模型一致,但当攻击者通过特定输入激活该模型中的后门时,该模型将按照攻击者的意图行动。早期的后门植入方法主要是通过修改模型的训练数据实现的,随着模型后门攻击技术的发展,后门的隐蔽性不断提高,后门植入的手段也变得多样,一些在模型交付或部署后向模型植入后门的技术被提出。
针对后门攻击的防御手段可被分为两类:一类为基于经验的后门防御,防御者在对攻击原理有一定了解的基础上部署防御措施,在实践中能较好的防御已有的后门攻击方法,但其有效性缺乏理论保证,且无法保证对后续出现的攻击手段的防御;另一类为基于认证的后门防御,此类方法在假定一些前提条件后在理论上证明防御的有效性,但在实践中由于假设通常无法完全满足,导致其有效性低于基于经验的后门防御方法。
发明内容
本发明的目的在于提高模型后门的识别率以及降低检测实现的计算开销。
为了实现上述目的本发明采用以下技术手段:
本发明提供了一种基于多元特征交互的模型后门检测方法,包括以下步骤:
步骤1、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure BDA0003862956350000011
步骤2、将步骤1中准备的数据集
Figure BDA0003862956350000012
中的数据
Figure BDA0003862956350000013
Figure BDA0003862956350000021
依次输入给模型F,得到模型F对于该数据的logits层的输出向量
Figure BDA0003862956350000022
其中
Figure BDA0003862956350000023
代表模型F对数据
Figure BDA0003862956350000024
为第k类的预测概率,
Figure BDA0003862956350000025
代表提前准备的数据集中第i类数据集的第j个数据;
然后对向量
Figure BDA0003862956350000026
按类别做向量和得到用于判断后门的k维向量
Figure BDA0003862956350000027
,其中rm为向量r的第m爪分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其rm的计算公式如下:
Figure BDA0003862956350000028
步骤3、给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
本发明还提供了一种基于多元特征交互的模型后门检测装置,包括:
数据集模块、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure BDA0003862956350000029
向量模块、将准备的数据集
Figure BDA00038629563500000210
中的数据
Figure BDA00038629563500000211
Figure BDA00038629563500000212
依次输入给模型F,得到模型F的logits层的输出向量
Figure BDA00038629563500000213
其中
Figure BDA00038629563500000214
代表模型F对数据
Figure BDA00038629563500000215
为第k类的预测概率,
Figure BDA00038629563500000216
代表提前准备的数据集中第i类数据集的第j个数据;
然后对向量
Figure BDA00038629563500000217
按类别做向量和得到用于判断后门的k维向量
Figure BDA00038629563500000218
,其中rm为向量r的第m个分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其rm的计算公式如下:
Figure BDA0003862956350000031
给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
本发明还提供了一种存储介质,所述存储,处理器读取所存储介质中的计算机程序,用以执行所述的一种基于多元特征交互的模型后门检测方法。
因为本发明采用上述技术方案,因此具备以下有益效果:
一、相比于基于经验的后门防御方法,本发明的迁移性更高:
基于经验的后门防御方法面对未知攻击时的表现较差,准确率低于30%左右。相比之下,由于本发明是一种利用模型特征交互以实现可解释性的后门检测方法,在面对未知后门攻击时也能达到95%以上检测准确率,因此具有更强的迁移性;
二、相比于其他模型后门检测方法,本发明的计算开销更小:
对于常见的图像分类问题,现有的模型后门检测方法引入了额外的优化和训练开销,而本发明提出的检测方法只需对输入图像的logits层输出按类别求和,将结果与阈值进行比较以判断模型是否存在后门,其计算量远小于图像预处理所花费的计算开销。
三、以MNIST数据集为例现有方法对单个MNIST分类模型的检测时间为约300秒,而本方法的检测时间开销小于1秒。
附图说明
图1为本发明流程简图。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
本发明基于以下多元特征交互原理展开对模型后门攻击的防御:
以训练阶段植入后门的后门攻击为例,目标模型为一个以θ为参数的模型,记为Fθ,其输入为图片x。在Fθ的正常训练过程中,其正向传播过程利用从x提取得到的n个特征{f1,f2,...,fn}给出k分类的预测结果,在计算损失后,通过反向传播过程更新θ,在这个前后向传播过程里,特征{fi|i=1,2,...,n}对应于k个分类结果的权重
Figure BDA0003862956350000041
将会迭代更新。随着训练的进行,对某个分类有正向影响的特征的权重将逐渐变大,对应的,有负向影响的特征的权重会逐渐减小。最终,一个训练完毕的模型的参数中会体现出各个特征对各个目标类别的竞争或合作的关系。
当攻击者操控模型的训练数据以在训练过程中向目标模型注入后门时,各个特征的竞争与合作关系相较于正常模型会发生改变。具体而言,当攻击者希望通过后门来实现对目标类别的控制时,模型在训练过程中根据如下三类特征去更新参数:(a)正常训练数据上提取的正常特征;(b)被植入后门数据上提取的后门的特征;(c)被植入后门数据上的其他特征。上述三类特征在模型训练过程中都会对目标类别的预测产生正向影响,可利用这一特点来识别模型中是否存在后门。
本发明提供了一种基于多元特征交互的模型后门检测方法,包括以下步骤:
步骤1、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure BDA0003862956350000042
步骤2、将步骤1中准备的数据集
Figure BDA0003862956350000043
中的数据
Figure BDA0003862956350000044
Figure BDA0003862956350000045
依次输入给模型F,得到模型F对于该数据的logits层的输出向量
Figure BDA0003862956350000046
其中
Figure BDA0003862956350000047
代表模型F对数据
Figure BDA0003862956350000048
为第k类的预测概率,
Figure BDA0003862956350000049
代表提前准备的数据集中第i类数据集的第j个数据;
然后对向量
Figure BDA0003862956350000051
做向量和得到用于判断后门的k维向量
Figure BDA0003862956350000052
其中rm为向量r的第m爪分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其向量r的计算公式如下:
Figure BDA0003862956350000053
步骤3、给定阈值b,当某一类的logits累计值rm高于b时,则此类受到了模型后门攻击。
本发明还提供了一种基于多元特征交互的模型后门检测装置,包括:
数据集模块、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure BDA0003862956350000054
向量模块、将准备的数据集
Figure BDA0003862956350000055
中的数据
Figure BDA0003862956350000056
Figure BDA0003862956350000057
依次输入给模型F,得到模型F的logits层的输出向量
Figure BDA0003862956350000058
其中
Figure BDA0003862956350000059
代表模型F对数据
Figure BDA00038629563500000510
为第k类的预测概率,
Figure BDA00038629563500000511
代表提前准备的数据集中第i类数据集的第j个数据;
然后对向量
Figure BDA00038629563500000512
求和得到得到用于判断后门的k维向量r,其中rm为向量r的第m个分量,rm代表所有准备的数据在F模型的logits层上第m类预测结果的logits累计值,其向量r的计算公式如下::
Figure BDA0003862956350000061
判断模块、给定阈值b,当某一类的logits累计值rm高于b时,则此类受到了模型后门攻击。

Claims (3)

1.一种基于多元特征交互的模型后门检测方法,其特征在于,包括以下步骤:
步骤1、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure FDA0003862956340000011
步骤2、将步骤1中准备的数据集
Figure FDA0003862956340000012
中的数据
Figure FDA0003862956340000013
Figure FDA0003862956340000014
依次输入给模型F,得到模型F对于该数据的logits层的输出向量
Figure FDA0003862956340000015
其中
Figure FDA0003862956340000016
代表模型F对数据
Figure FDA0003862956340000017
为第k类的预测概率,
Figure FDA0003862956340000018
代表提前准备的数据集中第i类数据集的第j个数据;
然后对向量
Figure FDA0003862956340000019
按类别做向量和得到用于判断后门的k维向量
Figure FDA00038629563400000110
,其中rm为向量r的第m个分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其rm的计算公式如下:
Figure FDA00038629563400000111
步骤3、给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
2.一种基于多元特征交互的模型后门检测装置,其特征在于,包括:
数据集模块、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
Figure FDA00038629563400000112
向量模块、将准备的数据集
Figure FDA00038629563400000113
中的数据
Figure FDA00038629563400000114
Figure FDA00038629563400000115
依次输入给模型F,得到模型F的logits层的输出向量
Figure FDA00038629563400000116
其中
Figure FDA0003862956340000021
代表模型F对数据
Figure FDA0003862956340000022
为第k类的预测概率,
Figure FDA0003862956340000023
代表提前准备的数据集中第i类数据集的第j个数据;
然后对向量
Figure FDA0003862956340000024
按类别做向量和得到用于判断后门的k维向量
Figure FDA0003862956340000025
,其中rm为向量r的第m爪分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其rm的计算公式如下:
Figure FDA0003862956340000026
给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
3.一种存储介质,其特征在于,所述存储,处理器读取所存储介质中的计算机程序,用以执行如权利要求1所述的一种基于多元特征交互的模型后门检测方法。
CN202211178731.6A 2022-09-26 2022-09-26 一种基于多元特征交互的模型后门检测方法、装置及存储介质 Active CN115659171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211178731.6A CN115659171B (zh) 2022-09-26 2022-09-26 一种基于多元特征交互的模型后门检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211178731.6A CN115659171B (zh) 2022-09-26 2022-09-26 一种基于多元特征交互的模型后门检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115659171A true CN115659171A (zh) 2023-01-31
CN115659171B CN115659171B (zh) 2023-06-06

Family

ID=84986320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211178731.6A Active CN115659171B (zh) 2022-09-26 2022-09-26 一种基于多元特征交互的模型后门检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115659171B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8151348B1 (en) * 2004-06-30 2012-04-03 Cisco Technology, Inc. Automatic detection of reverse tunnels
CN111340144A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 风险样本检测方法、装置、电子设备及存储介质
CN112130004A (zh) * 2020-09-25 2020-12-25 中国工程物理研究院应用电子学研究所 一种电路级高功率微波后门耦合实时测试装置及方法
CN112163638A (zh) * 2020-10-20 2021-01-01 腾讯科技(深圳)有限公司 图像分类模型后门攻击的防御方法、装置、设备及介质
CN112257816A (zh) * 2020-12-07 2021-01-22 北京瑞莱智慧科技有限公司 模型的后门检测方法、装置、介质和计算设备
CN112765607A (zh) * 2021-01-19 2021-05-07 电子科技大学 一种神经网络模型后门攻击检测方法
US20210256125A1 (en) * 2019-05-29 2021-08-19 Anomalee Inc. Post-Training Detection and Identification of Backdoor-Poisoning Attacks
CN113297571A (zh) * 2021-05-31 2021-08-24 浙江工业大学 面向图神经网络模型后门攻击的检测方法和装置
CN113962322A (zh) * 2021-11-01 2022-01-21 浙江大学 基于联邦学习的后门攻击防御方法、系统及可存储介质
CN114021136A (zh) * 2021-11-26 2022-02-08 上海交通大学 针对人工智能模型的后门攻击防御系统
CN114219011A (zh) * 2021-11-20 2022-03-22 南京理工大学 基于后门不可迁移性的通用后门攻击检测方法
US20220292185A1 (en) * 2021-03-09 2022-09-15 NEC Laboratories Europe GmbH Securing machine learning models against adversarial samples through backdoor misclassification

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8151348B1 (en) * 2004-06-30 2012-04-03 Cisco Technology, Inc. Automatic detection of reverse tunnels
US20210256125A1 (en) * 2019-05-29 2021-08-19 Anomalee Inc. Post-Training Detection and Identification of Backdoor-Poisoning Attacks
CN111340144A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 风险样本检测方法、装置、电子设备及存储介质
CN112130004A (zh) * 2020-09-25 2020-12-25 中国工程物理研究院应用电子学研究所 一种电路级高功率微波后门耦合实时测试装置及方法
CN112163638A (zh) * 2020-10-20 2021-01-01 腾讯科技(深圳)有限公司 图像分类模型后门攻击的防御方法、装置、设备及介质
CN112257816A (zh) * 2020-12-07 2021-01-22 北京瑞莱智慧科技有限公司 模型的后门检测方法、装置、介质和计算设备
CN112765607A (zh) * 2021-01-19 2021-05-07 电子科技大学 一种神经网络模型后门攻击检测方法
US20220292185A1 (en) * 2021-03-09 2022-09-15 NEC Laboratories Europe GmbH Securing machine learning models against adversarial samples through backdoor misclassification
CN113297571A (zh) * 2021-05-31 2021-08-24 浙江工业大学 面向图神经网络模型后门攻击的检测方法和装置
CN113962322A (zh) * 2021-11-01 2022-01-21 浙江大学 基于联邦学习的后门攻击防御方法、系统及可存储介质
CN114219011A (zh) * 2021-11-20 2022-03-22 南京理工大学 基于后门不可迁移性的通用后门攻击检测方法
CN114021136A (zh) * 2021-11-26 2022-02-08 上海交通大学 针对人工智能模型的后门攻击防御系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAVID J.MILLER 等: "Advwesarial Learning Targeting Deep Neural Network Classification:A Comprehensive Review of Defenses Against Attacks", IEEE *
S ALMOTAIRI 等: "A technique for detecting new attacks in low-interaction honeypot traffic", 《IEEE》 *
刘渊 等: "基于cusum算法的DDOS攻击检测", 计算机与数字工程, no. 05 *

Also Published As

Publication number Publication date
CN115659171B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
Sihwail et al. Improved harris hawks optimization using elite opposition-based learning and novel search mechanism for feature selection
CN111881935B (zh) 一种基于内容感知gan的对抗样本生成方法
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
Pare et al. A context sensitive multilevel thresholding using swarm based algorithms
CN112766399B (zh) 一种面向图像识别的自适应神经网络训练方法
Chen et al. Generalisation and domain adaptation in GP with gradient descent for symbolic regression
CN114333021A (zh) 面部识别方法、装置、计算机设备、存储介质
CN109740481A (zh) 基于跳跃连接的cnn与lstm结合的房颤信号分类方法
CN112561054B (zh) 一种基于批量特征热图的神经网络滤波器剪枝方法
CN115659171A (zh) 一种基于多元特征交互的模型后门检测方法、装置及存储介质
Balaji et al. Detection and Classification of Brain tumors Using Deep Convolutional Neural Networks
Balduzzi Deep online convex optimization with gated games
CN116309700A (zh) 一种基于孪生网络的目标跟踪通用鲁棒对抗攻击方法
CN113837253B (zh) 一种单步对抗训练方法、系统、设备、存储介质及产品
Takahashi et al. Face recognition based on separable lattice 2-D HMM with state duration modeling
CN115730316A (zh) 基于经验精确Nesterov动量的提升对抗样本可转移性的方法
Wang et al. Gradient deconfliction-based training for multi-exit architectures
Cohen Automated crater detection using machine learning
Ren Optimal control
CN113902954A (zh) 基于主特征增强的图像中毒防御方法、装置及其应用
CN113239858A (zh) 一种人脸检测模型训练方法及人脸识别方法、终端及存储介质
Huang et al. Band selection based on evolution algorithm and sequential search for hyperspectral classification
Tao SQBA: sequential query-based blackbox attack
Wei et al. A multilevel threshold segmentation technique using self-adaptive Cuckoo search algorithm
CN113657448B (zh) 一种基于生成对抗网络和梯度解释的对抗样本防御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant