CN112989438A - 针对隐私保护神经网络模型的后门攻击的检测与识别方法 - Google Patents

针对隐私保护神经网络模型的后门攻击的检测与识别方法 Download PDF

Info

Publication number
CN112989438A
CN112989438A CN202110190542.XA CN202110190542A CN112989438A CN 112989438 A CN112989438 A CN 112989438A CN 202110190542 A CN202110190542 A CN 202110190542A CN 112989438 A CN112989438 A CN 112989438A
Authority
CN
China
Prior art keywords
mask
matrix
tanh
pattern
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110190542.XA
Other languages
English (en)
Other versions
CN112989438B (zh
Inventor
魏立斐
张蕾
陈聪聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ocean University
Original Assignee
Shanghai Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ocean University filed Critical Shanghai Ocean University
Priority to CN202110190542.XA priority Critical patent/CN112989438B/zh
Publication of CN112989438A publication Critical patent/CN112989438A/zh
Application granted granted Critical
Publication of CN112989438B publication Critical patent/CN112989438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/71Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,所述方法包含以下步骤:步骤(1),产生掩码矩阵和触发器矩阵;步骤(2),设置后门检测相关参数初始状态;步骤(3),构建对抗性输入;步骤(4),进行掩码矩阵和触发器矩阵的优化训练;步骤(5),计算掩码矩阵和触发器矩阵的梯度;步骤(6),重置掩码矩阵和触发器矩阵;步骤(7),触发器逆向工程。本发明使用定点数运算方式在三方环境下进行神经网络模型的训练,得到了保护数据隐私和模型隐私的具有后门的神经网络模型。本发明在四方服务器的环境下能够保护模型参数和数据的隐私并且能够检测模型中是否存在后门以及识别具体被攻击的标签。

Description

针对隐私保护神经网络模型的后门攻击的检测与识别方法
技术领域
本发明涉及密码学以及机器学习(深度学习)技术领域,具体地说,是对隐藏了后门的具有隐私保护性质的神经网络模型进行后门攻击的检测与识别。
背景技术
依托于云计算、物联网、大数据技术的发展,以数据挖掘和深度学习为代表的人工智能技术正在改变人类社会生活,并成为先进科技应用的代表和社会关注的热点。作为引领未来的战略性技术,人工智能技术被世界各国纷纷提升为发展国家竞争力、维护国家安全的重大战略。
机器学习(Machine Learning,ML)是一种实现人工智能的方式,是近些年主要研究的领域。目前,机器学习方案在很多领域都有着成熟的应用,如天气预报、能源勘探、环境监测等领域,通过收集相关数据进行分析学习,可以提高这些工作的准确性。神经网络(Neural Networks,NNs)是一种模仿生物神经网络的结构和功能的数学模型,是目前机器学习常用的模型之一。深度学习(Deep Learning,DL)能够学习样本数据中的规律和表示层次,对声音、图片、视频等数据具有很好的可解释性。而深度神经网络(Deep NeuralNetworks,DNNs)是将神经网络和深度学习相结合的一种机器学习模型,它在我们生活中如自动驾驶、医疗、游戏、机器人等领域都有广泛的应用。然而,蓬勃发展的机器学习技术使数据安全与隐私面临更加严峻的挑战,因为机器学习的更精准模型需要大量的训练数据为支撑。
自2013年斯诺登的“棱镜”事件以来,全球信息泄露规模连年加剧,引起社会的广泛关注。2016年9月,Yahoo被曝出曾被黑客盗取了至少5亿的用户账号信息;2017年,微软Skype软件服务遭受DDOS攻击,导致用户无法通过平台上进行通信;2018年3月,美国《纽约时报》和英国《卫报》均报道:剑桥分析(Cambridge Analytica)数据分析公司在未经用户许可的情况下,盗用了高达5千万Facebook的用户个人资料。2019年,美国网络安全公司UpGuard发现上亿条保存在亚马逊AWS云计算服务器上的Facebook用户信息记录,可被任何人轻易地获取;IBM在未经当事人许可的情况下,从网络图库Flickr上获得了接近100万张照片,借此训练人脸识别程序,并与外部研究人员分享。2020年4月,华盛顿邮报报道视频会议软件Zoom存在的重大安全漏洞:数以万计的私人Zoom视频被上传至公开网页,任何人都可在线围观,很多视频都包含个人可识别信息,甚至是在家里进行的私密谈话。信息泄露的途径主要分为内部人员或第三方合作伙伴泄露,信息系统无法杜绝漏洞,机构本身的防护机制不健全,对数据的重要程度不敏感,以及对安全配置的疏忽大意等。可见,数据隐私的泄露已不单单是满足某些外部人员好奇心所驱使,而是已成为一种重要的商业获利而被广泛关注,其中不乏内外勾结、合谋获取用户的隐私等行为。
由于DNNs模型的权重和偏置不易被人类所理解,所以它具有不易解释性的性质,我们可以将DNNs模型理解为一个内部满了数字的黑匣子。对于这样一个黑匣子,我们无法对其穷举测试,因此模型的预测结果对于未测试的数据可能存在安全风险。2018年,有科研人员提出了一种针对神经网络的攻击方法Trojaning Attack。该方法具有很强的隐蔽性,他们首先对神经网络进行反向处理,生成一个通用的触发器,然后用反向工程的训练数据重新训练模型,从而向模型注入恶意行为。使用该攻击模型,可以造成严重的后果,如在自动驾驶领域可造成交通事故,将任何添加了触发器的人脸都识别为某个特定的人等。
由此可见,机器学习中的安全与隐私问题已经非常严重。因此提出一种既能够保护模型隐私又能够保护模型安全的机器学习方案是刻不容缓的,也是一个很有意义的研究热点。
发明内容
有鉴于此,本发明提供了一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,是针对使用安全多方计算方式训练的隐藏了后门的具有隐私保护性质的神经网络模型进行后门攻击检测与识别的方法。
本发明是通过以下技术方案实现的:
一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,其特征在于,所述方法包含以下步骤:
步骤(1),产生掩码矩阵和触发器矩阵;
步骤(2),设置后门检测相关参数初始状态;
步骤(3),构建对抗性输入;
步骤(4),进行掩码矩阵和触发器矩阵的优化训练;
步骤(5),计算掩码矩阵和触发器矩阵的梯度;
步骤(6),重置掩码矩阵和触发器矩阵;
步骤(7),触发器逆向工程。
进一步,所述步骤(1)产生掩码矩阵和触发器矩阵,辅助服务器P3将随机产生的mask_init和pattern_init计算出mask_tanh和pattern_tanh并秘密发送给三方服务器P0,P1和P2
进一步,所述步骤(2)设置后门检测相关参数初始状态,辅助服务器P3通过权利要求2计算出的mask_tanh和pattern_tanh计算
Figure BDA0002943979660000042
Figure BDA0002943979660000041
mask_upsample=mask_raw,reverse_mask=1-mask_upsample并秘密发送给三方服务器P0,P1和P2
进一步,所述步骤(3)构建对抗性输入,三方服务器P0,P1和P2使用秘密分享的mask_upsample,reverse_mask和pattern_raw本地构建对抗性输入x_adv。对抗性输入的构建公式如公式(1)所示,以上操作都是在三方情况下完成,不会泄漏数据和模型隐私。
进一步,所述步骤(4)进行掩码矩阵和触发器矩阵的优化训练,三方服务器P0,P1和P2利用根据权利要求4构建出来的本地对抗性输入x_adv进行预测,将结果发送给辅助服务器P3交互完成精度和损失值的计算。此过程除了预测结果,不会泄漏任何隐私。
进一步,所述步骤(5)计算掩码矩阵和触发器矩阵的梯度,三方服务器P0,P1和P2和辅助服务器P3根据权利要求5计算出来的损失值交互完成mask_tanh和pattern_tanh的梯度计算。计算过程不会泄漏任何隐私。
进一步,所述步骤(6)重置掩码矩阵和触发器矩阵,辅助服务器P3通过权利要求6计算出的新的mask_tanh和pattern_tanh计算
Figure BDA0002943979660000052
Figure BDA0002943979660000051
mask_upsample=mask_raw,reverse_mask=1-mask_upsample并秘密发送给三方服务器P0,P1和P2
进一步,所述步骤(7)触发器逆向工程,三方服务器P0,P1和P2和辅助服务器P3根据权利要求1-7计算出来的结果优化mask_tanh和pattern_tanh,得到最优的mask_best=mask_raw和pattern_best=pattern_raw。
本发明前文提到的算法仅为核心算法的概括,其中每个算法还包含不同功能的底层函数。本发明基于安全多方计算环境下的隐私保护的神经网络训练方案,设计了一个既能够保护数据及模型参数隐私,又能够检测出模型是否被后门攻击以及具体哪个标签被攻击的后门攻击检测方案。
本发明在半诚实(遵循了协议的执行过程,但是却保存了协议的中间计算结果)敌手环境下,使用定点数运算方式在三方环境下进行神经网络模型的训练,得到了保护数据隐私和模型隐私的具有后门的神经网络模型。本发明使用定点数运算方式,在四方服务器(三方服务器持有模型参数和数据,另一方服务器进行后门检测的辅助计算)的环境下能够保护模型参数和数据的隐私并且能够检测模型中是否存在后门以及识别具体被攻击的标签。
附图说明
为了更清楚地说明本发明技术方案,下面将对技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中关于算法的附图仅仅是本发明算法的核心描述。在附图中:
图1是正常模型和感染模型的空间展示。
图2是本发明在四方服务器下的触发器逆向工程算法。
图3是本发明对触发器逆向工程算法得到的触发器进行异常值分析的异常值检测算法。
图4是本发明多方参与环境中隐私保护的神经网络后门攻击检测方法程序运行示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本发明设计一个在四方环境下运行的后门检测算法,即对一个给定的神经网络模型是否已经被后门感染做出判断。关键是后门攻是不管输入标签是什么,最终的到的都是目标标签A。将分类问题看作是在多维空间中创建分区,每个维度捕获一些特征。那么后门攻击就是从属于标签B、C的空间区域内创建到属于A的空间区域的“捷径”,如附图1所示,其中Δ为从标签B、C误分类为标签A所需要移动的最小修改量。如果神经网络模型存在后门,那么它的Δ值应该比正常的值Δ小很多。
针对以上思路,本发明首先设计在四方环境运行的后门检测算法。该算法在涉及到数据和模型参数时使用安全多方计算的方式在三方服务器下以密文的方式运行,当不涉及数据或者模型参数计算时则在第四方服务器以明文的方式运行。第四方服务器也称为辅助服务器,主要完成后门检测工作的辅助计算,不涉及任何输入数据和模型参数的操作。在我们的方案中,我们假设辅助服务器与三方服务器不会进行合谋。本发明提出的后门检测算法主要由触发器逆向工程算法和异常值检测算法组成,算法流程可参考附图2和附图3。
在附图2中描述的触发器逆向工程算法由构建含有触发器的输入数据(BuildingInput with Trigger)函数和逆向工程(Reverse Engineering)函数组成,在需要进行四方服务器交互的步骤后面使用“
Figure BDA0002943979660000071
密文处理”进行标注。该算法最终生成与标签数量N相同的触发器。针对前一步触发器逆向工程算法获得的N个触发器,附图3所示的异常值检测算法根据这N个触发器计算出该模型是否存在后门,以及判断出的后门攻击的目标标签是什么。其原理是通过对每个目标标签逆向工程其触发器计算其L1范数得到异常标签。
本发明利用安全多方计算技术,参与隐私计算的三方服务器使用复制的秘密共享技术作为数据分发的底层。秘密共享方案是Shamir在1979年提出的,是一种秘密分割技术。Shamir在有限域中用Lagrange插值多项式方程构建了第一个(k,n)门限秘密共享方案,将一个秘密分割成n份,分发给n位不同的参与者,任意少于k位的参与者无法有效的恢复秘密,甚至无法获得有用信息,而当参与者大于等于k位时可恢复出这个秘密。在2018年,Mohassel等人提出了一种复制的秘密共享方案,该方案是基于加法秘密共享的。复制的秘密共享方案的描述如下:秘密x=x1+x2+x3,三方分别拥有(x1,x2),(x2,x3),(x3,x1),显然任意两方可以重构出秘密,且允许一个参与方被被恶意攻击者攻陷,相当于(2,3)门限秘密共享,其中3为参与方的数量,2为可重构秘密的参与方数量。
本实施例在以本发明技术方案为前提下进行实施,结合附图2、附图3和附图4给出了详细的实施方式和具体的操作过程。具体过程,主要包括如下函数:
1.产生掩码矩阵Mask和触发器矩阵Pattern函数Generate_Pattern_Mask;
2.设置后门检测相关参数初始状态函数Reset_State;
3.构建对抗性输入函数Building_Input_with_Trigger;
4.训练函数Train;
5.计算梯度函数Gradients_Mask_Tanh和Gradients_Pattern_Tanh;
6.重新设置掩码矩阵和触发器矩阵的函数Reset_Value;
7.触发器逆向工程函数Reverse_Engineering;
8.异常值检测函数Outlier_Detection。
本发明的实施例实验环境为1台Linux服务器,四方服务器分别使用Linux服务器上的四个进程模拟,运行的版本信息为Ubuntu 16.04.4 LTS。设备参数如下:Intel(R)Xeon(R)Gold 6130 CPU@2.10GHz处理器,256GB内存,64位操作系统。
由于神经网络中存在大量的浮点数操作,而在安全多方计算技术的情况下不能对浮点数很好的进行操作,因此采用定点数运算方式将浮点数转换为定点数进行计算。本发明实施例的定点数精度为11,所有输入值和模型参数由半诚实的三方服务器持有。在不合谋的情况下,除了数据和模型拥有者,其他人无法获得输入数据和模型参数。
本发明实施例的后门攻击方式采用BadNets的方式注入后门,注入的数据集为MNIST,后门攻击的数据大约为数据集大小的10%。BadNets是通过修改训练数据集来注入后门的,即修改部分正常的数据集使它含有指定的触发器及标签。在BadNets的攻击背景下,训练过程将外包给恶意方,恶意方希望向用户提供经过训练的包含后门的DNNs模型。受恶意方训练的模型在大多数输入情况下表现良好,但对于有触发器的输入会产生指定的输出。
下面根据描述附图2、附图3和附图4,结合实施例详细描述每一个函数的实现以及运行步骤。
1.产生掩码矩阵Mask和触发器矩阵Pattern的函数Generate_Pattern_Mask
如附图2中Building_Input_with_Trigger函数所示,掩码矩阵和触发器矩阵是构建含有触发器输入的关键,含有触发器的输入又称对抗性输入。在这里的掩码矩阵和触发器矩阵是理论意义上的,在具体实施时需要进行特殊处理。其中掩码矩阵是一个和输入图像大小相等的2D矩阵maski,j(其中i,j代表第i行第j列的像素点),决定原始输入有多少被触发器覆盖,它的取值范围为(0,1)。而触发器矩阵也是一个与输入大小相等的2D矩阵patterni,j,是触发器图片,它的取值范围为(0,255)。其中⊙是哈达马乘积操作(HadamardProduct Operation),掩码矩阵mask和触发器矩阵pattern共同组成最终的触发器trigger。当maski,j为1时(其中i,j代表第i行第j列的像素点),则表示原图像的第i行第j列像素点值完全被patterni,j的像素点值代替;当maski,j为0时,则代表构建的对抗性输入该像素点完全为原始图像,不添加任何触发器值。
在实施例中Generate_Pattern_Mask函数产生初始的掩码矩阵和触发器矩阵值。该函数首先随机生成与输入图像大小相等的mask_init和pattern_init,然后计算mask_tanh=atanh(mask_init-0.5)×(2-epsilon)和
Figure BDA0002943979660000101
其中atanh是tanh函数的反函数,epsilon是提前选定的一个很小的数。这里的mask_tanh和pattern_tanh相当于初始的掩码矩阵和触发器矩阵。
2.设置后门检测相关参数初始状态的函数Reset_State
如附图2中Reverse_Engineering函数的第一步和附图4第一步描述所示,在进行后门检测时,实施例需要mask_upsample,pattern_raw和reverse_mask。它们是由初始掩码矩阵和触发器矩阵通过计算得来的,用于构建对抗性输入。mask_upsample作用是参与构建对抗性输入和计算掩码矩阵的L1范数(每个元素绝对值相加的和),用于找到最优的掩码矩阵和触发器矩阵;pattern_raw则是用于构建对抗性输入的;reverse_mask的值是1-mask。
在实施例中,Generate_Pattern_Mask函数通过随机数和特定的计算得到初始的mask_tanh和pattern_tanh。而Reset_State函数通过mask_tanh和pattern_tanh计算
Figure BDA0002943979660000111
Figure BDA0002943979660000112
mask_upsample=mask_raw,reverse_mask=1-mask_upsample。在这里,mask_upsample,pattern_raw和reverse_mask相当于前文提到的用于附图2中Building_Input_with_Trigger函数构建对抗性输入的掩码矩阵mask和触发器矩阵pattern的具体形式。
以上两个函数提到的所有过程都在辅助服务器P3完成,在执行完这两个函数后,由辅助服务器P3通过密文的形式发送给三方服务器P0,P1和P2。三方服务器P0,P1和P2接下来利用接收到的mask_upsample,pattern_raw和reverse_mask以及本地的输入数据构建对抗性输入。
3.构建对抗性输入函数Building_Input_with_Trigger
三方服务器P0,P1和P2利用接收到的mask_upsample,pattern_raw和reverse_mask以及干净的本地训练数据集构建对抗性输入。如附图2与附图4描述所示,实施例中对抗性输入的构建公式如公式(1)所示:
x_adv=reverse_mask⊙x_batch+pattern_raw⊙mask_upsample (1),
其中⊙是哈达马乘积操作,x_batch是从输入数据x中选取的batch_size大小的数据。最后Building_Input_with_Trigger得到结果是batch_size大小的对抗性输入x_adv。构建出来的对抗性输入x_adv将用于模型的预测。
注意,以上操作都是三方服务器P0,P1和P2在本地进行的,因此参与计算的所有方都无法获取输入的数据和模型参数。
4.训练函数Train
在实施例中,训练函数Train将前面构造的对抗性输入x_adv用于预测,该对抗性输入和用于预测的模型是由三方服务器分别持有部分值的,因此无法泄漏输入数据隐私。三方服务器P0,P1和P2把预测结果发送给辅助服务器P3计算精度和损失值。为了获得最优的mask_tanh和pattern_tanh,本发明将根据精度和损失值对其进行优化。其理论公式如公式(2)所示:
Figure BDA0002943979660000121
其中,y_target为需要逆向工程的目标标签,ce为交叉熵损失函数,f(·)是进行预测的模型,cost为调节权重,|mask|为掩码矩阵mask的L1范数。为了优化掩码矩阵mask和触发器矩阵pattern,本发明动态的调整cost以获得最大的攻击成功率(即精度)。
5.计算梯度函数Gradients_Mask_Tanh和Gradients_Pattern_Tanh
由于需要优化参数mask_tanh和pattern_tanh,因此计算梯度是必不可少的环节。本发明实施例的损失函数计算公式如公式(3)所示:
loss=loss_ce+loss_reg×cost (3),
其中loss_ce为交叉熵损失值,loss_reg为mask_upsample的L1范数,cost为调节权重。loss_ce由x_adv输入模型的预测值计算得来,而x_adv由mask_upsample,pattern_raw和reverse_mask计算得来,reverse_mask由mask_upsample计算得来,mask_upsample和pattern_raw分别由计算mask_tanh和pattern_tanh得来。因此,为了优化mask_tanh和pattern_tanh,需要对这这一系列值进行求导操作。
Figure BDA0002943979660000131
Figure BDA0002943979660000132
Figure BDA0002943979660000133
Figure BDA0002943979660000134
因为求mask_tanh和pattern_tanh的梯度都涉及到
Figure BDA0002943979660000135
因此需要使用三方服务器训练出来的模型和对抗性输入数据x_adv进行求导。为了不泄露数据和模型隐私,需要三方服务器对模型一步步求导获得
Figure BDA0002943979660000137
的值。
Gradients_Mask_Tanh函数用于计算mask_tanh的梯度,为了求出
Figure BDA0002943979660000136
分步求出
Figure BDA0002943979660000138
Figure BDA0002943979660000139
即可。由前文可知,
Figure BDA0002943979660000141
其中,x_adv_raw是x_adv×255,为Building_Input_with_Trigger函数计算的中间值。由于x_adv_raw是batch_size个输入数据的平均值(在三方情况下秘密计算),所以不会泄漏数据隐私。
Gradients_Pattern_Tanh函数用于计算pattern_tanh的梯度,它的梯度计算公式为
Figure BDA0002943979660000142
其中
Figure BDA0002943979660000145
即可。从以上公式可以看出,该函数不涉及隐私数据的计算。
因此,将最终求出来的梯度用于优化mask_tanh和pattern_tanh时,可以很方便的求出其更新值。本发明实例使用的优化函数是Adam优化函数,它可以快速收敛至最优值。
6.重置掩码矩阵和触发器矩阵的函数Reset_Value
通过Adam优化函数的优化,将获得本轮优化后的mask_tanh和pattern_tanh值。Reset_Value函数根据优化后的mask_tanh和pattern_tanh计算更新的
Figure BDA0002943979660000143
Figure BDA0002943979660000144
mask_upsample=mask_raw,reverse_mask=1-mask_upsample。并将mask_upsample,reverse_mask和pattern_raw发送给三方服务器P0,P1和P2进行下一轮的计算优化。
7.触发器逆向工程函数Reverse_Engineering
Reverse_Engineering函数将以上步骤进行多轮计算优化,并根据终止条件得到最终结果mask_best=mask_raw和pattern_best=pattern_raw。在本发明实施例中,本函数将根据预设定的patience(一般设定为5)值动态调整权重cost,即当patience轮预测精度都达到获未达到设定的精度时,实施例都将动态的调整权重cost。对每个标签进行触发器逆向工程后,都会得到一个针对此目标标签的触发器,即任意添加了该触发器的图片都将被识别为目标标签。
8.异常值检测函数Outlier_Detection
对于触发器逆向工程函数获得的N个触发器,附图3所示的异常值检测算法根据这N个触发器计算出该模型是否存在后门,以及判断出的后门攻击的目标标签是什么。其原理是通过对每个目标标签逆向工程其触发器计算其范数得到异常标签。
为了检测异常值,本发明使用基于中位数绝对偏差(Median AbsoluteDeviation,缩写MAD)技术,其在存在多个异常值的情况下具有弹性。它首先计算所有数据点和中位数之间的绝对偏差MAD;然后将数据点的异常索引定义为数据点的绝对偏差除以MAD。当假设基础分布为正态分布时,将利用一个常数(1.4826)来规范异常指数。异常指数大于2的任何数据点都有>95%的可能性是异常值。本发明将任何异常指数大于2的标签标记为异常值,即被后门感染。
Outlier_Detection函数利用辅助服务器P3本地可以计算出来。最终,三方服务器P0,P1和P2,辅助服务器P3都不知道输入数据和模型参数。但是,辅助服务器P3知道最终的触发器。
以上描述了本发明的基本原理、具体实施步骤和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,其特征在于,所述方法包含以下步骤:
步骤(1),产生掩码矩阵和触发器矩阵;
步骤(2),设置后门检测相关参数初始状态;
步骤(3),构建对抗性输入;
步骤(4),进行掩码矩阵和触发器矩阵的优化训练;
步骤(5),计算掩码矩阵和触发器矩阵的梯度;
步骤(6),重置掩码矩阵和触发器矩阵;
步骤(7),触发器逆向工程。
2.根据权利要求1所述的一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,其特征在于,所述步骤(1)产生掩码矩阵和触发器矩阵,辅助服务器P3将随机产生的mask_init和pattern_init计算出mask_tanh和pattern_tanh并秘密发送给三方服务器P0,P1和P2
3.根据权利要求1所述的一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,其特征在于,所述步骤(2)设置后门检测相关参数初始状态,辅助服务器P3通过权利要求2计算出的mask_tanh和pattern_tanh计算
Figure FDA0002943979650000011
Figure FDA0002943979650000012
mask_upsample=mask_raw,reverse_mask=1-mask_upsample并秘密发送给三方服务器P0,P1和P2
4.根据权利要求1所述的一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,其特征在于,所述步骤(3)构建对抗性输入,三方服务器P0,P1和P2使用秘密分享的mask_upsample,reverse_mask和pattern_raw本地构建对抗性输入x_adv。对抗性输入的构建公式如公式(1)所示,以上操作都是在三方情况下完成,不会泄漏数据和模型隐私。
5.根据权利要求1所述的一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,其特征在于,所述步骤(4)进行掩码矩阵和触发器矩阵的优化训练,三方服务器P0,P1和P2利用根据权利要求4构建出来的本地对抗性输入x_adv进行预测,将结果发送给辅助服务器P3交互完成精度和损失值的计算。此过程除了预测结果,不会泄漏任何隐私。
6.根据权利要求1所述的一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,其特征在于,所述步骤(5)计算掩码矩阵和触发器矩阵的梯度,三方服务器P0,P1和P2和辅助服务器P3根据权利要求5计算出来的损失值交互完成mask_tanh和pattern_tanh的梯度计算。计算过程不会泄漏任何隐私。
7.根据权利要求1所述的一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,其特征在于,所述步骤(6)重置掩码矩阵和触发器矩阵,辅助服务器P3通过权利要求6计算出的新的mask_tanh和pattern_tanh计算
Figure FDA0002943979650000021
Figure FDA0002943979650000022
mask_upsample=mask_raw,reverse_mask=1-mask_upsample并秘密发送给三方服务器P0,P1和P2
8.根据权利要求1所述的一种针对隐私保护神经网络模型的后门攻击的检测与识别方法,其特征在于,所述步骤(7)触发器逆向工程,三方服务器P0,P1和P2和辅助服务器P3根据权利要求1-7计算出来的结果优化mask_tanh和pattern_tanh,得到最优的mask_best=mask_raw和pattern_best=pattern_raw。
CN202110190542.XA 2021-02-18 2021-02-18 针对隐私保护神经网络模型的后门攻击的检测与识别方法 Active CN112989438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110190542.XA CN112989438B (zh) 2021-02-18 2021-02-18 针对隐私保护神经网络模型的后门攻击的检测与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110190542.XA CN112989438B (zh) 2021-02-18 2021-02-18 针对隐私保护神经网络模型的后门攻击的检测与识别方法

Publications (2)

Publication Number Publication Date
CN112989438A true CN112989438A (zh) 2021-06-18
CN112989438B CN112989438B (zh) 2022-10-21

Family

ID=76393543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110190542.XA Active CN112989438B (zh) 2021-02-18 2021-02-18 针对隐私保护神经网络模型的后门攻击的检测与识别方法

Country Status (1)

Country Link
CN (1) CN112989438B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364372A (zh) * 2020-10-27 2021-02-12 重庆大学 一种有监督矩阵补全的隐私保护方法
CN113609482A (zh) * 2021-07-14 2021-11-05 中国科学院信息工程研究所 一种针对图像分类模型的后门检测及修复方法及系统
CN114021121A (zh) * 2021-10-28 2022-02-08 上海海洋大学 一种面向隐私保护神经网络模型的多标签后门攻击检测与识别方法
CN114897161A (zh) * 2022-05-17 2022-08-12 中国信息通信研究院 一种基于掩码的图分类后门攻击防御方法、系统、电子设备及存储介质
CN115130098A (zh) * 2022-06-27 2022-09-30 云南大学 一种针对恶意软件检测深度学习模型的动态后门攻击方法
EP4339835A1 (en) * 2022-09-16 2024-03-20 Irdeto B.V. Machine learning model protection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200050945A1 (en) * 2018-08-07 2020-02-13 International Business Machines Corporation Detecting poisoning attacks on neural networks by activation clustering
CN111242291A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 神经网络后门攻击的检测方法、装置和电子设备
CN111260059A (zh) * 2020-01-23 2020-06-09 复旦大学 视频分析神经网络模型的后门攻击方法
CN111971698A (zh) * 2018-04-16 2020-11-20 国际商业机器公司 在神经网络中使用梯度来检测后门

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111971698A (zh) * 2018-04-16 2020-11-20 国际商业机器公司 在神经网络中使用梯度来检测后门
US20200050945A1 (en) * 2018-08-07 2020-02-13 International Business Machines Corporation Detecting poisoning attacks on neural networks by activation clustering
CN111260059A (zh) * 2020-01-23 2020-06-09 复旦大学 视频分析神经网络模型的后门攻击方法
CN111242291A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 神经网络后门攻击的检测方法、装置和电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364372A (zh) * 2020-10-27 2021-02-12 重庆大学 一种有监督矩阵补全的隐私保护方法
CN113609482A (zh) * 2021-07-14 2021-11-05 中国科学院信息工程研究所 一种针对图像分类模型的后门检测及修复方法及系统
CN113609482B (zh) * 2021-07-14 2023-10-17 中国科学院信息工程研究所 一种针对图像分类模型的后门检测及修复方法及系统
CN114021121A (zh) * 2021-10-28 2022-02-08 上海海洋大学 一种面向隐私保护神经网络模型的多标签后门攻击检测与识别方法
CN114897161A (zh) * 2022-05-17 2022-08-12 中国信息通信研究院 一种基于掩码的图分类后门攻击防御方法、系统、电子设备及存储介质
CN114897161B (zh) * 2022-05-17 2023-02-07 中国信息通信研究院 一种基于掩码的图分类后门攻击防御方法、系统、电子设备及存储介质
CN115130098A (zh) * 2022-06-27 2022-09-30 云南大学 一种针对恶意软件检测深度学习模型的动态后门攻击方法
EP4339835A1 (en) * 2022-09-16 2024-03-20 Irdeto B.V. Machine learning model protection

Also Published As

Publication number Publication date
CN112989438B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN112989438B (zh) 针对隐私保护神经网络模型的后门攻击的检测与识别方法
Li et al. DeepFed: Federated deep learning for intrusion detection in industrial cyber–physical systems
Torky et al. COVID-19 blockchain framework: innovative approach
Kumar et al. A privacy-preserving-based secure framework using blockchain-enabled deep-learning in cooperative intelligent transport system
Wang et al. A privacy-enhanced retrieval technology for the cloud-assisted internet of things
Liu et al. Backdoor attacks and defenses in feature-partitioned collaborative learning
Sayyad Privacy preserving deep learning using secure multiparty computation
Tayyab et al. A comprehensive review on deep learning algorithms: Security and privacy issues
Ali et al. The effect of artificial intelligence on cybersecurity
Chen et al. MP-CLF: An effective Model-Preserving Collaborative deep Learning Framework for mitigating data leakage under the GAN
Naoum et al. An enhancement of the replacement steady state genetic algorithm for intrusion detection
Gangula et al. A comprehence study of DDoS attack detecting algorithm using GRU-BWFA classifier
Tirumala et al. Transpositional neurocryptography using deep learning
Chen et al. DeepGuard: Backdoor Attack Detection and Identification Schemes in Privacy‐Preserving Deep Neural Networks
Shaikh et al. A probabilistic model checking (PMC) approach to solve security issues in digital twin (DT)
WO2022146802A1 (en) Systems and methods for detecting malicious network traffic using multi-domain machine learning
CN112448916B (zh) 一种防止gan模型攻击并保护cdl训练信息的隐私防护方法
Chen et al. Mp-badnet: a backdoor-attack detection and identification protocol among multi-participants in private deep neural networks
CN114021121A (zh) 一种面向隐私保护神经网络模型的多标签后门攻击检测与识别方法
Ishitaki et al. Performance evaluation of a neural network based intrusion detection system for tor networks considering different hidden units
Mehnaz et al. Privacy-preserving multi-party analytics over arbitrarily partitioned data
Mahalle et al. Explainable AI for Human-Centric Ethical IoT Systems
Miao et al. RFed: Robustness-Enhanced Privacy-Preserving Federated Learning Against Poisoning Attack
Nour et al. Optimizing intrusion detection in industrial cyber-physical systems through transfer learning approaches
Xu et al. IB2P: An image-based privacy-preserving blockchain model for financial services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant