CN110458209B - 一种针对集成树分类器的逃避攻击方法及装置 - Google Patents

一种针对集成树分类器的逃避攻击方法及装置 Download PDF

Info

Publication number
CN110458209B
CN110458209B CN201910675171.7A CN201910675171A CN110458209B CN 110458209 B CN110458209 B CN 110458209B CN 201910675171 A CN201910675171 A CN 201910675171A CN 110458209 B CN110458209 B CN 110458209B
Authority
CN
China
Prior art keywords
target
classifier
shortest path
attack
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910675171.7A
Other languages
English (en)
Other versions
CN110458209A (zh
Inventor
张福勇
王艺
李宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN201910675171.7A priority Critical patent/CN110458209B/zh
Publication of CN110458209A publication Critical patent/CN110458209A/zh
Application granted granted Critical
Publication of CN110458209B publication Critical patent/CN110458209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Virology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对集成树分类器的逃避攻击方法及装置,所述方法包括:获取替代数据集和学习模型训练得到替代分类器;根据所述替代分类器,利用最短路径算法以及逃避攻击策略寻找最优修改特征,并对所述原始输入样本的对应特征进行定位和修改,生成试探样本对目标分类器进行试探逃避攻击,直到逃避攻击成功或达到最大修改次数限制。通过实施本发明,能够对集成树分类器(梯度提升树、随机森林等)的黑盒攻击方法进行深入研究,从而为设计鲁棒的集成树分类器提供依据和参考。

Description

一种针对集成树分类器的逃避攻击方法及装置
技术领域
本发明涉及网络安全研究技术领域,尤其是涉及一种针对集成树分类器的逃避攻击方法及装置。
背景技术
随着信息数据的不断增加,机器学习作为一种重要的数据分析工具已成功应用于入侵检测、恶意代码检测、垃圾邮件过滤、恶意网页检测等多个网络安全应用中。机器学习算法,如随机森林,旨在通过训练数据学习预测模型,来区分恶意样本和合法样本。与其他操作环境是静态的应用程序不同,安全相关的任务涉及智能对手,这些对手能够分析基于学习的模型的漏洞,并根据系统输出进行攻击。在这样的对抗环境中,传统的基于学习的分类器在基于安全的应用中易受到逃避攻击。在逃避攻击中,攻击者能够操纵样本以逃避系统检测。例如,在恶意代码检测的应用中,攻击者为了使恶意代码逃避系统的检测,会修改恶意代码中一些典型的恶意语句(即经常在恶意代码中出现的语句而很少在正常代码中出现的语句,恶意代码检测系统通常根据这些语句来检测恶意代码),或者在恶意代码中加入一些正常语句(即频繁出现在正常代码中而很少出现在恶意代码中的语句)。在垃圾邮件过滤中,攻击者可以通过拼写错误或添加正常的单词来伪装他们的电子邮件行为。
在对抗性环境下,要防止攻击者从训练数据和目标模型中推理敏感信息,在训练检测分类器时,就必须考虑到系统应对潜在智能攻击的鲁棒性。对抗机器学习与传统机器学习最大的不同在于设计算法时考虑的是一个博弈模型——即不但要通过学习训练集数据、优化目标函数达到算法性能,还需要预测对手在各阶段可能的攻击策略并提出相应的防守措施。面对新一代基于对抗性机器学习的智能攻击,目前针对机器学习模型的安全保护技术还不成熟。因此,研究对抗环境下机器学习方法的行为和缺陷,对网络安全相关的应用十分重要。
现有针对基于学习的分类模型的漏洞分析主要采用的是基于梯度的攻击方法,这类方法只对具有可微损失函数的模型有效,无法应用于集成树分类模型。目前可用于攻击集成树模型的方法主要有两种。Kantchelian等人提出的基于混合整数线性规划集成树分类器攻击方法只能应用于白盒攻击场景,且算法复杂度高,无法应用于较大的数据集。另外,Cheng等人提出的基于问询的黑盒攻击方法,要求特征值必须是连续的实数值,无法应用于网络安全领域中使用较为广泛的二进制特征,并且此方法不是专门针对集成树分类器设计,攻击效果较差。
综上,在网络安全研究领域中,对于某些集成树分类器(梯度提升树、随机森林等)的黑盒攻击尚未得到有效研究,无法在此方面为设计鲁棒的分类器提供依据和参考。
发明内容
本发明所要解决的技术问题在于,提供了一种针对集成树分类器的逃避攻击方法及装置,以对针对集成树分类器的黑盒攻击方法进行深入研究,从而为设计鲁棒的分类器提供依据和参考。
为了解决上述技术问题,本发明实施例提供了一种针对集成树分类器的逃避攻击方法,包括步骤:
(1)获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;
(2)根据所述替代数据集和所述学习模型进行训练,得到替代分类器;
(3)判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本,执行步骤(4);若是,则结束运行;
(4)利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则执行步骤(3);若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。
进一步地,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:
根据所述替代分类器对输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;
利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;
根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;
对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。
进一步地,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;
所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:
根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;
利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。
进一步地,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;
所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:
对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。
进一步地,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。
为了解决相同的技术问题,本发明还提供了一种针对集成树分类器的逃避攻击装置,包括数据获取模块、替代分类器训练模块、特征修改模块和逃避攻击试探模块;其中,
所述数据获取模块,用于获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;
所述替代分类器训练模块,用于根据所述替代数据集和所述学习模型进行训练,得到替代分类器;
所述特征修改模块,用于判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本;若是,则结束运行;
所述逃避攻击试探模块,用于利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则重复执行特征修改过程;若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。
进一步地,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:
根据所述替代分类器对输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;
利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;
根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;
对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。
进一步地,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;
所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:
根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;
利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。
进一步地,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;
所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:
对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。
进一步地,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。
相比于现有技术,本发明具有如下有益效果:
本发明针对集成树这类不具有可微损失函数的分类模型,从决策树的决策结构入手,找出每个基分类器的决策路径,并从集成树分类器的决策路径集合中分析其能够误导其决策的关键特征,最后通过修改关键决策特征实现攻击。通过实施本发明,能够对集成树分类器(梯度提升树、随机森林等)的黑盒攻击方法进行深入研究,从而为设计鲁棒的集成树分类器提供依据和参考。
附图说明
图1是本发明一实施例提供的针对集成树分类器的逃避攻击方法的流程示意图;
图2是本发明一实施例提供的集成树分类器结构示意图;
图3是本发明一实施例提供的集成分类器中的第一类决策树的结构示意图;
图4是本发明一实施例提供的集成分类器中的第二类决策树的结构示意图;
图5是本发明一实施例提供的逃避攻击流程及模型示意图;
图6是本发明一实施例提供的针对集成树分类器的逃避攻击装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明实施例提供了一种针对集成树分类器的逃避攻击方法,包括步骤:
(1)获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;
(2)根据所述替代数据集和所述学习模型进行训练,得到替代分类器;
(3)判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本,执行步骤(4);若是,则结束运行;
(4)利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则执行步骤(3);若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。
目前,现有针对基于学习的分类模型的漏洞分析主要采用的是基于梯度的攻击方法,这类方法只对具有可微损失函数的模型有效,无法应用于集成树分类模型。目前可用于攻击集成树模型的方法主要有两种。Kantchelian等人提出的基于混合整数线性规划集成树分类器攻击方法只能应用于白盒攻击场景,且算法复杂度高,无法应用于较大的数据集。Cheng等人提出的基于问询的黑盒攻击方法,要求特征值必须是连续的实数值,无法应用于网络安全领域中使用较为广泛的二进制特征,并且此方法不是专门针对集成树分类器设计,攻击效果较差。
本发明针对集成树这类不具有可微损失函数的分类模型,从决策树的决策结构入手,找出每个基分类器的决策路径,从集成树分类器的决策路径集合中分析其能够误导其决策的关键特征,最后通过修改关键决策特征实现攻击,其中,关键的问题在于如何从决策路径集合中找出关键决策特征。本发明从集成树分类器基于投票的集成策略入手,从集成树分类器中找出能改变(或误导)多数基分类器决策值的关键特征,本方法在每一次循环流程中找出一个关键决策特征,并修改输入样本的相应特征数据,生成攻击样本,如果不能攻击成功,就在此基础上找下一个关键特征,直到攻击成功,或达到最大修改特征数。
可以理解的是,在逃避攻击中,攻击者的目的是通过估计目标模型的决策边界,操纵输入样本来误导目标模型的决策。假设对输入样本x,目标模型的输出为c(x),攻击策略是通过最少限度地修改x,找到一个样本x'使c(x')≠c(x)。假设d(x,x')是描述修改量的距离函数。逃避攻击问题可以描述为:
A(x)=arg minx' d(x,x'),s.t.c(x')≠c(x)(一)
其中,x为输入样本,为c(x)为分类模型对x的输出类别,样本x'为攻击样本。函数(一)的含义为通过最少限度地修改x,达到改变输出类别(即攻击)的目的。
为了进行逃避攻击,攻击者需要对目标系统有一定的了解。对目标系统的知识可以分为四个层次:1)训练数据D;2)特征空间X;3)学习算法F;4)目标模型参数w。攻击者关于目标系统的知识可以用θ=(D,X,F,w)来表示。我们可以根据攻击者的知识层次分为两类攻击场景:
白盒攻击:在这个场景中,假定攻击者知道目标系统的全部知识,即θ=(D,X,F,w),这时攻击者可以用最少的代价实现逃避攻击。在实践中,攻击者不太可能拥有全部的知识。不过,这个场景可以用来评估基于学习的分类器在最坏情况下的安全性。
黑盒攻击:该场景假设攻击者对目标系统有一定的了解。这里我们假设攻击者知道学习算法F和特征空间X,但不知道训练数据D和目标模型参数w。然而,攻击者可以通过网络或其它来源收集一个替代数据集D',并用这个数据集估计目标模型参数w'。当然,攻击者也有可能获得原始训练集的子集。在这种情况下,攻击者拥有的知识可以定义为θ'=(D',X,F,w')。
如图2所示的集成树分类器f:Rn→R是由多颗决策树组成的集合
Figure BDA0002142001170000091
在不失通用性的情况下,假设决策树
Figure BDA0002142001170000092
是一颗二叉树,其中每个具有谓词逻辑的内部节点n∈Ti.nodes。如果谓词的结果为true,则输出边指向其左孩子n.leftchild,否则,输出边指向它的右孩子n.rightchild。每个叶子结点l∈Ti.leaves拥有一个类别值l.class∈R。对于一个给定的样本x∈Rn,决策树Ti的决策路径是从根结点到其中一个叶子结点的路径。Ti对样本x的分类结果Ti.class为分类路径上叶子结点的值l.class。集成树的决策值f(x)是所有决策树多数投票的结果。
本发明实施例主要针对基于二进制特征的二叉分类树,作为举例,某个二叉分类树参数如下:R∈{-1,1},xi∈{0,1}。假设分类器对输入样本x的分类结果f(x)=1,我们的攻击目标是找到样本x',使得f(x')=-1,并且能够最小化d(x,x')。当特征值为二进制值时,d(·,·)对应于L0范数或汉明距离,表示特征只能从初始样本x添加(从0到1),或删除(从1到0)。
根据多数投票策略,如果我们想使得f(x')=-1,那么集合中超过一半决策树的决策值应为-1。攻击算法的基本思想是修改最少数量的特征,使超过一半的树得到-1的决策值。另外,我们有两个发现,一是对于具有二进制特征的决策树,在从根结点到叶子结点的决策路径中,没有特征会分裂两次;二是对于具有二进制特征的决策树,如果想要改变决策类别,分类路径中的某个特征必须首先被修改。这两个发现对于寻找能够误导集成树分类器决策的关键特征至关重要。
在本发明实施例中,进一步地,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:
根据所述替代分类器对输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;在本发明实施例中,分类器对输入样本进行分类得到的分类结果类型为f(x)=1,那么,本步骤需要确定的目标分类结果类型为f(x')=-1。
利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;
根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;
对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。
在本发明实施例中,进一步地,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;
所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:
根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;
利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。
在本发明实施例中,进一步地,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;
所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:
对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。
在本发明实施例中,进一步地,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。
下面采用一个集成树分类器的例子来解释我们的模型。假设一个集成树分类器由图3和图4所示的决策树T1,T2和T3组成,而x=[x0...x9]=1100101100是一个10维的样本。深色结点显示了三棵树对样本x的分类路径,且T1.class=1,T2.class=1,T3.class=-1。在本实施例中,由于多数决策树的分类结果类型为1,那么可以确定目标分类结果类型为-1,因此,将T1、T2划分为第一类决策树,将T3划分为第二类决策树。
从T1的分类路径可以看到,如果我们想使得T1.class=-1,首先必须修改分类路径中的某个特征。在本实施例中,可以修改特征是x2,x4,x7。其次我们需要知道依次修改哪些特征才能使d(x,x')最小化。为了实现这个目标,首先要考虑的是修改尽可能少的特征使尽可能多的当前决策值为1的树(第一类决策树)的决策值变为-1。对一颗当前决策值为1的树,我们需要找到这棵树的分类路径中的每个内部节点到值为-1的叶子结点的最短路径。首先,我们列出从分类路径中的每个内部节点到值为-1的叶子结点的所有路径,并且这些路径中不包含分类路径上其它的内部结点。这些路径是树中节点的路径,我们称之为树的路径。但是,树的路径中的特征并不意味着它们需要修改。然后,根据输入样本x确定哪些特征是需要修改的,得到一个需要修改的特征路径集合。最后,我们列出要将该树决策类别变为-1需要修改特征的最短路径(第一类目标最短路径)。具体流程详见算法1。对于本例子中的决策值为1的树T1和T2,其最短路径的生成过程如式(二)和式(三)所示。
算法1.最短路径算法.
输入:
Figure BDA0002142001170000121
集成树分类器,x:输入样本.
输出:P:最短路径集合.
FOR
Figure BDA0002142001170000122
列出该树分类路径上的所有内部结点Ti.innodes
FOR每一个n∈Ti.innodes DO
IF n.leftchild∈Ti.innodes or n.leftchild=1 THEN
列出从n经过n.rightchild到值-1的叶子的所有路径
ELSEIF n.rightchild∈Ti.innodes or n.rightchild=1 THEN
列出从n经过n.leftchild到值-1的叶子的所有路径
ENDIF
ENDFOR
用样本x找到需要修改的路径PMi
Pi←列出PMi中的最短路径
ENDFOR
RETURN:P
本发明实施例中第一类目标最短路径的生成过程如下:
Figure BDA0002142001170000131
Figure BDA0002142001170000132
在本例子中,特征x2在T2需要修改的路径中作为首个特征出现了两次(P21和P22),且这两条路径均为最短路径。对于当某个特征作为最短路径中的第一个特征出现多次时,我们随机选择其中一个。在式(三)的例子中,可以选择路径P21作为T2的最短路径。因此,
Figure BDA0002142001170000133
的树中使决策值从1变为-1的最短路径集合(第一目标最短路径集合)如式(四)所示。
Figure BDA0002142001170000141
因为集成分类器中有多棵决策树,每棵树都有多条最短路径。我们需要找出每次修改哪个特性是最优的,以便让更多的树得到-1的决策值。我们为最短路径集合P中的每个特征分配权值,并选择权值最大的特征作为每次最优修改特征。权值的分配规则可以是对于一条最短路径中的第n个特征分配权值1/10n-1,需要说明的是实际应用中不仅限于此分配规则。对于式(四)的最短路径集合中的四条路径,按照上述分配规则,前两条路径中的特征x2和x7分别赋权值1(x2和x7在所在路径中的位置次序为1,因此权值为1/101-1=1),第三条路径中的特征x2赋权值1,x1的赋权值0.1,第四条路径中的特征x3赋权值1,x8赋权值为0.1。
虽然,通过以上的流程可以在第一目标最短路径集合中找出最优的修改特征,使得集成树中尽可能多的树的决策值从1变为-1。但以上流程只考虑了当前决策值为1的树,而集成树中还可能存在当前决策值为-1的树。选择最优修改特征时应当考虑当前决策值为-1的树是否有可能因为特征的修改而使得决策值变为1。因此,我们将当前决策值为-1的树中可能导致决策值变为1的路径列到集合P'(第二目标最短路径集合)中。对于本实施例中决策值为-1的树T3可能由于特征修改决策值变为1的路径集合如式(五)所示。
本发明实施例中第二类目标最短路径的生成过程如下:
Figure BDA0002142001170000142
如式(五)所示,考虑到路径中多于一个特征时改变某个特征不会直接导致决策值的改变,因此,针对决策值从-1变为1的路径集合,我们只考虑修改一个特征便能导致决策值改变的情况,并给这个特征赋权值-1。对式(五)的例子,特征x3赋权值-1。将集合P和P'中所有的相同特征的权值加和后,通过比较得到权值最大的特征为x2,其权值和为2。
找到本次最优的修改特征x2之后,需要修改输入样本x的对应特征。由于特征被修改后会导致随机森林中多棵树的分类路径发生改变,因此,需要重新计算集合P和P',并根据新集合中路径的情况选择下一个最优特征,直到逃避检测或达到最大修改限制(“逃避检测”即说明攻击成功,“达到最大修改限制”意味着达到最大修改次数时未攻击成功)。该逃避检测模型的具体流程见算法2。其中用到的符号Pijk指的是第i颗决策值为1的树的最短路径集合中的第j条路径的第k个特征;Pijk.weight指的是Pijk的权值。
算法2.攻击方法.
输入:
Figure BDA0002142001170000151
集成树分类器,x:输入样本,mmax:最大修改特征数.
输出:攻击样本x'.
用最短路径算法得到
Figure BDA0002142001170000152
对x的最短路径集合P和集合P'
m←0
WHILE
Figure BDA0002142001170000153
FOR每个特征PijkDO
Figure BDA0002142001170000154
ENDFOR
为P'中长度为1的路径中的唯一特征赋权值-1
相同特征的权值加和并找到权值最大的特征xw
x'←修改样本的对应特征xw
m←m+1
IF f(x')=-1
RETURN:x'
ELSE
重新计算集合P和集合P'
ENDIF
ENDWHILE
请参见图5,为了更直观说明本发明的主要工作原理,在本发明实施例中,我们假设攻击者知道学习模型f和与训练数据具有一致分布的替代数据集D'。首先,攻击者需要基于自己的知识训练一个替代的集成树模型。其次,采用逃避攻击方法对输入样本x的关键特征进行定位并修改。最后,利用修改后的样本x'攻击目标分类器。
需要说明的是,通过实施本发明实施例获得成功进行逃避攻击的攻击样本(对抗样本)后,在决策树的训练过程中,通过将对抗样本加入到训练数据集中,可以显著提高提升决策树的安全性。
集成树模型(包括随机森林,梯度提升树等)是一种常用的分类模型,因为它易于使用并能显著提高分类准确率。本发明实施例提出了一种新的针对集成树分类器的逃避攻击方法,来研究其对抗逃避攻击的安全性。
与现有技术的其他方法相比,本发明通过最短路径算法找出可以改变集成树分类器决策值的最少特征。本方案中寻找一个修改特征的时间复杂度为
Figure BDA0002142001170000161
而Kantchelian的方法完成同样任务的时间复杂度为
Figure BDA0002142001170000162
表1给出了本发明与Kantchelian方法和Cheng的方法的比较。
表1 三种方法比较
方法 算法效率 支持二进制特征 黑盒攻击
本发明
Kantchelian的方法
Cheng的方法
可以理解的是,在实际应用中,我们同时采用白盒攻击和黑盒攻击两种方式评估集成树分类器对抗逃避攻击的安全性。对于白盒攻击,我们假设攻击者拥有跟目标系统相同的知识。对于黑盒攻击(本发明实施例),我们根据攻击者掌握的训练数据的程度考虑两种攻击场景,第一个攻击场景称为训练子集场景,该场景假设攻击者知道原始训练数据的子集,第二个场景称为替代数据场景,该场景假设攻击者不知道原始的训练数据,但是能够通过网络或其它方式收集到与原始训练数据同分布的替代数据集。在这两个攻击场景中,可以将攻击者掌握的数据划分比例20%、50%、80%、100%,来评估攻击者掌握不同数据量的情况下分类器的安全性。分类器安全性的评价采用攻击难度(Hardness of evasion)和逃避率(Evasion rate)两种评价标准。
本发明针对集成树这类不具有可微损失函数的分类模型,从决策树的决策结构入手,找出每个基分类器的决策路径,并从集成树分类器的决策路径集合中分析其能够误导其决策的关键特征,最后通过修改关键决策特征实现攻击。通过实施本发明实施例,能够对针对应用广泛的基于二进制特征的集成树分类器(梯度提升树、随机森林等)的黑盒攻击方法进行深入研究,从而为设计鲁棒的分类器提供依据和参考。
需要说明的是,对于以上方法或流程实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本发明实施例所必须的。
请参见图6,为了解决相同的技术问题,本发明还提供了一种针对集成树分类器的逃避攻击装置,包括数据获取模块1、替代分类器训练模块2、特征修改模块3和逃避攻击试探模块4;其中,
所述数据获取模块1,用于获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;
所述替代分类器训练模块2,用于根据所述替代数据集和所述学习模型进行训练,得到替代分类器;
所述特征修改模块3,用于判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本;若是,则结束运行;
所述逃避攻击试探模块4,用于利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则重复执行特征修改过程;若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。
进一步地,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:
根据所述替代分类器对输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;
利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;
根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;
对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。
进一步地,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;
所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:
根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;
利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。
进一步地,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;
所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:
对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。
进一步地,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。
可以理解的是,上述系统项实施例是与本发明方法项实施例相对应的,本发明提供的一种针对集成树分类器的逃避攻击装置,可以实现本发明任意一项方法项实施例所提供的针对集成树分类器的逃避攻击方法。
相比于现有技术,本发明具有如下有益效果:
本发明针对集成树这类不具有可微损失函数的分类模型,从决策树的决策结构入手,找出每个基分类器的决策路径,并从集成树分类器的决策路径集合中分析其能够误导其决策的关键特征,最后通过修改关键决策特征实现攻击。通过实施本发明实施例,能够对针对应用广泛的基于二进制特征的集成树分类器(梯度提升树、随机森林等)的黑盒攻击方法进行深入研究,从而为设计鲁棒的分类器提供依据和参考。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种针对集成树分类器的逃避攻击方法,其特征在于,包括步骤:
(1)获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;
(2)根据所述替代数据集和所述学习模型进行训练,得到替代分类器;
(3)判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本,执行步骤(4);若是,则结束运行;
(4)利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则执行步骤(3);若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。
2.如权利要求1所述的针对集成树分类器的逃避攻击方法,其特征在于,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:
根据所述替代分类器对原始输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;
利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;
根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;
对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。
3.如权利要求2所述的针对集成树分类器的逃避攻击方法,其特征在于,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;
所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:
根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;
利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。
4.如权利要求3所述的针对集成树分类器的逃避攻击方法,其特征在于,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;
所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:
对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。
5.如权利要求4所述的针对集成树分类器的逃避攻击方法,其特征在于,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。
6.一种针对集成树分类器的逃避攻击装置,其特征在于,包括数据获取模块、替代分类器训练模块、特征修改模块和逃避攻击试探模块;其中,
所述数据获取模块,用于获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;
所述替代分类器训练模块,用于根据所述替代数据集和所述学习模型进行训练,得到替代分类器;
所述特征修改模块,用于判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本;若是,则结束运行;
所述逃避攻击试探模块,用于利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则重复执行特征修改过程;若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。
7.如权利要求6所述的针对集成树分类器的逃避攻击装置,其特征在于,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:
根据所述替代分类器对原始输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;
利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;
根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;
对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。
8.如权利要求7所述的针对集成树分类器的逃避攻击装置,其特征在于,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;
所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:
根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;
利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。
9.如权利要求8所述的针对集成树分类器的逃避攻击装置,其特征在于,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;
所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:
对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。
10.如权利要求9所述的针对集成树分类器的逃避攻击装置,其特征在于,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。
CN201910675171.7A 2019-07-24 2019-07-24 一种针对集成树分类器的逃避攻击方法及装置 Active CN110458209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910675171.7A CN110458209B (zh) 2019-07-24 2019-07-24 一种针对集成树分类器的逃避攻击方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910675171.7A CN110458209B (zh) 2019-07-24 2019-07-24 一种针对集成树分类器的逃避攻击方法及装置

Publications (2)

Publication Number Publication Date
CN110458209A CN110458209A (zh) 2019-11-15
CN110458209B true CN110458209B (zh) 2021-12-28

Family

ID=68483477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910675171.7A Active CN110458209B (zh) 2019-07-24 2019-07-24 一种针对集成树分类器的逃避攻击方法及装置

Country Status (1)

Country Link
CN (1) CN110458209B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11748668B2 (en) * 2020-07-08 2023-09-05 Vmware, Inc. Internal load balancer for tree-based ensemble classifiers
CN115277065B (zh) * 2022-06-15 2024-01-23 北京信息科技大学 一种物联网异常流量检测中的对抗攻击方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105978898A (zh) * 2016-06-28 2016-09-28 南京南瑞继保电气有限公司 一种变电站监控系统网络安全威胁评估方法及系统
CN108111539A (zh) * 2018-01-29 2018-06-01 华北电力大学 基于贝叶斯分类器的网络逃避行为检测算法
CN108764267A (zh) * 2018-04-02 2018-11-06 上海大学 一种基于对抗式决策树集成的拒绝服务攻击检测方法
CN109257160A (zh) * 2018-12-05 2019-01-22 电子科技大学 一种基于决策树的侧信道模板攻击方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10193906B2 (en) * 2015-12-09 2019-01-29 Checkpoint Software Technologies Ltd. Method and system for detecting and remediating polymorphic attacks across an enterprise
US10733530B2 (en) * 2016-12-08 2020-08-04 Resurgo, Llc Machine learning model evaluation in cyber defense

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105978898A (zh) * 2016-06-28 2016-09-28 南京南瑞继保电气有限公司 一种变电站监控系统网络安全威胁评估方法及系统
CN108111539A (zh) * 2018-01-29 2018-06-01 华北电力大学 基于贝叶斯分类器的网络逃避行为检测算法
CN108764267A (zh) * 2018-04-02 2018-11-06 上海大学 一种基于对抗式决策树集成的拒绝服务攻击检测方法
CN109257160A (zh) * 2018-12-05 2019-01-22 电子科技大学 一种基于决策树的侧信道模板攻击方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Adversarial Feature Selection Against Evasion Attacks;Fei Zhang等;《IEEE Transactions on Cybernetics》;20160331;第46卷(第3期);第766-777页 *
Complex-based optimization strategy for evasion attack;Shu Li等;《2017 12th International Conference on Intelligent Systems and Knowledge Engineering (ISKE)》;20180115;第1-6页 *
Evasion and causative attacks with adversarial deep learning;Yi Shi等;《2017 IEEE Military Communications Conference (MILCOM)》;20171211;第243-248页 *
机器学习系统面临的安全攻击及其防御技术研究;于颖超等;《信息网络安全》;20181231;第18卷(第9期);第10-18页 *
网络化系统拒绝服务攻击对抗式检测方法研究;董彦伯等;《仪器仪表学报》;20180531;第39卷(第5期);第205-213页 *

Also Published As

Publication number Publication date
CN110458209A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN112738015B (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
De Souza et al. Two-step ensemble approach for intrusion detection and identification in IoT and fog computing environments
Popoola et al. Efficient Feature Selection Technique for Network Intrusion Detection System Using Discrete Differential Evolution and Decision.
Yamauchi et al. Anomaly detection for smart home based on user behavior
CN110458209B (zh) 一种针对集成树分类器的逃避攻击方法及装置
Jain et al. A comparative study of hidden markov model and support vector machine in anomaly intrusion detection
Singh et al. An efficient approach for intrusion detection in reduced features of KDD99 using ID3 and classification with KNNGA
Bachl et al. Walling up backdoors in intrusion detection systems
Ahmed Thwarting dos attacks: A framework for detection based on collective anomalies and clustering
WO2021012220A1 (zh) 一种针对集成树分类器的逃避攻击方法及装置
CN110598794A (zh) 一种分类对抗的网络攻击检测方法及系统
Ensafi et al. Optimizing fuzzy k-means for network anomaly detection using pso
Reddy et al. A hybrid neural network architecture for early detection of DDOS attacks using deep learning models
Bae et al. A novel anomaly-network intrusion detection system using ABC algorithms
Kaushik et al. Multi-class SVM based network intrusion detection with attribute selection using infinite feature selection technique
Kaur et al. P2ADF: a privacy-preserving attack detection framework in fog-IoT environment
Sharma et al. Recent trend in Intrusion detection using Fuzzy-Genetic algorithm
Debicha et al. Review on the feasibility of adversarial evasion attacks and defenses for network intrusion detection systems
Htwe et al. Malware Attack Detection using Machine Learning Methods for IoT Smart Devices
Tungjaturasopon et al. Performance analysis of machine learning techniques in intrusion detection
Mehta et al. Threat prediction using ensemble learning algorithm to provide end-point security
Ferdous et al. Enhancing Cybersecurity: Machine Learning Approaches for Predicting DDoS Attack
Li et al. Bebp: an poisoning method against machine learning based idss
Govindaraju et al. Detection of DDoS attacks using artificial gorilla troops optimizer based deep learning model
Ozdogan A Comprehensive Analysis of the Machine Learning Algorithms in IoT IDS Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant