CN114925765A - 对抗性集成分类模型的构建方法、装置、设备及存储介质 - Google Patents

对抗性集成分类模型的构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114925765A
CN114925765A CN202210568117.4A CN202210568117A CN114925765A CN 114925765 A CN114925765 A CN 114925765A CN 202210568117 A CN202210568117 A CN 202210568117A CN 114925765 A CN114925765 A CN 114925765A
Authority
CN
China
Prior art keywords
sample
trained
classifier
classification model
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210568117.4A
Other languages
English (en)
Inventor
张福勇
王天健
王艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202210568117.4A priority Critical patent/CN114925765A/zh
Publication of CN114925765A publication Critical patent/CN114925765A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对抗性集成分类模型的构建方法、装置、设备及存储介质,该方法包括:获取训练数据集;其中,训练数据集包含多个待训练样本和每个待训练样本对应的分类标签,且每个待训练样本包含多个特征;对每个待训练样本进行特征选择,得到特征向量集合;通过特征向量集合对预先构建的多个分类器进行训练,得到多个基分类器;通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合;每当接收到待检测样本时,从所述分类器集合中随机选择预设数量的基分类器进行集成,得到目标集成分类模型。采用本发明能够使攻击者难以学习到真实的决策边界,以提高集成分类模型的鲁棒性和分类检测精度。

Description

对抗性集成分类模型的构建方法、装置、设备及存储介质
技术领域
本发明涉及网络安全研究技术领域,尤其涉及一种对抗性集成分类模型的构建方法、装置、终端设备及计算机可读存储介质。
背景技术
随着世界范围数据数量的急剧增加,机器学习已被广泛应用于交通、视觉、金融、安全等多个领域,以区分恶意样本和良性样本。但是,现有的基于机器学习的分类器容易受到对抗样本的逃避攻击,即,攻击者可以通过添加不可察觉的扰动来改变恶意样本的特征值,以迫使分类器将恶意样本归类为良性样本,从而对相关系统造成恶劣的影响和后果。
近年来,研究人员开始尝试通过集成学习的方式来解决对抗样本攻击带来的安全隐患,以使攻击者难以制造对抗样本来攻击目标分类模型。但是,传统的集成分类模型的学习过程使攻击者能够使用少量训练数据学习到目标分类模型真实的决策边界,从而制造有针对性的对抗样本,以逃避目标分类模型的检测,造成目标分类模型的分类精度较低。
发明内容
本发明提供一种对抗性集成分类模型的构建方法、装置、终端设备以及计算机可读存储介质,能够使攻击者难以学习到真实的决策边界,以提高集成分类模型的鲁棒性和分类检测精度。
本发明实施例提供了一种对抗性集成分类模型的构建方法,包括:
获取训练数据集;其中,所述训练数据集包含多个待训练样本和每个所述待训练样本对应的分类标签,且每个所述待训练样本包含多个特征;
对每个所述待训练样本进行特征选择,得到特征向量集合;
通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合;
每当接收到待检测样本时,从所述分类器集合中随机选择预设数量的基分类器进行集成,得到目标集成分类模型。
作为上述方案的改进,所述对每个所述待训练样本的特征向量进行特征选择,得到特征向量集合,具体为:
基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合。
作为上述方案的改进,所述基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合,具体为:
根据以下公式对每个所述待训练样本进行特征选择,得到每个所述待训练样本对应的特征向量,以构成特征向量集合:
Figure BDA0003659089770000021
其中,k=1,2,…,N,N为待训练样本中包含的特征数量,k*为待训练样本中第k个被选中的特征,
Figure BDA0003659089770000022
为待训练样本中任意选择的k个特征的映射,G为没有攻击的情况下预设分类器的泛化能力,S为存在攻击的情况下预设分类器的安全性,λ为权衡参数。
作为上述方案的改进,所述没有攻击的情况下预设分类器的泛化能力G通过以下公式计算得到:
Figure BDA0003659089770000023
其中,n为训练数据集中待训练样本的数量,
Figure BDA0003659089770000024
为训练数据集的第i个待训练样本中任意选择的k个特征的映射,yi为训练数据集的第i个待训练样本的分类标签,l(·,·)为预设的分类函数,g(·)为预设分类器g的判别函数。
作为上述方案的改进,所述存在攻击的情况下预设分类器的安全性S通过以下公式计算得到:
Figure BDA0003659089770000031
其中,n+为训练数据集中的恶意样本数量,d(·,·)为距离函数,
Figure BDA0003659089770000032
为训练数据集的第j个恶意样本中任意选择的k个特征的映射,
Figure BDA0003659089770000033
为第j个恶意样本对应的攻击样本中任意选择的k个特征的映射。
作为上述方案的改进,所述通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合,具体为:
通过所述特征向量集合中的第i个特征向量,对第i个预先构建的分类器进行训练,得到第i个基分类器;
将所有训练得到的所述基分类器,构成分类器集合;其中,所述基分类器的数量与所述特征向量集合中包含的特征向量数量相同。
相应地,本发明另一实施例提供一种对抗性集成分类模型的构建装置,包括:
数据获取模块,用于获取训练数据集;其中,所述训练数据集包含多个待训练样本和每个所述待训练样本对应的分类标签,且每个所述待训练样本包含多个特征;
特征选择模块,用于对每个所述待训练样本进行特征选择,得到特征向量集合;
分类器训练模块,用于通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合;
集成分类模块,用于每当接收到待检测样本时,从所述分类器集合中随机选择预设数量的基分类器进行集成,得到目标集成分类模型。
作为上述方案的改进,所述特征选择模块,具体用于:
基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合。
本发明另一实施例提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的对抗性集成分类模型的构建方法。
本发明另一实施例提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的对抗性集成分类模型的构建方法。
与现有技术相比,本发明实施例公开的对抗性集成分类模型的构建方法、装置、设备及存储介质,首先获取包含多个待训练样本的训练数据集,通过对每个所述待训练样本进行特征选择,得到由多个不同的特征向量构成的特征向量集合;然后,通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合;最后,每当接收到待检测样本时,从所述分类器集合中随机选择预设数量的基分类器进行集成,得到目标集成分类模型,以对待检测样本进行分类检测。本发明在决策阶段引入了随机性,通过随机选取基分类器构建用于对待检测样本进行分类检测的目标集成分类模型的方式,使得攻击者难以学习到目标集成分类模型真实的决策边界,从而能够提高目标集成分类模型的鲁棒性和分类检测精度。
附图说明
图1是本发明实施例提供的一种对抗性集成分类模型的构建方法的流程示意图;
图2是本发明实施例提供的一种目标集成分类模型的训练过程的示意图;
图3是本发明实施例提供的一种目标集成分类模型的分类过程的示意图;
图4是本发明实施例提供的一种对抗性集成分类模型的构建装置的结构示意图;
图5是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明一实施例提供的一种对抗性集成分类模型的构建方法的流程示意图。
本发明实施例提供的对抗性集成分类模型的构建方法,包括步骤:
S11、获取训练数据集;其中,所述训练数据集包含多个待训练样本和每个所述待训练样本对应的分类标签,且每个所述待训练样本包含多个特征;
S12、对每个所述待训练样本进行特征选择,得到特征向量集合;
S13、通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合;
S14、每当接收到待检测样本时,从所述分类器集合中随机选择预设数量的基分类器进行集成,得到目标集成分类模型。
可以理解,在步骤S14中,所述目标集成分类模型即对抗性集成分类模型,在实际的操作过程中,通过所述目标集成分类模型对当前接收到的所述待检测样本进行分类检测。本实施例的对抗性集成分类模型的构建方法适用于任意一种分类场景和分类模型(如:文本分类模型、视频分类模型、入侵检测模型等),以提高目标集成分类模型的鲁棒性和分类检测精度。
需要说明,所述分类标签用于将所述待训练样本分为恶意样本或正常样本。此外,所述训练数据集中还包括每个恶意样本对应的攻击样本,且每个所述攻击样本包含多个特征。
值得说明的是,在对抗样本的逃避攻击中,攻击者的目标是通过估计目标系统的决策边界并操纵输入样本以误导目标系统的决策。通常情况下,逃避攻击问题可以描述为:给定一个机器学习系统M,一个输入样本x;其中,x可以被M正确分类,输出为c(x)。而攻击者的目标是试图通过嗅探M的信息来找到目标的分类边界。然后,攻击者在知道哪些样本可能被机器学习系统M误分类后,可以通过对输入样本x进行最小限度的修改,将其修改为攻击样本x';其中,x'会被机器学习系统M错误分类,例如:c(x')≠c(x)。假定对输入样本的修改量用距离函数d(x,x')表示,则逃避攻击问题的目标函数E(x)可以表示为:
E(x)=argminx'd(x,x'),s.t.c(x')≠c(x);
其中,s.t.表示约束条件,c(x')为机器学习系统M基于攻击样本x'输出的分类结果,c(x)为机器学习系统M基于输入样本x输出的分类结果。
可以理解,逃避攻击问题的目的是:通过最少限度地修改输入样本x,达到改变机器学习系统M输出的分类结果(即:逃避攻击)的目的。
示例性地,假设距离函数d(x,x')用的是L0范数(通常采用L-P范数进行计算,如:L0范数、L1范数、L2范数和L无穷范数),在本实施例中,L0范数用于表达从x到x'修改的特征数。假设样本x=01111,此时样本x的类别为1,即c(x)=1。假设x'=11111,且c(x')=0,则d(x,x')=1,因为只修改了一个特征值,就改变了分类结果,这里的x'=11111就是逃避攻击问题的最优解。当然,也可能存在其他解,比如:x'=10111,但这个解需要改变两个特征值,因此x'=10111就不是逃避攻击问题的最优解。
优选地,所述预先构建的分类器为强分类器。
值得说明的是,传统的分类器,例如:随机森林、梯度提升树、集成SVM等均是由多个弱分类器组成,虽然传统的分类器可以增加弱分类器间的差异性,从而提高分类精度。但是,单个弱分类器的性能较差,基于弱分类器集合成学习得到的分类器通常需要采用投票或平均的方法,调用分类器中的所有弱分类器来做出更好的决策,使得攻击者容易探测到集成分类器的分类边界,造成传统的集成分类器的鲁棒性较差。因此,在本实施例中,采用强分类器进行训练得到用于集成学习的基分类器。需要说明,强分类器是指在不显着降低分类准确性的情况下鲁棒性高的分类器。
此外,考虑到传统分类器的学习过程可能使攻击者能够使用少量训练数据来训练分类器,使训练后的分类器的决策边界接近目标系统,从而使得攻击变得更加容易。因此,本实施例的目的是:改进集成学习过程以混淆目标集成分类模型的决策边界,让攻击者即使知道部分或全部训练数据,也难以学习到真实的决策边界,从而提高目标集成分类模型的鲁棒性。
在本实施例中,由于任何一个强分类器都可以达到良好的性能,因此,在做决策时,不需要用到所有的强分类器参与决策,可以随机从多个强分类器中选择m个强分类器来做决策,一方面,与单个分类器相比,集成m个分类器进行决策可以提高分类的准确性;另一方面,随机选择m个分类器进行决策可以混淆分类边界,即使攻击者知道目标系统的所有参数,也无法知道将使用哪些分类器来做决策,无法获得真实的决策边界,从而可以确保目标集成分类模型具备较高的鲁棒性和分类准确性。不仅如此,目标集成分类模型中的每个基分类器都是经过精心选择的特征训练得到的,这些基分类器都具有较高的分类准确性和鲁棒性,每个基分类器都有不同的特征空间和不同的特征权重,使得集成后的分类模型对抗逃避攻击的鲁棒性更强。
在一些可选地实施例中,在步骤S12中,基于特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合。其中,特征选择算法为以下中的任意一种:最小化分类误差方法、过滤器算法、对抗特征选择算法、封装器算法。此外,还可以选择其他的特征选择方法对每个所述待训练样本的特征进行特征选择,在此不做具体限定。
优选地,在步骤S12中,所述对每个所述待训练样本的特征向量进行特征选择,得到特征向量集合,具体为:
基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合。
作为其中一个可选的实施例,所述基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合,具体为:
根据以下公式对每个所述待训练样本进行特征选择,得到每个所述待训练样本对应的特征向量,以构成特征向量集合:
Figure BDA0003659089770000081
其中,k=1,2,…,N,N为待训练样本中包含的特征数量,k*为待训练样本中第k个被选中的特征,
Figure BDA0003659089770000082
为待训练样本中任意选择的k个特征的映射,G为没有攻击的情况下预设分类器的泛化能力,S为存在攻击的情况下预设分类器的安全性,λ为权衡参数。
需要说明的是,在实际操作过程中,将基于每个所述待训练样本选择出来的多个特征,组成该待训练样本对应的一个最优的特征向量,每次选择一个最优的特征向量后,选定的特征向量被放入特征向量集合中,同时也作为下一次特征选择的输入。
作为举例的,获取一组训练数据集
Figure BDA0003659089770000083
其中,xi为训练数据集中的第i个待训练样本,yi为第i个待训练样本对应的分类标签。预设分类器g:
Figure BDA0003659089770000084
用于表征从训练数据集中推断出潜在的独立同分布映射过程;其中,待训练样本
Figure BDA0003659089770000085
待训练样本的分类标签
Figure BDA0003659089770000086
Figure BDA0003659089770000087
表示特征空间,
Figure BDA0003659089770000088
表示类分类标签空间,
Figure BDA0003659089770000089
则,没有攻击的情况下预设分类器的泛化能力G可形式化为:
Figure BDA00036590897700000810
其中,E为期望因子,
Figure BDA00036590897700000811
为第一数据分布,g为二进制的分类器,g(·)为g的判别函数,l(·,·)为预设的分类函数。
进一步地,根据以下公式,计算得到
Figure BDA00036590897700000812
Figure BDA00036590897700000813
则,存在攻击的情况下预设分类器的安全性S可以形式化为:
Figure BDA0003659089770000091
其中,
Figure BDA0003659089770000092
为表示恶意样本的分类标签,
Figure BDA0003659089770000093
为第二数据分布,
Figure BDA0003659089770000094
为待训练样本中任意选择的k个特征的映射,
Figure BDA0003659089770000095
为逃避攻击问题的最优解。
但是,由于实际操作过程中,
Figure BDA0003659089770000096
Figure BDA0003659089770000097
通常是未知的,因此,可以使用一组由n个待训练样本组成的训练数据集来估计G与S。
在一些更优的实施例中,所述没有攻击的情况下预设分类器的泛化能力G通过以下公式计算得到:
Figure BDA0003659089770000098
其中,n为训练数据集中待训练样本的数量,
Figure BDA0003659089770000099
为训练数据集的第i个待训练样本中任意选择的k个特征的映射,yi为训练数据集的第i个待训练样本的分类标签,l(·,·)为预设的分类函数,g(·)为预设分类器g的判别函数。
在一些更优的实施例中,所述存在攻击的情况下预设分类器的安全性S通过以下公式计算得到:
Figure BDA00036590897700000910
其中,n+为训练数据集中的恶意样本数量,d(·,·)为距离函数,
Figure BDA00036590897700000911
为训练数据集的第j个恶意样本中任意选择的k个特征的映射,
Figure BDA00036590897700000912
为第j个恶意样本对应的攻击样本中任意选择的k个特征的映射。
需要说明,所述第j个恶意样本对应的攻击样本可以基于Fast Gradient SignMethod(简称:FGSM)、Carlini and Wagner Attacks(简称:C&W)、Jacobian-basedSaliency Map Attack(简称:JSMA)等任意一种对抗样本/攻击样本的生成方法得到。
优选地,根据以下公式得到第j个恶意样本对应的攻击样本:
Figure BDA0003659089770000101
其中,E(xj)为逃避攻击问题的目标函数,第j个恶意样本对应的攻击样本为所述目标函数基于第j个恶意样本的解,s.t.表示约束条件,xj为训练数据集的第j个恶意样本,x'j为对第j个恶意样本xj进行修改得到的攻击样本,c(x'j)为预设分类器基于x'j输出的分类结果,c(xj)为预设分类器基于xj输出的分类结果。
需要说明,所述预设分类器可以是任意一个预先构建的具备分类能力的分类器,在此不做具体限定。
值得说明的是,以L0范数为例,对于某个待训练样本,只要修改待训练样本的一个特征就能够改变分类器对该待训练样本的分类结果,则,距离函数计算的距离为1;若要修改待训练样本的10个特征才能够改变分类结果,则,距离函数计算的距离为10,所以S的大小直接取决于距离函数的值。此外,S也跟训练数据集有一定关系,比如:某些训练数据集普遍修改一到两个特征就可以改变分类结果,而有些训练数据集普遍需要修改10-20个特征才能够改变分类结果。可见,S的值取决于训练数据集和距离函数d(·,·)。而根据G的计算公式可知,G一定是介于[0,1]之间的值,如果S过大,则G就失去了作用,因此,需要利用权衡参数λ来调节S的取值,让λS也成为介于[0,1]之间的值。示例性地,假设对于一组训练数据集中的每个待训练样本都会得到一个距离d,而其中最大的d值为4,S的值为2,即每个待训练样本对应得到的距离d的平均值,这时λ的取值为1/4,这样λS就会是介于[0,1]之间的值。基于上述分析,权衡参数λ的取值为1除以d(·,·)的最大值,权衡参数λ用于权衡G和S的值。
在一个具体的实施方式中,在步骤S13中,所述通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合,包括:
通过所述特征向量集合中的第i个特征向量,对第i个预先构建的分类器进行训练,得到第i个基分类器;
将所有训练得到的所述基分类器,构成分类器集合;其中,所述基分类器的数量与所述特征向量集合中包含的特征向量数量相同。
进一步地,所述预先构建的分类器为:SVM、决策树、基于神经网络的分类器或基于深度学习的分类器。
需要说明,除上述例举的SVM、决策树、基于神经网络的分类器、基于深度学习的分类器以外,所述预先构建的分类器还可以为其他任意一种分类器,在此不做具体限定。
下面例举两个具体的算法来对本实施例所提供的对抗性集成分类模型的构建方法进行说明:
Figure BDA0003659089770000111
Figure BDA0003659089770000121
可以理解,参见图2和图3,本发明实施例首先通过一个特征选择过程来选择训练数据集中待训练样本的最优特征来组成n个特征向量,然后通过每个特征向量来训练得到一个基分类器,从而得到n个基分类器,在对待检测样本进行分类的时候,随机从这n个基分类器中选择m个基分类器进行投票产生最终的分类结果;其中,n大于或等于m,n和m为正整数。需要说明,通常情况下,这里的m取奇数,如:3、5、7等。
参见算法2和图3,在通过步骤S14得到目标集成分类模型后,通过所述目标集成分类模型中的每个基分类器对当前接收到的待检测样本进行分类,得到多个子分类结果,并根据以下公式对多个所述子分类结果进行累加,得到最终的分类结果C:
Figure BDA0003659089770000122
其中,m为子分类结果的数量,ck为第k个子分类结果的值。
需要说明,所述子分类结果为二进制数,ck=1或ck=-1。
可以理解,在本实施例中,首先,通过对抗性特征选择算法对每个待训练样本选择一个能同时保证分类精度和鲁棒性的特征向量,加入到特征向量集合;然后,用特征向量集合中不同的n个特征向量分别训练n个分类器,得到n个基分类器;最后,从n个基分类器中随机选择m个基分类器进行决策,从而保证每个基分类器都具有较好的分类精度和鲁棒性,又使得攻击者无法准确估计决策边界,能够在不降低分类精度的前提下,提高集成分类器的鲁棒性。不仅如此,实际数据的实验结果表明,基于本发明实施例提供的对抗性集成分类模型的构建方法得到的目标集成分类模型,在对于逃避攻击的鲁棒性和梯度相关度量上显著优于传统的集成分类模型,而且在没有攻击的情况下也不会显著损失分类精度。
参见图4,是本发明实施例提供的一种对抗性集成分类模型的构建装置的结构示意图。
本发明实施例提供的对抗性集成分类模型的构建装置,包括:
数据获取模块21,用于获取训练数据集;其中,所述训练数据集包含多个待训练样本和每个所述待训练样本对应的分类标签,且每个所述待训练样本包含多个特征;
特征选择模块22,用于对每个所述待训练样本进行特征选择,得到特征向量集合;
分类器训练模块23,用于通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合;
集成分类模块24,用于每当接收到待检测样本时,从所述分类器集合中随机选择预设数量的基分类器进行集成,得到目标集成分类模型。
作为上述方案的改进,所述特征选择模块22,具体用于:
基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合。
作为其中一个可选的实施方式,所述特征选择模块22用于基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合,具体为:
根据以下公式对每个所述待训练样本进行特征选择,得到每个所述待训练样本对应的特征向量,以构成特征向量集合:
Figure BDA0003659089770000141
其中,k=1,2,…,N,N为待训练样本中包含的特征数量,k*为待训练样本中第k个被选中的特征,
Figure BDA0003659089770000142
为待训练样本中任意选择的k个特征的映射,G为没有攻击的情况下预设分类器的泛化能力,S为存在攻击的情况下预设分类器的安全性,λ为权衡参数。
优选地,在所述特征选择模块22中,没有攻击的情况下预设分类器的泛化能力G通过以下公式计算得到:
Figure BDA0003659089770000143
其中,n为训练数据集中待训练样本的数量,
Figure BDA0003659089770000144
为训练数据集的第i个待训练样本中任意选择的k个特征的映射,yi为训练数据集的第i个待训练样本的分类标签,l(·,·)为预设的分类函数,g(·)为预设分类器g的判别函数。
进一步地,在所述特征选择模块22中,所述存在攻击的情况下预设分类器的安全性S通过以下公式计算得到:
Figure BDA0003659089770000145
其中,n+为训练数据集中的恶意样本数量,d(·,·)为距离函数,
Figure BDA0003659089770000146
为训练数据集的第j个恶意样本中任意选择的k个特征的映射,
Figure BDA0003659089770000147
为第j个恶意样本对应的攻击样本中任意选择的k个特征的映射。
作为其中一个优选地实施方式,所述分类器训练模块23,具体用于:
通过所述特征向量集合中的第i个特征向量,对第i个预先构建的分类器进行训练,得到第i个基分类器;
将所有训练得到的所述基分类器,构成分类器集合;其中,所述基分类器的数量与所述特征向量集合中包含的特征向量数量相同。
需要说明的是,本实施例的对抗性集成分类模型的构建装置的各实施例的相关具体描述和有益效果可以参考上述的对抗性集成分类模型的构建方法的各实施例的相关具体描述和有益效果,在此不再赘述。
参见图5,是本发明一实施例提供的一种终端设备的结构示意图。
本发明实施例提供的一种终端设备,包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10执行所述计算机程序时实现如上述任一实施例所述的对抗性集成分类模型的构建方法。
所述处理器10执行所述计算机程序时实现上述对抗性集成分类模型的构建方法实施例中的步骤,例如图1所示的对抗性集成分类模型的构建方法的所有步骤。或者,所述处理器10执行所述计算机程序时实现上述对抗性集成分类模型的构建装置实施例中各模块/单元的功能,例如图4所示的对抗性集成分类模型的构建装置的各模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器10、存储器20。本领域技术人员可以理解,所述示意图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器10是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器20可用于存储所述计算机程序和/或模块,所述处理器10通过运行或执行存储在所述存储器20内的计算机程序和/或模块,以及调用存储在存储器20内的数据,实现所述终端设备的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上方法实施例中任意一项所述的对抗性集成分类模型的构建方法。
综上,本发明实施例所提供的一种对抗性集成分类模型的构建方法、装置、设备及计算机可读存储介质,首先获取包含多个待训练样本的训练数据集,通过对每个所述待训练样本进行特征选择,得到由多个不同的特征向量构成的特征向量集合;然后,通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合;最后,每当接收到待检测样本时,从所述分类器集合中随机选择预设数量的基分类器进行集成,得到目标集成分类模型,以对待检测样本进行分类检测。本发明在决策阶段引入了随机性,通过随机选取基分类器构建用于对待检测样本进行分类检测的目标集成分类模型的方式,使得攻击者难以学习到目标集成分类模型真实的决策边界,从而能够提高目标集成分类模型的鲁棒性和分类检测精度。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种对抗性集成分类模型的构建方法,其特征在于,包括:
获取训练数据集;其中,所述训练数据集包含多个待训练样本和每个所述待训练样本对应的分类标签,且每个所述待训练样本包含多个特征;
对每个所述待训练样本进行特征选择,得到特征向量集合;
通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合;
每当接收到待检测样本时,从所述分类器集合中随机选择预设数量的基分类器进行集成,得到目标集成分类模型。
2.如权利要求1所述的对抗性集成分类模型的构建方法,其特征在于,所述对每个所述待训练样本的特征向量进行特征选择,得到特征向量集合,具体为:
基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合。
3.如权利要求2所述的对抗性集成分类模型的构建方法,其特征在于,所述基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合,具体为:
根据以下公式对每个所述待训练样本进行特征选择,得到每个所述待训练样本对应的特征向量,以构成特征向量集合:
Figure FDA0003659089760000011
其中,k=1,2,…,N,N为待训练样本中包含的特征数量,k*为待训练样本中第k个被选中的特征,
Figure FDA0003659089760000012
为待训练样本中任意选择的k个特征的映射,G为没有攻击的情况下预设分类器的泛化能力,S为存在攻击的情况下预设分类器的安全性,λ为权衡参数。
4.如权利要求3所述的对抗性集成分类模型的构建方法,其特征在于,所述没有攻击的情况下预设分类器的泛化能力G通过以下公式计算得到:
Figure FDA0003659089760000021
其中,n为训练数据集中待训练样本的数量,
Figure FDA0003659089760000022
为训练数据集的第i个待训练样本中任意选择的k个特征的映射,yi为训练数据集的第i个待训练样本的分类标签,l(·,·)为预设的分类函数,g(·)为预设分类器g的判别函数。
5.如权利要求3所述的对抗性集成分类模型的构建方法,其特征在于,所述存在攻击的情况下预设分类器的安全性S通过以下公式计算得到:
Figure FDA0003659089760000023
其中,n+为训练数据集中的恶意样本数量,d(·,·)为距离函数,
Figure FDA0003659089760000024
为训练数据集的第j个恶意样本中任意选择的k个特征的映射,
Figure FDA0003659089760000025
为第j个恶意样本对应的攻击样本中任意选择的k个特征的映射。
6.如权利要求1所述的对抗性集成分类模型的构建方法,其特征在于,所述通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合,包括:
通过所述特征向量集合中的第i个特征向量,对第i个预先构建的分类器进行训练,得到第i个基分类器;
将所有训练得到的所述基分类器,构成分类器集合;其中,所述基分类器的数量与所述特征向量集合中包含的特征向量数量相同。
7.一种对抗性集成分类模型的构建装置,其特征在于,包括:
数据获取模块,用于获取训练数据集;其中,所述训练数据集包含多个待训练样本和每个所述待训练样本对应的分类标签,且每个所述待训练样本包含多个特征;
特征选择模块,用于对每个所述待训练样本进行特征选择,得到特征向量集合;
分类器训练模块,用于通过所述特征向量集合对多个预先构建的分类器进行训练,得到多个基分类器,以构成分类器集合;
集成分类模块,用于每当接收到待检测样本时,从所述分类器集合中随机选择预设数量的基分类器进行集成,得到目标集成分类模型。
8.如权利要求7所述的对抗性集成分类模型的构建装置,其特征在于,所述特征选择模块,具体用于:
基于对抗特征选择算法对每个所述待训练样本进行特征选择,得到特征向量集合。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的对抗性集成分类模型的构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的对抗性集成分类模型的构建方法。
CN202210568117.4A 2022-05-24 2022-05-24 对抗性集成分类模型的构建方法、装置、设备及存储介质 Pending CN114925765A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210568117.4A CN114925765A (zh) 2022-05-24 2022-05-24 对抗性集成分类模型的构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210568117.4A CN114925765A (zh) 2022-05-24 2022-05-24 对抗性集成分类模型的构建方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114925765A true CN114925765A (zh) 2022-08-19

Family

ID=82810785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210568117.4A Pending CN114925765A (zh) 2022-05-24 2022-05-24 对抗性集成分类模型的构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114925765A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484005A (zh) * 2023-06-25 2023-07-25 北京中关村科金技术有限公司 一种分类模型构建方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484005A (zh) * 2023-06-25 2023-07-25 北京中关村科金技术有限公司 一种分类模型构建方法、装置及存储介质
CN116484005B (zh) * 2023-06-25 2023-09-08 北京中关村科金技术有限公司 一种分类模型构建方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Alasmary et al. Analyzing and detecting emerging Internet of Things malware: A graph-based approach
Alotaibi et al. Adversarial machine learning attacks against intrusion detection systems: A survey on strategies and defense
CN113297572B (zh) 基于神经元激活模式的深度学习样本级对抗攻击防御方法及其装置
CN109840413B (zh) 一种钓鱼网站检测方法及装置
CN110602120B (zh) 一种面向网络的入侵数据检测方法
CN111783085B (zh) 一种对抗样本攻击的防御方法、装置及电子设备
CN111754519B (zh) 一种基于类激活映射的对抗防御方法
US11977626B2 (en) Securing machine learning models against adversarial samples through backdoor misclassification
Jeong et al. A feature selection approach based on simulated annealing for detecting various denial of service attacks
Raihan-Al-Masud et al. Network intrusion detection system using voting ensemble machine learning
Pathak et al. Study on decision tree and KNN algorithm for intrusion detection system
CN111953665B (zh) 服务器攻击访问识别方法及系统、计算机设备、存储介质
CN112468487A (zh) 实现模型训练的方法、装置、实现节点检测的方法及装置
CN112632609A (zh) 异常检测方法、装置、电子设备及存储介质
CN114220097A (zh) 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统
Ferreira et al. Adversarial learning for a robust iris presentation attack detection method against unseen attack presentations
CN114584522B (zh) 一种物联网设备的识别方法、系统、介质及终端
CN114925765A (zh) 对抗性集成分类模型的构建方法、装置、设备及存储介质
CN112839055B (zh) 面向tls加密流量的网络应用识别方法、装置及电子设备
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN116188956A (zh) 一种深度伪造人脸图像检测的方法及相关设备
CN115512181A (zh) 一种区域生成网络训练方法、装置及可读存储介质
CN109583492A (zh) 一种识别对抗性图像的方法及终端
CN114710325A (zh) 网络入侵检测模型的构建方法、装置、设备及存储介质
Mu et al. FedDMC: Efficient and Robust Federated Learning via Detecting Malicious Clients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination