CN111797394B - 基于stacking集成的APT组织识别方法、系统及存储介质 - Google Patents

基于stacking集成的APT组织识别方法、系统及存储介质 Download PDF

Info

Publication number
CN111797394B
CN111797394B CN202010586298.4A CN202010586298A CN111797394B CN 111797394 B CN111797394 B CN 111797394B CN 202010586298 A CN202010586298 A CN 202010586298A CN 111797394 B CN111797394 B CN 111797394B
Authority
CN
China
Prior art keywords
feature
apt
features
data
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010586298.4A
Other languages
English (en)
Other versions
CN111797394A (zh
Inventor
李树栋
张倩青
吴晓波
韩伟红
方滨兴
田志宏
殷丽华
顾钊铨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202010586298.4A priority Critical patent/CN111797394B/zh
Publication of CN111797394A publication Critical patent/CN111797394A/zh
Application granted granted Critical
Publication of CN111797394B publication Critical patent/CN111797394B/zh
Priority to PCT/CN2021/101276 priority patent/WO2021259207A1/zh
Priority to US18/003,318 priority patent/US20230259621A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Abstract

本发明公开了一种基于stacking集成的APT组织识别方法、系统及存储介质,方法包括:使用TF‑IDF算法结合n‑gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;基于恶意行为向量特征集,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的APT攻击进行识别。本发明中对高维行为向量特征进行特征选择降低了数据集的复杂度;还考虑了数据集中的样本不平衡,采用了多模型集成训练,提高了识别准确度;另外本专利对于恶意样本的APT组织识别模型是经过机器学习训练得到的,提高了新样本的自动化识别效率。

Description

基于stacking集成的APT组织识别方法、系统及存储介质
技术领域
本发明属于网络安全的技术领域,具体涉及一种基于stacking集成的APT组织识别方法、系统及存储介质。
背景技术
APT高级持续性威胁,是利用先进的攻击手法对特定的目标进行长期持续性的网络攻击的攻击形式。与传统的网络攻击不同,APT攻击具有隐蔽性、针对性、持续性和组织性等特点,其攻击手段变化多端、攻击效果显著且难以防范。APT组织实施的网络攻击通常具有政治目的或经济目的,对国家和企业产生了巨大影响,对各类高等级信息安全系统造成的威胁日益严重。对实施APT攻击的恶意软件样本进行组织区分,有利于追溯真实的攻击组织实体,更好的区分和识别具体来源的攻击活动。另外,恶意软件的APT组织识别是一种检测APT攻击的方法。
学术界和产业界对APT组织识别方法有所不同,在学术界,主要方法依赖于恶意代码的相似性分析。例如Qiao,Yanchen等人提出了基于API调用的一种自动恶意软件同源性识别方法。该方法通过对恶意样本通过静态分析获得其API集合,然后基于编程习惯定义的六种调用行为使用Jaccard相似系数计算不同恶意软件的同源程度,并通过经验设立了一个阈值和该同源程度比较,得出样本间是否相似的结论,用该方法可判断APT样本之间的同源度,确定所属组织。虎志强等人对恶意样本文件进行逆向分析获取文件的函数,根据函数相似度对函数进行聚类得到特征集,并设定阈值,将共同类别数达到阈值的恶意样本文件归为一类,为归类后的每类恶意样本文件标记同一APT组织标识。Chen,W等人提出了一种结合恶意软件行为知识图谱的新基因模型。该方法首先基于节点内容建立了遗传模型,并提取属于各个APT组织的所有恶意软件的基因序列,然后计算恶意软件和基因库之间的相似性,并根据相似性评分判断该恶意软件属于哪APT组织。
而在产业界,APT组织识别更倾向于恶意代码结构及其攻击链的关联性分析,例如FireEye实验室于2013年对11个APT高级可持续攻击进行分析,在攻击所用的恶意代码中发现了相同的代码段、时间戳、数字证书等,基于这些收集的特征进行关联分析,认为攻击均是由同一个组织操纵。启明星辰通过分析漏洞部分样本的shellcode功能、代码相似性作为关联分析的特征,进而溯源到海德薇(Hedwig)组织。
上述产业界分析技术主要基于相关安全专家人工分析,受专家经验影响较大,其次不能满足大量样本的需要,效率低,耗时长。学术界自动化的识别技术所依赖的静态API函数特征会因为恶意软件的混淆和加壳技术使得特征提取困难,另外目前的方法主要依赖已知的恶意代码样本,如果仅根据已有的样本来识别变体,将可能导致识别工作低效甚至无效。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于stacking集成的APT组织识别方法、系统及存储介质,可以更准确的识别出APT攻击行为所属的APT组织。
为了达到上述目的,本发明采用以下技术方案:
本发明提供的一种基于stacking集成的APT组织识别方法,包括下述步骤:
使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;
基于恶意行为向量特征集和APT组织标记,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;
构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的APT攻击进行组织识别。
作为优选的技术方案,所述使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化形成行为数据集,具体为:
对恶意样本行为文本特征先生成n-gram的词条,n-gram可按实际数据进行选择,这里推荐选择n-gram=(1,5),然后分别统计每个词条出现的词频TF,然后再为每个词条附上一个权值参数IDF;
Figure GDA0003026414340000031
其中,TFi,j:词条i在样本j中出现的频率;ni,j:词条i在样本j中出现的次数;∑knk,j:样本j中出现的总词汇数;
再计算权值参数:
Figure GDA0003026414340000032
其中,|D|表示总样本数,|j:i∈dj|表示包含词条i的样本数目,为了防止分母为零,所以加1,每个词最后的权重计算公式为:
TF-IDFi,j=TFi,j×IDFi,j
通过结合n-gram计算恶意样本行为特征文本的TF-IDF方法对数据进行预处理,计算文本词频特征,对行为文本数据进行特征向量化形成语义矩阵,形成恶意行为向量特征集。
作为优选的技术方案,使用n-gram结合TF-IDF方法提取的特征数据中包含了较多的特征属性,先对恶意行为向量特征集进行第一次初选,计算特征与特征之间的相关度,过滤掉特征之间存在信息冗余的特征。
作为优选的技术方案,所述计算特征与特征之间的相关度,具体为:
输入:行为向量数据集F,特征数Fn,阀值ε12
随机选取一个特征X1,计算其信息熵H(X1),若满足H(X1)>ε1,则加入待选特征集S,否则,继续选取;
For i=2,...,Fn
计算特征Xi的信息熵,若满足H(Xi)>ε1,则判断该特征与S中其他所有特
征Xj的相关性:
Figure GDA0003026414340000041
其中cov(Xi,Xj)是Xi和Xj之间的协方差,
Figure GDA0003026414340000042
是Xi的方差,
Figure GDA0003026414340000043
是Xj的方差,
Figure GDA0003026414340000044
Xi的平均值,
Figure GDA0003026414340000045
是Xj的平均值,E为均值;
Figure GDA0003026414340000046
则将特征Xi,加入待选特征集S;
Figure GDA0003026414340000047
计算Xi与Xj的信息熵,如果H(Xj)>H(Xi),则将特征Xi替换S中Xj
输出特征子集S。
作为优选的技术方案,在计算特征与特征之间的相关度的过程中,特征子集S中所选的每个特征都具有较多信息量,且所有特征之间保持较低的相关性,ε12的取值需要根据实验效果进行调整参数,需要满足:
Figure GDA0003026414340000051
然后在获得简约特征子集S上,进一步使用卡方检验评价特征与类别标签之间的相关性,选择各个类别中卡方值排名前N的特征。
作为优选的技术方案,所述计算特征与类别之间的卡方值,具体为:
针对特征子集S中的Sm个类别,分别计算每个类别的中每个特征的卡方值,并将特征按照卡方值降序排列;
分别从各个类别的特征集中,选取排名前N的特征词放入待选特征子集S'中;
将S'中重复的特征保留一个,其余删除;
输出待选特征子集S',算法结束。
作为优选的技术方案,所述构建多模型融合的Stacking集成学习APT组织识别模型,具体为:
基于特征选择后的特征集S'和对应标注的APT组织数据作为原始数据集,Stacking集成分类模型首先将原始数据集划分成若干个数据集,输入到第一层预测模型的各个基学习器中,每个基学习器输出各自的预测结果;其中基学习器选择对不平衡数据有不错分类效果的分类算法即支持向量机、随机森林、Adaboost算法,然后将第一层的输出数据作为第二层的输入数据,对第二层的元学习器进行训练,并由第二层的模型输出最终预测结果,其中以XGBoost算法作为元学习器。
作为优选的技术方案,Stacking集成学习的具体训练方式是:对于数据集D={(xn,yn),n=1,...,N},其中xn为第n个样本的特征向量,yn为第n个样本对应的预测值,m为所包含特征数量,即每一个特征向量为(x1,x2,...,xm);随机将数据划分成K个大小基本相等的子集D1,D2,...,Dk;其中D′=D-Dk,D′和Dk分别为k折交叉验证中的训练集和测试集,训练集D′通过第一层的三个基学习器分别得到模型MSVM,MRF,MAda;对于测试集Dk中的每个样本xn,基学习对它的预测表示为Tkn;在完成交叉验证过程后,将三个基学习器的输出数据构成新的数据样本Dnew={(yn,Tk1,...,Tkn),n=1,...,N};基学器生成的数据集Dnew作为Stacking的第二层的输入数据,然后通过第二层的XGBoost算法进行训练得到模型MXgb
本发明还提供了一种基于stacking集成的APT组织识别系统,包括特征提取模块、特征筛选模块以及识别模块;
所述特征提取模块,用于使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;
所述特征筛选模块,用于基于恶意行为向量特征集,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;
所述识别模块,用于构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的APT攻击进行识别。
本发明还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现所述基于stacking集成的APT组织识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明基于动态分析获取恶意软件的行为数据,使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,可有效应对某些变形技术,诸如加壳、打包等,提高了提取到所需的特征数据的有效性。
(2)本发明中对高维行为向量特征进行特征选择降低了数据集的复杂度;还考虑了数据集中的样本不平衡,采用了多模型集成训练,提高了识别准确度;另外本专利对于恶意样本的APT组织识别模型是经过机器学习训练得到的,提高了新样本的自动化识别效率。
(3)本发明可基于APT组织识别模型找到APT攻击所归属的组织,有利于追溯真实的攻击组织实体,更好的区分和识别具体来源的攻击活动。
附图说明
图1是本发明的基于stacking集成的APT组织识别方法流程图;
图2是本发明的Stacking的模型集成图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例基于stacking集成的APT组织识别方法,包括下述步骤:
S1:使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,n-gram可按实际数据进行选择,这里推荐选择n-gram=(1,5),形成恶意行为向量特征集;
对恶意样本行为文本特征分别统计每个词出现的词频(TF),然后再为其附上一个权值参数(IDF)。
Figure GDA0003026414340000081
其中,TFi,j:词条i在样本j中出现的频率;ni,j:词条i在样本j中出现的次数;∑knk,j:样本j中出现的总词汇数。
再计算权重:
Figure GDA0003026414340000082
其中,|D|表示总样本数,|j:i∈dj|表示包含词条i的样本数目,为了防止分母为零,所以加1,每个词最后的权重计算公式为:
TF-IDFi,j=TFi,j×IDFi,j
通过结合n-gram计算恶意样本行为特征文本的TF-IDF方法对数据进行预处理,计算文本词频特征,对行为文本数据进行特征向量化形成语义矩阵,形成恶意行为向量特征集。
S2、基于恶意行为向量特征集,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;
由于步骤S1中利用n-gram方法提取的数据中包含了较多的特征属性,需要先对该特征集进行一次初选,计算特征与特征之间的相关度,过滤掉特征之间存在信息冗余的特征。
更进一步的,在本实施例中,计算特征与特征之间的相关度,具体为算法那为:
输入:行为向量数据集F,特征数Fn,阀值ε12
输出:特征子集S
①随机选取一个特征X1,计算其信息熵H(X1),若满足H(X1)>ε1,则加入待选特征集S。否则,继续选取。
②For i=2,...,Fn
③计算特征Xi的信息熵,若满足H(Xi)>ε1,则判断该特征与S中其他所有特征Xj的相关性:
Figure GDA0003026414340000091
其中cov(Xi,Xj)是Xi和Xj之间的协方差,
Figure GDA0003026414340000092
是Xi的方差,
Figure GDA0003026414340000093
是Xj的方差,
Figure GDA0003026414340000094
是Xi的平均值,
Figure GDA0003026414340000095
是Xj的平均值,E为均值。
④若|ρX,Y|<ε2则将特征Xi,加入待选特征集S。若|ρX,Y|>ε2,计算Xi与Xj的信息熵,如果H(Xj)>H(Xi),则将特征Xi替换S中Xj
⑤输出特征子集S。
更进一步的,以上基于相关性的特征选择过程中,特征子集S中所选的每个特征都具有较多信息量,且所有特征之间保持较低的相关性。ε12的取值需要根据实验效果进行调整参数,需要满足:
Figure GDA0003026414340000096
然后在获得简约特征子集S上,进一步使用卡方检验评价特征与类别标签之间的相关性,选择各个类别中卡方值排名前N的特征。
在本实施例中,基于卡方检验的特征初选算法:
输入:特征子集S,类别数Sm,特征选择维度N
输出:特征子集S'
①针对特征子集S中的Sm个类别,分别计算每个类别的中每个特征的卡方值,并将特征按照卡方值降序排列。
a)分别从各个类别的特征集中,选取排名前N的特征词放入待选特征子集S'中;
b)将S'中重复的特征保留一个,其余删除;
c)输出待选特征子集S',算法结束。
本实施例的方法在特征选择部分,首先使用信息熵和相关度选择出包含最多信息量的非冗余特征,然后进一步利用卡方检验选择出与类别相关性较高的特征子集,实现了通过特征选择降低了数据维度,同时得到更好的有效特征集。
S3、构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的APT攻击进行识别。
如图2所示,本实施例基于特征选择后的特征集S'和对应标注的APT组织数据作为原始数据集,Stacking集成分类模型首先将原始数据集划分成若干个数据集,输入到第一层预测模型的各个基学习器中,每个基学习器输出各自的预测结果。其中基学习器选择对不平衡数据有不错分类效果的分类算法即支持向量机、随机森林、Adaboost算法,然后将第一层的输出数据作为第二层的输入数据,对第二层的元学习器进行训练,并由第二层的模型输出最终预测结果,其中以XGBoost算法作为元学习器。
更进一步的,Stacking集成学习的具体训练方式是:对于数据集D={(xn,yn),n=1,...,N},其中xn为第n个样本的特征向量,yn为第n个样本对应的预测值,m为所包含特征数量,即每一个特征向量为(x1,x2,...,xm)。随机将数据划分成K个大小基本相等的子集D1,D2,...,Dk。其中D′=D-Dk,D′和Dk分别为k折交叉验证中的训练集和测试集,训练集D′通过第一层的三个基学习器分别得到模型MSVM,MRF,MAda。对于测试集Dk中的每个样本xn,基学习对它的预测表示为Tkn。在完成交叉验证过程后,将三个基学习器的输出数据构成新的数据样本Dnew={(yn,Tk1,...,Tkn),n=1,...,N}。基学器生成的数据集Dnew作为Stacking的第二层的输入数据,然后通过第二层的XGBoost算法进行训练得到模型MXgb
在另一个实施例中,提供了基于stacking集成的APT组织识别系统,该系统包括特征提取模块、特征筛选模块以及识别模块;
所述特征提取模块,用于使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;
所述特征筛选模块,用于基于恶意行为向量特征集,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;
所述识别模块,用于构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的APT攻击进行识别。
在此需要说明的是,上述实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,另外Stacking集成所使用的算法不仅限于举例中的几种算法。
在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,基于stacking集成的APT组织识别方法,具体为:
使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;
基于恶意行为向量特征集,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;
构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的APT攻击进行识别。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于stacking集成的APT组织识别方法,其特征在于,包括下述步骤:
使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;
基于恶意行为向量特征集和APT组织标记,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;
构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的APT攻击进行组织识别。
2.根据权利要求1所述基于stacking集成的APT组织识别方法,其特征在于,所述使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化形成行为数据集,具体为:
对恶意样本行为文本特征先生成n-gram的词条,然后分别统计每个词条出现的词频TF,然后再为每个词条附上一个权值参数IDF;
Figure FDA0003026414330000011
其中,TFi,j:词条i在样本j中出现的频率;ni,j:词条i在样本j中出现的次数;∑knk,j:样本j中出现的总词汇数;
再计算权值参数:
Figure FDA0003026414330000012
其中,|D|表示总样本数,|j:i∈dj|表示包含词条i的样本数目,为了防止分母为零,所以加1,每个词最后的权重计算公式为:
TF-IDFi,j=TFi,j×IDFi,j
通过结合n-gram计算恶意样本行为特征文本的TF-IDF方法对数据进行预处理,计算文本词频特征,对行为文本数据进行特征向量化形成语义矩阵,形成恶意行为向量特征集。
3.根据权利要求1所述基于stacking集成的APT组织识别方法,其特征在于,使用n-gram结合TF-IDF方法提取的特征数据中包含了较多的特征属性,先对恶意行为向量特征集进行第一次初选,计算特征与特征之间的相关度,过滤掉特征之间存在信息冗余的特征。
4.根据权利要求3所述基于stacking集成的APT组织识别方法,其特征在于,所述计算特征与特征之间的相关度,具体为:
输入:行为向量数据集F,特征数Fn,阀值ε12
随机选取一个特征X1,计算其信息熵H(X1),若满足H(X1)>ε1,则加入待选特征集S,否则,继续选取;
For i=2,...,Fn
计算特征Xi的信息熵,若满足H(Xi)>ε1,则判断该特征与S中其他所有特征Xj的相关性:
Figure FDA0003026414330000021
其中cov(Xi,Xj)是Xi和Xj之间的协方差,
Figure FDA0003026414330000022
是Xi的方差,
Figure FDA0003026414330000023
是Xj的方差,
Figure FDA0003026414330000024
是Xi的平均值,
Figure FDA0003026414330000025
是Xj的平均值,E为均值;
Figure FDA0003026414330000026
则将特征Xi,加入待选特征集S;
Figure FDA0003026414330000027
计算Xi与Xj的信息熵,如果H(Xj)>H(Xi),则将特征Xi替换S中Xj
输出待选特征集S。
5.根据权利要求4所述基于stacking集成的APT组织识别方法,其特征在于,在计算特征与特征之间的相关度的过程中,待选特征集S中所选的每个特征都具有较多信息量,且所有特征之间保持较低的相关性,ε12的取值需要根据实验效果进行调整参数,需要满足:
Figure FDA0003026414330000028
然后在获得待选特征集S上,进一步使用卡方检验评价特征与类别标签之间的相关性,选择各个类别中卡方值排名前N的特征。
6.根据权利要求1所述基于stacking集成的APT组织识别方法,其特征在于,所述计算特征与类别之间的卡方值,具体为:
针对待选特征集S中的Sm个类别,分别计算每个类别的中每个特征的卡方值,并将特征按照卡方值降序排列;
分别从各个类别的特征集中,选取排名前N的特征词放入待选特征子集S'中;
将S'中重复的特征保留一个,其余删除;
输出待选特征子集S',算法结束。
7.根据权利要求1所述基于stacking集成的APT组织识别方法,其特征在于,所述构建多模型融合的Stacking集成学习APT组织识别模型,具体为:
基于特征选择后的待选特征子集S'和对应标注的APT组织数据作为原始数据集,Stacking集成分类模型首先将原始数据集划分成若干个数据集,输入到第一层预测模型的各个基学习器中,每个基学习器输出各自的预测结果;其中基学习器选择对不平衡数据有不错分类效果的分类算法即支持向量机、随机森林、Adaboost算法,然后将第一层的输出数据作为第二层的输入数据,对第二层的元学习器进行训练,并由第二层的模型输出最终预测结果,其中以XGBoost算法作为元学习器。
8.根据权利要求7所述基于stacking集成的APT组织识别方法,其特征在于,Stacking集成学习的具体训练方式是:对于数据集D={(xn,yn),n=1,...,N},其中xn为第n个样本的特征向量,yn为第n个样本对应的预测值,m为所包含特征数量,即每一个特征向量为(x1,x2,...,xm);随机将数据划分成K个大小相等的子集D1,D2,...,Dk;其中D′=D-Dk,D′和Dk分别为k折交叉验证中的训练集和测试集,训练集D′通过第一层的三个基学习器分别得到模型MSVM,MRF,MAda;对于测试集Dk中的每个样本xn,基学习对它的预测表示为Tkn;在完成交叉验证过程后,将三个基学习器的输出数据构成新的数据样本Dnew={(yn,Tk1,...,Tkn),n=1,...,N};基学器生成的数据集Dnew作为Stacking的第二层的输入数据,然后通过第二层的XGBoost算法进行训练得到模型MXgb
9.一种基于stacking集成的APT组织识别系统,其特征在于,包括特征提取模块、特征筛选模块以及识别模块;
所述特征提取模块,用于使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化,形成恶意行为向量特征集;
所述特征筛选模块,用于基于恶意行为向量特征集,计算特征之间的相关度和特征与类别之间的卡方值,对行为向量特征集进行两次筛选,获得低纬度的更优特征子集数据;
所述识别模块,用于构建多模型融合的Stacking集成学习APT组织识别模型,利用所述APT组织识别模型对新的APT攻击进行识别。
10.一种存储介质,存储有程序,其特征在于:所述程序被处理器执行时,实现权利要求1-8任一项所述的基于stacking集成的APT组织识别方法。
CN202010586298.4A 2020-06-24 2020-06-24 基于stacking集成的APT组织识别方法、系统及存储介质 Active CN111797394B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010586298.4A CN111797394B (zh) 2020-06-24 2020-06-24 基于stacking集成的APT组织识别方法、系统及存储介质
PCT/CN2021/101276 WO2021259207A1 (zh) 2020-06-24 2021-06-21 基于stacking集成的APT组织识别方法、系统及存储介质
US18/003,318 US20230259621A1 (en) 2020-06-24 2021-06-21 Stacking-ensemble-based apt organization identification method and system, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010586298.4A CN111797394B (zh) 2020-06-24 2020-06-24 基于stacking集成的APT组织识别方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111797394A CN111797394A (zh) 2020-10-20
CN111797394B true CN111797394B (zh) 2021-06-08

Family

ID=72804153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010586298.4A Active CN111797394B (zh) 2020-06-24 2020-06-24 基于stacking集成的APT组织识别方法、系统及存储介质

Country Status (3)

Country Link
US (1) US20230259621A1 (zh)
CN (1) CN111797394B (zh)
WO (1) WO2021259207A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797394B (zh) * 2020-06-24 2021-06-08 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质
CN112380534B (zh) * 2020-11-12 2022-12-09 上海电力大学 一种基于电路结构分析的硬件木马检测方法
CN112417448B (zh) * 2020-11-15 2022-03-18 复旦大学 一种基于api关系图谱的恶意软件检测模型抗老化增强方法
US11928182B1 (en) * 2020-11-30 2024-03-12 Amazon Technologies, Inc. Artificial intelligence system supporting semi-supervised learning with iterative stacking
CN112528662A (zh) * 2020-12-15 2021-03-19 深圳壹账通智能科技有限公司 基于元学习的实体类别识别方法、装置、设备和存储介质
CN112883995A (zh) * 2020-12-30 2021-06-01 华北电力大学 基于集成学习的闭源电力工控系统恶意行为识别方法及装置
CN113179250B (zh) * 2021-03-26 2022-05-17 北京六方云信息技术有限公司 web未知威胁检测方法及系统
CN113139189B (zh) * 2021-04-29 2021-10-26 广州大学 一种挖矿恶意软件的识别方法、系统和存储介质
CN113221112B (zh) * 2021-05-28 2022-03-04 广州大学 基于弱相关集成策略的恶意行为识别方法、系统和介质
CN113094713B (zh) * 2021-06-09 2021-08-13 四川大学 一种自适应的主机入侵检测序列特征提取方法及系统
CN113408617A (zh) * 2021-06-18 2021-09-17 湘潭大学 一种基于XGBoost与Stacking模型融合的非侵入式负荷识别方法
CN113704756A (zh) * 2021-07-19 2021-11-26 广州大学 基于集成策略的挖矿型恶意代码鲁棒性检测方法、系统及介质
CN113592103A (zh) * 2021-07-26 2021-11-02 东方红卫星移动通信有限公司 一种基于集成学习和动态分析的软件恶意行为识别方法
CN113904834B (zh) * 2021-09-30 2022-09-09 北京华清信安科技有限公司 基于机器学习的xss攻击检测方法
CN114090967A (zh) * 2021-10-25 2022-02-25 广州大学 一种基于pso-msvm的apt组织追踪溯源方法及系统
CN115086060B (zh) * 2022-06-30 2023-11-07 深信服科技股份有限公司 一种流量检测方法、装置、设备及可读存储介质
CN115996135B (zh) * 2022-09-09 2024-03-12 重庆邮电大学 一种基于特征组合优化的工业互联网恶意行为实时检测方法
CN115345209B (zh) * 2022-10-20 2023-03-24 华南师范大学 基于模型融合的手势识别方法、系统和存储介质
CN116155630B (zh) * 2023-04-21 2023-07-04 北京邮电大学 恶意流量识别方法及相关设备
CN116434893B (zh) * 2023-06-12 2023-08-29 中才邦业(杭州)智能技术有限公司 混凝土抗压强度预测模型、构建方法、介质、电子设备
CN116796326B (zh) * 2023-08-21 2023-11-14 北京遥感设备研究所 一种sql注入检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866765A (zh) * 2015-06-03 2015-08-26 康绯 基于行为特征相似性的恶意代码同源性分析方法
CN108256329A (zh) * 2018-02-09 2018-07-06 杭州奇盾信息技术有限公司 基于动态行为的细粒度rat程序检测方法、系统及相应的apt攻击检测方法
CN108920953A (zh) * 2018-06-16 2018-11-30 温州职业技术学院 一种恶意软件检测方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9628507B2 (en) * 2013-09-30 2017-04-18 Fireeye, Inc. Advanced persistent threat (APT) detection center
CN106845229B (zh) * 2016-12-28 2019-12-20 哈尔滨安天科技集团股份有限公司 一种基于fts模型的病毒特征提取方法及系统
CN107180191A (zh) * 2017-05-03 2017-09-19 北京理工大学 一种基于半监督学习的恶意代码分析方法和系统
CN108376220A (zh) * 2018-02-01 2018-08-07 东巽科技(北京)有限公司 一种基于深度学习的恶意样本程序分类方法及系统
CN110222715B (zh) * 2019-05-07 2021-07-27 国家计算机网络与信息安全管理中心 一种基于动态行为链和动态特征的样本同源分析方法
CN110362996B (zh) * 2019-06-03 2021-03-09 中国科学院信息工程研究所 一种离线检测PowerShell恶意软件的方法与系统
CN110378119A (zh) * 2019-07-16 2019-10-25 合肥智瑞工程科技有限公司 一种恶意软件检测方法及系统
CN110430190B (zh) * 2019-08-05 2022-08-02 北京经纬信安科技有限公司 基于att&ck的欺骗性防御系统、构建方法及全链路防御实现方法
CN111797394B (zh) * 2020-06-24 2021-06-08 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866765A (zh) * 2015-06-03 2015-08-26 康绯 基于行为特征相似性的恶意代码同源性分析方法
CN108256329A (zh) * 2018-02-09 2018-07-06 杭州奇盾信息技术有限公司 基于动态行为的细粒度rat程序检测方法、系统及相应的apt攻击检测方法
CN108920953A (zh) * 2018-06-16 2018-11-30 温州职业技术学院 一种恶意软件检测方法及系统

Also Published As

Publication number Publication date
US20230259621A1 (en) 2023-08-17
CN111797394A (zh) 2020-10-20
WO2021259207A1 (zh) 2021-12-30

Similar Documents

Publication Publication Date Title
CN111797394B (zh) 基于stacking集成的APT组织识别方法、系统及存储介质
Shafeeq et al. Dynamic clustering of data with modified k-means algorithm
WO2016177069A1 (zh) 一种管理方法、装置、垃圾短信监控系统及计算机存储介质
CN103778205A (zh) 一种基于互信息的商品分类方法和系统
Abualigah et al. Efficient text document clustering approach using multi-search Arithmetic Optimization Algorithm
Reyes et al. Effective lazy learning algorithm based on a data gravitation model for multi-label learning
CN109871434B (zh) 一种基于动态增量式的概率图模型的舆情演化跟踪方法
CN109063478A (zh) 可移植的可执行文件的病毒检测方法、装置、设备及介质
Khatri et al. Detecting offensive content in open-domain conversations using two stage semi-supervision
Meng et al. Gene selection integrated with biological knowledge for plant stress response using neighborhood system and rough set theory
Ji et al. A novel cluster center initialization method for the k-prototypes algorithms using centrality and distance
CN112001170A (zh) 一种识别经过变形的敏感词的方法和系统
Dhalaria et al. CSForest: an approach for imbalanced family classification of android malicious applications
More et al. Trust-based voting method for efficient malware detection
Graham et al. Finding and visualizing graph clusters using pagerank optimization
CN115473726A (zh) 一种识别域名的方法及装置
CN110968693A (zh) 基于集成学习的多标签文本分类计算方法
Anees et al. Performance analysis of multiple classifiers using different term weighting schemes for sentiment analysis
George et al. Cost-sensitive performance metric for comparing multiple ordinal classifiers
Jung et al. Clustering on the torus by conformal prediction
Ha et al. FC-MST: Feature correlation maximum spanning tree for multimedia concept classification
de Campos Merschmann et al. An extended local hierarchical classifier for prediction of protein and gene functions
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
Shi et al. Rough set based decision tree ensemble algorithm for text classification
CN114398887A (zh) 一种文本分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant