CN111797394B

CN111797394B - 基于stacking集成的APT组织识别方法、系统及存储介质

Info

Publication number: CN111797394B
Application number: CN202010586298.4A
Authority: CN
Inventors: 李树栋; 张倩青; 吴晓波; 韩伟红; 方滨兴; 田志宏; 殷丽华; 顾钊铨
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2021-06-08
Anticipated expiration: 2040-06-24
Also published as: US20230259621A1; CN111797394A; WO2021259207A1

Abstract

本发明公开了一种基于stacking集成的APT组织识别方法、系统及存储介质，方法包括：使用TF‑IDF算法结合n‑gram从恶意软件样本中提取出行为特征并向量化，形成恶意行为向量特征集；基于恶意行为向量特征集，计算特征之间的相关度和特征与类别之间的卡方值，对行为向量特征集进行两次筛选，获得低纬度的更优特征子集数据；构建多模型融合的Stacking集成学习APT组织识别模型，利用所述APT组织识别模型对新的APT攻击进行识别。本发明中对高维行为向量特征进行特征选择降低了数据集的复杂度；还考虑了数据集中的样本不平衡，采用了多模型集成训练，提高了识别准确度；另外本专利对于恶意样本的APT组织识别模型是经过机器学习训练得到的，提高了新样本的自动化识别效率。

Description

基于stacking集成的APT组织识别方法、系统及存储介质

技术领域

本发明属于网络安全的技术领域，具体涉及一种基于stacking集成的APT组织识别方法、系统及存储介质。

背景技术

APT高级持续性威胁，是利用先进的攻击手法对特定的目标进行长期持续性的网络攻击的攻击形式。与传统的网络攻击不同，APT攻击具有隐蔽性、针对性、持续性和组织性等特点，其攻击手段变化多端、攻击效果显著且难以防范。APT组织实施的网络攻击通常具有政治目的或经济目的，对国家和企业产生了巨大影响，对各类高等级信息安全系统造成的威胁日益严重。对实施APT攻击的恶意软件样本进行组织区分，有利于追溯真实的攻击组织实体，更好的区分和识别具体来源的攻击活动。另外，恶意软件的APT组织识别是一种检测APT攻击的方法。

学术界和产业界对APT组织识别方法有所不同，在学术界,主要方法依赖于恶意代码的相似性分析。例如Qiao,Yanchen等人提出了基于API调用的一种自动恶意软件同源性识别方法。该方法通过对恶意样本通过静态分析获得其API集合，然后基于编程习惯定义的六种调用行为使用Jaccard相似系数计算不同恶意软件的同源程度，并通过经验设立了一个阈值和该同源程度比较，得出样本间是否相似的结论，用该方法可判断APT样本之间的同源度，确定所属组织。虎志强等人对恶意样本文件进行逆向分析获取文件的函数，根据函数相似度对函数进行聚类得到特征集，并设定阈值，将共同类别数达到阈值的恶意样本文件归为一类，为归类后的每类恶意样本文件标记同一APT组织标识。Chen,W等人提出了一种结合恶意软件行为知识图谱的新基因模型。该方法首先基于节点内容建立了遗传模型，并提取属于各个APT组织的所有恶意软件的基因序列，然后计算恶意软件和基因库之间的相似性，并根据相似性评分判断该恶意软件属于哪APT组织。

而在产业界,APT组织识别更倾向于恶意代码结构及其攻击链的关联性分析,例如FireEye实验室于2013年对11个APT高级可持续攻击进行分析,在攻击所用的恶意代码中发现了相同的代码段、时间戳、数字证书等,基于这些收集的特征进行关联分析,认为攻击均是由同一个组织操纵。启明星辰通过分析漏洞部分样本的shellcode功能、代码相似性作为关联分析的特征,进而溯源到海德薇(Hedwig)组织。

上述产业界分析技术主要基于相关安全专家人工分析,受专家经验影响较大,其次不能满足大量样本的需要，效率低，耗时长。学术界自动化的识别技术所依赖的静态API函数特征会因为恶意软件的混淆和加壳技术使得特征提取困难，另外目前的方法主要依赖已知的恶意代码样本,如果仅根据已有的样本来识别变体,将可能导致识别工作低效甚至无效。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于stacking集成的APT组织识别方法、系统及存储介质，可以更准确的识别出APT攻击行为所属的APT组织。

为了达到上述目的，本发明采用以下技术方案：

本发明提供的一种基于stacking集成的APT组织识别方法，包括下述步骤：

使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化，形成恶意行为向量特征集；

基于恶意行为向量特征集和APT组织标记，计算特征之间的相关度和特征与类别之间的卡方值，对行为向量特征集进行两次筛选，获得低纬度的更优特征子集数据；

构建多模型融合的Stacking集成学习APT组织识别模型，利用所述APT组织识别模型对新的APT攻击进行组织识别。

作为优选的技术方案，所述使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化形成行为数据集，具体为：

对恶意样本行为文本特征先生成n-gram的词条，n-gram可按实际数据进行选择，这里推荐选择n-gram＝(1,5)，然后分别统计每个词条出现的词频TF，然后再为每个词条附上一个权值参数IDF；

其中，TF_i,j:词条i在样本j中出现的频率；n_i,j:词条i在样本j中出现的次数；∑_kn_k,j:样本j中出现的总词汇数；

再计算权值参数：

其中，|D|表示总样本数，|j:i∈d_j|表示包含词条i的样本数目，为了防止分母为零，所以加1，每个词最后的权重计算公式为：

TF-IDF_i,j＝TF_i,j×IDF_i,j

通过结合n-gram计算恶意样本行为特征文本的TF-IDF方法对数据进行预处理，计算文本词频特征，对行为文本数据进行特征向量化形成语义矩阵，形成恶意行为向量特征集。

作为优选的技术方案，使用n-gram结合TF-IDF方法提取的特征数据中包含了较多的特征属性，先对恶意行为向量特征集进行第一次初选，计算特征与特征之间的相关度，过滤掉特征之间存在信息冗余的特征。

作为优选的技术方案，所述计算特征与特征之间的相关度，具体为：

输入:行为向量数据集F，特征数F_n，阀值ε₁,ε₂；

随机选取一个特征X₁，计算其信息熵H(X₁)，若满足H(X₁)＞ε₁，则加入待选特征集S，否则，继续选取；

For i＝2,...,F_n

计算特征X_i的信息熵，若满足H(X_i)＞ε₁，则判断该特征与S中其他所有特

征X_j的相关性:

其中cov(X_i,X_j)是X_i和X_j之间的协方差,

是X_i的方差,

是X_j的方差，

是

X_i的平均值，

是X_j的平均值，E为均值；

若

则将特征X_i，加入待选特征集S；

若

计算X_i与X_j的信息熵，如果H(X_j)＞H(X_i)，则将特征X_i替换S中X_j；

输出特征子集S。

作为优选的技术方案，在计算特征与特征之间的相关度的过程中，特征子集S中所选的每个特征都具有较多信息量，且所有特征之间保持较低的相关性，ε₁,ε₂的取值需要根据实验效果进行调整参数，需要满足：

然后在获得简约特征子集S上，进一步使用卡方检验评价特征与类别标签之间的相关性，选择各个类别中卡方值排名前N的特征。

作为优选的技术方案，所述计算特征与类别之间的卡方值，具体为：

针对特征子集S中的S_m个类别,分别计算每个类别的中每个特征的卡方值，并将特征按照卡方值降序排列；

分别从各个类别的特征集中，选取排名前N的特征词放入待选特征子集S'中；

将S'中重复的特征保留一个，其余删除；

输出待选特征子集S'，算法结束。

作为优选的技术方案，所述构建多模型融合的Stacking集成学习APT组织识别模型，具体为：

基于特征选择后的特征集S'和对应标注的APT组织数据作为原始数据集，Stacking集成分类模型首先将原始数据集划分成若干个数据集，输入到第一层预测模型的各个基学习器中，每个基学习器输出各自的预测结果；其中基学习器选择对不平衡数据有不错分类效果的分类算法即支持向量机、随机森林、Adaboost算法,然后将第一层的输出数据作为第二层的输入数据，对第二层的元学习器进行训练，并由第二层的模型输出最终预测结果，其中以XGBoost算法作为元学习器。

作为优选的技术方案，Stacking集成学习的具体训练方式是：对于数据集D＝{(x_n,y_n),n＝1,...,N}，其中x_n为第n个样本的特征向量，y_n为第n个样本对应的预测值，m为所包含特征数量，即每一个特征向量为(x₁,x₂,...,x_m)；随机将数据划分成K个大小基本相等的子集D₁,D₂,...,D_k；其中D′＝D-D_k,D′和D_k分别为k折交叉验证中的训练集和测试集，训练集D′通过第一层的三个基学习器分别得到模型M_SVM,M_RF,M_Ada；对于测试集D_k中的每个样本x_n，基学习对它的预测表示为T_kn；在完成交叉验证过程后，将三个基学习器的输出数据构成新的数据样本D_new＝{(y_n,T_k1,...,T_kn),n＝1,...,N}；基学器生成的数据集D_new作为Stacking的第二层的输入数据，然后通过第二层的XGBoost算法进行训练得到模型M_Xgb。

本发明还提供了一种基于stacking集成的APT组织识别系统，包括特征提取模块、特征筛选模块以及识别模块；

所述特征提取模块，用于使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化，形成恶意行为向量特征集；

所述特征筛选模块，用于基于恶意行为向量特征集，计算特征之间的相关度和特征与类别之间的卡方值，对行为向量特征集进行两次筛选，获得低纬度的更优特征子集数据；

所述识别模块，用于构建多模型融合的Stacking集成学习APT组织识别模型，利用所述APT组织识别模型对新的APT攻击进行识别。

本发明还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现所述基于stacking集成的APT组织识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明基于动态分析获取恶意软件的行为数据，使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化，可有效应对某些变形技术，诸如加壳、打包等，提高了提取到所需的特征数据的有效性。

(2)本发明中对高维行为向量特征进行特征选择降低了数据集的复杂度；还考虑了数据集中的样本不平衡，采用了多模型集成训练，提高了识别准确度；另外本专利对于恶意样本的APT组织识别模型是经过机器学习训练得到的，提高了新样本的自动化识别效率。

(3)本发明可基于APT组织识别模型找到APT攻击所归属的组织，有利于追溯真实的攻击组织实体，更好的区分和识别具体来源的攻击活动。

附图说明

图1是本发明的基于stacking集成的APT组织识别方法流程图；

图2是本发明的Stacking的模型集成图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例基于stacking集成的APT组织识别方法，包括下述步骤：

S1：使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化，n-gram可按实际数据进行选择，这里推荐选择n-gram＝(1,5)，形成恶意行为向量特征集；

对恶意样本行为文本特征分别统计每个词出现的词频(TF)，然后再为其附上一个权值参数(IDF)。

其中，TF_i,j:词条i在样本j中出现的频率；n_i,j:词条i在样本j中出现的次数；∑_kn_k,j:样本j中出现的总词汇数。

再计算权重：

TF-IDF_i,j＝TF_i,j×IDF_i,j

S2、基于恶意行为向量特征集，计算特征之间的相关度和特征与类别之间的卡方值，对行为向量特征集进行两次筛选，获得低纬度的更优特征子集数据；

由于步骤S1中利用n-gram方法提取的数据中包含了较多的特征属性，需要先对该特征集进行一次初选，计算特征与特征之间的相关度，过滤掉特征之间存在信息冗余的特征。

更进一步的，在本实施例中，计算特征与特征之间的相关度，具体为算法那为：

输入:行为向量数据集F，特征数F_n，阀值ε₁,ε₂。

输出:特征子集S

①随机选取一个特征X₁，计算其信息熵H(X₁)，若满足H(X₁)＞ε₁，则加入待选特征集S。否则，继续选取。

②For i＝2,...,F_n

③计算特征X_i的信息熵，若满足H(X_i)＞ε₁，则判断该特征与S中其他所有特征X_j的相关性:

其中cov(X_i,X_j)是X_i和X_j之间的协方差,

是X_i的方差,

是X_j的方差，

是X_i的平均值，

是X_j的平均值，E为均值。

④若|ρ_X,Y|＜ε₂则将特征X_i，加入待选特征集S。若|ρ_X,Y|＞ε₂，计算X_i与X_j的信息熵，如果H(X_j)＞H(X_i)，则将特征X_i替换S中X_j。

⑤输出特征子集S。

更进一步的，以上基于相关性的特征选择过程中，特征子集S中所选的每个特征都具有较多信息量，且所有特征之间保持较低的相关性。ε₁,ε₂的取值需要根据实验效果进行调整参数，需要满足：

在本实施例中，基于卡方检验的特征初选算法:

输入:特征子集S,类别数S_m，特征选择维度N

输出:特征子集S'

①针对特征子集S中的S_m个类别,分别计算每个类别的中每个特征的卡方值，并将特征按照卡方值降序排列。

a)分别从各个类别的特征集中，选取排名前N的特征词放入待选特征子集S'中；

b)将S'中重复的特征保留一个，其余删除；

c)输出待选特征子集S'，算法结束。

本实施例的方法在特征选择部分，首先使用信息熵和相关度选择出包含最多信息量的非冗余特征，然后进一步利用卡方检验选择出与类别相关性较高的特征子集，实现了通过特征选择降低了数据维度，同时得到更好的有效特征集。

S3、构建多模型融合的Stacking集成学习APT组织识别模型，利用所述APT组织识别模型对新的APT攻击进行识别。

如图2所示，本实施例基于特征选择后的特征集S'和对应标注的APT组织数据作为原始数据集，Stacking集成分类模型首先将原始数据集划分成若干个数据集，输入到第一层预测模型的各个基学习器中，每个基学习器输出各自的预测结果。其中基学习器选择对不平衡数据有不错分类效果的分类算法即支持向量机、随机森林、Adaboost算法,然后将第一层的输出数据作为第二层的输入数据，对第二层的元学习器进行训练，并由第二层的模型输出最终预测结果，其中以XGBoost算法作为元学习器。

更进一步的，Stacking集成学习的具体训练方式是：对于数据集D＝{(x_n,y_n),n＝1,...,N}，其中x_n为第n个样本的特征向量，y_n为第n个样本对应的预测值，m为所包含特征数量，即每一个特征向量为(x₁,x₂,...,x_m)。随机将数据划分成K个大小基本相等的子集D₁,D₂,...,D_k。其中D′＝D-D_k,D′和D_k分别为k折交叉验证中的训练集和测试集，训练集D′通过第一层的三个基学习器分别得到模型M_SVM,M_RF,M_Ada。对于测试集D_k中的每个样本x_n，基学习对它的预测表示为T_kn。在完成交叉验证过程后，将三个基学习器的输出数据构成新的数据样本D_new＝{(y_n,T_k1,...,T_kn),n＝1,...,N}。基学器生成的数据集D_new作为Stacking的第二层的输入数据，然后通过第二层的XGBoost算法进行训练得到模型M_Xgb。

在另一个实施例中，提供了基于stacking集成的APT组织识别系统，该系统包括特征提取模块、特征筛选模块以及识别模块；

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，另外Stacking集成所使用的算法不仅限于举例中的几种算法。

在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，基于stacking集成的APT组织识别方法，具体为：

基于恶意行为向量特征集，计算特征之间的相关度和特征与类别之间的卡方值，对行为向量特征集进行两次筛选，获得低纬度的更优特征子集数据；

构建多模型融合的Stacking集成学习APT组织识别模型，利用所述APT组织识别模型对新的APT攻击进行识别。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于stacking集成的APT组织识别方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于stacking集成的APT组织识别方法，其特征在于，所述使用TF-IDF算法结合n-gram从恶意软件样本中提取出行为特征并向量化形成行为数据集，具体为：

对恶意样本行为文本特征先生成n-gram的词条，然后分别统计每个词条出现的词频TF，然后再为每个词条附上一个权值参数IDF；

再计算权值参数：

TF-IDF_i,j＝TF_i,j×IDF_i,j

3.根据权利要求1所述基于stacking集成的APT组织识别方法，其特征在于，使用n-gram结合TF-IDF方法提取的特征数据中包含了较多的特征属性，先对恶意行为向量特征集进行第一次初选，计算特征与特征之间的相关度，过滤掉特征之间存在信息冗余的特征。

4.根据权利要求3所述基于stacking集成的APT组织识别方法，其特征在于，所述计算特征与特征之间的相关度，具体为：

输入:行为向量数据集F，特征数F_n，阀值ε₁,ε₂；

For i＝2,...,F_n

计算特征X_i的信息熵，若满足H(X_i)＞ε₁，则判断该特征与S中其他所有特征X_j的相关性:

其中cov(X_i,X_j)是X_i和X_j之间的协方差,

是X_i的方差,

是X_j的方差，

是X_i的平均值，

是X_j的平均值，E为均值；

若

则将特征X_i，加入待选特征集S；

若

输出待选特征集S。

5.根据权利要求4所述基于stacking集成的APT组织识别方法，其特征在于，在计算特征与特征之间的相关度的过程中，待选特征集S中所选的每个特征都具有较多信息量，且所有特征之间保持较低的相关性，ε₁,ε₂的取值需要根据实验效果进行调整参数，需要满足：

然后在获得待选特征集S上，进一步使用卡方检验评价特征与类别标签之间的相关性，选择各个类别中卡方值排名前N的特征。

6.根据权利要求1所述基于stacking集成的APT组织识别方法，其特征在于，所述计算特征与类别之间的卡方值，具体为：

针对待选特征集S中的S_m个类别,分别计算每个类别的中每个特征的卡方值，并将特征按照卡方值降序排列；

将S'中重复的特征保留一个，其余删除；

输出待选特征子集S'，算法结束。

7.根据权利要求1所述基于stacking集成的APT组织识别方法，其特征在于，所述构建多模型融合的Stacking集成学习APT组织识别模型，具体为：

基于特征选择后的待选特征子集S'和对应标注的APT组织数据作为原始数据集，Stacking集成分类模型首先将原始数据集划分成若干个数据集，输入到第一层预测模型的各个基学习器中，每个基学习器输出各自的预测结果；其中基学习器选择对不平衡数据有不错分类效果的分类算法即支持向量机、随机森林、Adaboost算法,然后将第一层的输出数据作为第二层的输入数据，对第二层的元学习器进行训练，并由第二层的模型输出最终预测结果，其中以XGBoost算法作为元学习器。

8.根据权利要求7所述基于stacking集成的APT组织识别方法，其特征在于，Stacking集成学习的具体训练方式是：对于数据集D＝{(x_n,y_n),n＝1,...,N}，其中x_n为第n个样本的特征向量，y_n为第n个样本对应的预测值，m为所包含特征数量，即每一个特征向量为(x₁,x₂,...,x_m)；随机将数据划分成K个大小相等的子集D₁,D₂,...,D_k；其中D′＝D-D_k,D′和D_k分别为k折交叉验证中的训练集和测试集，训练集D′通过第一层的三个基学习器分别得到模型M_SVM,M_RF,M_Ada；对于测试集D_k中的每个样本x_n，基学习对它的预测表示为T_kn；在完成交叉验证过程后，将三个基学习器的输出数据构成新的数据样本D_new＝{(y_n,T_k1,...,T_kn),n＝1,...,N}；基学器生成的数据集D_new作为Stacking的第二层的输入数据，然后通过第二层的XGBoost算法进行训练得到模型M_Xgb。

9.一种基于stacking集成的APT组织识别系统，其特征在于，包括特征提取模块、特征筛选模块以及识别模块；

10.一种存储介质，存储有程序，其特征在于：所述程序被处理器执行时，实现权利要求1-8任一项所述的基于stacking集成的APT组织识别方法。