CN109858247A

CN109858247A - 一种基于XGBoost的静态三特征模型的恶意软件分类方法

Info

Publication number: CN109858247A
Application number: CN201811597864.0A
Authority: CN
Inventors: 傅涛; 王力; 郑轶; 张腾
Original assignee: Jiangsu's Software Polytron Technologies Inc
Current assignee: Jiangsu's Software Polytron Technologies Inc
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-06-07

Abstract

本申请涉及一种基于XGBoost的静态三特征模型的恶意软件分类方法。现有的静态特征提取技术主要依靠字节视图（即16进制字节码）、汇编视图（即asm汇编代码）、PE视图（即PE结构化信息）三个方面进行特征的提取，使用其中之一的方法虽耗时短，但准确率可能会很低；全取三种方法虽然可以有效的提高准确率，但相对于耗时的成倍增加，准确率仍显不足。本发明引用机器学习算法XGBoost算法，对以上三种提取后的特征集进行算法集成运算，获得更高的准确率。

Description

一种基于XGBoost的静态三特征模型的恶意软件分类方法

技术领域

本发明涉及一种特征分类方法，特别是一种融合特征分类方法。

背景技术

现有的基于XGBoost模型的分类器要么利用的静态特征太少，要么加入动态特征的融合，会对分析系统造成破坏，不安全。现实状况需要在不破坏分析系统环境的基础上，提供一种效率更高、更安全、准确率相对更高的恶意软件的分类模型。

发明内容

鉴于现有技术的缺陷，本发明创造提出一种基于XGBoost的静态三特征模型的恶意软件分类方法，相对于根据单一静态特征对恶意软件的分类方法，三特征XGBoost模型算法的提高了分类的准确率；相对于采用静态、动态特征结合的分类方法，三特征XGBoost模型算法又提高了效率以及安全性。

采用的技术解决方案如下：

一种基于XGBoost的静态三特征模型的恶意软件分类方法，其工作步骤如下：

步骤1：获取数据集的S01阶段：首先从VirusShare网站获取原始数据集，选用的“VirusShare_00271”数据集总量为 65 536，本发明针对Windows平台下的 PE 文件，因而需要对原始数据进行筛选，本文借助PE Exeinfo这款软件和命令行file指令，筛选掉非 PE文件，后去掉家族分类不明确的样本，最终获得182个不同家族2798个样本，然后进入S02阶段。

步骤2：提取三个特征群的特征向量的S02阶段：分别获取样本的字节视图、汇编视图、PE视图特征，然后进入S03阶段。

步骤3：特征群组合的枚举及样本特征矩阵合并的S03阶段：就是将各个特征群对应的样本特征矩阵合并一个特征矩阵，我们将字节视图、汇编视图、PE视图这三个特征群编号为0~2，则每个组合中三个特征群选与不选可表示为特征群选择序列{ I0,...,Ii,...,I2 }， Ii ∈{0,1}，即当 Ii = 1表示选择特征群 i， Ii = 0表示不选择特征群 i。对于每个特征群组合，当其包含不只一个特征群时，我们需要进行不同特征群样本特征矩阵的合并，每次将一个特征群的样本特征矩阵并入总的样本特征矩阵，然后进入S04阶段。

步骤4：XGBoost分类模型训练的S04阶段, 每个 XGBoost 分类模型的训练目标是学习多棵回归树，使得我们的目标函数（，其中N为训练集软件样本数，为训练样本i的预测家族类别，0表示预测错误，1表示预测成功，为模型对软件样本i的预测值。为损失函数，Ω ()为每t棵回归树的复杂度）最小。我们采用迭代的方法训练每一棵回归树，每训练一棵回归树，更新当前整个分类模型对软件样本总的预测值，回归树的生成采用逐层分裂的方法，不断地扩展回归树的深度，在完成回归树的生成后，需要进行减枝以减小回归树的复杂度，经过剪枝后，计算各个叶子结点的对落入其中软件样本的当前预测值，然后进入S05阶段。

步骤5：生成最终分类结果的S05阶段：将测试集软件样本输入到基于 XGBoost 的多特征群模型融合算法训练的整个分类模型。先将软件样本使用训练阶段相同的方法，得到7种（我们使用的三类特征群来说，除去一个特征群都没有，一共有23-1=7种不同的组合方式）特征群组合方式对应的样本特征向量，再经过7个 XGBoost 分类模型，得到输出，组成新的特征向量，输入到逻辑回归分类器中，得到软件样本属于恶意软件的概率pi，当pi>0.5时，我们将软件样本判断为当前预测家族种类。

所述的步骤2中去掉了对动态特征的筛选，保证分析系统的安全

所述的步骤3中两个特征矩阵的合并步骤为：

a将特征矩阵1的特征向量数记为 offset。对于稀疏特征矩阵2来说，特征向量数为特征矩阵1中最大的特征编号加 1。

b枚举待合并的两个特征矩阵的每个样本的特征向量。

c将矩阵特征向量1原样复制到合并后的特征向量中。

d将矩阵的特征向量2中的每个特征的特征编号加上offset。并入到合并后的特征向量中。

所述的步骤4利用决策树生成过程中选择最优属性进行节点分裂，分裂过程完全分裂则不进行剪枝。

有益效果：

与现有技术相比，本发明创造的优点在于忽略动态特征只取静态特征的方案增加了分析系统的安全性，并提升了效率。使用的XGBoost算法模型与传统的分类方法相比分类精度更优，提高了恶意软件的分类的准确率。

附图说明

图1为本发明创造的流程示意图。

具体实施方式：

下面结合附图1，对本发明创造做进一步阐述：

一种基于XGBoost的静态三特征模型的恶意软件分类方法，其特征在于包含以下步骤：

所述的步骤3中两个特征矩阵的合并步骤为：

b枚举待合并的两个特征矩阵的每个样本的特征向量。

c将矩阵特征向量1原样复制到合并后的特征向量中。

Claims

1.一种基于XGBoost的静态三特征模型的恶意软件分类方法，其工作步骤如下：

步骤1：获取数据集的S01阶段：首先从VirusShare网站获取原始数据集，选用的“VirusShare_00271”数据集总量为 65 536，本发明针对Windows平台下的 PE 文件，因而需要对原始数据进行筛选，本文借助PE Exeinfo这款软件和命令行file指令，筛选掉非 PE文件，后去掉家族分类不明确的样本，最终获得182个不同家族2798个样本，然后进入S02阶段；

步骤2：提取三个特征群的特征向量的S02阶段：分别获取样本的字节视图、汇编视图、PE视图特征，然后进入S03阶段；

步骤3：特征群组合的枚举及样本特征矩阵合并的S03阶段：就是将各个特征群对应的样本特征矩阵合并一个特征矩阵，我们将字节视图、汇编视图、PE视图这三个特征群编号为0~2，则每个组合中三个特征群选与不选可表示为特征群选择序列{ I0,...,Ii,...,I2 }，Ii ∈{0,1}，即当 Ii = 1表示选择特征群 i， Ii = 0表示不选择特征群 i；

对于每个特征群组合，当其包含不只一个特征群时，我们需要进行不同特征群样本特征矩阵的合并，每次将一个特征群的样本特征矩阵并入总的样本特征矩阵，然后进入S04阶段；

步骤4：XGBoost分类模型训练的S04阶段, 每个 XGBoost 分类模型的训练目标是学习多棵回归树，使得我们的目标函数（，其中N为训练集软件样本数，为训练样本i的预测家族类别，0表示预测错误，1表示预测成功，为模型对软件样本i的预测值，

为损失函数，Ω ()为每t棵回归树的复杂度）最小；我们采用迭代的方法训练每一棵回归树，每训练一棵回归树，更新当前整个分类模型对软件样本总的预测值，回归树的生成采用逐层分裂的方法，不断地扩展回归树的深度，在完成回归树的生成后，需要进行减枝以减小回归树的复杂度，经过剪枝后，计算各个叶子结点的对落入其中软件样本的当前预测值，然后进入S05阶段；

步骤5：生成最终分类结果的S05阶段：将测试集软件样本输入到基于 XGBoost 的多特征群模型融合算法训练的整个分类模型，先将软件样本使用训练阶段相同的方法，得到7种（我们使用的三类特征群来说，除去一个特征群都没有，一共有23-1=7种不同的组合方式）特征群组合方式对应的样本特征向量，再经过7个 XGBoost 分类模型，得到输出，组成新的特征向量，输入到逻辑回归分类器中，得到软件样本属于恶意软件的概率pi，当pi>0.5时，我们将软件样本判断为当前预测家族种类。

2.根据权利要求1所述的一种基于XGBoost的静态三特征模型的恶意软件分类方法，其特征在于所述的步骤2中去掉了对动态特征的筛选，保证分析系统的安全。

3.根据权利要求1所述的一种基于XGBoost的静态三特征模型的恶意软件分类方法，其特征在于所述的步骤3中两个特征矩阵的合并步骤为：

a将特征矩阵1的特征向量数记为 offset；

对于稀疏特征矩阵2来说，特征向量数为特征矩阵1中最大的特征编号加 1；

b枚举待合并的两个特征矩阵的每个样本的特征向量；

c将矩阵特征向量1原样复制到合并后的特征向量中；

d将矩阵的特征向量2中的每个特征的特征编号加上offset；

并入到合并后的特征向量中。

4.根据权利要求1所述的一种基于XGBoost的静态三特征模型的恶意软件分类方法，其特征在于所述的步骤4利用决策树生成过程中选择最优属性进行节点分裂，分裂过程完全分裂则不进行剪枝。