CN111723371B

CN111723371B - 构建恶意文件的检测模型以及检测恶意文件的方法

Info

Publication number: CN111723371B
Application number: CN202010572487.6A
Authority: CN
Inventors: 徐钟豪; 王彦磊; 谢忱
Original assignee: Shanghai Douxiang Information Technology Co ltd
Current assignee: Shanghai Douxiang Information Technology Co ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2024-02-20
Anticipated expiration: 2040-06-22
Also published as: CN111723371A

Abstract

本发明涉及构建恶意文件的检测模型以及检测恶意文件的方法，在构建恶意文件的检测模型的方法中，通过建立用于检测恶意文件的静态随机森林模型、静态LightGBM模型、动态随机森林模型、动态重要特征随机森林模型以及动态LightGBM模型以形成融合模型，融合模型与malheur模型结合以形成恶意文件的检测模型。本发明中的恶意文件的检测模型能及时发现可疑恶意文件，从而规避了恶意文件造成的危害。在检测恶意文件的方法中，通过采用本发明的恶意文件的检测模型和第三方工具进行检测，在面对不断的推陈出新的恶意文件或恶意软件时，能及时发现以查杀，并且准确率得到提升，还可以适应线上检测环境。

Description

构建恶意文件的检测模型以及检测恶意文件的方法

技术领域

本发明涉及网络安全技术领域，特别涉及构建恶意文件的检测模型以及检测恶意文件的方法。

背景技术

近年来，互联网行业蓬勃发展，网络已经成为人们主要的信息获取方式，随着各种新网站的出现，网络信息成指数级增长，伴随出现的安全问题也愈发严重。一些恶意文件形成的恶意软件通过一些网站或邮件链接等渠道，安装在电脑上，但用户不知情，恶意软件会配合其它攻击手段，盗取用户信息，甚至公司的信息。

现有技术中，针对恶意软件虽然已经提出大量的查杀方案，但现有的查杀方案主要是根据恶意软件的代码特征建立病毒库，再以病毒库为参考对用户电子设备内存在的软件进行查杀。这样的方法对已知的病毒具有很好的查杀效果，但面对不断的推陈出新的恶意软件依然显得力不从心。需要不断的完善病毒库，以应对恶意软件的变化。这样的方式不仅对新出现的恶意软件查杀不及时，同时面对已知的恶意软件只是稍微改变部分代码或新增一个壳体也无法及时识别及查杀。另外，近年来虽然有关AI的算法有应用到恶意文件检测，但都存在着准确率较低或并不适合线上环境等问题。

因此有必要提供一种构建恶意文件的检测模型以及检测恶意文件的方法，以达到能及时发现可疑恶意文件的目的，从而规避恶意文件造成的危害。

发明内容

本发明的目的在于提供一种构建恶意文件的检测模型以及检测恶意文件的方法，以达到能及时发现可疑恶意文件的目的，从而规避恶意文件造成的危害。

为了解决现有技术中存在的问题，本发明提供了一种构建恶意文件的检测模型的方法，包括以下步骤：

获取多个正常样本和多个恶意样本，并分别标签；

过滤出恶意样本中未加壳的恶意样本；

建立静态模型，包括：获取多个所述正常样本和多个所述恶意样本的PE格式；根据获取的各样本的PE格式，将数据转化成多个特征向量；合并多个所述特征向量，并与标签关联；将随机森林模型和LightGBM模型调到最优参数；将与标签关联后的特征向量输入到随机森林模型和LightGBM模型中，分别建立用于静态检测恶意文件的随机森林模型和LightGBM模型；

建立动态模型，包括：把多个所述正常样本和多个所述恶意样本放入沙箱中，得到沙箱报告，获取沙箱报告中各样本关于api、tid、return_value以及index的特征向量；合并多个所述特征向量，并与标签关联；将随机森林模型和LightGBM模型调到最优参数，并建立重要特征随机森林模型；将与标签关联后的特征向量输入到随机森林模型、重要特征随机森林模型和LightGBM模型中，分别建立用于动态检测恶意文件的随机森林模型、重要特征随机森林模型和LightGBM模型；

融合所有静态模型和所有动态模型得到融合模型；

根据融合模型得到的合计恶意可疑分值和malheur模型得到的恶意可疑分值计算得到最终恶意分值，根据最终恶意分值检测样本。

可选的，在所述构建恶意文件的检测模型的方法中，根据获取的各样本的PE格式，将数据转化成多个特征向量的方式如下：

特征一：统计sections的数量；

特征二：统计section大小等于0的数量；

特征三：统计section中包含读和执行权限的数量；

特征四：统计section中包含写权限的数量；

特征五：把section的name和size转化为向量；

特征六：把section的name和entropy转化为向量；

特征七：把entry转化为向量；

特征八：把section中的props属性转化为向量。

可选的，在所述构建恶意文件的检测模型的方法中，获取沙箱报告中各样本关于api、tid、return_value以及index的特征向量的方式如下：

特征一：统计各样本调用api总次数；

特征二：统计各样本调用api去重后的次数；

特征三：统计各样本tid的总次数和去重后的次数；tid的最小值、最大值、中位数以及方差；

特征四：统计各样本tid的0.2、0.4、0.6以及0.8分位数；

特征五：计算各样本tid的0.975分位减0.0125分位的值；

特征六：统计各样本index的最大值；

特征七：统计各样本中每个api的tid的个数和去重后的个数。

可选的，在所述构建恶意文件的检测模型的方法中，静态模型和动态模型中，合并多个所述特征向量，并与标签关联的关联方式如下：

通过将各样本的MD5与各样本合并后的特征向量组合，将各样本合并后的特征向量与其对应的标签关联。

可选的，在所述构建恶意文件的检测模型的方法中，建立重要特征随机森林模型的步骤包括：

由随机森林模型计算特征权重，将特征权重大于1的特征提取出来参与建立重要特征随机森林模型，以形成重要特征随机森林模型。

可选的，在所述构建恶意文件的检测模型的方法中，建立用于动态检测恶意文件的重要特征随机森林模型包括以下步骤：

获取沙箱报告中各样本关于api、tid、return_value以及index的重要特征向量；

合并多个所述重要特征向量，并与标签关联；

将与标签关联后的重要特征向量输入到重要特征随机森林模型中，建立用于动态检测恶意文件的重要特征随机森林模型。

可选的，在所述构建恶意文件的检测模型的方法中，静态随机森林模型、静态LightGBM模型、动态随机森林模型、动态重要特征随机森林模型以及动态LightGBM模型在建立模型时，均抽取正常样本和恶意样本总数的20％进行建立模型。

可选的，在所述构建恶意文件的检测模型的方法中，融合所有静态模型和所有动态模型得到融合模型包括以下步骤：

五个模型分别得出的恶意可疑分值分别乘以各自的权重得到一个合计恶意可疑分值。

可选的，在所述构建恶意文件的检测模型的方法中，得到最终恶意分值包括以下步骤：

由融合模型得到的合计恶意可疑分值和malheur模型得到的恶意可疑分值分别乘以各自的权重得到最终恶意分值。

可选的，在所述构建恶意文件的检测模型的方法中，所述正常样本和所述恶意样本均包括exe文件类型的样本、dll文件类型的样本以及apk文件类型的样本。

本发明还提供了一种检测恶意文件的方法，采用上述构建恶意文件的检测模型的方法所构建的恶意文件的检测模型，包括以下步骤：

判断待检测文件是否带壳；

若不带壳则采用静态随机森林模型、静态LightGBM模型、动态随机森林模型、动态重要特征随机森林模型、动态LightGBM模型以及malheur模型进行检测；根据融合模型得到静态随机森林模型、静态LightGBM模型、动态随机森林模型、动态重要特征随机森林模型以及动态LightGBM模型融合得到的合计恶意可疑分值；

若带壳则仅采用动态随机森林模型、动态重要特征随机森林模型、动态LightGBM模型以及malheur模型进行检测；根据融合模型得到动态随机森林模型、动态重要特征随机森林模型以及动态LightGBM模型融合得到的合计恶意可疑分值；

最后根据融合模型得到的合计恶意可疑分值和malheur模型得到的恶意可疑分值计算得到最终恶意分值，根据最终恶意分值判断待检测文件是否属于恶意文件。

可选的，在所述检测恶意文件的方法中，所述检测恶意文件的方法还包括以下检测方式：

查看clamav是否检出恶意情报，若有检出则为恶意文件；

查看yara是否检出恶意情报，若有检出则为恶意文件；

如果virustotal有返回结果，若返回结果中有7个及以上反病毒引擎，则视为恶意文件；

查看沙箱报告的可疑分数，若可疑分数>4，则视为恶意文件；

预设恶意软件经常出现的场景，并预设每个场景的权重，通过clamav扫描待检测文件，获取待检测文件调用系统的API，计算通过API合成的场景和权重得到恶意可疑分值，若分值>60，则视为恶意文件；

通过clamav扫描待检测文件中包含的敏感字符串，每条字符串对应一定的分数，若字符串分数总和>60，则视为恶意文件。

可选的，在所述检测恶意文件的方法中，若待检测文件在判断过程中至少有一种检测方式将其检测为恶意文件，则为恶意文件。

在本发明所提供的构建恶意文件的检测模型以及检测恶意文件的方法中，通过建立用于检测恶意文件的静态随机森林模型、静态LightGBM模型、动态随机森林模型、动态重要特征随机森林模型以及动态LightGBM模型以形成融合模型，融合模型与malheur模型结合以形成恶意文件的检测模型。本发明中的恶意文件的检测模型能及时发现可疑恶意文件，从而规避了恶意文件造成的危害。在检测恶意文件的方法中，通过采用本发明的恶意文件的检测模型和第三方工具进行检测，在面对不断的推陈出新的恶意文件或恶意软件时，能及时发现以查杀，并且准确率得到提升，还可以适应线上检测环境。

附图说明

图1为本发明实施例提供的构建恶意文件的检测模型的方法的流程图。

具体实施方式

下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

在下文中，术语“一”、“二”等用于在类似要素之间进行区分，且未必是用于描述特定次序或时间顺序。要理解，在适当情况下，如此使用的这些术语可替换。类似的，如果本文所述的方法包括一系列步骤，且本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序，且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法。

现有技术不仅对新出现的恶意软件查杀不及时，同时面对已知的恶意软件只是稍微改变部分代码或新增一个壳体也无法及时识别及查杀。并且，近年来虽然有关AI的算法有应用到恶意文件检测，但都存在着准确率较低或并不适合线上环境等问题。

因此有必要提供一种构建恶意文件的检测模型的方法，如图1所示，图1为本发明实施例提供的构建恶意文件的检测模型的方法的流程图，所述的方法包括以下步骤：

获取多个正常样本和多个恶意样本，并分别标签；

过滤出恶意样本中未加壳的恶意样本；

融合所有静态模型和所有动态模型得到融合模型；

本发明中构建恶意文件的检测模型的方法通过建立用于检测恶意文件的静态随机森林模型、静态LightGBM模型、动态随机森林模型、动态重要特征随机森林模型以及动态LightGBM模型以形成融合模型，融合模型与malheur模型结合以形成恶意文件的检测模型。本发明中的恶意文件的检测模型能及时发现可疑恶意文件，从而规避了恶意文件造成的危害。

具体的，所述正常样本和所述恶意样本均包括exe文件类型的样本、dll文件类型的样本以及apk文件类型的样本，若还有其他文件类型适用于本发明所提供的检测模型，也可以获取其他类型的样本参与建立模型。其中，恶意样本可以通过virusshare.com网站进行获取，正常样本需要通过搜集或者网上查询资料获取，如果正常样本采集过少，可以通过上采样/下采样来弥补，以获取足够多的样本参与建立模型。

进一步的，建立模型之前还需要对多个正常样本和多个恶意样本进行标签，以在任何情况下能区分出正常样本和恶意样本。接着，还需要过滤出恶意样本中未加壳的恶意样本，仅用正常样本和加壳的恶意样本参与建立模型，以提高建立模型的效率。

在本发明所提供的构建恶意文件的检测模型的方法中，可以采用python的模块包pefile获取多个所述正常样本和多个所述恶意样本的PE格式，每个样本的PE格式具有多种数据。

在建立静态模型的过程中，根据获取的各样本的PE格式，将每个样本的PE格式具有的多种数据转化成多个特征向量，方式如下：

特征一：统计sections的数量；

特征二：统计section大小等于0的数量；

特征三：统计section中包含读和执行权限的数量，例如：props中包含的MEM_READ/MEM_EXECUTE字段；

特征四：统计section中包含写权限的数量，例如：props中包含的MEM_WRITE字段；

特征五：把section的name和size转化为向量，例如转化方式可以为：首先把每个section中的name/size组成tuple类型，通过sklearn.feature_extraction.FeatureHasher，把参数input_type设置为"dict"，与前面的tuple类型相对应，转化为50维度的向量；

特征六：把section的name和entropy转化为向量，例如转化方式可以为：首先把每个section中的name/entropy组成tuple类型，通过sklearn.feature_extraction.FeatureHasher，把参数input_type设置为"dict"，与前面的tuple类型相对应，转化为50维度的向量；

特征七：把entry转化为向量，例如转化方式可以为：首先把每个entry中内容转化为字符串数组，通过sklearn.feature_extraction.FeatureHasher，把参数input_type设置为"string"，转化为50维度的向量；

特征八：把section中的props属性转化为向量，例如转化方式可以为：取出entry中内容，根据该内容找出相应的section，把props内容通过sklearn.feature_extraction.FeatureHasher，把参数input_type设置为"string"，转化为50维度的向量。

在建立动态模型的过程中，沙箱报告来源于沙箱，把所有样本放入沙箱sandbox中，获取每个样本的沙箱报告，并把沙箱报告存入elasticsearch中，从elasticsearch获取沙箱报告中各样本关于api、tid、return_value以及index的特征向量的方式如下：

特征一：统计各样本调用api总次数；

特征二：统计各样本调用api去重后的次数；

特征四：统计各样本tid的0.2、0.4、0.6以及0.8分位数；

特征五：计算各样本tid的0.975分位减0.0125分位的值；

特征六：统计各样本index的最大值；

特征七：统计各样本中每个api的tid的个数和去重后的个数。

进一步的，在静态模型和动态模型中，合并多个所述特征向量，并与标签关联的关联方式如下：

通过将各样本的MD5与各样本合并后的特征向量组合，将各样本合并后的特征向量与其对应的标签关联。从而明确各模型中的各样本属于正常样本还是恶意样本，用于后期判断各模型的准确率。

优选的，在静态模型和动态模型中，本发明还需要将随机森林模型和LightGBM模型调到最优参数，随机森林模型的参数包括：森林里树的个数(n_estimators)、每个决策树的随机选择的特征数目(max_features)以及树的最深深度(max_depth)；LightGBM模型的参数包括：树的最大深度(max_depth)、叶子具有的最小记录数(min_data_in_leaf)以及正则化参数(lambda)；调整随机森林模型的参数和LightGBM模型的参数，使随机森林模型和LightGBM模型准确率达到最高时，即最优参数。

进一步的，在所述构建恶意文件的检测模型的方法中，还需要建立重要特征随机森林模型，建立模型的步骤包括：

接着，利用重要特征随机森林模型建立用于动态检测恶意文件的重要特征随机森林模型包括以下步骤：

合并多个所述重要特征向量，并与标签关联；

优选的，静态随机森林模型、静态LightGBM模型、动态随机森林模型、动态重要特征随机森林模型以及动态LightGBM模型在建立模型时，均抽取正常样本和恶意样本总数的20％进行建立模型。

进一步的，根据实验，静态随机森林模型的准确率为0.9983，静态LightGBM模型的准确率为0.9760，动态随机森林模型的准确率为0.9936，动态重要特征随机森林模型的准确率为0.9942，动态LightGBM模型的准确率为0.9962。本发明将完成测试的所有模型保存，并把测试集的预测结果进行保存。

优选的，融合所有静态模型和所有动态模型得到融合模型包括以下步骤：

采用逻辑回归(logistic regression)将静态随机森林模型、静态LightGBM模型、动态随机森林模型(包含全部特征)、动态重要特征随机森林模型(仅包含重要特征)以及动态LightGBM模型在建立模型进行融合，其数据来源于参与建立模型的样本，这些样本通过MD5进行关联，在测试集上采用交叉验证。根据实验测试其平均准确率为0.99996。优选的，可以通过现有经验预设各模型的权重，使模型准确率达到最高，例如其权重可以为：

模型	权重(W)
		动态LightGBM模型	4.8888
动态随机森林模型	3.1112
		动态重要特征随机森林模型	3.5074
静态随机森林模型	2.6088
		静态LightGBM模型	4.1011
截距	-8.1057

接着，五个模型分别得出的恶意可疑分值分别乘以各自的权重得到一个合计恶意可疑分值。

进一步的，Malheur模型是一个利用沙箱报告分析恶意软件的工具，建立用于检测恶意文件的malheur模型的方式如下：

首先取出elasticsearch中的样本的沙箱报告，从沙箱报告中提取各样本如下表中的信息，把提取的信息转化为md5，取前5个字符，并与下面表格中的前缀组成字符串，最终转化为数组，存入文本文件中。

接着，通过malheur模型将文本文件进行聚类，生成用于检测恶意文件的malheur模型并保存。优选的，malheur模型的判定方式为：如果未被检测出恶意软件，则返回的簇为rejected；否则会返回该样本所属的簇类，并包含该样本距离该簇中心的距离，但其距离<0.65，通过公式将距离转化为恶意可疑分值。

进一步的，在所述构建恶意文件的检测模型的方法中，得到最终恶意分值包括以下步骤：

由融合模型得到的合计恶意可疑分值和malheur模型得到的恶意可疑分值分别乘以各自的权重得到最终恶意分值，例如融合模型的权重可以为0.75，malheur模型的权重可以为0.25。根据最终恶意分值检测样本的方式可以为：若最终恶意分值大于0.6，则视为恶意文本，反之视为正常文本。

判断待检测文件是否带壳；

具体的，判断待检测文件是否带壳；

不带壳则采用python的模块包pefile获取所述待检测文件的PE格式，并将PE格式中具有的多种数据转化成多个特征向量，合并多个所述特征向量，将合并的特征向量输入到静态随机森林模型和静态LightGBM模型进行检测得到检测结果；接着将所述待检测文件放入沙箱中，得到沙箱报告，获取沙箱报告中各样本关于api、tid、return_value以及index的特征向量，合并多个所述特征向量，将合并的特征向量输入到动态随机森林模型、动态重要特征随机森林模型、动态LightGBM模型进行检测得到检测结果。根据融合模型计算各检测结果以得到合计恶意可疑分值。

带壳则不用静态模型检测，只是将所述待检测文件放入沙箱中，得到沙箱报告，获取沙箱报告中各样本关于api、tid、return_value以及index的特征向量，合并多个所述特征向量，将合并的特征向量输入到动态随机森林模型、动态重要特征随机森林模型、动态LightGBM模型进行检测得到检测结果。根据融合模型计算各检测结果以得到合计恶意可疑分值。

进一步的，将沙箱报告中的数据按Malheur模型要求处理后输入Malheur模型，得到Malheur模型的恶意可疑分值。

接着，计算最终恶意分值，最终恶意分值＝合计恶意可疑分值*0.75+Malheur模型的恶意可疑分值*0.25；

最后，若最终恶意分值大于0.6，则判定为恶意文本，反之判定为正常文本。

优选的，在所述检测恶意文件的方法中，所述检测恶意文件的方法还可以包括以下检测方式：

查看clamav是否检出恶意情报，若有检出则为恶意文件；

查看yara是否检出恶意情报，若有检出则为恶意文件；

其中，场景和权重可以如下表所示：

其中，其字符串规则如下表所示：

优选的，在所述检测恶意文件的方法中，待检测文本可以采用上述所有的检测方式，若待检测文件在判断过程中至少有一种检测方式将其检测为恶意文件，则为恶意文件。

综上，在本发明所提供的构建恶意文件的检测模型以及检测恶意文件的方法中，通过建立用于检测恶意文件的静态随机森林模型、静态LightGBM模型、动态随机森林模型、动态重要特征随机森林模型以及动态LightGBM模型以形成融合模型，融合模型与malheur模型结合以形成恶意文件的检测模型。本发明中的恶意文件的检测模型能及时发现可疑恶意文件，从而规避了恶意文件造成的危害。在检测恶意文件的方法中，通过采用本发明的恶意文件的检测模型和第三方工具进行检测，在面对不断的推陈出新的恶意文件或恶意软件时，能及时发现以查杀，并且准确率得到提升，还可以适应线上检测环境。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种构建恶意文件的检测模型的方法，其特征在于，包括以下步骤：

获取多个正常样本和多个恶意样本，并分别标签；

过滤出恶意样本中未加壳的恶意样本；

融合所有静态模型和所有动态模型得到融合模型；

2.如权利要求1所述的构建恶意文件的检测模型的方法，其特征在于，根据获取的各样本的PE格式，将数据转化成多个特征向量的方式如下：

特征一：统计sections的数量；

特征二：统计section大小等于0的数量；

特征三：统计section中包含读和执行权限的数量；

特征四：统计section中包含写权限的数量；

特征五：把section的name和size转化为向量；

特征六：把section的name和entropy转化为向量；

特征七：把entry转化为向量；

特征八：把section中的props属性转化为向量。

3.如权利要求1所述的构建恶意文件的检测模型的方法，其特征在于，获取沙箱报告中各样本关于api、tid、return_value以及index的特征向量的方式如下：

特征一：统计各样本调用api总次数；

特征二：统计各样本调用api去重后的次数；

特征四：统计各样本tid的0.2、0.4、0.6以及0.8分位数；

特征五：计算各样本tid的0.975分位减0.0125分位的值；

特征六：统计各样本index的最大值；

特征七：统计各样本中每个api的tid的个数和去重后的个数。

4.如权利要求1所述的构建恶意文件的检测模型的方法，其特征在于，静态模型和动态模型中，合并多个所述特征向量，并与标签关联的关联方式如下：

5.如权利要求1所述的构建恶意文件的检测模型的方法，其特征在于，建立重要特征随机森林模型的步骤包括：

6.如权利要求5所述的构建恶意文件的检测模型的方法，其特征在于，建立用于动态检测恶意文件的重要特征随机森林模型包括以下步骤：

合并多个所述重要特征向量，并与标签关联；

7.如权利要求1所述的构建恶意文件的检测模型的方法，其特征在于，静态随机森林模型、静态LightGBM模型、动态随机森林模型、动态重要特征随机森林模型以及动态LightGBM模型在建立模型时，均抽取正常样本和恶意样本总数的20％进行建立模型。

8.如权利要求1所述的构建恶意文件的检测模型的方法，其特征在于，融合所有静态模型和所有动态模型得到融合模型包括以下步骤：

9.如权利要求1所述的构建恶意文件的检测模型的方法，其特征在于，得到最终恶意分值包括以下步骤：

10.如权利要求1所述的构建恶意文件的检测模型的方法，其特征在于，所述正常样本和所述恶意样本均包括exe文件类型的样本、dll文件类型的样本以及apk文件类型的样本。

11.一种检测恶意文件的方法，其特征在于，采用如权利要求1～10中任一项所述的构建恶意文件的检测模型的方法所构建的恶意文件的检测模型，包括以下步骤：

判断待检测文件是否带壳；

12.如权利要求11所述的检测恶意文件的方法，其特征在于，所述检测恶意文件的方法还包括以下检测方式：

查看clamav是否检出恶意情报，若有检出则为恶意文件；

查看yara是否检出恶意情报，若有检出则为恶意文件；

13.如权利要求12所述的检测恶意文件的方法，其特征在于，

若待检测文件在判断过程中至少有一种检测方式将其检测为恶意文件，则为恶意文件。