CN112818344B

CN112818344B - 一种运用人工智能算法提高病毒查杀率的方法

Info

Publication number: CN112818344B
Application number: CN202010828745.2A
Authority: CN
Inventors: 张颢
Original assignee: Beijing Credit Information Technology Co ltd
Current assignee: Beijing Credit Information Technology Co ltd
Filing date: 2020-08-17
Publication date: 2024-06-04
Anticipated expiration: 2040-08-17

Abstract

本发明涉及人工智能与机器学习技术领域，尤其是本发明提供一种运用人工智能算法提高病毒查杀率的方法，包括样本特征预处理系统和模型训练评估系统，样本预处理系统包括：用于对Windows PE文件特征提取的样本特征提取模块、用于对样本特征进行向量化处理的样本特征向量化模块以及用于对特征进行筛选的特征筛选模块；模型训练评估系统包括：利用XGBoost算法来训练一个分类器对黑白样本进行分类的训练模块和来对样本特征预处理系统中训练好的模型进行评估并找到合适的参数的评估模块，本发明能够提高对未知样本病毒的查杀率，同时可以随着模型不停的迭代更新。

Description

一种运用人工智能算法提高病毒查杀率的方法

技术领域

本发明涉及计算机信息处理领域，尤其涉及一种运用人工智能算法提高病毒查杀率的方法。

背景技术

现有的传统杀毒引擎需要大量病毒分析人员对病毒进行分析研究从而制定规则，来达到查杀的目的。

因为目前的病毒分析是人工处理，对未知样本需要先获得病毒样本，才能制定规则，因此往往具有滞后性。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种运用人工智能算法提高病毒查杀率的方法。

为达到以上目的，本发明采用的技术方案为：一种运用人工智能算法提高病毒查杀率的方法，包括样本特征预处理系统和模型训练评估系统，其特征在于，所述样本特征预处理系统包括：

样本特征提取模块：来对Windows PE文件特征的提取；

样本特征向量化模块：来对样本特征进行向量化；

特征筛选模块：来对特征进行筛选，使特征空间降维；

其具体步骤如下：

(i)从存储样本的Hadoop HDFS平台上分布式下载样本；

(ii)样本下载完成后，在各个机器上运行特征提取的程序，提取特征的同时将之前未知的特征上传到特征数据库，其中特征数据库是一个存储特征的名称和特征的序号对应关系的Redis数据库；

(iii)特征提取后的样本需要经过向量化处理，将每个样本都转换为与特征空间大小相同的数组，将该数组的值初始化为0，然后根据Redis数据库中存储的特征名称和特征序号的对应关系，获取特征的序号，然后给数组的该序号位置赋值，其中特征空间大小为20万；

(iv)最后需要进行特征筛选，特征筛选使用XGBoost算法，针对单次训练所使用的样本利用全量特征数据来用于特征筛选模型的训练；模型的损失函数采用Softmax分类函数；模型训练完毕后，可以得到一个在本次训练中特征的重要性指标；

所述模型训练评估系统包括：

训练模块：利用XGBoost算法来训练一个分类器对黑白样本进行类；

评估模块：来对样本特征预处理系统中训练好的模型进行评估，并找到合适的参数，来使检出率和误报率达到平衡；

其具体步骤如下：

(i)使用经过筛选的特征对要用于模型训练评估的样本进行重新向量化处理，将每个样本都转换为与特征空间大小相同的数组，将该数组的值初始化为0，然后根据Redis数据库中存储的特征名称和特征序号的对应关系，获取特征的序号，然后给数组的该序号位置赋值，其中特征空间大小由样本特征预处理系统中的20万降低到8000；

(ii)将样本按照80％，15％和5％的比例分解成训练集、测试集和验证集；其中，训练集和验证集用于模型的训练；测试集不参与训练，因此对于训练好的模型属于未知样本，并用于在模型评估工作中对模型进行评估；

(iii)当所有参数都调整好，可以对模型进行编译打包成MATRIX引擎加入产品；

(iv)整个流程每两周循环一次，最新一次的训练会预先加载上一次已经训练好的模型，对该模型的参数进行更新并且根据情况增加树的个数。

进一步的，所述XGBoost算法具体包括以下方法：

XGBoost算法不断地枚举不同树的结构，然后利用打分函数来寻找出一个最优结构的树，接着加入到模型中，不断重复这样的操作；并在最优结构的树中，选择一个特征分裂，计算损失函数最小值，然后再选一个特征分裂，又得到一个损失函数最小值，枚举完，找一个效果最好的特征，把一个节点分裂成两个子节点，这样不断加深树的深度；

其中在以下情况下可以停止增长树的深度：

(1)当引入的分裂带来的增益小于设定阈值的时候，可以忽略掉这个分裂；

(2)当树达到最大深度时则停止建立决策树，避免树太深导致学习局部样本，从而过拟合；

(3)样本权重和小于设定阈值时则停止建树，防止过拟合；

当一棵树停止增长时，计算损失函数的值，得到预测的残差；然后再次添加树，重复之前的特征分裂来生长一棵新树，去拟合上棵树预测的残差。

与现有技术相比，本发明具有以下有益效果：对未知样本的查杀率远高于传统引擎，对一些启发式杀毒引擎也具有检出率高的优势，并且误报率在可接受的范围内；本发明使用机器学习算法结合大数据，使用大量样本对模型进行训练，单次训练样本数都在500万左右，累计的训练样本已到达2500千万以上；并且随着模型不停的迭代更新，对未知样本的检出率还会有所提升。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。

从存储样本的Hadoop HDFS平台上下载样本，Hadoop HDFS是一个分布式的数据存储系统，支持PB级别的信息存储；在多台机器上进行分布式下下载；

样本下载完成后，在各个机器上运行特征提取的程序，提取特征的同时将之前未知的特征上传到特征数据库，特征数据库是一个Redis数据库，Redis数据库是一个服务启动后将数据存放在内存中的key-value型的数据库；因为存放在内存中所以速度很快，非常适合下一步的向量化工作；

特征提取后的样本需要经过向量化才能成为被计算机识别的数据，向量化的原理十分简单，具体方法如下：将每个样本都转换为与特征空间大小相同的数组，将该数组的值初始化为0，然后根据Redis数据库中存储的特征名称和特征序号的对应关系，获取特征的序号，然后给数组的该序号位置赋值；

特征筛选模块；特征筛选使用XGBoost算法，针对单次训练所使用的样本使用全量特征数据(特征空间20万左右，也就是说单个样本数组长度也是20万)来用于特征筛选模型的训练；模型的损失函数采用Softmax分类函数；模型训练完毕后，可以得到一个在本次训练中特征的重要性指标，简单的来说，一个特征被更多的被选择为模型中决策树的分裂节点，那么这个特征的就越重要；根据特征的重要性指标从高到低对特征进行排序，选择排名top n的特征作为新的模型训练特征存入Redis数据库中的另一个表格，这个表格只存储历次特征筛选被选中的特征，因为Redis是key-value型的数据库，key值是unique的，因此会自动去重。

使用经过筛选的特征对要用于模型训练评估的样本进行重新向量化，向量化过程与样本预处理的第3步一样，只是特征空间大小由之前的20万降低到8000左右，也就是单个样本的数组的长度是8000；这样就极大的减少了数据集的存储大小和训练时的计算量；

将样本按照80％，15％和5％的比例分解成，训练集，测试集和验证集；A.训练集和验证集用于模型的训练；训练集的作用就是用来训练模型；验证集用于评估模型的训练过程，比如需要建立一个由10000棵树组成的XGBoost模型，但是有过拟合的风险；那么可以每建立100棵树就用验证集来验证一下模型的效果，如果在建立5000棵树后，再建立更多的树，只会让模型在验证集上的结果越来越差，那么就可以提前停止训练，直接使用这个有5000棵树的模型；B.测试集不参与训练，因此对于训练好的模型属于未知样本，用来在下一步评估工作中对模型进行评估；

模型的评估工作在测试集上完成；

当所有参数都调整好，就可以对模型进行编译打包成MATRIX引擎加入的产品；

整个流程每两周循环一次，最新一次的训练会预先加载上一次已经训练好的模型，对该模型的参数进行更新并且根据情况增加树的个数；也就是每两周就有一个新的模型输出。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。

本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。

本发明要求的保护范围由所附的权利要求书及其等。

Claims

1.一种运用人工智能算法提高病毒查杀率的方法，包括样本特征预处理系统和模型训练评估系统，其特征在于，所述样本特征预处理系统包括：

样本特征提取模块：来对Windows PE文件特征的提取；

样本特征向量化模块：来对样本特征进行向量化；

特征筛选模块：来对特征进行筛选，使特征空间降维；

其具体步骤如下：

(i)从存储样本的Hadoop HDFS平台上分布式下载样本；

(iv)最后需要进行特征筛选，特征筛选使用XGBoost算法，针对单次训练所使用的样本利用全量特征数据来用于特征筛选模型的训练；模型的损失函数采用Softmax分类函数；模型训练完毕后，得到一个在本次训练中特征的重要性指标；

根据特征的重要性指标从高到低对特征进行排序，选择排名topn的特征作为新的模型训练特征存入Redis数据库中的另一个表格，这个表格只存储历次特征筛选被选中的特征，因为Redis是key-value型的数据库，key值是unique的，因此会自动去重；

所述模型训练评估系统包括：

其具体步骤如下：

(iii)当所有参数都调整好，对模型进行编译打包成MATRIX引擎加入产品；

2.根据权利要求1所述的一种运用人工智能算法提高病毒查杀率的方法，其特征在于，所述XGBoost算法具体包括以下方法：

其中在以下情况下停止增长树的深度：

(1)当引入的分裂带来的增益小于设定阈值的时候，忽略掉这个分裂；

(3)样本权重和小于设定阈值时则停止建树，防止过拟合；

当一棵树停止增长时，计算损失函数的值，得到预测的残差；然后再次添加树，重复之前的特征分裂来生长一新树，去拟合上棵树预测的残差。