CN107888590B

CN107888590B - 一种基于gpu与贝叶斯网络推理的未知木马的检测方法

Info

Publication number: CN107888590B
Application number: CN201711102478.5A
Authority: CN
Inventors: 孙宏跃; 蒋荣; 曲志峰
Original assignee: Nanjing Zhongfu Information Technology Co Ltd; Zhongfu Information Co Ltd
Current assignee: Nanjing Zhongfu Information Technology Co Ltd; Zhongfu Information Co Ltd
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2020-08-28
Anticipated expiration: 2037-11-10
Also published as: CN107888590A

Abstract

本发明提供一种基于GPU与贝叶斯网络推理的未知木马的检测方法，采用基于GPU加速的贝叶斯学习理论进行未知木马的检测，使用贝叶斯网络构建未知木马的检测模型，通过贝叶斯网络的推理解决了未知木马检测过程中存在的特征分类困难、概率性行为识别等问题。通过贝叶斯网络用条件概率表达系统程序之间的不确定性因果关系，具有更强的处理不确定性信息的能力及特有的推理机制，不需要硬性定义木马特征，因此具有较强的适用性。在现有程序特征基础上通过贝叶斯模型计算木马概率，通过提取未知程序中的行为，计算出是木马的概率，从而有效检测已经木马的多态变形体以及新出现的未知木马。

Description

一种基于GPU与贝叶斯网络推理的未知木马的检测方法

技术领域

本发明涉及木马检测领域，尤其涉及一种基于GPU与贝叶斯网络推理的未知木马的检测方法。

背景技术

互联网在国家的政治、经济、文化等领域中发挥着越来越重要的作用，网络空间已经发展成为第五大战略空间。但是，互联网飞速发展的同时，计算机木马也在不断应用新技术新方式演变，木马的数量和危害都在大幅增长，这就使得木马检测技术的研究具有越来越重要的理论与实际意义。

目前，主流的木马检测技术大致分为静态检测技术和动态检测技术两类。静态检测技术主要通过提取木马的静态特征构建特征库，然后对其进行查杀；动态检测技术则主要是基于行为分析的检测技术。由于静态检测技术无法及时预防和对抗未知的木马攻击，存在一定的局限性。

发明内容

为了克服上述现有技术中的不足，本发明提供一种基于GPU与贝叶斯网络推理的未知木马的检测方法，方法包括：

步骤一，主机将程序样本依据样本的指标特征按类别加以识别，对程序的行为序列化，构建程序的行为向量；

步骤二，主机对程序行为向量进行规范化处理，记为L；

步骤三，主机整合系统程序的行为向量，构建特征识别矩阵，记为M；

步骤四，主机将数据传输到设备，进行基于GPU加速的贝叶斯分类器训练，计算训练样本中的条件概率和先验概率，并通过调节矩阵M的样本分布，得到在预设范围内的条件概率和先验概率，构造贝叶斯网络图及贝叶斯分类模型；

步骤五，将构造贝叶斯网络图及贝叶斯分类模型从设备端传输到主机，基于构造贝叶斯网络图及贝叶斯分类模型对主机数据循环进行贝叶斯模型的优化，贝叶斯网络图中节点是各种可检测的行为以及各个行为之间的条件概率表，对主机新接收的数据进行贝叶斯分类模型优化；

步骤六，对主机分类器测试，并对分类器效果进行评价。

优选地，步骤六还包括：按照十折交叉验证，将程序的规范化行为向量样本轮流地以9:1的比例划分为训练集和测试集。

优选地，步骤六之后还包括：主机将程序样本分成多组，分别构造贝叶斯分类模型，计算出每个贝叶斯分类模型的准确率，根据测试准确率结果，选择贝叶斯分类模型作为分类模型；

准确率为正确区分木马与非木马的次数/全部的测试集数目。

优选地，步骤一中，构建程序的行为向量包括：将程序样本的行为进行编号，将修改注册表的自启动项设为第一预设值，将修改注册表的关联项为第二预设值，将修改win.ini文件为第三预设值，将打开一个tcp端口设置为第四预设值，通过命令行创建进程设置为第五预设值，将注册为系统服务的操作设置为第六预设值；

记录样本程序的行为序列，得到一个程序的行为向量。

优选地，步骤二还包括：规范化处理是使将各个不同程序的行为向量的维度保持一致，选择样本程序行为向量维度中出现次数最多的维度作为行为向量的标准维度，对于维度小于标准维度的行为向量，对所述行为向量设置补维参数来提高维度，对于维度大于标准维度的行为向量，通过主成份分析算法进行降维。

从以上技术方案可以看出，本发明具有以下优点：

采用基于GPU加速的贝叶斯学习理论进行未知木马的检测，使用贝叶斯网络构建未知木马的检测模型，通过贝叶斯网络的推理解决了未知木马检测过程中存在的特征分类困难、概率性行为识别等问题。

通过贝叶斯网络用条件概率表达系统程序之间的不确定性因果关系，具有更强的处理不确定性信息的能力及特有的推理机制，不需要硬性定义木马特征，因此具有较强的适用性。在现有程序特征基础上通过贝叶斯模型计算木马概率，也就是通过样本，计算出在正常程序与木马程序中，各种程序行为之间的条件概率，然后通过提取未知程序中的行为，计算出是木马的概率，从而有效检测已经木马的多态变形体以及新出现的未知木马。基于CPU－GPU异构计算平台的并行化方法实现贝叶斯网络的概率计算，有效提升贝叶斯网络模型的生成效率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于GPU与贝叶斯网络推理的未知木马的检测方法流程图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将运用具体的实施例及附图，对本发明保护的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本专利中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本专利保护的范围。

本实施例提供一种基于GPU与贝叶斯网络推理的未知木马的检测方法，如图1所示，方法包括：

S1，主机将程序样本依据样本的指标特征按类别加以识别，对程序的行为序列化，构建程序的行为向量；

S2，主机对程序行为向量进行规范化处理，记为L；

S3，主机整合系统程序的行为向量，构建特征识别矩阵，记为M；

S4，主机将数据传输到设备，进行基于GPU加速的贝叶斯分类器训练，计算训练样本中的条件概率和先验概率，并通过调节矩阵M的样本分布，得到在预设范围内的条件概率和先验概率，构造贝叶斯网络图及贝叶斯分类模型；

S5，将构造贝叶斯网络图及贝叶斯分类模型从设备端传输到主机，基于构造贝叶斯网络图及贝叶斯分类模型对主机数据循环进行贝叶斯模型的优

化，贝叶斯网络图中节点是各种可检测的行为以及各个行为之间的条件概率表，对主机新接收的数据进行贝叶斯分类模型优化；

S6，对主机分类器测试，并对分类器效果进行评价。

本实施例中，S6还包括：按照十折交叉验证，将程序的规范化行为向量样本轮流地以9:1的比例划分为训练集和测试集。

在S6之后还包括：主机将程序样本分成多组，分别构造贝叶斯分类模型，计算出每个贝叶斯分类模型的准确率，根据测试准确率结果，选择贝叶斯分类模型作为分类模型；准确率为正确区分木马与非木马的次数/全部的测试集数目。

本实施例中，S1步骤构建程序的行为向量包括：将程序样本的行为进行编号，将修改注册表的自启动项设为第一预设值，将修改注册表的关联项为第二预设值，将修改win.ini文件为第三预设值，将打开一个tcp端口设置为第四预设值，通过命令行创建进程设置为第五预设值，将注册为系统服务的操作设置为第六预设值；记录样本程序的行为序列，得到一个程序的行为向量。

如修改注册表的自启动项为1，修改注册表的关联项为2，修改win.ini文件为3，打开一个tcp端口为4，通过命令行创建一个进程为5，把自己注册为系统服务为6等等以此类推，然后记录下样本程序的行为序列，这样就可以得到一个程序的行为向量，如一个程序先创建了一个进程，然后修改了win.ini，再把自己注册成系统服务，那么这个程序的行为向量就是[5,3,6]。

本实施例中，S2还包括：规范化处理是使将各个不同程序的行为向量的维度保持一致，选择样本程序行为向量维度中出现次数最多的维度作为行为向量的标准维度，对于维度小于标准维度的行为向量，对所述行为向量设置补维参数来提高维度，对于维度大于标准维度的行为向量，通过主成份分析算法进行降维。

本实施例中，采用基于GPU加速的贝叶斯学习理论进行未知木马的检测，使用贝叶斯网络构建未知木马的检测模型，通过贝叶斯网络的推理解决了未知木马检测过程中存在的特征分类困难、概率性行为识别等问题。

本发明采用贝叶斯分类的思想来检测未知木马。贝叶斯网络(Bayesian Network)是一种能够对复杂系统进行建模和推理的有效工具，主要用来描述随机变量间的依赖关系，应用于不确定性问题的求解，在分析问题，预测和防御方面已经得到广泛的应用。贝叶斯网络能够以基于概率的形式处理不确定性问题，逐渐被接受用来处理人工智能领域的问题。所以，本发明基于贝叶斯网络来进行未知木马的检测。

本发明利用贝叶斯网络的图形模式来形象描述系统与网络进程中的各种状态，形成网络攻击图，并且利用贝叶斯网络推理算法计算未知木马的概率。贝叶斯分类是利用概率统计进行分类的算法，主要利用贝叶斯定理来预测一个未知类别的样本属于其他类别的可能性，并选择其中可能性最大的一个类别作为该样本的最终类别。

基于贝叶斯网络的推理算法主要有两种：近似推理算法与精确推理算法。前者力求在较短的时间内给出满足精度要求的结果，后者旨在将输入证据与网络信息传播至网络中的全部节点，使得推理结果更加准确。因此，精确推理算法更适合未知木马的检测。但是，随着网络中节点数目与节点信息的增加，精确推理的计算复杂度呈指数增加。由此可见，精确推理更适合未知木马的检测。

近似推理力求在较短的时间内给出满足精度要求的结果，而精确推理旨在将输入证据与网络信息传播至网络中的全部节点，信息传播的完整性使得推理结果更加准确，对节点信息的查询更加全面。但是，随着网络中节点数目与节点信息的增加，精确推理的计算复杂度呈指数增加。所以，基于精确推理的未知木马检测的时间效率就必须得到保障，尤其在网络环境下。因此，基于贝叶斯网络推理的速度决定了木马检测的实时性与实用性。本发明基于GPU实现贝叶斯网络精确推理的加速。

基于GPU的通用并行计算得到了迅速发展，目前已形成了CPU－GPU异构计算平台。GPU适用在高并行化及数据间依赖关系不强的情况下处理大容量数据，在具体应用中，GPU作为CPU的加速部分，提供了强大的并行处理能力。传统精确推理算法只在CPU中进行，由于CPU本身计算能力的限制，推理时间不可估计。而CPU－GPU异构计算平台的并行计算能力使复杂贝叶斯网络的精确推理成为可能，该平台基于多核并行计算对复杂运算的快速处理能力，实现对精确推理的加速。本发明基于CPU－GPU异构计算平台，加速贝叶斯网络推理的进行。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参考即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于GPU与贝叶斯网络推理的未知木马的检测方法，其特征在于，方法包括：

步骤二，主机对程序行为向量进行规范化处理，记为L；

步骤六，对主机分类器测试，并对分类器效果进行评价；

按照十折交叉验证，将程序的规范化行为向量样本轮流地以9:1的比例划分为训练集和测试集；

主机将程序样本分成多组，分别构造贝叶斯分类模型，计算出每个贝叶斯分类模型的准确率，根据测试准确率结果，选择贝叶斯分类模型作为分类模型；

准确率为正确区分木马与非木马的次数/全部的测试集数目。

2.根据权利要求1所述的基于GPU与贝叶斯网络推理的未知木马的检测方法，其特征在于，

步骤一中，构建程序的行为向量包括：将程序样本的行为进行编号，将修改注册表的自启动项设为第一预设值，将修改注册表的关联项为第二预设值，将修改win.ini文件为第三预设值，将打开一个tcp端口设置为第四预设值，通过命令行创建进程设置为第五预设值，将注册为系统服务的操作设置为第六预设值；

记录样本程序的行为序列，得到一个程序的行为向量。

3.根据权利要求1所述的基于GPU与贝叶斯网络推理的未知木马的检测方法，其特征在于，

步骤二还包括：规范化处理是使将各个不同程序的行为向量的维度保持一致，选择样本程序行为向量维度中出现次数最多的维度作为行为向量的标准维度，对于维度小于标准维度的行为向量，对所述行为向量设置补维参数来提高维度，对于维度大于标准维度的行为向量，通过主成份分析算法进行降维。