CN107888590B - 一种基于gpu与贝叶斯网络推理的未知木马的检测方法 - Google Patents

一种基于gpu与贝叶斯网络推理的未知木马的检测方法 Download PDF

Info

Publication number
CN107888590B
CN107888590B CN201711102478.5A CN201711102478A CN107888590B CN 107888590 B CN107888590 B CN 107888590B CN 201711102478 A CN201711102478 A CN 201711102478A CN 107888590 B CN107888590 B CN 107888590B
Authority
CN
China
Prior art keywords
program
trojan horse
bayesian
bayesian network
dimensionality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711102478.5A
Other languages
English (en)
Other versions
CN107888590A (zh
Inventor
孙宏跃
蒋荣
曲志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongfu Information Technology Co Ltd
Zhongfu Information Co Ltd
Original Assignee
Nanjing Zhongfu Information Technology Co Ltd
Zhongfu Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongfu Information Technology Co Ltd, Zhongfu Information Co Ltd filed Critical Nanjing Zhongfu Information Technology Co Ltd
Priority to CN201711102478.5A priority Critical patent/CN107888590B/zh
Publication of CN107888590A publication Critical patent/CN107888590A/zh
Application granted granted Critical
Publication of CN107888590B publication Critical patent/CN107888590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Virology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于GPU与贝叶斯网络推理的未知木马的检测方法,采用基于GPU加速的贝叶斯学习理论进行未知木马的检测,使用贝叶斯网络构建未知木马的检测模型,通过贝叶斯网络的推理解决了未知木马检测过程中存在的特征分类困难、概率性行为识别等问题。通过贝叶斯网络用条件概率表达系统程序之间的不确定性因果关系,具有更强的处理不确定性信息的能力及特有的推理机制,不需要硬性定义木马特征,因此具有较强的适用性。在现有程序特征基础上通过贝叶斯模型计算木马概率,通过提取未知程序中的行为,计算出是木马的概率,从而有效检测已经木马的多态变形体以及新出现的未知木马。

Description

一种基于GPU与贝叶斯网络推理的未知木马的检测方法
技术领域
本发明涉及木马检测领域,尤其涉及一种基于GPU与贝叶斯网络推理的未知木马的检测方法。
背景技术
互联网在国家的政治、经济、文化等领域中发挥着越来越重要的作用,网络空间已经发展成为第五大战略空间。但是,互联网飞速发展的同时,计算机木马也在不断应用新技术新方式演变,木马的数量和危害都在大幅增长,这就使得木马检测技术的研究具有越来越重要的理论与实际意义。
目前,主流的木马检测技术大致分为静态检测技术和动态检测技术两类。静态检测技术主要通过提取木马的静态特征构建特征库,然后对其进行查杀;动态检测技术则主要是基于行为分析的检测技术。由于静态检测技术无法及时预防和对抗未知的木马攻击,存在一定的局限性。
发明内容
为了克服上述现有技术中的不足,本发明提供一种基于GPU与贝叶斯网络推理的未知木马的检测方法,方法包括:
步骤一,主机将程序样本依据样本的指标特征按类别加以识别,对程序的行为序列化,构建程序的行为向量;
步骤二,主机对程序行为向量进行规范化处理,记为L;
步骤三,主机整合系统程序的行为向量,构建特征识别矩阵,记为M;
步骤四,主机将数据传输到设备,进行基于GPU加速的贝叶斯分类器训练,计算训练样本中的条件概率和先验概率,并通过调节矩阵M的样本分布,得到在预设范围内的条件概率和先验概率,构造贝叶斯网络图及贝叶斯分类模型;
步骤五,将构造贝叶斯网络图及贝叶斯分类模型从设备端传输到主机,基于构造贝叶斯网络图及贝叶斯分类模型对主机数据循环进行贝叶斯模型的优化,贝叶斯网络图中节点是各种可检测的行为以及各个行为之间的条件概率表,对主机新接收的数据进行贝叶斯分类模型优化;
步骤六,对主机分类器测试,并对分类器效果进行评价。
优选地,步骤六还包括:按照十折交叉验证,将程序的规范化行为向量样本轮流地以9:1的比例划分为训练集和测试集。
优选地,步骤六之后还包括:主机将程序样本分成多组,分别构造贝叶斯分类模型,计算出每个贝叶斯分类模型的准确率,根据测试准确率结果,选择贝叶斯分类模型作为分类模型;
准确率为正确区分木马与非木马的次数/全部的测试集数目。
优选地,步骤一中,构建程序的行为向量包括:将程序样本的行为进行编号,将修改注册表的自启动项设为第一预设值,将修改注册表的关联项为第二预设值,将修改win.ini文件为第三预设值,将打开一个tcp端口设置为第四预设值,通过命令行创建进程设置为第五预设值,将注册为系统服务的操作设置为第六预设值;
记录样本程序的行为序列,得到一个程序的行为向量。
优选地,步骤二还包括:规范化处理是使将各个不同程序的行为向量的维度保持一致,选择样本程序行为向量维度中出现次数最多的维度作为行为向量的标准维度,对于维度小于标准维度的行为向量,对所述行为向量设置补维参数来提高维度,对于维度大于标准维度的行为向量,通过主成份分析算法进行降维。
从以上技术方案可以看出,本发明具有以下优点:
采用基于GPU加速的贝叶斯学习理论进行未知木马的检测,使用贝叶斯网络构建未知木马的检测模型,通过贝叶斯网络的推理解决了未知木马检测过程中存在的特征分类困难、概率性行为识别等问题。
通过贝叶斯网络用条件概率表达系统程序之间的不确定性因果关系,具有更强的处理不确定性信息的能力及特有的推理机制,不需要硬性定义木马特征,因此具有较强的适用性。在现有程序特征基础上通过贝叶斯模型计算木马概率,也就是通过样本,计算出在正常程序与木马程序中,各种程序行为之间的条件概率,然后通过提取未知程序中的行为,计算出是木马的概率,从而有效检测已经木马的多态变形体以及新出现的未知木马。基于CPU-GPU异构计算平台的并行化方法实现贝叶斯网络的概率计算,有效提升贝叶斯网络模型的生成效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于GPU与贝叶斯网络推理的未知木马的检测方法流程图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将运用具体的实施例及附图,对本发明保护的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。
本实施例提供一种基于GPU与贝叶斯网络推理的未知木马的检测方法,如图1所示,方法包括:
S1,主机将程序样本依据样本的指标特征按类别加以识别,对程序的行为序列化,构建程序的行为向量;
S2,主机对程序行为向量进行规范化处理,记为L;
S3,主机整合系统程序的行为向量,构建特征识别矩阵,记为M;
S4,主机将数据传输到设备,进行基于GPU加速的贝叶斯分类器训练,计算训练样本中的条件概率和先验概率,并通过调节矩阵M的样本分布,得到在预设范围内的条件概率和先验概率,构造贝叶斯网络图及贝叶斯分类模型;
S5,将构造贝叶斯网络图及贝叶斯分类模型从设备端传输到主机,基于构造贝叶斯网络图及贝叶斯分类模型对主机数据循环进行贝叶斯模型的优
化,贝叶斯网络图中节点是各种可检测的行为以及各个行为之间的条件概率表,对主机新接收的数据进行贝叶斯分类模型优化;
S6,对主机分类器测试,并对分类器效果进行评价。
本实施例中,S6还包括:按照十折交叉验证,将程序的规范化行为向量样本轮流地以9:1的比例划分为训练集和测试集。
在S6之后还包括:主机将程序样本分成多组,分别构造贝叶斯分类模型,计算出每个贝叶斯分类模型的准确率,根据测试准确率结果,选择贝叶斯分类模型作为分类模型;准确率为正确区分木马与非木马的次数/全部的测试集数目。
本实施例中,S1步骤构建程序的行为向量包括:将程序样本的行为进行编号,将修改注册表的自启动项设为第一预设值,将修改注册表的关联项为第二预设值,将修改win.ini文件为第三预设值,将打开一个tcp端口设置为第四预设值,通过命令行创建进程设置为第五预设值,将注册为系统服务的操作设置为第六预设值;记录样本程序的行为序列,得到一个程序的行为向量。
如修改注册表的自启动项为1,修改注册表的关联项为2,修改win.ini文件为3,打开一个tcp端口为4,通过命令行创建一个进程为5,把自己注册为系统服务为6等等以此类推,然后记录下样本程序的行为序列,这样就可以得到一个程序的行为向量,如一个程序先创建了一个进程,然后修改了win.ini,再把自己注册成系统服务,那么这个程序的行为向量就是[5,3,6]。
本实施例中,S2还包括:规范化处理是使将各个不同程序的行为向量的维度保持一致,选择样本程序行为向量维度中出现次数最多的维度作为行为向量的标准维度,对于维度小于标准维度的行为向量,对所述行为向量设置补维参数来提高维度,对于维度大于标准维度的行为向量,通过主成份分析算法进行降维。
本实施例中,采用基于GPU加速的贝叶斯学习理论进行未知木马的检测,使用贝叶斯网络构建未知木马的检测模型,通过贝叶斯网络的推理解决了未知木马检测过程中存在的特征分类困难、概率性行为识别等问题。
通过贝叶斯网络用条件概率表达系统程序之间的不确定性因果关系,具有更强的处理不确定性信息的能力及特有的推理机制,不需要硬性定义木马特征,因此具有较强的适用性。在现有程序特征基础上通过贝叶斯模型计算木马概率,也就是通过样本,计算出在正常程序与木马程序中,各种程序行为之间的条件概率,然后通过提取未知程序中的行为,计算出是木马的概率,从而有效检测已经木马的多态变形体以及新出现的未知木马。基于CPU-GPU异构计算平台的并行化方法实现贝叶斯网络的概率计算,有效提升贝叶斯网络模型的生成效率。
本发明采用贝叶斯分类的思想来检测未知木马。贝叶斯网络(Bayesian Network)是一种能够对复杂系统进行建模和推理的有效工具,主要用来描述随机变量间的依赖关系,应用于不确定性问题的求解,在分析问题,预测和防御方面已经得到广泛的应用。贝叶斯网络能够以基于概率的形式处理不确定性问题,逐渐被接受用来处理人工智能领域的问题。所以,本发明基于贝叶斯网络来进行未知木马的检测。
本发明利用贝叶斯网络的图形模式来形象描述系统与网络进程中的各种状态,形成网络攻击图,并且利用贝叶斯网络推理算法计算未知木马的概率。贝叶斯分类是利用概率统计进行分类的算法,主要利用贝叶斯定理来预测一个未知类别的样本属于其他类别的可能性,并选择其中可能性最大的一个类别作为该样本的最终类别。
基于贝叶斯网络的推理算法主要有两种:近似推理算法与精确推理算法。前者力求在较短的时间内给出满足精度要求的结果,后者旨在将输入证据与网络信息传播至网络中的全部节点,使得推理结果更加准确。因此,精确推理算法更适合未知木马的检测。但是,随着网络中节点数目与节点信息的增加,精确推理的计算复杂度呈指数增加。由此可见,精确推理更适合未知木马的检测。
近似推理力求在较短的时间内给出满足精度要求的结果,而精确推理旨在将输入证据与网络信息传播至网络中的全部节点,信息传播的完整性使得推理结果更加准确,对节点信息的查询更加全面。但是,随着网络中节点数目与节点信息的增加,精确推理的计算复杂度呈指数增加。所以,基于精确推理的未知木马检测的时间效率就必须得到保障,尤其在网络环境下。因此,基于贝叶斯网络推理的速度决定了木马检测的实时性与实用性。本发明基于GPU实现贝叶斯网络精确推理的加速。
基于GPU的通用并行计算得到了迅速发展,目前已形成了CPU-GPU异构计算平台。GPU适用在高并行化及数据间依赖关系不强的情况下处理大容量数据,在具体应用中,GPU作为CPU的加速部分,提供了强大的并行处理能力。传统精确推理算法只在CPU中进行,由于CPU本身计算能力的限制,推理时间不可估计。而CPU-GPU异构计算平台的并行计算能力使复杂贝叶斯网络的精确推理成为可能,该平台基于多核并行计算对复杂运算的快速处理能力,实现对精确推理的加速。本发明基于CPU-GPU异构计算平台,加速贝叶斯网络推理的进行。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参考即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (3)

1.一种基于GPU与贝叶斯网络推理的未知木马的检测方法,其特征在于,方法包括:
步骤一,主机将程序样本依据样本的指标特征按类别加以识别,对程序的行为序列化,构建程序的行为向量;
步骤二,主机对程序行为向量进行规范化处理,记为L;
步骤三,主机整合系统程序的行为向量,构建特征识别矩阵,记为M;
步骤四,主机将数据传输到设备,进行基于GPU加速的贝叶斯分类器训练,计算训练样本中的条件概率和先验概率,并通过调节矩阵M的样本分布,得到在预设范围内的条件概率和先验概率,构造贝叶斯网络图及贝叶斯分类模型;
步骤五,将构造贝叶斯网络图及贝叶斯分类模型从设备端传输到主机,基于构造贝叶斯网络图及贝叶斯分类模型对主机数据循环进行贝叶斯模型的优化,贝叶斯网络图中节点是各种可检测的行为以及各个行为之间的条件概率表,对主机新接收的数据进行贝叶斯分类模型优化;
步骤六,对主机分类器测试,并对分类器效果进行评价;
按照十折交叉验证,将程序的规范化行为向量样本轮流地以9:1的比例划分为训练集和测试集;
主机将程序样本分成多组,分别构造贝叶斯分类模型,计算出每个贝叶斯分类模型的准确率,根据测试准确率结果,选择贝叶斯分类模型作为分类模型;
准确率为正确区分木马与非木马的次数/全部的测试集数目。
2.根据权利要求1所述的基于GPU与贝叶斯网络推理的未知木马的检测方法,其特征在于,
步骤一中,构建程序的行为向量包括:将程序样本的行为进行编号,将修改注册表的自启动项设为第一预设值,将修改注册表的关联项为第二预设值,将修改win.ini文件为第三预设值,将打开一个tcp端口设置为第四预设值,通过命令行创建进程设置为第五预设值,将注册为系统服务的操作设置为第六预设值;
记录样本程序的行为序列,得到一个程序的行为向量。
3.根据权利要求1所述的基于GPU与贝叶斯网络推理的未知木马的检测方法,其特征在于,
步骤二还包括:规范化处理是使将各个不同程序的行为向量的维度保持一致,选择样本程序行为向量维度中出现次数最多的维度作为行为向量的标准维度,对于维度小于标准维度的行为向量,对所述行为向量设置补维参数来提高维度,对于维度大于标准维度的行为向量,通过主成份分析算法进行降维。
CN201711102478.5A 2017-11-10 2017-11-10 一种基于gpu与贝叶斯网络推理的未知木马的检测方法 Active CN107888590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711102478.5A CN107888590B (zh) 2017-11-10 2017-11-10 一种基于gpu与贝叶斯网络推理的未知木马的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711102478.5A CN107888590B (zh) 2017-11-10 2017-11-10 一种基于gpu与贝叶斯网络推理的未知木马的检测方法

Publications (2)

Publication Number Publication Date
CN107888590A CN107888590A (zh) 2018-04-06
CN107888590B true CN107888590B (zh) 2020-08-28

Family

ID=61779803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711102478.5A Active CN107888590B (zh) 2017-11-10 2017-11-10 一种基于gpu与贝叶斯网络推理的未知木马的检测方法

Country Status (1)

Country Link
CN (1) CN107888590B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688436A (zh) * 2020-05-19 2021-11-23 天津大学 一种pca与朴素贝叶斯分类融合的硬件木马检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394316A (zh) * 2008-11-11 2009-03-25 南京大学 基于完全无向图的贝叶斯的网络入侵分类方法
CN102724199A (zh) * 2012-06-26 2012-10-10 北京航空航天大学 基于贝叶斯网络推理的攻击意图识别方法
CN103258147A (zh) * 2013-05-24 2013-08-21 重庆邮电大学 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
CN104008332A (zh) * 2014-04-30 2014-08-27 浪潮电子信息产业股份有限公司 一种基于Android平台的入侵检测系统
CN105740712A (zh) * 2016-03-09 2016-07-06 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394316A (zh) * 2008-11-11 2009-03-25 南京大学 基于完全无向图的贝叶斯的网络入侵分类方法
CN102724199A (zh) * 2012-06-26 2012-10-10 北京航空航天大学 基于贝叶斯网络推理的攻击意图识别方法
CN103258147A (zh) * 2013-05-24 2013-08-21 重庆邮电大学 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
CN104008332A (zh) * 2014-04-30 2014-08-27 浪潮电子信息产业股份有限公司 一种基于Android平台的入侵检测系统
CN105740712A (zh) * 2016-03-09 2016-07-06 哈尔滨工程大学 基于贝叶斯网络的Android恶意行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于贝叶斯分类算法的木马程序流量识别方法;张鑫;《信息网络安全》;20120810;第115-117页 *

Also Published As

Publication number Publication date
CN107888590A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
EP3955204A1 (en) Data processing method and apparatus, electronic device and storage medium
US20180336453A1 (en) Domain specific language for generation of recurrent neural network architectures
Wu et al. Parallelization techniques for verifying neural networks
CN108491302B (zh) 一种检测spark集群节点状态的方法
Leyton-Brown et al. Understanding the empirical hardness of NP-complete problems
Erdogan et al. Inverse propagation of uncertainties in finite element model updating through use of fuzzy arithmetic
CN107729241B (zh) 一种基于变异体分组的软件变异测试数据进化生成方法
Quilbeuf et al. A logic for the statistical model checking of dynamic software architectures
CN110138766A (zh) 天牛须结合随机森林的网络入侵检测方法
Naeem et al. Scalable mutation testing using predictive analysis of deep learning model
Pira et al. Using evolutionary algorithms for reachability analysis of complex software systems specified through graph transformation
TWI710970B (zh) 無監督模型評估方法、裝置、伺服器及可讀儲存媒體
Bortolussi et al. Learning model checking and the kernel trick for signal temporal logic on stochastic processes
Ibias et al. SqSelect: Automatic assessment of failed error propagation in state-based systems
Agiollo et al. Towards quality-of-service metrics for symbolic knowledge injection
CN107888590B (zh) 一种基于gpu与贝叶斯网络推理的未知木马的检测方法
Qin et al. Auxiliary Gibbs Sampling for Inference in Piecewise-Constant Conditional Intensity Models.
Xue et al. Safe inputs approximation for black-box systems
CN115774784A (zh) 一种文本对象的识别方法及装置
Herd et al. Quantitative analysis of multi-agent systems through statistical verification of simulation traces
CN112906824B (zh) 车辆聚类方法、系统、设备及存储介质
Brownlee et al. Relating training instances to automatic design of algorithms for bin packing via features (detailed experiments and results)
KR102557800B1 (ko) 차분 프라이버시 기반 의사결정 트리 생성 방법 및 장치
André et al. Graphseq revisited: More efficient search for patterns in mobility traces
Saeed et al. A parallel approach for accelerated parameter identification of Gene Regulatory Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant