CN109254827A

CN109254827A - 一种基于大数据与机器学习的虚拟机安全防护方法及系统

Info

Publication number: CN109254827A
Application number: CN201810985819.6A
Authority: CN
Inventors: 代琪怡; 李松林; 李平阳; 谢开林; 章志辉; 廖西; 颜琪; 李茂毅; 蔡波
Original assignee: Chengdu College of University of Electronic Science and Technology of China
Current assignee: Chengdu College of University of Electronic Science and Technology of China
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2019-01-22
Anticipated expiration: 2038-08-27
Also published as: CN109254827B

Abstract

本发明公开了一种基于大数据与机器学习的虚拟机安全防护方法，属于安全防护领域，首先从虚拟机的虚拟磁盘内提取NTFS文件系统里面的普通文件和浏览器文件；接着识别普通文件中的恶意特征，将识别的恶意特征与恶意文件特征库中的特征进行比对，判断该文件是否为恶意文件，若为恶意文件则进行清理，否则提取所述浏览器文件中的网址，利用建立的机器学习模型判断所述网址是否为恶意网址，若为恶意网址，则进行清理，否则结束整个流程；本发明融会贯通了恶意网址、恶意软件和注册表信息，将电子取证与虚拟机系统的安全相结合成一套完整的系统，识别率更高。

Description

一种基于大数据与机器学习的虚拟机安全防护方法及系统

技术领域

本发明涉及虚拟机安全防护领域，具体涉及一种基于大数据与机器学习的虚拟机安全防护方法及系统。

背景技术

近年来，全球频现重大安全事件，2013年曝光的“棱镜门”事件、“RSA后门”事件、2017年爆发的新型“蠕虫式”勒索软件WannaCry等更是引起各界对信息安全的广泛关注。网络攻击从最初的自发式、分散式的攻击转向专业化的有组织行为，呈现出攻击工具专业化、目的商业化、行为组织化的特点。随着获利成为网络攻击活动的核心，许多信息网络漏洞和攻击工具被不法分子和组织商品化，以此来牟取暴利，从而使信息安全威胁的范围加速扩散。个人信息及敏感信息泄露的信息安全事件，可能引发严重的网络诈骗、电信诈骗、财务勒索等犯罪案件，并最终导致严重的经济损失；而政府机构、工业控制系统、互联网服务器遭受攻击破坏、发生重大安全事件，将导致能源、交通、通信、金融等基础设施瘫痪，造成灾难性后果，严重危害国家经济安全和公共利益。全球整体网络安全形势不容乐观，国际间网络空间竞争形势日益紧张。

在一个多元化的社会，科技竞争走在各个国家的最前沿。因为有了网络人们的生活变得丰富多彩了起来。正因为越来越多的人使用网络，一些大大小小的弊端也随之而来。人们为了这些大大小小的毛病不影响计算机本身所带有的系统。发明了一种虚拟的计算机系统。这种软件的产生具有重大的意义，虚拟机的产生使其或多或少顺应了这一潮流。随着虚拟环境快速的成为当时的虚拟流行化与合并物理的服务器及其操作系统的重要工具。

目前很多用户基于种种原因，比如资源占用等方面的考虑，疏于在虚拟机中安装安全软件，导致在虚拟机中存在的安全风险变大。在虚拟机的宿主机中，很多安全公司的产品，如360安全卫士，腾讯电脑管家等，在个人PC安全方面忽略了对用户虚拟机的安全检查。

发明内容

本发明的目的在于：提供一种基于大数据与机器学习的虚拟机安全防护方法及系统，解决了目前的安全防护系统无法对虚拟机进行有效的安全防护的技术问题。

本发明采用的技术方案如下：

一种基于大数据与机器学习的虚拟机安全防护方法，包括以下步骤：

步骤1：从虚拟机的虚拟磁盘内提取NTFS文件系统里面的普通文件和浏览器文件；

步骤2：识别普通文件中的恶意特征，将识别的恶意特征与恶意文件特征库中的特征进行比对，判断该文件是否为恶意文件，若为恶意文件则进行清理并跳转至步骤3，否则直接跳转至步骤3；

步骤3：提取所述浏览器文件中的网址，利用构建的机器学习模型判断所述网址是否为恶意网址，若为恶意网址，则清理所述恶意网址并结束流程，否则直接结束流程。

进一步的，所述步骤1中，NTFS文件系统里的普通文件包括exe文件和office文件。

进一步的，所述步骤1中，NTFS文件系统里的普通文件和浏览器文件的获取步骤如下：

步骤11：获取所述虚拟机的虚拟磁盘句柄并初始化所述磁盘句柄；

步骤12：利用所述磁盘句柄获取所述NTFS文件系统里的起始扇区并获得所述NTFS文件系统里的MTF文件记录表；

步骤13：遍历所述MTF文件记录表中的文件记录号；

步骤14：利用所述文件记录号进行普通文件和浏览器文件的提取。

进一步的，所述步骤14中，NTFS文件系统里的普通文件获取方法为：读取所述文件记录号下文件的H30属性值，利用所述H30属性值判断普通文件的类型，若文件为小型文件，则在该文件的H80属性中提取文件数据；若文件为大型文件，则在该文件的H80属性中提取该文件的数据流地址，利用所述数据流地址提取文件数据。

进一步的，所述步骤14中，浏览器文件的获取步骤为：

步骤141：读取所述文件记录号下浏览器文件的H30属性，利用所述H30属性判断该文件记录号下文件路径是否与浏览器对应的路径匹配，若匹配，则跳转至步骤142，否则跳转至步骤13；

步骤142：判断是否取出当前文件记录号下的所有浏览器文件，若是，则跳转至步骤143，否则根据浏览器文件的H80属性找到浏览器文件数据并提取；

步骤143：判断该浏览器文件的属性，若为HA0属性，则提取HA0属性地址，并利用HA0属性地址找到浏览器文件数据并提取；若为H90属性，则遍历H90属性中的H90索引，利用所述H90索引找到浏览器文件数据并提取。

进一步的，所述普通文件中还包括注册表文件，所述注册表文件中键值信息用于辅助恶意文件的判断。

进一步的，所述步骤2中所述恶意特征包括：

病毒的MD5、SHA1、SHA256独有签名；或

文件反汇编后的代码段特征；或

文件的api流程图的特征；或

Api出现的频率的特征。

进一步的，所述步骤3中，判断网址是否为恶意网址的具体步骤如下：

步骤31：利用爬虫技术收集大量网站信息，并对网站的网址进行拆分，将拆分后的网址作为训练样本；

步骤32：利用拆分后的网址形成网址线性表，对所述网址线性表采用tf-idf算法进行加权处理，得到网址中各个分词的权重，形成权重线性表；

步骤33：构建机器学习模型，对所述训练样本的权重线性表，采用逻辑回归算法，进行机器学习训练，得到训练后的机器学习模型；

步骤34：将待识别网址进行与步骤31相同的拆分处理和与步骤32中相同的加权处理，得到待识别网址的权重线性表，将待识别网址的权重线性表输入训练后的机器学习模型，得出识别结果。

进一步的，所述步骤31中，拆分网址的步骤为：

步骤311：利用网址中的“/”和“.”进行第一层拆分；

步骤312：利用网址中的“-”进行第二层拆分；

步骤313：利用网址中的“％”进行第三层拆分；

步骤314：将步骤311-313的拆分结果进行整合，得到最终的拆分结果。

一种基于大数据与机器学习的虚拟机安全防系统，包括主机、虚拟机取证接口和恶意软件接口；

所述主机包括虚拟机取证模块和恶意软件识别模块；

虚拟机取证模块：用于对虚拟磁盘文件进行信息提取，并对虚拟机磁盘格式支持固定格式和动态分配格式；

恶意软件识别模块：用于识别从虚拟机中提取的普通文件的恶意特征；

虚拟机取证接口：用于从虚拟磁盘中提取普通文件，根据浏览器文件提取网址，根据注册表文件提取键值信息。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明融会贯通了恶意网址、恶意软件和注册表信息，将电子取证与虚拟机系统的安全相结合成一套完整的系统，对以后取证还是用户安全都有很大的进步，同时取证的过程保证了系统的安全，并且在恶意网址的识别上面采用了大数据框架与机器学习，识别率更高；本发明对浏览器无限制，能够适应市面上所有的主流浏览器。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的整体流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1对本发明作详细说明。

步骤13：遍历所述MTF文件记录表中的文件记录号；

进一步的，所述步骤14中，浏览器文件的获取步骤为：

进一步的，所述步骤2中所述恶意特征包括：

病毒的MD5、SHA1、SHA256独有签名；或

文件反汇编后的代码段特征；或

文件的api流程图的特征；或

Api出现的频率的特征。

进一步的，所述步骤31中，拆分网址的步骤为：

步骤311：利用网址中的“/”和“.”进行第一层拆分；

步骤312：利用网址中的“-”进行第二层拆分；

步骤313：利用网址中的“％”进行第三层拆分；

所述主机包括虚拟机取证模块和恶意软件识别模块；

具体实施例1

步骤13：遍历所述MTF文件记录表中的文件记录号；

NTFS文件系统里的普通文件获取方法为：读取所述文件记录号下文件的H30属性值，利用所述H30属性值判断普通文件的类型，若文件为小型文件，则在该文件的H80属性中提取文件数据；若文件为大型文件，则在该文件的H80属性中提取该文件的数据流地址，利用所述数据流地址提取文件数据。

浏览器文件的获取步骤为：

所述普通文件中还包括注册表文件，所述注册表文件中键值信息用于辅助恶意文件的判断，只提取注册表文件中有关恶意软件的信息，即常用的键值信息，进行辅助判断。

步骤2：识别普通文件中的恶意特征，将识别的恶意特征与恶意文件特征库中的特征进行比对，判断该文件是否为恶意文件，若为恶意文件则进行清理，否则跳转至步骤3，其中恶意文件特征库采用现有的特征库，比如360提供的特征库等；

恶意特征包括：

病毒的MD5、SHA1、SHA256独有签名；或

文件反汇编后的代码段特征；或

文件的api流程图的特征；或

Api出现的频率的特征。

步骤3：提取所述浏览器文件中的网址，利用机器学习模型判断所述网址是否为恶意网址，若为恶意网址，则进行清理，否则结束整个流程。

判断网址是否为恶意网址的具体步骤如下：

收集数据的过程为：首先做一些冲浪，发现一些网站提供恶意链接，接着建立一个小爬虫，并从各种网站上检索了很多恶意链接，接下来的任务是找到明确的URL，收集大约40万个URL，其中约80,000个是恶意的，而其他的则是干净的。数量越多，特征空间越丰富。

拆分网址的步骤为：

步骤311：利用网址中的“/”和“.”进行第一层拆分；

步骤312：利用网址中的“-”进行第二层拆分；

步骤313：利用网址中的“％”进行第三层拆分；

步骤314：将步骤311-313的拆分结果进行整合，得到最终的拆分结果，即该网址的各个分词。

步骤34：将待识别网址进行与步骤31相同方法的拆分和与步骤32中相同的加权处理，并将待识别网址的权重线性表输入训练后的机器学习模型，得出识别结果。

本方法还包括，利用spark-streaming进行实时监控，Spark Streaming将输入数据流划分为小块的细节便是根据较为固定的时间间隔(单位为毫秒)，将其划分为DStream。DStream的全称为Discretized Stream，即离散化流。它是一种RDD(弹性分布式数据集)的序列。

DStream是Spark Streaming中的一种基本抽象。一个DStream对象是由连续的多个RDD组成的(我们知道RDD是Spark中最为基本的一种数据单位)。在DStream中，各个RDD之间的时间间隔都是确定的。

任何应用于DStream的操作最终都会被转化为底层的RDD上的操作。例如在上一小节编写的这个Streaming应用里，就是实现了从输入行(line)的内容中统计出词(word)的数量。

上述RDD的转化过程是通过Spark引擎在底层进行的。对于DStream的操作隐藏了大量的细节，如果我们想要在这个基础上获得一些信息，可以利用Spark为开发者预留的一些高级API来完成。

Claims

1.一种基于大数据与机器学习的虚拟机安全防护方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于大数据与机器学习的虚拟机安全防护方法，其特征在于：所述步骤1中，NTFS文件系统里的普通文件包括exe文件和office文件。

3.根据权利要求2所述的一种基于大数据与机器学习的虚拟机安全防护方法，其特征在于：所述步骤1中，NTFS文件系统里的普通文件和浏览器文件的获取步骤如下：

步骤13：遍历所述MTF文件记录表中的文件记录号；

4.根据权利要求3所述的一种基于大数据与机器学习的虚拟机安全防护方法，其特征在于：所述步骤14中，NTFS文件系统里的普通文件获取方法为：读取所述文件记录号下文件的H30属性值，利用所述H30属性值判断普通文件的类型，若文件为小型文件，则在该文件的H80属性中提取文件数据；若文件为大型文件，则在该文件的H80属性中提取该文件的数据流地址，利用所述数据流地址提取文件数据。

5.根据权利要求3所述的一种基于大数据与机器学习的虚拟机安全防护方法，其特征在于：所述步骤14中，浏览器文件的获取步骤为：

6.根据权利要求2所述的一种基于大数据与机器学习的虚拟机安全防护方法，其特征在于：所述普通文件中还包括注册表文件，所述注册表文件中键值信息用于辅助恶意文件的判断。

7.根据权利要求1所述的一种基于大数据与机器学习的虚拟机安全防护方法，其特征在于：所述步骤2中所述恶意特征包括：

病毒的MD5、SHA1、SHA256独有签名；或

文件反汇编后的代码段特征；或

文件的api流程图的特征；或

Api出现的频率的特征。

8.根据权利要求1所述的一种基于大数据与机器学习的虚拟机安全防护方法，其特征在于：所述步骤3中，判断网址是否为恶意网址的具体步骤如下：

9.根据权利要求1所述的一种基于大数据与机器学习的虚拟机安全防护方法，其特征在于：所述步骤31中，拆分网址的步骤为：

步骤311：利用网址中的“/”和“.”进行第一层拆分；

步骤312：利用网址中的“-”进行第二层拆分；

步骤313：利用网址中的“％”进行第三层拆分；

10.一种基于大数据与机器学习的虚拟机安全防系统，其特征在于：包括主机、虚拟机取证接口；

所述主机包括虚拟机取证模块和恶意软件识别模块；