CN109254827B - 一种基于大数据与机器学习的虚拟机安全防护方法及系统 - Google Patents

一种基于大数据与机器学习的虚拟机安全防护方法及系统 Download PDF

Info

Publication number
CN109254827B
CN109254827B CN201810985819.6A CN201810985819A CN109254827B CN 109254827 B CN109254827 B CN 109254827B CN 201810985819 A CN201810985819 A CN 201810985819A CN 109254827 B CN109254827 B CN 109254827B
Authority
CN
China
Prior art keywords
file
website
malicious
browser
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810985819.6A
Other languages
English (en)
Other versions
CN109254827A (zh
Inventor
代琪怡
李松林
李平阳
谢开林
章志辉
廖西
颜琪
李茂毅
蔡波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu College of University of Electronic Science and Technology of China
Original Assignee
Chengdu College of University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu College of University of Electronic Science and Technology of China filed Critical Chengdu College of University of Electronic Science and Technology of China
Priority to CN201810985819.6A priority Critical patent/CN109254827B/zh
Publication of CN109254827A publication Critical patent/CN109254827A/zh
Application granted granted Critical
Publication of CN109254827B publication Critical patent/CN109254827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/565Static detection by checking file integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45587Isolation or security of virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据与机器学习的虚拟机安全防护方法,属于安全防护领域,首先从虚拟机的虚拟磁盘内提取NTFS文件系统里面的普通文件和浏览器文件;接着识别普通文件中的恶意特征,将识别的恶意特征与恶意文件特征库中的特征进行比对,判断该文件是否为恶意文件,若为恶意文件则进行清理,否则提取所述浏览器文件中的网址,利用建立的机器学习模型判断所述网址是否为恶意网址,若为恶意网址,则进行清理,否则结束整个流程;本发明融会贯通了恶意网址、恶意软件和注册表信息,将电子取证与虚拟机系统的安全相结合成一套完整的系统,识别率更高。

Description

一种基于大数据与机器学习的虚拟机安全防护方法及系统
技术领域
本发明涉及虚拟机安全防护领域,具体涉及一种基于大数据与机器学习的虚拟机安全防护方法及系统。
背景技术
近年来,全球频现重大安全事件,2013年曝光的“棱镜门”事件、“RSA后门”事件、2017年爆发的新型“蠕虫式”勒索软件WannaCry等更是引起各界对信息安全的广泛关注。网络攻击从最初的自发式、分散式的攻击转向专业化的有组织行为,呈现出攻击工具专业化、目的商业化、行为组织化的特点。随着获利成为网络攻击活动的核心,许多信息网络漏洞和攻击工具被不法分子和组织商品化,以此来牟取暴利,从而使信息安全威胁的范围加速扩散。个人信息及敏感信息泄露的信息安全事件,可能引发严重的网络诈骗、电信诈骗、财务勒索等犯罪案件,并最终导致严重的经济损失;而政府机构、工业控制系统、互联网服务器遭受攻击破坏、发生重大安全事件,将导致能源、交通、通信、金融等基础设施瘫痪,造成灾难性后果,严重危害国家经济安全和公共利益。全球整体网络安全形势不容乐观,国际间网络空间竞争形势日益紧张。
在一个多元化的社会,科技竞争走在各个国家的最前沿。因为有了网络人们的生活变得丰富多彩了起来。正因为越来越多的人使用网络,一些大大小小的弊端也随之而来。人们为了这些大大小小的毛病不影响计算机本身所带有的系统。发明了一种虚拟的计算机系统。这种软件的产生具有重大的意义,虚拟机的产生使其或多或少顺应了这一潮流。随着虚拟环境快速的成为当时的虚拟流行化与合并物理的服务器及其操作系统的重要工具。
目前很多用户基于种种原因,比如资源占用等方面的考虑,疏于在虚拟机中安装安全软件,导致在虚拟机中存在的安全风险变大。在虚拟机的宿主机中,很多安全公司的产品,如360安全卫士,腾讯电脑管家等,在个人PC安全方面忽略了对用户虚拟机的安全检查。
发明内容
本发明的目的在于:提供一种基于大数据与机器学习的虚拟机安全防护方法及系统,解决了目前的安全防护系统无法对虚拟机进行有效的安全防护的技术问题。
本发明采用的技术方案如下:
一种基于大数据与机器学习的虚拟机安全防护方法,包括以下步骤:
步骤1:从虚拟机的虚拟磁盘内提取NTFS文件系统里面的普通文件和浏览器文件;
步骤2:识别普通文件中的恶意特征,将识别的恶意特征与恶意文件特征库中的特征进行比对,判断该文件是否为恶意文件,若为恶意文件则进行清理并跳转至步骤3,否则直接跳转至步骤3;
步骤3:提取所述浏览器文件中的网址,利用构建的机器学习模型判断所述网址是否为恶意网址,若为恶意网址,则清理所述恶意网址并结束流程,否则直接结束流程。
进一步的,所述步骤1中,NTFS文件系统里的普通文件包括exe文件和office文件。
进一步的,所述步骤1中,NTFS文件系统里的普通文件和浏览器文件的获取步骤如下:
步骤11:获取所述虚拟机的虚拟磁盘句柄并初始化所述磁盘句柄;
步骤12:利用所述磁盘句柄获取所述NTFS文件系统里的起始扇区并获得所述NTFS文件系统里的MTF文件记录表;
步骤13:遍历所述MTF文件记录表中的文件记录号;
步骤14:利用所述文件记录号进行普通文件和浏览器文件的提取。
进一步的,所述步骤14中,NTFS文件系统里的普通文件获取方法为:读取所述文件记录号下文件的H30属性值,利用所述H30属性值判断普通文件的类型,若文件为小型文件,则在该文件的H80属性中提取文件数据;若文件为大型文件,则在该文件的H80属性中提取该文件的数据流地址,利用所述数据流地址提取文件数据。
进一步的,所述步骤14中,浏览器文件的获取步骤为:
步骤141:读取所述文件记录号下浏览器文件的H30属性,利用所述H30属性判断该文件记录号下文件路径是否与浏览器对应的路径匹配,若匹配,则跳转至步骤142,否则跳转至步骤13;
步骤142:判断是否取出当前文件记录号下的所有浏览器文件,若是,则跳转至步骤143,否则根据浏览器文件的H80属性找到浏览器文件数据并提取;
步骤143:判断该浏览器文件的属性,若为HA0属性,则提取HA0属性地址,并利用HA0属性地址找到浏览器文件数据并提取;若为H90属性,则遍历H90属性中的H90索引,利用所述H90索引找到浏览器文件数据并提取。
进一步的,所述普通文件中还包括注册表文件,所述注册表文件中键值信息用于辅助恶意文件的判断。
进一步的,所述步骤2中所述恶意特征包括:
病毒的MD5、SHA1、SHA256独有签名;或
文件反汇编后的代码段特征;或
文件的api流程图的特征;或
Api出现的频率的特征。
进一步的,所述步骤3中,判断网址是否为恶意网址的具体步骤如下:
步骤31:利用爬虫技术收集大量网站信息,并对网站的网址进行拆分,将拆分后的网址作为训练样本;
步骤32:利用拆分后的网址形成网址线性表,对所述网址线性表采用tf-idf算法进行加权处理,得到网址中各个分词的权重,形成权重线性表;
步骤33:构建机器学习模型,对所述训练样本的权重线性表,采用逻辑回归算法,进行机器学习训练,得到训练后的机器学习模型;
步骤34:将待识别网址进行与步骤31相同的拆分处理和与步骤32中相同的加权处理,得到待识别网址的权重线性表,将待识别网址的权重线性表输入训练后的机器学习模型,得出识别结果。
进一步的,所述步骤31中,拆分网址的步骤为:
步骤311:利用网址中的“/”和“.”进行第一层拆分;
步骤312:利用网址中的“-”进行第二层拆分;
步骤313:利用网址中的“%”进行第三层拆分;
步骤314:将步骤311-313的拆分结果进行整合,得到最终的拆分结果。
一种基于大数据与机器学习的虚拟机安全防系统,包括主机、虚拟机取证接口和恶意软件接口;
所述主机包括虚拟机取证模块和恶意软件识别模块;
虚拟机取证模块:用于对虚拟磁盘文件进行信息提取,并对虚拟机磁盘格式支持固定格式和动态分配格式;
恶意软件识别模块:用于识别从虚拟机中提取的普通文件的恶意特征;
虚拟机取证接口:用于从虚拟磁盘中提取普通文件,根据浏览器文件提取网址,根据注册表文件提取键值信息。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明融会贯通了恶意网址、恶意软件和注册表信息,将电子取证与虚拟机系统的安全相结合成一套完整的系统,对以后取证还是用户安全都有很大的进步,同时取证的过程保证了系统的安全,并且在恶意网址的识别上面采用了大数据框架与机器学习,识别率更高;本发明对浏览器无限制,能够适应市面上所有的主流浏览器。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明的整体流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合图1对本发明作详细说明。
一种基于大数据与机器学习的虚拟机安全防护方法,包括以下步骤:
步骤1:从虚拟机的虚拟磁盘内提取NTFS文件系统里面的普通文件和浏览器文件;
步骤2:识别普通文件中的恶意特征,将识别的恶意特征与恶意文件特征库中的特征进行比对,判断该文件是否为恶意文件,若为恶意文件则进行清理并跳转至步骤3,否则直接跳转至步骤3;
步骤3:提取所述浏览器文件中的网址,利用构建的机器学习模型判断所述网址是否为恶意网址,若为恶意网址,则清理所述恶意网址并结束流程,否则直接结束流程。
进一步的,所述步骤1中,NTFS文件系统里的普通文件包括exe文件和office文件。
进一步的,所述步骤1中,NTFS文件系统里的普通文件和浏览器文件的获取步骤如下:
步骤11:获取所述虚拟机的虚拟磁盘句柄并初始化所述磁盘句柄;
步骤12:利用所述磁盘句柄获取所述NTFS文件系统里的起始扇区并获得所述NTFS文件系统里的MTF文件记录表;
步骤13:遍历所述MTF文件记录表中的文件记录号;
步骤14:利用所述文件记录号进行普通文件和浏览器文件的提取。
进一步的,所述步骤14中,NTFS文件系统里的普通文件获取方法为:读取所述文件记录号下文件的H30属性值,利用所述H30属性值判断普通文件的类型,若文件为小型文件,则在该文件的H80属性中提取文件数据;若文件为大型文件,则在该文件的H80属性中提取该文件的数据流地址,利用所述数据流地址提取文件数据。
进一步的,所述步骤14中,浏览器文件的获取步骤为:
步骤141:读取所述文件记录号下浏览器文件的H30属性,利用所述H30属性判断该文件记录号下文件路径是否与浏览器对应的路径匹配,若匹配,则跳转至步骤142,否则跳转至步骤13;
步骤142:判断是否取出当前文件记录号下的所有浏览器文件,若是,则跳转至步骤143,否则根据浏览器文件的H80属性找到浏览器文件数据并提取;
步骤143:判断该浏览器文件的属性,若为HA0属性,则提取HA0属性地址,并利用HA0属性地址找到浏览器文件数据并提取;若为H90属性,则遍历H90属性中的H90索引,利用所述H90索引找到浏览器文件数据并提取。
进一步的,所述普通文件中还包括注册表文件,所述注册表文件中键值信息用于辅助恶意文件的判断。
进一步的,所述步骤2中所述恶意特征包括:
病毒的MD5、SHA1、SHA256独有签名;或
文件反汇编后的代码段特征;或
文件的api流程图的特征;或
Api出现的频率的特征。
进一步的,所述步骤3中,判断网址是否为恶意网址的具体步骤如下:
步骤31:利用爬虫技术收集大量网站信息,并对网站的网址进行拆分,将拆分后的网址作为训练样本;
步骤32:利用拆分后的网址形成网址线性表,对所述网址线性表采用tf-idf算法进行加权处理,得到网址中各个分词的权重,形成权重线性表;
步骤33:构建机器学习模型,对所述训练样本的权重线性表,采用逻辑回归算法,进行机器学习训练,得到训练后的机器学习模型;
步骤34:将待识别网址进行与步骤31相同的拆分处理和与步骤32中相同的加权处理,得到待识别网址的权重线性表,将待识别网址的权重线性表输入训练后的机器学习模型,得出识别结果。
进一步的,所述步骤31中,拆分网址的步骤为:
步骤311:利用网址中的“/”和“.”进行第一层拆分;
步骤312:利用网址中的“-”进行第二层拆分;
步骤313:利用网址中的“%”进行第三层拆分;
步骤314:将步骤311-313的拆分结果进行整合,得到最终的拆分结果。
一种基于大数据与机器学习的虚拟机安全防系统,包括主机、虚拟机取证接口和恶意软件接口;
所述主机包括虚拟机取证模块和恶意软件识别模块;
虚拟机取证模块:用于对虚拟磁盘文件进行信息提取,并对虚拟机磁盘格式支持固定格式和动态分配格式;
恶意软件识别模块:用于识别从虚拟机中提取的普通文件的恶意特征;
虚拟机取证接口:用于从虚拟磁盘中提取普通文件,根据浏览器文件提取网址,根据注册表文件提取键值信息。
具体实施例1
一种基于大数据与机器学习的虚拟机安全防护方法,包括以下步骤:
步骤1:从虚拟机的虚拟磁盘内提取NTFS文件系统里面的普通文件和浏览器文件;
步骤11:获取所述虚拟机的虚拟磁盘句柄并初始化所述磁盘句柄;
步骤12:利用所述磁盘句柄获取所述NTFS文件系统里的起始扇区并获得所述NTFS文件系统里的MTF文件记录表;
步骤13:遍历所述MTF文件记录表中的文件记录号;
步骤14:利用所述文件记录号进行普通文件和浏览器文件的提取。
NTFS文件系统里的普通文件获取方法为:读取所述文件记录号下文件的H30属性值,利用所述H30属性值判断普通文件的类型,若文件为小型文件,则在该文件的H80属性中提取文件数据;若文件为大型文件,则在该文件的H80属性中提取该文件的数据流地址,利用所述数据流地址提取文件数据。
浏览器文件的获取步骤为:
步骤141:读取所述文件记录号下浏览器文件的H30属性,利用所述H30属性判断该文件记录号下文件路径是否与浏览器对应的路径匹配,若匹配,则跳转至步骤142,否则跳转至步骤13;
步骤142:判断是否取出当前文件记录号下的所有浏览器文件,若是,则跳转至步骤143,否则根据浏览器文件的H80属性找到浏览器文件数据并提取;
步骤143:判断该浏览器文件的属性,若为HA0属性,则提取HA0属性地址,并利用HA0属性地址找到浏览器文件数据并提取;若为H90属性,则遍历H90属性中的H90索引,利用所述H90索引找到浏览器文件数据并提取。
所述普通文件中还包括注册表文件,所述注册表文件中键值信息用于辅助恶意文件的判断,只提取注册表文件中有关恶意软件的信息,即常用的键值信息,进行辅助判断。
步骤2:识别普通文件中的恶意特征,将识别的恶意特征与恶意文件特征库中的特征进行比对,判断该文件是否为恶意文件,若为恶意文件则进行清理,否则跳转至步骤3,其中恶意文件特征库采用现有的特征库,比如360提供的特征库等;
恶意特征包括:
病毒的MD5、SHA1、SHA256独有签名;或
文件反汇编后的代码段特征;或
文件的api流程图的特征;或
Api出现的频率的特征。
步骤3:提取所述浏览器文件中的网址,利用机器学习模型判断所述网址是否为恶意网址,若为恶意网址,则进行清理,否则结束整个流程。
判断网址是否为恶意网址的具体步骤如下:
步骤31:利用爬虫技术收集大量网站信息,并对网站的网址进行拆分,将拆分后的网址作为训练样本;
收集数据的过程为:首先做一些冲浪,发现一些网站提供恶意链接,接着建立一个小爬虫,并从各种网站上检索了很多恶意链接,接下来的任务是找到明确的URL,收集大约40万个URL,其中约80,000个是恶意的,而其他的则是干净的。数量越多,特征空间越丰富。
拆分网址的步骤为:
步骤311:利用网址中的“/”和“.”进行第一层拆分;
步骤312:利用网址中的“-”进行第二层拆分;
步骤313:利用网址中的“%”进行第三层拆分;
步骤314:将步骤311-313的拆分结果进行整合,得到最终的拆分结果,即该网址的各个分词。
步骤32:利用拆分后的网址形成网址线性表,对所述网址线性表采用tf-idf算法进行加权处理,得到网址中各个分词的权重,形成权重线性表;
步骤33:构建机器学习模型,对所述训练样本的权重线性表,采用逻辑回归算法,进行机器学习训练,得到训练后的机器学习模型;
步骤34:将待识别网址进行与步骤31相同方法的拆分和与步骤32中相同的加权处理,并将待识别网址的权重线性表输入训练后的机器学习模型,得出识别结果。
本方法还包括,利用spark-streaming进行实时监控,Spark Streaming将输入数据流划分为小块的细节便是根据较为固定的时间间隔(单位为毫秒),将其划分为DStream。DStream的全称为Discretized Stream,即离散化流。它是一种RDD(弹性分布式数据集)的序列。
DStream是Spark Streaming中的一种基本抽象。一个DStream对象是由连续的多个RDD组成的(我们知道RDD是Spark中最为基本的一种数据单位)。在DStream中,各个RDD之间的时间间隔都是确定的。
任何应用于DStream的操作最终都会被转化为底层的RDD上的操作。例如在上一小节编写的这个Streaming应用里,就是实现了从输入行(line)的内容中统计出词(word)的数量。
上述RDD的转化过程是通过Spark引擎在底层进行的。对于DStream的操作隐藏了大量的细节,如果我们想要在这个基础上获得一些信息,可以利用Spark为开发者预留的一些高级API来完成。

Claims (9)

1.一种基于大数据与机器学习的虚拟机安全防护方法,其特征在于:包括以下步骤:
步骤1:从虚拟机的虚拟磁盘内提取NTFS文件系统里面的普通文件和浏览器文件;
步骤2:识别普通文件中的恶意特征,将识别的恶意特征与恶意文件特征库中的特征进行比对,判断该文件是否为恶意文件,若为恶意文件则进行清理并跳转至步骤3,否则直接跳转至步骤3;
步骤3:提取所述浏览器文件中的网址,利用构建的机器学习模型判断所述网址是否为恶意网址,若为恶意网址,则清理所述恶意网址并结束流程,否则直接结束流程;
所述步骤3中,判断网址是否为恶意网址的具体步骤如下:
步骤31:利用爬虫技术收集大量网站信息,并对网站的网址进行拆分,将拆分后的网址作为训练样本;
步骤32:利用拆分后的网址形成网址线性表,对所述网址线性表采用tf-idf算法进行加权处理,得到网址中各个分词的权重,形成权重线性表;
步骤33:构建机器学习模型,对所述训练样本的权重线性表,采用逻辑回归算法,进行机器学习训练,得到训练后的机器学习模型;
步骤34:将待识别网址进行与步骤31相同的拆分处理和与步骤32中相同的加权处理,得到待识别网址的权重线性表,将待识别网址的权重线性表输入训练后的机器学习模型,得出识别结果。
2.根据权利要求1所述的一种基于大数据与机器学习的虚拟机安全防护方法,其特征在于:所述步骤1中,NTFS文件系统里的普通文件包括exe文件和office文件。
3.根据权利要求2所述的一种基于大数据与机器学习的虚拟机安全防护方法,其特征在于:所述步骤1中,NTFS文件系统里的普通文件和浏览器文件的获取步骤如下:
步骤11:获取所述虚拟机的虚拟磁盘句柄并初始化所述磁盘句柄;
步骤12:利用所述磁盘句柄获取所述NTFS文件系统里的起始扇区并获得所述NTFS文件系统里的MTF文件记录表;
步骤13:遍历所述MTF文件记录表中的文件记录号;
步骤14:利用所述文件记录号进行普通文件和浏览器文件的提取。
4.根据权利要求3所述的一种基于大数据与机器学习的虚拟机安全防护方法,其特征在于:所述步骤14中,NTFS文件系统里的普通文件获取方法为:读取所述文件记录号下文件的H30属性值,利用所述H30属性值判断普通文件的类型,若文件为小型文件,则在该文件的H80属性中提取文件数据;若文件为大型文件,则在该文件的H80属性中提取该文件的数据流地址,利用所述数据流地址提取文件数据。
5.根据权利要求3所述的一种基于大数据与机器学习的虚拟机安全防护方法,其特征在于:所述步骤14中,浏览器文件的获取步骤为:
步骤141:读取所述文件记录号下浏览器文件的H30属性,利用所述H30属性判断该文件记录号下文件路径是否与浏览器对应的路径匹配,若匹配,则跳转至步骤142,否则跳转至步骤13;
步骤142:判断是否取出当前文件记录号下的所有浏览器文件,若是,则跳转至步骤143,否则根据浏览器文件的H80属性找到浏览器文件数据并提取;
步骤143:判断该浏览器文件的属性,若为HA0属性,则提取HA0属性地址,并利用HA0属性地址找到浏览器文件数据并提取;若为H90属性,则遍历H90属性中的H90索引,利用所述H90索引找到浏览器文件数据并提取。
6.根据权利要求2所述的一种基于大数据与机器学习的虚拟机安全防护方法,其特征在于:所述普通文件中还包括注册表文件,所述注册表文件中键值信息用于辅助恶意文件的判断。
7.根据权利要求1所述的一种基于大数据与机器学习的虚拟机安全防护方法,其特征在于:所述步骤2中所述恶意特征包括:
病毒的MD5、SHA1、SHA256独有签名;或
文件反汇编后的代码段特征;或
文件的api流程图的特征;或
Api出现的频率的特征。
8.根据权利要求1所述的一种基于大数据与机器学习的虚拟机安全防护方法,其特征在于:所述步骤31中,拆分网址的步骤为:
步骤311:利用网址中的“/”和“.”进行第一层拆分;
步骤312:利用网址中的“-”进行第二层拆分;
步骤313:利用网址中的“%”进行第三层拆分;
步骤314:将步骤311-313的拆分结果进行整合,得到最终的拆分结果。
9.一种基于大数据与机器学习的虚拟机安全防护系统,其特征在于:包括主机、虚拟机取证接口;
所述主机包括虚拟机取证模块和恶意软件识别模块;
虚拟机取证模块:用于对虚拟磁盘文件进行信息提取,并对虚拟机磁盘格式支持固定格式和动态分配格式;
恶意软件识别模块:用于识别从虚拟机中提取的普通文件的恶意特征;
虚拟机取证接口:用于从虚拟磁盘中提取普通文件,根据浏览器文件提取网址,根据注册表文件提取键值信息;
步骤1:从虚拟机的虚拟磁盘内提取NTFS文件系统里面的普通文件和浏览器文件;
步骤2:识别普通文件中的恶意特征,将识别的恶意特征与恶意文件特征库中的特征进行比对,判断该文件是否为恶意文件,若为恶意文件则进行清理并跳转至步骤3,否则直接跳转至步骤3;
步骤3:提取所述浏览器文件中的网址,利用构建的机器学习模型判断所述网址是否为恶意网址,若为恶意网址,则清理所述恶意网址并结束流程,否则直接结束流程;
所述步骤3中,判断网址是否为恶意网址的具体步骤如下:
步骤31:利用爬虫技术收集大量网站信息,并对网站的网址进行拆分,将拆分后的网址作为训练样本;
步骤32:利用拆分后的网址形成网址线性表,对所述网址线性表采用tf-idf算法进行加权处理,得到网址中各个分词的权重,形成权重线性表;
步骤33:构建机器学习模型,对所述训练样本的权重线性表,采用逻辑回归算法,进行机器学习训练,得到训练后的机器学习模型;
步骤34:将待识别网址进行与步骤31相同的拆分处理和与步骤32中相同的加权处理,得到待识别网址的权重线性表,将待识别网址的权重线性表输入训练后的机器学习模型,得出识别结果;
所述普通文件中还包括注册表文件,所述注册表文件中键值信息用于辅助恶意文件的判断。
CN201810985819.6A 2018-08-27 2018-08-27 一种基于大数据与机器学习的虚拟机安全防护方法及系统 Active CN109254827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810985819.6A CN109254827B (zh) 2018-08-27 2018-08-27 一种基于大数据与机器学习的虚拟机安全防护方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810985819.6A CN109254827B (zh) 2018-08-27 2018-08-27 一种基于大数据与机器学习的虚拟机安全防护方法及系统

Publications (2)

Publication Number Publication Date
CN109254827A CN109254827A (zh) 2019-01-22
CN109254827B true CN109254827B (zh) 2022-04-22

Family

ID=65050427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810985819.6A Active CN109254827B (zh) 2018-08-27 2018-08-27 一种基于大数据与机器学习的虚拟机安全防护方法及系统

Country Status (1)

Country Link
CN (1) CN109254827B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362995B (zh) * 2019-05-31 2022-12-02 电子科技大学成都学院 一种基于逆向与机器学习的恶意软件检测及分析系统
CN110580408B (zh) * 2019-09-19 2022-03-11 北京天融信网络安全技术有限公司 一种数据处理方法及电子设备
CN112579330B (zh) * 2019-09-30 2024-02-06 奇安信安全技术(珠海)有限公司 操作系统异常数据的处理方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102510563A (zh) * 2011-10-21 2012-06-20 北京西塔网络科技股份有限公司 一种移动互联网恶意软件检测的方法及系统
CN102663296A (zh) * 2012-03-31 2012-09-12 杭州安恒信息技术有限公司 面向网页JavaScript恶意代码的智能检测方法
CN102768717A (zh) * 2012-06-29 2012-11-07 腾讯科技(深圳)有限公司 恶意文件检测的方法及装置
CN105320884A (zh) * 2015-11-02 2016-02-10 南京安贤信息科技有限公司 虚拟机的安全防护方法及系统
CN105718795A (zh) * 2015-08-28 2016-06-29 哈尔滨安天科技股份有限公司 Linux下基于特征码的恶意代码取证方法及系统
CN106845231A (zh) * 2016-12-30 2017-06-13 北京瑞星信息技术股份有限公司 基于虚拟化环境下的安全防护方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972980B2 (en) * 2010-05-28 2015-03-03 Bromium, Inc. Automated provisioning of secure virtual execution environment using virtual machine templates based on requested activity

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102510563A (zh) * 2011-10-21 2012-06-20 北京西塔网络科技股份有限公司 一种移动互联网恶意软件检测的方法及系统
CN102663296A (zh) * 2012-03-31 2012-09-12 杭州安恒信息技术有限公司 面向网页JavaScript恶意代码的智能检测方法
CN102768717A (zh) * 2012-06-29 2012-11-07 腾讯科技(深圳)有限公司 恶意文件检测的方法及装置
CN105718795A (zh) * 2015-08-28 2016-06-29 哈尔滨安天科技股份有限公司 Linux下基于特征码的恶意代码取证方法及系统
CN105320884A (zh) * 2015-11-02 2016-02-10 南京安贤信息科技有限公司 虚拟机的安全防护方法及系统
CN106845231A (zh) * 2016-12-30 2017-06-13 北京瑞星信息技术股份有限公司 基于虚拟化环境下的安全防护方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Survey on Encryption and Improved Virtualization Security Techniques for Cloud Infrastructure;Koushik Akkinapalli 等;《Global Journal of Computer Science and Technology》;20140719;第1-5页 *
基于虚拟机的恶意代码检测系统研究;周莉 等;《信息安全与通信保密》;20130510(第5期);第79-81页 *

Also Published As

Publication number Publication date
CN109254827A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
Pacheco et al. Uncovering coordinated networks on social media: methods and case studies
Nasir et al. Behavioral based insider threat detection using deep learning
Xu et al. High fidelity data reduction for big data security dependency analyses
US11030311B1 (en) Detecting and protecting against computing breaches based on lateral movement of a computer file within an enterprise
Mehtab et al. AdDroid: rule-based machine learning framework for android malware analysis
Peng et al. Astroturfing detection in social media: a binary n‐gram–based approach
US8108931B1 (en) Method and apparatus for identifying invariants to detect software tampering
CN109254827B (zh) 一种基于大数据与机器学习的虚拟机安全防护方法及系统
JP5558997B2 (ja) 相互検索およびアラートのための方法、情報処理システム、およびコンピュータ・プログラム(構造化データ・ソースと非構造化データ・ソースとの間の相互検索およびアラート)
AU2010202627A1 (en) Automated forensic document signatures
CN106503557A (zh) 基于动态变换的sql注入攻击防御系统及防御方法
Ebad et al. Measuring software obfuscation quality–a systematic literature review
Xie et al. P-gaussian: provenance-based gaussian distribution for detecting intrusion behavior variants using high efficient and real time memory databases
Gonzalez et al. Authorship attribution of android apps
Ma et al. An API Semantics‐Aware Malware Detection Method Based on Deep Learning
Shin et al. Cybersecurity event detection with new and re-emerging words
Liu et al. Event evolution model for cybersecurity event mining in tweet streams
Almansoori et al. A global survey of android dual-use applications used in intimate partner surveillance
CN112287339A (zh) Apt入侵检测方法、装置以及计算机设备
Charan et al. Dmapt: Study of data mining and machine learning techniques in advanced persistent threat attribution and detection
Paik et al. Malware classification using a byte‐granularity feature based on structural entropy
Luz et al. Data preprocessing and feature extraction for phishing URL detection
Kaczmarczyck et al. Spotlight: malware lead generation at scale
Verma et al. DF 2.0: Designing an automated, privacy preserving, and efficient digital forensic framework
Hai et al. An efficient classification of malware behavior using deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant