CN114338188A

CN114338188A - 一种基于进程行为序列分片的恶意软件智能云检测系统

Info

Publication number: CN114338188A
Application number: CN202111653950.0A
Authority: CN
Inventors: 许艳萍; 吴雨衡; 赵一伟; 陈孙为; 余作诚; 陈政; 仇建
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12
Anticipated expiration: 2041-12-30
Also published as: CN114338188B

Abstract

本发明公开了一种基于进程行为序列分片的恶意软件智能云检测系统，由客户端、云端和智能检测系统组成。在客户端对主机上的进程行为进行监控，并生成日志发向云端；在云端对进程行为日志数据进行解析、存储、统计和可视化；在智能检测平台，根据一个行为的完整表征，将行为数据进行分片，生成数据集，再基于机器学习算法建立检测模型，对客户端主机的安全情况做出判断；云端再将收集到的数据和智能检测过程和结果进行整合，形成表或图提供数据可视化服务。本系统的优势在于采用动态检测方式，实时性强；基于机器学习智能检测，具有高效精准特性；云端数据全景可视化，全面展示数据的内容和检测过程，让恶意软件无处遁形。

Description

一种基于进程行为序列分片的恶意软件智能云检测系统

技术领域

本发明属于网络安全技术领域，涉及恶意软件检测和主机安全防护，尤其是涉及到一种基于进程行为序列分片的恶意软件智能云检测系统。

背景技术

随着现代信息和互联网技术的进步和飞速发展，人们的日常工作、学习和生活越来越离不开互联网。而恶意软件己成为互联网安全的主要威胁之一，甚至威胁到国家的安全。恶意软件一直是广泛存在的网络安全问题，自其诞生以来就处于迅速发展的状态，并由此衍生出复杂且成熟的网络犯罪产业，形成庞大的网络犯罪生态系统，并从网络走向现实，对教育、医疗、金融、能源等多个行业造成严重的影响。其所直接或间接造成的数据损坏、业务中断、企业声誉损害、生产力停滞、经济损失等损害甚至影响国家经济发展。而如今恶意软件的新趋势，给全球疫情防疫增大难度的同时，也为各个国家的公共安全埋下隐患。因此，对于恶意软件的有效检测和防范势在必行。

随着恶意软件的日益增多，传统的基于静态特征码的恶意软件检测方法早己无法有效应对这些复杂的情况，因此主要的反病毒供应商都在朝着机器学习方法靠拢，以求跟上不断变化的危险环境。机器学习具有强大的数据学习能力和可扩展优势，用不断优化的机器学习技术来提高恶意软件检测能力，已经成为网络安全检测的重要方面。恶意软件的特征提取是检测过程中至为关键的一步，提取特征的好坏直接影响着恶意软件检测的效果。恶意软件程序提取的特征主要分为两大类：语法特征和语义特征。其中语法特征主要有：原始代码、抽象语法树、变量、指令基本块、指针、进程、控制流图、调用图以及对象继承和依赖关系。语义特征主要包括：API调用序列、数据流、程序依赖图和系统依赖图。API是一个应用程序与操作系统之间的调用接口，API调用序列能够反应一个应用程序对系统资源的操作行为，因此基于API的动态行为是恶意软件检测的优秀特征。

发明内容

针对现有技术的不足，本发明提出了一种基于进程行为序列分片的恶意软件智能云检测系统，基于一个行为的完整表征，对API序列按照进程序列集合进行分片，形成数据集，再基于机器学习算法，建立检测模型，对客户端主机的安全情况做出评估，提高了恶意软件检测的精准性和实时性。

一种基于进程行为序列分片的恶意软件智能云检测系统，包括面向用户主机的客户端进程行为数据采集模块，面向云端的进程行为可视化分析模块和基于机器学习的智能检测模块。

所述进程行为数据采集模块用于采集用户主机的进程行为信息，包括进程的属性信息、API调用序列及环境数据。将采集到的进程行为信息按照预定义的格式存储到日志文件中，间隔一定时间，将日志文件发送到进程行为可视化分析模块。

具体的，通过基于系统命令和驱动监控的方式获取进程的多维度属性信息，包括进程ID、路径、状态、内存占用、网络流量等；通过基于HOOK和DLL结合的方式提取进程系统级API调用序列，实时反应进程正在执行的行为；通过驱动监控的方式实时获取进程运行时的系统环境数据，包括内存占用率、上下行网速等。

所述进程行为可视化分析模块用于周期性地接收进程行为数据采集模块上传的日志文件，并且解析日志文件，提取进程行为数据存储到数据库中，并对进程行为数据以及检测结果进行实时可视化展示。

所述实时可视化展示包括直接可视化和图表可视化，直接可视化将数据库中的数据直接显示在浏览器页面，图表可视化将进程行为数据进行统计分析后，再以饼图、折线图等图表形式显示到浏览器。

所述基于机器学习的智能检测模块集成了多种数据预处理算法和机器学习算法。在系统应用空间，对一个进程行为的表征，对应到系统底层，体现为一组API调用序列。因此基于机器学习的智能检测模块获取数据库中存储的进程行为数据后，基于一个行为的完整表征，对API调用序列按照进程序列集合进行分片，形成数据集。然后，针对分片得到数据集选择机器学习算法构建检测模型，进行模型训练，最后针对新采集的未知的进程API数据，使用训练好的模型进行数据预测，判断用户主机是否被恶意软件攻击。

本发明具有以下有益效果：

(1)采用动态检测方式，DLL注入结合安全检测，动态记录进程API的调用序列，根据病毒正在执行的行为进行检测，具有实时性。

(2)对进程运行时的API调用序列进行HOOK，能够真实反应出恶意病毒与正常进程的差异，精确捕捉恶意行为的发生，具有精准性。

(3)采用基于云的智能检测方式，云端从主机客户端接收到大量进程行为数据；然后，对进程的运行行为与API调用序列进行对应分析，对API调用序列进行数据分片。再基于数据挖掘、机器学习算法对进程数据进行分析，做到事先分析数据，事中及时预测和告警，具有及时性。

(4)具有云端智赋能特色。该系统同时兼具了客户端、云端、智能检测系统，每个平台的功能和任务相互独立，同时又相互协作，赋予了该系统检高效准确检测恶意软件的能力。

(5)具有功能分离特色。本系统将数据、运算、服务三大模块互相分离，分布在客户端、云端、智能检测系统中完成，以此提升安全性和稳定性。

(6)具有全景可视化特色。云端将各方位的数据汇总在一起，统计分析，并绘制成表或图，提供出最直观的图形化信息。同时，将数据挖掘、机器学习模型选择和结果进行可视化。

附图说明

图1为一种基于进程行为序列分片的恶意软件智能云检测系统结构图。

图2为一种基于进程行为序列分片的恶意软件智能云检测流程图

具体实施方式

以下结合附图对本发明作进一步的解释说明；

如图1所示，一种基于进程行为序列分片的恶意软件智能云检测系统，包括面向用户主机的客户端进程行为数据采集模块，面向云端的进程行为可视化分析模块和基于机器学习的智能检测模块三部分。

1.面向用户主机的客户端进程行为数据采集程序

如图2所示，面向用户主机的客户端进程行为数据采集程序主要功能包括进程属性数据采集、进程API行为序列采集、进程环境数据采集、进程行为日志生成、进程行为日志发送，具体如下：

(1)进程属性数据采集

Windows系统拥有大量可以获取进程信息的shell命令。通过调用这些命令可以获取进程属性。本方法使用的shell命令有：

Tasklist：获取现在运行中的所有进程及相关信息。相关信息包括进程名，进程pid，进程内存。

Netstat–ano：查看现在使用中的端口以及对应的进程pid。

wmicprocesswhereProcessId＝XXgetParentProcessId：指定进程pidXX，获取父进程

wmicprocesswhereProcessId＝XXgetExecutablePath：指定进程pidXX，获取其路径

(2)进程API行为序列采集

进程API行为序列采集主要是基于APIHOOK技术，包括两个步骤：1)DLL线程注入。进程在加载DLL时候，程序会独立为DLL分配空间，并且执行DLLmain函数，而且这些函数地址是相对固定的。基于此，当进程成功加载DLL后，将对目标的函数进行修改，转入目标API的函数入口，修改目的代码段，完成APIHOOK。2)目标函数劫持。在完成了DLL线程注入之后，锁定要监控的API，修改目标API地址下的代码段，跳转到目标函数。并在目标函数完成后，恢复现场，再转回执行原API函数。在这个过程中，填入需要监控的API列表，就可以完成API记录，它还可以监控到API函数参数。

(3)进程环境数据采集

进程环境数据中的主机CPU使用率是根据CPU的空闲时间、核心态时间和用户态时间计算的，内存占用率是通过统计内存上已用地址的数量计算的，上下行网速是根据主机网卡收发数据计算的。

(4)进程行为日志生成

基于进程间通讯机制，将API序列保存成JSON格式日志文件，将进程属性数据保存成TXT格式日志文件，将进程环境数据保存成流量字符串，用于进程行为数据的发送到云端。

(5)进程行为日志发送

基于Socket网络编程，主机客户端向云端发起连接请求，成功建立连接后使用基于TCP的文件传输协议向云端发送文件；设定间隔时间自动发送，并利用多线程防止自动传输过程中图形页面出现忙等待。客户端发生错误不会影响云端运行，防止云端中断。

2.面向云端的进程行为可视化分析系统

主要功能包括进程行为日志数据接收、进程行为数据解析和存储、进程行为数据直接可视化、程行为数据统计图表可视化，具体如下：

(1)日志数据接收

云端可以周期性接收主机客户端发送的进程行为日志文件，基于Socket网络编程，采用多线程技术实现多个客户端和一个云端同时连接，为每一个链接建立独立的线程。传输文件单线程，排队传输文件。对传输过来的文件提取数据并上传到数据库。

(2)进程行为数据解析和存储

云端事先提前建立好数据库，根据系统功能，设计好数据库的表以及字段结构；然后对从主机客户端接收的JOSN、TXT和字符串格式的进程行为日志文件进行解析，提取出进程行为数据，再存储到数据库。这些数据对进程行为可视化和恶意软件检测提供数据支撑。

(3)进程行为数据直接可视化

在前端框架采用VUE框架，后端使用PHP，本地云端、数据库管理系统phpMyAdmin和PHP运行环境使用XAMPP。前端使用Ajax向请求后端PHP，PHP实现从数据库中获得数据并返回给前端页面，进行数据的直接展示，比如进程ID、进程路径等。

(4)程行为数据统计图表可视化

在前端框架采用VUE框架，对数据库中的进程行为数据按照类别和时间进行统计，然后将统计结果以圆饼图、折线图等形式展现，比如恶意进程检测统计数据等。

3.基于机器学习的智能检测系统

主要功能包括进程行为数据集生成、机器学习算法选择、模型训练、模型测试、恶意软件预测，具体如下：

(1)进程行为数据集生成

根据恶意软件的特性，挑选出恶意软件频繁调用的多个API，作为智能检测数据集的特征。然后在分析对一个进程行为完整描述的基础上，将从客户端获取的按时间顺序排列的API序列按照固定长度进行切片。本实施例采用的切片方式是以10个API为一组，然后分别统计每一个切片中出现的进程pid以及每个API出现的次数，将一个切片的统计结果作为一条数据，形成数据集。

(2)机器学习算法选择

目前，我们系统支持对决策树、支持向量机、卷积神经网络、对抗生成网络等多种机器学习、深度学习算法的实现和选择。每次针对同一个数据集，选择不同的算法进行训练和测试，比较各算法的结果，将取得最好结果的算法作为针对该数据集的最终算法。

(3)模型训练

首先，按照3折交叉验证方式对数据集进行划分，形成训练数据集和测试数据集，然后将训练数据集输入到选择好的机器学习算法，进行模型训练，训练完之后，保存好模型。训练结果也是可视化，包括展示训练数据集中正常样本的数量，异常样本的数量，也就是恶意软件样本。根据混淆矩阵计算原则，统计训练模型的输出结果，包括将正常样本检测为正常的数量，将正常样本检测为异常的数量，将异常样本检测为异常的数量，以及将异常样本检测为正常的数量。根据上面这些统计量，可以进一步计算出正确率、漏检率和误检率，以此作为模型训练结果的判断依据，可以看到模型能够将所有的数据进行正确分类。此外还可以显示模型训练花费的时间。

(4)恶意软件预测

从日志文件中提取从客户端获取的API序列数据，不知道这些API数据哪些是正常进程的，哪些是恶意代码的，然后，将这些数据输入到训练好的模型，经过模型分析之后，能够预测出这些进程的状态，即是否是危险的恶意代码。如果是恶意代码则发出告警，降低主机危险性。

Claims

1.一种基于进程行为序列分片的恶意软件智能云检测系统，其特征在于：包括面向用户主机的客户端进程行为数据采集模块，面向云端的进程行为可视化分析模块和基于机器学习的智能检测模块；

所述进程行为数据采集模块用于采集用户主机的进程行为信息，包括进程的属性信息、API调用序列及环境数据；然后将采集到的进程行为信息按照预定义的格式存储到日志文件中，以一定的通讯频率，将日志文件发送到进程行为可视化分析模块；

所述进程行为可视化分析模块用于周期性地接收进程行为数据采集模块上传的日志文件，并且解析日志文件，提取进程行为数据存储到数据库中，并对进程行为数据以及检测结果进行实时可视化展示；

所述基于机器学习的智能检测模块获取数据库中存储的进程行为数据后，基于一个行为的完整表征，对API调用序列按照进程序列集合进行分片，然后统计每一个切片中出现的进程以及每个API被调用的次数，最后将一个切片的统计结果作为一条数据，形成数据集；选择机器学习算法构建检测模型，利用分片得到的数据集进行模型训练，然后使用训练好的模型进行数据预测，判断用户主机是否被恶意软件攻击。

2.如权利要求1所述一种基于进程行为序列分片的恶意软件智能云检测系统，其特征在于：所述进程行为数据采集模块通过基于系统命令和驱动监控的方式获取进程的多维度属性信息，包括进程ID、路径、状态、内存占用和网络流量；通过基于HOOK和DLL结合的方式提取进程系统级API调用序列，实时反应进程正在执行的行为；通过驱动监控的方式实时获取进程运行时的系统环境数据，包括内存占用率和上下行网速。

3.如权利要求1或2所述一种基于进程行为序列分片的恶意软件智能云检测系统，其特征在于：API调用序列的提取包括以下步骤：

1)DLL线程注入：进程在加载DLL时，为DLL分配空间，并且执行DLLmain函数，所述DLLmain函数地址是相对固定的；当进程成功加载DLL后，对目标的函数进行修改，转入目标API的函数入口，修改目的代码段，完成APIHOOK；

2)目标函数劫持：在完成DLL线程注入之后，锁定要监控的API，修改目标API地址下的代码段，跳转到目标函数；并在目标函数完成后，恢复现场，再转回执行原API函数；在这个过程中，填入需要监控的API列表，即可完成API记录和监控API函数参数。

4.如权利要求1所述一种基于进程行为序列分片的恶意软件智能云检测系统，其特征在于：所述实时可视化展示包括直接可视化和图表可视化，直接可视化将数据库中的数据直接显示，图表可视化将进程行为数据进行统计分析后，再以饼图或折线图的图表形式显示。

5.如权利要求1所述一种基于进程行为序列分片的恶意软件智能云检测系统，其特征在于：所述机器学习算法为对决策树、支持向量机、卷积神经网络和对抗生成网络。