CN112507330A

CN112507330A - 一种基于分布式沙箱的恶意软件检测系统

Info

Publication number: CN112507330A
Application number: CN202011216690.6A
Authority: CN
Inventors: 李博; 唐明宇; 陆启浩
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-03-16
Anticipated expiration: 2040-11-04
Also published as: CN112507330B

Abstract

本发明通过人工智能领域的方法，实现了一种基于分布式沙箱的恶意软件检测系统，系统分为分布式沙箱系统、API序列检测模型和输出模块。分布式沙箱系统分为任务调度模块和自动化软件爬取与下发模块，自动化软件爬取与下发模块作为从外部获取训练数据的模块，所述任务调度模块应用所述训练数据，并通过分布式处理方式实现对系统外部数据和训练数据处理前的沙箱资源分配；所述API序列检测模型采用神经网络方法，输出根据输出数值判断该软件是否为恶意软件的结论。通过上述方式实现了一种可用于未知恶意软件的检测，采用分布式沙箱系统高效运行软件样本分析数据，最终根据沙箱运行报告中的API序列，对软件对恶意性进行有效的判断的系统。

Description

一种基于分布式沙箱的恶意软件检测系统

技术领域

本发明涉及人工智能领域，尤其涉及一种基于分布式沙箱的恶意软件检测系统。

背景技术

近年来互联网空间和个人企业计算机受恶意软件入侵事件频发，恶意软件不仅会造成严重的经济损失甚至会导致受攻击者的整个计算机相关系统瘫痪，造成重大社会影响。网络安全问题逐渐受到人们的注意，传统的恶意软件检测方法无法快速有效的检测现如今数量庞大、族系繁多且又多变的恶意软件。恶意软件制作者只需在原有恶意软件上进行少许修改、变动就可以创造出新的恶意软件，而安全研究人员在拿到软件样本后却需要进行深入分析才能发现恶意变种样本的原型，攻防双方其实是处于一个敌暗我明、信息不对等的地位。因此，急需一个能够迅速生成大量软件分析数据的平台，以便在恶意软件出现的第一时间就能够获取到其分析数据，及时更新数据集。在此基础上训练检测模型，从而鉴别恶意软件。

本发明旨在对Windows软件进行自动化检测，判断样本是否为恶意软件，分类的依据是软件在沙箱中运行产生的行为。为了实现这个目标，需要部署可单点控制、具有一定规模的分布式沙箱集群，在此基础上，实现一套恶意软件检测系统，这个系统利用分布式沙箱获得大量分析样本，提取软件的特征进行模型训练，当提交未知样本到系统时，自动下发沙箱运行任务并进行恶意性检测。

发明内容

为此，本发明提出了一种基于分布式沙箱的恶意软件检测系统，系统分为分布式沙箱系统、API序列检测模型和输出模块；

所述分布式沙箱系统模块的输入为Windows软件样本，软件的上传方式为超文本传输协议中的POST方法，输出为软件在沙箱中运行后所得到的行为记录，存储于MongoDB数据库中；API序列检测模型的输入为从MongoDB数据库中读取的行为记录，经过数据预处理、特征提取后输入预训练好的检测模型进行检测；

具体地：所述分布式沙箱系统分为任务调度模块和自动化软件爬取与下发模块，所述自动化软件爬取与下发模块作为从外部获取训练数据的模块，所述任务调度模块应用所述训练数据，并通过分布式处理方式实现对系统外部数据和训练数据处理前的沙箱资源分配，具体地：

所述自动化软件爬取与下发模块获取带恶意软件和正常软件标签的软件样本并生成沙箱报告，作为训练输入，所述恶意软件从全球最大的病毒分析平台 VirusTotal获取，所述正常软件通过爬虫从软件下载网站获取，样本收集后，所述自动化软件爬取与下发模块下发软件到沙箱运行，获得软件行为报告，作为后续分析的数据，并定时执行，获取新的软件数据，补充现有数据集；

所述任务调度模块基于开源工具Cuckoo部署多个沙箱节点，在Cuckoo沙箱原有接口的基础上进行封装设计客户端与服务端，使用程序设计语言Python进行代码实现。所述任务的数据存储形式为MySQL数据库中的一条记录，创建任务即向MySQL数据库中插入一条新纪录，从而标记该任务的状态信息；所述客户端上传软件样本到沙箱内部的方式为超文本传输协议(HTTP)中的POST方法，软件样本的类型为Windows程序；客户端用于创建沙箱任务、等待沙箱资源、提交样本、获取运行报告，服务端负责接受客户端的请求、实时获取沙箱的资源情况，并通过管理员任务工作模式或普通用户任务工作模式两种模式将空闲沙箱资源分配给客户端，客户端与服务端通过Kafka消息队列进行通信，每条发布到Kafka 的消息都有一个类别，所述类别被称为Topic，所述运行报告存储在MongoDB数据库；下发软件运行任务到沙箱节点时，本发明通过对沙箱集群进行状态监测，量化不同节点的性能差异，周期性调整节点比重来实现任务载荷的动态调整；在获取所述自动化软件爬取与下发模块的数据后，沙箱节点会按照当前的剩余虚拟机资源数进行排序，形成一个优先队列，空闲资源更多的沙箱排在队列头部，在执行下一次任务时会被优先考虑；

在所述沙箱系统中有两种消息，一种消息是客户端向服务端申请虚拟机使用权的请求，记为task_queue类别；另一种消息是服务端找到空闲虚拟机后，向服务端下发的运行指令，记为run_vm类别；所述服务器端会开启一个线程专门用于监听所述客户端发来的申请的task_queue类型的消息，当有task_queue 类型的消息传来时，服务器会根据所申请的虚拟机类型进行空闲资源的查找，如果当前有符合条件的虚拟机资源则向客户端回应调度安排，调度安排是一个 run_vm类型的消息；如果此时没有符合类型的虚拟机资源，则服务器端会开启新线程，把该请求在60秒后再次放进task_queue的消息队列，也就是把本次的申请延迟；客户端在向服务器端发送完毕申请后，会进入等待调度的循环中，一直监听run_vm类型的消息，当发现本次的调度安排是发送给自己时，会按照调度安排，把软件传送到指定的虚拟机中运行；

API序列检测模型与分布式沙箱系统之间通过数据库进行数据的传递：分布式沙箱系统负责产生软件行为记录，存入MongoDB数据库；API序列检测模型负责从MongoDB数据库中读取行为记录，进行分析。

所述API序列检测模型的架构中，

特征表达层面上：首先将每个软件的系统函数调用记录整合到一起形成列表形式的软件API调用序列，通过开源框架Keras内置的Tokenizer方法生成API 序列字典，并将软件API调用序列填充或截断成长度为500的序列，填充方式为在结尾补0，最后通过Embedding层构建API调用序列向量；

模型检测方案设置采用神经网络结构：模型分为嵌入层、特征提取层、特征学习层、分类器四个部分；嵌入层使用Embedding层对序列向量进行词嵌入处理，得到向量矩阵，通过学习嵌入空间更新每个API之间关系距离向量，获得更加准确的API之间的相关性；特征提取层通过四种卷积核大小的一维卷积层进行特征提取，即分割出长度为1、3、5、7的子序列，依次提取对应子序列信息，并进行最大池化得到API序列特征，最后将API序列特征进行拼接，并输入特征学习层；特征学习层使用注意力机制学习各个API序列特征的重要性，并制定特征权重矩阵，有效提升特征学习进度以及模型准确率，最后使用激活函数为“sigmoid”的全连接层作为分类器，并得到输出数值；输出数值代表该API序列所对应软件为恶意软件的概率，

所述输出模块输出根据所述输出数值判断该软件是否为恶意软件，并输出“此样本是恶意软件”或“此样本不是恶意软件”的判断结果。

所述管理员任务工作模式应用于样本数量达到10k量级以上，需要减少调度来带的等待时间的场景，所述服务端根据每个沙箱节点的承载能力，按比例批量分配工作负载给每个沙箱节点；所述普通用户任务工作模式应用于样本数量较小的场景，直接将通过客户端提交过来的任务加入等待队列，所述服务端会以轮询的方式从队列头部获取先提交过来的任务，安排当前为空闲状态的虚拟机来执行该任务。

所述一定时间为60秒。

所述一定长度为500。

所述最大池化得到API序列特征为8个。

所述输出为0到1之间的数值，数值代表软件样本为恶意软件的概率，超过 0.5则说明该软件为恶意的。

本发明所要实现的技术效果在于：

针对恶意软件动态检测问题，提出分布式沙箱系统的设计方案和一种基于动态分析的恶意软件检测技术，先记录下将软件在沙箱环境中运行时产生的动态 API调用序列，然后通过不同卷积核的一维卷积神经网络进行API调用序列特征提取，再使用注意力机制与双向循环神经网络对提取到的API调用序列特征进行特征学习。本专利提出的恶意软件检测模型可用于未知恶意软件的检测，提出的分布式沙箱系统可高效运行软件样本从而作为分析数据，最终作为系统根据沙箱运行报告中的API序列，对软件对恶意性进行有效的判断。

附图说明

图1沙箱系统模块图；

图2正常软件下载网站(一)；

图3正常软件下载网站(二)；

图4沙箱调度逻辑；

图5模型结构图。

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种基于分布式沙箱的恶意软件检测系统，系统分为分布式沙箱系统、API序列检测模型和输出模块。

分布式沙箱系统：包括任务调度模块和自动化软件爬取与下发模块

任务调度模块：

本发明基于开源工具Cuckoo部署多个沙箱节点，提供软件行为分析环境，运行报告存储在MongoDB数据库。在Cuckoo沙箱原有接口的基础上进行封装，使用程序设计语言Python编写客户端与服务端代码。所述任务的存储形式为 MySQL数据库中的一条记录，创建任务时会向MySQL数据库中插入一条新纪录，从而标记该任务的状态信息；所述客户端通过超文本传输协议(HTTP)中的POST 方法上传待检测的软件样本，软件样本的类型为Windows程序；客户端负责创建沙箱任务、等待沙箱资源、提交样本、获取运行报告；服务端负责接受客户端的请求、将空闲沙箱资源分配给客户端。客户端与服务端通过Kafka进行通信。

服务端可实时获取当前时刻处于空闲状态的沙箱，具有两种工作模式，分别对应了不同的策略。当服务端处于管理员任务工作模式时，负责运行的样本数量会数以万计，需要减少调度来带的等待时间，因此服务端会根据每个沙箱节点的承载能力，按比例批量分配工作负载给每个沙箱节点，从而保证稳定、高速的运行效率。当服务端处于普通用户任务工作模式时，用户通过客户端提交过来的任务会加入等待队列，服务端会以轮询的方式从队列头部获取先提交过来的任务，安排当前为空闲状态的虚拟机来执行该任务。

自动化软件爬取与下发模块：

为了能够构建更加准确的模型，需要获取大量带标签的软件样本并生成沙箱报告，从而作为模型的输入。其中，恶意软件可从知名文件分析服务网站 VirusTotal获取，收集到大量的带具体类型标签的样本；正常软件需要自己编写爬虫去公开的软件下载网站获取。本发明选择了腾讯软件中心(图2)和太平洋下载中心(图3)作为数据来源。完成样本收集工作后，脚本会批量下发软件到沙箱运行，获得软件行为报告，作为后续分析的数据。此模块定时执行，爬取新的软件数据，补充到现有数据集中。

在下发软件运行任务到沙箱节点时，本发明通过对沙箱集群进行状态监测，量化不同节点的性能差异，周期性调整节点比重来实现任务载荷的动态调整。

沙箱节点会按照当前的剩余虚拟机资源数进行排序，形成一个优先队列，空闲资源更多的沙箱排在队列头部，在执行下一次任务时会被优先考虑。

在调度过程中，沙箱客户端与沙箱服务端之间会产生大量的通信往来，由于系统对信息实时性有较高的要求，故采用Kafka作为消息队列来实现调度算法。 Kafka最大的特性就是可以实时的处理大量数据以满足各种需求场景。每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。

在沙箱系统中有两种消息，一种消息是客户端向服务端申请虚拟机使用权的请求，记为task_queue类别；另一种消息是服务端找到空闲虚拟机后，向服务端下发的运行指令，记为run_vm类别。两个Topic的工作逻辑见图4。

服务器端会开启一个线程专门用于监听task_queue类型的消息(即客户端发来的申请)，当有消息传来时，服务器会根据所申请的虚拟机类型进行空闲资源的查找，如果当前有符合条件的虚拟机资源则向客户端回应调度安排，调度安排是一个run_vm类型的消息；如果此时没有符合类型的虚拟机资源，则服务器端会开启新线程，把该请求60秒后再次放进task_queue的消息队列，也就是在 60秒后重新进行调度安排的尝试，把本次的申请延迟。

客户端在向服务器端发送完毕申请后，会进入等待调度的循环中，一直监听 run_vm类型的消息，当发现本次的调度安排是发送给自己时，会按照调度安排，把软件传送到指定的虚拟机中运行。

API序列检测模型：

任务定义：通过学习软件API调用序列之间的关系，检测软件是否为恶意软件。

特征表达：首先先将每个软件的所有系统函数调用记录整合到一起形成列表形式的软件API调用序列，通过Keras内置方法Tokenizer生成API序列字典，并将软件API调用序列填充或截断成长度为500的序列，填充方式为在结尾补0，最后通过Embedding层构建API调用序列向量。

模型检测方案设置：

模型分为嵌入层、特征提取层、特征学习层、分类器四个部分。嵌入层使用Embedding层对序列向量进行词嵌入处理，得到向量矩阵，通过学习嵌入空间更新每个API之间关系距离向量，获得更加准确的API之间的相关性。特征提取层通过四种卷积核大小的一维卷积层进行特征提取，即分割出长度为1、3、5、7 的子序列，依次提取对应子序列信息，并进行最大池化得到API序列特征，最后将得到的这8个API序列特征进行拼接，并输入特征学习层。特征学习层使用注意力机制学习各个API序列特征的重要性，并制定特征权重矩阵，有效提升特征学习进度以及模型准确率，最后使用激活函数为“sigmoid”的全连接层作为分类器，输出范围在0到1之间的数值，数值代表软件样本为恶意软件的概率，如超过0.5则说明该软件是恶意的。

实验结果：

本发明使用不同卷积核大小模型在实验室数据集上进行恶意软件检测性能测试评估，得到的实验结果如表1所示，其中采用1，3，5，7四种不同卷积核所得到的实验结果为最佳。

本发明从以下几个角度来评估模型：

1)准确率(ACC)：模型预测结果正确次数所占总的预测次数的比例。

2)识别率(True Positive Rate，TPR)：所有恶意软件样本中被判为恶意的占比

3)误报率(False Positive Rate，FPR)：所有良性软件样本中被误报为恶意的占比

表1模型恶意软件检测结果

可以看出在使用卷积核为1的一维卷积神经网络进行特征提取时，模型的效果最差，因为当一维卷积神经网络的卷积核为1时，卷积层提取到的是每个单独的API的特征，忽略了连续API之间的关系，无法学习到连续API子序列的特征，恶意软件的恶意行为都是经过一系列的API调用来实现的不可能只依靠单个API 调用就能完成其恶意行为。当增大卷积核大小时，可以看到模型的检测能力有所提升但不是很大，且在卷积核大小超过7之后，模型的检测能力又开始下降。过长的API子序列，可能会忽略掉API子序列中更小子序列的特征信息，同时也可能发生信息冗余的情况，导致序列特征的权重变得稀疏，所以一个合适的卷积核大小可以提升模型的特征提取能力。不同卷积核大小的一维卷积神经网络在进行特征提取时，分别提取到了不同长度API子序列的特征，尽可能地保留了API 调用序列中更多地语义信息，实现了不同长度特征类型之间的互补。

Claims

1.一种基于分布式沙箱的恶意软件检测系统，其特征在于：系统分为分布式沙箱系统、API序列检测模型和输出模块；所述分布式沙箱系统模块的输入为Windows软件样本，软件的上传方式为超文本传输协议中的POST方法，输出为软件在沙箱中运行后所得到的行为记录，存储于MongoDB数据库中；API序列检测模型的输入为从MongoDB数据库中读取的行为记录，经过数据预处理、特征提取后输入预训练好的检测模型进行检测；

所述自动化软件爬取与下发模块获取带恶意软件和正常软件标签的软件样本并生成沙箱报告，作为训练输入，所述恶意软件从全球最大的病毒分析平台VirusTotal获取，所述正常软件通过爬虫从软件下载网站获取，样本收集后，所述自动化软件爬取与下发模块下发软件到沙箱运行，获得软件行为报告，作为后续分析的数据，并定时执行，获取新的软件数据，补充现有数据集；

所述任务调度模块基于开源工具Cuckoo部署多个沙箱节点，在Cuckoo沙箱原有接口的基础上进行封装设计客户端与服务端，使用程序设计语言Python进行代码实现，所述任务的数据存储形式为MySQL数据库中的一条记录，创建任务即向MySQL数据库中插入一条新纪录，从而标记该任务的状态信息；所述客户端上传软件样本到沙箱内部的方式为超文本传输协议中的POST方法，软件样本的类型为Windows程序；客户端用于创建沙箱任务、等待沙箱资源、提交样本、获取运行报告，服务端负责接受客户端的请求、实时获取沙箱的资源情况，并通过管理员任务工作模式或普通用户任务工作模式两种模式将空闲沙箱资源分配给客户端，客户端与服务端通过Kafka消息队列进行通信，每条发布到Kafka的消息都有一个类别，所述类别被称为Topic，所述运行报告存储在MongoDB数据库；下发软件运行任务到沙箱节点时，本发明通过对沙箱集群进行状态监测，量化不同节点的性能差异，周期性调整节点比重来实现任务载荷的动态调整；在获取所述自动化软件爬取与下发模块的数据后，沙箱节点会按照当前的剩余虚拟机资源数进行排序，形成一个优先队列，空闲资源更多的沙箱排在队列头部，在执行下一次任务时会被优先考虑；

在所述沙箱系统中有两种消息，一种消息是客户端向服务端申请虚拟机使用权的请求，记为task_queue类别；另一种消息是服务端找到空闲虚拟机后，向服务端下发的运行指令，记为run_vm类别；所述服务器端会开启一个线程专门用于监听所述客户端发来的申请的task_queue类型的消息，当有task_queue类型的消息传来时，服务器会根据所申请的虚拟机类型进行空闲资源的查找，如果当前有符合条件的虚拟机资源则向客户端回应调度安排，调度安排是一个run_vm类型的消息；如果此时没有符合类型的虚拟机资源，则服务器端会开启新线程，把该请求在60秒后再次放进task_queue的消息队列，也就是把本次的申请延迟；客户端在向服务器端发送完毕申请后，会进入等待调度的循环中，一直监听run_vm类型的消息，当发现本次的调度安排是发送给自己时，会按照调度安排，把软件传送到指定的虚拟机中运行；

API序列检测模型与分布式沙箱系统之间通过数据库进行数据的传递：分布式沙箱系统负责产生软件行为记录，存入MongoDB数据库；API序列检测模型负责从MongoDB数据库中读取行为记录，进行分析；

所述API序列检测模型的架构中，

特征表达层面上：首先将每个软件的系统函数调用记录整合到一起形成列表形式的软件API调用序列，通过开源框架Keras内置的Tokenizer方法生成API序列字典，并将软件API调用序列填充或截断成长度为500的序列，填充方式为在结尾补0，最后通过Embedding层构建API调用序列向量；

2.如权利要求1所述的一种基于分布式沙箱的恶意软件检测系统，其特征在于：所述管理员任务工作模式应用于样本数量达到10k量级以上，需要减少调度来带的等待时间的场景，所述服务端根据每个沙箱节点的承载能力，按比例批量分配工作负载给每个沙箱节点；所述普通用户任务工作模式应用于样本数量较小的场景，直接将通过客户端提交过来的任务加入等待队列，所述服务端会以轮询的方式从队列头部获取先提交过来的任务，安排当前为空闲状态的虚拟机来执行该任务。

3.如权利要求2所述的一种基于分布式沙箱的恶意软件检测系统，其特征在于：所述一定时间为60秒。

4.如权利要求3所述的一种基于分布式沙箱的恶意软件检测系统，其特征在于：所述一定长度为500。

5.如权利要求4所述的一种基于分布式沙箱的恶意软件检测系统，其特征在于：所述最大池化得到API序列特征为8个。

6.如权利要求5所述的一种基于分布式沙箱的恶意软件检测系统，其特征在于：所述输出数值为0至1之间的数值，数值代表软件样本为恶意软件的概率，如超过0.5则说明该软件为恶意的。