CN109117634A

CN109117634A - 基于网络流量多视图融合的恶意软件检测方法及系统

Info

Publication number: CN109117634A
Application number: CN201811030880.1A
Authority: CN
Inventors: 陈贞翔; 沈静雅; 王闪闪; 杨波; 荆山; 纪科
Original assignee: University of Jinan; CERNET Corp
Current assignee: University of Jinan; CERNET Corp
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-01
Anticipated expiration: 2038-09-05
Also published as: CN109117634B

Abstract

本发明公开了基于网络流量多视图融合的恶意软件检测方法及系统，包括：获取网络流量样本数据，建立神经网络模型；将网络流量样本数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征作为神经网络模型的输入值，输入到神经网络模型中，对神经网络模型进行训练，得到训练好的神经网络模型；获取待测网络流量数据，待测网络流量数据，包括：HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征；将待测网络流量数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征输入到训练好的神经网络模型中，输出检测结果是恶意软件还是正常软件。

Description

基于网络流量多视图融合的恶意软件检测方法及系统

技术领域

本发明涉及基于网络流量多视图融合的恶意软件检测方法及系统。

背景技术

近年来，随着移动网络恶意软件的规模和多样性不断增加，给用户的财产和个人隐私带来了相当大的威胁。根据对各种恶意软件的恶意行为研究，将现有的移动恶意软件检测方法分为三类，分别是基于恶意代码的静态检测、基于系统恶意调用的动态检测、基于网络行为的流量检测。基于恶意代码的静态检测通过反编译apk文件提取静态代码特征与特征库进行匹配；基于系统恶意调用的动态检测通过运行应用程序并利用污点方式记录系统调用行为以达到检测恶意应用的目的；基于网络行为的流量检测通过分析网络流量特征结合机器学习来发现未知的恶意应用。然而，这三种方法都存在着不足之处，静态检测对未知的恶意应用的发现能力不足；动态检测方法部署困难，工程繁琐并且消耗大量资源；流量检测相比另外两种检测方法具有轻量级结构、可大规模部署等特点。

根据网络行为特征，流量检测又可以分为三类。基于网络签名的方法根据预先确定的网络签名来评估恶意软件，但是对于未知的恶意攻击发现能力不足；基于统计特征的方法根据平均数据包大小，平均流量持续时间，传入到传出字节的字节等特征建模以识别恶意应用，因为统计特征的方法仅以粗略的方式表征网络流量，因此可能会导致比较高的误判率；基于词汇特征的方法则利用有效且丰富的文本特征来检测恶意应用。

一般来说，大多数基于网络流量和机器学习算法的恶意软件识别方法都会过分依赖于特征，而从网络流量中提取表征恶意行为的有效特征是非常困难的。流量特征的代表性不够，训练出的模型就可能存在识别效率低、恶意应用发现能力差、误判率高等问题。

发明内容

为了解决现有技术的不足，本发明提供了基于网络流量多视图融合的恶意软件检测方法及系统，利用深度学习框架的特征自动发现和网络流量特征的多视图融合，充分改善恶意流量检测特征选择困难、识别率低等问题；

为了解决上述技术问题，本发明采用如下技术方案：

作为本发明的第一方面，提供了基于网络流量多视图融合的恶意软件检测方法；

基于网络流量多视图融合的恶意软件检测方法，包括：

获取网络流量样本数据，从网络流量样本数据中提取HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征；

建立神经网络模型；

将网络流量样本数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征作为神经网络模型的输入值，输入到神经网络模型中，对神经网络模型进行训练，得到训练好的神经网络模型；

获取待测网络流量数据，待测网络流量数据，包括：HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征；

将待测网络流量数据的HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征输入到训练好的神经网络模型中，输出检测结果是恶意软件还是正常软件。

进一步的，所述神经网络模型，是卷积神经网络CNN、GRU神经网络、循环神经网络RNN或长短期记忆网络LSTM。

进一步的，所述神经网络模型，包括：依次连接的输入层、隐藏层和输出层；

所述输入层，用于输入HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征；

所述隐藏层，用于提取HTTP网络流量请求头、HTTP网络流量URL字段和TCP网络流量统计特征的信息；所述隐藏层中神经元的个数根据需求设定；

所述输出层，用于输出每个样本属于不同类别的概率。

进一步的，所述获取网络流量样本数据，从网络流量样本数据中提取HTTP网络流量请求头的具体步骤为：

获取正常的HTTP网络流量样本数据，从正常的HTTP网络流量样本数据中提取HTTP请求头，得到正常的HTTP网络流量的请求头特征集；

获取异常的HTTP网络流量样本数据，从异常的HTTP网络流量样本数据中提取HTTP请求头，得到异常的HTTP网络流量的请求头特征集；

将得到的正常的HTTP网络流量的请求头特征集和异常的HTTP网络流量的请求头特征集进行汇总，构建HTTP网络流量请求头。

进一步的，所述获取网络流量样本数据，从网络流量样本数据中提取HTTP网络流量URL字段的具体步骤为：

获取正常的HTTP网络流量样本数据，从正常的HTTP网络流量样本数据中提取URL字段，得到正常的HTTP网络流量的URL字段特征集；

获取异常的HTTP网络流量样本数据，从异常的HTTP网络流量样本数据中提取URL字段，得到异常的HTTP网络流量的URL字段特征集；

将得到的正常的HTTP网络流量的URL字段特征集和异常的HTTP网络流量的URL字段特征集进行汇总，构建HTTP网络流量URL字段。

进一步的，所述获取网络流量样本数据，从网络流量样本数据中提取TCP网络流量统计特征的具体步骤为：

获取正常的TCP网络流量样本数据，从正常的TCP网络流量样本数据中提取TCP流量，得到正常的TCP网络流量的TCP流量特征集；

获取异常的TCP网络流量样本数据，从异常的TCP网络流量样本数据中提取TCP流量，得到异常的TCP网络流量的TCP流量特征集；

将得到的正常的TCP网络流量的TCP流量特征集和异常的TCP网络流量的TCP流量特征集进行汇总，得到TCP网络流量统计特征。

进一步的，所述获取正常的HTTP网络流量样本数据，从正常的HTTP网络流量样本数据中提取HTTP请求头的具体步骤为：

步骤(1-1-1)：正常HTTP流内容获取，使用T-shark命令将后缀名为.pcap的正常网络流量文件中的每一条HTTP网络流的请求头内容写入到对应的文本文档中；

步骤(1-1-2)：根据文本文档中的内容，选择卡方测试算法对步骤(1-1-1)中获取的正常HTTP请求头进行向量表示；

所述T-shark命令是：“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。

进一步的，获取异常的HTTP网络流量样本数据，从异常的HTTP网络流量样本数据中提取HTTP请求头的具体步骤为：

步骤(1-2-1)：异常HTTP流内容获取，使用T-shark命令将后缀名为.pcap的异常网络流量文件中的每一条HTTP网络流的请求头内容写入到对应的文本文档中；

步骤(1-2-2)：根据文本文档中的内容，选择卡方测试算法对步骤(1-1-1)中获取的异常HTTP请求头向量表示；

进一步的，获取正常的HTTP网络流量样本数据，从正常的HTTP网络流量样本数据中提取URL字段的具体步骤为：

步骤(1-3-1)：正常HTTP流内容获取，使用T-shark命令将后缀名为.pcap的正常网络流量文件中的每一条HTTP网络流的URL内容写入到对应的文本文档中；

步骤(1-3-2)：利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成若干个段，每个段都视为一个URL片段；

步骤(1-3-3)：对步骤(1-3-2)中的正常URL片段进行向量表示。

所述特殊符号，包括：反斜杠、冒号、&、百分号、等号和空格。

分词若干个段是指分成协议、域名、端口、网络资源在服务器路径、请求参数、查询字符串、fragement片段；

进一步的，获取异常的HTTP网络流量样本数据，从异常的HTTP网络流量样本数据中提取URL字段的具体步骤为：

步骤(1-4-1)：异常HTTP流内容获取，使用T-shark命令将后缀名为.pcap的异常网络流量文件中的每一条HTTP网络流的URL内容写入到对应的文本文档中；

步骤(1-4-2)：利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成若干个段，每个段都视为一个URL片段；

步骤(1-4-3)：在对步骤(1-3-2)中的异常URL片段进行向量表示。

进一步的，获取正常的TCP网络流量样本数据，从正常的TCP网络流量样本数据中提取TCP流量的具体步骤为：

步骤(1-5-1)：获取每一条正常的TCP流的各个数据包特征，写入相应的csv文件；所述数据包特征，包括：数据包特征；上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节；

步骤(1-5-2)：根据(1-5-1)所述包特征进行统计，得到每一条正常TCP流的统计特征；

步骤(1-5-3)：对每一条正常TCP流的统计特征采用Min-max标准化方法进行归一化处理；

所述TCP流的统计特征为：上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节。

进一步的，获取异常的TCP网络流量样本数据，从异常的TCP网络流量样本数据中提取TCP流量的具体步骤为：

步骤(1-6-1)：获取每一条异常的TCP流的各个包特征，写入相应的csv文件；

步骤(1-6-2)：根据(1-6-1)所述包特征进行统计，得到每一条异常TCP流的统计特征；

步骤(1-6-3)：对每一条正常TCP流的统计特征归一化处理；

所述流统计特征为：上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节等。

作为本发明的第二方面，提供了基于网络流量多视图融合的恶意软件检测系统；

基于网络流量多视图融合的恶意软件检测系统，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

作为本发明的第三方面，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明提出了一种多视图融合的模型建立方法。这种模型的建立是将多视图应用到网络流量层面。利用这个模型可以有效地检测移动恶意应用。

(2)本发明使用了从流内容中使用神经网络提取有效特征。有助于挖掘样本有效选择和特征自动提取能力，避免了人工选取特征的困难性和不可靠性。

(3)本发明设计了一种包含输入层、隐藏层、输出层的神经网络结构，可以有效的检测恶意应用。

(4)本发明设计了一种利用多类流量样本库结合神经网络算法进行恶意软件检测的方法。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明整体流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

IPv6是被指定为IPv4继任者的下一代互联网协议版本。IPv6是个用于封包交换互联网络的网络层协议，由于IPv6使用128位元的地址，因此它具有比IPv4大的多的地址空间，随着互联网的发展，IPv6的优势不言而喻。在网络流量层面，协议不同，流量内容也存在很多差异，因此，在IPv6环境下提出一种网络流量的多视图融合的恶意软件检测方法。

如图1所示，基于网络流量多视图融合的恶意软件检测方法，包括如下步骤：

步骤(1)：采集移动应用网络流量数据，根据流量内容，将流量数据集划分成多个视图，例如HTTP流请求字段、urls字段、tcp流统计特征等，多视图构成样本数据的一条记录，每条记录为一个n元组，这里的n代表视图个数，这里视图个数不局限于3个，可以随时添加。

步骤(2)：建立包含输入层(视图层)、隐藏层、输出层的多视图神经网络(神经网络隐藏层模型可以是CNN、GRU、RNN、LSTM等)；

步骤(3)：根据训练样本对步骤(2)的神经网络进行训练，确定神经网络中的权重矩阵；

步骤(4)：使用k折交叉验证多视图移动恶意应用检测模型的准确率；

所述步骤(1)的步骤为：

步骤(1-1)：获取正常的HTTP网络流量的内容，从获取到的正常的HTTP网络流量中提取请求头内容，得到正常的HTTP网络流量的请求头特征集，进入步骤(1-7)；

步骤(1-2)：获取异常的HTTP网络流量的内容，从获取到的异常的HTTP网络流量中提取请求头内容，得到异常的HTTP网络流量的请求头特征集，进入步骤(1-7)；

步骤(1-3)：获取正常的HTTP网络流量的内容，从获取到的正常的HTTP网络流量中提取URL字段，得到正常的HTTP网络流量的URL字符向量特征集，进入步骤(1-8)；

步骤(1-4)：获取异常的HTTP网络流量的内容，从获取到的异常的HTTP网络流量中提取URL字段，得到异常的HTTP网络流量的URL字符向量特征集，进入步骤(1-8)；

步骤(1-5)：获取每一条正常的TCP网络流量的各个包特征，从获取到的正常的TCP网络流量包特征内容中提取各种流统计特征，得到每一条正常的TCP网络流量的统计特征集，进入步骤(1-9)；所述各种流统计特征，包括：流统计特征，上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节；

步骤(1-6)：获取每一条异常的TCP网络流量的各个包特征，从获取到的异常的TCP网络流量包特征内容中提取各种流统计特征，得到每一条异常的TCP网络流量的统计特征集，进入步骤(1-9)；

步骤(1-7)：将步骤(1-1)和步骤(1-2)得到的正常和异常的HTTP网络流量请求头特征集汇总，构建HTTP网络流量请求头；

步骤(1-8)：将步骤(1-3)和步骤(1-4)得到的正常和异常的HTTP网络流量URL字段特征集汇总，构建HTTP网络流量URL字段；

步骤(1-9)：将步骤(1-5)和步骤(1-6)得到的正常和异常的TCP网络流量统计特征字段特征集汇总，构建TCP网络流量统计特征；

所述步骤(1-1)的步骤为：

步骤(1-1-2)：根据文本特征，选择算法对步骤(1-1-1)中获取的正常HTTP请求头向量表示；

所述正常网络流量文件是：使用tcpdump采集正常app在进行网络交互时产生的网络流量文件。

所述步骤(1-2)的步骤为：

步骤(1-2-2)：根据文本特征，选择算法对步骤(1-1-1)中获取的异常HTTP请求头向量表示；

所述异常网络流量文件是：使用tcpdump采集正常app在进行网络交互时产生的网络流量文件。

所述步骤(1-3)的步骤为：

步骤(1-3-2)：利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成多个段，每个段都视为一个URL片段；

步骤(1-3-3)：对步骤(1-3-2)中的正常URL片段进行向量表示。

所述步骤(1-4)的步骤为：

步骤(1-4-2)：利用特殊字符将步骤(1-3-1)中的文本文档中的URL内容分成多个段，每个段都视为一个URL片段；

步骤(1-4-3)：在对步骤(1-3-2)中的异常URL片段进行向量表示。

所述步骤(1-5)的步骤为：

步骤(1-5-1)：获取每一条正常的TCP流的各个包特征，写入相应的csv文件；

步骤(1-5-3)：对每一条正常TCP流的统计特征归一化处理；

所述流统计特征为：上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节、下载字节等。这里的统计特征可以是多类。

所述步骤(1-6)的步骤为：

步骤(1-6-3)：对每一条正常TCP流的统计特征归一化处理；

所述步骤(1-7)的步骤为：

步骤(1-7-1)：合并步骤(1-1-2)正常HTTP流请求头特征集和步骤(1-2-2)异常HTTP流请求头特征集，构建HTTP流请求特征集视图；

所述步骤(1-8)的步骤为：

步骤(1-8-1)：合并步骤(1-3-3)正常HTTP流URL字段集和步骤(1-4-3)异常HTTP流URL字段集，构建HTTP流的URL字段集视图；

所述步骤(1-9)的步骤为：

步骤(1-9-1)：合并步骤(1-5-3)正常TCP流统计特征集和步骤(1-6-3)异常TCP流统计特征集，构建TCP流的统计特征集视图；

所述输入层为：步骤(1)的各类样本集向量，例如HTTP流请求头、URL字段、TCP统计等；

所述隐藏层为：自动对输入层(视图层)传入数据检测特征或可见特征，将多视图特征向量映射到隐形特征空间；

所述全连接层为：隐藏层从原始单视图样本向量(HTTP流请求头、URL字段、TCP流统计等)中提取到的特征，学习到最合适的权重矩阵；

所述Softmax层为：对分类结果归一化处理，并输出样本属于正常或异常的概率；

所述输出层为：输出最终分类结果，正常或者恶意。

所述步骤(3)的步骤为：

步骤(3-1)：选择步骤(1)处理的对应样本集合(Ai，Bi)，其中Ai为数据、Bi为标签(标签即所属类别)；

步骤(3-2)：将步骤(3-1)中标注的每一个样本集合送入步骤(2)构建的单视图神经网络，并计算网络的实际输出Y(此时网络的权重是随机值)；

步骤(3-3)：计算预测值和实际输出的差值，即D＝Bi-Y；

步骤(3-4)：根据误差D调整权值矩阵W；

步骤(3-5)：对每个样本集合中的每一个样本重复步骤(3-2)、步骤(3-3)、步骤(3-4)过程，直到误差D不超过规定范围。

所述步骤(4)的步骤为：

步骤(4-1)：根据步骤(1)的每个样本集合的样本数量确定k折交叉验证的k值；

步骤(4-2)：由步骤(4-1)确定的k值和步骤(3)训练的单视图神经网络进行k折交叉验证；

步骤(4-3)：选取不同k值时，比较单视图神经网络模型的各项性能指标，确定性能最优的k值；

步骤(4-4)：由步骤(4-3)的k折交叉验证计算出的单视图神经网络准确率，比较得出准确率最高的单视图神经网络；

本发明提出一个多视图融合的模型建立方法，可以应用到移动恶意检测软件中，利用多类流量样本库，结合神经网络的方法，建立了一个检测模型。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于网络流量多视图融合的恶意软件检测方法，其特征是，包括：

建立神经网络模型；

2.如权利要求1所述的基于网络流量多视图融合的恶意软件检测方法，其特征是，所述神经网络模型，包括：依次连接的输入层、隐藏层和输出层；

所述输出层，用于输出每个样本属于不同类别的概率。

3.如权利要求1所述的基于网络流量多视图融合的恶意软件检测方法，其特征是，所述获取网络流量样本数据，从网络流量样本数据中提取HTTP网络流量请求头的具体步骤为：

4.如权利要求1所述的基于网络流量多视图融合的恶意软件检测方法，其特征是，

所述获取网络流量样本数据，从网络流量样本数据中提取HTTP网络流量URL字段的具体步骤为：

5.如权利要求1所述的基于网络流量多视图融合的恶意软件检测方法，其特征是，所述获取网络流量样本数据，从网络流量样本数据中提取TCP网络流量统计特征的具体步骤为：

6.如权利要求3所述的基于网络流量多视图融合的恶意软件检测方法，其特征是，

所述获取正常的HTTP网络流量样本数据，从正常的HTTP网络流量样本数据中提取HTTP请求头的具体步骤为：

获取异常的HTTP网络流量样本数据，从异常的HTTP网络流量样本数据中提取HTTP请求头的具体步骤为：

步骤(1-2-2)：根据文本文档中的内容，选择卡方测试算法对步骤(1-1-1)中获取的异常HTTP请求头向量表示。

7.如权利要求4所述的基于网络流量多视图融合的恶意软件检测方法，其特征是，获取正常的HTTP网络流量样本数据，从正常的HTTP网络流量样本数据中提取URL字段的具体步骤为：

步骤(1-3-3)：对步骤(1-3-2)中的正常URL片段进行向量表示；

获取异常的HTTP网络流量样本数据，从异常的HTTP网络流量样本数据中提取URL字段的具体步骤为：

步骤(1-4-3)：在对步骤(1-3-2)中的异常URL片段进行向量表示。

8.如权利要求5所述的基于网络流量多视图融合的恶意软件检测方法，其特征是，获取正常的TCP网络流量样本数据，从正常的TCP网络流量样本数据中提取TCP流量的具体步骤为：

所述TCP流的统计特征为：上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节；

获取异常的TCP网络流量样本数据，从异常的TCP网络流量样本数据中提取TCP流量的具体步骤为：

步骤(1-6-3)：对每一条正常TCP流的统计特征归一化处理；

所述流统计特征为：上传数据包数量、下载数据包数量、一个上传数据包平均字节大小、一个下载数据包平均字节大小、上传字节或下载字节。

9.基于网络流量多视图融合的恶意软件检测系统，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-8任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-8任一项方法所述的步骤。