CN108200030A

CN108200030A - 恶意流量的检测方法、系统、装置及计算机可读存储介质

Info

Publication number: CN108200030A
Application number: CN201711445074.6A
Authority: CN
Inventors: 刘伯仲; 蒋振超; 古亮; 马程; 梁玉
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-06-22

Abstract

本申请公开了一种恶意流量的检测方法，包括：利用获取的恶意和正常数据流量样本对应建立恶意和正常数据样本库；对数据样本库依次执行数据清洗操作和预处理操作，得到训练数据，并利用训练数据和深度学习算法构建流量检测模型；利用流量检测模型判断待测数据流量中是否含有恶意数据；若含有，则通过预设路径发送携带有属于恶意数据的待测数据流量的警告信息。充分利用深度学习算法具有的自动学习特性从提供的正常和恶意数据样本库中进行特征学习和训练，无需耗费宝贵的人力资源完成特征信息提取操作，显著提升了工作效率、提升了恶意流量的判别精度。本申请还同时公开了一种恶意流量的检测系统、装置及计算机可读存储介质，具有上述有益效果。

Description

恶意流量的检测方法、系统、装置及计算机可读存储介质

技术领域

本申请涉及流量检测技术领域，特别涉及一种恶意流量的检测方法、系统、装置及计算机可读存储介质。

背景技术

随着大数据时代的到来，相比于传统数据的保存方式，将其以二进制数据的方式存储于数据存储服务器或云端上能够更加的节省成本和有效提高工作效率。随之而来问题就是如何针对现今网络环境中恶意网络流量的攻击和对数据的盗取做到有效的防范。

现有技术中，往往通过静态特征分类和动态签名分类两种方式对恶意数据流量进行判别，以在判断出结果的基础上阻拦恶意流量进入自身。其中，静态特征分类的方式只是简单的是否拥有完全相同的特征来作为分类标准，只需简单的加壳或混淆就达到目标效果，已逐渐被淘汰；动态签名则利用管理人员人工提取得到的恶意流量特征进行聚类分析，并旨在利用聚类分析结果实现对同一类恶意流量的分类，但由于严重依赖于人工提取得到的特征，且聚类分析准确率较低的问题，导致检测和分类结果十分不稳定。

因此，如何针对现有技术存在的各项技术缺陷，提供一种无需依赖人工、数据流量特征分析更准确、方法更科学的恶意流量检测机制是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种恶意流量的检测方法，利用深度学习算法具有的自动学习特性从提供的正常和恶意数据样本库中进行特征学习和训练，无需耗费宝贵的人力资源完成特征信息提取操作，显著提升了工作效率、提升了恶意流量的判别精度，降低了受到恶意流量冲击的可能性。

本申请的另一目的在于提供了一种恶意流量的检测系统、装置及计算机可读存储介质。

为实现上述目的，本申请提供一种恶意流量的检测方法，该检测方法包括：

利用获取的恶意数据流量样本和正常数据流量样本对应建立恶意数据样本库和正常数据样本库；

对所述恶意数据样本库和所述正常数据样本库均依次执行数据清洗操作和预处理操作，得到训练数据，并利用所述训练数据和深度学习算法构建流量检测模型；

利用所述流量检测模型判断待测数据流量中是否含有恶意数据；

若含有所述恶意数据，则通过预设路径发送携带有属于所述恶意数据的待测数据流量的警告信息。

可选的，利用获取的恶意数据流量样本和正常数据流量样本对应建立恶意数据样本库和正常数据样本库，包括：

获取预设数量的恶意程序和正常程序；

将所述恶意程序和所述正常程序分别放置于两个独立的虚拟系统程序中运行，得到所述恶意数据样本库和所述正常数据样本库。

可选的，获取预设数量的恶意程序和正常程序，包括：

利用代理、蜜罐、公开恶意软件样本库以及威胁情报和IOC资源获取得到第一预设数量的恶意应用；

从通过安全认证的程序官网和从软件供应商处批量获取得到第二预设数量的正常应用。

可选的，将所述恶意程序和所述正常程序分别放置于两个独立的虚拟系统程序中运行，得到所述恶意数据样本库和所述正常数据样本库，包括：

将所述恶意应用运行于第一沙箱，并利用流量截取工具从所述第一沙箱中截取得到恶意数据包；

将所述正常应用运行于第二沙箱，并利用所述流量截取工具从所述第二沙箱中截取得到正常数据包；

利用数据解析工具对所述恶意数据包和所述正常数据包进行解析，分别得到所述恶意数据样本库和所述正常数据样本库。

可选的，对所述恶意数据样本库和所述正常数据样本库均依次执行数据清洗操作和预处理操作，得到训练数据，并利用所述训练数据和深度学习算法构建流量检测模型，包括：

对所述恶意数据样本库和所述正常数据样本库中的数据进行异常筛选，得到异常数据；其中，所述异常数据包括残缺数据、错误数据、重复数据中的至少一种；

对所述异常数据根据不同的异常种类选用相应的修复处理技术进行纠正，得到清洗后数据；

对所述清洗后数据执行所述预处理操作，得到所述训练数据；其中，所述预处理操作包括协议解析、格式转换、数据选择、解码以及嵌入中的至少一项。

可选的，利用所述训练数据和深度学习算法构建流量检测模型，包括：

将所述训练数据利用LSTM神经网络算法构建LSTM流量检测模型。

可选的，利用所述流量检测模型判断待测数据流量是否含有恶意数据，包括：

采集得到实际数据流量，并对所述实际数据流量依次执行所述数据清洗操作和所述预处理操作，得到所述待测数据流量；

利用所述LSTM流量检测模型判断所述待测数据流量中是否含有所述恶意数据。

可选的，利用所述LSTM流量检测模型判断所述待测数据流量中是否含有所述恶意数据，包括：

利用LSTM嵌入层将所述待测数据流量转换得到可计算向量；

利用LSTM隐层对所述可计算向量按预设转换方式进行格式转换，得到转换后数据；

利用Softmax层对所述转换后数据按预设预测算法进行数据威胁预测，以判断所述待测数据流量中是否含有所述恶意数据；

其中，所述LSTM流量监测模型包括所述LSTM嵌入层、所述LSTM隐层和所述Softmax层。

可选的，该检测方法还包括：

对经过所述流量监测模型判断属于所述恶意数据的待测数据流量执行溯源操作，以得到对应的目标恶意软件；

判断所述目标恶意软件是否为已知恶意软件，若否，则将所述目标恶意软件更新进已知恶意软件的列表当中。

可选的，该检测方法还包括：

每隔预设周期更新所述恶意数据流量样本和所述正常数据流量样本；

利用更新后的恶意数据流量样本和正常数据流量样本建立新恶意数据样本库和新正常数据样本库。

为实现上述目的，本申请还提供了一种恶意流量的检测系统，该检测系统包括：

样本库建立单元，用于利用获取的恶意数据流量样本和正常数据流量样本对应建立恶意数据样本库和正常数据样本库；

数据处理及模型建立单元，用于对所述恶意数据样本库和所述正常数据样本库均依次执行数据清洗操作和预处理操作，得到训练数据，并利用所述训练数据和深度学习算法构建流量检测模型；

恶意数据判断单元，用于利用所述流量检测模型判断待测数据流量中是否含有恶意数据；

警告信息发送单元，用于在所述待测数据流量中含有所述恶意数据时，通过预设路径发送携带有属于所述恶意数据的待测数据流量的警告信息。

可选的，所述样本库建立单元包括：

程序获取子单元，用于获取预设数量的恶意程序和正常程序；

样本库建立子单元，用于将所述恶意程序和所述正常程序分别放置于两个独立的虚拟系统程序中运行，得到所述恶意数据样本库和所述正常数据样本库。

可选的，所述程序获取子单元包括：

恶意应用获取模块，用于利用代理、蜜罐、公开恶意软件样本库以及威胁情报和IOC资源获取得到第一预设数量的恶意应用；

正常应用获取模块，用于从通过安全认证的程序官网和从软件供应商处批量获取得到第二预设数量的正常应用。

可选的，所述样本库建立子单元包括：

恶意数据包获取模块，用于将所述恶意应用运行于第一沙箱，并利用流量截取工具从所述第一沙箱中截取得到恶意数据包；

正常数据包获取模块，用于将所述正常应用运行于第二沙箱，并利用所述流量截取工具从所述第二沙箱中截取得到正常数据包；

样本库建立模块，用于利用数据解析工具对所述恶意数据包和所述正常数据包进行解析，分别得到所述恶意数据样本库和所述正常数据样本库。

可选的，所述数据处理及模型建立单元包括：

异常数据筛选子单元，用于对所述恶意数据样本库和所述正常数据样本库中的数据进行异常筛选，得到异常数据；其中，所述异常数据包括残缺数据、错误数据、重复数据中的至少一种；

数据清洗子单元，用于对所述异常数据根据不同的异常种类选用相应的修复处理技术进行纠正，得到清洗后数据；

预处理子单元，用于对所述清洗后数据执行所述预处理操作，得到所述训练数据；其中，所述预处理操作包括协议解析、格式转换、数据选择、解码以及嵌入中的至少一项；

LSTM流量检测模型建立子单元，用于将所述训练数据利用LSTM神经网络算法构建LSTM流量检测模型。

可选的，所述恶意数据判断单元，包括：

待测数据获取子单元，用于采集得到实际数据流量，并对所述实际数据流量依次执行所述数据清洗操作和所述预处理操作，得到所述待测数据流量；

恶意数据包含判断子单元，用于利用所述LSTM流量检测模型判断所述待测数据流量中是否含有所述恶意数据。

可选的，所述恶意数据包含判断子单元包括：

嵌入层处理模块，用于利用LSTM嵌入层将所述待测数据流量转换得到可计算向量；

隐层处理模块，用于利用LSTM隐层对所述可计算向量按预设转换方式进行格式转换，得到转换后数据；

Softmax层处理模块，用于利用Softmax层对所述转换后数据按预设预测算法进行数据威胁预测，以判断所述待测数据流量中是否含有所述恶意数据；

可选的，该检测系统还可以包括：

溯源单元，用于对经过所述流量监测模型判断属于所述恶意数据的待测数据流量执行溯源操作，以得到对应的目标恶意软件；

已知判断单元，用于判断所述目标恶意软件是否为已知恶意软件；

非已知处理单元，用于在所述目标恶意软件不属于所述已知恶意软件时，将所述目标恶意软件更新进已知恶意软件的列表当中。

可选的，该检测系统还可以包括：

数据流量样本更新单元，用于每隔预设周期更新所述恶意数据流量样本和所述正常数据流量样本；

新样本库建立单元，用于利用更新后的恶意数据流量样本和正常数据流量样本建立新恶意数据样本库和新正常数据样本库。

为实现上述目的，本申请还提供了一种基于深度学习算法的恶意流量检测装置，该恶意流量检测装置包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述内容所描述的恶意流量的检测方法的步骤。

为实现上述目的，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述内容所描述的恶意流量的检测方法的步骤。

本申请所提供的一种恶意流量的检测方法，利用获取的恶意数据流量样本和正常数据流量样本对应建立恶意数据样本库和正常数据样本库；对所述恶意数据样本库和所述正常数据样本库均依次执行数据清洗操作和预处理操作，得到训练数据，并利用所述训练数据和深度学习算法构建流量检测模型；利用所述流量检测模型判断待测数据流量中是否含有恶意数据；若含有所述恶意数据，则通过预设路径发送携带有属于所述恶意数据的待测数据流量的警告信息。

显然，本申请所提供的技术方案，从获取的恶意数据流量样本和正常数据流量样本分别建立对应的数据样本库，并利用数据样本库中不同威胁度的数据流量结合深度学习算法进行训练，以得到一个分类效果显著的流量检测模型，能够经由该流量检测模型对实际待测数据流量中是否包含恶意流量进行较好的判别。充分利用了深度学习算法具有的自动学习特性，从提供的正常和恶意数据样本库中进行特征学习和训练，无需耗费宝贵的人力资源完成特征信息提取操作，显著提升了工作效率、提升了恶意流量的判别精度，降低了受到恶意流量冲击的可能性。本申请同时还提供了一种恶意流量的检测系统、装置及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种恶意流量的检测方法的流程图；

图2为本申请实施例所提供的另一种恶意流量的检测方法的流程图；

图3为本申请实施例所提供的又一种恶意流量的检测方法的流程图；

图4为本申请实施例所提供的恶意流量的检测方法中一种进行数据样本库更新方法的流程图；

图5为本申请实施例所提供的一种恶意流量的检测系统的结构框图；

图6为本申请实施例所提供的一种实际的恶意流量检测方法的流程图。

具体实施方式

本申请的核心是提供一种恶意流量的检测方法、系统、装置及计算机可读存储介质，从获取的恶意数据流量样本和正常数据流量样本分别建立对应的数据样本库，并利用数据样本库中不同威胁度的数据流量结合深度学习算法进行训练，以得到一个分类效果显著的流量检测模型，能够经由该流量检测模型对实际待测数据流量中是否包含恶意流量进行较好的判别。充分利用了深度学习算法具有的自动学习特性，从提供的正常和恶意数据样本库中进行特征学习和训练，无需耗费宝贵的人力资源完成特征信息提取操作，显著提升了工作效率、提升了恶意流量的判别精度，降低了受到恶意流量冲击的可能性。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

以下结合图1，图1为本申请实施例所提供的一种恶意流量的检测方法的流程图。

其具体包括以下步骤：

S101：利用获取的恶意数据流量样本和正常数据流量样本对应建立恶意数据样本库和正常数据样本库；

本步骤旨在根据恶意数据流量样本建立恶意数据样本库、根据正常数据样本库建立正常数据样本库。其中，恶意数据流量样本的来源多种多样，例如，通过包括Anonymouse.org(黑客组织营地)、OpenVPN(开放虚拟专用网络)以及Tor(匿名网络)在内的代理途径，通过包括Conpot(工控蜜罐)、Cowrie(交互型蜜罐)在内的蜜罐、包括在内的CleanMX和Contagio公开恶意软件样本库、包括CNCERT(国家互联网应急中心)、GoogleVirus Total(谷歌的查毒网站)在内的IOC(Indicator Of Compromise，入侵指标)资源以及多途径来源的威胁情报等。而正常数据流量样本则可以从通过一些安全机构认证的网站、软件合作供应商等途径获得。

在通过以上途径获取到恶意和正常的数据流量样本时，由于通常情况下最有可能获得的是会产生恶意数据的恶意应用或恶意软件，故还需要在安全的情况下运行这些恶意数据流量样本或正常数据流量样本来得到更全面、数量及特征更多的数据样本库，以使后续的深度学习算法从该数据样本库中进行自我学习，提升判断精准度。

其中，如何完整、不遗漏的获取到恶意和正常数据流量样本在运行过程中产生的所有数据，以及如何保证其不会对实际运行环境造成损害，可通过多种方式实现，例如，将恶意应用或恶意程序安装在未联网、封闭且独立的洁净操作系统当中，安装完成后所产生的所有数据均为该恶意应用或恶意程序产生的，其由于未联网，也无法通过网络危害其它计算机；为验证恶意流量在联网时的运行状况，还可以将其安装在一个虚拟的操作系统下，该虚拟操作系统具备情景设定、危害可控以及可实时参看的优点，等等方式，可以根据实际情况结合特定条件下的各限制因素综合考虑和选择合适的方式，此处并不做具体限定。

S102：对恶意数据样本库和正常数据样本库均依次执行数据清洗操作和预处理操作，得到训练数据，并利用训练数据和深度学习算法构建流量检测模型；

在S101的基础上，本步骤旨在对建立得到的数据样本库进行一系列的处理，以筛选和修复异常数据的方式提升数据可用率，以及更便于结合深度学习算法构建得到流量监测模型。

其中，一系列处理的过程具体可包括多种操作，例如，数据清洗、预处理、来源标记等等。其中的数据清洗操作包括数据一致性检验、无效值和缺失值处理等手段，旨在发现并纠正数据样本库中流量数据的错误；预处理操作则包括诸如协议解析、格式转换、数据选择、base解码(一种解码方式)、嵌入操作等，可根据实际数据的不同、后续深度学习算法选择不同，灵活选择以实现更好的数据处理。

其中，区别于现有技术中采用聚类分析的方式，本申请基于深度学习算法结合得到的训练数据建立相应的流量监测模型，深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构，深度学习通过组合底层特征形成更加抽象的高层属性类别或特征，以发现数据的分布式特征表示。通俗的说，深度学习是机器学习中一种基于对数据进行特征学习的方法，具体包括CNN(Convolutional Neural Network，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)以及基于RNN建立得到的LSTM(Long Short Term Memory，长短期记忆神经网络)等等，其各有优劣势，可以根据实际情况选择最合适的算法。

将经过处理后得到的训练数据送入深度学习算法中进行学习、训练，以使其能够根据提供的大量恶意数据样本和正常数据构建得到二分模型，即建立恶意数据或正常数据的分类判别模型，在本申请中即为流量监测模型，用于判别待测数据流量中是否含有恶意数据。能够判别出存在恶意数据，也就说与学习、训练过程中提供的大量恶意数据样本存在一定的特征关联，算法本身较为成熟，此处并不对如何进行学习、训练过程进行详细描述。

在不考虑进一步的流量检测模型更新的情况下，训练步骤只需执行一次即可，若考虑到对数据样本库进行更新，也可多次执行训练步骤，以使得到的流量检测模型的判别精准度更高。

S103：利用流量检测模型判断待测数据流量中是否含有恶意数据；

在S102成功利用训练数据和深度学习算法构建得到流量检测模型的基础上，本步骤旨在利用该流量检测模型对实际运行环境中得到的待测数据流量中是否含有恶意数据进行判别。

不同深度学习算法间存在差别，因此具体如何利用不同算法建立起的流量检测模型进行恶意数据的判别，方式也不尽相同，可根据实际情况灵活改变。在后续实施例中会以一种较为优选的深度学习算法建立起的流量检测模型具体如何进行判别进行介绍。

S104：通过预设路径发送携带有属于恶意数据的待测数据流量的警告信息。

本步骤建立在S103的判别结果为该待测数据流量中含有恶意数据的基础上，旨在通过预设路径发送警告信息，以及时提醒相关的管理者对出现的恶意数据进行防御或做出相应的处理。

其中，该预设路径的表现方式多种多样，例如，向指定邮箱发送包含判定属于恶意数据的待测数据流量的警告邮件；向相关管理员使用的信息交流工具发送恶意数据出现信息，以及时提醒和做出相应的防御和处理，还包诸如通过QQ、微信、安全日志记录等方式进行相同或类似的操作，此处并不做具体限定。

进一步的，为保持和不断增加该流量检测模型的精确度和全面程度，还可以通过增加更新机制，利用不断获取到的新恶意数据流量样本和正常数据流量样本，完善相应的数据样本库，以实现流量检测模型的不断更新。具体方式多种多样，例如对流量检测模型检测出的恶意数据通过特定技术手段追溯其来源，并判断其来源是否为已知来源，若为非已知来源，则可以将其加入已知来源列表，即新增一个恶意数据流量样本；还可以从预设渠道定期更新相关样本或拓展新渠道来增加样本，以构建更加全面的数据样本库，等等，此处并不做具体限定，可以根据不同方案实现的难易程度、厂商需求等灵活选择。

基于上述技术方案，本申请实施例提供的一种恶意流量的检测方法，从获取的恶意数据流量样本和正常数据流量样本分别建立对应的数据样本库，并利用数据样本库中不同威胁度的数据流量结合深度学习算法进行训练，以得到一个分类效果显著的流量检测模型，能够经由该流量检测模型对实际待测数据流量中是否包含恶意流量进行较好的判别。充分利用了深度学习算法具有的自动学习特性，从提供的正常和恶意数据样本库中进行特征学习和训练，无需耗费宝贵的人力资源完成特征信息提取操作，显著提升了工作效率、提升了恶意流量的判别精度，降低了受到恶意流量冲击的可能性。

以下结合图2，图2为本申请实施例所提供的另一种数据挖掘的方法的流程图。

其具体包括以下步骤：

S201：获取预设数量的恶意程序和正常程序；

S202：将恶意程序和正常程序分别放置于两个独立的虚拟系统程序中运行，得到恶意数据样本库和正常数据样本库；

以上两步骤是将获取到的预设数量的恶意程序和正常程序置于虚拟系统程序中运行，以利用运行产生的数据构建得到相应的数据样本库。

S203：对恶意数据样本库和正常数据样本库中的数据进行异常筛选，得到异常数据；其中，异常数据包括残缺数据、错误数据、重复数据中的至少一种；

S204：对异常数据根据不同的异常种类选用相应的修复处理技术进行纠正，得到清洗后数据；

S205：对清洗后数据执行预处理操作，得到训练数据；其中，预处理操作包括协议解析、格式转换、数据选择、解码以及嵌入中的至少一项；

S203、S204以及S203为对数据样本库中的数据进行的一系列处理，具体包括限制性的异常数据筛选及处理操作和预处理操作，前者目的为发现并纠正异常数据，后者为通过预处理以更好的为后续建立流量检测模型做前期准备。

S206：将训练数据利用LSTM神经网络算法构建LSTM流量检测模型；

S207：采集得到实际数据流量，并对实际数据流量依次执行数据清洗操作和预处理操作，得到待测数据流量；

S208：利用LSTM流量检测模型判断待测数据流量中是否含有恶意数据；

本实施选用了LSTM神经网络算法结合训练数据构建LSTM流量检测模型。

RNN是一类人工神经网络，是LSTM神经网络算法的前身，它的隐层具有指向自身的连接，经过展开后当前节点的隐层会以上一个节点的隐层为输入，同时，当前节点的隐层也会成为下一节点隐层的输入。

LSTM也是一种循环神经网络，通过引入门的机制克服了RNN的梯度消失问题，LSTM在处理较长的序列时能够忘记较长期，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

S209：通过预设路径发送携带有属于恶意数据的待测数据流量的警告信息。

以下结合图3，图3为本申请实施例所提供的又一种恶意流量的检测方法的流程图。

其具体包括以下步骤：

S301：利用代理、蜜罐、公开恶意软件样本库以及威胁情报和IOC资源获取得到第一预设数量的恶意应用；从通过安全认证的程序官网和从软件供应商处批量获取得到第二预设数量的正常应用；

本步骤对具体如何获取恶意应用和正常应用进行了详细说明，当然并不仅限如此，只是给出了几种较为常见和方便获取到恶意数据和正常数据的途径。

S302：将恶意应用运行于第一沙箱，并利用流量截取工具从第一沙箱中截取得到恶意数据包；将正常应用运行于第二沙箱，并利用流量截取工具从第二沙箱中截取得到正常数据包；

S303：利用数据解析工具对恶意数据包和正常数据包进行解析，分别得到恶意数据样本库和正常数据样本库；

S302和S303步骤采用了沙箱作为保证恶意应用和正常应用不对外部其它数据造成威胁的保障，并利用流量截取工具实现从沙箱中获取数据包，只需对数据包进行相应的解析即可得到数据样本库。

其中，沙箱和流量截取工具的选择多种多样，例如使用Wireshark为代表的流量截取工具来截取流量，该工具会将流量数据以PCAP的特定格式存储为文件，只需使用能够解析PCAP格式的解析工具即可完成解析。当然，使用其它工具生成文件的格式可能不同，只需使用相应的解析工具即可。

S304：对恶意数据样本库和正常数据样本库中的数据进行一致性检查，得到错误数据；对错误数据利用一致性纠正技术，得到纠正后数据；

本实施建立在假定数据样本库中只存在错误数据的前提下，故只需要进行一致性检查来发现错误数据，并利用一致性纠正技术来进行纠正或修复。

其中，一致性检测是根据每个变流的合理取值范围和与其它变量间的相互关系来检查数据是否合乎要求，以此来发现超出正常范围、逻辑不合理或者相互矛盾的数据。

若实际情况中还存在残缺数据或重复数据，可选用相应的检查技术发现并纠正，以提升数据样本库中的数据的可用性。

S305：对纠正后数据依次执行格式转换操作和嵌入操作，得到向量形式的训练数据；

S306：将训练数据利用LSTM神经网络算法构建LSTM流量检测模型；

S307：利用LSTM嵌入层将待测数据流量转换得到可计算向量；利用LSTM隐层对可计算向量按预设转换方式进行格式转换，得到转换后数据；利用Softmax(一种回归函数)层对转换后数据按预设预测算法进行数据威胁预测，以判断待测数据流量中是否含有恶意数据；

在本实施例中，将LSTM流量检测模型具体以此分为LSTM嵌入层、LSTM隐层以及Softmax层，将待测数据流量先后通过上述三层，依次进行处理，以便在Softmax层最终输出判别结果。

S308：当待测数据流量中含有恶意数据是，向管理员邮箱发送携带有属于恶意数据的待测数据流量的警告信息。

以下结合图4，图4为本申请实施例所提供的恶意流量的检测方法中一种进行数据样本库更新方法的流程图。

其具体包括以下步骤：

S401：对经过流量监测模型判断属于恶意数据的待测数据流量执行溯源操作，以得到对应的目标恶意软件；

S402：判断目标恶意软件是否为已知恶意软件；

S403：将目标恶意软件更新进已知恶意软件的列表当中；

本步骤建立在S402的判断结果为该目标恶意软件不属于已知的恶意软件的基础上，因此将该目标恶意软件更新进已知恶意软件的列表当中。

S404：不执行任何操作。

本步骤建立在S402的判断结果为该目标恶意软件为已知的恶意软件的基础上，因此无需执行任何操作。

对流量检测模型检测出的恶意数据可以通过特定技术手段追溯其来源，并判断其来源是否为已知来源，若为非已知来源，则可以将其加入已知来源列表，即新增一个恶意数据流量样本。

另一种功能实现类似的方式如下：

每隔预设周期更新恶意数据流量样本和正常数据流量样本；

本方式下，从预设渠道定期更新恶意数据流量样本和正常数据流量样本或拓展新渠道来增加相关样本的数量，以构建更加全面的数据样本库。

因为情况复杂，无法一一列举进行阐述，本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子，在不付出足够的创造性劳动下，应均在本申请的保护范围内。

下面请参见图5，图5为本申请实施例所提供的一种恶意流量的检测系统的结构框图。

该检测系统可以包括：

样本库建立单元100，用于利用获取的恶意数据流量样本和正常数据流量样本对应建立恶意数据样本库和正常数据样本库；

数据处理及模型建立单元200，用于对恶意数据样本库和正常数据样本库均依次执行数据清洗操作和预处理操作，得到训练数据，并利用训练数据和深度学习算法构建流量检测模型；

恶意数据判断单元300，用于利用流量检测模型判断待测数据流量中是否含有恶意数据；

警告信息发送单元400，用于在待测数据流量中含有恶意数据时，通过预设路径发送携带有属于恶意数据的待测数据流量的警告信息。

其中，样本库建立单元100包括：

样本库建立子单元，用于将恶意程序和正常程序分别放置于两个独立的虚拟系统程序中运行，得到恶意数据样本库和正常数据样本库。

进一步的，程序获取子单元包括：

样本库建立子单元包括：

恶意数据包获取模块，用于将恶意应用运行于第一沙箱，并利用流量截取工具从第一沙箱中截取得到恶意数据包；

正常数据包获取模块，用于将正常应用运行于第二沙箱，并利用流量截取工具从第二沙箱中截取得到正常数据包；

样本库建立模块，用于利用数据解析工具对恶意数据包和正常数据包进行解析，分别得到恶意数据样本库和正常数据样本库。

其中，数据处理及模型建立单元200包括：

异常数据筛选子单元，用于对恶意数据样本库和正常数据样本库中的数据进行异常筛选，得到异常数据；其中，异常数据包括残缺数据、错误数据、重复数据中的至少一种；

数据清洗子单元，用于对异常数据根据不同的异常种类选用相应的修复处理技术进行纠正，得到清洗后数据；

预处理子单元，用于对清洗后数据执行预处理操作，得到训练数据；其中，预处理操作包括协议解析、格式转换、数据选择、解码以及嵌入中的至少一项；

LSTM流量检测模型建立子单元，用于将训练数据利用LSTM神经网络算法构建LSTM流量检测模型。

其中，恶意数据判断单元300包括：

待测数据获取子单元，用于采集得到实际数据流量，并对实际数据流量依次执行数据清洗操作和预处理操作，得到待测数据流量；

恶意数据包含判断子单元，用于利用LSTM流量检测模型判断待测数据流量中是否含有恶意数据。

进一步的，恶意数据包含判断子单元包括：

嵌入层处理模块，用于利用LSTM嵌入层将待测数据流量转换得到可计算向量；

隐层处理模块，用于利用LSTM隐层对可计算向量按预设转换方式进行格式转换，得到转换后数据；

Softmax层处理模块，用于利用Softmax层对转换后数据按预设预测算法进行数据威胁预测，以判断待测数据流量中是否含有恶意数据；

其中，LSTM流量监测模型包括LSTM嵌入层、LSTM隐层和Softmax层。

更进一步的，该检测系统还可以包括：

溯源单元，用于对经过流量监测模型判断属于恶意数据的待测数据流量执行溯源操作，以得到对应的目标恶意软件；

已知判断单元，用于判断目标恶意软件是否为已知恶意软件；

非已知处理单元，用于在目标恶意软件不属于已知恶意软件时，将目标恶意软件更新进已知恶意软件的列表当中。

更进一步的，该检测系统还可以包括：

数据流量样本更新单元，用于每隔预设周期更新恶意数据流量样本和正常数据流量样本；

以上各单元可以应用于以下一个具体的实际例子中，请参见图6：

本实施例由3个部分组成，分别是训练阶段、预测阶段和更新阶段，选用LSTM算法进行。

在训练阶段，收集大量恶意软件和正常软件的样本，获取其流量，进而构建基于LSTM的流量检测模型；在预测阶段，获取实时的待检测流量，并使用训练阶段所构建的LSTM流量检测模型对待检测流量进行分析；在更新阶段，对于机器学习判定为恶意的流量，如果能够进行溯源分析，需将恶意流量所对应的恶意软件更新到样本库中，从而更新机器学习模型。

具体的工作流程如如下：

1、恶意/正常软件样本库

构建恶意样本库的主要途径有四种：代理、蜜罐、公开恶意软件样本库、威胁情报和IOC资源，构建正常软件样本库的主要途径为下载收集和软件供应商合作等方式；

2、沙箱运行

沙箱是一个虚拟系统程序，它创造了一个类似沙盒的独立作业环境，在其内部运行的程序并不能对硬盘产生永久性的影响，可用以测试不受信任的应用程序或上网行为，因此可以在其中执行恶意软件和正常软件样本，获取其网络流量行为；

3、恶意/正常软件流量样本库

使用Wireshark等工具可以截取恶意/正常软件产生的网络数据包，流量数据可以以PCAP的格式存储成为文件。在使用时，通过对PCAP文件进行解析，即可获得恶意软件的流量数据；

4、数据清洗

通过数据一致性检验，处理无效值和缺失值等技术，发现并纠正流量数据的错误，包括残缺数据、错误数据、重复数据等。一致性检查根据每个变量的合理取值范围和相互关系，检查数据是否合乎要求，发现超出正常范围、逻辑上不合理或者相互矛盾的数据；无效值和缺失值处理是对数据中可能存在的无效值和缺失值进行处理；

5、预处理

对流量数据进行预处理操作，包括协议解析、格式转换、数据选择、base64解码、Embedding等。嵌入(Embedding)是指将字符或字符串通过神经网络训练为相应的向量，作为后续深度学习算法的重要输入；

6、LSTM分类模型

将预处理后的数据送入LSTM神经网络，构建二分类模型。LSTM由一个嵌入层、一个或多个隐层和一个Softmax层组成。可根据需求加入遗忘机制、双向LSTM机制、注意力机制等；

7、获取待检测流量

对实际当中产生的待检测流量进行捕获。例如通过端点软件、端点检测相应设备、下一代防火墙设备、探针、安全感知平台、上网行为管理、云安全产品等途径获得实际网络环境中的一段流量数据；

8、恶意流量检测

待检测网络流量经过数据清洗和预处理之后，使用6中训练得到的LSTM模型对流量进行检测。流量经过LSTM的嵌入层后转换为可以计算的向量，LSTM隐层将对向量进行表示转换，最终Softmax层给出预测结果；

9、发出告警信息

对于8中分类结果为恶意的流量进行告警，包括通知用户、上报管理员，事态严重时应当发布公告、上报主管单位，并与网络运营商等合作单位沟通；

10、获取恶意软件并更新样本库

对于能溯源得到所对应的恶意软件的情况，将恶意软件更新到恶意软件样本库。当样本库的更新量达到一定的规模后，将按照1、2、3、4、5、6中的步骤使用沙箱获取流量样本，增量式训练LSTM模型，使得LSTM模型能够不断得到反馈，从而应对最新的威胁。

根据本实施提供的方案，克服了静态特征分类方法中恶意软件的加壳和代码混淆带来的干扰，利用深度学习自动学习流量数据特征，减少学习模型对人工特征的依赖。同时利用溯源分析不断更新训练样本库，使得学习模型能够不断得到反馈，保持对新型恶意软件的有效检测。

基于上述实施例，本申请还提供了一种基于数据预测深度学习的恶意流量检测装置，可以包括存储器和处理器，其中，该存储器中存有计算机程序，该处理器调用该存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然该恶意流量检测装置还可以包括各种必要的网络接口、电源以及其它零部件等。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行终端或处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种恶意流量的检测方法，其特征在于，包括：

2.根据权利要求1所述的检测方法，其特征在于，利用获取的恶意数据流量样本和正常数据流量样本对应建立恶意数据样本库和正常数据样本库，包括：

获取预设数量的恶意程序和正常程序；

3.根据权利要求2所述的检测方法，其特征在于，获取预设数量的恶意程序和正常程序，包括：

4.根据权利要求3所述的检测方法，其特征在于，将所述恶意程序和所述正常程序分别放置于两个独立的虚拟系统程序中运行，得到所述恶意数据样本库和所述正常数据样本库，包括：

5.根据权利要求4所述的检测方法，其特征在于，对所述恶意数据样本库和所述正常数据样本库均依次执行数据清洗操作和预处理操作，得到训练数据，并利用所述训练数据和深度学习算法构建流量检测模型，包括：

6.根据权利要求5所述的检测方法，其特征在于，利用所述训练数据和深度学习算法构建流量检测模型，包括：

7.根据权利要求1至6任一项所述的检测方法，其特征在于，利用所述流量检测模型判断待测数据流量是否含有恶意数据，包括：

8.根据权利要求7所述的检测方法，其特征在于，利用所述LSTM流量检测模型判断所述待测数据流量中是否含有所述恶意数据，包括：

利用LSTM嵌入层将所述待测数据流量转换得到可计算向量；

9.根据权利要求1所述的检测方法，其特征在于，还包括：

10.根据权利要求1所述的检测方法，其特征在于，还包括：

11.一种恶意流量的检测系统，其特征在于，包括：

12.根据权利要求11所述的检测系统，其特征在于，所述样本库建立单元包括：

13.根据权利要求12所述的检测系统，其特征在于，所述程序获取子单元包括：

14.根据权利要求13所述的检测系统，其特征在于，所述样本库建立子单元包括：

15.根据权利要求14所述的检测系统，其特征在于，所述数据处理及模型建立单元包括：

16.根据权利要求11至15任一项所述的检测系统，其特征在于，所述恶意数据判断单元，包括：

17.根据权利要求16所述的检测系统，其特征在于，所述恶意数据包含判断子单元包括：

Softmax层处理模块，用于利用Softmax层所述转换后数据按预设预测算法进行数据威胁预测，以判断所述待测数据流量中是否含有所述恶意数据；

18.根据权利要求11所述的检测系统，其特征在于，还包括：

19.根据权利要求11所述的检测系统，其特征在于，还包括：

20.一种基于深度学习算法的恶意流量检测装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至10任一项所述的恶意流量的检测方法的步骤。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的恶意流量的检测方法的步骤。