CN113705619B

CN113705619B - 一种恶意流量检测方法、系统、计算机及介质

Info

Publication number: CN113705619B
Application number: CN202110884285.XA
Authority: CN
Inventors: 仇晶; 朱程威; 顾钊铨; 丁杰; 李鉴明; 周玲; 从悦; 田志宏; 苏申; 王乐; 李树栋
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2023-09-12
Anticipated expiration: 2041-08-03
Also published as: CN113705619A

Abstract

本发明提供了一种恶意流量检测方法、系统、计算机及介质，所述方法为获取待检测流量数据；提取所述待检测流量数据的待分析字段信息集，并将所述待分析字段信息集按照预设比例划分为训练集和测试集；确定所述训练集和测试集的待分析特征；将所述训练集的待分析特征输入到多个预设分类器进行训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型；将所述测试集的待分析特征输入到所述恶意流量检测模型进行测试，得到预测结果。本发明不仅实现了无需解密即可精准识别恶意流量的技术效果，而且提高了恶意流量检测模型的泛化能力和安全性，还可以部署在不同的防火墙、入侵检测系统和入侵防御系统上，具有较好的通用性。

Description

一种恶意流量检测方法、系统、计算机及介质

技术领域

本发明涉及恶意流量检测技术领域，特别是涉及一种基于多模型投票的恶意流量检测方法、系统、计算机设备及存储介质。

背景技术

随着互联网技术的飞速发展，互联网上个人聊天、购物、支付转账、娱乐以及企业之间相互通信已逐渐成为社会生活中不可缺少的一部分。为了保证互联网上个人和企业的信息安全，能够保证应用层数据的保密性和数据完整性的TLS(Transport LayerSecurity)协议应运而生，且根据Google透明度报告“Chrome中的HTTPS加密情况”，Chrome加载网页中启用加密的比例已经高达95％，但使用TLS协议对流量进行加密的用户并非都是合法用户，不乏大量攻击者也使用TLS协议对攻击行为(如病毒、网络木马、蠕虫及恶意软件等)产生的流量进行加密，进而躲避网络检测设备的识别，在互联网上广泛传播，破坏网络安全。那么，如何有效区分正常加密流量与恶意加密流量已成为网络安全检测的亟需解决的重要问题。

现有恶意流量检测方法主要有三种：(1)基于端口号进行检测，由于不同的端口号对应着不同的应用层协议，TLS协议常用的端口号为443端口，而一些恶意软件通信时往往不在乎目的端口号的设置，通过对443以外的其他端口识别检测出部分恶意流量；(2)基于深度包检测方法，通过读取网络数据包应用层的数据，对应用数据进行特征分析，结合业务数据的固有传输特性(如特定的比特分布)推测业务所承载的应用数据，进而识别非正常业务流量；(3)基于机器学习的恶意流量检测方法，基于网络数据包的报文字段信息，交互的数据包长度，发送间隔等的统计特征，或者时间序列特征采用KNN、逻辑回归、决策树、支持向量机和随机森林等常用机器学习算法检测恶意流量。上述恶意流量检测方法，虽然一定程度上能实现恶意流量检测，但它们在实际应用中都存在着对应不可忽视的缺陷：(1)基于端口号的检测方法，非常简单和傻瓜，其很容易被攻击者通过采用众所周知的端口号或避免使用标准注册端口号，降低基于端口号检测方法的准确率等方法使得恶意流量绕过检测；(2)深度包检测方法只能处理未加密的流量，无法处理加密流量，若对加密流量处理就需要对流量进行解密后分析，需要大量的计算资源，时间复杂度非常高，会极大增加网络的转发延迟；(3)机器学习恶意流量检测方法，因其使用事先处理好的公开数据集丢失大量特征缺乏代表性，特征大都只包含TLS握手报文中的字段信息，没有考虑到HTTP、DNS上下文信息，以及报文交互的空间信息和时序信息，且采用单一机器学习模型训练容易陷入局部最优解等原因，导致其泛化能力较差。

因此，亟需提供一种能够精准检测加密恶意流量且具有较强泛化能力的恶意流量检测方法。

发明内容

本发明的目的是提供一种基于多模型投票的恶意流量检测方法，通过在开源网站和自建的沙箱环境收集恶意流量数据，以及在校园网和企业网的DMZ区域收集良性流量数据后，采用joy分析工具进行字段信息提取得到待分析字段信息集，并将采用python数据分析工具确定的待分析特征输入多个预设分类器进行k折交叉验证训练，并通过软投票法对多个预设分类器集成得到有效检测恶意流量的恶意流量检测模型，以实现在无需解密的情况下，精准识别恶意流量同时，提高恶意流量检测模型的泛化能力和安全性，进一步提升恶意流量检测方法的通用性。

为了实现上述目的，有必要针对上述技术问题，提供了一种恶意流量检测方法、系统、计算机设备及存储介质。

第一方面，本发明实施例提供了一种恶意流量检测方法，所述方法包括以下步骤：

获取待检测流量数据；所述待检测流量数据包括恶意流量数据和良性流量数据；

提取所述待检测流量数据的待分析字段信息集，并将所述待分析字段信息集按照预设比例划分为训练集和测试集；

确定所述训练集和测试集的待分析特征；

将所述训练集的待分析特征输入到多个预设分类器进行k折交叉验证训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型；

将所述测试集的待分析特征输入到所述恶意流量检测模型进行测试，得到预测结果。

进一步地，所述获取待检测流量数据的步骤包括：

通过开源网站和自建的沙箱环境，收集所述恶意流量数据；

采用端口镜像技术和Wireshark抓包软件，收集校园网和企业网的DMZ区域流量数据，并将所述DMZ区域流量数据作为所述良性流量数据。

进一步地，所述采用端口镜像技术和Wireshark抓包软件，收集校园网和企业网的DMZ区域流量数据，并将所述DMZ区域流量数据作为所述良性流量数据的步骤包括：

采用端口镜像技术，将所述DMZ区域流量数据镜像到探针服务器；

通过预先部署于所述探针服务器的Wireshark抓包软件，对所述DMZ区域流量数据进行收集；

采用VirusTotal平台对所述DMZ区域流量数据筛选，得到所述良性流量数据。

进一步地，所述提取所述待检测流量数据的待分析字段信息集，并将所述待分析字段信息集按照预设比例划分为训练集和测试集的步骤包括：

采用joy分析工具，分别对所述恶意流量数据和所述良性流量数据进行解析，得到对应的恶意流量数据字段信息和良性流量数据字段信息，并将所述恶意流量数据字段信息和良性流量数据字段信息分别存储于待分析恶意流量CSV文件和待分析良性流量CSV文件；

分别在所述待分析恶意流量CSV文件和所述待分析良性流量CSV文件内增加对应的属性标签，并将所述待分析恶意流量CSV文件和待分析良性流量CSV文件合并得到待分析流量CSV文件，以及对所述待分析流量CSV文件内的所述恶意流量数据字段信息和所述良性流量数据字段信息进行随机排序，得到待分析字段信息集；

将所述待分析字段信息集按照预设比例划分为训练集和测试集。

进一步地，所述确定所述训练集和测试集的待分析特征的步骤包括：

采用python数据分析工具，对所述训练集和测试集进行可视化分析，确定所述恶意流量数据与所述良性流量数据的差异字段信息，并将所述差异字段信息对应的差异字段作为所述待分析特征；所述待分析特征包括元数据特征、TLS参数特征、数据传输特征、证书特征、Alexa排名特征、DNS上下文特征和HTTP上下文特征；

所述元数据特征包括源端口号、目的端口号、字节熵、字节分布、报文长度和到达时间序列；

所述TLS参数特征包括客户端密码套件、客户端扩展、客户端密钥长度和TLS版本；

所述数据传输特征包括下行字节数、上行字节数、下行数据包数、上行数据包数、上下行数据包字节比、数据包平均大小、上行数据包平均大小、下行数据包平均大小、上下行数据包个数差值、上下行数据包字节差值和上下行平均数据包大小差值；

所述证书特征包括是否为自签名证书和证书域名数量；

所述DNS上下文特征包括IP地址数量和TTL值；

所述HTTP上下文特征包括HTTP头部字段、报文内容类型和服务器字段。

进一步地，所述确定所述训练集和测试集的待分析特征的步骤还包括：

将所述报文长度和到达时间序列转化为对应的马尔可夫转移矩阵；

将所述客户端密码套件、客户端扩展、TLS版本、是否为自签名证书、Alexa排名特征、HTTP头部字段、报文内容类型和服务器字段均预处理为对应的特征向量；所述特征向量由0和1组成。

进一步地，所述预设分类器包括逻辑回归模型、支持向量机模型、朴素贝叶斯模型、决策树模型和随机森林模型；

所述将所述训练集的待分析特征输入到多个预设分类器进行k折交叉验证训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型的步骤包括：

将所述Alexa排名特征、所述DNS上下文特征和所述HTTP上下文特征输入所述逻辑回归模型进行训练，得到第一预测模型；

将所述TLS参数特征输入所述支持向量机模型进行训练，得到第二预测模型；

将所述证书特征输入所述朴素贝叶斯模型进行训练，得到第三预测模型；

将所述数据传输特征输入所述决策树模型进行训练，得到第四预测模型；

将所述元数据特征输入所述随机森林模型进行训练，得到第五预测模型；

将所述第一预测模型、第二预测模型、第三预测模型、第三预测模型、第四预测模型和第五预测模型按照所述软投票法集成，得到所述恶意流量检测模型。

第二方面，本发明实施例提供了一种恶意流量检测系统，所述系统包括：

流量收集模块，用于获取待检测流量数据；所述待检测流量数据包括恶意流量数据和良性流量数据；

字段提取模块，用于提取所述待检测流量数据的待分析字段信息集，并将所述待分析字段信息集按照预设比例划分为训练集和测试集；

特征确定模块，用于确定所述训练集和测试集的待分析特征；

模型训练模块，用于将所述训练集的待分析特征输入到多个预设分类器进行训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型；

结果预测模块，用于将所述测试集的待分析特征输入到所述恶意流量检测模型进行测试，得到预测结果。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述本申请提供了一种恶意流量检测方法、系统、计算机设备及存储介质，通过所述方法，实现了采用在开源网站和自建的沙箱环境收集恶意流量数据，以及在校园网和企业网的DMZ区域收集良性流量数据的方法得到待检测流量数据后，采用joy分析工具进行字段信息提取得到待分析字段信息集，并将采用python数据分析工具确定的待分析特征预处理后输入逻辑回归模型、支持向量机模型、朴素贝叶斯模型、决策树模型和随机森林模型进行k折交叉验证训练，并通过软投票法对训练的多个预设分类器集成得到恶意流量检测模型，以及使用该恶意流量检测模型进行精准有效的恶意流量检测的技术方案。与现有技术相比，该恶意流量检测方法，不仅提供了收集具有代表性待检测流量的方法，而且通过软投票法对多个机器分类型模型进行组合，充分利用不同机器学习算法的优势，实现在无需解密的情况下，精准识别待检测流量中的恶意流量，有效提高了恶意流量检测模型的泛化能力和安全性，进一步提升恶意流量检测方法的通用性。

附图说明

图1是本发明实施例中恶意流量检测方法应用场景示意图；

图2是本发明实施例中恶意流量检测方法的系统架构示意图；

图3是本发明实施例中恶意流量检测方法的流程示意图；

图4是图3中步骤S11收集待检测流量数据的流程示意图；

图5是图4中步骤S111通过自建沙箱环境收集恶意流量数据的示意图；

图6是图4中步骤S112收集良性流量数据的流程示意图；

图7是图4中步骤S112收集良性流量数据的应用场景示意图；

图8是图3中步骤S12提取待分析待检测流量数据的待分析字段信息集及划分训练集和测试集的流程示意图；

图9是图3中步骤S14基于训练集的待分析特征训练得到恶意流量检测模型的流程示意图；

图10是本发明实施例中使用恶意流量检测模型进行恶意流量数据检测得到预测结果的示意图；

图11是本发明实施例中恶意流量检测系统的结构示意图；

图12是本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案和有益效果更加清楚明白，下面结合附图及实施例，对本发明作进一步详细说明，显然，以下所描述的实施例是本发明实施例的一部分，仅用于说明本发明，但不用来限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于多模型投票的恶意流量检测方法，可应用于如图1所示的服务器或终端设备上的一个恶意流量识别准确率高、误报率低、安全性强和通用性高的恶意流量检测方法，即采用如图2所示的恶意流量检测方法训练得到的恶意流量检测系统可部署在不同厂商的防火墙、入侵检测系统和入侵防御系统上实现对恶意流量的精准有效检测，进而为网络安全提供可靠保障。下述实施例将对本发明的恶意流量检测方法进行详细阐述。

在一个实施例中，如图3所示，提供了一种恶意流量检测方法，包括以下步骤：

S11、获取待检测流量数据；所述待检测流量数据包括恶意流量数据和良性流量数据；

其中，恶意流量数据和良性流量数据均未采用现有公开的数据集，为了保证待检测流量数据具有代表性，本实施例采用在自建的沙箱环境和开源网站收集恶意流量数据，在校园网和企业网络的DMZ区域收集良性流量数据，如图4所示，所述获取待检测流量数据的步骤S11包括：

S111、通过开源网站和自建的沙箱环境，收集所述恶意流量数据；

其中，开源网站为Canadian institute for Cybersecurity，可以获取部分恶意流量数据；自建的沙箱环境在Ubuntu操作系统之上搭建完成，与现有的虚拟机不同，沙箱能够模拟真实的网络访问，自带捕获数据包的功能，在恶意软件运行过程中，沙箱会自动的对交互的报文信息进行收集。在访问恶意软件服务器的过程中，需要进行DNS域名解析，获取web页面信息，和TLS握手，因此收集的恶意流量数据包含DNS报文、HTTP报文，TLS握手报文和应用数据，且在沙箱环境中运行恶意软件收集的数据包都为恶意流量数据。如图5所示，沙箱内恶意软件运行完成后，用户能够在沙箱界面点击下载PCAP文件，获得对应的恶意流量数据。

S112、采用端口镜像技术和Wireshark抓包软件，收集校园网和企业网的DMZ区域流量数据，并将所述DMZ区域流量数据作为所述良性流量数据。

其中，端口镜像技术和Wireshark抓包软件均为现有技术，此处不再详细介绍。DMZ区域是放置提供给内外网访问的服务器的区域。为了让恶意流量检测模型学习到良性流量数据的特征，本实施例选择在校园网和企业网络的DMZ区域收集良性流量数据，如图6所示，所述采用端口镜像技术和Wireshark抓包软件，收集校园网和企业网的DMZ区域流量数据，并将所述DMZ区域流量数据作为所述良性流量数据的步骤S112包括：

S1121、采用端口镜像技术，将所述DMZ区域流量数据镜像到探针服务器；

S1122、通过预先部署于所述探针服务器的Wireshark抓包软件，对所述DMZ区域流量数据进行收集；

如图7所示，通过上述步骤S1121和步骤S1122的即可完成对DMZ区域流量数据的收集，为了避免会有恶意流量的混入，进一步采用以下步骤对收到的DMZ区域流量数据进行筛选评估，若评估为恶意流量数据，则直接删除，确保收集的所有流量数据均为良性流量数据，进而有效保证后续训练得到恶意流量检测模型的准确性。

S1123、采用VirusTotal平台对所述DMZ区域流量数据筛选，得到所述良性流量数据。

其中，VirusTotal是一个全面的威胁分析平台，在学术界和工业界广泛应用于恶意样本的分析，具体如何使用该VirusTotal平台对收集到的DMZ区域流量数据进行筛选的方法参考现有技术即可实现，此处不再赘述。

本实施例通过在自建的沙箱环境和开源网站收集恶意流量数据，以及在校园网和企业网络的DMZ区域收集良性流量数据，为后续学习训练提供了更具有代表性的数据，进而保证了训练得到的恶意流量检测模型对恶意流量数据检测的有效性和精准性。

S12、提取所述待检测流量数据的待分析字段信息集，并将所述待分析字段信息集按照预设比例划分为训练集和测试集；

其中，待检测流量数据的恶意流量数据和良性流量数据按步骤S11收集得到后，均为PCAP格式的数据包，需要对所有数据包的字段信息进行提取，才能转换为用于模型训练使用的数据，如图8所示，所述提取所述待检测流量数据的待分析字段信息集，并将所述待分析字段信息集按照预设比例划分为训练集和测试集的步骤S12包括：

S121、采用joy分析工具，分别对所述恶意流量数据和所述良性流量数据进行解析，得到对应的恶意流量数据字段信息和良性流量数据字段信息，并将所述恶意流量数据字段信息和良性流量数据字段信息分别存储于待分析恶意流量CSV文件和待分析良性流量CSV文件；

其中，joy是一个BSD许可的基于libpcap的软件包，可用于从实时网络流量或捕获的数据包文件提取数据特征，并在JSON中表现出来的一个集捕获数据包、分析网络流量数据、网络研究取证及安全监控于一体的网络数据包分析工具。本实施例中使用joy分析工具分别从收集到的恶意流量数据和良性流量数据的PCAP文件中，将各个数据包的字段信息提取出来，提取的字段信息包括源IP、目的IP、源端口、目的端口、协议号、上下行数据包数等等，分别保存在JOSN格式文件中。为了便于后续基于对提取出的字段信息分析确定待分析特征，本实施例，优选的，在分别完成对恶意流量数据和良性流量数据JSON文件中的信息进行相应的过滤处理(如对未完成TLS握手的信息进行删除)后，通过python脚本，将JOSN文件转换为对应CSV文件，即得到待分析恶意流量CSV文件和待分析良性流量CSV文件。

S122、分别在所述待分析恶意流量CSV文件和所述待分析良性流量CSV文件内增加对应的属性标签，并将所述待分析恶意流量CSV文件和待分析良性流量CSV文件合并得到待分析流量CSV文件，以及对所述待分析流量CSV文件内的所述恶意流量数据字段信息和所述良性流量数据字段信息进行随机排序，得到待分析字段信息集；

其中，属性标签仅为标识CSV文件中的字段信息的来源，便于后续分析训练使用，具体属性标签的取值可根据应用需求自行设定，如待分析恶意流量CSV文件内的所有字段信息均标记为1，待分析良性流量CSV文件内的所有字段信息均标记为0。需要说明的是，此处属性标签的值选为0或1仅为示例性说明，此处不作具体限制。

待分析字段信息集可理解为包含所有恶意流量数据字段信息和所有良性流量数据字段信息，其中，恶意流量数据字段信息和良性流量数据字段信息均设标记且顺序随机的一个字段信息集合，可以作为后续检测模型学习训练的基础数据集。

S123、将所述待分析字段信息集按照预设比例划分为训练集和测试集。

其中，预设比例可根据实际应用需求进行选取，如可将三分之二的待分析字段信息作为训练集，三分之一的待分析字段信息作为测试集。

本实施例中通过采用joy分析工具对收集到的流量数据PCAP文件中的数据包解析提取关键字段信息，使用python脚本将提取的字段信息存入便于数据集分析的CSV文件，并对恶意流量数据和良性流量数据进行相应的标记后随机混合，得到待分析字段信息集作为后续恶意流量数据和良性流量数据差异特征分析的基础数据的待检测流量数据处理方法，为实现在不解密的情况下，检测加密的恶意流量数据提供了有效保障。

S13、确定所述训练集和测试集的待分析特征；

其中，待分析特征具体可理解为已提取的训练集和测试集中能够有效辨别恶意流量数据和良性流量数据的部分特征，且具体如何根据训练集和测试集确定恶意流量数据和良性流量数据的差异特征的方法，原则上可以采用能够实现该功能需求的任一技术。为保证得到准确有效的待分析特征，本实施例优选地采用python数据分析工具对训练集和测试集进行分析以确定待分析特征，具体的，所述确定所述训练集和测试集的待分析特征的步骤包括：

采用python数据分析工具，对所述训练集和测试集进行可视化分析，确定所述恶意流量数据与所述良性流量数据的差异字段信息，并将所述差异字段信息对应的差异字段作为所述待分析特征；其中，python数据分析工具包括numpy、pandas、matplotlib和seaborn等，可用于将恶性流量数据和良性流量数据在相同字段信息上的差异进行可视化，直观准确地确定合理有效的待分析特征。

如表1-7所示，可视化分析确定的所述待分析特征包括元数据特征、TLS参数特征、数据传输特征、证书特征、Alexa排名特征、DNS上下文特征和HTTP上下文特征；其中，所述元数据特征包括源端口号、目的端口号、字节熵、字节分布、报文长度和到达时间序列；所述TLS参数特征包括客户端密码套件、客户端扩展、客户端密钥长度和TLS版本；所述数据传输特征包括下行字节数、上行字节数、下行数据包数、上行数据包数、上下行数据包字节比、数据包平均大小、上行数据包平均大小、下行数据包平均大小、上下行数据包个数差值、上下行数据包字节差值和上下行平均数据包大小差值；所述证书特征包括是否为自签名证书和证书域名数量；所述DNS上下文特征包括IP地址数量和TTL值；所述HTTP上下文特征包括HTTP头部字段、报文内容类型和服务器字段。

表1元数据特征

表2 TLS参数特征

表2说明：TLS协议在握手阶段交互的报文信息都是未加密的，上述TLS参数特征可从clientHello、serverHello、certificate和clientKeyExchange报文中提取。

表3数据传输特征

表4证书特征

表5 Alexa排名特征

表6 DNS上下文特征

表7 HTTP上下文特征

通过上述方法步骤确定了待分析特征后，还需要有针对性的将个别特征进行预处理为适合模型训练使用的特征，具体预处理包括：

其中，马尔可夫转移矩阵的获取方法可参见表1中相关内容的描述，但具体分箱规则的制定和分箱方法不局限于根据表1给出的示例，此处不作具体限制。

其中，客户端密码套件、客户端扩展、TLS版本、是否为自签名证书、Alexa排名特征、HTTP头部字段、报文内容类型和服务器字段均为类别型特征，可以直接转为0和1组成的特征向量作为机器学习算法的输入特征。

本实施例在确定待分析特征后，对部分待分析特征进行上述的相关预处理，既便于后续投票法组合的预设分类器的选用，又保证了后续使用预设分类器学习训练的效率及准确性。

S14、将所述训练集的待分析特征输入到多个预设分类器进行k折交叉验证训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型；

其中，预设分类器的个数及类型，原则上可根据实际应用需求进行选取。为了解决单一模型学习训练容易陷入局部最优解，导致其泛化能力较差的问题，本实施例中优选了逻辑回归模型、支持向量机模型、朴素贝叶斯模型、决策树模型和随机森林模型5个机器学习算法作为基分类器，并根据不同待分析特征的类型，分配最适合的学习模型，在保证有效识别恶意流量数据的基础上，进一步提高恶意流量检测模型的检测精准性和泛化能力。如图9所示，所述将所述训练集的待分析特征输入到多个预设分类器进行k折交叉验证训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型的步骤S14包括：

S141、将所述Alexa排名特征、所述DNS上下文特征和所述HTTP上下文特征输入所述逻辑回归模型进行训练，得到第一预测模型；

其中，逻辑回归模型的训练速度较快，分类的计算量只和特征的数目相关。因此，选用逻辑回归模型能够基于基于恶意流量数据和良性流量数据在Alexa排名特征、DNS上下文特征和HTTP上下文特征上的差异有效识别恶意流量数据。

S142、将所述TLS参数特征输入所述支持向量机模型进行训练，得到第二预测模型；

其中，支持向量机模型是通过核函数，将低维数据映射到高维空间中，使用超平面进行分类，对类别较多的特征具有很好的处理效果，非常适合作为TLS参数特征的处理模型。

S143、将所述证书特征输入所述朴素贝叶斯模型进行训练，得到第三预测模型；

其中，朴素贝叶斯模型属于非参数算法，其本质在于发现特征与分类结果之间的因果关系，能够基于恶意流量数据和良性流量数据的证书特征差异有效识别恶意流量数据。

S144、将所述数据传输特征输入所述决策树模型进行训练，得到第四预测模型；

其中，决策树模型，简单直观，可解释性强，既可以处理离散值，也可以处理连续值，非常适合数据传输特征的处理。

S145、将所述元数据特征输入所述随机森林模型进行训练，得到第五预测模型；

其中，随机森林对高维数据有较好的处理能力，鉴于元数据特征的数据特点，选用随机森林作为元数据特征的处理算法，能够基于恶意流量数据和良性流量数据在元数据特征上的差异精准有效地识别恶意流量数据。

S146、将所述第一预测模型、第二预测模型、第三预测模型、第三预测模型、第四预测模型和第五预测模型按照所述软投票法集成，得到所述恶意流量检测模型。

其中，软投票法为：将第一预测模型、第二预测模型、第三预测模型、第三预测模型、第四预测模型和第五预测模型设置相同权重集成得到恶意流量检测模型，即该恶意流量检测模型的最终预测结果为每个预测分类器预测得到的恶意流量概率的平均值和良性流量概率的平均值中最大者。

S15、将所述测试集的待分析特征输入到所述恶意流量检测模型进行测试，得到预测结果。

其中，恶意流量检测模型通过上述步骤训练得到后，就可以直接用于对任意流量的检测，本实施例中采用从采集的待检测流量数据中划分的测试集进行测试验证，如图10所示，将测试集中的任意待分析特征输入恶意流量检测模型就能得到对应的预测结果，即：将Alexa排名特征、DNS上下文特征和HTTP上下文特征输入所述恶意流量检测模型的逻辑回归模型，得到第一预测结果；将TLS参数特征输入所述恶意流量检测模型的支持向量机模型，得到第二预测结果；将证书特征输入所述恶意流量检测模型的朴素贝叶斯模型，得到第三预测结果；将数据传输特征输入所述恶意流量检测模型的决策树模型，得到第四预测结果；将元数据特征输入所述恶意流量检测模型的随机森林模型，得到第五预测结果；分别计算第一预测结果、第二预测结果、第三预测结果、第四预测结果和第五预测结果的恶意流量预测概率的加权算数平均值，以及良性流量预测概率的加权算数平均值，得到对应的恶意流量概率和良性流量概率，并将恶意流量概率和良性流量概率的最大值作为预测结果。

本申请实施例通过采用在开源网站和自建的沙箱环境收集恶意流量数据，以及在校园网和企业网的DMZ区域收集良性流量数据的方法得到待检测流量数据后，采用joy分析工具进行字段信息提取得到待分析字段信息集，并将采用python数据分析工具确定的待分析特征预处理后输入逻辑回归模型、支持向量机模型、朴素贝叶斯模型、决策树模型和随机森林模型进行k折交叉验证训练，并通过软投票法对训练的多个预设分类器集成得到恶意流量检测模型，以及使用该恶意流量检测模型进行精准有效的恶意流量检测的技术方案，不仅提供了收集具有代表性待检测流量的方法，而且通过软投票法对多个机器分类型模型进行组合，充分利用不同机器学习算法的优势，实现在无需解密的情况下，精准识别待检测流量中的恶意流量，有效提高了恶意流量检测模型的泛化能力和安全性，进一步提升恶意流量检测方法的通用性。

需要说明的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。

在一个实施例中，如图11所示，提供了一种恶意流量检测系统，所述系统包括：

流量收集模块1，用于获取待检测流量数据；所述待检测流量数据包括恶意流量数据和良性流量数据；

字段提取模块2，用于提取所述待检测流量数据的待分析字段信息集，并将所述待分析字段信息集按照预设比例划分为训练集和测试集；

特征确定模块3，用于确定所述训练集和测试集的待分析特征；

模型训练模块4，用于将所述训练集的待分析特征输入到多个预设分类器进行训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型；

结果预测模块5，用于将所述测试集的待分析特征输入到所述恶意流量检测模型进行测试，得到预测结果。

需要说明的是，关于恶意流量检测系统的具体限定可以参见上文中对于恶意流量检测方法的限定，在此不再赘述。上述恶意流量检测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图12示出一个实施例中计算机设备的内部结构图，该计算机设备具体可以是终端或服务器。如图12所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种恶意流量检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域普通技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算设备可以包括比途中所示更多或更少的部件，或者组合某些部件，或者具有同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

综上，本发明实施例提供的一种恶意流量检测方法、系统、计算机设备及存储介质，其恶意流量检测方法实现了通过采用在开源网站和自建的沙箱环境收集恶意流量数据，以及在校园网和企业网的DMZ区域收集良性流量数据的方法得到待检测流量数据后，采用joy分析工具进行字段信息提取得到待分析字段信息集，并将采用python数据分析工具确定的待分析特征预处理后输入逻辑回归模型、支持向量机模型、朴素贝叶斯模型、决策树模型和随机森林模型进行k折交叉验证训练，并通过软投票法对训练的多个预设分类器集成得到恶意流量检测模型，以及使用该恶意流量检测模型进行精准有效的恶意流量检测的技术方案。该恶意流量检测方法，不仅提供了收集具有代表性待检测流量的方法，而且通过软投票法对多个机器分类型模型进行组合，充分利用不同机器学习算法的优势，实现在无需解密的情况下，精准识别待检测流量中的恶意流量，有效提高了恶意流量检测模型的泛化能力和安全性，进一步提升恶意流量检测方法的通用性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种恶意流量检测方法，其特征在于，所述方法包括以下步骤：

确定所述训练集和测试集的待分析特征；所述待分析特征包括元数据特征、TLS参数特征、数据传输特征、证书特征、Alexa排名特征、DNS上下文特征和HTTP上下文特征；

将所述训练集的待分析特征输入到多个预设分类器进行k折交叉验证训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型；所述预设分类器包括逻辑回归模型、支持向量机模型、朴素贝叶斯模型、决策树模型和随机森林模型；

将所述测试集的待分析特征输入到所述恶意流量检测模型进行测试，得到预测结果；

其中，所述将所述训练集的待分析特征输入到多个预设分类器进行k折交叉验证训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型的步骤包括：

2.如权利要求1所述的恶意流量检测方法，其特征在于，所述获取待检测流量数据的步骤包括：

通过开源网站和自建的沙箱环境，收集所述恶意流量数据；

3.如权利要求2所述的恶意流量检测方法，其特征在于，所述采用端口镜像技术和Wireshark抓包软件，收集校园网和企业网的DMZ区域流量数据，并将所述DMZ区域流量数据作为所述良性流量数据的步骤包括：

4.如权利要求1所述的恶意流量检测方法，其特征在于，所述提取所述待检测流量数据的待分析字段信息集，并将所述待分析字段信息集按照预设比例划分为训练集和测试集的步骤包括：

5.如权利要求1所述的恶意流量检测方法，其特征在于，所述确定所述训练集和测试集的待分析特征的步骤包括：

采用python数据分析工具，对所述训练集和测试集进行可视化分析，确定所述恶意流量数据与所述良性流量数据的差异字段信息，并将所述差异字段信息对应的差异字段作为所述待分析特征；

所述证书特征包括是否为自签名证书和证书域名数量；

所述DNS上下文特征包括IP地址数量和TTL值；

6.如权利要求5所述的恶意流量检测方法，其特征在于，所述确定所述训练集和测试集的待分析特征的步骤还包括：

7.一种恶意流量检测系统，其特征在于，所述系统包括：

特征确定模块，用于确定所述训练集和测试集的待分析特征；所述待分析特征包括元数据特征、TLS参数特征、数据传输特征、证书特征、Alexa排名特征、DNS上下文特征和HTTP上下文特征；

模型训练模块，用于将所述训练集的待分析特征输入到多个预设分类器进行训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型；所述预设分类器包括逻辑回归模型、支持向量机模型、朴素贝叶斯模型、决策树模型和随机森林模型；

结果预测模块，用于将所述测试集的待分析特征输入到所述恶意流量检测模型进行测试，得到预测结果；

其中，所述将所述训练集的待分析特征输入到多个预设分类器进行k折交叉验证训练，并通过软投票法对所述多个预设分类器集成，得到恶意流量检测模型，包括：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一所述方法的步骤。