CN112822189A

CN112822189A - 一种流量识别方法及装置

Info

Publication number: CN112822189A
Application number: CN202110004853.2A
Authority: CN
Inventors: 朱亚运; 朱朝阳; 周亮; 缪思薇; 唐志军; 周纯杰; 陈锦山; 崔文超; 程瑞
Original assignee: Huazhong University of Science and Technology; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; North China Electric Power University; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd
Current assignee: Huazhong University of Science and Technology; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; North China Electric Power University; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-05-18

Abstract

本发明提供了一种流量识别方法及装置，解决了传统的网络流量识别技术由于在加密流量中关键特征被加密，导致其应用受到限制的问题。包括：采集并分析流量数据；对所述流量数据进行特征提取和预处理，得到待识别流量数据；将所述待识别流量数据输入训练好的GBDT‑LR融合模型，对所述待识别流量数据进行流量识别。

Description

一种流量识别方法及装置

技术领域

本发明涉及电力工控技术领域，具体涉及一种流量识别方法及装置。

背景技术

电力工控系统是电力网络中用于监视和控制的系统、智能设备、通信网络。电力工控系统由控制网络和管理网络组成。其中，管理网络主要由监控层、分析层、数据层组成，负责对控制网络采集到的流量数据进行缓存、分析、可视化展示以及调度监控整个网络；控制网络主要由站控层、间隔层和过程层组成，负责对现场电力设备数据的采集、基础分析以及传输。电力工控系统一般都遵循“安全分区，网络专用，横向隔离，纵向认证”的安全防护原则，采取各种管理和技术手段来加以落实。在技术方面主要采用身份认证、访问控制、防火墙、异常检测、入侵检测、协议漏洞监测、病毒防护、运行状态监测、隔离网闸等各种安全防护技术。其中一项核心技术是“访问控制”，通过设置安全可靠的访问控制策略来限制访问者对于主体资源的访问权限，进而保护系统资源。

从网络流量特征角度来说，电力工控系统网络作为一个特殊领域的网络，在网络特点上有很多独特的特征，与传统的IT网络差异较大，主要有以下几个特点。

(1)电力工控系统的很多网络数据具有周期性特点，这是由于很多设备在固定时间上传或者请求数据导致，而传统的IT网络数据通常不具备明显的周期性特点，周期性数据通常只占总数据的相当很小一部分比例。

(2)电力工控系统的数据响应时间一般比较短，对实时性要求比较高，而且对于数据正确性校验比较弱。

(3)电力工控系统网络流量数据的IP地址比较固定，一般都是向指定地址的设备请求或者发送数据。

(4)电力工控系统网络中报文数据的长度较短，且长度在某个范围内，但是传输数据的频率较高，而传统IT网络的数据长度通常不确定。

(5)电力工控系统网络一般使用特定的网络协议，这由各个国家电力部门确定，而传统的IT网络则使用互联网的协议。

鉴于以上特点，结合访问控制等技术手段，传统电力工控系统是一个较为封闭的独立网络，其网络传输大多采用明文形式，非加密流量在工控网络流量中占据绝大多数。通过大量的专属协议下的传输报文信息，提升了电网系统的整体效能。

目前，随着“大数据、云计算、物联网、移动互联网”等新型信息技术在电力系统中大量应用，传统电网在信息化时代逐渐发展成为智能电网，在国家重要基础设施建设方面占有重要地位，受到国家高度重视。在能源侧，清洁可再生能源逐渐成为主体能源，与常规化石能源等多种能源综合利用、多能互补；在电网侧，电能通过交直流混联电网和配电网输送至用电端，形成以交易、能源服务等多方参与者共同参与的互动平台；在负荷侧，传统工商业负荷、居民负荷和电动汽车、智能用电等新兴负荷广泛分布、随需接入，分布式能源和绿色微能源规模性增长；同时储能将成为能源互联中的关键要素。电网中大量使用了智能化电表、交流柜、变电器、操作系统等设备，电网系统已从以前比较封闭的形态逐步向开放、多变形态转变，能源互联网成为传统电网的主要演进方向。开放、互动的能源互联网将会面临越来越多的安全隐患。如果不能建立有效的电力工控系统安全监控机制，一旦遭受攻击，就可能会对国计民生产生重大负面影响，造成巨大的经济损失。

新形势下的电力工控系统中，除了电力监控系统生产控制大区，厂站端到主站端之间的调度数据网广域通信部分，其两端采用加密认证装置之外，未来新能源厂站的发电单元与调控主站之间、用户侧的新一代智能电表与配电终端之间，均可能采用加密方式进行通信，以保护工控系统的安全可靠。因此加密流量将在能源互联网背景下大量产生。

流量加密方式对于个人用户隐私而言带来了极大便利，但万一被不法分子恶意利用，将产生重大后果，形成严重的安全漏洞。以新能源厂站为例，一方面，来自新能源厂站端网络的攻击可能向上渗透，严重威胁整个电网端调度控制系统安全和稳定性。如新能源厂站受到网络攻击，可能会导致机组大规模脱网事故，影响电网系统电压和频率的稳定；另一方面，新能源厂站网络虽然具备防火墙、加密机、隔离装置等必要的安全防护能力，但其监控系统、控制系统和网络化信息系统也极有可能受到来自网络纵向边界的渗透和攻击，导致难以预料的双向安全后果。

传统的网络流量识别技术利用IANA(The Internet Assigned NumbersAuthority，互联网数字分配机构)机构分配的端口号对流量的所属协议或应用进行识别，但随着动态端口号等技术的发展而失效。目前应用广泛的DPI(Deep Packet Inspection，深度包检测技术)深度包检测技术通过特征匹配的方式搜索流量载荷中的相关字节特征，也能实现较高的识别准确率，但由于在加密流量中关键特征被加密，导致其应用受到限制。面向能源互联网的应用场景，针对加密流量进行正常流量和恶意流量的识别，能够有效甄别来自网络的恶意攻击，对于确保整个电力系统的安全运行具有重要意义。

发明内容

有鉴于此，本发明实施例提供了一种流量识别方法及装置，解决了传统的网络流量识别技术由于在加密流量中关键特征被加密，导致其应用受到限制的问题。

本发明一实施例提供的一种流量识别方法及装置包括：采集并分析流量数据；

对所述流量数据进行特征提取和预处理，得到待识别流量数据；

将所述待识别流量数据输入训练好的梯度提升树-回归逻辑算法融合模型，对所述待识别流量数据进行流量识别。

在一种实施方式中，将所述待识别流量数据输入训练好的梯度提升树-回归逻辑算法融合模型，对所述待识别流量数据进行流量识别之前，还包括：建立所述梯度提升树-回归逻辑算法融合模型，包括：

基于原始训练集训练GBDT模型，构造系列决策树组成强分类器；

利用训练好的所述GBDT模型对原始数据进行预测，以所述GBDT模型中每棵决策树的预测值所属叶结点的位置为新特征提取特征值，形成新数据；

对所述新数据进行One-hot编码，形成训练数据；

基于所述训练数据训练LR模型，得到所述梯度提升树-回归逻辑算法融合模型。

在一种实施方式中，基于原始训练集训练梯度提升树模型，构造系列决策树组成强分类器包括：

所述梯度提升树模型通过多轮迭代产生多个决策树，且在每一次迭代后计算损失函数的负梯度，将所述负梯度作为残差；

使用CART回归树作为基学习器，每个所述决策树的训练都是基于在上一轮决策树的预测结果的残差，以串行的方式向残差减小的方向进行梯度迭代；

将每个决策树得到的结果进行加权求和得到所述强分类器。

在一种实施方式中，利用训练好的所述梯度提升树模型对原始数据进行预测，以所述梯度提升树模型中每棵决策树的预测值所属叶结点的位置为新特征提取特征值，形成新数据包括：所述梯度提升树模型每一次迭代的预测值均为将之前所有决策树的预测值以串行的方式累加，新决策树向拟合之前决策树的残差方向形成。

在一种实施方式中，所述回归逻辑算法模型使用sigmoid函数将线性回归的分析结果转换为概率值。

在一种实施方式中，采集并分析流量数据包括：接收所有经过主机网络的数据包，所述数据包进行解包获得详细的网络流量信息，对所述网络流量信息进行分析。

在一种实施方式中，对所述流量数据进行特征提取包括：在所述流量数据中选取与时间相关的流量特征包括：流持续时间、正向分组到达时间间隔、反向分组到达时间间隔、任意方向分组到达时间间隔、流的活跃时间量、流的静置时间量、每秒流传输的字节数、每秒流传输的分组数和流的超时阈值。

在一种实施方式中，对所述流量数据进行预处理包括：对所述流量数据进行数据清洗和标准化处理。

在一种实施方式中，对所述流量数据进行数据清洗包括：

检查所述流量数据中的空数据和重复数据并删除；和/或

处理所述流量数据中的缺失值。

在一种实施方式中，对所述流量数据进行标准化处理包括：选用z-score标准化对数据集进行预处理。

一种流量识别装置，包括：

加密流量采集模块，用于采集并分析流量数据；

流量特征提取及预处理模块，用于对所述流量数据进行特征提取和预处理，得到待识别流量数据。

模型应用模块，用于将所述待识别流量数据输入训练好的梯度提升树-回归逻辑算法融合模型，对所述待识别流量数据进行流量识别。

在一种实施方式中，还包括：分类器训练及超参数优化模块，用于建立所述梯度提升树-回归逻辑算法融合模型。

在一种实施方式中，还包括：参数训练知识库模块，用于将不同场景下梯度提升树-回归逻辑算法融合模型的超参数训练结果进行保存，形成信息库。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述任一项所述的流量识别方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现上述任一项所述的流量识别方法。

本发明实施例提供的一种流量识别方法及装置，所述流量识别方法包括：采集并分析流量数据；对所述流量数据进行特征提取和预处理，得到待识别流量数据；将所述待识别流量数据输入训练好的GBDT-LR(Gradient Boosting Decision Tree，梯度提升树-Logistics Regression，逻辑回归算法)融合模型，对所述待识别流量数据进行流量识别。本发明基于GBDT-LR融合模型进行加密流量识别，实现了对VPN加密流量和非VPN加密流量的识别，提高了流量识别的准确度，提高了流量识别的效率。

附图说明

图1所示为本发明一实施例提供的一种流量识别方法的流程示意图。

图2所示为本发明一实施例提供的一种GBDT-LR融合模型训练方法的流程示意图。

图3所示为本发明另一实施例提供的一种GBDT-LR融合模型训练方法的流程示意图。

图4所示为本发明另一实施例提供的一种GBDT算法构造新特征的示意图。

图5所示为本发明一实施例提供的一种流量识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于加密流量的主要方案，当前主要有三种网络加密流量识别方法：

1、通过端口号进行流量识别

其主要依照TCP/UDP协议端口号展开应用流量识别。IANA(The InternetAssigned Numbers Authority，互联网数字分配机构)所分配的通用端口号是0-1023，比如说，能够利用80端口识别WEB应用，利用23端口识别Telnet，利用21端口识别FTP等，很多应用程序都于早期设置过特定端口，所以通过端口号来进行流量识别的方式很容易想到。通过端口号来进行流量识别的方式比较简单，且具备可操作性，对于传统-网络的流量识别非常精准。但是伴随互联网技术的普及和发展，很多新兴业务已经开始不再采用标准化端口，都选择绕过防火墙，采取动态端口的方式，这就导致通过端口号来进行流量识别的方式不再适用，无论是识别精准度，还是识别难度，都受到非常大的影响。

2、通过特征字段进行流量识别

通过特征字段进行流量识别，其技术就是DeepPacketInspection，深度包检测技术，简称DPI技术。DPI技术会通过特征字段来进行业务的匹配，并分解网络数据包，从而就可以分析数据包特征码，进而就可以确定应用程序类型。所以，DPI技术对于应用程序端口的依赖程度较低，能够有效识别P2P等护理网应用类型。但是DPI技术的识别取决于应用协议特征字段，因此没有办法对数据包荷载未知情况进行识别，伴随数据加密技术和应用的不断发展，这种检测方式已经没有办法有效满足实际应用需求。

3、通过机器学习进行流量识别

机器学习系统模型是闭环系统，能够互相促进和更新。首先，系统在外部环境中采集到相关信息，然后对数据信息进行有效处理，知识库模板中会有固定的规律知识模型，按照知识库规则方法来进行实际问题的解决，并验证评判实际应用效果，与此同时，还会把收集到的价值信息传至学习模块来进行规则方法的补充更新。通过机器学习进行流量识别的方式会先提取流量统计特征，然后利用机器学习算法把统计特征训练成为流量识别模型，然后进行未知流量类型的有效识别。但是不管是通过端口号进行流量识别，还是通过特征字段进行流量识别，从本质上来说都为解析识别方式，必须要按照相应设置规则来进行流量识别，都缺乏足够的智能性。然而与之相比，通过机器学习来进行流量识别的方式并不再局限于流量局部解析特征，其是利用流量宏观特征来进行识别，利用数据挖掘分类技术进行流量类型划分，智能性较高。但其也存在局限性，无法对具体应用进行识别。

加密技术的使用隐藏了网络流量的负载特征，因此无法直接对网络流量的应用类型进行识别。目前有很多加密流量识别研究采用机器学习技术，使用流特征或者分组特征等静态特征来建立模型。按照学习方式来分，包括：有监督式学习，例如基于支持向量机的TCP流量分类模型以流的初始数据包大小为特征实现了高于90％的准确率，基于卷积神经网络的加密流量识别方法，将流量字节码作为输入提高流量识别效率。无监督式或半监督式的学习，采用如DBSCAN(Density-Based Spatial Clustering of Applications withNoise，基于密度的聚类算法)、K-means等聚类方法对网络流量进行识别，通过用聚类算法处理流量数据，然后根据每个簇中的多数有标签数据标记簇的类别来识别网络流量。有监督式学习需要带有分类标签的样本作为输入，但有着计算复杂度高等缺点。基于有监督式学习的流量识别无法应对更多的未知流量。在非监督式学习中，控制参数对于算法的影响比较大，目前学术界对于参数研究并没有系统性的结论，对非监督式学习算法在加密流量识别中的使用具有一定的影响。且KNN等算法，是一种常用的非参数回归方法，具有思路简单、应用灵活、对异常值不敏感的优点，且不需要像神经网络等前期进行参数。虚拟专用网络(VPN)的出现使得网络流量识别变得更加复杂。VPN隧道提供点对点之间的IP包级别的加密，包括IP数据包头也被加密，因此几乎无法识别通过VPN隧道传输的加密流量，识别VPN加密流量具有相当的安全意义。在此工作基础上，本发明提出一种集成GBDT与LR算法相结合的加密流量分类模型，实现对VPN(Virtual Private Network，虚拟专用网络)加密流量和普通加密流量的识别。

如图1所示，本发明一实施例中，所述流量识别方法，包括：

步骤S01：采集并分析流量数据。可以通过探针的方法采集流量数据，探针一般可以通过旁路部署或者串接在网络设备或链路中捕获数据包，同时将通过设备或端口的网络流量传递给服务器进行分析。通过探针的方法捕获的对象是网络的数据包，可以获得更详细的网络流信息。通常，主机接收到不属于自己的数据包时会直接丢弃，不予响应和处理。如果把主机的网卡设备设置为混杂模式进行工作，该主机会接收到所有经过该主机网络的数据包。为了从整体上对网络进行检测，需要将检测的网络设备的网卡设备设置为混杂模式，达到捕获网络上所有网络数据包的目的。

然后，对捕获的网络原始数据报文进行解包，可以获得详细的网络流量信息，通过对网络流量的实时分析，有助于网络管理人员获取网络实时运行状况，对于在此基础上进行的业务安全态势的评估有着十分关键的作用。

网络探针一般由硬件探针、流量采集和分析程序组成。硬件探针一般是接入镜像端口的主机设备，利用镜像端口进行数据分类、过滤。探针服务器接在镜像端口上。流量采集和分析程序运行在硬件探针上。采集和程序捕获经过硬件探针的数据包，并对数据包进行汇总统计，将数据进行保存。

步骤S02：对所述流量数据进行特征提取和预处理，得到待识别流量数据。流量统计特征的选择往往决定了不同场景下网络流量分类结果的好坏，流通常是指包含相同五元组{源IP地址，源端口号，目的IP地址，目的端口号，协议}的一组流量。从流量的方向上，流又可被划分为双向流和单向流，其中第一个数据包的源IP和目的IP决定了方向。采集并分析流量数据包括：接收所有经过主机网络的数据包，对所述数据包进行解包获得详细的网络流量信息，对所述网络流量信息进行分析。时间相关的流特征与数据包负载的字节特征无关，只统计时间上的相关量，因此可以作为识别加密流量的一种有效方式。结合电力工控相关应用场景，本发明选取时间相关的流量特征进行后续分析，所述与时间相关的流特征包括：流持续时间、正向分组到达时间间隔、反向分组到达时间间隔、任意方向分组到达时间间隔、流的活跃时间量、流的静置时间量、每秒流传输的字节数、每秒流传输的分组数和流的超时阈值。(如表一所示)。

表一：

对流量数据进行预处理主要包括两部分：数据清洗和标准化处理。

1)数据清洗

流特征提取的过程中会不可避免地遇上数据包解析错误等情况，数据清洗过程主要是快速检查数据集中的空数据和重复数据并删除，以及处理缺失值情况等。

2)标准化处理

数据标准化是为了处理数据变化范围太大的情况，其目的是为了使所有数据在每个特征上具有相近的分布。数据标准化可以加速梯度下降法寻找最优解的过程，也有可能提高预测精度。

本文使用数据集是基于时间相关的流特征，其数值范围广且分布不均，考虑选用z-score标准化对数据集进行预处理，表达式如下：

其中x表示源数据，u表示平均值，σ表示标准差。

步骤S03：将所述待识别流量数据输入训练好的GBDT-LR融合模型，对所述待识别流量数据进行流量识别。将与时间相关的流量特征的流量数据输入GBDT-LR融合模型，输出VPN加密流量和非VPN加密流量。可选地，VPN流量数据和非VPN数据如表二所示：

表二：流量应用类型详细描述

将所述待识别流量数据输入训练好的GBDT-LR融合模型，对所述待识别流量数据进行流量识别之前，还包括：训练所述GBDT-LR融合模型。

集成学习是一种协同多个“个体学习器”完成任务的学习方法，其原理是使用某种方式将多个学习器进行集成，以此获得比单一学习器更优越的泛化性能。梯度提升树(Gradient Boosting Decision Tree,GBDT)是一种Boost类集成学习算法。其核心思想是通过多轮迭代产生多个决策树(弱分类器)，在每一次迭代后计算损失函数的负梯度，将其作为残差的近似值。在GBDT分类模型中，一般使用CART回归树作为基学习器，每个分类器的训练都是基于在上一轮分类器预测结果的残差，以串行的方式向残差减小的方向进行梯度迭代，最后将每个决策树(弱分类器)得到的结果进行加权求和得到最终的强分类器。其中，GBDT算法的流程如下：

(1).取训练集{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，迭代次数M和损失函数L(y_i,γ),y_i＝{-1,1}，初始化弱分类器：

(2).对m＝1,2,...,M，执行如下步骤：

(a).对i＝1,2,...,n，计算近似残差：

(b).针对近似残差r_im拟合一颗回归树，该树给出叶结点域R_jm,j＝1,2,...,J_m。

(c).对j＝1,2,...,J_m计算：

(d).更新分类器：

(3).得到最终输出结果：

(4).对于分类任务，还需将

转换为概率(正样本概率)：

对于二分类问题，GBDT算法可采用负二项对数似然函数作为损失函数[18]，计算其负梯度作为残差的近似值，其结果拟合的是关于分类概率的近似残差。负二项对数似然函数表达式如下:

L(y,F)＝log(1+exp(-2yF)),y∈{-1,1}(7)

其中

将式(7)代入式(2)可得负梯度即近似残差:

逻辑回归算法(Logistics Regression，LR)是一种基于回归分析的分类算法。LR算法与线性回归算法非常相似，然而线性回归能够处理的是数值问题，而LR算法则是使用sigmoid函数将线性回归的分析结果转换为概率值。LR算法是最简单和最快速的分类模型之一，在具有线性分离边界的数据集上表现良好。其表达式为：

为了正确拟合输出类的概率值，需要使用sigmoid函数将输出结果转换到[0,1]之间，这样就可以将其视为输出类的后验概率。sigmoid函数表达式如下：

对于模型参数θ^T，可利用最小化负对数似然函数求解，负对数似然函数表达式如下：

随后便可使用梯度下降法即可求出θ^T。最后通过式(8)即可得预测概率：

LR算法属于线性模型，模型简单，计算开销小且易并行化，能够处理海量的数据。但缺点是只在具有良好线性关系的数据集上有效，其学习能力有限，对特征选取要求高，容易造成欠拟合。因此，需要有效的特征工程来生成有区分度的特征，从而产生良好的分类效果。通过GBDT模型生产新特征来解决LR的特征工程问题，已应用于广告点击率的评估。GBDT算法以boost算法为基础，每次迭代都会生成一个新树，该特点正好可以用来挖掘有区分度的新特征，避免复杂的人工成本。

图2所示为本发明一实施例提供的一种GBDT-LR融合模型训练方法的流程示意图。图3所示为本发明另一实施例提供的一种GBDT-LR融合模型训练方法的流程示意图。图4所示为本发明另一实施例提供的一种GBDT算法构造新特征的示意图。

如图2和图3所示，GBDT-LR融合模型的训练过程具体步骤如下：

步骤S031:首先利用原始训练集训练GBDT模型，构造一系列的决策树，组成一个强分类器。

步骤S032:利用训练好的GBDT模型对原始数据进行预测时，不以分类概率作为输出，而是以模型中每棵树的预测值所属叶结点的位置为新特征提取特征值，形成新的数据。

步骤S033:对新数据进行One-hot编码，可选地，将样本输出所属叶结点的位置标记为1，得到每个样本的位置标记向量w_i。所有样本的输出会组成一个标记每棵决策树输出的叶结点位置的稀疏矩阵。

步骤S034:将该特征作为新的训练数据供LR模型进行训练。

可选地，如图4所示，假设f_m-1和f_m为GBDT算法训练过程中生成的两颗决策树，分别有5个叶结点，其中数字1表示训练样本x通过该决策树预测的结果落在该叶结点上。那么对于树f_m-1,其预测的结果可以用One-Hot编码可表示为[0,1,0,0,0]。假设GBDT算法迭代次数为x,且所有决策树(弱分类器)共具有y个叶结点，对于m条原始数据，每一条都会被转化为y维的稀疏向量，其中x个元素为1，y-x个元素为0，那么最终会形成维度为m*x*y的新训练集。

在GBDT算法中，每一次迭代的预测值都是将之前所有决策树的预测值以串行的方式累加的，新决策树是向拟合之前决策树的残差的方向形成。在一系列的决策树形成过程中，节点分裂会首先关注于能区分多数样本的特征，然后关注于能区分少数样本的特征。这种先选用整体上有区分度的特征，再选用对少数样本有区分度的特征的方式用于特征工程是比较合理的。因此，新的特征同时包含了能区分多数样本和少数样本的特征，这种策略刚好适用于特征工程。

训练好GBDT-LR融合模型后，将实际加密数据输入到训练好的模型及参数中，进行实时的流量识别，并将识别结果反馈给信息安全操作员，提供安全保障支撑和辅助决策。除此之外，还可以建立参数训练知识库，主要是将不同场景下GBDT-LR融合模型的超参数训练结果进行保存，形成信息库，在面临新的应用场景时可以进行应用，减少复杂的训练所需耗费的时间，同时，也可以指导模型应用模块的应用工作。

本发明提供的流量识别方法通过采集并分析流量数据；对所述流量数据进行特征提取和预处理，得到待识别流量数据；将所述待识别流量数据输入训练好的GBDT-LR融合模型，对所述待识别流量数据进行流量识别，从而基于GBDT-LR融合模型进行加密流量识别，实现了对VPN加密流量和非VPN加密流量的识别，提高了流量识别的准确度，提高了流量识别的效率。

本发明一实施例中，如图5所示，所述流量识别装置100，包括：

加密流量采集模块10，用于采集并分析流量数据；

流量特征提取及预处理模块20，用于对所述流量数据进行特征提取和预处理，得到待识别流量数据。

模型应用模块30，用于将所述待识别流量数据输入训练好的GBDT-LR融合模型，对所述待识别流量数据进行流量识别。

所述加密流量采集模块10采集到所有经过主机网络的数据包后，对数据包进行分析，包括对原始数据报文进行解包，可以获得详细的网络流量信息。通过对网络流量的实时分析，有助于网络管理人员获取网络实时运行状况，对于在此基础上进行的业务安全态势的评估有着十分关键的作用。流量特征提取及预处理模块20对分析后的流量数据进行特征提取和预处理，得到待识别流量数据，其中对分析后的流量数据进行特征提取包括对分析后的流量数据提取与时间相关的流量特征；对所述流量数据进行预处理包括：对所述流量数据进行数据清洗和标准化处理。之后，模型应用模块30将所述待识别流量数据输入训练好的GBDT-LR融合模型，对所述待识别流量数据进行流量识别，并将识别结果反馈给信息安全操作员，提供安全保障支撑和辅助决策。

除此之外，流量识别装置还包括：分类器训练及超参数优化模块40和参数训练知识库模块50，分类器训练及超参数优化模块40用于建立所述GBDT-LR融合模型；参数训练知识库模块50用于将不同场景下GBDT-LR融合模型的超参数训练结果进行保存，形成信息库；参数训练知识库主要是将不同场景下GBDT-LR融合模型的超参数训练结果进行保存，形成信息库，在面临新的应用场景时可以进行应用，减少复杂的训练所需耗费的时间，同时，也可以指导模型应用模块的应用工作。

本发明提供的流量识别方法装置通过加密流量采集模块10采集并分析流量数据；流量特征提取及预处理模块20用于对所述流量数据进行特征提取和预处理，得到待识别流量数据；然后模型应用模块30将所述待识别流量数据输入训练好的GBDT-LR融合模型，对所述待识别流量数据进行流量识别，从而基于GBDT-LR融合模型进行加密流量识别，实现了对VPN加密流量和非VPN加密流量的识别，提高了流量识别的准确度，提高了流量识别的效率。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序校验码的介质。

本实施例中一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述实施例中所述的流量识别方法。

本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后、顶、底……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外，在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种流量识别方法，其特征在于，包括：

采集流量数据；

将所述待识别流量数据输入训练好的梯度提升树-回归逻辑算法融合模型，所述梯度提升树-回归逻辑算法融合模型利用与时间相关的流特征对所述待识别流量数据进行流量识别。

2.根据权利要求1所述的流量识别方法，其特征在于，将所述待识别流量数据输入训练好的梯度提升树-回归逻辑算法融合模型，对所述待识别流量数据进行流量识别之前，还包括：训练所述梯度提升树-回归逻辑算法融合模型，包括：

基于原始训练集训练梯度提升树模型，构造系列决策树组成强分类器；

利用训练好的梯度提升树模型对原始数据进行预测，以所述梯度提升树模型中每棵决策树的预测值所属叶结点的位置为新特征提取特征值，形成新数据；

对所述新数据进行One-hot编码，形成训练数据；

基于所述训练数据训练回归逻辑算法模型，得到所述梯度提升树-回归逻辑算法融合模型。

3.根据权利要求2所述的流量识别方法，其特征在于，基于原始训练集训练梯度提升树模型，构造系列决策树组成强分类器包括：

将每个决策树得到的结果进行加权求和得到所述强分类器。

4.根据权利要求2所述的流量识别方法，其特征在于，利用训练好的所述梯度提升树模型对原始数据进行预测，以所述梯度提升树模型中每棵决策树的预测值所属叶结点的位置为新特征提取特征值，形成新数据包括：所述梯度提升树模型每一次迭代的预测值均为将之前所有决策树的预测值以串行的方式累加，新决策树向拟合之前决策树的残差方向形成。

5.根据权利要求2所述的流量识别方法，其特征在于，所述回归逻辑算法模型使用sigmoid函数将线性回归的分析结果转换为概率值。

6.根据权利要求1所述的流量识别方法，其特征在于，采集并分析流量数据包括：接收所有经过主机网络的数据包，对所述数据包进行解包获得详细的网络流量信息，对所述网络流量信息进行分析。

7.根据权利要求1所述的流量识别方法，其特征在于，所述与时间相关的流特征包括：流持续时间、正向分组到达时间间隔、反向分组到达时间间隔、任意方向分组到达时间间隔、流的活跃时间量、流的静置时间量、每秒流传输的字节数、每秒流传输的分组数和流的超时阈值。。

8.根据权利要求1所述的流量识别方法，其特征在于，对所述流量数据进行预处理包括：对所述流量数据进行数据清洗和标准化处理。

9.根据权利要求8所述的流量识别方法，其特征在于，对所述流量数据进行标准化处理包括：选用z-score标准化对数据集进行预处理。

10.一种流量识别装置，其特征在于，包括：

加密流量采集模块，用于采集流量数据；

流量特征提取及预处理模块，用于对所述流量数据进行特征提取和预处理，得到待识别流量数据；

模型应用模块，用于将所述待识别流量数据输入训练好的梯度提升树-回归逻辑算法融合模型，所述梯度提升树-回归逻辑算法融合模型利用与时间相关的流特征对所述待识别流量数据进行流量识别。