CN112702339A

CN112702339A - 基于深度迁移学习的异常流量监测与分析方法和装置

Info

Publication number: CN112702339A
Application number: CN202011536026.XA
Authority: CN
Inventors: 潘宏波; 周璐
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-23

Abstract

本发明提供了一种基于深度迁移学习的异常流量监测与分析方法和装置，方法通过获取流量数据；对流量数据进行解析获得报文内容信息；将报文内容信息中的数据输入到预先采用迁移学习方法训练好的最终分类器中，从而将报文内容划分为非涉敏数据，涉敏数据两大类；对涉敏数据进行风险分析。本发明提出一种基于深度迁移学习的异常流量监测与分析方法，使用迁移学习方法可以提高分类识别的准确率，也避免直接遍历检索带来的巨大复杂度；且相比于传统的机器学习算法，迁移学习方法可以有效的避免丢弃已有标注样本带来的资源浪费。本方法有效的发现流量中的涉敏情况。此外还对涉敏的流量进行了系统的风险分析，具有很高的应用价值。

Description

基于深度迁移学习的异常流量监测与分析方法和装置

技术领域

本发明涉及流量监控领域，具体涉及一种基于深度迁移学习的异常流量监测与分析方法和装置。

背景技术

随着信息化的高速发展，形式多样、数据量庞大的网络信息充斥着网络，这样带来了许多网络信息安全以及敏感信息泄露等的问题，尤其对于企业内部的敏感信息泄露更为严重，这已经引起了许多企业的广泛关注。采取有效的方法对网络中传输的内容进行敏感信息识别及存在的潜在风险分析变得尤为重要。

近年来,网络流量分类技术已经成为维护网络安全的重要方法。由于基于端口和载荷的流分类方法不再适用于识别使用动态端口的应用以及加密数据应用,且不能有效的识别网络传输内容，且没有较为完善的异常流量分析方法。这使得研究点逐渐转移到使用统计特征及机器学习方法来对网络中的传输内容进行敏感级别分类。然而,目前的机器学习方法主要存在问题:当训练集与测试集的差异较大时,分类正确率低。

上述问题是目前亟待解决的。

发明内容

本发明所要解决的技术问题是提供一种基于深度迁移学习的异常流量监测与分析方法和装置。

本发明解决其技术问题所采用的技术方案是：提供了一种基于深度迁移学习的异常流量监测与分析方法，所述方法包括：

获取流量数据；

对流量数据进行解析获得报文内容信息；

将报文内容信息中的数据输入到预先采用迁移学习方法训练好的最终分类器中，从而将报文内容划分为非涉敏数据，涉敏数据两大类；

对涉敏数据进行风险分析。

进一步的，所述对流量数据进行解析获得报文内容信息的方法包括：

接收流量数据的流量包；

获取流量包的包头；

对包头进行特征提取，获取<源IP地址，源端口，目的IP地址，目的端口，和传输层协议>五元组数据；

依据传输层协议对流量包的数据进行解析生成报文内容信息。

进一步的，所述最终分类器的训练方法包括：

构建训练集；

计算初始参数；

调用最大熵模型MEM作为分类器，并通过初始参数对训练集进行划分；

通过划分结果对初始参数进行N次迭代后得到最终的分类器。

进一步的，所述构建训练集的方法包括：

获取历史报文信息为T₀；

获取与流量数据同源的相关报文信息T₁；

构建训练集T＝T₀+T₁。

进一步的，所述调用最大熵模型MEM作为分类器，并通过初始参数对训练集进行划分的方法包括：

根据训练集T和T上的权重分布P^t，获得分类器h_t；

将训练集T中的样本X输入到分类器h_t，对训练集中的每个样本进行分类。

进一步的，所述通过划分结果对初始参数进行N次迭代后得到最终的分类器的方法包括：

修改样本权重，若T₀中的样本被错误分类，减小下一次迭代时该样本的权重，若T₁中样本被错分，需要增大该样本的权重，从而获得最终的分类器。

进一步的，所述对涉敏数据进行风险分析的方法包括：

判断五元组是否未已报备通道，若未报备，存在敏感数据泄露的风险；若通道已报备，则对传输内容进行分析，是否与备案的内容，文件类型是否一致；

若报文中存在上传和下载操作，存在敏感数据高频操作和批量下载的风险；

对操作时间进行监控，在非工作时间的频繁操作，存在引起数据的泄露的风险；

对于存在风险的五元组通道，会给予告警，高频和批量操作的需要进行拦截。

本发明还提供了一种基于深度迁移学习的异常流量监测与分析装置，所述装置包括：

流量获取模块，适于获取流量数据；

解析模块，适于对流量数据进行解析获得报文内容信息；

分类模块，适于将报文内容信息中的数据输入到预先训练好的最终分类器中，从而将报文内容划分为非涉敏数据，涉敏数据两大类；

分析模块，适于对涉敏数据进行风险分析。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或一个以上的指令，所述一个或一个以上的指令内的风险分析的装置的处理器执行时实现权利要求1至8中任一所述的基于深度迁移学习的异常流量监测与分析方法。

本发明还提供了一种电子设备，包括：存储器和处理器；所述存储器中存储有至少一条程序指令；所述处理器，通过加载并执行所述至少一条程序指令以实现上述的基于深度迁移学习的异常流量监测与分析方法。

本发明的有益效果是：本发明提出一种基于深度迁移学习的异常流量监测与分析方法，可适用于绝大多数企业内部网络的监控和可能存在的风险分析。使用迁移学习方法可以提高分类识别的准确率，也避免直接遍历检索带来的巨大复杂度；且相比于传统的机器学习算法，迁移学习方法可以有效的避免丢弃已有标注样本带来的资源浪费。本方法有效的发现流量中的涉敏情况。此外还对涉敏的流量进行了系统的风险分析，这对企业内部网络的监控和分析管理具有很高的应用价值。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明实施例所提供的基于深度迁移学习的异常流量监测与分析方法的流程图。

图2是图1中步骤S120的硬件原理框图。

图3是图1中步骤S120的子步骤流程图。

图4是图1中步骤S130的子步骤流程图。

图5是本发明实施例所提供的基于深度迁移学习的异常流量监测与分析装置的原理框图。

图6时本发明实施例所提供的电子设备的部分原理框图。

具体实施方式

现在结合附图对本发明作详细的说明。此图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1

请参阅图1，本发明提供了一种基于深度迁移学习的异常流量监测与分析方法。可适用于绝大多数企业内部网络的监控和可能存在的风险分析。使用迁移学习方法可以提高分类识别的准确率，也避免直接遍历检索带来的巨大复杂度；且相比于传统的机器学习算法，迁移学习方法可以有效的避免丢弃已有标注样本带来的资源浪费。本方法有效的发现流量中的涉敏情况。此外还对涉敏的流量进行了系统的风险分析，这对企业内部网络的监控和分析管理具有很高的应用价值。所述方法包括：

S110：获取流量数据；

其中，流量数据的来源有网卡流量、镜像流量等。

S120：对流量数据进行解析获得报文内容信息。

请参阅图2及图3，在本实施例中，步骤S120包括：

S121：接收流量数据的流量包；

其中，接收流量数据的方式有DPDK，PCAP，UDP socket等。

S122：获取流量包的包头；

其中，通过二层解析，获取流量包的包头。

S123：对包头进行特征提取，获取<源IP地址，源端口，目的IP地址，目的端口，和传输层协议>五元组数据。

其中，通过三层解析，获取包头中的五元组数据。

S124：依据传输层协议对流量包的数据进行解析生成报文内容信息。

具体地，通过超时管理，对流量包中的IP进行管理，并存入流管理中，超时管理在接收到一个流量包开始时，获取流量包的一些，将流量包的协议存入流管理中，在后续的预设时间内，不进行协议获取，此时通过检测器配置协议给应用层解析，应用层解析依据接收的传输层协议对对流量包的数据进行解析生成报文内容信息输出。

S130：将报文内容信息中的数据输入到预先采用迁移学习方法训练好的最终分类器中，从而将报文内容划分为非涉敏数据，涉敏数据两大类。

具体的，请参阅图4，所述最终分类器的训练方法包括：

S131：构建训练集。

具体来说，步骤S131包括：

获取历史报文信息为T₀；

获取与流量数据同源的相关报文信息T₁；

构建训练集T＝T₀+T₁。

其中，历史报文信息T₀中设置有批注，即将历史报文信息中的涉敏信息进行标注。历史报文信息与被监测的流量数据之间的存在差异，在对异常流量监测时，获取部分异常流量的报文信息作为与流量数据同源的相关报文信息T₁，并T₁中的涉敏信息进行批注。

S132：计算初始参数。

具体来说，步骤S132：所述计算初始参数的方法包括：

计算训练集中每个样本的初始权重w_i ¹，

依据初始权重W_i ¹计算初始化权重向量W¹＝(w₁ ¹，……，w¹ _n+m)，其中，n为T₀样本数、m为T₁样本数；

计算初始权重因子β以及在训练集T上的初始权重分布P^t，计算公式如下；

其中N为总迭代次数，t为当前迭代次数，初始时，迭代次数t＝1。

S133：调用最大熵模型MEM作为分类器，并通过初始参数对训练集进行划分。

具体来说，调用最大熵模型MEM作为分类器，并通过初始参数对训练集进行划分，即：根据训练集T和在T上的权重分布P^t，获得分类器h_t：X→Y；将训练集T中的样本X输入到分类器h_t：X→Y，对训练集中的每个样本进行分类。

S134：通过划分结果对初始参数进行N次迭代后得到最终的分类器。

具体来说，步骤S134：通过划分结果对初始参数进行N次迭代后得到最终的分类器包括：计算h_t在T₁上的错误率：

其中，c(x_i)为调优函数；

计算T₁上的β_t，公式如下：

修改样本权重，若T₀中的样本被错误分类，需要乘以一个

以减小样本的权重，若T₁中样本被错分，需要乘以一个

以增大该样本的权重；其中，T₀中的样本被错误分类通标注进行判断，T₁中的样本被错误分类通过将涉敏样本与数据库中的敏感关键字进行对比，敏感关键字，包括但不仅限于，实体身份证明，自然人身份标识、终端设备资料等。在其他实施例中，也可以通过人工进行判断。

若h_t(x_i)＝c(x_i)，令h_t(x_i)-c(x_i)＝C；若h_t(x_i)≠c(x_i)则令|h_t(x_i)-c(x_i)|＝1；下次迭代中每个样本的权重如下：

本次迭代的分类器的表达式为：

对训练集中的每个样本进行分类，本次迭代完成；

令t＝t+1,进行下一次迭代，直至t＝N，N次迭代的分类器的表达式为：

S140：对涉敏数据进行风险分析。

具体来说，步骤S140：包括：判断五元组是否未已报备通道，若未报备，存在敏感数据泄露的风险；若通道已报备，则对传输内容进行分析，是否与备案的内容，文件类型是否一致；

实施例2

请参阅图5，本发明实施例还提供了一种基于深度迁移学习的异常流量监测与分析装置。所述装置包括：流量获取模块、解析模块、分类模块以及分析模块。

流量获取模块，适于获取流量数据。具体来说，其中，流量数据的来源有网卡流量、镜像流量等，可以用来执行实施例1中的步骤S110。

解析模块，适于对流量数据进行解析获得报文内容信息。具体来说，包括以下功能，接收流量数据的流量包，其中，接收流量数据的方式有DPDK，PCAP，UDP socket等；获取流量包的包头，其中，通过二层解析，获取流量包的包头；对包头进行特征提取，获取<源IP地址，源端口，目的IP地址，目的端口，和传输层协议>五元组数据，其中，通过三层解析，获取包头中的五元组数据；依据传输层协议对流量包的数据进行解析生成报文内容信息，具体地，通过超时管理，对流量包中的IP进行管理，并存入流管理中，超时管理在接收到一个流量包开始时，获取流量包的一些，将流量包的协议存入流管理中，在后续的预设时间内，不进行协议获取，此时通过检测器配置协议给应用层解析，应用层解析依据接收的传输层协议对对流量包的数据进行解析生成报文内容信息输出。

分类模块，适于将报文内容信息中的数据输入到预先训练好的最终分类器中，从而将报文内容划分为非涉敏数据，涉敏数据两大类。其中，对最终分类器进行分类包括以下步骤：

S131：构建训练集。

具体来说，步骤S131包括：

获取历史报文信息为T₀；

获取与流量数据同源的相关报文信息T₁；

构建训练集T＝T₀+T₁。

S132：计算初始参数。

具体来说，步骤S132：所述计算初始参数的方法包括：

计算训练集中每个样本的初始权重w_i ¹，

其中，c(x_i)为调优函数；

计算T₁上的β_t，公式如下：

修改样本权重，若T₀中的样本被错误分类，需要乘以一个

以减小样本的权重，若T₁中样本被错分，需要乘以一个

本次迭代的分类器的表达式为：

对训练集中的每个样本进行分类，本次迭代完成；

分析模块，适于对涉敏数据进行风险分析。具体来说，包括但不仅限于以下几种分析途径：

实施例3

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或一个以上的指令，所述一个或一个以上的指令内的风险分析的装置的处理器执行时实现如上述的基于深度迁移学习的异常流量监测与分析方法。

本实施方式中，在对异常流量测与分析时，获取流量数据，对流量数据进行解析获得报文内容信息，将报文内容信息中的数据输入到预先采用迁移学习方法训练好的最终分类器中，从而将报文内容划分为非涉敏数据，涉敏数据两大类，对涉敏数据进行风险分析。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例4

请参阅图6，本发明实施例还提供了一种电子设备，包括：存储器502和处理器501；所述存储器502中存储有至少一条程序指令；所述处理器501，通过加载并执行所述至少一条程序指令以实现如实施例1所提供的的基于深度迁移学习的异常流量监测与分析方法。

存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

综上所述，本发明提供了一种基于深度迁移学习的异常流量监测与分析方法和装置，其中，基于深度迁移学习的异常流量监测与分析方法包括：获取流量数据；对流量数据进行解析获得报文内容信息；将报文内容信息中的数据输入到预先采用迁移学习方法训练好的最终分类器中，从而将报文内容划分为非涉敏数据，涉敏数据两大类；对涉敏数据进行风险分析。本发明提出一种基于深度迁移学习的异常流量监测与分析方法，可适用于绝大多数企业内部网络的监控和可能存在的风险分析。使用迁移学习方法可以提高分类识别的准确率，也避免直接遍历检索带来的巨大复杂度；且相比于传统的机器学习算法，迁移学习方法可以有效的避免丢弃已有标注样本带来的资源浪费。本方法有效的发现流量中的涉敏情况。此外还对涉敏的流量进行了系统的风险分析，这对企业内部网络的监控和分析管理具有很高的应用价值。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关的工作人员完全可以在不偏离本发明的范围内，进行多样的变更以及修改。本项发明的技术范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于深度迁移学习的异常流量监测与分析方法，其特征在于，所述方法包括：

获取流量数据；

对流量数据进行解析获得报文内容信息；

对涉敏数据进行风险分析。

2.如权利要求1所述的基于深度迁移学习的异常流量监测与分析方法，其特征在于，所述对流量数据进行解析获得报文内容信息的方法包括：

接收流量数据的流量包；

获取流量包的包头；

3.如权利要求1所述的基于深度迁移学习的异常流量监测与分析方法，其特征在于，所述最终分类器的训练方法包括：

构建训练集；

计算初始参数；

通过划分结果对初始参数进行N次迭代后得到最终的分类器。

4.如权利要求3所述的基于深度迁移学习的异常流量监测与分析方法，其特征在于，所述构建训练集的方法包括：

获取历史报文信息为T₀；

获取与流量数据同源的相关报文信息T₁；

构建训练集T＝T₀+T₁。

5.如权利要求4所述的基于深度迁移学习的异常流量监测与分析方法，其特征在于，所述调用最大熵模型MEM作为分类器，并通过初始参数对训练集进行划分的方法包括：

根据训练集T和T上的权重分布P^t，获得分类器h_t；

6.如权利要求5所述的基于深度迁移学习的异常流量监测与分析方法，其特征在于，所述通过划分结果对初始参数进行N次迭代后得到最终的分类器的方法包括：

7.如权利要求2所述的基于深度迁移学习的异常流量监测与分析方法，其特征在于，所述对涉敏数据进行风险分析的方法包括：

8.一种基于深度迁移学习的异常流量监测与分析装置，其特征在于，所述装置包括：

流量获取模块，适于获取流量数据；

解析模块，适于对流量数据进行解析获得报文内容信息；

分析模块，适于对涉敏数据进行风险分析。

9.一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或一个以上的指令，其特征在于，所述一个或一个以上的指令内的风险分析的装置的处理器执行时实现权利要求1至8中任一所述的基于深度迁移学习的异常流量监测与分析方法。

10.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器中存储有至少一条程序指令；所述处理器，通过加载并执行所述至少一条程序指令以实现权利要求1-7中任一项所述的基于深度迁移学习的异常流量监测与分析方法。