CN113037551B

CN113037551B - 一种基于流量切片的涉敏业务快速识别定位方法

Info

Publication number: CN113037551B
Application number: CN202110250970.7A
Authority: CN
Inventors: 谭彬; 莫晓斌; 刘静; 邓旭; 张玉兰; 兰世战; 邓远芬; 梁业裕; 何伟贤; 宁建创
Original assignee: China Mobile Group Guangxi Co Ltd
Current assignee: China Mobile Group Guangxi Co Ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-11-04
Anticipated expiration: 2041-03-08
Also published as: CN113037551A

Abstract

本发明公开了一种基于流量切片的涉敏业务快速识别定位方法，所述基于流量切片的涉敏业务快速识别定位方法借助基于Storm框架的流式数据实时处理平台构建三层数据切片架构，实现精细化的数据流切片,并且，通过数据业务标签实现涉敏数据精准定位，提升流量还原能力，能够精准地定位用户所关心业务中传输的数据内容，增强了流量探针面对大流量业务的可适用性，同时也为后续分析和存储大大减轻了压力。

Description

一种基于流量切片的涉敏业务快速识别定位方法

技术领域

本发明涉及数据业务安全技术领域，特别是一种基于流量切片的涉敏业务快速识别定位方法。

背景技术

近年来，信息系统、数据库、互联网技术的发展使人类社会活动中的越来越多的内容被数字化记录，数据自身是没有价值或者说微乎其微的，数据和信息是不可分离的，数据是信息的表现形式和载体。随着云计算、大数据技术的发展，数据的生产加工、开放共享成为趋势，不但体现出信息本身的价值，在流通后再次得到应用，从而产生更多的应用价值，而为信息提供流通服务的就是数据业务，可以说数据业务是释放数据价值的关键环节。

然而，对信息管理者来说，在数据价值运营的建设过程中，往往忽略了数据自身和业务伴随着的权属、质量、合规性、安全性等诸多问题，随着业务的发展，这些问题成为制约数据价值体现的瓶颈。

在数据价值运营最重要的处理交换环节，多采用日志审计的方法，日志审计依托于业务对象自身的记录能力，具备兼容性好、易接入等特点，但其缺点也比较明显，因此，企业在日志审计的基础上，引入了流量日志监测的能力。流量日志监测主要是在不影响业务和网络的前提下，通过旁路或串接方式获取网络交互全流量进行采集解析，并对协议内容还原，分析数据处理交换过程的合规性，发现是否存在数据泄露的安全事件。

现有的流量日志监测主要存在三个方面的缺陷：1)现有业务流量探针是基于全流量的解析分析，对业务的专业性和深度结合支持不是很友好，很难专注于依托于业务服务的数据识别；2)现有探针对所有数据包进行重组还原，存在许多内容无意义还原，白白造成了大量性能的浪费，对后续内容分析造成负担；3)对数据包进行重组还原需要消耗设备大量的计算能力和内存资源，受限于设备硬件，单台探针能处理的流量较小，对现有网络中普遍的10G、40G、100G大流量下的支撑有限，全覆盖投入的成本较高，造成企业对流量数据内容分析的瓶颈，可以看出，现有技术方案难以支撑大流量形式下业务中的数据安全问题分析。

发明内容

针对背景技术中存在的技术问题，本发明提出一种一种基于流量切片的涉敏业务快速识别定位方法，其特征在于，所述基于流量切片的涉敏业务快速识别定位方法具体包括如下步骤：

1)通过镜像或分光获取链路原始流量；

2)解析网络协议，利用网卡流量采集模块对七层应用进行解析，根据特征匹配协议类型；

3)借助基于Storm框架的流式数据实时处理平台进行数据切片操作，利用Storm自身的字段分组功能，结合Storm中bolt单元的数据处理和分发能力，构建三层数据切片架构；

4)基于业务标签库，快速定位涉敏业务。

进一步地，所述三层数据切片架构包括物理分组层、逻辑分组层和数据分析层，所述物理分组层利用Storm自身的流分组功能对上层应用协议进行分组，所述逻辑分组层基于协议和目的IP进行分组，所述数据分析层用于对IP数据报文进行分析。

进一步地，所述借助基于Storm框架的流式数据实时处理平台进行数据切片操作具体包括如下步骤：

(1)对协议分组切片，实现自动动态分配设备资源，对TCP流量利用Storm自身的流分组功能，根据端口和协议特征字符对上层应用协议进行分组切片；

(2)利用网络切片技术，过滤躁流量，缩小处理范围；

(3)对数据包进行切片，快速定位访问业务。

进一步地，所述动态分配设备资源具体包括：

将每个切片看成一个整体来分配资源，假设设备阈值线程数为M，先为每个切片分配最低要求的线程资源N₁、N₂、N₃…，然后进行协议处理优先级的计算，协议优先级P_k(t)定义如下:

其中P_k(t)为t时刻k协议的瞬时速率，

为到t时刻前两个时刻k协议的平均流量大小；

整体切片的优先级P_i(t)定义如下，

其中P_i(t)为t时刻分组切片协议的瞬时速率,

为到t时刻前两个时刻分组切片协议的平均流量大小；

将剩余的线程数按照P_k(t)/P_i(t)进行分配，P_k(t)/P_i(t)值越大，切片的优先级越高，分配的线程资源越多。

进一步地，所述网络切片技术包括使用一个静态Storm对协议和目的IP进行切片，对第一次切片后的数据创建若干初始化Storm拓扑结构，并将所述初始化Storm拓扑结构的拓扑配置保存至Zookeeper Server。

进一步地，所述对数据包进行切片包括所述Zookeeper Server根据所述拓扑配置信息，利用平衡算法分配若干计算节点，完成数据分析。

进一步地，所述拓扑配置信息包含一级协议名、二级目的IP/端口、源IP数组和业务URL，所述源IP数组中包含所有源IP。

进一步地，所述基于业务标签库，快速定位涉敏业务具体包括如下步骤：

(1)下发业务标签库，业务标签库包含访问目标IP+端口和URL特征；

(2)信息比对，将拓扑配置信息与业务标签库进行比对，当拓扑配置信息能够匹配业务标签库信息时，为当前节点打上标签，并根据标签类型进行后续处理，当拓扑配置信息无法匹配业务标签库信息时，进入步骤(3)；

(3)数据流还原，经过数据流重组、解析、还原，对协议请求头和内容进行输出供后续分析；

(4)未知业务聚类抽样；

(5)内容识别，对还原后的未知业务样本访问内容，结合敏感数据识别技术手段，检测未知业务中是否存在敏感数据；

(6)更新业务标签库，根据上一步的识别结果，对未知业务打上标签，并提取URL特征信息，同步更新到业务标签库中。

进一步地，所述URL特征是指提取出URL中的参数，对URL中的参数进行统计分析，按照特定阈值，匹配唯一的参数，判定为一个业务。

进一步地，所述未知业务聚类抽样具体包括对用户请求URL部分进行聚类，将相同URL的请求归类到同一业务,根据特定字符将用户输入的数据进行切割，获得参数名及其对应的疑似变量参数值，对于具有相同URL的同一业务，利用合成聚类算法和序列算法对疑似变量参数值进行聚类，对每组聚类后的业务进行统计，抽取一定量的样本内容作为一组日志传递给后续分析。

基于流量切片的涉敏业务快速识别定位方法具有如下有益效果：

本发明弥补了现有的流量探针对下行内容还原所能接入的流量有限、所还原的许多访问内容无价值的困境，能够精准地定位用户所关心业务中传输的数据内容，用另一种思路有效提升探针的处理能力，增强了流量探针面对大流量业务的可适用性，同时也为后续分析和存储大大减轻了压力。

附图说明

图1显示的是基于流量切片的涉敏业务快速识别定位方法的流程图；

图2显示的是三层数据切片架构的结构图；

图3显示的是借助流式数据实时处理平台进行数据切片操作的流程图；

图4显示的是网络切片操作的示意图；

图5显示的是基于业务标签库快速定位涉敏业务的流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。

如图1所示，基于流量切片的涉敏业务快速识别定位方法主要包括四个步骤：

1)通过镜像或分光获取链路原始流量

链路流量的采集方式可以选择端口镜像或采用分光器，端口镜像设置在网络的核心层或汇聚层交换机上，将交换机上联端口的出境流量复制一份到Openet BSMP前置机上，即可采集到所有用户访问网络的请求，其优点是不需要增加任何网络设备，对交换机的性能基本无影响，可从交换机上采集到所有用户访问请求数据，缺点是将占用交换机一定数量的GE和FE端口，需要修改交换机配置，分光器是一种无源光器件，通过在物理层上进行光复制来进行用户访问请求数据的采集，优点是性能优异，可靠性高，无需修改现有网络设备的任何配置，不占用网络设备端口，缺点是涉及到一次简单的网络割接，对业务有细微的影响，在具体应用时，可根据网络结构、网络流量、设备特点等情况决定采用合适的流量采集方式。

2)解析网络协议

利用网卡流量采集模块对七层应用进行解析，根据特征匹配协议类型。

3)借助基于Apache Storm框架的流式数据实时处理平台进行数据切片操作

Storm框架中包括用于实时计算的拓扑结构，拓扑结构中包括spout单元和bolt单元，其中spout单元发送消息，负责将数据流以tuple元组的形式发送出去，bolt单元则负责转换这些数据流，在bolt单元中可以完成计算、过滤等操作，在数据切片过程中，针对采集输入的TCP Stream引入Storm大数据流处理技术，利用Storm自身的字段分组(FieldsGrouping)功能，结合Storm中bolt单元的数据处理和分发能力，构建三层数据切片架构，实现更精细化的数据流切片，如图2所示，三层数据切片架构包括物理分组层、逻辑分组层和数据分析层，物理分组层利用Storm自身的流分组(Stream Grouping)功能对上层应用协议(如HTTP、FTP等)进行分组，逻辑分组层基于协议和目的IP进行分组，数据分析层用于对IP数据报文进行分析。

4)基于业务标签库，快速定位涉敏业务

根据节点(Node)的拓扑配置信息，拓扑配置信息包含一级协议名、二级目的IP/端口、源IP数组和业务URL，源IP数组中包含所有源IP，结合应用层下发的业务标签库进行比对，为每个访问业务对象打上唯一标识，对未能打上标识的拓扑配置信息，提取出二级目的IP/端口、业务URL建立数组，利用聚类分析算法进行归并，抽样同类业务进行还原分析，发现具备敏感数据的业务。

如图3所示，借助基于Apache Storm框架的流式数据实时处理平台进行数据切片操作具体包括如下步骤：

1)对协议分组切片，实现自动动态分配设备资源

对TCP流量利用Storm自身的流分组(Stream Grouping)功能，根据端口和协议特征字符对上层应用协议(如HTTP、FTP等)进行分组切片，并将不同协议的数据流传递给下一级分组计算单元(Grouping bolts)。

因为各应用协议流量大小不一样，若分配一样的并发处理线程会造成资源的浪费，为了实现并发资源的最优分配，在切片的同时，使用PE(Proportional Fair,比例公平)调度算法对资源进行分配，具体的分配过程如下：

将每个切片看成一个整体来分配资源，假设设备阈值线程数为M，先为每个切片分配最低要求的线程资源N₁、N₂、N₃…，然后进行协议处理优先级的计算，PE算法的协议优先级P_k(t)定义如下:

其中P_k(t)为t时刻k协议的瞬时速率，

为到t时刻前两个时刻k协议的平均流量大小；

整体切片的优先级P_i(t)定义如下，

其中P_i(t)为t时刻分组切片协议的瞬时速率,

为到t时刻前两个时刻分组切片协议的平均流量大小；

在保证每个分组协议线程资源N的基础上，将剩余的线程数按照PE算法计算出来的P_k(t)/P_i(t)进行分配，P_k(t)/P_i(t)值越大，切片的优先级越高，分配的线程资源越多。

2)利用网络切片技术，过滤躁流量，缩小处理范围

Storm自身的静态拓扑结构必须预先定义，一经执行便无法改变，这与IP数据的动态变化之间存在矛盾，为了解决这一矛盾，引入Zookeeper技术，Zookeeper是一个分布式的、开源的程序协调服务，如图4所示，使用一个静态Storm对协议和目的IP进行切片，之所以将目的IP也纳入静态Storm进行切片，是考虑到目的IP通常为有限的业务服务地址，这样做既降低了系统的复杂性，又能很好地按监控目标过滤流量，如已经判断为无敏感数据或当前无需监控的业务系统，对第一次切片后的数据创建若干初始化Storm拓扑结构，并将该拓扑配置保存至Zookeeper Server，从而同步给下一级的动态切片Storm集群的各个节点(Node Storm)。

3)对数据包进行切片，快速定位访问业务

在第二次网络切片的节点基础上进行第三级数据包切片，以获取标识业务的请求指令信息，对IP数据报文进行分析的过程中，对IP分片或完整报文前100位进行截断切片，获取会话请求指令(如http的URL、FTP的操作指令，后续以URL为例)。

Zookeeper Server根据拓扑配置信息(包含一级协议名、二级目的IP/端口、源IP数组和业务URL，源IP数组中包含所有源IP)，利用平衡算法分配若干计算节点(Node)，完成数据分析。在分配过程中，Zookeeper Server基于收到的新的拓扑配置(此时协议名和目的IP固定，源IP数组中的IP有变化)创建新的计算节点(应对新的IP数据)，同时利用Zookeeper的临时节点(Ephemeral)特性自动删除被弃用的计算节点。

如图5所示，基于业务标签库，快速定位涉敏业务具体包括如下步骤：

1)下发业务标签库

业务标签库包含访问目标IP+端口、URL特征等信息，URL特征是指提取出URL中的参数，对URL中的参数进行统计分析，按照某一阈值n，匹配唯一的参数，判定为一个业务，例如：action＝getname，代表查询姓名，action＝getcard,代表查询身份证号，如果30次请求中均匹配有“action＝getname”、“action＝getcard”这个两个参数，则视为两个指纹。

2)信息比对

将拓扑配置信息与业务标签库进行比对，当拓扑配置信息能够匹配业务标签库信息时，为当前节点(Node Storm)打上标签，并根据标签类型(关注业务、普通业务)进行后续处理，如对关注业务下行访问内容进行流重组还原，对普通业务上行请求内容进行解析还原，当拓扑配置信息无法匹配业务标签库信息时，进入步骤3)。

3)数据流还原

过滤出没有标签的访问，根据协议分析还原技术接收数据采集发送过来的网络数据包，完成IP分片的重组，获得完整的IP报文后进行TCP会话重组，获得TCP的原始报文流以后进行协议还原，对压缩内容进行解压，从而获得完整的会话数据，经过数据流重组、解析、还原，对协议请求头和内容进行输出供后续分析。

4)未知业务聚类抽样

以HTTP访问为例，可以采用URL和用户输入交互数据关键参数结合分析的方法，如/page/pc/service？isconvert＝true&action＝QRY_CUST_QUERY_CUST_INFOS&billID＝13608082308，其中/page/pc/service为URL部分，

isconvert＝true&action＝QRY_CUST_QUERY_CUST_INFOS&billID＝13608082308则为用户输入的数据部分。

对上面的URL进行聚类分析，首先对用户请求URL部分进行聚类，将相同URL的请求归类到同一业务，输出M＝“/page/pc/service”，然后对用户输入的数据部分根据“&”、“：”等特定字符进行切割，将用户输入的数据切割为N₁＝“isconvert＝true”、N₂＝“action＝QRY_CUST_QUERY_CUST_INFOS”、N₃＝“billID＝13608082308”三部分参数，其中isconvert、action、billID为参数名，true、QRY_CUST_QUERY_CUST_INFOS、13608082308为疑似变量参数值。

对于具有相同M值的同一业务，利用合成聚类算法和序列算法对N值进行聚类，聚类的具体步骤包括：(1)将所有N值视为一个单独的数据点聚类，对存在变量参数值的N值进行丢弃，对存在多个相同参数值的N值进行聚焦；(2)然后两两合并为一个聚类；(3)在每次迭代中，我们将两个聚类合并为一个具有最小平均连接的组，直到最终合并为单一聚类。

为避免相同业务单次访问可能报错或未访问到敏感数据的情况，提高业务内容识别的查全率，对每组聚类后的业务进行统计，抽取一定量的样本内容作为一组日志传递给后续分析。

5)内容识别

对还原后的未知业务样本访问内容，结合敏感数据识别技术手段，检测未知业务中是否存在敏感数据。

6)更新业务标签库

根据上一步的识别结果，对未知业务打上敏感(关注)标签或是普通业务标签，并提取URL特征信息，同步更新到业务标签库中。

本申请提出的基于流量切片的涉敏业务快速识别定位方法利用流量切片技术实现目标数据业务的快速定位，可应用于如下场景：

1)大流量下的敏感数据泄露监测

可利用本申请提出的技术方案快速定位到具有敏感数据的业务，对无意义日志进行过滤，只针对敏感业务的访问内容进行敏感信息匹配提取，并与策略规则进行比对，发现数据泄露，大大提高内容分析效率。

2)重要数据业务操作内容留存供业务分析挖掘

可利用本申请提出的技术方案对重要数据业务快速打上标签，有选择性的还原访问下行流量，输出访问内容，为后续的更深层次的业务分析和数据挖掘、备案取证等需求赋能。

本申请提出的基于流量切片的涉敏业务快速识别定位方法借助基于Storm框架的流式数据实时处理平台构建三层数据切片架构，实现精细化的数据流切片,并且，通过数据业务标签实现涉敏数据精准定位，提升流量还原能力，能够精准地定位用户所关心业务中传输的数据内容，增强了流量探针面对大流量业务的可适用性，同时也为后续分析和存储大大减轻了压力。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于流量切片的涉敏业务快速识别定位方法，其特征在于，所述基于流量切片的涉敏业务快速识别定位方法具体包括如下步骤：

1)通过镜像或分光获取链路原始流量；

4)基于业务标签库，快速定位涉敏业务；

所述三层数据切片架构包括物理分组层、逻辑分组层和数据分析层，

所述借助基于Storm框架的流式数据实时处理平台进行数据切片操作具体包括如下步骤：

(1)所述物理分组层利用Storm自身的流分组功能对上层应用协议进行分组，对协议分组切片，实现自动动态分配设备资源，对TCP流量利用Storm自身的流分组功能，根据端口和协议特征字符对上层应用协议进行分组切片；

(2)所述逻辑分组层基于协议和目的IP进行分组，利用网络切片技术对分组进行切片，过滤躁流量，缩小处理范围；

(3)所述数据分析层基于协议、目的IP和源IP对IP数据报文进行分组，对数据包进行切片，快速定位访问业务。

2.根据权利要求1所述的基于流量切片的涉敏业务快速识别定位方法，其特征在于，所述动态分配设备资源具体包括：

其中P_k(t)为t时刻k协议的瞬时速率，

为到t时刻前两个时刻k协议的平均流量大小；

整体切片的优先级P_i(t)定义如下，

其中P_i(t)为t时刻分组切片协议的瞬时速率,

为到t时刻前两个时刻分组切片协议的平均流量大小；

3.根据权利要求1所述的基于流量切片的涉敏业务快速识别定位方法，其特征在于，所述网络切片技术包括使用一个静态Storm对协议和目的IP进行切片，对第一次切片后的数据创建若干初始化Storm拓扑结构，并将所述初始化Storm拓扑结构的拓扑配置保存至Zookeeper Server。

4.根据权利要求3所述的基于流量切片的涉敏业务快速识别定位方法，其特征在于，所述对数据包进行切片包括所述Zookeeper Server根据拓扑配置信息，利用平衡算法分配若干计算节点，完成数据分析。

5.根据权利要求4所述的基于流量切片的涉敏业务快速识别定位方法，其特征在于，所述拓扑配置信息包含一级协议名、二级目的IP/端口、源IP数组和业务URL，所述源IP数组中包含所有源IP。

6.根据权利要求1所述的基于流量切片的涉敏业务快速识别定位方法，其特征在于，所述基于业务标签库，快速定位涉敏业务具体包括如下步骤：

(4)未知业务聚类抽样；

7.根据权利要求6所述的基于流量切片的涉敏业务快速识别定位方法，其特征在于，所述URL特征是指提取出URL中的参数，对URL中的参数进行统计分析，按照特定阈值，匹配唯一的参数，判定为一个业务。

8.根据权利要求6所述的基于流量切片的涉敏业务快速识别定位方法，其特征在于，所述未知业务聚类抽样具体包括对用户请求URL部分进行聚类，将相同URL的请求归类到同一业务,根据特定字符将用户输入的数据进行切割，获得参数名及其对应的疑似变量参数值，对于具有相同URL的同一业务，利用合成聚类算法和序列算法对疑似变量参数值进行聚类，对每组聚类后的业务进行统计，抽取一定量的样本内容作为一组日志传递给后续分析。