CN112995184B

CN112995184B - 一种多源网络流量内容完整还原方法和装置

Info

Publication number: CN112995184B
Application number: CN202110247027.0A
Authority: CN
Inventors: 方顺建; 卢文朋; 陈劲松; 付明卫
Original assignee: Zhongdian Jizhi Hainan Information Technology Co ltd
Current assignee: Jizhi (Hainan) Information Technology Co.,Ltd.
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-07-12
Anticipated expiration: 2041-03-05
Also published as: CN112995184A

Abstract

本发明公开了一种多源网络流量内容完整还原方法，包括以下步骤：S1011：双向流的情况下，采用传输URL、客户端IP地址ClientIP、原始文件总长度TotalLen三者的组合，计算其哈希值h_final作为最终的文件标识ID，涉及高速网络流量处理‑内容还原‑多源传输文件完整还原技术领域。该多源网络流量内容完整还原方法旨在解决大文件访问下载时，用户端、服务端为提高用户体验和下载效率而采取的多线程、分片段传输时，从不同的服务端下载同一文件的不同偏移、不同编号的文件片段，从而导致流量被分流到多个流量审计设备而无法还原原始完整文件的问题，满足了企业或组织对文件内容审查的需求，在检测不良内容、防止泄密隐患等方面有明显作用。

Description

一种多源网络流量内容完整还原方法和装置

技术领域

本发明涉及高速网络流量处理-内容还原-多源传输文件完整还原技术领域，具体为一种多源网络流量内容完整还原方法和装置。

背景技术

网络流量内容还原在互联网信息内容安全审计中有广泛的应用需求，一些安全性要求较高的企业或组织，对互联网传输的音视频内容有较强的监测需求，通过对出入互联网的音视频流量进行实时监测审计，以及时发现其中的不良内容，例如，一些网络服务提供商，需要对用户访问的音视频内容进行审查，再比如，一些从事特殊行业的重要单位和组织，需要对其单位流出的文件进行审查，以发现其中可能存在的泄密信息，随着互联网带宽的增长、文档内容的多媒体化以及网络存储空间的廉价化，网络中出现越来越多的较大文件，一些用户代理为提高用户的访问体验和下载速度，会采取文件分片和多线程并发访问的下载方式，从而导致同一个文件被拆分到多个链接和应用层会话中传输，这对传统的以单链接、单会话为单位的流量还原技术带来巨大挑战。

由于单链接、单会话还原的文件是破损、不完整的，所以需要对多个会话的内容进行聚合，以实现完整文件的还原，但是，服务提供商为了保证服务高可用，通常采用以CDN技术为主导的多点接入的服务提供形式，这就导致用户通过同一个URL访问同一个文件，会被分配到不同的服务节点，即访问了不同的服务端IP地址，形成了“多源”现象，通常以旁路形式部署的网络流量审计设备，分光器一般以二元组（客户端IP地址、服务端IP地址）或以上为分流策略，这就导致用户访问的同一个文件的多个片段会被多台流量审计设备处理，其中任意一台都会因为文件不完整而无法还原原始文件的内容。

目前的流量审计设备一般都是独立进行运作的，目标是单链接、甚至是单应用层会话的内容还原，专利CN 201110398880网络文件还原方法和装置提出了网络报文级的流量重组和文件还原方法，是在单台流量审计设备上进行的操作，专利CN 201010112581一种网络流量还原方法提出了以TCP链接为单位的内容还原方法，采取了针对IP地址的异或方案进行分流，处理相同二元组情况下的内容还原，专利CN201510383093.5一种流量还原方法及装置提出了采用DOM树的超文本流量还原技术，是一种以会话为单位的关联还原技术。

以上流量还原技术都是以单台流量审计设备为单元进行处理的，甚至是单台流量审计设备上的单链接、单应用层会话进行处理的，无法处理多源分片传输的情况：

1.网络流量分流策略与多源传输矛盾：当网络出入口总流量超过一台设备的处理能力时，需要采用分流设备将流量分给多台流量审计设备进行处理，分流设备一般采用二元组分流策略，故而不同的二元组有可能被分到不同的设备进行处理，由于多源传输时服务端IP地址不同，因此各流量审计设备都无法获取全部的文件分片内容；

2.分片传输导致以会话为单位的内容还原不可行：网络音视频、超大文件的传输，常以多链接、多会话的形式分片段进行访问下载，每个分片传输都是一个应用层会话，可能隶属不同的链接，这对通常的以会话为单位的内容还原技术带来很大挑战，高性能流量审计设备处理10Gbps以上的流量，在单台设备内进行多链接、多会话关联不可避免用到锁，会对设备性能造成很大影响；

3.重新下载、断点续传导致分片内容存在重复传输：在出现重复的部分分片内容时，粗暴的拼接文件分片会导致文件破损，为完整还原原始文件，需要处理文件分片去重、空洞补全等操作，需要解决同一文件的多个分片的唯一标识和关联聚合。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种多源网络流量内容完整还原方法和装置，解决了不良信息和涉密信息安全有待提高的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种多源网络流量内容完整还原方法，包括以下步骤：

S1011：双向流的情况下，采用传输URL、客户端IP地址ClientIP、原始文件总长度TotalLen三者的组合，计算其哈希值

作为最终的文件标识ID；

S1012：单向流的情况下，先采用传输七元组对应答侧内容进行唯一标识；

S1013：为支持实时多源检测，设计以分段消息为单位的多源聚合拼接方案，针对任一应用层会话还原的文件分片，设定最大文件分段大小

，将一个分片拆分为多个分段消息，以适应超大文件的传输；

S1021：文件传输会话开始时，若当前流是双向流则采用步骤S1011生成文件标识ID，然后跳转到步骤S1022；否则，若当前是请求侧单向流，则采用步骤S1012生成文件标识ID，跳转到步骤S1023；否则，当前是应答侧单向流，采用步骤S1012生成临时文件标识ID，跳转到步骤S1022；

S1022：创建新的文件分段消息上下文，持续处理原始流量，缓存文件内容；

S1023：对文件标识ID和URL建立映射关系，写入索引节点，结束处理；

S1024：以文件标识ID为路由负载因子，将构造的文件分段消息发送到调度节点，相同的文件标识ID发送到相同的调度节点；若文件传输会话结束，则结束处理，否则跳转到步骤S1022；

S2011：接收分段消息；

S2012：查看当前分段的长度是否已完整表示整个文件；

S2013：根据文件标识ID查询索引节点，确定是否已有其他调度节点对该文件标识ID进行了所属声明；

S2014：执行分段消息内容聚合步骤；

S2021：若为首次接收到某文件标识ID的分段消息，则根据文件标识ID建立哈希表；

S2022：根据分段消息的区间检索区间索引树，若无交叠，则插入区间；若有交叠，分别处理左交叠、右交叠、包含、被包含四种重叠关系，对重复的内容进行去重，并合并区间；跳转至步骤SS2023；

S2023：检查当前区间索引树的总长度，若达到了原始文件的总长度，则按顺序遍历区间，输出原始文件内容，否则等待下一个分段消息后执行步骤S2021。

进一步地，所述步骤S1011中文件标识ID的公式为：

。

进一步地，所述步骤S1012中的唯一标识即客户端IP地址ClientIP、客户端端口ClientPort、服务端IP地址ServerIP、服务端端口ServerPort、TCP链接起始序列号TcpSeq、HTTP会话序列号HttpSeq、是否为HTTP Proxy的哈希值

作为临时文件标识ID；请求侧和应答侧使用相同的临时文件标识ID，并作为关联ID，应答侧使用该ID获取请求侧信息，然后根据步骤S1011生成最终的文件标识ID，其公式为：

。

进一步地，所述步骤S1013中分段消息是文件内容转发和片段聚合的基本单元，文件分段消息包含以下几个属性：文件标识ID、分段偏移、分段长度、文件总长度、流方向、附属属性信息，分段消息：

，

其中，分段偏移为当前分段消息起始位置相对于原始文件起始位置的偏移。

进一步地，所述步骤S2011中接收的分段消息若为单向流，则根据临时文件标识ID查询索引节点，获取其URL，然后采用步骤S1011重新生成文件标识ID，跳转到步骤S2012；否则，消息分段属于双向流，直接跳转至步骤S2012。

进一步地，所述步骤S2012中当前分段的长度若是已完整表示整个文件，则直接输出文件，结束处理；否则，从消息分段的属性查看是否已鉴定为多源，若是，则跳转至步骤S2014；否则，跳转至步骤S2013。

进一步地，所述步骤S1022中缓存文件内容直到分段内容长度达到

或输入结束时，根据步骤S1013构造文件分段消息；跳转到步骤S1024。

进一步地，所述步骤S2013中若无其他调度节点声明，则向索引节点声明该文件标识ID为本调度节点，然后跳转至步骤S2014；否则，若被其他调度节点声明，则向分段消息添加多源鉴定属性，然后将该分段消息转发至声明的调度节点，结束处理。

进一步地，所述步骤S2021中在哈希节点中创建区间索引树上下文，跳转至步骤S2022；否则，从哈希表获取区间索引树上下文，跳转至步骤S2022。

本发明还提供一种多源网络流量内容完整还原装置，包括：流量审计设备、多源调度节点和多元索引节点，所述流量审计设备的输出端与所述多源调度节点的输出端电性连接，所述多源调度节点的输出端与所述多源索引节点的检索端电性连接；

所述流量审计设备负责原始流量的捕获和解析，以会话为单位还原文件分片的传输内容，其进行标识后，以分段消息的形式转发给多源调度节点；

多源调度节点负责单向流情况下的文件分片再标识，完成多源判定、分片内容聚合和多源分段消息转发；

多源索引节点，负责文件分片所属的多源调度节点和文件标识ID间的映射，响应检索请求。

（三）有益效果

本发明具有以下有益效果：

（1）、该多源网络流量内容完整还原方法和装置，本方案面向旁路部署形式的网络流量审计需求，具有很强的实时性，能够实时还原原始完整文件，及时发现网络流量中存在的有害信息、泄密隐患等，以便用户能够及时采取相应措施。

（2）、该多源网络流量内容完整还原方法和装置，通过设计以分段消息为单元的多源判定和聚合逻辑，能够适应超大文件的传输，满足内存集约要求。

（3）、该多源网络流量内容完整还原方法和装置，通过适应骨干网单向流，采用两种文件标识ID生成方法，能够适应单向流传输的情况，提高了分片传输文件还原的完整率。

（4）、该多源网络流量内容完整还原方法和装置，通过自适应多链接、多会话传输，通过设计最终文件标识ID的关联方案，以及单向流临时文件标识ID重新标识策略，能够适应流量分布在多台流量审计设备、多个TCP链接、多个应用层会话的情况，有效解决了文件多源、分片传输时的完整性还原问题。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点

附图说明

图1为本发明提供的多源网络流量内容完整还原装置的多源文件传输完整性还原框架；

图2为本发明提供的待插区间和已排序区间的交叠关系。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的组件或元件必须具有特定的方位，以特定的方位构造和操作，因此不能理解为对本发明的限制。

请参阅图1-2，本发明实施例提供一种技术方案：

一种多源网络流量内容完整还原方法，包括以下步骤：

S1011：双向流的情况下，采用传输URL，包含去参数等变种、客户端IP地址ClientIP、原始文件总长度TotalLen三者的组合，计算其哈希值

作为最终的文件标识ID；

，将一个分片拆分为多个分段消息，以适应超大文件的传输；避免内存持续增长。

S1021：文件传输会话开始时，若当前流是双向流则采用步骤S1011生成文件标识ID，然后跳转到步骤S1022；否则，若当前是请求侧单向流，含有URL，则采用步骤S1012生成文件标识ID，跳转到步骤S1023；否则，当前是应答侧单向流，含有文件内容，采用步骤S1012生成临时文件标识ID，跳转到步骤S1022；

S2011：接收分段消息；

S2012：查看当前分段的长度是否已完整表示整个文件；

S2014：执行分段消息内容聚合步骤；

S2022：根据分段消息的区间检索区间索引树，若无交叠，则插入区间；若有交叠，分别处理左交叠、右交叠、包含、被包含四种重叠关系（如图2所示），对重复的内容进行去重，并合并区间；跳转至步骤SS2023；

所述步骤S1011中文件标识ID的公式为：

。

所述步骤S1012中的唯一标识即客户端IP地址ClientIP、客户端端口ClientPort、服务端IP地址ServerIP、服务端端口ServerPort、TCP链接起始序列号TcpSeq、HTTP会话序列号HttpSeq、是否为HTTP Proxy的哈希值

。

所述步骤S1013中分段消息是文件内容转发和片段聚合的基本单元，文件分段消息包含以下几个属性：文件标识ID、分段偏移、分段长度、文件总长度、流方向、附属属性信息，分段消息：

，

所述步骤S2011中接收的分段消息若为单向流，则根据临时文件标识ID查询索引节点，获取其URL，然后采用步骤S1011重新生成文件标识ID，跳转到步骤S2012；否则，消息分段属于双向流，直接跳转至步骤S2012。

所述步骤S2012中当前分段的长度若是已完整表示整个文件，则直接输出文件，结束处理；否则，从消息分段的属性查看是否已鉴定为多源，若是，则跳转至步骤S2014；否则，跳转至步骤S2013。

所述步骤S1022中缓存文件内容直到分段内容长度达到

所述步骤S2013中若无其他调度节点声明，则向索引节点声明该文件标识ID为本调度节点，然后跳转至步骤S2014；否则，若被其他调度节点声明，则向分段消息添加多源鉴定属性，然后将该分段消息转发至声明的调度节点，结束处理。

所述步骤S2021中在哈希节点中创建区间索引树上下文，跳转至步骤S2022；否则，从哈希表获取区间索引树上下文，跳转至步骤S2022。

多源分片传输文件标识，分别针对双向流、单向流设计多源分片文件传输的标识，在保证同一文件的多个传输分片能获得相同的文件标识ID的情况下，极大降低了文件标识ID的冲突率，文件标识ID保证了同一文件的多个分段消息能在单节点汇聚，实现文件分片的关联。

单向流信息查准后文件标识ID更新，针对单向流传输单侧信息不足以唯一表征原始文件的文件标识的情形，设计了针对单向流的临时文件标识ID生成方法，通过该标识ID获取双向流信息，进而获取生成最终文件标识ID的元素，有效解决了单向流文件分片聚合的问题；

以分段消息为单元的多源检测和聚合，网络流量中文件的大小是不确定的，存在长尾效应，通过设计以分段消息为单元的聚合逻辑，将超大文件进行分段，建立分段内容关联聚合模型，解决了超大文件的传输、缓存问题，削平了带宽和内存峰值；

全局视角的多源判定与单节点汇聚，采用全局多源观测视角，建立多源传输的文件分片标识ID与调度节点之间的关系，能够将分布在多台流量审计设备、多个TCP链接、多个应用层会话中的文件分片进行单节点汇聚，在单台调度节点上还原原始完整文件。

一种多源网络流量内容完整还原装置，包括：流量审计设备、多源调度节点和多元索引节点，所述流量审计设备的输出端与所述多源调度节点的输出端电性连接，所述多源调度节点的输出端与所述多源索引节点的检索端电性连接；

流量审计设备包含文件分片标识ID和文件内容还原，为了在应用层会话主要针对HTTP协议唯一标识一个传输的文件，需要对文件分片传输的多个会话进行唯一性标识，由于网络路由等原因，流量审计设备所捕获的流量存在单向流，即只有请求或应答一侧的流量，特殊情况下，文件上传操作的URL和文件内容都在请求一侧的流量中，因此本文视其为双向流，唯一标识一个文件要求获取到两侧的流量的关键信息才能成立，因此本模块对文件的唯一性标识进行设定。

多源调度节点主要负责两部分工作，一是完成分段消息是否落在多个调度节点上的判定，并进行分段消息单节点转发汇聚；二是根据偏移位置，对同一文件的所有分段消息进行内容聚合，还原原始文件内容。

多源索引节点，负责文件分片所属的多源调度节点和文件标识ID间的映射，响应检索请求；

索引节点负责维护全局文件标识ID和其所关联的调度节点之间的映射关系，保证同一个文件标识ID最终只落在同一个调度节点进行聚合处理，索引节点可采用内存数据库进行设计，建立key-value形式的映射关系，key为文件标识ID

；value为调度节点信息，包括调度节点IP地址、监听端口等。

检索操作：响应调度节点检索请求，根据文件标识ID查询数据库，返回调度节点信息；

若未查询到，则返回空；

同时将首次处理该文件标识ID的调度节点信息写入数据库。

写入操作：以文件标识ID为key，调度节点信息为value，写入数据库。

旨在解决大文件访问下载时，用户端、服务端为提高用户体验和下载效率而采取的多线程、分片段传输时，从不同的服务端下载同一文件的不同偏移、不同编号的文件片段，从而导致流量被分流到多个流量审计设备而无法还原原始完整文件的问题，满足了企业或组织对文件内容审查的需求，在检测不良内容、防止泄密隐患等方面有明显作用。

本方案面向旁路部署形式的网络流量审计需求，具有很强的实时性，能够实时还原原始完整文件，及时发现网络流量中存在的有害信息、泄密隐患等，以便用户能够及时采取相应措施；

通过设计以分段消息为单元的多源判定和聚合逻辑，能够适应超大文件的传输，满足内存集约要求；

适应骨干网单向流，采用两种文件标识ID生成方法，能够适应单向流传输的情况，提高了分片传输文件还原的完整率；

自适应多链接、多会话传输，通过设计最终文件标识ID的关联方案，以及单向流临时文件标识ID重新标识策略，能够适应流量分布在多台流量审计设备、多个TCP链接、多个应用层会话的情况，有效解决了文件多源、分片传输时的完整性还原问题。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种多源网络流量内容完整还原方法，其特征在于，包括以下步骤：

作为最终的文件标识ID；

S2011：接收分段消息；

S2012：查看当前分段的长度是否已完整表示整个文件；

S2014：执行分段消息内容聚合步骤；

2.根据权利要求1所述的一种多源网络流量内容完整还原方法，其特征在于：所述步骤S1011中文件标识ID的公式为：

。

3.根据权利要求1所述的一种多源网络流量内容完整还原方法，其特征在于：所述步骤S1012中的唯一标识即客户端IP地址ClientIP、客户端端口ClientPort、服务端IP地址ServerIP、服务端端口ServerPort、TCP链接起始序列号TcpSeq、HTTP会话序列号HttpSeq、是否为HTTP Proxy的哈希值

。

4.根据权利要求1所述的一种多源网络流量内容完整还原方法，其特征在于：所述步骤S1013中分段消息是文件内容转发和片段聚合的基本单元，文件分段消息包含以下几个属性：文件标识ID、分段偏移、分段长度、文件总长度、流方向、附属属性信息，分段消息：

，

5.根据权利要求1所述的一种多源网络流量内容完整还原方法，其特征在于：所述步骤S2011中接收的分段消息若为单向流，则根据临时文件标识ID查询索引节点，获取其URL，然后采用步骤S1011重新生成文件标识ID，跳转到步骤S2012；否则，消息分段属于双向流，直接跳转至步骤S2012。

6.根据权利要求1所述的一种多源网络流量内容完整还原方法，其特征在于：所述步骤S2012中当前分段的长度若是已完整表示整个文件，则直接输出文件，结束处理；否则，从消息分段的属性查看是否已鉴定为多源，若是，则跳转至步骤S2014；否则，跳转至步骤S2013。

7.根据权利要求1所述的一种多源网络流量内容完整还原方法，其特征在于：所述步骤S1022中缓存文件内容直到分段内容长度达到

8.根据权利要求1所述的一种多源网络流量内容完整还原方法，其特征在于：所述步骤S2013中若无其他调度节点声明，则向索引节点声明该文件标识ID为本调度节点，然后跳转至步骤S2014；否则，若被其他调度节点声明，则向分段消息添加多源鉴定属性，然后将该分段消息转发至声明的调度节点，结束处理。

9.根据权利要求1所述的一种多源网络流量内容完整还原方法，其特征在于：所述步骤S2021中在哈希节点中创建区间索引树上下文，跳转至步骤S2022；否则，从哈希表获取区间索引树上下文，跳转至步骤S2022。

10.一种多源网络流量内容完整还原装置，用于实现如权利要求1-9中任一项所述的多源网络流量内容完整还原方法，其特征在于，包括：流量审计设备、多源调度节点和多源索引节点，所述流量审计设备的输出端与所述多源调度节点的输出端电性连接，所述多源调度节点的输出端与所述多源索引节点的检索端电性连接；