CN112995184B - 一种多源网络流量内容完整还原方法和装置 - Google Patents

一种多源网络流量内容完整还原方法和装置 Download PDF

Info

Publication number
CN112995184B
CN112995184B CN202110247027.0A CN202110247027A CN112995184B CN 112995184 B CN112995184 B CN 112995184B CN 202110247027 A CN202110247027 A CN 202110247027A CN 112995184 B CN112995184 B CN 112995184B
Authority
CN
China
Prior art keywords
file
content
source
message
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110247027.0A
Other languages
English (en)
Other versions
CN112995184A (zh
Inventor
方顺建
卢文朋
陈劲松
付明卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jizhi (Hainan) Information Technology Co.,Ltd.
Original Assignee
Zhongdian Jizhi Hainan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Jizhi Hainan Information Technology Co ltd filed Critical Zhongdian Jizhi Hainan Information Technology Co ltd
Priority to CN202110247027.0A priority Critical patent/CN112995184B/zh
Publication of CN112995184A publication Critical patent/CN112995184A/zh
Application granted granted Critical
Publication of CN112995184B publication Critical patent/CN112995184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种多源网络流量内容完整还原方法,包括以下步骤:S1011:双向流的情况下,采用传输URL、客户端IP地址ClientIP、原始文件总长度TotalLen三者的组合,计算其哈希值hfinal作为最终的文件标识ID,涉及高速网络流量处理‑内容还原‑多源传输文件完整还原技术领域。该多源网络流量内容完整还原方法旨在解决大文件访问下载时,用户端、服务端为提高用户体验和下载效率而采取的多线程、分片段传输时,从不同的服务端下载同一文件的不同偏移、不同编号的文件片段,从而导致流量被分流到多个流量审计设备而无法还原原始完整文件的问题,满足了企业或组织对文件内容审查的需求,在检测不良内容、防止泄密隐患等方面有明显作用。

Description

一种多源网络流量内容完整还原方法和装置
技术领域
本发明涉及高速网络流量处理-内容还原-多源传输文件完整还原技术领域,具体为一种多源网络流量内容完整还原方法和装置。
背景技术
网络流量内容还原在互联网信息内容安全审计中有广泛的应用需求,一些安全性要求较高的企业或组织,对互联网传输的音视频内容有较强的监测需求,通过对出入互联网的音视频流量进行实时监测审计,以及时发现其中的不良内容,例如,一些网络服务提供商,需要对用户访问的音视频内容进行审查,再比如,一些从事特殊行业的重要单位和组织,需要对其单位流出的文件进行审查,以发现其中可能存在的泄密信息,随着互联网带宽的增长、文档内容的多媒体化以及网络存储空间的廉价化,网络中出现越来越多的较大文件,一些用户代理为提高用户的访问体验和下载速度,会采取文件分片和多线程并发访问的下载方式,从而导致同一个文件被拆分到多个链接和应用层会话中传输,这对传统的以单链接、单会话为单位的流量还原技术带来巨大挑战。
由于单链接、单会话还原的文件是破损、不完整的,所以需要对多个会话的内容进行聚合,以实现完整文件的还原,但是,服务提供商为了保证服务高可用,通常采用以CDN技术为主导的多点接入的服务提供形式,这就导致用户通过同一个URL访问同一个文件,会被分配到不同的服务节点,即访问了不同的服务端IP地址,形成了“多源”现象,通常以旁路形式部署的网络流量审计设备,分光器一般以二元组(客户端IP地址、服务端IP地址)或以上为分流策略,这就导致用户访问的同一个文件的多个片段会被多台流量审计设备处理,其中任意一台都会因为文件不完整而无法还原原始文件的内容。
目前的流量审计设备一般都是独立进行运作的,目标是单链接、甚至是单应用层会话的内容还原,专利CN 201110398880网络文件还原方法和装置提出了网络报文级的流量重组和文件还原方法,是在单台流量审计设备上进行的操作,专利CN 201010112581一种网络流量还原方法提出了以TCP链接为单位的内容还原方法,采取了针对IP地址的异或方案进行分流,处理相同二元组情况下的内容还原,专利CN201510383093.5一种流量还原方法及装置提出了采用DOM树的超文本流量还原技术,是一种以会话为单位的关联还原技术。
以上流量还原技术都是以单台流量审计设备为单元进行处理的,甚至是单台流量审计设备上的单链接、单应用层会话进行处理的,无法处理多源分片传输的情况:
1.网络流量分流策略与多源传输矛盾:当网络出入口总流量超过一台设备的处理能力时,需要采用分流设备将流量分给多台流量审计设备进行处理,分流设备一般采用二元组分流策略,故而不同的二元组有可能被分到不同的设备进行处理,由于多源传输时服务端IP地址不同,因此各流量审计设备都无法获取全部的文件分片内容;
2.分片传输导致以会话为单位的内容还原不可行:网络音视频、超大文件的传输,常以多链接、多会话的形式分片段进行访问下载,每个分片传输都是一个应用层会话,可能隶属不同的链接,这对通常的以会话为单位的内容还原技术带来很大挑战,高性能流量审计设备处理10Gbps以上的流量,在单台设备内进行多链接、多会话关联不可避免用到锁,会对设备性能造成很大影响;
3.重新下载、断点续传导致分片内容存在重复传输:在出现重复的部分分片内容时,粗暴的拼接文件分片会导致文件破损,为完整还原原始文件,需要处理文件分片去重、空洞补全等操作,需要解决同一文件的多个分片的唯一标识和关联聚合。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种多源网络流量内容完整还原方法和装置,解决了不良信息和涉密信息安全有待提高的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种多源网络流量内容完整还原方法,包括以下步骤:
S1011:双向流的情况下,采用传输URL、客户端IP地址ClientIP、原始文件总长度TotalLen三者的组合,计算其哈希值
Figure 779883DEST_PATH_IMAGE002
作为最终的文件标识ID;
S1012:单向流的情况下,先采用传输七元组对应答侧内容进行唯一标识;
S1013:为支持实时多源检测,设计以分段消息为单位的多源聚合拼接方案,针对任一应用层会话还原的文件分片,设定最大文件分段大小
Figure 445351DEST_PATH_IMAGE004
,将一个分片拆分为多个分段消息,以适应超大文件的传输;
S1021:文件传输会话开始时,若当前流是双向流则采用步骤S1011生成文件标识ID,然后跳转到步骤S1022;否则,若当前是请求侧单向流,则采用步骤S1012生成文件标识ID,跳转到步骤S1023;否则,当前是应答侧单向流,采用步骤S1012生成临时文件标识ID,跳转到步骤S1022;
S1022:创建新的文件分段消息上下文,持续处理原始流量,缓存文件内容;
S1023:对文件标识ID和URL建立映射关系,写入索引节点,结束处理;
S1024:以文件标识ID为路由负载因子,将构造的文件分段消息发送到调度节点,相同的文件标识ID发送到相同的调度节点;若文件传输会话结束,则结束处理,否则跳转到步骤S1022;
S2011:接收分段消息;
S2012:查看当前分段的长度是否已完整表示整个文件;
S2013:根据文件标识ID查询索引节点,确定是否已有其他调度节点对该文件标识ID进行了所属声明;
S2014:执行分段消息内容聚合步骤;
S2021:若为首次接收到某文件标识ID的分段消息,则根据文件标识ID建立哈希表;
S2022:根据分段消息的区间检索区间索引树,若无交叠,则插入区间;若有交叠,分别处理左交叠、右交叠、包含、被包含四种重叠关系,对重复的内容进行去重,并合并区间;跳转至步骤SS2023;
S2023:检查当前区间索引树的总长度,若达到了原始文件的总长度,则按顺序遍历区间,输出原始文件内容,否则等待下一个分段消息后执行步骤S2021。
进一步地,所述步骤S1011中文件标识ID的公式为:
Figure 871784DEST_PATH_IMAGE006
进一步地,所述步骤S1012中的唯一标识即客户端IP地址ClientIP、客户端端口ClientPort、服务端IP地址ServerIP、服务端端口ServerPort、TCP链接起始序列号TcpSeq、HTTP会话序列号HttpSeq、是否为HTTP Proxy的哈希值
Figure 139954DEST_PATH_IMAGE008
作为临时文件标识ID;请求侧和应答侧使用相同的临时文件标识ID,并作为关联ID,应答侧使用该ID获取请求侧信息,然后根据步骤S1011生成最终的文件标识ID,其公式为:
Figure 335443DEST_PATH_IMAGE010
进一步地,所述步骤S1013中分段消息是文件内容转发和片段聚合的基本单元,文件分段消息包含以下几个属性:文件标识ID、分段偏移、分段长度、文件总长度、流方向、附属属性信息,分段消息:
Figure 296446DEST_PATH_IMAGE012
其中,分段偏移为当前分段消息起始位置相对于原始文件起始位置的偏移。
进一步地,所述步骤S2011中接收的分段消息若为单向流,则根据临时文件标识ID查询索引节点,获取其URL,然后采用步骤S1011重新生成文件标识ID,跳转到步骤S2012;否则,消息分段属于双向流,直接跳转至步骤S2012。
进一步地,所述步骤S2012中当前分段的长度若是已完整表示整个文件,则直接输出文件,结束处理;否则,从消息分段的属性查看是否已鉴定为多源,若是,则跳转至步骤S2014;否则,跳转至步骤S2013。
进一步地,所述步骤S1022中缓存文件内容直到分段内容长度达到
Figure 210176DEST_PATH_IMAGE004
或输入结束时,根据步骤S1013构造文件分段消息;跳转到步骤S1024。
进一步地,所述步骤S2013中若无其他调度节点声明,则向索引节点声明该文件标识ID为本调度节点,然后跳转至步骤S2014;否则,若被其他调度节点声明,则向分段消息添加多源鉴定属性,然后将该分段消息转发至声明的调度节点,结束处理。
进一步地,所述步骤S2021中在哈希节点中创建区间索引树上下文,跳转至步骤S2022;否则,从哈希表获取区间索引树上下文,跳转至步骤S2022。
本发明还提供一种多源网络流量内容完整还原装置,包括:流量审计设备、多源调度节点和多元索引节点,所述流量审计设备的输出端与所述多源调度节点的输出端电性连接,所述多源调度节点的输出端与所述多源索引节点的检索端电性连接;
所述流量审计设备负责原始流量的捕获和解析,以会话为单位还原文件分片的传输内容,其进行标识后,以分段消息的形式转发给多源调度节点;
多源调度节点负责单向流情况下的文件分片再标识,完成多源判定、分片内容聚合和多源分段消息转发;
多源索引节点,负责文件分片所属的多源调度节点和文件标识ID间的映射,响应检索请求。
(三)有益效果
本发明具有以下有益效果:
(1)、该多源网络流量内容完整还原方法和装置,本方案面向旁路部署形式的网络流量审计需求,具有很强的实时性,能够实时还原原始完整文件,及时发现网络流量中存在的有害信息、泄密隐患等,以便用户能够及时采取相应措施。
(2)、该多源网络流量内容完整还原方法和装置,通过设计以分段消息为单元的多源判定和聚合逻辑,能够适应超大文件的传输,满足内存集约要求。
(3)、该多源网络流量内容完整还原方法和装置,通过适应骨干网单向流,采用两种文件标识ID生成方法,能够适应单向流传输的情况,提高了分片传输文件还原的完整率。
(4)、该多源网络流量内容完整还原方法和装置,通过自适应多链接、多会话传输,通过设计最终文件标识ID的关联方案,以及单向流临时文件标识ID重新标识策略,能够适应流量分布在多台流量审计设备、多个TCP链接、多个应用层会话的情况,有效解决了文件多源、分片传输时的完整性还原问题。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点
附图说明
图1为本发明提供的多源网络流量内容完整还原装置的多源文件传输完整性还原框架;
图2为本发明提供的待插区间和已排序区间的交叠关系。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限制。
请参阅图1-2,本发明实施例提供一种技术方案:
一种多源网络流量内容完整还原方法,包括以下步骤:
S1011:双向流的情况下,采用传输URL,包含去参数等变种、客户端IP地址ClientIP、原始文件总长度TotalLen三者的组合,计算其哈希值
Figure 888894DEST_PATH_IMAGE002
作为最终的文件标识ID;
S1012:单向流的情况下,先采用传输七元组对应答侧内容进行唯一标识;
S1013:为支持实时多源检测,设计以分段消息为单位的多源聚合拼接方案,针对任一应用层会话还原的文件分片,设定最大文件分段大小
Figure 329103DEST_PATH_IMAGE004
,将一个分片拆分为多个分段消息,以适应超大文件的传输;避免内存持续增长。
S1021:文件传输会话开始时,若当前流是双向流则采用步骤S1011生成文件标识ID,然后跳转到步骤S1022;否则,若当前是请求侧单向流,含有URL,则采用步骤S1012生成文件标识ID,跳转到步骤S1023;否则,当前是应答侧单向流,含有文件内容,采用步骤S1012生成临时文件标识ID,跳转到步骤S1022;
S1022:创建新的文件分段消息上下文,持续处理原始流量,缓存文件内容;
S1023:对文件标识ID和URL建立映射关系,写入索引节点,结束处理;
S1024:以文件标识ID为路由负载因子,将构造的文件分段消息发送到调度节点,相同的文件标识ID发送到相同的调度节点;若文件传输会话结束,则结束处理,否则跳转到步骤S1022;
S2011:接收分段消息;
S2012:查看当前分段的长度是否已完整表示整个文件;
S2013:根据文件标识ID查询索引节点,确定是否已有其他调度节点对该文件标识ID进行了所属声明;
S2014:执行分段消息内容聚合步骤;
S2021:若为首次接收到某文件标识ID的分段消息,则根据文件标识ID建立哈希表;
S2022:根据分段消息的区间检索区间索引树,若无交叠,则插入区间;若有交叠,分别处理左交叠、右交叠、包含、被包含四种重叠关系(如图2所示),对重复的内容进行去重,并合并区间;跳转至步骤SS2023;
S2023:检查当前区间索引树的总长度,若达到了原始文件的总长度,则按顺序遍历区间,输出原始文件内容,否则等待下一个分段消息后执行步骤S2021。
所述步骤S1011中文件标识ID的公式为:
Figure 70794DEST_PATH_IMAGE006
所述步骤S1012中的唯一标识即客户端IP地址ClientIP、客户端端口ClientPort、服务端IP地址ServerIP、服务端端口ServerPort、TCP链接起始序列号TcpSeq、HTTP会话序列号HttpSeq、是否为HTTP Proxy的哈希值
Figure 471819DEST_PATH_IMAGE008
作为临时文件标识ID;请求侧和应答侧使用相同的临时文件标识ID,并作为关联ID,应答侧使用该ID获取请求侧信息,然后根据步骤S1011生成最终的文件标识ID,其公式为:
Figure 81792DEST_PATH_IMAGE013
所述步骤S1013中分段消息是文件内容转发和片段聚合的基本单元,文件分段消息包含以下几个属性:文件标识ID、分段偏移、分段长度、文件总长度、流方向、附属属性信息,分段消息:
Figure 783032DEST_PATH_IMAGE015
其中,分段偏移为当前分段消息起始位置相对于原始文件起始位置的偏移。
所述步骤S2011中接收的分段消息若为单向流,则根据临时文件标识ID查询索引节点,获取其URL,然后采用步骤S1011重新生成文件标识ID,跳转到步骤S2012;否则,消息分段属于双向流,直接跳转至步骤S2012。
所述步骤S2012中当前分段的长度若是已完整表示整个文件,则直接输出文件,结束处理;否则,从消息分段的属性查看是否已鉴定为多源,若是,则跳转至步骤S2014;否则,跳转至步骤S2013。
所述步骤S1022中缓存文件内容直到分段内容长度达到
Figure 226783DEST_PATH_IMAGE004
或输入结束时,根据步骤S1013构造文件分段消息;跳转到步骤S1024。
所述步骤S2013中若无其他调度节点声明,则向索引节点声明该文件标识ID为本调度节点,然后跳转至步骤S2014;否则,若被其他调度节点声明,则向分段消息添加多源鉴定属性,然后将该分段消息转发至声明的调度节点,结束处理。
所述步骤S2021中在哈希节点中创建区间索引树上下文,跳转至步骤S2022;否则,从哈希表获取区间索引树上下文,跳转至步骤S2022。
多源分片传输文件标识,分别针对双向流、单向流设计多源分片文件传输的标识,在保证同一文件的多个传输分片能获得相同的文件标识ID的情况下,极大降低了文件标识ID的冲突率,文件标识ID保证了同一文件的多个分段消息能在单节点汇聚,实现文件分片的关联。
单向流信息查准后文件标识ID更新,针对单向流传输单侧信息不足以唯一表征原始文件的文件标识的情形,设计了针对单向流的临时文件标识ID生成方法,通过该标识ID获取双向流信息,进而获取生成最终文件标识ID的元素,有效解决了单向流文件分片聚合的问题;
以分段消息为单元的多源检测和聚合,网络流量中文件的大小是不确定的,存在长尾效应,通过设计以分段消息为单元的聚合逻辑,将超大文件进行分段,建立分段内容关联聚合模型,解决了超大文件的传输、缓存问题,削平了带宽和内存峰值;
全局视角的多源判定与单节点汇聚,采用全局多源观测视角,建立多源传输的文件分片标识ID与调度节点之间的关系,能够将分布在多台流量审计设备、多个TCP链接、多个应用层会话中的文件分片进行单节点汇聚,在单台调度节点上还原原始完整文件。
一种多源网络流量内容完整还原装置,包括:流量审计设备、多源调度节点和多元索引节点,所述流量审计设备的输出端与所述多源调度节点的输出端电性连接,所述多源调度节点的输出端与所述多源索引节点的检索端电性连接;
所述流量审计设备负责原始流量的捕获和解析,以会话为单位还原文件分片的传输内容,其进行标识后,以分段消息的形式转发给多源调度节点;
流量审计设备包含文件分片标识ID和文件内容还原,为了在应用层会话主要针对HTTP协议唯一标识一个传输的文件,需要对文件分片传输的多个会话进行唯一性标识,由于网络路由等原因,流量审计设备所捕获的流量存在单向流,即只有请求或应答一侧的流量,特殊情况下,文件上传操作的URL和文件内容都在请求一侧的流量中,因此本文视其为双向流,唯一标识一个文件要求获取到两侧的流量的关键信息才能成立,因此本模块对文件的唯一性标识进行设定。
多源调度节点负责单向流情况下的文件分片再标识,完成多源判定、分片内容聚合和多源分段消息转发;
多源调度节点主要负责两部分工作,一是完成分段消息是否落在多个调度节点上的判定,并进行分段消息单节点转发汇聚;二是根据偏移位置,对同一文件的所有分段消息进行内容聚合,还原原始文件内容。
多源索引节点,负责文件分片所属的多源调度节点和文件标识ID间的映射,响应检索请求;
索引节点负责维护全局文件标识ID和其所关联的调度节点之间的映射关系,保证同一个文件标识ID最终只落在同一个调度节点进行聚合处理,索引节点可采用内存数据库进行设计,建立key-value形式的映射关系,key为文件标识ID
Figure 583946DEST_PATH_IMAGE002
;value为调度节点信息,包括调度节点IP地址、监听端口等。
检索操作:响应调度节点检索请求,根据文件标识ID查询数据库,返回调度节点信息;
若未查询到,则返回空;
同时将首次处理该文件标识ID的调度节点信息写入数据库。
写入操作:以文件标识ID为key,调度节点信息为value,写入数据库。
旨在解决大文件访问下载时,用户端、服务端为提高用户体验和下载效率而采取的多线程、分片段传输时,从不同的服务端下载同一文件的不同偏移、不同编号的文件片段,从而导致流量被分流到多个流量审计设备而无法还原原始完整文件的问题,满足了企业或组织对文件内容审查的需求,在检测不良内容、防止泄密隐患等方面有明显作用。
本方案面向旁路部署形式的网络流量审计需求,具有很强的实时性,能够实时还原原始完整文件,及时发现网络流量中存在的有害信息、泄密隐患等,以便用户能够及时采取相应措施;
通过设计以分段消息为单元的多源判定和聚合逻辑,能够适应超大文件的传输,满足内存集约要求;
适应骨干网单向流,采用两种文件标识ID生成方法,能够适应单向流传输的情况,提高了分片传输文件还原的完整率;
自适应多链接、多会话传输,通过设计最终文件标识ID的关联方案,以及单向流临时文件标识ID重新标识策略,能够适应流量分布在多台流量审计设备、多个TCP链接、多个应用层会话的情况,有效解决了文件多源、分片传输时的完整性还原问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种多源网络流量内容完整还原方法,其特征在于,包括以下步骤:
S1011:双向流的情况下,采用传输URL、客户端IP地址ClientIP、原始文件总长度TotalLen三者的组合,计算其哈希值
Figure DEST_PATH_IMAGE002
作为最终的文件标识ID;
S1012:单向流的情况下,先采用传输七元组对应答侧内容进行唯一标识;
S1013:为支持实时多源检测,设计以分段消息为单位的多源聚合拼接方案,针对任一应用层会话还原的文件分片,设定最大文件分段大小
Figure DEST_PATH_IMAGE004
,将一个分片拆分为多个分段消息,以适应超大文件的传输;
S1021:文件传输会话开始时,若当前流是双向流则采用步骤S1011生成文件标识ID,然后跳转到步骤S1022;否则,若当前是请求侧单向流,则采用步骤S1012生成文件标识ID,跳转到步骤S1023;否则,当前是应答侧单向流,采用步骤S1012生成临时文件标识ID,跳转到步骤S1022;
S1022:创建新的文件分段消息上下文,持续处理原始流量,缓存文件内容;
S1023:对文件标识ID和URL建立映射关系,写入索引节点,结束处理;
S1024:以文件标识ID为路由负载因子,将构造的文件分段消息发送到调度节点,相同的文件标识ID发送到相同的调度节点;若文件传输会话结束,则结束处理,否则跳转到步骤S1022;
S2011:接收分段消息;
S2012:查看当前分段的长度是否已完整表示整个文件;
S2013:根据文件标识ID查询索引节点,确定是否已有其他调度节点对该文件标识ID进行了所属声明;
S2014:执行分段消息内容聚合步骤;
S2021:若为首次接收到某文件标识ID的分段消息,则根据文件标识ID建立哈希表;
S2022:根据分段消息的区间检索区间索引树,若无交叠,则插入区间;若有交叠,分别处理左交叠、右交叠、包含、被包含四种重叠关系,对重复的内容进行去重,并合并区间;跳转至步骤SS2023;
S2023:检查当前区间索引树的总长度,若达到了原始文件的总长度,则按顺序遍历区间,输出原始文件内容,否则等待下一个分段消息后执行步骤S2021。
2.根据权利要求1所述的一种多源网络流量内容完整还原方法,其特征在于:所述步骤S1011中文件标识ID的公式为:
Figure DEST_PATH_IMAGE006
3.根据权利要求1所述的一种多源网络流量内容完整还原方法,其特征在于:所述步骤S1012中的唯一标识即客户端IP地址ClientIP、客户端端口ClientPort、服务端IP地址ServerIP、服务端端口ServerPort、TCP链接起始序列号TcpSeq、HTTP会话序列号HttpSeq、是否为HTTP Proxy的哈希值
Figure DEST_PATH_IMAGE008
作为临时文件标识ID;请求侧和应答侧使用相同的临时文件标识ID,并作为关联ID,应答侧使用该ID获取请求侧信息,然后根据步骤S1011生成最终的文件标识ID,其公式为:
Figure DEST_PATH_IMAGE010
4.根据权利要求1所述的一种多源网络流量内容完整还原方法,其特征在于:所述步骤S1013中分段消息是文件内容转发和片段聚合的基本单元,文件分段消息包含以下几个属性:文件标识ID、分段偏移、分段长度、文件总长度、流方向、附属属性信息,分段消息:
Figure DEST_PATH_IMAGE012
其中,分段偏移为当前分段消息起始位置相对于原始文件起始位置的偏移。
5.根据权利要求1所述的一种多源网络流量内容完整还原方法,其特征在于:所述步骤S2011中接收的分段消息若为单向流,则根据临时文件标识ID查询索引节点,获取其URL,然后采用步骤S1011重新生成文件标识ID,跳转到步骤S2012;否则,消息分段属于双向流,直接跳转至步骤S2012。
6.根据权利要求1所述的一种多源网络流量内容完整还原方法,其特征在于:所述步骤S2012中当前分段的长度若是已完整表示整个文件,则直接输出文件,结束处理;否则,从消息分段的属性查看是否已鉴定为多源,若是,则跳转至步骤S2014;否则,跳转至步骤S2013。
7.根据权利要求1所述的一种多源网络流量内容完整还原方法,其特征在于:所述步骤S1022中缓存文件内容直到分段内容长度达到
Figure 330517DEST_PATH_IMAGE004
或输入结束时,根据步骤S1013构造文件分段消息;跳转到步骤S1024。
8.根据权利要求1所述的一种多源网络流量内容完整还原方法,其特征在于:所述步骤S2013中若无其他调度节点声明,则向索引节点声明该文件标识ID为本调度节点,然后跳转至步骤S2014;否则,若被其他调度节点声明,则向分段消息添加多源鉴定属性,然后将该分段消息转发至声明的调度节点,结束处理。
9.根据权利要求1所述的一种多源网络流量内容完整还原方法,其特征在于:所述步骤S2021中在哈希节点中创建区间索引树上下文,跳转至步骤S2022;否则,从哈希表获取区间索引树上下文,跳转至步骤S2022。
10.一种多源网络流量内容完整还原装置,用于实现如权利要求1-9中任一项所述的多源网络流量内容完整还原方法,其特征在于,包括:流量审计设备、多源调度节点和多源索引节点,所述流量审计设备的输出端与所述多源调度节点的输出端电性连接,所述多源调度节点的输出端与所述多源索引节点的检索端电性连接;
所述流量审计设备负责原始流量的捕获和解析,以会话为单位还原文件分片的传输内容,其进行标识后,以分段消息的形式转发给多源调度节点;
多源调度节点负责单向流情况下的文件分片再标识,完成多源判定、分片内容聚合和多源分段消息转发;
多源索引节点,负责文件分片所属的多源调度节点和文件标识ID间的映射,响应检索请求。
CN202110247027.0A 2021-03-05 2021-03-05 一种多源网络流量内容完整还原方法和装置 Active CN112995184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110247027.0A CN112995184B (zh) 2021-03-05 2021-03-05 一种多源网络流量内容完整还原方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110247027.0A CN112995184B (zh) 2021-03-05 2021-03-05 一种多源网络流量内容完整还原方法和装置

Publications (2)

Publication Number Publication Date
CN112995184A CN112995184A (zh) 2021-06-18
CN112995184B true CN112995184B (zh) 2022-07-12

Family

ID=76353115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110247027.0A Active CN112995184B (zh) 2021-03-05 2021-03-05 一种多源网络流量内容完整还原方法和装置

Country Status (1)

Country Link
CN (1) CN112995184B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101795230A (zh) * 2010-02-23 2010-08-04 西安交通大学 一种网络流量还原方法
CN104202659A (zh) * 2014-09-16 2014-12-10 国家计算机网络与信息安全管理中心 网络视频流乱序分段解码方法
CN104270392A (zh) * 2014-10-24 2015-01-07 中国科学院信息工程研究所 一种基于三分类器协同训练学习的网络协议识别方法及系统
CN104965837A (zh) * 2014-09-05 2015-10-07 哈尔滨安天科技股份有限公司 基于分块迭代的网络破损文件还原方法及系统
CN106878092A (zh) * 2017-03-28 2017-06-20 上海以弈信息技术有限公司 一种多源异构数据融合的网络运维实时监控与分析呈现平台
CN108183831A (zh) * 2016-12-08 2018-06-19 中国移动通信有限公司研究院 一种p2p传输中的信息处理方法及装置
CN109614518A (zh) * 2018-11-15 2019-04-12 深圳市酷开网络科技有限公司 一种网络流量数据存储、还原方法及系统
CN109672589A (zh) * 2018-12-29 2019-04-23 江苏博智软件科技股份有限公司 一种基于dpi的数据报文深度识别的实现方法
CN110365807A (zh) * 2019-06-11 2019-10-22 北京邮电大学 一种基于地址翻译的网络会话流量对准方法
CN111881413A (zh) * 2020-07-28 2020-11-03 中国人民解放军海军航空大学 基于矩阵分解的多源时间序列缺失数据恢复方法
CN112350986A (zh) * 2020-09-18 2021-02-09 国家计算机网络与信息安全管理中心 一种音视频网络传输碎片化的整形方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7411900B2 (en) * 2003-05-28 2008-08-12 Lucent Technologies Inc. Fast restoration for virtually-concatenated data traffic
KR100754658B1 (ko) * 2004-03-12 2007-09-03 삼성전자주식회사 통신 시스템에서 복합 재전송 운용 방법
US9559805B2 (en) * 2014-11-03 2017-01-31 Cisco Technology, Inc. Self-describing error correction of consolidated media content
GB201721847D0 (en) * 2017-12-22 2018-02-07 Telecom Paris Tech Priority map for media files

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101795230A (zh) * 2010-02-23 2010-08-04 西安交通大学 一种网络流量还原方法
CN104965837A (zh) * 2014-09-05 2015-10-07 哈尔滨安天科技股份有限公司 基于分块迭代的网络破损文件还原方法及系统
CN104202659A (zh) * 2014-09-16 2014-12-10 国家计算机网络与信息安全管理中心 网络视频流乱序分段解码方法
CN104270392A (zh) * 2014-10-24 2015-01-07 中国科学院信息工程研究所 一种基于三分类器协同训练学习的网络协议识别方法及系统
CN108183831A (zh) * 2016-12-08 2018-06-19 中国移动通信有限公司研究院 一种p2p传输中的信息处理方法及装置
CN106878092A (zh) * 2017-03-28 2017-06-20 上海以弈信息技术有限公司 一种多源异构数据融合的网络运维实时监控与分析呈现平台
CN109614518A (zh) * 2018-11-15 2019-04-12 深圳市酷开网络科技有限公司 一种网络流量数据存储、还原方法及系统
CN109672589A (zh) * 2018-12-29 2019-04-23 江苏博智软件科技股份有限公司 一种基于dpi的数据报文深度识别的实现方法
CN110365807A (zh) * 2019-06-11 2019-10-22 北京邮电大学 一种基于地址翻译的网络会话流量对准方法
CN111881413A (zh) * 2020-07-28 2020-11-03 中国人民解放军海军航空大学 基于矩阵分解的多源时间序列缺失数据恢复方法
CN112350986A (zh) * 2020-09-18 2021-02-09 国家计算机网络与信息安全管理中心 一种音视频网络传输碎片化的整形方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Segment routing for effective recovery and multi-domain traffic engineering;A. Giorgetti;《Journal of Optical Communications and Networking》;20170217;全文 *
高速网络流量内容还原系统的设计与实现;窦衍旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20141015;全文 *

Also Published As

Publication number Publication date
CN112995184A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
US9210090B1 (en) Efficient storage and flexible retrieval of full packets captured from network traffic
Al-Duwairi et al. Novel hybrid schemes employing packet marking and logging for IP traceback
KR100985237B1 (ko) 패킷 라우팅을 위한 방법, 장치 및 시스템, 메시지 라우팅을 위한 방법 및 장치, 디지탈 컨텐트 분배를 위한 네트워크 및 방법, 및 라우팅 및 캐싱을 위한 방법, 네트워크 및 장치
RU2601201C2 (ru) Способ и устройство для анализа пакетов данных
US9781224B2 (en) Content transmitting system, method for optimizing network traffic in the system, central control device and local caching device
US20050190694A1 (en) Method and apparatus for wire-speed application layer classification of upstream and downstream data packets
US8526318B2 (en) Method and device of identifying the payload of a data packet in a TCP stream
WO2002039307A1 (en) Content based routing devices and methods
US10225201B2 (en) Scalable multicast for notification-driven content delivery in information centric networks
Hefeeda et al. Design and evaluation of a proxy cache for peer-to-peer traffic
Lim et al. NDN construction for big science: Lessons learned from establishing a testbed
Wang et al. On adapting http protocol to content centric networking
CN113726873B (zh) 基于区块链的文件处理方法、系统、设备和存储介质
CN107835437A (zh) 基于多缓存服务器的调度方法和装置
US9055113B2 (en) Method and system for monitoring flows in network traffic
CN103001964A (zh) 一种局域网环境下的缓存加速方法
CN107317809B (zh) 一种信息中心网络多层次视频媒体系统及其使用方法
CN105791366A (zh) 一种大文件HTTP-Range 下载方法、缓存服务器及系统
CN103236940A (zh) 内容处理方法和装置及网络设备
CN112995184B (zh) 一种多源网络流量内容完整还原方法和装置
CN106506400B (zh) 一种数据流识别方法及出口设备
US20060224758A1 (en) System and method for file header operation in a peer-to-peer network providing streaming services
Kazi Prefetching bloom filters to control flooding in content-centric networks
US20130205015A1 (en) Method and Device for Analyzing Data Intercepted on an IP Network in order to Monitor the Activity of Users on a Website
Yoon et al. Header signature maintenance for Internet traffic identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Fang Shunjian

Inventor after: Lu Wenpeng

Inventor after: Chen Jinsong

Inventor after: Fu Mingwei

Inventor before: Fang Shunjian

Inventor before: Lu Wenpeng

Inventor before: Chen Jinsong

Inventor before: Fu Mingwei

CB03 Change of inventor or designer information
CP01 Change in the name or title of a patent holder

Address after: 571924 Room 301, 3rd floor, building A09, Hainan Ecological Software Park, Laocheng hi tech Industrial Demonstration Zone, Chengmai County, Haikou City, Hainan Province

Patentee after: Jizhi (Hainan) Information Technology Co.,Ltd.

Address before: 571924 Room 301, 3rd floor, building A09, Hainan Ecological Software Park, Laocheng hi tech Industrial Demonstration Zone, Chengmai County, Haikou City, Hainan Province

Patentee before: Zhongdian Jizhi (Hainan) Information Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder