CN115002179A - 一种网络全流量会话流数据存储与还原的方法 - Google Patents

一种网络全流量会话流数据存储与还原的方法 Download PDF

Info

Publication number
CN115002179A
CN115002179A CN202210486342.3A CN202210486342A CN115002179A CN 115002179 A CN115002179 A CN 115002179A CN 202210486342 A CN202210486342 A CN 202210486342A CN 115002179 A CN115002179 A CN 115002179A
Authority
CN
China
Prior art keywords
session
message
information
index
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210486342.3A
Other languages
English (en)
Inventor
刘庆林
马洪波
刘正伟
魏海宇
谢辉
安恩庆
陈健
李小琼
康柏荣
王鲲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zorelworld Information Technology Co ltd
Original Assignee
Beijing Zorelworld Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zorelworld Information Technology Co ltd filed Critical Beijing Zorelworld Information Technology Co ltd
Priority to CN202210486342.3A priority Critical patent/CN115002179A/zh
Publication of CN115002179A publication Critical patent/CN115002179A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/141Setup of application sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种网络全流量会话流数据存储与还原的方法,属于数据处理技术领域,该网络全流量会话流数据存储与还原的方法包括以下步骤:步骤S1:将流量抓取到的原始报文缓存到内存中;步骤S2:在缓存报文的同时建立TCP会话索引;步骤S3:将TCP会话索引缓存到内存队列中;步骤S4:当原始报文缓存达到设置的大小或采集时间时,依次获取内存队列中TCP会话索引;步骤S5:最后将TCP会话索引入库;步骤S6:后续根据五元组信息查询会话。该方案能够有效解决全流量回溯分析中会话流索引入库与下载的性能瓶颈问题,通过会话流的连续存储机制,降低索引存储空间、提升索引入库效率及会话流的下载速度,为后续异常数据挖掘、分析、取证建立扎实基础。

Description

一种网络全流量会话流数据存储与还原的方法
技术领域
本发明属于数据处理技术领域,具体涉及一种网络全流量会话流数据存储与还原的方法。
背景技术
网络全流程回溯分析系统的核心是收集并存储所有的原始流量信息,有了原始流程的存储,就能够将当前检测到的攻击行为与历史流量进行关联,实现完整的攻击溯源和取证分析,但在收集抓取网络流量报文时,同一个会话流的报文通常是非连续且无序的,这时必须存储每一个报文的位置信息,才能提取出完整的会话信息。大量的位置信息既占磁盘空间,又极大地影响了后续的入库、检索、提取、分析的性能。
而目前网络全流量会话流数据存储的方法仍采用实时存储方法,实时存储方法是对网卡抓取到的原始流量进行文件存储,通过对原始流量实时解析,建立TCP会话索引,存储TCP会话的五元组信息(源IP、源端口、目的IP、目的端口、协议名)、会话中所有报文位置及长度信息、报文所属存储文件信息等,这样后续提取会话流时需要依次读取会话中的报文所在存储位置与长度信息,影响提取速度。此外因为会话需要存储会话中每一个报文的位置和长度信息,既占用磁盘空间又影响入库速度,为后续取证分析带来了性能压力。
发明内容
本发明的目的在于提供一种网络全流量回溯分析应用中TCP/UDP会话流的存储与还原的方法,会对网卡抓取到的原始流量和会话报文流的全索引先进行内存缓存,当缓存达到某一阈值时,将会话流连续存储成文件落盘存储,同时修改内存会话全索引信息,仅保留会话流的开始与结束位置信息再执行索引入库操作,这样后续提取会话流时只需要读取会话中的报文所在存储文件的开始与结束位置,极大的提高了后续提取、分析、取证速度,旨在解决现有技术中通过网络全流程回溯分析系统收集并存储流量信息时,在收集抓取网络流量报文时,同一个会话流的报文通常是非连续且无序的,这时必须存储每一个报文的位置信息,才能提取出完整的会话信息,大量的位置信息既占磁盘空间,又极大地影响了后续的入库、检索、提取、分析的性能;而采用实时存储方法后,在后续提取会话流时需要依次读取会话中的报文所在存储位置与长度信息,影响提取速度,同时因为会话需要存储会话中每一个报文的位置和长度信息,既占用磁盘空间又影响入库速度,为后续取证分析带来了性能压力等技术问题。
为实现上述目的,本发明提供如下技术方案:
一种网络全流量会话流数据存储与还原的方法包括以下步骤:
步骤S1:将流量抓取到的原始报文缓存到内存中;
步骤S2:在缓存报文的同时建立TCP会话索引;
步骤S3:将TCP会话索引缓存到内存队列中;
步骤S4:当原始报文缓存达到设置的大小或采集时间时,依次获取内存队列中TCP会话索引;
步骤S5:最后将TCP会话索引入库;
步骤S6:后续根据五元组信息查询会话。
优选的,所述步骤S2中的索引信息包括五元组信息、会话中各个报文在缓存报文中的位置信息和会话中各个报文在缓存报文中的长度信息。
优选的,所述五元组信息由源IP、源端口、目的IP、目的端口和协议名组成。
优选的,所述步骤S2中的索引信息中出现相同的五元组信息表示同一个会话。
优选的,所述步骤S4中在写入文件时可根据同一个会话中各个报文在缓存报文中的位置与缓存报文中的长度信息,将同一个会话的原始报文连续写入到文件。
优选的,所述修改报文位置信息由写入报文开始位置和写入报文结束位置组成。
优选的,所述步骤S5中的入库信息包括五元组信息、报文开始位置、报文结束位置及报文所属文件。
优选的,所述步骤S6中的查询会话可根据会话中报文所属文件及报文开始位置与报文结束位置获取完成的会话流,并用于分析与取证。
优选的,所述步骤S1中为通过缓存方式保存TCP会话流的报文信息,且达到触发条件时,会将会话流原始报文连续写入并且修改会话流的报文开始位置与报文结束位置。
优选的,所述步骤S2中的TCP会话索引结构只需要报文五元组信息、报文开始位置与报文结束位置和报文所属文件就可以用于后续分析与取证,可用于减少了TCP会话索引的存储空间。
与现有技术相比,本发明的有益效果是:
1、本方案中,能够有效解决全流量回溯分析中会话流索引入库与下载的性能瓶颈问题,通过会话流的连续存储机制,降低索引存储空间、提升索引入库效率及会话流的下载速度,为后续异常数据挖掘、分析、取证建立扎实基础,针对性的对现有技术中通过网络全流程回溯分析系统收集并存储流量信息时,在收集抓取网络流量报文时,同一个会话流的报文通常是非连续且无序的,这时必须存储每一个报文的位置信息,才能提取出完整的会话信息,大量的位置信息既占磁盘空间,又极大地影响了后续的入库、检索、提取、分析的性能;而采用实时存储方法后,在后续提取会话流时需要依次读取会话中的报文所在存储位置与长度信息,影响提取速度,同时因为会话需要存储会话中每一个报文的位置和长度信息,既占用磁盘空间又影响入库速度,为后续取证分析带来了性能压力等存在的技术问题做出详细的解决方案。
2、本方案中,针对原始报文缓存与TCP会话索引缓存通过缓存方式保存TCP会话流的报文信息,达到触发条件时,将会话流原始报文连续写入并且修改会话流的报文开始与结束位置;而整个TCP会话流的索引结构只需要报文五元组信息、报文开始与结束位置、报文所属文件就可以用于后续分析与取证,可大大减少了TCP会话索引的存储空间。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的步骤框图;
图2为本发明中会话流的存储与还原过程流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1-图2,本发明提供以下技术方案:一种网络全流量会话流数据存储与还原的方法包括以下步骤:
步骤S1:将流量抓取到的原始报文缓存到内存中;
步骤S2:在缓存报文的同时建立TCP会话索引;
步骤S3:将TCP会话索引缓存到内存队列中;
步骤S4:当原始报文缓存达到设置的大小或采集时间时,依次获取内存队列中TCP会话索引;
步骤S5:最后将TCP会话索引入库;
步骤S6:后续根据五元组信息查询会话。
具体的,步骤S2中的索引信息包括五元组信息、会话中各个报文在缓存报文中的位置信息和会话中各个报文在缓存报文中的长度信息。
具体的,五元组信息由源IP、源端口、目的IP、目的端口和协议名组成。
具体的,步骤S2中的索引信息中出现相同的五元组信息表示同一个会话。
具体的,步骤S4中在写入文件时可根据同一个会话中各个报文在缓存报文中的位置与缓存报文中的长度信息,将同一个会话的原始报文连续写入到文件。
具体的,修改报文位置信息由写入报文开始位置和写入报文结束位置组成。
具体的,步骤S5中的入库信息包括五元组信息、报文开始位置、报文结束位置及报文所属文件。
具体的,步骤S6中的查询会话可根据会话中报文所属文件及报文开始位置与报文结束位置获取完成的会话流,并用于分析与取证。
具体的,步骤S1中为通过缓存方式保存TCP会话流的报文信息,且达到触发条件时,会将会话流原始报文连续写入并且修改会话流的报文开始位置与报文结束位置。
具体的,步骤S2中的TCP会话索引结构只需要报文五元组信息、报文开始位置与报文结束位置和报文所属文件就可以用于后续分析与取证,可用于减少了TCP会话索引的存储空间。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络全流量会话流数据存储与还原的方法,其特征在于:包括以下步骤:
步骤S1:将流量抓取到的原始报文缓存到内存中;
步骤S2:在缓存报文的同时建立TCP会话索引;
步骤S3:将TCP会话索引缓存到内存队列中;
步骤S4:当原始报文缓存达到设置的大小或采集时间时,依次获取内存队列中TCP会话索引;
步骤S5:最后将TCP会话索引入库;
步骤S6:后续根据五元组信息查询会话。
2.根据权利要求1所述的网络全流量会话流数据存储与还原的方法,其特征在于:所述步骤S2中的索引信息包括五元组信息、会话中各个报文在缓存报文中的位置信息和会话中各个报文在缓存报文中的长度信息。
3.根据权利要求2所述的网络全流量会话流数据存储与还原的方法,其特征在于:所述五元组信息由源IP、源端口、目的IP、目的端口和协议名组成。
4.根据权利要求3所述的网络全流量会话流数据存储与还原的方法,其特征在于:所述步骤S2中的索引信息中出现相同的五元组信息表示同一个会话。
5.根据权利要求1所述的网络全流量会话流数据存储与还原的方法,其特征在于:所述步骤S4中在写入文件时可根据同一个会话中各个报文在缓存报文中的位置与缓存报文中的长度信息,将同一个会话的原始报文连续写入到文件。
6.根据权利要求5所述的网络全流量会话流数据存储与还原的方法,其特征在于:所述修改报文位置信息由写入报文开始位置和写入报文结束位置组成。
7.根据权利要求1所述的网络全流量会话流数据存储与还原的方法,其特征在于:所述步骤S5中的入库信息包括五元组信息、报文开始位置、报文结束位置及报文所属文件。
8.根据权利要求1所述的网络全流量会话流数据存储与还原的方法,其特征在于:所述步骤S6中的查询会话可根据会话中报文所属文件及报文开始位置与报文结束位置获取完成的会话流,并用于分析与取证。
9.根据权利要求8所述的网络全流量会话流数据存储与还原的方法,其特征在于:所述步骤S1中为通过缓存方式保存TCP会话流的报文信息,且达到触发条件时,会将会话流原始报文连续写入并且修改会话流的报文开始位置与报文结束位置。
10.根据权利要求9所述的网络全流量会话流数据存储与还原的方法,其特征在于:所述步骤S2中的TCP会话索引结构只需要报文五元组信息、报文开始位置与报文结束位置和报文所属文件就可以用于后续分析与取证,可用于减少了TCP会话索引的存储空间。
CN202210486342.3A 2022-05-06 2022-05-06 一种网络全流量会话流数据存储与还原的方法 Pending CN115002179A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210486342.3A CN115002179A (zh) 2022-05-06 2022-05-06 一种网络全流量会话流数据存储与还原的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210486342.3A CN115002179A (zh) 2022-05-06 2022-05-06 一种网络全流量会话流数据存储与还原的方法

Publications (1)

Publication Number Publication Date
CN115002179A true CN115002179A (zh) 2022-09-02

Family

ID=83025356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210486342.3A Pending CN115002179A (zh) 2022-05-06 2022-05-06 一种网络全流量会话流数据存储与还原的方法

Country Status (1)

Country Link
CN (1) CN115002179A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547810A (zh) * 2016-03-31 2017-03-29 北京安天电子设备有限公司 一种流量存储快速索引的方法和系统
CN113590910A (zh) * 2021-09-26 2021-11-02 北京金睛云华科技有限公司 一种网络流量检索方法和装置
CN113672397A (zh) * 2021-10-25 2021-11-19 北京金睛云华科技有限公司 一种全流量存储方法、系统和设备
CN113672629A (zh) * 2021-10-25 2021-11-19 北京金睛云华科技有限公司 一种分布式网络流量检索方法和装置
CN114020734A (zh) * 2021-11-08 2022-02-08 北京天融信网络安全技术有限公司 一种流量统计去重方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547810A (zh) * 2016-03-31 2017-03-29 北京安天电子设备有限公司 一种流量存储快速索引的方法和系统
CN113590910A (zh) * 2021-09-26 2021-11-02 北京金睛云华科技有限公司 一种网络流量检索方法和装置
CN113672397A (zh) * 2021-10-25 2021-11-19 北京金睛云华科技有限公司 一种全流量存储方法、系统和设备
CN113672629A (zh) * 2021-10-25 2021-11-19 北京金睛云华科技有限公司 一种分布式网络流量检索方法和装置
CN114020734A (zh) * 2021-11-08 2022-02-08 北京天融信网络安全技术有限公司 一种流量统计去重方法及装置

Similar Documents

Publication Publication Date Title
US10652265B2 (en) Method and apparatus for network forensics compression and storage
CN103281213B (zh) 一种网络流量内容提取和分析检索方法
US7742414B1 (en) Lightweight indexing for fast retrieval of data from a flow-level compressed packet trace
CN102761517B (zh) 一种高速网络的内容还原方法
CN112565338B (zh) 一种以太网报文捕获、过滤、存储、实时解析方法及系统
CN100593928C (zh) 一种基于数据特征的流媒体内容下载方法
CN108600053B (zh) 一种基于零拷贝技术的无线网络数据包捕获方法
WO2011060377A1 (en) Method and apparatus for real time identification and recording of artifacts
CN106155845B (zh) 一种基于xfs文件系统数据的重组恢复方法
CN110825598A (zh) 一种日志实时处理方法及系统
CN104009984A (zh) 基于倒排列表的网流索引检索与压缩的方法
CN113590910A (zh) 一种网络流量检索方法和装置
CN109067711B (zh) 一种网络数据包的快速回溯分析方法
CN115002179A (zh) 一种网络全流量会话流数据存储与还原的方法
CN111240599A (zh) 数据流存储方法及装置
CN109905720B (zh) 命名数据网络下基于视频点播系统的缓存替换方法
CN112822077B (zh) 数据中心网络中全网流量测量方法、系统及丢包检测方法
CN110149245A (zh) 基于压缩感知的高速网络流量采样方法及装置
CN110825940B (zh) 网络数据包存储和查询方法
CN100341285C (zh) 安全日志的实现方法
CN114047881B (zh) 一种基于用户策略的网络数据包存储装置及方法
CN106547810A (zh) 一种流量存储快速索引的方法和系统
CN112685358B (zh) 一种基于fpga的ddr3分组读写方法
CN114884834A (zh) 一种低开销的Top-k网络流高精度提取架构及方法
CN111143306B (zh) 智能站网分装置报文优化存储方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220902