CN112685368A - 超大数据包文件完整会话处理方法、系统及可读存储介质 - Google Patents

超大数据包文件完整会话处理方法、系统及可读存储介质 Download PDF

Info

Publication number
CN112685368A
CN112685368A CN202011609497.9A CN202011609497A CN112685368A CN 112685368 A CN112685368 A CN 112685368A CN 202011609497 A CN202011609497 A CN 202011609497A CN 112685368 A CN112685368 A CN 112685368A
Authority
CN
China
Prior art keywords
file
data packet
session
data
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011609497.9A
Other languages
English (en)
Inventor
宋小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kelai Network Technology Co Ltd
Original Assignee
Chengdu Kelai Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kelai Network Technology Co Ltd filed Critical Chengdu Kelai Network Technology Co Ltd
Priority to CN202011609497.9A priority Critical patent/CN112685368A/zh
Publication of CN112685368A publication Critical patent/CN112685368A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种超大数据包文件完整会话处理方法、系统及可读存储介质,属于数据分析方法的技术领域,其主要利用分治思想,分块处理超大数据包文件;在读取数据包文件时,按照会话维度,切分数据包文件,且通过计算ip四元组hash值并求模的方式,把会话数据包均分到各份文件块中,第k(k=1)份文件块将留存内存持续分析,其他份缓存到磁盘,在第k份文件块即将分析完成时,读取第k+1份文件块数据至内存进行分析,直到所有数据分析完成,以达到在分析处理大文件时,解决分析会话不完整,内存占用过大的问题。

Description

超大数据包文件完整会话处理方法、系统及可读存储介质
技术领域
本发明属于数据分析方法的技术领域,具体而言,涉及一种超大数据包文件完整会话处理方法、系统及可读存储介质。
背景技术
在数据包文件分析中,数据包文件由多个会话组成。数据包文件的分析是将会话数据包读取出来,并按照会话维度来展开分析,分析结果也是按照会话维度存放。
目前,数据包文件的会话处理方式为:所有读取到的会话数据包,将按会话维度建立分析流表;将所有会话信息缓存到内存中。
在处理较大数据包文件且数据会话会大量存在时,会导致内存使用过多。通常内存不足以存放所有分析数据,在内存不足时,将触发提前提交部分会话分析结果到存储设备,使得这部分会话不完整,分析速度也将受影响,内存使用过多,也可能导致最终分析失败。
基于上述,现有技术方案的主要问题点在于:
(1)在分析大文件且内存不够用时,部分会话分析过程会提前终止以便释放资源,由于提前终止分析,导致这部分会话信息不完整;
(2)需要占用大量内存,可能影响其他流程或程序。
发明内容
鉴于此,为了解决现有技术存在的上述问题,本发明的目的在于提供一种超大数据包文件完整会话处理方法、系统及可读存储介质以达到在分析处理大文件时,解决分析会话不完整以及内存占用过大的问题。
本发明所采用的技术方案为:一种超大数据包文件完整会话处理方法,该处理方法包括:
S1:读取数据包文件且该数据包文件的大小为k;
S2:判断该数据包文件是否达到拆分上限m,若达到,则进入下一步;否则,结束;
S3:将数据包文件拆分为n份,且n=k/m;并将当前数据包文件中所有的会话数据包分成n份文件块;
S4:将第1份文件块传输至分析流程,且第2~n份文件块缓存到磁盘;
S5:待分析流程将当前文件块分析完成后,提交当前分析结果并清理所有数据;
S6:由分析流程在磁盘中依次读取第2~n份文件块并执行步骤S5,直至结束。
进一步地,所述步骤S3的方法为:
S301:计算该数据包文件中各个会话数据包按照ip四元组的hash值;
S302:通过hash值对n求模,根据求模的值将所有的会话数据包分为n份文件块。
进一步地,所述分析流程可同时分析1~1000w份会话数据包。
在本发明中还提供了一种超大数据包文件完整会话处理系统,该系统包括:
数据拆分模块,通过数据拆分模块将数据包文件中所有的会话数据包分成n份文件块;
与数据拆分模块连接的分析模块,通过分析模块依次分析文件块,且将当前文件块分析完成后,提交当前分析结果并清理所有数据后,再分析下一个文件块;
与数据拆分模块连接的磁盘,所述分析模块在磁盘中依次读取文件块;
与分析模块连接的服务器,所述服务器用于接收分析模块上传的分析结果。
进一步地,所述数据拆分模块读取数据包文件且分析模块的内存上限为m,记数据包文件的大小为k,则数据包文件拆分为n份,且n=k/m。
进一步地,所述数据拆分模块计算该数据包文件中各个会话数据包按照ip四元组的hash值,通过hash值对n求模并由求模的值将所有的会话数据包分成n份文件块。
在本发明中还提供了一种可读存储介质,所述可读存储介质上存储有计算机指令,所述计算机指令被处理器执行时,具体执行如上述任一项所述的超大数据包文件完整会话处理方法中的步骤。
本发明的有益效果为:
1.采用本发明所提供的超大数据包文件完整会话处理方法、系统及可读存储介质,其利用分治思想,可以在较低的内存限制下,能完成更大的数据包文件分析。
2.采用本发明所提供的超大数据包文件完整会话处理方法、系统及可读存储介质,其基于ip四元组的hash值求模,把会话数据均分到文件块中,保证每个文件块的会话数据具有完整性。
3.采用本发明所提供的超大数据包文件完整会话处理方法、系统及可读存储介质,在分析流程中对每份文件块分析处理之后直接上报分析结果且能够快速释放内存资源,避免内存占用过大的问题。
附图说明
图1是本发明所提供的超大数据包文件完整会话处理方法的工作流程示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
实施例1
在本实施例中具体提供了一种超大数据包文件完整会话处理方法,其改变了数据分析思路,旨在通过该会话处理方法时,对于分析处理大文件时,以解决分析会话不完整且内存占用过大问题。在本实施例中,以处理一个超大数据包文件为例进行阐述,如图1所示,该处理方法包括:
S1:读取超大数据包文件且该超大数据包文件的大小为k(MB),该超大数据包文件一般都包括有几千万个会话数据包,几千万个会话数据包在处理分析时,其内存占用较大。
S2:判断该数据包文件是否达到拆分上限m,若达到,则进入下一步;否则,结束,则表明数据包文件的大小不足以进行拆分,单次分析即可,无需进行后续步骤,即可处理该数据包文件。
S3:在读取数据包文件,解析应用层以下协议时,根据解析到的ip四元组,将数据包文件切割为n份。即将数据包文件拆分为n份,且计算公式为n=k/m;并将当前数据包文件中所有的会话数据包(也称为会话数据)分成n份文件块,n的取值是由文件大小和欲使用的内存大小决定;具体过程如下:
S301:计算该数据包文件中各个会话数据包按照ip四元组的hash值;
S302:通过hash值对n求模,根据求模的值将所有的会话数据包分为n份文件块,以实现把求模值相同的会话数据包分到相同的文件块中,使得每块文件块都具有完整的会话数据。
基于该步骤其计算方法举例如下:
计算公式为n=k/m,表示文件大小为k(MB),但是内存只允许分析m(MB),则就把文件分为n=k/m份,如:文件大小为2000MB,内存只允许分析1000MB,则n=2000/1000=2,假如:n=2,计算如下:
第一个会话数据包按照ip四元组的hash值算出来为8,则8对2求模=0,则把这部分数据放在第0份中;
第二个会话数据包按照ip四元组的hash值算出来为9,则9对2求模=1,则把这部分数据放在第1份中;
第三个会话数据包按照ip四元组的hash值算出来为10,则10对2求模=0,则把这部分数据放在第0份中;
......
以此类推,所有的会话数据包就会被分为2份文件块,即实现通过计算ip四元组的hash值并求模的方式,把所有的会话数据包分到各份文件块中。
S4:将第1份文件块传输至分析流程,第1份文件块将留存内存进行持续分析,而其他份缓存到磁盘中,即将第2~n份文件块缓存到磁盘;
S5:由分析流程将当前文件块分析完成后,提交当前分析结果并清理当前文件块相关的所有数据,即:分析流程将第一份文件块(完整会话)分析完成后,就直接提交对应的分析结果,再继续读取其他份文件块数据后,继续放入分析流程进行分析;
S6:由分析流程在磁盘中依次读取第2~n份文件块并执行步骤S5,在此过程中,当在第K份文件块即将分析完成时,读取磁盘中第k+1份文件块至分析流程进行分析,直至所有数据分析完成。
在本实施例中,分析流程是加载于内存中,该分析流程最多可同时分析1000w份会话数据,因此,各份所述文件块中应当包括1~1000w份会话数据。
本实施例所提供的超大数据包文件完整会话处理方法,其主要利用分治思想,分块处理超大数据包文件;在读取数据包文件时,按照会话维度,切分数据包文件,且通过计算ip四元组hash值并求模的方式,把会话数据包均分到各份文件块中,第k(k=1)份文件块将留存内存持续分析,其他份缓存到磁盘,在第K份文件块即将分析完成时,读取第k+1份文件块数据至内存进行分析。直到所有数据分析完成。
实施例2
在本发明中还提供了一种超大数据包文件完整会话处理系统,该系统应用于实施例1中所述的超大数据包文件完整会话处理方法,该系统包括:数据拆分模块、分析模块、磁盘以及服务器,其具体设计如下:
通过数据拆分模块将数据包文件中所有的会话数据包分成n份文件块,由数据拆分模块读取数据包文件,根据分析模块的内存上限m(即表示最大只允许分析m(MB)),记数据包文件的大小为k(k应当大于m),则数据包文件拆分为n份,且n=k/m;计算该数据包文件中各个会话数据包按照ip四元组的hash值,通过hash值对n求模并由求模的值将所有的会话数据包分成n份文件块。
分析模块与数据拆分模块之间通信连接,由分析模块的内存大小决定该分析模块允许分析的m值大小,通过分析模块依次分析文件块,且将当前文件块分析完成后,提交当前分析结果并清理当前文件块相关的所有数据后,再分析下一个文件块,以此重复,直到分析完所有数据,同时,可确保每个文件块分析处理完成后,能够整块释放内存等资源,相比传统的部分数据提交,释放资源更加高效。
磁盘与数据拆分模块之间通信连接,所述分析模块在磁盘中依次读取文件块,在第K份文件块即将分析完成时,读取第k+1份文件块数据至分析模块进行分析;
服务器与分析模块连接,所述服务器用于接收分析模块上传的分析结果,在分析模块将当前文件块分析完成后,就会直接提交当前的分析结果至服务器,再继续依次读取其他份文件块数据并继续依次放入分析流程进行分析,以最终完成对超大数据包文件的分析处理。
实施例3
在本发明中还提供了一种可读存储介质,所述可读存储介质上存储有计算机指令,所述计算机指令被处理器执行时,具体执行如上述实施例1中所述的超大数据包文件完整会话处理方法中的步骤。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种超大数据包文件完整会话处理方法,其特征在于,该处理方法包括:
S1:读取数据包文件且该数据包文件的大小为k;
S2:判断该数据包文件是否达到拆分上限m,若达到,则进入下一步;否则,结束;
S3:将数据包文件拆分为n份,且n=k/m;并将当前数据包文件中所有的会话数据包分成n份文件块;
S4:将第1份文件块传输至分析流程,且第2~n份文件块缓存到磁盘;
S5:待分析流程将当前文件块分析完成后,提交当前分析结果并清理所有数据;
S6:由分析流程在磁盘中依次读取第2~n份文件块并执行步骤S5,直至结束。
2.根据权利要求1所述的超大数据包文件完整会话处理方法,其特征在于,所述步骤S3的方法为:
S301:计算该数据包文件中各个会话数据包按照ip四元组的hash值;
S302:通过hash值对n求模,根据求模的值将所有的会话数据包分为n份文件块。
3.根据权利要求2所述的超大数据包文件完整会话处理方法,其特征在于,所述分析流程可同时分析1~1000w份会话数据包。
4.一种超大数据包文件完整会话处理系统,其特征在于,该系统包括:
数据拆分模块,通过数据拆分模块将数据包文件中所有的会话数据包分成n份文件块;
与数据拆分模块连接的分析模块,通过分析模块依次分析文件块,且将当前文件块分析完成后,提交当前分析结果并清理所有数据后,再分析下一个文件块;
与数据拆分模块连接的磁盘,所述分析模块在磁盘中依次读取文件块;
与分析模块连接的服务器,所述服务器用于接收分析模块上传的分析结果。
5.根据权利要求4所述的超大数据包文件完整会话处理系统,其特征在于,所述数据拆分模块读取数据包文件且分析模块的内存上限为m,记数据包文件的大小为k,则数据包文件拆分为n份,且n=k/m。
6.根据权利要求4所述的超大数据包文件完整会话处理系统,其特征在于,所述数据拆分模块计算该数据包文件中各个会话数据包按照ip四元组的hash值,通过hash值对n求模并由求模的值将所有的会话数据包分成n份文件块。
7.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机指令,所述计算机指令被处理器执行时,具体执行如权利要求1-3任一项所述的超大数据包文件完整会话处理方法中的步骤。
CN202011609497.9A 2020-12-30 2020-12-30 超大数据包文件完整会话处理方法、系统及可读存储介质 Pending CN112685368A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011609497.9A CN112685368A (zh) 2020-12-30 2020-12-30 超大数据包文件完整会话处理方法、系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011609497.9A CN112685368A (zh) 2020-12-30 2020-12-30 超大数据包文件完整会话处理方法、系统及可读存储介质

Publications (1)

Publication Number Publication Date
CN112685368A true CN112685368A (zh) 2021-04-20

Family

ID=75455072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011609497.9A Pending CN112685368A (zh) 2020-12-30 2020-12-30 超大数据包文件完整会话处理方法、系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN112685368A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023109302A1 (zh) * 2021-12-15 2023-06-22 中兴通讯股份有限公司 数据处理方法及其装置、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法
CN101286976A (zh) * 2008-05-08 2008-10-15 蒋一 一种基于数据拆分技术实现p2p流媒体系统的方法
CN101707623A (zh) * 2009-11-11 2010-05-12 中兴通讯股份有限公司 一种小内存系统中的文件发送方法及装置
CN102761517A (zh) * 2011-04-25 2012-10-31 工业和信息化部电信传输研究所 一种高速网络的内容还原方法
CN105704091A (zh) * 2014-11-25 2016-06-22 中国科学院声学研究所 一种基于ssh协议的会话解析方法及系统
US20170366493A1 (en) * 2016-06-16 2017-12-21 Microsoft Technology Licensing, Llc Smart chunking logic for chat persistence
CN110661683A (zh) * 2019-09-26 2020-01-07 苏州浪潮智能科技有限公司 一种基于pcap格式的文件分析UDP协议的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法
CN101286976A (zh) * 2008-05-08 2008-10-15 蒋一 一种基于数据拆分技术实现p2p流媒体系统的方法
CN101707623A (zh) * 2009-11-11 2010-05-12 中兴通讯股份有限公司 一种小内存系统中的文件发送方法及装置
CN102761517A (zh) * 2011-04-25 2012-10-31 工业和信息化部电信传输研究所 一种高速网络的内容还原方法
CN105704091A (zh) * 2014-11-25 2016-06-22 中国科学院声学研究所 一种基于ssh协议的会话解析方法及系统
US20170366493A1 (en) * 2016-06-16 2017-12-21 Microsoft Technology Licensing, Llc Smart chunking logic for chat persistence
CN110661683A (zh) * 2019-09-26 2020-01-07 苏州浪潮智能科技有限公司 一种基于pcap格式的文件分析UDP协议的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张宁等: "移动多媒体广播中的FLUTE协议及其客户端实现", 《电视技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023109302A1 (zh) * 2021-12-15 2023-06-22 中兴通讯股份有限公司 数据处理方法及其装置、存储介质

Similar Documents

Publication Publication Date Title
CN110324198B (zh) 丢包处理方法和丢包处理装置
US20070291757A1 (en) Data Storage and Processing Systems
CN112988679B (zh) 日志采集控制方法、装置、存储介质及服务器
CN112685368A (zh) 超大数据包文件完整会话处理方法、系统及可读存储介质
WO2018036244A1 (zh) 一种数据分析方法和装置、设备、存储介质
CN110647460A (zh) 一种测试资源管理方法、装置和测试客户端
WO2021134418A1 (zh) 一种数据校验方法及装置
CN111324576B (zh) 一种录音数据保存的方法、装置、存储介质及终端设备
CN110602229A (zh) 基于动态切片的终端系统版本下载方法、装置及系统
CN111352810A (zh) 基于多进程的性能监控方法及装置、计算设备
WO2022151989A1 (zh) 一种数据io的处理方法、装置、存储介质及设备
CN113746883A (zh) 链路跟踪方法及系统
CN114124727B (zh) 一种网管通信压力测试方法及系统
CN114780215A (zh) 一种任务调度方法、装置、设备及存储介质
CN114595146A (zh) Ab测试方法、装置、系统、电子设备及介质
CN114915656A (zh) 一种车联网终端接入方法、装置、存储介质及电子设备
CN117176839B (zh) 遥测报文传输方法、装置、通信设备及存储介质
CN115086188B (zh) 一种图形运维回放方法、装置及电子设备
CN115223273B (zh) Tcu数据监控方法、装置、终端设备及存储介质
CN113596813B (zh) 一种流量分流方法、装置、电子设备及存储介质
CN112818055B (zh) 区块链的性能优化方法、装置及设备
CN113315809B (zh) 一种医疗设备的高速数据传输延迟容忍方法及系统
CN114116291B (zh) 日志检测方法、日志检测装置、计算机设备及存储介质
CN109656899B (zh) 非结构化数据存储方法、装置、设备和计算机可读存储介质
CN108304214B (zh) 一种立即数的完整性的校验方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 610041 12th, 13th and 14th floors, unit 1, building 4, No. 966, north section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan

Applicant after: Kelai Network Technology Co.,Ltd.

Address before: 41401-41406, 14th floor, unit 1, building 4, No. 966, north section of Tianfu Avenue, Chengdu hi tech Zone, Chengdu Free Trade Zone, Sichuan 610041

Applicant before: Chengdu Kelai Network Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20210420

RJ01 Rejection of invention patent application after publication