CN113377764B

CN113377764B - 一种pcap数据包高速索引方法及系统

Info

Publication number: CN113377764B
Application number: CN202110496025.5A
Authority: CN
Inventors: 弓睿智; 李林
Original assignee: Beijing Ruifuxin Technology Co ltd
Current assignee: Beijing Ruifuxin Technology Co ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2024-04-12
Anticipated expiration: 2041-05-07
Also published as: CN113377764A

Abstract

本发明实施例涉及数据包索引技术领域，公开了一种PCAP数据包高速索引方法及系统，该方法包括：遍历历史数据包及历史索引数据得到数据包结构表及索引结构表；基于数据包结构表建立若干分布式底层数据库；基于索引结构表建立索引分发规则；结合若干分布式底层数据库及索引分发规则建立缓存数据池；通过索引分发规则在缓存数据池中获取对应于查询需求的数据。本发明实施例中，PCAP数据包依据数据类型进行分布式存储并设定数据权重，在接收到查询需求时，根据查询需求的数据类型及查询权重，从分布式底层数据库中将对应数据取出至缓存数据池，通过索引分发规则进行高效索引，并分配适配的缓存带宽，避免索引效率受数据量影响而产生下降。

Description

一种PCAP数据包高速索引方法及系统

技术领域

本发明涉及数据包索引技术领域，尤其涉及一种PCAP数据包高速索引方法及系统。

背景技术

pcap是一种常用的数据包存储格式，其广泛应用于流量分析、安全监测、数据统计等领域。通过wireshark等抓包工具即可便捷地将抓取到的网络数据转化为pcap数据包，并将pcap数据包存储于本地，在建立索引后，即可对pcap数据包进行读取并应用到分析统计等场景中。

而在实际应用中，从pcap数据包中读取网络数据时，需要先将部分或完整的pcap数据包缓存至内存，再基于索引进行逐条匹配，直至读取到所需读取的网络数据，这一索引方式的效率低下，且随着数据存取流量的增大，索引效率将越来越低。

发明内容

本发明实施例公开一种PCAP数据包高速索引方法及系统，PCAP数据包依据数据类型进行分布式存储，并基于查询频率设定数据权重，在接收到查询需求时，将根据查询需求所对应的数据类型及查询权重，从分布式底层数据库中将对应数据取出至缓存数据池中，通过索引分发规则进行高效索引，并分配适配的缓存带宽，避免索引效率受数据量影响而产生下降。

本发明实施例第一方面公开一种PCAP数据包高速索引方法，所述方法包括：

遍历历史数据包及历史索引数据，得到数据包结构表及索引结构表；

基于所述数据包结构表建立若干分布式底层数据库；

基于所述索引结构表建立索引分发规则；

结合所述若干分布式底层数据库及所述索引分发规则建立缓存数据池；

通过所述索引分发规则在所述缓存数据池中获取对应于查询需求的数据。

优选的，所述遍历历史数据包及历史索引数据，得到数据包结构表及索引结构表，包括：

依据数据类型对所述历史数据包进行一次遍历，得到以数据类型为准的一级遍历结构；

依据数据长度及数据存储体积对所述一级遍历结构进行二次遍历，得到二级遍历结构；

依据数据查询频率对所述二级遍历结构进行三次遍历，得到三级遍历结构；

整合所述一级遍历结构、所述二级遍历结构及所述三级遍历结构，得到所述数据包结构表；

以及，依据历史查询频率对所述历史索引数据进行一次遍历，得到一级索引结构；

依据数据类型对所述一级索引结构进行二次遍历，得到二级索引结构；

整合所述一级索引结构及所述二级索引结构，得到所述索引结构表。

优选的，所述基于所述数据包结构表建立若干分布式底层数据库，包括：

基于所述一级遍历结构对所述历史数据包进行拆分，得到按照数据类型进行分类的若干子历史数据包；

基于所述二级遍历结构，将所述若干子历史数据包分别存储于若干分布式底层数据库中；

基于所述三级遍历结构，为所述若干分布式底层数据库中的数据设定数据权重。

优选的，所述基于所述索引结构表建立索引分发规则，包括：

基于所述一级索引结构设定查询权重，其中，查询权重的数值与查询频率正相关；

基于所述二级索引结构设置与所述查询需求的数据类型相对应的查询信道；

综合所述查询权重及查询信道作为衡量所述查询需求的索引分发规则。

优选的，所述结合所述若干分布式底层数据库及所述索引分发规则建立缓存数据池，包括：

构建缓存数据池，基于所述数据权重及所述查询权重为每一所述分布式底层数据库分配缓存带宽；

对所述数据权重与所述查询权重构建寻址映射关系；

采用所述寻址映射关系适配所述缓存数据池。

本发明实施例第二方面公开一种PCAP数据包高速索引系统，所述PCAP数据包高速索引系统包括：

遍历单元，用于遍历历史数据包及历史索引数据，得到数据包结构表及索引结构表；

数据库建立单元，用于基于所述数据包结构表建立若干分布式底层数据库；

规则建立单元，用于基于所述索引结构表建立索引分发规则；

缓存建立单元，用于结合所述若干分布式底层数据库及所述索引分发规则建立缓存数据池；

索引查询单元，用于通过所述索引分发规则在所述缓存数据池中获取对应于查询需求的数据。

优选的，其特征在于，所述遍历单元包括：

一级遍历子单元，用于依据数据类型对所述历史数据包进行一次遍历，得到以数据类型为准的一级遍历结构；

二级遍历子单元，用于依据数据长度及数据存储体积对所述一级遍历结构进行二次遍历，得到二级遍历结构；

三级遍历子单元，用于依据数据查询频率对所述二级遍历结构进行三次遍历，得到三级遍历结构；

结构整合子单元，用于整合所述一级遍历结构、所述二级遍历结构及所述三级遍历结构，得到所述数据包结构表；

一级索引子单元，用于依据历史查询频率对所述历史索引数据进行一次遍历，得到一级索引结构；

二级索引子单元，用于依据数据类型对所述一级索引结构进行二次遍历，得到二级索引结构；

索引整合子单元，用于整合所述一级索引结构及所述二级索引结构，得到所述索引结构表。

优选的，其特征在于，所述数据库建立单元包括：

第一分类子单元，用于基于所述一级遍历结构对所述历史数据包进行拆分，得到按照数据类型进行分类的若干子历史数据包；

分布存储子单元，用于基于所述二级遍历结构，将所述若干子历史数据包分别存储于若干分布式底层数据库中；

数据权重子单元，用于基于所述三级遍历结构，为所述若干分布式底层数据库中的数据设定数据权重。

优选的，其特征在于，所述规则建立单元包括：

查询权重子单元，用于基于所述一级索引结构设定查询权重，其中，查询权重的数值与查询频率正相关；

信道设置子单元，用于基于所述二级索引结构设置与所述查询需求的数据类型相对应的查询信道；

规则建立子单元，用于综合所述查询权重及查询信道作为衡量所述查询需求的索引分发规则。

优选的，所述缓存建立单元包括：

缓存建立子单元，用于构建缓存数据池，基于所述数据权重及所述查询权重为每一所述分布式底层数据库分配缓存带宽；

寻址映射子单元，用于对所述数据权重与所述查询权重构建寻址映射关系；

适配子单元，用于采用所述寻址映射关系适配所述缓存数据池。

本发明实施例第三方面公开一种PCAP数据包高速索引系统，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的一种PCAP数据包高速索引方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种PCAP数据包高速索引方法。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，PCAP数据包依据数据类型进行分布式存储，并基于查询频率设定数据权重，在接收到查询需求时，将根据查询需求所对应的数据类型及查询权重，从分布式底层数据库中将对应数据取出至缓存数据池中，通过索引分发规则进行高效索引，并分配适配的缓存带宽，避免索引效率受数据量影响而产生下降。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种PCAP数据包高速索引方法的流程示意图；

图2是本发明实施例公开的一种PCAP数据包高速索引系统的结构示意图；

图3是本发明实施例公开的另一种PCAP数据包高速索引系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种PCAP数据包高速索引方法及系统，PCAP数据包依据数据类型进行分布式存储，并基于查询频率设定数据权重，在接收到查询需求时，将根据查询需求所对应的数据类型及查询权重，从分布式底层数据库中将对应数据取出至缓存数据池中，通过索引分发规则进行高效索引，并分配适配的缓存带宽，避免索引效率受数据量影响而产生下降。

实施例一

请参阅图1，图1是本发明实施例公开的一种PCAP数据包高速索引方法的流程示意图。如图1所示，该PCAP数据包高速索引方法可以包括以下步骤。

101、遍历历史数据包及历史索引数据，得到数据包结构表及索引结构表。

本发明实施例中，以长期监测分析作业所抓取积累的PCAP格式的历史数据包，以及处理过程中对历史数据包所执行的历史索引数据为基础数据进行分析。

作为一种可选的实施方式，依据数据类型对历史数据包进行一次遍历，得到以数据类型为准的一级遍历结构；依据数据长度及数据存储体积对所述一级遍历结构进行二次遍历，得到二级遍历结构；依据数据查询频率对二级遍历结构进行三次遍历，得到三级遍历结构；整合一级遍历结构、二级遍历结构及三级遍历结构，得到数据包结构表；

以及，依据历史查询频率对历史索引数据进行一次遍历，得到一级索引结构；依据数据类型对一级索引结构进行二次遍历，得到二级索引结构；整合一级索引结构及二级索引结构，得到索引结构表。

具体地，依据数据包的数据类型进行分类，并依据数据长度与数据存储体积进行存储于传输优化，再依据数据查询频率对存储过程进行调整，得到结构清晰的多层次的数据包结构表。此外，还可根据实际需求，引入更多的数据包特征，构造更多层次的数据包结构表。

进而，依据历史查询频率与数据类型分别进行遍历，获知各数据类型对应的查询频率，构造出索引结构表。

其中，数据包结构表与索引结构表可清楚地对历史数据包及历史索引数据的特征进行提取展示。

102、基于数据包结构表建立若干分布式底层数据库。

本发明实施例中，基于步骤101的遍历结果对数据包结构表进行分布式存储。

作为一种可选的实施方式，基于一级遍历结构对历史数据包进行拆分，得到按照数据类型进行分类的若干子历史数据包；基于二级遍历结构，将若干子历史数据包分别存储于若干分布式底层数据库中；基于三级遍历结构，为若干分布式底层数据库中的数据设定数据权重。具体地，对不同数据类型的子历史数据包进行分类，并分别存储于不同的分布式底层数据库中，再根据查询频率对数据包的数据赋予数据权重，查询频率搞的数据其数据权重相对更高，从而在有相关查询需求时，优先缓存对应数据类型中数据权重高的数据，提高读取效率与查询效率。

103、基于所述索引结构表建立索引分发规则。

本发明实施例中，根据历史索引数据分析得到的索引结构表，建立高效查询的索引分发规则。

作为一种可选的实施方式，基于一级索引结构设定查询权重，其中，查询权重的数值与查询频率正相关；基于二级索引结构设置与查询需求的数据类型相对应的查询信道；综合查询权重及查询信道作为衡量查询需求的索引分发规则。具体地，基于查询频率设定查询权重，用于衡量查询需求的优先级；进而为不同数据类型分配对应的查询信道，通过为大流量数据分配更高的查询信道，有效避免索引查询效率的波动；据此以查询权重与查询信道昨晚索引分发规则，实现不同查询需求基于其查询优先级及数据流量需求，由不同的查询信道分别负责处理，避免了数据存取流量过大时，索引效率随流量的增大而降低的问题。

104、结合若干分布式底层数据库及索引分发规则建立缓存数据池。

本发明实施例中，建立缓存数据池以加快索引效率。

作为一种可选的实施方式，构建缓存数据池，基于数据权重及查询权重为每一分布式底层数据库分配缓存带宽；对数据权重与查询权重构建寻址映射关系；采用寻址映射关系适配缓存数据池。具体地，各分布式底层数据库与缓存数据池的缓存带宽，基于每一分布式底层数据库的数据权重与查询权重进行确定，确保大数据量得到高带宽的适配，避免产生索引堵塞，并基于寻址映射关系进行索引适配，进一步提高了索引效率。

105、通过索引分发规则在缓存数据池中获取对应于查询需求的数据。

综上，PCAP数据包依据数据类型进行分布式存储，并基于查询频率设定数据权重，在接收到查询需求时，将根据查询需求所对应的数据类型及查询权重，从分布式底层数据库中将对应数据取出至缓存数据池中，通过索引分发规则进行高效索引，并分配适配的缓存带宽，避免索引效率受数据量影响而产生下降。

实施例二

请参阅图2，图2本发明实施例公开的一种PCAP数据包高速索引系统的结构示意图。如图2所示，该PCAP数据包高速索引系统可以包括：

遍历单元201，用于遍历历史数据包及历史索引数据，得到数据包结构表及索引结构表；

数据库建立单元202，用于基于所述数据包结构表建立若干分布式底层数据库；

规则建立单元203，用于基于所述索引结构表建立索引分发规则；

缓存建立单元204，用于结合所述若干分布式底层数据库及所述索引分发规则建立缓存数据池；

索引查询单元205，用于通过所述索引分发规则在所述缓存数据池中获取对应于查询需求的数据。

其中，遍历单元201包括：

一级遍历子单元2011，用于依据数据类型对所述历史数据包进行一次遍历，得到以数据类型为准的一级遍历结构；

二级遍历子单元2012，用于依据数据长度及数据存储体积对所述一级遍历结构进行二次遍历，得到二级遍历结构；

三级遍历子单元2013，用于依据数据查询频率对所述二级遍历结构进行三次遍历，得到三级遍历结构；

结构整合子单元2014，用于整合所述一级遍历结构、所述二级遍历结构及所述三级遍历结构，得到所述数据包结构表；

一级索引子单元2015，用于依据历史查询频率对所述历史索引数据进行一次遍历，得到一级索引结构；

二级索引子单元2016，用于依据数据类型对所述一级索引结构进行二次遍历，得到二级索引结构；

索引整合子单元2017，用于整合所述一级索引结构及所述二级索引结构，得到所述索引结构表。

其中，数据库建立单元202包括：

第一分类子单元2021，用于基于所述一级遍历结构对所述历史数据包进行拆分，得到按照数据类型进行分类的若干子历史数据包；

分布存储子单元2022，用于基于所述二级遍历结构，将所述若干子历史数据包分别存储于若干分布式底层数据库中；

数据权重子单元2023，用于基于所述三级遍历结构，为所述若干分布式底层数据库中的数据设定数据权重。

其中，规则建立单元203包括：

查询权重子单元2031，用于基于所述一级索引结构设定查询权重，其中，查询权重的数值与查询频率正相关；

信道设置子单元2032，用于基于所述二级索引结构设置与所述查询需求的数据类型相对应的查询信道；

规则建立子单元2033，用于综合所述查询权重及查询信道作为衡量所述查询需求的索引分发规则。

其中，缓存建立单元204包括：

缓存建立子单元2041，用于构建缓存数据池，基于所述数据权重及所述查询权重为每一所述分布式底层数据库分配缓存带宽；

寻址映射子单元2042，用于对所述数据权重与所述查询权重构建寻址映射关系；

适配子单元2043，用于采用所述寻址映射关系适配所述缓存数据池

作为一种可选的实施方式，一级遍历子单元2011依据数据类型对历史数据包进行一次遍历，得到以数据类型为准的一级遍历结构；二级遍历子单元2012依据数据长度及数据存储体积对所述一级遍历结构进行二次遍历，得到二级遍历结构；三级遍历子单元2013依据数据查询频率对二级遍历结构进行三次遍历，得到三级遍历结构；结构整合子单元2014整合一级遍历结构、二级遍历结构及三级遍历结构，得到数据包结构表；

以及，一级索引子单元2015依据历史查询频率对历史索引数据进行一次遍历，得到一级索引结构；二级索引子单元2016依据数据类型对一级索引结构进行二次遍历，得到二级索引结构；索引整合子单元2017整合一级索引结构及二级索引结构，得到索引结构表。

作为一种可选的实施方式，第一分类子单元2021基于一级遍历结构对历史数据包进行拆分，得到按照数据类型进行分类的若干子历史数据包；分布存储子单元2022基于二级遍历结构，将若干子历史数据包分别存储于若干分布式底层数据库中；数据权重子单元2023基于三级遍历结构，为若干分布式底层数据库中的数据设定数据权重。具体地，对不同数据类型的子历史数据包进行分类，并分别存储于不同的分布式底层数据库中，再根据查询频率对数据包的数据赋予数据权重，查询频率搞的数据其数据权重相对更高，从而在有相关查询需求时，优先缓存对应数据类型中数据权重高的数据，提高读取效率与查询效率。

作为一种可选的实施方式，查询权重子单元2031基于一级索引结构设定查询权重，其中，查询权重的数值与查询频率正相关；信道设置子单元2032基于二级索引结构设置与查询需求的数据类型相对应的查询信道；规则建立子单元2033综合查询权重及查询信道作为衡量查询需求的索引分发规则。具体地，基于查询频率设定查询权重，用于衡量查询需求的优先级；进而为不同数据类型分配对应的查询信道，通过为大流量数据分配更高的查询信道，有效避免索引查询效率的波动；据此以查询权重与查询信道昨晚索引分发规则，实现不同查询需求基于其查询优先级及数据流量需求，由不同的查询信道分别负责处理，避免了数据存取流量过大时，索引效率随流量的增大而降低的问题。

作为一种可选的实施方式，缓存建立子单元2041构建缓存数据池，基于数据权重及查询权重为每一分布式底层数据库分配缓存带宽；寻址映射子单元2042对数据权重与查询权重构建寻址映射关系；适配子单元2043采用寻址映射关系适配缓存数据池。具体地，各分布式底层数据库与缓存数据池的缓存带宽，基于每一分布式底层数据库的数据权重与查询权重进行确定，确保大数据量得到高带宽的适配，避免产生索引堵塞，并基于寻址映射关系进行索引适配，进一步提高了索引效率。

实施例三

请参阅图3，图3是本发明实施例公开的另一种PCAP数据包高速索引系统的结构示意图。如图3所示，该PCAP数据包高速索引系统可以包括：

存储有可执行程序代码的存储器301；

与存储器301耦合的处理器302；

其中，处理器302调用存储器301中存储的可执行程序代码，执行图1的一种PCAP数据包高速索引方法。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行图1的一种PCAP数据包高速索引方法。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种PCAP数据包高速索引方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种PCAP数据包高速索引方法，其特征在于，所述方法包括：

遍历历史数据包及历史索引数据，得到数据包结构表及索引结构表，具体包括：

a、依据数据类型对所述历史数据包进行一次遍历，得到以数据类型为准的一级遍历结构；

b、依据数据长度及数据存储体积对所述一级遍历结构进行二次遍历，得到二级遍历结构；

c、依据数据查询频率对所述二级遍历结构进行三次遍历，得到三级遍历结构；

d、整合所述一级遍历结构、所述二级遍历结构及所述三级遍历结构，得到所述数据包结构表；

e、依据历史查询频率对所述历史索引数据进行一次遍历，得到一级索引结构；

f、依据数据类型对所述一级索引结构进行二次遍历，得到二级索引结构；

g、整合所述一级索引结构及所述二级索引结构，得到所述索引结构表；

进而，基于所述数据包结构表建立若干分布式底层数据库；

基于所述索引结构表建立索引分发规则；

2.根据权利要求1所述的方法，其特征在于，所述基于所述数据包结构表建立若干分布式底层数据库，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述索引结构表建立索引分发规则，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述结合所述若干分布式底层数据库及所述索引分发规则建立缓存数据池，包括：

对所述数据权重与所述查询权重构建寻址映射关系；

采用所述寻址映射关系适配所述缓存数据池。

5.一种PCAP数据包高速索引系统，其特征在于，所述系统包括：

其中，所述遍历单元具体包括：

索引整合子单元，用于整合所述一级索引结构及所述二级索引结构，得到所述索引结构表；

6.根据权利要求5所述的系统，其特征在于，所述数据库建立单元包括：

7.根据权利要求5所述的系统，其特征在于，所述规则建立单元包括：

8.根据权利要求6或7所述的系统，其特征在于，所述缓存建立单元包括：