CN116599865B - 分布式流量去重统计方法、装置、设备及存储介质 - Google Patents
分布式流量去重统计方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116599865B CN116599865B CN202310559870.1A CN202310559870A CN116599865B CN 116599865 B CN116599865 B CN 116599865B CN 202310559870 A CN202310559870 A CN 202310559870A CN 116599865 B CN116599865 B CN 116599865B
- Authority
- CN
- China
- Prior art keywords
- target
- flow
- address
- data
- time period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007619 statistical method Methods 0.000 title claims abstract description 24
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 57
- 235000019580 granularity Nutrition 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000002776 aggregation Effects 0.000 claims description 58
- 238000004220 aggregation Methods 0.000 claims description 58
- 238000004891 communication Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 6
- 230000003252 repetitive effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/026—Capturing of monitoring data using flow identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/067—Generation of reports using time frame reporting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/12—Network monitoring probes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开实施例公开了一种分布式流量去重统计方法、装置、设备及存储介质。其中,该方法包括:获取若干个目标子节点基于分布式方式采集的目标流量数据;将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。该方法能够提高分布式采集环境的流量去重统计的效率,降低计算资源的消耗,以及提高流量统计的准确性和流量查询性能。
Description
技术领域
本公开涉及网络通信技术领域,尤其涉及一种分布式流量去重统计方法、装置、设备及存储介质。
背景技术
随着云计算技术发展和应用,网络流量统计可以广泛应用于网络管理规划、网络用户行为分析、基于网络流量的入侵检测等丰富的场景。网络流量采集系统通常采用分布式部署方式,从各个采集节点分别采集部分流量,再将所有流量融合分析。当一个网络数据包或网络会话途径两个及以上的采集节点时,这些流量会被重复采集,影响了流量统计的准确性。
目前相关技术的分布式采集环境的流量去重统计方法通常采用基于数据指纹摘要的流量去重方法,相关技术的流量去重统计方法需要消耗大量计算资源,占用较大网络带宽,去重统计的效率较低且要求较高的实时性,流量统计准确性较低,流量查询性能不足。
发明内容
有鉴于此,本公开实施例提供了一种分布式流量去重统计方法、装置、设备及存储介质,能够提高分布式采集环境的流量去重统计的效率,降低计算资源的消耗,以及提高流量统计的准确性和流量查询性能。
第一方面,本公开实施例提供了一种分布式流量去重统计方法,采用如下技术方案:
获取若干个目标子节点基于分布式方式采集的目标流量数据;
将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;
基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;
采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。
在一些实施例中,将元数据写入所述目标流量数据,包括:
获取所述目标子节点采集到所述目标流量数据的若干个采集时间;
根据预设的固定时间间隔和起始时间点,将连续的所述若干个采集时间划分成若干个连续且无重叠的时间片段得到采集时间段;
获取所述目标子节点部署位置的设备IP地址得到所述目标子节点的IP地址;
根据预设IP地址和预设归属区域的映射关系表,获取所述目标子节点的IP地址所属的归属区域;
将采集时间、采集时间段、所述目标子节点的IP地址、所述目标子节点的IP地址所属的归属区域中的至少之一写入所述目标流量数据。
在一些实施例中,基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果,包括:
获取所述目标流量数据的总字节数和总会话数;
基于所述目标流量数据的源IP地址和目的IP地址对所述总字节数和总会话数进行细粒度统计;或者,
基于所述目标流量数据的源IP地址和目的IP地址所属的归属区域对所述总字节数和总会话数进行中粒度统计;或者,
基于所述目标流量数据的源IP地址对所述总字节数和总会话数进行粗粒度统计得到相应的流量统计结果。
在一些实施例中,所述方法还包括:
将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址和目的IP地址作为分组聚合字段,对所述总字节数和总会话数进行细粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址之间的全部通信流量的字节数和会话数;或者,
将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址、所述目的IP地址所属的归属区域作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址所属的归属区域之间的全部通信流量的字节数和会话数;或者,
将所述目标子节点的IP地址、采集时间段和所述目标流量数据的源IP地址作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的全部通信流量的字节数和会话数。
在一些实施例中,采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据,包括:
对所述目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据;
基于所述聚合处理数据,对每一个采集时间段内的每一组非并行采集的流量数据计算最大值,获取所述目标子节点的采集时间段内不重复流量的字节数和会话数;
基于目标统计的目标采集时间段、目标IP地址范围、目标IP地址所属的归属区域,对每个目标子节点的采集时间段内的所述不重复流量的字节数和会话数进行求和汇总,得到去重流量的总字节数和总会话数。
在一些实施例中,对所述目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据,包括:
基于流量并行设备关系清单和所述目标子节点的IP地址,将所述流量并行设备关系清单中的流量并行设备组名称关联至所述目标流量数据;
将第一关键字段作为分组聚合字段,对源IP地址的并行采集流量的字节数和会话数进行聚合处理,得到聚合处理数据;
其中,流量并行设备关系清单包含的数据字段至少包括:所述目标子节点的IP地址、所述流量并行设备组名称;所述第一关键字段至少包括:源IP地址、流量并行设备组名称和采集时间段。
在一些实施例中,基于所述聚合处理数据,对每一个采集时间段内的每一组非并行采集的流量数据计算最大值,获取所述目标子节点的采集时间段内不重复流量的字节数和会话数,包括:
基于所述聚合处理数据,将第二关键字段作为分组聚合字段,对具有不同的流量并行设备组名称的所述目标子节点的采集流量的字节数和会话数计算最大值,获取所述目标子节点在采集时间段内不重复流量的字节数和会话数;
基于目标统计的目标采集时间段、目标IP地址范围、目标IP地址所属的归属区域,对所述目标子节点的采集时间段内的所述去重流量的字节数和会话数进行求和汇总,得到去重流量的总字节数和总会话数。
第二方面,本公开实施例还提供了一种分布式流量去重统计装置,采用如下技术方案:
获取单元,被配置为获取若干个目标子节点基于分布式方式采集的目标流量数据;
元数据写入单元,被配置为将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;
统计单元,被配置为基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;
去重单元,被配置为采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据。
第三方面,本公开实施例还提供了一种电子设备,采用如下技术方案:
所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上任一所述的分布式流量去重统计方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行以上任一所述的分布式流量去重统计方法。
本公开实施例提供的一种分布式流量去重统计方法,不需要对每条流量数据进行复杂的摘要计算,也不需要对网络流量包的包头做修改,在分布式采集环境充分利用各个子节点的计算能力,提高了分布式采集环境的流量去重统计的效率,降低计算资源的消耗,以及提高流量统计的准确性和流量查询性能。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的一种分布式流量去重统计方法的流程示意图;
图2为本公开实施例提供的另一种分布式流量去重统计方法的流程示意图;
图3为本公开实施例提供的并行节点的流量进行聚合示意图;
图4为本公开实施例提供的一种分布式流量去重统计装置的结构示意图;
图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
应当明确,以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目各方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
如图1所示,图1为本公开实施例提供的一种分布式流量去重统计方法的流程示意图,本公开实施例提供的一种分布式流量去重统计方法,包括以下步骤:
S101、获取若干个目标子节点基于分布式方式采集的目标流量数据。
S102、将元数据写入目标流量数据,其中,元数据用于指示目标流量数据的采集信息。
S103、基于预设的字节数维度、会话维度和若干种粒度对目标流量数据进行分时间段统计,得到流量统计结果。
S104、采用预设流量去重策略对流量统计结果进行去重统计处理,得到去重流量数据。
本公开实施例提供的一种分布式流量去重统计方法,不需要对每条流量数据进行复杂的摘要计算,也不需要对网络流量包的包头做修改,在分布式采集环境充分利用各个子节点的计算能力,提高了分布式采集环境的流量去重统计的效率,降低计算资源的消耗,以及提高流量统计的准确性和流量查询性能。
在一些实施例中,将元数据写入目标流量数据,包括:
获取目标子节点采集到目标流量数据的若干个采集时间;
根据预设的固定时间间隔和起始时间点,将连续的若干个采集时间划分成若干个连续且无重叠的时间片段得到采集时间段;
获取目标子节点部署位置的设备IP地址得到目标子节点的IP地址;
根据预设IP地址和预设归属区域的映射关系表,获取目标子节点的IP地址所属的归属区域;
将采集时间、采集时间段、目标子节点的IP地址、目标子节点的IP地址所属的归属区域中的至少之一写入目标流量数据。
在一些实施例中,基于预设的字节数维度、会话维度和若干种粒度对目标流量数据进行分时间段统计,得到流量统计结果,包括:
获取目标流量数据的总字节数和总会话数;
基于目标流量数据的源IP地址和目的IP地址对总字节数和总会话数进行细粒度统计;或者,
基于目标流量数据的源IP地址和目的IP地址所属的归属区域对总字节数和总会话数进行中粒度统计;或者,
基于目标流量数据的源IP地址对总字节数和总会话数进行粗粒度统计得到相应的流量统计结果。
本公开实施例基于若干种粒度对目标流量数据进行分时间段统计,若干种粒度包含源IP地址-目的IP地址粒度、源IP地址-目的IP地址所属的归属区域粒度、源IP地址粒度等。
具体的举例上述三种粒度的统计场景:
场景一基于源IP地址-目的IP地址的细粒度统计,将目标子节点的IP地址、采集时间段、目标流量数据的源IP地址和目的IP地址作为分组聚合字段,对总字节数和总会话数进行细粒度统计的求和处理,得到目标子节点在采集时间段内采集到的源IP地址和目的IP地址之间的全部通信流量的字节数和会话数。
场景二基于源IP地址-目的IP地址所属的归属区域的中等粒度的统计,将目标子节点的IP地址、采集时间段、目标流量数据的源IP地址、目的IP地址所属的归属区域作为分组聚合字段,对总字节数和总会话数进行中粒度统计的求和处理,得到目标子节点在采集时间段内采集到的源IP地址和目的IP地址所属的归属区域之间的全部通信流量的字节数和会话数。
场景三基于源IP地址的粗粒度的统计,将目标子节点的IP地址、采集时间段和目标流量数据的源IP地址作为分组聚合字段,对总字节数和总会话数进行中粒度统计的求和处理,得到目标子节点在采集时间段内采集到的全部通信流量的字节数和会话数。
在一些实施例中,采用预设流量去重策略对流量统计结果进行去重统计处理,得到去重流量数据,包括:
对目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据;
基于聚合处理数据,对每一个采集时间段内的每一组非并行采集的流量数据计算最大值,获取目标子节点的采集时间段内不重复流量的字节数和会话数;
基于目标统计的目标采集时间段、目标IP地址范围、目标IP地址所属的归属区域,对每个目标子节点的采集时间段内的不重复流量的字节数和会话数进行求和汇总,得到去重流量的总字节数和总会话数。
在一些实施例中,对目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据,包括:
基于流量并行设备关系清单和目标子节点的IP地址,将流量并行设备关系清单中的流量并行设备组名称关联至目标流量数据;
将第一关键字段作为分组聚合字段,对源IP地址的并行采集流量的字节数和会话数进行聚合处理,得到聚合处理数据;
其中,流量并行设备关系清单包含的数据字段至少包括:目标子节点的IP地址、流量并行设备组名称;第一关键字段至少包括:源IP地址、流量并行设备组名称和采集时间段。
在一些实施例中,基于聚合处理数据,对每一个采集时间段内的每一组非并行采集的流量数据计算最大值,获取目标子节点的采集时间段内不重复流量的字节数和会话数,包括:
基于聚合处理数据,将第二关键字段作为分组聚合字段,对具有不同的流量并行设备组名称的目标子节点的采集流量的字节数和会话数计算最大值,获取目标子节点在采集时间段内不重复流量的字节数和会话数;
基于目标统计的目标采集时间段、目标IP地址范围、目标IP地址所属的归属区域,对目标子节点的采集时间段内的去重流量的字节数和会话数进行求和汇总,得到去重流量的总字节数和总会话数。
如图2所示,图2为本公开实施例提供的另一种分布式流量去重统计方法的流程示意图,本公开实施例基本原理是依赖分布式方式采集的流量数据,将采集时间、采集时间段、目标子节点(即采集子节点)的IP地址、目标子节点的IP地址所属的归属区域中的至少之一写入目标流量数据,根据预设的两种统计维度(字节数维度、会话维度)和多种粒度对目标子节点采集的目标流量数据进行分时间段统计得到流量统计结果,再采用并行节点流量聚合和对关键字段行分组求最大值的方法,实现流量去重统计。
如图2所示,本公开实施例主要包括:分布式流量采集、元数据写入、子节点流量统计和流量去重统计。其中,分布式流量采集主要包括:以分布式方式在网络中的多个关键节点部署、接入网络镜像流量采集器(即流量采集子节点,可以理解为本公开实施例中的目标子节点),网络镜像流量采集器具有流量重组、解析功能,可以提取流量数据包中的链路层地址、IP地址、端口号和传输协议、数据字节数、会话数据包数量等信息。
各流量采集子节点(即目标子节点)向目标流量数据中写入元数据,元数据可以包含采集时间、采集时间段、目标子节点的IP地址、目标子节点的IP地址所属的归属区域中的至少之一。
采集时间用于表示目标子节点采集到目标流量数据时的系统时间。
采集时间段用于表示根据预设的固定时间间隔和起始时间点,将连续的若干个采集时间划分成若干个连续且无重叠的时间片段,将采集时间所归属的时间片段作为采集时间所属的采集时间段。采集时间段用于将连续的采集时间离散化,得到采集时间所属的采集时间段。可以通过Unix时间戳格式的采集时间,减去采集时间对预设的固定时间间隔取余计算的余数。采集时间段的计算公式如下:
Wi=ti-(t%d)
式中,Wi表示第i个采集时间ti所属的采集时间段;d表示预设的固定时间间隔;%符号表示取余计算。根据应用场景的需要,d可取值1秒、5秒、10秒、1分钟、1小时等。Unix时间戳指从格林威治时间1970年01月01日00时00分00秒起经过的总秒数。
目标子节点的IP地址用于表示目标子节点部署位置的设备IP地址。
目标子节点的IP地址所属的归属区域用于表示按照预先划分的预设归属区域和预设IP地址的映射关系表,将目标子节点的IP地址关联到其所属的归属区域。可以按照IP网段划分归属区域和IP地址的映射关系,也可以根据场景需求自定义划分,本公开实施例对此不做限定。
取采集节点的IP地址、采集时段、源IP字段作为分组聚合(groupby)字段,对总字节数和会话数做求和处理。得到的每行数据表示当前子节点在当前采集时段内采集到的所有通信流量字节数和会话数。
本公开实施例的流量去重统计主要是对目标子节点的流量统计结果(基于预设的字节数维度、会话维度和若干种粒度对目标流量数据进行分时间段统计,得到的流量统计结果)进行去重统计,得到去重复后的流量数据。具体去重统计方法的步骤为:(1)对采集时间段内的并行节点的流量进行聚合;(2)对采集时间段内的流量进行分组求最大值;(3)目标统计范围的总流量统计。
图3为本公开实施例提供的并行节点的流量进行聚合示意图,对采集时间段内的并行节点的流量进行聚合包括:若两个或两个以上的网络节点属于负载均衡、主备冗余关系且不存在通路,将它们视作一组流量并行设备;当两个或两个以上的目标子节点部署、接入于同一组流量并行设备之上时,则定义这些目标子节点为同一组并行节点。同一组并行节点采集的流量不存在重复流量,需要对每一个采集时间段内的每一组并行采集的流量进行聚合处理,得到聚合处理数据。
并行节点的流量聚合过程可以包括:基于已知的流量并行设备关系清单,以目标子节点的IP地址为标识,将流量并行设备关系清单中的流量并行设备组名称关联至目标流量数据,若目标子节点没有任何并行关系,则将目标子节点的IP赋值给“流量并行设备组名称”字段;再以第一关键字段作为分组聚合字段(groupby),对源IP地址的并行采集流量的字节数和会话数求和,得到聚合处理数据。
其中,流量并行设备关系清单可以包含以下数据字段:目标子节点的IP地址、流量并行设备组名称等;
其中,上述第一关键字段可以包括:源IP地址、流量并行设备组名称、采集时间段;根据上述步骤所选的统计粒度场景,相应地还可能包含目的IP地址,或目的IP地址所属的归属区域。
对采集时间段内的流量进行分组求最大值包括以下步骤:完成上述并行节点的流量聚合过程后,不同“流量并行设备组名称”的目标子节点采集的流量均不存在并行关系,且存在流量重复采集,本步骤分组求最大值具体实施方式为:取并行节点的流量聚合得到的聚合处理数据,再以第二关键字段作为分组聚合字段(groupby),对具有不同的流量并行设备组名称的目标子节点的采集流量的字节数和会话数计算最大值,输出目标子节点在采集时间段内不重复流量的字节数和会话数。
其中,上述第二关键字段可以包括:源IP地址、采集时间段;根据上述步骤所选的统计粒度场景,相应地还可能包含目的IP地址,或目的IP地址所属的归属区域。
目标统计范围的总流量统计:基于对采集时间段内的流量进行分组求最大值的结果数据,选取欲统计的目标采集时间段、目标IP地址范围、目标IP地址所属的归属区域,对目标子节点的采集时间段内的去重流量的字节数和会话数进行求和汇总,即可得到去重流量的总字节数、总会话数的汇总数据。
图4为本公开实施例提供的一种分布式流量去重统计装置的结构示意图,本公开实施例提供的一种分布式流量去重统计装置,包括:
获取单元41,被配置为获取若干个目标子节点基于分布式方式采集的目标流量数据;
元数据写入单元42,被配置为将元数据写入目标流量数据,其中,元数据用于指示目标流量数据的采集信息;
统计单元43,被配置为基于预设的字节数维度、会话维度和若干种粒度对目标流量数据进行分时间段统计,得到流量统计结果;
去重单元44,被配置为采用预设流量去重策略对流量统计结果进行去重统计处理,得到去重流量数据。
根据本公开实施例的电子设备包括存储器和处理器。该存储器用于存储非暂时性计算机可读指令。具体地,存储器可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
该处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制电子设备中的其它组件以执行期望的功能。在本公开的一个实施例中,该处理器用于运行该存储器中存储的该计算机可读指令,使得该电子设备执行前述的本公开各实施例的分布式流量去重统计方法全部或部分步骤。
本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本公开的保护范围之内。
如图5为本公开实施例提供的一种电子设备的结构示意图。其示出了适于用来实现本公开实施例中的电子设备的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
通常,以下装置可以连接至I/O接口:包括例如传感器或者视觉信息采集设备等的输入装置;包括例如显示屏等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备(比如边缘计算设备)进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理装置执行时,执行本公开实施例的分布式流量去重统计方法的全部或部分步骤。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
根据本公开实施例的计算机可读存储介质,其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时,执行前述的本公开各实施例的分布式流量去重统计方法的全部或部分步骤。
上述计算机可读存储介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (7)
1.一种分布式流量去重统计方法,其特征在于,包括:
获取若干个目标子节点基于分布式方式采集的目标流量数据;
将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;
基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;
采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据;
其中,将元数据写入所述目标流量数据,包括:
获取所述目标子节点采集到所述目标流量数据的若干个采集时间;
根据预设的固定时间间隔和起始时间点,将连续的所述若干个采集时间划分成若干个连续且无重叠的时间片段得到采集时间段;
获取所述目标子节点部署位置的设备IP地址得到所述目标子节点的IP地址;
根据预设IP地址和预设归属区域的映射关系表,获取所述目标子节点的IP地址所属的归属区域;
将采集时间、采集时间段、所述目标子节点的IP地址和所述目标子节点的IP地址所属的归属区域中的至少之一写入所述目标流量数据;
其中,采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据,包括:
对所述目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据;
基于所述聚合处理数据,对每一个采集时间段内的每一组非并行采集的流量数据计算最大值,获取所述目标子节点的采集时间段内不重复流量的字节数和会话数;
基于目标统计的目标采集时间段、目标IP地址范围和目标IP地址所属的归属区域,对每个目标子节点的采集时间段内的所述不重复流量的字节数和会话数进行求和汇总,得到去重流量的总字节数和总会话数;
其中,对所述目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据,包括:
基于流量并行设备关系清单和所述目标子节点的IP地址,将所述流量并行设备关系清单中的流量并行设备组名称关联至所述目标流量数据;
将第一关键字段作为分组聚合字段,对源IP地址的并行采集流量的字节数和会话数进行聚合处理,得到聚合处理数据;
其中,流量并行设备关系清单包含的数据字段至少包括:所述目标子节点的IP地址、所述流量并行设备组名称;所述第一关键字段至少包括:源IP地址、流量并行设备组名称和采集时间段。
2.根据权利要求1所述的分布式流量去重统计方法,其特征在于,基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果,包括:
获取所述目标流量数据的总字节数和总会话数;
基于所述目标流量数据的源IP地址和目的IP地址对所述总字节数和总会话数进行细粒度统计;或者,
基于所述目标流量数据的源IP地址和目的IP地址所属的归属区域对所述总字节数和总会话数进行中粒度统计;或者,
基于所述目标流量数据的源IP地址对所述总字节数和总会话数进行粗粒度统计得到相应的流量统计结果。
3.根据权利要求2所述的分布式流量去重统计方法,其特征在于,将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址和目的IP地址作为分组聚合字段,对所述总字节数和总会话数进行细粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址之间的全部通信流量的字节数和会话数;或者,
将所述目标子节点的IP地址、采集时间段、所述目标流量数据的源IP地址和所述目的IP地址所属的归属区域作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的所述源IP地址和所述目的IP地址所属的归属区域之间的全部通信流量的字节数和会话数;或者,
将所述目标子节点的IP地址、采集时间段和所述目标流量数据的源IP地址作为分组聚合字段,对所述总字节数和总会话数进行中粒度统计的求和处理,得到所述目标子节点在所述采集时间段内采集到的全部通信流量的字节数和会话数。
4.根据权利要求1所述的分布式流量去重统计方法,其特征在于,基于所述聚合处理数据,对每一个采集时间段内的每一组非并行采集的流量数据计算最大值,获取所述目标子节点的采集时间段内不重复流量的字节数和会话数,包括:
基于所述聚合处理数据,将第二关键字段作为分组聚合字段,对具有不同的流量并行设备组名称的所述目标子节点的采集流量的字节数和会话数计算最大值,获取所述目标子节点在采集时间段内不重复流量的字节数和会话数;
基于目标统计的目标采集时间段、目标IP地址范围和目标IP地址所属的归属区域,对所述目标子节点的采集时间段内的所述去重流量的字节数和会话数进行求和汇总,得到去重流量的总字节数和总会话数。
5.一种分布式流量去重统计装置,其特征在于,包括:
获取单元,被配置为获取若干个目标子节点基于分布式方式采集的目标流量数据;
元数据写入单元,被配置为将元数据写入所述目标流量数据,其中,所述元数据用于指示所述目标流量数据的采集信息;具体包括:
获取所述目标子节点采集到所述目标流量数据的若干个采集时间;
根据预设的固定时间间隔和起始时间点,将连续的所述若干个采集时间划分成若干个连续且无重叠的时间片段得到采集时间段;
获取所述目标子节点部署位置的设备IP地址得到所述目标子节点的IP地址;
根据预设IP地址和预设归属区域的映射关系表,获取所述目标子节点的IP地址所属的归属区域;
将采集时间、采集时间段、所述目标子节点的IP地址和所述目标子节点的IP地址所属的归属区域中的至少之一写入所述目标流量数据;
统计单元,被配置为基于预设的字节数维度、会话维度和若干种粒度对所述目标流量数据进行分时间段统计,得到流量统计结果;
去重单元,被配置为采用预设流量去重策略对所述流量统计结果进行去重统计处理,得到去重流量数据,包括:
对所述目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据;
基于所述聚合处理数据,对每一个采集时间段内的每一组非并行采集的流量数据计算最大值,获取所述目标子节点的采集时间段内不重复流量的字节数和会话数;
基于目标统计的目标采集时间段、目标IP地址范围和目标IP地址所属的归属区域,对每个目标子节点的采集时间段内的所述不重复流量的字节数和会话数进行求和汇总,得到去重流量的总字节数和总会话数;
其中,对所述目标子节点在每一个采集时间段内的每一组并行采集的流量数据进行聚合处理,得到聚合处理数据,包括:
基于流量并行设备关系清单和所述目标子节点的IP地址,将所述流量并行设备关系清单中的流量并行设备组名称关联至所述目标流量数据;
将第一关键字段作为分组聚合字段,对源IP地址的并行采集流量的字节数和会话数进行聚合处理,得到聚合处理数据;
其中,流量并行设备关系清单包含的数据字段至少包括:所述目标子节点的IP地址、所述流量并行设备组名称;所述第一关键字段至少包括:源IP地址、流量并行设备组名称和采集时间段。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至4任一所述的分布式流量去重统计方法。
7.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行权利要求1至4任一所述的分布式流量去重统计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310559870.1A CN116599865B (zh) | 2023-05-17 | 2023-05-17 | 分布式流量去重统计方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310559870.1A CN116599865B (zh) | 2023-05-17 | 2023-05-17 | 分布式流量去重统计方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116599865A CN116599865A (zh) | 2023-08-15 |
CN116599865B true CN116599865B (zh) | 2024-05-24 |
Family
ID=87598651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310559870.1A Active CN116599865B (zh) | 2023-05-17 | 2023-05-17 | 分布式流量去重统计方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116599865B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106452868A (zh) * | 2016-10-12 | 2017-02-22 | 中国电子科技集团公司第三十研究所 | 一种支持多维度聚合分类的网络流量统计实现方法 |
CN110519290A (zh) * | 2019-09-03 | 2019-11-29 | 南京中孚信息技术有限公司 | 异常流量检测方法、装置及电子设备 |
CN111476979A (zh) * | 2019-11-21 | 2020-07-31 | 武汉烽火众智数字技术有限责任公司 | 一种基于多模型分析的智能安保维稳方法及系统 |
CN112948460A (zh) * | 2021-02-24 | 2021-06-11 | 山石网科通信技术股份有限公司 | 网络流量数据的筛选方法及装置、计算机可读存储介质 |
CN114020734A (zh) * | 2021-11-08 | 2022-02-08 | 北京天融信网络安全技术有限公司 | 一种流量统计去重方法及装置 |
CN115085985A (zh) * | 2022-06-06 | 2022-09-20 | 西安电子科技大学 | 一种用于网络安全监测的内存高效范围基数测量方法 |
CN115604137A (zh) * | 2021-06-28 | 2023-01-13 | 深信服科技股份有限公司(Cn) | 一种流量处理方法、装置及电子设备和存储介质 |
CN115914022A (zh) * | 2022-11-22 | 2023-04-04 | 山西合力创新科技股份有限公司 | 基于网络流量的应用关系分析方法、系统、设备及介质 |
CN116016423A (zh) * | 2022-12-23 | 2023-04-25 | 赛尔网络有限公司 | IPv6地址快速标识方法、装置、设备、介质和程序产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965182B2 (en) * | 2015-10-21 | 2018-05-08 | International Business Machines Corporation | Optimization of data deduplication |
-
2023
- 2023-05-17 CN CN202310559870.1A patent/CN116599865B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106452868A (zh) * | 2016-10-12 | 2017-02-22 | 中国电子科技集团公司第三十研究所 | 一种支持多维度聚合分类的网络流量统计实现方法 |
CN110519290A (zh) * | 2019-09-03 | 2019-11-29 | 南京中孚信息技术有限公司 | 异常流量检测方法、装置及电子设备 |
CN111476979A (zh) * | 2019-11-21 | 2020-07-31 | 武汉烽火众智数字技术有限责任公司 | 一种基于多模型分析的智能安保维稳方法及系统 |
CN112948460A (zh) * | 2021-02-24 | 2021-06-11 | 山石网科通信技术股份有限公司 | 网络流量数据的筛选方法及装置、计算机可读存储介质 |
CN115604137A (zh) * | 2021-06-28 | 2023-01-13 | 深信服科技股份有限公司(Cn) | 一种流量处理方法、装置及电子设备和存储介质 |
CN114020734A (zh) * | 2021-11-08 | 2022-02-08 | 北京天融信网络安全技术有限公司 | 一种流量统计去重方法及装置 |
CN115085985A (zh) * | 2022-06-06 | 2022-09-20 | 西安电子科技大学 | 一种用于网络安全监测的内存高效范围基数测量方法 |
CN115914022A (zh) * | 2022-11-22 | 2023-04-04 | 山西合力创新科技股份有限公司 | 基于网络流量的应用关系分析方法、系统、设备及介质 |
CN116016423A (zh) * | 2022-12-23 | 2023-04-25 | 赛尔网络有限公司 | IPv6地址快速标识方法、装置、设备、介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN116599865A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108776934B (zh) | 分布式数据计算方法、装置、计算机设备及可读存储介质 | |
JP2016536939A5 (zh) | ||
CN104091276A (zh) | 在线分析点击流数据的方法和相关装置及系统 | |
CN109039819A (zh) | 时延统计方法、装置、系统及存储介质 | |
CN107832407A (zh) | 用于生成知识图谱的信息处理方法、装置和可读存储介质 | |
CN111177201B (zh) | 一种数据流处理的方法以及相关装置 | |
CN109936474B (zh) | 一种生成网络拓扑图的方法及设备 | |
JP6694962B2 (ja) | メディア情報提示方法、サーバ及び記憶媒体 | |
CN112085535A (zh) | 资源计量计费方法、装置、集群及存储介质 | |
CN115048254B (zh) | 数据分配策略的仿真测试方法、系统、设备和可读介质 | |
CN111291936B (zh) | 产品生命周期预估模型生成方法、装置及电子设备 | |
CN116599865B (zh) | 分布式流量去重统计方法、装置、设备及存储介质 | |
JP5972472B2 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
CN112115382B (zh) | 数据处理方法及装置、存储介质、电子装置 | |
CN105550250B (zh) | 一种访问日志的处理方法及装置 | |
CN103678474A (zh) | 一种在社交网络中快速获取大量热门话题的方法 | |
Zhang et al. | Role of subgraphs in epidemics over finite-size networks under the scaled SIS process | |
CN110704382B (zh) | 文件部署方法、装置、服务器及存储介质 | |
CN106469086B (zh) | 事件处理方法和装置 | |
CN110554916B (zh) | 基于分布式集群的风险指标计算方法及装置 | |
WO2022001480A1 (zh) | 热门应用识别方法、网络系统、网络设备及存储介质 | |
WO2017028744A1 (zh) | 一种用于确定待部署资源的方法和装置 | |
CN112445952B (zh) | 一种数据管理方法、装置、设备及存储介质 | |
CN104935647B (zh) | 一种文件分享方法及装置 | |
CN108629610B (zh) | 推广信息曝光量的确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |