CN112468486A - Netflow数据去重方法、装置、电子设备及存储介质 - Google Patents

Netflow数据去重方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112468486A
CN112468486A CN202011333594.XA CN202011333594A CN112468486A CN 112468486 A CN112468486 A CN 112468486A CN 202011333594 A CN202011333594 A CN 202011333594A CN 112468486 A CN112468486 A CN 112468486A
Authority
CN
China
Prior art keywords
data information
deduplicated
netflow
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011333594.XA
Other languages
English (en)
Other versions
CN112468486B (zh
Inventor
高璐
赵明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202011333594.XA priority Critical patent/CN112468486B/zh
Publication of CN112468486A publication Critical patent/CN112468486A/zh
Application granted granted Critical
Publication of CN112468486B publication Critical patent/CN112468486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Abstract

本申请提供一种NetFlow数据去重方法、装置、电子设备及存储介质,包括:获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口;根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息;针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行准确地去重。

Description

Netflow数据去重方法、装置、电子设备及存储介质
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种Netflow数据去重方法、装置、电子设备及存储介质。
背景技术
NetFlow是一种网络监测功能,可以记录每个TCP/IP会话信息。利用Netflow日志能够提供实现十分精准的流量统计,因此,NetFlow在DDoS监控、入侵检测以及流量统计等工作中被广泛使用。
但是,NetFlow通常针对单个数据采集设备做流量统计,所以不存在设备间的去重、汇聚等机制,因此,如果一份数据流经多个采集设备,并分别被多个采集设备采集,然后被重复统计,势必会导致最终的统计结果不准确。
发明内容
鉴于此,本申请实施例的目的在于提供一种Netflow数据去重方法、装置、电子设备及存储介质,以解决上述问题。
第一方面,本申请实施例提供一种Netflow数据去重方法,所述方法包括:获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口;根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息;针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。
针对重复的两个NetFlow数据信息,其元组信息势必相同,因此,为了快速且准确地重复的数据进行去重,在上述实现过程中,根据在预设时间段内采集到的至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息,继而针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,准确地对所述至少两个待去重的数据信息进行去重。
基于第一方面,在一种可能的设计中,所述根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重,包括:针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,确定该待筛选的数据信息和该待去重的数据信息重复;对所述至少两个待去重的数据信息中重复的数据进行去重。
在上述实现过程中,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备的情况下,针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,则能够准确地确定这两个数据信息为重复的数据,最后对所述至少两个待去重的数据信息中重复的数据进行去重。
基于第一方面,在一种可能的设计中,每个NetFlow数据信息中还包括:启动时间和结束时间;所述方法还包括:针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备;在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则确定该待比较的数据信息与该去重的数据信息重复;对所述至少两个待去重的数据信息中重复的数据进行去重。
在确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备的情况下,即使采集设备的IP地址为该下一跳地址的采集设备所采集的数据的元组信息和该待去重的数据信息相同,其也有可能是重复的数据,也有可能不是重复的数据,值的一提的是,由于重复的数据中所携带的启动时间之差以及结束时间之差通常会比较小,反之,不同的数据中所携带的启动时间之差以及结束时间之差通常会比较大,因此,在上述实现过程中,在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则能够准确地确定该待比较的数据信息与该去重的数据信息重复;继而能够对所述至少两个待去重的数据信息中重复的数据进行准确地去重。
基于第一方面,在一种可能的设计中,所述方法还包括:在从所述至少两个待去重的数据信息中,未确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息;针对所述至少两个待去重的数据信息中除该去重的数据信息以外的每个待查重的数据信息,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于所述预设阈值,则确定该待查重的数据信息与该去重的数据信息重复。
由于重复的数据中所携带的启动时间之差以及结束时间之差通常会比较小,反之,不同的数据中所携带的启动时间之差以及结束时间之差通常会比较大,因此,在从所述至少两个待去重的数据信息中,未确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息的情况下,在上述实现过程中,针对所述至少两个待去重的数据信息中除该去重的数据信息以外的每个待查重的数据信息,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于所述预设阈值,则能够准确地确定该待查重的数据信息与该去重的数据信息重复。
基于第一方面,在一种可能的设计中,所述根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息,包括:针对所述至少两个NetFlow数据信息中的每个NetFlow数据信息,若该NetFlow数据信息所对应的采集设备采用了NAT策略时,则按照预先确定的元组信息映射规则,对该NetFlow数据信息中的元组信息进行修改,得到修改后的NetFlow数据信息;从所述修改后的NetFlow数据信息和所述至少两个NetFlow数据信息中未被修改的NetFlow数据信息中,确定出所述至少两个待去重的数据信息。
针对任意一个元组信息为A的NetFlow数据信息,若该NetFlow数据信息被采用了NAT策略的采集设备采集到,那么利用该采集设备采集到的NetFlow数据信息中的元组信息则会从A变为B,然而,若该NetFlow数据信息被未采用NAT策略的采集设备到,那么利用该采集设备采集到的NetFlow数据信息中的元组信息则不会发生变化,因此,为了能够准确地进行去重,因此,在上述实现过程中,按照预先确定的元组信息映射规则,将采用NAT策略的设备所采集的数据信息中的元组信息进行修改,得到修改后的数据信息,以使修改后的数据信息中的元组信息为未被修改前的元组信息(即元组信息为A),继而利用修改后的数据信息和未修改的数据信息进行准确地去重。
第二方面,本申请实施例提供一种NetFlow数据去重装置,所述装置包括:获取单元,用于获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口;确定单元,用于根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息;第一去重单元,用于针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。
基于第二方面,在一种可能的设计中,所述第一去重单元,具有用于针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,确定该待筛选的数据信息和该待去重的数据信息重复;以及对所述至少两个待去重的数据信息中重复的数据进行去重。
基于第二方面,在一种可能的设计中,每个NetFlow数据信息中还包括:启动时间和结束时间;所述装置还包括:第二去重单元,用于针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备;以及在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则确定该待比较的数据信息与该去重的数据信息重复;对所述至少两个待去重的数据信息中重复的数据进行去重。
基于第二方面,在一种可能的设计中,所述装置还包括:重复数据确定单元,用于在从所述至少两个待去重的数据信息中,未确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息;以及针对所述至少两个待去重的数据信息中除该去重的数据信息以外的每个待查重的数据信息,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于所述预设阈值,则确定该待查重的数据信息与该去重的数据信息重复。
基于第二方面,在一种可能的设计中,所述确定单元,具体用于针对所述至少两个NetFlow数据信息中的每个NetFlow数据信息,若该NetFlow数据信息所对应的采集设备采用了NAT策略时,则按照预先确定的元组信息映射规则,对该NetFlow数据信息中的元组信息进行修改,得到修改后的NetFlow数据信息;以及从所述修改后的NetFlow数据信息和所述至少两个NetFlow数据信息中未被修改的NetFlow数据信息中,确定出所述至少两个待去重的数据信息。
第三方面,本申请实施例提供一种电子设备,包括处理器以及与所述处理器连接的存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行第一方面所述的方法。
第四方面,本申请实施例提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行第一方面所述的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的NetFlow数据去重方法的流程示意图。
图2为本申请实施例提供的NetFlow数据去重装置的结构示意图。
图3为本申请实施例提供的电子设备的结构示意图。
图标:200-NetFlow数据去重装置;210-获取单元;220-确定单元;230-第一去重单元;300-电子设备;301-处理器;302-存储器;303-通信接口。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1为本申请实施例提供的一种NetFlow数据去重方法的流程图,下面将对图1所示的流程进行详细阐述,所述方法包括步骤:S11、S12和S13。
S11:获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口。
S12:根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息。
S13:针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。
下面对上述方法进行详细介绍。
S11:获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口。
其中,所述预设时间段可以根据用户需求设定,在本实施例中,所述预设时间段与采集设备的实际采集周期一致。
在实际实施过程中,S11可以按照如下方式实施,获取至少两个采集设备的IP地址,继而针对每个采集设备的IP地址,实时获取该采集设备在预设时间段内采集到的NetFlow数据信息。
作为一种实施方式,S11可以按照如下方式实施,按照先进先出原则,从数据队列中提取出在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址。
作为一种实施方式,S11可以按照如下方式实施,获取第三方发送的各个采集设备在预设时间段内采集到的NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址。
S12:根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息。
在实际实施过程中,S12可以按照如下方式实施,针对所述至少两个NetFlow数据信息中的每个NetFlow数据信息,从该NetFlow数据信息中提取出元组信息,继而通过将所述至少两个NetFlow数据信息中的各个NetFlow数据信息的元组信息进行比较,将具有相同的元组信息的NetFlow数据信息划分为一个分组,继而确定出具有至少两个NetFlow数据信息的目标分组,其中,目标分组的数量为至少一个,其中,每个目标分组中的一个NetFlow数据信息可以被视作一个待去重的数据信息,可以理解的是,每个目标分组中均包括至少两个待去重的数据信息。
值的一提的是,针对只有一个NetFlow数据信息的分组则不会对其进行去重操作。
作为一种实施方式,S12包括步骤:A1和A2。
A1:针对所述至少两个NetFlow数据信息中的每个NetFlow数据信息,若该NetFlow数据信息所对应的采集设备采用了NAT策略时,则按照预先确定的元组信息映射规则,对该NetFlow数据信息中的元组信息进行修改,得到修改后的NetFlow数据信息。
在实际实施过程中,A1可以按照如下方式实施,针对所述至少两个NetFlow数据信息中的每个NetFlow数据信息,确定出该NetFlow数据信息所对应的采集设备的IP地址,继而根据预先存储的采集设备的IP地址和表征该采集设备的IP地址是否采用NAT策略的标记信息的对应关系中,从所述对应关系中,查找出所述对应的采集设备的IP地址对应的标记信息,继而在所述对应的标记信息表征所述对应的采集设备采用了NAT策略时,则按照预先确定的与所述采集设备的IP地址对应的元组信息映射规则,对该NetFlow数据信息中的元组信息进行修改,得到修改后的NetFlow数据信息。
其中,元组信息映射规则的确定为本领域熟知技术,因此,在此不再赘述。
A2:从所述修改后的NetFlow数据信息和所述至少两个NetFlow数据信息中未被修改的NetFlow数据信息中,确定出所述至少两个待去重的数据信息。
其中,所述至少两个NetFlow数据信息中未被修改的NetFlow数据信息,即所述至少两个NetFlow数据信息中除与所述修改后的NetFlow数据信息对应的数据信息之外的剩余数据信息。
根据所述修改后的NetFlow数据信息中的元组信息和所述未被修改的NetFlow数据信息中的元组信息,确定出元组信息相同的至少两个待去重的数据信息。
值的一提的是,在目标分组的数量为至少两个时,针对每个目标分组中的至少两个待去重的数据信息,均可以采用步骤S13的方式进行去重。
S13:针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。
其中,可以理解的是,所述至少两个待去重的数据信息属于同一个目标分组。
针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址是否为预设地址,在确定为所述预设地址时,确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备,继而根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重;
反之,在确定不为所述预设地址时,则确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备。
其中,所述预设地址根据用户需求设定,在本实施例中,所述预设地址为0.0.0.0。
其中,作为一种实施方式,在S13中,所述根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重,包括步骤:B1和B2。
B1:针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,确定该待筛选的数据信息和该待去重的数据信息重复。
在实际实施过程中,B1可以按照如下方式实施,针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,将该待筛选的数据信息所对应的采集设备的IP地址与该去重的数据信息所对应的采集设备的IP地址进行比较,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,确定该待筛选的数据信息和该待去重的数据信息重复;
反之,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址不同时,确定该待筛选的数据信息和该待去重的数据信息可能不重复。
B2:对所述至少两个待去重的数据信息中重复的数据进行去重。
针对所述至少两个待去重的数据信息中的任意两个待去重的数据信息,在确定该两个待去重的数据信息为重复的数据时,删除这两个待去重的数据信息中的一个待去重的数据信息,以使最终得到的去重结果中不存在相同的数据信息。作为一种实施方式,每个NetFlow数据信息中还包括:启动时间和结束时间;所述方法还包括步骤:C1、C2和C3。
C1:针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备。
C2:在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则确定该待比较的数据信息与该去重的数据信息重复。
针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个数据信息,确定该数据信息所对应的采集设备的IP地址是否为该待去重的数据信息的下一跳地址,在为是时,表征该数据信息为待比较的数据信息,继而从该比较的数据信息中提取出第一启动时间和第一结束时间,并将该第一启动时间和该待去重的数据信息中的第二启动时间作差,得到启动时间之差,以及将该第一结束时间和该待去重的数据信息中的第二结束时间作差,得到结束时间之差,在确定该启动时间之差和该结束时间之差均小于等于预设阈值时,则确定该待比较的数据信息与该去重的数据信息重复,反之,确定该待比较的数据信息与该去重的数据信息不重复。
作为一种实施方式,将该去重的数据信息的下一跳地址分别与各个采集设备的IP地址进行比较,确定出IP地址为该去重的数据信息的下一跳地址的目标采集设备,并将该目标采集设备所采集的数据信息与所述至少两个待去重的数据信息进行比较,继而从所述至少两个待去重的数据信息中与目标采集设备所采集的数据信息相同的数据信息,即待比较的数据信息。
其中,所述预设阈值根据实际需求设定,在本实施例中,所述预设阈值为0,在其他实施例中,所述预设阈值可以为0.01,0.02等。
C3:对所述至少两个待去重的数据信息中重复的数据进行去重。
其中,C3的具体实施方式和B2相同,因此,在此不再赘述。
作为一种实施方式,所述方法还包括步骤:D1、D2和D3。
D1:针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备。
D2:在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,则确定该待比较的数据信息与该去重的数据信息重复。
D3:对所述至少两个待去重的数据信息中重复的数据进行去重。作为一种实施方式,所述方法还包括步骤:E1和E2。
E1:在从所述至少两个待去重的数据信息中,未确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息。
E2:针对所述至少两个待去重的数据信息中除该去重的数据信息以外的每个待查重的数据信息,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于所述预设阈值,则确定该待查重的数据信息与该去重的数据信息重复。
其中,步骤E2的具体实施方式请参照C2,因此,在此不再赘述。
值的一提的是,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别大于所述预设阈值,则确定该待查重的数据信息与该去重的数据信息不重复。请参照图2,图2是本申请实施例提供的一种NetFlow数据去重装置200的结构框图。下面将对图2所示的结构框图进行阐述,所示装置包括:
获取单元210,用于获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口。
确定单元220,用于根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息。
第一去重单元230,用于针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。
作为一种实施方式,所述第一去重单元230,具有用于针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,确定该待筛选的数据信息和该待去重的数据信息重复;以及对所述至少两个待去重的数据信息中重复的数据进行去重。
作为一种实施方式,每个NetFlow数据信息中还包括:启动时间和结束时间;所述装置还包括:第二去重单元,用于针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备;以及在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则确定该待比较的数据信息与该去重的数据信息重复;对所述至少两个待去重的数据信息中重复的数据进行去重。
作为一种实施方式,所述装置还包括:重复数据确定单元,用于在从所述至少两个待去重的数据信息中,未确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息;以及针对所述至少两个待去重的数据信息中除该去重的数据信息以外的每个待查重的数据信息,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于所述预设阈值,则确定该待查重的数据信息与该去重的数据信息重复。
作为一种实施方式,所述确定单元220,具体用于针对所述至少两个NetFlow数据信息中的每个NetFlow数据信息,若该NetFlow数据信息所对应的采集设备采用了NAT策略时,则按照预先确定的元组信息映射规则,对该NetFlow数据信息中的元组信息进行修改,得到修改后的NetFlow数据信息;以及从所述修改后的NetFlow数据信息和所述至少两个NetFlow数据信息中未被修改的NetFlow数据信息中,确定出所述至少两个待去重的数据信息。
本实施例对的各功能单元实现各自功能的过程,请参见上述图1所示实施例中描述的内容,此处不再赘述。
请参照图3,图3为本申请实施例提供的一种电子设备300的结构示意图,电子设备300可以为上述实施例中的站点服务器,电子设备300可以是个人电脑(personalcomputer,PC)、平板电脑、智能手机、个人数字助理(personal digital assistant,PDA)等。
电子设备300可以包括:存储器302、处理301、通信接口303和通信总线,通信总线用于实现这些组件的连接通信。
所述存储器302用于存储本申请实施例提供的NetFlow数据去重方法和装置对应的计算程序指令等各种数据,其中,存储器302可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。
处理器301用于读取并运行存储于存储器中的NetFlow数据去重方法和装置对应的计算机程序指令,以获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口;根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息;针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。
其中,处理器301可能是一种集成电路芯片,具有信号的处理能力。上述的处理器301可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
通信接口303,用于接收或者发送数据。
此外,本申请实施例还提供了一种存储介质,在该存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行本申请任一项实施方式所提供的方法。
综上所述,本申请各实施例提出的Netflow数据去重方法、装置、电子设备及存储介质,针对重复的两个NetFlow数据信息,其元组信息势必相同,因此,为了快速且准确地重复的数据进行去重,在上述实现过程中,根据在预设时间段内采集到的至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息,继而针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,准确地对所述至少两个待去重的数据信息进行去重。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

Claims (10)

1.一种NetFlow数据去重方法,其特征在于,所述方法包括:
获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口;
根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息;
针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重,包括:
针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,确定该待筛选的数据信息和该待去重的数据信息重复;
对所述至少两个待去重的数据信息中重复的数据进行去重。
3.根据权利要求1所述的方法,其特征在于,每个NetFlow数据信息中还包括:启动时间和结束时间;所述方法还包括:
针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备;
在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则确定该待比较的数据信息与该去重的数据信息重复;
对所述至少两个待去重的数据信息中重复的数据进行去重。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在从所述至少两个待去重的数据信息中,未确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息;
针对所述至少两个待去重的数据信息中除该去重的数据信息以外的每个待查重的数据信息,若该待查重的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于所述预设阈值,则确定该待查重的数据信息与该去重的数据信息重复。
5.根据权利要求1-4中任一权项所述的方法,其特征在于,所述根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息,包括:
针对所述至少两个NetFlow数据信息中的每个NetFlow数据信息,若该NetFlow数据信息所对应的采集设备采用了NAT策略时,则按照预先确定的元组信息映射规则,对该NetFlow数据信息中的元组信息进行修改,得到修改后的NetFlow数据信息;
从所述修改后的NetFlow数据信息和所述至少两个NetFlow数据信息中未被修改的NetFlow数据信息中,确定出所述至少两个待去重的数据信息。
6.一种NetFlow数据去重装置,其特征在于,所述装置包括:
获取单元,用于获取在预设时间段内采集到的至少两个NetFlow数据信息,以及采集各个NetFlow数据信息所用采集设备的IP地址;其中,所述采集设备的数量为至少两个;每个NetFlow数据信息包括:元组信息和下一跳地址;所述元组信息包括:源IP地址、目的IP地址、源端口和目的端口;
确定单元,用于根据所述至少两个NetFlow数据信息,确定出具有相同的元组信息的至少两个待去重的数据信息;
第一去重单元,用于针对所述至少两个待去重的数据信息中的每个待去重的数据信息,在确定该待去重的数据信息的下一跳地址表征不会将该待去重的数据信息转发给其余设备时,根据所述至少两个待去重的数据信息中的每个待去重的数据信息所对应的采集设备的IP地址,对所述至少两个待去重的数据信息进行去重。
7.根据权利要求6所述的装置,其特征在于,所述第一去重单元,具有用于针对所述至少两个待去重的数据信息中除该待去重的数据信息以外的每个待筛选的数据信息,在确定该待筛选的数据信息和该待去重的数据信息所对应的采集设备的IP地址相同时,确定该待筛选的数据信息和该待去重的数据信息重复;以及对所述至少两个待去重的数据信息中重复的数据进行去重。
8.根据权利要求7所述的装置,其特在于,每个NetFlow数据信息中还包括:启动时间和结束时间;所述装置还包括:
第二去重单元,用于针对所述至少两个待去重的数据信息中的每个待去重的数据信息,确定该待去重的数据信息的下一跳地址表征会将该待去重的数据信息转发给其余设备;以及在从所述至少两个待去重的数据信息中,确定出IP地址为该去重的数据信息的下一跳地址的采集设备所采集的待比较的数据信息时,若该待比较的数据信息与该去重的数据信息所对应的启动时间之差以及结束时间之差分别小于等于预设阈值,则确定该待比较的数据信息与该去重的数据信息重复;对所述至少两个待去重的数据信息中重复的数据进行去重。
9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行如权利要求1-5中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被计算机读取并运行时,执行如权利要求1-5中任一项所述的方法。
CN202011333594.XA 2020-11-24 2020-11-24 Netflow数据去重方法、装置、电子设备及存储介质 Active CN112468486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011333594.XA CN112468486B (zh) 2020-11-24 2020-11-24 Netflow数据去重方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011333594.XA CN112468486B (zh) 2020-11-24 2020-11-24 Netflow数据去重方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112468486A true CN112468486A (zh) 2021-03-09
CN112468486B CN112468486B (zh) 2023-05-02

Family

ID=74799865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011333594.XA Active CN112468486B (zh) 2020-11-24 2020-11-24 Netflow数据去重方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112468486B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140059200A1 (en) * 2012-08-21 2014-02-27 Cisco Technology, Inc. Flow de-duplication for network monitoring
CN104115463A (zh) * 2011-11-07 2014-10-22 网络流逻辑公司 用于处理网络元数据的流式传输方法和系统
CN111064637A (zh) * 2019-12-13 2020-04-24 中盈优创资讯科技有限公司 NetFlow数据去重方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104115463A (zh) * 2011-11-07 2014-10-22 网络流逻辑公司 用于处理网络元数据的流式传输方法和系统
US20140059200A1 (en) * 2012-08-21 2014-02-27 Cisco Technology, Inc. Flow de-duplication for network monitoring
CN111064637A (zh) * 2019-12-13 2020-04-24 中盈优创资讯科技有限公司 NetFlow数据去重方法及装置

Also Published As

Publication number Publication date
CN112468486B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN108881294B (zh) 基于网络攻击行为的攻击源ip画像生成方法以及装置
JP6055548B2 (ja) データストリームにおいてデータパターンを検出する装置、方法、及びネットワークサーバ
CN106649831B (zh) 一种数据过滤方法及装置
CN107395650B (zh) 基于沙箱检测文件识别木马回连方法及装置
EP4075749A1 (en) Detection method and detection device for heavy flow data stream
EP3065343B1 (en) Network monitoring method and apparatus, and packet filtering method and apparatus
US20220335013A1 (en) Generating readable, compressed event trace logs from raw event trace logs
KR100608541B1 (ko) 샘플링과 시그너쳐 검색 기능을 구비한 인터넷 프로토콜패킷 수집 장치 및 그 방법
CN112468486A (zh) Netflow数据去重方法、装置、电子设备及存储介质
CN112688924A (zh) 网络协议分析系统
CN111163184B (zh) 一种报文特征的提取方法和装置
CN110868360B (zh) 流量统计方法、电子设备、系统及介质
CN113672443A (zh) 一种基于芯片检测的用户行为分析方法及系统
CN109842511B (zh) 一种tcp性能参数的确定方法及系统
CN112836212B (zh) 邮件数据的分析方法、钓鱼邮件的检测方法及装置
CN113010382A (zh) 一种埋点数据的计算方法、装置、存储介质和电子设备
CN113746738A (zh) 数据转发方法、装置及相关设备
US9900207B2 (en) Network control protocol
CN116707912A (zh) 攻击网络识别方法、装置、服务器及存储介质
CN113268551B (zh) 一种统一测控系统数据监测方法及装置
CN117176839B (zh) 遥测报文传输方法、装置、通信设备及存储介质
CN117540071B (zh) 一种针对查找引擎的属性表项的配置方法和装置
CN115086016B (zh) 一种网络异常行为的检测方法、装置、设备及存储介质
CN114363148B (zh) 一种检测攻击告警的方法、装置、检测设备及存储介质
CN112839018B (zh) 一种度数值生成方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant