CN114020734A - 一种流量统计去重方法及装置 - Google Patents
一种流量统计去重方法及装置 Download PDFInfo
- Publication number
- CN114020734A CN114020734A CN202111314535.2A CN202111314535A CN114020734A CN 114020734 A CN114020734 A CN 114020734A CN 202111314535 A CN202111314535 A CN 202111314535A CN 114020734 A CN114020734 A CN 114020734A
- Authority
- CN
- China
- Prior art keywords
- information
- flow
- data
- data stream
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请实施例提供一种流量统计去重方法及装置,涉及通信技术领域,该流量统计去重方法包括:获取目标会话的数据流信息;对数据流信息进行解析,得到解析数据;根据预设的哈希表和解析数据判断数据流信息是否为重复流量;如果否,则对数据流信息进行缓存;当目标会话结束时,将缓存的数据流信息进行落盘存储。可见,实施这种实施方式,能够对流量进行去重处理,避免同一条流量被多次重复统计,提升流量统计准确性,从而提升流量查询性能。
Description
技术领域
本申请涉及通信技术领域,具体而言,涉及一种流量统计去重方法及装置。
背景技术
随着云计算技术发展和应用,带来新的安全威胁和挑战。针对恶意的消耗网络有限的资源或占用系统,进而破坏系统对外提供服务的攻击,业界提出了以检测网络数据流的方法来判断网络异常和攻击。同时可以让网络管理人员可以查看全网的状态,借助实时以及历史流量记录,便于梳理业务,以保证网络高效、可靠的运转。现有的流量统计方法,通常以无代理方式在宿主机上部署虚拟化防火墙,嵌入流量探针,将虚拟机流量先重定向到虚拟防火墙,检测为安全流量再放行转发。然而,在实践中发现,存在一条流量经过两个甚至更多流量探针,导致同一条流量被多次重复统计,在汇总到管理平台时,就会出现流量统计不准确,导致流量查询性能降低的问题。
发明内容
本申请实施例的目的在于提供一种流量统计去重方法及装置,能够对流量进行去重处理,避免同一条流量被多次重复统计,提升流量统计准确性,从而提升流量查询性能。
本申请实施例第一方面提供了一种流量统计去重方法,包括:
获取目标会话的数据流信息;
对所述数据流信息进行解析,得到解析数据;
根据预设的哈希表和所述解析数据判断所述数据流信息是否为重复流量;
如果否,则对所述数据流信息进行缓存;
当所述目标会话结束时,将缓存的所述数据流信息进行落盘存储。
在上述实现过程中,该方法可以优先获取数据流信息,然后对数据流信息进行解析,得到解析数据,然后根据预设的哈希表和解析数据判断数据流信息是否为重复流量,如果该数据流信息不是重复流量时,则对该数据流信息进行缓存,并在目标会话结束时将该数据流信息存储到数据库当中。可见,该方法能够对流量进行去重处理,避免同一条流量被多次重复统计,提升流量统计准确性,从而提升流量查询性能。
进一步地,所述根据预设的哈希表和所述解析数据判断所述数据流信息是否为重复流量,包括:
获取所述解析数据中的元组信息;
判断是否能够在预存的哈希表中查询到与所述元组信息的相匹配的目标哈希记录;
如果是,则确定所述数据流信息为重复流量;
如果否,则确定所述数据流信息不为重复流量。
进一步地,在对所述数据流信息进行缓存之后,还包括:
获取发送所述数据流信息的虚拟防火墙的通信地址;
根据所述通信地址和所述解析数据生成新的哈希记录,并通过所述新的哈希记录对所述哈希表进行更新。
进一步地,所述方法还包括:
当判断出所述数据流信息为重复流量时,获取发送所述数据流信息的虚拟防火墙的地址信息;
判断所述虚拟防火墙的地址信息与所述目标哈希记录是否相匹配;
如果匹配,则获取所述数据流信息的数据包信息;
根据所述数据包信息对所述目标哈希记录进行更新。
进一步地,所述方法还包括:
如果所述虚拟防火墙的地址信息与所述目标哈希记录不相匹配时,获取所述目标哈希记录中的会话标志字段;
根据所述会话标志字段确定会话方向;
将所述会话方向和所述元组信息发送至所述目标会话对应的分布式防火墙,以使所述分布式防火墙根据所述会话方向和所述元组信息对所述目标会话的流量进行标记,并对标记后的流量不做流量统计。
进一步地,所述方法还包括:
获取落盘存储的所有数据流信息以及统计需求;
根据所述统计需求对所述所有数据流信息进行统计处理,得到流量统计信息;
输出所述流量统计信息。
本申请实施例第二方面提供了一种流量统计去重装置,所述流量统计去重装置包括:
获取单元,用于获取目标会话的数据流信息;
解析单元,用于对所述数据流信息进行解析,得到解析数据;
判断单元,用于根据预设的哈希表和所述解析数据判断所述数据流信息是否为重复流量;
缓存单元,用于当判断出所述数据流信息不为重复流量时,则对所述数据流信息进行缓存;
存储单元,用于当所述目标会话结束时,将缓存的所述数据流信息进行落盘存储。
在上述实现过程中,该流量统计去重装置能够对接收到的数据流信息进行解析,并通过哈希表对解析数据进行识别,从而判断出数据流信息是否为重复流量,并在数据流信息不为重复流量时,缓存该数据流信息,以及在目标会话结束时对数据流信息进行落盘存储。可见,该装置能够对流量进行去重处理,避免同一条流量被多次重复统计,提升流量统计准确性,从而提升流量查询性能。
进一步地,所述判断单元包括:
获取子单元,用于获取所述解析数据中的元组信息;
判断子单元,用于判断是否能够在预存的哈希表中查询到与所述元组信息的相匹配的目标哈希记录;
确定子单元,用于当判断出能够查询到所述目标哈希记录时,则确定所述数据流信息为重复流量;以及当判断出不能够查询到所述目标哈希记录时,则确定所述数据流信息不为重复流量。
本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的流量统计去重方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的流量统计去重方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种流量统计去重方法的流程示意图;
图2为本申请实施例提供的另一种流量统计去重方法的流程示意图;
图3为本申请实施例提供的一种流量统计去重装置的结构示意图;
图4为本申请实施例提供的另一种流量统计去重装置的结构示意图;
图5为本申请实施例提供的一种基于虚拟化分布式防火墙流量统计去重方法的示意图;
图6为本申请实施例提供的一种流量统计去重方法的方案实施示意图。
图示:VM1-虚拟机1,VM2-虚拟机2,VM3-虚拟机3,VM4-虚拟机4。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供了一种流量统计去重方法的流程示意图。其中,该流量统计去重方法包括:
S101、获取目标会话的数据流信息。
本申请实施例中,该数据流信息包括Netflow数据或者Netflow报文。
本申请实施例中,该流量统计去重方法应用于无代理模式的虚拟化分布式防火墙,在该虚拟化分布式防火墙中,包括四个虚拟机,即虚拟机1(即VM1)、虚拟机2(即VM2)、虚拟机3(即VM3)、虚拟机4(即VM4),虚拟机之间流量通信分为图5所示的两种情况:
(1)同一服务器上的虚拟机通信:如图5所示,虚拟机1(即VM1)与虚拟机2(即VM2)通信时,数据包首先被重定向到虚拟防火墙1,然后再转发到虚拟机2(即VM2)。
(2)不同服务器上的虚拟机通信:如图5所示,虚拟机1(即VM1)与虚拟机4(即VM4)通信时,数据包首先被重定向到服务器1上的虚拟防火墙1,然后再由虚拟防火墙1检测后,由服务器1发送到路由器或者交换机等设备,转发到服务器2后,数据包先进入服务器2上的虚拟防火墙2,然后转发到目的虚拟机4(即VM4);此时同一个数据包经过了虚拟防火墙1和虚拟防火墙2上流量探针的两次统计。
如图5所示,在虚拟化分布式防火墙上,可以嵌入Netflow v9流量探针,对流经分布式防火墙上的流量信息进行收集,以获取目标会话的数据流信息。
本申请实施例中,该数据流信息包括预设模板的字段信息,具体的,该预设模板如下表所示:
表一
如表一所示,Netflow v9流量探针支持可扩展的Netflow数据输出格式,采用基于预设模板的统计数据输出。
本申请实施例中,分布式防火墙上实现的流量探针,使用Netflow v9预设模板,将数据包与session状态相关联进行统计。
S102、对数据流信息进行解析,得到解析数据。
本申请实施例中,可以根据预设的Netflow v9协议以及表一所示的预设模板对数据流信息进行解析。
S103、根据预设的哈希表和解析数据判断数据流信息是否为重复流量,若是,则结束本流程;若否,则执行步骤S104~步骤S105。
本申请实施例中,可以根据五元组为key,生成一张哈希表(即hash表),存储当前流的各字段数据,哈希表中每个哈希记录的数据格式如下表二所示。在接收到数据流信息后,先以数据流信息的五元组为key,查询hash表,如果未查到记录,则表示不是重复流量,则新申请数据结构存储该数据流信息,以及发送数据流信息的虚拟防火墙的IP(hash表的数据格式中该字段为hostIP),并插入到hash表中。
表二
字段 | 描述 |
srcip | 源头的IPv4地址。 |
dstip | 目的地的IPv4地址。 |
npkt | 信息流中的数据包。 |
nbyte | 在信息流的数据包中,第3层(Layer 3)字节的总个数。 |
first_time | 信息流开始时的SysUptime。 |
last_time | 信息流的最后一个数据包被接收时的SysUptime。 |
srcport | TCP/UDP源头的端口号或等值物。 |
dstport | TCP/UDP目的地的端口号或等值物。 |
categoryID | 信息流中的应用组。 |
applicationID | 信息流中的应用。 |
sessionFlag | 信息流方向及结束标志 |
proto | IP协议(例如,6=TCP,17=UDP) |
hostIP | 记录发送Netflow报文的虚拟防火墙的IP |
如果查到记录,则表示是重复流量,则进一步判断发送此次数据流信息的虚拟防火墙的IP是否与查询到的目标哈希记录中的hostIP一致,如果一致,则更新目标哈希记录中包个数、字节数,如果不一致,则说明当前数据流信息已由前序分布式防火墙上送记录,则丢弃当前数据流信息,不再记录。
S104、对数据流信息进行缓存。
本申请实施例中,可以新申请数据结构存储该数据流信息。
S105、当目标会话结束时,将缓存的数据流信息进行落盘存储。
本申请实施例中,可以根据Netflow数据中的sessionFlag字段,确定当前目标会话是否结束,当根据sessionFlag字段确定出虚拟防火墙已经标记当前目标会话已结束时,则将缓存的数据流信息进行落盘存储。
本申请实施例中,在进行落盘存储时,将其存储至目标数据库中,具体的,该目标数据库可以为Elasticsearch数据库等,对此本申请实施例不作限定。
本申请实施例中,实施该方法,基于分布式防火墙,在虚拟化环境下无需改变原有网络拓扑,就可对流量进行去重统计;还可以使用虚拟化环境下的服务器配置,在服务器内部进行报文转发,发挥虚拟化云平台的优势;
本申请实施例中,实施该方法,能够对同一报文只进行一次统计,提高流量统计信息的准确性;同时大大减少了流量统计信息存储占用空间。
本申请实施例中,该方法的执行主体可以为计算机、服务器等计算装置,对此本实施例中不作任何限定。
在本申请实施例中,该方法的执行主体还可以为智能手机、平板电脑等智能设备,对此本实施例中不作任何限定。
可见,实施本实施例所描述的流量统计去重方法,能够优先获取数据流信息,然后对数据流信息进行解析,得到解析数据,然后根据预设的哈希表和解析数据判断数据流信息是否为重复流量,如果该数据流信息不是重复流量时,则对该数据流信息进行缓存,并在目标会话结束时将该数据流信息存储到数据库当中。可见,实施这种实施方式,该方法能够对流量进行去重处理,避免同一条流量被多次重复统计,提升流量统计准确性,从而提升流量查询性能。
实施例2
请参看图2,图2为本申请实施例提供的另一种流量统计去重方法的流程示意图。如图2所示,其中,该流量统计去重方法包括:
S201、获取目标会话的数据流信息。
S202、对数据流信息进行解析,得到解析数据。
S203、获取解析数据中的元组信息。
本申请实施例中,可以从解析数据中获取元组信息,具体地,该元组信息包括源IP、目的IP、协议号、源端口号、目的端口号、包长、时间戳、应用大类标识、应用标识以及会话状态信息等解析数据,对此本申请实施例不作限定。
本申请实施例中,可以从虚拟化防火墙的目标会话(即目标session)中获取已识别出的应用大类标识、应用标识以及会话状态信息等。其中,虚拟化防火墙在目标会话老化或者达到设置的防火墙统计时间间隔时,会将防火墙数据发送到虚拟化分布式防火墙的集中管理平台。
S204、判断是否能够在预存的哈希表中查询到与元组信息的相匹配的目标哈希记录,如果是,则确定数据流信息为重复流量,并执行步骤S208~S209;如果否,则确定数据流信息不为重复流量,并执行步骤S205~S207以及步骤S215~S218。
本申请实施例中,流量采集器中通过五元组和hash表结合流量探针hostIP的流量统计数据清洗方法。
S205、对数据流信息进行缓存。
S206、获取发送数据流信息的虚拟防火墙的通信地址。
S207、根据通信地址和解析数据生成新的哈希记录,并通过新的哈希记录对哈希表进行更新,以及步骤S215~步骤S218。
S208、获取发送数据流信息的虚拟防火墙的地址信息。
本申请实施例中,虚拟防火墙的地址信息具体可以为虚拟防火墙的IP(InternetProtocol,网际互连协议)信息。
S209、判断虚拟防火墙的地址信息与目标哈希记录是否相匹配,如果是,则执行步骤S210~步骤S211以及步骤S215~步骤S218;如果否,则执行步骤S212~步骤S218。
S210、获取数据流信息的数据包信息。
本申请实施例中,数据包信息包括包个数、字节数等,对此本申请实施例不作限定。
S211、根据数据包信息对目标哈希记录进行更新,并执行步骤S215~步骤S218。
S212、获取目标哈希记录中的会话标志字段。
本申请实施例中,该会话标志字段即表二所示的sessionFlag字段。
S213、根据会话标志字段确定会话方向。
本申请实施例中,可以根据sessionFlag字段确定信息流方向,从而确定session方向(即会话方向)。
S214、将会话方向和元组信息发送至目标会话对应的分布式防火墙,以使分布式防火墙根据会话方向和元组信息对目标会话的流量进行标记,并对标记后的流量不做流量统计。
本申请实施例中,流量采集器在发现有重复流量统计时,通知对应后序流量探针停止对该条流统计的方法。
本申请实施例中,将会话方向和元组信息发送至目标会话对应的分布式防火墙,通知对应的分布式防火墙根据会话方向和元组信息,查找到对应的目标会话,并在该目标会话上标记,当前虚拟防火墙后续对已标记过的目标会话不再做流量统计,且不再发送当前数据流信息的Netflow数据。
本申请实施例中,实现了在接收到重复Netflow数据时,可动态通知虚拟防火墙在目标会话上打标记,从根本上实现对已统计过的流量不再重复统计,从而实现不会发送重复Netflow数据,同时节省了虚拟防火墙的CPU计算资源及网络带宽。相比于在流量采集器接收到重复Netflow数据,再去重的方式,大大减少了流量探针及流量采集器的性能开销。
本申请实施例中,实施该方法,通过Netflow数据结合虚拟防火墙session中的会话状态,实现了流量数据的上下行分离,同时还实现了实时流量信息与历史流量数据的分离,可适用于不同的业务场景。
S215、当目标会话结束时,将缓存的数据流信息进行落盘存储。
本申请实施例中,可以根据Netflow数据中的sessionFlag字段,确定当前目标会话是否结束,当根据sessionFlag字段确定出虚拟防火墙已经标记当前目标会话已结束时,则将缓存的数据流信息进行落盘存储。
本申请实施例中,在进行落盘存储时,将其存储至目标数据库中,具体的,该目标数据库可以为Elasticsearch数据库等,对此本申请实施例不作限定。
S216、获取落盘存储的所有数据流信息以及统计需求。
本申请实施例中,通过流量采集器中实时流量统计缓存与历史流量统计落盘存储,实现不同业务场景的按需查询。
S217、根据统计需求对所有数据流信息进行统计处理,得到流量统计信息。
S218、输出流量统计信息。
本申请实施例中,该方法在管理平台想要查询流量IP、端口、协议等各维度的排名,趋势图,以及生成流量拓扑时,根据业务场景从实时流量缓存和已存储在Elasticsearch上的历史流量中进行查询,即可获得全部的流量信息。
请一并参阅图6,图6是本申请实施例提供的一种流量统计去重方法的方案实施示意图。如图6所示,可以通过Netflow v9协议以及预设模板进行解析。还可以以五元组为key,生成一张hash表,存储当前流的各字段数据。在接收到数据流信息后,先根据五元组为key,查询hash表,如果未查到记录,则新申请数据结构存储该数据流信息,以及发送数据流信息的虚拟防火墙的IP(数据结构中该字段为hostIP),并插入到hash表中。如果查到记录,则判断发送此次发送数据流信息的虚拟防火墙的IP是否与记录的hostIP一致,如果一致则更新hash表节点上的包个数、字节数,如果不一致,则说明当前数据包信息已由前序分布式防火墙上送记录,丢弃当前数据流信息,不再记录。
可见,实施本实施例所描述的流量统计去重方法,能够解决在虚拟化环境下的分布式防火墙的场景中,虚拟机之间的流量重复统计的问题。具体的,实施这种实施方式,能够基于分布式防火墙进行流量统计去重,从而使得在虚拟化环境下无需改变原有网络拓扑,就可对流量进行统计;同时,还能够使用虚拟化环境下的服务器配置,在服务器内部进行报文转发,发挥虚拟化云平台的优势;另外,该方法还能够在虚拟化环境下,通过Netflow数据结合虚拟防火墙上的session机制,再根据session上的数据流方向,实现在接收到重复Netflow数据时,可动态通知虚拟防火墙在session上打标记的效果,从而使得该方法能够从根本上实现对已统计过的流量不再重复统计,从而实现不会发送重复Netflow数据的效果。在此基础上,该方法还能够节省虚拟防火墙的cpu计算资源及网络带宽。这相比于在流量采集器接收到重复Netflow数据,再去重的方式,能够大大减少流量探针及流量采集器的性能开销。
额外的,该方法对同一报文只进行一次统计,能够提高流量统计信息的准确性;并且,大大减少了流量统计信息存储占用空间;同时,使用Netflow数据结合虚拟防火墙session中的会话状态,还能够实现流量数据的上下行分离,从而实现实时流量信息与历史流量数据的分离,使得该方法能够适用于不同的业务场景中。
实施例3
请参看图3,图3为本申请实施例提供的一种流量统计去重装置的结构示意图。如图3所示,该流量统计去重装置包括:
获取单元310,用于获取目标会话的数据流信息;
解析单元320,用于对数据流信息进行解析,得到解析数据;
判断单元330,用于根据预设的哈希表和解析数据判断数据流信息是否为重复流量;
缓存单元340,用于当判断出数据流信息不为重复流量时,则对数据流信息进行缓存;
存储单元350,用于当目标会话结束时,将缓存的数据流信息进行落盘存储。
本申请实施例中,对于流量统计去重装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的流量统计去重装置,能够对接收到的数据流信息进行解析,并通过哈希表对解析数据进行识别,从而判断出数据流信息是否为重复流量,并在数据流信息不为重复流量时,缓存该数据流信息,以及在目标会话结束时对数据流信息进行落盘存储。可见,该装置能够对流量进行去重处理,避免同一条流量被多次重复统计,提升流量统计准确性,从而提升流量查询性能。
实施例4
请一并参阅图4,图4是本申请实施例提供的另一种流量统计去重装置的结构示意图。其中,图4所示的流量统计去重装置是由图3所示的流量统计去重装置进行优化得到的。如图4所示,判断单元330包括:
获取子单元331,用于获取解析数据中的元组信息;
判断子单元332,用于判断是否能够在预存的哈希表中查询到与元组信息的相匹配的目标哈希记录;
确定子单元333,用于当判断出能够查询到目标哈希记录时,则确定数据流信息为重复流量;以及当判断出不能够查询到目标哈希记录时,则确定数据流信息不为重复流量。
作为一种可选的实施方式,流量统计去重装置还包括:
获取单元310,还用于获取发送数据流信息的虚拟防火墙的通信地址;
更新单元360,用于根据通信地址和解析数据生成新的哈希记录,并通过新的哈希记录对哈希表进行更新。
作为一种可选的实施方式,获取单元310,还用于当判断出数据流信息为重复流量时,获取发送数据流信息的虚拟防火墙的地址信息;
判断单元330,还用于判断虚拟防火墙的地址信息与目标哈希记录是否相匹配;
获取单元310,还用于在虚拟防火墙的地址信息与目标哈希记录相匹配时,获取数据流信息的数据包信息;
更新单元360,还用于根据数据包信息对目标哈希记录进行更新。
作为一种可选的实施方式,流量统计去重装置还包括:
获取单元310,还用于在虚拟防火墙的地址信息与目标哈希记录不相匹配时,获取目标哈希记录中的会话标志字段;
确定单元370,用于在根据会话标志字段确定会话方向;
发送单元380,用于将会话方向和元组信息发送至目标会话对应的分布式防火墙,以使分布式防火墙根据会话方向和元组信息对目标会话的流量进行标记,并对标记后的流量不做流量统计。
作为一种可选的实施方式,流量统计去重装置还包括:
获取单元310,还用于获取落盘存储的所有数据流信息以及统计需求;
处理单元390,用于根据统计需求对所有数据流信息进行统计处理,得到流量统计信息;并输出流量统计信息。
本申请实施例中,对于流量统计去重装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施本实施例所描述的流量统计去重装置,能够对接收到的数据流信息进行解析,并通过哈希表对解析数据进行识别,从而判断出数据流信息是否为重复流量,并在数据流信息不为重复流量时,缓存该数据流信息,以及在目标会话结束时对数据流信息进行落盘存储。可见,该装置能够对流量进行去重处理,避免同一条流量被多次重复统计,提升流量统计准确性,从而提升流量查询性能。
本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1或实施例2中任一项流量统计去重方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中任一项流量统计去重方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种流量统计去重方法,其特征在于,包括:
获取目标会话的数据流信息;
对所述数据流信息进行解析,得到解析数据;
根据预设的哈希表和所述解析数据判断所述数据流信息是否为重复流量;
如果否,则对所述数据流信息进行缓存;
当所述目标会话结束时,将缓存的所述数据流信息进行落盘存储。
2.根据权利要求1所述的流量统计去重方法,其特征在于,所述根据预设的哈希表和所述解析数据判断所述数据流信息是否为重复流量,包括:
获取所述解析数据中的元组信息;
判断是否能够在预存的哈希表中查询到与所述元组信息的相匹配的目标哈希记录;
如果是,则确定所述数据流信息为重复流量;
如果否,则确定所述数据流信息不为重复流量。
3.根据权利要求1所述的流量统计去重方法,其特征在于,在对所述数据流信息进行缓存之后,还包括:
获取发送所述数据流信息的虚拟防火墙的通信地址;
根据所述通信地址和所述解析数据生成新的哈希记录,并通过所述新的哈希记录对所述哈希表进行更新。
4.根据权利要求2所述的流量统计去重方法,其特征在于,所述方法还包括:
当判断出所述数据流信息为重复流量时,获取发送所述数据流信息的虚拟防火墙的地址信息;
判断所述虚拟防火墙的地址信息与所述目标哈希记录是否相匹配;
如果匹配,则获取所述数据流信息的数据包信息;
根据所述数据包信息对所述目标哈希记录进行更新。
5.根据权利要求4所述的流量统计去重方法,其特征在于,所述方法还包括:
如果所述虚拟防火墙的地址信息与所述目标哈希记录不相匹配时,获取所述目标哈希记录中的会话标志字段;
根据所述会话标志字段确定会话方向;
将所述会话方向和所述元组信息发送至所述目标会话对应的分布式防火墙,以使所述分布式防火墙根据所述会话方向和所述元组信息对所述目标会话的流量进行标记,并对标记后的流量不做流量统计。
6.根据权利要求1所述的流量统计去重方法,其特征在于,所述方法还包括:
获取落盘存储的所有数据流信息以及统计需求;
根据所述统计需求对所述所有数据流信息进行统计处理,得到流量统计信息;
输出所述流量统计信息。
7.一种流量统计去重装置,其特征在于,所述流量统计去重装置包括:
获取单元,用于获取目标会话的数据流信息;
解析单元,用于对所述数据流信息进行解析,得到解析数据;
判断单元,用于根据预设的哈希表和所述解析数据判断所述数据流信息是否为重复流量;
缓存单元,用于当判断出所述数据流信息不为重复流量时,则对所述数据流信息进行缓存;
存储单元,用于当所述目标会话结束时,将缓存的所述数据流信息进行落盘存储。
8.根据权利要求7所述的流量统计去重装置,其特征在于,所述判断单元包括:
获取子单元,用于获取所述解析数据中的元组信息;
判断子单元,用于判断是否能够在预存的哈希表中查询到与所述元组信息的相匹配的目标哈希记录;
确定子单元,用于当判断出能够查询到所述目标哈希记录时,则确定所述数据流信息为重复流量;以及当判断出不能够查询到所述目标哈希记录时,则确定所述数据流信息不为重复流量。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至6中任一项所述的流量统计去重方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至6任一项所述的流量统计去重方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111314535.2A CN114020734A (zh) | 2021-11-08 | 2021-11-08 | 一种流量统计去重方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111314535.2A CN114020734A (zh) | 2021-11-08 | 2021-11-08 | 一种流量统计去重方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114020734A true CN114020734A (zh) | 2022-02-08 |
Family
ID=80062415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111314535.2A Pending CN114020734A (zh) | 2021-11-08 | 2021-11-08 | 一种流量统计去重方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114020734A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115002179A (zh) * | 2022-05-06 | 2022-09-02 | 北京中睿天下信息技术有限公司 | 一种网络全流量会话流数据存储与还原的方法 |
CN116599865A (zh) * | 2023-05-17 | 2023-08-15 | 广州天懋信息系统股份有限公司 | 分布式流量去重统计方法、装置、设备及存储介质 |
-
2021
- 2021-11-08 CN CN202111314535.2A patent/CN114020734A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115002179A (zh) * | 2022-05-06 | 2022-09-02 | 北京中睿天下信息技术有限公司 | 一种网络全流量会话流数据存储与还原的方法 |
CN116599865A (zh) * | 2023-05-17 | 2023-08-15 | 广州天懋信息系统股份有限公司 | 分布式流量去重统计方法、装置、设备及存储介质 |
CN116599865B (zh) * | 2023-05-17 | 2024-05-24 | 广州天懋信息系统股份有限公司 | 分布式流量去重统计方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815112B (zh) | 一种基于深度包检测的海量数据监控系统及方法 | |
CN108701187B (zh) | 用于混合硬件软件分布式威胁分析的设备和方法 | |
US10666672B2 (en) | Collecting domain name system traffic | |
CN114020734A (zh) | 一种流量统计去重方法及装置 | |
CN108900374B (zh) | 一种应用于dpi设备的数据处理方法和装置 | |
KR101295708B1 (ko) | 트래픽 수집장치, 트래픽 분석장치, 시스템 및 그 분석방법 | |
CN106100997B (zh) | 一种网络流量信息处理方法及装置 | |
JP6768964B2 (ja) | DDoS攻撃検出方法およびデバイス | |
RU2014124009A (ru) | Метод и система потоковой передачи данных для обработки сетевых метаданных | |
JP2007336512A (ja) | 統計情報収集システム及び統計情報収集装置 | |
EP3242240B1 (en) | Malicious communication pattern extraction device, malicious communication pattern extraction system, malicious communication pattern extraction method and malicious communication pattern extraction program | |
CN112929376A (zh) | 一种流量数据的处理方法、装置、计算机设备和存储介质 | |
US20210336960A1 (en) | A System and a Method for Monitoring Traffic Flows in a Communications Network | |
US10084876B2 (en) | System and method for conditional analysis of network traffic | |
KR100608541B1 (ko) | 샘플링과 시그너쳐 검색 기능을 구비한 인터넷 프로토콜패킷 수집 장치 및 그 방법 | |
WO2016201876A1 (zh) | 一种加密流量的业务识别方法、装置和计算机存储介质 | |
CN111988271B (zh) | 一种通信流处理方法及装置 | |
CN112866275B (zh) | 一种流量抽样方法、装置和计算机可读存储介质 | |
CN111200666A (zh) | 用于识别访问域名的方法和系统 | |
WO2017206499A1 (zh) | 网络攻击检测方法以及攻击检测装置 | |
CN108183892B (zh) | 报文处理方法及装置 | |
CN113676379A (zh) | 一种dns隧道检测方法、装置、系统及计算机存储介质 | |
JP4319609B2 (ja) | 攻撃経路解析装置及び攻撃経路解析方法及びプログラム | |
CN108737291B (zh) | 一种网络流量表示的方法及装置 | |
JP2018101926A (ja) | ネットワーク装置および異常検知システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |