CN116800637B - 数据流中数据项基数的估算方法及相关设备 - Google Patents
数据流中数据项基数的估算方法及相关设备 Download PDFInfo
- Publication number
- CN116800637B CN116800637B CN202311087968.8A CN202311087968A CN116800637B CN 116800637 B CN116800637 B CN 116800637B CN 202311087968 A CN202311087968 A CN 202311087968A CN 116800637 B CN116800637 B CN 116800637B
- Authority
- CN
- China
- Prior art keywords
- value
- data item
- target
- target register
- data stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000004891 communication Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30098—Register arrangements
- G06F9/30101—Special purpose registers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据流中数据项基数的估算方法及相关设备,具体包括:提取目标数据项,并计算其对应的哈希值,确定该哈希值对应的比特串;在比特串中提取第一比特子串,并确定第一比特子串对应的目标寄存器;确定第一数值,所述第一数值为所述比特串在预定方向上开始连续0比特的数量值;判断第一数值是否大于目标寄存器的当前值;若大于,则更新目标寄存器的当前值为第一数值,并根据目标寄存器的当前值对相应计数器的计数值进行更新,实现对数据流中数据项基数的估算。本发明提供的方案,对当前数据流中需要进行数据项基数估算的各个数据项均进行计数,以实现对数据流中各个时间节点上数据项基数的准确估算,提升了数据项基数估算的准确率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据流中数据项基数的估算方法及相关设备。
背景技术
数据流是网络传输中一组有序的数据序列,数据流中包含有多种不同类型的数据项,通过分析不同数据项的基数,可以有效判断网络传输过程中数据的应用情况,进而对相关的网络应用进行优化改进。因此,数据流中数据项基数的估计,已成为数据流挖掘的基础问题之一。
目前,对数据流中数据项基数的估计过程,所采用的估计算法,往往在某个时间区间内以估计器的最终状态为指示量,丢弃了部分中间信息,导致最终的数据项基数估计误差较大,对数据项基数的估计准确率低。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种数据流中数据项基数的估算方法及相关设备,技术方案如下所述:
一种数据流中数据项基数的估算方法,包括:
提取当前数据流中的目标数据项;
计算所述目标数据项对应的哈希值,并确定所述哈希值对应的比特串;
在所述比特串中提取第一比特子串,并确定所述第一比特子串对应的目标寄存器,所述目标寄存器设置于已设定的存储结构中,所述存储结构设置有多个寄存器;
确定第一数值,所述第一数值为所述比特串在预定方向上开始连续0比特的数量值;
判断所述第一数值是否大于所述目标寄存器的当前值;
若所述第一数值大于所述目标寄存器的当前值,则更新所述目标寄存器的当前值为所述第一数值,并根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,以实现对数据流中数据项基数的估算。
上述的方法,可选的,还包括:
若所述第一数值不大于所述目标寄存器的当前值,则结束对所述目标数据项的操作。
上述的方法,可选的,所述提取当前数据流中的目标数据项,包括:
实时对所述当前数据流中的各个数据项进行监测,当监测到与预定数据项类型相匹配的数据项时,提取该数据项为目标数据项。
上述的方法,可选的,所述在所述比特串中提取第一比特子串,包括:
确定所述比特串的起始位置;
从所述起始位置起,提取所述比特串的前N个比特组成所述第一比特子串,所述N为正整数。
上述的方法,可选的,所述预定方向为所述比特串由右至左的方向。
上述的方法,可选的,还包括:
在进行数据项基数估算前,对所述存储结构及所述计数器进行初始化操作。
上述的方法,可选的,所述根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,包括:
确定所述计数器的当前值A;A为正整数;
将所述当前值A更新为A+2M+1,M为所述目标寄存器的当前值,M为正整数。
一种数据流中数据项基数的估算装置,包括:
提取单元,用于提取当前数据流中的目标数据项;
计算单元,用于计算所述目标数据项对应的哈希值,并确定所述哈希值对应的比特串;
第一确定单元,用于在所述比特串中提取第一比特子串,并确定所述第一比特子串对应的目标寄存器,所述目标寄存器设置于已设定的存储结构中,所述存储结构设置有多个寄存器;
第二确定单元,用于确定第一数值,所述第一数值为所述比特串在预定方向上开始连续0比特的数量值;
判断单元,用于判断所述第一数值是否大于所述目标寄存器的当前值;
估算单元,用于若所述第一数值大于所述目标寄存器的当前值,则更新所述目标寄存器的当前值为所述第一数值,并根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,以实现对数据流中数据项基数的估算。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的数据流中数据项基数的估算方法。
一种电子设备,包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的数据流中数据项基数的估算方法。
与现有技术相比,本发明具有以下优点:本发明提供的方法,具体应用时,通过提取当前数据流中的目标数据项;计算所述目标数据项对应的哈希值,并确定所述哈希值对应的比特串;在所述比特串中提取第一比特子串,并确定所述第一比特子串对应的目标寄存器,所述目标寄存器设置于已设定的存储结构中,所述存储结构设置有多个寄存器;确定第一数值,所述第一数值为所述比特串在预定方向上开始连续0比特的数量值;判断所述第一数值是否大于所述目标寄存器的当前值;若所述第一数值大于所述目标寄存器的当前值,则更新所述目标寄存器的当前值为所述第一数值,并根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,进而实现对数据流中数据项基数的估算。本发明提供的方法,对当前数据流中需要进行数据项基数估算的各个数据项,均进行计数,以实现对数据流中各个时间节点上数据项基数的准确估算,提升了数据项基数估算的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种数据流中数据项基数的估算方法的方法流程图;
图2为本发明实施例提供的一种数据流中数据项基数的估算方法的又一方法流程图;
图3为本发明实施例提供的一种数据流中数据项基数的估算装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据流中数据项基数的估算方法,用于对数据流中的数据项基数进行估算,该方法可以应用在各种计算机系统平台及设备终端中,其执行主体可以为设置在系统平台或终端中的处理器,图1示出了本发明实施例提供的数据流中数据项基数的估算方法的方法流程图,包括:
S101:提取当前数据流中的目标数据项;
本发明实施例提供的方法中,在对数据流中的各种数据项的数据项基数进行估算时,对于每一种类型的数据项,可以根据实际需要,将需要进行数据项基数估算的数据项确定为目标数据项,数据流中的每一种数据项均可以被确定为目标数据项,以表示对该数据项进行基数估算。
在预定时间间隔内,实时提取需要进行数据项基数估算的目标数据项,本发明实施例中,对于预定时间间隔内的,同一类型的数据项,可以采用逐一提取的方式,实时逐一捕捉提取。
在实际应用过程中,实时对所述当前数据流中的各个数据项进行监测,当监测到与预定数据项类型相匹配的数据项时,提取该数据项为目标数据项。
在实际应用中,例如在搜索引擎中,对不同搜索查询的数量,针对同一搜索内容,在预定时间间隔内,每一次搜索该内容的过程可以看作为一个数据项。
S102:计算所述目标数据项对应的哈希值,并确定所述哈希值对应的比特串;
本发明实施例提供的方法中,对于已提取的目标数据项,计算该目标数据项对应的哈希值,根据计算获得的哈希值,相应计算该哈希值对应的比特串。
S103:在所述比特串中提取第一比特子串,并确定所述第一比特子串对应的目标寄存器,所述目标寄存器设置于已设定的存储结构中,所述存储结构设置有多个寄存器;
本发明实施例提供的方法中,在确定的比特串中提取第一比特子串,具体的提取方式可以为,确定该比特串的起始位置,从所述起始位置开始,提取所述比特串的前N个比特组成该第一比特子串,其中N为正整数。
在提取到第一比特子串后,根据该第一比特子串,确定第一比特子串对应的目标寄存器。
本发明实施例提供的方法中,预先设定有一存储结构,该存储结构满足马尔可夫过程的定义,即未来的状态只与当前的状态相关。本发明实施例提供的存储结构可以为满足马尔可夫过程的各种能够应用于实践的存储结构。
该存储结构中设置有多个寄存器,每一种类型的数据项可以对应一个寄存器。
S104:确定第一数值,所述第一数值为所述比特串在预定方向上开始连续0比特的数量值;
本发明实施例提供的方法中,进一步确定第一数值,该第一数值为比特串在预定方向上开始连续0比特的数量值,该预定方向为所述比特串由右至左的方向。
S105:判断所述第一数值是否大于所述目标寄存器的当前值;
S106:若所述第一数值大于所述目标寄存器的当前值,则更新所述目标寄存器的当前值为所述第一数值,并根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,以实现对数据流中数据项基数的估算。
本发明实施例提供的方法中,对于每一种类型的数据项,在进行基数估算前,对该数据项设置有相应的计数器,在进行基数估算过程前,本发明实施例提供的方法,对存储结构及计数器进行了初始化操作,以确保在基数估算过程中的计数准确。
进一步的,判断第一数值是否大于目标寄存器的当前值,以判断寄存器的容量是否需要进行更新。
若第一数值大于目标寄存器的当前值,则更新目标寄存器的当前值为第一数值,并同时对目标数据项对应的计数器的计数值进行更新,经过当前时间间隔内对特定类型的各个数据项的逐一计数,最终实现对数据流中数据项基数的估算。
本发明实施例提供的方法中,对当前数据流中需要进行数据项基数估算的各个数据项,均进行计数,以实现对数据流中各个时间节点上数据项基数的准确估算,提升了数据项基数估算的准确率。
在实际的估算过程中,考虑并涉及到数据流中间状态的基数估算,使得估算结果更接近实际应用。
本发明实施例提供的方法中,还包括:
若所述第一数值不大于所述目标寄存器的当前值,则结束对所述目标数据项的操作。
本发明实施例提供的方法中,所述根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,包括:
确定所述计数器的当前值A;A为正整数;
将所述当前值A更新为A+2M+1,M为所述目标寄存器的当前值,M为正整数。
在实际的估算过程中,针对同一类型的各个数据项,根据时间次序,每提取一个目标数据项进行估算计数后,在后续的新的目标数据项进行估算时,确定计数器的当前值A,按相应的计算公式,对A进行更新,获得新的计数结果。
参考图2,示出了本发明实施例提供的数据流中数据项基数的估算方法的又一方法流程图,该流程图基于具体实例,相应的存储结构采用了LogLog存储结构,LogLog存储结构是符合马尔可夫过程的一种存储结构。
在应用LogLog存储结构对预定时间过程中的数据流中的数据项进行基数估算时,在估算前,对该LogLog存储结构以及该类型数据项对应的计数器进行初始化。计数器可以以最小堆的形式体现。
提取数据流中最新到达的数据项d,该数据项d即为目标数据项。
对该数据项d进行哈希计算,计算该数据项对应的哈希值,并得到哈希值对应的比特串,用B表示。
提取比特串B的前N个比特,获得比特子串以选择与该比特子串对应的寄存器,用j表示前N个比特的数值,则数据项d对应的寄存器为M[j],令C(B)表示比特串B从右侧开始连续0比特的数量。
判断C(B)是否大于寄存器M[j]的值,即C(B)是否大于M[j];
如果不大于,则此数据项的操作结束;
如果大于,则更新计数器的值A=A+2M[j]+1,更新寄存器的值,M[j]=C(B)。
经过计数后,最终在预定时间间隔内,可以获得最终的计数器的值A,该计数结果中包含了,预定时间间隔内,数据流中各个中间数据项的基数计算,覆盖全面,最终的基数估算结果更加准确。
本发明实施例还提供了与一种数据流中数据项基数的估算方法对应的估算装置,该估算装置用于实现所述数据流中数据项基数的估算方法在实际中的应用,该估算装置的结构图可参照图3,包括:
提取单元201,用于提取当前数据流中的目标数据项;
计算单元202,用于计算所述目标数据项对应的哈希值,并确定所述哈希值对应的比特串;
第一确定单元203,用于在所述比特串中提取第一比特子串,并确定所述第一比特子串对应的目标寄存器,所述目标寄存器设置于已设定的存储结构中,所述存储结构设置有多个寄存器;
第二确定单元204,用于确定第一数值,所述第一数值为所述比特串在预定方向上开始连续0比特的数量值;
判断单元205,用于判断所述第一数值是否大于所述目标寄存器的当前值;
估算单元206,用于若所述第一数值大于所述目标寄存器的当前值,则更新所述目标寄存器的当前值为所述第一数值,并根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,以实现对数据流中数据项基数的估算。
本发明提供的装置,对当前数据流中需要进行数据项基数估算的各个数据项,均进行计数,以实现对数据流中各个时间节点上数据项基数的准确估算,提升了数据项基数估算的准确率。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述数据流中数据项基数的估算方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据流中数据项基数的估算方法。
如图4所示,本发明实施例提供了一种电子设备,所述电子设备30包括至少一个处理器301、以及与处理器301连接的至少一个存储器302、总线303;其中,处理器301、存储器302通过总线303完成相互间的通信;处理器301用于调用存储器302中的程序指令,以执行上述的数据流中数据项基数的估算方法。本文中的设备可以是服务器、PC等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序,包括:
提取当前数据流中的目标数据项;
计算所述目标数据项对应的哈希值,并确定所述哈希值对应的比特串;
在所述比特串中提取第一比特子串,并确定所述第一比特子串对应的目标寄存器,所述目标寄存器设置于已设定的存储结构中,所述存储结构设置有多个寄存器;
确定第一数值,所述第一数值为所述比特串在预定方向上开始连续0比特的数量值;
判断所述第一数值是否大于所述目标寄存器的当前值;
若所述第一数值大于所述目标寄存器的当前值,则更新所述目标寄存器的当前值为所述第一数值,并根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,以实现对数据流中数据项基数的估算。
上述的方法,可选的,还包括:
若所述第一数值不大于所述目标寄存器的当前值,则结束对所述目标数据项的操作。
上述的方法,可选的,所述提取当前数据流中的目标数据项,包括:
实时对所述当前数据流中的各个数据项进行监测,当监测到与预定数据项类型相匹配的数据项时,提取该数据项为目标数据项。
上述的方法,可选的,所述在所述比特串中提取第一比特子串,包括:
确定所述比特串的起始位置;
从所述起始位置起,提取所述比特串的前N个比特组成所述第一比特子串,所述N为正整数。
上述的方法,可选的,所述预定方向为所述比特串由右至左的方向。
上述的方法,可选的,还包括:
在进行数据项基数估算前,对所述存储结构及所述计数器进行初始化操作。
上述的方法,可选的,所述根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,包括:
确定所述计数器的当前值A;A为正整数;
将所述当前值A更新为A+2M+1,M为所述目标寄存器的当前值,M为正整数。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据流中数据项基数的估算方法,其特征在于,包括:
提取当前数据流中的目标数据项;
计算所述目标数据项对应的哈希值,并确定所述哈希值对应的比特串;
在所述比特串中提取第一比特子串,并确定所述第一比特子串对应的目标寄存器,所述目标寄存器设置于已设定的存储结构中,所述存储结构设置有多个寄存器;
确定第一数值,所述第一数值为所述比特串在预定方向上开始连续0比特的数量值;
判断所述第一数值是否大于所述目标寄存器的当前值;
若所述第一数值大于所述目标寄存器的当前值,则更新所述目标寄存器的当前值为所述第一数值,并根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,以实现对数据流中数据项基数的估算。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述第一数值不大于所述目标寄存器的当前值,则结束对所述目标数据项的操作。
3.根据权利要求1所述的方法,其特征在于,所述提取当前数据流中的目标数据项,包括:
实时对所述当前数据流中的各个数据项进行监测,当监测到与预定数据项类型相匹配的数据项时,提取该数据项为目标数据项。
4.根据权利要求1所述的方法,其特征在于,所述在所述比特串中提取第一比特子串,包括:
确定所述比特串的起始位置;
从所述起始位置起,提取所述比特串的前N个比特组成所述第一比特子串,所述N为正整数。
5.根据权利要求1所述的方法,其特征在于,所述预定方向为所述比特串由右至左的方向。
6.根据权利要求1所述的方法,其特征在于,还包括:
在进行数据项基数估算前,对所述存储结构及所述计数器进行初始化操作。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,包括:
确定所述计数器的当前值A;A为正整数;
将所述当前值A更新为A+2M+1,M为所述目标寄存器的当前值,M为正整数。
8.一种数据流中数据项基数的估算装置,其特征在于,包括:
提取单元,用于提取当前数据流中的目标数据项;
计算单元,用于计算所述目标数据项对应的哈希值,并确定所述哈希值对应的比特串;
第一确定单元,用于在所述比特串中提取第一比特子串,并确定所述第一比特子串对应的目标寄存器,所述目标寄存器设置于已设定的存储结构中,所述存储结构设置有多个寄存器;
第二确定单元,用于确定第一数值,所述第一数值为所述比特串在预定方向上开始连续0比特的数量值;
判断单元,用于判断所述第一数值是否大于所述目标寄存器的当前值;
估算单元,用于若所述第一数值大于所述目标寄存器的当前值,则更新所述目标寄存器的当前值为所述第一数值,并根据所述目标寄存器的当前值对所述目标数据项所对应计数器的计数值进行更新,以实现对数据流中数据项基数的估算。
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~7任意一项所述的数据流中数据项基数的估算方法。
10.一种电子设备,其特征在于,包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行如权利要求1~7任意一项所述的数据流中数据项基数的估算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087968.8A CN116800637B (zh) | 2023-08-28 | 2023-08-28 | 数据流中数据项基数的估算方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087968.8A CN116800637B (zh) | 2023-08-28 | 2023-08-28 | 数据流中数据项基数的估算方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116800637A CN116800637A (zh) | 2023-09-22 |
CN116800637B true CN116800637B (zh) | 2023-10-24 |
Family
ID=88040047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311087968.8A Active CN116800637B (zh) | 2023-08-28 | 2023-08-28 | 数据流中数据项基数的估算方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116800637B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709001A (zh) * | 2016-12-22 | 2017-05-24 | 西安电子科技大学 | 一种面向流式大数据的基数估计方法 |
CN110532307A (zh) * | 2019-07-11 | 2019-12-03 | 北京大学 | 一种流滑动窗口的数据存储方法及查询方法 |
CN110955685A (zh) * | 2019-11-29 | 2020-04-03 | 北京锐安科技有限公司 | 一种大数据基数估计方法、系统、服务器和存储介质 |
CN115270176A (zh) * | 2022-07-22 | 2022-11-01 | 西安交通大学 | 一种基数估计方法、系统、计算设备及计算机存储介质 |
CN116095029A (zh) * | 2022-11-30 | 2023-05-09 | 鹏城实验室 | 网络数据流测量方法、系统、终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074237B2 (en) * | 2017-04-14 | 2021-07-27 | Dynatrace Llc | Method and system to estimate the cardinality of sets and set operation results from single and multiple HyperLogLog sketches |
-
2023
- 2023-08-28 CN CN202311087968.8A patent/CN116800637B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709001A (zh) * | 2016-12-22 | 2017-05-24 | 西安电子科技大学 | 一种面向流式大数据的基数估计方法 |
CN110532307A (zh) * | 2019-07-11 | 2019-12-03 | 北京大学 | 一种流滑动窗口的数据存储方法及查询方法 |
CN110955685A (zh) * | 2019-11-29 | 2020-04-03 | 北京锐安科技有限公司 | 一种大数据基数估计方法、系统、服务器和存储介质 |
CN115270176A (zh) * | 2022-07-22 | 2022-11-01 | 西安交通大学 | 一种基数估计方法、系统、计算设备及计算机存储介质 |
CN116095029A (zh) * | 2022-11-30 | 2023-05-09 | 鹏城实验室 | 网络数据流测量方法、系统、终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
利用HyperLogLog基数估法进行DDoS攻击预警;汤琛;中国新通信(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116800637A (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109587008B (zh) | 检测异常流量数据的方法、装置及存储介质 | |
CN111477341A (zh) | 一种疫情监测方法、装置、电子设备及存储介质 | |
CN114422267A (zh) | 流量检测方法、装置、设备及介质 | |
CN114595210A (zh) | 一种多维数据的异常检测方法、装置及电子设备 | |
CN117034180B (zh) | 电力通信设备数据异常检测方法、系统及存储介质 | |
CN111368163B (zh) | 一种爬虫数据的识别方法、系统及设备 | |
CN110716857B (zh) | 测试用例管理方法、装置、计算机设备和存储介质 | |
CN112286706B (zh) | 安卓应用的应用信息远程快速获取方法及相关设备 | |
CN109213774B (zh) | 数据的存储方法及装置、存储介质、终端 | |
CN116800637B (zh) | 数据流中数据项基数的估算方法及相关设备 | |
JPWO2019107149A1 (ja) | ビットアサイン推定装置、ビットアサイン推定方法、プログラム | |
CN107463578B (zh) | 应用下载量统计数据去重方法、装置和终端设备 | |
CN112684402B (zh) | 用电量平稳电能运行误差数据的监测方法及系统 | |
CN113806070B (zh) | 边缘计算和云计算的数据管理方法和装置 | |
CN112328464B (zh) | 指标数据存储、相关性分析方法及计算机可读存储介质 | |
CN111143294B (zh) | 电力采集终端数据检索方法、装置和电子设备 | |
CN116302095A (zh) | 指令跳转判断方法、装置、电子设备及可读存储介质 | |
CN109542927B (zh) | 有效数据筛选方法、可读存储介质和终端 | |
CN110059272B (zh) | 一种页面特征识别方法和装置 | |
CN107577604B (zh) | 测试数据的生成方法、装置和计算机可读存储介质 | |
JP6516781B2 (ja) | パケット解析装置、方法、およびその非一時的コンピュータ可読媒体 | |
CN111913805B (zh) | 一种cpu利用率计算方法及装置 | |
CN110086867A (zh) | 一种还车网点推送方法 | |
CN116881338B (zh) | 基于大模型的数据流的数据挖掘方法及相关设备 | |
CN111510340B (zh) | 访问请求检测方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |