CN116881338B - 基于大模型的数据流的数据挖掘方法及相关设备 - Google Patents

基于大模型的数据流的数据挖掘方法及相关设备 Download PDF

Info

Publication number
CN116881338B
CN116881338B CN202311150180.7A CN202311150180A CN116881338B CN 116881338 B CN116881338 B CN 116881338B CN 202311150180 A CN202311150180 A CN 202311150180A CN 116881338 B CN116881338 B CN 116881338B
Authority
CN
China
Prior art keywords
data item
target
array element
target data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311150180.7A
Other languages
English (en)
Other versions
CN116881338A (zh
Inventor
刘博�
袁海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aoxing Technology Co ltd
Original Assignee
Beijing Aoxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aoxing Technology Co ltd filed Critical Beijing Aoxing Technology Co ltd
Priority to CN202311150180.7A priority Critical patent/CN116881338B/zh
Publication of CN116881338A publication Critical patent/CN116881338A/zh
Application granted granted Critical
Publication of CN116881338B publication Critical patent/CN116881338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大模型的数据流的数据挖掘方法及相关设备,该方法包括:从目标数据流中提取目标数据项;对目标数据项进行哈希运算,得到多个哈希值;依据各个哈希值,在已构建的存储结构中,确定目标数据项对应的多个目标数组元素;该存储结构中设置有多个数组,数组的每个数组元素中设置有计数器和标签;对每个目标数组元素中计数器的计数值进行更新;依据各个目标数组元素中的标签,判断最小堆中是否存在目标数据项关联的节点,若存在,则结束对于目标数据项的处理。应用本发明的方法,可基于相应数组元素中的标签,识别数据项是否已记录在最小堆中。无需在每个数据项的处理过程中都利用最小堆进行比对,有利于提高处理速度。

Description

基于大模型的数据流的数据挖掘方法及相关设备
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种基于大模型的数据流的数据挖掘方法及相关设备。
背景技术
在数据挖掘的场景中,数据流为数据挖掘的常见对象之一。数据流是一组持续到达的数据序列,其具有持续生成、高速到达、潜在无界等特点。数据流的主要挖掘任务之一即为Top-k项的挖掘。Top-k项指的是数据流中流频最大的前k个数据项,流频则指的是数据项出现的次数,也可称为频数。
目前,数据流的Top-k项的数据挖掘方式,主要是利用概要数据结构(Sketch)获得数据项的频率,建立最小堆存储Top-k项,当数据项到达时,将该数据项与最小堆中当前记录的数据项进行比对,以确定是否使用当前到达的数据项替换最小堆中的数据项,继而得到最终的最小堆,即数据流Top-k项的数据挖掘结果。
在现有的数据挖掘过程中,数据流中每个数据项到达时都需要与最小堆中的数据项进行比对,需要消耗一定的时间。而数据挖掘任务常常会存在实时挖掘的需求,基于现有方式实现数据流Top-k项的挖掘,其处理速度较慢,导致数据挖掘的实时性较差。
发明内容
有鉴于此,本发明实施例提供了一种基于大模型的数据流的数据挖掘方法,以解决现有的数据挖掘过程中,需将每个数据项与最小堆中的数据项进行比较,处理速度较慢的问题。
本发明实施例还提供了一种基于大模型的数据流的数据挖掘装置,用以保证上述方法实际中的实现及应用。
为实现上述目的,本发明实施例提供如下技术方案:
一种基于大模型的数据流的数据挖掘方法,包括:
从目标数据流中提取目标数据项;所述目标数据流为需挖掘其中频数最大的前k个数据项的数据流,k为正整数;
对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值;
依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素;所述存储结构中设置有多个数组,每个所述数组包括多个数组元素,每个所述数组元素中设置有计数器和标签;每个所述数组元素中的标签表征该数组元素当前是否与已构建的最小堆中的节点相关联;所述多个目标数组元素与所述多个数组一一对应,每个所述目标数组元素为其对应的数组中的数组元素;所述最小堆用于存储数据挖掘结果;
对于每个所述目标数组元素,对该目标数组元素中计数器的计数值进行更新,以增加该目标数组元素中计数器的计数值;
依据各个所述目标数组元素中的标签,判断所述最小堆中是否已存在与所述目标数据项相关联的节点;
若所述最小堆中已存在与所述目标数据项相关联的节点,则结束所述目标数据项的数据挖掘处理过程。
上述的方法,可选的,所述对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值,包括:
确定哈希函数集合;所述哈希函数集合包括预设的多个哈希函数;
对于每个所述哈希函数,应用该哈希函数对所述目标数据项进行哈希运算,得到该哈希函数对应的哈希运算结果;
将每个所述哈希函数对应的哈希运算结果作为所述目标数据项对应的哈希值。
上述的方法,可选的,所述依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素,包括:
确定所述多个哈希函数与所述多个数组的一一对应关系;
依据所述多个哈希函数与所述多个数组的一一对应关系,确定所述多个哈希值与所述多个数组的一一对应关系;
对于每个所述数组对应的哈希值,在该数组的各个数组元素中,确定该哈希值对应的数组元素,并将该哈希值对应的数组元素作为所述目标数据项对应的目标数组元素。
上述的方法,可选的,所述依据各个所述目标数组元素中的标签,判断所述最小堆中是否已存在与所述目标数据项相关联的节点,包括:
判断每个所述目标数组元素中的标签是否均表征其对应的数组元素当前与所述最小堆中的节点相关联;
若每个所述目标数组元素中的标签均表征其对应的数组元素当前与所述最小堆中的节点相关联,则确定所述最小堆中已存在与所述目标数据项相关联的节点。
上述的方法,可选的,还包括:
若所述最小堆中不存在与所述目标数据项相关联的节点,则对所述目标数据项进行频次估计处理,得到所述目标数据项对应的估计频次;
确定所述最小堆中根节点对应的频次;
判断所述估计频次是否大于所述根节点对应的频次;
若所述估计频次未大于所述根节点对应的频次,则结束所述目标数据项的数据挖掘处理过程。
上述的方法,可选的,所述对所述目标数据项进行频次估计处理,得到所述目标数据项对应的估计频次,包括:
确定计数值集合,所述计数值集合包括当前各个所述目标数组元素中计数器的计数值;
确定所述计数值集合中的最小值,并将该最小值作为所述目标数据项对应的估计频次。
上述的方法,可选的,还包括:
若所述估计频次大于所述根节点对应的频次,则基于所述最小堆,对各个所述数组的数组元素中的标签进行更新;
基于各个所述数组的数组元素中计数器的计数值,对所述最小堆中的各个节点进行频次更新处理,完成频次更新处理后,对所述最小堆进行堆化处理;
基于每个所述目标数组元素中的当前标签以及所述最小堆的当前根节点,判断当前所述目标数据项是否符合预设的入堆条件;
若所述目标数据项符合所述入堆条件,则确定所述当前根节点对应的第一数据项;
在所述存储结构中,确定所述第一数据项对应的多个第一数组元素;
对每个所述第一数组元素中的标签进行更新,使每个所述第一数组元素中的标签更新为,表征其对应的数组元素当前未与所述最小堆中的节点相关联的标签;
确定所述目标数据项对应的节点,基于所述目标数据项对应的节点对所述最小堆进行节点更新处理,以将所述当前根节点替换为所述目标数据项对应的节点;
对每个所述目标数组元素中的标签进行更新,使每个所述目标数组元素中的标签更新为,表征其对应数组元素当前与所述最小堆中的节点相关联的标签。
一种基于大模型的数据流的数据挖掘装置,包括:
提取单元,用于从目标数据流中提取目标数据项;所述目标数据流为需挖掘其中频数最大的前k个数据项的数据流,k为正整数;
计算单元,用于对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值;
第一确定单元,用于依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素;所述存储结构中设置有多个数组,每个所述数组包括多个数组元素,每个所述数组元素中设置有计数器和标签;每个所述数组元素中的标签表征该数组元素当前是否与已构建的最小堆中的节点相关联;所述多个目标数组元素与所述多个数组一一对应,每个所述目标数组元素为其对应的数组中的数组元素;所述最小堆用于存储数据挖掘结果;
计数单元,用于对于每个所述目标数组元素,对该目标数组元素中计数器的计数值进行更新,以增加该目标数组元素中计数器的计数值;
判断单元,用于依据各个所述目标数组元素中的标签,判断所述最小堆中是否已存在与所述目标数据项相关联的节点;
第二确定单元,用于若所述最小堆中已存在与所述目标数据项相关联的节点,则结束所述目标数据项的数据挖掘处理过程。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的基于大模型的数据流的数据挖掘方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的基于大模型的数据流的数据挖掘方法。
基于上述本发明实施例提供的一种基于大模型的数据流的数据挖掘方法,包括:从目标数据流中提取目标数据项;目标数据流为需挖掘其中频数最大的前k个数据项的数据流,k为正整数;对目标数据项进行哈希值计算处理,得到目标数据项对应的多个哈希值;依据各个哈希值,在已构建的存储结构中,确定目标数据项对应的多个目标数组元素;所述存储结构中设置有多个数组,每个数组包括多个数组元素,每个数组元素中设置有计数器和标签;每个数组元素中的标签表征该数组元素当前是否与已构建的最小堆中的节点相关联;所述多个目标数组元素与所述多个数组一一对应,每个目标数组元素为其对应的数组中的数组元素;所述最小堆用于存储数据挖掘结果;对每个目标数组元素中计数器的计数值进行更新,以增加每个目标数组元素中计数器的计数值;依据各个目标数组元素中的标签,判断最小堆中是否已存在与目标数据项相关联的节点;若最小堆中已存在与目标数据项相关联的节点,则结束目标数据项的数据挖掘处理过程。应用本发明实施例提供的方法,在用于实现数据挖掘的存储结构的数组元素中设置标签,以标签表示数组元素是否与最小堆中的节点相关联。在数据挖掘过程中,可根据当前处理的数据项所对应的目标数组元素中的标签,识别当前数据项是否已记录在最小堆中,若识别到当前数据项已记录在最小堆中,则可结束对于当前数据项的操作。无需在每个数据项的处理过程中都利用最小堆进行比对,有利于提高数据挖掘的处理速度,提升数据挖掘的实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于大模型的数据流的数据挖掘方法的方法流程图;
图2为本发明实施例提供的一种数据流的数据挖掘过程的示例图;
图3为本发明实施例提供的一种存储结构的结构示例图;
图4为本发明实施例提供的一种最小堆的结构示例图;
图5为本发明实施例提供的一种基于大模型的数据流的数据挖掘装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种基于大模型的数据流的数据挖掘方法,用于对数据流中的Top-k项进行数据挖掘,该方法可以应用在各类计算机系统平台及设备终端中,其执行主体可以为设置在系统平台或设备终端中的处理器,该处理器通过大模型训练学习获得,基于大模型实现数据挖掘过程,大模型指的是具有庞大的参数规模和复杂程度的机器学习模型。
本发明实施例提供的方法的方法流程图如图1所示,包括:
S101:从目标数据流中提取目标数据项;
本发明实施例提供的方法中,当存在数据流Top-k项的数据挖掘需求时,可将当前需进行数据挖掘的数据流作为目标数据流。目标数据流即需要进行Top-k项挖掘的数据流,Top-k项挖掘即需要挖掘数据流中频数最大的前k个数据项,也可以理解为挖掘数据流中出现频率最高的前k个数据项,k为正整数。Top-k项的数据挖掘可应用在各类需求场景中,例如,在网络流数据的监控场景中,可利用数据流Top-k项的挖掘,获得访问量激增的基础服务器。
本发明实施例提供的方法中,持续监测目标数据流,从中提取目标数据项,目标数据项为当前需要进行数据挖掘处理的数据项,可以将数据流中新到达的数据项作为目标数据项,以依次对数据流中的每个数据项进行数据挖掘处理。
S102:对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值;
本发明实施例提供的方法中,按照预设的哈希策略,对目标数据项进行哈希值计算处理,即计算目标数据项的多个哈希值。
S103:依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素;
本发明实施例提供的方法中,预先构建了一个存储结构和一个最小堆,在挖掘过程开始前,可对存储结构和最小堆进行初始化。存储结构用于记录数据挖掘过程中数据流各数据项的统计情况。最小堆用于存储数据挖掘结果,即当前挖掘到的Top-k项的数据项信息,最小堆中的节点数目与Top-k项的需求数目相对应。当数据挖掘过程结束后,最小堆中各节点表征的数据项即为最终的数据挖掘结果。
本发明实施例提供的方法中,预先构建的存储结构中设置有多个数组,每个所述数组包括多个数组元素,每个所述数组元素中设置有计数器和标签;每个所述数组元素中的标签表征该数组元素当前是否与已构建的最小堆中的节点相关联。该存储结构可以是基于Count-min Sketch(计数最小草图)构建的数据结构。每个数组元素中的计数器用于统计映射到该数组元素的数据项的个数,计数器的初始计数值为0,每个数组元素中的标签基于最小堆中的节点表征的数据项更新,每个数组元素中标签所表征的含义通过标签值区分,每个数组元素中标签的初始标签值为表征数组元素当前未与最小堆中节点相关联的标签值。
在对目标数据项进行数据挖掘处理时,可将目标数据项对应的各个哈希值作为索引,在存储结构中找到目标数据项对应的多个目标数组元素,所述多个目标数组元素与存储结构中的所述多个数组一一对应,每个目标数组元素为其对应的数组中的数组元素,也就是可在存储结构中的每个数组中,找到一个与目标数据项相匹配的数组元素,将该数组元素作为目标数组元素。可以理解的是,各个目标数组元素即为各个数组中与目标数据项存在映射关系的数组元素。
S104:对于每个所述目标数组元素,对该目标数组元素中计数器的计数值进行更新,以增加该目标数组元素中计数器的计数值;
本发明实施例提供的方法中,对每个目标数组元素中计数器的计数值进行更新,以增加每个目标数组元素中计数器的计数值,具体的,使每个目标数组元素中计数器的计数值加1。
S105:依据各个所述目标数组元素中的标签,判断所述最小堆中是否已存在与所述目标数据项相关联的节点;
本发明实施例提供的方法中,各个目标数组元素与目标数据项存在映射关系,而各个目标数组元素中的标签可以表征该数组元素与最小堆中的节点是否具有映射关系,故基于各个目标数组元素中的标签,判断最小堆中是否存在目标数据项关联的节点,也就是判断目标数据项是否已记录在最小堆中。
S106:若所述最小堆中已存在与所述目标数据项相关联的节点,则结束所述目标数据项的数据挖掘处理过程。
本发明实施例提供的方法中,若是经判断,最小堆中已存在与目标数据项相关联的节点,即认为最小堆中已记录了目标数据项,此时则结束目标数据项的数据挖掘处理过程,接着对目标数据流中的下一个数据项进行数据挖掘处理,当完成所有需要进行数据挖掘处理的数据项的处理过程后,最终的最小堆中记录的数据项信息即为数据流Top-k项的数据挖掘结果。
基于本发明实施例提供的方法,从目标数据流中提取目标数据项;对目标数据项进行哈希值计算处理,得到目标数据项对应的多个哈希值;依据各个哈希值,在已构建的存储结构中,确定目标数据项对应的多个目标数组元素;对于每个目标数组元素,对该目标数组元素中计数器的计数值进行更新,以增加该目标数组元素中计数器的计数值;依据各个目标数组元素中的标签,判断最小堆中是否已存在与目标数据项相关联的节点;若最小堆中已存在与目标数据项相关联的节点,则结束目标数据项的数据挖掘处理过程。应用本发明实施例提供的方法,在用于实现数据挖掘的存储结构的数组元素中设置标签,以标签表示数组元素是否与最小堆中的节点相关联。在数据挖掘过程中,可根据当前处理的数据项所对应的目标数组元素中的标签,识别当前数据项是否已记录在最小堆中,若识别到当前数据项已记录在最小堆中,则可结束对于当前数据项的操作。无需在每个数据项的处理过程中都利用最小堆进行比对,有利于提高数据挖掘的处理速度,提升数据挖掘的实时性。
在图1所示方法的基础上,本发明实施例提供的方法中,步骤S102中提及的对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值的过程,包括:
确定哈希函数集合;所述哈希函数集合包括预设的多个哈希函数;
本发明实施例提供的方法中,可预先构建多个哈希函数,用于对数据项进行哈希处理。在数据挖掘处理过程中,可从数据库中获取预设的各个哈希函数,得到哈希函数集合。
对于每个所述哈希函数,应用该哈希函数对所述目标数据项进行哈希运算,得到该哈希函数对应的哈希运算结果;将每个所述哈希函数对应的哈希运算结果作为所述目标数据项对应的哈希值。
本发明实施例提供的方法中,分别应用每个哈希函数对目标数据项进行哈希运算,在每个哈希函数的哈希运算过程中,均可得到一个哈希运算结果。将各个哈希函数对应的哈希运算结果作为目标数据项对应的哈希值,由此得到目标数据项对应的多个哈希值。
在上述实施例提供的方法的基础上,本发明实施例提供的方法中,步骤S103中提及的依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素的过程,包括:
确定所述多个哈希函数与所述多个数组的一一对应关系;
本发明实施例提供的方法中,预先设置的各个哈希函数与存储结构中的各个数组一一对应,哈希函数与数组的对应关系可预先进行配置存储。在数据挖掘过程中,可从预先存储的配置信息中,获取哈希函数与数组的对应关系,据此确定哈希函数集合中各个哈希函数与存储结构中各个数组的一一对应关系。
依据所述多个哈希函数与所述多个数组的一一对应关系,确定所述多个哈希值与所述多个数组的一一对应关系;
本发明实施例提供的方法中,根据哈希函数与数组的对应关系,可确定目标数据项对应的各个哈希值与各个数组的一一对应关系。具体的,对于每个数组而言,基于该数组对应的哈希函数计算得到的哈希值,即为该数组对应的哈希值。
对于每个所述数组对应的哈希值,在该数组的各个数组元素中,确定该哈希值对应的数组元素,并将该哈希值对应的数组元素作为所述目标数据项对应的目标数组元素。
本发明实施例提供的方法中,在每个数组中,以该数组对应的哈希值作为索引,找到该数组中与该哈希值相匹配的数组元素,并将该数组元素作为目标数组元素,由此得到目标数据项对应的多个目标数组元素。
在图1所示方法的基础上,本发明实施例提供的方法中,步骤S105中提及的依据各个所述目标数组元素中的标签,判断所述最小堆中是否已存在与所述目标数据项相关联的节点的过程,包括:
判断每个所述目标数组元素中的标签是否均表征其对应的数组元素当前与所述最小堆中的节点相关联;
本发明实施例提供的方法中,识别每个目标数组元素中标签的当前标签值,是否均是表征数组元素当前与最小堆中的节点相关联的标签值,以确定是否每个目标数组元素的标签均表征其当前与最小堆中的节点相关联。
若每个所述目标数组元素中的标签均表征其对应的数组元素当前与所述最小堆中的节点相关联,则确定所述最小堆中已存在与所述目标数据项相关联的节点。
本发明实施例提供的方法中,若是每个目标数组元素的标签均表征其当前与最小堆中的节点相关联,则认为最小堆中已存在与目标数据项相关联的节点,若是存在至少一个目标数组元素的标签表征其当前未与最小堆中的节点相关联,则认为最小堆中不存在与目标数据项相关联的节点。
在图1所示方法的基础上,本发明实施例提供的方法中,还包括:
若所述最小堆中不存在与所述目标数据项相关联的节点,则对所述目标数据项进行频次估计处理,得到所述目标数据项对应的估计频次;
本发明实施例提供的方法中,在步骤S105的判断过程中,若经判断最小堆中不存在与目标数据项相关联的节点,基于存储结构记录的统计信息,估计目标数据项当前出现的频次,获得目标数据项对应的估计频次。
确定所述最小堆中根节点对应的频次;
本发明实施例提供的方法中,最小堆中各个节点中亦会记录该节点对应的数据项的频次估计值,具体的,节点中可以通过部署计数器记录频次的估计值。从当前最小堆中根节点的节点数据中,获取根节点当前记录的频次估计值,将该频次估计值作为根节点对应的频次。
判断所述估计频次是否大于所述根节点对应的频次;
本发明实施例提供的方法中,将目标数据项对应的估计频次与根节点对应的频次进行大小比较,以确定目标数据项的估计频次是否大于最小堆中当前根节点对应的频次。
若所述估计频次未大于所述根节点对应的频次,则结束所述目标数据项的数据挖掘处理过程。
本发明实施例提供的方法中,若目标数据项的估计频次未大于根节点对应的频次,即目标数据项出现的频率未超过最小堆中当前根节点表征的数据项,此时无需进行其他操作,结束目标数据项的处理过程即可。
基于本发明实施例提供的方法,在目标数据项未记录在最小堆中的情况下,可将目标数据项的估计频次与最小堆中当前根节点的频次进行比较,以确定是否需对目标数据项进行进一步操作,若是目标数据项的估计频次未超过根节点的频次,则可结束目标数据项的处理。
在上述实施例提供的方法的基础上,本发明实施例提供的方法中,所述对所述目标数据项进行频次估计处理,得到所述目标数据项对应的估计频次的过程,包括:
确定计数值集合,所述计数值集合包括当前各个所述目标数组元素中计数器的计数值;
本发明实施例提供的方法中,从存储结构中获取各个目标数组元素中计数器的当前计数值,将各个计数值组成计数值集合。
确定所述计数值集合中的最小值,并将该最小值作为所述目标数据项对应的估计频次。
本发明实施例提供的方法中,将计数值集合中的各个计数值进行大小比较,获得计数值集合中的最小值,即计数值集合中数值最小的计数值,将该计数值作为目标数据项对应的估计频次。
在上述实施例提供的方法的基础上,本发明实施例提供的方法中,还包括:
若所述估计频次大于所述根节点对应的频次,则基于所述最小堆,对各个所述数组的数组元素中的标签进行更新;
本发明实施例提供的方法中,在目标数据项的估计频次与根节点的频次的比较过程中,若经判断,目标数据项的估计频次大于根节点的频次,则基于最小堆中当前各个节点的节点数据,对存储结构中各数组的数组元素的标签进行更新,也就是将最小堆中当前记录的各个数据项的情况,同步给存储结构。具体的,最小堆中每个节点记录了一个数据项,节点数据中包含该数据项的标识,具体可为数据项的指纹。根据每个节点的节点数据,可确定该节点对应的数据项在存储结构中对应的各个数组元素,将该数据项对应的每个数组元素中的标签置为表征数组元素与最小堆中的节点相关联的标签。确定节点对应的数据项在存储结构中对应的各个数组元素的原理,与前文实施例中提及的确定目标数据项对应的各个目标数组元素的原理相同,即基于哈希函数与数组的对应关系,将哈希值作为索引,可在每个数组中找到与数据项相匹配的一个数组元素。
基于各个所述数组的数组元素中计数器的计数值,对所述最小堆中的各个节点进行频次更新处理,完成频次更新处理后,对所述最小堆进行堆化处理;
本发明实施例提供的方法中,基于存储结构中各个数组的数组元素中计数器的当前计数值,对最小堆中各个节点记录的频次进行数据更新。具体的,对于最小堆中的每个节点,获取该节点数据项对应的各个数组元素中计数器的当前计数值,在获取的各个计数值中提取最小值,将该节点中记录的频次更新为该最小值。在完成最小堆中所有节点频次数据的更新后,基于更新后的数据,对最小堆进行堆化处理。
基于每个所述目标数组元素中的当前标签以及所述最小堆的当前根节点,判断当前所述目标数据项是否符合预设的入堆条件;
本发明实施例提供的方法中,可以预先设置入堆条件,即基于存储结构和最小堆的数据情况,将数据项记录至最小堆所需满足的条件。基于经过上述更新处理的目标数组元素中的标签,以及经过上述更新及堆化处理的最小堆,判断当前目标数据项是否符合预设的入堆条件。具体的,入堆条件可以基于数据项对应的所有数组元素中的标签和最小堆当前根节点的节点数据进行设置。
本发明实施例提供的方法中,判断目标数据项是否符合预设的入堆条件的过程,可以为:判断当前每个所述目标数组元素中的标签是否均表征其对应的数组元素当前与所述最小堆中的节点相关联;若当前每个所述目标数组元素中的标签均表征其对应的数组元素当前与所述最小堆中的节点相关联,则确定所述最小堆中当前根节点对应的频次;判断目标数据项对应的估计频次是否大于所述当前根节点对应的频次;若所述估计频次大于所述当前根节点对应的频次,则确定目标数据项符合预设的入堆条件。本发明实施例提供的方法中,将每个目标数组元素中当前标签均表征数组元素与最小堆中的节点相关联,且目标数据项对应的估计频次大于最小堆中当前根节点的频次,作为目标数据项符合入堆条件的条件要求。
若所述目标数据项符合所述入堆条件,则确定所述当前根节点对应的第一数据项;
本发明实施例提供的方法中,若经判断目标数据项符合预设的入堆条件,则说明需要以目标数据项替换最小堆中当前根节点所表征的数据项,将目标数据项记录到最小堆中,而将当前根节点对应的数据项从最小堆的记录中移除。此时,则需确定最小堆中当前根节点对应的第一数据项,即当前根节点所表征的数据项。
在所述存储结构中,确定所述第一数据项对应的多个第一数组元素;
本发明实施例提供的方法中,在存储结构的每个数组中,找到第一数据项在该数组中匹配的数组元素,将该数组元素作为第一数组元素,由此可得到多个第一数组元素。具体的,确定第一数据项对应的各个第一数组元素的原理,与前文实施例中确定目标数据项对应的各个目标数组元素的原理相类似,在此不再赘述,需要说明的是,第一数据项对应的各个哈希值在对该数据项进行数据挖掘处理时已经计算过了,计算得到的各个哈希值可作为该数据项的指纹进行存储,故在需要确定各个第一数组元素时,直接读取第一数据项对应的各个哈希值即可,无需重复进行计算。
对每个所述第一数组元素中的标签进行更新,使每个所述第一数组元素中的标签更新为,表征其对应的数组元素当前未与所述最小堆中的节点相关联的标签;
本发明实施例提供的方法中,将每个第一数组元素中标签的标签值,置为表征数组元素当前未与最小堆中的节点相关联的标签值,以对各个第一数组元素中的标签进行更新。
确定所述目标数据项对应的节点,基于所述目标数据项对应的节点对所述最小堆进行节点更新处理,以将所述当前根节点替换为所述目标数据项对应的节点;
本发明实施例提供的方法中,可创建目标数据项对应的节点,目标数据项对应节点的节点数据中可记录目标数据项的标识(指纹)和目标数据项对应的估计频次。对最小堆进行节点更新,将最小堆中当前的根节点,替换为目标数据项对应的节点。
对每个所述目标数组元素中的标签进行更新,使每个所述目标数组元素中的标签更新为,表征其对应数组元素当前与所述最小堆中的节点相关联的标签。
本发明实施例提供的方法中,将每个目标数组元素中标签的标签值,置为表征数组元素当前与最小堆中的节点相关联的标签值,以对各个目标数组元素的标签进行更新。
基于本发明实施例提供的方法,在目标数据项的估计频次超过最小堆中根节点的频次时,可以基于当前最小堆记录的数据项信息对存储结构中数组元素的标签进行更新,同时基于存储结构中数组元素的计数器,对最小堆中记录的数据项频次数据进行更新,以对存储结构和最小堆进行数据更新,基于更新后的存储结构和最小堆判断是否需将目标数据项记录至最小堆,并在需要将目标数据项记录至最小堆的情况下,对存储结构和最小堆进行相应的数据更新,实现数据挖掘。
为了更好地说明本发明实施例提供的方法,在上述实施例提供的方法的基础上,结合实际的应用场景,本发明实施例提供了又一种数据流的数据挖掘方法。本发明实施例提供的方法是一种数据流中Top-k项的数据挖掘方法。
如图2所示,本发明实施例提供的数据挖掘过程,主要包括:
初始化CM存储结构、最小堆;
本发明实施例提供的方法中,基于Count-min Sketch数据结构构建一个存储结构,该存储结构简称为CM存储结构或CM。CM存储结构表示为B,该存储结构的结构示例图可如图3所示,B为一个具有w列,r行的数组,其中每个数组元素可称为桶,每个桶中设置有计数器和标签。B[u][v]表示第u行第v列的桶,B[i][hi(d)].C表示相应桶的计数器的计数值,初始为0,B[i][hi(d)].F表示相应桶的标签的标签值,初始为0。
本发明实施例提供的方法中,构建最小堆用于存储数据挖掘结果。最小堆表示为H,最小堆的结构示例图可如图4所示,其中包含多个节点,每个节点中记录了相应数据项的指纹,且节点中设置有计数器,该计数器的计数值表征相应数据项的频次。以H[i]表示第i个节点,H[i].FP表示第i个节点表征的数据项的指纹,H[i].C表示第i个节点中计数器的计数值,即相应数据项的频次。
本发明实施例提供的方法中,在开始对数据流进行数据挖掘前,先对CM存储结构以及最小堆进行初始化处理。
在开始对数据流进行数据挖掘处理后,对数据流中数据项的处理过程,主要包括:
提取数据流中新到达的数据项d;
对数据项d进行哈希计算,映射到CM的r个对应桶中;
本发明实施例提供的方法中,对于到达的数据项d,计算该数据项对应的r个哈希值,得到h1(d)、h2(d)…hr(d)。以此r个哈希值作为索引,定位该数据项在CM存储结构中对应的r个桶:B[i][hi(d)],(1≤i≤r)。
将此r个桶的计数值加1;
本发明实施例提供的方法中,将这r个桶中计数器的计数值更新为:B[i][hi(d)].C=B[i][hi(d)].C+1。
提取此r个桶的标签,判断数据项d是否存储在最小堆;
本发明实施例提供的方法中,提取此r个桶的标签,判断∀B[i][hi(d)].F=1是否成立。若成立,则认为数据项d存储于最小堆中,结束对于此数据项的操作。若不成立,则认为此数据项未存储于最小堆中。
提取此r个桶的计数值,得到数据项d的估计频率f;
本发明实施例提供的方法中,若数据项d未存储于最小堆中,则提取此r个桶的当前计数值,得到数据项d的估计频率f,f=min B[i][hi(d)].C,(1≤i≤r)。
判断估计频率是否大于最小堆根节点的计数值;
本发明实施例提供的方法中,获得估计频率f后,判断估计频率f是否大于最小堆根节点H[0]中存储的数据项的计数值,即判断f>H[0].C是否成立,若不成立,即数据项d的估计频率未大于最小堆根节点的计数值,则此数据项出现的频率比最小堆中存储的数据项的频率都低,结束对此数据项的操作。若成立,即数据项d的估计频率大于最小堆根节点的计数值。
若数据项d的估计频率大于根节点的计数值,则更新节点中的数据项在CM存储结构中对应桶的标签,并更新最小堆中各节点的计数值,然后执行堆化操作;
本发明实施例提供的方法中,若f>H[0].C成立,则更新最小堆中各节点的计数值,同时更新CM存储结构中相应桶的标签值。具体更新策略为:从根节点开始遍历所有节点,提取当前节点n存储的数据项t,通过哈希函数获得数据项t在CM存储结构中对应的各个桶,将对应桶的标签更新为:B[i][hi(t)].F=1,(1≤i≤r)。同时,提取对应桶的计数值,将该节点n的计数值更新为:H[n].C=min B[i][hi(t)].C,(1≤i≤r)。遍历完成后,对最小堆执行堆化操作。
提取更新后CM存储结构中对应桶的标签值,并提取最小堆的当前根节点;
本发明实施例提供的方法中,在完成CM存储结构和最小堆的更新操作后,重新提取数据项d对应在CM存储结构中r个桶的最新标签,并提取最小堆当前根节点的计数值H[0].C。
判断数据项d是否应存储于最小堆,且估计频率大于最小堆的根节点的计数值;
本发明实施例提供的方法中,提取到数据项d对应的r个桶的最新标签和根节点的计数值后,判断f>H[0].C和∀B[i][hi(d)].F=1,(1≤i≤r),是否同时成立,如果不成立,则结束对于此数据项的操作。
若数据项d应存储于最小堆,且估计频率大于最小堆的根节点的计数值,则更换最小堆的根节点,并更新数据项d对应CM桶中的标签。
本发明实施例提供的方法中,如果f>H[0].C和∀B[i][hi(d)].F=1同时成立,则更新最小堆和存储结构。首先提取最小堆根节点存储的数据项t,更新数据项t在CM存储结构的对应桶的标签,即令B[i][hi(t)].F=0,(1≤i≤r)。替换最小堆的根节点,即令H[0].FP=d,H[0].C=f。同时更新数据项d在CM存储结构中对应桶的标签,即令B[i][hi(d)].F=1,(1≤i≤r)。然后结束对于数据项d的操作,在完成最小堆的更新后,可以再次对最小堆进行堆化操作。
本发明实施例提供的方法中,结束对于一个数据项的操作后,可以接着提取数据流中下一个到达的数据项,对新的数据项进行操作。基于上述的处理流程,完成所有数据项的处理后,最终得到的最小堆中存储的数据项,即为数据流Top-k项的数据挖掘结果。
与图1所示的一种基于大模型的数据流的数据挖掘方法相对应的,本发明实施例还提供了一种基于大模型的数据流的数据挖掘装置,用于对图1中所示方法的具体实现,其结构示意图如图5所示,包括:
提取单元201,用于从目标数据流中提取目标数据项;所述目标数据流为需挖掘其中频数最大的前k个数据项的数据流,k为正整数;
计算单元202,用于对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值;
第一确定单元203,用于依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素;所述存储结构中设置有多个数组,每个所述数组包括多个数组元素,每个所述数组元素中设置有计数器和标签;每个所述数组元素中的标签表征该数组元素当前是否与已构建的最小堆中的节点相关联;所述多个目标数组元素与所述多个数组一一对应,每个所述目标数组元素为其对应的数组中的数组元素;所述最小堆用于存储数据挖掘结果;
计数单元204,用于对于每个所述目标数组元素,对该目标数组元素中计数器的计数值进行更新,以增加该目标数组元素中计数器的计数值;
判断单元205,用于依据各个所述目标数组元素中的标签,判断所述最小堆中是否已存在与所述目标数据项相关联的节点;
第二确定单元206,用于若所述最小堆中已存在与所述目标数据项相关联的节点,则结束所述目标数据项的数据挖掘处理过程。
应用本发明实施例提供的装置,在用于实现数据挖掘的存储结构的数组元素中设置标签,以标签表示数组元素是否与最小堆中的节点相关联。在数据挖掘过程中,可根据当前处理的数据项所对应的目标数组元素中的标签,识别当前数据项是否已记录在最小堆中,若识别到当前数据项已记录在最小堆中,则可结束对于当前数据项的操作。无需在每个数据项的处理过程中都利用最小堆进行比对,有利于提高数据挖掘的处理速度,提升数据挖掘的实时性。
在图5所示装置的基础上,本发明实施例提供的装置还可以进一步扩展出多个单元,各个单元的功能可参见前文对于基于大模型的数据流的数据挖掘方法所提供的各个实施例中的说明,在此不再进一步举例说明。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的基于大模型的数据流的数据挖掘方法。
本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器301,以及一个或者一个以上的指令302,其中一个或者一个以上指令302存储于存储器301中,且经配置以由一个或者一个以上处理器303执行所述一个或者一个以上指令302进行以下操作:
从目标数据流中提取目标数据项;所述目标数据流为需挖掘其中频数最大的前k个数据项的数据流,k为正整数;
对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值;
依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素;所述存储结构中设置有多个数组,每个所述数组包括多个数组元素,每个所述数组元素中设置有计数器和标签;每个所述数组元素中的标签表征该数组元素当前是否与已构建的最小堆中的节点相关联;所述多个目标数组元素与所述多个数组一一对应,每个所述目标数组元素为其对应的数组中的数组元素;所述最小堆用于存储数据挖掘结果;
对于每个所述目标数组元素,对该目标数组元素中计数器的计数值进行更新,以增加该目标数组元素中计数器的计数值;
依据各个所述目标数组元素中的标签,判断所述最小堆中是否已存在与所述目标数据项相关联的节点;
若所述最小堆中已存在与所述目标数据项相关联的节点,则结束所述目标数据项的数据挖掘处理过程。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于大模型的数据流的数据挖掘方法,其特征在于,在网络流数据的监控场景中,利用数据流Top-k项的挖掘,获得访问量激增的基础服务器,包括:
从目标数据流中提取目标数据项;所述目标数据流为需挖掘其中频数最大的前k个数据项的数据流,k为正整数;
对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值;
依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素;所述存储结构中设置有多个数组,每个所述数组包括多个数组元素,每个所述数组元素中设置有计数器和标签;每个所述数组元素中的标签表征所述数组元素当前是否与已构建的最小堆中的节点相关联;所述多个目标数组元素与所述多个数组一一对应,每个所述目标数组元素为其对应的数组中的数组元素;所述最小堆用于存储数据挖掘结果;
对于每个所述目标数组元素,对所述目标数组元素中计数器的计数值进行更新,以增加所述目标数组元素中计数器的计数值;
判断每个所述目标数组元素中的标签是否均表征其对应的数组元素当前与所述最小堆中的节点相关联;
若每个所述目标数组元素中的标签均表征其对应的数组元素当前与所述最小堆中的节点相关联,则确定所述最小堆中已存在与所述目标数据项相关联的节点;
若所述最小堆中已存在与所述目标数据项相关联的节点,则结束所述目标数据项的数据挖掘处理过程;
若所述最小堆中不存在与所述目标数据项相关联的节点,则对所述目标数据项进行频次估计处理,得到所述目标数据项对应的估计频次;
确定所述最小堆中根节点对应的频次;
判断所述估计频次是否大于所述根节点对应的频次;
若所述估计频次未大于所述根节点对应的频次,则结束所述目标数据项的数据挖掘处理过程。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值,包括:
确定哈希函数集合;所述哈希函数集合包括预设的多个哈希函数;
对于每个所述哈希函数,应用所述哈希函数对所述目标数据项进行哈希运算,得到所述哈希函数对应的哈希运算结果;
将每个所述哈希函数对应的哈希运算结果作为所述目标数据项对应的哈希值。
3.根据权利要求2所述的方法,其特征在于,所述依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素,包括:
确定所述多个哈希函数与所述多个数组的一一对应关系;
依据所述多个哈希函数与所述多个数组的一一对应关系,确定所述多个哈希值与所述多个数组的一一对应关系;
对于每个所述数组对应的哈希值,在所述数组的各个数组元素中,确定所述哈希值对应的数组元素,并将所述哈希值对应的数组元素作为所述目标数据项对应的目标数组元素。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标数据项进行频次估计处理,得到所述目标数据项对应的估计频次,包括:
确定计数值集合,所述计数值集合包括当前各个所述目标数组元素中计数器的计数值;
确定所述计数值集合中的最小值,并将所述最小值作为所述目标数据项对应的估计频次。
5.根据权利要求1所述的方法,其特征在于,还包括:
若所述估计频次大于所述根节点对应的频次,则基于所述最小堆,对各个所述数组的数组元素中的标签进行更新;
基于各个所述数组的数组元素中计数器的计数值,对所述最小堆中的各个节点进行频次更新处理,完成频次更新处理后,对所述最小堆进行堆化处理;
基于每个所述目标数组元素中的当前标签以及所述最小堆的当前根节点,判断当前所述目标数据项是否符合预设的入堆条件;
若所述目标数据项符合所述入堆条件,则确定所述当前根节点对应的第一数据项;
在所述存储结构中,确定所述第一数据项对应的多个第一数组元素;
对每个所述第一数组元素中的标签进行更新,使每个所述第一数组元素中的标签更新为,表征其对应的数组元素当前未与所述最小堆中的节点相关联的标签;
确定所述目标数据项对应的节点,基于所述目标数据项对应的节点对所述最小堆进行节点更新处理,以将所述当前根节点替换为所述目标数据项对应的节点;
对每个所述目标数组元素中的标签进行更新,使每个所述目标数组元素中的标签更新为,表征其对应数组元素当前与所述最小堆中的节点相关联的标签。
6.一种基于大模型的数据流的数据挖掘装置,其特征在于,在网络流数据的监控场景中,利用数据流Top-k项的挖掘,获得访问量激增的基础服务器,包括:
提取单元,用于从目标数据流中提取目标数据项;所述目标数据流为需挖掘其中频数最大的前k个数据项的数据流,k为正整数;
计算单元,用于对所述目标数据项进行哈希值计算处理,得到所述目标数据项对应的多个哈希值;
第一确定单元,用于依据所述多个哈希值,在已构建的存储结构中,确定所述目标数据项对应的多个目标数组元素;所述存储结构中设置有多个数组,每个所述数组包括多个数组元素,每个所述数组元素中设置有计数器和标签;每个所述数组元素中的标签表征所述数组元素当前是否与已构建的最小堆中的节点相关联;所述多个目标数组元素与所述多个数组一一对应,每个所述目标数组元素为其对应的数组中的数组元素;所述最小堆用于存储数据挖掘结果;
计数单元,用于对于每个所述目标数组元素,对所述目标数组元素中计数器的计数值进行更新,以增加所述目标数组元素中计数器的计数值;
判断单元,用于判断每个所述目标数组元素中的标签是否均表征其对应的数组元素当前与所述最小堆中的节点相关联;若每个所述目标数组元素中的标签均表征其对应的数组元素当前与所述最小堆中的节点相关联,则确定所述最小堆中已存在与所述目标数据项相关联的节点;
第二确定单元,用于若所述最小堆中已存在与所述目标数据项相关联的节点,则结束所述目标数据项的数据挖掘处理过程;若所述最小堆中不存在与所述目标数据项相关联的节点,则对所述目标数据项进行频次估计处理,得到所述目标数据项对应的估计频次;确定所述最小堆中根节点对应的频次;判断所述估计频次是否大于所述根节点对应的频次;若所述估计频次未大于所述根节点对应的频次,则结束所述目标数据项的数据挖掘处理过程。
7.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~5任意一项所述的基于大模型的数据流的数据挖掘方法。
8.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~5任意一项所述的基于大模型的数据流的数据挖掘方法。
CN202311150180.7A 2023-09-07 2023-09-07 基于大模型的数据流的数据挖掘方法及相关设备 Active CN116881338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311150180.7A CN116881338B (zh) 2023-09-07 2023-09-07 基于大模型的数据流的数据挖掘方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311150180.7A CN116881338B (zh) 2023-09-07 2023-09-07 基于大模型的数据流的数据挖掘方法及相关设备

Publications (2)

Publication Number Publication Date
CN116881338A CN116881338A (zh) 2023-10-13
CN116881338B true CN116881338B (zh) 2024-01-26

Family

ID=88272165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311150180.7A Active CN116881338B (zh) 2023-09-07 2023-09-07 基于大模型的数据流的数据挖掘方法及相关设备

Country Status (1)

Country Link
CN (1) CN116881338B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376365A (zh) * 2014-11-28 2015-02-25 国家电网公司 一种基于关联规则挖掘的信息系统运行规则库的构造方法
CN105930457A (zh) * 2016-04-21 2016-09-07 南开大学 基于分布式架构的数据流频繁项挖掘方法
CN106598494A (zh) * 2016-12-05 2017-04-26 东软集团股份有限公司 数据统计方法和装置
CN108595581A (zh) * 2018-04-17 2018-09-28 清华大学 数据流中频繁项的挖掘方法及挖掘系统
CN112597201A (zh) * 2020-12-25 2021-04-02 中国农业银行股份有限公司 元素的计数方法、装置、可读介质以及设备
CN114443701A (zh) * 2020-10-30 2022-05-06 伊姆西Ip控股有限责任公司 数据流处理方法、电子设备和计算机程序产品
WO2022268138A1 (zh) * 2021-06-23 2022-12-29 深圳市中兴微电子技术有限公司 一种报文匹配方法、装置、存储介质及电子装置
CN116303585A (zh) * 2022-09-30 2023-06-23 南京邮电大学 一种基于Flag标志位的数据流计数方法、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10680645B2 (en) * 2017-10-30 2020-06-09 AtomBeam Technologies Inc. System and method for data storage, transfer, synchronization, and security using codeword probability estimation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376365A (zh) * 2014-11-28 2015-02-25 国家电网公司 一种基于关联规则挖掘的信息系统运行规则库的构造方法
CN105930457A (zh) * 2016-04-21 2016-09-07 南开大学 基于分布式架构的数据流频繁项挖掘方法
CN106598494A (zh) * 2016-12-05 2017-04-26 东软集团股份有限公司 数据统计方法和装置
CN108595581A (zh) * 2018-04-17 2018-09-28 清华大学 数据流中频繁项的挖掘方法及挖掘系统
CN114443701A (zh) * 2020-10-30 2022-05-06 伊姆西Ip控股有限责任公司 数据流处理方法、电子设备和计算机程序产品
CN112597201A (zh) * 2020-12-25 2021-04-02 中国农业银行股份有限公司 元素的计数方法、装置、可读介质以及设备
WO2022268138A1 (zh) * 2021-06-23 2022-12-29 深圳市中兴微电子技术有限公司 一种报文匹配方法、装置、存储介质及电子装置
CN116303585A (zh) * 2022-09-30 2023-06-23 南京邮电大学 一种基于Flag标志位的数据流计数方法、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
支持多时间粒度的数据流上最频繁K项挖掘;舒平达;陈华辉;;宁波大学学报(理工版)(第04期);全文 *

Also Published As

Publication number Publication date
CN116881338A (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN107480028B (zh) 磁盘可使用的剩余时长的获取方法及装置
CN109194707B (zh) 分布式图嵌入的方法及装置
CN111177485B (zh) 基于参数规则匹配设备故障的预测方法、设备及介质
CN113326177B (zh) 一种指标异常检测方法、装置、设备及存储介质
CN115144934A (zh) 基于变分量子线路的气象预测方法及相关设备
CN109818971B (zh) 一种基于高阶关联挖掘的网络数据异常检测方法与系统
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
CN111368887A (zh) 雷雨天气预测模型的训练方法及雷雨天气预测方法
CN110781818A (zh) 视频分类方法、模型训练方法、装置及设备
CN107783998A (zh) 一种数据处理的方法以及装置
US8422802B2 (en) Robust large-scale visual codebook construction
CN111738360B (zh) 一种两方决策树训练方法和系统
CN117521783B (zh) 联邦机器学习方法、装置、存储介质及处理器
CN116881338B (zh) 基于大模型的数据流的数据挖掘方法及相关设备
US20200293543A1 (en) Method and apparatus for transmitting data
CN116630367B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN117615359A (zh) 基于多种规则引擎的蓝牙数据传输方法及系统
CN111935005A (zh) 数据传输方法、装置、处理设备及介质
CN111858275A (zh) 一种异常媒体行为的识别方法、装置、设备及存储介质
CN114781473A (zh) 轨道交通设备状态预测方法、装置、设备及存储介质
KR102000627B1 (ko) 데이터 갱신 방법 및 그 장치
CN112988457A (zh) 一种数据备份方法、装置、系统及计算机设备
CN116910501B (zh) 错例驱动的数据识别方法、装置和设备
CN109299337A (zh) 一种基于迭代的图搜索方法
CN105262612B (zh) 一种云计算系统节点失效预警装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant