CN115473933B - 一种基于频繁子图挖掘的网络系统关联服务发现方法 - Google Patents

一种基于频繁子图挖掘的网络系统关联服务发现方法 Download PDF

Info

Publication number
CN115473933B
CN115473933B CN202211232039.7A CN202211232039A CN115473933B CN 115473933 B CN115473933 B CN 115473933B CN 202211232039 A CN202211232039 A CN 202211232039A CN 115473933 B CN115473933 B CN 115473933B
Authority
CN
China
Prior art keywords
graph
frequent
network system
tree
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211232039.7A
Other languages
English (en)
Other versions
CN115473933A (zh
Inventor
姜鑫东
张燕
季晨宇
王晨璐
毛艳芳
吕晓祥
陈晔
马俊明
李苗苗
葛振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co
Original Assignee
Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co filed Critical Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co
Priority to CN202211232039.7A priority Critical patent/CN115473933B/zh
Publication of CN115473933A publication Critical patent/CN115473933A/zh
Application granted granted Critical
Publication of CN115473933B publication Critical patent/CN115473933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于频繁子图挖掘的网络系统关联服务发现方法,使用Coco哈希和最小堆这两种数据结构来统计网络流数据中各个节点的访问信息,并使用相应的图序列生成算法来对各类数据进行处理生成频繁子图挖掘所需的图序列数据。在处理完所有网络流数据后,运行网络系统服务发现算法快速地挖掘出相关的网络系统服务。最终使用网络系统关联服务发现算法来挖掘出已统计的IP访问数据中的一些相互关联的数据,筛选出之间存在一定关系的IP地址组成的频繁项集,然后进一步处理准确统计出网络系统关联服务。本发明将统计后的网络数据流信息转化为图序列数据集而后采用频繁子图挖掘相关技术,挖掘出网络系统中的关联服务相关信息。

Description

一种基于频繁子图挖掘的网络系统关联服务发现方法
技术领域
本发明涉及关联数据挖掘与服务发现问题,具体涉及一种基于频繁子图挖掘的网络系统关联服务发现方法。
背景技术
网络系统关联服务发现在现实的数据中心网络中很重要。面对海量的数据流,不仅要正确有效的统计出每个IP地址的访问与被访问次数等信息,还应根据这些信息检测出哪些节点提供了服务以及与提供服务的这些节点有所关联或者关联程度较高的一系列节点信息。一方面这有利于更有效的维护数据中心网络安全,避免某些未报备的提供服务的节点对网络内其它服务节点造成不好的影响。另一方面,这有利于对数据中心网络进行维护,在检测出网络系统关联服务后,可以更有针对性地对某些关联度较高或者关联面广的节点进行维护,从而在一定程度上减少维护成本,提高维护效率。
目前已存在众多的数据统计及相关数据挖掘技术。但并未有一个与此目标问题结合较深的解决方法,所以如何利用相关技术,并结合该问题场景,有效地完成网络系统关联服务发现,这是需要思考和解决的问题。
发明内容
本发明的目的在于提出一种基于频繁子图挖掘的网络系统关联服务发现方法,能够有效地解决目前还未有结合相关挖掘技术并适用于上述任务场景的问题。
为了实现以上发明目的,本发明的技术方案如下:
一种基于频繁子图挖掘的网络系统关联服务发现方法,包括以下步骤:
(1)为每个IP地址设置一个全局Coco Sketch(以下简称为Sketch),在接收到网络流数据后,解析得到源IP地址、目的IP地址等信息,将这些信息更新到每个IP对应的全局Sketch中;
(2)访问统计后的Sketch信息文件,按照一定的时间间隔提取(源IP,源端口,目的IP,目的端口)等生成图序列所需要的信息,并整合所有提取后的信息,生成包含访问被访问等关系的图序列数据集并通过K-means聚类方法,将图序列数据集进行进一步划分;
(3)根据上一步得到的包含网络访问相关信息的图序列数据集,对图集中的图进行深度优先遍历,生成图的该单边频繁子图的所有单边频繁子图树,并且以一棵树为基树把该图的其它单边频繁子图树都重叠到该树上;
(4)生成最初基树的图的边的五元素并以边在存储结构中的顺序作为边的唯一标识符保存到设定的存储结构映射边集中;然后将图序列数据分别与映射树进行重叠操作,通过映射树中边上记录的对应映射边集中边的编号,把重叠成功的边在映射边集中作标记,重叠不成功的边添加到映射边集中并作标记;
(5)在每一个单边频繁子图对应的映射边集按边频率降序排列,统计大于最小支持度的每个支持度数对应的所有的边并统计边节点出现次数等相关信息,进而统计得到网络系统相关服务信息并根据相关频率降序存入文件;
(6)读取上一步所得数据文件并设置最小支持度计数MIN_COUNT;对文件内容进行扫描找到频繁项集M;并将M中各项按支持度递减排序,同时对原数据文件进行二次扫描生成相关树,并通过相关约束组合得到具体的频繁项集;
(7)对图集中各个子图进行计算筛选,获得相应的候选子图,而后对候选子图以及上一步所得的频繁项集进行比对,进一步筛选,完成网络系统关联服务发现。
进一步地,使用的Coco Sketch是一种概率数据结构,用于大规模流式数据的频率查询,同时其根据哈希值的范围确定所需的存储空在创建时就已经确定,与查询的错误率有关。每一行与一个哈希函数相关联,共有d个相互独立的哈希函数。当新事件到来时,利用d个哈希函数获得d个对应的列索引,并且在每一行的对应位置上计数加一。查询阶段需要统计某个事件i的计数,可以类似地获得d个对应的列索引,然后取对应位置中的最小值。其思想与计数布隆过滤器大致相当。但是,Coco Sketch的单元格数量是亚线性的,与其所需要达到的精度有关;相对而言计数布隆过滤器的大小与集合元素线性相关。
进一步地,在步骤(1)中为了统计相关网络数据流信息,构造五个不同的CocoSketch,分别记录每个源IP发起访问总数,每个目的IP接受访问总数,每个目的IP端口接收访问总数,主机之间访问总数,每个源IP访问服务器应用的总数。
进一步地,在步骤(2)中对统计后的Sketch信息文件进行进一步提取统计相关信息,并利用这些信息生成图序列。并进一步的采用K-means聚类方法,对所生成的图序列数据集进行聚类划分。
进一步地,对图序列数据集中的图进行深度优先遍历,得到图的所有单边频繁子图树,同时以一棵树为基树把该图的其它单边频繁子图树重叠到基树上。
进一步地,生成最初基树的图中边的五元素并以边在存储结构中的顺序作为边的唯一标识符保存到设定的存储结构映射边集中。
进一步地,在步骤(6)中,对文件内容进行二次扫描,生成相关树,而后倒序遍历项头表,判断与被约束子树端点相同且端点的支持度是否满足条件,满足条件,则通过组合方式得到新的频繁项集,反之,通过递归挖掘被约束子树获得新的频繁项集。
进一步地,将图集中的各个子图的邻接矩阵按照正规化算法进行正规化并转换成正准形,求出所对应的编码,并按编码值从小到大升序排列各图;按编码大小的升序序列将每个k阶邻接矩阵分别与后面的矩阵结合。每两个k阶的邻接矩阵,判断其二者的编码,若其编码的前k-2项相同,说明两矩阵包含同一个k-1阶子矩阵,可以生成候选k+1阶子图,若不相等,则放弃结合,继续判断其后面的矩阵;对k-l阶子图集进行剪枝,计算针1阶候选子图的支持度,并根据最小支持度进行判断生成k+l阶频繁图;重复以上步骤直到不再产生新的候选子图为止。
进一步地,通过比对候选子图每个节点与网络系统服务记录以及比对候选子图各边关系与新频繁项集,实现网络系统关联服务发现。
有益效果:本发明使用CocoSketch数据结构来统计网络数据流信息,并提出了一种基于频繁子图挖掘的网络系统关联服务发现方法,将统计后的网络数据流信息转化为图序列数据集而后采用频繁子图挖掘相关技术,挖掘出网络系统中的关联服务相关信息。
附图说明
图1是基于频繁子图挖掘的网络系统关联服务发现方法的流程图。
具体实施方式
一种基于频繁子图挖掘的网络系统关联服务发现方法,包括以下步骤:
(1)为每个IP地址设置一个全局Coco Sketch(以下简称为Sketch),在接收到网络流数据后,解析得到源IP地址、目的IP地址等信息,将这些信息更新到每个IP对应的全局Sketch中;
(2)访问统计后的Sketch信息文件,按照一定的时间间隔提取(源IP,源端口,目的IP,目的端口)等生成图序列所需要的信息,并整合所有提取后的信息,生成包含访问被访问等关系的图序列数据集并通过K-means聚类方法,将图序列数据集进行进一步划分;
(3)根据上一步得到的包含网络访问相关信息的图序列数据集,对图集中的图进行深度优先遍历,生成图的该单边频繁子图的所有单边频繁子图树,并且以一棵树为基树把该图的其它单边频繁子图树都重叠到该树上;
(4)生成最初基树的图的边的五元素并以边在存储结构中的顺序作为边的唯一标识符保存到设定的存储结构映射边集中;然后将图序列数据分别与映射树进行重叠操作,通过映射树中边上记录的对应映射边集中边的编号,把重叠成功的边在映射边集中作标记,重叠不成功的边添加到映射边集中并作标记;
(5)在每一个单边频繁子图对应的映射边集按边频率降序排列,统计大于最小支持度的每个支持度数对应的所有的边并统计边节点出现次数等相关信息,进而统计得到网络系统相关服务信息并根据相关频率降序存入文件;
(6)读取上一步所得数据文件并设置最小支持度计数MIN_COUNT;对文件内容进行扫描找到频繁项集M;并将M中各项按支持度递减排序,同时对原数据文件进行二次扫描生成相关树,并通过相关约束组合得到具体的频繁项集;
(7)对图集中各个子图进行计算筛选,获得相应的候选子图,而后对候选子图以及上一步所得的频繁项集进行比对,进一步筛选,完成网络系统关联服务发现。
进一步地,使用的Coco Sketch是一种概率数据结构,用于大规模流式数据的频率查询,同时其根据哈希值的范围确定所需的存储空在创建时就已经确定,与查询的错误率有关。每一行与一个哈希函数相关联,共有d个相互独立的哈希函数。当新事件到来时,利用d个哈希函数获得d个对应的列索引,并且在每一行的对应位置上计数加一。查询阶段需要统计某个事件i的计数,可以类似地获得d个对应的列索引,然后取对应位置中的最小值。其思想与计数布隆过滤器大致相当。但是,Coco Sketch的单元格数量是亚线性的,与其所需要达到的精度有关;相对而言计数布隆过滤器的大小与集合元素线性相关。
进一步地,在步骤(1)中为了统计相关网络数据流信息,构造五个不同的CocoSketch,分别记录每个源IP发起访问总数,每个目的IP接受访问总数,每个目的IP端口接收访问总数,主机之间访问总数,每个源IP访问服务器应用的总数。
进一步地,在步骤(2)中对统计后的Sketch信息文件进行进一步提取统计相关信息,并利用这些信息生成图序列。并进一步的采用K-means聚类方法,对所生成的图序列数据集进行聚类划分。
进一步地,对图序列数据集中的图进行深度优先遍历,得到图的所有单边频繁子图树,同时以一棵树为基树把该图的其它单边频繁子图树重叠到基树上。
进一步地,生成最初基树的图中边的五元素并以边在存储结构中的顺序作为边的唯一标识符保存到设定的存储结构映射边集中。
进一步地,在步骤(6)中,对文件内容进行二次扫描,生成相关树,而后倒序遍历项头表,判断与被约束子树端点相同且端点的支持度是否满足条件,满足条件,则通过组合方式得到新的频繁项集,反之,通过递归挖掘被约束子树获得新的频繁项集。
进一步地,将图集中的各个子图的邻接矩阵按照正规化算法进行正规化并转换成正准形,求出所对应的编码,并按编码值从小到大升序排列各图;按编码大小的升序序列将每个k阶邻接矩阵分别与后面的矩阵结合。每两个k阶的邻接矩阵,判断其二者的编码,若其编码的前k-2项相同,说明两矩阵包含同一个k-1阶子矩阵,可以生成候选k+1阶子图,若不相等,则放弃结合,继续判断其后面的矩阵;对k-l阶子图集进行剪枝,计算针1阶候选子图的支持度,并根据最小支持度进行判断生成k+l阶频繁图;重复以上步骤直到不再产生新的候选子图为止。
进一步地,通过比对候选子图每个节点与网络系统服务记录以及比对候选子图各边关系与新频繁项集,实现网络系统关联服务发现。
具体算法:
算法1是根据本发明实施例的网络数据流信息统计和图序列生成算法。对每一条数据流,算法先分析其报头中的信息,根据其源IP地址等信息生成键值对并插入到相关Sketch中。当接受完所有数据流之后,可以通过Sketch查询每个IP地址的相关访问信息。而后通过这些信息按照一定时间进行提取生成图序列所需要的信息并进行相关处理。
Figure BDA0003881620470000081
/>
Figure BDA0003881620470000091
算法2是根据本发明实施例的网络系统服务发现算法,通过利用上述算法处理得到的图序列数据集等信息,统计出图集中频繁出现的边的信息,并按照一定规则排序,进一步将这些边整合到一颗基树上并进行相应处理,得到网络系统服务信息。
Figure BDA0003881620470000101
算法3是根据本发明实施例的网络系统服务发现算法,通过读取上一步所得数据文件并设置最小支持度计数MIN_COUNT,对文件内容进行扫描找到频繁项集;并将频繁项集中各项按支持度递减排序,同时对原数据文件进行二次扫描生成相关树,并通过相关约束组合得到具体的频繁项集。对图集中各个子图进行计算筛选,获得相应的候选子图,而后对候选子图以及上一步所得的频繁项集进行比对,进一步筛选,完成网络系统关联服务发现。
Figure BDA0003881620470000111
/>
Figure BDA0003881620470000121
在本申请的一个实施例中,能够根据提供的网络数据流信息准确挖掘出该网络系统中的关联服务集以及关联服务相关的信息,最终结果以文件的形式存储下来。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。

Claims (8)

1.一种基于频繁子图挖掘的网络系统关联服务发现方法,其特征在于,该方法包括以下步骤:
(1)为每个IP地址设置一个全局Coco Sketch,简称为Sketch,在接收到网络流数据后,解析得到源IP地址、目的IP地址信息,将这些信息更新到每个IP对应的全局Sketch中;
(2)访问统计后的Sketch信息文件,按照一定的时间间隔提取源IP、源端口、目的IP、目的端口生成图序列所需要的信息,并整合所有提取后的信息,生成包含访问被访问关系的图序列数据集并通过K-means聚类方法,将图序列数据集进行进一步划分;
(3)对给定的图集G,称图集G的只含有一条边的频繁子图为单边频繁子图;对图集G的所有单边频繁子图按出现的频度升序排列,得到单边频繁子图的集合E={e1,e2,… ,en},我们称对应边ei的修正后的图的生成树为对应该单边频繁子图的单边频繁子图树;根据包含网络访问相关信息的图序列数据集,对图集中的图进行深度优先遍历,生成图的单边频繁子图的所有单边频繁子图树,并且以一棵树为基树把该图的其它单边频繁子图树都重叠到该树上;
(4)生成最初基树的图的边的五元素并以边在存储结构中的顺序作为边的唯一标识符保存到设定的存储结构映射边集中;然后将图序列数据分别与映射树进行重叠操作,通过映射树中边上记录的对应映射边集中边的编号,把重叠成功的边在映射边集中作标记,重叠不成功的边添加到映射边集中并作标记;
(5)在每一个单边频繁子图对应的映射边集按边频率降序排列,统计大于最小支持度的每个支持度数对应的所有的边并统计边节点出现次数相关信息,进而统计得到网络系统相关服务信息并根据相关频率降序存入文件;
(6)读取上一步所得数据文件并设置最小支持度计数MIN_COUNT;对文件内容进行扫描找到频繁项集M;并将M中各项按支持度递减排序,同时对原数据文件进行二次扫描生成相关树,并通过相关约束组合得到具体的频繁项集;
(7)对图集中各个子图进行计算筛选,获得相应的候选子图,而后对候选子图以及上一步所得的频繁项集进行比对,进一步筛选,完成网络系统关联服务发现。
2. 根据权利要求1所述的一种基于频繁子图挖掘的网络系统关联服务发现方法,其特征在于,步骤(1)中为了统计相关网络数据流信息,构造不同的Coco Sketch,分别记录每个源IP发起访问总数,每个目的IP接受访问总数,每个目的IP端口接收访问总数,主机之间访问总数。
3.根据权利要求1所述的一种基于频繁子图挖掘的网络系统关联服务发现方法,其特征在于,在步骤(2)中对统计后的Sketch信息文件进行进一步提取统计相关信息,并利用这些信息生成图序列,并进一步采用K-means聚类方法,对所生成的图序列数据集进行聚类划分。
4.根据权利要求1所述的一种基于频繁子图挖掘的网络系统关联服务发现方法,其特征在于,对图序列数据集中的图进行深度优先遍历,得到图的所有单边频繁子图树,同时以一棵树为基树把该图的其它单边频繁子图树重叠到基树上。
5.根据权利要求1所述的一种基于频繁子图挖掘的网络系统关联服务发现方法,其特征在于,生成最初基树的图中边的五元素并以边在存储结构中的顺序作为边的唯一标识符保存到设定的存储结构映射边集中。
6.根据权利要求1所述的一种基于频繁子图挖掘的网络系统关联服务发现方法,其特征在于,在步骤(6)中,对文件内容进行二次扫描,生成相关树,包括根节点、项前缀子树、顶头表,其中项前缀子树中每个节点包4个域:项所对应的序号、节点计数值、指向父节点或最左子女节点的指针、指向同名节点链中下一个节点或者右兄弟节点的指针,而后倒序遍历项头表,判断是否与被约束子树端点相同且端点的支持度技术≥MIN_COUNT,满足条件,则通过组合方式得到新的频繁项集,反之,通过递归挖掘被约束子树获得新的频繁项集。
7.根据权利要求1所述的一种基于频繁子图挖掘的网络系统关联服务发现方法,其特征在于,将图集中的各个子图的的邻接矩阵按照正规化算法进行正规化并转换成正准形,求出所对应的编码,并按编码值从小到大升序排列各图;按编码大小的升序序列将每个k阶邻接矩阵分别与后面的矩阵结合;每两个k阶的邻接矩阵,判断其二者的编码,若其编码的前k-2项相同,说明两矩阵包含同一个k-1阶子矩阵,可以生成候选k+1阶子图,若不相等,则放弃结合,继续判断其后面的矩阵;对k-l阶子图集进行剪枝,计算针1阶候选子图的支持度,并根据最小支持度进行判断生成k+l阶频繁图;重复以上步骤直到不再产生新的候选子图为止。
8.根据权利要求1所述的一种基于频繁子图挖掘的网络系统关联服务发现方法,其特征在于,通过比对候选子图每个节点与网络系统服务记录以及比对候选子图各边关系与新频繁项集,实现网络系统关联服务发现。
CN202211232039.7A 2022-10-10 2022-10-10 一种基于频繁子图挖掘的网络系统关联服务发现方法 Active CN115473933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211232039.7A CN115473933B (zh) 2022-10-10 2022-10-10 一种基于频繁子图挖掘的网络系统关联服务发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211232039.7A CN115473933B (zh) 2022-10-10 2022-10-10 一种基于频繁子图挖掘的网络系统关联服务发现方法

Publications (2)

Publication Number Publication Date
CN115473933A CN115473933A (zh) 2022-12-13
CN115473933B true CN115473933B (zh) 2023-05-23

Family

ID=84337960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211232039.7A Active CN115473933B (zh) 2022-10-10 2022-10-10 一种基于频繁子图挖掘的网络系统关联服务发现方法

Country Status (1)

Country Link
CN (1) CN115473933B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222090A (zh) * 2019-06-03 2019-09-10 哈尔滨工业大学(威海) 一种海量数据频繁项集挖掘方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4039488B2 (ja) * 2003-08-18 2008-01-30 インターナショナル・ビジネス・マシーンズ・コーポレーション 多頻度パターン抽出装置、多頻度パターン抽出方法、及びそのプログラムと記録媒体
KR100812378B1 (ko) * 2005-11-28 2008-03-11 이원석 지속적으로 발생되는 트랜잭션 데이터 집합인 데이터 스트림 환경에서 빈발항목집합 탐색을 위한 축약형 전위 트리를 이용한 빈발항목집합 탐색 방법
KR100896528B1 (ko) * 2007-08-20 2009-05-08 연세대학교 산학협력단 데이터 스트림으로부터 연관규칙을 생성하는 방법 및데이터 마이닝 시스템
CN103258049A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 一种基于海量数据的关联规则挖掘方法
US9146962B1 (en) * 2014-10-09 2015-09-29 Splunk, Inc. Identifying events using informational fields
CN105930457A (zh) * 2016-04-21 2016-09-07 南开大学 基于分布式架构的数据流频繁项挖掘方法
US10409828B2 (en) * 2016-07-29 2019-09-10 International Business Machines Corporation Methods and apparatus for incremental frequent subgraph mining on dynamic graphs
CN113630428B (zh) * 2020-05-08 2022-09-02 中国电信股份有限公司 用于服务数据的获取方法和获取系统
CN114420215B (zh) * 2022-03-28 2022-09-16 山东大学 基于生成树的大规模生物数据聚类方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222090A (zh) * 2019-06-03 2019-09-10 哈尔滨工业大学(威海) 一种海量数据频繁项集挖掘方法

Also Published As

Publication number Publication date
CN115473933A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
US8856203B1 (en) System and method for algorithmic TCAM packet classification
Assent et al. INSCY: Indexing subspace clusters with in-process-removal of redundancy
Chikhi et al. Data structures to represent a set of k-long DNA sequences
CN109040143B (zh) 一种bgp异常事件的检测方法和装置
CN101345707B (zh) 一种实现IPv6报文分类的方法及设备
Wang et al. Clan: An algorithm for mining closed cliques from large dense graph databases
US11106708B2 (en) Layered locality sensitive hashing (LSH) partition indexing for big data applications
CN111868710A (zh) 搜索大规模非结构化数据的随机提取森林索引结构
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
Akutsu et al. On the approximation of largest common subtrees and largest common point sets
US20160335296A1 (en) Memory System for Optimized Search Access
Alstrup et al. Simpler, faster and shorter labels for distances in graphs
CN113612749A (zh) 一种面向入侵行为的溯源数据聚类方法及装置
WO2013028302A1 (en) Fast matching of image features using multi-dimensional tree data structures
CN108549696B (zh) 一种基于内存计算的时间序列数据相似性查询方法
US20230195769A1 (en) Computer system and method for indexing and retrieval of partially specified type-less semi-infinite information
CN113806458A (zh) 时空关联数据的查询方法、装置、电子设备和存储介质
CN107180079A (zh) 基于卷积神经网络以及树与哈希结合索引的图像检索方法
CN104462095B (zh) 一种查询语句公共部分的提取方法及装置
Gou et al. Graph stream sketch: Summarizing graph streams with high speed and accuracy
CN115473933B (zh) 一种基于频繁子图挖掘的网络系统关联服务发现方法
CN110389953B (zh) 基于压缩图的数据存储方法、存储介质、存储装置和服务器
EP3196780A1 (en) Information processing device, information processing method, and computer-readable storage medium
Abdennebi et al. A bloom filter survey: Variants for different domain applications
US20220171815A1 (en) System and method for generating filters for k-mismatch search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant