CN115358397A - 一种基于数据采样的并行图规则挖掘方法及装置 - Google Patents
一种基于数据采样的并行图规则挖掘方法及装置 Download PDFInfo
- Publication number
- CN115358397A CN115358397A CN202210988458.7A CN202210988458A CN115358397A CN 115358397 A CN115358397 A CN 115358397A CN 202210988458 A CN202210988458 A CN 202210988458A CN 115358397 A CN115358397 A CN 115358397A
- Authority
- CN
- China
- Prior art keywords
- data
- graph
- rule
- interest
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000005065 mining Methods 0.000 title claims abstract description 68
- 230000009467 reduction Effects 0.000 claims abstract description 50
- 230000006870 function Effects 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 abstract description 6
- 238000013519 translation Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种基于数据采样的并行图规则挖掘方法及装置,本申请获取所述应用目的,并依据所述应用目的和预设图数据生成兴趣数据;其中,所述兴趣数据包括与目标应用有关的节点、边和属性;依据所述兴趣数据进行数据缩减,并对所述数据缩减后的兴趣数据进行并行挖掘确定出与所述应用目的相关的图规则。通过相对于从整个图中挖掘规则,本申请提出了具有准确性保证的应用驱动的图数据抽样策略,以减少数据规模,提高规则挖掘效率。本申请避免了从属性图转化而来的RDF可能缺乏可扩展性:转化图数据的节点属性往往会产生大量的RDF三元组。本申请用机器学习谓词和通用子图的图模式来发现图关联规则。
Description
技术领域
本发明涉及计算机领域,具体涉及一种基于数据采样的并行图规则挖掘 方法及装置。
背景技术
基于广泛应用于数据挖掘的层次搜索算法,传统的图规则挖掘算法利用 不同剪枝策略来加速图规则的挖掘:例如图函数依赖(Graph Functional Dependency)的挖掘和图模式关联规则(Graph-Pattern Association Rule)的 挖掘。针对图数据上的Horn(霍恩)规则,也有一系列挖掘算法:如采用 剪枝的方法挖掘规则;还有通过自底向上的方式从图数据中不同长度的路径 中学习规则。
现有图规则挖掘算法的缺点主要是:挖掘耗时长,由于规则挖掘过程中 需要计算复杂度极高的子图匹配算法,所以在规模较大的数据图上挖掘图规 则耗时极长,规则挖掘效率低下;在挖掘过程中没有考虑到机器学习谓词。
发明内容
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解 决所述问题的一种基于数据采样的并行图规则挖掘方法及装置,包括:
一种基于数据采样的并行图规则挖掘方法,所述方法用于在预设图数据 中挖掘出与应用目的相对应的图规则,图规则用于在图数据中匹配出与应用 目的相关的图,包括:
获取所述应用目的,并依据所述应用目的和预设图数据生成兴趣数据; 其中,所述兴趣数据包括与目标应用有关的节点、边和属性;
依据所述兴趣数据进行数据缩减,并对所述数据缩减后的兴趣数据进行 并行挖掘确定出与所述应用目的相关的图规则。
优选地,所述依据所述应用目的和预设图数据生成兴趣数据的步骤,包 括:
依据所述应用目的和预设图数据生成标签三元组的序列;其中,所述标 签三元组的序列与所述应用目的谓词相关;
依据所述标签三元组的序列生成所述兴趣数据。
优选地,所述依据所述标签三元组的序列生成所述兴趣数据的步骤,包 括:
在所述标签三元组的序列中选择频率高于预设数值的序列构建应用三 元组;
依据所述应用三元组进行筛选生成所述兴趣数据。
优选地,所述依据所述兴趣数据进行数据缩减的步骤,包括:
依据所述兴趣数据进行采样生成部分采样图,并依据所述部分采样图生 成所述数据缩减后的兴趣数据;其中,所述部分采样图至少一组,所述采样 图的数据规模相比于兴趣数据的规模不超过预设百分比。
优选地,所述依据所述兴趣数据进行采样生成部分采样图,并依据所述 部分采样图生成所述数据缩减后的兴趣数据的步骤,包括:
依据所述兴趣数据生成支点集合;
依据所述支点集合进行提取向量,并将所述向量聚类生成抽取支点;
依据所述抽取支点生成所述数据缩减后的兴趣数据。
优选地,所述对所述数据缩减后的兴趣数据进行并行挖掘确定出与所述 应用目的相关的图规则的步骤,包括:
依据所述数据缩减后的兴趣数据通过图模式生成函数和依赖生成函数 生成初始图规则;
依据所述初始图规则进行验证生成与所述应用目的相关的图规则。
优选地,所述依据所述数据缩减后的兴趣数据通过图模式生成函数和依 赖生成函数生成初始图规则的步骤,包括:
依据所述数据缩减后的兴趣数据通过顶点切割方法进行均匀分配给计 算节点并通过图模式生成函数和依赖生成函数生成初始图规则。
为实现本申请还包括一种基于数据采样的并行图规则挖掘装置,所述装 置用于在预设图数据中挖掘出与应用目的相对应的图规则,图规则用于在图 数据中匹配出与应用目的相关的图,包括:
兴趣数据模块,用于获取所述应用目的,并依据所述应用目的和预设图 数据生成兴趣数据;其中,所述兴趣数据包括与目标应用有关的节点、边和 属性;
图规则模块,用于依据所述兴趣数据进行数据缩减,并对所述数据缩减 后的兴趣数据进行并行挖掘确定出与所述应用目的相关的图规则。
为实现本申请还包括一种电子设备,包括处理器、存储器及存储在所述 存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述 处理器执行时实现所述的基于数据采样的并行图规则挖掘方法的步骤。
为实现本申请一种计算机可读存储介质,所述计算机可读存储介质上存 储计算机程序,所述计算机程序被处理器执行时实现所述的基于数据采样的 并行图规则挖掘方法的步骤。
本申请具有以下优点:
在本申请的实施例中,本申请获取所述应用目的,并依据所述应用目的 和预设图数据生成兴趣数据;其中,所述兴趣数据包括与目标应用有关的节 点、边和属性;依据所述兴趣数据进行数据缩减,并对所述数据缩减后的兴 趣数据进行并行挖掘确定出与所述应用目的相关的图规则。通过相对于从整 个图中挖掘规则,本申请提出了具有准确性保证的应用驱动的图数据抽样策 略,以减少数据规模,提高规则挖掘效率。本申请避免了从属性图转化而来 的RDF(Resource Description Framework,资源—属性—值)可能缺乏可扩展性:转化图数据的节点属性往往会产生大量的RDF三元组。本申请用机 器学习谓词和通用子图的图模式来发现图关联规则(Graph Association Rule)。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要 使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提 下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种基于数据采样的并行图规则挖掘方法 的步骤流程图;
图2是本申请一实施例提供的一种基于数据采样的并行图规则挖掘方法 的步骤流程图;
图3是本申请一实施例提供的一种基于数据采样的并行图规则挖掘方法 的基于聚类方法的图数据采样图;
图4是本申请一实施例提供的一种基于数据采样的并行图规则挖掘方法 的图规则并行挖掘算法图;
图5是本申请一实施例提供的一种基于数据采样的并行图规则挖掘装置 的结构示意图;
图6是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本 申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域 普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属 于本申请保护的范围。
本申请通过获取所述应用目的,并依据所述应用目的和预设图数据生成 兴趣数据;其中,所述兴趣数据包括与目标应用有关的节点、边和属性;依 据所述兴趣数据进行数据缩减,并对所述数据缩减后的兴趣数据进行并行挖 掘确定出与所述应用目的相关的图规则。通过相对于从整个图中挖掘规则, 本申请提出了具有准确性保证的应用驱动的图数据抽样策略,以减少数据规 模,提高规则挖掘效率。本申请避免了从属性图转化而来的RDF(Resource Description Framework,资源—属性—值)可能缺乏可扩展性:转化图数据 的节点属性往往会产生大量的RDF三元组。本申请用机器学习谓词和通用 子图的图模式来发现图关联规则(Graph Association Rule)。
需要说明的是,图规则的相关工作更像是数据库领域的一个分支。规则 的诞生和使用最早是应用在数据库领域中,比如创建表时使用的‘完整性约 束’,为了说明插入该表中的数据必须满足一定的约束(某个属性非空等等); 此外,规则也被广泛的应用在数据挖掘等领域中。
参照图1和图2,示出了本申请一实施例提供的一种基于数据采样的并 行图规则挖掘方法的步骤流程图,具体包括如下步骤:
S110、获取所述应用目的,并依据所述应用目的和预设图数据生成兴趣 数据;其中,所述兴趣数据包括与目标应用有关的节点、边和属性;
S120、依据所述兴趣数据进行数据缩减,并对所述数据缩减后的兴趣数 据进行并行挖掘确定出与所述应用目的相关的图规则。
下面,将对本示例性实施例中的基于数据采样的并行图规则挖掘方法作 进一步地说明。
如上述步骤S110所述,获取所述应用目的,并依据所述应用目的和预 设图数据生成兴趣数据;其中,所述兴趣数据包括与目标应用有关的节点、 边和属性。
在本发明一实施例中,可以结合下列描述进一步说明步骤S110所述“获 取所述应用目的,并依据所述应用目的和预设图数据生成兴趣数据;其中, 所述兴趣数据包括与目标应用有关的节点、边和属性”的具体过程。
如下列步骤所述,依据所述应用目的和预设图数据生成标签三元组的序 列;其中,所述标签三元组的序列与所述应用目的谓词相关;依据所述标签 三元组的序列生成所述兴趣数据。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所 述标签三元组的序列生成所述兴趣数据”的具体过程。
如下列步骤所述,在所述标签三元组的序列中选择频率高于预设数值的 序列构建应用三元组;依据所述应用三元组进行筛选生成所述兴趣数据。
在一具体实施例中,在介绍算法步骤之前,首先引入“标签三元组”这 个概念。一个标签三元组定义为l_v,l_e,l′_v,其中l_v和l′_v是两个 相连的点的标签,l_e是连接两点之间的边的标签。我们定义如果点v的标 签L(v)=l_v、边的标签l=l_e、点v′的标签L(v′)=l′_v,那么边e=(v,l,v′) 服从标签三元组t=l_v,le,l′_v。通配符“_”匹配任意的标签。我们将 L(v),l,L(v′)称为边e的标签三元组T(e)。对于标签三元组集合T而言, 若存在标签三元组t∈T使得e服从标签三元组t,那么称边e服从标签三元 组集合T。若图G中的每条边e都服从标签三元组集合T,那么图G服从标 签三元组集合T。我们定义图模式Q[x]的谓词p的标签三元组(记为T(p)) 如下:(1)若p为边谓词l(x,y)或机器学习谓词M(x,y,l),那么其标签三元 组为{L_Q(μ(x)),l,L_Q(μ(y))};(2)若p为属性谓词x.A或者常量谓词x.A=c,那么其标签三元组为{L_Q(μ(x)),_,_,_,_,L_Q(μ(x))};(3) 若p为变量谓词x.A=y.B,那么其标签三元组为{L_Q(μ(x)),_,L_Q(μ(y)), L_Q(μ(y)),_,L_Q(μ(x))}。
接下来介绍算法步骤。给定用户感兴趣的应用、一个链接预测机器学习 模型M(x,y,l)和数据图G,我们采用语言模型M_A(长短期记忆(LSTM) 网络),经过以下四个步骤导出应用图G_A。
第一步,算法通过增加由M(x,y,l)预测的边,将图G扩展为G_M=(V,E_M, L,F)。这使得算法在发现应用图G_A中的图关联规则时,可以统一考虑机 器学习谓词。
第二步,以表示应用的每个谓词p的标签三元组T(p)为种子输入,并将 每个三元组视为一个词,我们利用训练后的语言模型M_A生成一些标签三 元组的序列,记为Θ_A。由于算法基于LSTM语言模型M_A对句子生成的 概率进行建模,生成的序列在语义上与种子输入T(p)相关。
第三步,算法从Θ_A中选择出现频率最高的m个三元组来构建一个标 签三元组的集合T_A,称为应用三元组。这里m是一个预先给定的正整数。 也就是说,算法关注的是与应用关系最密切的三元组。这样的应用三联体和 表达应用的谓词三元组以高概率共同出现。因此,与应用相关的图关联规则 很可能包括与这些标签三元组相关的谓词,而且这种图关联规则中的图模式 边也服从这些三元组。
第四步,通过只保留那些服从T_A的边,算法将图G_M转化为应用图G_A。其中,如果G_M中节点v某个的相邻边服从T_A,那么该节点的所 有属性都会被保留。通过T_A中的标签三元组过滤,图G_A服从T_A,并 且只包含与目标应用有关的节点、边和属性。
如上述步骤S120所述,依据所述兴趣数据进行数据缩减。
在本发明一实施例中,可以结合下列描述进一步说明步骤S120所述“依 据所述兴趣数据进行数据缩减”的具体过程。
如下列步骤所述,依据所述兴趣数据进行采样生成部分采样图,并依据 所述部分采样图生成所述数据缩减后的兴趣数据;其中,所述部分采样图至 少一组,所述采样图的数据规模相比于兴趣数据的规模不超过预设百分比。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所 述兴趣数据进行采样生成部分采样图,并依据所述部分采样图生成所述数据 缩减后的兴趣数据”的具体过程。
如下列步骤所述,依据所述兴趣数据生成支点集合;依据所述支点集合 进行提取向量,并将所述向量聚类生成抽取支点;依据所述抽取支点生成所 述数据缩减后的兴趣数据。
在一具体实施例中,以下首先给出支点集合的定义。考虑图模式Q[x] 的一个谓词p。与谓词p相关的图模式Qp[xp]是Q[x]的子图,其只包含p中 变量的相应图模式节点,而不包含任何边。图G中p的支点集合,记为PS(p,G), 是Qp在G中的匹配的集合。因此,每个支点要么是一个单一的节点,要么 是从G中抽取的与Qp中的标签匹配的节点对。如图3所示,基于聚类方法 的图数据采样。
基于以上“支点集合”的定义,我们给出基于聚类方法的图数据采样算 法。
算法的输入为应用图G_A(由应用驱动的图数据缩减步骤得到),采样 图的数量N,采样支点的策略M_v,采样周围子图的策略M_s,采样比率ρ _v%和采样比率ρ%分别控制采样节点的比例和采样图规模的比例。该算法 通过N轮计算,输出包含N个样本的采样图H,且采样图的数据规模相比 于应用图G_A的规模不超过ρ%。
算法的每一轮运行得到部分采样图,并加入到集合H中(图3所示第 3-9行)。首先,算法找出有关于右手边预测谓词的支点集合,然后将所有 支点收集在集合C中(图3所示第3-5行);而后算法通过以下两个阶段(图 3所示第6-7行)得出本轮的采样图H(A,ρ%):
第一阶段针对支点集合进行处理。算法调用PSample函数从集合C中采 样出支点,使得C中至多ρ_v%的支点出现在采样的支点集合S_A中。其中 的支点采样策略为K均值聚类算法:即首先针对每一个支点提取其向量表示, 然后利用K均值聚类算法将这些向量聚类,最后从每个聚类中随机抽取支点。
第二阶段抽取支点周围的子图。算法调用LSample函数,以每个采样得 到的支点为起点,采用BFS遍历其周围k跳以内的节点。最后将这些遍历得 到的节点及其之间相连的边抽取保留,作为该轮的采样图H(A,ρ%)。采样 过程保证采样图H(A,ρ%)的规模与应用图G_A的相比不超过ρ%。
如上述步骤S120所述,对所述数据缩减后的兴趣数据进行并行挖掘确 定出与所述应用目的相关的图规则。
在本发明一实施例中,可以结合下列描述进一步说明步骤S120所述“对 所述数据缩减后的兴趣数据进行并行挖掘确定出与所述应用目的相关的图 规则”的具体过程。
如下列步骤所述,依据所述数据缩减后的兴趣数据通过图模式生成函数 和依赖生成函数生成初始图规则;依据所述初始图规则进行验证生成与所述 应用目的相关的图规则。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所 述数据缩减后的兴趣数据通过图模式生成函数和依赖生成函数生成初始图 规则”的具体过程。
如下列步骤所述,依据所述数据缩减后的兴趣数据通过顶点切割方法进 行均匀分配给计算节点并通过图模式生成函数和依赖生成函数生成初始图 规则。
在一具体实施例中,图规则并行挖掘算法的输入为包含N个样本的采样 图H,n个处理器,正整数k,以及支持度阈值σ’。算法的输出为规则集 合Σ_H,其中的每个规则的图模式至多有k个节点,且每个规则的支持度在 H中不小于阈值σ’。
算法首先将计算资源均匀地分配给样本图(图4所示第1行),其通过 顶点切割方法将每个样本图分割并分配给n个计算节点。此后,沿袭BSP 并行模型和类似于GFD的挖掘算法,并行挖掘算法利用k^2轮来生成并验 证挖掘的规则(图4所示第3-13行)。规则生成主要调用图模式生成(QExpand) 函数和依赖生成(PExpand)函数完成(图4所示第4、9行),规则的验证 是将生成好的规则在采样得到的数据图H上进行验证(图4所示第10行) 从而筛选出支持度不小于阈值σ’的规则。
图模式生成(QExpand)函数在迭代lq轮时,创建一个具有lq条边的 图模式集合Q_lq来扩展图模式。QExpand通过用一条新的边扩展Q_lq-1 中的每个模式来生成Q_lq;最初Q1_中的边应该服从表示应用的谓词的标 签三元组。然后,算法采用并行图模式匹配计算样本图中这些生成的图模式 的匹配情况,再从Q_lq中删除所有在样本中支持度小于σ′的图模式(图 4所示第5行)。
给定图模式Q_lq,依赖生成(PExpand)函数在lp层扩展依赖关系X →p0,以产生候选图规则,迭代次数为l^m_p(图4所示第8-12行)。这 里l^m_p表示X中最大的谓词数量。在每个迭代lp中,函数计算出集合 Σ^lp的图规则,这样每个图规则的都有一个来自Qlq的图模式,且相应前 提条件X来自lp(当lp=0时为空集)(图4所示第9行),其中X 是由Σ^lp-1中的一个对应谓词扩展而来,并新增了一个新的谓词。
在一具体实施例中,本申请相对于从整个图中挖掘规则,我们提出了具 有准确性保证的应用驱动的图数据抽样策略,以减少数据规模,提高规则挖 掘效率。挖掘算法从一般属性图中发现图规则,而不需要像规则学习器那 样将图数据编码为RDF格式。这避免了从属性图转化而来的RDF可能缺乏 可扩展性:转化图数据的节点属性往往会产生大量的RDF三元组。用机器 学习谓词和通用子图的图模式来发现图关联规则(Graph AssociationRule)。相 比之下,之前的方法都没有考虑到机器学习谓词,大部分的方法只研究路径 模式。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
参照图5,示出了本申请一实施例提供的一种基于数据采样的并行图规 则挖掘装置,具体包括如下模块:
兴趣数据模块510:用于获取所述应用目的,并依据所述应用目的和预 设图数据生成兴趣数据;其中,所述兴趣数据包括与目标应用有关的节点、 边和属性;
图规则模块520:用于依据所述兴趣数据进行数据缩减,并对所述数据 缩减后的兴趣数据进行并行挖掘确定出与所述应用目的相关的图规则。
在本发明一实施例中,所述兴趣数据模块510包括:
标签装置:用于依据所述应用目的和预设图数据生成标签三元组的序列; 其中,所述标签三元组的序列与所述应用目的谓词相关;
兴趣数据装置:用于依据所述标签三元组的序列生成所述兴趣数据。
在本发明一实施例中,兴趣数据装置包括:
三元组子模块:用于在所述标签三元组的序列中选择频率高于预设数值 的序列构建应用三元组;
兴趣数据子模块:用于依据所述应用三元组进行筛选生成所述兴趣数据。
在本发明一实施例中,所述图规则模块520包括:
采样图装置:用于依据所述兴趣数据进行采样生成部分采样图,并依据 所述部分采样图生成所述数据缩减后的兴趣数据;其中,所述部分采样图至 少一组,所述采样图的数据规模相比于兴趣数据的规模不超过预设百分比。
初始图规则装置:用于依据所述数据缩减后的兴趣数据通过图模式生成 函数和依赖生成函数生成初始图规则;
图规则装置:用于依据所述初始图规则进行验证生成与所述应用目的相 关的图规则。
在本发明一实施例中,所述采样图装置包括:
支点集合子模块:用于依据所述兴趣数据生成支点集合;
抽取支点子模块:用于依据所述支点集合进行提取向量,并将所述向量 聚类生成抽取支点;
兴趣数据子模块:用于依据所述抽取支点生成所述数据缩减后的兴趣数 据。
在本发明一实施例中,所述图规则装置包括:
图规则子模块:用于依据所述数据缩减后的兴趣数据通过顶点切割方法 进行均匀分配给计算节点并通过图模式生成函数和依赖生成函数生成初始 图规则。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系 列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述 的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例 均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
在本具体实施例与上述具体实施例中有重复的操作步骤,本具体实施例 仅做简单描述,其余方案参考上述具体实施例描述即可。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
参照图6,示出了本申请的一种基于数据采样的并行图规则挖掘方法的 计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件 可以包括但不限于:一个或者多个处理器或者处理单元16,内存28,连接 不同系统组件(包括内存28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储 器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任 意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体 系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、音 视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是 任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质, 可移动的和不可移动的介质。
内存28可以包括易失性存储器形式的计算机系统可读介质,例如随机 存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其 他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例, 存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱 动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(如“软 盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM, DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动 器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至 少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些 程序模块42被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例 如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或 者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或 某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述 的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、 显示器24、摄像头等)通信,还可与一个或者多个使得操作人员能与该计算 机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其 他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种 通信可以通过I/O接口22进行。并且,计算机设备12还可以通过网络适配 器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/ 或公共网络(例如因特网)通信。如图6所示,网络适配器20通过总线18 与计算机设备12的其他模块通信。应当明白,尽管图6中未示出,可以结 合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设 备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器 以及数据备份存储系统34等。
处理单元16通过运行存储在内存28中的程序,从而执行各种功能应用 以及数据处理,例如实现本申请实施例所提供的一种基于数据采样的并行图 规则挖掘方法。
也即,上述处理单元16执行上述程序时实现:获取所述应用目的,并 依据所述应用目的和预设图数据生成兴趣数据;其中,所述兴趣数据包括与 目标应用有关的节点、边和属性;依据所述兴趣数据进行数据缩减,并对所 述数据缩减后的兴趣数据进行并行挖掘确定出与所述应用目的相关的图规 则。
在本申请实施例中,本申请还提供一种计算机可读存储介质,其上存储 有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的一种 基于数据采样的并行图规则挖掘方法。
也即,给程序被处理器执行时实现:获取所述应用目的,并依据所述应 用目的和预设图数据生成兴趣数据;其中,所述兴趣数据包括与目标应用有 关的节点、边和属性;依据所述兴趣数据进行数据缩减,并对所述数据缩减 后的兴趣数据进行并行挖掘确定出与所述应用目的相关的图规则。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可 以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例 如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装 置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非 穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬 盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、 光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机 可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执 行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的 数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采 用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的 组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算 机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系 统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作 的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸 如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C” 语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、 部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作 人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器 上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机, 或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连 接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说 明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参 见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦 得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以, 所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所 有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素, 而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物 品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终 端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于数据采样的并行图规则挖掘方法及装 置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进 行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想; 同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及 应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请 的限制。
Claims (10)
1.一种基于数据采样的并行图规则挖掘方法,所述方法用于在预设图数据中挖掘出与应用目的相对应的图规则,图规则用于在图数据中匹配出与应用目的相关的图,其特征在于,包括:
获取所述应用目的,并依据所述应用目的和预设图数据生成兴趣数据;其中,所述兴趣数据包括与目标应用有关的节点、边和属性;
依据所述兴趣数据进行数据缩减,并对所述数据缩减后的兴趣数据进行并行挖掘确定出与所述应用目的相关的图规则。
2.根据权利要求1所述的基于数据采样的并行图规则挖掘方法,其特征在于,所述依据所述应用目的和预设图数据生成兴趣数据的步骤,包括:
依据所述应用目的和预设图数据生成标签三元组的序列;其中,所述标签三元组的序列与所述应用目的谓词相关;
依据所述标签三元组的序列生成所述兴趣数据。
3.根据权利要求2所述的基于数据采样的并行图规则挖掘方法,其特征在于,所述依据所述标签三元组的序列生成所述兴趣数据的步骤,包括:
在所述标签三元组的序列中选择频率高于预设数值的序列构建应用三元组;
依据所述应用三元组进行筛选生成所述兴趣数据。
4.根据权利要求1所述的基于数据采样的并行图规则挖掘方法,其特征在于,所述依据所述兴趣数据进行数据缩减的步骤,包括:
依据所述兴趣数据进行采样生成部分采样图,并依据所述部分采样图生成所述数据缩减后的兴趣数据;其中,所述部分采样图至少一组,所述采样图的数据规模相比于兴趣数据的规模不超过预设百分比。
5.根据权利要求4所述的基于数据采样的并行图规则挖掘方法,其特征在于,所述依据所述兴趣数据进行采样生成部分采样图,并依据所述部分采样图生成所述数据缩减后的兴趣数据的步骤,包括:
依据所述兴趣数据生成支点集合;
依据所述支点集合进行提取向量,并将所述向量聚类生成抽取支点;
依据所述抽取支点生成所述数据缩减后的兴趣数据。
6.根据权利要求1所述的基于数据采样的并行图规则挖掘方法,其特征在于,所述对所述数据缩减后的兴趣数据进行并行挖掘确定出与所述应用目的相关的图规则的步骤,包括:
依据所述数据缩减后的兴趣数据通过图模式生成函数和依赖生成函数生成初始图规则;
依据所述初始图规则进行验证生成与所述应用目的相关的图规则。
7.根据权利要求6所述的基于数据采样的并行图规则挖掘方法,其特征在于,所述依据所述数据缩减后的兴趣数据通过图模式生成函数和依赖生成函数生成初始图规则的步骤,包括:
依据所述数据缩减后的兴趣数据通过顶点切割方法进行均匀分配给计算节点并通过图模式生成函数和依赖生成函数生成初始图规则。
8.一种基于数据采样的并行图规则挖掘装置,所述装置用于在预设图数据中挖掘出与应用目的相对应的图规则,图规则用于在图数据中匹配出与应用目的相关的图,其特征在于,包括:
兴趣数据模块,用于获取所述应用目的,并依据所述应用目的和预设图数据生成兴趣数据;其中,所述兴趣数据包括与目标应用有关的节点、边和属性;
图规则模块,用于依据所述兴趣数据进行数据缩减,并对所述数据缩减后的兴趣数据进行并行挖掘确定出与所述应用目的相关的图规则。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于数据采样的并行图规则挖掘方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于数据采样的并行图规则挖掘方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210988458.7A CN115358397A (zh) | 2022-08-17 | 2022-08-17 | 一种基于数据采样的并行图规则挖掘方法及装置 |
PCT/CN2022/114988 WO2024036662A1 (zh) | 2022-08-17 | 2022-08-26 | 一种基于数据采样的并行图规则挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210988458.7A CN115358397A (zh) | 2022-08-17 | 2022-08-17 | 一种基于数据采样的并行图规则挖掘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115358397A true CN115358397A (zh) | 2022-11-18 |
Family
ID=84002879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210988458.7A Pending CN115358397A (zh) | 2022-08-17 | 2022-08-17 | 一种基于数据采样的并行图规则挖掘方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115358397A (zh) |
WO (1) | WO2024036662A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610725A (zh) * | 2023-05-18 | 2023-08-18 | 深圳计算科学研究院 | 一种应用于大数据的实体增强规则挖掘方法及装置 |
CN117077802A (zh) * | 2023-06-15 | 2023-11-17 | 深圳计算科学研究院 | 一种时序性数据的排序预测方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7836004B2 (en) * | 2006-12-11 | 2010-11-16 | International Business Machines Corporation | Using data mining algorithms including association rules and tree classifications to discover data rules |
US10467236B2 (en) * | 2014-09-29 | 2019-11-05 | International Business Machines Corporation | Mining association rules in the map-reduce framework |
US20170228448A1 (en) * | 2016-02-08 | 2017-08-10 | Futurewei Technologies, Inc. | Method and apparatus for association rules with graph patterns |
CN108595711B (zh) * | 2018-05-11 | 2021-11-30 | 西南石油大学 | 一种分布式环境下图模式关联规则挖掘方法 |
CN114741460B (zh) * | 2022-06-10 | 2022-09-30 | 山东大学 | 基于规则间关联的知识图谱数据扩展方法及系统 |
-
2022
- 2022-08-17 CN CN202210988458.7A patent/CN115358397A/zh active Pending
- 2022-08-26 WO PCT/CN2022/114988 patent/WO2024036662A1/zh unknown
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116610725A (zh) * | 2023-05-18 | 2023-08-18 | 深圳计算科学研究院 | 一种应用于大数据的实体增强规则挖掘方法及装置 |
CN116610725B (zh) * | 2023-05-18 | 2024-03-12 | 深圳计算科学研究院 | 一种应用于大数据的实体增强规则挖掘方法及装置 |
CN117077802A (zh) * | 2023-06-15 | 2023-11-17 | 深圳计算科学研究院 | 一种时序性数据的排序预测方法及装置 |
CN117077802B (zh) * | 2023-06-15 | 2024-07-02 | 深圳计算科学研究院 | 一种时序性数据的排序预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2024036662A1 (zh) | 2024-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9971967B2 (en) | Generating a superset of question/answer action paths based on dynamically generated type sets | |
US9536444B2 (en) | Evaluating expert opinions in a question and answer system | |
CN115358397A (zh) | 一种基于数据采样的并行图规则挖掘方法及装置 | |
US10628521B2 (en) | Scoring automatically generated language patterns for questions using synthetic events | |
US20170109434A1 (en) | Information Retrieval Using Structured Resources for Paraphrase Resolution | |
US9684726B2 (en) | Realtime ingestion via multi-corpus knowledge base with weighting | |
KR20210129465A (ko) | 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법 | |
CN112214584A (zh) | 使用知识图利用实体关系来发现答案 | |
US20170039482A1 (en) | Mapping Questions to Complex Database Lookups using Synthetic Events | |
US8650180B2 (en) | Efficient optimization over uncertain data | |
CN113590811B (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN113094625B (zh) | 页面元素定位方法、装置、电子设备及存储介质 | |
JP2022003544A (ja) | 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品 | |
CN113505278A (zh) | 图匹配方法、装置、电子设备及存储介质 | |
US10705810B2 (en) | Automatic code generation | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
US10373060B2 (en) | Answer scoring by using structured resources to generate paraphrases | |
CN114238576A (zh) | 数据匹配方法、装置、计算机设备和存储介质 | |
CN110321435B (zh) | 一种数据源划分方法、装置、设备和存储介质 | |
CN111723247A (zh) | 基于图的假设计算 | |
CN116226686B (zh) | 一种表格相似性分析方法、装置、设备和存储介质 | |
CN117891930B (zh) | 基于知识图谱增强大语言模型的图书知识问答方法 | |
US20230385252A1 (en) | Data quality analyze execution in data governance | |
JP2019144873A (ja) | ブロック線図解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |