CN112287118B

CN112287118B - 事件模式频繁子图挖掘与预测方法

Info

Publication number: CN112287118B
Application number: CN202011190740.8A
Authority: CN
Inventors: 崔莹; 代翔; 戴礼灿; 杨露; 潘磊
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2023-06-02
Anticipated expiration: 2040-10-30
Also published as: CN112287118A

Abstract

本发明公开的一种事件模式频繁子图挖掘与预测方法，涉及知识工程技术领域，旨在降低挖掘开销，提升挖掘速度。本发明通过下述技术方案实现：在基于密度的图摘要阶段将基于密度图摘要图中的节点划分成簇或者超级节点，依次选取节点构建一个简洁的高层次的图；在模式挖掘阶段，在大规模的事件图谱上进行频繁子图挖掘，基于事件模式挖掘频繁子图，在事件图谱的图集中找到频繁出现的子图；基于图摘要算法对输入图G进行摘要，以摘要结果为输入进行频繁子图挖掘和基于图摘要的挖掘预处理；最后，利用多源数据，从多方来源多个角度进行事件模式的挖掘与预测，根据用户定义的最小支持度min_sup或其他输出标准进行候选集过滤和频繁子图输出。

Description

事件模式频繁子图挖掘与预测方法

技术领域

本发明涉及知识工程技术领域，尤其涉及事件模式频繁子图挖掘与预测方法。

背景技术

知识图谱，最早起源于GoogleKnowledgeGraph。知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept)，边代表实体/概念之间的各种语义关系。

事件图谱作为一类典型的知识图谱，目前尚未得到充分有效利用，其潜在价值亟待开发利用。事件图谱主要由事件相关元素构成，包含了所有历史事件的发生、发展的整个过程，同时也描述的不同事件间的承接、顺序、因果等关系。如果对事件图谱进行仔细的分析，挖掘出其中所包含的事件的规律和模式，那么就可以通过这种规律和模式来对未来的事件进行预测。这就是基于事件图谱的事件预测的基本出发点。

事件模式是事件的属性和关系的组合，包括事件的前导事件，与前导事件见的关系，以及事件及其前导事件的类型、地点、参与者以及(周期性)发生时间等。通过研究分析，一些高频的事件模式在三个月的时间窗口中可以出现多达10次以上，是十分优秀的预测指标。但是绝大多数事件模式只出现一次。所以，我们必须在大量的事件模式中寻找频繁出现的模式，以之作为候选模式集来预测事件。于是，基于事件图谱的事件预测问题就转换成了事件图谱上的频繁子图挖掘问题。目前，基于时间属性的事件挖掘技术主要集中在序列模式和时间模式挖掘两个方面，其中大多数关于事件模式挖掘的研究都是根据序列模式研究的基序列模式挖掘技术，挖掘序列模式就是挖掘与时间或其他序列有关的频繁发生的模式。在序列模式的挖掘中，输入数据集是一组序列，叫做数据序列。每个数据序列有一系列交易组成，每个交易是一组项目集。通常，每个交易都有一个与之相关联的交易时间，对于间隔事件而言，交易时间是一个事件间隔。序列模式挖掘的任务是对于一个用户指定的最小支持度，发现所有的序列模式。一个序列模式的支持度是指输入数据集中包含该模式的数据序列的百分序列模式挖掘的第一类算法是基于Apriori的算法，Apriori的中心思想是在每个第k-1自连接生成。这里的频繁序列中所有满足用户指定支持度阈值的序列。基于密度的图摘要算法(DenseSummarizeGraph,DSG)。受DBSCAN算法的启发,也采用一定的核心对象代表若干个数据点,但其核心对象是虚拟的点,不是实际输入的数据。1DBSCAN算法基于密度的聚类的关键思想是:对于聚类中的每一个对象,在给定的半径(e)的邻域中至少要包含最小数目(MinPts)个对象,即邻域的基数(元组数)必须超过一个阈值。DBSCAN算法根据以上的定义在数据库中发现噪声与聚类,其基础是一个聚类等价于集合D中核心对象密度可达的所有对象的集合.密度可达对象的检索是通过反复收集直接密度可达对象而实现的。化学信息学、生物信息学、医学和社会科学等领域的科学研究的迅速发展积累了大量的图数据，如何从复杂和庞大的图数据中挖掘出有效信息成为数据挖掘领域的热点。

在各种各样的图模式中，频繁子结构是可以在图集合中发现的非常基本的模式。在大型图数据库中可以用它建立图索引并进行相似性搜索，区分不同的图组群，对图进行分类和聚类分析。目前已经有了一些成熟的频繁子结构的挖掘方法，并且在许多领域得到了应用。在现有的频繁子图挖掘方法中，确定图的频繁子图挖掘是指在确定图集合中挖掘出公共子结构。akihiroinokuchi、takashiwashio和hiroshimotoda提出的算法以递归统计的方法为基础，图的顶点相当于传统频繁项集挖掘算法中的项集，通过每次增加一个图节点来实现子结构规模的增大，该算法可以挖掘出所有频繁子图，对集成的密集数据集具有良好性能。michihirokuramochi和georgekarypis提出的算法对进行了改进，图的边相当于传统频繁项集挖掘算法中的项集，也就是说，和传统频繁项集挖掘算法通过每次增加一个单一项来增加频繁项集的大小一样，算法也是通过每次增加一条边来增加频繁子图的大小。首先算法枚举所有的单边图和双边图。然后，基于得到的单边图和双边图集合，开始循环计算。在每个循环期间，算法首先产生比前一个频繁子图多一条边的候选子图，接着计算这些候选子图的频繁度，对支持度约束不满意的子图进行剪枝，并在计算候选子图的支持度时采取了一定的优化措施。这些算法得到频繁子图的方法都是扩展频繁边的方式。图结构因为其本身特性以及图的同构性问题，对图的频繁子图挖掘问题的难点就在于怎样将无序的图结构转换成有序列表。传统的频繁子图挖掘算法都是基于深度优先搜索和广度优先算法的，其在图规模增长时，算法在时间和空间上的需求会急剧增加。

发明内容

本发明的发明目的是针对现有技术存在的不足之处，提供一种基于事件图谱的事件模式频繁子图挖掘与预测方法。本发明的核心是在大规模的事件图谱上快速的进行频繁子图挖掘，为此，本发明提出基于事件图谱的事件模式频繁子图挖掘及预测方法，以降低挖掘开销，提升挖掘速度。

本发明的上述目的可以通过以下措施来得到，一种事件模式频繁子图挖掘与预测方法，其特征在于包括：基于密度的图摘要阶段和模式挖掘阶段，在基于密度的图摘要阶段，将基于密度图摘要图中的节点划分成簇或者超级节点，着眼于最大程度的保存原始图的节点和边缘，依次选取节点集合V密度较大的节点开始进行摘要，构建一个简洁的高层次的图；在模式挖掘阶段，基于事件图谱开展事件模式挖掘，在大规模的事件图谱上进行频繁子图挖掘，基于密度的图摘要和频繁子图的事件模式挖掘频繁子图，即在事件图谱的图集中找到频繁出现的子图；基于密度的图摘要算法对输入图G进行摘要，然后以摘要结果为输入，进行频繁子图挖掘和基于图摘要的挖掘预处理；最后，利用多源数据，从多方来源多个角度进行事件模式的挖掘与预测，根据用户定义的最小支持度min_sup或其他输出标准进行候选集过滤和频繁子图输出。

本发明相比于现有技术具有如下有益效果：

本发明将摘要作为一种专门应对数据爆发式增长的算法，采用基于密度的图摘要算法(DenseSummarizeGraph,DSG)，利用本质是一种基于密度图摘要的频繁子图挖掘算法，分为图摘要阶段和模式挖掘阶段两个阶段，能够在事件图谱上有效地开展事件模式挖掘及事件发生预测。在图摘要阶段把图中的节点划分成簇或者超级节点，着眼于最大程度的保存原始图的节点和边缘，并构建一个简洁的高层次的图。这种采用基于密度的图摘要算法(DenseSummarizeGraph,DSG)，扩展知识图谱应用范围，推进知识智能化认知推理水平，图在处理大规模图数据方面具有其独到的优势，可用于支撑事件模式挖掘及预警预测。由于频繁子图大多数情况下反映了图数据库中的某种反复出现的模式或者规律，一个在事件图谱上的频繁子图意味着一类事件发展的可能模式，通过频繁子图的挖掘，可以帮助我们认识和识别事件发生和发展的规律，从而对未发生的事件进行预测。

本发明基于事件图谱开展事件模式挖掘，基于密度的图摘要和频繁子图的事件模式挖掘频繁子图，在事件图谱的图集中找到频繁出现的子图；在大规模的事件图谱上快速的进行频繁子图挖掘，降低了挖掘开销，提升了挖掘速度。挖掘得到的事件模式可通过图谱查看，进而辅助专家对事件模式及预测结果进行理解，提升事件预测结果的可信度。

为事件挖掘预测提供了可解释和理解的基础。本方法基于事件图谱开展事件模式挖掘，挖掘得到的事件模式可通过图谱查看，进而辅助专家对事件模式及预测结果进行理解，提升事件预测结果的可信度。

本发明基于密度的图摘要算法对输入图G进行摘要，然后以摘要结果为输入，进行频繁子图挖掘和基于图摘要的挖掘预处理；从多方来源多个角度进行事件模式的挖掘与预测，整体提升事件挖掘及预测结果的准确性。最后，利用多源数据，从多方来源多个角度进行事件模式的挖掘与预测，根据用户定义的最小支持度min_sup其他输出标准进行候选集过滤和频繁子图输出。提升事件挖掘及预测结果准确性。事件图谱数据来源及类型丰富多样，在此基础上基于本发明方法能够有效利用各类数据，从多方来源多个角度进行事件模式的挖掘与预测，整体提升事件挖掘及预测结果的准确性。

附图说明

图1是本发明基于事件图谱的事件模式频繁子图挖掘与预测原理示意图。

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

具体实施方式

参阅图1。根据本发明，基于密度的图摘要阶段和模式挖掘阶段，在基于密度的图摘要阶段，将基于密度图摘要图中的节点划分成簇或者超级节点，着眼于最大程度的保存原始图的节点和边缘，依次选取节点集合V密度较大的节点开始进行摘要，构建一个简洁的高层次的图；在模式挖掘阶段，基于事件图谱开展事件模式挖掘，在大规模的事件图谱上进行频繁子图挖掘，基于密度的图摘要和频繁子图的事件模式挖掘频繁子图，即在事件图谱的图集中找到频繁出现的子图；基于密度的图摘要算法对输入图G进行摘要，然后以摘要结果为输入，进行频繁子图挖掘和基于图摘要的挖掘预处理；最后，利用多源数据，从多方来源多个角度进行事件模式的挖掘与预测，根据用户定义的最小支持度min_sup或其他输出标准进行候选集过滤和频繁子图输出。

基于密度的图摘要阶段：采用基于密度的图摘要算法(DenseSummarizeGraph,DSG)算法。DSG算法基于最小描述长度原则，改进了随机算法Randomized算法(randomizedalgorithm)，引入密度的思想进行图摘要。具体步骤如下：

由于随机算法Randomized算法存在随机的过程，其取点是随机的，算法存在不稳定的缺点，所以我们尝试给Randomized算法去随机化，从而提出基于密度的图摘要算法。本实施例结合基于密度的子图发掘算法，对随机算法Randomized算法进行改进，在算法初始化时，计算所有节点集合V的密度，按节点密度由大到小进行排序依次进行摘要。超节点的表示由聚类在一起的相似节点共同作用得到，超节点之间的连边由聚类分配矩阵和原邻接矩阵共同作用得到。

对于节点集合V＝(v₁，v₂，…v_n)，依次计算每个节点的密度ρ，密度ρ的计算公式ρ＝ρ₁+αρ₂，(0＜α＜1)将节点和节点密度保存在集合U中，然后对集合U按照密度由大到小进行排序，在摘要过程中，依次选取密度较大的节点开始进行摘要，其中,ρ₁为一步长密度，ρ₂为二步长密度，α为系数。

本发明在基于密度的图摘要算法的基础上给出了基于密度图摘要的频繁子图挖掘算法的详细过程。在叙述中，也将频繁子图挖掘问题称为频繁子模式挖掘，如无特殊说明，模式与子图等价。

基于密度的图摘要算法分为3个阶段：预处理阶段，频繁子图挖掘阶段和结果输出阶段。在预处理阶段，采用基于密度的图摘要算法对输入图G进行摘要，产生摘要图G_s＝(V_s，E_s)，利用校正集C得到摘要结果R＝(G_s,C)，然后以摘要结果为输入，进行频繁子图挖掘阶段处理；最后，根据用户定义的最小支持度min_sup或其他输出标准进行输出，其中，V_s为超级节点集合，E_s表示超级节点边集合。

(1)基于图摘要的挖掘预处理

在预处理阶段，对输入图G进行如下处理：

1)如果输入图G是标号图，即节点和边均带有标签，则将输入图输入基于密度的图摘要算法；

2)如果输入图G是边标号图，即只有边带有标签，而节点没有标签，则对于所有节点赋予相同标签，然后将输入图输入基于密度的图摘要算法；

3)如果输入图G是点标号图，即只有节点带有标签，而边没有标签，则对于所有边赋予相同标签，然后将输入图输入基于密度的图摘要算法；

4)如果输入图G是简单图，即节点和边均没有标签，则对所有节点赋予相同标签，对所有边赋予相同标签，然后将输入图输入基于密度的图摘要算法；

由进行完摘要之后，产生摘要图G_s＝(V_s，E_s)，输出摘要结果R＝(G_s，C)，将校正集C中的边，加入与其相关的较小的超级节点中产生新的超级节点集合V_s。V_s中的每个节点v_s都是原输入图G的一个子图。

(2)频繁子图挖掘

定义输入流S＝{s₁,s₂,…,s_n}，其中，每个元素s_i称为一个批，每一个批s_i为预处理阶段产生摘要图的超级节点集合V_s中的节点v_i表示的子图。

在开始阶段，初始化一个字典集合P＝φ，用来记录中间模式和其支持度，集合大小上限为θ，由用户指定，通常和最小支持度min_sup相关，最小支持度min_sup越小，θ的值越大。不难理解，在挖掘的过程中，最小支持度min_sup越小，挖掘产生的频繁子集就会越大，中间产生的模式也会随之增加。

之后，将输入流S＝{s₁,s₂,…s_n}照s_i批由大到小，依次输入。对于第一个输入s₁，将s₁中的边进行拆解，拆解成|E_S1|个由一条边组成的子图。将所有子图加入字典集合P，这时P为初始的模式集合，其中每个模式都只由一条边组成，且每个模式的支持度均为1。对于之后输入每一个批s_i，使用P_i∈P(i＝1，2…，|P|)在s_i中寻找与P同构的图，在计算子图同构问题时，本发明使用VF2算法。若在Si中存在与模式P_i同构的图，则P_i的支持度增加同构子图的个数。对模式P_i进行扩增，从s_i中与模P_i式同构的图中，选取一条相临边，加入模式P_i中，所加的这条边要使产生的模式没有在P中出现过，如不满足，则对其继续新增一条边，将产生的新模式P’加入字典P中，更新字典P。若在s_i中不存在与P_i∈P(i＝1，2…，|P|)同构的图，则将s_i中的边进行拆解，拆解成|E_si|个由一条边组成的子图，将所有子图加入字典集合P。

在不断将新出现模式加入字典集合P的过程中，字典集合P会出现模式数溢出的情况，即P中保存的模式数大与集合P的集合上界θ。这时，我们需要对集P合中的模式进行筛选，删除部分较不可能频繁的模式。

(3)候选集过滤和频繁子图输出

前两个阶段生成了一个保存着所有候选子图集合的字典集合P。定义候选子集F＝P。通常频繁子图挖掘过程中，min_sup用户定义，且时间复杂度与min_sup小密切相关。这里所提出方法在生成候选模式的过程中没有过多考虑min_sup的因素，在输出阶段再对其进行处理。在候选集F中，直接根据最小支持度min_sup筛选掉出现频次少于最小支持度的模式，将剩余的模式输出。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种事件模式频繁子图挖掘与预测方法，其特征在于包括如下步骤：基于密度的图摘要阶段和频繁子图的事件模式挖掘阶段，在基于密度的图摘要阶段，把密度图摘要图中的节点划分成簇或者超级节点，着眼于最大程度的保存原始图的节点和边缘，依次选取节点集合V密度大的节点开始进行摘要，构建一个简洁的高层次的图；

事件图谱由事件相关元素构成，包含所有历史事件的发生、发展过程，以及不同事件间的关系，事件模式是事件的属性与关系的组合，包括事件的前导事件、与前导事件的关系，以及事件及与其前导事件的类型、地点、参与者以及发生时间；

在模式挖掘阶段，基于事件图谱开展事件模式挖掘，在大规模的事件图谱上进行频繁子图挖掘，基于密度的图摘要和频繁子图的事件模式挖掘频繁子图，即在事件图谱的图集中找到频繁出现的子图，然后将基于密度的图摘要算法分为3个阶段：预处理阶段，频繁子图挖掘阶段和结果输出阶段，在预处理阶段，采用基于密度的图摘要算法对输入图G进行摘要，产生摘要图G_s＝(V_s，E_s)，然后以摘要结果为输入，利用校正集C得到摘要结果R＝(G_s,C)，以摘要结果为输入，在事件图谱上有效地开展事件模式挖掘及事件发生预测，进行频繁子图挖掘阶段处理和基于图摘要的挖掘预处理；

最后，在大规模的事件图谱上快速的进行频繁子图挖掘，利用多源数据，从多方来源多个角度进行事件模式的挖掘与预测，根据用户定义的最小支持度min_sup或其它输出标准进行候选集过滤和频繁子图输出，其中，V_s为超级节点集合，E_s表示超级节点边集合。

2.如权利要求1所述的事件模式频繁子图挖掘与预测方法，其特征在于：基于密度的图摘要阶段：采用基于密度的图摘要算法DSG，根据最小描述长度原则，引入密度的思想进行图摘要；结合基于密度的子图发掘算法，对随机算法Randomized进行改进，在算法初始化时，计算所有节点集合V的密度，按节点密度由大到小进行排序依次进行摘要，并由聚类在一起的相似节点共同作用得到超节点，超节点之间的连边由聚类分配矩阵和原邻接矩阵共同作用得到改进了的随机算法Randomized。

3.如权利要求2所述的事件模式频繁子图挖掘与预测方法，其特征在于：随机算法Randomized对于节点集合V＝(v₁，v₂，…v_n)，依次计算每个节点的密度ρ，密度ρ的计算公式ρ＝ρ₁+αρ₂，0＜α＜1，将节点和节点密度保存在集合U中，然后对集合U按照密度由大到小进行排序，在摘要过程中，依次选取密度大的节点开始进行摘要，其中，ρ₁为一步长密度，ρ₂为二步长密度，α为系数。

4.如权利要求1所述的事件模式频繁子图挖掘与预测方法，其特征在于：在预处理阶段，对输入图G进行如下处理：如果输入图G是标号图，即节点和边均带有标签，则将输入图输入基于密度的图摘要算法；如果输入图G是边标号图，即只有边带有标签，而节点没有标签，则对于所有节点赋予相同标签，然后将输入图输入基于密度的图摘要算法；如果输入图G是点标号图，即只有节点带有标签，而边没有标签，则对于所有边赋予相同标签，然后将输入图输入基于密度的图摘要算法；如果输入图G是简单图，即节点和边均没有标签，则对所有节点赋予相同标签，对所有边赋予相同标签，然后将输入图输入基于密度的图摘要算法；由进行完摘要之后，产生摘要图G_s＝(V_s，E_s)，输出摘要结果R＝(G_s，C)，将校正集C中的边，加入与其相关的较小的超级节点中产生新的超级节点集合V_s；V_s中的每个节点v_s都是原输入图G的一个子图。

5.如权利要求4所述的事件模式频繁子图挖掘与预测方法，其特征在于：在频繁子图挖掘中，定义输入流S＝{s₁,s₂,…s_n}，其中，每个元素s_i称为一个批，每一个批s_i为预处理阶段产生摘要图的超级节点集合V_s中的节点v_i表示的子图；在开始阶段，初始化一个字典集合P＝φ，φ用来记录中间模式和其支持度，集合大小上限为θ，由用户指定。

6.如权利要求1所述的事件模式频繁子图挖掘与预测方法，其特征在于：在频繁子图挖掘中，将输入流S＝{s₁,s₂,…s_n}照s_i批由大到小，依次输入，对于第一个输入s₁，将s₁中的边进行拆解，拆解成|E_S1|个由一条边组成的子图；将所有子图加入字典集合P，这时P为初始的模式集合，其中每个模式都只由一条边组成，且每个模式的支持度均为1。

7.如权利要求6所述的事件模式频繁子图挖掘与预测方法，其特征在于：对于之后输入每一个批s_i，使用P _i∈P(i＝1，2…，|P|)在s_i中寻找与P同构的图，在计算子图同构问题时，使用VF2算法，若在Si中存在与模式P_i同构的图，则P_i的支持度增加同构子图的个数，对模式P_i进行扩增，从s_i中与模P_i式同构的图中，选取一条相临边，加入模式P_i中，所加的这条边要使产生的模式没有在P中出现过，如不满足，则对其继续新增一条边，将产生的新模式P’加入字典P中，更新字典P；若在s_i中不存在与P _i∈P(i＝1，2…，|P|)同构的图，则将s_i中的边进行拆解，拆解成|E_Si|个由一条边组成的子图，将所有子图加入字典集合P。

8.如权利要求7所述的事件模式频繁子图挖掘与预测方法，其特征在于：在不断将新出现模式加入字典集合P的过程中，根据字典集合P出现模式数溢出的情况，即P中保存的模式数大与集合P的集合上界θ时，对集P合中的模式进行筛选，候选集过滤输出频繁子图。

9.如权利要求1所述的事件模式频繁子图挖掘与预测方法，其特征在于：在候选集过滤和频繁子图输出中，生成一个保存着所有候选子图集合的字典集合P，并定义候选子集F＝P，在候选集F中，直接根据最小支持度min_sup筛选掉出现频次少于最小支持度的模式，将剩余的模式输出。