CN108595711A

CN108595711A - 一种分布式环境下图模式关联规则挖掘方法

Info

Publication number: CN108595711A
Application number: CN201810448459.6A
Authority: CN
Inventors: 王欣; 徐杨; 贾建民
Original assignee: Chengdu Hua Tian Cheng Technology Co Ltd
Current assignee: Chengdu Huashu Tiancheng Technology Co ltd; Southwest Petroleum University
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-09-28
Anticipated expiration: 2038-05-11
Also published as: CN108595711B

Abstract

本发明公开了一种分布式环境下图模式关联规则挖掘方法，搭建分布式计算环境，整个分布式环境包括一个中心与多个分区；设定挖掘的支持度及置信度阈值，统计全局频繁单边；分区统计结果将发送至中心进行汇总，确定频繁边集合；进行频繁结构挖掘；中心将从频繁单边开始，对其进行right‑most路径上的迭代生长，每一轮生长结果将被广播至所有分区进行挖掘，挖掘结果反馈至中心；中心汇总统计后去除不满足支持度阈值的结构，对满足支持度阈值的结构，继续进行迭代生长，直至所有频繁单边结构迭代完成，输出编码树；最后产生图结构关联规则。本发明为用户提供了在大规模社交网络中挖掘图模式关联规则，并利用图模式关联规则开展社交营销和推荐的技术。

Description

一种分布式环境下图模式关联规则挖掘方法

技术领域

本发明涉及数据挖掘技术领域，具体为一种分布式环境下图模式关联规则挖掘方法。

背景技术

大数据的出现，引发了全球范围内深刻的技术与商业变革，已经成为全球发展的趋势以及国家和企业间的竞争焦点。在白热化的商业竞争环境下，利用多样化的分析技术挖掘数据背后隐藏的商业价值已无处不在。其中一个被广泛认可，且行之有效的分析方法即为关联分析。通过关联分析，人们可以在交易数据库(Transactional DataBase，以下简称TDB)——一种典型的结构化数据中发现项集间的联系，例如：沃尔玛通过对交易数据进行关联分析，成功地发现了有关联的商品，进而优化商品布置，促进关联销售等。

然而，传统的关联分析仅适用于对结构化数据的分析，并不适用于以社交网络为代表的超大规模图结构数据。随着近年来社交网络的快速发展，如何对其进行关联分析，发现其中实体间的关联关系引起了人们的高度关注，成为大数据分析领域内一个亟待解决的问题。其原因在于：社交网络已成为市场营销、广告投放等的重要平台，发现社交网络中实体间的关联关系有着巨大的商业价值。实际上，研究发现“截至2017年2月有88％的购买源于tweets的推荐，60％的用户认为Twitter在他们的购物决策中起到很重要的作用”，此外，“90％的用户信任朋友的推荐，反之仅有14％的人相信广告；且同伴影响可以使消费者购买产品的可能性增加50％以上”。

为了进一步说明社交网络中的关联关系及其作用，以下我们通过以下实例来进行阐述：

例1：在社交网络Pokec中，我们发现如图1所示的规则R₁，即：如果(1)用户1和用户2是好友关系(相互跟随)且共同喜欢职业发展类书籍；(2) 用户1还喜欢个人发展类书籍，那么用户2也很有可能喜欢个人发展类书籍。基于规则R₁，我们发现用户2是个人发展类书籍的潜在消费者，可以通过向用户2做有针对性的推荐，帮助提高该书籍的销量。

与传统关联规则不同，上述规则R₁，R₂，R₃以及R₄可以被形式化地描述为一个基于图模式的关联规则(Graph Pattern Association Rule，以下简称GPAR)，其中R的先导和后继分别是模式图Q₁和Q₂。

毫无疑问，这些规则对于我们开展社会营销将起到非常重要的作用。然而从以社交网络为代表的大规模图数据中挖掘隐藏其中的GPAR并非易事。主要的困难包括：

(1)社交网络数据规模巨大，通常以数亿计。此外，挖掘计算开销巨大。因此，在如此海量的数据上进行昂贵的挖掘计算，势必造成过高的计算开销。

(2)社交网络的数据往往是分布式存储的，进行GPAR的挖掘通常需要访问多个数据站点，收集所需要的信息。因此，在分布式环境下，GPAR的挖掘更加困难。

发明内容

针对上述问题，本发明的目的在于提供一种分布式环境下图模式关联规则挖掘方法，该方法为针对单一大图进行增量频繁模式挖掘的高效算法，能够降低现有技术对大图进行频繁模式挖掘所需的时间与空间开销。技术方案如下：

一种分布式环境下图模式关联规则挖掘方法，包括以下步骤：

S1：构建分布式环境下编码树：

S11：建立由一个中心站点和多个分区站点组成的支持半双工通信和多线程计算的分布式计算框架，并根据分布式计算框架建立各站点之间的路由表；

S12：设定挖掘支持度及置信度阈值；

S13：全局频繁单边统计；

S14：全局增量频繁模式挖掘；

S15：依据在增量频繁模式的挖掘过程中所维护的模式生长过程，从单边频繁模式开始，自上而下的生长出其“孩子”节点，直至该单边频繁模式的最大频繁模式，构建编码树；

S2：生成基于编码树的图模式关联规则：

S21：确定最大频繁模式集合，即编码树叶子节点集合；

S22：从编码树的叶子节点开始，对编码树进行逆向广度优先搜索；

S23：对于搜索访问到的节点，建立图模式关联规则；

S24：对关联规则进行置信度检验，若满足置信度检验，则是一个有效的图模式关联规则。

进一步的，所述分布式计算框架中，单一大图结构G被存储在多个分区站点，每个分区站点W_i存储对应站点的图数据以及本地站点的唯一标识符F_i；每个节点都有所属分区标记T与该节点所属分区的唯一标识F_i对应，对于跨越了分区的边e(v，v_vritual)通过v_vritual所含有的分区标记T，在路由表中查询到对应的分区路由信息，以完成分区之间的数据交互；其中v表示该节点属于本地分区，即T＝F_i，v_vritual表示该节点不属于本地站点，即T≠F_i。

更进一步的，所述S13具体包括：

S131：中心站点根据路由表向所有分区站点广播“单边统计开始”标志；

S132：分区站点收到“单边统计开始”标志后，进行本地边统计；对于跨分区边上不属于本分区的节点不予以计数；统计结束后，向中心站点回传统计结果；

S123：中心站点收到所有分区的统计结果后，进行汇总，且根据设定的支持度阈值筛选出频繁单边，组成频繁单边模式集合，且将频繁单边模式集合广播至所有分区站点；

S134：分区站点根据该频繁单边模式集合对本地图结构进行边修剪，删除不属于频繁边模式集合中的边信息；修剪完成后，向中心反馈“边修剪完成”标志；

S135：中心站点收到所有站点反馈的“边修剪完成”标志后，启动增量频繁模式挖掘。

更进一步的，所述S14具体包括：

S141：中心站点从频繁边模式集合中选择一条频繁边模式且构建为树结构T1；

S142：中心站点将T1生长一个不带标签的虚拟节点或生成一条回环边扩展出树结构T2；

S143：中心站点将树结构T1与T2转换为图结构G1，G2，且将G1，G2广播至所有分区站点；

S144：各分区站点收到图结构G1与G2以后，根据图结构G1从本地筛选出起始扩展集合，且根据起始扩展集合扩展出所有满足图结构G2的子图集合；对于含有跨分区节点的子图，将该子图发送至对应分区；

S145：分区站点完成本地扩展任务以后向中心发送本轮扩展的结束标志；

S146：中心站点收到所有分区的扩展结束标志后，广播允许回传的标志至所有分区站点；

S147：分区站点收到中心的允许回传标志后，开始回传本地本轮的扩展结果子图统计集合给中心站点；

S148：中心站点对所有分区的回传集合进行统计，筛选出满足支持度阈值的子图结构；若有子图满足设定的支持度阈值，则将其标记为T1的“孩子”，且将其转换为树结构作为S142的T1递归调用，若无子图满足设定的支持度阈值，则返回上一轮迭代，直至该条频繁边的迭代结束为止；

S149：若该频繁边的迭代扩展结束，则中心站点从频繁单边模式集合从选择下一条频繁单边模式进行扩展，即回到步骤S141；

S1410：若所有频繁边模式迭代完成，则频繁子图挖掘结束，输出频繁模式编码树。

本发明的有益效果是：本发明满足了高效率地对单一大图进行图模式关联规则挖掘的需求，为用户提供了在大规模社交网络中挖掘图模式关联规则，并利用图模式关联规则开展社交营销和推荐的技术。

附图说明

图1为图模式关联规则R₁：Q₁-＞Q₂。

图2为分布式环境下构建编码树的流程图。

图3为构建编码树过程中全局单边统计流程图。

图4为构建编码树过程中增量式频繁模式挖掘流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。本实施例分布式环境下图模式关联规则挖掘方法：首先搭建分布式计算环境，整个分布式环境包括一个中心与多个分区，基于TCP通信协议，支持半双工通信。其次设定挖掘的支持度及置信度阈值；支持度阈值将作用于频繁单边统计及频繁结构挖掘，置信度阈值将作用于图关联规则产生。然后开始统计全局频繁单边；分区统计结果将发送至中心进行汇总，最终确定频繁边集合。再进行频繁结构挖掘；中心将从频繁单边开始，对其进行right-most路径上的迭代生长，每一轮生长结果将被广播至所有分区进行挖掘，挖掘结果反馈至中心。中心汇总统计后去除不满足支持度阈值的结构，对满足支持度阈值的结构，继续进行迭代生长，直至所有频繁单边结构迭代完成，输出编码树。最后产生图结构关联规则。中心将根据上一步输出的编码树，对其从叶子节点开始进行逆向广度优先搜索，每访问到一个非叶子节点，即可产生一个图模式关联规则，若该规则满足置信度阈值，则认为其是一个有效的关联规则。

具体步骤如下：

S1：分布式环境下编码树的构造。

S11：分布式计算环境的搭建：建立由一个中心站点和多个分区站点组成的支持半双工通信和多线程计算的分布式计算框架；根据分布式框架建立各站点之间的路由表。

分布式环境下，单一大图结构G被存储在多个分区站点，每个分区站点W_i存储对应站点的图数据以及本地站点的唯一标识符F_i。为了维持大图数据的完整性，每个节点都有所属分区标记T与该节点所属分区的唯一标识F_i对应，对于跨越了分区的边e(v，v_vritual)，v表示该节点属于本地分区(T＝F_i)，v_vritual表示该节点不属于本地站点(T≠F_i)。通过v_vritual所含有的分区标记T，可在路由表中查询到对应的分区路由信息，以完成分区之间的数据交互。

分布式计算环境由一个中心站点(Center)与多个分区站点(Worker)组成，其中中心站点主要负责完成树结构的构建、树结构与图结构之间的转化、同步各分区站点的挖掘、向分区站点传输目标图结构、汇总统计各分区站点的反馈数据、根据设定阈值删选图模式。分区站点主要完成局部边信息统计、局部图模式挖掘、与其他分区站点关于跨分区子图的数据交互以及向中心站点反馈挖掘结果。整个分布式计算采用TCP协议，确保数据传输的完整性以实现中心站点对所有分区站点的挖掘同步控制。

S12：挖掘支持度及置信度的设定：图模式P的支持度使用sup表示，代表着模式P在大图G中的频繁程度。参照频繁项集的支持度，图模式的支持度也应该是反单调性的。在多种图模式支持度定义中，本发明选择采用minimum image(MNI)作为图模式支持度度量。预设支持度阈值T，对于图模式P，若sup(P)＞T，则认为P为频繁模式。

S13：全局单边统计：

S131：中心站点根据路由表向所有分区站点广播“单边统计开始”标志。

S132：分区站点收到“单边统计开始”标志后，进行本地边统计。对于跨分区边上不属于本分区的节点不予以计数。统计结束后，向中心站点回传统计结果。

S133：中心站点收到所有分区的统计结果后，进行汇总，且根据设定的支持度阈值筛选出频繁单边，组成频繁单边模式集合。且将频繁单边模式集合广播至所有分区站点。

S134：分区站点根据该集合对本地图结构进行边修剪，删除掉非频繁边。修剪完成后，向中心反馈“边修剪完成”标志。

程序执行过程如下：

线程EdgeCount(在中心站点执行)

输入：支持度阈值T

输出：频繁边模式集合FreEdgeSet

1.广播“EdgeCountStart”至所有分区站点；

2.分区站点接收到“EdgeCountStart”后，启动线程ChoosefEdges进行本地统计。

3.分区统计完成后，回传本地统计结果edgemapint，中心站点执行feedback++；

4.中心站点汇总统计所有分区反馈的edgemapint

5.当feedback＝workercount后，中心站点根据支持度阈值筛选频繁边模式；

6.中心站点将频繁边模式FreEdgeSet集合广播至所有分区；

7.分区站点收到频繁边模式后，启动EdgeCut线程进行边修剪；

8.修剪结束后，向中心反馈“EdgeCutEnd”标志；

9.中心收到所有的“EdgeCutEnd”标志后，启动Extend线程进行增量频繁模式挖掘。

线程ChoosefEdges(在分区站点执行)

输入：“EdgeCountStart”标志

输出：本地边统计结果edgemapint

1.循环取遍历本地边集合；

2.对于取出边e，将其与edgemap中的边模式进行比对，若有匹配边模式，则将e的节点信息加入该边模式的对应的value集合，若无匹配，则在edgemap中新增该边模式，且将e的节点信息加入到其value集合(节点信息不重复添加)；

3.循环结束后，计算edgemap中，每个边模式的value集合的大小(对于T≠F_i的节点，不予以计数)，且将边模式与对应计算结果添加到edgemapint中；

4.将edgemapint反馈至中心站点。

线程EdgeCut(在分区站点执行)

输入：频繁边模式集合FreEdgeSet

输出：修剪后的本地图结构G’，本地模式集合LocalPatternMap

1.循环遍历本地边集合；

2.对于取出边e，将其与FreEdgeSet中的边模式进行匹配。若匹配成功，则保留边e，且将e添加到本地模式集合LocalPatternMap，若匹配失败，则删除边e；

3.遍历结束，向中心反馈“EdgeCutEnd”。

S14：全局增量频繁模式挖掘：

S141：中心站点从频繁边模式集合中选择一条频繁边模式且构建为树结构T1。

S142：中心站点将T1根据rightmost-path前向扩展，rightmost-node前向及回环扩展的原则，生长一个不带标签的虚拟节点或生长一条回环边扩展出树结构T2。

S143：中心站点将树结构T1与T2转换为图结构G1，G2，且将G1，G2广播至所有分区站点。

S144：各分区站点收到G1与G2以后，根据G1从本地筛选出起始扩展集合，且根据起始扩展集合扩展出所有满足G2图结构的子图集合。对于含有跨分区节点的子图，将该子图发送至对应分区。

S145：分区站点完成本地扩展任务以后(包括本地扩展以及与其他分区的子图交换)，向中心发送本轮扩展的结束标志。

S146：中心站点收到所有分区的扩展结束标志后，广播允许开始回传的标志至所有分区站点。

S147：分区站点收到中心的允许回传标志后，开始回传本地本轮的扩展结果子图统计集合。

S148：中心站点对所有分区的回传集合进行统计，筛选出满足支持度阈值的子图结构。若有子图满足设定阈值，则将其标记为T1的“孩子”，且将其转换为树结构作为步骤S142的T1递归调用，若无子图满足设定阈值，则返回上一轮迭代，直至该条频繁边的迭代结束为止。

S149：若该频繁边的迭代扩展结束，则中心站点从频繁单边模式集合从选择下一条频繁单边模式进行扩展，即回到步骤S141。

程序执行过程如下：

线程Extend(在中心站点执行)

输入：频繁边模式集合FreEdgeSet

输出：频繁模式集合FreSet

1.循环遍历FreEdgeSet；

2.对于取出边模式edgepatternuse，构建双节点树Tstart；

3.对于Tstart，执行线程RightMost；

4.遍历完毕，输出频繁模式集合。

线程RightMost(在中心站点执行)

输入：双节点树Tstart，支持度阈值T。

输出：频繁模式集合FreSet

1.对于Tstart，根据rightmost的生长原则，得到目标树集TargetSet；

2.循环遍历TargetSet；

3.对于每个取出的树Ttarget，将其与Tstart分别转换为图结构Gtarget，Gstart，加入Tstart中的扩展使用点NodeUse，打包发送至所有分区站点；

4.分区站点执行线程LocalExtend进行扩展；

5.中心汇总统计所有分区站点的反馈数据，构建集合allpatternback；

6.循环遍历allpatternback；

7.对于每个取出的patternback，若其支持度sup(P)＞T，则将patternback标记为Gstart的“孩子”，且将pattemback转化为树结构Tstart，递归调用函数RightMost，若支持度sup(P)＜T，则继续取出下一个patternback。

线程LocalExtend(在分区站点执行)

输入：图Gstart，图Gtarget，扩展使用点NodeUse，本地大图G’。

输出：本地扩展集合ExtendSet

1.循环遍历本地模式集合LocalPatternMap；

2.对于每个取出的模式LocalPattem，将其与Gstart匹配，若匹配成功，则取出LocalPattern对应的value子图集合LocalUseSet；

3.循环遍历LocalUseSet；

4.对于每个取出的LocalSubGraph，根据NodeUse，寻找出LocalSubGraph的扩展使用点n；

5.从LocalSubGraph的点n开始扩展，若NodeSize(Gstart＜Gtarget)，表明应进行前向扩展，若NodeSize(Gstart＝＝Gtarget)，表明应进行回环扩展。得到本地扩展集合ExtendSet；

6.若扩展过程中出现子图含有v_vritual，则根据路由表及v_vritual的分区标签T，将该子图发送至对应分区站点(线程SendOut执行)；

7.若扩展过程中，接收到来自其他分区的子图Gincome，则将其与ExtendSet中的子图进行匹配，若有匹配，则加入到对应value集合，若无匹配，则新添加一个value集合，且将Gincome加入其中(线程PutIn执行)。

8.扩展结束，向中心站点反馈“分区标识符Fi+localExtendEnd”标志；

9.中心站点收到所有分区的“分区标识符Fi+localExtendEnd”标志后，向分区站点广播“AllowFeedback”标志；

10.分区站点收到“AllowFeedback”标志后，开始回传ExtendSet数据。

步骤s1.5：编码树的构建输出：依据在增量频繁模式的挖掘过程中所维护的模式生长过程，即记录每个模式由哪个模式扩展得到，从单边频繁模式开始，自上而下的生长出其“孩子”节点，直至该单边频繁模式的最大频繁模式，即叶子节点为止。

综上，中心站点执行的步骤包括：根据rightmost-path前向扩展，rightmost-node前向及回环扩展原则，进行树结构的迭代生长；完成图结构与树结构的一一对应转换；完成子模式的汇总统计(包括单边模式)，且根据对预设支持度阈值与子模式支持度对比，筛选子模式；通过接收分区站点的反馈信息及向分区站点广播控制信息，以完成对挖掘过程的协调控制。

分区站点执行的步骤包括：完成本地单边统计，对于跨分区边上不属于本地的节点不予以计数；根据接收到中心站点的频繁边模式集合，进行对本地大图的边修剪，删除不属于频繁边模式集合中的边信息；根据接收到中心站点的起始图结构及目标图结构，完成本地的本轮扩展。对于含有跨分区节点的子图，发送至对应分区；根据接收到其他分区发来的子图结构，将其加入本地扩展结果集合；在确定所有发出的跨分区子图都被对应分区接收且本地扩展已完成后，向中心站点反馈本分区本轮扩展结束标志。

S2：基于编码树的图模式关联规则生成。

S21：确定最大频繁模式集合(即编码树叶子结点集合)；

S23：对于搜索访问到的节点，建立图模式关联规则；

S24：对关联规则进行置信度(confidence)检验，若满足置信度检验，则是一个有效的图模式关联规则。

基于构建完成的编码树，从最大频繁模式(编码树的叶子节点)G1开始，对编码树进行反向的广度优先搜索，对于访问到的节点模式G2，建立关联规则R：G2→G’，G'＝Edge(G1-G2)，即在G1中删除G2中所含有的边可得到G’。

图模式关联规则的置信度用con(R)进行衡量，若con(R)大于预设置信度阈值，则认为关联规则R是有效的。

Claims

1.一种分布式环境下图模式关联规则挖掘方法，其特征在于，包括以下步骤：

S1：构建分布式环境下编码树：

S12：设定挖掘支持度及置信度阈值；

S13：全局频繁单边统计；

S14：全局增量频繁模式挖掘；

S2：生成基于编码树的图模式关联规则：

S21：确定最大频繁模式集合，即编码树叶子节点集合；

S23：对于搜索访问到的节点，建立图模式关联规则；

2.根据权利要求1所述的分布式环境下图模式关联规则挖掘方法，其特征在于，所述分布式计算框架中，单一大图结构G被存储在多个分区站点，每个分区站点W_i存储对应站点的图数据以及本地站点的唯一标识符F_i；每个节点都有所属分区标记T与该节点所属分区的唯一标识F_i对应，对于跨越了分区的边e(v，v_vritual)通过v_vritual所含有的分区标记T，在路由表中查询到对应的分区路由信息，以完成分区之间的数据交互；其中v表示该节点属于本地分区，即T＝F_i，v_vritual表示该节点不属于本地站点，即T≠F_i。

3.根据权利要求1所述的分布式环境下图模式关联规则挖掘方法，其特征在于，所述S13具体包括：

4.根据权利要求1所述的分布式环境下图模式关联规则挖掘方法，其特征在于，所述S14具体包括：