CN108399268A

CN108399268A - 一种基于博弈论的增量式异构图聚类方法

Info

Publication number: CN108399268A
Application number: CN201810271526.1A
Authority: CN
Inventors: 高云君; 陈璐; 浦世亮; 张远亮
Original assignee: Zhejiang University ZJU; Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Zhejiang University ZJU; Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2018-08-14
Anticipated expiration: 2038-03-29
Also published as: CN108399268B

Abstract

本发明公开了一种基于博弈论的增量式异构图聚类方法。本发明利用Personalized Pagerank作为统一的距离度量方式；利用增量式计算提高Personalized Pagerank得分的计算效率；基于DBSCAN算法并且利用博弈论的方法对聚类结果进行调整；利用熵以及边权重更新的方式来平衡结构信息和属性信息之间的重要性。本方法使用Personalized Pagerank来度量图结构中任意两个结点之间的相似性，利用增量式计算方式计算结点之间的Personalized Pagerank得分；采用DBSCAN算法得到初步的聚类结果并根据博弈论来对聚类结果进行调整；根据聚类结果计算熵，更新不同类型的边的权重。本发明同时考虑异构图结点的结构相似性和属性相似性，提高了Personalized Pagerank得分的计算效率并对聚类结果进行优化，提出了一种效率高，聚类质量好的异构图聚类方法。

Description

一种基于博弈论的增量式异构图聚类方法

技术领域

本发明涉及异构图上的聚类技术，特别涉及一种基于博弈论的增量式异构图聚类方法。

背景技术

随着社交媒体和移动互联网的发展，现实生活中存在着大量的具有不同类型并且相互关联的对象的集合，可以通过一个异构图模型来表示，例如DBLP 和Flickr。通过对异构图中的对象结点进行聚类，可以将彼此相似并且联系紧密的对象划分到一起，可广泛应用于社区检测和推荐系统等领域。异构图上的聚类算法一直以来都是数据库、数据挖掘和机器学习领域的研究热点。

目前主流的异构图聚类算法往往只考虑了异构图中的属性特征或者结构特征，因此丢失了大量的有用的信息；某些方法虽然同时考虑了异构图的属性信息和结构信息，但其方法需要进行大量的矩阵运算，并且计算过程需要将数据全部放在内存中处理，因此存在巨大的时间开销和存储开销，也制约了方法的扩展性。此外，传统的聚类算法常存在对部分对象聚类效果欠佳的情况，有必要对聚类后的结果再进行优化，以提高整体的聚类质量。所以，设计一种高效，拓展性强，能同时考虑异构图结构和属性信息，并且能够对聚类结果进行更深层次优化的异构图聚类算法为了学术界与工业界的迫切需求。

发明内容

针对上述不足，本发明提供一种基于博弈论的增量式异构图聚类方法。该方法在构建完异构图模型后，采用Personalized Pagerank增量计算的方式计算任意两个主类结点之间的Personalized Pagerank得分，基于传统的DBSCAN算法进行聚类，并且利用博弈论方法对聚类结果进行调整，然后迭代进行边权重更新直至收敛，完成聚类。

为了达到上述目的，本发明所采用技术方案如下：一种基于博弈论的增量式异构图聚类方法，该方法包括如下步骤：

步骤(1)：对应用中给定的异构图数据集进行预处理，构建异构图模型；

步骤(2)：对异构图模型中的每一个主类结点，基于Personalized Pagerank 算法进行回退时，只处理主类结点，然后将所有结点的残留值和储存值保存在外存中，用于步骤(3)的更新使用；

步骤(3)：根据当前边的权重，对异构图模型中的每一个主类结点，重新计算转移概率矩阵，读取步骤(2)保存的残留值和储存值，对所有结点进行回退操作，计算出每个主类结点到图结构中其他主类结点的Personalized Pagerank 得分；

步骤(4)：对任意两个主类结点之间的两个Personalized Pagerank得分，取两者之间的较小值作为两个结点的相似性度量；

步骤(5)：基于DBSCAN算法对所有主类结点进行聚类；

步骤(6)：基于博弈论对步骤(5)的聚类结果进行调整，得到新的聚类结果；

步骤(7)：基于步骤(6)获得的新的聚类结果的信息熵对异构图模型的边权重进行更新，如果当前边权重和上一轮边权重的均方误差小于设定的误差限，则得到最终聚类结果，否则返回步骤(3)重复迭代计算。

进一步的，所述步骤(1)中构建异构图模型的步骤如下：

一个异构图可以被定义为一个无向有权图G＝(V,E,ω)，图模型同时包含一个结点类型映射函数和一个边类型映射函数ψ∶E→R，其中V 是结点集合，E是边集合，|A|>1,|R|>1，ω是一个边权重映射函数；此外，将A₀作为主类结点类型，A_i(1≤i≤|A|-1)作为属性结点类型；

一个异构图模型G可以用一个|V|×|V|的关联矩阵表示，其中矩阵元素 h(v,u)表示为：

对于每一个主类结点v，从v到与它相连的结点u∈A_i的权重和等于一个常数 c_i，也就是：

其中ω(v,u)表示边(v,u)对应的权重；

同时，假设ω(v,u_i)＝ω(v,u_j)(u_i∈A_i,u_j∈A_i)；因此，将边e＝(v,u)的权重ω(v,u)定义为：

图的转移概率矩阵，用P来表示，则P中的元素p[v,u]表示从结点v到结点 u的转移概率，其可以使用如下公式进行计算：

其中c₀＝1，c是一个常数。

进一步的，所述的步骤(3)中重新计算转移概率矩阵具体为：

结点u到结点v在第y^th轮迭代中的转移概率p^y[u,v]定义为：

进一步的，所述的步骤(6)具体为：

假设经过步骤(5)聚类后得到了k(>1)个簇V_i(1≤i≤k)，则根据如下公式计算聚类中的每个结点v到各个簇V_i的代价：

cost(v,V_i)＝(1-β)·StructureCost(v,V_i)-β·AssignmentCost(v,V_i)

其中，

其中，参数β取值在[0,1]之间，用来平衡AssignmentCost和StructureCost之间的重要性；d(v,u)表示结点v和u之间的Personalized Pagerank得分；

对结点v，如果最小的cost(v,V_i)对应的V_i不是v所在的簇，则将v调整到V_i中，并且重新计算v到所有簇的代价；对所有的结点重复上述的调整操作直到达到纳什均衡，即所有结点恰好位于它的最小代价对应的簇中。

进一步的，所述的步骤(7)中基于步骤(6)获得的新的聚类结果的信息熵对异构图模型的边权重进行更新，具体为：

假设结点集合V中的结点在第y^th次迭代中被分配到了k个簇V_j(1≤j≤k∧ |V_j|≥2)中，那么某个属性类型A_i在这k个簇的信息熵被定义为：

其中p_xj表示在簇V_j中，具有相同属性值a_x∈A_i的结点所占的比例；|A_i|表示某个特定的属性类型A_i的属性值的个数；

因此，在根据第y^th轮的聚类结果得到第(y+1)^th轮的更新后的边权重，更新公式如下：

本发明具有的有益效果是：本发明利用Personalized Pagerank作为异构图上的统一度量方式，同时考虑了结构信息和属性信息；采用一种增量式的计算方式提高了Personalized Pagerank得分的计算效率，并且增强了算法的可扩展性；采用博弈论的方法并结合边权重更新来对聚类结果进行优化，提高了聚类质量。

附图说明

图1是本发明的实施步骤流程图；

图2(a)是本发明一具体实例的DBLP异构图；

图2(b)是本发明一具体实例的Flickr异构图。

具体实施方式

现结合附图和具体实施对本发明的技术方案作进一步说明：

如图1所示，本发明具体实施过程和工作原理如下：

异构图模型的具体构建方式为：

一个异构图可以被定义为一个无向有权图G＝(V,E,ω)。图模型同时包含一个结点类型映射函数和一个边类型映射函数ψ∶E→R。其中V是结点集合，E是边集合，|A|>1,|R|>1，ω是一个边权重映射函数。此外，将 A₀作为主类结点类型，A_i(1≤i≤|A|-1)作为属性结点类型。

对于每一个主类结点v，从v到与它相连的结点u∈A_i的权重和等于一个常数 c_i,也就是:

其中ω(v,u)表示边(v,u)对应的权重。

同时，假设ω(v,u_i)＝ω(v,u_j)(u_i∈A_i,u_j∈A_i)。因此，将边e＝(v,u)的权重ω(v,u)定义为:

其中c₀＝1，c是一个常数。

图2(a)和图2(b)展示了两种经典的基于DBLP和Flickr的异构图模型。以DBLP(图2(a))为例，异构图包含一个主类结点类型(论文)和三个属性结点类型(作者,期刊或会议,关键词)，结点之间存在相应的连边关系，则可根据上述步骤构建关于图2的图模型结构，用于后续处理。

其中转移概率矩阵的更新方式具体为：

结点u到结点v在第y^th轮迭代中的转移概率p^y[u,v]定义为：

步骤(4)：对任意两个主类结点之间的两个Personalized Pagerank得分,取两者之间的较小值作为两个结点的相似性度量；

步骤(5)：基于DBSCAN算法对所有主类结点进行聚类；

步骤(6)：基于博弈论对步骤(4)的聚类结果进行调整，得到新的聚类结果；

具体调整操作如下：

cost(v,V_i)＝(1-β)·StructureCost(v,V_i)-β·AssignmentCost(v,V_i)

其中，

其中，参数β取值在[0,1]之间，用来平衡AssignmentCost和StructureCost之间的重要性；d(v,u)表示结点v和u之间的Personalized Pagerank得分；ω(v,u)是边(v,u)的权重。

对结点v，如果最小的cost(v,V_i)对应的V_i不是v所在的簇，则将v调整到V_i中，并且重新计算v到所有簇的代价。对所有的结点重复上述的调整操作直到达到纳什均衡，即所有结点恰好位于它的最小代价对应的簇中。

特别地，每个结点对应的代价在计算时保存在如表1所示的结构中。具体地，表1表示的是图2(a)图模型的在某次迭代时的初始代价计算结果。假设经过 DBSCAN聚类后形成了2个簇：V₁＝{P₁,P₂,P₃}，V₂＝{P₄,P₅}，由表1初始计算结果可知P₃和P₄都不在它们各自的最小代价对应的簇中，因此需要将P₃和P₄重新进行调整。

表1

步骤(7)：基于聚类结果的信息熵对异构图模型的边权重进行更新，如果当前边权重和上一轮边权重的均方误差小于设定的误差限，则得到最终聚类结果，否则返回步骤(3)重复迭代计算。

具体的熵的计算和权重更新方式为：

假设结点集合V中的结点在第y^th次迭代中被分配到了k个簇V_j(1≤j≤k∧ |V_j|≥2)中，那么某个属性类型A_i在这k个簇的熵被定义为：

其中p_xj表示在簇V_j中，具有相同属性值a_x∈A_i的结点所占的比例；|A_i|表示某个特定的属性类型A_i的属性值的个数。

Claims

1.一种基于博弈论的增量式异构图聚类方法，其特征在于，该方法包括如下步骤：

步骤(2)：对异构图模型中的每一个主类结点，基于Personalized Pagerank算法进行回退时，只处理主类结点，然后将所有结点的残留值和储存值保存在外存中，用于步骤(3)的更新使用；

步骤(3)：根据当前边的权重，对异构图模型中的每一个主类结点，重新计算转移概率矩阵，读取步骤(2)保存的残留值和储存值，对所有结点进行回退操作，计算出每个主类结点到图结构中其他主类结点的Personalized Pagerank得分；

步骤(5)：基于DBSCAN算法对所有主类结点进行聚类；

2.根据权利要求1所述的一种基于博弈论的增量式异构图聚类方法，其特征在于：所述步骤(1)中构建异构图模型的步骤如下：

一个异构图可以被定义为一个无向有权图G＝(V,E,ω)，图模型同时包含一个结点类型映射函数V→A和一个边类型映射函数ψ∶E→R，其中V是结点集合，E是边集合，|A|>1,|R|>1，ω是一个边权重映射函数；此外，将A₀作为主类结点类型，A_i(1≤i≤|A|-1)作为属性结点类型；

一个异构图模型G可以用一个|V|×|V|的关联矩阵表示，其中矩阵元素h(v,u)表示为：

对于每一个主类结点v，从v到与它相连的结点u∈A_i的权重和等于一个常数c_i，也就是：

其中ω(v,u)表示边(v,u)对应的权重；

图的转移概率矩阵，用P来表示，则P中的元素p[v,u]表示从结点v到结点u的转移概率，其可以使用如下公式进行计算：

其中c₀＝1，c是一个常数。

3.根据权利要求1所述的一种基于博弈论的增量式异构图聚类方法，其特征在于：所述的步骤(3)中重新计算转移概率矩阵具体为：

结点u到结点v在第y^th轮迭代中的转移概率p^y[u,v]定义为：

4.根据权利要求1所述的一种基于博弈论的增量式异构图聚类方法，其特征在于：所述的步骤(6)具体为：

cost(v,V_i)＝(1-β)·StructureCost(v,V_i)-β·AssignmentCost(v,V_i)

其中，

5.根据权利要求1所述的一种基于博弈论的增量式异构图聚类方法，其特征在于：所述的步骤(7)中基于步骤(6)获得的新的聚类结果的信息熵对异构图模型的边权重进行更新，具体为：

假设结点集合V中的结点在第y^th次迭代中被分配到了k个簇V_j(1≤j≤k∧|V_j|≥2)中，那么某个属性类型A_i在这k个簇的信息熵被定义为：