CN108399268A - 一种基于博弈论的增量式异构图聚类方法 - Google Patents

一种基于博弈论的增量式异构图聚类方法 Download PDF

Info

Publication number
CN108399268A
CN108399268A CN201810271526.1A CN201810271526A CN108399268A CN 108399268 A CN108399268 A CN 108399268A CN 201810271526 A CN201810271526 A CN 201810271526A CN 108399268 A CN108399268 A CN 108399268A
Authority
CN
China
Prior art keywords
node
isomery
cluster
main classes
game theory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810271526.1A
Other languages
English (en)
Other versions
CN108399268B (zh
Inventor
高云君
陈璐
浦世亮
张远亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Zhejiang University ZJU
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Hangzhou Hikvision Digital Technology Co Ltd filed Critical Zhejiang University ZJU
Priority to CN201810271526.1A priority Critical patent/CN108399268B/zh
Publication of CN108399268A publication Critical patent/CN108399268A/zh
Application granted granted Critical
Publication of CN108399268B publication Critical patent/CN108399268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本发明公开了一种基于博弈论的增量式异构图聚类方法。本发明利用Personalized Pagerank作为统一的距离度量方式;利用增量式计算提高Personalized Pagerank得分的计算效率;基于DBSCAN算法并且利用博弈论的方法对聚类结果进行调整;利用熵以及边权重更新的方式来平衡结构信息和属性信息之间的重要性。本方法使用Personalized Pagerank来度量图结构中任意两个结点之间的相似性,利用增量式计算方式计算结点之间的Personalized Pagerank得分;采用DBSCAN算法得到初步的聚类结果并根据博弈论来对聚类结果进行调整;根据聚类结果计算熵,更新不同类型的边的权重。本发明同时考虑异构图结点的结构相似性和属性相似性,提高了Personalized Pagerank得分的计算效率并对聚类结果进行优化,提出了一种效率高,聚类质量好的异构图聚类方法。

Description

一种基于博弈论的增量式异构图聚类方法
技术领域
本发明涉及异构图上的聚类技术,特别涉及一种基于博弈论的增量式异构图聚类方法。
背景技术
随着社交媒体和移动互联网的发展,现实生活中存在着大量的具有不同类型并且相互关联的对象的集合,可以通过一个异构图模型来表示,例如DBLP 和Flickr。通过对异构图中的对象结点进行聚类,可以将彼此相似并且联系紧密的对象划分到一起,可广泛应用于社区检测和推荐系统等领域。异构图上的聚类算法一直以来都是数据库、数据挖掘和机器学习领域的研究热点。
目前主流的异构图聚类算法往往只考虑了异构图中的属性特征或者结构特征,因此丢失了大量的有用的信息;某些方法虽然同时考虑了异构图的属性信息和结构信息,但其方法需要进行大量的矩阵运算,并且计算过程需要将数据全部放在内存中处理,因此存在巨大的时间开销和存储开销,也制约了方法的扩展性。此外,传统的聚类算法常存在对部分对象聚类效果欠佳的情况,有必要对聚类后的结果再进行优化,以提高整体的聚类质量。所以,设计一种高效,拓展性强,能同时考虑异构图结构和属性信息,并且能够对聚类结果进行更深层次优化的异构图聚类算法为了学术界与工业界的迫切需求。
发明内容
针对上述不足,本发明提供一种基于博弈论的增量式异构图聚类方法。该方法在构建完异构图模型后,采用Personalized Pagerank增量计算的方式计算任意两个主类结点之间的Personalized Pagerank得分,基于传统的DBSCAN算法进行聚类,并且利用博弈论方法对聚类结果进行调整,然后迭代进行边权重更新直至收敛,完成聚类。
为了达到上述目的,本发明所采用技术方案如下:一种基于博弈论的增量式异构图聚类方法,该方法包括如下步骤:
步骤(1):对应用中给定的异构图数据集进行预处理,构建异构图模型;
步骤(2):对异构图模型中的每一个主类结点,基于Personalized Pagerank 算法进行回退时,只处理主类结点,然后将所有结点的残留值和储存值保存在外存中,用于步骤(3)的更新使用;
步骤(3):根据当前边的权重,对异构图模型中的每一个主类结点,重新计算转移概率矩阵,读取步骤(2)保存的残留值和储存值,对所有结点进行回退操作,计算出每个主类结点到图结构中其他主类结点的Personalized Pagerank 得分;
步骤(4):对任意两个主类结点之间的两个Personalized Pagerank得分,取两者之间的较小值作为两个结点的相似性度量;
步骤(5):基于DBSCAN算法对所有主类结点进行聚类;
步骤(6):基于博弈论对步骤(5)的聚类结果进行调整,得到新的聚类结果;
步骤(7):基于步骤(6)获得的新的聚类结果的信息熵对异构图模型的边权重进行更新,如果当前边权重和上一轮边权重的均方误差小于设定的误差限,则得到最终聚类结果,否则返回步骤(3)重复迭代计算。
进一步的,所述步骤(1)中构建异构图模型的步骤如下:
一个异构图可以被定义为一个无向有权图G=(V,E,ω),图模型同时包含一个结点类型映射函数和一个边类型映射函数ψ∶E→R,其中V 是结点集合,E是边集合,|A|>1,|R|>1,ω是一个边权重映射函数;此外,将A0作为主类结点类型,Ai(1≤i≤|A|-1)作为属性结点类型;
一个异构图模型G可以用一个|V|×|V|的关联矩阵表示,其中矩阵元素 h(v,u)表示为:
对于每一个主类结点v,从v到与它相连的结点u∈Ai的权重和等于一个常数 ci,也就是:
其中ω(v,u)表示边(v,u)对应的权重;
同时,假设ω(v,ui)=ω(v,uj)(ui∈Ai,uj∈Ai);因此,将边e=(v,u)的权重ω(v,u)定义为:
图的转移概率矩阵,用P来表示,则P中的元素p[v,u]表示从结点v到结点 u的转移概率,其可以使用如下公式进行计算:
其中c0=1,c是一个常数。
进一步的,所述的步骤(3)中重新计算转移概率矩阵具体为:
结点u到结点v在第yth轮迭代中的转移概率py[u,v]定义为:
进一步的,所述的步骤(6)具体为:
假设经过步骤(5)聚类后得到了k(>1)个簇Vi(1≤i≤k),则根据如下公式计算聚类中的每个结点v到各个簇Vi的代价:
cost(v,Vi)=(1-β)·StructureCost(v,Vi)-β·AssignmentCost(v,Vi)
其中,
其中,参数β取值在[0,1]之间,用来平衡AssignmentCost和StructureCost之间的重要性;d(v,u)表示结点v和u之间的Personalized Pagerank得分;
对结点v,如果最小的cost(v,Vi)对应的Vi不是v所在的簇,则将v调整到Vi中,并且重新计算v到所有簇的代价;对所有的结点重复上述的调整操作直到达到纳什均衡,即所有结点恰好位于它的最小代价对应的簇中。
进一步的,所述的步骤(7)中基于步骤(6)获得的新的聚类结果的信息熵对异构图模型的边权重进行更新,具体为:
假设结点集合V中的结点在第yth次迭代中被分配到了k个簇Vj(1≤j≤k∧ |Vj|≥2)中,那么某个属性类型Ai在这k个簇的信息熵被定义为:
其中pxj表示在簇Vj中,具有相同属性值ax∈Ai的结点所占的比例;|Ai|表示某个特定的属性类型Ai的属性值的个数;
因此,在根据第yth轮的聚类结果得到第(y+1)th轮的更新后的边权重,更新公式如下:
本发明具有的有益效果是:本发明利用Personalized Pagerank作为异构图上的统一度量方式,同时考虑了结构信息和属性信息;采用一种增量式的计算方式提高了Personalized Pagerank得分的计算效率,并且增强了算法的可扩展性;采用博弈论的方法并结合边权重更新来对聚类结果进行优化,提高了聚类质量。
附图说明
图1是本发明的实施步骤流程图;
图2(a)是本发明一具体实例的DBLP异构图;
图2(b)是本发明一具体实例的Flickr异构图。
具体实施方式
现结合附图和具体实施对本发明的技术方案作进一步说明:
如图1所示,本发明具体实施过程和工作原理如下:
步骤(1):对应用中给定的异构图数据集进行预处理,构建异构图模型;
异构图模型的具体构建方式为:
一个异构图可以被定义为一个无向有权图G=(V,E,ω)。图模型同时包含一个结点类型映射函数和一个边类型映射函数ψ∶E→R。其中V是结点集合,E是边集合,|A|>1,|R|>1,ω是一个边权重映射函数。此外,将 A0作为主类结点类型,Ai(1≤i≤|A|-1)作为属性结点类型。
一个异构图模型G可以用一个|V|×|V|的关联矩阵表示,其中矩阵元素 h(v,u)表示为:
对于每一个主类结点v,从v到与它相连的结点u∈Ai的权重和等于一个常数 ci,也就是:
其中ω(v,u)表示边(v,u)对应的权重。
同时,假设ω(v,ui)=ω(v,uj)(ui∈Ai,uj∈Ai)。因此,将边e=(v,u)的权重ω(v,u)定义为:
图的转移概率矩阵,用P来表示,则P中的元素p[v,u]表示从结点v到结点 u的转移概率,其可以使用如下公式进行计算:
其中c0=1,c是一个常数。
图2(a)和图2(b)展示了两种经典的基于DBLP和Flickr的异构图模型。以DBLP(图2(a))为例,异构图包含一个主类结点类型(论文)和三个属性结点类型(作者,期刊或会议,关键词),结点之间存在相应的连边关系,则可根据上述步骤构建关于图2的图模型结构,用于后续处理。
步骤(2):对异构图模型中的每一个主类结点,基于Personalized Pagerank 算法进行回退时,只处理主类结点,然后将所有结点的残留值和储存值保存在外存中,用于步骤(3)的更新使用;
步骤(3):根据当前边的权重,对异构图模型中的每一个主类结点,重新计算转移概率矩阵,读取步骤(2)保存的残留值和储存值,对所有结点进行回退操作,计算出每个主类结点到图结构中其他主类结点的Personalized Pagerank 得分;
其中转移概率矩阵的更新方式具体为:
结点u到结点v在第yth轮迭代中的转移概率py[u,v]定义为:
步骤(4):对任意两个主类结点之间的两个Personalized Pagerank得分,取两者之间的较小值作为两个结点的相似性度量;
步骤(5):基于DBSCAN算法对所有主类结点进行聚类;
步骤(6):基于博弈论对步骤(4)的聚类结果进行调整,得到新的聚类结果;
具体调整操作如下:
假设经过步骤(5)聚类后得到了k(>1)个簇Vi(1≤i≤k),则根据如下公式计算聚类中的每个结点v到各个簇Vi的代价:
cost(v,Vi)=(1-β)·StructureCost(v,Vi)-β·AssignmentCost(v,Vi)
其中,
其中,参数β取值在[0,1]之间,用来平衡AssignmentCost和StructureCost之间的重要性;d(v,u)表示结点v和u之间的Personalized Pagerank得分;ω(v,u)是边(v,u)的权重。
对结点v,如果最小的cost(v,Vi)对应的Vi不是v所在的簇,则将v调整到Vi中,并且重新计算v到所有簇的代价。对所有的结点重复上述的调整操作直到达到纳什均衡,即所有结点恰好位于它的最小代价对应的簇中。
特别地,每个结点对应的代价在计算时保存在如表1所示的结构中。具体地,表1表示的是图2(a)图模型的在某次迭代时的初始代价计算结果。假设经过 DBSCAN聚类后形成了2个簇:V1={P1,P2,P3},V2={P4,P5},由表1初始计算结果可知P3和P4都不在它们各自的最小代价对应的簇中,因此需要将P3和P4重新进行调整。
表1
步骤(7):基于聚类结果的信息熵对异构图模型的边权重进行更新,如果当前边权重和上一轮边权重的均方误差小于设定的误差限,则得到最终聚类结果,否则返回步骤(3)重复迭代计算。
具体的熵的计算和权重更新方式为:
假设结点集合V中的结点在第yth次迭代中被分配到了k个簇Vj(1≤j≤k∧ |Vj|≥2)中,那么某个属性类型Ai在这k个簇的熵被定义为:
其中pxj表示在簇Vj中,具有相同属性值ax∈Ai的结点所占的比例;|Ai|表示某个特定的属性类型Ai的属性值的个数。
因此,在根据第yth轮的聚类结果得到第(y+1)th轮的更新后的边权重,更新公式如下:

Claims (5)

1.一种基于博弈论的增量式异构图聚类方法,其特征在于,该方法包括如下步骤:
步骤(1):对应用中给定的异构图数据集进行预处理,构建异构图模型;
步骤(2):对异构图模型中的每一个主类结点,基于Personalized Pagerank算法进行回退时,只处理主类结点,然后将所有结点的残留值和储存值保存在外存中,用于步骤(3)的更新使用;
步骤(3):根据当前边的权重,对异构图模型中的每一个主类结点,重新计算转移概率矩阵,读取步骤(2)保存的残留值和储存值,对所有结点进行回退操作,计算出每个主类结点到图结构中其他主类结点的Personalized Pagerank得分;
步骤(4):对任意两个主类结点之间的两个Personalized Pagerank得分,取两者之间的较小值作为两个结点的相似性度量;
步骤(5):基于DBSCAN算法对所有主类结点进行聚类;
步骤(6):基于博弈论对步骤(5)的聚类结果进行调整,得到新的聚类结果;
步骤(7):基于步骤(6)获得的新的聚类结果的信息熵对异构图模型的边权重进行更新,如果当前边权重和上一轮边权重的均方误差小于设定的误差限,则得到最终聚类结果,否则返回步骤(3)重复迭代计算。
2.根据权利要求1所述的一种基于博弈论的增量式异构图聚类方法,其特征在于:所述步骤(1)中构建异构图模型的步骤如下:
一个异构图可以被定义为一个无向有权图G=(V,E,ω),图模型同时包含一个结点类型映射函数V→A和一个边类型映射函数ψ∶E→R,其中V是结点集合,E是边集合,|A|>1,|R|>1,ω是一个边权重映射函数;此外,将A0作为主类结点类型,Ai(1≤i≤|A|-1)作为属性结点类型;
一个异构图模型G可以用一个|V|×|V|的关联矩阵表示,其中矩阵元素h(v,u)表示为:
对于每一个主类结点v,从v到与它相连的结点u∈Ai的权重和等于一个常数ci,也就是:
其中ω(v,u)表示边(v,u)对应的权重;
同时,假设ω(v,ui)=ω(v,uj)(ui∈Ai,uj∈Ai);因此,将边e=(v,u)的权重ω(v,u)定义为:
图的转移概率矩阵,用P来表示,则P中的元素p[v,u]表示从结点v到结点u的转移概率,其可以使用如下公式进行计算:
其中c0=1,c是一个常数。
3.根据权利要求1所述的一种基于博弈论的增量式异构图聚类方法,其特征在于:所述的步骤(3)中重新计算转移概率矩阵具体为:
结点u到结点v在第yth轮迭代中的转移概率py[u,v]定义为:
4.根据权利要求1所述的一种基于博弈论的增量式异构图聚类方法,其特征在于:所述的步骤(6)具体为:
假设经过步骤(5)聚类后得到了k(>1)个簇Vi(1≤i≤k),则根据如下公式计算聚类中的每个结点v到各个簇Vi的代价:
cost(v,Vi)=(1-β)·StructureCost(v,Vi)-β·AssignmentCost(v,Vi)
其中,
其中,参数β取值在[0,1]之间,用来平衡AssignmentCost和StructureCost之间的重要性;d(v,u)表示结点v和u之间的Personalized Pagerank得分;
对结点v,如果最小的cost(v,Vi)对应的Vi不是v所在的簇,则将v调整到Vi中,并且重新计算v到所有簇的代价;对所有的结点重复上述的调整操作直到达到纳什均衡,即所有结点恰好位于它的最小代价对应的簇中。
5.根据权利要求1所述的一种基于博弈论的增量式异构图聚类方法,其特征在于:所述的步骤(7)中基于步骤(6)获得的新的聚类结果的信息熵对异构图模型的边权重进行更新,具体为:
假设结点集合V中的结点在第yth次迭代中被分配到了k个簇Vj(1≤j≤k∧|Vj|≥2)中,那么某个属性类型Ai在这k个簇的信息熵被定义为:
其中pxj表示在簇Vj中,具有相同属性值ax∈Ai的结点所占的比例;|Ai|表示某个特定的属性类型Ai的属性值的个数;
因此,在根据第yth轮的聚类结果得到第(y+1)th轮的更新后的边权重,更新公式如下:
CN201810271526.1A 2018-03-29 2018-03-29 一种基于博弈论的增量式异构图聚类方法 Active CN108399268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810271526.1A CN108399268B (zh) 2018-03-29 2018-03-29 一种基于博弈论的增量式异构图聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810271526.1A CN108399268B (zh) 2018-03-29 2018-03-29 一种基于博弈论的增量式异构图聚类方法

Publications (2)

Publication Number Publication Date
CN108399268A true CN108399268A (zh) 2018-08-14
CN108399268B CN108399268B (zh) 2022-04-29

Family

ID=63096872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810271526.1A Active CN108399268B (zh) 2018-03-29 2018-03-29 一种基于博弈论的增量式异构图聚类方法

Country Status (1)

Country Link
CN (1) CN108399268B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326327A (zh) * 2018-08-28 2019-02-12 福建师范大学 一种基于SeqRank图算法的序列聚类方法
CN109766478A (zh) * 2019-01-08 2019-05-17 浙江财经大学 语义增强的大规模多元图简化可视化方法
CN109978006A (zh) * 2019-02-25 2019-07-05 北京邮电大学 聚类方法和装置
CN111309983A (zh) * 2020-03-10 2020-06-19 支付宝(杭州)信息技术有限公司 基于异构图进行业务处理的方法及装置
CN112256801A (zh) * 2020-10-10 2021-01-22 深圳力维智联技术有限公司 抽取实体关系图中关键实体的方法、系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308496A (zh) * 2008-07-04 2008-11-19 沈阳格微软件有限责任公司 大规模文本数据的外部聚类方法及系统
US20150286702A1 (en) * 2014-04-08 2015-10-08 International Business Machines Corporation Adaptive variable selection for data clustering
CN107193896A (zh) * 2017-05-09 2017-09-22 华中科技大学 一种基于簇的图数据划分方法
CN107273934A (zh) * 2017-06-28 2017-10-20 电子科技大学 一种基于属性融合的图聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308496A (zh) * 2008-07-04 2008-11-19 沈阳格微软件有限责任公司 大规模文本数据的外部聚类方法及系统
US20150286702A1 (en) * 2014-04-08 2015-10-08 International Business Machines Corporation Adaptive variable selection for data clustering
CN107193896A (zh) * 2017-05-09 2017-09-22 华中科技大学 一种基于簇的图数据划分方法
CN107273934A (zh) * 2017-06-28 2017-10-20 电子科技大学 一种基于属性融合的图聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张远亮: "分布式异构图聚类算法研究", 《中国优秀硕士学位论文全文数据库》 *
边宅安等: "多智能体系构架下的属性图分布式聚类算法", 《计算机科学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326327A (zh) * 2018-08-28 2019-02-12 福建师范大学 一种基于SeqRank图算法的序列聚类方法
CN109326327B (zh) * 2018-08-28 2021-11-12 福建师范大学 一种基于SeqRank图算法的生物序列聚类方法
CN109766478A (zh) * 2019-01-08 2019-05-17 浙江财经大学 语义增强的大规模多元图简化可视化方法
CN109978006A (zh) * 2019-02-25 2019-07-05 北京邮电大学 聚类方法和装置
CN109978006B (zh) * 2019-02-25 2021-02-19 北京邮电大学 人脸图像的聚类方法和装置
CN111309983A (zh) * 2020-03-10 2020-06-19 支付宝(杭州)信息技术有限公司 基于异构图进行业务处理的方法及装置
CN112256801A (zh) * 2020-10-10 2021-01-22 深圳力维智联技术有限公司 抽取实体关系图中关键实体的方法、系统和存储介质
CN112256801B (zh) * 2020-10-10 2024-04-09 深圳力维智联技术有限公司 抽取实体关系图中关键实体的方法、系统和存储介质

Also Published As

Publication number Publication date
CN108399268B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN108399268A (zh) 一种基于博弈论的增量式异构图聚类方法
Ma et al. Adaptive-step graph meta-learner for few-shot graph classification
Pershina et al. Holistic entity matching across knowledge graphs
CN107209853B (zh) 定位和地图构建方法
CN111325326A (zh) 一种基于异质网络表示学习的链路预测方法
CN111460234B (zh) 图查询方法、装置、电子设备及计算机可读存储介质
CN104462196A (zh) 多特征联合哈希信息检索方法
WO2021056710A1 (zh) 多轮问答识别方法、装置、计算机设备及存储介质
CN104978498A (zh) 生物分子网络拓扑结构比对的自适应方法
CN110175286A (zh) 结合成对优化和矩阵分解的产品推荐方法及系统
CN105574541A (zh) 一种基于紧密度排序的网络社区发现方法
CN106557777A (zh) 一种基于SimHash改进的Kmeans聚类方法
CN106055652A (zh) 一种基于模式和实例的数据库匹配方法及系统
CN113761221A (zh) 基于图神经网络的知识图谱实体对齐方法
CN106202167B (zh) 一种基于结构概要模型的有向标签图自适应索引构建方法
CN111177410A (zh) 基于进化R-tree的知识图谱存储和相似性检索方法
CN104951562A (zh) 一种基于vlad双重自适应的图像检索方法
CN108805280A (zh) 一种图像检索的方法和装置
Sun Personalized music recommendation algorithm based on spark platform
CN110489616A (zh) 一种基于Ranknet和Lambdamart算法的搜索排序方法
Barger et al. k-means for streaming and distributed big sparse data
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN101339615B (zh) 一种基于相似矩阵逼近的图像分割方法
CN114860886B (zh) 生成关系图的方法和确定匹配关系的方法、装置
CN105760442A (zh) 基于数据库邻域关系的图像特征增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant