CN109543033A - 动态异质网络演化聚类分析方法 - Google Patents

动态异质网络演化聚类分析方法 Download PDF

Info

Publication number
CN109543033A
CN109543033A CN201811270756.2A CN201811270756A CN109543033A CN 109543033 A CN109543033 A CN 109543033A CN 201811270756 A CN201811270756 A CN 201811270756A CN 109543033 A CN109543033 A CN 109543033A
Authority
CN
China
Prior art keywords
cluster
network
field
heterogeneous network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811270756.2A
Other languages
English (en)
Inventor
戴维迪
李胜男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811270756.2A priority Critical patent/CN109543033A/zh
Publication of CN109543033A publication Critical patent/CN109543033A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种动态异质网络演化聚类方法,主要步骤有,首先研究数据的数据及处理:具体为确定所需研究领域,获取期刊数据;提取研究字段;对获取得数据字段进行提取研究主题,消除无意义词以及常用词。其次是动态异质网络演化聚类。本发明构建动态异质网络的演化聚类框架,旨在对异构网络进行演化分析。通过对其进行分析,得到不同时刻的书目网络的聚类结果,从而可以分析不同类型实体之间的演化趋势,发现网络的出现、消失、合并、分离等演化行为。最后结合现有领域知识,分析网络演化原因与未来发展趋势。通过对书目网络进行全面的分析,可以为领域研究提供有价值的信息,指导未来领域研究发展。

Description

动态异质网络演化聚类分析方法
技术领域
本发明属于复杂网络领域,具体涉及一种动态异质网络演化聚类分析方法。
背景技术
近年来,随着诸如社交网络、生物网络、书目网络等网络规模的不断扩大,研究人员从不同的角度对这些网络进行研究。这些网络有共同的属性,即它们包含不同类型的实体。与广泛研究的同构信息网络相比,异构网络包含了全面的结构信息和丰富的语义信息,为数据挖掘任务提供了新的机遇。与传统的聚类方法不同,动态异构信息网络考虑了不同对象的类型,对不同类型节点进行聚类分析,并分析其演化行为,使得分析结果更具有一般性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种动态异质网络演化聚类方法。
本发明为解决上述背景技术中提出的技术问题,采用的技术方案是:动态异质网络演化聚类方法,该方法包括如下步骤:
S1:研究数据的获取及处理:
(1)确定需要研究的领域,提取领域期刊数据;
(2)提取所需研究字段;
(3)对获取的字段进行预处理;
S2:动态异质网络演化聚类:
(1)对预处理所得的数据,确定不同时间片的网络快照;
(2)在第一个时刻,根据经验知识确定先验概率,将网络初始化为k类,在其他时刻,先验概率为将前一时刻的聚类作为下一时刻的先验分布;
(3)为每个聚类建立基于排序的概率生成模型,即可以通过调整相应聚类中对象的类型类分解相应的概率;
(4)为每种对象类型计算后验概率P(ck|o),可以通过以下方式来计算:
pt(ck|o)∝p(o|ck)×pt(ck);
(5)一旦后验概率计算完成,对象o可以使用一个向量进行表示v0=(P(c1|o),P(c2|o),...,P(cK|o)),通过使用先前的聚类分配,聚类之心的向量v为该聚类对象的平均值,通过使用v0和聚类质心之间的余弦相似度值,将对象o重新分配到每个聚类中;
(6)迭代第三步和第四步,直到聚类结果不会发生变化;
(7)返回聚类结果,并根据聚类结果,分析每个时间片的成员聚类,通过结合现有知识,分析产生聚类的原因,进一步了解发展现状,指导未来研究。
本发明步骤S1(1)中确定需要研究的领域提取领域期刊数据。
本发明步骤S1(2)中研究字段包括论文、作者、时间、发表期刊/会议,主题词字段。
本发明步骤S1(3)中预处理包括去除无意义词和重复词。
有益效果
1、本发明构建动态异质网络的演化聚类框架,旨在对异构网络进行演化分析。以书目网络为例,构建并分析诸如作者,会议/期刊,文献和术语不同实体之间的关系。如每个作者与论文之间的书写关系,文献与会议之间的发布关系及论文与其包含每个术语之间的包含关系,其异构网络如附图所示。通过对其进行分析,得到不同时刻的书目网络的聚类结果,从而可以分析不同类型实体之间的演化趋势,发现网络的出现、消失、合并、分离等演化行为。最后结合现有领域知识,分析网络演化原因与未来发展趋势。通过对书目网络进行全面的分析,可以为领域研究提供有价值的信息,指导未来领域研究发展。
2、本发明对构建的动态异构网络进行演化聚类分析,得到不同类型的节点的演化行为,可以识别社区的诞生、延续及缓慢消失等演化行为。以书目网络为例进行实证分析,将作者、会议、术语、论文这些不同实体的节点构建在一个异构网络中,对其进行演化分析,可以发现领域研究趋势及演化行为。通过各个类型的节点聚类结果的相互影响,提高聚类效果,有利于进一步的分析研究。
附图说明
图1是书目网络。
具体实施方式
下面结合附图和具体实施例对本发明技术方案作进一步详细描述,所描述的具体实施例仅对本发明进行解释说明,并不用以限制本发明。
本发明通过构建书目网络演化聚类模型,对网络进行全面的分析。该技术主要应用于对某学科领域发展的梳理,在对书目网络进行分析时,可以按照下面的步骤进行:
第一步:确定所需研究领域,获取期刊数据;
第二步:提取研究字段,这里研究字段为作者、文献发表时间、发表所在期刊/会议、文献主题词;
第三步:对获取的数据字段进行预处理,这个包括我们从论文的标题中提取其研究主题,消除无意义词以及常用词;
第四步:根据节点之间的关系,构建动态异质网络,其中节点分别为作者、时间、期刊/会议、主题词,边为每个作者与论文之间的书写关系,论文与期刊/会议之间的发表关系,论文与每个术语之间的包含关系,通过构建的动态异构网络来分析网络中各类节点及其整个网络的演化模式;
第五步:将网络划分时间片,在第一个时间步中,初始网络聚类数量k由经验确定,在其它时刻,将前一个时刻的聚类结果作为下一时刻的先验,保证聚类结果一致性;
第六步:为每个聚类建立基于排序的概率生成模型可以通过调整聚类中对象的类型来分解相应的概率,将P(o|ck)分解为P(o|T0,ck)与P(T0|ck)的乘积。其中P(T0|ck)可以使用表示为在我们构建的异构网络中,类型为T0的对象在聚类结果ck中的最大似然。P(o|T0,ck)可以使用简单的排序算法进行计算;
第七步:为目标对象计算后验概率pt(ck|o),并且调整其聚类分配;
第八步:迭代第六步和第七步,直到聚类结果不会发生变化;
第九步:返回聚类结果;
第十步:根据聚类结果,分析每个时间片上的成员聚类,并分析其网络演化。对每种节点类型分别进行分析,分析作者关系的聚类演化。
以下详细描述本发明的实现过程:
研究数据的获取和处理:本发明以书目网络数据为例,提取基因编辑与和合成生物期刊数据,进行网络建模分析。首先是数据获取,根据确定的研究领域在LetPub检索对应的期刊,确定该领域期刊列表,获取期刊数据。其次,进行数据处理,提取分析所需字段,分别为文献、作者、期刊、术语、发表年份。构建数据之间的对应关系,每篇文献与其发文的每个作者相对应,与发表所在的期刊相对应,与包含的每个术语相对应。对数据集中的每篇文献对象,提取其作者列表、期刊列表、文献题目列表、文献中术语列表,并构建数据之间的关系。基于此,构建的数据文件为author.txt、conf.txt、paper.txt、paper_author.txt、paper_conf.txt、paper_conf.txt、paper_year.txt、term.txt。对于提取的term.txt,删除无意义的词及常用词,并且进行单复数的合并操作。接下来,对于提取的字段进行建模分析。
动态异质网络演化聚类:对于给定的数据,确定不同时刻的图的快照,在每个图上都包含多种类型的节点,我们找到连续时间快照中,网络的关联关系,从而确定网络的演化。这里定义GS为划分的图序列,表示不同时刻的网络状态。对于任意时间片上的网络Gi(Ei,Vi,Wi),其中Ei表示时刻i不同类型的节点集合,Vi表示时刻i不同节点对应的连接关系,Wi表示时刻i不同连接边对应的权重。本文使用当前时间快照中获得的簇分布作为下一个聚类分析的先验,从而保证了时间的平滑,使得分析结果有更高的一致性。下面对算法进行一个详细的说明.
第一步:在第一个时刻中,先验概率由经验来确定,可以根据对数据研究领域的了解,将数据初始化为k类,在其它时刻,先验概率为表示前一时刻的网络中簇的划分。把前一时刻的聚类结果作为下一时刻的先验,保证了时间平滑性,提高网络聚类一致性,有利于网络演化的分析。
第二步:为每个聚类建立基于排序的概率生成模型,即可以通过调整相应聚类中对象的类型来分解相应的概率。这里可以将P(o|ck)分解为P(T0|ck)×P(o|T0,ck)。T0表示对象的类型。P(T0|ck)表示簇ck中包含类型T0的最大似然估计。P(o|T0,ck)可以基于简单排序的方法来进行估计。所以目标对象的生成概率为:
其中为子网Gk的邻域对象集合,Tx表示对象x的类型。
第三步:得到了网络簇的生成概率,下面可以为每个目标对象计算后验概率。给出网络的聚类c1,c2,...,ck。可以使用贝叶斯规则来得到每个目标对象的概率,定义如下:
p(ck|oi)∝p(oi|ck)×p(ck)
其中p(oi|ck)是从聚类k中生成对象oi的概率,p(ck)表示聚类ck的相对大小,也就是说,所有的目标对象属于簇k的概率。为了得到每个聚类k的p(ck)的值,可以使用最大化对数似然方法,然后使用EM算法得到p(ck)的局部最优。公式定义如下:
使用EM算法得到p(ck)的值,其迭代规则如下:
由上式得到每个目标对象的后验概率,目标对象o可以使用向量的形式表示v0=(p(c1|o),p(c2|o),...,p(cK|o))。使用聚类对象的平均值作为聚类质心的向量,通过使用v0与质心之间的余弦相似度将对象重新分配给聚类。迭代第二步和第三步,直到聚类结果不会发生变化。此时可以返回每种类型对象的聚类结果。根据不同时间片上的聚类结果,对于网络在设定时间的演变过程。最后通过结合现有知识,分析产生聚类的原因,聚类的产生或者消失,进一步分析其演化模式,指导未来发展。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (4)

1.动态异质网络演化聚类分析方法,其特征在于,该方法包括如下步骤:
S1:研究数据的获取及处理:
(1)确定需要研究的领域,提取领域期刊数据;
(2)提取所需研究字段;
(3)对获取的字段进行预处理;
S2:动态异质网络演化聚类:
(1)对预处理所得的数据,确定不同时间片的网络快照;
(2)在第一个时刻,根据经验知识确定先验概率,将网络初始化为k类,在其他时刻,先验概率为将前一时刻的聚类作为下一时刻的先验分布;
(3)为每个聚类建立基于排序的概率生成模型,即可以通过调整相应聚类中对象的类型类分解相应的概率;
(4)为每种对象类型计算后验概率P(ck|o),可以通过以下方式来计算:
pt(ck|o)∝p(o|ck)×pt(ck);
(5)一旦后验概率计算完成,对象o可以使用一个向量进行表示v0=(P(c1|o),P(c2|o),...,P(cK|o)),通过使用先前的聚类分配,聚类之心的向量v为该聚类对象的平均值,通过使用v0和聚类质心之间的余弦相似度值,将对象o重新分配到每个聚类中;
(6)迭代前两个步骤,直到聚类结果不会发生变化;
(7)返回聚类结果,并根据聚类结果,分析每个时间片的成员聚类,通过结合现有知识,分析产生聚类的原因,进一步了解发展现状,指导未来研究。
2.根据权利要求1所述的动态异质网络演化聚类分析方法,其特征在于,所述步骤S1(1)中确定需要研究的领域提取领域期刊数据。
3.根据权利要求1所述的动态异质网络演化聚类分析方法,其特征在于,所述步骤S1(2)中研究字段包括论文、作者、时间、发表期刊/会议,主题词字段。
4.根据权利要求1所述的动态异质网络演化聚类分析方法,其特征在于,所述步骤S1(3)中预处理包括去除无意义词和重复词。
CN201811270756.2A 2018-10-29 2018-10-29 动态异质网络演化聚类分析方法 Pending CN109543033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811270756.2A CN109543033A (zh) 2018-10-29 2018-10-29 动态异质网络演化聚类分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811270756.2A CN109543033A (zh) 2018-10-29 2018-10-29 动态异质网络演化聚类分析方法

Publications (1)

Publication Number Publication Date
CN109543033A true CN109543033A (zh) 2019-03-29

Family

ID=65845379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811270756.2A Pending CN109543033A (zh) 2018-10-29 2018-10-29 动态异质网络演化聚类分析方法

Country Status (1)

Country Link
CN (1) CN109543033A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205252A (zh) * 2021-12-10 2022-03-18 中国人民解放军国防科技大学 基于元图可扩展表示的动态异构网络节点分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133843A (zh) * 2014-06-25 2014-11-05 福州大学 科技文献异构网络中节点的学术影响力协同排序方法
CN106372239A (zh) * 2016-09-14 2017-02-01 电子科技大学 一种基于异质网络的社交网络事件关联分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133843A (zh) * 2014-06-25 2014-11-05 福州大学 科技文献异构网络中节点的学术影响力协同排序方法
CN106372239A (zh) * 2016-09-14 2017-02-01 电子科技大学 一种基于异质网络的社交网络事件关联分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YIZHOU SUN.ET.L: "RankClus: Integrating Clustering with Ranking for Heterogeneous Information Network Analysis", 《PROC OF THE 12TH INTERNATIONAL CONFERENCE ON EXTENDING DATABASE TECHNOLOGY: ADVANCES IN DATABASE TECHNOLOGY》 *
YIZHOU SUN.ET.L: "Ranking-Based Clustering of Heterogeneous Information networks with star network schema", 《PROC OF THE 15TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
阳雨等: "异质网络社区发现研究进展", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205252A (zh) * 2021-12-10 2022-03-18 中国人民解放军国防科技大学 基于元图可扩展表示的动态异构网络节点分类方法
CN114205252B (zh) * 2021-12-10 2023-11-28 中国人民解放军国防科技大学 基于元图可扩展表示的动态异构网络节点分类方法

Similar Documents

Publication Publication Date Title
Elhoseiny et al. Link the head to the" beak": Zero shot learning from noisy text description at part precision
Hu Algorithms for visualizing large networks
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
Zhang et al. Robust visual tracking using an effective appearance model based on sparse coding
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN106651978A (zh) 人脸图像预测方法及系统
Fang et al. Dynamic gesture recognition using inertial sensors-based data gloves
Fu et al. Learning semantic motion patterns for dynamic scenes by improved sparse topical coding
Dong et al. Feature extraction through contourlet subband clustering for texture classification
Wang et al. A self-adaptive weighted affinity propagation clustering for key frames extraction on human action recognition
Ren et al. A weighted adaptive mean shift clustering algorithm
CN108345873A (zh) 一种基于多层卷积神经网络的多自由度人体运动信息解析方法
CN109543033A (zh) 动态异质网络演化聚类分析方法
Yu et al. MV-ReID: 3D Multi-view Transformation Network for Occluded Person Re-Identification
Huang et al. Motion retrieval based on kinetic features in large motion database
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN111160077A (zh) 一种大规模人脸动态聚类方法
Fan et al. Facial expression recognition based on multiple feature fusion in video
Wang et al. A sparse deep learning model for privacy attack on remote sensing images
Zhang et al. Auroral event representation based on the n-ary fusion of multiple oriented energies
Li et al. High resolution radar data fusion based on clustering algorithm
Maniyar et al. Persons facial image synthesis from audio with Generative Adversarial Networks
Ahmadi et al. Discovering motion patterns in traffic videos using improved group sparse topical coding
Zhang et al. Two‐Stage User Identification Based on User Topology Dynamic Community Clustering
Ma et al. Spectral clustering ensemble for image segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190329

WD01 Invention patent application deemed withdrawn after publication