CN112052404A - 多源异构关系网络的群体发现方法、系统、设备及介质 - Google Patents
多源异构关系网络的群体发现方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN112052404A CN112052404A CN202011012724.XA CN202011012724A CN112052404A CN 112052404 A CN112052404 A CN 112052404A CN 202011012724 A CN202011012724 A CN 202011012724A CN 112052404 A CN112052404 A CN 112052404A
- Authority
- CN
- China
- Prior art keywords
- source heterogeneous
- users
- group discovery
- relationship network
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000002452 interceptive effect Effects 0.000 claims abstract description 53
- 230000003993 interaction Effects 0.000 claims abstract description 18
- 230000006399 behavior Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于图数据挖掘领域,公开了一种多源异构关系网络的群体发现方法、系统、设备及介质,包括:获取多源异构关系网络内任意两个用户间的交互行为数据;根据任意两个用户间的交互行为数据,得到任意两个用户间的边权值;其中,边权值用于表示两个用户间的联系紧密程度;根据任意两个用户间的边权值构建图结构,得到多源异构关系图;并将多源异构关系图进行子图划分,得到若干极大连通子图并分别进行社区划分,得到多源异构关系网络的群体发现结果。时间复杂度低,群体发现结果优秀,适用于大规模关系网络,能有效减少群体发现中的时间资源开销,提高发现结果的模块度,无需任何先验知识,完全依靠网络拓扑结构实现,对于复杂网络适用性强。
Description
技术领域
本发明属于图数据挖掘领域,涉及一种多源异构关系网络的群体发现方法、系统、设备及介质。
背景技术
随着互联网技术的高速发展,在线社交网络如QQ、微博、Facebook、Twitter等社交网络平台已经成为我们生活中不可或缺的一部分。社交平台上用户及其交互关系通常可以用复杂的多源异构关系网络来描述,这些网络中相互连接的节点的拓扑结构具有组织性和随机性,网络的数据以多源性、异构性、大规模为主要特征,用户数达百万级,且存在多种形式的交互信息,如关注、好友、点赞、转发、评论等。近年来,由于大型网络上用户互动种类日益增多和人们生活日趋依赖于网络社交,人们对多源异构网络群体发现的研究引起了极大的兴趣。那么,如何构建用户之间多种形式的交互行为数据,并在如此大规模的结构中检索综合信息、发现隐藏的群体是一个值得研究的问题。目前,常用的方法是构建出多源异构关系网络后,将多源异构关系网络分解成子单元或社区,这些子单元或社区是一组相互高度连接的节点。这些社区的识别是至关重要的,因为它们可能有助于揭示事先未知的功能模块,如信息网络中的主题或社会网络中的网络群体;此外,由此产生的元网络(其节点是社区)还可用于可视化原始网络结构。
社区检测问题要求将多源异构关系网络划分为密集连接的节点的社区,而属于不同社区的节点只是稀疏连接,但是,这一优化问题的精确公式是难以计算的。目前也提出了几种算法来以一种较快的方式发现比较好的群体,其中,解决上述问题的稳健方法是将效益函数最大化,即在多源异构关系网络上尽可能的划分模块化,然后,把这个最大化过程用称为模块化矩阵的特征谱来表示,模块化矩阵在社区检测中发挥的作用类似于图拉普拉斯矩阵在图划分计算中发挥的作用。
但是实验表明,上述方法只在小型的多源异构关系网络上能获得较好的结果,在大规模的多源异构关系网络上存在社区结构不明显、模块度小、群体发现结果差的问题。
发明内容
本发明的目的在于克服上述现有技术中,现有社区检测群体的方法只在小型的多源异构关系网络上能获得较好的结果,在大规模的多源异构关系网络上存在社区结构不明显、模块度小、群体发现结果差的缺点,提供一种多源异构关系网络的群体发现方法、系统、设备及介质,在大规模的多源异构网络中仍能获得较好的结果。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,一种多源异构关系网络的群体发现方法,包括以下步骤:
S1:获取多源异构关系网络内任意两个用户间的交互行为数据;
S2:根据任意两个用户间的交互行为数据,得到任意两个用户间的边权值;其中,边权值用于表示两个用户间的联系紧密程度;
S3:根据任意两个用户间的边权值构建图结构,得到多源异构关系图;并将多源异构关系图进行子图划分,得到若干极大连通子图;
S4:将若干极大连通子图分别进行社区划分,得到若干极大连通子图的群体发现结果并组合,得到多源异构关系网络的群体发现结果。
本发明多源异构关系网络的群体发现方法进一步的改进在于:
所述S1的具体方法为:
通过爬虫技术获取多源异构关系网络内各用户的用户信息,对所有用户信息进行统计分析,获取多源异构关系网络内任意两个用户间的交互行为数据。
所述交互行为数据包括关注数据、点赞数据和转发数据中的一种或几种。
所述S2的具体方法为:
将任意两个用户间的交互行为数据内的各交互数据按照类型划分,基于各类型的交互数据的交互次数,确定各类型的交互数据的边权重函数;基于各类型的交互数据的边权重函数及交互次数,得到各类型的交互数据的边权重,叠加各类型的交互数据的边权重,得到任意两个用户间的边权值。
所述S3中将多源异构关系图进行子图划分的具体方法为:采用深度优先搜索算法将多源异构关系图进行子图划分。
所述S4中将若干极大连通子图分别进行社区划分时,任一极大连通子图均采用如下的社区划分方法进行社区划分:
S401:通过式(1)得到当前极大连通子图的模块度矩阵B={Bij}:
Bij=Aij-Pij (1)
S402:根据模块度矩阵B的特征向量β={βi},通过式(2)将当前极大连通子图分为两个社区:
S403:逐个将第一社区中的用户移动至第二社区,然后逐个将第二社区中的用户移动至第一社区;其中,每次移动均通过式(3)计算当前极大连通子图的模块度Q,当模块度Q增加时,执行当前移动;否则,撤销当前移动:其中,每个用户只移动一次;
S404:将S403中的第一社区和第二社区作为极大连通子图,重复S401~S403;
S405:迭代S404,且每次迭代均计算当前极大连通子图的模块度Q,当当前迭代的模块度Q与上一次迭代的模块度Q的增量不为正时,或当当前极大连通子图内仅有一个用户时,停止迭代,得到极大连通子图的群体发现结果。
还包括:
S5:以用户作为节点,将属于同一群体的节点采用同一标号或同一颜色表示,并根据两个节点之间边权重确定两个节点之间连线的粗细,可视化多源异构关系网络的群体发现结果。
本发明第二方面,一种多源异构关系网络的群体发现系统,包括:
交互行为数据获取模块,用于获取多源异构关系网络内任意两个用户间的交互行为数据;
边权值确定模块,用于根据任意两个用户间的交互行为数据,得到任意两个用户间的边权值;其中,边权值用于表示两个用户间的联系紧密程度;
子图划分模块,用于根据任意两个用户间的边权值构建图结构,得到多源异构关系图;并将多源异构关系图进行子图划分,得到若干极大连通子图;以及
群体发现模块,用于将若干极大连通子图分别进行社区划分,得到若干极大连通子图的群体发现结果并组合,得到多源异构关系网络的群体发现结果。
本发第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多源异构关系网络的群体发现方法的步骤。
本发第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多源异构关系网络的群体发现方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明多源异构关系网络的群体发现方法,通过基于多源异构关系网络内任意两个用户间的交互行为数据,及任意两个用户间的边权值,构建得到多源异构关系网络的多源异构关系图,然后将多源异构关系图进行划分,得到若干极大连通子图,然后将若干极大连通子图分别进行社区划分,得到若干极大连通子图的群体发现结果并组合,得到多源异构关系网络的群体发现结果。其中,由于多源异构关系网络中,例如社交网络,一般都具有规模大且用户稀疏的特点,并且往往存在大量的独立的连通体,即极大连通子图,连通体内的节点与连通体外不存在边路径,与连通体外的节点不可能属于同一社群体,因此,单独将每个极大连通子图进行群体发现,时间复杂度低,可以有效减少群体发现中的时间资源开销,提高发现结果的模块度,群体发现结果优秀,且基于先划分的方式,使得本方法能够适用于大规模的多源异构关系网络,可处理百万级及更大规模的网络。同时,整个方法无需任何先验知识,完全依靠网络拓扑结构实现,使用的为完全无监督方法,符合实际网络数据情况,对于真实的复杂网络适用性强。
进一步的,本发明通过对群体发现结果可视化,显示用户所属群体及其间交互关系,直观性强。
附图说明
图1为本发明实施例的多源异构关系网络的群体发现方法流程框图;
图2为本发明再一实施例的多源异构关系网络的群体发现方法流程框图;
图3为本发明实施例的群体发现结果示意图;
图4为现有方法的群体发现结果示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明一个实施例中,提供一种多源异构关系网络的群体发现方法,由多源异构数据构建社交平台用户之间的大规模交互关系网络,即多源异构关系网络,并在此基础上进行快速的群体发现,针对多源异构关系网络的特性,对传统的模块化矩阵特征谱方法进行了优化,使其在大规模的多源异构关系网络中仍能获得较好的结果。本实施例中,集合具体的实施场景进行说明。其中,数据集来源通过爬虫技术从社交网络平台Twitter上获取,包含用户名称、用户id、用户的关注、点赞、发布推文行为和相关数据,清洗原始数据后存于csv文件中。然后基于本发明多源异构关系网络的群体发现方法进行快速的群体发现,具体的,该群体发现方法包括以下步骤。
S1:获取多源异构关系网络内任意两个用户间的交互行为数据。具体的,从多源异构关系网络中筛选出所需的用户信息,对用户信息进行统计分析,获得任意两个用户之间的各种交互行为数据。本实施例中,采用如下方式实现:
S101:在爬取的Twitter数据集中获取用户之间的关注数据、点赞数据及推文数据等交互数据,转发数据通过分析处理数据集中的推文信息结合用户名与账号的对应关系统计得出,若该条推文以“RT”开头,则分出“@”后的单词即被转发者用户名,再获得相应的账号号码。
S102:使用三元组e=(v1,v2,t)构建交互行为数据,其中v1,v2代表两个用户,使用其账号数字唯一表示,t代表两个用户之间交互的次数,如点赞、转发的次数。关注数据、点赞数据及转发数据分别表示为E1,E2及E3;E1,E2及E3皆为三元组e=(v1,v2,t)的集合。
S2:根据任意两个用户间的交互行为数据,得到任意两个用户间的边权值;其中,边权值用于表示两个用户间的联系紧密程度。具体的,将任意两个用户间的交互行为数据内的各交互数据按照类型划分,基于各类型的交互数据的交互次数,确定各类型的交互数据的边权重函数;基于各类型的交互数据的边权重函数及交互次数,得到各类型的交互数据的边权重,叠加各类型的交互数据的边权重,得到任意两个用户间的边权值。本实施例中,对每种类型的交互数据Ei,i=1,2,…n,统计其中t值的分布,设计相应的函数计算该类型的交互权wi=f(t);若Ei中t的取值只有0和1,如两个用户之间的关注关系、好友关系等,则f(t)=kt,k为常数;否则f(t)=logs k,其中,s和k均为常数,取值由t值的分布决定,具有较强的适应性。两个用户之间的最终权值为即两个用户之间每种交互关系的权重之和,获得带权边集E,为三元组e*=(v1,v2,w)的集合。具体的,包括以下步骤:
S201:以三种类型的交互数据的三元组集合E1,E2,E3为基础,设定特定的边权值计算方式,计算边权值以代表两个用户之间的联系紧密程度,使用三元组e*=(v1,v2,w)来表示用户v1,v2之间联系的总权值为w。对关注数据E1集合中的用户关系,关注权w1=2×t;对点赞数据E2集合中的用户关系,点赞权w2=ln(2×t);对转发数据E3集合中的用户关系,转发权w3=ln(2×t);两个用户之间的最终权值为w=w1+w2+w3,即两个用户之间三种交互关系的权重之和,其中,w1,w2和w3分别为两个用户之间的关注权、点赞权和转发权,最终获得带权边集E,为三元组e*=(v1,v2,w)的集合。
S202:利用已统计的数据构建网络G=(V,E),其中,节点集V由Twitter数据集中的所有用户的账号号码构成;E表示用户间关系构成的带权边集。本实施例中,获得的网络G中节点数958435,边数1051317。
S3:根据任意两个用户间的边权值构建图结构,得到多源异构关系图;并将多源异构关系图进行子图划分,得到若干极大连通子图。具体的,根据任意两个用户间的边权值构建图结构,得到多源异构关系图;然后采用深度优先搜索算法将多源异构关系图进行子图划分,得到若干极大连通子图。其中,深度优先搜索算法(Depth-First-Search,DFS),是搜索算法的一种,是一种在开发爬虫早期使用较多的方法,它的目的是要达到被搜索结构的叶结点。
本实施例中,通过对步骤S202中构建的网络G=(V,E)进行DFS,获得若干极大连通子图,并组成极大连通子图列表L=[g1,g2,g3…,gm],其中,gx,x∈[1,2,3…,m]为网络G=(V,E)的极大连通子图,获得长度为924的子图列表。
由于真实的多源异构关系网络中,例如社交网络,具有规模大、稀疏的特点,且往往存在大量的独立的连通体(极大连通子图),连通体内的节点与连通体外不存在边路径,与连通体外的节点不可能属于同一群体,故只需单独对每个连通体进行群体发现,进而减少多余开销,提高结果质量。
S4:将若干极大连通子图分别进行社区划分,得到若干极大连通子图的群体发现结果并组合,得到多源异构关系网络的群体发现结果。
具体的,本发明采用优化的基于计算模块度矩阵特征向量的社区划分算法进行若干极大连通子图的社区划分,其优化目标为最大化极大连通子图的模块度(Modularity),其中,模块度Q定义为:其中,Aij表示用户i和用户j之间的边权重;Pij表示用户i和用户j之间的边期望,其值为ki和kj分别表示连接到用户i和用户j的边的权重之和;m为图中所有边权重的总和;ci和cj分别表示用户i和用户j所属的社区;δ为克罗内克函数(Kronecker delta),两个自变量若相等则输出1,否则输出0。
具体的,该优化的基于计算模块度矩阵特征向量的社区划分算法包括以下步骤:
S401:通过式(1)得到当前极大连通子图的模块度矩阵B={Bij}:
Bij=Aij-Pij (1)
S402:根据模块度矩阵B的特征向量β={βi},通过式(2)将当前极大连通子图分为两个社区:
S403:逐个将第一社区中的用户移动至第二社区,然后逐个将第二社区中的用户移动至第一社区;其中,在本算法中,每次循环都将图划分为两个社区,模块度Q被重写,具体的,每次移动均通过式(3)计算当前极大连通子图的模块度Q,当模块度Q增加时,执行当前移动;否则,撤销当前移动:其中,每个用户只移动一次;
S404:将S403中的第一社区和第二社区作为极大连通子图,重复S401~S403。
S405:迭代S404,且每次迭代均计算当前极大连通子图的模块度Q,当当前迭代的模块度Q与上一次迭代的模块度Q的增量不为正时,或当当前极大连通子图内仅有一个用户时,停止迭代,得到极大连通子图的群体发现结果。
本实施例中,对极大连通子图列表L中的子图gx,x∈[1,2,3…,m]进行社区划分,使用优化的基于计算模块度矩阵特征向量的社区划分算法,最后将每个极大连通子图的群体发现结果合并,获得整个多源异构关系网络模块度最大化的划分结果。其中,模块度为0.5564370070758735,相较于优化前的算法0.2936219324109547的模块度,提升明显。
综上所述,本发明多源异构关系网络的群体发现方法,通过处理多种来源、多种类型的用户社交网络关系数据来构建用户之间的交互关系,对各种社交网络数据的适应性较强,适用于大多数在线社交网络;根据优化的基于计算模块度矩阵特征向量的社区划分算法对稀疏、大型网络适用性低和多源异构关系网络往往具有数量较多、所含节点较密集的子图的特点,预处理图数据,对其使用DFS深度优先搜索,获得极大连通子图列表,再对子图进行社区划分,可处理百万级及更大规模的网络,对现实中在线社交网络的适应性强,社区划分质量好,模块度比优化前的算法提升明显;在群体发现的过程中,使用的为完全无监督方法,符合实际网络数据情况,具又很强的实用性。因此,本发明多源异构关系网络的群体发现方法,具有时间复杂度低,群体发现结果优秀,适用于大规模多源异构关系网络的特点,可以有效减少群体发现中的时间资源开销,提高发现结果的模块度,且整个算法无需任何先验知识,完全依靠多源异构关系网络拓扑结构实现,对于复杂网络的适用性强。
参见图2,本发明再一个实施例中,提供一种多源异构关系网络的群体发现方法,本实施例与图1所示实施例采用相同的实施场景,相较于图1所示实施例中的多源异构关系网络的群体发现方法,本实施例至少还包括:S5:以用户作为节点,将属于同一群体的节点采用同一颜色表示,并根据两个节点之间边权重确定两个节点之间连线的粗细,使用面向大规模图布局的算法,如OpenOrd算法进行布局,可视化多源异构关系网络的群体发现结果。
具体的,多源异构关系网络的群体发现结果进行可视化,参见图3,以用户作为节点,将节点所属的社区作为节点的一个属性,决定节点的数字编号,即将属于同一群体的节点采用同一数字编号表示,使用两个节点之间边权重确定两个节点之间边的粗细,使用面向大规模图布局的开源算法OpenOrd进行布局,可视化多源异构关系网络的群体发现结果。本实施例中,由于整个多源异构关系网络的节点数达958435,故图3中抽取283个节点(即200条边,避免抽取出与其他抽取节点无连接的节点)的群体发现结果,参见图4,为现有方法获得的群体发现结果,即不进行深度优先搜索,直接对整个多源异构关系网络进行群体发现的结果,在同样283个节点上对比图3可见,图4中高达81.27%的节点被划分入同一个社区(数字编号为2),10.25%节点被划入另一个社区(数字编号为36),其余节点被划入11个不同的平均所占节点数不足1%的社区中,可见同一个社区中的节点并没有在结构上体现出很好的相关性,且过多的节点属于同一社区;而本发明所获得的结果图3中:55.83%的节点被划分入数字编号为1655的社区,25.44%的节点被划分入数字编号为1656的另一个社区,还有10.25%的节点被划分入数字编号为1658的社区,由图3可见,处于同一社区的节点在结构上连接更为紧密,几块明显不同的连通体结构也都被划分为不同的社区(由于节点为社区发现结果中随机抽取的一小部分,故存在一些离散的节点各自属于不同的社区)。对比图3和图4,本发明多源异构关系网络的群体发现方法的群体结构更加清晰,这与模块度计算的结果相符。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
本发明再一个实施例中,提供了一种多源异构关系网络的群体发现系统,该多源异构关系网络的群体发现系统可以用于实现上述多源异构关系网络的群体发现方法,具体的,该多源异构关系网络的群体发现系统包括交互行为数据获取模块、边权值确定模块、子图划分模块以及群体发现模块。
其中,交互行为数据获取模块用于获取多源异构关系网络内任意两个用户间的交互行为数据;边权值确定模块用于根据任意两个用户间的交互行为数据,得到任意两个用户间的边权值;其中,边权值用于表示两个用户间的联系紧密程度;子图划分模块用于根据任意两个用户间的边权值构建图结构,得到多源异构关系图;并将多源异构关系图进行子图划分,得到若干极大连通子图;群体发现模块用于将若干极大连通子图分别进行社区划分,得到若干极大连通子图的群体发现结果并组合,得到多源异构关系网络的群体发现结果。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于多源异构关系网络的群体发现方法的操作,包括:S1:获取多源异构关系网络内任意两个用户间的交互行为数据;S2:根据任意两个用户间的交互行为数据,得到任意两个用户间的边权值;其中,边权值用于表示两个用户间的联系紧密程度;S3:根据任意两个用户间的边权值构建图结构,得到多源异构关系图;并将多源异构关系图进行子图划分,得到若干极大连通子图;S4:将若干极大连通子图分别进行社区划分,得到若干极大连通子图的群体发现结果并组合,得到多源异构关系网络的群体发现结果。
再一个实施例中,本发明还提供了一种计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关多源异构关系网络的群体发现方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:S1:获取多源异构关系网络内任意两个用户间的交互行为数据;S2:根据任意两个用户间的交互行为数据,得到任意两个用户间的边权值;其中,边权值用于表示两个用户间的联系紧密程度;S3:根据任意两个用户间的边权值构建图结构,得到多源异构关系图;并将多源异构关系图进行子图划分,得到若干极大连通子图;S4:将若干极大连通子图分别进行社区划分,得到若干极大连通子图的群体发现结果并组合,得到多源异构关系网络的群体发现结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种多源异构关系网络的群体发现方法,其特征在于,包括以下步骤:
S1:获取多源异构关系网络内任意两个用户间的交互行为数据;
S2:根据任意两个用户间的交互行为数据,得到任意两个用户间的边权值;其中,边权值用于表示两个用户间的联系紧密程度;
S3:根据任意两个用户间的边权值构建图结构,得到多源异构关系图;并将多源异构关系图进行子图划分,得到若干极大连通子图;
S4:将若干极大连通子图分别进行社区划分,得到若干极大连通子图的群体发现结果并组合,得到多源异构关系网络的群体发现结果。
2.根据权利要求1所述的多源异构关系网络的群体发现方法,其特征在于,所述S1的具体方法为:
通过爬虫技术获取多源异构关系网络内各用户的用户信息,对所有用户信息进行统计分析,获取多源异构关系网络内任意两个用户间的交互行为数据。
3.根据权利要求1所述的多源异构关系网络的群体发现方法,其特征在于,所述交互行为数据包括关注数据、点赞数据和转发数据中的一种或几种。
4.根据权利要求1所述的多源异构关系网络的群体发现方法,其特征在于,所述S2的具体方法为:
将任意两个用户间的交互行为数据内的各交互数据按照类型划分,基于各类型的交互数据的交互次数,确定各类型的交互数据的边权重函数;基于各类型的交互数据的边权重函数及交互次数,得到各类型的交互数据的边权重,叠加各类型的交互数据的边权重,得到任意两个用户间的边权值。
5.根据权利要求1所述的多源异构关系网络的群体发现方法,其特征在于,所述S3中将多源异构关系图进行子图划分的具体方法为:采用深度优先搜索算法将多源异构关系图进行子图划分。
6.根据权利要求1所述的多源异构关系网络的群体发现方法,其特征在于,所述S4中将若干极大连通子图分别进行社区划分时,任一极大连通子图均采用如下的社区划分方法进行社区划分:
S401:通过式(1)得到当前极大连通子图的模块度矩阵B={Bij}:
Bij=Aij-Pij (1)
S402:根据模块度矩阵B的特征向量β={βi},通过式(2)将当前极大连通子图分为两个社区:
S403:逐个将第一社区中的用户移动至第二社区,然后逐个将第二社区中的用户移动至第一社区;其中,每次移动均通过式(3)计算当前极大连通子图的模块度Q,当模块度Q增加时,执行当前移动;否则,撤销当前移动:其中,每个用户只移动一次;
S404:将S403中的第一社区和第二社区作为极大连通子图,重复S401~S403;
S405:迭代S404,且每次迭代均计算当前极大连通子图的模块度Q,当当前迭代的模块度Q与上一次迭代的模块度Q的增量不为正时,或当当前极大连通子图内仅有一个用户时,停止迭代,得到极大连通子图的群体发现结果。
7.根据权利要求1所述的多源异构关系网络的群体发现方法,其特征在于,还包括:
S5:以用户作为节点,将属于同一群体的节点采用同一标号或同一颜色表示,并根据两个节点之间边权重确定两个节点之间连线的粗细,可视化多源异构关系网络的群体发现结果。
8.一种多源异构关系网络的群体发现系统,其特征在于,包括:
交互行为数据获取模块,用于获取多源异构关系网络内任意两个用户间的交互行为数据;
边权值确定模块,用于根据任意两个用户间的交互行为数据,得到任意两个用户间的边权值;其中,边权值用于表示两个用户间的联系紧密程度;
子图划分模块,用于根据任意两个用户间的边权值构建图结构,得到多源异构关系图;并将多源异构关系图进行子图划分,得到若干极大连通子图;以及
群体发现模块,用于将若干极大连通子图分别进行社区划分,得到若干极大连通子图的群体发现结果并组合,得到多源异构关系网络的群体发现结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述多源异构关系网络的群体发现方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多源异构关系网络的群体发现方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012724.XA CN112052404B (zh) | 2020-09-23 | 2020-09-23 | 多源异构关系网络的群体发现方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012724.XA CN112052404B (zh) | 2020-09-23 | 2020-09-23 | 多源异构关系网络的群体发现方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052404A true CN112052404A (zh) | 2020-12-08 |
CN112052404B CN112052404B (zh) | 2023-08-15 |
Family
ID=73604603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011012724.XA Active CN112052404B (zh) | 2020-09-23 | 2020-09-23 | 多源异构关系网络的群体发现方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052404B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378798A (zh) * | 2019-06-03 | 2019-10-25 | 中移互联网有限公司 | 异构社交网络构建方法、群组推荐方法、装置及设备 |
CN113035366A (zh) * | 2021-03-24 | 2021-06-25 | 南方科技大学 | 密接人群识别方法、装置、电子设备及存储介质 |
CN113362205A (zh) * | 2021-06-18 | 2021-09-07 | 广州工商学院 | 一种师资队伍培养管理系统 |
CN113593606A (zh) * | 2021-09-30 | 2021-11-02 | 清华大学 | 音频识别方法和装置、计算机设备、计算机可读存储介质 |
CN114422321A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 构建组织协同网络的方法和装置 |
CN116150507A (zh) * | 2023-04-04 | 2023-05-23 | 湖南蚁坊软件股份有限公司 | 水军群体识别方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060015588A1 (en) * | 2004-06-30 | 2006-01-19 | Microsoft Corporation | Partitioning social networks |
CN103530402A (zh) * | 2013-10-23 | 2014-01-22 | 北京航空航天大学 | 一种基于改进的PageRank的微博关键用户识别方法 |
CN105243593A (zh) * | 2015-08-04 | 2016-01-13 | 电子科技大学 | 基于混合测度的加权网络社区聚类方法 |
CN105631748A (zh) * | 2015-12-21 | 2016-06-01 | 西北工业大学 | 一种基于并行标签传播的异构网络社区发现方法 |
CN107180024A (zh) * | 2017-03-27 | 2017-09-19 | 华南师范大学 | 一种中心连通子图的多源异构数据实体识别方法及系统 |
CN108009915A (zh) * | 2017-12-21 | 2018-05-08 | 连连银通电子支付有限公司 | 一种欺诈用户社区的标记方法及相关装置 |
CN109598563A (zh) * | 2019-01-24 | 2019-04-09 | 北京三快在线科技有限公司 | 刷单检测方法、装置、存储介质和电子设备 |
CN109815414A (zh) * | 2019-01-23 | 2019-05-28 | 四川易诚智讯科技有限公司 | 基于多层网络社团划分的社交网络人物关系分析方法 |
WO2019100967A1 (zh) * | 2017-11-23 | 2019-05-31 | 中国银联股份有限公司 | 用于识别异常交易社团的方法和装置 |
-
2020
- 2020-09-23 CN CN202011012724.XA patent/CN112052404B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060015588A1 (en) * | 2004-06-30 | 2006-01-19 | Microsoft Corporation | Partitioning social networks |
CN103530402A (zh) * | 2013-10-23 | 2014-01-22 | 北京航空航天大学 | 一种基于改进的PageRank的微博关键用户识别方法 |
CN105243593A (zh) * | 2015-08-04 | 2016-01-13 | 电子科技大学 | 基于混合测度的加权网络社区聚类方法 |
CN105631748A (zh) * | 2015-12-21 | 2016-06-01 | 西北工业大学 | 一种基于并行标签传播的异构网络社区发现方法 |
CN107180024A (zh) * | 2017-03-27 | 2017-09-19 | 华南师范大学 | 一种中心连通子图的多源异构数据实体识别方法及系统 |
WO2019100967A1 (zh) * | 2017-11-23 | 2019-05-31 | 中国银联股份有限公司 | 用于识别异常交易社团的方法和装置 |
CN108009915A (zh) * | 2017-12-21 | 2018-05-08 | 连连银通电子支付有限公司 | 一种欺诈用户社区的标记方法及相关装置 |
CN109815414A (zh) * | 2019-01-23 | 2019-05-28 | 四川易诚智讯科技有限公司 | 基于多层网络社团划分的社交网络人物关系分析方法 |
CN109598563A (zh) * | 2019-01-24 | 2019-04-09 | 北京三快在线科技有限公司 | 刷单检测方法、装置、存储介质和电子设备 |
Non-Patent Citations (4)
Title |
---|
田博等: "基于交互行为的在线社会网络社区发现方法研究", 《情报杂志》 * |
田博等: "基于交互行为的在线社会网络社区发现方法研究", 《情报杂志》, no. 11, 18 November 2016 (2016-11-18), pages 183 - 188 * |
程勇UESTC: ""社区发现算法之——Louvain"", 《CSDN》 * |
程勇UESTC: ""社区发现算法之——Louvain"", 《CSDN》, 25 October 2018 (2018-10-25), pages 1 - 2 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378798A (zh) * | 2019-06-03 | 2019-10-25 | 中移互联网有限公司 | 异构社交网络构建方法、群组推荐方法、装置及设备 |
CN113035366A (zh) * | 2021-03-24 | 2021-06-25 | 南方科技大学 | 密接人群识别方法、装置、电子设备及存储介质 |
CN113035366B (zh) * | 2021-03-24 | 2023-01-13 | 南方科技大学 | 密接人群识别方法、装置、电子设备及存储介质 |
CN113362205A (zh) * | 2021-06-18 | 2021-09-07 | 广州工商学院 | 一种师资队伍培养管理系统 |
CN113593606A (zh) * | 2021-09-30 | 2021-11-02 | 清华大学 | 音频识别方法和装置、计算机设备、计算机可读存储介质 |
CN114422321A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 构建组织协同网络的方法和装置 |
CN114422321B (zh) * | 2022-01-19 | 2024-03-22 | 北京百度网讯科技有限公司 | 构建组织协同网络的方法和装置 |
CN116150507A (zh) * | 2023-04-04 | 2023-05-23 | 湖南蚁坊软件股份有限公司 | 水军群体识别方法、装置、设备及介质 |
CN116150507B (zh) * | 2023-04-04 | 2023-06-30 | 湖南蚁坊软件股份有限公司 | 水军群体识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112052404B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052404B (zh) | 多源异构关系网络的群体发现方法、系统、设备及介质 | |
Bu et al. | A fast parallel modularity optimization algorithm (FPMQA) for community detection in online social network | |
Wei et al. | Identifying influential nodes based on network representation learning in complex networks | |
Zhou et al. | Multiobjective biogeography based optimization algorithm with decomposition for community detection in dynamic networks | |
CN104077723B (zh) | 一种社交网络推荐系统及方法 | |
CN107391542A (zh) | 一种基于文件知识图谱的开源软件社区专家推荐方法 | |
Zhu et al. | Portal nodes screening for large scale social networks | |
CN110555172A (zh) | 用户关系挖掘方法及装置、电子设备和存储介质 | |
CN114579584B (zh) | 数据表处理方法、装置、计算机设备和存储介质 | |
Ferreira et al. | Mining the low-level behaviour of agents in high-level business processes | |
CN113254669A (zh) | 基于知识图谱的配电网cim模型信息补全方法及系统 | |
Sepehr et al. | Inferring the structure of polytree networks of dynamic systems with hidden nodes | |
Jabbour et al. | Triangle-driven community detection in large graphs using propositional satisfiability | |
Meena et al. | A survey on community detection algorithm and its applications | |
Caschera et al. | MONDE: a method for predicting social network dynamics and evolution | |
Dulhare et al. | An efficient hybrid clustering to predict the risk of customer churn | |
binti Oseman et al. | Data mining in churn analysis model for telecommunication industry | |
Ma et al. | Fuzzy nodes recognition based on spectral clustering in complex networks | |
Tang et al. | $\mathcal {K} $-Lowest-Influence Overlapping Nodes Based Community Detection in Complex Networks | |
CN103051476B (zh) | 基于拓扑分析的网络社区发现方法 | |
Qi et al. | Micro-blog user community discovery using generalized SimRank edge weighting method | |
CN115455302A (zh) | 一种基于优化图注意网络的知识图谱推荐方法 | |
CN108011735B (zh) | 社区发现方法及装置 | |
Lai et al. | Learning overlapping communities in complex networks via non-negative matrix factorization | |
Long et al. | A unified community detection algorithm in large-scale complex networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |