CN111444454B - 一种基于谱方法的动态社团划分方法 - Google Patents

一种基于谱方法的动态社团划分方法 Download PDF

Info

Publication number
CN111444454B
CN111444454B CN202010214082.5A CN202010214082A CN111444454B CN 111444454 B CN111444454 B CN 111444454B CN 202010214082 A CN202010214082 A CN 202010214082A CN 111444454 B CN111444454 B CN 111444454B
Authority
CN
China
Prior art keywords
user
community
matrix
interest
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010214082.5A
Other languages
English (en)
Other versions
CN111444454A (zh
Inventor
张泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010214082.5A priority Critical patent/CN111444454B/zh
Publication of CN111444454A publication Critical patent/CN111444454A/zh
Application granted granted Critical
Publication of CN111444454B publication Critical patent/CN111444454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于社团划分技术领域,具体涉及一种基于谱方法的动态社团划分方法。本发明针对基于结构的划分方法和基于用户的划分方法的不足,提出了采用谱方法进行信息聚合后,再采用三支决策划分模式对社交网络中用户进行社团划分的方式。这样的思路保证了能够充分利用社交网络中结构信息和用户属性信息,能够在一定程度上发现潜在新社团群体,以此划分出更为合理的社团,从而提高社团划分精度。本发明充分利用社交网络中结构信息和用户属性信息,采用三支决策划分策略对用户进行归属划分,能够发掘社交网络中潜在新社团,以此提升社团划分准确度。

Description

一种基于谱方法的动态社团划分方法
技术领域
本发明属于社团划分技术领域,具体涉及一种基于谱方法的动态社团划分方法。
背景技术
随着互联网的发展,社交网络的规模越来越庞大。在社交网络中,用户相当于节点,用户与用户之间的关系相当于边,每个用户有着各自的属性。随着对网络的深入研究,人们发现许多实际网络中都存在着社团结构。近年来,人们发现社团划分不仅仅需要根据拓扑结构,同时也需要用户自身属性信息。实际上,有效利用拓扑结构信息和用户属性信息更有助于发现社团的存在规律。
目前,常用的传统的社团划分方法主要分为基于结构的划分方和基于用户的划分方法,其中应用较多的划分方法有基于节点相似的的划分法、基于节点动态连接度的社团划分方法、基于邻域结构洞的划分方法等。但是这些算法不能够同时利用社交网络中拓扑结构信息和用户信息,造成社团划分结果精度不高的技术问题。
但是绝大多数社团划分方法均采用二支决策划分策略,即对待划分用户做出非此即彼决定,并没有考虑到边缘用户单独成团的可能性。在实际决策中,采用三支决策划分策略更符合人类认知的决策模式,此策略对具有充分把握拒绝或者接受的用户能够有立即做出快速的判断;对于边缘用户不能立即作出决策,采用推迟决策方式。在划分策略上直接采用二支决策划分模式,会导致社交网络中潜在新社团无法被发现的技术问题。
发明内容
本发明的目的在于提供将社交网络中的结构信息和用户兴趣信息进行融合,采用三支决策划分策略,用以解决社团划分结果准确度差问题和不能发现潜在新社团问题的一种基于谱方法的动态社团划分方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:获取社交网络的网络拓补图G=(V,E,A),表示社交网络中用户的社交关系,并采用人工标注的方式对预设定K个社团标注种子用户;
所述的网络拓补图G=(V,E,A)中V代表用户节点集合,|V|=n表示图上共有n个节点,即用户数量;E代表边集合;A代表用户-用户邻接矩阵;Aij=1表示用户i与用户j互为好友且用户i与用户j的步长为1,Aij=0表示用户i与用户j非好友关系切用户i与用户j的步长为0;
所述的采用人工标注的方式对预设定K个社团标注种子用户具体为:每个社团中应至少设定一个种子用户,作为初始社团中心,并且在用户-用户邻接矩阵A中加入自环,计算公式为:A=A+I,其中I是与A同大小的单位矩阵;所述的社团中心表示为:
Figure BDA0002423807810000021
Figure BDA0002423807810000022
其中,Ck表示第k个社团的特征向量,即此社团的均值;
Figure BDA0002423807810000023
表示第k个社团成员第i个特征值的均值;w表示第k个社团成员数量;i代表此社团的第i个用户,i=1,2,3,…,w;
步骤2:获取社交网络中用户的兴趣标签,构成用户特征u={u1,u2,…,ui…,uM};将所有的用户兴趣特征构成用户-兴趣评分矩阵X,并对用户兴趣矩阵进行预处理;
所述的用户特征中u代表一个用户的兴趣特征向量,ui代表用户u对第i个兴趣特征的评分;M为一个用户兴趣特征的个数;所述的用户-兴趣评分矩阵X中Xij代表第i个用户对第j个兴趣的评分值,i=1,2,3,…,M;
步骤3:采用谱方法对社交网络中的用户节点进行H阶信息聚合,节点可以融合步长不超过H的节点信息,得到融合邻居信息的用户-兴趣矩阵,即用户特征矩阵;
步骤4:对用户特征矩阵使用三支决策动态阈值K-means聚类算法进行社团划分;用户与社团心中的距离采用的是余弦距离,用户与社团中心余弦距离表示为:
Figure BDA0002423807810000024
在三支动态阈值K-means聚类过程中引入一个决策阈值α,即社团中心的领域范围,利用K-means聚类算法对用户集进行聚类,并在算法执行的过程中采用余弦距离作为相似性评价指标,引入决策阈值α可以有效的将离群用户对象单独成团,并将其作为新的社团中心参与社团划分,具体步骤如下:
步骤4.1:计算剩余用户数据对象
Figure BDA0002423807810000025
到各社团中心Ck的余弦距离d(ui,Ck),并把他们归类到最近的簇Cj={ui|d(ui,Ck)≤d(ui,Cl),j!=l,,j!=l,0<l,j≤k};
步骤4.2:由函数
Figure BDA0002423807810000026
得出决策阈值α;
步骤4.3:遍历用户集U中所有对象
Figure BDA0002423807810000027
当(d(ui,Cl))<α,将ui归类到最近的簇中;当
Figure BDA0002423807810000028
时,令Ck+1={ui},更新社团中心点集C,即将ui当都作为一个新的社团中心并加入到已标记用户集UC中,社团数量更新为k`;
步骤4.4:重新计算每个社团中心中用户对象的均值,作为社团中心的新中心点;
步骤4.5:继续执行步骤4.1~4.4,依据目标函数
Figure BDA0002423807810000031
设置终止条件和设置最大迭代次数,避免陷入无限循环,输出二支划分结果集C`={C1,C2,…,Ck`};
步骤4.6:取所有类样本数量均值的
Figure BDA0002423807810000032
作为领域大小,由函数
Figure BDA0002423807810000033
得出q的预测值;
步骤4.7:遍历二支聚类结果集C`={C1,C2,…,Ck`}中所有类C`j,取
Figure BDA0002423807810000034
考虑ui的q邻域Neigq(ui),即距离该用户最近的q个数据点组成的集合;若
Figure BDA0002423807810000035
Figure BDA0002423807810000036
步骤4.8:对每一类C`j,取ui∈C`j,考虑ui的q邻域Neigq(ui);若
Figure BDA00024238078100000314
Figure BDA0002423807810000037
否则
Figure BDA0002423807810000038
步骤4.9:通过步骤4.7和步骤4.8得到
Figure BDA0002423807810000039
Figure BDA00024238078100000310
返回
Figure BDA00024238078100000311
Figure BDA00024238078100000312
步骤4.10:令
Figure BDA00024238078100000313
执行步骤4.1~步骤4.5,得到对边界外区域用户的二次聚类结果集CB={C`1,C`2,...C`k`};
步骤4.11:输出最终社团划分结果集C={CP,CB},最终结果集由CP和CB构成,结果集CP中包含了所有经过确定划分的核心区域用户对象,结果集CB包含了被划分至不确定性边界之外的用户,经过二次确定性划分处理的用户,由此得出最终社团划分结果集C。
本发明还可以包括:
所述的步骤2中需对用户-兴趣评分矩阵进行预处理,对缺失过多兴趣评分项的用户进行舍弃并将此用户从网络拓补图中舍弃,对其他缺失数据进行邻居用户的同兴趣评分均值补全,并且对用户-兴趣评分矩阵进行归一化,矩阵中每一行代表一个用户的兴趣特征向量。
所述的步骤3中,采用谱方法对社交网络中的用户节点信息聚合,信息聚合方程表示如下:
f(X,A)=σ(aggregate(A,X))
此公式表示一次信息传播过程,经过一次信息聚合,节点可以聚合邻居节点的属性特征,经过非线性激活函数σ(·)变换后,结果为新的用户特征矩阵;经过H次聚合后,用户可以融合步长不超过H的邻居节点的信息;根据六度分离理论和计算量的考虑,H的值不应该超过6;当H=0时,则此方式变为基于用户属性的社团划分方法;H值越大,节点更能吸收远距离邻居信息,但是会一定程度上忽视近距离邻居信息;
σ(·)为一个非线性函数,可以选择Relu,Tanh函数等,aggregate(·)为聚合函数,表示如下:
aggregate(A,X)=D-0.5AD-0.5X
其中,D是自环邻接矩阵A的度矩阵,其为一个对角矩阵,对角线上元素为:
Figure BDA0002423807810000041
Di,i表示度矩阵对角线上元素,
Figure BDA0002423807810000042
表示A上第i行的元素和,N为A的行数,i=1,2,3,…,N,j=1,2,3,…,N,X为用户特征矩阵;D-0.5表示度矩阵D的每个元素的-0.5次幂,在信息传播的过程中,为了保持聚合特征表示与输入特征保持相同的尺度,故而度矩阵D的每个元素需为-0.5次幂;在计算特征时,在邻接矩阵A左右两侧乘D-0.5
本发明的有益效果在于:
本发明针对基于结构的划分方法和基于用户的划分方法的不足,提出了采用谱方法进行信息聚合后,再采用三支决策划分模式对社交网络中用户进行社团划分的方式。这样的思路保证了能够充分利用社交网络中结构信息和用户属性信息,能够在一定程度上发现潜在新社团群体,以此划分出更为合理的社团,从而提高社团划分精度。
附图说明
图1为本发明提供的一种基于谱方法的动态社团划分方法的流程示意图。
图2为社交网络划分拓扑图示例图。
图3为在社交网络拓扑图中使用谱方法进行一阶信息聚合过程实例图。
图4为在社交网络拓扑图中使用谱方法进行二阶信息聚合过程实例图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明提供一种基于谱方法的动态社团划分方法,方法包括:1)、获取待划分社交网络的拓补结构和节点用户的兴趣评分,分别为用户-用户关系矩阵与用户-兴趣矩阵;2)、采用谱方法对社交网络中的节点进行H阶信息聚合得到用户最终特征矩阵;3)采用基于三支决策划分策略的K-means算法对社团进行聚类划分,最终得到社团划分结果集。本方法充分利用社交网络中结构信息和用户属性信息,采用三支决策划分策略对用户进行归属划分,能够发掘社交网络中潜在新社团,以此提升社团划分准确度。
图3为在社交网络拓扑图中使用谱方法进行一阶信息聚合过程实例图;一阶信息聚合过程中,节点0吸收步长为1邻居节点1、5和17的信息。图4为在社交网络拓扑图中使用谱方法进行二阶信息聚合过程实例图;二阶信息聚合过程中,节点0完成一阶信息聚合后,进行二阶信息聚合能够吸收步长为2的邻居节点2、4、6、8、12和16的信息。
基于社交网络和三支决策的社团划分方法,主要流程为基于谱方法的信息聚合过程,基于三支决策划分模式的K-means算法聚类过程,以此进行社交网络中社团的划分。本方法主要步骤如下:
步骤S1、获取社交网络的网络拓补图G=(V,E,A),表示社交网络中用户的社交关系。其中V代表用户节点集合,|V|=n表示图上共有n个节点,即用户数量,E代表边集合,定义节点之间的链接,即用户与用户之间的直接关系,A代表用户-用户邻接矩阵,Ai,j=1表示用户i与用户j互为好友且用户i与用户j的步长为1,Ai,j=0表示用户i与用户j非好友关系切用户i与用户j的步长为0,并采用人工标注的方式对预设定K个社团标注种子用户;
步骤S2、获取社交网络中用户的兴趣标签,构成用户特征u={u1,u2,…,ui…,uM},其中u代表一个用户的兴趣特征向量,ui代表用户u对第i个兴趣的评分,M为兴趣的个数。将所有的用户兴趣特征构成用户-兴趣评分矩阵X,Xi,j代表第i个用户对第j个兴趣的评分值,i=1,2,3,…,M,并对用户兴趣矩阵进行预处理;
步骤S3、采用谱方法对社交网络中的用户节点进行H阶信息聚合,节点可以融合步长不超过H的节点信息,最终得到融合邻居信息的用户-兴趣矩阵,即用户特征矩阵;
步骤S4、采用步骤S3中生成的用户特征矩阵,使用三支决策动态阈值K-means聚类算法进行社团划分。该算法中划分用户策略采用三支决策划分模式,通过设定决策阈值α,即社团中心的领域范围,可以实现对社团数量的动态调整,利用社团中心的领域范围对不确定的用户进行二次划分(延迟决策),算法采用K-means算法为主体,在算法执行的过程中采用余弦距离作为用户与社团中心距离评价指标;
步骤S5、获取社团划分结果集。
在步骤S1中采用人工标注的方式对预设定K个社团,每个社团中应至少设定一个种子用户,作为初始社团中心,社团中心表示为:
Figure BDA0002423807810000051
其中Ck表示第k个社团的特征向量,即此社团的均值(中心),
Figure BDA0002423807810000052
表示第k个社团成员第i个特征值的均值,w表示第k个社团成员数量,i代表此社团的第i个用户,i=1,2,3,…,w,并且在用户-用户邻接矩阵A中加入自环,计算公式为:A=A+I,其中I是与A同大小的单位矩阵。。
在步骤S2中需对用户-兴趣评分矩阵进行预处理,对缺失过多兴趣评分项的用户进行舍弃并将此用户从网络拓补图中舍弃,对其他缺失数据进行邻居用户的同兴趣评分均值补全,并且对用户-兴趣评分矩阵进行归一化,矩阵中每一行代表一个用户的兴趣特征向量。
在步骤S3中,采用谱方法对社交网络中的用户节点信息聚合,信息聚合方程表示如下:
f(X,A)=σ(aggregate(A,X))
此公式表示一次信息传播过程,经过一次信息聚合,节点可以聚合邻居节点的属性特征,经过非线性激活函数σ(·)变换后,结果为新的用户特征矩阵。经过H次聚合后,用户可以融合步长不超过H的邻居节点的信息。根据六度分离理论和计算量的考虑,H的值不应该超过6。当H=0时,则此方式变为基于用户属性的社团划分方法;H值越大,节点更能吸收远距离邻居信息,但是会一定程度上忽视近距离邻居信息。
σ(·)为一个非线性函数,可以选择Relu,Tanh函数等,aggregate(·)为聚合函数,表示如下:
aggregate(A,X)=D-0.5AD-0.5X
其中D是自环邻接矩阵A的度矩阵,其为一个对角矩阵,对角线上元素为:
Figure BDA0002423807810000061
Di,i表示度矩阵对角线上元素,
Figure BDA0002423807810000062
表示A上第i行的元素和,N为A的行数,i=1,2,3,…,N,j=1,2,3,…,N,X为用户特征矩阵。
其中D-0.5表示度矩阵D的每个元素的-0.5次幂,在信息传播的过程中,为了保持聚合特征表示与输入特征保持相同的尺度,故而度矩阵D的每个元素需为-0.5次幂。在计算特征时,在邻接矩阵A左右两侧乘D-0.5,此方法对低度邻居给予较高权,大度邻居以较低权重,在低度邻居比大度邻居能提供更多信息时,此方法更为合理。
在步骤S4中,使用三支动态阈值K-means算法进行社团划分,用户与社团心中的距离采用的是余弦距离,用户与社团中心余弦距离表示为:
Figure BDA0002423807810000063
用户向量为:u={u1,u2,…,uM},其中u代表一个用户的特征向量,ui代表用户u对第i个特征的评分,M为一个用户特征数,i=1,2,3,…,M,其中Ck代表第k个社团中心。
在三支动态阈值K-means聚类过程中引入一个决策阈值α,即社团中心的领域范围,利用K-means聚类算法对用户集进行聚类,并在算法执行的过程中采用余弦距离作为相似性评价指标,引入决策阈值α可以有效的将离群用户对象单独成团,并将其作为新的社团中心参与社团划分,具体步骤如下:
(1)使用已标记用户集UC计算个社团中心集
Figure BDA0002423807810000064
M为单个用户的特征数,w为第k个社团的成员数量;
(2)计算剩余用户数据对象
Figure BDA0002423807810000071
到个社团中心Ck的余弦距离d(ui,Ck),并把他们归类到最近的簇Cj={ui|d(ui,Ck)≤d(ui,Cl),j!=l,,j!=l,0<l,j≤k};
(3)由函数
Figure BDA0002423807810000072
得出决策阈值α;
(4)遍历用户集U中所有对象
Figure BDA0002423807810000073
当(d(ui,Cl))<α,将ui归类到最近的簇中,当
Figure BDA0002423807810000074
时,令Ck+1={ui},更新社团中心点集C,即将ui当都作为一个新的社团中心并加入到已标记用户集UC中,社团数量更新为k`;
(5)重新计算每个社团中心中用户对象的均值,作为社团中心的新中心点;
(6)继续执行步骤(1)~(5),依据目标函数
Figure BDA0002423807810000075
设置终止条件和设置最大迭代次数,避免陷入无限循环,输出二支划分结果集C`={C1,C2,…,Ck`};
(7)取所有类样本数量均值的
Figure BDA0002423807810000076
作为领域大小,由函数
Figure BDA0002423807810000077
得出q的预测值;
(8)遍历二支聚类结果集C`={C1,C2,…,Ck`}中所有类C`j,取
Figure BDA0002423807810000078
考虑ui的q邻域Neigq(ui),即距离该用户最近的q个数据点组成的集合,若
Figure BDA0002423807810000079
Figure BDA00024238078100000710
(9)对每一类C`j,取ui∈C`j,考虑ui的q邻域Neigq(ui),若
Figure BDA00024238078100000718
Figure BDA00024238078100000711
否则
Figure BDA00024238078100000712
(10)通过步骤(8)和步骤(9)得到
Figure BDA00024238078100000713
Figure BDA00024238078100000714
返回
Figure BDA00024238078100000715
Figure BDA00024238078100000716
(11)令
Figure BDA00024238078100000717
执行步骤(1)~(6),得到对边界外区域用户的二次聚类结果集CB={C`1,C`2,…,C`k`};
(12)输出最终社团划分结果集C={CP,CB},最终结果集由CP和CB构成,结果集CP中包含了所有经过确定划分的核心区域用户对象,结果集CB包含了被划分至不确定性边界之外的用户,经过二次确定性划分处理的用户,由此得出最终社团划分结果集C。
本发明对于基于结构的划分方法和基于用户的划分方法的不足,提出了采用谱方法进行信息聚合后,再采用三支决策划分模式对社交网络中用户进行社团划分的方式。这样的思路保证了能够充分利用社交网络中结构信息和用户属性信息,能够在一定程度上发现潜在新社团群体,以此划分出更为合理的社团,从而提高社团划分精度。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于谱方法的动态社团划分方法,其特征在于,包括以下步骤:
步骤1:获取社交网络的网络拓补图G=(V,E,A),表示社交网络中用户的社交关系,并采用人工标注的方式对预设定K个社团标注种子用户;
所述的网络拓补图G=(V,E,A)中V代表用户节点集合,|V|=n表示图上共有n个节点,即用户数量;E代表边集合;A代表用户-用户邻接矩阵;Aij=1表示用户i与用户j互为好友且用户i与用户j的步长为1,Aij=0表示用户i与用户j非好友关系切用户i与用户j的步长为0;
所述的采用人工标注的方式对预设定K个社团标注种子用户具体为:每个社团中应至少设定一个种子用户,作为初始社团中心,并且在用户-用户邻接矩阵A中加入自环,计算公式为:A=A+I,其中I是与A同大小的单位矩阵;所述的社团中心表示为:
Figure FDA0004094948900000011
Figure FDA0004094948900000012
其中,Ck表示第k个社团的特征向量,即此社团的均值;
Figure FDA0004094948900000013
表示第k个社团成员第i个特征值的均值;w表示第k个社团成员数量;i代表此社团的第i个用户,i=1,2,3,…,w;
步骤2:获取社交网络中用户的兴趣标签,构成用户特征u={u1,u2,…,ui…,uM};将所有的用户兴趣特征构成用户-兴趣评分矩阵X,并对用户兴趣矩阵进行预处理;
所述的用户特征中u代表一个用户的兴趣特征向量,ui代表用户u对第i个兴趣特征的评分;M为一个用户兴趣特征的个数;所述的用户-兴趣评分矩阵X中Xij代表第i个用户对第j个兴趣的评分值,i=1,2,3,…,M;
步骤3:采用谱方法对社交网络中的用户节点进行H阶信息聚合,节点可以融合步长不超过H的节点信息,得到融合邻居信息的用户-兴趣矩阵,即用户特征矩阵;
信息聚合方程为:
f(X,A)=σ(aggregate(A,X))
此公式表示一次信息传播过程,经过一次信息聚合,节点聚合邻居节点的属性特征,经过非线性激活函数σ(·)变换后,结果为新的用户特征矩阵;经过H次聚合后,用户融合步长不超过H的邻居节点的信息,H的值不超过6;aggregate(·)为聚合函数,表示如下:
aggregate(A,X)=D-0.5AD-0.5X
其中,D是自环邻接矩阵A的度矩阵,其为一个对角矩阵,对角线上元素为
Figure FDA0004094948900000014
Di,i表示度矩阵对角线上元素,
Figure FDA0004094948900000021
表示A上第i行的元素和,N为A的行数,i=1,2,3,…,N,j=1,2,3,…,N,X为用户特征矩阵;D-0.5表示度矩阵D的每个元素的-0.5次幂;
步骤4:对用户特征矩阵使用三支决策动态阈值K-means聚类算法进行社团划分;用户与社团心中的距离采用的是余弦距离,用户与社团中心余弦距离表示为:
Figure FDA0004094948900000022
在三支动态阈值K-means聚类过程中引入一个决策阈值α,即社团中心的领域范围,利用K-means聚类算法对用户集进行聚类,并在算法执行的过程中采用余弦距离作为相似性评价指标,引入决策阈值α可以有效的将离群用户对象单独成团,并将其作为新的社团中心参与社团划分,具体步骤如下:
步骤4.1:计算剩余用户数据对象
Figure FDA0004094948900000023
到各社团中心Ck的余弦距离d(ui,Ck),并把他们归类到最近的簇Cj={ui|d(ui,Ck)≤d(ui,Cl),j!=l,0<l,j≤k};
步骤4.2:由函数
Figure FDA0004094948900000024
得出决策阈值α;
步骤4.3:遍历用户集U中所有对象
Figure FDA0004094948900000025
Figure FDA0004094948900000026
将ui归类到最近的簇中;当
Figure FDA0004094948900000027
时,令Ck+1={ui},更新社团中心点集C,即将ui当都作为一个新的社团中心并加入到已标记用户集UC中,社团数量更新为k`;
步骤4.4:重新计算每个社团中心中用户对象的均值,作为社团中心的新中心点;
步骤4.5:继续执行步骤4.1~4.4,依据目标函数
Figure FDA0004094948900000028
设置终止条件和设置最大迭代次数,避免陷入无限循环,输出二支划分结果集C`={C1,C2,…,Ck`};
步骤4.6:取所有类样本数量均值的
Figure FDA0004094948900000029
作为领域大小,由函数
Figure FDA00040949489000000210
得出q的预测值;
步骤4.7:遍历二支聚类结果集C`={C1,C2,…,Ck`}中所有类C`j,取
Figure FDA00040949489000000211
考虑ui的q邻域Neigq(ui),即距离该用户最近的q个数据点组成的集合;若
Figure FDA00040949489000000212
Figure FDA00040949489000000216
步骤4.8:对每一类C`j,取ui∈C`j,考虑ui的q邻域Neigq(ui);若
Figure FDA00040949489000000213
Figure FDA00040949489000000217
否则
Figure FDA00040949489000000218
步骤4.9:通过步骤4.7和步骤4.8得到
Figure FDA00040949489000000219
Figure FDA00040949489000000220
返回
Figure FDA00040949489000000214
Figure FDA00040949489000000215
步骤4.10:令
Figure FDA0004094948900000031
执行步骤4.1~步骤4.5,得到对边界外区域用户的二次聚类结果集CB={C`1,C`2,…,C`k`};
步骤4.11:输出最终社团划分结果集C={CP,CB},最终结果集由CP和CB构成,结果集CP中包含了所有经过确定划分的核心区域用户对象,结果集CB包含了被划分至不确定性边界之外的用户,经过二次确定性划分处理的用户,由此得出最终社团划分结果集C。
2.根据权利要求1所述的一种基于谱方法的动态社团划分方法,其特征在于:所述的步骤2中需对用户-兴趣评分矩阵进行预处理,对缺失过多兴趣评分项的用户进行舍弃并将此用户从网络拓补图中舍弃,对其他缺失数据进行邻居用户的同兴趣评分均值补全,并且对用户-兴趣评分矩阵进行归一化,矩阵中每一行代表一个用户的兴趣特征向量。
CN202010214082.5A 2020-03-24 2020-03-24 一种基于谱方法的动态社团划分方法 Active CN111444454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010214082.5A CN111444454B (zh) 2020-03-24 2020-03-24 一种基于谱方法的动态社团划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010214082.5A CN111444454B (zh) 2020-03-24 2020-03-24 一种基于谱方法的动态社团划分方法

Publications (2)

Publication Number Publication Date
CN111444454A CN111444454A (zh) 2020-07-24
CN111444454B true CN111444454B (zh) 2023-05-05

Family

ID=71648996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010214082.5A Active CN111444454B (zh) 2020-03-24 2020-03-24 一种基于谱方法的动态社团划分方法

Country Status (1)

Country Link
CN (1) CN111444454B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407784B (zh) * 2021-05-28 2022-08-12 桂林电子科技大学 一种基于社交网络的社团划分方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574541A (zh) * 2015-12-14 2016-05-11 天云融创数据科技(北京)有限公司 一种基于紧密度排序的网络社区发现方法
CN106709800A (zh) * 2016-12-06 2017-05-24 中国银联股份有限公司 一种基于特征匹配网络的社团划分方法和装置
CN109242713A (zh) * 2018-09-07 2019-01-18 安徽大学 基于随机游走边界域处理的三支决策社团划分方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574541A (zh) * 2015-12-14 2016-05-11 天云融创数据科技(北京)有限公司 一种基于紧密度排序的网络社区发现方法
CN106709800A (zh) * 2016-12-06 2017-05-24 中国银联股份有限公司 一种基于特征匹配网络的社团划分方法和装置
CN109242713A (zh) * 2018-09-07 2019-01-18 安徽大学 基于随机游走边界域处理的三支决策社团划分方法及装置

Also Published As

Publication number Publication date
CN111444454A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN104217015B (zh) 基于互为共享最近邻的层次聚类方法
CN108280472A (zh) 一种基于局部密度和聚类中心优化的密度峰聚类方法
CN108734223A (zh) 基于社区划分的社交网络好友推荐方法
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
CN103888541A (zh) 一种融合拓扑势和谱聚类的社区发现方法及系统
CN112311608B (zh) 一种多层异质网络空间节点表征方法
CN111985623A (zh) 基于最大化互信息和图神经网络的属性图群组发现方法
CN111444454B (zh) 一种基于谱方法的动态社团划分方法
CN108959652A (zh) 基于密度峰值与社区归属度的重叠社区发现方法
CN108830307A (zh) 一种k-核心覆盖的社团发现方法
Behera et al. Spanning tree based community detection using min-max modularity
CN105159918A (zh) 一种基于信任关联度的微博网络社区发现方法
CN106911512B (zh) 在可交换图中基于博弈的链接预测方法及系统
CN113408090B (zh) 一种基于符号网络的节点关系获取方法及存储介质
CN114529096A (zh) 基于三元闭包图嵌入的社交网络链路预测方法及系统
CN109150974B (zh) 一种基于邻居迭代相似度的用户身份链接方法
CN107231252B (zh) 一种基于贝叶斯估计和种子节点邻居集合的链路预测方法
Boubaker et al. Improved Overlapping Community Detection in Networks based on Maximal Cliques Enumeration
Ghaemmaghami et al. SOMSN: an effective self organizing map for clustering of social networks
Shen et al. An ensemble method for iot device classification
Simcharoen et al. Modeling a hierarchical abstraction process on top of co-occurrence graphs
Liu et al. Trend prediction of hot words in weibo based on fuzzy time series
Lin A new distance measure for MCDM problem using TOPSIS method
Yu-ling Research on Affinity Propagation algorithm based on common neighbors
CN116610820B (zh) 一种知识图谱实体对齐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant