CN109635183B - 一种基于社区的合作者推荐方法 - Google Patents

一种基于社区的合作者推荐方法 Download PDF

Info

Publication number
CN109635183B
CN109635183B CN201811294216.8A CN201811294216A CN109635183B CN 109635183 B CN109635183 B CN 109635183B CN 201811294216 A CN201811294216 A CN 201811294216A CN 109635183 B CN109635183 B CN 109635183B
Authority
CN
China
Prior art keywords
author
node
label
short text
iteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811294216.8A
Other languages
English (en)
Other versions
CN109635183A (zh
Inventor
燕雪峰
刘天琪
孙维松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201811294216.8A priority Critical patent/CN109635183B/zh
Publication of CN109635183A publication Critical patent/CN109635183A/zh
Application granted granted Critical
Publication of CN109635183B publication Critical patent/CN109635183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社区的合作者推荐方法,首先根据论文信息构建合作网络,在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播完成网络中作者社区划分;再利用作者权重值的占比与处理后的词对,建立马尔科夫链,根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型,根据社区划分结果与作者随时间演化的兴趣模型,找到合适的作者推荐给合作者。本发明降低了社区划分结果不稳定性,提升了社区划分结果模块度和标准互信息的精确度,本发明建立的随时间演化的兴趣模型具有强壮性和有效性的特点,最后利用随时间演化的兴趣模型计算KL距离降低了推荐算法的计算量,增加了准确率,召回率。

Description

一种基于社区的合作者推荐方法
技术领域
本发明属于社会网络分析技术领域,尤其涉及一种基于社区的合作者推荐方法。
背景技术
知识经济时代,知识已成为经济增长、社会发展以及组织成长的关键性资源,学习型组织对知识的依赖性逐渐增加。科研组织是知识经济时代知识创新的主体之一,科研合作对于知识创新的发展愈发重要。科研合作能够带来更好的知识共享,作者之间不仅能够将自身的知识、科研的经验和拥有的资源进行共享,还有可能为作者带来更多的灵感和突破,取得更大的科研成果。而科研合作面临一个重要的问题是科研人员找不到合适的合作对象。
半同步标签传播算法(Semi-synchronous Label PropagationAlgorithm,sLPA)一定程度上提升了社区划分的质量,但是在标签传播过程中,节点更新标签的选择随机导致算法的不稳定性甚至出现逆流现象,所以节点标签的选择是影响着社区划分结果的稳定和质量的重要因素。ATF(AuthorTopic-Flow)模型通过文章的摘要信息可以得到作者研究内容演化趋势,第一没有考虑文本长短的问题,针对文本集摘要信息的短文本特性,特征稀疏会导致效果不佳;第二将所有作者平等对待,会导致作者发的论文数量越多,能力越强,只考虑数量,却忽略了作者所发文章的质量。
发明内容
发明目的:为克服上述社区发现的随机性以及短文本特征稀疏,只考虑作者的论文的数量不考虑质量的问题,本发明提供了一种基于社区的合作者推荐方法。
技术方案:本发明提供了一种基于社区的合作者推荐方法,具体包括如下步骤:
步骤1:获取作者发表论文的数据,包括摘要,作者,时间;并对数据进行预处理,根据预处理的数据按照作者的合作关系,以每个节点代表作者,节点间的边代表两个作者存在合作关系,建立合作网络,如果该网络中两节点不是相连的表明作者之间没有合作;
步骤2:计算合作网络中相邻节点的n阶环,并通过负指数分布模型与n阶环的个数总和得到基于场所效应的边影响力,在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播;迭代更新传播停止后完成网络中作者社区划分;
步骤3:再次处理步骤1中预处理的数据得到只有摘要的短文本,去除短文本中无用的信息;根据作者学术影响力得到作者的权重值,并对短文本进行词对化处理,利用作者权重值的占比与处理后的词对建立马尔科夫链,根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型;
步骤4:根据步骤2得到的社区划分结果,得到合作者所在的社区和该社区内与合作者没有合作过的作者,根据步骤3得到的该社区内没有与合作者合作过的作者随时间演化的兴趣模型,并计算KL(Kullback–Leibler divergence,相对熵)距离,将KL由小到大排序,将排名前X位作者推荐给合作者,5≤X≤15。
进一步的,所述对数据预处理具体为:利用网络爬虫得到作者发表的论文数据,包括摘要,作者,时间;并去除引用次数为0的论文。
进一步的,所述步骤2具体包括如下步骤:
步骤2.1:对已知的网络图G,G={V,E}建立数据结构邻接表并存储,V为网络中节点集合,E为网络中边的集合,对网络图G中NG个节点分别赋值唯一的标签lV,lV=(0,1,2,…,NG-1).id;对NG个节点进行着色,相邻节点颜色不同,总共需要的颜色数目为ColorNum;所述NG为图G的节点个数;
步骤2.2:根据三度影响力原则,考虑节点v1的三度以内节点,从节点v1出发,设节点v1是待更新节点,计算经过节点v1和节点u的环路能够构成的n阶环,以及n阶环的个数总和
Figure GDA0002957691310000021
n阶环的n表示环数;3≤n≤6;节点u是节点v1的一个邻接点,u∈N(v1),N(v1)为节点v1的所有邻接节点的集合;
步骤2.3:根据三度影响力原则与n阶环的个数总和,得出基于场所效应的边影响力Inf(u,v1),具体计算方法如下:
Figure GDA0002957691310000022
其中,R为负指数分布模型,
Figure GDA0002957691310000023
其中
Figure GDA0002957691310000024
Figure GDA0002957691310000025
为系数;
在网络图中建立相关点a1、a2、a3、a4
Figure GDA0002957691310000031
其中
Figure GDA0002957691310000032
Figure GDA0002957691310000033
是网络图G的平均度,EG是网络图G的边的数量;
对a1、a2、a3、a4得到的散点图进行最小二乘法计算后得到的值为模型R的最优的值;
步骤2.4:在半同步更新的基础上结合基于场所效应的边影响力决定标签的迭代更新传播;
步骤2.5:迭代更新传播终止后,将相等的标签划分到同一个社区,标签种类的个数为网络中社区的个数。
进一步的,上述步骤2.4具体包括如下步骤:
步骤2.4.1:根据步骤2.1的节点着色情况,将颜色排序随机化,随机化后的颜色排序为每次迭代过程中颜色更新的顺序;
步骤2.4.2:每一轮迭代过程中不相邻的相同颜色的节点同步更新,相邻的不同颜色的节点异步更新;
其中同步更新的节点Q在t次迭代传播的过程中,它的标签lQ(t)是由它的相邻节点τ在t-1次迭代后的标签决定;即:
lQ(t)=f(lτ1(t-1),lτ2(t-1),…,lτk(t-1))
k是节点Q的邻接节点的个数,f()函数是出现频数最高的值,lτk(t-1))为第t次迭代中第k个相邻节点的标签;
异步更新策略在标签迭代传播的过程中,在t次迭代更新节点Q1的标签
Figure GDA0002957691310000034
时,根据相邻节点中t次迭代已经更新过的节点
Figure GDA0002957691310000035
的标签
Figure GDA0002957691310000036
和t次迭代还没有进行更新的节点ω的t-1次迭代时的标签共同决定,即:
Figure GDA0002957691310000037
其中m为节点
Figure GDA0002957691310000041
的个数,
Figure GDA0002957691310000042
为第t次迭代中第m个更新过的节点的标签,k1为节点Q1的邻接节点的总个数,节点ω的个数为m1,m1+m=k1
Figure GDA0002957691310000043
次迭代中还没有更新的第m1个节点的t-1次迭代时的标签;
在上述标签迭代更新传播的过程中同时考虑边的影响力对节点标签传播的影响,具体计算公式如下:
Figure GDA0002957691310000044
其中
Figure GDA0002957691310000045
为节点v1的标签,l为相邻节点u所有标签的集合,lu为相邻节点u的标签;
步骤2.4.3:所有节点完成第t1次迭代之后,将t1次迭代后节点的标签与t1-1次迭代后节点的标签进行对比,若所有节点的t1次迭代的标签与t1-1次迭代的标签相等,则迭代终止,记迭代次数为t1;若存在节点t1次迭代的标签与t1-1次迭代的标签不相等,则表示迭代效果没有达到稳定,继续执行步骤2.4.2迭代第t1+1次。
进一步的,所述步骤3中除去短文本中无用的信息,具体的操作为:根据处理后得到只包括摘要的短文本,去除停用词,数字,标点符号及频次少于3次的单词后进行统计并建立字典;
进一步的,所述步骤3中根据作者学术影响力得到作者的权重值,具体方法为:利用作者过去
Figure GDA0002957691310000048
年时间内发表的论文数量p、论文被引用的次数c评估个人的科研成果,得到该作者学术影响力h,具体公式如下:
Figure GDA0002957691310000046
对学术影响力进行归一化,得到第σ个作者的权重值πσ
Figure GDA0002957691310000047
hσ为第σ个作者的学术影响力;A为所有作者的个数;
进一步的,所述步骤3中根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型具体包括如下步骤:
步骤3.1:建立马尔科夫链的初始序列:对每篇短文本,随机为每个词对b,分配一个主题z,对所有作者的学术影响力进行归一化之后得到总权重值,根据每个作者的权重值比例分配作者,并将每篇短文本的时间分配给词对b;
步骤3.2:利用吉布斯采样算法,根据上一次词对b的条件分布概率得出马尔科夫链的下一状态,所述上一次词对b的条件分布概率计算方法为:
Figure GDA0002957691310000051
其中,z为短文本d中第ε个词对对应的主题,σ为短文本d中第ε个词对对应的作者;
Figure GDA0002957691310000052
表短文本d中除z之外的所有主题分布,b为短文本d中第ε个词对,
Figure GDA0002957691310000053
表示短文本d中除b词对之外的所有词对;yd为短文本d的发表年份,
Figure GDA0002957691310000059
为第σ个作者的短文本d中的词对b在yd年内被赋予主题z的次数;;
Figure GDA0002957691310000054
词对b中单词wi被分配给主题z的次数,
Figure GDA0002957691310000055
词对b中单词wj被分配给主题z的次数,M为词汇表中词对的个数,nw|z是短文本d中某一单词w被分配给主题z的次数,
Figure GDA00029576913100000510
是短文本d中某一单词w在yd年中分配给第σ个作者的次数,α,β,γ为狄利克雷参数;在此概率公式中|左侧的条件为当短文本d中第ε个词对应的主题为z时且短文本d中第ε个词对对应的作者为σ时;|右侧的条件为条件1:在短文本d中除z之外的所有主题分布和在短文本d中除b词对之外的所有词对;条件2:当短文本d中第ε个词对为b时,条件3:在短文本d的发表年内,条件1~3为并的关系;
步骤3.3:将步骤3.2过程循环迭代ζ次计算,ζ的次数由具体的情况决定,获得马尔科夫链平稳分布,记下每个词对的主题的当前值,估算得到的θ,Φ,ψ,为作者随时间演化的兴趣模型;
Figure GDA0002957691310000056
Figure GDA0002957691310000057
Figure GDA0002957691310000058
其中Φ是主题-词分布;θ为作者时间-主题分布;ψ为作者-时间分布;nzσ|y为第y年该第σ个作者所有短文本中词对b被赋予主题z的次数;nσ|y是单词W1在y年中分配给第σ个作者的次数;Y是过去
Figure GDA0002957691310000061
年的时间跨度的个数;y是
Figure GDA0002957691310000062
其中一个年度;T为主题个数。
有益效果:本发明的社区划分解决了全局拓扑结构的复杂性和只考虑局部节点的局限性的问题,同时在标签传播过程中降低了社区划分结果不稳定性,提升了社区划分结果模块度和标准互信息的精确度,本发明建立的随时间演化的兴趣模型具有强壮性和有效性的特点,最后利用随时间演化的兴趣模型计算KL距离降低了推荐算法的计算量,增加了准确率,召回率。
附图说明
图1为基于社区的合作者推荐方法的流程图;
图2为n阶环环路示意图;
图3为基于场所效应的半同步标签传播社区发现方法的流程图;
图4为基于学术影响力的短文本作者兴趣演化方法的文本生成;
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本发明提供了一种基于社区的合作者推荐方法,具体包括如下步骤:
步骤1:获取作者发表论文的数据,包括摘要,作者,时间;并对数据进行预处理,根据预处理的数据建立作者的合作网络;按照作者的合作关系,以每个节点代表作者,节点间的边代表两个作者存在合作关系,建立合作网络,如果两节点不是相连的表明作者之间没有合作。
步骤2:计算合作网络中相邻节点的n阶环,并通过负指数分布模型与n阶环的个数总和得到基于场所效应的边影响力,在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播;迭代更新传播停止后完成网络中作者社区划分;
步骤3:再次处理步骤1中预处理的数据得到只有摘要的短文本,去除短文本中无用的信息;并对短文本进行词对化处理,利用作者权重值的占比与处理后的词对建立马尔科夫链,根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型;
步骤4:根据步骤2得到的社区划分结果,得到合作者所在的社区和该社区内与合作者没有合作过的作者,根据步骤3得到的该社区内没有与合作者合作过的作者随时间演化的兴趣模型,并计算KL距离,将KL由小到大排序,将排名前X位作者推荐给合作者,5≤X≤15,本实施例取10。
所述步骤1具体为:利用网络爬虫得到作者发表的论文数据,包括摘要,作者,时间;并去除引用次数为0的论文。
如图2所示,所述步骤2具体包括如下步骤:
步骤2.1:对已知的网络图G,G={V,E}建立数据结构邻接表并存储,V为网络中节点集合,E为网络中边的集合,对网络图G中NG个节点分别赋值唯一的标签lV,lV=(0,1,2,…,NG-1).id;对NG个节点进行着色,相邻节点颜色不同,总共需要的颜色数目为ColorNum;所述NG为图G的节点个数;
步骤2.2:根据三度影响力原则,考虑节点v1的三度以内节点,从节点v1出发,设节点v1是待更新节点,计算经过节点v1和节点u的环路能够构成的n阶环,以及n阶环的个数总和
Figure GDA0002957691310000071
n阶环的n表示环数;3≤n≤6;节点u是节点v1的一个邻接点,u∈N(v1),N(v1)为节点v1的所有邻接节点的集合,
图3为经过节点v1和节点u能够构共同的n阶环,(a)表示以节点v1为起点,以邻接节点u为环路的第二个点,存在能够包含v1和u的三阶环,这个环中有两个一度影响力节点,(b)、(c)、(d)分别为四阶,五阶,六阶环,其中(d)中含有两个一度影响力节点,两个二度影响力节点以及一个三度影响力节点;对于每个节点v1计算与它的每一个邻接节点u共同构成的n(3≤n≤6)阶环的个数。其中
Figure GDA0002957691310000072
表示v1与u可以共同构成的三阶环的个数,同理
Figure GDA0002957691310000073
为四阶环的个数,
Figure GDA0002957691310000074
为五阶环的个数,
Figure GDA0002957691310000075
为六阶环的个数。
步骤2.3:根据三度影响力原则与n阶环的个数总和,得出基于场所效应的边影响力Inf(u,v1),具体计算方法如下:
Figure GDA0002957691310000076
其中,R为负指数分布模型,
Figure GDA0002957691310000077
其中
Figure GDA0002957691310000078
Figure GDA0002957691310000079
为系数;
在网络图中建立相关点a1、a2、a3、a4
Figure GDA0002957691310000081
其中
Figure GDA0002957691310000082
Figure GDA0002957691310000083
是网络图G的平均度,EG是网络图G的边的数量;
对a1、a2、a3、a4得到的散点图进行最小二乘法计算后得到的值为模型R的最优的值;
步骤2.4:在半同步更新的基础上结合边影响力迭代更新传播标签;
步骤2.5:代更新传播终止后,将相等的标签划分到同一个社区,标签种类的个数为网络中社区的个数;
所述步骤2.4中的半同步更新具体包括如下步骤:
步骤2.4.1:根据步骤2.1的节点着色情况,将颜色排序随机化,随机化后的颜色排序为每次迭代过程中颜色更新的顺序;
步骤2.4.2:每一轮迭代过程中不相邻的相同颜色的节点同步更新,相邻的不同颜色的节点异步更新;
其中同步更新的节点Q在t次迭代传播的过程中,它的标签lQ(t)是由它的相邻节点τ在t-1次迭代后的标签决定;即:
lQ(t)=f(lτ1(t-1),lτ2(t-1),…,lτk(t-1))
k是节点Q的邻接节点的个数,f()函数是出现频数最高的值,lτk(t-1))为第t次迭代中第k个相邻节点的标签;
异步更新策略在标签迭代传播的过程中,在t次迭代更新节点Q1的标签
Figure GDA0002957691310000084
时,根据相邻节点中t次迭代已经更新过的节点
Figure GDA0002957691310000085
的标签
Figure GDA0002957691310000086
和t次迭代还没有进行更新的节点ω的t-1次迭代时的标签共同决定,即:
Figure GDA0002957691310000087
其中m为节点
Figure GDA0002957691310000088
的个数,
Figure GDA0002957691310000089
为第t次迭代中第m个更新过的节点的标签,k1为节点Q1的邻接节点的总个数,节点ω的个数为m1,m1+m=k1
Figure GDA0002957691310000091
次迭代中还没有更新的第m1个节点的t-1次迭代时的标签;
在上述标签迭代更新传播的过程中同时考虑边的影响力对节点标签传播的影响,具体计算公式如下:
Figure GDA0002957691310000092
其中
Figure GDA0002957691310000093
为节点v1的标签,l为相邻节点u所有标签的集合,lu为相邻节点u的标签;
步骤2.4.3:所有节点完成第t1次迭代之后,将t1次迭代后节点的标签与t1-1次迭代后节点的标签进行对比,若所有节点的t1次迭代的标签与t1-1次迭代的标签相等,则迭代终止,记迭代次数为t1;若存在节点t1次迭代的标签与t1-1次迭代的标签不相等,则表示迭代效果没有达到稳定,继续执行步骤2.4.2迭代第t1+1次。
所述步骤3中除去短文本中无用的信息,具体的操作为,根据处理后只包括摘要的短文本,去除停用词,数字,标点符号及频次少于3次的单词后进行统计并建立字典;
所述步骤3中根据作者学术影响力得到作者的权重值,具体方法为:利用作者过去
Figure GDA0002957691310000097
年时间内发表的论文数量p、论文被引用的次数c评估个人的科研成果,得到该作者学术影响力h,具体公式如下:
Figure GDA0002957691310000094
对学术影响力进行归一化,得到第σ个作者的权重值πσ
Figure GDA0002957691310000095
hσ为第σ个作者的学术影响力;A为所有作者的个数;
所述步骤3中对短文本进行词对化处理,即对摘要特征扩充,具体方法为词对b,b=(wi,wj)的联合概率的计算公式为:
Figure GDA0002957691310000096
其中wi为短文本中第i个单词,wj为短文本中第j个单词wj,z为主题,p(z)为主题概率,p(wi|z)主题z分配给单词wi的概率,p(wj|z)主题z分配给单词wj的概率,θz为A个作者时间主题的分布,Φi|z为主题-第i个单词的分布,Φj|z为主题-第j个单词的分布整个语料库的概率为:
Figure GDA0002957691310000101
其中S为整个语料库所有词对的集合;进行词对处理后就是词对的运算而不是单词的运算。
如图4所示,所述步骤3中根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型,具体包括如下步骤:
步骤3.1:建立马尔科夫链的初始序列:对每篇短文本,随机为每个词对b,分配一个主题z,对所有作者的学术影响力进行归一化之后得到总权重值,根据每个作者的权重值比例分配作者,并将每篇短文本的时间分配给词对b;
步骤3.2:利用吉布斯采样算法,根据上一次词对b的条件分布概率得出马尔科夫链的下一状态,所述上一次词对b的条件分布概率计算方法为:
Figure GDA0002957691310000102
其中,z为短文本d中第ε个词对对应的主题,σ为短文本d中第ε个词对对应的作者;
Figure GDA0002957691310000103
表短文本d中除z之外的所有主题分布,b为短文本d中第ε个词对,
Figure GDA0002957691310000104
表示短文本d中除b词对之外的所有词对;yd为短文本d的发表年份,
Figure GDA0002957691310000107
为第σ个作者的短文本d中的词对b在yd年内被赋予主题z的次数;;
Figure GDA0002957691310000105
短文本中单词wi被分配给主题z的次数,
Figure GDA0002957691310000106
短文本中单词wj被分配给主题z的次数,M为词汇表中词对的个数,tw|z是短文本d中某一单词w被分配给主题z的次数,
Figure GDA0002957691310000108
是短文本d中某一单词w在yd年中分配给第σ个作者的次数,α,β,γ为狄利克雷参数;在此概率公式中|左侧的条件为当短文本d中第ε个词对应的主题为z时且短文本d中第ε个词对对应的作者为σ时;|右侧的条件为条件1:在短文本d中除z之外的所有主题分布和在短文本d中除b词对之外的所有词对;条件2:当短文本d中第ε个词对为b时,条件3:在短文本d的发表年内,条件1~3为并的关系;
步骤3.3:将步骤3.2过程循环迭代ζ次计算,ζ的次数由具体的情况决定,本实施例中ζ取1000次,获得马尔科夫链平稳分布,记下每个词对的主题的当前值,估算得到的θ,Φ,ψ,为作者随时间演化的兴趣模型;
Figure GDA0002957691310000111
Figure GDA0002957691310000112
Figure GDA0002957691310000113
其中Φ是主题-词分布;θ为作者时间-主题分布;ψ为作者-时间分布;nzσ|y为第y年该第σ个作者所有短文本中词对b被赋予主题z的次数;nσ|y是单词w在y年中分配给第σ个作者的次数;Y是过去
Figure GDA0002957691310000114
年的时间跨度的个数;y是
Figure GDA0002957691310000115
其中一个年度;T为主题个数。本实施例中Y=6;时间跨度
Figure GDA0002957691310000116
为{2012,2013,2014,2015,2016,2017}。
表1为图4参数说明;
表1
Figure GDA0002957691310000117
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

Claims (7)

1.一种基于社区的合作者推荐方法,其特征在于,具体包括如下步骤:
步骤1:获取作者发表论文的数据,包括摘要,作者,时间;并对数据进行预处理,根据预处理的数据按照作者的合作关系,以每个节点代表作者,节点间的边代表两个作者存在合作关系,建立合作网络,如果该网络中两节点不是相连的表明作者之间没有合作;
步骤2:计算合作网络中相邻节点的n阶环,并通过负指数分布模型与n阶环的个数总和得到基于场所效应的边影响力,在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播;迭代更新传播停止后完成网络中作者社区划分;
步骤3:再次处理步骤1中预处理的数据得到只有摘要的短文本,去除短文本中无用的信息;根据作者学术影响力得到作者的权重值,并对短文本进行词对化处理,利用作者权重值的占比与处理后的词对建立马尔科夫链,根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型;
步骤4:根据步骤2得到的社区划分结果,得到合作者所在的社区和该社区内与合作者没有合作过的作者,根据步骤3得到的该社区内没有与合作者合作过的作者随时间演化的兴趣模型,并计算KL距离,将KL由小到大排序,将排名前X位作者推荐给合作者,5≤X≤15。
2.根据权利要求1所述的一种基于社区的合作者推荐方法,其特征在于,所述对数据预处理具体为:利用网络爬虫得到作者发表的论文数据,包括摘要,作者,时间;并去除引用次数为0的论文。
3.根据权利要求1所述的一种基于社区的合作者推荐方法,其特征在于,所述步骤2具体包括如下步骤:
步骤2.1:对已知的网络图G,G={V,E}建立数据结构邻接表并存储,V为网络中节点集合,E为网络中边的集合,对网络图G中NG个节点分别赋值唯一的标签lV,lV=(0,1,2,...,NG-1).id;对NG个节点进行着色,相邻节点颜色不同,总共需要的颜色数目为ColorNum;所述NG为图G的节点个数;
步骤2.2:根据三度影响力原则,考虑节点v1的三度以内节点,从节点v1出发,设节点v1是待更新节点,计算经过节点v1和节点u的环路能够构成的n阶环,以及n阶环的个数总和
Figure FDA0002957691300000011
n阶环的n表示环数;3≤n≤6;节点u是节点v1的一个邻接点,u∈N(v1),N(v1)为节点v1的所有邻接节点的集合;
步骤2.3:根据三度影响力原则与n阶环的个数总和,得出基于场所效应的边影响力Inf(u,v1),具体计算方法如下:
Figure FDA0002957691300000021
其中,R为负指数分布模型,
Figure FDA0002957691300000022
其中
Figure FDA0002957691300000023
Figure FDA0002957691300000024
为系数;
在网络图中建立相关点a1、a2、a3、a4
Figure FDA0002957691300000025
其中
Figure FDA0002957691300000026
Figure FDA0002957691300000027
是网络图G的平均度,EG是网络图G的边的数量;
对a1、a2、a3、a4得到的散点图进行最小二乘法计算后得到的值为模型R的最优的值;
步骤2.4:在半同步更新的基础上结合基于场所效应的边影响力决定标签的迭代更新传播;
步骤2.5:迭代更新传播终止后,将相等的标签划分到同一个社区,标签种类的个数为网络中社区的个数。
4.根据权利要求3所述的一种基于社区的合作者推荐方法,其特征在于,所述步骤2.4具体包括如下步骤:
步骤2.4.1:根据步骤2.1的节点着色情况,将颜色排序随机化,随机化后的颜色排序为每次迭代过程中颜色更新的顺序;
步骤2.4.2:每一轮迭代过程中不相邻的相同颜色的节点同步更新,相邻的不同颜色的节点异步更新;
其中同步更新的节点Q在t次迭代传播的过程中,它的标签lQ(t)是由它的相邻节点τ在t-1次迭代后的标签决定;即:
lQ(t)=f(lτ1(t-1),lτ2(t-1),…,lτk(t-1))
k是节点Q的邻接节点的个数,f()函数是出现频数最高的值,lτk(t-1))为第t次迭代中第k个相邻节点的标签;
异步更新策略在标签迭代传播的过程中,在t次迭代更新节点Q1的标签
Figure FDA0002957691300000031
时,根据相邻节点中t次迭代已经更新过的节点
Figure FDA0002957691300000032
的标签
Figure FDA0002957691300000033
和t次迭代还没有进行更新的节点ω的t-1次迭代时的标签共同决定,即:
Figure FDA0002957691300000034
其中m为节点
Figure FDA0002957691300000035
的个数,
Figure FDA0002957691300000036
为第t次迭代中第m个更新过的节点的标签,k1为节点Q1的邻接节点的总个数,节点ω的个数为m1,m1+m=k1
Figure FDA00029576913000000310
次迭代中还没有更新的第m1个节点的t-1次迭代时的标签;
在上述标签迭代更新传播的过程中同时考虑边的影响力对节点标签传播的影响,具体计算公式如下:
Figure FDA0002957691300000037
其中
Figure FDA0002957691300000038
为节点v1的标签,l为相邻节点u所有标签的集合,lu为相邻节点u的标签;
步骤2.4.3:所有节点完成第t1次迭代之后,将t1次迭代后节点的标签与t1-1次迭代后节点的标签进行对比,若所有节点的t1次迭代的标签与t1-1次迭代的标签相等,则迭代终止,记迭代次数为t1;若存在节点t1次迭代的标签与t1-1次迭代的标签不相等,则表示迭代效果没有达到稳定,继续执行步骤2.4.2迭代第t1+1次。
5.根据权利要求1所述的一种基于社区的合作者推荐方法,其特征在于,所述步骤3中除去短文本中无用的信息,具体的操作为:根据处理后得到只包括摘要的短文本,去除停用词,数字,标点符号及频次少于3次的单词后进行统计并建立字典。
6.根据权利要求1所述的一种基于社区的合作者推荐方法,其特征在于,所述步骤3中根据作者学术影响力得到作者的权重值,具体方法为:利用作者过去
Figure FDA0002957691300000039
年时间内发表的论文数量p、论文被引用的次数c评估个人的科研成果,得到该作者学术影响力h,具体公式如下:
Figure FDA0002957691300000041
对学术影响力进行归一化,得到第σ个作者的权重值πσ
Figure FDA0002957691300000042
hσ为第σ个作者的学术影响力;A为所有作者的个数。
7.根据权利要求6所述的一种基于社区的合作者推荐方法,其特征在于,所述步骤3中根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型具体包括如下步骤:
步骤3.1:建立马尔科夫链的初始序列:对每篇短文本,随机为每个词对b,分配一个主题z,对所有作者的学术影响力进行归一化之后得到总权重值,根据每个作者的权重值比例分配作者,并将每篇短文本的时间分配给词对b;
步骤3.2:利用吉布斯采样算法,根据上一次词对b的条件分布概率得出马尔科夫链的下一状态,所述上一次词对b的条件分布概率计算方法为:
Figure FDA0002957691300000043
其中,z为短文本d中第ε个词对对应的主题,σ为短文本d中第ε个词对对应的作者;
Figure FDA0002957691300000044
表短文本d中除z之外的所有主题分布,b为短文本d中第ε个词对,
Figure FDA0002957691300000045
表示短文本d中除b词对之外的所有词对;yd为短文本d的发表年份,
Figure FDA0002957691300000046
为第σ个作者的短文本d中的词对b在yd年内被赋予主题z的次数;
Figure FDA0002957691300000047
词对b中单词wi被分配给主题z的次数,
Figure FDA0002957691300000048
词对b中单词wj被分配给主题z的次数,M为词汇表中词对的个数,nw|z是短文本d中某一单词w被分配给主题z的次数,
Figure FDA0002957691300000049
是短文本d中某一单词w在yd年中分配给第σ个作者的次数,α,β,γ为狄利克雷参数;在此概率公式中|左侧的条件为当短文本d中第ε个词对应的主题为z时且短文本d中第ε个词对对应的作者为σ时;|右侧的条件为条件1:在短文本d中除z之外的所有主题分布和在短文本d中除b词对之外的所有词对;条件2:当短文本d中第ε个词对为b时,条件3:在短文本d的发表年内,条件1~3为并的关系;
步骤3.3:将步骤3.2过程循环迭代ζ次计算,ζ的次数由具体的情况决定,获得马尔科夫链平稳分布,记下每个词对的主题的当前值,估算得到的θ,Φ,ψ,为作者随时间演化的兴趣模型;
Figure FDA0002957691300000051
Figure FDA0002957691300000052
Figure FDA0002957691300000053
其中中是主题-词分布;θ为作者时间-主题分布;ψ为作者-时间分布;nzσ|y为第y年该第σ个作者所有短文本中词对b被赋予主题z的次数;nσ|y是单词W1在y年中分配给第σ个作者的次数;Y是过去
Figure FDA0002957691300000054
年的时间跨度的个数;y是
Figure FDA0002957691300000055
其中一个年度;T为主题个数。
CN201811294216.8A 2018-11-01 2018-11-01 一种基于社区的合作者推荐方法 Active CN109635183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811294216.8A CN109635183B (zh) 2018-11-01 2018-11-01 一种基于社区的合作者推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811294216.8A CN109635183B (zh) 2018-11-01 2018-11-01 一种基于社区的合作者推荐方法

Publications (2)

Publication Number Publication Date
CN109635183A CN109635183A (zh) 2019-04-16
CN109635183B true CN109635183B (zh) 2021-09-21

Family

ID=66067115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811294216.8A Active CN109635183B (zh) 2018-11-01 2018-11-01 一种基于社区的合作者推荐方法

Country Status (1)

Country Link
CN (1) CN109635183B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674183A (zh) * 2019-08-23 2020-01-10 上海科技发展有限公司 科研社群划分及核心学者发现方法、系统、介质及终端
CN111428056A (zh) * 2020-04-26 2020-07-17 中国烟草总公司郑州烟草研究院 一种科研人员合作社区的构建方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495860A (zh) * 2011-11-22 2012-06-13 北京大学 基于语言模型的专家推荐方法
CN105989077A (zh) * 2015-02-09 2016-10-05 北京字节跳动科技有限公司 一种基于推荐的兴趣社区用户引导方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6681369B2 (en) * 1999-05-05 2004-01-20 Xerox Corporation System for providing document change information for a community of users
US8249915B2 (en) * 2005-08-04 2012-08-21 Iams Anthony L Computer-implemented method and system for collaborative product evaluation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495860A (zh) * 2011-11-22 2012-06-13 北京大学 基于语言模型的专家推荐方法
CN105989077A (zh) * 2015-02-09 2016-10-05 北京字节跳动科技有限公司 一种基于推荐的兴趣社区用户引导方法

Also Published As

Publication number Publication date
CN109635183A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
Bliss et al. An evolutionary algorithm approach to link prediction in dynamic social networks
Ren et al. Predicting user-topic opinions in twitter with social and topical context
Alvari et al. Community detection in dynamic social networks: A game-theoretic approach
Kanawati Licod: Leaders identification for community detection in complex networks
Wang et al. Maximizing the spread of influence via generalized degree discount
CN109635183B (zh) 一种基于社区的合作者推荐方法
Eswaran et al. Higher-order label homogeneity and spreading in graphs
Karingula et al. Boosted embeddings for time-series forecasting
CN110069726A (zh) 一种适用于DBLP与arXiv的文献网络间锚链接关系预测方法
Lu et al. Predicting viral news events in online media
CN107515854B (zh) 基于带权时序文本网络的时序社区以及话题的检测方法
Wang et al. Link prediction based on weighted synthetical influence of degree and H-index on complex networks
Purohit et al. ITeM: Independent temporal motifs to summarize and compare temporal networks
He et al. Positive opinion influential node set selection for social networks: considering both positive and negative relationships
Liu et al. Characterising and modelling social networks with overlapping communities
CN110599358B (zh) 一种基于概率因子图模型的跨社交网络用户身份关联方法
Wang et al. Representation learning for spatial graphs
Christiano Silva et al. Network-based stochastic competitive learning approach to disambiguation in collaborative networks
Jora et al. Evolutionary community detection in complex and dynamic networks
Munasinghe et al. Multi-class link prediction in social networks
Wang et al. Detection of social groups in class by affinity propagation
Kong et al. Learning Large-scale Network Embedding from Representative Subgraph
Bozarth et al. Social Movement Organizations in Online Movements
Peng et al. Personalised recommendation algorithm of music resources based on category similarity
Wang et al. Micro-Blog friend-recommendation based on topic analysis and circle found

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant