CN109635183B - 一种基于社区的合作者推荐方法 - Google Patents
一种基于社区的合作者推荐方法 Download PDFInfo
- Publication number
- CN109635183B CN109635183B CN201811294216.8A CN201811294216A CN109635183B CN 109635183 B CN109635183 B CN 109635183B CN 201811294216 A CN201811294216 A CN 201811294216A CN 109635183 B CN109635183 B CN 109635183B
- Authority
- CN
- China
- Prior art keywords
- author
- node
- label
- short text
- iteration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 8
- 230000005669 field effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 239000003086 colorant Substances 0.000 claims description 6
- 238000004040 coloring Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于社区的合作者推荐方法,首先根据论文信息构建合作网络,在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播完成网络中作者社区划分;再利用作者权重值的占比与处理后的词对,建立马尔科夫链,根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型,根据社区划分结果与作者随时间演化的兴趣模型,找到合适的作者推荐给合作者。本发明降低了社区划分结果不稳定性,提升了社区划分结果模块度和标准互信息的精确度,本发明建立的随时间演化的兴趣模型具有强壮性和有效性的特点,最后利用随时间演化的兴趣模型计算KL距离降低了推荐算法的计算量,增加了准确率,召回率。
Description
技术领域
本发明属于社会网络分析技术领域,尤其涉及一种基于社区的合作者推荐方法。
背景技术
知识经济时代,知识已成为经济增长、社会发展以及组织成长的关键性资源,学习型组织对知识的依赖性逐渐增加。科研组织是知识经济时代知识创新的主体之一,科研合作对于知识创新的发展愈发重要。科研合作能够带来更好的知识共享,作者之间不仅能够将自身的知识、科研的经验和拥有的资源进行共享,还有可能为作者带来更多的灵感和突破,取得更大的科研成果。而科研合作面临一个重要的问题是科研人员找不到合适的合作对象。
半同步标签传播算法(Semi-synchronous Label PropagationAlgorithm,sLPA)一定程度上提升了社区划分的质量,但是在标签传播过程中,节点更新标签的选择随机导致算法的不稳定性甚至出现逆流现象,所以节点标签的选择是影响着社区划分结果的稳定和质量的重要因素。ATF(AuthorTopic-Flow)模型通过文章的摘要信息可以得到作者研究内容演化趋势,第一没有考虑文本长短的问题,针对文本集摘要信息的短文本特性,特征稀疏会导致效果不佳;第二将所有作者平等对待,会导致作者发的论文数量越多,能力越强,只考虑数量,却忽略了作者所发文章的质量。
发明内容
发明目的:为克服上述社区发现的随机性以及短文本特征稀疏,只考虑作者的论文的数量不考虑质量的问题,本发明提供了一种基于社区的合作者推荐方法。
技术方案:本发明提供了一种基于社区的合作者推荐方法,具体包括如下步骤:
步骤1:获取作者发表论文的数据,包括摘要,作者,时间;并对数据进行预处理,根据预处理的数据按照作者的合作关系,以每个节点代表作者,节点间的边代表两个作者存在合作关系,建立合作网络,如果该网络中两节点不是相连的表明作者之间没有合作;
步骤2:计算合作网络中相邻节点的n阶环,并通过负指数分布模型与n阶环的个数总和得到基于场所效应的边影响力,在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播;迭代更新传播停止后完成网络中作者社区划分;
步骤3:再次处理步骤1中预处理的数据得到只有摘要的短文本,去除短文本中无用的信息;根据作者学术影响力得到作者的权重值,并对短文本进行词对化处理,利用作者权重值的占比与处理后的词对建立马尔科夫链,根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型;
步骤4:根据步骤2得到的社区划分结果,得到合作者所在的社区和该社区内与合作者没有合作过的作者,根据步骤3得到的该社区内没有与合作者合作过的作者随时间演化的兴趣模型,并计算KL(Kullback–Leibler divergence,相对熵)距离,将KL由小到大排序,将排名前X位作者推荐给合作者,5≤X≤15。
进一步的,所述对数据预处理具体为:利用网络爬虫得到作者发表的论文数据,包括摘要,作者,时间;并去除引用次数为0的论文。
进一步的,所述步骤2具体包括如下步骤:
步骤2.1:对已知的网络图G,G={V,E}建立数据结构邻接表并存储,V为网络中节点集合,E为网络中边的集合,对网络图G中NG个节点分别赋值唯一的标签lV,lV=(0,1,2,…,NG-1).id;对NG个节点进行着色,相邻节点颜色不同,总共需要的颜色数目为ColorNum;所述NG为图G的节点个数;
步骤2.2:根据三度影响力原则,考虑节点v1的三度以内节点,从节点v1出发,设节点v1是待更新节点,计算经过节点v1和节点u的环路能够构成的n阶环,以及n阶环的个数总和n阶环的n表示环数;3≤n≤6;节点u是节点v1的一个邻接点,u∈N(v1),N(v1)为节点v1的所有邻接节点的集合;
步骤2.3:根据三度影响力原则与n阶环的个数总和,得出基于场所效应的边影响力Inf(u,v1),具体计算方法如下:
在网络图中建立相关点a1、a2、a3、a4;
对a1、a2、a3、a4得到的散点图进行最小二乘法计算后得到的值为模型R的最优的值;
步骤2.4:在半同步更新的基础上结合基于场所效应的边影响力决定标签的迭代更新传播;
步骤2.5:迭代更新传播终止后,将相等的标签划分到同一个社区,标签种类的个数为网络中社区的个数。
进一步的,上述步骤2.4具体包括如下步骤:
步骤2.4.1:根据步骤2.1的节点着色情况,将颜色排序随机化,随机化后的颜色排序为每次迭代过程中颜色更新的顺序;
步骤2.4.2:每一轮迭代过程中不相邻的相同颜色的节点同步更新,相邻的不同颜色的节点异步更新;
其中同步更新的节点Q在t次迭代传播的过程中,它的标签lQ(t)是由它的相邻节点τ在t-1次迭代后的标签决定;即:
lQ(t)=f(lτ1(t-1),lτ2(t-1),…,lτk(t-1))
k是节点Q的邻接节点的个数,f()函数是出现频数最高的值,lτk(t-1))为第t次迭代中第k个相邻节点的标签;
在上述标签迭代更新传播的过程中同时考虑边的影响力对节点标签传播的影响,具体计算公式如下:
步骤2.4.3:所有节点完成第t1次迭代之后,将t1次迭代后节点的标签与t1-1次迭代后节点的标签进行对比,若所有节点的t1次迭代的标签与t1-1次迭代的标签相等,则迭代终止,记迭代次数为t1;若存在节点t1次迭代的标签与t1-1次迭代的标签不相等,则表示迭代效果没有达到稳定,继续执行步骤2.4.2迭代第t1+1次。
进一步的,所述步骤3中除去短文本中无用的信息,具体的操作为:根据处理后得到只包括摘要的短文本,去除停用词,数字,标点符号及频次少于3次的单词后进行统计并建立字典;
对学术影响力进行归一化,得到第σ个作者的权重值πσ;
hσ为第σ个作者的学术影响力;A为所有作者的个数;
进一步的,所述步骤3中根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型具体包括如下步骤:
步骤3.1:建立马尔科夫链的初始序列:对每篇短文本,随机为每个词对b,分配一个主题z,对所有作者的学术影响力进行归一化之后得到总权重值,根据每个作者的权重值比例分配作者,并将每篇短文本的时间分配给词对b;
步骤3.2:利用吉布斯采样算法,根据上一次词对bdε的条件分布概率得出马尔科夫链的下一状态,所述上一次词对bdε的条件分布概率计算方法为:
其中,zdε为短文本d中第ε个词对对应的主题,σdε为短文本d中第ε个词对对应的作者;表短文本d中除zdε之外的所有主题分布,bdε为短文本d中第ε个词对,表示短文本d中除bdε词对之外的所有词对;yd为短文本d的发表年份,为第σ个作者的短文本d中的词对bdε在yd年内被赋予主题z的次数;;词对bdε中单词wi被分配给主题z的次数,词对bdε中单词wj被分配给主题z的次数,M为词汇表中词对的个数,nw|z是短文本d中某一单词w被分配给主题z的次数,是短文本d中某一单词w在yd年中分配给第σ个作者的次数,α,β,γ为狄利克雷参数;在此概率公式中|左侧的条件为当短文本d中第ε个词对应的主题为zdε时且短文本d中第ε个词对对应的作者为σdε时;|右侧的条件为条件1:在短文本d中除zdε之外的所有主题分布和在短文本d中除bdε词对之外的所有词对;条件2:当短文本d中第ε个词对为bdε时,条件3:在短文本d的发表年内,条件1~3为并的关系;
步骤3.3:将步骤3.2过程循环迭代ζ次计算,ζ的次数由具体的情况决定,获得马尔科夫链平稳分布,记下每个词对的主题的当前值,估算得到的θ,Φ,ψ,为作者随时间演化的兴趣模型;
其中Φ是主题-词分布;θ为作者时间-主题分布;ψ为作者-时间分布;nzσ|y为第y年该第σ个作者所有短文本中词对b被赋予主题z的次数;nσ|y是单词W1在y年中分配给第σ个作者的次数;Y是过去年的时间跨度的个数;y是其中一个年度;T为主题个数。
有益效果:本发明的社区划分解决了全局拓扑结构的复杂性和只考虑局部节点的局限性的问题,同时在标签传播过程中降低了社区划分结果不稳定性,提升了社区划分结果模块度和标准互信息的精确度,本发明建立的随时间演化的兴趣模型具有强壮性和有效性的特点,最后利用随时间演化的兴趣模型计算KL距离降低了推荐算法的计算量,增加了准确率,召回率。
附图说明
图1为基于社区的合作者推荐方法的流程图;
图2为n阶环环路示意图;
图3为基于场所效应的半同步标签传播社区发现方法的流程图;
图4为基于学术影响力的短文本作者兴趣演化方法的文本生成;
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本发明提供了一种基于社区的合作者推荐方法,具体包括如下步骤:
步骤1:获取作者发表论文的数据,包括摘要,作者,时间;并对数据进行预处理,根据预处理的数据建立作者的合作网络;按照作者的合作关系,以每个节点代表作者,节点间的边代表两个作者存在合作关系,建立合作网络,如果两节点不是相连的表明作者之间没有合作。
步骤2:计算合作网络中相邻节点的n阶环,并通过负指数分布模型与n阶环的个数总和得到基于场所效应的边影响力,在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播;迭代更新传播停止后完成网络中作者社区划分;
步骤3:再次处理步骤1中预处理的数据得到只有摘要的短文本,去除短文本中无用的信息;并对短文本进行词对化处理,利用作者权重值的占比与处理后的词对建立马尔科夫链,根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型;
步骤4:根据步骤2得到的社区划分结果,得到合作者所在的社区和该社区内与合作者没有合作过的作者,根据步骤3得到的该社区内没有与合作者合作过的作者随时间演化的兴趣模型,并计算KL距离,将KL由小到大排序,将排名前X位作者推荐给合作者,5≤X≤15,本实施例取10。
所述步骤1具体为:利用网络爬虫得到作者发表的论文数据,包括摘要,作者,时间;并去除引用次数为0的论文。
如图2所示,所述步骤2具体包括如下步骤:
步骤2.1:对已知的网络图G,G={V,E}建立数据结构邻接表并存储,V为网络中节点集合,E为网络中边的集合,对网络图G中NG个节点分别赋值唯一的标签lV,lV=(0,1,2,…,NG-1).id;对NG个节点进行着色,相邻节点颜色不同,总共需要的颜色数目为ColorNum;所述NG为图G的节点个数;
步骤2.2:根据三度影响力原则,考虑节点v1的三度以内节点,从节点v1出发,设节点v1是待更新节点,计算经过节点v1和节点u的环路能够构成的n阶环,以及n阶环的个数总和n阶环的n表示环数;3≤n≤6;节点u是节点v1的一个邻接点,u∈N(v1),N(v1)为节点v1的所有邻接节点的集合,
图3为经过节点v1和节点u能够构共同的n阶环,(a)表示以节点v1为起点,以邻接节点u为环路的第二个点,存在能够包含v1和u的三阶环,这个环中有两个一度影响力节点,(b)、(c)、(d)分别为四阶,五阶,六阶环,其中(d)中含有两个一度影响力节点,两个二度影响力节点以及一个三度影响力节点;对于每个节点v1计算与它的每一个邻接节点u共同构成的n(3≤n≤6)阶环的个数。其中表示v1与u可以共同构成的三阶环的个数,同理为四阶环的个数,为五阶环的个数,为六阶环的个数。
步骤2.3:根据三度影响力原则与n阶环的个数总和,得出基于场所效应的边影响力Inf(u,v1),具体计算方法如下:
在网络图中建立相关点a1、a2、a3、a4;
对a1、a2、a3、a4得到的散点图进行最小二乘法计算后得到的值为模型R的最优的值;
步骤2.4:在半同步更新的基础上结合边影响力迭代更新传播标签;
步骤2.5:代更新传播终止后,将相等的标签划分到同一个社区,标签种类的个数为网络中社区的个数;
所述步骤2.4中的半同步更新具体包括如下步骤:
步骤2.4.1:根据步骤2.1的节点着色情况,将颜色排序随机化,随机化后的颜色排序为每次迭代过程中颜色更新的顺序;
步骤2.4.2:每一轮迭代过程中不相邻的相同颜色的节点同步更新,相邻的不同颜色的节点异步更新;
其中同步更新的节点Q在t次迭代传播的过程中,它的标签lQ(t)是由它的相邻节点τ在t-1次迭代后的标签决定;即:
lQ(t)=f(lτ1(t-1),lτ2(t-1),…,lτk(t-1))
k是节点Q的邻接节点的个数,f()函数是出现频数最高的值,lτk(t-1))为第t次迭代中第k个相邻节点的标签;
在上述标签迭代更新传播的过程中同时考虑边的影响力对节点标签传播的影响,具体计算公式如下:
步骤2.4.3:所有节点完成第t1次迭代之后,将t1次迭代后节点的标签与t1-1次迭代后节点的标签进行对比,若所有节点的t1次迭代的标签与t1-1次迭代的标签相等,则迭代终止,记迭代次数为t1;若存在节点t1次迭代的标签与t1-1次迭代的标签不相等,则表示迭代效果没有达到稳定,继续执行步骤2.4.2迭代第t1+1次。
所述步骤3中除去短文本中无用的信息,具体的操作为,根据处理后只包括摘要的短文本,去除停用词,数字,标点符号及频次少于3次的单词后进行统计并建立字典;
对学术影响力进行归一化,得到第σ个作者的权重值πσ。
hσ为第σ个作者的学术影响力;A为所有作者的个数;
所述步骤3中对短文本进行词对化处理,即对摘要特征扩充,具体方法为词对b,b=(wi,wj)的联合概率的计算公式为:
其中wi为短文本中第i个单词,wj为短文本中第j个单词wj,z为主题,p(z)为主题概率,p(wi|z)主题z分配给单词wi的概率,p(wj|z)主题z分配给单词wj的概率,θz为A个作者时间主题的分布,Φi|z为主题-第i个单词的分布,Φj|z为主题-第j个单词的分布整个语料库的概率为:
其中S为整个语料库所有词对的集合;进行词对处理后就是词对的运算而不是单词的运算。
如图4所示,所述步骤3中根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型,具体包括如下步骤:
步骤3.1:建立马尔科夫链的初始序列:对每篇短文本,随机为每个词对b,分配一个主题z,对所有作者的学术影响力进行归一化之后得到总权重值,根据每个作者的权重值比例分配作者,并将每篇短文本的时间分配给词对b;
步骤3.2:利用吉布斯采样算法,根据上一次词对bdε的条件分布概率得出马尔科夫链的下一状态,所述上一次词对bdε的条件分布概率计算方法为:
其中,zdε为短文本d中第ε个词对对应的主题,σdε为短文本d中第ε个词对对应的作者;表短文本d中除zdε之外的所有主题分布,bdε为短文本d中第ε个词对,表示短文本d中除bdε词对之外的所有词对;yd为短文本d的发表年份,为第σ个作者的短文本d中的词对bdε在yd年内被赋予主题z的次数;;短文本中单词wi被分配给主题z的次数,短文本中单词wj被分配给主题z的次数,M为词汇表中词对的个数,tw|z是短文本d中某一单词w被分配给主题z的次数,是短文本d中某一单词w在yd年中分配给第σ个作者的次数,α,β,γ为狄利克雷参数;在此概率公式中|左侧的条件为当短文本d中第ε个词对应的主题为zdε时且短文本d中第ε个词对对应的作者为σdε时;|右侧的条件为条件1:在短文本d中除zdε之外的所有主题分布和在短文本d中除bdε词对之外的所有词对;条件2:当短文本d中第ε个词对为bdε时,条件3:在短文本d的发表年内,条件1~3为并的关系;
步骤3.3:将步骤3.2过程循环迭代ζ次计算,ζ的次数由具体的情况决定,本实施例中ζ取1000次,获得马尔科夫链平稳分布,记下每个词对的主题的当前值,估算得到的θ,Φ,ψ,为作者随时间演化的兴趣模型;
其中Φ是主题-词分布;θ为作者时间-主题分布;ψ为作者-时间分布;nzσ|y为第y年该第σ个作者所有短文本中词对b被赋予主题z的次数;nσ|y是单词w在y年中分配给第σ个作者的次数;Y是过去年的时间跨度的个数;y是其中一个年度;T为主题个数。本实施例中Y=6;时间跨度为{2012,2013,2014,2015,2016,2017}。
表1为图4参数说明;
表1
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
Claims (7)
1.一种基于社区的合作者推荐方法,其特征在于,具体包括如下步骤:
步骤1:获取作者发表论文的数据,包括摘要,作者,时间;并对数据进行预处理,根据预处理的数据按照作者的合作关系,以每个节点代表作者,节点间的边代表两个作者存在合作关系,建立合作网络,如果该网络中两节点不是相连的表明作者之间没有合作;
步骤2:计算合作网络中相邻节点的n阶环,并通过负指数分布模型与n阶环的个数总和得到基于场所效应的边影响力,在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播;迭代更新传播停止后完成网络中作者社区划分;
步骤3:再次处理步骤1中预处理的数据得到只有摘要的短文本,去除短文本中无用的信息;根据作者学术影响力得到作者的权重值,并对短文本进行词对化处理,利用作者权重值的占比与处理后的词对建立马尔科夫链,根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型;
步骤4:根据步骤2得到的社区划分结果,得到合作者所在的社区和该社区内与合作者没有合作过的作者,根据步骤3得到的该社区内没有与合作者合作过的作者随时间演化的兴趣模型,并计算KL距离,将KL由小到大排序,将排名前X位作者推荐给合作者,5≤X≤15。
2.根据权利要求1所述的一种基于社区的合作者推荐方法,其特征在于,所述对数据预处理具体为:利用网络爬虫得到作者发表的论文数据,包括摘要,作者,时间;并去除引用次数为0的论文。
3.根据权利要求1所述的一种基于社区的合作者推荐方法,其特征在于,所述步骤2具体包括如下步骤:
步骤2.1:对已知的网络图G,G={V,E}建立数据结构邻接表并存储,V为网络中节点集合,E为网络中边的集合,对网络图G中NG个节点分别赋值唯一的标签lV,lV=(0,1,2,...,NG-1).id;对NG个节点进行着色,相邻节点颜色不同,总共需要的颜色数目为ColorNum;所述NG为图G的节点个数;
步骤2.2:根据三度影响力原则,考虑节点v1的三度以内节点,从节点v1出发,设节点v1是待更新节点,计算经过节点v1和节点u的环路能够构成的n阶环,以及n阶环的个数总和n阶环的n表示环数;3≤n≤6;节点u是节点v1的一个邻接点,u∈N(v1),N(v1)为节点v1的所有邻接节点的集合;
步骤2.3:根据三度影响力原则与n阶环的个数总和,得出基于场所效应的边影响力Inf(u,v1),具体计算方法如下:
在网络图中建立相关点a1、a2、a3、a4;
对a1、a2、a3、a4得到的散点图进行最小二乘法计算后得到的值为模型R的最优的值;
步骤2.4:在半同步更新的基础上结合基于场所效应的边影响力决定标签的迭代更新传播;
步骤2.5:迭代更新传播终止后,将相等的标签划分到同一个社区,标签种类的个数为网络中社区的个数。
4.根据权利要求3所述的一种基于社区的合作者推荐方法,其特征在于,所述步骤2.4具体包括如下步骤:
步骤2.4.1:根据步骤2.1的节点着色情况,将颜色排序随机化,随机化后的颜色排序为每次迭代过程中颜色更新的顺序;
步骤2.4.2:每一轮迭代过程中不相邻的相同颜色的节点同步更新,相邻的不同颜色的节点异步更新;
其中同步更新的节点Q在t次迭代传播的过程中,它的标签lQ(t)是由它的相邻节点τ在t-1次迭代后的标签决定;即:
lQ(t)=f(lτ1(t-1),lτ2(t-1),…,lτk(t-1))
k是节点Q的邻接节点的个数,f()函数是出现频数最高的值,lτk(t-1))为第t次迭代中第k个相邻节点的标签;
在上述标签迭代更新传播的过程中同时考虑边的影响力对节点标签传播的影响,具体计算公式如下:
步骤2.4.3:所有节点完成第t1次迭代之后,将t1次迭代后节点的标签与t1-1次迭代后节点的标签进行对比,若所有节点的t1次迭代的标签与t1-1次迭代的标签相等,则迭代终止,记迭代次数为t1;若存在节点t1次迭代的标签与t1-1次迭代的标签不相等,则表示迭代效果没有达到稳定,继续执行步骤2.4.2迭代第t1+1次。
5.根据权利要求1所述的一种基于社区的合作者推荐方法,其特征在于,所述步骤3中除去短文本中无用的信息,具体的操作为:根据处理后得到只包括摘要的短文本,去除停用词,数字,标点符号及频次少于3次的单词后进行统计并建立字典。
7.根据权利要求6所述的一种基于社区的合作者推荐方法,其特征在于,所述步骤3中根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型具体包括如下步骤:
步骤3.1:建立马尔科夫链的初始序列:对每篇短文本,随机为每个词对b,分配一个主题z,对所有作者的学术影响力进行归一化之后得到总权重值,根据每个作者的权重值比例分配作者,并将每篇短文本的时间分配给词对b;
步骤3.2:利用吉布斯采样算法,根据上一次词对bdε的条件分布概率得出马尔科夫链的下一状态,所述上一次词对bdε的条件分布概率计算方法为:
其中,zdε为短文本d中第ε个词对对应的主题,σdε为短文本d中第ε个词对对应的作者;表短文本d中除zdε之外的所有主题分布,bdε为短文本d中第ε个词对,表示短文本d中除bdε词对之外的所有词对;yd为短文本d的发表年份,为第σ个作者的短文本d中的词对bdε在yd年内被赋予主题z的次数;词对bdε中单词wi被分配给主题z的次数,词对bdε中单词wj被分配给主题z的次数,M为词汇表中词对的个数,nw|z是短文本d中某一单词w被分配给主题z的次数,是短文本d中某一单词w在yd年中分配给第σ个作者的次数,α,β,γ为狄利克雷参数;在此概率公式中|左侧的条件为当短文本d中第ε个词对应的主题为zdε时且短文本d中第ε个词对对应的作者为σdε时;|右侧的条件为条件1:在短文本d中除zdε之外的所有主题分布和在短文本d中除bdε词对之外的所有词对;条件2:当短文本d中第ε个词对为bdε时,条件3:在短文本d的发表年内,条件1~3为并的关系;
步骤3.3:将步骤3.2过程循环迭代ζ次计算,ζ的次数由具体的情况决定,获得马尔科夫链平稳分布,记下每个词对的主题的当前值,估算得到的θ,Φ,ψ,为作者随时间演化的兴趣模型;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811294216.8A CN109635183B (zh) | 2018-11-01 | 2018-11-01 | 一种基于社区的合作者推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811294216.8A CN109635183B (zh) | 2018-11-01 | 2018-11-01 | 一种基于社区的合作者推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635183A CN109635183A (zh) | 2019-04-16 |
CN109635183B true CN109635183B (zh) | 2021-09-21 |
Family
ID=66067115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811294216.8A Active CN109635183B (zh) | 2018-11-01 | 2018-11-01 | 一种基于社区的合作者推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635183B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674183A (zh) * | 2019-08-23 | 2020-01-10 | 上海科技发展有限公司 | 科研社群划分及核心学者发现方法、系统、介质及终端 |
CN111428056A (zh) * | 2020-04-26 | 2020-07-17 | 中国烟草总公司郑州烟草研究院 | 一种科研人员合作社区的构建方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495860A (zh) * | 2011-11-22 | 2012-06-13 | 北京大学 | 基于语言模型的专家推荐方法 |
CN105989077A (zh) * | 2015-02-09 | 2016-10-05 | 北京字节跳动科技有限公司 | 一种基于推荐的兴趣社区用户引导方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6681369B2 (en) * | 1999-05-05 | 2004-01-20 | Xerox Corporation | System for providing document change information for a community of users |
US8249915B2 (en) * | 2005-08-04 | 2012-08-21 | Iams Anthony L | Computer-implemented method and system for collaborative product evaluation |
-
2018
- 2018-11-01 CN CN201811294216.8A patent/CN109635183B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495860A (zh) * | 2011-11-22 | 2012-06-13 | 北京大学 | 基于语言模型的专家推荐方法 |
CN105989077A (zh) * | 2015-02-09 | 2016-10-05 | 北京字节跳动科技有限公司 | 一种基于推荐的兴趣社区用户引导方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109635183A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bliss et al. | An evolutionary algorithm approach to link prediction in dynamic social networks | |
Ren et al. | Predicting user-topic opinions in twitter with social and topical context | |
Alvari et al. | Community detection in dynamic social networks: A game-theoretic approach | |
Kanawati | Licod: Leaders identification for community detection in complex networks | |
Wang et al. | Maximizing the spread of influence via generalized degree discount | |
CN109635183B (zh) | 一种基于社区的合作者推荐方法 | |
Eswaran et al. | Higher-order label homogeneity and spreading in graphs | |
Karingula et al. | Boosted embeddings for time-series forecasting | |
CN110069726A (zh) | 一种适用于DBLP与arXiv的文献网络间锚链接关系预测方法 | |
Lu et al. | Predicting viral news events in online media | |
CN107515854B (zh) | 基于带权时序文本网络的时序社区以及话题的检测方法 | |
Wang et al. | Link prediction based on weighted synthetical influence of degree and H-index on complex networks | |
Purohit et al. | ITeM: Independent temporal motifs to summarize and compare temporal networks | |
He et al. | Positive opinion influential node set selection for social networks: considering both positive and negative relationships | |
Liu et al. | Characterising and modelling social networks with overlapping communities | |
CN110599358B (zh) | 一种基于概率因子图模型的跨社交网络用户身份关联方法 | |
Wang et al. | Representation learning for spatial graphs | |
Christiano Silva et al. | Network-based stochastic competitive learning approach to disambiguation in collaborative networks | |
Jora et al. | Evolutionary community detection in complex and dynamic networks | |
Munasinghe et al. | Multi-class link prediction in social networks | |
Wang et al. | Detection of social groups in class by affinity propagation | |
Kong et al. | Learning Large-scale Network Embedding from Representative Subgraph | |
Bozarth et al. | Social Movement Organizations in Online Movements | |
Peng et al. | Personalised recommendation algorithm of music resources based on category similarity | |
Wang et al. | Micro-Blog friend-recommendation based on topic analysis and circle found |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |