CN109635183B

CN109635183B - 一种基于社区的合作者推荐方法

Info

Publication number: CN109635183B
Application number: CN201811294216.8A
Authority: CN
Inventors: 燕雪峰; 刘天琪; 孙维松
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2021-09-21
Anticipated expiration: 2038-11-01
Also published as: CN109635183A

Abstract

本发明公开了一种基于社区的合作者推荐方法，首先根据论文信息构建合作网络，在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播完成网络中作者社区划分；再利用作者权重值的占比与处理后的词对，建立马尔科夫链，根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型，根据社区划分结果与作者随时间演化的兴趣模型，找到合适的作者推荐给合作者。本发明降低了社区划分结果不稳定性，提升了社区划分结果模块度和标准互信息的精确度，本发明建立的随时间演化的兴趣模型具有强壮性和有效性的特点，最后利用随时间演化的兴趣模型计算KL距离降低了推荐算法的计算量，增加了准确率，召回率。

Description

一种基于社区的合作者推荐方法

技术领域

本发明属于社会网络分析技术领域，尤其涉及一种基于社区的合作者推荐方法。

背景技术

知识经济时代，知识已成为经济增长、社会发展以及组织成长的关键性资源，学习型组织对知识的依赖性逐渐增加。科研组织是知识经济时代知识创新的主体之一，科研合作对于知识创新的发展愈发重要。科研合作能够带来更好的知识共享，作者之间不仅能够将自身的知识、科研的经验和拥有的资源进行共享，还有可能为作者带来更多的灵感和突破，取得更大的科研成果。而科研合作面临一个重要的问题是科研人员找不到合适的合作对象。

半同步标签传播算法(Semi-synchronous Label PropagationAlgorithm,sLPA)一定程度上提升了社区划分的质量，但是在标签传播过程中，节点更新标签的选择随机导致算法的不稳定性甚至出现逆流现象，所以节点标签的选择是影响着社区划分结果的稳定和质量的重要因素。ATF(AuthorTopic-Flow)模型通过文章的摘要信息可以得到作者研究内容演化趋势，第一没有考虑文本长短的问题，针对文本集摘要信息的短文本特性，特征稀疏会导致效果不佳；第二将所有作者平等对待，会导致作者发的论文数量越多，能力越强，只考虑数量，却忽略了作者所发文章的质量。

发明内容

发明目的：为克服上述社区发现的随机性以及短文本特征稀疏，只考虑作者的论文的数量不考虑质量的问题，本发明提供了一种基于社区的合作者推荐方法。

技术方案：本发明提供了一种基于社区的合作者推荐方法，具体包括如下步骤：

步骤1：获取作者发表论文的数据，包括摘要，作者，时间；并对数据进行预处理，根据预处理的数据按照作者的合作关系，以每个节点代表作者，节点间的边代表两个作者存在合作关系，建立合作网络，如果该网络中两节点不是相连的表明作者之间没有合作；

步骤2：计算合作网络中相邻节点的n阶环，并通过负指数分布模型与n阶环的个数总和得到基于场所效应的边影响力，在半同步标签传播算法基础之上结合基于场所效应的边影响力决定标签的迭代更新传播；迭代更新传播停止后完成网络中作者社区划分；

步骤3：再次处理步骤1中预处理的数据得到只有摘要的短文本，去除短文本中无用的信息；根据作者学术影响力得到作者的权重值，并对短文本进行词对化处理，利用作者权重值的占比与处理后的词对建立马尔科夫链，根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型；

步骤4：根据步骤2得到的社区划分结果，得到合作者所在的社区和该社区内与合作者没有合作过的作者，根据步骤3得到的该社区内没有与合作者合作过的作者随时间演化的兴趣模型，并计算KL(Kullback–Leibler divergence，相对熵)距离，将KL由小到大排序，将排名前X位作者推荐给合作者，5≤X≤15。

进一步的，所述对数据预处理具体为：利用网络爬虫得到作者发表的论文数据，包括摘要，作者，时间；并去除引用次数为0的论文。

进一步的，所述步骤2具体包括如下步骤：

步骤2.1：对已知的网络图G，G＝{V，E}建立数据结构邻接表并存储，V为网络中节点集合，E为网络中边的集合，对网络图G中N_G个节点分别赋值唯一的标签l_V，l_V＝(0,1,2,…,N_G-1).id；对N_G个节点进行着色，相邻节点颜色不同，总共需要的颜色数目为ColorNum；所述N_G为图G的节点个数；

步骤2.2：根据三度影响力原则，考虑节点v₁的三度以内节点，从节点v₁出发，设节点v₁是待更新节点，计算经过节点v₁和节点u的环路能够构成的n阶环，以及n阶环的个数总和

n阶环的n表示环数；3≤n≤6；节点u是节点v₁的一个邻接点，u∈N(v₁)，N(v₁)为节点v₁的所有邻接节点的集合；

步骤2.3：根据三度影响力原则与n阶环的个数总和，得出基于场所效应的边影响力Inf(u,v₁)，具体计算方法如下：

其中，R为负指数分布模型，

其中

为系数；

在网络图中建立相关点a₁、a₂、a₃、a₄；

其中

是网络图G的平均度，E_G是网络图G的边的数量；

对a₁、a₂、a₃、a₄得到的散点图进行最小二乘法计算后得到的值为模型R的最优的值；

步骤2.4：在半同步更新的基础上结合基于场所效应的边影响力决定标签的迭代更新传播；

步骤2.5：迭代更新传播终止后，将相等的标签划分到同一个社区，标签种类的个数为网络中社区的个数。

进一步的，上述步骤2.4具体包括如下步骤：

步骤2.4.1：根据步骤2.1的节点着色情况，将颜色排序随机化，随机化后的颜色排序为每次迭代过程中颜色更新的顺序；

步骤2.4.2：每一轮迭代过程中不相邻的相同颜色的节点同步更新，相邻的不同颜色的节点异步更新；

其中同步更新的节点Q在t次迭代传播的过程中，它的标签l_Q(t)是由它的相邻节点τ在t-1次迭代后的标签决定；即：

l_Q(t)＝f(l_τ1(t-1),l_τ2(t-1),…,l_τk(t-1))

k是节点Q的邻接节点的个数，f()函数是出现频数最高的值，l_τk(t-1))为第t次迭代中第k个相邻节点的标签；

异步更新策略在标签迭代传播的过程中，在t次迭代更新节点Q₁的标签

时，根据相邻节点中t次迭代已经更新过的节点

的标签

和t次迭代还没有进行更新的节点ω的t-1次迭代时的标签共同决定，即：

其中m为节点

的个数，

为第t次迭代中第m个更新过的节点的标签，k₁为节点Q₁的邻接节点的总个数，节点ω的个数为m₁，m₁+m＝k₁，

次迭代中还没有更新的第m₁个节点的t-1次迭代时的标签；

在上述标签迭代更新传播的过程中同时考虑边的影响力对节点标签传播的影响，具体计算公式如下:

其中

为节点v₁的标签，l为相邻节点u所有标签的集合，l_u为相邻节点u的标签；

步骤2.4.3：所有节点完成第t₁次迭代之后，将t₁次迭代后节点的标签与t₁-1次迭代后节点的标签进行对比，若所有节点的t₁次迭代的标签与t₁-1次迭代的标签相等，则迭代终止，记迭代次数为t₁；若存在节点t₁次迭代的标签与t₁-1次迭代的标签不相等，则表示迭代效果没有达到稳定，继续执行步骤2.4.2迭代第t₁+1次。

进一步的，所述步骤3中除去短文本中无用的信息，具体的操作为：根据处理后得到只包括摘要的短文本，去除停用词，数字，标点符号及频次少于3次的单词后进行统计并建立字典；

进一步的，所述步骤3中根据作者学术影响力得到作者的权重值，具体方法为：利用作者过去

年时间内发表的论文数量p、论文被引用的次数c评估个人的科研成果，得到该作者学术影响力h，具体公式如下：

对学术影响力进行归一化，得到第σ个作者的权重值π_σ；

h_σ为第σ个作者的学术影响力；A为所有作者的个数；

进一步的，所述步骤3中根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型具体包括如下步骤：

步骤3.1：建立马尔科夫链的初始序列：对每篇短文本，随机为每个词对b，分配一个主题z，对所有作者的学术影响力进行归一化之后得到总权重值，根据每个作者的权重值比例分配作者，并将每篇短文本的时间分配给词对b；

步骤3.2：利用吉布斯采样算法，根据上一次词对b_dε的条件分布概率得出马尔科夫链的下一状态，所述上一次词对b_dε的条件分布概率计算方法为：

其中，z_dε为短文本d中第ε个词对对应的主题，σ_dε为短文本d中第ε个词对对应的作者；

表短文本d中除z_dε之外的所有主题分布，b_dε为短文本d中第ε个词对，

表示短文本d中除b_dε词对之外的所有词对；y_d为短文本d的发表年份，

为第σ个作者的短文本d中的词对b_dε在y_d年内被赋予主题z的次数；；

词对b_dε中单词w_i被分配给主题z的次数，

词对b_dε中单词w_j被分配给主题z的次数，M为词汇表中词对的个数，n_w|z是短文本d中某一单词w被分配给主题z的次数，

是短文本d中某一单词w在y_d年中分配给第σ个作者的次数，α,β,γ为狄利克雷参数；在此概率公式中|左侧的条件为当短文本d中第ε个词对应的主题为z_dε时且短文本d中第ε个词对对应的作者为σ_dε时；|右侧的条件为条件1：在短文本d中除z_dε之外的所有主题分布和在短文本d中除b_dε词对之外的所有词对；条件2：当短文本d中第ε个词对为b_dε时，条件3：在短文本d的发表年内，条件1～3为并的关系；

步骤3.3：将步骤3.2过程循环迭代ζ次计算，ζ的次数由具体的情况决定，获得马尔科夫链平稳分布，记下每个词对的主题的当前值，估算得到的θ,Φ,ψ，为作者随时间演化的兴趣模型；

其中Φ是主题-词分布；θ为作者时间-主题分布；ψ为作者-时间分布；n_zσ|y为第y年该第σ个作者所有短文本中词对b被赋予主题z的次数；n_σ|y是单词W₁在y年中分配给第σ个作者的次数；Y是过去

年的时间跨度的个数；y是

其中一个年度；T为主题个数。

有益效果：本发明的社区划分解决了全局拓扑结构的复杂性和只考虑局部节点的局限性的问题，同时在标签传播过程中降低了社区划分结果不稳定性，提升了社区划分结果模块度和标准互信息的精确度，本发明建立的随时间演化的兴趣模型具有强壮性和有效性的特点，最后利用随时间演化的兴趣模型计算KL距离降低了推荐算法的计算量，增加了准确率，召回率。

附图说明

图1为基于社区的合作者推荐方法的流程图；

图2为n阶环环路示意图；

图3为基于场所效应的半同步标签传播社区发现方法的流程图；

图4为基于学术影响力的短文本作者兴趣演化方法的文本生成；

具体实施方式

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

如图1所示，本发明提供了一种基于社区的合作者推荐方法，具体包括如下步骤：

步骤1：获取作者发表论文的数据，包括摘要，作者，时间；并对数据进行预处理，根据预处理的数据建立作者的合作网络；按照作者的合作关系，以每个节点代表作者，节点间的边代表两个作者存在合作关系，建立合作网络，如果两节点不是相连的表明作者之间没有合作。

步骤3：再次处理步骤1中预处理的数据得到只有摘要的短文本，去除短文本中无用的信息；并对短文本进行词对化处理，利用作者权重值的占比与处理后的词对建立马尔科夫链，根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型；

步骤4：根据步骤2得到的社区划分结果，得到合作者所在的社区和该社区内与合作者没有合作过的作者，根据步骤3得到的该社区内没有与合作者合作过的作者随时间演化的兴趣模型，并计算KL距离，将KL由小到大排序，将排名前X位作者推荐给合作者，5≤X≤15，本实施例取10。

所述步骤1具体为：利用网络爬虫得到作者发表的论文数据，包括摘要，作者，时间；并去除引用次数为0的论文。

如图2所示，所述步骤2具体包括如下步骤：

n阶环的n表示环数；3≤n≤6；节点u是节点v₁的一个邻接点，u∈N(v₁)，N(v₁)为节点v₁的所有邻接节点的集合，

图3为经过节点v₁和节点u能够构共同的n阶环，(a)表示以节点v₁为起点，以邻接节点u为环路的第二个点，存在能够包含v₁和u的三阶环，这个环中有两个一度影响力节点，(b)、(c)、(d)分别为四阶，五阶，六阶环，其中(d)中含有两个一度影响力节点，两个二度影响力节点以及一个三度影响力节点；对于每个节点v₁计算与它的每一个邻接节点u共同构成的n(3≤n≤6)阶环的个数。其中

表示v₁与u可以共同构成的三阶环的个数，同理

为四阶环的个数，

为五阶环的个数，

为六阶环的个数。

其中，R为负指数分布模型，

其中

为系数；

在网络图中建立相关点a₁、a₂、a₃、a₄；

其中

是网络图G的平均度，E_G是网络图G的边的数量；

步骤2.4：在半同步更新的基础上结合边影响力迭代更新传播标签；

步骤2.5：代更新传播终止后，将相等的标签划分到同一个社区，标签种类的个数为网络中社区的个数；

所述步骤2.4中的半同步更新具体包括如下步骤：

l_Q(t)＝f(l_τ1(t-1),l_τ2(t-1),…,l_τk(t-1))

时，根据相邻节点中t次迭代已经更新过的节点

的标签

其中m为节点

的个数，

次迭代中还没有更新的第m₁个节点的t-1次迭代时的标签；

其中

所述步骤3中除去短文本中无用的信息，具体的操作为，根据处理后只包括摘要的短文本，去除停用词，数字，标点符号及频次少于3次的单词后进行统计并建立字典；

所述步骤3中根据作者学术影响力得到作者的权重值，具体方法为：利用作者过去

对学术影响力进行归一化，得到第σ个作者的权重值π_σ。

h_σ为第σ个作者的学术影响力；A为所有作者的个数；

所述步骤3中对短文本进行词对化处理，即对摘要特征扩充，具体方法为词对b，b＝(w_i，w_j)的联合概率的计算公式为：

其中w_i为短文本中第i个单词，w_j为短文本中第j个单词w_j，z为主题，p(z)为主题概率，p(w_i|z)主题z分配给单词w_i的概率，p(w_j|z)主题z分配给单词w_j的概率，θ_z为A个作者时间主题的分布，Φ_i|z为主题-第i个单词的分布，Φ_j|z为主题-第j个单词的分布整个语料库的概率为：

其中S为整个语料库所有词对的集合；进行词对处理后就是词对的运算而不是单词的运算。

如图4所示，所述步骤3中根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型，具体包括如下步骤：

短文本中单词w_i被分配给主题z的次数，

短文本中单词w_j被分配给主题z的次数，M为词汇表中词对的个数，t_w|z是短文本d中某一单词w被分配给主题z的次数，

步骤3.3：将步骤3.2过程循环迭代ζ次计算，ζ的次数由具体的情况决定，本实施例中ζ取1000次，获得马尔科夫链平稳分布，记下每个词对的主题的当前值，估算得到的θ,Φ,ψ，为作者随时间演化的兴趣模型；

其中Φ是主题-词分布；θ为作者时间-主题分布；ψ为作者-时间分布；n_zσ|y为第y年该第σ个作者所有短文本中词对b被赋予主题z的次数；n_σ|y是单词w在y年中分配给第σ个作者的次数；Y是过去

年的时间跨度的个数；y是

其中一个年度；T为主题个数。本实施例中Y＝6；时间跨度

为{2012,2013,2014,2015,2016,2017}。

表1为图4参数说明；

表1

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

Claims

1.一种基于社区的合作者推荐方法，其特征在于，具体包括如下步骤：

步骤4：根据步骤2得到的社区划分结果，得到合作者所在的社区和该社区内与合作者没有合作过的作者，根据步骤3得到的该社区内没有与合作者合作过的作者随时间演化的兴趣模型，并计算KL距离，将KL由小到大排序，将排名前X位作者推荐给合作者，5≤X≤15。

2.根据权利要求1所述的一种基于社区的合作者推荐方法，其特征在于，所述对数据预处理具体为：利用网络爬虫得到作者发表的论文数据，包括摘要，作者，时间；并去除引用次数为0的论文。

3.根据权利要求1所述的一种基于社区的合作者推荐方法，其特征在于，所述步骤2具体包括如下步骤：

步骤2.1：对已知的网络图G，G＝{V，E}建立数据结构邻接表并存储，V为网络中节点集合，E为网络中边的集合，对网络图G中N_G个节点分别赋值唯一的标签l_V，l_V＝(0，1，2，...，N_G-1).id；对N_G个节点进行着色，相邻节点颜色不同，总共需要的颜色数目为ColorNum；所述N_G为图G的节点个数；

步骤2.3：根据三度影响力原则与n阶环的个数总和，得出基于场所效应的边影响力Inf(u，v₁)，具体计算方法如下：

其中，R为负指数分布模型，

其中

为系数；

在网络图中建立相关点a₁、a₂、a₃、a₄；

其中

是网络图G的平均度，E_G是网络图G的边的数量；

4.根据权利要求3所述的一种基于社区的合作者推荐方法，其特征在于，所述步骤2.4具体包括如下步骤：

l_Q(t)＝f(l_τ1(t-1)，l_τ2(t-1)，…，l_τk(t-1))

时，根据相邻节点中t次迭代已经更新过的节点

的标签

其中m为节点

的个数，

次迭代中还没有更新的第m₁个节点的t-1次迭代时的标签；

在上述标签迭代更新传播的过程中同时考虑边的影响力对节点标签传播的影响，具体计算公式如下：

其中

5.根据权利要求1所述的一种基于社区的合作者推荐方法，其特征在于，所述步骤3中除去短文本中无用的信息，具体的操作为：根据处理后得到只包括摘要的短文本，去除停用词，数字，标点符号及频次少于3次的单词后进行统计并建立字典。

6.根据权利要求1所述的一种基于社区的合作者推荐方法，其特征在于，所述步骤3中根据作者学术影响力得到作者的权重值，具体方法为：利用作者过去

对学术影响力进行归一化，得到第σ个作者的权重值π_σ；

h_σ为第σ个作者的学术影响力；A为所有作者的个数。

7.根据权利要求6所述的一种基于社区的合作者推荐方法，其特征在于，所述步骤3中根据吉布斯采样与马尔科夫链建立基于短文本作者的随时间演化的兴趣模型具体包括如下步骤：

为第σ个作者的短文本d中的词对b_dε在y_d年内被赋予主题z的次数；

词对b_dε中单词w_i被分配给主题z的次数，

是短文本d中某一单词w在y_d年中分配给第σ个作者的次数，α，β，γ为狄利克雷参数；在此概率公式中|左侧的条件为当短文本d中第ε个词对应的主题为z_dε时且短文本d中第ε个词对对应的作者为σ_dε时；|右侧的条件为条件1：在短文本d中除z_dε之外的所有主题分布和在短文本d中除b_dε词对之外的所有词对；条件2：当短文本d中第ε个词对为b_dε时，条件3：在短文本d的发表年内，条件1～3为并的关系；

步骤3.3：将步骤3.2过程循环迭代ζ次计算，ζ的次数由具体的情况决定，获得马尔科夫链平稳分布，记下每个词对的主题的当前值，估算得到的θ，Φ，ψ，为作者随时间演化的兴趣模型；

其中中是主题-词分布；θ为作者时间-主题分布；ψ为作者-时间分布；n_zσ|y为第y年该第σ个作者所有短文本中词对b被赋予主题z的次数；n_σ|y是单词W₁在y年中分配给第σ个作者的次数；Y是过去

年的时间跨度的个数；y是

其中一个年度；T为主题个数。