CN109145087B - 一种基于表示学习和竞争理论的学者推荐及合作预测方法 - Google Patents
一种基于表示学习和竞争理论的学者推荐及合作预测方法 Download PDFInfo
- Publication number
- CN109145087B CN109145087B CN201810853249.5A CN201810853249A CN109145087B CN 109145087 B CN109145087 B CN 109145087B CN 201810853249 A CN201810853249 A CN 201810853249A CN 109145087 B CN109145087 B CN 109145087B
- Authority
- CN
- China
- Prior art keywords
- similarity
- learner
- student
- scholars
- recommendation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000004364 calculation method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000003313 weakening effect Effects 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000012804 iterative process Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 150000001875 compounds Chemical class 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003501 co-culture Methods 0.000 description 7
- 230000003068 static effect Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于表示学习和竞争理论的学者推荐及合作预测方法,属于计算机软件领域。用庞大的学术网络来满足推荐的需求,通过表示学习技术对作者发表的论文以及学者间的网络关系进行分析,借助竞争理论解决时间冲突以获得推荐结果并进行合作预测。该方法从微软数据集获取有效数据并进行预处理,构建动态的基于论文内容的学者个性相似度计算模型,构建基于合作网络的学者环境相似度计算模型,构建竞争理论的处理模型,利用预处理的数据集对以上模型进行训练,根据训练获得的个性相似度产生初步的推荐列表,利用环境相似度削弱过于相似的源学者和目标学者,同时利用竞争理论的处理模型消除时间冲突,从而实现有效学者推荐和下一次合作对象预测。
Description
技术领域
本发明属于计算机软件领域,涉及一种基于表示学习和竞争理论的学者推荐及合作预测方法。
背景技术
跨越多领域的跨学科研究在过去几十年中快速增长,学者之间的科学合作变得越来越重要和必要。然而,从大的学术数据中找到最有价值的合作者往往是个极大的挑战。表示学习的目的是为网络中的每一个节点分配一个某个线性空间中的向量,也就是我们常说的N维向量,向量与向量之间的关系保留了原网络中对应的节点之间在结构上的关系。word2vec于2013年由Google发布,集成CBOW和Skip-Gram模型,提供了用于计算单词向量表示的高效实现,它将文本语料库作为输入并输出单词向量。在此基础上发展而来的Doc2vec是表示学习中有效的处理文本的方法,集成PV-DM和PV-DBOW模型,可以用于从不同长度的文本片段中获取固定长度的特征表示。Node2vec是2016年提出的用于网络中可伸缩特征学习的半监督算法,优化了一个自定义的基于图形的目标函数,返回的特征表示最大化保留d维特征空间中节点的网络邻域的可能性,并使用二阶随机游走方法为节点生成网络邻域。
梯度下降值更新技术是求解机器学习算法的模型参数,即无约束优化问题时最常用的方法之一。本发明中利用梯度下降迭代求解,得到趋于稳定的因子特征向量,该向量表示了各个因子在整体作用下影响力的权重。
传统上,学者合作推荐的核心是为学者创建静态的推荐列表,该推荐严重依赖于源学者与候选学者之间的相关性,这不利于新合作的建立。此外,推荐候选学者还不足以保证实现真正的合作。给出静态推荐列表会导致同一个候选人被同时推荐给多位学者。然而,由于时间的限制,这位候选人无法接受众多的合作者。所以传统的给出静态推荐列表的推荐方法已经不能满足学者们的需求。
合作预测是通过现有数据对未来合作的一个推测。目前大多数的预测方法都是基于学者的出版物来进行的,但是这不利于跨领域合作的建立。此外,对于下一次的合作对象的来源,既可能是加强旧合作的最有价值的推荐者(Most Valuable Recommenders,MVCs),也可能是建立新合作的最有潜力的推荐者(Most Potential Recommenders,MPCs)。合作网络中包含这两种来源,并且可以比基于出版物的预测方法给MPCs更多的机会,同时保证了预测对象之间较高的合作意向。因此结合合作网络和论文内容进行合作预测可以得到更高的准确性。
发明内容
本发明提供了一种基于表示学习和竞争理论的学者推荐及合作预测方法,解决传统静态推荐和单一来源合作预测导致的效果不佳的问题,实现了动态合作推荐和合作预测,保证了结果的准确性。
本发明的技术方案:
一种基于表示学习和竞争理论的学者推荐及合作预测方法,具体步骤如下:
步骤一、从微软数据集中获取有效数据并进行预处理,然后划分为训练集和测试集;
所述的有效数据包括:论文中的学者信息、标题信息、摘要信息、关键词信息和引用信息;
所述的预处理是:依据学者信息获取学者群体,过滤合作数低的学者,得到有效学者群体,建立有效学者群体的四个因子文件;利用有效学者群体的四个因子文件建立无向合作网络,获取每个学者的最邻近网络节点邻居;四个因子包括论文的标题、摘要、关键词和引用;
步骤二、构建动态的基于论文内容的学者个性相似度计算模型,具体过程为:
(1)利用doc2vec计算学者之间标题的相似度、摘要的相似度,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度;具体过程为:
利用doc2vec分别处理所有学者的标题、摘要,并过滤掉停用词,最终为每个学者生成一个128位的向量表示,并计算两两之间的余弦相似度以表征学者之间标题的相似度、摘要的相似度,计算公式均为:
其中,在计算标题相似度时,和分别为利用表示学习方法doc2vec处理学者i和学者j的标题获得的特征向量,在计算摘要相似度时,和分别为利用表示学习方法doc2vec处理学者i和学者j的摘要获得的特征向量;在计算标题相似度和摘要相似度两种情况中,以下符号代表的意义相同,和表示和为的第n位元素;
分别对每个学者的关键词信息和引用信息建立“带权集合”,集合中的每个元素为该学者论文中的四个因子之一,“带权”是指每个元素都有一个权值标记该因子出现的次数,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度,计算公式分别为:其中,keywi和keywj分别为学者i和学者j的所有论文关键词“带权集合”,refi和refj分别为学者i和学者j的所有论文引用“带权集合”,学者i和学者j的关键词交集为交集内元素的权值总和;
(2)以某学者与其他学者间四个因子上的相似度总和作为节点状态的初始值,具体过程为:计算学者i的最佳表现值作为节点状态的初始值,公式为:其中,valuei为学者的最佳表现值,为因子特征向量的第m位的初始值,t为因子个数,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用,为i、j两学者之间第m个因子上的相似度,是对步骤(1)得到的学者之间标题的相似度、摘要的相似度、关键词的相似度和引用的相似度的总称;所述的因子特征向量是一个四维向量,每个维度上的值代表了对应位置上的因子在整体作用中影响力的权重;k为测试集学者样本总数;
(3)根据步骤(1)计算的学者之间的相似度,利用梯度下降算法学习因子特征向量,同时不断更新处理节点的邻域节点的状态,以实现动态更新当前节点的状态值;具体过程为:在梯度下降算法中输入每个学者的四个因子,不断迭代直到因子特征向量的值趋于稳定,学者i的状态取决于其邻居节点状态值的最大值,当两次迭代学者状态的变化量小于阈值时,即停止迭代过程,在这个过程中学习所得的因子特征向量将作为最终的结果用于下一步计算,每次迭代过程更新因子特征向量和学者状态值的公式为:
其中,α为学习速率;为当前的学者状态值,初始值为0*k的矩阵,k为测试集学者样本总数;进入梯度下降算法的迭代过程前输入的为1维向量,数值上等于valuei,进入迭代过程后被不断更新;为对求偏导;为学者i的迭代更新后的状态值;为学者i迭代更新前的状态值;λ为自定义常量;为当前合作网络中学者邻居节点的状态值。
(4)利用学习得到的因子特征向量结合相似度计算每个学者的推荐度表征值,并生成初步的推荐列表;具体过程为:用学者i的最佳表现值与相似度综合表征值的和来表示学者i的推荐度,公式为:其中是梯度下降算法过程获得的的模;为梯度下降过程后获得的因子特征向量的第m位,为i、j两学者之间第m个因子上的相似度,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用;根据计算结果生成一个初步的推荐列表,每个学者的推荐列表长度都是k-1,k为测试集学者样本总数;
步骤三、构建基于合作网络的学者环境相似度计算模型,具体过程为:
(1)利用表示学习方法node2vec分析步骤一所建立的无向合作网络,获得每个学者节点的特征向量;
步骤四、构建合作预测模型,具体过程为:
(1)利用步骤二得到的基于论文内容的学者个性相似度和步骤三得到的基于合作网络的学者环境相似度组合起来,得到组合相似度;
(2)根据组合相似度对初步的推荐列表进行排序,为每个学者的候选人生成一个组合相似度从高到低的降序序列,得到每个学者的合作预测列表;
(3)把每个学者合作预测列表中组合相似度最大的学者作为合作预测对象;
步骤五、构建竞争理论的处理模型,具体过程为:
(1)利用基于论文内容的学者个性相似度对每个学者的候选人列表进行排序,获得合作推荐候选列表;
(2)利用步骤三得到的基于合作网络的学者环境相似度,对排序后的合作推荐候选列表进行竞争处理,保证每个学者只被推荐给最佳的合作者,从而消除时间冲突;具体过程为:对合作推荐候选列表中的目标学者Ae被推荐给学者A1,…,Ah,找到其中与Ae环境相似度最大的学者Ai,则标记一个成功匹配,重复这个过程直到每个学者都被成功标记一个目标学者,竞争的原理为:Compete(Ae|A1,...,Ah)=Ai,if envSimxei=max{envSimxe1,...,envSimxeh};其中Ae表示目标学者;A1,…,Ah表示合作推荐候选列表种有学者Ae的源学者,envSimxei表示学者Ae和学者Ai之间的环境相似度。
(3)最终为每个学者推荐一个不冲突的最佳合作者,即每个目标学者只推荐给一个源学者;
步骤六、利用步骤一预处理的数据集对以上模型进行训练,根据训练获得的个性相似度,产生合作推荐候选列表和合作预测列表;
步骤七、利用环境相似度削弱过于相似的源学者和目标学者,同时利用竞争理论的处理模型消除时间冲突,从而获得最终的推荐列表和下一次合作对象预测结果。
本发明的有益效果:本发明提出一种基于表示学习和竞争理论的学者推荐及合作预测方法,解决了学者推荐过程的动态演变,并将竞争理论引入推荐过程,将时间因素纳入影响因子范围,从而获得更准确、更合理的推荐结果;利用学术合作网络中学者之间的相似度削弱因论文内容相似度高而被推荐的过于相似的合作对象,更加有利于跨领域、跨学科的科研合作;在合作预测方面,我们综合学者的论文信息和合著关系来对未来可能产生的合作进行预测,具有更高的准确性。
附图说明
图1是基于表示学习和竞争理论的学者推荐及合作预测方法的流程图。
图2是基于表示学习和竞争理论的学者推荐及合作预测方法的过程示意图。
图3是数据处理过程中数据筛选的流程图。
图4是对不同大小测试集进行实验验证的结果对比图。
具体实施方式
下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。
如图1所示,本发明实施例公开了一种基于表示学习和竞争理论的学者推荐及合作预测方法,包括以下步骤:
步骤一、从微软数据集中获取有效数据并进行预处理,并划分为训练集和测试集;
预处理:依据学者信息获取学者群体,过滤合作数低的学者,得到有效学者群体,建立有效学者群体的四个因子文件;以标题因子文件为例,文件里的每条信息都是以python字典类型存储,学者姓名为键、学者论文的标题信息为值(学者参与发表多篇论文的情况下,标题信息为每篇论文的标题简单拼接,并以分号隔开);利用有效学者群体的合著关系建立无向合作网络(一篇论文的所有作者之间的关系为合著关系),具体为以单个学者为节点,每两个有合著关系的学者之间连一条边,利用该网络为每个学者获取10个最邻近网络节点邻居;
从微软数据集中获取以论文信息条为单元的数据文件,利用基于python的正则表达式对数据进行筛选,选出MachineLearning领域的文章,从中提取2005-2017年的数据,将2005-2014年的数据作为训练集,训练集共包含96891名学者,将2015-2017年的数据作为测试集,测试集包含5202名学者,并提取学者、标题、摘要、关键词和引用信息。数据筛选过程如图3所示,论文以数据条的形式存在于txt文件中,具体实施为:
(1)从文件中读取相应数据条,转化为python字典类型;
(2)python正则匹配“fos”键值是否包含“MachineLearning”,“是”则进入下一步,“否”则跳转到步骤(1)继续读下一个数据条;
(3)python正则匹配“year”是否满足“year>=2005and year<=2017”,“是”则进入下一步,“否”则跳转到步骤(1)继续读下一个数据条;
(4)检查学者、标题、摘要、关键词和引用信息是否完整,“是”则写入目标文件,“否”则返回步骤(1)继续读下一个数据条;
(5)判断当前是否为文件末尾,如“是”则结束数据处理过程,“否”则返回步骤一继续读下一个数据条。
步骤二、构建动态的基于论文内容的学者个性相似度计算模型和基于合作网络的学者环境相似度计算模型,具体包括以下步骤:
(1)构建动态的基于论文内容的学者个性相似度计算模型
(a)利用表示学习方法doc2vec分别处理所有学者的标题、摘要,并过滤掉一些停用词,“of”、“and”、“the”等,最终为每个学者生成一个128位的向量表示,并计算两两之间的余弦相似度以表征该因子上的相似度,计算公示为:其中,在计算标题相似度时,和分别为利用表示学习方法doc2vec处理学者i和学者j的标题获得的特征向量,在计算摘要相似度时,和分别为利用表示学习方法doc2vec处理学者i和学者j的摘要获得的特征向量;在计算标题相似度和摘要相似度两种情况中,以下符号代表的意义相同,和表示和为的第n位元素;分别对每个学者的关键词信息和引用信息建立“带权集合”,以某学者的关键词信息为例,集合中的每个元素为该学者论文中的关键词,“带权”是指每个元素都有一个权值标记该关键词出现的次数,利用重合率计算方法计算学者之间关键词、引用的相似度,计算公式为:其中keywi为学者i的所有论文关键词“带权集合”,refi为学者i的所有论文引用“带权集合”,以关键词处理为例,学者i和学者j的关键词交集为交集内元素的权值总和;
(b)以某学者与其他学者间四个因子上的相似度总和作为节点状态的初始值具体为:计算学者i的状态值,公式为:其中valuei为学者的最佳表现值,为特征向量的第m位 为i、j两学者之间第m个因子上的相似度;
(c)根据学者之间的相似度,利用梯度下降算法学习因子特征向量,同时不断更新处理节点的邻域节点的状态,以实现动态更新当前节点的状态值,具体为;在梯度下降算法中输入每个学者的四个因子,不断迭代直到因子特征向量的值趋于稳定,学者i的状态取决于其邻居节点状态值的最大值,设定一个阈值(10^-9),当两次迭代学者状态的变化量小于阈值时即停止迭代过程,在这个过程中学习所得的向量也将作为最终的结果用于下一步计算,每次迭代过程更新因子特征向量和学者状态值的公式为
其中,α为学习速率;为当前的学者状态值,初始值为0*k的矩阵,k为测试集内学者总数;进入梯度下降算法的迭代过程前输入的为1维向量,数值上等于valuei,进入迭代过程后被不断更新;为对求偏导;为学者i的迭代更新后的状态值;为学者i迭代更新前的状态值;λ为自定义常量;为当前合作网络中学者邻节点的状态值;
(d)利用学习得到的因子特征向量结合相似度计算每个学者的推荐度表征值,并生成初步的推荐列表,具体为:用学者i的状态表征值与相似度综合表征值的和来表示学者i的推荐度,公式为:其中是梯度下降算法过程获得的的模,为梯度下降过程学习所得的特征向量的第m位(且有),为i、j两学者之间第m个因子上的相似度,根据计算结果生成一个初步的推荐列表tempList,每个学者的推荐列表长度都是k-1,k(k=5202)为测试集学者样本总数。
(2)构建基于合作网络的学者环境相似度计算模型
根据论文的“authors”信息确定学者之间的合著关系(一篇论文的所有作者之间的关系为合著关系),并根据合著关系建立合作网络,具体为以单个学者为节点,每两个有合著关系的学者之间连一条边;利用表示学习方法node2vec为每个学者学习一个128位的特征向量,并通过计算两两之间的余弦值以表征学者之间网络位置上的相似度,余弦值计算公式为:其中,和分别为利用表示学习方法node2vec处理合作网络获得的学者i和学者j的向量表示,和表示和为第n位元素。
步骤三、竞争过程包括构建合作预测模型和构建竞争理论的处理模型具体包括如下步骤:
(1)建立合作预测模型具体为:
(a)将基于论文内容的学者个性相似度和基于合作网络的学者环境相似度组合起来,组合的公式为:Sim=perSim*0.6+envSim*0.4,其中Sim为组合相似度,perSim为个性相似度,数值上等于popi,计算公式为:其中是梯度下降算法过程获得的的模,为梯度下降过程学习所得的特征向量(实验结果)的第m(m=1,2,3,4)位,为i、j两学者之间第m个因子上的相似度,envSim为环境相似度计算公式为:
(b)根据组合相似度为对tempList进行排序,为每个学者的候选人生成一个组合相似度从高到低的降序序列;
(c)提取学者i合作预测列表中组合相似度最大的学者k作为合作预测对象。
(2)构建竞争理论的处理模型具体为:
(a)基于论文内容的学者个性相似度对每个学者的候选人列表进行排序获得的tempList;
(b)对tempList的每个学者进行竞争处理,保证每个学者只被推荐给最佳的合作者,对于目标学者Ae被推荐给学者A1,...,Ah,找到其中与Ae环境相似度最大的学者Ai,则标记一个成功匹配,重复这个过程直到每个学者都被成功标记一个目标学者,竞争的原理为:Compete(Ae|A1,...,Ah)=Ai,if envSimxei=max{envSimxe1,...,envSimxeh};其中Ae表示目标学者;A1,…,Ah表示合作推荐候选列表种有学者Ae的源学者,envSimxei表示学者Ae和学者Ai之间的环境相似度。
(c)对成功标记的学者组合Ae和Ai,获取学者Ae的10个与当前时间距离最近的10个合作者作为学者Ai的备选合作者。
利用以上模型对训练集数据进行训练,并通过测试集实验结果进行验证,将算法RCRec与经典随机游走算法RWR和基于共同邻居的推荐算法CNRec进行对比,获得和表1的结果,对不同大小测试集进行实验获得如图4的实验结果:
表1不同算法实验结果对比
算法RCRec在相同数据集上获得了优于RWR和CNRec的结果,在测试集大小为5202时准确度高于RWR0.03,高于CNRec0.038。由图4可知,在不同大小测试集下的实验,RCRec的结果普遍优于RWR和CNRec,且当测试集越大时,优势越明显。但随着测试集的不断增大,推荐结果的准确率变化逐渐平缓,最后稳定在一定范围内。
Claims (1)
1.一种基于表示学习和竞争理论的学者推荐及合作预测方法,其特征在于,具体步骤如下:
步骤一、从微软数据集中获取有效数据并进行预处理,然后划分为训练集和测试集;
所述的有效数据包括:论文中的学者信息、标题信息、摘要信息、关键词信息和引用信息;
所述的预处理是:依据学者信息获取学者群体,过滤合作数低的学者,得到有效学者群体,建立有效学者群体的四个因子文件;利用有效学者群体的四个因子文件建立无向合作网络,获取每个学者的最邻近网络节点邻居;四个因子包括论文的标题、摘要、关键词和引用;
步骤二、构建动态的基于论文内容的学者个性相似度计算模型,具体过程为:
(1)利用doc2vec计算学者之间标题的相似度、摘要的相似度,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度;具体过程为:
利用doc2vec分别处理所有学者的标题、摘要,并过滤掉停用词,最终为每个学者生成一个128位的向量表示,并计算两两之间的余弦相似度以表征学者之间标题的相似度、摘要的相似度,计算公式均为:
其中,在计算标题相似度时,和分别为利用表示学习方法doc2vec处理学者i和学者j的标题获得的特征向量,在计算摘要相似度时,和分别为利用表示学习方法doc2vec处理学者i和学者j的摘要获得的特征向量;在计算标题相似度和摘要相似度两种情况中,以下符号代表的意义相同,和表示和为的第n位元素;
分别对每个学者的关键词信息和引用信息建立“带权集合”,集合中的每个元素为该学者论文中的四个因子之一,“带权”是指每个元素都有一个权值标记该因子出现的次数,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度,计算公式分别为:其中,keywi和keywj分别为学者i和学者j的所有论文关键词“带权集合”,refi和refj分别为学者i和学者j的所有论文引用“带权集合”,学者i和学者j的关键词交集为交集内元素的权值总和;
(2)以某学者与其他学者间四个因子上的相似度总和作为节点状态的初始值,具体过程为:计算学者i的最佳表现值作为节点状态的初始值,公式为:其中,valuei为学者的最佳表现值,为因子特征向量的第m位的初始值,t为因子个数,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用,为i、j两学者之间第m个因子上的相似度,是对步骤(1)得到的学者之间标题的相似度、摘要的相似度、关键词的相似度和引用的相似度的总称;所述的因子特征向量是一个四维向量,每个维度上的值代表了对应位置上的因子在整体作用中影响力的权重;k为测试集学者样本总数;
(3)根据步骤(1)计算的学者之间的相似度,利用梯度下降算法学习因子特征向量,同时不断更新处理节点的邻域节点的状态,以实现动态更新当前节点的状态值;具体过程为:在梯度下降算法中输入每个学者的四个因子,不断迭代直到因子特征向量的值趋于稳定,学者i的状态取决于其邻居节点状态值的最大值,当两次迭代学者状态的变化量小于阈值时,即停止迭代过程,在这个过程中学习所得的因子特征向量将作为最终的结果用于下一步计算,每次迭代过程更新因子特征向量和学者状态值的公式为:
其中,α为学习速率;为当前的学者状态值,初始值为0*k的矩阵,k为测试集学者样本总数;进入梯度下降算法的迭代过程前输入的为1维向量,数值上等于valuei,进入迭代过程后被不断更新;为对求偏导;为学者i的迭代更新后的状态值;为学者i迭代更新前的状态值;λ为自定义常量;为当前合作网络中学者邻居节点的状态值;
(4)利用学习得到的因子特征向量结合相似度计算每个学者的推荐度表征值,并生成初步的推荐列表;具体过程为:用学者i的最佳表现值与相似度综合表征值的和来表示学者i的推荐度,公式为:其中是梯度下降算法过程获得的的模;为梯度下降过程后获得的因子特征向量的第m位,为i、j两学者之间第m个因子上的相似度,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用;根据计算结果生成一个初步的推荐列表,每个学者的推荐列表长度都是k-1,k为测试集学者样本总数;
步骤三、构建基于合作网络的学者环境相似度计算模型,具体过程为:
(1)利用表示学习方法node2vec分析步骤一所建立的无向合作网络,获得每个学者节点的特征向量;
步骤四、构建合作预测模型,具体过程为:
(1)利用步骤二得到的基于论文内容的学者个性相似度和步骤三得到的基于合作网络的学者环境相似度组合起来,得到组合相似度;
(2)根据组合相似度对初步的推荐列表进行排序,为每个学者的候选人生成一个组合相似度从高到低的降序序列,得到每个学者的合作预测列表;
(3)把每个学者合作预测列表中组合相似度最大的学者作为合作预测对象;
步骤五、构建竞争理论的处理模型,具体过程为:
(1)利用基于论文内容的学者个性相似度对每个学者的候选人列表进行排序,获得合作推荐候选列表;
(2)利用步骤三得到的基于合作网络的学者环境相似度,对排序后的合作推荐候选列表进行竞争处理,保证每个学者只被推荐给最佳的合作者,从而消除时间冲突;具体过程为:对合作推荐候选列表中的目标学者Ae被推荐给学者A1,…,Ah,找到其中与Ae环境相似度最大的学者Ai,则标记一个成功匹配,重复这个过程直到每个学者都被成功标记一个目标学者,竞争的原理为:Compete(Ae|A1,...,Ah)=Ai,if envSimxei=max{envSimxe1,...,envSimxeh};其中Ae表示目标学者;A1,…,Ah表示合作推荐候选列表种有学者Ae的源学者,envSimxei表示学者Ae和学者Ai之间的环境相似度;
(3)最终为每个学者推荐一个不冲突的最佳合作者,即每个目标学者只推荐给一个源学者;
步骤六、利用步骤一预处理的数据集对以上模型进行训练,根据训练获得的个性相似度,产生合作推荐候选列表和合作预测列表;
步骤七、利用环境相似度削弱过于相似的源学者和目标学者,同时利用竞争理论的处理模型消除时间冲突,从而获得最终的推荐列表和下一次合作对象预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810853249.5A CN109145087B (zh) | 2018-07-30 | 2018-07-30 | 一种基于表示学习和竞争理论的学者推荐及合作预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810853249.5A CN109145087B (zh) | 2018-07-30 | 2018-07-30 | 一种基于表示学习和竞争理论的学者推荐及合作预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145087A CN109145087A (zh) | 2019-01-04 |
CN109145087B true CN109145087B (zh) | 2020-12-11 |
Family
ID=64798912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810853249.5A Expired - Fee Related CN109145087B (zh) | 2018-07-30 | 2018-07-30 | 一种基于表示学习和竞争理论的学者推荐及合作预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145087B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191902A (zh) * | 2019-12-24 | 2020-05-22 | 中国科学技术大学 | 合作效果的分析与预测方法 |
CN111325390B (zh) * | 2020-02-17 | 2023-04-18 | 电子科技大学 | 一种基于兴趣演化的学者合作关系预测方法 |
CN113434706A (zh) * | 2020-03-23 | 2021-09-24 | 北京国双科技有限公司 | 学术合作关系分析方法及装置 |
CN111538917B (zh) * | 2020-04-20 | 2022-08-26 | 清华大学 | 学者迁徙路线构建方法及装置 |
CN111553583A (zh) * | 2020-04-24 | 2020-08-18 | 广东电网有限责任公司 | 一种审计任务的协同作业人员匹配方法和装置 |
CN111626517B (zh) * | 2020-05-29 | 2024-02-27 | 中国科学技术大学 | 一种公司竞争合作策略分析方法及系统 |
CN112069306B (zh) * | 2020-07-22 | 2022-09-09 | 中国科学院计算机网络信息中心 | 一种基于作者著作树和图神经网络的论文合作者推荐方法 |
CN112148776B (zh) * | 2020-09-29 | 2024-05-03 | 清华大学 | 基于引入语义信息的神经网络的学术关系预测方法和装置 |
CN112364151B (zh) * | 2020-10-26 | 2023-06-27 | 西北大学 | 一种基于图、引文和内容的论文混合推荐方法 |
CN112989199B (zh) * | 2021-03-30 | 2023-05-30 | 武汉大学 | 一种基于多维邻近属性网络的合作网络链路预测方法 |
CN114385927B (zh) * | 2022-01-04 | 2024-09-06 | 大连理工大学 | 一种基于多相似度融合的科研合作者推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573103A (zh) * | 2015-01-30 | 2015-04-29 | 福州大学 | 一种科技文献异构网络下合作作者推荐方法 |
CN106126732A (zh) * | 2016-07-04 | 2016-11-16 | 中南大学 | 基于兴趣相似模型的作者影响力传播能力预测方法 |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
CN106886571A (zh) * | 2017-01-18 | 2017-06-23 | 大连理工大学 | 一种基于社会网络分析的学术合作可持续性的预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246340A1 (en) * | 2010-04-02 | 2011-10-06 | Tracelink, Inc. | Method and system for collaborative execution of business processes |
-
2018
- 2018-07-30 CN CN201810853249.5A patent/CN109145087B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573103A (zh) * | 2015-01-30 | 2015-04-29 | 福州大学 | 一种科技文献异构网络下合作作者推荐方法 |
CN106126732A (zh) * | 2016-07-04 | 2016-11-16 | 中南大学 | 基于兴趣相似模型的作者影响力传播能力预测方法 |
CN106778894A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种学术异构信息网络中作者合作关系预测的方法 |
CN106886571A (zh) * | 2017-01-18 | 2017-06-23 | 大连理工大学 | 一种基于社会网络分析的学术合作可持续性的预测方法 |
Non-Patent Citations (3)
Title |
---|
How we collaborate: characterizing, modeling and predicting scientific collaborations;Xiaoling Sun等;《Springer》;20150501;第43-60页 * |
基于社会网络分析的学术合作关系研究;康文杰等;《计算机技术与发展》;20140531;第1-5页 * |
学术异构信息网络中的作者合作关系预测;张舒虹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315;第1-116页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109145087A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145087B (zh) | 一种基于表示学习和竞争理论的学者推荐及合作预测方法 | |
Shen et al. | A web-scale system for scientific knowledge exploration | |
Tang et al. | Multi-label patent categorization with non-local attention-based graph convolutional network | |
Zhang et al. | Aspect-based sentiment analysis for user reviews | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
US11537918B2 (en) | Systems and methods for document similarity matching | |
Foxcroft et al. | Name2vec: Personal names embeddings | |
Chandola et al. | Online resume parsing system using text analytics | |
CN116244497A (zh) | 一种基于异质数据嵌入的跨域论文推荐方法 | |
Mounika et al. | Design of book recommendation system using sentiment analysis | |
Ransing et al. | Screening and Ranking Resumes using Stacked Model | |
Botov et al. | Mining labor market requirements using distributional semantic models and deep learning | |
Gruppi et al. | Fake it till you make it: Self-supervised semantic shifts for monolingual word embedding tasks | |
Gourru et al. | Document network projection in pretrained word embedding space | |
Khan et al. | A Roman Urdu Corpus for sentiment analysis | |
Ibañez et al. | On applicability of neural language models for readability assessment in Filipino | |
Viswanathan et al. | Detection of duplicates in Quora and Twitter corpus | |
Qi et al. | Application of LDA and word2vec to detect English off-topic composition | |
Sun | Research on product attribute extraction and classification method for online review | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
Sasaki et al. | Extracting problem linkages to improve knowledge exchange between science and technology domains using an attention-based language model | |
Pawade et al. | Survey on Resume and Job Profile Matching System | |
CN113239203A (zh) | 一种基于知识图谱的筛选方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201211 |