CN109145087B - 一种基于表示学习和竞争理论的学者推荐及合作预测方法 - Google Patents

一种基于表示学习和竞争理论的学者推荐及合作预测方法 Download PDF

Info

Publication number
CN109145087B
CN109145087B CN201810853249.5A CN201810853249A CN109145087B CN 109145087 B CN109145087 B CN 109145087B CN 201810853249 A CN201810853249 A CN 201810853249A CN 109145087 B CN109145087 B CN 109145087B
Authority
CN
China
Prior art keywords
similarity
learner
student
scholars
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810853249.5A
Other languages
English (en)
Other versions
CN109145087A (zh
Inventor
孔祥杰
闻琳燕
夏锋
张晨薇
刘晓钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810853249.5A priority Critical patent/CN109145087B/zh
Publication of CN109145087A publication Critical patent/CN109145087A/zh
Application granted granted Critical
Publication of CN109145087B publication Critical patent/CN109145087B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于表示学习和竞争理论的学者推荐及合作预测方法,属于计算机软件领域。用庞大的学术网络来满足推荐的需求,通过表示学习技术对作者发表的论文以及学者间的网络关系进行分析,借助竞争理论解决时间冲突以获得推荐结果并进行合作预测。该方法从微软数据集获取有效数据并进行预处理,构建动态的基于论文内容的学者个性相似度计算模型,构建基于合作网络的学者环境相似度计算模型,构建竞争理论的处理模型,利用预处理的数据集对以上模型进行训练,根据训练获得的个性相似度产生初步的推荐列表,利用环境相似度削弱过于相似的源学者和目标学者,同时利用竞争理论的处理模型消除时间冲突,从而实现有效学者推荐和下一次合作对象预测。

Description

一种基于表示学习和竞争理论的学者推荐及合作预测方法
技术领域
本发明属于计算机软件领域,涉及一种基于表示学习和竞争理论的学者推荐及合作预测方法。
背景技术
跨越多领域的跨学科研究在过去几十年中快速增长,学者之间的科学合作变得越来越重要和必要。然而,从大的学术数据中找到最有价值的合作者往往是个极大的挑战。表示学习的目的是为网络中的每一个节点分配一个某个线性空间中的向量,也就是我们常说的N维向量,向量与向量之间的关系保留了原网络中对应的节点之间在结构上的关系。word2vec于2013年由Google发布,集成CBOW和Skip-Gram模型,提供了用于计算单词向量表示的高效实现,它将文本语料库作为输入并输出单词向量。在此基础上发展而来的Doc2vec是表示学习中有效的处理文本的方法,集成PV-DM和PV-DBOW模型,可以用于从不同长度的文本片段中获取固定长度的特征表示。Node2vec是2016年提出的用于网络中可伸缩特征学习的半监督算法,优化了一个自定义的基于图形的目标函数,返回的特征表示最大化保留d维特征空间中节点的网络邻域的可能性,并使用二阶随机游走方法为节点生成网络邻域。
梯度下降值更新技术是求解机器学习算法的模型参数,即无约束优化问题时最常用的方法之一。本发明中利用梯度下降迭代求解,得到趋于稳定的因子特征向量,该向量表示了各个因子在整体作用下影响力的权重。
传统上,学者合作推荐的核心是为学者创建静态的推荐列表,该推荐严重依赖于源学者与候选学者之间的相关性,这不利于新合作的建立。此外,推荐候选学者还不足以保证实现真正的合作。给出静态推荐列表会导致同一个候选人被同时推荐给多位学者。然而,由于时间的限制,这位候选人无法接受众多的合作者。所以传统的给出静态推荐列表的推荐方法已经不能满足学者们的需求。
合作预测是通过现有数据对未来合作的一个推测。目前大多数的预测方法都是基于学者的出版物来进行的,但是这不利于跨领域合作的建立。此外,对于下一次的合作对象的来源,既可能是加强旧合作的最有价值的推荐者(Most Valuable Recommenders,MVCs),也可能是建立新合作的最有潜力的推荐者(Most Potential Recommenders,MPCs)。合作网络中包含这两种来源,并且可以比基于出版物的预测方法给MPCs更多的机会,同时保证了预测对象之间较高的合作意向。因此结合合作网络和论文内容进行合作预测可以得到更高的准确性。
发明内容
本发明提供了一种基于表示学习和竞争理论的学者推荐及合作预测方法,解决传统静态推荐和单一来源合作预测导致的效果不佳的问题,实现了动态合作推荐和合作预测,保证了结果的准确性。
本发明的技术方案:
一种基于表示学习和竞争理论的学者推荐及合作预测方法,具体步骤如下:
步骤一、从微软数据集中获取有效数据并进行预处理,然后划分为训练集和测试集;
所述的有效数据包括:论文中的学者信息、标题信息、摘要信息、关键词信息和引用信息;
所述的预处理是:依据学者信息获取学者群体,过滤合作数低的学者,得到有效学者群体,建立有效学者群体的四个因子文件;利用有效学者群体的四个因子文件建立无向合作网络,获取每个学者的最邻近网络节点邻居;四个因子包括论文的标题、摘要、关键词和引用;
步骤二、构建动态的基于论文内容的学者个性相似度计算模型,具体过程为:
(1)利用doc2vec计算学者之间标题的相似度、摘要的相似度,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度;具体过程为:
利用doc2vec分别处理所有学者的标题、摘要,并过滤掉停用词,最终为每个学者生成一个128位的向量表示,并计算两两之间的余弦相似度以表征学者之间标题的相似度、摘要的相似度,计算公式均为:
Figure BDA0001747921080000031
其中,在计算标题相似度时,
Figure BDA0001747921080000032
Figure BDA0001747921080000033
分别为利用表示学习方法doc2vec处理学者i和学者j的标题获得的特征向量,在计算摘要相似度时,
Figure BDA0001747921080000034
Figure BDA0001747921080000035
分别为利用表示学习方法doc2vec处理学者i和学者j的摘要获得的特征向量;在计算标题相似度和摘要相似度两种情况中,以下符号代表的意义相同,
Figure BDA0001747921080000036
Figure BDA0001747921080000037
表示
Figure BDA0001747921080000038
Figure BDA0001747921080000039
为的第n位元素;
分别对每个学者的关键词信息和引用信息建立“带权集合”,集合中的每个元素为该学者论文中的四个因子之一,“带权”是指每个元素都有一个权值标记该因子出现的次数,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度,计算公式分别为:
Figure BDA00017479210800000310
其中,keywi和keywj分别为学者i和学者j的所有论文关键词“带权集合”,refi和refj分别为学者i和学者j的所有论文引用“带权集合”,学者i和学者j的关键词交集为交集内元素的权值总和;
(2)以某学者与其他学者间四个因子上的相似度总和作为节点状态的初始值,具体过程为:计算学者i的最佳表现值作为节点状态的初始值,公式为:
Figure BDA00017479210800000311
其中,valuei为学者的最佳表现值,
Figure BDA00017479210800000312
为因子特征向量
Figure BDA00017479210800000313
的第m位的初始值,t为因子个数,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用,
Figure BDA00017479210800000314
为i、j两学者之间第m个因子上的相似度,是对步骤(1)得到的学者之间标题的相似度、摘要的相似度、关键词的相似度和引用的相似度的总称;所述的因子特征向量是一个四维向量,每个维度上的值代表了对应位置上的因子在整体作用中影响力的权重;k为测试集学者样本总数;
(3)根据步骤(1)计算的学者之间的相似度,利用梯度下降算法学习因子特征向量,同时不断更新处理节点的邻域节点的状态,以实现动态更新当前节点的状态值;具体过程为:在梯度下降算法中输入每个学者的四个因子,不断迭代直到因子特征向量
Figure BDA0001747921080000041
的值趋于稳定,学者i的状态取决于其邻居节点状态值的最大值,当两次迭代学者状态的变化量
Figure BDA0001747921080000042
小于阈值时,即停止迭代过程,在这个过程中学习所得的因子特征向量
Figure BDA0001747921080000043
将作为最终的结果用于下一步计算,每次迭代过程更新因子特征向量
Figure BDA0001747921080000044
和学者状态值的公式为:
Figure BDA0001747921080000045
Figure BDA0001747921080000046
其中,α为学习速率;
Figure BDA0001747921080000047
为当前的学者状态值,初始值为0*k的矩阵,k为测试集学者样本总数;进入梯度下降算法的迭代过程前输入的
Figure BDA0001747921080000048
为1维向量,数值上等于valuei,进入迭代过程后被不断更新;
Figure BDA0001747921080000049
Figure BDA00017479210800000410
Figure BDA00017479210800000411
求偏导;
Figure BDA00017479210800000412
为学者i的迭代更新后的状态值;
Figure BDA00017479210800000413
为学者i迭代更新前的状态值;λ为自定义常量;
Figure BDA00017479210800000414
为当前合作网络中学者邻居节点的状态值。
(4)利用学习得到的因子特征向量结合相似度计算每个学者的推荐度表征值,并生成初步的推荐列表;具体过程为:用学者i的最佳表现值与相似度综合表征值的和来表示学者i的推荐度,公式为:
Figure BDA00017479210800000415
其中
Figure BDA00017479210800000416
是梯度下降算法过程获得的
Figure BDA00017479210800000417
的模;
Figure BDA00017479210800000418
为梯度下降过程后获得的因子特征向量
Figure BDA00017479210800000419
的第m位,
Figure BDA00017479210800000420
为i、j两学者之间第m个因子上的相似度,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用;根据计算结果生成一个初步的推荐列表,每个学者的推荐列表长度都是k-1,k为测试集学者样本总数;
步骤三、构建基于合作网络的学者环境相似度计算模型,具体过程为:
(1)利用表示学习方法node2vec分析步骤一所建立的无向合作网络,获得每个学者节点的特征向量;
(2)利用特征向量余弦值计算方法计算学者之间在合作网络中的相似度;余弦值计算公式为:
Figure BDA0001747921080000051
其中
Figure BDA0001747921080000052
Figure BDA0001747921080000053
分别为利用表示学习方法node2vec处理合作网络获得的学者i和学者j的向量表示,
Figure BDA0001747921080000054
Figure BDA0001747921080000055
表示
Figure BDA0001747921080000056
Figure BDA0001747921080000057
为第n位元素;
步骤四、构建合作预测模型,具体过程为:
(1)利用步骤二得到的基于论文内容的学者个性相似度和步骤三得到的基于合作网络的学者环境相似度组合起来,得到组合相似度;
(2)根据组合相似度对初步的推荐列表进行排序,为每个学者的候选人生成一个组合相似度从高到低的降序序列,得到每个学者的合作预测列表;
(3)把每个学者合作预测列表中组合相似度最大的学者作为合作预测对象;
步骤五、构建竞争理论的处理模型,具体过程为:
(1)利用基于论文内容的学者个性相似度对每个学者的候选人列表进行排序,获得合作推荐候选列表;
(2)利用步骤三得到的基于合作网络的学者环境相似度,对排序后的合作推荐候选列表进行竞争处理,保证每个学者只被推荐给最佳的合作者,从而消除时间冲突;具体过程为:对合作推荐候选列表中的目标学者Ae被推荐给学者A1,…,Ah,找到其中与Ae环境相似度最大的学者Ai,则标记一个成功匹配,重复这个过程直到每个学者都被成功标记一个目标学者,竞争的原理为:Compete(Ae|A1,...,Ah)=Ai,if envSimxei=max{envSimxe1,...,envSimxeh};其中Ae表示目标学者;A1,…,Ah表示合作推荐候选列表种有学者Ae的源学者,envSimxei表示学者Ae和学者Ai之间的环境相似度。
(3)最终为每个学者推荐一个不冲突的最佳合作者,即每个目标学者只推荐给一个源学者;
步骤六、利用步骤一预处理的数据集对以上模型进行训练,根据训练获得的个性相似度,产生合作推荐候选列表和合作预测列表;
步骤七、利用环境相似度削弱过于相似的源学者和目标学者,同时利用竞争理论的处理模型消除时间冲突,从而获得最终的推荐列表和下一次合作对象预测结果。
本发明的有益效果:本发明提出一种基于表示学习和竞争理论的学者推荐及合作预测方法,解决了学者推荐过程的动态演变,并将竞争理论引入推荐过程,将时间因素纳入影响因子范围,从而获得更准确、更合理的推荐结果;利用学术合作网络中学者之间的相似度削弱因论文内容相似度高而被推荐的过于相似的合作对象,更加有利于跨领域、跨学科的科研合作;在合作预测方面,我们综合学者的论文信息和合著关系来对未来可能产生的合作进行预测,具有更高的准确性。
附图说明
图1是基于表示学习和竞争理论的学者推荐及合作预测方法的流程图。
图2是基于表示学习和竞争理论的学者推荐及合作预测方法的过程示意图。
图3是数据处理过程中数据筛选的流程图。
图4是对不同大小测试集进行实验验证的结果对比图。
具体实施方式
下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。
如图1所示,本发明实施例公开了一种基于表示学习和竞争理论的学者推荐及合作预测方法,包括以下步骤:
步骤一、从微软数据集中获取有效数据并进行预处理,并划分为训练集和测试集;
预处理:依据学者信息获取学者群体,过滤合作数低的学者,得到有效学者群体,建立有效学者群体的四个因子文件;以标题因子文件为例,文件里的每条信息都是以python字典类型存储,学者姓名为键、学者论文的标题信息为值(学者参与发表多篇论文的情况下,标题信息为每篇论文的标题简单拼接,并以分号隔开);利用有效学者群体的合著关系建立无向合作网络(一篇论文的所有作者之间的关系为合著关系),具体为以单个学者为节点,每两个有合著关系的学者之间连一条边,利用该网络为每个学者获取10个最邻近网络节点邻居;
从微软数据集中获取以论文信息条为单元的数据文件,利用基于python的正则表达式对数据进行筛选,选出MachineLearning领域的文章,从中提取2005-2017年的数据,将2005-2014年的数据作为训练集,训练集共包含96891名学者,将2015-2017年的数据作为测试集,测试集包含5202名学者,并提取学者、标题、摘要、关键词和引用信息。数据筛选过程如图3所示,论文以数据条的形式存在于txt文件中,具体实施为:
(1)从文件中读取相应数据条,转化为python字典类型;
(2)python正则匹配“fos”键值是否包含“MachineLearning”,“是”则进入下一步,“否”则跳转到步骤(1)继续读下一个数据条;
(3)python正则匹配“year”是否满足“year>=2005and year<=2017”,“是”则进入下一步,“否”则跳转到步骤(1)继续读下一个数据条;
(4)检查学者、标题、摘要、关键词和引用信息是否完整,“是”则写入目标文件,“否”则返回步骤(1)继续读下一个数据条;
(5)判断当前是否为文件末尾,如“是”则结束数据处理过程,“否”则返回步骤一继续读下一个数据条。
步骤二、构建动态的基于论文内容的学者个性相似度计算模型和基于合作网络的学者环境相似度计算模型,具体包括以下步骤:
(1)构建动态的基于论文内容的学者个性相似度计算模型
(a)利用表示学习方法doc2vec分别处理所有学者的标题、摘要,并过滤掉一些停用词,“of”、“and”、“the”等,最终为每个学者生成一个128位的向量表示,并计算两两之间的余弦相似度以表征该因子上的相似度,计算公示为:
Figure BDA0001747921080000081
其中,在计算标题相似度时,
Figure BDA0001747921080000082
Figure BDA0001747921080000083
分别为利用表示学习方法doc2vec处理学者i和学者j的标题获得的特征向量,在计算摘要相似度时,
Figure BDA0001747921080000084
Figure BDA0001747921080000085
分别为利用表示学习方法doc2vec处理学者i和学者j的摘要获得的特征向量;在计算标题相似度和摘要相似度两种情况中,以下符号代表的意义相同,
Figure BDA0001747921080000086
Figure BDA0001747921080000087
表示
Figure BDA0001747921080000088
Figure BDA0001747921080000089
为的第n位元素;分别对每个学者的关键词信息和引用信息建立“带权集合”,以某学者的关键词信息为例,集合中的每个元素为该学者论文中的关键词,“带权”是指每个元素都有一个权值标记该关键词出现的次数,利用重合率计算方法计算学者之间关键词、引用的相似度,计算公式为:
Figure BDA00017479210800000810
其中keywi为学者i的所有论文关键词“带权集合”,refi为学者i的所有论文引用“带权集合”,以关键词处理为例,学者i和学者j的关键词交集为交集内元素的权值总和;
(b)以某学者与其他学者间四个因子上的相似度总和作为节点状态的初始值具体为:计算学者i的状态值,公式为:
Figure BDA00017479210800000811
其中valuei为学者的最佳表现值,
Figure BDA00017479210800000812
为特征向量
Figure BDA00017479210800000813
的第m位
Figure BDA00017479210800000814
Figure BDA00017479210800000815
为i、j两学者之间第m个因子上的相似度;
(c)根据学者之间的相似度,利用梯度下降算法学习因子特征向量,同时不断更新处理节点的邻域节点的状态,以实现动态更新当前节点的状态值,具体为;在梯度下降算法中输入每个学者的四个因子,不断迭代直到因子特征向量
Figure BDA0001747921080000091
的值趋于稳定,学者i的状态取决于其邻居节点状态值的最大值,设定一个阈值(10^-9),当两次迭代学者状态的变化量
Figure BDA0001747921080000092
小于阈值时即停止迭代过程,在这个过程中学习所得的向量
Figure BDA0001747921080000093
也将作为最终的结果用于下一步计算,每次迭代过程更新因子特征向量
Figure BDA0001747921080000094
和学者状态值的公式为
Figure BDA0001747921080000095
Figure BDA0001747921080000096
其中,α为学习速率;
Figure BDA0001747921080000097
为当前的学者状态值,初始值为0*k的矩阵,k为测试集内学者总数;进入梯度下降算法的迭代过程前输入的
Figure BDA0001747921080000098
为1维向量,数值上等于valuei,进入迭代过程后被不断更新;
Figure BDA0001747921080000099
Figure BDA00017479210800000910
Figure BDA00017479210800000911
求偏导;
Figure BDA00017479210800000912
为学者i的迭代更新后的状态值;
Figure BDA00017479210800000913
为学者i迭代更新前的状态值;λ为自定义常量;
Figure BDA00017479210800000914
为当前合作网络中学者邻节点的状态值;
(d)利用学习得到的因子特征向量结合相似度计算每个学者的推荐度表征值,并生成初步的推荐列表,具体为:用学者i的状态表征值与相似度综合表征值的和来表示学者i的推荐度,公式为:
Figure BDA00017479210800000915
其中
Figure BDA00017479210800000916
是梯度下降算法过程获得的
Figure BDA00017479210800000917
的模,
Figure BDA00017479210800000918
为梯度下降过程学习所得的特征向量
Figure BDA00017479210800000919
的第m位(
Figure BDA00017479210800000920
且有
Figure BDA00017479210800000921
),
Figure BDA00017479210800000922
为i、j两学者之间第m个因子上的相似度,根据计算结果生成一个初步的推荐列表tempList,每个学者的推荐列表长度都是k-1,k(k=5202)为测试集学者样本总数。
(2)构建基于合作网络的学者环境相似度计算模型
根据论文的“authors”信息确定学者之间的合著关系(一篇论文的所有作者之间的关系为合著关系),并根据合著关系建立合作网络,具体为以单个学者为节点,每两个有合著关系的学者之间连一条边;利用表示学习方法node2vec为每个学者学习一个128位的特征向量,并通过计算两两之间的余弦值以表征学者之间网络位置上的相似度,余弦值计算公式为:
Figure BDA0001747921080000101
其中,
Figure BDA0001747921080000102
Figure BDA0001747921080000103
分别为利用表示学习方法node2vec处理合作网络获得的学者i和学者j的向量表示,
Figure BDA0001747921080000104
Figure BDA0001747921080000105
表示
Figure BDA0001747921080000106
Figure BDA0001747921080000107
为第n位元素。
步骤三、竞争过程包括构建合作预测模型和构建竞争理论的处理模型具体包括如下步骤:
(1)建立合作预测模型具体为:
(a)将基于论文内容的学者个性相似度和基于合作网络的学者环境相似度组合起来,组合的公式为:Sim=perSim*0.6+envSim*0.4,其中Sim为组合相似度,perSim为个性相似度,数值上等于popi,计算公式为:
Figure BDA0001747921080000108
其中
Figure BDA0001747921080000109
是梯度下降算法过程获得的
Figure BDA00017479210800001010
的模,
Figure BDA00017479210800001011
为梯度下降过程学习所得的特征向量
Figure BDA00017479210800001012
(实验结果
Figure BDA00017479210800001013
)的第m(m=1,2,3,4)位,
Figure BDA00017479210800001014
为i、j两学者之间第m个因子上的相似度,envSim为环境相似度计算公式为:
Figure BDA00017479210800001015
(b)根据组合相似度为对tempList进行排序,为每个学者的候选人生成一个组合相似度从高到低的降序序列;
(c)提取学者i合作预测列表中组合相似度最大的学者k作为合作预测对象。
(2)构建竞争理论的处理模型具体为:
(a)基于论文内容的学者个性相似度对每个学者的候选人列表进行排序获得的tempList;
(b)对tempList的每个学者进行竞争处理,保证每个学者只被推荐给最佳的合作者,对于目标学者Ae被推荐给学者A1,...,Ah,找到其中与Ae环境相似度最大的学者Ai,则标记一个成功匹配,重复这个过程直到每个学者都被成功标记一个目标学者,竞争的原理为:Compete(Ae|A1,...,Ah)=Ai,if envSimxei=max{envSimxe1,...,envSimxeh};其中Ae表示目标学者;A1,…,Ah表示合作推荐候选列表种有学者Ae的源学者,envSimxei表示学者Ae和学者Ai之间的环境相似度。
(c)对成功标记的学者组合Ae和Ai,获取学者Ae的10个与当前时间距离最近的10个合作者作为学者Ai的备选合作者。
利用以上模型对训练集数据进行训练,并通过测试集实验结果进行验证,将算法RCRec与经典随机游走算法RWR和基于共同邻居的推荐算法CNRec进行对比,获得和表1的结果,对不同大小测试集进行实验获得如图4的实验结果:
表1不同算法实验结果对比
Figure BDA0001747921080000111
算法RCRec在相同数据集上获得了优于RWR和CNRec的结果,在测试集大小为5202时准确度高于RWR0.03,高于CNRec0.038。由图4可知,在不同大小测试集下的实验,RCRec的结果普遍优于RWR和CNRec,且当测试集越大时,优势越明显。但随着测试集的不断增大,推荐结果的准确率变化逐渐平缓,最后稳定在一定范围内。

Claims (1)

1.一种基于表示学习和竞争理论的学者推荐及合作预测方法,其特征在于,具体步骤如下:
步骤一、从微软数据集中获取有效数据并进行预处理,然后划分为训练集和测试集;
所述的有效数据包括:论文中的学者信息、标题信息、摘要信息、关键词信息和引用信息;
所述的预处理是:依据学者信息获取学者群体,过滤合作数低的学者,得到有效学者群体,建立有效学者群体的四个因子文件;利用有效学者群体的四个因子文件建立无向合作网络,获取每个学者的最邻近网络节点邻居;四个因子包括论文的标题、摘要、关键词和引用;
步骤二、构建动态的基于论文内容的学者个性相似度计算模型,具体过程为:
(1)利用doc2vec计算学者之间标题的相似度、摘要的相似度,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度;具体过程为:
利用doc2vec分别处理所有学者的标题、摘要,并过滤掉停用词,最终为每个学者生成一个128位的向量表示,并计算两两之间的余弦相似度以表征学者之间标题的相似度、摘要的相似度,计算公式均为:
Figure FDA0001747921070000011
其中,在计算标题相似度时,
Figure FDA0001747921070000012
Figure FDA0001747921070000013
分别为利用表示学习方法doc2vec处理学者i和学者j的标题获得的特征向量,在计算摘要相似度时,
Figure FDA0001747921070000014
Figure FDA0001747921070000015
分别为利用表示学习方法doc2vec处理学者i和学者j的摘要获得的特征向量;在计算标题相似度和摘要相似度两种情况中,以下符号代表的意义相同,
Figure FDA0001747921070000016
Figure FDA0001747921070000017
表示
Figure FDA0001747921070000018
Figure FDA0001747921070000019
为的第n位元素;
分别对每个学者的关键词信息和引用信息建立“带权集合”,集合中的每个元素为该学者论文中的四个因子之一,“带权”是指每个元素都有一个权值标记该因子出现的次数,利用重合率计算方法计算学者之间关键词的相似度、引用的相似度,计算公式分别为:
Figure FDA0001747921070000021
其中,keywi和keywj分别为学者i和学者j的所有论文关键词“带权集合”,refi和refj分别为学者i和学者j的所有论文引用“带权集合”,学者i和学者j的关键词交集为交集内元素的权值总和;
(2)以某学者与其他学者间四个因子上的相似度总和作为节点状态的初始值,具体过程为:计算学者i的最佳表现值作为节点状态的初始值,公式为:
Figure FDA0001747921070000022
其中,valuei为学者的最佳表现值,
Figure FDA0001747921070000023
为因子特征向量
Figure FDA0001747921070000024
的第m位的初始值,t为因子个数,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用,
Figure FDA0001747921070000025
为i、j两学者之间第m个因子上的相似度,是对步骤(1)得到的学者之间标题的相似度、摘要的相似度、关键词的相似度和引用的相似度的总称;所述的因子特征向量是一个四维向量,每个维度上的值代表了对应位置上的因子在整体作用中影响力的权重;k为测试集学者样本总数;
(3)根据步骤(1)计算的学者之间的相似度,利用梯度下降算法学习因子特征向量,同时不断更新处理节点的邻域节点的状态,以实现动态更新当前节点的状态值;具体过程为:在梯度下降算法中输入每个学者的四个因子,不断迭代直到因子特征向量
Figure FDA0001747921070000026
的值趋于稳定,学者i的状态取决于其邻居节点状态值的最大值,当两次迭代学者状态的变化量
Figure FDA0001747921070000027
小于阈值时,即停止迭代过程,在这个过程中学习所得的因子特征向量
Figure FDA0001747921070000028
将作为最终的结果用于下一步计算,每次迭代过程更新因子特征向量
Figure FDA0001747921070000029
和学者状态值的公式为:
Figure FDA00017479210700000210
Figure FDA0001747921070000031
其中,α为学习速率;
Figure FDA0001747921070000032
为当前的学者状态值,初始值为0*k的矩阵,k为测试集学者样本总数;进入梯度下降算法的迭代过程前输入的
Figure FDA0001747921070000033
为1维向量,数值上等于valuei,进入迭代过程后被不断更新;
Figure FDA0001747921070000034
Figure FDA0001747921070000035
Figure FDA0001747921070000036
求偏导;
Figure FDA0001747921070000037
为学者i的迭代更新后的状态值;
Figure FDA0001747921070000038
为学者i迭代更新前的状态值;λ为自定义常量;
Figure FDA0001747921070000039
为当前合作网络中学者邻居节点的状态值;
(4)利用学习得到的因子特征向量结合相似度计算每个学者的推荐度表征值,并生成初步的推荐列表;具体过程为:用学者i的最佳表现值与相似度综合表征值的和来表示学者i的推荐度,公式为:
Figure FDA00017479210700000310
其中
Figure FDA00017479210700000311
是梯度下降算法过程获得的
Figure FDA00017479210700000312
的模;
Figure FDA00017479210700000313
为梯度下降过程后获得的因子特征向量
Figure FDA00017479210700000314
的第m位,
Figure FDA00017479210700000315
为i、j两学者之间第m个因子上的相似度,m=1、2、3、4分别代表因子为标题、摘要、关键词、引用;根据计算结果生成一个初步的推荐列表,每个学者的推荐列表长度都是k-1,k为测试集学者样本总数;
步骤三、构建基于合作网络的学者环境相似度计算模型,具体过程为:
(1)利用表示学习方法node2vec分析步骤一所建立的无向合作网络,获得每个学者节点的特征向量;
(2)利用特征向量余弦值计算方法计算学者之间在合作网络中的相似度;余弦值计算公式为:
Figure FDA00017479210700000316
其中
Figure FDA00017479210700000317
Figure FDA00017479210700000318
分别为利用表示学习方法node2vec处理合作网络获得的学者i和学者j的向量表示,
Figure FDA00017479210700000319
Figure FDA00017479210700000320
表示
Figure FDA00017479210700000321
Figure FDA00017479210700000322
为第n位元素;
步骤四、构建合作预测模型,具体过程为:
(1)利用步骤二得到的基于论文内容的学者个性相似度和步骤三得到的基于合作网络的学者环境相似度组合起来,得到组合相似度;
(2)根据组合相似度对初步的推荐列表进行排序,为每个学者的候选人生成一个组合相似度从高到低的降序序列,得到每个学者的合作预测列表;
(3)把每个学者合作预测列表中组合相似度最大的学者作为合作预测对象;
步骤五、构建竞争理论的处理模型,具体过程为:
(1)利用基于论文内容的学者个性相似度对每个学者的候选人列表进行排序,获得合作推荐候选列表;
(2)利用步骤三得到的基于合作网络的学者环境相似度,对排序后的合作推荐候选列表进行竞争处理,保证每个学者只被推荐给最佳的合作者,从而消除时间冲突;具体过程为:对合作推荐候选列表中的目标学者Ae被推荐给学者A1,…,Ah,找到其中与Ae环境相似度最大的学者Ai,则标记一个成功匹配,重复这个过程直到每个学者都被成功标记一个目标学者,竞争的原理为:Compete(Ae|A1,...,Ah)=Ai,if envSimxei=max{envSimxe1,...,envSimxeh};其中Ae表示目标学者;A1,…,Ah表示合作推荐候选列表种有学者Ae的源学者,envSimxei表示学者Ae和学者Ai之间的环境相似度;
(3)最终为每个学者推荐一个不冲突的最佳合作者,即每个目标学者只推荐给一个源学者;
步骤六、利用步骤一预处理的数据集对以上模型进行训练,根据训练获得的个性相似度,产生合作推荐候选列表和合作预测列表;
步骤七、利用环境相似度削弱过于相似的源学者和目标学者,同时利用竞争理论的处理模型消除时间冲突,从而获得最终的推荐列表和下一次合作对象预测结果。
CN201810853249.5A 2018-07-30 2018-07-30 一种基于表示学习和竞争理论的学者推荐及合作预测方法 Expired - Fee Related CN109145087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810853249.5A CN109145087B (zh) 2018-07-30 2018-07-30 一种基于表示学习和竞争理论的学者推荐及合作预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810853249.5A CN109145087B (zh) 2018-07-30 2018-07-30 一种基于表示学习和竞争理论的学者推荐及合作预测方法

Publications (2)

Publication Number Publication Date
CN109145087A CN109145087A (zh) 2019-01-04
CN109145087B true CN109145087B (zh) 2020-12-11

Family

ID=64798912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810853249.5A Expired - Fee Related CN109145087B (zh) 2018-07-30 2018-07-30 一种基于表示学习和竞争理论的学者推荐及合作预测方法

Country Status (1)

Country Link
CN (1) CN109145087B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191902A (zh) * 2019-12-24 2020-05-22 中国科学技术大学 合作效果的分析与预测方法
CN111325390B (zh) * 2020-02-17 2023-04-18 电子科技大学 一种基于兴趣演化的学者合作关系预测方法
CN113434706A (zh) * 2020-03-23 2021-09-24 北京国双科技有限公司 学术合作关系分析方法及装置
CN111538917B (zh) * 2020-04-20 2022-08-26 清华大学 学者迁徙路线构建方法及装置
CN111553583A (zh) * 2020-04-24 2020-08-18 广东电网有限责任公司 一种审计任务的协同作业人员匹配方法和装置
CN111626517B (zh) * 2020-05-29 2024-02-27 中国科学技术大学 一种公司竞争合作策略分析方法及系统
CN112069306B (zh) * 2020-07-22 2022-09-09 中国科学院计算机网络信息中心 一种基于作者著作树和图神经网络的论文合作者推荐方法
CN112148776B (zh) * 2020-09-29 2024-05-03 清华大学 基于引入语义信息的神经网络的学术关系预测方法和装置
CN112364151B (zh) * 2020-10-26 2023-06-27 西北大学 一种基于图、引文和内容的论文混合推荐方法
CN112989199B (zh) * 2021-03-30 2023-05-30 武汉大学 一种基于多维邻近属性网络的合作网络链路预测方法
CN114385927B (zh) * 2022-01-04 2024-09-06 大连理工大学 一种基于多相似度融合的科研合作者推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573103A (zh) * 2015-01-30 2015-04-29 福州大学 一种科技文献异构网络下合作作者推荐方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
CN106886571A (zh) * 2017-01-18 2017-06-23 大连理工大学 一种基于社会网络分析的学术合作可持续性的预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246340A1 (en) * 2010-04-02 2011-10-06 Tracelink, Inc. Method and system for collaborative execution of business processes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573103A (zh) * 2015-01-30 2015-04-29 福州大学 一种科技文献异构网络下合作作者推荐方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
CN106886571A (zh) * 2017-01-18 2017-06-23 大连理工大学 一种基于社会网络分析的学术合作可持续性的预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
How we collaborate: characterizing, modeling and predicting scientific collaborations;Xiaoling Sun等;《Springer》;20150501;第43-60页 *
基于社会网络分析的学术合作关系研究;康文杰等;《计算机技术与发展》;20140531;第1-5页 *
学术异构信息网络中的作者合作关系预测;张舒虹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315;第1-116页 *

Also Published As

Publication number Publication date
CN109145087A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145087B (zh) 一种基于表示学习和竞争理论的学者推荐及合作预测方法
Shen et al. A web-scale system for scientific knowledge exploration
Tang et al. Multi-label patent categorization with non-local attention-based graph convolutional network
Zhang et al. Aspect-based sentiment analysis for user reviews
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
US11537918B2 (en) Systems and methods for document similarity matching
Foxcroft et al. Name2vec: Personal names embeddings
Chandola et al. Online resume parsing system using text analytics
CN116244497A (zh) 一种基于异质数据嵌入的跨域论文推荐方法
Mounika et al. Design of book recommendation system using sentiment analysis
Ransing et al. Screening and Ranking Resumes using Stacked Model
Botov et al. Mining labor market requirements using distributional semantic models and deep learning
Gruppi et al. Fake it till you make it: Self-supervised semantic shifts for monolingual word embedding tasks
Gourru et al. Document network projection in pretrained word embedding space
Khan et al. A Roman Urdu Corpus for sentiment analysis
Ibañez et al. On applicability of neural language models for readability assessment in Filipino
Viswanathan et al. Detection of duplicates in Quora and Twitter corpus
Qi et al. Application of LDA and word2vec to detect English off-topic composition
Sun Research on product attribute extraction and classification method for online review
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
Sasaki et al. Extracting problem linkages to improve knowledge exchange between science and technology domains using an attention-based language model
Pawade et al. Survey on Resume and Job Profile Matching System
CN113239203A (zh) 一种基于知识图谱的筛选方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201211