CN108763354A - 一种个性化的学术文献推荐方法 - Google Patents

一种个性化的学术文献推荐方法 Download PDF

Info

Publication number
CN108763354A
CN108763354A CN201810467316.XA CN201810467316A CN108763354A CN 108763354 A CN108763354 A CN 108763354A CN 201810467316 A CN201810467316 A CN 201810467316A CN 108763354 A CN108763354 A CN 108763354A
Authority
CN
China
Prior art keywords
paper
author
feature
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810467316.XA
Other languages
English (en)
Other versions
CN108763354B (zh
Inventor
梅建萍
陈德仿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810467316.XA priority Critical patent/CN108763354B/zh
Publication of CN108763354A publication Critical patent/CN108763354A/zh
Application granted granted Critical
Publication of CN108763354B publication Critical patent/CN108763354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种个性化的学术文献推荐方法,包括以下步骤:S1数据收集与清洗:收集以论文和作者为核心的论文数据,所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献,清洗掉有明显的格式错误、数据缺失的数据;S2模型建立,过程如下:S2.1构造训练集;S2.2特征计算;S3模型训练;S4学术文献推荐,过程如下:S4.1建立备选文献集,要求每步选取的被引用的论文发表时间早于该论文的发表时间;S4.2预测,取可能性值前k′大的论文作为最后进行推荐的参考文献。本发明能够更加准确高效地生成符合用户需求的参考文献列表。

Description

一种个性化的学术文献推荐方法
技术领域
本发明涉及机器学习和数据挖掘领域,更进一步为考虑用户偏好的参考文献推荐方法。
背景技术
查找相关并且重要的参考文献是科研人员了解其所在领域最前沿的研究成果、获取最新研究动态和发展方向的重要途径。
如今科研人员仍旧通过在搜索引擎如Google Scholar或者某一特定的数据库如Web of Knowledge中通过给定主题、关键词等方法来手动挑选可能与自己当前研究领域相关的论文。而近几年所发表的学术文献数量的快速增长,加之电子出版物和开放数据库的流行,一方面更加凸显出目前这种手动挑选的方法耗时长、准确率低、操作过程机械化等不足,另一方面大量学术数据的存在也使得运用数据挖掘等各种数据驱动的方法来自动生成参考文献列表成为可能。
现有的文献检索和推荐方法往往功能不够完善,不能产生令人满意的个性化推荐效果,同时,也存在着冷启动的问题,无法为缺乏足够信息的用户提供有效的推荐。
发明内容
为了提高研究人员检索相关参考文献的效率,并综合考虑每个用户独特的挑选偏好,本发明提出了一种基于监督式的个性化机器学习的推荐方法,针对不同用户各自挑选参考文献的偏好进行学习和建模,并提出了一种结合近邻信息的方法来解决冷启动的问题,从而能够更加准确高效地生成符合用户需求的参考文献列表。
本发明解决其技术问题所采用的技术方案是:
一种个性化的学术文献推荐方法,所述方法包括以下步骤:
S1数据收集与清洗
收集以论文和作者为核心的论文数据,所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献,清洗掉有明显的格式错误、数据缺失的数据;
其中,定义需要进行文献推荐的作者为目标用户,定义该用户过去发表的论文数据为该用户的历史信息,定义当用户在使用推荐方法时,提供的若干篇初始参考文献的论文数据为初始信息;
S2模型建立,过程如下:
S2.1构造训练集,过程如下:
S2.1.1从步骤S1中收集到的论文数据提取目标用户u的历史信息,根据论文引用关系构成以论文对为对象的集合,即:Pu={xu},每个对象表示用户u发表的论文引用了作者v发表的论文记所有的引用关系个数为nu,涉及的论文篇数为mu
S2.1.2每次从Pu中的mu篇论文中随机选取两篇无引用关系的论文,共构成nu′个无引用关系的论文对,即:Nu={xu},表示作者u发表的论文未引用作者w发表的论文且需满足的发表年份晚于在具体实施过程中,nu′=knu,k取1到10;
S2.2特征计算
特征计算考虑论文的第一作者,若要考虑论文的所有作者,则认为u和v表示相应论文的所有作者,并首先对所有作者的相应特征值取算术平均数,
再进行以上的两篇论文之间特征的求差运算;
对Pu和Nu中的每个论文对进行特征表示;
S3模型训练
将步骤S2.1中构建的数据集Pu和Nu合并,其中Pu中的对象标签记为1,Nu中的对象标签记为0,使用步骤S2.2中的方法计算合并后的nu+nu′个论文对的特征向量,并对数据进行以下归一化,即对于每个特征f,首先计算该特征的最大值max和最小值min,然后将该特征的所有值均按照如下公式进行变换:
对得到数据采用带有L2正则项的逻辑斯蒂回归来训练引用预测模型,从而得到相应作者u的偏好模型;
S4学术文献推荐,过程如下:
S4.1建立备选文献集,要求每步选取的被引用的论文发表时间早于该论文的发表时间,过程如下:
步骤4.1.1记给定论文px的参考文献为R={r1,r2,…rn},初始化备选文献集C=R;
步骤4.1.2对i从1到n,逐个考虑R中每篇论文的参考文献Ti,计算Ti中未包
含于C的子集Ri ,即R′i=C-Ti,若R′i不为空,则把它合并到备选文献集使得C=C∪R i;
步骤4.1.3更新R=R 1∪…∪R′n
步骤4.1.4:重复步骤4.1.2直到R为空,再无新的参考文献可以加入备选文献集。
步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇,则再挑选出M-|C|篇与px主题相似的论文加入备选集;
S4.2预测,过程如下:
S4.2.1给定目标用户u输入的论文若数据库中存在该作者的历史数据以及具有足够的初始信息,即初始参考文献数目大于m,,则按照S4.1生成的备选文献集C,并将和C中的每篇论文ci构成a个论文对计算每个论文对的特征向量,特征计算如S2.2,然后执行S4.2.2,否则再重新执行S4.2.1;S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文的作者相应的训练好的模型,得到a个输出,即预测到的引用每篇论文ci的可能性的值。对这a个输出值降序排序,取可能性值前k′大的论文作为最后进行推荐的参考文献。
进一步,所述步骤2.2中,选定计算如下20个特征值,并把Pu和Nu中的每个对象表示为20维的向量,如下:
特征1:作者u和作者v的发表论文数目之差;
特征2:作者u和作者v的总被引量之差;
特征3:作者u和作者v的H指数之差;
其中,H指数是指科研人员至多有H篇论文分别被引用了至少H次,H指数是一个混合量化指标,可用于评估研究人员的学术产出数量与学术产出水平;
特征4:作者u和作者v的P指数混合均衡A指数之差;
特征5:作者u和作者v的P指数混合非均衡A指数之差;
其中,A指数描述了论文中不同作者的贡献程度,对于一篇n个合作者完成的论文来说,若不区分作者的贡献程度,则每个人的均衡A指数为1/n,若对作者的贡献程度进行区分,则第i个作者的非均衡A指数为:记JIF为发表在某期刊上的所有论文的平均被引用次数,若某作者共发表K篇论文,则该作者的P指数为每篇论文获得的A指数乘上对应所发表的期刊的JIF系数,即:其中,根据选取的Ak的含义可分为P指数混合均衡A指数和P指数混合非均衡A指数;
特征6:作者u和作者v的研究生涯长度之差;
其中,研究生涯的计算方法为:将作者最新发表的论文年份减去该作者最早发表的论文年份;
特征7:作者u和作者v的合作能力之差
其中,合作能力的计算方法为:
其中,#合作论文c表示为作者A和合作者c共同发表的论文数量;
特征8:论文和论文的被引量之差;
特征9:论文和论文的参考文献数目之差;
特征10:论文和论文的Katz值之差;
记论文之间的引用关系构成的矩阵为Gij,则当论文pi和论文pj之间存在引用关系时,Gij=1;否则Gij=0,则Katz值定义为:
其中,β为可调的阻尼因子,表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度;
特征11:论文和论文的PageRank值之差;
记论文之间的引用关系构成的矩阵为Gij,将其按列进行归一化得到概率转移矩阵Gij,记各个节点的PageRank值为An×1,初始状态的所有节点的概率相等,则从第t轮迭代到第t+1的计算公式如下:
其中,α为权重因子,重复上式直到An×1收敛,此时的各个元素值即为相应的PageRank值,该值反映了节点在论文引用关系网络中的影响力大小;
特征12:论文和论文的出版刊物的H5指数之差;
其中,H5指数可以用来衡量期刊的持续影响力,其表示当前期刊在5年内所发表论文的H指数,如Google可Scholar,当前就是采用此指标来衡量期刊影响力;
特征13:发表论文和论文所在的研究机构的影响力之差;
其中,研究机构的影响力采用https://www.aminer.cn/ranks/org中的AM-Index来衡量;
特征14:论文和论文的题目相似性;
特征15:论文和论文的摘要相似性;
其中,特征14和特征15通过使用文本分析的方法,潜在语义索引、潜在狄利克雷分布得到题目/摘要在各个主题下的概率向量表示,再通过计算余弦相似度,即得到两篇论文之间的相似性;
特征16:作者u和作者v的研究兴趣的相似性;
其中,使用TF-IDF模型将作者的每个研究兴趣转成向量,再用余弦公式得到作者研究兴趣之间的相似性,研究兴趣在本发明的实施过程中,主要通过从作者的个人主页中提取得到;
并且,特征14-特征16的计算通过Python的gensim库的内置函数来完成;
特征17:论文和论文引用的相同参考文献数目;
特征18:论文和论文的作者是否相同;
特征19:论文和论文是否发表在同一个出版刊物上;
特征20:论文和论文的发表时间之差。
再进一步,所述方法还包括以下步骤:
S5模型的冷启动问题
若数据库中不存在该用户的历史信息,或者当用户在使用本推荐方法时,未提供足够的初始信息,则称为冷启动问题;冷启动分为如下2种情况。
5.1)数据库中存在当前用户的历史信息,但当用户在使用本推荐方法时,未提供足够的初始信息,初始参考文献数目<m,m为给定值,可取5到10;
5.2)数据库中不存在当前用户的历史信息,但当用户在使用本推荐方法时,提供足够的初始信息;
采用基于“近邻”的推荐方法对于以上不同冷启动问题的相应解决方法如下:
当用户不存在初始信息时,首先提取出根据用户u的历史信息训练得到的模型,然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文,然后计算用户输入的论文与这个10M篇论文之间的存在引用关系的概率,并取可能性前M的论文作为备选集;
当用户不存在历史信息时,采用如下两种解决方法:
5.2.1)记当前用户u输入的初始信息论文为:记数据库中的所有论文为:W={w1,w2,…,wM},对于任意论文wj∈W,计算其与各个的论文的特征之间的余弦相似度并相加作为论文wj与用户当前输入论文之间的相似度,挑选相似度最大的k1篇论文,将其作为该用户的历史信息,用这些挑选出来的k1篇论文数据训练得到用户的偏好模型;
5.2.2)当5.2.1)中计算得到与当前用户的初始信息特征相近的k1篇论文后,取出这些论文对应的训练得到的用户偏好模型,并进行加权求和作为该用户的偏好模型,其中,将这些论文与输入论文之间的相似度作为权重。
所述步骤S1中,通过对指标设置阈值来筛选出更具有实验价值的数据:删去总被引量小于M1,或总发表论文数小于M2,或H指数小于M3的作者信息,并对相应论文数据进行删除,建议M1、M2和M3取1到10。
本发明的技术构思为:传统的学术文献推荐方法只考虑了部分信息,如内容相似性、引用关系相似性等等,并且基于此类特征的方法都不具有个性化的推荐能力。本发明提出采用监督式的个性化机器学习的方法来进行参考文献推荐,核心观点为将已有数据根据作者不同进行分类,并对每一个作者训练一个个性化的偏好模型。同时,对于某些作者,若数据库中不存在相关的历史记录,那么本发明提出了一种基于“近邻”的参考文献推荐方法,能够很好地用相关的作者数据来近似刻画该用户的偏好信息。其中本方法主要由以下三部分构成:
模型建立:通过把论文对作为对象并定义了一组特征来对其进行描述,再把已知两篇论文之间的引用关系作为该论文对的标签,从而把两篇论文之间的引用关系的预测问题建模成一个经典的二值分类问题。
模型训练:对于数据库中的学术信息按照用户进行分类,为每一个作者训练一个结合其独特偏好的个性化文献推荐模型。
模型预测:根据用户给定的一篇目标论文和相关信息,首先将该论文与其他备选文献构成论文对并计算特征,然后使用训练好的与该用户对应的模型预测得到被该论文引用的可能性最大的k篇论文作为参考文献进行推荐。
本发明的有益效果主要表现在:提高研究人员检索相关参考文献的效率,能够更加准确高效地生成符合用户需求的参考文献列表。
附图说明
图1是Aminer数据库的数据格式示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种个性化的学术文献推荐方法,包括以下步骤:
S1数据收集与清洗
为了建立模型的需要,首先需要收集大量以论文和作者为核心的详细信息。具体来说,论文数据应包含论文标题、论文摘要、作者姓名、发表年份、发表刊物、参考文献等。作者数据应包含作者姓名,研究机构以及研究兴趣(从作者的主页提取)等。清洗掉有明显的格式错误、数据缺失的数据后,再进一步通过对某些指标设置阈值来筛选出更具有实验价值的数据,如删去总被引量小于M1,或总发表论文数小于M2,或H指数小于M3的作者信息,并对相应论文数据进行删除,建议M1-3取1到10。
其中,定义需要进行文献推荐的作者为目标用户,定义该用户过去发表的论文数据为该用户的历史信息,定义当用户在使用本推荐方法时,提供的若干篇初始参考文献的论文数据为初始信息,定义该用户缺少历史信息或初始信息的情况为冷启动问题。
对于某个需要进行文献推荐的用户,若数据库中已存在该用户的历史信息,即发表过的论文记录,且该用户在使用本推荐方法时,已经提供了一定的初始信息,即初始参考文献数据,则可按框架进行个性化的学术论文推荐:
S2模型建立,过程如下:
S2.1构造训练集,过程如下:
S2.1.1从S1中收集到的论文数据提取目标用户u的历史信息,根据论文引用关系构成以论文对为对象的集合,即:Pu={xu},每个对象 表示用户u发表的论文引用了作者v发表的论文记所有的引用关系个数为nu,涉及的论文篇数为mu
S2.1.2每次从Pu中的mu篇论文中随机选取两篇无引用关系的论文,共构成nu′个无引用关系的论文对,即:Nu={xu},表示作者u发表的论文未引用作者w发表的论文且需满足的发表年份晚于在具体实施过程中,nu′=knu,k建议取1到10。
S2.2特征计算
以下涉及的特征计算均只考虑论文的第一作者,若要考虑论文的所有作者,则可认为以下的u和v表示相应论文的所有作者,并首先对所有作者的相应特征值取算术平均数,再进行以上的两篇论文之间特征的求差运算。对Pu和Nu中的每个论文对进行特征表示。由于特征之间的差值比绝对数值本身更具有实际意义,且为了防止出现由于特征之间存在较大相关性导致的模型过拟合,本发明最终选定计算如下20个特征值,并把Pu和Nu中的每个对象表示为20维的向量。
特征1:作者u和作者v的发表论文数目之差
特征2:作者u和作者v的总被引量之差
特征3:作者u和作者v的H指数之差
其中,H指数是指科研人员至多有H篇论文分别被引用了至少H次。H指数(H index)是一个混合量化指标,可用于评估研究人员的学术产出数量与学术产出水平。
特征4:作者u和作者v的P指数混合均衡A指数之差
特征5:作者u和作者v的P指数混合非均衡A指数之差
其中,A指数描述了论文中不同作者的贡献程度。对于一篇n个合作者完成的论文来说,若不区分作者的贡献程度,则每个人的均衡A指数为1/n。若对作者的贡献程度进行区分,则第i个作者的非均衡A指数为:记JIF为发表在某期刊上的所有论文的平均被引用次数,若某作者共发表K篇论文,则该作者的P指数为每篇论文获得的A指数乘上对应所发表的期刊的JIF系数,即:其中,根据选取的Ak的含义可分为P指数混合均衡A指数和P指数混合非均衡A指数;
特征6:作者u和作者v的研究生涯长度之差;
其中,研究生涯的计算方法为:将作者最新发表的论文年份减去该作者最早发表的论文年份;
特征7:作者u和作者v的合作能力之差
其中,合作能力的计算方法为:
其中,#合作论文c表示为作者A和合作者c共同发表的论文数量;
特征8:论文和论文的被引量之差;
特征9:论文和论文的参考文献数目之差;
特征10:论文和论文的Katz值之差;
记论文之间的引用关系构成的矩阵为Gij,则当论文pi和论文pj之间存在引用关系时,Gij=1;否则Gij=0,则Katz值定义为:
其中,β为可调的阻尼因子,表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度;
特征11:论文和论文的PageRank值之差;
记论文之间的引用关系构成的矩阵为Gij,将其按列进行归一化得到概率转移矩阵Gi j,记各个节点的PageRank值为An×1,初始状态的所有节点的概率相等,则从第t轮迭代到第t+1的计算公式如下:
其中,α为权重因子,重复上式直到An×1收敛,此时的各个元素值即为相应的PageRank值,该值反映了节点在论文引用关系网络中的影响力大小;
特征12:论文和论文的出版刊物的H5指数之差;
其中,H5指数可以用来衡量期刊的持续影响力,其表示当前期刊在5年内所发表论文的H指数,如Google可Scholar,当前就是采用此指标来衡量期刊影响力;
特征13:发表论文和论文所在的研究机构的影响力之差;
其中,研究机构的影响力采用https://www.aminer.cn/ranks/org中的AM-Index来衡量;
特征14:论文和论文的题目相似性;
特征15:论文和论文的摘要相似性;
其中,特征14和特征15通过使用文本分析的方法,潜在语义索引、潜在狄利克雷分布得到题目/摘要在各个主题下的概率向量表示,再通过计算余弦相似度,即得到两篇论文之间的相似性;
特征16:作者u和作者v的研究兴趣的相似性;
其中,使用TF-IDF模型将作者的每个研究兴趣转成向量,再用余弦公式得到作者研究兴趣之间的相似性,研究兴趣在本发明的实施过程中,主要通过从作者的个人主页中提取得到;
并且,特征14-特征16的计算通过Python的gensim库的内置函数来完成;
特征17:论文和论文引用的相同参考文献数目;
特征18:论文和论文的作者是否相同;
特征19:论文和论文是否发表在同一个出版刊物上;
特征20:论文和论文的发表时间之差。
S3模型训练
将步骤S2.1中构建的数据集Pu和Nu合并,其中Pu中的对象标签记为1,Nu中的对象标签记为0,使用步骤S2.2中的方法计算合并后的nu+nu′个论文对的特征向量,并对数据进行以下归一化,即对于每个特征f,首先计算该特征的最大值max和最小值min,然后将该特征的所有值均按照如下公式进行变换:
对得到数据采用带有L2正则项的逻辑斯蒂回归(Logistic Regression)来训练引用预测模型,从而得到相应作者u的偏好模型。该训练算法均有现成的库可以调用,且对多种编程语言均有开放接口,如Python的机器学习库scikit-learn,R和MATLAB和回归工具箱同样也可以实现。
S4学术文献推荐,过程如下:
S4.1建立备选文献集
以下方法要求每步选取的被引用的论文发表时间早于该论文的发表时间。
步骤4.1.1记给定论文px的参考文献为R={r1,r2,…rn},初始化备选文献集C=R。
步骤4.1.2对i从1到n,逐个考虑R中每篇论文的参考文献Ti,计算Ti中未包含于C的子集Ri′,即R′i=C-Ti,若R′i不为空,则把它合并到备选文献集使得C=C∪R′i
步骤4.1.3更新R=R1′∪…∪R′n
步骤4.1.4:重复步骤4.1.2直到R为空,再无新的参考文献可以加入备选文献集。
步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇,则再挑选出M-|C|篇与px主题相似的论文加入备选集。
S4.2预测,过程如下:
S4.2.1给定目标用户u输入的论文若数据库中存在该作者的历史数据以及具有足够的初始信息,即初始参考文献数目大于m,(本实验可取5-10),则可按照S4.1生成的备选文献集C,并将和C中的每篇论文ci构成a个论文对计算每个论文对的20个特征向量,特征计算如S2.2,然后执行S4.2.2,否则先使用S5中基于“近邻”的方法来解决冷启动的问题,再重新执行S4.2.1。
S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文的作者相应的训练好的模型,得到a个输出,即预测到的引用每篇论文ci的可能性的值。对这a个输出值降序排序,取可能性值前k′大的论文作为最后进行推荐的参考文献,k′建议取10到20。
所述方法还包括以下步骤:
S5模型的冷启动问题
若数据库中不存在该用户的历史信息,或者当用户在使用本推荐方法时,未提供足够的初始信息,则称为冷启动问题。
冷启动主要分为如下2种情况。
5.1)数据库中存在当前用户的历史信息,但当用户在使用本推荐方法时,未提供足够的初始信息(初始参考文献数目<m),m为给定值,可取5到10。
5.2)数据库中不存在当前用户的历史信息,但当用户在使用本推荐方法时,提供足够的初始信息。
本发明提出了基于“近邻”的推荐方法,对于以上不同冷启动问题的相应解决方法如下:
当用户不存在初始信息时,需要解决的主要问题为备选集的生成。首先提取出根据用户u的历史信息训练得到的模型,然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文,然后计算用户输入的论文与这个10M篇论文之间的存在引用关系的概率,并取可能性前M的论文作为备选集。
当用户不存在历史信息时,需要解决的主要问题为如何建立用户的偏好模型。对于这种情况有如下两种解决方法:
5.2.1)记当前用户u输入的初始信息论文为:记数据库中的所有论文为:W={w1,w2,…,wM},对于任意论文wj∈W,计算其与各个的论文的特征之间的余弦相似度并相加作为论文wj与用户当前输入论文之间的相似度。挑选相似度最大的k1篇论文,将其作为该用户的历史信息,用这些挑选出来的k1篇论文数据训练得到用户的偏好模型。k1可取50-100。
5.2.2)当5.2.1)中计算得到与当前用户的初始信息特征相近的k1篇论文后,取出这些论文对应的训练得到的用户偏好模型,并进行加权求和作为该用户的偏好模型,其中,将这些论文与输入论文之间的相似度作为权重。
实例:一种个性化的学术文献推荐方法,包括以下步骤:
S1数据收集与清洗,过程如下:
S1.1:收集Aminer数据库提供的论文,作者和合作者三部分学术社交网络开放数据集,得到论文数据包含2,092,356篇论文相关信息,每条信息包含该论文的编号、论文标题、作者姓名、发表年份、发表刊物、参考文献编号、论文摘要等,总共涉及8,024,869条引用关系。作者数据包含1,712,433个作者的信息,具体为:作者编号,姓名,研究机构、影响力指标(包括作者论文数、被引数、H指数、P指数、A指数)、以及研究兴趣。合作者数据包括4,258,946条作者-作者-合作次数的信息,具体数据格式见图1。
S1.2:删除由于收集过程存在噪声而得到的明显错误数据、删除缺少研究机构的作者信息,删除总被引量小于等于1,或总发表论文数小于等于1,或H指数小于等于1的作者信息,从而得到新的作者数据集,并从原始论文数据集中挑选出其作者信息在新的作者数据集中的数据,形成新的论文数据集。同理得到处理后的引用和合作者数据集。
S2模型建立,过程如下:
S2.1构造训练集,过程如下:
S2.1.1从S1中筛选出发表在H5指数前1000高的期刊/会议上的论文,并从收集到的论文数据中提取出论文引用关系,再按作者进行分类即:Pu={xu},表示作者u发表的论文引用了作者v发表的论文其中一共有698,436个引用关系共涉及354,167篇论文。
S2.1.2以作者u=Jian Yang为例。此时恰好存在43条引用关系和43篇论文。每次从Pu中的论文中随机选取两篇论文,共构成43个未引用的论文对,即:N={xu},表示论文pi未引用论文pj
S2.2特征计算
对Pu和Nu中的每个论文对进行特征表示,即通过计算20个特征值,把Pu和Nu中的每个对象表示为20维的向量,具体计算方法见发明内容中的S2.2。
S3模型训练,过程如下:
将S1中构建的数据集Pu和Nu合并,其中Pu中的对象标签记为1,Nu中的对象标签记为0,使用S2中的方法计算合并后的86个论文对的特征向量,采用对每个特征的数据进行归一化,即每个数据减去该特征数据的最小值再除以最大值减最小值。对得到数据调用MATLAB的fitclinear函数实现带L2正则项的逻辑斯蒂回归(Logistic Regression),用来训练该引用预测模型。即:
fitclinear(trainSet',trainLabel,'ObservationsIn','columns','Learner','logistic','Re gularization','ridge')
S4模型预测和推荐,过程如下:
S4.1建立备选文献集
把“Histogram of visual words based on locally adaptive regressionkernels descriptors for image feature extraction”作为目标论文px,该论文的参考文献为22篇,发表在H5指数为39的期刊"Neurocomputing"上,并按照发明内容的S4.1生成备选文献集C。
S4.2模型预测,过程如下:
S4.2.1将和C中的每篇论文ci构成50个论文对计算每个论文对的20个特征向量。
S4.2.2把S4.2.1中得到的每个向量输入到S3中训练好的关于Jian Yang的个性化偏好模型,得到50个预测到的引用每篇论文ci的可能性的值。对这50个输出值降序排序,取可能性值前10大的论文作为最后进行推荐的参考文献,结果显示该模型成功地推荐出了大部分与该论文相关的学术文献。

Claims (4)

1.一种个性化的学术文献推荐方法,其特征在于,所述方法包括以下步骤:
S1数据收集与清洗
收集以论文和作者为核心的论文数据,所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献,清洗掉有明显的格式错误、数据缺失的数据;
其中,定义需要进行文献推荐的作者为目标用户,定义该用户过去发表的论文数据为该用户的历史信息,定义当用户在使用推荐方法时,提供的若干篇初始参考文献的论文数据为初始信息;
S2模型建立,过程如下:
S2.1构造训练集,过程如下:
S2.1.1从步骤S1中收集到的论文数据提取目标用户u的历史信息,根据论文引用关系构成以论文对为对象的集合,即:Pu={xu},每个对象表示用户u发表的论文引用了作者v发表的论文记所有的引用关系个数为nu,涉及的论文篇数为mu
S2.1.2每次从Pu中的mu篇论文中随机选取两篇无引用关系的论文,共构成nu′个无引用关系的论文对,即:Nu={xu},表示作者u发表的论文未引用作者w发表的论文且需满足的发表年份晚于在具体实施过程中,nu′=knu,k取1到10;
S2.2特征计算
特征计算考虑论文的第一作者,若要考虑论文的所有作者,则认为u和v表示相应论文的所有作者,并首先对所有作者的相应特征值取算术平均数,再进行以上的两篇论文之间特征的求差运算;
对Pu和Nu中的每个论文对进行特征表示;
S3模型训练
将步骤S2.1中构建的数据集Pu和Nu合并,其中Pu中的对象标签记为1,Nu中的对象标签记为0,使用步骤S2.2中的方法计算合并后的nu+nu′个论文对的特征向量,并对数据进行以下归一化,即对于每个特征f,首先计算该特征的最大值max和最小值min,然后将该特征的所有值均按照如下公式进行变换:
对得到数据采用带有L2正则项的逻辑斯蒂回归来训练引用预测模型,从而得到相应作者u的偏好模型;
S4学术文献推荐,过程如下:
S4.1建立备选文献集,要求每步选取的被引用的论文发表时间早于该论文的发表时间,过程如下:
步骤4.1.1记给定论文px的参考文献为R={r1,r2,…rn},初始化备选文献集C=R;
步骤4.1.2对i从1到n,逐个考虑R中每篇论文的参考文献Ti,计算Ti中未包含于C的子集R′i,即R′i=C-Ti,若R′i不为空,则把它合并到备选文献集使得C=C∪R′i
步骤4.1.3更新R=R′1∪…∪R′n
步骤4.1.4:重复步骤4.1.2直到R为空,再无新的参考文献可以加入备选文献集。
步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇,则再挑选出M-|C|篇与px主题相似的论文加入备选集;
S4.2预测,过程如下:
S4.2.1给定目标用户u输入的论文若数据库中存在该作者的历史数据以及
具有足够的初始信息,即初始参考文献数目大于m,,则按照S4.1生成的备选文献集C,并将和C中的每篇论文ci构成a个论文对计算每个论文对的特征向量,特征计算如S2.2,然后执行S4.2.2,否则再重新执行S4.2.1;
S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文的作者相应的训练好的模型,得到a个输出,即预测到的引用每篇论文ci的可能性的值。对这a个输出值降序排序,取可能性值前k′大的论文作为最后进行推荐的参考文献。
2.如权利要求1所述的一种个性化的学术文献推荐方法,其特征在于,所述步骤2.2中,选定计算如下20个特征值,并把Pu和Nu中的每个对象表示为20维的向量,如下:
特征1:作者u和作者v的发表论文数目之差;
特征2:作者u和作者v的总被引量之差;
特征3:作者u和作者v的H指数之差;
其中,H指数是指科研人员至多有H篇论文分别被引用了至少H次,H指数是一个混合量化指标,可用于评估研究人员的学术产出数量与学术产出水平;
特征4:作者u和作者v的P指数混合均衡A指数之差;
特征5:作者u和作者v的P指数混合非均衡A指数之差;
其中,A指数描述了论文中不同作者的贡献程度,对于一篇n个合作者完成的论文来说,若不区分作者的贡献程度,则每个人的均衡A指数为1/n,若对作者的贡献程度进行区分,则第i个作者的非均衡A指数为:记JIF为发表在某期刊上的所有论文的平均被引用次数,若某作者共发表K篇论文,则该作者的P指数为每篇论文获得的A指数乘上对应所发表的期刊的JIF系数,即:其中,根据选取的Ak的含义可分为P指数混合均衡A指数和P指数混合非均衡A指数;
特征6:作者u和作者v的研究生涯长度之差;
其中,研究生涯的计算方法为:将作者最新发表的论文年份减去该作者最早发表的论文年份;
特征7:作者u和作者v的合作能力之差
其中,合作能力的计算方法为:
合作能力
其中,#合作论文c表示为作者A和合作者c共同发表的论文数量;
特征8:论文和论文的被引量之差;
特征9:论文和论文的参考文献数目之差;
特征10:论文和论文的Katz值之差;
记论文之间的引用关系构成的矩阵为Gij,则当论文pi和论文pj之间存在引用关系时,Gij=1;否则Gij=0,则Katz值定义为:
其中,β为可调的阻尼因子,表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度;
特征11:论文和论文的PageRank值之差;
记论文之间的引用关系构成的矩阵为Gij,将其按列进行归一化得到概率转移矩阵G′ij,记各个节点的PageRank值为An×1,初始状态的所有节点的概率相等,则从第t轮迭代到第t+1的计算公式如下:
其中,α为权重因子,重复上式直到An×1收敛,此时的各个元素值即为相应的PageRank值,该值反映了节点在论文引用关系网络中的影响力大小;
特征12:论文和论文的出版刊物的H5指数之差;
其中,H5指数可以用来衡量期刊的持续影响力,其表示当前期刊在5年内所发表论文的H指数,如Google可Scholar,当前就是采用此指标来衡量期刊影响力;
特征13:发表论文和论文所在的研究机构的影响力之差;
特征14:论文和论文的题目相似性;
特征15:论文和论文的摘要相似性;
其中,特征14和特征15通过使用文本分析的方法,潜在语义索引、潜在狄利克雷分布得到题目/摘要在各个主题下的概率向量表示,再通过计算余弦相似度,即得到两篇论文之间的相似性;
特征16:作者u和作者v的研究兴趣的相似性;
其中,使用TF-IDF模型将作者的每个研究兴趣转成向量,再用余弦公式得到作者研究兴趣之间的相似性,研究兴趣在本发明的实施过程中,主要通过从作者的个人主页中提取得到;
并且,特征14-特征16的计算通过Python的gensim库的内置函数来完成;
特征17:论文和论文引用的相同参考文献数目;
特征18:论文和论文的作者是否相同;
特征19:论文和论文是否发表在同一个出版刊物上;
特征20:论文和论文的发表时间之差。
3.如权利要求1或2所述的一种个性化的学术文献推荐方法,其特征在于,所述方法还包括以下步骤:
S5模型的冷启动问题
若数据库中不存在该用户的历史信息,或者当用户在使用本推荐方法时,未提供足够的初始信息,则称为冷启动问题;冷启动分为如下2种情况。
5.1)数据库中存在当前用户的历史信息,但当用户在使用本推荐方法时,未提供足够的初始信息,初始参考文献数目<m,m为给定值;
5.2)数据库中不存在当前用户的历史信息,但当用户在使用本推荐方法时,提供足够的初始信息;
采用基于“近邻”的推荐方法对于以上不同冷启动问题的相应解决方法如下:
当用户不存在初始信息时,首先提取出根据用户u的历史信息训练得到的模型,然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文,然后计算用户输入的论文与这个10M篇论文之间的存在引用关系的概率,并取可能性前M的论文作为备选集;
当用户不存在历史信息时,采用如下两种解决方法:
5.2.1)记当前用户u输入的初始信息论文为:记数据库中的所有论文为:W={w1,w2,…,wM},对于任意论文wj∈W,计算其与各个 的论文的特征之间的余弦相似度并相加作为论文wj与用户当前输入论文之间的相似度,挑选相似度最大的k1篇论文,将其作为该用户的历史信息,用这些挑选出来的k1篇论文数据训练得到用户的偏好模型;
5.2.2)当5.2.1)中计算得到与当前用户的初始信息特征相近的k1篇论文后,取出这些论文对应的训练得到的用户偏好模型,并进行加权求和作为该用户的偏好模型,其中,将这些论文与输入论文之间的相似度作为权重。
4.如权利要求1或2所述的一种个性化的学术文献推荐方法,其特征在于,所述步骤S1中,通过对指标设置阈值来筛选出更具有实验价值的数据:删去总被引量小于M1,或总发表论文数小于M2,或H指数小于M3的作者信息,并对相应论文数据进行删除,M1、M2和M3取1到10。
CN201810467316.XA 2018-05-16 2018-05-16 一种个性化的学术文献推荐方法 Active CN108763354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810467316.XA CN108763354B (zh) 2018-05-16 2018-05-16 一种个性化的学术文献推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810467316.XA CN108763354B (zh) 2018-05-16 2018-05-16 一种个性化的学术文献推荐方法

Publications (2)

Publication Number Publication Date
CN108763354A true CN108763354A (zh) 2018-11-06
CN108763354B CN108763354B (zh) 2021-04-06

Family

ID=64008148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810467316.XA Active CN108763354B (zh) 2018-05-16 2018-05-16 一种个性化的学术文献推荐方法

Country Status (1)

Country Link
CN (1) CN108763354B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059180A (zh) * 2019-03-13 2019-07-26 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110232120A (zh) * 2019-05-21 2019-09-13 天津大学 一种基于引用的文献查找方法
CN111368147A (zh) * 2020-02-25 2020-07-03 支付宝(杭州)信息技术有限公司 图特征处理的方法及装置
CN112434134A (zh) * 2020-12-04 2021-03-02 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质
CN113239181A (zh) * 2021-05-14 2021-08-10 廖伟智 基于深度学习的科技文献引文推荐方法
CN113868407A (zh) * 2021-08-17 2021-12-31 北京智谱华章科技有限公司 基于科研大数据的评审推荐算法的评估方法及装置
CN115206450A (zh) * 2022-09-15 2022-10-18 药融云数字科技(成都)有限公司 一种合成路线推荐方法及终端
CN117252306A (zh) * 2023-10-11 2023-12-19 中央民族大学 一种基因编辑能力指数计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227354A (ja) * 2003-01-23 2004-08-12 Nippon Telegr & Teleph Corp <Ntt> 情報推薦装置、情報推薦方法、プログラム及び記録媒体
CN103336793A (zh) * 2013-06-09 2013-10-02 中国科学院计算技术研究所 一种个性化论文推荐方法及其系统
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227354A (ja) * 2003-01-23 2004-08-12 Nippon Telegr & Teleph Corp <Ntt> 情報推薦装置、情報推薦方法、プログラム及び記録媒体
CN103336793A (zh) * 2013-06-09 2013-10-02 中国科学院计算技术研究所 一种个性化论文推荐方法及其系统
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEAN M. MCNEE: "On the recommending of citations for research papers", 《ACM》 *
陈海华: "学术文献引文推荐研究进展", 《图书情报工作》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059180A (zh) * 2019-03-13 2019-07-26 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110059180B (zh) * 2019-03-13 2022-09-23 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110232120A (zh) * 2019-05-21 2019-09-13 天津大学 一种基于引用的文献查找方法
CN111368147A (zh) * 2020-02-25 2020-07-03 支付宝(杭州)信息技术有限公司 图特征处理的方法及装置
WO2022116324A1 (zh) * 2020-12-04 2022-06-09 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质
CN112434134A (zh) * 2020-12-04 2021-03-02 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质
CN112434134B (zh) * 2020-12-04 2023-10-20 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质
CN113239181A (zh) * 2021-05-14 2021-08-10 廖伟智 基于深度学习的科技文献引文推荐方法
CN113868407A (zh) * 2021-08-17 2021-12-31 北京智谱华章科技有限公司 基于科研大数据的评审推荐算法的评估方法及装置
CN115206450A (zh) * 2022-09-15 2022-10-18 药融云数字科技(成都)有限公司 一种合成路线推荐方法及终端
CN115206450B (zh) * 2022-09-15 2022-12-06 药融云数字科技(成都)有限公司 一种合成路线推荐方法及终端
CN117252306A (zh) * 2023-10-11 2023-12-19 中央民族大学 一种基因编辑能力指数计算方法
CN117252306B (zh) * 2023-10-11 2024-02-27 中央民族大学 一种基因编辑能力指数计算方法

Also Published As

Publication number Publication date
CN108763354B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN108763354A (zh) 一种个性化的学术文献推荐方法
Wang et al. Collaborative deep learning for recommender systems
Liu et al. Context-aware academic collaborator recommendation
Gu et al. Learning global term weights for content-based recommender systems
Chen et al. Fully content-based movie recommender system with feature extraction using neural network
CN108132961B (zh) 一种基于引用预测的参考文献推荐方法
Anwar et al. Machine learning-based book recommender system: a survey and new perspectives
CN109992674B (zh) 一种融合自动编码器和知识图谱语义信息的推荐方法
Godoy et al. Interface agents personalizing Web-based tasks
Ma et al. News2vec: News network embedding with subnode information
CN113806630A (zh) 基于注意力的多视角特征融合跨域推荐方法及装置
Parida et al. Prediction of recommendations for employment utilizing machine learning procedures and geo-area based recommender framework
Asgarnezhad et al. An Effective Algorithm to Improve Recommender Systems using Evolutionary Computation Algorithms and Neural Network
Wang et al. Socially-driven multi-interaction attentive group representation learning for group recommendation
EP2613275A1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
Hoang et al. Academic event recommendation based on research similarity and exploring interaction between authors
Chantamunee et al. Collaborative filtering for personalised facet selection
Praznik et al. Vertex-weighted measures for link prediction in hashtag graphs
Yin et al. Rsygan: Generative adversarial network for recommender systems
Bunga et al. From implicit preferences to ratings: video games recommendation based on collaborative filtering
Harris Searching for Diverse Perspectives in News Articles: Using an LSTM Network to Classify Sentiment.
Boongoen et al. Fuzzy qualitative link analysis for academic performance evaluation
Pareek et al. A review report on knowledge discovery in databases and various techniques of data mining
Gokhale et al. Matrix factorization for co-training algorithm to classify human rights abuses
Yassin et al. Travel user interest discovery from visual shared data in social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant