CN105787068B - 基于引用网络及用户熟练度分析的学术推荐方法及系统 - Google Patents

基于引用网络及用户熟练度分析的学术推荐方法及系统 Download PDF

Info

Publication number
CN105787068B
CN105787068B CN201610116043.5A CN201610116043A CN105787068B CN 105787068 B CN105787068 B CN 105787068B CN 201610116043 A CN201610116043 A CN 201610116043A CN 105787068 B CN105787068 B CN 105787068B
Authority
CN
China
Prior art keywords
paper
user
proficiency
node
academic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610116043.5A
Other languages
English (en)
Other versions
CN105787068A (zh
Inventor
谈兆炜
吴峥
颜荣圻
朱鑫祺
李陶然
陈戈
刘聪
王彪
傅洛伊
王新兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610116043.5A priority Critical patent/CN105787068B/zh
Publication of CN105787068A publication Critical patent/CN105787068A/zh
Application granted granted Critical
Publication of CN105787068B publication Critical patent/CN105787068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种基于引用网络及用户熟练度分析的学术推荐方法及系统,包括如下步骤:步骤1,采用模型进行分析,得到第一候选集;步骤2,采用论文引用网络进行分析,得到第二候选集;步骤3,采用用户熟悉度分析,得到第三候选集;步骤4,对第一候选集、第二候选集和第三候选集进行过滤排序,得到推荐候选集;步骤5,展示推荐候选集。与现有技术相比,本发明的有益效果如下:在传统推荐系统的基础之上,结合对引用网络及领域熟练度的分析,增强了学术推荐的个性化,打造了一套更加适合研究人员的推荐系统。

Description

基于引用网络及用户熟练度分析的学术推荐方法及系统
技术领域
本发明设计了一种搜索推荐系统,具体是一种集成用户数据采集、主题层级分析,引用关系网络分析、用户熟练度分析、候选集排序过滤的学术搜索推荐方法及系统。
背景技术
科技进步是推动我国各行各业发展的重要动力,最尖端的一股力量来自于理论研究和学术创新。科学实践表明,会议期刊与论文、专利及相关文献是记录创新发现的重要文字档案,科研活动的重要产物,科研工作者的劳动汗水、智慧结晶,也是学生、后继研究人员学习的重要资料,未来科学进步的源泉。新的科学发现若是站在巨人的肩膀上实现的,已有的学术文档就是这巨人的血脉。
然而,世界上众多的科学领域中,各类论文类别纷繁复杂,数量众多,质量与深度参差不齐,每年还在不断增长。近十年间,我国科研工作者在国际范围内共发表论文136.98万篇,位居世界第二;论文共被引用1037.01万次,位居世界第四。学术论文不仅数量庞大,引用关系复杂,也是是开展科研活动的重要信息资源,如何有效地管理这些信息资源是一个具有实际意义的问题,在此之上,如何让科研人员迅速获取自己最需要的文献更是一个新兴而亟待解决的问题。对于科研人员,可能每天都要阅读一定数量的学术文章,很多时候寻找值得一读的文章并不是一件容易的事情。如果有这样一种应用,能让科研人员迅速找到自己需要的文章,节省花费在处理文章筛选等琐碎问题上的时间,将他们的精力更多地投入到核心问题中,可以极大地提高他们的工作效率、减少劳动负担。从宏观上来说,也是提高科研人员劳动生产力,推动科技进步的一项重大进展,有利于我国、甚至全球的科学发展,加快人类的进步。
目前已经有一些学术出版机构,如IEEE、Elsevier建立了电子文献档案数据库,以及中国知网等在线图书馆,提供查询论文的途径,但这些数据库仍然具有明显的缺点,如有些数据库仅提供最基本的关键词匹配查询,未考虑到文献潜在隐含的性质;有些电子数据库专注于某一领域,交叉学科的文献收录不全;有些数据库未及时更新、定时维护,缺少新增的论文,这些往往是前沿热点话题。
在如今的WEB3.0时代,推荐系统已经无处不在了,这源于信息过载这样的一个背景,每个人都可以成为信息的中心与源头。豆瓣电影网站如同贴身秘书偷偷记录下了用户的浏览记录,猜到其可能感兴趣的新片;当用在亚马逊网上书店购买一本书时,它已经选择好了最佳的一同购买的搭配。在众多的选择面前,用户可能茫然不知所措;然而,推荐系统可能比用户自己更了解其想要什么。在日常生活场景中,推荐系统已为我们带来了无穷的便利与乐趣,在学术场景中,更需要这样的功能来为科研工作者服务。
现有的一些知名学术搜索引擎,如谷歌学术搜索、微软学术搜索等网站继承了其所属商业搜索引擎公司的搜索技术,使用高效的算法提供迅速、准确的搜索结果,即搜索结果与输入关键字拥有极高的匹配程度。但这种传统的搜索形式并不能满足科研人员日益增长的搜索要求、充分利用好庞大的学术数据资源,例如没有分析论文在其领域的重要程度,话题的发展趋势,反馈信息量过大,更没有主动推荐、猜测用户需求的功能。比精确匹配标题更重要的,往往是更加个性化的推荐方式。对于不同科研水平、对某领域熟悉程度不同的科研人员来说,需要获取的论文也不尽相同,初涉某一领域的搜索用户希望快速了解该领域的大致情况与学科分类,其发展脉络与方向,精通该领域的搜索用户更期待看到发展的前沿,在国际上的新进展,热门话题的提出。在传统的综合性学术搜索引擎中尚未实现此类功能。在学术界,还需要更先进、智能的文献管理系统。
目前,相关的学术推荐方法包括:计算论文被引用的次数来评价其重要程度,计算论文的PageRank值,基于Steiner-tree将学术论文推荐问题转化为在引用关系图中找Steiner点的问题等。然而,这些理论的提出并没有通过一个成型的系统进行验证与实现,基于大量的论文数据库样本进行准确度分析,或者仅仅列出相关参数供用户参考,没有结合用户本身情况进行推荐排序,给出以用户为中心的对于论文的综合评价,故在实践应用中的价值不大,用户体验不佳。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种集搜索、推荐等智能而人性化功能为一体的、充分利用学术文献的特点的基于引用网络及用户熟练度分析的学术推荐方法及系统。
为解决上述技术问题,本发明提供的一种基于引用网络及用户熟练度分析的学术推荐方法,包括如下步骤:
步骤1,采用模型进行分析,得到第一候选集;
步骤2,采用论文引用网络进行分析,得到第二候选集;
步骤3,采用用户熟悉度分析,得到第三候选集;
步骤4,对第一候选集、第二候选集和第三候选集进行过滤排序,得到推荐候选集;
步骤5,展示推荐候选集。
优选地,步骤1包括:
步骤1.1,获取用户基本信息和用户行为信息;
步骤1.2,根据用户行为信息采用协同过滤模型或人口统计学模型进行分析;
当用户无发表、阅读论文的记录或发表、阅读的论文的数量小于10时,采用人口统计学模型进行分析,生成第一候选集;
当用户发表、阅读论文的数量大于10时,采用协同过滤模型进行分析,生成第一候选集。
优选地,步骤2包括:
步骤2.1,根据用户输入的文本词频或关键词,得出与带有关键词的论文;
步骤2.2,以论文的引用关系统计节点进行入度计算,建立论文与论文间的引用关系矩阵;
步骤2.3,根据文本词频统计得到论文重要性的相关性向量;
步骤2.4,对论文重要性的相关性向量与论文间的引用关系矩阵进行矩阵相乘运算,得到重要性矩阵;
步骤2.5,通过重要性矩阵对论文进行排序,生成第二候选集。
优选地,步骤2.5中,排序包括:
步骤2.5A:按照论文出现次数及与起始论文的距离关系进行排序;或
步骤2.5B:用聚类筛选论文的类别的结果和起始论文相似的论文并进行相似度排序。
优选地,步骤2.5A包括:
步骤2.5A.1,通过引用关系建立用户的论文和引用论文及引用论文的下级引用论文的关系网的图结构,调用Spark中GraphX模块统计出图中所有节点的入度信息;
步骤2.5A.2,当图的节点超过100时,设置树的层数的最高值n,n为大于2的正整数,从i=2到i=n遍历第i层的节点,比较每一层中每个节点的入度值,从层的角度出发统计节点累计出现的次数,入度最大或出现次数最多的点对应图中重要性最大的论文;
步骤2.5A.3,当图的节点数目小于100或图无回路时,单独考虑每条链路上的节点,选择拥有节点数目最多的路径的链路上的点并分析链路上节点的重要性信息,根据入度值的大小对节点的重要性进行排序,入度值越大,节点的重要性越大。
优选地,步骤2.5B包括:
步骤2.5B.1,通过引用关系对所有论文节点进行聚类,得到每个节点所属的类别;
步骤2.5B.2,设置计算的论文引用关系层数n,n为大于2的正整数,从i=1到i=n遍历第i层上的所有点,查找每个节点各自所属类别,直至发现和该节点对应论文有关系的类别,具体到学科和领域;
步骤2.5B.3,进行推荐。
优选地,步骤2.5B.3为:
步骤2.5B.3A,若通过引用论文找到论文相关的一个类别,则通过重排序获得综合推荐集并找到该类别中重要性最大的论文进行推荐;
步骤2.5B.3B,若通过引用论文找到起始论文相关的多于一个类别,则分别遍历每个类别中的所有点,找到在所有类别都出现过的且和起始论文相似度排序前20%的论文作为推荐论文。
优选地,步骤3包括:
步骤3.1,根据数据库系统存储的论文文本信息,统计关键词之间的包含关系;
步骤3.2,根据不同关键词下对应的论文数量,评价关键词所包含范围的大小,用专业性指标进行衡量,计算出每个关键词的专业性值;
步骤3.3,根据用户搜索的方式、内容及用户信息,设计熟练度评价指标,评价每个用户的熟练程度;
步骤3.4,将用户的熟练度作为参数,调整推荐列表,生成第三候选集。
优选地,步骤5中,通过用户界面展示模块展示推荐候选集。
一种基于引用网络及用户熟练度分析的学术推荐系统,所述系统采用基于引用网络及用户熟练度分析的学术推荐方法。
与现有技术相比,本发明的有益效果如下:在传统推荐系统的基础之上,结合对引用网络及领域熟练度的分析,增强了学术推荐的个性化,打造了一套更加适合研究人员的推荐系统。
说明书附图
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明 的其它特征目的和优点将会变得更明显。
图1为本发明系统总体构架图;
图2为本发明系统推荐界面构架图。
具体实施方式
下面采用具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1所示,本发明基于引用网络及用户熟练度分析的学术推荐方法基于协同过滤的学术推荐系统实现、基于引用网络分析的学术推荐系统实现、基于用户熟练度分析的学术推荐系统实现、通过不同算法对推荐候选集进行排序过滤以及结果创新的可视化展示这几个核心组件。系统的搭建实施过程如下:
步骤一,基于协同过滤的学术推荐系统实现
互联网信息浩如烟海,为针对每个用户做出与之相应的个性化推荐,我们需要获取用户在数据库中的基本信息及行为信息;在获取了用户基本信息之后,我们还需获取用户在使用系统时的行为信息,行为信息包括三个方面:搜索记录、浏览记录、收藏记录,具体获取方式如下:
(1)从web前端获取用户搜索记录和浏览记录;
(2)数据库中每个注册用户的文件夹中建立一个名为Favorites的子文件夹,在网页前端为每篇论文添加“收藏”功能,当用户点击收藏时,将该论文在数据库中的ID 添加到收藏夹对应的文件夹中;再通过访问文件夹中的信息以获取用户的搜藏记录;用户行为信息较少时,我们通过基于人口统计学的推荐方式得到用户的推荐候选集,具体实施方式如下:
(1)获取数据库中用户“姓名”、“机构”、“学历”、“ID”、“论文”等基本信息;
(2)基于人口统计过滤模型,计算不同用户之间的相似度;
(3)取与用户相似度较高的几个用户的偏好信息并将其作为推荐候选集。
用户行为信息较多时,我们通过基于用户的协同过滤方式得到用户的推荐候选集,具体实施方式如下:
(1)人工定义用户行为,用户行为定义如表1所示:
行为名称 行为描述
浏览次数 取值为浏览点击数
收藏 取值为(0,1),收藏为1
搜索 取值为(0,1),搜索为1
表1
(2)数据处理得到结构化数据,如表2所示:
序号 用户 Paper 浏览次数 收藏 搜索
1 User 1 Paper 1 5 1 1
2 User 1 Paper 1 4 0 1
3 User 1 Paper 1 4 1 1
…… …… …… …… …… ……
N User n Paper n 2 1 0
表2
(3)假设m代表用户数,n代表论文数;yij代表用户i对商品j的实际评分,i代表某用户,1≤i≤m,j代表某篇论文,1≤j≤n;则将用户行为转化为隐式评分的规则如下:
1)如果用户收藏了该论文,则yij=4;
2)如果用户搜索了该论文,则yij=3;
3)如果用户浏览该论文两次以上,则yij=2;
4)如果用户只点击了一次该论文,则yij=1;
通常用户会对一篇论文同时做多项操作,我们取其中得分最高的操作作为评分,然后建立用户-论文矩阵:
同时考虑到,用户的兴趣是动态变化的,用户近期对商品的隐式评分更能反映此刻用户的兴趣所在,用户的搜索浏览行为可认为是一种心理行为,其规律应该符合H.Ebbinghaus遗忘曲线,表示用户兴趣随时间t变化的指数函数公式如下所示:
f(t)=eλt
式中,权重λ属于(0,1),可以根据推荐结果的准确性动态调整。λ越大,表示兴趣随时间衰减越快,反之则越慢。根据上述公式。
1)利用改进的皮尔逊相关系数公式计算两个用户之间的相关性,公式如下:
式中:yaj,ybj分别表示用户a和用户b对论文j的评分,Iab表示用户a和用户b 共同评分过的项目集合,f(t)为遗忘函数,表示用户a评分过的论文集合的平均得分,表示用户b评分过的论文集合的平均得分。
2)将和用户a相似度最高的前k个用户作为它的最近邻居集合U。
3)综合邻居用户对论文j的评价并预测用户a对论文j的评分。假设c代表邻居用户,PS(a,j)代表目标用户的预测评分,则预测评分的公式如下:
其中,sim(a,c)为论文a与c的皮尔逊相关系数,pcj为用户c对论文j的评分,为用户c的已评论文的平均评分
4)将预测评分最高的前n篇论文作为推荐候选集。
步骤二,基于引用网络分析的学术推荐系统实现
一般情况下由于每篇论文都有一些引用关系,通过这些引用关系可以进一步确定论文的相关性和重要性,在进行计算时可以将每篇论文视为一个点,论文与引用之间的关系视为节点的边,论文A引用了论文B则存在一条由A指向B的边。推荐时对论文的重要性的排序主要通过计算节点的度来实现,我们选择以下几种方法。
步骤2.1论文A倘若被所属同一领域中的其他多篇论文引用,那么它的入度较大,对应的在这一领域的重要性比较高,推荐时可以以入度为一个标准排列一个领域中的论文推荐。(参考Page Rank算法)实现步骤如下:
步骤2.1.1从用户输入的搜索关键词出发,若用户输入“Internet”,在论文库中筛选出和“Internet”相关的论文,筛选可以根据文本词频或是关键词,例如我们选出了论文A、B、C、D、E、G;
步骤2.1.2选出的论文再以引用关系统计节点入度,建立论文-论文的引用关系矩阵,若引用关系为A->B/C/E/G,B->D/E/F,C->F/G,D->E/G,E->C,F->G,则建立矩阵 A’如下;
同时因为一篇论文若有k篇引用,则每篇引用与它的关系应该用表示,则矩阵A’可优化为:
步骤2.1.3将论文-论文的引用关系矩阵和论文的重要性的相关性向量(可以根据词频)做矩阵运算,得到重要性矩阵;如所得论文A、B、C、D、E、F、G的词频差别不大或是不好从内容区分相关性,则相关性矩阵v为 v2=v1·A’=……直至收敛得重要性矩阵。
步骤2.1.4通过重要性矩阵对论文进行排序推荐;
步骤2.2论文A中的引用论文B一般是与A的作者相同领域的论文或是作者感兴趣的论文,同理得论文B的引用论文C可能也会引起A的作者的兴趣,通过追溯 A->B->C->……这层引用关系链,选择关系链上入度较大(重要性较大)的节点对应的论文作为推荐或是按节点与A的距离排序选择论文作为推荐,实现步骤如下:
步骤2.2.1从用户的论文出发,通过引用关系建立论文和引用论文及引论文的下级引用论文的关系网(类似树结构),如A->B/C/E/G,B->D/E/F,C->F/G,D->E/G,E->C, F->G关系建立树结构S;
步骤2.2.2考虑到论文的引用数量一般情况下这棵树可能会有较大规模,我们可以设置树的层数的最高值n(n>2,n为正整数),例如从论文A开始的引用关系A->B->C->D,则层数为3,B、C、D分别为第一层、第二层、第三层的节点;
步骤2.2.3从i=2到i=n遍历第i层的节点,然后比较此层中每个节点的入度值(可以是节点在所有论文的关系网内的入度或是在某一列别关系网中的入度)或出现次数,可以有调用Spark中GraphX模块统计出所有节点的的入度信息,入度最大或出现次数较多的点对应的是这颗树中重要性最大的一篇论文,我们可认为它是和父节点对应论文的作者有关系的论文中较有用的,可作为推荐。
如若仅考虑A、B、C、D、E、F、G在S的入度,分别为0、1、2、1、3、2、4,重要等级可排列为G、E、C/F、B/D、A,从A开始的第一层有B、C、E、G,第二层有D、E、 F、G,第三层有C、E、G,第四层有C、G,第五层有G,发现G的入度最大且出现次数最多,G可作为推荐首选。而若考虑在整个论文的关系网中的节点度这个等级排序可能会有所不同,一般可以更好地区分论文的重要性等级。
步骤2.2.4当这棵树较稀疏(如无回路)时我们可以单独考虑每条链路上的节点,选择拥有较长路径的链路上的点对应的论文S中的一些链路为A->B->D->E->C->G上入度较大的点对应的论文。
步骤2.3利用图论的方法通过论文引用关系的计算和排列可以实现论文的聚类,由此可以知道每篇文章所属的类别(聚集的节点群),这样我们可以查看论文A的每篇引用论文及引用论文的引用所涉及其他类别,如A的引用B和C分别属于不同的类别,则说明A的作者可能在做交叉学科的研究,对B所在的领域和C所在的领域都感兴趣,我们以此推荐在两个领域交界处的交叉学科的论文。通过进行聚类的论文可以找到论文所对应的类别,以此确定引用的论文的信息及论文可能涉及的领域,如A->B/C/E/G, B->D/E/F,C->F/G,D->E/G,E->C,F->G关系中由节点入度大致可以确定E、G两个聚类中心,B、E、A、D为一类,G、C、F、A、D为一类,其中A、D同时涉及两类,则D 和A的相似度较大。实现步骤如下:
步骤2.3.1设置我们需要计算的论文A引用关系层数n;
步骤5.3.2:从i=1到i=n遍历第i层上的所有点,查找其各自所属类别,直至发现和A有关系的较明确的类别;
步骤2.3.2若通过引用论文只找到一个类别,证明论文A的内容可能局限于该类别中,则推荐的结果可用方法1或方法2获得,找到该类别中重要性最大的论文;
步骤2.3.3若通过引用论文找到多个类别如X、Y、Z,则说明论文A与X、Y、Z可能存在关系,这样我们可以分别遍历类别X、类别Y、类别Z中的点,在X、Y、Z中同时出现的点对应的论文和论文A具有较大相似度,可作为推荐论文。
步骤三,基于用户熟练度分析的推荐系统实现
在推荐参数模型加入熟练度指标。熟练度用来评价用户对该领域的了解程度。熟练度低的用户往往没有明确的研究方向,其关注的范围较广。而熟练度高的用户往往对某一领域已经比较了解,所以其关注的范围更为有限。本推荐系统基于用户不同熟练度指标来调整推荐系统算法,从而为熟练度低的用户推荐更为经典更为系统的文章,已帮助用户快速对该领域有大致的了解;而对于熟练度高的用户,则推荐其关注领域的最新文章以及其周边领域的相应文章,以提高推荐系统的新颖性与惊喜度。
步骤3.1确立用户熟练度
该推荐系统根据用户的搜索习惯来确定其熟练度。对于用户熟练度的评价方式如下:
步骤3.1.1用户的熟练度取决于用户搜索的方式。推荐系统中包含直接搜索关键词,搜索作者,以及高级搜索功能,其中高级搜索功能包含时间范围、会议范围。一般而言,对于搜索作者用户,单个作者的研究领域的限制,该用户的熟练度较高。对于使用高级搜索的用户,用于高级搜索中有更强的限定范围,往往表明该用户有较为明确的搜索目标,因而熟练度更高。
步骤3.1.2用户的熟练度取决于用户搜索关键词的内容。根据学术搜索规律,搜索关键词越少越宽泛,意味着用户搜索目标不明确,而使用专业性较强的关键词,则意味着用户研究领域越细化,反映其研究领域越明确。
步骤3.1.3用户的熟练度还可以从用户注册信息中体现出来。对于新加入的用户,如果其注册信息可以与数据库中的作者信息匹配,即表明该用户已经是被收录的作者,该用户显然在该领域有很高的熟练度。
步骤3.2算法实现细节
步骤3.2.1建立关键词的层次结构。
根据用户的搜索记录及文字本身的关键词,提取出可能出现的关键词库。根据学术领域的层次结构,对相应关键词进行分层处理,建立树状的关键词数据库。分层方法如下,对于两个词x和y。如果P(x|y)≥0.8,P(y|x)<1成立,则认为x包含y。参数值 0.8是一个实验值,表示当一个关键词出现
的文档其中的80%都属于另一个关键词出现的文档,则可以认为这两个关键词存在层次联系。利用该公式可计算出所有关键词是否具有层次关系,从而得到树状关键词层次结构。
步骤3.2.2根据关键词层次结构,设计评价关键词专业性的指标。
对于任意一个出现在关键词树中的关键词,需要根据其出现位置,确定其所包含领域的范围大小,即关键词专业性,该指标是在一定范围内的数值。统计所有树状图中叶节点上所包含的paper数目的多少,根据总数对所有根节点的数目作归一化,即为所有根节点的关键词专业性指标。相应的,通过树状图累加的方式,统计出每个节点上的值,即得到了所有关键词的专业性值。其范围为0-1,根节点专业性指标值为1。
步骤3.3.3建立用户熟练度的评价指标。
用P来代表某个用户的熟练度评分,用搜索方式W,搜索内容C,用户信息I三个维度来衡量用户的熟练度评分,并用线性加权的公式表示。计算公式为:
P=λ1W+(1-λ12)C+λ2I
式中:P表示该用户的熟练度评分。W表示通过该用户搜索方式得出的熟练度评价,C表示通过该用户本次搜索关键词得出的熟练度评价,I表示根据该用户的个人信息得出的熟练度评价。λ1,λ2分别表示公式中搜索方式W和用户信息I所占的权重。
基于搜索方式W的熟练度评价方法:在使用高级搜索功能时,如限定时间范围、会议、期刊范围,表明该用户搜索目的性较强。此时W值设定为1,反之为0。
基于用户信息I的熟练度评价方法:读取数据库中的用户信息。如果该用户已经是某一领域的作者,有相应的论文收录,则用户信息I维度的评分值为1。否则,根据用户的历史记录来确定用户信息维度I的值。
基于用户搜索内容C的熟练度评价方法:首先读取用户输入的关键词的数目N和每个关键词的专业性A。设每个用户输入的关键词数目为N,一般来讲用户输入关键词越多,表示该用户对领域的了解越深入,越具体,所以N值越大意味着用户熟练度越高。同时,用户所输入的所有关键词专业性越强,代表该用户搜索领域更深,也可以其熟练度越高。设用户所输入N个关键词的专业性值分别A1,A2,.....An。则基于用户搜索内容得到的用户熟练度C的计算公式为:
式中:C表示基于用户搜索内容得出的熟练度评价。N表示用户输入的关键词数目,A1,A2,.....An表示用户输入的每个关键词的专业性指标的值。
步骤四,根据所得候选集进行过滤排序,得到展现给用户的推荐候选集
根据各种算法产生的候选集,借助机器学习相关算法,使用不同排序模型,综合多方面因素确定用户候选集。
步骤4.1线性相关特征加权和:通过对不同候选集进行加权,再将这些候选集的内容融合在一起进行排序得到一个可用的推荐。例如我们得到了某模块的热度排序H集,又得到该领域中基于协同过滤得到的排序G集,那么我们对H集加入权重w1,G集加入权重w2,然后重新排序,得到()重新排序后的集合。
步骤4.2分层混合推荐:采用多种推荐机制,并将一个推荐机制的结果作为另一个的输入,从而综合各个推荐机制的优缺点,得到更加准确的推荐。
步骤4.3环境特征加权:在生成综合推荐集时,我们使用到一些环境参数来修正我们的排序整合结果,例如该时间段正是某学术会议召开阶段或者结束不久,那么我们就适当将与其相关的权重增加。
步骤4.4用户特征代入:在生成综合推荐集时,用户自己的特征信息也非常的重要。用户的历史行为,例如用户的搜藏记录,搜索记录,对搜索结果的处理日志等,这些都一定程度上能体现出用户的一种偏好,将这种偏好量化并带入综合推荐集生成算法中,可使推荐更个性化也更符合用户的口味。如果结合前面的“熟练度”,那么我们可能对大众性的item,或某领域较为小众的item增加其权值,从而对不同熟练度的人有不同的推荐。例如由协同过滤可以得到一些用户可能有兴趣的论文集F,但该用户有一个熟练度P,那么就可以将F集以P为衡量基准排出与P最接近的更精简集合。
步骤4.5人为规则过滤:对于数据库中可能潜在的某种作弊行为,运用特定的针对性算法加以过滤。
步骤4.6在线学习:用户的行为会被用于机器推测用户近期的专注点,因为不同时期用户的研究方向会有所不同,随时间推移,用户研究的深入程度也可能增加,那么就需要机器在线学习推测出这种趋势,从而将这种趋势合理地加入到各个特征的权重里,达到生成更精准综合推荐集的特点。这样的将候选集进行进一步的综合性整合,可以让原本较大数据量的信息精简,并能让相对静态的由固定算法得到的推荐集合有了一个动态的属性,推荐也更加个性化,效率也更高。
步骤五,在网页前端通过不同创新可视化视角展现所得推荐结果
可以决定出一些综合性的候选集合,并将它们通过用户界面,有逻辑性地展示给用户。而同时,推荐系统展示界面的模块需求也能够对综合选集的生成有所帮助,这两个步骤有着相辅相成的作用。我们将占位先分为两个大的模块:个性化模块与非个性化模块。个性化模块中则更多加入用户的历史行为特征、机器在线学习到的研究方向推测、用户熟练度等用户较独特的信息特征。非个性化模块则主要为中立性质的推荐,对于不同用户来讲几乎没有区别,其中的分类较多,推荐方法也比较传统,例如某领域近期的论文、基于citation的论文排序等。
(1)个性化模块:此模块大致可分为:
感兴趣方向
可能感兴趣方向
专业方向
等等
(2)非个性化模块:此模块先分出各个大领域(如计算机、数学、生物等),然后各领域内有该领域的各项排序推荐,如最新发表、经典、基于citation等;同时会继续细分,如计算机领域中细分出人工智能、穿戴式设备等,细分出的领域内会有该领域的各项排序,并且若可继续分级则继续分下去。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (7)

1.一种基于引用网络及用户熟练度分析的学术推荐方法,其特征在于,包括如下步骤:
步骤1,采用模型进行分析,得到第一候选集;
步骤2,采用论文引用网络进行分析,得到第二候选集;
步骤3,采用用户熟悉度分析,得到第三候选集;
步骤4,对第一候选集、第二候选集和第三候选集进行过滤排序,得到推荐候选集;
步骤5,展示推荐候选集;
步骤2包括:
步骤2.1,根据用户输入的文本词频或关键词,得出与带有关键词的论文;
步骤2.2,以论文的引用关系统计节点进行入度计算,建立论文与论文间的引用关系矩阵;
步骤2.3,根据文本词频统计得到论文重要性的相关性向量;
步骤2.4,对论文重要性的相关性向量与论文间的引用关系矩阵进行矩阵相乘运算,得到重要性矩阵;
步骤2.5,通过重要性矩阵对论文进行排序,生成第二候选集;
步骤2.5中,排序包括:
步骤2.5A:按照论文出现次数及与起始论文的距离关系进行排序;或
步骤2.5B:用聚类筛选论文的类别的结果和起始论文相似的论文并进行相似度排序;
步骤2.5A包括:
步骤2.5A.1,通过引用关系建立用户的论文和引用论文及引用论文的下级引用论文的关系网的图结构,调用Spark中GraphX模块统计出图中所有节点的入度信息;
步骤2.5A.2,当图的节点超过100时,设置树的层数的最高值n,n为大于2的正整数,从i=2到i=n遍历第i层的节点,比较每一层中每个节点的入度值,从层的角度出发统计节点累计出现的次数,入度最大或出现次数最多的点对应图中重要性最大的论文;
步骤2.5A.3,当图的节点数目小于100或图无回路时,单独考虑每条链路上的节点,选择拥有节点数目最多的路径的链路上的点并分析链路上节点的重要性信息,根据入度值的大小对节点的重要性进行排序,入度值越大,节点的重要性越大。
2.根据权利要求1所述的基于引用网络及用户熟练度分析的学术推荐方法,其特征在于,步骤1包括:
步骤1.1,获取用户基本信息和用户行为信息;
步骤1.2,根据用户行为信息采用协同过滤模型或人口统计学模型进行分析;
当用户无发表、阅读论文的记录或发表、阅读的论文的数量小于10时,采用人口统计学模型进行分析,生成第一候选集;
当用户发表、阅读论文的数量大于10时,采用协同过滤模型进行分析,生成第一候选集。
3.根据权利要求1所述的基于引用网络及用户熟练度分析的学术推荐方法,其特征在于,步骤2.5B包括:
步骤2.5B.1,通过引用关系对所有论文节点进行聚类,得到每个节点所属的类别;
步骤2.5B.2,设置计算的论文引用关系层数n,n为大于2的正整数,从i=1到i=n遍历第i层上的所有点,查找每个节点各自所属类别,直至发现和该节点对应论文有关系的类别,具体到学科和领域;
步骤2.5B.3,进行推荐。
4.根据权利要求3所述的基于引用网络及用户熟练度分析的学术推荐方法,其特征在于,步骤2.5B.3为:
步骤2.5B.3A,若通过引用论文找到论文相关的一个类别,则通过重排序获得综合推荐集并找到该类别中重要性最大的论文进行推荐;
步骤2.5B.3B,若通过引用论文找到起始论文相关的多于一个类别,则分别遍历每个类别中的所有点,找到在所有类别都出现过的且和起始论文相似度排序前20%的论文作为推荐论文。
5.根据权利要求1所述的基于引用网络及用户熟练度分析的学术推荐方法,其特征在于,步骤3包括:
步骤3.1,根据数据库系统存储的论文文本信息,统计关键词之间的包含关系;
步骤3.2,根据不同关键词下对应的论文数量,评价关键词所包含范围的大小,用专业性指标进行衡量,计算出每个关键词的专业性值;
步骤3.3,根据用户搜索的方式、内容及用户信息,设计熟练度评价指标,评价每个用户的熟练程度;
步骤3.4,将用户的熟练度作为参数,调整推荐列表,生成第三候选集。
6.根据权利要求1所述的基于引用网络及用户熟练度分析的学术推荐方法,其特征在于,步骤5中,通过用户界面展示模块展示推荐候选集。
7.一种基于引用网络及用户熟练度分析的学术推荐系统,其特征在于,所述系统采用权利要求1至6任意一项所述的基于引用网络及用户熟练度分析的学术推荐方法。
CN201610116043.5A 2016-03-01 2016-03-01 基于引用网络及用户熟练度分析的学术推荐方法及系统 Active CN105787068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610116043.5A CN105787068B (zh) 2016-03-01 2016-03-01 基于引用网络及用户熟练度分析的学术推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610116043.5A CN105787068B (zh) 2016-03-01 2016-03-01 基于引用网络及用户熟练度分析的学术推荐方法及系统

Publications (2)

Publication Number Publication Date
CN105787068A CN105787068A (zh) 2016-07-20
CN105787068B true CN105787068B (zh) 2019-08-23

Family

ID=56387677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610116043.5A Active CN105787068B (zh) 2016-03-01 2016-03-01 基于引用网络及用户熟练度分析的学术推荐方法及系统

Country Status (1)

Country Link
CN (1) CN105787068B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503050B (zh) * 2016-09-23 2021-04-16 耀灵人工智能(浙江)有限公司 一种基于大数据进行阅读文章推荐的方法与系统
US10747759B2 (en) 2017-06-23 2020-08-18 City University Of Hong Kong System and method for conducting a textual data search
CN108259481B (zh) * 2018-01-02 2021-08-20 中电万维信息技术有限责任公司 一种电子政务个性化信息服务方法
CN108304531B (zh) * 2018-01-26 2020-11-03 中国信息通信研究院 一种数字对象标识符引用关系的可视化方法及装置
CN108287909B (zh) * 2018-01-31 2020-08-04 北京仁和汇智信息技术有限公司 一种论文推送方法及装置
CN109213908A (zh) * 2018-08-01 2019-01-15 浙江工业大学 一种基于数据挖掘的学术会议论文推送系统
CN109492142A (zh) * 2018-09-20 2019-03-19 上海雅高文化传播有限公司 适用于关注对象的影响力检测方法、电子终端及存储介质
CN109885694B (zh) * 2019-01-17 2022-10-14 南京邮电大学 一种文献选择及其学习先后次序确定方法
CN109933717B (zh) * 2019-01-17 2021-05-14 华南理工大学 一种基于混合推荐算法的学术会议推荐系统
CN111310052A (zh) * 2020-02-29 2020-06-19 平安国际智慧城市科技股份有限公司 用户画像构建方法、装置及计算机可读存储介质
CN112989053A (zh) * 2021-04-26 2021-06-18 北京明略软件系统有限公司 一种期刊推荐方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412921A (zh) * 2013-08-12 2013-11-27 同方光盘股份有限公司 文献资源知网节的展示结构
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873430B2 (en) * 2000-12-22 2005-03-29 Xerox Corporation Knowledge management system and method
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412921A (zh) * 2013-08-12 2013-11-27 同方光盘股份有限公司 文献资源知网节的展示结构
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PageRank技术分析及网页重要性的综合评价模型;过仕明;《图书馆论坛》;20060228;第26卷(第1期);第21页
基于引用网的在线论文推荐系统研究;廖珊;《中国优秀硕士学位论文全文数据库信息科技辑》;20150215(第2期);第8、23-24、32、34、42页
科技文献个性化推荐系统中用户偏好的建模方法;黄希全;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20050915(第5期);第1、10-14、17、19-28页

Also Published As

Publication number Publication date
CN105787068A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
CN105787068B (zh) 基于引用网络及用户熟练度分析的学术推荐方法及系统
Kong et al. Academic social networks: Modeling, analysis, mining and applications
Salloum et al. Mining social media text: extracting knowledge from Facebook
Vargas-Quesada et al. Visualizing the structure of science
US8650198B2 (en) Systems and methods for facilitating the gathering of open source intelligence
US7844592B2 (en) Ontology-content-based filtering method for personalized newspapers
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
EP2048607B1 (en) System and method for prospecting digital information
US8930388B2 (en) System and method for providing orientation into subject areas of digital information for augmented communities
CN109508385B (zh) 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法
CN102138140A (zh) 利用综合语义语境的信息处理
CN109918563A (zh) 一种基于公开数据的图书推荐的方法
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐系统
Calegari et al. Object‐fuzzy concept network: An enrichment of ontologies in semantic information retrieval
Agarwal et al. Convtab: A context-preserving, convolutional model for ad-hoc table retrieval
Li et al. Research on hot news discovery model based on user interest and topic discovery
Castano et al. Thematic clustering and exploration of linked data
Li et al. Hierarchical user interest modeling for Chinese web pages
Meng et al. A personalized and approximated spatial keyword query approach
Zeng et al. Model-Stacking-based network user portrait from multi-source campus data
CN112765311A (zh) 一种裁判文书的搜索方法
Silva et al. Hierarchical expert profiling using heterogeneous information networks
Brisebois et al. Efficient scientific research literature ranking model based on text and data mining technique
Falck et al. Sentiment political compass: a data-driven analysis of online newspapers regarding political orientation
Liang et al. A Systematic Review of Citation Recommendation Over the Past Two Decades

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant