CN103646099B - 一种基于多层图的论文推荐方法 - Google Patents

一种基于多层图的论文推荐方法 Download PDF

Info

Publication number
CN103646099B
CN103646099B CN201310706651.8A CN201310706651A CN103646099B CN 103646099 B CN103646099 B CN 103646099B CN 201310706651 A CN201310706651 A CN 201310706651A CN 103646099 B CN103646099 B CN 103646099B
Authority
CN
China
Prior art keywords
paper
node
weight
limit
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310706651.8A
Other languages
English (en)
Other versions
CN103646099A (zh
Inventor
戴新宇
潘林林
陈家骏
黄书剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201310706651.8A priority Critical patent/CN103646099B/zh
Publication of CN103646099A publication Critical patent/CN103646099A/zh
Application granted granted Critical
Publication of CN103646099B publication Critical patent/CN103646099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了基于多层图的论文推荐方法,包括:步骤一,将目标论文和候选论文作为图中的节点,根据目标论文和候选论文之间以及候选论文彼此之间的引用关系构建论文图;步骤二,使用词权重计算方法计算词在论文中的权重,剔除权重小于阈值的词,并将剩余的词作为节点,借助语义词典信息构建关键词特征图;步骤三,根据论文是否包含关键词的信息将论文图与关键词特征图进行组合;步骤四,使用基于多层图的相似度学习方法列出目标方程;步骤五,使用图的启发式搜索算法对目标函数进行优化,更新多层图中边的权重,根据最终多层图的结果进行论文推荐。本发明使得计算机能够根据使用者读过的或者标记感兴趣的目标论文。

Description

一种基于多层图的论文推荐方法
技术领域
本发明涉及一种计算机文本挖掘领域,特别是一种计算机论文推荐方法。
背景技术
随着当今世界信息量的急剧增加,以及科研工作的不断取得成果,当今的电子图书馆拥有越来越多的来自各个期刊或者会议的论文。为了更好更快地找到与自己工作相关的论文,人们对论文搜索准确性的需求越来越大。论文推荐就是根据用户的研究方向或者根据用于过往读过的论文为用户推荐一组论文。近年来,对于一个论文推荐任务,一般有三种做法:第一种是基于论文之间的引用信息,根据共同引用的论文数计算论文之间的相关性得分;第二种是基于论文的内容信息,首先把每一个文本都映射到一个高维欧几里得空间,每一维就相当于一个特征,然后为每一维特征计算一个权值,最后使用余弦公式计算向量之间的夹角,即论文之间的相似度;第三种是线性结合论文的引文信息和内容信息,分别计算基于引文信息的得分和基于内容信息的得分,最后将这两种方法的得分线性累加,计算最终的论文相似度得分。而为用户推荐与目标论文相关的论文时,并不能对论文中的词进行简单的匹配,因为论文有很多异构特征,比如:文本、引用、作者、发表期刊等信息。这些异构特征之间可能存在依赖关系,而以往的方法并没有将这些异构特征的依赖关系考虑进来。比如:有些词的表达方式虽然不一样,但是他们其实是相关的,即词与词之间存在依赖关系。表1表示了三篇论文存在的某些词,这三篇论文都是关于机器翻译的。
表1论文词的依赖关系示例
在表1中,论文v1包含词“Statistical Machine Translation”,论文v2包含词“Bilingual Corpora”,论文v3包含词“Statistical Machine Translation”和“BilingualCorpora”。单纯使用关键词匹配,它们之间没有任何关系,但是从我们人的角度来看这两个都是和机器翻译相关的。如果我们考虑特征之间的依赖关系,可以更好地为用户推荐与之工作相 关的论文。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于多层图的论文推荐方法。
为了解决上述技术问题,本发明公开了一种基于多层图的论文推荐方法,其特征在于,包括以下步骤:
本发明特征在于,包括以下步骤:
步骤一,将目标论文和候选论文作为图中的节点,根据目标论文和候选论文之间以及候选论文彼此之间的引用关系构建论文图;
步骤二,使用词权重计算方法计算词在论文中的权重,剔除权重小于阈值的词,并将剩余的词作为节点,借助语义词典信息构建关键词特征图;
步骤三,根据论文是否包含关键词的信息将论文图与关键词特征图进行组合;
步骤四,使用基于多层图的相似度学习方法列出目标方程;
步骤五,使用图的启发式搜索算法(AO)对目标函数进行优化,更新多层图中边的权重,根据最终多层图的结果进行论文推荐。
本发明步骤一包括以下步骤:
步骤11,将每篇论文作为一个节点,根据目标论文和候选论文之间以及候选论文彼此之间的引用信息构建论文图G0(V,E),V=v1,v2,...,vN,N为论文图G0包含的节点总数,其中vj为论文集中的第j篇论文,当论文vi与论文vj存在引用关系时论文vi与论文vj之间有边连接,i=1,2,...,N,j=1,2,...,N,则判定论文图G0中存在一条边eij,反之,判定论文vi与论文vj之间没有边连接;从而构建论文图,并设置论文图G0中的所有边的初始权重等于1。这里构建的论文图G0是一个无向图,比如论文图G0中若存在一条边eij,那边就会存在另一条边eji,并且边eij与边eji拥有相同的权重。论文图G0中的所有边的初始权重也可以使用论文内容相似度方法进行初始化。
本发明步骤二包括以下步骤:
步骤21,根据一些常用的停用词表,剔除一些比如“the”、“a”、“an”等这类意义不大的词,然后使用一元语法把论文vj表示成特性向量的形式,vj=u1,u2,...,um, 其中,每一维表示一个词,m表示论文vj包含的词的总数,uq为论文vj中的第q个词,q=1,2,...,m;
步骤22,根据词权重计算方法的计算公式计算步骤21中每一篇论文中词的权重:
n q , j Σ p n p , j × log | V | | { j : u q ∈ v j } | ,
nq,j是第q个词uq在第j篇论文vj中出现的次数,|V|表示目标论文和候选论文的总数,∑pnp,j表示论文vj中所有词在第j篇论文vj中出现的次数总和,p=1,2,...,m;
把论文vj表示成如下形式:vj=(u1,j,u2,j,...,um,j),uq,j表示论文vj的第q个词的权重值;
步骤23,由于每一篇论文包含很多词,可能存在一些噪音词,从而干扰推荐结果,并且从推荐效率的角度考虑,如果将所有的词包含进来,算法的计算复杂度会很高,因此,考虑设定阈值ε,与步骤22的结果比较,当uq,j>ε时,词uq作为关键词保留;反之,将词uq从论文vj中剔除;从而最终得到论文集V的关键词集合,并对所有的权重进行归一化,归一化计算公式如下:
u q , j = u q , j Σ p u p , j
uq,j是第q个词uq在第j篇论vj中的权重,∑pup,j表示论文vj中所有词在第j篇论文vj中的权重总和,p=1,2,...,m;
步骤24,根据语义词典中的词语相似度计算方法的计算公式计算步骤23中关键词之间的相似度权重simLC
sim LC = - log shortest _ path ( u p , u q ) 32 ,
shortest_path(up,uq)表示关键词up和关键词uq在语义词典中的最短路径长度,公式中的32是一个经验值;
本发明中使用的语义词典是普林斯顿大学设计的一种基于认知语言学的英语词典,该词典主要包含四种词性的英语单词,分别是动词、名词、形容词、副词。这四种词性的词各自被组织成一个同义词网络,每一同义词集合都代表一个基本的语义概念, 并且这些集合中的词与词之间也由各种关系连接。四种不同词性的网络之间并无连接。因此,在构建关键词特征图G1之前,需要对步骤23中的关键词进行词性标注。
步骤25,将步骤23中的每个关键词作为一个节点,根据步骤24的结果构建关键词特征图G1(V,E)。
本发明步骤三包括以下步骤:
步骤31,根据层连通性的计算公式计算关键词与论文之间边的权重Z:
Z v j u q = 1 , if u q ∈ v j 0 , else ,
其中,表示关键词uq与论文vj之间的连通度,即关键词uq与论文vj之间边的初始权重,根据论文是否包含关键词的信息将步骤11的论文图G0(V,E)与步骤25的关键词特征图G1(V,E)组合成一个多层图。这里计算关键词与论文之间边的权重也可以使用步骤23的结果,即当论文vj包含关键词uq时,关键词uq与论文vj之间边的权重就等于归一化后词的权重。
本发明步骤四包括以下步骤:
步骤41,基于多层图的相似度学习的方法,设计目标函数:
F(W,Z)=α0*ISC(W,W*)+α1*IKC(Z,Z*)+α2*KS(W,Z)+α3*SK(Z,W),
其中α0、α1、α2和α3都是参数,取值范围都是大于0小于1的实数,且α0123=1,一般实验中设置α0=0.35,α1=0.35,α2=0.15,α3=0.15,ISC(W,W*)、IKC(Z,Z*)、KS(W,Z)和SK(Z,W)计算公式如下:
ISC ( W , W * ) = Σ v i , v j ∈ G 0 ( w v i , v j - w v i , v j * ) 2 ,
其中,ISC(W,W*)表示论文图G0中论文与论文之间边的初始权重W*对更新后论文图G0中论文与论文之间边的权重W的约束,权重W初始为0,vi表示论文图G0中的一个节点,vj表示论文图G0中的另一个节点,表示更新后节点vi和节点vj之间边的权重, 表示节点vi和节点vj之间边的初始权重,这个函数的设置主要考虑论文图中的边的初始权重的设置也是基于一定的信息,存在部分可信度,更新后的边的权重应该与初始权重相差不大。
IKC ( Z , Z * ) = Σ v j ∈ G 0 , u q ∈ G 1 ( z v j , u q - z v j , u q * ) 2 ,
其中,IKC(Z,Z*)表示关键词特征图G1中关键词与论文图G0中论文之间边的初始权重Z*对更新后关键词与论文之间边的权重Z的约束,vj表示论文图G0中的一个节点,uq表示关键词特征图G1中的另一个节点,表示节点vj和节点uq之间边的权重,表示节点vj和节点uq之间边的初始权重,这个函数的设置主要考虑论文与关键词之间的边的初始权重的设置也是基于一定的信息,存在部分可信度,更新后的边的权重应该与初始权重相差不大。
KS ( W , Z ) = Σ v i , v j ∈ G 0 Σ u p , u q ∈ G 1 z v i , u p z v j , u q ( w v i , v j - w u p , u q ) 2 ,
其中,KS(W,Z)表示关键词特征图G1中关键词与论文图G0中论文之间边的权重Z对论文图G0中论文与论文之间边的权重的影响,vi表示论文图G0中的一个节点,vj表示论文图G0中的另一个节点,up表示关键词特征图G1中的一个节点,uq表示关键词特征图G1中的另一个节点,表示节点vi和节点vj之间边的权重,表示节点up和节点uq之间边的权重,表示节点vj和节点uq之间边的权重,表示节点vi和节点up之间边的权重,这个函数的设置主要考虑当论文vi与论文vj之间的边权值很大,关键词up与论文vi之间的边的权值很大,关键词uq与论文vj之间的边的权值也很大,那么关键词uq与关键词up之间的边也应该有较大的权值。与此同时,该函数还考虑了当关键词uq与关键词up之间的边权值很大,关键词up与论文vi之间的边的权值很大,关键词uq与论文vj之间的边的权值也很大,那么论文vi与论文vj之间的边也应该有较大的权值。
SK ( W , Z ) = Σ v i , v j ∈ G 0 Σ u p , u q ∈ G 1 w v i , v j w u p , u q ( z v i , u q - w v i , u q ) 2 ,
其中,SK(W,Z)表示论文图G0中论文与论文之间边的权重对关键词特征图G1中关键词与论文图G0中论文之间边的权重Z的影响,vi表示论文图G0中的一个节点,vj表示论文图G0中的另一个节点,up表示关键词特征图G1中的一个节点,uq表示关键词特征图G1中的另一个节点,表示节点vi和节点vj之间边的权重,表示节点up和节点uq之间边的权重,表示节点vj和节点uq之间边的权重,表示节点vi和节点up之间边的权重,这个函数的设置主要考虑当论文vi与论文vj之间的边权值很大,关键词 uq与关键词up之间的边的权值很大,关键词up与论文vi之间的边的权值也很大,那么关键词uq与论文vj之间的边也应该有较大的权值。
本发明步骤五包括以下步骤:
步骤51,使用图的启发式搜索算法最小化目标函数:
目标函数中的论文图中的边求偏导,
∂ F ( W , Z ) ∂ w v i , v j = 2 α 0 ( w v i , v j - w v i , v j * ) + 2 α 2 * Σ u p , u p ∈ G 1 z v i , u p z v j , u p ( w v i , v j - w u p , u p ) + α 3 * Σ u p , u p ∈ G 1 w v i , v j w u p , u p ( z v j , u p - z v i , u p ) 2 ,
令偏导等于0,计算得到论文图G0中论文vi与论文vj之间边的更新后的权重:
w v i , v j = 1 C 1 ( α 0 w v i , v j * + α 2 Σ u p , u q ∈ G 1 z v i , u p w u p , u q z v j , u q ) ,
其中,C1是一个中间量,计算如下:
C 1 = α 0 + α 2 Σ u p , u q ∈ G 1 z v i , u p z v j , u q + α 3 2 Σ u p , u q ∈ G 1 w u p , u q ( z v j , u q - z v i , u p ) 2 ,
目标函数中的关键词与论文之间的边求偏导,计算得到关键词uq与论文vj之间边的更新后的权重:
z v j , u q = 1 C 2 ( α 1 z v j , u q * + α 3 Σ v i ∈ G 0 Σ u p ≡ G 1 w v i , u p w v j , v i z v i , u p ) ,
其中,C2是一个中间量,计算如下:
C 2 = α 1 + α 3 Σ v i ∈ G 0 Σ u p ∈ G 1 w v i , u p w v j , v i + α 2 2 Σ v i ∈ G 0 Σ u p ∈ G 1 z v i , z v i , u p ( w v i , v j - w u p , u q ) 2 ,
目标函数中关键词特征图中的节点与节点之间的边求偏导,计算得到关键词up与关键词uq之间边的更新后的权重:
w u p , uq = 1 C 3 ( 2 α 2 Σ v i , v j ∈ G 0 ( z v i , u p z v j , u q w v i , v j + α 3 w v i , v j ( z v j , u q - z v i , u p ) 2 ) ) ,
其中,C3是一个中间量,计算如下:
C 3 = 2 α 2 Σ v i , v j ∈ G 0 z v i , u p z v j , u q , ;
返回步骤四更新目标函数,直到满足迭代终止的条件;
迭代终止的条件为:
| w v i , v j t - w v i , v j t - 1 | ≤ τ ∀ ( v i , v j ) ∈ G 0 ,
其中表示第t次迭代之后节点vi和节点vj边的权重,第t-1次迭代之后节点vi和节点vj边的权重,τ是一个阈值参数取值范围都是大于0小于1的实数,G0表示论文图;
步骤52,根据步骤51中迭代结束后的结果,在论文图G0中为用户推荐与目标论文连接的候选论文中边的权重最高的一组论文。
有益效果:本发明有效地利用了异构特征以及同种特征之间的依赖关系更好地为用户推荐论文。通过构建多层图,不仅使用了论文之间的引用信息,还是用了论文的内容等信息。同时,基于多层图的相似度学习的方法能够很好地学习特征之间的依赖关系,增强论文之间的相似度,进而提高论文推荐的效果。
本发明对现有的基于引文信息和基于内容信息的论文推荐方法进行改善和提高,能够充分利用异构特征以及同种特征之间的依赖关系。通过构建多层图,不仅使用了论文之间的引用信息,还是用了论文的内容等信息。同时,基于多层图的相似度学习的方法能够很好地学习特征之间的依赖关系,增强论文之间的相似度,进而提高论文推荐的效果。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是表3实验结果示意图。
图2是多层图结果示意图。
图3是语义词典的信息示意图。
图4是迭代结束后得到最终的多层图。
图5是本发明的流程图。
具体实施方式
本发明提出了一种基于多层图的论文推荐方法。既可以充分利用论文中的异构特征,又可以学习到论文中异构特征和同种特征之间的依赖关系,进而可以更好地找到与目标论文相关的论文。现有的技术中,主要使用论文的引用信息和论文的内容信息。
假设有3篇论文,分别为v1、v2和v3
首先使用向量空间模型将论文转换成空间向量然后使用词权重计算方法(tf·idf)
计算每一维词的权重。tf·idf公式如下:
n q , j Σ p n p , j × log | V | | { j : u q ∈ v j } | ,
nq,j是第q个词uq在第j篇论文vj中出现的次数,|V|表示目标论文和候选论文的总数,∑p np,j表示论文vj中所有词在第j篇论文vj中出现的次数总和,p=1,2,...,m;
从推荐效率的角度考虑,如果将所有的词包含进来,算法的计算复杂度会很高,因此,设定阈值ε=0.2,删除权值小于ε的词,处理之后的结果如表2所示,首先根据表2中论文之间的引用关系,论文v1引用论文v2,节点v1与v2之间有一条边,论文v2引用论文v3,节点v2与v3之间有一条边,从而构建了论文图G0
表2表示3篇论文的引用信息和内容信息
根据语义词典的信息,构建关键词特征图G1
其中语义词典的信息如图3所示,词以树形结构存储,词之间是一种上下位的关系。同一棵树上的词之间有一定的相似度。比如词“Car”到词“Cycle”最短需要经过4条路径,那么它们之间的相似度为:
sim LC = - log shortes t path ( ' Car ' , ' Cycle ' ) 2 W = - log 4 32 = 0.90
根据语义词典信息发现关键词u2与u4存在联系,所以节点u2与u4之间存在一条边,从而构建关键词特征图G1
最后根据论文是否包含关键词的信息,根据表2,论文v1包含关键词u2,论文v2包含关键词u1,论文v3包含关键词u3与u4,所以节点v1与u2之间存在一条边,节点v2与u1之间存在一条边,节点v3与u3之间存在一条边,节点v3与u4之间存在一条边,多层图结果如图2所示。
基于多层图的相似度学习的方法,列出目标方程:
F(W,Z)=α0*ISC(W,W*)+α1*IKC(Z,Z*)
2*KS(W,Z)+α3*SK(Z,W)
这里α0123=1,实验中设置α0=0.35,α1=0.35,α2=0.15,α3=0.15,其中ISC(W,W*)、IKC(Z,Z*)、KS(W,Z)和SK(W,Z)的定义如下:
ISC ( W , W * ) = Σ v i , v j ∈ G 0 ( w v i , v j - w v i , v j * ) 2
IKC ( Z , Z * ) = Σ v j ∈ G 0 , u q ∈ G 1 ( z v j , u p - z v j , u q * ) 2
KS ( W , Z ) = Σ v i , v j ∈ G 0 Σ u p , u q ∈ G 1 z v i , u p z v j , u q ( w v i , v j - w u p , u q ) 2
SK ( W , Z ) = Σ v i , v j ∈ G 0 Σ u p , u q ∈ G 1 w v i , v j w u p , u q ( z v i , u q - z v i , u p ) 2
最后,使用图的启发式搜索算法对目标函数中的边进行更新。
目标函数中的论文与论文之间的边求求偏导,计算得到论文vi与论文vj之间边的更新后的权重:
w v i , v j = 1 C 1 ( α 0 w v i , v j * + α 2 Σ u p , u q ∈ G 1 z v i , u p w u p , u q z v j , u q ) ,
其中,C1是一个中间量,计算如下:
C 1 = α 0 + α 2 Σ u p , u q ∈ G 1 z v i , u p z v j , u q + α 3 2 Σ u p , u q ∈ G 1 w u p , u q ( z v j , u q - z v i , u p ) 2 ,
目标函数中的关键词与论文之间的边求偏导,计算得到关键词uq与论文vj之间边的更新后的权重:
z v j , u q = 1 C 2 ( α 1 z v j , u q * + α 3 Σ v i ∈ G 0 Σ u p ≡ G 1 w v i , u p w v j , v i z v i , u p ) ,
其中,C2是一个中间量,计算如下:
C 2 = α 1 + α 3 Σ v i ∈ G 0 Σ u p ∈ G 1 w v i , u p w v j , v i + α 2 2 Σ v i ∈ G 0 Σ u p ∈ G 1 z v i , z v i , u p ( w v i , v j - w u p , u q ) 2 ,
目标函数中关键词特征图中的节点与节点之间的边求偏导,计算得到关键词up与关键词uq之间边的更新后的权重:
w u p , uq = 1 C 3 ( 2 α 2 Σ v i , v j ∈ G 0 ( z v i , u p z v j , u q w v i , v j + α 3 w v i , v j ( z v j , u q - z v i , u p ) 2 ) ) ,
其中,C3是一个中间量,计算如下:
C 3 = 2 α 2 Σ v i , v j ∈ G 0 z v i , u p z v j , u p ;
更新目标函数,直到满足迭代终止的条件;
迭代终止的条件为:
| W v i , v j t - W v i , v j t - 1 | ≤ τ ∀ ( v i , v j ) ∈ G 0 ,
其中表示第t次迭代之后节点vi和节点vj边的权重,第t-1次迭代之后节点vi和节点vj边的权重,τ是一个阈值参数取值范围都是大于0小于1的实数,G0表示论文图。迭代结束后得到最终的多层图,如图4所示,发现图中的边发生了变化,并且边上的权重也发生了变化。根据图4的结果为研究者推荐与目标论文相关性得分最高的一组论文。
实施例:
本发明所用的算法全部由python语言编写实现。实验采用的机型为:Intel(R)Core(TM)i3-3220处理器,主频为3.30G HZ,内存为4G。
更具体地说,如图5所示,本发明运行如下:
1.构建论文图:将目标论文和候选论文作为图中的节点,根据目标论文和候选论文之间以及候选论文彼此之间的引用关系构建论文图。
2.构建关键词图:使用词权重计算方法计算论文中词的权重,剔除权重小于阈值的词,并将剩余的词作为关键词,每个词作为一个节点,借助语义词典,信息构建关键词特征图G1(V,E)。
3.构造多层图:根据论文是否包含关键词的信息将论文图与关键词特征图进行组合。
4.目标方程:利用基于多层图的相似度学习列出目标方程。
5.求解目标方程:使用图的启发式搜索算法(AO)对目标函数进行优化多层图中边的权重,使用最终多层图进行论文推荐。
为了验证本发明的有效性,本发明选择六种方法作为对比,基于引文信息的方法:共同引用论文(Co-coupling),共同被论文引用(Co-citation),共同引用与论文频率倒数积(Common Citation×Inverse Document Frequency,CCIDF)和全局关联强度(GlobalRelation Strength,GRS);基于内容信息的方法:链接分析算法(HITS);线性结合引文信息和内容信息的方法(Linear Combination)。
实验数据准备如下:数据集由两部分组成:一部分是目标论文集,目标论文集包含15篇论文,这些论文表示研究者已经读过的论文;另一部分是候选论文集,候选论文集包含597篇论文,这些论文发表在ACL 2000-2006,在候选论文集中寻找与输入的目标论文集相关性最高的一组论文。
可以看出本发明的方法在实验上的推荐性能都是最好的。和对比的几种方法比较,分别有不同程度的提升。为了方便对比,实验结果采用信息检索中比较常用的两种评价指标。一种是归一化累计获得折扣(Normalized Discounted Cumulative Gain,NDCG),另一种是平均倒数排名(Mean Reciprocal Rank,MRR)。与此同时还使用NDCG对推荐前5、10、20、30篇论文的实验进行评估。
表3实验结果
图1为实验结果,实验结果表明使用NDCG的评估方法对推荐前5、10、20、30篇论文的实验结果进行评估,基于多层图的方法均取得最好的实验结果。
本发明提供了一种基于多层图的论文推荐方法的思路,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式。在具体实验中,即使是使用不同的方法计算初始权重,也不会对实验结果造成影响。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (4)

1.一种基于多层图的论文推荐方法,其特征在于,包括以下五个步骤:
步骤一,将目标论文和候选论文作为图中的节点,根据目标论文和候选论文之间以及候选论文彼此之间的引用关系构建论文图;
步骤二,使用词权重计算方法计算词在论文中的权重,剔除权重小于阈值的词,并将剩余的词作为节点,借助语义词典信息构建关键词特征图;
步骤三,根据论文是否包含关键词的信息将论文图与关键词特征图进行组合;
步骤四,使用基于多层图的相似度学习方法列出目标方程;
步骤五,使用图的启发式搜索算法对目标函数进行优化,更新多层图中边的权重,根据最终多层图的结果进行论文推荐;
步骤一包括以下步骤:
步骤11,将每篇论文作为一个节点,根据目标论文和候选论文之间以及候选论文彼此之间的引用信息构建论文图G0(V,E),V=v1,v2,…,vN,N为论文图G0包含的节点总数,其中vj为论文集中的第j篇论文,当论文vi与论文vj存在引用关系时论文vi与论文vj之间有边连接,i=1,2,…,N,j=1,2,…,N,则判定论文图G0中存在一条边eij,反之,判定论文vi与论文vj之间没有边连接;从而构建论文图,并设置论文图G0中的所有边的初始权重等于1;
步骤二包括以下步骤:
步骤21,使用一元语法把论文vj表示成特性向量的形式,vj=u1,u2,…,um,其中,每一维表示一个词,m表示论文vj包含的词的总数,uq为论文vj中的第q个词,q=1,2,…,m;
步骤22,根据词权重计算方法的计算公式计算步骤21中每一篇论文中词的权重:
n q , j Σ p n p , j × log | V | | { j : u q ∈ v j } | ,
nq,j是第q个词uq在第j篇论文vj中出现的次数,|V|表示目标论文和候选论文的总数,∑pnp,j表示论文vj中所有词在第j篇论文vj中出现的次数总和,p=1,2,…,m;
把论文vj表示成如下形式:vj=(u1,j,u2,j,…,um,j),uq,j表示论文vj的第q个词的权重值;
步骤23,设定阈值ε,与步骤22的结果比较,当uq,j>ε时,词uq作为关键词保留;反之,将词uq从论文vj中剔除;从而最终得到论文集V的关键词集合,并对所有的权重进行归一化;
步骤24,根据语义词典中的词语相似度计算方法的计算公式计算步骤23中关键词之间的相似度权重simLC
sim L C = - log s h o r t e s _ p a t h ( u p , u q ) 32 ,
shortest_path(up,uq)表示关键词up和关键词uq在语义词典中的最短路径长度;
步骤25,将步骤23中的每个关键词作为一个节点,根据步骤24的结果构建关键词特征图G1(V,E)。
2.根据权利要求1中所述的一种基于多层图的论文推荐方法,其特征在于,步骤三包括以下步骤:
步骤31,根据层连通性的计算公式计算关键词与论文之间边的权重Z:
Z v j u q = 1 , i f u q ∈ v j 0 , e l s e ,
其中,表示关键词uq与论文vj之间的连通度,即关键词uq与论文vj之间边的初始权重,根据论文是否包含关键词的信息将步骤11的论文图G0(V,E)与步骤25的关键词特征图G1(V,E)组合成一个多层图。
3.根据权利要求2中所描述的一种基于多层图的论文推荐方法,其特征在于,步骤四包括以下步骤:
步骤41,基于多层图的相似度学习的方法,设计目标函数:
F(W,Z)=α0*ISC(W,W*)+α1*IKC(Z,Z*)+α2*KS(W,Z)+α3*SK(Z,W),
其中α0、α1、α2和α3都是参数,取值范围都是大于0小于1的实数,且α0123=1,ISC(W,W*)、IKC(Z,Z*)、KS(W,Z)和SK(Z,W)计算公式如下:
I S C ( W , W * ) = Σ v i , v j ∈ G 0 ( w v i , v j - w v i , v j * ) 2 ,
其中,ISC(W,W*)表示论文图G0中论文与论文之间边的初始权重W*对更新后论文图G0中论文与论文之间边的权重W的约束,权重W初始为0,vi表示论文图G0中的一个节点,vj表示论文图G0中的另一个节点,表示更新后节点vi和节点vj之间边的权重,表示节点vi和节点vj之间边的初始权重;
I K C ( Z , Z * ) = Σ v j ∈ G 0 , u q ∈ G 1 ( z v j , u q - z v j , u q * ) 2 ,
其中,IKC(Z,Z*)表示关键词特征图G1中关键词与论文图G0中论文之间边的初始权重Z*对更新后关键词与论文之间边的权重Z的约束,vj表示论文图G0中的一个节点,uq表示关键词特征图G1中的另一个节点,表示节点vj和节点uq之间边的权重,表示节点vj和节点uq之间边的初始权重;
K S ( W , Z ) = Σ v i , v j ∈ G 0 Σ u p , u q ∈ G 1 z v i , u p z v j , u q ( w v i , v j - w u p , u q ) 2 ,
其中,KS(W,Z)表示关键词特征图G1中关键词与论文图G0中论文之间边的权重Z对论文图G0中论文与论文之间边的权重的影响,vi表示论文图G0中的一个节点,vj表示论文图G0中的另一个节点,up表示关键词特征图G1中的一个节点,uq表示关键词特征图G1中的另一个节点,表示节点vi和节点vj之间边的权重,表示节点up和节点uq之间边的权重,表示节点vj和节点uq之间边的权重,表示节点vi和节点up之间边的权重;
S K ( W , Z ) = Σ v i , v j ∈ G 0 Σ u p , u q ∈ G 1 w v i , v j w u p , u q ( z v j , u q - z v i , u p ) 2 ,
其中,SK(W,Z)表示论文图G0中论文与论文之间边的权重对关键词特征图G1中关键词与论文图G0中论文之间边的权重Z的影响,vi表示论文图G0中的一个节点,vj表示论文图G0中的另一个节点,up表示关键词特征图G1中的一个节点,uq表示关键词特征图G1中的另一个节点,表示节点vi和节点vj之间边的权重,表示节点up和节点uq之间边的权重,表示节点vj和节点uq之间边的权重,表示节点vi和节点up之间边的权重。
4.根据权利要求3中所描述的一种基于多层图的论文推荐方法,其特征在于,步骤五包括以下步骤:
步骤51,使用图的启发式搜索算法最小化目标函数:
目标函数中的论文图中的边求偏导,
∂ F ( W , Z ) ∂ w v i , v j =2 α 0 ( w v i , v j - w v i , v j * ) + 2 α 2 * Σ u p , u q ∈ G 1 z v i , u p z v j , u q ( w v i , v j - w u p , u q ) + α 3 * Σ u p , u q ∈ G 1 w v i , v j w u p , u q ( z v j , u q - z v i , u p ) 2 ,
令偏导等于0,计算得到论文图G0中论文vi与论文vj之间边的更新后的权重:
w v i , v j = 1 C 1 ( α 0 w v i , v j * + α 2 Σ u p , u q ∈ G 1 z v i , u p w u p , u q z v j , u q ) ,
其中,C1是一个中间量,计算如下:
C 1 = α 0 + α 2 Σ u p , u q ∈ G 1 z v i , u p z v j , u q + α 3 2 Σ u p , u q ∈ G 1 w u p , u q ( z v j , u q - z v i , u p ) 2 ,
目标函数中的关键词与论文之间的边求偏导,计算得到关键词uq与论文vj之间边的更新后的权重:
z v j , u q = 1 C 2 ( α 1 z v j , u q * + α 3 Σ v i ∈ G 0 Σ u p ∈ G 1 w v i , u p w v j , v i z v i , u p ) ,
其中,C2是一个中间量,计算如下:
C 2 = α 1 + α 3 Σ v i ∈ G 0 Σ u p ∈ G 1 w v i , u p w v j , v i + α 2 2 Σ v i ∈ G 0 Σ u p ∈ G 1 z v i , u p ( w v i , v j - w u p , u q ) 2 ,
目标函数中关键词特征图中的节点与节点之间的边求偏导,计算得到关键词up与关键词uq之间边的更新后的权重:
w u p , u q = 1 C 3 ( 2 α 2 Σ v i , v j ∈ G 0 ( z v i , u p z v j , u q w v i , v j + α 3 w v i , v j ( z v j , u q - z v i , u p ) 2 ) ) ,
其中,C3是一个中间量,计算如下:
C 3 = 2 α 2 Σ v i , v j ∈ G 0 z v i , u p z v j , u q ;
返回步骤四更新目标函数,直到满足迭代终止的条件;
迭代终止的条件为:
| w v i , v j t - w v i , v j t - 1 | ≤ τ ∀ ( v i , v j ) ∈ G 0 ,
其中表示第t次迭代之后节点vi和节点vj边的权重,第t-1次迭代之后节点vi和节点vj边的权重,τ是一个阈值参数取值范围都是大于0小于1的实数,G0表示论文图;
步骤52,根据步骤51中迭代结束后的结果,在论文图G0中为用户推荐与目标论文连接的候选论文中边的权重最高的一组论文。
CN201310706651.8A 2013-12-19 2013-12-19 一种基于多层图的论文推荐方法 Active CN103646099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310706651.8A CN103646099B (zh) 2013-12-19 2013-12-19 一种基于多层图的论文推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310706651.8A CN103646099B (zh) 2013-12-19 2013-12-19 一种基于多层图的论文推荐方法

Publications (2)

Publication Number Publication Date
CN103646099A CN103646099A (zh) 2014-03-19
CN103646099B true CN103646099B (zh) 2016-09-14

Family

ID=50251313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310706651.8A Active CN103646099B (zh) 2013-12-19 2013-12-19 一种基于多层图的论文推荐方法

Country Status (1)

Country Link
CN (1) CN103646099B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995856B (zh) * 2014-05-14 2017-04-19 北京奇虎科技有限公司 一种提供图像搜索的方法和装置
CN106354728A (zh) * 2015-07-16 2017-01-25 富士通株式会社 利用语义图生成对象之间的关联强度的方法和设备
CN108256968B (zh) * 2018-01-12 2022-03-18 湖南大学 一种电商平台商品专家评论生成方法
CN108304531B (zh) * 2018-01-26 2020-11-03 中国信息通信研究院 一种数字对象标识符引用关系的可视化方法及装置
CN108763367B (zh) * 2018-05-17 2020-07-10 南京大学 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法
US11256696B2 (en) * 2018-10-15 2022-02-22 Ocient Holdings LLC Data set compression within a database system
CN109739977B (zh) * 2018-12-07 2020-10-23 浙江大学 基于非监督学习的图书概念前后序关系抽取方法
CN111209378B (zh) * 2019-12-26 2024-03-12 航天信息股份有限公司企业服务分公司 一种基于业务字典权重的有序分级排序方法
CN113158041B (zh) * 2021-04-19 2022-07-29 电子科技大学 一种基于多属性特征的文章推荐方法
CN114491029B (zh) * 2022-01-18 2023-07-25 四川大学 基于图神经网络的短文本相似度计算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156706A (zh) * 2011-01-28 2011-08-17 清华大学 一种指导者推荐系统及方法
WO2013025438A1 (en) * 2011-08-12 2013-02-21 School Improvement Network, Llc Automatic determination of user alignments and recommendations for electronic resources
CN103390194A (zh) * 2012-05-07 2013-11-13 北京三星通信技术研究有限公司 用户意图预测及推荐建议的方法、设备和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156706A (zh) * 2011-01-28 2011-08-17 清华大学 一种指导者推荐系统及方法
WO2013025438A1 (en) * 2011-08-12 2013-02-21 School Improvement Network, Llc Automatic determination of user alignments and recommendations for electronic resources
CN103390194A (zh) * 2012-05-07 2013-11-13 北京三星通信技术研究有限公司 用户意图预测及推荐建议的方法、设备和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Related Paper Recommendation to Support Online-Browsing of Research Papers";Manabu Ohta等;《Application of Digital Information and Web Technologies》;20110806;全文 *
"VRE中基于内容过滤的论文推荐算法";李永等;《计算机应用研究》;20070930;第24卷(第9期);全文 *

Also Published As

Publication number Publication date
CN103646099A (zh) 2014-03-19

Similar Documents

Publication Publication Date Title
CN103646099B (zh) 一种基于多层图的论文推荐方法
Sugathadasa et al. Synergistic union of word2vec and lexicon for domain specific semantic similarity
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
Jafari et al. Automatic text summarization using fuzzy inference
CN110134925A (zh) 一种中文专利文本相似度计算方法
CN108920521B (zh) 基于伪本体的用户画像-项目推荐系统及方法
CN107092605A (zh) 一种实体链接方法及装置
Medagoda et al. Sentiment lexicon construction using SentiWordNet 3.0
Lynn et al. An improved method of automatic text summarization for web contents using lexical chain with semantic-related terms
Dorji et al. Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary
Shafiee et al. Similarity versus relatedness: A novel approach in extractive Persian document summarisation
Popa et al. Bart-tl: Weakly-supervised topic label generation
US20230267338A1 (en) Keyword based open information extraction for fact-relevant knowledge graph creation and link prediction
Priyadharshan et al. Text summarization for Tamil online sports news using NLP
Maryamah et al. Query Expansion Based on Wikipedia Word Embedding and BabelNet Method for Searching Arabic Documents.
Breja et al. Analyzing linguistic features for answer re-ranking of why-questions
Jiang et al. Learning prototypical goal activities for locations
Wang et al. Use of multi-lexicons to analyse semantic features for summarization of touring reviews
Sboev et al. A comparison of Data Driven models of solving the task of gender identification of author in Russian language texts for cases without and with the gender deception
Kang et al. Sampling latent emotions and topics in a hierarchical Bayesian network
Gupta et al. Document summarisation based on sentence ranking using vector space model
CN114064846A (zh) 一种主题相似度确定方法、装置、电子设备和存储介质
Vechtomova A semi-supervised approach to extracting multiword entity names from user reviews
Xie et al. Answer quality assessment in CQA based on similar support sets
Jauhar A relation-centric view of semantic representation learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant