CN113158041A - 一种基于多属性特征的文章推荐方法 - Google Patents

一种基于多属性特征的文章推荐方法 Download PDF

Info

Publication number
CN113158041A
CN113158041A CN202110418032.3A CN202110418032A CN113158041A CN 113158041 A CN113158041 A CN 113158041A CN 202110418032 A CN202110418032 A CN 202110418032A CN 113158041 A CN113158041 A CN 113158041A
Authority
CN
China
Prior art keywords
article
node
network
type
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110418032.3A
Other languages
English (en)
Other versions
CN113158041B (zh
Inventor
蔡世民
贺小雨
陈明仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110418032.3A priority Critical patent/CN113158041B/zh
Publication of CN113158041A publication Critical patent/CN113158041A/zh
Application granted granted Critical
Publication of CN113158041B publication Critical patent/CN113158041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

该发明公开了一种基于多属性特征的文章推荐方法,属于信息处理领域。用多属性文章特征的推荐方法,提取更多文章特征,提升推荐性能:利用基于文章引文网络的struc2vec嵌入向量,基于带有文章作者、机构信息的异构网络的metapath2vec嵌入向量,文章标题、摘要内容doc2vec的嵌入向量,在原引文网络的基础上,通过重构图的方法,该方法能够按照权重结合同构引文网络、异构文章网络、文本信息的嵌入结果。对于多属性特征的重构网络,使用能够结合结构信息和同质信息的方法进行图嵌入,提升推荐性能:通过node2vec方法得到文章节点含有结构信息和同质信息的嵌入向量,最终通过向量相似度进行推荐。

Description

一种基于多属性特征的文章推荐方法
技术领域
本发明属于信息处理领域,特别是涉及基于文本特征、引文网络特征、异构网络特征的学术文章推荐方法。
背景技术
引文网络:引文网络是由学术文章作为节点构成的图,若两篇学术文章之间有引用关系,则将两个节点连边;引文网络为G(E,V),vi∈V表示文章vi在数据集之中,若eij∈E则表示文章vi、vj有引用关系;这里的引用关系连边eij是无向的,也就是说不区分是文章vi被文章vj引用还是文章vj被文章vi引用。
异构网络:对于图G(E,V)来说,如果节点集V中的点分为不同的类型,且不同类型的点存在连边,则这个图就是异构图,也叫异构网络。
带有文章作者、机构信息的异构网络:G′(V′,E′,T),其中V′=V1∪V2∪V3,V1为机构节点集合,V2为作者节点集合,V3为文章节点集合,T代表不同节点类型的集合,T={1,2,3},E′表示边的集合,简称边集。
含有多属性特征的引文网络:结合每篇文章的多种特征,在原引文网络的基础上重构的网络。
连通图:两个节点连通指的是两个节点间存在路径,连通图G(E,V)满足任意两个不同的顶点vi和vj都连通。
连通分量:无向图G(E,V)的连通分量是一个子图,此子图是连通图,但子图中所有顶点和子图以外的其他顶点不连通。
图嵌入:是一种把整个图或者图里面的节点映射成向量的方法。
文本表征:是自然语言处理领域中,将文本映射为向量的方法。
字符串:将多个字符存储成数组的数据结构。
子串:属于字符串的一部分,由任意个连续的字符组成,称为该串的子串。
特征:指的是代表图中节点或文章的向量。
节点的度:在图G(E,V)中,顶点vi的度是此顶点有边的条数,即deg(vi)=||K||,K={eij|eij∈E,vj∈V}。
随机游走:也称随机漫步,在图中,指的是对于某个节点,基于此节点到其他节点的转移概率,随机生成一条路径。
上下文(context)序列:随机游走生成的路径,也叫序列。
相似度:向量的相似程度的数量表示。直观上看,将多个文章表示为向量,通过两个向量的相似性则可以进行推荐。相似度的度量指标有欧几里得距离、余弦相似度等。
推荐列表:对每一篇文章,生成的一个含有和它若干篇相似文章的列表,其中相似文章按照相似度降序排列。
学术文章是指包含作者、所属机构、标题、摘要信息的已发表文章。作者是指学术文章的署名者,通常有多个。所属机构是指作者所属的机构,通常一个作者对应一个机构。
现有技术的缺点:
经典的基于引文网络的文章推荐方法诸如DeepWalk、node2vec损失了多种顶点的类型和边的类型构成的复杂文章网络的结构信息。而大多数基于图的推荐算法都忽略了文章文本信息。
基于文章文本信息的推荐方法,诸如ACM分类树中的文章信息、TF-IDF来提取文章正文的术语进行文章推荐、通过doc2vec进行文本表征等,它们都无法将文章之间的引用关系、文章作者之间的关系等信息加入推荐结果。有一些加入了文本特征的基于图嵌入的文章推荐方法也存在缺点。比如paper2vec,虽然使用了引文网络的图嵌入方法,但只使用了word2vec方法得到单词的文本特征,没有考虑单词在文本中的顺序带来的信息。比如VOPRec,只使用了文章标题通过doc2vec来获取文本特征、且在结构特征的挖掘上只对引文网络使用了struc2vec。它们都没有考虑摘要信息的文本相似度和文章作者及所属机构带来的结构关系。
发明内容
本发明针对现有技术的不足,提供了一种能够使用文本特征、引文网络特征、带有文章作者、机构信息的异构网络特征的学术文章推荐方法。
本发明公开的一种基于多属性特征的文章推荐方法,该方法具体包括下列步骤:
步骤1:数据获取;
获取每一篇文章的数据包含作者、机构信息、文章标题文本、文章摘要文本、文章引文;根据获取的文章引文构建全部文章的引文网络,该引文网络表示全部文章之间的引用联系;根据作者、机构信息构建全部文章的异构网络,该异构网络表示全部文章之间关于作者、机构信息的联系;
步骤2:根据步骤1构建的引文网络计算每篇文章的struc2vec特征向量;
步骤3:根据步骤1获取的文章标题文本、文章摘要文本计算每篇文章的doc2vec特征向量;
步骤4:根据步骤1获构建的异构网络计算每篇文章的metapath2vec特征向量;
步骤5:对每一篇文章,选取A篇struc2vec特征相似度最高的文章、B篇doc2vec特征相似度最高的文章、C篇metapath2vec特征相似度最高的文章;将选出的所有文章与这篇文章在引文网络上建立联系,且将每条联系赋予权重,重构出一个含有多属性特征的引文网络;
步骤6:根据含有多属性特征的引文网络采用DeepWalk方法计算得到每篇文章的整体特征向量
步骤7:实际推荐时,对特定文章,选取整体特征向量相似度最高的多篇文章进行推荐。
进一步的,所述步骤1中获取每一篇文章数据的方法为:
步骤1.1:首先将多个空格、“\t”、“\n”、“^”符号后接的数字清洗掉;
步骤1.2:对于含有字符“@”的数据,“@”字符前面的一段连续字符认定为作者,“@”符号后面的一段连续字符认定为机构信息;针对剩下的数据中,利用“ins”、“insti”、“colle”、“cent”、“univ”关键字提取机构信息,再在剩下的数据在通过正则表达式提取作者;
步骤1.3:通过在维基百科上的学校名字或缩写,同时满足以下两个条件则确认是同一个作者:
a)机构信息的缩写是以“·”或“@”分割的邮箱信息的子串;
b)通过“@”字符得到的学者非全称姓名是通过正则表达式得到学者全称姓名的子串;
步骤1.4:根据文章信息直接获取文章标题文本、文章摘要文本。
进一步的,所述步骤2中计算struc2vec特征向量的方法为:
步骤2.1:定义引文网络中节点vi的邻域N(vi),每个节点表示一篇文章,节点的k级邻域定义为Nk(vi);定义s(S)为节点集合S的度序列;定义函数g(s(S1),s(S2))为两个度序列S1、S2的距离,定义κ*为G(E,V)中相距最远的点的距离,κ*即为构建的多层网络的层数;
步骤2.2:计算多层网络中,节点vi,vj的距离fκ(i,j):
Figure BDA0003026744730000031
步骤2.3:构建一个多层网络,对于每一层,都保留原来引文网络的所有节点,相邻层的相同节点建立连接,并构建有
Figure BDA0003026744730000032
条边的完全图,V表示引文网络中的节点集合,|V|表示引文网络中的节点个数,第κ层的两个节点vi,vj连边eij的权重如下:
Figure BDA0003026744730000045
对于第κ层和第κ-1层的文章节点vi来说,存在有向边,权重如下定义:
w(iκ,iκ+1)=log(Γκ(i)+e),κ=0,1,…,κ*
w(iκ,iκ-1)=1,κ=1,2,…,κ*
其中Γκ(i)度量的是κ层所有节点与节点vi的相似程度。
步骤2.4:采用步骤2.3建立的多层网络生成每篇文章节点的上下文序列;
对于网络的一层来说,通过权重wκ(i,j)来决定文章节点vi转移到文章节点vj的概率pκ(i,j);
Figure BDA0003026744730000041
考虑相邻层的网络,文章节点vi不仅可以转移到vj,还可以上移一层或者下移一层,定义pκ(i,i+1)为文章节点向上一层网络的同样节点转移的概率,pκ(i,i-1)为文章节点向下一层的转移概率:
Figure BDA0003026744730000042
Figure BDA0003026744730000043
根据转移概率,计算出每篇文章节点在多层网络中的上下文序列;
步骤2.5:采用层次Softmax方法,将上下文序列输入进Skip-Gram模型中,得到该文章的struc2vec特征向量。
进一步的,所述步骤4的方法为:
步骤4.1:生成一个随机游走序列v1,v2,v3…,vl,生成序列所需的异构网络节点vk转移到vk+1的概率p(vk+1|vk)如下计算:
Figure BDA0003026744730000044
其中,E′表示带有文章作者、机构信息的异构网络的边集,type()为一个映射,type(vk)表示节点vk所属的类型,type(ei)表示边ei所属的类型;
步骤4.2:最优目标是最大化条件概率:
Figure BDA0003026744730000051
其中,Ntype(v)是节点v类型为type的邻居节点,Tv为G′中所有节点的类型集合,θ表示需要优化的参数,G′表示带有文章作者、机构信息的异构网络,p(ntype|v;θ)表示在含有论文v上下文(context)序列中,出现概率论文节点ntype的概率,ntype表示任意与论文节点v相邻的且为type类型的论文节点,Y表示异构网络的所有节点集合;
步骤4.3:最优化目标中的log(p(ntype|v))是softmax函数
Figure BDA0003026744730000052
设负采样大小为X,则得到损失函数形式:
Figure BDA0003026744730000053
其中,
Figure BDA0003026744730000054
表示论文节点ntype的目标特征向量,ntype表示任意与论文节点v相邻的且为type类型的论文节点,Rv表示论文节点v的特征向量,
Figure BDA0003026744730000055
表示所有类型为type的论文节点中的第j个,utype表示节点ntype的类型,
Figure BDA0003026744730000056
表示softmax函数
Figure BDA0003026744730000057
Figure BDA0003026744730000058
梯度如下所示:
Figure BDA0003026744730000059
Figure BDA00030267447300000510
其中,
Figure BDA00030267447300000511
表示
Figure BDA00030267447300000512
是否是ntype的邻居节点,
Figure BDA00030267447300000513
表示
Figure BDA00030267447300000514
论文节点的特征向量,p(x)表示softmax函数softmax(x),
Figure BDA00030267447300000515
表示所有类型为type的论文节点中的第j个;
步骤4.5:根据梯度进行多次后向传播,每次后向传播更新随机游走序列,最终得到的最优后向传播结果为每篇文章的metapath2vec特征。
进一步的,所述步骤2.3中计算Γκ(i)的方法为:
设从κ层节点vi生成的集合Tκ(i)满足
Figure BDA00030267447300000516
Γκ(i)的计算方式如下:
Figure BDA0003026744730000061
其中,
Figure BDA0003026744730000062
表示论文节点vi的所有wκ的平均值。
和现有的技术相比,本发明有益效果为:
1.使用多属性文章特征的推荐方法,提取更多文章特征,提升推荐性能:利用基于文章引文网络的struc2vec嵌入向量,基于带有文章作者、机构信息的异构网络的metapath2vec嵌入向量,文章标题、摘要内容doc2vec的嵌入向量,在原引文网络的基础上,通过重构图的方法,该方法能够按照权重结合同构引文网络、异构文章网络、文本信息的嵌入结果。
2.对于多属性特征的重构网络,使用能够结合结构信息和同质信息的方法进行图嵌入,提升推荐性能:通过node2vec方法得到文章节点含有结构信息和同质信息的嵌入向量,最终通过向量相似度进行推荐。
附图说明
图1为本发明提出的基于文本特征、引文网络特征、异构网络特征的学术文章推荐方法流程图。
图2为struc2vec图嵌入结构示意图。
图3为带有文章作者、机构信息的异构网络示意图。
图4为文章作者、机构信息的异构网络中进行metapath采序示意图。
图5为有文章作者、机构信息的异构网络使用Skip-Gram方法示意图。
图6为用文本特征、引文网络特征、异构网络特征重构引文网络方法示意图。
具体实施方案
为了使本发明的目的更加清楚,以下结合附图对本发明进一步详细介绍。
图1可视化地展现了本发明
图2直观的展示了根据步骤1构建的引文网络计算每篇文章的struc2vec特征向量;
对引文网络使用struc2vec图嵌入方法得到训练集的特征,使用短序列长度为50,游走次数为20,skip-gram训练输入的窗口大小为10。最终将文章表征长度为128的向量。
定义节点vi的邻域N(vi),每个节点表示一篇文章,节点的k级邻域定义为Nk(vi);定义s(S)为节点集合S∈V的度序列。定义函数g(s(S1),s(S2))为两个度序列S1、S2的距离;使用DTW方法来衡量两个序列的距离。定义κ*为G(E,V)中相距最远的点的距离,κ*也是struc2vec构建的多层网络的层数;
1.计算多层网络中,节点vi,vj的距离fκ(i,j):
Figure BDA0003026744730000071
2.构建一个多层网络,对于每一层,都保留原来的所有节点,并构建有
Figure BDA0003026744730000072
条边的完全图;且相邻两层
Figure BDA0003026744730000073
都跟自己连接。第κ层的两个节点vi,vj连边eij的权重如下:
Figure BDA0003026744730000074
对于第κ层和第κ-1层的文章节点vi来说,它们之间也存在有向边,权重如下定义:
w(iκ,iκ+1)=log(Γκ(i)+e),κ=0,1,…,κ*
w(iκ,iκ-1)=1,κ=1,2,…,κ*
其中Γκ(i)度量的是本层节点与节点vi的相似程度,越相似越高,设从κ层节点vi生成的集合Tκ(i)满足
Figure BDA0003026744730000075
Γκ(i)的计算方式如下:
Figure BDA0003026744730000076
3.生成文章节点的上下文(context)。对于网络的一层来说,通过权重wκ(i,j)来决定文章节点vi转移到文章节点vj的概率pκ(i,j):
Figure BDA0003026744730000077
考虑相邻层的网络,文章节点vi不仅可以转移到vj,还可以上移一层或者下移一层,定义pκ(i,i+1)为文章节点向上一层网络的同样节点转移的概率,pκ(i,i-1)为文章节点向下一层的转移概率:
Figure BDA0003026744730000078
Figure BDA0003026744730000079
使用层次Softmax(Hierarchical Softmax)方法,将context序列输入进Skip-Gram中进行训练。得到基于引文网络信息的struc2vec特征向量。
步骤3中使用stop-words工具包将英文常见停用词过滤掉,最后将全部处理成小写的论文标题和摘要数据单词通过空格间隔,保留论文pid作为doc2vec算法的输入,一个pid对应一篇论文的语料,一个pid用唯一的向量来表示。使用doc2vec库进行训练,游走序列长度为50,游走次数为10,skip-gram窗口大小为10,最终将文章表征长度为64的向量。
图3,图4,图5展示了步骤4中,根据步骤1获构建的异构网络计算每篇文章的metapath2vec特征向量的网络;根据图3示意的异构信息图G′(V′,E′,T),根据meta-path方法进行如图4所示的采序。将采序后的短序列输入metapath2vec中进行训练。序列长度50,每个节点游走次数为10,skip-gram窗口大小为7,负采样个数为3。将论文转化为长度为128的向量。
图3是带有文章作者、机构信息的异构网络示意图,按照图4的方式来生成随机游走序列,过程如下:
在meta-path的采序策略中,要求序列首末的节点是同样的类型。定义第x步的异构节点vk∈Vk,下一步的异构节点应该从Vk+1当中选择,则异构节点vk转移到vk+1的概率定义为
Figure BDA0003026744730000081
为一个映射,type(vk)表示节点vk所属的类型,type(ei)表示边ei所属的类型:
Figure BDA0003026744730000082
对于转移概率,以作者到下一个文章节点的转移为例,若作者节点vk到文章节点vk+1间没有边,则不转移;若作者节点vk和机构节点vk+3之间有边,但由于采序策略中本次转移仅限作者到文章,因此转移概率也为0;当找到和作者节点vk有连边的点vk+1,且满足vk+1的类型type(vk+1)是文章节点的时候,转移概率由作者发表的文章数决定,作者发表文章越多,转移到指定type(vk+1)类型节点的概率就越低。
图5所示了在生成一个随机游走序列后,对于这个序列v1,v2,v3…,vl,设Tv为G′中所有节点的类型集合(Tv={1,2,3}),Ntype(v)是节点v类型为type的邻居节点,则目标矩阵为
Figure BDA0003026744730000083
设采样个数为C,则最优化的目标是最大化条件概率:
Figure BDA0003026744730000084
异构网络嵌入的Skip-Gram方法示意如图5所示。最优化目标中的log(p(ntype|v))是softmax函数
Figure BDA0003026744730000085
设负采样大小为X,则可以得到损失函数形式:
Figure BDA0003026744730000091
梯度如下所示:
Figure BDA0003026744730000092
Figure BDA0003026744730000093
其中ind(ntype,utype)表示utype是否是邻居节点ntype
根据梯度,根据后向传播更新目标矩阵W,即可得到异构图中每个节点对应的嵌入结果。图6展现了步骤5,使用文本特征、引文网络特征、异构网络特征重构引文网络的方法。对每一篇测试集中的文章,选取前3篇struc2vec特征相似度最高的文章、2篇doc2vec特征相似度最高的文章、2篇metapath2vec特征相似度最高的文章。将选出的文章与这篇文章在引文网络上连边。将边eij按照节点vi和节点vj相似度大小赋予一定权重wij,保证相似度越高的边权重越大,并且将原来属于引文网络的边也赋予一定的权重。
对训练集中的每个节点vi∈Vtest,在doc2vec嵌入结果中选择2个相似度最大的最近邻节点集合S0,在metapath2vec的文章类节点嵌入结果中选择2个相似度最大的节点集合S1,在struc2vec嵌入结果中选择3个相似度最大的最近邻节点集合S2,在原来的引文网络G(E,V)中,对每个节点vi先将集合S0∪S1∪S2中的所有点和它连边。
对于连边的权重设置,设ψ(j)为节点vj对所在的节点集合类别的集合,比如文章节点v253既在文章节点v251进行doc2vec嵌入后最相似的前3篇文章中,又在文章节点v251进行struc2vec嵌入后最相似的前5篇文章中,则有ψ(253)={0,1}。对每个节点vi来说,在x∈ψ(i)时,节点vi,vi的相似度为simx(i,j)。设N(i)为vi的邻局节点集合,d(i)为节点vi的度。则边eij的权重wij按公式计算如下:
Figure BDA0003026744730000094
对于不同嵌入结果的节点权重不同,当eij是引文网络中的连边时,额外增加一个链路预测使用的Sorenson指标。
这样做的好处是:在重构图权重的分配上,对于一篇目标文章,对不同特征的最近邻节点连边,但在同一个特征嵌入结果内部,相似度大小也是有区别的,因此需要在权重设置上体现出相似度大小的区别。对于原有的引文网络中的连边,加入基于节点局部相似性的链路预测指标作为权重,可以让节点的公共邻居信息得到加强。
步骤6得到每篇文章的特征向量的过程为:
第一步随机游走是基于深度优先的图遍历方法,并且可以多次访问同一个节点。从节点vi到节点vj的跳转概率如下计算:
Figure BDA0003026744730000101
DeepWalk论文中把随机游走序列称为短序列,第二步就是把短序列的one-hot向量输入进Skip-Gram模型,它得到的节点嵌入结果就含有图中的节点和连边所包含的信息。选取游走长度为250,游走次数为30,skip-gram的窗口大小为10。得到表征每篇文章的长度为128维的向量。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形都应视为本发明的保护范围。

Claims (6)

1.一种基于多属性特征的文章推荐方法,该方法具体包括下列步骤:
步骤1:数据获取;
获取每一篇文章的数据包含作者、机构信息、文章标题文本、文章摘要文本、文章引文;根据获取的文章引文构建全部文章的引文网络,该引文网络表示全部文章之间的引用联系;根据作者、机构信息构建全部文章的异构网络,该异构网络表示全部文章之间关于作者、机构信息的联系;
步骤2:根据步骤1构建的引文网络计算每篇文章的struc2vec特征向量;
步骤3:根据步骤1获取的文章标题文本、文章摘要文本计算每篇文章的doc2vec特征向量;
步骤4:根据步骤1获构建的异构网络计算每篇文章的metapath2vec特征向量;
步骤5:对每一篇文章,选取A篇struc2vec特征相似度最高的文章、B篇doc2vec特征相似度最高的文章、C篇metapath2vec特征相似度最高的文章;将选出的所有文章与这篇文章在引文网络上建立联系,且将每条联系赋予权重,重构出一个含有多属性特征的引文网络;
步骤6:根据含有多属性特征的引文网络采用DeepWalk方法计算得到每篇文章的整体特征向量
步骤7:实际推荐时,对特定文章,选取整体特征向量相似度最高的多篇文章进行推荐。
2.如权利要求1所述的一种基于多属性特征的文章推荐方法,其特征在于,所述步骤1中获取每一篇文章数据的方法为:
步骤1.1:首先将多个空格、“\t”、“\n”、“^”符号后接的数字清洗掉;
步骤1.2:对于含有字符“@”的数据,“@”字符前面的一段连续字符认定为作者,“@”符号后面的一段连续字符认定为机构信息;针对剩下的数据中,利用“ins”、“insti”、“colle”、“cent”、“univ”关键字提取机构信息,再在剩下的数据在通过正则表达式提取作者;
步骤1.3:通过在维基百科上的学校名字或缩写,同时满足以下两个条件则确认是同一个作者:
a)机构信息的缩写是以“·”或“@”分割的邮箱信息的子串;
b)通过“@”字符得到的学者非全称姓名是通过正则表达式得到学者全称姓名的子串;
步骤1.4:根据文章信息直接获取文章标题文本、文章摘要文本。
3.如权利要求1所述的一种基于多属性特征的文章推荐方法,其特征在于,所述步骤2中计算struc2vec特征向量的方法为:
步骤2.1:定义引文网络中节点vi的邻域N(vi),每个节点表示一篇文章,节点的k级邻域定义为Nk(vi);定义s(S)为节点集合S的度序列;定义函数g(s(S1),s(S2))为两个度序列S1、S2的距离,定义κ*为G(E,V)中相距最远的点的距离,κ*为构建的多层网络的层数;
步骤2.2:计算多层网络中,节点vi,vj的距离fκ(i,j):
Figure FDA0003026744720000021
步骤2.3:构建一个多层网络,对于每一层,都保留原来引文网络的所有节点,相邻层的相同节点建立连接,并构建有
Figure FDA0003026744720000022
条边的完全图,V表示引文网络中的节点集合,|V|表示引文网络中的节点个数,第κ层的两个节点vi,vj连边eij的权重如下:
Figure FDA0003026744720000023
对于第κ层和第κ-1层的文章节点vi来说,存在有向边,权重如下定义:
w(iκ,iκ+1)=log(Γκ(i)+e),κ=0,1,…,κ*
w(iκ,iκ-1)=1,κ=1,2,…,κ*
其中Γκ(i)度量的是κ层所有节点与节点vi的相似程度;
步骤2.4:采用步骤2.3建立的多层网络生成每篇文章节点的上下文序列;
对于网络的一层来说,通过权重wκ(i,j)来决定文章节点vi转移到文章节点vj的概率pκ(i,j);
Figure FDA0003026744720000024
考虑相邻层的网络,文章节点vi不仅可以转移到vj,还可以上移一层或者下移一层,定义pκ(i,i+1)为文章节点向上一层网络的同样节点转移的概率,pκ(i,i-1)为文章节点向下一层的转移概率:
Figure FDA0003026744720000025
Figure FDA0003026744720000026
根据转移概率,计算出每篇文章节点在多层网络中的上下文序列;
步骤2.5:采用层次Softmax方法,将上下文序列输入进Skip-Gram模型中,得到该文章的struc2vec特征向量。
4.如权利要求1所述的一种基于多属性特征的文章推荐方法,其特征在于,所述步骤4中计算metapath2vec特征向量的方法为:
步骤4.1:生成一个随机游走序列v1,v2,v3…,vl,生成序列所需的异构网络节点vk转移到vk+1的概率p(vk+1|vk)如下计算:
Figure FDA0003026744720000031
其中,E′表示带有文章作者、机构信息的异构网络的边集,type()为一个映射,type(vk)表示节点vk所属的类型,type(ei)表示边ei所属的类型;
步骤4.2:最优目标是最大化条件概率:
Figure FDA0003026744720000032
其中,Ntype(v)是节点v类型为type的邻居节点,Tv为G′中所有节点的类型集合,θ表示需要优化的参数,G′表示带有文章作者、机构信息的异构网络,p(ntype|v;θ)表示在含有论文v上下文(context)序列中,出现概率论文节点ntype的概率,ntype表示任意与论文节点v相邻的且为type类型的论文节点,Y表示异构网络的所有节点集合;
步骤4.3:最优化目标中的log(p(ntype|v))是softmax函数
Figure FDA0003026744720000033
设负采样大小为X,则得到损失函数形式:
Figure FDA0003026744720000034
其中,
Figure FDA0003026744720000035
表示论文节点ntype的目标特征向量,ntype表示任意与论文节点v相邻的且为type类型的论文节点,Rv表示论文节点v的特征向量,
Figure FDA0003026744720000036
表示所有类型为type的论文节点中的第j个,utype表示节点ntype的类型,
Figure FDA0003026744720000037
表示softmax函数
Figure FDA0003026744720000038
Figure FDA0003026744720000039
梯度如下所示:
Figure FDA00030267447200000310
Figure FDA0003026744720000041
其中,
Figure FDA0003026744720000042
表示
Figure FDA0003026744720000043
是否是ntype的邻居节点,
Figure FDA0003026744720000044
表示
Figure FDA0003026744720000045
论文节点的特征向量,p(x)表示softmax函数softmax(x),
Figure FDA0003026744720000046
表示所有类型为type的论文节点中的第j个;
步骤4.5:根据梯度进行多次后向传播,每次后向传播更新随机游走序列,最终得到的最优后向传播序列为每篇文章的metapath2vec特征。
5.如权利要求1所述的一种基于多属性特征的文章推荐方法,其特征在于,步骤5中A=3,B=2,C=2。
6.如权利要求3所述的一种基于多属性特征的文章推荐方法,其特征在于,所述步骤2.3中计算Γκ(i)的方法为:
设从κ层节点vi生成的集合Tκ(i)满足
Figure FDA0003026744720000047
Γκ(i)的计算方式如下:
Figure FDA0003026744720000048
其中,
Figure FDA0003026744720000049
表示论文节点vi的所有wκ的平均值。
CN202110418032.3A 2021-04-19 2021-04-19 一种基于多属性特征的文章推荐方法 Active CN113158041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110418032.3A CN113158041B (zh) 2021-04-19 2021-04-19 一种基于多属性特征的文章推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110418032.3A CN113158041B (zh) 2021-04-19 2021-04-19 一种基于多属性特征的文章推荐方法

Publications (2)

Publication Number Publication Date
CN113158041A true CN113158041A (zh) 2021-07-23
CN113158041B CN113158041B (zh) 2022-07-29

Family

ID=76868562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110418032.3A Active CN113158041B (zh) 2021-04-19 2021-04-19 一种基于多属性特征的文章推荐方法

Country Status (1)

Country Link
CN (1) CN113158041B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626556A (zh) * 2021-10-12 2021-11-09 杭州电子科技大学 一种学术异构网络嵌入的模型训练方法及文本表示方法
CN113742463A (zh) * 2021-07-27 2021-12-03 上海携旅信息技术有限公司 旅游场景下的对话预测方法、装置、电子设备、存储介质
CN116228282A (zh) * 2023-05-09 2023-06-06 湖南惟客科技集团有限公司 一种用户数据倾向的智能商品分销方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646099A (zh) * 2013-12-19 2014-03-19 南京大学 一种基于多层图的论文推荐方法
CN106844665A (zh) * 2017-01-20 2017-06-13 中山大学 一种基于引用关系分布式表达的论文推荐方法
CN108763328A (zh) * 2018-05-08 2018-11-06 北京市科学技术情报研究所 一种基于黄金引用算法的论文推荐方法
CN110083696A (zh) * 2019-04-23 2019-08-02 安徽大学 基于元结构技术的全局引文推荐方法、推荐系统
CN111353862A (zh) * 2020-03-30 2020-06-30 贝壳技术有限公司 商品的推荐方法和装置、电子设备和存储介质
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112069415A (zh) * 2020-08-13 2020-12-11 中国海洋大学 一种基于异构属性网络表征学习的兴趣点推荐方法
CN112364151A (zh) * 2020-10-26 2021-02-12 西北大学 一种基于图、引文和内容的论文混合推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646099A (zh) * 2013-12-19 2014-03-19 南京大学 一种基于多层图的论文推荐方法
CN106844665A (zh) * 2017-01-20 2017-06-13 中山大学 一种基于引用关系分布式表达的论文推荐方法
CN108763328A (zh) * 2018-05-08 2018-11-06 北京市科学技术情报研究所 一种基于黄金引用算法的论文推荐方法
CN110083696A (zh) * 2019-04-23 2019-08-02 安徽大学 基于元结构技术的全局引文推荐方法、推荐系统
CN111353862A (zh) * 2020-03-30 2020-06-30 贝壳技术有限公司 商品的推荐方法和装置、电子设备和存储介质
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112069415A (zh) * 2020-08-13 2020-12-11 中国海洋大学 一种基于异构属性网络表征学习的兴趣点推荐方法
CN112364151A (zh) * 2020-10-26 2021-02-12 西北大学 一种基于图、引文和内容的论文混合推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BENTIAN LI等: ""Multi-source information fusion based heterogeneous network embedding"", 《INFORMATION SCIENCES》 *
ZAFAR ALI等: ""Paper recommendation based on heterogeneous network embedding"", 《KNOWLEDGE-BASED SYSTEMS》 *
孙婧: ""基于引文网络图模型的论文推荐系统研究与应用"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742463A (zh) * 2021-07-27 2021-12-03 上海携旅信息技术有限公司 旅游场景下的对话预测方法、装置、电子设备、存储介质
CN113742463B (zh) * 2021-07-27 2023-11-21 上海携旅信息技术有限公司 旅游场景下的对话预测方法、装置、电子设备、存储介质
CN113626556A (zh) * 2021-10-12 2021-11-09 杭州电子科技大学 一种学术异构网络嵌入的模型训练方法及文本表示方法
CN113626556B (zh) * 2021-10-12 2022-03-01 杭州电子科技大学 一种学术异构网络嵌入的模型训练方法及文本表示方法
CN116228282A (zh) * 2023-05-09 2023-06-06 湖南惟客科技集团有限公司 一种用户数据倾向的智能商品分销方法
CN116228282B (zh) * 2023-05-09 2023-08-11 湖南惟客科技集团有限公司 一种用户数据倾向的智能商品分销方法

Also Published As

Publication number Publication date
CN113158041B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
Monath et al. Gradient-based hierarchical clustering using continuous representations of trees in hyperbolic space
CN113158041B (zh) 一种基于多属性特征的文章推荐方法
CN110516146B (zh) 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
CN111191466B (zh) 一种基于网络表征和语义表征的同名作者消歧方法
US20150006528A1 (en) Hierarchical data structure of documents
CN105843799B (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
CN113779264B (zh) 基于专利供需知识图谱的交易推荐方法
JP2009110513A (ja) ワードの類似性を用いたオントロジーの自動生成
CN112084781B (zh) 一种标准术语确定方法、装置及存储介质
CN110264372B (zh) 一种基于节点表示的主题社团发现方法
CN108427756B (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
CN107316062A (zh) 一种改进的面向领域的命名实体消歧方法
Yu et al. Toward naive Bayes with attribute value weighting
Kotitsas et al. Embedding biomedical ontologies by jointly encoding network structure and textual node descriptors
Aghaalizadeh et al. Improving the stability of label propagation algorithm by propagating from low-significance nodes for community detection in social networks
CN104598599A (zh) 命名排歧方法及系统
Plangprasopchok et al. Modeling social annotation: a bayesian approach
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
Wei et al. Attributed network representation learning via deepwalk
JP2009176072A (ja) 要素集団抽出システム、要素集団抽出方法およびプログラム
CN109753662B (zh) 一种基于分层网络的重名作者辨识方法
Xie et al. Author name disambiguation via heterogeneous network embedding from structural and semantic perspectives
CN107729440A (zh) 一种基于贝叶斯网络的结构化文档检索模型及其检索方法
Eddamiri et al. Graph embeddings for linked data clustering
Palumbo et al. STEM: Stacked threshold-based entity matching for knowledge base generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant