CN113158041B

CN113158041B - 一种基于多属性特征的文章推荐方法

Info

Publication number: CN113158041B
Application number: CN202110418032.3A
Authority: CN
Inventors: 蔡世民; 贺小雨; 陈明仁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2022-07-29
Anticipated expiration: 2041-04-19
Also published as: CN113158041A

Abstract

该发明公开了一种基于多属性特征的文章推荐方法，属于信息处理领域。用多属性文章特征的推荐方法，提取更多文章特征，提升推荐性能：利用基于文章引文网络的struc2vec嵌入向量，基于带有文章作者、机构信息的异构网络的metapath2vec嵌入向量，文章标题、摘要内容doc2vec的嵌入向量，在原引文网络的基础上，通过重构图的方法，该方法能够按照权重结合同构引文网络、异构文章网络、文本信息的嵌入结果。对于多属性特征的重构网络，使用能够结合结构信息和同质信息的方法进行图嵌入，提升推荐性能：通过node2vec方法得到文章节点含有结构信息和同质信息的嵌入向量，最终通过向量相似度进行推荐。

Description

一种基于多属性特征的文章推荐方法

技术领域

本发明属于信息处理领域，特别是涉及基于文本特征、引文网络特征、异构网络特征的学术文章推荐方法。

背景技术

引文网络：引文网络是由学术文章作为节点构成的图，若两篇学术文章之间有引用关系，则将两个节点连边；引文网络为G(E，V)，v_i∈V表示文章v_i在数据集之中，若e_ij∈E则表示文章v_i、v_j有引用关系；这里的引用关系连边e_ij是无向的，也就是说不区分是文章v_i被文章v_j引用还是文章v_j被文章v_i引用。

异构网络：对于图G(E，V)来说，如果节点集V中的点分为不同的类型，且不同类型的点存在连边，则这个图就是异构图，也叫异构网络。

带有文章作者、机构信息的异构网络：G′(V′，E′，T),其中V′＝V₁∪V₂∪V₃，V₁为机构节点集合，V₂为作者节点集合，V₃为文章节点集合，T代表不同节点类型的集合，T＝{1，2，3}，E′表示边的集合，简称边集。

含有多属性特征的引文网络：结合每篇文章的多种特征，在原引文网络的基础上重构的网络。

连通图：两个节点连通指的是两个节点间存在路径，连通图G(E，V)满足任意两个不同的顶点v_i和v_j都连通。

连通分量：无向图G(E，V)的连通分量是一个子图，此子图是连通图，但子图中所有顶点和子图以外的其他顶点不连通。

图嵌入：是一种把整个图或者图里面的节点映射成向量的方法。

文本表征：是自然语言处理领域中，将文本映射为向量的方法。

字符串：将多个字符存储成数组的数据结构。

子串：属于字符串的一部分，由任意个连续的字符组成，称为该串的子串。

特征：指的是代表图中节点或文章的向量。

节点的度：在图G(E，V)中，顶点v_i的度是此顶点有边的条数，即deg(v_i)＝||K||，K＝{e_ij|e_ij∈E，v_j∈V}。

随机游走：也称随机漫步，在图中，指的是对于某个节点，基于此节点到其他节点的转移概率，随机生成一条路径。

上下文(context)序列：随机游走生成的路径，也叫序列。

相似度：向量的相似程度的数量表示。直观上看，将多个文章表示为向量，通过两个向量的相似性则可以进行推荐。相似度的度量指标有欧几里得距离、余弦相似度等。

推荐列表：对每一篇文章，生成的一个含有和它若干篇相似文章的列表，其中相似文章按照相似度降序排列。

学术文章是指包含作者、所属机构、标题、摘要信息的已发表文章。作者是指学术文章的署名者，通常有多个。所属机构是指作者所属的机构，通常一个作者对应一个机构。

现有技术的缺点：

经典的基于引文网络的文章推荐方法诸如DeepWalk、node2vec损失了多种顶点的类型和边的类型构成的复杂文章网络的结构信息。而大多数基于图的推荐算法都忽略了文章文本信息。

基于文章文本信息的推荐方法，诸如ACM分类树中的文章信息、TF-IDF来提取文章正文的术语进行文章推荐、通过doc2vec进行文本表征等，它们都无法将文章之间的引用关系、文章作者之间的关系等信息加入推荐结果。有一些加入了文本特征的基于图嵌入的文章推荐方法也存在缺点。比如paper2vec，虽然使用了引文网络的图嵌入方法，但只使用了word2vec方法得到单词的文本特征，没有考虑单词在文本中的顺序带来的信息。比如VOPRec，只使用了文章标题通过doc2vec来获取文本特征、且在结构特征的挖掘上只对引文网络使用了struc2vec。它们都没有考虑摘要信息的文本相似度和文章作者及所属机构带来的结构关系。

发明内容

本发明针对现有技术的不足，提供了一种能够使用文本特征、引文网络特征、带有文章作者、机构信息的异构网络特征的学术文章推荐方法。

本发明公开的一种基于多属性特征的文章推荐方法，该方法具体包括下列步骤：

步骤1：数据获取；

获取每一篇文章的数据包含作者、机构信息、文章标题文本、文章摘要文本、文章引文；根据获取的文章引文构建全部文章的引文网络，该引文网络表示全部文章之间的引用联系；根据作者、机构信息构建全部文章的异构网络，该异构网络表示全部文章之间关于作者、机构信息的联系；

步骤2：根据步骤1构建的引文网络计算每篇文章的struc2vec特征向量；

步骤3：根据步骤1获取的文章标题文本、文章摘要文本计算每篇文章的doc2vec特征向量；

步骤4：根据步骤1获构建的异构网络计算每篇文章的metapath2vec特征向量；

步骤5：对每一篇文章，选取A篇struc2vec特征相似度最高的文章、B篇doc2vec特征相似度最高的文章、C篇metapath2vec特征相似度最高的文章；将选出的所有文章与这篇文章在引文网络上建立联系，且将每条联系赋予权重，重构出一个含有多属性特征的引文网络；

步骤6：根据含有多属性特征的引文网络采用DeepWalk方法计算得到每篇文章的整体特征向量

步骤7：实际推荐时，对特定文章，选取整体特征向量相似度最高的多篇文章进行推荐。

进一步的，所述步骤1中获取每一篇文章数据的方法为：

步骤1.1：首先将多个空格、“\t”、“\n”、“^”符号后接的数字清洗掉；

步骤1.2：对于含有字符“@”的数据，“@”字符前面的一段连续字符认定为作者，“@”符号后面的一段连续字符认定为机构信息；针对剩下的数据中，利用“ins”、“insti”、“colle”、“cent”、“univ”关键字提取机构信息，再在剩下的数据在通过正则表达式提取作者；

步骤1.3：通过在维基百科上的学校名字或缩写，同时满足以下两个条件则确认是同一个作者：

a)机构信息的缩写是以“·”或“@”分割的邮箱信息的子串；

b)通过“@”字符得到的学者非全称姓名是通过正则表达式得到学者全称姓名的子串；

步骤1.4：根据文章信息直接获取文章标题文本、文章摘要文本。

进一步的，所述步骤2中计算struc2vec特征向量的方法为：

步骤2.1：定义引文网络中节点v_i的邻域N(v_i)，每个节点表示一篇文章，节点的k级邻域定义为N_k(v_i)；定义s(S)为节点集合S的度序列；定义函数g(s(S₁)，s(S₂))为两个度序列S₁、S₂的距离，定义κ^*为G(E，V)中相距最远的点的距离，κ^*即为构建的多层网络的层数；

步骤2.2：计算多层网络中，节点v_i，v_j的距离f_κ(i，j)：

步骤2.3：构建一个多层网络，对于每一层，都保留原来引文网络的所有节点，相邻层的相同节点建立连接，并构建有

条边的完全图，V表示引文网络中的节点集合，|V|表示引文网络中的节点个数，第κ层的两个节点v_i，v_j连边e_ij的权重如下：

对于第κ层和第κ-1层的文章节点v_i来说，存在有向边，权重如下定义：

w(i_κ，i_κ+1)＝log(Γ_κ(i)+e)，κ＝0，1，…，κ^*

w(i_κ，i_κ-1)＝1，κ＝1，2，…，κ^*

其中Γ_κ(i)度量的是κ层所有节点与节点v_i的相似程度。

步骤2.4：采用步骤2.3建立的多层网络生成每篇文章节点的上下文序列；

对于网络的一层来说，通过权重w_κ(i，j)来决定文章节点v_i转移到文章节点v_j的概率p_κ(i，j)；

考虑相邻层的网络，文章节点v_i不仅可以转移到v_j，还可以上移一层或者下移一层，定义p_κ(i，i+1)为文章节点向上一层网络的同样节点转移的概率，p_κ(i,i-1)为文章节点向下一层的转移概率：

根据转移概率，计算出每篇文章节点在多层网络中的上下文序列；

步骤2.5：采用层次Softmax方法，将上下文序列输入进Skip-Gram模型中，得到该文章的struc2vec特征向量。

进一步的，所述步骤4的方法为：

步骤4.1：生成一个随机游走序列v₁,v₂,v₃…,v_l，生成序列所需的异构网络节点v_k转移到v_k+1的概率p(v_k+1|v_k)如下计算：

其中，E′表示带有文章作者、机构信息的异构网络的边集，type()为一个映射，type(v_k)表示节点v_k所属的类型，type(e_i)表示边e_i所属的类型；

步骤4.2：最优目标是最大化条件概率：

其中，N_type(v)是节点v类型为type的邻居节点，T_v为G′中所有节点的类型集合，θ表示需要优化的参数，G′表示带有文章作者、机构信息的异构网络，p(n_type|v；θ)表示在含有论文v上下文(context)序列中，出现概率论文节点n_type的概率，n_type表示任意与论文节点v相邻的且为type类型的论文节点，Y表示异构网络的所有节点集合；

步骤4.3：最优化目标中的log(p(n_type|v))是softmax函数

设负采样大小为X，则得到损失函数形式：

其中，

表示论文节点n_type的目标特征向量，n_type表示任意与论文节点v相邻的且为type类型的论文节点，R_v表示论文节点v的特征向量，

表示所有类型为type的论文节点中的第j个，u_type表示节点n_type的类型，

表示softmax函数

梯度如下所示：

其中，

表示

是否是n_type的邻居节点，

表示

论文节点的特征向量，p(x)表示softmax函数softmax(x)，

表示所有类型为type的论文节点中的第j个；

步骤4.5：根据梯度进行多次后向传播，每次后向传播更新随机游走序列，最终得到的最优后向传播结果为每篇文章的metapath2vec特征。

进一步的，所述步骤2.3中计算Γ_κ(i)的方法为：

设从κ层节点v_i生成的集合T_κ(i)满足

Γ_κ(i)的计算方式如下：

其中，

表示论文节点v_i的所有w_κ的平均值。

和现有的技术相比，本发明有益效果为：

1.使用多属性文章特征的推荐方法，提取更多文章特征，提升推荐性能：利用基于文章引文网络的struc2vec嵌入向量，基于带有文章作者、机构信息的异构网络的metapath2vec嵌入向量，文章标题、摘要内容doc2vec的嵌入向量，在原引文网络的基础上，通过重构图的方法，该方法能够按照权重结合同构引文网络、异构文章网络、文本信息的嵌入结果。

2.对于多属性特征的重构网络，使用能够结合结构信息和同质信息的方法进行图嵌入，提升推荐性能：通过node2vec方法得到文章节点含有结构信息和同质信息的嵌入向量，最终通过向量相似度进行推荐。

附图说明

图1为本发明提出的基于文本特征、引文网络特征、异构网络特征的学术文章推荐方法流程图。

图2为struc2vec图嵌入结构示意图。

图3为带有文章作者、机构信息的异构网络示意图。

图4为文章作者、机构信息的异构网络中进行metapath采序示意图。

图5为有文章作者、机构信息的异构网络使用Skip-Gram方法示意图。

图6为用文本特征、引文网络特征、异构网络特征重构引文网络方法示意图。

具体实施方案

为了使本发明的目的更加清楚，以下结合附图对本发明进一步详细介绍。

图1可视化地展现了本发明

图2直观的展示了根据步骤1构建的引文网络计算每篇文章的struc2vec特征向量；

对引文网络使用struc2vec图嵌入方法得到训练集的特征，使用短序列长度为50，游走次数为20，skip-gram训练输入的窗口大小为10。最终将文章表征长度为128的向量。

定义节点v_i的邻域N(v_i)，每个节点表示一篇文章，节点的k级邻域定义为N_k(v_i)；定义s(S)为节点集合S∈V的度序列。定义函数g(s(S₁),s(S₂))为两个度序列S₁、S₂的距离；使用DTW方法来衡量两个序列的距离。定义κ^*为G(E,V)中相距最远的点的距离，κ^*也是struc2vec构建的多层网络的层数；

1.计算多层网络中，节点v_i,v_j的距离f_κ(i,j)：

2.构建一个多层网络，对于每一层，都保留原来的所有节点，并构建有

条边的完全图；且相邻两层

都跟自己连接。第κ层的两个节点v_i,v_j连边e_ij的权重如下：

对于第κ层和第κ-1层的文章节点v_i来说，它们之间也存在有向边，权重如下定义：

w(i_κ,i_κ+1)＝log(Γ_κ(i)+e),κ＝0,1,…,κ^*

w(i_κ，i_κ-1)＝1,κ＝1,2,…,κ^*

其中Γ_κ(i)度量的是本层节点与节点v_i的相似程度，越相似越高，设从κ层节点v_i生成的集合T_κ(i)满足

Γ_κ(i)的计算方式如下：

3.生成文章节点的上下文(context)。对于网络的一层来说，通过权重w_κ(i,j)来决定文章节点v_i转移到文章节点v_j的概率p_κ(i,j)：

考虑相邻层的网络，文章节点v_i不仅可以转移到v_j，还可以上移一层或者下移一层，定义p_κ(i,i+1)为文章节点向上一层网络的同样节点转移的概率，p_κ(i,i-1)为文章节点向下一层的转移概率：

使用层次Softmax(Hierarchical Softmax)方法，将context序列输入进Skip-Gram中进行训练。得到基于引文网络信息的struc2vec特征向量。

步骤3中使用stop-words工具包将英文常见停用词过滤掉，最后将全部处理成小写的论文标题和摘要数据单词通过空格间隔，保留论文pid作为doc2vec算法的输入，一个pid对应一篇论文的语料，一个pid用唯一的向量来表示。使用doc2vec库进行训练，游走序列长度为50，游走次数为10，skip-gram窗口大小为10，最终将文章表征长度为64的向量。

图3，图4，图5展示了步骤4中，根据步骤1获构建的异构网络计算每篇文章的metapath2vec特征向量的网络；根据图3示意的异构信息图G′(V′,E′,T)，根据meta-path方法进行如图4所示的采序。将采序后的短序列输入metapath2vec中进行训练。序列长度50，每个节点游走次数为10，skip-gram窗口大小为7，负采样个数为3。将论文转化为长度为128的向量。

图3是带有文章作者、机构信息的异构网络示意图，按照图4的方式来生成随机游走序列，过程如下：

在meta-path的采序策略中，要求序列首末的节点是同样的类型。定义第x步的异构节点v_k∈V_k，下一步的异构节点应该从V_k+1当中选择,则异构节点v_k转移到v_k+1的概率定义为

为一个映射，type(v_k)表示节点v_k所属的类型，type(e_i)表示边e_i所属的类型：

对于转移概率，以作者到下一个文章节点的转移为例，若作者节点v_k到文章节点v_k+1间没有边，则不转移；若作者节点v_k和机构节点v_k+3之间有边，但由于采序策略中本次转移仅限作者到文章，因此转移概率也为0；当找到和作者节点v_k有连边的点v_k+1，且满足v_k+1的类型type(v^k+1)是文章节点的时候，转移概率由作者发表的文章数决定，作者发表文章越多，转移到指定type(v^k+1)类型节点的概率就越低。

图5所示了在生成一个随机游走序列后，对于这个序列v₁,v₂,v₃…,v_l，设T_v为G′中所有节点的类型集合(T_v＝{1,2,3})，N_type(v)是节点v类型为type的邻居节点，则目标矩阵为

设采样个数为C，则最优化的目标是最大化条件概率：

异构网络嵌入的Skip-Gram方法示意如图5所示。最优化目标中的log(p(n_type|v))是softmax函数

设负采样大小为X，则可以得到损失函数形式：

梯度如下所示：

其中ind(n_type,u_type)表示u_type是否是邻居节点n_type。

根据梯度，根据后向传播更新目标矩阵W，即可得到异构图中每个节点对应的嵌入结果。图6展现了步骤5,使用文本特征、引文网络特征、异构网络特征重构引文网络的方法。对每一篇测试集中的文章，选取前3篇struc2vec特征相似度最高的文章、2篇doc2vec特征相似度最高的文章、2篇metapath2vec特征相似度最高的文章。将选出的文章与这篇文章在引文网络上连边。将边e_ij按照节点v_i和节点v_j相似度大小赋予一定权重w_ij，保证相似度越高的边权重越大，并且将原来属于引文网络的边也赋予一定的权重。

对训练集中的每个节点v_i∈V_test，在doc2vec嵌入结果中选择2个相似度最大的最近邻节点集合S₀，在metapath2vec的文章类节点嵌入结果中选择2个相似度最大的节点集合S₁，在struc2vec嵌入结果中选择3个相似度最大的最近邻节点集合S₂，在原来的引文网络G(E,V)中，对每个节点v_i先将集合S₀∪S₁∪S₂中的所有点和它连边。

对于连边的权重设置，设ψ(j)为节点v_j对所在的节点集合类别的集合，比如文章节点v₂₅₃既在文章节点v₂₅₁进行doc2vec嵌入后最相似的前3篇文章中，又在文章节点v₂₅₁进行struc2vec嵌入后最相似的前5篇文章中，则有ψ(253)＝{0,1}。对每个节点v_i来说，在x∈ψ(i)时，节点v_i,v_i的相似度为sim_x(i,j)。设N(i)为v_i的邻局节点集合，d(i)为节点v_i的度。则边e_ij的权重w_ij按公式计算如下：

对于不同嵌入结果的节点权重不同，当e_ij是引文网络中的连边时，额外增加一个链路预测使用的Sorenson指标。

这样做的好处是：在重构图权重的分配上，对于一篇目标文章，对不同特征的最近邻节点连边，但在同一个特征嵌入结果内部，相似度大小也是有区别的，因此需要在权重设置上体现出相似度大小的区别。对于原有的引文网络中的连边，加入基于节点局部相似性的链路预测指标作为权重，可以让节点的公共邻居信息得到加强。

步骤6得到每篇文章的特征向量的过程为：

第一步随机游走是基于深度优先的图遍历方法，并且可以多次访问同一个节点。从节点v_i到节点v_j的跳转概率如下计算：

DeepWalk论文中把随机游走序列称为短序列，第二步就是把短序列的one-hot向量输入进Skip-Gram模型，它得到的节点嵌入结果就含有图中的节点和连边所包含的信息。选取游走长度为250，游走次数为30，skip-gram的窗口大小为10。得到表征每篇文章的长度为128维的向量。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形都应视为本发明的保护范围。