CN116244497A

CN116244497A - 一种基于异质数据嵌入的跨域论文推荐方法

Info

Publication number: CN116244497A
Application number: CN202211566343.5A
Authority: CN
Inventors: 牛振东; 邱萍; 赵梓钧
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-06-09

Abstract

本发明涉及一种基于异质数据嵌入的跨域论文推荐方法，属于大数据挖掘应用与信息处理技术领域。首先为数据集划分领域，为各学科构建有向无环图，使用潜在狄利克雷分布模型提取领域语义，通过最大信息系数学习跨域关联。然后通过异质数据嵌入，将论文和用户分别表示成向量的形式，通过论文之间的引用和未引用关系训练跨域论文之间的映射关系。如果用户提供关键词检索，则依据关键词划分用户领域，用户的兴趣列表便是引用文献。最后利用跨域论文推荐模型，为用户推荐论文。本发明能够自动评估论文的跨域相关性，有效地克服了传统方法仅根据论文内容相似性作为推荐依据的技术缺陷，大幅提升了推荐精度和效率。

Description

一种基于异质数据嵌入的跨域论文推荐方法

技术领域

本发明涉及一种跨域论文推荐方法，具体涉及一种基于异质数据嵌入的跨域论文推荐方法，属于大数据挖掘应用与信息处理技术领域。

背景技术

学术论文/文献作为一种常见的学习资源，在促进科研创新的同时，也引起了较为严重的信息过载问题。论文推荐技术，能够对海量论文进行自动化的内容分析和推荐，从而能够帮助研究者更好地使用文献资源，快速获取知识，有效提高学术文献的可用性。

近年来，知识传播带来交叉学科论文发表量和跨学科论文引用量的快速增长。2019年，Gates等人在《Nature》上的发表的论文中指出，近年来跨学科论文引用量和引用来源学科多样性都在持续增长。2021年，Xie等人在《SIGIR》上发表的论文中统计了五个交叉学科的权威期刊近十年的论文发表量，统计结果表明交叉研究的论文发表量整体呈逐年增长的趋势。跨学科的论文/文献已经成为论文/文献推荐中至关重要的组成部分。

然而，现有的论文推荐方法只是向研究者推荐与其研究内容相似的论文，却没有考虑跨域论文的重要性。因此，如何利用大数据挖掘和信息处理技术，精准的帮助研究者从海量的学术资源中找到相关领域的最新研究成果，具有重要意义和使用价值。

发明内容

本发明的目的是针对现有技术存在的不足和缺陷，为了解决在交叉学科不断发展中，如何为用户提供更好的跨域论文推荐服务，特别是如何提高推送精准度和效率的技术问题，创造性地提出了一种基于异质数据嵌入的跨域论文推荐方法。

本方法的创新点在于：将异质数据嵌入和跨域相关性相结合，并提出了度量跨域论文推荐方法，能够准确地为从事交叉学科研究的用户推荐跨域论文。

本发明采用以下技术方案实现。

一种基于异质数据嵌入的跨域论文推荐方法，包括以下步骤：

步骤1：为数据集划分领域。首先为各学科构建有向无环图(Directed AcyclicGraph，DAG)，然后使用潜在狄利克雷分布模型提取领域语义，最后通过最大信息系数(Maximum Information Coefficient，MIC)学习跨域关联。

步骤2：通过异质数据嵌入，将论文和用户分别表示成向量的形式。首先对文献图谱中的实体和关系进行向量化表示，然后通过论文之间的引用和未引用关系训练跨域论文之间的映射关系。特别地，如果用户提供关键词检索，则依据关键词划分用户领域，用户的兴趣列表便是引用文献。

步骤3：利用跨域论文推荐模型，为用户推荐论文。首先将论文和用户的不同向量表示进行合并。然后训练三层前馈神经网络模型，为用户推荐跨域论文。

有益效果

本发明方法，对比现有技术，能够自动评估论文的跨域相关性，有效地克服了传统论文推荐方法仅根据论文内容相似性作为推荐依据的技术缺陷，大幅提升了推荐精度和效率。

附图说明

图1是本发明的总体架构图。

图2是本发明的整体流程图。

具体实施方式

下面结合附图对本发明做进一步详细说明。图1是本方法的整体结构图。

如图2所示，一种基于异质数据嵌入的跨域论文推荐方法，包括以下步骤：

步骤1：为论文数据集划分领域。

具体地，步骤1包括以下步骤：

步骤1.1：为各学科构建有向无环图DAG(Directed Acyclic Graph，DAG)。

学科由一组概念和理论构成，一个学科通常包含若干个类别，各类别对应该学科的研究方向，称为领域。

用G代表一个学科分类的DAG，其中的每个节点n以及它的孩子节点表示一个学术领域，n∈G。

用r表示跟节点，且r∈G。除根结点r外，每个节点都有一个父节点，表示为pa(n)，pa(n)∈G。对于一个给定的论文语料库P，其中的词汇用Z表示。

论文的元数据包括标题、作者、摘要、关键词，以及一个或多个分类标签，对应于G中的节点。

对于任意一篇带有标签n∈G的论文p，p∈P，用变量y_n,p＝1来标记，否则y_n,p＝0。基于有向无环图的标记约束，如果p带有标记n，即y_n,p＝1，则p会被它的所有父节点标记，即y_pa(n),p＝1；如果p没有被n标记，则p也不会被n的孩子节点标记，即y_ch(n),p＝0。

步骤1.2：使用潜在狄利克雷分布模型，提取领域语义。

单词的使用方式是开放的、在科研领域不断发展变化的，因此，本发明采用潜在狄利克雷分布模型来提取领域语义。

具体地，对于任意一篇论文p∈P，通过潜在狄利克雷分布模型(Latent DirichletAllocation，LDA)学习其主题概率分布p(l|p)，从而得到p的词w和任意节点n∈G在l上的概率分布p(w|l)和p(n|l)。其中，l表示主题。

步骤1.3：通过最大信息系数MIC(Maximum Information Coefficient)，学习跨域关联。

具体地，对于任意一篇论文p，通过p的分布概率p(w|l)与任意节点的分布概率p(n|l)之间的相关性来判断p所属的学科。本发明中，采用MIC测量p(w|l)和p(n|l)之间的相关性。

MIC及相关定义如下：

设二元变量数据集D＝{(f,c)}，f和c表示一组二元变量。采用分箱法，在二维坐标系中将D以网格进行划分，使D中的数据点都分布在网格内。若网格在纵向x轴上划分数量为a，在横向y轴上划分数量为b，这种划分的网格称为a-by-b网格。给定一个网格G，设D|_G表示D在网格G内的分布，对于给定的数据集D，不同的网格划分将得到不同的D|_G。

定义1：样本互信息。给定二元变量数据集D＝{(f,c)}，以及在纵向x轴上划分数量为a，在横向y轴上划分数量为b，则D的样本互信息如式1所示：

I*(D,a,b)＝max I(D|G) (1)

其中，I(D|_G)表示D在G内分布计算的互信息，I*(D,a,b)表示在所有可能的a-by-b网格G内计算的最大互信息。

定义2：样本特征矩阵。给定二元变量数据集D＝{(f,c)}，以及在纵向x轴上划分数量为a，在横向y轴上划分数量为b，则样本特征矩阵

定义如式2所示：

定义3：最大信息系数。给定二元变量数据集D＝{(f,c)}，以及在纵向x轴上划分数量为a，在横向y轴上划分数量为b，满足上限条件ab<B(n)，则D的最大信息系数MIC定义如式3所示：

其中，B(n)是关于样本量n的函数B(n)＝n^e。通常情况下，参数e的值为0.6。

步骤2：通过异质数据嵌入，将论文表示成向量的形式。

随着科学研究的不断发展，学术资源呈现多模态且异质的特点。基于分而治之的思想，这些数据可以根据其不同的数据形式通过不同的方法来构建特征。

本发明中，将异质数据分为两类：基于图谱的关系型数据、基于跨域关联的概率型数据。针对不同的数据形态，采用不同的嵌入化方法，并将各类型的特征表示进行级联，以代表最终实体的向量化表示。

包括以下步骤：

步骤2.1：关系数据处理。

学术图谱通常由5种实体和5种关系构成，其中，实体包括论文、出版物、出版年份、作者和科研机构，关系包括作者与科研论文之间的撰写关系、作者与科研机构的隶属关系、论文与出版物之间的刊载关系、论文与出版年份之间的时间关系和论文之间的引用关系。选取上述实体和关系，是因为这些实体与关系在各大文献数据库中均存在，因此有着较完整的数据一致性和较低的获取成本。

本发明中，具体采用TransD算法对文献图谱中的实体和关系进行向量化表示。TransD算法兼顾实体和关系的多样性表示，相较于其他图谱嵌入表示方法，TransD算法具有较少的训练参数，并且不存在矩阵向量乘法运算，这使得其能够在大型图谱数据上进行演算。

TransD算法中，为每个命名实体/关系赋予两个向量，其中，第一个捕获实体/关系的含义，另一个用于构造映射矩阵。设所构建的图谱g存在实体h、实体t以及实体间关系r，t∈N，r∈R，N表示实体集合(结点集合)，R表示关系集合。h、t、r分别用于表示头结点、尾结点和实体间关系的向量化嵌入结果。给定一个三元组(h,t,r)其对应的表示向量为h、h_p、t、t_p∈Rⁿ并且r、r_p∈R^m，其中，后缀p表示映射向量，h、h_p、t、t_p表示向量，r、r_p表示关系向量，Rⁿ表示实体的向量集合，R^m表示关系的向量集合。因此，映射矩阵M_rh和M_rt∈R^mxn被定义为：

M_rh＝r_ph_p ^T+I^mxn (4)

M_rt＝r_pt_p ^T+I^mxn (5)

其中，I^mxn代表单位矩阵，T表示矩阵转置。

基于此，实体的映射被进一步定义为：

h_⊥＝M_rhh (6)

t_⊥＝M_rt t (7)

其中，h_⊥表示h的映射向量，t_⊥表示t的映射向量。

使用得分函数f_r(h,t)对三元组(h,t,r)嵌入训练后的向量结果进行评价：

f_r(h,t)＝||h_⊥+r-t_⊥||² ₂ (8)

通过给定约束||h||₂≤1、||t||₂≤1、||r||₂≤1、||h_⊥||₂≤1和||t_⊥||₂≤1，嵌入训练的损失函数

如式6所示：

其中，S表示正例三元组，h′和t′表示负实例,r′表示它们之间关系；[x]₊表示x的绝对值，γ表示边缘距离的超参数，其值始终大于0；f_r()表示r的积分函数，f_r′()表示r′的积分函数；学术知识图谱中存在的三元组表示为(h,r,t)∈S，而训练中随机抽取产生的负例三元组表示为S′_(h,r,t)。

步骤2.2：文本数据处理。

概率型数据用于衡量论文之间的跨域关系，而学术领域之间的知识传播则表现为跨域的论文引用，跨域引用行为体现了论文作者对另一领域知识的偏好和对其潜在影响力的考量。因此，本发明通过论文之间的引用和未引用关系训练跨域论文之间的映射关系。

具体地，设W和M为两个不同的学术领域，其中T^w和T^M分别表示W和M中论文所属的学科领域，P^W和P^M是两个领域带标记的论文语料库。令E＝{(p,q)|p∈P^W,q∈P^M,p引用q}表示正样本集合，集合中的元素是带有从W到M引用关系的论文对；E′＝{(p,q)|p∈P^W,q∈P^M,p没有引用q}表示负样本。

本发明的目标是基于E和E′来学习从W和M到同一平面Q的非对称的映射函数π。优化函数π，如式10所示：

L(θ)＝∑_{(p,q)∈E,(p,q′)∈E′}(MIC(π(x_p),π(y_q))-MIC(π(x_p),π(y_q′)) (10)

其中，θ表示所有需要学习的参数，x_p表示p在领域W中的映射向量，y_q表示q在领域M中的映射向量，y_q′表示q′在领域M中的映射向量。

非对称的映射函数π通过一个三层的前馈神经网络获得向量表示，其中三层前馈神经网络具有两个指数线性单元层和一个sigmoid层，神经网络采用基于语义的论文表示形式

作为输入，映射到Q平面的向量/>

表示输出，如式11所示。

其中，

为提高鲁棒性，采用铰链损失函数的方法、添加正则化项，损失函数转化为：

/>

其中，∈表示铰链损失函数的参数，

表示正则化。

步骤3：利用跨域论文推荐模型，为用户推荐论文。

具体地，可以包括以下步骤：

步骤3.1：将论文和用户的不同向量表示进行合并。

用户有两种检索形式，一是提供几个关键词发起检索需求，二是提供感兴趣的文章发起检索需求，并依据上述的文本数据处理方法表示成向量的形式。

根据用户的已发表论文、出版物、出版年份、作者和科研机构以及五种实体之间的关系，构建知识图谱并表示成向量的形式。

为在每个用户或论文的嵌入过程中保留一阶和二阶相似度，本发明分别训练LINE(1st)和LINE(2nd)的模型，通过二者学习到的表征向量拼接得到一个长向量。

步骤3.2：训练三层前馈神经网络模型，为用户推荐跨域论文。

具体地，以用户U的检索信息为目标，类似与文本数据处理的过程，如果用户提供的关键词检索，则将用户感兴趣的论文列表作为正例，随机选择兴趣列表中不存在的论文作为负例；如果用户提供的论文检索，则划分正负例与文本数据完全相同。

因此，针对任意用户U构造一个三维的训练集<U,p+,p->来学习论文嵌入模型的参数，其中p+是tp对应的一个正例，p-是U对应的一个负例。使用式12的损失函数L(θ)训练论文嵌入模型，使该模型在U和p+之间得到MIC，同时在U和p-之间得到MIC。

Claims

1.一种基于异质数据嵌入的跨域论文推荐方法，其特征在于，包括以下步骤：

步骤1：为论文数据集划分领域；首先为各学科构建有向无环图DAG，然后使用潜在狄利克雷分布模型提取领域语义，最后通过最大信息系数MIC学习跨域关联；

步骤2：通过异质数据嵌入，将论文和用户分别表示成向量的形式；

首先对文献图谱中的实体和关系进行向量化表示，然后通过论文之间的引用和未引用关系训练跨域论文之间的映射关系；

如果用户提供关键词检索，则依据关键词划分用户领域，用户的兴趣列表便是引用文献；

步骤3：利用跨域论文推荐模型，为用户推荐论文；

首先将论文和用户的不同向量表示进行合并，然后训练三层前馈神经网络模型，为用户推荐跨域论文。

2.如权利要求1所述的一种基于异质数据嵌入的跨域论文推荐方法，其特征在于，步骤1中，为各学科构建有向无环图DAG的方法如下：

用G代表一个学科分类的DAG，其中每个节点n以及它的孩子节点表示一个学术领域，n∈G；

用r表示跟节点，且r∈G；除根结点r外，每个节点都有一个父节点，表示为pa(n)，pa(n)∈G；对于一个给定的论文语料库P，其中的词汇用Z表示；

论文的元数据包括标题、作者、摘要、关键词，以及一个或多个分类标签，对应于G中的节点；

对于任意一篇带有标签n∈G的论文p，p∈P，用变量y_n,p＝1来标记，否则y_n,p＝0；基于有向无环图的标记约束，如果p带有标记n，即y_n,p＝1，则p会被它的所有父节点标记，即y_pa(n),p＝1；如果p没有被n标记，则p也不会被n的孩子节点标记，即y_ch(n),p＝0；

使用潜在狄利克雷分布模型提取领域语义的方法如下：

对于任意一篇论文p∈P，通过潜在狄利克雷分布模型LDA学习其主题概率分布p(l|p)，得到p的词w和任意节点n∈G在l上的概率分布p(w|l)和p(n|l)；其中，l表示主题；

通过最大信息系数MIC学习跨域关联的方法如下：

对于任意一篇论文p，通过p的分布概率p(w|l)与任意节点的分布概率p(n|l)之间的相关性来判断p所属的学科，采用MIC测量p(w|l)和p(n|l)之间的相关性。

3.如权利要求1所述的一种基于异质数据嵌入的跨域论文推荐方法，其特征在于，步骤2中，将异质数据分为两类：基于图谱的关系型数据、基于跨域关联的概率型数据；针对不同的数据形态，采用不同的嵌入化方法，并将各类型的特征表示进行级联，以代表最终实体的向量化表示；

首先，采用TransD算法对文献图谱中的实体和关系进行向量化表示，

设所构建的图谱g存在实体h、实体t以及实体间关系r，t∈N，r∈R，N表示实体集合，R表示关系集合；h、t、r分别用于表示头结点、尾结点和实体间关系的向量化嵌入结果；给定一个三元组(h,t,r)其对应的表示向量为h、h_p、t、t_p∈Rⁿ并且r、r_p∈R^m，其中，后缀p表示映射向量，h、h_p、t、t_p表示向量，r、r_p表示关系向量，Rⁿ表示实体的向量集合，R^m表示关系的向量集合；因此，映射矩阵M_rh和M_rt∈R^mxn被定义为：

M_rh＝r_ph_p ^T+I^mxn (4)

M_rt＝r_pt_p ^T+I^mxn (5)

其中，I^mxn代表单位矩阵，T表示矩阵转置；

基于此，实体的映射被进一步定义为：

h_⊥＝M_rhh (6)

t_⊥＝M_rt t (7)

其中，h_⊥表示h的映射向量，t_⊥表示t的映射向量；

f_r(h,t)＝||h_⊥+r-t_⊥||² ₂ (8)

如式6所示：

其中，S表示正例三元组，h′和t′表示负实例,r′表示它们之间关系；[x]₊表示x的绝对值，γ表示边缘距离的超参数，其值始终大于0；f_r()表示r的积分函数，f_r′()表示r′的积分函数；学术知识图谱中存在的三元组表示为(h,r,t)∈S，而训练中随机抽取产生的负例三元组表示为S′_(h,r,t)；

通过论文之间的引用和未引用关系训练跨域论文之间的映射关系，方法如下：

设W和M为两个不同的学术领域，其中T^w和T^M分别表示W和M中论文所属的学科领域，P^W和P^M是两个领域带标记的论文语料库；令E＝{(p,q)|p∈P^W,q∈P^M,p引用q}表示正样本集合，集合中的元素是带有从W到M引用关系的论文对；E′＝{(p,q)|p∈P^W,q∈P^M,p没有引用q}表示负样本；

基于E和E′来学习从W和M到同一平面Q的非对称的映射函数π，优化函数π如式10所示：

L(θ)＝∑_{(p，q)∈E，(p，q′)∈E′}(MIC(π(x_p)，π(y_q))-MIC(π(x_p)，π(y_q′)) (10)

其中，θ表示所有需要学习的参数，x_p表示p在领域W中的映射向量，y_q表示q在领域M中的映射向量，y_q′表示q′在领域M中的映射向量；

作为输入，映射到Q平面的向量/>

表示输出，如式11所示；

其中，

其中，∈表示铰链损失函数的参数，

表示正则化；

步骤3中，训练三层前馈神经网络模型为用户推荐跨域论文的方法如下：

以用户U的检索信息为目标，如果用户提供的关键词检索，则将用户感兴趣的论文列表作为正例，随机选择兴趣列表中不存在的论文作为负例；如果用户提供的论文检索，则划分正负例与文本数据完全相同；

针对任意用户U构造一个三维的训练集<U,p+,p->来学习论文嵌入模型的参数，其中p+是tp对应的一个正例，p-是U对应的一个负例，使用式12的损失函数L(θ)训练论文嵌入模型，使该模型在U和p+之间得到MIC，同时在U和p-之间得到MIC。