CN113626556A

CN113626556A - 一种学术异构网络嵌入的模型训练方法及文本表示方法

Info

Publication number: CN113626556A
Application number: CN202111186456.8A
Authority: CN
Inventors: 徐小良; 刘俊
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2021-11-09
Anticipated expiration: 2041-10-12
Also published as: CN113626556B

Abstract

本发明涉及一种学术异构网络嵌入的模型训练方法，先使用论文生成学术异构网络，学术异构网络包含论文节点、多种论文特征节点、边和文本内容；选择多个论文节点作为查询节点，以不同论文特征组成的元路径对学术异构网络进行游走，生成在各种论文特征查询条件下每个查询节点的紧密关系节点集；对每个查询节点、紧密关系节点集和学术异构网络进行采样，得到多个代表查询节点与其他节点关系的三元组数据；根据多个三元组数据训练语言表示模型，使模型将学术异构网络结构关系信息嵌入文本表示向量中。本发明所训练的模型能够将文本语义和学术异构网络的结构语义同时嵌入到学术领域的文本表示向量中，提高表示效果。

Description

一种学术异构网络嵌入的模型训练方法及文本表示方法

技术领域

本发明属于文本表示技术领域，具体涉及一种学术异构网络嵌入的模型训练方法及文本表示方法。

背景技术

学术领域的文本表示是实现精准高效的科学文献搜索、学术专家搜索、学术社区发现等服务的重要基础。

学术论文之间通过作者、主题、领域、会议以及期刊等中间实体形成了多种多样丰富的关联关系，例如合作关系，引用关系等等。这些学术文本、中间实体以及彼此间的关联关系构成了一个关于论文的学术异构网络，例如国际知名的DBLP学术网络。

现有学术文本表示的研究工作可分为两类：第一种是在学术异构网络基础上，利用DeepWalk等随机游走方法对学术文本进行网络嵌入。然而，该方法在对文本进行表示时并未考虑文本的内容语义特征，只是对学术网络结构即学术论文间关系信息的一种表示，影响了学术文本表示的精度。第二种是基于文本内容的表示方法对学术论文进行表示，例如利用模型直接对论文的文本内容进行向量化表示，此类方法并未考虑学术异构网络中大量有用的学术论文之间的关系，有些学术论文虽然使用了不同的词汇，但其实相互之间具有极高的关联性。在这种情况下，基于文本内容的表示方法丢失了学术论文间的关系信息。

发明内容

基于现有技术中存在的上述缺点和不足，本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个，换言之，本发明的目的之一是提供满足前述需求之一或多个的一种学术异构网络嵌入的模型训练方法及文本表示方法。

为了达到上述发明目的，本发明采用以下技术方案：

一种学术异构网络嵌入的模型训练方法，包括步骤：

S1，获取多个论文；

S2，根据多个论文生成学术异构网络，学术异构网络包含节点、连接节点的边、文本内容；节点包括论文节点和多种论文特征节点；边表示边两端节点的关系；文本内容为论文节点的文本内容；

S3，选择多个论文节点作为查询节点，以查询节点和不同论文特征组成的元路径对学术异构网络进行游走，生成在各种论文特征查询条件下每个查询节点的关系同构图，再取关系同构图中查询节点的紧密关系节点集；

S4，对于每个查询节点，从学术异构网络和紧密关系节点集采样得到多个代表查询节点与其他节点关系的三元组数据；

S5，根据多个三元组数据训练语言表示模型，使语言表示模型能够将节点间的关系嵌入文本表示向量中。

作为优选方案，论文特征包括：论文作者和论文领域。

作为优选方案，步骤S3具体包括：

S3.1，从学术异构网络中随机选择多个论文节点作为查询节点生成查询集合P _q，选定查询节点和一种论文特征组成的元路径，设定一个非负整数k；

S3.2，选择一个查询节点q∈P _q，初始化集合S为空集，初始化待处理队列D，初始化集合Q为{q}；

S3.3，取出集合Q中的一个节点p，初始化集合Ψ[p]，将所有以节点p为起点直接通过元路径相连的节点添加进集合Ψ[p]和集合S中，集合Ψ[p]记录节点p的

；

表示直接通过元路径相连的节点；

S3.4，判断集合Ψ[p]中节点数量是否大于等于k，若是则将集合Ψ[p]中的所有节点加入集合Q；若否则将节点p加入待处理队列D；

S3.5，判断集合Q是否已全部取出过，若是进入S3.6，若否返回S3.3；

S3.6，选择待处理队列D中的一个节点u，找到节点u的

节点v，找到记录节点v的

集合Ψ[v]，删除集合Ψ[v]、待处理队列D、集合S中的节点u；

S3.7，判断节点v的实例路径数量是否大于等于k，若否将节点v加入待处理队列D；

S3.8，判断待处理队列D是否为空，若是则进入S3.9，若否返回S3.6；

S3.9，将查询节点q的全部

加入集合S中，得到该查询节点的紧密关系节点集S，返回S3.2，重新选择一个查询节点。

作为优选方案，步骤S3与步骤S4之间，还包括步骤S3.10：

将多个不同元路径得到的紧密关系节点集取交集，得到多种论文特征交叉查找的紧密关系节点集。

作为进一步优选的方案，步骤S4的采样具体为：

对于每个查询节点，选取该查询节点在步骤S3.9或S3.10得到的紧密关系节点集S作为正样本p ⁺，选取该查询节点在步骤S3.6从待处理队列D删除的节点和非正样本作为负样本p ^-；该查询节点与其对应的正样本、负样本生成一系列三元组。

作为进一步优选的方案，训练语言表示模型具体为：

语言表示模型根据三元组中查询节点、正样本、负样本的文本内容生成三个节点的文本表示向量，使用三元组损失函数训练语言表示模型，使语言表示模型将查询节点与正样本拉近、与负样本推远。

作为进一步优选的方案，三元组损失函数的最小化损失函数为：

Loss = max{(d(q , p ⁺) - d(q , p ^-) +m),0};

其中m是超参数，默认为1，d是距离函数，q为查询节点；

使用L2距离d(q , p ^*) = ||v _q – v _p* ||₂对语言表示模型的参数进行最小化损失目标的微调,其中v _q为查询节点的文本表示向量，v _p*为正样本或负样本的文本表示向量。

另一方面，本发明还提供一种学术异构网络嵌入的文本表示方法，应用上述任一项方法所训练的模型，将论文的文本内容输入模型中，得到论文嵌入了学术异构网络结构关系的文本表示向量。

本发明与现有技术相比，有益效果是：

本发明所训练的模型和提供的方法能够将文本语义和学术异构网络的结构语义同时嵌入到学术领域的文本表示向量中，提高表示效果。

附图说明

图1是本发明实施例的一种学术异构网络嵌入的模型训练方法的流程图；

图2是本发明实施例的一种学术异构网络嵌入的模型训练方法的举例示意图；

图3是本发明实施例的学术异构网络的示意图；

图4是本发明实施例的一种PAP元路径所成的关系同构图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例：本实施例提供的一种学术异构网络嵌入的模型训练方法，其流程图如图1所示，而进一步举例说明的示意图如图2所示，首先进行步骤S1：获取大量学术论文，然后使用学术论文进行步骤S2：构造学术异构网络。

在本实施例中，构造学术网络的过程可以为：首先，只保留少于 100 个文档链接且至少有一个链接的作者。通过丢弃与数万篇文档相关的作者来减少作者姓名的歧义。然后通过连接标题和摘要并仅保留字符串长度大于 50 的内容来组成论文的文本内容，然后将这些论文和作者以及论文领域根据其相互之间的关系进行链接。

学术异构网络的示意图如图3所示，包含节点、边和文本内容，节点包括论文节点和多种论文特征节点，节点之间的边表示节点之间的关系，文本内容是论文节点的文本内容。在本实施例中，节点包括代表论文(P)的论文节点和两种分别代表论文作者(A)、论文领域(T)的论文特征节点，边代表该论文由某一论文作者所著、或该论文属于某一论文领域、或两论文之间存在引用关系,由上述节点、边及文本内容构成学术异构网络

，其中

分别表示节点、边和文本内容。

在学术异构网络构建完成后，进行步骤S3：在其中随机选择多个论文节点作为查询节点，使用元路径方法选取不同种类论文特征的元路径对学术异构网络游走，得到每个查询节点的关系同构图，再取其紧密关系子图，生成在各种论文特征的查询条件下每个查询节点的紧密关系节点集，找到每个查询节点的与其紧密相关的社区，从而获取大量学术异构网络的网络关系数据。

在本实施例中，取紧密关系子图可以使用k-core方法，令步骤S3具体为：

S3.1，从学术异构网络

中随机选择一部分论文节点，比如随机选取论文节点中的一半，使用这些论文节点作为查询节点，再选定查询节点和一种论文特征组成的元路径生成查询集合P _q。并且为本次生成设定一个非负整数k。

S3.2，选择一个查询节点q∈P _q，初始化集合S、待处理队列D为空集，初始化集合Q为{q}；

S3.3，取出集合Q中的一个节点p，将所有指代以节点p为起点直接通过已选定元路径相连的节点添加进集合Ψ[p]和集合S中，集合Ψ[p]记录节点p的

；

表示直接通过元路径相连的节点；要额外说明的是，上述的q用于指代初始选取的查询节点，而p用于指代后来构建的集合Q中的节点，在S3.2每次开始执行的时候，集合Q中只有一个节点p也即本次选取的q，而后随着步骤执行集合Q中会具有多个节点p。

S3.5，判断集合Q中的节点是否已全部取出过，若是进入S3.6，若否返回S3.3；

S3.6，选择待处理队列D中的一个节点u，找到节点u的

节点v，找到记录节点v的

集合Ψ[v]，删除集合Ψ[v]、待处理队列D、集合S中的节点u；

S3.7，判断节点v的实例路径数量是否大于等于k，若否将节点v加入待处理队列D；其中实例路径数量代表此时与节点v直接相连的节点的数量；

S3.9，将查询节点q的全部

本实施例中以选取元路径PAP，k = 3，q = p ₅为例，图4展示了学术异构网络经过PAP元路径所成的关系同构图，从p ₅出发游走，根据p ₅- a ₂– p ₂、p ₃、p ₄的元路径形成图4中p ₅与p ₂、p ₃、p ₄相连的部分，根据p ₅– a ₅– p ₆、p ₇的元路径形成p ₅与p ₆、p ₇相连的部分，根据p ₅– a ₆– p ₈的元路径形成p ₅与p ₈相连的部分；再从与p ₅相连的p ₂出发，根据p ₂– a ₁– p ₁、p ₃和p ₁– a ₁– p ₃的元路径形成p ₂、p ₁、p ₃互相相连的部分。其他部分与此同理，即构建出如图4所示的关系同构图。

初始化集合S、待处理队列D为空集将Q初始化为当前查询节点{p ₅}。经过PAP元路径与当前查询节点紧密相关的紧密关系节点集S具体表示为S _A，用集合Ψ[p]记录节点p的

；

从Q中取出节点p ₅，根据图3的学术异构网络，找到所有以p ₅为起点满足以一条PAP元路径相连的节点，即{p ₂，p ₃，p ₄，p ₆，p ₇，p ₈}，并将这些节点记录进Ψ[p ₅]和S _A中，由于节点Ψ[p ₅]中节点的数量大于等于k = 3，故将Ψ[p ₅]中所有节点加入Q，此时Q为{p ₂，p ₃，p ₄，p ₆，p ₇，p ₈}；

继续从Q中取出节点p ₂，找到与节点p ₂以一条PAP元路径直接相连的节点{p ₁，p ₂，p ₃，p ₄，p ₅}记录进Ψ[p ₂]和S _A，由于Ψ[p ₂]中节点的数量大于等于k = 3，故将Ψ[p ₂]中所有节点加入Q，此时Q为{ p ₁，p ₂，p ₃，p ₄，p ₅，p ₆，p ₇，p ₈}；

继续从Q中取出节点p ₁，找到与节点p ₁以一条PAP元路径直接相连的节点{p ₂，p ₃}记录进Ψ[p ₁]和S _A，由于Ψ[p ₁]中节点个数为2，小于k = 3，故不对Ψ[p ₁]中的节点操作，而是将节点p ₁加入待处理队列D；

继续从Q中取出节点p ₃，找到与节点p ₃以一条PAP元路径直接相连的节点{ p ₁，p ₂，p ₄}记录进Ψ[p ₃]和S _A，由于Ψ[p ₃]中节点的数量大于等于k = 3，故将Ψ[p ₂]中所有节点加入Q，此时Q仍然为{ p ₁，p ₂，p ₃，p ₄，p ₅，p ₆，p ₇，p ₈}；

这样依次对Q中的节点进行遍历，将节点p ₄，p ₆，p ₇同样如上操作。当遍历到节点p ₇时，找到与节点p ₇以一条PAP元路径直接相连的节点{p ₅，p ₆}记录进Ψ[p ₇]和S _A，由于Ψ[p ₇]中节点个数为2，小于k = 3，故不对Ψ[p ₇]中的节点操作，而是将节点p ₇加入待处理队列D；

当遍历到节点p ₈的时候，由于集合Ψ[p ₈]的节点个数为2，小于k = 3，故不对Ψ[p ₈]中的节点操作，而是将节点p ₈加入待处理队列D，所以与节点p ₈相连的节点p ₉不进入Q；

上述操作不断重复，直到Q中的全部节点都被取出过为止。因为当遍历完节点p ₈之后节点p ₉不进入Q，所以遍历完节点p ₈之后实际上Q中的全部节点便都被取出过了，结束循环。

然后在待处理队列D中依次选取节点删除，对于每一个待删除节点u，首先找到节点u的

节点v，再找到记录节点v的

集合Ψ[v]，然后将它从集合Ψ[v]、待处理队列D和集合S _A中删除。

在上述集合Q的遍历过程中所构成的待处理队列D中包含节点{p ₁，p ₇，p ₈}。以选取节点p ₁为例，当节点p ₁删除时，找到节点p ₁的

的节点p ₂，在Ψ[p ₂]、D和S _A中删除节点p ₂；

删除Ψ[p ₂]、D和S _A中的节点p ₁以后，重新判断节点p ₂通过PAP元路径相连的节点，而Ψ[p ₂]在删除了节点p ₇之后还具有节点{p ₃，p ₄，p ₅}，其中的节点数量不小于k = 3，故不作处理；

再从待处理队列中选择节点p ₇，当节点p ₇删除时，找到节点p ₇的

的节点p ₆，在Ψ[p ₆]、D和S _A中删除节点p ₇；

删除Ψ[p ₆]、D和S _A中的节点p ₇以后，重新判断节点p ₆通过PAP元路径相连的节点，而Ψ[p ₆]在删除了节点p ₇之后还具有节点{ p ₄，p ₅}，其中的节点数量小于k = 3，故将节点p ₆加入待处理队列D中；

如此重复在待处理队列D中选取节点，直到待处理队列D为空为止，最终得到的S _A为{p ₂，p ₃，p ₄，p ₅}。

与查询节点直接通过一条元路径相连的节点通常与该查询节点具有较高的相关度，所以再将本次的查询节点p ₅的

加入到集合S _A中作为补充，如此便最终得到一个与查询节点

在学术异构网络的结构上紧密相关的节点集S _A = {p ₂，p ₃，p ₄，p ₆，p ₇，p ₈}。

对每个查询节点均按照上述方法生成它的紧密关系节点集，便得到一系列由多个查询节点生成、分别选用了不同论文特征的元路径的紧密关系节点集。

另外在步骤S3的紧密关系节点集生成完成后还可以包括步骤S3.10：将多个不同论文特征的元路径得到的紧密关系节点集进行结合，得到多个论文特征交叉查找的紧密关系节点集。比如上述PAP元路径得到p ₅的紧密关系节点集为S _A = {p ₂，p ₃，p ₄，p ₆，p ₇，p ₈}，再使用PTP元路径得到S _T = { p ₃，p ₄，p ₆，p ₇ }，则交集为S _A∩S _T = { p ₃，p ₄，p ₆，p ₇ }。

根据不同的元路径在步骤S3中可以得到以不同关系与查询节点相关联的紧密关系节点集，比如使用PAP、PTP、PCP这些元路径对同一查询节点生成，可以分别得到表示同作者紧密关系、同领域紧密关系、引用紧密关系的节点集S _A、S _T、S _C，通过将这些节点集取交集，相互结合以得到更有价值的紧密关系节点集。

比如S _A∩S _T，该集合使学术论文之间有着共同的作者关系，并且文章都是同一个主题之下；

S _T∩S _C：该集合为同一领域下有引用关系的学术论文集合；

S _A∩S _C：该集合使学术论文之间有着共同的作者，并且存在引用关系。

通过将这些关系相互结合，进一步提高了紧密关系集的紧密程度，避免了譬如同一个作者的不同研究方向的文章相关性较小等问题。

步骤S3.9或S3.10的紧密关系节点集生成完成后，进入步骤S4：对于每个查询节点，从学术异构网络和紧密关系节点集采样得到多个代表查询节点与其他节点关系的三元组数据。

具体而言，对于每一个查询节点q，根据步骤S3或步骤S3.10得到的紧密关系节点集作为正样本p ⁺，该查询节点的紧密关系节点集生成过程中，步骤S3.6从待处理队列D中删除的节点作为负样本p ^-，还可以直接选择非正样本作为负样本p ^-。

以前述p ₅为例，如果使用它以PAP元路径生成的紧密关系节点集S _A进行采样，则S _A= {p ₂，p ₃，p ₄，p ₆，p ₇，p ₈}为正样本，步骤S3.6中从待处理队列D中删除、且没有直接与p ₅相连的节点作为负样本，或可以直接选择不属于上述正样本的节点作为负样本。而如果使用它以S _A∩S _T的交集进行采样，则正样本为S _A∩S _T = { p ₃，p ₄，p ₆，p ₇ }，负样本为S _A或S _T生成过程中从待处理队列D中删除、且没有直接与p ₅相连的节点，或也可以直接选择不属于上述正样本的节点作为负样本。

对于每个查询节点q，均有一系列相应的正样本和负样本，从正样本和负样本中各取一个，以此对每个查询节点构成众多三元组<q，p ⁺，p ^->作为模型的训练数据，该三元组表征了其内第一个查询节点q与第二个正样本p ⁺的节点具有紧密关系，而与第三个负样本p ^-的节点不具有紧密关系。

每个查询节点q均能生成一系列三元组，以大量查询节点q分别生成各种紧密关系节点集，并采样得到更大数量的三元组，从而得到大量包含查询节点与其他节点的论文间关系程度的训练数据。

然后进行步骤S5：将上述得到的大量三元组作为训练样本，对语言表示模型进行训练，使语言表示模型能够根据论文间的关系程度，将学术异构网络的关系信息嵌入所生成的文本表示向量中。

具体而言，可以选择三元组损失函数Triplet Loss对模型进行训练，对于每个三元组数据，将三元组中的三个论文节点（查询节点、正样本、负样本）的文本内容

作为模型的输入，文本内容可以选择论文的摘要部分。然后使用语言表示模型，尤其可以使用现有的预训练模型如SciBERT作为基于内容的编码器，将文本内容中的每个单词编码为一个768维的向量，然后将该文本内容中所有单词向量的平均值作为该论文节点的向量表示v_p，即

，其中p表示论文，L表示论文长度，

表示SciBERT最后一层中论文第i个词的单词向量。然后使用三元组损失函数Triplet Loss计算该三元组中正样本、负样本与查询节点的向量表示v _p之间的距离，训练语言表示模型将正样本与查询节点的向量拉近，将负样本与查询节点的向量退远。

在上述训练过程中，对于一个三元组，最小化损失函数为:

Loss = max{(d(q , p ⁺) - d(q , p ^-) +m),0}，m为超参数，默认为1，d是距离函数，使用L2距离d(q , p ^*) = ||v _q – v _p* ||₂，对语言表示模型的参数进行最小化损失为目标的微调。其中v _q为查询节点的文本表示向量，v _p*为正样本或负样本的文本表示向量。

另一方面，本发明还提供一种学术异构网络嵌入的文本表示方法，只需将论文的文本内容，如摘要部分，输入上述训练好的语言表示模型中，模型将输出嵌入了学术异构网络结构关系和文本语义的文本表示向量。

上述模型的训练方法和文本表示方法利用元路径和𝑘-core方法进行紧密度判别，提取出学术异构网络中论文之间的紧密关系数据，将论文之间的紧密关系数据指定为三元组损失函数的训练目标。从而通过对语言表示模型进行的微调，使得该模型能够在考虑论文文本内容的同时考虑论文之间相同作者/领域/引用的紧密关系，将关系信息嵌入到论文的文本表示向量之中。从而补充了纯粹文本内容的文本表示向量中丢失的论文关系信息，使得文本表示效果进一步提升，并令这些文本表示向量可以轻松应用于下游任务。

应当说明的是，以上仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种学术异构网络嵌入的模型训练方法，其特征在于，包括步骤：

S1，获取多个论文；

S2，根据所述多个论文生成学术异构网络，所述学术异构网络包含节点、连接节点的边、文本内容；所述节点包括论文节点和多种论文特征节点；所述边表示边两端节点的关系；所述文本内容为论文节点的文本内容；

S3，选择多个论文节点作为查询节点，以查询节点和不同论文特征组成的元路径对所述学术异构网络进行游走，生成在各种论文特征查询条件下每个所述查询节点的关系同构图，再取所述关系同构图中所述查询节点的紧密关系节点集；

S4，对于每个所述查询节点，从所述学术异构网络和所述紧密关系节点集采样得到多个代表查询节点与其他节点关系的三元组数据；

S5，根据多个所述三元组数据训练语言表示模型，使所述语言表示模型能够将节点间的关系嵌入文本表示向量中。

2.如权利要求1所述的一种学术异构网络嵌入的模型训练方法，其特征在于，所述论文特征包括：论文作者和论文领域。

3.如权利要求1所述的一种学术异构网络嵌入的模型训练方法，其特征在于，所述步骤S3具体包括：

S3.1，从所述学术异构网络中随机选择多个论文节点作为查询节点生成查询集合P _q，选定查询节点和一种论文特征组成的元路径，设定一个非负整数k；

S3.3，取出集合Q中的一个节点p，初始化集合Ψ[p]，将所有以所述节点p为起点通过所述元路径相连的节点添加进所述集合Ψ[p]和所述集合S中，所述集合Ψ[p]记录节点p的

；所述

表示直接通过所述元路径相连的节点；

S3.4，判断所述集合Ψ[p]中节点数量是否大于等于所述k，若是则将所述集合Ψ[p]中的所有节点加入所述集合Q；若否则将所述节点p加入所述待处理队列D；

S3.5，判断所述集合Q中的节点是否已全部取出过，若是进入S3.6，若否返回S3.3；

S3.6，选择所述待处理队列D中的一个节点u，找到所述节点u的

节点v，找到记录节点v的

集合Ψ[v]，删除所述集合Ψ[v]、所述待处理队列D、所述集合S中的节点u；

S3.7，判断所述节点v的实例路径数量是否大于等于所述k，若否将所述节点v加入所述待处理队列D；

S3.8，判断所述待处理队列D是否为空，若是则进入S3.9，若否返回S3.6；

S3.9，将所述查询节点q的全部

加入所述集合S中，得到该查询节点的紧密关系节点集S，返回S3.2，重新选择一个查询节点。

4.如权利要求1所述的一种学术异构网络嵌入的模型训练方法，其特征在于，所述步骤S3与步骤S4之间，还包括步骤S3.10：

5.如权利要求3或4所述的一种学术异构网络嵌入的模型训练方法，其特征在于，所述步骤S4的采样具体为：

6.如权利要求5所述的一种学术异构网络嵌入的模型训练方法，其特征在于，所述训练语言表示模型具体为：

所述语言表示模型根据所述三元组中查询节点、正样本、负样本的文本内容生成三个节点的文本表示向量，使用三元组损失函数训练所述语言表示模型，使语言表示模型将查询节点与正样本拉近、与负样本推远。

7.如权利要求6所述的一种学术异构网络嵌入的模型训练方法，其特征在于，所述三元组损失函数的最小化损失函数为:

Loss = max{(d(q , p ⁺) - d(q , p ^-) +m),0};

其中m是超参数，默认为1，d是距离函数，q为查询节点；

使用L2距离d(q , p ^*) = ||v _q – v _p* ||₂对所述语言表示模型的参数进行最小化损失目标的微调,其中v _q为所述查询节点的文本表示向量，v _p*为所述正样本或所述负样本的文本表示向量。

8.一种学术异构网络嵌入的文本表示方法，其特征在于，应用如权利要求1-7任一项方法所训练的模型，将论文的文本内容输入所述模型中，得到所述论文嵌入了学术异构网络结构关系的文本表示向量。