CN113626556A - 一种学术异构网络嵌入的模型训练方法及文本表示方法 - Google Patents

一种学术异构网络嵌入的模型训练方法及文本表示方法 Download PDF

Info

Publication number
CN113626556A
CN113626556A CN202111186456.8A CN202111186456A CN113626556A CN 113626556 A CN113626556 A CN 113626556A CN 202111186456 A CN202111186456 A CN 202111186456A CN 113626556 A CN113626556 A CN 113626556A
Authority
CN
China
Prior art keywords
node
nodes
academic
query
heterogeneous network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111186456.8A
Other languages
English (en)
Other versions
CN113626556B (zh
Inventor
徐小良
刘俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111186456.8A priority Critical patent/CN113626556B/zh
Publication of CN113626556A publication Critical patent/CN113626556A/zh
Application granted granted Critical
Publication of CN113626556B publication Critical patent/CN113626556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种学术异构网络嵌入的模型训练方法,先使用论文生成学术异构网络,学术异构网络包含论文节点、多种论文特征节点、边和文本内容;选择多个论文节点作为查询节点,以不同论文特征组成的元路径对学术异构网络进行游走,生成在各种论文特征查询条件下每个查询节点的紧密关系节点集;对每个查询节点、紧密关系节点集和学术异构网络进行采样,得到多个代表查询节点与其他节点关系的三元组数据;根据多个三元组数据训练语言表示模型,使模型将学术异构网络结构关系信息嵌入文本表示向量中。本发明所训练的模型能够将文本语义和学术异构网络的结构语义同时嵌入到学术领域的文本表示向量中,提高表示效果。

Description

一种学术异构网络嵌入的模型训练方法及文本表示方法
技术领域
本发明属于文本表示技术领域,具体涉及一种学术异构网络嵌入的模型训练方法及文本表示方法。
背景技术
学术领域的文本表示是实现精准高效的科学文献搜索、学术专家搜索、学术社区发现等服务的重要基础。
学术论文之间通过作者、主题、领域、会议以及期刊等中间实体形成了多种多样丰富的关联关系,例如合作关系,引用关系等等。这些学术文本、中间实体以及彼此间的关联关系构成了一个关于论文的学术异构网络,例如国际知名的DBLP学术网络。
现有学术文本表示的研究工作可分为两类:第一种是在学术异构网络基础上,利用DeepWalk等随机游走方法对学术文本进行网络嵌入。然而,该方法在对文本进行表示时并未考虑文本的内容语义特征,只是对学术网络结构即学术论文间关系信息的一种表示,影响了学术文本表示的精度。第二种是基于文本内容的表示方法对学术论文进行表示,例如利用模型直接对论文的文本内容进行向量化表示,此类方法并未考虑学术异构网络中大量有用的学术论文之间的关系,有些学术论文虽然使用了不同的词汇,但其实相互之间具有极高的关联性。在这种情况下,基于文本内容的表示方法丢失了学术论文间的关系信息。
发明内容
基于现有技术中存在的上述缺点和不足,本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个,换言之,本发明的目的之一是提供满足前述需求之一或多个的一种学术异构网络嵌入的模型训练方法及文本表示方法。
为了达到上述发明目的,本发明采用以下技术方案:
一种学术异构网络嵌入的模型训练方法,包括步骤:
S1,获取多个论文;
S2,根据多个论文生成学术异构网络,学术异构网络包含节点、连接节点的边、文本内容;节点包括论文节点和多种论文特征节点;边表示边两端节点的关系;文本内容为论文节点的文本内容;
S3,选择多个论文节点作为查询节点,以查询节点和不同论文特征组成的元路径对学术异构网络进行游走,生成在各种论文特征查询条件下每个查询节点的关系同构图,再取关系同构图中查询节点的紧密关系节点集;
S4,对于每个查询节点,从学术异构网络和紧密关系节点集采样得到多个代表查询节点与其他节点关系的三元组数据;
S5,根据多个三元组数据训练语言表示模型,使语言表示模型能够将节点间的关系嵌入文本表示向量中。
作为优选方案,论文特征包括:论文作者和论文领域。
作为优选方案,步骤S3具体包括:
S3.1,从学术异构网络中随机选择多个论文节点作为查询节点生成查询集合P q ,选定查询节点和一种论文特征组成的元路径,设定一个非负整数k
S3.2,选择一个查询节点qP q ,初始化集合S为空集,初始化待处理队列D,初始化集合Q为{q};
S3.3,取出集合Q中的一个节点p,初始化集合Ψ[p],将所有以节点p为起点直接通过元路径相连的节点添加进集合Ψ[p]和集合S中,集合Ψ[p]记录节点p
Figure 341137DEST_PATH_IMAGE001
Figure 789436DEST_PATH_IMAGE001
表示直接通过元路径相连的节点;
S3.4,判断集合Ψ[p]中节点数量是否大于等于k,若是则将集合Ψ[p]中的所有节点加入集合Q;若否则将节点p加入待处理队列D
S3.5,判断集合Q是否已全部取出过,若是进入S3.6,若否返回S3.3;
S3.6,选择待处理队列D中的一个节点u,找到节点u
Figure 735219DEST_PATH_IMAGE001
节点v,找到记录节点v
Figure 160122DEST_PATH_IMAGE002
集合Ψ[v],删除集合Ψ[v]、待处理队列D、集合S中的节点u
S3.7,判断节点v的实例路径数量是否大于等于k,若否将节点v加入待处理队列D
S3.8,判断待处理队列D是否为空,若是则进入S3.9,若否返回S3.6;
S3.9,将查询节点q的全部
Figure 302391DEST_PATH_IMAGE001
加入集合S中,得到该查询节点的紧密关系节点集S,返回S3.2,重新选择一个查询节点。
作为优选方案,步骤S3与步骤S4之间,还包括步骤S3.10:
将多个不同元路径得到的紧密关系节点集取交集,得到多种论文特征交叉查找的紧密关系节点集。
作为进一步优选的方案,步骤S4的采样具体为:
对于每个查询节点,选取该查询节点在步骤S3.9或S3.10得到的紧密关系节点集S作为正样本p +,选取该查询节点在步骤S3.6从待处理队列D删除的节点和非正样本作为负样本p -;该查询节点与其对应的正样本、负样本生成一系列三元组。
作为进一步优选的方案,训练语言表示模型具体为:
语言表示模型根据三元组中查询节点、正样本、负样本的文本内容生成三个节点的文本表示向量,使用三元组损失函数训练语言表示模型,使语言表示模型将查询节点与正样本拉近、与负样本推远。
作为进一步优选的方案,三元组损失函数的最小化损失函数为:
Loss = max{(d(q , p + ) - d(q , p - ) +m),0};
其中m是超参数,默认为1,d是距离函数,q为查询节点;
使用L2距离d(q , p * ) = ||v q v p* ||2对语言表示模型的参数进行最小化损失目标的微调,其中v q 为查询节点的文本表示向量,v p* 为正样本或负样本的文本表示向量。
另一方面,本发明还提供一种学术异构网络嵌入的文本表示方法,应用上述任一项方法所训练的模型,将论文的文本内容输入模型中,得到论文嵌入了学术异构网络结构关系的文本表示向量。
本发明与现有技术相比,有益效果是:
本发明所训练的模型和提供的方法能够将文本语义和学术异构网络的结构语义同时嵌入到学术领域的文本表示向量中,提高表示效果。
附图说明
图1是本发明实施例的一种学术异构网络嵌入的模型训练方法的流程图;
图2是本发明实施例的一种学术异构网络嵌入的模型训练方法的举例示意图;
图3是本发明实施例的学术异构网络的示意图;
图4是本发明实施例的一种PAP元路径所成的关系同构图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例:本实施例提供的一种学术异构网络嵌入的模型训练方法,其流程图如图1所示,而进一步举例说明的示意图如图2所示,首先进行步骤S1:获取大量学术论文,然后使用学术论文进行步骤S2:构造学术异构网络。
在本实施例中,构造学术网络的过程可以为:首先,只保留少于 100 个文档链接且至少有一个链接的作者。通过丢弃与数万篇文档相关的作者来减少作者姓名的歧义。然后通过连接标题和摘要并仅保留字符串长度大于 50 的内容来组成论文的文本内容,然后将这些论文和作者以及论文领域根据其相互之间的关系进行链接。
学术异构网络的示意图如图3所示,包含节点、边和文本内容,节点包括论文节点和多种论文特征节点,节点之间的边表示节点之间的关系,文本内容是论文节点的文本内容。在本实施例中,节点包括代表论文(P)的论文节点和两种分别代表论文作者(A)、论文领域(T)的论文特征节点,边代表该论文由某一论文作者所著、或该论文属于某一论文领域、或两论文之间存在引用关系,由上述节点、边及文本内容构成学术异构网络
Figure 482443DEST_PATH_IMAGE003
,其中
Figure 670847DEST_PATH_IMAGE004
分别表示节点、边和文本内容。
在学术异构网络构建完成后,进行步骤S3:在其中随机选择多个论文节点作为查询节点,使用元路径方法选取不同种类论文特征的元路径对学术异构网络游走,得到每个查询节点的关系同构图,再取其紧密关系子图,生成在各种论文特征的查询条件下每个查询节点的紧密关系节点集,找到每个查询节点的与其紧密相关的社区,从而获取大量学术异构网络的网络关系数据。
在本实施例中,取紧密关系子图可以使用k-core方法,令步骤S3具体为:
S3.1,从学术异构网络
Figure 911160DEST_PATH_IMAGE005
中随机选择一部分论文节点,比如随机选取论文节点中的一半,使用这些论文节点作为查询节点,再选定查询节点和一种论文特征组成的元路径生成查询集合P q 。并且为本次生成设定一个非负整数k
S3.2,选择一个查询节点qP q ,初始化集合S、待处理队列D为空集,初始化集合Q为{q};
S3.3,取出集合Q中的一个节点p,将所有指代以节点p为起点直接通过已选定元路径相连的节点添加进集合Ψ[p]和集合S中,集合Ψ[p]记录节点p
Figure 672049DEST_PATH_IMAGE006
Figure 226265DEST_PATH_IMAGE006
表示直接通过元路径相连的节点;要额外说明的是,上述的q用于指代初始选取的查询节点,而p用于指代后来构建的集合Q中的节点,在S3.2每次开始执行的时候,集合Q中只有一个节点p也即本次选取的q,而后随着步骤执行集合Q中会具有多个节点p
S3.4,判断集合Ψ[p]中节点数量是否大于等于k,若是则将集合Ψ[p]中的所有节点加入集合Q;若否则将节点p加入待处理队列D
S3.5,判断集合Q中的节点是否已全部取出过,若是进入S3.6,若否返回S3.3;
S3.6,选择待处理队列D中的一个节点u,找到节点u
Figure 246174DEST_PATH_IMAGE006
节点v,找到记录节点v
Figure 227311DEST_PATH_IMAGE007
集合Ψ[v],删除集合Ψ[v]、待处理队列D、集合S中的节点u
S3.7,判断节点v的实例路径数量是否大于等于k,若否将节点v加入待处理队列D;其中实例路径数量代表此时与节点v直接相连的节点的数量;
S3.8,判断待处理队列D是否为空,若是则进入S3.9,若否返回S3.6;
S3.9,将查询节点q的全部
Figure 514811DEST_PATH_IMAGE006
加入集合S中,得到该查询节点的紧密关系节点集S,返回S3.2,重新选择一个查询节点。
本实施例中以选取元路径PAPk = 3,q = p 5为例,图4展示了学术异构网络经过PAP元路径所成的关系同构图,从p 5出发游走,根据p 5 - a 2 p 2p 3p 4的元路径形成图4中p 5p 2p 3p 4相连的部分,根据p 5 a 5 p 6p 7的元路径形成p 5p 6p 7相连的部分,根据p 5 a 6 p 8的元路径形成p 5p 8相连的部分;再从与p 5相连的p 2出发,根据p 2 a 1 p 1p 3p 1 a 1 p 3的元路径形成p 2p 1p 3互相相连的部分。其他部分与此同理,即构建出如图4所示的关系同构图。
初始化集合S、待处理队列D为空集将Q初始化为当前查询节点{p 5}。经过PAP元路径与当前查询节点紧密相关的紧密关系节点集S具体表示为S A ,用集合Ψ[p]记录节点p
Figure 803709DEST_PATH_IMAGE008
Q中取出节点p 5,根据图3的学术异构网络,找到所有以p 5为起点满足以一条PAP元路径相连的节点,即{p 2p 3p 4p 6p 7p 8},并将这些节点记录进Ψ[p 5]和S A 中,由于节点Ψ[p 5]中节点的数量大于等于k = 3,故将Ψ[p 5]中所有节点加入Q,此时Q为{p 2p 3p 4p 6p 7p 8};
继续从Q中取出节点p 2,找到与节点p 2以一条PAP元路径直接相连的节点{p 1p 2p 3p 4p 5}记录进Ψ[p 2]和S A ,由于Ψ[p 2]中节点的数量大于等于k = 3,故将Ψ[p 2]中所有节点加入Q,此时Q为{ p 1p 2p 3p 4p 5p 6p 7p 8};
继续从Q中取出节点p 1,找到与节点p 1以一条PAP元路径直接相连的节点{p 2p 3}记录进Ψ[p 1]和S A ,由于Ψ[p 1]中节点个数为2,小于k = 3,故不对Ψ[p 1]中的节点操作,而是将节点p 1加入待处理队列D
继续从Q中取出节点p 3,找到与节点p 3以一条PAP元路径直接相连的节点{ p 1p 2p 4}记录进Ψ[p 3]和S A ,由于Ψ[p 3]中节点的数量大于等于k = 3,故将Ψ[p 2]中所有节点加入Q,此时Q仍然为{ p 1p 2p 3p 4p 5p 6p 7p 8};
这样依次对Q中的节点进行遍历,将节点p 4p 6p 7同样如上操作。当遍历到节点p 7时,找到与节点p 7以一条PAP元路径直接相连的节点{p 5p 6}记录进Ψ[p 7]和S A ,由于Ψ[p 7]中节点个数为2,小于k = 3,故不对Ψ[p 7]中的节点操作,而是将节点p 7加入待处理队列D
当遍历到节点p 8的时候,由于集合Ψ[p 8]的节点个数为2,小于k = 3,故不对Ψ[p 8]中的节点操作,而是将节点p 8加入待处理队列D,所以与节点p 8相连的节点p 9不进入Q
上述操作不断重复,直到Q中的全部节点都被取出过为止。因为当遍历完节点p 8之后节点p 9不进入Q,所以遍历完节点p 8之后实际上Q中的全部节点便都被取出过了,结束循环。
然后在待处理队列D中依次选取节点删除,对于每一个待删除节点u,首先找到节点u
Figure 229356DEST_PATH_IMAGE009
节点v,再找到记录节点v
Figure 312936DEST_PATH_IMAGE008
集合Ψ[v],然后将它从集合Ψ[v]、待处理队列D和集合S A 中删除。
在上述集合Q的遍历过程中所构成的待处理队列D中包含节点{p 1p 7p 8}。以选取节点p 1为例,当节点p 1删除时,找到节点p 1
Figure 782838DEST_PATH_IMAGE008
的节点p 2,在Ψ[p 2]、DS A 中删除节点p 2
删除Ψ[p 2]、DS A 中的节点p 1以后,重新判断节点p 2通过PAP元路径相连的节点,而Ψ[p 2]在删除了节点p 7之后还具有节点{p 3p 4p 5},其中的节点数量不小于k = 3,故不作处理;
再从待处理队列中选择节点p 7,当节点p 7删除时,找到节点p 7
Figure 554223DEST_PATH_IMAGE008
的节点p 6,在Ψ[p 6]、DS A 中删除节点p 7
删除Ψ[p 6]、DS A 中的节点p 7以后,重新判断节点p 6通过PAP元路径相连的节点,而Ψ[p 6]在删除了节点p 7之后还具有节点{ p 4p 5},其中的节点数量小于k = 3,故将节点p 6加入待处理队列D中;
如此重复在待处理队列D中选取节点,直到待处理队列D为空为止,最终得到的S A 为{p 2p 3p 4p 5}。
与查询节点直接通过一条元路径相连的节点通常与该查询节点具有较高的相关度,所以再将本次的查询节点p 5
Figure 516100DEST_PATH_IMAGE010
加入到集合S A 中作为补充,如此便最终得到一个与查询节点
Figure 823278DEST_PATH_IMAGE011
在学术异构网络的结构上紧密相关的节点集S A = {p 2p 3p 4p 6p 7p 8}。
对每个查询节点均按照上述方法生成它的紧密关系节点集,便得到一系列由多个查询节点生成、分别选用了不同论文特征的元路径的紧密关系节点集。
另外在步骤S3的紧密关系节点集生成完成后还可以包括步骤S3.10:将多个不同论文特征的元路径得到的紧密关系节点集进行结合,得到多个论文特征交叉查找的紧密关系节点集。比如上述PAP元路径得到p 5的紧密关系节点集为S A = {p 2p 3p 4p 6p 7p 8},再使用PTP元路径得到S T = { p 3p 4p 6p 7 },则交集为S A S T = { p 3p 4p 6p 7 }。
根据不同的元路径在步骤S3中可以得到以不同关系与查询节点相关联的紧密关系节点集,比如使用PAPPTPPCP这些元路径对同一查询节点生成,可以分别得到表示同作者紧密关系、同领域紧密关系、引用紧密关系的节点集S A S T S C ,通过将这些节点集取交集,相互结合以得到更有价值的紧密关系节点集。
比如S A S T ,该集合使学术论文之间有着共同的作者关系,并且文章都是同一个主题之下;
S T S C :该集合为同一领域下有引用关系的学术论文集合;
S A S C :该集合使学术论文之间有着共同的作者,并且存在引用关系。
通过将这些关系相互结合,进一步提高了紧密关系集的紧密程度,避免了譬如同一个作者的不同研究方向的文章相关性较小等问题。
步骤S3.9或S3.10的紧密关系节点集生成完成后,进入步骤S4:对于每个查询节点,从学术异构网络和紧密关系节点集采样得到多个代表查询节点与其他节点关系的三元组数据。
具体而言,对于每一个查询节点q,根据步骤S3或步骤S3.10得到的紧密关系节点集作为正样本p +,该查询节点的紧密关系节点集生成过程中,步骤S3.6从待处理队列D中删除的节点作为负样本p -,还可以直接选择非正样本作为负样本p -
以前述p 5为例,如果使用它以PAP元路径生成的紧密关系节点集S A 进行采样,则S A = {p 2p 3p 4p 6p 7p 8}为正样本,步骤S3.6中从待处理队列D中删除、且没有直接与p 5相连的节点作为负样本,或可以直接选择不属于上述正样本的节点作为负样本。而如果使用它以S A S T 的交集进行采样,则正样本为S A S T = { p 3p 4p 6p 7 },负样本为S A S T 生成过程中从待处理队列D中删除、且没有直接与p 5相连的节点,或也可以直接选择不属于上述正样本的节点作为负样本。
对于每个查询节点q,均有一系列相应的正样本和负样本,从正样本和负样本中各取一个,以此对每个查询节点构成众多三元组<qp +p - >作为模型的训练数据,该三元组表征了其内第一个查询节点q与第二个正样本p +的节点具有紧密关系,而与第三个负样本p -的节点不具有紧密关系。
每个查询节点q均能生成一系列三元组,以大量查询节点q分别生成各种紧密关系节点集,并采样得到更大数量的三元组,从而得到大量包含查询节点与其他节点的论文间关系程度的训练数据。
然后进行步骤S5:将上述得到的大量三元组作为训练样本,对语言表示模型进行训练,使语言表示模型能够根据论文间的关系程度,将学术异构网络的关系信息嵌入所生成的文本表示向量中。
具体而言,可以选择三元组损失函数Triplet Loss对模型进行训练,对于每个三元组数据,将三元组中的三个论文节点(查询节点、正样本、负样本)的文本内容
Figure 662533DEST_PATH_IMAGE012
作为模型的输入,文本内容可以选择论文的摘要部分。然后使用语言表示模型,尤其可以使用现有的预训练模型如SciBERT作为基于内容的编码器,将文本内容中的每个单词编码为一个768维的向量,然后将该文本内容中所有单词向量的平均值作为该论文节点的向量表示vp,即
Figure 339240DEST_PATH_IMAGE013
,其中p表示论文,L表示论文长度,
Figure 266044DEST_PATH_IMAGE014
表示SciBERT最后一层中论文第i个词的单词向量。然后使用三元组损失函数Triplet Loss计算该三元组中正样本、负样本与查询节点的向量表示v p 之间的距离,训练语言表示模型将正样本与查询节点的向量拉近,将负样本与查询节点的向量退远。
在上述训练过程中,对于一个三元组,最小化损失函数为:
Loss = max{(d(q , p + ) - d(q , p - ) +m),0},m为超参数,默认为1,d是距离函数,使用L2距离d(q , p * ) = ||v q v p* ||2,对语言表示模型的参数进行最小化损失为目标的微调。其中v q 为查询节点的文本表示向量,v p* 为正样本或负样本的文本表示向量。
另一方面,本发明还提供一种学术异构网络嵌入的文本表示方法,只需将论文的文本内容,如摘要部分,输入上述训练好的语言表示模型中,模型将输出嵌入了学术异构网络结构关系和文本语义的文本表示向量。
上述模型的训练方法和文本表示方法利用元路径和𝑘-core方法进行紧密度判别,提取出学术异构网络中论文之间的紧密关系数据,将论文之间的紧密关系数据指定为三元组损失函数的训练目标。从而通过对语言表示模型进行的微调,使得该模型能够在考虑论文文本内容的同时考虑论文之间相同作者/领域/引用的紧密关系,将关系信息嵌入到论文的文本表示向量之中。从而补充了纯粹文本内容的文本表示向量中丢失的论文关系信息,使得文本表示效果进一步提升,并令这些文本表示向量可以轻松应用于下游任务。
应当说明的是,以上仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (8)

1.一种学术异构网络嵌入的模型训练方法,其特征在于,包括步骤:
S1,获取多个论文;
S2,根据所述多个论文生成学术异构网络,所述学术异构网络包含节点、连接节点的边、文本内容;所述节点包括论文节点和多种论文特征节点;所述边表示边两端节点的关系;所述文本内容为论文节点的文本内容;
S3,选择多个论文节点作为查询节点,以查询节点和不同论文特征组成的元路径对所述学术异构网络进行游走,生成在各种论文特征查询条件下每个所述查询节点的关系同构图,再取所述关系同构图中所述查询节点的紧密关系节点集;
S4,对于每个所述查询节点,从所述学术异构网络和所述紧密关系节点集采样得到多个代表查询节点与其他节点关系的三元组数据;
S5,根据多个所述三元组数据训练语言表示模型,使所述语言表示模型能够将节点间的关系嵌入文本表示向量中。
2.如权利要求1所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述论文特征包括:论文作者和论文领域。
3.如权利要求1所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述步骤S3具体包括:
S3.1,从所述学术异构网络中随机选择多个论文节点作为查询节点生成查询集合P q ,选定查询节点和一种论文特征组成的元路径,设定一个非负整数k
S3.2,选择一个查询节点qP q ,初始化集合S为空集,初始化待处理队列D,初始化集合Q为{q};
S3.3,取出集合Q中的一个节点p,初始化集合Ψ[p],将所有以所述节点p为起点通过所述元路径相连的节点添加进所述集合Ψ[p]和所述集合S中,所述集合Ψ[p]记录节点p
Figure 267222DEST_PATH_IMAGE001
;所述
Figure 412639DEST_PATH_IMAGE002
表示直接通过所述元路径相连的节点;
S3.4,判断所述集合Ψ[p]中节点数量是否大于等于所述k,若是则将所述集合Ψ[p]中的所有节点加入所述集合Q;若否则将所述节点p加入所述待处理队列D
S3.5,判断所述集合Q中的节点是否已全部取出过,若是进入S3.6,若否返回S3.3;
S3.6,选择所述待处理队列D中的一个节点u,找到所述节点u
Figure 231515DEST_PATH_IMAGE002
节点v,找到记录节点v
Figure 23759DEST_PATH_IMAGE003
集合Ψ[v],删除所述集合Ψ[v]、所述待处理队列D、所述集合S中的节点u
S3.7,判断所述节点v的实例路径数量是否大于等于所述k,若否将所述节点v加入所述待处理队列D
S3.8,判断所述待处理队列D是否为空,若是则进入S3.9,若否返回S3.6;
S3.9,将所述查询节点q的全部
Figure 644096DEST_PATH_IMAGE002
加入所述集合S中,得到该查询节点的紧密关系节点集S,返回S3.2,重新选择一个查询节点。
4.如权利要求1所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述步骤S3与步骤S4之间,还包括步骤S3.10:
将多个不同元路径得到的紧密关系节点集取交集,得到多种论文特征交叉查找的紧密关系节点集。
5.如权利要求3或4所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述步骤S4的采样具体为:
对于每个查询节点,选取该查询节点在步骤S3.9或S3.10得到的紧密关系节点集S作为正样本p +,选取该查询节点在步骤S3.6从待处理队列D删除的节点和非正样本作为负样本p -;该查询节点与其对应的正样本、负样本生成一系列三元组。
6.如权利要求5所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述训练语言表示模型具体为:
所述语言表示模型根据所述三元组中查询节点、正样本、负样本的文本内容生成三个节点的文本表示向量,使用三元组损失函数训练所述语言表示模型,使语言表示模型将查询节点与正样本拉近、与负样本推远。
7.如权利要求6所述的一种学术异构网络嵌入的模型训练方法,其特征在于,所述三元组损失函数的最小化损失函数为:
Loss = max{(d(q , p + ) - d(q , p - ) +m),0};
其中m是超参数,默认为1,d是距离函数,q为查询节点;
使用L2距离d(q , p * ) = ||v q v p* ||2对所述语言表示模型的参数进行最小化损失目标的微调,其中v q 为所述查询节点的文本表示向量,v p* 为所述正样本或所述负样本的文本表示向量。
8.一种学术异构网络嵌入的文本表示方法,其特征在于,应用如权利要求1-7任一项方法所训练的模型,将论文的文本内容输入所述模型中,得到所述论文嵌入了学术异构网络结构关系的文本表示向量。
CN202111186456.8A 2021-10-12 2021-10-12 一种学术异构网络嵌入的模型训练方法及文本表示方法 Active CN113626556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111186456.8A CN113626556B (zh) 2021-10-12 2021-10-12 一种学术异构网络嵌入的模型训练方法及文本表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111186456.8A CN113626556B (zh) 2021-10-12 2021-10-12 一种学术异构网络嵌入的模型训练方法及文本表示方法

Publications (2)

Publication Number Publication Date
CN113626556A true CN113626556A (zh) 2021-11-09
CN113626556B CN113626556B (zh) 2022-03-01

Family

ID=78391092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111186456.8A Active CN113626556B (zh) 2021-10-12 2021-10-12 一种学术异构网络嵌入的模型训练方法及文本表示方法

Country Status (1)

Country Link
CN (1) CN113626556B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630141A (zh) * 2022-11-11 2023-01-20 杭州电子科技大学 基于社区查询和高维向量检索的科技专家检索方法
CN117390174A (zh) * 2023-11-29 2024-01-12 北京工业大学 学术论文推荐方法、装置、电子设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区系统
US20140010202A1 (en) * 2010-08-04 2014-01-09 Portugal Telecom Inovacao S.A. Managing link layer resources for media independent handover
CN104133843A (zh) * 2014-06-25 2014-11-05 福州大学 科技文献异构网络中节点的学术影响力协同排序方法
CN106650276A (zh) * 2016-12-29 2017-05-10 大连理工大学 一种基于学术大数据的学者影响力评估方法
CN106777339A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于异构网络嵌入模型识别作者的方法
US20200320652A1 (en) * 2019-04-03 2020-10-08 The Other Right, Llc Heterogeneous registrar data retrieval for multi-campus tutor matching
CN111930858A (zh) * 2020-07-22 2020-11-13 北京邮电大学 一种异质信息网络的表示学习方法、装置及电子设备
CN112182511A (zh) * 2020-11-27 2021-01-05 中国人民解放军国防科技大学 复杂语义增强异构信息网络表示学习方法和装置
CN113158041A (zh) * 2021-04-19 2021-07-23 电子科技大学 一种基于多属性特征的文章推荐方法
CN113312480A (zh) * 2021-05-19 2021-08-27 北京邮电大学 基于图卷积网络的科技论文层级多标签分类方法及设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140010202A1 (en) * 2010-08-04 2014-01-09 Portugal Telecom Inovacao S.A. Managing link layer resources for media independent handover
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区系统
CN104133843A (zh) * 2014-06-25 2014-11-05 福州大学 科技文献异构网络中节点的学术影响力协同排序方法
CN106650276A (zh) * 2016-12-29 2017-05-10 大连理工大学 一种基于学术大数据的学者影响力评估方法
CN106777339A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于异构网络嵌入模型识别作者的方法
US20200320652A1 (en) * 2019-04-03 2020-10-08 The Other Right, Llc Heterogeneous registrar data retrieval for multi-campus tutor matching
CN111930858A (zh) * 2020-07-22 2020-11-13 北京邮电大学 一种异质信息网络的表示学习方法、装置及电子设备
CN112182511A (zh) * 2020-11-27 2021-01-05 中国人民解放军国防科技大学 复杂语义增强异构信息网络表示学习方法和装置
CN113158041A (zh) * 2021-04-19 2021-07-23 电子科技大学 一种基于多属性特征的文章推荐方法
CN113312480A (zh) * 2021-05-19 2021-08-27 北京邮电大学 基于图卷积网络的科技论文层级多标签分类方法及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN ZHANG等: "PePSI Personalized Prediction of Scholars" Impact in Heterogeneous Temporal Academic Networks", 《IEEE》 *
袁铭等: "基于变分推断和元路径分解的异质网络表示方法", 《上海交通大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630141A (zh) * 2022-11-11 2023-01-20 杭州电子科技大学 基于社区查询和高维向量检索的科技专家检索方法
CN115630141B (zh) * 2022-11-11 2023-04-25 杭州电子科技大学 基于社区查询和高维向量检索的科技专家检索方法
CN117390174A (zh) * 2023-11-29 2024-01-12 北京工业大学 学术论文推荐方法、装置、电子设备及可读存储介质
CN117390174B (zh) * 2023-11-29 2024-09-24 北京工业大学 学术论文推荐方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN113626556B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
WO2021139074A1 (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
CN113626556A (zh) 一种学术异构网络嵌入的模型训练方法及文本表示方法
CN104317801B (zh) 一种面向大数据的数据清洗系统及方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN106649663B (zh) 一种基于紧凑视频表征的视频拷贝检测方法
JP2006004417A (ja) 情報ファイルの特定のタイプを認識する方法及び装置
CN106446162A (zh) 一种面向领域的本体知识库文本检索方法
CN101114291A (zh) 一种基于多样性xml文档近似查询方法
CN113111178B (zh) 无监督的基于表示学习的同名作者消歧方法及装置
CN102195899A (zh) 通信网络的信息挖掘方法与系统
CN113158041B (zh) 一种基于多属性特征的文章推荐方法
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
WO2019201068A1 (zh) 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法
CN115617956A (zh) 一种基于多模态注意力图谱的专利检索方法及系统
CN117807202A (zh) 一种知识图谱增强大语言模型推理的商标法律智能问答方法
CN110970112A (zh) 一种面向营养健康的知识图谱构建方法和系统
Silvello Learning to cite framework: How to automatically construct citations for hierarchical data
CN117785883A (zh) 一种基于异构数据源的搜索方法和系统
Soni et al. Emotion based social media text classification using optimized improved ID3 classifier
CN117235199A (zh) 一种基于文档树的信息智能匹配检索的方法
CN105426490B (zh) 一种基于树形结构的索引方法
CN115630141B (zh) 基于社区查询和高维向量检索的科技专家检索方法
Pereira-Ferrero et al. Unsupervised affinity learning based on manifold analysis for image retrieval: A survey
CN110096640A (zh) 协同过滤推荐系统中基于项目分类的用户相似度计算方法
Belazzougui et al. Flexible indexing of repetitive collections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant