CN113254675A - 基于自适应少样本关系抽取的知识图谱构建方法 - Google Patents

基于自适应少样本关系抽取的知识图谱构建方法 Download PDF

Info

Publication number
CN113254675A
CN113254675A CN202110808184.4A CN202110808184A CN113254675A CN 113254675 A CN113254675 A CN 113254675A CN 202110808184 A CN202110808184 A CN 202110808184A CN 113254675 A CN113254675 A CN 113254675A
Authority
CN
China
Prior art keywords
adaptive
relation
relationship
entities
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110808184.4A
Other languages
English (en)
Other versions
CN113254675B (zh
Inventor
孙喜民
周晶
毕立伟
李晓明
王帅
孙博
郑斌
刘丹
常江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Original Assignee
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid E Commerce Co Ltd, State Grid E Commerce Technology Co Ltd filed Critical State Grid E Commerce Co Ltd
Priority to CN202110808184.4A priority Critical patent/CN113254675B/zh
Publication of CN113254675A publication Critical patent/CN113254675A/zh
Application granted granted Critical
Publication of CN113254675B publication Critical patent/CN113254675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于自适应少样本关系抽取的知识图谱构建方法,该抽取方法包括实体间关系采用自适应关系抽取模型提取,所述自适应关系抽取模型的构建包括:S100:利用文本编码器对训练集实例进行编码,生成上下文关系语义;S200:将支持集输入参数生成器,生成初始化softmax参数;S300:将步骤S100生成的上下文关系语义输入自适应图神经网络,利用自适应图神经网络对实例进行更新;S400:利用softmax分类器对更新后的实例进行分类预测,获取关系类型。本发明在获取关系时不需要大量的人工标注数据,避免了大量的人工打标带来的费时耗钱,且通过少量特定领域的标签数据就可以完成特定领域的关系抽取任务。

Description

基于自适应少样本关系抽取的知识图谱构建方法
技术领域
本发明属于自然语言处理领域,具体涉及基于自适应少样本关系抽取的知识图谱构建方法。
背景技术
知识图谱又称科学知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。现有技术中,面向通用领域的知识图谱构建是利用原始的非结构化文本来形成知识图谱,主要包括步骤:(1)抽取实体,即从非结构化文本中自动识别实体;(2)抽取关系,即识别实体间的关系;(3)实体链接,即对抽取的实体及关系数据进行逻辑归属和消除冗余;(4)知识推理,即根据事实三元组自动推理出关系值缺失,进行知识图谱的补全。
上述步骤(1)和(2)均涉及信息抽取技术,信息抽取是自然语言处理中的重要组成部分,特别是在当今信息化社会中,从海量数据中抽取出有用的信息显得格外有意义。信息抽取可以分为实体抽取、关系抽取和事件抽取等。关系抽取任务一般形式是给定文本及文本中涉及的两个实体,判定实体之间是否存在关系以及存在何种关系。关系抽取不但是知识图谱构建中的重要环节,在自动问答、自动摘要、情感分析等技术中也被广泛使用。
传统的监督学习方法在关系抽取任务上取得了不错的效果,但在实际应用中,基于监督学习的关系抽取方法要求具有足够多且完全标注的训练数据,但对数据进行标注的工作需要耗费大量的人力物力,且难以迁移到其他领域中。因此研究如何利用少量标注甚至无标注数据提升关系抽取性能是必要的。
为了解决监督学习中的数据需求问题,一种解决思路是远程监督方法,基本思想是依赖已有的知识库,从文本中获取包含知识库中实体对的文本作为训练语料,且Mintz提出一个假设,如果知识库中某个实体对存在某种关系,那么所有包含此对实体的数据都表达这个关系。然而远程监督的缺陷是生成的数据存在大量的噪声数据,其依然无法从本质上解决样本分布的长尾问题。另一种解决思路是如何充分利用少量标注样本进行训练,使得模型具有更好的泛化能力,即少样本学习。
目前少样本关系抽取学习有两类主要方法:度量学习与元学习。度量学习是通过先验知识学习一个度量函数,利用度量函数将输入映射到一个子空间,使得相似和不相似的数据对可以很容易被分辨,通常用于分类问题。元学习主要是优化在假设空间寻找最优参数的策略,例如寻找一个合适的初始模型参数,学习一个优化器以直接输出参数更新。
图神经网络是近年来的新兴领域,其将传统神经网络延伸到非欧几里德空间,在图结构上进行图操作,具有一定的可解释性能。图神经网络将类别之间的结构信息当做信息传播的通道,可以很好地提取样本间的关系。其模仿人脑在认知中的相应关联和区分机制,获取关于新任务的更多辅助信息,从而弥补样本数据不足的问题。图神经网络可以很好地将类别与类别之间的差异捕捉,便于实现类别分类。
发明内容
本发明将图神经网络引入到少样本关系抽取中,提供了基于自适应少样本关系抽取的知识图谱构建方法。本发明可避免大量人工标注带来的费时耗钱,且通过少量特定领域的标签数据可以快速完成特定领域的关系抽取任务,同时可以对未见领域有很好的泛化性能。
本发明考虑到模型在旧任务到新任务的迁移中会遗忘旧任务,以及考虑到模型进行新任务训练时需要大量的带标签训练样本,将图网络神经应用到多任务问题中,利用图神经网络中信息可在节点间传播和聚合的特点,在不提供大量带标签训练样本只提供少量样本图像的基础上,实现快速精确的分类。
本发明实施例提供的基于自适应少样本关系抽取的知识图谱构建方法,包括:
从获取的非结构化文本中自动提取实体;
以原始的非结构化文本和所识别的实体作为关系模型的输入,则提取出实体间的关系;
基于提取的实体及关系数据进行实体链接;
根据事实三元组自动推理出关系值缺失,进行知识图谱的补全。
关系模型的构建如下:
给定训练集,其包含M个类别,每个类别下有N个实例,每个实例包括句子以及句子的头实体、尾实体;从训练集中随机抽取M1个类别,从每个类别中随机抽取K个实例,构造支持集
Figure 776036DEST_PATH_IMAGE001
Figure 916030DEST_PATH_IMAGE002
Figure 682998DEST_PATH_IMAGE003
;从每个类别剩余的N-K个样本中随机抽取L个实例构造查询集;
S100:利用文本编码器对训练集实例进行编码,生成上下文关系语义;
S200:将支持集输入参数生成器,生成初始化softmax参数;
S300:将步骤S100生成的上下文关系语义输入自适应图神经网络,利用自适应图神经网络对实例进行更新;所述自适应图神经网络的构建如下:
S310:构建点图,其中节点表示一实例的特征向量,边描述实例之间的相似关系;
S320:构建分布图,其中节点表示一实例的分布,边描述分布与分布之间的相似关系;所述分布指一实例与其他所有实例的相似关系构成的向量;
S330:将支持集和查询集中实例的上下文关系语义作为特征向量,用来初始化点图的节点,利用节点间的相似关系初始化点图相应的边;
S340:利用支持集和查询集中各实例的相似关系向量初始化分布图的节点,利用节点间的相似关系初始化分布图相应的边;
相似关系向量
Figure 224837DEST_PATH_IMAGE004
Figure 333739DEST_PATH_IMAGE005
也即分布图中第i个节点;||表示,级联操作,
Figure 961029DEST_PATH_IMAGE006
Figure 361049DEST_PATH_IMAGE007
分别表示实例i和实例j的关系类别标签,如果
Figure 226237DEST_PATH_IMAGE008
,则
Figure 771619DEST_PATH_IMAGE009
,否则
Figure 807577DEST_PATH_IMAGE010
S350:将点图中各节点间的相似关系和上一层分布图中该节点聚合,作为更新后的分布图节点,同时更新分布图的边;
S350:将更新后分布图中每个节点间的相似关系和行一层点图中对应节点聚合,作为更新后点图节点,同时更新点图到点图的聚合;
S400:利用softmax分类器对更新后的实例进行分类预测,获取关系类型。
进一步的,步骤S100中,对实例中句子及头实体、尾实体的位置进行编码。
进一步的,对实例中句子及头实体、尾实体的位置进行编码,进一步包括:
S110:将实例的句子中每个词映射成词向量;
S120:基于词向量,将每个词分别与该词所在句子的两个实体的相对位置进行编码,所得编码向量连接得词的位置编码;
S130:将实例和实例中词的位置编码输入文本编码器,生成各实例的上下文关系语义。
进一步的,步骤S200进一步包括:
S210:按关系类别对支持集实例进行划分;
S220:利用每一关系类别下的实例生成每一关系类别对应的权重和偏置;
S230:所有关系类别对应的权重和偏重构成权重向量和偏置向量,即初始化softmax参数。
进一步的,子步骤S330中,点图节点间的相似关系
Figure 322872DEST_PATH_IMAGE011
,其中,
Figure 714670DEST_PATH_IMAGE012
表示初始化的节点
Figure 555587DEST_PATH_IMAGE013
与节点
Figure 580306DEST_PATH_IMAGE014
间的相似关系,
Figure 40237DEST_PATH_IMAGE015
表示两层卷积-正则化-RELU网络以及sigmoid激活层;
子步骤S340中,分布图节点间的相似关系来描述边
Figure 411176DEST_PATH_IMAGE016
Figure 547628DEST_PATH_IMAGE017
是一个两层卷积-正则化-RELU网络以及sigmoid激活层;
Figure 371227DEST_PATH_IMAGE018
Figure 634850DEST_PATH_IMAGE019
均为已有的神经网络。
本发明具有如下特点和有益效果:
本发明不仅提升了具体任务下关系抽取的准确性,还提升了对未出现任务的泛化性能。在获取关系时不需要大量的人工标注数据,避免了大量的人工打标带来的费时耗钱,且通过少量特定领域的标签数据就可以完成特定领域的关系抽取任务。
本发明不仅显示考虑实例与实例之间的关系,而且关注实例分布与实例分布之间的关系,这样可以更好刻画不同关系的边界,提升具体任务下关系表示的判别性。同时,由于自然语言的输入空间在所有NLP任务之间是共享的,因此基于元学习的自适应方法可能会泛化到看不见的任务,即在训练集中未出现的关系类别也可以进行抽取。
附图说明
图1为实施例中的关系抽取详细流程示意图。
具体实施方式
下面将结合附图对本发明的具体实施方式做详细说明。显然,所描述的具体实施方式仅仅是本发明的一部分实施例,而不是全部的实施例。基于所描述的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
本发明知识图谱的构建方法使用的场景包括:知识图谱的构建装置和服务器,其中,服务器包括有该垂直领域的多类型非结构化文本,构建该垂直领域的知识图谱需要知识图谱的构建装置在该服务器中获取多个类型的非结构化文本,进而采用本发明知识图谱构建方法处理非结构化文本,从而构建该垂直领域的知识图谱。
本发明知识图谱的构建方法的执行主体可以是知识图谱的构建装置,该知识图谱的构建装置可由任意的软件和/或硬件实现。
本发明实施例基于自适应少样本关系抽取的知识图谱构建方法,具体步骤如下:
步骤一、抽取实体,即从非结构化文本中自动识别实体。
该步骤是从原始的非结构化文本中自动识别出命名实体。本实施例采用LSTM-CRF技术,将非结构化文本中的每个单词表示为一个词嵌入,将词嵌入作为LSTM模型的输入,输出每个单词的预测分数。将LSTM层预测的分数再输入CRF层。在CRF层中,选择预测得分最高的标签序列作为最佳答案。
步骤二、抽取关系,即识别实体间的关系。
本步骤即本发明知识图谱构建方法的关键创新处。将原始的非结构化文本和步骤一所识别的两个实体,输入到已训练的基于分布级关系的自适应关系抽取模型中,在模型输出的分类分数中选择得分最高的关系类别作为两个实体之间的关系。后文将提供本步骤的详细过程。
步骤三、实体链接,即对抽取的实体及关系数据进行逻辑归属和消除冗余。
从原始的非结构化文本中获取实体及实体间的关系后,再通过实体链接对实体及实体关系数据进行逻辑归属和冗杂错误过滤。根据自适应关系抽取模型更新后的实体表示,计算任意两个实体之间的相似度,本实施例使用余弦相似度,当相似度大于设定的阈值时,合并该两个实体以消除冗余,此时知识图谱已具雏形。
步骤四、知识推理,即根据事实三元组自动推理出关系值缺失,进行知识图谱的补全。
本步骤则是根据已存在的事实三元组,自动推理出丢失的事实,处理知识图谱之间关系值缺失,完成进一步的知识发现,进行知识图谱的补全。本实施例采用分布式推理模型TransE,将每个三元组实例 (head,relation,tail) 中的关系 relation 看做从实体head 到实体 tail 的映射,满足条件h + r=t,其中,h表示头实体向量,r表示关系向量,t表示尾实体向量。在知识图谱中,如果头尾实体向量不存在于已有的三元组,则通过t-h计算关系向量,得到头尾实体的关系来补充知识图谱。
图1所示为实施例中关系抽取的详细流程,具体过程如下:
接收原始的非结构化文本,即关系数据集,关系数据集采用数据集FewRel1.0,关系数据集是数据是按照关系类别组合。按照关系类别从关系数据集中抽取M个关系类别数据形成训练集
Figure 594715DEST_PATH_IMAGE020
,剩余的关系类别数据组成测试集
Figure 403534DEST_PATH_IMAGE021
。训练集
Figure 980008DEST_PATH_IMAGE022
包含M个类别,每个类别下含有N个实例,每个实例
Figure 47322DEST_PATH_IMAGE023
Figure 861694DEST_PATH_IMAGE024
表示第i个实例,
Figure 605528DEST_PATH_IMAGE025
表示句子,
Figure 403719DEST_PATH_IMAGE026
表示句子
Figure 743565DEST_PATH_IMAGE027
的头实体,
Figure 943602DEST_PATH_IMAGE028
表示句子
Figure 359802DEST_PATH_IMAGE029
的尾实体。为了在训练时期模拟测试时场景,从训练集
Figure 379711DEST_PATH_IMAGE030
中随机抽取
Figure 788827DEST_PATH_IMAGE031
个类别,从每个类别中随机抽取N1个实例构造支持集,支持集中第s个元素记为
Figure 843370DEST_PATH_IMAGE032
Figure 663428DEST_PATH_IMAGE033
为实例
Figure 796731DEST_PATH_IMAGE034
对应的关系类别标签。从每个类别剩余的N-N1个样本中随机抽取N2个实例构造查询集
Figure 868592DEST_PATH_IMAGE035
,查询集中第q个元素记为
Figure 653009DEST_PATH_IMAGE036
Figure 988175DEST_PATH_IMAGE037
Figure 982676DEST_PATH_IMAGE038
对应的关系类别标签。
第一步,利用文本编码器对训练集中实例进行编码,生成上下文关系语义。
本步骤中编码包括对实例中句子进行编码以及句子中实体位置进行编码,并将句子编码和位置编码进行非线性组合。具体方法如下:
本具体实施方式中,对于每一个实例
Figure 982862DEST_PATH_IMAGE039
Figure 11998DEST_PATH_IMAGE024
表示第i个实例。使用word2vec将实例句子
Figure 924590DEST_PATH_IMAGE025
中的每个词
Figure 671966DEST_PATH_IMAGE040
映射成一个词向量
Figure 977308DEST_PATH_IMAGE041
Figure 860950DEST_PATH_IMAGE042
为词向量的维度,
Figure 944444DEST_PATH_IMAGE040
表示实例句子
Figure 913537DEST_PATH_IMAGE025
的第k个词,k依次取1、2、…KK为句子
Figure 255525DEST_PATH_IMAGE025
中单词数量。将
Figure 196937DEST_PATH_IMAGE025
中每个词
Figure 841545DEST_PATH_IMAGE040
分别与所在句子的两个实体(头实体与尾实体)的相对位置编码成两个相对向量,两个向量连接获得位置编码
Figure 173300DEST_PATH_IMAGE043
Figure 928766DEST_PATH_IMAGE044
Figure 424818DEST_PATH_IMAGE045
为相对位置向量的维度,2个相对位置向量的连接,则维度就是
Figure 240327DEST_PATH_IMAGE046
。此处,
Figure 59379DEST_PATH_IMAGE040
与所在句子实体的相对位置指:
Figure 618536DEST_PATH_IMAGE047
与实体在句子
Figure 455911DEST_PATH_IMAGE025
中所间隔词的数量。
以实例
Figure 442322DEST_PATH_IMAGE048
作为文本编码器的输入,所生成的上下文关系语义表示记为
Figure 748669DEST_PATH_IMAGE049
。本具体实施方式中使用Transformer模型作为文本编码器。
第二步,将支持集
Figure 49201DEST_PATH_IMAGE050
输入参数生成器,生成当前任务下的初始化生成器的softmax参数。
本步骤进一步包括子步骤:
(1)将支持集按
Figure 616448DEST_PATH_IMAGE031
个类别划分,每个类别的实例集合记为
Figure 399859DEST_PATH_IMAGE051
Figure 52557DEST_PATH_IMAGE052
表示类别标签,
Figure 94462DEST_PATH_IMAGE053
即第n类实例的集合。
(2)对每个类别下各实例
Figure 781795DEST_PATH_IMAGE054
进行非线性映射加权求和,得到每个类别的表示
Figure 234642DEST_PATH_IMAGE055
Figure 374637DEST_PATH_IMAGE056
表示实例
Figure 689075DEST_PATH_IMAGE057
经文本编码器
Figure 434177DEST_PATH_IMAGE058
,再神经网络
Figure 933291DEST_PATH_IMAGE059
的输出,再对第n类别所有实例的输出加权求和并取平均,
Figure 186680DEST_PATH_IMAGE060
是权重向量,
Figure 429443DEST_PATH_IMAGE061
是偏置向量。
Figure 966734DEST_PATH_IMAGE059
具体指两层的多层感知机与tanh激活层,
Figure 636750DEST_PATH_IMAGE062
是softmax中线性层的权重与偏置。对于
Figure 875970DEST_PATH_IMAGE031
个类别权重向量
Figure 922424DEST_PATH_IMAGE063
和偏置向量
Figure 314222DEST_PATH_IMAGE064
分别记为:
Figure 155139DEST_PATH_IMAGE065
Figure 117541DEST_PATH_IMAGE066
第三步,基于分布级关系的自适应图神经网络,利用第一步输出作为输入微调获取特定任务下最优的参数,当前参数可以使基于分布级关系的图模型很好地对当前任务进行分类。
基于分布级关系的自适应图神经网络构建如下:
(1)构建点图
Figure 702106DEST_PATH_IMAGE067
Figure 276307DEST_PATH_IMAGE068
表示第l代实例点图,
Figure 163492DEST_PATH_IMAGE069
表示节点集合,每个节点表示一个实例i的特征向量;
Figure 252670DEST_PATH_IMAGE070
表示边集合,每个边描述实例i与实例j之间的相似关系。
(2)构建分布图
Figure 499981DEST_PATH_IMAGE071
Figure 991005DEST_PATH_IMAGE072
表示第l代分布图,
Figure 314670DEST_PATH_IMAGE073
表示节点集合,每个节点
Figure 625566DEST_PATH_IMAGE074
表示一个实例i的分布,实例i的分布为多维向量,其中j维度为点图中节点i与节点j的相似关系
Figure 178032DEST_PATH_IMAGE075
,将节点i与点图中所有节点分别求相似关系,获得实例i的分布。
Figure 523563DEST_PATH_IMAGE076
表示边集合,每个边描述实例i与实例j的分布之间的相似关系。
(3)初始化点图:
对于点图的初始化,提取支持集和查询集中实例对应的上下文关系语义,并用其初始化第一代点图的节点
Figure 752550DEST_PATH_IMAGE077
,然后利用节点间的相似关系描述边
Figure 754004DEST_PATH_IMAGE078
Figure 484063DEST_PATH_IMAGE079
是一个两层卷积-正则化-RELU网络以及sigmoid激活层。
(4)初始化分布图:
分布图的目的是整合节点之间的联系,从而得到分布之间的关系,因此分布图的每个节点都是一个M1*N1维的相似关系特征向量,第 j行描述实例 i和实例j之间的相似关系。
第一代分布图节点的初始化方式如下:
Figure 808734DEST_PATH_IMAGE080
(1)
式(1)中,||表示,级联操作,
Figure 333256DEST_PATH_IMAGE006
Figure 494110DEST_PATH_IMAGE007
分别表示实例i和实例j的关系类别标签,如果
Figure 708502DEST_PATH_IMAGE008
,则
Figure 669505DEST_PATH_IMAGE009
,否则
Figure 317655DEST_PATH_IMAGE010
利用分布图节点间的相似关系来描述边
Figure 123937DEST_PATH_IMAGE082
Figure 423200DEST_PATH_IMAGE017
是一个两层卷积-正则化-RELU网络以及sigmoid激活层。
(5)点图到分布图的聚合与更新。
对于第l层的分布图,节点的计算方式如下:
Figure 555104DEST_PATH_IMAGE083
(2)
其聚合了点图中每个节点之间的关系
Figure 424971DEST_PATH_IMAGE075
和上一层分布图中该节点的信息
Figure 300523DEST_PATH_IMAGE084
Figure 690178DEST_PATH_IMAGE085
表示点图到分布图的传播过程,是一个一层的多层感知机网络。
分布图中边的更新方式与点图类似,
Figure 992984DEST_PATH_IMAGE086
(6)更新后的分布图到点图的聚合与更新。
对于第l层的点图,用分布图推导出下一代点图中的节点信息,计算过程如下:
Figure 350147DEST_PATH_IMAGE087
(3)
其聚合了分布图中每个节点之间的关系
Figure 763811DEST_PATH_IMAGE088
和上一层点图中该节点的信息
Figure 772087DEST_PATH_IMAGE089
,D2P表示分布图到点图传播过程,是一个一层的全连接层以及RELU激活层。T表示支持集和查询集中实例总数。
在第l层,给定l-1层(即上一层)点图中任意两节点的节点表示与编信息信息
Figure 449056DEST_PATH_IMAGE090
更新方式如下:
Figure 418149DEST_PATH_IMAGE091
,注意这里要进行归一化处理。
第四步,利用第三步得到的每个实例更新后的关系表示与第二步得到的基于当前分类任务的分类器参数进行分类预测,预测结果即抽取的关系类型。
对于测试样本
Figure 510870DEST_PATH_IMAGE092
Figure 249019DEST_PATH_IMAGE093
Figure 519725DEST_PATH_IMAGE094
是步骤三中分布级关系的图神经网络,
Figure 976114DEST_PATH_IMAGE095
是当前任务下的分类器参数。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.基于自适应少样本关系抽取的知识图谱构建方法,包括从获取的非结构化文本中自动提取实体及实体间关系、基于提取的实体及关系数据进行实体链接、以及进行知识图谱的补全;其特征是:
实体间关系采用自适应关系抽取模型提取,自适应关系抽取模型的构建如下:
给定训练集,其包含M个类别,每个类别下有N个实例,每个实例包括句子以及句子的头实体、尾实体;从训练集中随机抽取
Figure 156996DEST_PATH_IMAGE001
个类别,从每个类别中随机抽取K个实例,构造支持集
Figure 786822DEST_PATH_IMAGE002
Figure 165851DEST_PATH_IMAGE003
Figure 497606DEST_PATH_IMAGE004
;从每个类别剩余的N-K个样本中随机抽取L个实例构造查询集;
S100:利用文本编码器对训练集实例进行编码,生成上下文关系语义;
S200:将支持集输入参数生成器,生成初始化softmax参数;
S300:将步骤S100生成的上下文关系语义输入自适应图神经网络,利用自适应图神经网络对实例进行更新;所述自适应图神经网络的构建如下:
S310:构建点图,其中节点表示一实例的特征向量,边描述实例之间的相似关系;
S320:构建分布图,其中节点表示一实例的分布,边描述分布与分布之间的相似关系;所述分布指一实例与其他所有实例的相似关系构成的向量;
S330:将支持集和查询集中实例的上下文关系语义作为特征向量,用来初始化点图的节点,利用节点间的相似关系初始化点图相应的边;
S340:利用支持集和查询集中各实例的相似关系向量初始化分布图的节点,利用节点间的相似关系初始化分布图相应的边;
相似关系向量
Figure 456335DEST_PATH_IMAGE005
Figure 314570DEST_PATH_IMAGE006
也即分布图中第i个节点;||表示,级联操作,
Figure 254713DEST_PATH_IMAGE007
Figure 198398DEST_PATH_IMAGE008
分别表示实例i和实例j的关系类别标签,如果
Figure 367342DEST_PATH_IMAGE009
,则
Figure 80083DEST_PATH_IMAGE010
,否则
Figure 692593DEST_PATH_IMAGE011
S350:将点图中各节点间的相似关系和上一层分布图中该节点聚合,作为更新后的分布图节点,同时更新分布图的边;
S350:将更新后分布图中每个节点间的相似关系和行一层点图中对应节点聚合,作为更新后点图节点,同时更新点图到点图的聚合;
S400:利用softmax分类器对更新后的实例进行分类预测,获取关系类型。
2.如权利要求1所述的基于自适应少样本关系抽取的知识图谱构建方法,其特征是:
步骤S100中,对实例中句子及头实体、尾实体的位置进行编码。
3.如权利要求2所述的基于自适应少样本关系抽取的知识图谱构建方法,其特征是:
所述对实例中句子及头实体、尾实体的位置进行编码,进一步包括:
S110:将实例的句子中每个词映射成词向量;
S120:基于词向量,将每个词分别与该词所在句子的两个实体的相对位置进行编码,所得编码向量连接得词的位置编码;
S130:将实例和实例中词的位置编码输入文本编码器,生成各实例的上下文关系语义。
4.如权利要求1所述的基于自适应少样本关系抽取的知识图谱构建方法,其特征是:
步骤S200进一步包括:
S210:按关系类别对支持集实例进行划分;
S220:利用每一关系类别下的实例生成每一关系类别对应的权重和偏置;
S230:所有关系类别对应的权重和偏重构成权重向量和偏置向量,即初始化softmax参数。
5.如权利要求1所述的基于自适应少样本关系抽取的知识图谱构建方法,其特征是:
子步骤S330中,点图节点间的相似关系
Figure 123574DEST_PATH_IMAGE012
,其中,
Figure 361788DEST_PATH_IMAGE013
表示初始化的节点
Figure 929036DEST_PATH_IMAGE014
与节点
Figure 210981DEST_PATH_IMAGE015
间的相似关系,
Figure 129259DEST_PATH_IMAGE016
表示神经网络;
子步骤S340中,分布图节点间的相似关系来描述边
Figure 640006DEST_PATH_IMAGE017
Figure 327339DEST_PATH_IMAGE018
表示神经网络。
6.如权利要求1所述的基于自适应少样本关系抽取的知识图谱构建方法,其特征是:
所述基于提取的实体及关系数据进行实体链接,具体为:
利用自适应关系抽取模型更新后的实体表示,计算任意两个实体之间的相似度,并合并相似度大于设定阈值的两个实体。
CN202110808184.4A 2021-07-16 2021-07-16 基于自适应少样本关系抽取的知识图谱构建方法 Active CN113254675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110808184.4A CN113254675B (zh) 2021-07-16 2021-07-16 基于自适应少样本关系抽取的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110808184.4A CN113254675B (zh) 2021-07-16 2021-07-16 基于自适应少样本关系抽取的知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN113254675A true CN113254675A (zh) 2021-08-13
CN113254675B CN113254675B (zh) 2021-11-16

Family

ID=77180471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110808184.4A Active CN113254675B (zh) 2021-07-16 2021-07-16 基于自适应少样本关系抽取的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN113254675B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113783876A (zh) * 2021-09-13 2021-12-10 国网电子商务有限公司 基于图神经网络的网络安全态势感知方法及相关设备
CN114095529A (zh) * 2021-08-30 2022-02-25 云南大学 基于知识图谱的工业非智能传感器自适应接入中间件及其方法
CN114169522A (zh) * 2021-12-13 2022-03-11 福州数据技术研究院有限公司 一种实体关系联合抽取方法和存储设备
CN114722823A (zh) * 2022-03-24 2022-07-08 华中科技大学 构建航空知识图谱的方法及装置、计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480640B1 (en) * 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
CN109508385A (zh) * 2018-11-06 2019-03-22 云南大学 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480640B1 (en) * 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
CN109508385A (zh) * 2018-11-06 2019-03-22 云南大学 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114095529A (zh) * 2021-08-30 2022-02-25 云南大学 基于知识图谱的工业非智能传感器自适应接入中间件及其方法
CN114095529B (zh) * 2021-08-30 2022-08-16 云南大学 基于知识图谱的工业非智能传感器自适应接入中间件及其方法
CN113783876A (zh) * 2021-09-13 2021-12-10 国网电子商务有限公司 基于图神经网络的网络安全态势感知方法及相关设备
CN113783876B (zh) * 2021-09-13 2023-10-03 国网数字科技控股有限公司 基于图神经网络的网络安全态势感知方法及相关设备
CN114169522A (zh) * 2021-12-13 2022-03-11 福州数据技术研究院有限公司 一种实体关系联合抽取方法和存储设备
CN114722823A (zh) * 2022-03-24 2022-07-08 华中科技大学 构建航空知识图谱的方法及装置、计算机可读介质
CN114722823B (zh) * 2022-03-24 2023-04-14 华中科技大学 构建航空知识图谱的方法及装置、计算机可读介质

Also Published As

Publication number Publication date
CN113254675B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
US20210286989A1 (en) Multi-model, multi-task trained neural network for analyzing unstructured and semi-structured electronic documents
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN113343690B (zh) 一种文本可读性自动评估方法及装置
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
US20220067579A1 (en) Dynamic ontology classification system
CN113779988A (zh) 一种通信领域过程类知识事件抽取方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN118332138B (zh) 一种航行通告文本处理方法、计算机程序产品及终端
Sokkhey et al. Development and optimization of deep belief networks applied for academic performance prediction with larger datasets
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
US20220138425A1 (en) Acronym definition network
CN117436451A (zh) 基于IDCNN-Attention的农业病虫害命名实体识别方法
CN117421420A (zh) 一种基于软提示学习的中文点击诱饵检测方法
CN116432660A (zh) 一种情感分析模型的预训练方法、装置和电子设备
CN115934944A (zh) 一种基于Graph-MLP与相邻对比损失的实体关系抽取方法
US11755570B2 (en) Memory-based neural network for question answering
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant