CN113536795A - 实体关系抽取的方法、系统、电子装置和存储介质 - Google Patents

实体关系抽取的方法、系统、电子装置和存储介质 Download PDF

Info

Publication number
CN113536795A
CN113536795A CN202110756826.0A CN202110756826A CN113536795A CN 113536795 A CN113536795 A CN 113536795A CN 202110756826 A CN202110756826 A CN 202110756826A CN 113536795 A CN113536795 A CN 113536795A
Authority
CN
China
Prior art keywords
entity
sentence
information
gcn
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110756826.0A
Other languages
English (en)
Other versions
CN113536795B (zh
Inventor
嵇望
安毫亿
梁青
王伟凯
朱鹏飞
钱艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Yuanchuan New Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuanchuan New Technology Co ltd filed Critical Hangzhou Yuanchuan New Technology Co ltd
Priority to CN202110756826.0A priority Critical patent/CN113536795B/zh
Publication of CN113536795A publication Critical patent/CN113536795A/zh
Application granted granted Critical
Publication of CN113536795B publication Critical patent/CN113536795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种实体关系抽取的方法、系统、电子装置和存储介质,GCN网络对训练集中句子的句法树进行编码,获得句法信息;根据领域知识图谱获得句子中实体的多边关系,使用R‑GCN网络对实体的多边关系进行编码,获得实体外部知识信息;根据句子的向量表示、句法信息、实体外部知识信息获取句子文本特征O1、句法特征O2和外部知识特征O3;将O1、O2、O3和当前实体的位置特征进行拼接,拼接结果通过softmax变换获得关系抽取模型的最终输出向量,通过最终输出向量预测当前实体的关系类型,通过反向传播算法对关系抽取模型进行训练,保存最优的关系抽取模型,接收待预测句子,通过训练好的关系抽取模型输出待预测句子中实体的关系类型,提高了关系抽取的准确率。

Description

实体关系抽取的方法、系统、电子装置和存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及实体关系抽取的方法、系统、电子装置和存储介质。
背景技术
关系抽取作为信息抽取的一项核心子任务,关系抽取中的实体关系抽取对于知识图谱、智能问答、语义检索等自然语言处理的应用都十分重要。实体关系抽取的基本目的之一是从原始的非结构化文本中提取有意义的结构化信息,自动识别实体之间具有的某种语义关系。在相关技术中,实体关系抽取方法大都依靠句子本身的语义特征,忽略了长距离依赖信息、外部知识信息和位置信息,存在特征提取信息不够丰富的问题,极大影响实体关系抽取效果。
目前针对相关技术中,实体关系抽取方法大都依靠句子本身的语义特征,忽略了长距离依赖信息、外部知识信息和位置信息,实体关系类型识别准确率低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种实体关系抽取的方法、系统、电子装置和存储介质,以至少解决相关技术中,实体关系抽取方法大都依靠句子本身的语义特征,忽略了长距离依赖信息、外部知识信息和位置信息,实体关系类型识别准确率低的问题。
第一方面,本申请实施例提供了一种实体关系抽取的方法,所述方法包括:
获取训练集,对所述训练集中的句子进行分词,获得分词后的句子,通过句法分析工具对所述分词后的句子进行句法解析,获得句法树,使用GCN网络对所述句法树进行编码,获得句法信息;
对所述分词后的句子进行命名实体识别,获得所述句子中的实体;
通过与领域知识图谱中的实体进行匹配获得所述实体的多边关系,使用R-GCN网络对所述实体的多边关系进行编码,获得实体外部知识信息;
通过不同频率的正弦函数和余弦函数生成每个所述实体的位置特征;
获取所述训练集中句子的向量表示,分别将所述句子的向量表示、所述句法信息、所述实体外部知识信息进行序列化编码,通过卷积神经网络对编码结果进行卷积层和池化层操作,分别获得句子文本特征、句法特征和外部知识特征;
将所述句子文本特征、所述句法特征、所述外部知识特征和当前所述实体的位置特征进行拼接,将拼接结果通过softmax变换获得关系抽取模型的最终输出向量,通过所述最终输出向量预测当前所述实体的关系类型,通过反向传播算法对关系抽取模型进行训练,保存最优的关系抽取模型;
接收待预测句子,通过训练好的所述关系抽取模型输出所述待预测句子中实体的关系类型。
在其中一些实施例中,所述获取所述训练集中句子的向量表示之前,所述方法包括:
设定预训练模型的训练参数,所述训练参数包括词向量的维度、批处理的参数、初始学习率、词向量矩阵、辅助向量矩阵和中文词表;
对文本语料进行预处理,获得分词后的句子,通过所述预训练模型获取所述分词后的句子的词向量表示,其中,由所述分词后的句子的词向量表示获得所述训练集中句子的向量表示。
在其中一些实施例中,所述使用R-GCN网络对所述实体的多边关系进行编码,获得实体外部知识信息之前,所述方法包括:
根据所述领域知识图谱训练所述领域知识图谱的TransE向量,训练好的所述TransE向量对所述R-GCN网络进行初始化。
在其中一些实施例中,其特征在于,所述使用GCN网络对所述句法树进行编码,获得句法信息包括:
使用GCN网络对所述句法树进行编码,获得所述句法树中所有节点的GCN卷积向量,所述句法树中所有节点的GCN卷积向量组成所述句法信息。
在其中一些实施例中,所述使用R-GCN网络对所述实体的多边关系进行编码,获得实体外部知识信息包括:
使用R-GCN网络对所述实体在领域知识图谱中的信息进行编码,获得所述实体的R-GCN卷积向量;
所有所述实体的R-GCN卷积向量组成所述实体外部知识信息。
在其中一些实施例中,所述通过不同频率的正弦函数和余弦函数生成每个所述实体的位置特征包括:
每个所述实体的位置特征表示为:
Figure BDA0003148000190000021
Figure BDA0003148000190000031
其中,pos为当前实体的位置,dembedding为词向量维度大小或位置向量的长度,p为维度。
在其中一些实施例中,所述训练集、所述文本语料和所述领域知识图谱属于同一个领域。
第二方面,本申请实施例提供了一种实体关系抽取的系统,所述系统包括获取模块、识别模块、匹配模块、编码模块和训练模块和预测模块,
所述获取模块,用于获取训练集,对所述训练集中的句子进行分词,获得分词后的句子,通过句法分析工具对所述分词后的句子进行句法解析,获得句法树,使用GCN网络对所述句法树进行编码,获得句法信息;
所述识别模块,用于对所述分词后的句子进行命名实体识别,获得所述句子中的实体;
所述匹配模块,用于与领域知识图谱中的实体进行匹配获得所述实体的多边关系,使用R-GCN网络对所述实体的多边关系进行编码,获得实体外部知识信息;
所述编码模块,用于通过不同频率的正弦函数和余弦函数生成每个所述实体的位置特征获取所述训练集中句子的向量表示,分别将所述句子的向量表示、所述句法信息、所述实体外部知识信息进行序列化编码,通过卷积神经网络对编码结果进行卷积层和池化层操作,分别获得句子文本特征、句法特征和外部知识特征;
所述训练模块,用于将所述句子文本特征、所述句法特征、所述外部知识特征和当前所述实体的位置特征进行拼接,将拼接结果通过softmax变换获得关系抽取模型的最终输出向量,通过所述最终输出向量预测当前所述实体的关系类型,通过反向传播算法对关系抽取模型进行训练,保存最优的关系抽取模型;
所述预测模块,用于接收待预测句子,通过训练好的所述关系抽取模型输出所述待预测句子中实体的关系类型。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的实体关系抽取的方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的实体关系抽取的方法。
相比于相关技术,本申请实施例提供的实体关系抽取的方法,获取训练集,对训练集中的句子进行分词,获得分词后的句子,通过句法分析工具对分词后的句子进行句法解析,获得句法树,使用GCN网络对句法树进行编码,获得句法信息;对分词后的句子进行命名实体识别,获得句子中的实体,通过与领域知识图谱中的实体进行匹配获得实体的多边关系,使用R-GCN网络对实体的多边关系进行编码,获得实体外部知识信息;通过不同频率的正弦函数和余弦函数生成每个实体的位置特征;获取训练集中句子的向量表示,分别将句子的向量表示、句法信息、实体外部知识信息进行序列化编码,通过卷积神经网络对编码结果进行卷积层和池化层操作,分别获得句子文本特征、句法特征和外部知识特征;将句子文本特征、句法特征、外部知识特征和当前实体的位置特征进行拼接,将拼接结果通过softmax变换获得关系抽取模型的最终输出向量,通过最终输出向量预测当前实体的关系类型,通过反向传播算法对关系抽取模型进行训练,保存最优的关系抽取模型;接收待预测句子,通过训练好的关系抽取模型输出待预测句子中实体的关系类型,GCN网络能够捕捉非欧式结构的数据信息,用GCN网络对句法信息和外部知识信息进行表示,使学习更加准确,融合句法信息和外部知识信息来丰富实体编码特征,解决句子级文本信息稀疏的问题,同时引入实体相对位置信息作为指导,更好的让关系抽取模型捕获更精确的相对位置关系,提高句子级别关系抽取的准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的实体关系抽取的方法的流程图;
图2是根据本申请实施例的关系抽取模型的示意图;
图3是根据本申请实施例的实体关系抽取的系统的结构框图;
图4是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供了一种实体关系抽取的方法,图1是根据本申请实施例的实体关系抽取的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取训练集,对训练集中的句子进行分词,获得分词后的句子,通过句法分析工具对分词后的句子进行句法解析,获得句法树,使用GCN网络对句法树进行编码,获得句法信息;示例性的,句法分析工具为Stanford CoreNLP,Stanford CoreNLP是一个自然语言处理工具包,集成了很多非常实用的功能,包括分词、词性标注和句法分析等,是一个已经训练好的模型,通过Stanford CoreNLP对分词后的句子进行句法解析获得句法树。
一般图片是由c个通道h行w列的矩阵组成的,结构非常规整,而社交网络、信息网络等是图论中由点和边建立起的拓扑图,传统CNN网络可以处理图片等欧式结构的数据,却很难处理社交网络、信息网络等非欧式结构的数据,而GCN网络能够捕捉非欧式结构的数据信息,故用GCN网络对句法树进行编码,获得句法信息。
步骤S102,对分词后的句子进行命名实体识别,获得句子中的实体;其中,命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
步骤S103,通过与领域知识图谱中的实体进行匹配获得实体的多边关系,使用R-GCN网络对实体的多边关系进行编码,获得实体外部知识信息;本实施例中,R-GCN网络能够处理图结构中不同边关系对节点的影响,使用开源的知识图谱,比如,Freebase来获取每个实体的关系网络,然后使用R-GCN网络来对实体的多边关系进行表示,获得实体外部知识信息。
步骤S104,通过不同频率的正弦函数和余弦函数生成每个实体的位置特征;本实施例中,在对每个实体进行实体分类的时候,引入实体相对位置信息,通过不同频率的正弦函数和余弦函数生成每个实体的位置特征。
步骤S105,获取训练集中句子的向量表示,分别将句子的向量表示、句法信息和实体外部知识信息进行序列化编码,通过卷积神经网络对编码结果进行卷积层和池化层操作,分别获得句子文本特征、句法特征和外部知识特征;其中,序列化编码包括BiGRU编码。
示例性的,训练集中句子S=(w1,w2,...,wn),wi为对句子分词后的单词,通过BiGRU模型对句子的向量表示进行编码,得到句子的词语级向量D如下述公式1所示:
Figure BDA0003148000190000061
Figure BDA0003148000190000062
通过BiGRU模型对句子的句法信息(a1,a2,...,an)进行编码,得到句法信息向量T如下述公式2所示:
Figure BDA0003148000190000063
Figure BDA0003148000190000064
通过BiGRU模型对句子的实体外部知识信息(b1,b2,...,bt)进行编码,得到实体外部知识信息向量E如下述公式3所示:
Figure BDA0003148000190000071
Figure BDA0003148000190000072
通过卷积神经网络对编码结果D=(d1,d2,...,dn)、T=(t1,t2,...,tn)和E=(e1,e2,...ek)进行卷积层和池化层操作,分别获得句子文本特征、句法特征和外部知识特征。
步骤S106,将句子文本特征、句法特征、外部知识特征和当前实体的位置特征进行拼接,将拼接结果通过softmax变换获得关系抽取模型的最终输出向量,通过最终输出向量预测当前实体的关系类型,通过反向传播算法对关系抽取模型进行训练,保存最优的关系抽取模型。
示例性的,关系抽取模型的最终输出向量Ox通过如下公式4进行表示:
Figure BDA0003148000190000073
其中,O1为句子文本特征,O2为句法特征,O3为外部知识特征,Oq为当前实体xq的位置特征,softmax函数用于多分类过程中,将多个神经元的输出,映射成为(0,1)的值,选取最大值对应的节点,作为预测目标,从而来进行多分类,基于训练集,对融合句子文本特征、句法特征、外部知识特征和当前实体的位置特征的关系抽取模型使用反向传播算法进行训练,寻找最优参数,保存最优的关系抽取模型,使获得的关系抽取模型能准确抽取句子中的实体关系类型。
步骤S107,接收待预测句子,通过训练好的关系抽取模型输出待预测句子中实体的关系类型。本实施例中,接受待预测句子,对待预测句子进行分词,命名实体识别,知识图谱匹配等,通过训练好的关系抽取模型来预测每个实体的关系类型。
图2是根据本申请实施例的关系抽取模型的示意图,如图2所示,由第一部分得到句法特征,即GCN网络对句法树进行编码,获得句法信息后,句法信息通过BiGRU进行编码,卷积神经网络对BiGRU编码得到的句法信息向量进行卷积层(Convolution)和池化层(Pooling)操作,得到句法特征,由第二部分得到外部知识特征,即通过R-GCN网络对实体的多边关系进行编码,获得实体外部知识信息,实体外部知识信息通过BiGRU进行编码,卷积神经网络对BiGRU编码得到的实体外部知识信息向量进行卷积层和池化层操作,得到外部知识特征,由第三部分得到句子文本特征,即句子的向量表示通过BiGRU进行编码,卷积神经网络对BiGRU编码得到的句子的词语级向量进行卷积层和池化层操作,得到句子文本特征,将句子文本特征、句法特征、外部知识特征和当前实体的位置特征(PositionEmbedding)进行拼接(Concateate),将拼接结果通过softmax变换获得关系抽取模型的最终输出向量,通过最终输出向量预测当前实体的关系类型。
相关技术中,实体关系抽取方法大都依靠句子本身的语义特征,忽略了长距离依赖信息、外部知识信息和位置信息,存在特征提取信息不够丰富的问题,极大影响实体关系抽取效果,而本申请方案中,通过上述步骤S101至步骤S106,使用GCN网络和R-GCN网络捕捉非欧式结构的数据信息,GCN网络对句法树进行编码,获得句法信息,R-GCN网络对实体的多边关系进行编码,获得实体外部知识信息,融合句法信息和外部知识信息来丰富实体编码特征,解决句子级文本信息稀疏的问题,同时引入实体相对位置信息作为指导,更好的让关系抽取模型捕获更精确的相对位置关系,提升句子级别关系抽取的准确率。
在其中一些实施例中,获取训练集中句子的向量表示之前,设定预训练模型的训练参数,训练参数包括词向量的维度、批处理的参数、初始学习率、词向量矩阵、辅助向量矩阵和中文词表;对文本语料进行预处理,获得分词后的句子,通过预训练模型获取分词后的句子的词向量表示,其中,由分词后的句子的词向量表示获得训练集中句子的向量表示。本实施例中,预训练模型为Bert模型,词向量通过基于大规模文本语料训练的Bert模型来获得,这样可以提高关系抽取模型的收敛速度和准确率。
在其中一些实施例中,使用R-GCN网络对实体的多边关系进行编码,获得实体外部知识信息之前,根据领域知识图谱训练领域知识图谱的TransE向量,训练好的TransE向量对R-GCN网络进行初始化。其中,TransE向量将知识图谱中的实体和关系映射到向量空间,实体和关系的表示变成了向量之间的表示。
相关技术中,R-GCN网络的值一般是随机初始化的,或者用词向量来表示,而在本实施例中,用领域知识图谱训练好的TransE向量对R-GCN网络进行初始化,使R-GCN网络能更好的学习到知识图谱关系,更容易收敛。
在其中一些实施例中,使用GCN网络对句法树进行编码,获得句法信息包括:使用GCN网络对句法树进行编码,获得句法树中所有节点的GCN卷积向量,句法树中所有节点的GCN卷积向量组成句法信息。
示例性的,定义无向图G=(v,ε)是句子S=(w1,w2,...,wn)的句法树,V=v1,v2,...,vn和ε是句法树中对应的节点集和边集,在句法树中每个节点vi代表句子中的一个单词wi,如果一条边(vi,vj)∈ε,则代表节点vi和vj存在有向句法弧。
使用GCN网络对句法树进行编码,在GCN网络的第k层,节点vi的GCN卷积向量可通过如下公式5进行表示:
Figure BDA0003148000190000091
其中,K(vi,vj)表示边(vi,vj)的标签,M和y是对应的权重和偏差,N(vj)是vj对应的领域集且包含vj,f为激活函数,所有节点v1,v2,...,vn的GCN卷积向量表示组成句法信息(a1,a2,...,an)。
在其中一些实施例中,使用R-GCN网络对实体的多边关系进行编码,获得实体外部知识信息包括:使用R-GCN网络对实体在领域知识图谱中的信息进行编码,获得实体的R-GCN卷积向量;所有实体的R-GCN卷积向量组成实体外部知识信息。
示例性的,句子中的实体X=x1,x2,...,xt,则实体在领域知识图谱中的关系网络表示为G=(X,ε,R),,带标签的边(关系)(xi,r,xj)∈ε,r∈R代表关系类型,在R-GCN网络的第l层,实体xi的R-GCN卷积向量可通过如下公式6进行表示:
Figure BDA0003148000190000092
其中,
Figure BDA0003148000190000093
表示实体xj在包含在关系集R的所有邻居实体,ci,r是一个可以手动选择或者提取学习的归一化超参,σ是一个激活函数,Mr和M0表示不同的权重,所有实体x1,x2,...,xt的R-GCN卷积向量组成实体外部知识信息(b1,b2,...,bt)。
在其中一些实施例中,通过不同频率的正弦函数和余弦函数生成每个实体的位置特征包括:
使用不同频率的正弦函数和余弦函数生成位置编码,则每个实体的位置特征通过如下公式7表示:
Figure BDA0003148000190000094
Figure BDA0003148000190000101
其中,pos为当前实体的位置,dembedding为词向量维度大小或位置向量的长度,p为维度,示例性的,pos=3,dembedding=128时,则当前实体的位置特征为[sin(3/100000/128),cos(3/100001/128),sin(3/100002/128),cos(3/100003/128),…],当实体的位置在偶数位时,使用不同频率的正弦函数生成位置编码,当实体的位置在奇数位时,使用不同频率的余弦函数生成位置编码,通过在对每个实体进行实体分类的时候,引入实体相对位置信息作为指导,更好的让关系抽取模型捕获更精确的相对位置关系,提升句子级别关系抽取的准确率。
在其中一些实施例中,训练集、文本语料和领域知识图谱属于同一个领域,在训练集、文本语料和领域知识图谱属于同一个特定领域的情况下,训练好的关系抽取模型的抽取结果更准确。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种实体关系抽取的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的实体关系抽取的系统的结构框图,如图3所示,该系统包括获取模块31、识别模块32、匹配模块33、编码模块34、训练模块35和预测模块36,获取模块31用于获取训练集,对训练集中的句子进行分词,获得分词后的句子,通过句法分析工具对分词后的句子进行句法解析,获得句法树,使用GCN网络对句法树进行编码,获得句法信息;识别模块32用于对分词后的句子进行命名实体识别,获得句子中的实体,匹配模块33,用于与领域知识图谱中的实体进行匹配获得实体的多边关系,使用R-GCN网络对实体的多边关系进行编码,获得实体外部知识信息;编码模块34用于通过不同频率的正弦函数和余弦函数生成每个实体的位置特征,获取训练集中句子的向量表示,分别将句子的向量表示、句法信息、实体外部知识信息进行序列化编码,通过卷积神经网络对编码结果进行卷积层和池化层操作,分别获得句子文本特征、句法特征和外部知识特征;训练模块35用于将句子文本特征、句法特征、外部知识特征和当前实体的位置特征进行拼接,将拼接结果通过softmax变换获得关系抽取模型的最终输出向量,通过最终输出向量预测当前实体的关系类型,通过反向传播算法对关系抽取模型进行训练,保存最优的关系抽取模型,预测模块36用于接收待预测句子,通过训练好的关系抽取模型输出待预测句子中实体的关系类型,提高了句子级别关系抽取的准确率。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的实体关系抽取的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种实体关系抽取的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体关系抽取的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图4是根据本申请实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种实体关系抽取的方法,数据库用于存储数据。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种实体关系抽取的方法,其特征在于,所述方法包括:
获取训练集,对所述训练集中的句子进行分词,获得分词后的句子,通过句法分析工具对所述分词后的句子进行句法解析,获得句法树,使用GCN网络对所述句法树进行编码,获得句法信息;
对所述分词后的句子进行命名实体识别,获得所述句子中的实体;
通过与领域知识图谱中的实体进行匹配获得所述实体的多边关系,使用R-GCN网络对所述实体的多边关系进行编码,获得实体外部知识信息;
通过不同频率的正弦函数和余弦函数生成每个所述实体的位置特征;
获取所述训练集中句子的向量表示,分别将所述句子的向量表示、所述句法信息、所述实体外部知识信息进行序列化编码,通过卷积神经网络对编码结果进行卷积层和池化层操作,分别获得句子文本特征、句法特征和外部知识特征;
将所述句子文本特征、所述句法特征、所述外部知识特征和当前所述实体的位置特征进行拼接,将拼接结果通过softmax变换获得关系抽取模型的最终输出向量,通过所述最终输出向量预测当前所述实体的关系类型,通过反向传播算法对关系抽取模型进行训练,保存最优的关系抽取模型;
接收待预测句子,通过训练好的所述关系抽取模型输出所述待预测句子中实体的关系类型。
2.根据权利要求1所述的方法,其特征在于,所述获取所述训练集中句子的向量表示之前,所述方法包括:
设定预训练模型的训练参数,所述训练参数包括词向量的维度、批处理的参数、初始学习率、词向量矩阵、辅助向量矩阵和中文词表;
对文本语料进行预处理,获得分词后的句子,通过所述预训练模型获取所述分词后的句子的词向量表示,其中,由所述分词后的句子的词向量表示获得所述训练集中句子的向量表示。
3.根据权利要求1所述的方法,其特征在于,所述使用R-GCN网络对所述实体的多边关系进行编码,获得实体外部知识信息之前,所述方法包括:
根据所述领域知识图谱训练所述领域知识图谱的TransE向量,训练好的所述TransE向量对所述R-GCN网络进行初始化。
4.根据权利要求1所述的方法,其特征在于,所述使用GCN网络对所述句法树进行编码,获得句法信息包括:
使用GCN网络对所述句法树进行编码,获得所述句法树中所有节点的GCN卷积向量,所述句法树中所有节点的GCN卷积向量组成所述句法信息。
5.根据权利要求1所述的方法,其特征在于,所述使用R-GCN网络对所述实体的多边关系进行编码,获得实体外部知识信息包括:
使用R-GCN网络对所述实体在领域知识图谱中的信息进行编码,获得所述实体的R-GCN卷积向量;
所有所述实体的R-GCN卷积向量组成所述实体外部知识信息。
6.根据权利要求1所述的方法,其特征在于,所述通过不同频率的正弦函数和余弦函数生成每个所述实体的位置特征包括:
每个所述实体的位置特征表示为:
Figure FDA0003148000180000021
Figure FDA0003148000180000022
其中,pos为当前实体的位置,dembedding为词向量维度大小或位置向量的长度,p为维度。
7.根据权利要求2所述的方法,其特征在于,所述方法包括:所述训练集、所述文本语料和所述领域知识图谱属于同一个领域。
8.一种实体关系抽取的系统,其特征在于,所述系统包括获取模块、识别模块、匹配模块、编码模块、训练模块和预测模块,
所述获取模块,用于获取训练集,对所述训练集中的句子进行分词,获得分词后的句子,通过句法分析工具对所述分词后的句子进行句法解析,获得句法树,使用GCN网络对所述句法树进行编码,获得句法信息;
所述识别模块,用于对所述分词后的句子进行命名实体识别,获得所述句子中的实体;
所述匹配模块,用于与领域知识图谱中的实体进行匹配获得所述实体的多边关系,使用R-GCN网络对所述实体的多边关系进行编码,获得实体外部知识信息;
所述编码模块,用于通过不同频率的正弦函数和余弦函数生成每个所述实体的位置特征,获取所述训练集中句子的向量表示,分别将所述句子的向量表示、所述句法信息、所述实体外部知识信息进行序列化编码,通过卷积神经网络对编码结果进行卷积层和池化层操作,分别获得句子文本特征、句法特征和外部知识特征;
所述训练模块,用于将所述句子文本特征、所述句法特征、所述外部知识特征和当前所述实体的位置特征进行拼接,将拼接结果通过softmax变换获得关系抽取模型的最终输出向量,通过所述最终输出向量预测当前所述实体的关系类型,通过反向传播算法对关系抽取模型进行训练,保存最优的关系抽取模型;
所述预测模块,用于接收待预测句子,通过训练好的所述关系抽取模型输出所述待预测句子中实体的关系类型。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的实体关系抽取的方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的实体关系抽取的方法。
CN202110756826.0A 2021-07-05 2021-07-05 实体关系抽取的方法、系统、电子装置和存储介质 Active CN113536795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110756826.0A CN113536795B (zh) 2021-07-05 2021-07-05 实体关系抽取的方法、系统、电子装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110756826.0A CN113536795B (zh) 2021-07-05 2021-07-05 实体关系抽取的方法、系统、电子装置和存储介质

Publications (2)

Publication Number Publication Date
CN113536795A true CN113536795A (zh) 2021-10-22
CN113536795B CN113536795B (zh) 2022-02-15

Family

ID=78097739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110756826.0A Active CN113536795B (zh) 2021-07-05 2021-07-05 实体关系抽取的方法、系统、电子装置和存储介质

Country Status (1)

Country Link
CN (1) CN113536795B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562303A (zh) * 2023-07-04 2023-08-08 之江实验室 一种参考外部知识的指代消解方法及装置
CN116737965A (zh) * 2023-08-11 2023-09-12 深圳市腾讯计算机系统有限公司 信息获取的方法、装置、电子设备及存储介质
CN116756250A (zh) * 2023-06-06 2023-09-15 电子科技大学 故障相关数据的处理方法、装置、计算机设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083838A (zh) * 2019-04-29 2019-08-02 西安交通大学 基于多层神经网络与外部知识库的生物医学语义关系提取方法
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN111581326A (zh) * 2020-03-30 2020-08-25 中国科学院信息工程研究所 一种基于异构外部知识源图结构抽取答案信息的方法
US20200364406A1 (en) * 2019-05-17 2020-11-19 Baidu Online Network Technology (Beijing) Co., Ltd Entity relationship processing method, apparatus, device and computer readable storage medium
CN111985239A (zh) * 2020-07-31 2020-11-24 杭州远传新业科技有限公司 实体识别方法、装置、电子设备及存储介质
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112214610A (zh) * 2020-09-25 2021-01-12 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法
CN112507699A (zh) * 2020-09-16 2021-03-16 东南大学 一种基于图卷积网络的远程监督关系抽取方法
CN112633478A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于本体语义的图卷积网络学习模型的构建
CN112765312A (zh) * 2020-12-31 2021-05-07 湖南大学 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统
CN112860904A (zh) * 2021-04-06 2021-05-28 哈尔滨工业大学 一种融入外部知识的生物医疗关系抽取方法
CN113032585A (zh) * 2021-05-31 2021-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于文档结构和外部知识的文档级实体关系抽取方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083838A (zh) * 2019-04-29 2019-08-02 西安交通大学 基于多层神经网络与外部知识库的生物医学语义关系提取方法
US20200364406A1 (en) * 2019-05-17 2020-11-19 Baidu Online Network Technology (Beijing) Co., Ltd Entity relationship processing method, apparatus, device and computer readable storage medium
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111241294A (zh) * 2019-12-31 2020-06-05 中国地质大学(武汉) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法
CN111581326A (zh) * 2020-03-30 2020-08-25 中国科学院信息工程研究所 一种基于异构外部知识源图结构抽取答案信息的方法
CN111985239A (zh) * 2020-07-31 2020-11-24 杭州远传新业科技有限公司 实体识别方法、装置、电子设备及存储介质
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统
CN112507699A (zh) * 2020-09-16 2021-03-16 东南大学 一种基于图卷积网络的远程监督关系抽取方法
CN112214610A (zh) * 2020-09-25 2021-01-12 中国人民解放军国防科技大学 一种基于跨度和知识增强的实体关系联合抽取方法
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112633478A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于本体语义的图卷积网络学习模型的构建
CN112765312A (zh) * 2020-12-31 2021-05-07 湖南大学 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统
CN112860904A (zh) * 2021-04-06 2021-05-28 哈尔滨工业大学 一种融入外部知识的生物医疗关系抽取方法
CN113032585A (zh) * 2021-05-31 2021-06-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于文档结构和外部知识的文档级实体关系抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DIYA LI ET.AL: "Syntax-aware Multi-task Graph Convolutional Networks for Biomedical Relation Extraction", 《PROCEEDINGS OF THE 10TH INTERNATIONAL WORKSHOP ON HEALTH TEXT MINING AND INFORMATION ANALYSIS (LOUHI 2019)》 *
NINGYU ZHANG ET.AL: "Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks", 《ARXIV:1903.01306V1》 *
张军莲等: "基于图卷积神经网络的中文实体关系联合抽取", 《计算机工程》 *
李冬梅等: "实体关系抽取方法研究综述", 《计算机研究与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756250A (zh) * 2023-06-06 2023-09-15 电子科技大学 故障相关数据的处理方法、装置、计算机设备及存储介质
CN116562303A (zh) * 2023-07-04 2023-08-08 之江实验室 一种参考外部知识的指代消解方法及装置
CN116562303B (zh) * 2023-07-04 2023-11-21 之江实验室 一种参考外部知识的指代消解方法及装置
CN116737965A (zh) * 2023-08-11 2023-09-12 深圳市腾讯计算机系统有限公司 信息获取的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113536795B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN113536795B (zh) 实体关系抽取的方法、系统、电子装置和存储介质
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111950269A (zh) 文本语句处理方法、装置、计算机设备和存储介质
CN112800757B (zh) 关键词生成方法、装置、设备及介质
CN109325242B (zh) 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN110472255B (zh) 神经网络机器翻译方法、模型、电子终端以及存储介质
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
CN114676234A (zh) 一种模型训练方法及相关设备
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN111881292B (zh) 一种文本分类方法及装置
CN113987147A (zh) 样本处理方法及装置
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN112131883A (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN116628186B (zh) 文本摘要生成方法及系统
Cheng et al. A hierarchical multimodal attention-based neural network for image captioning
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN112464655A (zh) 中文字符和拼音相结合的词向量表示方法、装置、介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN111859950A (zh) 一种自动化生成讲稿的方法
CN113672731B (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN113609873A (zh) 翻译模型训练方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611

Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051

Patentee before: Hangzhou Yuanchuan New Technology Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method, system, electronic device, and storage medium for entity relationship extraction

Effective date of registration: 20230509

Granted publication date: 20220215

Pledgee: China Everbright Bank Limited by Share Ltd. Hangzhou branch

Pledgor: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Registration number: Y2023980040155

PE01 Entry into force of the registration of the contract for pledge of patent right