CN116992881A - 一种基于上下文依存感知图卷积网络抽取实体关系的方法 - Google Patents

一种基于上下文依存感知图卷积网络抽取实体关系的方法 Download PDF

Info

Publication number
CN116992881A
CN116992881A CN202310869966.8A CN202310869966A CN116992881A CN 116992881 A CN116992881 A CN 116992881A CN 202310869966 A CN202310869966 A CN 202310869966A CN 116992881 A CN116992881 A CN 116992881A
Authority
CN
China
Prior art keywords
word
vector
dagcn
sequence
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310869966.8A
Other languages
English (en)
Inventor
廖嘉辉
杜亚军
李显勇
刘佳
李艳丽
陈晓亮
谢春芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xihua University
Original Assignee
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xihua University filed Critical Xihua University
Priority to CN202310869966.8A priority Critical patent/CN116992881A/zh
Publication of CN116992881A publication Critical patent/CN116992881A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于上下文依存感知图卷积网络抽取实体关系的方法,属于信息抽取技术领域,包括如下步骤:预处理输入文本,得到主客体标记后的文本、依存类型矩阵D、全局相对位置矩阵P和依存连接矩阵A;利用序列模型BERT学习主客体标记后的文本,得到文本的词级表示和句级表示hsentence;基于结构模型DAGCN、词级表示、依存类型矩阵D、全局相对位置矩阵P和依存连接矩阵A对文本结构建模,得到具有分布式表示的词级向量h(l)′;利用BERT和DAGCN联合抽取关系模型、句级表示hsentence和具有分布式表示的词级向量h(l)′,得到实体关系类型本发明解决了现有信息提取技术过于依赖句法解析、易出现语义混淆和模式丢失的问题。

Description

一种基于上下文依存感知图卷积网络抽取实体关系的方法
技术领域
本发明涉及信息抽取技术领域,具体涉及一种基于上下文依存感知图卷积网络抽取实体关系的方法。
背景技术
随着信息技术的快速发展,手机、电脑、平板等终端设备快速普及,全球互联网用户数量也在逐年增多。互联网给人们生活带来便利的同时,数据也开始呈现大规模产生的态势。一方面,这些数据价值密度低,在实际应用场景中,整个数据只有很少一部分是有用的。另一方面,这些数据需要及时处理,平台服务器会花费大量资源去存储和加工,但数据还是源源不断地产生。各种基于互联网的平台都成为了数据的重要来源。因此,迫切需要更加智能高效的算法来帮助人们从海量数据中快速找到真正需要的那部分信息。
信息抽取研究在这种大数据背景下应运而生,关系抽取作为信息抽取的一项重要子任务,其旨在识别出文本中主体和客体之间的语义关系。比如,“乔布斯创办了苹果公司。”,这里的主体乔布斯和客体苹果公司之间就有创办和被创办的语义关系。这些关系事实也是一种有价值的信息,能为许多其他应用提供参考帮助,因而得到了广泛的关注。要识别主客体之间的语义关系,需要模型对文本语义有准确的理解,而建模文本的内在结构有助于模型理解正确的语义。由于文本的句法结构绝大多数情况下是通过句法分析解析器自动生成的,这类结构知识中蕴含了大量的噪声,特别是引入反映更生动上下文句法信息的依存类型来引导当前最流行的数据和知识双驱动的神经模型,更容易产生语义的混淆。此外,研究提出图神经网络以更好地适配结构知识这类图数据,而仍然没有解决句法结构中保留多少信息用于关系抽取这一项具有挑战性的问题。
在发明专利“融合BERT网络与位置特征信息的实体关系抽取方法及其应用”(专利申请号:202210791774.5)中提出了一种融合BERT网络与位置特征信息进行实体关系抽取的方法,该方法先利用BERT模型在文本上进行预训练,然后在下游任务上加入Bi-LSTM做微调。其次,在注意力机制的基础上添加局部位置特征,选择性地关注某些信息。最后实现实体关系的预测。但由于自然语言的复杂性,建模非结构化文本的内在结构以理解文本语义是很有必要的。仅建模局部位置特征来隐式地捕获目标词相关信息是不充分的,除了与目标词直接相关的关联结构外,与非目标词相关的关联结构也间接提供了有助于识别目标实体之间语义关系的信息。此外,局部文本结构还造成了语义混淆和模式丢失。建模全局文本结构引导模型理解关系语义以解决这一问题是亟需的。
发明内容
为了改善现有技术中存在的不足,提供一种基于上下文依存感知图卷积网络抽取实体关系的方法,本方案提出与当前词相关的全局相对位置知识结构和结构感知模块,增加了合理句法结构的承载内容,并权衡了依存句法和全局位置两种结构在内的多种知识捕获文本中词对间的细粒度结构交互,且基于提出的上下文依存感知图卷积网络,对文本进行知识增强,以及构建高质量的语言表示进行关系抽取,解决了现有信息提取技术过于依赖句法解析、易出现语义混淆和模式丢失的问题。
为实现上述目的,本发明采用的技术方案如下:
本发明提供一种基于上下文依存感知图卷积网络抽取实体关系的方法,包括如下步骤:
S1、预处理输入文本,得到主客体标记后的文本、依存类型矩阵D、全局相对位置矩阵P和依存连接矩阵A;
S2、利用序列模型BERT学习主客体标记后的文本,得到文本的词级表示和句级表示hsentence
S3、基于结构模型DAGCN、词级表示、依存类型矩阵D、全局相对位置矩阵P和依存连接矩阵A对文本结构建模,得到具有分布式表示的词级向量h(l)′
S4、利用BERT和DAGCN联合抽取关系模型、句级表示hsentence和具有分布式表示的词级向量h(l)′,得到实体关系类型
本发明的有益效果为:本发明提供的一种基于上下文依存感知图卷积网络抽取实体关系的方法,通过构建非文本的内在图结构进行关系抽取,从多视角建模文本图结构以充开发文本中的潜在信息,并基于序列模型BERT、结构模型DAGCN以及BERT和DAGCN联合抽取关系模型,有效地弥补了启发式生成的依存句法结构存在的噪声问题,同时增加了合理依存句法结构的承载内容,在不需要额外引入外部资源的情况下,有利于长文本结构建模并提取实体关系;本发明中的BERT和DAGCN联合抽取关系模型实现获取对当前词的全局相对位置知识,并通过不同方式将结构知识注入文本图中的节点和边中以实现全局增强文本结构建模,并防止了不合理句法结构引起的文本结构混淆。
进一步地,所述步骤S1包括如下步骤:
S11、分别在输入文本的主实体前后插入第一主实体标记<e1>和第二主实体标记<\e1>,并分别在输入文本的客实体前后插入第一客实体标记<e2>和第二客实体标记<\e2>,得到主客实体标记后的文本;
S12、分别在输入文本的前后插入文本头标记[CLS]和文本尾标记[SEP],得到头尾标记后的文本;
S13、利用句法解析器解析主客体标记后的文本,得到原始依存树;
S14、基于原始依存树,分别得到依存连接矩阵A和依存类型矩阵D;
S15、基于主客体标记后的文本和头尾标记后的文本中各词对的相对位置关系,得到全局相对位置矩阵P。
采用上述进一步方案的有益效果为:通过对输入文本进行标记定位处理,有效避免了主实体和客实体语义在训练过程中出现损失,并预先通过句法解析器为每一条文本数据生成其对应的原始依存树,以及对输入文本中每个词对的相对位置关系构建完备的相对位置知识,在无需额外消耗外部资源的情况下,弥补了单一带噪依存信息对文本结构的不充分建模。
进一步地,所述序列模型BERT包括M个依次连接的Transformer编码器;
各所述Transformer编码器均分别包括多头自注意力层和位置前馈层;所述多头自注意力层的输入端与输出端间构成残差连接,并对残差连接结果进行层标准化处理后输出至位置前馈层;所述位置前馈层的输入端与输出端间构成残差连接,并对残差连接结果进行层标准化处理后输出至结构模型DAGCN。
采用上述进一步方案的有益效果为:序列模型BERT通过多头自注意力层关注不同向量表示子空间中的信息来计算词对间的相关性,并根据相关性权重对词级表示进行数据融合,再通过位置前馈层对融合后的向量表示做进一步的特征提取,还采用残差连接和层标准化优化,最终得到文本向量表示。
进一步地,所述步骤S2包括如下步骤:
S21、基于主客体标记后的文本,得到词片id序列:
WordPiece_id_sequence={wp1,wp2,...,wpmax_length}
其中,WordPiece_id_sequence表示词片id序列,wp1表示词片序列的第1位,wp2表示词片序列的第2位,wpmax_length表示词片序列的最末位;
S22、利用序列模型BERT将词片id序列映射成对应的词片向量h;
S23、根据词片向量h计算得到查询Q、键K和值V:
Q,K,V=hWQ,hWK,hWV
其中,WQ表示查询学习矩阵,WK表示键学习矩阵,WV表示值学习矩阵;
S24、利用序列模型BERT中的多头自注意力层基于查询Q、键K和值V进行相关性计算、数据融合和优化,得到第一优化词片向量h′:
h′=Layer_Norm(h+Multihead(Q,K,V))
其中,Layer_Norm表示层归一化,Multihead表示多头自注意力处理;
S25、利用序列模型BERT中位置前馈层基于第一优化词片向量h′进行特征提取和优化,得到第二优化词片向量h″:
h″=Layer_Norm(h′+FFNN(h′))
FFNN(h′)=ReLU(h′W1+b1)W2+b2
其中,FFNN表示位置前馈处理,ReLU表示线性整流函数,W1和W2分别表示序列模型BERT中的第一学习参数矩阵和第二学习参数矩阵,b1和b2分别表示序列模型BERT中的第一偏置向量和第二偏置向量;
S26、判断当前Transformer编码器是否为序列模型BERT的第M个Transformer编码器,若是则进入步骤S27,否则进入步骤S28;
S27、将第二优化词片向量h″作为序列模型BERT的下一Transformer编码器的输入词片向量h,并返回标准S23;
S28、基于第M个Transformer编码器输出的第二优化词片向量h″,得到文本的词级表示和句级表示hsentence,其中,M表示序列模型BERT中Transformer编码器的总数。
采用上述进一步方案的有益效果为:提供序列模型BERT学习主客体标记后的文本,得到文本的词级表示和句级表示hsentence的方法,为结构模型DAGCN利用词级表示增强文本结构建模和基于句级表示hsentence实现联合抽取关系模型提供基础。
进一步地,所述结构模型DAGCN包括N个依次连接的DAGCN模块;
各所述DAGCN模块均包括依存感知层和与依存感知层连接的依存引导层;所述依存感知层的输入端作为DAGCN模块的输入端;所述依存引导层的输出端作为DAGCN模块的输出端。
采用上述进一步方案的有益效果为:结构模型DAGCN实现了增强文本结构的建模,其利用依存感知层将不同的结构知识各自向量表示空间中对应的嵌入向量通过空间算子映射到了一个新空间中,构建了高阶的结构表示,并基于该结构表示以端到端的方式感知细粒度的词级交互强度,并利用依存引导层将不同结构知识各自向量表示空间中的相应嵌入向量,通过两个线性变换映射到满足向量加法运算封闭的词嵌入空间中,再基于向量加法运算对词节点进行知识增强,本发明中的依存引导层基于依存感知层的词级交互强度是以不改变原始依存树拓扑结构的方式对词节点信息进行聚合,计算得到多知识引导的词级向量。
进一步地,所述步骤S3包括如下步骤:
S31、基于有效词片id序列过滤文本的词级表示,得到有效的词级向量表示h(l),其中,l=0,1,2…,N-1,N表示DAGCN模型中DAGCN模块的总数;
所述有效词片id序列的计算表达式如下;
Valid_WordPiece_id_sequence={v1,v2,...,vmax}
其中,Valid_WordPiece_id_sequence表示有效词片id序列,v1表示有效词片id序列的第1位,v2表示有效词片id序列的第2位,vmax表示有效词片id序列的最末位;
S32、基于依存类型矩阵D将词节点i与词节点j之间的依存类型分别映射至对应的嵌入向量,得到第一依存类型嵌入向量和第二依存类型嵌入向量/>
S33、基于全局相对位置矩阵P将词节点i与词节点j之间的位置类型分别映射至对应的嵌入向量,得到第一位置类型嵌入向量和第二位置类型嵌入向量/>
S34、基于第一依存类型嵌入向量第一位置类型嵌入向量/>第二依存类型嵌入向量/>和第二位置类型嵌入向量/>构建词节点i与词节点j之间的细粒度结构:
其中,表示第l个DAGCN模块中词节点i的向量表示/>经过边感知增强后的向量表示,/>表示第l个DAGCN模块中词节点j的向量表示/>经过边感知增强后的向量表示,表示第l-1个DAGCN模块中词节点i的向量表示,/>表示第l-1个DAGCN模块中词节点j的向量表示,||表示向量的拼接升维运算;
S35、利用结构模型DAGCN的依存感知层,并基于词节点i与词节点j之间的细粒度结构、依存连接矩阵A和隐式交互矩阵R(l),计算得到词节点i与词节点j之间的结构交互强度
其中,Aij表示词节点i到词节点j在依存连接矩阵A中对应的元素,df表示词片向量h的维度,Aik表示词节点i到词节点k的依存连接数量,表示第l个DAGCN模块中第k个词向量/>经边感知增强后的向量表示,n′表示DAGCN模块中词向量的总数;
S36、基于第二依存类型嵌入向量和第二位置类型嵌入向量/>对词节点j进行知识增强,得到知识增强后的词节点j:
其中,表示第l-1个DAGCN模块中词节点j的向量/>表示经过节点结构知识增强后的向量表示,W1 (l)和/>分别表示第l个DAGCN模块中的第一学习参数矩阵和第二学习参数矩阵;
S37、利用结构模型DAGCN中的依存引导层,并根据结构交互强度和知识增强后的词节点j聚合得到词节点i的领域信息,得到聚合领域信息后的词节点i:
其中,表示第l个DAGCN模块中聚合领域信息后的第i个词向量,n表示词节点的总数,W(l)表示第l个DAGCN模块中学习参数矩阵,b(l)表示第l个DAGCN模块中的偏置向量;
S38、基于聚合领域信息后的词节点i,得到当前DAGCN模块中具有分布式表示的词级向量;
S39、判断当前DAGCN模块是否为结构模型DAGCN的第N个DAGCN模块,若是则将当前DAGCN模块中具有分布式表示的词级向量作为DAGCN模块的词级向量h(l)′,否则将当前DAGCN模块中具有分布式表示的词级向量作为下一DAGCN模块的有效的词级向量表示h(l),并返回步骤S32。
采用上述进一步方案的有益效果为:提供通过结构模型DAGCN增强文本结构的具体方法,通过结构模型DAGCN得到的词级向量h(l)′和序列模型BERT得到的句级表示hsentence能够为BERT和DAGCN联合抽取关系模块进行关系抽取提供基础。
进一步地,所述BERT和DAGCN联合抽取关系模型包括:
实体掩码池化运算层,用于对结构模型DAGCN输出的词级向量h(l)′进行实体掩码池化运算,得到主体实体向量和客体实体向量;
向量拼接层,用于将句级表示hsentence、主体实体向量和客体实体向量拼接,得到关系表示;
前馈神经网络,用于将关系表示映射到关系决策空间,并计算得到各类关系类型的概率p;
分类器,用于选取各类关系类型的概率p中概率最大的关系类型,得到实体关系类型
采用上述进一步方案的有益效果为:BERT和DAGCN联合抽取关系模块,利用实体掩码池化运算层根据结构模型DAGCN输出的词级向量h(l)′抽取得到主实体和客实体分别对应的词向量,并将词向量与序列模型BERT输出的句级表示hsentence通过向量拼接层进行组合且构建高阶语言表示,利用前馈神经网络将高阶语言表示映射至关系决策空间并输入逻辑回归分类器进行关系预测,从而实现了更准确的识别主客实体之间的关系语义。
进一步地,所述步骤S4包括如下步骤:
S41、基于主实体掩码id序列和客实体掩码id序列对具有分布式表示的词级向量h(l)′进行最大池化运算,分别得到主体实体向量和客体实体向量:
其中,和/>分别表示主体实体向量和客体实体向量,MaxPooling表示最大池化操作,subject_mask_id_sequence表示主实体掩码id序列,object_mask_id_sequence表示客实体掩码id序列,/>表示主实体掩码id序列的第n位,/>表示客实体掩码id序列的第n位;
S42、基于句级表示hsentence、主体实体向量和客体实体向量构建关系表示:
其中,||表示向量的拼接升维运算;
S43、利用BERT和DAGCN联合抽取关系模块中的前馈神经网络将关系表示映射到关系决策空间,并计算得到各类关系类型的概率p:
p=Softmax(FFNN(r))
其中,Softmax表示Softmax回归,FFNN表示位置前馈处理;
S44、利用BERT和DAGCN联合抽取关系模块的分类器选取各类关系类型的概率p中概率最大的关系类型,得到实体关系类型
其中,Argmax表示取各类关系类型概率最大时的输入值。
采用上述进一步方案的有益效果为:提供BERT和DAGCN联合抽取关系模型进行关系预测得到实体关系类型的具体方法,经过原始输入文本及其对应生成数据的标准化处理,文本及文本词向量表示的计算,结构知识的注入与驱动,高阶语言特征的构建以及语言关系的识别,本发明最终基于高质量的语言表示得到实体关系类型。
针对于本发明还具有的其他优势将在后续的实施例中进行更细致的分析。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明中一种基于上下文依存感知图卷积网络抽取实体关系的方法的步骤流程图。
图2为本发明中上下文依存感知图卷积网络的结构图。
图3为本发明中结构模型DAGCN的细节示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
CW-GRPK:Global Relative Position Knowledge associated with theCurrent Word,表示与当前词相关的全局相对位置知识。
DAGCN:Dependency-aware Graph Convolutuinal Network,表示依存感知图卷积网络。
C-DAGCN:Contextual Dependency-aware Graph Convolutuinal Network,表示上下文依存感知图卷积网络。
如图1所示,在本发明的一个实施例中,本发明提供一种基于上下文依存感知图卷积网络抽取实体关系的方法,包括如下步骤:
S1、预处理输入文本,得到主客体标记后的文本、依存类型矩阵D、全局相对位置矩阵P和依存连接矩阵A;
所述步骤S1包括如下步骤:
S11、分别在输入文本的主实体前后插入第一主实体标记<e1>和第二主实体标记<\e1>,并分别在输入文本的客实体前后插入第一客实体标记<e2>和第二客实体标记<\e2>,得到主客实体标记后的文本;
S12、分别在输入文本的前后插入文本头标记[CLS]和文本尾标记[SEP],得到头尾标记后的文本;
S13、利用句法解析器解析主客体标记后的文本,得到原始依存树;
S14、基于原始依存树,分别得到依存连接矩阵A和依存类型矩阵D;
目前,基于依存的模型绝大多数是使用句法解析器自动生成的依存树,这类依存树中存在大量噪声,为了更充分地使用依存树中的句法结构信息,一些模型还引入了与依存连接相关联的依存类型,以提供更生动的上下文句法结构信息引导模型进行关系抽取,但基于这类依存树驱动模型所理解的语义和真实的语义之间存在较大偏差,不利于识别主客体之间的语义关系,且模型性能过于依赖句法解析的质量;
本发明通过斯坦福CoreNLP句法分析工具对输入文本进行分析,得到文本中所有词对之间的依存连接和依存类型,然后构建依存连接矩阵A和依存类型矩阵D将句法分析结果填充进矩阵中;
S15、基于主客体标记后的文本和头尾标记后的文本中各词对的相对位置关系,得到全局相对位置矩阵P;在无需额外外部资源的情况下,本发明对输入文本进行句长分析,并基于分析结果构建全局相对位置矩阵P。
上述步骤S11-S15于数据预处理模块中实现;
如图2所示,本实施例中提供由数据预处理模块、序列模型BERT、结构模型DAGCN以及BERT和DAGCN联合抽取关系模型构成的上下文依存感知图卷积网络C-DAGCN,以实现对文本知识增强和对构建的高质量的语言表示进行关系抽取;
预处理输入文本过程中对某一输入文本进行前后插入文本头标记[CLS]和文本尾标记[SEP]的示例为:[CLS]The stories are narrated through dance.[SEP],故事通过舞蹈讲述,此输入文本存在det、case、auxpass、nsubjpass、nmod、punct这6种反映了词之间成分关系的依存类型,其中,case表示案例,即”through”通过”dance”途径来完成某个行为,punct是punctuation的缩写,表示标点符号,即依存树根指向的narrated又指向文本结尾符号”.”,auxpass是passive auxiliary的缩写,表示被动词,即”are”用于”narrated”的被动表示,nmod是noun compoundmodifier的缩写,表示复合名词修饰,即”narrated”修饰”dance”,nsubjpass是pasive nominal subject的缩写,表示被动的名词主语,即实体”stories”被施予了”narrated”这么一个行为;通过对每个词的相对位置关系构建完备的相对位置知识弥补了单一带噪依存信息对文本信息的不充分建模;
S2、利用序列模型BERT学习主客体标记后的文本,得到文本的词级表示和句级表示hsentence
所述序列模型BERT包括M个依次连接的Transformer编码器;
各所述Transformer编码器均分别包括多头自注意力层和位置前馈层;所述多头自注意力层的输入端与输出端间构成残差连接,并对残差连接结果进行层标准化处理后输出至位置前馈层;所述位置前馈层的输入端与输出端间构成残差连接,并对残差连接结果进行层标准化处理后输出至结构模型DAGCN;
所述步骤S2包括如下步骤:
S21、基于主客体标记后的文本,得到词片id序列:
WordPiece_id_sequence={wp1,wp2,...,wpmax_length}
其中,WordPiece_id_sequence表示词片id序列,wp1表示词片序列的第1位,wp2表示词片序列的第2位,wpmax_length表示词片序列的最末位;
S22、利用序列模型BERT将词片id序列映射成对应的词片向量h;
S23、根据词片向量h计算得到查询Q、键K和值V:
Q,K,V=hWQ,hWK,hWV
其中,WQ表示查询学习矩阵,WK表示键学习矩阵,WV表示值学习矩阵;
S24、利用序列模型BERT中的多头自注意力层基于查询Q、键K和值V进行相关性计算、数据融合和优化,得到第一优化词片向量h′:
h′=Layer_Norm(h+Multihead(Q,K,V))
其中,Layer_Norm表示层归一化,Multihead表示多头自注意力处理;
S25、利用序列模型BERT中位置前馈层基于第一优化词片向量h′进行特征提取和优化,得到第二优化词片向量h″:
h″=Layer_Norm(h′+FFNN(h′))
FFNN(h′)=ReLU(h′W1+b1)W2+b2
其中,FFNN表示位置前馈处理,ReLU表示线性整流函数,W1和W2分别表示序列模型BERT中的第一学习参数矩阵和第二学习参数矩阵,b1和b2分别表示序列模型BERT中的第一偏置向量和第二偏置向量;
S26、判断当前Transformer编码器是否为序列模型BERT的第M个Transformer编码器,若是则进入步骤S27,否则进入步骤S28;
S27、将第二优化词片向量h″作为序列模型BERT的下一Transformer编码器的输入词片向量h,并返回标准S23;
S28、基于第M个Transformer编码器输出的第二优化词片向量h″,得到文本的词级表示和句级表示hsentence,其中,M表示序列模型BERT中Transformer编码器的总数;
S3、基于结构模型DAGCN、词级表示、依存类型矩阵D、全局相对位置矩阵P和依存连接矩阵A对文本结构建模,得到具有分布式表示的词级向量h(l)′
如图3所示,所述结构模型DAGCN包括N个依次连接的DAGCN模块;
各所述DAGCN模块均包括依存感知层和与依存感知层连接的依存引导层;所述依存感知层的输入端作为DAGCN模块的输入端;所述依存引导层的输出端作为DAGCN模块的输出端;
所述步骤S3包括如下步骤:
S31、基于有效词片id序列过滤文本的词级表示,得到有效的词级向量表示h(l),其中,l=0,1,2…,N-1,N表示DAGCN模型中DAGCN模块的总数;
所述有效词片id序列的计算表达式如下;
Valid_WordPiece_id_sequence={v1,v2,...,vmax}
其中,Valid_WordPiece_id_sequence表示有效词片id序列,v1表示有效词片id序列的第1位,v2表示有效词片id序列的第2位,vmax表示有效词片id序列的最末位;
S32、基于依存类型矩阵Dn×n将词节点i与词节点j之间的依存类型分别映射至对应的嵌入向量,得到第一依存类型嵌入向量和第二依存类型嵌入向量/>
S33、基于全局相对位置矩阵Pn×n将词节点i与词节点j之间的位置类型分别映射至对应的嵌入向量,得到第一位置类型嵌入向量和第二位置类型嵌入向量/>
S34、基于第一依存类型嵌入向量第一位置类型嵌入向量/>第二依存类型嵌入向量/>和第二位置类型嵌入向量/>构建词节点i与词节点j之间的细粒度结构:
其中,表示第l个DAGCN模块中词节点i的向量表示/>经过边感知增强后的向量表示,/>表示第l个DAGCN模块中词节点j的向量表示/>经过边感知增强后的向量表示,表示第l-1个DAGCN模块中词节点i的向量表示,/>表示第l-1个DAGCN模块中词节点j的向量表示,||表示向量的拼接升维运算;
词节点i在第l-1个DANGCN模块中的向量表示与结构知识的向量表示/>拼接升维得到/>实现知识增强,/>的知识增强过程与/>类似,接下来,/>和/>通过注意力机制从更多维度感知词节点i和词节点j之间的结构交互强度,此处的结构交互强度相当于文本图中的边,即通过步骤S34实现了对词节点的边感知增强;
S35、利用结构模型DAGCN的依存感知层,并基于词节点i与词节点j之间的细粒度结构、依存连接矩阵A和隐式交互矩阵R(l),计算得到词节点i与词节点j之间的结构交互强度
其中,Aij表示词节点i到词节点j在依存连接矩阵A中对应的元素,df表示词片向量h的维度,Aik表示词节点i到词节点k的依存连接数量,表示第l个DAGCN模块中第k个词向量/>经边感知增强后的向量表示,n′表示DAGCN模块中词向量的总数;
S36、基于第二依存类型嵌入向量和第二位置类型嵌入向量/>对词节点j进行知识增强,得到知识增强后的词节点j:
其中,表示第l-1个DAGCN模块中词节点j的向量/>表示经过节点结构知识增强后的向量表示,W1 (l)和/>分别表示第l个DAGCN模块中的第一学习参数矩阵和第二学习参数矩阵;
将结构知识,即第二依存类型嵌入向量和第二位置类型嵌入向量/>分别映射到词节点j的向量表示/>所在的空间中,再进行该空间下的向量加法运算来融合两类结构知识,实现对词节点的节点结构知识增强;
S37、利用结构模型DAGCN中的依存引导层,并根据结构交互强度和知识增强后的词节点j聚合得到词节点i的领域信息,得到聚合领域信息后的词节点i:
其中,表示第l个DAGCN模块中聚合领域信息后的第i个词向量,n表示词节点的总数,W(l)表示第l个DAGCN模块中学习参数矩阵,b(l)表示第l个DAGCN模块中的偏置向量;
S38、基于聚合领域信息后的词节点i,得到当前DAGCN模块中具有分布式表示的词级向量;
S39、判断当前DAGCN模块是否为结构模型DAGCN的第N个DAGCN模块,若是则将当前DAGCN模块中具有分布式表示的词级向量作为DAGCN模块的词级向量h(l)′,否则将当前DAGCN模块中具有分布式表示的词级向量作为下一DAGCN模块的有效的词级向量表示h(l),并返回步骤S32;
结构模型DAGCN通过结构感知实现权衡相对位置知识和依存信息计算文本中每个词对之间的隐式交互强度,同时通过依存引导增强文本中词节点建模,基于知识增强后的节点和边编码文本局部结构的多样性,实现引导模型理解文本语义;
S4、利用BERT和DAGCN联合抽取关系模型、句级表示hsentence和具有分布式表示的词级向量h(l)′,得到实体关系类型
所述BERT和DAGCN联合抽取关系模型包括:
实体掩码池化运算层,用于对结构模型DAGCN输出的词级向量h(l)′进行实体掩码池化运算,得到主体实体向量和客体实体向量;
向量拼接层,用于将句级表示hsentence、主体实体向量和客体实体向量拼接,得到关系表示;
前馈神经网络,用于将关系表示映射到关系决策空间,并计算得到各类关系类型的概率p;
分类器,用于选取各类关系类型的概率p中概率最大的关系类型,得到实体关系类型
所述步骤S4包括如下步骤:
S41、基于主实体掩码id序列和客实体掩码id序列对具有分布式表示的词级向量h(l)′进行最大池化运算,分别得到主体实体向量和客体实体向量:
其中,和/>分别表示主体实体向量和客体实体向量,MaxPooling表示最大池化操作,subject_mask_id_sequence表示主实体掩码id序列,object_mask_id_sequence表示客实体掩码id序列,/>表示主实体掩码id序列的第n位,/>表示客实体掩码id序列的第n位;
S42、基于句级表示hsentence、主体实体向量和客体实体向量构建关系表示:
其中,||表示向量的拼接升维运算;
S43、利用BERT和DAGCN联合抽取关系模块中的前馈神经网络将关系表示映射到关系决策空间,并计算得到各类关系类型的概率p:
p=Softmax(FFNN(r))
其中,Softmax表示Softmax回归,FFNN表示位置前馈处理;
S44、利用BERT和DAGCN联合抽取关系模块的分类器选取各类关系类型的概率p中概率最大的关系类型,得到实体关系类型
/>
其中,Argmax表示取各类关系类型概率最大时的输入值。
本发明通过构建非文本的内在结构进行关系抽取,并进一步考虑从多视角建模文本图结构以充分开发文本中的潜在信息,本发明提出的CW-GPRK有效弥补了启发式生成的依存句法结构存在的噪声问题,也增加了合理依存句法结构的承载内容,并且不需要引入额外的外部资源,有利于长文本结构建模,本发明提出的C-DAGCN模型能够极佳地适配结构知识的内在模式,而结构引导在CW-GPRK的支撑下能工作在更大的文本图上,这使得模型能从大图中捕获更多的潜在的图信息,同时也创造了低噪环境以更好地引导模型理解正确的文本语义,从而更准确第识别主实体和客实体间的关系语义;此外,本发明对于推动知识图谱的发展有一定的帮助,具有高研究与应用价值。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于上下文依存感知图卷积网络抽取实体关系的方法,其特征在于,包括如下步骤:
S1、预处理输入文本,得到主客体标记后的文本、依存类型矩阵D、全局相对位置矩阵P和依存连接矩阵A;
S2、利用序列模型BERT学习主客体标记后的文本,得到文本的词级表示和句级表示hsentence
S3、基于结构模型DAGCN、词级表示、依存类型矩阵D、全局相对位置矩阵P和依存连接矩阵A对文本结构建模,得到具有分布式表示的词级向量h(l)′
S4、利用BERT和DAGCN联合抽取关系模型、句级表示hsentence和具有分布式表示的词级向量h(l)′,得到实体关系类型
2.根据权利要求1所述的基于上下文依存感知图卷积网络抽取实体关系的方法,其特征在于,所述步骤S1包括如下步骤:
S11、分别在输入文本的主实体前后插入第一主实体标记<e1>和第二主实体标记<\e1>,并分别在输入文本的客实体前后插入第一客实体标记<e2>和第二客实体标记<\e2>,得到主客实体标记后的文本;
S12、分别在输入文本的前后插入文本头标记[CLS]和文本尾标记[SEP],得到头尾标记后的文本;
S13、利用句法解析器解析主客体标记后的文本,得到原始依存树;
S14、基于原始依存树,分别得到依存连接矩阵A和依存类型矩阵D;
S15、基于主客体标记后的文本和头尾标记后的文本中各词对的相对位置关系,得到全局相对位置矩阵P。
3.根据权利要求1所述的基于上下文依存感知图卷积网络抽取实体关系的方法,其特征在于,所述序列模型BERT包括M个依次连接的Transformer编码器;
各所述Transformer编码器均分别包括多头自注意力层和位置前馈层;所述多头自注意力层的输入端与输出端间构成残差连接,并对残差连接结果进行层标准化处理后输出至位置前馈层;所述位置前馈层的输入端与输出端间构成残差连接,并对残差连接结果进行层标准化处理后输出至结构模型DAGCN。
4.根据权利要求3所述的基于上下文依存感知图卷积网络抽取实体关系的方法,其特征在于,所述步骤S2包括如下步骤:
S21、基于主客体标记后的文本,得到词片id序列:
WordPiece_id_sequence={wp1,wp2,...,wpmax_length}
其中,WordPiece_id_sequence表示词片id序列,wp1表示词片序列的第1位,wp2表示词片序列的第2位,wpmax_length表示词片序列的最末位;
S22、利用序列模型BERT将词片id序列映射成对应的词片向量h;
S23、根据词片向量h计算得到查询Q、键K和值V:
Q,K,V=hWQ,hWK,hWV
其中,WQ表示查询学习矩阵,WK表示键学习矩阵,WV表示值学习矩阵;
S24、利用序列模型BERT中的多头自注意力层基于查询Q、键K和值V进行相关性计算、数据融合和优化,得到第一优化词片向量h′:
h′=Layer_Norm(h+Multihead(Q,K,V))
其中,Layer_Norm表示层归一化,Multihead表示多头自注意力处理;
S25、利用序列模型BERT中位置前馈层基于第一优化词片向量h′进行特征提取和优化,得到第二优化词片向量h″:
h″=Layer_Norm(h′+FFNN(h′))
FFNN(h′)=ReLU(h′W1+b1)W2+b2
其中,FFNN表示位置前馈处理,ReLU表示线性整流函数,W1和W2分别表示序列模型BERT中的第一学习参数矩阵和第二学习参数矩阵,b1和b2分别表示序列模型BERT中的第一偏置向量和第二偏置向量;
S26、判断当前Transformer编码器是否为序列模型BERT的第M个Transformer编码器,若是则进入步骤S27,否则进入步骤S28;
S27、将第二优化词片向量h″作为序列模型BERT的下一Transformer编码器的输入词片向量h,并返回标准S23;
S28、基于第M个Transformer编码器输出的第二优化词片向量h″,得到文本的词级表示和句级表示hsentence,其中,M表示序列模型BERT中Transformer编码器的总数。
5.根据权利要求1所述的基于上下文依存感知图卷积网络抽取实体关系的方法,其特征在于,所述结构模型DAGCN包括N个依次连接的DAGCN模块;
各所述DAGCN模块均包括依存感知层和与依存感知层连接的依存引导层;所述依存感知层的输入端作为DAGCN模块的输入端;所述依存引导层的输出端作为DAGCN模块的输出端。
6.根据权利要求5所述的基于上下文依存感知图卷积网络抽取实体关系的方法,其特征在于,所述步骤S3包括如下步骤:
S31、基于有效词片id序列过滤文本的词级表示,得到有效的词级向量表示h(l),其中,l=0,1,2…,N-1,N表示DAGCN模型中DAGCN模块的总数;
所述有效词片id序列的计算表达式如下;
Valid_WordPiece_id_sequence={v1,v2,...,vmax}
其中,Valid_WordPiece_id_sequence表示有效词片id序列,v1表示有效词片id序列的第1位,v2表示有效词片id序列的第2位,vmax表示有效词片id序列的最末位;
S32、基于依存类型矩阵D将词节点i与词节点j之间的依存类型分别映射至对应的嵌入向量,得到第一依存类型嵌入向量和第二依存类型嵌入向量/>
S33、基于全局相对位置矩阵P将词节点i与词节点j之间的位置类型分别映射至对应的嵌入向量,得到第一位置类型嵌入向量和第二位置类型嵌入向量/>
S34、基于第一依存类型嵌入向量第一位置类型嵌入向量/>第二依存类型嵌入向量/>和第二位置类型嵌入向量/>构建词节点i与词节点j之间的细粒度结构:
其中,表示第l个DAGCN模块中词节点i的向量表示/>经过边感知增强后的向量表示,/>表示第l个DAGCN模块中词节点j的向量表示/>经过边感知增强后的向量表示,/>表示第l-1个DAGCN模块中词节点i的向量表示,/>表示第l-1个DAGCN模块中词节点j的向量表示,||表示向量的拼接升维运算;
S35、利用结构模型DAGCN的依存感知层,并基于词节点i与词节点j之间的细粒度结构、依存连接矩阵A和隐式交互矩阵R(l),计算得到词节点i与词节点j之间的结构交互强度
其中,Aij表示词节点i到词节点j在依存连接矩阵A中对应的元素,df表示词片向量h的维度,Aik表示词节点i到词节点k的依存连接数量,表示第l个DAGCN模块中第k个词向量经边感知增强后的向量表示,n′表示DAGCN模块中词向量的总数;
S36、基于第二依存类型嵌入向量和第二位置类型嵌入向量/>对词节点j进行知识增强,得到知识增强后的词节点j:
其中,表示第l-1个DAGCN模块中词节点j的向量/>表示经过节点结构知识增强后的向量表示,W1 (l)和/>分别表示第l个DAGCN模块中的第一学习参数矩阵和第二学习参数矩阵;
S37、利用结构模型DAGCN中的依存引导层,并根据结构交互强度和知识增强后的词节点j聚合得到词节点i的领域信息,得到聚合领域信息后的词节点i:
其中,表示第l个DAGCN模块中聚合领域信息后的第i个词向量,n表示词节点的总数,W(l)表示第l个DAGCN模块中学习参数矩阵,b(l)表示第l个DAGCN模块中的偏置向量;
S38、基于聚合领域信息后的词节点i,得到当前DAGCN模块中具有分布式表示的词级向量;
S39、判断当前DAGCN模块是否为结构模型DAGCN的第N个DAGCN模块,若是则将当前DAGCN模块中具有分布式表示的词级向量作为DAGCN模块的词级向量h(l)′,否则将当前DAGCN模块中具有分布式表示的词级向量作为下一DAGCN模块的有效的词级向量表示h(l),并返回步骤S32。
7.根据权利要求1所述的基于上下文依存感知图卷积网络抽取实体关系的方法,其特征在于,所述BERT和DAGCN联合抽取关系模型包括:
实体掩码池化运算层,用于对结构模型DAGCN输出的词级向量h(l)′进行实体掩码池化运算,得到主体实体向量和客体实体向量;
向量拼接层,用于将句级表示hsentence、主体实体向量和客体实体向量拼接,得到关系表示;
前馈神经网络,用于将关系表示映射到关系决策空间,并计算得到各类关系类型的概率p;
分类器,用于选取各类关系类型的概率p中概率最大的关系类型,得到实体关系类型
8.根据权利要求7所述的基于上下文依存感知图卷积网络抽取实体关系的方法,其特征在于,所述步骤S4包括如下步骤:
S41、基于主实体掩码id序列和客实体掩码id序列对具有分布式表示的词级向量h(l)′进行最大池化运算,分别得到主体实体向量和客体实体向量:
其中,和/>分别表示主体实体向量和客体实体向量,MaxPooling表示最大池化操作,subject_mask_id_sequence表示主实体掩码id序列,object_mask_id_sequence表示客实体掩码id序列,/>表示主实体掩码id序列的第n位,/>表示客实体掩码id序列的第n位;
S42、基于句级表示hsentence、主体实体向量和客体实体向量构建关系表示:
其中,||表示向量的拼接升维运算;
S43、利用BERT和DAGCN联合抽取关系模块中的前馈神经网络将关系表示映射到关系决策空间,并计算得到各类关系类型的概率p:
p=Softmax(FFNN(r))
其中,Softmax表示Softmax回归,FFNN表示位置前馈处理;
S44、利用BERT和DAGCN联合抽取关系模块的分类器选取各类关系类型的概率p中概率最大的关系类型,得到实体关系类型
其中,Argmax表示取各类关系类型概率最大时的输入值。
CN202310869966.8A 2023-07-14 2023-07-14 一种基于上下文依存感知图卷积网络抽取实体关系的方法 Pending CN116992881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310869966.8A CN116992881A (zh) 2023-07-14 2023-07-14 一种基于上下文依存感知图卷积网络抽取实体关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310869966.8A CN116992881A (zh) 2023-07-14 2023-07-14 一种基于上下文依存感知图卷积网络抽取实体关系的方法

Publications (1)

Publication Number Publication Date
CN116992881A true CN116992881A (zh) 2023-11-03

Family

ID=88529321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310869966.8A Pending CN116992881A (zh) 2023-07-14 2023-07-14 一种基于上下文依存感知图卷积网络抽取实体关系的方法

Country Status (1)

Country Link
CN (1) CN116992881A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118036577A (zh) * 2024-04-11 2024-05-14 一百分信息技术有限公司 一种自然语言处理中的序列标注方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118036577A (zh) * 2024-04-11 2024-05-14 一百分信息技术有限公司 一种自然语言处理中的序列标注方法

Similar Documents

Publication Publication Date Title
CN113641820B (zh) 基于图卷积神经网络的视角级文本情感分类方法及系统
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN114722839B (zh) 人机协同对话交互系统及方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113535917A (zh) 基于旅游知识图谱的智能问答方法及系统
CN111831789A (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
US11907665B2 (en) Method and system for processing user inputs using natural language processing
CN110210036A (zh) 一种意图识别方法及装置
EP4364044A1 (en) Automated troubleshooter
CN113159969B (zh) 一种金融长文本复核系统
CN116992881A (zh) 一种基于上下文依存感知图卷积网络抽取实体关系的方法
CN116628186B (zh) 文本摘要生成方法及系统
KR20210088463A (ko) 다중 라운드 대화 검색 방법, 장치, 저장매체 및 전자기기
CN115115984A (zh) 视频数据处理方法、装置、程序产品、计算机设备和介质
CN112784573B (zh) 文本情感内容分析方法、装置、设备及存储介质
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CN117093864A (zh) 文本生成模型训练方法以及装置
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN110717316A (zh) 字幕对话流的主题分割方法及装置
CN115827865A (zh) 一种融合多特征图注意力机制的不良文本分类方法及系统
CN113536741B (zh) 中文自然语言转数据库语言的方法及装置
KR20230116143A (ko) 상담 유형 분류 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination