CN116628174A

CN116628174A - 一种融合实体和关系信息的端到端关系抽取方法以及系统

Info

Publication number: CN116628174A
Application number: CN202310130998.6A
Authority: CN
Inventors: 刘晓勇; 文瀚冬; 秦鑫
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-08-22

Abstract

本发明公开了一种融合实体和关系信息的端到端关系抽取方法，包括：获取公开数据集CONLL04；对数据集CONLL04中关系类型的映射进行调整，得到主客体实体构成的原始文本T；从原始文本T中获取实体类型和实体主客体信息；构建多元实体关系信息模板P；将得到原始文本T和信息模板P进行句子拼接，将拼接得到的数据作为编码器模型的最终输入；使用编码器模型对输入的数据进行处理编码，得到原始文本向量，实体和关系信息向量，通过全连接层降维、拼接；将得到的特征传入解码器，最后生成预测文本；该方法基于提示学习模板提示技术实现实体和关系信息的融合，在融合信息出现信息冲突、数据和知识缺乏时，能够保证关系抽取任务精确度。

Description

一种融合实体和关系信息的端到端关系抽取方法以及系统

技术领域

本发明涉及关系抽取技术领域，特别涉及一种融合实体和关系信息的端到端关系抽取方法以及系统。

背景技术

信息抽取是自然语言处理中非常重要的一个任务，它可以将大量的文本信息转化为结构化数据，这样就可以被机器读取和分析。例如应用于新闻摘要、问答系统、知识图谱建设等。其中新闻摘要中，信息抽取可以将新闻中的关键信息提取出来，形成简洁明了的摘要；在问答系统中，信息抽取可以将问题中的关键实体和关系提取出来，帮助系统进行问题理解和回答；在知识图谱建设中，信息抽取可以提取文本中的实体和关系，帮助建立知识图谱。

而关系抽取是一个非常复杂的问题，尽管近年来已经取得了很大的进展，但仍然存在一些不足。一个主要的问题是语义不一致性，关系抽取系统在识别关系时需要考虑语义上的含义，但是由于自然语言表达方式的多样性，同一个关系可能会有不同的表达方式，这使得关系抽取系统难以统一识别。另一个问题是数据标注问题，关系抽取系统需要大量的高质量的数据进行训练，但是由于标注数据的复杂性和人工标注的成本，很难收集到足够的高质量数据。所以现有的关系抽取系统在处理长文本和复杂关系时准确性不够。

发明内容

本发明的目的在于克服现有技术中的上述缺陷，提供一种融合实体和关系信息的端到端关系抽取方法以及系统，该方法基于提示学习模板提示技术实现实体和关系信息的融合，在融合信息出现信息冲突、数据和知识缺乏时，能够保证关系抽取任务精确度。

为实现上述目的，本发明提供了一种融合实体和关系信息的端到端关系抽取方法，包括以下步骤：

步骤S1：获取公开数据集CONLL04，对原始训练数据进行预处理，包括数据清洗、数据标注和数据增强；

步骤S2：对数据集CONLL04中关系类型的映射进行调整，从而得到主客体实体构成的原始文本T；

步骤S3：从原始文本T中获取实体类型和实体主客体信息；

步骤S4：构建多元实体关系信息模板P，所述信息模板P中包含了实体类型信息、实体主客信息以及实体之间的关系信息；

步骤S5：将得到原始文本T和信息模板P进行句子拼接，将拼接得到的数据作为编码器模型的最终输入；

步骤S6：使用编码器模型对输入的数据进行处理编码，所述编码器将会对数据预处理后的数据进行编码，得到原始文本向量，实体和关系信息向量，通过全连接层降维，然后拼接；

步骤S7：随后将得到的特征传入解码器，最后生成预测文本。

作为优选的，所述步骤S2中，对于数据集原始关系类型集合R＝{r₁，……，r_n}，先将该集合映射符合语言逻辑的同义短语；

对于CONLL04数据集，其中有一个关系类型为“Located_In”，将其映射为“islocated in”，从而与主客体实体构成文本“Entity₁ is located in Entity₂”，使预训练模型更好的理解。

作为优选的，所述步骤S3中，对于原始文本T＝{t₁，...，e₁，...，e₂，...，t_n}中的实体，获取其实体类型和主客体信息E_1-type，E_2-type和E_1-subject，E_2-object。

作为优选的，所述步骤S4中，将步骤S1和步骤S2中获得的实体关系信息，按照“主体-关系-客体”的形式，构建信息模板P，“<sub>Anhui<loc>is located in<obj>China<loc>”，其中实体“An hui”和“China”的实体类型均为“location”，表示地名；实体“An hui”的主客体信息为“sub”，表示主实体，实体“China”的主客体信息为“obj”；表示客实体；实体之间的关系为“is located in”，是原始关系类型“Located_In”的映射。

作为优选的，所述步骤S5中，将得到原始文本T和信息模板P进行拼接，在句首添加[CLS]，句子之间用[SEP]分隔符分开，经过数据预处理以后得到了该条数据的模型最终输入。

作为优选的，所述步骤S6中，所述编码器模型采用的是BERT模型；所述BERT模型是一种多层双向Transformer编码器；所述BERT模型进行遮蔽(Mask)预训练工作，通过随机Mask输入词块中的15％，其中的80％会直接用[MASK]符号代替，10％会替代为其他任意的词，最后10％会保留原词；将其传入多层的Transformer中训练预测这些被Mask的词块，得到深度双向语义表示的向量；所述BERT模型核心部分是一个多层双向的Transformer编码结构，不再依赖RNN或者CNN，只需要注意力机制就能够一步到位地获取全局信息。

作为优选的，所述编码部分主要是基于自注意力的，计算式如下：

式中：如果忽略激活函数softmax的话，那么事实上它就是三个n×d_k、d_k×m、m×d_v的矩阵相乘，最后的结果就是一个n×d_v的矩阵；也可以将其视为一个Attention层，将n×d_k的序列Q编码成了一个心的n×d_v的序列，因此，其实质是一个重新编码的过程；

这样做的目的是获得一个既可以表示词本身特征又可以反映上下文关系的表达；为了增强其表示能力，Transformer使用了“多头”模式对其进行了优化，是模型共同处理来自不同表达的子空间在不同位置的信息，其计算式如下：

MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_n，)；

式中：n为多头注意力的个数；按每一时序上的向量长度等分成n份；将上面等分后的数据分别通过不同的权重映射得到新的Q、K、W的值，再将n份数据head_n计算相应的Attention的值，然后重新横向拼接(Concat)起来，再映射到原始的向量维度，就得到多头注意力结果值Multihead；在这之后Transformer使用残差网络和层归一化避免出现退化问题，使模型能更好的进行特征抽取；

Transformer是基于完全注意力的方法，与一般CNN和RNN编码方式都不同；它能根据上下文距离长短建模捕捉其之间的关系；为了使Transformer感知词与词之间的位置关系，所述BERT模型的输入表征中使用位置编码给每个字添加了位置信息；

所述BERT模型的输入表征是相应token embeddings、segmentation embeddings和position embeddings的总和，计算式如下：

式中：pos是指token在序列中所处的位置；i表示位置向量中每个值的维度；d_model表示模型的维度；

所述BERT模型做到了同时考虑上下文语义特征，模型输出可以看见任意时刻的输入，能捕捉更长距离的依赖；

所述BERT模型对数据预处理后的句子输入进行编码，得到每个单词编码后的表示，结果为：H＝{h₀，...，h_m，...，h_k，...，h_n}；

h_i表示第i个单词编码后的向量表示；原始文本T＝{t₁，...，e₁，...，e₂，...，t_n}编码后表示为h₀到h_m之间的向量H_T，而实体和关系信息模板P编码后的表示为h_k到h_n之间的向量H_p；通过全连接层后得到最终向量表示：

矩阵W₀，W₁维度为R^d×d，d表示输出向量的维度，b₀，b₁为偏置。

作为优选的，所述步骤S7中，所述解码器除了Multi-Head Attention层之外，还有一层Masked Multi-Head Attention层；所述解码器需要完成将编码转换成单词输出的操作，在该生成过程中，对于某一时刻i，只有小于i时刻的输入有效，大于i时刻的就会被屏蔽掉；所述解码器其余两层的结构与编码器相同，最终会输出一个实数向量；

该实数向量会经过线性变换层，转换为一个分数值，投射到一个被称为对数概率的向量中；对数几率向量中的分数再经过一个Softmax层，转换为概率，最终最高的概率被转换成对应的单词，形成最终的输出。

作为优选的，将关系抽取和分类作为一项生成任务来处理：使用自回归模型输出输入文本中存在的每个三元组；任务是在给定x的情况下自回归生成y：

训练时采用交叉熵损失函数:

k代表batch_size；加入了L2正则项防止过拟合，在全连接中加入dropout机制，值为0.1。

本发明还提供了一种融合实体和关系信息的端到端关系抽取系统，用于执行上述所述的一种融合实体和关系信息的端到端关系抽取方法。

与现有技术相比，本发明的有益效果在于：

1、本发明将提示学习中模板方法与端到端模型相结合，并从多角度提取数据中隐藏的实体或关系信息，并将它们进行融合，帮助模型更好的掌握数据句子上下文潜在关系，为关系分类提供依据，提高了模型关系抽取的精确度。

2、本发明解决了传统的实体关系联合抽取方案将两个子任务视为独立任务以割裂两个任务之间的联系的问题。

3、本发引入提示模板，模板中融合了实体及关系信息，充分利用提示模板的信息以提高模型的性能。

4、本发明提升了实体关系联合抽取的性能，具有良好的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种融合实体和关系信息的端到端关系抽取方法的流程图；

图2是本发明提供的一种融合实体和关系信息的端到端关系抽取方法的模型框架图；

图3是本发明提供的一种融合实体和关系信息的端到端关系抽取方法的算法结果对比图；

图4是本发明提供的一种融合实体和关系信息的端到端关系抽取系统的结构图。

具体实施方式

下面将结合本发明本实施方式中的附图，对本发明本实施方式中的技术方案进行清楚、完整地描述，显然，所描述的本实施方式是本发明的一种实施方式，而不是全部的本实施方式。基于本发明中的本实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他本实施方式，都属于本发明保护的范围。

实施例一

请参考图1和图2，本发明提供了一种融合实体和关系信息的端到端关系抽取方法，包括以下步骤：

具体的，对于数据集CONLL04，一条原始数据中包含tokens(词集)、entities(实体集)和relations(关系集)三个部分，tokens(词集)中的元素是组成文本序列的词，entities(实体集)中的元素包含实体的类型(如loc)和实体在tokens中起始和结束的位置，换言之，entities集包含实体的类型以及实体所处句中的位置，relations集包含头实体和尾实体在句中所处的位置以及它们之间的关系类型。形式如，{“tokens”:[“Paris”,“is”,“located”,“France”,“.”],“entities”:[{“type”:“loc”,“start”:0,“end”:1},{“type”:“loc”,“start”:3,“end”:4}],“relations”:{“type”:“Located_In”,“head”:0,“tail”:1}]。对于一条CONLL04的原始数据，我们先进行数据清洗将其处理成一条完整的句子“Paris is located in France.”。

所述步骤S2中，对于数据集原始关系类型集合R＝{r₁，……，r_n}，先将该集合映射符合语言逻辑的同义短语；

对于CONLL04数据集，其中有一个关系类型为“Located_In”，将其映射为“islocated in”，从而与主客体实体构成文本“Entity₁is located in Entity₂”，使预训练模型更好的理解。

步骤S3：从原始文本T中获取实体类型和实体主客体信息；

所述步骤S3中，对于原始文本T＝{t₁，…，e₁，…，e₂，…，t_n}中的实体，获取其实体类型和主客体信息E_1-type,E_2-type和E_1-subject,E_2-object。

所述步骤S4中，将步骤S1和步骤S2中获得的实体关系信息，按照“主体-关系-客体”的形式，构建信息模板P，“<sub>An hui<loc>is located in<obj>China<loc>”，其中实体“An hui”和“China”的实体类型均为“location”，表示地名；实体“An hui”的主客体信息为“sub”，表示主实体，实体“China”的主客体信息为“obj”；表示客实体；实体之间的关系为“is located in”，是原始关系类型“Located_In”的映射。

所述步骤S5中，将得到原始文本T和信息模板P进行拼接，在句首添加[CLS]，句子之间用[SEP]分隔符分开，经过数据预处理以后得到了该条数据的模型最终输入。

步骤S6：使用编码器模型对输入的数据进行处理编码，所述编码器模型采用的是BERT模型；所述BERT模型将会对数据预处理后的数据进行编码，得到原始文本向量，实体和关系信息向量，通过全连接层降维，然后拼接；

所述步骤S6中，所述BERT模型是一种多层双向Transformer编码器；所述BERT模型进行遮蔽(Mask)预训练工作，通过随机Mask输入词块中的15％，其中的80％会直接用[MASK]符号代替，10％会替代为其他任意的词，最后10％会保留原词；将其传入多层的Transformer中训练预测这些被Mask的词块，得到深度双向语义表示的向量；所述BERT模型核心部分是一个多层双向的Transformer编码结构，不再依赖RNN或者CNN，只需要注意力机制就能够一步到位地获取全局信息。

所述编码部分主要是基于自注意力的，计算式如下:

MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_n，)；

h_i表示第i个单词编码后的向量表示；原始文本T＝{t₁，...，e₁，...，e₂，...，t_n}编码后表示为h₀到h_m之间的向量H_T，而实体和关系信息模板P编码后的表示为h_k到h_n之间的向量H_p；通过全连接层后得到最终向量表示

所述步骤S7中，所述解码器除了Multi-Head Attention层之外，还有一层MaskedMulti-Head Attention层；所述解码器需要完成将编码转换成单词输出的操作，在该生成过程中，对于某一时刻i，只有小于i时刻的输入有效，大于i时刻的就会被屏蔽掉；所述解码器其余两层的结构与编码器相同，最终会输出一个实数向量；

将关系抽取和分类作为一项生成任务来处理：使用自回归模型输出输入文本中存在的每个三元组；任务是在给定x的情况下自回归生成y：

训练时采用交叉熵损失函数:

在图2中，首先，采用步骤S1和步骤S2对原始数据进行收集和对数据进行预处理；其次，采用步骤S3对数据的内容进行信息抽取，形成信息抽取模型；再次，采用步骤S4和步骤S5对数据进行信息融合；最后，采用步骤S6和步骤S7组成三元组抽取模型，对数据进行编码、解码以及输出结果。

如图3所示，IM Agorithm是本发明方法的实验结果，Comparison algorithm是本发明方法主要对比模型，Comparison algorithm用端到端模型解决关系抽取问题的方法，将三元组分解为文本序列，相比较以前类似做法有一定的优势。但相比于IM Agorithm，本发明方法采用了基于提示学习中构建提示模板的方法，关系抽取任务的实验结果更好。最后通过精确率、召回率、F1值进行比较，结果如图3所示。

此外，为一进步验证，我们分别设计了两种信息融合模板用于验证不同模板对结果的影响，模板A：[head_entity]relation_type[tail_entity],模板B：The relationshipbetween[head_entity]and[tail_entity]is relation_type；分别用这两个信息融合模板对CONLL04数据集进行消融实验。

Ours	Precision	Recall	F1
				-NoTemplate	73.43	66.45	69.27
-TemplateA	80.74	71.89	74.77
				-TemplateB	77.02	68.21	71.56

在没有模板的情况下模型对于关系抽取任务的效果较差，有模板的情况下实验结果好于无模板。其中，模板A的实验结果好于模板B，可以得出不同模板对关系抽取效果有一定的影响这一结论。

实施例二

一种融合实体和关系信息的端到端关系抽取系统，用于执行实施例一所述的一种融合实体和关系信息的端到端关系抽取方法。

如图4所示；所述系统包括数据预处理模型，所述数据预处理模型包括步骤S1和步骤S2获取公开数据集CONLL04，对原始训练数据进行预处理，包括数据清洗，数据标注和数据增强；对数据集CONLLO4中的关系类型进行一对一映射；

还包括信息抽取模型，所述信息抽取模型包括步骤S3从原始文本中抽取出实体和关系信息；

还包括信息融合模型，所述信息融合模型包括步骤S4和步骤S5构建多元实体关系信息模板P，将信息抽取模块中的信息融合进信息摸板P中，并将原始文本和信息模板进行拼接；

还包括三元组抽取模型，所述三元组抽取模型包括步骤S6和步骤S7使用编码器模型对输入的数据进行处理编码，所述编码器将会对数据预处理后的数据进行编码，得到原始文本向量，实体和关系信息向量，通过全连接降维，然后拼接，最后输出预测结果。

本系统可用于任何自然语言的实体关系三元组抽取，所述实体不局限于具体的文本，包括新闻、微博、百科等数据量打且具有共同特征的数据内容，本实施例提供了基于关系分解的端到端实体关系联合抽取方法在新闻和百科文章的应用。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种融合实体和关系信息的端到端关系抽取方法，其特征在于：包括以下步骤：

步骤S3：从原始文本T中获取实体类型和实体主客体信息；

2.根据权利要求1所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S2中，对于数据集原始关系类型集合R＝{r₁，……，r_n}，先将该集合映射符合语言逻辑的同义短语；

对于CONLL04数据集，其中有一个关系类型为“Located_In”，将其映射为“is locatedin”，从而与主客体实体构成文本“Entity₁ is located in Entity₂”，使预训练模型更好的理解。

3.根据权利要求2所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S3中，对于原始文本T＝{t₁，…，e₁，…，e₂，…，t_n}中的实体，获取其实体类型和主客体信息E_1-type,E_2-type和E_1-subject,E_2-object。

4.根据权利要求3所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S4中，将步骤S1和步骤S2中获得的实体关系信息，按照“主体-关系-客体”的形式，构建信息模板P，“<sub>An hui<loc>is located in<obj>China<loc>”，其中实体“Anhui”和“China”的实体类型均为“location”，表示地名；实体“An hui”的主客体信息为“sub”，表示主实体，实体“China”的主客体信息为“obj”；表示客实体；实体之间的关系为“is located in”，是原始关系类型“Located_In”的映射。

5.根据权利要求4所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S5中，将得到原始文本T和信息模板P进行拼接，在句首添加[CLS]，句子之间用[SEP]分隔符分开，经过数据预处理以后得到了该条数据的模型最终输入。

6.根据权利要求5所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S6中，所述编码器模型采用的是BERT模型；所述BERT模型是一种多层双向Transformer编码器；所述BERT模型进行遮蔽(Mask)预训练工作，通过随机Mask输入词块中的15％，其中的80％会直接用[MASK]符号代替，10％会替代为其他任意的词，最后10％会保留原词；将其传入多层的Transformer中训练预测这些被Mask的词块，得到深度双向语义表示的向量；所述BERT模型核心部分是一个多层双向的Transformer编码结构，不再依赖RNN或者CNN，只需要注意力机制就能够一步到位地获取全局信息。

7.根据权利要求6所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述编码部分主要是基于自注意力的，计算式如下:

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_n,)；

所述BERT模型对数据预处理后的句子输入进行编码，得到每个单词编码后的表示，结果为：H＝{h₀，…，h_m，…，h_k，…，h_n}；h_i表示第i个单词编码后的向量表示；原始文本T＝{t₁，…，e₁，…，e₂，…，t_n}编码后表示为h₀到h_m之间的向量H_T，而实体和关系信息模板P编码后的表示为h_k到h_n之间的向量H_p；通过全连接层后得到最终向量表示

8.根据权利要求7所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：所述步骤S7中，所述解码器除了Multi-Head Attention层之外，还有一层MaskedMulti-Head Attention层；所述解码器需要完成将编码转换成单词输出的操作，在该生成过程中，对于某一时刻i，只有小于i时刻的输入有效，大于i时刻的就会被屏蔽掉；所述解码器其余两层的结构与编码器相同，最终会输出一个实数向量；

9.根据权利要求8所述的一种融合实体和关系信息的端到端关系抽取方法，其特征在于：将关系抽取和分类作为一项生成任务来处理：使用自回归模型输出输入文本中存在的每个三元组；任务是在给定x的情况下自回归生成y：

训练时采用交叉熵损失函数:

10.一种融合实体和关系信息的端到端关系抽取系统，其特征在于：用于执行权利要求1至9中任意一项所述的一种融合实体和关系信息的端到端关系抽取方法。