CN117521656B

CN117521656B - 一种面向中文文本的端到端中文实体关系联合抽取方法

Info

Publication number: CN117521656B
Application number: CN202311629250.7A
Authority: CN
Inventors: 张仕斌; 冯甲; 闫丽丽; 吕智颖; 秦智; 昌燕; 张昱程; 王戈锋; 王羽翼
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-05-07
Anticipated expiration: 2043-11-30
Also published as: CN117521656A

Abstract

本发明公开了一种面向中文文本的端到端中文实体关系联合抽取方法，包括优化中文预训练模型，对输入的中文文本进行编码处理，生成中文文本的文本表示；对中文文本的文本表示进行实体解码处理，得到实体BIO标注序列和上下文表示向量；采用上下文注意力机制确定上下文注意力向量；将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理，得到关系编码表示；采用双仿射注意力机制进行关系解码处理，得到实体关系抽取结果。本发明能够捕捉到词级别的交叉依赖信息，能有效提升模型准确性和鲁棒性。

Description

一种面向中文文本的端到端中文实体关系联合抽取方法

技术领域

本发明涉及中文信息提取技术领域，具体涉及一种面向中文文本的端到端中文实体关系联合抽取方法。

背景技术

实体关系抽取是自然语言处理领域的一个重要任务，旨在从文本中识别和提取出具体实体(如人名、地名、组织机构等)以及它们之间的关系。命名实体识别任务是从文本中识别并标记出命名实体的边界和类型，通常包括人名、地名、组织机构、日期、时间。关系抽取的目标是识别文本中命名实体之间的关系。现有的实体关系抽取方法主要包括管道方法与联合抽取方法两种。管道方法是一种常见的实体关系抽取方法，它将命名实体识别和关系抽取视为两个独立的任务，分别进行处理。首先，使用命名实体识别系统标记文本中的实体，然后再使用关系抽取系统来确定这些实体之间的关系。管道方法的优点在于模块化，容易实现和调试，但可能会导致误差传播，因为命名实体识别错误可能会影响关系抽取结果。联合抽取方法旨在同时执行命名实体识别和关系抽取，将这两个任务视为一个联合优化问题。这种方法可以充分考虑实体和关系之间的相互依赖关系，提高了准确性。联合抽取方法通常基于序列标注模型或图神经网络，能够一次性识别实体和它们之间的关系。

联合抽取方法在解决实体关系抽取问题时具有明显的优势：1、联合抽取方法可以在同一模型中考虑实体和关系，从而更好地捕捉文本中的上下文信息，提高抽取的一致性和准确性；2、相对于管道方法，联合抽取方法可以减少命名实体识别错误对关系抽取结果的影响；3、联合抽取方法可以更容易地应对新实体类别和关系的引入。面临的问题包括数据稀缺性、多语言问题、开放域问题和误差传播。联合抽取方法因其上下文一致性和减少错误传播的优势而备受关注，是实体关系抽取领域的一个前沿研究方向。然而现有的实体关系联合抽取方法模型大多是将两个子任务模型合并到一起，而并不是一个真正统一的模型来同时解决两个任务，这可能会导致模型性能不够优化，同时，虽然对比管道的方法在任务关联性上有提升，但如何增强实体抽取和关系抽取任务的关联性也是需要考虑的问题。

中文实体关系抽取与英语差距较大，中文的语言特点在于没有明显的单词边界，这使得分词成为实体关系抽取的首要问题。另外实体的多样性与关系的复杂性也是造成中文实体关系抽取难度较大的重要原因。例如在文旅领域中，为于评判旅游消费趋势，评估行业发展现状等目的进行实体关系抽取时，往往会遇到实体重叠和关系嵌套等问题，因此如何解决以上问题成为中文实体关系抽取的研究热点。

发明内容

针对现有技术中的上述不足，本发明提供了一种面向中文文本的端到端中文实体关系联合抽取方法，以期解决现有中文实体关系抽取方法中存在实体的多样性与关系的复杂性导致抽取难度大等问题。

为了达到上述发明目的，本发明采用的技术方案为：

一种面向中文文本的端到端中文实体关系联合抽取方法，包括以下步骤：

S1、对输入的中文文本进行全词掩蔽处理，根据处理后的中文文本优化中文预训练模型，并利用优化后的中文预训练模型对输入的中文文本进行编码处理，生成中文文本的文本表示；

S2、对中文文本的文本表示进行包括上下文特征提取和BIO序列标注的实体解码处理，得到实体BIO标注序列和上下文表示向量；

S3、根据实体BIO标注序列和上下文表示向量，以及中文文本的文本表示，采用上下文注意力机制确定上下文注意力向量；

S4、将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理，得到关系编码表示；

S5、根据关系编码表示，采用双仿射注意力机制进行关系解码处理，得到实体关系抽取结果。

作为可选地，步骤S1包括以下步骤：

S11、对输入的中文文本进行中文分词，确定中文文本中的词语个数；

S12、根据中文文本中的词语个数对分词后的中文文本进行全词掩蔽处理；

S13、将处理后的中文文本输入中文预训练模型进行掩蔽词预测任务，得到掩蔽词预测平均损失，优化中文预训练模型的编码层；

S14、利用优化后的中文预训练模型的编码层对输入的中文文本进行编码处理，生成中文文本的文本表示。

作为可选地，步骤S12包括：

随机选取中文文本中15％个数的词语，采用预设掩蔽策略进行三次全词掩蔽；所述掩蔽策略为：80％的概率替换为MASK标记，10％的概率替换为随机词，10％的概率不做处理保持原状。

作为可选地，步骤S13包括：

将处理后的中文文本输入中文预训练模型进行设定次数的掩蔽词预测任务，根据各次预测的损失函数计算掩蔽词预测平均损失，根据掩蔽词预测平均损失优化中文预训练模型的编码层。

作为可选地，步骤S2包括以下步骤：

S21、将中文文本的文本表示输入双向长短期记忆网络层，得到上下文表示；

S22、将上下文表示输入一个线性层对其维度进行压缩，得到低维的向量表示；

S23、将低维的向量表示输入至CRF层进行BIO序列标注，得到实体BIO标注序列；

S24、将实体BIO标注序列输入标注压缩层，得到固定长度且包含上下文信息的上下文表示向量。

作为可选地，步骤S3包括以下步骤：

S31、采用上下文注意力机制，将上下文表示向量作为查询向量，中文文本的文本表示作为键向量，中文文本的文本表示的转置矩阵作为值向量，计算相关度矩阵；

S32、对相关度矩阵进行softmax操作，得到相关度权重；

S33、根据相关度权重对所有中文文本的文本表示进行加权求和，得到上下文注意力向量。

作为可选地，相关度矩阵的计算公式为：

S＝q×H^T

其中，S表示相关度矩阵，q表示上下文表示向量，H^T表示中文文本的文本表示的转置矩阵。

作为可选地，上下文注意力向量的计算公式为：

C＝∑α×H

其中，C表示上下文注意力向量，α表示相关度权重，H表示中文文本的文本表示。

作为可选地，步骤S4包括以下步骤：

S41、将上下文注意力向量与中文文本的文本表示拼接，得到融合后的编码序列；

S42、将融合后的编码序列输入双向长短期记忆网络层进行关系建模，得到初始关系编码表示；

S43、将初始关系编码表示输入一个多头自注意力层，通过注意力学习关系的全局依赖，得到增强关系表示；

S44、将初始关系编码表示与增强关系表示通过残差连接，得到增强关系编码表示；

S45、对增强关系编码表示进行层规范化，得到最终的关系编码表示。

作为可选地，步骤S5包括以下步骤：

S51、将关系编码表示拆分成两个等长向量，作为双仿射注意力的输入矩阵；

S52、将两个等长向量输入定义的双仿射注意力层，得到二维关系得分矩阵；

S53、对二维关系得分矩阵进行softmax操作，得到关系概率矩阵；

S54、通过argmax操作选择每个行最大值所在的列索引，作为关系预测标签；

S55、根据行索引，还原实体对；并根据列索引，还原关系类型，最终输出关系三元组<实体1，关系，实体2>。

本发明具有以下有益效果：

1、本发明在编码过程中加入掩蔽词预测任务，能够加强BERT模型对文本语义的理解，为后续实体关系抽取提供更好的文本表达，同时还可提供类似非监督学习的学习效果；

2、本发明将实体解码器的输出通过上下文注意力机制与编码器输出融合后输入关系解码器，为关系解码器提供包含实体信息的文本表达，提高关系解码器对文本的解析能力；

3、本发明使用双仿射注意力机制作为解码器，能够解决中文实体关系抽取中存在的关系重叠问题；

4、本发明使用实体关系联合抽取方法，在提升实体识别与关系抽取能力的同时增加了两个任务之间的交互。

附图说明

图1为本发明中一种面向中文文本的端到端中文实体关系联合抽取方法的流程示意图；

图2为本发明中一种面向中文文本的端到端中文实体关系联合抽取方法的框架示意图；

图3为本发明中全词掩蔽过程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1至图3所示，本发明实施例提供了一种面向中文文本的端到端中文实体关系联合抽取方法，包括以下步骤S1至S5：

在本发明的一个可选实施例中，步骤S1包括以下步骤：

具体而言，本实施例采用的中文预训练模型包括掩蔽词预测任务和编码任务，例如可以使用BERT-wwm-ext,Chinese预训练模型，该模型专门针对于中文的文本数据进行处理。

本实施例首先使用分词工具对输入的句子进行中文分词，确定句中词语个数；然后对分词后的句子进行全词掩蔽，输入BERT进行掩蔽词预测任务，得到掩蔽词预测平均损失Loss_{mlm_avg}；最后将原始句子输入编码层，获取原始句子的文本表示H。

在本发明的一个可选实施例中，步骤S12包括：

在本发明的一个可选实施例中，步骤S13包括：

具体而言，本实施例使用掩蔽后句子的编码表示完成分别三次预测，得到三次预测的平均损失，该损失函数的表达式为：

其中，Loss_i为第i次掩蔽词预测的损失。

本实施例对输入的中文文本进行全词掩蔽处理，输入BERT编码层，获得掩蔽中文文本的文本表示，使用该文本表示完成掩蔽词预测任务，用于优化编码层，同时将原始中文文本输入编码层，获得原始中文文本的文本表示，作为实体编码器的输出，输入到实体解码器。

在本发明的一个可选实施例中，步骤S2包括以下步骤：

S21、将中文文本的文本表示H输入双向长短期记忆网络层，得到上下文表示；

S24、将实体BIO标注序列输入标注压缩层，得到固定长度且包含上下文信息的上下文表示向量q。

本实施例通过将中文文本的文本表示依次经过双向长短期记忆网络层、CRF(Conditional Random Field，条件随机场)层，获得实体的BIO序列标注结果，再经过标注压缩层，得到固定长度的上下文表示向量，作为实体解码器的输出，输入到关系编码器。

在本发明的一个可选实施例中，步骤S3包括以下步骤：

S31、采用上下文注意力机制，将上下文表示向量q作为查询向量query，中文文本的文本表示H作为键向量key，中文文本的文本表示的转置矩阵H^T作为值向量value，计算相关度矩阵S；

其中，相关度矩阵的计算公式为：

S＝q×H^T

S32、对相关度矩阵进行softmax操作，得到相关度权重α；

S33、根据相关度权重α对所有中文文本的文本表示H进行加权求和，得到上下文注意力向量。

其中上下文注意力向量的计算公式为：

C＝∑α×H

本实施例通过将上下文表示向量与中文文本的文本表示输入上下文注意力机制，计算相关度矩阵，再对相关度矩阵做softmax操作得到权重，将编码器输出加权求和得到上下文注意力向量C，并将上下文注意力向量C作为query的动态表示，作为关系编码器的输出，输入到关系编码器。

在本发明的一个可选实施例中，步骤S4包括以下步骤：

S41、将上下文注意力向量C与中文文本的文本表示H拼接，得到融合后的编码序列F；

S42、将融合后的编码序列F输入双向长短期记忆网络层进行关系建模，得到初始关系编码表示R；

S43、将初始关系编码表示R输入一个多头自注意力层，通过注意力学习关系的全局依赖，得到增强关系表示R'；

S44、将初始关系编码表示R与增强关系表示R'通过残差连接，进行正则化，得到增强关系编码表示R”，表示为：

R″＝R′+R

S45、对增强关系编码表示R”进行层规范化，得到最终的关系编码表示O。

本实施例通过将上下文注意力向量与中文文本的文本表示拼接，依次输入双向LSTM层、CRF层、残差连接层，进行关系建模，得到关系编码表示O，作为关系编码器的输出，输入到关系解码器。

在本发明的一个可选实施例中，步骤S5包括以下步骤：

S51、将关系编码表示O拆分成两个等长向量，作为双仿射注意力的输入矩阵；

本实施例使用双仿射注意力机制，将关系编码表示经过一个双仿射变换层Bilinear，计算双仿射变换得到得分矩阵，然后采用softmax操作得到概率矩阵，再通过argmax操作选取概率最大的类别作为关系预测标签，最后解码出实体关系抽取结果。

本发明通过在编码器中加入掩蔽词预测任务，对原始中文句子进行随机全词掩蔽，能有效提高BERT模型对中文文本的编码能力与模型的鲁棒性，为后续的实体关系抽取任务提供更优秀的文本表达，同时在实体解码阶段引入上下文注意力机制，学习上下文文本表达，在关系解码阶段引入双仿射注意力机制，计算头尾实体每个词之间的相关性，能够捕捉到词级别的交叉依赖信息，能有效提升模型准确性和鲁棒性。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种面向中文文本的端到端中文实体关系联合抽取方法，其特征在于，包括以下步骤：

S3、根据实体BIO标注序列和上下文表示向量，以及中文文本的文本表示，采用上下文注意力机制确定上下文注意力向量；包括以下步骤：

S31、采用上下文注意力机制，将上下文表示向量作为查询向量，中文文本的文本表示作为键向量，中文文本的文本表示的转置矩阵作为值向量，计算相关度矩阵；相关度矩阵的计算公式为：

S＝q×H^T

其中，S表示相关度矩阵，q表示上下文表示向量，H^T表示中文文本的文本表示的转置矩阵；

S32、对相关度矩阵进行softmax操作，得到相关度权重；

S33、根据相关度权重对所有中文文本的文本表示进行加权求和，得到上下文注意力向量；上下文注意力向量的计算公式为：

C＝∑α×H

其中，C表示上下文注意力向量，α表示相关度权重，H表示中文文本的文本表示；

S4、将上下文注意力向量与中文文本的文本表示拼接后进行关系编码处理，得到关系编码表示；包括以下步骤：

S45、对增强关系编码表示进行层规范化，得到最终的关系编码表示；

S5、根据关系编码表示，采用双仿射注意力机制进行关系解码处理，得到实体关系抽取结果；包括以下步骤：

2.根据权利要求1所述的一种面向中文文本的端到端中文实体关系联合抽取方法，其特征在于，步骤S1包括以下步骤：

3.根据权利要求2所述的一种面向中文文本的端到端中文实体关系联合抽取方法，其特征在于，步骤S12包括：

4.根据权利要求1所述的一种面向中文文本的端到端中文实体关系联合抽取方法，其特征在于，步骤S13包括：

5.根据权利要求1所述的一种面向中文文本的端到端中文实体关系联合抽取方法，其特征在于，步骤S2包括以下步骤：