CN114595338A

CN114595338A - 基于混合特征表示的实体关系联合抽取系统及方法

Info

Publication number: CN114595338A
Application number: CN202210202416.6A
Authority: CN
Inventors: 刘伟; 冀振燕; 董为; 孔德焱; 王炎
Original assignee: Zhongke Lanzhi Wuhan Technology Co ltd
Current assignee: Zhongke Lanzhi Wuhan Technology Co ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-06-07

Abstract

本发明公开一种基于混合特征表示的实体关系联合抽取系统及方法，所述系统包括：特征提取模块，用于从工业文本数据中提取字符级别特征向量和词级别特征向量；特征融合模块，用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合，生成混合特征向量；模型构建模块，用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系‑尾实体识别单元构建实体关系联合抽取模型；联合识别模块，用于将混合特征向量输入到实体关系联合抽取模型中，识别出工业文本数据中所有的实体和关系。本发明在多个粒度级别上整合特征信息，有效处理重叠三元组问题，可提高实体关系抽取的准确度。

Description

基于混合特征表示的实体关系联合抽取系统及方法

技术领域

本发明属于知识抽取技术领域，具体涉及一种基于混合特征表示的实体关系联合抽取系统及方法。

背景技术

近年来，预训练语言模型如BERT、GPT等已经变得非常流行，并在各种自然语言理解任务上取得了巨大成功，如知识抽取、情感分析、问题回答和语言推理。

微调预训练模型方法虽然在命名实体识别和关系抽取两大领域都取得了巨大的成功，但是在一些实际场景中会存在大量的嵌套实体和重叠关系三元组，直接应用微调预训练模型对其进行抽取，其性能并不完美。早期的关系-实体提取研究采用的是流水线方法，它首先识别句子中的所有实体，然后对每个实体对进行关系分类，这种方法容易出现错误传播问题，因为早期的错误无法在后期得到纠正。

为了解决这一问题，现有技术中陆续提出了实体和关系的联合学习方式，然而，大多数方法都不能有效地处理句子中包含多个相互重叠的关系三元组的场景。最近，基于span的方法被提出并应用到命名实体识别中有效的解决了实体嵌套问题，其本质是通过预测实体的开始和结束位置并通过组合的方式识别出多种类型的实体，但是其模型很容易解码出错误实体或非实体。因此，如何有效地处理句子中包含多个相互重叠的关系三元组的场景成为知识抽取的关键问题。

发明内容

有鉴于此，本发明提出了一种基于混合特征表示的实体关系联合抽取系统及方法，用于解决对工业文本数据进行知识抽取时无法有效地处理多个相互重叠的关系三元组的问题。

本发明第一方面，公开一种基于混合特征表示的实体关系联合抽取系统，所述系统包括：

特征提取模块：用于从工业文本数据中提取字符级别特征向量和词级别特征向量；

特征融合模块：用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合，生成混合特征向量；

模型构建模块：用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系-尾实体识别单元构建实体关系联合抽取模型；

联合识别模块：用于将混合特征向量输入到实体关系联合抽取模型中，识别出工业文本数据中所有的实体和关系。

在以上技术方案的基础上，优选的，所述特征提取模块具体用于：

基于CNN模型从工业文本数据中提取字符级别特征向量，同时使用中文分词器对工业文本数据进行分词，将分词之后的单词与外部词典信息和外部知识库做匹配，通过Word2Vec模型获取词级别特征向量。

在以上技术方案的基础上，优选的，所述模型构建模块中，所述双向LSTM编码器为带有注意力机制的双向LSTM模型，用于对输入的混合特征向量进行编码，提取工业文本数据文本中长距离命名实体之间的依赖关系，同时提取工业文本数据中字符之间、字符与命名实体之间以及实体字符位置之间的相关性。

在以上技术方案的基础上，优选的，所述模型构建模块中，所述头实体识别单元包括两个相同的第一二元分类器，用于对双向LSTM编码器输出的编码后的混合特征向量进行标记，每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置，实体的开始位置和结束位置生成多个实体特征向量。

在以上技术方案的基础上，优选的，所述模型构建模块中，所述实体类型分类单元用于将每个实体特征向量分别与编码后的混合特征向量拼接作为输入，通过Softmax的概率输出来对实体进行分类，并设置概率阈值进行实体过滤，去除低于概率阈值的实体和非实体，保留大于或等于概率阈值的实体作为头实体。

在以上技术方案的基础上，优选的，所述模型构建模块中，所述关系-尾实体识别单元将关系和尾实体的识别作为一个机器阅读理解任务，通过先验知识获取关系的描述信息，将关系的描述信息和头实体拼接作为机器阅读理解任务的问题，以编码后的混合特征向量作为机器阅读理解任务的段落，以阅读理解的方式嵌入到预训练的BERT模型中，并通过两个第二二元分类器识别与关系的描述信息和头实体对应的尾实体；

所述预训练的BERT模型中，使用多头自注意机制捕获token之间的交互信息，为工业文本数据提供先验知识，同时在训练的过程中捕获上下文语义特征信息，从而消除同音异义词的歧义，表达语义和句法模式。

在以上技术方案的基础上，优选的，所述关系-尾实体识别单元中，第二二元分类器为给定上下文和特定查询输出多个开始索引和多个结束索引，支持根据查询提取所有相关实体。

本发明第二方面，公开一种基于混合特征表示的实体关系联合抽取方法，所述方法包括：

S1、从工业文本数据中提取字符级别特征向量和词级别特征向量；

S2、使用最大池化操作对字符级别特征向量和词级别特征向量进行融合，生成混合特征向量；

S3、通过带有注意力机制的双向LSTM模型对输入的混合特征向量进行编码；

S4、通过两个相同的第一二元分类器对双向LSTM编码器输出的编码后的混合特征向量h_N进行标记，每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置，生成多个实体特征向量；

S5、将每个实体特征向量分别与编码后的混合特征向量拼接，通过Softmax的概率输出来对实体进行分类，并进行实体过滤，保留高概率实体及其类型作为头实体；

S6、将关系和尾实体的识别作为一个机器阅读理解任务，使用预训练的BERT模型对以关系的描述信息和头实体拼接作为问题、以编码后的混合特征向量作为段落的两个句子进行编码，并通过两个第二二元分类器实现具有复杂关系的重叠三元组的识别。

本发明第三方面，公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；

其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明第二方面所述的方法。

本发明第四方面，公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现本发明第二方面所述的方法。

本发明相对于现有技术具有以下有益效果：

1)本发明的混合特征向量集成了字符级别信息、词级别信息，其中字符级别特征向量提供形态上的特征信息；结合外部词典信息和外部知识库的词级别特征向量嵌入提供边界特征信息，混合特征向量丰富了混合特征信息，提高了实体边界识别的性能。

2)本发明通过带有注意力机制的双向LSTM模型对输入的混合特征向量进行编码，并给基于编码后的混合特征向量分别进行头实体识别、实体类型分类和过滤、关系-尾实体识别，最终实现具有复杂关系的重叠三元组的识别。本发明充分利用字符-词级别、时序结构、上下文嵌入等特征信息，丰富了混合特征表示，在多个粒度级别上整合信息，并降低噪声信息的权重，同时在自注意力机制的帮助下，有效捕获文本不同信息的重要性，消除同音异义词的歧义，显著提高了联合抽取模型的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提出的一种基于混合特征表示的实体关系联合抽取系统结构示意图；

图2为本发明提出的一种基于混合特征表示的实体关系联合抽取系统原理图；

图3所示为本发明带有注意力机制的双向LSTM模型示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本发明提出一种基于混合特征表示的实体关系联合抽取系统，图1为本发明提出的一种基于混合特征表示的实体关系联合抽取系统结构示意图，所述系统包括特征提取模块10、特征融合模块20、模型构建模块30、联合识别模块40。

图2为本发明提出的一种基于混合特征表示的实体关系联合抽取系统原理图，下面结合图1、图2对本发明的系统原理做具体说明。

特征提取模块10：用于从工业文本数据中提取字符级别特征向量和词级别特征向量，包括字符级别特征提取单元101和词级别特征提取单元102。

所述字符级别特征提取单元101基于CNN模型从工业文本数据中提取字符级别特征向量，构建文本字符级别向量表示。同时词级别特征提取单元102使用中文分词器对工业文本数据进行分词，将分词之后的单词与外部词典信息和外部知识库做匹配，通过Word2Vec模型获取词级别特征向量，构建文本词级别向量表示。

特征融合模块20：用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合，生成混合特征向量。

本发明将字符级别特征向量和词级别特征向量进行融合，构造混合特征表示，生成混合特征向量，其中，字符级别向量表示提供形态上的特征信息，比如单词的前缀、后缀等，结合外部词典和领域知识库的词级别向量嵌入提供边界特征信息，混合特征向量丰富了字符特征信息，并且可以有效解决一词多义问题。

图2底部的构造混合特征表示部分示意了某一文本数据的特征提取和特征融合过程，将字符级别特征向量

和词级别特征向量

通过最大池化操作进行融合，其中，e₁是由字符级别特征向量

和词级别特征向量

融合而成，e₂是由字符级别特征向量

和词级别特征向量

融合而成，其他特征向量的融合如图2中构造混合特征表示部分所示，最终的各个融合结果保持维度一致。将融合后的特征向量合并组成混合特征向量。

模型构建模块30：用于基于双向LSTM编码器301、头实体识别单元302、实体类型分类单元303、关系-尾实体识别单元304构建实体关系联合抽取模型；

所述双向LSTM编码器301为带有注意力机制的双向LSTM(Bi-LSTM，BidirectionalLong ShortTerm Memory，双向长短期记忆网络)模型，用于对输入的混合特征向量进行编码，输出编码后的混合特征向量h_N，图3所示为本发明带有注意力机制的双向LSTM模型示意图，双向LSTM模型可以进一步刻画文本中长距离命名实体之间的依赖关系。为了进一步捕捉文本中字符之间、字符与命名实体之间以及实体字符位置之间的相关性，在Bi-LSTM层中开发了一种多头自注意机制，可以加强字符和单词之间的依赖性同时提高模型的整体运行效率。

本发明的双向LSTM编码器在双向LSTM模型的基础上添加了注意力机制，一方面可有效捕获特定时间范围内的信息特征，增强文本中关键特征的权重。另一方面可有效捕获文本中全局语义信息特征，进一步丰富了混合特征表示，同时减少了层与层之间语义信息传递的累积误差，增强了文本中实体之间的相关性。

所述头实体识别单元302包括两个相同的第一二元分类器，用于对双向LSTM编码器输出的编码后的混合特征向量进行标记，如图2所示，每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置，基于实体的开始位置和结束位置生成k个实体特征向量

并将编码后的混合特征向量h_N分别与每个实体特征向量做拼接得到

所述实体类型分类单元303用于将每个实体特征向量分别与编码后的混合特征向量拼接作为输入，通过Softmax的概率输出来对实体进行分类，并设置概率阈值进行实体过滤，以去除低于概率阈值的实体和非实体，保留大于或等于概率阈值的高概率实体和类型作为头实体。以Agnews新闻数据集为例，实体中的类型包括：Sports、Business、World、Sci/Tech，Softmax层输出实体属于这些类型的概率。假设概率阈值设置为0.5，Softmax输出的概率如果分别是0.5、0.2.、0.1、0.2，则认为其属于第一类的概率属于高概率实体，Softmax输出的概率如果是0.3、0.2、0.2、0.3，则认为其属于第一类的概率属于低概率实体或者是一些非实体。

所述关系-尾实体识别单元304将关系和尾实体的识别作为一个机器阅读理解任务，即通过先验知识获取关系的描述信息，将关系的描述信息和头实体拼接作为机器阅读理解任务的问题，以编码后的混合特征向量作为机器阅读理解任务的段落，以阅读理解的方式嵌入到预训练的BERT模型中，并通过两个第二二元分类器识别与输入的关系的描述信息和头实体相对应的尾实体，从而实现具有复杂关系的重叠三元组的识别。

关系的描述信息R₁，...，R_n是根据先验知识人工定义的，比如“属于”这种关系可以定义为：

part of：part of、belong to something、including、pertain、appertain、beclassified。

预训练的BERT模型是预先在大规模数据中训练的，可以为文本提供先验知识，同时模型在训练的过程中会捕获更多的上下文语义特征信息。所述预训练的BERT模型中，使用多头自注意机制捕获token之间的交互信息，并提供上下文语义特征信息的嵌入以及预先训练的大规模语言模型中的先验知识，从而消除同音异义词的歧义，表达语义和句法模式。

其中，第二二元分类器为给定上下文和特定查询输出多个开始索引和多个结束索引，支持根据查询提取所有相关实体。

联合识别模块40：用于将融合后的混合特征向量输入到实体关系联合抽取模型中，识别出工业文本数据中所有的实体和关系。

具体的，将特征融合模块20融合得到的混合特征向量输入到模型构建模块30构建的实体关系联合抽取模型中，捕获它们之间的隐藏特征以识别出文本中所有的实体和关系，识别重叠三元组，解决一词多义问题。

本发明充分利用字符-词级别、时序结构、上下文嵌入等特征信息，丰富了混合特征表示，同时在多头自注意力机制的帮助下，有效的识别出重要实体的边界，显著提高了联合抽取模型的准确度和性能。

本发明提供的卷积神经网络、Word2Vec词嵌入模型、双向长短记忆网络中的参数，BERT模型中输入句子的长度，以及实体过滤中的概率阈值等可根据实际需要或设备限制等因素设置。

与上述系统实施例相对应，本发明还提出一种基于混合特征表示的实体关系联合抽取方法，所述方法包括：

S4、通过两个相同的第一二元分类器对双向LSTM编码器输出的编码后的混合特征向量进行标记，每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置，生成多个实体特征向量；

S5、将每个实体特征向量分别与编码后的混合特征向量拼接，通过Softmax的概率输出来对实体进行分类，并进行实体过滤，保留大于或等于概率阈值实体及类型作为头实体；

S6、将关系和尾实体的识别作为一个机器阅读理解任务，使用预训练的BERT模型对以关系的描述信息和头实体拼接作为问题、以编码后的混合特征表示作为段落的两个句子进行编码，并通过两个第二二元分类器识别尾实体，从而实现具有复杂关系的重叠三元组的识别。

以上系统实施例和方法实施例是一一对应的，方法实施例简述之处请参阅系统实施例即可。

本发明还公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明前述的方法。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括：U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混合特征表示的实体关系联合抽取系统，其特征在于，所述系统包括：

2.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统，其特征在于，所述特征提取模块具体用于：

3.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统，其特征在于，所述模型构建模块中，所述双向LSTM编码器为带有注意力机制的双向LSTM模型，用于对输入的混合特征向量进行编码，提取工业文本数据文本中长距离命名实体之间的依赖关系，同时提取工业文本数据中字符之间、字符与命名实体之间以及实体字符位置之间的相关性。

4.根据权利要求3所述的基于混合特征表示的实体关系联合抽取系统，其特征在于，所述模型构建模块中，所述头实体识别单元包括两个相同的第一二元分类器，用于对双向LSTM编码器输出的编码后的混合特征向量进行标记，每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置，基于实体的开始位置和结束位置生成多个实体特征向量。

5.根据权利要求4所述的基于混合特征表示的实体关系联合抽取方法，其特征在于，所述模型构建模块中，所述实体类型分类单元用于将每个实体特征向量分别与编码后的混合特征向量拼接作为输入，通过Softmax的概率输出来对实体进行分类，并设置概率阈值进行实体过滤，去除低于概率阈值的实体和非实体，保留大于或等于概率阈值的实体作为头实体。

6.根据权利要求5所述的基于混合特征表示的实体关系联合抽取系统，其特征在于，所述模型构建模块中，所述关系-尾实体识别单元将关系和尾实体的识别作为一个机器阅读理解任务，通过先验知识获取关系的描述信息，将关系的描述信息和头实体拼接作为机器阅读理解任务的问题，将编码后的混合特征向量作为机器阅读理解任务的段落，以阅读理解的方式嵌入到预训练的BERT模型中，并通过两个第二二元分类器识别与输入的关系的描述信息和头实体对应的尾实体；

7.根据权利要求6所述的基于混合特征表示的实体关系联合抽取系统，其特征在于，所述关系-尾实体识别单元中，第二二元分类器为给定上下文和特定查询输出多个开始位置索引和多个结束位置索引，支持根据查询提取所有相关实体。

8.一种基于混合特征表示的实体关系联合抽取方法，其特征在于，所述方法包括：

S5、将每个实体特征向量分别与编码后的混合特征向量拼接，通过Softmax的概率输出来对实体进行分类，并设置概率阈值进行实体过滤，保留大于或等于概率阈值的实体作为头实体；

S6、将关系和尾实体的识别作为一个机器阅读理解任务，使用预训练的BERT模型对以关系的描述信息和头实体拼接作为问题、以编码后的混合特征向量作为段落的两个句子进行编码，并通过两个第二二元分类器实现尾实体识别。

9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器、通信接口和总线；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现如权利要求8所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现如权利要求8所述的方法。