CN111914097A

CN111914097A - 基于注意力机制和多层级特征融合的实体抽取方法与装置

Info

Publication number: CN111914097A
Application number: CN202010667644.1A
Authority: CN
Inventors: 杨志伟; 孙智孝; 朴海音; 詹光; 陈贺昌; 常毅
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-11-10

Abstract

本申请实施例公开了一种基于注意力机制和多层级特征融合的实体抽取方法与装置，属于计算机技术领域。方法包括：服务器获取待抽取实体的文本数据，并将其转换成字符序列和词序列后，输入到嵌入表示层得到字符嵌入向量组和词嵌入向量组，基于注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到全局字符特征和全局词特征，以及对字符嵌入向量组和词嵌入向量组进行特征提取得到局部字符特征和局部词特征，将得到的各个特征输入至特征融合层进行特征融合处理得到多层级融合特征，基于序列标注层对多层级融合特征进行标签标注处理得到类别标注序列，并抽取命名实体，可实现对文本数据资源进行充分挖掘，提升实体抽取的性能。

Description

基于注意力机制和多层级特征融合的实体抽取方法与装置

技术领域

本申请中涉及计算机技术领域，尤其是一种基于注意力机制和多层级特征融合的实体抽取方法与装置。

背景技术

随着互联网的迅猛发展，数据资源的数量出现爆炸式增长，而从海量的数据资源中挖掘有价值的知识，通常需要借助实体抽取的方法构建知识图谱和/或研究多种下游任务，实体抽取也即命名实体识别(NER)，是从输入的文本数据资源中检测出特定的命名实体并对其进行分类，如人名、地名、机构名等，实体抽取是知识抽取的任务之一，是语义理解和下游应用的关键。但在相关技术中，实体抽取方法需要基于词典及规则的方法进行抽取命名实体，容易受到词典不完备性和人工知识局限性的影响，且不能对文本数据资源进行充分挖掘，存在信息遗漏的问题。

发明内容

本申请实施例提供了一种基于注意力机制和多层级特征融合的实体抽取方法与装置，可以解决相关技术中的实体抽取方法不能对文本数据资源进行充分挖掘，导致信息遗漏的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种基于注意力机制和多层级特征融合的实体抽取方法，所述方法包括：

获取待抽取实体的文本数据，并将所述文本数据转换成至少一个字符序列和至少一个词序列；

将所述至少一个字符序列和所述至少一个词序列输入到嵌入表示层分别得到字符嵌入向量组和词嵌入向量组；

基于全局注意力机制和特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到全局字符特征和全局词特征；

基于局部注意力机制和所述特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到局部字符特征和局部词特征；

将所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征输入至特征融合层进行特征融合处理得到多层级融合特征；

基于序列标注层对所述多层级融合特征进行标签标注处理得到类别标注序列，并抽取命名实体。

第二方面，本申请实施例提供了一种基于注意力机制和多层级特征融合的实体抽取装置，所述装置包括：

文本获取模块，用于获取待抽取实体的文本数据，并将所述文本数据转换成至少一个字符序列和至少一个词序列；

嵌入表示模块，用于将所述至少一个字符序列和所述至少一个词序列输入到嵌入表示层得到字符嵌入向量组和词嵌入向量组；

第一特征提取模块，用于基于全局注意力机制和特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到全局字符特征和全局词特征；

第二特征提取模块，用于基于局部注意力机制和所述特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到局部字符特征和局部词特征；

特征融合模块，用于将所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征输入至特征融合层进行特征融合处理得到多层级融合特征；

序列标注模块，用于基于序列标注层对所述多层级融合特征进行标签标注处理得到类别标注序列，并抽取命名实体。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

本申请实施例的方案在执行时，服务器获取待抽取实体的文本数据，并将文本数据转换成至少一个字符序列和至少一个词序列，将至少一个字符序列和至少一个词序列输入到嵌入表示层得到字符嵌入向量组和词嵌入向量组，基于全局注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到全局字符特征和全局词特征，基于局部注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到局部字符特征和局部词特征，将全局字符特征、局部字符特征、全局词特征和局部词特征输入至特征融合层进行特征融合处理得到多层级融合特征，基于序列标注层对多层级融合特征进行标签标注处理得到类别标注序列，并抽取命名实体，可实现对文本数据资源进行充分挖掘，避免信息遗漏，提升实体抽取的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提出的一种基于注意力机制和多层级特征融合的实体抽取方法的流程示意图；

图2为本申请提出的一种基于注意力机制和多层级特征融合的实体抽取方法的另一流程示意图；

图3为本申请提出的一种基于注意力机制和多层级特征融合的实体抽取(AMFF)架构图；

图4为本申请提出的一种基于注意力机制和多层级特征融合的实体抽取方法的实验结果示意图

图5为本申请提出的一种基于注意力机制和多层级特征融合的实体抽取装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在下述方法实施例中，为了便于说明，仅以各步骤的执行主体为服务器进行介绍说明。

下面将结合附图1至图4，对本申请实施例提供的基于注意力机制和多层级特征融合的实体抽取方法进行详细介绍。

请参见图1，为本申请实施例提供了一种基于注意力机制和多层级特征融合的实体抽取方法的流程示意图。本实施例以一种基于注意力机制和多层级特征融合的实体抽取方法应用于服务器来举例说明，且以对英文文本数据进行处理为例进行说明，该基于注意力机制和多层级特征融合的实体抽取方法可以包括以下步骤：

S101，获取待抽取实体的文本数据，并将文本数据转换成至少一个字符序列和至少一个词序列。

其中，文本数据是指文本类型的数据；字符序列是构成单词的多个有序的字符，词序列是构成文本数据中句子的多个有序的单词，各个词序列中的多个词语可共同组成完整的文本内容。

S102，将至少一个字符序列和至少一个词序列输入到嵌入表示层分别得到字符嵌入向量组和词嵌入向量组。

其中，嵌入表示层是指能分别捕捉不同粒度特征的嵌入表示网络，包括词级别的嵌入表示网络和字符级别的嵌入表示网络；字符嵌入向量组是指对字符序列进行随机初始化后得到的向量组，词嵌入向量组是指对词序列进行预训练词嵌入处理(查找表的方式)得到的向量组。

一般的，对输入的文本数据进行转换预处理，即将文本数据处理成字符序列和词序列的形式输入到嵌入表示层中，基于嵌入表示层利用随机初始化矩阵对字符序列进行随机初始化处理得到字符嵌入向量组，对词序列进行预训练词嵌入处理得到词嵌入向量组，并分别对字符嵌入向量组和词嵌入向量组进行dropout(随机失活)处理，以防止过拟合。经过嵌入表示层处理后得到的字符嵌入向量组的维度和词嵌入向量组的维度是相同的，便于后续能对字符嵌入向量组和词嵌入向量组进行拼接处理，对字符序列和词序列分别进行随机初始化字符嵌入和预训练词嵌入处理便于后续能更好地捕捉语义和句法特征，进而得到更好的实体抽取结果。

通常，可使用如下公式计算得到字符嵌入向量组和词嵌入向量组：

其中，

表示第i个词嵌入向量，w_i表示所述词序列中第i个词，e^w表示预训练词向量查找向量，

表示是所述词序列中第i个词的第j个字符嵌入向量，c_j表示所述字符序列的第j个字符，e^c表示随机初始化的向量。

S103，基于全局注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到全局字符特征和全局词特征。

其中，全局注意力机制是指能考虑到全局特征的注意力机制，特征提取层也即多层级特征提取层，多层级特征提取层是指能基于注意力机制(全局注意力机制和局部注意力机制)以及文本语言特征从宏观和微观两个角度对词级别和字符级别的嵌入表示得到包括但不限于全局特征、局部特征等多种特征的网络；全局字符特征是指字符嵌入向量组中字符的整体特征，全局词特征是指词嵌入向量组中词的整体特征。

一般的，多层级特征层能基于注意力机制以及文本语言特征从宏观和微观两个角度对词级别和字符级别的嵌入表示得到包括但不限于全局特征、局部特征等多种特征。多层级特征层能极大提高实体抽取的准确率和召回率，对输入文本数据的不同角度学习不同级别的特征，利用注意力机制有选择地结合卷积神经网络和双向长短期记忆(Bi-LSTM)网络等提取序列中的特定特征，包括全局字符特征、局部字符特征、全局词特征和局部词特征等，但不限于上述所提及的方法和特征。

通常，基于全局注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到全局字符特征包括：基于双向长短期记忆网络对字符嵌入向量组进行处理得到隐状态向量组，基于全局注意力机制对隐状态向量组中的各个向量进行权重学习得到全局字符特征，使用如下公式计算得到全局字符特征：

其中，

表示t时刻的全局字符特征，

表示t时刻的字符嵌入向量组经过双向长短期记忆网络得到的隐状态向量组，c_t表示上下文向量，α_ts表示当前目标状态与源状态的权值向量，

表示t时刻的上一时刻的隐状态向量组，

表示参数向量，W_c、W₁、W₂表示权值矩阵，tanh是双曲正切函数，softmax函数是有限项离散概率分布的梯度对数归一化，也即归一化指数函数。

通常，基于全局注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到全局词特征包括：基于全局注意力机制对词嵌入向量组进行共现关系捕捉处理得到共现关系向量组，对词嵌入向量组和共现关系向量组进行残差连接处理得到全局词特征，可使用如下公式计算得到全局词特征：

Attention(Q,K,V)＝softmax(QK^TV)；

其中，

表示t时刻的全局词特征，

表示t时刻的词嵌入向量，Q表示词嵌入向量经过第一权值矩阵随机初始化处理后的输出向量，K表示词嵌入向量经过第二权值矩阵随机初始化处理后的输出向量，V表示词嵌入向量经过第三权值矩阵随机初始化处理后的输出向量，T表示矩阵转置，Attention函数表示注意力机制，softmax函数是有限项离散概率分布的梯度对数归一化，也即归一化指数函数。

S104，基于局部注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到局部字符特征和局部词特征。

其中，局部注意力机制是指能考虑到局部特征的注意力机制，特征提取层也即多层级特征提取层，多层级特征提取层是指能基于注意力机制(全局注意力机制和局部注意力机制)以及文本语言特征从宏观和微观两个角度对词级别和字符级别的嵌入表示得到包括但不限于全局特征、局部特征等多种特征的网络；局部字符特征是指字符嵌入向量组中字符的局部显著特征，局部词特征是指词嵌入向量组中词的局部显著特征。

通常，基于局部注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到局部字符特征包括：基于卷积神经网络和局部注意力机制对字符嵌入向量组进行局部处理得到字符特征，对字符特征进行最大池化处理提取局部字符特征，可使用如下公式利用卷积神经网络的局部处理能力处理输入的字符嵌入向量：

其中，

表示t时刻的字符嵌入向量，U表示大小为3的卷积核，Mask表示输入词序列的零填充，conv表示卷积运算。

可使用如下公式计算得到局部字符特征：

其中，

表示t时刻的局部字符特征，Max表示最大池化。

通常，基于局部注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到局部词特征包括：基于局部注意力机制对词嵌入向量组进行共现关系捕捉处理得到共现关系向量组，对共现关系向量组进行最大池化处理提取局部词特征，可使用如下公式计算得到局部词特征：

其中，Max表示最大池化，FFN表示前馈神经网络，

表示t时刻的全局词特征，

表示t时刻的局部词特征。

S105，将全局字符特征、局部字符特征、全局词特征和局部词特征输入至特征融合层进行特征融合处理得到多层级融合特征。

其中，特征融合层是指根据各个特征的重要性对各个特征进行融合得到句级特征的网络，由各个特征对应的权重值表示各个特征的重要性；多层级融合特征是指包含多个特征信息的融合特征的统一表示。

一般的，通过调整全局字符特征、局部字符特征、全局词特征和局部词特征各自对应的权重值，对经过权值调整后的全局字符特征、局部字符特征、全局词特征和局部词特征进行特征融合处理得到多层级融合特征，可使用如下公式计算得到多层级融合特征：

其中，λ₁、λ₂、λ₃、λ₄表示权重值，

表示t时刻的全局字符特征，

表示t时刻的局部字符特征，

表示t时刻的全局词特征，

表示t时刻的局部词特征。

S106，基于序列标注层对多层级融合特征进行标签标注处理得到类别标注序列，并抽取命名实体。

其中，序列标注层是指基于双向长短期记忆网络和条件随机场对融合特征进行处理的网络；类别标注序列是由多个词语标注共同构成的序列，类别标注序列中的标注与词序列中的词一一对应；命名实体是指词序列中一系列有意义的专有名词。

一般的，融合得到的多层级融合特征作为序列标注层的输入，基于双向长短期记忆网络获取上下文信息，并利用条件随机场的条件约束进行精准标注：基于双向长短期记忆网络综合提取多层级融合特征的上下文语义特征和句法特征，基于条件随机场对上下文语义特征和句法特征进行计算得到发射分值和转移分值，基于发射分值和转移分值确定类别标注序列，实现对文本数据的充分挖掘，并能基于该类别标注序列获取高质量的实体抽取结果。

由上述内容可知，本方案提供的基于注意力机制和多层级特征融合的实体抽取方法，服务器获取待抽取实体的文本数据，并将文本数据转换成至少一个字符序列和至少一个词序列，将至少一个字符序列和至少一个词序列输入到嵌入表示层分别得到字符嵌入向量组和词嵌入向量组，基于全局注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到全局字符特征和全局词特征，基于局部注意力机制和特征提取层对字符嵌入向量组和词嵌入向量组进行特征提取得到局部字符特征和局部词特征，将全局字符特征、局部字符特征、全局词特征和局部词特征输入至特征融合层进行特征融合处理得到多层级融合特征，基于序列标注层对多层级融合特征进行标签标注处理得到类别标注序列，并抽取命名实体，可实现对文本数据资源进行充分挖掘，避免信息遗漏，提升实体抽取的性能。

请参见图2，为本申请实施例提供了一种基于注意力机制和多层级特征融合的实体抽取方法的另一流程示意图。本实施例以一种基于注意力机制和多层级特征融合的实体抽取方法应用于服务器中来举例说明。该基于注意力机制和多层级特征融合的实体抽取方法可以包括以下步骤：

S201，获取待抽取实体的文本数据，并将文本数据转换成至少一个字符序列和至少一个词序列。

S202，将至少一个字符序列和至少一个词序列输入到嵌入表示层分别得到字符嵌入向量组和词嵌入向量组。

其中，

S203，基于双向长短期记忆网络对字符嵌入向量组进行处理得到隐状态向量组。

其中，隐状态向量组是指经过双向长短期记忆网络处理后得到的向量组，作为注意力机制的输入；双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)是递归神经网络(Recurrent Neutral Network，RNN)的一种，递归即自我调用，递归神经网络与其他网络的不同之处在于其隐含层能够跨越时间点的自连接隐含层，隐含层的输出不仅进入输出端，还进入了下一个时间步骤的隐含层，所以其能够持续保留信息，能够根据之前状态推出后面的状态。

一般的，经过双向长短期记忆网络对字符嵌入向量组进行处理后可得到权重值不同的向量组，也即隐状态向量组，作为后面注意力机制的输入。

S204，基于全局注意力机制对隐状态向量组中的各个向量进行权重学习得到全局字符特征。

其中，注意力机制是用于从大量特征信息中有选择地筛选出少量重要的特征信息，并聚焦到这些重要的特征信息上的模型，全局注意力机制是指能考虑到全局特征的注意力机制；全局字符特征是指字符嵌入向量组中字符的整体特征。

一般的，基于多层级特征提取层对字符嵌入向量组进行特征提取得到全局字符特征包括：基于双向长短期记忆网络对字符嵌入向量组进行处理得到隐状态向量组，基于注意力机制对隐状态向量组中的各个向量进行权重学习得到全局字符特征，使用如下公式计算得到全局字符特征：

其中，

表示t时刻的全局字符特征，

表示t时刻的上一时刻的隐状态向量组，

举例说明：请参见图3的基于注意力机制和多层级特征融合的实体抽取(AMFF)架构图，该架构主要包括：输入层、嵌入表示层、多层级特征提取层、特征融合层、序列标注层、输出层；其中，多层级特征提取层输入中的“Washington”与文本数据的上下文中的“University”和“George”密切相关，注意力机制可缓解均等编码的不足；基于双向长短期记忆网络可字符嵌入向量组进行处理得到隐状态向量组，采用注意机制可有效捕捉两个字符嵌入表示之间的关系(图3中的“Washington/B-ORG”与“Washington/E-PER”相关而不相同)，故可结合双向长短期记忆网络和注意力机制提取的实体相关的全局字符特征，即Char_Global特征。

S205，基于卷积神经网络对字符嵌入向量组进行局部处理得到字符特征。

其中，卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，主要包括输入层和隐含层(卷积层、池化层和全连接层)，卷积神经网络具有局部处理能力；在本实施例中，可利用卷积神经网络的局部处理能力处理输入的字符嵌入向量组，并遮挡冗余填充位置的信息以抽取字符级别特征。

一般的，可使用如下公式利用卷积神经网络的局部处理能力处理输入的字符嵌入向量：

其中，

S206，基于局部注意力机制对字符特征进行最大池化处理提取局部字符特征。

其中，局部注意力机制是指能考虑到局部特征的注意力机制，最大池化(max-pooling)处理是指提取局部接受域中值最大的特征，局部字符特征是指字符嵌入向量组中字符的局部显著特征，如“Missouri”中的“M”。

一般的，可使用如下公式计算得到局部字符特征：

其中，

表示t时刻的局部字符特征，Max表示最大池化。

S207，基于全局注意力机制对词嵌入向量组进行共现关系捕捉处理得到共现关系向量组。

其中，共现关系向量组是用于表示两两间同时出现概率关系的向量组，注意力机制能捕捉词间的共现信息的组合关系，如：“in”后常接地点词。

S208，对词嵌入向量组和共现关系向量组进行残差连接处理得到全局词特征。

其中，全局词特征是指词嵌入向量组中词的整体特征。

一般的，预训练词嵌入在捕捉词间相似关系上具有重要作用，且注意力机制能捕捉词间的共现信息的组合关系，如：“in”后常接地点词，故可基于注意力机制和经过预训练词嵌入处理后得到词嵌入向量组得到对应的全局词特征，同时，残差连接可防止随着网络的加深导致准确率下降，解决深度学习中的退化问题，可使用如下公式计算得到全局字符特征：

Attention(Q,K,V)＝softmax(QK^TV)；

H(x)＝F(x)+x；

其中，

表示t时刻的全局词特征，

表示t时刻的词嵌入向量，Q表示词嵌入向量经过第一权值矩阵随机初始化处理后的输出向量，K表示词嵌入向量经过第二权值矩阵随机初始化处理后的输出向量，V表示词嵌入向量经过第三权值矩阵随机初始化处理后的输出向量，T表示矩阵转置；H(x)表示原网络，F(x)表示输出(output)，X表示输入(input)，Attention函数表示注意力机制，softmax函数是有限项离散概率分布的梯度对数归一化，也即归一化指数函数。

S209，基于局部注意力机制对词嵌入向量组进行共现关系捕捉处理得到共现关系向量组。

S210，对共现关系向量组进行最大池化处理提取局部词特征。

其中，局部词特征是指词嵌入向量组中词的局部显著特征。

一般的，可使用如下公式计算得到局部词特征：

其中，Max表示最大池化，FFN表示前馈神经网络，

表示t时刻的全局词特征，

表示t时刻的局部词特征。

S211，调整全局字符特征、局部字符特征、全局词特征和局部词特征各自对应的权重值。

其中，权重值是指各个特征对应的重要程度，每个特征对应一个特定的权重值，通过调整各个特征对应的权重值，以获得到各个特征的重要性，使得实体抽取具有一定的可解释性。

S212，对经过权值调整后的全局字符特征、局部字符特征、全局词特征和局部词特征进行特征融合处理得到多层级融合特征。

一般的，特征融合层中的多层级特征融合处理能充分利用实体相关的最重要特征，并使得实体抽取取得鲁棒性更好的结果，特征融合可产生更为丰富的统一特征表示，以便更好地捕捉语义和句法信息；同时，通过调整各个特征对应的权重值，以获得到各个特征的重要性，使得实体抽取具有一定的可解释性。此外，该特征融合层具有较好的扩展性，容易替换或者增加相关特征，实现强大高效的实体抽取性能。

可使用如下公式计算得到多层级融合特征：

其中，λ₁、λ₂、λ₃、λ₄表示权重值，

表示t时刻的全局字符特征，

表示t时刻的局部字符特征，

表示t时刻的全局词特征，

表示t时刻的局部词特征。

S213，基于双向长短期记忆网络综合提取多层级融合特征的上下文语义特征和句法特征。

其中，上下文语义特征是指输入的多层级融合特征对应的上下文语义信息，句法特征是指输入的多层级融合特征对应的句法信息。

S214，基于条件随机场对上下文语义特征和句法特征进行计算得到发射分值和转移分值。

其中，条件随机场(conditional random field，CRF)是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料；发射分值和转移分值均是通过条件随机场得到概率分值，转移分值可对发射分值进行校正。

S215，基于发射分值和转移分值确定类别标注序列，并抽取命名实体。

其中，类别标注序列是由多个词语标注共同构成的序列，类别标注序列中的标注与词序列中的词一一对应；命名实体是指词序列中一系列有意义的专有名词。

一般的，本申请将实体抽取问题转换序列标注问题，即f:w₁w₂…w_n→y₁y₂…y_n，忽略非实体结果。由于双向长短期记忆网络能够充分挖掘输入文本的词序列的上下文语义信息和句法信息，得到的上下文语义特征和句法特征可作为条件随机场的输入，可解决长期依赖的问题。同时，为了避免误标注，可通过条件随机场计算的发射分值和转移分值，转移分值可为最终预测标注添加一些约束确保最后得到的类别标注序列有效，也即自底向上的发射分值和邻近标注的转移分值共同决定了最终的类别标注序列。如：在BIOES标注过程中，当选择最高的发射分值的标注时，还需要考虑转移分值，即得到标签I-PER的后面禁止标注B-PER(Softmax无条件约束)，最终可得到高质量的实体抽取结果。基于发射分值和转移分值确定类别标注序列，可实现对文本数据的充分挖掘，并解码获取高质量的实体抽取结果。

举例说明：假设给定输入词序列w₁w₂…w_n，其中n是词的总数，并且每个词w_i赋予一个对应的标签y_i，这里的y_i从实体的类别标签集合y＝{B-ORG，I-ORG，E-ORG，O，S-LOC，B-PER，…}，采用BIOES方案进行标注，即标签集合Set＝[B，I，E，O，S]；其中，B表示起始位置，I表示中间位置，E表示结尾位置，S表示单个实体，O表示非实体，而ORG表示机构的缩写，LOC表示地点的缩写，PER人名的缩写。因此，这里可以将实体抽取建模成序列标注问题，即f:w₁w₂…w_n→y₁y₂…y_n。

举例说明：请参见图3的基于注意力机制和多层级特征融合的实体抽取(AMFF)架构图，该架构主要包括：输入层、嵌入表示层、多层级特征提取层、特征融合层、序列标注层、输出层；其中，服务器基于输入层对输入的文本数据转换为词序列“WashingtonUniversity,which is located in Missouri,is named after George Washington.”，以及各个单词对应的字符序列“Washington->‘Washington’”、“University->‘University’”、“which->‘which’”、“is->‘is’”、“located->‘located’”、“in->‘in’”、“Missouri->‘Missouri’”、“is->‘is’”、“named->‘named’”、“after->‘after’”、“George->‘George’”、“Washington->‘Washington’”，词序列和字符序列在分别经过嵌入表示层、多层级特征提取层、特征融合层、序列标注层处理后，在输出层将得到输出结果为Washington/B-ORG，University/E-ORG，Missouri/S-LOC，George/B-PER，Washington/E-PER，非实体词省略。其中，Char_Global、Char_Local、Word_Global、Word_Local分别表示多层级特征提取层从不同角度捕获得到的特征。

为了验证所提出的基于注意力机制和多层级特征融合的实体抽取方法的有效性，分别在CoNLL-2003、NCBI-disease、SciERC和JNLPBA这四个标准英文数据集上进行实验。这4个数据集分别被划分为训练集、验证集和测试集三部分，且每个数据集分别含有4/1/6/5实体类型。请参见表1的实验数据集统计信息，给出了这4个数据集的统计信息，如下：

表1

同时，分别对比了六种方法，包括经典方法：BiLSTM-CRF，BiLSTM-CNNs和NeuralNER；最新方法：CS Embeddings，SciBERT和CollaboNet。请参见表2的整体实验结果对比(F1(％))，给出了基于注意力机制和多层级特征融合的实体抽取(AMFF)方法与基线方法的实验结果，评价指标是F1 score，即精度和召回率的调和平均。

模型	CoNLL-2003	NCBI-disease	SciERC	JNLPBA
					BiLSTM-CRF	90.02	79.51	56.09	70.77
BiLSTM-CNNs	91.21	79.52	57.75	72.20
					NeuralNER	90.75	73.46	55.49	72.31
CS Embeddings	92.74	86.16	62.28	74.29
					SciBERT	88.79	86.63	64.61	75.24
CollaboNet	84.29	80.95	60.12	77.38
					AMFF*	92.80	87.86	62.17	80.03
AMFF(without Attention)	93.63	88.46	64.27	79.72
					AMFF	94.48	92.11	68.34	80.51

表2

通过对比，基于注意力机制和多层级特征融合的实体抽取方法在四个数据集上均取得了更好的结果，表明了该基于注意力机制和多层级特征融合的实体抽取方法的有效性。其次，其他的方法由于领域的局限性并且缺乏足够的有效特征，因而在表现欠佳或无法在所有的数据集上取得较鲁棒的结果。如果将残差结构部分替换成统一的长短期记忆网络，结果表现如AMFF*，这表明预训练词嵌入可能已经提供了词间关系而无需借助其他工具。另外，如果去掉注意力机制(即AMFF(without Attention))，则性能将会急剧下降，这再次表明了基于注意力机制和多层级特征融合的重要性。

此外，还对该基于注意力机制和多层级特征融合的实体抽取方法的参数敏感性进行分析，分别选择主要参数dropout rate(随机失活比例)，LSTM size(长短期记忆网络长度)，filter number(卷积核数量)和batch size(批大小)进行实验，评价指标是F1 score。请参见图4所示的AMFF的参数敏感性实验结果，每次基于变化单一变量对所提出的AMFF方法进行敏感性分析，可见AMFF在参数变化时，在四个数据集上均保持较高的性能，从而验证了多层级特征有助于实体抽取，同时进一步验证了所提出基于注意力机制和多层级特征融合的实体抽取方法的有效性和鲁棒性。

本申请提出一种基于注意力机制和多层级特征融合的实体抽取框架(AMFF框架)，能够有效利用多层级语言特征去预测实体类别标签。所提出的框架基于注意力机制动态地从全局和局部的不同视角捕捉字符级和词级特征，如大小写、多义词、关键字和经常共现的短语搭配等，从而构成了句级别的特征表示。因此，所提出的AMFF框架具有较好的扩展性，能够兼容更多实体相关的有效特征。实验结果表明，AMFF在标准实体抽取数据集CoNLL-2003，NCBI-disease，SciERC和JNLPBA上均取得最好的结果。

由上述内容可知，本方案提供的基于注意力机制和多层级特征融合的实体抽取方法，服务器获取待抽取实体的文本数据，并将文本数据转换成至少一个字符序列和至少一个词序列，将至少一个字符序列和至少一个词序列输入到嵌入表示层分别得到字符嵌入向量组和词嵌入向量组，基于双向长短期记忆网络对字符嵌入向量组进行处理得到隐状态向量组，基于全局注意力机制对隐状态向量组中的各个向量进行权重学习得到全局字符特征，基于卷积神经网络和局部注意力机制对字符嵌入向量组进行局部处理得到字符特征，对字符特征进行最大池化处理提取局部字符特征，基于全局注意力机制对词嵌入向量组进行共现关系捕捉处理得到共现关系向量组，对词嵌入向量组和共现关系向量组进行残差连接处理得到全局词特征，基于局部注意力机制对词嵌入向量组进行共现关系捕捉处理得到共现关系向量组，对共现关系向量组进行最大池化处理提取局部词特征，调整全局字符特征、局部字符特征、全局词特征和局部词特征各自对应的权重值，对经过权值调整后的全局字符特征、局部字符特征、全局词特征和局部词特征进行特征融合处理得到多层级融合特征，基于双向长短期记忆网络综合提取多层级融合特征的上下文语义特征和句法特征，基于条件随机场对上下文语义特征和句法特征进行计算得到发射分值和转移分值，基于发射分值和转移分值确定类别标注序列，并抽取命名实体，可实现对文本数据资源进行充分挖掘，避免信息遗漏，提升实体抽取的性能，且该方法具有较好的易用性、延展性和可解释性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图5，其示出了本申请一个示例性实施例提供的基于注意力机制和多层级特征融合的实体抽取装置的结构示意图。以下简称装置5，装置5可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分。装置5包括文本获取模块501、嵌入表示模块502、第一特征提取模块503、第二特征提取模块504、特征融合模块505和序列标注模块506。

文本获取模块501，用于获取待抽取实体的文本数据，并将所述文本数据转换成至少一个字符序列和至少一个词序列；

嵌入表示模块502，用于将至少一个字符序列和至少一个所述词序列输入到嵌入表示层分别得到字符嵌入向量组和词嵌入向量组；

第一特征提取模块503，用于基于全局注意力机制和特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到全局字符特征和全局词特征；

第二特征提取模块504，用于基于局部注意力机制和所述特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到局部字符特征和局部词特征；

特征融合模块505，用于将所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征输入至特征融合层进行特征融合处理得到多层级融合特征；

序列标注模块506，用于基于序列标注层对所述多层级融合特征进行标签标注处理得到类别标注序列，并抽取命名实体。

可选地，所述第一特征提取模块503包括：

第一处理单元，用于基于双向长短期记忆网络对所述字符嵌入向量组进行处理得到隐状态向量组；

第一调整单元，用于基于所述全局注意力机制对所述隐状态向量组中的各个向量进行权重学习得到所述全局字符特征。

可选地，所述第二特征提取模块504包括：

第二处理单元，用于基于卷积神经网络和所述局部注意力机制对所述字符嵌入向量组进行局部处理得到字符特征；

第一池化处理单元，用于对所述字符特征进行最大池化处理提取所述局部字符特征。

可选地，所述第一特征提取模块503包括：

第三处理单元，用于基于所述全局注意力机制对所述词嵌入向量组进行共现关系捕捉处理得到共现关系向量组；

残差连接单元，用于对所述词嵌入向量组和所述共现关系向量组进行残差连接处理得到所述全局词特征。

可选地，所述第二特征提取模块504包括：

第四处理单元，用于基于所述局部注意力机制对所述词嵌入向量组进行共现关系捕捉处理得到共现关系向量组；

第二池化处理单元，用于对所述共现关系向量组进行最大池化处理提取所述局部词特征。

可选地，所述特征融合模块505包括：

第二调整单元，用于调整所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征各自对应的权重值；

融合处理单元，用于对经过权值调整后的全局字符特征、局部字符特征、全局词特征和局部词特征进行特征融合处理得到所述多层级融合特征。

可选地，所述序列标注模块506包括：

上下文处理单元，用于基于双向长短期记忆网络综合提取所述多层级融合特征的上下文语义特征和句法特征；

计算单元，用于基于条件随机场对所述上下文语义特征和所述句法特征进行计算得到发射分值和转移分值；

解码单元，用于基于所述发射分值和所述转移分值确定所述类别标注序列，并抽取命名实体。

需要说明的是，上述实施例提供的装置5在执行基于注意力机制和多层级特征融合的实体抽取方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于注意力机制和多层级特征融合的实体抽取方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1、图2所示实施例的方法步骤，具体执行过程可以参见图1、图2所示实施例的具体说明，在此不进行赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由所附属的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围由所附的权利要求来限制。

Claims

1.一种基于注意力机制和多层级特征融合的实体抽取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述词序列输入到嵌入表示层得到字符嵌入向量组和词嵌入向量组，包括：

使用如下公式计算得到所述字符嵌入向量组和所述词嵌入向量组：

其中，

表示是所述词序列中第i个词的第j个字符嵌入向量，c_j表示所述第j个字符，e^c表示随机初始化的向量。

3.根据权利要求1所述的方法，其特征在于，所述基于全局注意力机制和特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到全局字符特征和全局词特征，包括：

基于双向长短期记忆网络对所述字符嵌入向量组进行处理得到隐状态向量组；

基于所述全局注意力机制对所述隐状态向量组中的各个向量进行权重学习得到所述全局字符特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述全局注意力机制对所述隐状态向量组中的各个向量进行权重学习得到所述全局字符特征，包括：

使用如下公式计算得到所述全局字符特征：

其中，

表示t时刻的全局字符特征，

表示t时刻的字符嵌入向量组经过双向长短期记忆网络得到的隐状态向量组，c_t表示上下文向量，α_ts表示当前目标状态h_t与源状态h_s的权值向量，

表示t时刻的上一时刻的隐状态向量组，

表示参数向量，W_c、W₁、W₂表示权值矩阵。

5.根据权利要求1所述的方法，其特征在于，所述基于局部注意力机制和所述特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到局部字符特征和局部词特征，包括：

基于卷积神经网络和所述局部注意力机制对所述字符嵌入向量组进行局部处理得到字符特征；

对所述字符特征进行最大池化处理提取所述局部字符特征。

6.根据权利要求5所述的方法，其特征在于，所述基于卷积神经网络和所述局部注意力机制对所述字符嵌入向量组进行局部处理得到字符特征，包括：

使用如下公式利用所述卷积神经网络的局部处理能力处理输入的字符嵌入向量：

其中，

表示t时刻的字符嵌入向量，U表示大小为3的卷积核，Mask表示输入词序列的零填充。

7.根据权利要求5所述的方法，其特征在于，所述对所述字符特征进行最大池化处理提取所述局部字符特征，包括：

使用如下公式计算得到所述局部字符特征：

其中，

表示t时刻的局部字符特征。

8.根据权利要求1所述的方法，其特征在于，所述基于全局注意力机制和特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到全局字符特征和全局词特征，包括：

基于所述全局注意力机制对所述词嵌入向量组进行共现关系捕捉处理得到共现关系向量组；

对所述词嵌入向量组和所述共现关系向量组进行残差连接处理得到所述全局词特征。

9.根据权利要求8所述的方法，其特征在于，所述对所述词嵌入向量组和所述共现关系向量组进行残差连接处理得到所述全局词特征，包括：

使用如下公式计算得到所述全局词特征：

Attention(Q,K,V)＝softmax(QK^TV)；

其中，

表示t时刻的全局词特征，

表示t时刻的词嵌入向量，Q表示词嵌入向量经过第一权值矩阵随机初始化处理后的输出向量，K表示词嵌入向量经过第二权值矩阵随机初始化处理后的输出向量，V表示词嵌入向量经过第三权值矩阵随机初始化处理后的输出向量，T表示矩阵转置。

10.根据权利要求1所述的方法，其特征在于，所述基于局部注意力机制和所述特征提取层对所述字符嵌入向量组和所述词嵌入向量组进行特征提取得到局部字符特征和局部词特征，包括：

基于所述局部注意力机制对所述词嵌入向量组进行共现关系捕捉处理得到共现关系向量组；

对所述共现关系向量组进行最大池化处理提取所述局部词特征。

11.根据权利要求10所述的方法，其特征在于，所述对所述共现关系向量组进行最大池化处理提取所述局部词特征，包括：

使用如下公式计算得到所述局部词特征：

其中，Max表示最大池化，FFN表示前馈神经网络，

表示t时刻的全局词特征，

表示t时刻的局部词特征。

12.根据权利要求1所述的方法，其特征在于，所述将所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征输入至特征融合层进行特征融合处理得到多层级融合特征，包括：

调整所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征各自对应的权重值；

对经过权值调整后的全局字符特征、局部字符特征、全局词特征和局部词特征进行特征融合处理得到所述多层级融合特征。

13.根据权利要求12所述的方法，其特征在于，所述对经过权值调整后的全局字符特征、局部字符特征、全局词特征和局部词特征进行特征融合处理得到所述多层级融合特征，包括：

使用如下公式计算得到所述多层级融合特征：

其中，λ₁、λ₂、λ₃、λ₄表示权重值，

表示t时刻的全局字符特征，

表示t时刻的局部字符特征，

表示t时刻的全局词特征，

表示t时刻的局部词特征。

14.根据权利要求1所述的方法，其特征在于，所述基于序列标注层对所述多层级融合特征进行标签标注处理得到类别标注序列，并抽取命名实体，包括：

基于双向长短期记忆网络综合提取所述多层级融合特征的上下文语义特征和句法特征；

基于条件随机场对所述上下文语义特征和所述句法特征进行计算得到发射分值和转移分值；

基于所述发射分值和所述转移分值确定所述类别标注序列，并抽取命名实体。

15.一种基于注意力机制和多层级特征融合的实体抽取装置，其特征在于，所述装置包括：

嵌入表示模块，用于将所述至少一个字符序列和所述至少一个词序列输入到嵌入表示层分别得到字符嵌入向量组和词嵌入向量组；