CN112417890B

CN112417890B - 一种基于多样化语义注意力模型的细粒度实体分类方法

Info

Publication number: CN112417890B
Application number: CN202011366099.9A
Authority: CN
Inventors: 向镐鹏; 胡岩峰; 乔雪; 姜添; 潘宇顺; 彭晨; 李熙雨; 罗晋
Original assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Current assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date: 2020-11-29
Filing date: 2020-11-29
Publication date: 2023-11-24
Anticipated expiration: 2040-11-29
Also published as: CN112417890A

Abstract

本发明提出了一种基于多样化语义注意力模型的细粒度实体分类方法，基于切分长度和步长，得到句子的多样化注意力片段序列；构建多样化语义注意力模型，包括注意力图预测模型与注意力特征集成模型两部分；构建多样性约束，包括注意力图约束和注意力片段约束，结合分类损失，确定最终的损失函数，用于训练多样化语义注意力模型；利用训练好的多样化语义注意力模型，确定多样化注意力片段序列对应的注意力图，结合softmax网络，预测每个时间步长对于每个细粒度实体类别分类结果，综合得到输入句子中实体的预测结果。本发明解决了细粒度实体分类精度不高的问题。

Description

一种基于多样化语义注意力模型的细粒度实体分类方法

技术领域

本发明涉及自然语言处理领域，涉及一种基于多样化语义注意力模型的细粒度实体分类方法。

背景技术

随着自然语言处理(NLP)的发展，细粒度实体分类的方法逐渐在自然语言处理(NLP)应用中引起了越来越多的关注。细粒度实体分类是指将特定类型分配给句子中的实体。由于实体的歧义性，如何利用细粒度实体分类方法是一个非常具有挑战性的问题。不仅如此，为了更好地捕获关键差异，注意力机制已经应用到自动选择句子的辨别特征，这对算法的性能有了极大的提升。在现有技术中，大多数现有的注意力方法通常从实体和上下文词中提取显着特征进行分类。比如将输入的句子分为三个部分，分别为实体、实体的上文以及实体的下文。然后将三部分的词向量输入到网络进行特征提取，从而进行实体分类。然而，上述的分类方法主要存在两个问题：(1)在使用注意力机制过程中，忽略了实体中含有的丰富的语义信息；(2)在注意力机制过程中没有考虑注意力的多样性。因为实体中丰富的语义信息，以及注意力多样性对发现区分特征的关键性作用，所以上述两个问题是造成实体分类精度不高的主要原因。

发明内容

本发明的目的在于提出一种基于多样化语义注意力模型的细粒度实体分类方法，解决细粒度实体分类精度不高的问题。

实现本发明目的的技术解决方案为：一种基于多样化语义注意力模型的细粒度实体分类方法，包括如下步骤：

步骤1，基于切分长度和步长，从输入句子中裁剪出单词和长度不同的多个注意力片段，组合得到句子的多样化注意力片段序列；

步骤2，构建多样化语义注意力模型，包括注意力图预测模型与注意力特征集成模型两部分，其中，注意力图预测模型先对注意力片段进行语境化词向量编码，再结合实体的注意力权重和上下文词的注意力权重计算注意力特征，整合得到注意力图；注意力特征集成模型根据前一时刻注意力图，更新实体的注意力权重和上下文词的注意力权重；

步骤3，构建多样性约束，包括注意力图约束和注意力片段约束，结合分类损失，确定最终的损失函数，用于训练多样化语义注意力模型；

步骤4，利用训练好的多样化语义注意力模型，确定多样化注意力片段序列对应的注意力图，结合softmax网络，预测每个时间步长对于每个细粒度实体类别分类结果，综合得到输入句子中实体的预测结果。

进一步的，步骤1中，基于切分长度和步长，从输入句子中裁剪出单词和长度不同的多个注意力片段，组合得到句子的多样化注意力片段序列，具体方法为：首先根据定义的切分长度大小裁剪注意力片段，并沿输入序列方向按着步长前进，按照这种策略，生成的注意力片段具有不同单词和长度，然后将所有注意力片段将组成一个序列，并且将长片段放在短片段之前。

进一步的，步骤2中，构建多样化语义注意力模型，包括注意力图预测模型与注意力特征集成模型两部分，具体方法为：

步骤2.1，构建注意力图预测模型，首先使用预训练的语境化词向量对输入的注意力片段进行编码，然后采用基于实体语义的注意力机制从语句中提取最相关的特征来形成注意力特征；

1)注意力片段编码

为了捕获不同上下文中的词语义，对输入的注意力片段进行语境化词向量编码，所述语境化词向量编码采用上下文词表示方法，得到上下文词表示指在t时刻，注意力片段为S_t＝{w₁,w₂,...,w_L}的上下文词表示，其中/>是与注意力片段中第i个单词w_i对应的d_r维表示,L是注意力片段的长度；

2)实体表示

为了让模型关注具有更多信息的单词，通过注意力机制表示一个由M个单词组成的实体m，t时刻实体m的注意力机制m_t如下：

其中，r_t,i是t时刻第i个单词的基于语境化词向量编码的上下文表示，t时刻实体m的注意力权重计算如下：

其中，与/>是训练参数，d_a是隐藏注意层的维度；

3)基于实体语义的注意力机制

为了针对不同的信息去关注注意力片段的不同部分，采用基于实体语义的方法计算上下文词的注意力权重，结合LSTM单元上一时刻的隐藏状态h_t-1共同确定新的注意力图；给定一个注意力片段S在t时刻的上下文c，通过注意机制以及上下文词向量将t时刻的上下文c_t表示为：

其中，C是上下文的单词总数，且的定义是：

其中，表示级联，W_i ^h表示从上一个隐藏状态h_t-1到注意力图的第i个位置的连接权重，同样的，W_i ^C表示从上下文词向量到第i个注意力图的权重；

最后，通过将m_t和c_t串联起来，形成t时刻注意力片段S的注意力特征：

步骤2.2，注意力特征集成模型构建

采用双向LSTM网络构建注意力特征集成模型，该模型将注意力图预测模型输出的注意力特征作为输入，更新LSTM的记忆单元状态和隐藏状态，其中LSTM的记忆单元状态和隐藏状态的初始态，是将所有注意力特征的平均值用作MLP的输入得到：

其中，f_init,c和f_init,h是MLP的两个已知函数，T是总时刻，这些初始值被用来计算第一个上下文注意力图的权重从而确定了初始的注意力特征x₁。

进一步的，步骤3中，构建多样性约束，包括注意力图约束和注意力片段约束，结合分类损失，确定最终的损失函数，具体方法为：

步骤3.1，注意力图约束构建

忽略相邻时刻注意力图之间的相关性会导致在不同时刻生成的注意力图可能非常相似的问题，从而降低了注意力特征的多样性，为此，定义相邻时刻注意力图之间的相关性来约束注意力图，定义如下：

其中，是在t时刻对上下文词进行softmax之后，注意力图的第i个注意力权重的值，T是总的时间步。

步骤3.2，注意力片段约束构建

忽略时间相邻注意力片段之间的关系会导致所生成的注意力片段可能彼此具有较大的重叠，并且忽略了一些具有区分性的注意力片段，为此，定义时间相邻注意力片段的重叠比例来约束注意力片段，定义如下：

其中，Supp[S_t]是指注意力片上的support词汇，用于选择attentive词汇，|Supp[S_t-1]∩Supp[S_t]|是Supp[S_t-1]和Supp[S_t]之间相交词的数量，K是原始句子的长度；

步骤3.3，损失函数构建

结合分类损失和多样性度量，以及对注意力片段的约束，最终的损失函数定义为：

其中，y_t,i是在t时刻的类别概率的one-hot标签向量，是在时刻t属于类别i的概率，λ是控制惩罚程度的系数，β是设定的阈值。

进一步的，步骤4中，利用训练好的多样化语义注意力模型，确定多样化注意力片段序列对应的注意力图，结合softmax网络，预测每个时间步长对于每个细粒度实体类别分类结果，综合得到输入句子中实体的预测结果，具体方法为：将多样化注意力片段序列输入训练好的多样化语义注意力模型，整合得到注意力图，经过softmax网络对每个类别进行结果预测，得到每个时间步长对于每个细粒度实体类别分类结果，对所有时间步长的分类结果的预测值进行求取平均值，获得所有细粒度实体类别中预测值最大的实体类别，此实体类别就是输入句子中实体的预测结果。

一种基于多样化语义注意力模型的细粒度实体分类系统，基于所述的方法进行细粒度实体分类。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的方法进行细粒度实体分类。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法进行细粒度实体分类。

本发明与现有技术相比，其显著优点为：1)采用了多样性语义注意力模型，该模型整合了面向句子完整表示的粗粒度全局特征和面向区分性语义差异的细粒度多样性注意力特征，形成了涵盖更多语句信息的多样性注意力特征，能够更准确的关注到语句中微妙的语义信息；2)采用了基于实体语义的注意力机制方法，将实体的注意力权重与上下文的注意力权重结合起来，能够关注更多语句中的不同信息，提高了细粒度实体分类的精度；3)采用了多样性约束模型，该模型包括注意力图约束与注意力片段约束，注意力图约束使生成的注意力图更具有代表性，注意力片段约束减少了片段的重叠，保证了不同片段之间的差异性，两种约束的结合显著的提高了分类精度。

附图说明

图1是基于多样化语义注意力模型的细粒度实体分类方法的框架图；

图2是多样化语义注意力模型框架图；

图3是注意力图预测模型框架图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，本发明一种基于多样化语义注意力模型的细粒度实体分类方法，包括如下步骤：

步骤1，注意力片段生成

为了使注意力特征多样化，采用了一种基于切分长度和步长大小的注意力片段生成方法，用于从输入句子中裁剪出单词和长度不同的多个注意力片段。一些注意力片段包含实体，而其他仅包含上下文词的一部分，这有利于捕获多种区分性语义特征，以实现更好的细粒度实体分类的准确性。

切分的长度和步长大小共同决定了要生成的注意力片段的数量。注意力片段将根据定义的切分长度大小进行裁剪，并沿输入序列方向按着步长前进。按照这种策略，生成的注意力片段将覆盖具有不同单词和长度的输入句子的大多数信息。所有注意力片段将组成一个序列，并且将长片段放在短片段之前。通过这种方式，语义注意力模型将首先关注句子的主要信息，然后进一步关注句子的局部信息。通过上述注意力片段生成方法，获得了句子的多样化注意力片段序列，以训练注意力机制网络层来学习其特征表示。

步骤2，多样化语义注意力模型构建

多样化语义注意力模型中包含注意力图预测模型与注意力特征集成模型两部分，如图2所示。主要是为了将同时发现不同注意力特征的问题转换为多次发现不同注意力特征的问题。具体分为以下几个步骤：

步骤2.1，注意力图预测模型构建

注意力图预测模型框架图如图3所示，首先使用预训练的语境化词向量对输入的注意力片段进行编码，然后采用基于实体语义的注意力机制从语句中提取最相关的特征来形成注意力特征。

1)注意力片段编码

该模型中的编码方式不同于其他技术中使用word2vec等常用的词向量进行编码，而是结合上下文的语义，对输入的注意力片段进行语境化词向量编码。语境化词向量编码采用上下文词表示方法，而不是现有的词嵌入法。上下文词表示方法可以捕获不同上下文中的词语义。具体的上下文词表示指在t时刻，注意力片段为S_t＝{w₁,w₂,...,w_L}的上下文词表示，其中/>是与注意力片段中第i个单词w_i对应的d_r维表示,L是注意力片段的长度。

2)实体表示

其中，与/>是训练参数，d_a是隐藏注意层的维度。

3)基于实体语义的注意力机制

采用基于实体语义的方法计算上下文词的注意力权重，并且采用LSTM单元h_t-1的隐藏状态共同确定新的注意力图，从而使模型可以针对不同的信息去关注注意力片段的不同部分。给定一个注意力片段S在t时刻的上下文c，通过注意机制以及上下文词向量将t时刻的上下文c_t表示为：

其中，C是上下文的单词总数，且的定义是：

其中，表示级联，W_i ^h表示从上一个隐藏状态h_t-1到注意力图的第i个位置的连接权重。同样的，W_i ^C表示从上下文词向量到第i个注意力图的权重。

步骤2.2，注意力特征集成模型构建

采用了双向LSTM网络构建注意力特征集成算法模型，该模型使用多层感知器(MLP)初始化LSTM的记忆单元状态和隐藏状态，并将所有注意力特征的平均值用作MLP的输入：

该模型将注意力图预测模型的输出结果作为注意力特征集成模型的输入，输入的是注意力特征。

步骤3，多样性约束构建

在基于注意力机制的实体分类方法中，往往只关注最小化分类的损失函数而没有去关注更多的语句信息。传统方法的最小化分类的分类损失函数如下所示：

其中，y_i表示实体是否属于类别i，N^c是类别的总数，是类别i的概率。虽然上述方法在具有明显语义区别的实体分类中效果很好，但是当不同实体之间的语义差别不明显时，该方法的分类结果变得不大准确。为了解决在不同时刻输入的注意力片段是相同时，生成的注意力图也可能是相同的问题，提出了一种多样性约束模型来确保注意力特征的多样性，该模型包括注意图约束与注意段约束。

步骤3.1，注意力图约束构建

忽略了相邻时刻注意力图之间的相关性会导致在不同时刻生成的注意力图可能非常相似的问题，从而降低了注意力特征的多样性。为此，提出了一种直观的多样性指标来计算相邻时刻注意力图之间的相关性，定义如下：

其中，是在t时刻对上下文词进行softmax之后，注意力图的第i个注意力权重的值，T是总的时间步。一般来说，如果相邻的两个注意力图是相似的，ΔL_maps L_div的值会很大。

步骤3.2，注意力片段约束构建

忽略时间相邻注意力片段之间的关系会导致所生成的注意力片段可能彼此具有较大的重叠，并且忽略了一些具有区分性的注意力片段。为此，提出了对注意力片段的单词的片段约束，其将时间相邻注意力片段的重叠比例限制为小于设定的阈值。其约束定义如下：

其中，Supp[S_t]是指注意力片上的support词汇，用于选择attentive词汇，|Supp[S_t-1]∩Supp[S_t]|是Supp[S_t-1]和Supp[S_t]之间相交词的数量，K是原始句子的长度，β是设定的阈值。

步骤3.3，损失函数构建

其中，y_t,i是在t时刻的类别概率的one-hot标签向量，是在时刻t属于类别i的概率，λ是控制惩罚程度的系数，β是设定的阈值。上述多样性约束模型的目的是为了提高注意力的多样性，包含如下两部分：第一是通过ΔL_maps使得注意力图的多样性最大化；第二是通过ΔL_segments减少了相邻时刻注意力片段的重复比例。

将多样化注意力片段序列输入训练好的多样化语义注意力模型，整合得到注意力图，经过softmax网络对每个类别进行结果预测，得到每个时间步长对于每个细粒度实体类别分类结果，对所有时间步长的分类结果的预测值进行求取平均值，获得所有细粒度实体类别中预测值最大的实体类别，此实体类别就是输入句子中实体的预测结果。

本发明还提出一种基于多样化语义注意力模型的细粒度实体分类系统，基于所述的方法进行细粒度实体分类。

实施例

为了验证本发明方案的有效性，进行如下仿真实验。

步骤1：生成注意力片段。例如，输入的句子为：Skeptics wonder whether mega-resorts such as the Mirage will be able to squeeze aprofit from their cashflow。根据步骤1中设定的切分长度和切分步长大小，可将输入句子分别切分为：Skepticswonder whether mega-resorts such as、wonder whether mega-resorts such as theMirage will be able to squeeze aprofit、the Mirage will be able to squeezeaprofit from their cash flow等句子。

步骤2：对步骤1中切分的多个句子进行语境化词向量编码，以步骤1中的例句进行说明，句子的词向量编码为[-0.13128 -0.452 0.043399 -0.99798 -0.21053 -0.95868 -0.24609 0.48413 0.18178 0.475 -0.22305 0.30064 0.43496 -0.3605 0.20245 -0.52594 -0.34708 0.0075873 -1.0497 0.18673 0.57369 0.43814 0.098659 0.3877 -0.2258 0.41911 0.043602 -0.7352 -0.53583 0.19276 -0.21961 0.42515 -0.190820.47187 0.18826 0.13357 0.41839 1.3138 0.35678 -0.32172 -1.2257 -0.266350.36716 -0.27586 -0.53246 0.16786 -0.11253 -0.99959 -0.60706 -0.89271 0.65156-0.88784 0.049233 0.67111 -0.27553 -2.4005 -0.36989 0.29136 1.3498 1.73530.27 0.021299 0.14422 0.023784 0.33643 -0.35476 1.0921 1.4845 0.4943 0.156880.34679 -0.57221 0.12093 -1.2616 1.0541 0.064335 -0.002732 0.19038 -1.76430.055068 1.4737 -0.41782 -0.57342 -0.12129 -1.3169 -0.73883 0.17682 -0.019991-0.49176 -0.55247 1.0623 -0.62879 0.29098 0.13238 -0.70414 0.67128 -0.085462-0.30526 -0.045495 0.56509]；

由公式(2)计算步骤1例句中单个实体“Mirage”的注意力权重为0.46558224；

采用基于实体语义的方法计算上下文词的注意力权重，由公式(5)可得，上下文词的注意力权重为[0.14600248 0.2210985 0.00450314 0.00282479 0.0653349 0.03428360.020366951 0.7985722 0.1774152 0.2230793 0.01095348 0.04880033 0.133442030.07942571]；

步骤3：采用基于实体语义的注意力机制计算每个句子的注意力特征，最后采用LSTM单元h_t-1的隐藏状态共同确定新的注意力图。

步骤4：将整合之后的注意力图，经过softmax网络对每个类别进行结果预测，例如对于类别“公司”，计算15个时间步长的结果，获得每个时间步长的预测结果[0.81,0.79,0.84,0.83,0.89,0.78,0.83,0.82,0.81,0.84,0.85,0.84,0.85,0.77,0.88]，并对所有时间步长的预测结果求平均值0.83。根据以上步骤计算出每个类别预测结果的平均值，根据最大的平均值确定该实体的细粒度类别。在实体“Mirage”的预测结果平均值中，0.83为最大值，所以得到“Mirage”的预测实体类别为“公司”。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多样化语义注意力模型的细粒度实体分类方法，其特征在于，包括如下步骤：

步骤4，利用训练好的多样化语义注意力模型，确定多样化注意力片段序列对应的注意力图，结合softmax网络，预测每个时间步长对于每个细粒度实体类别分类结果，综合得到输入句子中实体的预测结果；

步骤3中，构建多样性约束，包括注意力图约束和注意力片段约束，结合分类损失，确定最终的损失函数，具体方法为：

步骤3.1，注意力图约束构建

其中，是在t时刻对上下文词进行softmax之后，注意力图的第i个注意力权重的值，T是总的时间步；

步骤3.2，注意力片段约束构建

步骤3.3，损失函数构建

2.根据权利要求1所述基于多样化语义注意力模型的细粒度实体分类方法，其特征在于，步骤1中，基于切分长度和步长，从输入句子中裁剪出单词和长度不同的多个注意力片段，组合得到句子的多样化注意力片段序列，具体方法为：首先根据定义的切分长度大小裁剪注意力片段，并沿输入序列方向按着步长前进，按照这种策略，生成的注意力片段具有不同单词和长度，然后将所有注意力片段将组成一个序列，并且将长片段放在短片段之前。

3.根据权利要求1所述基于多样化语义注意力模型的细粒度实体分类方法，其特征在于，步骤2中，构建多样化语义注意力模型，包括注意力图预测模型与注意力特征集成模型两部分，具体方法为：

1)注意力片段编码

2)实体表示

其中，与/>是训练参数，d_a是隐藏注意层的维度；

3)基于实体语义的注意力机制

其中，C是上下文的单词总数，且的定义是：

步骤2.2，注意力特征集成模型构建

4.根据权利要求1所述基于多样化语义注意力模型的细粒度实体分类方法，其特征在于，步骤4中，利用训练好的多样化语义注意力模型，确定多样化注意力片段序列对应的注意力图，结合softmax网络，预测每个时间步长对于每个细粒度实体类别分类结果，综合得到输入句子中实体的预测结果，具体方法为：将多样化注意力片段序列输入训练好的多样化语义注意力模型，整合得到注意力图，经过softmax网络对每个类别进行结果预测，得到每个时间步长对于每个细粒度实体类别分类结果，对所有时间步长的分类结果的预测值进行求取平均值，获得所有细粒度实体类别中预测值最大的实体类别，此实体类别就是输入句子中实体的预测结果。

5.一种基于多样化语义注意力模型的细粒度实体分类系统，基于权利要求1-4任一项所述的方法进行细粒度实体分类。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-4任一项所述的方法进行细粒度实体分类。

7.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法进行细粒度实体分类。