CN113254592B

CN113254592B - 基于门机制的多级注意力模型的评论方面检测方法及系统

Info

Publication number: CN113254592B
Application number: CN202110669829.0A
Authority: CN
Inventors: 王思宇; 黄鹏; 江岭
Original assignee: Chengdu Xiaoduo Technology Co ltd
Current assignee: Chengdu Xiaoduo Technology Co ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-10-22
Anticipated expiration: 2041-06-17
Also published as: CN113254592A

Abstract

本发明提供一种基于门机制的多级注意力模型的评论方面检测方法及系统，待处理的句子转换为嵌入词形式的词向量矩阵后使用双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理，得到每个时间步的隐藏状态，并根据隐藏状态得到整个句子的隐藏状态向量矩阵作为该句子的编码；根据该隐藏状态向量矩阵计算对应的句子级自注意特征矩阵；计算各个时间步相对于最后一个时间步的权重，并根据该权重和隐藏状态计算得到对应的词级自注意特征向量；对句子级自注意特征矩阵进行拉伸操作并通过全连接层得到句子级自注意力特征向量，通过一个门机制混合句级注意力的向量和词级注意力的向量后根据得到的向量分析句子的方面类别概率，确定句子的方面类别。

Description

基于门机制的多级注意力模型的评论方面检测方法及系统

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种基于门机制的多级注意力模型的评论方面检测方法及系统。

背景技术

近年来，情感分析和意见挖掘已成为学术界和行业的热门领域。该领域的挑战之一是为评论中的各个方面分配标签，称为评论方面类别检测（ACD）。例如，一句评论“这家饭店的服务员的态度真好”可以被指定为“服务”方面类别或标签。而一句话“这家饭店的食物很一般，但是环境还是非常不错的”可以分配两个标签，即“环境”和“食品”。方面类别检测任务可以帮助公司从客户那里获得更详尽的意见和建议，从而改善自身公司的产品或服务。以前对ACD的研究分为两类：（1）基于词典的方法和（2）基于机器学习的方法。基于词典的方法不需要标记的数据集，但是需要某些设计好的规则，并且该方法不能很好地处理包含许多隐式语义的句子。基于机器学习的方法，比如SVM，神经网络模型在ACD任务中取得了很好的效果。

例如，何等人引入了深度学习模型中的注意力机制来识别评论中的关键字。他们使用LSTM的最后一个时间步长（或所有时间步长的平均值）的输出作为整个句子的表示向量，然后计算每个时间步长与最后一个时间步长（或所有时间步长的平均值）之间的相似度来分别获得句子中词的注意力权重。但是，在ACD任务中，一个句子可能描述多个方面类别，而且可能比平时更长。因此，对这些长句子进行编码会导致LSTM的长期记忆负担。另外，使用最后一个时间步长或平均值可能会导致语义信息的丢失，因此使该方法在较长的句子中表现不佳。例如，一句长评论：“我午休时间到了这个很棒的小地方，店里有很棒的炸玉米饼和芙蓉柠檬水。”这个句子的前半部分描述了氛围方面，在后半部分描述了饮食方面。我们发现词级别自我注意力模型可以正确识别食物方面，但无法识别环境方面。又比如，林等人提出了一种句子级的自我注意力机制来应对长期记忆负担的挑战。这种方法可以增强模型处理多方面长句子的能力。然而这种方法在处理短句子时，句子级别的注意力有时不能像词级别的注意力那样有效。例如，有人评论说“我受不了这个地方”，针对这种评论我们试验了这种方法，发现句子级别的注意力模型无法正确预测“环境”方面。

因此，需要提供一种方案以提高评论方面类别检测结果的准确性。

发明内容

本发明的目的在于提供一种基于门机制的多级注意力模型的评论方面检测方法及系统，用以实现提高评论方面类别检测结果的准确性的技术效果。

第一方面，本发明提供了一种基于门机制的多级注意力模型的评论方面检测方法，包括：

S1.获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵；

S2.通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理，得到每个时间步的隐藏状态h _t，并根据每个时间步的隐藏状态h _t得到整个句子的隐藏状态向量矩阵H作为该句子的编码；

S3.根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布，得到对应的句子级自注意力权重矩阵A，并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M；

S4. 计算各个时间步相对于最后一个时间步的权重a _t，并根据所述权重a _t和所述隐藏状态h _t计算得到对应的词级自注意特征向量v _w；实现方式为：

上式中，n表示每个句子中嵌入词的总数；h _t表示句子中第t个时间步的隐藏状态；h _l表示句子中最后一个时间步的隐藏状态；W _a3表示句子中第t个时间步的权重映射矩阵；W _a4表示句子中最后一个时间步的权重映射矩阵；score（.）表示权重评分函数；

S5. 对所述句子级自注意特征矩阵M进行拉伸操作，然后送入第一全连接层得到句子级自注意力特征向量v _s；根据所述词级自注意特征向量v _w和所述句子级自注意力特征向量v _s ，将两个向量通过门机制融合后得到最终表示向量z，并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率，确定句子的方面类别。

进一步地，所述S2包括：

S21.通过双向LSTM神经网络对各个词向量进行处理得到每个时间步的隐藏状态

和

，t表示第t个时间步；

S22. 将每个时间步的隐藏状态

和

进行拼接，获得每个时间步的隐藏状态h _t；

S23. 将所有时间步的隐藏状态h _t进行整合，得到整个句子的隐藏状态向量矩阵H。

进一步地，所述S3的实现方式为：

M=AH

上式中，Softmax表示Softmax函数；tanh表示双曲正切函数；W _a1是大小为d×2u的权重矩阵；W _a2是大小为r×d的权重矩阵；d表示矩阵维度；H ^T表示隐藏状态向量矩阵H的转置矩阵；句子级自注意力权重矩阵A是一个大小为r×n的矩阵；句子级自注意特征矩阵M∈R^r ^×2u，r和u表示超参数，R表示实数矩阵；n表示每个句子中嵌入词的总数。

进一步地，所述S5的实现方式为：

上式中，flatten（.）表示拉伸操作函数；W _f和b _f表示第一全连接层的学习参数；G表示门函数，用于计算两个向量v _{s ,} v _w按照何等比例融合；W _g1表示句子级自注意力特征向量v _s的权重矩阵；W _g2表示词级自注意特征向量v _w的权重矩阵；p表示句子的方面类别概率；W _c和b _c表示第二全连接层的学习参数。

进一步地，所述方法还包括通过目标函数L₁对方面类别的预测结果进行优化：

式中，N表示用于进行优化的小批量数据集mini-batch的大小，y _i ^m表示小批量数据集mini-batch中句子的真实方面类别标签；p _i ^m表示小批量数据集mini-batch中句子的预测方面类别标签。

第二方面，本发明提供了一种基于门机制的多级注意力模型的评论方面检测系统，，包括：

获取模块，用于获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵；

句子编码模块，用于通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理，得到每个时间步的隐藏状态h _t，并根据每个时间步的隐藏状态h _t得到整个句子的隐藏状态向量矩阵H作为该句子的编码；

句子级自注意分析模块，用于根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布，得到对应的句子级自注意力权重矩阵A，并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M；

词级自注意分析模块，计算各个时间步相对于最后一个时间步的权重a _t，并根据所述权重a _t和所述隐藏状态h _t计算得到对应的词级自注意特征向量v _w；实现方式为：

句子方面类别分析模块，用于对所述句子级自注意特征矩阵M进行拉伸操作，然后送入第一全连接层得到句子级自注意力特征向量v _s；根据所述词级自注意特征向量v _w和所述句子级自注意力特征向量v _s ，将两个向量通过门机制融合后得到最终表示向量z，并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率，确定句子的方面类别。

本发明能够实现的有益效果是：本发明先将待处理的句子转换为嵌入词形式的词向量矩阵；其次，使用双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理，得到每个时间步的隐藏状态，并根据该隐藏状态得到整个句子的隐藏状态向量矩阵作为该句子的编码；再次，根据该隐藏状态向量矩阵计算对应的句子级自注意特征矩阵；然后，计算各个时间步相对于最后一个时间步的权重a _t，并根据该权重a _t和隐藏状态h _t计算得到对应的词级自注意特征向量v _w；最后，对句子级自注意特征矩阵M进行拉伸操作并通过一个全连接层得到句子级自注意力特征向量v _s，根据该句子级自注意力特征向量v _s和词级自注意特征向量v _w再结合门机制计算得到最终表示向量z，并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率，确定句子的方面类别。通过上述过程中的句子级自注意力特征向量v _s和词级自注意特征向量v _w联合进行评论方面类别检测，提高了评论方面类别检测结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种基于门机制的多级注意力模型的评论方面检测方法的总体流程示意图；

图2为本发明实施例提供的一种基于门机制的多级注意力模型的评论方面检测系统的拓扑结构示意图。

图标：10-方面类别检测系统；100-获取模块；200-句子编码模块；300-句子级自注意分析模块；400-词级自注意分析模块；500-句子方面类别分析模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参看图1，图1为本发明实施例提供的一种基于门机制的多级注意力模型的评论方面检测方法的总体流程示意图。

在一种实施方式中，本发明实施例提供了一种基于门机制的多级注意力模型的评论方面检测，其具体内容如下所述。

S1.获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵。

具体地，句子由嵌入词的形式组成的词向量矩阵可以表示为：

其中，x _t表示句子中的第t个嵌入词；矩阵S为实数矩阵，且S∈R^n×d，n表示嵌入词的总数，d为嵌入词的向量维度，R表示实数。

S2.通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理，得到每个时间步的隐藏状态h _t，并根据每个时间步的隐藏状态h _t得到整个句子的隐藏状态向量矩阵H作为该句子的编码。

在一种实施方式中，S2具体包括以下步骤：

和

，t表示第t个时间步，具体处理方式如下：

S22. 将每个时间步的隐藏状态

和

进行拼接，获得每个时间步的隐藏状态h _t。

在一种实施方式中，可以将

和

连接起来，以获得一个长度为2u的第t个时间步长的隐藏状态h _t：

在一种实施方式中，可以将各个隐藏状态h _t整合为一个n×2u的隐藏状态向量矩阵H：

S3.根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布，得到对应的句子级自注意力权重矩阵A，并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M。

在一种实施方式中，S3的实现方式为：

M=AH

S4. 计算各个时间步相对于最后一个时间步的权重a _t，并根据所述权重a _t和所述隐藏状态h _t计算得到对应的词级自注意特征向量v _w。

在一种实施方式中，S4的实现方式为：

上式中，n表示每个句子中嵌入词的总数；h _t表示句子中第t个时间步的隐藏状态；h _l表示句子中最后一个时间步的隐藏状态；W _a3表示句子中第t个时间步的权重映射矩阵；W _a4表示句子中最后一个时间步的权重映射矩阵；score（.）表示权重评分函数。

在一种实施方式中，所述S5的实现方式为：

在上述实现过程中，先将待处理的句子转换为嵌入词形式的词向量矩阵；其次，使用双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理，得到每个时间步的隐藏状态，并根据该隐藏状态得到整个句子的隐藏状态向量矩阵作为该句子的编码；再次，根据该隐藏状态向量矩阵计算对应的句子级自注意特征矩阵；然后，计算各个时间步相对于最后一个时间步的权重a _t，并根据该权重a _t和隐藏状态h _t计算得到对应的词级自注意特征向量v _w；最后，对句子级自注意特征矩阵M进行拉伸操作并通过一个全连接层得到句子级自注意力特征向量v _s，根据该句子级自注意力特征向量v _s和词级自注意特征向量v _w再结合门机制计算得到最终表示向量表示向量z，并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率，确定句子的方面类别。通过上述过程中的句子级自注意力特征向量v _s和词级自注意特征向量v _w联合进行评论方面类别检测，提高了评论方面类别检测结果的准确性。

在上述方法的基础之上，本发明提供的方面类别检测方法还包括：

通过目标函数L₁对方面类别的预测结果进行优化：

通过上述实施方式，可以进一步提高预测结果的准确性。

请参看图2，图2为本发明实施例提供的一种基于门机制的多级注意力模型的评论方面检测系统的拓扑结构示意图。

在一种实施方式中，本发明实施例还提供了一种基于门机制的多级注意力模型的评论方面检测系统10，包括：

获取模块100，用于获取待处理的句子并将该句子转换为嵌入词形式的词向量矩阵；

句子编码模块200，用于通过双向LSTM神经网络对所述词向量矩阵中的各个词向量进行处理，得到每个时间步的隐藏状态h _t，并根据每个时间步的隐藏状态h _t得到整个句子的隐藏状态向量矩阵H作为该句子的编码；

句子级自注意分析模块300，用于根据所述隐藏状态向量矩阵H计算各个方面中每个单词的概率分布，得到对应的句子级自注意力权重矩阵A，并根据所述句子级自注意力权重矩阵A和所述隐藏状态向量矩阵H计算得到对应的句子级自注意特征矩阵M；

词级自注意分析模块400，用于计算各个时间步相对于最后一个时间步的权重a _t，并根据所述权重a _t和所述隐藏状态h _t计算得到对应的词级自注意特征向量v _w；实现方式为：

句子方面类别分析模块500，对所述句子级自注意特征矩阵M进行拉伸操作，然后送入第一全连接层得到句子级自注意力特征向量v _s；根据所述词级自注意特征向量v _w和所述句子级自注意力特征向量v _s ，将两个向量通过门机制融合后得到最终表示向量z，并将所述最终表示向量z送入第二全连接层得到句子的方面类别概率，确定句子的方面类别。

在一种实施方式中，本发明实施例还可以提供一种电子设备，该电子设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序以实现上述的方法步骤。

综上所述，本发明实施例提供一种基于门机制的多级注意力模型的评论方面检测方法及系统，通过上述过程中的句子级自注意力特征向量v _s和词级自注意特征向量v _w再结合门机制计算得到最终表示向量进行评论方面类别检测，提高了评论方面类别检测结果的准确性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于门机制的多级注意力模型的评论方面检测方法，其特征在于，包括:

2.根据权利要求1所述的方法，其特征在于，所述S2包括：

和

，t表示第t个时间步；

S22. 将每个时间步的隐藏状态

和

进行拼接，获得每个时间步的隐藏状态h _t；

3.根据权利要求1所述的方法，其特征在于，所述S3的实现方式为：

M=AH

上式中，Softmax表示Softmax函数；tanh表示双曲正切函数；W _a1是大小为d×2u的权重矩阵；W _a2是大小为r×d的权重矩阵；d表示矩阵维度；H ^T表示隐藏状态向量矩阵H的转置矩阵；句子级自注意力权重矩阵A是一个大小为r×n的矩阵；句子级自注意特征矩阵M∈R^r×2u，r和u表示超参数，R表示实数矩阵；n表示每个句子中嵌入词的总数。

4.根据权利要求1所述的方法，其特征在于，所述S5的实现方式为：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括通过目标函数L₁对方面类别的预测结果进行优化：

6.一种基于门机制的多级注意力模型的评论方面检测系统，其特征在于，包括：

词级自注意分析模块，用于计算各个时间步相对于最后一个时间步的权重a _t，并根据所述权重a _t和所述隐藏状态h _t计算得到对应的词级自注意特征向量v _w；实现方式为：