CN113792148A

CN113792148A - 一种基于序列到序列的评论方面类别检测方法及系统

Info

Publication number: CN113792148A
Application number: CN202111344305.0A
Authority: CN
Inventors: 王思宇; 黄鹏; 江岭
Original assignee: Chengdu Xiaoduo Technology Co ltd
Current assignee: Chengdu Xiaoduo Technology Co ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2021-12-14
Anticipated expiration: 2041-11-15
Also published as: CN113792148B

Abstract

本发明提供一种基于序列到序列的评论方面类别检测方法及系统，执行时通过BiLSTM模型获取句子的词嵌入矩阵中每个词的隐藏状态，进而得到各个句子的隐藏状态；然后根据预设的自注意力权重矩阵和各个句子的隐藏状态进行乘法运算得到各个句子的自注意力嵌入矩阵，将其变换为一维向量并通过一个全连接层进行处理得到各个句子的句子特征向量；再次，获取当前句子的上一句子的方面类别嵌入向量、上下文向量和第一输出隐藏状态并进行合并后通过LSTM网络分析得到当前句子的第二输出隐藏状态；最后，将第二输出隐藏状态和当前句子的句子特征向量进行拼接后通过一个全连接层和softmax函数进行处理，得到用户评论的方面类别检测结果。

Description

一种基于序列到序列的评论方面类别检测方法及系统

技术领域

本发明涉及电子商务技术领域，具体而言，涉及一种基于序列到序列的评论方面类别检测方法及系统。

背景技术

随着在线购物的兴起，评论开始爆发式的增长，比如在很多购物网站上都会有成千上万条关于餐厅或酒店的评论，这些评论涉及食物，价格，环境，服务等。很显然一般的用户很难使用这些庞大的数据提取信息。因此，基于方面情绪分析（ABSA）开始出现，这种方法旨在自动从这些评论中提取有用的信息。尤其方面类别检测（ACD）它是 ABSA 的子任务，主要侧重于如何为每条评论分配方面类别。例如，"服务"可以分配给评论"这家餐厅的服务真的很好！两类"服务"和"食物"需要分配给评论"餐厅的服务员非常好，但菜肴真的很一般！

通常，一条评论包含多个句子，每个句子又可能包含多个方面类别。因此，ACD可视为多标签分类任务。鉴于此，许多以前的研究利用一对一的分类模型为每个方面类别训练一个分类器，并取得了良好的效果。但是训练多个分类器是一项耗时且耗费资源的工作。为了解决这个问题，一些研究人员应用Sequence2Sequence（序列到序列）模型来解决多标签分类的问题，该方法取得了良好的效果。同样，Sequence2Sequence 也可用于生成方面类别。但是，在大多数情况下，基于用户的写作习惯，评论中的句子通常只描述一个方面类别。如果仅使用 Sequence2Sequence模型以生成多标签序列的相同方式来生成方面类别，则对预测结果的准确性会造成影响。因此，需要提供一种方案以提高方面类别预测的性能。

发明内容

本发明的目的在于提供一种基于序列到序列的评论方面类别检测方法及系统，用以实现提高句子的方面类别预测的准确性技术效果。

第一方面，本发明提供了一种基于序列到序列的评论方面类别检测方法，包括：

S1.获取若干条已知方面类别的用户评论中各个句子的隐藏状态；

S2.根据自注意力权重矩阵和各个句子的隐藏状态进行乘法运算得到各个句子的自注意力嵌入矩阵；

S3.将所述自注意力嵌入矩阵变换为一维向量并通过一个全连接层进行处理得到各个句子的句子特征向量；

S4. 获取初始化的方面类别嵌入向量和当前句子的上下文向量，并将初始化的方面类别嵌入向量、当前句子的上下文向量和隐藏状态进行合并后通过LSTM网络进行处理得到所述当前句子初始时刻的输出隐藏状态和方面类别嵌入向量；

S5.将所述当前句子上一时刻的输出隐藏状态、方面类别嵌入向量和上下文向量合并后再次通过LSTM网络进行处理得到当前时刻的输出隐藏状态和方面类别嵌入向量；以此循环，直到识别到所述当前句子的尾部后输出各个句子的最终输出隐藏状态；

S6.将所述当前句子的最终输出隐藏状态与对应的句子特征向量进行拼接后通过一个全连接层和softmax函数进行处理，得到所述当前句子的方面类别检测结果。

进一步地，所述S2的实现方式为：

上式中，W _s1和W _s2均为权重矩阵；且

、W _s2∈R^r×d，R表示实数域，r是表示句子中方面类别个数的超参数，d和u ₂是表示矩阵大小的超参数；H表示句子的隐藏状态；H ^T表示H的转置矩阵；A表示预设的自注意力权重矩阵；

表示自注意力嵌入矩阵。

进一步地，所述S3的实现方式为：

上式中，v表示句子特征向量，且

，u ₃表示超参数；W ₁表示权重系数；b ₁表示偏置值；m表示自注意力嵌入矩阵M变换后的一维向量，且

。

进一步地，所述S5的实现方式为：

上式中，s _t表示当前句子的最终输出隐藏状态；g(y ^a _t-1)表示上一时刻当前句子的方面类别嵌入向量；y ^a _t-1表示上一时刻当前句子所属方面类别的概率分布。

进一步地，所述S6的实现方式为：

上式中，v表示句子特征向量；s _t表示当前句子的输出隐藏状态；W _f表示权重系数；b _f表示偏置值；y ^a _t表示当前句子的方面类别概率分布。

进一步地，所述方法还包括：

S7.通过一个全连接层和sigmoid函数预测S3中输出的句子特征向量对应句子包含多个方面类别的概率，根据所述概率和对应句子的真实方面类别的布尔变量构建目标函数；对S3中全连接层的参数进行优化；其中优化函数为：

上式中，N表示句子的总数；p ^c _n表示预测的句子是否包含多个方面类别的概率；y ^c _n表示真实方面类别的布尔变量，若当前句子包含多个方面类别则y ^c _n为0，若当前句子只有一个方面类别则y ^c _n为1。

进一步地，所述方法还包括：

S8.根据构建的目标函数对S6中全连接层的参数进行优化，其中所述目标函数为：

上式中，N表示句子的总数；M表示方面类别的总数；n表示第n个句子；m表示第m个方面类别；p ^a _nm表示第n个句子属于第m个方面类别的概率；y ^a _nm表示真实的方面类别标签。

进一步地，所述方法还包括：

S9. 根据所述目标函数和所述优化函数的权重对S1-S6执行过程中各个全连接层的参数和预设的自注意力权重矩阵进行优化：L=λ L _a+（1-λ）L _c，其中λ∈[0.0,1.0]用于控制两个损失函数的权重。

第二方面，本发明提供了一种基于序列到序列的评论方面类别检测系统，包括编码器、句子分类器、解码器和方面类别检测器；

所述编码器用于获取若干条已知方面类别的用户评论中各个句子的隐藏状态；

所述句子分类器用于根据预设的自注意力权重矩阵和各个句子的隐藏状态进行乘法运算得到各个句子的自注意力嵌入矩阵；将所述自注意力嵌入矩阵变换为一维向量并通过一个全连接层进行处理得到各个句子的句子特征向量；

所述解码器用于获取初始化的方面类别嵌入向量和当前句子的上下文向量，并将初始化的方面类别嵌入向量、当前句子的上下文向量和隐藏状态进行合并后通过LSTM网络进行处理得到所述当前句子初始时刻的输出隐藏状态和方面类别嵌入向量；将所述当前句子上一时刻的输出隐藏状态、方面类别嵌入向量和上下文向量合并后再次通过LSTM网络进行处理得到当前时刻的输出隐藏状态和方面类别嵌入向量；以此循环，直到识别到所述当前句子的尾部后输出各个句子的最终输出隐藏状态；

所述方面类别检测器用于将所述当前句子的最终输出隐藏状态与对应的句子特征向量进行拼接后通过一个全连接层和softmax函数进行处理，得到所述当前句子的方面类别检测结果。

本发明能够实现的有益效果是：本发明提供的基于序列到序列的评论方面类别检测方法在序列到序列的模型上融合了句子分类器，可以更加准确地预测出评论中各个句子的方面类别，提高了句子的方面类别预测的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种基于序列到序列的评论方面类别检测方法的流程图；

图2为本发明实施例提供的一种基于序列到序列的评论方面类别检测系统的拓扑结构示意图。

图标：10-评论方面类别检测系统；100-编码器；200-句子分类器；300-解码器；400-方面类别检测器。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参看图1，图1为本发明实施例提供的一种基于序列到序列的评论方面类别检测方法的流程图。

在一种实施方式中，本发明实施例提供了一种基于序列到序列的评论方面类别检测方法，其具体内容如下所述。

S1.获取若干条已知方面类别的用户评论中各个句子的隐藏状态。

在一种实施方式中，上述过程包括：

S11.获取若干条已知方面类别的用户评论并构建所述用户评论中各个句子的词嵌入矩阵。

具体地，上述的用户评论可以从互联网中获取，也可以根据实际情况自行进行配置。各个句子的词嵌入矩阵通过词嵌入处理的方式获得。词嵌入处理是一种将文本进行数字化表示的处理方式，其能够将单词映射到高维的向量中以实现对单词的表示。若将多个单词分别映射到高维向量，那么得到的就是一个由多个高维向量组成的词嵌入矩阵。

S12.通过BiLSTM模型获取所述词嵌入矩阵中每个词的隐藏状态，并对每个词的隐藏状态进行拼接，得到各个句子的隐藏状态。

具体地，假设一条评论中的一个句子由以下词嵌入矩阵组成：

其中，

表示句子中第t个词的嵌入向量（t∈[1，n]）；u ₁表示词嵌入的维度；R表示实数域；n是句子的长度；

。

则通过BiLSTM模型两个方向读取文本序列并输出每个词的隐藏状态可得到：

结合

和

就可以获取隐藏状态h _t，其长度为2u ₂：

通过上述方式获取各个词的隐藏状态后，就可以进一步得到句子的整个隐藏状态

，H=（h ₁，h ₂，...，h _n）。

需要说明的是，上述的BiLSTM模型也可以使用双向GRU模型等进行代替，并不局限于只使用BiLSTM模型。

S2.根据预设的自注意力权重矩阵和各个句子的隐藏状态进行乘法运算得到各个句子的自注意力嵌入矩阵。

具体地，在一种实施方式中，S2的实现方式为：

上式中，W _s1和W _s2均为权重矩阵；且

表示自注意力嵌入矩阵。

S3.将所述自注意力嵌入矩阵变换为一维向量并通过一个全连接层进行处理得到各个句子的句子特征向量。

具体地，在一种实施方式中，S3的实现方式为：

上式中，v表示句子特征向量，且

。

S4. 获取初始化的方面类别嵌入向量和当前句子的上下文向量，并将初始化的方面类别嵌入向量、当前句子的上下文向量和隐藏状态进行合并后通过LSTM网络进行处理得到所述当前句子初始时刻的输出隐藏状态和方面类别嵌入向量。

具体地，当获取到用户评论中各个句子的自注意力嵌入矩阵和句子特征向量以后，就可以获取初始化的方面类别嵌入向量和待处理的当前句子的上下文向量，并将初始化的方面类别嵌入向量、当前句子的上下文向量和隐藏状态进行合并后通过LSTM网络进行处理得到当前句子初始时刻的输出隐藏状态和方面类别嵌入向量。

其中，初始化的方面类别嵌入向量可以根据需要识别的方面类别的总数构建，句子的上下文向量可以用目前的各种常用的上下文向量获取方式对句子进行处理得到，同时该步骤中的隐藏状态即为S1中获取的隐藏状态。

S5.将所述当前句子上一时刻的输出隐藏状态、方面类别嵌入向量和上下文向量合并后再次通过LSTM网络进行处理得到当前时刻的输出隐藏状态和方面类别嵌入向量；以此循环，直到识别到所述当前句子的尾部后输出各个句子的最终输出隐藏状态。

具体地，在一种实施方式中，S5的实现方式为：

具体地，在一种实施方式中，S6的实现方式为：

在一种实施方式中，为了提高预测结果的准确性，上述方法还包括：

S7.通过一个全连接层和sigmoid函数预测S3中输出的句子特征向量对应句子是否包含多个方面类别的概率，根据所述概率和对应句子的真实方面类别的布尔变量构建优化函数；对S3中全连接层的参数进行优化；其中优化函数为：

在一种实施方式中，上述方法还包括：S8.根据构建的目标函数对S6中全连接层的参数进行优化，其中目标函数为：

通过上述方式，可以提高句子方面类别预测的准确性。

在一种实施方式中，上述方法还包括：S9.根据目标函数和优化函数的权重对S1-S6执行过程中各个全连接层的参数和预设的自注意力权重矩阵进行优化：L=λ L _a+（1-λ）L _c，其中λ∈[0.0,1.0]用于控制两个损失函数的权重。

通过上述方式，可以根据两个损失函数所占的权重对预测结果进一步进行优化，使得预测结果更加准确。

请参看图2，图2为本发明实施例提供的一种基于序列到序列的评论方面类别检测系统的拓扑结构示意图。

在一种实施方式中，本发明实施例还提供了一种基于序列到序列的评论方面类别检测系统10，该评论方面类别检测系统10包括编码器100、句子分类器200、解码器300和方面类别检测器400；

编码器100用于获取若干条已知方面类别的用户评论中各个句子的隐藏状态；

句子分类器200用于根据预设的自注意力权重矩阵和各个句子的隐藏状态进行乘法运算得到各个句子的自注意力嵌入矩阵；将自注意力嵌入矩阵变换为一维向量并通过一个全连接层进行处理得到各个句子的句子特征向量；

解码器300用于获取初始化的方面类别嵌入向量和当前句子的上下文向量，并将初始化的方面类别嵌入向量、当前句子的上下文向量和隐藏状态进行合并后通过LSTM网络进行处理得到当前句子初始时刻的输出隐藏状态和方面类别嵌入向量；将当前句子上一时刻的输出隐藏状态、方面类别嵌入向量和上下文向量合并后再次通过LSTM网络进行处理得到当前时刻的输出隐藏状态和方面类别嵌入向量；以此循环，直到识别到当前句子的尾部后输出各个句子的最终输出隐藏状态；

方面类别检测器400用于将当前句子的最终输出隐藏状态与对应的句子特征向量进行拼接后通过一个全连接层和softmax函数进行处理，得到当前句子的方面类别检测结果。

综上所述，本发明实施例提供一种基于序列到序列的评论方面类别检测方法及系统，包括：S1.获取若干条已知方面类别的用户评论中各个句子的隐藏状态；S2.根据自注意力权重矩阵和各个句子的隐藏状态进行乘法运算得到各个句子的自注意力嵌入矩阵；S3.将自注意力嵌入矩阵变换为一维向量并通过一个全连接层进行处理得到各个句子的句子特征向量；S4. 获取初始化的方面类别嵌入向量和当前句子的上下文向量，并将初始化的方面类别嵌入向量、当前句子的上下文向量和隐藏状态进行合并后通过LSTM网络进行处理得到当前句子初始时刻的输出隐藏状态和方面类别嵌入向量；S5.将当前句子上一时刻的输出隐藏状态、方面类别嵌入向量和上下文向量合并后再次通过LSTM网络进行处理得到当前时刻的输出隐藏状态和方面类别嵌入向量；以此循环，直到识别到当前句子的尾部后输出各个句子的最终输出隐藏状态；S6.将当前句子的最终输出隐藏状态与对应的句子特征向量进行拼接后通过一个全连接层和softmax函数进行处理，得到当前句子的方面类别检测结果。通过上述方式，提高了句子的方面类别预测的准确性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。