CN109145112B

CN109145112B - 一种基于全局信息注意力机制的商品评论分类方法

Info

Publication number: CN109145112B
Application number: CN201810884389.9A
Authority: CN
Inventors: 欧阳元新; 王涛; 荣文戈; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2021-08-06
Anticipated expiration: 2038-08-06
Also published as: CN109145112A

Abstract

本发明公开了一种基于全局信息注意力机制的商品评论分类方法，该方法在神经网络模型的基础上进行改进。将输入词汇与评论所涉及到的用户、商品、投票等全局信息分别用向量表示，并对其进行初始化；依据评论所涉及到的用户反馈信息为神经网络模型的词汇层添加基于文本风格全局信息的注意力机制，进而为一句话中每个词汇计算权重，得到一句话的最终向量表示；以同样的方式，根据词汇层所得到的结果，将一条评论中的每句话作为基础输入单元，为神经网络模型的语句层添加注意力机制，得到每条评论的向量表示；将每条评论的向量表示经过激活函数处理后得到最终的分类预测结果；根据目标损失函数对模型进行训练，直到损失值达到某一阈值。本发明与其他基础模型相比，准确率和均方误差得到了明显地提升。

Description

一种基于全局信息注意力机制的商品评论分类方法

技术领域

本发明属于文本分类，机器学习研究的技术领域，通过结合与文本语料相关的用户反馈信息，在循环神经网络分类框架的基础上进行改进，为其在词汇和语句两个层面添加注意力权重机制，融合了文本语料和包括用户标识，商品标识，其他用户操作(如点赞等)产生的文本风格信息在内的全局信息，进而提升注意力模型的分类准确率。该方法适用于商品分类、个性化推荐等领域。

背景技术

在现实世界中，文本是信息最重要的载体，事实上，研究表明信息有80％包含在文本文档中。特别是在互联网上，文本数据广泛地存在于各种形式，如新闻报道、电子图书、研究论文、数字图书馆、网页、电子邮件等等。文本分类技术可以应用于信息过滤、个性化的信息推荐，使人们能够准确地检索到所需要的信息，缩短信息检索的时间。

文本分类为处理和组织海量文本数据的关键技术，可以比较有效地解决信息杂乱的问题，方便了用户准确地定位所需的信息和分流信息。传统的文本分类系统主要采用支持向量机、逻辑斯蒂回归等分类方法，能在短文本分类(200词以下)如新闻标题分类的应用中获得较好的分类效果。

随着互联网的继续发展，长文本(250词左右)信息开始大量出现，例如论坛的留言、社交网络的状态、即时消息、微博等等，这些长文本信息是大家日常交流通讯中所必不可少的信息形式，它们的共同特点是：信息长度较长、表述内容丰富、组合比较灵活、内容上下文相关性大、数据规模很大。同时这些长文本如网站评论等内容附带很多全局和反馈信息，如用户的唯一识别标号，商品的唯一识别标号，其他社区用户的点赞等反馈信息，经过实验说明，利用这些全局反馈信息能够有效提升文本分类的准确率和召回率。

发明内容

本发明要解决的技术问题为：克服现有技术的不足，提供基于全局信息注意力机制的商品评论分类方法，通过注意力感知机制引入全局反馈信息(用户、产品、风格信息)，提高了分类的准确率和召回率。

本发明解决上述技术问题的技术方案为：一种基于全局信息注意力机制的商品评论分类方法，该方法具体步骤如下：

步骤(1)、采用文本语料(例如谷歌新闻语料)预训练完成的词向量(例如300维)来表示待分类评论文本中的词汇；

步骤(2)、采用多维向量(例如150维)表示待分类评论文本所涉及到的全局信息，所述全局信息为用户、商品以及风格倾向信息；所述风格倾向信息是指评论社区中的用户交互因素，用户交互因素包括商品评论社区中的其他用户对该评论的投票、点赞或反对；并将所述多维向量初始值随机化；

步骤(3)、搭建词汇级别神经网络，所述词汇级别神经网络包括词汇级别双向LSTM层、词汇级别注意力机制层，其中双向LSTM层，即长短期记忆层结构如下：

其中：

和

分别为神经网络模型中所涉及的输入门、遗忘门以及输出门，三种门所对应的向量数值均在0到1之间，1表示“完全保留”，0表示“完全舍弃”，⊙表示的是矩阵乘法操作，W、U、U_c和W_c为词汇级别神经网络中待训练的权重矩阵，隐藏状态

表示LSTM层中第i句话第j个词汇单元所对应的输出，

代表第i句话第j个词汇所对应的词向量即步骤(1)所提到的词向量表示结果；

表示当前正在训练的词汇，即第i句话第j个词汇所对应的神经元状态向量，

表示上一词汇，即第i句话第j-1个词汇所对应的神经元所产生的隐藏状态输出向量，b_h表示计算输入门、遗忘门、输出门的公式(1)所对应的偏置向量，b_c表示计算

的公式(2)所对应的偏置向量；

步骤(4)、为步骤(3)所搭建的词汇级别双向LSTM层添加融合用户评论全局信息的注意力感知机制层，所述全局信息注意力机制根据用户评论的全局信息，即用户、产品、风格倾向信息为词汇级别神经网络中的每个神经元节点添加一个权重，并用每个神经元节点产生的输出结合权重形成整个神经网络的最后输出结果，所述全局信息注意力机制层的公式如下：

g_s＝sigmoid(W_ss) (5)

其中：w_m,w_h,w_s,w_u和w_p是初始值经过初始化的待训练权重矩阵，u,p和s分别表示用户、产品和风格信息的矩阵，g_s是结合风格信息用户与产品信息的控制门，经过激活函数sigmod作用后，g_s矩阵的值均在0到1之间；

是计算输入文本各单词与该文本所对应的用户、产品和风格信息的相关度的函数，

是根据

计算得到的相关度计算输入文本各单词所对应权重的函数，S_i是经过全局信息加权后所产生的表示整个句子的最终向量结果；

步骤(5)、搭建语句级别神经网络，所述语句级别神经网络包括：语句级别双向LSTM层、语句级别注意力机制层，所述语句级别神经网络的输入是多条由步骤(4)中词汇级别神经网络产生的语句向量组成的评论，所述语句级别神经网络的结构如下：

其中：i_j,f_j和o_j分别为神经网络模型中所涉及的输入门、遗忘门以及输出门，三种门所对应的向量数值均在0到1之间，⊙表示的是矩阵乘法操作，W、U、U_c和W_c为语句级别神经网络层中待训练的权重矩阵，隐藏状态h_j表示中评论文本中第j个语句单元所对应的输出，s_j代表评论文本中第j句话所对应的向量即步骤(4)中计算得到的语句最终表示结果；

表示当前正在训练的语句，即评论文本中第j个语句所对应的神经元状态向量，h_j-1表示上一个语句，即评论文本中第j-1个语句对应神经元所产生的隐藏状态输出向量，b_h表示计算输入门、遗忘门、输出门的公式(1)所对应的偏置向量，b_c表示计算

的公式(2)所对应的偏置向量；

步骤(6)、为步骤(3)所搭建的语句级别神经网络添加融合用户评论全局信息的注意力感知机制层，所述用户评论全局信息的注意力感知机制层的公式如下：

g_s＝sigmoid(W_ss) (11)

其中：w_m,w_h,w_s,w_u和w_p是初始值经过初始化的待训练权重矩阵，u,p和s分别表示用户、产品和风格信息的矩阵，g_s是结合风格信息用户与产品信息的控制门，经过激活函数sigmod作用后，g_s矩阵的值均在0到1之间；m_j是计算输入评论中的每句话与这句话所对应的用户、产品和风格信息的相关度的函数，β_j是根据u_j计算得到的相关度计算输入评论中每句话所对应权重的函数，d是经过全局信息加权后所产生的表示整个评论的最终向量结果；

步骤(7)、将表示整个评论的向量d经过激活函数为softmax的线性层操作之后，得到最终的预测结果

计算公式如下式所示：

其中：w_y表示计算

的公式(10)所对应的权重矩阵，b_y表示计算

的所对应的偏置向量，p_y是评论打分情况的预测结果；

步骤(8)、根据目标损失函数对步骤(1)至步骤(7)所搭建的基于全局信息注意力机制层的商品评论分类模型进行训练，如公式(16)所示，

其中y表示每条评论，Y表示全部评论，Loss表示模型的损失函数(例如公式16所提到的交叉熵函数)，损失函数是一种衡量模型预测误差程度的函数。

根据Adam优化算法即Adam梯度反向传播优化算法在训练过程中对基于全局信息注意力机制层的商品评论分类模型中的词向量参数，全局信息向量参数，以及上述步骤中提及的待训练权重矩阵和LSTM结构中的输入，输出，遗忘门(如步骤(3)中的i_j,f_j和o_j和步骤(4)中的w_m,w_h,w_s,w_u和w_p)，进行优化，最终得到优化后的基于全局信息注意力机制的商品评论分类结果。

所述步骤(2)中，在每一次训练过程中，隐藏状态向量

以及当前单元所对应的状态向量

都会受到前一感知单元所对应的状态向量

和

的影响并更新数值，更新方式如公式(3)与(4)所示：

所述步骤(4)中，待训练矩阵w_m,w_h,w_s,w_u和w_p使用正态随机初始化方法进行数值初始化。

所述步骤(5)中，三种控制门，即输入门

遗忘门

和输出门

所对应的向量数值均在0到1之间，其中1表示“完全保留”，0表示“完全舍弃”。

步骤(8)中，所提到损失函数公式(16)是交叉熵函数，用于度量两个概率分布间的差异性信息，采用商品评论的真实分类结果作为交叉熵的训练集的先验信息，将基于全局信息注意力机制的商品评论分类模型预测后的分类结果作为后验信息，计算两者的交叉熵，在训练过程中通过减小损失函数的值，进而使商品评论的真实分类结果与基于全局信息注意力机制的商品评论分类模型的预测结果更加贴近。

本发明与现有技术相比的优点在于：

(1)本发明在神经网络模型的基础上采用基于全局信息的注意力机制，融合了包括用户标识，商品标识，其他用户操作(如点赞等)产生的文本风格信息。通过这种机制，可以在词汇和语句两个层面融合评论风格、用户偏好以及产品特征等信息。将输入词汇与评论所涉及到的用户、商品、投票等信息用向量表示，并对其进行初始化；依据评论所所涉及到的用户反馈信息为神经网络模型的词汇层添加注意力感知机制，进而为一句话中每个词汇计算权重，得到一句话的最终向量表示；以同样的方式，根据词汇层所得到的结果，将一条评论中的每句话作为基础输入单元，为神经网络模型的语句层添加注意力感知机制，得到每条评论的向量表示；将每条评论的向量表示经过激活函数处理后得到最终的分类预测结果；根据目标损失函数对模型进行训练，直到损失值达到某一阈值。本发明与其他基础模型相比，准确率和召回率得到了明显地提升。在表1中给出,对结果的分析则在表1下方有进行详细说明。

(2)在文本分类的研究领域中，当前的文本分类预测神经网络模型往往忽视了用户、产品以及风格(或者称之为社交反馈信息，例如在美国商品评论社区Yelp中用户对评论的投票情况)等全局信息。而本发明通过设计一个融合了全局信息的层次神经网络模型来解决这个问题。简而言之是以全局信息作为一个影响因子来调整某些词汇或语句在模型中的含义。具体而言，本发明以向量的形式来表示用户和产品信息，将评论的风格投票信息作为注意力层的“筛选门”作用于用户和产品信息之中，以增强其信息的价值程度。用户和产品信息得到风格信息的强化之后，使得本发明与传统分类方法相比准确率得到了明显的提高。

附图说明

图1是基于全局信息注意力机制的商品评论分类方法结构图；

图2是采用不同用户反馈信息的分类效果对比图；

图3是采用不同注意力机制的词汇加权效果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明是一种采用层次风格感知注意力机制的文本分类方法，其充分利用了用户对于待分类文本的反馈信息，并将这些反馈信息应用到神经网络模型的注意力加权机制中。

本发明将输入词汇与评论所涉及到的用户、商品、投票等信息用向量表示，并对其进行初始化；依据评论所所涉及到的用户反馈信息为神经网络模型的词汇层添加注意力感知机制，进而为一句话中每个词汇计算权重，得到一句话的最终向量表示；以同样的方式，根据词汇层所得到的结果，将一条评论中的每句话作为基础输入单元，为神经网络模型的语句层添加注意力感知机制，得到每条评论的向量表示；将每条评论的向量表示经过激活函数处理后得到最终的分类预测结果；根据目标损失函数对模型进行训练，直到损失值达到某一阈值。本发明同时又对采纳不同用户反馈信息的注意力加权方式进行了效果对比测试。

本发明的一种采用层次风格感知注意力机制的文本分类方法主要分为以下9个步骤。

步骤(1)、使用谷歌新闻语料预训练完成的300维词向量来表示评论中的词汇；

步骤(2)、使用150维向量来表示评论所涉及到的用户、商品以及风格信息，并将向量初始值随机化；

步骤(3)、搭建词汇层的LSTM模型，所涉及到的公式如下：

其中：

和

分别为LSTM模型中所涉及的输入门、遗忘门以及输出门，其数值在0到1之间，⊙表示的是矩阵乘法操作，W，U和b为待训练的权重矩阵，隐藏状态

是LSTM层中第i句话第j个词汇单元所对应的输出，

代表第i句话第j个词汇所对应的词向量。在每一次训练过程中，隐藏状态向量

以及当前单元所对应的状态向量

都会受到前一感知单元所对应的状态向量

和

的影响并更新数值，更新方式如公式(3)与(4)所示；

步骤(4)、为LSTM层所对应的神经网络模型添加融合用户评论反馈信息的注意力感知机制，所涉及到的公式如下：

g_s＝sigmoid(W_ss) (5)

步骤(5)、将神经网络模型中的隐藏状态向量

与用户的社交反馈信息向量结合得到向量

并用之表示第j句话第i个词的权重生成向量，最终根据公式(5)得到每个单词所对应的权重，将每个单词的状态向量与相应的权重相乘并求和得到语句的最终表示s_i；

步骤(6)、搭建文本层的神经网络模型并为之添加融合用户评论反馈信息的注意力感知机制，搭建方式与语句层相同；

步骤(7)、在语句层中计算代表整个评论信息的最终输出结果，计算方式同词汇层一致，使用风格信息注意力感知机制，得到表示整个评论的向量d，计算方式如公式(9)所示：

步骤(8)、将表示评论的向量经过激活函数为softmax的线性层操作之后得到最终的预测结果

计算方式如公式(10)所示：

其中：w_y和b_y是待训练的权重矩阵，p_y是评论打分情况的预测结果(满分为5星，因此预测结果类别为5类)；

步骤(9)、根据目标损失函数对模型进行训练，如公式(11)所示：

表1传统文本分类方法与本发明的分类结果

说明：上表为本发明提出方法与对照模型在两个美国商品评论社区真实数据集Yelp 2013(十万量级的评论数据，属于中等规模数据集)以及Yelp 2016(百万量级的评论数据量，属于大规模数据集)上的准确率和均方误差的对比。下面对基准对照模型进行简要介绍。

1.向量方法为2014年提出的一种经典文本分类方法。该方法在连续词袋模型的输入层增加随机初始化的段落向量转换，在选定的段落中选取随机部分内容，将其中的词向量连同初始化得到的段落向量一起输入网络，然后梯度下降来更新段落向量直到收敛。该方法在多个应用数据集上有高于深度学习模型的准确率得分。

2.fastText是Facebook公司于2016年开源的一个词向量计算和文本分类工具，在文本分类任务中，fastText(浅层网络)往往能取得和深度网络相媲美的精度。

3.卷积神经网络在图像处理领域取得了很大的成绩，它的卷积和池化结构能很好提取图像的信息，而在自然语言处理领域也从2014年起有了很多的研究，并在多个应用场景如文本分类和推荐系统上有着远超传统机器学习方法的准确度。字符级和单词级卷积神经网络分别以文本的字符和单词为最小语义单元，对其应用卷积网络算法。

4.LSTM是一种循环神经网络的改进模型，循环神经网络模型在自然语言处理领域有着长时间的研究与应用，而LSTM通过解决循环神经网络的长期记忆与梯度消失问题而得到广泛应用，并在多种应用场景上取得最佳的准确率等指标成绩。

从表1中可以观察到，本发明提出的基于全局信息注意力机制的商品评论分类方法在实验的中等规模和大规模商品评论数据集上均能够得到显著高于其他基准模型的准确率和显著低于其他基准模型的均方误差，实验说明本发明具有更好的分类效果以及更稳定的分类误差率。同时，通过对比本发明在句子和单词层级以及多层级包含全局信息时的实验结果，能够证明本发明提出的全局信息加权的注意力机制在文本分类模型中的句子和单词语义分类向量构造时都能够起到增强分类关键词抽取的作用，从而提高文本分类的表现。

如图2所示，图2为采用不同用户反馈信息的分类效果对比，实验在两个美国商品评论社区真实数据集Yelp 2013(十万量级的评论数据，属于中等规模数据集)以及Yelp2016(百万量级的评论数据量，属于大规模数据集)上进行，其中：Accuracy表示实验得出的准确率数据，RMSE表示实验得到的均方误差数据，P代表只融合评论附带的产品信息的注意力机制模型，U代表只融合评论附带的用户信息的注意力机制模型，U+P代表利用加法原理融合了评论用户和产品信息的模型，U+P+S代表加法原理融合了评论用户和产品以及风格信息的模型，sa U代表利用加权控制门融合评论用户风格信息的模型，sa P代表利用加权控制门融合评论产品风格信息的模型，sa U+P代表利用加权控制门融合评论用户以及产品风格信息的模型。图中左上和右上为Yelp 2013数据集上各分类效果的对比，可以看出，融合越多的反馈全局信息，模型能得到更高的准确率以及更低的均方误差，并且加权控制门能得到比加法原理更高的效果，说明控制门的确能够使风格信息和用户以及产品信息更好的融合起来。图中左下和右下得到的实验结论也是相同的，证明了在大规模数据集上，融合了反馈信息的注意力模型也能够提高分类准确率，降低模型误差。

如图3所示，为采用不同注意力机制的词汇加权效果对比。为了说明本发明提出的神经网络模型注意力机制的可解释性，特提供神经网络训练Yelp 2016数据集时随机抽取一条评论(该评论中文翻译为“世界上最差的三明治，请永远不要来这家店”)的权重参数可视化分析。图中颜色越深，表示该单词得到的注意力权重越大，代表该单词对模型的分类影响越大。从图中可以看到，加入了用户+产品的反馈全局信息后，注意力权重集中在了sandwich(三明治)这一食品信息上，而经过数据分析，该用户多次在其他评论中也提及过三明治，而用户+产品注意力模型很好的捕捉到了这一信息。然而这样还不能很好的对评论评分进行分类，因为用户+产品注意力模型没有捕捉到全局风格信息。而风格加权的用户-产品注意力模型能够在捕捉用户产品全局信息的同时，利用评论的风格信息进行加权，表现在图中则是捕获到了三明治这一全局信息之前进行修饰的worst(最差劲的)这一单词，并赋予了其较高的注意力权重，从而使得模型对这一评论的分类为最低的1星，这也是用户这个评论对该产品的实际评分星级。

本发明未详细阐述的部分属于本领域公知技术。以上实施例仅用以说明本发明的技术方案而非限制在具体实施方式的范围内，对本技术领域的普通技术人员来讲，只要各种变化在权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于全局信息注意力机制的商品评论分类方法，其特征在于，包括以下步骤：

步骤(1)、采用文本语料预训练完成的词向量来表示待分类评论文本中的词汇；

步骤(2)、采用多维向量表示待分类评论文本所涉及到的全局信息，所述全局信息为用户、商品以及风格倾向信息；所述风格倾向信息是指评论社区中的用户交互因素，用户交互因素包括商品评论社区中的其他用户对该评论的投票、点赞或反对；并将所述多维向量初始值随机化；

其中：

和

分别为神经网络模型中所涉及的输入门、遗忘门以及输出门，三种门所对应的向量数值均在0到1之间，1表示“完全保留”，0表示“完全舍弃”，W、U、U_c和W_c为词汇级别神经网络中待训练的权重矩阵，隐藏状态

表示LSTM层中第i句话第j个词汇单元所对应的输出，

的公式(2)所对应的偏置向量；

步骤(4)、为步骤(3)所搭建的词汇级别双向LSTM层添加融合用户评论全局信息的注意力感知机制层，所述注意力感知机制层根据用户评论的全局信息，即用户、产品、风格倾向信息为词汇级别神经网络中的每个神经元节点添加一个权重，并用每个神经元节点产生的输出结合权重形成整个神经网络的最后输出结果，所述注意力感知机制层的公式如下：

g_s＝sigmoid(W_ss) (5)

其中：W_m,W_h,W_s,W_u和W_p是初始值经过初始化的待训练权重矩阵，u,p和s分别表示用户、产品和风格信息的矩阵，g_s是结合风格信息、用户与产品信息的控制门，经过激活函数sigmoid作用后，g_s矩阵的值均在0到1之间，⊙表示的是矩阵乘法操作；

是根据

其中：i_j,f_j和o_j分别为神经网络模型中所涉及的输入门、遗忘门以及输出门，三种门所对应的向量数值均在0到1之间，W、U、U_c和W_c为语句级别神经网络层中待训练的权重矩阵，隐藏状态h_j表示评论文本中第j个语句单元所对应的输出，s_j代表评论文本中第j句话所对应的向量即步骤(4)中计算得到的语句最终表示结果；

表示当前正在训练的语句，即评论文本中第j个语句所对应的神经元状态向量，h_j-1表示上一个语句，即评论文本中第j-1个语句对应神经元所产生的隐藏状态输出向量，b_h表示计算输入门、遗忘门、输出门的公式(9)所对应的偏置向量，b_c表示计算

的公式(10)所对应的偏置向量；

步骤(6)、为步骤(5)所搭建的语句级别神经网络添加融合用户评论全局信息的注意力感知机制层，所述注意力感知机制层的公式如下：

g_s＝sigmoid(W_ss) (11)

u_j＝tanh[W_hh_j+g_s⊙(W_uu+W_pp)+b] (12)

其中：W_m,W_h,W_s,W_u和W_p是初始值经过初始化的待训练权重矩阵，u,p和s分别表示用户、产品和风格信息的矩阵，g_s是结合风格信息、用户与产品信息的控制门，经过激活函数sigmoid作用后，g_s矩阵的值均在0到1之间，⊙表示的是矩阵乘法操作；u_j是计算输入评论中的每句话与这句话所对应的用户、产品和风格信息的相关度的函数，β_j是根据u_j计算得到的相关度计算输入评论中每句话所对应权重的函数，d是经过全局信息加权后所产生的表示整个评论的最终向量结果；步骤(7)、将表示整个评论的向量d经过激活函数为softmax的线性层操作之后，得到最终的预测结果