CN110569495A

CN110569495A - 一种基于用户评论的情感倾向分类方法、装置及存储介质

Info

Publication number: CN110569495A
Application number: CN201810572043.5A
Authority: CN
Inventors: 冯博琳; 薛迎梅; 刘斌生; 王秋森; 吴中恒
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2019-12-13

Abstract

本申请公开了一种基于用户评论的情感倾向分类方法、装置及存储介质，该方法包括：对用户评论语句进行预处理，得到词项；获取词向量矩阵；根据双向门控循环单元获取每个词项的上文语义特征和下文语义特征，并将上文语义特征、下文语义特征和词项的词向量拼接；利用卷积神经网络对拼接后的词向量提取出固定维度的特征图；根据上述特征图对情感倾向进行分类；根据分类结果将商家显示在地图上。本申请能够取得的有益效果在于，结合双向门控循环单元和卷积神经网络解决了在基于规则的方法中需要人工总结大量规则及词典的问题及基于词袋模型导致语义、词序丢失的问题；根据情感倾向的类别对大规模评论数据进行标注，解决了人工标注费时费力的问题。

Description

一种基于用户评论的情感倾向分类方法、装置及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其是涉及一种基于用户评论的情感倾向分类方法、装置及存储介质。

背景技术

目前根据用户对商家的评论分析用户的情感，以此发现优质商家，并将优质商家更新到地图中。用户情感分析通常通过基于规则的方法和基于机器学习的分类方法实现。基于规则的方法通常需要依靠大量语料资源，比如词典及人为总结的相应规则，通过词典及规则对文档中相应词项进行规则匹配，得出文本情感倾向。这种方法需要根据人工经验总结大量规则，在实际使用中其性能会受到分词、词性标注及句法分析工具输出结果的较大影响。由于语义表达的灵活性，规则难以覆盖全面，大量语义表达难以用规则描述。当规则数量增多时，多个规则之间的优先级难以调整。基于机器学习的分类方法利用有标注的数据资源训练分类模型，得到文本情感类别。较早的通过词袋模型，增加一系列特征选择及权重计算方法用于提取文中关键特征并进行加权，获得文档的表示，之后训练分类器实现分类。这种方法通常需要大量标注数据用于训练。

由于现有的用户评分仅通过用户对商家的评分来区分当前商家是否为优质商家，因此存在普遍偏高的问题，不够准确。

发明内容

本申请实施例提供一种基于用户评论的情感倾向分类方法、装置及存储设备。解决了需要人工总结大量规则及词典且会受到底层分析工具出错影响的问题；解决了基于词袋模型导致语义、词序丢失的问题；解决人工标注费时费力等问题。

本申请提供了一种基于用户评论的情感倾向分类方法，该方法包括：

对用户评论语句进行预处理，得到至少一个词项；其中，所述用户评论语句为用户对商家的用户评论语句；

根据所述至少一个词项获取所述用户评论语句对应的词向量矩阵，所述词向量矩阵的每行为一个词项的词向量，每列为所述词向量的一个维度；

针对所述至少一个词项中的每个词项，根据双向门控循环单元分别获取所述每个词项的上文语义特征和下文语义特征，并将所述每个词项的上文语义特征、所述下文语义特征和所述每个词项的词向量进行拼接；

通过卷积神经网络对拼接后的词向量进行处理，提取出固定维度的特征图；其中，所述固定维度的特征图具有所述用户评论语句所属的情感倾向特征；

根据所述固定维度的特征图具有的所述用户评论语句所属的情感倾向特征对情感倾向进行分类；其中，所述情感倾向的类别为好评或者差评；

根据对情感倾向进行分类的结果将所述用户评论语句所指向的商家显示在地图上。

本申请还提供了一种基于用户评论的情感倾向分类装置，该装置包括：预处理模块、获取词向量矩阵模块、获取上下文语义特征模块、卷积神经网络模块、分类模块和显示商家模块；

所述预处理模块，用于对用户评论语句进行预处理，得到至少一个词项；其中，所述用户评论语句为用户对商家的用户评论语句；

所述获取词向量矩阵模块，用于根据所述至少一个词项获取所述用户评论语句对应的词向量矩阵，所述词向量矩阵的每行为一个词项的词向量，每列为所述词向量的一个维度；

所述获取上下文语义特征模块，用于针对所述至少一个词项中的每个词项，根据双向门控循环单元分别获取所述每个词项的上文语义特征和下文语义特征，并将所述每个词项的上文语义特征、所述下文语义特征和所述每个词项的词向量进行拼接；

所述卷积神经网络模块，用于通过卷积神经网络对拼接后的词向量进行处理，提取出固定维度的特征图；其中，所述固定维度的特征图具有所述用户评论语句所属的情感倾向特征；

所述分类模块，用于根据所述固定维度的特征图具有的所述用户评论语句所属的情感倾向特征对情感倾向进行分类；其中，所述情感倾向的类别为好评或者差评；

所述显示商家模块，用于根据对情感倾向进行分类的结果将所述用户评论语句所指向的商家显示在地图上。

本申请还提供了一种存储介质，其上存储有程序数据，上述程序数据用于被处理器执行时实现所述的基于用户评论的情感倾向分类方法。

与现有技术相比，本申请能够取得的有益效果在于，结合双向门控循环单元和卷积神经网络解决了在基于规则的方法中需要人工总结大量规则及词典且会受到底层分析工具出错影响的问题及基于词袋模型导致语义、词序丢失的问题；根据情感倾向的类别为好评或者差评对大规模评论数据进行标注，解决了人工标注费时费力的问题，使得模型可在大量样本上得到充分训练。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请提供的一种基于用户评论的情感倾向分类方法实施例的流程示意图；

图2为本申请提供的模型结构示意图；

图3为本申请提供的一种基于用户评论的情感倾向分类装置实施例的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本方案的研究人员发现：现有技术中的方法存在因词项的独热表示(One-hot Representation)而产生的“词汇鸿沟”问题、导致了语义分析的过程中忽视句中词项顺序，无法获取语序信息以及并且使用的模型也不是基于语义表示的模型。为了解决该问题，本发明实施例采用的方法如下：

图1为本申请提供的一种基于用户评论的情感倾向分类方法实施例的流程示意图，该流程示意图包括：

步骤105，对用户评论语句进行预处理，得到至少一个词项；其中，所述用户评论语句为用户对商家的用户评论语句；

在执行步骤105之前，爬取某知名网站上餐饮类目中的样本店铺，为保证获得的商铺具有一定规模性，仅保留其中用户点评次数大于200次且人均消费高于80元的样本进行分析；根据判定规则，对用户评论语句进行情感标注(即分为好评、中评或差评)，使得模型可在大量样本上得到充分训练。为构建大量标注样本供模型训练，提取“点评内容”中每条评论的“口味”、“服务”和“环境”评分，通过三项得分对用户评论语句情感极性进行标注。得分可取0，1，2，3和4五个分值，按照李克特五级量表，2分对应中等，4分对应非常好，0分对应非常差。在本实施例中，判定规则为：(1)三项评分中至少有一项低于2分，则该条用户评论为差评；(2)三项评分中均不低于2分，且至少一项高于2分，则该条用户评论为好评；(3)三项评分均为2分，则该条用户评论为中评；将每条用户评论及对应标注作为一个样本(同一店铺下有多个样本)，随机抽取训练集和验证集(比例约为9:1)中的好评及差评进行二分类，且确保同一商铺的所有用户评论仅出现在训练集或验证集中；对用户评论语句进行预处理，包括使用结巴分词切分词项、根据总结的停用词表去除分词结果中的停用词、标点符号及特殊字符。同时，为降低噪音词对模型的影响，根据词频大小剔除用户评论文档集中出现次数较少的词项；训练模型参数，模型结构如图2所示。待模型收敛后取使得在验证集上取得最优F1值的模型参数保存。

模型训练使用的超参数如下表1所示：

表1模型超参数

在本实施例中，以用户对商家的评论语句“这家餐厅的菜色香味俱全，服务也不错”为例。经过预处理，包括：切分词项；删除停用词、标点符号和特殊字符；过滤出现次数小于预设值的词项后，用户评论语句被表示为“这家/餐厅/菜/色/香/味/俱全/服务/也/不错”总计10个词项。

步骤110，根据所述至少一个词项获取所述用户评论语句对应的词向量矩阵，所述词向量矩阵的每行为一个词项的词向量，每列为所述词向量的一个维度；

如图2所示，模型接收到步骤105中预处理后的用户评论语句，经过词嵌入层(Embedding Layer)将每个词项转为向量形式并学习词向量参数，参数个数为|V|*dim_e，其中|V|为词典大小，dim_e为词向量维度，其输出的词向量矩阵的每行为一个词项的词向量，每列为词向量的一个维度。在本实施例中，用阿拉伯数字分别表示“这家/餐厅/菜/色/香/味/俱全/服务/也/不错”这10个词项，即“1”代表“这家”，“2”代表“餐厅”，“3”代表“菜”，“4”代表“色”，“5”代表“香”，“6”代表“味”，“7”代表“俱全”，“8”代表“服务”，“9”代表“也”，“10”代表“不错”。将“1”，“2”，“3”，“4”，“5”，“6”，“7”，“8”，“9”，“10”输入词嵌入层之后，得到“这家/餐厅/菜/色/香/味/俱全/服务/也/不错”这10个词项的词向量表示，即将“这家/餐厅/菜/色/香/味/俱全/服务/也/不错”中的每个词项表示为一个向量，假设向量长度为64，则此处得到的输出为大小为(10，64)的矩阵，每行为一个词项的词向量，每列为词向量的一个维度。

步骤115，针对所述至少一个词项中的每个词项，根据双向门控循环单元分别获取所述每个词项的上文语义特征和下文语义特征，并将所述每个词项的上文语义特征、所述下文语义特征和所述每个词项的词向量进行拼接；

在本实施例中，双向门控循环单元(Gated Recurrent Unit，GRU)包括正向门控循环单元和反向门控循环单元，用于提取每个词项的上下文语义特征。

可选地，步骤115包括：将所述每个词项的词向量输入到正向门控循环单元，获取所述每个词项的上文语义特征；将所述每个词项的词向量输入到反向门控循环单元，获取所述每个词项的下文语义特征；其中，所述双向门控循环单元包括正向门控循环单元和反向门控循环单元；将所述每个词项的上文语义特征、所述每个词项的词向量和所述每个词项的下文语义特征首尾相连。

在本实施例中，词项t的词向量经过正向门控循环单元和反向门控循环单元后的输出分别为上文语义特征和下文语义特征其中正向门控循环单元需要学习的参数及其数量分别为：fgru_i2h_w(gru_hidden*3，dim_e)，fgru_i2h_b(gru_hidden*3，)，fgru_h2h_w(gru_hidden*3，gru_hidden)，fgru_h2h_b(gru_hidden*3，)；反向门控循环单元需要学习的参数及其数量分别为：bgru_i2h_w(gru_hidden*3，dim_e)，bgru_i2h_b(gru_hidden*3，)，bgru_h2h_w(gru_hidden*3，gru_hidden)，bgru_h2h_b(gru_hidden*3，)。正向GRU即将“这家/餐厅/菜/色/香/味/俱全/服务/也/不错”这10个词项经过词嵌入层之后生成的词向量从左到右按语句顺序进行编码，反向GRU将“这家/餐厅/菜/色/香/味/俱全/服务/也/不错”这10个词项经过词嵌入层之后生成的词向量从右到左按逆序进行编码。假设GRU的隐藏层数量为128，则经过双向GRU编码后，分别得到正、反向的编码输出，均为(10，128)的矩阵。因此，正向GRU的输出可以看做是获取每个词项的上文的高层语义表示，反向GRU的输出可以看做是获取每个词项的下文的高层语义表示。词项表示层(WordRepresentation Layer)(如图2所示)将词项t的上文语义特征词项t的下文语义特征和词项t的词向量E_t进行拼接，得到当前词项t的基于上下文及其本身的语义表示。进一步地，将词项t的上文语义特征词项t的词向量E_t和词项的下文语义特征首尾相连。

在本实施例中，以当前词项“俱全”为例，通过词项嵌入层可以得到“俱全”的词向量表示为E_t；通过双向GRU可以得到“俱全”的上文语义特征和下文语义特征分别为和词项表示层将E_t、和按照拼接方式(E_t，)进行拼接，则词项“俱全”可被表示为320(128+64+128)维词向量。

步骤120，通过卷积神经网络对拼接后的词向量进行处理，提取出固定维度的特征图；其中，所述固定维度的特征图具有所述用户评论语句所属的情感倾向特征；

可选地，步骤120包括：通过所述卷积神经网络的卷积层对拼接后的词向量进行卷积处理；通过所述卷积神经网络的池化层对卷积层输出的处理结果进行池化处理，提取出固定维度的特征图。

卷积神经网络的卷积层(Convolution Layer)(如图2所示)采用一维宽卷积处理长度不固定的用户评论语句输入，对输入的特征图进行卷积操作，输出第一特征图，其需要学习的参数W的个数为(out_chan，in_chan，h，w)，b的个数为(out_chan，)，其中out_chan为输出通道数，即卷积核数量，in_chan为输入通道数，(h，w)为单个卷积核大小。在本实施例中，卷积层对词项“俱全”的320(128+64+128)维词向量进行卷积处理。卷积神经网络的池化层(Pooling Layer)(如图2所示)对卷积层输出的第一特征图进行池化处理，在实现对输入的第一特征图降维的同时固定不同长度输入的用户评论语句的表示维度，输出固定维度的特征图；将上述固定维度的特征图作为分类器的输入。

可选地，为使网络学习具有非线性特征，在卷积层之后加入激活函数层(如图2所示)，使用Tanh激活函数对第一特征图进行非线性变换，得到第二特征图。可选地，为增强网络泛化能力，避免过拟合，加入规范化层(Batch Normalization Layer)(如图2所示)，对第二特征图进行规范化，得到第三特征图。将第三特征图作为池化层的输入。

步骤125，根据所述固定维度的特征图具有的所述用户评论语句所属的情感倾向特征对情感倾向进行分类；其中，所述情感倾向的类别为好评或者差评；

在本实施例中，将固定维度的特征图输入SVM分类器进行分类，得到当前用户评论语句的分类结果。进一步地，在本实施例中，将用户评论语句“这家餐厅的菜色香味俱全，服务也不错”的固定维度的特征图输入SVM分类器进行二分类(二分类为“好评”或“差评”)，分类结果为“好评”。

步骤130，根据对情感倾向进行分类的结果将所述用户评论语句所指向的商家显示在地图上。

可选地，步骤130包括：统计所述情感倾向的类别为好评的用户评论语句的数量和/或差评的用户评论语句的数量；根据所述好评的用户评论语句的数量和/或差评的用户评论语句的数量将所述用户评论语句所指向的商家显示在地图上。

进一步地，根据统计的情感倾向的类别为差评的用户评论语句的数量，将差评的用户评论语句的数量小于预设阈值的商家显示在地图上；进一步地，在本实施例中使用的用户评论数据集中已经包含了商家的地理坐标，可以通过商家的预设坐标定位所述商家，为用户提供一定参考。

进一步地，在本实施例中，设定预设阈值brn＝2，即当商家收到两个以上差评的用户评论语句时，其不能作为优质商家，反之即为优质商家。在本实施例中，以某商家用户评论语句“这家餐厅的菜色香味俱全，服务也不错”、“餐厅的环境有些差，服务倒还不错”、“菜色虽不好，但味道不错，服务员整体素质挺高”和“进门没人接待，上菜时间长”为例，若分类结果为“好评”、“差评”、“差评”和“差评”，则当前商家为劣质商家；若分类结果为“好评”、“好评”、“好评”和“差评”，则当前商家为优质商家。

与现有技术相比，本实施例能够取得的有益效果在于，结合双向门控循环单元和卷积神经网络解决了在基于规则的方法中需要人工总结大量规则及词典且会受到底层分析工具出错影响的问题及基于词袋模型导致语义、词序丢失的问题；根据情感倾向的类别为好评或者差评对大规模评论数据进行标注，解决了人工标注费时费力的问题，使得模型可在大量样本上得到充分训练。

图3为本申请提供的一种基于用户评论的情感倾向分类装置实施例的结构示意图，该结构示意图包括：预处理模块305、获取词向量矩阵模块310、获取上下文语义特征模块315、卷积神经网络模块320、分类模块325和显示商家模块330；

所述预处理模块305，用于对用户评论语句进行预处理，得到至少一个词项；其中，所述用户评论语句为用户对商家的用户评论语句；

所述获取词向量矩阵模块310，用于根据所述至少一个词项获取所述用户评论语句对应的词向量矩阵，所述词向量矩阵的每行为一个词项的词向量，每列为所述词向量的一个维度；

所述获取上下文语义特征模块315，用于针对所述至少一个词项中的每个词项，根据双向门控循环单元分别获取所述每个词项的上文语义特征和下文语义特征，并将所述每个词项的上文语义特征、所述下文语义特征和所述每个词项的词向量进行拼接；可选地，所述获取上下文语义特征模块315，具体用于将所述每个词项的词向量输入到正向门控循环单元，获取所述每个词项的上文特征；将所述每个词项的词向量输入到反向门控循环单元，获取所述每个词项的下文特征；其中，所述双向门控循环单元包括正向门控循环单元和反向门控循环单元；还具体用于将所述每个词项的上文语义特征、所述每个词项的词向量和所述每个词项的下文语义特征首尾相连

所述卷积神经网络模块320，用于通过卷积神经网络对拼接后的词向量进行处理，提取出固定维度的特征图；其中，所述固定维度的特征图具有所述用户评论语句所属的情感倾向特征；可选地，所述卷积神经网络模块320，具体用于所述卷积神经网络的卷积层对拼接后的词向量进行卷积处理；所述卷积神经网络的池化层对卷积层输出的处理结果进行池化处理，提取出固定维度的特征图。

所述分类模块325，用于根据所述固定维度的特征图具有的所述用户评论语句所属的情感倾向特征对情感倾向进行分类；其中，所述情感倾向的类别为好评或者差评；

所述显示商家模块330，用于根据对情感倾向进行分类的结果将所述用户评论语句所指向的商家显示在地图上；可选地，所述显示商家模块330，具体用于统计所述情感倾向的类别为好评的用户评论语句的数量和/或差评的用户评论语句的数量；根据所述好评的用户评论语句的数量和/或差评的用户评论语句的数量将所述用户评论语句所指向的商家显示在地图上。

与现有技术相比，本实施例能够取得的有益效果在于，获取上下文语义特征模块和卷积神经网络模块解决了在基于规则的方法中需要人工总结大量规则及词典且会受到底层分析工具出错影响的问题及基于词袋模型导致语义、词序丢失的问题；根据分类模块得到情感倾向的类别为好评或者差评，对大规模评论数据进行标注，解决了人工标注费时费力的问题，使得模型可在大量样本上得到充分训练。

本申请还提供了一种存储介质，其上存储有程序数据，所述程序数据用于被处理器执行时实现对用户评论语句进行预处理，得到至少一个词项；其中，所述用户评论语句为用户对商家的用户评论语句；根据所述至少一个词项获取所述用户评论语句对应的词向量矩阵，所述词向量矩阵的每行为一个词项的词向量，每列为所述词向量的一个维度；针对所述至少一个词项中的每个词项，根据双向门控循环单元分别获取所述每个词项的上文语义特征和下文语义特征，并将所述每个词项的上文语义特征、所述下文语义特征和所述每个词项的词向量进行拼接；通过卷积神经网络对拼接后的词向量进行处理，提取出固定维度的特征图；其中，所述固定维度的特征图具有所述用户评论语句所属的情感倾向特征；根据所述固定维度的特征图具有的所述用户评论语句所属的情感倾向特征对情感倾向进行分类；其中，所述情感倾向的类别为好评或者差评；根据对情感倾向进行分类的结果将所述用户评论语句所指向的商家显示在地图上。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于用户评论的情感倾向分类方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于用户评论的情感倾向分类方法，其特征在于，所述针对所述至少一个词项中的每个词项，根据双向门控循环单元分别获取所述每个词项的上文语义特征和下文语义特征包括：

将所述每个词项的词向量输入到正向门控循环单元，获取所述每个词项的上文语义特征；

将所述每个词项的词向量输入到反向门控循环单元，获取所述每个词项的下文语义特征；

其中，所述双向门控循环单元包括正向门控循环单元和反向门控循环单元。

3.根据权利要求1所述的基于用户评论的情感倾向分类方法，其特征在于，所述将所述每个词项的上文语义特征、所述下文语义特征和所述每个词项的词向量进行拼接包括：将所述每个词项的上文语义特征、所述每个词项的词向量和所述每个词项的下文语义特征首尾相连。

4.根据权利要求1所述的基于用户评论的情感倾向分类方法，其特征在于，所述通过卷积神经网络对拼接后的词向量进行处理，提取出固定维度的特征图包括：

通过所述卷积神经网络的卷积层对拼接后的词向量进行卷积处理；

通过所述卷积神经网络的池化层对卷积层输出的处理结果进行池化处理，提取出固定维度的特征图。

5.根据权利要求1所述的基于用户评论的情感倾向分类方法，其特征在于，所述根据对情感倾向进行分类的结果将所述用户评论语句所指向的商家显示在地图上包括：

统计所述情感倾向的类别为好评的用户评论语句的数量和/或差评的用户评论语句的数量；

根据所述好评的用户评论语句的数量和/或差评的用户评论语句的数量将所述用户评论语句所指向的商家显示在地图上。

6.一种基于用户评论的情感倾向分类装置，其特征在于，该装置包括：预处理模块、获取词向量矩阵模块、获取上下文语义特征模块、卷积神经网络模块、分类模块和显示商家模块；

7.根据权利要求6所述的基于用户评论的情感倾向分类装置，其特征在于，所述获取上下文语义特征模块，具体用于将所述每个词项的词向量输入到正向门控循环单元，获取所述每个词项的上文特征；将所述每个词项的词向量输入到反向门控循环单元，获取所述每个词项的下文特征；其中，所述双向门控循环单元包括正向门控循环单元和反向门控循环单元；还具体用于将所述每个词项的上文语义特征、所述每个词项的词向量和所述每个词项的下文语义特征首尾相连。

8.根据权利要求6所述的基于用户评论的情感倾向分类装置，其特征在于，所述卷积神经网络模块，具体用于所述卷积神经网络的卷积层对拼接后的词向量进行卷积处理；所述卷积神经网络的池化层对卷积层输出的处理结果进行池化处理，提取出固定维度的特征图。

9.根据权利要求6所述的基于用户评论的情感倾向分类装置，其特征在于，所述显示商家模块，具体用于统计所述情感倾向的类别为好评的用户评论语句的数量和/或差评的用户评论语句的数量；根据所述好评的用户评论语句的数量和/或差评的用户评论语句的数量将所述用户评论语句所指向的商家显示在地图上。

10.一种存储介质，其上存储有程序数据，其特征在于，所述程序数据用于被处理器执行时实现权利要求1-5中任一项所述的基于用户评论的情感倾向分类方法。