CN110472056A

CN110472056A - 一种评论数据分类方法及系统

Info

Publication number: CN110472056A
Application number: CN201910775543.3A
Authority: CN
Inventors: 许诚强
Original assignee: Beijing Meizhu Meisu Technology Co Ltd
Current assignee: Beijing Meizhu Meisu Technology Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-11-19

Abstract

本发明实施例涉及一种评论数据分类方法及装置，其中，所述方法包括：获取评论数据样本，并对所述评论数据样本进行预处理后，通过预测模型对预处理后的结果进行训练，以得到数据训练集；确定所述数据训练集中各个词汇的词向量，并构建词向量的N‑gram特征，并对所述词向量和所述N‑gram特征进行叠加平均；采用层次softmax对叠加平均后的数据进行分类，以确定所述数据训练集对应的分类结果。本申请提供的技术方案，能够降低数据分类时间。

Description

一种评论数据分类方法及系统

技术领域

本申请涉及数据处理技术领域，特别涉及一种评论数据分类方法及系统。

背景技术

酒店行业作为服务业的重要组成部分，用户评论的倾向也会对它的营收产生重要的影响。而社交媒体的流行，对酒店行业的诸多方面也起着越来越重要的作用。能够正确而快速地将酒店评论数据进行拆分，挑选出其中涉及的维度、情感倾向，让酒店获悉并管理和改善差评所涉及的内容，对于推动酒店盈利有着很大的促进作用。

目前用于文本分类的算法很多，基于字典的关键词匹配算法耗时耗力，后期维护成本巨大，由于极其依赖字典词库，导致其无法对新文本分类，且存在着类目歧义问题。基于特征的的传统机器学习算法，如支持向量机、朴素贝叶斯等过于依赖人工设计的特征，设计的特征对文本长度有所依赖，而酒店评论文本长度不一，验证特征的过程费时费力。基于深度学习如LSTM(Long Short-Term Memory，长短期记忆网络)等算法，准确率较高，但需要额外训练词向量，同时网络的构建及训练、调参过程也复杂耗时，更需要昂贵的GPU(Graphics Processing Unit，图形处理器)设备进行支撑。

发明内容

本申请的目的在于提供一种评论数据分类方法及系统，能够降低数据分类时间。

为实现上述目的，本申请提供一种评论数据分类方法，所述方法包括：获取评论数据样本，并对所述评论数据样本进行预处理后，通过预测模型对预处理后的结果进行训练，以得到数据训练集；确定所述数据训练集中各个词汇的词向量，并构建词向量的N-gram特征，并对所述词向量和所述N-gram特征进行叠加平均；采用层次softmax对叠加平均后的数据进行分类，以确定所述数据训练集对应的分类结果。

进一步地，对所述评论数据样本进行预处理包括：

去除所述评论数据样本中的非文本部分，并对剩余的文本进行分词和去除停用词处理；

从去除停用词后的结果中提取关键词，并将提取的所述关键词作为预处理后的结果。

进一步地，通过预设分类器对预处理后的结果进行训练包括：

将所述预处理后的结果划分为多个指定类型，所述指定类型包括带标注样本、未标注样本以及用于验证预测模型的带标注样本；

利用初始化的预测模型预测所述未标注样本，并对选用的未标注样本进行人工标注后，将人工标注后的结果放入带标注样本中；

利用当前的带标注样本对所述初始化的预测模型进行校正，得到更新后的预测模型；

利用所述用于验证预测模型的带标注样本对更新后的预测模型进行验证，并根据验证结果判断训练过程是否结束。

进一步地，根据验证结果判断训练过程是否结束包括：

若验证结果与所述用于验证预测模型的带标注样本的标注结果一致，判定训练过程结束；

若验证结果与所述用于验证预测模型的带标注样本的标注结果不一致，利用当前的预测模型预测未标注样本，并对选用的未标注样本进行人工标注后，将人工标注后的结果放入带标注样本中，以及利用当前的带标注样本对当前的预测模型进行校正，得到再次更新后的预测模型。

进一步地，所述层次softmax中根据标签和频率构建哈夫曼树，所述哈夫曼树中的叶子节点表征标签，非叶子节点表征频率。

进一步地，采用层次softmax进行分类的分类概率值按照以下公式确定：

其中，L_j表示第j种分类结果，P(L_j)表示第j种分类结果的分类概率值，Q(L_j)表示第j种分类结果对应的路径长度，l表示哈夫曼树中的层数，p(L_j,l+1)表示第j中分类结果中第l+1层的节点，LC(p(L_j,l)表示节点p(L_j,l)的左孩子，为预设函数，其中，若*为真，若*为假，σ表示sigmoid函数，表示节点p(L_j,l)的参数，X表示输入的叠加平均后的数据。

为实现上述目的，本申请还提供一种评论数据分类装置，所述装置包括：数据训练集获取单元，用于获取评论数据样本，并对所述评论数据样本进行预处理后，通过预测模型对预处理后的结果进行训练，以得到数据训练集；叠加平均单元，用于确定所述数据训练集中各个词汇的词向量，并构建词向量的N-gram特征，并对所述词向量和所述N-gram特征进行叠加平均；分类单元，用于采用层次softmax对叠加平均后的数据进行分类，以确定所述数据训练集对应的分类结果。

进一步地，所述数据训练集获取单元包括：

数据划分模块，用于将所述预处理后的结果划分为多个指定类型，所述指定类型包括带标注样本、未标注样本以及用于验证预测模型的带标注样本；

标注模块，用于利用初始化的预测模型预测所述未标注样本，并对选用的未标注样本进行人工标注后，将人工标注后的结果放入带标注样本中；

模型更新模块，用于利用当前的带标注样本对所述初始化的预测模型进行校正，得到更新后的预测模型；

验证模块，用于利用所述用于验证预测模型的带标注样本对更新后的预测模型进行验证，并根据验证结果判断训练过程是否结束。

进一步地，所述分类单元按照以下公式确定采用层次softmax进行分类的分类概率值：

由上可见，本发明提出的技术方案，使用了主动学习来发现训练数据集中高信息量的样本来高效的训练模型，减少了大量的人工标注成本。同时使用FastText算法来进行文本分类，只使用浅层的神经网络，避免了过长的训练和分类时间，同时利用了层次softmax和文本的N-gram信息，在加速训练过程的同时保证了文本分类的准确率。

附图说明

图1为本申请实施例中评论数据分类方法的步骤图；

图2为本申请实施例中训练语料的获取步骤示意图；

图3为本申请实施例中评论数据分类装置的功能模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式，都应当属于本申请保护的范围。

本申请提供一种评论数据分类方法，请参阅图1，所述方法包括以下步骤。

S1：获取评论数据样本，并对所述评论数据样本进行预处理后，通过预测模型对预处理后的结果进行训练，以得到数据训练集。

S2：确定所述数据训练集中各个词汇的词向量，并构建词向量的N-gram特征，并对所述词向量和所述N-gram特征进行叠加平均。

S3：采用层次softmax对叠加平均后的数据进行分类，以确定所述数据训练集对应的分类结果。

具体地，对所述评论数据样本进行预处理包括：

在一个实施方式中，通过预设分类器对预处理后的结果进行训练包括：

在一个实施方式中，根据验证结果判断训练过程是否结束包括：

在一个具体应用场景中，可以就酒店行业本身对评论分为卫生、服务、位置、价格和其他(消费总体感受及再次消费意愿)五个维度，根据一条评论是否涉及该维度及感情色彩情况，使用-2、-1、0和1分别代表未涉及、差评、中评和好评。

在数据预处理阶段，首先去除评论中的非文本部分，再对文本进行分词、去除停用词，并提取去除停用词之后的高频词作为关键词，以初步对文本进行维度和情感分类来作为训练集。

请参阅图2，下面是选取训练集的步骤：

1.使用SVM(Support Vector Machine，支持向量机)作为分类器，把数据划分为train、valid和active三类，它们分别表示训练模型的带标注样本、用于验证模型性能的带标注样本、未标注的数据集；

2.随机初始化并进行训练得到模型model；

3.使用当前模型model预测active中的样本；

4.人工对选择的样本进行标注，并将标注后的样本放到train目录下；

5.使用当前train目录下的样本对model进行调优，更新model；

6.使用model对valid中的数据进行验证，如果当前模型性能已得到目标则结束迭代，否则循环步骤3-6。

在得到训练集之后，需要将其作为FastText算法的输入，该算法模型主要包括三层：输入层、隐含层、输出层。其中：

输入层(embedding层)的输入是经过数据预处理后的词汇集合的索引序列，输入层包括词向量查找表xi，输入层将每个单词映射成向量，以便后续计算，该向量的维度自定义。同时一并作为输入的还有N-gram特征(假设是第N个词的出现只与前面N-1个词相关)，这样可以保留一定的上下文关系，避免丢失词顺序信息，将N-gram特征引入，具体做法是把N-gram当成一个词，也用词向量来表示，如：某条评论文本包含3个词：x1，x2，x3，当N-gram的N取2时，那么x12、x23将连同x1、x2、x3一起参加运算。

隐含层(hidden层)用于将输入的所有单词的向量进行叠加平均。

输出层，采用层次softmax分类。具体地，根据标签和频率构造哈夫曼树，树中叶子结点代表label(标签)，非叶子节点表征频率。在每一个非叶子节点处都需要作一次二分类，从根节点到某个叶子节点经过的节点和边形成一条路径。

具体地，采用层次softmax进行分类的分类概率值按照以下公式确定：

它的基本思想是使用树型层级结构来代替扁平化的标准softmax，这样计算概率值时只需计算某一条路径上所有节点的概率值，而无需考虑其他节点。

在酒店评论文本中，一部分类目(如卫生、服务)的数据量很大，而另一部分类目(如位置)数据量较少，这种类目之间有着严重倾斜的不平衡数据集，使用常规方法通常需要额外对数据集进行处理。而由于层次softmax在对某个节点进行计算时，完全不依赖于它的上一层的叶子节点，也就是数量占比较大的label不能影响数量占比较小的label，所以可以很好解决数据集不平衡问题。并且，采用层次softmax可以提升模型训练速度，当类目数为k，词向量为n维时，计算复杂度可以从O(kn)降到O(nlog(k))。通过使用该训练策略，在普通的CPU上即可以对百万级别数据实现分钟级别的训练，在训练速度上比需要使用GPU的深度学习模型要快几个数量级。

请参阅图3，本申请还提供一种评论数据分类装置，所述装置包括：

数据训练集获取单元，用于获取评论数据样本，并对所述评论数据样本进行预处理后，通过预测模型对预处理后的结果进行训练，以得到数据训练集；

叠加平均单元，用于确定所述数据训练集中各个词汇的词向量，并构建词向量的N-gram特征，并对所述词向量和所述N-gram特征进行叠加平均；

分类单元，用于采用层次softmax对叠加平均后的数据进行分类，以确定所述数据训练集对应的分类结果。

在一个实施方式中，所述数据训练集获取单元包括：

在一个实施方式中，所述层次softmax中根据标签和频率构建哈夫曼树，所述哈夫曼树中的叶子节点表征标签，非叶子节点表征频率。

在一个实施方式中，所述分类单元按照以下公式确定采用层次softmax进行分类的分类概率值：

上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述，本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此，虽然已经具体讨论了一些另选的实施方式，但是其它实施方式将是显而易见的，或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化，以及落在上述申请的精神和范围内的其它实施方式。

Claims

1.一种评论数据分类方法，其特征在于，所述方法包括：

获取评论数据样本，并对所述评论数据样本进行预处理后，通过预测模型对预处理后的结果进行训练，以得到数据训练集；

确定所述数据训练集中各个词汇的词向量，并构建词向量的N-gram特征，并对所述词向量和所述N-gram特征进行叠加平均；

采用层次softmax对叠加平均后的数据进行分类，以确定所述数据训练集对应的分类结果。

2.根据权利要求1所述的方法，其特征在于，对所述评论数据样本进行预处理包括：

3.根据权利要求1或2所述的方法，其特征在于，通过预设分类器对预处理后的结果进行训练包括：

4.根据权利要求3所述的方法，其特征在于，根据验证结果判断训练过程是否结束包括：

5.根据权利要求1所述的方法，其特征在于，所述层次softmax中根据标签和频率构建哈夫曼树，所述哈夫曼树中的叶子节点表征标签，非叶子节点表征频率。

6.根据权利要求5所述的方法，其特征在于，采用层次softmax进行分类的分类概率值按照以下公式确定：

7.一种评论数据分类装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述数据训练集获取单元包括：

9.根据权利要求7所述的装置，其特征在于，所述层次softmax中根据标签和频率构建哈夫曼树，所述哈夫曼树中的叶子节点表征标签，非叶子节点表征频率。

10.根据权利要求9所述的装置，其特征在于，所述分类单元按照以下公式确定采用层次softmax进行分类的分类概率值：