CN108153733B

CN108153733B - 评论质量的分类方法及装置

Info

Publication number: CN108153733B
Application number: CN201711429770.8A
Authority: CN
Inventors: 刘小晗
Original assignee: Beijing Xingxuan Technology Co Ltd
Current assignee: Beijing Xingxuan Technology Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2021-07-09
Anticipated expiration: 2037-12-26
Also published as: CN108153733A

Abstract

本发明实施方式提供了评论质量的分类方法及装置，涉及计算机应用技术领域。其中，评论质量的分类方法包括：计算评论语句的文本特征值、情感特征值和有用性特征值；训练AdaBoost分类器；调用所述AdaBoost分类器根据所述文本特征值、情感特征值和有用性特征值，对所述评论语句的质量进行分类。本发明所提供的方法不仅考虑到评论语句的文本特征，还考虑到评论语句的情感特征和有用性特征，此外，选择Adaboost分类器(一种强分类器)进行分类，因此，可以更加准确地对评论语句的质量进行分类。

Description

评论质量的分类方法及装置

技术领域

本发明涉及计算机应用技术领域，更为具体而言，涉及评论质量的分类方法及装置。

背景技术

互联网和移动通讯的高速发展使得越来越多的消费者开始在网上购物。同时，消费者会在电子商务网站上不断分享着自己对产品本身的评价。这种评价蕴含着丰富的客户反馈信息，因此对于企业来说具有重要意义。评论中积极的客户反馈可以有效推广产品，但消极的反馈却可能导致潜在消费者的流失。因此，高效理解产品评论中的客户反馈并及时作出回应，不断满足客户需求，对于谋求立足于竞争激烈的国际化市场的企业来说至关重要。但由于评论的质量不一，因此使得对评论的质量进行分类成为一项重要工作。

然而，在现有技术中，评论质量的分类方法存在分类准确率较低的问题，难以满足当前企业对于评论语句的质量评估需求。

发明内容

在现有的解决方案中，仅考虑了评论语句的文本特征，而且虽然训练了svm(Support Vector Machine，支持向量机)和贝叶斯两种分类器，但由于这两种分类器均属于弱分类器，因此，评论质量的分类准确率仍然较低。

对此，本发明实施方式提供了评论质量的分类方法及装置，用以解决现有技术中所存在的上述技术问题。

第一方面，本发明实施方式提供了一种评论质量的分类方法。

具体地，所述方法包括：

计算评论语句的文本特征值、情感特征值和有用性特征值；

训练AdaBoost分类器；

调用所述AdaBoost分类器根据所述文本特征值、情感特征值和有用性特征值，对所述评论语句的质量进行分类。

在本实施方式中，不仅考虑到评论语句的文本特征，还考虑到评论语句的情感特征和有用性特征，此外，选择Adaboost分类器(一种强分类器)进行分类，因此，可以更加准确地对评论语句的质量进行分类。

结合第一方面，在本发明的一些实施方式中，计算评论语句的文本特征值包括：

统计出所述评论语句中第一词法元素的数量、第二词法元素的数量和子句的数量；

根据所述第一词法元素的数量、第二词法元素的数量和子句的数量，计算所述文本特征值；

其中，所述第一词法元素包括：与所述评论语句所针对的商品对象相关的名词；

所述第二词法元素包括：实词。

结合第一方面，在本发明的一些实施方式中，计算评论语句的情感特征值包括：

从所述评论语句中识别出第三词法元素；

基于情感词典对所述第三词法元素进行赋值；

判断所述评论语句中是否存在用于修饰所述第三词法元素的第四词法元素；

若是，则基于所述情感词典确定所述第四词法元素的等级；

根据所述第三词法元素的赋值、所述等级和与所述评论语句对应的评分情感得分，计算所述情感特征值；

其中，所述第三词法元素包括：包含于所述情感词典中的形容词和动词；

所述第四词法元素包括：包含于所述情感词典中的副词。

结合第一方面，在本发明的一些实施方式中，计算评论语句的情感特征值还包括：

若否，则根据所述第三词法元素的赋值和与所述评论语句对应的评分情感得分，计算所述情感特征值。

结合第一方面，在本发明的一些实施方式中，计算评论语句的有用性特征值包括：

根据所述评论语句的有用性标注数量、回复量和评论发布者的等级，计算所述有用性特征值。

第二方面，本发明实施方式提供了一种评论质量的分类装置。

具体地，所述装置包括：

计算模块，包括：用于计算评论语句的文本特征值的第一计算单元、用于计算所述评论语句的情感特征值的第二计算单元、和用于计算所述评论语句的有用性特征值的第三计算单元；

训练模块，用于训练AdaBoost分类器；

分类模块，用于调用所述AdaBoost分类器根据所述文本特征值、情感特征值和有用性特征值，对所述评论语句的质量进行分类。

结合第二方面，在本发明的一些实施方式中，所述第一计算单元包括：

统计组件，用于统计出所述评论语句中第一词法元素的数量、第二词法元素的数量和子句的数量；

第一计算组件，用于根据所述第一词法元素的数量、第二词法元素的数量和子句的数量，计算所述文本特征值；

所述第二词法元素包括：实词。

结合第二方面，在本发明的一些实施方式中，所述第二计算单元包括：

识别组件，用于从所述评论语句中识别出第三词法元素；

赋值组件，用于基于情感词典对所述第三词法元素进行赋值；

判断组件，用于判断所述评论语句中是否存在用于修饰所述第三词法元素的第四词法元素；

等级确定组件，用于在所述评论语句中存在所述第四词法元素的情形下，基于所述情感词典确定所述第四词法元素的等级；

第二计算组件，用于根据所述第三词法元素的赋值、所述等级和与所述评论语句对应的评分情感得分，计算所述情感特征值；

所述第四词法元素包括：包含于所述情感词典中的副词。

结合第二方面，在本发明的一些实施方式中，所述第二计算单元还包括：

第三计算组件，用于在所述评论语句中不存在所述第四词法元素的情形下，根据所述第三词法元素的赋值和与所述评论语句对应的评分情感得分，计算所述情感特征值。

结合第二方面，在本发明的一些实施方式中，所述第三计算单元用于通过下述方式实现计算所述评论语句的有用性特征值：根据所述评论语句的有用性标注数量、回复量和评论发布者的等级，计算所述有用性特征值。

本发明的这些方面或其他方面在以下具体实施方式的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明方法实施方式1的评论质量的分类方法的流程图；

图2示出了图1所示的处理S1的一种实施方式；

图3示出了图1所示的处理S2的一种实施方式；

图4是根据本发明实施方式的计算评论语句的文本特征值的流程图；

图5是根据本发明实施方式的计算评论语句的情感特征值的流程图；

图6是根据本发明产品实施方式1的评论质量的分类装置的结构示意图；

图7示出了图6所示的第一计算单元110的一种实施方式；

图8示出了图6所示的第二计算单元120的一种实施方式；

图9是根据本发明实施方式的一种终端设备的结构示意图。

具体实施方式

以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中，在本发明的各个具体实施方式中，众所周知的操作过程、程序模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。

并且，所描述的特征、架构或功能可在一个或一个以上实施例中以任何方式组合。

此外，本领域技术人员应当理解，下述的各种实施方式只用于举例说明，而非用于限制本发明的保护范围。本领域的技术人员还可以容易理解，本文所述和附图所示的各实施方式中的程序模块、单元或步骤可以按多种不同配置进行组合和设计。

对于未在本说明书中进行具体说明的技术术语，除非另有特定说明，都应以本领域最宽泛的意思进行解释。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的标号如S10、S11等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施方式，都属于本发明保护的范围。

【方法实施方式1】

图1是根据本发明方法实施方式1的评论质量的分类方法的流程图。参见图1，在本实施方式中，所述方法包括：

S1：计算评论语句的文本特征值。

S2：计算评论语句的情感特征值。

S3：计算评论语句的有用性特征值。

S4：训练AdaBoost分类器。

S5：调用所述AdaBoost分类器根据所述文本特征值、情感特征值和有用性特征值，对所述评论语句的质量进行分类。

Adaboost是一种迭代算法，其核心思想是训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。具体而言，AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时，每个样本对应的权重是相同的，在此样本分布下训练出一弱分类器。对于分类错误的样本，加大其对应的权重；而对于分类正确的样本，降低其权重，这样分错的样本就被突显出来，从而得到一个新的样本分布。在新的样本分布下，再次对样本进行训练，得到弱分类器。依次类推，经过T次循环，得到T个弱分类器，把这T个弱分类器按一定的权重叠加(boost)起来，得到最终想要的强分类器。

【方法实施方式2】

本实施方式所提供的评论质量的分类方法包括方法实施方式1中的全部内容，在此不再赘述。如图2所示，在本实施方式中，通过以下方式实现处理S1：

S11：统计出所述评论语句中第一词法元素的数量、第二词法元素的数量和子句的数量。

其中，所述第一词法元素包括：与所述评论语句所针对的商品对象相关的名词。所述第二词法元素包括：实词(具有实际意义的词语，例如，形容词、名词、副词、动词、量词等)。

S12：根据所述第一词法元素的数量、第二词法元素的数量和子句的数量，计算所述文本特征值。

例如，将第一词法元素的数量、第二词法元素的数量和子句的数量相乘，以计算出文本特征值。

【方法实施方式3】

本实施方式所提供的评论质量的分类方法包括方法实施方式2中的全部内容，在此不再赘述。如图3所示，在本实施方式中，通过以下方式实现处理S2：

S21：从所述评论语句中识别出第三词法元素。

其中，所述第三词法元素包括：包含于情感词典中的形容词和动词。

S22：基于所述情感词典对所述第三词法元素进行赋值。

S23：判断所述评论语句中是否存在用于修饰所述第三词法元素的第四词法元素。若是，则执行S24，若否，则执行S26。

其中，所述第四词法元素包括：包含于所述情感词典中的副词。

S24：基于所述情感词典确定所述第四词法元素的等级。

S25：根据所述第三词法元素的赋值、所述第四词法元素的等级和与所述评论语句对应的评分情感得分，计算所述情感特征值。

示例性地，在本实施方式中，可以将评论语句的评论发布者对于商品的评分(取值范围为：1至5分)减3后所得到的数值作为评分情感得分。

在本实施方式中，先将第三词法元素的赋值与对其进行限定的第四词法元素的等级相乘以得到第三词法元素的情感得分，再将所有的第三词法元素的情感得分相加以得到评论语句的情感得分，最后将评论语句的情感得分与相应的评分情感得分(评分-3)相乘以得到所述情感特征值。

S26：根据所述第三词法元素的赋值和与所述评论语句对应的评分情感得分，计算所述情感特征值。

即将第三词法元素的赋值作为第三词法元素的情感得分，然后将所有的第三词法元素的情感得分相加以得到评论语句的情感得分，最后将评论语句的情感得分与相应的评分情感得分(评分-3)相乘以得到所述情感特征值。

此外，在本实施方式中，可以通过以下方式构建所述情感词典：将HowNet(知网)中的负面评价词语、负面情感词语与《汉语褒贬义用法词典》中的贬义词语及其近义词合并，将HowNet中的正面评价词语、正面情感词语与《汉语褒贬义用法词典》中的褒义词语及其近义词合并，得到分别包含褒义词和贬义词的两个文本文件。其中，褒义词的赋值为1，贬义词的赋值为-1。另外HowNet中还有程度级别词语文件，该文件包含各副词的程度级别。将该文件也加入到情感词典中。

【方法实施方式4】

本实施方式所提供的评论质量的分类方法包括方法实施方式1至方法实施方式3中任一项的全部内容，在此不再赘述。其中，在本实施方式中，通过以下方式实现处理S3：根据所述评论语句的有用性标注数量(例如，评论语句的点赞数量)、回复量和评论发布者的等级，计算所述有用性特征值。

例如，将有用性标注数量和回复量的和与评论发布者的等级相乘以得到所述有用性特征值。

【方法实施方式5】

本实施方式所提供的评论质量的分类方法包括方法实施方式1至方法实施方式4中任一项的全部内容，在此不再赘述。其中，本实施方式所提供的方法在执行处理S4的过程中，基于设定阈值和与样本数据分类结果的变化情况对应的权重更新规则，调整样本数据的权重。

由前述内容可知，在训练AdaBoost分类器的过程中，需要对样本数据的权重进行调整。在现有技术中，仅根据样本数据的分类结果(分类正确或者分类错误)调整样本数据的权重(对于分类错误的样本加大其权重，而对于分类正确的样本降低其权重)，由此会导致对错分样本过度关注，引起退化现象，进而导致分类的准确性降低。

对此，在本实施方式中，对AdaBoost分类器的训练过程进行改进，即在分类器的训练过程中，根据样本数据分类结果的变化情况(例如，分类正确→分类正确、分类正确→分类错误、分类错误→分类正确或者分类错误→分类错误)调整样本数据的权重，并引入阈值用以判断样本数据的权重是否过大，从而能够有效避免对错分样本的过多关注，以提高分类的准确率。

【方法实施方式6】

下面结合具体示例对本实施方式所提供的评论质量的分类方法进行具体描述。在本实施方式中，所述方法包括：

(1)计算评论语句的文本特征值。

如图4所示，首先，将需要计算文本特征值的评论语句进行分词处理，并且对分词之后结果进行词性标注。然后，统计评论分词结果中各种词性的词汇数量和评论包含的子句数量。这里所说的词汇不包括没有实际意义的词语，例如代词以及助词等，而指的是具有实际意义的词语，例如形容词、名词、副词、动词、量词等。除此之外，还需要对评论中的名词进行一些处理，即针对评论中的各个名词，根据该条评论语句所针对的商品所属的类别，查看该类别下商品的相关信息中是否包含该名词，如果包含则对有用性词语数加1，直到对该条评论语句中的所有名词都完成判断，由此统计出该条评论语句中的有用性词语数量。最后，将统计出的有用性词语数量与具有实际意义的词语的数量和评论语句中包含的子句数量进行相乘，以得到评论语句的文本特征值。

(2)计算评论语句的情感特征值。

如图5所示，首先，对需要计算情感特征值的评论语句进行分词，同时标注词语的词性。然后，对于评论语句中的形容词和动词，查找其在情感词典中的感情色彩或情感倾向(褒义或贬义)，并对其进行赋值(1或者-1)，接下来，查看该形容词或者动词前是否存在副词，若存在，则查找该副词在情感词典的程度级别，将副词的程度级别与形容词或者动词的赋值相乘，以得到形容词或者动词的情感得分。将评论中所有的形容词和动词的情感得分相加以得到评论语句的情感得分。最后，根据以下公式计算评论语句的情感特征值：评论语句的情感得分*(评分星级-3)。其中，评分星级是指评论发布者对商品的评分(取值范围为：1-5分，分数越高代表越满意)。通过将评论语句的情感得分与评分星级减3后所得结果相乘，可以判断该评论语句的情感观点与评分的情感观点是否一致。

(3)计算评论语句的有用性特征值

计算有用性特征值不仅需要考虑评论语句的有用性标注数量(例如，评论阅读者对于评论语句的点赞量)和回复该条评论的数量，还需要考虑评论发布者的等级。计算公式例如为：有用性特征值＝(有用性标注数量+回复量)*评论发布者的等级。

经实验证明将上述三个特征(文本特征、情感特征、有用性特征)组合一起，得到的准确度最高。其中，实验数据如表1所示：

表1

(4)训练AdaBoost分类器。

步骤1：对每个样本数据赋予相同的初始权重。例如，w_1,n＝1/N，其中，w_1,n表示第1轮迭代训练中第n个样本数据的权重，N表示样本数据的数量。

步骤2：进行多轮迭代训练以产生多个基础分类器。

下面以对第m轮训练中的第i个样本数据(x_i，y_i)进行权重调整为例，具体说明样本数据的权重调整处理。其中，x_i为待分类的实值，y_i为类别，y_i∈{-1，+1}，-1和+1分别代表两种类别，这里假设每个样本数据对于训练基础分类器所起的作用相同。

在本实施方式中，将权重更新的规则分成以下4种情况：

(1)上一轮训练产生的基础分类器分类错误，而本轮训练产生的基础分类器分类正确；

(2)上一轮训练产生的基础分类器分类正确，而本轮训练产生的基础分类器分类错误；

(3)上一轮训练产生的基础分类器分类错误，而本轮训练产生的基础分类器分类错误；

(4)上一轮训练产生的基础分类器分类正确，而本轮训练产生的基础分类器分类正确。

针对情况(1)而言，通过下述公式计算样本数据(x_i，y_i)经权重调整处理后在第m+1轮训练中的权重：

w_m+1,i＝w_m,iexp{-y_i G_m(x_i)-ηy_i G_m-1(x_i)}/z_m公式(1)

其中，w_m+1,i表示样本数据(x_i，y_i)在m+1轮训练中的权重，w_m,i表示样本数据(x_i，y_i)在m轮训练中的权重，η为调节系数，G_m(x_i)为第m轮训练产生的基础分类器G_m(x)针对实值x_i产生的分类结果(取值为-1或+1)，G_m-1(x_i)为第m-1轮训练产生的基础分类器G_m-1(x)针对实值x_i产生的分类结果，z_m为归一化因子，可以根据以下公式计算z_m：

针对情况(2)而言，通过下述公式计算样本数据(x_i，y_i)经权重调整处理后在第m+1轮训练中的权重：

其中，Hw_m为阈值，可以通过以下公式计算Hw_m：

其中，β为调节系数，在0至2之前取值。

针对情况(3)而言，通过下述公式计算样本数据(x_i，y_i)经权重调整处理后在第m+1轮训练中的权重：

针对情况(4)而言，通过下述公式计算样本数据(x_i，y_i)经权重调整处理后在第m+1轮训练中的权重：

w_m+1,i＝w_m,iexp{-y_i G_m(x_i)}/z_m公式(6)

根据上述计算公式可知，在本实施方式中，权重的变化满足以下两个条件：

1、情况(2)比情况(3)的权重增加幅度要大；

2、情况(4)比情况(1)的权重下降幅度要大。

由此可知，在本实施方式中，通过权重的调整，能够在训练基础分类器时更加侧重于间隔增量由正到负的样本数据和间隔增量由负到正的样本数据。

步骤3：计算每一个基础分类器的错误率ε。

下面以计算第m轮训练产生的基础分类器G_m(x)的错误率ε_m为例，具体说明错误率的计算方法。在本实施方式中，通过以下公式计算ε_m：

其中，函数I(G_m(x_i)≠y_i)用于判断基础分类器G_m(x)对于实值x_i的分类结果是否等于y_i，如果等于，则函数的取值为0，如果不等于，则函数的取值为1。

步骤4：计算每一个基础分类器的准确程度α。

在本实施方式中，根据错误率ε计算准确程度α。下面以计算第m轮训练产生的基础分类器G_m(x)的准确程度α_m为例，具体说明准确程度的计算方法。在本实施方式中，通过以下公式计算α_m：

步骤5：基于各基础分类器及其准确程度得到强分类器H(x)。

其中，M为基础分类器的数量。

(5)调用训练出的强分类器对所述评论语句的质量进行分类，其中，所述分类依赖于前述计算出的文本特征值、情感特征值和有用性特征值。

经实验证明，传统的AdaBoost分类器的错误率为0.1076。本实施方式所提供的改进的AdaBoost分类器的错误率如表2所示：

表2

其中，行为上述参数η的取值，列为上述参数β的取值。

由上表可知，当参数β＝0.9时，算法的错误率更大，说明取值过小会增加算法错误率，因为破坏了算法的权值更新规则。当β≥1.2时，错误率差别不大，该值并不能很有效的控制分类器对错分样本的过分关注。β的最佳取值为1.1。当参数η＝0.01时，由于取值过小因此对算法的影响很小。当η>0.05时，分类效果比传统的AdaBoost效果要差，说明η值太大非但不能降低分类错误率，还会因为权值更新过大而严重破坏改进的AdaBoost算法效果。η的最佳取值为0.03。

【产品实施方式1】

图6是根据本发明产品实施方式1的评论质量的分类装置的结构示意图。参见图6，在本实施方式中，评论质量的分类装置10包括：计算模块100、训练模块200和分类模块300，具体地：

计算模块100包括：用于计算评论语句的文本特征值的第一计算单元110、用于计算所述评论语句的情感特征值的第二计算单元120、和用于计算所述评论语句的有用性特征值的第三计算单元130。

训练模块200用于训练AdaBoost分类器。

分类模块300用于调用训练模块200训练出的AdaBoost分类器对所述评论语句的质量进行分类，其中，所述分类依赖于计算模块100计算出的文本特征值、情感特征值和有用性特征值。

【产品实施方式2】

本实施方式所提供的评论质量的分类装置包括产品实施方式1中的全部内容，在此不再赘述。如图7所示，在本实施方式中，第一计算单元110包括：统计组件111和第一计算组件112，具体地：

统计组件111用于统计出所述评论语句中第一词法元素的数量、第二词法元素的数量和子句的数量。

其中，所述第一词法元素包括：与所述评论语句所针对的商品对象相关的名词，所述第二词法元素包括：实词。

第一计算组件112用于根据统计组件111统计出的第一词法元素的数量、第二词法元素的数量和子句的数量，计算所述文本特征值。

【产品实施方式3】

本实施方式所提供的评论质量的分类装置包括产品实施方式2中的全部内容，在此不再赘述。如图8所示，在本实施方式中，第二计算单元120包括：识别组件121、赋值组件122、判断组件123、等级确定组件124、第二计算组件125，具体地：

识别组件121用于从所述评论语句中识别出第三词法元素。

赋值组件122用于基于情感词典对识别组件121识别出的第三词法元素进行赋值。

其中，所述第三词法元素包括：包含于所述情感词典中的形容词和动词。

判断组件123用于判断所述评论语句中是否存在用于修饰识别组件121识别出的第三词法元素的第四词法元素。

等级确定组件124用于在判断组件123判断出所述评论语句中存在所述第四词法元素的情形下，基于所述情感词典确定所述第四词法元素的等级。

第二计算组件125用于根据赋值组件122所赋的值、等级确定组件124所确定的等级和与所述评论语句对应的评分情感得分，计算所述情感特征值。

【产品实施方式4】

本实施方式所提供的评论质量的分类装置包括产品实施方式3中的全部内容，在此不再赘述。其中，在本实施方式中，第二计算单元120还包括第三计算组件，该第三计算组件用于在所述评论语句中不存在所述第四词法元素的情形下，根据所述第三词法元素的赋值和与所述评论语句对应的评分情感得分，计算所述情感特征值。

【产品实施方式5】

本实施方式所提供的评论质量的分类装置包括产品实施方式1至产品实施方式4中任一项的全部内容，在此不再赘述。其中，在本实施方式中，第三计算单元130具体通过下述方式实现计算所述评论语句的有用性特征值：根据所述评论语句的有用性标注数量、回复量和评论发布者的等级，计算所述有用性特征值。

【产品实施方式6】

本实施方式所提供的评论质量的分类装置包括产品实施方式1至产品实施方式5中任一项的全部内容，在此不再赘述。其中，在本实施方式中，训练模块200在执行所述训练的过程中，基于设定阈值和与样本数据分类结果的变化情况对应的权重更新规则，调整样本数据的权重。

在本实施方式中，对Adaboost分类器的训练过程进行改进，即在分类器的训练过程中，基于设定阈值和与样本数据分类结果的变化情况对应的权重更新规则，调整样本数据的权重，因此能够有效提高分类的准确率。

如图9所示，本发明的实施方式还提供了一种终端设备，包括存储器21和处理器22；其中，

存储器21用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器22执行时能够实现如方法实施方式1至方法实施方式6中任意一项所述的方法。

此外，本发明的实施方式还提供一种计算机存储介质，所述计算机存储介质用于存储一条或多条计算机指令，其中，当所述一条或多条计算机指令被执行时能够实现如方法实施方式1至方法实施方式6中任意一项所述的方法。

本领域的技术人员可以清楚地了解到本发明可全部通过软件实现，也可借助软件结合硬件平台的方式来实现。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，所述计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。

本文中所使用的“软件”等词均指一般意义上的任意类型的计算机编码或者计算机可执行指令集，可以运行所述编码或者指令集来使计算机或其他处理器程序化以执行如上所述的本发明的技术方案的各个方面。此外，需要说明的是，根据实施方式的一个方面，在执行时实施本发明的技术方案的方法的一个或多个计算机程序不必须要在一台计算机或处理器上，而是可以分布于多个计算机或者处理器中的模块中，以执行本发明的技术方案的各个方面。

计算机可执行指令可以有许多形式，如程序模块，可以由一台或多台计算机或是其他设备执行。一般地，程序模块包括例程、程序、对象、组件以及数据结构等等，执行特定的任务或是实施特定的抽象数据类型。特别地，在各种实施方式中，程序模块进行的操作可以根据各个不同实施方式的需要进行结合或者拆分。

并且，本发明的技术方案可以体现为一种方法，并且已经提供了所述方法的至少一个示例。可以通过任何一种合适的顺序执行动作，所述动作表现为所述方法中的一部分。因此，实施方式可以构造成可以按照与所示出的执行顺序不同的顺序执行动作，其中，可以包括同时地执行一些动作(尽管在示出的实施方式中，这些动作是连续的)。

本文所给出的和使用的定义，应当对照字典、通过引用而并入的文档中的定义、和/或其通常意思进行理解。

在权利要求书中以及上述的说明书中，所有的过度短语，例如“包括”、“具有”、“包含”、“承载”、“具有”、“涉及”、“主要由…组成”以及类似词语是应理解为是开放式的，即，包含但不限于。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

以上具体描述了本发明的各种不同的实施方式，下面以另一种形式描述本发明各实施方式的技术方案的各个方面或特征，并且其不限于下述一系列段落，为了清楚起见，可给这些段落中的一些或所有段落指定字母数字。这些段落中的每一段可以以任何合适的方式与一个或多个其他段落的内容组合。在不限定合适的组合中的一些的实例的条件下，下文中的一些段落特别引用其他段落并且进一步限定其他段落。

A1、一种评论质量的分类方法，所述方法包括：

计算评论语句的文本特征值、情感特征值和有用性特征值；

训练AdaBoost分类器；

A2、如A1所述的方法中，计算评论语句的文本特征值包括：

所述第二词法元素包括：实词。

A3、如A2所述的方法中，计算评论语句的情感特征值包括：

从所述评论语句中识别出第三词法元素；

基于情感词典对所述第三词法元素进行赋值；

若是，则基于所述情感词典确定所述第四词法元素的等级；

所述第四词法元素包括：包含于所述情感词典中的副词。

A4、如A3所述的方法中，计算评论语句的情感特征值还包括：

A5、如A1所述的方法中，计算评论语句的有用性特征值包括：

A6、如A1至A5中任一项所述的方法中，在执行所述训练的过程中，基于设定阈值和与样本数据分类结果的变化情况对应的权重更新规则，调整样本数据的权重。

B7、一种评论质量的分类装置，所述装置包括：

训练模块，用于训练AdaBoost分类器；

B8、如B7所述的装置中，所述第一计算单元包括：

所述第二词法元素包括：实词。

B9、如B8所述的装置中，所述第二计算单元包括：

识别组件，用于从所述评论语句中识别出第三词法元素；

所述第四词法元素包括：包含于所述情感词典中的副词。

B10、如B9所述的装置中，所述第二计算单元还包括：

B11、如B7所述的装置中，所述第三计算单元用于通过下述方式实现计算所述评论语句的有用性特征值：根据所述评论语句的有用性标注数量、回复量和评论发布者的等级，计算所述有用性特征值。

B12、如B7至B11中任一项所述的装置中，所述训练模块在执行所述训练的过程中，基于设定阈值和与样本数据分类结果的变化情况对应的权重更新规则，调整样本数据的权重。

C13、一种终端设备，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时能够实现如A1至A6中任一项所述的方法。

D14、一种计算机存储介质，用于存储一条或多条计算机指令，其中，当所述一条或多条计算机指令被执行时能够实现如A1至A6中任一项所述的方法。

Claims

1.一种评论质量的分类方法，其特征在于，所述方法包括：

计算评论语句的文本特征值、情感特征值和有用性特征值；

训练AdaBoost分类器，在执行所述训练的过程中，基于权重的设定阈值和与样本数据分类结果的变化情况对应的权重更新规则，调整样本数据的权重，

其中：

所述样本数据分类结果的变化情况包括以下之一：上一轮分类结果错误，本轮分类结果正确；上一轮分类结果正确，本轮分类结果错误；上一轮分类结果错误，本轮分类结果错误；上一轮分类结果正确，本轮分类结果正确；

上一轮分类结果正确，本轮分类结果错误的样本数据的权重增加幅度大于上一轮分类结果错误，本轮分类结果错误的样本数据的权重增加幅度，上一轮分类结果正确，本轮分类结果正确的样本数据的下降幅度大于上一轮分类结果错误，本轮分类结果正确的下降幅度；

2.如权利要求1所述的方法，其特征在于，计算评论语句的文本特征值包括：

所述第二词法元素包括：实词。

3.如权利要求2所述的方法，其特征在于，计算评论语句的情感特征值包括：

从所述评论语句中识别出第三词法元素；

基于情感词典对所述第三词法元素进行赋值；

若是，则基于所述情感词典确定所述第四词法元素的等级；

所述第四词法元素包括：包含于所述情感词典中的副词。

4.如权利要求3所述的方法，其特征在于，计算评论语句的情感特征值还包括：

5.如权利要求1所述的方法，其特征在于，计算评论语句的有用性特征值包括：

6.一种评论质量的分类装置，其特征在于，所述装置包括：

训练模块，用于训练AdaBoost分类器，在执行所述训练的过程中，基于权重的设定阈值和与样本数据分类结果的变化情况对应的权重更新规则，调整样本数据的权重，其中，所述样本数据分类结果的变化情况包括以下至少一种：上一轮分类结果错误，本轮分类结果正确；上一轮分类结果正确，本轮分类结果错误；上一轮分类结果错误，本轮分类结果错误；上一轮分类结果正确，本轮分类结果正确，其中，上一轮分类结果正确，本轮分类结果错误的样本数据的权重增加幅度大于上一轮分类结果错误，本轮分类结果错误的样本数据的权重增加幅度，上一轮分类结果正确，本轮分类结果正确的样本数据的下降幅度大于上一轮分类结果错误，本轮分类结果正确的下降幅度；

7.如权利要求6所述的装置，其特征在于，所述第一计算单元包括：

所述第二词法元素包括：实词。

8.如权利要求7所述的装置，其特征在于，所述第二计算单元包括：

识别组件，用于从所述评论语句中识别出第三词法元素；

所述第四词法元素包括：包含于所述情感词典中的副词。

9.如权利要求8所述的装置，其特征在于，所述第二计算单元还包括：

10.如权利要求6所述的装置，其特征在于，

所述第三计算单元用于通过下述方式实现计算所述评论语句的有用性特征值：根据所述评论语句的有用性标注数量、回复量和评论发布者的等级，计算所述有用性特征值。

11.一种终端设备，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时能够实现如权利要求1至5中任一项所述的方法。

12.一种计算机存储介质，用于存储一条或多条计算机指令，其中，当所述一条或多条计算机指令被执行时能够实现如权利要求1至5中任一项所述的方法。