CN107992550A

CN107992550A - 一种网络评论分析方法及系统

Info

Publication number: CN107992550A
Application number: CN201711212278.5A
Authority: CN
Inventors: 李孟歆; 刘方卉竹; 许可; 张颖; 侯静
Original assignee: Shenyang Jianzhu University
Current assignee: Shenyang Jianzhu University
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-05-04

Abstract

本发明公开一种网络评论分析方法及系统，所述网络评论分析方法包括：获取网络中的原始评论文本、所述原始评论文本的发表时间及获取时间；对网络中的原始评论文本进行文本预处理，获得所述原始评论文本的词组集合；从所述词组集合中提取所述原始评论文本的情感特征集；根据原始评论文本的发表时间及获取时间，确定对应原始评论文本的权重；基于支持向量机SVM分类器，根据所述原始评论文本的情感特征集及对应的权重，确定所述原始评论文本的置信度。通过对网络中的原始评论文本进行文本预处理，排除干扰因素，通过引入原始评论文本的发表时间及获取时间确定对应原始评论文本的权重，进而根据确定所述原始评论文本的置信度，可提高网络评价的准确性。

Description

一种网络评论分析方法及系统

技术领域

本发明涉及网络信息处理领域，特别是涉及一种网络评论分析方法及系统。

背景技术

在“互联网+”这个时代背景下，广大的网民已经不再是互联网信息的被动获取者，而是这些信息的主要制造者。人们可以足不出户、一键下单，购买全球各地的商品并对其做出评论、分享心得等。这些涌现在各种网络媒体中的海量信息，表达了用户的情感、观点和心情等主观性信息，而文本是其中的主要表现形式。这些海量的主观性文本数据蕴含的潜在价值是不可估量的。对于商业来说，可以通过整合消费者的评论来了解用户的需求，改变设计甚至是调整生产计划来增加利润；对于政府部门来说，可以通过分析热门事件的网络评论来知晓群众的意见，进而改善社会管理、及时处理社会问题等。如何高效地从这些海量的数据中提取出蕴含着社会和商业价值的信息，并且进一步地对这些信息做出精准的分析，这是当前自然语言处理领域的热门研究课题之一，文本情感分类技术正是针对这类问题应运而生。

传统的分类是以评论的投票比例作为分类依据，虽然投票比例非常直观的表达了人们对于该评论是否有帮助的想法，但是这个投票率并不是一个合格的标准，因为它需要时间来获取人们的选票。随着时间的推移，新评论与旧评论的投票数必然会产生变化，从而无法准确确定评价结果。

发明内容

本发明的目的是提供一种网络评论分析方法及系统，可提高网络评价的准确性。

为实现上述目的，本发明提供了如下方案：

一种网络评论分析方法，所述网络评论分析方法包括：

获取网络中的原始评论文本、所述原始评论文本的发表时间及获取时间；

对网络中的原始评论文本进行文本预处理，获得所述原始评论文本的词组集合；

从所述词组集合中提取所述原始评论文本的情感特征集；

根据所述原始评论文本的发表时间及获取时间，确定对应原始评论文本的权重；

基于支持向量机SVM分类器，根据所述原始评论文本的情感特征集及对应的权重，确定所述原始评论文本的置信度。

可选的，所述网络评论分析方法还包括：

预设多个置信度区间及对应的评论类别，所述评论类别包括有用好评、无用好评、有用差评及无用差评；

根据确定的置信度及对应的置信度区间，确定所述原始评论文本的评论类别。

可选的，所述对网络中的原始评论文本进行文本预处理，获得所述原始评论文本的词组集合，具体包括：

对所述原始评论文本进行分词处理，获得多个词语；

对各个词语进行词性标注；

删除词性标注后的各个词语中的停用词，剩余的词语构成所述原始评论文本的词组集合。

可选的，所述情感特征集包括情感词特征向量特征、实词特征。

可选的，从所述词组集合中提取所述原始评论文本的情感词特征向量特征，具体包括：

基于word2vec工具，计算所述词组集合中任意两个词语之间的相似度；

计算每个词语的相似度的平均值，各个词语的相似度平均值为情感词特征向量特征。

可选的，所述实词特征包括词语个数、句子个数、词语个数/句子个数、星星个数、非谓语形容词比例、副词比例、名词比例、限定词比例、程度词比例、介词比例、不及物动词比例、及物动词比例、正向性词汇个数、负向性词汇个数中至少一者。

可选的，所述根据所述原始评论文本的发表时间及获取时间，确定对应原始评论文本的权重，具体包括：

根据以下公式，计算原始评论文本的获取时间与发表时间的时间差值：

Δt_i＝T_i1-T_i0，

其中，i表示原始评论文本，T_i0表示原始评论文本i的发表时间，T_i1表示原始评论文本i的获取时间，Δt_i表示原始评论文本i的获取时间与发表时间的时间差值；

根据以下公式，确定原始评论文本的权重：

α_i＝1/Δt_i，

其中，α_i表示原始评论文本i的权重。

为实现上述目的，本发明提供了如下方案：

一种网络评论分析系统，所述网络评论分析系统包括：

获取单元，用于获取网络中的原始评论文本、所述原始评论文本的发表时间及获取时间；

预处理单元，用于对网络中的原始评论文本进行文本预处理，获得所述原始评论文本的词组集合；

提取单元，用于从所述词组集合中提取所述原始评论文本的情感特征集；

权重确定单元，用于根据所述原始评论文本的发表时间及获取时间，确定对应原始评论文本的权重；

置信度确定单元，用于基于支持向量机SVM分类器，根据所述原始评论文本的情感特征集及对应的权重，确定所述原始评论文本的置信度。

可选的，所述网络评论分析系统还包括：

预设单元，用于预设多个置信度区间及对应的评论类别，所述评论类别包括有用好评、无用好评、有用差评及无用差评；

类别确定单元，用于根据确定的置信度及对应的置信度区间，确定所述原始评论文本的评论类别。

可选的，所述预处理单元包括：

分词模块，用于对所述原始评论文本进行分词处理，获得多个词语；

标注模块，用于对各个词语进行词性标注；

删除模块，用于删除词性标注后的各个词语中的停用词，剩余的词语构成所述原始评论文本的词组集合。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过对网络中的原始评论文本进行文本预处理，排除干扰因素，便于情感特征集的提取，通过引入原始评论文本的发表时间及获取时间确定对应原始评论文本的权重，进而根据所述情感特征集及对应的权重，可确定所述原始评论文本的置信度，提高网络评价的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例网络评论分析方法的流程图；

图2为分词处理及词性标注的示意图；

图3为实词特征表；

图4为SVM分类器的处理流程图；

图5为本发明实施例网络评论分析系统的模块结构示意图。

符号说明：

获取单元—1，预处理单元—2，提取单元—3，权重确定单元—4，置信度确定单元—5，预设单元—6，类别确定单元—7。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种网络评论分析方法，通过对网络中的原始评论文本进行文本预处理，排除干扰因素，便于情感特征集的提取，通过引入原始评论文本的发表时间及获取时间确定对应原始评论文本的权重，进而根据所述情感特征集及对应的权重，可确定所述原始评论文本的置信度，提高网络评价的准确性。

词向量：将word映射到一个新的空间中，并以多维的连续实数向量进行表示。

KNN：KNN是K最近邻(K-NearestNeighbor)的名称缩写，其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性

SVM:SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明网络评论分析方法包括：

步骤100：获取网络中的原始评论文本、所述原始评论文本的发表时间及获取时间；

步骤200：对网络中的原始评论文本进行文本预处理，获得所述原始评论文本的词组集合；

步骤300：从所述词组集合中提取所述原始评论文本的情感特征集；

步骤400：根据所述原始评论文本的发表时间及获取时间，确定对应原始评论文本的权重；

步骤500：基于支持向量机SVM分类器，根据所述原始评论文本的情感特征集及对应的权重，确定所述原始评论文本的置信度。

步骤600：预设多个置信度区间及对应的评论类别，所述评论类别包括有用好评、无用好评、有用差评及无用差评；

步骤700：根据确定的置信度及对应的置信度区间，确定所述原始评论文本的评论类别。

从网络中获取的原始评论文本中包含很多无用的干扰信息，文本预处理的目的就是从原始评论文本中提取出比较规范的内容以便后续操作。

如图2所示，在步骤200中，所述对网络中的原始评论文本进行文本预处理，获得所述原始评论文本的词组集合，具体包括：

步骤201：对所述原始评论文本进行分词处理，获得多个词语；

步骤202：对各个词语进行词性标注；

步骤203：删除词性标注后的各个词语中的停用词，剩余的词语构成所述原始评论文本的词组集合。

其中，在步骤203中，基于情感停用词词典对原始评论文本去燥，排除无实义词的干扰，保留表征情感特征的词语构成词组集合，进而对词组集合进行情感特征集的提取，可提高情感分类速度与准确率。

具体地，所述情感特征集包括情感词特征向量特征、实词特征。

其中，从所述词组集合中提取所述原始评论文本的情感词特征向量特征，具体包括：

步骤301：基于word2vec工具，计算所述词组集合中任意两个词语之间的相似度。

具体地，根据word2vec工具可确定一组词语的词向量的余弦相似度，根据所述词向量的余弦相似度确定对应组的词组之间语义上的相似度。

步骤302：计算每个词语的相似度的平均值，各个词语的相似度平均值为情感词特征向量特征。

例如，所述词组集合包括n个词语，则通过word2vec工具可得到与每个词语相关的(n-1)个相似度，将(n-1)个相似度相加后并除以(n-1)以确定对应词语的相似度平均值。

如图3所示，所述实词特征包括词语个数、句子个数、词语个数/句子个数、星星个数、非谓语形容词比例、副词比例、名词比例、限定词比例、程度词比例、介词比例、不及物动词比例、及物动词比例、正向性词汇个数、负向性词汇个数中至少一者。星星数量表示评价程度，例如五星好评表示评价程度最高等。通过统计原始评论文本的句子数量以及词组集合中各个词语，确定所述实词特征。

在步骤400中，所述根据所述原始评论文本的发表时间及获取时间，确定对应原始评论文本的权重，具体包括：

步骤401：根据公式(1)，计算原始评论文本的获取时间与发表时间的时间差值：

Δt_i＝T_i1-T_i0 (1)；

其中，i表示原始评论文本，T_i0表示原始评论文本i的发表时间，T_i1表示原始评论文本i的获取时间，Δt_i表示原始评论文本i的获取时间与发表时间的时间差值。在本实施例中，所述发表时间与获取时间的单位为月，则T_i1-T_i0＞0，例如，所述原始评论文本i的发表时间T_i0为1月份，获取原始评论文本i的时间T_i1为4月份，即积累评论的时间为3个月(Δt_i＝3)。

步骤402：根据公式(2)，确定原始评论文本的权重：

α_i＝1/Δt_i (2)；

其中，α_i表示原始评论文本i的权重。

在步骤500中，根据SVM分类器进行训练和测试。如图4所示，此阶段使用KNN与基于决策树SVM的结合算法，以SVM分类器的支持向量为标准，使用KNN算法进行二次分类：对于识别为正类的样本，给定一个分类阈值e，比较SVM分类器的决策函数求取的该样本点的决策值，如果该值在给定阈值e之内，说明该样本可能是误判样本，所以再利用KNN算法二次分类求出该样本类别。

具体的，首先给定初始训练集。在本实施例中，可根据情感特征集及对应的权重确定初始训练集。通过SVM分类器进行训练和测试，在训练和测试的过程中，判断训练集中是否包含全部训练样本；如果是，则训练和测试结束；否则获取剩余的训练样本，并通过SVM分类器训练；从剩余样本的训练结果中选择最优平面附近的m个样本；计算选择的各个样本与最优平面的距离v；判断距离v的绝对值是否大于设定阈值e，如果大于，则将大于设置阈值e的距离v的绝对值对应的样本标记并添加到初始训练集中进行扩充；否则通过KNN对m个样本分类标记，并将标记的样本添加到初始训练集中进行扩充。

针对文本不平衡和SVM超平面存在错分类现象提出改进的SVM多分类算法，判断样本是否处于超平面附近，然后对分类面附近的样本使用KNN算法进行二次分类，使情感分析的准确率和查全率都得到提升。

在步骤600中，可提前预设4个置信度区间及对应的评论类别，例如[0-30％)为有用差评、[30％-50％)为无用差评，[50％-70％)为无用好评，[70％-100％]为有用好评。

进而根据步骤500中计算得到的原始评论文本的置信度，选择对应的置信度区间，进而确定对应的评论类别。例如，计算得到的原始评论文本的置信度为75％，则对应的置信度区间为[70％-100％]，该原始评论文本为有用好评。

表1和表2表示在准确率、召回率及F值方面对传统的文本分类方法及本发明网络评论分析方法的比较。

表1传统的文本分类方法

表2本发明网络评论分析方法

表3分类判定结果

根据表3所示，召回率Recall、准确率Precision、F1值分别根据公式(3)-(5)计算得到：

经过KNN结合的处理之后，差评分类的准确率、查全率和F1值要提高了很多，查全率甚至要高于好评，通过综合评价F1值来看，差评分类的F1值比好评分类的F1值要高了至少2个百分点。有用和无用的分类结果相差不是很大。根据最后四分类的结果来看，总体效果比没有改进的分类器相对要好，说明经过KNN算法对错分样本的正确分类起到了帮助。

本发明使用改进投票标准与SVM多分类的文本情感分类方法，考虑了时间长短对评价投票标准的影响，针对不同时间长短的评论赋予不同的权重，使分类依据更加准确。使用word2vec工具获取词向量特征，解决了传统特征集无法深入反映文本语义的问题。同时训练结合KNN算法的SVM多分类器，超平面附近样本易错分的样本进行二次分类，大大提高了分类系统的准确率。

此外，本发明还提供一种网络评论分析系统，可提高网络评价的准确性。如图5所示，本发明网络评论分析系统包括获取单元1、预处理单元2、提取单元3、权重确定单元4、置信度确定单元5、预设单元6及类别确定单元7。

其中，所述获取单元1用于获取网络中的原始评论文本、所述原始评论文本的发表时间及获取时间；

所述预处理单元2用于对网络中的原始评论文本进行文本预处理，获得所述原始评论文本的词组集合；

所述提取单元3用于从所述词组集合中提取所述原始评论文本的情感特征集；

所述权重确定单元4用于根据所述原始评论文本的发表时间及获取时间，确定对应原始评论文本的权重；

所述置信度确定单元5用于基于支持向量机SVM分类器，根据所述原始评论文本的情感特征集及对应的权重，确定所述原始评论文本的置信度；

所述预设单元6用于预设多个置信度区间及对应的评论类别，所述评论类别包括有用好评、无用好评、有用差评及无用差评；

所述类别确定单元7用于根据确定的置信度及对应的置信度区间，确定所述原始评论文本的评论类别。

进一步地，所述预处理单元2包括分词模块、标注模块及删除模块。

其中，所述分词模块用于对所述原始评论文本进行分词处理，获得多个词语；所述标注模块用于对各个词语进行词性标注；所述删除模块用于删除词性标注后的各个词语中的停用词，剩余的词语构成所述原始评论文本的词组集合。

相对于现有技术，本发明网络评论分析系统与上述网络评论分析方法的有益效果相同，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种网络评论分析方法，其特征在于，所述网络评论分析方法包括：

从所述词组集合中提取所述原始评论文本的情感特征集；

2.根据权利要求1所述的网络评论分析方法，其特征在于，所述网络评论分析方法还包括：

3.根据权利要求1所述的网络评论分析方法，其特征在于，所述对网络中的原始评论文本进行文本预处理，获得所述原始评论文本的词组集合，具体包括：

对所述原始评论文本进行分词处理，获得多个词语；

对各个词语进行词性标注；

4.根据权利要求1所述的网络评论分析方法，其特征在于，所述情感特征集包括情感词特征向量特征、实词特征。

5.根据权利要求4所述的网络评论分析方法，其特征在于，从所述词组集合中提取所述原始评论文本的情感词特征向量特征，具体包括：

6.根据权利要求4所述的网络评论分析方法，其特征在于，所述实词特征包括词语个数、句子个数、词语个数/句子个数、星星个数、非谓语形容词比例、副词比例、名词比例、限定词比例、程度词比例、介词比例、不及物动词比例、及物动词比例、正向性词汇个数、负向性词汇个数中至少一者。

7.根据权利要求1所述的网络评论分析方法，其特征在于，所述根据所述原始评论文本的发表时间及获取时间，确定对应原始评论文本的权重，具体包括：

Δt_i＝T_i1-T_i0，

根据以下公式，确定原始评论文本的权重：

α_i＝1/Δt_i，

其中，α_i表示原始评论文本i的权重。

8.一种网络评论分析系统，其特征在于，所述网络评论分析系统包括：

9.根据权利要求8所述的网络评论分析系统，其特征在于，所述网络评论分析系统还包括：

10.根据权利要求8所述的网络评论分析系统，其特征在于，所述预处理单元包括：

标注模块，用于对各个词语进行词性标注；