CN111400496B

CN111400496B - 一种面向用户行为分析的大众口碑情感分析方法

Info

Publication number: CN111400496B
Application number: CN202010191851.4A
Authority: CN
Inventors: 李慧; 高超; 张舒; 樊宁; 李子琦; 杨玉
Original assignee: Marine Resources Development Institute Of Jiangsu (lianyungang); Jiangsu Ocean University
Current assignee: Marine Resources Development Institute Of Jiangsu (lianyungang); Jiangsu Ocean University
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2023-05-09
Anticipated expiration: 2040-03-18
Also published as: CN111400496A

Abstract

本发明公开了一种面向用户行为分析的大众口碑情感分析方法，本发明包括数据的收集模块、特征提取模块、机器学习模块、元分类器模块以及情感词典模块，数据的收集模块与特征提取模块单向连接，特征提取模块与机器学习模块单向连接，机器学习模块与元分类器模块单向连接，元分类器模块与情感词典模块单向连接，本发明通过结合机器学习和情感词库，使得采用情感词典对比的方法与机器学习的方法相互结合，以弥补彼此的缺点和不足，从而从用户的行为对其情感进行分类，判断用户所表达的情感是积极的还是消极的，构造的元分类器，将不同分类器的预测合并成最终的分类结果，大大提高情感分类的准确性和情感分类的效率。

Description

一种面向用户行为分析的大众口碑情感分析方法

技术领域

本发明属于文件共享系统领域，具体是一种面向用户行为分析的大众口碑情感分析方法。

背景技术

随着全球互联网使用率的增长，越来越多的消费者会提供在线评论。如果挖掘得当，丰富的数据就会产生有用的观点。从这些数据中可以获得的一个观点是关于大众口碑(EWOM)的知识。EWOM因其对消费者行为有显著的影响而闻名。EWOM传播框架体现了采用EWOM与消费者购买意愿的直接关系和影响。EWOM可以为越来越多信任这些讯息的消费者提供客观的信息，商家也可通过这些信息进行正确的商业决策。涉及到情感分析的意见挖掘是一套用于识别文本中所表达的情感、意见和作者态度，并将其转化为有意义的信息，最后将其用于商业决策的过程。

情感分类属于意见挖掘的一部分，它是对文本中对意见和论据的识别，试图寻找评论中涉及积极、消极或者中立的意见描述。情感分析作为一种典型的利用自然语言处理、计算机语言学和文本分析来确定文本内主观信息和情感的技术受到了广泛的关注，并在许多领域得到了普遍的应用。到目前为止，人们已经提出了许多方法来进行情感分析，大致可以分为文档级、句子级和实体级、方面级的情感分类。现有的情感分类研究大多是针对产品评论信息进行情感分析，该情感分析是基于产品特征，进而导致情感分析效率较低以及情感分析结果不准确，进而无法有效作为消费者以及商家的参考信息。

发明内容

本发明的目的在于提供一种面向用户行为分析的大众口碑情感分析方法。

本发明的目的可以通过以下技术方案实现：

一种面向用户行为分析的大众口碑情感分析方法，包括数据的收集模块、特征提取模块、机器学习模块、元分类器模块以及情感词典模块，所述数据的收集模块与特征提取模块单向连接，所述特征提取模块与机器学习模块单向连接，所述机器学习模块与元分类器模块单向连接，所述元分类器模块与情感词典模块单向连接，所述数据的收集模块包括数据收集以及预处理，所述机器学习模块包括学习模块以及分类模块，所述学习模块采用半监督学习，所述元分类器模块包括利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器以及正面社会影响/负面社会影响分类器四个基分类器；

所述数据收集在于采用爬虫软件获取评论数据，并使用深度收集策略来收集网站数据；

所述预处理通过删除重复、停用字、特殊字符以及对分词、否定的识别等操作将汉语句子分隔成词语序列；

所述特征提取模块即为将非结构化数据进行分类，将其转化为结构化数据和适度的非结构化文本数据，并生成用于机器学习模型的特征集；

所述半监督学习为机器通过对少量有标注文本和大量无标注文本的情感识别来学习构建分类模型；

所述分类模块通过学习的结果对特征提取模块传递来的数据进行情感分类，并将分类结果传输至元分类器模块中

所述元分类器模块中每个基分类器都以四类特征中的一种为基础，并使用逻辑回归模型进行组合；

所述情感词典模块是机器学习和情感词典相结合，情感词典是包含众多情感词语的词汇库，每个情感词语都可以表示其对应特征情感的程度，机器学习利用情感词典进行分类，同时情感词典通过机器分类得到进一步完善，并进一步对机器学习的分类结果进行修正；

所述一种面向用户行为分析的大众口碑情感分析方法为：

1)从ODS中获取数据；

2)通过特征选择将获取的非结构化文本数据转换为结构化数据；

3)然后分别从八个特征方面对个体的情感进行分类，分为利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器、正面社会影响/负面社会影响分类器等四个分类器；

4)将四个分类器的输出作为元分类器的输入特征；

5)建立的情感词典修正这四个分类器的错误预测结果；

6)将正确的结果导出。

进一步地，所述特征提取模块的工作步骤具体如下：

步骤一：首先在用户评论集合D中计算单词wi与wj的相似度Wij，采用公式

来计算wi和wj的相似度，所述P(wi,wj)表示两个单词wi和wj同时出现的概率，所述P(wi)以及P(wj)分别表示评论中出现wi和wj的概率；

步骤二：将评论表示成一个由“词项-词项”组成的矩阵，其中每一行和每一列表示唯一的词项，矩阵中的值表示评论中每个单词对的相似度得分，之后通过公式

计算得出单词wi的上下文相关度，所述n表示D中的词项数量；

步骤三：通过得到的单词wi的上下文相关度确定“词项-词项”矩阵是否为特征；

步骤四：重复步骤一至步骤三，提取用户评论集合D中所有特征组合为特征集传递至机器学习模块中。

进一步地，所述学习模块工作步骤具体如下：

步骤一：将随机抽取多个评论，并聘请3名有经验的标注者来对评论进行类别的标注；

步骤二：分别针对多个特性为每条评论进行编码，采用0表示评论中存在某个特性，1表示评论中不存在某个特性；

步骤三：将编码好的多个评论分别采用四种机器学习算法来构建模型，并对比每种模型的性能，选择性能较好模型的机器学习算法。，采用性能较好模型的机器学习算法制作多个分类器；

步骤四：首先使用少量带标注的训练样本对多个分类器进行训练，然后用所有训练样本集对训练后的分类器进行再训练；

步骤五：步骤四重复多次，得到效果最佳的分类器。

进一步地，所述分类模块工作步骤具体如下：

1)将特征提取模块提取的特性数据导入分类器内；

2)分类器通过特性数据对从ODS中获取的数据进行分类；

3)将分类的数据分别传递于元分类器各个基分类器中。

进一步地，情感词典通过机器完善工作步骤具体如下：

1)手动指定一些评论中经常出现的具有明显情感指示的词语作为情感指示词的种子集合；

2)分类器通过构建的种子集合的知识图谱来挖掘种子集合中的同义词，并通过同义词挖掘下一个同义词；

3)当同义词数扩展到达8个或无其他同义词时，情感词典停止自动扩充算法；

4)当情感词典停止自动扩充算法时，程序会在词语节点之间划分边界，然后将所有同义词形成同义词种子集合；

5)同义词种子集合放入同义词的基本词所在的种子集合中，完成初始种子集合的扩充；

6)之后每一次分类器在进行分类时皆对种子集合进行自动扩充。

进一步地，所述分类器可通过情感词典模块进行完善，提高情感分类准确度，所述分类器完善步骤具体如下：

1)分类器基于情感词典对特征提取模块的数据进行情感分类，并按照情感类别进行分别保存；

2)人力依据情感词典对特征提取模块的数据进行情感分类，并按照情感类别进行分别保存；

3)情感词典通过机器完善，并且分类器基于完善的情感词典对特征提取模块的数据再进行一次情感分类，并按照情感类别进行分别保存；

4)重复3)直至分类器的分类数据与情感词典的修正数据结果的差值最小，此时分类器为最佳性能的分类器。

进一步地，所述机器学习和情感词典相结合工作步骤具体如下：

2)将保存结果导出。

本发明的有益效果：本发明的基本思想是结合机器学习和情感词库，从用户行为对情感进行多分类。由于在用户评论中，存在多个可能的类别特征可以用来预测用户的行为。我们着重于识别能够表达用户意图和从大众口碑中进行情感分析的用户行为分析。我们也可以把它看作一个基于用户行为分析的情感多分类问题。以往的情感分类研究多集中在二元分类上，即判断用户所表达的情感是积极的还是消极的。然而，揭示更多详细信息的多分类系统通常更具有实用价值。影响用户是否采用SOD平台的因素不止一个，因此我们将这些影响因素分别进行了分类。最后，构造一个元分类器，可能使用不同的分类方法，将不同分类器的预测合并成最终的分类结果。为了优化我们的自学习分类器的性能，我们使用了一个基于情感词库的分类器，在每个步骤中首先训练学习分类器，然后由情感词库分类器验证标记的数据集。从ODS中获取的数据是非结构化文本数据，需要通过特征选择将其转换为结构化数据。然后我们构建了四个分类器，分别从八个特征方面对个体的情感进行分类，分别是利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器、正面社会影响/负面社会影响分类器。这四个分类器的输出是元分类器的输入特征。我们还建立了一个情感词典来修正这四个分类器的错误预测结果。基于情感词典的方法和机器学习的方法可以相互结合，以弥补彼此的缺点和不足，从而从用户的行为对其情感进行分类，判断用户所表达的情感是积极的还是消极的，构造的元分类器，将不同分类器的预测合并成最终的分类结果，大大提高情感分类的准确性和情感分类的效率。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的工作流程框图。

具体实施方式

一种面向用户行为分析的大众口碑情感分析方法，包括数据的收集模块、特征提取模块、机器学习模块、元分类器模块以及情感词典模块，数据的收集模块与特征提取模块单向连接，特征提取模块与机器学习模块单向连接，机器学习模块与元分类器模块单向连接，元分类器模块与情感词典模块单向连接，数据的收集模块包括数据收集以及预处理，机器学习模块包括学习模块以及分类模块，学习模块采用半监督学习，元分类器模块包括利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器以及正面社会影响/负面社会影响分类器四个基分类器。

数据收集在于采用爬虫软件获取评论数据，并使用深度收集策略来收集网站数据。

预处理通过删除重复、停用字、特殊字符以及对分词、否定的识别等操作将汉语句子分隔成词语序列。

特征提取模块即为将非结构化数据进行分类，将其转化为结构化数据和适度的非结构化文本数据，并生成用于机器学习模型的特征集。

半监督学习为机器通过对少量有标注文本和大量无标注文本的情感识别来学习构建分类模型。

分类模块通过学习的结果对特征提取模块传递来的数据进行情感分类，并将分类结果传输至元分类器模块中

元分类器模块中每个基分类器都以四类特征中的一种为基础，并使用逻辑回归模型进行组合。

情感词典模块是机器学习和情感词典相结合，情感词典是包含众多情感词语的词汇库，每个情感词语都可以表示其对应特征情感的程度，机器学习利用情感词典进行分类，同时情感词典通过机器分类得到进一步完善，并进一步对机器学习的分类结果进行修正。

一种面向用户行为分析的大众口碑情感分析方法为：

1)从ODS中获取数据；

3)然后分别从八个特征方面对个体的情感进行分类，分为利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器、正面社会影响/负面社会影响分类器构建四个分类器；

4)将四个分类器的输出作为元分类器的输入特征；

5)建立的情感词典修正这四个分类器的错误预测结果；

6)将正确的结果导出。

特征提取模块的工作步骤具体如下：

来计算wi和wj的相似度，P(wi,wj)表示两个单词wi和wj同时出现的概率，P(wi)以及P(wj)分别表示评论中出现wi和wj的概率；

计算得出单词wi的上下文相关度，n表示D中的词项数量；

学习模块工作步骤具体如下：

步骤五：步骤四重复多次，得到效果最佳的分类器。

分类模块工作步骤具体如下：

1)将特征提取模块提取的特性数据导入分类器内；

2)分类器通过特性数据对从ODS中获取的数据进行分类；

3)将分类的数据分别传递于元分类器各个基分类器中。

情感词典通过机器完善工作步骤具体如下：

2)分类器通过构建的种子集合的知识图谱来挖掘种子集合中的同义词，并通过挖掘同义词；

分类器可通过情感词典模块进行完善，提高情感分类准确度，分类器完善步骤具体如下：

机器学习和情感词典相结合工作步骤具体如下：

2)将保存结果导出。

实施例1：

情感分类的算法性能可以通过准确度、查全率、查准率和F1分数等几个指标来评估。这些指标基于以下概念，它们与事件是否被正确或不正确地进行分类。

·真正例(TP):该事件已被正确归为该类别的一部分；

·假正例(FP):该事件被错误地归为该类别的一部分；

·真负例(TN):该事件已被正确归为不属于该类别的一部分；

·假负例(FN):该事件被错误地归为不属于该类别的一部分；

精确度、查全率、查准率和F1分数这几个指标定义如下：

准确率:这三个指标里最直观的就是准确率:模型判断正确的数据(TP+TN)占总数据的比例

查准率:针对模型判断出的所有正例(TP+FP)而言,其中真正例(TP)占的比例。以物体检测为例,查准率高表示模型检测出的物体中大部分确实是物体,只有少量不是物体的对象被当成物体。

查全率是指事件跟据它的类别被正确的分类了。高查全率表明模型在正确识别积极方面很突出。

在精确度和查全率之间存在一个固有的平衡，因为较高的查全率会导致非常低的精准度。为了对分类方法的性能提供更平衡的评估，我们使用了F1值进行评估。

实施例2：验证特征情感分类的有效性

在整个数据集中,我们随机选择300条评论数据,然后将我们提出的分类模型应用于预测以下10种特征(利益、风险、正面的社会影响(PSI),负面的社会影响(NSI),信任服务(TO)，信任约会者(TD),不信任服务(DTO),不信任约会者(DTD),接纳(AC),拒绝接纳(NAC))。然后将其预测结果与人工标记的结果作比较。表1显示了模型预测结果。

表1情感分类的结果

	利益	风险	PSI	NSI	TO	TD	DTO	DTD	AC	NAC
											精确度	0.905	0.930	0.890	0.750	0.895	0.900	0.870	0.860	0.935	0.890
查全率	0.915	0.935	0.855	0.800	0.935	0.950	0.870	0.745	0.945	0.920
											F1值	0.905	0.935	0.870	0.765	0.915	0.950	0.87	0.775	0.935	0.950
查准率	0.900	0.930	0.900	0.780	0.934	0.900	0.868	0.819	0.934	0.950

由于我们在每一个特征分类中都使用了三种分类器(KNN,NB,SVM)中最好的一种，所以得到分类的准确度相对较高。对于大多数特征(收益，TO,TD,AC)，分类算法都具有较高的精确度，并且查全率保持在同一水平。在对同时考虑了查准率和查全率的F1值的分析结果发现，我们的分类在大多数情况下也有较高的表现。对于NSI的特征，我们的分类结果相对较差。这也是与现实情况相符的，因为当用户对平台不满时，一般就不大愿意在SOD平台上发表评论，从而导致具有负面社会影响特征的评论数据较少。因此，在训练数据集的数量越少，训练出来的分类模型准确率就会越低，分类效果就会越差。

实施例3：元分类器的有效性验证。

我们选择逻辑回归作为元分类器是因为它是构建元分类器较好的一个选择。表2给出了利用不同方法构建元分类器的性能对比结果。从查准率、查全率、F1值和精确度这四个性能指标的分析结果表明，我们提出的元分类器学习方法均优于其他方法。经检验证明，我们提出的方法与其他构建元分类器方法在各项性能指标上的差异均有统计学意义(p<0.01)。

表2不同元方法的性能

方法	查准率	查全率	F1值	精确度
					本文方法	0.895	0.897	0.894	0.892
随机子空间法	0.875	0.875	0.842	0.850
					词袋法	0.835	0.837	0.839	0.825
基于模式的Boosting法	0.850	0.850	0.868	0.852

实施例4：机器学习与情感词典相组合的有效性验证

我们将对整个数据集中的正面评价和负面评价分别进行了验证。在每一类评价中都选取400条评论进行分析。每类评价中均对TP,FP,TN,FN分别应用手工标记、基于词典的方法、基于机器学习的方法、组合机器学习与情感词典的方法进行分类结果的统计，最终计算出每种方法在查准率、查全率、F值和准确率四个指标上的实验结果。表3显示了各种方法在各种性能指标下的具体实验结果。在对正面评论的分析结果显示，F1值在手工标记、基于词典的方法、基于机器学习的方法、组合机器学习与情感词典的方法这四类方法中呈现递增趋势，最高的是本文使用的组合机器学习与情感词典的方法，F1值达到最大值0.85。在对负面评论进行分类时，由于负面评论中的“情感指示词“较少，导致组合学习的能力有所减弱，因此组合方法并没有显示出明显的优势。但机器学习的方法取得了明显优秀，F1值达到最大值0.61。从而验证了本文提出的元分类器的有效性。实验结果表明，在数据集中正面和负面评论分布比较均匀时，组合学习方法可以获得最好的分类效果，而当数据集中正负评论分布不均匀时，元分类器的分类效果最好。因此，本文提出的结合机器学习与情感词典的方法在数据集中的评论处于任何情况时均能取得较好的分类效果，大大提高了情感分类的整体效果。

表3机器学习和基于词汇库的效果

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种面向用户行为分析的大众口碑情感分析方法，包括数据的收集模块、特征提取模块、机器学习模块、元分类器模块以及情感词典模块，其特征在于，所述数据的收集模块与特征提取模块单向连接，所述特征提取模块与机器学习模块单向连接，所述机器学习模块与元分类器模块单向连接，所述元分类器模块与情感词典模块单向连接，所述数据的收集模块包括数据收集以及预处理，所述机器学习模块包括学习模块以及分类模块，所述学习模块采用半监督学习，所述元分类器模块包括利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器以及正面社会影响/负面社会影响分类器四个基分类器；

所述预处理通过删除重复、停用字、特殊字符以及对分词、否定的识别操作将汉语句子分隔成词语序列；

所述情感词典模块是机器学习和情感词典相结合，情感词典是包含众多情感词语的词汇库，每个情感词语表示其对应特征情感的程度，机器学习利用情感词典进行分类，同时情感词典通过机器分类得到进一步完善，并进一步对机器学习的分类结果进行修正；

所述一种面向用户行为分析的大众口碑情感分析方法为：

1)从ODS中获取数据；

2)通过特征提取将获取的非结构化文本数据转换为结构化数据；

3)然后分别从八个特征方面对个体的情感进行分类，分为利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器、正面社会影响/负面社会影响分类器；

4)将四个分类器的输出作为元分类器的输入特征；

5)建立的情感词典修正这四个分类器的错误预测结果；

6)将正确的结果导出。

2.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法，其特征在于，所述特征提取模块的工作步骤具体如下：

步骤一：首先在用户评论集合D中计算单词wi与wj的相似度Wi,j，采用公式

计算得出单词wi的上下文相关度，所述n表示D中的词项数量；

3.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法，其特征在于，所述学习模块工作步骤具体如下：

步骤二：分别针对多个特性为每条评论进行编码；

步骤三：将编码好的多个评论分别采用四种机器学习算法来构建模型，并对比每种模型的性能，选择性能较好模型的机器学习算法，采用性能较好模型的机器学习算法制作多个分类器；

步骤五：步骤四重复多次，得到效果最佳的分类器。

4.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法，其特征在于，所述分类模块工作步骤具体如下：

1)将特征提取模块提取的特性数据导入分类器内；

2)分类器通过特性数据对从ODS中获取的数据进行分类；

3)将分类的数据分别传递于元分类器的各个基分类器中。

5.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法，其特征在于，情感词典通过机器完善工作步骤具体如下：

6.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法，其特征在于，所述分类器可通过情感词典模块进行完善，提高情感分类准确度，所述分类器完善步骤具体如下：

7.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法，其特征在于，所述机器学习和情感词典相结合工作步骤具体如下：

2)将保存结果导出。