CN112101033A

CN112101033A - 一种汽车口碑的情感分析方法和装置

Info

Publication number: CN112101033A
Application number: CN202010903683.7A
Authority: CN
Inventors: 陈晶; 李奏换; 卢春霞; 黎秋怡; 刘丹; 梁维新
Original assignee: Guangzhou Wilson Information Technology Co ltd
Current assignee: Guangzhou Wilson Information Technology Co ltd
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-12-18
Anticipated expiration: 2040-09-01
Also published as: CN112101033B

Abstract

本申请公开了一种汽车口碑的情感分析方法和装置，其中方法包括：获取汽车口碑数据；基于自然语言处理，对汽车口碑数据处理得到样本数据；基于样本数据构建训练集和测试集；基于样本数据，构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型；通过训练集和测试集训练隐马尔可夫模型，并保存训练后的各隐马尔可夫模型；获取新汽车口碑数据，并基于保存的隐马尔可夫模型对新汽车口碑数据进行基于汽车配置项的情感极性分析，得到情感分析结果；基于预置指标维度，汇总情感分析结果对应的指标维度结果后进行展示，解决了自然语言导致后期维护量大且麻烦的困扰和传统机器学习方式导致的样本数据不全面引发的过拟合的技术问题。

Description

一种汽车口碑的情感分析方法和装置

技术领域

本申请涉及汽车数据分析技术领域，尤其涉及一种汽车口碑的情感分析方法和装置。

背景技术

随着网络社交媒体的快速发展，情感分析已经成为自然语言处理(NLP)中最活跃的研究领域之一。无论是个人还是企业，本实施例常常需要借助于别人的意见做出决定。因此，情感分析的重要性引发整个社会的共同关注。

在汽车这个细分领域中，用户买车、用车过程中会发表海量评论(即汽车口碑数据)，企业希望可以自动挖掘出评论中用户的评价态度，以正确分析客户情感，精准定位产品问题，进而满足客户需求。

现有技术中汽车口碑的情感分析方法主要有：通过手工打标签，然后对整段评论建分类模型，判断整体的情感极性；或是调用目前一些开放的接口，如百度AI接口，进行整段评论的情感极性判断；或是对评论从整体到部分，如将文本按主题进行划分，再提取主题下特征信息，判断情感极性。

然而上述的现有情感分析方法存在如下缺点：

(1)虽然对整段评论进行情感极性判断的准确率会普遍偏高，但得出的结论比较笼统，无法进一步得出具体的改善方向，比如用户讲“空间”方面的评价，只能得出对“空间”整体的情感极性是“正、中、负”其中一个，无法得知是“前排空间”、“后排空间”还是“头部空间”的问题，且手工打标签，很难保证样本的丰富度，容易导致过拟合。

(2)调用现有情感极性判断接口，限制多，并且无法进行词典优化，质量提升空间有限。

(3)当一条评论中主题不唯一时，每个主题下的特征会出现交叉现象，比较难确定特征的唯一性，导致主题的情感极性判断可能错误。

发明内容

有鉴于此，本申请提供了一种汽车口碑的情感分析方法和装置，解决了自然语言导致后期维护量大且麻烦的困扰和传统机器学习方式导致的样本数据不全面引发的过拟合的技术问题。

本申请第一方面提供了一种汽车口碑的情感分析方法，包括步骤：

S1、从汽车平台获取用于训练和测试的汽车口碑数据；

S2、基于自然语言处理，对所述汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取，并对所述汽车配置项所在切割语料的情感极性进行判断后得到样本数据，其中，所述切割语料为基于所述汽车配置项对所述汽车口碑数据进行切割后得到的；

S3、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行分层抽样，并基于抽样的数据构建训练集和测试集；

S4、基于所述样本数据，构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型；

S5、通过训练集训练所述隐马尔可夫模型，直至训练后的所述隐马尔可夫模型对所述测试集的预测准确率满足预设条件，停止训练，并保存训练后的各所述隐马尔可夫模型；

S6、获取新汽车口碑数据，并基于保存的所述隐马尔可夫模型对所述新汽车口碑数据进行基于所述汽车配置项的情感极性分析，得到所述新汽车口碑数据对应的情感分析结果；

S7、基于预置指标维度，汇总所述情感分析结果对应的指标维度结果后，展示所述指标维度结果。

可选地，步骤S1具体包括：

S11、从汽车平台获取用于训练和测试的汽车口碑数据；

S12、构建所述汽车口碑数据的情感元素五元组，其中，所述情感元素五元组包括：所述汽车配置项、所述情感词、所述程度词、所述否定词和所述汽车配置项的配置项类别。

可选地，步骤S2具体包括：

S21、基于结巴分词，根据步骤S12中的所述汽车配置项对所述汽车口碑数据进行切割，得到切割语料；

S22、根据所述汽车配置项和对应的切割语料的语料类别，通过卡方计算各所述汽车配置项对应的所述配置项类别；

S23、根据步骤S12中的所述情感元素五元组对所述切割语料进行分词，并对所述汽车配置项、所述情感词、所述程度词、所述否定词进行实体抽取；

S24、对所述汽车配置项所在的所述切割语料进行情感极性的判断，得到情感极性计分；

S25、按所述配置项类别对所述情感极性计分进行随机抽样后，进行人工校对，当校对准确率达到预置准确率阈值后，将实体抽取的所述汽车配置项、所述情感词、所述程度词和所述否定词作为样本数据。

可选地，步骤S3具体包括：

S31、对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行组合分层；

S32、对组合分层后的数据按照第一预置比例进行抽取，得到抽取数据；

S33、对抽取数据进行清洗、分词、去停用词后，得到中间数据；

S34、按照第二预置比例分配所述中间数据，得到训练集和测试集。

可选地，步骤S4具体包括：

S41、基于所述样本数据构建用于构建隐马尔可夫模型的隐马尔可夫五元组；

S42、根据所述隐马尔可夫五元组分别构建各汽车配置项的正、中、负三个情感极性的隐马尔可夫模型。

可选地，步骤S5具体包括：

S51、通过训练集训练所述隐马尔可夫模型；

S52、验证步骤S51得到的所述隐马尔可夫模型对所述测试集中的测试数据的情感测试结果；

S53、判断所述情感测试结果的预测准确率和F1，若均满足各自对应的子预设条件，则保存训练后的各所述隐马尔可夫模型，否则，确定造成未满足子预设条件的原因后，返回步骤S51重新训练所述隐马尔可夫模型其中，F1为精确率和召回率的调和平均数。

可选地，步骤S6具体包括：

S61、通过异步多线程接口将新汽车口碑数据平均分配到不同线程中进行处理；

S62、根据所述新汽车口碑数据中包括的汽车配置项，对所述新汽车口碑数据进行口碑语料切割，得到拆分数据；

S63、对所述拆分数据清洗、分词、去停用词后，得到待分析数据；

S64、基于保存的所述隐马尔可夫模型对所述待分析数据进行基于所述汽车配置项的情感极性分析，得到所述新汽车口碑数据对应的情感分析结果。

可选地，步骤S7具体包括：

S71、将步骤S22得到的所述配置项类别作为一级指标；

S72、将预置二级指标和所述汽车口碑数据中包括的汽车配置项添加至原文中，采用词向量与正则计算该汽车配置项与各预置二级指标的相关性，判断该汽车配置项的指标维度结果；

S73、将预置三级指标和所述汽车口碑数据中包括的汽车配置项添加至原文中，采用词向量与正则计算该汽车配置项与各预置三级指标的相关性，判断该汽车配置项的指标维度结果；

S74、汇总所有所述指标维度结果后，展示所述指标维度结果。

本申请第二方面提供了一种汽车口碑的情感分析装置，包括：

第一获取单元，用于从汽车平台获取用于训练和测试的汽车口碑数据；

第一处理单元，用于基于自然语言处理，对所述汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取，并对所述汽车配置项所在切割语料的情感极性进行判断后得到样本数据，其中，所述切割语料为基于所述汽车配置项对所述汽车口碑数据进行切割后得到的；

分层抽样单元，用于对所述样本数据中的所述汽车配置项、所述情感词、所述程度词和所述否定词进行分层抽样，并基于抽样的数据构建训练集和测试集；

模型构建单元，用于基于所述样本数据，构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型；

模型训练单元，用于通过训练集训练所述隐马尔可夫模型，直至训练后的所述隐马尔可夫模型对所述测试集的准确率满足预设条件，停止训练，并保存训练后的各所述隐马尔可夫模型；

第二获取单元，用于获取新汽车口碑数据，并基于保存的所述隐马尔可夫模型对所述新汽车口碑数据进行基于所述汽车配置项的情感极性分析，得到所述新汽车口碑数据对应的情感分析结果；

汇总展示单元，用于基于预置指标维度，汇总所述情感分析结果对应的指标维度结果后，展示所述指标维度结果。

可选地，第一获取单元具体包括：

第一获取子单元，用于从汽车平台获取用于训练和测试的汽车口碑数据；

构建子单元，用于构建所述汽车口碑数据的情感元素五元组，其中，所述情感元素五元组包括：所述汽车配置项、所述情感词、所述程度词、所述否定词和所述汽车配置项的配置项类别。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中汽车口碑的情感分析方法，首先从汽车平台获取用于训练和测试的汽车口碑数据，接着基于自然语言处理，对汽车口碑数据进行实体抽取、情感极性进行判断后得到样本数据，接着对样本数据进行分层抽样，并基于抽样的数据构建训练集和测试集，再接着基于样本数据，构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型，然后通过训练集和测试集得到预测准确率满足预设条件的训练后的各隐马尔可夫模型，然后获取新汽车口碑数据，并基于保存的隐马尔可夫模型对新汽车口碑数据进行基于汽车配置项的情感极性分析，得到新汽车口碑数据对应的情感分析结果，最后基于预置指标维度，汇总情感分析结果对应的指标维度结果后，展示指标维度结果。整个过程中，不针对类别直接建模也不是针对整个评论建模，而是对每个汽车配置项分别建立正、中、负三个情感极性的隐马尔可夫模型，既解决了内存问题，又避免了过拟合现象；且，将特征词之间的状态转移与待分类词频结合，旨在分类过程中结合口碑的语义语法的联系，改善了传统分类模型中特征词之间的独立性，从而提高分类精度，更加精确的完成分类，同时将自然语言与深度学习有机结合，发挥各自优点，规避各自缺点，从而解决了自然语言导致后期维护量大且麻烦的困扰和传统机器学习方式导致的样本数据不全面引发的过拟合的技术问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种汽车口碑的情感分析方法的实施例一的流程示意图；

图2为本申请提供的一种汽车口碑的情感分析方法的实施例二的流程示意图；

图3为实施例二对应的原理框图；

图4为本申请实施例中汽车口碑评论语义分析的原理图；

图5为本申请实施例中隐马尔可夫模型的训练过程示意图；

图6为本申请提供的一种汽车口碑的情感分析装置的实施例的结构示意图。

具体实施方式

本申请实施例提供了一种汽车口碑的情感分析方法和装置，解决了自然语言导致后期维护量大且麻烦的困扰和传统机器学习方式导致的样本数据不全面引发的过拟合的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供了一种汽车口碑的情感分析方法的实施例一，包括：

步骤101、从汽车平台获取用于训练和测试的汽车口碑数据。

需要说明的是，在对新汽车口碑进行分析前，要构建好用于对新汽车口碑进行分析的隐马尔可夫模型，故本申请中首先从汽车平台获取用于训练和测试的汽车口碑数据。

步骤102、基于自然语言处理，对汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取，并对汽车配置项所在切割语料的情感极性进行判断后得到样本数据。

本实施例中在从汽车平台获取到汽车口碑数据后，基于自然语言处理，对汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取，并对汽车配置项所在切割语料的情感极性进行判断后得到样本数据。

需要说明的是，切割语料为基于汽车配置项对汽车口碑数据进行切割后得到的。

步骤103、对样本数据中的汽车配置项、情感词、程度词和否定词进行分层抽样，并基于抽样的数据构建训练集和测试集。

本实施例中在得到样本数据后，对样本数据中的汽车配置项、情感词、程度词和否定词进行分层抽样，并基于抽样的数据构建训练集和测试集。

步骤104、基于样本数据，构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型。

需要说明的是，本实施例中还基于样本数据，构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型。

步骤105、通过训练集训练隐马尔可夫模型，直至训练后的隐马尔可夫模型对测试集的预测准确率满足预设条件，停止训练，并保存训练后的各隐马尔可夫模型。

需要说明的是，在构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型后，通过训练集训练隐马尔可夫模型，直至训练后的隐马尔可夫模型对测试集的预测准确率满足预设条件，停止训练，并保存训练后的各隐马尔可夫模型。

步骤106、获取新汽车口碑数据，并基于保存的隐马尔可夫模型对新汽车口碑数据进行基于汽车配置项的情感极性分析，得到新汽车口碑数据对应的情感分析结果。

需要说明的是，在保存训练后的各隐马尔可夫模型后，获取新汽车口碑数据，并基于保存的隐马尔可夫模型对新汽车口碑数据进行基于汽车配置项的情感极性分析，得到新汽车口碑数据对应的情感分析结果。

步骤107、基于预置指标维度，汇总情感分析结果对应的指标维度结果后，展示指标维度结果。

最后，基于预置指标维度，汇总情感分析结果对应的指标维度结果后，展示指标维度结果。

本实施例中的汽车口碑的情感分析方法，首先从汽车平台获取用于训练和测试的汽车口碑数据，接着基于自然语言处理，对汽车口碑数据进行实体抽取、情感极性进行判断后得到样本数据，接着对样本数据进行分层抽样，并基于抽样的数据构建训练集和测试集，再接着基于样本数据，构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型，然后通过训练集和测试集得到预测准确率满足预设条件的训练后的各隐马尔可夫模型，然后获取新汽车口碑数据，并基于保存的隐马尔可夫模型对新汽车口碑数据进行基于汽车配置项的情感极性分析，得到新汽车口碑数据对应的情感分析结果，最后基于预置指标维度，汇总情感分析结果对应的指标维度结果后，展示指标维度结果。整个过程中，不针对类别直接建模也不是针对整个评论建模，而是对每个汽车配置项分别建立正、中、负三个情感极性的隐马尔可夫模型，既解决了内存问题，又避免了过拟合现象；且，将特征词之间的状态转移与待分类词频结合，旨在分类过程中结合口碑的语义语法的联系，改善了传统分类模型中特征词之间的独立性，从而提高分类精度，更加精确的完成分类，同时将自然语言与深度学习有机结合，发挥各自优点，规避各自缺点，从而解决了自然语言导致后期维护量大且麻烦的困扰和传统机器学习方式导致的样本数据不全面引发的过拟合的技术问题。

以上是对本发明提供的一种汽车口碑的情感分析方法的实施例一的说明，以下将对本发明提供的一种汽车口碑的情感分析方法的实施例二进行说明。

请参阅图2，本发明提供了一种汽车口碑的情感分析方法的实施例二，包括：

步骤201、从汽车平台获取用于训练和测试的汽车口碑数据。

可以理解的是，如图3所示，为本实施例中的汽车口碑情感分析的原理框图。

具体的语义分析如图4，图4中，纵坐标是原评论中的一级指标，横坐标是通过程序校对后的一级指标，颜色标识代表相关性，这里乘了100，每行指标的总和为100，样本量是随机抽取6万条评论，例如空间有96.79％的语料纠正后依然判定为空间，有3.21％判定为性价比，说明用户将性价比这个主题下的描述写到了“空间”这个主题下)中可以看到，评论中一级指标之间出现了交叉现象，其中舒适性与内饰、性价比之间交叉很大，为了解决这个问题。本实施例将不会采用传统方式建模(由顶级向下钻取，即先确认指标级，再确认指标下的汽车配置项)，而是采用由底向上汇总，即找出所有汽车配置项，对原评论进行切分，判断配置项情感极性，再由配置项向上汇总，得出各级指标的情感极性。

一级指标：即评论属性的类别，如操控、动力、空间、内饰、能耗等，语料中存在。二级指标：转向系统、悬架、驾驶等。三级指标：电子助力转向、变道转向等。口碑评论属性：即汽车配置项，如儿童座椅、倒车影像、发动机、方向盘等。

步骤202、构建汽车口碑数据的情感元素五元组。

本实施例中的情感元素五元组包括：汽车配置项、情感词、程度词、否定词和汽车配置项的配置项类别。

对于情感元素五元组的构建，例如一段讲空间的评论为：后排空间小，很窄，主副驾驶门上的储物盒不够用。有两个5元组，第一组(空间、后排空间、小|很、窄)，第二组(空间、储物盒、不、够用)。

属性整理通过分词将高频词数据同汽车配置项进行相似度匹配，找出所有与汽车相关的配置信息，另外同义词本实施例可以采用词向量，找出相近的属性，避免遗漏。

否定词、程度副词，可以直接获取知网和一些公开的词典；情感词可以从知网以及已有网站下载后，与汽车语料进行匹配后得出，再补充一些汽车行业个性的情感词，如“指哪打哪”。

配置项类别，也就是一级指标，如“前排空间”在“空间”与“舒适性”等多个类别下的评论中都会出现，最终对每个汽车属性判定唯一一个类别。这里通过卡方计算得到，并通过词频补充筛选，解决因部分属性频率低而卡方显著导致的误解。

卡方计算为：N*(AD-BC)2/((A+B)(A+C)(B+D)(C+D))；

式中，N评论总数；A，包含属性t且属于C类的评论数目；B，包含属性t且不属于C类的评论数目；C，不包含属性t但属于C类的评论数目，D，不包含属性t也不属于C类的评论数目。

其中情感元素五元组的部分数据展示如下表1所示：

表1

汽车配置项	配置项类别
		座椅	舒适性
隔音	舒适性
		减震	舒适性
起步	动力
		超车	动力
提速	动力

步骤203、基于结巴分词，根据步骤202中的汽车配置项对汽车口碑数据进行切割，得到切割语料。

步骤204、根据汽车配置项和对应的切割语料的语料类别，通过卡方计算各汽车配置项对应的配置项类别。

步骤205、根据步骤202中的情感元素五元组对切割语料进行分词，并对汽车配置项、情感词、程度词、否定词进行实体抽取。

步骤206、对汽车配置项所在的切割语料进行情感极性的判断，得到情感极性计分。

经步骤206处理后得到的情感极性计分可以为，如后排空间小，很窄，主副驾驶门上的储物盒不够用，输出结论为如下表2所示：

表2

步骤207、按配置项类别对情感极性计分进行随机抽样后，进行人工校对，当校对准确率达到预置准确率阈值后，将实体抽取的汽车配置项、情感词、程度词和否定词作为样本数据。

按配置项类别对情感极性计分进行随机抽样，这里按配置项类别进行分层随机抽样2000本，比例保持同原类别比例，共抽取三次，人工校对，准确率达到75％之后，停止优化词典，将所有输出数据作为样本数据保留，供隐马尔可夫模型使用。

步骤208、对样本数据中的汽车配置项、情感词、程度词和否定词进行组合分层。

步骤209、对组合分层后的数据按照第一预置比例进行抽取，得到抽取数据。

步骤210、对抽取数据进行清洗、分词、去停用词后，得到中间数据。

步骤211、按照第二预置比例分配中间数据，得到训练集和测试集。

将样本数据进行分层随机抽样，这里分层的基准是按汽车配置项、情感词、程度词和否定词组合进行分层。接着随机抽取一定比例的组合分层后的数据，这样做的目的是为了让本实施例的样本更丰富，避免某些特征过多或是过少引起的过拟合现象。抽取的数据，进行清洗、分词、去停用词后，训练集与测试集再进行7：3的比例分配。

步骤212、基于样本数据构建用于构建隐马尔可夫模型的隐马尔可夫五元组。

其中，隐马尔可夫五元组λ为λ＝{X,O,π,А,B}；

X，状态集，本实施例采用TFIDF方式，计算出每个模型下特征词的特征值，降序排列，通过一定比例进行筛选特征词，对保留下来的特征词的特征值进行一定的转换，将计算后的值的升序序列所对应的特征词作为状态集(每个模型的状态集都不相同)，即从权重低的特征词向权重高的特征词转移，转而向正确情感极性逼近的过程。这里所提及的特征词是由每个模型下关键的汽车配置项、否定词、程度词、情感主词组成，主要是对情感极性判断有重要作用的词语。

注：TFIDF(term frequency–inverse document frequency)：TF意思是词频(TermFrequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。公式:TFIDF＝TF(W,D)*IDF，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。词W在文档D中的词频TF(TERM FREQUENCY)，即词W在文档D中出现次数COUNT(W,D)和文档D中总词数size(D)的比值：TF(W,D)＝COUNT(W,D)/SIZE(D)。词W在整个文档集合中的逆向文档频率IDF(INVERSE DOCUMENT FREQUENCY)，即文档总数N与词W所出现文件数DOCS(W,D)比值的对数:IDF＝LOG(N/DOCS(W,D))。

O，观察值符号的集合，在这里是{1(输出)、0(不输出)}，每个模型的O都相同。

π，初始化状态分布，这里设置一个固定一维行列式，维数由该模型下状态集数量决定。

A，状态转移概率矩阵，每个模型的A都不相同，维度由状态集数量决定。

B，观察值概率矩阵，即在每个状态下，输出与不输出的概率，和为1。

如图5所示，构建模型的过程就是用序列模式描述文本类，将待分类文本描述成一系列状态演化的隐马尔可夫过程，文本序列通过与隐马尔可夫分类模型匹配，求出输出对应状态序列概率最大的隐马尔可夫模型所对应的类别，达到文本分类目的。将所有构建好的模型保存起来。

步骤213、根据隐马尔可夫五元组分别构建各汽车配置项的正、中、负三个情感极性的隐马尔可夫模型。

广告千人千面是为了精准营销，同样每个汽车配置项的描述也存在多面性，即存在共同的特征词，也存在个性的特征词，而且即使是相同的特征词，表现出来的情感极性也可能完全相反。如“疲软”常用来描述“加速”，“指哪打哪”用来描述“方向盘”等，而“较大”，当与“前排空间”一起搭配时是正情感，当与“油耗”一起搭配时是负情感。针对该问题，本实施例中将汽车配置项+情感极性分别建立隐马尔科夫模型，如“前排空间”建立3个模型，分别为正情感(1)、中性情感(0)、负情感(-1)。这样既实现了每个模型下的特征词精简，避免运算过程中内存不足，也避免了汽车配置项下个别特征词互相干扰，导致极性判断错误。

步骤214、通过训练集训练隐马尔可夫模型。

如果每个配置项类别有400个汽车配置项，需要分析10个配置项类别，共需要创建12000个模型，隐马尔可夫模型需要电脑的配置至少是16G内存，但这么庞大的运算量，时间上无法把握且计算机性能很受考验，考虑到不同的汽车配置项之间的模型没有必然的关联性，可以分别进行建模，所以这里引入异步多线程模式，即，将12000个模型分别在不同的线程下完成训练，如果对时间上有要求的，可以考虑放在不同服务器上进行，将训练好的模型保存起来。

步骤215、验证步骤214得到的隐马尔可夫模型对测试集中的测试数据的情感测试结果。

步骤216、判断情感测试结果的预测准确率和F1，若均满足各自对应的子预设条件，则保存训练后的各隐马尔可夫模型，否则，确定造成未满足子预设条件的原因后，返回步骤214重新训练隐马尔可夫模型。

将测试集中的数据，按汽车配置项获取对应的正、中、负三个模型，待分类文本的观察集同训练阶段构建好的隐马尔可夫模型的状态序列取同，从而判断状态转移过程，最后通过前向算法求出输出概率，比较正、中、负三个模型的输出概率，从而得出这条拆分后的汽车配置语料的情感极性，同样本数据的情感极性进行比较，得出测试集预测的准确率和F1,达到预期效果，可进入预测环节，若因模型原因未达到，则调整该模型筛选的特征词及参数，重新进入测试集；若因样本质量导致，调整词典，重新进行模型训练。

注：这里预测集中观察集里存放的是特征词的词频，而不是特征值，与训练阶段略不同。

F1是分类问题的一个衡量指标,它是精确率和召回率的调和平均数，最大为1，最小为0，具体计算为：F1＝2*(精确率*召回率)/(精确率+召回率)。

步骤217、通过异步多线程接口将新汽车口碑数据平均分配到不同线程中进行处理。

对新口碑数据进行情感分析时为了防止大的数据量导致的内存不足、计算缓慢等，本实施例中里对新口碑数据分组，即通过异步多线程接口将新汽车口碑数据平均分配到不同线程中进行处理。

步骤218、根据新汽车口碑数据中包括的汽车配置项，对新汽车口碑数据进行口碑语料切割，得到拆分数据。

步骤219、对拆分数据清洗、分词、去停用词后，得到待分析数据。

步骤220、基于保存的隐马尔可夫模型对待分析数据进行基于汽车配置项的情感极性分析，得到新汽车口碑数据对应的情感分析结果。

步骤221、将步骤204得到的配置项类别作为一级指标。

步骤222、将预置二级指标和汽车口碑数据中包括的汽车配置项添加至原文中，采用词向量与正则计算该汽车配置项与各预置二级指标的相关性，判断该汽车配置项的指标维度结果。

步骤223、将预置三级指标和汽车口碑数据中包括的汽车配置项添加至原文中，采用词向量与正则计算该汽车配置项与各预置三级指标的相关性，判断该汽车配置项的指标维度结果。

步骤224、汇总所有指标维度结果后，展示指标维度结果。

以上是对本发明提供的一种汽车口碑的情感分析方法的实施例二的说明，以下将对本发明提供的一种汽车口碑的情感分析装置的实施例进行说明。

请参阅图6，本发明提供了一种汽车口碑的情感分析方法的实施例，包括：

第一获取单元601，用于从汽车平台获取用于训练和测试的汽车口碑数据；

第一处理单元602，用于基于自然语言处理，对汽车口碑数据进行汽车配置项、情感词、程度词、否定词的实体抽取，并对汽车配置项所在切割语料的情感极性进行判断后得到样本数据，其中，切割语料为基于汽车配置项对汽车口碑数据进行切割后得到的；

分层抽样单元603，用于对样本数据中的汽车配置项、情感词、程度词和否定词进行分层抽样，并基于抽样的数据构建训练集和测试集；

模型构建单元604，用于基于样本数据，构建各汽车配置项分别对应的正、中、负三个情感极性的隐马尔可夫模型；

模型训练单元605，用于通过训练集训练隐马尔可夫模型，直至训练后的隐马尔可夫模型对测试集的准确率满足预设条件，停止训练，并保存训练后的各隐马尔可夫模型；

第二获取单元606，用于获取新汽车口碑数据，并基于保存的隐马尔可夫模型对新汽车口碑数据进行基于汽车配置项的情感极性分析，得到新汽车口碑数据对应的情感分析结果；

汇总展示单元607，用于基于预置指标维度，汇总情感分析结果对应的指标维度结果后，展示指标维度结果。

进一步地，第一获取单元601具体包括：

构建子单元，用于构建汽车口碑数据的情感元素五元组，其中，情感元素五元组包括：汽车配置项、情感词、程度词、否定词和汽车配置项的配置项类别。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种汽车口碑的情感分析方法，其特征在于，包括步骤：

S1、从汽车平台获取用于训练和测试的汽车口碑数据；

2.根据权利要求1所述的汽车口碑的情感分析方法，其特征在于，步骤S1具体包括：

S11、从汽车平台获取用于训练和测试的汽车口碑数据；

3.根据权利要求2所述的汽车口碑的情感分析方法，其特征在于，步骤S2具体包括：

4.根据权利要求3所述的汽车口碑的情感分析方法，其特征在于，步骤S3具体包括：

5.根据权利要求4所述的汽车口碑的情感分析方法，其特征在于，步骤S4具体包括：

6.根据权利要求5所述的汽车口碑的情感分析方法，其特征在于，步骤S5具体包括：

S51、通过训练集训练所述隐马尔可夫模型；

S53、判断所述情感测试结果的预测准确率和F1，若均满足各自对应的子预设条件，则保存训练后的各所述隐马尔可夫模型，否则，确定造成未满足子预设条件的原因后，返回步骤S51重新训练所述隐马尔可夫模型，其中，F1为精确率和召回率的调和平均数。

7.根据权利要求6所述的汽车口碑的情感分析方法，其特征在于，步骤S6具体包括：

8.根据权利要求7所述的汽车口碑的情感分析方法，其特征在于，步骤S7具体包括：

S71、将步骤S22得到的所述配置项类别作为一级指标；

9.一种汽车口碑的情感分析装置，其特征在于，包括：

10.根据权利要求9所述的汽车口碑的情感分析装置，其特征在于，第一获取单元具体包括：