CN107608961A

CN107608961A - 基于视角的情感分析方法、电子设备、存储介质、系统

Info

Publication number: CN107608961A
Application number: CN201710807153.0A
Authority: CN
Inventors: 蔡毅
Original assignee: Guangzhou Wangwang Information Technology Co Ltd
Current assignee: Guangzhou Wangwang Information Technology Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-01-19

Abstract

本发明提供基于视角的情感分析方法，包括步骤数据预处理，视角抽取，情感特征提取，对待测样本进行预处理，抽取预处理后的待测样本的视角、方面、情感词，构建领域情感词典生成情感词的概率，采用SVM算法和GBDT算法对情感词概率进行修正，并对分类进行融合；本发明涉及基于视角的情感分析系统；本发明还涉及电子设备与可读存储介质，用于执行基于视角的情感分析方法；本发明通过视角抽取和构建基于视角、方面、情感词的领域情感词典，更细粒度地分析视角下的互联网用户情感，通过分类融合，提高情感分析的准确性，泛化能力好。

Description

基于视角的情感分析方法、电子设备、存储介质、系统

技术领域

本发明涉及自然语言处理领域，尤其涉及基于视角的情感分析方法、电子设备、存储介质、系统。

背景技术

随着网络舆情分析在问题定位和问题分析中重要性的增加，对数据情感判断的需求以及带视角对文本判断的需求也越来越多。文档类型多种多样，文章中描述的情感也具有多样性，站在不同的视角，文章展现的情感倾向也不相同。同时，来源于互联网的UGC(用户产生内容)文章也随着用户语言习惯的不同而多种多样，网络用语和流行用语层出不穷，这些都给情感分析带来了一定的挑战，目前，并未将基于视角的情感分析应用于汽车领域。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供基于视角的情感分析方法，通过视角抽取和构建基于视角、方面、情感词的领域情感词典，更细粒度地分析视角下的互联网用户情感，通过分类融合，提高情感分析的准确性。

本发明提供基于视角的情感分析方法，包括以下步骤：

视角抽取，抽取待测试样本的视角，所述视角包括汽车品牌；

情感特征提取，提取所述视角的方面和所述方面对应的情感词，获取领域情感词典生成所述方面对应的情感词的概率；

情感分析，根据所述方面对应的情感词的概率分析所述待测试样本的情感倾向。

进一步地，所述视角还包括汽车厂商、汽车型号、车型参数，所述步骤视角抽取还包括抽取所述待测试样本的汽车厂商、汽车型号、车型参数。

进一步地，在所述步骤视角获取之前还包括步骤数据预处理，对所述待测试样本进行预处理，获得所述待测试样本的特征词。

进一步地，所述步骤数据预处理包括以下步骤：

数据扩增，采用网络爬虫抓取汽车领域数据扩增所述待测试样本；

文本清洗去噪，清洗所述待测试样本，获得清洗后待测试样本；

中文分词，对所述清洗后待测试样本进行分词处理，获得所述待测试样本的特征词。

进一步地，所述步骤数据扩增具体为采用scrapy框架和redis数据库创建分布式爬虫，获取所述分布式爬虫抓取汽车领域数据扩增所述待测试样本。

进一步地，所述情感特征提取具体包括以下步骤：

抽取候选词，计算所述待测试样本的特征词的TF-IDF值，并按TF-IDF值进行排序，抽取若干特征词为方面的候选词，TF为词频，IDF为逆向文件频率；

匹配方面，采用LDA聚类算法对所述方面的候选词进行聚类，获得匹配方面；

提取情感词，对待测试样本的句子进行句法分析，提取与所述匹配方面存在主谓关系或定中关系的词为候选情感词；

生成情感词概率，获取所述领域情感词典生成所述候选情感词的正面概率和负面概率。

进一步地，所述步骤情感分析具体包括以下步骤：

SVM分类，采用SVM算法对所述方面对应的情感词的概率进行修正，获得所述待测样本的第一分类；

GBDT分类，采用GBDT算法对所述方面对应的情感词的概率进行修正，获得所述待测样本的第二分类；

分类融合，对所述待测样本的第一分类和所述待测样本的第二分类进行融合，获得所述待测样本的分类。

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行上述基于视角的情感分析方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述基于视角的情感分析方法。

基于视角的情感分析系统，包括：

数据预处理模块：用于对待测试样本进行预处理，得到所述待测试样本的特征词；

视角抽取模块：用于抽取所述待测试样本的视角，所述视角包括汽车品牌、汽车厂商、汽车型号、车型参数；

情感特征提取模块：用于提取所述视角的方面和所述方面对应的情感词，并获取领域情感词典生成所述方面对应的情感词的概率；

情感分析模块：用于根据所述方面对应的情感词的概率分析所述待测试样本的情感倾向。

相比现有技术，本发明的有益效果在于：

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的基于视角的情感分析方法流程图；

图2为本发明实施例的混合模型结构框图；

图3为本发明的基于视角的情感分析系统结构框图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

基于视角的情感分析方法，如图1所示，包括以下步骤：

优选地，在步骤视角获取之前还包括步骤数据预处理，对待测试样本进行预处理，获得待测试样本的特征词。

优选地，步骤数据预处理包括以下步骤：

数据扩增，采用网络爬虫技术对互联网中公开的数据进行抓取，其中抓取的数据主要为汽车相关领域数据，抓取其中海量半结构化的评论或简报等数据，基于Scrapy框架以及非结构化数据库Redis开发多线程的高并发式爬虫，Scrapy是python语言编写的爬虫开发框架，Redis是高性能的内存数据库，它将大部分数据载入至内存中，实现高性能的存储，并且会自动持久化内存中的数据，能够在保证读写效率的情况下实现稳定的数据存储，本发明的爬虫程序重构了Scrapy的调度模块，对URL的存储是通过Redis而不是文本的形式，极大的加快了数据抓取效率。

文本清洗去噪，本发明按以下规则对待测试样本进行清洗，获得清洗后待测试样本，其中作为判断依据的符号与其内容一并去除，清洗规则如下：

(1)去除包含在[……]中的内容；

(2)去除包含在#……#中的内容；

(3)去除//@……：或//@……:中的内容；

(4)去除@后跟部分直到遇到制表符或者空格；

(5)去除包含在《……》中的内容；

(6)去除(……)中的内容；

(7)将“……”替换为“，”，此处“……”为完整的中文省略号；

(8)去除特定颜文字；

(9)去除网址。

中文分词，对清洗后待测试样本采用中科院Jieba分词系统对文本进行分词，获得待测试样本的特征词，Jieba分词系统采用动态规划查找最大概率Trie树路径，找出基于词频的最大分词组合。Jieba分词系统能够进行中文分词、添加自定义词典、关键词提取。

视角抽取，抽取待测试样本的视角，视角包括汽车品牌；优选地，视角还包括汽车厂商、汽车型号、车型参数，步骤视角抽取还包括抽取待测试样本的汽车厂商、汽车型号、车型参数，如“一汽大众”和“梅赛德斯-奔驰”为汽车厂商，如“凌渡”、“哈弗”、“宾利”为汽车品牌，汽车型号为某品牌的多种车型，如“智跑”、“a6l”，其中，“智跑”是“东风悦达(厂商)起亚(品牌)”的型号；“a6l”是“一汽-大众(厂商)奥迪(品牌)”的型号，车型参数为某些汽车型号后附加的参数，用于区分不同的车型，如“e-tron”、“gt”、“coupe”，如完整的视角为：“一汽-大众奥迪a6l e-tron”，其中，一汽-大众为汽车厂商，奥迪为汽车品牌，a6l为汽车型号，e-tron为车型参数。实际使用中，句子中的视角常常只包含一至两部分，视角中的每一部分都有可能被省略，如视角为“奥迪a6l”、“a6le-tron”、“a6”等。

在一实施例中，本发明提供了1879个原始视角，实际待测试样本的视角远不止这些，因此，需要对视角进行拓展，拓展的方式包括：词典拓展、相邻视角合并、子集拓展等，拓展视角至4107个，基于视角，在待测试样本的句子中进行视角匹配，视角匹配逻辑如下：

(1)最长优先匹配

长视角优先匹配，否则可能有视角错误。如视角“梅赛德斯-奔驰GLC43Coupe”优先于视角“梅赛德斯-奔驰GLC43”进行匹配。

(2)特殊优先级调整

视角长度相同，但含义不同的，如句子“而在8月，长安逸动和悦翔系列则分别获得了明显增长，尤其是逸动(含逸动XT)，其月销重新过万，本月共计销售11，824辆，同比增长1.1％。”，句子中的视角“逸动”和“悦翔”，长度相同，但含义不同，若“悦翔”比“逸动”优先匹配，则视角错误。

(3)匹配顺序

优先级从高到低依次为：中文视角、分词、由英文、数字组成的视角。

因为分词粒度的问题，长视角会被分词分开，因此，包含中文的视角在分词前进行匹配，并替换成特定符号，而由英文、数字组成的视角，无法判断是否单独存在，如“3000元”，不能直接匹配“30”视角，因此，在中文分词之后，对此类视角进行匹配。

(4)视角子集的处理

句子中，视角A和视角B可能出现多次，且视角A是视角B一部分，视角A和视角B可能都是视角，也可能不是视角。具体判断的方式如下：

若视角A和视角B都是汽车厂商，则只标记最长视角，如：

【一汽大众将产1.5t发动机】近日，从长春市发改委获悉：大众集团的ea211系列1.5t涡轮增压发动机，将在一汽大众发动机工厂投产，随后这台发动机将有望适用于大众和奥迪品牌旗下所搭载1.4t涡轮增压发其中，视角“大众”是视角“一汽大众”的简称，本句只提取“一汽大众”为视角。

若视角B为汽车型号，视角A为汽车厂商，则视角A和视角B都是视角，如：

【奥迪纯电动suv将命名为e-tron】奥迪纯电动suv——e-tronquattro概念车曾于2015法兰克福车展首次与公众见面，并被视为是未来奥迪q6的雏形其中，视角“奥迪q6”为汽车型号，视角“奥迪”为汽车厂商，两者指代不一致，因此视角“奥迪q6”和视角“奥迪”均为视角。

情感特征提取，情感词的直接载体不一定是视角，可能是通过中间的载体，如介于视角和情感词之间的方面连接起来，如句子“因为其油耗低、体积小，所以常见于本田的小型车上”，其中，“低”和“小”两个情感词并不直接形容视角“本田”，“低”形容“油耗”，“小”形容“体积”，“体积”和“油耗”为介于视角和情感词之间的方面，通过“油耗”和“体积”两个方面的正面评价来体现“本田”的正面情感，因此本发明提取视角的方面和方面对应的情感词，获取领域情感词典生成方面对应的情感词的概率。

在一实施例中，本发明利用训练集、待测试集和网络爬虫爬取的数据为汽车领域数据集，从其他地方获取等量的非汽车领域数据为非汽车领域数据集，在对汽车领域数据集和非汽车领域数据集进行分词和词性标注后，优选地，情感特征提取具体包括以下步骤：

抽取候选词，计算待测试样本的特征词的TF-IDF值，并按TF-IDF值进行排序，抽取若干特征词为方面的候选词，TF为词频，IDF为逆向文件频率；构建方面候选集后，对方面候选集进行人工干预，统计基于汽车领域的方面，对方面候选集中属于相同含义的不同表达的方面，如：造型与外观，马力与动力，采用LDA聚类算法对方面的候选词进行聚类，获得匹配方面，对于部分情感词直接形容视角的情况，如句子“雪铁龙cxperience是这几款概念车中小编最喜欢的”，其中情感词“喜欢”直接形容视角“雪铁龙”，此处隐藏了方面“整体”。

提取情感词，对待测试样本的句子进行句法分析，提取与匹配方面存在主谓关系或定中关系的词为候选情感词，同时按与方面的最近距离进行匹配做为句法分析的辅助，找出与方面距离近的形容词和副词为方面的情感词，分别统计情感词正面概率和负面的概率，构建出基于方面的领域情感词词典。

生成情感词概率，获取领域情感词典生成候选情感词的正面概率和负面概率。

情感分析，根据方面对应的情感词的概率分析待测试样本的情感倾向。

在一实施例中，优选地，如图2所示，采用混合模型分析待测试样本的情感倾向，具体包括以下步骤：

SVM分类，采用词袋模型对训练集进行处理，获得词袋特征，将词袋特征作为特征加入基于SVM算法的分类器，构建基于词袋模型的SVM分类器，采用基于词袋模型的SVM分类器对方面对应的情感词的概率进行修正，获得待测样本的第一分类；基于词袋模型的SVM分类器存在数据稀疏问题，对于词频较低的词，基于词袋模型的SVM分类器构建的分类器没有足够的样本构建健壮的判别算法。因此，对特征进行降维，对基于词袋模型的SVM分类器提取的词进行合并重组，将不同的词转化为等量维度可比较的向量，构建低维度非稀疏特征分类器对情感词进行分类。

GBDT分类，抽取视角的方面和方面对应的情感词，获取情感词典分析方面对应的情感词的正面概率和负面概率，将方面对应的情感词的正面概率和负面概率作为特征加入基于GBDT算法的分类器；领域情感词典更多地是从语法的角度评估情感，而没有深入考虑语义，因此，采用Word2Vec补充语义特征，利用网络爬虫爬取的评论，训练Word2Vec向量，通过将句子中每一个词的Word2vec向量相加得到整篇文档的向量，整篇文档的向量用于表征句子层面的情感倾向，并将整篇文档的向量作为整篇文档的特征加入基于GBDT算法的分类器；将视角对应的情感词的向量叠加得到平均的情感倾向，平均的情感倾向作为特征加入基于GBDT算法的分类器；将SnowNLP对整个句子预测的结果作为特征加入基于GBDT算法的分类器；多元组作为特征加入基于GBDT算法的分类器，多元组包括：一个句子可能包含多个视角，将视角所在分句的预测结果作为特征加入基于GBDT算法的分类器；句子的视角个数、正面情感词个数、负面情感词个数作为特征加入基于GBDT算法的分类器。GBDT算法具有较强的泛化能力，对于少于400维的特征的分类有很好的效果，采用基于GBDT算法的分类器对方面对应的情感词的概率进行修正，获得待测样本的第二分类。

分类融合，对待测样本的第一分类和待测样本的第二分类进行融合，获得待测样本的分类。

一种电子设备，包括：处理器；存储器；以及程序，其中程序被存储在存储器中，并且被配置成由处理器执行，程序包括用于执行上述基于视角的情感分析方法；一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行上述基于视角的情感分析方法。

基于视角的情感分析系统，如图3所示，包括：

视角抽取模块：用于抽取待测试样本的视角，视角包括汽车品牌；

情感特征提取模块：用于提取视角的方面和方面对应的情感词，并获取领域情感词典生成方面对应的情感词的概率；

情感分析模块：用于根据方面对应的情感词的概率分析待测试样本的情感倾向。

优选地，还包括数据预处理模块，数据预处理模块用于对待测试样本进行预处理，得到待测试样本的特征词。

优选地，预处理模块包括：

数据扩增单元：用于采用网络爬虫抓取汽车领域数据扩增待测试样本；

文本清洗去噪单元：用于清洗待测试样本，获得清洗后待测试样本；

中文分词单元：用于对清洗后待测试样本进行分词处理，获得待测试样本的特征词。

优选地，情感特征提取模块包括：

抽取候选词单元：用于计算待测试样本的特征词的TF-IDF值，并按TF-IDF值进行排序，抽取若干特征词为方面的候选词，TF为词频，IDF为逆向文件频率；

匹配方面单元：用于采用LDA聚类算法对方面的候选词进行聚类，获得匹配方面；

提取情感词单元：用于对待测试样本的句子进行句法分析，提取与匹配方面存在主谓关系或定中关系的词为候选情感词；

生成情感词概率单元：用于获取领域情感词典生成候选情感词的正面概率和负面概率。

优选地，情感分析模块包括：

SVM分类单元：用于采用SVM算法对方面对应的情感词的概率进行修正，获得待测样本的第一分类；

GBDT分类单元：用于采用GBDT算法对方面对应的情感词的概率进行修正，获得待测样本的第二分类；

分类融合单元：用于对待测样本的第一分类和待测样本的第二分类进行融合，获得待测样本的分类。

以上，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.基于视角的情感分析方法，其特征在于包括以下步骤：

视角抽取，抽取待测试样本的视角；

2.如权利要求1所述的基于视角的情感分析方法，其特征在于：所述视角包括汽车品牌、汽车厂商、汽车型号、车型参数，所述步骤视角抽取包括抽取所述待测试样本的汽车品牌、汽车厂商、汽车型号、车型参数。

3.如权利要求1所述的基于视角的情感分析方法，其特征在于：在所述步骤视角获取之前还包括步骤数据预处理，对所述待测试样本进行预处理，获得所述待测试样本的特征词。

4.如权利要求3所述的基于视角的情感分析方法，其特征在于：所述步骤数据预处理包括以下步骤：

5.如权利要求4所述的基于视角的情感分析方法，其特征在于：所述步骤数据扩增具体为采用scrapy框架和redis数据库创建分布式爬虫，获取所述分布式爬虫抓取汽车领域数据扩增所述待测试样本。

6.如权利要求4所述的基于视角的情感分析方法，其特征在于：所述情感特征提取具体包括以下步骤：

抽取候选词，采用TF-IDF算法对所述待测试样本的特征词进行标识，获得所述特征词的TF-IDF值，并按TF-IDF值进行排序，抽取若干特征词为方面的候选词；

7.如权利要求1所述的基于视角的情感分析方法，其特征在于：所述步骤情感分析具体包括以下步骤：

8.一种电子设备，其特征在于包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-7任意一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-7任意一项所述的方法。

10.基于视角的情感分析系统，其特征在于包括：