CN110059183B

CN110059183B - 一种基于大数据的汽车行业用户观点情感分类方法

Info

Publication number: CN110059183B
Application number: CN201910221691.0A
Authority: CN
Inventors: 王进; 李颖; 许景益; 孙开伟; 刘彬; 邓欣
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shanghai Yihong Information Technology Co ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2022-08-23
Anticipated expiration: 2039-03-22
Also published as: CN110059183A

Abstract

本发明请求保护一种基于大数据的汽车行业用户观点情感分类方法，包括101对数据进行预处理操作；102对数据进行特征工程构建操作；103建立多个机器学习模型包括LightGBM、随机森林、Catboost模型，并进行模型融合操作；104通过已建立的模型，根据文本内容、主题、情感分析等数据了解消费者。本发明主要是通过对文本内容、主题、情感分析等数据进行预处理、Jieba分词和分析数据提取特征，建立多个机器学习模型，从而预测汽车行业用户的情感，使得汽车厂商获得快速、准确的方式来了解消费者需求，使得汽车厂商能够根据消费者对汽车的情感对汽车做最有效的改进。

Description

一种基于大数据的汽车行业用户观点情感分类方法

技术领域

本发明属于机器学习、自然语言处理、大数据处理技术领域，尤其基于多模型融合汽车行业用户观点情感分类算法。

背景技术

随着政府对新能源汽车的大力扶植以及智能联网汽车兴起都预示着未来几年汽车行业的多元化发展及转变。汽车厂商需要了解自身产品是否能够满足消费者的需求，但传统的调研手段因为样本量小、效率低等缺陷已经无法满足当前快速发展的市场环境。因此，汽车厂商需要一种快速、准确的方式来了解消费者需求。

当前对文本提取特征的主流技术为TF-IDF，其中TF-IDF的优点是简单快速，缺点是单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。本发明基于char-level或word-level以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建，其中特征哈希法的目标是把原始的高维特征向量压缩成较低维特征向量，且尽量不损失原始特征的表达能力。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种，使得汽车厂商获得快速、准确的方式来了解消费者需求的基于大数据的汽车行业用户观点情感分类方法。本发明的技术方案如下：

一种基于大数据的汽车行业用户观点情感分类方法，其包括以下步骤：

101、获取汽车论坛评论数据，并对汽车论坛评论数据进行包括文字匹配替换异常值、在内的预处理操作；

102、对预处理后的汽车论坛评论数据进行特征工程构建操作，即基于char-level或word-level，以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建；

103、根据特征工程构建的结果建立包括LightGBM、随机森林、Catboost模型在内的机器学习模型，并采用线性加权进行模型融合操作；

104、通过步骤103已建立的模型，根据文本内容、主题、情感分析在内的数据输入到模型中预测得出消费者意图，正确的了解消费者的需求。

进一步的，所述步骤101对数据进行预处理操作，具体包括：数据为用户在汽车论坛中对汽车相关内容的讨论或评价的数据的处理，进行如下处理：

文字匹配替换异常值：原始数据存在部分错别字，利用新华词典数据集构建文字词典，根据构建的词典，对原始数据做最大正向匹配法匹配与正则表达式结合匹配——假定词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典，若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来；如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理……如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止；最大正向匹配法存在匹配到不相匹配的词语与没有匹配到想要的词语，对最大正向匹配法文字匹配错误的数据进行正则表达式处理匹配错误，利用正则表达式对原始数据做关于文字词典的正则表达式，得到每个原始数据的匹配次数，对出现0次的原始数据继续做最大正向匹配，直到正则表达式字符串出现次数全部大于等于1时匹配结束。

进一步的，所述步骤102对预处理后的汽车论坛评论数据进行特征工程构建操作，即基于char-level或word-level，以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建，具体包括：

对预处理后的数据根据word和char两类用于抽取预处理后文件的特征序列，再将对特征序列中的词语转换为词频矩阵，首先过滤低频出现词语即出现次数小于10次的词语，对处理后的数据构建哈希表，其中每个哈希表都用一个哈希函数来实现键-值对的映射，构建哈希表时利用词袋模型，即利用去重后所有的字构造索引表，这样可以得到每个词语对应不同的词向量，对数据进行jieba分词后，根据索引表得到各个词语的向量。

进一步的，所述步骤103建立多个机器学习模型，并进行模型融合操作，利用构造的词向量分别训练LightGBM、随机森林、Catboost模型，具体包括：

构建LightGBM、随机森林、Catboost模型后采用5折交叉验证，首先为了保证结果分布均衡把数据随机分为5组，将4组数据作为训练集训练出一个模型，然后将剩下的一组数据作为测试集，利用这5个模型最终的平均正确率来衡量模型的正确率，分别为LightGBM、随机森林、Catboost模型进行训练集五折交叉验证的预测结果，线性模型融合拟合验证集真实标签，根据三个模型拟合效果分别给定权重值，LightGBM、随机森林、Catboost模型的权值分别为0.4、0.2、0.4，对训练好的模型带入测试集数据，并对三个模型分别得到的结果带入给定权重做线性融合得到最终预测结果，

Y＝x₁*w₁+x₂*w₂+x₃*w₃

进一步的，所述步骤104通过已建立的模型，根据文本内容、主题、情感分析数据了解消费者。具体包括：根据102得到的特征数据作为样本输入到模型中进行预测，得到最终消费者情感概率值，选择当前用户所在的情感概率最大情感作为最终预测结果反馈给汽车厂商，从而使汽车厂商获得快速、准确的方式来了解消费者对产品情感是中立、正向或者负向。

本发明的优点及有益效果如下：

本发明基于char-level或word-level，以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建，本发明在对文本列数据处理后使用特征哈希将文本转换成实数向量，为避免特征哈希产生较小的散列影响准确性，再对特征哈希后的实数向量做卡方检验筛选，减少噪音特征。

附图说明

图1是本发明优选实施例提供的一种基于大数据的汽车行业用户观点情感分类方法的流程图；

图2为本发明实例一提供的一种基于大数据的汽车行业用户观点情感分类方法的LightGBM、随机森林、Catboost模型的流程图；

图3为本发明实例一提供的一种基于大数据的汽车行业用户观点情感分类方法的五折交叉验证图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

实施例一

参考图1，图1为本发明实施例一提供的一种基于大数据的汽车行业用户观点情感分类方法的流程图，具体包括：

101.收集用户在汽车论坛中对汽车相关内容的讨论或评价数据包括，数据ID、文本内容、主题、情感分析、情感词。

表1训练数据

数据预处理包括用户在用户在汽车论坛中对汽车相关内容的讨论或评价内容的数据的处理，根据数据表的描述以及物理理解进行如下处理：

①文字匹配替换异常值

原始数据存在部分错别字，利用新华词典数据集构建文字词典根据词典进行最大正向匹配法匹配与正则表达式结合匹配——假定词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理……如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止；最大正向匹配法存在匹配到不相匹配的词语与没有匹配到想要的词语，对最大正向匹配法文字匹配错误的数据进行正则表达式处理匹配错误，提高精度减少匹配错误；

102.对数据进行特征工程构建操作：

一种基于大数据的汽车行业用户观点情感分类方法，其特征在于，对数据进行特征工程构建操作，对训练集和测试集进行特征工程构建；

所述对特征工程进行构建是指基于char-level/word-level和卡方检验筛选做特征哈希以哈希表的方式实现特征构建；

权利要求3中所述基于char-level/word-level和卡方检验筛选做特征哈希以哈希表的方式实现特征构建是指：对预处理后的数据根据word和char两类用于抽取预处理后文件的特征序列，再将对特征序列中的词语转换为词频矩阵，本发明提出的特征哈希方案，首先为保证精确度，过滤低频出现词语即出现次数小于10次的词语。对处理后的数据构建哈希表，其中每个哈希表都用一个哈希函数来实现键-值对的映射，构建哈希表时利用词袋模型，即利用去重后所有的字构造索引表，构造索引表后利用jieba分词，这样可以得到每个词语对应不同的词向量。比如数据：“因为森林人即将换代”构造如下索引表：

因	0
		为	1
森	2
		林	3
人	4
		即	5
将	6
		换	7
代	8

对数据进行jieba分词得到这句话的这句话中的各个词语的向量，一共9个词汇量，可以创建一个9维的向量，如下所示：

词语	向量
		因为	[1 1 0 0 0 0 0 0 0]
森林	[0 0 1 1 0 0 0 0 0]
		人	[0 0 0 0 1 0 0 0 0]
即将	[0 0 0 0 0 1 1 0 0]
		换代	[0 0 0 0 0 0 0 1 1]

103.建立多个机器学习模型，并进行模型融合操作：

一种基于大数据的汽车行业用户观点情感分类方法，其特征在于，所述建立多个机器学习模型，并进行模型融合操作：根据权利要求3所述，利用构造的词向量分别训练LightGBM、随机森林、Catboost模型。

构建LightGBM、随机森林、Catboost模型后采用5折交叉验证，首先为了保证结果分布均衡把数据随机分为5组，将4组数据作为训练集训练出一个模型，然后将剩下的一组数据作为测试集，利用这5个模型最终的平均正确率来衡量模型的正确率，分别为LightGBM、随机森林、Catboost对模型进行训练集五折交叉验证的预测结果。线性模型融合拟合验证集真实标签，根据三个模型拟合效果分别给定权重值，如下所示：

模型	ω
		LightGBM	0.4
随机森林	0.2
		Catboost	0.4

对训练好的模型带入测试集数据，并对三个模型分别得到的结果带入给定权重做线性融合得到最终预测结果。

Y＝x₁*w₁+x₂*w₂+x₃*w₃

104.通过已建立的模型，根据文本内容、主题、情感分析等数据了解消费者：

通过快速、准确地方式对汽车行业用户的观点进行情感分类，从而预测汽车行业用户的情感，使得汽车厂商获得快速、准确的方式来了解消费者需求，使得汽车厂商能够根据消费者对汽车的情感对汽车做最有效的改进。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于大数据的汽车行业用户观点情感分类方法，其特征在于，包括以下步骤：

104、通过步骤103已建立的模型，根据文本内容、主题、情感分析在内的数据输入到模型中预测得出消费者意图，正确的了解消费者的需求；

所述步骤101对数据进行预处理操作，具体包括：数据为用户在汽车论坛中对汽车相关内容的讨论或评价的数据的处理，进行如下处理：

文字匹配替换异常值：原始数据存在部分错别字，利用新华词典数据集构建文字词典，根据构建的词典，对原始数据做最大正向匹配法匹配与正则表达式结合匹配——假定词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典，若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来；如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理，如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止；最大正向匹配法存在匹配到不相匹配的词语与没有匹配到想要的词语，对最大正向匹配法文字匹配错误的数据进行正则表达式处理匹配错误，利用正则表达式对原始数据做关于文字词典的正则表达式，得到每个原始数据的匹配次数，对出现0次的原始数据继续做最大正向匹配，直到正则表达式字符串出现次数全部大于等于1时匹配结束。

2.根据权利要求1所述的基于大数据的汽车行业用户观点情感分类方法，其特征在于，所述步骤102对预处理后的汽车论坛评论数据进行特征工程构建操作，即基于char-level或word-level，以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建，具体包括：

3.根据权利要求2所述的基于大数据的汽车行业用户观点情感分类方法，其特征在于，所述步骤103建立多个机器学习模型，并进行模型融合操作，利用构造的词向量分别训练LightGBM、随机森林、Catboost模型，具体包括：

Y＝x₁*w₁+x₂*w₂+x₃*w₃。

4.根据权利要求3所述的基于大数据的汽车行业用户观点情感分类方法，其特征在于，所述步骤104通过已建立的模型，根据文本内容、主题、情感分析数据了解消费者，具体包括：根据102得到的特征数据作为样本输入到模型中进行预测，得到最终消费者情感概率值，选择当前用户所在的情感概率最大情感作为最终预测结果反馈给汽车厂商，从而使汽车厂商获得快速、准确的方式来了解消费者对产品情感是中立、正向或者负向。