CN106951514A

CN106951514A - 一种考虑品牌情感的汽车销量预测方法

Info

Publication number: CN106951514A
Application number: CN201710161251.1A
Authority: CN
Inventors: 章旭; 刘业政; 王锦坤
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2017-07-14

Abstract

本发明公开了一种考虑品牌情感的汽车销量预测方法，包括：1采集消费者购买汽车的评论数据；2提出一种基于点互信息PMI的情感词典构造方法，得到评论数据中所有情感词的情感值；3基于所述情感词典，对评论文本数据的情感进行量化，从而进一步汇总得到汽车品牌的情感值；4构建品牌粒度的汽车月度销量预测模型；5定义汽车品牌销量预测模型的目标函数；6利用网格搜索方法对目标函数进行求解，得到最优参数值，从而利用所述预测模型预测下个月的销量。本发明能充分发掘销量时间序列季节性变化和网络大数据中消费者的口碑情感倾向因素的短期预测能力，从而将汽车销量预测细化到更加微观的品牌粒度，并提高预测精度。

Description

一种考虑品牌情感的汽车销量预测方法

技术领域

本发明属于销量预测领域，具体地说是一种用于预测各汽车品牌月度销量的考虑品牌情感的汽车销量预测方法。

背景技术

中国汽车行业过去几十年取得了突飞猛进的发展，已经成为支撑和拉动中国经济持续快速增长的主导产业之一。面对当前复杂的国内外经济环境和不断加大的经济下行压力，准确地预测汽车销量无论是对于从宏观上整体掌控汽车市场的发育与成长态势的政策制定者，还是对于从微观上研究市场行情以制定营销策略的汽车厂商，都具有极其重要的作用。

现有汽车销量预测方法主要关注某一地区的市场总体汽车销量的宏观预测，如预测中国市场总体汽车需求量，虽然预测方法简单易行，可以对短期销量进行较为准确地刻画，但是仍然存在预测粒度过于宏观导致预测结果现实指导意义薄弱等不足，对于细化至汽车品牌粒度的销量预测方法研究目前还是空白。同时，在电影票房预测、图书销量预测等领域的研究表明，在线评论数据有助于提高产品销量预测模型的准确率。由于大众对产品的看法会影响产品的销售情况，因此对在线评论进行深入分析对于预测产品未来销量具有重要作用。现有的汽车销量预测方法主要利用历史销售数据和社会宏观经济指标，如GDP、CPI等，对于网络大数据中诸如专业汽车论坛用户评论数据等蕴含极高预测能力的高价值的数据缺少深入挖掘。此外，我国汽车市场由于受气候、节假日、产品更迭等诸多因素的影响，汽车月度销售数据呈现稳定的季节性特征，即车市的销量会随着季节的变化而呈现出高峰低谷的规律性周期变化。而现有研究缺乏对汽车销售季节性变化趋势的考虑，从而导致预测精度较低。

发明内容

本发明针对现有汽车销量预测方法存在的不足之处，提出一种考虑品牌情感的汽车销量预测方法，以期能充分发掘销量时间序列季节性变化和网络大数据中消费者的口碑情感倾向因素的短期预测能力，从而将汽车销量预测细化到更加微观的品牌粒度，并提高预测精度。

为达到上述目的，本发明采用的技术方案为：

本发明一种考虑品牌情感的汽车销量预测方法的特点是按照如下步骤进行：

步骤一、采集第t个月消费者购买汽车品牌b旗下所有汽车的评论数据，记为表示第t个月的第k个评论数据，且所述第t个月的第k个评论数据包括：第t个月的第k个评分数据和第t个月的第k个评论文本数据且表示第t个月的第k个评分数据的第i个评分项；表示第t个月的第k个评论文本数据的第j个评论文本；t＝1,2,…,T；k＝1,2,…,K；i＝1,2,…,I，j＝1,2,…,J；

步骤二、对所有品牌的T个月的评论数据Rev利用基于点互信息PMI的方法构造情感词典，得到所述评论数据Rev中所有情感词的情感值；

步骤三、基于所述情感词典，对所述第t个月的第k个评论文本数据的情感进行量化，得到所述第t个月的第k个评论文本数据的情感值从而得到第t个月的汽车品牌b的情感值

步骤四、利用式(1)构建第t月的汽车品牌b销量的预测模型

式(1)中，λ_m、φ_p和ρ_q表示用最小二乘回归得到的模型参数；τ表示预测模型常数项；表示汽车品牌b在第t月的前m年的同期销量；表示汽车品牌b在第t月的前p月的销量；汽车品牌b在第t个月的前q月的情感值；M、P和Q为所设定的参数，分别表示第t月之前M个年的历史同期销量对第t月的影响、第t月之前P个月的前期销量对第t月的影响、第t月之前Q个月的汽车品牌的情感值对第t月的影响；

步骤五、利用式(2)获得汽车品牌b销量的预测模型的目标函数z_b：

式(2)中，表示第n月汽车品牌b销量的预测值；表示第n月汽车品牌b销量的真实值；N表示总的预测月数；

步骤六、利用网格搜索方法对所述目标函数z_b进行求解，得到M、P和Q的值，从而利用所述预测模型预测汽车品牌b下个月的销量。

本发明所述的销量预测方法的特点也在于，所述步骤二是按如下步骤进行：

步骤2.1、对所有品牌的T个月的评论数据Rev中汽车品牌b的第t个月的第k个评论数据若第t个月的第k个评分数据的第i个评分项则判定第t个月的第k个评论文本数据的第i个评论文本为负向文本；若第t个月的第k个评分数据的第i个评分项则判定第t个月的第k个评论文本数据的第i个评论文本为正向文本；其中，Δ₁为所设定的负向评分上限；Δ₂为所设定的正向评分下限；从而对所有品牌的T个月的评论数据Rev进行判定，得到负向文本集D_neg和正向文本集D_pos；

步骤2.2、对所述负向文本集D_neg和正向文本集D_pos进行分词并去除停用词，从而得到所述负向文本集D_neg和正向文本集D_pos中所有的情感词，记任意一个情感词为w；

步骤2.3、利用式(3)计算情感词w的情感值S_w：

S_w＝PMI(w,D_pos)-PMI(w,D_neg) (3)

式(3)中，PMI表示点互信息，并有：

式(4)中，freq(w,D_pos)表示所述情感词w在所述正向文本集D_pos中出现的频次，freq(w)表示所述情感词w在所述负向文本集D_neg和正向文本集D_pos中出现的总频次，freq(D_pos)表示所述正向文本集D_pos的文本总数，freq(D_neg)表示所述负向文本集D_neg的文本总数；

同理可得PMI(w,D_neg)。

所述步骤三是按如下步骤进行：

步骤3.1、利用式(5)得到所述第t个月的第k个评论文本数据的情感值

式(5)中，表示第t个月的第k个评论文本数据在所述情感词典中含有的情感词总数；

步骤3.2、利用式(6)得到所述第t个月的汽车品牌b的情感值

式(6)中，K表示第t个月的汽车品牌b的评论文本数据的总数。

与已有技术相比，本发明的有益效果体现在：

1、本发明首次综合考虑了汽车销量存在的季节性变化趋势以及网络大数据中消费者口碑评论数据的情感倾向因素，充分发掘了销量时间序列数据自身的销量预测能力以及网络大数据中蕴含的销量影响因素的预测能力，且给出了一种自动化的情感词典构造方法用于量化品牌情感，有利于监控品牌舆情的变化趋势。相比于现有的较传统的基于时间序列分析模型的汽车销量预测方法，本发明不仅将汽车销量预测推向更为微观的汽车品牌粒度的月度销量，而且方法求解过程简单，对于销量异常波动具有很好的预测效果，有效提高了销量预测精度，且具有较好的鲁棒性，获得了满意的预测结果。

2、本发明通过将历史同期销量引入预测模型对汽车销量存在的季节性变化趋势进行了准确地数学刻画，有利于运用这种潜在的市场变化规律获得更高的销量预测质量；此外，现有销量预测方法大多为分析销量影响因素，从而建立回归模型预测下一阶段销量，但真实的市场环境中，销量影响因素众多，彼此之间关系极其复杂，很难准确刻画其中的联系；因此本发明应用了利用产品前期销售数据预测未来销量，前期销售数据包含了众多复杂且未知的变量对销量的影响，将前期销量作为自变量预测未来销量避免了分析复杂的销量影响因素。

3、目前已经有很多通用的情感词典应用于文本情感的分析，但汽车领域的情感词典目前的研究还很少。汽车领域情感词典构造存在着诸多的困难：一是汽车领域专业化程度高，涉及到大量的专业术语，如：“油耗高”、“加速快”，这些文本的情感通用情感词典难以准确描述；二是汽车论坛的口碑数据全部由购车的网民发表，文本组织大多比较自由，没有特定的行文规范；三是大多数文本情感分析都是对情感倾向进行分类，没有对其进行量化；四是需要分析词性、程度副词、否定词等一系列的繁杂的手工处理过程；为解决上述情感词典构造的难题，本发明提出一种基于点互信息(PMI)的情感词典构造方法，以用户评分作为文本情感的标签自动化的构造情感词典，避免了手工处理，且给出了单词所表达的情感的量化值，从而简化了汽车领域情感词典的构造过程，并给出了相应的量化指标。

4、由于同一品牌的销量是随时间迁移有所变化的，而评论发表的数量就会随时间而波动，这种数量的变化恰恰从一定程度上反应了该品牌在市场中的受欢迎程度，具有一定的销量预测能力；因此，本发明计算品牌情感时直接将该品牌下当月所有的评论文本数据情感值相加，汇总得出品牌情感值，通过这种方式，在预测销量时将评论数量作为包含在品牌情感中的一个隐含因素考虑进模型中，从而提高了模型的预测精度。

5、由于市场销量的变化相对于消费者情感倾向的变化具有一定的滞后性，网络消费者生产的大数据具有极强的销量预测能力，现有的销量预测方法对于大数据的应用显然是贫乏的，从而导致预测精度的下降。本发明充分考虑了网络消费者发表评论文本的情感倾向从而得出汽车品牌的情感值对于由突发事件，如：大众尾气排放门，导致的销量异常波动依然保持着很好的预测效果，这是传统时间序列分析预测模型难以做到的。

6、本发明中的预测模型假设自变量与因变量之间呈简单线性关系，这样有利于简化模型求解过程，在小样本情况下可以获得理想的回归曲线，且模型的可解释性强，各自变量对销量的影响方向和影响程度可以通过系数λ_m、φ_p和ρ_q来判断，也有利于汽车厂商及汽车经销商监控网络舆情变化趋势。

7、本发明方法所得的预测结果有利于政策制定者从宏观上整体掌控汽车市场的发育与成长态势，有利于汽车厂商及汽车经销商从微观上研究市场行情以制定营销策略、调整生产计划和优化资源配置，甚至计划购车的普通消费者也可借鉴该预测模型辅助决策，应用范围广泛。

附图说明

图1为本发明方法的流程示意图；

图2为本发明实施例中“汽车之家”口碑评论数据示例图；

图3为本发明实施例中随时间波动的汽车月度销售数据示例图；

图4为本发明与基准算法的预测效果对比图；

图5a为本发明奥迪汽车月度销量预测结果图；

图5b为本发明本田汽车月度销量预测结果图；

图6a为本发明销量预测BOAR模型参数P稳定性检验图；

图6b为本发明销量预测BOAR模型参数Q稳定性检验图。

具体实施方式

本实施例中，如图1所示，一种考虑品牌情感的汽车销量预测方法，按照如下步骤进行：

步骤一、采集第t个月消费者购买汽车品牌b旗下所有汽车的评论数据，记为表示第t个月的第k个评论数据，以“汽车之家”为例，一条典型的评论数据如图2所示，且第t个月的第k个评论数据包括：第t个月的第k个评分数据如图2区域A所示，和第t个月的第k个评论文本数据如图2区域B所示；且表示第t个月的第k个评分数据的第i个评分项，如图2区域A中依次包含空间、动力、操控、油耗、舒适性、外观、内饰和性价比8个评分项；表示第t个月的第k个评论文本数据的第j个评论文本，如图2区域B中依次包含空间、动力、操控、油耗、舒适性、外观、内饰、性价比、最满意的一点、最不满意的一点、其它描述和为什么最终选择这款车12个评论文本；t＝1,2,…,T；k＝1,2,…,K；i＝1,2,…,I，j＝1,2,…,J；

步骤二、对所有品牌的T个月的评论数据Rev利用基于点互信息PMI的方法构造情感词典，得到评论数据Rev中所有情感词的情感值；

步骤2.1、对所有品牌的T个月的评论数据Rev中汽车品牌b的第t个月的第k个评论数据若第t个月的第k个评分数据的第i个评分项则判定第t个月的第k个评论文本数据的第i个评论文本为负向文本；若第t个月的第k个评分数据的第i个评分项则判定第t个月的第k个评论文本数据的第i个评论文本为正向文本；其中，Δ₁为所设定的负向评分上限；Δ₂为所设定的正向评分下限；汽车作为一种高介入商品，消费者在购买前通常会深入了解相关信息并做出自己最满意的决策，所以购车后的评价更多倾向于正面。以“汽车之家”为例，当消费者评分为1或2分时，表示消费者对该项不满意；5分时，则认为消费者满意，则令Δ₁＝2，Δ₂＝5，例如，评分项“空间”为1或2分，则认为评论文本“空间”为负向文本；若评分项“空间”为5分，则认为评论文本“空间”为正向文本；从而对所有品牌的T个月的评论数据Rev进行判定，得到负向文本集D_neg和正向文本集D_pos；

步骤2.2、对负向文本集D_neg和正向文本集D_pos进行分词并去除停用词，从而得到负向文本集D_neg和正向文本集D_pos中所有的情感词，记任意一个情感词为w；汽车领域专业化程度高，涉及到大量的专业术语，如：“油耗高”、“加速快”，为了达到更加理想的分词结果，可以手动构建汽车领域特征词库，再进行分词；

步骤2.3、利用式(3)计算情感词w的情感值S_w：

S_w＝PMI(w,D_pos)-PMI(w,D_neg) (3)

式(3)中，PMI表示点互信息，并有：

式(4)中，freq(w,D_pos)表示情感词w在正向文本集D_pos中出现的频次，freq(w)表示情感词w在负向文本集D_neg和正向文本集D_pos中出现的总频次，freq(D_pos)表示正向文本集D_pos的文本总数，freq(D_neg)表示负向文本集D_neg的文本总数；式(4)表示正向文本集中词w的点互信息PMI为w在正向文本集中出现的频率与w在正向文本集和负向文本集中出现的频率之比。

同理可得PMI(w,D_neg)。由此，(3)式可以简化为：

由式(5)可以明显看出，S_w表示词w在正向文本集中出现的频率与w在负向文本集中出现的频率之比。因此该比值越大，表示词w在正向文本集中出现越频繁，而在负向文档集中较少出现，词w极有可能是一种正向情感词；反之亦然。因此，若S_w＞0表示词w在正向文本集中出现次数大于在负向文本集出现的次数，为正向情感词；若S_w＜0表示词w在负向文本集中出现次数大于在正向文本集出现的次数，为负向情感词；S_w绝对值的大小则表示词w表达的情感强烈程度。

由于点互信息对于低频次词语估计效果较差，同时为避免将少数生僻的词语纳入情感词典中，提高情感词典的构造效率，可以分别将正向文本集和负向文本集中出现频次低于5的词舍弃。

步骤三、基于情感词典，对第t个月的第k个评论文本数据的情感进行量化，得到第t个月的第k个评论文本数据的情感值从而得到第t个月的汽车品牌b的情感值

步骤3.1、利用式(6)得到第t个月的第k个评论文本数据的情感值

式(6)中，表示第t个月的第k个评论文本数据在情感词典中含有的情感词总数；文本中含有的情感词越多，则文本中表达的情感越强烈，因此，评论文本数据的情感值定义为该评论文本数据中所有情感词的情感值的和；

步骤3.2、利用式(7)得到第t个月的汽车品牌b的情感值

式(7)中，K表示第t个月的汽车品牌b的评论文本数据的总数。同一品牌的销量是随时间迁移有所变化的，因此评论发表的数量就会随时间而波动，这种数量的变化恰恰从一定程度上反应了该品牌在市场中的受欢迎程度；计算品牌情感时直接将该品牌下当月所有的评论文本数据情感值相加，汇总得出品牌情感值，通过这种方式，在预测销量时就将评论数量作为包含在品牌情感中的一个隐含因素考虑进模型中。

步骤四、利用式(8)构建第t月的汽车品牌b销量的预测模型

式(8)中，λ_m、φ_p和ρ_q表示用最小二乘回归得到的模型参数；τ表示汽车品牌b的预测模型常数项；表示汽车品牌b在第t月的前m年的同期销量；表示汽车品牌b在第t月的前p月的销量；汽车品牌b在第t个月的前q月的情感值；M、P和Q为所设定的参数，分别表示第t月之前M个年的历史同期销量对第t月的影响、第t月之前P个月的前期销量对第t月的影响、第t月之前Q个月的汽车品牌的情感值对第t月的影响；由于前期销量和情感因素对于销量的影响对于滞后性，其滞后的期数是不确定的，因此将滞后期设定为参数，通过对参数的调整充分发掘自变量滞后性带来的影响；预测模型假设自变量与因变量之间呈简单的线性关系，这样有利于简化模型求解过程，在小样本情况下可以获得理想的回归曲线，且模型的可解释性强，各自变量对销量的影响方向和影响程度可以通过系数λ_m、φ_p和ρ_q来判断。预测模型共包含三部分，反映了第t月之前M个年的历史同期销量对第t月的影响，反映了第t月之前P个月的前期销量对第t月的影响，反映了第t月之前Q个月的汽车品牌的情感值对第t月的影响。

步骤五、利用式(9)获得汽车品牌b销量的预测模型的目标函数z_b：

式(9)中，表示第n月汽车品牌b销量的预测值；表示第n月汽车品牌b销量的真实值；N表示总的预测月数；目标函数将预测偏差绝对值化，所有预测误差是累加的，不会出现正负相抵的情况，这更加符合预测模型真实误差的实际情况。

步骤六、本实施例中人工设定的参数为3个，且取值个数有限，可以利用网格搜索方法对目标函数z_b进行求解，得到M、P和Q的值，从而利用预测模型预测汽车品牌b下个月的销量。

针对本发明方法进行实验论证，具体包括：

1)准备数据集

本发明使用的数据包含各品牌月度销量数据集和网络消费者在线口碑评论数据。月度销量数据是利用网络爬虫从“搜狐汽车”采集汽车工业协会发布的中国市场10个常见汽车品牌(丰田、奥迪、大众、别克、本田、比亚迪、福特、奇瑞、雪佛兰和起亚)从2011年5月到2015年10月月度汽车销量,如图3所示。所使用的在线口碑评论数据源自于“汽车之家”口碑数据,如图2所示。使用网络爬虫从汽车之家网站采集472346条口碑评论，将评论文本过少的舍弃，共计有效口碑数据330877条。实验采用的是单步预测的静态预测方式。

2)评价指标

采用平均绝对百分误差MAPE来衡量模型预测准确率：

式(9)中，n表示总的预测期数，Pred_i代表第i期模型的预测值，True_i代表真实值。从公式本身可以看出，预测值与实际值越接近MAPE值越低，即预测得越准确。MAPE是对相对误差的综合评价，有利于不同模型之间的直接比较，所以在销量预测研究中，MAPE是衡量模型预测精度非常重要的一个指标。一般认为，如果MAPE低于10，则认为模型的预测精度较高，具有一定的实践指导意义。

3)在数据集上进行实验

基于PMI方法构造的汽车口碑数据情感词典部分结果如表1a和表1b所示。

表1a情感词典中情感值最小的10个词

表1b情感词典中情感值最大的10个词

表1a是情感词典中情感值最小的10个词，很明显可以看出全部为负向词。表1b是情感值最大的10个词，全部为正向词，这也验证了这种情感词典构造方法的有效性。

为验证本发明所提模型对于销量预测的提升效果，我们将本发明提出的用于汽车销量预测的考虑品牌情感的BOAR模型和3种基准方法进行比较，3种基准方法为：基于前期销量的自回归AR模型，基于前期销量和前期随机误差的差分自回归移动平均ARIMA模型，基于BP神经网络的机器学习预测BPNN模型。在实验数据集上用4种方法进行建模和预测，并将预测结果进行比较，如图4所示。与3种基准方法相比，本发明提出的销量预测方法在实验数据集上获得了更优的预测精度。本发明部分品牌的实际预测结果如图5a、图5b所示，图5a为奥迪汽车月度销量预测结果图，图5b为本田汽车月度销量预测结果图。

在时间序列分析等类似回归分析的研究中，模型参数是否具有稳定性对所建立的模型来说具有非常重要的意义。为验证本发明提出的销量预测模型具有一定的参数稳定性，假设本发明所述汽车销量预测BOAR模型的最优参数组合为(M′,P′,Q′)，下面分别考察参数选取(M′,P′-1,Q′)和(M′,P′+1,Q′)以及(M′,P′,Q′-1)和(M′,P′,Q′+1)时模型的预测情况，分别如图6a和图6b所示。结合图6a和图6b不难发现，在参数P和Q各自波动±1时，BOAR模型预测结果比较一致、稳定，预测误差MAPE值在正常范围内波动，没有出现异常变化，同理，在更多数据的支持下，可验证参数M也具有这种特性；这说明了BOAR模型参数具有稳定性。

Claims

1.一种考虑品牌情感的汽车销量预测方法，其特征是按照如下步骤进行：

步骤四、利用式(1)构建第t月的汽车品牌b销量的预测模型

{\hat{y}}_{b}^{t} = Σ_{m = 1}^{M} λ_{m} y_{b}^{t - 12 \times m} + Σ_{p = 1}^{P} φ_{p} y_{b}^{t - p} + Σ_{q = 1}^{Q} ρ_{q} ω_{b}^{t - q} + τ - - - (1)

z_{b} = \min_{M, P, Q} \frac{1}{N} Σ_{n = 1}^{N} \frac{| {\hat{y}}_{b}^{n} - y_{b}^{n} |}{y_{b}^{n}} - - - (2)

2.根据权利要求1所述的销量预测方法，其特征是，所述步骤二是按如下步骤进行：

步骤2.3、利用式(3)计算情感词w的情感值S_w：

S_w＝PMI(w,D_pos)-PMI(w,D_neg) (3)

式(3)中，PMI表示点互信息，并有：

P M I (w, D_{p o s}) = \log_{2} \frac{f r e q (w, D_{p o s}) \times (f r e q (D_{p o s}) + f r e q (D_{n e g}))}{f r e q (w) \times f r e q (D_{p o s})} - - - (4)

同理可得PMI(w,D_neg)。

3.根据权利要求1所述的销量预测方法，其特征是，所述步骤三是按如下步骤进行：

S (R_{k}^{t}) = Σ_{w = 1}^{W_{k}^{t}} S_{w} - - - (5)

步骤3.2、利用式(6)得到所述第t个月的汽车品牌b的情感值

ω_{b}^{t} = Σ_{k = 1}^{K} S (R_{k}^{t}) - - - (6)

式(6)中，K表示第t个月的汽车品牌b的评论文本数据的总数。