CN113807092A

CN113807092A - 一种基于lda主题模型的卷烟品牌在线评论分析方法

Info

Publication number: CN113807092A
Application number: CN202111054464.7A
Authority: CN
Inventors: 贺晓宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-17

Abstract

本发明公开了一种基于LDA主题模型的卷烟品牌在线评论分析方法，包括以下步骤：S1、获取卷烟品牌信息和在线评论数据，得到原始数据集；S2、对原始数据集进行数据预处理，得到初始数据集；S3、根据初始数据集构建情感词典；S4、构建LDA主题模型，通过LDA主题模型从初始数据集中挖掘出主题特征词；S5、通过主题特征词构建影响因素特征词词典；S6、对影响因素特征词词典中各个影响因素的评论进行分类提取，得到影响因素特征词；采用TF‑IDF算法计算得到各个影响因素的特征权重；S7、根据情感词典、影响因素特征词词典、影响因素的特征权重制定评分计算规则，根据评分计算规则计算得到各个卷烟品牌的综合评分。

Description

一种基于LDA主题模型的卷烟品牌在线评论分析方法

技术领域

本发明涉及数据分析领域，尤其涉及一种基于LDA主题模型的卷烟品牌在线评论分析方法。

背景技术

在线评论是指在当前网络购物环境中,消费者通过电商购物平台提供的在线评论系统,分享其关于商家、产品或服务的消费感受与观点。随着信息技术的飞速发展，网络在线评论涵盖的信息也逐步完善。人们通过网络留言表达自身观点和看法的行为已成为潮流和趋势，各大网络平台也通过数据分析方法挖掘用户需求和偏好以提升用户体验。目前，国内外针对在线评论的数据分析研究主要集中在电商平台方面，根据用户的购买体验理解消费者需求，促进产品改进提升。

在线评论能够真实反映产品及服务的口碑，并逐步成为消费者购物的重要决策依据，学界关于在线评论以及商品口碑影响因素的相关研究也取得了较为丰富的成果。然而，中国的卷烟品牌种类繁多，特色各异，消费者的喜好也各不相同，由于行业特殊性，烟草企业线上获取消费者体验的渠道非常少，同时目前关于利用在线评论研究卷烟品牌口碑的研究文献相对较少，且数据采集的样本偏少，对文本内容的挖掘也不够充分，令烟草企业难以了解消费者的真实想法和各卷烟品牌的实际口碑；因此，有必要研究一种可以对各个卷烟品牌的口碑进行分析评价的在线评论分析方法来解决上述问题。

发明内容

本发明目的是针对上述问题，提供一种可以对各个卷烟品牌的口碑进行分析评价的基于LDA主题模型的卷烟品牌在线评论分析方法。

为了实现上述目的，本发明的技术方案是：

一种基于LDA主题模型的卷烟品牌在线评论分析方法，包括以下步骤：

S1、通过Python程序获取卷烟品牌信息和在线评论数据，得到原始数据集；

S2、对原始数据集进行数据预处理，得到初始数据集；

S3、根据初始数据集构建情感词典；

S4、构建LDA主题模型，通过LDA主题模型从初始数据集中挖掘出主题特征词；

S5、通过主题特征词构建影响因素特征词词典；

S6、运用Python程序对影响因素特征词词典中各个影响因素的评论进行分类提取，得到影响因素特征词；采用TF-IDF算法计算得到各个影响因素的特征权重；

S7、根据情感词典、影响因素特征词词典、影响因素的特征权重制定评分计算规则，根据评分计算规则计算得到各个卷烟品牌的综合评分。

进一步的，所述步骤S2中对原始数据集进行数据预处理包括以下步骤：

S21、利用Jieba分词软件包，用Python程序对原始数据集进行文本分词，得到分词词汇集；

S22、根据停用词表收集停用词，利用Python程序去除分词词汇集中的停用词，得到初始数据集。

进一步的，所述步骤S3中根据初始数据集构建情感词典包括以下步骤：

S31、选取常用公共情感词汇作为基础情感词库，将初始数据集与基础情感词库相结合构成情感数据集；

S32、将情感数据集按词性不同进行情感词类别筛选并去重，得到多类别情感词汇；

S33、对多类别情感词汇按情感倾向性不同进行人工打分，形成情感词典。

进一步的，所述步骤S4中构建LDA主题模型包括以下步骤：

S41、确定LDA模型的主题数，采用困惑度评价法求得最优主题数k,困惑度计算公式为：

其中，M为文档数量，N_i为第i个文档中出现的词语总数，ω_i为构成文档i 的单词集合；

S42、在先验参数为α和β的Dirichlet分布中，吉布斯抽样生成每篇文档的主题比重θ和主题词比重φ；

S43、从主题比重θ中，吉布斯抽样生成文档主题Z；

S44、从主题词比重φ中，吉布斯抽样生成主题词W；

其中，一个文档中计算主题词概率分布的计算公式为：

P(ω，z|α，β)＝P(ω|z,ω)*P(z|α)。

进一步的，所述步骤S5中通过主题特征词构建影响因素特征词词典包括以下步骤：

S51、根据要素特点将主题特征词与用户需求进行映射，形成了卷烟品牌的产品特征；

S52、采用语义相似度算法对用户需求进行分类，结合产品特征得到影响因素特征词词典。

进一步的，所述步骤S6中采用TF-IDF算法计算得到各个影响因素的特征权重包括以下步骤：

S61、计算影响因素特征词的词频TF，其计算公式为：

其中，n_ij表示影响因素特征词i在文档j中出现的次数，∑_kn_ik表示所有文档中所有影响因素特征词出现的次数和；

S62、计算影响因素特征词的逆文档频率IDF，其计算公式为：

其中，|D|表示所有文档总数，|j:t_i∈d_j|表示包含词语t_i的文档数量；

S63、计算得到TF-IDF值，TF-IDF值即为特征权重，其计算公式为：

TF-IDF＝TF_i,j*IDF_i。

进一步的，所述步骤S7中根据评分计算规则计算各个卷烟品牌综合评分的具体步骤为：

S71、识别影响因素特征词前后区间的词语并找到前后区间内的程度副词、否定词和情感词，根据情感词典对程度副词、否定词、情感词设定分值，计算得到卷烟品牌对应影响因素特征词i的基本分数F(i)，其计算公式为：

F(i)＝a*b*T(i)；

其中，a为影响因素特征词i前后区间内程度副词的分值，b为影响因素特征词i前后区间内否定词的分值，T(i)为评论中对应影响因素特征词i的情感词分值；

S72、按照卷烟品牌维度计算该卷烟品牌对应影响因素的平均分F(k)；

S73、根据卷烟品牌对应影响因素的平均分以及各个影响因素的特征权重，计算各个卷烟品牌的综合评分；其计算公式为：

S＝∑W(k)*F(k)；

其中，S为卷烟品牌的综合评分值，W(k)为特征权重。

与现有技术相比，本发明具有的优点和积极效果是：

本发明提出了一种基于LDA主题模型的在线评论分析方法，其首先构建卷烟领域的情感词典，随后运用LDA模型挖掘影响卷烟品牌口碑的影响因素，并提取出高频特征词，最后结合情感词典分析计算得出各卷烟品牌的综合评价值；该综合评价值可动态反映消费者的需求偏好与情感倾向，从而真实地了解卷烟品牌的口碑和用户体验，为卷烟市场调控提供有效的支撑服务，同时为烟草企业的卷烟品牌培育以及货源投放等工作提供了新的决策依据，令烟草企业可以根据消费者需求来提供更加优质的服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的框架结构图；

图2为LDA主题模型的简易示意图；

图3为主题特征词的映射关系示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本发明公开了一种基于LDA主题模型的卷烟品牌在线评论分析方法，其采用LDA模型挖掘评论数据中的主题词并进行分类提取，最后通过情感分析方法计算各卷烟品牌的综合评价值，旨在挖掘消费者需求要素，帮助烟草企业根据真实的消费需求提供优质服务内容。

一、研究数据与方法

1、研究数据

随着互联网技术的发展，烟悦网等网络论坛平台积累了大量在线评论内容。其中，烟悦网共收集249个卷烟品牌和3379个卷烟品规，本发明选取钓鱼台、芙蓉王、利群、云烟等25个卷烟品牌的在线评论作为研究对象，探究消费者对不同类型的卷烟品牌的满意度情况，了解用户需求。

2、研究方法

随着时代科技的发展，网络购物凭借其便捷性，极大地便利了人们的生活，人们也越来越依赖网络购物。在消费者网购产品的决策过程中,在线评论的优与劣已成为决定新购者是否采取购买行为的重要参考依据。卷烟在线评论作为品牌口碑的重要载体，既是消费者获取信息的来源，也是烟草企业了解需求、改进商品、促进销量的渠道。因此，本发明提出一种基于LDA主题模型的卷烟品牌在线评论分析方法，通过对在线评论进行数据挖掘，分析影响卷烟品牌口碑的主要因素并进行情感分析和综合评价，进而为烟草企业的市场决策提出建议，具体结构如图1所示，其主要包括以下步骤：

(1)、数据预处理：本研究通过设计Python爬虫程序获取卷烟品牌信息和在线评论数据，对初始数据集进行数据预处理，主要包括数据清洗、Jieba 分词和去停用词处理。

(2)、情感词典构建：本研究选取基础情感词典库结合卷烟品牌在线评论数据作为数据集，按情感词类别进行人工筛选和打分构建卷烟领域情感词典。

(3)、影响因素分析：本研究采用LDA模型识别在线评论语料中潜藏的用户需求，挖掘主题及产品特征词，根据要素特点将产品特征进行类别划分和用户需求映射，进而生成卷烟品牌口碑主要影响因素。

(4)、综合分析：本研究根据影响因素特征词词典分类提取评论并计算特征权重，结合情感词典进行情感分析，得到各卷烟品牌的综合评价值，针对用户需求类别的特点，确定烟草企业对各项服务内容供给的重点。

二、实验与分析

1、数据来源及预处理

本发明通过Python程序共抓取了烟悦网内包括钓鱼台、芙蓉王、利群、云烟等25个卷烟品牌的103271条在线评论，时间范围为2011年1月1日至 2020年12月31日。

由于烟悦网属于网上论坛类网站，在线评论较为随意，因此，获得原始数据后，通常需要进行数据预处理，提高数据的可靠性，具体过程为：

(1)、通过利用Jieba分词软件包，在Python程序中进行文本分词；

(2)、收集包括百度停用词表、哈工大停用词库在内的多个停用词表，制作停用词表，并利用Python程序去除停用词；

2、卷烟领域情感词典构建

情感词典是指在文本语料中所有带有情感倾向性的词语的集合。情感倾向代表人们的主观看法，主要分为积极和消极两方面。本发明通过整理数据集、筛选情感词类别和人工打分构建卷烟领域情感词典，具体步骤如下：

(1)整理数据集。首先选取常用公共情感词典作为基础情感词典库，包括知网(HowNet)情感词典、BosonNLP情感词典、中国的台湾大学自然语言处理室 (NTUSD)中文情感词典等。接着将爬取到的原始在线评论数据进行Jieba分词并去停用词，最后结合基础情感词典库形成数据集。

(2)情感词类别筛选。对整理好的数据集按词性不同进行情感词类别筛选，并对类别进行合并去重。

(3)人工打分。对不同类别的情感词按情感倾向性不同进行人工打分，形成卷烟领域情感词典。

根据情感词性筛选评论中的词汇，并进行人工打分，构成卷烟领域情感词典。其中，设定积极情感词语的分值为2分，消极情感词语的分值为-2分。部分示例如表1所示。

表1卷烟领域情感词典示例

不同的程度副词和对情感分值的影响程度也有所不同，因此按程度级别设定程度副词的分值为0.5分至2分，部分示例如表2所示。

表2程度副词词典部分示例

程度(Type)	程度副词(Online Comments)	分值(Score)
			超	超；十足；超级；最；极；过度；多；强；万分；绝……	2
非常	很；颇为；不过；多；实在；特；特别；尤；尤其；非常……	1.75
			较	比较；大量；几乎；更为；愈；愈加；越发；这般；足……	1.5
稍	稍；有点；有些；稍微；略；略微；挺；一点；满；偶然……	1.25
			不足	丝毫；没怎么；相对；半点；弱；轻度；不甚；不大……	0.5

3、卷烟品牌口碑影响因素分析

在消费过程中，影响消费者满意度的因素众多，不同品牌的商品的消费者影响因素也有所不同。对于卷烟产品来说，产品的质量、价格、包装等均影响卷烟品牌的口碑，不同品牌的特征指标也存在显著差异。本发明采用LDA模型对在线评论进行主题挖掘，得到产品特征词，通过聚类映射用户需求并进行规范化分类，进一步探究影响卷烟品牌口碑的主要因素。

3.1、LDA模型主题挖掘

3.11、确定LDA模型最优主题数。本发明采用困惑度算法确定主题数量，计算得出最优主题数目为20。

LDA主题模型

本发明采用LDA模型对在线评论进行主题挖掘，这是一种文档主题生成模型，共包含词、主题、文档三层结构，具体如图2所示；该模型采用概率推断算法处理文本，建模前不需要人工干预标注初始文档，可识别文档中隐含的主题信息，更好地保留文档内部关系，在文本语义分析、信息检索等方面取得了良好的实践效果。

其中，α和β均为Dirichlet先验参数，α表征每个评论中的主题分布，β表征每个主题中的词分布，θ为每个评论中各主题占据的比重，φ为每个主题中各主题词占据的比重，Z和W分别表示模型生成的主题和最终的主题词。

LDA主题模型生成过程如下：

(1)通过困惑度确定LDA模型主题数；

(2)在先验参数为α和β的Dirichlet分布中，吉布斯抽样生成每篇文档的主题分布θ和主题词分布φ；

(3)从主题分布θ中，吉布斯抽样生成文档主题Z；

(4)从主题词分布φ中，吉布斯抽样生成主题词W。

其中，一个文本中计算主题词的概率分布如式(1)所示：

P(ω，z|α，β)＝P(ω|z,ω)*P(z|α) (1)

困惑度算法

LDA主题模型需要提前设置文本的主题数，主题数要最优才能做出合理分类，主题数偏大会导致部分主题的语义信息不明显，主题数偏小会导致主题颗粒度过粗。本发明采用困惑度(Perplexity)算法确定最优主题数量，困惑度表示文档所属主题的不确定性，它与聚类效果成反比，困惑度越小，主题数越优。计算公式如式(2)所示。

其中，M为文档数量，N_i为第i个文档中出现的词语总数，ω_i为构成文档i 的单词集合。

困惑度表示文档所属主题的不确定性，它与聚类效果成反比，困惑度越小，主题数越优。一般情况下,当困惑度下降趋势不再明显或处于拐点处时,此时的k值为最优主题数。

吉布斯抽样法

吉布斯抽样法是统计学中马尔科夫蒙特卡洛(MCCM)的一种算法实现，通常用来分析LDA模型随机样本的概率推导。该方法的主要过程是：已知概率分布π(x)，x＝(x₁,x₁,...,x_n,)首先确定初始向量x，

接着针对某一向量，可利用该向量的概率分布进行抽取，例如利用

抽样

利用

抽样

利用

抽样

重复该过程，完成抽样。

3.12、采用Python程序进行LDA主题建模。本发明得到20个主题及其分布情况，部分示例如表3所示。

表3 LDA主题挖掘结果示例

3.2、影响因素分析

通过前文LDA主题挖掘，进一步将挖掘出的主题特征词进行用户需求映射和规范化分类，构成影响卷烟品牌口碑的主要要素。

(1)、用户需求映射。如何将表层的产品特征词向深层次的用户需求进行有效的转化是企业进行管理决策优化的重要过程。本发明在卷烟在线评论主题聚类结果的基础上，根据要素特点将主题特征词与用户需求进行映射，形成了卷烟品牌的主要产品特征，具体映射关系如图3所示。

语义相似度算法

本发明采用基于距离的语义相似度算法对主题特征词进行规范化分类。基于距离的语义相似度算法是通过测量两个概念节点在本体层次树中的位置，以路径长度的方式体现差异。路径越短，相似度越大，路径越长相似度越小，计算公式如式(3)所示。

(2)、规范化分类。在上文主题特征词与用户需求映射关系的基础上，采用基于距离的语义相似度算法对用户需求进行规范化分类，构建以价格、品质、包装、服务为维度的卷烟品牌口碑影响因素特征词词典，如表4所示。

表4卷烟品牌口碑影响因素特征词词典

类别(Category)	影响因素特征词(Interfering factor)
		价格	性价比；价位；优惠；经济；便宜……
品质	味道；香气；口感；品种；焦油；入口；浓；重……
		包装	大气；档次；美观；颜色；烟盒；尺寸……
服务	推荐；买不到；口粮；地方；服务态度；负责……

4、综合分析

本发明设计Python程序进行综合分析，首先按特征词词典分类提取评论并计算特征权重，接着导入情感词典进行情感分析，最终计算各卷烟品牌的综合评价值。

4.1、分类提取评论。运行Python程序，导入卷烟品牌口碑影响因素特征词词典，将含有各特征的评论进行分类提取。

TF-IDF算法

本发明采用TF-IDF算法计算主题特征词的权重。TF-IDF算法是一种简单有效提取关键词的方法，它由两部分结合起来决定特征词的重要程度。其中，第一部分为TF(TermFrequency,词频)，为某个词在文本中出现的频率，第二部分为IDF(Inverse DocumentFrequency，逆文档频率)，为包含某个词的文本在所有文本中的频率，描述的是特征词相对于文本的重要性。TF与IDF 的计算公式如式(4)和式(5)所示。

其中，n_ij表示特征词i在文本j中出现的次数，∑_kn_ik表示所有文档j中所有词出现的次数和。

其中，|D|表示所有文本总数，|j:t_i∈d_j|表示包含词语t_i的文档数量，为避免出现分布为0的情况，一般使用|j:t_i∈d_j|+1。

TF与IDF相乘得到TF-IDF值。TF-IDF值高的词表示作为关键词对文章的代表性越高，词语的权重也越高，计算公式如式(6)所示。

TF-IDF＝TF_i,j*IDF_i (6)

4.2、计算特征权重。采用TF-IDF算法计算TF和IDF值，得到各影响因素的权重，具体结果如表5所示。

表5卷烟品牌口碑影响因素权重

权重(Weight)	价格(Price)	品质(Quality)	包装(Package)	服务(Service)
					TF-IDF值	0.454300116	0.379148507	0.046309422	0.120241954

通过表5可以看出，影响消费者购买卷烟的影响因素中价格和品质是消费者最为看重的，包装和服务也是消费者购买决策重要因素。

4.3综合评价值计算。本发明基于文本分词结果、卷烟领域情感词典、程度副词词典、否定词词典、卷烟品牌口碑影响因素特征词词典，制定了综合评分计算规则，具体规则如下：

(1)、通过Python程序依次遍历每一条评论中的每一个词语，定位影响因素特征词。

(2)、识别影响因素特征词前后[-u,u]区间的词语，查找区间内的程度副词、否定词和情感词。如果没有查找到相应的词，则打分为0分；如果查找到相应的词，则按式(7)计算该条评论中该影响因素特征词对应的分值。其中，积极情感词分值为2分，消极情感词分值为-2分，程度副词分值为0.5 分至2分，否定词分值为-1分。

F(i)＝a*b*T(i) (7)

其中，a为程度副词分值，b为否定词分值，T(i)为评论中对应影响因素特征词i的情感分值。

(3)、遍历过所有评论后，按照品牌维度计算该品牌对应影响因素的平均分，得到该品牌在各个影响因素的整体得分。

(4)、根据上文计算得到的特征权重，基于各品牌对应各影响因素的整体得分，按式(8)加权计算得到各品牌的综合评分。

S＝∑W(k)*F(k) (8)

其中，S为品牌的综合评价值，W(k)为特征权重，F(k)为品牌对应影响因素k的平均分。经过计算，各卷烟品牌综合得分如表6所示。

表6卷烟品牌口碑综合评价值

通过表6并结合影响卷烟品牌口碑的重要因素，结果显示：在25个品牌中，消费者对钓鱼台、利群、玉溪、云烟、中华等品牌的综合评价较高。其中，利群、中华、云烟等品牌的品质评价较高，云烟、黄山、双喜等品牌的价格评价较高，玉溪、黄山、钻石等品牌的包装评价较高，长城、钓鱼台、利群的服务评价较高。

此评价结果与烟草企业营销部门对25个品牌的评价结果和销量分析结果一致。例如：利群的卖点便是“香气清雅自然，入口柔和细腻，回味淡雅绵长”，中华的卖点便是“被誉为国烟，清香纯净，屡获殊荣”。因此，基于在线评论的卷烟品牌口碑研究方法符合应用实际，评价方法科学，具有借鉴意义，并可为烟草企业品牌培育和需求预测工作提供决策参考依据。

三、结论

在大数据时代，众多商业企业采用数据挖掘和算法模型分析消费者需求偏好，以提升用户体验，卷烟品牌类型众多，特色各异，更需要预测消费者的需求喜好，以做出更为精准的市场调控决策。本发明通过对卷烟品牌在线评论进行情感分析和综合评价，研究发现：

(1)消费者对卷烟品牌最为关注的五个要素依次为：价格、品质、服务、包装，其中，消费者对卷烟品牌的品质和服务维度的整体评价相对较高，对包装评价相对较低；

(2)卷烟品牌的综合评价值可动态反映消费者的需求偏好与情感倾向。例如实验中，利群、中华、钓鱼台、云烟等品牌的综合评价值相对较高，这既符合这些品牌的实际知名度，也与烟草企业营销部门的评价结果和销量分析结果较一致。

根据以上分析结果，为提升卷烟品牌口碑可采取以下对策：一是保证产品品质；烟草工业企业应严格把控产品品质，并根据消费者真实需求及时迭代改进工艺，设计更符合消费者口感、口味偏好的产品，提升消费体验；二是提升服务水平；烟草商业企业应进一步深化工商协同和数据共享，通过引入情感分析方法动态监测消费者情感倾向，做好经营管理服务，提升服务效能。

综上所述，本发明在总结国内外在线评论数据挖掘研究和实践的基础上，基于文本分析构建了卷烟领域情感词典，采用LDA主题模型建立了以价格、品质、包装、服务为维度的特征词词典，并进行了情感分析和综合评价。以25 个品牌的103271条评论数据为例的实证分析表明，基于在线评论的卷烟品牌口碑研究方法兼具了主观性和客观性，能够实时了解消费者的情感变化，进一步拓宽烟草企业了解消费者的渠道，实现对卷烟品牌更加客观、真实的评价。

Claims

1.一种基于LDA主题模型的卷烟品牌在线评论分析方法，其特征在于：包括以下步骤：

S2、对原始数据集进行数据预处理，得到初始数据集；

S3、根据初始数据集构建情感词典；

S5、通过主题特征词构建影响因素特征词词典；

2.如权利要求1所述的基于LDA主题模型的卷烟品牌在线评论分析方法，其特征在于：所述步骤S2中对原始数据集进行数据预处理包括以下步骤：

3.如权利要求2所述的基于LDA主题模型的卷烟品牌在线评论分析方法，其特征在于：所述步骤S3中根据初始数据集构建情感词典包括以下步骤：

4.如权利要求3所述的基于LDA主题模型的卷烟品牌在线评论分析方法，其特征在于：所述步骤S4中构建LDA主题模型包括以下步骤：

其中，M为文档数量，N_i为第i个文档中出现的词语总数，ω_i为构成文档i的单词集合；