CN108388660B

CN108388660B - 一种改进的电商产品痛点分析方法

Info

Publication number: CN108388660B
Application number: CN201810189232.4A
Authority: CN
Inventors: 徐新胜; 余建浙
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2021-10-01
Anticipated expiration: 2038-03-08
Also published as: CN108388660A

Abstract

本发明公开了一种改进的电商产品痛点分析方法，其中所述方法包括：获取商品评论数据，采集的评论数据需要包括产品名称、用户评论文本、用户评论时间，作为评论数据集；对采集的评论数据集进行预处理操作，包括评论文本进行分词、新词发现以及词性标注等处理；产品痛点特征的提取与聚类，利用汉语组块标记，使用SVM进行产品特征提取,根据Apriori算法产生频繁项集以及TF‑IDF阈值过滤，得到产品痛点特征集合,然后基于改进的Kmeans++对痛点特征进行聚类；整合网上的情感词库，利用情感词库对产品的痛点特征进行情感倾向量化,最终得到电商产品痛点特征得分。电商产品痛点分析为用户购买决策、企业竞争策略制定提供重要情报支撑。

Description

一种改进的电商产品痛点分析方法

技术领域

本发明涉及自然语言处理和数据挖掘领域，尤其是一种基于评论信息的商品评价方法。

背景技术

据中国互联网络信息中心(CNNIC)2017年1月发布的《第39次中国互联网络发展状况统计报告》显示，截至2016年12月，中国网民规模达到7.31亿人，全年新增网名共计4299万人，互联网普及率为53.2％。其中,中国网络购物用户规模达到4.67亿占网名比例为63.8％，较2015年底增长12.9％。其中，手机网络购物用户规模达到4.41亿，占手机网民的63.4％年增长率为29.8％。

伴随着互联网信息技术的不断提升，电子商务行业迅猛发展，电商平台已经成为网购的一个重要渠道。但与此同时，消费者在网购商品时往往面临一些困难，如假冒伪劣、虚假宣传和选购困难等问题。虽然，许多电商平台提供消费者反馈机制，但是，面对网络上堆积的反馈信息，如何在茫茫多的反馈信息中，迅速有效地识别出有价值的参考信息，通过高价值的参考信息，挑选出自己心仪的电商产品。痛点营销已经成为一种新的营销模式，人们对痛点的研究也未曾间断，如张烨等基于痛点和感动点的服务设计分析研究。用户痛点是指:“原始需求中被大多数人反复表述过的一个有待产品去解决的问题、有待去实现的愿望。”而这些产品需求，消费者通过评论信息透露出自己的评价情况，通过对评论文本的情感倾向分析可以获得商品特征情感倾向，然后对这些产品特征提炼出消费者的痛点特征，接着对这些痛点特征结合情感词典，就可以获得每款商品的痛点特征得分，依据得分能够提供购买决策依据，使其购买行为更加理性。

发明内容

本发明所要解决的技术问题是：获取商品评论数据，采集的评论数据需要包括产品名称、用户评论文本、用户评论时间，作为评论数据集。首先对采集的评论数据集进行预处理操作，包括评论文本进行分词、新词发现以及词性标注等处理，然后利用汉语组块标记，使用SVM 进行产品特征提取,根据Apriori算法产生频繁项集以及TF-IDF阈值过滤，得到产品痛点特征集合,然后基于轮盘法确定K个聚类中心的Kmeans++对痛点特征进行聚类，最后利用情感词库对产品的痛点特征进行情感倾向量化,最终得到电商产品痛点特征得分，依据得分数据为用户购买决策、企业竞争策略制定提供重要情报支撑。

为此，本发明提出的一种改进的电商产品痛点分析方法包括如下步骤：

步骤S1：获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则，设定评论数据的时间区间，并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间，然后对各信息要素进行提取，通过编程持久化到数据库中；

步骤S2：利用爬取得到的数据进行预处理，利用JAVA语言编写程序对数值型数据进行去重复、数据转化和数据归约操作，同时文本信息数据利用中科院NLPIR分词工具进行分词、词性标注和停用停用词处理；

步骤S3：产品痛点特征的提取与聚类，利用预处理后的数据，确定汉语组块标记，然后选取一定量的分词数据进行汉语组块标记，接着使用SVM进行产品特征提取,最后根据Apriori算法产生频繁项集以及TF-IDF阈值过滤，得到产品痛点特征集合,然后基于轮盘法确定K个聚类中心的Kmeans++对痛点特征进行聚类，减少产品特征维度，对产品的痛点特征进行集中分析；

步骤S4：网上现有的情感词典在处理特定领域的评论文本时不能很好地囊括特定领域情感词，因此在产品评论情感分析前，需要根据研究对象构建相应领域的情感词典，对通用情感词典进行适当补充，并对情感词典进行量化，这样评估的情感倾向相对比较准确；

步骤S5：通过观察大量的评论文本，得出产品痛点特征的出现往往伴随着消费者情感倾向即评价词，因此，以痛点特征为情感分析对象，以逗号为最小情感语义单元分隔符，结合痛点特征和量化情感词典，对与痛点特征处于同一个语义单元的情感词进行情感值计算，并将该情感值赋予对应痛点特征，最后得到每个产品的痛点特征得分。

本发明与现有技术对比的有益效果是：本发明提出了一种改进的电商产品痛点分析方法，从定义出发，用户痛点分析更关注负面评论分析，而传统情感分析则更侧重于整体或正面评论的分析。但用户痛点分析并不完全等同于负面评论分析，而是针对涉及所研究产品特征指标的负面评论进行分析和研究。痛点反映了从用户角度来看待产品缺陷或不足，从用户角度给出对产品相对客观的评价和定位。这对厂商来说是一个宝贵的情报来源，可以作为市场反应数据来支撑企业产品市场定位，反映市场定位是否准确，或为产品改进提供决策依据。从消费者角度出发，通过痛点分析可以进一步比较各产品之间的痛点，能够提供购买决策依据，使其购买行为更加理性。

附图说明

图1是本发明具体实施方式中的一种改进的电商产品痛点分析方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点清楚，下面将对本发明的具体实施方式进行清楚、完整的描述。

如图1所示，为本具体实施方式中的一种改进的电商产品痛点分析方法的流程图。

该方法包括：步骤S1：获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则，设定评论数据的时间区间，并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间，然后对各信息要素进行提取，通过编程持久化到数据库中；步骤S2：利用爬取得到的数据进行预处理，利用JAVA语言编写程序对数值型数据进行去重复、数据转化和数据归约操作，同时文本信息数据利用中科院NLPIR分词工具进行分词、词性标注和停用停用词处理；步骤S3：产品痛点特征的提取与聚类，利用预处理后的数据，确定汉语组块标记，然后选取一定量的分词数据进行汉语组块标记，接着使用SVM进行产品特征提取,最后根据Apriori算法产生频繁项集以及TF-IDF阈值过滤，得到产品痛点特征集合,然后基于轮盘法确定K个聚类中心的Kmeans++对痛点特征进行聚类，减少产品特征维度，对产品的痛点特征进行集中分析；步骤S4：网上现有的情感词典在处理特定领域的评论文本时不能很好地囊括特定领域情感词，因此在产品评论情感分析前，需要根据研究对象构建相应领域的情感词典，对通用情感词典进行适当补充，并对情感词典进行量化，这样评估的情感倾向相对比较准确；步骤S5：通过观察大量的评论文本，得出产品痛点特征的出现往往伴随着消费者情感倾向即评价词，因此，以痛点特征为情感分析对象，以逗号为最小情感语义单元分隔符，结合痛点特征和量化情感词典，对与痛点特征处于同一个语义单元的情感词进行情感值计算，并将该情感值赋予对应痛点特征，最后得到每个产品的痛点特征得分。

在具体的实施方案中，可按下面方式操作(在下面的操作表述中，我们将对主流电商网站中数款手机的痛点分析为例，在每个操作步骤后，部分给出具体示例)：

步骤S1：利用python的Scrapy爬虫框架，从天猫电商平台中，分别爬取IPhone6、OPPO R9S、华为Mate8、魅蓝Note3、小米6这5款机型作为研究对象，抓取评论数据。数据采集时间为2017年10月1日。采集每款手机评论数都为为3215条，这些手机评论信息将作为手机用户痛点分析研究的实验数据集，通过java编程持久化到Mysql数据库中。

步骤S2：对得到平论文本进行处理，主要包括文本分词、词性标注和词频统计，然后基于停用词和低频词过滤分词结果。细分步骤如下：1)文本分词和词性标注：我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。中文分词(Chinese WordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。词性标注是对上述的分词结果，标注每个词的词性，现代汉语的词可以分为两类14种词性。现在能选择的中文分词和词性标注工具比较多，我们综合考虑分词的准确率、高效性和简便性选择“结巴”中文分词工具(工具网站：http://www.oschina.net/p/jieba)。2)对分词结果进行词频统计：创建一个词典容器，以分词结果的词为键，值为词出现的频次，其特点是键值对储存，并且储存的键必须唯一不能重复，对分词结果进行遍历，并储存进词典容器，得到全部的分词结果的词频。

3)低频词和停用词的过滤：低频词指的是词频统计中出现次数较少的词，一般过滤掉的出现次数少于3的词语；停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，比如“的”、“我”等词，这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。4)分词结果的过滤：，过滤掉分词结果中的出现的低频词和停用词。

我们从淘宝某款手机商品的评论文本中选择以下几条作为示例：

1“非常不错的手机，做工质感极好，颜值爆表。”

2“京东的物流超级赞，手机已经开始使用，功能正常，物美价廉，值得推荐。”

3“手机很好，运行速度很快，电话音质不错。”

“结巴”中文分词及词性标注官方介绍为：jieba.posseg.POSTokenizer(tokenizer＝None) 新建自定义分词器，tokenizer参数可指定内部使用的jieba.Tokenizer分词器。 jieba.posseg.dt为默认词性标注分词器。标注句子分词后每个词的词性，采用和ictclas 兼容的标记法。具体使用方法如下：

Import jieba.posseg as pseg

sentence＝'非常不错的手机，做工质感极好的，颜值爆表。'

result＝[str(a)for a in pseg.cut(sentence)]

print("".join(result))

对示例文本1的进行上述分词及词性标注步骤，处理后的显示格式为，空格分隔各个词语，每个词后的反斜线本词的词性，最终显示的结果如下：

“非常/d不错/a的/uj手机/n，/x做工/v质感/n极好/d的/uj，/x颜值/n爆表/v。/x”，其中，v代表动词、n代表名词、a代表形容词、d代表副词、uj代表助词、x代表非语素字。

统计词频后的结果为：{'非常':1,'不错':1,'的':2,'手机':1,'做工':1,' 质感':1,'极好':1,'颜值':1,'爆表':1}，以词和词频的组合形式作为键值对储存到词典容器中,给定一定的阈值，把低于这个阈值的词作为低频词。

步骤S3：产品痛点特征的提取与聚类，主要包括产品特征的提取、产品特征过滤为痛点特征和痛点特征的聚类。细分步骤如下：1)产品特征的提取，组块分析是一种句法分析。它既可以作为自然语言处理系统中分析句法功能的子任务，也可以作为词法分析过渡到句法分析的一座桥梁。根据步骤S2得到的分词结果，结合每个词的上下词关系，给予每个词汉语组块手工标注符号,构成训练模型样本。然后基于汉语组块进行手工标注，给定一定比例的训练集和测试集，利用LibSVM工具训练产品特征提取模型，模型训练完成对所有评论数据集进行产品提取，得到候选产品特征。2)产品特征过滤为痛点特征，提取的特征存在一定量的非产品特征。计算机无法自动识别候选特征词是否为真正的产品痛点特征，基于“产品痛点特征会在评论文本中重复出现”的假设，就可以使用Apriori算法寻找构成频繁项集的产品痛点特征作为候选产品痛点特征。但是通过观察产品的候选痛点特征集合，发现有许多非产品痛点特征名词，将这些名词定义成停用词。为了更准确得到产品痛点特征集合，需要利用相应的过滤算法再次对候选产品痛点特征进行过滤。

产品痛点特征提取详细步骤如下：

①确定Apriori算法的项集和支持度计数。项集X可以定义为：经过汉语组块分析后得到的初始化集合。事物集合T定义为：从网络上下载的用户评论集合。其中一条评论用户评论可以计为t_i(1≤i≤n))。因此T＝{t₁,t₂,…t_n,}。

支持度计数表示为：

支持度表示为：

其中:X和Y为互不相交的相集(即

)，N为用户评论词条t_i的数量。

最后设定最小支持度为1％，在事物集合中找到频繁项集，将得到的频繁项集作为候选产品特征。

②过滤停用词。通过观察候选产品痛点特征以及结合网现有的停用词构建出产品特征停用词，其中停用词主要有以下三类：产品名称，例如“小米”“魅族”“华为”等；人称名词，例如“阿姨”“同事”“朋友”等；方位及时间代词，例如“里面”“早上”“晚上”等。通过编写简单的计算机程序对候选产品痛点特征进行停用词匹配过滤后得到的产品特征为初试产品痛点特征集合。

③TF-IDF(Term Frequency-Inverse Document Frequency)算法过滤初试产品痛点特征。

TF-IDF算法的计算方法如下：

TF-IDF＝TF_i，j×IDF_i (3)

通过多次交叉验证实验，发现绝大多数的非产品特征词的TF-IDF值在0.005以上，因此过滤阈值定为0.005，过滤后得到最终的产品特征集合。

3)商品痛点特征词聚类:由于产品痛点特征细粒度过大，需要对所有产品痛点特征进行聚类，传统的K-Means聚类算法简单且易于实现，在很多应用场景取得不错聚类效果，但是从K-Means算法的过程中发现，K-Means算法中的聚类中心的个数K需要事先指定，针对产品痛点特征的聚类，由于商品类别不同选取的K值肯定是变化的，基于此K-Means算法有很大的局限性。因此，本文采用基于轮盘法确定K个聚类中心的Kmeans++算法进行聚类，K-Means++ 算法在聚类中心的初始化过程中的基本原则是使得初始的聚类中心之间的相互距离尽可能远，这样可以避免出现上述的问题。基于轮盘法确定K个聚类中心的Kmeans++产品特征词聚类算法描述：

输入：产品痛点特征集合{F₁,F₂,…,F_n}，产品痛点特征词的相似矩阵即距离矩阵

其中D_i,j＝WSim(F_i,F_j)，以及产品特征100维词向量

输出：产品痛点特征聚类结果。

Step1：从产品痛点特征集合中随机选取一个特征词F_i作为初始聚类中心C₁；

Step2：首先计算每个产品痛点特征词与F_i的距离即D_i,j；接着计算痛点特征词被选为下一个聚类中心的概率

最后，按照轮盘法确定出K个聚类中心；

Step3：针对产品痛点特征集合中每个特征词F_k,计算它到K个中心的距离并将其分到距离最小的聚类中心所对应的簇中；

Step4：每个痛点特征词类别C_i,重新计算它的聚类中心

(即每个簇的质心)；

Step5：重复第3步和第4步直到聚类中心的位置不再变化。

结合中关村对手机参数分类和评论信息的评论特点，确定出手机评价对象的6个产品痛点特征类为：屏幕、硬件、网络、摄像、外观、功能与服务。

步骤S4：网上现有的情感词典在处理特定领域的评论文本时不能很好地囊括特定领域情感词，因此在产品评论情感分析前，需要根据研究对象构建相应领域的情感词典，对通用情感词典进行适当，情感词典选择《How Net》、《台湾大学简体中文情感极性词典》和《中文情感词汇本体库》如表1所示，并对情感词典进行量化，情感修饰词系数设定方法如下,将知网的219个程度副词和评论集中筛选出的程度副词结合构成程度副词集划分为5个等级,程度系数依次设置为:0.6,0.8,1.2,1.4,1.6,若评论中不含程度副词,则令程度系数为1,否定词程度系数统一设定为-1。

表1情感词典

情感词典	正面词汇	中立词汇	负面词汇	总词汇
					HowNet	4566	/	4370	8851
中文情感词库	11229	5375	10783	27466
					台湾大学简体中文情感极性词典	2846	/	8325	10027

步骤S5：通过观察大量的评论文本，产品痛点特征的出现往往伴随着评价词，以逗号为最小情感语义单元分隔符，结合聚类后痛点特征和量化情感词典，但是用户评论的模式繁多，不同模式的评论明显要采取不同的特征情感得分，通过对用户的分析与总结提出一下评论模式，如表2：

表2评论模式表

匹配出不同评论模式，根据以下公式可以计算每条评论中的每个特征得分。

其中，n为评论的切割片段数，m为片段中的模式数，为第i个片段中的第j个模式得分， k为模式中的单元数，X为模式中的单元，X_k分别为DEAF的模式，*为是否存在此单元。

本发明采用基于评论文本的痛点分析方法，对手机产品的痛点特征，依据情感词典进行情感分析。考虑到修饰词(否定词和程度副词)会对情感极性产生影响，本发明提出10种评论情感得分模型，然后使用公式(4)分别计算5款手机6个痛点特征情感平均值，见表3。

表3手机痛点特征得分计算结果

通过上述统计结果可知，IPhone6的“网络”和“外观”类别、华为Mate8的“屏幕”类别、小米6的“硬件”、“网络”类别的痛点特征得分较为低，说明用户对以上指标类别的评价可能较差，有较大可能是产品的用户痛点所在，参考痛点特征得分，能够提供购买决策依据，使其购买行为更加理性。

Claims

1.一种改进的电商产品痛点分析方法，其特征是包括如下步骤：

步骤S2：利用所述步骤S1中得到的数据进行预处理，利用JAVA语言编写程序对数值型数据进行去重复、数据转化和数据归约操作，同时文本信息数据利用中科院NLPIR分词工具进行分词、词性标注和停用词处理；

步骤S3：产品痛点特征的提取与聚类，利用所述步骤S2预处理后的数据，确定汉语组块标记，然后选取一定量的分词数据进行汉语组块标记，接着使用SVM进行产品特征提取,最后根据Apriori算法产生频繁项集以及TF-IDF阈值过滤，得到产品痛点特征集合,然后基于轮盘法确定K个聚类中心的Kmeans++对痛点特征进行聚类，减少产品特征维度，对产品的痛点特征进行集中分析；

步骤S5：通过观察大量的评论文本，得出产品痛点特征的出现往往伴随着消费者情感倾向即评价词，因此，以痛点特征为情感分析对象，以逗号为最小情感语义单元分隔符，结合S3步骤得到的痛点特征和S4的量化情感词典，对与痛点特征处于同一个语义单元的情感词进行情感值计算，并将该情感值赋予对应痛点特征，最后得到每个产品的痛点特征得分。

2.如权利要求1所述的一种改进的电商产品痛点分析方法，其特征是，所述步骤S1中，获取商品评论数据,首先利用网络爬虫工具编写好爬虫规则，根据待分析的产品选择用户评论数据来源网站，设定评论数据的时间区间，并用网络爬虫采集用户评论数据包括以下要素:产品名称、用户评论文本、用户评论时间，然后对各信息要素进行提取，通过编程持久化到数据库中。