CN108319734A

CN108319734A - 一种基于线性组合器的产品特征结构树自动构建方法

Info

Publication number: CN108319734A
Application number: CN201810320911.0A
Authority: CN
Inventors: 徐新胜; 余建浙
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-07-24

Abstract

本发明公开了一种基于线性组合器的产品特征自动构建方法，其中所述方法包括：商品评论文本的获取，选取某款电商产品，爬取评论文本信息作为评论数据集；对爬取的评论数据集进行预处理操作，主要包括评论文本分词和词性标注处理；产品特征提取，采用支持向量机进行特征提取,然后选取一些指标进行产品特征过滤，得到产品特征集合；通过词向量相似度计算和《同义词词林扩展版》的相似度计算得到产品特征相似矩阵，通过线性组合最后得到产品特征相似度；依据产品特征相似度对产品特征进行聚类，再提取主题，构建出产品特征结构树。产品特征结构树可以为产品痛点分析、产品个性化推荐和产品特征情感分析提供重要参考依据。

Description

一种基于线性组合器的产品特征结构树自动构建方法

技术领域

本发明涉及自然语言处理和数据挖掘领域，尤其是一种基于评论信息的特征聚类方法。

背景技术

据中国互联网络信息中心(CNNIC)2018年3月发布的第41次《中国互联网络发展状况统计报告》显示，截至2017年12月，我国网络购物用户规模达到5.33亿人，较2016年增长14.3％，占网民总体的67.1％。手机网络购物用户规模达到5.06亿，同比增长14.7％，使用比例由63.4％增至67.2％。与此同时，网络零售继续保持高速增长，全年交易额达到71751亿元，同比增长32.2％，增速较2016年提高6个百分点。

伴随着互联网技术的普及，电商产业发展迅猛，电商平台已经成为消费者购物的一个重要渠道。相比与传统的线下实体店销售，网上购物有如下几点优势：首先，省时、省力，在网上查找全部的商品，你只需要几分钟的时间就可以了，无需再去人群拥挤的大街上寻找，从累断双腿的逛街发展到鼠标操控的网络购物，而且只要你有确定的购买目标，在商城中稍加搜索就能直接找到，真是省时又省力啊；然后，商品种类齐全。有时候想买件东西，在各大商城里找了半天，几乎快要累死了也没有找到，或者需要东奔西跑，挑挑拣拣地比较，可是网上商城就用一个页面直观清晰地描述出这种产品的基本参数和数据，让你清晰地了解它的特性，并且网上商城里包括了几乎所有你能想到的东西，甚至零售业也在网上异军突起迅猛地发展，兴许你本无意的却找到了一件自己中意很久的东西。但是同样地也有弊端，网购商品充斥着假冒伪劣的商品，还有虚假宣传的现象，一不小心就容易就上当。而且当面对琳琅满目的商品时很容易造成选择困难，即使在目标明确的情况下。这是由于每款商品对产品特征宣传没有统一的形式，很容易对消费者造成干扰。现在大多数的产品特征的划分都是依据手机的部位或者功能进行划分，然后对产品进行宣传，缺失产品特征的整体定义。在消费者评论中会对产品特征进行评论，可以通过消费者评论提炼出产品特征，然后计算出每个产品特征之间的相似度，以相似度为基础，进行产品特征聚类，最后提炼出每个簇类的主题，依次类推就可以构建出产品特征的结构树。商家参考产品特征结构树，可以进行商品的精准宣传，提高成功的交易率；同时消费者也可以借鉴特征结构树，了解自己真正的购物需求，促进网络购物环境健康良好的发展。

发明内容

本发明所要解决的技术问题是：在电商平台中选择一款商品，对消费者评论文本信息进行爬取，由于爬取的信息为消费者评论文本，由于消费者评论存在“噪声”，需要对评论信息进行过滤爬取，对爬取得到的评论数据集进行分词和词性标注，为了提高分词的准确度，需要添加专有领域的新词以及停用词，确定组块的标记记号，然后依据组块标记的含义对分词的结果进行人工标注，利用lib-svm进行产品特征的提取，计算候选产品特征的tf-idf并观察给定阈值进行过滤，最终得到产品特征集合，计算产品特征集合中特征词的相似度，基于《同义词词林扩展版》语义相似度的计算和词向量向量化的余弦相似度计算，最后线性组合两种相似度最给出最终的相似度，以相似度矩阵作为聚类的距离矩阵，利用K-means++算法对产品特征集合进行聚类操作，根据聚类得到的簇类，结合产品特征词描述的特性，抽取出每个簇类的主题，作为产品特征的父节点，依次类推就可以构建出产品特征结构树。产品特征结构树可以为产品痛点分析、产品个性化推荐和产品特征情感分析提供重要参考依据。

为此，本发明提出的一种基于线性组合器的产品特征结构树自动构建方法包括如下步骤：

步骤S1：评论文本获取，选定天猫商城为评论源的电商平台，采用python语言编写爬虫程序，对天猫商城中产品信息进行爬取，主要爬取的信息为消费者评论文本，由于消费者评论存在“噪声”，需要对评论信息进行过滤爬取，过滤的原则：如果评论文本字数少于一定的阈值，则不爬取，以及重复的评论信息也不爬取，根据上述原则爬取后的最终数据，作为评论数据集；

步骤S2：对所述步骤S1中得到的评论数据集进行预处理，主要分为两个方面，一方面是对评论文本信息进行分词，为了提高分词的准确度，需要添加专有领域的新词以及停用词，以及对分词进行词性标注，另一方面鉴于电商评论文本的独有的“口语化”、“流行化”和“碎片化”的评论特点，需要对分词和词性标注的结果进行人工校正；

步骤S3：产品特征提取，利用所述步骤S2预处理后的评论文本数据，从汉语组块标记中，确定组块的标记记号，然后依据组块标记的含义对分词结果进行人工标注，将标注的结果划分为训练集、测试集和验证集，选择前后3窗口的词性和词位作为特征，利用lib-svm进行产品特征的提取，提取的结果中肯定存在不是产品特征的词，计算每个候选产品特征词的tf-idf并观察给定阈值进行过滤，最终得到产品特征集合；

步骤S4：产品特征相似度计算，步骤S3得到的产品特征集合，需要计算每一个特征词与其余产品特征词相似度，第一种相似度计算方法为基于《同义词词林扩展版》语义相似度的计算，主要原理是根据已经构建的语义树，结合语义树的距离计算相似度，第二种相似度计算方法为词向量的余弦相似度，首先根据词向量对产品特征进行量化表示，这里选择维数为100维，然后根据余弦公式进行相似度计算，最后线性组合两种相似度为最终相似度；

步骤S5：生成产品特征结构树，上述步骤S4得到产品特征之间的相似度矩阵，以相似度矩阵作为聚类的距离矩阵，利用K-means++算法对产品特征集合进行聚类操作，根据聚类得到的簇类，结合产品特征词描述特性，抽取出每个簇类主题，作为产品特征的父节点，依次类推就可以构建出产品特征结构树。

本发明与现有技术对比的有益效果是：本发明提出了一种基于线性组合器的产品特征结构树自动构建方法，从评论文本信息中提取产品特征，相比于传统的产品特征来得更真实和更丰富，比较完整地描述产品的方方面面。结合基于《同义词词林扩展版》语义相似度计算和词向量量化的余弦相似度计算两种相似度计算方法，然对两种方法的相似度结果进行线性组合，确保相似度准确。最后，对产品特征进行自动的层次聚类出产品特征结构树，从客观分析出商品的产品特征树。对于卖家可以参照产品结构树进行商品的精确宣传，而对于消费者可以依据产品特征结构树进行目标明确的选购商品，促进网络购物的健康快速发展。

附图说明

图1是本发明具体实施方式中的一种基于线性组合器的产品特征结构树自动构建方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点清楚，下面将对本发明的具体实施方式进行清楚、完整的描述。

如图1所示，为本具体实施方式中的一种改进的电商产品痛点分析方法的流程图。

该方法包括：步骤S1：评论文本获取，选定天猫商城为评论源的电商平台，采用python语言编写爬虫程序，对天猫商城中产品信息进行爬取，主要爬取的信息为消费者评论文本，由于消费者评论存在“噪声”，需要对评论信息进行过滤爬取，过滤的原则：如果评论文本字数少于一定的阈值，则不爬取，以及重复的评论信息也不爬取，根据上述原则爬取后的最终数据，作为评论数据集；步骤S2：对所述步骤S1中得到的评论数据集进行预处理，主要分为两个方面，一方面是对评论文本信息进行分词，为了提高分词的准确度，需要添加专有领域的新词以及停用词，以及对分词进行词性标注，另一方面鉴于电商评论文本的独有的“口语化”、“流行化”和“碎片化”的评论特点，需要对分词和词性标注的结果进行人工校正；步骤S3：产品特征提取，利用所述步骤S2预处理后的评论文本数据，从汉语组块标记中，确定组块的标记记号，然后依据组块标记的含义对分词结果进行人工标注，将标注的结果划分为训练集、测试集和验证集，选择前后3窗口的词性和词位作为特征，利用lib-svm进行产品特征的提取，提取的结果中肯定存在不是产品特征的词，计算每个候选产品特征词的tf-idf并观察给定阈值进行过滤，最终得到产品特征集合；步骤S4：产品特征相似度计算，步骤S3得到的产品特征集合，需要计算每一个特征词与其余产品特征词相似度，第一种相似度计算方法为基于《同义词词林扩展版》语义相似度的计算，主要原理是根据已经构建的语义树，结合语义树的距离计算相似度，第二种相似度计算方法为词向量的余弦相似度，首先根据词向量对产品特征进行量化表示，这里选择维数为100维，然后根据余弦公式进行相似度计算，最后线性组合两种相似度为最终相似度；步骤S5：生成产品特征结构树，上述步骤S4得到产品特征之间的相似度矩阵，以相似度矩阵作为聚类的距离矩阵，利用K-means++算法对产品特征集合进行聚类操作，根据聚类得到的簇类，结合产品特征词描述特性，抽取出每个簇类主题，作为产品特征的父节点，依次类推就可以构建出产品特征结构树。

在具体的实施方案中，可按下面方式操作(在下面的操作表述中，我们选取天猫商城中的一款手机为例，在每个操作步骤后，部分给出具体示例)：

步骤S1：利用python的requests爬虫框架，从天猫电商平台中，爬取Iphone7评论数据，数据采集时间为2018年3月4日，采集的手机评论数都为为1378条，这些手机评论信息将作为产品特征结构树的实验数据集，通过python编程持久化到Mongodb数据库中。部分评论数据如表1所示：

表1部分消费者评论信息

步骤S2：对得到的评论数据集进行预处理，主要分为两个方面，一方面是对评论文本信息进行分词，为了提高分词的准确度，需要添加专有领域的新词以及停用词，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，比如“的”、“我”等词，这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。以及对分词进行词性标注，另一方面鉴于电商评论文本的独有的“口语化”、“流行化”和“碎片化”的评论特点，需要对分词和词性标注的结果进行人工校正，下面以表1中的第一条评论数据为例对齐进行分词及词性标注，代码如下所示：

from pyltp import*

import os

LTP_DATA_DIR＝r'D:\foreign\Python\Evns\database\Res\ltp_data'

#ltp模型目录的路径

cws_model_path＝os.path.join(LTP_DATA_DIR,'cws.model')

#分词模型路径，模型名称为`cws.model`

segmentor.load_with_lexicon(cws_model_path,'/path/to/your/lexicon')

#加载模型，参数lexicon是自定义词典的文件路径

pos_model_path＝os.path.join(LTP_DATA_DIR,'pos.model')

#词性模型路径，模型名称为`pos.model`

#初始化分词实例

seg,pos＝Segmentor(),Postagger()

#加载模型

seg.load(cws_model_path)

pos.load(pos_model_path)

sents＝“有时候会黑屏怎么都点不到，都只能关机，感觉3g内存怎么开几个软件就不行了，像素不怎么好，跟之前800元的酷派一样，已经用了20多天来评价的，只能说能用，没优势的，好像有时网络还不行，以前用的酷派都没这个问题，都很好的，还有就是喇叭声音有点小。”

sentence＝SentenceSplitter.split(sents)#分句

print('\n'.join(sentence))

words＝seg.segment(sents)#分词

print("\\".join(words))

posRes＝pos.postag(words)#词性标注

print("\\".join(posRes))

seg.release()#释放模型

pos.release()#释放模型

分词和词性结果标注如下：

有时候\d会\v黑屏\n怎么\r都\d点\v不\d到\v，\wp都\d只能\v关机\n，\wp感觉\v 3g\m内存\n怎么\r开\v几\m个\q软件\n就\d不行\a了\u，\wp像素\n不怎么\i好\a，\wp跟\p之前\nd 800\m元\q的\u酷派\n一样\u，\wp已经\d用\v了\u 20\m多\m天\q来\nd评价\v的\u，\wp只能\v说\v能\v用\v，\wp没\v优势\n的\u，\wp好像\v有时\d网络\n还\d不行\a，\wp以前\nd用\v的\u酷派\n都\d没\v这个\r问题\n，\wp都\d很\d好\a的\u，\wp还有\v就\d是\v喇叭\n声音\n有\v点\q小\a。\wp

步骤S3：产品特征提取，主要包括产品特征的提取、产品特征过滤。细分步骤如下：1)产品特征的提取，组块分析是一种句法分析。它既可以作为自然语言处理系统中分析句法功能的子任务，也可以作为词法分析过渡到句法分析的一座桥梁。根据步骤S2得到的分词结果，结合每个词的上下词关系，给予每个词汉语组块手工标注符号,构成训练模型样本。然后基于汉语组块进行手工标注，给定一定比例的训练集和测试集，利用LibSVM工具训练产品特征提取模型，模型训练完成对所有评论数据集进行产品提取，得到候选产品特征。然后对候选特征进行TF-IDF过滤，

TF-IDF算法的计算方法如下：

TF-IDF＝TF_i,j×IDF_i (3)

通过多次交叉验证实验，发现绝大多数的非产品特征词的TF-IDF值在0.023以上，因此过滤阈值定为0.023，过滤后得到最终的产品特征集合。

步骤S4：产品特征相似度计算，步骤S3得到的产品特征集合，需要计算每一个特征词与其余产品特征词相似度，第一种相似度计算方法为基于《同义词词林扩展版》语义相似度的计算，计算步骤如下：若两个义项相似度用TSim表示

1)若两个义项不在同一棵树上

TSim(F₁,F₂)＝f

2)若两个义项在同一棵树上

①若在第2层分支，系数为a

②若在第3层分支，系数为b

③若在第4层分支，系数为c

④若在第5层分支，系数为d

在经过多次实验，人工评定后将层数初值设置为a＝0.65,b＝0.8,c＝0.9,d＝0.96,e＝0.5,f＝0.1。

第二种产品特征相似度计算基于词向量(word2vec)，作为深度学习模型中一种词语的分布式表达，它将词映射到一个低维的向量空间中(通常取100或者150维)，常见形式为[0.04733921,0.1250208,0.2233844,0.05134047,…]。

其优点主要表现在三个方面：一是可以通过计算词向量间的距离来更精准的测试词之间的相似性，例如“屏幕”、“分辨率”和“反应速度”三个词中前两个词较为相关，则对应的词向量距离就较小；二是通过使用较低维度的特征来刻画词，可以大幅降低计算的复杂度，从而提高方法的实际应用价值。

另外，与语义字典相比，词向量它可以针对特定的语料进行训练，既方便领域内词向量建模，也可以针对不同的语料规模进行灵活扩展。利用得到词向量词典就可以计算任意两个个特征词的相似度，记为WSim(F₁,F₂)。

最后，本文基于上述两个语义相似度度量方法进行线性组合，得到最终的相似度计算公式：

FS(F_i,F_j)＝αTSim(F_i,F_j)+βWSim(F_i,F_j)

其中，α和β分别为语义相似度计算方法的权重，本文根据多次重复实验结果取值分别为0.4和0.6。FS(F_i,F_j)的范围为[0,1]之间，数值越大越相似，根据两两产品特征词的相似度可以得到相似矩阵。

步骤S5：生成产品特征结构树，上述步骤S4得到产品特征之间的相似度矩阵，以相似度矩阵作为聚类的距离矩阵，采用K-Means++算法进行聚类，聚类中心的初始化过程中的基本原则是使得初始的聚类中心之间的相互距离尽可能远，这样可以避免出现上述的问题。改进的K-Means++产品特征词聚类算法描述：

输入：产品特征集合{F₁,F₂,…,F_n}，产品特征词的相似矩阵即距离矩阵其中D_i,j＝WSim(F_i,F_j)，以及产品特征100维词向量V_Fi＝[N₁,N₂,…,N₁₀₀]

输出：产品特征聚类结果。

Step1：从产品特征集合中随机选取一个特征词F_i作为初始聚类中心C₁；

Step2：首先计算每个产品特征词与F_i的距离即D_i,j；接着计算特征词被选为下一个聚类中心的概率最后，按照轮盘法确定出K个聚类中心；

Step3：针对产品特征集合中每个特征词F_k,计算它到K个中心的距离并将其分到距离最小的聚类中心所对应的簇中；

Step4：每个特征词类别C_i,重新计算它的聚类中心(即每个簇的质心)；

Step5：重复第3步和第4步直到聚类中心的位置不再变化。

产品特征聚类结果如表2所示下：

表2产品特征聚类结果

然后对聚类的结果进行主体抽取，得到最终的产品结构树，如表3所示。

表3产品特征结构树

Claims

1.一种基于线性组合器的产品特征结构树自动构建方法，其特征是包括如下步骤：

2.如权利要求1所述的一种基于线性组合器的产品特征结构树自动构建方法，其特征是，所述步骤S1中，选定天猫商城为评论源的电商平台，采用python语言编写爬虫程序，对电商产品进行评论文本的爬取，由于消费者评论存在“噪声”，需要对评论信息进行过滤爬取，过滤掉评论字数少以及重复评论的信息，最终保留的文本信息作为评论数据集，储存进数据库。

3.如权利要求1所述的一种基于线性组合器的产品特征结构树自动构建方法，其特征是，所述步骤S2中，评论文本信息的预处理，一方面利用中科院的分词工具对评论文本信息进行分词，为了提高分词的准确度，需要添加专有领域的新词以及停用词，以及对分词结果进行词性标注，另一方面，鉴于电商评论文本的独有的“口语化”、“流行化”和“碎片化”的评论特点，需要对分词和词性标注的结果进行人工校正。

4.如权利要求1所述的一种基于线性组合器的产品特征结构树自动构建方法，其特征是，所述步骤S3中，产品特征提取，从汉语组块标记中，确定组块的标记记号，然后依据组块标记的含义对分词结果进行人工标注，将标注的结果划分为训练集、测试集和验证集，确定特征依据，利用lib-svm进行产品特征的提取，并计算每个候选产品特征词的tf-idf进行过滤，最终得到产品特征集合。

5.如权利要求1所述的一种基于线性组合器的产品特征结构树自动构建方法，其特征是，所述步骤S4中，产品特征相似度计算，计算每一个特征词与其余产品特征词相似度，其中基于《同义词词林扩展版》语义相似度的计算，主要原理是根据已经构建的语义树，结合语义树的距离计算相似度，其次，词向量的余弦相似度计算，首先根据词向量对产品特征词进行量化表示，这里选择维数为100维，然后根据余弦公式进行相似度计算，最后线性组合两种相似度为最终相似度。

6.如权利要求1所述的一种基于线性组合器的产品特征结构树自动构建方法，其特征是，所述步骤S5中，生成产品特征结构树，利用K-means++算法对产品特征集合进行聚类操作，根据聚类得到的簇类，结合产品特征词描述特性，抽取出每个簇类主题，作为产品特征的父节点，依次类推就可以构建出产品特征结构树。