CN109543035A

CN109543035A - 一种针对商品评价进行聚类分析的方法

Info

Publication number: CN109543035A
Application number: CN201811332419.1A
Authority: CN
Inventors: 郑志军; 程国艮
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-03-29

Abstract

本发明提供了一种针对商品评价进行聚类分析的方法，具体而言，该方法包括：根据用户提出的关注点，将商品评价语料中语义最接近的特定个数词抽取出来；对商品的所有评价进行分句处理，并将这些分句中含有所述与关注点语义接近关键词的句子挑选出来；对这些句子进行情感分类，然后对挑选出来的句子进行密度聚类处理，从而可以从更细粒度的角度便于潜在购买客户了解该商品的特定功能。由于该方法不预先定义数据用户可能的关注点，使得用户的查询不再受局限，更好地满足用户的需求。

Description

一种针对商品评价进行聚类分析的方法

技术领域

本发明涉及商品评价计算分析领域，具体而言，涉及一种利用某种商品的客户购买评价进行聚类分析的方法。

背景技术

据CNNIC(中国互联网络信息中心)发布的2018年第42次中国互联网络发展状况统计报告显示，截止2018年6月，我国网络购物用户规模达到了5.69亿，相较于2017年末增长了6.7％，占网民总体比例达到了71.0％。2018年上半年，我国网上零售交易额达到40810亿，同比增长30.1％，继续保持了稳健增长势头。大量的网购产生了庞大的用户评价，能否合理利用这些评价数据对促进网上交易具有重要意义。

目前，针对数据用户的关注点(例如“服务态度”“品牌效应”等)主

要有两种数据挖掘方式：一种是基于深度学习的方法，即将每条商品评价分类到事先定义好的类别中；一种是非深度学习的方法，即将基于关键词和情感词典抽取出的评价进行聚类。

基于神经网络挖掘数据，这种方法需要人工花费大量的时间和精力去标记语料,难以在实际中应用。

将基于关键词和情感词典抽取出的评价进行聚类以挖掘数据，这种方法缺陷主要在于：文本聚类的过程中使用SVM模型表示的句子存在数据稀疏、句子表示过长且没有考虑词汇的语义信息的问题。

更重要的是，上述两种方法一般需要事先定义一些数据用户可能的关注点，而这会限制了查询功能。

发明内容

本发明的目的在于提供一种利用某种商品的客户购买评价进行聚类分析的方法，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

本发明是这样实现的：不事先固定数据用户的关注点，而是由数据用户自己提出想要查询的内容。将用户关心的要素(以词的形式提出)拓展成一个大的关键词集合，然后将评价中有关键词的句子都抽取出来并进行情感分类，最后基于不同的分类结果进行聚类，聚类的结果即买家对于商品在数据用户关注点上更细粒度的看法。

本发明提供一种针对商品评价进行聚类分析的方法，其特征在于，该方法包括如下步骤：

根据用户的关注点kw₀从评价语料中抽取语义最接近的l个词形成关键词集合KW；其中，l为大于1的自然数；

对商品的所有评价进行分句处理，得到商品评价集合S；

将S中含有关键词集合KW中元素的句子挑选出来组成集合S_k；

利用正向情感词词典和负向情感词词典将集合S_k分为包含正向情感的商品评价集合Pos_s和包含负向情感的商品评价集合Neg_s；

对所述集合Pos_s和所述集合Neg_s分别进行密度聚类处理，得到更细粒度的买家对商品的具体态度。

优选地，所述关键词集合KW可表示为：

KW＝f₁(kw₀)＝{kw₀,kw₁,kw₂...kw_l}，其中f₁(kw₀)表示取与关注点kw₀相似度最大的l个词；

所述相似度最大的l个词的获取方式为通过gensim获得与kw₀的词向量最接近的l个向量对应的词；其中词向量的训练采用skip-gram模型，训练的数据为对应商品的评价数据。

进一步地，所述的集合S_k可表示为：

S_k＝{s₀,s₁,s₂...s_m}，其中s_m表示集合S中第m个含有所述关键词集合KW中元素的句子，m表示所有商品评价中满足要求的句子个数。

进一步地，所述包含正向情感的商品评价集合Pos_s可表示为：

Pos_s＝{pos₀,pos₁,pos₂...pos_t}，其中pos_t表示含有正向情感的句子，t表示含有正向情感的句子数量；

所述包含负向情感的商品评价集合Neg_s可表示为：

Neg_s＝{neg₀,neg₁,neg₂...neg_T}，其中neg_T表示含有负向情感的句子，T表示含有负向情感的句子数量。

具体而言，所述密度聚类处理方法为：

对包括了Pos_s和Neg_s的集合S_k中的每个句子s_i进行分词处理，得到其中i∈[0,m]，表示句子s_i中的第n个分词，n表示分词的个数；

将s_i中每个词对应于skip-gram模型中训练好的词向量取出形成词向量序列表示第n个分词的词向量；

对于未登录词则产生维度相同的随机向量，并且商品评价集合中相同的未登录词只随机产生一次词向量；

为每一个词向量分配不同的权重，方式为：

如果属于关键词集合KW或情感词，则分配权重β；

如果既不属于关键词集合，也不属于情感词，则分配权重α；

其中

其中，j∈[0,n]，em_i表示商品评价的句子中含有的情感词，P为一个句子中情感词的具体个数，kwj_i表示商品评价的句子中含有的关键词，Q表示一个句子中关键词的具体个数，sim(·)表示计算两个词向量的相似度。

对句子s_i计算词向量加权和，具体方式为：

在获得句子中包含的词向量及词向量对应的权重后，句子s_i可以表示为词向量的加权和vec(s_i)，其中vec(s_i)可以表示为：

则，集合S_k被表示成对应的句向量集合S_{k_}vec，

即S_{k_}vec＝{vec(s₀),vec(s₁)...vec(s_n)}。

进一步地，属于S_k集合的Pos_s和Neg_s可以被表示成句向量集合Pos_{s_}vec和Neg_{s_}vec。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了完整的对商品评价进行聚类分析的流程图；

图2示出了具体的对商品评价句子进行密度聚类分析的流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

针对现有技术存在的问题，本发明提供了一种针对商品评价进行聚类分析的方法，该方法不事先固定数据用户的关注点，而是由数据用户自己提出想要查询的内容，将用户关心的要素拓展成一个大的关键词集合，然后将评价中有关键词的句子都抽取出来并进行情感分类，最后基于不同的分类结果进行聚类，聚类的结果即买家对于商品在数据用户关注点上更细粒度的看法，从而对浏览该商品评价的潜在购买客户形成一定意义上的购买倾向指导。

本发明的整体流程图如图1所示，对于数据用户提出的关注点kw₀，本发明不是直接使用或者简单添加同义词，而是将其在评价语料中语义最接近的特定个数的词抽取出来形成关键词集合，该特定个数可以依据相似度计算的结果确定；

KW＝f₁(kw₀)＝{kw₀,kw₁,kw₂...kw_l}

其中f₁(kw₀)表示取与关注点kw₀相似度最大的l个词。在此步骤中，本实验借助python中的工具gensim，获得与kw₀的词向量最接近的l个向量对应的词。词向量的训练采用的是skip-gram模型，训练的数据对应商品的评价数据。

商品的每一个评价都要分句，分句的结果组成商品评价的集合S。对于S中任意的句子，只要其分词结果含有关键词集合KW的元素，则将其挑选出来组成集合S_k。则S_k＝{s₀,s₁,s₂...s_m}，其中s_m表示集合S中第m个含有所述关键词集合KW中元素的句子，m表示所有商品评价中满足要求的句子个数

对于集合S_k，我们利用正向情感词词典和负向情感词词典进行分类，将集合S_k分为两个：包含正向情感的商品评价集合Pos_s＝{pos₀,pos₁,pos₂...pos_t}，其中pos_t表示含有正向情感的句子，t表示含有正向情感的句子数量；包含负向情感的商品评价集合Neg_s＝{neg₀,neg₁,neg₂...neg_T}，其中neg_T表示含有负向情感的句子，T表示含有负向情感的句子数量

基于情感词典的分类，可以将商品的评价分成两大类。为了更细粒度地展现卖家在某一关注点上的态度，本发明还对两类评价数据进行了聚类。

由于评价的类别事先不能确定有多少，所以本发明选取了密度聚类的方法，这样聚类的效果会好一些。因为使用SVM模型将句子向量化时会出现向量维度过长、数据稀疏、语义表示不恰当等缺点，本发明是将句子表示成所含词的词向量的加权和。

附图2示出了聚类操作示意图。

首先，对于集合S_k，其中包括了正向情感句子pos_i和负向情感句子neg_i，将其中的每一个词对应于skip-gram模型中训练好的词向量取出，形成词向量序列V_i；

对于未登录词则生成维度相同的随机向量，商品评价的集合中相同的未登录词只随机生成一次词向量。

此时，将包括了Pos_s和Neg_s的集合S_k中的每个句子s_i进行分词处理，得到其中i∈[0,m]，表示句子s_i中的第n个分词，n表示分词的个数；此处的s_i可以为正向情感句子或负向情感句子；

其次，为每一个词向量分配不同的权重，方式为：

如果属于关键词集合KW或情感词，则分配权重β；

其中

对句子s_i计算词向量的加权和，具体方式为：

则，集合S_k被表示成对应的句向量集合S_{k_}vec，

即S_{k_}vec＝{vec(s₀),vec(s₁)...vec(s_n)}。

更进一步地描述就是属于S_k集合的Pos_s和Neg_s可以被表示成句向量集合Pos_{s_}vec和Neg_{s_}vec，即是对正向或负向情感句子进行更细粒度上的整合，之后的结果即反映了商品的买家在数据用户关注点上对商品的具体态度。

由于本发明不再预先定义数据用户可能的关注点，而是由数据用户随意提出想要查询的关注点。在评价数据的向量化过程中，本发明没有采用常见的SVM模型而是利用了包含更多信息的词向量，且并没有对词向量直接求和而是在为其分配了不同的权重后求和。使得用户的查询不再受局限，更好地满足了用户的需求。

相对于传统方法，本发明在句子的向量化表示过程中使用句子的词向量的加权和表示句子，避免了句子向量维度过长、数据稀疏、语义表示不恰当等问题；相对于深度学习的方法，本发明不需要借助大规模的标记语料，也无需大量的训练时间。本发明更简单，适用性更强。

为了更加清楚明白地呈现本发明的目的、技术方案及优点，以下结合实施例进行详细说明。此处所描述的具体实施案例仅仅用以解释本发明，并不用于限定本发明。

下面将结合图1和图2说明本发明是如何使用的。

假设我们有一批京东网站上有关于“手机”的商品评价，数据用户想了解有关于手机“屏幕”的使用情况。

首先，本发明将京东网站上有关于“手机”的商品评价分句形成集合S，并用skip-gram模型将数据集合S训练出词向量。在获得词向量后，将数据用户的关注点kw₀＝“屏幕”拓展成一个关键词的集合KW：

KW＝f₁(屏幕)＝{屏幕,显示屏,频幕,屏目,平幕}

接着，对于S中任意的句子，只要其分词结果中含有关键词集合KW的元素则将其挑选出来组成集合S_k：

S_k＝{'屏幕真大',s₁,'屏幕太小了'...s_m}

然后，对于集合S_k，本发明利用正向情感词词典和负向情感词词典进行分类，将集合S_k分为两大类：Pos_k表示包含正向情感的商品评价，Neg_k表示包含负向情感的商品评价，

Pos_k＝{pos₀,pos₁,'屏幕真大'...pos_t}

Neg_k＝{neg₀,neg₁,'屏幕太小了'...neg_T}

最后，为了更细粒度地展现用户在某一关注点上的态度，本发明将对两类评价数据进行聚类。采用SVM表示的句子向量存在一些问题，因此本发明将句子表示成对应的词向量的加权和。

对于任意的句子s_i，包括pos_i(或neg_i)的词，将其对应于skip-gram模型中训练好的词向量取出形成词向量序列V_i；对于未登录词则生成维度相同的随机向量；商品评价的集合中相同的未登录词只随机生成一次词向量。

s_i＝pos_i＝{屏幕,真,大}

V_i＝{v(屏幕),v(真),v(大)}

评价中，每个词在聚类过程中的作用是不一样的，本发明为每一个词向量分配不同的权重。词语“屏幕”和“大”的权重为β，词语“真”的权重为α。

则，

最后，句子被表示成词向量的加权和：

vec(s_i)＝vec(pos_i)＝v(屏幕)*β+v(真)*α+v(大)*β。

商品评价集合S_k，包括Pos_s和Neg_s被表示成对应的句向量集合Pos_{s_}vec和Neg_{s_}vec。

聚类算法对Pos_{s_}vec和Neg_{s_}vec进行聚类，进行更细粒度上的整合，之后的结果就反映了商品的买家在数据用户关注点上对商品的具体态度。例如以上案例正向评价的聚类结果可能是：“手机屏幕很大”，“手机屏幕反应灵敏”，“手机屏幕用起来舒服”三个小类。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种针对商品评价进行聚类分析的方法，其特征在于，该方法包括如下步骤：

对商品的所有评价进行分句处理，得到商品评价集合S；

将S中含有关键词集合KW中元素的句子挑选出来组成集合S_k；

对所述集合Pos_s和所述集合Neg_s进行密度聚类处理，得到更细粒度的买家对商品的具体态度。

2.根据权利要求1所述的方法，其特征在于：所述关键词集合KW可表示为：

3.根据权利要求1-2中任一项所述的方法，其特征在于：所述的集合S_k可表示为：

4.根据权利要求1-3中任一项所述的方法，其特征在于：所述包含正向情感的商品评价集合Pos_s可表示为：

所述包含负向情感的商品评价集合Neg_s可表示为：

5.根据权利要求4中任一项所述的方法，其特征在于：所述密度聚类处理方法为：

为每一个词向量分配不同的权重；

对句子s_i计算词向量的加权和。

6.根据权利要求5所述的方法，其特征在于：所述为每一个词向量分配不同权重的方式为：

如果属于关键词集合KW或情感词，则分配权重β；

其中

其中，j∈[0,n]，em_i表示商品评价的句子中含有的情感词，P为一个句子中情感词的具体个数，kwj_i表示商品评价的句子中含有的关键词，Q表示一个句子中关键词的具体个数，sim(·)表示计算两个词向量相似度。

7.根据权利要求6所述的方法，其特征在于：在获得句子中包含的词向量及词向量对应的权重后，句子s_i可以表示为词向量的加权和vec(s_i)，其中vec(s_i)可以表示为：

则，集合S_k被表示成对应的句向量集合S_{k_}vec，

即S_{k_}vec＝{vec(s₀),vec(s₁)...vec(s_n)}。

8.根据权利要求7所述的方法，其特征在于：属于S_k集合的Pos_s和Neg_s可以被表示成句向量集合Pos_{s_}vec和Neg_{s_}vec。