CN105243129A

CN105243129A - 商品属性特征词聚类方法

Info

Publication number: CN105243129A
Application number: CN201510638459.9A
Authority: CN
Inventors: 杨余久; 袁威强
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2016-01-13
Anticipated expiration: 2035-09-30
Also published as: CN105243129B

Abstract

本发明涉及一种商品属性特征词聚类方法，包括如下步骤：所述方法包括，A1：从相关电商网站获取目标商品的评论文本，进行数据预处理；A2：选取含有商品属性特征词语的评论文本，对商品属性特征词进行人工标注，作为获取词性模板的训练样本；A3：根据A2中人工标注的数据进行词性模板训练；A4：利用A1中得到的数据训练语言模型，获得词语的向量表示；A5：利用A4中得到的词语向量，对A3中得到的商品属性特征词进行聚类，得到目标商品的最终属性特征词集合。本发明的方法可以于应用在基于商品评论文本的商品推荐系统，通过聚类可以减少商品属性特征词数目，从而降低特征维度以及特征稀疏性，使所设计的推荐系统具有更加快速和准确的性能。

Description

商品属性特征词聚类方法

技术领域

本发明涉及计算机数据处理和数据挖掘领域，尤其是一种商品属性特征词聚类方法。

背景技术

商品评论数据的挖掘属于计算机文本处理与挖掘领域，对于分析目标商品的特征、分析市场对目标商品的需求、获取用户的个性化偏好、对用户进行商品推荐等方面有着很直接的应用。用户对商品的评价文本蕴涵着丰富的信息，现在很多研究人员也开始着眼于利用评论文本来提升商品推荐系统的性能。用户评论文本中最重要的两个信息就是：用户所关注的商品属性，以及用户对于目标商品在自己所关注属性上的表现评价。因此对于商品属性特征词的获取与处理，是对商品评论数据进行挖掘和利用的关键步骤。

对于商品属性特征词的获取当前已经有很多方法，如基于语法规则扩展的词性模板匹配法、基于词语序列标注的隐马尔科夫以及条件随机场。这些方法可以初步获取评论文本中的商品属性特征词。

但是，在商品评论文本中我们会发现，同一种商品的同一种属性，会被具有不同教育程度、文化背景、风俗习惯的用户采取不同的表述方式。同一种属性的不同表达方式，一方面增加了商品属性特征的维度，同时也就是增加了数据特征的稀疏程度，增加了问题的求解复杂度；另一方面也不利于刻画商品的属性，从而不利于刻画用户对商品属性偏好和评价。

采用聚类方法，将实际表达商品同一属性的特征词聚类在一起，可以有效解决上面提出的问题。但是目前对于商品属性特征词聚类，还很少有人提出有效方法。

发明内容

本发明所要解决的技术问题是：弥补上述现有技术的不足，提出一种商品属性特征词聚类方法，以减少商品属性特征词数目，降低特征维度以及特征稀疏性，使所设计的推荐系统具有更加快速和准确的性能。

为此，本发明提出的商品属性特征词聚类方法包括如下步骤：。

优选地，本发明还包括如下特征：

本发明与现有技术对比的有益效果是：本发明提出了一种基于词语向量表示的商品属性特征词聚类方法，研究表明，将词语表示成较低维度的连续值向量的形式，通过大量的数据进行训练，可以得到具有很强表示能力的词语向量。这种词语向量具有很强的语义表示能力，语义上相近的词语，在映射后的向量空间中的距离也会很相近。本发明基于词语向量表示这一方法，进一步改进使得利用本发明可以得到自动匹配评论文本中商品属性特征词的词性模板，进而获取指定商品的属性特征词；可以通过训练语言模型得到低维度、具有丰富语义信息的词语向量；可以根据实际需要进行属性特征词的聚类，从而减少商品属性特征词数目，降低特征维度以及特征稀疏性，使所设计的推荐系统具有更加快速和准确的性能。

附图说明

图1是本发明具体实施方式中的商品属性特征词聚类方法的流程示意图。

具体实施方式

下面结合具体实施方式并对照附图对本发明做进一步详细说明。

如图1所示，为本具体实施方式中的商品属性特征词聚类方法的流程图。

本发明实施例针对商品评论文本，提出了一种基于词语向量表示的商品属性特征词聚类方法。首先确定需要研究和分析的目标商品，进行数据的准备：从相关电商网站获取目标商品的评论文本，进行数据预处理，主要包括词语切分、词性标注、词频统计、停用词过滤以及低频词语过滤；在获取的商品评论文本中选取若干含有商品属性特征词语的评论文本，对商品属性特征词进行人工标注，作为获取词性模板的训练数据。然后进一步的加工数据：根据人工标注的训练数据进行词性模板训练，得到可以自动匹配商品属性特征词语的词性模板，然后在全部数据上进行匹配，获取商品属性特征词语的候选集合，并设定规则对候选集合进行过滤；使用现有工具Word2Vec或者自己设定模型进行训练，获得词语的向量表示。最后使用候选集合中属性特征词的向量表示作为输入，进行商品属性特征词聚类，得到目标商品的最终属性特征词集合。使用词语的向量表示，可以使在语义上接近的词语，在向量空间上的分布也很接近，也就是描述同一个属性的特征词语可以分布在一起，这样聚类得到的类比较符合真实的特征词聚集情况。此外，词语的向量表示维度较低，在进行聚类时的计算复杂度很低。

本实施例提出的一种基于词语向量表示的商品属性特征词聚类方法包括如下步骤：

A1：从相关电商网站获取目标商品的评论文本，进行数据预处理，主要包括词语切分、词性标注、词频统计、停用词过滤以及低频词语过滤；

A2：选取含有商品属性特征词语的评论文本，对商品属性特征词进行人工标注，作为获取词性模板的训练样本；

A3：根据A2中人工标注的数据进行词性模板训练，得到可以自动匹配商品属性特征词语的词性模板，然后在全部数据上进行匹配，获取商品属性特征词语的候选集合，并对候选集合按照设定规则进行过滤；

A4：利用A1中得到的数据训练语言模型，获得词语的向量表示；

A5：利用A4中得到的词语向量，对A3中得到的商品属性特征词进行聚类，得到目标商品的最终属性特征词集合。

本实施例的最终重点环节是步骤A5，而步骤A1中文本的获取与预处理为A2中的属性特征词标注以及A4中词语向量的学习提供了数据准备和基础，A3中根据模板进行特征词的匹配和过滤以及A4中词语向量的学习是获取最终商品属性特征词的关键环节。

在具体的实施方案中，可按下面方式操作(在下面的操作表述中，我们将以对淘宝网站中某件服装商品的特征属性词的抽取与聚类为例，在每个操作步骤后，给出具体示例)：

A1：对于数据的获取，由于本步骤中预处理后的数据将用于A4步骤中的语言模型训练，而训练语言模型需要大量的数据，因此可以获取目标商品的评论文本越多越好，为了较好的效果，文本的大小大于10MB(也即将所有评论文本放在一个文件中，该文件大小大于10MB)为宜。对于数据准备阶段的数据预处理，主要包括词语切分、词性标注、词频统计、停用词过滤以及低频词语过滤等步骤。具体可以如下进行：a)词语切分与词性标注：对于中文文本，由于词语之间没有形式的分界，在进行相关问题处理时，需要首先对文本进行词语切分，也即找出词语之间的界限，将文本表示成词语序列；而词性标注则指，对于上述切分出来的每一个独立的词语，给予它们词性标签(主要的词性有名词、动词、形容词、副词、标点符号，其他具体可以参见http://blog.sina.com.cn/s/blog_4a95553b0100068w.html)。我们使用“结巴”中文分词工具(工具网站：http://www.oschina.net/p/jieba)进行词语切分和词性标注的举例，此外中科院的ICTCLAS系统(官方网站：http://ictclas.nlpir.org/)也是一款优秀的中文分词与词性标注工具，具体用法请参见其网站；b)词频统计可以很方便的进行，这里建议先对所得文本进行切分后的词语进行哈希编码，我们可以根据词语的Unicode值，利用哈希函数将词语重新编码，这样每次访问该词语时可以做到瞬时访问，然后就可以快速的进行词频统计；c)有很多词语几乎在所有评论文本中都会出现，比如“的”、“我”等词，这些词语对于文本处理来说没有信息价值，我们成之为停用词。停用词可以使用公开的一般性中文文本处理停用词表，也可以根据所涉及的问题自己设计停用词表；d)词频是词语频率的简称，其大小是词语在全部评论文本中出现的次数。低频词的过滤，一般是过滤掉词频低于3的词语，也可以将词频排序，将较低的后10％的词语过滤掉。本发明涵盖的范围不限于所列举的方法。

我们从淘宝某衣服商品的评论文本中选择以下几条作为示例：

1“面料非常好，款式很好看，很满意！”

2“衣服很合身，布料非常好，跟描述一样，物美价廉，愉快的一次购物”

3“和图片看到的一样，面料非常好，非常满意”

4“做工很细物有所值值得拥有”

所谓词性标注就是根据句子的上下文信息给句中的每个词确定一个最为合适的词性标记。比如，给定一个句子：“我非常喜爱北京！”。对其的标注结果可以是：“我/代词非常/副词喜爱/动词北京/名词！/标点”。使用“结巴”分词工具的python语言版本进行词语切分与词性标注的用法如下(str表示需要处理的文本字串)：

Importjieba.possegaspseg

word_list＝pseg.cut("str")

示例文本1的处理结果为(使用空格分隔各个词语，反斜线后是词性；这是第一次处理结果，对所有词进行泛泛标注，A2是对特征词再次精确标注)：

“面料/n非常/d好/a，/x款式/n很/zg好看/v，/x很/zg满意/v！/x”，其中，v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号、zg代表状态语素、x代表非语素字。这里标准集符号采用ICTPOS3.0标准词性标注集。

A2：特征词标注，具体指，对于含有商品属性特征词的评论文本进行特征词标注，比如我们选择如下标签集合{T，BT1，BT2，AT1，AT2}，分别表示特征属性词(T)、在特征属性词前面并且相邻(BT1)、在特征属性词前面并且隔一个词语(BT2)、在特征属性词后面并且相邻(AT1)、在特征属性词后面并且隔一个词语(AT2)，对属性词前后各2词语范围内的词语进行标注(也即给予相应位置的词语选用标签集合中的标签(标签就是对应单词给的词性标注)，对于特征属性词前后两个位置中不存在词语的情况，直接忽略。标注完成后，仅仅保留词性信息。标签集合的设定可以有其他形式，不限于上面的方式。本发明涵盖的范围不限于所列举的方法。

对于示例文本1，包含特征属性词的文本为：“面料非常好”、“款式很好看”。选用上述标签集合，标注后的结果分别是：“T/nAT1/dAt2/a”、“T/nAT1/zgAT2/v”，从而构成了特征词词性组合标注。

A3：a)词性模板训练，具体指，跟据A2中标注的数据学习可以自动匹配商品属性特征词的词性模板，这些模板仅含有词性信息，学习方法可以但不限于是，统计训练数据中所出现的各种词性组合的频率，选用高频(例如，出现5次以上，或者词性组合出现频率排序前5％的组合)出现的词性组合作为词性模板输出；并且学习标签T在各种词性上的概率分布(比如动名词49％等，其他各个词性同，各按某种分布出现)。b)使用学习到的词性模板在全部数据上进行匹配(一条一条逐一匹配)，获取商品属性特征词语的候选集合，具体指，首先根据被匹配文本的词性信息找到与词性模板相匹配的词语组合，再根据T在各个词性上的概率分布，从词语组合中选出特征属性词。对所有评论文本处理之后，就得到了商品属性特征词候选集，比如对衣服的评论中，我们可以得到特征词候选集合{面料、颜色、图案、手感、价格、款式、物流等等}；c)对候选集进行过滤，具体指，根据所处理问题设定一些过滤规则，可以但不限于是：特征词词频在一定阈值之上；人工寻找一些种子特征词，然后计算候选特征词与种子特征的点对互信息值(PointMutualInformation，PMI)，PMI值在一定阈值之上，PMI的计算公式一般采用

其中，PMI-IR表示利用搜索引擎结果计算得到PMI值，hits(x)表示搜索引擎检索词语x返回的结果数目。本发明涵盖的范围不限于所列举的方法。表示种子词语，表示特征词候选集中的词语。

对示例文本全部预处理以及特征词标注后，可以获得以下词性组合：

“面料非常好”{T/nAT1/dAT2/a}、“款式很好看”{T/nAT1/zgAT2/v}、“衣服很合身”{BT1/nBT2/zgT/v}、“面料非常好”{T/nAT1/dAT2/a}、

“面料非常好”{T/nAT1/dAT2/a}、“做工很细”{T/vAT1/zgAT2/a}

我们可以得到各种词性组合的频率：{nda}:3、{nzgv}:2、{vzga}:1，{其余组合}:0，以及T标签在各个词性上的概率分布：：{T/n4,T/v2}。

设定词性模板的频率不低于2，则得到两个词性模板：{nda}、{nzgv}。为了简便，我们仍使用示例中的文本作为被匹配文本，使用上述学习到的模板进行匹配，可以获得如下词语组合：{面料/n非常/d好/a}、{款式/n很/zg好看/v}、{衣服/n很/zg合身/v}、{布料/n非常/d好/a}、{面料/n非常/d好/a}。根据标签T在各个词性上的概率分布，取概率最大的词性对应的词语作为目标词语，我们可以分别得到上面各个词语组合中含有的商品属性词：{面料}、{款式}、{衣服}、{布料}、{面料}，(注意到导致了第三组“衣服很合身”的结果是错误的，说明这种算法有一定的误差，但是当训练数据很多的时候，这种误差会很小)。到此我们得到了商品属性候选特征词集合以及每个特征词的词频：{面料：2、款式：1、衣服：1、布料：1}。具体对候选集进行过滤的举例略。

A4：利用A1中得到的数据训练语言模型，获得词语的向量表示，具体指a)可以使用Word2Vec工具训练该工具内部包含的模型；b)所得到的词语向量表示，是一种较低维度的连续值向量，每个词语向量具有相同的维度，维度的大小K的取值通常在训练前人工指定，例发K取值以50维和100维比较常见。Word2Vec是由Google开发的开源词向量学习工具(工具网址：https://code.google.com/p/word2vec/)，该工具内部实现了两种语言模型：连续词袋模型(continuousbag-of-word,CBOW)以及连续skip-gram模型，CBOW是已知中心词的上下文来预测中心词的概率分布，skip-gram是已知中心词来预测上下文词语的概率分布，两种模型都以词语向量的onehot(即当前词是1，其他词是0)表示为输入，训练好模型之后，就获得了我们需要的词嵌入表示的词语向量。

对于Word2Vec的Linux版本，可以使用如下的Linuxshell终端命令进行词向量的训练：./word2vec–traintrain.txt–outputvectors.bin–cbow0–size200–window5–negative0–hs1–sample1e-3–threads12–binary1。其中，-train,-output指明输入以及输出文件的名字；-cbow表示选用的模型，1选用cbow，0选用skip-gram；-size表示词向量的维度，根据问题来确定，一般推荐200至500；-window指明上下文窗口的大小，一般推荐为5；-negative,-hs是训练算法中的优化方式，一般选用hs；-sample表示训练过程中的抽样概率阈值，可以默认为1e-3；-threads表示训练中启用的线程数目；-binary表示输出文件的存储格式，1表示二进制形式。

我们将获取的大量商品评论文本进行词语切分后，全部保存在train.txt文件中，指明相应的参数后，即可获取文本中所有词语的向量表示，比如“面料”一词可以表示成如下样子：[0.792,-0.177,-0.107,0.109,-0.542,...]，构成一个100维的向量。

A5：所述步骤A5中，利用A4中得到的词语向量，对A3中得到的商品属性特征词进行聚类，得到目标商品的最终属性特征词集合，具体指，a)将属性候选特征词的向量表示作为聚类算法的输入，使用常见的聚类方法如K-means将得到的商品属性特征词进行聚类，距离度量使用余弦距离或者欧式距离；b)或者使用层次聚类的方法，通过定义词语之间相似度，可以选择但不限于余弦相似度，将相似度高的特征词逐层聚类；c)聚类后的类标签可以根据特征词在全部文本中的频率来确定，选择该类簇中，词频最大的特征词作为类的标签。本发明涵盖的范围不限于所列举的方法。

经过A3步骤，我们获取了属性特征集合{面料：2、款式：1、衣服：1、布料：1}，经过A4步骤我们得到了文本中所有出现过的词语向量表示，通过前面所述的哈希方法，可以很快的索引到属性特征集合中词语的向量表示。下面为了说明聚类过程，我们取K为2，即将每个词语表示成二维向量，假定属性词汇可以表示成如下二维向量，即：{面料:[0.5,0.5]、款式:[0.8,0.1]、衣服:[0.2,0.9]、布料:[0.48,0.52]}(此为假设，仅为示意说明聚类过程)。使用K-means算法并采用欧式距离度量，设置聚类数目为3，可以得到如下三个了类簇：{面料、布料}、{款式}、{衣服}。由于在全部文本中“面料”的词频比“布料”大，{面料、布料}类簇的类标签为“面料”，到这时，我们便得到了最终的商品属性特征词集合：{面料、款式、衣服}。

词向量包含有大量语义特性，所得的属性特征词集能更好的反映用户的关注点，据此，我们对用户的评论信息进行分析计算可以得到更为客观的用户偏好，从而为用户画像和商品推荐做好数据准备。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下做出若干替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种商品属性特征词聚类方法，其特征是包括如下步骤：

A1：从相关电商网站获取目标商品的评论文本，进行数据预处理；

A2：选取含有商品属性特征词语的评论文本，接收输入端对商品属性特征词所进行的人工标注，作为获取词性模板的训练样本；

A3：根据所述步骤A2中人工标注的数据进行词性模板训练，得到可以自动匹配商品属性特征词语的词性模板，然后在全部数据上进行匹配，获取商品属性特征词语的候选集合，并对候选集合按照设定规则进行过滤；

A4：利用所述步骤A1中得到的数据训练语言模型，获得词语的向量表示；

A5：利用所述步骤A4中得到的词语向量，对所述步骤A3中得到的商品属性特征词进行聚类，得到目标商品的最终属性特征词集合。

2.如权利要求1所述的商品属性特征词聚类方法，其特征是所述步骤A1中，数据预处理包括词语切分、词性标注、词频统计、停用词过滤以及低频词语过滤。

3.如权利要求1所述的商品属性特征词聚类方法，其特征是，所述步骤A2中，特征词标注的方法是：挑选出含有商品属性特征词的评论文本并设计词语标签集合，然后给予文本中的特征词以及特征词前、后的n个词语标注标签，n为自然数；词语标签标注完成后，仅仅保留词语的词性信息。

4.如权利要求1所述的商品属性特征词聚类方法，其特征是，所述步骤A3中，词性模板训练的方法是：根据步骤A2中标注的数据学习自动匹配商品属性特征词的词性模板，统计训练数据中所出现的各种词性组合的频率，选用高频出现的词性组合作为词性模板输出。

5.如权利要求1所述的商品属性特征词聚类方法，其特征是，所述步骤A3中，对候选集合按照设定规则进行过滤的方法是：根据所处理问题设定一些过滤规则，所述规则是如下之一：词语长度在一定阈值范围内；或特征词词频在一定阈值之上；或人工寻找一些种子特征词，然后计算候选特征词与种子特征的点对互信息值PMI，PMI值在一定阈值之上。

6.如权利要求1所述的商品属性特征词聚类方法，其特征是，所述步骤A4中，利用A1中得到的数据训练语言模型，获得词语的向量表示的方法是：使用Word2Vec工具训练该工具内部包含的模型；其中所得到的词语向量表示，是一种较低维度的连续值向量，每个词语向量具有相同的维度，维度的大小作为超参数在训练前人工指定。

7.如权利要求1所述的商品属性特征词聚类方法，其特征是，所述步骤A5中，将属性候选特征词的向量表示作为聚类算法的输入，使用常见的聚类方法如K-means将得到的商品属性特征词进行聚类，距离度量使用余弦距离或者欧式距离。

8.如权利要求1所述的商品属性特征词聚类方法，其特征是，所述步骤A5中，使用层次聚类的方法，通过定义词语之间相似度，可以选择但不限于余弦相似度，将相似度高的特征词逐层聚类。

9.如权利要求1所述的商品属性特征词聚类方法，其特征是，所述步骤A5中，聚类后的类标签根据特征词在全部文本中的频率来确定，选择该类簇中，词频最大的特征词作为类的标签。

10.如权利要求3所述的商品属性特征词聚类方法，其特征是，所述n等于2。