CN107730346A

CN107730346A - 物品聚类的方法和装置

Info

Publication number: CN107730346A
Application number: CN201710872405.8A
Authority: CN
Inventors: 闫强; 申肆; 李爱华; 葛胜利
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2018-02-23

Abstract

本发明公开了一种物品聚类的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取语料数据，语料数据包括物品信息；根据语料数据确定不同主题与物品信息之间的关联关系；根据物品信息获取每个主题对应的物品，从而实现基于主题的物品聚类。该实施方式能够基于主题场景的方式匹配用户需求，为用户打造专一目的性的选择空间，可以很好地协助推荐系统提高推荐结果的转化率，同时提高了用户对网站的粘性，吸引了更多的流量和消费。

Description

物品聚类的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种物品聚类的方法和装置。

背景技术

在竞争日益激烈的网络服务平台的营销活动中，场景营销起着很重要的作用，不仅仅可以吸引流量，而且还可以极大地提高营销手段的转化率。

场景营销，是基于网民的上网行为始终处在输入场景、搜索场景和浏览场景这三大场景之一的一种新营销理念。浏览器和搜索引擎则广泛服务于资料搜集、信息获取和网络娱乐、网购等大部分网民网络行为。针对这三种场景，以充分尊重用户网络体验为先，围绕网民输入信息、搜索信息、获得信息的行为路径和上网场景，构建了以“兴趣引导+海量曝光+入口营销”为线索的网络营销新模式。用户在“感兴趣、需要和寻找时”，企业的营销推广信息才会出现，充分结合了用户的需求和目的，是一种充分满足推广企业“海量+精准”需求的营销方式。

目前，网络服务平台一般是通过推荐系统来进行营销活动。例如：电商平台通过推荐系统向用户推荐商品来吸引用户进行购物；网络信息提供商、搜索引擎服务提供商，通过推荐系统向用户推荐热点信息来吸引更多的访问流量；网上学习平台通过推荐系统向用户推荐感兴趣的图书来吸引更多的访问流量或提升书籍购买量，等等。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

推荐系统虽然有着很好的用户兴趣发掘能力，可以将集体智慧的价值发挥极致，但是推荐系统很难对某些临时性需求作出合理的处理，例如：当用户以闲逛为目的，购物或浏览目标不明确时，推荐系统将无法准确分析用户的需求；或者当用户的搜索指令的特性变化多样时，推荐系统将无法全面、系统地分析用户的需求，等等。此时，推荐系统将很难产生效益。

发明内容

有鉴于此，本发明实施例提供一种物品聚类的方法和装置，能够基于主题场景的方式匹配用户需求，为用户打造专一目的性的选择空间，可以很好地协助推荐系统提高推荐结果的转化率，同时提高了用户对网站的粘性，吸引了更多的流量和消费。

为实现上述目的，根据本发明实施例的一个方面，提供了一种物品聚类的方法。

一种物品聚类的方法，包括：获取语料数据，所述语料数据包括物品信息；根据所述语料数据确定不同主题与物品信息之间的关联关系；根据所述物品信息获取每个主题对应的物品，从而实现基于主题的物品聚类。

可选地，所述物品信息为商品产品词；并且，获取语料数据的步骤包括：使用商品标识作为主键，将订单信息和商品产品词信息进行数据关联，所述订单信息和商品产品词信息中均包括商品标识；对关联后的数据进行过滤；对过滤后的数据进行合并转置，以得到预定格式的语料数据。

可选地，根据所述语料数据确定不同主题与物品信息之间的关联关系的步骤包括：通过将所述语料数据输入文档主题生成模型进行运算，以得到不同主题与物品信息之间的关联关系。

可选地，所述文档主题生成模型被封装在计算引擎Spark内执行。

可选地，根据所述物品信息获取每个所述主题对应的物品的步骤之前，还包括：根据预定规则对所述主题进行预处理。

根据本发明实施例的另一方面，提供了一种物品聚类的装置。

一种物品聚类的装置，包括：数据获取模块，用于获取语料数据，所述语料数据包括物品信息；关联建立模块，用于根据所述语料数据确定不同主题与物品信息之间的关联关系；物品获取模块，用于根据所述物品信息获取每个主题对应的物品，从而实现基于主题的物品聚类。

可选地，所述物品信息为商品产品词；并且，所述数据获取模块还用于：使用商品标识作为主键，将订单信息和商品产品词信息进行数据关联，所述订单信息和商品产品词信息中均包括商品标识；对关联后的数据进行过滤；对过滤后的数据进行合并转置，以得到预定格式的语料数据。

可选地，所述关联建立模块还用于：通过将所述语料数据输入文档主题生成模型进行运算，以得到不同主题与物品信息之间的关联关系。

可选地，还包括预处理模块，用于：在根据所述物品信息获取每个所述主题对应的物品之前，根据预定规则对所述主题进行预处理。

根据本发明实施例的又一方面，提供了一种物品聚类的电子设备。

一种物品聚类的电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例所提供的物品聚类的方法。

根据本发明实施例的再一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例所提供的物品聚类的方法。

上述发明中的一个实施例具有如下优点或有益效果：根据获取的语料数据确定不同主题与物品信息之间的关联关系，并最终获取每个主题对应的商品来实现基于主题的物品聚类，可以解决无法对临时性需求进行合理推荐的问题，弥补了推荐系统的缺陷。通过一种基于主题场景的方式匹配用户需求，为用户打造专一目的性的选择空间，可以很好地协助推荐系统提高推荐结果的转化率，同时提高了用户对网站的粘性，吸引了更多的流量和消费。另外，不同的主题场景有着很高的物品属性和用户属性的聚焦，且又不缺失物品的多样性特征，因此，可以很好地适应场景营销的需求。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的物品聚类的方法的主要流程的示意图；

图2是根据本发明实施例的物品聚类的装置的主要模块的示意图；

图3是本发明实施例可以应用于其中的示例性系统架构图；

图4是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了解决现有技术中提出的问题，弥补推荐系统的缺陷，本发明提出了一种基于主题的物品聚类的方法，通过一种基于主题场景的方式匹配用户需求，为用户打造专一目的性的选择空间。不同的主题场景有着很高的物品属性和用户属性的聚焦，且又不缺失物品的多样性特征。

图1是根据本发明实施例的物品聚类的方法的主要流程的示意图。如图1所示，本发明实施例的物品聚类的方法主要包括如下的步骤S101至步骤S103。

步骤S101：获取语料数据，语料数据包括物品信息。

对于不同的网络服务平台，语料数据在选取时可以根据情况而定。例如：电商平台可选取商品的描述信息或产品词作为语料数据；网络信息提供商或搜索服务提供商可以选取用户的搜索信息作为语料数据，等等。只要语料数据中包括需要的物品信息即可。物品信息是物品特征描述数据，可以根据物品信息获取对应的物品。以电商平台为例，物品信息例如是商品产品词，商品产品词是定义一个商品实体的描述，是对商品名称最直观的反馈，是通过对商品描述进行文本切词后提取名词的结果。一般情况下，一个商品的描述信息中可能会有多个产品词，但必然有一个核心的产品词，这个核心的产品词即是商品产品词。根据商品产品词即可获取对应的商品。

一般地，语料数据是获取的历史一段时间内的数据。

步骤S102：根据语料数据确定不同主题与物品信息之间的关联关系。

传统的判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少来进行判断，但是这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，但两个文档是相似的。例如：这两个句子“乔布斯离我们而去了”和“苹果价格会不会降”，它们没有共同出现的单词，但这两个句子的语义是相似的，所以在判断文档相关性的时候需要考虑到文档的语义，而语义挖掘的利器是主题模型，文档主题生成模型LDA(Latent Dirichlet Allocation)就是其中一种比较有效的模型。

在文档主题生成模型LDA中，主题表示一个概念、一个方面，表现为一系列相关的单词，是这些单词的条件概率。形象来说，主题就是一个桶，里面装了出现概率较高的单词，这些单词与这个主题有很强的相关性。

在本发明的实施例中，通过将语料数据输入文档主题生成模型进行运算，以得到不同主题与物品信息之间的关联关系。其中，文档主题生成模型被封装在计算引擎Spark内执行。Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写Hadoop分布式文件系统HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。因此，本发明的实施例中得到的不同主题与物品信息之间的关联关系即是：每个主题与该主题中包括的多个物品信息以及每个物品信息的概率得分的对应关系。

步骤S103：根据物品信息获取每个主题对应的物品，从而实现基于主题的物品聚类。

物品信息即表示了相应的物品，根据物品信息即可获取对应的物品标识，从而将物品基于主题进行了聚类。例如：物品信息为“凉鞋”，那么，获取的对应的物品标识可能有很多个，包括不同品牌、不同型号等的凉鞋对应的商品唯一标识等等。

另外，在执行步骤S103之前，还可以包括：根据预定规则对主题进行预处理。

在步骤S102确定了主题与物品信息之间的关联关系后，执行步骤S103之前，还可以根据不同主题对应的物品信息对主题进行预处理，以删除效果不好的主题。为了满足场景营销的需求，每个主题对应的物品需具有多样性和凝聚性。其中，多样性指的是：不简单的只是网站中的某一类物品，可能是几类物品的融合；凝聚性指的是：该主题对应的物品具有一定的共性。例如：当用户在电商平台搜索“凉鞋”时，根据该商品对应的主题，即可获取推荐的主题商品，例如包括凉鞋、凉拖、休闲鞋等等商品。这些主题商品是几类商品的融合，且具有一定的共性。

另外，在根据物品信息获取每个主题对应的物品时，还可以包括对物品进行选择、排序等处理。

根据前面介绍的步骤S101至步骤S103，即可实现基于主题的物品聚类，从而可以提高物品推荐的转化率，提高用户对网站的粘性，增加网站的访问流量。

下面以电商平台对商品基于主题进行聚类为例介绍本发明的实施过程。

实施过程大致包括：首先，从收集的用户在历史一段时间内的购买商品数据中提取商品产品词作为训练文本语料数据；然后，通过文档主题生成模型LDA算法对语料数据进行主题聚类；最后，使用每个主题下的商品产品词关联商品，以获取最终的主题商品。

首先，从收集的用户的购买商品数据中，提取训练文本语料数据。商品产品词是定义一个商品实体的描述，是对商品名称最直观的反馈，是通过对商品描述进行文本切词后提取名词的结果。切词(又称分词，Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词，推荐搜索的产品切词，重心提取语句中的名词，标识产品含义的词。产品词是推荐和搜索系统的顶梁柱，直接影响推荐或者搜索效果。一般情况下，一个商品的描述信息中会有多个产品词，但必然有一个核心的产品词，可以事先对商品描述进行处理，以得到可用的商品产品词，并保存在商品产品词信息表中。

此步骤在具体实现时，主要过程可以包括如下的几个步骤：

步骤S1：数据加工。使用商品标识作为主键，将订单信息和商品产品词信息进行数据关联，订单信息和商品产品词信息中均包括商品标识。订单信息和商品产品词信息一般保存在数据库中，以数据表的形式存在。本步骤通过加工用户历史购买过的订单信息和商品产品词信息来实现数据关联。

订单信息的存储一般是流水式存储，商品产品词信息的存储类似于一张二维表。订单信息的数据字典例如表1所示，商品产品词信息的数据字典例如表2所示。其中，数据字典(Data dictionary)是一种用户可以访问的记录数据库和应用程序元数据的目录，是描述数据的信息集合，是对系统中使用的所有数据元素的定义的集合。

表1

字段名称	类型	特殊格式	备注
				订单编号	STRING
用户id	STRING
				商品id	STRING
数量	BIGINT
				金额	DOUBLE
购买日期	STRING	YYYY-MM-DD
				订单状态	STRING
其他			一个泛称，泛指更多的属性

表2

字段名称	类型	特殊格式	备注
				商品ID	STRING
核心产品词ID	BIGINT
				核心产品词	STRING
产品词列表	ARRAY
				商品一级分类	STRING	电商标准商品分类，
商品二级分类	STRING		购购物物网站的的二级导航航
				商品三级分类	STRING	购物网站的三级导航
其他			一个泛称，泛指更多

基于表1和表2所示的数据字典中的数据格式描述，可以通过SQL语言将数据库中的数据进行关联，详细的逻辑代码如下，且该步骤的执行结果标注为RESULT，以便后续进行进一步处理时使用：

SELECT用户ID,核心产品词ID AS产品词ID,SUM(订单数量)as qtty

FROM(SELECT*FROM订单表where订单日期between date1 and date2)src

INNER JOIN商品产品词

ON SRC.商品ID＝商品产品词.商品ID。

其中，“qtty”指的是商品数量；上述代码中的date1和date2是获取的历史订单的开始时间和结束时间，我们可以按照特定的业务要求进行取值，但通常情况下取最近两个月的订单即可，即date1＝当前日期-60天，date2＝当前日期。

步骤S2：数据过滤。为了提高后续算法的运行效率，以及减少干扰数据对算法结果的影响，需要对步骤S1中得到的结果数据RESULT进行进一步的处理，以便更好的产出算法结果，将噪音降到最低。

基于步骤S1的结果数据RESULT，我们要对数据进行过滤处理，主要删除如下两方面的数据：

1、删除近期购买频次过少的用户数据，通常可以删除近期只有一次购买记录的用户数据，以避免购买量较少的用户数据造成的主题不明确的噪音数据。近期是一个业务时间，可以选取2周或者一个月等，也可以选取最近两个月，或根据数据的分布情况进行经验调整；

2、删除近期购买频次过多的用户，以杜绝刷单等异常行为数据造成的影响。例如：可以设定一个经验阈值10，历史购买超过10单以上的用户数据进行删除。这里的近期可以与前面的近期一样，也可以另外设定时间区间长度，同样可以根据数据的分布情况进行经验调整。

数据过滤完成后，剩下的数据即是满足要求的需要进一步运算的数据。

步骤S3：数据合并转置。对过滤后的数据进行合并转置，以得到预定格式的语料数据。数据转置是指将多行数据合并为一行数据，是按照主键数据的一种聚合。为了更好地承接LDA算法，可以通过对数据进行合并、转置等处理以将数据转换成算法标准数据格式。下面具体介绍对数据进行合并转置的过程。合并转置前的数据例如表3所示。

表3

用户ID	产品词
		1	1
1	3
		1	5
1	6
		1	12

对如表3所示的数据进行合并转置后，得到的数据如表4。

表4

用户ID	产品词list
		1	1,3,5,6,12

其中，用户ID(identification的缩写，身份标识)为用户的唯一标识，即表1中的用户ID信息；产品词list为某一用户购买的所有商品的产品词ID向量。根据如上所示的对数据进行合并转置的方法，还可以对每个产品词出现的词频以及时间等数据进行同样的处理。进行合并转置后的数据例如是表5中所示的内容。

表5

用户ID	产品词list	词频list	数据日期
				1	1,3,5,6,12	1,2,2,1,9	2017-01-01
2	1,2,5,6,7	1,2,2,1,9	2017-01-01

其中，产品词list为某一用户购买的所有产品词ID向量，词频list是该用户的产品词list对应的购买次数，数据日期为收集数据的日期。数据通过逗号分隔，产品词list和词频list的位数是对应的，即产品词list逗号隔开的位置和词频list逗号隔开的对应位置的数据是对应的，词频list标识了产品词ID对应的词频。

这里数据加工的逻辑例如可以采用如下的代码来实现：

SELECT用户id，concat_ws(产品词)，concat_ws(qtty)

FROM RESULT

GROUP BY用户ID。

其中，“RESULT”指的是步骤S1的结果，“qtty”指的是商品数量，亦即产品词的词频。

根据如上的过程，即可完成语料数据的准备。

然后，通过文档主题生成模型LDA算法对语料数据进行主题聚类。在本发明的实施例中，通过将LDA算法封装在Spark平台来进行数据聚类。一种具体实现过程的核心步骤可以如下：

1、Spark平台数据配置：通过建立服务配置、设置服务名称、设置服务超时时长、建立Spark对象等等内容，来完成Spark平台的数据配置。具体的实现代码例如：

import org.apache.spark.{SparkConf,SparkContext}

val conf＝new SparkConf()

.setAppName("lda")

.set("spark.akka.timeout","2000")

.set("spark.shuffle.consolidateFiles","true")

.set("spark.driver.maxResultSize","0")

val sc＝new SparkContext(conf)。

2、数据处理逻辑：通过将语料数据输入LDA模型，并对语料数据的数据格式进行映射处理、数据切片重新分区等操作，来完成数据处理。具体的实现代码例如：

其中，上述代码中的“data”为前面得到的训练文本语料数据。

3、算法封装以及结果产出：通过新建一个LDA模型并执行该LDA模型来进行语料数据的聚类分析。具体的实现代码例如：

通过运行上述代码，即可实现基于主题对数据进行聚类处理。聚类处理后的结果(记作：RST1)例如是：

Topic1：

礼券0.10024414388522623

藤席0.028800850003919076

凉席0.02853957830748195

凉垫0.022385178346963006

Topic2：

秋衣0.21657220601756053

秋裤0.19684574951861003

军靴0.061090060195430694

登山靴0.03457334103226861

其中，“Topic1”和“Topic2”即为语料数据经过LDA模型运算后得到的主题；每个主题下的数据即为该主题包括的商品产品词及该主题选择每个商品产品词对应的概率。

在得到如上的聚类结果后，还可以对主题数据进行预处理，以删除效果不好的主题，满足场景营销的特点，即：

多样性：不简单的只是购物网站中的某一类商品，可能是几类商品的融合；

凝聚性：该场景下面的商品具有一定的共性。

根据场景营销的多样性和凝聚性特点，可以分析得到以下对主题的要求：

1、主题下面的商品产品词的三级品类去重数量最少为2；

2、主题下面的所有产品词的一级品类为同一个。

在具体实现对主题数据的预处理时，本发明的实施例主要包括如下步骤：

1、对聚类得到的数据RST1进行格式变化，得到如表6所示的数据RST2。

表6

主题	商品产品词	商品产品词得分
			Topic1	礼券	0.10024414388522623
Topic1	藤席	0.028800850003919076
			Topic1	凉席	0.02853957830748195
Topic1	凉垫	0.022385178346963006
			Topic2	秋衣	0.21657220601756053
Topic2	秋裤	0.19684574951861003
			Topic2	军靴	0.061090060195430694
Topic2	登山靴	0.03457334103226861

2、以商品产品词为主键，将如表6所示的RST2同商品产品词表进行关联，实现的逻辑代码例如：

SELECT一级分类，三级分类，产品词，主题，产品词得分

FROM RST2

INNER JOIN商品产品词

ON产品词＝产品词。

3、统计每个主题的一级分类数量，三级分类数量。

4、删除其中一级分类数量不等于1和三级分类小于2的主题。其中，删除一级分类数量不等于1的主题数据，可以保证数据的凝聚性；同时，删除三级分类小于2的主题数据，可以保证数据的多样性。

根据以上介绍的过程，即可对聚类后的数据进行预处理。

最后，使用每个主题下的商品产品词关联商品，以获取最终的主题商品。根据商品产品词即可关联到对应的不同厂家、不同品牌、不同型号等的对应商品。然而，一般情况下关联到的商品会有很多，但是并不是每个商品都可以推荐给用户，通常会选择用户购买可能性大的商品进行推荐，因此，在根据商品产品词关联商品时，一般还需要对关联到的商品进行筛选。对于商品的筛选，一般依赖的因素有如下：

1、商品历史销售数量：该因素反应商品的畅销情况，历史数据通常是一段时间内的数据，可以设置一个月以内的订单，时间段可根据业务的情况而定；

2、商品历史销售金额：该因素反应商品销售带来的一定时间段内的成交总额GMV(Gross Merchandise Volume)情况；

3、商品的好评率和差评率：该因素反应商品的消费者评价情况；

4、商品的总评论数量：该因素主要是协助好评率和差评率来确定商品的总体评价情况，对部分商品来说，虽然好评率很高，但是总评价数量却很少，这种商品的评价体系可信度不高。

根据以上的几种因素，对商品进行筛选时的核心逻辑例如：

1、按照上述因素，在每个商品产品词下对商品进行排名

SELECT*

ROW_NUMBER(PARTITON BY产品词ID ORDER BY销售数量DESC,销售金额DESC,好评率DESC,差评率ASC)排名

FROM(

SELECT核心产品词ID,商品ID,SUM(销售数量)销售数量，SUM(销售金额)销售金额

FROM订单表_一个月

INNER JOIN商品产品词

ON商品ID＝商品id

GROUP BY核心产品词ID,商品ID)src

INNER JOIN(SELECT商品ID,商品好评率，商品差评率FROM商品评论信息where商品评论数>＝1000)src2

On商品ID＝商品id；

2、按照排名情况，取每个商品产品词对应的前n名商品作为最终的筛选结果。n是按照主题筛选商品的商品数量条件，n越大，该主题选择的商品数就越多。

如此，即可使用每个主题下的商品产品词关联商品，以获取最终的主题商品。

根据以上所介绍的本发明的实施例的实施过程，即可实现电商平台根据不同的主题对商品进行聚类，不同的主题场景有着很高的物品属性和用户属性的聚焦，且又不缺失物品的多样性特征。通过一种基于主题场景的方式匹配用户需求，为用户打造专一目的性的选择空间，可以很好地协助推荐系统提高推荐结果的转化率，同时提高了用户对网站的粘性，吸引了更多的流量和消费。

图2是根据本发明实施例的物品聚类的装置的主要模块的示意图。如图2所示，本发明的物品聚类的装置200主要包括数据获取模块201、关联建立模块202和物品获取模块203。

数据获取模块201用于获取语料数据，所述语料数据包括物品信息；

关联建立模块202用于根据语料数据确定不同主题与物品信息之间的关联关系；

物品获取模块203用于根据物品信息获取每个主题对应的物品，从而实现基于主题的物品聚类。

根据本发明的一个实施例，物品信息为商品产品词，并且，数据获取模块201还可以用于：

使用商品标识作为主键，将订单信息和商品产品词信息进行数据关联，订单信息和商品产品词信息中均包括商品标识；

对关联后的数据进行过滤；

对过滤后的数据进行合并转置，以得到预定格式的语料数据。

其中，关联建立模块202还可以用于：

通过将语料数据输入文档主题生成模型进行运算，以得到不同主题与物品信息之间的关联关系。

其中，文档主题生成模型被封装在计算引擎Spark内执行。

另外，本发明的物品聚类的装置200还可以包括预处理模块(图中未示出)，用于：

在根据物品信息获取每个主题对应的物品之前，根据预定规则对主题进行预处理。

根据本发明实施例的技术方案，根据获取的语料数据确定不同主题与物品信息之间的关联关系，并最终获取每个主题对应的商品来实现基于主题的物品聚类，可以解决无法对临时性需求进行合理推荐的问题，弥补了推荐系统的缺陷。通过一种基于主题场景的方式匹配用户需求，为用户打造专一目的性的选择空间，可以很好地协助推荐系统提高推荐结果的转化率，同时提高了用户对网站的粘性，吸引了更多的流量和消费。另外，不同的主题场景有着很高的物品属性和用户属性的聚焦，且又不缺失物品的多样性特征，因此，可以很好地适应场景营销的需求。

图3示出了可以应用本发明实施例的物品聚类的方法或物品聚类的装置的示例性系统架构300。

如图3所示，系统架构300可以包括终端设备301、302、303，网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备301、302、303通过网络304与服务器305交互，以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器305可以是提供各种服务的服务器，例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的物品聚类的方法一般由服务器305执行，相应地，物品聚类的装置一般设置于服务器305中。

应该理解，图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图4，其示出了适于用来实现本发明实施例的电子设备的计算机系统400的结构示意图。图4示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括数据获取模块、关联建立模块和物品获取模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，数据获取模块还可以被描述为“用于获取语料数据，所述语料数据包括物品信息的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取语料数据，所述语料数据包括物品信息；根据所述语料数据确定不同主题与物品信息之间的关联关系；根据所述物品信息获取每个主题对应的物品，从而实现基于主题的物品聚类。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种物品聚类的方法，其特征在于，包括：

获取语料数据，所述语料数据包括物品信息；

根据所述语料数据确定不同主题与物品信息之间的关联关系；

根据所述物品信息获取每个主题对应的物品，从而实现基于主题的物品聚类。

2.根据权利要求1所述的方法，其特征在于，

所述物品信息为商品产品词；

并且，获取语料数据的步骤包括：

使用商品标识作为主键，将订单信息和商品产品词信息进行数据关联，所述订单信息和商品产品词信息中均包括商品标识；

对关联后的数据进行过滤；

3.根据权利要求1所述的方法，其特征在于，根据所述语料数据确定不同主题与物品信息之间的关联关系的步骤包括：

通过将所述语料数据输入文档主题生成模型进行运算，以得到不同主题与物品信息之间的关联关系。

4.根据权利要求3所述的方法，其特征在于，所述文档主题生成模型被封装在计算引擎Spark内执行。

5.根据权利要求1所述的方法，其特征在于，根据所述物品信息获取每个所述主题对应的物品的步骤之前，还包括：

根据预定规则对所述主题进行预处理。

6.一种物品聚类的装置，其特征在于，包括：

数据获取模块，用于获取语料数据，所述语料数据包括物品信息；

关联建立模块，用于根据所述语料数据确定不同主题与物品信息之间的关联关系；

物品获取模块，用于根据所述物品信息获取每个主题对应的物品，从而实现基于主题的物品聚类。

7.根据权利要求6所述的装置，其特征在于，

所述物品信息为商品产品词；

并且，所述数据获取模块还用于：

对关联后的数据进行过滤；

8.一种物品聚类的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。