CN111159578A

CN111159578A - 一种推荐对象的方法和系统

Info

Publication number: CN111159578A
Application number: CN201911421030.9A
Authority: CN
Inventors: 刘正夫
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15
Anticipated expiration: 2039-12-31
Also published as: CN111159578B

Abstract

提供了一种推荐对象的方法和系统，所述方法包括：获取对象数据集和用户行为数据集，其中，对象数据集包括每个对象与在该对象上产生行为的用户的序列信息，用户行为数据集包括每个用户与该用户在其上产生行为的对象序列信息；基于用户行为数据集将全部用户划分为活跃用户和非活跃用户，基于对象数据集将全部对象划分为活跃对象和非活跃对象；对活跃对象和非活跃对象进行聚类以形成多个对象类别；对活跃用户和非活跃用户进行聚类以形成多个用户类别；对于每个目标用户，根据目标用户的行为数据、多个对象类别和目标用户所属的用户类别采用协同过滤方法执行召回以构建目标用户的候选集；以及对候选集进行排序，基于排序结果向所述目标用户进行推荐。

Description

一种推荐对象的方法和系统

技术领域

本发明涉及数据挖掘领域，提供了一种推荐对象的方法和系统。

背景技术

在大数据时代，每天都会产生大量的数据。例如，这些数据包含了不同用户的特征、不同对象(例如，商品、服务、虚拟商品等)的特征以及用户与对象之间的关联信息(例如，购买/点击/搜索/收藏)和/或序列信息(例如，按时间排列的购买/点击/搜索/收藏的顺序)。用合适的方法对大量的数据进行分析，构建推荐系统，从而为不同的用户推荐不同的商品，进而更好的服务用户。

目前的推荐系统分为“召回”和“排序”两个模块。“召回”指的是：为了减少“排序”步骤的计算量，从大量对象(例如，数量级为千万级别的商品)中选出一部分对象(例如，数量级为百级别的商品)。“排序”则是按照用户与对象的匹配程度进行打分，然后再按照分数来排序，将分数高的对象推荐给对应的用户。

召回模块通常采用“协同过滤”方法，将类似的对象推荐给相似的用户。因此“协同过滤”需要计算不同用户之间、不同对象之间的距离。这就需要将用户和对象用向量表示，对象转向量(item2vec)算法和用户转向量(user2vec)算法是一种基于单词转向量(word2vec)的算法，可以将对象/用户转换为稠密的向量。然而，在实际应用中，只有少量对象/用户属于活跃对象/用户，存在有效的行为数据并满足建模要求。有大量对象/用户并没有足够的行为数据来建模，传统的item2vec算法和user2vec算法只适合对头部活跃的对象/用户建模，而对于长尾对象/用户并不能取得较好的效果。

此外，由于item2vec算法和user2vec算法得到的向量并不能覆盖到所有的对象和用户，不能做泛化推理，所以传统的item2vec算法和user2vec算法将对象和用户转换为向量之后，通常仅应用于“召回”模块，而无法应用于“排序”模块。

发明内容

本发明的目的在于提供一种推荐对象的方法和系统。更具体地，提供了一种基于对象转向量(item2vec)模型和用户转向量(user2vec)模型的推荐系统，以便可以更加充分的利用用户的行为信息。

本发明提供了一种推荐对象的方法，所述方法包括：获取对象数据集和用户行为数据集，其中，所述对象数据集包括每个对象与在该对象上产生行为的用户的序列信息，所述用户行为数据集包括每个用户与该用户在其上产生行为的对象的序列信息；基于所述用户行为数据集将全部用户划分为活跃用户和非活跃用户，基于所述对象数据集将全部对象划分为活跃对象和非活跃对象；对活跃对象进行聚类并且对非活跃对象进行聚类以形成多个对象类别；对活跃用户进行聚类并且对非活跃用户进行聚类以形成多个用户类别；对于每个目标用户，根据所述目标用户的行为数据、所述多个对象类别和所述目标用户所属的用户类别采用协同过滤方法执行召回以构建所述目标用户的候选集；以及对所述候选集进行排序，基于排序结果向所述目标用户进行推荐。

在根据发明构思的示例性实施例中，所述对活跃对象进行聚类的步骤包括：选用连续词袋模型方法基于所述活跃用户的用户行为数据集构建对象训练样本；基于所述对象训练样本训练对象转向量模型以得到对象向量；以及基于所述活跃对象的对象向量对所述活跃对象进行聚类。

在根据发明构思的示例性实施例中，所述对非活跃对象进行聚类的步骤包括：基于所述非活跃对象的基础特征对所述非活跃对象进行聚类。

在根据发明构思的示例性实施例中，所述对活跃用户进行聚类的步骤包括：选用连续词袋模型方法基于所述活跃对象的对象数据集构建用户训练样本；基于所述用户训练样本训练用户转向量模型以得到用户向量；以及基于所述活跃用户的用户向量对所述活跃用户进行聚类。

在根据发明构思的示例性实施例中，所述对非活跃用户进行聚类的步骤包括：基于所述非活跃用户的基础特征对所述非活跃用户进行聚类。

在根据发明构思的示例性实施例中，所述聚类的方式采用K平均算法来实现。

在根据发明构思的示例性实施例中，所述对所述候选集进行排序的步骤包括：采用机器学习算法进行排序，其中，所述活跃用户与所述活跃对象之间的匹配程度采用第一模型来计算；所述活跃用户与所述非活跃对象之间的匹配程度采用第二模型来计算；所述非活跃用户与所述活跃对象之间的匹配程度采用第三模型来计算；所述非活跃用户与所述非活跃对象之间的匹配程度采用第四模型来计算。

在根据发明构思的示例性实施例中，所述第一模型、所述第二模型、所述第三模型和所述第四模型为梯度回归决策树模型。

在根据发明构思的示例性实施例中，基于全部用户的基础特征、所述活跃用户的用户向量、全部对象的基础特征以及所述活跃对象的对象向量来训练第一模型。

在根据发明构思的示例性实施例中，基于全部用户的基础特征、所述活跃用户的用户向量以及全部对象的基础特征来训练第二模型。

在根据发明构思的示例性实施例中，基于全部用户的基础特征、全部对象的基础特征以及所述活跃对象的对象向量来训练第三模型。

在根据发明构思的示例性实施例中，基于全部用户的基础特征和所述活跃对象的对象向量来训练第四模型。

本发明的另一方面提供了一种推荐对象的系统，所述系统包括：数据获取单元，获取对象数据集和用户行为数据集，其中，所述对象数据集包括每个对象与在该对象上产生行为的用户的序列信息，所述用户行为数据集包括每个用户与该用户在其上产生行为的对象的序列信息；划分单元，基于所述用户行为数据集将全部用户划分为活跃用户和非活跃用户，基于所述对象数据集将全部对象划分为活跃对象和非活跃对象；对象分类单元，对活跃对象进行聚类并且对非活跃对象进行聚类以形成多个对象类别；用户分类单元，对活跃用户进行聚类并且对非活跃用户进行聚类以形成多个用户类别；候选集生成单元，对于每个目标用户，根据所述目标用户的行为数据、所述多个对象类别和所述目标用户所属的用户类别采用协同过滤方法执行召回以构建所述目标用户的候选集；以及推荐单元，对所述候选集进行排序，基于排序结果向所述目标用户进行推荐。

在根据发明构思的示例性实施例中，所述对象分类单元在对活跃对象进行聚类时执行的步骤包括：选用连续词袋模型方法基于所述活跃用户的用户行为数据集构建对象训练样本；基于所述对象训练样本训练对象转向量模型以得到对象向量；以及基于所述活跃对象的对象向量对所述活跃对象进行聚类。

在根据发明构思的示例性实施例中，所述对象分类单元在对非活跃对象进行聚类时基于所述非活跃对象的基础特征对所述非活跃对象进行聚类。

在根据发明构思的示例性实施例中，所述用户分类单元在对活跃用户进行聚类时执行的步骤包括：选用连续词袋模型方法基于所述活跃对象的对象数据集构建用户训练样本；基于所述用户训练样本训练用户转向量模型以得到用户向量；以及基于所述活跃用户的用户向量对所述活跃用户进行聚类。

在根据发明构思的示例性实施例中，所述用户分类单元在对非活跃用户进行聚类时基于所述非活跃用户的基础特征对所述非活跃用户进行聚类。

在根据发明构思的示例性实施例中，所述推荐单元对所述候选集进行排序时执行的步骤包括：采用机器学习算法进行排序，其中，所述活跃用户与所述活跃对象之间的匹配程度采用第一模型来计算；所述活跃用户与所述非活跃对象之间的匹配程度采用第二模型来计算；所述非活跃用户与所述活跃对象之间的匹配程度采用第三模型来计算；以及所述非活跃用户与所述非活跃对象之间的匹配程度采用第四模型来计算。

本发明的另一方面提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的推荐对象方法。

本发明的另一方面提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的推荐对象方法。

根据本发明的一个或多个方面，推荐对象的方法和系统将全部用户划分为活跃用户和非活跃用户并将全部对象划分为活跃对象和非活跃对象，并且利用item2vec算法和/或user2vec算法将对象和用户转换为稠密向量，因仅采用活跃对象和活跃用户的序列信息生成对象向量和用户向量，使得item2vec算法和user2vec算法可以取得更好的效果。另一方面，因对象向量/用户向量中包含了序列信息(例如，行为时序信息)，所以可使在进行协同过滤时“召回”的结果更加准确。

根据本发明的一个或多个方面，推荐对象的方法和系统对活跃用户、非活跃用户分别制定了排序模块，使得数据丰富的活跃用户能考虑更多的数据信息，而对非活跃用户，推荐对象的方法和系统也可根据其基础特征为其推荐合适的对象，从而提供更加精准的推荐对象。

附图说明

从下面结合附图对本公开实施例的详细描述中，本公开的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出根据本公开的示例性实施例的推荐对象的方法的流程图；

图2是根据实施例示出图1中的对活跃对象进行聚类并且对非活跃对象进行聚类以形成多个对象类别的流程图；

图3是根据实施例示出图1中的对活跃用户进行聚类并且对非活跃用户进行聚类以形成多个用户类别的流程图；

图4是示出根据本公开的示例性实施例的推荐对象的系统的框图；以及

图5是示出应用根据本公开的示例性实施例的利用图4中的系统进行推荐的环境的示意图。

具体实施方式

下面参照附图详细描述本发明的实施例。所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

图1是示出根据本公开的示例性实施例的推荐对象的方法的流程图；图2是根据实施例示出图1中的对活跃对象进行聚类并且对非活跃对象进行聚类以形成多个对象类别的流程图；图3是根据实施例示出图1中的对活跃用户进行聚类并且对非活跃用户进行聚类以形成多个用户类别的流程图。

参照图1，在步骤S10中，获取用户行为数据集和对象数据集。

在实施例中，所述用户行为数据集包括每个用户与该用户在其上产生行为的对象的序列信息。所述对象数据集包括每个对象与在该对象上产生行为的用户的序列信息，例如，序列信息可以是各个用户在多个对象中的一个对象上产生点击/购买/浏览/搜索行为的时序信息。为了便于理解，下面将举例以进行更详细地说明。例如，表1示出了用户行为数据集，表2示出了对象数据集。其中，u1至u8表示用户，p1至p9表示对象。

表1用户行为数据集

用户	点击对象的序列信息
		u1	p1,p3,p4,p7,p9,p5,p2,p6,p8
u2	p9,p1,p5,p3,p7,p4,p6
		u3	p1,p4
u4	p1,p5
		u5	p1,p7
u6	-
		u7	p6,p5,p1,p8,p9,p2
u8	p2,p4,p9,p7,p8,p3

表2对象数据集

对象	产生点击的用户的序列信息
		p1	u1,u2,u3,u4,u5,u7,u8
p2	u1,u7,u8
		p3	u1,u2,u8
p4	u1,u2,u3,u8
		p5	u1,u2,u4,u7
p6	u1,u2,u7
		p7	u1,u2,u5,u8
p8	u1,u7,u8
		p9	u1,u2,u7,u8

其中，用户与对象之间的关联信息可以是点击次数、购买次数、浏览次数、搜索次数、关注次数中的至少一种或它们的组合。在本实施例中，为了便于说明，表1和表2中仅示出了点击行为。

参照表1示出的用户行为数据集的示例，用户u1按照时间的顺序点击了对象p1、p3、p4、p7、p9、p5、p2、p6、p8，用户u6对应的“点击对象的序列信息”为空，即，用户u6没有点击任何对象。参照表2示出的对象数据集的示例，对于对象p1，按照时间的顺序，分别被用户u1、u2、u3、u4、u5、u7、u8点击。

在步骤S20中，基于用户行为数据集将全部用户划分为活跃用户和非活跃用户，并且基于对象数据集将全部对象划分为活跃对象和非活跃对象。

在实施例中，在基于用户行为数据集对全部用户进行划分时，划分的方法可以是：将产生行为次数小于预定次数(n)的用户划分为“非活跃用户”，反之将其划分为“活跃用户”。在实施例中，n可以是一个超参数，可以根据用户行为数据集的情况进行设定。例如，在优选实施例中，可以设定n的数值使得前20％的用户被划分为“活跃用户”。在基于表1示出的用户行为数据集来对用户进行划分时，为举例方便，可以取n为3，划分结果如表3所示：

表3划分活跃用户和非活跃用户

用户	活跃/非活跃用户
		u1	活跃用户
u2	活跃用户
		u3	非活跃用户
u4	非活跃用户
		u5	非活跃用户
u6	非活跃用户
		u7	活跃用户
u8	活跃用户

在基于对象数据集对全部对象进行划分时，与上述划分活跃用户和非活跃用户的方法类似，将被点击行为次数小于预定次数(m)的对象划分为“非活跃对象”，反之将其划分为“活跃对象”。在实施例中，m可以是一个超参数，可以根据对象数据集的情况进行设定。例如，在优选实施例中，可以设定m的数值使得前20％对象被划分为“活跃对象”。在基于表2示出的对象数据集来对对象进行划分时，为举例方便，可以取m为4，划分结果如表4所示：

表4划分活跃对象和非活跃对象

对象	活跃/非活跃对象
		p1	活跃对象
p2	非活跃对象
		p3	非活跃对象
p4	活跃对象
		p5	活跃对象
p6	非活跃对象
		p7	活跃对象
p8	非活跃对象
		p9	活跃对象

参照图1和图2，在步骤S30中，对活跃对象进行聚类并且对非活跃对象进行聚类以形成多个对象类别。其中，聚类的方法可以采用K平均算法来实现。

参照图2，在对活跃对象进行聚类时，可以选用连续词袋(CBOW)模型方法基于活跃用户的用户行为数据集构建对象训练样本(步骤S32)，然后基于所述对象训练样本训练item2vec模型以得到对象向量(步骤S34)，基于所述活跃对象的对象向量对活跃对象进行聚类(步骤S36)，在对非活跃对象进行聚类时，基于非活跃对象的基础特征对所述非活跃对象进行聚类(S38)。

具体地讲，基于在用户行为数据集中过滤掉“非活跃用户”对应的数据。接着，选用CBOW模型方法来构建对象训练样本。在传统的item2vec中构建样本时主要有CBOW和跳字模型(Skip-gram)两种方法。CBOW计算时间复杂度小，不适用生僻词较多的情况。Skip-gram计算时间复杂度高，适用于生僻词多的情况。在本实施例中，因在步骤S32中忽略了“非活跃用户”对应的行为数据，故可以选用CBOW方法构建对象训练样本，并因此降低计算时间复杂度。然后，在步骤S34中，基于对象训练样本训练item2vec模型以得到对象向量。

为了便于理解，参照图2中示出的步骤S32，首先基于表1示出的用户行为数据集过滤掉表3示出的“非活跃用户”，如表5所示：

表5活跃用户的行为数据集

用户	点击对象的序列信息
		u1	p1,p3,p4,p7,p9,p5,p2,p6,p8
u2	p9,p1,p5,p3,p7,p4,p6
		u7	p6,p5,p1,p8,p9,p2
u8	p2,p4,p9,p7,p8,p3

然后用CBOW方法构建样本，为了便于理解，在本实施例中，选用的窗口大小为5，针对用户u1的点击对象的序列信息，可以得到的样本如表6所示：

表6根据用户u1的点击对象的序列信息获得的样本

样本	标签
		p1,p3,p7,p9	p4
p3,p4,p9,p5	p7
		p4,p7,p5,p2	p9
p7,p9,p2,p6	p5
		p9,p5,p6,p8	p2

参照表6中示出的样本和对应的标签，可以针对表5中所列出的活跃用户的行为数据集中的每项进行类似的操作，从而构建对象训练样本。

在步骤S34中，利用item2vec算法得到对象的向量，如表7所示：

表7对象向量

对象	对象向量
		p1	(1,0,4,5,0,0)
p2	(1,0,4,5,1,0)
		p3	(1,3,4,5,0,0)
p4	(2,0,5,4,0,0)
		p5	(3,0,6,4,0,0)
p6	(5,2,2,3,6,0)
		p7	(0,2,0,0,0,8)
p8	(0,0,0,5,7,9)
		p9	(0,3,0,0,0,6)

在示例实施例中，可以采用现有的item2vec算法，这里省略关于item2vec算法的详细描述。表7将每个对象转换为了6维向量，这里示出的向量维度是item2vec设定的超参数，本发明构思不限于此可以根据实际需求进行设定。参照表4中示出活跃对象和非活跃对象，过滤掉表7中的“非活跃对象”从而得到活跃对象的对象向量(表8)。

表8活跃对象的对象向量

对象	对象向量
		p1	(1,0,4,5,0,0)
p4	(2,0,5,4,0,0)
		p5	(3,0,6,4,0,0)
p7	(0,2,0,0,0,8)
		p9	(0,3,0,0,0,6)

在步骤S36中，根据活跃对象的对象向量对活跃对象进行分类。将相似的对象划分到同一类中，例如，可以采用k平均算法等的聚类算法进行聚类。

聚类的结果如表9所示：

表9针对活跃对象的聚类

对象	对象向量	类别
			p1	(1,0,4,5,0,0)	c1
p4	(2,0,5,4,0,0)	c1
			p5	(3,0,6,4,0,0)	c1
p7	(0,2,0,0,0,8)	c2
			p9	(0,3,0,0,0,6)	c2

在步骤S38中，基于非活跃对象的基础特征对非活跃对象进行聚类。由于“非活跃对象”中大部分对象的行为数据信息不可用，因此根据本发明构思的示例实施例，在对其划分类别时可以仅考虑对象的基础特征。例如，对象的基础特征可以是“对象的价格”、“对象的类别”、“对象的折扣”、“对象的品牌”等固有属性特征。参照表4中示出的非活跃对象p2、p3、p6和p8的基础特征可以如表10所示：

表10非活跃对象的基础特征

对象	价格	折扣	尺寸
				p2	2	9	1
p3	3	8	2

p6	132	4	8
				p8	120	5	9

为便于理解，仅示出了“价格”，“折扣”，“尺寸”这三个对象的基础特征，本发明构思不限上述特征，并可以根据实际情况修改对象的基础特征。可以基于表9示出的非活跃对象的基础特征对它们进行聚类操作(例如，采用K平均算法)，聚类结果在表11中示出。

表11针对非活跃对象的聚类

对象	价格	折扣	尺寸	类别
					p2	2	9	1	c3
p3	3	8	2	c3
					p6	132	4	8	c4
p8	120	5	9	c4

综上，通过步骤S30中的步骤S32至步骤S38分别对活跃对象和非活跃对象进行了分类，并得到多个对象类别c1、c2、c3和c4。

参照图1和图3，在步骤S40中，对活跃用户进行聚类并且对非活跃用户进行聚类以形成多个用户类别。其中，聚类的方法可以采用K平均算法来实现。

参照图3，在对活跃用户进行聚类时，可以选用连续词袋模型方法基于活跃对象的对象数据集构建用户训练样本(步骤S42)，然后基于用户训练样本训练user2vec模型以得到用户向量(步骤S44)，基于活跃用户的用户向量对活跃用户进行聚类(步骤S46)，在对非活跃用户进行聚类时，基于非活跃用户的基础特征对非活跃用户进行聚类(步骤S48)。

图3中示出的步骤S42、步骤S44、步骤S46分别与参照图2中示出的步骤S32、步骤S34和步骤S36相同或相似。因此，为了便于理解，将在下面的描述中将省略冗余的描述。

在本实施例中，参照图3中示出的步骤S42，首先基于表2示出的对象数据集过滤掉表4示出的“非活跃对象”，因在步骤S42中忽略了“非活跃对象”对应的行为数据，故可以选用CBOW方法构建用户训练样本，并因此降低计算时间复杂度。然后，在步骤S44中，基于用户训练样本训练user2vec模型以得到活跃用户的用户向量(参见表12)。接着，在步骤S46中，基于活跃用户的用户向量对其进行分类。将相似的用户划分到同一类中，例如，可以采用k平均算法等的聚类算法进行聚类。聚类的结果如表12所示：

表12活跃用户的聚类

用户	用户向量	类别
			u1	(3,0,2,0)	s1
u2	(4,0,1,0)	s1
			u7	(0,5,0,6)	s2
u8	(0,4,0,7)	s3

表12将每个用户转换为了4维向量，这里示出的向量维度是user2vec算法设定的超参数，本发明构思不限于此并且可以根据实际需求进行设定。

在步骤S48中，基于非活跃用户的基础特征对非活跃用户进行聚类。由于“非活跃用户”中大部分用户的行为数据信息不可用，因此根据本发明构思的示例实施例，在对其划分类别时可以仅考虑用户的基础特征。例如，用户的技术特征可以是“性别”、“年龄”、“收入”、“地区”、“爱好”、“访问终端”等固有属性特征。参照表3示出的非活跃用户u3、u4、u5和u6的基础特征在表13中示出，并进一步根据列出的固有属性特征对非活跃用户进行聚类操作，聚类的结果同样在表13中示出。

表13针对非活跃用户的聚类

用户	年龄	存款	收入	类别
					u3	18	2	1	s3
u4	19	4	2	s3
					u5	70	20	10	s4
u6	60	25	13	s4

综上，通过步骤S40中的步骤S42至步骤S48分别对活跃用户和非活跃用户进行了分类，并得到多个用户类别s1、s2、s3和s4。

返回参照图1，在步骤S50中，对于每个目标用户，根据所述目标用户的行为数据、所述多个对象类别和所述目标用户所属的用户类别采用协同过滤方法执行召回以构建所述目标用户的候选集。在实施例中，可以采用协同过滤的方法得到用户的对象候选集。例如，通过步骤S30和步骤S40中获得的对象类别和用户类别，对相似的用户召回相似的对象，从而针对每个目标用户获得该目标用户的候选集。例如，针对用户u1至u8中的每位用户，可以召回“最相似用户”最近点击过的对象和“最近点击过的对象”的最相似的对象作为该目标用户的候选集(表14)。

表14候选集

需要说明的是，上述示例仅是为了便于理解，发明构思的召回方式不限于上述方式。例如，“最相似用户”的最近点击过的对象可以替代为“最相似用户”最近点击过的a件商品，“最近点击过的对象”的最相似的对象可以替代为“最近点击过的对象”的最相似的b件商品，其中，a和b为正整数。

由于在步骤S30和步骤S40中，通过item2vec算法/user2vec算法将对象/用户转换为稠密的对象向量/用户向量，使得对象向量/用户向量中包含了序列信息(例如，行为时序信息)，然后在步骤S50中，进行协同过滤，从而使得“召回”模块更加准确。

在步骤S60中，对所述候选集进行排序，基于排序结果向所述目标用户进行推荐。

在实施例中，可以采用机器学习算法对候选集进行排序。例如，可以采用梯度回归决策树(GBDT)模型对候选集进行排序。根据本发明构思的示例性实施例，可以在对候选集进行排序时构建第一模型、第二模型、第三模型和第四模型分别用来计算“活跃用户”与“活跃对象”的匹配程度、“活跃用户”与“非活跃对象”的匹配程度、“非活跃用户”与“活跃对象”的匹配程度和“非活跃用户”与“非活跃对象”的匹配程度。例如，可以基于全部用户的基础特征、所述活跃用户的用户向量、全部对象的基础特征以及所述活跃对象的对象向量来训练第一模型。可以基于全部用户的基础特征、所述活跃用户的用户向量以及全部对象的基础特征来训练第二模型。可以基于全部用户的基础特征、全部对象的基础特征以及所述活跃对象的对象向量来训练第三模型。可以基于全部用户的基础特征和所述活跃对象的对象向量来训练第四模型。

表15训练不同模型所需要的特征情况

按照表15中的计算规则，分别就计算目标用户与其候选集中的对象的匹配程度，在根据匹配程度对候选集的排序。

本发明构思的示例实施例中，为了解决item2vec/user2vec在长尾对象/用户(例如，非活跃对象和非活跃用户)推荐上的缺点。本发明通过将对象/用户划分为“活跃对象”、“非活跃对象”、“活跃用户”以及“非活跃用户”。用item2vec/user2vec将“活跃用户”、“活跃对象”转换为向量。协同过滤时，分别对“活跃对象”、“活跃用户”、“非活跃对象”以及“非活跃用户”进行召回，从而使最终的推荐结果更加精确。

传统item2vec将用户/对象转换为向量后通常仅应用于“召回”模块，本发明在“排序”步骤中构建了4个GBDT模型，分别用来计算“活跃用户”与“活跃对象”的匹配程度、“活跃用户”与“非活跃对象”的匹配程度、“非活跃用户”与“活跃对象”的匹配程度和“非活跃用户”与“非活跃对象”的匹配程度。在排序阶段(例如，评分阶段)将“活跃对象”和“活跃用户”的向量值也作为特征值。对出现频度较高用户(对象)的用户向量(对象向量)作为排序特征，从而提高特征维度，使得评分模型更容易学习到数据信息，提高最终推荐效果。

图4是示出根据本公开的示例性实施例的推荐对象的系统10的框图。

作为示例，可由图4所示的系统10来执行图1、图2和图3所示的方法。

如图4所示，系统10可以是用来推荐对象的系统。系统10可以包括：数据获取单元110、划分单元120、对象分类单元130、用户分类单元140、候选集生成单元150和推荐单元160。

数据获取单元110可以获取对象数据集和用户行为数据集，其中，对象数据集包括每个对象与在该对象上产生行为的用户的序列信息，用户行为数据集包括每个用户与该用户在其上产生行为的对象的序列信息。数据获取单元110可以被配置为用来执行参照图1中的步骤S10描述的方法，因此在此省略冗余的描述。

划分单元120可以基于所述用户行为数据集将全部用户划分为活跃用户和非活跃用户，并且可以基于所述对象数据集将全部对象划分为活跃对象和非活跃对象。划分单元120可以被配置为用来执行参照图1中的步骤S20描述的方法，因此在此省略冗余的描述。

对象分类单元130可以对活跃对象进行聚类并且对非活跃对象进行聚类以形成多个对象类别。对象分类单元130可以被配置为用来执行参照图1中的步骤S30和参照图2中的步骤S32至步骤S38描述的方法，因此在此省略冗余的描述。

用户分类单元140可以对活跃用户进行聚类并且对非活跃用户进行聚类以形成多个用户类别。用户分类单元140可以被配置为用来执行参照图1中的步骤S40和参照图3中的步骤S42至步骤S48描述的方法，因此在此省略冗余的描述。

候选集生成单元150可以对于每个目标用户，根据目标用户的行为数据、多个对象类别和目标用户所属的用户类别采用协同过滤方法执行召回以构建所述目标用户的候选集。候选集生成单元150可以被配置为用来执行参照图1中的步骤S50描述的方法，因此在此省略冗余的描述。

推荐单元160可以对所述候选集进行排序，基于排序结果向所述目标用户进行推荐。推荐单元160可以被配置为用来执行参照图1中的步骤S60描述的方法，因此在此省略冗余的描述。

图5所示的环境可以包括推荐对象的系统10、网络20以及用户终端30和40。这里，应注意，用户终端30和用户终端40分别可指代多个终端。

其中，系统10可以是上面参照图4描述的系统10，该系统10可以部署在实体的IT设施上，也可部署在专门提供推荐服务的实体的IT设施上。网络20可以包括路由、交换机、服务器、云服务器等。用户终端30和40可以包括可以访问网络20的任何类型的电子产品，诸如蜂窝电话、智能电话、平板计算机、可穿戴装置、个人数字助理(PDA)、便携式多媒体播放器(PMP)、数字相机、音乐播放器、便携式游戏控制台、导航系统、数字电视、3D电视、个人计算机(PC)、家用电器、膝上型计算机等。用户终端30和40还可以是台式计算机、工作站计算机或服务器。用户终端30和40通过以太网协议、基于互联网协议(IP)的协议、基于传输控制协议(TCP)的协议、基于用户数据报协议(UDP)的协议、基于远程直接内存访问(RDMA)协议的协议以及基于NVMe-oF协议的协议或它们的组合来访问网络20和/或网络20中的服务器。

进一步地讲，用户终端30可以是对象提供方，并将对象上传至网络20和/或网络20中的服务器以形成对象数据。用户终端40可以向网络20和/或网络20中的服务器发出推荐请求，随后网络20和/或网络20中的服务器向系统10转发推荐请求，以及/或者用户终端40可以直接向系统10发出推荐请求。

在系统10收到推荐请求后，可以基于存储于自身内部、网络20和/或网络20中的服务器中的对象和与用户终端40对应的用户来生成推荐集，并按照展示概率向客户展示推荐集中的对象。系统10可直接或经由第三方，通过网络20向用户终端40展示推荐集中的对象。推荐对象的方法可以与上面参照图1、图2和图3描述的方法相同，在此不再赘述。

根据本发明示例性实施例的推荐对象的系统10所包括的各单元可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

在本发明示例性实施例中还提出一种推荐对象的计算装置。所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本发明示例性实施例的推荐对象的方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本发明示例性实施例的推荐对象的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

例如，如上所述，提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如参照图1、图2和图3描述的步骤。

也就是说，可由上述的计算装置来执行图1、图2和图3所示的推荐对象的方法。由于上述在图1、图2和图3中已经对推荐对象的方法进行了详细介绍，本发明对此部分的内容不再赘述。

可选地，上述推荐对象的系统和计算装置可被集成在平台方(例如，电商网站)的服务器中，例如，可被集成在提供对象(例如，商品或服务)的应用程序的服务器中。除此之外，也可以可被集成在第三方服务器中以向用户提供推荐集和展示概率，再由平台方来根据推荐集和展示概率向用户进行展示(例如，由第三方服务器提供的API接口)。

应理解，根据本发明示例性实施例的推荐对象的方法可通过记录在计算可读介质上的程序来实现，例如，根据本发明的示例性实施例，可提供一种存储指令的计算机可读介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如参照图1、图2和图3描述的步骤。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经参照图1、图2和图3进行了描述，这里为了避免重复将不再进行赘述。

应注意，根据本发明示例性实施例的推荐对象的系统可完全依赖计算机程序的运行来实现相应的功能，即，各个装置与计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，根据本发明示例性实施例的推荐对象的系统所包括的各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

以上描述了本发明的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的范围为准。

Claims

1.一种推荐对象的方法，所述方法包括：

获取对象数据集和用户行为数据集，其中，所述对象数据集包括每个对象与在该对象上产生行为的用户的序列信息，所述用户行为数据集包括每个用户与该用户在其上产生行为的对象的序列信息；

基于所述用户行为数据集将全部用户划分为活跃用户和非活跃用户，基于所述对象数据集将全部对象划分为活跃对象和非活跃对象；

对活跃对象进行聚类并且对非活跃对象进行聚类以形成多个对象类别；

对活跃用户进行聚类并且对非活跃用户进行聚类以形成多个用户类别；

对于每个目标用户，根据所述目标用户的行为数据、所述多个对象类别和所述目标用户所属的用户类别采用协同过滤方法执行召回以构建所述目标用户的候选集；以及

对所述候选集进行排序，基于排序结果向所述目标用户进行推荐。

2.根据权利要求1所述的方法，其中，所述对活跃对象进行聚类的步骤包括：

选用连续词袋模型方法基于所述活跃用户的用户行为数据集构建对象训练样本；

基于所述对象训练样本训练对象转向量模型以得到对象向量；以及

基于所述活跃对象的对象向量对所述活跃对象进行聚类。

3.根据权利要求1所述的方法，其中，所述对非活跃对象进行聚类的步骤包括：基于所述非活跃对象的基础特征对所述非活跃对象进行聚类。

4.根据权利要求1所述的方法，其中，所述对活跃用户进行聚类的步骤包括：

选用连续词袋模型方法基于所述活跃对象的对象数据集构建用户训练样本；

基于所述用户训练样本训练用户转向量模型以得到用户向量；以及

基于所述活跃用户的用户向量对所述活跃用户进行聚类。

5.根据权利要求1所述的方法，其中，所述对非活跃用户进行聚类的步骤包括：基于所述非活跃用户的基础特征对所述非活跃用户进行聚类。

6.根据权利要求1至5中的任意一项所述的方法，其中，所述聚类的方式采用K平均算法来实现。

7.根据权利要求1所述的方法，其中，所述对所述候选集进行排序的步骤包括：采用机器学习算法进行排序，

其中，所述活跃用户与所述活跃对象之间的匹配程度采用第一模型来计算；

所述活跃用户与所述非活跃对象之间的匹配程度采用第二模型来计算；

所述非活跃用户与所述活跃对象之间的匹配程度采用第三模型来计算；以及

所述非活跃用户与所述非活跃对象之间的匹配程度采用第四模型来计算。

8.一种推荐对象的系统，所述系统包括：

数据获取单元，获取对象数据集和用户行为数据集，其中，所述对象数据集包括每个对象与在该对象上产生行为的用户的序列信息，所述用户行为数据集包括每个用户与该用户在其上产生行为的对象的序列信息；

划分单元，基于所述用户行为数据集将全部用户划分为活跃用户和非活跃用户，基于所述对象数据集将全部对象划分为活跃对象和非活跃对象；

对象分类单元，对活跃对象进行聚类并且对非活跃对象进行聚类以形成多个对象类别；

用户分类单元，对活跃用户进行聚类并且对非活跃用户进行聚类以形成多个用户类别；

候选集生成单元，对于每个目标用户，根据所述目标用户的行为数据、所述多个对象类别和所述目标用户所属的用户类别采用协同过滤方法执行召回以构建所述目标用户的候选集；以及

推荐单元，对所述候选集进行排序，基于排序结果向所述目标用户进行推荐。

9.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至5、7中的任一权利要求所述的推荐对象方法。

10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至5、7中的任一权利要求所述的推荐对象方法。