CN110347905A

CN110347905A - 确定信息关联度、信息推荐的方法、装置和存储介质

Info

Publication number: CN110347905A
Application number: CN201810187491.3A
Authority: CN
Inventors: 李鹏飞; 安伟亭; 魏虎
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2019-10-18
Anticipated expiration: 2038-03-07
Also published as: CN110347905B

Abstract

本发明公开了一种确定信息关联度、信息推荐的方法、装置和存储介质。该方法包括：采集历史用户针对源信息和关联信息的行为特征数据；根据历史用户对关联信息是否具有行为特征数据，将历史用户进行分组，得到至少两个用户组；根据用户组对源信息是否具有行为特征数据，将用户组进行分类，得到至少两个用户类；基于各个用户类中用户的数量，确定源信息和关联信息的关联度。由此，本发明实施例不仅计算简单、直观，还提升了信息推荐的精确度。

Description

确定信息关联度、信息推荐的方法、装置和存储介质

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种确定信息关联度的方法、确定信息关联度的装置、信息推荐的方法、信息推荐的装置和存储介质。

背景技术

随着计算机网络技术的快速发展，网络信息，例如网站商品信息，随之急速增多。当人们浏览网页时，面对海量的信息，人们往往无法选择合适的信息。尤其是用户在网站购买商品的场景中，由于没有收到合适的信息指导，用户需要花费大量时间才能找到合适商品，导致用户体验较差。此时，如果网站能够及时向用户推荐准确的信息，会改善用户体验。现有的信息推荐方法主要是基于协同过滤(Collaborative Filtering，CF)思想的商品到商品(item to item，I2I)的推荐算法。

申请人经研究发现：利用现有的推荐方法不仅算法复杂度较高、推荐耗时、计算开销较大，而且通常会倾向推荐热门商品，马太效应明显，导致推荐精度较低。

如何降低推荐算法的复杂度并提高推荐信息的精确度，成为业界亟待解决的技术问题。

发明内容

为了解决推荐算法的复杂度高和推荐信息的精确度低的问题，本发明实施例提供了一种确定信息关联度的方法、确定信息关联度的装置、信息推荐的方法、信息推荐的装置和存储介质。

第一方面，提供了一种确定信息关联度的方法。该方法包括以下步骤：

采集历史用户针对源信息和关联信息的行为特征数据；

根据所述历史用户对所述关联信息是否具有所述行为特征数据，将所述历史用户进行分组，得到至少两个用户组；

根据所述用户组对所述源信息是否具有所述行为特征数据，将所述用户组进行分类，得到至少两个用户类；

基于各个所述用户类中用户的数量，确定所述源信息和所述关联信息的关联度。

第二方面，提供了一种信息推荐的方法。该方法包括以下步骤：

采集历史用户针对源信息和关联信息的行为特征数据；

基于各个所述用户类中用户的数量，确定所述源信息和所述关联信息的关联度；

获取所述源信息和所述关联信息的关联度；

当目标用户对所述源信息具有所述行为特征数据时，根据所述关联度，从所述关联信息中选取与所述源信息关联紧密的目标信息并推荐给所述目标用户。

第三方面，提供了一种确定信息关联度的装置。该装置包括：数据采集器、用户分组器、用户分类器、关联度计算器。数据采集器和用户分类器分别与用户分组器耦合，用户分类器和关联度计算器耦合，其中：

数据采集器，用于采集历史用户针对源信息和关联信息的行为特征数据；

用户分组器，用于根据历史用户对关联信息是否具有行为特征数据，将历史用户进行分组，得到至少两个用户组；

用户分类器，用于根据用户组对源信息是否具有行为特征数据，将用户组进行分类，得到至少两个用户类；

关联度计算器，基于各个用户类中用户的数量，确定源信息和关联信息的关联度。

第四方面，提供了一种信息推荐的装置。该装置包括：数据采集器、用户分组器、用户分类器、关联度计算器、信息推荐器，其中：

关联度计算器，基于各个用户类中用户的数量，确定源信息和关联信息的关联度；

信息推荐器，当目标用户对源信息具有行为特征数据时，根据关联度，从关联信息中选取与源信息关联紧密的目标信息并推荐给目标用户。

第五方面，提供了一种确定信息关联度的装置。该装置包括：

存储器，用于存放程序；

处理器，用于执行所述存储器存储的程序，所述程序使得所述处理器执行上述方法。

第六方面，提供了一种信息推荐的装置。该装置包括：

存储器，用于存放程序；

第七方面，提供了一种计算机可读存储介质。该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各个方面所述的方法。

第八方面，提供了一种包含指令的计算机程序产品。当该产品在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第九方面，提供了一种计算机程序。当该计算机程序在计算机上运行时，使得计算机执行上述第一方面所述的方法。

由此，上述发明实施例可以通过采集历史用户针对源信息和/或关联信息的行为特征数据(如浏览、购买等行为数据)，先根据历史用户针对关联信息是否具有行为特征数据，先将历史用户分组；再根据用户组针对源信息是否具有行为特征数据，将所分的小组进行分类，可以实现在所分的各个小组内分别研究是否对源信息具有浏览行为的比例，通过对比不同组间的该比例差异可以精确得到关联信息与源信息的关联度。根据精确的关联度，可以从关联信息中选取与源信息关联紧密的目标信息并推荐给目标用户，这为后期信息推荐提供了精确的数据支持。上述实施例不仅计算简单、直观、精度高，还会提升后期信息推荐的精确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例的信息推荐的系统架构示意图；

图2是本发明一实施例的确定信息关联度的方法的流程示意图；

图3是本发明一实施例的信息推荐的方法的流程示意图；

图4是本发明一实施例的确定信息关联度的装置结构示意图；

图5是本发明一实施例的信息推荐的装置结构示意图；

图6是本发明一实施例的信息推荐的装置的框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1是本发明一实施例的信息推荐的系统架构示意图。

如图1所示，该架构可以包括：服务器100、客户端200和网络300。

本实施例的第一应用场景可以是：用户400(如小明)打算利用客户端200在电商网站的书店A中购买一本考研英语书。他登录电商网站书店A，找到一本《考研英语复习指南》的图书(记为p)。他对该图书有一些兴趣，于是打开了这本书的商品详情页查看更多的信息。用户400看完之后，虽然觉得这本图书还可以，但他还想对比一下同主题的其它书籍后再决定购买最合适的本。这时，电商网站A的服务器100利用推荐模块，向用户400推荐与《考研英语复习指南》相关的4本考研英语书：《考研英语备战攻略》、《考研英语真题详解》、《考研英语必备词汇》、《考研政治备战攻略》(按顺序分别记为q1、q2、q3、q4)。通过对比服务器100推荐的4本相关图书，确定《考研政治备战攻略》(即q4)这本图书与《考研英语复习指南》的图书(记为p)的关联度较大，最终小明在购买了《考研英语备战攻略》(即q1)的同时，顺便购买了同系列的《考研政治备战攻略》(即q4)这本图书。

本实施例的第二应用场景可以是：用户400通过客户端200搜索信息平台中的A饭店的信息，信息平台向用户400推荐B饭店、C饭店、D饭店和E饭店。可以理解，本实施例还可以应用于其它需要信息推荐的场景中。

本实施例的第三应用场景可以是：用户400通过客户端200搜索信息平台中的A饭店的信息，信息平台向用户400推荐B饭店、C饭店、D饭店和E饭店。可以理解，本实施例还可以应用于其它需要信息推荐的场景中。其中，服务器100可以安装有各种通讯客户端应用，例如即时通信工具、邮箱客户端、社交平台软件、音频视频软件等。通常，服务器100具有较高的硬件配置和较强的运算能力。在运算压力较小的情况下，服务器可以用台式机、工作站、移动设备或上述的电子设备等进行替代。

客户端200包括但不限于个人电脑、智能手机、平板电脑、个人数字助理、服务器等。

网络300可以用以在各种电子设备之间提供通信链路的介质。具体的，网络300可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。

应该理解，图1中的设备的数目仅仅是示意性的。根据实现需要，该系统架构可以具有任意数目的服务器100、客户端200和网络300。下面各实施例均可以应用本实施例的系统架构进行数据交互或者信息推荐处理。其中，推荐的信息可以是文本、图片、音频、视频等。

图2是本发明一实施例的确定信息关联度的方法的流程示意图。

在本实施例中，可以将上述的第一应用场景作为本实施例的应用场景。

如图2所示，该方法包括以下步骤:S210，采集历史用户针对源信息和关联信息的行为特征数据；S220，根据历史用户对关联信息是否具有行为特征数据，将历史用户进行分组，得到至少两个用户组；S230，根据用户组对源信息是否具有行为特征数据，将用户组进行分类，得到至少两个用户类；S240，基于各个用户类中用户的数量，确定源信息和关联信息的关联度。

可以理解，确定信息关联度的方法的执行主体还可以是具有运算、处理等能力的组件(如推荐组件)、处理器、程序设备等软件和/或硬件设备，此方面内容不做限制。在步骤S210中，选取小明访问的电商网站，历史用户可以是最近1个月访问过电商网站的书店A的用户，其数量可以用N表示。源信息可以是《考研英语复习指南》的图书(记为p)。关联信息可以是《考研英语备战攻略》、《考研英语真题详解》、《考研英语必备词汇》、《考研政治备战攻略》、《考研数学备战攻略》、《考研语文备战攻略》(按顺序分别记为q1、q2、q3、q4、q5、q6。

行为特征数据包括以下数据中的一种或者多种：浏览特征数据、收藏特征数据、购买特征数据、评价特征数据。

在步骤S220中，当历史用户针对关联信息具有行为特征数据时，推荐组件将历史用户分为关联组；当历史用户针对关联信息不具有行为特征数据时，推荐组件将历史用户分为不关联组。

在步骤S230中，当关联组针对源信息具有行为特征数据时，推荐组件将关联组分为源关联类，并得到源关联类中历史用户的第一数量N₁₁；当关联组针对源信息不具有行为特征数据时，推荐组件将关联组分为非源关联类，并得到非源关联类中历史用户的第三数量N₂₁；当不关联组针对源信息具有行为特征数据时，推荐组件将不关联组分为源不关联类，并得到源不关联类中历史用户的第二数量N₁₂；当不关联组针对源信息不具有行为特征数据时，推荐组件将不关联组分为非源不关联类，并得到非源不关联类中历史用户的第四数量N₂₂。

具体的，假设总的对电商网站书店A有行为特征数据(简称有行为)的用户数为N，对图书p有行为的用户数为N1_，对图书q有行为的用户数为N_1，对图书p和q都有行为的用户数为N₁₁，对图书p有行为但对q没有行为的用户数为N₁₂，对图书p没有行为但对q有行为的用户数为N₂₁，对图书p和q均没有行为的用户数为N₂₂，则关于图书p和q的用户划分情况如下表(1)所示：

	item q	！item q
				item p	N<sub>11</sub>	N<sub>12</sub>	N1_
！item p	N<sub>21</sub>	N<sub>22</sub>	N2_
					N_1	N_2	N

表(1)

表(1)中，！item p表示N个用户中，对图书p没有行为的用户数，记为N2_＝N-N1_。

同样，！item q表示N个用户中，对图书q没有行为的用户数，记为N_2＝N-N_1。对图书p有行为但对图书q没有行为的用户数，记为N₁₂＝N1_-N₁₁。

同样，对图书q有行为但对图书p没有行为的用户数，记为N₂₁＝N_1-N₁₁。而对图书p和q都没有行为的用户数，记为N₂₂＝N2_-N₂₁＝N-N1_-(N_1-₁N₁₁)＝N–N1_-N_1+N₁₁。

在步骤S240中，计算关联信息与源信息的关联度的实现方式可以有多种方式。

在一些实施例中，计算关联信息与源信息的关联度的实现方式可以包括：S11，推荐组件计算第一数量N₁₁与第二数量N₁₂的第一比值N₁₁/N₁₂；

S12，推荐组件计算第三数量N₂₁与第四数量N₂₂的第二比值N₂₁/N₂₂；

S13，推荐组件计算第一比值N₁₁/N₁₂与第二比值N₂₁/N₂₂的第三比值(N₁₁/N₁₂)/(N₂₁/N₂₂)＝(N₁₁×N₂₂)/(N₁₂×N₂₁)，并将第三比值作为关联信息与源信息的关联度X。

关联度X衡量了在有行为特征数据，例如看了itemp的用户中看了itemq和未看itemq的比例，与没看itemp的用户中看了itemq和未看itemq的比例的比值。当X＝1时，表明关联信息与源信息相互独立没有相关性。当X＞1时，表明看了itemp的用户更倾向于看itemq，这样推荐组件就可以为itemp推荐itemq，可解释性非常强。

在一些实施例中，N₁₂比N₁₁大很多，N₂₂比N₂₁大很多，这时关联度X可近似于：

X＝(N₁₁/N_{1_})/(N₂₁/N_{2_}) (公式1)

≈[N₁₁/(N₁₁+N₁₂)]/[N₂₁/(N₂₁+N₂₂)]

在一些实施例中，计算关联信息与源信息的关联度的实现方式可以包括：

S21，推荐组件分别对第一数量N₁₁、第二数量N₁₂、第三数量N₂₁和第四数量N₂₂进行平滑处理，得到第一平滑量logN₁₁、第二平滑量logN₁₂、第三平滑量logN₂₁和第四平滑量logN₂₂；S22，推荐组件将第一平滑量减去第二平滑量，加上第三平滑量，再加上第四平滑量，得到关联信息与源信息的关联度。关联度X的示意公式如下：

X=logN₁₁+logN₂₂-logN₁₂-logN₂₁ (公式2)

LogX则是X的对数表示，其取值范围为(-∞，+∞)，其中以0为分界，等于0表示相互独立，大于0表示呈正相关，小于0表示呈负相关，且偏离0越远相关性越强。关联度X的取值范围为[0，+∞)，其中以1为分界，等于1表示相互独立，大于1表示呈正相关，小于1表示呈负相关，且偏离1越远相关性越强。

因为当N₁₁很小而N₂₂很大的时候，关联度会很大，发生倾斜情况。在本实施例中，取对数是一种很好的数据平滑方法，可减小其影响并简化计算过程。

下面以上述第一场景为例，将源信息记作p，将关联信息分别记作q1、q2、q3、q4，默认使用2作为对数函数log的底数，将具体实验数据替换上述表(1)中的参数，逐一举例说明计算关联度X的实现方式。

当采用下面表(2)中的数值时，X＝Log(p，q1)：

	Item q1	！Item q1
				Item p	5	45	50
！Item p	35	915	950
					40	960	1000

表(2)

Log(p，q1)＝logN₁₁+logN₂₂-logN₁₂-logN₂₁ (公式3)

＝log(5)+log(915)–log(45)–log(35)

≈2.3219+9.8376-5.4918-5.1293＝1.5384

Log(p，q1)>0，说明item p和item q1是正相关的，且相关性较强。

当采用下面表(3)中的数值时，X＝Log(p，q2)：

	Item q2	！Item q2
				Item p	10	40	50
！Item p	90	860	950
					100	900	1000

表(3)

Log(p，q2)＝logN₁₁+logN₂₂-logN₁₂-logN₂₁ (公式4)

＝log(10)+log(860)–log(40)–log(90)

≈3.3219+9.7482-5.3219-6.4918＝1.2564

Log(p，q2)>0，说明item p和item q2也是正相关的，但相关性不如item q1。

当采用下面表(4)中的数值时，X＝Log(p，q3)：

	Item q3	！Item q3
				Item p	10	40	50
！Item p	190	760	950
					200	800	1000

表(4)

Log(p，q3)＝logN₁₁+logN₂₂-logN₁₂-logN₂₁ (公式5)

＝log(10)+log(760)–log(40)–log(190)

≈3.3219+9.5698-5.3219-7.5698＝0

LogX(p，q3)＝0，说明item p和item q3相互独立，无相关性。

当采用下面表(5)中的数值时，X＝Log(p，q4)：

	Item q4	！Item q4
				Item p	10	40	50
！Item p	760	190	950
					770	230	1000

表(5)

Log(p，q4)＝logN₁₁+logN₂₂-logN₁₂-logN₂₁ (公式6)

＝log(10)+log(190)–log(40)–log(760)

≈3.3219+7.5698-5.3219-9.5698＝-4

Log(p，q4)<0，说明item p和item q3呈反相关性，且反相关性很强。

实际使用过程中，可以上述公式中会加入4个平滑因子：第一平滑因子a、第二平滑因子b、第三平滑因子c、第四平滑因子d，从而实现进一步减小数据稀疏和倾斜情况的影响，增加后续信息推荐的精度。

在一些实施例中，计算关联信息与源信息的关联度的实现方式可以包括：S31，推荐组件将第一数量加上第一平滑因子(N₁₁+a)，将第二数量加上第二平滑因子(N₁₂+b)，将第三数量加上第三平滑因子(N₂₁+c)，将第四数量加上第四平滑因子(N₂₂+d)之后，再进行平滑处理，分别得到第一增强平滑量、第二增强平滑量、第三增强平滑量和第四增强平滑量；S32，推荐组件将第一增强平滑量减去第二增强平滑量，加上第三增强平滑量，再加上第四增强平滑量，得到关联信息与源信息的关联度X。该关联着可以是表示关联信息与源信息的相关性的数值X＝Log(itemp，itemq)。具体关联度值的计算公式可以如下所示：

Log(itemp，itemq) (公式7)

＝log(N₁₁+a)+log(N₂₂+d)-log(N₁₂+b)-log(N₂₁+c)。

其中，a、b、c、d分别为N₁₁、N₁₂、N₂₁、N₂₂对应的平滑因子。

在一些实施例中，a、b、c、d可以根据试验数据设置。

在一些实施例中，其实现方式可以如下所示：推荐组件多次获取第一数量，将第一平滑因子a初始化为多个第一数量的均值；推荐组件多次获取第二数量，将第二平滑因子b初始化为多个第二数量的均值；推荐组件多次获取第三数量，将第三平滑因子c初始化为多个第三数量的均值；推荐组件多次获取第四数量，将第四平滑因子d初始化为多个第四数量的均值。

在一些实施例中，基于历史用户的数量，推荐组件确定第一平滑因子a。b、c、d则根据整体比例关系进行设定，具体公式可以如下所示。

在一些实施例中，推荐组件计算第二数量N₁₂与第四数量N₂₂的和，得到第二和值N_{_2}；计算第一数量N₁₁与第三数量N₂₁的和，得到第一和值N_{_1}；基于第二和值N_{_2}与第一和值N_{_1}的比值、以及第一平滑因子a，计算第二平滑因子b。其公式可以如下所示：

b＝N_{_2}/N_{_1}*a (公式8)

在一些实施例中，推荐组件计算第三数量N₂₁与第四数量N₂₂的和，得到第四和值N_{2_}；计算第一数量N₁₁与第二数量N₁₂的和，得到第三和值N_{1_}；基于第四和值N_{2_}与第三和值N_{1_}的比值、以及第一平滑因子a，计算第三平滑因子c。其公式可以如下所示：

c＝N_{2_}/N_{1_}*a (公式9)

在一些实施例中，基于第二和值N_{_2}与第一和值N_{_1}的比值、第四和值N_{2_}与第三和值N_{1_}的比值、以及第一平滑因子a，推荐组件计算第四平滑因子d。其公式可以如下所示：

d＝(N_{2_}*N_{_2})/(N_{1_}*N_{1_})*a (公式10)

平滑因子的设置对结果的准确性有较大的影响，其最优值由所处理的数据量级、分布情况、倾斜程度决定。

在一些实施例中，平滑因子可以根据实验数据设置。具体可以将第一平滑因子a、第二平滑因子b、第三平滑因子c、第四平滑因子d分别初始化为N₁₁、N₁₂、N₂₁、N₂₂各自的均值，然后通过线上AB测试的方式进行调整和优化。当然其它初始化方式也是可行的，比如根据对数据量级和分布的统计分析人工设定初始值等等。

AB测试的实现方式可以是：在相同的时间维度下，分别让组成成分相似的用户群组随机的访问需要对比的几个版本，收集各群组的业务数据，最后评估出最好的版本正式采用。

当采用下面表(6)中的数值时，X＝Log(itemp，itemq5)：

	Item q5	！Item q5
				Item p	1	49	50
！Item p	5	945	950
					6	994	1000

表(6)

Log(p，q5)＝logN₁₁+logN₂₂-logN₁₂-logN₂₁ (公式11)

＝log(1)+log(945)–log(49)–log(5)

≈0+9.8842-5.6147-2.3219＝1.9476

Log(p，q5)>Log(p，q1)，由此可以得出q5相对于q1，与p的相关性更强。

但是通过查看上表数据，发现数据倾斜问题非常严重(商品q5的行为用户数一共才6个，其中与p的共同行为用户数只有1个)，这种情况可能是某个用户看了p后无意间被q5吸引而产生，仅根据这一个用户的行为判断p和q5非常相关显然是不准确、不令人信服的。为了缓解数据倾斜所带来的问题，本发明实施例增加4个平滑因子(a＝2，b＝40，c＝20，d＝400)。

当采用下面表(7)中的数值时，X＝Log(itemp，itemq5)：

	Item q5	！Item q5
				Item p	3	89	92
！Item p	25	1345	1370
					28	1434	1462

表(7)

LogX’(p，q5) (公式12)

＝log(N₁₁+a)+log(N₂₂+d)–log(N₁₂+b)–log(N₂₁+c)

＝log(3)+log(1345)–log(89)–log(25)

≈1.5849+10.3934-6.4757-4.6438＝0.8588

可以看出，经过平滑处理后的LogX’(p，q5)仍然大于0，但已经小于1了。平滑处理保留了原有的正相关性，且有效缓解了数据倾斜带来的不准确性，大幅度提高了信息推荐的精度。

在一些实施例中，根据历史用户针对关联信息是否具有行为特征数据，将历史用户分组得到用户组之前，还包括：推荐组件利用数据清洗的方法对行为特征数据进行预处理。如此设计可以减少无效数据，减少数据运算量，提高后续的信息推荐的精度。

在一些实施例中，在图2的一个或者多个实施例的确定源信息和关联信息的关联度的基础上，还可以进行信息推荐，其实现方式可以包括以下步骤：

获取上述的源信息和关联信息的关联度；

当目标用户对源信息具有行为特征数据时，根据关联度，从关联信息中选取与源信息关联紧密的目标信息并推荐给目标用户。

图3是本发明一实施例的信息推荐的方法的流程示意图。

如图3所示，该方法包括以下步骤：

S301，获取对用户商品评分矩阵R。

在本实施例中，使用行为用户数进行计算，不需要用到用户的具体评分，评分只需要用到0和1两种值。矩阵R内可以只有0和1两种值。

S302，对商品的行为用户按所属店铺(例如店铺A)进行聚合。

S303，得到用户店铺行为矩阵R’。例如，浏览、收藏、购买商品等行为。有行为可以用1表示，没有行为可以用0表示。

S304，对每个店铺的行为用户进行计数，再由商品-店铺映射关系得到每个商品的N。

S305，对每个商品的行为用户进行计数，得到N1_。

S306，计算对每个商品没有行为用户进行计数，N2_＝N-N1_。

S307，遍历一个用户的行为商品，商品两两配对并分别计数为1。对每个用户重复该步骤，如果商品对在前面用户的计算中已经出现过，则对其计数进行累加。计算完成后，得到商品对集合P和每个商品对的共同行为用户数N₁₁。

S308，遍历商品对<itemp，itemq>。

S309，获取itemp所在店铺的行为用户集Up。

S310，获取itemq所在店铺的行为用户集Uq。

S311，计算仅对itemp有行为的用户数N₁₂，计算仅对itemq有行为的用户数N₂₁，计算仅对itemp和itemq均没有行为的用户数N₂₂。

S312，对商品对集合P中的每个商品对重复步骤S308，同时利用上面LogX公式计算相关性值，即可得到每个商品的关联商品及相关分值。

S313，将关联商品itemq排列并向用户推荐。

在本实施例中，该流程的执行主体可以是推荐组件。可以理解，推荐组件可以更换为控制器、处理器等。

需要说明的是，在不冲突的情况下，本领域的技术人员可以按实际需要将上述的操作步骤的顺序进行灵活调整，或者将上述步骤进行灵活组合等操作。为了简明，不再赘述各种实现方式。另外，各实施例的内容可以相互参考引用。

图4是本发明一实施例的确定信息关联度的装置结构示意图。

如图4所示，该装置400可以包括：数据采集器410、用户分组器420、用户分类器430和关联度计算器440。数据采集器410和用户分类器430分别与用户分组器420耦合。用户分类器430和关联度计算器440耦合。其中：数据采集器和用户分类器分别与用户分组器耦合，用户分类器和关联度计算器耦合，其中：数据采集器410可以用于采集历史用户针对源信息和关联信息的行为特征数据；用户分组器420可以用于根据历史用户对关联信息是否具有行为特征数据，将历史用户进行分组，得到至少两个用户组；用户分类器430可以用于根据用户组对源信息是否具有行为特征数据，将用户组进行分类，得到至少两个用户类；关联度计算器440可以基于各个用户类中用户的数量，确定源信息和关联信息的关联度。

由此，上述发明实施例可以通过采集历史用户针对源信息和/或关联信息的行为特征数据(如浏览行为)，先根据历史用户针对关联信息是否具有行为特征数据，先将历史用户分组；再根据用户组针对源信息是否具有行为特征数据，将所分的小组进行分类，可以实现在所分的各个小组内分别研究是否对源信息具有浏览行为的比例，通过对比不同组间的该比例差异可以精确得到关联信息与源信息的关联度。再根据精确的关联度，可以从关联信息中选取与源信息关联紧密的目标信息并推荐给目标用户。上述实施例不仅计算简单、直观，还提升了推荐的精确度。

在一些实施例中，用户分组器420可以包括：第一分组元件和第二分组元件。其中，第一分组元件可以用于当历史用户针对关联信息具有行为特征数据时，将历史用户分为关联组；第二分组元件可以用于当历史用户针对关联信息不具有行为特征数据时，将历史用户分为不关联组。

在一些实施例中，用户分类器430可以包括：第一分类元件、第二分类元件、第三分类元件、第四分类元件。其中，第一分类元件可以用于当关联组针对源信息具有行为特征数据时，将关联组分为源关联类，并得到源关联类中历史用户的第一数量；第二分类元件可以用于当关联组针对源信息不具有行为特征数据时，推荐组件将关联组分为非源关联类，并得到非源关联类中历史用户的第三数量；第三分类元件可以用于当不关联组针对源信息具有行为特征数据时，将不关联组分为源不关联类，并得到源不关联类中历史用户的第二数量；第四分类元件可以用于当不关联组针对源信息不具有行为特征数据时，将不关联组分为非源不关联类，并得到非源不关联类中历史用户的第四数量。

在一些实施例中，关联度计算器440可以包括：第一比值元件、第二比值元件和第三比值元件。其中，第一比值元件可以用于计算第一数量与第二数量的第一比值；第二比值元件可以用于计算第三数量与第四数量的第二比值；第三比值元件可以用于计算第一比值与第二比值的第三比值，并将第三比值作为关联信息与源信息的关联度。

在一些实施例中，关联度计算器440可以包括：数量平滑元件和加减元件。其中，数量平滑元件可以用于分别对第一数量、第二数量、第三数量和第四数量进行平滑处理，得到第一平滑量、第二平滑量、第三平滑量和第四平滑量；加减元件可以用于将第一平滑量减去第二平滑量，减去第三平滑量，再加上第四平滑量，得到关联信息与源信息的关联度。

在一些实施例中，关联度计算器440可以包括：增强平滑元件和增强加减元件。其中，增强平滑元件可以用于将第一数量加上第一平滑因子，将第二数量加上第二平滑因子，将第三数量加上第三平滑因子，将第四数量加上第四平滑因子之后，再进行平滑处理，分别得到第一增强平滑量、第二增强平滑量、第三增强平滑量和第四增强平滑量；增强加减元件可以用于将第一增强平滑量减去第二增强平滑量，减去第三增强平滑量，再加上第四增强平滑量，得到关联信息与源信息的相关性的数值。

在一些实施例中，关联度计算器440可以包括：第一因子元件、第二因子元件、第三因子元件和第四因子元件。其中，第一因子元件可以用于基于历史用户的数量，确定第一平滑因子；第二因子元件可以用于计算第二数量与第四数量的和，得到第二和值；计算第一数量与第三数量的和，得到第一和值；基于第二和值与第一和值的比值、以及第一平滑因子，计算第二平滑因子；第三因子元件可以用于计算第三数量与第四数量的和，得到第四和值；计算第一数量与第二数量的和，得到第三和值；基于第四和值与第三和值的比值、以及第一平滑因子，计算第三平滑因子；第四因子元件可以用于基于第二和值与第一和值的比值、第四和值与第三和值的比值、以及第一平滑因子，计算第四平滑因子。

在一些实施例中，关联度计算器440可以包括：第一初始元件、第二初始元件、第三初始元件、第四初始元件和再处理元件。其中，第一初始元件可以用于多次获取第一数量，将第一平滑因子初始化为多个第一数量的均值；第二初始元件可以用于多次获取第二数量，将第二平滑因子初始化为多个第二数量的均值；第三初始元件可以用于多次获取第三数量，将第三平滑因子初始化为多个第三数量的均值；第四初始元件可以用于多次获取第四数量，将第四平滑因子初始化为多个第四数量的均值；再处理元件可以用于推荐组件将初始化后的第一平滑因子、初始化后的第二平滑因子、初始化后的第三平滑因子和初始化后的第四平滑因子，通过AB测试的方式进行调整和优化。

在一些实施例中，该装置400可以包括：数据预处理器。数据预处理器可以用于推荐组件利用数据清洗的方法对行为特征数据进行预处理。

在一些实施例中，行为特征数据包括以下数据中的一种或者多种：浏览特征数据、收藏特征数据、购买特征数据、评价特征数据。

需要说明的是，上述各实施例的装置可作为上述各实施例的用于各实施例的方法中的执行主体，可以实现各个方法中的相应流程，实现相同的技术效果，为了简洁，此方面内容不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。例如，将2个元件集成在一个器件中。1个器件也可以分为两个单独的元件。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令，当其在计算机上运行时，使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

图5是本发明一实施例的信息推荐的装置结构示意图。

如图5所示，该装置500可以包括：数据采集器410、用户分组器420、用户分类器430、关联度计算器440和信息推荐器450。

本实施例是在图4实施例的基础上增加了信息推荐器450。信息推荐器450可以用于当目标用户对源信息具有行为特征数据时，根据关联度，从关联信息中选取与源信息关联紧密的目标信息并推荐给目标用户。

图6是本发明一实施例的信息推荐的装置的框架示意图。

如图6所示，该框架可以包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行图2和图3实施例所做的各种操作。在RAM603中，还存储有系统架构操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种确定信息关联度的方法，其特征在于，包括：

采集历史用户针对源信息和关联信息的行为特征数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述历史用户对所述关联信息是否具有所述行为特征数据，将所述历史用户进行分组，得到至少两个用户组，包括：

当所述历史用户对所述关联信息具有所述行为特征数据时，将所述历史用户分为关联组；

当所述历史用户对所述关联信息不具有所述行为特征数据时，将所述历史用户分为不关联组。

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户组对所述源信息是否具有所述行为特征数据，将所述用户组进行分类，得到至少两个用户类，包括：

当所述关联组对所述源信息具有所述行为特征数据时，将所述关联组分为源关联类；

当所述关联组对所述源信息不具有所述行为特征数据时，将所述关联组分为非源关联类；

当所述不关联组对所述源信息具有所述行为特征数据时，将所述不关联组分为源不关联类；

当所述不关联组对所述源信息不具有所述行为特征数据时，将所述不关联组分为非源不关联类。

4.根据权利要求3所述的方法，其特征在于，所述基于各个所述用户类中用户的数量，确定所述源信息和所述关联信息的关联度，包括：

获取所述源关联类、所述源不关联类、所述非源关联类、所述非源不关联类中用户的数量分别为第一数量、第二数量、第三数量、第四数量；

计算所述第一数量与所述第二数量的第一比值；

计算所述第三数量与所述第四数量的第二比值；

计算所述第一比值与所述第二比值的第三比值，并将所述第三比值作为所述源信息和所述关联信息的关联度。

5.根据权利要求3所述的方法，其特征在于，所述基于各个所述用户类中用户的数量，确定所述源信息和所述关联信息的关联度，包括：

分别对所述第一数量、所述第二数量、所述第三数量和所述第四数量进行平滑处理，得到第一平滑量、第二平滑量、第三平滑量和第四平滑量；

将所述第一平滑量减去所述第二平滑量，减去所述第三平滑量，再加上所述第四平滑量，得到所述源信息和所述关联信息的关联度。

6.根据权利要求3所述的方法，其特征在于，所述基于各个所述用户类中用户的数量，确定所述源信息和所述关联信息的关联度，包括：

将所述第一数量加上第一平滑因子，将所述第二数量加上第二平滑因子，将所述第三数量加上第三平滑因子，将所述第四数量加上第四平滑因子之后，再进行平滑处理，分别得到第一增强平滑量、第二增强平滑量、第三增强平滑量和第四增强平滑量；

将所述第一增强平滑量减去所述第二增强平滑量，减去所述第三增强平滑量，再加上所述第四增强平滑量，得到所述源信息和所述关联信息的关联度。

7.根据权利要求6所述的方法，其特征在于，还包括：

基于所述历史用户的数量，确定所述第一平滑因子；

计算所述第二数量与所述第四数量的和，得到第二和值；计算所述第一数量与所述第三数量的和，得到第一和值；基于所述第二和值与第一和值的比值、以及所述第一平滑因子，计算所述第二平滑因子；

计算所述第三数量与所述第四数量的和，得到第四和值；计算所述第一数量与所述第二数量的和，得到第三和值；基于所述第四和值与第三和值的比值、以及所述第一平滑因子，计算所述第三平滑因子；

基于所述第二和值与所述第一和值的比值、所述第四和值与所述第三和值的比值、以及所述第一平滑因子，计算所述第四平滑因子。

8.根据权利要求6所述的方法，其特征在于，还包括：

多次获取所述第一数量，将所述第一平滑因子初始化为多个所述第一数量的均值；

多次获取所述第二数量，将所述第二平滑因子初始化为多个所述第二数量的均值；

多次获取所述第三数量，将所述第三平滑因子初始化为多个所述第三数量的均值；

多次获取所述第四数量，将所述第四平滑因子初始化为多个所述第四数量的均值；

将初始化后的第一平滑因子、初始化后的第二平滑因子、初始化后的第三平滑因子和初始化后的第四平滑因子，通过AB测试的方式进行调整和优化。

9.根据权利要求1所述的方法，其特征在于，所述根据所述历史用户对所述关联信息是否具有所述行为特征数据，将所述历史用户进行分组之前，还包括：

利用数据清洗的方法对所述行为特征数据进行预处理。

10.根据权利要求1所述的方法，其特征在于，所述行为特征数据包括以下数据中的一种或者多种：

浏览特征数据、收藏特征数据、购买特征数据、评价特征数据。

11.根据权利要求1-10中任意一项所述的方法，其特征在于，还包括：

12.一种信息推荐的方法，其特征在于，包括：

采集历史用户针对源信息和关联信息的行为特征数据；

获取所述源信息和所述关联信息的关联度；

13.一种确定信息关联度的装置，其特征在于，包括：数据采集器、用户分组器、用户分类器、关联度计算器，

所述数据采集器和所述用户分类器分别与所述用户分组器耦合，所述用户分类器和所述关联度计算器耦合，其中：

所述数据采集器，用于采集历史用户针对源信息和关联信息的行为特征数据；

所述用户分组器，用于根据所述历史用户对所述关联信息是否具有所述行为特征数据，将所述历史用户进行分组，得到至少两个用户组；

所述用户分类器，用于根据所述用户组对所述源信息是否具有所述行为特征数据，将所述用户组进行分类，得到至少两个用户类；

所述关联度计算器，基于各个所述用户类中用户的数量，确定所述源信息和所述关联信息的关联度。

14.一种信息推荐的装置，其特征在于，包括：数据采集器、用户分组器、用户分类器、关联度计算器、信息推荐器，其中：

所述关联度计算器，基于各个所述用户类中用户的数量，确定所述源信息和所述关联信息的关联度；

所述信息推荐器，当目标用户对所述源信息具有所述行为特征数据时，根据所述关联度，从所述关联信息中选取与所述源信息关联紧密的目标信息并推荐给所述目标用户。

15.一种确定信息关联度的装置，其特征在于，包括：

存储器，用于存放程序；

处理器，用于执行所述存储器存储的程序，所述程序使得所述处理器执行如权利要求1-11中任意一项所述的方法。

16.一种信息推荐的装置，其特征在于，包括：

存储器，用于存放程序；

处理器，用于执行所述存储器存储的程序，所述程序使得所述处理器执行如权利要求12所述的方法。

17.一种计算机可读存储介质，包括：

指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-11中任意一项所述的方法。

18.一种计算机可读存储介质，包括：

指令，当所述指令在计算机上运行时，使得计算机执行如权利要求12所述的方法。