CN109815406B

CN109815406B - 一种数据处理、信息推荐方法及装置

Info

Publication number: CN109815406B
Application number: CN201910097860.4A
Authority: CN
Inventors: 李冰锋; 李彪; 冯晓强; 范欣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2022-12-13
Anticipated expiration: 2039-01-31
Also published as: CN109815406A

Abstract

本发明公开了一种数据处理、信息推荐方法及装置，所述数据处理方法包括：将第一数量用户的用户标识进行聚合分桶，得到第二数量的用户分桶，所述第一数量大于第二数量；基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息；利用所述第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型；基于所述用户分桶特征模型确定所述各用户分桶的特征向量；根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶。利用本发明实施例提供的技术方案可以降低用户间相关性的计算量，提高数据处理效率；在信息推荐处理时，可以快速全面的覆盖更多的用户。

Description

一种数据处理、信息推荐方法及装置

技术领域

本发明涉及互联网通信技术领域，尤其涉及一种数据处理、信息推荐方法及装置。

背景技术

互联网和计算机技术随着社会发展越来越普及。人们通过互联网获取各种信息，以满足不同的需求。互联网系统往往需要向用户推荐其关注的、感兴趣的信息，以便提高用户的点击查看率。

目前，常用的信息推荐方法可以包括基于用户的协同过滤(User CollaborativeFiltering，UCF)信息推荐方法，具体的，可以获取用户的浏览信息，根据两个用户的共同点击过的信息数量来确定两个用户之间的相关性，然后，向用户推荐与其相关性高的用户所点击过的信息。但上述现有的方法需要依赖用户大量的历史点击信息，目前大量网站用户规模往往是亿级，导致计算量巨大，且只能覆盖点击信息较多的活跃用户，无法覆盖大量的非活跃用户。因此，需要提供更可靠或更有效的方案，以快速全面的覆盖更多的用户。

发明内容

本发明提供了一种数据处理、信息推荐方法及装置，可以降低用户间相关性的计算量，提高数据处理效率；在信息推荐处理时，可以快速全面的覆盖更多的用户。

一方面，本发明提供了一种数据处理方法，所述方法包括：

将第一数量用户的用户标识进行聚合分桶，得到第二数量的用户分桶，所述第一数量大于第二数量；

基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息；

利用所述第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型；

基于所述用户分桶特征模型确定所述各用户分桶的特征向量；

根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶。

另一方面提供了一种数据处理装置，所述装置包括：

聚合分桶模块，用于将第一数量用户的用户标识进行聚合分桶，得到第二数量的用户分桶，所述第一数量大于第二数量；

特征信息确定模块，用于基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息；

特征学习训练模块，用于利用所述第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型；

特征向量确定模块，用于基于所述用户分桶特征模型确定所述各用户分桶的特征向量；

第一关联用户分桶确定模块，用于根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶。

另一方面提供了一种数据处理服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的数据处理方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的数据处理方法。

另一方面提供了一种信息推荐方法，所述方法包括：

接收用户的信息获取请求；

根据所述用户的用户标识确定所述用户所对应的用户分桶；

基于用户分桶的关联信息确定所述用户分桶的关联用户分桶，所述用户分桶的关联信息包括根据用户分桶的特征向量间的相似度确定出的用户分桶间的关联信息；

将所述关联用户分桶所对应用户的点击信息推荐给所述用户。

另一方面提供了一种信息推荐装置，所述装置包括：

信息获取请求接收模块，用于接收用户的信息获取请求；

用户分桶确定模块，用于根据所述用户的用户标识确定所述用户所对应的用户分桶；

第二关联用户分桶确定模块，用于基于用户分桶的关联信息确定所述用户分桶的关联用户分桶，所述关联用户分桶包括根据用户分桶的特征向量间的相似度确定出的与用户分桶关联的用户分桶；

信息推荐模块，用于将所述关联用户分桶所对应用户的点击信息推荐给所述用户。

另一方面提供了一种信息推荐服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的信息推荐方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的信息推荐方法。

本发明提供的数据处理、信息推荐方法及装置，具有如下技术效果：

本发明能够基于用户的用户标识进行聚合分桶，将大量的用户映射到同一用户分桶；然后，基于用户分桶所对应用户的展点信息确定出可以反映用户分桶所对应的用户的信息点击喜好的用户分桶的特征信息，并以该特征信息为训练数据，进行用户分桶的特征学习训练，进而得到表征用户分桶所对应用户的信息点击喜好特征的特征向量。接着，可以根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶，实现将用户之间的关联通过用户分桶间的关联进行体现，既降低了计算量，也保证了后续推荐可以覆盖全部用户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种信息推荐系统的示意图；

图2是本发明实施例提供的一种数据处理方法的流程示意图；

图3是本发明实施例提供的将第一数量用户的用户标识进行聚合分桶得到第二数量的用户分桶的一种示意图；

图4是本发明实施例提供的基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息的一种流程示意图；

图5是本发明实施例提供的基于深度神经网络进行特征学习训练的一种示意图；

图6是本发明实施例提供的基于预设神经网络进行特征学习训练的一种流程示意图；

图7是本发明实施例提供的基于所述用户分桶特征模型确定所述各用户分桶的特征向量的一种流程示意图；

图8是本发明实施例提供的根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶的一种流程示意图；

图9是本发明实施例提供的根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶的另一种流程示意图；

图10是本发明实施例提供的一种信息推荐方法的流程示意图；

图11是本发明实施例提供的一种数据处理装置的结构示意图；

图12是本发明实施例提供的一种信息推荐装置的结构示意图；

图13是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本发明实施例提供的一种信息推荐系统的示意图，如图1所示，该信息推荐系统可以至少包括服务器01和客户端02。

具体的，本说明书实施例中，所述服务器01可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的，所述服务器01可以用于进行离线训练处理。

具体的，本说明书实施例中，所述客户端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。具体的，所述客户端02可以用于仅在线查询推荐处理。

以下介绍本发明一种离线训练的数据处理方法，图2是本发明实施例提供的一种数据处理方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201：将第一数量用户的用户标识进行聚合分桶，得到第二数量的用户分桶。

在实际应用中，互联网系统往往有大量用户，本说明书实施例中可以将互联网系统的大量用户基于用户的用户标识(用户的用户标识与用户一一对应)进行聚合分桶，以降低后续的计算量。

具体的，本说明书实施例中，可以利用哈希算法将第一数量用户的用户标识映射到第一数量的整数，然后，基于预设模对所述第一数量的整数进行取模运算，得到第二数量的正整数，这里预设模等于所述第二数量；最后，将同一正整数所对应的用户标识聚合到第二数量的与所述正整数相对应的用户分桶中，得到所述第二数量的用户分桶。

具体的，所述第一数量的用户标识可以包括某一互联网系统的全部用户的用户标识，所述第二数量的用户分桶可以为包括有多个用户的用户标识的群组，所述第二数量的正整数可以作为用户分桶的分桶标识，每一个用户分桶对应一个分桶标识。此外，所述第一数量大于所述第二数量；优选地，所述第一数量远大于所述第二数量。

在一个具体的实施例中，假设哈希算法为murmur hash(非加密型哈希函数)，如图3所示，图3是本发明实施例提供的将第一数量用户的用户标识进行聚合分桶得到第二数量的用户分桶的一种示意图。具体的，可以将第一数量n用户的用户标识User_ID₁至User_ID_n(一般的用户标识为字符串)，通过哈希函数murmur hash转成n整数，并基于模K对n个整数进行取模运算(即将n个整数分别除以K，求取相应的余数)，得到的K个正整数作为分桶标识(Hash_ID₁至Hash_ID_k)，接着，将同一Hash_ID所对应的User_ID进行聚类，即相同Hash_ID所对应的User_ID被聚类到同一用户分桶中。这里K个正整数可以作为用户分桶的分桶标识。一般的，K的大小可以根据用户的量级而定，例如用户数n在亿的级别时，K可以取百万量级。哈希映射之后，将m个用户标识User_ID(其中m约等于n/K)聚类到同一分桶标识所对应的用户分桶中。

本说明书实施例中，基于用户的用户标识将大量的用户映射到同一用户分桶，可大大降低后续的计算量级，提高数据处理的效率。

S203：基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息。

本说明书实施例中，用户分桶所对应用户的展点信息可以包括用户分桶中用户标识所对应的用户的展点信息。具体的，如图4所示，所述基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息可以包括：

S2031：获取各用户分桶所对应用户的展点信息。

具体的，所述展点信息可以包括展示信息和展示信息中的点击信息。所述展示信息可以包括互联网系统过去的预设时间段内向用户展示过的信息，相应的，所述展示信息中的点击信息可以包括互联网系统过去的预设时间段内向用户展示过且用户点击过的信息。

具体的，所述预设时间段可以结合实际应用需求进行设置，例如设置为2个月等。

S2033：从所述点击信息中提取点击特征信息。

具体的，可以从所述点击信息中提取关键信息作为点击特征信息，例如点击信息为文章时，所述点击特征信息可以为文章的标题等。

S2035：基于所述展示信息和所述展示信息中的点击信息确定所述展示信息中的非点击信息，从所述非点击信息中提取非点击特征信息。

具体的，所述展示信息中的非点击信息可以包括互联网系统过去的预设时间段内向用户展示过且用户未点击的信息。相应的，非点击特征信息可以为非点击信息中的关键信息。

S2037：基于用户分桶的分桶标识和所述用户分桶所对应的展示信息中的点击信息确定所述用户分桶的画像特征信息。

本说明书实施例中，可以提取用户分桶所对应的点击信息中出现次数由多到少的前M个词语，将该前M个词语作为所述用户分桶的第一画像特征信息，将用户分桶的分桶标识作为所述用户分桶的第二画像特征信息，将所述第一画像特征信息和所述第二画像特征信息作为该用户分桶的画像特征信息。

S2039：将用户分桶的点击特征信息、非点击特征信息和画像特征信息作为所述用户分桶的特征信息。

本说明书实施例中，将用户分桶的点击特征信息、非点击特征信息和画像特征信息作为所述用户分桶的特征信息，可以保证所述用户分桶的特征信息可以反映用户分桶所对应的用户的信息点击喜好。

S205：利用所述第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型。本说明书实施例中，利用所述第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型可以包括但不限于采用深度神经网络、卷积神经网络、递归神经网络或逻辑回归网络等机器学习方式。

在一个具体的实施例中，以深度神经网络进行特征学习训练为例，如图5所示，本说明书实施例中，所述深度神经网络可以包括特征提取层(TAG Enbedding table(D*128)、Hash TAG Enbedding table(d*128)和Hash ID Enbedding table(K*32))、全连接层(TAG_FC_Layer和Hash_FC_Layer(32*128))、激活层(Vsum&softsign)和输出层(cosine_Click_and_Hash、cosine_NonClick_and_Hash和Hingeloss)。

具体的，所述特征提取层可以用于进行特征信息的初始特征向量的提取。所述全连接层可以作为上下两层的节点之间的连接层，将上下两层所得到的各节点数据建立连接关系。每一层输出的都是上一层输入的线性函数，考虑到在实际应用中数据往往不是线性可分的，本说明书实施例中，可以通过激活层的激活函数引入非线性因数，即增加线性校正层，以激活函数softsign(在实际应用中还可以采用其他激活函数)为例，具体的，激活函数softsign可以将上一层输入全部变成-1至1之间的数值。

具体的，所述输出层可以用于基于SGD(Stochastic Gradient Descent，随机梯度下降)进行模型的迭代。具体的，可以在训练过程中利用输出层的cosine_Click_and_Hash层和cosine_NonClick_and_Hash层分别计算出点击特征信息和画像特征信息的特征向量间的余弦距离(这里的余弦距离即特征向量间的相似度，正例得分)，以及非点击特征信息和画像特征信息的特征向量间的余弦距离(这里的余弦距离即特征向量件的相似度，负例得分)。然后，利用Hingeloss层计算正例得分与负例得分的差值error是否大于等于第一阈值；若否，修改该深度神经网络中各层的参数，修改完的数值会使得下一次前馈传输输出的正例得分与负例得分之间的差值变得更大，当该差值达到第一阈值时，可以将当前的深度神经网络作为行为用户分桶特征模型。

具体的，所述第一阈值可以结合实际应用需求进行设置的0至1之间的数值，例如设置为0.3。

此外，需要说明的是，本说明书实施例中特征向量间的相似度并不仅限于上述的特征向量间的余弦距离，在实际应用中，相似度还可以包括但不限于特征向量间的欧氏距离、曼哈顿距离等。

具体的，所述特征提取层TAG Enbedding table(D*128)和所述全连接层TAG_FC_Layer可以用于提取点击特征信息和非点击特征信息的特征向量，一般的，为了保证模型训练过程中正例数据(点击信息)和负例数据(非点击信息)的平衡，点击信息和非点击信息的数量为同一量级的数据，其中，D为点击信息或非点击信息的数量。

具体的，所述特征提取层Hash TAG Enbedding table(d*128)和Hash IDEnbedding table(K*32)，全连接层Hash_FC_Layer(32*128)以及激活层(Vsum&softsign可以用于提取画像特征信息的特征向量。其中，d是画像特征信息中第一画像特征信息的数量，K是画像特征信息中第二画像特征信息(分桶标识)的数量。

此外，需要说明的是，上述深度神经网络中各层的大小不仅限于图5所示D*128、d*128、K*32、32*128和1*128，在实际应用中，还可以结合实际应用设置成其他大小。

在一个具体的实施例中，所述利用第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型可以包括将所述第二数量的用户分桶的特征信息输入预设神经网络，在所述预设神经网络中进行如下处理，如图6所示，可以包括：

S2051：提取点击特征信息、非点击特征信息和画像特征信息的特征向量。

S2053：计算所述点击特征信息和所述画像特征信息的特征向量间的相似度，得到正例得分。

S2055：计算所述非点击特征信息和所述画像特征信息的特征向量间的相似度，得到负例得分。

S2057：计算所述正例得分与负例得分的差值。

S2059：判断所述正例得分与负例得分的差值是否大于等于第一阈值。

S20511：当判断的结果为否时，调整所述预设神经网络中各层的参数重复上述步骤S2051-S2059。

S20513：当判断的结果为是时，将所述差值大于等于第一阈值时的参数所对应的预设神经网络作为所述用户分桶特征模型。

本说明书实施例中，以反映用户的信息点击喜好的特征信息为训练数据，进行用户分桶的特征学习训练，得到的用户分桶特征模型可以用于准确的确定出表征用户分桶所对应用户的信息点击喜好特征的特征向量。

S207：基于所述用户分桶特征模型确定所述各用户分桶的特征向量。

本说明书实施例中，如图7所示，所述基于所述用户分桶特征模型确定所述各用户分桶的特征向量可以包括：

S2071：利用所述用户分桶特征模型确定每一用户分桶的分桶标识所对应的第一特征向量。

具体的，结合附图5中的深度神经网络，本说明书实施例中可以将用户分桶的分桶标识输入用户分桶特征模型中的特征提取层Hash ID Enbedding table(K*32)以得到用户分桶的分桶标识所对应的第一特征向量。

S2073：利用所述用户分桶特征模型确定每一用户分桶的画像特征信息所对应的第二特征向量。

具体的，结合附图5中的深度神经网络，本说明书实施例中可以将用户分桶的画像特征信息输入用户分桶特征模型中的特征提取层Hash TAG Enbedding table(d*128)以得到用户分桶的画像特征信息所对应的第二特征向量。

S2075：基于每一用户分桶的所述第一特征向量和所述第二特征向量确定所述每一用户分桶的特征向量。

具体的，结合附图5中的深度神经网络，本说明书实施例中可以利用全连接层Hash_FC_Layer(32*128)将用户分桶的第一特征向量转换成128维的特征向量；

另外，考虑到画像特征信息往往有多个，在激活层可以利用求和函数Vsum将多个画像特征信息所对应的第二特征向量(128维)进行加权求和；然后，将加权求和后的特征向量(128维)与由第一特征向量转换得到的128维的特征向量通过激活函数softsign可以将输入全部1*128的特征向量，该1*128的特征向量中的每一个元素的数值为-1至1；将该一个元素的数值为-1至1的1*128的特征向量用户分桶的特征向量。

S209：根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶。

本说明书实施例中，所述用户分桶的特征向量间的相似度可以用户分桶中用户之间的信息点击喜好的相似程度。具体的，所述用户分桶的特征向量间的相似度可以看作一维空间上的“距离”，将大量用户分桶的特征向量看作一个“群落”上的各个点，以某一个用户分桶的特征向量为“群落”的中心，其他用户分桶的特征向量作为“群落”上的其他的点；如果“群落”中某一点离“群落”中心越近，代表当前“群落”上的该点对应的用户分桶所对应用户与用户分桶所对应用户的信息点击喜好差异越小，也即代表当前“群落”上的该点对应的用户分桶所对应用户与用户分桶所对应用户的信息点击喜好的关联越大。

在一个具体的实施例中，如图8所示，所述根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶可以包括：

S2091：计算两两用户分桶的特征向量间的相似度。

本说明书实施例中两两用户分桶的特征向量间的相似度可以包括但不限于特征向量间的欧氏距离、余弦距离、曼哈顿距离等。

S2093：将与任一用户分桶的相似度大于等于第二阈值的用户分桶作为所述用户分桶的关联用户分桶。

本说明书实施例中，所述第二阈值可以结合实际应用进行设置0至1之间数值。具体的，例如第二阈值设置为0.7，相应的，与某一用户分桶的相似度大于等于0.7的用户分桶可以作为该用户分桶的关联用户分桶。

在另一个具体的实施例中，如图9所示，所述根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶可以包括：

S2095：计算两两用户分桶的特征向量间的相似度。

S2097：将与任一用户分桶的相似度由高到低的前预设数量个用户分桶作为所述用户分桶的关联用户分桶。

本说明书实施例中，所述预设数量可以结合实际应用进行设置。例如，所述预设数量为10时，可以选取与某一用户分桶的相似度最高的前10个用户分桶可以作为该用户分桶的关联用户分桶。

在实际应用中，在确定每个用户分桶的关联用户分桶之后，可以将用户分桶之间的关联信息进行存储，以便后续基于用户分桶之间的关联信息进行信息的推荐。具体的，可以包括但不限于将每个用户分桶的分桶标识和其关联用户分桶的分桶标识存储在同一表格中的方式来进行用户分桶之间的关联信息的存储。

由以上本说明书实施例提供的技术方案可见，本说明书实施例基于用户的用户标识进行聚合分桶，将大量的用户映射到同一用户分桶，以降低后续的计算量；然后，基于用户分桶所对应用户的展点信息确定出可以反映用户分桶所对应的用户的信息点击喜好的用户分桶的特征信息，并以该特征信息为训练数据，进行用户分桶的特征学习训练，进而得到表征用户分桶所对应用户的信息点击喜好特征的特征向量。接着，可以根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶。后续，可以基于用户分桶间的关联信息进行大量用户的信息推荐，可以全面的覆盖用户，避免了非活跃用户训练数据少、特征学习不够充分，无法覆盖等问题，有效提升后续信息推荐过程的用户召回率。

以下介绍本发明一种信息推荐方法，图10是本发明实施例提供的一种信息推荐方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图10所示，所述方法可以包括：所述方法包括：

S1010：接收用户的信息获取请求。

在实际应用中，用户常常通过一些应用或网页来浏览信息。本说明书实施例中，所述信息获取请求可以包括但不限于用户打开应用或网页的操作所触发的请求。

S1020：根据所述用户的用户标识确定所述用户所对应的用户分桶。

本说明书实施例中，可以利用哈希算法将所述用户的用户标识映射到整数，然后，基于预设模对所述整数进行取模运算，得到余数(即分桶标识)，所述预设模等于所述用户分桶的数量；最后，基于分桶标识确定用户所对应的用户分桶。

S1030：基于用户分桶的关联信息确定所述用户分桶的关联用户分桶。

本说明书实施例中，可以根据用户分桶的分桶标识查找到关联用户分桶的分桶标识，进而确定出所述用户分桶的关联用户分桶。所述用户分桶的关联信息包括根据用户分桶的特征向量间的相似度确定出的用户分桶间的关联信息，具体的，根据用户分桶的特征向量间的相似度确定出的用户分桶间的关联信息可以参见上述相关步骤。

此外，本说明书实施例中可以包括但不限于采用上述相关实施例的技术方案来确定用户分桶的特征向量，在实际应用中，还可以结合其他神经网络模型确定，例如Word2vector。

S1040：将所述关联用户分桶所对应用户的点击信息推荐给所述用户。

本说明书实施例中，可根据关联用户分桶的分桶标识确定出关联用户分桶的用户标识所对应的用户，并获取这些用户的点击信息以进行推荐。

具体的，可以直接将关联用户分桶所对应用户的点击信息全部推送给用户，也可以根据用户分桶间的关联程度选取关联程度较高的一部分推送给用户。

由以上本说明书实施例提供的技术方案可见，本说明书实施例基于用户的用户标识确定用户分桶；然后，基于用户分桶的关联信息确定出该用户分桶的关联用户分桶，进而可以确定与该用户分桶所对应用户具有相似信息点击喜好的用户，并将具有相似信息点击喜好的用户的点击信息推荐给该用户。本说明书实施例中基于用户分桶间的关联进行大量用户的信息推荐，可以全面的覆盖用户，避免了无法覆盖非活跃用户的问题，有效提升信息推荐后的用户召回率。

本发明实施例还提供了一种数据处理装置，如图11所示，所述装置包括：

聚合分桶模块1110，可以用于将第一数量用户的用户标识进行聚合分桶，得到第二数量的用户分桶，所述第一数量大于第二数量；

特征信息确定模块1120，可以用于基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息；

特征学习训练模块1130，可以用于利用所述第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型；

特征向量确定模块1140，可以用于基于所述用户分桶特征模型确定所述各用户分桶的特征向量；

第一关联用户分桶确定模块1150，可以用于根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶。

在一些实施例中，所述聚合分桶模块1110可以包括：

第一映射单元，用于利用哈希算法将第一数量用户的用户标识映射到第一数量的整数；

第一取模运算单元，用于基于预设模对所述第一数量的整数进行取模运算，得到第二数量的正整数，所述预设模等于所述第二数量；

聚合单元，用于将同一正整数所对应的用户标识聚合到第二数量的与所述正整数相对应的用户分桶中，得到所述第二数量的用户分桶。

在一些实施例中，所述特征信息确定模块1120可以包括：

展点信息获取单元，可以用于获取各用户分桶所对应用户的展点信息，所述展点信息包括展示信息和展示信息中的点击信息；

点击特征信息提取单元，可以用于从所述点击信息中提取点击特征信息；

非点击特征信息提取单元，可以用于基于所述展示信息和所述展示信息中的点击信息确定所述展示信息中的非点击信息，从所述非点击信息中提取非点击特征信息；

画像特征信息渠道单元，可以用于基于用户分桶的分桶标识和所述用户分桶所对应的展示信息中的点击信息确定所述用户分桶的画像特征信息；

特征信息确定单元，可以用于将用户分桶的点击特征信息、非点击特征信息和画像特征信息作为所述用户分桶的特征信息。

在一些实施例中，所述特征学习训练模块1130可以包括：

数据输入单元，用于将所述第二数量的用户分桶的特征信息输入预设神经网络；

特征向量提取单元，用于提取所述点击特征信息、所述非点击特征信息和所述画像特征信息的特征向量；

正例得分计算单元，可以用于计算所述点击特征信息和所述画像特征信息的特征向量间的相似度，得到正例得分；

负例得分计算单元，可以用于计算所述非点击特征信息和所述画像特征信息的特征向量间的相似度，得到负例得分；

差值计算单元，可以用于计算所述正例得分与负例得分的差值；

判断单元，可以用于判断所述正例得分与负例得分的差值是否大于等于第一阈值；

参数调整单元，用于当所述判断单元判断的结果为否时，调整所述预设神经网络中各层的参数，重复上述特征向量提取至判断处理的步骤；

用户分桶特征模型获取单元，用于当所述判断单元判断的结果为是时，将所述差值大于等于第一阈值时的参数所对应的预设神经网络作为所述用户分桶特征模型。

在一些实施例中，所述特征向量确定模块1140可以包括：

第一特征向量确定单元，用于利用所述用户分桶特征模型确定每一用户分桶的分桶标识所对应的第一特征向量；

第二特征向量确定单元，用于利用所述用户分桶特征模型确定每一用户分桶的画像特征信息所对应的第二特征向量；

第三特征向量确定单元，用于基于每一用户分桶的所述第一特征向量和所述第二特征向量确定所述用户分桶的特征向量。

在一些实施例中，所述第一关联用户分桶确定模块包括：

相似度计算单元，可以用于计算两两用户分桶的特征向量间的相似度；

第一关联用户分桶确定单元，可以用于将与任一用户分桶的相似度大于等于第二阈值的用户分桶作为所述用户分桶的关联用户分桶；

或，

第二关联用户分桶确定单元，可以用于将与任一用户分桶的相似度由高到低的前预设数量个用户分桶作为所述用户分桶的关联用户分桶。

所述的装置实施例中的装置与方法实施例基于同样地发明构思。

本发明实施例提供了一种数据处理服务器，该数据处理服务器包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的数据处理方法。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种数据处理方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的数据处理方法。

本发明实施例还提供了一种信息推荐装置，如图12所示，所述装置可以包括：

信息获取请求接收模块1210，可以用于接收用户的信息获取请求；

用户分桶确定模块1220，可以用于根据所述用户的用户标识确定所述用户所对应的用户分桶；

第二关联用户分桶确定模块1230，可以用于基于用户分桶的关联信息确定所述用户分桶的关联用户分桶，所述关联用户分桶包括根据用户分桶的特征向量间的相似度确定出的与用户分桶关联的用户分桶；

信息推荐模块1240，可以用于将所述关联用户分桶所对应用户的点击信息推荐给所述用户。

在一些实施例中，所述用户分桶确定模块1220可以包括：

第二映射单元，可以用于利用哈希算法将所述用户的用户标识映射到整数；

第二取模运算单元，可以用于基于预设模对所述整数进行取模运算，得到分桶标识，所述预设模等于所述用户分桶的数量；

用户分桶确定单元，可以用于基于所述分桶标识确定所述用户所对应的用户分桶。

本发明实施例提供了一种信息推荐客户端，该信息推荐客户端包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的信息推荐方法。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于客户端之中以保存用于实现方法实施例中一种信息推荐方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的信息推荐方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例所述存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例所提供的数据处理方法和信息土建方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图13是本发明实施例提供的一种数据处理方法的服务器的硬件结构框图。如图13所示，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(CentralProcessing Units，CPU)1310(处理器1310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1330，一个或一个以上存储应用程序1323或数据1322的存储介质1320(例如一个或一个以上海量存储设备)。其中，存储器1330和存储介质1320可以是短暂存储或持久存储。存储在存储介质1320的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1310可以设置为与存储介质1320通信，在服务器1300上执行存储介质1320中的一系列指令操作。服务器1300还可以包括一个或一个以上电源1360，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1340，和/或，一个或一个以上操作系统1321，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1300的通信供应商提供的无线网络。在一个实例中，输入输出接口1340包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1340可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图13所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1300还可包括比图13中所示更多或者更少的组件，或者具有与图13所示不同的配置。

由上述本发明提供的数据处理方法、装置、服务器或存储介质的实施例可见，本发明中通过基于用户的用户标识进行聚合分桶，将大量的用户映射到同一用户分桶，以降低后续的计算量；然后，基于用户分桶所对应用户的展点信息确定出可以反映用户分桶所对应的用户的信息点击喜好的用户分桶的特征信息，并以该特征信息为训练数据，进行用户分桶的特征学习训练，进而得到表征用户分桶所对应用户的信息点击喜好特征的特征向量。接着，可以根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶。后续，可以基于用户分桶间的关联信息进行大量用户的信息推荐，可以全面的覆盖用户，避免了非活跃用户训练数据少、特征学习不够充分，无法覆盖等，有效提升后续信息推荐过程的用户召回率。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息，所述各用户分桶的特征信息包括所述各用户分桶的点击特征信息、非点击特征信息和画像特征信息；

利用所述第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型；所述用户分桶特征模型是基于正例得分和负例得分间的差值为损失，进行特征学习训练得到的，所述正例得分为所述点击特征信息和所述画像特征信息的特征向量间的相似度，所述负例得分为所述非点击特征信息和所述画像特征信息的特征向量间的相似度；

2.根据权利要求1所述的方法，其特征在于，所述将第一数量用户的用户标识进行聚合分桶，得到第二数量的用户分桶包括：

利用哈希算法将第一数量用户的用户标识映射到第一数量的整数；

基于预设模对所述第一数量的整数进行取模运算，得到第二数量的正整数，所述预设模等于所述第二数量；

将同一正整数所对应的用户标识聚合到第二数量的与所述正整数相对应的用户分桶中，得到所述第二数量的用户分桶。

3.根据权利要求1所述的方法，其特征在于，所述基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息包括：

获取各用户分桶所对应用户的展点信息，所述展点信息包括展示信息和展示信息中的点击信息；

从所述点击信息中提取点击特征信息；

基于所述展示信息和所述展示信息中的点击信息确定所述展示信息中的非点击信息，从所述非点击信息中提取非点击特征信息；

基于用户分桶的分桶标识和所述用户分桶所对应的展示信息中的点击信息确定所述用户分桶的画像特征信息；

将用户分桶的点击特征信息、非点击特征信息和画像特征信息作为所述用户分桶的特征信息。

4.根据权利要求3所述的方法，其特征在于，所述利用所述第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型包括：

将所述第二数量的用户分桶的特征信息输入预设神经网络，在所述预设神经网络中进行如下处理：

提取所述点击特征信息、所述非点击特征信息和所述画像特征信息的特征向量；

计算所述点击特征信息和所述画像特征信息的特征向量间的相似度，得到正例得分；

计算所述非点击特征信息和所述画像特征信息的特征向量间的相似度，得到负例得分；

计算所述正例得分与负例得分的差值；

判断所述正例得分与负例得分的差值是否大于等于第一阈值；

当判断的结果为否时，调整所述预设神经网络中各层的参数，至当前提取的特征向量所确定的正例得分与负例得分的差值大于等于第一阈值；

将所述差值大于等于第一阈值时的参数所对应的预设神经网络作为所述用户分桶特征模型。

5.根据权利要求1所述的方法，其特征在于，所述基于所述用户分桶特征模型确定所述各用户分桶的特征向量包括：

利用所述用户分桶特征模型确定每一用户分桶的分桶标识所对应的第一特征向量；

利用所述用户分桶特征模型确定每一用户分桶的画像特征信息所对应的第二特征向量；

基于每一用户分桶的所述第一特征向量和所述第二特征向量确定所述每一用户分桶的特征向量。

6.根据权利要求1所述的方法，其特征在于，所述根据各用户分桶的特征向量间的相似度确定各用户分桶的关联用户分桶包括：

计算两两用户分桶的特征向量间的相似度；

将与任一用户分桶的相似度大于等于第二阈值的用户分桶作为所述用户分桶的关联用户分桶；

或，将与任一用户分桶的相似度由高到低的前预设数量个用户分桶作为所述用户分桶的关联用户分桶。

7.一种信息推荐方法，其特征在于，所述方法包括：

接收用户的信息获取请求；

根据所述用户的用户标识确定所述用户所对应的用户分桶；

基于用户分桶的关联信息确定所述用户分桶的关联用户分桶，所述用户分桶的关联信息包括根据用户分桶的特征向量间的相似度确定出的用户分桶间的关联信息；所述用户分桶的特征向量为基于用户分桶特征模型确定的，所述用户分桶特征模型是基于正例得分和负例得分间的差值为损失，进行特征学习训练得到的，所述正例得分为各用户分桶的点击特征信息和所述各用户分桶的画像特征信息的特征向量间的相似度，所述负例得分为所述各用户分桶的非点击特征信息和所述各用户分桶的画像特征信息的特征向量间的相似度；

8.根据权利要求7所述的方法，其特征在于，所述根据所述用户的用户标识确定所述用户所对应的用户分桶包括：

利用哈希算法将所述用户的用户标识映射到整数；

基于预设模对所述整数进行取模运算，得到分桶标识，所述预设模等于所述用户分桶的数量；

基于所述分桶标识确定所述用户所对应的用户分桶。

9.一种数据处理装置，其特征在于，所述装置包括：

特征信息确定模块，用于基于各用户分桶所对应用户的展点信息确定所述各用户分桶的特征信息，所述各用户分桶的特征信息包括所述各用户分桶的点击特征信息、非点击特征信息和画像特征信息；

特征学习训练模块，用于利用所述第二数量的用户分桶的特征信息进行用户分桶的特征学习训练，得到用户分桶特征模型；所述用户分桶特征模型是基于正例得分和负例得分间的差值为损失，进行特征学习训练得到的，所述正例得分为所述点击特征信息和所述画像特征信息的特征向量间的相似度，所述负例得分为所述非点击特征信息和所述画像特征信息的特征向量间的相似度；

10.一种信息推荐装置，其特征在于，所述装置包括：

信息获取请求接收模块，用于接收用户的信息获取请求；

第二关联用户分桶确定模块，用于基于用户分桶的关联信息确定所述用户分桶的关联用户分桶，所述关联用户分桶包括根据用户分桶的特征向量间的相似度确定出的与用户分桶关联的用户分桶；所述用户分桶的特征向量为基于用户分桶特征模型确定的，所述用户分桶特征模型是基于正例得分和负例得分间的差值为损失，进行特征学习训练得到的，所述正例得分为各用户分桶的点击特征信息和所述各用户分桶的画像特征信息的特征向量间的相似度，所述负例得分为所述各用户分桶的非点击特征信息和所述各用户分桶的画像特征信息的特征向量间的相似度；

11.一种数据处理服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的数据处理方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的数据处理方法。

13.一种信息推荐服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求7至8任一所述的信息推荐方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求7至8任一所述的信息推荐方法。