CN108829808B

CN108829808B - 一种页面个性化排序方法、装置及电子设备

Info

Publication number: CN108829808B
Application number: CN201810581103.XA
Authority: CN
Inventors: 王喆; 李涛
Original assignee: Qilin Hesheng Network Technology Inc
Current assignee: Qilin Hesheng Network Technology Inc
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2021-07-13
Anticipated expiration: 2038-06-07
Also published as: CN108829808A

Abstract

本申请公开了一种页面个性化排序方法、装置和电子设备，所述方法包括：获取预设时间段内信息内容推荐系统的使用用户的用户特征、信息内容推荐列表中的信息内容特征，以及所述使用用户在所述预设时间段内的历史行为数据集合；确定所述信息内容推荐列表中的信息内容展示位置的倾向分数；构建和训练排序学习模型；基于所述使用用户的用户特征、所述信息内容推荐列表中的信息内容特征、所述使用用户当前所在的环境特征以及所述排序学习模型，确定所述信息内容推荐列表中的信息内容在所述信息内容推荐列表中的推荐顺序。

Description

一种页面个性化排序方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种页面个性化排序方法、装置及电子设备。

背景技术

目前，随着互联网技术的快速发展，在满足用户对信息需求的同时，也为用户提供了大幅增长的信息量，构成了信息爆炸的现状。用户在面对这些大量信息时往往无法从中获取真正对自己有价值或者感兴趣的信息，为了解决这个问题，推荐系统应运而生，推荐系统可以基于用户的兴趣特点、点击行为、购买行为等用户特征和行为来为用户推荐信息。

现有技术中，以为用户进行信息推荐为例，在为用户确定了多个待推荐的候选信息时，通常通过排序学习算法，即通过整合大量复杂特征，比如可以通过整合用户特征、环境特征以及待推荐的候选信息的特征并自动学习最优参数进而优化包含这些待推荐的候选信息的排序列表，以便更好地满足用户的个性化需求。

现有的排序学习算法主要分为三类：点级、对级和列表级。其中，点级排序仅针对排序列表中的一个单独项目，比如新闻推荐列表中的新闻条目，可以通过预测使用用户对这些新闻条目的评分来为使用用户确定推荐的新闻条目的顺序；对级排序是根据用户显式反馈或隐式反馈来定义排序列表中项目对之间的偏序关系，比如新闻推荐列表中的新闻之间的偏序关系，最终通过整合排序列表中所有项目对的偏序关系得到整个排序列表；列表级排序是针对排序列表中的整个项目，对整个排序列表进行优化，比如对新闻列表中的所有新闻条目进行优化，其计算量较大。

此外，一方面，点级和对级排序的优化目标与列表排序优化并不完全一致，无法可靠地提高排序质量；另一方面，点级排序和列表级排序还受限于推荐系统中的使用用户的显式反馈(比如用户对新闻列表中的新闻条目的评分)较少，不适用于以隐式反馈为主的推荐系统场景；而且，在推荐系统中，推荐列表中头部内容(排名靠前的内容，比如排名靠前的新闻条目)的排序质量往往更加重要，而点级排序和对级排序则无法针对头部内容的排序质量进行优化。

因此，如何提高排序质量，使得排序结果能够更好地满足用户的个性化需求，仍然是现有的推荐系统亟待解决的问题。

发明内容

本申请实施例提供了一种页面个性化排序方法、装置及电子设备，以解决现有技术中的排序方法不够优化的问题。

为解决上述技术问题，本申请实施例是这样实现的：

第一方面，提出了一种页面个性化排序方法，包括：

获取预设时间段内信息内容推荐系统的使用用户的用户特征、信息内容推荐列表中的信息内容特征，以及所述使用用户在所述预设时间段内的历史行为数据集合；所述历史行为数据包括所述使用用户产生行为的信息内容对应的信息内容展示位置信息；

基于所述使用用户的用户特征、所述信息内容推荐列表中的内容特征以及所述历史行为数据集合，确定所述信息内容推荐列表中的信息内容展示位置的倾向分数；所述信息内容展示位置的倾向分数用于表征所述用户对所述信息内容展示位置的倾向程度；

基于所述使用用户的用户特征、所述信息内容推荐列表中的信息内容特征、所述历史行为数据集合以及所述信息内容推荐列表中的信息内容展示位置的倾向分数，构建和训练排序学习模型；所述排序学习模型用于衡量所述使用用户对所述信息内容推荐列表中信息内容的选择倾向性；

基于所述使用用户的用户特征、所述信息内容推荐列表中的信息内容特征、所述使用用户当前所在的环境特征以及所述排序学习模型，确定所述信息内容推荐列表中的信息内容在所述信息内容推荐列表中的推荐顺序。

第二方面，提出了一种页面个性化排序装置，包括：

获取单元，用于获取预设时间段内信息内容推荐系统的使用用户的用户特征、信息内容推荐列表中的信息内容特征，以及所述使用用户在所述预设时间段内的历史行为数据集合；所述历史行为数据包括所述使用用户产生行为的信息内容对应的信息内容展示位置信息；

第一确定单元，用于基于所述使用用户的用户特征、所述信息内容推荐列表中的内容特征以及所述历史行为数据集合，确定所述信息内容推荐列表中的信息内容展示位置的倾向分数；所述内容展示位置的倾向分数用于表征所述用户对所述信息内容展示位置的倾向程度；

构建单元，用于基于所述使用用户的用户特征、所述信息内容推荐列表中的信息内容特征、所述历史行为数据集合以及所述推荐列表中的内容展示位置的倾向分数，构建和训练排序学习模型；所述排序学习模型用于衡量所述使用用户对所述信息内容推荐列表中信息内容的选择倾向性；

第二确定单元，用于基于所述使用用户的用户特征、所述信息内容推荐列表中的信息内容特征、所述使用用户当前所在的环境特征以及所述排序学习模型，确定所述信息内容推荐列表中的信息内容在所述信息内容推荐列表中的推荐顺序。

第三方面，提出了一种电子设备，该电子设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

本申请实施例采用上述技术方案至少可以达到下述技术效果：

本发明实施例中，能够获取并基于使用用户的用户特征、信息内容推荐列表中的内容特征以及历史行为数据集合，确定信息内容推荐列表中的信息内容展示位置的倾向分数；再基于使用用户的用户特征、信息内容推荐列表中的信息内容特征、历史行为数据集合以及信息内容推荐列表中的信息内容展示位置的倾向分数，构建和训练排序学习模型；最后便可以基于各使用用户的用户特征、信息内容推荐列表中的信息内容特征、以及各使用用户当前所在的环境特征以及排序学习模型，确定信息内容推荐列表中的信息内容在该信息内容推荐列表中的推荐顺序。

以新闻条目推荐列表为例，由于本发明实施例提供的页面个性化排序方法不仅考虑了使用用户的用户特征，比如使用用户的性别、年龄、教育程度和婚姻状况等用户特征、新闻条目推荐列表中的各新闻条目的信息内容特征，比如新闻中的关键词、新闻分类等特征、使用用户当前的环境特征，比如使用用户当前所处的地理环境、网络环境等特征，还考虑了使用用户对新闻条目推荐列表中所有可能的新闻条目的展示位置的选择倾向性，因此确定的新闻条目的排序结果也就能够更符合使用用户的个性化需求。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书一个实施例提供的一种排序方法的实施流程示意图；

图2为本说明书一个实施例提供的一种电子设备的结构示意图；

图3为本说明书一个实施例提供的一种排序装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

为解决现有技术中的排序方法不够优化的问题，本说明书实施例提供一种页面个性化排序方法。本说明书实施例提供的页面个性化排序方法的执行主体可以但不限于服务器、个人电脑等能够被配置为执行本发明实施例提供的该方法终端中的至少一种。

为便于描述，下文以该方法的执行主体为能够执行该方法的服务器为例，对该方法的实施方式进行介绍。可以理解，该方法的执行主体为服务器只是一种示例性的说明，并不应理解为对该方法的限定。

具体地，本说明书一个或多个实施例提供的一种页面个性化排序方法的实现流程示意图如图1所示，包括：

步骤110，获取预设时间段内信息内容推荐系统的使用用户的用户特征、信息内容推荐列表中的信息内容特征，以及使用用户在预设时间段内的历史行为数据集合；

其中，历史行为数据包括使用用户产生行为的信息内容对应的信息内容展示位置信息。使用用户的用户特征可以包括下述中的一种或多种：使用用户的性别、年龄、教育程度、婚姻状况。信息内容推荐列表中的内容特征可以包括下述中的一种或多种：信息内容推荐列表中的信息内容的关键词、分类、高维特征的嵌入表示。使用用户的环境特征可以包括下述中的一种或多种：使用用户产生对应的日志的时间、使用用户的地理位置、网络环境等。需要说明的是，这里所列举的使用用户的用户特征、信息内容推荐列表中的内容特征以及使用用户的环境特征均是一种示例性的说明，在实际应用中还可以包括其他特征，本发明实施例对此不作限定。

由于目前的推荐系统普遍忽视了信息内容推荐列表中信息内容的位置偏差对使用用户行为的影响，从而无法针对使用用户兴趣偏好进行准确建模，针对这个问题，现有技术往往是通过随机调整推荐列表中部分信息内容的顺序来估算或降低位置偏差，而这则会降低排序的准确度，降低使用用户的用户体验。为了解决这个问题，本发明实施例在构建和训练排序学习模型时，则考虑了信息内容推荐列表中信息内容的位置对信息内容推荐系统的使用用户的行为的影响。

具体来说，获取使用用户在预设时间段内的历史行为数据集合，可以获取使用用户在预设时间段内的使用日志集合S＝{(c,u,v,x_c,k,d)}作为历史行为数据集合；其中，u为使用用户的标识，v为信息内容推荐列表中的内容标识，c用来表征使用用户u对信息内容v的点击状态，当c＝1时，表示使用用户u点击了内容v，c＝0时，表示使用用户u未点击信息内容v，x_c为使用用户u产生对应的日志时的环境特征，k为信息内容v在信息内容推荐列表中的位置(比如信息内容v在推荐列表中的位置k可以是该信息内容推荐列表中的第3个信息内容)，d为信息内容v在信息内容推荐列表中的位置与使用用户u点击的上一个信息内容在信息内容推荐列表中的位置之间的距离(比如信息内容v信息内容推荐列表中的位置k为该信息内容推荐列表中的第3个信息内容、使用用户u点击的上一个信息内容在信息内容推荐列表中的位置可以是该信息内容推荐列表中的第2个内容，那么这两者之间的距离d为1)。

以新闻推荐系统为例，则具体可以获取预设时间段内(比如过去一个月内)新闻推荐系统的使用用户的用户特征、新闻推荐列表中的新闻的内容特征，以及使用用户在预设时间段内的历史行为数据集合，该历史数据集合可以用S＝{(c,u,v,x_c,k,d)}来表示，其中，u为使用用户的标识，v为新闻推荐列表中的内容标识，c用来表征使用用户u对新闻条目v的点击状态，当c＝1时，表示使用用户u点击了新闻条目v，c＝0时，表示使用用户u未点击新闻条目v，x_c为使用用户u产生对应的日志时的环境特征，k为信息内容v在信息内容推荐列表中的位置(比如新闻条目v在新闻推荐列表中的位置k可以是该新闻推荐列表中的第4条新闻)，d为新闻条目v在新闻推荐列表中的位置与使用用户u点击的上一个新闻条目在新闻推荐列表中的位置之间的距离(比如使用用户u点击的上一条新闻在新闻推荐列表中的位置可以是该新闻推荐列表中的第2条新闻，那么这两者之间的距离d为2)。

步骤120，基于使用用户的用户特征、信息内容推荐列表中的信息内容特征以及历史行为数据集合，确定信息内容推荐列表中的信息内容展示位置的倾向分数；

其中，信息内容展示位置的倾向分数用于表征用户对信息内容展示位置的倾向程度。

基于使用用户的用户特征、信息内容推荐列表中的内容特征以及历史行为数据集合，确定信息内容推荐列表中的信息内容展示位置的倾向分数，具体来说，可以首先为信息内容推荐列表中的信息内容展示位置的倾向分数以及用户兴趣模型的参数值赋予初始值；然后再循环执行指定步骤直到信息内容推荐列表中的信息内容展示位置的倾向分数收敛，且用户兴趣模型中的参数值收敛。其中，该用户兴趣模型用于衡量使用用户与信息内容推荐列表中的信息内容相关的概率，指定步骤用于学习所述信息内容推荐列表中的信息内容展示位置的倾向分数。

继续以新闻推荐系统为例，则确定该新闻推荐列表中的新闻条目展示位置的倾向分数具体可以首先，为该新闻推荐列表中新闻条目展示位置的倾向分数以及用户兴趣模型的参数值赋予初始值；然后再循环执行指定步骤直到新闻推荐列表中的新闻条目展示位置的倾向分数收敛，且用户兴趣模型中的参数值收敛。

其中，信息内容推荐列表中的信息内容展示位置的倾向分数的收敛条件具体可以是循环执行指定步骤获取的第i次信息内容展示位置的倾向分数w_k,d与第i+1次的信息内容展示位置的倾向分数w_k,d之间的差值小于或等于第一预设数值；用户兴趣模型中的参数值收敛具体可以是循环执行指定步骤获取的第i次内容v的分类器输出的数值h(x_u，x_v，x_c)与第i+1次内容v的分类器的输出数值h(x_u，x_v，x_c)之间的差值小于等于第二预设数值，其中i为循环执行指定步骤的次数。

而为信息内容推荐列表中的信息内容展示位置的倾向分数以及用户兴趣模型的参数值赋予初始值，具体可以为信息内容推荐列表中的信息内容展示位置的倾向分数赋予0和1之间的一个随机数，而为用户兴趣模型的参数值赋予初始值也可以根据实际的算法选择合适的初始值。

其中，以使用用户u为例，上述指定步骤主要包括：

步骤i，基于信息内容推荐列表中的信息内容展示位置的倾向分数以及用户兴趣模型中使用用户u的用户特征、对应的产生行为的信息内容特征和使用用户u的环境特征对应的输出结果，确定使用用户u产生对应的行为的概率；

其中，使用用户u产生对应的行为的概率包括第一概率、第二概率、第三概率和第四概率。第一概率为使用用户u未浏览到候选列表中的信息内容、以及信息内容推荐列表中的信息内容不符合使用用户u的兴趣且使用用户u未点击信息内容推荐列表中的信息内容的概率，第二概率为使用用户u未浏览到信息内容推荐列表中的信息内容、以及信息内容推荐列表中的内容符合使用用户u的兴趣且使用用户u与信息内容推荐列表中的信息内容没有交互的概率，第三概率为使用用户u浏览到信息内容推荐列表中的信息内容、以及信息内容推荐列表中的信息内容不符合使用用户u的兴趣且使用用户u与信息内容推荐列表中的信息内容没有交互的概率，第四概率为使用用户u浏览到信息内容推荐列表中的信息内容、且信息内容推荐列表中的信息内容符合使用用户u的兴趣且使用用户u与信息内容推荐列表中的信息内容发生交互的概率。

基于信息内容推荐列表中的信息内容展示位置的倾向分数以及信息内容训练分类器中使用用户u的用户特征、对应的产生行为的信息内容特征和使用用户u的环境特征对应的输出结果，确定第一概率、第二概率、第三概率和第四概率，具体则可以基于信息内容推荐列表中的信息内容展示位置的倾向分数w_k,d以及用户兴趣模型中使用用户u的用户特征x_u、对应的产生行为的信息内容v特征x_v和使用用户u的环境特征x_c对应的输出结果h(x_u,x_c,x_v)，分别可以：

通过公式

确定第一概率，通过公式第二概率

确定第二概率，通过公式

确定第三概率，通过公式P(E＝1，R＝1|C＝1，u,v,x_c,k,d)＝1确定第四概率。

应理解，第一次循环执行该步骤i时，第一概率、第二概率和第三概率的具体数值可以根据为信息内容推荐列表中的信息内容展示位置的倾向分数以及用户兴趣模型的参数值赋予初始值来确定。

其中，随机变量E用于表征使用用户u对信息内容推荐列表中的信息内容v的浏览状态，也就是用来表征使用用户u是否浏览到了信息内容推荐列表中的信息内容v，比如可以用来表征使用用户u是否浏览到了新闻推荐列表中的新闻条目v，当E＝1时，表示使用用户u浏览到了信息内容推荐列表中的信息内容v，而当E＝0时，则表示使用用户u没有浏览到信息内容推荐列表中的信息内容v；

随机变量R用于表征使用用户u与信息内容推荐列表中的信息内容v的兴趣相关状态，这里的兴趣相关状态具体可以是使用用户u是否对信息内容推荐列表中的信息内容v感兴趣，比如可以是使用用户u是否对新闻推荐列表中的新闻条目v感兴趣，当R＝1时，表示信息内容推荐列表中的信息内容v符合使用用户u的兴趣，当R＝0时，则表示信息内容推荐列表中的信息内容v不符合使用用户u的兴趣；

随机变量C用于表征使用用户u对信息内容推荐列表中的信息内容v的交互状态，比如可以是使用用户u对新闻推荐列表中的新闻条目v的交互状态，当C＝1时，表示使用用户u与信息内容推荐列表中的信息内容v发生了交互，而当C＝0时，则表示使用用户u与信息内容推荐列表中的信息内容v没有发生交互，这里所述的交互，比如可以是发生点击等交互行为。

w_k,d为使用用户u对在信息内容推荐列表中的位置为k的信息内容v，且位置k与使用用户u点击的上一个信息内容在信息内容推荐列表中的位置之间的距离为d的选择倾向性。本发明实施例中，w_k,d＝P(E＝1|k，d)，当w_k,d的值越大，则表示使用用户u对新闻推荐列表中的位置为k以及该位置k与使用用户u点击的上一个新闻条目在新闻推荐列表中的位置之间的距离为d的新闻条目v的选择倾向性越大。

步骤ii，基于使用用户产生对应的行为的概率，也就是第一概率、第二概率、第三概率和第四概率，以及历史行为数据集合中每组历史行为数据对应的使用用户对信息内容推荐列表中的信息内容的交互状态，确定每组历史行为数据中的信息内容符合对应的使用用户兴趣的概率；

具体来说，可以对历史行为数据集合中的每组历史行为数据(c，u，v，x_c，k，d)计算该组历史行为数据(c，u，v，x_c，k，d)中的信息内容v符合对应的使用用户u兴趣的概率，即P(R＝1|c，u，v，x_c，k，d)，在计算了该信息内容v符合对应的使用用户u兴趣的概率之后，便可以执行步骤iii，来获取一个新的集合T＝{(x_u,x_v,x_c,r)}，在集合T中除了包含历史行为数据中使用用户u的环境特征x_c，还包含使用用户u的用户特征x_u，推荐列表中信息内容v的信息内容特征x_c，除此之外还包含了用于表征信息内容v是否符合使用用户u兴趣的随机变量r，当r＝1时表示信息内容v符合使用用户u的兴趣，当r＝0时则表示信息内容v不符合使用用户u的兴趣。

步骤iii，基于历史行为数据集合中每组历史行为数据的信息内容符合对应的使用用户兴趣的概率分布，选择预设个数待训练数据作为待训练集合，待训练数据包含使用用户的用户特征、对应的产生行为的信息内容特征、使用用户的环境特征、以及使用用户与对应的产生行为的信息内容的兴趣相关状态；

具体来说，基于历史行为数据集合中每组历史行为数据的信息内容符合对应的使用用户兴趣的概率分布，选择预设个数待训练数据作为待训练集合，可以获取一个新的集合T＝{(x_u,x_v,x_c,r)}，在集合T中除了包含历史行为数据中使用用户u的环境特征x_c，还包含使用用户u的用户特征x_u，信息内容推荐列表中信息内容v的信息内容特征x_c，除此之外还包含了用于表征信息内容v是否符合使用用户u兴趣的随机变量r，当r＝0时表示信息内容v符合使用用户u的兴趣，当r＝1时则表示信息内容v不符合使用用户u的兴趣，该集合T中的(x_u,x_v,x_c,r)个数即为所述的预设个数。

步骤iv，基于待训练集合，训练用户兴趣模型；

具体则可以基于集合T来训练用户兴趣模型，在实际应用中，可以将集合T中的部分数据作为训练样本数据，一部分数据作为验证样本数据，直至验证样本数据中的损失值停止下降。

步骤v，基于历史行为数据集合中每组历史行为数据的使用用户与对应的产生行为的信息内容之间的交互状态和/或浏览状态，更新信息内容推荐列表中信息内容展示位置的倾向分数；

更新信息内容推荐列表中信息内容展示位置的倾向分数，具体可以基于历史行为数据集合中每组历史行为数据的使用用户浏览到对应的信息内容的概率、以及使用用户发生交互的信息内容的个数，更新信息内容推荐列表中信息内容展示位置的倾向分数。更具体地，可以通过公式

来更新信息内容推荐列表中的信息内容展示位置的倾向分数w_k,d。比如可以通过该公式来更新新闻推荐列表中的新闻条目展示位置的倾向分数。

其中，I_{k′＝k,d′＝d}为指示函数，当指示函数I满足k′＝k,d′＝d时指示函数I＝1，u为使用用户的标识，v为使用用户u对应的产生行为的信息内容的标识，x_c为使用用户u的环境特征，E＝1用来表征使用用户u浏览到了信息内容v(比如可以是上文所述的新闻条目v)，P(E＝1|c,u,v,x_c,k,d)用来表征使用用户u浏览到了信息内容推荐列表中的信息内容v的概率，k′为历史行为数据集合中信息内容v在信息内容推荐列表中的位置，d′为历史行为数据集合中信息内容v在信息内容推荐列表中的位置与使用用户u发生交互的上一个信息内容在信息内容推荐列表中的位置之间的距离。

由于引入了信息内容推荐列表中信息内容展示位置的倾向分数w_k,d的计算方式，能够量化信息内容推荐列表中信息内容的位置因素对使用用户的影响，并能够将该位置因素引入到下文所述的排序学习模型中，从而使得构建的排序模型能够更加准确地学习推荐系统的使用用户的真实兴趣偏好，且该信息内容推荐列表中信息内容展示位置的倾向分数w_k,d可以完全通过预设时间段内的使用用户的历史行为数据集合来获取，也就是可以通过离线计算，不影响推荐列表的线上排序效果和使用用户的用户体验。

步骤130，基于使用用户的用户特征、信息内容推荐列表中的内容特征、历史行为数据集合以及信息内容推荐列表中的内容展示位置的倾向分数，构建和训练排序学习模型；

其中，排序学习模型用于衡量使用用户对信息内容推荐列表中内容的选择倾向性。

具体来说，基于使用用户的用户特征、信息内容推荐列表中的信息内容特征、历史行为数据集合以及信息内容推荐列表中的信息内容展示位置的倾向分数，构建和训练排序学习模型，可以首先，基于使用用户交互过的信息内容的排序分数、以及使用用户没有交互过的信息内容推荐列表中的信息内容的排序分数，确定信息内容推荐列表中信息内容的排名；然后，基于信息内容推荐列表中的信息内容的排名和信息内容推荐列表中的信息内容展示位置的倾向分数，确定信息内容推荐列表的排序损失函数；最后，基于排序损失函数、使用用户的用户特征、信息内容推荐列表中的信息内容特征以及使用用户的环境特征，构建和训练排序学习模型。

其中，可以通过公式

来确定信息内容推荐列表中的信息内容的排名，其中，V为信息内容排序列表中所有信息内容的集合，Q为从V中按采样率q随机抽取的信息内容集合，

为V中使用用户u没有交互过的信息内容集合，

为指示函数，当

时，该指示函数

而当

时，

基于信息内容推荐列表中的信息内容的排名和信息内容推荐列表中信息内容展示位置的倾向分数，确定信息内容推荐列表的排序损失函数，具体可以基于信息内容推荐列表中的信息内容的排名rank(u,x_c,v)和信息内容推荐列表中的信息内容展示位置的倾向分数w_k,d，通过公式

来确定信息内容推荐列表的排序损失函数，其中，φ(f)为排序学习模型f的正则项，S为历史行为数据的集合，S_c＝1为历史行为数据集合S中使用用户u点击过的信息内容v对应的历史行为数据。

基于排序损失函数、使用用户的用户特征、信息内容推荐列表中的信息内容特征以及使用用户的环境特征，构建排序学习模型，具体可以在基于排序损失函数得到的数值变化幅度小于第三预设数值时，完成排序学习模型的训练。

由于本发明实施例提供的排序损失函数中引入了信息内容推荐列表中的信息内容展示位置的倾向分数w_k,d这一位置因素，该信息内容推荐列表中的信息内容展示位置的倾向分数w_k,d能够排除隐式反馈中的位置偏差，从而更好地利用隐式反馈数据，其中，这里所述的隐式反馈数据通常是基于信息内容推荐系统的使用用户对信息内容推荐列表中的信息内容所产生的评分以外的行为来获取的。且该排序损失函数中引入的rank(u,x_c,v)是基于历史行为数据集合中的正样本(与使用用户发生交互的信息内容样本)和从全量内容集合中随机采样出的负样本(与使用用户没有发生交互的信息内容样本)确定的，因此，也能够满足大规模推荐系统对海量的信息内容集合进行训练来构建排序学习模型的要求。

此外，本发明实施例提供的排序损失函数由于对rank(u,x_c,v)进行了取对数操作，也就是进行log(rank(u,x_c,v)+1)计算操作，使得该排序损失函数能够针对信息内容排序列表中排名靠前也就是信息内容排序列表头部的信息内容的排序质量进行优化，能够提高推荐效果。且使用的排序损失函数中的rank(u,x_c,v)是基于有平滑特性的双曲正切函数tanh(x)来确定的，因此该排序损失函数是平滑函数支持使用随机梯度下降算法进行优化，通过并行计算和分布式训练提高排序学习模型的训练效率，而且便于将深度神经网络应用于排序学习模型，提高排序质量。

步骤140，基于使用用户的用户特征、信息内容推荐列表中的信息内容特征、使用用户当前所在的环境特征以及排序学习模型，确定所述信息内容推荐列表中的信息内容在所述信息内容推荐列表中的推荐顺序。

最后，基于信息内容推荐系统线上的使用用户u的用户特征x_u、信息内容推荐列表中的信息内容特征x_v以及使用用户u当前所在的环境特征x_c，该环境特征x_c可以包括使用用户u当前的时间、位置、网络环境(WiFi或者移动数据)等环境特征，将使用用户u的用户特征x_u、信息内容推荐列表中的信息内容特征x_v以及使用用户u当前所在的环境特征x_c作为排序学习模型f(x_u，x_v，x_c)的输入，并输出基于这几项输入的排序分数，从而可以获取信息内容推荐列表中的所有信息内容的信息内容特征在同样的x_u和x_c下的排序分数，进而可以获取信息内容推荐列表中所有信息内容的排序分数，最后，便可以基于信息内容推荐列表中所有信息内容的排序分数对信息内容推荐列表中的所有信息内容进行排序，实现针对使用用户u具体的用户特征x_u和环境特征x_c以及不同的信息内容特征进行个性化推荐。

图2是本说明书的一个实施例提供的电子设备的结构示意图。请参考图2，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成排序装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

上述如本说明书图1所示实施例揭示的页面个性化排序方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的页面个性化排序方法，本说明书在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

图3是本说明书提供的页面个性化排序装置300的结构示意图。请参考图3，在一种软件实施方式中，页面个性化排序装置300可包括获取单元301、第一确定单元302、构建单元303和第二确定单元304，其中：

获取单元301，用于获取预设时间段内信息内容推荐系统的使用用户的用户特征、信息内容推荐列表中的信息内容特征，以及所述使用用户在所述预设时间段内的历史行为数据集合；所述历史行为数据包括所述使用用户产生行为的信息内容对应的信息内容展示位置信息；

第一确定单元302，用于基于所述使用用户的用户特征、所述信息内容推荐列表中的内容特征以及所述历史行为数据集合，确定所述信息内容推荐列表中的信息内容展示位置的倾向分数；所述内容展示位置的倾向分数用于表征所述用户对所述信息内容展示位置的倾向程度；

构建单元303，用于基于所述使用用户的用户特征、所述信息内容推荐列表中的信息内容特征、所述历史行为数据集合以及所述推荐列表中的内容展示位置的倾向分数，构建和训练排序学习模型；所述排序学习模型用于衡量所述使用用户对所述信息内容推荐列表中信息内容的选择倾向性；

第二确定单元304，用于基于所述使用用户的用户特征、所述信息内容推荐列表中的信息内容特征、所述使用用户当前所在的环境特征以及所述排序学习模型，确定所述信息内容推荐列表中的信息内容在所述信息内容推荐列表中的推荐顺序。

本发明实施例中，能够通过获取单元301获取和第一确定单元302基于使用用户的用户特征、信息内容推荐列表中的内容特征以及历史行为数据集合，确定信息内容推荐列表中的信息内容展示位置的倾向分数；再通过构建单元303基于使用用户的用户特征、信息内容推荐列表中的信息内容特征、历史行为数据集合以及信息内容推荐列表中的信息内容展示位置的倾向分数，构建和训练排序学习模型；最后便可以通过第二确定单元304基于各使用用户的用户特征、信息内容推荐列表中的信息内容特征、以及各使用用户当前所在的环境特征以及排序学习模型，确定信息内容推荐列表中的信息内容在该信息内容推荐列表中的推荐顺序。

以新闻条目推荐列表为例，由于本发明实施例提供的页面个性化排序装置不仅考虑了使用用户的用户特征，比如使用用户的性别、年龄、教育程度和婚姻状况等用户特征、新闻条目推荐列表中的各新闻条目的信息内容特征，比如新闻中的关键词、新闻分类等特征、使用用户当前的环境特征，比如使用用户当前所处的地理环境、网络环境等特征，还考虑了使用用户对新闻条目推荐列表中所有可能的新闻条目的展示位置的选择倾向性，因此确定的新闻条目的排序结果也就能够更符合使用用户的个性化需求。

在一种实施方式中，所述第一确定单元302，用于：

为所述信息内容推荐列表中的信息内容展示位置的倾向分数以及用户兴趣模型的参数值赋予初始值；所述用户兴趣模型用于衡量使用用户与所述信息内容推荐列表中的信息内容符合使用用户兴趣的概率；

循环执行指定步骤直到所述信息内容推荐列表中的信息内容展示位置的倾向分数收敛，且所述用户兴趣模型中的参数值收敛；所述指定步骤用于学习所述信息内容推荐列表中的信息内容展示位置的倾向分数。

在一种实施方式中，所述第一确定单元302，用于：

基于所述信息内容推荐列表中的信息内容展示位置的倾向分数以及所述用户兴趣模型中所述使用用户的用户特征、对应的产生行为的信息内容特征和所述使用用户的环境特征对应的输出结果，确定所述使用用户产生对应的行为的概率；

基于所述使用用户产生对应的行为的概率，以及所述历史行为数据集合中每组历史行为数据对应的使用用户对所述信息内容推荐列表中信息内容的交互状态，确定每组所述历史行为数据中的信息内容符合对应的使用用户的兴趣的概率；

基于所述历史行为数据集合中每组历史行为数据的信息内容符合对应的使用用户的兴趣的概率分布，选择预设个数待训练数据作为待训练集合；

基于所述待训练集合，训练所述用户兴趣模型；

基于所述历史行为数据集合中每组历史行为数据的使用用户与对应的产生行为的信息内容之间的交互状态和/或浏览状态，更新所述信息内容推荐列表中内容展示位置的倾向分数。

在一种实施方式中，所述第一确定单元302，用于：

基于所述历史行为数据集合中每组历史行为数据的使用用户浏览到对应的信息内容的概率、以及使用用户发生交互的信息内容的个数，更新所述信息内容推荐列表中信息内容展示位置的倾向分数。

在一种实施方式中，所述构建单元303，用于：

基于所述使用用户交互过的信息内容的排序分数、以及所述使用用户没有交互过的所述信息内容推荐列表中信息内容的排序分数，确定所述信息内容推荐列表中信息内容的排名；

基于所述信息内容推荐列表中信息内容的排名和所述推荐列表中信息内容展示位置的倾向分数，确定所述信息内容推荐列表的排序损失函数；

基于所述排序损失函数、所述使用用户的用户特征、所述信息内容推荐列表中的信息内容特征以及所述使用用户的环境特征，构建和训练排序学习模型。

在一种实施方式中，所述使用用户的用户特征至少包括下述一种：

所述使用用户的性别、年龄、教育程度、婚姻状况。

在一种实施方式中，所述推荐列表中的内容特征至少包括：

所述推荐列表中的内容的关键词、分类、高维特征的嵌入表示。

页面个性化排序装置300能够实现图1的页面个性化排序方法实施例的方法，具体可参考图1所示实施例的页面个性化排序方法，不再赘述。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种页面个性化排序方法，其特征在于，包括：

为所述信息内容推荐列表中的信息内容展示位置的倾向分数以及用户兴趣模型的参数值赋予初始值；循环执行指定步骤直到所述信息内容推荐列表中的信息内容展示位置的倾向分数收敛，且所述用户兴趣模型中的参数值收敛；所述信息内容展示位置的倾向分数用于表征所述用户对所述信息内容展示位置的倾向程度；

所述指定步骤包括：基于所述信息内容推荐列表中的信息内容展示位置的倾向分数以及所述用户兴趣模型中所述使用用户的用户特征、对应的产生行为的信息内容特征和所述使用用户的环境特征对应的输出结果，确定所述使用用户产生对应的行为的概率；基于所述使用用户产生对应的行为的概率，以及所述历史行为数据集合中每组历史行为数据对应的使用用户对所述信息内容推荐列表中信息内容的交互状态，确定每组所述历史行为数据中的信息内容符合对应的使用用户的兴趣的概率；基于所述历史行为数据集合中每组历史行为数据的信息内容符合对应的使用用户的兴趣的概率分布，选择预设个数待训练数据作为待训练集合；基于所述待训练集合，训练所述用户兴趣模型；基于所述历史行为数据集合中每组历史行为数据的使用用户与对应的产生行为的信息内容之间的交互状态和/或浏览状态，更新所述信息内容推荐列表中内容展示位置的倾向分数；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

所述用户兴趣模型用于衡量所述信息内容推荐列表中的信息内容符合使用用户兴趣的概率；

所述指定步骤用于学习所述信息内容推荐列表中的信息内容展示位置的倾向分数。

3.如权利要求1所述的方法，其特征在于，所述更新所述信息内容推荐列表中内容展示位置的倾向分数，包括：

4.如权利要求1所述的方法，其特征在于，所述构建和训练排序学习模型，包括：

5.如权利要求1～4中任一所述的方法，其特征在于，

所述使用用户的用户特征至少包括下述一种：

所述使用用户的性别、年龄、教育程度、婚姻状况。

6.如权利要求1～4中任一所述的方法，其特征在于，

所述信息内容推荐列表中的信息内容特征至少包括：

所述信息内容推荐列表中的信息内容的关键词、分类、高维特征的嵌入表示。

7.一种页面个性化排序装置，其特征在于，包括：

第一确定单元，用于为所述信息内容推荐列表中的信息内容展示位置的倾向分数以及用户兴趣模型的参数值赋予初始值；循环执行指定步骤直到所述信息内容推荐列表中的信息内容展示位置的倾向分数收敛，且所述用户兴趣模型中的参数值收敛；所述内容展示位置的倾向分数用于表征所述用户对所述信息内容展示位置的倾向程度；

8.如权利要求7所述的装置，其特征在于，所述用户兴趣模型用于衡量使用用户与所述信息内容推荐列表中的信息内容符合使用用户兴趣的概率；

9.如权利要求7所述的装置，其特征在于，所述第一确定单元，用于：

10.如权利要求7所述的装置，其特征在于，所述构建单元，用于：

11.如权利要求7～10中任一所述的装置，其特征在于，

所述使用用户的用户特征至少包括下述一种：

所述使用用户的性别、年龄、教育程度、婚姻状况。

12.如权利要求7～10中任一所述的装置，其特征在于，

所述信息内容推荐列表中的信息内容特征至少包括：

13.一种电子设备，包括：

处理器；以及

14.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：