CN116720003B

CN116720003B - 排序处理方法、装置、计算机设备、及存储介质

Info

Publication number: CN116720003B
Application number: CN202310987375.0A
Authority: CN
Inventors: 石志林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-11-10
Anticipated expiration: 2043-08-08
Also published as: CN116720003A

Abstract

本申请提出一种排序处理方法、装置、计算机设备、及存储介质。该方法包括：获取物品组的排序序列，获取针对物品组中的任一个物品d的反馈数据；基于反馈数据预测物品d的推荐价值；并基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，曝光信息用于指示物品d在当前群体Gi中的曝光程度是否符合曝光标准；若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则对物品d在排序序列中的排序位置进行修正，并更新排序序列。本申请可以基于反馈数据预测物品的推荐价值，从而按照推荐价值对物品进行群体曝光，可提高物品曝光的公平性和准确性。

Description

排序处理方法、装置、计算机设备、及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种排序处理方法、一种排序处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。

背景技术

在诸如广告推荐、电影推荐、文章推荐等各种推荐场景中，通常会涉及到为对象推荐各种各样的物品，例如对象在购物平台中购买商品，则推荐系统会基于对象的搜索请求为该对象推荐相匹配的一组物品。通常来说，推荐系统为对象所推荐的物品组中的各个物品是按序排列的，那么，如何对物品组中各个物品之间进行排序处理是推荐场景中的重要一环。

目前，通常是按照对象的反馈数据直接决定物品组中各个物品之间的排列顺序的，即物品的反馈数据越多，则该物品的排序位置越靠前。这种排序方式只考虑了执行反馈操作的对象，不够公平。

发明内容

本申请实施例提出了一种排序处理方法、装置、计算机设备、及存储介质，可以基于反馈数据预测物品的推荐价值，从而按照推荐价值对物品进行群体曝光，可提高物品曝光的公平性和准确性。

一方面，本申请实施例提出了一种排序处理方法，该方法包括：

获取物品组的排序序列，物品组包含至少一个物品；排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列；

获取针对物品组中的任一个物品d的反馈数据；其中，物品d在排序序列中的排序位置序号越小，则物品d被执行反馈操作的概率越大；反馈数据是由反馈操作产生的数据；

基于反馈数据预测物品d的推荐价值；并基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，曝光信息用于指示物品d在当前群体Gi中的曝光程度是否符合曝光标准，曝光标准用于度量物品d在多个群体中的当前群体Gi中进行曝光处理的群体公平性；

若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则对物品d在排序序列中的排序位置进行修正，并更新排序序列。

一方面，本申请实施例提出了一种排序处理装置，该装置包括：

获取单元，用于获取物品组的排序序列，物品组包含至少一个物品；排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列；

获取单元，还用于获取针对物品组中的任一个物品d的反馈数据；其中，物品d在排序序列中的排序位置序号越小，则物品d被执行反馈操作的概率越大；反馈数据是由反馈操作产生的数据；

处理单元，用于基于反馈数据预测物品d的推荐价值；并基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，曝光信息用于指示物品d在当前群体Gi中的曝光程度是否符合曝光标准，曝光标准用于度量物品d在多个群体中的当前群体Gi中进行曝光处理的群体公平性；

处理单元，还用于若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则对物品d在排序序列中的排序位置进行修正，并更新排序序列。

在一种可能的实现方式中，排序序列是在t+1时刻对物品组进行排序后得到的，排序策略是基于t时刻与t+1时刻之间的排序时间段确定出来的；获取单元获取物品组的排序序列，用于执行以下操作：

响应于对象在排序时间段内针对物品组中任一个物品d的相关性操作，并基于相关性操作提取对象特征向量，相关性操作包括：查询操作、搜索操作、兴趣指示操作中的任一种；

采用动态学习排序算法，基于对象特征向量确定排序策略；以及，

按照排序策略对物品组中的各个物品进行学习排序处理，得到物品组的排序序列。

在一种可能的实现方式中，处理单元基于反馈数据预测物品d的推荐价值，用于执行以下操作：

获取物品d在排序序列中的排序位置序号；

基于排序位置序号，调用位置相关模型获取物品d的边际概率，边际概率用于反映物品d被执行反馈操作的概率；

采用反馈数据和边际概率，调用无偏基数估计器预测物品d的推荐价值。

在一种可能的实现方式中，处理单元采用反馈数据和边际概率，调用无偏基数估计器预测物品d的推荐价值，用于执行以下操作：

基于反馈数据获取针对物品d的反馈特征向量；

采用物品d的反馈特征向量，训练神经网络模型，并将训练好的神经网络模型作为无偏基数估计器；

调用无偏基数估计器，采用反向倾向性得分加权技术对物品d的边际概率进行位置偏差的矫正处理，预测得到物品d的推荐价值。

在一种可能的实现方式中，反馈数据是指在p个时间步长中获取到的数据，p为正整数；处理单元调用无偏基数估计器，采用反向倾向性得分加权技术对物品d的边际概率进行位置偏差的矫正处理，预测得到物品d的推荐价值，用于执行以下操作：

获取物品d在p个时间步长中的每个时间步长的反馈特征向量；

调用训练好的无偏基数估计器，计算每个时间步长的反馈特征向量、与物品d的边际概率之间的相关性比值；

对计算得到的p个相关性比值进行平均运算，并将平均运算结果确定为物品d的推荐价值。

在一种可能的实现方式中，当前群体Gi为m个群体中的任一个，m为正整数；处理单元基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，用于执行以下操作：

调用位置相关模型获取物品d的边际概率；

根据物品d的边际概率、以及物品d的推荐价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，群体Gj为m个群体中除群体Gi之外的任一个群体；

基于计算得到的m-1个不平等度量值，预测物品d在当前群体Gi中的曝光信息，一个不平等度量值对应一个群体Gj。

在一种可能的实现方式中，处理单元根据物品d的边际概率、以及物品d的推荐价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，用于执行以下操作：

根据物品d的边际概率，分别计算物品d在当前群体Gi中被曝光的第一群体曝光概率、以及在群体Gj中被曝光的第二群体曝光概率；

根据物品d的推荐价值，分别计算物品d在当前群体Gi中被曝光的第一群体平均价值、以及在群体Gj中被曝光的第二群体平均价值；

基于第一群体曝光概率、第二群体曝光概率、第一群体平均价值、以及第二群体平均价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值。

在一种可能的实现方式中，处理单元基于第一群体曝光概率、第二群体曝光概率、第一群体平均价值、以及第二群体平均价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，用于执行以下操作：

基于第一群体曝光概率，计算在p个时间步长中物品d在当前群体Gi中被曝光的第一群体平均概率，并计算第一群体平均概率与第一群体平均价值之间的第一度量比值；

基于第二群体曝光概率，计算在p个时间步长中物品d在当前群体Gi中被曝光的第二群体平均概率，并计算第二群体平均概率与第二群体平均价值之间的第二度量比值；

将第一度量比值与第二度量比值之间的差值，确定为物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值。

在一种可能的实现方式中，曝光信息包括物品d的曝光误差，若曝光误差大于或等于误差阈值，则物品d在当前群体i中的曝光程度不符合曝光标准；处理单元基于计算得到的m-1个不平等度量值，预测物品d在当前群体Gi中的曝光信息，包括以下任一种：

将m-1个不平等度量值中的最大值，确定为物品d在当前群体Gi中的曝光误差；

对m-1个不平等度量值进行平均运算，并将平均运算结果确定为物品d在当前群体Gi中的曝光误差；

对m-1个不平等度量值进行加权运算，并将加权运算结果确定为物品d在当前群体Gi中的曝光误差。

在一种可能的实现方式中，处理单元对物品d在排序序列中的排序位置进行修正，并更新排序序列，用于执行以下操作：

基于物品d的推荐价值和物品d在当前群体Gi中的曝光误差，调用公平控制器对物品d在排序序列中的排序位置进行修正，得到物品d的排序更新位置；

按照物品d的排序更新位置，更新排序序列。

在一种可能的实现方式中，处理单元更新所述排序序列之后，还用于执行以下操作：

基于更新后的排序序列，在推荐场景中将物品组在当前群体Gi中进行曝光；

其中，推荐场景至少包括：广告推荐场景、电影推荐场景、文章推荐场景中的任一种。

一方面，本申请实施例提供一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的排序处理方法。

一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的排序处理方法。

一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的排序处理方法。

本申请实施例中，首先可以获取物品组的排序序列，该物品组包含至少一个物品，排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列，然后可获取针对物品组中的任一个物品d的反馈数据；其中，物品d在排序序列中的排序位置序号越小，则物品d被执行反馈操作的概率越大，反馈数据是由反馈操作产生的数据；接下来，可基于反馈数据预测物品d的推荐价值，并基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息；若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则对物品d在排序序列中的排序位置进行修正，并更新排序序列。由此可见，本申请可基于对物品d的反馈数据来预估该物品的推荐价值，并按照预估出来的推荐价值确定物品d在当前群体Gi中的曝光程度是否符合曝光标准，对于不符合曝光标准的物品会进行排序位置的修正，可以按照物品的推荐价值对该物品在当前群体Gi中进行曝光，避免了物品d在群体曝光中的不公平性，从而可以提高对物品组中物品进行曝光的准确性和公平性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种排序序列的示意图；

图1b是本申请实施例提供的另一种排序序列的示意图；

图2是本申请实施例提供的一种排序处理系统的结构示意图；

图3是本申请实施例提供的一种排序处理方法的流程示意图；

图4是本申请实施例提供的一种执行反馈操作的界面示意图；

图5是本申请实施例提供的另一种序处理方法的流程示意图；

图6是本申请实施例提供的一种排序处理场景的示意图；

图7是本申请实施例提供的一种排序处理装置的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请提供了一种排序处理方案，主要涉及一种学习排序算法，该学习排序算法主要对动态排序后的物品组的排序序列进行排序位置的优化处理，该方案可应用于诸如：广告推荐、视频推荐、文章推送等推荐场景中（即推荐场景中涉及到的广告、视频、文章等内容均可统称为物品），能够基于物品的推荐价值实现对推荐场景中各个物品的排序位置进行准确排序，从而实现对物品组中各个物品的公平曝光。具体地，该排序处理方案的大致原理如下：

①首先可以获取物品组的排序序列，其中，该物品组包含至少一个物品，排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列；②然后可获取针对物品组中的任一个物品d的反馈数据；其中，物品d在排序序列中的排序位置序号越小，则物品d被执行反馈操作的概率越大，反馈数据是由反馈操作产生的数据；③接下来，可基于反馈数据预测物品d的推荐价值，并基于物品d的推荐价值，预测物品d在当前群体Gi中的曝光信息；若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则对物品d在排序序列中的排序位置进行修正，并更新排序序列。由此可见，本申请可基于对物品d的反馈数据来预估该物品的推荐价值，并按照预估出来的推荐价值确定物品d在当前群体Gi中的曝光程度是否符合曝光标准，对于不符合曝光标准的物品会进行排序位置的修正，可以按照物品的推荐价值对该物品在当前群体Gi中进行曝光，避免了物品d在群体曝光中的不公平性，从而可以提高对物品组中物品进行曝光的准确性和公平性。

需要说明的是，本申请提供的排序处理方案的原理中主要涉及到两个重要点：一是无偏性，所谓无偏性是指学习排序算法输出结果中的误差期望为零，即结果在大量重复试验下不会偏向某一方向；特别的，在动态学习排序算法中，无偏性要求算法不受流行度、点击率等偏向的动态影响。二是公平性，所谓公平性是指在动态学习排序算法中控制公正和偏见的能力，本申请提出的学习排序算法可通过显式地对物品组（例如同一作者的文章）执行基于推荐价值的公平性担保来解决这个问题，具体地，本申请采用的学习排序算法可同时从隐式反馈数据中学习排序函数，同时保证群体的公平性。总结来说，无偏性和公平性被认为是动态学习排序中的两个重要指标，本申请提供的排序处理方案可有效满足无偏性和公平性，从而可以对物品组中的各个物品进行准确排序，以提高物品排序的准确性。

下面对本申请实施例涉及的相关技术术语进行介绍：

一、学习排序算法、以及动态学习排序算法：

学习排序算法（Learning to Rank，LTR）是一种用于在动态环境下进行排序的算法。通过对象对物品的反馈数据来动态调整排序规则，以便更好地满足对象需求。由于许多传统的学习排序算法只关注对象体验，忽略了其他利益相关方的公平性和偏见问题。因此本申请提出了一种新的学习排序算法，专门考虑群体公平性，通过可配置的曝光分配方案来公正地对物品组中的各个物品进行曝光分配。同时，采用本申请提出的新的学习排序算法还可以使得排序处理过程具备无偏性，可避免排序过程中的偏见，在保持曝光公平性的同时提供良好的性能。

动态学习排序算法是学习排序算法中的一种，该动态学习排序算法是指根据对象针对物品提供的反馈数据动态调整该物品的排序位置的一种算法。该算法常用于各种推荐场景中，例如新闻聚合平台的新闻推荐场景，电商网站的商品推荐场景，电影排序系统的电影推荐场景等。

二、物品组、以及排序序列：

物品组是指在推荐场景中推荐给对象的一组物品，该物品组包含至少一个物品。不同的推荐场景涉及不同的物品，例如推荐场景为广告推荐场景，则该广告推荐场景中涉及到的物品为广告；又如推荐场景为电影推荐场景，则该电影推荐场景中涉及到的物品为视频；还如推荐场景为文章推荐场景，则该文章推荐场景中涉及到的物品为文章。其中，同一物品组所包含的各个物品的类型相同；不同推荐场景中所涉及到的物品类型可能相同，也可能不相同，例如广告推荐场景1中涉及到的物品类型可以为视频，广告推荐场景2中涉及到的物品类型可以为图片；又如文章推荐场景1中涉及到的物品类型可以为文本，文章推荐场景2中涉及到的物品类型也可以为文本。需要说明的是，本申请中，物品组中包含的各个物品均是来源于同一物品提供者，例如物品组包含同一广告主的广告，又如物品组包含同一作者的文章。

排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列，所谓排序策略定义了物品组中各个物品的排序位置。例如物品组包含10篇文章，且该物品组的排序策略为：1、2...10，则基于该排序策略定义的各个序号，可以确定该物品组的排序序列可以为：文章1、文章2...文章10，也就是说，该物品组的排序序列是基于排序策略所定义的排序位置序号对物品组中的各个物品进行排序后得到的。其中，在对物品组中的各个物品进行排序的过程中，排序策略还定义了排序方式，例如排序方式为：从上至下的排序方式、从左至右的排序方式、环绕排序方式等至少一种。请参见图1a，图1a是本申请实施例提供的一种排序序列的示意图，如图1a所示，假设该物品组包括8个物品，这8个物品的排序策略为从左至右的排序方式：1、2、3、4、5、6、7、8；请参见图1b，图1b是本申请实施例提供的另一种排序序列的示意图，如图1b所示，这8个物品的排序策略为从上至下的排序方式：1、2、3、4、5、6、7、8。通过排序策略所定义的各个物品的排列位置序号，可以对该物品组的各个物品进行排序处理，从而得到该物品组的排序序列。

三、反馈数据：

反馈数据是指物品d被执行反馈操作而产生的数据。不同的推荐场景中，物品被执行的反馈操作可能不相同，例如在广告推荐场景中，对象对广告执行的反馈操作可以为点击操作；又如在文章推荐场景中，对象对文章执行的反馈操作可以为评论操作；还如在电影推荐场景中，对象对视频执行的反馈操作可以为点赞操作，等等，本申请并不对反馈操作进行具体限定。

四、物品的推荐价值；

物品的推荐价值是一种用于衡量对象对该物品感兴趣程度的指标，所谓推荐价值，顾名思义，是指用于评估向对象推荐该物品的价值，该推荐价值也可称为对象对该物品的期望平均相关度。其中，对象对一个物品越感兴趣，则越有可能将该物品推荐给该对象，那么该物品的推荐价值越高；反之，对象对一个物品越不感兴趣，则越不可能将该物品推荐给该对象，那么该物品的推荐价值越低。具体地，物品的推荐价值可以基于对象对该物品的反馈数据来确定，反馈数据是由反馈操作产生的数据，不同的反馈操作对该物品的推荐价值的影响程度可能不相同，例如物品为广告推荐场景中的广告，若对象A对该广告执行了点击操作，对象B对该广告执行了访问操作（例如观看该广告），则该访问操作对该广告所产生的推荐价值可以大于点击操作对该广告所产生的推荐价值。因此，基于对象对一个物品的反馈操作所产生的反馈数据，可以确该物品的推荐价值。

五、曝光信息、曝光标准：

曝光信息是一种用于指示物品在当前群体中的曝光程度是否符合曝光标准的信息，所谓曝光标准是指该物品是否被公平曝光的一种标准。例如曝光信息可以包括曝光误差，若物品的曝光误差大于或等于误差阈值，则可认为该物品在当前群体中不符合曝光标准；若物品的曝光误差小于上述误差阈值，则可认为该物品在当前群体中符合曝光标准。其中，符合曝光标准的物品可被认为是在当前群体中被公平曝光；不符合曝光标准的物品可被认为是在当前群体中被不公平曝光，此时，可按照本申请提供的方式对该物品在排序序列中的排序位置进行修正，从而确保该物品在群体中曝光的公平性。

六、人工智能：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大排序处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的排序处理方案主要涉及人工智能领域的机器学习技术相结合。例如，可基于机器学习技术，采用针对物品组中的任意物品d的反馈数据训练一个神经网络模型，并将训练好的神经网络模型作为无偏基数估计器，后续即可调用该无偏基数估计器估计物品d的推荐价值。其中，所谓机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

七、云技术：

云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

本申请实施例，诸如：基于反馈数据预测物品d的推荐价值；并基于物品d的推荐价值，预测物品d在当前群体Gi中的曝光信息、以及对物品d在排序序列中的排序位置进行修正，并更新排序序列，等过程均涉及到大量的数据计算以及数据存储服务，上述过程需花费大量的计算机运营成本。因此，本申请可基于云计算技术来实现推荐价值的预测、曝光信息的预测、排序位置的修正、以及排序序列的更新等相关流程。其中，所谓云计算(cloudcomputing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

八、区块链技术：

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块(也可称为区块)，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个数据块。区块链以密码学方式保证数据不可篡改和不可伪造。

本申请中，排序处理过程中涉及诸多数据，例如物品组中任一物品d的反馈数据、物品d的推荐价值、物品d的曝光信息等。可选的，本申请可将上述数据发送至区块链进行存储，基于区块链的不可篡改、可追溯等特性可避免数据被篡改或泄露，从而提高排序处理过程的数据安全性和可靠性。

需要特别说明的是，在本申请中，涉及到的排序处理过程中的相关数据，例如：物品组中任一物品d的反馈数据、物品d的推荐价值、物品d的曝光信息等等。在本申请以上实施例运用到具体产品或技术中时，需获得对象许可或同意，且相关数据收集、使用和处理过程需遵守国家和地区的相关法律法规和标准，符合合法、正当、必要的原则，不涉及获取法律法规禁止或限制的数据类型。在一些可选的实施例中，本申请实施例中所涉及的相关数据是经过对象单独授权后获取的，另外，在获取对象单独授权时，向对象表明所涉及的相关数据的用途。

下面对本申请实施例提出的排序处理系统进行详细介绍。

请参见图2，图2是本申请实施例提供的一种排序处理系统的架构示意图。该排序处理系统的架构图包括：服务器204以及终端设备集群，其中，终端设备集群包括：终端设备201、终端设备202、终端设备203等多个终端设备，终端设备集群中的终端设备的数量仅用于示例，本申请实施例并不对终端设备的数量进行限定。其中，终端设备集群中的任一终端设备与服务器204之间可以通过有线或无线通信方式进行直接或间接地连接。

终端设备集群中的各终端设备可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备（MID，mobile internet device）、车载设备、飞行器、可穿戴设备（诸如智能手表、智能手环、计步器等的智能设备）、虚拟现实设备（例如VR（Virtual Reality，虚拟现实）设备、AR（Augmented Reality，增强现实）设备）等等。可以理解的是，终端设备集群中的各终端设备的类型可以相同或不同，例如：终端设备201可以是手机，终端设备202也可以是手机。再如：终端设备201可以是平板电脑，终端设备203可以是车载设备。本申请并不对终端设备集群中的终端设备的数量及类型进行限定。

服务器204可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。

接下来，以排序处理系统中的任一终端设备（例如终端设备201）为例，对终端设备201和服务器204之间的交互过程进行相应阐述：

①终端设备201可以获取物品组的排序序列，该物品组包含至少一个物品；该排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列。可选的，该排序序列可以是由终端设备201按照排序策略对物品组中的各个物品进行排序后得到的序列；该排序序列也可以是由服务器204按照排序策略对物品组中的各个物品进行排序后得到的序列，并由服务器201将排序序列发送至终端设备201的。

②终端设备201获取针对物品组中的任一个物品d的反馈数据；其中，物品d在排序序列中的排序位置序号越小，则物品d被执行反馈操作的概率越大；反馈数据是由反馈操作产生的数据。

③终端设备201将获取到的反馈数据发送至服务器204。

④服务器204基于反馈数据预测物品d的推荐价值；并基于物品d的推荐价值，预测物品d在当前群体Gi中的曝光信息，该曝光信息用于指示物品d在当前群体Gi中的曝光程度是否符合曝光标准。

⑤服务器204将物品d的曝光信息发送至终端设备201，若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则终端设备201需对物品d在排序序列中的排序位置进行修正，并更新该排序序列。

需要说明的是，上述排序处理的交互过程仅用于示例，并不对终端设备和服务器的具体执行过程进行限定。可选的，对物品d在排序序列中的排序位置进行修正也可以由服务器来执行，然后服务器将物品d在排序序列中的排序更新位置发送至终端设备；或者，对物品d在排序序列中的排序位置进行修正，以及更新排序序列还可以由服务器来执行，然后服务器将更新后的排序序列发送至终端设备；再或者，基于反馈数据预测物品d的推荐价值；并基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，该曝光信息用于指示物品d在当前群体Gi中的曝光程度是否符合曝光标准；若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则对物品d在排序序列中的排序位置进行修正，并更新该排序序列等相关过程均可以由排序处理系统中的任一终端设备或服务器来单独执行。

在一种可能的实现方式中，可以将本申请实施例提供的排序处理系统部署在区块链的节点，例如可以将服务器204和终端设备集群中包括的每个终端设备（例如终端设备201、终端设备202、以及终端设备203等）均当成区块链的节点设备，共同构成区块链网络。因此本申请中对第一时效识别模型或第二时效识别模型的排序处理流程可以在区块链上执行，这样既可以保证排序处理流程的公平公正化，同时可以使得排序处理流程具备可追溯性，同时保证排序处理过程中数据安全性，从而提升整个排序处理流程的安全性和可靠性。

可以理解的是，本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

接下来结合附图对排序处理方案所涉及的具体实施例进行详细描述。

请参见图3，图3是本申请实施例所提供的一种排序处理方法的流程示意图。该排序处理方法可以由计算机设备执行，该计算机设备可以是图2所示的排序处理系统中终端设备或服务器。其中，该排序处理方法主要包括但不限于如下步骤S301~S304：

S301：获取物品组的排序序列，物品组包含至少一个物品，排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列。

在一种可能的实现方式中，该物品组的排序序列可以通过离线方式预先构建并存储在数据库中，计算机设备可以直接从数据库中获取预先构建的排序序列。在此实施方式下，排序序列可以基于推荐系统（推荐场景中涉及到的后台系统，例如广告推荐场景中涉及广告推荐系统；又如新闻推荐场景中涉及新闻推荐系统）中的历史物品组构建得到，可以用于反映推荐系统中对物品组中各个物品的历史推荐情况。此处的历史物品组，是指历史时间已经完成推荐的各个物品所构成的物品组。历史时间以当前系统时间为参考基准，历史时间即是指当前系统时间之前已经到达的时间。

在另一种可能的实现方式中，该物品组的排序序列可以基于推荐系统中涉及到的物品进行实时构建得到。在此实现方式下，计算机设备可以采用动态学习排序算法确定推荐系统中与物品组（历史物品和当前物品）相关的排序策略，并基于该排序策略实时构建得到物品组的排序序列；该排序序列可以用于反映推荐系统中对物品组中各个物品的实时推荐情况。此处，当前物品是指推荐系统中实时获取到的物品，即是指当前系统时间正在获取的物品。

下面对采用动态学习排序算法确定物品组的排序序列的具体过程进行说明。

在一种可能的实现方式中，排序序列是在t+1时刻对物品组进行排序后得到的，排序策略是基于t时刻与t+1时刻之间的排序时间段确定出来的。计算机设备获取物品组的排序序列，具体包括如下步骤：首先，响应于对象在排序时间段内针对物品组中任一个物品d的相关性操作，并基于相关性操作提取对象特征向量，相关性操作包括：查询操作、搜索操作、兴趣指示操作（比如对象对物品感兴趣，可以点一个感兴趣的按钮）中的任一种；然后，采用动态学习排序算法，基于对象特征向量确定排序策略；以及，按照排序策略对物品组中的各个物品进行学习排序处理，得到物品组的排序序列。

①给定要排序的一个物品组，排序系统（该排序系统运行在计算机设备中）可以基于对象传入的请求对物品组中的各个物品进行排序。在每个时间步/>，排序系统会随机接收一个对象请求/>，其中包括描述对象侧的对象特征向量/>（例如查询特征、对象的基本属性、对象的兴趣特征），以及对象对物品组/>中所有物品的相关性评分向量/>，其中，物品的相关性评分向量/>相当于对象对物品的打分，即对象对该物品的感兴趣程度，若对象对该物品感兴趣，则该对象对该物品的相关性评分向量/>=1；若对象对该物品不感兴趣，则该对象对该物品的相关性评分向量/>=0，当然按照对象对该物品的感兴趣程度，可以将物品的相关性评分向量取值空间定义为：0≤/>≤1。需要说明的是，只有对象特征向量/>可以被排序系统看到，而真实的相关性评分向量/>是对于排序系统而言是隐藏的。

②基于中的信息，采用动态学习排序算法，可以生成该物品组/>的排序策略，该排序策略/>用于向对象呈现物品/>中的各个物品的排序序列/>，即排序序列是按照排序策略对上述物品组/>中的各个物品进行排序后得到的序列。

③在呈现物品组的排序序列后，排序系统会收到来自对象的反馈特征向量/>，其中，该反馈特征向量是反馈数据进行特征提取后确定的，所谓反馈数据是基于对象对物品组/>中的任一物品d执行反馈操作（例如点击操作）后产生的数据。对于每个/>，其值为非负的/>。在收到反馈特征向量/>之后，动态LTR算法/>会更新排序策略，并产生下一个时间步骤（即t+1时刻）中将使用的排序策略/>，即动态LTR算法的排序策略如下：

其中，上述排序策略中代表在t时刻的对象特征向量，/>是指在t时刻物品组的排序序列，/>是指在t时刻产生的反馈特征向量。

基于以上描述，采用动态学习排序算法，排序系统可以基于物品组在上一时刻t的排序策略确定该物品组在下一时刻的排序策略，具体地，对象对上一时刻已排序的物品组的各个物品的反馈数据，可以用于预测下一时刻物品组中该物品的排序位置，以此类推，动态学习排序算法是一种随着时间推移，基于对象反馈数据而动态学习的排序算法。

上述可见，采用传统的动态学习排序算法在更新不同时刻的排序序列的过程中，并没有涉及到物品的相关性评分向量，这种方式不能较为准确地进行物品排序。因此本申请中，主要涉及一种优化排序算法，该优化排序算法定义了：排序指标的函数/>，将排序的效果定义为与排序位置/>和物品的相关性评分向量/>相关的函数。动态LTR算法的目标是排序策略收敛，即最大化/>，假设/>。如果动态LTR算法/>有关于相关性向量/>的知识，排列物品/>的排序策略对于排序系统中使用的几乎所有/>（例如DCG、或者归一化的 NDCG等）来说都是最优的，因此本申请实施例可以通过使用由/>组成的训练数据来估计基于/>条件的每个物品的期望相关性评分向量/>（后文又称推荐价值），可以解决寻找最大化推荐价值的排序问题。

应当说明，在动态学习排序算法中，度量排序效果的常用指标是 DCG或者归一化的 NDCG。其中，①DCG（Discounted Cumulative Gain）：是一个衡量信息检索中排序质量的常用指标。在该指标中，对于搜索结果呈现的每个物品，根据其排序位置分配不同的权重，其中排序位置序号越大（即在排序序列中的排序位置越靠前）的物品示所分配的权重越大；然后将这些加权得分进行归一化，得到一个0到1之间的分数。其中，分数越高，表示物品组的排序效果越好。NCG是评估不同算法在动态学习排序中的性能的主要指标之一。②NDCG（Normalized Discounted Cumulative Gain）：也是一种衡量信息检索中排序质量的常用指标，用于衡量学习排序算法的性能；该指标结合了每个物品被点击的相关性评分向量，以及它们在排序序列中的排序位置来计算一个物品组的排序分数，其中，NDCG分数越高，表示物品组的排序效果越好。

下面步骤中，将详细介绍本申请提出的优化排序算法所涉及的具体流程。

S302：获取针对物品组中的任一个物品d的反馈数据；其中，物品d在排序序列中的排序位置序号越小，则物品d被执行反馈操作的概率越大；反馈数据是由反馈操作产生的数据。

具体地，排序序列中指示了各个物品的排序位置，任一个物品的排序位置是基于排序位置序号指示的。例如图1a所示的排序序列中包含了排序位置序号：1、2…8，假设这个排序序列对应的物品组包含8个物品，并且物品的排序位置序号越小代表该物品排序位置越靠前，那么图1a所示的排序序列中的排序位置序号1是指物品组中排序位置为1（即排序位置最靠前）的物品所对应的序号，排序位置序号8是指物品组中排序位置为8（即排序位置最靠后）的物品所对应的序号。因此，按照排序序列中的排序位置序号，可以确定物品组中各个物品在排序序列中的排序位置，并且排序位置序号越小的物品d，其排序位置越靠前，被执行反馈操作的概率越大。

请参见图4，图4是本申请实施例提供的一种执行反馈操作的界面示意图。如图4所示，对象可在搜索界面S401中输入待搜索的物品（如中性笔），然后排序系统可基于对象侧的请求为该对象推荐相匹配的一组物品组，该物品组包含与对象搜索所物品相关联的多个物品，并由搜索界面S401切换为排序界面S402，该排序界面S402中显示有相匹配的物品组的排序序列4021，该排序序列4021用于呈现按序排序的多个物品，例如：黑色中性笔、中性笔芯、晨光中性笔芯…中性笔字帖。应当理解，在该排序序列4021中，排序位置序号越小的物品被执行反馈操作的概率越大，由于在该排序序列4021中“黑色中性笔”的排序位置序号比“中性笔芯”的排序位置序号更小，则“黑色中性笔”相较于“中性笔芯”而言被执行反馈操作（例如点击操作）的概率也越大，那么在该排序序列4021所呈现物品组中，“黑色中性笔”所对应的反馈数据也越多。

S303：基于反馈数据预测物品d的推荐价值；并基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，曝光信息用于指示物品d在当前群体Gi中的曝光程度是否符合曝光标准。

具体地，曝光标准用于度量物品d在多个群体中的当前群体Gi中进行曝光处理的群体公平性，所谓群体公平性是指物品d在各个群体中进行的曝光处理均是公平的。由于反馈数据是基于对象对物品执行的反馈操作而产生的数据，对象对物品执行了反馈操作可以侧面反映该对象对该物品的感兴趣程度，因此基于物品的反馈数据能够预测该物品的推荐价值。

在一种可能的实现方式中，计算机设备基于反馈数据预测物品d的推荐价值，主要包括如下步骤：首先，获取物品d在排序序列中的排序位置序号；然后，基于排序位置序号，调用位置相关模型获取物品d的边际概率，该边际概率用于反映物品d被执行反馈操作的概率；最后，采用反馈数据和边际概率，调用无偏基数估计器预测物品d的推荐价值。应当理解，本申请实施例获取到的反馈数据是一种有偏差反馈的数据，所谓有偏差反馈：是指对象对物品的反馈数据在学习排序中存在偏差，使得排序结果出现偏差。在动态学习排序算法中，由于排序结果可能会影响对象的反馈操作，而排序结果本身也可能会受到反馈数据的影响，因此在动态LTR算法中存在偏差反馈的问题。例如排序位置越靠前的物品越容易获得更多的反馈数据，从而出现富者越富的现象（俗称马太效应）。为了解决这个问题，本申请可以采用偏差校正的方式来预估物品d的推荐价值，从而可以考虑公平性来优化排序算法，采取偏差校正方式的具体实现步骤如下：首先，获取物品d在排序序列中的排序位置序号；然后，基于排序位置序号，调用位置相关模型获取物品d的边际概率，该边际概率用于反映物品d被执行反馈操作的概率；最后，采用反馈数据和边际概率，调用无偏基数估计器预测物品d的推荐价值。其中，无偏基数估计器又可简称为无偏估计器，是一种在学习排序算法中所使用的估计器，它可以纠正选择偏差以获得每个物品的真实的推荐价值，因此本申请通过利用无偏基数估计器可以较为准确、无偏地预估得到物品d的推荐价值。

进一步地，通过基于物品的反馈数据来预估物品的推荐价值，这种排序策略可以考虑到动态学习排序算法的无偏性，可能会为对象提供较好的排序效果。但是这种排序策略可能是不公平的，可以理解，排序策略分配给物品的关键资源是曝光，因此本申请还需要考虑物品组中各个物品在群体中曝光时的公平性。因此，本申请还可基于物品d的推荐价值，预测该物品d在当前群体Gi中的曝光信息，曝光信息可用于指示物品d在当前群体Gi中的曝光程度是否符合曝光标准（即在当前群体Gi中是否公平曝光）。具体地，若物品d的曝光信息指示该物品d在当前群体Gi中的曝光程度符合曝光标准，则将物品d在排序序列中的当前排序位置保持不变，无需更新；若物品d的曝光信息指示该物品d在当前群体Gi中的曝光程度不符合曝光标准，则触发执行后续步骤S304。

在一种可能的实现方式中，当前群体Gi是指m个群体中的任一个，m为正整数。计算机设备基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，具体可以包括如下步骤：首先，调用位置相关模型获取物品d的边际概率；然后，根据物品d的边际概率、以及物品d的推荐价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，群体Gj为m个群体中除群体Gi之外的任一个群体；最后，基于计算得到的m-1个不平等度量值，预测物品d在当前群体Gi中的曝光信息，一个不平等度量值对应一个群体Gj。具体来说，通过对物品d在多个群体中曝光处理时的公平性度量，可以计算该物品d在当前任一群体Gi中的曝光信息，基于该曝光信息即可确定当前物品d是否符合群体公平性的曝光标准。

S304：若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则对物品d在排序序列中的排序位置进行修正，并更新排序序列。

在一种可能的实现方式中，计算机设备对物品d在排序序列中的排序位置进行修正，并更新排序序列，具体包括如下步骤：首先，基于物品d的推荐价值和物品d在当前群体Gi中的曝光误差，调用公平控制器对物品d在排序序列中的排序位置进行修正，得到物品d的排序更新位置；然后，按照物品d的排序更新位置，更新排序序列。由于曝光信息可以用于指示物品d在当前群体Gi中的曝光程度是否符合曝光标准，所谓曝光标准是用于反映物品d在群体中是否公平曝光的标准，因此为考虑到物品曝光的公平性，本申请在进行群体曝光时，需对不符合曝光标准的物品d在排序序列中的排序位置进行修正，以使物品d修正后得到的排序更新位置在当前群体Gi中的曝光程度符合曝光标准。那么，针对物品组中的任一物品d，若可采取上述方式进行排序位置的修正，从而使得物品组中的各个物品在相应群体中的曝光程度均可符合曝光标准，那么即可基于各个物品被修正后的排序更新位置，对物品组的排序序列进行更新。

在一种可能的实现方式中，计算机设备更新排序序列之后，还可以执行以下步骤：基于更新后的排序序列，在推荐场景中将物品组在当前群体Gi中进行曝光；其中，推荐场景至少包括：广告推荐场景、电影推荐场景、文章推荐场景中的任一种。在此实现方式中，由于更新排序序列中的各个物品的排序位置已被修正，均满足群体曝光的公平性，因此基于更新排序序列对物品组进行群体曝光时，可以使得各个物品能够被公平曝光，从而在推荐场景中提高物品推荐的准确性和公平性。

请参见图5，图5是本申请实施例提供的另一种排序处理方法的流程示意图。该排序处理方法可以由计算机设备执行，该计算机设备可以是图2所示的排序处理系统中终端设备或服务器。其中，该排序处理方法主要包括但不限于如下步骤S501~S507：

S501：获取物品组的排序序列。

其中，物品组包含至少一个物品，排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列。

S502：获取针对物品组中的任一个物品d的反馈数据。

其中，物品d在排序序列中的排序位置序号越小，则物品d被执行反馈操作的概率越大；反馈数据是由反馈操作产生的数据。

需要说明的是，本申请S501-S502中所涉及的具体执行步骤详细可参考图3实施例中步骤S301-S302中所涉及到的相关过程，本申请实施例在此不再赘述。

S503：基于反馈数据预测物品d的推荐价值。

下面对基于反馈数据预测物品d的推荐价值的具体过程进行详细说明。

在一种可能的实现方式中，计算机设备基于反馈数据预测物品d的推荐价值，主要包括如下步骤：首先，获取物品d在排序序列中的排序位置序号；然后，基于排序位置序号，调用位置相关模型获取物品d的边际概率，该边际概率用于反映物品d被执行反馈操作的概率；最后，采用反馈数据和边际概率，调用无偏基数估计器预测物品d的推荐价值。具体实现时，计算机设备采用反馈数据和边际概率，调用无偏基数估计器预测物品d的推荐价值，包括如下步骤：首先，基于反馈数据获取针对物品d的反馈特征向量，例如可以调用特征提取模型从反馈数据中提取该物品d的反馈特征向量，特征提取模型可以为具备特征提取功能的任意网络结构的神经网络模型；然后，采用物品d的反馈特征向量，训练神经网络模型，并将训练好的神经网络模型作为无偏基数估计器；最后，调用无偏基数估计器，采用反向倾向性得分（Inverse Propensity Scoring，IPS）加权技术对物品d的边际概率进行位置偏差的矫正处理，预测得到物品d的推荐价值。其中，上述提及的神经网络模型可以包括但不限于：CNN（Convolutional neural networks，卷积神经网络）模型、RNN（Recurrent neuralnetworks，循环神经网络）模型、LSTM（Long Short Term Memory，长短期记忆）模型、GRU（Gated recurrent units，门循环单元）模型等，本申请实施例并不对神经网络模型的模型结构进行具体限定。

①动态LTR算法的第一个关键挑战在于反馈特征向量仅为对象阅读过的物品提供有意义的反馈。通过对点击模型的大量研究，本申请实施例可使用二进制向量/>表示对象阅读过的物品，即对象阅读过任一物品d，则该物品d的阅读向量/>=1；若对象未阅读过该物品d，则该物品d的阅读向量/>=0。因此，/>与/>之间的关系如下公式1所示：

公式1

公式1中，是指物品d的阅读向量，/>是指物品d的相关性评分向量，/>是指物品d的反馈特征向量。由公式1可知，若物品d被对象阅读过（即/>），则此时该物品d的反馈特征向量/>与物品d的相关性评分向量/>相等；否则，该物品d的反馈特征向量/>为0。

②动态LTR算法的第二个挑战在于阅读向量无法被观察到。因此，本申请可以将位置偏差建模为在点击模型中绘制的阅读向量的概率分布（简称边际概率），例如。本申请可使用位置相关模型对上述建模过程进行简化，采用位置相关模型可以假设/>仅取决于物品d在给定排序序列中的排序位置序号/>。其中，位置相关模型：是一个基于位置排序的点击模型，用于估计在一次查询中对象会点击哪些物品。它假设对象点击物品与该物品在展示页面上的排序位置相关，因此在位置相关模型中，排在展示页面上越靠前的结物品被执行反馈操作（例如点击操作）的概率越高。

③为了克服未观察到的阅读向量问题，本申请可以使用调查抽样技术和因果推断技术矫正观察到的中物品的相关性评分向量的选择偏差。因此，本申请基于基数相关性估计值提出一种无偏基数估计器，无偏基数估计器又可简称为无偏估计器，是一种在学习排序算法中所使用的估计器，它可以纠正选择偏差以获得每个物品的真实的推荐价值。该估计器使用倾向得分加权基数来校正因为选择偏差而导致的相关性偏差。这种估计器的一个重要特点是，它可以作为公平性的无偏估计器，同时也可以作为物品组的排序标准，以确保物品在群体间曝光时的公平性。其中，该无偏基数估计器的回归损失函数如下公式2所示：

公式2

公式2中，是指基于无偏函数估计器对物品d所估计的相关性评分向量；/>是指在t时刻物品d的边际概率；/>是指物品d的反馈特征向量。上述公式2所示的回归损失函数/>是指：在动态LTR算法中，基于物品的反馈数据来估计回归损失，该回归损失函数是基于无偏函数估计器/>（例如神经网络模型）和模型参数w构建得到的，因此公式2所示的回归损失函数是为了学习神经网络模型的模型参数，从而得到训练好的无偏函数估计器。该回归损失函数可使用反向倾向性得分加权技术来修正物品的选择偏差，并通过对不同群体的物品施加一些公平性要求来保证群体公平性，该无偏基数估计器可以用作无偏的估计器来实现无偏性和公平性，也可以作为物品组的排序标准。

在一种可能的实现方式中，反馈数据是指在p个时间步长中获取到的数据，p为正整数。计算机设备调用无偏基数估计器，采用反向倾向性得分加权技术对物品d的边际概率进行位置偏差的矫正处理，预测得到物品d的推荐价值，主要包括如下步骤：首先，获取物品d在p个时间步长中的每个时间步长的反馈特征向量；然后，调用训练好的无偏基数估计器，计算每个时间步长的反馈特征向量、与物品d的边际概率之间的相关性比值；最后，对计算得到的p个相关性比值进行平均运算，并将平均运算结果确定为物品d的推荐价值。

其中，这个无偏函数估计器背后的关键思想主要是：它仅使用作为训练数据，但在期望上可以等价于一个具有访问前p个时间步长的/>的最小二乘目标。该目标使用反向倾向性得分（IPS）加权技术来矫正物品的位置偏差（即物品的边际概率），物品的位置偏差被矫正后可以认为具备无偏性，因此使用该无偏基数估计器可用于无偏估计物品的推荐价值，该推荐价值是指物品的平均相关性评分向量，具体地，采用训练好的无偏基数估计器估计得到的推荐价值如下公式3所示：

公式3

公式3是指采用反向倾向性得分（IPS）加权技术对物品d计算得到的推荐价值。其中，是指在t时刻物品d的边际概率；/>是指物品d的反馈特征向量。

上述可知，由于在点击模型中，物品在排序序列中的排序位置序号越小，则该物品越靠前展示，那么该物品被执行反馈操作的概率越大，这反过来可能会影响未来的排序结果，从而导致马太效应。为此，本申请提出的优化排序算法是一种能够克服马太效应的改进的动态LTR算法，该算法能够基于物品的反馈数据训练无偏基数估计器，从而基于训练好的无偏基数估计器来预测物品的推荐价值，由于无偏基数估计器采用了反向倾向性得分加权技术来修正物品排序位置所带来的位置偏差，因此本申请采用反馈数据训练无偏基数估计器，并采用无偏基数估计器，对物品d的边际概率进行位置偏差的矫正处理，从而可以消除物品有偏反馈中带来的误差，从而使得预测得到物品d的推荐价值具备无偏性、且更加准确。

S504：基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息。

下面对基于物品d的推荐价值，预测物品d在当前群体Gi中的曝光信息的具体过程进行详细说明。

在一种可能的实现方式中，当前群体Gi是指m个群体中的任一个，m为正整数。计算机设备基于物品d的推荐价值，预测物品d在当前群体Gi中的曝光信息，具体可以包括如下步骤：

（1）调用位置相关模型获取物品d的边际概率，其中，基于位置相关模型，物品d的曝光可以定义为物品被展示的边际概率1|/>。

（2）根据物品d的边际概率、以及物品d的推荐价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，群体Gj为m个群体中除群体Gi之外的任一个群体。对于基于群体的公平性，可以将这些基于物品的边际概率聚合成群体.的曝光。其中，这些群体/>可以是基于对象属性进行划分得到（例如根据性别、年龄、购买特定物品的人群）的，或者是用于接收各个物品的特定人群（即个体公平）。具体实现时，物品d在当前群体Gi中被曝光、以及在任一群体Gj中被曝光之间的不平等度量值，包括如下步骤：

①根据物品d的边际概率，分别计算物品d在当前群体Gi中被曝光的第一群体曝光概率、以及在群体Gj中被曝光的第二群体曝光概率。其中，物品d在当前群体Gi中被曝光的第一群体曝光概率表示为如下公式4所示：

公式4

其中，是指群体/>中的任一群体所包含的物品数量，/>是指物品d在群体/>中被展示的边际概率。那么，由公式4可知，第一群体曝光概率/>用于计算群体Gi中物品d被展示的平均概率。

同理，物品d在另一群体Gj中被曝光的第二群体曝光概率表示为如下公式5所示：

公式5

其中，是指群体/>中的除群体/>中的任一群体所包含的物品数量，/>是指物品d在群体/>中被展示的边际概率。那么，由公式5可知，第二群体曝光概率用于计算群体Gj中物品d被展示的平均概率。

②根据物品d的推荐价值，分别计算物品d在当前群体Gi中被曝光的第一群体平均价值、以及在群体Gj中被曝光的第二群体平均价值。为了制定与曝光有关的公平标准（即曝光标准），可以按照物品d的推荐价值对该物品d在群体中进行曝光，其中，将物品d在群体Gi中进行曝光后得到第一群体平均价值如下：

公式6

其中，是指群体/>中的任一群体所包含的物品数量，/>是指物品d在群体/>中被曝光时的推荐价值。

同理，将物品d在群体Gj中进行曝光后得到第二群体平均价值如下：

公式7

③基于第一群体曝光概率、第二群体曝光概率、第一群体平均价值、以及第二群体平均价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值。具体地，不平等度量值的计算过程如下：基于第一群体曝光概率，计算在p个时间步长中物品d在当前群体Gi中被曝光的第一群体平均概率，并计算第一群体平均概率与第一群体平均价值之间的第一度量比值；基于第二群体曝光概率，计算在p个时间步长中物品d在当前群体Gi中被曝光的第二群体平均概率，并计算第二群体平均概率与第二群体平均价值之间的第二度量比值；将第一度量比值与第二度量比值之间的差值，确定为物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值。因此，对于任何两个群体和/>，物品d被曝光的不平等度量值如下：

公式8

公式8中，不平等度量值用于衡量在p个时间步长中物品d在当前群体Gi以及另一群体Gj中的分摊曝光是否得以实现。该分摊曝光基于公平失衡表达了每个物品d如何在所有时间步长中获得与其推荐价值成比例的曝光。

可选的，可以使用以下整体不平等度量来量化物品d在所有群体之间违反公平的程度：

公式9

其中，是指物品d在所有群体中进行曝光处理时预测得到的不平等度量均值，实践表明，当/>时实现物品d在群体中曝光时的最佳公平性，因此可以通过寻求最小化/>来确定物品d是否符合曝光标准。

（3）基于计算得到的m-1个不平等度量值，预测物品d在当前群体Gi中的曝光信息，一个不平等度量值对应一个群体Gj。其中，曝光信息包括物品d的曝光误差，若曝光误差大于或等于误差阈值，则物品d在当前群体i中的曝光程度不符合曝光标准；若曝光误差小于误差阈值，则物品d在当前群体i中的曝光程度符合曝光标准。因此，计算机设备基于计算得到的m-1个不平等度量值，预测所述物品d在当前群体Gi中的曝光信息，包括以下任一种：①将m-1个不平等度量值中的最大值，确定为物品d在当前群体Gi中的曝光误差；②对m-1个不平等度量值进行平均运算，并将平均运算结果确定为物品d在当前群体Gi中的曝光误差；③对的m-1个不平等度量值进行加权运算，并将加权运算结果确定为所述物品d在当前群体Gi中的曝光误差。特别地，对于任何不相交群体，任一个物品/>的公平控制器的误差项（曝光误差）定义为：

公式10

上述公式10用于表达物品d在当前群体Gi与其它各个群体Gj之间的曝光误差的最大值。调用公平控制器来计算物品d的曝光误差可以确保物品d在群体中曝光时的最大误差被捕捉到，从而采用最大误差来作为衡量物品d在当前群体Gi中的曝光程度是否符合曝光标准的评判指标更加准确、公平。

S505：若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则调用公平控制器对物品d在排序序列中的排序位置进行修正，得到物品d的排序更新位置。

基于动态LTR算法的形式化定义、以及对物品在群体中曝光的公平性的定义、以及对上述所有相关参数（例如物品的推荐价值、不平等度量值、曝光误差等）的估计，本申请设计了一个公平控制器，可以在排序处理的学习过程中保持鲁棒性，这对估计或者/>的不确定性尤为重要。其中，公平控制器是：一种控制算法，通过建立反馈回路，根据错误（曝光误差）的大小来修正，并按比例适当分配资源，以公平而准确地控制系统的行为。在动态LTR算法中，公平控制器通过在学习过程中实施公平性约束来解决负面影响和偏见问题，同时学习排序功能，公平控制器可以根据不同的业务需求进行配置，以针对不同群体之间的公平性差异。总结来说，本申请所采用的公平控制器采用比例控制器的形式，所谓比例控制器是一种广泛使用的控制回路机制，它通过一个与曝光误差成比例的修正项进行反馈。

应当理解，对于已经具有最大曝光价值的群体，其对应的曝光误差为零，对于其他群体中的物品，其曝光误差项随物品曝光的不平等程度的增加而增加。因此，利用这个曝光误差，可以将公平控制器的排序策略表述为：

公式11

其中，公式11中是指公平器对物品d在排序序列中的排序位置进行修正所采用的排序策略，该排序策略中引入的曝光误差中的不平等度量值/>是指前面计算得到的/>，其随着/>增加而收敛到/>；/>是指公式11中计算得到的物品d的曝光误差。由此可见，公平控制器是一种基于曝光量的不平等度量值/>的排序策略，其排序的标准是使得物品d在当前群体Gi中的曝光程度符合曝光标准（即在群体中公平曝光）。具体实现时，公平控制器原理是：曝光误差将来自曝光不足的群体中的物品上推到排序靠前的位置。参数/>可以选择任何正值，但适当的λ选择可以影响公平控制器的有限样本行为：较高的/>可能导致振荡行为，而较小的/>则使收敛更平缓但更慢。经过实际数据验证，一般取/>时可以使得公平控制器具备良好的排序效果。

在此实现方式中，针对不符合曝光标准的物品d，本申请实施例可以采用公平控制器对物品d在排序序列中的排序位置进行修正，从而使得物品d能够在当前群体中公平曝光，并得到物品d的排序更新位置。

S506：按照物品d的排序更新位置，更新排序序列。

应当理解，针对物品组中的任一物品d，均可采取上述步骤S501-S505所提供的方式进行排序位置的修正，从而使得修正后的每个物品在曝光过程中均可以实现无偏性、公平性。最后，按照物品组中所有物品的排序更新位置，对物品组的排序序列进行更新，从而得到物品组的更新排序序列。

S507：基于更新后的排序序列，在推荐场景中将物品组在当前群体Gi中进行曝光。

具体地，推荐场景至少包括：广告推荐场景、电影推荐场景、文章推荐场景中的任一种。综上可知，本申请实施例主要在推荐场景中采用了一种动态控制算法，以实时对物品组中的各个物品的排序位置进行动态调整。所谓动态控制算法：是指在动态学习环境（例如广告推荐场景、电影推荐场景、文章推荐场景）中调整的排序算法，以适应未来用户反馈和数据变化的过程。该算法可以通过对反馈数据的动态处理，不断优化排序序列的效果和准确性，其目标是在保持高质量排序的同时，避免偏向和不公平现象的出现。下面以实时的推荐场景为例，对物品组在群体中进行曝光的场景实施例进行说明。

请参见图6，图6是本申请实施例提供的一种排序处理场景的示意图。如图6所示，该排序处理场景涉及：终端设备和服务器。其中，终端设备可以为目标对象所使用的设备，服务器用于为终端设备提供后台服务，在推荐场景中，服务器可以为物品组中的各个物品进行排序后得到物品组的排序序列后，将该排序序列发送给终端设备，以使终端设备侧呈现物品组中的各个物品。①在实时推荐场景中，针对对象在t时刻传入的搜索请求，例如对象可在搜索界面中发起有关“中性笔”的搜索请求，终端设备将对象发起的搜索请求发送至服务器，服务器可以向终端设备返回已排序的物品组的排序序列，并在终端设备的显示界面S601中显示该物品组的排序序列（黑色中性笔、中性笔芯、晨光中性笔、中性笔消除液）。②对象可在显示界面S601所显示的排序序列中点击对象感兴趣的物品d（例如“黑色中性笔”），终端设备响应于对象的点击操作以生成针对该物品d的反馈数据，然后终端设备将该反馈数据发送至服务器。③服务器基于反馈数据预测“黑色中性笔”的推荐价值，以及基于“黑色中性笔”的推荐价值，预测“黑色中性笔”在当前群体中的曝光程度是否符合曝光标准。④若曝光信息指示“黑色中性笔”在当前群体中的曝光程度不符合曝光标准，则服务器可对“黑色中性笔”在排序序列中的排序位置进行修正，并更新排序序列。⑤服务器将更新后的排序序列发送至终端设备，若终端设备在t+1时刻再次接收到对象传入的搜索请求，则该终端设备的显示界面S602中可以显示更新后的排序序列，其中，更新后的排序序列中各物品的排序位置已发生变化，由于物品的排序位置是基于对象的反馈数据来确定的，因此按照更新后的排序序列进行推荐能够对物品实现更加公平的曝光。

本申请实施例中，一方面，采用无偏基数估计器来对反馈数据进行偏差校正，可以显著的抑制马太效应，从而实现排序处理的无偏性；另一方面，采用公平控制器可解决带有偏差反馈和未受控制的曝光分配所导致的动态LTR算法中的不公平现象，可自适应地执行基于物品的推荐价值的公平约束，使得物品能够在群体中符合曝光标准，另外公平控制器易于实现且计算效率高，在实际应用场景中也非常适合。其中，未受控制的曝光分配是指：在动态学习排序算法中，排序策略未能考虑到不同物品提供者的公平性和偏见，导致一些物品被高曝光率的排序所占据，而其他物品被忽视，从而对最终的排序结果产生影响。为了解决这个问题本申请提出了一种优化学习排序算法，能在动态学习环境下自适应实施基于推荐价值的公平曝光方案，同时从隐式反馈数据中学习排序函数，使用一种新的无偏基数估计器来确保公平性并作为排序指标。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置，接下来，结合上述本申请实施例提供的排序处理方案，对本申请实施例的相关装置进行相应介绍。

请参见图7，图7是本申请实施例提供的一种排序处理装置的结构示意图。如图7所示，该排序处理装置700可应用于前述实施例中所提及的计算机设备（如终端设备或服务器）。具体来说，排序处理装置700可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该排序处理装置700为一个应用软件；该排序处理装置700可以用于执行本申请实施例提供的排序处理方法中的相应步骤。具体实现时，该排序处理装置700具体可以包括：

获取单元701，用于获取物品组的排序序列，物品组包含至少一个物品；排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列；

获取单元701，还用于获取针对物品组中的任一个物品d的反馈数据；其中，物品d在排序序列中的排序位置序号越小，则物品d被执行反馈操作的概率越大；反馈数据是由反馈操作产生的数据；

处理单元702，用于基于反馈数据预测物品d的推荐价值；并基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，曝光信息用于指示物品d在当前群体Gi中的曝光程度是否符合曝光标准，曝光标准用于度量物品d在多个群体中的当前群体Gi中进行曝光处理的群体公平性；

处理单元702，还用于若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则对物品d在排序序列中的排序位置进行修正，并更新排序序列。

在一种可能的实现方式中，排序序列是在t+1时刻对物品组进行排序后得到的，排序策略是基于t时刻与t+1时刻之间的排序时间段确定出来的；获取单元701获取物品组的排序序列，用于执行以下操作：

在一种可能的实现方式中，处理单元702基于反馈数据预测物品d的推荐价值，用于执行以下操作：

获取物品d在排序序列中的排序位置序号；

在一种可能的实现方式中，处理单元702采用反馈数据和边际概率，调用无偏基数估计器预测物品d的推荐价值，用于执行以下操作：

基于反馈数据获取针对物品d的反馈特征向量；

在一种可能的实现方式中，反馈数据是指在p个时间步长中获取到的数据，p为正整数；处理单元702调用无偏基数估计器，采用反向倾向性得分加权技术对物品d的边际概率进行位置偏差的矫正处理，预测得到物品d的推荐价值，用于执行以下操作：

在一种可能的实现方式中，当前群体Gi为m个群体中的任一个，m为正整数；处理单元702基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，用于执行以下操作：

调用位置相关模型获取物品d的边际概率；

在一种可能的实现方式中，处理单元702根据物品d的边际概率、以及物品d的推荐价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，用于执行以下操作：

在一种可能的实现方式中，处理单元702基于第一群体曝光概率、第二群体曝光概率、第一群体平均价值、以及第二群体平均价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，用于执行以下操作：

在一种可能的实现方式中，曝光信息包括物品d的曝光误差，若曝光误差大于或等于误差阈值，则物品d在当前群体i中的曝光程度不符合曝光标准；处理单元702基于计算得到的m-1个不平等度量值，预测物品d在当前群体Gi中的曝光信息，包括以下任一种：

在一种可能的实现方式中，处理单元702对物品d在排序序列中的排序位置进行修正，并更新排序序列，用于执行以下操作：

按照物品d的排序更新位置，更新排序序列。

在一种可能的实现方式中，处理单元702更新所述排序序列之后，还用于执行以下操作：

本申请实施例中，首先可以获取物品组的排序序列，该物品组包含至少一个物品，排序序列是按照排序策略对物品组中的各个物品进行排序后得到的序列，然后可获取针对物品组中的任一个物品d的反馈数据；其中，物品d在排序序列中的排序位置序号越小，则物品d被执行反馈操作的概率越大，反馈数据是由反馈操作产生的数据；接下来，可基于反馈数据预测物品d的推荐价值，并基于物品d的推荐价值，预测物品d在当前群体Gi中的曝光信息；若曝光信息指示物品d在当前群体Gi中的曝光程度不符合曝光标准，则对物品d在排序序列中的排序位置进行修正，并更新排序序列。由此可见，本申请可基于对物品d的反馈数据来预估该物品的推荐价值，并按照预估出来的推荐价值确定物品d在当前群体Gi中的曝光程度是否符合曝光标准，对于不符合曝光标准的物品会进行排序位置的修正，可以按照物品的推荐价值对该物品在当前群体Gi中进行曝光，避免了物品d在群体曝光中的不公平性，从而可以提高对物品组中物品进行曝光的准确性和公平性。

请参见图8，图8是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备800用于执行前述方法实施例中终端设备或服务器所执行的步骤，该计算机设备800包括：一个或多个处理器801；一个或多个输入设备802，一个或多个输出设备803和存储器804。上述处理器801、输入设备802、输出设备803和存储器804通过总线805连接。具体地，存储器804用于存储计算机程序，所述计算机程序包括程序指令，处理器801用于调用存储器804存储的程序指令，执行以下操作：

在一种可能的实现方式中，排序序列是在t+1时刻对物品组进行排序后得到的，排序策略是基于t时刻与t+1时刻之间的排序时间段确定出来的；处理器801获取物品组的排序序列，用于执行以下操作：

在一种可能的实现方式中，处理器801基于反馈数据预测物品d的推荐价值，用于执行以下操作：

获取物品d在排序序列中的排序位置序号；

在一种可能的实现方式中，处理器801采用反馈数据和边际概率，调用无偏基数估计器预测物品d的推荐价值，用于执行以下操作：

基于反馈数据获取针对物品d的反馈特征向量；

在一种可能的实现方式中，反馈数据是指在p个时间步长中获取到的数据，p为正整数；处理器801调用无偏基数估计器，采用反向倾向性得分加权技术对物品d的边际概率进行位置偏差的矫正处理，预测得到物品d的推荐价值，用于执行以下操作：

在一种可能的实现方式中，当前群体Gi为m个群体中的任一个，m为正整数；处理器801基于物品d的推荐价值，对物品d在多个群体中进行曝光处理的公平性度量，得到物品d在当前群体Gi中的曝光信息，用于执行以下操作：

调用位置相关模型获取物品d的边际概率；

在一种可能的实现方式中，处理器801根据物品d的边际概率、以及物品d的推荐价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，用于执行以下操作：

在一种可能的实现方式中，处理器801基于第一群体曝光概率、第二群体曝光概率、第一群体平均价值、以及第二群体平均价值，计算物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，用于执行以下操作：

在一种可能的实现方式中，曝光信息包括物品d的曝光误差，若曝光误差大于或等于误差阈值，则物品d在当前群体i中的曝光程度不符合曝光标准；处理器801基于计算得到的m-1个不平等度量值，预测物品d在当前群体Gi中的曝光信息，包括以下任一种：

在一种可能的实现方式中，处理器801对物品d在排序序列中的排序位置进行修正，并更新排序序列，用于执行以下操作：

按照物品d的排序更新位置，更新排序序列。

在一种可能的实现方式中，处理器801更新所述排序序列之后，还用于执行以下操作：

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文所对应实施例中的方法，因此，这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行。

根据本申请的一个方面，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术对象可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术对象可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如，同轴电缆、光纤、数字线（DSL））或无线（例如，红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据处理设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如，固态硬盘(Solid State Disk，SSD)）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种排序处理方法，其特征在于，包括：

获取物品组的排序序列，所述物品组包含至少一个物品；所述排序序列是按照排序策略对所述物品组中的各个物品进行排序后得到的序列；

获取针对所述物品组中的任一个物品d的反馈数据；其中，所述物品d在所述排序序列中的排序位置序号越小，则所述物品d被执行反馈操作的概率越大；所述反馈数据是由所述反馈操作产生的数据；

基于所述反馈数据预测所述物品d的推荐价值；并基于所述物品d的推荐价值，对所述物品d在多个群体中进行曝光处理的公平性度量，得到所述物品d在当前群体Gi中的曝光信息，所述曝光信息用于指示所述物品d在所述当前群体Gi中的曝光程度是否符合曝光标准，所述曝光标准用于度量所述物品d在多个群体中的当前群体Gi中进行曝光处理的群体公平性；

若所述曝光信息指示所述物品d在所述当前群体Gi中的曝光程度不符合曝光标准，则对所述物品d在所述排序序列中的排序位置进行修正，并更新所述排序序列。

2.如权利要求1所述的方法，其特征在于，所述排序序列是在t+1时刻对所述物品组进行排序后得到的，所述排序策略是基于t时刻与t+1时刻之间的排序时间段确定出来的；所述获取物品组的排序序列，包括：

响应于对象在所述排序时间段内针对所述物品组中任一个物品d的相关性操作，并基于所述相关性操作提取对象特征向量，所述相关性操作包括：查询操作、搜索操作、兴趣指示操作中的任一种；

采用动态学习排序算法，基于所述对象特征向量确定排序策略；以及，

按照所述排序策略对物品组中的各个物品进行学习排序处理，得到物品组的排序序列。

3.如权利要求1所述的方法，其特征在于，所述基于所述反馈数据预测所述物品d的推荐价值，包括：

获取所述物品d在所述排序序列中的排序位置序号；

基于所述排序位置序号，调用位置相关模型获取所述物品d的边际概率，所述边际概率用于反映所述物品d被执行反馈操作的概率；

采用所述反馈数据和所述边际概率，调用无偏基数估计器预测所述物品d的推荐价值。

4.如权利要求3所述的方法，其特征在于，所述采用所述反馈数据和所述边际概率，调用无偏基数估计器预测所述物品d的推荐价值，包括：

基于所述反馈数据获取针对所述物品d的反馈特征向量；

采用所述物品d的反馈特征向量，训练神经网络模型，并将训练好的神经网络模型作为无偏基数估计器；

调用所述无偏基数估计器，采用反向倾向性得分加权技术对所述物品d的边际概率进行位置偏差的矫正处理，预测得到所述物品d的推荐价值。

5.如权利要求4所述的方法，其特征在于，所述反馈数据是指在p个时间步长中获取到的数据，p为正整数；所述调用所述无偏基数估计器，采用反向倾向性得分加权技术对所述物品d的边际概率进行位置偏差的矫正处理，预测得到所述物品d的推荐价值，包括：

获取所述物品d在p个时间步长中的每个时间步长的反馈特征向量；

调用训练好的无偏基数估计器，计算每个时间步长的反馈特征向量、与所述物品d的边际概率之间的相关性比值；

对计算得到的p个相关性比值进行平均运算，并将平均运算结果确定为所述物品d的推荐价值。

6.如权利要求1所述的方法，其特征在于，当前群体Gi为m个群体中的任一个，m为正整数；所述基于所述物品d的推荐价值，对所述物品d在多个群体中进行曝光处理的公平性度量，得到所述物品d在当前群体Gi中的曝光信息，包括：

调用位置相关模型获取所述物品d的边际概率；

根据所述物品d的边际概率、以及所述物品d的推荐价值，计算所述物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，所述群体Gj为m个群体中除所述群体Gi之外的任一个群体；

基于计算得到的m-1个不平等度量值，预测所述物品d在当前群体Gi中的曝光信息，一个不平等度量值对应一个群体Gj。

7.如权利要求6所述的方法，其特征在于，所述根据所述物品d的边际概率、以及所述物品d的推荐价值，计算所述物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，包括：

根据所述物品d的边际概率，分别计算所述物品d在当前群体Gi中被曝光的第一群体曝光概率、以及在群体Gj中被曝光的第二群体曝光概率；

根据所述物品d的推荐价值，分别计算所述物品d在当前群体Gi中被曝光的第一群体平均价值、以及在群体Gj中被曝光的第二群体平均价值；

基于所述第一群体曝光概率、第二群体曝光概率、第一群体平均价值、以及第二群体平均价值，计算所述物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值。

8.如权利要求7所述的方法，其特征在于，所述基于所述第一群体曝光概率、第二群体曝光概率、第一群体平均价值、以及第二群体平均价值，计算所述物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值，包括：

基于所述第一群体曝光概率，计算在p个时间步长中所述物品d在当前群体Gi中被曝光的第一群体平均概率，并计算所述第一群体平均概率与所述第一群体平均价值之间的第一度量比值；

基于所述第二群体曝光概率，计算在p个时间步长中所述物品d在当前群体Gi中被曝光的第二群体平均概率，并计算所述第二群体平均概率与所述第二群体平均价值之间的第二度量比值；

将所述第一度量比值与所述第二度量比值之间的差值，确定为所述物品d在当前群体Gi中被曝光、以及在群体Gj中被曝光之间的不平等度量值。

9.如权利要求6所述的方法，其特征在于，所述曝光信息包括所述物品d的曝光误差，若所述曝光误差大于或等于误差阈值，则所述物品d在当前群体i中的曝光程度不符合曝光标准；所述基于计算得到的m-1个不平等度量值，预测所述物品d在当前群体Gi中的曝光信息，包括以下任一种：

将所述m-1个不平等度量值中的最大值，确定为所述物品d在当前群体Gi中的曝光误差；

对所述m-1个不平等度量值进行平均运算，并将平均运算结果确定为所述物品d在当前群体Gi中的曝光误差；

对所述的m-1个不平等度量值进行加权运算，并将加权运算结果确定为所述物品d在当前群体Gi中的曝光误差。

10.如权利要求9所述的方法，其特征在于，所述对所述物品d在所述排序序列中的排序位置进行修正，并更新所述排序序列，包括：

基于所述物品d的推荐价值和所述物品d在当前群体Gi中的曝光误差，调用公平控制器对所述物品d在所述排序序列中的排序位置进行修正，得到所述物品d的排序更新位置；

按照所述物品d的排序更新位置，更新所述排序序列。

11.如权利要求1所述的方法，其特征在于，所述更新所述排序序列之后，还包括：

基于更新后的所述排序序列，在推荐场景中将所述物品组在所述当前群体Gi中进行曝光；

其中，所述推荐场景至少包括：广告推荐场景、电影推荐场景、文章推荐场景中的任一种。

12.一种排序处理装置，其特征在于，包括：

获取单元，用于获取物品组的排序序列，所述物品组包含至少一个物品；所述排序序列是按照排序策略对所述物品组中的各个物品进行排序后得到的序列；

所述获取单元，还用于获取针对所述物品组中的任一个物品d的反馈数据；其中，所述物品d在所述排序序列中的排序位置序号越小，则所述物品d被执行反馈操作的概率越大；所述反馈数据是由所述反馈操作产生的数据；

处理单元，用于基于所述反馈数据预测所述物品d的推荐价值；并基于所述物品d的推荐价值，对所述物品d在多个群体中进行曝光处理的公平性度量，得到所述物品d在当前群体Gi中的曝光信息，所述曝光信息用于指示所述物品d在所述当前群体Gi中的曝光程度是否符合曝光标准，所述曝光标准用于度量所述物品d在多个群体中的当前群体Gi中进行曝光处理的公平性；

所述处理单元，还用于若所述曝光信息指示所述物品d在所述当前群体Gi中的曝光程度不符合曝光标准，则对所述物品d在所述排序序列中的排序位置进行修正，并更新所述排序序列。

13.一种计算机设备，其特征在于，包括：存储装置和处理器；

存储器，所述存储器中存储一条或多条计算机程序；

处理器，用于加载所述一条或多条计算机程序实现如权利要求1-11中任一项所述的排序处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-10中任一项所述的排序处理方法。

15.一种计算机程序产品，其特征在于，所述计算程序产品包括计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-10中任一项所述的排序处理方法。