CN114330752A

CN114330752A - 排序模型训练方法和排序方法

Info

Publication number: CN114330752A
Application number: CN202111676612.9A
Authority: CN
Inventors: 黎浩正
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12
Also published as: WO2023125460A1

Abstract

本申请公开了一种排序模型训练方法和排序方法，属于信息处理技术领域。该排序模型训练方法包括：获取目标信息及其对应的历史排序位置，生成训练样本；利用多目标网络模型确定训练样本对应的第一分数值和第二分数值，其中，第一分数值为排序存在排序位置偏差对应的分数值，第二分数值为排序不存在排序位置偏差对应的分数值；利用多层感知器，根据历史排序位置确定训练样本对应的第三分数值，其中，第三分数值为排序位置偏差对应的分数值；基于第一分数值、第二分数值和第三分数值，训练多目标网络模型，得到排序模型。

Description

排序模型训练方法和排序方法

技术领域

本申请属于信息处理技术领域，具体涉及一种排序模型训练方法和排序方法。

背景技术

随着互联网的蓬勃发展，各种网络信息也越来越多。因此，在向用户所使用的终端设备推送多个信息之前，或者多个服务后台将多种信息推送至用户所使用的终端设备后，需要利用排序模型对这些信息进行排序，以便用户查看。

目前，对排序模型的主要训练方式是，根据用户的历史反馈信息作为信息样本标签来训练排序模型。而历史排列靠前的信息由于排位优势，被用户点击查看的几率较大，历史排列靠后的信息由于排位劣势，被用户点击查看的几率较小，使得训练得到的排序模型无法准确反映信息对用户的价值大小。因此，相关技术中，用户获取对其有价值的信息所需的时间成本较高，用户体验较差。

发明内容

本申请实施例的目的是提供一种排序模型训练方法和排序方法，能够解决用户获取对其有价值的信息所需的时间成本较高，用户体验较差的问题。

第一方面，本申请实施例提供了一种排序模型训练方法，该方法包括：

获取目标信息及其对应的历史排序位置，生成训练样本；

利用多目标网络模型确定所述训练样本对应的第一分数值和第二分数值，其中，所述第一分数值为排序存在排序位置偏差对应的分数值，所述第二分数值为排序不存在所述排序位置偏差对应的分数值；

利用多层感知器，根据所述历史排序位置确定所述训练样本对应的第三分数值，其中，所述第三分数值为所述排序位置偏差对应的分数值；

基于所述第一分数值、所述第二分数值和所述第三分数值，训练所述多目标网络模型，得到排序模型。

第二方面，本申请实施例提供了一种排序方法，该方法包括：

获取与第一用户对应的N个信息，其中，所述第一用户为接收所述N个信息的终端设备对应的用户；

利用排序模型消除所述N个信息的预测排序位置偏差，得到与每个信息分别对应的信息分数值，其中，所述排序模型为基于多目标网络模型和多层感知器训练得到；

根据与每个信息分别对应的所述信息分数值，对所述N个信息进行排序，展示经排序的所述N个信息；

其中，N为正整数，且N≥2。

第三方面，本申请实施例提供了一种排序模型训练装置，该装置包括：

样本生成模块，用于获取目标信息及其对应的历史排序位置，生成训练样本；

第一确定模块，用于利用多目标网络模型确定所述训练样本对应的第一分数值和第二分数值，其中，所述第一分数值为排序存在排序位置偏差对应的分数值，所述第二分数值为排序不存在所述排序位置偏差对应的分数值；

第二确定模块，用于利用多层感知器，根据所述历史排序位置确定所述训练样本对应的第三分数值，其中，所述第三分数值为所述排序位置偏差对应的分数值；

模型训练模块，用于基于所述第一分数值、所述第二分数值和所述第三分数值，训练所述多目标网络模型，得到排序模型。

第四方面，本申请实施例提供了一种排序装置，该装置包括：

信息获取模块，用于获取与第一用户对应的N个信息，其中，所述第一用户为接收所述N个信息的终端设备对应的用户；

偏差消除模块，用于利用排序模型消除所述N个信息的预测排序位置偏差，得到与每个信息分别对应的信息分数值，其中，所述排序模型为基于多目标网络模型和多层感知器训练得到；

信息排序模块，用于根据与每个信息分别对应的所述信息分数值，对所述N个信息进行排序，展示经排序的所述N个信息；

其中，N为正整数，且N≥2。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面或第二方面所述的方法的步骤。

第七方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面或第二方面所述的方法。

第八方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面或第二方面所述的方法。

在本申请实施例中，通过利用多目标网络模型确定训练样本对应的带偏差的第一分数值和不带偏差的第二分数值，并利用多层感知器确定偏差对应的第三分数值，从而在利用第一分数值、第二分数值和第三分数值训练多目标网络模型时，可使得多目标网络模型能够更准确地确定出第二分数值，这样可以消除目标信息由于历史排列位置而导致的偏差，得到消除偏差后的更准确的第二分数值。如此，基于该第二分数值确定的信息排列顺序能够使对用户有价值的信息排列在前面，从而使得通过本申请实施例提供的排序模型训练方式训练得到的排序模型，能够准确地反映信息对用户的价值大小，进而使得通过该排序模型输出的信息排序方式，也能够有效降低用户获取对其有价值的信息所需的时间成本，提高了用户体验。

附图说明

图1是根据一示例性实施例示出的排序模型训练方法的流程图之一；

图2是根据一示例性实施例示出的模型训练结构的示意图；

图3是根据一示例性实施例示出的排序模型训练方法的流程图之二；

图4是根据一示例性实施例示出的模型训练改进结构的示意图；

图5是根据一示例性实施例示出的排序方法的流程图；

图6是根据一示例性实施例示出的电子设备通知栏信息排序的示意图；

图7是根据一示例性实施例示出的排序模型训练装置的结构框图；

图8是根据一示例性实施例示出的排序装置的结构框图；

图9是根据一示例性实施例示出的一种电子设备的结构框图；

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的排序模型训练方法和排序方法进行详细地说明。

本申请所提供的排序模型训练方法和排序方法，可以应用于对用户接收到的或需要推送给用户的待显示的信息进行排序的场景中。其中，信息例如可以是应用程序的推荐消息，该推荐消息的内容包括但不限于视频、文本、图像等，该推荐消息可以以设备通知栏信息的方式推荐给特定的用户。

随着互联网技术的发展，用户每天接收着越来越多的通知栏信息，例如电子设备通知栏信息，其中既包括功能性质的信息比如各种验证码或生活账单，也包括推送性质的信息，比如信息流资讯或音乐软件的推荐歌单，这些信息方便了用户的生活，也开阔了用户的视野。面对海量的信息，发布者和接收者之间的不平衡的问题也不可避免的存在。其中，汹涌而来的信息中掺杂低质量、低价值、无用信息，让用户难以迅速准确的获取到有用信息，如音乐软件平均每天推送数十首推荐歌曲并按用户接收时间排列，用户由于时间不足只会试听排在前面的几条，可能会错过后面的潜在心仪歌曲。电子设备通知栏信息多而用户消费时间少，是互联网环境的主要矛盾之一，而当前几乎所有的通知栏信息都是简单地按照时间或首字母排序的，或者简单地根据用户对信息的历史反馈情况，训练相应模型，利用该模型简单地对信息进行排序，因此，并没有识别或不能准确识别哪些信息对用户的价值更高。

基于此，本申请实施例提供了一种排序模型训练方法和排序方法。

另外，本申请实施例提供的排序模型训练方法，执行主体可以为排序模型训练装置。该排序模型训练装置可以是服务器，也可以是终端设备，在此不做限定。本申请实施例中以排序模型训练装置执行排序模型训练方法为例，说明本申请实施例提供的排序模型训练方法。

图1是根据一示例性实施例示出的一种排序模型训练方法的流程图。

如图1所示，该排序模型训练方法可以包括步骤S110-S140，下面对每个步骤进行详细解释。

S110、获取目标信息及其对应的历史排序位置，生成训练样本。

这里，目标信息可以是从历史信息日志中获取的任一历史信息，目标信息对应的历史排序位置可以是历史信息日志中记录的目标信息的排序位置。

示例性地，在模型训练之前，可通过解析后台的历史信息日志获取多个信息及其对应的历史排序位置索引值，生成多个训练样本，每个训练样本中可包括一个历史信息及其对应的历史排序位置索引值，进而利用该多个训练样本进行模型训练。

S120、利用多目标网络模型确定训练样本对应的第一分数值和第二分数值，其中，第一分数值为排序存在排序位置偏差对应的分数值，第二分数值为排序不存在排序位置偏差对应的分数值。

这里，多目标网络模型例如可以是MMOE(Multi-gate Mixture-of-Experts，多门控制的混合专家网络)模型，当然还可以是OMOE(One-gate Mixture-of-Experts，单门控制的混合专家网络)模型等，在此不作限定。该多目标网络模型的训练目标可以包括输出不够合理的包含偏差的分数值(也即第一分数值)，以及更加合理的消除偏差后的分数值(也即第二分数值)。

由于在将多个信息排列展示给某个用户的情况下，即使该多个信息对该用户的价值相近，排列在前面的信息也还是天生带有优势，用户关注的概率会更大，从而形成位置偏差，也即，本申请实施例中的排序位置偏差可以是不够合理的排序结果与更加合理的排序结果之间的偏差。在模型训练过程中，多目标网络模型确定的第一分数值可以是未消除该排序位置偏差的原始分数值，而其确定的第二分数值可以是已消除该排序位置偏差的分数值。

S130、利用多层感知器，根据历史排序位置确定训练样本对应的第三分数值，其中，第三分数值为排序位置偏差对应的分数值。

这里，本申请实施例在模型训练过程中，新增MLP(Multilayer Perceptron，多层感知器)作为辅助训练模型，该MLP可用于确定由于历史排序位置而导致的预测偏差所对应的分数值，也即第三分数值。该第三分数值可以是不够合理的分数值与更加合理的分数值之间的差值。

通过MLP可以在模型训练过程中不断地从第一分数值中分离出由于排序位置偏差而形成的第三分数值，进而不断提高多目标网络模型输出第二分数值的准确性，到达消除排序位置偏差的目的。

需要说明的是，上述S120与S130之间的执行顺序并不作限定，可以是同时执行，也可以是S130先执行。

S140、基于第一分数值、第二分数值和第三分数值，训练多目标网络模型，得到排序模型。

示例性地，可利用第二分数值与第三分数值之和，与第一分数值动态相等的关系，对多目标网络模型进行训练，进而不断消除第二分数值中由于排序位置偏差带来的偏差分数，直至该多目标网络模型收敛，并将收敛后的多目标网络模型作为最终得到的排序模型。

这样，通过利用多目标网络模型确定训练样本对应的带偏差的第一分数值和不带偏差的第二分数值，并利用多层感知器确定偏差对应的第三分数值，从而在利用第一分数值、第二分数值和第三分数值训练多目标网络模型时，可使得多目标网络模型能够更准确地确定出第二分数值，这样可以消除目标信息由于历史排列位置而导致的偏差，得到消除偏差后的更准确的第二分数值。如此，基于该第二分数值确定的信息排列顺序能够使对用户有价值的信息排列在前面，从而使得通过本申请实施例提供的排序模型训练方式训练得到的排序模型，能够准确地反映信息对用户的价值大小，进而使得通过该排序模型输出的信息排序方式，也能够有效降低用户获取对其有价值的信息所需的时间成本，提高了用户体验。

在一些可能的实施例中，上述训练样本可以包括与目标信息对应的信息特征、用户特征以及场景特征。

基于此，上述S120具体可以包括：

将信息特征、用户特征以及场景特征输入至多目标网络模型，输出得到与训练样本对应的第一分数值和第二分数值。

这里，用户特征可以是接收目标信息的终端设备上登录用户的特征，该用户特征可以包括数值特征和画像特征。其中，数值特征包括但不限于该登录用户的年龄值、年龄段、性别、是否已婚、收入水平等能够直接用连续数值或离散编码表示的特征，画像特征包括但不限于用户的兴趣标签、实体标签等需要用离散稀疏编码表示的特征。其中，画像特征包括但不限于该登录用户的一级分类、二级分类、各种兴趣的标签、实体等需要用离散稀疏编码表示的特征。这里，画像特征既能用端侧数据计算、也能用云侧数据计算，在此不作限定，以满足不同用户的数据上传需求。

示例性地，用户特征例如可包括如下表1所示的内容：

表1、用户特征

此外，场景特征可以是记录与目标信息对应的日志时终端设备所处历史场景的特征，该场景特征包括但不限于时间、地点等。这里，场景特征可以从多个角度进行设计，而且即使是某个单一角度如时间，都可以扩展出各种与其相关的特征，既包括连续数值、也包括离散编码。

示例性地，场景特征可包括如下表2所示的内容：

表2、场景特征

此外，信息特征可以是目标信息本身的特征，与用户特征类似地，其也可包括数值特征、内容特征等。这里，对于信息特征的设计也可从多个角度进行，无论是针对数值特征还是内容特征，在面对各种各样不同的场景时，比如新闻推荐、广告推荐、系统本身的消息、聊天软件的消息等，都可以从多个角度对其进行数学表示。

示例性地，信息特征可包括如下表3所示的内容：

表3、信息特征

这里需要说明的是，信息特征、用户特征以及场景特征均可以为多维的向量特征，在此不作限定。

示例性地，如图2所示，在使用训练样本进行模型训练的过程中，可将训练样本对应的用户特征41、信息特征42以及场景特征43输入至MMOE基础模型45中。MMOE基础模型45可对应输出两个目标值：第一个目标值为原始得分451(记为init_logit，取值范围为：-inf～+inf)，也即第一分数值，该得分是存在位置偏差的得分，根据该得分进行排序的结果通常不够合理；第二个目标值为消除位置偏差后的得分452(记为raw_logit，取值范围为：-inf～+inf)，也即第二分数值，该得分是不存在位置偏差的得分，根据该得分进行排序的结果通常更合理。

这样，通过将信息特征、用户特征、场景特征这三个维度的特征，作为多目标网络模型训练时的输入特征，可以使该模型更加全面地学习目标信息对于用户的价值，进而使得最终训练得到的排序模型，能够更准确地评估每个信息对于不同用户的价值，提高模型训练的有效性和可靠性。

另外，在一些实施方式中，上述训练样本还可以包括与所述历史排序位置对应的位置索引值。

基于此，上述S130具体可以包括：

将场景特征和位置索引值输入至多层感知器，输出得到与训练样本对应的第三分数值。

这里，本申请实施例还可通过埋点记录每个信息的历史排序位置的索引值，例如排列在第一位的位置索引值为0，第二位的位置索引值为1等。

示例性地，可在用户所使用的设备接收到信息时记录日志，日志内容可包括信息标识、用户标识、信息内容、信息接收时间、设备位置、排序位置索引等。另外，还可在用户点击查看信息时记录日志，日志内容除了上述内容之外，还可包括用户反馈信息、反馈时间等。其中，信息标识可以是信息本身的id编码，用户标识可以是用户所使用设备的imei编码，当然也可以是设备上登录的用户账号等能够唯一表示用户身份信息的标识，在此不做限定。

基于此，该多层感知器的输入特征可包括两类，第一类是位置索引值，第二类是场景特征，具体例如可以包括下表4所示的特征内容：

表4、多层感知器的输入特征

以MLP作为补充模型，该模型的输出可以是单目标的，即预测训练样本中的目标信息由于排列位置偏差带来的偏差得分(记为bias_logit，取值范围为：-inf～+inf)，也即第三分数值。该值越大，说明该排序位置索引值下的信息由于位置偏差而得到的优势越大，也就是说，位置越靠前的信息被用户点击的概率越高，即使该信息对于该用户而言并不一定是高价值信息。

示例性地，如图2所示，在使用训练样本进行模型训练的过程中，还可将训练样本对应的排序位置索引值44以及场景特征输入至MLP补充模型46中，MLP补充模型46可对应输出目标信息由于排列位置偏差带来的偏差得分461(bias_logit)。

这样，通过将排序位置索引值和场景特征这两个维度的特征，作为MLP训练时的输入特征，可以使MLP在训练过程中更加深入地学习用户所处不同场景对于信息价值的影响程度，进而使得最终训练得到的MLP，能够根据用户所处场景更准确地提取出不同信息的位置偏差量得分，从而进一步提高模型训练的有效性和可靠性。

另外，基于上述S110-S140，在一些可能的实施例中，上述训练样本可以包括与目标信息对应的用户反馈信息。如图3所示，上述S140具体可以包括如下步骤：

S1401、将第二分数值与第三分数值相加，得到第四分数值；

S1402、根据第一分数值和第四分数值，以及用户反馈信息，确定损失值；

S1403、基于损失值分别调整多目标网络模型和多层感知器的模型参数，直至多目标网络模型收敛，得到排序模型。

这里，本申请实施例还可通过记录历史信息日志，收集用户在接收到目标信息时，对目标信息的反馈信息。其中，用户反馈信息可包括正向反馈和负向反馈，正向反馈例如可以是用户点击查看该信息，负向反馈例如可以是用户未点击查看该信息。

在一个具体例子中，以用户电子设备通知栏接收到的各个应用推荐信息为例，当一条信息在屏幕上显示之后，根据用户行为，将产生三种结果，如下表5所示：

表5、用户行为与样本类型

如此，本申请实施例可根据用户反馈信息构建正样本、负样本这两种样本类型，作为训练样本。

示例性地，如图2所示，通过MMOE基础模型45和MLP补充模型46分别输出得到三个分数值后，可将raw_logit与MLP补充模型46输出的偏差得分461(bias_logit)相加，得到原始得分455(记为new_logit，取值范围为：-inf～+inf)，也即第四分数值。得到这些分数值后，可对这些分数值进行归一化处理，例如，对init_logit进行sigmoid操作后可变为原始概率值453(记为pCtr_init，取值范围为：0～1)，对new_logit进行sigmoid操作后可变为原始概率值456(记为pCtr_new，取值范围为：0～1)，进而利用pCtr_init与pCtr_new，以及该训练样本中的用户反馈信息，计算损失值。

其中，当用户反馈信息为正向反馈时，可设置样本标签为1，此时，可通过计算损失值调整两个模型的参数，使pCtr_init与pCtr_new无限趋近于1；而当用户反馈信息为负向反馈时，可设置样本标签为0，此时，可通过计算损失值调整两个模型的参数，使pCtr_init与pCtr_new无限趋近于0。

另外，由于MMOE基础模型45中两个目标的训练结构完全相同，因此相加后的得分new_logit将会约等于init_logit，也即pCtr_init与pCtr_new近似相等。

这样，通过根据第一分数值和第四分数值，以及用户反馈信息，确定得到的损失值，可调整多目标网络模型和多层感知器的模型参数，进而将收敛的多目标网络模型作为最终得到的排序模型，可以使排序模型能够输出消除位置偏差后的较为准确的分数值，这样，可以在利用排序模型进行信息排序时减小位置偏差的影响，从而提高信息排序的准确性，使用户需要的信息被排列在前。

在一种可选实施方式中，上述S1401具体可以包括：

根据第二分数值、第三分数值以及影响力参数，确定第四分数值；其中，影响力参数用于表征第三分数值对第四分数值的影响程度。

本申请实施例中，为了控制位置偏差得分对最终得分的影响，引入一个可自由调节的影响力参数(记为γ，取值范围为：0～+inf)，具体取值可根据实际情况预先进行调整。具体地，可根据以下公式计算第四分数值：

new_logit＝raw_logit*[1+γ*sigmoid(bias_logit)]

其中，new_logit为第四分数值，raw_logit为第二分数值，bias_logit为第三分数值。

示例性地，如图4所示，本申请实施例通过引入一个影响力参数γ，将位置偏差得分的影响力缩小到最多等于γ的程度，例如γ＝0.2时，可将bias_logit的影响降为0.2。在神经网络模型训练的过程中，若训练样本的数量不足，容易导致MLP补充模型表现不佳，即偏差得分bias_logit不准确，此时若有影响力参数γ作为控制，能够减少这种不良影响，提高整个信息排序训练过程的准确性。

如此，通过引入影响力参数，可控制第三分数值对第四分数值的影响，从而在训练样本数量不足的情况下，可以减少MLP补充模型输出值对最终结果的影响，从而进一步提高模型训练过程的准确性。

为了进一步减小位置偏差对未来排序位置预测带来的影响，在一种可选实施方式中，在上述S1402之前，本申请实施例提供的排序方法还可以包括：

获取训练样本对应的第五分数值；其中，第五分数值为目标信息位于历史排序位置时得到用户正向反馈的后验概率值；

相应地，上述S1402具体可以包括：

将第一分数值与第五分数值相加，得到第六分数值，以及将第四分数值与第五分数值相加，得到第七分数值；

根据第六分数值和第七分数值，以及与用户反馈信息，确定目标损失值。

这里，可获取每个历史信息位于其对应的历史排序位置时得到用户正向反馈的后验概率值，作为优势得分，也即第五分数值。

示例性地，如图2所示，对于pCtr_init与pCtr_new而言，为了进一步消除位置偏差，均需要与当前训练样本中历史信息对应的优势得分471(记为p_system_ctr，取值范围为：0～1)相加。相当于引入了实时的位置偏差统计值，一起参与模型的训练，进一步消除模型中由位置偏差带来的影响。

如此，通过引入第五分数值一起参与模型的训练，可以使最终输出的结果进一步考虑由于历史排序位置带来的偏差，从而在训练过程中进一步消除排序模型中的与位置偏差相关的因素。

在一种可选实施方式中，上述获取训练样本对应的第五分数值，包括：

基于历史信息日志中记录的多个信息分别对应的信息标识、用户标识、用户反馈信息、位置索引值以及目标属性值建立初始数据表；其中，目标属性值为场景特征中包括的一种或多种属性值；

根据位置索引值以及目标属性值对初始数据表中的数据进行聚合，得到聚合结果；

根据聚合结果，计算不同的位置索引值和目标属性值条件下对应的信息得到用户正向反馈的后验概率值，得到后验关注率数据表；

从后验关注率数据表中获取目标信息在对应的目标属性值条件下，位于历史排序位置时，得到用户正向反馈的后验概率值，作为第五分数值。

这里，第五分数值可以是通过查表得到的数据，基于此，可以预先建立后验关注率数据表。其中，目标属性值例如可以是时间属性和/或地点属性的值。

示例性地，通过历史信息日志可以获取所有训练样本的信息id编码、对应用户的imei编码、排序位置索引、显示后的用户反馈信息、日志记录时的时间地点等。将上述数据表储存于后台服务器，可以根据不同的规则过滤出所需的样本子集，用于计算特定条件下，某条通知信息在不同排序位置索引下，在全网用户的平均点击率，也即后验概率值。其中，本申请实施例所采用的规则可以为：以辅助偏差模型对应的输入特征为筛选条件，对历史信息日志对应的初始数据表中的数据进行筛选。

在一个具体例子中，以筛选条件为排序位置索引值与场景特征中的时间值为例，初始数据表可以是如下表6所示：

表6、初始数据表

编号	信息id	用户imei	点击	时间	排序位置
						1	A	a	是	周一	9
2	B	b	否	周一	2
						3	A	c	是	周一	5
4	B	d	否	周二	3
						5	A	e	是	周二	9
6	A	f	否	周一	9
						7	B	g	是	周二	3

如表6所示，一共有两个信息A和B，它们分别在不同的时间出现在不同的排序位置，被不同的用户交互过。若当前需要统计这两个信息的平均点击率，需要先根据辅助偏差模型的输入特征筛选出对应的数据，即根据物料id、时间、排序位置对数据表进行聚合，聚合得到的结果如表7所示：

表7、聚合后的数据表

因此，统计聚合后的数据表，得到两个历史信息的点击率一共有以下五种：

信息A，周一，在位置5的平均点击率＝1/1＝1.0

信息A，周一，在位置9的平均点击率＝1/2＝0.5

信息A，周二，在位置9的平均点击率＝1/1＝1.0

信息B，周一，在位置2的平均点击率＝0/1＝0.0

信息B，周二，在位置3的平均点击率＝1/2＝0.5

可见，本申请实施例新增的后验关注率数据表，是利用数据表过滤、聚合、统计得到每个历史信息在不同排序位置的后验点击率，即优势得分(记为p_system_ctr，取值范围为：0～1)。与偏差得分类似，该值越大，说明该排序位置下的信息得到用户正向反馈的优势越大。

示例性地，当训练样本为周一推送的信息A，且该信息A当时的排序位置为位置9，则在使用该训练样本进行模型训练时，可从如图2所示的后验关注率数据表47中获取该信息对应的优势得分471，并分别与该信息对应的原始概率值453和原始概率值456分别相加，进而利用相加后的值计算损失值，以调整模型参数。

如此，通过建立后验关注率数据表，可便于查询每个信息在特定条件下，且在不同排序位置索引下，全网用户的平均点击率，进而在训练过程中进一步消除位置偏差。

综上所述，本申请实施例通过如图2所示的模型训练结构，可将原本存在位置偏差的得分init_logit，拆解成消除位置偏差后的得分raw_logit和位置偏差得分bias_logit这两部分，当需要对信息进行排序时，例如对电子设备通知栏信息进行排序时，只需将消除偏差后的得分raw_logit取出并作sigmoid处理就能得到消除偏差后的概率454(记为pCtr_better，取值范围为：0～1)，该概率值比原始概率453pCtr_init更加准确，能够得到消除位置偏差后的排序结果。

基于上述排序模型训练方法训练得到的排序模型，本申请实施例还提供了一种排序方法。该排序方法执行主体可以为排序装置。该排序装置可以是服务器，也可以是终端设备，在此不做限定。本申请实施例中以排序装置执行排序方法为例，说明本申请实施例提供的排序方法。下面结合图5进行详细说明。

图5是根据一示例性实施例示出的一种排序方法的流程图。

如图5所示，该排序方法可以包括如下步骤S510-S530，下面对每个步骤进行详细解释。

S510、获取与第一用户对应的N个信息，其中，第一用户为接收N个信息的终端设备对应的用户。

这里，N个信息可以是第一用户所使用的终端设备接收到的多个信息，其中可以包括之前已接收到的信息和/或当前接收的信息。其中，N为正整数，且N≥2。例如图6所示，该N个信息可以是由多个应用程序推送至电子设备通知栏的信息，用户可通过向下划，唤出通知栏，即可看到已接收到的信息。在第一用户所使用的终端设备每接收到一个新的信息时，可对终端设备中第一用户未阅读的信息进行一次排序过程。

S520、利用排序模型消除N个信息的预测排序位置偏差，得到与每个信息分别对应的信息分数值，其中，排序模型为基于多目标网络模型和多层感知器训练得到。

这里，本申请实施例中的排序模型可以是经训练的多目标网络模型，例如MMOE(Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts，多任务学习)模型，且该排序模型可采用前述实施例中所述的排序模型训练方法训练得到，也即，将多层感知器作为辅助训练模型，对多目标网络模型进行训练得到。这里，该排序模型可根据每个信息分别对应的特征，对每个信息进行排序打分，输出得到每个信息分别对应的信息分数值，该信息分数值可在一定程度上反映信息被用户关注的概率。

与传统排序模型不同的是，本申请实施例中的排序模型可以消除每个信息对应的预测排序位置偏差，进而可以使输出的信息分数值中可包括去除由于排序位置带来的偏差分数值之后的分数值，使得该分数值的大小为信息本身对于第一用户的价值大小。

另外，需要说明的是，在本申请实施例中，排序模型的输出可以是多目标的，例如输出为两个目标，也即，排序模型输出的分数值可以包括两种数值。

基于此，在一些实施方式中，上述信息分数值可以包括原始分数值和去偏差分数值；其中，原始分数值为排序存在预测排序位置偏差的分数值，去偏差分数值为排序不存在预测排序位置偏差的分数值。

如此，在最终排序的过程中，可根据去偏差分数值进行最终的信息排序过程，也可以结合原始分数值和去偏差分数值，综合考虑后进行最终的信息排序过程，在此不做限定。

S530、根据与每个信息分别对应的信息分数值，对N个信息进行排序，展示经排序的N个信息。

在本申请实施例中，排序模型输出的与每个信息分别对应的分数值，可以是预测该信息得到用户正向反馈的价值，通常需要对该价值进行归一化操作，例如利用sigmoid函数f(x)＝1/(1+exp(-x))对该价值进行处理，使其取值变为0～1之间的数值，此时，可得到模型预测的用户正向反馈概率，该值可作为排序时的参考值。

示例性地，可按照经归一化处理后的分数值从大到小的顺序，对N个信息进行排序，分数值越大的信息排名越靠前，分数值越小的信息排名越靠后，进而可得到经排序的N个信息，并对该N个信息按照该排列顺序显示给用户。

这样，通过利用基于多目标网络模型和多层感知器训练得到的排序模型，对N个信息中的每个信息进行打分，从而可以消除每个信息对应的预测排序位置偏差，这样可以排除各个信息由于排列位置而导致的预测偏差，得到消除偏差后的更准确的分数值，如此，基于该分数值确定的信息排列顺序能够使对用户有用的信息排列在前面，从而可以降低用户获取有用信息的成本，提高用户体验。

在一些实施方式中，上述S420具体可以包括：

获取与N个信息分别对应的信息特征、第一用户特征以及第一场景特征；其中，第一用户特征为第一用户的用户特征，第一场景特征为终端设备所处场景的场景特征；

将N个信息特征中的每个信息特征分别与第一用户特征和第一场景特征进行关联，得到N个关联特征；

将N个关联特征分别输入至排序模型，利用排序模型消除每个信息对应的预测排序位置偏差，输出得到与每个信息分别对应的信息分数值。

这里，第一用户特征可以是终端设备上登录的第一用户对应的用户特征。第一场景特征可以是当前触发资源排序过程时终端设备所处场景的场景特征。每种特征中所包含的具体内容可参见前述相关描述，在此不再赘述。

示例性地，可将N个信息特征中的每个信息特征分别与第一用户特征以及第一场景特征组合，生成N个关联特征，并将每个关联特征作为排序模型的输入特征，分别输入至排序模型中。利用该排序模型从信息内容、用户画像、场景、信息内容等多个维度对每个信息对第一用户的价值进行综合打分，同时消除每个信息可能存在的预测排序位置偏差，从而可得到每个信息分别对应的信息分数值。

这样，通过将信息特征、用户特征以及场景特征作为排序模型的输入特征，可以使排序模型从多个特征维度对每个信息进行打分，进而提高输出的信息分数值的准确性，得到更准确的信息排列顺序。

在一些实施例中，在上述信息分数值包括原始分数值和去偏差分数值的情况下，上述S530，具体可以包括：

对原始分数值和去偏差分数值进行加权求和，得到与每个信息分别对应的加权分数值；

根据与每个信息分别对应的加权分数值，对N个信息进行排序，展示经排序的N个信息。

这里，在对信息进行排序之前，可综合考虑原始分数值和去偏差分数值。具体可将原始分数值和去偏差分数值按照以下公式进行加权求和：

P1_old＝w1*pCtr_init+w2*pCtr_better

其中，P1_old为加权分数值，pCtr_init为归一化的原始分数值，pCtr_better为归一化的去偏差分数值，w1和w2为权重，这两个权重的具体取值可根据实际情况在线调整。

这样，通过在信息排序时综合参考原始分数值和去偏差分数值这两种分数值，可以使相关技术中所采用的信息排序方式由按照原始分数值进行排序的排序方式，向按照去偏差分数值进行排序的排序方式平稳过渡，避免在使用按照去偏差分数值进行排序的排序模型代替由按照原始分数值进行排序的排序模型时，排序结果出现较大的波动，影响用户的使用体验。

在一种可选实施方式中，上述对原始分数值和去偏差分数值进行加权求和，得到与每个信息分别对应的加权分数值，包括：

将去偏差分数值作为主导分数值，与原始分数值进行加权求和，得到与每个信息分别对应的加权分数值。

本申请实施例中，为了提高去偏差分数值对最终计算得到的加权分数值的影响力，可将归一化的去偏差分数值作为主导，提到线性加权和公式的括号外。具体可按照以下公式进行加权求和：

P1_new＝pCtr_better*(w1+w2*pCtr_init)

其中，P1_new为加权分数值。

这样，通过将去偏差分数值作为主导，提到线性加权和公式的括号外，可以通过去偏差分数值把异常的值拉回正常水平，避免最终排序时受极端情况的影响，从而可以提高信息排序结果的稳定性。另外，去偏差分数值相较于原始分数值更能够体现信息对用户的价值，因此，计算加权分数值时更多地考虑去偏差分数值，也可提高信息排序的准确性，避免受到排序位置偏差的影响。

另外，在一些实施方式中，上述根据与每个信息分别对应的加权分数值，对N个信息进行排序，展示经排序的N个信息，包括：

根据与每个信息分别对应的加权分数值，确定N个信息的初始排列顺序；

根据初始排列顺序，确定N个信息中每个信息分别对应的初始排序位置索引值；

根据每个信息分别对应的初始排序位置索引值，从后验关注率数据表中获取与每个信息分别对应的后验概率值；

将加权分数值减去后验概率值，得到与每个信息分别对应的最终分数值；

根据与每个信息分别对应的最终分数值，对N个信息进行排序，展示经排序的N个信息。

这里，在模型使用过程中，为了进一步消除由于位置偏差带来的优势得分，可在进行信息排序之前，通过查询后验关注率数据表，获取相同条件下且相同排序位置情况下信息的平均点击率，进而从加权分数值中扣除这部分优势得分，即为该信息的最终分数值。

示例性地，可先根据加权分数值P1_new进行排序，此时可以得到每个信息的排序位置索引pos，该索引pos属于先验值，然后利用后验关注率数据表查询得到优势得分p_system_ctr，前者减去该优势得分即为该信息的最终分数值。其中，计算最终分数值的公式可如下所示：

P＝P1_new-p_system_ctr(pos)

其中，P为最终分数值，p_system_ctr(pos)表示优势得分p_system_ctr是根据排序位置索引pos查表后得到的值。

如此，由于最终得分综合考虑了原模型概率pCtr_init、单独建模的位置概率pCtr_better、在实际日志中统计的后验概率p_system_ctr，因此能够更加合理地对信息进行排序。

基于相同的发明构思，本申请还提供了一种排序模型训练装置。下面结合图7对本申请实施例提供的排序模型训练装置进行详细说明。

图7是根据一示例性实施例示出的一种排序模型训练装置的结构框图。

如图7所示，排序模型训练装置700可以包括：

样本生成模块701，用于获取目标信息及其对应的历史排序位置，生成训练样本；

第一确定模块702，用于利用多目标网络模型确定所述训练样本对应的第一分数值和第二分数值，其中，所述第一分数值为排序存在排序位置偏差对应的分数值，所述第二分数值为排序不存在所述排序位置偏差对应的分数值；

第二确定模块703，用于利用多层感知器，根据所述历史排序位置确定所述训练样本对应的第三分数值，其中，所述第三分数值为所述排序位置偏差对应的分数值；

模型训练模块704，用于基于所述第一分数值、所述第二分数值和所述第三分数值，训练所述多目标网络模型，得到排序模型。

下面对上述排序模型训练装置700进行详细说明，具体如下所示：

在其中一些实施例中，所述训练样本包括与所述目标信息对应的信息特征、用户特征以及场景特征；

所述第一确定模块702包括：

第一输出子模块，用于将所述信息特征、所述用户特征以及所述场景特征输入至所述多目标网络模型，输出得到与所述训练样本对应的所述第一分数值和所述第二分数值。

在其中一些实施例中，所述训练样本还包括与所述历史排序位置对应的位置索引值；

所述第二确定模块703包括：

第二输出子模块，用于将所述场景特征和所述位置索引值输入至所述多层感知器，输出得到与所述训练样本对应的第三分数值。

在其中一些实施例中，所述训练样本包括与所述目标信息对应的用户反馈信息；

所述模型训练模块704包括：

分数相加子模块，用于将所述第二分数值与所述第三分数值相加，得到第四分数值；

损失确定子模块，用于根据所述第一分数值和所述第四分数值，以及所述用户反馈信息，确定损失值；

参数调整子模块，用于基于所述损失值分别调整所述多目标网络模型和所述多层感知器的模型参数，直至所述多目标网络模型收敛，得到所述排序模型。

在其中一些实施例中，所述模型训练模块704还包括：

分数获取子模块，用于在根据所述第一分数值和所述第四分数值，以及所述用户反馈信息，确定损失值之前，获取所述训练样本对应的第五分数值；其中，所述第五分数值为所述目标信息位于所述历史排序位置时得到用户正向反馈的后验概率值；

所述损失确定子模块包括：

分数相加单元，用于将所述第一分数值与所述第五分数值相加，得到第六分数值，以及将所述第四分数值与所述第五分数值相加，得到第七分数值；

损失确定单元，用于根据所述第六分数值和所述第七分数值，以及所述用户反馈信息，确定损失值。

在其中一些实施例中，所述分数获取子模块包括：

数据表建立单元，用于基于历史信息日志中记录的多个信息分别对应的信息标识、用户标识、用户反馈信息、位置索引值以及目标属性值建立初始数据表；其中，所述目标属性值为场景特征中包括的一种或多种属性值；

数据聚合单元，用于根据所述位置索引值以及所述目标属性值对所述初始数据表中的数据进行聚合，得到聚合结果；

概率计算单元，用于根据所述聚合结果，计算不同的所述位置索引值和所述目标属性值条件下对应的信息得到用户正向反馈的后验概率值，得到后验关注率数据表；

分数获取单元，用于从所述后验关注率数据表中，获取所述目标信息在对应的目标属性值条件下，位于所述历史排序位置时，得到用户正向反馈的后验概率值，作为所述第五分数值。

在其中一些实施例中，所述分数相加子模块包括：

分数确定单元，用于根据所述第二分数值、所述第三分数值以及影响力参数，确定第四分数值；其中，所述影响力参数用于表征所述第三分数值对所述第四分数值的影响程度。

基于相同的发明构思，本申请还提供了一种排序装置。下面结合图8对本申请实施例提供的排序装置进行详细说明。

图8是根据一示例性实施例示出的一种排序装置的结构框图。

如图8所示，排序装置800可以包括：

信息获取模块801，用于获取与第一用户对应的N个信息，其中，所述第一用户为接收所述N个信息的终端设备对应的用户；

偏差消除模块802，用于利用排序模型消除所述N个信息的预测排序位置偏差，得到与每个信息分别对应的信息分数值，其中，所述排序模型为基于多目标网络模型和多层感知器训练得到；

信息排序模块803，用于根据与每个信息分别对应的所述信息分数值，对所述N个信息进行排序，展示经排序的所述N个信息；

其中，N为正整数，且N≥2。

下面对上述排序装置800进行详细说明，具体如下所示：

在其中一些实施例中，偏差消除模块802包括：

特征获取子模块，用于获取与所述N个信息分别对应的信息特征、第一用户特征以及第一场景特征；其中，第一用户特征为所述第一用户的用户特征，所述第一场景特征为所述终端设备所处场景的场景特征；

特征关联子模块，用于将所述N个信息特征中的每个信息特征分别与所述第一用户特征和所述第一场景特征进行关联，得到N个关联特征；

信息打分模块，用于将所述N个关联特征分别输入至所述排序模型，利用所述排序模型消除每个信息对应的预测排序位置偏差，输出得到与每个信息分别对应的信息分数值。

在其中一些实施例中，所述信息分数值包括原始分数值和去偏差分数值；其中，所述原始分数值为排序存在所述预测排序位置偏差的分数值，所述去偏差分数值为排序不存在所述预测排序位置偏差的分数值；

所述信息排序模块803包括：

加权求和子模块，用于对所述原始分数值和所述去偏差分数值进行加权求和，得到与每个信息分别对应的加权分数值；

信息排序子模块，用于根据与每个信息分别对应的所述加权分数值，对所述N个信息进行排序，展示经排序的所述N个信息。

在其中一些实施例中，所述加权求和子模块包括：

主导求和单元，用于将所述去偏差分数值作为主导分数值，与所述原始分数值进行加权求和，得到与每个信息分别对应的所述加权分数值。

在其中一些实施例中，所述信息排序子模块，包括：

顺序确定单元，用于根据与每个信息分别对应的所述加权分数值，确定所述N个信息的初始排列顺序；

初始排列单元，用于根据所述初始排列顺序，确定所述N个信息中每个信息分别对应的初始排序位置索引值；

概率查询单元，用于根据每个信息分别对应的所述初始排序位置索引值，从后验关注率数据表中获取与每个信息分别对应的后验概率值；

最终确定单元，用于将所述加权分数值减去所述后验概率值，得到与每个信息分别对应的最终分数值；

最终排列单元，用于根据与每个信息分别对应的最终分数值，对所述N个信息进行排序，展示经排序的所述N个信息。

本申请实施例中的排序模型训练装置和排序装置可以是电子设备，也可以是电子设备中的部件，例如集成电路、或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digitalassistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的排序模型训练装置和排序装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的排序模型训练装置和排序装置能够实现图1至图6的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备900，包括处理器901和存储器902，存储器902上存储有可在所述处理器901上运行的程序或指令，该程序或指令被处理器901执行时实现上述排序模型训练方法或排序方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，针对本申请实施例提供的排序模型训练方法，在其中一些实施例中：

处理器1010，用于获取目标信息及其对应的历史排序位置，生成训练样本；利用多目标网络模型确定所述训练样本对应的第一分数值和第二分数值，其中，所述第一分数值为排序存在排序位置偏差对应的分数值，所述第二分数值为排序不存在所述排序位置偏差对应的分数值；利用多层感知器，根据所述历史排序位置确定所述训练样本对应的第三分数值，其中，所述第三分数值为所述排序位置偏差对应的分数值；基于所述第一分数值、所述第二分数值和所述第三分数值，训练所述多目标网络模型，得到排序模型。

这样，通过利用多目标网络模型确定训练样本对应的带偏差的第一分数值和不带偏差的第二分数值，并利用多层感知器确定偏差对应的第三分数值，从而在利用第一分数值、第二分数值和第三分数值训练多目标网络模型时，可使得多目标网络模型能够更准确地确定出第二分数值，这样可以消除目标信息由于历史排列位置而导致的偏差，得到消除偏差后的更准确的第二分数值。如此，基于该第二分数值确定的信息排列顺序能够使对用户有价值的信息，排列在前面，从而使得通过本申请实施例提供的排序模型训练方式训练得到的排序模型，能够准确地反映信息对用户的价值大小，进而使得通过该排序模型输出的信息排序方式，也能够有效降低用户获取对其有价值的信息所需的时间成本，提高了用户体验。

可选地，处理器1010，还用于将所述信息特征、所述用户特征以及所述场景特征输入至所述多目标网络模型，输出得到与所述训练样本对应的所述第一分数值和所述第二分数值。

可选地，处理器1010，还用于将所述场景特征和所述位置索引值输入至所述多层感知器，输出得到与所述训练样本对应的第三分数值。

可选地，处理器1010，还用于将所述第二分数值与所述第三分数值相加，得到第四分数值；根据所述第一分数值和所述第四分数值，以及所述用户反馈信息，确定损失值；基于所述损失值分别调整所述多目标网络模型和所述多层感知器的模型参数，直至所述多目标网络模型收敛，得到所述排序模型。

可选地，处理器1010，还用于获取所述训练样本对应的第五分数值；其中，所述第五分数值为所述目标信息位于所述历史排序位置时得到用户正向反馈的后验概率值；将所述第一分数值与所述第五分数值相加，得到第六分数值，以及将所述第四分数值与所述第五分数值相加，得到第七分数值；根据所述第六分数值和所述第七分数值，以及所述用户反馈信息，确定损失值。

可选地，处理器1010，还用于基于历史信息日志中记录的多个信息分别对应的信息标识、用户标识、用户反馈信息、位置索引值以及目标属性值建立初始数据表；其中，所述目标属性值为场景特征中包括的一种或多种属性值；根据所述位置索引值以及所述目标属性值对所述初始数据表中的数据进行聚合，得到聚合结果；根据所述聚合结果，计算不同的所述位置索引值和所述目标属性值条件下对应的信息得到用户正向反馈的后验概率值，得到后验关注率数据表；从所述后验关注率数据表中，获取所述目标信息在对应的目标属性值条件下，位于所述历史排序位置时，得到用户正向反馈的后验概率值，作为所述第五分数值。

可选地，处理器1010，还用于根据所述第二分数值、所述第三分数值以及影响力参数，确定第四分数值；其中，所述影响力参数用于表征所述第三分数值对所述第四分数值的影响程度。

这样，通过引入影响力参数可以减少MLP输出值对最终结果的影响，提高模型训练过程的准确性。而通过引入后验关注率数据表，可以查询得到第五分数值一起参与模型的训练，使最终输出的结果进一步考虑到由于历史排序位置带来的偏差，从而在训练过程中进一步消除排序模型中的与位置偏差相关的因素，提高了模型训练过程的准确性。

另外，针对本申请实施例提供的排序模型训练方法，在其中一些实施例中：

处理器1010，用于获取与第一用户对应的N个信息，其中，所述第一用户为接收所述N个信息的终端设备对应的用户；利用排序模型消除所述N个信息的预测排序位置偏差，得到与每个信息分别对应的信息分数值，其中，所述排序模型为基于多目标网络模型和多层感知器训练得到；根据与每个信息分别对应的所述信息分数值，对所述N个信息进行排序，展示经排序的所述N个信息；其中，N为正整数，且N≥2。

这样，通过利用基于多目标网络模型和多层感知器训练得到的排序模型，对N个信息中的每个信息进行打分，从而可以消除每个信息对应的预测排序位置偏差，这样可以排除各个信息由于排列位置而导致的预测偏差，得到消除偏差后的更准确的分数值，如此，基于该分数值确定的信息排列顺序能够满足用户的个性化需求，使对用户真正有用的信息排列在前面，从而可以降低用户获取有用信息的成本，提高用户体验。

可选地，处理器1010，还用于获取与所述N个信息分别对应的信息特征、第一用户特征以及第一场景特征；其中，第一用户特征为所述第一用户的用户特征，所述第一场景特征为所述终端设备所处场景的场景特征；将所述N个信息特征中的每个信息特征分别与所述第一用户特征和所述第一场景特征进行关联，得到N个关联特征；将所述N个关联特征分别输入至所述排序模型，利用所述排序模型消除每个信息对应的预测排序位置偏差，输出得到与每个信息分别对应的信息分数值。

可选地，处理器1010，还用于对所述原始分数值和所述去偏差分数值进行加权求和，得到与每个信息分别对应的加权分数值；根据与每个信息分别对应的所述加权分数值，对所述N个信息进行排序，展示经排序的所述N个信息。

可选地，处理器1010，还用于将所述去偏差分数值作为主导分数值，与所述原始分数值进行加权求和，得到与每个信息分别对应的所述加权分数值。

可选地，处理器1010，还用于根据与每个信息分别对应的所述加权分数值，确定所述N个信息的初始排列顺序；根据所述初始排列顺序，确定所述N个信息中每个信息分别对应的初始排序位置索引值；根据每个信息分别对应的所述初始排序位置索引值，从后验关注率数据表中获取与每个信息分别对应的后验概率值；将所述加权分数值减去所述后验概率值，得到与每个信息分别对应的最终分数值；根据与每个信息分别对应的所述最终分数值，对所述N个信息进行排序，展示经排序的所述N个信息。

这样，通过在信息排序时综合参考原始分数值和去偏差分数值这两种分数值，可以使当前所采用的信息排序方式由按照原始分数值进行排序的传统排序方式，向按照去偏差分数值进行排序的新排序方式平稳过渡，避免在使用新排序模型代替传统排序模型时，排序结果出现较大的波动，影响用户的使用体验。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述排序模型训练方法或排序方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述排序模型训练方法或排序方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述排序模型训练方法或排序方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种排序模型训练方法，其特征在于，包括：

获取目标信息及其对应的历史排序位置，生成训练样本；

2.根据权利要求1所述的方法，其特征在于，所述训练样本包括与所述目标信息对应的信息特征、用户特征以及场景特征；

所述利用多目标网络模型确定所述训练样本对应的第一分数值和第二分数值，包括：

将所述信息特征、所述用户特征以及所述场景特征输入至所述多目标网络模型，输出得到与所述训练样本对应的所述第一分数值和所述第二分数值。

3.根据权利要求2所述的方法，其特征在于，所述训练样本还包括与所述历史排序位置对应的位置索引值；

所述利用多层感知器，根据所述历史排序位置确定所述训练样本对应的第三分数值，包括：

将所述场景特征和所述位置索引值输入至所述多层感知器，输出得到与所述训练样本对应的第三分数值。

4.根据权利要求1所述的方法，其特征在于，所述训练样本包括与所述目标信息对应的用户反馈信息；

所述基于所述第一分数值、所述第二分数值和所述第三分数值，训练所述多目标网络模型，得到排序模型，包括：

将所述第二分数值与所述第三分数值相加，得到第四分数值；

根据所述第一分数值和所述第四分数值，以及所述用户反馈信息，确定损失值；

基于所述损失值分别调整所述多目标网络模型和所述多层感知器的模型参数，直至所述多目标网络模型收敛，得到所述排序模型。

5.根据权利要求4所述的方法，其特征在于，在根据所述第一分数值和所述第四分数值，以及所述用户反馈信息，确定损失值之前，所述方法还包括：

获取所述训练样本对应的第五分数值；其中，所述第五分数值为所述目标信息位于所述历史排序位置时得到用户正向反馈的后验概率值；

所述根据所述第一分数值和所述第四分数值，以及所述用户反馈信息，确定损失值，包括：

将所述第一分数值与所述第五分数值相加，得到第六分数值，以及将所述第四分数值与所述第五分数值相加，得到第七分数值；

根据所述第六分数值和所述第七分数值，以及所述用户反馈信息，确定损失值。

6.根据权利要求5所述的方法，其特征在于，所述获取所述训练样本对应的第五分数值，包括：

基于历史信息日志中记录的多个信息分别对应的信息标识、用户标识、用户反馈信息、位置索引值以及目标属性值建立初始数据表；其中，所述目标属性值为场景特征中包括的一种或多种属性值；

根据所述位置索引值以及所述目标属性值对所述初始数据表中的数据进行聚合，得到聚合结果；

根据所述聚合结果，计算不同的所述位置索引值和所述目标属性值条件下对应的信息得到用户正向反馈的后验概率值，得到后验关注率数据表；

从所述后验关注率数据表中，获取所述目标信息在对应的目标属性值条件下，位于所述历史排序位置时，得到用户正向反馈的后验概率值，作为所述第五分数值。

7.根据权利要求4所述的方法，其特征在于，所述将所述第二分数值与所述第三分数值相加，得到第四分数值，包括：

根据所述第二分数值、所述第三分数值以及影响力参数，确定第四分数值；其中，所述影响力参数用于表征所述第三分数值对所述第四分数值的影响程度。

8.一种排序方法，其特征在于，包括：

其中，N为正整数，且N≥2。

9.根据权利要求8所述的方法，其特征在于，所述利用排序模型消除所述N个信息的预测排序位置偏差，得到与每个信息分别对应的信息分数值，包括：

获取与所述N个信息分别对应的信息特征、第一用户特征以及第一场景特征；其中，第一用户特征为所述第一用户的用户特征，所述第一场景特征为所述终端设备所处场景的场景特征；

将所述N个信息特征中的每个信息特征分别与所述第一用户特征和所述第一场景特征进行关联，得到N个关联特征；

将所述N个关联特征分别输入至所述排序模型，利用所述排序模型消除每个信息对应的预测排序位置偏差，输出得到与每个信息分别对应的信息分数值。

10.根据权利要求8所述的方法，其特征在于，所述信息分数值包括原始分数值和去偏差分数值；其中，所述原始分数值为排序存在所述预测排序位置偏差的分数值，所述去偏差分数值为排序不存在所述预测排序位置偏差的分数值；

所述根据与每个信息分别对应的所述信息分数值，对所述N个信息进行排序，展示经排序的所述N个信息，包括：

对所述原始分数值和所述去偏差分数值进行加权求和，得到与每个信息分别对应的加权分数值；

根据与每个信息分别对应的所述加权分数值，对所述N个信息进行排序，展示经排序的所述N个信息。

11.根据权利要求10所述的方法，其特征在于，所述对所述原始分数值和所述去偏差分数值进行加权求和，得到与每个信息分别对应的加权分数值，包括：

将所述去偏差分数值作为主导分数值，与所述原始分数值进行加权求和，得到与每个信息分别对应的所述加权分数值。

12.根据权利要求10或11所述的方法，其特征在于，所述根据与每个信息分别对应的所述加权分数值，对所述N个信息进行排序，展示经排序的所述N个信息，包括：

根据与每个信息分别对应的所述加权分数值，确定所述N个信息的初始排列顺序；

根据所述初始排列顺序，确定所述N个信息中每个信息分别对应的初始排序位置索引值；

根据每个信息分别对应的所述初始排序位置索引值，从后验关注率数据表中获取与每个信息分别对应的后验概率值；

将所述加权分数值减去所述后验概率值，得到与每个信息分别对应的最终分数值；

根据与每个信息分别对应的所述最终分数值，对所述N个信息进行排序，展示经排序的所述N个信息。

13.一种排序模型训练装置，其特征在于，包括：

14.根据权利要求13所述的装置，其特征在于，所述训练样本包括与所述目标信息对应的信息特征、用户特征以及场景特征；

所述第一确定模块包括：

15.根据权利要求14所述的装置，其特征在于，所述训练样本还包括与所述历史排序位置对应的位置索引值；

所述第二确定模块包括：

16.根据权利要求13所述的装置，其特征在于，所述训练样本包括与所述目标信息对应的用户反馈信息；

所述模型训练模块包括：

17.根据权利要求16所述的装置，其特征在于，所述分数相加子模块包括：

18.一种排序装置，其特征在于，包括：

其中，N为正整数，且N≥2。

19.根据权利要求18所述的装置，其特征在于，所述偏差消除模块包括：

20.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的排序模型训练方法或如权利要求8-12任一项所述的排序方法的步骤。

21.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的排序模型训练方法或如权利要求8-12任一项所述的排序方法的步骤。