CN114357304A

CN114357304A - 去除位置偏置的模型训练方法、介质、装置和计算设备

Info

Publication number: CN114357304A
Application number: CN202210004719.7A
Authority: CN
Inventors: 章莺; 肖强; 李勇
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-15

Abstract

本公开的实施方式提供了一种去除位置偏置的模型训练方法、介质、装置和计算设备，对于点击任务或完播任务中的任一种任务，在模型的训练过程中，基于主模型，根据任务中样本对象的用户特征、对象特征，获得所述任务对应的拟预测值；同时，基于第一从模型，通过样本对象的对象位置特征，获得样本对象对应的位置影响力值；再通过获取的位置影响力值对主模型和从模型进行迭代训练，使得训练得到的主模型可以去除位置偏置，从而在通过主模型进行对象推荐时，可以消除对象所在位置对推荐结果的影响，获得潜在的用户真正感兴趣的对象，从而提升用户的满意度，进而提升平台的推荐转化率。

Description

去除位置偏置的模型训练方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及信息处理技术领域，更具体地，本公开的实施方式涉及一种去除位置偏置的模型训练方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着互联网产品的不断发展，为了给用户提供个性化推荐服务，达到“千人千面”的个性化体验，推荐系统应运而生。

推荐系统的核心是所推荐对象的转化概率预估，把认为可能对用户转化率较高的对象推荐给用户。例如，对于一些流媒体平台，例如音乐平台、影视剧平台和文学作品阅读平台等平台中，若这些平台的推荐系统能准确向用户推荐更符合用户需求的对象，例如歌曲、影视剧或者文学作品等，就意味着这些对象能更高效地被用户吸收，从而最大化平台和用户的利益，同时保障用户体验。

然而，对象在推荐页面中的位置等因素均会影响用户的选择，而目前的推荐系统通常是根据用户的偏好进行推荐，这就导致平台推荐的对象很难满足用户需求。

发明内容

在本上下文中，本公开的实施方式期望提供一种去除位置偏置的模型训练方法、介质、装置和计算设备。

在本公开实施方式的第一方面中，提供了一种去除位置偏置的模型训练方法，包括：对于点击任务或完播任务中的任一种任务，获取任务中样本对象的第一用户特征、对象特征，将第一用户特征、对象特征输入主模型，获得任务对应的拟预测值；获取样本对象的对象位置特征和第二用户特征，将对象位置特征和第二用户特征输入第一从模型，获得位置影响力值，位置影响力值用于表征对象的展示位置对任务的影响力大小；根据拟预测值和位置影响力值，确定任务对应的第一预测值；根据第一预测值、样本的第一真实标签和第一损失函数，对主模型和第一从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

在本公开的一个实施例中，对象位置特征包括：对象在第一区域中的第一位置特征和第一区域在所有区域中的第二位置特征；

将对象位置特征和第二用户特征输入第一从模型，获得位置影响力值，包括：获取第一位置特征对应的第一独热向量；根据第一独热向量，查找到第一独热向量对应的第一稠密向量；获取第二位置特征对应的第二独热向量；根据第二独热向量，查找第二独热向量对应的第二稠密向量；获取第二用户特征对应的第一从用户向量；根据第一从用户向量和预设稠密矩阵，得到第三稠密向量；将第一稠密向量、第二稠密向量和第三稠密向量输入第一从模型的拼接层进行拼接，得到第一拼接向量；将第一拼接向量输入第一从模型的全连接层，经过预设非线性函数获得位置影响力值。

在本公开的一个实施例中，当任务为完播任务时，模型训练方法还包括：将对象位置特征输入第二从模型，获得选择概率值，选择概率值用于表征用户主动选择对象的概率；根据第一预测值和选择概率值，确定完播任务对应的第二预测值；根据第二预测值、样本的第二真实标签和第二损失函数，对主模型、第一从模型和第二从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

在本公开的一个实施例中，将对象位置特征输入第二从模型，获得选择概率值，包括：将第一稠密向量和第二稠密向量输入到第二从模型的拼接层进行拼接，得到第二拼接向量；将第二拼接向量输入第二从模型的全连接层，经过预设非线性函数获得选择概率值。

在本公开实施方式的第二方面中，提供了一种对象推荐方法，包括：获取当前用户的用户特征和多个候选对象的对象特征；将用户特征和对象特征输入目标主模型，获得目标主模型输出的分数，目标主模型是根据第一方面提供的模型训练方法获得的；根据分数，向当前用户推荐候选对象，其中，分数为点击分数和/或完播分数。

在本公开的一个实施例中，将用户特征和对象特征输入目标主模型，获得目标主模型输出的分数，包括：根据用户特征获取用户向量，根据对象特征，获取对象向量；通过目标主模型的拼接层，将用户向量和对象向量进行拼接，获得第三拼接向量；通过目标主模型的全连接层，基于预设非线性函数根据第三拼接向量获得分数。

在本公开的一个实施例中，通过目标主模型的拼接层，将用户向量和对象向量进行拼接，获得第三拼接向量，包括：通过目标主模型的注意力网络，基于用户向量和对象向量获得交叉向量；通过目标主模型的全连接层，基于预设非线性函数根据第三拼接向量获得分数，包括：通过目标主模型的全连接层，基于预设非线性函数，根据交叉向量获得分数。

在本公开的一个实施例中，对象推荐方法还包括：对象推荐方法还包括：获取候选对象的上下文特征对应的上下文特征向量；通过目标主模型的拼接层，将上下文特征向量和交叉向量进行拼接处理，得到第四拼接向量；通过目标主模型的全连接层，基于预设非线性函数，根据交叉向量获得分数，包括：通过全连接层，基于预设非线性函数，根据第四拼接向量获得分数。

在本公开的一个实施例中，根据分数，向当前用户推荐候选对象，包括：确定点击分数和完播分数的乘积为候选对象的曝光完播分数；根据完播分数对候选对象进行排序，根据排序结果和第一预设数量，对候选对象进行筛选，获得候选对象中的第一推荐对象；根据第一推荐对象的曝光完播分数对第一推荐对象进行排序，根据排序结果和第二预设数量，确定在第一区域内展示的第一推荐对象中第二推荐对象，以及第二推荐对象的展示顺序；根据第一推荐对象中其余对象的完播分数对其余对象进行排序，根据排序结果确定其余对象在其他区域内中的展示顺序；在第一区域和其他区域内展示对应的推荐对象。

在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如第一方面的去除位置偏置的模型训练方法，和/或，如第二方面的对象推荐方法。

在本公开实施方式的第四方面中，提供一种去除位置偏置的模型训练装置，包括：第一获取模块，用于对于点击任务或完播任务中的任一种任务，获取任务中样本对象的第一用户特征、对象特征，将第一用户特征、对象特征输入主模型，获得任务对应的拟预测值；

第二获取模块，用于获取样本对象的对象位置特征和第二用户特征，将对象位置特征和第二用户特征输入第一从模型，获得位置影响力值，位置影响力值用于表征对象的展示位置对任务的影响力大小；确定模块，用于根据拟预测值和位置影响力值，确定任务对应的第一预测值；第一处理模块，用于根据第一预测值、样本的第一真实标签和第一损失函数，对主模型和第一从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

在本公开的一个实施例中，对象位置特征包括：对象在第一区域中的第一位置特征和第一区域在所有区域中的第二位置特征；第二获取模块具体用于：获取第一位置特征对应的第一独热向量；根据第一独热向量，查找到第一独热向量对应的第一稠密向量；获取第二位置特征对应的第二独热向量；根据第二独热向量，查找第二独热向量对应的第二稠密向量；获取第二用户特征对应的第一从用户向量；根据第一从用户向量和预设稠密矩阵，得到第三稠密向量；将第一稠密向量、第二稠密向量和第三稠密向量输入第一从模型的拼接层进行拼接，得到第一拼接向量；将第一拼接向量输入第一从模型的全连接层，经过预设非线性函数获得位置影响力值。

在本公开的一个实施例中，当任务为完播任务时，模型训练装置还包括第二处理模块，用于将对象位置特征输入第二从模型，获得选择概率值，选择概率值用于表征用户主动选择对象的概率；根据第一预测值和选择概率值，确定完播任务对应的第二预测值；根据第二预测值、样本的第二真实标签和第二损失函数，对主模型、第一从模型和第二从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

在本公开的一个实施例中，第二处理模块具体用于：将第一稠密向量和第二稠密向量输入到第二从模型的拼接层进行拼接，得到第二拼接向量；将第二拼接向量输入第二从模型的全连接层，经过预设非线性函数获得选择概率值。

在本公开实施方式的第五方面中，提供一种对象推荐装置，包括：获取模块，用于获取当前用户的用户特征和多个候选对象的对象特征；处理模块，用于将用户特征和对象特征输入目标主模型，获得目标主模型输出的分数，目标主模型是根据第一方面提供的模型训练方法获得的；推荐模块，用于根据分数，向当前用户推荐候选对象，其中，分数为点击分数和/或完播分数。

在本公开的一个实施例中，处理模块具体用于：根据用户特征获取用户向量，根据对象特征，获取对象向量；通过目标主模型的拼接层，将用户向量和对象向量进行拼接，获得第三拼接向量；通过目标主模型的全连接层，基于预设非线性函数根据第三拼接向量获得分数。

在本公开的一个实施例中，处理模块具体用于：通过目标主模型的注意力网络，基于用户向量和对象向量获得交叉向量；处理模块具体用于：通过目标主模型的全连接层，基于预设非线性函数，根据交叉向量获得分数。

在本公开的一个实施例中，获取模块还用于：获取候选对象的上下文特征对应的上下文特征向量；通过目标主模型的拼接层，将上下文特征向量和交叉向量进行拼接处理，得到第四拼接向量；处理模块具体用于：通过全连接层，基于预设非线性函数，根据第四拼接向量获得分数。处理模块还用于：将第四拼接向量输入全连接层，经过预设非线性函数获得分数。

在本公开的一个实施例中，推荐模块具体用于：确定点击分数和完播分数的乘积为候选对象的曝光完播分数；根据完播分数对候选对象进行排序，根据排序结果和第一预设数量，对候选对象进行筛选，获得候选对象中的第一推荐对象；根据第一推荐对象的曝光完播分数对第一推荐对象进行排序，根据排序结果和第二预设数量，确定在第一区域内展示的第一推荐对象中第二推荐对象，以及第二推荐对象的展示顺序；根据第一推荐对象中其余对象的完播分数对其余对象进行排序，根据排序结果确定其余对象在其他区域内中的展示顺序；在第一区域和其他区域内展示对应的推荐对象。

在本公开实施方式的第六方面中，提供了一种计算设备，包括：至少一个处理器和存储器；存储器存储计算机执行指令；至少一个处理器至少存储器存储的计算机执行指令，使得至少一个处理器执行如第一方面的去除位置偏置的模型训练方法，和/或，如第二方面的对象推荐方法。

本公开实施例提供的一种去除位置偏置的模型训练方法、介质、装置和计算设备，对于点击任务或完播任务中的任一种任务，获取任务中样本对象的第一用户特征、对象特征，将第一用户特征、对象特征输入主模型，获得任务对应的拟预测值；获取样本对象的对象位置特征和第二用户特征，将对象位置特征和第二用户特征输入第一从模型，获得位置影响力值；根据拟预测值和位置影响力值，确定任务对应的第一预测值；根据第一预测值、样本的第一真实标签和第一损失函数，对主模型和第一从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。本公开实施例中，在模型的训练过程中，加入样本对象的对象位置特征，并通过获取的位置影响力值对模型进行迭代训练，使得训练得到的主模型可以去除位置偏置，从而在通过主模型进行对象推荐时，可以消除对象所在位置对推荐结果的影响，获得潜在的用户真正感兴趣的对象，从而提升用户的满意度，进而提升平台的推荐转化率。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1为本公开实施方式提供的应用场景示例图；

图2为本公开实施例提供的模型训练方法的流程示意图一；

图3为本公开实施例提供的模型训练方法的原理示意图一；

图4为本公开实施例提供的推荐页面的示例图；

图5为本公开实施例提供的模型训练方法的原理示意图二；

图6为本公开实施例提供的对象推荐方法的流程示意图；

图7为本公开实施例提供的存储介质的结构示意图；

图8为本公开实施例提供的模型训练装置的结构示意图；

图9为本公开实施例提供的对象推荐装置的结构示意图；

图10为本公开实施例提供的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。另外，本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

根据本公开的实施方式，提出了一种去除位置偏置的模型训练方法、介质、装置和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神，本公开的技术方案中，所涉及的用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理，均为经用户授权或者经过各方充分授权的数据，且均符合相关法律法规的规定，不违背公序良俗。

发明概述

本发明人发现，以用户为主导的一些流媒体平台中，进行相关对象推荐是非常常见且重要的功能，推荐模块通常位于平台首页，且通常具有多个推荐页面，位于首页的推荐对象决定了用户是否消费该模块，若首页的推荐对象能吸引用户进行点击，才会有后续更多对象的消费，同时也能加深用户对该场景的感知，因而增强用户在首页的点击意愿，长远地提高推荐转化率。

另外，用户对推荐对象在推荐页面中位置是非常敏感的，越靠前的位置具有更大的优势，因此如何消除位置对用户感知的影响也是要解决的问题之一。

有鉴于此，本公开实施例提供一种去除位置偏置的模型训练方法、介质、装置和计算设备，在模型的训练过程中，加入样本对象的对象位置特征，并通过获取的位置影响力值对模型进行迭代训练，使得训练得到的主模型可以去除位置偏置，从而在通过主模型进行对象推荐时，可以消除对象所在位置对推荐结果的影响，获得潜在的用户真正感兴趣的对象，从而提升用户的满意度，进而提升推荐转化率。

需要说明的是，本公开实施例对于推荐场景不做具体限定。在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图1，图1为本公开实施方式提供的应用场景示例图。如图1所示，该应用场景涉及的设备包括：终端设备101和服务器102。

其中，服务器102与终端设备101通过网络进行通信，当用户通过终端设备101进入流媒体平台时，服务器102会获取当前用户的用户特征和当前用户对应的候选对象的对象特征，并根据用户特征和对象特征获得每个候选对象对应的分数，从而根据分数向用户推荐候选对象。

进一步的，服务器102可以将结果发送给终端设备101，从而在终端设备101的推荐页面上显示所推荐的对象。其中，不同的流媒体平台对应不同的推荐对象，流媒体平台包括但不限于以下几种类型：影视剧平台、音乐平台和阅读平台等；相应的，推荐对象包括但不限于以下几种类型：影视剧、歌曲和文学作品等(例如，小说等)。

应理解，本公开实施例对于对象的推荐数量、展示方法等依据当前平台的显示参数而定，本公开实施例不做具体限定。

需要说明的是，终端设备101可以是个人数字处理(personal digitalassistant，简称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer，简称PC))、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能显示设备)等，本公开实施例的终端设备101以手机为例示出，但不以此为限定。

服务器102可以为单个服务器，也可以为服务器集群，可以为分布式服务器，也可以为集中式服务器，还可以为云服务器等，本公开实施例均不做限定。

示例性方法

下面结合图1的应用场景，参考图2～6来描述根据本公开示例性实施方式的去除位置偏置的模型训练方法和对象推荐方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。其中，本公开的实施方式适用的执行设备为计算设备，如上述的服务器。

图2为本公开实施例提供的模型训练方法的流程示意图一。如图2所示，本公开实施例提供的模型训练方法可以包括如下步骤：

S201、对于点击任务或完播任务中的任一种任务，获取任务中样本对象的第一用户特征、对象特征，将第一用户特征、对象特征输入主模型，获得任务对应的拟预测值。

在一些实施例中，由于不同任务样本分布差异较大，无法进行联合训练，因此，针对不同的训练任务，可以从用户的行为日志中获取不同的样本对象。

一方面，对于完播任务，对象被完播的前提是该对象被播放(对于小说等文学作品，对象被完播即文学作品被用户完整观看)，因此，完播任务对应的样本对象为用户的播放日志中的对象，可以根据对象是否被完整播放，从而确定各样本对象的标签。具体的，对于播放日志中被完整播放的对象，标记为正样本，对于播放日志中没有被完整播放的对象，标记为负样本。

另一方面，对于点击任务，对象是否被点击的前提是对象在推荐页面中被曝光给用户，因此，点击任务对应的样本对象为用户的曝光日志中的对象。具体的，对于曝光日志中的对象，若被用户点击过，则标记为正样本，若未被用户点击过，则标记为负样本。

发明人发现，对于点击任务中的样本对象，曝光日志中用户在第一个推荐页面中所点击的第一个对象时，其意图往往不明确，其有可能是用户对该对象的偏好而进行的点击，也可能是用户对推荐页面的偏好而进行的点击，因此，作为一种可选的实施例，可以舍弃曝光日志中的这类对象，从而进一步提升模型的准确性。

以样本对象为歌曲为例，样本对象的第一用户特征为播放或曝光该样本对象的用户的特征，其中，第一用户特征包括以下至少一种：用户画像特征(例如，用户的性别、年龄、所在城市、用户等级等)、用户设备特征(例如，设备厂商、设备型号等)、用户歌曲偏好特征(例如，曲风偏好、语种偏好、歌曲发行年代偏好、艺人偏好等)；

相应的，样本对象的对象特征包括以下至少一种：歌曲画像特征(例如，歌曲的曲风、语种、艺人、作曲者、作词者、编曲者、乐器等)、歌曲热度特征(例如，歌曲评论数、红心数、分享数、下载数等)、歌曲行为特征(例如，预设时段的完播率、红心率等)。其中，“红心”指的是用户根据对象的喜爱程度对对象的标记。

应当理解的是，至于其他类型的对象，例如影视作品、文学作品等对象特征与歌曲类似，此处不再一一赘述。

本步骤中，在获取到各任务对应的第一用户特征、对象特征之后，将第一用户特征和对象特征输入至主模型中，通过主模型获得任务对应的拟预测值。

在一些实施例中，上述步骤S201具体包括如下步骤：

(1)根据第一用户特征，获取用户向量；

(2)根据对象特征，获取对象向量；

具体的，用户向量为第一用户特征对应的稠密向量，对象向量为对象特征对应的稠密向量，本公开实施例对于获取稠密向量的具体方式不做限定，例如，可以通过查找稠密字典获得稠密向量。

在一些实施例中，可以通过主模型中的特征处理层来获取各特征对应的稠密向量。具体的，图3为本公开实施例提供的模型训练方法的原理示意图一。如图3所示，主模型中包括特征处理层，该特征处理层用于获取对象特征对应的对象向量以及第一用户特征对应的用户向量。

请继续参考图3，主模型包括还拼接层和全连接层。应当理解的是，图3中的全连接层以两个为例示出，但不以此为限定，例如，全连接层的数量还可以是3个、4个等。

(3)将用户向量和对象向量进行拼接，得到拼接向量。

(4)通过主模型的全连接层，基于预设非线性函数，根据拼接向量获得拟预测值。

在本公开实施例中，首先将用户向量、对象向量输入至拼接层，获得拼接向量，再将拼接向量连续输入两个全连接层，通过全连接层对应的预设非线性函数作为激活函数，对拼接向量进行处理，从而通过全连接层输出拟预测值。

一种可选的实施方式中，预设非线性函数可以为PReLu函数，用于将主模型神经元的输入映射到输出端，其中，PReLu函数的表达式如下所示：

其中，i用于指示全连接层的第i层，x_i为全连接层的第i层加权求和结果，a_i为第i层对应的参数，PReLu(x_i)表示第i层的预设非线性函数，在全连接层的最后一层经过sigmoid输出拟预测值。

需要说明的是，全连接层的中间层的预设非线性函数还可以为tanh函数等类型的激活函数，至于具体类型，本申请实施例不做限定。另外，全连接层的中间层的层数可以为其他数量，例如，三层、四层等，本公开实施例对此也不作限定。在一些可选的实施例中，如图3所示，该主模型还可以包括注意力网络，在此实施例中，上述步骤(3)具体为：将用户向量和对象向量输入主模型的注意力网络，获得交叉向量。

其中，注意力网络可以为多头注意力网络，通过该注意力网络，可以使得用户特征和对象特征进行有效交叉，从而更好的表达对象在不同用户群体中的表现。相应的，上述步骤(4)具体为：将交叉向量输入全连接层，经过预设非线性函数获得拟预测值。

在一些实施例中，对于不同的任务，拟预测值不同，示例性的，对于完播任务，拟预测值用于指示在未消除位置影响的情况下，各样本对象的完播概率(即对象被完整播放的概率)。相应的，对于点击任务，拟预测值用于指示在未消除位置影响的情况下，各样本对象的点击概率(即对象被曝光时被用户点击的概率)。

S202、获取样本对象的对象位置特征和第二用户特征，将对象位置特征和第二用户特征输入第一从模型，获得位置影响力值。

其中，第二用户特征为用户的基础属性特征，其包括但不限于：设备型号、用户性别、用户年龄等。本步骤中，采用独立的第一从模型来构建位置影响偏置，从而获得样本对象的位置影响力值，应当理解的是，对象位置特征用于指示样本对象在推荐页面中的位置特征，位置影响力值用于表征对象的展示位置对任务的影响力大小。

在一些实施例中，对于不同的推荐场景，对象位置特征不同。一方面，对于仅有一个推荐区域推荐场景，对象位置特征包括：样本对象在该推荐区域内的第一位置特征。另一方面，对于包含多个推荐区域的推荐场景，对象位置特征包括：对象在第一区域中的第一位置特征和第一区域在所有区域中的第二位置特征。示例性的，请参考图4，图4为本公开实施例提供的推荐页面的示例图。如图4所示，该推荐页面中包括至少一个推荐区域，不同推荐区域内向用户推荐的对象不同，用户可以通过左右/上下滑动等操作切换到不同的推荐区域，从而向用户展示该推荐区域的推荐对象。

其中，对于同一区域，该区域中展示有多个推荐对象，不同推荐对象的位置不同，第一位置特征即为样本对象在该推荐区域中的位置特征。

对于不同区域，例如，第一个区域和第二个区域，第一个区域的推荐对象最先展示给用户，用户通过一定的操作才能够展示出第二个区域，因此，第一个区域和第二个区域中的样本对象对应的位置偏置不同，第二位置特征即为样本对象所在的第一区域在所有区域中的位置特征。

接下来，以对象位置特征包括第一位置特征和第二位置特征为例对上述步骤S202进行详细说明，具体的，步骤S202包括如下步骤：

(1)获取第一位置特征对应的第一独热向量。

(2)根据第一独热向量，查找到第一独热向量对应的第一稠密向量。

(3)获取第二位置特征对应的第二独热向量。

(4)根据第二独热向量，查找第二独热向量对应的第二稠密向量。

具体的，不同的独热向量对应于不同的稠密向量，本步骤中，可以通过稠密字典分别确定第一独热向量和第二独热向量对应的稠密向量，至于确定方法，本公开实施例不做具体限定。

(5)获取第二用户特征对应的从用户向量；

其中，从用户向量为第二用户特征的独热向量，其中，第二用户特征包括但不限于：设备型号、用户性别、用户年龄等基础特征。

(6)根据从用户向量和预设稠密矩阵，得到第三稠密向量；

具体的，将从用户向量与预设稠密矩阵相乘，获得第三稠密向量，应当理解的是，对于预设稠密矩阵，本公开实施例不做具体限定。

(7)将第一稠密向量、第二稠密向量和第三稠密向量输入第一从模型的拼接层进行拼接，得到第一拼接向量。

(8)将第一拼接向量输入第一从模型的全连接层，经过预设非线性函数获得位置影响力值。

请继续参考图3，如图3所示，第一从模型包括拼接层和全连接层。需要说明的是，图3中的全连接层以两个为例示出，但不以此为限定。

在本公开实施例中，首先将获得的第一稠密向量、第二稠密向量和第三稠密向量输入至拼接层，通过拼接层获得第一拼接向量，再将第一拼接向量连续输入两个全连接层，通过全连接层之间通过预设非线性函数作为激活函数，获得位置影响力值。

一种可选的实施方式中，预设非线性函数可以为PReLu函数。

S203、根据拟预测值和位置影响力值，确定任务对应的第一预测值。

在一些实施例中，首先，确定拟预测值与位置影响力值之和；

进一步的，通过sigmoid函数对拟预测值与位置影响力值之和进行处理，获得第一预测值，通过sigmoid函数的处理，可以将第一预测值控制在0～1之间。

其中，sigmoid函数的计算公式如下：

其中，x为拟预测值与位置影响力值之和。

S204、根据第一预测值、样本的第一真实标签和第一损失函数，对主模型和第一从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

需要说明的是，本公开实施例中对于第一损失函数的函数类别不做具体限定，例如，第一损失函数可以为交叉熵损失函数。

进一步的，基于反向传播算法，根据损失函数值计算出梯度，从而使得模型的模型参数在迭代训练中进行更新，直至模型收敛，即说明当前满足训练退出条件，则结束训练，并确定当前训练过程对应的主模型为目标主模型。

本公开实施例中，通过第一从模型来构建位置影响偏置，从而得出样本对象对应的位置影响力值，并在训练过程中，基于第一从模型获得的位置影响力值对主模型进行训练，即可使得训练得到的目标主模型中消除位置偏置对推荐结果的影响，使得目标主模型可以获得潜在的用户真正感兴趣的对象，从而为用户推荐更合理的对象，提升用户的满意度，进而提升推荐平台的推荐转化率。

在一种实施方式中，本公开实施例提供的模型训练方法可以具体包括如下步骤：

S501、对于点击任务或完播任务中的任一种任务，获取任务中样本对象的第一用户特征、对象特征，将第一用户特征、对象特征输入主模型，获得任务对应的拟预测值。

S502、获取样本对象的对象位置特征和第二用户特征，将对象位置特征和第二用户特征输入第一从模型，获得位置影响力值。

其中，位置影响力值用于表征对象的展示位置对任务的影响力大小。

S503、根据拟预测值和位置影响力值，确定任务对应的第一预测值。

应当理解的是，步骤S501～S503的原理及效果与图2所示实施例中的步骤S201～S203类似，此处不再赘述。

S504、根据第一预测值、样本的第一真实标签和第一损失函数，对主模型和第一从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

本公开实施例中，根据第一预测、样本对象的第一真实标签和第一损失函数，对图3所示实施例中的主模型和第一从模型进行迭代训练。

一方面，对于点击任务，通过如下公式(1)获得点击任务中每次训练对应的损失函数值CLR LOSS：

其中，N为当前轮次的训练中样本对象的数量，y_{CLR_i}为样本对象的点击标签、p_{CLR_i}为点击任务对应的第一预测值。

另一方面，对于完播任务，可以通过如下公式(2)获得完播任务中每次训练对应的损失函数值EDR LOSS：

其中，N为当前轮次的训练中样本对象的数量，y_{EDR_i}为样本对象的完播标签、p_{EDR_i}为完播任务对应的第一预测值。

进一步的，对于点击任务和完播任务中的任一种任务，基于反向传播算法，根据损失函数值计算出梯度，从而使得主模型和第一从模型的模型参数在迭代训练中进行更新，直至模型收敛时，即说明当前满足训练退出条件，则结束训练，并确定当前训练过程对应的主模型为目标主模型。

发明人发现，完播任务对应的样本对象(即播放样本)包括以下两种情况：

情况一、通过用户主动选择并进行播放的样本对象；

情况二、用户未主动选择，通过自动播放或者顺序播放等方式进行播放的样本对象，例如，顺序播放模式下，在前一个对象被播放完后，后续的对象逐渐被消费。

对于情况一中的样本对象，用户的行为反馈是最真实的，可以完全表达用户对该对象的播放是主动选择的，而展示位置靠前的对象更容易被用户主动选择，有鉴于此，本公开实施例中，对于完播任务，还可以根据用户对样本对象的选择情况，进一步对主模型进行训练，从而进一步消除位置偏置对推荐结果的影响。

在一种可选的实施方式中，针对完播任务，在执行上述步骤S501～S503之后，可以直接执行如下步骤S505～S507的训练过程，从而得到完播任务对应的目标主模型；在另一种可选的实施方式中，针对完播任务，还可以在执行上述步骤S501～S504之后，针对步骤S504获得的目标主模型执行如下步骤S505～S507的训练过程，从而得到完播任务对应的目标主模型。

S505、将对象位置特征输入第二从模型，获得选择概率值。

其中，选择概率值用于表征用户主动选择对象的概率。

图5为本公开实施例提供的模型训练方法的原理示意图二。如图5所示，对于完播任务，上述步骤S505具体包括如下步骤：

(1)将第一位置特征对应的第一稠密向量和第二位置特征对应的第二稠密向量输入到第二从模型的拼接层进行拼接，得到第二拼接向量。

(2)通过第二从模型的全连接层，基于预设非线性函数，根据第二拼接向量获得选择概率值。

需要说明的是，上述步骤(1)、(2)的方案及原理与图3所示实施例中的第一从模型类似，此处不再赘述。

S506、根据第一预测值和选择概率值，确定完播任务对应的第二预测值。

一种可选的实施方式中，完播任务对应的第二预测值为第一预测值和选择概率值的乘积。

S507、根据第二预测值、样本的第二真实标签和第二损失函数，对主模型、第一从模型和第二从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

具体的，可以通过如下公式(3)获得完播任务中每次训练对应的损失函数值EDRLOSS：

其中，N为当前轮次的训练中样本对象的数量，y_{EDR_i}为样本对象的完播标签、p_{EDR_i}为完播任务对应的第二预测值。

进一步的，基于反向传播算法，根据损失函数值计算出梯度，从而使得主模型、第一从模型和第二从模型的模型参数在迭代训练中进行更新，直至模型收敛时，即说明当前满足训练退出条件，则结束训练，并确定当前训练过程对应的主模型为目标主模型。

需要说明的是，本公开实施例提供的上述完播任务和点击任务的训练过程中，可以采用批处理的方式进行训练，对于批数据N的大小，本公开实施例不做具体限定，例如是1024个。

在一种可选的实施方式中，可以按照上述方案对点击任务和完播任务中的任一种任务进行单独训练，例如，通过步骤S501～S504对点击任务或完播任务中的任一种任务进行单独训练，或者，通过步骤S501～S507对完播任务进行单独训练，通过对不同任务进行单独训练，可以提升目标主模型的灵活性，使得目标主模型可以应用于多种场景，例如，更注重用户点击情况的推荐场景、更注重对象完播情况的推荐场景等。

另外，还可以通过上述步骤，对点击任务和完播任务进行同步训练，从而在消除位置偏置对推荐结果的影响的同时，使得模型可以兼顾对象的点击情况和完播情况，从而向用户进行更合理的推荐。

可选的，可以采用交替训练的方式，进行点击任务和完播任务的同步训练。具体的，以迭代训练中的第一轮次为点击任务为例，先通过步骤S501～S503获取点击任务对应的第一预测值，再采用S504的方案对主模型和第一从模型进行第一轮次的训练，从而根据如上公式(1)得出第一轮次的损失函数值CLR LOSS，若CLR LOSS未收敛，则对当前的主模型和第一从模型进行参数调整，获得调整后的主模型和第一从模型。

进一步的，通过步骤S501～S503(或者S501～S504)获取完播任务对应的处理结果，再采用S505～S507的方案对第一轮次调整后的主模型和第一从模型进行第二轮次的训练，从而根据如上公式(3)得出当前轮次的损失函数值EDR LOSS，若损失函数值EDR LOSS未收敛，则对当前的主模型、第一从模型和第二从模型进行参数调整，获得调整后的主模型、第一从模型和第二从模型；

相应的，按照上述方式进行对点击任务和完播任务进行交替训练，直到损失函数值EDR LOSS和损失函数值CLR LOSS均满足训练退出条件时，停止训练，并确定当前训练轮次对应的主模型为目标主模型。

可选的，若其中一个任务的损失函数值已满足训练退出条件，但另一任务的损失函数值还未满足训练退出条件，则在后续的训练任务中，只针对未满足训练退出条件的任务进行训练，直到该任务的未满足训练退出条件时，输出最终的目标主模型。

本公开实施例中，一方面，点击任务和完播任务对应的主模型可以为同一主模型，也就是说，上述训练过程为通过点击任务和完播任务对同一主模型进行交替训练，通过本实施例，可以使得训练获得的目标主模型兼顾对象的点击情况和对象的完播情况，同时消除位置偏置对推荐结果的影响，提升推荐结果的准确性，且对同一主模型进行训练，可以提升训练效率。

另一方面，点击任务和完播任务对应的主模型可以为不同的主模型，也就是说，该训练架构中包括两个不同的主模型，在训练过程中，分别基于点击任务和完播任务对不同的主模型进行训练，分别获得注重于对象点击情况的目标主模型和注重于对象完播情况的目标主模型。在此实施例中，两个主模型的结构相同，具体结构请参见图3或图5所示的主模型，此处不再赘述。通过本方案，获得的不同任务对应的目标主模型也可以消除位置偏置对推荐结果的影响，且通过两种任务采用不同的主模型进行训练，可以消除不同训练任务之间的影响，使得获得的目标主模型更加精确。

在此基础上，作为一种可选的实施方式，点击任务对应的主模型和完播任务对应的主模型可以共用特征处理层。

发明人还发现，同一个用户在对不同推荐主题或不同推荐时间，对不同位置的对象也具有不同的偏好。也就是说推荐主题、推荐时间等因素也会影响用户对对象的选择。有鉴于此，作为一种可选实施例，本公开实施例中，在通过点击任务和/或完播任务对应的模型训练过程中，还包括如下步骤：

(1)获取样本对象的上下文特征对应的上下文特征向量；

其中，上下文特征包括：样本对象对应的推荐主题特征、推荐时间特征，相应的，上下文特征向量为推荐主题特征和推荐时间特征对应的独热向量。

需要说明的时，可以通过特征处理层获取上下文特征对应的上下文特征向量。

(2)通过主模型的拼接层，将上下文特征向量和交叉向量进行拼接处理，得到目标拼接向量；

(3)通过主模型的全连接层，基于预设非线性函数，根据目标拼接向量获得拟预测值。

本公开实施例中，通过增加推荐主题、推荐时间等上下文信息对主模型进行训练，可以使得训练得到的目标主模型能够消除推荐主题、推荐时间对推荐结果的影响，进一步提升目标主模型的精确度。

图6为本公开实施例提供的对象推荐方法的流程示意图。如图6所示，该对象推荐方法具体包括如下步骤：

S601、获取当前用户的用户特征和多个候选对象的对象特征。

其中，当前用户为通过终端设备登录该流媒体平台的用户，用户特征包括以下一种或多种：用户画像特征(例如，性别、年龄、所在城市、用户等级等)、用户设备特征(例如，设备厂商、设备型号等)、用户偏好特征(以对象为歌曲为例，例如是曲风偏好、语种偏好、歌曲发行年代偏好、艺人偏好等)。

本公开实施例中，对于候选对象的确定方式不做具体限定，示例性的，一方面，可以根据当前用户的行为日志确定候选对象，例如，可以获取当前用户在预设时段(例如是1周、15天、一个月等)的播放日志或者点击记录，并确定点击日志或播放日志中预设数量的对象为候选对象。另一方面，也可以根据当前的推荐主题确定候选对象，以对象为歌曲为例，可以根据当前的推荐主题从曲库中获取预设数量的对象为候选对象，其中，推荐主题例如是“华语/欧美/日韩歌曲”、“儿歌”、“经典歌曲”等等，此处不再一一示出。在其他方面，还可以根据当前用户的用户特征(例如，用户年龄、性别等)确定预设数量的候选对象。

需要说明的是，候选对象的预设数量大于对象推荐总数量，至于预设数量的具体值本公开实施例不做限定，例如，预设数量可以为200。

本步骤中，在获得候选对象之后，获取各候选对象的对象特征，以候选对象为歌曲为例，对象特征包括但不限于以下至少一种：歌曲画像特征(例如，歌曲的曲风、语种、艺人、作曲者、作词者、编曲者、乐器等)、歌曲热度特征(例如，歌曲评论数、红心数、分享数、下载数等)、歌曲行为特征(例如，预设时段的完播率、红心率等)。

S602、将用户特征和对象特征输入目标主模型，获得主模型输出的分数。

其中，目标主模型是根据图2～图5所示实施例中提供的模型训练方法获得的，至于模型训练方法，此处不再赘述。

需要说明的是，分数为点击分数和/或完播分数，若目标主模型为仅基于点击任务进行训练获得的模型，则该分数为点击分数；相应的，若目标主模型为仅基于完播任务进行训练获得的模型，则该分数为完播分数；另外，若目标主模型为基于完播任务和点击任务进行交替训练获得的模型，则输出的该分数包括点击分数和完播分数。

S603、根据分数，向当前用户推荐候选对象。

相应的，根据分数的不同类型，在进行对象推荐时，也有如下几种方式：

方式一、若该分数为各候选对象的完播分数或者点击分数中的任一种时，直接根据分数的高低排序向用户推荐候选对象；

方式二、若该分数包括各候选对象的点击分数和完播分数时，根据点击分数和完播分数，获得各候选对象的综合分数，再根据综合分数的高低排序向用户推荐候选对象。

需要说明的是，在向当前用户推荐候选对象时，具体为：在如图4所示的推荐页面的推荐区域中，展示所推荐的候选对象的对象标识，以对象为歌曲为例，对象标识包括但不限于以下至少一种：歌曲名称、演唱者、所属专辑等，至于展示方法，在后续实施例中示出。

本公开实施例中，由于目标主模型在训练过程中消除了位置对样本对象的影响，使得目标主模型输出的分数能够更加准确的体现用户偏好，根据该分数进行的推荐也更加合理，可以在提升用户满意度的同时，提升平台的转化率。

在一些实施例中，本申请实施例提供的对象推荐方法具体包括如下步骤：

S701、获取当前用户的用户特征和多个候选对象的对象特征。

需要说明的是，步骤S701和图6所示实施例中的步骤S601类似，此处不再赘述。

S702、将用户特征和对象特征输入目标主模型，通过目标主模型的特征处理层，根据用户特征获取用户向量，根据对象特征，获取对象向量。

其中，目标主模型是基于图2～图5所示实施例进行迭代训练获得的。用户向量为用户特征对应的稠密向量，对象向量为对象特征对应的稠密向量，目标主模型经过迭代训练，目标主模型的特征处理层可以获取准确的用户向量和对象向量，从而提升推荐结果的合理性，提升用户体验。

S703、通过目标主模型的拼接层，将用户向量和对象向量进行拼接，获得第三拼接向量。

S704、通过目标主模型的全连接层，基于预设非线性函数根据第三拼接向量获得分数。

在一种可选的实施方式中，当目标主模型中包含注意力网络时，可以通过目标主模型的注意力网络，基于用户向量和对象向量获得交叉向量。进一步的，再通过目标主模型的全连接层，基于预设非线性函数根据交叉向量获得分数。

在此基础上，在另一种可选的实施方式中，在获取到交叉向量之后，还可以根据获取候选对象的上下文特征对应的上下文特征向量，通过目标主模型的拼接层，将上下文特征向量和交叉向量进行拼接处理，得到第四拼接向量，最后再通过目标主模型的全连接层，基于预设非线性函数，根据第四拼接向量获得分数。

S705、根据分数，向当前用户推荐候选对象。

其中，分数为点击分数和/或完播分数。应当理解的是，若分数为各候选对象的完播分数或者点击分数中的任意一种时，根据分数的高低排序向用户推荐候选对象，具体的，包括如下步骤：

(1)基于各候选对象对应的点击分数或者完播分数，按照分数由高至低对候选对象进行排序，获得排序结果；

(2)根据总推荐数量，确定排序结果中靠前的候选对象为第一推荐对象；

(3)根据每个区域中能够展示的对象数量以及第一推荐对象的分数排序结果，确定每个区域内展示的推荐对象，并在相应区域展示对应的推荐对象。

以总推荐数量为12个、每个区域能够展示3个对象为例，本方案中，从候选对象中确定分数最高的12个候选对象为第一推荐对象，并确定第一推荐对象中分数排名1～3的候选对象作为第一个区域内展示的推荐对象、第一推荐对象中分数排名4～6的候选对象作为第二个区域内展示的推荐对象、第一推荐对象中分数排名7～9的候选对象作为第三个区域内展示的推荐对象、第一推荐对象中分数排名10～12的候选对象作为第四个区域内展示的推荐对象。

相应的，若分数包括点击分数和完播分数，可以基于如下步骤S7051～S7055进行推荐：

S7051、确定点击分数和完播分数的乘积为候选对象的曝光完播分数。

S7052、根据完播分数对候选对象进行排序，根据排序结果和第一预设数量，对候选对象进行筛选，获得候选对象中的第一推荐对象。

具体的，以总推荐数量为12个为例，从候选对象中确定完播分数最高的12个候选对象为第一推荐对象。

S7053、根据第一推荐对象的曝光完播分数对第一推荐对象进行排序，根据排序结果和第二预设数量，确定在第一区域内展示的第一推荐对象中第二推荐对象，以及第二推荐对象的展示顺序。

其中，第二预设数量为每个区域能够展示的对象数量，第一区域为所有区域中第一个向用户展示的区域。以第二预设数据为3个为例，本步骤中，基于曝光完播分数有高至低对12个第一推荐对象进行排序，根据排序结果确定第一推荐对象中曝光完播分数最高的3个第二推荐对象，其中，第二推荐对象的展示顺序为曝光完播分数的高低顺序。

S7054、根据第一推荐对象中其余对象的完播分数对其余对象进行排序，根据排序结果确定其余对象在其他区域内中的展示顺序。

至于第一推荐对象中其余9个候选对象，根据完播分数对这9个候选对象进行排序，确定这就9个候选对象中，完播分数排序为1～3的候选对象为第二个区域中的推荐对象、完播分数排序为4～6的候选对象为第三个区域中的推荐对象、完播分数排序为7～9的候选对象为第四个区域中的推荐对象。

S7055、在第一区域和其他区域内展示对应的推荐对象。

在确定每个区域对应的推荐对象之后，一方面，可以按照各区域中推荐对象的分数排名，根据分数高低对各个区域中的推荐对象进行展示。另一方面，由于同一区域内的对象会同时展示给用户，这些对象所在位置对用户的选择结果的影响力较小，因此，本公开实施例中，针对同一区域中的推荐对象，也可以随机进行展示。

本公开实施例中，由于吸引用户最关键的是第一区域的推荐对象，基于第一推荐对象的曝光完播分数对第一推荐对象进行排序，从而获得第一个区域的推荐对象，这些推荐对象的点击分数和完播分数的综合分数较高，其最有可能吸引到用户，通过次推荐方法，可以最大程度的提升平台的转化率。

另外，若要消费到其他区域的推荐歌曲，前提是第一区域已经吸引了当前用户，故后续几个区域的推荐对象排序以用户体验为主，通过完播分数对其他几个区域的推荐对象进行排序，可以提升用户的满意度，进而提升平台的转化率。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图7对本公开示例性实施方式的存储介质进行说明。

图7为本公开实施例提供的存储介质的结构示意图。参考图7所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图8和图9分别对本公开示例性实施方式的模型训练装置和对象推荐装置进行说明，该模型训练装置用于实现上述任一方法实施例中的去除位置偏置的模型训练方法，该对象推荐装置用于实现上述任一方法实施例中的对象推荐方法，其实现原理和技术效果类似，在此不再赘述。

图8为本公开实施例提供的模型训练装置的结构示意图。如图8所示，该模型训练装置800包括：第一获取模块801，用于对于点击任务或完播任务中的任一种任务，获取任务中样本对象的用户特征、对象特征，将用户特征、对象特征输入主模型，获得任务对应的拟预测值；第二获取模块802，用于获取样本对象的对象位置特征和用户特征，将对象位置特征和用户特征输入第一从模型，获得位置影响力值，位置影响力值用于表征对象的展示位置对任务的影响力大小；确定模块803，用于根据拟预测值和位置影响力值，确定任务对应的第一预测值；第一处理模块804，用于根据第一预测值、样本的第一真实标签和第一损失函数，对主模型和第一从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

在本公开的一个实施例中，对象位置特征包括：对象在第一区域中的第一位置特征和第一区域在所有区域中的第二位置特征；第二获取模块802具体用于：获取第一位置特征对应的第一独热向量；根据第一独热向量，查找到第一独热向量对应的第一稠密向量；获取第二位置特征对应的第二独热向量；根据第二独热向量，查找第二独热向量对应的第二稠密向量；根据用户特征和预设稠密矩阵，得到第三稠密向量；将第一稠密向量、第二稠密向量和第三稠密向量输入第一从模型的拼接层进行拼接，得到第一拼接向量；将第一拼接向量输入第一从模型的全连接层，经过预设非线性函数获得位置影响力值。

在本公开的一个实施例中，当任务为完播任务时，模型训练装置还包括第二处理模块805，用于将对象位置特征输入第二从模型，获得选择概率值，选择概率值用于表征用户主动选择对象的概率；根据第一预测值和选择概率值，确定完播任务对应的第二预测值；根据第二预测值、样本的第二真实标签和第二损失函数，对主模型、第一从模型和第二从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

在本公开的一个实施例中，第二处理模块805具体用于：将第一稠密向量和第二稠密向量输入到第二从模型的拼接层进行拼接，得到第二拼接向量；将第二拼接向量输入第二从模型的全连接层，经过预设非线性函数获得选择概率值。

本公开实施例提供的上述模型训练装置800，可以实现前述去除位置偏置的模型训练方法实施例中的各个过程，并达到相同的功能和效果，此处不做赘述。

图9为本公开实施例提供的对象推荐装置的结构示意图。如图9所示，该对象推荐装置900包括：获取模块901，用于获取当前用户的用户特征和多个候选对象的对象特征；处理模块902，用于将用户特征和对象特征输入目标主模型，获得目标主模型输出的分数，目标主模型是根据上述实施方式中提供的模型训练方法获得的；推荐模块903，用于根据分数，向当前用户推荐候选对象，其中，分数为点击分数和/或完播分数。

在本公开的一个实施例中，处理模块902具体用于：根据用户特征获取用户向量，根据对象特征，获取对象向量；通过目标主模型的拼接层，将用户向量和对象向量进行拼接，获得第三拼接向量；通过目标主模型的全连接层，基于预设非线性函数根据第三拼接向量获得分数。

在本公开的一个实施例中，处理模块902具体用于：通过目标主模型的注意力网络，基于用户向量和对象向量获得交叉向量；处理模块902具体用于：通过目标主模型的全连接层，基于预设非线性函数，根据交叉向量获得分数。

在本公开的一个实施例中，获取模块901还用于：获取候选对象的上下文特征对应的上下文特征向量；通过目标主模型的拼接层，将上下文特征向量和交叉向量进行拼接处理，得到第四拼接向量；处理模块902具体用于：通过全连接层，基于预设非线性函数，根据第四拼接向量获得分数。处理模块902还用于：将第四拼接向量输入全连接层，经过预设非线性函数获得分数。

在本公开的一个实施例中，推荐模块903具体用于：确定点击分数和完播分数的乘积为候选对象的曝光完播分数；根据完播分数对候选对象进行排序，根据排序结果和第一预设数量，对候选对象进行筛选，获得候选对象中的第一推荐对象；根据第一推荐对象的曝光完播分数对第一推荐对象进行排序，根据排序结果和第二预设数量，确定在第一区域内展示的第一推荐对象中第二推荐对象，以及第二推荐对象的展示顺序；根据第一推荐对象中其余对象的完播分数对其余对象进行排序，根据排序结果确定其余对象在其他区域内中的展示顺序；在第一区域和其他区域内展示对应的推荐对象。

本公开实施例提供的上述对象推荐装置900，可以实现前述对象推荐方法实施例中的各个过程，并达到相同的功能和效果，此处不做赘述。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图10对本公开示例性实施方式的计算设备进行说明。应理解，图10显示的计算设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

图10为本公开实施例提供的计算设备的结构示意图。如图10所示，计算设备1000以通用计算设备的形式表现。计算设备1000的组件可以包括但不限于：上述至少一个处理单元1001、上述至少一个存储单元1002，连接不同系统组件(包括处理单元1001和存储单元1002)的总线1003。

总线1003包括数据总线、控制总线和地址总线。存储单元1002可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1012和/或高速缓存存储器1022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)1032。

存储单元1002还可以包括具有一组(至少一个)程序模块1042的程序/实用工具1052，这样的程序模块1042包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备1000也可以与一个或多个外部设备1004(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1005进行。并且，计算设备1000还可以通过网络适配器1006与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器1006通过总线1003与计算设备1000的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了定时更新装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种去除位置偏置的模型训练方法，其特征在于，包括：

对于点击任务或完播任务中的任一种任务，获取所述任务中样本对象的用户特征、对象特征，将所述第一用户特征、所述对象特征输入主模型，获得所述任务对应的拟预测值；

获取所述样本对象的对象位置特征和第二用户特征，将所述对象位置特征和所述第二用户特征输入第一从模型，获得位置影响力值，所述位置影响力值用于表征对象的展示位置对所述任务的影响力大小；

根据所述拟预测值和所述位置影响力值，确定所述任务对应的第一预测值；

根据所述第一预测值、所述样本的第一真实标签和第一损失函数，对所述主模型和所述第一从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

2.根据权利要求1所述的模型训练方法，其特征在于，所述对象位置特征包括：所述对象在第一区域中的第一位置特征和所述第一区域在所有区域中的第二位置特征；

所述将所述对象位置特征和第二用户特征输入第一从模型，获得位置影响力值，包括：

获取所述第一位置特征对应的第一独热向量；

根据所述第一独热向量，查找到所述第一独热向量对应的第一稠密向量；

获取所述第二位置特征对应的第二独热向量；

根据所述第二独热向量，查找所述第二独热向量对应的第二稠密向量；

获取所述第二用户特征对应的从用户向量；

将所述从用户向量与预设稠密矩阵相乘，得到第三稠密向量；

将所述第一稠密向量、所述第二稠密向量和所述第三稠密向量输入所述第一从模型的拼接层进行拼接，得到第一拼接向量；

通过所述第一从模型的全连接层，基于预设非线性函数，根据所述第一拼接向量获得所述位置影响力值。

3.根据权利要求2所述的模型训练方法，其特征在于，当所述任务为完播任务时，所述模型训练方法还包括：

将所述对象位置特征输入第二从模型，获得选择概率值，所述选择概率值用于表征用户主动选择对象的概率；

根据所述第一预测值和所述选择概率值，确定所述完播任务对应的第二预测值；

根据所述第二预测值、所述样本的第二真实标签和第二损失函数，对所述主模型、所述第一从模型和所述第二从模型进行迭代训练，直到满足训练退出条件，获得目标主模型。

4.根据权利要求3所述的模型训练方法，其特征在于，将所述对象位置特征输入第二从模型，获得选择概率值，包括：

将所述第一稠密向量和所述第二稠密向量输入到第二从模型的拼接层进行拼接，得到第二拼接向量；

将所述第二拼接向量输入所述第二从模型的全连接层，经过预设非线性函数获得所述选择概率值。

5.一种对象推荐方法，其特征在于，包括：

获取当前用户的用户特征和多个候选对象的对象特征；

将所述用户特征和所述对象特征输入目标主模型，获得所述目标主模型输出的分数，所述目标主模型是根据权利要求1-4任一项所述的模型训练方法获得的；

根据所述分数，向当前用户推荐所述候选对象，其中，所述分数为点击分数和/或完播分数。

6.根据权利要求5所述的对象推荐方法，其特征在于，将所述用户特征和所述对象特征输入目标主模型，获得所述目标主模型输出的分数，包括：

将所述用户特征和所述对象特征输入目标主模型，通过所述目标主模型的特征处理层，根据所述用户特征获取用户向量，根据所述对象特征，获取对象向量；

通过所述目标主模型的拼接层，将所述用户向量和所述对象向量进行拼接，获得第三拼接向量；

通过所述目标主模型的全连接层，基于预设非线性函数根据所述第三拼接向量获得所述分数。

7.根据权利要求6所述的对象推荐方法，其特征在于，所述通过所述目标主模型的拼接层，将所述用户向量和所述对象向量进行拼接，获得第三拼接向量，包括：

通过所述目标主模型的注意力网络，基于所述用户向量和所述对象向量获得交叉向量；

所述通过所述目标主模型的全连接层，基于预设非线性函数根据所述第三拼接向量获得所述分数，包括：

通过所述目标主模型的全连接层，基于预设非线性函数，根据所述交叉向量获得所述分数。

8.根据权利要求7所述的对象推荐方法，其特征在于，所述对象推荐方法还包括：

获取所述候选对象的上下文特征对应的上下文特征向量；

通过所述目标主模型的拼接层，将所述上下文特征向量和所述交叉向量进行拼接处理，得到第四拼接向量；

通过所述目标主模型的全连接层，基于预设非线性函数，根据所述交叉向量获得所述分数，包括：

通过所述全连接层，基于预设非线性函数，根据所述第四拼接向量获得所述分数。

9.根据权利要求5所述的对象推荐方法，其特征在于，根据所述分数，向当前用户推荐所述候选对象，包括：

确定所述点击分数和完播分数的乘积为所述候选对象的曝光完播分数；

根据所述完播分数对所述候选对象进行排序，根据排序结果和第一预设数量，对所述候选对象进行筛选，获得所述候选对象中的第一推荐对象；

根据所述第一推荐对象的曝光完播分数对所述第一推荐对象进行排序，根据排序结果和第二预设数量，确定在第一区域内展示的所述第一推荐对象中第二推荐对象，以及所述第二推荐对象的展示顺序；

根据所述第一推荐对象中其余对象的完播分数对所述其余对象进行排序，根据排序结果确定所述其余对象在其他区域内中的展示顺序；

在所述第一区域和所述其他区域内展示对应的推荐对象。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至4中任一项所述的去除位置偏置的模型训练方法，和/或，如权利要求5至9中任一项所述的对象推荐方法。