CN115374360B

CN115374360B - 媒体资源的召回方法和媒体资源召回模型的训练方法

Info

Publication number: CN115374360B
Application number: CN202211035286.8A
Authority: CN
Inventors: 牛明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2024-02-13
Anticipated expiration: 2042-08-26
Also published as: CN115374360A

Abstract

本申请公开了一种媒体资源的召回方法和媒体资源召回模型的训练方法。其中，该方法可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，包括：获取当前待召回的媒体资源的资源曝光参数；将媒体资源输入第一媒体资源召回模型，以输出得到与资源竞争参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数；基于第一召回参数和第二召回参数，确定与媒体资源相匹配的召回置信度；按照召回置信度对媒体资源进行召回处理。本申请解决了相关技术中提供的对媒体资源的召回方式存在召回结果不够准确的技术问题。

Description

媒体资源的召回方法和媒体资源召回模型的训练方法

技术领域

本申请涉及计算机领域，具体而言，涉及一种媒体资源的召回方法和媒体资源召回模型的训练方法。

背景技术

在媒体资源的推荐系统中，往往需要先从庞大的媒体资源池中，先快速召回部分候选媒体资源，再对这些候选媒体资源进行排序过滤，最终得到将要推荐给用户进行曝光的媒体资源。

其中，在快速召回候选媒体资源的过程中所使用的召回模型，其样本数据通常仅仅是依赖于用户对媒体资源的感兴趣程度的反馈信息。也就是说，目前提供的召回方式仅停留在表面的用户反馈行为，而无法体现用户深层次对媒体资源真正的转化需求，使得最终曝光后的媒体资源出现转化率较低的情况。即，相关技术中提供的对媒体资源的召回方式存在召回结果不够准确的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种媒体资源的召回方法和媒体资源召回模型的训练方法，以至少解决相关技术中提供的对媒体资源的召回方式存在召回结果不够准确的技术问题。

根据本申请实施例的一个方面，提供了一种媒体资源的召回方法，包括：获取当前待召回的媒体资源的资源曝光参数，其中，资源曝光参数中包括与媒体资源匹配的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；将媒体资源输入第一媒体资源召回模型，以输出得到与资源竞争参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数，其中，第一媒体资源召回模型为利用第一样本结构的样本媒体资源数据进行训练得到的召回模型，第二媒体资源召回模型为利用第二样本结构的样本媒体资源数据进行训练得到的召回模型；基于上述第一召回参数和上述第二召回参数，确定与上述媒体资源相匹配的召回置信度；按照上述召回置信度对上述媒体资源进行召回处理。

根据本申请实施例的另一方面，还提供了一种媒体资源的召回装置，包括：提取单元，用于获取当前待召回的媒体资源的资源曝光参数，其中，资源曝光参数中包括与媒体资源匹配的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；第一确定单元，用于将媒体资源输入第一媒体资源召回模型，以输出得到与资源竞争参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数，其中，第一媒体资源召回模型为利用第一样本结构的样本媒体资源数据进行训练得到的召回模型，第二媒体资源召回模型为利用第二样本结构的样本媒体资源数据进行训练得到的召回模型；第二确定单元，用于基于上述第一召回参数和上述第二召回参数，确定与上述媒体资源相匹配的召回置信度；处理单元，用于按照上述召回置信度对上述媒体资源进行召回处理。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述媒体资源的召回方法。

根据本申请实施例的又一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述媒体资源的召回方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的媒体资源的召回方法。

在本申请实施例中，获取当前待召回的媒体资源的资源曝光参数，其中，资源曝光参数中包括与媒体资源匹配的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；将媒体资源输入第一媒体资源召回模型，以输出得到与资源曝光参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数；基于第一召回参数和第二召回参数，确定与媒体资源相匹配的召回置信度；按照召回置信度对媒体资源进行召回处理。在上述方法中，在获取到用于调整媒体资源的曝光模式的资源曝光参数后，在两种召回模型中确定出与包括资源竞争参数的资源曝光参数匹配的两种召回参数，进而基于两种召回参数来确定召回置信度。而不再局限于仅根据用户的浅层反馈行为来确定召回置信度。从而提高了对媒体资源进行召回的准确率。进而解决了相关技术中提供的对媒体资源的召回方式存在召回结果不够准确的问题的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的媒体资源的召回方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的媒体资源的召回方法的流程图；

图3是根据本发明实施例的另一种可选的媒体资源的召回方法的示意图；

图4是根据本发明实施例的另一种可选的媒体资源的召回方法的示意图；

图5是根据本申请实施例的一种可选的媒体资源的召回装置的结构示意图；

图6是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

召回：推荐系统中为了平衡效果和性能，一般会分为召回、粗排、精排等各个环节，且当前环节的输出做为下个环节的输入，召回作为最靠前的环节，定位上是从庞大的候选集合中快速筛选出系统需要的少量候选送到下游粗排处理。

监督训练：机器训练的一种范式，有显示的正负标注信号，指导模型参数的迭代训练。

单文档方法(Pointwise)：一般是针对单个项(item)完成模型打分的范例，在推荐系统中，可以直接通过用户的点击反馈完成正负样本的标注。

文档对方法(Pairwise)：也称为Learning to rank，不同于pointwise的单个样本来源于用户的一条反馈标注，paiwise的样本一般是同一query对应的不同item偏序关系的形式。

根据本申请实施例的一个方面，提供了一种媒体资源的召回方法，可选地，作为一种可选的实施方式，上述媒体资源的召回方法可以但不限于应用于如图1所示的环境中的媒体资源的召回系统。

其中，该媒体资源的召回系统可以包括但不限于终端设备102、网络104、服务器106、数据库108。终端设备102中运行有目标客户端。上述终端设备102中包括人机交互屏幕，处理器及存储器。人机交互屏幕用于显示上述目标客户端的界面；还用于提供人机交互接口以接收人机交互操作。处理器用于响应上述人机交互操作生成交互指令，并将该交互指令发送给服务器。存储器用于存储相关数据，如媒体资源池中各个媒体资源的ID以及各个媒体资源的资源曝光参数等。

此外，服务器106中包括处理引擎，处理引擎用于对数据库108执行存储或读取操作。具体地，处理引擎从数据库108中读取相关数据，获取当前待召回的媒体资源的资源曝光参数，其中，资源曝光参数中包括与媒体资源匹配的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；将媒体资源输入第一媒体资源召回模型，以输出得到与资源竞争参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数，其中，第一媒体资源召回模型为利用第一样本结构的样本媒体资源数据进行训练得到的召回模型，第二媒体资源召回模型为利用第二样本结构的样本媒体资源数据进行训练得到的召回模型；基于第一召回参数和第二召回参数，确定与媒体资源相匹配的召回置信度；按照召回置信度对媒体资源进行召回处理。然后对召回处理得到的候选媒体资源集合进行排序，并将排序结果中置信度较高的媒体资源发送给终端设备102，终端设备102中运行的目标客户端上显示经过召回处理和排序处理后置信度较高的候选媒体资源。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能语音交互设备、智能家电、车载终端、飞行器等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。

具体过程如以下步骤：在服务器106上执行步骤S102至步骤S108：获取当前待召回的媒体资源的资源曝光参数，其中，资源曝光参数中包括与媒体资源匹配的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；将媒体资源输入第一媒体资源召回模型，以输出得到与资源竞争参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数，其中，第一媒体资源召回模型为利用第一样本结构的样本媒体资源数据进行训练得到的召回模型，第二媒体资源召回模型为利用第二样本结构的样本媒体资源数据进行训练得到的召回模型；基于第一召回参数和第二召回参数，确定与媒体资源相匹配的召回置信度；按照召回置信度对媒体资源进行召回处理。然后对召回处理得到的候选媒体资源集合进行排序，如步骤S1110，将排序结果中置信度较高的候选媒体资源通过网络104发送给终端设备102，终端设备102中运行的目标客户端上显示经过召回处理和排序处理后置信度较高的候选媒体资源。上述仅是一种示例，本实施例中对此不作任何限定。

需要说明的是，在本申请实施例中，获取当前待召回的媒体资源的资源曝光参数，其中，资源曝光参数中包括与媒体资源匹配的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；将媒体资源输入第一媒体资源召回模型，以输出得到与资源曝光参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数；基于第一召回参数和第二召回参数，确定与媒体资源相匹配的召回置信度；按照召回置信度对媒体资源进行召回处理。在上述方法中，在获取到用于调整媒体资源的曝光模式的资源曝光参数后，在两种召回模型中确定出与包括资源竞争参数的资源曝光参数匹配的两种召回参数，进而基于两种召回参数来确定召回置信度。而不再局限于仅根据用户的浅层反馈行为来确定召回置信度。从而提高了对媒体资源进行召回的准确率。进而解决了相关技术中提供的对媒体资源的召回方式存在召回结果不够准确的问题的技术问题。

可选地，作为一种可选的实施方式，如图2所示，上述媒体资源的召回方法包括：

S202，获取当前待召回的媒体资源的资源曝光参数，其中，资源曝光参数中包括与媒体资源匹配的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；

可选地，在本申请实施例中，上述媒体资源可以但不限于为广告所指示的真实物品或虚拟物品、视频资源、电子书籍资源。上述包含有真实物品或虚拟物品的广告具体的产品形态可以是视频广告、原生广告、banner广告、搜索广告等。上述资源竞争参数可以但不限于为广告的出价、视频资源的创作者的粉丝量。上述资源曝光参数可以但不限于包括与视频播放平台的合作量、账号属性子特征、物品属性子特征。上述媒体资源的曝光模式可以但不限于为：在某个时间段对媒体资源进行曝光的模式，例如：在9点到23点曝光媒体资源、在0点到5点曝光媒体资源。

S204，将媒体资源输入第一媒体资源召回模型，以输出得到与资源竞争参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数，其中，第一媒体资源召回模型为利用第一样本结构的样本媒体资源数据进行训练得到的召回模型，第二媒体资源召回模型为利用第二样本结构的样本媒体资源数据进行训练得到的召回模型；

S206，基于第一召回参数和第二召回参数，确定与媒体资源相匹配的召回置信度；

S208，按照召回置信度对媒体资源进行召回处理。

作为一种可选的实施方式，上述第一媒体资源召回模型可以但不限于为pointwise模型，上述第二媒体资源召回模型可以但不限于为pairwise模型。上述第一召回参数但不限于为上述第一媒体资源召回模型的损失函数的参数值，上述第二召回参数但不限于为上述第二媒体资源召回模型的损失函数的参数值。

需要说明的是，上述第一样本结构可以但不限于为二元组，上述第二样本结构可以但不限于为三元组。上述样本媒体资源数据的特征可以包括但不限于为广告中的物品的物品属性子特征和用户账号的账号属性子特征。例如，将广告中的物品的价格、物品的类型、物品的用途作为物品属性子特征。在取得用户授权同意的情况下，将用户账号ID、用户感兴趣的话题、用户的年龄、用户的活跃程度作为用户账号的账号属性子特征。

作为一种可选的实施方式，按照召回置信度对媒体资源进行召回处理的方式可以但不限于为：将第一召回参数与第二召回参数进行线性组合，以确定出与媒体资源相匹配的召回置信度。按照召回置信度由高到低进行排序，将topN的召回置信度对应的媒体资源作为召回处理得到的候选媒体资源集。需要说明的是，上述候选媒体资源集将会被送到下游进行排序处理。

作为一种可选的实施方式，当第一样本结构的样本媒体资源数据占总样本数据的比例较高时，可以提高第一权重；当第一样本结构的样本媒体资源数据占总样本数据的比例较低时，可以降低第一权重。上述第一乘积和第二乘积之间的线性组合可以但不限于为：第一乘积乘以三分之二；第二乘积乘以三分之一。基于第一乘积和第二乘积之间的线性组合，来确定召回置信度。

作为一种可选的方案，在获取当前待召回的媒体资源的资源曝光参数之后，还包括：

S1，基于资源曝光参数提取媒体资源对应的接受投放账号特征向量，及媒体资源中指示的物品所对应的物品属性特征向量，其中，接受投放账号特征向量包括与接受投放账号关联的多个账号属性子特征向量，物品属性特征向量包括与物品关联的多个物品属性子特征向量，多个物品属性子特征向量包括与资源竞争参数关联的曝光竞争子特征向量；

S2，对多个账号属性子特征向量进行交叉融合得到账号特征多维向量，并对多个物品属性子特征向量进行交叉融合得到物品特征多维向量；将账号特征多维向量和物品特征多维向量输入第一媒体资源召回模型和第二媒体资源召回模型。

需要说明的是，上述接受投放账号关联的多个账号属性子特征向量的确定方式可以但不限于为：在取得用户的授权同意的前提下，将获取到的用户的连续特征(例如，用户的年龄、用户的消费金额、用户的活跃程度)进行归一化、分桶等处理，再将用户的连续特征和用户的离散特征(例如，用户ID、用户所在城市)作为对象特征输入embedding层，得到多个账号属性子特征向量。上述与资源竞争参数关联的曝光竞争子特征向量的确定方式可以但不限于为：将物品资源池中的物品的离散特征以及经过归一化、分桶等处理后的物品的连续特征(如，广告的出价)作为物品特征输入embedding层，得到与广告出价关联的曝光竞争子特征向量。

需要说明的是，上述账号特征多维向量和上述物品特征多维向量可以用于表达物理意义上用户对于物品的感兴趣程度。上述进行交叉融合的过程可以但不限于通过深度交叉网络来实现。作为一种可选的实施方式，用户编码层和物品编码层可以采用embedding加上mlp的基本形式，可以分别在user和ad embedding之后，除了直接将embedding进行连接，还可以进行各自的融合，可以采用深度交叉网络，如attention based fm单元或者SEBlock(squeeze and excitation)，将单独的特征进行充分的交叉，分别对用户和物品进行更加精细化的刻画。

通过本申请提供的实施例，先基于资源曝光参数提取媒体资源对应的接受投放账号特征向量，及媒体资源中指示的物品所对应的物品属性特征向量，然后对多个账号属性子特征向量进行交叉融合得到账号特征多维向量，并对多个物品属性子特征向量进行交叉融合得到物品特征多维向量。接着将账号特征多维向量和物品特征多维向量输入第一媒体资源召回模型和第二媒体资源召回模型。从而可以对对象特征和物品特征进行更加精细的刻画，提高了高维向量表达的用户对物品的感兴趣程度的准确度。

作为一种可选的方案，在获取当前待召回的媒体资源的资源曝光参数之前，还包括：

S1，构建第一样本结构的样本媒体资源数据，及第二样本结构的样本媒体资源数据，其中，样本媒体资源数据中包括样本媒体资源的资源竞争参数；

S2，利用第一样本结构的样本媒体资源数据对初始化第一媒体资源召回模型进行训练，得到第一训练损失值；并利用第二样本结构的样本媒体资源数据对初始化第二媒体资源召回模型进行训练，得到第二训练损失值；

S3，在第一训练损失值及第二训练损失值的加权求和结果达到训练收敛条件的情况下，确定得到第一媒体资源召回模型和第二媒体资源召回模型。

需要说明的是，上述第一样本结构可以但不限于为与第二样本结构不同的结构。上述第一样本结构可以但不限于为二元组，上述第二样本结构可以但不限于为三元组。上述资源竞争参数可以但不限于为广告的出价、视频资源的创作者的粉丝量。上述样本媒体资源数据可以包括但不限于为广告中的物品的物品属性子特征和用户账号的账号属性子特征。例如，将广告中的物品的价格、物品的类型、物品的用途作为物品属性子特征。在取得用户授权同意的情况下，将用户账号ID、用户感兴趣的话题、用户的年龄、用户的活跃程度作为用户账号的账号属性子特征。上述初始化第一媒体资源召回模型可以但不限于为未被训练的pointwise模型，上述初始化第二媒体资源召回模型可以但不限于为未被训练的pairwise模型。上述第一训练损失值可以但不限于为pointwise损失值，上述第二训练损失值可以但不限于为pairwise损失值。第一训练损失值及第二训练损失值的加权求和结果可以但不限于为线性加权求和结果。

例如，利用以下特征：广告中的物品的价格、物品的类型、物品的用途、广告的出价、用户账号ID、用户感兴趣的话题、用户的年龄、用户的活跃程度，来构建二元组<user,ad+>、二元组<user,ad->、三元组<user,ad+,ad->。利用二元组<user,ad+>和二元组<user,ad->对pointwise模型进行训练，得到pointwise损失值。利用三元组<user,ad+,ad->对pairwise模型进行训练，得到pairwise损失值。在pointwise损失值和pairwise损失值的线性组合结果达到训练收敛条件的情况下，确定完成训练的pointwise模型和完成训练的pairwise模型。

通过本申请提供的实施例，先构建第一样本结构的样本媒体资源数据，及第二样本结构的样本媒体资源数据，然后利用第一样本结构的样本媒体资源数据对初始化第一媒体资源召回模型进行训练，得到第一训练损失值；利用第二样本结构的样本媒体资源数据对初始化第二媒体资源召回模型进行训练，得到第二训练损失值。并且在第一训练损失值及第二训练损失值的加权求和结果达到训练收敛条件的情况下，确定得到第一媒体资源召回模型和第二媒体资源召回模型。从而达到了确定出第一媒体资源召回模型和第二媒体资源召回模型的目的。实现了提高召回模型的准确性的技术效果。

作为一种可选的方案，构建第一样本结构的样本媒体资源数据，及第二样本结构的样本媒体资源数据包括：

S1，获取多个样本媒体资源及样本媒体资源对应的接受投放账号信息；

S2，将接受投放账号信息和样本媒体资源以二元组形式构建为第一样本结构的样本媒体资源数据；

S3，获取与样本媒体资源匹配的样本标签，其中，样本标签包括曝光后被点击过的正样本标签和曝光后未被点击过的负样本标签；

S4，将接受投放账号信息和携带有正样本标签的样本媒体资源及携带有负样本标签的样本媒体资源，以三元组形式构建为第二样本结构的样本媒体资源数据。

需要说明的是，上述样本媒体资源可以但不限于为广告中的物品，上述接受投放账号信息可以但不限于为接收投放物品广告的用户的账号信息。上述与样本媒体资源匹配的样本标签可以包括但不限于为正样本标签，的负样本标签。可以将用户有点击的样本媒体资源标注为正样本标签，将有曝光但是用户没有点击的样本媒体资源标注为负样本标签。上述以三元组形式构建为第二样本结构的样本媒体资源数据的方式可以但不限于基于单个用户的多个物品的反馈行为形成的偏序关系，如三元组<user,ad+,ad->，其中，ad+匹配的样本标签为正样本标签，ad-匹配的样本标签为负样本标签。例如，由于ad1被用户点击过，因而将二元组<user,ad1>作为正样本；由于ad2为有曝光但是用户没有点击的物品，因而二元组<user,ad2>为负样本。

通过本申请提供的实施例，先获取多个样本媒体资源及样本媒体资源对应的接受投放账号信息，然后将接受投放账号信息和样本媒体资源以二元组形式构建为第一样本结构的样本媒体资源数据。接着获取与样本媒体资源匹配的样本标签。然后将接受投放账号信息和携带有正样本标签的样本媒体资源及携带有负样本标签的样本媒体资源，以三元组形式构建为第二样本结构的样本媒体资源数据。从而实现了利用不同样本结构以及不同样本标签的训练数据对召回模型进行训练，丰富了训练召回模型的样本数据。

作为一种可选的方案，在利用第一样本结构的样本媒体资源数据对初始化第一媒体资源召回模型进行训练，得到第一训练损失值；并利用第二样本结构的样本媒体资源数据对初始化第二媒体资源召回模型进行训练，得到第二训练损失值之后，还包括：

S1，在第一样本结构的样本媒体数据中的是携带有正样本标签的样本媒体资源情况下，将第一媒体资源召回模型中的召回系数置为第一目标值，并基于第一目标值、样本媒体资源的资源竞争参数和第一媒体资源召回模型训练输出的第一训练召回参数获取第一训练损失值；在第一样本结构的样本媒体数据中的是携带有负样本标签的样本媒体资源情况下，将第一媒体资源召回模型中的召回系数置为第二目标值，并基于第二目标值和第一媒体资源召回模型训练输出的第一训练召回参数获取第一训练损失值；

S2，在第二样本结构的样本媒体数据中同时携带有正样本标签的样本媒体资源和携带有负样本标签的样本媒体资源的情况下，基于接受投放账号信息和携带有正样本标签的样本媒体资源确定第一训练子值，并基于接受投放账号信息和携带有负样本标签的样本媒体资源确定第二训练子值；基于第一训练子值和第二训练子值确定第二训练损失值；在第二样本结构的样本媒体数据中的是携带有负样本标签的样本媒体资源的情况下，将第二训练损失值置为参考值。

需要说明的是，对于携带有正样本标签的样本媒体资源所构成的第一样本结构的正样本，召回系数为1；对于携带有负样本标签的样本媒体数据所构成的第一样本结构的负样本，召回系数为0。上述第一训练子值和第二训练子值可以但不限于为表示用户对物品的感兴趣程度。

例如，如图3中所示，第一训练损失值可以但不限于为pointwise损失值，pointwise损失值可以但不限于为BCE损失值。用户的编码层306和物品的编码层308均是由多层感知机为主要结构的网络层。在取得用户的授权同意的前提下，可以先对用户的连续特征(例如，用户的年龄、用户的消费金额、用户的活跃程度)进行归一化、分桶等处理，再将用户的连续特征和用户的离散特征(例如，用户ID、用户所在城市)作为对象特征输入多层感知机为主要结构的的网络编码层进行表示训练，获得用户的高维向量，即用户的表征302。类似的，将物品资源池中的物品的离散特征以及经过归一化、分桶等处理后的物品的连续特征(如，广告的出价)作为物品特征输入多层感知机为主要结构的的网络编码层进行表示训练，获得物品的高维向量，即物品的表征304。需要说明的是用户的高维向量和物品的高维向量是等维的。可以对用户的高维向量和物品的高维向量进行内积运算得到logit0，还可以对用户的高维向量和物品的高维向量进行余弦运算得到logit0。其中，logit0可以用来预估用户对物品的感兴趣程度。可选地，BCE损失值可以通过以下公式来计算：

Loss_point＝λ*ylogp+(1-y)*log(1-p),st.λ＝log(1+bid)

其中，bid为物品的广告的出价，p的取值为logit0的sigmoid函数值。y为召回系数，当样本商品数据中物品匹配的标签为正样本标签时，y的取值为1，Loss_point＝λ*logp,st.λ＝log(1+bid)；当物品匹配的标签为负样本标签时，y的取值为0，Loss_point＝log(1-p)。需要说明的是，可以认为不同价格的广告对模型的损失函数有不同的贡献(价格的权重在构造pointwise时已经携带)。当遇到负样本标签的物品时，广告的价格为0。

例如，如图4中所示，第一训练损失值可以但不限于为pairwise损失值，pairwise损失值可以但不限于为Hinge损失值。用户的编码层(User Net)和物品的编码层(ItemNet)均是由多层感知机为主要结构的网络层。在取得用户的授权同意的前提下，可以先对用户的连续特征(例如，用户的年龄、用户的消费金额、用户的活跃程度)进行归一化、分桶等处理，再将用户的连续特征和用户的离散特征(例如，用户ID、用户所在城市)作为对象特征输入多层感知机为主要结构的的网络编码层进行表示训练，获得用户的高维向量，即用户的表征。将正样本标签的物品的的离散特征(如，广告的出价)以及经过归一化、分桶等处理后的正样本标签的物品的连续特征作为物品特征输入多层感知机为主要结构的的网络编码层进行表示训练，获得正样本标签的物品的高维向量，即正样本标签的物品的表征。正样本标签的物品的高维向量的确定方式与正样本标签的物品的高维向量的确定方式类似。需要说明的是，用户的高维向量和物品的高维向量是等维的，正样本标签的物品与负样本标签的物品的编码网络需要参数共享，给空间表达加上强约束，可以降低模型参数的自由度，尽量避免过拟合。可以对用户的高维向量和正样本标签的物品的高维向量进行内积运算得到logit1，还可以对用户的高维向量和正样本标签的物品的高维向量进行余弦运算得到logit1。类似地，可以对用户的高维向量和负样本标签的物品的高维向量进行内积运算得到logit2，还可以对用户的高维向量和负样本标签的物品的高维向量进行余弦运算得到logit2。可以通过Hinge Loss得到用于回传的梯度指导模型参数的优化。

需要说明的是，对于同时携带有正样本标签的样本媒体数据和负样本标签的样本媒体数据所构成的第二样本结构的样本，第二训练损失值可以但不限于为Hinge Loss。对于携带有负样本标签的样本媒体数据所构成的第二样本结构的样本，第二训练损失值可以但不限于为参考值。

可选地，第二训练损失值可以通过以下公式来计算：

其中，margin为一个0.3到0.5的超参数，p₊的取值为logit的sigmoid函数值，p_{_}的取值为logit的sigmoid函数值。对于同时携带有正样本标签的样本媒体数据和负样本标签的样本媒体数据所构成的第二样本结构的样本，sign(clk)的取值为1。对于携带有负样本标签的样本媒体数据所构成的第二样本结构的样本，sign(clk)的取值为0，上述参考值可以为0.5*max(0,margin-1)²。需要说明的是，当该条样本媒体资源的样本标签为正样本标签时，损失函数为Hinge Loss，命中样本标签为负样本标签的条样本媒体资源时，部分Loss退化为0。Hinge Loss采用带平方的形式，可以使得梯度下降时更平滑，可以增强训练的鲁棒性。另外，pointwise loss和pairwise loss的影响权重可以根据实际样本情况来调节。

需要说明的是，在进行pairwise建模时，实际上是一个类似于“三塔”的形式，需要将两个物品的编码层网络进行参数共享，这样一方面给模型加上约束项，增大模型的难度，在样本量级充分的情况下，模型得到充分的训练，另一方面，给不同广告都给予相同的表示，可以避免同一物品得到不同的高维向量，保证后续检索的准确性。

通过本申请提供的实施例，在第一样本结构的样本媒体数据中的是携带有正样本标签的情况下，基于第一目标值获取第一训练损失值；在第一样本结构的样本媒体数据中的是携带有负样本标签的情况下，基于第二目标值获取第一训练损失值；在第二样本结构的样本媒体数据中同时携带有正样本标签的样本媒体资源和负样本标签的样本媒体资源的情况下，获取第二训练损失值；在第二样本结构的样本媒体数据中携带有负样本标签的样本媒体资源的情况下，将第二训练损失值置为参考值。从而针对性地为不同样本结构的召回模型确定损失值。

作为一种可选的方案，在构建第一样本结构的样本媒体资源数据，及第二样本结构的样本媒体资源数据之前，还包括以下至少之一：

S1，获取媒体资源曝光日志，其中，媒体资源曝光日志用于记录曝光后各个接受投放账号所反馈的点击结果；

S2，获取媒体资源的排序日志，其中，排序日志用于记录媒体资源被投放后的排序拟合结果；

S3，获取媒体资源对应的标注标签，其中，标注标签用于标注对媒体资源的质量评价结果。

需要说明的是，上述接受投放账号所反馈的点击结果可以包括但不限于为曝光点击、曝光未点击。上述录媒体资源被投放后的排序拟合结果可以包括但不限于为告的精排漏斗日志中广告的排序位置。上述对媒体资源的质量评价结果可以包括但不限于为质量较高、质量较差。上述第一样本结构的样本媒体资源数据及第二样本结构的样本媒体资源数据的来源可以但不限于为：1)，广告曝光日志，用户的正负反馈行为可以认为是最直接的样本生成方式，因为与实际业务目标最一致；2)，广告的精排漏斗日志，广告因为预算或者流量本身限制使广告没有获得曝光机会，但精排环节对广告的排序位置仍然是一种比较强的样本标识，因为可以反映出广告系统对历史存量广告的拟合效果；3)，人工先验规则，通过专家标注或者一些显式的判断规则，如广告预算是否充分、出价的高低、广告创意的精美程度以及广告对应推广标的物的一些天然质量等，都可以反映出对广告天然的“好坏”，可以作为重要的样本补充。

可选地，针对以上三种样本来源，针对性地采用不同的处理方式，pointwise模型对应的样本格式是<user,ad+>或<user,ad->的二元组，pairwise模型对应的样本格式是<user,ad+,ad->的三元组形式。1)，针对pointwise部分，广告曝光日志中有正向反馈行为的作为正例，忽略等负向行为(曝光未点击)作为负例；广告的精排漏斗日志为了样本置信，排序中间地带的广告不考虑，选取topN(N一般小于10)之前的作为正例，topM(M一般大于50)之后的作为负例；人工先验规则部分主要是挑选负例，针对明显比较差的广告，复制user信息，构造成负样本。以上正例都保留广告的曝光扣费值或者精排的ecpm值，上游召回后，排序下游会作为样本权重使用。2)，针对pairwise部分，广告的精排漏斗日志天然可以构造偏序关系，如<user，rank2，rank53>即为一条典型的三元组样本；针对同一用户，有点击的广告可以配上一条质量较差的广告作为负例，构成三元组。

通过本申请提供的实施例，可以从媒体资源曝光日志中获取样本媒体资源数据，可以从媒体资源的排序日志中获取样本媒体资源数据。并且可以获取媒体资源对应的标注标签。从而不再局限于根据用户的浅层反馈行为来描述深层的优化目标，扩展了样本媒体资源数据的获取渠道，提高了样本媒体资源数据的获取效率。

作为一种可选的方案，一种媒体资源召回模型的训练方法包括：

S1，构建第一样本结构的样本媒体资源数据，及第二样本结构的样本媒体资源数据，其中，样本媒体资源数据中包括样本媒体资源的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；

S3，在第一训练损失值及第二训练损失值的加权求和结果达到训练收敛条件的情况下，确定得到第一媒体资源召回模型和第二媒体资源召回模型，其中，基于第一媒体资源召回模型输出的与资源竞争参数相匹配的第一召回参数和第二媒体资源召回模型输出的与资源竞争参数相匹配的第二召回参数，将确定出当前待召回的媒体资源的召回置信度，召回置信度用于指示是否召回媒体资源。

可选地，在本申请实施例中，上述样本媒体资源可以但不限于为广告所指示的真实物品或虚拟物品、视频资源、电子书籍资源。上述包含有真实物品或虚拟物品的广告具体的产品形态可以是视频广告、原生广告、banner广告、搜索广告等。上述资源竞争参数可以但不限于为广告的出价、视频资源的创作者的粉丝量。上述媒体资源的曝光模式可以但不限于为：在某个时间段对媒体资源进行曝光的模式，例如：在9点到23点曝光媒体资源、在0点到5点曝光媒体资源。

在本申请实施例中，利用第一样本结构的样本媒体资源数据对初始化第一媒体资源召回模型进行训练，并利用第二样本结构的样本媒体资源数据对初始化第二媒体资源召回模型进行训练。在第一训练损失值及第二训练损失值的加权求和结果达到训练收敛条件的情况下，确定第一媒体资源召回模型和第二媒体资源召回模型。从而不再局限于仅根据用户的浅层反馈行为来确定召回置信度。从而提高了对媒体资源进行召回的准确率。进而解决了相关技术中提供的对媒体资源的召回方式存在召回结果不够准确的问题的技术问题。

通过本申请提供的实施例，将接受投放账号信息和样本媒体资源以二元组形式构建为第一样本结构的样本媒体资源数据，并将接受投放账号信息和携带有正样本标签的样本媒体资源及携带有负样本标签的样本媒体资源，以三元组形式构建为第二样本结构的样本媒体资源数据。从而实现了利用不同样本结构以及不同样本标签的训练数据对召回模型进行训练，丰富了训练召回模型的样本数据。

作为一种可选的实施方式，第一训练损失值可以但不限于为pointwise损失值，pointwise损失值可以但不限于为BCE损失值。在取得用户的授权同意的前提下，可以先对用户的连续特征(例如，用户的年龄、用户的消费金额、用户的活跃程度)进行归一化、分桶等处理，再将用户的连续特征和用户的离散特征(例如，用户ID、用户所在城市)作为对象特征输入多层感知机为主要结构的的网络编码层进行表示训练，获得用户的高维向量，即用户的表征。类似的，将物品资源池中的物品的离散特征以及经过归一化、分桶等处理后的物品的连续特征(如，广告的出价)作为物品特征输入多层感知机为主要结构的的网络编码层进行表示训练，获得物品的高维向量，即物品的表征。需要说明的是用户的高维向量和物品的高维向量是等维的。可以对用户的高维向量和物品的高维向量进行内积运算得到logit0，还可以对用户的高维向量和物品的高维向量进行余弦运算得到logit0。其中，logit0可以用来预估用户对物品的感兴趣程度。可选地，BCE损失值可以通过以下公式来计算：

Loss_point＝λ*ylogp+(1-y)*log(1-p),st.λ＝log(1+bid)

作为一种可选的实施方式，第一训练损失值可以但不限于为pairwise损失值，pairwise损失值可以但不限于为Hinge损失值。用户的编码层(User Net)和物品的编码层(Item Net)均是由多层感知机为主要结构的网络层。在取得用户的授权同意的前提下，可以先对用户的连续特征(例如，用户的年龄、用户的消费金额、用户的活跃程度)进行归一化、分桶等处理，再将用户的连续特征和用户的离散特征(例如，用户ID、用户所在城市)作为对象特征输入多层感知机为主要结构的的网络编码层进行表示训练，获得用户的高维向量，即用户的表征。将正样本标签的物品的的离散特征(如，广告的出价)以及经过归一化、分桶等处理后的正样本标签的物品的连续特征作为物品特征输入多层感知机为主要结构的的网络编码层进行表示训练，获得正样本标签的物品的高维向量，即正样本标签的物品的表征。正样本标签的物品的高维向量的确定方式与正样本标签的物品的高维向量的确定方式类似。需要说明的是，用户的高维向量和物品的高维向量是等维的，正样本标签的物品与负样本标签的物品的编码网络需要参数共享，给空间表达加上强约束，可以降低模型参数的自由度，尽量避免过拟合。可以对用户的高维向量和正样本标签的物品的高维向量进行内积运算得到logit1，还可以对用户的高维向量和正样本标签的物品的高维向量进行余弦运算得到logit1。类似地，可以对用户的高维向量和负样本标签的物品的高维向量进行内积运算得到logit2，还可以对用户的高维向量和负样本标签的物品的高维向量进行余弦运算得到logit2。可以通过Hinge Loss得到用于回传的梯度指导模型参数的优化。

可选地，第二训练损失值可以通过以下公式来计算：

通过本申请提供的实施例，分别基于第一样本结构的样本媒体数据和第二样本结构的样本媒体数据，对确定损失值。从而实现了针对性地为不同样本结构的召回模型确定损失值，同时，利用不同样本结构以及不同样本标签的训练数据对召回模型进行训练，丰富了训练召回模型的样本数据。进而提高了确定模型损失值的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述媒体资源的召回方法的媒体资源的召回装置。如图5中所示，该装置包括：

提取单元502，用于获取当前待召回的媒体资源的资源曝光参数，其中，资源曝光参数中包括与媒体资源匹配的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；

第一确定单元504，用于将媒体资源输入第一媒体资源召回模型，以输出得到与资源竞争参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数，其中，第一媒体资源召回模型为利用第一样本结构的样本媒体资源数据进行训练得到的召回模型，第二媒体资源召回模型为利用第二样本结构的样本媒体资源数据进行训练得到的召回模型；

第二确定单元506，用于基于第一召回参数和第二召回参数，确定与媒体资源相匹配的召回置信度；

处理单元508，用于按照召回置信度对媒体资源进行召回处理。

可选地，在本实施例中，上述各个单元模块所要实现的实施例，可以参考上述各个方法实施例，这里不再赘述。

根据本申请实施例的又一个方面，还提供了一种用于实施上述媒体资源的召回方法的电子设备，该电子设备可以是图6所示的终端设备或服务器。本实施例以该电子设备为服务器例来说明。如图6所示，该电子设备包括存储器602和处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取当前待召回的媒体资源的资源曝光参数，其中，资源曝光参数中包括与媒体资源匹配的资源竞争参数，资源竞争参数用于调整媒体资源被曝光时的曝光模式；

S2，将媒体资源输入第一媒体资源召回模型，以输出得到与资源竞争参数相匹配的第一召回参数，并将媒体资源输入第二媒体资源召回模型，以输出得到与资源竞争参数相匹配的第二召回参数，其中，第一媒体资源召回模型为利用第一样本结构的样本媒体资源数据进行训练得到的召回模型，第二媒体资源召回模型为利用第二样本结构的样本媒体资源数据进行训练得到的召回模型；

S3，基于第一召回参数和第二召回参数，确定与媒体资源相匹配的召回置信度；

S4，按照召回置信度对媒体资源进行召回处理。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图6其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本申请实施例中的媒体资源的召回方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的媒体资源的召回方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于存储相关数据，如各个媒体资源的资源曝光参数等。作为一种示例，如图6所示，上述存储器602中可以但不限于包括上媒体资源的召回装置中的提取单元502、第一确定单元504、第二确定单元506、以及处理单元508。此外，还可以包括但不限于上述媒体资源的召回装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器608，用于显示终端设备的界面；和连接总线610，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

计算机系统包括中央处理器(Central Processing Unit，CPU)，其可以根据存储在只读存储器(Read-Only Memory，ROM)中的程序或者从存储部分加载到随机访问存储器(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器中，还存储有系统操作所需的各种程序和数据。中央处理器、在只读存储器以及随机访问存储器通过总线彼此相连。输入/输出接口(Input/Output接口，I/O接口)也连接至总线。

以下部件连接至输入/输出接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至输入/输出接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请的系统中限定的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的堡垒机的分配系统方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S4，按照召回置信度对媒体资源进行召回处理。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种媒体资源的召回方法，其特征在于，包括：

构建第一样本结构的样本媒体资源数据，及第二样本结构的样本媒体资源数据，其中，所述样本媒体资源数据中包括样本媒体资源的资源竞争参数；

利用所述第一样本结构的样本媒体资源数据对初始化第一媒体资源召回模型进行训练，得到第一训练损失值；并利用所述第二样本结构的样本媒体资源数据对初始化第二媒体资源召回模型进行训练，得到第二训练损失值；

在所述第一样本结构的样本媒体数据中的是携带有正样本标签的所述样本媒体资源情况下，将第一媒体资源召回模型中的召回系数置为第一目标值，并基于所述第一目标值、所述样本媒体资源的资源竞争参数和所述第一媒体资源召回模型训练输出的第一训练召回参数获取所述第一训练损失值；在所述第一样本结构的样本媒体数据中的是携带有负样本标签的所述样本媒体资源情况下，将所述第一媒体资源召回模型中的所述召回系数置为第二目标值，并基于所述第二目标值和所述第一媒体资源召回模型训练输出的第一训练召回参数获取所述第一训练损失值；

在所述第二样本结构的样本媒体数据中同时携带有所述正样本标签的所述样本媒体资源和携带有所述负样本标签的所述样本媒体资源的情况下，基于接受投放账号信息和携带有所述正样本标签的所述样本媒体资源确定第一训练子值，并基于所述接受投放账号信息和携带有所述负样本标签的所述样本媒体资源确定第二训练子值；基于所述第一训练子值和所述第二训练子值确定所述第二训练损失值；在所述第二样本结构的样本媒体数据中的是携带有所述负样本标签的所述样本媒体资源的情况下，将所述第二训练损失值置为参考值；

在所述第一训练损失值及所述第二训练损失值的加权求和结果达到训练收敛条件的情况下，确定得到所述第一媒体资源召回模型和第二媒体资源召回模型；

获取当前待召回的媒体资源的资源曝光参数，其中，所述资源曝光参数中包括与所述媒体资源匹配的资源竞争参数，所述资源竞争参数用于调整所述媒体资源被曝光时的曝光模式；

将所述媒体资源输入所述第一媒体资源召回模型，以输出得到与所述资源竞争参数相匹配的第一召回参数，并将所述媒体资源输入所述第二媒体资源召回模型，以输出得到与所述资源竞争参数相匹配的第二召回参数，其中，所述第一媒体资源召回模型为利用所述第一样本结构的样本媒体资源数据进行训练得到的召回模型，所述第二媒体资源召回模型为利用所述第二样本结构的样本媒体资源数据进行训练得到的召回模型；

基于所述第一召回参数和所述第二召回参数，确定与所述媒体资源相匹配的召回置信度；

按照所述召回置信度对所述媒体资源进行召回处理。

2.根据权利要求1所述的方法，其特征在于，在所述获取当前待召回的媒体资源的资源曝光参数之后，还包括：

基于所述资源曝光参数提取所述媒体资源对应的接受投放账号特征向量，及所述媒体资源中指示的物品所对应的物品属性特征向量，其中，所述接受投放账号特征向量包括与所述接受投放账号关联的多个账号属性子特征向量，所述物品属性特征向量包括与所述物品关联的多个物品属性子特征向量，所述多个物品属性子特征向量包括与所述资源竞争参数关联的曝光竞争子特征向量；

对所述多个账号属性子特征向量进行交叉融合得到账号特征多维向量，并对所述多个物品属性子特征向量进行交叉融合得到物品特征多维向量；将所述账号特征多维向量和所述物品特征多维向量输入所述第一媒体资源召回模型和所述第二媒体资源召回模型。

3.根据权利要求1所述的方法，其特征在于，所述构建所述第一样本结构的样本媒体资源数据，及所述第二样本结构的样本媒体资源数据包括：

获取多个样本媒体资源及所述样本媒体资源对应的所述接受投放账号信息；

将所述接受投放账号信息和所述样本媒体资源以二元组形式构建为所述第一样本结构的样本媒体资源数据；

获取与所述样本媒体资源匹配的样本标签，其中，所述样本标签包括曝光后被点击过的所述正样本标签和曝光后未被点击过的所述负样本标签；

将所述接受投放账号信息和携带有所述正样本标签的所述样本媒体资源及携带有所述负样本标签的所述样本媒体资源，以三元组形式构建为所述第二样本结构的样本媒体资源数据。

4.根据权利要求1和3中任一项所述的方法，其特征在于，在构建所述第一样本结构的样本媒体资源数据，及所述第二样本结构的样本媒体资源数据之前，还包括以下至少之一：

获取媒体资源曝光日志，其中，所述媒体资源曝光日志用于记录曝光后各个接受投放账号所反馈的点击结果；

获取所述媒体资源的排序日志，其中，所述排序日志用于记录所述媒体资源被投放后的排序拟合结果；

获取所述媒体资源对应的标注标签，其中，所述标注标签用于标注对媒体资源的质量评价结果。

5.一种媒体资源召回模型的训练方法，其特征在于，包括：

构建第一样本结构的样本媒体资源数据，及第二样本结构的样本媒体资源数据，其中，所述样本媒体资源数据中包括样本媒体资源的资源竞争参数，所述资源竞争参数用于调整媒体资源被曝光时的曝光模式；

在所述第一训练损失值及所述第二训练损失值的加权求和结果达到训练收敛条件的情况下，确定得到所述第一媒体资源召回模型和第二媒体资源召回模型，其中，基于所述第一媒体资源召回模型输出的与资源竞争参数相匹配的第一召回参数和所述第二媒体资源召回模型输出的与资源竞争参数相匹配的第二召回参数，将确定出当前待召回的媒体资源的召回置信度，所述召回置信度用于指示是否召回媒体资源。

6.一种媒体资源的召回装置，其特征在于，包括：

提取单元，用于获取当前待召回的媒体资源的资源曝光参数，其中，所述资源曝光参数中包括与所述媒体资源匹配的资源竞争参数，所述资源竞争参数用于调整所述媒体资源被曝光时的曝光模式；

第一确定单元，用于将所述媒体资源输入第一媒体资源召回模型，以输出得到与所述资源竞争参数相匹配的第一召回参数，并将所述媒体资源输入第二媒体资源召回模型，以输出得到确定与所述资源竞争参数相匹配的第二召回参数，其中，所述第一媒体资源召回模型为利用第一样本结构的样本媒体资源数据进行训练得到的召回模型，所述第二媒体资源召回模型为利用第二样本结构的样本媒体资源数据进行训练得到的召回模型；

第二确定单元，用于基于所述第一召回参数和所述第二召回参数，确定与所述媒体资源相匹配的召回置信度；

处理单元，用于按照所述召回置信度对所述媒体资源进行召回处理；

所述装置还用于，在所述获取当前待召回的媒体资源的资源曝光参数之前，构建第一样本结构的样本媒体资源数据，及第二样本结构的样本媒体资源数据，其中，所述样本媒体资源数据中包括样本媒体资源的资源竞争参数；利用所述第一样本结构的样本媒体资源数据对初始化第一媒体资源召回模型进行训练，得到第一训练损失值；并利用所述第二样本结构的样本媒体资源数据对初始化第二媒体资源召回模型进行训练，得到第二训练损失值；在所述第一样本结构的样本媒体数据中的是携带有正样本标签的所述样本媒体资源情况下，将第一媒体资源召回模型中的召回系数置为第一目标值，并基于所述第一目标值、所述样本媒体资源的资源竞争参数和所述第一媒体资源召回模型训练输出的第一训练召回参数获取所述第一训练损失值；在所述第一样本结构的样本媒体数据中的是携带有负样本标签的所述样本媒体资源情况下，将所述第一媒体资源召回模型中的所述召回系数置为第二目标值，并基于所述第二目标值和所述第一媒体资源召回模型训练输出的第一训练召回参数获取所述第一训练损失值；在所述第二样本结构的样本媒体数据中同时携带有所述正样本标签的所述样本媒体资源和携带有所述负样本标签的所述样本媒体资源的情况下，基于接受投放账号信息和携带有所述正样本标签的所述样本媒体资源确定第一训练子值，并基于所述接受投放账号信息和携带有所述负样本标签的所述样本媒体资源确定第二训练子值；基于所述第一训练子值和所述第二训练子值确定所述第二训练损失值；在所述第二样本结构的样本媒体数据中的是携带有所述负样本标签的所述样本媒体资源的情况下，将所述第二训练损失值置为参考值；在所述第一训练损失值及所述第二训练损失值的加权求和结果达到训练收敛条件的情况下，确定得到所述第一媒体资源召回模型和第二媒体资源召回模型。

7.根据权利要求6所述的装置，其特征在于，所述装置还用于：

在所述获取当前待召回的媒体资源的资源曝光参数之后，基于所述资源曝光参数提取所述媒体资源对应的接受投放账号特征向量，及所述媒体资源中指示的物品所对应的物品属性特征向量，其中，所述接受投放账号特征向量包括与所述接受投放账号关联的多个账号属性子特征向量，所述物品属性特征向量包括与所述物品关联的多个物品属性子特征向量，所述多个物品属性子特征向量包括与所述资源竞争参数关联的曝光竞争子特征向量；对所述多个账号属性子特征向量进行交叉融合得到账号特征多维向量，并对所述多个物品属性子特征向量进行交叉融合得到物品特征多维向量；将所述账号特征多维向量和所述物品特征多维向量输入所述第一媒体资源召回模型和所述第二媒体资源召回模型。

8.根据权利要求6所述的装置，其特征在于，通过以下方式实现构建所述第一样本结构的样本媒体资源数据，及所述第二样本结构的样本媒体资源数据：

获取多个样本媒体资源及所述样本媒体资源对应的所述接受投放账号信息；将所述接受投放账号信息和所述样本媒体资源以二元组形式构建为所述第一样本结构的样本媒体资源数据；获取与所述样本媒体资源匹配的样本标签，其中，所述样本标签包括曝光后被点击过的所述正样本标签和曝光后未被点击过的所述负样本标签；将所述接受投放账号信息和携带有所述正样本标签的所述样本媒体资源及携带有所述负样本标签的所述样本媒体资源，以三元组形式构建为所述第二样本结构的样本媒体资源数据。

9.根据权利要求6和8中任一项所述的装置，其特征在于，所述装置还用于：

在构建所述第一样本结构的样本媒体资源数据，及所述第二样本结构的样本媒体资源数据之前，还包括以下至少之一：获取媒体资源曝光日志，其中，所述媒体资源曝光日志用于记录曝光后各个接受投放账号所反馈的点击结果；获取所述媒体资源的排序日志，其中，所述排序日志用于记录所述媒体资源被投放后的排序拟合结果；获取所述媒体资源对应的标注标签，其中，所述标注标签用于标注对媒体资源的质量评价结果。

10.一种媒体资源召回模型的训练装置，其特征在于，包括：

构建单元，用于构建第一样本结构的样本媒体资源数据，及第二样本结构的样本媒体资源数据，其中，所述样本媒体资源数据中包括样本媒体资源的资源竞争参数，所述资源竞争参数用于调整媒体资源被曝光时的曝光模式；

训练单元，用于利用所述第一样本结构的样本媒体资源数据对初始化第一媒体资源召回模型进行训练，得到第一训练损失值；并利用所述第二样本结构的样本媒体资源数据对初始化第二媒体资源召回模型进行训练，得到第二训练损失值；

处理单元，用于在所述第一训练损失值及所述第二训练损失值的加权求和结果达到训练收敛条件的情况下，确定得到第一媒体资源召回模型和第二媒体资源召回模型，其中，基于所述第一媒体资源召回模型输出的与资源竞争参数相匹配的第一召回参数和所述第二媒体资源召回模型输出的与资源竞争参数相匹配的第二召回参数，将确定出当前待召回的媒体资源的召回置信度，所述召回置信度用于指示是否召回媒体资源；

所述装置还用于，在利用所述第一样本结构的样本媒体资源数据对初始化第一媒体资源召回模型进行训练，得到第一训练损失值；并利用所述第二样本结构的样本媒体资源数据对初始化第二媒体资源召回模型进行训练，得到第二训练损失值之后，在所述第一样本结构的样本媒体数据中的是携带有正样本标签的所述样本媒体资源情况下，将第一媒体资源召回模型中的召回系数置为第一目标值，并基于所述第一目标值、所述样本媒体资源的资源竞争参数和所述第一媒体资源召回模型训练输出的第一训练召回参数获取所述第一训练损失值；在所述第一样本结构的样本媒体数据中的是携带有负样本标签的所述样本媒体资源情况下，将所述第一媒体资源召回模型中的所述召回系数置为第二目标值，并基于所述第二目标值和所述第一媒体资源召回模型训练输出的第一训练召回参数获取所述第一训练损失值；在所述第二样本结构的样本媒体数据中同时携带有所述正样本标签的所述样本媒体资源和携带有所述负样本标签的所述样本媒体资源的情况下，基于接受投放账号信息和携带有所述正样本标签的所述样本媒体资源确定第一训练子值，并基于所述接受投放账号信息和携带有所述负样本标签的所述样本媒体资源确定第二训练子值；基于所述第一训练子值和所述第二训练子值确定所述第二训练损失值；在所述第二样本结构的样本媒体数据中的是携带有所述负样本标签的所述样本媒体资源的情况下，将所述第二训练损失值置为参考值。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序被处理器运行时执行所述权利要求1至5任一项中所述的方法。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至5任一项中所述的方法。