CN114331492A

CN114331492A - 媒体资源的推荐方法、装置、设备及存储介质

Info

Publication number: CN114331492A
Application number: CN202111413846.4A
Authority: CN
Inventors: 严超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-04-12

Abstract

本申请公开了一种媒体资源的推荐方法、装置、设备及存储介质，属于人工智能技术领域。本申请通过将目标对象的历史行为数据和候选媒体资源的资源数据输入媒体资源推荐模型，考虑到了对象的行为对媒体资源点击和转化的影响，从而使获取到的点击率和转化率中至少一项以及收益参考信息的准确性更高，进一步根据获取的数据，从候选媒体资源中确定为目标对象推荐的媒体资源，同时考虑了点击率、转化率和收益参考信息，能够有效提高媒体资源推荐的准确性。

Description

媒体资源的推荐方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种媒体资源的推荐方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，网络中的媒体资源能够承载更多的信息，实现更多功能，比如，媒体资源能够用于推广商品。在对某个用户进行商品推广的过程中，可以基于相关算法，从媒体资源候选集中选择用户感兴趣的媒体资源推荐给用户，以达到推广商品的目的。相关技术中，往往通过点击率(Click Through Rate，CTR)预估模型，对媒体资源候选集中各个媒体资源的点击率进行预测，将点击率高的媒体资源推荐给用户。

上述技术中，CTR预估模型只关注了媒体资源的点击率，但是用户即使点击了媒体资源也不一定会对商品进行消费，推荐的准确性较低。

发明内容

本申请实施例提供了一种媒体资源的推荐方法、装置、设备及存储介质，该方法能够提升推荐媒体资源的准确性。该技术方案如下：

一方面，提供了一种媒体资源的推荐方法，该方法包括：

获取目标对象的历史行为数据，该历史行为数据表示该目标对象基于媒体资源所进行过的浏览行为和资源转移行为；

将该目标对象的历史行为数据和第一候选资源集合中第一候选媒体资源的第一资源数据输入媒体资源推荐模型，得到每个该第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，该收益参考信息表示该目标对象对该候选媒体资源发生转化行为后所产生的收益；

基于每个该第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，确定待推荐的媒体资源；

基于该待推荐的媒体资源，对该目标对象进行资源推荐；

其中，该媒体资源推荐模型基于多个样本对象的历史行为数据进行训练得到。

一方面，提供了一种媒体资源的推荐方法，该方法包括：

展示媒体资源推荐页面，在该媒体资源推荐页面上展示智能推荐选项，该智能推荐选项用于选择是否使用媒体资源推荐模型进行媒体资源推荐；

在该智能推荐选项被设置为使用该媒体资源推荐模型的情况下，响应于在该媒体资源推荐页面对媒体资源的上传操作，向服务器发送该媒体资源和推荐指令，该推荐指令用于指示基于该媒体资源推荐模型，对该媒体资源进行推荐；

其中，该媒体资源推荐模型用于基于目标对象的历史行为数据和该媒体资源的第一资源数据，获取该媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，该历史行为数据表示该目标对象基于媒体资源所进行过的浏览行为和资源转移行为，该收益参考信息表示该目标对象对该媒体资源发生转化行为后产生的收益，该媒体资源推荐模型基于多个样本对象的历史行为数据进行训练得到。

一方面，提供了一种媒体资源的推荐装置，该装置包括：

获取模块，用于获取目标对象的历史行为数据，该历史行为数据表示该目标对象基于媒体资源所进行过的浏览行为和资源转移行为；

输入模块，用于将该目标对象的历史行为数据和第一候选资源集合中第一候选媒体资源的第一资源数据输入媒体资源推荐模型，得到每个该第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，该收益参考信息表示该目标对象对该候选媒体资源发生转化行为后所产生的收益；

确定模块，用于基于每个该第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，确定待推荐的媒体资源；

推荐模块，用于基于该待推荐的媒体资源，对该目标对象进行资源推荐；

在一些实施例中，该输入模块包括：

输入子模块，用于对于任一第一候选媒体资源的第一资源数据，将该历史行为数据和该第一资源数据输入该媒体资源推荐模型；

处理子模块，用于通过该媒体资源推荐模型，基于收益参考空间，对该历史行为数据和该第一资源数据进行处理，得到该第一候选媒体资源的收益参考信息；

该处理子模块，用于通过该媒体资源推荐模型，基于点击率空间和转化率空间中至少一项，对该历史行为数据和该第一资源数据进行处理，得到该第一候选媒体资源的第一点击率和第一转化率中至少一项。

在一些实施例中，该获取模块，还用于获取该目标对象的画像数据和标签数据，该标签数据用于表示该目标对象的偏好；

相应地，该处理子模块包括：

第一获取单元，用于基于该媒体资源推荐模型，获取第一对象数据的初始对象向量和该第一资源数据的初始资源向量，该第一对象数据包括该目标对象的历史行为数据、画像数据和标签数据，该初始对象向量包括该第一对象数据中多个类别的数据对应的子向量，该初始资源向量包括该第一资源数据中多个类别的数据对应的子向量；

融合单元，用于基于多种融合方式，对该初始对象向量的多个子向量进行多次融合，得到该对象数据的多个对象融合向量，对该初始资源向量的多个子向量进行多次融合，得到该资源数据的多个资源融合向量；

加权单元，用于基于该收益参考空间，分别对该多个对象融合向量和该多个资源融合向量进行加权求和，得到对象向量和资源向量，该对象向量表示该第一对象数据对该第一候选媒体资源的收益参考信息的影响，该资源向量表示该第一资源数据对该第一候选媒体资源的收益参考信息的影响；

该第一获取单元，用于基于该对象向量和该资源向量，获取该第一候选媒体资源的收益参考信息。

在一些实施例中，该历史行为数据包括多个历史时间段的行为数据；

该第一获取单元，用于基于该媒体资源推荐模型，分别对该第一对象数据和该第一资源数据进行映射，得到该历史行为数据的初始子向量、该画像数据的子向量、该标签数据的子向量以及该第一资源数据的多个子向量；

基于自注意力机制和该历史行为数据的初始子向量，提取该多个历史时间段的行为数据之间的相关信息，以得到该历史行为数据的子向量；

将该历史行为数据的子向量、该画像数据的子向量和该标签数据的子向量拼接，得到该初始对象向量；

将该第一资源数据的多个子向量拼接，得到该初始资源向量。

在一些实施例中，该装置还包括：

训练模块，用于基于点击标签和转化标签中至少一项、样本数据以及样本收益参考信息，对该媒体资源推荐模型进行训练，该样本数据包括样本对象的样本历史行为数据和样本媒体资源的样本资源数据；

该训练模块，用于基于该媒体资源推荐模型，获取该样本数据的预测点击率和预测转化率中至少一项以及预测收益参考信息；基于该预测点击率和该预测转化率中至少一项、该点击标签和该转化标签中至少一项、该预测收益参考信息和该样本收益参考信息，对该媒体资源推荐模型进行训练。

在一些实施例中，该样本收益参考信息通过对样本收益数据进行标准化处理得到。

在一些实施例中，该确定模块包括：

第一确定子模块，用于基于每个该第一候选媒体资源的第一转化率，从该第一候选资源集合中确定多个第一媒体资源；

第二确定子模块，用于基于每个该第一候选媒体资源的收益参考信息，从该第一候选资源集合中确定多个第二媒体资源；

第三确定子模块，用于从第二候选资源集合中确定待推荐的媒体资源，该第二候选资源集合为该多个第一媒体资源和该多个第二媒体资源。

在一些实施例中，该第三确定子模块包括：

第二获取单元，基于该目标对象的第二对象数据、该第二候选资源集合中每个第二候选媒体资源的第二资源数据，获取每个该第二候选媒体资源的第二点击率和第二转化率；

确定单元，用于基于每个该第二候选媒体资源的第二点击率和第二转化率，从该第二候选资源集合中确定待推荐的媒体资源；

其中，该第二对象数据中数据类别的数量大于该第一对象数据中数据类别的数量，该第二资源数据中数据类别的数量大于该第一资源数据中数据类别的数量。

在一些实施例中，该确定单元，用于基于每个该第二候选媒体资源的转化数量，获取每个该第二候选媒体资源的修正参数，该转化数量为在目标历史时间段内该第二候选媒体资源的转化次数，该修正参数用于对该第二候选媒体资源的第二转化率进行修正；基于每个该第二候选媒体资源的第二点击率、第二转化率和修正参数，从该第二候选资源集合中确定待推荐的媒体资源。

一方面，提供了一种媒体资源的推荐装置，该装置包括：

展示模块，用于展示媒体资源推荐页面，在该媒体资源推荐页面展示智能推荐选项，该智能推荐选项用于选择是否使用媒体资源推荐模型进行媒体资源推荐；

发送模块，用于在该智能推荐选项被设置为使用该媒体资源推荐模型的情况下，响应于在该媒体资源推荐页面对媒体资源的上传操作，向服务器发送该媒体资源和推荐指令，该推荐指令用于指示基于该媒体资源推荐模型，对该媒体资源进行推荐；

其中，该资源推荐模型用于基于目标对象的历史行为数据和该媒体资源的第一资源数据，获取该媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，该历史行为数据表示该目标对象基于媒体资源所进行过的浏览行为和资源转移行为，该收益参考信息表示该目标对象对该媒体资源发生转化行为后产生的收益，该资源推荐模型基于多个样本对象的历史行为数据进行训练得到。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行以实现该媒体资源的推荐方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现该媒体资源的推荐方法所执行的操作。

一方面，提供了一种计算机程序产品，该计算机程序产品包括至少一条计算机程序，该至少一条计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条计算机程序，处理器执行该至少一条计算机程序，使得该计算机设备实现该所执行媒体资源的推荐方法的操作。

本申请提供的技术方案，通过将目标对象的历史行为数据和候选媒体资源的资源数据输入媒体资源推荐模型，考虑到了对象的行为对媒体资源点击和转化的影响，从而使获取到的点击率和转化率中至少一项以及收益参考信息的准确性更高，进一步根据获取的数据，从候选媒体资源中确定为目标对象推荐的媒体资源，同时考虑了点击率、转化率和收益参考信息，能够有效提高媒体资源推荐的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种媒体资源的推荐方法的实施环境示意图；

图2是本申请实施例提供的一种媒体资源的推荐方法的流程图；

图3是本申请实施例提供的一种媒体资源的推荐方法的流程图；

图4是本申请实施例提供的一种媒体资源的推荐方法的流程图；

图5是本申请实施例提供的一种媒体资源推荐页面的示意图；

图6是本申请实施例提供的一种定向设置页面的示意图；

图7是本申请实施例提供的一种系统优选方法的示意图；

图8是本申请实施例提供的一种自动扩量方法的示意图；

图9是本申请实施例提供的一种版位设置页面的示意图；

图10是本申请实施例提供的一种排期设置页面的示意图；

图11是本申请实施例提供的一种反馈页面的示意图；

图12是本申请实施例提供的一种媒体资源推荐的流程框架示意图；

图13是本申请实施例提供的一种媒体资源的推荐方法的流程图；

图14是本申请实施例提供的一种媒体资源的推荐方法的示意图；

图15是本申请实施例提供的一种媒体资源推荐模型的示意图；

图16是本申请实施例提供的一种自注意力子模型的示意图；

图17是本申请实施例提供的一种MMoE模型的示意图；

图18是本申请实施例提供的一种DCN模型的示意图；

图19是本申请实施例提供的一种收益子模型的示意图；

图20是本申请实施例提供的一种点击率子模型的示意图；

图21是本申请实施例提供的一种确定第二候选资源集合的示意图；

图22是本申请实施例提供的一种获取样本数据的示意图；

图23是本申请实施例提供的一种样本收益数据的分布示意图；

图24是本申请实施例提供的一种媒体资源的推荐装置的结构示意图；

图25是本申请实施例提供的一种媒体资源的推荐装置的结构示意图；

图26是本申请实施例提供的一种终端的结构示意图；

图27是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

为了便于理解本申请实施例的技术过程，下面对本申请实施例所涉及的一些名词进行解释：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的技术方案还能够与云技术相结合，例如，将训练得到的媒体资源推荐模型部署在云端服务器。云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

线性整流函数(Rectified Linear Unit，ReLU)，又称修正线性单元，是一种人工神经网络中常用的激活函数(Activation Function)，通常指代以斜坡函数及其变种为代表的非线性函数。

相似最近邻检索算法(Approximate Nearest Neighbors，ANN)：一类用于在某个向量集中快速寻找某个目标向量的最近邻向量的算法，能够有效提高检索效率。

下面对本申请提供的媒体资源的推荐方法的实施环境进行介绍。

图1是本申请实施例提供的一种媒体资源的推荐方法的实施环境示意图，参见图1，该实施环境包括：第一终端101、第二终端102和媒体资源推荐系统103。第一终端101和第二终端102通过有线或无线的方式与媒体资源推荐系统103进行直接或间接的连接，本申请实施例对此不作限定。

第一终端101和第二终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

该第一终端101运行有支持媒体资源上传功能的应用程序，第一终端101为对象所使用的终端。例如，若该媒体资源为广告，则第一终端101为广告主使用的终端。该第二终端102运行有支持媒体资源推荐功能的应用程序，例如，该应用程序为电商应用程序、社交应用程序或音乐应用程序，该第二终端102为对象所使用的终端。

应理解，第一终端和第二终端的数量可以更多，本申请实施例仅以第一终端101和第二终端102来举例说明。

媒体资源推荐系统103用于接收并存储在第一终端101上传的媒体资源，为第二终端102中运行的应用程序提供媒体资源推荐的后台服务。在一些实施例中，该媒体资源推荐系统103包括服务器和数据库，服务器用于提供媒体资源推荐有关的后台服务，数据库用于存储多个媒体资源以及媒体资源的相关信息。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器的数量可以更多或更少，本申请实施例对此不作限定。

在一些实施例中，上述第一终端101、第二终端102和服务器能够作为区块链系统中的节点。

基于图1所示的实施环境，下面结合图2，对本申请提供的媒体资源的推荐方法进行介绍。图2是本申请实施例提供的媒体资源的推荐方法的流程图，该方法由上述媒体资源推荐系统103的服务器执行，如图2所示，该实施例包括以下步骤201至204。

201、服务器获取目标对象的历史行为数据，该历史行为数据表示该目标对象基于媒体资源所进行过的浏览行为和资源转移行为。

在本申请实施例中，该目标对象为使用第二终端所登录的对象，第二终端运行的第二应用程序提供有媒体资源推荐和展示的功能，在第二终端运行第二应用程序的过程中，服务器能够获取目标对象的历史行为数据和第一候选资源集合中第一候选媒体资源的第一资源数据，以向目标对象推荐媒体资源。

其中，历史行为数据包括目标对象在历史时间段内浏览、点击以及转化过的媒体资源以及目标用户下载过的应用程序等。其中，第一候选资源集合中的第一候选媒体资源用于对目标物进行推广，目标物包括虚拟目标物和实体目标物，例如，该第一候选媒体资源为某个游戏的广告。该第一候选媒体资源可以是图片、视频或者音频等，本申请实施例对第一候选媒体资源的类型不作限定。第一资源数据包括第一候选媒体资源的标识、目标物的标识和内容关键词等。可选地，该第一资源数据还包括该第一候选媒体资源的创意标识和创意关键词等。

202、服务器将该目标对象的历史行为数据和第一候选资源集合中第一候选媒体资源的第一资源数据输入媒体资源推荐模型，得到每个该第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，该收益参考信息表示该目标对象对该候选媒体资源发生转化行为后所产生的收益。

其中，该媒体资源推荐模型基于多个样本对象的历史行为数据进行训练得到。在本申请实施例中，该媒体资源推荐模型也称为全链路用户行为价值自注意力多任务模型。

在本申请实施例中，该媒体资源推荐模型通过多任务训练得到，该多任务指第一点击率任务和第二点击率任务中至少一项以及参考收益信息任务。通过进行多任务训练，使模型训练过程中能够考虑到各个任务之间的联系，从而使训练得到的媒体资源推荐模型的准确率更高。

其中，收益参考信息指对第一候选媒体资源发生的资源转移行为所转移的资源数量，以该第一候选媒体资源是广告为例进行说明。例如，若该第一候选媒体资源为游戏广告，收益参考信息为游戏中虚拟道具的下单金额；若该第一候选媒体资源为电商的商品广告，则收益参考信息为商品的下单金额。

203、服务器基于每个第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，确定待推荐的媒体资源。

可选地，服务器首先基于第一点击率和第一转化率中至少一项以及收益参考信息，从数据库中存储的多个媒体资源中确定多个候选媒体资源，然后从多个候选媒体资源中确定待推荐的媒体资源；或者，服务器首先从数据库中存储的多个媒体资源中确定多个候选媒体资源，然后基于第一点击率和第一转化率中至少一项以及收益参考信息，从多个候选媒体资源中确定待推荐的媒体资源。

204、服务器基于待推荐的媒体资源，对该目标对象进行资源推荐。

在本申请实施例中，对目标对象进行资源推荐是指，服务器将待推荐的媒体资源发送至第一终端，第一终端为目标对象显示接收到的媒体资源。例如，服务器确定待推荐的资源为游戏广告，则服务器将该游戏广告发送至第一终端，第二终端接收该游戏广告，在目标对象当前浏览的页面上显示该游戏广告，从而完成对目标对象进行资源推荐。

本申请实施例提供的方法，通过将目标对象的历史行为数据和候选媒体资源的资源数据输入媒体资源推荐模型，考虑到了对象的行为对媒体资源点击和转化的影响，从而使获取到的点击率和转化率中至少一项以及收益参考信息的准确性更高，进一步根据获取的数据，从候选媒体资源中确定为目标对象推荐的媒体资源，同时考虑了点击率、转化率和收益参考信息，能够有效提高媒体资源推荐的准确性。

基于图1所示的实施环境，下面结合图3，对本申请提供的媒体资源的推荐方法进行介绍。图3是本申请实施例提供的一种媒体资源的推荐方法的流程图，该方法由第一终端101执行，如图3所示，该方法包括步骤301至302。

301、第一终端显示媒体资源推荐页面，在该媒体资源推荐页面上显示智能推荐选项，该智能推荐选项用于选择是否使用媒体资源推荐模型进行媒体资源推荐。

在本申请实施例中，当对象有推广目标物的需求时，能够启动该第一终端中支持媒体资源上传功能的第一应用程序，第一终端响应于对象对第一应用程序的启动操作，显示该媒体资源推荐页面。

其中，该媒体资源推荐页面用于提供上传媒体资源的功能以及选择媒体资源推荐方法的功能。该媒体资源推荐页面通过显示智能推荐选项，来提供选择媒体资源的推荐方法的功能，若智能推荐选项被设置为使用媒体资源推荐模型，则服务器会通过媒体资源推荐模型对上传的媒体资源进行推荐，若智能推荐选项被设置为不使用媒体资源推荐模型，则服务器会通过对象设置的推荐定向数据，对上传的媒体资源进行推荐。其中，推荐定向数据用于对媒体资源推荐的对象的基础信息、兴趣爱好及行为等特征进行描述，服务器能够根据该推荐定向数据，在接收到具有相应特征的对象通过第二终端发送的资源获取请求时，将该媒体资源推荐给该对象。

302、第一终端在该智能推荐选项被设置为使用媒体资源推荐模型的情况下，响应于在该媒体资源推荐页面对媒体资源的上传操作，向服务器发送该媒体资源和推荐指令，该推荐指令用于指示基于该媒体资源推荐模型，对该媒体资源进行推荐。

本申请实施例提供的方法，通过显示资源推荐页面上的智能推荐选项，提供了选择媒体资源推荐方法的功能，从而能够在媒体资源被设置为使用媒体资源推荐模型进行推荐的情况下，通过媒体资源模型、目标对象的历史行为数据和媒体资源的资源数据，获取媒体资源相对于目标对象的点击率和转化率中至少一项以及收益参考信息，以实现对媒体资源的推荐，达到提升媒体资源推荐准确率的目的。

以上图2和图3对应的实施例，仅是对本申请所提供的媒体资源的推荐方法的简要介绍。在一些实施例中，该方法包括媒体资源上传的过程以及媒体资源推荐的过程，下面分别通过以下几个实施例对上述几个过程进行说明。

下面结合图4，以对象通过第一终端101，上传媒体资源的过程为例，对该方法进行说明。图4是本申请实施例提供的一种媒体资源的推荐方法的流程图，参见图4，该实施例包括以下步骤401至403。

401、第一终端显示媒体资源推荐页面，在该媒体资源推荐页面显示智能推荐选项，该智能推荐选项用于选择是否使用媒体资源推荐模型进行媒体资源推荐。

在一些实施例中，第一终端响应于对象对第一应用程序的启动操作，启动该第一应用程序，显示媒体资源推荐页面，在媒体资源推荐页面显示智能推荐选项。

示例性地，如图5所示，该智能推荐选项包括开启和不开启2个选项，若该智能推荐选项被设置为开启，表示智能推荐选项被设置为使用媒体资源推荐模型，若该智能选项被设置为不开启，智能推荐选项被设置为表示不使用媒体资源推荐模型。

在一些实施例中，对象将智能推荐选项设置为使用媒体资源推荐模型后，还能够设置推荐定向数据，从而使服务器能够同时基于推荐定向数据和媒体资源推荐模型，对上传的媒体资源进行推荐。相应地，在显示智能推荐选项后，该步骤还包括：第一终端显示定向设置页面，该定向设置页面用于设置推荐定向数据。

示例性地，该定向设置页面如图6所示，该定向设置页面包括多个对象特征设置选项，如地理位置、年龄、性别和学历等，对象能够通过该多个对象特征设置选项，来设置推荐定向数据。可选地，该定向设置页面提供有2种设置推荐定向数据的方法，如图6中601和602所示，包括系统优选方法和自动扩量方法，下面分别对这两种方法进行说明。

(1)系统优选方法。系统优选方法指对象设置的推荐定向数据中对象特征的数量少于原始对象特征的数量，该原始对象特征指对象根据先验知识预先确定的与该媒体资源特征相匹配的对象特征。在使用系统优选方法的情况下，该媒体资源推荐的对象包括符合推荐定向数据的对象以及媒体资源推荐模型确定的对象。例如，如图7所示，推荐定向数据包括对象特征A和B，符合推荐定向数据的对象为A+B集合，媒体资源推荐模型确定的对象为F集合，则该媒体资源推荐的对象为A+B集合和F集合。

(2)自动扩量方法。自动扩量方法指对象基于原始对象特征设置推荐定向数据，并在原始对象特征中选出不可突破定向，不可突破定向指媒体资源推荐的对象必须要满足的特征。在使用自动扩量方法的情况下，该媒体资源推荐的对象包括符合推荐定向数据的对象以及媒体资源推荐模型确定的对象中符合不可突破定向的对象。例如，如图8所示，推荐定向数据包括对象特征A、B、C和D，其中A和B被设置为不可突破定向，符合推荐定向数据的对象为A+B+C+D集合，媒体资源推荐模型确定的对象为E集合，其中符合不可突破定向的对象为A+B+E集合，则该媒体资源推荐的对象为A+B+C+D集合与A+B+E集合。

需要说明的是，传统的媒体资源推荐方法在设置推荐定向数据时，需要对象设置大量的对象特征，同时还需要根据媒体资源的点击和转化情况，对推荐定向数据进行手工调整。而本申请实施例中通过媒体资源推荐模型进行推荐的方法，在设置推荐定向数据时，对象仅需要设置少量对象特征，且无需手动对推荐定向数据进行优化，服务器就能够通过推荐定向数据和媒体资源推荐模型，将媒体资源推荐给合适的对象，达到提升媒体资源的点击率、转化率以及收益的目的，提高了对象设置定向的效率。而且，在媒体资源的推荐过程往往包括多个步骤，通过推定定向数据确定候选媒体资源后，还需要通过其他的模型，进一步从候选媒体资源中确定待推荐的资源，如CTR模型或转化率(Conversion Rate，CVR)模型等，传统方法中，手工对定向数据进行调整，会导致媒体资源推荐的对象发生突变，使确定待推荐的媒体资源的模型出现较大的误差，而本申请的方法无需对推荐定向数据进行优化，从而能够避免出现较大误差。

402、第一终端在智能推荐选项被设置为使用媒体资源推荐模型的情况下，响应于在该媒体资源推荐页面对媒体资源的上传操作，向服务器发送该媒体资源和推荐指令，该推荐指令用于指示基于该媒体资源推荐模型，对该媒体资源进行推荐。

在一些实施例中，该推荐指令携带推荐定向数据，以指示服务器通过该推荐定向数据和媒体资源推荐模型对媒体资源进行推荐。

在一些实施例中，对象还能够设置媒体资源的推荐版位、推荐排期和出价，推荐版位指推荐该媒体资源的应用程序，推荐排期指推荐该媒体资源的时间段，出价指对象为推荐该媒体资源支付的费用。相应地，向服务器发送媒体资源和推荐指令之前，该步骤还包括：第一终端显示版位设置页面，响应于对象在版位设置页面的提交操作，显示排期设置页面，响应于对象在排期设置页面的提交操作，显示出价设置页面，响应于对象在出价设置页面的提交操作，向服务器发送媒体资源和推荐指令。相应地，该推荐指令还携带该媒体资源的推荐版位、推荐排期和出价的相关信息。

示例性地，对版位设置页面进行说明。如图9所示，该版位设置页面包括多个版位选项，每个版位选项包括一个选择控件，响应于对任一版位选项的点击操作，该版位选项的选择控件显示为被选中状态。任一版位被选中表示服务器会向该版位中应用程序的对象推荐媒体资源，应用程序的对象指注册该应用程序的用户。

示例性地，对排期设置页面进行说明。如图10所示，该排期设置页面包括日期设置选项1001和时间设置选项1002。其中，日期设置选项用于设置对媒体资源进行的推荐日期，该日期设置选项包括“长期投放”和“指定开启日期和结束日期”2个选项，若选择“长期投放”，则只需设置开始日期，服务器会从设置的开始日期开始对该媒体资源进行推荐，若选择“指定开启日期和结束日期”，则需要设置开始日期和结束日期，服务器会在设置的开始日期和结束日期之间的时间段对该媒体资源进行推荐。时间设置选项用于设置每一天推荐该媒体资源的时间段，该时间设置选项包括“全天”、“指定开始时间和结束时间”以及“指定多个时段”3个选项，对象能够基于需求进行设置。完成对媒体资源的排期设置后，服务器会在设置的时间段内对该媒体资源进行推荐。

示例性地，对出价设置页面进行说明，该出价设置页面包括转化目标控件和出价控件。其中，转化目标控件用于设置媒体资源的转化目标，转化目标表示对象期望对媒体资源发生的转化行为，例如，若该媒体资源为某个应用程序的广告，则该媒体资源的转化目标可以是下载应用程序。出价控件用于设置对象为媒体资源的每次转化支付的费用。

可选地，对象能够通过转化目标控件，设置媒体资源的浅层转化目标和深层转化目标，浅层转化目标指对媒体资源发生的无法产生实际收益的转化行为，深层转化目标指对媒体资源发生的能够产生实际收益的转化行为，例如，若媒体资源为某个游戏的广告，则浅层转化目标为下载游戏，深层转化目标为在游戏中为虚拟道具付费。

可选地，对象能够通过该出价设置页面，设置资源推荐系统的计费方法，该计费方法包括按照点击量计费(Optimized Cost per Click，oCPC)和按照曝光次数计费(Optimized Cost per Mille，oCPM)。

403、服务器接收该媒体资源和推荐指令，向第一终端发送确认消息，该确认消息表示已将该媒体资源设置为基于媒体资源推荐模型进行推荐。

在一些实施例中，服务器接收该媒体资源和推荐指令，将该媒体资源的推荐方法设置为模型推荐，将该媒体资源与推荐方法对应存储至数据库中，向第一终端发送确认消息。在一些实施例中，若该推荐指令还携带该媒体资源的推荐定向数据、推荐版位、推荐排期和出价的相关数据，则服务器将推荐指令携带的数据、该媒体资源以及推荐方法对应存储在数据库中。

在一些实施例中，对象完成媒体资源的上传后，能够查看媒体资源的反馈数据，该反馈数据表示媒体资源被展示、点击和转化的情况。相应地，本申请实施例还包括：第一终端响应于对象对媒体资源的反馈数据的查看操作，显示反馈页面，在该反馈页面显示媒体资源的反馈数据。

示例性地，对该反馈页面进行说明。如图11所示，该反馈页面能够显示媒体资源当前的展示次数、点击量、转化量、平均转化成本、总成本、平均点击成本。其中，转化量为媒体资源对于转化目标被转化的次数，平均转化成本为媒体资源每次被转化对象所付出的成本，例如，若媒体资源的转化目标为表单预约，则转化量为表单预约量，平均转化成本为表单预约平均成本。对象可以根据该平均转化成本判断当前的花费是否超出了设置的出价，以决定是否继续进行资源推荐。

下面结合图12，对媒体资源推荐的整体流程框架进行简要介绍。如图12所示，媒体资源推荐包括4个流程：数据接入1201、样本构造1202、模型构建1203和资源推荐1204。其中，数据接入1201包括获取媒体资源推荐系统的初始数据和对象发送的样本收益数据的过程，样本构造1202包括获取样本数据的过程，模型构建1203包括训练媒体资源推荐模型的过程，对上述3个流程的具体说明详见图22对应的实施例，在此不再赘述。资源推荐1204包括召回过程和推荐过程，其中，召回过程指基于训练得到的媒体资源推荐模型，从第一候选资源集合中确定第二候选资源集合，推荐过程指从第二候选资源集合中确定待推荐的媒体资源，对该资源推荐1204流程的具体说明详见图13至图21对应的实施例，在此不再赘述。

下面结合图13，对上述图12中资源推荐1204的流程进行具体说明。图13是本申请实施例提供的一种媒体资源的推荐的方法的流程图，如图13所示，该方法包括步骤1301至1308。

1301、第二终端向服务器发送资源获取请求，该资源获取请求用于指示返回向目标对象推荐的媒体资源。

在一些实施例中，第二终端响应于目标对象对目标应用程序的启动操作，显示媒体资源展示页面，目标对象能够通过在媒体资源展示页面上的点击、滑动等操作，来浏览媒体资源，第二终端响应于目标对象浏览媒体资源的操作，向服务器发送资源获取请求。

示例性地，该媒体资源展示页面为媒体资源的选择页面。第二终端显示该选择页面，目标对象在该选择页面中输入想要浏览的媒体资源的关键词，或者，目标对象在该选择页面中点击想要浏览的媒体资源的资源类型，终端响应于目标对象的输入操作或点击操作，向服务器发送相应的资源获取请求。

示例性地，该媒体资源展示页面为个性化页面，该个性化页面包括多个媒体资源的展示位。可选地，第二终端响应于目标对象对该个性化页面的显示操作，向服务器发送资源获取请求，以显示该个性化页面，并在个性化页面上显示为目标对象推荐的媒体资源。可选地，第二终端显示该个性化页面，目标对象能够通过滑动该个性化页面来浏览页面内容，第二终端响应于目标对象滑动到任一展示位的位置，向服务器发送资源获取请求，以在该展示位显示为目标对象推荐的媒体资源。

需要说明的是，以上仅是对第二终端发送资源获取请求的几种示例，目标对象能够通过在任一页面中以任一种操作方式，来触发第二终端向服务器发送资源获取请求，本申请实施例对此不作限定。

1302、服务器接收资源获取请求，获取目标对象的历史行为数据，该历史行为数据表示该目标对象基于媒体资源所进行过的浏览行为和资源转移行为。

在一些实施例中，服务器接收该资源获取请求，从数据库中获取该目标对象的历史行为数据以及第一资源候选集中第一候选媒体资源的第一资源数据。其中，第一候选媒体资源是推荐方法为模型推荐的媒体资源。

在一些实施例中，服务器还获取了其他数据，该步骤1302还包括：服务器获取该目标对象的画像数据和标签数据，该标签数据用于表示该目标对象的偏好。其中，画像数据包括目标对象的年龄、性别和地域等，标签数据包括目标对象的长期类目和短期类目等。可选地，该画像数据还包括目标对象的职业、消费状态、婚恋状态和学历等，该标签数据还包括目标对象的兴趣爱好和关键词等。通过获取目标对象其他类别的数据，使资源推荐模型能够基于更加丰富的对象数据，获取每个第一候选媒体资源的第一点击率、第一转化率和收益参考信息，从而提升了推荐媒体资源的准确性。

可选地，服务器还获取了目标对象使用的第一终端的设备数据、目标对象浏览的资源展示页面中的展示位数据以及目标对象在多个历史时间段内的统计数据。其中，设备数据包括第一终端的操作系统、设备连接的网络类型等。展示位数据包括展示位的标识、展示位的尺寸、展示位在资源展示页面中的上下文信息等。统计特征指目标用户在多个历史时间段内浏览媒体资源的数量、点击媒体资源的数量、关注媒体资源的数量、设置为不感兴趣的媒体资源的数量等。可选地，多个历史时间段可以是最近一个月、最近三个月和最近六个月。

在一些实施例中，如图14中1401至1403所示，服务器首先基于接收到的资源获取请求，通过质量信息，从全量媒体资源中确定第一候选资源集合，以进行媒体资源推荐，该质量信息用于表示媒体资源质量的优劣，全量媒体资源指媒体资源推荐系统中存储的所有媒体资源。相应地，该步骤还包括：服务器按照全量媒体资源中每个媒体资源的质量信息从大到小的顺序，将位于前目标比例的媒体资源确定为第一候选资源集合。需要说明的是，从全量媒体资源中确定第一候选资源集合的过程，能够在服务器存储第一终端发送的媒体资源后的任一时刻进行，服务器能够根据第一终端发送的媒体资源，实时对第一候选资源集合进行更新。在本申请实施例中，该第一候选资源集合也称为在线索引媒体资源。

1303、服务器将目标用户的历史行为数据和第一候选媒体资源集合中第一候选媒体资源的第一资源数据输入媒体资源推荐模型。

在一些实施例中，服务器将目标对象的第一对象数据和每个第一候选媒体资源的第一资源数据输入媒体资源推荐模型，该第一对象数据包括目标对象的历史行为数据、画像数据和标签数据。

可选地，该第一对象数据还包括目标对象的设备数据、展示位数据和统计数据。

1304、对于任一第一候选媒体资源的第一资源数据，服务器通过该媒体资源推荐模型，基于收益参考空间，对该历史行为数据和该第一资源数据进行处理，得到该第一候选媒体资源的收益参考信息。

其中，该收益参考空间通过对媒体资源推荐模型进行训练得到，用于对媒体资源的收益参考信息进行度量。媒体资源推荐模型的训练方法详见本实施例后面图22对应的实施例。

在一些实施例中，服务器首先通过该媒体资源推荐模型，获取第一对象数据的初始对象向量和第一资源数据的初始资源向量，然后基于收益参考空间，对该初始对象向量和初始资源向量进行处理，以得到收益参考信息。下面基于步骤1304A至1304B，对上述过程进行说明。

1304A、服务器通过该媒体资源推荐模型，获取初始对象向量和初始资源向量。

在一些实施例中，如图15中1501至1502所示，服务器通过媒体资源推荐模型的嵌入向量子模型和自注意力子模型，对第一对象数据和第一资源数据进行处理，以得到初始对象向量和初始资源向量，下面通过以下3个过程进行说明。

过程1、数据映射。

在一些实施例中，服务器将第一对象数据和第一资源数据输入嵌入向量子模型，分别对该第一对象数据和第一资源数据进行映射，得到该第一对象数据中历史行为数据的初始子向量、第一对象数据中其他类别数据的子向量以及该第一资源数据的多个子向量。其中，历史行为数据包括多个历史时间段的行为数据，该历史行为数据的初始子向量包括多个历史时间段的行为数据对应的初始子-子向量。

过程2、自注意力机制处理。

在一些实施例中，服务器将该历史行为数据的初始子向量输入媒体资源推荐模型的自注意力子模型，基于自注意力机制，提取多个历史时间段的行为数据之间的相关信息，以得到该历史行为数据的子向量。通过自注意力机制，得到了多个历史时间段的行为之间的相互关系，从而使得到的第一点击率、第一转化率和参考收益信息更加准确，提升了推荐媒体资源的准确性。

示例性地，对基于自注意力机制，提取多个历史时间段的行为数据之间的相关信息的过程进行说明。服务器首先基于自注意力子模型和多个历史时间段的行为数据对应的初始子-子向量，获取每个初始子-子向量对应的词向量(query)、键向量(key)和值向量(value)，对于任一历史时间段的行为数据的初始子-子向量，服务器将该初始子-子向量的词向量分别与每个初始子-子向量的键向量相乘，将多个乘积结果进行归一化，将多个归一化结果与对应的值向量相乘，将多个相乘结果求和，从而得到该历史时间段的行为数据对应的子-子向量，该子-子向量用于表示该历史时间段的行为数据与每个历史时间段的行为数据之间的相关信息。服务器将每个历史时间段的行为数据的子-子向量进行拼接，得到该历史行为数据的子向量。其中，获取历史行为数据的子向量的方法如公式(1)所示。

其中，Attention()表示历史行为数据的子向量，Q、K、V表示每个历史时间段的行为数据的词向量(query)、键向量(key)和值向量(value)，d_k为归一化参数。

在一些实施例中，如图16所示，服务器基于掩码自注意力机制(mask selfattention)，获取每个历史时间段的行为数据的子-子向量，也即是，任一历史时间段行为数据的子-子向量仅基于该历史时间段之前的行为数据得到，从而保证只有前序行为才能够影响后续行为。可选地，服务器基于多头(Multi-head)注意力机制获取历史行为数据的子向量，也即是，对于每个历史时间段的行为数据，通过多个词向量、键向量和值向量，进行多次关系信息的提取，可选地，进行2次关系信息提取。

过程3、子向量拼接。

在一些实施例中，服务器将该历史行为数据的子向量与第一对象数据中其他类别数据的子向量拼接，得到该初始对象向量，将该第一资源数据的多个子向量拼接，得到该初始资源向量。

需要说明的是，上述步骤1304A是以服务器接收到资源获取请求，通过媒体资源推荐模型，获取目标对象的初始对象向量和每个第一候选媒体资源的初始资源向量为例进行说明。在一些实施例，服务器能够预先基于媒体资源推荐模型获取每个第一候选媒体资源的初始资源向量，并将获取的多个初始资源向量存储在数据库中，服务器接收到资源获取请求，通过媒体资源推荐模型，获取目标对象的初始对象向量，从数据库中获取每个第一候选媒体资源的初始资源向量，从而大大降低了服务器的计算压力，提高媒体资源推荐的效率。

1304B、服务器基于该媒体资源推荐模型，通过收益参考空间，对该初始对象向量和初始资源向量进行处理，以获取该第一候选媒体资源的收益参考信息。

在一些实施例中，如图15中1503所示，服务器首先基于媒体资源推荐模型的第一多任务子模型和第二多任务子模型，通过收益参考空间，获取第一对象向量和第一资源向量，该第一对象向量表示第一对象数据对第一候选媒体资源的收益参考信息的影响，该第一资源向量表示第一资源数据对第一候选媒体资源的收益参考信息的影响，然后基于媒体资源推荐模型的收益子模型，对第一对象向量和第一资源向量进行处理，得到收益参考信息。下面基于以下2个过程进行说明。

过程1、获取第一对象向量和第一资源向量。

在一些实施例中，服务器将初始对象向量输入第一多任务子模型，通过该第一多任务子模型和收益参考空间，对初始对象向量进行处理，得到第一对象向量，将初始资源向量输入第二多任务子模型，通过该第二多任务子模型和收益参考空间，对初始资源向量进行处理，得到第一资源向量。

示例性地，以该第一多任务子模型为多门控多专家网络(Multi-gate Mixture-of-Expert，MMoE)为例，对获取第一对象向量的过程进行说明。如图17所示，该MMoE模型包括多个专家网络和多个门控网络，每个专家网络用于基于一种融合方式对初始对象的多个子向量进行融合，得到对应的融合向量，每个门控网络对应于一个任务，每个门控网络用于基于对应的任务，获取多个专家网络的融合特征对应的权重，以将多个专家网络的融合特征加权求和，得到用于处理对应任务的向量。服务器将该初始对象向量分别输入多个专家网络，基于多个专家网络，对该初始对象向量的多个子向量进行多次融合，得到该对象数据的多个对象融合向量。服务器将该初始对象向量输入收益参考信息任务对应的门控网络，基于该门控网络，通过收益参考空间，获取每个对象融合特征对应的权重，基于该权重，对多个对象融合向量进行加权求和，得到第一对象向量。其中，第一多任务子模型包括至少2个门控网络。可选地，第一多任务子模型包括3个专家网络。通过该第一多任务子模型，对初始对象向量中的多个子向量进行了多次融合，从而得到了更加丰富的对象特征，进一步基于得到的多个融合向量，通过收益参考空间，获取第一对象向量，使第一对象向量能够更准确地表示第一对象数据对收益参考信息的影响，使得到的收益参考信息更加准确，从而达到提升推荐媒体资源的准确率的目的。

可选地，上述专家网络为深度交叉网络(Deep&Cross Network，DCN)，上述门控网络为softmax函数。其中，DCN网络的结构如图18所示，该DCN网络包括2个分支，分别为特征交叉子网络和深度子网络，特征交叉子网络包括多个网络层，特征交叉自网络用于基于公式(2)，对初始对象向量中的多个子向量进行线性融合，深度子网络包括多个网络层，该深度子网络用于基于公式(3)，对初始对象向量中的多个子向量进行非线性融合，服务器将特征交叉子网络和深度子网络得到的向量进行拼接，通过sigmoid函数对拼接得到的向量进行处理，以得到对应的对象融合向量。

其中，x₀表示输入的初始对象向量，x_l表示特征交叉子网络第l层的输入数据，w_l和b_l分别表示特征交叉子网络第l层的尺度参数和偏移参数，x_l+1表示特征交叉子网络第l层的输出数据。

h_l+1＝ReLu(w’_lh_l+b’_l) (3)

其中，h_l表示深度子网络第l层的输入数据，w’_l和b’_l分别表示深度子网络中第l层的尺度参数和偏移参数，h_l+1表示深度自网络第l层的输出数据。

需要说明的是，获取第一资源向量的过程与获取第一对象向量的过程同理，在此不再赘述。

过程2、获取参考收益信息。

在一些实施例中，服务器将该第一对象向量和该第一资源向量输入收益子模型，得到该第一候选媒体资源的收益参考信息。

示例性地，对基于收益子模型，获取收益参考信息的过程进行说明。如图19所示，该收益子模型为双塔结构，该收益子模型的两个分支为第一神经网络和第二神经网络，第一神经网络和第二神经网络均包括多个全连接层，除最后一个全连接层之外，每个全连接层均连接有带参数的ReLU激活函数(Parametric Rectified Linear Unit，PReLU)。服务器将第一对象向量输入第一神经网络，将第一资源向量输入第二神经网络，分别对第一对象向量和第一资源向量进行多次降维，将降维得到的两个向量进行点积，得到收益参考信息。可选地，第一神经网络和第二神经网络均包括3个全连接层。

1305、服务器通过该媒体资源推荐模型，基于点击率空间和转化率空间中至少一项，对该历史行为数据和该第一资源数据进行处理，得到该第一候选媒体资源的第一点击率和第一转化率中至少一项。

其中，点击率空间和转化率空间通过对媒体资源推荐模型进行训练得到，该点击率空间和转化率空间分别用于对第一候选媒体资源的点击率和转化率进行度量。

下面对服务器获取第一点击率的过程进行说明。

在一些实施例中，服务器基于与上述步骤1304同理的方法，通过点击率空间，获取第二对象向量和第二资源向量，该第二对象向量表示第一对象数据对该第一候选媒体资源的第一点击率的影响，该第二资源向量表示第一资源数据对该第一候选媒体资源的第一点击率的影响。服务器将该第二对象向量和第二资源向量输入媒体资源推荐模型的点击率子模型，得到该第一点击率。

示例性地，对基于点击率子模型，获取第一点击率的过程进行说明。如图20所示，该点击率子模型为双塔结构，该点击率子模型的两个分支为第三神经网络和第四神经网络，第三神经网络和第四神经网络均包括多个全连接层，除最后一层全连接层之外，每个全连接层均连接有ReLU激活函数。服务器将第二对象向量输入第三神经网络，将第二资源向量输入第四神经网络，分别对第二对象向量和第二资源向量进行多次降维，将降维得到的两个向量进行点积，通过sigmoid函数对点积的结果进行映射，得到第一点击率。可选地，第三神经网络和第四神经网络均包括3个全连接层。

需要说明的是，服务器获取第一转化率的过程与获取第一点击率的过程同理，在此不再赘述。

需要说明的是，对于上述步骤1304和1305，服务器只需要获取一次初始对象向量和初始资源向量。服务器获取到初始用户向量和初始资源向量后，可以采用串行或并行的方式获取第一点击率和第二点击率中至少一项以及收益参考信息，本申请实施例对此不作限定。

1306、服务器基于每个该第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，从第一候选资源集合中确定第二候选资源集合。

在一些实施例中，该第一候选资源集合包括多个具有浅层转化目标的第三候选媒体资源和多个具有深层转化目标的第四候选媒体资源，服务器基于第一转化率，从多个第三候选媒体资源中确定多个第一媒体资源，服务器基于收益参考信息，从多个第四候选媒体资源中确定多个第二媒体资源，该多个第一媒体资源和多个第二媒体资源为第二候选资源集合。可选地，该多个第三候选媒体资源与多个第四候选媒体资源部分相同。

可选地，服务器按照第一转化率从大到小对多个第三候选媒体资源进行排序，将排在前目标比例的第三候选媒体资源确定为第一媒体资源，按照收益参考信息从大到小对多个第四候选媒体资源进行排序，将排在前目标比例的第四候选媒体资源确定为第二媒体资源。例如，若该目标比例为10％，第三候选媒体资源共有150个，第四候选媒体资源共有100，则服务器完成对多个第三候选媒体资源和多个第四没候选媒体资源的排序后，将排在前15位的第三候选媒体资源确定为第一媒体资源，将排在前10位的第四候选媒体资源确定为第二媒体资源。

可选地，如图21所示，服务器基于ANN检索算法，将第一转化率作为第一检索指标，从多个第三候选媒体资源中确定多个第一媒体资源，将收益参考信息作为第二检索指标，从多个第四候选媒体资源中确定多个第二资源。可选地，该ANN检索算法为分层导航图算法(Hierarchical Navigable Small World Graphs，HNSW)。

需要说明的是，在使用ANN算法确定第二候选资源集合的情况下，服务器无需获取每个第一候选媒体资源的第一转化率和收益参考信息。示例性地，在通过ANN算法确定多个第一资源的过程中，当需要某个第三候选媒体资源的第一转化率作为第一检索指标时，基于媒体资源推荐模型，获取该第三候选媒体资源的第一转化率和收益参考信息，将第一转化率作为该第三候选媒体资源的第一检索指标，将收益参考信息存储在缓存中。在通过ANN算法确定多个第二媒体资源的过程中，当需要某个第四候选媒体资源的收益参考信息作为第二检索指标时，首先在缓存中查找该第四候选媒体资源的收益参考信息，若在缓存中获取到了收益参考信息，则继续检索过程，若没有在缓存中获取到收益参考信息，则基于媒体资源推荐模型，获取该第四候选媒体资源的收益参考信息和第一转化率。

通过ANN算法确定第二候选资源集合，使得服务器无需获取所有第一候选媒体资源的第一转化率和收益参考信息，大大降低了服务器的计算压力，从而提升了推荐媒体资源的效率。

在一些实施例中，如果数据库中存储了每个第一候选媒体资源的推荐定向数据，则服务器首先将每个第一候选媒体资源的推荐定向数据与目标对象的第一对象数据进行对比，将推荐定向数据与第一对象数据匹配的第一候选媒体资源确定为第三媒体资源，然后将具有不可突破定向的第一媒体资源和每个第二媒体资源与第一对象数据进行对比，将多个第三媒体资源、不可突破定向与第一对象数据相匹配的第一媒体资源和第二媒体资源、不具有不可突破定向的第一媒体资源和第二媒体资源作为第二候选资源集合。

需要说明的是，以上步骤1302至步骤1306为基于媒体推荐模型，确定第二候选资源集合的过程，在本申请实施例中，该过程也称为对媒体资源进行召回。可选地，服务器采用多线程服务对媒体资源进行召回，以降低服务器的计算压力，提升召回的效率。

1307、服务器从第二候选媒体资源集合中确定待推荐的媒体资源。

在一些实施例中，服务器基于该目标对象的第二对象数据、第二媒体资源集合中每个第二候选媒体资源的第二资源数据，获取每个该第二候选资源的第二点击率和第二转化率，基于每个该第二候选媒体资源的第二点击率和第二转化率，从该第二候选媒体资源集合中确定待推荐的媒体资源。其中，该第二对象数据中数据类别的数量大于该第一对象数据中数据类别的数量，该第二资源数据中数据类别的数量大于该第一资源数据中数据类别的数量。通过数据类别更多的对象数据以及资源数据，获取到了准确率更高的第二点击率和第二转化率，进一步基于第二点击率和第二转化率确定待推荐的媒体资源，能够有效提升推荐媒体资源的准确率。

示例性地，对基于第二点击率和第二转化率，确定待推荐的媒体资源的过程进行说明。服务器基于每个第二候选媒体资源的第二点击率、第二转化率和出价，获取推荐参考信息，按照推荐参考信息从大到小的顺序，对多个第二候选媒体资源进行排序，将位于前N位的第二候选媒体资源确定为待推荐的媒体资源，N为大于0且小于第二候选媒体资源数量的整数。可选地，N＝1或2。其中，获取任一第二候选媒体资源的推荐参考信息的方法如公式(4)所示。

eCPM1＝bid×pCTR×pCVR (4)

其中，eCPM1表示推荐参考信息，bid表示该第二候选媒体资源的出价，pCTR表示第二点击率，pCVR表示第二转化率。

在一些实施例中，服务器首先获取每个第二候选媒体资源的修正参数，该修正参数用于对第二候选媒体资源的第二转化率进行修正，然后基于修正参数，获取修正后的推荐参考信息。相应地，该步骤1307还包括：服务器基于每个第二候选媒体资源的转化数量，获取每个第二候选媒体资源的修正参数，该转化数量为在目标历史时间段内第二候选媒体资源的转化次数。服务器基于每个第二候选媒体资源的第二点击率、第二转化率和修正参数，从第二候选媒体资源集合中确定待推荐的媒体资源。

通过获取修正参数，能够根据第二候选媒体资源真实的转化数量，对每个第二候选媒体资源的第二转化率进行修正，从而得到经过修正的推荐参考信息，达到提升推荐媒体资源的准确率的目的。

在一些实施例中，服务器基于每个第二候选媒体资源在多个维度下的转化数量，获取修正参数。示例性地，对获取任一第二候选媒体资源的修正参数的过程进行说明。服务器获取该第二候选媒体资源在目标历史时间段内多个维度的转化数量，基于该多个维度的转化数量，获取该多个维度对应的修正因子，每个修正因子表示在对应维度下的第二转化率的偏差，将该多个维度的修正因子进行加权求和，得到该第二候选媒体资源的修正参数。

下面对上述多个维度的转化数量进行说明。该多个维度的转化数量包括该第二候选媒体资源的转化数量，目标对象的转化数量、目标物的转化数量和目标物类型的转化数量。其中，目标对象指上传该第二候选媒体资源的对象，目标对象的转化数量指该目标对象上传的所有第二候选媒体资源在目标历史时间段内被转化的次数。目标物表示该第二候选媒体资源推广的目标物，目标物的转化数量表示所有用于推广该目标物的第二候选媒体资源在目标历史时间段内被转化的次数。目标物类型为该第二候选媒体资源推广的目标物类型，目标物类型的转化数量表示所有用于推广该目标物类型的第二候选媒体资源在目标历史时间段内被转化的次数。

示例性地，服务器获取任一维度的修正因子的方法如公式(5)所示，获取该第二候选媒体资源的修正参数方法如公式(6)所示。

pCVR_bias_factor＝conversion/sum(pCVR_j) (5)

其中，pCVR_bias_factor表示任一维度的修正因子，conversion表示任一维度下的转化数量，pCVR_j表示该维度下第j次被转化时服务器获取的第二转化率，sum()表示求和操作，pCVR_bias_factor_i表示第i个维度的转化因子，D表示维度的数量，W_i表示第i个维度的权重，boost_factor表示修正参数。

示例性地，对基于第二点击率、第二转化率和修正参数，确定待推荐的媒体资源的过程进行说明。服务器基于第一点击率、第二转化率和修正参数，获取修正后的推荐参考信息，按照修正后的推荐参考信息从大到小的顺序，对多个第二候选媒体资源进行排序，将位于前N位的第二候选媒体资源确定为待推荐的媒体资源。其中，获取任一第二候选媒体资源修正后的推荐参考信息的方法如公式(7)所示。

eCRM1’＝bid×pCTR×pCVR×boost_factor (7)

其中，eCPM1’表示经过修正的推荐参考信息。

在一些实施例中，如图14中1404至1406所示，服务器首先从第二候选资源集合中确定第三候选资源集合，然后从第三候选资源集合中确定待推荐的媒体资源。相应地，该步骤1307能够替换为：服务器基于目标对象的第三对象数据和每个第二候选媒体资源的第三资源数据，获取每个第二候选资源的第三点击率和第三转化率，基于每个第二候选媒体资源的第三点击率和第三转化率，从第二候选资源集合中确定第三候选资源集合。服务器获取第三候选资源集合中每个第三候选媒体资源的第二点击率和第二转化率，基于该第二点击率和第二转化率，从第三候选资源集合中确定带推荐的媒体资源。

其中，第三对象数据中数据类别的数量小于第二对象数据中数据类别的数量，第三资源数据中数据类别的数量小于第二资源数据中数据类别的数量。先通过数据类别较少的第三对象数据和第三资源数据，从第二候选资源集合中选出第三候选资源集合，再通过数据类别更多的第二对象数据和第二资源数据，从第三候选资源集合中确定待推荐的媒体资源，能够进一步提升推荐媒体资源的准确性，同时，由于先使用了数据类别较少的对象数据和资源数据，能够较少服务器的计算压力，提升推荐媒体资源的效率。

示例性地，对基于第三点击率和第三转化率，确定第三候选资源集合的过程进行说明。服务器基于每个第二候选媒体资源的第三点击率、第三转化率和出价，获取候选参考信息，按照候选参考信息从大到小的顺序，对多个第二候选媒体资源进行排序，将位于前M位的第二候选媒体资源确定为第三候选媒体资源，M为大于N且小于第二候选媒体资源数量的整数。可选地，服务器通过多路归并排序的方法，对多个第二候选媒体资源进行排序。可选地，M＝100。其中，获取任一第二候选媒体资源的候选参考信息的方法如公式(8)所示。

eCPM2＝bid×liteCTR×liteCVR (8)

其中，eCPM2表示候选参考信息，liteCTR表示第三点击率，liteCVR表示第三转化率。

在本申请实施例中，上述从第二候选资源集合中确定第三资源集合的过程称为粗排，从第三候选资源集合中确定待推荐的媒体资源的过程称为精排。

1308、服务器向第二终端发送资源获取响应，该资源获取响应携带待推荐的媒体资源。

在一些实施例中，第二终端将接收到的待推荐的媒体资源展示给目标对象，相应地，本申请实施例还包括：第二终端接收该资源获取响应，获取待推荐的媒体资源，将该待推荐的媒体资源显示在资源展示页面上，以完成向目标对象进行媒体资源推荐。

在一些实施例中，在目标对象浏览媒体资源展示页面的过程中，服务器周期性地执行确定待推荐的媒体资源的过程，向第二终端发送该待推荐的媒体资源，第二终端基于接收到的媒体资源，周期性地更新资源展示页面中显示的媒体资源，以完成向目标对象进行媒体资源推荐。

在一些实施例中，服务器接收到第二终端对任一页面的访问请求，基于与上述步骤1302至1307同理的方法，确定待推荐的媒体资源，将该页面的页面信息和待推荐的媒体资源发送至第二终端，该页面信息用于指示该页面，第二终端接收页面信息和媒体资源，基于该页面信息，显示该页面，在该页面上显示接收到的媒体资源，以完成向目标对象进行媒体资源推荐。

可选地，本申请实施例提供的方法基于C++语言或Python语言，通过LinuxG++编译环境和深度学习编译平台实现。

下面结合图22，对上述实施例中媒体资源推荐模型的训练过程进行介绍。该训练过程对应于图12中数据接入1201、样本构造1202和模型构建1203这3个流程。

在一些实施例中，该媒体资源推荐模型基于点击标签和转化标签中至少一项、样本数据以及样本收益参考信息训练得到，该样本数据包括样本对象的样本历史行为数据和样本媒体资源的样本资源数据。可选地，样本数据还包括样本对象其他类别的数据，如样本对象的画像数据、标签数据、设备数据等。需要说明的是，样本数据中样本对象的数据类别与上述进行媒体资源推荐过程中使用的目标对象的数据类别相同。

模型训练包括训练数据准备和模型训练2个过程，下面分别对这2个过程进行说明。

过程1、训练数据准备。

在一些实施例中，该训练数据包括多个样本数据和对应的点击标签、转化标签和样本收益参考信息。其中，多个样本数据、对应的点击标签和转化标签基于媒体资源推荐系统得到，多个样本数据对应的样本收益参考信息基于对象发送的收益数据得到。

下面对获取样本数据、对应的点击标签和转化标签的过程进行说明。如图22中2201至2202所示，服务器获取媒体资源推荐系统中的系统日志，对该系统日志进行解析，得到多个样本对象的初始对象数据、对应的多个样本媒体资源的初始资源数据以及每个样本对象对于对应样本媒体资源的点击情况和转化情况，从每个初始对象数据中提取样本对象多个类别的数据，从对应的每个初始资源数据中提取样本媒体资源的多个类别的数据，得到多个样本数据，根据每个样本对象对于对应样本媒体资源的点击情况和转化情况，获取每个样本数据对应的点击标签和转化标签。

下面对获取样本数据的样本收益参考信息的过程进行说明。如图22中2203至2205所示，服务器获取对象发送的多个样本媒体资源的样本收益数据，其中，每个样本媒体资源对应多个样本收益数据，每个样本媒体资源的多个样本收益数据为多个样本对象对该样本媒体资源发生转化行为后产生的收益。服务器对该收样本收益数据进行预处理，基于每个样本数据对应的样本对象和样本媒体资源，将预处理后每个样本媒体资源的多个样本收益数据与每个样本数据进行对应，得到每个样本数据对应的样本收益数据，将每个样本数据的样本收益数据与对应的对象转化数量相乘，得到每个样本数据的样本收益参考信息，对象转化数量指样本对象转化样本媒体资源的次数。在本申请实施例中，该收益参考信息也称为真实用户价值(Real User Value，RUV)。

可选地，服务器每间隔一个小时获取一次样本收益数据。可选地，上述对样本收益数据进行预处理指对样本收益数据进行脏数据过滤，脏数据指数据格式错误的样本收益数据。

需要说明的是，上述每个样本媒体资源的样本收益数据为经过标准化处理的数据。在一些实施例中，媒体资源推荐系统提供有样本收益数据的标准化处理功能，由于该样本收益数据是对象的核心数据，在向服务器发送样本收益数据之前，对象可以基于该媒体资源推荐系统，对样本收益数据进行标准化处理，将处理后的数据发送至服务器，从而能够保证核心数据的安全性。其中，对样本收益数据进行标准化处理的方法如公式(9)所示。

其中，original_user_value表示未经处理的原始的样本收益数据，standard_user_value表示经过标准化处理的样本收益数据，

表示向上取整操作。

通过对样本收益数据进行标准化处理，不仅能够保证对象的核心数据的安全性，还能够使样本收益数据的分布变得更加均衡，从而能够提升媒体资源推荐模型的训练效果。例如，如图23所示，图23为某个样本媒体资源未经过标准化处理的多个样本收益数据的分布图，从图23中可以看出，该样本收益数据的数据分布十分均衡，具有不同样本收益数据的样本用户数量呈现指数级差异，因此，通过对样本收益数据进行log()操作，能够使样本收益数据的分布变得更加均衡。

过程2、模型训练。

在一些实施例中，该媒体资源推荐模型的训练通过多次迭代实现。在任一次迭代的过程中，服务器从多个样本数据中获取一批样本数据和对应的点击标签、转化标签和样本参考信息，基于该媒体资源推荐模型，获取该样本数据的预测点击率和预测转化率中至少一项以及预测收益参考信息，基于该预测点击率和该预测转化率中至少一项、该点击标签和该转化标签中至少一项、该预测收益参考信息和该样本收益参考信息，对该媒体资源推荐模型进行训练。可选地，在训练过程中，对于收益子模型中第一神经网络和第二神经网络，除最后一个全连接层之外，服务器通过批标准化算法(Batch Normalization，BN)对每个全连接层的输入数据进行标准化处理，从而加快模型的收敛速度。

可选地，每一批样本数据的数量为4096，学习率(learning_rate)设置为0.0001，用全部样本数据对模型进行训练的次数(epoch)设置为2。

示例性地，对基于预测点击率和预测转化率中至少一项以及预测收益参考信息，训练媒体资源推荐模型的过程进行说明。服务器基于每个样本数据的预测点击率和点击标签，获取每个样本数据的点击率损失，基于每个样本数据的预测转化率和转化标签，获取每个样本数据的转化率损失，基于每个样本数据的预测收益参考信息和样本收益参考信息，获取每个样本数据的收益损失，分别将一批样本数据中每个样本数据的点击率损失、转化率损失和收益损失求和，得到一批样本数据的点击率损失、转化率损失和收益损失，将该一批样本数据的。点击率损失、转化率损失和收益损失加权求和，得到目标损失，基于该目标损失，更新媒体资源推荐模型的网络参数。可选地，服务器基于目标损失，通过自适应矩估计算法(Adaptive moment estimation，Adam)以及梯度下降法，对网络参数进行更新。

示例性地，服务器获取一批样本数据的点击率损失和转化率损失的方法如公式(10)所示。

loss_x＝-Σ[y_i×logP_i+(1-y_i)×log(1-P_i)] (10)

其中，loss_x表示点击率损失或转化率损失，∑[]表示求和操作，P_i表示一批样本数据中第i个样本数据的预测点击率或预测转化率，y_i表示第i个样本数据的点击标签或转化标签，以y_i是点击标签为例进行说明，y_i＝0或1，y_i＝0表示第i个样本数据的样本媒体资源没有被样本对象点击，y_i＝1表示第i个样本数据的样本媒体资源被样本对象点击。

示例性地，如公式(11)所示，服务器通过Huber损失函数获取任一样本数据的收益损失。通过该Huber损失函数，使每个样本数据的收益损失取值不会出现过高或过低的现象，从而提升模型训练效果。

loss_aux＝HuberLoss(predict，RUV) (11)

其中，loss_aux表示任一样本数据的收益损失，predict表示该样本数据的预测收益参考信息，RUV表示该样本数据的样本收益参考信息，HuberLoss()表示Huber损失函数，该Huber损失函数如公式(12)所示。

其中，a＝predict-RUV，δ为预设的损失参数，L_δ()表示Huber损失，也即是样本数据的收益损失。

示例性地，服务器获取目标损失的方法如公式(13)所示。

Loss＝αloss_ctr+βloss_cvr+γLoss_aux (13)

其中，Loss表示目标损失，loss_ctr、loss_cvr和Loss_aux分别表示一批样本数据的点击率损失、转化率损失和收益损失，α、β和γ分别表示点击率损失的权重、转化率损失的权重和收益损失的权重。

需要说明的是，服务器每天会获取新的训练数据，服务器能够基于新获取到的训练数据对该媒体资源推荐模型进行训练，从而能够及时对模型进行更新，提升该媒体资源推荐模型的准确性。

图24是本申请实施例提供的一种媒体资源的推荐装置的结构示意图，如图24，该装置包括：获取模块2401、输入模块2402、确定模块2403和推荐模块2404。

获取模块2401，用于获取目标对象的历史行为数据，该历史行为数据表示该目标对象基于媒体资源所进行过的浏览行为和资源转移行为；

输入模块2402，用于将该目标对象的历史行为数据和第一候选资源集合中第一候选媒体资源的第一资源数据输入媒体资源推荐模型，得到每个该第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，该收益参考信息表示该目标对象对该候选媒体资源发生转化行为后所产生的收益；

确定模块2403，用于基于每个该第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，确定待推荐的媒体资源；

推荐模块2404，用于基于该待推荐的媒体资源，对该目标对象进行资源推荐；

在一些实施例中，该输入模块2402包括：

在一些实施例中，该获取模块2401，还用于获取该目标对象的画像数据和标签数据，该标签数据用于表示该目标对象的偏好；

相应地，该处理子模块包括：

该第一获取单元，用于基于该媒体资源推荐模型，分别对该第一对象数据和该第一资源数据进行映射，得到该历史行为数据的初始子向量、该画像数据的子向量、该标签数据的子向量以及该第一资源数据的多个子向量；基于自注意力机制和该历史行为数据的初始子向量，提取该多个历史时间段的行为数据之间的相关信息，以得到该历史行为数据的子向量；将该历史行为数据的子向量、该画像数据的子向量和该标签数据的子向量拼接，得到该初始对象向量；将该第一资源数据的多个子向量拼接，得到该初始资源向量。

在一些实施例中，该装置还包括：

在一些实施例中，该确定模块2403包括：

在一些实施例中，该第三确定子模块包括：

需要说明的是：上述实施例提供的媒体资源的推荐装置在进行媒体资源推荐时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的媒体资源的推荐装置与媒体资源的推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图25是本申请实施例提供的一种媒体资源的推荐装置的结构示意图，如图25所示，该装置包括：展示模块2501和发送模块2502。

本公开实施例提供了一种用于执行上述媒体资源的推荐方法的计算机设备，在一些实施例中，该计算机设备被提供为第一终端或第二终端，图26是本申请实施例提供的一种终端的结构示意图。该终端2600可以是：智能手机、平板电脑、动态影像专家压缩标准音频层面3播放器(Moving Picture Experts Group Audio Layer III，MP3)、动态影像专家压缩标准音频层面4播放器(Moving Picture Experts Group Audio Layer IV，MP4)、笔记本电脑或台式电脑。终端2600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端2600包括有：一个或多个处理器2601和一个或多个存储器2602。

处理器2601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2601可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器2601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2601可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2601还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2602中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器2601所执行以实现本申请中方法实施例提供的媒体资源的推荐方法。

在一些实施例中，终端2600还可选包括有：外围设备接口2603和至少一个外围设备。处理器2601、存储器2602和外围设备接口2603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口2603相连。具体地，外围设备包括：射频电路2604、显示屏2605、摄像头组件2606、音频电路2607、定位组件2608和电源2609中的至少一种。

外围设备接口2603可被用于将输入/输出(Input/Output，I/O)相关的至少一个外围设备连接到处理器2601和存储器2602。在一些实施例中，处理器2601、存储器2602和外围设备接口2603被集成在同一芯片或电路板上；在一些其他实施例中，处理器2601、存储器2602和外围设备接口2603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路2604用于接收和发射射频(Radio Frequency，RF)信号，也称电磁信号。射频电路2604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路2604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路2604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路2604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或无线保真(Wireless Fidelity，WiFi)网络。在一些实施例中，射频电路2604还可以包括近距离无线通信(Near Field Communication，NFC)有关的电路，本申请对此不加以限定。

显示屏2605用于显示用户界面(User Interface，UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏2605是触摸显示屏时，显示屏2605还具有采集在显示屏2605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器2601进行处理。此时，显示屏2605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏2605可以为一个，设置终端2600的前面板；在另一些实施例中，显示屏2605可以为至少两个，分别设置在终端2600的不同表面或呈折叠设计；在一些实施例中，显示屏2605可以是柔性显示屏，设置在终端2600的弯曲表面上或折叠面上。甚至，显示屏2605还可以设置成非矩形的不规则图形，也即异形屏。显示屏2605可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等材质制备。

摄像头组件2606用于采集图像或视频。可选地，摄像头组件2606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(Virtual Reality，VR)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件2606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路2607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器2601进行处理，或者输入至射频电路2604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端2600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器2601或射频电路2604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路2607还可以包括耳机插孔。

定位组件2608用于定位终端2600的当前地理位置，以实现导航或基于位置的服务(Location Based Service，LBS)。定位组件2608可以是基于美国的全球定位系统(GlobalPositioning System，GPS)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源2609用于为终端2600中的各个组件进行供电。电源2609可以是交流电、直流电、一次性电池或可充电电池。当电源2609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端2600还包括有一个或多个传感器2610。该一个或多个传感器2610包括但不限于：加速度传感器2611、陀螺仪传感器2612、压力传感器2613、指纹传感器2614、光学传感器2615以及接近传感器2616。

加速度传感器2611可以检测以终端2600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器2611可以用于检测重力加速度在三个坐标轴上的分量。处理器2601可以根据加速度传感器2611采集的重力加速度信号，控制显示屏2605以横向视图或纵向视图进行用户界面的显示。加速度传感器2611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器2612可以检测终端2600的机体方向及转动角度，陀螺仪传感器2612可以与加速度传感器2611协同采集用户对终端2600的3D动作。处理器2601根据陀螺仪传感器2612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器2613可以设置在终端2600的侧边框和/或显示屏2605的下层。当压力传感器2613设置在终端2600的侧边框时，可以检测用户对终端2600的握持信号，由处理器2601根据压力传感器2613采集的握持信号进行左右手识别或快捷操作。当压力传感器2613设置在显示屏2605的下层时，由处理器2601根据用户对显示屏2605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器2614用于采集用户的指纹，由处理器2601根据指纹传感器2614采集到的指纹识别用户的身份，或者，由指纹传感器2614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器2601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器2614可以被设置终端2600的正面、背面或侧面。当终端2600上设置有物理按键或厂商Logo时，指纹传感器2614可以与物理按键或厂商Logo集成在一起。

光学传感器2615用于采集环境光强度。在一个实施例中，处理器2601可以根据光学传感器2615采集的环境光强度，控制显示屏2605的显示亮度。具体地，当环境光强度较高时，调高显示屏2605的显示亮度；当环境光强度较低时，调低显示屏2605的显示亮度。在另一个实施例中，处理器2601还可以根据光学传感器2615采集的环境光强度，动态调整摄像头组件2606的拍摄参数。

接近传感器2616，也称距离传感器，通常设置在终端2600的前面板。接近传感器2616用于采集用户与终端2600的正面之间的距离。在一个实施例中，当接近传感器2616检测到用户与终端2600的正面之间的距离逐渐变小时，由处理器2601控制显示屏2605从亮屏状态切换为息屏状态；当接近传感器2616检测到用户与终端2600的正面之间的距离逐渐变大时，由处理器2601控制显示屏2605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图26中示出的结构并不构成对终端2600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例提供了一种用于执行上述媒体资源的推荐方法的计算机设备，在一些实施例中，该计算机设备被提供为服务器，图27是本申请实施例提供的一种服务器的结构示意图，该服务器2700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)2701和一个或多个的存储器2702，其中，该一个或多个存储器2702中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器2701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器2700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器2700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码可由处理器执行以完成上述实施例中的媒体资源的推荐方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括至少一条计算机程序，该至少一条计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条计算机程序，处理器执行该至少一条计算机程序，使得该计算机设备执行上述媒体资源的推荐方法所执行的操作。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种媒体资源的推荐方法，其特征在于，所述方法包括：

获取目标对象的历史行为数据，所述历史行为数据表示所述目标对象基于媒体资源所进行过的浏览行为和资源转移行为；

将所述目标对象的历史行为数据和第一候选资源集合中第一候选媒体资源的第一资源数据输入媒体资源推荐模型，得到每个所述第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，所述收益参考信息表示所述目标对象对所述候选媒体资源发生转化行为后所产生的收益；

基于每个所述第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，确定待推荐的媒体资源；

基于所述待推荐的媒体资源，对所述目标对象进行资源推荐；

其中，所述媒体资源推荐模型基于多个样本对象的历史行为数据进行训练得到。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标对象的历史行为数据和第一候选资源集合中第一候选媒体资源的资源信息输入媒体资源推荐模型，得到每个所述第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息包括：

对于任一第一候选媒体资源的第一资源数据，将所述历史行为数据和所述第一资源数据输入所述媒体资源推荐模型；

通过所述媒体资源推荐模型，基于收益参考空间，对所述历史行为数据和所述第一资源数据进行处理，得到所述第一候选媒体资源的收益参考信息；

通过所述媒体资源推荐模型，基于点击率空间和转化率空间中至少一项，对所述历史行为数据和所述第一资源数据进行处理，得到所述第一候选媒体资源的第一点击率和第一转化率中至少一项。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述目标对象的画像数据和标签数据，所述标签数据用于表示所述目标对象的偏好；

相应地，所述基于收益参考空间，对所述历史行为数据和所述第一资源数据进行处理，得到所述第一候选媒体资源的收益参考信息包括：

基于所述媒体资源推荐模型，获取第一对象数据的初始对象向量和所述第一资源数据的初始资源向量，所述第一对象数据包括所述目标对象的历史行为数据、画像数据和标签数据，所述初始对象向量包括所述第一对象数据中多个类别的数据对应的子向量，所述初始资源向量包括所述第一资源数据中多个类别的数据对应的子向量；

基于多种融合方式，对所述初始对象向量的多个子向量进行多次融合，得到所述对象数据的多个对象融合向量，对所述初始资源向量的多个子向量进行多次融合，得到所述资源数据的多个资源融合向量；

基于所述收益参考空间，分别对所述多个对象融合向量和所述多个资源融合向量进行加权求和，得到对象向量和资源向量，所述对象向量表示所述第一对象数据对所述第一候选媒体资源的收益参考信息的影响，所述资源向量表示所述第一资源数据对所述第一候选媒体资源的收益参考信息的影响；

基于所述对象向量和所述资源向量，获取所述第一候选媒体资源的收益参考信息。

4.根据权利要求3所述的方法，其特征在于，所述历史行为数据包括多个历史时间段的行为数据；

所述基于所述媒体资源推荐模型，获取第一对象数据的初始对象向量和所述第一资源数据的初始资源向量包括：

基于所述媒体资源推荐模型，分别对所述第一对象数据和所述第一资源数据进行映射，得到所述历史行为数据的初始子向量、所述画像数据的子向量、所述标签数据的子向量以及所述第一资源数据的多个子向量；

基于自注意力机制和所述历史行为数据的初始子向量，提取所述多个历史时间段的行为数据之间的相关信息，以得到所述历史行为数据的子向量；

将所述历史行为数据的子向量、所述画像数据的子向量和所述标签数据的子向量拼接，得到所述初始对象向量；

将所述第一资源数据的多个子向量拼接，得到所述初始资源向量。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于点击标签和转化标签中至少一项、样本数据以及样本收益参考信息，对所述媒体资源推荐模型进行训练，所述样本数据包括样本对象的样本历史行为数据和样本媒体资源的样本资源数据；

所述媒体资源推荐模型的训练过程包括：

基于所述媒体资源推荐模型，获取所述样本数据的预测点击率和预测转化率中至少一项以及预测收益参考信息；

基于所述预测点击率和所述预测转化率中至少一项、所述点击标签和所述转化标签中至少一项、所述预测收益参考信息和所述样本收益参考信息，对所述媒体资源推荐模型进行训练。

6.根据权利要求5所述的方法，其特征在于，所述样本收益参考信息通过对样本收益数据进行标准化处理得到。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于每个所述第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，确定待推荐的媒体资源包括：

基于每个所述第一候选媒体资源的第一转化率，从所述第一候选资源集合中确定多个第一媒体资源；

基于每个所述第一候选媒体资源的收益参考信息，从所述第一候选资源集合中确定多个第二媒体资源；

从第二候选资源集合中确定待推荐的媒体资源，所述第二候选资源集合为所述多个第一媒体资源和所述多个第二媒体资源。

8.根据权利要求7所述的方法，其特征在于，所述从第二候选资源集合中确定待推荐的媒体资源包括：

基于所述目标对象的第二对象数据、所述第二候选资源集合中每个第二候选媒体资源的第二资源数据，获取每个所述第二候选媒体资源的第二点击率和第二转化率；

基于每个所述第二候选媒体资源的第二点击率和第二转化率，从所述第二候选资源集合中确定待推荐的媒体资源；

其中，所述第二对象数据中数据类别的数量大于所述第一对象数据中数据类别的数量，所述第二资源数据中数据类别的数量大于所述第一资源数据中数据类别的数量。

9.根据权利要求8所述的方法，其特征在于，所述基于每个所述第二候选媒体资源的第二点击率和第二转化率，从所述第二候选媒体资源集合中确定待推荐的媒体资源包括：

基于每个所述第二候选媒体资源的转化数量，获取每个所述第二候选媒体资源的修正参数，所述转化数量为在目标历史时间段内所述第二候选媒体资源的转化次数，所述修正参数用于对所述第二候选媒体资源的第二转化率进行修正；

基于每个所述第二候选媒体资源的第二点击率、第二转化率和修正参数，从所述第二候选资源集合中确定待推荐的媒体资源。

10.一种媒体资源的推荐方法，其特征在于，所述方法包括：

展示媒体资源推荐页面，在所述媒体资源推荐页面上展示智能推荐选项，所述智能推荐选项用于选择是否使用媒体资源推荐模型进行媒体资源推荐；

在所述智能推荐选项被设置为使用所述媒体资源推荐模型的情况下，响应于在所述媒体资源推荐页面对媒体资源的上传操作，向服务器发送所述媒体资源和推荐指令，所述推荐指令用于指示基于所述媒体资源推荐模型，对所述媒体资源进行推荐；

其中，所述媒体资源推荐模型用于基于目标对象的历史行为数据和所述媒体资源的第一资源数据，获取所述媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，所述历史行为数据表示所述目标对象基于媒体资源所进行过的浏览行为和资源转移行为，所述收益参考信息表示所述目标对象对所述媒体资源发生转化行为后产生的收益，所述媒体资源推荐模型基于多个样本对象的历史行为数据进行训练得到。

11.一种媒体资源的推荐装置，其特征在于，所述装置包括：

获取模块，用于获取目标对象的历史行为数据，所述历史行为数据表示所述目标对象基于媒体资源所进行过的浏览行为和资源转移行为；

输入模块，用于将所述目标对象的历史行为数据和第一候选资源集合中第一候选媒体资源的第一资源数据输入媒体资源推荐模型，得到每个所述第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，所述收益参考信息表示所述目标对象对所述候选媒体资源发生转化行为后所产生的收益；

确定模块，用于基于每个所述第一候选媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，确定待推荐的媒体资源；

推荐模块，用于基于所述待推荐的媒体资源，对所述目标对象进行资源推荐；

12.一种媒体资源的推荐装置，其特征在于，所述装置包括：

展示模块，用于展示媒体资源推荐页面，在所述媒体资源推荐页面展示智能推荐选项，所述智能推荐选项用于选择是否使用媒体资源推荐模型进行媒体资源推荐；

发送模块，用于在所述智能推荐选项被设置为使用所述媒体资源推荐模型的情况下，响应于在所述媒体资源推荐页面对媒体资源的上传操作，向服务器发送所述媒体资源和推荐指令，所述推荐指令用于指示基于所述媒体资源推荐模型，对所述媒体资源进行推荐；

其中，所述资源推荐模型用于基于目标对象的历史行为数据和所述媒体资源的第一资源数据，获取所述媒体资源的第一点击率和第一转化率中至少一项以及收益参考信息，所述历史行为数据表示所述目标对象基于媒体资源所进行过的浏览行为和资源转移行为，所述收益参考信息表示所述目标对象对所述媒体资源发生转化行为后产生的收益，所述资源推荐模型基于多个样本对象的历史行为数据进行训练得到。

13.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的媒体资源的推荐方法所执行的操作，或如权利要求10所述的媒体资源的推荐方法所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的媒体资源的推荐方法所执行的操作，或如权利要求10所述的媒体资源的推荐方法所执行的操作。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至权利要求9任一项所述的媒体资源的推荐方法，或权利要求10所述的媒体资源的推荐方法。