CN113886674A

CN113886674A - 资源推荐方法、装置、电子设备及存储介质

Info

Publication number: CN113886674A
Application number: CN202010625624.8A
Authority: CN
Inventors: 蔡历明; 温明星; 黄柏翔
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2022-01-04

Abstract

本公开是关于一种资源推荐方法、装置、电子设备及存储介质，涉及互联网技术领域，用以解决多源场景下资源推荐精确性较低的问题，方法包括：基于对目标类型的展示页面以及待推荐类型的展示页面中多媒体资源的预设操作，确定目标类型的第一推荐参数以及待推荐类型的第二推荐参数；根据第一推荐参数以及第二推荐参数，将对多媒体资源执行预设操作时对应的第一筛选参数，以及在待推荐类型的展示页面执行预设操作时对应的第二筛选参数进行调整，获取目标筛选参数；生成包含基于目标筛选参数筛选出的多媒体资源的待推荐类型的展示页面。本公开基于推荐参数对筛选参数进行集成得到目标筛选参数，考虑了用户在不同类型的展示页面下的行为，推荐更加精确。

Description

资源推荐方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种资源推荐方法、装置、电子设备及存储介质。

背景技术

短视频在人们日常生活中越来越流行，短视频领域主要出现了两种产品形态(两源)，一种为单列的上下滑形态，另一种为双列的点击形态。

针对短视频领域出现的单列和双列同时出现的多源产品形态，相关技术中在进行视频推荐时，一类方式为使用各自独立的数据进行推荐预测，忽略了源间兴趣差异性，造成了用户兴趣的丢失；另一类方式为考虑了多源之间的结合，共用一套数据流，抽取共同的特征来进行推荐预测，由于不同源之间数据分布的不一致，将多种数据混合在一起时会导致特征学习不充分。

综上所述，在多源场景下相关技术中的推荐方式导致资源推荐的精确性较低。

发明内容

本公开提供一种资源推荐方法、装置、电子设备及存储介质，以至少解决相关技术中多源场景下资源推荐精确性较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种资源推荐方法，包括：

基于目标账户对目标类型的展示页面以及待推荐类型的展示页面中多媒体资源的预设操作，确定所述目标类型的第一推荐参数以及所述待推荐类型的第二推荐参数，其中所述目标类型是根据与所述目标账户关联度从所有类型中选择的，所述待推荐类型是需要推荐给所述目标账户的展示页面的类型；

根据所述第一推荐参数以及所述第二推荐参数，将预先获得的所述目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及所述目标账户在所述待推荐类型的展示页面对所述多媒体资源执行所述预设操作时对应的第二筛选参数进行调整，获取目标筛选参数；

基于所述目标筛选参数筛选出推荐给所述目标账户的多媒体资源，并生成包含筛选出的多媒体资源的所述待推荐类型的展示页面。

可选的，所述第一筛选参数是根据如下方式获得的：

根据所述目标账户对不同类型的展示页面中多媒体资源的行为信息，以及所述多媒体资源的属性信息，提取所述目标账户的多媒体公共信息；

基于所述多媒体公共信息，获取所述目标账户对多媒体资源执行预设操作时对应的第一筛选参数。

可选的，所述第二筛选参数是根据如下方式获得的：

根据所述目标账户对所述待推荐类型的展示页面中多媒体资源的行为信息，以及所述多媒体资源的属性信息，提取所述目标账户的多媒体特有信息；

基于所述多媒体公共信息和所述多媒体特有信息，获取所述目标账户在所述待推荐类型的展示页面对所述多媒体资源执行所述预设操作时对应的第二筛选参数。

可选的，所述基于目标账户对目标类型的展示页面以及待推荐类型的展示页面中多媒体资源的预设操作，确定所述目标类型的第一推荐参数以及所述待推荐类型的第二推荐参数，包括：

将预设时长内所述目标账户对各个类型的展示页面中多媒体资源执行所述预设操作的行为次数，转换为嵌入特征向量；

对所述嵌入特征向量进行矩阵运算和归一化处理，得到目标特征向量；

基于所述目标特征向量，获取所述目标类型的第一推荐参数以及所述待推荐类型的第二推荐参数，其中所述目标特征向量中各个元素表示各个类型的推荐参数。

可选的，所述根据所述第一推荐参数以及所述第二推荐参数，将预先获得的所述目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及所述目标账户在所述待推荐类型的展示页面对所述多媒体资源执行所述预设操作时对应的第二筛选参数进行调整，获取目标筛选参数，包括：

将所述第一筛选参数与所述第一推荐参数的乘积，以及所述第二筛选参数与所述第二推荐参数的乘积之和，作为所述目标筛选参数。

可选的，所述基于所述多媒体公共信息，获取所述目标账户对多媒体资源执行预设操作时对应的第一筛选参数，包括：

基于已训练的推荐模型中的第一推荐子模型对所述多媒体公共信息进行特征提取，以得到所述第一筛选参数。

可选的，所述基于所述多媒体公共信息和所述多媒体特有信息，获取所述目标账户在所述待推荐类型的展示页面对所述多媒体资源执行所述预设操作时对应的第二筛选参数，包括：

基于所述已训练的推荐模型中的第二推荐子模型对所述多媒体公共信息和所述多媒体特有信息进行特征提取，以得到所述第二筛选参数。

可选的，所述基于目标账户对待推荐类型的展示页面以及所述目标类型的展示页面中多媒体资源的预设操作，确定所述目标类型的第一推荐参数以及所述待推荐类型的第二推荐参数，包括：

基于所述已训练的推荐模型中的深度门集成子模型，对预设时长内所述目标账户对各个类型展示页面中的已推荐多媒体资源执行所述预设操作的行为次数进行特征提取，以得到所述第一推荐参数以及所述第二推荐参数。

基于所述已训练的推荐模型中的输出层，将所述第一筛选参数和所述第二筛选参数根据所述第一推荐参数以及所述第二推荐参数进行加权处理，以得到所述目标筛选参数。

可选的，通过下列方式训练得到所述已训练的推荐模型：

对初始的推荐模型中的模型参数进行多轮调整，其中所述初始的推荐模型中的模型参数是预先设定的，每轮调整都执行下列过程：

根据所述初始的推荐模型中的第一推荐子模型预测得到的，样本账户对样本多媒体资源执行所述预设操作时对应的第一预估筛选参数，调整所述第一推荐子模型；以及

根据所述初始的推荐模型中的第二推荐子模型预测得到的，所述样本账户在所述待推荐类型的展示页面对样本多媒体资源执行所述预设操作时对应的第二预估筛选参数，调整所述第二推荐子模型；

根据所述初始的推荐模型中的深度门集成子模型预测得到的所述目标类型的第一预估推荐参数以及所述待推荐类型的第二预估推荐参数，以及所述第一预估筛选参数和所述第二预估筛选参数，调整所述深度门集成子模型。

可选的，所述根据所述初始的推荐模型中的深度门集成子模型预测得到的所述目标类型的第一预估推荐参数以及所述待推荐类型的第二预估推荐参数，以及所述第一预估筛选参数和所述第二预估筛选参数，调整所述深度门集成子模型，包括：

将基于所述第一预估推荐参数以及所述第二预估推荐参数，对所述第一预估筛选参数以及所述第二预估筛选参数进行加权处理得到的预估参数，与根据所述样本账户对所述待推荐类型的展示页面中样本多媒体资源的行为信息确定的真实筛选参数进行对比，基于比对结果调整所述深度门集成子模型中的模型参数。

根据本公开实施例的第二方面，提供一种资源推荐装置，包括：

确定单元，被配置为执行基于目标账户对目标类型的展示页面以及待推荐类型的展示页面中多媒体资源的预设操作，确定所述目标类型的第一推荐参数以及所述待推荐类型的第二推荐参数，其中所述目标类型是根据与所述目标账户关联度从所有类型中选择的，所述待推荐类型是需要推荐给所述目标账户的展示页面的类型；

集成单元，被配置为执行根据所述第一推荐参数以及所述第二推荐参数，将预先获得的所述目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及所述目标账户在所述待推荐类型的展示页面对所述多媒体资源执行所述预设操作时对应的第二筛选参数进行调整，获取目标筛选参数；

推荐单元，被配置为执行基于所述目标筛选参数筛选出推荐给所述目标账户的多媒体资源，并生成包含筛选出的多媒体资源的所述待推荐类型的展示页面。

可选的，所述装置还包括：

预估单元，被配置为执行根据所述目标账户对不同类型的展示页面中多媒体资源的行为信息，以及所述多媒体资源的属性信息，提取所述目标账户的多媒体公共信息；

可选的，所述预估单元还用于：

可选的，所述确定单元具有被配置为执行：

可选的，所述集成单元具体被配置为执行：

可选的，所述预估单元具体被配置为执行：

可选的，所述集成单元具体被配置为执行：

可选的，基于所述已训练的推荐模型中的输出层，将所述第一筛选参数和所述第二筛选参数根据所述第一推荐参数以及所述第二推荐参数进行加权处理，以得到所述目标筛选参数。

可选的，所述装置还包括：

训练单元，被配置为执行对初始的推荐模型中的模型参数进行多轮调整，其中所述初始的推荐模型中的模型参数是预先设定的，每轮调整都执行下列过程：

可选的，所述训练单元具体被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现本公开实施例第一方面中任一项所述的资源推荐方法。

根据本公开实施例的第四方面，提供一种非易失性可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例第一方面中任一项所述的资源推荐方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述第一方面以及第一方面任一可能涉及的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

由于本公开实施例中，在多源场景下进行资源推荐时，基于目标账户对不同类型的展示页面中多媒体资源执行的预设操作，来分析得到不同类型对应的推荐参数，能自适应用户在不同类型间行为的变化，有效的解决用户兴趣丢失问题。并且，在预估多媒体资源的目标筛选参数时，基于推荐参数将预估得到的目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数进行调整，充分考虑到了用户在不同类型的展示页面下的行为，获取到的目标筛选参数更加精确，因而基于该目标筛选参数得到的推荐结果更加准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用场景的流程图；

图2是根据一示例性实施例示出的一种资源推荐方法的流程图；

图3是根据一示例性实施例示出的一种展示页面的示意图；

图4是根据一示例性实施例示出的另一种展示页面的示意图；

图5是根据一示例性实施例示出的推荐模型的示意图；

图6是根据一示例性实施例示出的一种资源推荐的完整方法流程图；

图7是根据一示例性实施例示出的一种推荐模型的训练方法的流程图；

图8是根据一示例性实施例示出的一种资源推荐装置的框图；

图9是根据一示例性实施例示出的一种电子设备的框图；

图10是根据一示例性实施例示出的一种终端设备的组成结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面对文中出现的一些词语进行解释：

和/或：描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

电子设备：可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

多媒体公共信息：指根据用户对不同类型的展示页面中多媒体资源的行为信息，以及多媒体资源的属性信息进行特征提取所得到的，不仅表示了用户和视频在主源形态下的行为，还表示在从源形态下的行为，具体细分的话，还可以划分为目标账户的公共特征信息、多媒体资源的公共属性信息、多媒体资源和目标账户之间的公共组合特征信息。

多媒体特有信息：指根据用户对待推荐类型的展示页面中多媒体资源的行为信息，以及多媒体资源的属性信息进行特征提取所得到的，表示用户及视频在从源形态下的行为，是对多媒体公共信息的补充。具体细分的话，还可以划分为目标账户的特有特征信息、多媒体资源的特有属性信息、多媒体资源和目标账户之间的特有组合特征信息。

深度学习：深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同。

MLP(Multilayer Perceptron，多层感知器)：也叫人工神经网络(ANN，ArtificialNeural Network)，除了输入输出层，它中间可以有多个隐层，最简单的MLP只含一个隐层，即三层的结构。多层感知器层与层之间是全连接的。多层感知器最底层是输入层，中间是隐藏层，最后是输出层。输入层：比如输入是一个n维向量，就有n个神经元。隐含层与输入层是全连接的，假设输入层用向量X表示，则隐藏层的输出就是f(W1X+b1)，W1是权重(也叫连接系数)，b1是偏置，函数f可以是常用的sigmoid函数或者tanh函数；隐藏层到输出层可以看成是一个多类别的逻辑回归，也即softmax回归，所以输出层的输出就是softmax(W2X1+b2)，X1表示隐藏层的输出f(W1X+b1)。

softmax函数：softmax用于多分类过程中，它将多个神经元的输出，映射到(0，1)区间内，可以看成概率来理解，从而来进行多分类。

Redis：是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库(存储系统)，并提供多种语言的API。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，redis支持各种不同方式的排序。与memcached一样，为了保证效率，数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了master-slave(主从)同步。

Kafka：是一个开源流处理平台，一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

模型参数：通常包含有网络参数和特征的Embedding(嵌入)两部分，其中网络参数指神经网络中的参数，例如W(weight，权重)，b(bias，偏置)等，Embedding用于把正整数(索引)转换为固定大小的稠密向量，指在神经网络中的Embedding层所涉及的参数。

下面对本公开实施例的设计思想进行简要介绍：

随着硬件的不断发展，算力的不断提升，深度学习技术不仅在音视频领域、自然语言处理等领域大放异彩，还在广告推荐、视频推荐等推荐领域也取得了阶段性的进展，自wide&deep(宽度&深度)模型被提出之后，不断有新的模型结构被提出并应用于工业界，目前深度学习已普遍应用于各大推荐系统。

推荐系统一般分为四个阶段，包括召回阶段、粗排阶段、精排阶段、重排阶段，本公开主要针对精排阶段进行优化。在相关技术中，产品形态的不同，相应的推荐模型也有差异，但其实对于同一产品，虽然产品形态不同，但是相应的推荐模型的数据是同构的。以短视频应用为例，短视频领域主要出现了两种产品形态(源)，一种为单列的上下滑形态，另一种为双列的点击形态。有些应用将两种形态结合起来，出多个Tab(标签)页面，在某个Tab页面为单列形态，在另一个Tab页面为双列形态，并且由于早期用户行为的培养往往会有一个主页面一个从页面的情况，即用户在某页面消费时长大于另一页面的情况。有甚者会有多个不同形态的页面。一般情况下，用户在主页面的消费时长最高，其他消费时长相对较低的都可称为从页面。

对于多源场景同时出现的情况，在相关技术中，推荐模型可大体归为两大类。第一类对不同源进行分别建模，每个源构建各自独立的数据流和推荐模型，各自设计特征和网络结构，使用独立的数据进行模型训练和线上预测。第二类则考虑了多源之间的结合，共用一套数据流，抽取共同的特征，共用一套网络结构，将两种数据混合在一起训练，对数据来源不加区分或者加入一个页面类型特征对数据来源进行区分。

然而，上述两种推荐方式会面临以下主要几个问题：

1、特征Embedding和网络参数学不好。由于不同源之间数据分布的不一致，将多种数据混合在一起训练会使得网络参数学不充分，间接的使得特征Embedding学不充分。如果源之间各自独立训练，则每个源对应的独立模型都会丢失一部分训练数据，使得特征Embedding学的不充分，这部分训练数据虽然分布有点不一致，但依然是可利用的重要资源。

2、存在用户兴趣的丢失及源间兴趣差异性问题。如果源之间的模型独立，会使得刚切到从源的用户丢失了在主源的行为信息，源之间用户的兴趣应该是相似的。如果源之间混合在一起训练，则模型区分不出用户所在的源，虽然源间用户兴趣相似，但也是有差异的，应该加以区分。

有鉴于此，本公开实施例提供一种多源同构数据情景下的资源推荐方法、装置、电子设备及存储介质。本公开实施例还提出了一种利用主源辅助训练从源的推荐模型，该推荐模型的网络结构是本公开实施例中新提出的，通过将网络结构独立、除公共特征共享训练外再增加从源特有特征的方式，实现充分利用所有数据的同时保留源自有行为特性，使得特征Embedding学习的足够充分，网络参数也完全适用于特定源的数据分布，预估值符合相应源的数据分布。

此外，针对新切到从源的用户兴趣丢失问题，本公开实施例通过一个深度门集成子模型，将多源目标的预估值进行集成，集成的参数通过模型自行学习得到，且能自适应用户在不同源间行为的变化，另外通过底层网络参数的共享，从源的预测目标能将用户在主源的行为特征作为输入特征，能有效的解决新切源的用户兴趣丢失问题。另外，本公开实施例对于主源和从源单独建立两个不同的网络，具备区分用户在源间兴趣差异的能力。

本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本公开的描述中，除非另有说明，“多个”的含义。

下面对本公开实施例的应用场景进行简要介绍：

参阅图1所示，其为本公开实施例的应用场景示意图。该应用场景图包括两个终端设备110和一个服务器130，可通过终端设备110登录多媒体资源的展示页面120。终端设备110与服务器130之间可以通过通信网络进行通信。每个终端设备对应的一个用户，图1中是以用户A和用户B各对应一个终端设备110为例，实际上不限制终端设备的数量。在某些情况下，各终端设备之间可以先通过服务器130进行通信，终端设备到终端设备之间可以建立直接通信，终端设备到终端设备之间直接通信的方式可以称为点到点通信，在这情况下，各终端设备之间的某些交互过程可能并不需要服务器130的中转。

其中，每个终端设备中可以安装有本公开实施例中提供的短视频客户端。本公开实施例涉及的客户端可以是预安装的客户端，也可以是嵌入在某个应用中的客户端(例如小程序)，还可以是网页版的客户端，不限制客户端的具体类型。

需要说明的是，本公开实施例中的资源推荐方法可以由服务器130执行，相应地，资源推荐装置一般设置于服务器130中。可选的，本公开实施例所提供的资源推荐方法还可以由终端设备110执行，相应地，资源推荐装置一般设置于终端设备110中。此外，需要说明的是，本公开实施例所提供的资源推荐方法，还可以通过服务器130和终端设备110共同执行，例如，“基于所述目标筛选参数筛选出推荐给所述目标账户的多媒体资源，并生成包含筛选出的多媒体资源的所述待推荐类型的展示页面”的步骤可以由终端设备110执行，其余步骤可以由服务器130执行。本公开对此不做限定。

在一种可选的实施方式中，通信网络是有线网络或无线网络。终端110以及服务器130可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

在本公开实施例中，终端设备110为用户使用的电子设备，该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通信类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器130连接，服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。

图2是根据一示例性实施例示出的一种资源推荐方法的流程图，如图2所示，包括以下步骤。

在步骤S21中，基于目标账户对目标类型的展示页面以及待推荐类型的展示页面中多媒体资源的预设操作，确定目标类型的第一推荐参数以及待推荐类型的第二推荐参数，其中目标类型是根据与目标账户关联度从所有类型中选择的，待推荐类型是需要推荐给目标账户的展示页面的类型；

其中，多媒体资源指数字传输的资源，例如短视频、直播等，在下文中主要是以短视频为例进行举例说明的。预设操作是指用户针对多媒体资源执行的某种操作，例如点击、点赞、关注、有效播放等，其中有效播放是指用户播放某个多媒体资源的时长大于一定时间。

在本公开实施例中，预设操作是与预测目标对应的，比如预设操作为点击，预测目标即点击率，此时本公开实施例中的第一筛选参数、第二筛选参数和目标筛选参数等都是指点击率；当预设操作为有效播放时，第一筛选参数、第二筛选参数和目标筛选参数等都是指有效播放率，等等。其中，第一筛选参数是指根据用户在应用下的行为(不区分页面类型时)预估得到的用户对多媒体资源执行预设操作的概率值，第二筛选参数是指根据用户在待推荐类型的展示页面下的行为预估得到的用户对多媒体资源执行预设操作的概率值，而目标筛选参数则是基于第一筛选参数和第二筛选参数集成得到的概率值。

在下文中主要是以预设操作为有效播放为例进行举例说明的。

若以多媒体资源为短视频为例，在一些常见的短视频应用中，主要出现了两种产品形态(源)，一种为单列的上下滑形态，另一种为双列的点击形态，这两种产品形态对应两种展示页面的类型，如图3和图4所示。

其中，图3为本公开实施例中所列举的一种单列上下滑形态的展示页面示意图，该类型的展示页面下，更多的是用户接受系统的推荐结果，操作较为简单，用户可通过上下滑动翻看不同的短视频。图4为本公开实施例中所列举的一种双列点击形态的展示页面示意图，该类型的展示页面中，用户有更多的选择权，可以根据封面点击喜欢的视频。

在本公开实施例中，目标类型是指根据与目标账户的关联度从所有类型中选择的一种页面类型，一般情况下，可将用户消费时长较高的那种页面类型作为目标类型，用户消费时长越高，该类型与用户的关联度越高。而待推荐类型是需要推荐给目标账户的展示页面的类型。以短视频领域出现的单列和双列同时出现的多源产品形态场景为例，本公开实施例中将用户消费时长多的称之为主源，消费时长相对少的称之为从源，因此目标类型也就是主源形态，待推荐类型指需要推荐给用户的任意一种从源形态。

在步骤S22中，根据第一推荐参数以及第二推荐参数，将预先获得的目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数进行调整，获取目标筛选参数；

在步骤S23中，基于目标筛选参数筛选出推荐给目标账户的多媒体资源，并生成包含筛选出的多媒体资源的待推荐类型的展示页面。

具体的，基于目标筛选参数筛选可以推荐给目标账户的多媒体资源时有很多种方式，例如根据各个多媒体资源对应的目标筛选参数的大小，对各个多媒体资源进行排序，将M个多媒体资源中目标筛选参数最高的前N个多媒体资源作为筛选出的多媒体资源，向目标账户进行推荐，其中M和N都为正整数，M大于N。或者，将目标筛选参数大于预设推荐阈值的多媒体资源作为筛选出的多媒体资源，而目标筛选参数小于预设推荐阈值的多媒体资源则不再向目标账户进行推荐，等等。

若待推荐类型为双列点击形态时，还可进一步按照各个筛选出的多媒体资源对应的目标筛选参数的大小排序，确定各个筛选出的多媒体资源在双列点击形态的展示页面中的展示位置，基于确定出的展示位置生成包含筛选出的多媒体资源的待推荐类型的展示页面，比如目标筛选参数越大，在展示页面中的展示位置越靠前等。

若待推荐类型为单列上下滑形态时，也可进一步按照各个筛选出的多媒体资源对应的目标筛选参数的大小排序，确定各个筛选出的多媒体资源的展示顺序，基于确定出的展示顺序生成包含筛选出的多媒体资源的待推荐类型的展示页面，比如目标筛选参数越大，展示顺序越靠前。

在上述实施方式中，基于目标账户对不同类型的展示页面中多媒体资源执行的预设操作，来分析得到不同类型对应的推荐参数，能自适应用户在不同类型间行为的变化，有效的解决用户兴趣丢失问题。并且，在预估多媒体资源的目标筛选参数时，基于推荐参数将预估得到的目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数进行调整，充分考虑到了用户在不同类型的展示页面下的行为，获取到的目标筛选参数更加精确，因而基于该目标筛选参数得到的推荐结果更加准确。

本公开实施例为了方便介绍，下文以两种形态(两源)的场景作为介绍。需要说明的是，虽然下文重点介绍的是两源场景，但是多源场景可同样适配。本公开实施例中的资源推荐方式是针对从源提出的一种基于深度门集成的联合训练方法。

在一种可选的实施方式中，根据下列方式获取第一筛选参数：

根据目标账户对不同类型的展示页面中多媒体资源的行为信息，以及多媒体资源的属性信息，提取目标账户的多媒体公共信息；基于多媒体公共信息，获取目标账户对多媒体资源执行预设操作时对应的第一筛选参数。

具体的，提取目标账户的多媒体公共信息时，可从用户特征、视频特征及组合特征考虑，基于此多媒体公共信息包括但不限于下列几部分：

目标账户的公共特征信息，多媒体资源的公共属性信息，目标账户与多媒体资源之间的公共组合特征信息。

其中，目标账户的公共特征信息包括：UserId、用户近期有效播放历史视频Id特征、离线挖掘的用户兴趣特征、用户基本属性特征如性别年龄、本次请求的IP(InternetProtocol，网络之间的互连协议)、时间特征等、用户所在城市等特征。

其中，UserId指目标账户的Id(Identity，标识)；用户近期有效播放的历史视频Id是在不区分展示页面类型的前提下确定的，也就是说，只要用户近期有效播放了某一历史视频A，无论该历史视频是通过目标类型的展示页面呈现给用户，还是以待推荐类型的展示页面呈现给用户，都属于用户近期有效播放的历史视频，相应地，用户近期有效播放历史视频Id特征包括历史视频A的Id。

离线挖掘的用户兴趣特征是指根据一段时间内用户观看历史视频的行为等分析得到的用户的兴趣偏好，例如用户更喜欢的视频类型为游戏类型，更喜欢看视频的时间为晚上9点之后等。

其中，多媒体资源的公共属性信息包括：PhotoId、视频Tag(标签)、视频计数特征、视频EmpiricalXtr特征等。

具体的，PhotoId是指视频的Id；视频Tag指视频的标签，比如游戏、教育、搞笑、新闻等；视频计数特征是指用户有效播放视频的次数，不区分展示页面的类型，指用户在各个类型中有效播放视频的次数之和，也就是用户在整个APP(Application，应用程序)中有效播放视频的次数；视频EmpiricalXtr特征是指用户播放视频的有效播放率，即用户在整个APP中有效播放视频的播放率。

当预设操作为点赞时，视频计数特征是指用户点赞视频的次数；当预设操作为点击时，视频计数特征是指用户点击视频的次数等。同理，视频EmpiricalXtr特征也是类似的道理。

在本公开实施例中，多媒体资源与目标账户之间的公共组合特征信息包括：该用户近期观看候选视频Tag的表现、UserId组合候选视频Tag、基于Tag的负反馈特征等。

其中，候选视频是指本次要预测目标筛选参数的多媒体资源。用户近期观看候选视频Tag的表现，指用户近期观看与候选视频同类型的视频的表现；UserId组合候选视频Tag，即将UserId与候选视频Tag组合得到的特征；基于Tag的负反馈特征，指用户近期观看与候选视频同类型的视频时的负反馈特征，可基于用户历史行为分析得到。

上述列举的这些特征都是以多媒体资源为短视频为例进行详细介绍的。当多媒体资源不是短视频时，也是类似的道理，具体可分为目标账户侧、多媒体资源侧，以及目标账户与多媒体资源之间的组合这几部分特征，下文中在介绍多媒体特有信息时也是同理。

在上述实施方式中，根据主源数据以及从源数据获取到的多媒体公共信息，不仅表示了用户和视频在主源形态下的特征，还表示在从源形态下的特征，保证了数据的完整性。

在一种可选的实施方式中，根据下列方式获取第二筛选参数：

根据目标账户对待推荐类型的展示页面中多媒体资源的行为信息，以及多媒体资源的属性信息，提取目标账户的多媒体特有信息；基于多媒体公共信息和多媒体特有信息，获取目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数。

同多媒体公共信息类似，多媒体特有信息也可分为以下三个部分：

目标账户的特有特征信息，多媒体资源的特有属性信息，以及目标账户与多媒体资源之间的特有组合特征信息。

其中，目标账户的特有特征信息也可包括：UserId、用户近期有效播放历史视频Id特征、离线挖掘的用户兴趣特征、用户基本属性特征如性别年龄、本次请求的IP、时间特征等、用户所在城市等特征。

与目标账户的公共特征信息相比，用户近期有效播放历史视频Id特征是指用户近期在待推荐类型的展示页面中有效播放的历史视频的Id，比如待推荐类型为双列点击形态，用户近期正在双列点击形态的展示页面中有效播放了历史视频B，此时用户近期有效播放历史视频Id特征包括历史视频B的Id。同理，其它特征也是类似的道理，都是基于用户对待推荐类型的展示页面中多媒体资源的行为信息、多媒体资源的属性信息等提取到的。

需要说明的是，在本公开实施例中，这些特征的表示特征一般包含两部分，一部分是特征域即field，一部分是特征值。

以userId为例，在目标账户的特有特征信息与公共特征信息中的userId、用户年龄等特征的特征值相同，但是特征域不同，比如用户年龄为20时，20是特征值，年龄是特征域，此时只要把公共特征信息和特有特征信息中的特征域设置的不同即可，比如在公共特征信息中特征域为：年龄1，在特有特征信息中特征域为：年龄2。其它特征也可采用类似的表示方式。

同理，多媒体资源的特有属性信息也可包括：PhotoId、视频Tag(标签)、视频计数特征、视频EmpiricalXtr特征等。但是在提取这些特征时所采用的数据与提取多媒体资源的公共属性信息时不同。

其中，PhotoId是指视频的Id；视频Tag指视频的标签，比如游戏、教育、搞笑、新闻等；视频计数特征是指用户在待推荐类型的展示页面中有效播放视频的次数；视频EmpiricalXtr特征是指用户播放视频的有效播放率，同理，该特征是指用户在待推荐类型的展示页面中有效播放视频的播放率。

在本公开实施例中，目标账户与多媒体资源之间的特有组合特征信息包括：该用户近期观看候选视频Tag的表现、UserId组合候选视频Tag、基于Tag的负反馈特征等。

其中，候选视频是指本次要预测目标筛选参数的多媒体资源。用户近期观看候选视频Tag的表现，指用户近期在待推荐类型的展示页面中观看与候选视频同类型的视频的表现；UserId组合候选视频Tag，即将UserId与候选视频Tag组合得到的特征；基于Tag的负反馈特征，指用户近期在待推荐类型的展示页面中观看与候选视频同类型的视频时的负反馈特征，可基于用户历史行为分析得到。

需要说明的是，在本公开实施例中所列举的多媒体公共信息和多媒体特有信息中，可能会存在一些特征值相同的特征，此时即可通过上述方式，将这些特征通过不同的特征域来进行区分，具体区分方式可参见上述实施例，在此不再重复赘述。

在上述实施方式中，通过将网络结构独立、除公共特征共享训练外再增加从源特有特征的方式，实现充分利用所有数据的同时保留源自有行为特性，使得特征Embedding学习的足够充分，网络参数也完全适用于特定源的数据分布，预估值符合相应源的数据分布。

在本公开实施例中，实施步骤S21时，一种可选的实施方式为：

将预设时长内目标账户对各个类型的展示页面中的多媒体资源执行预设操作的行为次数，转换为嵌入特征向量，也就是Embedding特征向量；对嵌入特征向量进行矩阵运算和归一化处理后，得到一个目标特征向量；基于目标特征向量，获取目标类型的第一推荐参数以及待推荐类型的第二推荐参数，其中目标特征向量中各个元素表示各个类型的推荐参数。

以两源场景为例，假设一共有两种类型的展示页面，此时，即可统计预设时长内，用户对目标类型的展示页面中的多媒体资源执行预设操作的行为次数1，以及用户对待推荐类型的展示页面中的多媒体资源执行预设操作的行为次数2，将行为次数1与行为次数2表示为一个2维的Embedding特征向量，进一步的，将该向量经过少量的MLP执行矩阵运算后，经过Softmax进行归一化得到一个表示推荐参数的目标特征向量[w1，w2]，在该目标特征向量中共包含两个元素，w1表示目标类型的第一推荐参数，w2表示待推荐类型的第二推荐参数。

在大于两源的多源场景下，假设一共有三种类型的展示页面，分别为A类型展示页面、B类型展示页面和C类型展示页面。此时，即可统计预设时长内，用户分别对A类型、B类型和C类型的展示页面中的多媒体资源执行预设操作的行为次数1、行为次数2和行为次数3，其中A类型为目标类型，B类型为待推荐类型，此时，将行为次数1、行为次数2与行为次数3表示为一个3维的Embedding特征向量，进一步的，将该向量经过少量的MLP进行矩阵运算后，经过Softmax进行归一化，得到一个表示推荐参数的目标特征向量[w1，w2，w3]，在该目标特征向量中共包含三个元素，w1表示目标类型(类型A)的推荐参数，也就是第一推荐参数，w2表示待推荐类型(类型B)的第二推荐参数，w3表示类型C的推荐参数。

在本公开实施例中，实施步骤S22时，一种可选的实施方式为：

将第一筛选参数与第一推荐参数的乘积，以及第二筛选参数与第二推荐参数的乘积之和，作为目标筛选参数。

假设第一筛选参数用evr_h表示，第二筛选参数用evr_s表示，目标筛选参数用evr_sf表示，则evr_sf＝evr_h*w1+evr_s*w2。其中，evr(EffectiveViewRate)指有效播放率。

在上述方式中，针对新切到从源的用户兴趣丢失问题，本公开实施例通过将多源目标的预估值进行集成，集成的目标筛选参数通过用户执行预设操作的行为次数自行学习得到，且能自适应用户在不同源间行为的变化。

可选的，上述列举的资源推荐方法可基于推荐模型实现，如图5所示，为本公开实施例中的一种推荐模型的结构示意图，其中该推荐模型具体包括三个子模型，分别为：第一推荐子模型、第二推荐子模型和深度门集成子模型。其中，第一推荐子模型是主源网络，第二推荐子模型是从源网络，深度门集成子模型是一个深度神经门控网络。

其中，基于多媒体公共信息获取目标账户对多媒体资源执行预设操作时对应的第一筛选参数时，主要是基于第一推荐子模型得到的，具体过程为：将目标账户的多媒体公共信息输入已训练的推荐模型中的第一推荐子模型，基于已训练的推荐模型中的第一推荐子模型对多媒体公共信息进行特征提取，以得到第一筛选参数。

具体的，第一推荐子模型为一个多层的MLP网络，基于第一推荐子模型进行特征提取时，具体过程如下：

如图5所示，本公开实施例中的第一推荐子模型只用主源的数据进行辅助训练，输入特征为多媒体公共信息，一共包含三部分：UserFeature，PhotoFeature和CombinFeature，这部分特征可称作CommonFeature，CommonFeature在经过一个多层的MLP网络后输出预测目标值evr_h。具体的，将多媒体公共信息经过embedding层后得到一个特征向量(图中未示出embedding层)；将该特征向量经过多层MLP进行多次矩阵运算后，得到第一目标特征向量；对第一目标特征向量进行LR(Logistic Regression，逻辑回归)，即可获得目标账户对多媒体资源执行预设操作时对应的第一筛选参数evr_h。

其中，将经过embedding层后得到的特征向量进行多次矩阵运算时，实质是这个向量和一个矩阵相乘得到下一个向量，一直乘多次后即可得到第一目标特征向量，这里的矩阵是与多层MLP网络对应的。

其中，基于多媒体公共信息和多媒体特有信息获取目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数时，主要是基于第二推荐子模型得到的，具体过程为：

将多媒体公共信息和多媒体特有信息输入已训练的推荐模型中的第二推荐子模型，基于已训练的推荐模型中的第二推荐子模型对多媒体公共信息和多媒体特有信息进行特征提取，以得到第二筛选参数。

同样地，第二推荐子模型也是一个多层的MLP网络，基于第二推荐子模型进行特征提取时，具体过程如下：

如图5所示，第二推荐子模型用从源数据进行训练，输入特征除了主源对应的特征外，还包括自身从源的特征，也就是多媒体特有信息。其中多媒体特有信息一共也包含三部分：UserFeature2，PhotoFeature2和CombinFeature2，这部分特征称作SpecFeature。在本公开实施例中，CommonFeature和SpecFeature在经过多层MLP后输出evr_s。具体的，首先也是先经过embedding层后，将多媒体特有信息以及多媒体公共信息转换为一个特征向量；将该特征向量进行多次矩阵运算后得到的第二目标特征向量；对第二目标特征向量进行LR，获得目标账户在待推荐类型的展示页面中对多媒体资源执行预设操作时对应的第二筛选参数evr_s。

可选的，在获取第一推荐参数以及第二推荐参数时，主要是基于已训练的推荐模型中的深度门集成子模型得到的，基于深度门集成子模型对预设时长内目标账户对各个类型展示页面中的已推荐多媒体资源执行预设操作的行为次数进行特征提取，以得到第一推荐参数以及第二推荐参数；这里的深度门集成子模型可以是一个少量的MLP，如图5所示，中间部分是深度门集成子模型，输入包括EnsembleFeature，指预设时长内目标账户对各个类型展示页面中的已推荐多媒体资源执行预设操作的行为次数，也就是用户在主源和从源的行为个数比等特征，在经过少量的MLP后Softmax得到第一推荐参数w1和第二推荐参数w2。其中，基于深度门集成子模型获取w1以及w2后，即可通过图5所示的推荐模型中的输出层，将第一筛选参数evr_h和第二筛选参数evr_s根据第一推荐参数w1以及第二推荐参数w2进行加权处理，以得到目标筛选参数evr_sf，这里w1和w2实际上表示权重。

在推荐模型的训练过程中，实际上需要对初始的推荐模型中的模型参数进行多轮调整，其中初始的推荐模型中的模型参数是预先设定的，每轮调整都执行下列过程：

根据初始的推荐模型中的第一推荐子模型预测得到的样本账户对样本多媒体资源执行预设操作时对应的第一预估筛选参数，调整第一推荐子模型；以及，根据初始的推荐模型中的第二推荐子模型预测得到的，样本账户在待推荐类型的展示页面对样本多媒体资源执行预设操作时对应的第二预估筛选参数，调整第二推荐子模型；根据初始的推荐模型中的深度门集成子模型预测得到的目标类型的第一预估推荐参数以及待推荐类型的第二预估推荐参数，以及第一预估筛选参数和第二预估筛选参数，调整深度门集成子模型。

也就是说，每一轮调整过程中，都需要分别调整三个子模型，其中第一推荐子模型和第二推荐子模型的调整过程相互独立，图5中的虚线表示只前向传播不回传，因此evr_h和evr_s各自独立学习，evr_sf对应的Loss(损失函数)只负责学习源间预测结果的集成，也就是加权的过程。

在本公开实施例中，第一推荐子模型和第二推荐子模型独立更新。具体的，调整第一推荐子模型时，主要是将第一预估筛选参数与根据样本账户对不同类型展示页面中样本多媒体资源的行为信息确定的第一真实筛选参数进行对比，基于比对结果调整初始的推荐模型中的第一推荐子模型中的模型参数；调整第二推荐子模型时也是类似的，将第二预估筛选参数与根据样本账户对在待推荐类型的展示页面中样本多媒体资源的行为信息确定的第二真实筛选参数进行对比，基于比对结果调整初始的推荐模型中的第二推荐子模型中的模型参数。

其中，第一真实筛选参数或第二筛选参数可用0或1进行表示。若样本账户对样本多媒体资源进行了有效播放(不区分展示页面的类型)，则第一真实筛选参数为1，反之，第一真实筛选参数为0。若样本账户对待推荐类型的展示页面中的样本多媒体资源进行了有效播放，则第二真实筛选参数为1，反之为0。

而第一推荐子模型输出的第一预估筛选参数(同上述列举的推荐模型的使用过程类似，也可用evr_h表示)，第二推荐子模型输出的第二预估筛选参数(同上述列举的推荐模型的使用过程类似，也可用evr_s表示)，都是0～1之间的一个筛选参数。

在训练过程中，输入第一推荐子模型的多媒体公共信息是依据样本账户对不同类型的展示页面中样本多媒体资源的行为信息，以及样本多媒体资源的属性信息提取到的。输入第二推荐子模型的多媒体特有信息也是依据样本账户对待推荐类型的展示页面中样本多媒体资源的行为信息，以及样本多媒体资源的属性信息提取到的，具体提取方式同上述列举的提取目标账户的多媒体资源公共信息、多媒体资源特有信息的过程相同，在此不再重复限定。

可选的，根据初始的推荐模型中的深度门集成子模型预测得到的目标类型的第一预估推荐参数以及待推荐类型的第二预估推荐参数，以及第一预估筛选参数和第二预估筛选参数，调整深度门集成子模型时，具体过程为：

将基于第一预估推荐参数以及第二预估推荐参数，对第一预估筛选参数以及第二预估筛选参数进行加权处理得到的预估参数，与根据样本账户对待推荐类型的展示页面中样本多媒体资源的行为信息确定的真实筛选参数进行对比，基于比对结果调整深度门集成子模型中的模型参数。

需要说明的是，将基于第一预估推荐参数以及第二预估推荐参数，对第一预估筛选参数以及第二预估筛选参数进行加权处理得到的预估参数时，具体方式为将第一预估推荐参数与第一预估筛选参数的乘积，以及第二预估推荐参数与第二预估筛选参数的乘积之和，作为最终预测得到的预估推荐参数，表示将样本多媒体资源在待推荐类型的展示页面中推荐给样本账户时，样本账户会有效播放这一样本多媒体资源的概率。其中，根据样本账户对待推荐类型的展示页面中样本多媒体资源的行为信息确定真实筛选参数时，若样本账户对待推荐类型的展示页面中的样本多媒体资源进行了有效播放，则该真实筛选参数为1，反之，该真实筛选参数为0。

在上述实施例中，利用主源辅助训练从源的推荐模型。通过将网络结构独立、除公共特征共享训练外再增加从源特有特征的方式，实现充分利用所有数据的同时保留源自有行为特性，使得特征Embedding学习的足够充分，网络参数也完全适用于特定源的数据分布，预估得到的筛选参数符合相应源的数据分布。

并且，通过深度门集成子模型对将多源目标的预估值进行集成，集成的参数通过模型自行学习得到，且能自适应用户在不同源间行为的变化。对于刚切到从源形态的用户，深度门集成子模型能保证w1占比大于w2，而随着用户在从源形态下行为的增多，w1会随之减小，w2随之增大，从而达到用户兴趣的无缝连接，很好的实现了多源间用户兴趣的迁移。

在本公开实施例中，推荐模型可以不断的实时更新，也可在更新次数达到上限后停止更新。其中，在推荐模型实时训练过程中，通过实时接收Kafka训练日志，实时抽取特征，基于PS训练工具实时训练推荐模型，并定期将全量模型同步至线上。具体的，推荐模型的同步部分包含两部分，一分部为网络参数，另一部分为特征的Embedding。其中特征Embedding占模型的大部分，网络参数相比特征Embedding小很多。因此两者同步策略也不同，对于网络参数可以每隔几分钟同步一次全量，对于特征Embedding需要每个几小时同步一次全量。其中，同步一次全量只是将推荐模型中的所有参数都进行更新。

在本公开实施例中，将推荐模型同步到线上之后，即可对推荐模型进行线上预估，具体的，线上预估服务接收模型数据，并对推荐服务的请求进行线上预估。由于特征Embedding可能非常大，因此可以将线上预估服务拆成两个服务，一个用来存特征Embedding和查找Embedding，另一个用于做网络结构的推断，在本公开实施例中，将线上预估服务拆分后亦可提高机器利用率，提升服务性能。

此外，需要说明的是，图5所列举的只是本公开实施例中提供的一种可选的推荐模型的结构示意图，当在多源场景下时，其实还可以增加推荐子模型和深度门集成子模型，图5中的第一推荐子模型和第二推荐子模型的结构相同，模型的参数不同，比如在三源场景下时，对应有三种类型的展示页面，此时还可增加一个第三推荐子模型，以及一个深度门集成子模型。此时，推荐模型中的两个深度门集成子模型结构相同，输出的是三种类型对应的推荐参数，假设分别为w1、w2和w3。其中，第一推荐子模型(主源网络)预测得到的是目标账户对多媒体资源执行预设操作时对应的第一筛选参数evr_h，第二推荐子模型(从源1网络)预测得到的是目标账户对第一种待推荐类型的展示页面中的多媒体资源执行预设操作时对应的第二筛选参数evr_s1；第三推荐子模型(从源2网络)预测得到的是目标账户对第二种待推荐类型的展示页面中的多媒体资源执行预设操作的第三筛选参数evr_s2。

此时，推荐模型可以输出两个目标筛选参数，分别为evr_sf1和evr_sf2。其中evr_sf1＝evr_h*w1+evr_s1*w2，表示将多媒体资源通过第一种待推荐类型的展示页面展示时对应的目标筛选参数；evr_sf2＝evr_h*w1+evr_s2*w3，表示将多媒体资源通过第二种待推荐类型的展示页面展示时对应的目标筛选参数。

需要说明的是，本公开实施例中所列举的推荐模型的结构也只是举例说明，实际上除了图5所示的结构外，推荐模型中的子模型也可以是其他的DNN(Deep NeuralNetworks，深度神经网络)模型，在此不做具体限定。

下面结合图6，对本公开实施例中的推荐模型训练的整体流程进行详细介绍，整体流程可分为以下几部分，包括：训练日志的拼接、特征的选择与抽取、模型实时训练。

参阅图6所示，其为根据一示例性实施例示出的一种推荐模型的训练方法流程图，具体包括以下步骤：

一、训练日志的拼接部分，包括S61和S62：

S61：在接收到客户端的请求后，服务端会返回一组相应的样本多媒体资源(例如推荐视频)，同时将该次请求的信息记录到Redis中；

S62：接收客户端在样本账户产生相应的行为时上报的行为信息，对Label进行拼接，生成带有Label的推荐结果日志；

在本公开实施例中，服务端在接收到客户端的请求后，服务端会返回一组相应的推荐视频，同时服务端还会将该次请求的信息记录到Redis中，记录的信息包括本次请求唯一的标识ID(LLSID)、用户信息UserInfo、推荐的视频序列信息即RecoPhotoList、本次请求的上下文信息ContextInfo。将唯一标识的ID作为Redis的Key，UserInfo、RecoPhotoList、ContextInfo作为Redis的Value。客户端收到推荐服务返回的结果后会对推荐视频进行消费，产生相应的行为Label，比如正反馈行为包括点击、播放时长、点赞、关注、转发等，负反馈行为包括Hate(不喜欢)、短播、举报等。客户端在用户产生相应的行为时将用户行为上报到服务端，服务端对Label进行拼接，即从Redis中查找同LLSID的推荐返回结果，并对每个推荐视频打上相应的Label。服务端在拼接好Label后，得到带有Label的推荐结果日志打入Kafka中，供下游训练模型消费。

二、特征的选择与抽取，包括S63：

S63：基于带有Label的推荐结果日志提取样本账户的多媒体公共信息和多媒体私有信息；

其中，样本账户的多媒体公共信息和多媒体私有信息都可从用户特征、视频特征及组合特征考虑。具体的，样本账户的多媒体公共信息包括：样本账户的公共特征信息，样本多媒体资源的公共属性信息，样本账户与样本多媒体资源之间的公共组合特征信息；样本账户的多媒体特有信息包括：样本账户的特有特征信息，样本多媒体资源的特有属性信息，样本账户与样本多媒体资源之间的特有组合特征信息。

三、模型实时训练部分，包括S64～S611：

S64：将样本账户的多媒体公共信息和多媒体私有信息输入初始的推荐模型，获取第一推荐子模型预测得到的，样本账户对样本多媒体资源执行预设操作时对应的第一预估筛选参数；

S65：根据初始的推荐模型中的第一推荐子模型预测得到的，样本账户对样本多媒体资源执行预设操作时对应的第一预估筛选参数，调整第一推荐子模型；

S66：获取第二推荐子模型预测得到的，样本账户在待推荐类型的展示页面对样本多媒体资源执行预设操作时对应的第二预估筛选参数；

S67：根据初始的推荐模型中的第二推荐子模型预测得到的，样本账户在待推荐类型的展示页面对样本多媒体资源执行预设操作时对应的第二预估筛选参数，调整第二推荐子模型；

S68：获取深度门集成子模型预测得到的待推荐类型以及目标类型的预估推荐参数；

S69：根据初始的推荐模型中的深度门集成子模型预测得到的待推荐类型以及目标类型的预估推荐参数，以及第一预估筛选参数和第二预估筛选参数，调整深度门集成子模型；

S610：判断调整次数是否达到上限，如果是，则执行步骤S611；否则，返回步骤S64；

S611：获得已训练的推荐模型，将已训练的推荐模型同步至线上，对推荐服务的请求进行线上预估。

其中，模型训练过程可采用分批训练的方式，每次都采用一小批样本数据对模型进行更新。

图7是根据一示例性实施例示出的一种资源推荐的完整方法流程图，具体包括以下步骤：

S71：根据目标账户对不同类型的展示页面中多媒体资源的行为信息，以及多媒体资源的属性信息，提取目标账户的多媒体公共信息；

S72：根据目标账户对待推荐类型的展示页面中多媒体资源的行为信息，以及多媒体资源的属性信息，提取目标账户的多媒体特有信息；

S73：基于多媒体公共信息，获取目标账户对多媒体资源执行预设操作时对应的第一筛选参数；

S74：基于多媒体公共信息和多媒体特有信息，获取目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数；

S75：基于目标账户对目标类型的展示页面以及待推荐类型的展示页面中多媒体资源的预设操作，确定目标类型的第一推荐参数以及待推荐类型的第二推荐参数；

S76：基于第一推荐参数以及第二推荐参数，将目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数进行调整，获取目标筛选参数；

S77：基于目标筛选参数筛选出推荐给目标账户的多媒体资源，并生成包含筛选出的多媒体资源的待推荐类型的展示页面。

基于相同的发明构思，本公开实施例还提供一种资源推荐装置。如图8所示，图8是根据一示例性实施例示出的一种资源推荐装置800框图。参照图8，该装置包括确定单元801，集成单元802和推荐单元803。

确定单元801，被配置为执行基于目标账户对目标类型的展示页面以及待推荐类型的展示页面中多媒体资源的预设操作，确定目标类型的第一推荐参数以及待推荐类型的第二推荐参数，其中目标类型是根据与目标账户关联度从所有类型中选择的，待推荐类型是需要推荐给目标账户的展示页面的类型；

集成单元802，被配置为执行基于第一推荐参数以及第二推荐参数，将预先获得的目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数进行调整，获取目标筛选参数；

推荐单元803，被配置为执行基于目标筛选参数筛选出推荐给目标账户的多媒体资源，并生成包含筛选出的多媒体资源的待推荐类型的展示页面。

可选的，装置还包括：

预估单元804，被配置为执行在集成单元802基于第一推荐参数以及第二推荐参数，将预先获得的目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数进行调整，获取目标筛选参数之前，根据目标账户对不同类型的展示页面中多媒体资源的行为信息，以及多媒体资源的属性信息，提取目标账户的多媒体公共信息；

基于多媒体公共信息，获取目标账户对多媒体资源执行预设操作时对应的第一筛选参数。

可选的，预估单元804还用于：

在集成单元802基于第一推荐参数以及第二推荐参数，将预先获得的目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数进行调整，获取目标筛选参数之前，根据目标账户对待推荐类型的展示页面中多媒体资源的行为信息，以及多媒体资源的属性信息，提取目标账户的多媒体特有信息；

基于多媒体公共信息和多媒体特有信息，获取目标账户在待推荐类型的展示页面对多媒体资源执行预设操作时对应的第二筛选参数。

可选的，确定单元801具有被配置为执行：

将预设时长内目标账户对各个类型的展示页面中多媒体资源执行预设操作的行为次数，转换为嵌入特征向量；

对嵌入特征向量进行矩阵运算和归一化处理，得到目标特征向量；

基于目标特征向量，获取目标类型的第一推荐参数以及待推荐类型的第二推荐参数，其中目标特征向量中各个元素表示各个类型的推荐参数。

可选的，集成单元802具体被配置为执行：

可选的，预估单元804具体被配置为执行：

基于已训练的推荐模型中的第一推荐子模型对多媒体公共信息进行特征提取，以得到第一筛选参数。

可选的，预估单元804具体被配置为执行：

基于已训练的推荐模型中的第二推荐子模型对多媒体公共信息和多媒体特有信息进行特征提取，以得到第二筛选参数。

可选的，集成单元802具体被配置为执行：

基于已训练的推荐模型中的深度门集成子模型，对预设时长内目标账户对各个类型展示页面中的已推荐多媒体资源执行预设操作的行为次数进行特征提取，以得到推荐参数。

可选的，集成单元802具体被配置为执行：

基于已训练的推荐模型中的输出层，将第一筛选参数和第二筛选参数根据第一推荐参数以及第二推荐参数进行加权处理，以得到目标筛选参数。

可选的，装置还包括：

训练单元805，被配置为执行对初始的推荐模型中的模型参数进行多轮调整，其中初始的推荐模型中的模型参数是预先设定的，每轮调整都执行下列过程：

根据初始的推荐模型中的第一推荐子模型预测得到的，样本账户对样本多媒体资源执行预设操作时对应的第一预估筛选参数，调整第一推荐子模型；以及

根据初始的推荐模型中的第二推荐子模型预测得到的，样本账户在待推荐类型的展示页面对样本多媒体资源执行预设操作时对应的第二预估筛选参数，调整第二推荐子模型；

根据初始的推荐模型中的深度门集成子模型预测得到的目标类型的第一预估推荐参数以及待推荐类型的第二预估推荐参数，以及第一预估筛选参数和第二预估筛选参数，调整深度门集成子模型。

可选的，训练单元805具体被配置为执行：

关于上述实施例中的装置，其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种电子设备900的框图，该装置包括：

处理器901；

用于存储处理器901可执行指令的存储器902；

其中，处理器901被配置为执行指令，以实现本公开实施例中的资源推荐方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器902，上述指令可由电子设备900的处理器901执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包括终端设备，其结构如图10所示，本公开实施例给出一种用于资源推荐的终端设备210，包括：射频(Radio Frequency，RF)电路1010、电源1020、处理器1030、存储器1040、输入单元1050、显示单元1060、摄像头1070、通信接口1080、以及无线保真(Wireless Fidelity，Wi-Fi)模块1090等部件。本领域技术人员可以理解，图10中示出的终端的结构并不构成对终端的限定，本公开实施例提供的终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对终端设备210的各个构成部件进行具体的介绍：

RF电路1010可用于通信或通话过程中，数据的接收和发送。特别地，RF电路1010在接收到基站的下行数据后，发送给处理器1030处理；另外，将待发送的上行数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。

此外，RF电路1010还可以通过无线通信与网络和其他终端通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobilecommunication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

Wi-Fi技术属于短距离无线传输技术，终端设备210通过Wi-Fi模块1090可以连接接入点(Access Point，AP)，从而实现数据网络的访问。Wi-Fi模块1090可用于通信过程中，数据的接收和发送。

终端设备210可以通过通信接口1080与其他终端实现物理连接。可选的，通信接口1080与其他终端的通信接口通过电缆连接，实现终端设备210和其他终端之间的数据传输。

由于在本公开实施例中，终端设备210能够实现通信业务，向其他联系人发送信息，因此终端设备210需要具有数据传输功能，即终端设备210内部需要包含通信模块。虽然图10示出了RF电路1010、Wi-Fi模块1090、和通信接口1080等通信模块，但是可以理解的是，终端设备210中存在上述部件中的至少一个或者其他用于实现通信的通信模块(如蓝牙模块)，以进行数据传输。

例如，当终端设备210为手机时，终端设备210可以包含RF电路1010，还可以包含Wi-Fi模块1090；当终端设备210为计算机时，终端设备210可以包含通信接口1080，还可以包含Wi-Fi模块1090；当终端设备210为平板电脑时，终端设备210可以包含Wi-Fi模块。

存储器1040可用于存储软件程序以及模块。处理器1030通过运行存储在存储器1040的软件程序以及模块，从而执行终端设备210的各种功能应用以及数据处理，并且当处理器1030执行存储器1040中的程序代码后，可以实现本公开实施例图3中的部分或全部过程。

可选的，存储器1040可以主要包括存储程序区和存储数据区。其中，存储程序区可存储操作系统、各种应用程序(比如通信应用)以及人脸识别模块等；存储数据区可存储根据终端的使用所创建的数据(比如各种图片、视频文件等多媒体文件，以及人脸信息模板)等。

此外，存储器1040可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1050可用于接收对象输入的数字或字符信息，以及产生与终端设备210的对象设置以及功能控制有关的键信号输入。

可选的，输入单元1050可包括触控面板1051以及其他输入终端1052。

其中，触控面板1051，也称为触摸屏，可收集对象在其上或附近的触摸操作(比如对象使用手指、触笔等任何适合的物体或附件在触控面板1051上或在触控面板1051附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1051可以包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测对象的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1030，并能接收处理器1030发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1051。

可选的，其他输入终端1052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1060可用于显示由对象输入的信息或提供给对象的信息以及终端设备210的各种菜单。显示单元1060即为终端设备210的显示系统，用于呈现界面，实现人机交互。

显示单元1060可以包括显示面板1061。可选的，显示面板1061可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

进一步的，触控面板1051可覆盖显示面板1061，当触控面板1051检测到在其上或附近的触摸操作后，传送给处理器1030以确定触摸事件的类型，随后处理器1030根据触摸事件的类型在显示面板1061上提供相应的视觉输出。

虽然在图10中，触控面板1051与显示面板1061是作为两个独立的部件来实现终端设备210的输入和输入功能，但是在某些实施例中，可以将触控面板1051与显示面板1061集成而实现终端设备210的输入和输出功能。

处理器1030是终端设备210的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器1040内的软件程序和/或模块，以及调用存储在存储器1040内的数据，执行终端设备210的各种功能和处理数据，从而实现基于终端的多种业务。

可选的，处理器1030可包括一个或多个处理单元。可选的，处理器1030可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、对象界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1030中。

摄像头1070，用于实现终端设备210的拍摄功能，拍摄图片或视频。摄像头1070还可以用于实现终端设备210的扫描功能，对扫描对象(二维码/条形码)进行扫描。

终端设备210还包括用于给各个部件供电的电源1020(比如电池)。可选的，电源1020可以通过电源管理系统与处理器1030逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

需要说明的是，本公开实施例处理器1030可以执行图9中处理器901的功能，存储器1040存储存储器902中的内容。

本公开实施例还提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述任意一项资源推荐方法或任意一项资源推荐方法任一可能涉及的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由上面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种资源推荐方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述第一筛选参数是根据如下方式获得的：

3.如权利要求2所述的方法，其特征在于，所述第二筛选参数是根据如下方式获得的：

4.如权利要求1所述的方法，其特征在于，所述基于目标账户对目标类型的展示页面以及待推荐类型的展示页面中多媒体资源的预设操作，确定所述目标类型的第一推荐参数以及所述待推荐类型的第二推荐参数，包括：

5.权利要求1所述的方法，其特征在于，所述根据所述第一推荐参数以及所述第二推荐参数，将预先获得的所述目标账户对多媒体资源执行预设操作时对应的第一筛选参数，以及所述目标账户在所述待推荐类型的展示页面对所述多媒体资源执行所述预设操作时对应的第二筛选参数进行调整，获取目标筛选参数，包括：

6.如权利要求3所述的方法，其特征在于，所述基于所述多媒体公共信息，获取所述目标账户对多媒体资源执行预设操作时对应的第一筛选参数，包括：

7.如权利要求6所述的方法，其特征在于，所述基于所述多媒体公共信息和所述多媒体特有信息，获取所述目标账户在所述待推荐类型的展示页面对所述多媒体资源执行所述预设操作时对应的第二筛选参数，包括：

8.一种资源推荐装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至权利要求7中任一项所述的资源推荐方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求7中任一项所述的资源推荐方法。