CN115129975A

CN115129975A - 推荐模型训练方法、推荐方法、装置、设备及存储介质

Info

Publication number: CN115129975A
Application number: CN202210522405.6A
Authority: CN
Inventors: 李聪; 于海斌; 全世杰; 罗飞恒
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-09-30
Anticipated expiration: 2042-05-13
Also published as: CN115129975B

Abstract

本申请涉及智能推荐技术领域，尤其涉及推荐模型训练方法、推荐方法、装置、电子设备及存储介质，可应用于云技术、人工智能、智慧交通、车联网等各种场景，用以快捷准确地向对象推荐多媒体信息。该方法包括：基于参考模型，获得表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集，并至少基于交叉特征集，确定样本对象选择样本多媒体信息的第一预估概率；基于待训练的推荐模型，获得样本对象和样本多媒体信息各自的综合特征，确定样本对象选择样本多媒体信息的第二预估概率；基于第一预估概率、第二预估概率和相应的样本概率，确定相应的训练损失，并对待训练的推荐模型进行模型参数调整，实现快捷准确地向对象推荐多媒体信息的目的。

Description

推荐模型训练方法、推荐方法、装置、设备及存储介质

技术领域

本申请涉及智能推荐技术领域，尤其涉及推荐模型训练方法、推荐方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展，互联网能够为对象提供越来越多的网络服务，例如：对象可以通过互联网浏览多媒体信息，其中，多媒体信息可以为图片、电视剧、广告、音乐、电子书等等。在互联网平台中，对象可以通过搜索功能搜索感兴趣(喜好)的多媒体信息，同时，为了方便对象获取感兴趣的多媒体信息，互联网平台还可以基于推荐系统等，主动向对象推荐对象可能感兴趣的多媒体信息，推荐系统应运而生。

其中，基于推荐系统向对象推荐对象可能感兴趣的多媒体信息时，通常是基于推荐系统中预先训练完毕的推荐模型进行的。例如，可以基于推荐模型确定对象特征与多媒体信息特征之间的相似度，进而向对象推荐对象可能感兴趣的多媒体信息。

然而基于相关技术中的推荐模型向对象推荐多媒体信息时，通常只能实现模糊推荐，推荐的准确性较低。例如，以需要向一个年龄60岁以上的对象推荐电视剧为例，相关技术中的推荐模型可能会将该对象并不喜好的当代都市题材的电视剧推荐给该对象，而该对象实际上可能更喜好上世纪(二十世纪)七八十年代农村题材的电视剧等。

因此，如何快捷准确地向对象推荐多媒体信息是目前亟需解决的一个技术问题。

发明内容

本申请实施例提供一种推荐模型训练方法、推荐方法、装置、电子设备及存储介质，用以快捷准确地向对象推荐多媒体信息。

第一方面，本申请实施例提供了一种推荐模型训练方法，包括：

获得样本数据集合，每个样本数据包含：样本对象、样本多媒体信息以及所述样本对象选择所述样本多媒体信息的样本概率；

基于样本数据集合，对待训练的推荐模型进行至少一轮迭代训练，输出相应的目标推荐模型；其中，在每轮迭代过程中，至少执行以下步骤：

基于参考模型，对提取的样本数据进行特征分析，获得表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集，并至少基于所述交叉特征集，确定所述样本对象选择所述样本多媒体信息的第一预估概率；

基于所述待训练的推荐模型，对提取的样本数据进行特征分析，获得所述样本对象和样本多媒体信息各自的综合特征，并基于获得的各综合特征，确定所述样本对象选择所述样本多媒体信息的第二预估概率；其中，所述参考模型从M个特征维度获得所述交叉特征集，所述推荐模型从N个特征维度获得各综合特征，M>N；

基于所述第一预估概率、所述第二预估概率和相应的样本概率，确定相应的训练损失，并对所述待训练的推荐模型进行模型参数调整。

第二方面，本申请实施例提供了一种推荐方法，所述方法包括：

响应于推荐请求，获取相应的目标对象及候选多媒体信息集合，将所述目标对象及提取的候选多媒体信息输入至基于上述任一所述的方法训练得到的目标推荐模型中；

基于所述目标推荐模型，确定所述目标对象选择所述提取的候选多媒体信息的预估概率；

基于所述预估概率，从所述候选多媒体信息集合中，选取向所述目标对象推荐的目标多媒体信息。

第三方面，本申请实施例提供了一种推荐模型训练装置，所述装置包括：

获取模块：用于获得样本数据集合，每个样本数据包含：样本对象、样本多媒体信息以及所述样本对象选择所述样本多媒体信息的样本概率；

处理模块：用于基于样本数据集合，对待训练的推荐模型进行至少一轮迭代训练，输出相应的目标推荐模型；其中，在每轮迭代过程中，至少执行以下步骤：

可选的，所述处理模块具体用于：

基于所述参考模型，对所述提取的样本数据进行特征提取，获得相应的样本对象的各对象子特征，以及获得相应的样本多媒体信息的各信息子特征；其中，每个对象子特征表征所述样本对象的一种状态属性，每个信息子特征表征所述样本多媒体信息的一种类别属性；

基于所述参考模型，分别将获得的各对象子特征与获得的各信息子特征进行两两组合，获得所述交叉特征集。

可选的，所述提取的样本数据还包括：参考预估概率；所述参考预估概率为预设的所述样本对象选择所述样本多媒体信息的预估概率；

所述处理模块具体用于：

基于所述参考模型，获取所述交叉特征集中每个交叉特征各自对应的第一预设权重；

至少基于各交叉特征及其相应的第一预设权重，确定所述样本对象选择所述样本多媒体信息的初始预估概率；

基于所述初始预估概率、所述参考预估概率和相应的第二预设权重，确定所述样本对象选择所述样本多媒体信息的第一预估概率。

可选的，所述装置还包括：

参考预估概率确定模块：用于所述推荐模型为应用于推荐系统中粗排阶段的模型，则基于应用于所述推荐系统中精排阶段的模型，确定所述样本对象选择所述样本多媒体信息的预估概率；将所述预估概率，确定为所述参考预估概率。

可选的，所述处理模块还用于：

基于所述参考模型，针对提取的样本数据，获得所述样本对象和样本多媒体信息各自的综合特征；

所述处理模块具体用于：

将所述交叉特征集中的各交叉特征与获得的各综合特征进行组合，形成一个特征组，基于所述特征组，确定所述样本对象选择所述样本多媒体信息的第一预估概率。

可选的，所述处理模块具体用于：

当所述参考模型为已训练完毕的模型，则基于所述第一预估概率与所述第二预估概率之间的第一损失、以及所述样本概率与所述第二预估概率之间的第二损失，确定所述待训练的推荐模型相应的训练损失；

当所述参考模型为尚未训练完毕的模型，则基于所述第一预估概率与所述第二预估概率之间的第一损失、所述样本概率与所述第二预估概率之间的第二损失、以及所述样本概率与所述第一预估概率之间的第三损失，确定所述待训练的推荐模型相应的训练损失。

可选的，所述处理模块还用于：

基于所述样本概率与所述第一预估概率之间的第三损失，确定所述参考模型相应的训练损失，并对所述参考模型进行模型参数调整。

第四方面，本申请实施例提供了一种推荐装置，所述装置包括：

输入模块：用于响应于推荐请求，获取相应的目标对象及候选多媒体信息集合，将所述目标对象及提取的候选多媒体信息输入至基于上述任一所述的方法训练得到的目标推荐模型中；

确定模块：用于基于所述目标推荐模型，确定所述目标对象选择所述提取的候选多媒体信息的预估概率；

选取模块：用于基于所述预估概率，从所述候选多媒体信息集合中，选取向所述目标对象推荐的目标多媒体信息。

可选的，所述装置还包括：

生成模块：用于获取所述目标对象选择所述目标多媒体信息的实际概率信息；基于所述目标对象、目标多媒体信息以及所述实际概率信息，生成相应的优化样本数据；其中，所述优化样本数据用于作为对所述目标推荐模型进行再次训练时的样本数据。

第五方面，本申请实施例提供了一种电子设备，所述电子设备包括：处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任一项所述方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括程序代码，当所述存储介质在电子设备上运行时，所述程序代码用于使所述电子设备执行上述任一项所述方法的步骤。

第七方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，该计算机指令被处理器执行时实现上述任一项所述方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种推荐模型训练方法、推荐方法、装置、电子设备及存储介质。本申请可以基于参考模型，获得表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集，至少基于交叉特征集，确定样本对象选择样本多媒体信息的第一预估概率；并可以至少基于参考模型确定的第一预估概率，确定待训练的推荐模型相应的训练损失。

由于参考模型确定的第一预估概率是至少基于交叉特征集确定的，而交叉特征集相较于样本对象和样本多媒体信息各自的综合特征的特征维度更广，所以参考模型基于交叉特征集确定的第一预估概率相较于相关技术中只基于样本对象和样本多媒体信息各自的综合特征确定的预估概率，可以更好的靠近真实概率。因而，至少基于第一预估概率，确定待训练的推荐模型相应的训练损失，对待训练的推荐模型进行模型参数调整时，可以将参考模型中学习到的基于交叉特征集确定的较准确的第一预估概率的信息迁移到推荐模型中，可以提高推荐模型确定的预估概率的准确性，提高推荐模型的推荐准确性。

另外，由于不需要改变推荐模型的结构，因此对推荐模型的推荐耗时(效率)没有影响，即可以在保证推荐模型的推荐耗时的基础上，提高推荐模型的推荐准确性，基于此实现快捷准确地向对象推荐多媒体信息的目的。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的一种应用场景的示意图；

图2为本申请实施例提供的一种推荐模型训练方法的实施流程示意图；

图3为本申请实施例提供的一种确定交叉特征集的实施流程示意图；

图4为本申请实施例提供的另一种确定交叉特征集的示意图；

图5为本申请实施例提供的一种基于参考模型确定第一预估概率过程示意图；

图6为本申请实施例提供的另一种基于参考模型确定第一预估概率过程示意图；

图7为本申请实施例提供的一种基于推荐模型确定第二预估概率过程示意图；

图8为本申请实施例提供的一种推荐模型训练过程示意图；

图9为本申请实施例提供的一种推荐系统示意图；

图10为本申请实施例提供的一种推荐模型训练过程示意图；

图11为本申请实施例提供的一种KnoDatt双塔模型和相关技术中双塔模型各自的AUC对比示意图；

图12为本申请实施例提供的一种推荐方法的实施流程示意图；

图13为本申请实施例提供的一种推荐过程示意图；

图14为本申请实施例提供的一种推荐方法的交互实现时序流程示意图；

图15为本申请实施例提供的一种推荐方法的具体场景示意图；

图16为本申请实施例提供的一种推荐模型训练装置的结构示意图；

图17为本申请实施例提供的一种推荐装置的结构示意图；

图18为应用本申请实施例的一种电子设备的一个硬件组成结构示意图；

图19为应用本申请实施例的另一种电子设备的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够在除了这里图示或描述的那些以外的顺序实施。

以下对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)多媒体信息：可以为图片、电视剧、音乐、电子书、广告等。另外，对象可与多媒体信息进行互动，以广告为例，广告可通过网页页面或者应用界面内的广告展示位进行展示，对象可点击广告进入相应页面，并进行相应的操作，如下载应用或者购买下单等。

(2)知识蒸馏(knowledge distillation)：一种可以将丰富的知识信息从相对较复杂模型迁移至相对较简单模型的机器学习方法。

例如，可以通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期这个小模型能达到更好的性能和精度。可以将大模型称之为教师模型(Teacher)，将小模型称之为学生模型(Student)，将来自Teacher模型输出的监督信息称之为知识(knowledge)，而Student模型学习迁移来自Teacher的监督信息的过程就可以称之为蒸馏(distillation)。

(3)注意力(Attension)机制：一种通过使用高级信息来衡量网络中间特征，使得模型关注于可以辅助判断的部分信息，忽略不相关信息。注意力机制的本质来自于人类视觉注意力机制，人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分，而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。因此，注意力机制实质上是从大量信息中筛选出高价值信息的手段，在大量信息中，不同信息对于结果的重要性是不同的，这种重要性可以通过赋予不同大小的权值来体现，换言之，注意力机制可以理解成对多个来源进行合成时分配权重的一种规则。

其中，自注意力机制：是注意力机制的一种变体，其本质原理是与注意力机制是相同的，区别在于，例如注意力机制关注不同图像之间的关联关系，而自注意力机制则更为关注一个图像内的内在联系。

多头自注意力(Multi-headed Self-attention)机制：是进行多组的基于自注意力机制处理过程；然后再将每一组基于自注意力机制处理过程的结果，拼接起来进行一次线性变换得到最终的输出结果。

(4)嵌入(Embedding)：深度学习的任务就是把高维原始数据(如对象、多媒体信息等)映射到低维流形，使得高维的原始数据被映射到低维流形之后变得可分，这个映射就叫嵌入(Embedding)。

例如，Embedding可以用一个低维的向量表示一个物体(如一个词，或是一个商品，或是一个电影等)，这个Embedding向量的性质是能使距离相近的向量对应的物体有相近的含义，比如复仇者联盟的Embedding和钢铁侠的Embedding之间的距离就会很接近，但是复仇者联盟的Embedding和乱世佳人的Embedding的距离就会远一些。除此之外，Embedding还可以具有数学运算的关系，比如马德里的Embedding-西班牙的Embedding+法国的Embedding≈巴黎的Embedding。

(5)点击率(Click-Through-Rate，CTR)：可用于衡量多媒体信息的展示效果，也可以称为点击到达率。以多媒体信息是广告为例，点击率可以是广告实际点击次数除以广告的展现量。

(6)转化率(Conversion Rate，CVR)：衡量多媒体信息展示效果的一个指标。以多媒体信息是广告为例，转化率可以是对象点击广告到成为一个有效激活或者注册甚至付费对象的转化率。

(7)千次展示收益(effective cost per mille，ECPM)：反映多媒体信息盈利能力的参数。以多媒体信息是广告为例，ECPM可以表示每一千次展示所可以获得的广告收入，ECPM可以是只用来反映多媒体信息的盈利能力的参数，不代表实际收入。

(8)Area Under the Curve(AUC)：是衡量推荐模型优劣的一种评价指标。AUC被定义为Receiver Operating Characteristic(ROC)曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y＝x这条直线的上方，AUC的取值范围在0.5和1之间。AUC越接近1.0，推荐模型确定的预估概率的真实性越高；AUC等于0.5时，则真实性最低，无应用价值。

其中，ROC曲线是一个画在二维平面上的曲线，平面的横坐标是false positiverate(FRP)，纵坐标是true positive rate(TPR)。

下面对本申请实施例的设计思想进行简要介绍：

以推荐模型为业界主流的双塔模型为例，相关技术中基于双塔模型向对象推荐多媒体信息时，通常先分别基于双塔模型中的对象特征提取子模型和多媒体信息特征提取子模型，分别提取对象的对象特征以及待推荐多媒体信息的多媒体信息特征，然后再基于该对象特征与该多媒体信息特征之间的相似度，确定是否向该对象推荐该待推荐多媒体。

由于上述推荐模型中对象特征提取子模型和多媒体信息特征提取子模型是两个各自独立的子模型，基于对象特征提取子模型提取的对象特征与基于多媒体信息特征提取子模型提取的多媒体信息特征之间是互不依赖，相互独立的，且提取的对象特征是关于对象的一个综合特征，提取的多媒体信息特征是关于多媒体信息的一个综合特征，基于相互独立的对象的综合特征和多媒体信息的综合特征，向对象推荐多媒体信息时，虽然可以大大缩减推荐耗时，提高推荐效率，然而如果只基于相互独立的对象的综合特征和多媒体信息的综合特征，向对象推荐多媒体时，通常只能实现模糊推荐，推荐的准确性较低。例如，以需要向一个年龄60岁以上的对象推荐电视剧为例，如果只基于相互独立的该对象的综合特征和待推荐的电视剧的综合特征，向该对象推荐电视剧时，可能会将该对象并不喜好的当代都市题材的电视剧推荐给该对象，而该对象实际上可能更喜好上世纪(二十世纪)七八十年代农村题材的电视剧等。

由此可见，相关技术中，推荐模型的推荐准确性较低。

有鉴于此，为了解决相关技术中，推荐模型的推荐准确性较低的技术问题，本申请提出了一种推荐模型训练方法、推荐方法、装置、电子设备和存储介质。本申请可以基于参考模型，获得表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集，并至少基于交叉特征集，确定样本对象选择样本多媒体信息的第一预估概率；由于交叉特征集相较于样本对象和样本多媒体信息各自的综合特征的特征维度更广，所以参考模型基于交叉特征集确定的第一预估概率相较于相关技术中只基于样本对象和样本多媒体信息各自的综合特征确定的预估概率，可以更好的靠近真实概率。为了可以在不改变推荐模型的结构的前提下，提高推荐模型的推荐准确性，可以将第一预估概率参与到确定待训练的推荐模型相应的训练损失的过程中，即至少基于参考模型确定的第一预估概率，确定待训练的推荐模型相应的训练损失，实现将参考模型中学习到的基于交叉特征集确定的较准确的第一预估概率的信息迁移到推荐模型中，从而可以在不改变推荐模型的结构的前提下，提高推荐模型的推荐准确性，实现快捷准确地向对象推荐多媒体信息的目的。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面对本申请提供的推荐模型训练方法的应用场景进行说明。

请参考图1，其为本申请提供的一种应用场景示意图。该应用场景中包括客户端101和服务端102。客户端101和服务端102之间可以通信。通信方式可以是采用有线通信技术进行通信，例如，通过连接网线或串口线进行通信；也可以是采用无线通信技术进行通信，例如，通过蓝牙或无线保真(wireless fidelity，WIFI)等技术进行通信，具体不作限制。

客户端101泛指可以向服务端102提供样本数据或可以使用已训练完毕的推荐模型的设备，例如，终端设备、终端设备可以访问的第三方应用程序或终端设备可以访问的网页等。终端设备包括但不限于手机、电脑、智能交通设备、智能电器等。服务端102泛指可以训练推荐模型的设备，例如，终端设备或服务器等。服务器包括但不限于云服务器、本地服务器或关联的第三方服务器等。客户端101和服务端102均可以采用云计算，以减少本地计算资源的占用；同样也可以采用云存储，以减少本地存储资源的占用。

在一种可能的实施方式中，客户端101和服务端102可以是同一个设备，具体不作限制。本申请实施例中，以客户端101和服务端102分别为不同的设备为例进行介绍。

此外，本申请实施例可应用于各种场景，不仅包括广告推荐、视频推荐等多媒体信息推荐场景，还包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。

需要说明的是，图1所示只是举例说明，实际上客户端和服务端的数量在本申请实施例中不做具体限定。上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

另外，本申请实施例中的推荐模型训练方法可以由电子设备执行，该电子设备可以为服务端102或者客户端101，即，该方法可以由服务端102或者客户端101单独执行，也可以由服务端102和客户端101共同执行。下面基于图1，以服务端102为服务器，以服务器为执行主体，由服务器单独执行本申请实施例中的推荐模型训练方法为例，对本申请实施例提供的推荐模型训练方法进行具体介绍。

需要说明的是，本申请技术方案中对数据的获取、使用、处理等均符合国家法律法规的相关规定。

请参考图2，其为本申请实施例提供的一种推荐模型训练方法的实施流程示意图，该方法的具体实施流程如下：

S201：获得样本数据集合，每个样本数据包含：样本对象、样本多媒体信息以及该样本对象选择该样本多媒体信息的样本概率。

在一种可选的实施方式中，服务器在对待训练的推荐模型进行训练时，可以先获取样本数据集合，该样本数据集合可以包含若干个样本数据，其中，本申请对样本数据集合包含的样本数据的数量不作具体限定，可以根据需求灵活设置。

可选的，服务器可以从存储设备中获取各个样本数据，还可以从网络资源中下载各个样本数据，还可以根据数据标准，生成虚拟的各个样本数据等，本申请对样本数据的来源不作具体限定。

可选的，样本数据集合包含的每个样本数据中均可以包含：样本对象、样本多媒体信息、以及样本对象选择样本多媒体信息的样本概率(为方便描述，将样本数据中，样本对象选择样本多媒体信息的概率称为样本概率)。

可选的，样本对象可以包括：样本对象的性别、年龄、籍贯、当前所在地理位置、受教育程度、职业、账号使用时长、选择样本多媒体信息的时间、账户兴趣偏好信息等至少一种状态属性。本申请对样本对象包含的状态属性不作具体限制。

样本多媒体信息可以包括：多媒体信息的来源类别(如来自某个应用程序等)、样本多媒体涉及商品的类别(如游戏类、教育类、悠闲娱乐类、外卖美食类等)、样本多媒体的素材类别(如图片、视频等)等至少一种类别属性。本申请对样本多媒体信息包含的类别属性不作具体限制。

值得说明的是，本申请技术方案中对数据的获取、使用、处理等均符合国家法律法规的相关规定。示例性的，本申请实施例中，获取的样本数据中包含的样本对象可以通过一定的形式(如，提示界面、提示短信、授权码等)向对象提示将采集对象私密信息，并得到对象同意后获取的。同时，本申请实施例不会保存对象私密信息，会对对象私密信息随时进行删除。

可选的，样本对象选择样本多媒体信息可以是查看样本多媒体信息的详情，还可以是播放样本多媒体信息，还可以是转发样本多媒体信息，还可以关注样本多媒体信息，还可以是购买样本多媒体信息等，具体不作限制。

在一种可能的实施方式中，训练完毕的推荐模型可以用于基于目标对象，以及各个候选多媒体信息，预估目标对象选择各个候选多媒体信息各自的概率，进而可以根据预估出的目标对象选取各个候选多媒体信息的概率，按照概率从大到小的顺序，对各个候选多媒体信息进行排序，并基于该排序，向目标对象呈现(推荐)各个候选多媒体信息中的目标多媒体信息。

S202：基于样本数据集合，对待训练的推荐模型进行至少一轮迭代训练，输出相应的目标推荐模型；其中，在每轮迭代过程中，至少执行S203～S205步骤。

在一种可能的实施方式中，在获得样本数据集合之后，服务器可以基于该样本数据集合中的各个样本数据，对待训练的推荐模型进行至少一轮的迭代训练，进而可以输出相应的已训练完毕的目标预测模型(为方便描述，将训练完毕的推荐模型称为目标推荐模型)。

其中，在每轮迭代训练过程中，服务器可以基于至少一个样本数据，对待训练的推荐模型进行训练，并调整待训练的推荐模型的模型参数。服务器可以直到基于样本数据集合中的所有样本数据，对待训练的推荐模型训练完成后，输出已训练完毕的目标推荐模型，也可以在确定待训练的推荐模型的训练损失满足训练目标时，输出已训练完毕的目标推荐模型等，具体不作限制。

下面先以基于其中一个样本数据，对待训练的推荐模型进行一轮迭代训练的过程为例进行介绍，基于其他样本数据，对待训练的推荐模型进行迭代训练的过程类似，在此不再赘述。具体的，基于一个样本数据，对待训练的推荐模型进行一轮迭代训练的过程可以参考S203～S205。

S203：基于参考模型，对提取的样本数据进行特征分析，获得表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集，并至少基于该交叉特征集，确定样本对象选择样本多媒体信息的第一预估概率。

在一种可能的实施方式中，考虑到在训练推荐模型时，如果只基于样本对象和样本多媒体信息各自的综合特征，确定样本对象选择样本多媒体信息的预估概率，基于该方式训练完毕的推荐模型，后续在向目标对象推荐多媒体信息时的准确性较低，为了提高推荐模型的推荐准确性，服务器中可以保存有参考模型，可以基于服务器中保存的参考模型，获得样本数据和样本多媒体信息之间的交叉特征集。其中，交叉特征集中可以包含至少一个交叉特征。可以至少基于该交叉特征集，确定样本对象选择样本多媒体信息的第一预估概率(为方便描述，将至少基于该交叉特征集，确定的样本对象选择样本多媒体信息的预估概率，称为第一预估概率)。

具体的，在一种可能的实施方式中，参考模型可以包括：注意力模型(AttentionModel)、COLD(Computing power cost-aware Online and Lightweight Deep pre-ranking system)网络模型、NFM(Neural Factorization Machines)网络模型、DCN(Deep&Cross Network)网络模型等。可以基于参考模型中的交叉层，获得表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集。示例性的，以向对象推荐电视剧的应用场景为例，考虑到对象的年龄与电视剧剧情涉及的年代之间可能存在一定的关联关系，可以从对象的年龄与待推荐的电视剧剧情涉及的年代之间的关联关系这个特征维度，获得对象的年龄与待推荐的电视剧剧情涉及的年代之间的交叉特征，可以基于该交叉特征表征样本对象和样本多媒体信息之间的关联程度。

再示例性的，可以按照如图3所示的流程图实施S203步骤中获得表征相应的样本对象和样本多媒体信息之间的关联程序的交叉特征集的步骤，参阅图3，其为本申请实施例提供的一种确定交叉特征集的实施流程示意图，具体实施流程如下：

S3001：基于参考模型，对提取的样本数据进行特征提取，获得相应的样本对象的各对象子特征，以及获得相应的样本多媒体信息的各信息子特征；其中，每个对象子特征表征样本对象的一种状态属性，每个信息子特征表征样本多媒体信息的一种类别属性。

在一种可能的实施方式中，为了便于获取样本对象和样本多媒体信息之间的交叉特征集，可以先基于参考模型，对提取的样本数据进行特征提取，获得相应的样本对象的各个对象子特征，同时，可以获得相应的样本多媒体信息的各个信息子特征。例如，获得的样本对象的各个对象子特征可以包括：样本对象的性别、年龄、籍贯、当前所在地理位置、受教育程度、职业、账号使用时长、选择样本多媒体信息的时间、账户兴趣偏好信息等不同状态属性的对象子特征。获得的样本多媒体信息的各个信息子特征可以包括：样本多媒体的来源类别(如来自某个应用程序等)、样本多媒体涉及商品的类别(如游戏类、教育类、悠闲娱乐类、外卖美食类等)、样本多媒体的素材类别(如图片、视频等)等不同类别属性的信息子特征。

S3002：基于参考模型，分别将获得的各对象子特征与获得的各信息子特征进行两两组合，获得交叉特征集。

在一种可能的实施方式中，获得了样本对象的各个对象子特征，以及样本多媒体信息的各个信息子特征后，可以基于参考模型，分别将获得的各个对象子特征与各个信息子特征进行两两组合，从而获得交叉特征集，该交叉特征集中可以包含至少一个交叉特征。

参阅图4，其为本申请实施例提供的另一种确定交叉特征集的示意图，如图4所示，可以将样本对象和样本多媒体信息组合后输入参考模型，基于参考模型中的交叉层，对样本对象及样本多媒体信息进行特征提取，获得相应的样本对象的各对象子特征，如对象子特征1、对象子特征2、……对象子特征n，其中n为不小于1的正整数，其中，每个对象子特征表征样本对象的一种状态属性。另外，还获得相应的样本多媒体信息的各信息子特征，如信息子特征1、对象子特征2、……对象子特征m，其中m为不小于1的正整数，n和m可以相同，也可以不同，每个信息子特征表征样本多媒体信息的一种类别属性。分别将获得的n个对象子特征与m个信息子特征进行两两组合，从而获得交叉特征集，该交叉特征集中可以包含n*m个交叉特征，例如可以包含，对象子特征1且(为方便描述，后续将且称为+)信息子特征1、对象子特征1+信息子特征2、对象子特征1+信息子特征m、对象子特征2+信息子特征1、对象子特征2+信息子特征2、对象子特征2+信息子特征m、对象子特征n+信息子特征1、对象子特征n+信息子特征2、对象子特征n+信息子特征m等交叉特征，即可以n*m个特征维度等获得交叉特征集。

示例性的，以向对象推荐电视剧应用场景为例，假设样本对象的各个对象子特征包括：性别为男、年龄为60岁这两个对象子特征，样本多媒体信息的各个信息子特征包括：题材类别为农村题材、剧情涉及的年代为二十世纪七八十年代这两个信息子特征为例，则可以分别将这两个对象子特征和两个信息子特征进行两两组合，获得的交叉特征集中包含的交叉特征分别为：男+农村题材、男+二十世纪七八十年代、60岁+农村题材、60岁+二十世纪七八十年代。

再示例性的，以向对象推荐广告的应用场景为例，假设样本对象的各个对象子特征包括：性别为女、年龄为30岁这两个对象子特征，样本多媒体信息的各个信息子特征包括：商品类别为教育类、素材类别为视频为例，则可以分别将这两个对象子特征和两个信息子特征进行两两组合，获得的交叉特征集中包含的交叉特征分别为：女+教育类、女+视频、30岁+教育类、30岁+视频。

由于本申请中参考模型可以获得样本对象的各对象子特征，以及样本多媒体信息的各信息子特征，并分别将各对象子特征与各信息子特征进行两两组合，从而可以快捷、准确、全面地获取到各个交叉特征。

在一种可能的实施方式中，获得了表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集之后，服务器中的参考模型可以基于该交叉特征集中包含的各个交叉特征，确定样本对象选择样本多媒体信息的第一预估概率。

在一种可能的实施方式中，考虑到交叉特征集的各个交叉特征对最终确定第一预估概率的贡献(重要性)可能不相同，以向对象推荐游戏类商品为例，对象的年龄的重要性可能要高于对象所在位置的重要性，为了提高向对象推荐多媒体信息的准确性，可以基于参考模型，获取交叉特征集中每个交叉特征各自对应的预设权重(为方便描述，称为第一预设权重)。

示例性的，以参考模型为注意力模型为例，注意力模型中的交叉层可以基于注意力机制(如多头自注意力(Multi-headed Self-attention)机制)，在获得交叉特征集的同时，还可以获取交叉特征集中每个交叉特征各自对应的第一预设权重。

其中，本申请对每个交叉特征各自对应的第一预设权重不作具体限定，示例性的，交叉特征集中各个交叉特征各自对应的第一预设权重的和可以为1(或者100)，也可以不为1(或者100)，可以根据需求灵活设置。

在一种可能的实施方式中，交叉特征可以为嵌入(Embedding)。获取了交叉特征集，以及交叉特征集中每个交叉特征各自对应的第一预设权重后，服务器中的参考模型可以基于交叉特征集中各个交叉特征及其相应的第一预设权重，确定样本对象选择样本多媒体信息的第一预估概率。示例性的，服务器中的参考模型，针对每个交叉特征，可以先确定每个交叉特征与相应的第一预设权重的乘积，基于各个交叉特征与相应的第一预设权重的乘积的和，确定样本对象选择样本多媒体信息的第一预估概率。

由于本申请可以基于参考模型，获取交叉特征集中每个交叉特征各自对应的第一预设权重，相较于不考虑各交叉特征对应的预设权重，基于各交叉特征及其相应的第一预设权重，确定的第一预估概率，可以更好的靠近真实概率。

在一种可能的实施方式中，为了进一步提高参考模型预估的第一预估概率的准确性，还可以将一个相对比较准确的参考预估概率输入参考模型中，参考模型可以基于该参考预估概率，将确定的第一预估概率可以更好的向真实概率靠近。

可选的，参考模型可以将上述基于交叉特征集中各个交叉特征及其相应的第一预设权重，确定的样本对象选择样本多媒体信息的预估概率，作为初始预估概率，进而可以基于该初始预估概率、参考预估概率、初始预估概率相应的预设权重(为方便描述，称为第二预设权重)以及参考预估概率相应的预设权重(为方便描述，称为第二预设权重)，确定样本对象选择样本多媒体信息的第一预估概率。

示例性的，假设初始预估概率对应的第二预设权重为权重A，参考预估概率对应的第二预设权重为权重B，则可以先分别确定初始预估概率与权重A的乘积(为方便描述，将初始预估概率与权重A的乘积称为第一乘积)，以及参考预估概率与权重B的乘积(为方便描述，将参考预估概率与权重B的乘积称为第二乘积)，然后将第一乘积和第二乘积的和，确定为第一预估概率。

为方便理解，下面用公式形式表示基于初始预估概率、参考预估概率以及相应的第二预设权重，确定样本对象选择样本多媒体信息的第一预估概率的过程。例如，初始预估概率用P₀表示，初始预估概率对应的第二预设权重用W₀表示，参考预估概率用P_参考表示，参考预估概率对应的第二预设权重用W_参考表示，第一预估概率用P表示，则P＝P₀×W₀+P_参考×W_参考。

由于本申请实施例样本数据还可以包括参考预估概率，参考模型基于该参考预估概率以及初始预估概率，确定的第一预估概率可以更好的靠近真实概率。

在一种可能的实施方式中，为了进一步提高参考模型确定的第一预估概率的准确性，除了可以基于参考模型，获得表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集之外，还可以基于参考模型，获得样本对象和样本多媒体信息各自完整的特征(为方便描述，称为综合特征)。

为方便理解，仍以上述向对象推荐电视剧应用场景为例，假设样本对象的性别为男，年龄为60岁；样本多媒体信息的题材类别为农村题材，剧情涉及的年代为二十世纪七八十年代，则可以将样本对象的男以及60岁整体抽象化为一个完整的综合特征，将样本多媒体信息的农村题材以及二十世纪七八十年代整体抽象化为一个完整的综合特征。可选的，样本对象的综合特征和样本多媒体信息的综合特征也均可以为嵌入(Embedding)

再示例性的，仍以向对象推荐广告的应用场景为例，假设样本对象的性别为女，年龄为30岁；样本多媒体信息的商品类别为教育类，素材类别为视频，则可以将样本对象的女以及30岁整体抽象化为一个完整的综合特征，将样本多媒体信息的教育类以及视频整体抽象化为一个完整的综合特征。

通过对比交叉特征集和样本对象和样本多媒体信息各自的综合特征可以看出，由于交叉特征集相较于样本对象和样本多媒体信息各自的综合特征的特征维度更广，参考模型基于交叉特征集确定的第一预估概率相较于相关技术中基于样本对象和样本多媒体信息各自的综合特征确定的预估概率，可以更好的靠近真实概率。

参阅图5，其为本申请实施例提供的一种基于参考模型确定第一预估概率过程示意图，如图5所示，如果基于参考模型中的交叉层，获得样本对象和样本多媒体信息各自的综合特征，则参考模型在确定样本对象选择样本多媒体信息的第一预估概率时，可以是将交叉特征集中的各交叉特征与获得的样本对象的综合特征，以及获得的样本多媒体信息的综合特征进行组合，形成一个特征组，然后基于该特征组，确定样本对象选择样本多媒体信息的第一预估概率。示例性的，在将交叉特征集中的各交叉特征与样本对象的综合特征，以及样本多媒体信息的综合特征进行组合时，可以是将交叉特征集中的各交叉特征与样本对象的综合特征，以及样本多媒体信息的综合特征拼接(融合)在一起。本申请对组合后的特征组中各个特征的先后顺序不作具体限定，例如，可以是样本对象的综合特征在先，也可以是样本多媒体信息的综合特征在先，还可以是任一交叉特征在先等，可以根据需求灵活设置。

由于参考模型确定的第一预估概率可以是基于交叉特征集以及样本对象和样本多媒体信息各自的综合特征确定的，相较于相关技术中只基于样本对象和样本多媒体信息各自的综合特征确定预估概率而言，本申请参考模型基于的特征维度更广且更全面，因此本申请中参考模型确定的第一预估概率相较于相关技术中推荐模型确定的预估概率可以更好的靠近真实概率。

在一种可能的实施方式中，参阅图6，其为本申请实施例提供的另一种基于参考模型确定第一预估概率过程示意图，当提取的样本数据中还包括：参考预估概率时，可以将该样本数据中包含的样本对象、样本多媒体信息以及参考预估概率均输入参考模型中，基于参考模型的交叉层，针对提取的样本数据，获得表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集，以及样本对象和样本多媒体信息各自的综合特征；然后，将交叉特征集中的各交叉特征与样本对象的综合特征，以及样本多媒体信息的综合特征进行组合，形成一个特征组，将该特征组输入参考模型中的多层感知器(Multi-LayerPerception，MLP)中，示例性的，可以依次输入第一MLP、第二MLP、第三MLP中，获得基于特征组，确定的样本对象选择样本多媒体信息的预估概率，将该预估概率作为初始预估概率，然后基于该初始预估概率、参考预估概率以及相应的第二预设权重，确定样本对象选择样本多媒体信息的第一预估概率。

可选的，在确定初始预估概率P₀时，也可以是基于参考模型，针对提取的样本数据，获得表征相应的样本对象和样本多媒体信息之间的关联程度的交叉特征集，将该交叉特征集输入参考模型中的多层感知器中，从而获得基于该交叉特征集，确定的样本对象选择样本多媒体信息的预估概率，将该预估概率作为初始预估概率P₀。然后基于该初始预估概率、参考预估概率以及相应的第二预设权重，确定样本对象选择样本多媒体信息的第一预估概率，在此不再赘述。

S204：基于待训练的推荐模型，对提取的样本数据进行特征分析，获得样本对象和样本多媒体信息各自的综合特征，并基于获得的各综合特征，确定样本对象选择样本多媒体信息的第二预估概率。

其中，参考模型从M个特征维度获得交叉特征集，推荐模型从N个特征维度获得各综合特征，M>N。

在一种可能的实施方式中，服务器中保存有待训练的推荐模型。在对待训练的推荐模型进行训练时，可以将相应的样本对象和样本多媒体信息输入待训练的推荐模型，基于该推荐模型，对提取的样本数据进行特征分析，从获取样本对象的综合特征以及样本多媒体信息的综合特征的特征维度，获得样本对象和样本多媒体信息各自的综合特征。例如，参阅图7，其为本申请实施例提供的一种基于推荐模型确定第二预估概率过程示意图，可以将样本对象输入推荐模型中的对象特征提取子模型，基于该对象特征提取子模型中的MLP(如第四MLP和第五MLP)对样本对象进行特征分析，从而确定样本对象的综合特征(为方便描述称为：样本对象Embedding)，同时，将样本多媒体信息输入推荐模型中的多媒体信息特征提取子模型，基于该多媒体信息特征提取子模型中的MLP(如第六MLP和第七MLP)对样本对象进行特征分析，从而确定样本多媒体信息的综合特征(为方便描述称为：样本多媒体信息Embedding)。其中，基于推荐模型获得的各个综合特征(样本对象和样本多媒体信息各自的综合特征)与基于参考模型获得的各个综合特征类似，如样本对象的综合特征和样本多媒体信息的综合特征均可以为嵌入(Embedding)，在此不再赘述。

获得了样本对象和样本多媒体信息各自的综合特征之后，推荐模型可以基于各个综合特征(样本对象和样本多媒体信息各自的综合特征)，确定样本对象选择样本多媒体信息的第二预估概率(为方便描述，将基于推荐模型确定的样本对象选择样本多媒体信息的预估概率称为第二预估概率)。再次参阅图7，可以将样本对象Embedding和样本多媒体信息Embedding通过作点积(cosine)，计算样本对象Embedding和样本多媒体信息Embedding之间的相似度，然后在基于sigmoid函数计算出一个位于0～1范围内的数值，将该数值作为第二预估概率。

在一种可能的实施方式中，参考模型可以是模型结构相对较复杂的模型，参考模型的模型参数量较多，而推荐模型可以是模型结构相对较简单的模型，推荐模型的模型参数量较少。参考模型可以从较多个特征维度(为方便描述，称为M个特征维度)获得交叉特征集，推荐模型可以从较少个特征维度(为方便描述，称为N个特征维度)获得样本对象和样本多媒体信息各自的综合特征。其中，本申请对M和N的具体数值不作具体限定，可选的，M和N可以是正整数，且M大于N。

需要说明的是，本申请实施例中对S203与S204之间的执行顺序并不进行限制，可以先执行S203，再执行S204，也即，先确定第一预估概率，再确定第二预估概率；也可以先执行S204，再执行S203，也即，先确定第二预估概率，再确定第一预估概率；当然，也可以同时执行S203和S204，也即，同时确定第一预估概率和第二预估概率。

S205：基于第一预估概率、第二预估概率和相应的样本概率，确定相应的训练损失，并对待训练的推荐模型进行模型参数调整。

在一种可能的实施方式中，考虑到参考模型基于交叉特征集确定的第一预估概率的准确性通常高于第二预估概率的准确性，为了提高推荐模型确定的预估概率的准确性，在对推荐模型进行训练的过程中，确定相应的训练损失时，除了可以基于第二预估概率和相应的样本概率之间的损失(为方便描述，将第二预估概率和相应的样本概率之间的损失称为第二损失)，确定相应的训练损失之外，在一种可能的实施方式中，还可以基于第一预估概率和第二预估概率之间的损失(为方便描述，将第一预估概率和第二预估概率之间的损失称为第一损失、或蒸馏损失)，确定相应的训练损失，例如可以基于第一损失和第二损失的和，确定待训练的推荐模型的训练损失，并对待训练的推荐模型进行模型参数调整，从而可以实现基于知识蒸馏的思想，将参考模型作为Teacher模型，将待训练的推荐模型作为Student模型，将Teacher模型中学习到的基于交叉特征集确定的较准确的第一预估概率的信息迁移到Student模型中，在不改变Student模型结构(即可以保持推荐模型的效率、推荐耗时)的同时，可以提高Student模型确定的预估概率的准确性，提高Student模型的推荐准确性。

具体实施中，确定了待训练的推荐模型的训练损失，对待训练的推荐模型的模型参数进行调整时，可以采用梯度下降算法，对推荐模型的模型参数的梯度进行反向传播，从而对推荐模型的模型参数进行调整，对推荐模型进行训练。

在一种可能的实施方式中，可以对样本数据集合中的每个样本数据都进行上述操作，当满足预设的收敛条件时，确定推荐模型训练完毕。

其中，满足预设的收敛条件可以为样本数据集合中的样本数据通过该待训练的推荐模型，被正确识别的样本数据的个数大于设定数量，或对推荐模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不作具体限定。

在一种可能的实施方式中，在训练推荐模型时，可以把样本数据集合中的样本数据分为训练样本数据和测试样本数据，先基于训练样本数据对待训练的推荐模型进行训练，再基于测试样本数据对上述已训练完毕的推荐模型的可靠程度进行验证。

由于参考模型确定的第一预估概率是至少基于交叉特征集确定的，而交叉特征集相较于样本对象和样本多媒体信息各自的综合特征的特征维度更广，所以参考模型基于交叉特征集确定的第一预估概率相较于相关技术中只基于样本对象和样本多媒体信息各自的综合特征确定的预估概率，可以更好的靠近真实概率。因而，基于该第一预估概率、第二预估概率和相应的样本概率，确定待训练的推荐模型相应的训练损失，并对待训练的推荐模型进行模型参数调整时，可以将参考模型中学习到的基于交叉特征集确定的较准确的第一预估概率的信息迁移到推荐模型中，可以提高推荐模型确定的预估概率的准确性，提高推荐模型的推荐准确性。

在一种可能的实施方式中，为了提高推荐模型确定的预估概率的准确性，可以基于已训练完毕的参考模型作为Teacher模型，对推荐模型进行训练。当参考模型为已训练完毕的模型时，在基于第一预估概率、第二预估概率和相应的样本概率，确定相应的训练损失时，可以是基于参考模型确定的第一预估概率与推荐模型确定的第二预估概率之间的第一损失(蒸馏损失)、以及样本数据中包含的样本概率与推荐模型确定的第二预估概率之间的第二损失，确定待训练的推荐模型相应的训练损失。

示例性的，待训练的推荐模型相应的训练损失可以为第一损失和第二损失的和。即待训练的推荐模型相应的训练损失＝第一损失+第二损失。

再示例性的，如果样本概率用y表示，参考模型确定的第一预估概率用f_attn(x)表示，推荐模型确定的第二预估概率用f_tt(x)表示，则第一损失(蒸馏损失)可以为：β·BCE(f_attn(x),f_tt(x))，第二损失可以为：BCE(y,f_tt(x))，待训练的推荐模型的损失函数可以为：β·BCE(f_attn(x),f_tt(x))+BCE(y,f_tt(x))。

其中，BCE表示：交叉熵损失函数；

β为蒸馏损失系数，β可以根据需求灵活设置，示例性的，β可以不大于1的正数，例如可以为0.2等；

BCE(f_attn(x),f_tt(x))＝-f_attn(x)logσ(f_tt(x))-(1-f_attn(x))log(1-σ(f_tt(x)))；

其中，σ(f_tt(x))是一种sigmoid函数，sigmoid函数可以将一个实数映射到0～1范围内，输出位于0～1范围内的数值，可以用来做二分类。sigmoid函数的公式描述为：

可以理解的，σ(f_tt(x))的数值位于0～1范围内，

BCE(y,f_tt(x))＝-ylogσ(f_tt(x))-(1-y)log(1-σ(f_tt(x)))。

在一种可能的实施方式中，考虑到由于训练参考模型也需要一定的时间，如果参考模型为已训练完毕的模型，则需要先花费一定的时间对参考模型训练完毕后，再基于训练完毕的参考模型，训练推荐模型时，耗时较长。为了节省训练耗时，提高训练效率，参考模型可以为尚未训练完毕的模型。示例性的，参考模型可以为原始模型(尚未进行过一轮迭代训练的模型)，也可以为进行了设定迭代次数的模型。

在一种可能的实施方式中，参阅图8，其为本申请实施例提供的一种推荐模型训练过程示意图，当参考模型为尚未训练完毕的模型，确定的待训练的推荐模型相应的训练损失中除了可以包含第一损失(蒸馏损失)和第二损失之外，还可以包含第一预估概率与样本概率之间的损失(为方便描述，将第一预估概率与样本概率之间的损失，称为第三损失、或参考模型损失)。示例性的，待训练的推荐模型相应的训练损失可以为第一损失、第二损失、第三损失的和。即待训练的推荐模型相应的训练损失＝第一损失+第二损失+第三损失。

再示例性的，如果样本概率用y表示，参考模型确定的第一预估概率用f_attn(x)表示，推荐模型确定的第二预估概率用f_tt(x)表示，则第一损失(蒸馏损失)可以为：β·BCE(f_attn(x),f_tt(x))，第二损失可以为：BCE(y,f_tt(x))，第三损失可以为：BCE(y,f_attn(x))。则，待训练的推荐模型的损失函数可以为：β·BCE(f_attn(x),f_tt(x))+BCE(y,f_tt(x))+BCE(y,f_attn(x))。

其中，第一损失和第二损失与上述实施例相同，在此不再赘述。

第三损失BCE(y,f_attn(x))＝-ylogσ(f_attn(x))-(1-y)log(1-σ(f_attn(x)))；

其中，与σ(f_tt(x))类似，σ(f_attn(x))也是一种sigmoid函数。可以理解的，σ(f_attn(x))的数值也位于0～1范围内，

由本申请实施例中确定推荐模型的训练损失的过程可以看出，相关技术中，在对推荐模型进行训练时，确定的推荐模型的训练损失通常只包含第二损失，而本申请实施例中确定的推荐模型的训练损失除了可以包含第二损失之外，还可以包含第一损失(蒸馏损失)，甚至还可以包含第三损失，基于本申请实施例中确定的训练损失，训练完毕的推荐模型在进行多媒体信息推荐时，相比于相关技术中训练完毕的推荐模型，可以提高推荐的准确性。

在一种可能的实施方式中，再参阅图8，当参考模型为尚未训练完毕的模型时，还可以将样本概率与第一预估概率之间的第三损失，确定为参考模型相应的训练损失，基于该训练损失，对参考模型进行模型参数调整。其中，对参考模型进行模型参数调整的过程，与上述实施例中对推荐模型进行模型参数调整的过程类似，在此不再赘述。

由于本申请可以基于相同的样本数据，同时对参考模型和推荐模型进行训练，相较于先将参考模型训练完毕后，再对推荐模型进行训练而言，可以节省模型训练的耗时，提高模型训练效率。

在一种可能的实施方式中，可以基于多个(至少两个)样本数据，对推荐模型进行一轮迭代训练的过程。可选的，可以将一轮迭代训练过程中使用的各个样本数据，分别进行上述确定第一预估概率、第二预估概率，以及确定推荐模型的训练损失的步骤。可选的，可以将各个样本数据各自基于相应的第一预估概率、第二预估概率和样本概率，确定的训练损失，作为各个样本数据各自对应的初始训练损失，并可以将各个样本数据各自对应的初始训练损失的平均值、或最大值、或最小值等，确定为这一轮迭代训练过程中确定的推荐模型的训练损失(最终训练损失)，基于该训练损失(最终训练损失)，对推荐模型进行模型参数调整。

示例性的，如果各个样本数据对应的初始训练损失用：

β·BCE(f_attn(x),f_tt(x))+BCE(y,f_tt(x))+BCE(y,f_attn(x))表示；各个样本数据中的样本对象和样本多媒体信息用x表示，各个样本数据中的样本概率用y表示，样本数据集用D表示，样本数据集D中样本数据的总数量为N，N为不小于1的正整数，以将各个样本数据各自对应的初始训练损失的平均值，确定为这一轮迭代训练过程中确定的推荐模型的训练损失(最终训练损失)为例，则确定的推荐模型的训练损失(最终训练损失)为：

为方便理解，下面通过一个具体实施例对本申请提供的推荐模型训练过程进行解释说明。

参阅图9，其为本申请实施例提供的一种推荐系统示意图，推荐系统主要包括三个阶段：召回阶段、粗排阶段、精排阶段。每一个阶段都像是一个漏斗，从一个大的多媒体信息集合中筛选出对象可能感兴趣的多媒体信息。

其中，召回阶段是推荐系统中的第一个阶段，召回阶段主要是：从海量多媒体信息中快速选取目标对象可能感兴趣的多媒体信息，例如召回阶段可以从几百万条的广告库中筛选出1万-2万条广告等。

粗排阶段是推荐系统中的第二个阶段，粗排阶段主要是：对召回阶段选取的多媒体信息进行粗筛，将召回阶段选取的多媒体信息缩小到设定数量范围内。例如，可以从1万-2万条广告中筛选出200-500条广告等。

精排阶段是推荐系统中的第三个阶段，精排阶段主要是：对粗排阶段筛选出的多媒体信息进一步进行筛选，将粗排阶段筛选的多媒体信息进一步缩小到预期数量。

其中，粗排阶段作为上承召回阶段，下启精排阶段的重要环节，是推荐系统中不可或缺的重要阶段。粗排阶段一方面，需要尽量保证推荐准确性，减轻精排阶段的计算压力。另一方面，粗排阶段的推荐耗时要尽可能少，实现快速筛选。示例性的，粗排阶段的推荐耗时可以在70-250ms之间。

可选的，本申请实施例中的推荐模型可以为应用于推荐系统中粗排阶段的模型。示例性的，请再次参阅图7，本申请实施例中的推荐模型可以为双塔模型等。以推荐模型为双塔模型为例，由于双塔模型中的对象特征提取子模型和多媒体信息特征提取子模型是两个各自独立的子模型，基于对象特征提取子模型提取的对象特征与基于多媒体信息特征提取子模型提取的多媒体信息特征之间是互不依赖，相互独立的，基于双塔模型向对象推荐多媒体信息时，可以大大缩减推荐耗时，提高推荐效率。然而，也正是因为双塔模型中的对象特征提取子模型和多媒体信息特征提取子模型是两个各自独立的子模型，因此，双塔模型自身的这种结构限制了双塔模型可以学习对象和多媒体信息之间的交叉特征的能力，导致双塔模型的推荐准确性较低。在一种可能的实施方式中，可以基于本申请提供的推荐模型训练方法，对双塔模型进行训练，以提高双塔模型的推荐准确性。

为方便理解，下面以推荐模型为应用于推荐系统中粗排阶段的双塔模型，参考模型为注意力模型为例，对本申请提供的推荐模型训练方法进行举例说明。参阅图10，其为本申请实施例提供的一种推荐模型训练过程示意图，包括以下步骤：

S1001：获得样本数据集合，每个样本数据包含：样本对象、样本多媒体信息、样本对象选择样本多媒体信息的样本概率以及参考预估概率，其中，参考预估概率可以为应用于推荐系统中精排阶段的模型，确定的样本对象选择样本多媒体信息的预估概率。

可选的，考虑到应用于精排阶段的模型的准确性通常高于应用于粗排阶段的模型，当推荐模型为应用于粗排阶段的模型时，可以将应用于精排阶段的模型确定的样本对象选择样本多媒体信息的预估概率，确定为参考预估概率。

将基于应用于精排阶段的模型确定的参考预估概率连同样本对象、样本多媒体信息一并输入参考模型中，可以使得参考模型输出的第一预估概率进一步靠近真实概率，进一步提高参考模型的准确性的同时，还可以将参考模型学习到的信息迁移到推荐模型中，从而可以提高例如应用于粗排阶段的推荐模型的推荐准确性。

S1002：基于样本数据集合，对待训练的双塔模型进行至少一轮迭代训练，输出相应的目标双塔模型；其中，在每轮迭代过程中，至少执行S1003～S1005步骤。

S1003：基于注意力模型，对提取的样本数据进行特征提取，获得相应的样本对象的各对象子特征，以及获得相应的样本多媒体信息的各信息子特征；其中，每个对象子特征表征样本对象的一种状态属性，每个信息子特征表征样本多媒体信息的一种类别属性；基于注意力模型，分别将获得的各对象子特征与获得的各信息子特征进行两两组合，获得交叉特征集；

另外，还可以基于注意力模型，获取交叉特征集中每个交叉特征各自对应的第一预设权重；将基于各交叉特征及其相应的第一预设权重，确定的样本对象选择所述样本多媒体信息的预估概率，作为初始预估概率；

基于初始预估概率、参考预估概率和相应的第二预设权重，确定样本对象选择样本多媒体信息的第一预估概率。

S1004：基于待训练的双塔模型，获得样本对象和样本多媒体信息各自的综合特征，并基于获得的各综合特征，确定样本对象选择样本多媒体信息的第二预估概率。

S1005：当注意力模型为尚未训练完毕的模型，基于第一预估概率与第二预估概率之间的第一损失、样本概率与第二预估概率之间的第二损失、样本概率与第一预估概率之间的第三损失，确定待训练的双塔模型相应的训练损失，并对双塔模型进行模型参数调整；

另外，可以基于样本概率与第一预估概率之间的第三损失，确定注意力模型相应的训练损失，并对注意力模型进行模型参数调整。

当推荐模型为应用于推荐系统中粗排阶段的模型，基于本申请上述任一实施例提供推荐模型训练方法对推荐模型进行训练后，可以在保持推荐模型的推荐耗时的基础上，提高推荐模型的推荐准确性。

在一种可能的实施方式中，当推荐模型为双塔模型时，可以将本申请中的推荐模型训练方法称为基于Knowledge distillation with attention for two tower models(KnoDatt)算法的训练方法。为了验证本申请实施例中的基于KnoDatt算法训练完毕的双塔模型(为方便描述，将基于KnoDatt算法训练完毕的双塔模型，称为KnoDatt双塔模型)与相关技术中双塔模型的推荐准确性，在相同实验条件下，分别测试了KnoDatt双塔模型的AUC和相关技术中双塔模型的AUC。参阅图11，其为本申请实施例提供的一种KnoDatt双塔模型和相关技术中双塔模型各自的AUC对比示意图，可以看出，KnoDatt双塔模型的AUC比相关技术中双塔模型的AUC高0.6％-1.3％。

由此也可以看出，基于本申请的推荐模型训练方法训练完成的推荐模型，在进行多媒体信息推荐时的推荐准确性有一定程度提高，可以进而有效提升商品交易总额(GrossMerchandise Volume，GMV)。其中，商品交易总额可以包含：拍下后已支付的订单金额，以及拍下后未支付的订单金额。拍下后未支付的订单金额可以包括：拍下后放入购物车内未支付的订单金额、取消的订单金额、拒收商品的订单金额和退货的订单金额。

再示例性的，仍以需要向一个年龄60岁以上的目标对象推荐电视剧为例，基于本申请KnoDatt双塔模型在向该年龄60岁以上的目标对象推荐电视剧时，由于本申请KnoDatt双塔模型在训练过程中，已经将参考模型中学习到的基于交叉特征集确定的较准确的第一预估概率的信息，迁移到双塔模型中，本申请KnoDatt双塔模型确定的目标对象选择上世纪七八十年代农村题材的电视剧的预估概率通常会高于选择当代都市题材的电视剧的预估概率，使双塔模型(推荐模型)确定的预估概率尽可能地靠近真实概率，提高双塔模型的推荐准确性。

基于相同的技术构思，本申请还提供了一种基于上述任一实施例的方法训练得到的目标推荐模型进行的推荐方法。在通过上述过程训练得到目标推荐模型之后，本申请实施例则可利用该目标推荐模型来实施本申请实施例提供的推荐方法。

请再次参阅图1，本申请实施例中的推荐方法可以由电子设备执行，该电子设备可以为服务端102或者客户端101，即，该推荐方法可以由服务端102或者客户端101单独执行，也可以由服务端102和客户端101共同执行。比如由服务端102和客户端101共同执行时，目标对象可以在客户端101触发推荐请求，客户端101可以将该推荐请求发送给服务端102，服务端102响应于该推荐请求，可以获取相应的目标对象及候选多媒体信息集合，将目标对象及提取的候选多媒体信息输入至保存在服务端102中的基于上述任一推荐模型训练方法训练得到的目标推荐模型中，服务端102可以基于该目标推荐模型，确定目标对象选择提取的候选多媒体信息的预估概率。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的推荐方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图12，其为本申请实施例提供的一种推荐方法的实施流程示意图，该方法的具体实施流程如下：

S1201：响应于推荐请求，获取相应的目标对象及候选多媒体信息集合，将目标对象及提取的候选多媒体信息输入至基于上述任一推荐模型训练方法训练得到的目标推荐模型中。

在一种可能的实施方式中，目标对象可以触发电子设备中预设的推荐请求。示例性的，目标对象点击观看电视剧按钮时，可以触发推荐请求，电子设备可以接收到该推荐请求。再示例性的，目标对象点击查看某应用程序的列表按钮时，也可以触发推荐请求，电子设备也可以接收到该推荐请求。本申请对触发电子设备推荐请求的方式不作具体限定。

电子设备接收到推荐请求后，可以响应于该推荐请求，获取相应的目标对象(为方便描述，将触发推荐请求的对象称为目标对象)及候选多媒体信息集合。可选的，推荐请求中可以携带目标对象的标识信息，电子设备可以根据该标识信息，从保存的各个对象中，确定该标识信息对应的目标对象，获取到目标对象的性别、年龄、籍贯、当前所在地理位置、受教育程度、职业、账号使用时长、选择多媒体信息的时间、账户兴趣偏好信息等至少一种状态属性。其中，对象的标识信息可以为账户标识信息、设备标识信息等，可以根据需求灵活设置，本申请对此不作具体限定。

为方便理解，仍以上述基于推荐系统向对象推荐多媒体信息为例，当接收到推荐请求后，电子设备响应于该推荐请求，可以先基于推荐系统中的召回阶段从海量多媒体信息中快速选取目标对象可能感兴趣的多媒体信息。

当基于上述任一推荐模型训练方法训练得到的目标推荐模型为应用于推荐系统中粗排阶段的模型时，召回阶段选取的各个多媒体信息即为上述候选多媒体信息集合中的各个多媒体信息。候选多媒体信息集合中可以包含至少一个多媒体信息。电子设备可以将目标对象，以及从候选多媒体信息集合中提取的一个候选多媒体信息输入至目标推荐模型中。

S1202：基于目标推荐模型，确定目标对象选择提取的候选多媒体信息的预估概率。

电子设备将目标对象，以及提取的一个候选多媒体信息输入至目标推荐模型后，可以基于该目标推荐模型，确定目标对象选择这一个候选多媒体信息的预估概率。可选的，可以基于目标推荐模型，获得目标对象的综合特征以及提取的这一个候选多媒体信息的综合特征，并基于获得的各综合特征，确定目标对象选择这一个候选多媒体信息的预估概率。

S1203：基于预估概率，从候选多媒体信息集合中，选取向目标对象推荐的目标多媒体信息。

在一种可能的实施方式中，确定了目标对象选择提取的各个候选多媒体信息各自的预估概率后，可以基于目标对象选择各个候选多媒体信息各自的预估概率，从候选多媒体信息集合中，选取向目标对象推荐的多媒体信息(为方便描述，称为目标多媒体信息)。

其中，目标多媒体信息可以是候选多媒体信息集合中的部分候选多媒体信息，也可以是全部候选多媒体信息，可以根据需求灵活选择，本申请对此不作具体限定。

示例性的，可以按照预估概率从大到小的顺序，对各个候选多媒体信息进行排序，将排序较靠前的设定数量或者设定数量比例的候选多媒体信息，选取为目标多媒体信息。

另外，也可以是将预估概率超过设定概率阈值的候选多媒体信息，选取为目标多媒体信息。

另外，还可以是将各个候选多媒体信息均选取为目标多媒体信息。例如可以按照相应的预估概率从大到小的顺序，对各个目标多媒体信息进行排序，按照该排序，呈现各目标多媒体信息等。

由于基于上述任一推荐模型训练方法训练得到的目标推荐模型的推荐准确性较高，且不需要改变推荐模型的结构及输入，因此可以在保证目标推荐模型的推荐耗时的基础上，提高目标推荐模型的推荐准确性。

可选的，当目标推荐模型为应用于推荐系统中粗排阶段的模型时，采用上述方法确定了目标对象选择各个候选多媒体信息各自的预估概率后，可以基于各个预估概率，对各个候选多媒体信息进行排序。示例性的，可以按照预估概率从大到小的顺序，对各个候选多媒体信息进行排序，并基于该排序，从各个候选多媒体信息中，筛选(选取)出设定数量的目标多媒体信息。可选的，应用于精排阶段的模型可以进而从上述设定数量的目标多媒体信息进一步缩小到预期数量，向目标对象呈现(推荐)该预期数量的目标多媒体信息。

为方便理解，下面再以一个具体实施例对本申请提供的推荐方法进行举例说明。仍以推荐模型为应用于推荐系统中粗排阶段的模型为例，参阅图13，其为本申请实施例提供的一种推荐过程示意图，当目标对象在终端设备点击查看某应用程序的列表按钮时，终端设备接收到推荐请求，并将该推荐请求通过通信网络发送给保存有目标推荐模型的服务器，保存有目标推荐模型的服务器接收到推荐请求，响应于该推荐请求，可以根据推荐请求中携带的目标对象的标识信息，从保存的各个对象中，确定该标识信息对应的目标对象，从而获取到目标对象的性别、年龄、籍贯、当前所在地理位置、受教育程度、职业、账号使用时长、选择多媒体信息的时间、账户兴趣偏好信息等至少一种状态属性。

保存有目标推荐模型的服务器基于推荐系统中应用于召回阶段的模型，从海量广告中快速选取目标对象可能感兴趣的广告集合。其中，广告集合中包含至少一条广告。

保存有目标推荐模型的服务器将召回阶段选取的广告集合确定为候选广告集合；将目标对象，以及从候选广告集合中提取的一条候选广告输入至目标推荐模型中。目标推荐模型获得目标对象和候选广告各自的综合特征，并基于获得的各综合特征，确定目标对象选择该候选广告的预估概率。

在一种可能的实施方式中，目标推荐模型确定的预估概率可以为点击概率，即点击率(Click-Through-Rate，CTR)，也可以为转化率(Conversion Rate，CVR)。

在一种可能的实施方式中，可以将目标对象以及候选广告输入至可以确定点击率的目标推荐模型中，同时，可以将目标对象以及候选广告输入至可以确定转化率的目标推荐模型中，从而分别确定目标对象选择候选广告的点击率和转化率。

确定了目标对象选择各个候选广告各自的预估概率(点击率和转化率)后，可以进而确定各个候选广告各自的千次展示收益(effective cost per mille，ECPM)。示例性的，可以基于公式：ECPM＝CTR×CVR×bid，确定各个候选广告各自的ECPM。其中，bid为广告的出价。

按照ECPM从大到小的顺序，对各个候选广告进行排序，并基于该排序，从各个候选广告中，筛选出设定数量的目标广告。示例性的，可以筛选出300-500条目标广告。

应用于精排阶段的模型可以进而从设定数量的目标广告中，进一步筛选预期数量的目标广告，如筛选其中的一条目标广告，向目标对象的终端设备呈现(推荐)这一条目标广告。

可选的，当目标广告被展示给目标对象，如果目标对象对目标广告进行点击、或者进行下载相应的应用、或者进行购买下单等转化行为时，电子设备可以自动智能化地对该目标广告的广告主进行计费等。可以理解的，当目标对象进行转化行为时，电子设备可以将该转化行为发送给广告主的内容服务器，基于该内容服务器，响应目标对象的转化行为，在此不再赘述。

在一种可能的实施方式中，可以基于目标对象选择目标多媒体信息的实际转化行为或者实际非转化行为，获取目标对象选择目标多媒体信息的实际概率信息，进而基于目标对象、目标多媒体信息以及目标对象选择目标多媒体信息的实际概率信息，生成用于对目标推荐模型进行再次训练时使用的样本数据。示例性的，在向目标对象推荐目标多媒体信息后，当识别到目标对象对目标多媒体信息进行了点击、或者进行下载相应的应用、或者进行购买下单等转化行为时，可以将目标对象选择目标多媒体信息的实际概率信息确定为100％、90％等较大的概率值。当识别到目标对象未对目标多媒体信息进行相应的转化行为时，可以将目标对象选择目标多媒体信息的实际概率信息确定为0、10％等较小的概率值。

可选的，可以基于目标对象、目标多媒体信息、目标对象选择目标多媒体信息的实际概率信息，生成相应的样本数据(为方便描述，称为优化样本数据)，并在后续可以将该优化样本数据作为对目标推荐模型进行再次训练时的样本数据，即可以基于该优化样本数据对目标推荐模型进行再次优化训练。示例性的，可以将目标对象作为优化样本数据中的样本对象，将目标多媒体信息作为优化样本数据中的样本多媒体信息，将目标对象选择目标多媒体信息的实际概率信息作为样本对象选择样本多媒体信息的样本概率。

再示例性的，当目标广告被展示给目标对象后，可以基于目标对象对目标广告的转化行为或者非转化行为，生成用于再次训练目标推荐模型的优化样本数据。例如，可以将目标对象对目标广告的转化行为或者非转化行为，保存在保存有目标推荐模型的服务器中，保存有目标推荐模型的服务器可以将目标对象，确定为优化样本数据中包含的样本对象；将目标广告，确定为优化样本数据中包含的样本多媒体信息；基于目标对象对目标广告的转化行为或者非转化行为，确定目标对象选择目标广告的实际概率信息，并根据该实际概率信息，确定优化样本数据中，样本对象选择样本多媒体信息的样本概率。

在一种可能的实施方式中，为了不断的优化推荐模型，不断提高推荐模型的推荐准确性，可以按照设定的时间周期，对目标推荐模型进行再次训练。示例性的，可以每隔15-30min等，基于优化样本数据等，重新对目标推荐模型进行再次训练。其中，对目标推荐模型进行再次训练的过程与上述实施例中提供的推荐模型训练方式相同，在此不再赘述。

可选的，对推荐模型进行训练时，可以采用离线的方式对推荐模型进行训练。基于训练完毕的目标推荐模型进行推荐时，可以采用线上的方式进行推荐。

由于本申请向目标对象推荐目标多媒体信息后，可以获取目标对象选择目标多媒体信息的实际概率信息，由于该实际概率信息可以认为是目标对象选择目标多媒体信息的真实概率，因此，基于目标对象、目标多媒体信息以及目标对象选择目标多媒体信息的实际概率信息，生成相应的优化样本数据，基于该优化样本数据对目标推荐模型进行再次训练时，可以进一步提高目标推荐模型的推荐准确性。

参阅图14所示，其为本申请实施例提供的一种推荐方法的交互实现时序流程示意图。该方法的具体实施流程如下：

S1401：终端设备接收到目标对象触发的推荐请求，将推荐请求发送给服务器。其中，该服务器可以为保存有训练完毕的目标推荐模型的服务器。

S1402：服务器接收推荐请求，响应于推荐请求，获取相应的目标对象及候选多媒体信息集合。

S1403：服务器将目标对象及提取的候选多媒体信息输入至服务器自身保存的目标推荐模型中，基于目标推荐模型，确定目标对象选择提取的候选多媒体信息的预估概率。

S1404：服务器基于目标对象选择各个候选多媒体信息各自的预估概率，从候选多媒体信息集合中，选取目标多媒体信息，并将目标多媒体信息发送给终端设备。

其中，服务器可以将预估概率最高的候选多媒体信息，确定为目标多媒体信息。也可以将预估概率超过设定概率阈值的候选多媒体信息，确定为目标多媒体信息。

S1405：终端设备接收目标多媒体信息，并展示。

为方便理解，下面通过一个具体实施例对本申请提供的推荐过程进行解释说明。参阅图15，其为本申请实施例提供的一种推荐方法的具体场景示意图。以需要向一个籍贯为山西、当前位于A位置的目标对象推荐外卖美食为例，目标对象可以通过点击安装在终端设备中的外卖美食应用程序(Application，App)等触发推荐请求。终端设备接收到目标对象触发的推荐请求后，可以将该推荐请求发送给服务器，其中，该服务器保存有训练完毕的目标推荐模型。服务器接收到推荐请求后，响应于推荐请求，可以获取到相应的目标对象以及候选外卖美食集合。

为方便描述，以候选外卖美食集合中包含的外卖美食分别为：位于B位置的刀削面、位于B位置的炒米饭、位于C位置的炒面为例。服务器可以先将目标对象及“位于B位置的刀削面”输入目标推荐模型中，基于目标推荐模型，获得目标对象的综合特征以及“位于B位置的刀削面”的综合特征，并基于获得的各综合特征，确定目标对象选择“位于B位置的刀削面”的预估概率。

服务器还可以将目标对象及“位于B位置的炒米饭”输入目标推荐模型中，基于目标推荐模型，获得目标对象的综合特征以及“位于B位置的炒米饭”的综合特征，并基于获得的各综合特征，确定目标对象选择“位于B位置的炒米饭”的预估概率。

服务器还可以将目标对象及“位于C位置的炒面”输入目标推荐模型中，基于目标推荐模型，获得目标对象的综合特征以及“位于C位置的炒面”的综合特征，并基于获得的各综合特征，确定目标对象选择“位于C位置的炒面”的预估概率。

假如B位置距离A位置200米，C位置距离A位置3000米，即相较于C位置，B位置距离A位置较近。通常情况下，籍贯为山西的目标对象喜好面条的概率高于米饭，由于在对推荐模型进行训练时，已经将参考模型中学习到的基于交叉特征集(如对象所在位置与外卖美食所在位置之间的交叉特征、对象的籍贯与外卖美食类别之间的交叉特征)，确定的较准确的预估概率的信息迁移到推荐模型中，因此，基于该方式训练完毕的目标推荐模型确定的预估概率可以较好的靠近真实概率。示例性的，目标推荐模型确定的目标对象选择“位于B位置的刀削面”的预估概率可以为0.9，确定的目标对象选择“位于B位置的炒米饭”的预估概率可以为0.7，确定的目标对象选择“位于C位置的炒面”的预估概率可以为0.8等。

在一种可能的实施方式中，服务器可以按照预估概率从大到小的顺序，对各个候选外卖美食进行排序，将排序后的各个候选外卖美食发送给终端设备，终端设备按照该排序，即按照“位于B位置的刀削面”、“位于C位置的炒面”、位于B位置的炒米饭的排序顺序，依次展示各个候选外卖美食。

另外，在一种可能的实施方式中，服务器在按照预估概率从大到小的顺序，对各个候选外卖美食进行排序后，还可以从候选外卖美食集中选取设定数量个目标外卖美食。以设定数量为2为例，可以将位于“位于B位置的刀削面”、“位于C位置的炒面”作为目标外卖美食，发送给终端设备，终端设备可以展示该设定数量的目标外卖美食。

另外，在一种可能的实施方式中，服务器还可以将“位于B位置的刀削面”确定为向目标对象推荐的目标外卖美食，将该目标外卖美食发送给终端设备，终端设备可以展示该目标外卖美食。

基于相同的发明构思，本申请实施例还提供一种推荐模型训练装置。如图16所示，其为本申请实施例提供的一种推荐模型训练装置1600的结构示意图，可以包括：

获取模块1601：用于获得样本数据集合，每个样本数据包含：样本对象、样本多媒体信息以及所述样本对象选择所述样本多媒体信息的样本概率；

处理模块1602：用于基于样本数据集合，对待训练的推荐模型进行至少一轮迭代训练，输出相应的目标推荐模型；其中，在每轮迭代过程中，至少执行以下步骤：

基于所述待训练的推荐模型，对提取的样本数据进行特征分析，获得所述样本对象和样本多媒体信息各自的综合特征，并基于获得的各综合特征，确定所述样本对象选择所述样本多媒体信息的第二预估概率；其中，参考模型从M个特征维度获得交叉特征集，推荐模型从N个特征维度获得各综合特征，M>N；

可选的，所述处理模块1602具体用于：

所述处理模块1602具体用于：

可选的，所述装置还包括：

参考预估概率确定模块1603：用于所述推荐模型为应用于推荐系统中粗排阶段的模型，则基于应用于所述推荐系统中精排阶段的模型，确定所述样本对象选择所述样本多媒体信息的预估概率；将所述预估概率，确定为所述参考预估概率。

可选的，所述处理模块1602还用于：

所述处理模块1602具体用于：

可选的，所述处理模块1602具体用于：

可选的，所述处理模块1602还用于：

基于相同的发明构思，本申请实施例还提供了一种推荐装置。如图17所示，其为本申请实施例提供的一种推荐装置1700的结构示意图，该装置可以包括：

输入模块1701：用于响应于推荐请求，获取相应的目标对象及候选多媒体信息集合，将所述目标对象及提取的候选多媒体信息输入至基于上述任一所述的方法训练得到的目标推荐模型中；

确定模块1702：用于基于所述目标推荐模型，确定所述目标对象选择所述提取的候选多媒体信息的预估概率；

选取模块1703：用于基于所述预估概率，从所述候选多媒体信息集合中，选取向所述目标对象推荐的目标多媒体信息。

可选的，所述装置还包括：

生成模块1704：用于获取所述目标对象选择所述目标多媒体信息的实际概率信息；基于所述目标对象、目标多媒体信息以及所述实际概率信息，生成相应的优化样本数据；其中，所述优化样本数据用于作为对所述目标推荐模型进行再次训练时的样本数据。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，如图1所示的服务端102。在该实施例中，电子设备的结构可以如图18所示，包括存储器1801，通讯模块1803以及一个或多个处理器1802。

存储器1801，用于存储处理器1802执行的计算机程序。存储器1801可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1801可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1801也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1801是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器1801可以是上述存储器的组合。

处理器1802，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1802，用于调用存储器1801中存储的计算机程序时实现上述推荐模型训练方法或推荐方法。

通讯模块1803用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1801、通讯模块1803和处理器1802之间的具体连接介质。本申请实施例在图18中以存储器1801和处理器1802之间通过总线1804连接，总线1804在图18中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1804可以分为地址总线、数据总线、控制总线等。为便于描述，图18中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1801中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的推荐模型训练方法或推荐方法。处理器1802用于执行上述的推荐模型训练方法或推荐方法，如图2或图12所示。

在另一种实施例中，电子设备也可以是其他电子设备，如图1所示的客户端101。在该实施例中，电子设备的结构可以如图19所示，包括：通信组件1910、存储器1920、显示单元1930、摄像头1940、传感器1950、音频电路1960、蓝牙模块1970、处理器1980等部件。

通信组件1910用于与服务器进行通信。在一些实施例中，可以包括电路无线保真(Wireless Fidelity，WiFi)模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助对象收发信息。

存储器1920可用于存储软件程序及数据。处理器1980通过运行存储在存储器1920的软件程序或数据，从而执行客户端101(如终端设备)的各种功能以及数据处理。存储器1920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1920存储有使得客户端101能运行的操作系统。本申请中存储器1920可以存储操作系统及各种应用程序，还可以存储执行本申请实施例推荐模型训练方法或推荐方法的代码。

显示单元1930还可用于显示由对象输入的信息或提供给对象的信息以及客户端101的各种菜单的图形对象界面(graphical user interface，GUI)。具体地，显示单元1930可以包括设置在客户端101正面的显示屏1932。其中，显示屏1932可以采用液晶显示器、发光二极管等形式来配置。显示单元1930可以用于显示本申请实施例中的多媒体信息推荐界面等。

显示单元1930还可用于接收输入的数字或字符信息，产生与客户端101的对象设置以及功能控制有关的信号输入，具体地，显示单元1930可以包括设置在客户端101正面的触摸屏1931，可收集对象在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触摸屏1931可以覆盖在显示屏1932之上，也可以将触摸屏1931与显示屏1932集成而实现客户端101的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1930可以显示应用程序以及对应的操作步骤。

摄像头1940可用于捕获静态图像，对象可以将摄像头1940拍摄的图像通过应用发布评论。摄像头1940可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1980转换成数字图像信号。

客户端还可以包括至少一种传感器1950，比如加速度传感器1951、距离传感器1952、指纹传感器1953、温度传感器1954。客户端101还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1960、扬声器1961、传声器1962可提供对象与客户端101之间的音频接口。音频电路1960可将接收到的音频数据转换后的电信号，传输到扬声器1961，由扬声器1961转换为声音信号输出。客户端101还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1962将收集的声音信号转换为电信号，由音频电路1960接收后转换为音频数据，再将音频数据输出至通信组件1910以发送给比如另一客户端，或者将音频数据输出至存储器1920以便进一步处理。

蓝牙模块1970用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，客户端可以通过蓝牙模块1970与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

处理器1980是客户端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1920内的软件程序，以及调用存储在存储器1920内的数据，执行客户端的各种功能和处理数据。在一些实施例中，处理器1980可包括一个或多个处理单元；处理器1980还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、对象界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1980中。本申请中处理器1980可以运行操作系统、应用程序、对象界面显示及触控响应，以及本申请实施例的推荐模型训练方法或推荐方法。另外，处理器1980与显示单元1930耦接。

在一些可能的实施方式中，本申请提供的推荐模型训练方法或推荐方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的推荐模型训练方法或推荐方法中的步骤，例如，计算机设备可以执行如图2或图12中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在对象计算装置上执行、部分地在对象设备上执行、作为一个独立的软件包执行、部分在对象计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到对象计算装置，或者，可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品，该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种推荐模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于参考模型，对提取的样本数据进行特征分析，获得表征相应的样本对象和样本多媒体信息之间的关联程序的交叉特征集，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述提取的样本数据还包括：参考预估概率；所述参考预估概率为预设的所述样本对象选择所述样本多媒体信息的预估概率；

则所述至少基于所述交叉特征集，确定所述样本对象选择所述样本多媒体信息的第一预估概率，包括：

4.根据权利要求3所述的方法，其特征在于，所述推荐模型为应用于推荐系统中粗排阶段的模型，则所述参考预估概率是采用以下方式获得的：

基于应用于所述推荐系统中精排阶段的模型，确定所述样本对象选择所述样本多媒体信息的预估概率；

将所述预估概率，确定为所述参考预估概率。

5.根据权利要求1或2所述的方法，其特征在于，所述获得样本数据集合之后，所述至少基于所述交叉特征集，确定所述样本对象选择所述样本多媒体信息的第一预估概率之前，所述方法还包括：

6.根据权利要求1或2所述的方法，其特征在于，基于所述第一预估概率、所述第二预估概率和相应的样本概率，确定相应的训练损失，包括：

7.一种推荐方法，其特征在于，所述方法包括：

响应于推荐请求，获取相应的目标对象及候选多媒体信息集合，将所述目标对象及提取的候选多媒体信息输入至基于权利要求1-6任一所述的方法训练得到的目标推荐模型中；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取所述目标对象选择所述目标多媒体信息的实际概率信息；

基于所述目标对象、目标多媒体信息以及所述实际概率信息，生成相应的优化样本数据；其中，所述优化样本数据用于作为对所述目标推荐模型进行再次训练时的样本数据。

9.一种推荐模型训练装置，其特征在于，所述装置包括：

10.一种推荐装置，其特征在于，所述装置包括：

输入模块：用于响应于推荐请求，获取相应的目标对象及候选多媒体信息集合，将所述目标对象及提取的候选多媒体信息输入至基于权利要求1-6任一所述的方法训练得到的目标推荐模型中；

11.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1至8任一项所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述存储介质在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1至8任一项所述方法的步骤。

13.一种计算机程序产品，其特征在于，其包括计算机指令，所述计算机指令被处理器执行时实现权利要求1至8任一项所述方法的步骤。