CN114579869B

CN114579869B - 模型训练方法以及相关产品

Info

Publication number: CN114579869B
Application number: CN202210478030.8A
Authority: CN
Inventors: 刘子璐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-07-22
Anticipated expiration: 2042-05-05
Also published as: CN114579869A

Abstract

本申请实施例公开了一种模型训练方法以及相关产品。模型训练方法包括：获取对象的对象信息和多媒体数据的属性信息；采用双塔特征提取模型对对象的对象信息进行特征提取处理，得到对象的底层语义特征和高层语义特征；并采用双塔特征提取模型对多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征；采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征；基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和目标增强特征之间的相似差异性，对交互增强模型及双塔特征提取模型进行同步训练。采用本申请，可以提升特征提取模型提取特征的准确性。

Description

模型训练方法以及相关产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型训练方法以及相关产品。

背景技术

在现有的多媒体数据推荐系统中，通过特征提取模型提取对象的特征和多媒体数据的特征，基于对象特征和多媒体数据特征之间的距离，来确定该多媒体数据是否为该对象的待推荐多媒体数据。在应用特征提取模型之前，通常需要先对特征提取模型进行训练，因此如何设计合理的模型训练方法，以提升特征提取模型提取特征的准确性是有待解决的问题。

发明内容

本申请实施例提供一种模型训练方法以及相关产品，可以提升特征提取模型提取特征的准确性。

本申请实施例一方面提供了一种模型训练方法，包括：

获取对象的对象信息和多媒体数据的属性信息；

采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；并采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征；

采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征；所述目标底层语义特征包括所述对象的底层语义特征和所述多媒体数据的底层语义特征中的一种或多种；

基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练，训练好的双塔特征提取模型用于多媒体数据推荐，所述目标高层语义特征包括所述对象的高层语义特征和所述多媒体数据的高层语义特征中的一种或多种，且所述目标高层语义特征和所述目标增强特征之间具备可交互关系。

本申请实施例一方面提供了一种多媒体数据处理方法，包括：

获取推荐请求，所述推荐请求包括目标对象的对象信息；

采用双塔特征提取模型对所述目标对象的对象信息进行特征提取处理，得到所述目标对象的高层语义特征，所述双塔特征提取模型是采用上述模型训练方法训练得到的；

根据所述目标对象的高层语义特征和N个目标多媒体数据的高层语义特征，从所述N个目标多媒体数据中确定待推荐多媒体数据；目标多媒体数据的高层语义特征是采用所述双塔特征提取模型对所述目标多媒体数据的属性信息进行特征提取处理后的特征；

输出所述待推荐多媒体数据。

本申请实施例一方面提供了一种模型训练装置，包括：

第一获取模块，用于获取对象的对象信息和多媒体数据的属性信息；

处理模块，用于采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；并采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征；

所述处理模块，还用于采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征；所述目标底层语义特征包括所述对象的底层语义特征和所述多媒体数据的底层语义特征中的一种或多种；

训练模块，用于基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练，训练好的双塔特征提取模型用于多媒体数据推荐，所述目标高层语义特征包括所述对象的高层语义特征和所述多媒体数据的高层语义特征中的一种或多种，且所述目标高层语义特征和所述目标增强特征之间具备可交互关系。

本申请实施例一方面提供了一种多媒体数据处理装置，包括：

第二获取模块，用于获取推荐请求，所述推荐请求包括目标对象的对象信息；

第二获取模块，还用于采用双塔特征提取模型对所述目标对象的对象信息进行处理，得到所述目标对象的高层语义特征，所述双塔特征提取模型是上述模型训练方法训练得到的；

第二获取模块，还用于根据所述目标对象的高层语义特征和N个目标多媒体数据的高层语义特征，从所述N个目标多媒体数据中确定待推荐多媒体数据；目标多媒体数据的高层语义特征是采用所述双塔特征提取模型对所述目标多媒体数据的属性信息进行处理后的特征；

输出模块，用于输出所述待推荐多媒体数据。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品，计算机程序产品包括计算机程序/指令，计算机程序/指令存储在计算机可读存储介质中，计算机程序/指令被计算机设备的处理器执行时，执行上述各实施例中的方法。

本申请在双塔特征提取模型的基础上新增交互增强模型，该交互增强模型用于增强底层语义特征，而基于增强后的底层语义特征以及与该特征具备可交互关系的高层语义特征之间的差异性进行模型训练，可以使得双塔特征提取模型在底层特征就学习到对象和多媒体数据之间的交互信息，丰富交互信息的表征方式，进而解决双塔特征提取模型的内生性问题，提高双塔特征提取模型提取特征的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种双塔模型的架构图一；

图2是本申请实施例提供的一种双塔模型的架构图二；

图3是本申请实施例提供的一种双塔模型的架构图三；

图4是本申请实施例提供的一种双塔模型的架构图四；

图5是本申请实施例提供的一种模型训练的系统架构图；

图6是本申请实施例提供的一种模型训练的流程示意图一；

图7是本申请实施例提供的一种模型训练的流程示意图二；

图8是本申请实施例提供的一种双塔模型的架构图五；

图9是本申请实施例提供的一种多目标双塔模型的架构图一；

图10是本申请实施例提供的一种模型训练的流程示意图三；

图11是本申请实施例提供的一种双塔模型的架构图六；

图12是本申请实施例提供的一种多目标双塔模型的架构图二；

图13是本申请实施例提供的一种模型训练的流程示意图四；

图14是本申请实施例提供的一种双塔模型的架构图七；

图15是本申请实施例提供的一种多目标双塔模型的架构图三；

图16是本申请实施例提供的一种多媒体数据处理的流程示意图；

图17是本申请实施例提供的一种多媒体数据推荐的示意图一；

图18是本申请实施例提供的一种多媒体数据推荐的示意图二；

图19是本申请实施例提供的一种模型训练装置的结构示意图；

图20是本申请实施例提供的一种多媒体数据处理装置的结构示意图；

图21是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的具体实施方式中，涉及到对象的对象信息、多媒体数据的属性信息、推荐请求等相关的数据，当本申请实施例中运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请提出了一种模型训练方法，可以联合对象的高层语义特征和多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和目标增强特征之间的相似差异性共同训练双塔特征提取模型，提升双塔特征提取模型在底层特征学习到的对象和多媒体数据之间的交互信息，提高双塔特征提取模型提取特征的准确性。该模型训练方法具体涉及人工智能技术中的机器学习技术，机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

本申请具体涉及机器学习中的人工神经网络中的双塔模型，请参见图1，图1是本申请实施例提供的一种双塔模型的架构图一，双塔模型全称为Deep Structured SemanticModels（深度语义匹配模型），因其效果不错，且对工业界海量数据处理十分友好，被广泛应用于推荐系统中。双塔模型分为对象塔和Item塔，由于本申请中双塔模型应用于多媒体数据推荐场景，因此Item塔可以称为多媒体数据塔。对象塔基于对象的对象信息（例如，对象基本信息，群体统计属性以及发生过交互的多媒体数据等）提取对象特征User Embedding，多媒体数据塔基于多媒体数据的属性信息（例如，多媒体数据基本信息，属性信息等）提取多媒体特征Item Embedding。对象塔中的对象模型（或者多媒体数据塔中的多媒体模型）可以是由DNN（Deep Neural Networks，深度神经网络）+MLP（（Multilayer Perceptron，多层感知机））组成。最后根据对象塔输出的对象特征和多媒体数据塔输出的多媒体特征之间的距离，来确定多媒体数据是否为对象的待推荐多媒体数据。

在双塔模型训练过程中，对象特征User Embedding和多媒体特征Item Embedding做内积或者做Cosine相似度计算，使得对象和正样本的多媒体数据在特征空间更接近，和负样本的多媒体数据在特征空间距离拉远。

从上述可知，双塔模型具有的“分离”特点，即在模型底层中，对象信息与多媒体数据的属性信息互相不产生依赖，因而海量的多媒体特征向量就可以周期性的批量离线生成，大大减轻了线上服务器的压力。然而，这样的结构特点也同时带来了一些问题：

（1）信息交互弱。对象和多媒体数据产生交互是在双塔顶层的交叉计算，这时参与交叉的已经是高维度向量，信息被高度浓缩。

（2）在（1）的基础上，高低活对象在行为分布上的差异被进一步忽视，模型难以对不同活跃度群体进行建模。不同活跃度对象在推荐系统中的数据表现天然有较大的差异。高活对象行为丰富，模型训练往往会更充分，推荐结果往往也会更加精准；而低活对象数据稀疏，噪声大，信息容易被淹没在高活数据当中，使得其学习难度大大增强。但低活对象是一个推荐系统中非常核心的对象群体，更加精准地向低活用户推荐数据，才能让整个推荐生态的转化率、留存率以及推荐准确性进行不断的提升。

基于上述两大问题，可以对双塔模型进行优化，主要分为特征优化，网络模块优化以及分离建模优化。特征优化，指的是通过数据挖掘，增加更多能够对划分高低活对象的对象特征，如活跃度、消费时间等，从而提升模型对高低活对象的建模效果（如图2所示）；网络模块优化，指的是通过更加复杂的网络结构对输入层进行信息抽取，从而提升模型对高低活对象的建模能力（如图3所示）；分离建模优化，指的是在已有方案基础上，针对不同的高低活对象训练不同的模型，为不同活跃度的群体对象单独建模（如图4所示）。但上述优化方案存在如下问题：(1)特征优化：这种方式虽然简单，但没有解决双塔模型最本质的交互难题。新增的特征往往是更加显式的增强不同活跃度群体的差异表征，但在丰富的高活用户数据影响下，低活用户信息很难被模型所关注到，通过层层的信息抽取，在得到对象向量时，“活跃度“信息可能并不显著了。(2)网络模块优化：对网络模块进行优化，本质是希望在网络层抽取更加有用的信息，弱化噪音，同时增强特征之间的交互，携带更加丰富的信息。通过不断提升网络模块的信息抽取能力，双塔模型对高低活对象的信息差异的学习得到一定提升，然而在不断优化过程中，模型复杂度往往也不断膨胀，对线上服务器带来较大压力。(3)分离建模优化：使用两个模型分别建模高低活对象，能够清晰的建模高低活群体的数据差异分布，但高低活对象能够共享与迁移的信息在建模中被切断，且多模型进行推理，也消耗了更多的服务器资源，工程复杂度大大增加。

本申请针对双塔模型的特点进行改进，设计了一种针对高低活对象的增强双塔模型提升方案，通过增加一个辅助网络模块来抽取高低活对象信息和高低热多媒体数据信息，并通过SENET（Squeeze-and-Excitation Networks，压缩和激励网络）进一步强化提取不同对象群体的有效信息，在不带来工程压力的情况下，更有效的为高低活对象推荐精准的内容，从而提升用户体验，提升用户留存，DAU（Daily Active User，日均活跃用户），以及推荐准确性等核心指标。

请参见图5，其是本申请实施例提供的一种模型训练的系统架构图。服务器10f通过交换机10e和通信总线10d与终端设备集群建立连接，终端设备集群可包括：终端设备10a、终端设备10b、...、终端设备10c。服务器10f可以获取用于模型训练的对象的对象信息和多媒体数据的属性信息，采用双塔特征提取模型对上述对象信息进行处理，得到对象的底层语义特征和高层语义特征，并采用双塔特征提取模型对上述属性信息进行处理，得到多媒体数据的底层语义特征和高层语义特征。服务器10f可以采用交互增强模型对对象的底层特征和/或多媒体数据的底层特征进行增强处理，得到目标增强特征，基于对象的高层语义特征和多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和目标增强特征之间的相似差异性，对双塔特征提取模型和交互增强模型进行同步训练，训练好的双塔特征提取模型用于多媒体数据推荐，目标高层语义特征包括对象的高层语义特征和多媒体数据的高层语义特征中的一种或多种，且目标高层语义特征和目标增强特征之间具备可交互关系。

后续，服务器10f可以将训练好的双塔特征提取模型下发至终端设备集群中的各个终端设备。以终端设备10a为例，当终端设备10a接收到针对目标对象的推荐请求时，采用服务器10f下发的特征提取模型对目标对象的对象信息进行处理，得到目标对象的高层语义特征，根据目标对象的高层语义特征和N个目标多媒体数据的高层语义特征之间的特征距离，从N个目标多媒体数据中选择出待推荐多媒体数据，终端设备10a可以显示待推荐多媒体数据，其中，目标多媒体数据的高层语义特征也是训练好的双塔特征提取模型提取的。

推荐过程也可以由终端设备和服务器之间交互完成，仍以终端设备10a为例，当终端设备10a接收到针对目标对象的推荐请求时，可以将推荐请求发送至服务器10f，由服务器10f来确定待推荐多媒体数据，服务器10f可以将待推荐多媒体数据发送至终端设备10a，由终端设备10a显示出待推荐多媒体数据。

终端设备也可以称为终端(Terminal)、用户设备(user equinment, UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能家电、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer, PC)、车载终端、飞行器、智能语音交互设备、可穿戴设备或者其他智能装置等，但并不局限于此。

服务器10f可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network,CDN）、智慧交通平台、自动驾驶云以及大数据和人工智能平台等基础云计算服务的云服务器。

请参见图6，其是本申请实施例提供的一种模型训练的流程示意图一，由于本实施例涉及大规模运算的模型训练，下述实施例以服务器为执行主体进行描述，模型训练可以包括如下步骤：

步骤S601，获取对象的对象信息和多媒体数据的属性信息。

具体的，服务器获取用于模型训练的对象的对象信息和多媒体数据的属性信息，对象可以具体是用户，对象信息即是用户信息，多媒体数据可以是视频，文本，图像，音频中的任一种。对象信息可以包括定长离散型特征、非定长离散型特征与连续性特征。定长离散型特征指的是取值为离散型，且长度固定的非序列特征，对象信息的定长离散型特征主要包括：用户性别（男/女）、用户年龄段（青年/中年/老年等）、用户活跃程度（低活/中活/高活）、用户工作类别（律师/程序员/教师等）、用户当前城市类型（一线城市/二线城市/三线城市等）、用户手机系统（安卓/IOS）、用户ID等。非定长离散型特征指的是取值为离散型，长度不定的序列特征，对象信息的非定长离散型特征主要包括：用户曝光的多媒体数据序列、用户点击的多媒体数据序列、用户点赞的多媒体数据序列、用户关注的发文号主序列等。连续性特征指的是取值为连续值的特征，对象信息的连续性特征主要包括：用户的年龄、用户当前性别群体对多媒体数据类型的统计值（曝光数/点击数/点击率）、用户当前年龄段群体对多媒体数据类型的统计值（曝光数/点击数/点击率）、用户历史一个月对多媒体数据类型的统计值（曝光数/点击数/点击率）等。

属性信息主要包括定长离散型特征与连续性特征，属性信息的定长离散型特征主要包括：多媒体数据ID、多媒体数据种类（娱乐/体育/经济等）、多媒体数据发布号主ID等。属性信息的连续性特征主要包括：多媒体数据的统计数（曝光数/点击数/点击率/分享数/转发数/多媒体数据时长等）、多媒体数据所在分类的统计数（曝光数/点击数/点击率/分享数/转发数等）等。

对象信息和属性信息中的定长离散型特征、非定长离散型特征是经过one-hot编码后的特征。

步骤S602，采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；并采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征。

具体的，双塔特征提取模型包括对象特征提取模型和多媒体特征提取模型，对象特征提取模型包括对象嵌入层和对象语义层。由于对象信息包括定长离散型特征、非定长离散型特征与连续性特征，服务器可以将对象信息中的定长离散型特征、非定长离散型特征输入对象特征提取模型，对象特征提取模型中的对象嵌入层分别对定长离散型特征中的每个分量进行处理，处理后的特征拼接为定长原始特征，对象嵌入层分别对非定长离散型特征中的每个分量进行处理，得到每个分量的非定长原始特征，将每个分量的非定长特征进行池化，将池化后的每个分量的非定长特征拼接为长度固定的非定长原始特征。服务器将上述定长原始特征、长度固定的非定长原始特征以及连续性特征拼接为对象的底层语义特征。将特征进行拼接是指将特征按照一定顺序连接在一起，以得到一个维度更大的特征。例如，特征A表示为[0，0，0]，特征B表示为[1，1，1]，那么按照特征A在前特征B在后的顺序，将这两个特征进行拼接可以得到拼接后的特征C：[0，0，0，1，1，1]。当然，进行拼接的特征都是向量特征。

提取出对象的底层语义特征后，接下来进入对象语义层，对象语义层可以包括SENet（Squeeze-and-Excitation Networks，压缩和激励网络）和MLP（MultilayerPerceptron，多层感知机）；可选的，SENet也可以替换为Feed-Forward Attention（前馈注意力网络）或者Self Attention（自注意力网络）。

对象语义层对对象的底层语义特征进行处理，得到对象的高层语义特征。对象的底层语义特征可以认为是对象的泛化且易于表达的特征，对象的高层语义特征是复杂且难以说明的特征，对象的高层语义特征相比底层语义特征，是高度浓缩的特征。

同样地，多媒体特征提取模型包括多媒体嵌入层和多媒体语义层。由于属性信息包括定长离散型特征和非定长离散型特征，服务器可以将属性信息中的定长离散型特征和非定长离散型特征输入多媒体特征提取模型，多媒体特征提取模型中的多媒体嵌入层分别对定长离散型特征中的每个分量进行处理，拼接为定长原始特征，多媒体嵌入层分别对非定长离散型特征中的每个分量进行处理，得到每个分量的非定长原始特征，将每个分量的非定长特征进行池化，将池化后的每个分量的非定长特征拼接为长度固定的非定长原始特征。服务器将上述定长原始特征以及长度固定的非定长原始特征拼接为多媒体数据的底层语义特征。

提取出多媒体数据的底层语义特征后，接下来进入多媒体语义层，多媒体语义层同样可以包括SENet和MLP，多媒体语义层对多媒体数据的底层语义特征进行处理，得到多媒体数据的高层语义特征。多媒体数据的底层语义特征可以认为是多媒体数据的泛化且易于表达的特征，对象的高层语义特征是复杂且难以说明的特征，多媒体数据的高层语义特征相比底层语义特征，是高度浓缩的特征。

语义层（包括对象语义层和多媒体语义层）也可以包括为DCN（Deep CrossNetwork，深度交叉网络），或者包括AutoInt（自动特征交互网络）。

步骤S603，采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征；所述目标底层语义特征包括所述对象的底层语义特征和所述多媒体数据的底层语义特征中的一种或多种。

具体的，服务器从对象的底层语义特征和多媒体数据的底层语义特征中选出目标底层语义特征，目标底层语义特征可以包括对象的底层语义特征和/或多媒体数据的底层语义特征。

服务器可以将目标底层语义特征输入交互增强模型，交互增强模型可以是MLP，或者是DNN，或者是DCN，或者是AutoInt。交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征。可选的，除了直接对目标底层语义特征进行增强处理以外，还可以先从目标底层语义特征中筛选出强个性化特征和弱个性化特征，强个性化特征指的是特征值范围较大，且较少出现在其他对象的数据中（或者多媒体数据），能强烈表现出该对象（或者该多媒体数据）的个性化的特征；弱个性化特征指的是取值范围较小，很容易出现在其他对象的数据中（或者多媒体数据），往往表征一个大群体的兴趣表征。服务器将筛选出来的强个性化特征和弱个性化特征组合为个性化特征，将个性化特征输入交互增强模型，交互增强模型对个性化特征进行增强处理，得到目标增强特征。

可选的，除了按照上述确定对象的高层语义特征和多媒体数据的高层语义特征以外，也可以基于个性化特征计算出高层语义特征，具体过程为：服务器也可以将对象的底层语义特征和对象的底层语义特征中筛选出来的强个性化特征和弱个性化特征进行拼接，将拼接后的特征采用对象语义层进行特征提取处理，得到对象的高层语义特征；同样地，可以将多媒体数据的底层语义特征和从多媒体数据的底层语义特征中筛选出来的强个性化特征和弱个性化特征进行拼接，将拼接后的特征采用多媒体语义层进行特征提取处理，得到多媒体数据的高层语义特征。通俗来说，拼接后的特征里，对象（或者多媒体数据）的强个性化特征和弱个性化特征会出现2次。这种方式可以强化高低活对象（或者高低热多媒体数据）的特征在高层语义特征中的表征，发现高低活对象（或者高低热多媒体数据）的差异，提升高层语义特征的表征能力。

步骤S604，基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练，训练好的双塔特征提取模型用于多媒体数据推荐，所述目标高层语义特征包括所述对象的高层语义特征和所述多媒体数据的高层语义特征中的一种或多种，且所述目标高层语义特征和所述目标增强特征之间具备可交互关系。

具体的，目标增强特征和目标高层语义特征之间具备可交互关系是指目标增强特征的类型和目标高层语义特征的类型不同，此处的类型用于区别特征是关于对象的特征还是关于多媒体数据的特征，或者目标增强特征包括对象增强特征和多媒体增强特征，以及目标高层语义特征包括对象的高层语义特征和或媒体数据的高层语义特征。例如，目标增强特征是对象的增强特征，那么与该目标增强特征具有可交互关系的目标高层语义特征即是多媒体数据的高层语义特征；目标增强特征是多媒体数据的增强特征，那么与该目标增强特征具有可交互关系的目标高层语义特征即是对象的高层语义特征。再例如，目标增强特征包括对象的增强特征和多媒体数据的增强特征，那么与该目标增强特征具有可交互关系的目标高层语义特征即是多媒体数据的高层语义特征和对象的高层语义特征。

服务器基于对象的高层语义特征和多媒体数据的高层语义特征之间的相似差异性构建相似损失，服务器基于目标高层语义特征和目标增强特征之间的相似差异性构建交互增强损失，将上述两个损失叠加为目标损失，采用梯度下降法将目标损失最小化，同步训练双塔特征提取模型和交互增强模型，其中，将损失进行叠加是指将损失相加，即目标损失等于相似损失与交互增强损失之和。训练好的双塔特征提取模型用于多媒体数据推荐，其中，双塔特征提取模型训练好是指训练前后模型参数不再变化，或者变化率小于阈值，或者训练次数达到预设次数等。

上述可知，双塔特征提取模型通过相似损失，使得对象和正样本的多媒体数据在特征空间更接近，和负样本的多媒体数据在特征空间距离拉远；通过交互增强损失，使得双塔特征提取模型在底层特征就学习到对象和多媒体数据之间的交互信息，丰富交互信息的表征，同时在不增加机器资源服务的情况下用于线上推理，增强了双塔模型的交互能力。

请参见图7，图7是本申请实施例提供的一种模型训练的流程示意图二，本实施例主要描述当目标底层语义特征包括对象的底层语义特征，目标高层语义特征包括多媒体数据的高层语义特征时，如何对双塔特征提取模型进行训练，具体包括如下步骤：

步骤S701，获取对象的对象信息和多媒体数据的属性信息，采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；并采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征。

其中，步骤S701的具体过程可以参见上述图6对应实施例中的步骤S601-步骤S602。

步骤S702，采用交互增强模型对对象的底层语义特征进行增强处理，得到对象的增强特征。

具体的，当目标底层语义特征包括对象的底层语义特征时，交互增强模型包括对象增强模型，对象增强模型可以是MLP，或者是DNN。服务器将目标底层语义特征输入对象增强模型，对象增强模型可以直接对目标底层语义特征进行增强处理，得到对象的增强特征，该对象的增强特征即是目标增强特征。为了体现高低活对象的行为差异，在采用对象增强模型对目标底层语义特征进行处理前，可以先对目标底层语义特征进行筛选，筛选出高活对象的底层语义特征和低活对象的底层语义特征，然后采用对象增强模型对筛选后的特征进行增强处理，以得到对象的增强特征，具体过程如下：

服务器从对象的底层语义特征中筛选出强个性化对象特征和弱个性化对象特征，强个性化对象特征指的是特征值范围较大，且较少出现在其他对象的数据中，能强烈表现出该对象的个性化的特征，如对象ID对应的底层语义特征、用户曝光（或者点击，或者点赞等）过的多媒体数据序列对应的底层语义特征等，一般来说高活对象数据较多，这些强个性化对象特征往往能很好的表征高活对象的喜好；弱个性化对象特征指的是取值范围较小，很容易出现在其他对象的数据中，往往表征一个大群体的兴趣表征，如对象活跃度信息对应的底层语义特征、年龄对应的底层语义特征、性别对应的底层语义特征等，因为低活对象数据较少，这些弱个性化对象特征往往会对数据稀疏的低活对象起到很好的表征作用。服务器将筛选出来的强个性化对象特征和弱个性化对象特征拼接为对象的个性化对象特征，服务器采用对象增强模型对个性化对象特征进行增强处理，得到对象的增强特征。

步骤S703，基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，确定相似损失。

具体的，服务器将对象的高层语义特征和多媒体数据的高层语义特征代入下述公式（1），以构建相似损失：

(1)

其中，

表示第i条样本的相似损失，

表示第i条样本的真实标签（其中，若对象和多媒体数据具备关联关系，则

的取值为1；反之，若对象和多媒体数据不具备关联关系，则

的取值为0，是否具备关联关系是指对象是否与多媒体数据进行了交互，例如，点赞，阅览，评论等），

表示第i条样本的对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，具体可以是对象的高层语义特征与多媒体数据的高层语义特征之间的点积。

步骤S704，基于对象的增强特征与多媒体数据的高层语义特征之间的差异性，确定对象交互增强损失。

具体的，服务器将对象的增强特征和多媒体数据的高层语义特征代入下述公式（2），以构建对象交互增强损失：

(2)

其中，

表示第i条样本的对象交互增强损失，

表示第i条样本的对象的增强特征，

表示第i条样本的多媒体数据的高层语义特征。

步骤S705，将所述相似损失和所述对象交互增强损失叠加为目标损失，根据所述目标损失同步训练所述双塔特征提取模型和所述交互增强模型。

具体的，服务器可以将上述相似损失和所述对象交互增强损失叠加为目标损失，目标损失的计算公式如下：

(3)

其中，

表示目标损失。

分析上述公式（2）可以知道，若对象和多媒体数据之间的不具有关联关系，即

的取值为0，那么对象交互增强损失为预设参数0；若对象和多媒体数据之间的具有关联关系，即

的取值为1，那么可以基于对象的增强特征和多媒体数据的高层语义特征构建对象交互增强损失。

另外，从前述可知，双塔特征提取模型包括多媒体特征提取模型，多媒体特征提取模型包括多媒体嵌入层和多媒体语义层，多媒体数据的高层语义特征是多媒体语义层对多媒体数据的底层语义特征进行特征提取处理后输出的特征。本申请通过关闭梯度下降(stop gradient)的方式，构造对象交互增强损失中的多媒体数据的高层语义特征，即在基于目标损失同步训练双塔特征提取模型和交互增强模型过程中，对象交互增强损失不参与对多媒体特征提取模型中的多媒体语义层的训练。通俗来说，相似损失会参与双塔特征提取模型的训练，对象交互增强损失只参与交互增强模型和双塔特征提取模型中的对象特征提取模型中的对象嵌入层的训练。

当双塔特征提取模型是多任务模型时，多媒体数据的高层语义特征包括针对第一任务的第一多媒体高层语义特征和针对第二任务的第二多媒体高层语义特征，对象的增强特征包括针对第一任务的第一对象增强特征和针对第二任务的第二对象增强特征，因此在确定对象交互增强损失时，基于两个任务分别确定损失，具体为：将第一多媒体高层语义特征和第一对象增强特征代入上述公式（2），确定第一对象交互增强损失；将第二多媒体高层语义特征和第二对象增强特征代入上述公式（2），确定第二对象交互增强损失，将上述第一对象交互增强损失和第二对象交互增强损失叠加为对象交互增强损失。

后续可以将对象交互增强损失和相似损失叠加为目标损失，进而同步训练双塔特征提取模型和交互增强模型，当然，相似损失和对象交互增强损失类似，也是包含针对第一任务的相似损失和针对第二任务的相似损失。

请参见图8，图8是本申请实施例提供的一种双塔模型的架构图五，通过嵌入层（即对应本申请的对象嵌入层）对输入层输出的对象的定长特征、不定长特征和连续特征进行特征提取处理，然后对处理后的特征进行拼接，得到对象的底层语义特征。通过语义层（即对应本申请的对象语义层）中的压缩激励网络和深度网络对该底层语义特征进行特征提取处理，得到对象高层特征（即对应本申请的对象的高层语义特征）。同样地，通过嵌入层（即对应本申请的多媒体嵌入层）对输入层输出的多媒体数据的定长特征、不定长特征和连续特征进行特征提取处理，然后对处理后的特征进行拼接，得到多媒体数据的底层语义特征。通过语义层（即对应本申请的多媒体语义层）中的压缩激励网络和深度网络对该底层语义特征进行特征提取处理，得到多媒体高层特征（即对应本申请的多媒体数据的高层语义特征）。将上述对象高层特征和多媒体高层特征之间的内积代入交叉熵损失函数（即上述公式（1）），可以确定相似损失；从对象的底层语义特征筛选出对象的强个性化特征和弱个性化特征，将筛选出来的特征进行拼接后输入交互增强模型，模型输出对象增强特征（即对应本申请的对象的增强特征）。将对象增强特征和多媒体高层特征代入条件均方误差损失函数（即上述公式（2）），得到对象交互增强损失。将上述两个损失叠加为目标损失，基于目标损失训练双塔模型和交互增强模型。

请参见图9，图9是本申请实施例提供的一种多目标双塔模型的架构图一，多目标双塔模型相对单目标双塔模型（如上述图8）来说，差别在于语义层包括压缩激励网络和多个专家网络，每个专家网络都可以输出针对每个目标的特征，然后通过门限确定每个专家网络输出的特征的权重，进而对专家网络输出的特征进行加权求和，得到针对不同任务的高层特征。如图9中的，针对第一任务的对象高层特征1和多媒体高层特征1，以及针对第二任务的对象高层特征2和多媒体高层特征2，由4个高层特征确定针对不同任务的相似损失，然后将这两个相似损失叠加为最终的相似损失。从对象的底层语义特征筛选出对象的强个性化特征和弱个性化特征，将筛选出来的特征进行拼接输入交互增强模型，同样地，交互增强模型也包括多个专家网络，进而由多个专家网络输出针对不同任务的对象增强特征1和对象增强特征2。将对象增强特征1和多媒体高层特征1代入条件均方误差损失函数，得到第一对象交互增强损失，将对象增强特征2和多媒体高层特征2代入条件均方误差损失函数，得到第二对象交互增强损失。然后将这两个相似损失叠加为最终的对象交互增强损失，最终将上述叠加后的相似损失和叠加后的对象交互增强损失叠加为目标损失，基于目标损失训练双塔模型和交互增强模型。

上述可知，通过显示的引入交互增强模型学习高低活对象和多媒体数据之间的交互信息，提升双塔模型对交互的学习能力；另外，基于语义层中的SENet模块对输入特征进行充分挖掘，增强相应对象的有效信息，过滤无效噪音，提升推荐的精度和效率；进一步，从对象的底层语义特征中筛选出高活对象的特征和低活对象的特征，对高低活对象进行行为建模，以使模型学习到高低活对象的行为差异，进一步提升对高低活对象的推荐准确率。

请参见图10，图10是本申请实施例提供的一种模型训练的流程示意图三，本实施例主要描述当目标底层语义特征包括多媒体数据的底层语义特征，目标高层语义特征包括对象的高层语义特征时，如何对双塔特征提取模型进行训练，具体包括如下步骤：

步骤S1001，获取对象的对象信息和多媒体数据的属性信息，采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；并采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征。

其中，步骤S1001的具体过程可以参见上述图6对应实施例中的步骤S601-步骤S602。

步骤S1002，采用交互增强模型对多媒体数据的底层语义特征进行增强处理，得到多媒体数据的增强特征。

当目标底层语义特征包括多媒体数据的底层语义特征时，交互增强模型包括多媒体增强模型，多媒体增强模型同样可以是MLP，或者是DNN。服务器将目标底层语义特征输入多媒体增强模型，多媒体增强模型可以直接对目标底层语义特征进行增强处理，得到多媒体数据的增强特征，该多媒体数据的增强特征即是目标增强特征。为了体现高低热多媒体数据的差异，在采用多媒体增强模型对目标底层语义特征进行处理前，可以先对目标底层语义特征进行筛选，筛选出高热多媒体数据的底层语义特征和低热多媒体数据的底层语义特征，然后采用多媒体增强模型对筛选后的特征进行增强处理，以得到多媒体数据的增强特征，具体过程如下：

服务器从多媒体数据的底层语义特征中筛选出强个性化多媒体特征和弱个性化多媒体特征，强个性化多媒体特征指的是特征值范围较大，且较少出现在其他多媒体数据中，能强烈表现出该多媒体数据的个性化的特征，如多媒体数据ID等；弱个性化多媒体特征指的是取值范围较小，很容易出现在其他多媒体数据中，往往表征一个大群体的兴趣表征，如多媒体数据种类等。服务器将筛选出来的强个性化多媒体特征和弱个性化多媒体特征拼接为多媒体数据的个性化多媒体特征，服务器采用多媒体增强模型对个性化多媒体特征进行增强处理，得到多媒体数据的增强特征。

步骤S1003，基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，确定相似损失。

其中，步骤S1003的具体过程可以参见上述图7对应实施例中的步骤S703。

步骤S1004，基于对象的高层语义特征与多媒体数据的增强特征之间的差异性，确定多媒体交互增强损失。

具体的，服务器将对象的高层语义特征和多媒体数据的增强特征代入下述公式（4），以构建多媒体交互增强损失：

(4)

其中，

表示第i条样本的多媒体交互增强损失，

表示第i条样本的多媒体数据的增强特征，

表示第i条样本的对象的高层语义特征。

步骤S1005，将所述相似损失和所述多媒体交互增强损失叠加为目标损失，根据所述目标损失同步训练所述双塔特征提取模型和所述交互增强模型。

具体的，服务器可以将上述相似损失和多媒体交互增强损失叠加为目标损失，目标损失的计算公式如下：

(5)

其中，

表示目标损失。

分析上述公式（4）可以知道，若对象和多媒体数据之间的不具有关联关系，即

的取值为0，那么多媒体交互增强损失为预设参数0；若对象和多媒体数据之间的具有关联关系，即

的取值为1，那么可以基于多媒体数据的增强特征对象的高层语义特征构建多媒体交互增强损失。

另外，从前述可知，双塔特征提取模型包括对象特征提取模型，对象特征提取模型包括对象嵌入层和对象语义层，对象的高层语义特征是对象语义层对对象的底层语义特征进行特征提取处理后输出的特征。本申请通过关闭梯度下降(stop gradient)的方式，构造多媒体交互增强损失中的对象的高层语义特征，即在基于目标损失同步训练双塔特征提取模型和交互增强模型过程中，多媒体交互增强损失不参与对象特征提取模型中的对象语义层的训练。通俗来说，相似损失会参与双塔特征提取模型的训练，多媒体交互增强损失只参与交互增强模型和双塔特征提取模型中的多媒体特征提取模型中的多媒体嵌入层的训练。

当双塔特征提取模型是多任务模型时，对象的高层语义特征包括针对第一任务的第一高层语义特征和针对第二任务的第二高层语义特征，多媒体数据的增强特征包括针对第一任务的第一增强特征和针对第二任务的第二增强特征，因此在确定多媒体交互增强损失时，基于两个任务分别确定损失，具体为：将第一高层语义特征和第一增强特征代入上述公式（4），确定第一多媒体交互增强损失；将第二高层语义特征和第二增强特征代入上述公式（4），确定第二多媒体交互增强损失，将上述第一多媒体交互增强损失和第二多媒体交互增强损失叠加为多媒体交互增强损失。

后续可以将多媒体交互增强损失和相似损失叠加为目标损失，进而同步训练双塔特征提取模型和交互增强模型，当然，相似损失和多媒体交互增强损失类似，也是包含针对第一任务的相似损失和针对第二任务的相似损失。

请参见图11，图11是本申请实施例提供的一种双塔模型的架构图六，通过嵌入层（即对应本申请的对象嵌入层）对输入层输出的对象的定长特征、不定长特征和连续特征进行特征提取处理，然后对处理后的特征进行拼接，得到对象的底层语义特征。通过语义层（即对应本申请的对象语义层）中的压缩激励网络和深度网络对该底层语义特征进行特征提取处理，得到对象高层特征（即对应本申请的对象的高层语义特征）。同样地，通过嵌入层（即对应本申请的多媒体嵌入层）对输入层输出的多媒体数据的定长特征、不定长特征和连续特征进行特征提取处理，然后对处理后的特征进行拼接，得到多媒体数据的底层语义特征。通过语义层（即对应本申请的多媒体语义层）中的压缩激励网络和深度网络对该底层语义特征进行特征提取处理，得到多媒体高层特征（即对应本申请的多媒体数据的高层语义特征）。将上述对象高层特征和多媒体高层特征之间的内积代入交叉熵损失函数，可以确定相似损失；从多媒体数据的底层语义特征筛选出多媒体数据的强个性化特征和弱个性化特征，将筛选出来的特征进行拼接后输入交互增强模型，模型输出多媒体增强特征（即对应本申请的多媒体数据的增强特征）。将多媒体增强特征和对象高层特征代入条件均方误差损失函数，得到多媒体交互增强损失。将上述两个损失叠加为目标损失，基于目标损失训练双塔模型和交互增强模型。

请参见图12，图12是本申请实施例提供的一种多目标双塔模型的架构图二，多目标双塔模型相对单目标双塔模型来说，差别在于语义层包括压缩激励网络和多个专家网络，每个专家网络都可以输出针对每个目标的特征，然后通过门限确定每个专家网络输出的特征的权重，进而对专家网络输出的特征进行加权求和，得到针对不同任务的高层特征。如图12中的，针对第一任务的对象高层特征1和多媒体高层特征1，以及针对第二任务的对象高层特征2和多媒体高层特征2，由4个高层特征确定针对不同任务的相似损失，然后将这两个相似损失叠加为最终的相似损失。从多媒体数据的底层语义特征筛选出多媒体数据的强个性化特征和弱个性化特征，将筛选出来的特征进行拼接后输入交互增强模型，同样地，交互增强模型也包括多个专家网络，进而由多个专家网络输出针对不同任务的多媒体增强特征1和多媒体增强特征2。将多媒体增强特征1和对象高层特征1代入条件均方误差损失函数，得到第一多媒体交互增强损失，将多媒体增强特征2和对象高层特征2代入条件均方误差损失函数，得到第二多媒体交互增强损失。然后将这两个相似损失叠加为最终的多媒体交互增强损失，最终将上述叠加后的相似损失和叠加后的多媒体交互增强损失叠加为目标损失，基于目标损失训练双塔模型和交互增强模型。

上述可知，通过显示的引入交互增强模型学习高低热多媒体数据和对象之间的交互信息，提升双塔模型对交互的学习能力；另外，基于语义层中的SENet模块对输入特征进行充分挖掘，增强相应对象的有效信息，过滤无效噪音，提升推荐的精度和效率；进一步，从多媒体数据的底层语义特征中筛选出高热多媒体数据的特征和低热多媒体数据的特征，对高低热多媒体数据进行行为建模，以使模型学习到高低热多媒体数据的差异，进一步提升对高低热多媒体数据的推荐准确率。

请参见图13，图13是本申请实施例提供的一种模型训练的流程示意图四，本实施例主要描述当目标底层语义特征包括对象的底层语义特征和多媒体数据的底层语义特征，目标高层语义特征包括对象的高层语义特征和多媒体数据的高层语义特征时，如何对双塔特征提取模型进行训练，具体包括如下步骤：

步骤S1301，获取对象的对象信息和多媒体数据的属性信息，采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；并采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征。

其中，步骤S1301的具体过程可以参见上述图6对应实施例中的步骤S601-步骤S602。

步骤S1302，采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征。

当目标底层语义特征包括对象的底层语义特征和多媒体数据的底层语义特征时，交互增强模型包括对象增强模型和多媒体增强模型。服务器将对象的底层语义特征输入对象增强模型，对象增强模型可以直接对对象的底层语义特征进行增强处理，得到对象的增强特征，同时，服务器将多媒体数据的底层语义特征输入多媒体增强模型，多媒体增强模型可以直接对多媒体数据的底层语义特征进行增强处理，得到多媒体数据的增强特征。服务器将上述对象的增强特征和多媒体数据的增强特征组合为目标增强特征。

也可以先筛选出个性化特征，然后进行增强处理：

服务器先从对象的底层语义特征中筛选出个性化对象特征，采用对象增强模型对个性化对象特征进行增强处理，得到对象的增强特征；同时，服务器从多媒体数据的底层语义特征中筛选出个性化多媒体特征，采用多媒体增强模型对个性化多媒体特征进行增强处理，得到多媒体数据的增强特征。服务器将上述对象的增强特征和多媒体数据的增强特征组合为目标增强特征。

步骤S1303，基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，确定相似损失。

其中，步骤S1303的具体过程可以参见上述图7对应实施例中的步骤S703。

步骤S1304，基于对象的增强特征与多媒体数据的高层语义特征之间的差异性，确定对象交互增强损失。

具体的，服务器将对象的增强特征和多媒体数据的高层语义特征代入上述公式（2），以构建对象交互增强损失

。

步骤S1305，基于对象的高层语义特征与多媒体数据的增强特征之间的差异性，确定多媒体交互增强损失。

具体的，服务器将对象的高层语义特征和多媒体数据的增强特征代入上述公式（4），以构建多媒体交互增强损失

。

步骤S1306，将所述相似损失、所述对象交互增强损失和多媒体交互增强损失叠加为目标损失，根据所述目标损失同步训练所述双塔特征提取模型和所述交互增强模型。

具体的，服务器可以将上述相似损失、对象交互增强损失和多媒体交互增强损失叠加为目标损失，目标损失的计算公式如下：

(6)

其中，

表示目标损失。

另外，从前述可知，双塔特征提取模型包括对象特征提取模型和多媒体特征提取模型，对象特征提取模型包括对象嵌入层和对象语义层，多媒体特征提取模型包括多媒体嵌入层和多媒体语义层，对象的高层语义特征是对象语义层对对象的底层语义特征进行特征提取处理后输出的特征，多媒体数据的高层语义特征是多媒体语义层对多媒体数据的底层语义特征进行特征提取处理后输出的特征。本申请通过关闭梯度下降(stop gradient)的方式，构造对象交互增强损失中的多媒体数据的高层语义特征，和构造多媒体交互增强损失中的对象的高层语义特征，即在基于目标损失同步训练双塔特征提取模型和交互增强模型过程中，对象交互增强损失不参与多媒体特征提取模型中的多媒体语义层的训练，且多媒体交互增强损失不参与对象特征提取模型中的对象语义层的训练。通俗来说，相似损失会参与双塔特征提取模型的训练，对象交互增强损失只参与交互增强模型和双塔特征提取模型中的对象特征提取模型中的对象嵌入层的训练，多媒体交互增强损失只参与交互增强模型和双塔特征提取模型中的多媒体特征提取模型中的多媒体嵌入层的训练。

当双塔特征提取模型是多任务模型时，多媒体数据的高层语义特征包括针对第一任务的第一多媒体高层语义特征和针对第二任务的第二多媒体高层语义特征，对象的高层语义特征包括针对第一任务的第一高层语义特征和针对第二任务的第二高层语义特征；对象的增强特征包括针对第一任务的第一对象增强特征和针对第二任务的第二对象增强特征，多媒体数据的增强特征包括针对第一任务的第一增强特征和针对第二任务的第二增强特征。因此在确定对象交互增强损失时，基于两个任务分别确定损失，具体为：将第一多媒体高层语义特征和第一对象增强特征代入上述公式（2），确定第一对象交互增强损失；将第二多媒体高层语义特征和第二对象增强特征代入上述公式（2），确定第二对象交互增强损失，将上述第一对象交互增强损失和第二对象交互增强损失叠加为对象交互增强损失。

在确定多媒体交互增强损失时，基于两个任务分别确定损失，具体为：将第一高层语义特征和第一增强特征代入上述公式（4），确定第一多媒体交互增强损失；将第二高层语义特征和第二增强特征代入上述公式（4），确定第二多媒体交互增强损失，将上述第一多媒体交互增强损失和第二多媒体交互增强损失叠加为多媒体交互增强损失。

后续可以将对象交互增强损失、多媒体交互增强损失和相似损失叠加为目标损失，进而同步训练双塔特征提取模型和交互增强模型，当然，相似损失和对象交互增强损失（或者多媒体交互增强损失）类似，也是包含针对第一任务的相似损失和针对第二任务的相似损失。

请参见图14，图14是本申请实施例提供的一种双塔模型的架构图七，通过嵌入层（即对应本申请的对象嵌入层）对输入层输出的对象的定长特征、不定长特征和连续特征进行特征提取处理，然后对处理后的特征进行拼接，得到对象的底层语义特征。通过语义层（即对应本申请的对象语义层）中的压缩激励网络和深度网络对该底层语义特征进行特征提取处理，得到对象高层特征（即对应本申请的对象的高层语义特征）。同样地，通过嵌入层（即对应本申请的多媒体嵌入层）对输入层输出的多媒体数据的定长特征、不定长特征和连续特征进行特征提取处理，然后对处理后的特征进行拼接，得到多媒体数据的底层语义特征。通过语义层（即对应本申请的多媒体语义层）中的压缩激励网络和深度网络对该底层语义特征进行特征提取处理，得到多媒体高层特征（即对应本申请的多媒体数据的高层语义特征）。将上述对象高层特征和多媒体高层特征之间的内积代入交叉熵损失函数，可以确定相似损失。从对象的底层语义特征筛选出对象的强个性化特征和弱个性化特征，将筛选出来的特征进行拼接后输入交互增强模型，模型输出对象增强特征。将对象增强特征和多媒体高层特征代入条件均方误差损失函数，得到对象交互增强损失。从多媒体数据的底层语义特征筛选出多媒体数据的强个性化特征和弱个性化特征，将筛选出来的特征进行拼接后输入交互增强模型，模型输出多媒体增强特征。将多媒体增强特征和对象高层特征代入条件均方误差损失函数，得到多媒体交互增强损失。将上述相似损失、对象交互增强损失和多媒体交互增强损失三个损失叠加为目标损失，基于目标损失训练双塔模型和交互增强模型。

请参见图15，图15是本申请实施例提供的一种多目标双塔模型的架构图三，多目标双塔模型相对单目标双塔模型来说，差别在于语义层包括压缩激励网络和多个专家网络，每个专家网络都可以输出针对每个目标的特征，然后通过门限确定每个专家网络输出的特征的权重，进而对专家网络输出的特征进行加权求和，得到针对不同任务的高层特征。如图15中的，针对第一任务的对象高层特征1和多媒体高层特征1，以及针对第二任务的对象高层特征2和多媒体高层特征2，由4个高层特征确定针对不同任务的相似损失，然后将这两个相似损失叠加为最终的相似损失。从对象的底层语义特征筛选出对象的强个性化特征和弱个性化特征，将筛选出来的特征进行拼接输入交互增强模型，同样地，交互增强模型也包括多个专家网络，进而由多个专家网络输出针对不同任务的对象增强特征1和对象增强特征2。将对象增强特征1和多媒体高层特征1代入条件均方误差损失函数，得到第一对象交互增强损失，将对象增强特征2和多媒体高层特征2代入条件均方误差损失函数，得到第二对象交互增强损失。然后将这两个相似损失叠加为最终的对象交互增强损失。从多媒体数据的底层语义特征筛选出多媒体数据的强个性化特征和弱个性化特征，将筛选出来的特征进行拼接输入交互增强模型，同样地，交互增强模型也包括多个专家网络，进而由多个专家网络输出针对不同任务的多媒体增强特征1和多媒体增强特征2。将多媒体增强特征1和对象高层特征1代入条件均方误差损失函数，得到第一多媒体交互增强损失，将多媒体增强特征2和对象高层特征2代入条件均方误差损失函数，得到第二多媒体交互增强损失。然后将这两个相似损失叠加为最终的多媒体交互增强损失。最终将上述叠加后的相似损失、叠加后的对象交互增强损失和叠加后的多媒体交互增强损失叠加为目标损失，基于目标损失训练双塔模型和交互增强模型。

请参见图16，图16是本申请实施例提供的一种多媒体数据处理的流程示意图，本实施例主要描述当双塔特征提取模型训练好后，如何基于训练好的双塔特征提取模型进行多媒体数据推荐，推荐过程如下：

步骤S1601，获取推荐请求，所述推荐请求包括目标对象的对象信息。

具体的，推荐请求可以是目标对象通过客户端主动发起的，例如，目标对象在客户端中执行刷新操作，客户端可以生成针对目标对象的推荐请求，并将该推荐请求发送至服务器。推荐请求也可以是服务器自动生成的，例如，每天凌晨1点都生成针对目标对象的推荐请求。

步骤S1602，采用双塔特征提取模型对所述目标对象的对象信息进行处理，得到所述目标对象的高层语义特征。

具体的，双塔特征提取模型是采用上述图6-图15任一实施例中描述的模型训练方法训练的。具体来说，是通过新增一个交互增强模型，加强对象和多媒体数据之间的交互，使得双塔特征提取模型的嵌入层就可以提取出目标对象和多媒体数据之间的交互信息。

其中，双塔特征提取模型提取出目标对象的高层语义特征的过程和前述训练过程中提取对象的高层语义特征的过程相同，即双塔特征提取模型包括对象特征提取模型，对象特征提取模型包括对象嵌入层和对象语义层，对象嵌入层对目标对象的对象信息进行特征提取处理，得到目标对象的底层语义特征，对象语义层对目标对象的底层语义特征进行特征提取处理，得到目标对象的高层语义特征。

另外，为了强化高低活对象的行为差异，可以在目标对象的底层语义特征中筛选的强个性化对象特征和弱个性化对象特征，将目标对象的底层语义特征、目标对象的强个性化对象特征和目标对象的弱个性化对象特征进行拼接，采用对象语义层对拼接后的特征进行特征提取处理，得到目标对象的高层语义特征。通俗来说，拼接后的特征里目标对象的强个性化对象特征和弱个性化对象特征会出现2次。

步骤S1603，根据所述目标对象的高层语义特征和N个目标多媒体数据的高层语义特征，从所述N个目标多媒体数据中确定待推荐多媒体数据；目标多媒体数据的高层语义特征是采用所述双塔特征提取模型对所述目标多媒体数据的属性信息进行处理后的特征。

具体的，双塔特征提取模型提取出目标多媒体数据的高层语义特征的过程和前述训练过程中，提取多媒体数据的高层语义特征的过程相同，即双塔特征提取模型包括多媒体特征提取模型，多媒体特征提取模型包括多媒体嵌入层和多媒体语义层，多媒体嵌入层对目标多媒体数据的属性信息进行特征提取处理，得到目标多媒体数据的底层语义特征，多媒体语义层对目标多媒体数据的底层语义特征进行特征提取处理，得到目标多媒体数据的高层语义特征。

另外，为了强化高低热多媒体数据的差异，可以在目标多媒体数据的底层语义特征中筛选的强个性化多媒体特征和弱个性化多媒体特征，将目标多媒体数据的底层语义特征、目标多媒体数据的强个性化多媒体特征和目标多媒体数据的弱个性化多媒体特征进行拼接，采用多媒体语义层对拼接后的特征进行特征提取处理，得到目标多媒体数据的高层语义特征。通俗来说，拼接后的特征里目标多媒体数据的强个性化多媒体特征和弱个性化多媒体特征会出现2次。

服务器可以计算目标对象的高层语义特征和每个目标多媒体数据的高层语义特征之间的特征距离，将特征距离小于预设的距离阈值的目标多媒体数据作为待推荐多媒体数据。

步骤S1604，输出所述待推荐多媒体数据。

具体的，服务器可以直接向目标对接推送待推荐多媒体数据，也可以对待推荐多媒体数据进行筛选以及排序后在向目标对象推送待推荐多媒体数据。具体过程如下：当待推荐多媒体数据的数量是多个时，从多个待推荐多媒体数据中选择出针对目标对象未曝光的多媒体数据，基于选择出来的多媒体数据的高层语义特征与目标对象的高层语义特征之间的特征距离，对选择出来的多媒体数据进行排序，生成多媒体数据推荐表，将生成的多媒体数据推荐表推送至目标对象。

当然，服务器也可以基于输出的待推荐多媒体数据再进行粗排序和精排序，将精排序后的前K个待推荐多媒体数据推送至目标对象。

请参见图17，图17是本申请实施例提供的一种多媒体数据推荐的示意图一，多媒体数据推荐包括如下过程：（1）首先目标对象产生请求；（2）基于对象请求，生成相应的特征信息（可以对应本申请的目标对象的对象信息），输入下一阶段；（3）召回阶段，在召回阶段，应用到本申请训练好的双塔特征提取模型，召回阶段又包括如下步骤：（3.1）在离线过程中，周期性（如每小时）批量将目标多媒体数据的属性信息输入双塔特征提取模型中的多媒体特征提取模型，得到每个目标多媒体数据的高层语义特征，将特征导入数据库建立索引；（3.2）基于目标对象构建的特征信息，输入双塔特征提取模型中的对象特征提取模型，实时计算出目标对象的高层语义特征；（3.3）通过目标对象的高层语义特征与数据库中的索引做近邻搜索，计算向量内积，得到目标对象的高层语义特征与目标多媒体数据的高层语义特征之间的相似度。内积结果越大，表示该目标多媒体数据与目标对象直接越相近。将计算结果从大到小进行排序，选择头部给定数量的目标多媒体数据集合，作为召回内容输出给下一排序阶段；（4）粗排阶段，对召回返回的目标多媒体数据集合，与目标对象的对象信息构建数据输入粗排模型，得到打分结果，对打分结果高的目标多媒体数据集合输出到下一阶段；（5）精排阶段，对粗排阶段返回的目标多媒体数据集合，与目标对象的对象信息构建数据输入精排模型，得到打分结果，对打分结果高的目标多媒体集合作为推荐系统的排序最终结果，最终展示在用户所阅览的推荐页面中。

请参见图18，图18是本申请实施例提供的一种多媒体数据推荐的示意图二，在模型上线之前，需要基于大量样本数据来训练模型，从而让模型能够有效拟合样本数据分布，进行线上服务。在实际训练过程中，模型会经过以下三个阶段：样本构建：首先需要利用对象的历史行为日志，提取出所需的特征数据，包含变长离散型特征、定长离散型特征和连续型特征。通过特征数据和历史点击标签进行拼接得到大量预备样本。其中，点击标签为1表示对象与多媒体数据发生了交互。样本预处理：得到预备样本后，需对样本数据进行空值填充、异常样本剔除、异常特征值矫正等处理，得到有效样本集合。模型训练：基于有效样本，对模型进行充分训练，以供线上服务使用。输出训练好的模型，用于多媒体数据推荐。

上述可知，基于可提取丰富交互信息的双塔模型进行多媒体数据推荐，不仅可以保证推荐效率，更能保证对低活对象以及低热多媒体数据的推荐准确性；进一步地，通过将已曝光的多媒体数据从推荐表中剔除，可以保证推荐的多媒体数据对目标对象来说是未曝光的全新多媒体数据，可以进一步提升推荐准确率。

进一步的，请参见图19，其是本申请实施例提供的一种模型训练装置的结构示意图。如图19所示，模型训练装置1可以应用于上述图1-图15对应实施例中的服务器。具体的，模型训练装置1可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该模型训练装置1为一个应用软件；该模型训练装置1可以用于执行本申请实施例提供的方法中的相应步骤。

模型训练装置1可以包括：第一获取模块11、处理模块12和训练模块13。

第一获取模块11，用于获取对象的对象信息和多媒体数据的属性信息；

处理模块12，用于采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；并采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征；

所述处理模块12，还用于采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征；所述目标底层语义特征包括所述对象的底层语义特征和所述多媒体数据的底层语义特征中的一种或多种；

训练模块13，用于基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练，训练好的双塔特征提取模型用于多媒体数据推荐，所述目标高层语义特征包括所述对象的高层语义特征和所述多媒体数据的高层语义特征中的一种或多种，且所述目标高层语义特征和所述目标增强特征之间具备可交互关系。

在一种可能的实施方式中，所述双塔特征提取模型包括对象特征提取模型和多媒体特征提取模型；

所述处理模块12在用于采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征时，具体用于：采用所述对象特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；

所述处理模块12在用于采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征时，具体用于：采用所述多媒体特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到所述多媒体数据的底层语义特征和高层语义特征。

在一种可能的实施方式中，当所述目标底层语义特征包括所述多媒体数据的底层语义特征时，所述目标增强特征包括所述多媒体数据的增强特征，所述交互增强模型包括多媒体增强模型，所述处理模块12在用于采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征时，具体用于：采用所述多媒体增强模型对所述多媒体数据的底层语义特征进行增强处理，得到所述多媒体数据的增强特征。

在一种可能的实施方式中，所述第一获取模块11还用于：从所述多媒体数据的底层语义特征中筛选出强个性化多媒体特征和弱个性化多媒体特征，将所述强个性化多媒体特征和所述弱个性化多媒体特征拼接为个性化多媒体特征；

所述处理模块12在用于采用所述多媒体增强模型对所述多媒体数据的底层语义特征进行增强处理，得到所述多媒体数据的增强特征时，具体用于：

采用所述多媒体增强模型对所述个性化多媒体特征进行增强处理，得到所述多媒体数据的增强特征。

在一种可能的实施方式中，所述目标高层语义特征包括所述对象的高层语义特征，所述训练模块13在用于基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练，包括：

基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，确定相似损失；

基于对象的高层语义特征与多媒体数据的增强特征之间的差异性，确定多媒体交互增强损失；

将所述相似损失和所述多媒体交互增强损失叠加为目标损失，根据所述目标损失同步训练所述双塔特征提取模型和所述交互增强模型。

在一种可能的实施方式中，所述双塔特征提取模型包括对象特征提取模型，所述对象的高层语义特征是所述对象特征提取模型中的对象语义层对所述对象的底层语义特征进行特征提取处理后的特征，在基于目标损失同步训练所述双塔特征提取模型和所述交互增强模型过程中，所述多媒体交互增强损失不参与对所述对象特征提取模型中的对象语义层的训练。

在一种可能的实施方式中，所述第一获取模块11还用于：

若所述对象和所述多媒体数据之间具有关联关系，则通知训练模块13执行基于对象的高层语义特征与多媒体数据的增强特征之间的差异性，确定多媒体交互增强损失的步骤；

若所述对象和所述多媒体数据之间不具有关联关系，则将所述多媒体交互增强损失设置为预设参数。

在一种可能的实施方式中，所述对象的高层语义特征包括针对第一任务的第一高层语义特征和针对第二任务的第二高层语义特征，所述多媒体数据的增强特征包括针对所述第一任务的第一增强特征和针对所述第二任务的第二增强特征，所述训练模块13在用于基于对象的高层语义特征与多媒体数据的增强特征之间的差异性，确定多媒体交互增强损失时，具体用于：

基于所述第一高层语义特征和所述第一增强特征确定第一多媒体交互增强损失；

基于所述第二高层语义特征和所述第二增强特征确定第二多媒体交互增强损失；

将所述第一多媒体交互增强损失和所述第二多媒体交互增强损失叠加为所述多媒体交互增强损失。

在一种可能的实施方式中，当所述目标底层语义特征包括所述对象的底层语义特征时，所述目标增强特征包括所述对象的增强特征，所述交互增强模型包括对象增强模型，所述处理模块12在用于采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征时，具体用于：采用所述对象增强模型对所述对象的底层语义特征进行增强处理，得到所述对象的增强特征。

在一种可能的实施方式中，所述第一获取模块11还用于：从所述对象的底层语义特征中筛选出强个性化对象特征和弱个性化对象特征，将所述强个性化对象特征和所述弱个性化对象特征拼接为个性化对象特征；

所述处理模块12在用于采用所述对象增强模型对所述对象的底层语义特征进行增强处理，得到所述对象的增强特征时，具体用于：采用所述对象增强模型对所述个性化对象特征进行增强处理，得到所述对象的增强特征。

在一种可能的实施方式中，所述目标高层语义特征包括所述多媒体数据的高层语义特征，所述训练模块13在用于基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练时，具体用于：

基于对象的增强特征与多媒体数据的高层语义特征之间的差异性，确定对象交互增强损失；

将所述相似损失和所述对象交互增强损失叠加为目标损失，根据所述目标损失同步训练所述双塔特征提取模型和所述交互增强模型。

在一种可能的实施方式中，所述双塔特征提取模型包括多媒体特征提取模型，所述多媒体数据的高层语义特征是所述多媒体特征提取模型中的多媒体语义层对所述多媒体数据的底层语义特征进行特征提取处理后的特征，在基于目标损失同步训练所述双塔特征提取模型和所述交互增强模型过程中，所述对象交互增强损失不参与对所述多媒体特征提取模型中的多媒体语义层的训练。

根据本发明的实施例，图1-图15所示的方法所涉及的各个步骤均可以是由图19所示的模型训练装置1中的各个模块来执行的。例如，图6中所示的步骤S601-S604和图7所示的步骤S701-步骤S705，图10所示的步骤S1001-步骤S1005，图13所示的步骤S1301-步骤S1306可以分别由图19中所示的第一获取模块11、处理模块12和训练模块13来执行。

进一步的，请参见图20，其是本申请实施例提供的一种多媒体数据处理装置的结构示意图。如图20所示，多媒体数据处理装置2可以应用于上述图16-图18对应实施例中的服务器。具体的，多媒体数据处理装置2可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该多媒体数据处理装置2为一个应用软件；该多媒体数据推荐处理2可以用于执行本申请实施例提供的方法中的相应步骤。

多媒体数据处理装置2可以包括：第二获取模块21和输出模块22。

第二获取模块21，用于获取推荐请求，所述推荐请求包括目标对象的对象信息；

第二获取模块21，还用于采用双塔特征提取模型对所述目标对象的对象信息进行特征提取处理，得到所述目标对象的高层语义特征，所述双塔特征提取模型是采用上述图6-图15任一实施例中描述的模型训练方法训练得到的；

第二获取模块21，还用于根据所述目标对象的高层语义特征和N个目标多媒体数据的高层语义特征，从所述N个目标多媒体数据中确定待推荐多媒体数据；目标多媒体数据的高层语义特征是采用所述双塔特征提取模型对所述目标多媒体数据的属性信息进行特征提取处理后的特征；

输出模块22，用于输出所述待推荐多媒体数据。

在一种可能的实施方式中，所述获取模块21在用于根据所述目标对象的高层语义特征和N个目标多媒体数据的高层语义特征，从所述N个目标多媒体数据中确定待推荐多媒体数据时，具体用于：

若所述目标对象的高层语义特征和所述目标多媒体数据的高层语义特征之间的特征距离小于距离阈值，则将所述目标多媒体数据作为所述待推荐多媒体数据。

在一种可能的实施方式中，待推荐多媒体数据的数量是多个，所述输出模块22在用于输出所述待推荐多媒体数据时，具体用于：

从所述多个待推荐多媒体数据中选择出针对所述目标对象未曝光的多媒体数据，基于选择出来的多媒体数据生成多媒体数据推荐表；

将所述多媒体数据推荐表发送至所述目标对象。

根据本发明的实施例，图16-图18所示的方法所涉及的各个步骤均可以是由图20所示的多媒体数据处理装置2中的各个模块来执行的。例如，图16中所示的步骤S1601-S1604可以分别由图20中所示的第二获取模块21和输出模块22来执行。

进一步地，请参见图21，是本申请实施例提供的一种计算机设备的结构示意图。上述图1-图18对应实施例中的服务器可以为计算机设备1000。如图21所示，计算机设备1000可以包括：用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序，处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器（例如，动态随机存取存储器DRAM），还可以包括非易失性存储器（例如，一次性可编程只读存储器OTPROM）。在一些实例中，存储器1008可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括：键盘1018和显示器1020。

在图21所示的计算机设备1000中，处理器1004可以用于调用存储器1008中存储计算机程序，以实现：

获取对象的对象信息和多媒体数据的属性信息；

在一个实施例中，所述双塔特征提取模型包括对象特征提取模型和多媒体特征提取模型；

所述处理器1004在执行采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征时，具体执行以下步骤：采用所述对象特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；

所述处理器1004在执行采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征时，具体执行以下步骤：采用所述多媒体特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到所述多媒体数据的底层语义特征和高层语义特征。

在一个实施例中，当所述目标底层语义特征包括所述多媒体数据的底层语义特征时，所述目标增强特征包括所述多媒体数据的增强特征，所述交互增强模型包括多媒体增强模型，所述处理器1004在执行采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征时，具体执行以下步骤：采用所述多媒体增强模型对所述多媒体数据的底层语义特征进行增强处理，得到所述多媒体数据的增强特征。

在一个实施例中，处理器1004还执行以下步骤：从所述多媒体数据的底层语义特征中筛选出强个性化多媒体特征和弱个性化多媒体特征，将所述强个性化多媒体特征和所述弱个性化多媒体特征拼接为个性化多媒体特征；

所述处理器1004在执行采用所述多媒体增强模型对所述多媒体数据的底层语义特征进行增强处理，得到所述多媒体数据的增强特征时，具体执行以下步骤：

在一个实施例中，所述目标高层语义特征包括所述对象的高层语义特征，所述处理器1004在执行基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练时，具体执行以下步骤：

在一个实施例中，所述双塔特征提取模型包括对象特征提取模型，所述对象的高层语义特征是所述对象特征提取模型中的对象语义层对所述对象的底层语义特征进行特征提取处理后的特征，在基于目标损失同步训练所述双塔特征提取模型和所述交互增强模型过程中，所述多媒体交互增强损失不参与对所述对象特征提取模型中的对象语义层的训练。

在一个实施例中，所述处理器1004还执行以下步骤：

若所述对象和所述多媒体数据之间具有关联关系，则执行基于对象的高层语义特征与多媒体数据的增强特征之间的差异性，确定多媒体交互增强损失的步骤；

在一个实施例中，所述对象的高层语义特征包括针对第一任务的第一高层语义特征和针对第二任务的第二高层语义特征，所述多媒体数据的增强特征包括针对所述第一任务的第一增强特征和针对所述第二任务的第二增强特征，所述处理器1004在执行基于对象的高层语义特征与多媒体数据的增强特征之间的差异性，确定多媒体交互增强损失时，具体执行以下步骤：

在一个实施例中，当所述目标底层语义特征包括所述对象的底层语义特征时，所述目标增强特征包括所述对象的增强特征，交互增强模型包括对象增强模型，所述处理器1004在执行采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征时，具体执行以下步骤：采用所述对象增强模型对所述对象的底层语义特征进行增强处理，得到所述对象的增强特征。

在一个实施例中，所述处理器1004还执行以下步骤：从所述对象的底层语义特征中筛选出强个性化对象特征和弱个性化对象特征，将所述强个性化对象特征和所述弱个性化对象特征拼接为个性化对象特征；

所述处理器1004在执行采用所述对象增强模型对所述对象的底层语义特征进行增强处理，得到所述对象的增强特征时，具体执行以下步骤：采用所述对象增强模型对所述个性化对象特征进行增强处理，得到所述对象的增强特征。

在一个实施例中，所述目标高层语义特征包括所述多媒体数据的高层语义特征，所述处理器1004在执行基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练时，具体执行以下步骤：

在一个实施例中，所述双塔特征提取模型包括多媒体特征提取模型，所述多媒体数据的高层语义特征是所述多媒体特征提取模型中的多媒体语义层对所述多媒体数据的底层语义特征进行特征提取处理后的特征，在基于目标损失同步训练所述双塔特征提取模型和所述交互增强模型过程中，所述对象交互增强损失不参与对所述多媒体特征提取模型中的多媒体语义层的训练。

获取推荐请求，所述推荐请求包括目标对象的对象信息；

采用双塔特征提取模型对所述目标对象的对象信息进行特征提取处理，得到所述目标对象的高层语义特征，所述双塔特征提取模型是采用上述图6-图15任一实施例中描述的模型训练方法训练得到的；

输出所述待推荐多媒体数据。

在一个实施例中，所述处理器1004在执行根据所述目标对象的高层语义特征和N个目标多媒体数据的高层语义特征，从所述N个目标多媒体数据中确定待推荐多媒体数据时，具体执行以下步骤：

在一个实施例中，待推荐多媒体数据的数量是多个，所述处理器1004在执行输出所述待推荐多媒体数据时，具体执行以下步骤：

将所述多媒体数据推荐表发送至所述目标对象。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图1-图18所对应实施例中对模型训练方法和多媒体数据处理方法的描述，也可执行前文图19所对应实施例中对模型训练装置1的描述和图20对多媒体数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的多模型训练装置1和多媒体数据处理装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图1-图18所对应实施例中对模型训练方法和多媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，分布在多个地点且通过通信网络互联的多个计算机设备上执行，分布在多个地点且通过通信网络互联的多个计算机设备可以组合为区块链网络。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图1到图18所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取对象的对象信息和多媒体数据的属性信息；

2.根据权利要求1所述的方法，其特征在于，所述双塔特征提取模型包括对象特征提取模型和多媒体特征提取模型；

所述采用双塔特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征，包括：采用所述对象特征提取模型对所述对象的对象信息进行特征提取处理，得到所述对象的底层语义特征和高层语义特征；

所述采用双塔特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到多媒体数据的底层语义特征和高层语义特征，包括：采用所述多媒体特征提取模型对所述多媒体数据的属性信息进行特征提取处理，得到所述多媒体数据的底层语义特征和高层语义特征。

3.根据权利要求1所述的方法，其特征在于，当所述目标底层语义特征包括所述多媒体数据的底层语义特征时，所述目标增强特征包括所述多媒体数据的增强特征，所述交互增强模型包括多媒体增强模型，所述采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征，包括：采用所述多媒体增强模型对所述多媒体数据的底层语义特征进行增强处理，得到所述多媒体数据的增强特征。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：从所述多媒体数据的底层语义特征中筛选出强个性化多媒体特征和弱个性化多媒体特征，将所述强个性化多媒体特征和所述弱个性化多媒体特征拼接为个性化多媒体特征；

所述采用所述多媒体增强模型对所述多媒体数据的底层语义特征进行增强处理，得到所述多媒体数据的增强特征，包括：

5.根据权利要求3所述的方法，其特征在于，所述目标高层语义特征包括所述对象的高层语义特征，所述基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练，包括：

6.根据权利要求5所述的方法，其特征在于，所述双塔特征提取模型包括对象特征提取模型，所述对象的高层语义特征是所述对象特征提取模型中的对象语义层对所述对象的底层语义特征进行特征提取处理后的特征，在基于目标损失同步训练所述双塔特征提取模型和所述交互增强模型过程中，所述多媒体交互增强损失不参与对所述对象特征提取模型中的对象语义层的训练。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

8.根据权利要求5所述的方法，其特征在于，所述对象的高层语义特征包括针对第一任务的第一高层语义特征和针对第二任务的第二高层语义特征，所述多媒体数据的增强特征包括针对所述第一任务的第一增强特征和针对所述第二任务的第二增强特征，所述基于对象的高层语义特征与多媒体数据的增强特征之间的差异性，确定多媒体交互增强损失，包括：

9.根据权利要求1所述的方法，其特征在于，当所述目标底层语义特征包括所述对象的底层语义特征时，所述目标增强特征包括所述对象的增强特征，所述交互增强模型包括对象增强模型，所述采用交互增强模型对目标底层语义特征进行增强处理，得到目标增强特征，包括：采用所述对象增强模型对所述对象的底层语义特征进行增强处理，得到所述对象的增强特征。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：从所述对象的底层语义特征中筛选出强个性化对象特征和弱个性化对象特征，将所述强个性化对象特征和所述弱个性化对象特征拼接为个性化对象特征；

所述采用所述对象增强模型对所述对象的底层语义特征进行增强处理，得到所述对象的增强特征，包括：采用所述对象增强模型对所述个性化对象特征进行增强处理，得到所述对象的增强特征。

11.根据权利要求9所述的方法，其特征在于，所述目标高层语义特征包括所述多媒体数据的高层语义特征，所述基于对象的高层语义特征与多媒体数据的高层语义特征之间的相似差异性，以及目标高层语义特征和所述目标增强特征之间的相似差异性，对所述交互增强模型及所述双塔特征提取模型进行同步训练，包括：

12.根据权利要求11所述的方法，其特征在于，所述双塔特征提取模型包括多媒体特征提取模型，所述多媒体数据的高层语义特征是所述多媒体特征提取模型中的多媒体语义层对所述多媒体数据的底层语义特征进行特征提取处理后的特征，在基于目标损失同步训练所述双塔特征提取模型和所述交互增强模型过程中，所述对象交互增强损失不参与对所述多媒体特征提取模型中的多媒体语义层的训练。

13.一种多媒体数据处理方法，其特征在于，所述方法包括：

获取推荐请求，所述推荐请求包括目标对象的对象信息；

采用双塔特征提取模型对所述目标对象的对象信息进行特征提取处理，得到所述目标对象的高层语义特征，所述双塔特征提取模型是采用如权利要求1-11任一项所述的模型训练方法训练得到的；

输出所述待推荐多媒体数据。

14.根据权利要求13所述的方法，其特征在于，所述根据所述目标对象的高层语义特征和N个目标多媒体数据的高层语义特征，从所述N个目标多媒体数据中确定待推荐多媒体数据，包括：

15.根据权利要求13所述的方法，其特征在于，待推荐多媒体数据的数量是多个，所述输出所述待推荐多媒体数据，包括：

将所述多媒体数据推荐表发送至所述目标对象。

16.一种模型训练装置，其特征在于，所述装置包括：

17.一种多媒体数据处理装置，其特征在于，所述方法包括：

第二获取模块，还用于采用双塔特征提取模型对所述目标对象的对象信息进行特征提取处理，得到所述目标对象的高层语义特征，所述双塔特征提取模型是采用如权利要求1-11任一项所述的模型训练方法训练得到的；

第二获取模块，还用于根据所述目标对象的高层语义特征和N个目标多媒体数据的高层语义特征，从所述N个目标多媒体数据中确定待推荐多媒体数据；目标多媒体数据的高层语义特征是采用所述双塔特征提取模型对所述目标多媒体数据的属性信息进行特征提取处理后的特征；

输出模块，用于输出所述待推荐多媒体数据。

18.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-15中任一项所述方法的步骤。

19.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得具有所述处理器的计算机设备执行权利要求1-15任一项所述方法的步骤。