CN117150053A

CN117150053A - 多媒体信息推荐模型训练方法、推荐方法及装置

Info

Publication number: CN117150053A
Application number: CN202210557738.2A
Authority: CN
Inventors: 苏荣; 赵振岐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2023-12-01

Abstract

本发明提供了一种多媒体信息推荐模型训练方法、装置、电子设备，方法包括：基于所述基础历史数据，提取预训练样本集合；基于所述预训练样本集合，对基础推荐模型进行训练，得到基础推荐模型的模型参数；获取多媒体信息推荐环境中的行业历史数据；根据所述行业历史数据，对所述多媒体信息推荐模型，确定多媒体信息推荐模型的模型参数，由此，增强了多媒体信息推荐的准确性与关联性，提升多媒体信息推荐模型的泛化性，本发明实施例还可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

Description

多媒体信息推荐模型训练方法、推荐方法及装置

技术领域

本发明涉及信息处理技术，尤其涉及多媒体信息推荐模型训练方法、多媒体信息推荐方法、装置、及电子设备。

背景技术

人工智能(AI，Artificial Intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

传统技术中，各类多媒体信息推荐系统向用户推荐相应的多媒体信息过程中，为了保证推荐速度，通常使用通用数据推荐模型，但是通用数据推荐模型是针对多领域通用数据训练而成的，其推荐结果过于常规，缺乏针对行业特点的多媒体信息推荐，而相反针对某一行业单独建立模型，则会因为训练数据缺乏造成模型的过拟合，影响推荐的准确性，严重影响用户的使用体验。

发明内容

有鉴于此，本发明实施例提供一种多媒体信息推荐模型训练方法、装置、电子设备及存储介质，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种多媒体信息推荐模型训练方法包括：

获取多媒体信息推荐环境中的基础历史数据；

基于所述基础历史数据，提取预训练样本集合；

基于所述预训练样本集合，对基础推荐模型进行训练，得到所述基础推荐模型的模型参数；

获取多媒体信息推荐环境中的行业历史数据；

从所述基础推荐模型的模型参数中提取所述基础推荐模型嵌入层网络的参数，并将所述嵌入层网络的参数迁移至多媒体信息推荐模型中，其中，所述基础推荐模型与所述多媒体信息推荐模型的模型结构相同；

根据所述行业历史数据，对所述多媒体信息推荐模型进行训练，确定多媒体信息推荐模型的模型参数，以实现通过所述多媒体信息推荐模型对目标行业的多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐。

本发明实施例还提供了一种获取多媒体信息数据源中的待推荐多媒体信息；

通过多媒体信息推荐模型对不同待推荐多媒体信息进行处理，确定不同待推荐多媒体信息的优先级；

根据不同待推荐多媒体信息的优先级对多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐。

本发明实施例还提供了一种多媒体信息推荐模型训练装置，包括：

信息传输模块，用于获取多媒体信息推荐环境中的基础历史数据；

信息处理模块，用于基于所述基础历史数据，提取预训练样本集合；

所述信息处理模块，用于基于所述预训练样本集合，对基础推荐模型进行训练，得到基础推荐模型的模型参数；

所述信息处理模块，用于获取多媒体信息推荐环境中的行业历史数据；

所述信息处理模块，用于根据所述行业历史数据，对所述多媒体信息推荐模型进行训练，确定多媒体信息推荐模型的模型参数，以实现通过所述多媒体信息推荐模型对目标行业的多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐。

上述方案中，

所述信息处理模块，用于根据所述行业历史数据，对所述基础推荐模型的嵌入层网络的嵌入特征进行调整，得到多媒体信息推荐模型的嵌入特征；

所述信息处理模块，用于根据所述目标行业的类型，为所述多媒体信息推荐模型配置训练循环轮次参数；

所述信息处理模块，用于当所述多媒体信息推荐模型的训练次数小于等于所述训练循环轮次参数时，保持所述嵌入层网络的参数不变，利用所述多媒体信息推荐模型的嵌入特征，和所述多媒体信息推荐模型的多任务损失函数，对所述多媒体信息推荐模型的网络参数进行调整；

直至所述多媒体信息推荐模型对应的损失函数达到相应的收敛条件时，确定所述多媒体信息推荐模型的第一模型参数，其中，所述多媒体信息推荐模型的模型参数包括所述第一模型参数。

上述方案中，

所述信息处理模块，用于当所述多媒体信息推荐模型的训练次数大于所述训练循环轮次参数时，利用所述多媒体信息推荐模型的嵌入特征，对所述基础推荐模型进行训练，以实现调整所述多媒体信息推荐模型的第一模型参数，得到所述多媒体信息推荐模型的模型参数。

上述方案中，

所述信息处理模块，用于确定所述多媒体信息推荐模型对应的损失函数的收敛速度；

所述信息处理模块，用于根据所述收敛速度，对所述训练循环轮次参数进行动态调整，以实现所述训练循环轮次参数与所述收敛速度相匹配。

上述方案中，

所述信息处理模块，用于根据所述行业历史数据，确定所述预训练样本集合中的无效样本；

所述信息处理模块，用于基于所述行业历史数据，确定与所述行业历史数据相匹配的行业特征样本；

所述信息处理模块，用于利用所述无效样本和所述行业特征样本，对所述预训练样本集合进行调整，得到行业训练样本集合。

上述方案中，

所述信息处理模块，用于提取所述基础推荐模型的嵌入层网络的嵌入特征；

所述信息处理模块，用于当所述多媒体信息推荐模型的训练次数小于等于所述训练循环轮次参数时，保持所述嵌入层网络的参数不变，通过所述行业训练样本集合，对所述嵌入特征进行调整，得到所述多媒体信息推荐模型的第二模型参数，其中，所述多媒体信息推荐模型的模型参数包括所述第二模型参数；

所述信息处理模块，用于当所述多媒体信息推荐模型的训练次数大于所述训练循环轮次参数时，通过所述行业训练样本集合，对所述基础推荐模型进行训练，以实现调整所述多媒体信息推荐模型的第二模型参数，得到所述多媒体信息推荐模型的模型参数。

上述方案中，

所述信息处理模块，用于当所述多媒体信息为视频广告时，

所述信息处理模块，用于将所述视频广告播放时的曝光参数向检测服务器发送，以实现所述检测服务器获取视频广告的曝光参数；

所述信息处理模块，用于将所述曝光参数作为所述多媒体信息的播放效果的评价参数，并且根据所述召回策略的调整结果，查找目标曝光参数。

上述方案中，

所述信息处理模块，用于获取目标行业对应观众的历史浏览信息；

所述信息处理模块，用于基于所述目标行业对应观众的历史浏览信息，确定与所述历史浏览信息对应的多媒体信息曝光历史；

所述信息处理模块，用于基于所述历史浏览信息对应的多媒体信息曝光历史，对所述多媒体信息的召回策略进行动态调整。

上述方案中，

所述信息处理模块，用于根据所述多媒体信息推荐环境，确定待推荐多媒体信息的品类；

所述信息处理模块，用于响应于所述待推荐多媒体信息的品类，触发相匹配的多媒体信息数据源，以实现通过与待推荐多媒体信息的品类相匹配的多媒体信息数据源对所述待推荐多媒体信息进行调整。

数据传输模块，用于获取多媒体信息数据源中的待推荐多媒体信息；

数据处理模块，用于通过多媒体信息推荐模型对不同待推荐多媒体信息进行处理，确定不同待推荐多媒体信息的优先级；

所述数据处理模块，用于根据不同待推荐多媒体信息的优先级对多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前述的多媒体信息推荐模型训练方法，或者前述的多媒体信息推荐方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前述的多媒体信息推荐模型训练方法，或者前述的多媒体信息推荐方法。

本发明实施例具有以下有益效果：

本发明通过获取多媒体信息推荐环境中的基础历史数据；基于所述基础历史数据，提取预训练样本集合；基于所述预训练样本集合，对基础推荐模型进行训练，得到基础推荐模型的模型参数；获取多媒体信息推荐环境中的行业历史数据；从所述基础推荐模型的模型参数中提取所述基础推荐模型嵌入层网络的参数，并将所述嵌入层网络的参数迁移至多媒体信息推荐模型中，其中，所述基础推荐模型与所述多媒体信息推荐模型的模型结构相同；根据所述行业历史数据，对所述多媒体信息推荐模型进行训练，确定多媒体信息推荐模型的模型参数，以实现通过所述多媒体信息推荐模型对目标行业的多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐。由此，可以实现多媒体信息推荐模型能够对使用环境中不同行业的用户进行多媒体信息的推荐，同时增强了多媒体信息推荐的准确性与关联性，有效提高多媒体信息的推荐的质量，也可以使用较少的样本完成模型训练，同时减少多媒体信息推荐模型的过拟合，提升多媒体信息推荐模型的泛化性，提升用户的使用体验。

附图说明

图1为本发明实施例提供的多媒体信息推荐模型训练方法的使用场景示意图；

图2为本发明实施例提供的多媒体信息推荐模型训练装置的组成结构示意图；

图3为本发明实施例中迁移训练过程示意图。

图4为本发明实施例提供的多媒体信息推荐模型训练方法一个可选的流程示意图；

图5为本发明实施例提供的多媒体信息推荐模型训练方法一个可选的流程示意图；

图6为本发明实施例中图5所示的外围特征和中心特征的获取过程示意图；

图7为本发明实施例提供的多媒体信息推荐模型训练方法一个可选的流程示意图；

图8为本发明实施例中基于多媒体信息推荐模型的多媒体信息推荐方法的应用环境示意图；

图9为本发明实施例中多媒体信息推荐方法的过程示意图；

图10为本发明实施例提供的多媒体信息推荐模型训练方法一个可选的流程示意图；

图11为本发明实施例中一个可选的多媒体信息推荐的示意图；

图12为本发明实施例中一个可选的多媒体信息推荐的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)基于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

3)模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出多媒体信息相似度的判断。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

4)神经网络(Neural Network，NN)：人工神经网络(Artificial Neural Network，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

5)多目标召回：即在一个召回模型中考虑多个目标。在推荐系统中，往往需要同时优化多个业务目标，承担起更多的业务收益。如电商场景：希望能够同时优化点击率和转换率，使得平台具备更加的目标；信息流场景，希望提高用户点击率的基础上提高用户关注，点赞，评论等行为，营造更好的社区氛围从而提高留存。

6)推荐准确性：推荐的多媒体信息内容在一段时间内具有一定的效果，效果是依靠用户对多媒体信息的内容的感兴趣度来衡量的。准确性对端侧线上用户留存、点击和CTR都有重要的作用。

7)softmax：机器学习中非常常用而且比较重要的函数，尤其在多分类的场景中使用广泛，把一些输入映射为0-1之间的实数，并且归一化保证和为1。

8)多媒体信息，互联网中可获取的各种形式的资讯，如客户端或者智能设备中呈现的广告信息、视频文件、待推荐多媒体信息、新闻信息等。

其中，本发明实施例可结合云技术实现，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术，也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站，因此云技术需要以云计算作为支撑。

需要说明的是，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。作为云计算的基础能力提供商，会建立云计算资源池平台，简称云平台，一般称为基础设施即服务(IaaS，Infrastructure as a Service)，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(可为虚拟化机器，包含操作系统)、存储设备和网络设备。

图1为本发明实施例提供的多媒体信息推荐模型训练方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够播放植入多媒体信息的相应客户端，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输，其中，多媒体信息包括但不限于视频、图片、GIF动画和广告信息。其中，终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的多媒体信息类型既可以相同也可以不相同，例如：终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取同一行业所投放的视频广告，也可以通过网络300从相应的服务器200中获取同一行业所投放的图像广告，具体类型本申请不做限制。服务器200中可以保存有不同的多媒体信息，其中作为广告的多媒体信息可以为不同的动态格式的内容，例如gif、mp4、mov等。

终端(终端10-1和/或终端10-2)在通过网络300向服务器200获取并中现相应的带有植入多媒体信息的业务的过程中，用户可以通过终端(终端10-1和/或终端10-2)对多媒体信息播放窗口中呈现所述多媒体信息进行不同的操作，产生不同的用户使用过程的数据记录信息，例如，当所述多媒体信息为视频广告时，用户在观看信息的过程中可以分享和/或点赞所曝光的视频广告，也可以通过点击。当多媒体信息为动态GIF广告时，在广告的通过终端(终端10-1和/或终端10-2)的曝光过程中，用户可以对广告进行转发和/或评论，也可以通过GIF广告跳转至相应的产品购买链接页面。

在本发明的一些实施例中，多媒体信息推荐模型也可以进行金融信息推荐，以满足用户的金融需求，例如向金融行业的用户推荐股票信息或者基金信息，满足金融行业的用户通过虚拟资源或者实体资源进行金融活动，或者通过虚拟资源(比如数字人民币)对所推荐的多媒体信息进行支付。

作为一个示例，服务器200在确定向用户的终端10-1或者10-2推荐何种多媒体信息进行播放时，需要及时地对待推荐的多媒体信息进行调整，例如替换待推荐多媒体信息集合中的任一多媒体信息，以适配不同目标行业对应观众的观看需求，以视频广告多媒体信息为例，本发明所提供的多媒体信息推荐模型可以应用于视频广告播放，在视频广告播放中通常会对不同数据来源的不同视频广告多媒体信息进行处理，最终在用户界面UI(User Interface)上呈现出与相应的不同多媒体信息以及相应的与相应视频广告推荐进程相对应的待推荐视频，不同多媒体信息相的特征的准确性与及时性直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与向目标行业对应观众进行多媒体信息推荐的不同多媒体信息还可以供其他应用程序调用(例如视频广告推荐进程的推荐结果迁移至长视频推荐进程或者新闻推荐进程)，当然，与相应的目标行业对应观众相匹配的多媒体信息推荐模型也可以迁移至不同的视频推荐进程(例如网页视频推荐进程、小程序视频推荐进程或者长视频客户端的视频推荐进程)。

作为一个示例，服务器200用于布设相应的多媒体信息推荐模型以实现本发明所提供的多媒体信息推荐模型训练方法，或者布设多媒体信息推荐模型训练装置，以实现多媒体信息推荐模型训练方法，具体的，通过获取多媒体信息推荐环境中的基础历史数据；基于所述基础历史数据，提取预训练样本集合；基于所述预训练样本集合，对基础推荐模型进行训练，得到基础推荐模型的模型参数；获取多媒体信息推荐环境中的行业历史数据；根据所述行业历史数据，对所述多媒体信息推荐模型进行训练，确定多媒体信息推荐模型的模型参数，以实现通过所述多媒体信息推荐模型对目标行业的多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐，并通过终端(终端10-1和/或终端10-2)展示输出与所述目标行业对应观众相匹配的待推荐多媒体信息。以多媒体信息为例，本发明所提供的多媒体信息推荐模型可以应用于视频广告播放，在视频广告播放中通常会对不同数据来源的不同多媒体信息进行处理，最终在用户界面UI(User Interface)上呈现出与相应的不同多媒体信息以及相应的与相应视频广告推荐进程相对应的待推荐多媒体信息，不同多媒体信息相的特征的准确性与及时性直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的多媒体信息数据，所得到与向目标行业对应观众进行多媒体信息推荐的不同多媒体信息还可以供其他应用程序调用(例如视频广告推荐进程的推荐结果迁移至即时通讯客户端中推荐进程或者新闻推荐进程)，当然，与相应的目标行业对应观众相匹配的多媒体信息推荐模型也可以迁移至不同的视频推荐进程(例如网页视频推荐进程、小程序视频推荐进程或者即时通讯客户端中客户端的视频推荐进程)，所推荐的视频广告可以符合用户的观看需求。

其中，本申请实施例所提供的多媒体信息推荐模型训练方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificialneural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

可以理解的是，本申请提供的多媒体信息推荐模型训练方法以及语音处理可以应用于智能设备(Intelligent device)上，智能设备可以是任何一种具有信息展示功能的设备，例如可以是智能终端、智能家居设备(如智能音箱、智能洗衣机等)、智能穿戴设备(如智能手表)、车载智能中控系统(通过执行不同任务的小程序向用户展示多媒体信息)或者AI智能医疗设备(通过展示多媒体信息展示治疗案例)等。

下面对本发明实施例的多媒体信息推荐模型训练装置的结构做详细说明，多媒体信息推荐模型训练装置可以各种形式来实施，如带有多媒体信息推荐处理功能的专用终端，也可以为设置有多媒体信息推荐模型训练装置处理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的多媒体信息推荐模型训练装置的组成结构示意图，可以理解，图2仅仅示出了多媒体信息推荐模型训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的多媒体信息推荐模型训练装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。多媒体信息推荐模型训练装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的多媒体信息推荐模型训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的多媒体信息推荐模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的多媒体信息推荐模型的训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的多媒体信息推荐模型训练装置采用软硬件结合实施的示例，本发明实施例所提供的多媒体信息推荐模型训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的多媒体信息推荐模型的训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的多媒体信息推荐模型训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的多媒体信息推荐模型的训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持多媒体信息推荐模型训练装置的操作。这些数据的示例包括：用于在多媒体信息推荐模型训练装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从多媒体信息推荐模型的训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的多媒体信息推荐模型训练装置可以采用软件方式实现，图2示出了存储在存储器202中的多媒体信息推荐模型训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括多媒体信息推荐模型训练装置，多媒体信息推荐模型训练装置中包括以下的软件模块：

信息传输模块2081和信息处理模块2082。当多媒体信息推荐模型训练装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的多媒体信息推荐模型的训练方法，其中，多媒体信息推荐模型训练装置中各个软件模块的功能，包括：

信息传输模块2081，用于获取多媒体信息推荐环境中的基础历史数据。

信息处理模块2082，用于基于所述基础历史数据，提取预训练样本集合。

所述信息处理模块2082，用于基于所述预训练样本集合，对基础推荐模型进行训练，得到基础推荐模型的模型参数。

所述信息处理模块2082，用于获取多媒体信息推荐环境中的行业历史数据。

所述信息处理模块2082，用于根据所述行业历史数据，对所述多媒体信息推荐模型进行训练，确定多媒体信息推荐模型的模型参数，以实现通过所述多媒体信息推荐模型对目标行业的多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐。

当多媒体信息推荐模型训练完成后，可以部署在电子设备中以执行本申请所提供的多媒体信息推荐方法，具体可以包括：

数据传输模块，用于获取多媒体信息数据源中的待推荐多媒体信息。

数据处理模块，用于通过多媒体信息推荐模型对不同待推荐多媒体信息进行处理，确定不同待推荐多媒体信息的优先级。

根据图2所示的电子设备，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述多媒体信息推荐模型训练方法的各种可选实现方式中所提供的不同实施例及实施例的组合。

在介绍本申请所提供的多媒体信息推荐方法之前，首先对相关技术中多媒体信息推荐的缺陷进行简要说明，在相关技术进行多媒体信息推荐时，可以采用的方式包括：

1)针对每一个行业都建立一个单独的推荐模型，进行训练与部署完成多媒体信息推荐。其缺点是因为训练数据缺乏造成模型的过拟合，影响推荐的准确性，严重影响用户的使用体验。

2)使用通用模型完成多媒体信息推荐。但是通用数据推荐模型是针对多领域通用数据训练而成的，其推荐结果过于常规，缺乏针对行业特点的多媒体信息推荐。

3)使用数据迁移的方式完成多媒体信息推荐模型的训练，参考图3，图3为本发明实施例中迁移训练过程示意图，其中，使用深度神经网络执行迁移学习的典型方法是微调所有使用来自目标域的数据在源域上预训练模型的参数。然而，它不清楚微调目标域中所有实例的所有参数是否是最优的解决方案，图3所示的方式直接使用迁移学习的模型可能会因行业间数据分布不同，导致模型参数之间的负迁移，无法实现准确地多媒体信息推荐。

结合图2示出的多媒体信息推荐模型训练装置说明本发明实施例提供的多媒体信息推荐模型训练方法，参见图4，图4为本发明实施例提供的多媒体信息推荐模型训练方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行多媒体信息推荐模型训练装置的各种电子设备执行，例如可以是如带有多媒体信息推荐模型训练装置的专用终端、服务器或者服务器集群，其中，带有多媒体信息推荐模型训练装置的专用终端可以为前序图2所示的实施例中带有多媒体信息推荐模型训练装置的电子设备。下面针对图4示出的步骤进行说明。

步骤401：多媒体信息推荐模型训练装置获取多媒体信息推荐环境中的基础历史数据。

其中，基础历史数据为各个行业多媒体信息推荐时的数据总和，例如可以包括商品推荐、广告推荐、电商广告推荐、金融广告推荐等多个多媒体信息推荐环境中，所有基础数据的总和。在获取基础历史数据时，可以通过对用户使用过程的数据记录信息数据的原始日志进行有效提取，例如提取用户的设备号(用户账号)，多媒体信息种类，多媒体信息的浏览时长，以及多媒体信息的推荐环境来获取不同维度的基础历史数据。

可以理解的是，在本申请的具体实施方式中，涉及到媒体信息推荐环境中的基础历史数据和行业历史数据等用户相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

步骤402：多媒体信息推荐模型训练装置基于所述基础历史数据，提取预训练样本集合。

在本发明的一些实施例中，通过基础历史数据，提取预训练样本集合时，用户在通过网络进行视频信息浏览的历史点击行为、以及对应视频广告或者图片广告的浏览时长会通过订阅服务记录下来并存储在远程字典服务(Redis Remote Dictionary Server)中，作为基础历史数据，提取预训练样本集合时可以去拉取对应用户的历史点击行为和视频广告或者图片广告的浏览时长，从而确定预训练样本集合中的文本标签、视频标签以及频道标签。

在本发明的一些实施例中，其中，以多媒体信息为视频广告为例，预训练样本集合至少包括：

1)文本标签：这些文本标签是从标题文本中获取到的。文本标签的获取有两个途径，即：利用标题信息中的带“#”标签的文本信息，这些标签是视频广告用户提供的；或者调用现有的关键词提取服务从标题文本里提取的关键词，例如“空调”“手机”等视频广告的关键词。

2)视频标签：可以为广告服务器采用视频分类模型分类得到的标签。例如可以通过一个深度残差resnet50模型分类得到视频标签。深度残差resnet50的预训练卷积神经网络进行特征抽取，把视频的图像信息提取为128维特征向量。

3)频道标签：可以为广告服务器通过一个文本分类BERT模型得到的。BERT模型输入的是视频的标题文本特征，双向注意力神经网络模BERT(Bidirectional EncoderRepresentation from Transformers)，用于把视频标题句子送入模型任务获取64维(维度大小可以自定义)标题特征向量。通过BERT模型进一步增加词向量模型泛化能力，实现句子级别的表示能力。

步骤403：多媒体信息推荐模型训练装置基于所述预训练样本集合，对基础推荐模型进行训练，得到基础推荐模型的模型参数。

通过基础推荐模型，能够实现对任一行业的用户进行多媒体信息推荐，但是由于基础推荐模型来源于基础历史数据的训练，还不能够针对某一特定行业实现多媒体信息推荐，因此，还需要根据行业历史数据继续进行训练。

步骤404：多媒体信息推荐模型训练装置获取多媒体信息推荐环境中的行业历史数据。

步骤405：从所述基础推荐模型的模型参数中提取所述基础推荐模型嵌入层网络的参数，并将所述嵌入层网络的参数迁移至多媒体信息推荐模型中，其中，所述基础推荐模型与所述多媒体信息推荐模型的模型结构相同。

由于基础推荐模型与多媒体信息推荐模型的模型结构相同，同时，嵌入层网络的参数迁移至多媒体信息推荐模型中，因此，多媒体推荐模型可以继承基础推荐模型的拟合效果，避免仅使用行业历史数据对多媒体信息推荐模型进行训练出现的过拟合缺陷，同时，为了使得多媒体信息推荐模型能够对目标行业的多媒体信息的召回策略进行调整，因此，还需执行步骤406对多媒体信息推荐模型进行训练。

步骤406：多媒体信息推荐模型训练装置根据所述行业历史数据，对所述多媒体信息推荐模型进行训练，确定多媒体信息推荐模型的模型参数，以实现通过所述多媒体信息推荐模型对目标行业的多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐。

结合图2示出的多媒体信息推荐模型训练装置说明本发明实施例提供的多媒体信息推荐模型训练方法，参见图5，图5为本发明实施例提供的多媒体信息推荐模型训练方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行多媒体信息推荐模型训练装置的各种电子设备执行，例如可以是如带有多媒体信息推荐模型训练装置的专用终端、服务器或者服务器集群，其中，带有多媒体信息推荐模型训练装置的专用终端可以为前序图2所示的实施例中带有多媒体信息推荐模型训练装置的电子设备。下面针对图5示出的步骤进行说明。

步骤501：多媒体信息推荐模型训练装置根据所述行业历史数据，对所述基础推荐模型的嵌入层网络的嵌入特征进行调整，得到多媒体信息推荐模型的嵌入特征。

具体来说，由于在进行推荐时，目标行业的类型众多，为了实现推荐的准确性，多媒体信息推荐模型的模型参数会随着目标行业的类型而发生改变，如果每一种类型的目标行业在进行多媒体信息推荐时都完全基于行业历史数据进行训练，则会增加多媒体信息推荐模型的应用成本，同时，对于行业历史数据较少的多媒体信息推荐模型，则会出现模型参数过拟合的缺陷，影响多媒体信息推荐的准确性。为了解决这些问题，在本申请所提供的多媒体信息推荐模型训练方法中，基础推荐模型与多媒体信息推荐模型的模型结构相同，在对多媒体信息推荐模型进行训练时，根据基础推荐模型的模型参数，提取基础推荐模型嵌入层网络的参数，并将嵌入层网络的参数迁移至多媒体信息推荐模型中，由此，多媒体信息推荐模型可以继承基础推荐模型的泛化性。

同时，由于多媒体信息推荐模型在训练时需要使用嵌入特征，而行业历史数据与基础历史数据又会出现部分重叠的情况，因此，本申请中，多媒体信息推荐模型训练时无需通过对于行业历史数据进行特征化处理，得到多媒体信息推荐模型的嵌入特征，而是根据行业历史数据，对基础推荐模型的嵌入层网络的嵌入特征进行调整，删除基础推荐模型的嵌入层网络的部分嵌入特征，并增加行业历史数据对应的特征，由此，可以进一步地减少多媒体信息推荐模型的训练时间，同时，所得到的多媒体信息推荐模型的嵌入特征既保留了基础历史数据的拟合效果，又能够使得多媒体信息推荐模型的嵌入特征适配目标行业，提示推荐的准确性。

步骤502：多媒体信息推荐模型训练装置根据所述目标行业的类型，为所述多媒体信息推荐模型配置训练循环轮次参数。

其中，由于目标行业的类型不同，因此，多媒体信息推荐的准确性也不同，例如对于消费品广告以及金融产品广告等推荐准确率(其中推荐准确率＝用户触发次数/信息推荐次数)需要大于等于0.8的多媒体信息推荐环境来说，由于多媒体信息推荐模型需要提升推荐准确性，引导用户触发消费品广告或者金融产品广告，因此，循环轮次参数需要为大于等于980的正整数。同样的，对于短视频推荐等推荐准确率小于等于0.8的多媒体信息推荐环境来说，由于多媒体信息推荐模型需要继承基础推荐模型的拟合性，因此，循环轮次参数需要为小于等于840的正整数。

步骤503：多媒体信息推荐模型训练装置当所述多媒体信息推荐模型的训练次数小于等于所述训练循环轮次参数时，保持所述嵌入层网络的参数不变，利用所述多媒体信息推荐模型的嵌入特征，和所述多媒体信息推荐模型的多任务损失函数，对所述多媒体信息推荐模型的网络参数进行调整，直至所述多媒体信息推荐模型对应的损失函数达到相应的收敛条件时，确定所述多媒体信息推荐模型的第一模型参数，其中，所述多媒体信息推荐模型的模型参数包括所述第一模型参数。

需要说明的是，由于第一模型参数是在保持嵌入层网络的参数不变的情况下，对多媒体信息推荐模型进行训练所得到的，此时使用第一模型参数的多媒体信息推荐模型可以继承基础推荐模型的拟合效果，提升多媒体信息推荐模型的泛化性，但是由于多媒体信息推荐模型的嵌入层网络并未参与训练，因此，使用第一模型参数的多媒体信息推荐模型对于目标行业的针对性推荐效果还没有达到最佳状态(例如广告的推荐准确率还未达到准确率阈值0.8)，因此，需要多媒体信息推荐模型的嵌入层网络继续参与训练，以调整第一模型参数。

步骤504：多媒体信息推荐模型训练装置当所述多媒体信息推荐模型的训练次数大于所述训练循环轮次参数时，利用所述多媒体信息推荐模型的嵌入特征，对所述基础推荐模型进行训练，以实现调整所述多媒体信息推荐模型的第一模型参数，得到所述多媒体信息推荐模型的模型参数。

通过步骤503和步骤504的处理，确定多媒体信息推荐模型的模型参数后，经过训练的多媒体信息推荐模型，由于继承基础推荐模型的拟合效果，避免仅使用行业历史数据对多媒体信息推荐模型进行训练出现的过拟合缺陷，提升多媒体信息推荐模型的泛化性，使得多媒体信息推荐模型更加符合用户的使用需求。

需要说明的是，由于本申请中，对多媒体信息推荐模型的模型结构不作具体限制，因此训练循环轮次参数在配置时，需要进行动态调整，具体可以通过以下方式实现：确定所述多媒体信息推荐模型对应的损失函数的收敛速度；根据所述收敛速度，对所述训练循环轮次参数进行动态调整，以实现所述训练循环轮次参数与所述收敛速度相匹配。

具体来说，当通过损失函数的收敛速度，确定出现超线性收敛时，减小训练循环轮次参数；确定出现线性收敛时，保持训练循环轮次参数不变；确定出现次线性收敛时，增大训练循环轮次参数，如此，对训练循环轮次参数进行动态调整，可以保证损失函数的收敛速度的处于平稳变化，保证多媒体信息推荐模型的训练精确度。

由此，通过预训练样本集合的训练可以保证了数据量充分，得到有益的模型参数，保证推荐的模型不发生过拟合，而通过行业历史数据的训练，则可以保证对某一行业中多媒体信息推荐的准确性，避免推荐结果过于常规，可以更好的吸引用户的观看。

参考图6，图6为本发明实施例中图5所示的外围特征和中心特征的获取过程示意图，通过前序实施例中的步骤501和502的处理可以分别通过中心子模型对原始特征进行特征映射，以及通过外围子模型对域特征进行特征映射将128维的特征向量降维到低维空间(64或者32维)。根据相同的约束条件，得到原始特征在目标语义空间下的中心特征，以及域特征在目标语义空间下的外围特征，举例来说，如果用x表示一侧网络的输入向量，用y表示输出向量，li，i＝1，…N-1，表示中间的隐藏层，W_i表示第i层的权重矩阵，以及b_i表示第i层的偏置项，则隐藏层的输出和中心子模型的输出可以表示为公式1：

其中，参考公式2，可以使用数作为输出层和隐藏层li的激活函数：

在对内容进行排序时，参考公式3，可以利用外围子模型(例如双塔结构中的外围塔)和中心子模型(例如双塔结构中的轴心塔)对外围特征和中心特征的余弦相似度作为待推荐视频的优先级排序依据：

结合图2示出的多媒体信息推荐模型训练装置说明本发明实施例提供的多媒体信息推荐模型训练方法，参见图7，图7为本发明实施例提供的多媒体信息推荐模型训练方法一个可选的流程示意图，可以理解地，图7所示的步骤可以由运行多媒体信息推荐模型训练装置的各种电子设备执行，例如可以是如带有多媒体信息推荐模型训练装置的专用终端、服务器或者服务器集群，其中，带有多媒体信息推荐模型训练装置的专用终端可以为前序图2所示的实施例中带有多媒体信息推荐模型训练装置的电子设备。下面针对图7示出的步骤进行说明。

步骤701：多媒体信息推荐模型训练装置根据所述行业历史数据，确定所述预训练样本集合中的无效样本。

其中，由于目标行业的类型多种多样，因此，需要不断的调整多媒体信息推荐模型以符合多媒体信息推荐的使用需求，而行业历史数据与基础历史数据又会出现部分重叠的情况，因此，本申请中，多媒体信息推荐模型训练时无需通过对于行业历史数据进行特征化处理，得到多媒体信息推荐模型的嵌入特征，而是根据行业历史数据，对基础推荐模型的嵌入层网络的嵌入特征进行调整，删除基础推荐模型的嵌入层网络的部分嵌入特征，并增加行业历史数据对应的特征，例如，基于基础历史数据得到的预训练样本集合包括了：短视频的信息样本以及消费品广告或者金融产品广告的行业历史数据对应的信息样本，对于进行短视频推荐的多媒体信息推荐模型，消费品广告或者金融产品广告的行业历史数据对应的信息样本是无效样本，同样的，对于进行广告推荐的多媒体信息推荐模型，在训练时，短视频的信息样本是无效样本。

步骤702：多媒体信息推荐模型训练装置基于所述行业历史数据，确定与所述行业历史数据相匹配的行业特征样本。

步骤703：多媒体信息推荐模型训练装置利用所述无效样本和所述行业特征样本，对所述预训练样本集合进行调整，得到行业训练样本集合。

其中，可以在预训练样本中删除无效样本，并增加行业特征样本从而得到行业训练样本集合，行业训练样本集合可以存储在云服务器中，以保证相应行业的多媒体信息推荐模型再次被触发时，直接调用训练样本，以节省模型训练时间。

步骤704：多媒体信息推荐模型训练装置根据所述目标行业的类型，为所述多媒体信息推荐模型配置训练循环轮次参数。

步骤705：多媒体信息推荐模型训练装置提取所述基础推荐模型的嵌入层网络的嵌入特征。

步骤706：多媒体信息推荐模型训练装置当所述多媒体信息推荐模型的训练次数小于等于所述训练循环轮次参数时，保持所述嵌入层网络的参数不变，通过所述行业训练样本集合，对所述嵌入特征进行调整，得到所述多媒体信息推荐模型的第二模型参数。

需要说明的是，由于第二模型参数是在保持嵌入层网络的参数不变的情况下，对多媒体信息推荐模型进行训练所得到的，此时使用第二模型参数的多媒体信息推荐模型可以继承基础推荐模型的拟合效果，提升多媒体信息推荐模型的泛化性，此时多媒体信息推荐模型使用第二模型参数虽然能够实现对多媒体信息的推荐，但是由于多媒体信息推荐模型的嵌入层网络并未参与训练，因此，使用第二模型参数的多媒体信息推荐模型对于目标行业的针对性推荐效果还没有达到最佳状态(例如广告的推荐准确率还未达到准确率阈值0.8)，因此，需要多媒体信息推荐模型的嵌入层网络继续参与训练，以调整第二模型参数，同时由于步骤701-步骤703中利用无效样本和所述行业特征样本，对预训练样本集合进行调整，得到行业训练样本集合，因此，多媒体信息模型在不同目标行业中使用时(或者同一目标行业进行复用)，可以从云服务器中直接获取行业训练样本集合，进一步地压缩多媒体信息推荐模型的训练时间，使得多媒体信息推荐模型能够在最短的训练时间中获得最高的推荐准确率。

步骤707：多媒体信息推荐模型训练装置当所述多媒体信息推荐模型的训练次数大于所述训练循环轮次参数时，通过所述行业训练样本集合，对所述基础推荐模型进行训练，以实现调整所述多媒体信息推荐模型的第二模型参数，得到所述多媒体信息推荐模型的模型参数。

在本发明的一些实施例中，当多媒体信息推荐模型固化于相应的硬件机构(例如新闻阅读终端、电子书终端、财经新闻终端)中，使用环境为通过新闻阅读终端或电子书终端向用户推送不同的新闻多媒体信息时，通过固定多媒体信息推荐模型相对应的固定噪声阈值，能够有效提升多媒体信息推荐模型的训练速度，减少用户的等待时间。其中，当噪声固定的使用环境中，训练样本集合可以来自目标行业对应观众的历史数据，历史的推荐多媒体信息浏览数据可以是曾经为目标行业对应观众推荐推荐多媒体信息时产生的推荐多媒体信息查看行为数据，可以从历史浏览日志中提取。这里历史的推荐多媒体信息浏览数据可以是全部的历史的推荐多媒体信息浏览数据；也可以考虑到行为数据的时效性，仅包括预设时间段内的历史的推荐多媒体信息浏览数据，比如一周内的历史的推荐多媒体信息浏览数据等不同的历史数据。

下面以视频广告播放界面中的视频推荐场景为例对本发明实施例所提供的多媒体信息推荐方法进行说明，其中，图8为本发明实施例中基于多媒体信息推荐模型的多媒体信息推荐方法的应用环境示意图，其中，如图8所示，视频广告播放界面可以是相应的APP中所展现的，也可以是通过即时通讯客户端小程序所触发的(多媒体信息推荐模型可以经过训练后封装于相应的APP或以插件形式保存于即时通讯客户端小程序中)，随着视频广告应用产品不断发展增多，视频信息的承载量远远大于文字信息，视频广告可以通过相应的应用程序不间断地向用户进行推荐，因此，向用户推荐新鲜的视频广告，避免重复推荐可以保持用户的新鲜感，有效的后续相关视频的推荐可以有效地提升用户的使用体验，其中，图9为本发明实施例中多媒体信息推荐方法的过程示意图，包括以下步骤：

步骤901：获取多媒体信息数据源中的待推荐多媒体信息。

步骤902：通过多媒体信息推荐模型对不同待推荐多媒体信息进行处理，确定不同待推荐多媒体信息的优先级。

例如，两个多媒体信息为消费品的视频广告A和广告B，其中，当通过本申请所提供的多媒体信息推荐模型确定A的目标多媒体信息的得分为1，B的目标多媒体信息的得分为2时，可以确定广告B的优先级高于广告A的优先级，说明当前用户可能对视频广告B更加感兴趣，因此，根据目标多媒体信息的得分，首先向用户推荐广告B，并且为广告B配置更多的播放流量，提升广告B的曝光率，实现用户获得更好的观看体验，从而增加广告B的触发率。

步骤903：根据不同待推荐多媒体信息的优先级对多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐。

图10为本发明实施例中多媒体信息推荐方法的过程示意图，其中，基础推荐模型和多媒体信息推荐模型采用双塔结构，在获取基础推荐模型后，可以通过电商广告的行业历史数据对基础推荐模型继续进行训练与微调，实现向用户推荐不同的电商广告，其中训练循环轮次参数的初始值为4，多媒体信息推荐模型对应的损失函数的收敛速度超过收敛速度阈值时，对训练循环轮次参数进行调整。

具体包括以下步骤：

步骤1001：基于基础历史数据，提取预训练样本集合。

步骤1002：基于所述预训练样本集合，对基础推荐模型进行训练，得到基础推荐模型的模型参数。

步骤1003：获取多媒体信息推荐环境中的电商广告行业的历史数据。

步骤1004：根据电商广告行业的历史数据，对基础推荐模型的嵌入层网络的嵌入特征进行调整。

步骤1005：利用电商广告多媒体信息推荐模型的多任务损失函数，对网络参数进行调整，确定电商广告多媒体信息推荐模型的网络参数。

在本发明的一些实施例中，参见图11，图11为本发明实施例中一个可选的多媒体信息推荐的示意图，其中，可以确定待推荐多媒体信息的品类；响应于所述待推荐多媒体信息的品类，触发相匹配的多媒体信息数据源，例如在使用时，确定待推荐多媒体信息的品类为广告信息时，目标资源中包括同一行业的不同广告，可以在不同的广告位视频广告播放窗口中依次播放不同资源组中所包括的不同的视频广告信息(例如广告位1、广告位2以及广告位3分别播放同一行业的三种不同广告)，或者，当显示界面中的所有不同的广告位视频广告播放区域被同一行业承包时，广告信息进行循环展示，可以在广告信息展示界面的不同的广告位视频广告播放窗口中循环呈现同一行业的广告信息，同时当同一行业的不同的广告位视频广告为视频广告时，可以在循环呈现同一行业的视频广告信息，依次调整视频所携带的音频音量至最大，以提示用户观看所播放的视频广告。由广告A替换为广告B，达到为广告B配置更多的播放流量，实现用户获得更好的观看体验。具体来说，基于广告信息的召回策略匹配的流量参数以及迭代实验参数，对广告信息的召回策略进行动态调整时，对于广告曝光率可以增加，在本发明的一些实施例中，还可以将广告A的曝光渠道由当前的多媒体信息播放客户端中曝光调整至即时通讯客户端的联系人状态信息中进行广告投放，当然广告A的曝光位置进行调整时可以由即时通讯客户端的状态分享界面广告调整至开屏广告，以符合不同的动态调整的召回策略，使得不同的广告位的视频广告能够在短时间内向不同的用户进行推荐，以获得更好的视频推荐效果。以图11为例，当通过本申请所提供的多媒体信息推荐模型，在即时短视频播放界面中对消费品行业的广告进行召回策略调整时，通过图6所示的多媒体信息推荐模型可以在广告位1、广告位2以及广告位3中向观看广告的用户推荐不同的广告时，通过动态调整召回策略可以按照广告A、广告B以及广告C的投放顺序进行消费品行业的广告投放，其中，广告位1展示广告A、广告位2展示广告B以及广告位3展示广告C。保证用户获得更加具有新鲜感的广告信息(向不同类型的用户分别推荐未曾观看的广告信息)，使得用户获得更好的使用体验，同时增加广告的点击率以获得更好的广告投放效果。

如图11所示，在进行视频广告的播放时，可以将视频广告播放时的曝光参数向检测服务器发送，以实现所述检测服务器获取视频广告的曝光参数；将曝光参数作为所述多媒体信息的播放效果的评价参数，并且根据召回策略的调整结果，查找目标曝光参数。例如，广告位1、广告位2以及广告位3的曝光参数分别为100次、85次以及70次，通过广告位的视频广告播放时的曝光参数，可以确定广告的推荐效果，根据召回策略的调整结果，查找广告A、广告B以及广告C的目标曝光参数分别为65次，75次以及102次时，可以将广告A调整至广告位3、广告B调整至广告位2以及将广告C调整至广告位1，以灵活满足视频广告的投放需求。

同时，如图11所示，其中，对所述时效类短视频的播放策略进行动态调整时，可以获取目标行业对应观众的历史浏览信息；基于所述目标行业对应观众的历史浏览信息，确定与所述历史浏览信息对应的时效类短视频曝光历史；基于所述历史浏览信息对应的时效类短视频曝光历史，对所述时效类短视频的播放策略进行动态调整，以图11为例，由于用户的喜好不同，可以对任一目标行业的广告进行屏蔽，因此，当确定目标行业对应观众1的历史浏览信息中曾经屏蔽广告B时，通过动态调整播放策略可以使用其他广告信息(例如广告C)替换广告A，当确定目标行业对应观众2的历史浏览信息中曾经屏蔽广告C时，通过动态调整播放策略可以使用其他广告信息(例如广告D)替换广告A，以符合目标行业对应观众的使用习惯，使得用户获得更好的使用体验。

参见图12，图12为本发明实施例中一个可选的多媒体信息推荐的示意图，其中，多媒体信息推荐模型用于向短视频的观看用户推荐金融行业的基金时，根据金融行业的历史数据，对基础推荐模型进行训练，确定多媒体信息推荐模型的模型参数后，可以在广告位1、广告位2以及广告位3中向观看短视频的观看用户推荐不同的基金产品时，通过动态调整召回策略可以按照基金“宏源XX”、基金“万圣XX”以及基金“XX基金”的投放顺序进金融行业的基金产品推荐，其中，广告位1展示“XX基金”、广告位2展示“万圣XX”以及广告位3“宏源XX”广告C，由此，相比于图11所示的广告推荐，可以在保证用户获得相同的观看体验时，通过多媒体信息推荐模型在相同的广告位，投放不同行业的广告信息或者产品信息，方便用户的购买和查询。

有益技术效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体信息推荐模型训练方法，其特征在于，所述方法包括：

获取多媒体信息推荐环境中的基础历史数据；

基于所述基础历史数据，提取预训练样本集合；

获取所述多媒体信息推荐环境中的行业历史数据；

根据所述行业历史数据，对所述多媒体信息推荐模型进行训练，确定所述多媒体信息推荐模型的模型参数，以实现通过所述多媒体信息推荐模型对目标行业的多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐。

2.根据权利要求1所述的方法，其特征在于，所述根据所述行业历史数据，对所述多媒体信息推荐模型进行训练，确定所述多媒体信息推荐模型的模型参数，包括：

根据所述行业历史数据，对所述基础推荐模型的嵌入层网络的嵌入特征进行调整，得到多媒体信息推荐模型的嵌入特征；

根据所述目标行业的类型，为所述多媒体信息推荐模型配置训练循环轮次参数；

当所述多媒体信息推荐模型的训练次数小于等于所述训练循环轮次参数时，保持所述嵌入层网络的参数不变，利用所述多媒体信息推荐模型的嵌入特征，和所述多媒体信息推荐模型的多任务损失函数，对所述多媒体信息推荐模型的网络参数进行调整；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当所述多媒体信息推荐模型的训练次数大于所述训练循环轮次参数时，利用所述多媒体信息推荐模型的嵌入特征，和所述多媒体信息推荐模型的多任务损失函数对所述基础推荐模型进行训练，以实现调整所述多媒体信息推荐模型的第一模型参数，得到所述多媒体信息推荐模型的模型参数。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

确定所述多媒体信息推荐模型对应的损失函数的收敛速度；

根据所述收敛速度，对所述训练循环轮次参数进行动态调整，以实现所述训练循环轮次参数与所述收敛速度相匹配。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述行业历史数据，确定所述预训练样本集合中的无效样本；

基于所述行业历史数据，确定与所述行业历史数据相匹配的行业特征样本；

利用所述无效样本和所述行业特征样本，对所述预训练样本集合进行调整，得到行业训练样本集合。

6.根据权利要求5所述的方法，其特征在于，根据所述行业历史数据，对所述多媒体信息推荐模型进行训练，确定所述多媒体信息推荐模型的模型参数，包括：

提取所述基础推荐模型的嵌入层网络的嵌入特征；

当所述多媒体信息推荐模型的训练次数小于等于所述训练循环轮次参数时，保持所述嵌入层网络的参数不变，通过所述行业训练样本集合，对所述嵌入特征进行调整，得到所述多媒体信息推荐模型的第二模型参数，其中，所述多媒体信息推荐模型的模型参数包括所述第二模型参数；

当所述多媒体信息推荐模型的训练次数大于所述训练循环轮次参数时，通过所述行业训练样本集合，对所述基础推荐模型进行训练，以实现调整所述多媒体信息推荐模型的第二模型参数，得到所述多媒体信息推荐模型的模型参数。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述多媒体信息为视频广告时，

将所述视频广告播放时的曝光参数向检测服务器发送，以实现所述检测服务器获取视频广告的曝光参数；

将所述曝光参数作为所述多媒体信息的播放效果的评价参数，并且根据所述召回策略的调整结果，查找目标曝光参数。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标行业对应观众的历史浏览信息；

基于所述目标行业对应观众的历史浏览信息，确定与所述历史浏览信息对应的多媒体信息曝光历史；

基于所述历史浏览信息对应的多媒体信息曝光历史，对所述多媒体信息的召回策略进行动态调整。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述多媒体信息推荐环境，确定待推荐多媒体信息的品类；

响应于所述待推荐多媒体信息的品类，触发相匹配的多媒体信息数据源，以实现通过与待推荐多媒体信息的品类相匹配的多媒体信息数据源对所述待推荐多媒体信息进行调整。

10.一种多媒体信息推荐方法，其特征在于，所述方法包括：

获取多媒体信息数据源中的待推荐多媒体信息；

根据不同待推荐多媒体信息的优先级对多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐，其中，所述多媒体信息推荐模型基于权利要求1-9任意一项训练得到。

11.一种多媒体信息推荐模型训练装置，其特征在于，所述装置包括：

所述信息处理模块，用于基于所述预训练样本集合，对基础推荐模型进行训练，得到所述基础推荐模型的模型参数；

所述信息处理模块，用于获取所述多媒体信息推荐环境中的行业历史数据；

所述信息处理模块，用于从所述基础推荐模型的模型参数中提取所述基础推荐模型嵌入层网络的参数，并将所述嵌入层网络的参数迁移至多媒体信息推荐模型中，其中，所述基础推荐模型与所述多媒体信息推荐模型的模型结构相同；

12.一种多媒体信息推荐装置，其特征在于，所述装置包括：

所述数据处理模块，用于根据不同待推荐多媒体信息的优先级对多媒体信息的召回策略进行调整，并且通过所述召回策略进行多媒体信息推荐，其中，所述多媒体信息推荐模型基于权利要求1-9任意一项训练得到。

13.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时，实现权利要求1至9任一项所述的多媒体信息推荐模型训练方法，或者实现权利要求10所述的多媒体信息推荐方法。

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至9任一项所述的多媒体信息推荐模型训练方法，或者实现权利要求10所述的多媒体信息推荐方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至9任一项所述的多媒体信息推荐模型训练方法，或者实现权利要求10所述的多媒体信息推荐方法。