CN112925926B

CN112925926B - 多媒体推荐模型的训练方法、装置、服务器以及存储介质

Info

Publication number: CN112925926B
Application number: CN202110120344.6A
Authority: CN
Inventors: 李吉祥; 杨森; 贾纪元
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-04-22
Anticipated expiration: 2041-01-28
Also published as: CN112925926A; US20220237510A1

Abstract

本公开关于一种多媒体推荐模型的训练方法、装置、服务器以及存储介质，属于深度学习技术领域，该方法包括：对多个多媒体推荐模型进行迭代训练，确定各个多媒体推荐模型对应的关联模型，基于各个多媒体推荐模型的模型参数和对应的关联模型的模型参数，分别确定各个多媒体推荐模型的目标模型参数。本公开实施例提供的技术方案，由于各个多媒体推荐模型每次所确定的关联模型均基于上一次所确定的关联模型来确定，因此，能够确保各个多媒体推荐模型间的模型参数能够尽可能地融合交互，能够更加广泛的进行多媒体推荐模型间的参数优化，提高了模型训练的全面性，从而提升了多媒体推荐模型的预测能力。

Description

多媒体推荐模型的训练方法、装置、服务器以及存储介质

技术领域

本公开涉及深度学习技术领域，尤其涉及一种多媒体推荐模型的训练方法、装置、服务器以及存储介质。

背景技术

随着深度学习技术的日渐成熟，深度学习已经取代传统机器学习算法，成为机器学习中的技术首选。深度学习的实质，是通过构建具有很多隐层的机器学习模型，并利用海量的训练数据进行模型训练，来学习更有用的特征，从而提升模型输出的准确性。

目前，对模型进行训练时，通常是利用训练数据，对单个模型进行迭代训练，在每一次迭代结束后，基于本次迭代的模型训练结果与本次迭代的训练数据的真实标签，计算模型训练结果与真实标签之间的损失值，再基于损失值对该模型的模型参数进行更新，直至训练满足条件，则训练结束。

上述技术中，仅对单个模型进行训练，可能会造成模型训练不稳定，导致训练得到的模型的预测能力较低。

发明内容

本公开提供一种多媒体推荐模型的训练方法、装置、服务器以及存储介质，能够更加广泛的进行多媒体推荐模型间的参数优化，提高了模型训练的全面性，从而提升了多媒体推荐模型的预测能力。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多媒体推荐模型的训练方法，该方法包括：

对多个多媒体推荐模型进行迭代训练，该多个多媒体推荐模型的层次结构以及该层次结构中模型参数的类型相同，该模型参数为对应多媒体推荐模型的权重参数；

确定第一多媒体推荐模型对应的关联模型，该第一多媒体推荐模型为该多个多媒体推荐模型中的任意一个，该关联模型为该多个多媒体推荐模型中除该第一多媒体推荐模型以外的一个，且，该关联模型基于该第一多媒体推荐模型上一次所确定的关联模型确定；

基于该第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，确定该第一多媒体推荐模型的目标模型参数。

在一些实施例中，该确定第一多媒体推荐模型对应的关联模型包括：

在一次迭代结束时，在除该第一多媒体推荐模型以外的多个多媒体推荐模型中，选取该第一多媒体推荐模型的起始关联模型，其中，各个该多媒体推荐模型对应的起始关联模型不同；

在第N次迭代结束时，基于该第一多媒体推荐模型上一次所确定的关联模型的顺序，确定与该关联模型相邻的下一多媒体推荐模型，作为该第一多媒体推荐模型在第N次迭代结束的关联模型，该N为确定关联模型的迭代次数，N为大于1的正整数。

在一些实施例中，该方法还包括：

每确定K-1个关联模型时，选取该起始关联模型，作为该第一多媒体推荐模型在本次迭代结束时的关联模型，该K为该多个多媒体推荐模型的数目，K为大于1的正整数。

在一些实施例中，该基于该第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，确定该第一多媒体推荐模型的目标模型参数包括：

基于该第一多媒体推荐模型的第一权重系数和对应的关联模型的第二权重系数，对该第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，进行加权平均，得到该第一多媒体推荐模型的目标模型参数。

在一些实施例中，该方法还包括：

基于模型训练的迭代次数，确定该第一多媒体推荐模型的第一权重系数和该第二权重系数。

在一些实施例中，该基于模型训练的迭代次数，确定该第一多媒体推荐模型的第一权重系数和该第二权重系数包括：

响应于模型训练的迭代次数小于或等于第一阈值，将该第一权重系数调整为第一数值，将该第二权重系数调整为第二数值，该第一数值大于该第二数值；

响应于该模型训练的迭代次数大于该第一阈值，且小于或等于第二阈值，基于该迭代次数，确定该第二权重系数的数值，该第二权重系数的数值与该迭代次数正相关；

响应于该模型训练的迭代次数大于该第二阈值，将该第一权重系数和该第二权重系数均调整为第三数值。

在一些实施例中，该响应于该模型训练的迭代次数大于该第一阈值，且小于或等于第二阈值，基于该迭代次数，确定该第二权重系数的数值包括：

响应于该模型训练的迭代次数大于该第一阈值，且小于或等于第二阈值，基于该迭代次数和线性关系数据，确定该第二权重系数的数值，该线性关系数据为第二权重系数的数值随该迭代次数线性递增的关系数据。

每间隔目标迭代次数，在当前迭代过程结束时，确定该第一多媒体推荐模型对应的关联模型。

在一些实施例中，该对多个多媒体推荐模型进行迭代训练包括：

接收终端发送的在线数据，基于该在线数据，对该多个多媒体推荐模型进行迭代训练；

该确定第一多媒体推荐模型对应的关联模型包括：

每间隔目标时长，在当前迭代过程结束时，确定该第一多媒体推荐模型对应的关联模型。

根据本公开实施例的第二方面，提供一种多媒体推荐模型的训练装置，该装置包括：

训练单元，被配置为执行对多个多媒体推荐模型进行迭代训练，该多个多媒体推荐模型的层次结构以及该层次结构中模型参数的类型相同，该模型参数为对应多媒体推荐模型的权重参数；

模型确定单元，被配置为执行确定第一多媒体推荐模型对应的关联模型，该第一多媒体推荐模型为该多个多媒体推荐模型中的任意一个，该关联模型为该多个多媒体推荐模型中除该第一多媒体推荐模型以外的一个，且，该关联模型基于该第一多媒体推荐模型上一次所确定的关联模型确定；

参数确定单元，被配置为执行基于该第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，确定该第一多媒体推荐模型的目标模型参数。

在一些实施例中，该模型确定单元，被配置为执行：

在一些实施例中，该模型确定单元，还被配置为执行：

在一些实施例中，该参数确定单元，被配置为执行：

在一些实施例中，该装置还包括权重系数确定单元，被配置为执行：

在一些实施例中，该权重系数确定单元包括：

第一调整子单元，被配置为执行响应于模型训练的迭代次数小于或等于第一阈值，将该第一权重系数调整为第一数值，将该第二权重系数调整为第二数值，该第一数值大于该第二数值；

第二调整子单元，被配置为执行响应于该模型训练的迭代次数大于该第一阈值，且小于或等于第二阈值，基于该迭代次数，确定该第二权重系数的数值，该第二权重系数的数值与该迭代次数正相关；

第三调整子单元，被配置为执行响应于该模型训练的迭代次数大于该第二阈值，将该第一权重系数和该第二权重系数均调整为第三数值。

在一些实施例中，该第二调整子单元，被配置为执行：

在一些实施例中，该模型确定单元，被配置为执行每间隔目标迭代次数，在当前迭代过程结束时，确定该第一多媒体推荐模型对应的关联模型。

在一些实施例中，该训练单元，被配置为执行接收终端发送的在线数据，基于该在线数据，对该多个多媒体推荐模型进行迭代训练；

该模型确定单元，被配置为执行每间隔目标时长，在当前迭代过程结束时，确定该第一多媒体推荐模型对应的关联模型。

根据本公开实施例的第三方面，提供一种服务器，该服务器包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述的多媒体推荐模型的训练方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，该计算机可读存储介质包括：当该计算机可读存储介质中的程序代码由服务器的处理器执行时，使得服务器能够执行上述的多媒体推荐模型的训练方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序代码，该计算机程序被处理器执行时实现上述的多媒体推荐模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的技术方案，通过对相同结构的多个多媒体推荐模型并行训练，并确定各个多媒体推荐模型的关联模型，进而根据各个多媒体推荐模型的模型参数和对应的关联模型的模型参数，来确定各个多媒体推荐模型的目标模型参数，由于各个多媒体推荐模型每次所确定的关联模型均基于上一次所确定的关联模型来确定，因此，能够确保各个多媒体推荐模型间的模型参数能够尽可能地融合交互，能够更加广泛的进行多媒体推荐模型间的参数优化，提高了模型训练的全面性，从而提升了多媒体推荐模型的预测能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的实施环境示意图；

图2是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的流程图；

图3是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的流程图；

图4是根据一示例性实施例示出的一种多媒体推荐模型的框架示意图；

图5是根据一示例性实施例示出的一种确定关联模型的示意图；

图6是根据一示例性实施例示出的又一种确定关联模型的示意图；

图7是根据一示例性实施例示出的一种多媒体推荐模型的训练装置的框图；

图8是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

图1是本公开实施例提供的一种多媒体推荐模型的训练方法的实施环境示意图，参见图1，该实施环境中包括：终端101和服务器102。

终端101可以为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种，终端101具有通信功能，可以接入互联网，终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。在本公开实施例所提供的一些实施例中，终端101用于向服务器102发送在线数据，以触发服务器102基于该在线数据，对该多个多媒体推荐模型进行迭代训练。其中，在线数据可以为用户基于多媒体资源进行操作所发送的在线数据。可选地，在线数据包括用户的账号信息、用户的互动行为信息或多媒体资源信息等等，例如，互动行为信息可以为点赞行为、评论行为或分享行为，多媒体资源信息可以为视频内容、视频的播放信息等。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102与终端101可以通过有线或无线通信方式进行直接或间接的连接，本公开实施例对此不作限定。可选地，上述服务器102的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。本公开实施例中，服务器102用于对多个多媒体推荐模型进行迭代训练，确定各个多媒体推荐模型对应的关联模型，进而基于各个多媒体推荐模型的模型参数和对应的关联模型的模型参数，来确定各个多媒体推荐模型的目标模型参数。

图2是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的流程图，如图2所示，该方法用于服务器中，包括以下步骤：

在步骤201中，服务器对多个多媒体推荐模型进行迭代训练，该多个多媒体推荐模型的层次结构以及该层次结构中模型参数的类型相同，该模型参数为对应多媒体推荐模型的权重参数。

在步骤202中，服务器确定第一多媒体推荐模型对应的关联模型，该第一多媒体推荐模型为该多个多媒体推荐模型中的任意一个，该关联模型为该多个多媒体推荐模型中除该第一多媒体推荐模型以外的一个，且，该关联模型基于该第一多媒体推荐模型上一次所确定的关联模型确定。

在步骤203中，服务器基于该第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，确定该第一多媒体推荐模型的目标模型参数。

上述图2所示仅为本公开的基本流程，下面基于一种具体实施方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的一种多媒体推荐模型的训练方法的流程图，参见图3，该实施例以终端和服务器的交互为例对方案进行说明，包括以下步骤：

在步骤301中，服务器对多个多媒体推荐模型进行迭代训练，该多个多媒体推荐模型的层次结构以及该层次结构中模型参数的类型相同，该模型参数为对应多媒体推荐模型的权重参数。

本公开实施例中，多个多媒体推荐模型的层次结构相同，也即是该多个多媒体推荐模型的输入层、嵌入层、全连接层等层次结构相同，且该多个多媒体推荐模型的层次结构中模型参数的类型相同，如此，由于多个多媒体推荐模型的层次结构相同，因此该多个多媒体推荐模型之间具备互相参考的基础，同时，由于多个多媒体推荐模型的模型参数的类型相同，则该多个多媒体推荐模型的模型参数之间也具备互相参考的基础，便于后续模型参数的融合过程。其中，模型参数为多媒体推荐模型的权重参数，该模型参数能够表征模型功能。应理解地，模型训练的过程也即是对模型中的各个模型参数进行优化的过程。

在一些实施例中，服务器获取到训练数据后，在每次迭代训练时，对该训练数据内的训练样本进行数据混洗，得到各个多媒体推荐模型在本次迭代过程中的训练样本，进而基于各个多媒体推荐模型在本次迭代过程中的训练样本，对各个多媒体推荐模型进行迭代训练。

需要说明的是，由于数据混洗的过程，该多个多媒体推荐模型在每次迭代过程中的训练数据可能相同，也可能不同。例如，若训练数据包括15个训练样本，分别为1-15，多媒体推荐模型包括3个模型，以每次迭代输入5个样本为例，在一次迭代训练时，经过数据混洗，模型1在本次迭代过程中的训练样本可以为[1,3,2,6,5]，模型2在本次迭代过程中的训练样本可以为[5,4,3,2,1]，模型3在本次迭代过程中的训练样本可以为[9,15,12,14,13]。

在一些实施例中，服务器基于离线训练数据，对多个多媒体推荐模型进行迭代训练。其中，离线训练数据是指在实施本方案之前已准备好的训练数据。

在一些实施例中，服务器基于在线训练数据，对多个多媒体推荐模型进行迭代训练，其中，在线训练数据可以是用户点击操作而触发终端发送至服务器的数据。相应过程为：服务器接收终端发送的在线数据，基于该在线数据，对该多个多媒体推荐模型进行迭代训练。

下面对迭代训练的具体过程进行说明：

服务器获取到训练数据后，提取训练数据中的多个训练样本和该多个训练样本对应的样本标签，在一次迭代过程中，将该多个训练样本分别输入该多个多媒体推荐模型，得到本次迭代过程的训练结果，基于该本次迭代过程的训练结果与该样本标签，对该多个多媒体推荐模型的模型参数进行更新，得到该多个多媒体推荐模型在本次迭代结束后的模型参数。

可选地，在一次迭代过程中，多媒体推荐模型输出训练结果的过程为：对于任一多媒体推荐模型，服务器将训练样本输入该多媒体推荐模型，通过该多媒体推荐模型的特征提取层，对该训练样本进行特征提取，得到该训练样本的多个样本特征，再对该多个样本特征进行拼接，得到目标样本特征，将该目标样本特征输入该多个多媒体推荐模型的全连接层，进而输出本次迭代过程的训练结果。

例如，图4是根据一示例性实施例示出的一种多媒体推荐模型的框架示意图，参见图4，对于任一多媒体推荐模型，多媒体推荐模型包括输入模块、特征嵌入模块、全连接层模块以及输出模块。上述提到的特征提取层可以是图4所示出的特征嵌入模块。具体过程为：服务器提取得到训练样本后，将该训练样本输入该多媒体推荐模型，多媒体推荐模型对该训练样本进行解析，得到S个定点型稀疏特征，也即是图4所示出的定点型稀疏特征1至定点型稀疏特征S，将得到的S个定点型稀疏特征分别输入对应的特征嵌入模块，通过各自的特征嵌入模块，将该S个定点型稀疏特征转换成S个浮点型特征，再对该S个浮点型特征进行拼接，得到合并后的一个浮点型特征，将合并得到的浮点型特征输入多媒体推荐模型的全连接层模块，通过全连接层模块对浮点型特征进行预测，输出一个预测向量。

可选地，服务器对模型参数进行更新的过程为：在一次迭代过程中，基于本次迭代过程的训练结果与样本标签，计算该训练结果与该样本标签之间的损失值，利用计算得到的损失值和梯度反向传播算法来更新多媒体推荐模型中的模型参数。其中，梯度反向传播算法是一种以最小化损失函数为原则的模型参数更新算法。

在步骤302中，服务器确定第一多媒体推荐模型对应的关联模型，该第一多媒体推荐模型为该多个多媒体推荐模型中的任意一个，该关联模型为该多个多媒体推荐模型中除该第一多媒体推荐模型以外的一个，且，该关联模型基于该第一多媒体推荐模型上一次所确定的关联模型确定。

在一些实施例中，在一次迭代结束时，在除该第一多媒体推荐模型以外的多个多媒体推荐模型中，选取该第一多媒体推荐模型的起始关联模型，在第N次迭代结束时，基于该第一多媒体推荐模型上一次所确定的关联模型的顺序，确定与该关联模型相邻的下一多媒体推荐模型，作为该第一多媒体推荐模型在第N次迭代结束的关联模型，该N为确定关联模型的迭代次数，N为大于1的正整数。

其中，起始关联模型是指第一多媒体推荐模型所确定的第一个关联模型。本公开实施例中，各个多媒体推荐模型对应的起始关联模型不同，如此，使得各个该多媒体推荐模型均可以与不同的关联模型进行融合交互，能够更加广泛的进行多媒体推荐模型间的参数优化，提高了参数优化的全面性。

可选地，第一多媒体推荐模型的起始关联模型为：该多个多媒体推荐模型中除第一多媒体推荐模型以外的任一模型。可选地，第一多媒体推荐模型的起始关联模型为该第一多媒体推荐模型的相邻模型。例如，第一多媒体推荐模型的上一模型，或者，第一多媒体推荐模型的下一模型。

可选地，服务器在任意一次迭代结束时，执行确定第一多媒体推荐模型对应的起始关联模型。例如，在第一次迭代结束时或者在第三次迭代结束时。本公开实施例对何时确定起始关联模型不作限定。本公开实施例后续以在在第一次迭代结束时开始确定起始关联模型为例对方案进行说明。

可选地，服务器基于该第一多媒体推荐模型的编号，来确定该第一多媒体推荐模型对应的关联模型，也即是，在第N次迭代结束时，基于该第一多媒体推荐模型在第N-1次迭代结束时所确定的关联模型的编号，确定下一编号对应的多媒体推荐模型，作为该第一多媒体推荐模型在第N次迭代结束的关联模型。

示例地，服务器可以在每次迭代结束时，触发执行确定关联模型的过程。相应过程包括：在第1次迭代结束，以该第一多媒体推荐模型的下一模型为该第一多媒体推荐模型的起始关联模型，在第2次迭代结束时，确定该起始关联模型的下一模型，作为该第一多媒体推荐模型在第2次迭代结束时的关联模型，在第N次迭代结束时，将该第一多媒体推荐模型在N-1次迭代结束时所确定的关联模型的下一模型，确定为该第一多媒体推荐模型在第N次迭代结束时的关联模型。

在上述过程中，通过为每个多媒体推荐模型设置不同的起始关联模型，进而基于互不相同的起始关联模型，依次确定下一模型，作为关联模型，不仅能够确保每次迭代结束时所确定的关联模型和上一次迭代结束时所确定的关联模型不同，还能够确保各个多媒体推荐模型在每次迭代结束时所确定的关联模型不同，进一步提高了模型之间参考和融合，能够更加广泛的进行多媒体推荐模型间的参数优化。

上述示例是服务器每次迭代结束，则执行确定关联模型的过程，在另一些实施例中，服务器还能够设置执行确定关联模型的时机，其他实现方式如下：

在一些实施例中，服务器对第一多媒体推荐模型进行迭代训练，每间隔目标迭代次数，在当前迭代过程结束时，确定第一多媒体推荐模型对应的关联模型。示例地，以第M次为间隔目标迭代次数时的迭代次数为例，则在第M次迭代结束时，确定第一多媒体推荐模型对应的关联模型，该关联模型与该第一多媒体推荐模型在前M-1次间隔目标迭代次数时所确定的关联模型均不同，M为大于1的正整数。其中，目标迭代次数为预先设定的固定迭代次数，如50次。应理解地，该迭代次数也即是训练步数。

在另一些实施例中，服务器对第一多媒体推荐模型进行迭代训练，每间隔目标时长，在当前迭代过程结束时，确定第一多媒体推荐模型对应的关联模型。示例地，以第P次为间隔目标迭代次数时的迭代次数为例，则在第P次迭代结束时，确定第一多媒体推荐模型对应的关联模型，该关联模型与该多媒体推荐模型在前P-1次间隔目标迭代次数时所确定的关联模型均不同，P为大于1的正整数。其中，目标时长为预先设定的固定时长，如0.2小时。

在上述过程中，每隔一定迭代次数或时长，对于每个多媒体推荐模型，均按照上述方法确定其对应的关联模型，并进行模型参数的优化，能够使各个多媒体推荐模型之间的模型参数尽可能地融合交互，使模型的训练更全面、高效，从而提升多媒体推荐模型的预测能力。

需要说明的是，服务器还能够基于训练数据，来确定执行确定关联模型和目标模型参数的过程的时机，具体内容如下：

在一些实施例中，若训练数据为离线训练数据，按照每间隔目标迭代次数，来执行确定关联模型和目标模型参数的过程。由于离散训练数据的样本数量已经固定，因此，按照固定的迭代次数来执行，能够确保每个模型训练时的样本数量一致。

在另一些实施例中，若训练数据为在线训练数据，按照每间隔目标时长，或者，每间隔目标迭代次数，来执行确定关联模型和目标模型参数的过程。由于服务器获得在线训练数据的时机不定，而基于多次模型训练可知，间隔目标时长和间隔目标迭代次数，均能够基于保证各个多媒体推荐模型在一次训练过程中训练样本数一致。

应理解地，该多个多媒体推荐模型的数目是有限的，因此，当第一多媒体推荐模型遍历完除自身以外的多个多媒体推荐模型时，还可以按照以确定出的关联模型继续循环遍历。在一些实施例中，服务器每确定K-1个关联模型时，选取该起始关联模型，作为该第一多媒体推荐模型在本次迭代结束时的关联模型，该K为该多个多媒体推荐模型的数目，K为大于1的正整数。也即是，服务器在确定第一多媒体推荐模型的关联模型的过程中，若该多个多媒体推荐模型均已遍历一遍，则下一次迭代结束时，继续循环遍历该多个多媒体推荐模型。通过循环遍历的过程，使每个多媒体推荐模型再次与各个其他多媒体推荐模型进行融合交互，能够更广泛地进行模型参数的融合，并且，通过循环遍历来确定关联模型，能够快速确定出下一次循环时的关联模型，提高了确定关联模型的效率。

例如，图5是根据一示例性实施例示出的一种确定关联模型的示意图，参见图5，图5以K+1个多媒体推荐模型为例，分别为模型0、模型1…模型K+1。以每次迭代结束时触发执行确定关联模型为例，对于模型0来说，在第1次迭代结束，将模型0的下一模型(也即是模型1)作为起始关联模型，在第2次迭代结束，将模型1的下一模型(也即是模型2)作为关联模型，以此类推，在第K次迭代结束，将模型K作为关联模型，在第K+1次迭代结束，重新选取模型1作为关联模型，在第K+2次迭代结束，重新选取模型2作为关联模型。

服务器在确定第一多媒体推荐模型的关联模型时，会跳过该第一多媒体推荐模型。例如，图6是根据一示例性实施例示出的又一种确定关联模型的示意图，参见图6，图6以3个多媒体推荐模型为例，分别为模型1、模型2和模型3，且以多媒体推荐模型的上一模型为该多媒体推荐模型的起始关联模型为例，在第1次迭代结束，模型1的起始关联模型为模型3，模型2的起始关联模型为模型1，模型3的起始关联模型为模型2；在第2次迭代结束，模型1的关联模型为模型2，模型2的关联模型为模型3，模型3的关联模型为模型1，以此类推。

在步骤303中，服务器基于该第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，确定该第一多媒体推荐模型的目标模型参数。

在一些实施例中，基于该第一多媒体推荐模型的第一权重系数和对应的关联模型的第二权重系数，对该第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，进行加权平均，得到该第一多媒体推荐模型的目标模型参数。

具体地，基于该第一多媒体推荐模型的第一权重系数、对应的关联模型的第二权重系数及公式(1)，对该第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，进行加权平均，得到该第一多媒体推荐模型的目标模型参数。

avg_param＝(1-a)*model_2_param+a*model_1_param (1)

式中，avg_param为第一多媒体推荐模型的目标模型参数，(1-a)为第一多媒体推荐模型的第一权重系数，model_2_param为第一多媒体推荐模型的模型参数，a为第一多媒体推荐模型的关联模型的第二权重系数，model_1_param为第一多媒体推荐模型的关联模型的模型参数。

通过上述过程，通过设置第一权重系数和第二权重系数，能够更好地结合两个模型参数，进而提高了对模型参数进行优化的准确性。

示例地，参见图6，在第1次迭代结束，对于模型1来说，模型1的起始关联模型为模型3，则将模型1的模型参数和模型3的模型参数进行加权平均，将得到的模型参数作为模型1的目标模型参数；对于模型2来说，模型2的起始关联模型为模型1，则将模型1的模型参数和模型2的模型参数进行加权平均，将得到的模型参数作为模型2的目标模型参数；对于模型3来说，模型3的起始关联模型为模型2，则将模型2的模型参数和模型3的模型参数进行加权平均，将得到的模型参数作为模型3的目标模型参数。在第2次迭代结束，对于模型1来说，模型1的关联模型为模型2，则将模型1的模型参数和模型2的模型参数进行加权平均，将得到的模型参数作为模型1的目标模型参数；对于模型2来说，模型2的关联模型为模型3，则将模型2的模型参数和模型3的模型参数进行加权平均，将得到的模型参数作为模型2的目标模型参数；对于模型3来说，模型3的关联模型为模型1，则将模型1的模型参数和模型3的模型参数进行加权平均，将得到的模型参数作为模型3的目标模型参数；以此类推。

在一些实施例中，基于模型训练的迭代次数，确定该第一多媒体推荐模型的第一权重系数和该第二权重系数。在该过程中，服务器根据模型训练的进度，来调整第一权重系数和第二权重系数，相应过程如下：

(1)服务器响应于模型训练的迭代次数小于或等于第一阈值，将该第一权重系数调整为第一数值，将该第二权重系数调整为第二数值，该第一数值大于该第二数值。

其中，第一阈值为预先设定的固定阈值，迭代次数小于或等于第一阈值用于表示模型训练初期。第一数值和第二数值为预先设定的固定数值。例如，第一数值为0.95，第二数值为0.05。需要说明的是，由于模型参数是随机初始化的，使得模型训练初期多个多媒体推荐模型间的模型参数差别较大，因此通过在模型训练初期，将关联模型的第二权重系数维持在较低数值，使得公式(1)中目标模型参数主要由第一多媒体推荐模型的模型参数来决定，也即是模型训练初期目标模型参数主要由自身模型的权重来决定，能够确保初期模型训练的稳定性，同时保证模型之间模型参数的适当融合。

(2)服务器响应于该模型训练的迭代次数大于该第一阈值，且小于或等于第二阈值，基于该迭代次数，确定该第二权重系数的数值，该第二权重系数的数值与该迭代次数正相关。

其中，第二阈值为预先设定的固定阈值，迭代次数大于该第一阈值且小于或等于第二阈值用于表示模型训练中期。

可选地，服务器确定该第二权重系数的数值的过程包括：服务器响应于该模型训练的迭代次数大于该第一阈值，且小于或等于第二阈值，基于该迭代次数和线性关系数据，确定该第二权重系数的数值，该线性关系数据为第二权重系数的数值随该迭代次数线性递增的关系数据。在该实施例中，使得关联模型的第二权重系数(也即是a)随迭代次数增加而线性增大，使得模型训练中期关联模型的模型参数对目标模型参数的贡献程度逐渐增大，能够更好的进行模型参数的优化。

(3)服务器响应于该模型训练的迭代次数大于该第二阈值，将该第一权重系数和该第二权重系数均调整为第三数值。

其中，迭代次数大于该第二阈值用于表示模型训练后期。将该第一权重系数和该第二权重系数均调整为第三数值，也即是将该第一权重系数和该第二权重系数调整为相同数值0.5。

在该实施例中，在模型训练后期，由于各个多媒体推荐模型已经训练过了大量的训练样本，模型参数的变化相对较小，因此将此时权重系数设置在0.5左右，使得第一多媒体推荐模型和关联模型的目标模型参数的贡献程度一样，从而使目标模型参数能够更加平等地由第一多媒体推荐模型和关联模型产生。

在步骤304中，若该迭代训练满足目标条件，则服务器结束该迭代训练，将满足目标条件的迭代过程对应的模型作为训练得到的多媒体推荐模型。

在一些实施例中，若模型训练的训练数据均遍历完毕，则服务器结束该迭代训练，或者，若模型训练的迭代次数大于目标阈值，则服务器结束该迭代训练，或者，若该多个多媒体推荐模型均满足收敛条件，则服务器结束该迭代训练，进而，将满足目标条件的迭代过程对应的模型作为训练得到的多媒体推荐模型。应理解地，通过对多个多媒体推荐模型的并行训练以及对各个多媒体推荐模型之间的模型参数进行更新，能够获得训练完成的多个多媒体推荐模型。

本公开实施例提供的技术方案，通过对相同结构的多个多媒体推荐模型并行训练，并确定各个多媒体推荐模型的关联模型，进而根据各个多媒体推荐模型的模型参数和对应的关联模型的模型参数，来确定各个多媒体推荐模型的目标模型参数，由于各个多媒体推荐模型每次所确定的关联模型均与上一次所确定的关联模型不同，因此，使各个多媒体推荐模型间的模型参数能够尽可能地融合交互，能够更加广泛的进行多媒体推荐模型间的参数优化，提高了模型训练的全面性，从而提升了多媒体推荐模型的预测能力。

图7是根据一示例性实施例示出的一种多媒体推荐模型的训练装置的框图。参照图7，该装置包括训练单元701，模型确定单元702和参数确定单元703。

训练单元701，被配置为执行对多个多媒体推荐模型进行迭代训练，该多个多媒体推荐模型的层次结构以及该层次结构中模型参数的类型相同，该模型参数为对应多媒体推荐模型的权重参数；

模型确定单元702，被配置为执行确定第一多媒体推荐模型对应的关联模型，该第一多媒体推荐模型为该多个多媒体推荐模型中的任意一个，该关联模型为该多个多媒体推荐模型中除该第一多媒体推荐模型以外的一个，且，该关联模型基于该第一多媒体推荐模型上一次所确定的关联模型确定；

参数确定单元703，被配置为执行基于该第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，确定该第一多媒体推荐模型的目标模型参数。

在一些实施例中，该模型确定单元702，被配置为执行：

在一些实施例中，模型确定单元，还被配置为执行：

在一些实施例中，该参数确定单元703，被配置为执行：

在一些实施例中，该权重系数确定单元包括：

在一些实施例中，该第二调整单元，被配置为执行：

在一些实施例中，该模型确定单元702，还被配置为执行每间隔目标迭代次数，在当前迭代过程结束时，确定该第一多媒体推荐模型对应的关联模型。

在一些实施例中，该装置还包括：

接收单元，被配置为执行接收终端发送的在线数据，基于该在线数据，对该多个多媒体推荐模型进行迭代训练；

该模型确定单元702，还被配置为执行每间隔目标时长，在当前迭代过程结束时，确定该第一多媒体推荐模型对应的关联模型。

需要说明的是：上述实施例提供的多媒体推荐模型的训练装置在训练多媒体推荐模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体推荐模型的训练装置与多媒体推荐模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是根据一示例性实施例示出的一种服务器的框图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)801和一个或多个的存储器802，其中，该一个或多个存储器802中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器801加载并执行以实现上述各个方法实施例提供的多媒体推荐模型的训练方法中服务器执行的方法。当然，该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的计算机可读存储介质，例如包括程序代码的存储器802，上述程序代码可由服务器800的处理器801执行以完成上述多媒体推荐模型的训练方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是只读内存(read-only memory，ROM)、随机存取存储器(random access memory)，RAM)、只读光盘(compact-disc read-only memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，该计算机程序被处理器执行时实现上述的多媒体推荐模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体推荐模型的训练方法，其特征在于，所述方法包括：

对多个多媒体推荐模型进行迭代训练，所述多个多媒体推荐模型的层次结构以及所述层次结构中模型参数的类型相同，所述模型参数为对应多媒体推荐模型的权重参数；

在一次迭代结束时，在除第一多媒体推荐模型以外的多个多媒体推荐模型中，选取所述第一多媒体推荐模型的起始关联模型，在第N次迭代结束时，基于所述第一多媒体推荐模型上一次所确定的关联模型的顺序，确定与所述关联模型相邻的下一多媒体推荐模型，作为所述第一多媒体推荐模型在第N次迭代结束的关联模型，所述第一多媒体推荐模型为所述多个多媒体推荐模型中的任意一个，各个所述多媒体推荐模型对应的起始关联模型不同，所述N为确定关联模型的迭代次数，N为大于1的正整数；

基于所述第一多媒体推荐模型的第一权重系数和对应的关联模型的第二权重系数，对所述第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，进行加权平均，得到所述第一多媒体推荐模型的目标模型参数。

2.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述方法还包括：

每确定K-1个关联模型时，选取所述起始关联模型，作为所述第一多媒体推荐模型在本次迭代结束时的关联模型，所述K为所述多个多媒体推荐模型的数目，K为大于1的正整数。

3.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述方法还包括：

基于模型训练的迭代次数，确定所述第一多媒体推荐模型的第一权重系数和所述第二权重系数。

4.根据权利要求3所述的多媒体推荐模型的训练方法，其特征在于，所述基于模型训练的迭代次数，确定所述第一多媒体推荐模型的第一权重系数和所述第二权重系数包括：

响应于模型训练的迭代次数小于或等于第一阈值，将所述第一权重系数调整为第一数值，将所述第二权重系数调整为第二数值，所述第一数值大于所述第二数值；

响应于所述模型训练的迭代次数大于所述第一阈值，且小于或等于第二阈值，基于所述迭代次数，确定所述第二权重系数的数值，所述第二权重系数的数值与所述迭代次数正相关；

响应于所述模型训练的迭代次数大于所述第二阈值，将所述第一权重系数和所述第二权重系数均调整为第三数值。

5.根据权利要求4所述的多媒体推荐模型的训练方法，其特征在于，所述响应于所述模型训练的迭代次数大于所述第一阈值，且小于或等于第二阈值，基于所述迭代次数，确定所述第二权重系数的数值包括：

响应于所述模型训练的迭代次数大于所述第一阈值，且小于或等于第二阈值，基于所述迭代次数和线性关系数据，确定所述第二权重系数的数值，所述线性关系数据为第二权重系数的数值随所述迭代次数线性递增的关系数据。

6.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述方法还包括：

每间隔目标迭代次数，在当前迭代过程结束时，执行确定所述第一多媒体推荐模型对应的关联模型的步骤。

7.根据权利要求1所述的多媒体推荐模型的训练方法，其特征在于，所述对多个多媒体推荐模型进行迭代训练包括：

接收终端发送的在线数据，基于所述在线数据，对所述多个多媒体推荐模型进行迭代训练；

所述方法还包括：

每间隔目标时长，在当前迭代过程结束时，执行确定所述第一多媒体推荐模型对应的关联模型的步骤。

8.一种多媒体推荐模型的训练装置，其特征在于，所述装置包括：

训练单元，被配置为执行对多个多媒体推荐模型进行迭代训练，所述多个多媒体推荐模型的层次结构以及所述层次结构中模型参数的类型相同，所述模型参数为对应多媒体推荐模型的权重参数；

模型确定单元，被配置为执行在一次迭代结束时，在除第一多媒体推荐模型以外的多个多媒体推荐模型中，选取所述第一多媒体推荐模型的起始关联模型，在第N次迭代结束时，基于所述第一多媒体推荐模型上一次所确定的关联模型的顺序，确定与所述关联模型相邻的下一多媒体推荐模型，作为所述第一多媒体推荐模型在第N次迭代结束的关联模型，所述第一多媒体推荐模型为所述多个多媒体推荐模型中的任意一个，各个所述多媒体推荐模型对应的起始关联模型不同，所述N为确定关联模型的迭代次数，N为大于1的正整数；

参数确定单元，被配置为执行基于所述第一多媒体推荐模型的第一权重系数和对应的关联模型的第二权重系数，对所述第一多媒体推荐模型的模型参数和对应的关联模型的模型参数，进行加权平均，得到所述第一多媒体推荐模型的目标模型参数。

9.根据权利要求8所述的多媒体推荐模型的训练装置，其特征在于，所述模型确定单元，还被配置为执行：

10.根据权利要求8所述的多媒体推荐模型的训练装置，其特征在于，所述装置还包括权重系数确定单元，被配置为执行：

11.根据权利要求10所述的多媒体推荐模型的训练装置，其特征在于，所述权重系数确定单元包括：

第一调整子单元，被配置为执行响应于模型训练的迭代次数小于或等于第一阈值，将所述第一权重系数调整为第一数值，将所述第二权重系数调整为第二数值，所述第一数值大于所述第二数值；

第二调整子单元，被配置为执行响应于所述模型训练的迭代次数大于所述第一阈值，且小于或等于第二阈值，基于所述迭代次数，确定所述第二权重系数的数值，所述第二权重系数的数值与所述迭代次数正相关；

第三调整子单元，被配置为执行响应于所述模型训练的迭代次数大于所述第二阈值，将所述第一权重系数和所述第二权重系数均调整为第三数值。

12.根据权利要求11所述的多媒体推荐模型的训练装置，其特征在于，所述第二调整子单元，被配置为执行：

13.根据权利要求8所述的多媒体推荐模型的训练装置，其特征在于，所述模型确定单元，还被配置为执行每间隔目标迭代次数，在当前迭代过程结束时，执行确定所述第一多媒体推荐模型对应的关联模型的步骤。

14.根据权利要求8所述的多媒体推荐模型的训练装置，其特征在于，所述训练单元，被配置为执行接收终端发送的在线数据，基于所述在线数据，对所述多个多媒体推荐模型进行迭代训练；

所述模型确定单元，还被配置为执行每间隔目标时长，在当前迭代过程结束时，执行确定所述第一多媒体推荐模型对应的关联模型的步骤。

15.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至7中任一项所述的多媒体推荐模型的训练方法。

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由服务器的处理器执行时，使得服务器能够执行如权利要求1至7中任一项所述的多媒体推荐模型的训练方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的多媒体推荐模型的训练方法。