CN113705782A

CN113705782A - 一种用于媒体数据推荐的模型训练方法及装置

Info

Publication number: CN113705782A
Application number: CN202110952591.2A
Authority: CN
Inventors: 李霞; 周星杰
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-11-26

Abstract

本申请涉及一种用于媒体数据推荐的模型训练方法及装置，该推荐模型具有包括第一子模型、第二子模型和预测子模型的“双输入、单输出”的模型架构，该模型架构能够同时兼顾对投放对象数据的处理、和对媒体数据的处理，有利于高效的实现对媒体数据的推荐。在进行模型训练时，分别针对第一子模型和第二子模型生成与之对应的第一子样本和第二子样本，采用第一子样本和第二子样本对第一子模型和第二子模型进行同时的训练，则即使本说明书中的推荐模型包含的子模型不唯一，也能够使得子模型之间实现良好的配合，进而输出较为准确的预测结果。本说明书中的过程根据分值确定模型的训练方向，而无需用户手动的调节推荐模型的参数，有利于降低人工负担。

Description

一种用于媒体数据推荐的模型训练方法及装置

技术领域

本申请涉及用于媒体数据推荐的模型训练技术领域，尤其涉及一种用于媒体数据推荐的模型训练方法及装置。

背景技术

随着互联网技术的发展，数据的量日益增多，每天都有大量的数据向投放对象投放，向投放对象投放的各数据中，可能包括媒体数据。

媒体数据的投放者向投放对象投放媒体数据的目的是希望通过投放对象对媒体数据的指定操作，实现媒体数据对应的转化效果。若向投放对象投放的媒体数据与投放对象的兴趣不匹配，将会造成了本次媒体数据投放消耗的资源的浪费。

发明内容

本申请提供了一种用于媒体数据推荐的模型训练方法及装置，以解决现有技术中存在的投放媒体数据效率较低的问题。

第一方面，本申请提供了一种用于媒体数据推荐的模型训练方法，推荐模型包括：第一子模型、第二子模型和预测子模型，方法包括：获取训练样本和与训练样本对应的标签，其中，训练样本包括：根据历史投放对象数据生成的第一子样本、和历史媒体数据生成的第二子样本，标签表示出历史上投放对象是否针对第二子样本表示出的媒体数据执行过指定操作；将第一子样本输入第一子模型，得到投放对象待定特征，并将第二子样本输入第二子模型，得到媒体数据待定特征；将投放对象待定特征和媒体数据待定特征输入预测子模型，得到待定预测结果；将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、以及待定预测结果确定为训练数据子集，并存储；针对存储的每个训练数据子集，根据训练子集中的待定预测结果和标签的差异，确定训练数据子集的分值，其中，分值与训练数据子集对应的推荐模型的模型性能正相关；采用分值最高的训练数据子集中的第一待定参数和第二待定参数，分别更新第一子模型和第二子模型，得到更新后的推荐模型；根据训练样本继续训练更新后的推荐模型，直至满足收敛条件，得到训练后的推荐模型。

在本说明书一个可选的实施例中，根据训练子集中的待定预测结果和标签的差异，确定训练数据子集的分值，包括：确定本次迭代经历的时长，作为指定时长，并确定训练子集中的待定预测结果和标签的差异；根据指定时长和差异，确定训练数据子集的分值，其中，分值与指定时长负相关。

在本说明书一个可选的实施例中，第一子样本包括：行为序列、和行为序列对应的投放对象的属性，其中，行为序列包括若干个节点，节点表示出投放对象执行的指定操作针对的媒体数据，节点在行为序列中的次序表示出投放对象针对媒体数据执行指定操作的次序；第二子样本包括：媒体样本数据的属性，其中，在媒体样本数据与节点对应的媒体数据的相似度大于相似度阈值时，第二子样本所属的训练样本是正样本，若反之，则第二子样本所属的训练样本是负样本。

在本说明书一个可选的实施例中，将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、以及待定预测结果确定为训练数据子集，包括：将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、预测子模型的第三待定参数、以及待定预测结果确定为训练数据子集；采用分值最高的训练数据子集中的第一待定参数和第二待定参数，分别更新第一子模型和第二子模型，包括：采用分值最高的训练数据子集中的第一待定参数、第二待定参数、以及第三待定参数，分别更新第一子模型、第二子模型、以及预测子模型。

在本说明书一个可选的实施例中，将第一子样本输入第一子模型，得到投放对象待定特征，并将第二子样本输入第二子模型，得到媒体数据待定特征之前，方法还包括：若本次迭代为模型训练过程中的首次迭代，则初始化第一子模型和第二子模型的模型参数；若本次迭代为模型训练过程中的非首次迭代，则根据上次迭代得到的训练数据子集，更新第一子模型和第二子模型，采用指定方式对更新后的第一子模型和第二子模型的至少部分模型参数进行调整。

在本说明书一个可选的实施例中，第一子模型、第二子模型中的至少一个，是残差神经网络；和/或，投放对象是用户，指定操作是点击操作。

第二方面，本申请提供了一种媒体数据推荐方法，方法包括：获取待推荐媒体数据和投放对象的投放对象数据，并获取推荐模型，其中，推荐模型包括：第一子模型、第二子模型和预测子模型，推荐模型是通过前述第一方面中的方法训练得到的；将投放对象数据输入第一子模型，得到第一子模型输出的投放对象特征，并将待推荐媒体数据输入第二子模型，得到第二子模型输出的待推荐媒体数据特征；将投放对象特征和待推荐媒体数据特征，输入预测子模型，得到预测子模型输出的预测结果；根据预测结果，确定向投放对象推荐的媒体数据。

第三方面，本申请提供了一种用于媒体数据推荐的模型训练装置，推荐模型包括：第一子模型、第二子模型和预测子模型，用于实现第一方面中的任一种方法，该装置包括：

第一获取模块，配置为：获取训练样本和与训练样本对应的标签，其中，训练样本包括：根据历史投放对象数据生成的第一子样本、和历史媒体数据生成的第二子样本，标签表示出历史上投放对象是否针对第二子样本表示出的媒体数据执行过指定操作。

待定特征确定模块，配置为：将第一子样本输入第一子模型，得到投放对象待定特征，并将第二子样本输入第二子模型，得到媒体数据待定特征。

待定预测结果确定模块，配置为：将投放对象待定特征和媒体数据待定特征输入预测子模型，得到待定预测结果。

训练数据子集确定模块，配置为：将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、以及待定预测结果确定为训练数据子集，并存储。

分值确定模块，配置为：针对存储的每个训练数据子集，根据训练子集中的待定预测结果和标签的差异，确定训练数据子集的分值，其中，分值与训练数据子集对应的推荐模型的模型性能正相关。

更新模块，配置为：采用分值最高的训练数据子集中的第一待定参数和第二待定参数，分别更新第一子模型和第二子模型，得到更新后的推荐模型。

训练模块，配置为：根据训练样本继续训练更新后的推荐模型，直至满足收敛条件，得到训练后的推荐模型。

第四方面，本申请提供了一种媒体数据推荐装置，用于实现第一方面中的任一种方法，该装置包括：

第二获取模块，配置为：获取待推荐媒体数据。

第三获取模块，配置为：获取投放对象的投放对象数据。

第四获取模块，配置为：获取推荐模型，其中，推荐模型是采用第一方面中的任一种方法训练得到的。

第一输入模块，配置为：将投放对象数据输入第一子模型，得到第一子模型输出的投放对象特征。

第二输入模块，配置为：将待推荐媒体数据输入第二子模型，得到第二子模型输出的待推荐媒体数据特征。

第三输入模块，配置为：将投放对象特征和待推荐媒体数据特征，输入预测子模型，得到预测子模型输出的预测结果。

推荐模块，配置为：根据预测结果，确定向投放对象推荐的媒体数据。

第五方面，本申请提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述第一方面中任一种用于媒体数据推荐的模型训练方法的步骤、或实现前述第二方面中任一种媒体数据推荐方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的方法应用于深度学习技术领域，可以应用于自然语音处理。本申请实施例提供的方法用于对推荐模型进行训练。该推荐模型包括第一子模型、第二子模型和预测子模型。其中，第一子模型用于对投放对象数据进行处理，以得到投放对象特征；第二子模型用于对媒体数据进行处理，以得到媒体数据特征。预测子模型用于基于投放对象特征和媒体数据特征，预测投放对象是否会对媒体数据执行指定操作。可见，本说明书中的推荐模型具有“双输入、单输出”的模型架构，该模型架构能够同时兼顾对投放对象数据的处理、和对媒体数据的处理，有利于高效、便捷的实现对媒体数据的推荐。为实现对本说明书中的推荐模型的训练，本说明书中的过程在进行模型训练时，分别针对第一子模型和第二子模型生成与之对应的第一子样本和第二子样本，采用第一子样本和第二子样本对第一子模型和第二子模型进行同时的训练，则即使本说明书中的推荐模型包含的子模型不唯一，也能够使得子模型之间实现良好的配合，进而输出较为准确的预测结果。此外，本说明书中的过程根据分值确定模型的训练方向，而无需用户手动的调节推荐模型的参数，有利于降低人工负担。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的推荐模型的架构，和训练过程中的第i次迭代的流程示意图；

图2为本申请实施例提供的一种用于媒体数据推荐的模型训练过程的流程示意图；

图3为本申请实施例提供的一种媒体数据推荐的过程的流程示意图；

图4为对应于图2方法过程的用于媒体数据推荐的模型训练装置示意图；

图5为对应于图3方法过程的媒体数据推荐装置示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为解决现有技术存在的，人工整理信息效率较低的问题，提出本说明书的用于媒体数据推荐的模型训练方法。

本说明书中的推荐模型的架构如图1所示。该推荐模型包括第一子模型、第二子模型和预测子模型。其中，第一子模型用于对投放对象数据进行处理，以得到投放对象特征；第二子模型用于对媒体数据进行处理，以得到媒体数据特征。预测子模型用于基于投放对象特征和媒体数据特征，预测投放对象是否会对媒体数据执行指定操作。

如图2所示，本说明书中的用于媒体数据推荐的模型训练方法包括以下步骤：

S200：获取训练样本和与训练样本对应的标签。

本说明书中的训练样本可以是根据历史上向投放对象投放媒体数据时，采集到的历史数据得到的。该历史数据包括历史投放对象数据和历史媒体数据。

历史投放对象数据表示出历史投放对象数据对应的投放对象的属性和投放对象的行为序列。

在投放对象是用户张三的情况下，投放对象的属性可以包括以下至少一项：张三的年龄段、性别、职业、张三的活跃度、张三的活跃时间段等。

行为序列可以包括若干个按照被投放对象执行指定操作的时间依次排布的节点，节点表示出投放对象执行的指定操作针对的媒体数据，节点在行为序列中的次序表示出投放对象针对媒体数据执行指定操作的次序(该次序可以通过用户对针对媒体数据实施点击操作的时间表征)。

指定操作具体为何，可以根据实际的业务需求确定。示例性地，指定操作是点击操作时，本说明书中的推荐模型可以用于预测用户是否会点击被推荐的媒体数据对应的控件。

此外，本说明书中的指定操作还可以是针对媒体数据示出的商品的下单操作等。

历史媒体数据表示出媒体数据的属性可以包括以下至少一项：包括媒体数据对应的事项属性(例如，在商品推荐的场景中，事项即为“商品”，事项的属性即为商品的价格、商品的颜色等)、媒体数据的类型(类型可以包括：文本、图像等)。

需要说明的是，本说明书中的投放对象不仅仅包含前述的用户张三，还可以包括企业、团体等。在投放对象是企业、团体时，投放对象的属性可以包括投放对象的员工人数、投放对象的成立时间、投放对象的类型(事业单位、工矿企业等)。

S202：将第一子样本输入第一子模型，得到投放对象待定特征。

由前述内容，第一子样本对应于投放对象，而投放对象属性可以包含多个维度，则第一子样本也可以对应于多个维度，本说明书中的第一子模型至少可以用于对第一子样本中的多个维度进行压缩，而第一子模型在训练的过程中学习到的，可以是针对不同维度的压缩程度。

需要说明的是，本说明书中的模型训练过程可以包括若干次迭代(示例性地，其中的第i次迭代过程如图1所示)。对推荐模型的训练过程中采用的训练样本为多个。示例性地，模型训练过程中采用的训练样本为n个，则可以针对每次迭代，分别地对训练样本进行采样，以从n个训练样本中确定出m个训练样本(m小于n)，作为本次迭代采用的训练样本。

可见，本说明书中的一次迭代过程采用的训练样本可以不唯一。本说明书中示例性地以m个训练样本中的某一个训练样本机器对应的标签为例，对模型训练的一次迭代过程进行说明。

在本说明书一个可选的实施例中，第一子模型可以是残差神经网络。

S204：将第二子样本输入第二子模型，得到媒体数据待定特征。

相对应的，第二子样本对应于媒体数据，而媒体数据的属性可以包含多个维度，则第二子样本也可以对应于多个维度，本说明书中的第二子模型至少可以用于对第二子样本中的多个维度进行压缩，而第二子模型在训练的过程中学习到的，可以是针对不同维度的压缩程度。

在本说明书一个可选的实施例中，第二子模型可以是残差神经网络。

需要说明的是，本说明书中的步骤S202和步骤S204的执行先后顺序不限。

S206：将投放对象待定特征和媒体数据待定特征输入预测子模型，得到待定预测结果。

在本说明书一个可选的实施例中，模型训练的对象是第一子模型和第二子模型。在本说明书另一个可选的实施例中，模型训练的对象是第一子模型、第二子模型和预测子模型。

由预测子模型输出的待定预测结果表示出第一子样本对应的投放对象是否会对第二子样本对应的媒体数据执行指定操作。

在本说明书一个可选的实施例中，若待定预测结果表示出投放对象会对媒体数据执行指定操作，则将待定预测结果标记为1，若反之，则将待定预测结果标记为0。

S208：将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、以及待定预测结果确定为训练数据子集，并存储。

由前述内容可知，本说明书中的训练过程可以包括若干次迭代的过程。则随着时间的延续，存储的训练数据子集的数量不断增加。

此外，在第一子模型、第二子模型和预测子模型的参数均需通过本说明书中的训练过程得到的情况下，则可以将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、预测子模型的第三待定参数、以及待定预测结果确定为训练数据子集。

S210：针对存储的每个训练数据子集，根据训练子集中的待定预测结果和标签的差异，确定训练数据子集的分值。

训练数据子集的分值用于表征推荐模型的能力，分值越高，模型的能力越好，预测的结果越准确。分值与差异负相关。

在本说明书一个可选的实施例中，分值除与差异相关以外，还与训练数据子集对应的迭代过程的时长相关，具体地：可以确定本次迭代经历的时长，作为指定时长(如图1所示)，并确定训练子集中的待定预测结果和标签的差异。根据指定时长和差异，确定训练数据子集的分值，其中，分值与指定时长负相关。

在本说明书一个可选的实施例中，模型训练的过程中采用分值确定模型确定训练数据子集的分值。该分值确定模型可以是递归神经网络。可见，本说明书中的过程无需对损失进行计算，有利于降低损失函数构建和采用损失函数进行损失计算来带的成本。

S212：采用分值最高的训练数据子集中的第一待定参数和第二待定参数，分别更新第一子模型和第二子模型，得到更新后的推荐模型。

此外，在第一子模型、第二子模型和预测子模型的参数均需通过本说明书中的训练过程得到的情况下，则可以采用分值最高的训练数据子集中的第一待定参数、第二待定参数、以及第三待定参数，分别更新第一子模型、第二子模型、以及预测子模型。

在本说明书一个可选的实施例中，为了提高对推荐模型的更新效率，可以预先的建立分值数据库。分值数据库包括若干个行，每一个行均包含分值字段和存储位置字段。则在每次迭代之后，确定该次迭代得到的训练数据子集的分值，并存储该训练数据子集。将分值数据库的一个空白行作为目标行，将确定出的分值存储至目标行的分值字段，将该训练数据子集的存储位置存储至目标行的存储位置字段。

之后，根据各行的分值字段中存储的分值的大小，对各行进行排序，将排序后得到的分值数据库，确定为更新后的分值数据库。则可以从更新后的分值数据库中的第一行或者最后一行的记录的存储位置，读取到分值最大的训练数据子集。

S214：根据训练样本继续训练更新后的推荐模型，直至满足收敛条件，得到训练后的推荐模型。

本说明书中的收敛条件可以根据实际的需求确定。

在本说明书一个可选的实施例中，若迭代次数达到预设的次数阈值，则确定满足收敛条件。

在本说明书另一个可选的实施例中，在分值大于第一阈值、且指定时长小于时长阈值的情况下，则确定满足收敛条件。

本申请实施例提供的方法用于对推荐模型进行训练。该推荐模型包括第一子模型、第二子模型和预测子模型。其中，第一子模型用于对投放对象数据进行处理，以得到投放对象特征；第二子模型用于对媒体数据进行处理，以得到媒体数据特征。预测子模型用于基于投放对象特征和媒体数据特征，预测投放对象是否会对媒体数据执行指定操作。可见，本说明书中的推荐模型具有“双输入、单输出”的模型架构，该模型架构能够同时兼顾对投放对象数据的处理、和对媒体数据的处理，有利于高效、便捷的实现对媒体数据的推荐。为实现对本说明书中的推荐模型的训练，本说明书中的过程在进行模型训练时，分别针对第一子模型和第二子模型生成与之对应的第一子样本和第二子样本，采用第一子样本和第二子样本对第一子模型和第二子模型进行同时的训练，则即使本说明书中的推荐模型包含的子模型不唯一，也能够使得子模型之间实现良好的配合，进而输出较为准确的预测结果。此外，本说明书中的过程根据分值确定模型的训练方向，该分值可以表征环境对推荐模型的评价，本说明书中的过程通过强化学习的方式对推荐模型进行训练，而无需用户手动的调节推荐模型的参数，有利于降低人工负担。

进一步地，为在模型训练过程中实现对推荐模型参数的调整，在本说明书一个可选的实施例中，若模型训练的对象是第一子模型和第二子模型，则在模型训练中的第一次迭代之前，初始化第一子模型和第二子模型的模型参数。若训练的对象是第一子模型、第二子模型和推荐子模型，则在模型训练中的第一次迭代之前，初始化模型参数。

此外，在模型训练的对象是第一子模型和第二子模型的情况下，若模型的训练过程针对的并非首次迭代，则根据分值最高的训练数据子集更新第一子模型和第二子模型。然后采用指定方式对更新后的第一子模型和第二子模型的至少部分模型参数进行调整。之后，采用训练样本对调整后的推荐模型进行训练。

在模型训练的对象是第一子模型、第二子模型和推荐子模型的情况下，若模型的训练过程针对的并非首次迭代，则根据分值最高的训练数据子集更新第一子模型、第二子模型和推荐子模型。然后采用指定方式对更新后的第一子模型、第二子模型和推荐子模型的至少部分模型参数进行调整。之后，采用训练样本对调整后的推荐模型进行训练。

本说明书中的指定方式可以根据实际的需求确定。在本说明书一个可选的实施例中，采用指定方式对推荐模型的参数进行调整的过程可以是：针对训练对象的各模型参数进行采样(可选地，采样的方式可以是随机采样)，得到第一数量个待调整参数。然后，对该第一数量个待调整参数进行调整。该调整的方式可以根据实际的需求确定，例如，可以首先的确定指定步长(例如，以0.05作为指定步长)随机选取部分待调整参数进行正向调整(在待调整参数的基础上增加指定步长)，和/或，随机选取部分待调整参数进行负向调整(在待调整参数的基础上减小指定步长)。而针对其余的待调整参数，则不做调整。

在本说明书中，执行模型训练时采用的训练样本包括：根据历史投放对象数据生成的第一子样本、和历史媒体数据生成的第二子样本，标签表示出历史上投放对象是否针对第二子样本表示出的媒体数据执行过指定操作。示例性地，若第二子样本表示出的历史上投放对象针对媒体数据执行过指定操作，则该第二子样本所属的训练样本对应的标签可以标记为1(正样本)，若反之，则该第二子样本所属的训练样本对应的标签可以标记为0(负样本)。

在某些情况下，由于行为序列中仅对应有投放对象执行过指定操作的媒体数据，在本说明书一个可选的实施例中，为了构建负样本，可以在各正样本中随机的选取出某些正样本，作为参照样本。针对每个参照样本，确定出该参照样本对应的参照子样本(可以是随机的生成的)，该参照子样本与该参照样本的第二子样本的相似度小于相似度阈值(经验值)。然后，将该参照样本的第一子样本和参照子样本，确定为负样本。该参照样本的第一子样本即为该负样本的第一子样本，参照子样本即为负样本的第二子样本。

采用上述的任一训练过程对推荐模型进行训练，即可以得到可用于线上使用的推荐模型。

如图3所示，采用上述训练过程得到的推荐模型进行媒体数据推荐的过程可以是：

S300：获取待推荐媒体数据。

在向用户推荐广告的场景中，待推荐媒体数据可以是广告主的待展示广告。本说明书中的媒体数据推荐过程可以由媒体数据推荐端执行。本说明书对媒体数据推荐端具体为何不做限制。示例性地，媒体数据推荐端可以是即时通讯软件，也可以是与即时通讯软件通信连接的服务器。

S302：获取投放对象的投放对象数据。

投放对象数据中，对应于投放对象的属性的数据(例如，用户的年龄)可以根据历史投放对象数据得到。而投放对象数据中，对应于行为序列的数据可以由媒体数据推荐端实时更新。

S304：获取推荐模型。

在本说明书一个可选的实施例中，可以周期性的重新生成训练样本，并采用重新生成的训练样本周期性的对推荐模型进行训练，以使得推荐模型能够“与时俱进”。

需要说明的是，本说明书中的步骤S300至步骤S304的执行先后顺序不限。

S306：将投放对象数据输入第一子模型，得到第一子模型输出的投放对象特征。

S308：将待推荐媒体数据输入第二子模型，得到第二子模型输出的待推荐媒体数据特征。

需要说明的是，本说明书中的步骤S306和步骤S308的执行先后顺序不限。

S310：将投放对象特征和待推荐媒体数据特征，输入预测子模型，得到预测子模型输出的预测结果。

S312：根据预测结果，确定向投放对象推荐的媒体数据。

若预测结果表示出投放对象会对该待推荐媒体数据执行指定操作，则将该待推荐的媒体数据推荐至该投放对象，若反之，则从其他待推荐媒体数据中，确定出向投放对象推荐的媒体数据。

基于同样的思路，本说明书进一步提供一种用于媒体数据推荐的模型训练装置，推荐模型包括：第一子模型、第二子模型和预测子模型。如图4所示，用于媒体数据推荐的模型训练装置包括以下模型中的一个或多个：

第一获取模块400，配置为：获取训练样本和与训练样本对应的标签，其中，训练样本包括：根据历史投放对象数据生成的第一子样本、和历史媒体数据生成的第二子样本，标签表示出历史上投放对象是否针对第二子样本表示出的媒体数据执行过指定操作。

待定特征确定模块402，配置为：将第一子样本输入第一子模型，得到投放对象待定特征，并将第二子样本输入第二子模型，得到媒体数据待定特征。

待定预测结果确定模块404，配置为：将投放对象待定特征和媒体数据待定特征输入预测子模型，得到待定预测结果。

训练数据子集确定模块406，配置为：将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、以及待定预测结果确定为训练数据子集，并存储。

分值确定模块408，配置为：针对存储的每个训练数据子集，根据训练子集中的待定预测结果和标签的差异，确定训练数据子集的分值，其中，分值与训练数据子集对应的推荐模型的模型性能正相关。

更新模块410，配置为：采用分值最高的训练数据子集中的第一待定参数和第二待定参数，分别更新第一子模型和第二子模型，得到更新后的推荐模型。

训练模块412，配置为：根据训练样本继续训练更新后的推荐模型，直至满足收敛条件，得到训练后的推荐模型。

在本说明书一个可选的实施例中，分值确定模块408，具体配置为：确定本次迭代经历的时长，作为指定时长，并确定训练子集中的待定预测结果和标签的差异；根据指定时长和差异，确定训练数据子集的分值，其中，分值与指定时长负相关。

在本说明书一个可选的实施例中，第一子样本包括：行为序列、和行为序列对应的投放对象的属性，其中，行为序列包括若干个节点，节点表示出投放对象执行的指定操作针对的媒体数据，节点在行为序列中的次序表示出投放对象针对媒体数据执行指定操作的次序；

第二子样本包括：媒体样本数据的属性，其中，在媒体样本数据与节点对应的媒体数据的相似度大于相似度阈值时，第二子样本所属的训练样本是正样本，若反之，则第二子样本所属的训练样本是负样本。

在本说明书一个可选的实施例中，训练数据子集确定模块406具体配置为：将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、以及待定预测结果确定为训练数据子集，包括：将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、预测子模型的第三待定参数、以及待定预测结果确定为训练数据子集。

在本说明书一个可选的实施例中，更新模块410具体配置为：采用分值最高的训练数据子集中的第一待定参数和第二待定参数，分别更新第一子模型和第二子模型，包括：采用分值最高的训练数据子集中的第一待定参数、第二待定参数、以及第三待定参数，分别更新第一子模型、第二子模型、以及预测子模型。

在本说明书一个可选的实施例中，装置还包括调整模块，配置为：若本次迭代为模型训练过程中的首次迭代，则初始化第一子模型和第二子模型的模型参数。若本次迭代为模型训练过程中的非首次迭代，则根据上次迭代得到的训练数据子集，更新第一子模型和第二子模型，采用指定方式对更新后的第一子模型和第二子模型的至少部分模型参数进行调整。

在本说明书一个可选的实施例中，第一子模型、第二子模型中的至少一个，是残差神经网络；和/或，

投放对象是用户，指定操作是点击操作。

基于同样的思路，本说明书进一步提供一种媒体数据推荐装置，如图5所示，媒体数据推荐装置包括以下模型中的一个或多个：

第二获取模块500，配置为：获取待推荐媒体数据。

第三获取模块502，配置为：获取投放对象的投放对象数据。

第四获取模块504，配置为：获取推荐模型。

第一输入模块506，配置为：将投放对象数据输入第一子模型，得到第一子模型输出的投放对象特征。

第二输入模块508，配置为：将待推荐媒体数据输入第二子模型，得到第二子模型输出的待推荐媒体数据特征。

第三输入模块510，配置为：将投放对象特征和待推荐媒体数据特征，输入预测子模型，得到预测子模型输出的预测结果。

推荐模块512，配置为：根据预测结果，确定向投放对象推荐的媒体数据。

如图6所示，本申请实施例提供了一种用于媒体数据推荐的模型训练设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的用于媒体数据推荐的模型训练的控制方法，或用于实现前述任意一个方法实施例提供的媒体数据推荐方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于媒体数据推荐的模型训练方法，其特征在于，所述推荐模型包括：第一子模型、第二子模型和预测子模型，所述方法包括：

获取训练样本和与所述训练样本对应的标签，其中，所述训练样本包括：根据历史投放对象数据生成的第一子样本、和历史媒体数据生成的第二子样本，所述标签表示出历史上投放对象是否针对所述第二子样本表示出的媒体数据执行过指定操作；

将所述第一子样本输入所述第一子模型，得到投放对象待定特征，并将所述第二子样本输入所述第二子模型，得到媒体数据待定特征；

将所述投放对象待定特征和所述媒体数据待定特征输入所述预测子模型，得到待定预测结果；

将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、以及所述待定预测结果确定为训练数据子集，并存储；

针对存储的每个训练数据子集，根据所述训练子集中的待定预测结果和所述标签的差异，确定所述训练数据子集的分值，其中，所述分值与训练数据子集对应的推荐模型的模型性能正相关；

采用分值最高的训练数据子集中的第一待定参数和第二待定参数，分别更新所述第一子模型和所述第二子模型，得到更新后的推荐模型；

根据所述训练样本继续训练所述更新后的推荐模型，直至满足收敛条件，得到训练后的推荐模型。

2.根据权利要求1所述的方法，其特征在于，根据所述训练子集中的待定预测结果和所述标签的差异，确定所述训练数据子集的分值，包括：

确定本次迭代经历的时长，作为指定时长，并确定所述训练子集中的待定预测结果和所述标签的差异；

根据所述指定时长和所述差异，确定所述训练数据子集的分值，其中，所述分值与所述指定时长负相关。

3.根据权利要求1所述的方法，其特征在于，

所述第一子样本包括：行为序列、和所述行为序列对应的投放对象的属性，其中，所述行为序列包括若干个节点，所述节点表示出投放对象执行的指定操作针对的媒体数据，所述节点在所述行为序列中的次序表示出投放对象针对媒体数据执行指定操作的次序；

所述第二子样本包括：媒体样本数据的属性，其中，在所述媒体样本数据与所述节点对应的媒体数据的相似度大于相似度阈值时，所述第二子样本所属的训练样本是正样本，若反之，则所述第二子样本所属的训练样本是负样本。

4.根据权利要求1所述的方法，其特征在于，

将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、以及所述待定预测结果确定为训练数据子集，包括：将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、预测子模型的第三待定参数、以及所述待定预测结果确定为训练数据子集；

采用分值最高的训练数据子集中的第一待定参数和第二待定参数，分别更新所述第一子模型和所述第二子模型，包括：采用分值最高的训练数据子集中的第一待定参数、第二待定参数、以及第三待定参数，分别更新所述第一子模型、所述第二子模型、以及预测子模型。

5.根据权利要求1所述的方法，其特征在于，将所述第一子样本输入所述第一子模型，得到投放对象待定特征，并将所述第二子样本输入所述第二子模型，得到媒体数据待定特征之前，所述方法还包括：

若本次迭代为模型训练过程中的首次迭代，则初始化所述第一子模型和所述第二子模型的模型参数；

若本次迭代为模型训练过程中的非首次迭代，则根据上次迭代得到的训练数据子集，更新所述第一子模型和所述第二子模型，采用指定方式对所述更新后的第一子模型和第二子模型的至少部分模型参数进行调整。

6.根据权利要求1至5任一所述的方法，其特征在于，

所述第一子模型、第二子模型中的至少一个，是残差神经网络；和/或，

所述投放对象是用户，所述指定操作是点击操作。

7.一种媒体数据推荐方法，其特征在于，所述方法包括：

获取待推荐媒体数据和投放对象的投放对象数据，并获取推荐模型，其中，所述推荐模型包括：第一子模型、第二子模型和预测子模型，所述推荐模型是通过权利要求1至权利要求6中的任意一种方法训练得到的；

将所述投放对象数据输入所述第一子模型，得到第一子模型输出的投放对象特征，并将所述待推荐媒体数据输入所述第二子模型，得到第二子模型输出的待推荐媒体数据特征；

将所述投放对象特征和待推荐媒体数据特征，输入所述预测子模型，得到所述预测子模型输出的预测结果；

根据所述预测结果，确定向所述投放对象推荐的媒体数据。

8.一种用于媒体数据推荐的模型训练装置，其特征在于，所述推荐模型包括：第一子模型、第二子模型和预测子模型，所述装置包括：

第一获取模块，配置为：获取训练样本和与所述训练样本对应的标签，其中，所述训练样本包括：根据历史投放对象数据生成的第一子样本、和历史媒体数据生成的第二子样本，所述标签表示出历史上投放对象是否针对所述第二子样本表示出的媒体数据执行过指定操作；

待定特征确定模块，配置为：将所述第一子样本输入所述第一子模型，得到投放对象待定特征，并将所述第二子样本输入所述第二子模型，得到媒体数据待定特征；

待定预测结果确定模块，配置为：将所述投放对象待定特征和所述媒体数据待定特征输入所述预测子模型，得到待定预测结果；

训练数据子集确定模块，配置为：将本次迭代中第一子模型的第一待定参数、第二子模型的第二待定参数、以及所述待定预测结果确定为训练数据子集，并存储；

分值确定模块，配置为：针对存储的每个训练数据子集，根据所述训练子集中的待定预测结果和所述标签的差异，确定所述训练数据子集的分值，其中，所述分值与训练数据子集对应的推荐模型的模型性能正相关；

更新模块，配置为：采用分值最高的训练数据子集中的第一待定参数和第二待定参数，分别更新所述第一子模型和所述第二子模型，得到更新后的推荐模型；

训练模块，配置为：根据所述训练样本继续训练所述更新后的推荐模型，直至满足收敛条件，得到训练后的推荐模型。

9.一种媒体数据推荐装置，其特征在于，所述装置包括：

第二获取模块，配置为：获取待推荐媒体数据；

第三获取模块，配置为：获取投放对象的投放对象数据；

第四获取模块，配置为：获取推荐模型，其中，所述推荐模型是通过权利要求1至权利要求6中的任意一种方法训练得到的；

第一输入模块，配置为：将所述投放对象数据输入所述第一子模型，得到第一子模型输出的投放对象特征；

第二输入模块，配置为：将所述待推荐媒体数据输入所述第二子模型，得到第二子模型输出的待推荐媒体数据特征；

第三输入模块，配置为：将所述投放对象特征和待推荐媒体数据特征，输入所述预测子模型，得到所述预测子模型输出的预测结果；

推荐模块，配置为：根据所述预测结果，确定向所述投放对象推荐的媒体数据。

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一项所述的用于媒体数据推荐的模型训练方法的步骤、或实现权利要求7所述的媒体数据推荐方法的步骤。