CN114245185A

CN114245185A - 视频推荐方法、模型训练方法、装置、电子设备及介质

Info

Publication number: CN114245185A
Application number: CN202111450934.1A
Authority: CN
Inventors: 廖一桥; 骆明楠
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-25
Anticipated expiration: 2041-11-30
Also published as: CN114245185B

Abstract

本公开关于一种视频推荐方法、模型训练方法、装置、电子设备及介质，其中，视频推荐方法包括：获取目标账户针对目标视频应用的历史行为序列数据；将历史行为序列数据输入至预先训练的推荐模型，确定历史行为序列数据中的噪声序列数据；基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频；向目标账户推送目标推荐视频。本公开中，向账户推送的视频更符合用户账号的使用习惯，提高用户使用视频推荐应用的兴趣。

Description

视频推荐方法、模型训练方法、装置、电子设备及介质

技术领域

本公开涉及数据处理技术领域，尤其涉及视频推荐方法、模型训练方法、装置、电子设备及介质。

背景技术

当前，为了实现低成本的拉新促活，各种应用程序往往会采用基于裂变活动的手段，通过奖励用户推荐新用户注册使用，并且通过完成系统设定的任务(如观看足够数量的视频，关注特定用户，点赞足够数量的视频)获得相应的系统收益。在该种活动的驱使下，用户会产生大量未必代表其真实兴趣的行为，这给应用程序的推荐系统/推荐应用带来了噪声，此时需要引用不同的噪声检测方式来检测出用户是否为噪声用户，以去除噪声的影响。

相关技术中，常见的噪声检测方式为：通过检测应用程序的用户是否为噪声用户来去除噪声的影响，在去除噪声用户后再检测用户是否发生兴趣的变化，从而避免噪声用户对推荐系统稳定性的影响。

但是，上述的噪声检测方式存在明显的弊端：只针对噪声用户进行处理，并且完全排除了噪声用户的影响，但在裂变活动场景中，每个用户都可能有部分噪声数据，也有部分有效数据，完全排除噪声用户会使得有效数据也被排除，导致无法准确检测出应用程序的噪声行为。

因此，需要解决相关技术中仅分析噪声用户产生的噪声行为，无法准确检测全部用户对应用程序的噪声行为，造成用户对应用程序的使用兴趣下降的问题。

发明内容

本公开提供一种视频推荐方法、模型训练方法、装置、电子设备及介质，以至少解决相关技术中无法准确检测对视频应用的噪声行为，推荐给用户不喜欢的内容，造成用户使用兴趣下降的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频推荐方法，包括：获取目标账户针对目标视频应用的历史行为序列数据；将所述历史行为序列数据输入至预先训练的推荐模型，确定所述历史行为序列数据中的噪声序列数据，其中，在训练所述推荐模型时，通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的训练样本训练得到所述推荐模型；基于所述噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频；向所述目标账户推送所述目标推荐视频。

可选地，所述通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，包括：获取训练样本；基于所述训练样本，调整初始构建的推荐模型的注意力结构，以调整所述训练样本中每个推荐视频对象的注意力权重，其中，所述注意力权重是基于每个推荐视频对象的行为序列数据与非序列数据之间的乘积得到；在调整所述推荐模型的注意力结构后，构建另一推荐模型，得到两个具备相同模型结构的推荐模型；采用构建的两个推荐模型中其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值。

可选地，所述获取训练样本，包括：获取历史预设时间段中的账户数据、推荐视频对象的数据以及操作行为数据；将所述账户数据、推荐视频对象的数据以及操作行为数据划分为行为序列数据和非序列数据；基于划分的行为序列数据和非序列数据，确定所述训练样本。

可选地，所述基于所述训练样本，调整初始构建的推荐模型的注意力结构，包括：选取所述训练样本中非序列数据的待评估序列维度；对所述训练样本中的非序列数据进行预处理，得到表征所述待评估序列维度的序列中心点的数据；为所述序列中心点的数据配置预设注意力权重；通过预设注意力权重，将所述序列中心点的数据添加至所述非序列数据的待评估序列维度中，以调整所述推荐模型的注意力结构。

可选地，所述对所述训练样本中的非序列数据进行预处理，得到表征所述待评估序列维度的序列中心点的数据，包括：对所述非序列数据中涉及所述待评估序列维度的数据进行累积平均处理，得到表征序列中心点的数据；和/或，提取所述非序列数据中涉及所述待评估序列维度的中值数据，得到表征序列中心点的数据。

可选地，所述基于所述训练样本，调整初始构建的推荐模型的注意力结构，包括：选取所述训练样本中行为序列数据的待评估维度；对所述训练样本中行为序列数据进行预处理，得到表征所述待评估维度的维度中心点的数据；计算所述训练样本中行为序列数据涉及到的每个操作行为与维度中心点之间的维度距离；将维度距离大于第一距离阈值的行为序列数据中的操作行为确定为噪声行为；排除所述噪声行为以及所述噪声行为对应的注意力权重，以完成初始构建的推荐模型的注意力结构的调整动作。

可选地，所述计算所述训练样本中行为序列数据涉及到的每个操作行为与维度中心点之间的维度距离，包括：计算所述行为序列数据中每个操作行为与所述维度中心点的数据之间的乘积，得到所述维度距离；或者，计算所述行为序列数据中每个操作行为与所述维度中心点的数据之间的欧式距离值，得到所述维度距离。

可选地，所述基于所述样本损失值调整所述训练样本的训练权重，包括：基于每个所述训练样本的样本损失值，统计所述训练样本中的损失均值；确定大于所述损失均值的样本损失值所对应的所述训练样本为噪声样本；降低所述噪声样本的训练权重。

可选地，所述基于所述样本损失值调整所述训练样本的训练权重，包括：对所有的样本损失值进行排序，得到排序结果；基于所述排序结果，将小于预设排序阈值的样本损失值所对应的训练样本确定为噪声样本；降低所述噪声样本的训练权重。

可选地，基于所述噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频，包括：获取所述噪声序列数据中行为序列数据所指示的用户终端所播放的异常视频；排除待推荐视频集合中的异常视频，得到目标推荐视频。

可选地，在基于所述噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频之后，所述推荐方法还包括：评估所述目标推荐视频中每个推荐视频对象被所述目标账户执行任务操作的概率值，得到任务预估值；基于每个所得推荐视频对象的所述任务预估值，调整所述目标推荐视频中每个推荐视频对象的排序顺序。

根据本公开实施例的另一方面，提供一种视频推荐模型训练方法，包括：获取训练样本，其中，所述训练样本至少包括：多个推荐视频对象以及每个推荐视频对象的历史行为序列数据与非序列数据；基于训练样本，调整初始构建的推荐模型的注意力结构，其中，用于注意力结构调整所述训练样本中每个推荐视频对象的注意力权重，所述注意力权重是基于每个推荐视频对象的历史行为序列数据与非序列数据之间的乘积得到；在调整推荐模型的注意力结构后，构建两个具备相同模型结构的推荐模型；采用两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的训练样本训练得到所述推荐模型。

根据本公开实施例的另一方面，提供一种视频推荐装置，包括：第一获取单元，设置为获取目标账户针对目标视频应用的历史行为序列数据；第一确定单元，设置为将所述历史行为序列数据输入至预先训练的推荐模型，确定所述历史行为序列数据中的噪声序列数据，其中，在训练所述推荐模型时，通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的训练样本训练得到所述推荐模型；排除单元，设置为基于所述噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频；推送单元，设置为向所述目标账户推送所述目标推荐视频。

可选地，所述第一确定单元包括：第一获取模块，设置为获取训练样本；第一调整模块，设置为基于所述训练样本，调整初始构建的推荐模型的注意力结构，以调整所述训练样本中每个推荐视频对象的注意力权重，其中，所述注意力权重是基于每个推荐视频对象的行为序列数据与非序列数据之间的乘积得到；第一构建模块，设置为在调整所述推荐模型的注意力结构后，构建另一推荐模型，得到两个具备相同模型结构的推荐模型；第一查询模块，设置为采用构建的两个推荐模型中其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值。

可选地，所述第一获取模块，包括：第一获取子模块，设置为获取历史预设时间段中的账户数据、推荐视频对象的数据以及操作行为数据；划分子模块，设置为将所述账户数据、推荐视频对象的数据以及操作行为数据划分为行为序列数据和非序列数据；第一确定子模块，设置为基于划分的行为序列数据和非序列数据，确定所述训练样本。

可选地，所述第一调整模块，包括：第一选取子模块，设置为选取所述训练样本中非序列数据的待评估序列维度；第一预处理子模块，设置为对所述训练样本中的非序列数据进行预处理，得到表征所述待评估序列维度的序列中心点的数据；配置子模块，设置为为所述序列中心点的数据配置预设注意力权重；添加子模块，设置为通过预设注意力权重，将所述序列中心点的数据添加至所述非序列数据的待评估序列维度中，以调整所述推荐模型的注意力结构。

可选地，所述第一预处理子模块，包括：累积平均子模块，设置为对所述非序列数据中涉及所述待评估序列维度的数据进行累积平均处理，得到表征序列中心点的数据；和/或，提取子模块，设置为提取所述非序列数据中涉及所述待评估序列维度的中值数据，得到表征序列中心点的数据。

可选地，所述第一调整模块，包括：第二选取子模块，设置为选取所述训练样本中行为序列数据的待评估维度；第二预处理子模块，设置为对所述训练样本中行为序列数据进行预处理，得到表征所述待评估维度的维度中心点的数据；第一计算子模块，设置为计算所述训练样本中行为序列数据涉及到的每个操作行为与维度中心点之间的维度距离；第二确定子模块，设置为将维度距离大于第一距离阈值的行为序列数据中的操作行为确定为噪声行为；排除子模块，设置为排除所述噪声行为以及所述噪声行为对应的注意力权重，以完成初始构建的推荐模型的注意力结构的调整动作。

可选地，所述第一计算子模块，包括：第二计算子模块，设置为计算所述行为序列数据中每个操作行为与所述维度中心点的数据之间的乘积，得到所述维度距离；或者，第三计算子模块，设置为计算所述行为序列数据中每个操作行为与所述维度中心点的数据之间的欧式距离值，得到所述维度距离。

可选地，所述第一确定单元，包括：统计模块，设置为基于每个所述训练样本的样本损失值，统计所述训练样本中的损失均值；第一确定模块，设置为确定大于所述损失均值的样本损失值所对应的所述训练样本为噪声样本；第一降低模块，设置为降低所述噪声样本的训练权重。

可选地，所述第一确定单元，包括：排序模块，设置为对所有的样本损失值进行排序，得到排序结果；第二确定模块，设置为基于所述排序结果，将小于预设排序阈值的样本损失值所对应的训练样本确定为噪声样本；第二降低模块，设置为降低所述噪声样本的训练权重。

可选地，所述排除单元，包括：第二获取模块，设置为获取所述噪声序列数据中行为序列数据所指示的用户终端所播放的异常视频；排除模块，设置为排除待推荐视频集合中的异常视频，得到目标推荐视频。

可选地，所述推荐装置还包括：评估单元，设置为，在基于所述噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频之后，评估所述目标推荐视频中每个推荐视频对象被所述目标账户执行任务操作的概率值，得到任务预估值；第二调整模块，用于基于每个所得推荐视频对象的所述任务预估值，调整所述目标推荐视频中每个推荐视频对象的排序顺序。

根据本公开实施例的另一方面，提供一种视频推荐模型训练装置，包括：第二获取单元，设置为获取训练样本，其中，所述训练样本至少包括：多个推荐视频对象以及每个推荐视频对象的历史行为序列数据与非序列数据；第一调整单元，设置为基于训练样本，调整初始构建的推荐模型的注意力结构，其中，用于注意力结构调整所述训练样本中每个推荐视频对象的注意力权重，所述注意力权重是基于每个推荐视频对象的历史行为序列数据与非序列数据之间的乘积得到；构建单元，设置为在调整推荐模型的注意力结构后，构建两个具备相同模型结构的推荐模型；第二调整单元，设置采用两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的训练样本训练得到所述推荐模型。

根据本公开实施例的另一方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述任一项所述的视频推荐方法，或者如上述所述的视频推荐模型训练方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一项所述的视频推荐方法，或者如上述所述的视频推荐模型训练方法。

根据本公开实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的视频推荐方法，或者如上述所述的视频推荐模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

针对各种应用裂变活动带来的行为噪声序列数据，降低训练权重，提高正常历史行为序列数据的训练权重，从而基于噪声序列数据排除待推荐视频集合中的异常视频，向账户推送的视频更符合用户账号的使用习惯，提高用户使用视频推荐应用(包括但不限于：短视频应用、新闻应用、浏览器等)的兴趣，从而解决相关技术中无法准确检测对视频应用的噪声行为，推荐给用户不喜欢的内容，造成用户使用兴趣下降的问题。

针对视频应用APP中视频推荐方式，避免由于裂变增长活动等场景所带来的噪声造成推荐的视频集合不合理的情况，进行降噪处理，降低噪声对视频应用APP/应用程序推荐系统的干扰。针对裂变活动带来的用户行为label噪声，本申请使用两个推荐模型互相学习，为对方辨别噪声样本和非噪声样本(通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，基于样本损失值调整训练样本的训练权重)提高待推荐视频集合的适应性，让用户对推荐的样本视频更加感兴趣，提高用户使用视频推荐应用APP/应用程序推荐系统的使用时长。解决相关技术中无法准确检测对视频应用的噪声行为，推荐给用户不喜欢的内容，造成用户使用兴趣下降的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频推荐方法的实施环境的示意图。

图2是根据一示例性实施例示出的一种视频推荐方法的流程图。

图3是根据一示例性实施例示出的一种视频推荐模型训练方法的流程图。

图4是根据一示例性实施例示出的一种视频推荐装置的装置框图；

图5是根据本公开实施例的另一种可选的视频推荐模型训练装置的示意图；

图6是根据本发明实施例的一种用于实现视频推荐方法的电子设备(或移动设备)的硬件结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本申请可以应用于各种视频推荐应用/应用程序推荐系统/视频推荐平台，其中，视频推荐应用可包括前端显示页面和后台服务器，通过前端显示页面登录目标账户后，根据目标账户的使用兴趣和账户对历史推荐视频集合的操作行为，逐渐调整推荐视频集合的视频内容(可包括多个待推荐视频集合视频)，通过后台服务器，训练推荐模型，推荐模型中能够对金币裂变增长活动等场景所带来的噪声，辨别噪声样本和非噪声样本，基于样本损失值调整训练样本的训练权重，降低噪声样本的训练权重，提高非噪声样本的训练权重，使得向目标账户推荐的视频更符合用户的观看兴趣，以提高用户使用视频应用APP/应用程序的使用时长。

本申请中，针对裂变活动带来的用户历史行为序列数据噪声，可通过用户历史行为序列数据的中心点/用户行为序列的均值来排除异常视频。

图1是根据一示例性实施例示出的一种视频推荐方法的实施环境的示意图。参见图1，该实施环境：

包括电子终端110和服务器120。

电子终端110可以是智能手机、平板电脑、笔记本电脑、台式电脑或者其他具有显示功能的电子设备。电子终端110具有渲染任一应用/工具对应的前端页面的功能。在一些实施例中，电子终端110上安装有浏览器客户端/本地客户端，电子终端110通过运行该浏览器客户端，渲染任一应用/工具对应的前端页面。

需要说明的是，电子终端110泛指多个终端中的一个，本实施例仅以电子终端110来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。例如上述终端可以仅为几个，或者上述终端为几十个或几百个，或者更多数量，本公开实施例对终端的数量和设备类型均不加以限定。

服务器120可以是一台服务器、多台服务器、云服务器、云计算平台或者虚拟化中心。在一些实施例中，服务器120是任一应用或者任意多个应用的后台服务器，服务器120存储有用于渲染属于该任一应用或者该任意多个应用的页面的资源，服务器120基于所存储的资源，为该任一应用或者该任意多个应用的页面渲染提供后台服务。

电子终端110与服务器120通过无线网络或者有线网络进行通信。电子终端110运行浏览器客户端，响应于页面渲染指令，且该页面渲染指令对应的网址属于服务器120对应的应用，通过与服务器120进行通信来获取用于渲染应用对应的页面的资源，基于获取到的资源，渲染该推荐视频应用对应的页面。需要说明的是，服务器120泛指多个服务器中的一个，其中每个服务器分别为不同应用的后台服务器，电子终端110通过与不同应用的后台服务器进行通信，对不同应用的页面进行渲染。

本实施例可以应用于各种视频应用/应用程序推荐系统中，以视频应用的后台服务器为实施主体对本实施例进行详细说明。

图2是根据一示例性实施例示出的一种视频推荐方法的流程图，如图2所示，推荐方法包括以下步骤：

在步骤S201中，获取目标账户针对目标视频应用的历史行为序列数据。

目标账户可以是指在视频应用APP/视频推荐系统中注册后的账户，该目标账户的表现形式可以包括但不限于：账户ID、账户昵称、账户邮箱等。目标账户可以通过数字、符号、数字+符号等方式展示。每个用户在使用视频应用时，可以通过注册模块提供注册信息，然后后台服务器分配一个账户。

目标视频应用可以是指视频应用程序/视频推荐应用，目标视频应用推荐的内容和形式可以是多样化的，目标视频应用向各个账户推送推荐视频集合，例如，推荐日常生活视频、推荐锻炼视频、推荐理财视频、推荐实时新闻视频等，通过向用户终端的终端页面推荐视频样本，根据账户对各个视频样本的历史行为序列数据(包括但不限于：点赞、转发、收藏、下载等行为序列数据)以及视频样本的视频类型、视频作者等综合评估用户感兴趣的视频类型，为下次推荐视频样本做参考，这样能够推荐给用户更为感兴趣的视频样本。

在使用目标视频应用向前端页面发送待推荐视频集合时，接收终端反馈的操作行为信息，需要排除/过滤/降低由于裂变活动等产生的噪声行为数据和与噪声行为对应的异常视频，使得后续推荐的视频样本更符合用户的关注点/感兴趣领域，提高用户的使用时长/使用次数。

由于现有技术中，对所有的账户特征(包括：观看的视频特征、作者特征、地理位置、账户对视频的操作行为特征等)进行处理，但是这种处理方式准确度很低。由于在实际裂变活动场景中，主要是用户的行为序列数据存在噪声，其它非行为序列数据(如账户地理位置、视频ID等数据)是不存在噪声的，因此现有技术中的噪声处理方式容易出现噪声检测偏差。针对现有技术的问题，本实施例中主要是针对账户在使用视频应用时的历史行为序列数据，能够更为精准的检测出噪声序列数据，提高推荐视频的准确度。

本实施例中的历史行为序列数据包括非行为序列数据和行为序列数据，其中，非行为序列数据可以包括但不限于：账户ID、账户所属用户的用户年龄、用户性别、账户地理位置、视频ID、设备ID、视频类别、视频长度等等。而行为序列数据可以包括但不限于：账户历史观看视频ID序列(包括至少两个推荐视频的ID号，多个视频ID号组合为视频ID序列)、账户历史观看视频作者ID序列(包括至少两个推荐视频的作者ID号，多个视频作者ID号组合为视频作者ID序列)、账户历史观看视频时长序列(包括至少两个推荐视频的时长，多个视频时长组合为视频时长序列)、账户历史观看视频距当前时间长度的序列(包括至少两个视频距离当前时间长度，多个视频距离当前时间长度组合为视频距离当前时间长度序列)等等。

本实施例中，需要检测账户历史行为序列数据中的噪声，该噪声可以是指：由于各种非常规活动(例如，金币裂变活动)账户并非出于自身兴趣而产生的行为记录，如并不感兴趣的视频的观看视频ID、视频作者ID等等。

在步骤S202中，将历史行为序列数据输入至预先训练的推荐模型，确定历史行为序列数据中的噪声序列数据，其中，在训练推荐模型时，通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于样本损失值调整训练样本的训练权重，利用调整训练权重后的训练样本训练得到推荐模型。

通过构建的两个具备相同模型结构的推荐模型相互查询对方的训练样本的样本损失值，基于样本损失值调整训练样本的训练权重，降低噪声序列数据的注意力权重，提高正常行为序列数据的训练权重，能够降低噪声序列数据对后续待推荐视频的影响力，提高推荐视频的准确度。

在步骤S203中，基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频。

本实施例中，异常视频对应噪声序列数据，用户对异常视频的行为序列数据为噪声序列数据，例如，通过金币活动产生的推荐视频，用户对该视频的操作行为可以理解为噪声序列数据，通过降低异常视频的比重或者排除异常视频，能够减少异常视频对未来时间段段待推荐视频集合的干扰，提高推荐视频的准确度。

可选的，基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频，包括：获取噪声序列数据中行为序列数据所指示的用户终端所播放的异常视频；排除待推荐视频集合中的异常视频，得到目标推荐视频。

另一种可选的可选的，在基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频之后，推荐方法还包括：评估目标推荐视频中每个推荐视频对象被目标账户执行任务操作的概率值，得到任务预估值；基于每个所得推荐视频对象的任务预估值，调整目标推荐视频中每个推荐视频对象的排序顺序。

在步骤S204中，向目标账户推送目标推荐视频。

通过上述步骤，可在获取目标账户针对目标视频应用的历史行为序列数据后，将历史行为序列数据输入至预先训练的推荐模型，确定历史行为序列数据中的噪声序列数据，然后基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频，向目标账户推送目标推荐视频。本实施例中，可以针对各种应用裂变活动带来的行为噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频，这样推荐的视频更符合账号的使用习惯，提高用户使用视频应用的兴趣，从而解决相关技术中无法准确检测对视频应用的噪声行为，推荐给用户不喜欢的内容，造成用户使用兴趣下降的问题。

本实施例在使用推荐模型之前，需要通过训练样本不断优化、调整推荐模型。

可选的，通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，包括：获取训练样本；基于训练样本，调整初始构建的推荐模型的注意力结构，以调整训练样本中每个推荐视频对象的注意力权重，其中，注意力权重是基于每个推荐视频对象的行为序列数据与非序列数据之间的乘积得到；在调整推荐模型的注意力结构后，构建另一推荐模型，得到两个具备相同模型结构的推荐模型；采用构建的两个推荐模型中其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值。

另一种可选的，获取训练样本，包括：获取历史预设时间段中的账户数据、推荐视频对象的数据以及操作行为数据；将账户数据、推荐视频对象的数据以及操作行为数据划分为行为序列数据和非序列数据；基于划分的行为序列数据和非序列数据，确定训练样本。

非序列数据可以包括账户ID，视频ID，设备ID，账户年龄，账户性别，账户地理位置，视频类别，视频长度等等。行为序列数据可以包括账户历史观看视频ID序列，账户历史观看视频作者ID序列，账户历史观看视频时长序列，账户历史观看视频距当前时间长度的序列等。

本实施例中所提出的推荐模型的训练样本包括但不限于：账户数据、推荐视频对象的数据、上下文数据以及账户对该推荐对象的操作行为(如点赞、关注、长时间观看等)。其中，推荐视频对象的数据可以是视频ID(PhotoID)，也可以是其他能够表征视频信息的特征，如视频年龄、视频类目、视频音乐类别等等。账户数据可以是用户ID(UserID)和设备ID(DeviceID)，也可以是其他能表征用户信息的特征，如用户兴趣、用户年龄等特征，当然，账户数据还可以是平均求和的用户行为序列，如sum pooling后的最近长时间观看的视频PhotoID序列。

在得到训练样本后，需要调整推荐模型的结构和参数，首先，需要对推荐模型中对账户行为序列建模的多头注意力结构进行修改，降低用户历史行为序列数据中噪声的影响。

本实施例中的注意力结构，可以是指基于QKV加权的注意力机制，其中，QKV加权中的query为embedding(实现模型中的神经网络的数据降维，针对大量的稀疏数据、数据类型较多的情况，能够基于查找表的方式，对输入的数据进行降维处理)非序列特征，key和value相同，均为账户历史行为序列数据。其中，query可以是指推荐样本(包括与当前时间点较近的时间点所推荐的视频对象)和key(包括与当前时间点较近的时间点所推荐的视频对象的视频序列)间的内积(代表相似度)得到序列value中每个视频的注意力权重。

调整推荐模型的注意力结构，指的是使得噪声样本的注意力权重变小，具体实现有两种方式：

第一种实现方式，对输入query特征进行修改。

可选的，基于训练样本，调整初始构建的推荐模型的注意力结构，包括：选取训练样本中非序列数据的待评估序列维度；对训练样本中的非序列数据进行预处理，得到表征待评估序列维度的序列中心点的数据；为序列中心点的数据配置预设注意力权重；通过预设注意力权重，将序列中心点的数据添加至非序列数据的待评估序列维度中，以调整推荐模型的注意力结构。

在得到表征序列中心点的数据，如账户观看历史的视频ID数据中心点后，可以将视频ID数据中心点通过一定的权重加到query特征对应维度(即上述的待评估序列维度)中，对应维度指的是待预估target视频ID特征所在的维度，在注意力机制中，与序列中心点相差大的账户行为被认为是噪声，会给予较小的权重。

其中，输入query特征为多组非序列特征拼接得到，其中包含target视频ID，target视频作者ID等视频序列数据。这部分视频序列数据，有的在历史行为序列数据中也存在，例如，历史行为序列数据中可能包含账户历史观看视频ID序列，账户历史观看视频作者ID序列。这个序列包括视频ID特征和视频作者ID特征，对序列进行特定操作可以得到能够表示相应序列中心点的特征。

在本实施例中，对训练样本中的非序列数据进行预处理，得到表征待评估序列维度的序列中心点的数据，包括：对非序列数据中涉及待评估序列维度的数据进行累积平均处理，得到表征序列中心点的数据；和/或，提取非序列数据中涉及待评估序列维度的中值数据，得到表征序列中心点的数据。

本实施例中，可对账户历史观看视频ID(如对序列ID进行数据维度整合，得到32维的维度)序列进行sum pooling平均可以得到均值视频ID特征，对账户历史观看视频作者ID序列进行sum pooling平均可以得到均值视频作者ID特征。

第二种实现方式，对历史行为序列数据直接进行降噪处理。

本实施例中，基于训练样本，调整初始构建的推荐模型的注意力结构，包括：选取训练样本中行为序列数据的待评估维度；对训练样本中行为序列数据进行预处理，得到表征待评估维度的维度中心点的数据；计算训练样本中行为序列数据涉及到的每个操作行为与维度中心点之间的维度距离；将维度距离大于第一距离阈值的行为序列数据中的操作行为确定为噪声行为；排除噪声行为以及噪声行为对应的注意力权重，以完成初始构建的推荐模型的注意力结构的调整动作。

可选的，计算训练样本中行为序列数据涉及到的每个操作行为与维度中心点之间的维度距离，包括：计算行为序列数据中每个操作行为与维度中心点的数据之间的乘积，得到维度距离；或者，计算行为序列数据中每个操作行为与维度中心点的数据之间的欧式距离值，得到维度距离。

通过对行为序列数据中每个行为与中心点的距离进行排序，取距离最远的Top K个行为噪声，可以直接剔除噪声样本。本实施例中的距离可以通过行为数据与序列中心点的数据之间的内积得到，也可以通过欧氏距离得到。

基于相同模型结构，构建两个推荐模型A与B。两个模型的输入特征，训练label和输出任务均相同。目的是让两个推荐模型互相监督，帮对方找出噪声样本并给予低训练权重。两个推荐模型可以完全独立，也可以共享Embedding。

两个推荐模型进入交替训练状态。

例如，在设置两个推荐模型分别为A模型和B模型时，A模型先进行训练，针对每个训练样本得到loss。基于A模型每个样本的loss得到每个样本的权重大小。B模型基于每个样本的权重大小得到加权loss进行训练，并得到每个训练样本的loss。

然后，基于B模型每个样本的loss得到每个样本的权重大小。A模型基于每个样本的权重大小得到加权loss进行训练，并得到每个训练样本的loss。

通过模型对样本的loss(样本损失值，确定样本拟合的能力，分析样本是否为噪声)大小来区分是否是噪声样本，这里假设样本的loss越大越可能是噪声样本，并且在另一个模型训练时对噪声样本给予低训练权重，对正常样本给予高训练权重。

通过样本的loss得到样本的训练权重，有多种实现方式：

第一种实现方式，通过统计得到实际噪声样本的loss均值。

可选的，基于样本损失值调整训练样本的训练权重，包括：基于每个训练样本的样本损失值，统计训练样本中的损失均值；确定大于损失均值的样本损失值所对应的训练样本为噪声样本；降低噪声样本的训练权重。

对于大于该loss均值的样本认为是噪声样本，降低样本的训练权重，对其他样本则不对训练权重进行处理，仍为1。这样能保证在不存在噪声样本时尽可能少的影响。所述降低样本的训练权重可以按照偏离loss均值的程度降低样本的训练权重，loss越大则训练权重越小。实现上可以基于单调函数映射和查表等方案。

第二种实现方式，对样本的loss进行从大到小排序，始终选取TopK的样本进行处理，给予较小的训练权重。

另一种可选的，基于样本损失值调整训练样本的训练权重，包括：对所有的样本损失值进行排序，得到排序结果；基于排序结果，将小于预设排序阈值的样本损失值所对应的训练样本确定为噪声样本；降低噪声样本的训练权重。

两个模型(模型有多个预估任务，例如，预估账户是否会点击、收藏、转发，预估点击概率、收藏概率、转发概率)同时进行线上服务时，有多种方案：

第一种实现方式，对两个模型的输出值加权平均得到不同预估任务的预估值，输出给后续环节。

在本实施例中，在基于样本损失值调整训练样本的训练权重之后，降噪方法还包括：采用每个推荐模型，确定与每个输出任务对应的任务预估值；确定与每个任务预估值对应的权重值；基于每个输出任务的任务预估值和对应的权重值，进行加权平均处理，得到对应于每个输出任务的任务预估结果。

第二种实现方式，基于ensemble sort(通过一种公式)直接对两个模型的所有预估值进行加权得到最终的排序结果。

作为本实施例一种可选的实施方式，在基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频之后，推荐方法还包括：评估目标推荐视频中每个推荐视频对象被目标账户执行任务操作的概率值，得到任务预估值；基于每个所得推荐视频对象的任务预估值，调整目标推荐视频中每个推荐视频对象的排序顺序。

通过上述实施例，能够针对视频应用APP的裂变活动场景所带来的噪声，进行降噪处理，降低噪声对视频推荐系统的干扰。针对裂变活动带来的用户行为序列噪声，本实施例可使用两个推荐模型互相学习，为对方辨别噪声样本和非噪声样本，降低噪声样本的训练权重，提高非噪声样本的训练权重，为后续视频推荐系统在向目标账户提供待推荐视频集合时，提高推荐视频的预估准确度，减少噪声行为序列的干扰，提供用户感兴趣的样本视频。

图3是根据一示例性实施例示出的一种视频推荐模型训练方法的流程图，如图3所示，推荐方法包括以下步骤：

在步骤S301中，获取训练样本，其中，训练样本至少包括：多个推荐视频对象以及每个推荐视频对象的历史行为序列数据与非序列数据；

在步骤S302中，基于训练样本，调整初始构建的推荐模型的注意力结构，其中，用于注意力结构调整训练样本中每个推荐视频对象的注意力权重，注意力权重是基于每个推荐视频对象的历史行为序列数据与非序列数据之间的乘积得到；

在步骤S303中，在调整推荐模型的注意力结构后，构建两个具备相同模型结构的推荐模型。其中，每个推荐模型的输入数据和输出任务均相同；

在步骤S304中，采用两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于样本损失值调整训练样本的训练权重，利用调整训练权重后的训练样本训练得到推荐模型。

可选的，还包括：采用推荐模型，确定与每个输出任务对应的任务预估值；对多个推荐模型输出的所有任务预估值进行加权处理，得到对应于每个输出任务的任务预估结果；排除任务预估结果中的噪声序列数据；基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频。

通过上述步骤，能够先获取训练样本，并基于训练样本，调整初始构建的推荐模型的注意力结构，在调整推荐模型的注意力结构后，构建两个具备相同模型结构的推荐模型。其中，每个推荐模型的输入数据和输出任务均相同，采用两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的训练样本训练得到所述推荐模型。在本实施例中，采用两个推荐模型互相学习，为对方辨别噪声样本和非噪声样本，降低噪声样本的训练权重，提高非噪声样本的训练权重，这样，推荐的样本视频更符合账号的使用习惯，从而解决相关技术中无法准确检测对视频应用的噪声行为，推荐给用户不喜欢的内容，造成用户使用兴趣下降的问题。

下面结合一个具体地实施例来说明本申请。

本实施例，针对应用程序APP的金币裂变增长活动这一场景所带来的噪声进行降噪处理，降低这一噪声对应用程序推荐系统的干扰。针对裂变活动带来的账户行为label噪声，本发明使用两个推荐模型互相学习，为对方辨别噪声样本和非噪声样本，降低噪声样本的训练权重，提高非噪声样本的训练权重。针对裂变活动带来的账户历史行为序列数据噪声，本实施例通过账户行为序列的均值/历史行为序列数据的中心点来排除异常视频。

实施例方案步骤包括：

第一个步骤01：获取训练数据构建训练样本。

本实施例所提出的应用程序推荐模型训练样本包括账户特征、视频特征、上下文特征以及账户对该待推荐视频集合的行为(如点赞、关注、长时间观看等)。

上述的视频特征，可以是视频ID(PhotoID)，也可以是其他能够表征视频信息的特征，如视频年龄，视频类目，视频音乐类别等等。

上述的账户特征，可以是账户ID(UserID)和设备ID(DeviceID)，也可以是其他能表征账户信息的特征，如账户兴趣，账户年龄等特征。所述的账户特征还可以是平均求和的账户行为序列，如sum pooling后的最近长时间观看的视频PhotoID序列。

第二个步骤02：调整应用程序推荐模型的结构和参数。

步骤2-1：对推荐模型中对账户行为序列建模的多头注意力结构进行修改，降低账户行为序列数据中噪声的影响。

在步骤2-1中，多头注意力结构指的是基于QKV加权的注意力机制，其中query为embedding非序列特征，key和value相同均为账户行为序列actionlist(行为列表组件)，通过query(例如，最近待推荐的视频对象)和key(与value相同)间的内积(代表相似度)得到序列value中每个视频的注意力权重。

非行为序列数据可以包括账户ID，视频ID，设备ID，账户年龄，账户性别，账户地理位置，视频类别，视频长度等等。行为序列数据可以包括账户历史观看视频ID序列，账户历史观看视频作者ID序列，账户历史观看视频时长序列，账户历史观看视频距当前时间长度的序列等等。账户行为序列数据中的噪声，指的是由于裂变活动账户并非出于自身兴趣而产生的行为记录，如并不感兴趣的视频的观看视频ID，视频作者ID等等。

对多头注意力结构进行修改，指的是使得噪声样本的注意力权重变小，具体实现有两种方式：

1.第一种实现方式，对输入query特征进行修改。

得到特征中心点，如账户观看历史的视频ID特征中心点后，可以将视频ID特征中心点通过一定的权重加到query特征对应维度中去。对应维度指的是待预估target(目标)视频ID特征所在的维度。于是在注意力机制中，与特征中心点相差大的账户行为被认为是噪声，会给予较小的权重。

其中，输入query特征为多组非行为序列数据拼接得到，其中包含target视频ID，target视频作者ID等视频item特征。这部分视频item特征有的在账户行为序列数据中也存在，例如账户行为序列数据中可能包含账户历史观看视频ID序列，账户历史观看视频作者ID序列。这个序列即由视频ID特征和视频作者ID特征组成。对序列进行特定操作可以得到能够表示相应序列中心点的特征。例如对账户历史观看视频ID序列进行sum pooling平均可以得到均值视频ID特征，对账户历史观看视频作者ID序列进行sum pooling平均可以得到均值视频作者ID特征。除此之外也可以采用取不同维度的中值，加权平均等方案。

2.第二种实现方式，对行为序列数据直接进行降噪。

例如，对行为序列数据中每个行为与中心点的距离进行排序，取距离最远的Top K个行为噪声。可以直接剔除噪声样本。该距离可以通过内积得到，也可以通过欧氏距离得到。再例如基于中心点对序列特征进行平滑，比如按照一定的权重累加到序列的每个特征上。

步骤2-2：基于相同模型结构，构建两个推荐模型A与B。两个模型的输入特征，训练label和输出任务均相同。

在步骤2-2中，目的是让两个推荐模型互相监督，帮对方找出噪声样本并给予低训练权重。两个推荐模型可以完全独立，也可以共享Embedding。

第三个步骤03：模型训练。

两个推荐模型A和B进入交替训练状态。

A模型先进行训练，针对每个训练样本得到样本损失值loss(，确定样本拟合的能力，确定是否为噪声)。基于A模型每个样本的loss得到每个样本的权重大小。B模型基于每个样本的权重大小得到加权loss进行训练，并得到每个训练样本的损失值loss。基于B模型每个样本的损失值loss得到每个样本的权重大小。A模型基于每个样本的权重大小得到加权loss进行训练，并得到每个训练样本的损失值loss。

在步骤03中，通过模型对样本的loss大小来区分是否是噪声样本，这里假设样本的loss越大越可能是噪声样本，并且在另一个模型训练时对噪声样本给予低训练权重(例如，赋予0.5-0.9)，对正常样本给予高训练权重(例如，赋予1.5-2)。

在步骤3中，通过样本的loss得到样本的训练权重，有多种实现方式：

一种实现方式，是通过统计得到实际噪声样本的loss均值，对于大于该loss均值的样本认为是噪声样本，降低样本的训练权重，对其他样本则不对训练权重进行处理，仍为1。这样能保证在不存在噪声样本时尽可能少的影响。降低样本的训练权重可以按照偏离loss均值的程度降低样本的训练权重，loss越大则训练权重越小。实现上可以基于单调函数映射和查表等方案。

另一种实现方式，是对样本的loss进行从大到小排序，始终选取topK的样本进行处理，给予较小的训练权重。

第四个步骤04：模型预测。

A模型和B模型共同进行线上服务。一个模型有多个预估任务，例如，预估账户是否会点击、收藏、转发，预估点击概率、收藏概率、转发概率。

在步骤4中，两个模型同时线上服务有多种方案:

一种实现方式，是先对两个模型的输出值加权平均得到不同预估任务的预估值，输出给后续环节。

另一种实现方式，基于如ensemble sort直接对两个模型的所有预估值进行加权得到最终的排序结果。

针对裂变活动带来的用户行为序列噪声，本实施例使用两个推荐模型互相学习，为对方辨别噪声样本和非噪声样本，降低噪声样本的训练权重，提高非噪声样本的训练权重，从而为后续推荐视频提供准确的参考数据，提高未来时间段内的样本推荐准确度。

图4是根据一示例性实施例示出的一种视频推荐装置的装置框图。参照图4，该装置包括：第一获取单元401，确定单元402和排除单元403、推送单元404。

该第一获取单元401被配置为获取目标账户针对目标视频应用的历史行为序列数据。

该确定单元402被配置为将历史行为序列数据输入至预先训练的推荐模型，确定历史行为序列数据中的噪声序列数据，其中，在训练推荐模型时，通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于样本损失值调整训练样本的训练权重，利用调整训练权重后的训练样本训练得到推荐模型。

该排除单元403被配置为基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频。

该推送单元404被配置为向目标账户推送目标推荐视频。.

上述视频推荐装置，可通过第一获取单元401获取目标账户针对目标视频应用的历史行为序列数据后，通过确定单元402将历史行为序列数据输入至预先训练的推荐模型，确定历史行为序列数据中的噪声序列数据，然后通过排除单元403基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频，通过推送单元404向目标账户推送目标推荐视频。可以针对各种应用裂变活动带来的行为噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频，这样推荐的视频更符合账号的使用习惯，提高用户使用视频应用的兴趣，从而解决相关技术中无法准确检测对视频应用的噪声行为，推荐给用户不喜欢的内容，造成用户使用兴趣下降的问题。

可选地，第一确定单元包括：第一获取模块，设置为获取训练样本；第一调整模块，设置为基于训练样本，调整初始构建的推荐模型的注意力结构，以调整训练样本中每个推荐视频对象的注意力权重，其中，注意力权重是基于每个推荐视频对象的行为序列数据与非序列数据之间的乘积得到；第一构建模块，设置为在调整推荐模型的注意力结构后，构建另一推荐模型，得到两个具备相同模型结构的推荐模型；第一查询模块，设置为采用构建的两个推荐模型中其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值。

可选地，第一获取模块，包括：第一获取子模块，设置为获取历史预设时间段中的账户数据、推荐视频对象的数据以及操作行为数据；划分子模块，设置为将账户数据、推荐视频对象的数据以及操作行为数据划分为行为序列数据和非序列数据；第一确定子模块，设置为基于划分的行为序列数据和非序列数据，确定训练样本。

可选地，第一调整模块，包括：第一选取子模块，设置为选取训练样本中非序列数据的待评估序列维度；第一预处理子模块，设置为对训练样本中的非序列数据进行预处理，得到表征待评估序列维度的序列中心点的数据；配置子模块，设置为为序列中心点的数据配置预设注意力权重；添加子模块，设置为通过预设注意力权重，将序列中心点的数据添加至非序列数据的待评估序列维度中，以调整推荐模型的注意力结构。

可选地，第一预处理子模块，包括：累积平均子模块，设置为对非序列数据中涉及待评估序列维度的数据进行累积平均处理，得到表征序列中心点的数据；和/或，提取子模块，设置为提取非序列数据中涉及待评估序列维度的中值数据，得到表征序列中心点的数据。

可选地，第一调整模块，包括：第二选取子模块，设置为选取训练样本中行为序列数据的待评估维度；第二预处理子模块，设置为对训练样本中行为序列数据进行预处理，得到表征待评估维度的维度中心点的数据；第一计算子模块，设置为计算训练样本中行为序列数据涉及到的每个操作行为与维度中心点之间的维度距离；第二确定子模块，设置为将维度距离大于第一距离阈值的行为序列数据中的操作行为确定为噪声行为；排除子模块，设置为排除噪声行为以及噪声行为对应的注意力权重，以完成初始构建的推荐模型的注意力结构的调整动作。

可选地，第一计算子模块，包括：第二计算子模块，设置为计算行为序列数据中每个操作行为与维度中心点的数据之间的乘积，得到维度距离；或者，第三计算子模块，设置为计算行为序列数据中每个操作行为与维度中心点的数据之间的欧式距离值，得到维度距离。

可选地，第一确定单元，包括：统计模块，设置为基于每个训练样本的样本损失值，统计训练样本中的损失均值；第一确定模块，设置为确定大于损失均值的样本损失值所对应的训练样本为噪声样本；第一降低模块，设置为降低噪声样本的训练权重。

可选地，第一确定单元，包括：排序模块，设置为对所有的样本损失值进行排序，得到排序结果；第二确定模块，设置为基于排序结果，将小于预设排序阈值的样本损失值所对应的训练样本确定为噪声样本；第二降低模块，设置为降低噪声样本的训练权重。

可选地，排除单元，包括：第二获取模块，设置为获取噪声序列数据中行为序列数据所指示的用户终端所播放的异常视频；排除模块，设置为排除待推荐视频集合中的异常视频，得到目标推荐视频。

可选地，推荐装置还包括：评估单元，设置为，在基于噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频之后，评估目标推荐视频中每个推荐视频对象被目标账户执行任务操作的概率值，得到任务预估值；第二调整模块，用于基于每个所得推荐视频对象的任务预估值，调整目标推荐视频中每个推荐视频对象的排序顺序。

下面结合另一个实施装置来说明本发明。

图5是根据本公开实施例的另一种可选的视频推荐模型训练装置的示意图，如图5所示，该装置包括：第二获取单元51，第一调整单元52，构建单元53，第二调整单元54，其中，

第二获取单元51，设置为获取训练样本，其中，训练样本至少包括：多个推荐视频对象以及每个推荐视频对象的历史行为序列数据与非序列数据；

第一调整单元52，设置为基于训练样本，调整初始构建的推荐模型的注意力结构，其中，用于注意力结构调整训练样本中每个推荐视频对象的注意力权重，注意力权重是基于每个推荐视频对象的历史行为序列数据与非序列数据之间的乘积得到；

构建单元53，设置为在调整推荐模型的注意力结构后，构建两个具备相同模型结构的推荐模型；

第二调整单元54，设置采用两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于样本损失值调整训练样本的训练权重，利用调整训练权重后的训练样本训练得到推荐模型。

上述视频推荐模型训练装置，可以通过第二获取单元51先获取训练样本，并通过第一调整单元52基于训练样本，调整初始构建的推荐模型的注意力结构，通过构建单元53在调整推荐模型的注意力结构后，构建两个具备相同模型结构的推荐模型，其中，每个推荐模型的输入数据和输出任务均相同，通过第二调整单元54采用两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的训练样本训练得到所述推荐模型。在本实施例中，采用两个推荐模型互相学习，为对方辨别噪声样本和非噪声样本，降低噪声样本的训练权重，提高非噪声样本的训练权重，这样，推荐的样本视频更符合账号的使用习惯，从而解决相关技术中无法准确检测对视频应用的噪声行为，推荐给用户不喜欢的内容，造成用户使用兴趣下降的问题。

本申请中的电子设备的类型，可以包括终端，也可以包括服务器。

图6是根据本发明实施例的一种用于实现视频推荐方法的电子设备(或移动设备)的硬件结构框图。如图6所示，电子设备可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储处理器可执行指令的的存储器104。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述任一项所述的视频推荐方法，或者如上述所述的视频推荐模型训练方法。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述所述的视频应用的推荐方法，或者如上述所述的视频推荐模型训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频推荐方法，其特征在于，包括：

获取目标账户针对目标视频应用的历史行为序列数据；

将所述历史行为序列数据输入至预先训练的推荐模型，确定所述历史行为序列数据中的噪声序列数据，其中，在训练所述推荐模型时，通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的所述训练样本训练得到所述推荐模型；

基于所述噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频；

向所述目标账户推送所述目标推荐视频。

2.根据权利要求1所述的推荐方法，其特征在于，所述通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，包括：

获取训练样本；

基于所述训练样本，调整初始构建的推荐模型的注意力结构，以调整所述训练样本中每个推荐视频对象的注意力权重，其中，所述注意力权重是基于每个推荐视频对象的行为序列数据与非序列数据之间的乘积得到；

在调整所述推荐模型的注意力结构后，构建另一推荐模型，得到两个具备相同模型结构的推荐模型；

采用构建的两个推荐模型中其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值。

3.根据权利要求2所述的推荐方法，其特征在于，所述获取训练样本，包括：

获取历史预设时间段中的账户数据、推荐视频对象的数据以及操作行为数据；

将所述账户数据、推荐视频对象的数据以及操作行为数据划分为行为序列数据和非序列数据；

基于划分的行为序列数据和非序列数据，确定所述训练样本。

4.根据权利要求3所述的推荐方法，其特征在于，所述基于所述训练样本，调整初始构建的推荐模型的注意力结构，包括：

选取所述训练样本中非序列数据的待评估序列维度；

对所述训练样本中的非序列数据进行预处理，得到表征所述待评估序列维度的序列中心点的数据；

为所述序列中心点的数据配置预设注意力权重；

通过预设注意力权重，将所述序列中心点的数据添加至所述非序列数据的待评估序列维度中，以调整所述推荐模型的注意力结构。

5.一种视频推荐模型训练方法，其特征在于，包括：

获取训练样本，其中，所述训练样本至少包括：多个推荐视频对象以及每个推荐视频对象的历史行为序列数据与非序列数据；

基于训练样本，调整初始构建的推荐模型的注意力结构，其中，用于注意力结构调整所述训练样本中每个推荐视频对象的注意力权重，所述注意力权重是基于每个推荐视频对象的历史行为序列数据与非序列数据之间的乘积得到；

在调整推荐模型的注意力结构后，构建两个具备相同模型结构的推荐模型；

采用两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的训练样本训练得到所述推荐模型。

6.一种视频推荐装置，其特征在于，包括：

第一获取单元，设置为获取目标账户针对目标视频应用的历史行为序列数据；

第一确定单元，设置为将所述历史行为序列数据输入至预先训练的推荐模型，确定所述历史行为序列数据中的噪声序列数据，其中，在训练所述推荐模型时，通过构建的两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的训练样本训练得到所述推荐模型；

排除单元，设置为基于所述噪声序列数据，排除待推荐视频集合中的异常视频，得到目标推荐视频；

推送单元，设置为向所述目标账户推送所述目标推荐视频。

7.一种视频推荐模型训练装置，其特征在于，包括：

第二获取单元，设置为获取训练样本，其中，所述训练样本至少包括：多个推荐视频对象以及每个推荐视频对象的历史行为序列数据与非序列数据；

第一调整单元，设置为基于训练样本，调整初始构建的推荐模型的注意力结构，其中，用于注意力结构调整所述训练样本中每个推荐视频对象的注意力权重，所述注意力权重是基于每个推荐视频对象的历史行为序列数据与非序列数据之间的乘积得到；

构建单元，设置为在调整推荐模型的注意力结构后，构建两个具备相同模型结构的推荐模型；

第二调整单元，设置采用两个具备相同模型结构的推荐模型中的其中一推荐模型查询另一推荐模型所使用的训练样本的样本损失值，并基于所述样本损失值调整所述训练样本的训练权重，利用调整训练权重后的训练样本训练得到所述推荐模型。

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的视频推荐方法，或者如权利要求5项所述的视频推荐模型训练方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至4中任一项所述的视频推荐方法，或者如权利要求5项所述的视频推荐模型训练方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的视频推荐方法，或者如权利要求5项所述的视频推荐模型训练方法。