CN113392864A

CN113392864A - 模型生成方法及视频筛选方法、相关装置、存储介质

Info

Publication number: CN113392864A
Application number: CN202011091010.2A
Authority: CN
Inventors: 林炯; 赵教生; 蔡聪怀; 饶峰云; 刘叶青; 刘振华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-09-14
Anticipated expiration: 2040-10-13

Abstract

本申请公开了一种模型生成方法及视频筛选方法、相关装置、存储介质，所述方法包括：获取多个训练样本以及每个训练样本对应的硬标签；每个训练样本包括一个样本视频以及样本视频的标题；利用各个训练样本、各个训练样本对应的硬标签，以及由教师模型计算得到的每个训练样本对应的软标签，对视频多模态模型进行训练，直至视频多模态模型对应的损失函数收敛软标签用于表征对应的训练样本的属于各个视频标签的概率；硬标签和软标签作为训练视频多模态模型的监督信号；视频多模态模型的损失函数用于反映模型输出结果与训练视频多模态模型的两个监督信号的总偏差；视频多模态模型与教师模型具有相同架构。通过软硬标签结合训练模型，提高模型的精确度。

Description

模型生成方法及视频筛选方法、相关装置、存储介质

技术领域

本申请涉及视频数据处理技术领域，特别涉及一种模型生成方法及视频筛选方法、相关装置、存储介质。

背景技术

在人工智能领域中，可以将视频以及视频的标题输入学习训练好后的视频多模态模型中，通过视频多模态模型输出视频的多模态向量，从而可以利用视频的多模态向量进行视频去重、视频精排等。

现有的视频多模态模型的主要学习方法，以样本视频的硬标签作为训练的监督信号。其中，硬标签为仅包含0和1的一个多维向量，向量中每个维度对应一个视频标签，0表示样本视频不属于该视频标签，1则表示样本视频属于该视频标签。具体通过将样本视频和样本视频的标题输入视频多模态模型中，到样本视频的向量和标题的向量，然后将两个向量通过合并层进行处理，得到样本视频的多模态向量。最后，利用多模态向量输入分类器中所输出的结果与样本视频的硬标签，通过损失函数计算两者的偏差，并基于偏差进行反向传播，更新视频多模态模型的参数。在进行多次上述的迭代训练后，就可以获得满足收敛条件的视频多模态模型。

但是，作为监督信号的样本视频的硬标签对应的视频标签是人工标注的，所以经常出现标签漏标、或者相同主题的视频标注不同的视频标签等情况。因此，通过上述方式进行训练时，会受到视频标注噪声的影响，从而使得视频多模态模型的精度不高，所得的结果置信度不高。

发明内容

基于上述现有技术的不足，本申请提供了一种模型生成方法及视频筛选方法、相关装置、存储介质，以解决现有技术中硬标签存在表中噪声，使得生成的视频多模态模型的精度不高的问题。

为了实现上述目的，本申请提供了以下技术方案：

本申请第一方面提供了一种视频多模态模型的生成方法，包括：

获取多个训练样本以及每个所述训练样本对应的硬标签；其中，每个所述训练样本包括一个样本视频以及所述样本视频的标题；

利用各个所述训练样本、各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行训练，直至所述视频多模态模型对应的损失函数收敛；其中，所述软标签用于表征对应的训练样本的属于各个视频标签的概率；所述硬标签和所述软标签作为训练所述视频多模态模型的监督信号；所述视频多模态模型的损失函数用于反映模型输出结果与训练所述视频多模态模型的两个所述监督信号的总偏差；所述视频多模态模型与所述教师模型具有相同架构。

可选地，在上述的视频多模态模型的生成方法中，所述利用各个所述训练样本、各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行训练之前，还包括：

利用各个所述训练样本以及各个所述训练样本对应的硬标签，对所述教师模型进行训练，直至所述教师模型对应的损失函数收敛；其中，各个所述训练样本作为所述教师模型的输入；所述硬标签作为训练所述教师模型的监督信号。

可选地，在上述的视频多模态模型的生成方法中，所述利用各个所述训练样本、所述各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行训练之前，还包括：

利用各个所述训练样本以及各个所述训练样本对应的硬标签，对所述教师模型进行预设次数的迭代训练；其中，各个所述训练样本作为所述教师模型的输入；所述硬标签作为训练所述教师模型的监督信号；

其中：所述利用各个所述训练样本、各个所述训练样本对应的硬标签，以及由教师模式计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行训练，包括：

利用各个所述训练样本、各个所述训练样本对应的硬标签以及由进行预设次数迭代训练后的所述教师模型，计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行设定次数的迭代训练；其中，训练过程中在每次更新所述视频多模态模型的参数后，将更新后的所述参数替换所述教师模型中对应的参数；

若在对所述视频多模态模型进行预设次数的迭代训练过程中，所述视频多模态模型对应的损失函数均未收敛，则返回执行所述利用各个所述训练样本以及各个所述训练样本对应的硬标签，对所述教师模型进行预设次数的迭代训练；

若在对所述视频多模态模型进行预设次数的迭代训练过程中，所述视频多模态模型对应的损失函数收敛，则结束对所述视频多模态模型的训练。

本申请第二方面提供了一种视频筛选方法，包括：

分别将视频库中的多个视频以及每个所述视频的标题输入视频多模态模型，通过所述视频多模态模型计算得到各个所述视频的多模态向量；其中，所述视频多模态模型利用多个训练样本、各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签进行训练得到；每个所述训练样本包括一个样本视频以及所述样本视频的标题；所述软标签用于表征对应的训练样本的属于各个视频标签的概率；所述硬标签和所述软标签为训练所述视频多模态模型的监督信号；所述视频多模态模型与所述教师模型具有相同架构；

基于各个所述视频的多模态向量，利用向量索引工具对各个所述视频进行检索，得到多组重复视频；

分别针对每一组所述重复视频，确定出所述重复视频中的属于搬运号搬运的视频，并将各个所述搬运的视频进行打压。

可选地，在上述的视频筛选方法中，所述分别将视频库中的多个视频以及每个所述视频的标题输入所述视频多模态模型，通过所述视频多模态模型计算得到各个所述视频的多模态向量之后，还包括：

将目标广告图进行时序过采样，得到伪视频；

将所述目标广告图对应的广告文案以及所述伪视频输入所述视频多模态模型中，通过所述视频多模态模型计算得到各个所述视频的多模态向量；

基于所述伪视频的多模态向量与各个所述视频的多模态向量，确定出与所述伪视频相匹配的各个所述视频；

将与所述目标广告图相匹配的各个所述视频和所述目标广告图，推送给客户端。

本申请第三方面提供了一种视频多模态模型的生成装置，包括：

获取单元，用于获取多个训练样本以及每个所述训练样本对应的硬标签；其中，每个所述训练样本包括一个样本视频以及所述样本视频的标题；

第一训练单元，用于利用各个所述训练样本、各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行训练，直至所述视频多模态模型对应的损失函数收敛；其中，所述软标签用于表征对应的训练样本的属于各个视频标签的概率；所述硬标签和所述软标签作为训练所述视频多模态模型的监督信号；所述视频多模态模型的损失函数用于反映模型输出结果与训练所述视频多模态模型的两个所述监督信号的总偏差；所述视频多模态模型与所述教师模型具有相同架构。

可选地，在上述的视频多模态模型的生成装置中，还包括：

第二训练单元，用于在所述第一训练单元执行所述利用各个所述训练样本、各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行训练前，利用各个所述训练样本以及各个所述训练样本对应的硬标签，对所述教师模型进行训练，直至所述教师模型对应的损失函数收敛；其中，各个所述训练样本作为所述教师模型的输入；所述硬标签作为训练所述教师模型的监督信号。

可选地，在上述的视频多模态模型的生成装置中，还包括：

第三训练单元，用于在所述第一训练单元执行所述利用各个所述训练样本、各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行训练前，利用各个所述训练样本以及各个所述训练样本对应的硬标签，对所述教师模型进行预设次数的迭代训练；其中，各个所述训练样本作为所述教师模型的输入；所述硬标签作为训练所述教师模型的监督信号；

其中：所述第一训练单元，包括：

第一训练子单元，用于利用各个所述训练样本、各个所述训练样本对应的硬标签以及由进行预设次数迭代训练后的所述教师模型，计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行设定次数的迭代训练；其中，训练过程中在每次更新所述视频多模态模型的参数后，将更新后的所述参数替换所述教师模型中对应的参数；

返回单元，用于在所述若在对所述视频多模态模型进行预设次数的迭代训练过程中，所述视频多模态模型对应的损失函数均未收敛时，返回所述第三训练单元执行所述利用各个所述训练样本以及各个所述训练样本对应的硬标签，对所述教师模型进行预设次数的迭代训练；

结束单元，用于在对所述视频多模态模型进行预设次数的迭代训练过程中，所述视频多模态模型对应的损失函数收敛时，结束对所述视频多模态模型的训练。

本申请第四方面提供了一种视频筛选装置，包括：

第一计算单元，用于分别将视频库中的多个视频以及每个所述视频的标题输入视频多模态模型，通过所述视频多模态模型计算得到各个所述视频的多模态向量；其中，所述视频多模态模型利用多个训练样本、各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签进行训练得到；每个所述训练样本包括一个样本视频以及所述样本视频的标题；所述软标签用于表征对应的训练样本的属于各个视频标签的概率；所述硬标签和所述软标签为训练所述视频多模态模型的监督信号；所述视频多模态模型与所述教师模型具有相同架构；

检索单元，用于基于各个所述视频的多模态向量，利用向量索引工具对各个所述视频进行检索，得到多组重复视频；

打压单元，用于分别针对每一组所述重复视频，确定出所述重复视频中的属于搬运号搬运的视频，并将各个所述搬运的视频进行打压。

可选地，在上述的视频筛选装置中，还包括：

视频生成单元，用于将目标广告图进行时序过采样，得到伪视频；

第二计算单元，用于将所述目标广告图对应的广告文案以及所述伪视频输入所述视频多模态模型中，通过所述视频多模态模型计算得到各个所述视频的多模态向量；

确定单元，用于基于所述伪视频的多模态向量与各个所述视频的多模态向量，确定出与所述伪视频相匹配的各个所述视频；

推送单元，用于将与所述目标广告图相匹配的各个所述视频和所述目标广告图，推送给客户端。

本申请第五方面提供一种计算机存储介质，用于存储计算机程序，所述计算机程序被执行时，用于实现如上述任意一项所述的视频多模态模型的生成方法或实现如上述任意一项所述的视频筛选方法。

本申请第六方面提供了一种电子设备，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如上述任意一项所述的视频多模态模型的生成方法或实现如上述任意一项所述的视频筛选方法。

本申请提供的一种视频多模态模型的生成方法，基于知识蒸馏中的教师模型-学生模型的架构实现，将视频多模态模型视为学生模型，并相应的构建了教师模型，通过获取多个训练样本以及每个训练样本对应的硬标签，其中，每个训练样本包括一个样本视频以及样本视频的标题。然后通过将各个训练样本输入教师模型中计算得到各个训练样本对应的软标签，软标签用于表征对应的训练样本的属于各个视频标签的概率。进而将各个训练样本作为视频多模态模型的输入，而将训练样本对应的硬标签以及对应的软标签作为监督信号，对视频多模态模型进行训练，直至视频多模态模型满足反映模型输出结果与训练视频多模态模型的两个监督信号的总偏差的损失函数收敛。实现了在训练视频多模态模型的过程中，在考虑硬标签的基础上，还考虑了通过增加的教师模型输出的软标签，从而通过硬标签保留原有标注的视频标签的信息，并且由于软标签不存在漏标等情况，所以通过软标签保证能考虑到潜在遗漏的标签以一个相对高的概率出现在损失函数中，从而有效地降低了视频标注噪声的影响，提高了视频多模态模型的精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种视频多模态模型的生成方法的流程示意图；

图2为本申请实施例提供的一种训练视频多模态模型的架构的示意图；

图3为本申请另一实施例提供的另一种视频多模态模型的生成方法的流程示意图；

图4为本申请又一实施例提供的另一种视频多模态模型的生成方法的流程示意图；

图5为本申请另一实施例提供的一种视频筛选方法的流程示意图；

图6为本申请另一实施例提供的筛选广告图匹配的视频的方法流程示意图；

图7为本申请另一实施例提供的一个筛选重复视频的示例的示意图；

图8为本申请另一实施例提供的一种视频多模态模型的生成装置的结构示意图；

图9为本申请另一实施例提供的一种视频筛选装置的结构示意图；

图10为本申请另一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请实施例提供了一种视频多模态模型的生成方法，主要应用于人工智能领域。其中，人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

更具体的，本申请实施例提供的视频多模态模型的生成方法为机器学习技术领域。其中，机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

如图1所示，本申请实施例提供的一种视频多模态模型的生成方法，包括以下步骤：

S101、获取多个训练样本以及每个训练样本对应的硬标签，每个训练样本包括一个样本视频以及样本视频的标题。

其中，视频的每种信息来源或形式称为一种模态；如：标题、视频流、音频等。训练样本对应的硬标签，指的是需要样本中的样本视频的硬标签。硬标签为仅包含0和1的一个多维向量，向量中每个维度对应一个视频标签，0表示样本视频不属于该视频标签，1则表示样本视频属于该视频标签。

具体的，可以从视频库中获取多个视频以及各个视频标题，将所获取的视频作为样本视频，并由工作人为各个样本视频标注样本视频所属的视频标签，对于为标注的视频标签，说明该样本视频不属于该视频标签，因此可以根据样本视频所属的视频标签生成各个样本视频的硬标签。

S102、利用各个训练样本、各个训练样本对应的硬标签，以及由教师模型计算得到的每个训练样本对应的软标签，对视频多模态模型进行训练，直至视频多模态模型对应的损失函数收敛，视频多模态模型的损失函数用于反映模型输出结果与训练视频多模态模型的硬标签和软标签的总偏差。

其中，软标签为与硬标签同纬度的向量，用于表征对应的训练样本的属于各个视频标签的概率，即软标签中的每一纬度为一个0～1的数值，标识样本视频属于该维度对应的视频标签的概率。

在本申请实施例中，将获取的各个训练样本作为视频多模态模型的输入，而将各个训练样本对应的硬标签和软标签作为训练视频多模态模型的监督信号，因此多模态模型的损失函数用于反映模型输出结果与训练视频多模态模型的两个监督信号的总偏差，即在本申请实施例中本质上是基于训练样本输入多模态模型输出的结果与训练样本对应的硬标签的偏差，以及输出的结果与训练样本对应的硬标签的偏差的总和，对视频多模态模型的参数进行调整。可选地，可以是基于模型输出结果与硬标签的偏差构建一个损失函数，并且基于模型输出结果与软标签的偏差构建另一个损失函数，然后将两个损失函数的和作为视频多模态模型对应的损失函数。

需要说明的是，本申请基于知识蒸馏中的教师模型-学生模型的架构实现，如图2所示，具体将视频多模态模型作为学生模型，并且构建了与视频多模态模型具有相同架构的教师模型。

具体的训练过程，如图2所示，分别将样本视频的标题和样本视频输入视频多模态模型和教师模型中，从而分别输出样本视频的多模态向量。更具体的，是将样本视频的标题输入模型中的文本特征提取器(TextRCNN)，得到标题对应的文本向量，而将样本视频输入模型中的视频帧特征提取器(InceptionV3)中，得到样本视频的各帧视频帧的特征向量，进而输入模型视频帧聚合模块(NetVLAD)中，得到样本视频对应的视频向量，最后通过连接层将标题对应的文本向量于样本视频对应的视频向量进行融合，得到样本视频的多模态向量。在两个模型都输出多模态向量后，将教师模型输出的多模态向量作为软标签(softlable)输入分类器中，同时也将根据样本视频的视频标签生成的硬标签以及视频多模态模型输出的多模态向量输入分类器中计算偏差，并根据计算得到的偏差进行方向传播，更新视频多模态模型的参数。通过不断重复上述的步骤，直至视频多模态模型对应的损失函数收敛。

还需要说明的是，教师模型可以是在训练视频多模态模型之前，已经预先利用多个训练样本以及训练样本对应的硬标签训练好。此时，在执行本申请实施例提供的方法时，仅更新视频多模态模型的参数。当然，也可以不用将教师模型预先训练好，而将教师模型与视频多模态模型进行联合学习，此时则需要同时更新两个模型中的参数。

由于，软标签时由教师模型输出的，因此软标签中必然存在属于各个视频标签的概率，因此保证能考虑到潜在遗漏的标签以一个相对高的概率出现在损失函数中，降低视频标注噪音的影响；而通过硬标签可以保留原有标注的视频标签的信息，因此本申请将通过教师模型输出软标签，然后软标签以及人工标注的视频标签生成的硬标签作为监督信号，可以有效地提高视频多模态模型输出的多模态向量的精度。

本申请另一实施例提供了另一种视频多模态模型的生成方法，采用端到端的训练方式对视频多模态模型进行训练。如图3所示，该方法具体包括以下步骤：

S301、获取多个训练样本以及每个训练样本对应的硬标签，每个训练样本包括一个样本视频以及样本视频的标题。

具体的，步骤S301的具体实施方式可相应地参考上述方法实施例中的步骤S101的具体实施过程，此处不再赘述。

S302、利用各个训练样本以及各个训练样本对应的硬标签，对教师模型进行训练，直至教师模型对应的损失函数收敛。

其中，视频多模态模型与教师模型具有相同架构。各个训练样本作为教师模型的输入，硬标签作为训练教师模型的监督信号，所以教师模型对应的损失函数用于反映教师模型的输出结果与硬标签的偏差。

在本申请实施例中，向将教师模型训练好，再执行步骤S303对视频多模态模型进行训练。由于，教师模型与视频多模态模型具有相同架构，所以具体可以通过将样本视频和样本视频的标题输入教师模型中，对得到的样本视频的向量和标题的向量进行合并处理，得到样本视频的多模态向量。最后，利用多模态向量输入分类器中所输出的结果与样本视频的硬标签，通过损失函数计算两者的偏差，并基于偏差进行反向传播，更新教师模型的参数，并进行多次上述的迭代训练直至教师模型对应的损失函数收敛，然后保存并固定教师模型的参数，从而得到训练好的教师模型。

S303、利用各个训练样本、各个训练样本对应的硬标签，以及由训练好后的教师模型计算得到的每个训练样本对应的软标签，对视频多模态模型进行训练，直至视频多模态模型对应的损失函数收敛。

其中，软标签用于表征对应的训练样本的属于各个视频标签的概率。硬标签和软标签作为训练视频多模态模型的监督信号。视频多模态模型的损失函数用于反映模型输出结果与训练所述视频多模态模型的两个监督信号的总偏差。

需要说明的是，执行步骤S303所采用的训练视频多模态模型的训练数据与步骤S301训练教师模型的训练数据是相同的，均为步骤S301所获取的数据，从而不需要再次获取训练的数据，加快视频多模态模型的训练效率。当然，这只是其中一种可选的方式，可以重新获取新的训练数据对视频多模态模型进行训练。

具体的，步骤S303的具体实施方式可相应地参考上述实施例中的步骤S102的具体实施过程，此处不再赘述。

需要说明的是，在本申请实施例中，教师模型是预先训练好的，因此在执行步骤S303时，仅更视频多模态模型的参数，直至视频多模态模型对应的损失函数收敛，而不需要更新教师模型的参数。

本申请又一实施例还提供了另一种视频多模态模型的生成方法，采用两段式的训练方式对视频多模态模型进行训练。如图4所示，该方法具体包括以下步骤：

S401、获取多个训练样本以及每个训练样本对应的硬标签，每个训练样本包括一个样本视频以及样本视频的标题。

具体的，步骤S401的具体实施方式可相应地参考上述方法实施例中的步骤S101的具体实施过程，此处不再赘述。

S402、利用各个训练样本以及各个训练样本对应的硬标签，对教师模型进行预设次数的迭代训练。

其中，各个训练样本作为教师模型的输入，硬标签作为训练教师模型的监督信号。

需要说明的是，本申请实施例中，将视频多模态模型与教师模型进行联合训练，所以教师模型并没有预先训练好，但是由于教师模型的输出结果需要作为软标签，进而作为监督信号，而对于刚构建的教师模型其输出结果是非常不准确的，所以需要进行初步的训练。因此，在本申请实施例中，先对教师模型进行预设次数的迭代训练后，在执行步骤S403进行联合训练。

具体的，步骤S402与步骤S302的主要区别仅在于，步骤S402是仅是进行预设次数的迭代训练，此时教师模型的损失函数未收敛，而步骤S302是不管迭代次数，需要训练直至教师模型的损失函数收敛。所以，两个步骤中一次迭代训练的过程是一样的，因此步骤S402中对教师模型的每次训练得到具体实施方式可相应地参考上述方法实施例中的步骤S302中一次迭代训练的实施过程，此处不再赘述。

S403、利用各个训练样本、各个训练样本对应的硬标签以及由进行预设次数迭代训练后的教师模型，计算得到的每个训练样本对应的软标签，对视频多模态模型进行设定次数的迭代训练。

其中，软标签用于表征对应的训练样本的属于各个视频标签的概率。所述硬标签和所述软标签作为训练所述视频多模态模型的监督信号，所以相应的，视频多模态模型的损失函数用于反映模型输出结果与训练所述视频多模态模型的两个所述监督信号的总偏差。并且，视频多模态模型与所述教师模型具有相同架构。

需要说明的是，步骤S403的具体实施方式同步骤S102的具体实施方式相一致，均是：分别将样本视频的标题和样本视频输入视频多模态模型和教师模型中，从而分别输出样本视频的多模态向量。更具体的，是将样本视频的标题输入模型中的文本特征提取器，得到标题对应的文本向量，而将样本视频输入模型中的视频帧特征提取器中，得到样本视频的各帧视频帧的特征向量，进而输入模型视频帧聚合模块中，得到样本视频对应的视频向量，最后通过连接层将标题对应的文本向量于样本视频对应的视频向量进行融合，得到样本视频的多模态向量。在两个模型都输出多模态向量后，将教师模型输出的多模态向量作为软标签输入分类器中，同时也将根据样本视频的视频标签生成的硬标签以及视频多模态模型输出的多模态向量输入分类器中计算偏差，并根据计算得到的偏差进行方向传播，更新视频多模态模型的参数。需要强调的是，本申请实施例中教师模型和视频多模态模型时联合训练的，所以在每一次迭代更新视频多模态的参数的同时，也相应的更新教师模型的参数。由于，两个模型具有相同较高，因此训练过程中在每次更新视频多模态模型的参数后，可以直接将更新后的各个参数直接替换教师模型中所对应的各个参数，即在两个模型进行联合训练时，两个模型的参数是共享的。

S404、判断在对视频多模态模型进行预设次数的迭代训练过程中，视频多模态模型对应的损失函数是否收敛。

需要说明的是，由于教师模型仅是进行了预设次数的迭代训练，所得到的结果不是精确，因此此时的教师模型用于对视频多模态模型进行训练，可能无法使得视频多模态模型对应的损失函数收敛，或者快速收敛，因此每次仅对视频多模态模型进行预设次数的迭代训练。然后再次对教师模型进行进一步训练后，再返回训练视频多模态模型，此时的教师模型用于对视频多模态模型进行训练，可能可以使得视频多模态模型对应的损失函数快速收敛，从而不需要先将教师模型训练完成，也能完成对视频多模态模型的训练，从而提高视频多模态模型的效率。

因此，若判断出视频多模态模型对应的损失函数均未收敛，则返回执行步骤S402。若在对视频多模态模型进行预设次数的迭代训练过程中，视频多模态模型对应的损失函数收敛，则执行步骤S405。

S405、结束对视频多模态模型的训练。

基于上述三个实施例中的任意一个实施例提供的方法，生成的视频多模态模型可以精确地得到视频的多模态向量，因此得到训练好后的视频多模态模型后，可以应用视频多模态进行视频处理。具体的，基于上述方法生成的视频多模态模型，本申请另一实施例提供了一种视频筛选方法，如图5所示，包括以下步骤：

S501、分别将视频库中的多个视频以及每个视频的标题输入视频多模态模型，通过视频多模态模型计算得到各个视频的多模态向量。

其中，视频多模态模型利用多个训练样本、各个训练样本对应的硬标签，以及由教师模型计算得到的每个训练样本对应的软标签进行训练得到。每个训练样本包括一个样本视频以及样本视频的标题。软标签用于表征对应的训练样本的属于各个视频标签的概率。硬标签和软标签为训练视频多模态模型的监督信号。视频多模态模型与教师模型具有相同架构。

可选地，本申请实施例中采用的视频多模态模型的生成过程，可相应地参考上述图1、图3、图4对应的实施例提供的方法的具体实施过程，此处不再赘述。

可选地，本申请另一实施例中，在执行步骤S501得到各个视频的多模态向量之后，还可以进一步包括如图6所示的步骤，具体包括：

S601、将目标广告图进行时序过采样，得到伪视频。

由于，视频多模态模型用于处理视频，而广告图属于图像不属于视频，但是视频是由多帧图像，所以可以将目标广告图进行时序过采样，得到伪视频。可以理解为将复制出多张目标广告图，然后将这些目标广告图作为视频帧，合成一个视频，即伪视频的每一帧图像都是该目标广告图。

S602、将目标广告图对应的广告文案以及伪视频输入视频多模态模型中，通过视频多模态模型计算得到各个视频的多模态向量。

S603、基于伪视频的多模态向量与各个视频的多模态向量，确定出与伪视频相匹配的各个视频。

具体的，可以是计算伪视频的多模态向量和各个视频的多模态向量距离，具体可以是欧氏距离、曼哈顿距离、切比雪夫距离、夹角余弦距离中的任意一种距离。若伪视频的多模态向量和某个视频的多模态向量距离小于预设阈值，则该视频确定为与伪视频相匹配的视频。当然，也可以基于伪视频的多模态向量与各个视频的多模态向量，通过聚类模型进行聚类，得到多个类簇，然后将与伪视频对应的样本点在同一类簇中的各个样本点对应的视频，确定为与伪视频相匹配的视频。

S604、将与目标广告图相匹配的各个视频和目标广告图，推送给客户端。

由于，在现有的需要场景下只能图片，如用户观看文章时，不能给用户更加直观的视觉感受，而因此视频的多模态向量与伪视频的多模态向量的距离相近，说明视频与目标广告图的内容相似，所以将与目标广告图相匹配的各个视频和目标广告图，推送给客户端，从而用户可以观看到相关的视频，进而提高用户的体验。

需要说明的是，图6对应的实施例，实现的筛选与广告图匹配的视频，而图5对应的实施例实现的筛选重复视频。所以，若只需要筛选与广告图匹配的视频，可以单独在执行步骤S501后，执行步骤S601～步骤S604。当然，若是同时需要筛选与广告图匹配的视频，以及筛选重复视频，则可以按照本申请实施例提供的方式执行。还需要说明的是，此时步骤S601～步骤S604，只需要在步骤S501执行即可，不限制必须在步骤S502或步骤S503之前或之后执行。

S502、基于各个视频的多模态向量，利用向量索引工具对各个视频进行检索，得到多组重复视频。

可选地，向量检索工具可以是向量索引工具faiss。通过现有的向量检索工具，检索出重复的视频，从而不需要开发相应的工具。当然，可以是通过执行开发的工具进行筛选，具体为：计算各个视频的多模态向量间的距离，同样具体可以是欧氏距离、曼哈顿距离、切比雪夫距离、夹角余弦距离中的任意一种。然后，由于视频的多模态向量间的距离越小，说明两个视频越相似，所以可以设置一个较小的预设值，当距离小于预设值则说明两个视频为重复视频。因此，将彼此间距离均小于预设值的各个视频，划分至同一组重复视频。

S503、分别针对每一组重复视频，确定出重复视频中的属于搬运号搬运的视频，并将各个搬运的视频进行打压。

需要说明的是，需要运营号的视频都是直接搬运其他运营号创造的视频，或者一个用户会将其原创视频，通过多个关联运营好进行搬运，仅仅是更改了视频的标题，而视频推送通常根据视频的标题进行推送，所以为了避免给用户推送重复的视频，需要将搬运的重复视频进行下架。因此，分别针对每一组重复视频，确定出原创的视频以及搬运号搬运的视频，将将搬运的视频进行打压，即进行下架，提高用户的体验。

例如，如图7所示的一组重复视频，第一个是原创号“影集放送”的原创视频，该视频的标题为“农村公婆第一次来儿子家，到家就给儿媳立规矩，怎料儿媳竟是刑警”；第二个是搬运号1“影视剪辑”搬运第一视频的重复视频，标题更改为“农村公婆第一次来儿子家，下秒就给儿媳立规矩，怎料儿媳是刑警”；第三个是搬运号2“追剧能手”搬运第一视频的重复视频，标题更改为“公婆给儿媳立规矩，不料儿媳是刑警大队大队长，结局贼逗”。可见，搬运号搬运的视频，仅是稍微修改了视频的标题，所以通过视频多模态模型计算出的视频的多模态向量，可以准确的确定出重复的视频，然后将搬运号搬运的视频进行下架，即需要将第二个和第三个视频进行下架。

本申请另一实施例提供了一种视频多模态模型的生成装置，如图8所示，包括以下单元：

获取单元801，用于获取多个训练样本以及每个训练样本对应的硬标签。

其中，每个训练样本包括一个样本视频以及样本视频的标题。

第一训练单元802，用于利用各个训练样本、各个训练样本对应的硬标签，以及由教师模型计算得到的每个训练样本对应的软标签，对视频多模态模型进行训练，直至视频多模态模型对应的损失函数收敛。

其中，软标签用于表征对应的训练样本的属于各个视频标签的概率；硬标签和软标签作为训练视频多模态模型的监督信号；视频多模态模型的损失函数用于反映模型输出结果与训练视频多模态模型的两个监督信号的总偏差；视频多模态模型与教师模型具有相同架构。

可选地，本申请另一实施例提供的视频多模态模型的生成装置中，还包括：

第二训练单元，用于在第一训练单元执行利用各个训练样本、各个训练样本对应的硬标签，以及由教师模型计算得到的每个训练样本对应的软标签，对视频多模态模型进行训练前，利用各个训练样本以及各个训练样本对应的硬标签，对教师模型进行训练，直至教师模型对应的损失函数收敛。

其中，各个训练样本作为教师模型的输入；硬标签作为训练教师模型的监督信号。

第三训练单元，用于在第一训练单元执行利用各个训练样本、各个训练样本对应的硬标签，以及由教师模型计算得到的每个训练样本对应的软标签，对视频多模态模型进行训练前，利用各个训练样本以及各个训练样本对应的硬标签，对教师模型进行预设次数的迭代训练。

在本申请实施例中的第一训练单元，包括：

第一训练子单元，用于利用各个训练样本、各个训练样本对应的硬标签以及由进行预设次数迭代训练后的教师模型，计算得到的每个训练样本对应的软标签，对视频多模态模型进行设定次数的迭代训练；其中，训练过程中在每次更新视频多模态模型的参数后，将更新后的参数替换教师模型中对应的参数。

返回单元，用于在若在对视频多模态模型进行预设次数的迭代训练过程中，视频多模态模型对应的损失函数均未收敛时，返回第三训练单元执行利用各个训练样本以及各个训练样本对应的硬标签，对教师模型进行预设次数的迭代训练。

结束单元，用于在对视频多模态模型进行预设次数的迭代训练过程中，视频多模态模型对应的损失函数收敛时，结束对视频多模态模型的训练。

本申请提供的一种视频多模态向量的生成装置，通过获取单元获取多个训练样本以及每个训练样本对应的硬标签，每个训练样本包括一个样本视频以及样本视频的标题实现了在训练视频多模态模型的过程中，然后由第一训练单元用于利用各个训练样本、各个训练样本对应的硬标签，以及由教师模型计算得到的每个训练样本对应的软标签，对视频多模态模型进行训练，直至视频多模态模型对应的损失函数收敛。由于，将硬标签和软标签作为训练视频多模态模型的监督信号，并且视频多模态模型的损失函数用于反映模型输出结果与训练视频多模态模型的两个监督信号的总偏差，因此在对视频多模态模型进行训练的过程，在考虑硬标签的基础上，还考虑了通过增加的教师模型输出的软标签，从而通过硬标签保留原有标注的视频标签的信息，并且由于软标签不存在漏标等情况，所以通过软标签保证能考虑到潜在遗漏的标签以一个相对高的概率出现在损失函数中，从而有效地降低了视频标注噪声的影响，提高了视频多模态模型的精度。

本申请另一实施例提供了一种视频筛选装置，如图9所示，包括以下单元：

第一计算单元901，用于分别将视频库中的多个视频以及每个视频的标题输入视频多模态模型，通过视频多模态模型计算得到各个视频的多模态向量。

其中，视频多模态模型利用多个训练样本、各个训练样本对应的硬标签，以及由教师模型计算得到的每个训练样本对应的软标签进行训练得到；每个训练样本包括一个样本视频以及样本视频的标题；软标签用于表征对应的训练样本的属于各个视频标签的概率；硬标签和软标签为训练视频多模态模型的监督信号；视频多模态模型与教师模型具有相同架构。

检索单元902，用于基于各个视频的多模态向量，利用向量索引工具对各个视频进行检索，得到多组重复视频。

打压单元903，用于分别针对每一组重复视频，确定出重复视频中的属于搬运号搬运的视频，并将各个搬运的视频进行打压。

可选地，本申请实施例提供的视频筛选装置，同样参见图9，还可以包括以下单元：

视频生成单元904，用于将目标广告图进行时序过采样，得到伪视频。

第二计算单元905，用于将目标广告图对应的广告文案以及伪视频输入视频多模态模型中，通过视频多模态模型计算得到各个视频的多模态向量。

确定单元906，用于基于伪视频的多模态向量与各个视频的多模态向量，确定出与伪视频相匹配的各个视频。

推送单元907，用于将与目标广告图相匹配的各个视频和目标广告图，推送给客户端。

需要说明的是，本申请上述实施例提供的各个单元的具体工作过程可相应地参考上述方法实施例中的相应的步骤，此处不再赘述。

本申请另一实施例提供了一种计算机存储介质，用于存储计算机程序，计算机程序被执行时，实现如上述任意一个实施例提供的视频多模态模型的生成方法或实现如上述任意一个实施例提供的视频筛选方法。

计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

本申请第四方面提供了一种电子设备，如图10所示，包括：

存储器1001和处理器1002。

其中，存储器1001用于存储程序。处理器1002用于执行存储器1001存储的程序，且该程序被执行时，具体用于实现如上述任意一个实施例提供的视频多模态模型的生成方法或实现如上述任意一个实施例提供的视频筛选方法。

本申请另一实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如上述任意一个实施例提供的视频多模态模型的生成方法或执行如上述任意一个实施例提供的视频筛选方法。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频多模态模型的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用各个所述训练样本、各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行训练之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述利用各个所述训练样本、所述各个所述训练样本对应的硬标签，以及由教师模型计算得到的每个所述训练样本对应的软标签，对所述视频多模态模型进行训练之前，还包括：

4.一种视频筛选方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述分别将视频库中的多个视频以及每个所述视频的标题输入所述视频多模态模型，通过所述视频多模态模型计算得到各个所述视频的多模态向量之后，还包括：

将目标广告图进行时序过采样，得到伪视频；

6.一种视频多模态模型的生成装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.一种视频筛选装置，其特征在于，包括：

9.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，用于实现如权利要求1至3任意一项所述的视频多模态模型的生成方法或实现如权利要求4至5任意一项所述的视频筛选方法。

10.一种电子设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如权利要求1至3任意一项所述的视频多模态模型的生成方法或实现如权利要求4至5任意一项所述的视频筛选方法。