CN116977700A

CN116977700A - 标签生成模型的训练方法、装置、设备、介质及程序产品

Info

Publication number: CN116977700A
Application number: CN202310478710.4A
Authority: CN
Inventors: 李明达
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-10-31

Abstract

本申请提供了一种标签生成模型的训练方法、装置、设备、介质及程序产品；方法包括：获取视频样本集合；将视频样本集合划分为第一子集合和第二子集合；针对不同的各标签内容，确定标签内容对应的视频帧样本的采样数量；基于确定的采样数量，从第二子集合中，分别选取各标签内容对应的视频帧样本作为补充视频帧样本；基于补充视频帧样本和第一子集合中的各视频帧样本，训练标签生成模型，标签生成模型，用于基于视频的多个视频帧生成视频帧的标签。通过本申请，能够有效提高所训练的标签生成模型的标签预测性能。

Description

标签生成模型的训练方法、装置、设备、介质及程序产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种标签生成模型的训练方法、装置、设备、介质及程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在相关技术中，对于标签生成模型的训练，通常是通过获取的多个视频帧样本直接对标签生成模型进行训练，由于多个视频帧样本分别所携带的标签内容不同，训练标签生成模型的视频帧样本的标签内容分布不均匀，容易产生标签长尾现象，导致所训练的标签生成模型的标签预测性能不高。

发明内容

本申请实施例提供一种标签生成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高所训练的标签生成模型的标签预测性能。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种标签生成模型的训练方法，包括：

获取视频样本集合，所述视频样本集合包括目标视频的多个视频帧样本，各所述视频帧样本分别携带至少一个样本标签，所述多个视频帧样本携带的样本标签对应不同的标签内容；

将所述视频样本集合划分为第一子集合和第二子集合，其中，所述第一子集合中的视频帧样本对应的播放时间点，晚于所述第二子集合中的视频帧样本对应的播放时间点；

针对不同的各所述标签内容，确定所述标签内容对应的视频帧样本的采样数量，所述采样数量与参考视频帧样本的数量负相关，所述参考视频帧样本为，所述第一子集合中具有相应所述标签内容的视频帧样本；

基于确定的所述采样数量，从所述第二子集合中，分别选取各所述标签内容对应的视频帧样本作为补充视频帧样本；

基于所述补充视频帧样本和所述第一子集合中的各视频帧样本，训练所述标签生成模型，所述标签生成模型，用于基于视频的多个视频帧生成所述视频帧的标签。

本申请实施例提供一种标签生成模型的训练装置，包括：

获取模块，用于获取视频样本集合，所述视频样本集合包括目标视频的多个视频帧样本，各所述视频帧样本分别携带至少一个样本标签，所述多个视频帧样本携带的样本标签对应不同的标签内容；

划分模块，用于将所述视频样本集合划分为第一子集合和第二子集合，其中，所述第一子集合中的视频帧样本对应的播放时间点，晚于所述第二子集合中的视频帧样本对应的播放时间点；

数量确定模块，用于针对不同的各所述标签内容，确定所述标签内容对应的视频帧样本的采样数量，所述采样数量与参考视频帧样本的数量负相关，所述参考视频帧样本为，所述第一子集合中具有相应所述标签内容的视频帧样本；

选取模块，用于基于确定的所述采样数量，从所述第二子集合中，分别选取各所述标签内容对应的视频帧样本作为补充视频帧样本；

训练模块，用于基于所述补充视频帧样本和所述第一子集合中的各视频帧样本，训练所述标签生成模型，所述标签生成模型，用于基于视频的多个视频帧生成所述视频帧的标签。

上述方案中，上述划分模块，还用于获取所述视频样本集合中的各所述视频帧样本分别对应的播放时间点；将所述视频样本集合中播放时间点晚于时间点阈值的视频帧样本，确定为第一视频帧样本，将所述视频样本集合中播放时间点早于时间点阈值的视频帧样本，确定为第二视频帧样本；将各所述第一视频帧样本构成的集合，确定为所述第一子集合，并将各所述第二视频帧样本构成的集合，确定为所述第二子集合。

上述方案中，上述数量确定模块，还用于针对不同的各所述标签内容分别执行以下处理：将所述标签内容确定为目标标签内容，并获取所述第一子集合中所述目标标签内容对应的所述参考视频帧样本的数量；获取所述第二子集合中所述目标标签内容对应的至少一个目标视频帧样本，并确定所述目标视频帧样本的数量，基于所述目标视频帧样本的数量，确定参考参数的值；当所述参考参数的值大于或等于1时，将所述参考视频帧样本的数量和所述参考参数的值的比值，确定为所述目标标签内容对应的视频帧样本的采样数量；当所述参考参数的值小于1时，将所述参考视频帧样本的数量和所述参考参数的值的乘积，确定为所述目标标签内容对应的视频帧样本的采样数量。

上述方案中，上述数量确定模块，还用于统计各所述目标视频帧样本对应的其他标签内容，所述其他标签内容和所述目标标签内容为，同一所述目标视频帧样本携带的不同样本标签的标签内容；基于所述目标视频帧样本的数量，确定各所述其他标签内容的条件概率；将各所述条件概率的加和，确定为所述参考参数的值。

上述方案中，上述数量确定模块，还用于针对各所述其他标签内容分别执行以下处理：在所述目标视频帧样本中，统计其他视频帧样本的数量，所述其他视频帧样本为，携带所述其他标签内容对应的样本标签和所述目标标签内容对应的样本标签的目标视频帧样本；将所述其他视频帧样本的数量和所述目标视频帧样本的数量之间的比值，确定为所述其他标签内容的条件概率。

上述方案中，上述选取模块，还用于针对不同的各所述标签内容分别执行以下处理：将所述第二子集合中所述标签内容对应的各视频帧样本，确定为候选视频帧样本；确定各所述候选视频帧样本的参考参数的值，并按照所述参考参数的值从高至低的顺序，依次选取相应的所述采样数量的候选视频帧样本，作为所述补充视频帧样本。

上述方案中，上述选取模块，还用于针对各所述候选视频帧样本分别执行以下处理：获取所述候选视频帧样本具有的各所述标签内容的参考参数的值；将各所述标签内容的参考参数的值的乘积，确定为所述候选视频帧样本的参考参数的值。

上述方案中，上述训练模块，还用于调用所述标签生成模型，对所述补充视频帧样本进行标签预测，得到所述补充视频帧样本的第一预测概率，所述第一预测概率，用于指示所述补充视频帧样本的预测标签为相应的所述样本标签的概率；基于所述第一预测概率，确定所述标签生成模型的第一损失值；调用所述标签生成模型，对所述第一子集合中的各视频帧样本分别进行标签预测，得到各所述视频帧样本的第二预测概率，所述第二预测概率，用于指示所述视频帧样本的预测标签为相应的所述样本标签的概率；基于各所述第二预测概率，确定各所述第二预测概率对应的第二损失值；将所述第一损失值和各所述第二损失值进行加权求和，得到求和损失值，基于所述求和损失值，更新所述标签生成模型的模型参数。

上述方案中，上述训练模块，还用于确定所述第一预测概率的对数值，以及所述第一预测概率与1之间的差值；将所述对数值和所述差值的N次方的加和，确定为第三损失值，所述N为大于或等于1的正整数；基于所述第一预测概率，确定目标预测概率，所述目标预测概率，用于确定所述标签生成模型的损失值；确定所述目标预测概率与1之间的目标差值，并将所述目标差值的对数值，与所述目标预测概率的N次方的差值，确定为第四损失值；将所述第三损失值和所述第四损失值进行加权求和，得到所述第一损失值。

上述方案中，上述训练模块，还用于获取介于0至1之间的第一比较参数值和第二比较参数值，所述第一比较参数值大于所述第二比较参数值；将所述第一预测概率减去所述第一比较参数值，得到第一相减结果，将所述第一相减结果与0之间的最大值，确定为第一候选概率，并确定所述第一候选概率与所述第二比较参数值之间的第二差值；将所述第一候选概率减去所述第二比较参数值，得到第二相减结果，将所述第二相减结果与0之间的最大值，确定为第二候选概率；将所述第一候选概率和所述第二候选概率相乘，得到乘积结果；将所述乘积结果与所述第二差值的比值，确定为所述目标预测概率。

上述方案中，上述训练模块，还用于针对各所述第二预测概率分别执行以下处理：确定所述第二预测概率的对数值，以及所述第二预测概率与1之间的差值；将所述第二预测概率的对数值和所述差值的M次方的乘积，确定为第五损失值，其中，M为大于或等于1的正整数；将所述差值的对数值和所述第二预测概率的M次方的乘积，确定为第六损失值；将所述第五损失值和所述第六损失值进行加权求和，得到所述第二损失值。

本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现本申请实施例提供的标签生成模型的训练方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于引起处理器执行时，实现本申请实施例提供的标签生成模型的训练方法。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的标签生成模型的训练方法。

本申请实施例具有以下有益效果：

通过将视频样本集合划分为第一子集合和第二子集合，从第二子集合中，分别选取各标签内容对应的采样数量的视频帧样本，作为补充视频帧样本，由于采样数量与第一子集合中具有相应所述标签内容的视频帧样本的数量负相关，从而使得采样数量的补充视频帧样本对第一子集合中的各标签内容进行了有效均衡，能够对第一子集合中具有相应标签内容的视频帧样本形成有效补充，使得训练标签生成模型的视频帧样本的标签均衡度更高。通过具有较高标签均衡度的补充视频帧样本和第一子集合中的各视频帧样本，训练标签生成模型，从而使得训练后的标签生成模型能够充分利用各标签内容，有效提升标签生成模型的标签预测性能。

附图说明

图1是本申请实施例提供的用于训练标签生成模型的系统的架构示意图；

图2是本申请实施例提供的用于训练标签生成模型的电子设备的结构示意图；

图3至图7是本申请实施例提供的标签生成模型的训练方法的流程示意图；

图8是本申请实施例提供的基尼系数的原理示意图；

图9是本申请实施例提供的标签生成模型的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

2)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feed forward Neural Networks)，是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力，能够按其阶层结构对输入图像进行平移不变分类(Shift-InvariantClassification)。

3)卷积层：卷积神经网络中每层卷积层(Convolutional Layer)由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。

4)池化层：在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制。

5)全连接层(Fully-Connected Layer)：卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。特征图在全连接层中会失去空间拓扑结构，被展开为向量并通过激励函数。

在本申请实施例的实施过程中，申请人发现相关技术存在以下问题：

在相关技术中，对于标签生成模型的训练，通常是通过获取的多个视频帧样本直接对标签生成模型进行训练，由于多个视频帧样本分别所携带的标签内容不同，导致训练标签生成模型的视频帧样本的标签内容分布不均匀，容易产生标签长尾现象，导致所训练的标签生成模型的标签预测性能不高。

参见下表1，下表1是相关技术中训练后的标签生成模型和本申请实施例训练后的标签生成模型的性能对比表，参见下表1，本申请实施例提供的标签生成模型的训练方法能够有效提高所训练的标签生成模型的标签预测性能。

表1相关技术和本申请实施例训练后的标签生成模型的性能对比表

本申请实施例提供一种标签生成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效提高所训练的标签生成模型的标签预测性能，下面说明本申请实施例提供的标签生成模型的训练系统的示例性应用。

参见图1，图1是本申请实施例提供的用于训练标签生成模型的系统100的架构示意图，终端(示例性示出了终端400)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于供用户使用客户端410，在图形界面410-1(示例性示出了图形界面410-1)显示视频帧的标签。终端400和服务器200通过有线或者无线网络相互连接。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端、虚拟现实设备等，但并不局限于此。本申请实施例提供的电子设备可以实施为终端，也可以实施为服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，终端400获取视频样本集合，并将视频样本集合发送至服务器200，服务器200将视频样本集合划分为第一子集合和第二子集合，针对不同的各标签内容，确定标签内容对应的视频帧样本的采样数量，基于确定的采样数量，从第二子集合中，分别选取各标签内容对应的视频帧样本作为补充视频帧样本，基于补充视频帧样本和第一子集合中的各视频帧样本，训练标签生成模型。

在另一些实施例中，服务器200获取视频样本集合，并将视频样本集合发送至终端400，终端400将视频样本集合划分为第一子集合和第二子集合，针对不同的各标签内容，确定标签内容对应的视频帧样本的采样数量，基于确定的采样数量，从第二子集合中，分别选取各标签内容对应的视频帧样本作为补充视频帧样本，基于补充视频帧样本和第一子集合中的各视频帧样本，训练标签生成模型。

在另一些实施例中，本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

参见图2，图2是本申请实施例提供的用于训练标签生成模型的电子设备500的结构示意图，其中，图2所示出的电子设备500可以是图1中的服务器200或者终端400，图2所示的电子设备500包括：至少一个处理器410、存储器450、至少一个网络接口420。电子设备500中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi，Wireless Fidelity)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的标签生成模型的训练装置可以采用软件方式实现，图2示出了存储在存储器450中的标签生成模型的训练装置455，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块4551、划分模块4552、数量确定模块4553、选取模块4554、训练模块4555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的标签生成模型的训练装置可以采用硬件方式实现，作为示例，本申请实施例提供的标签生成模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的标签生成模型的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序或计算机可执行指令来实现本申请实施例提供的标签生成模型的训练方法。举例来说，计算机程序可以是操作系统中的原生程序(例如，专用的训练程序)或软件模块，例如，可以嵌入到任意程序(如即时通信客户端、相册程序、电子地图客户端、导航客户端)中的训练模块；例如可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

将结合本申请实施例提供的服务器或终端的示例性应用和实施，说明本申请实施例提供的标签生成模型的训练方法。

参见图3，图3是本申请实施例提供的标签生成模型的训练方法的流程示意图，将结合图3示出的步骤101至步骤105进行说明，本申请实施例提供的标签生成模型的训练方法可以由服务器或终端单独实施，或者由服务器及终端协同实施，下面将以服务器单独实施为例进行说明。

在步骤101中，获取视频样本集合。

在一些实施例中，视频样本集合包括目标视频的多个视频帧样本，各视频帧样本分别携带至少一个样本标签，多个视频帧样本携带的样本标签对应不同的标签内容。

在一些实施例中，目标视频可以是各种类型的视频文件，例如，目标视频可以是游戏视频、网页视频等各种类型的视频。视频帧样本包括视频帧以及视频帧所携带的样本标签。

作为示例，视频样本集合包括目标视频的视频帧样本A、视频帧样本B以及视频帧样本C，其中，视频帧样本A携带样本标签A1和样本标签B1，视频帧样本B携带样本标签B1和样本标签B2，视频帧样本C携带样本标签A1、样本标签B2、样本标签C1和样本标签C2。视频帧样本A携带的样本标签A1和样本标签B1对应不同的标签内容，视频帧样本B携带的样本标签B1和样本标签B2对应不同的标签内容。

可以理解的是，视频样本集合中视频帧样本的数量与标签生成模型的训练效果正相关，视频样本集合中视频帧样本的数量越大，标签生成模型的训练效果越好。

如此，通过获取多个视频帧样本，便于后续进一步对视频帧样本进行筛选，得到用于训练标签生成模型的样本，从而有效提高了标签生成模型的预测准确性。

在步骤102中，将视频样本集合划分为第一子集合和第二子集合。

在一些实施例中，第一子集合中的视频帧样本对应的播放时间点，晚于第二子集合中的视频帧样本对应的播放时间点。

在一些实施例中，第一子集合和第二子集合均是视频样本集合的子集，第一子集合和第二子集合中的视频帧样本的数量为至少一个。

作为示例，视频样本集合包括目标视频的视频帧样本A、视频帧样本B以及视频帧样本C，其中，视频帧样本A的播放时间最早，视频帧样本B的播放时间早于视频帧样本C。第一子集合可以包括视频帧样本B和视频帧样本C，第二子集合可以包括视频帧样本A。

在一些实施例中，参见图4，图4是本申请实施例提供的标签生成模型的训练方法的流程示意图，图3所示出的步骤103可以通过执行图4所示出的步骤1021至步骤1023实现。

在步骤1021中，获取视频样本集合中的各视频帧样本分别对应的播放时间点。

作为示例，视频样本集合包括目标视频的视频帧样本A、视频帧样本B以及视频帧样本C，获取视频帧样本A对应的播放时间3分10秒，视频帧样本B对应的播放时间3分12秒，视频帧样本C对应的播放时间3分15秒。

在步骤1022中，将视频样本集合中播放时间点晚于时间点阈值的视频帧样本，确定为第一视频帧样本，将视频样本集合中播放时间点早于时间点阈值的视频帧样本，确定为第二视频帧样本。

在一些实施例中，时间点阈值可以根据实际情况而具体设定，时间点阈值大于目标视频的播放时间点最早的视频帧样本的播放时间点，小于或等于目标视频的播放时间点最晚的视频帧样本的播放时间点。

作为示例，当目标视频的时间点阈值设置为3分3秒时，将视频样本集合中播放时间点晚于时间点阈值(3分3秒)的视频帧样本(视频帧样本B和视频帧样本C)，确定为第一视频帧样本，将视频样本集合中播放时间点早于时间点阈值(3分3秒)的视频帧样本，确定为第二视频帧样本(视频帧样本A)。

在步骤1023中，将各第一视频帧样本构成的集合，确定为第一子集合，并将各第二视频帧样本构成的集合，确定为第二子集合。

承接上例，将视频帧样本B和视频帧样本C构成的集合，确定为第一子集合，并将视频帧样本A构成的集合，确定为第二子集合。

如此，通过将视频样本集合划分为第一子集合和第二子集合，便于后续针对第一子集合和第二子集合，区别性选取相应的视频帧样本对标签生成模型进行训练。

在步骤103中，针对不同的各标签内容，确定标签内容对应的视频帧样本的采样数量。

在一些实施例中，采样数量与参考视频帧样本的数量负相关，参考视频帧样本为，第一子集合中具有相应标签内容的视频帧样本。

作为示例，针对样本标签A1的标签内容A1，第一子集合包括视频帧样本C和视频帧样本B，其中，视频帧样本B携带样本标签B1和样本标签B2，视频帧样本C携带样本标签A1、样本标签B2、样本标签C1和样本标签C2，视频帧样本C为第一子集合中具有标签内容A1的视频帧样本，那么，参考视频帧样本为视频帧样本C，标签内容A1对应的视频帧样本的采样数量与参考视频帧样本的采样数量负相关。

在一些实施例中，参见图5，图5是本申请实施例提供的标签生成模型的训练方法的流程示意图，图3所示出的步骤103可以针对不同的各标签内容分别执行图5所示出的步骤1031至步骤1035实现。

在步骤1031中，将标签内容确定为目标标签内容，并获取第一子集合中目标标签内容对应的参考视频帧样本的数量。

在一些实施例中，标签内容对应的参考视频帧样本为，第一子集合中具有相应标签内容的视频帧样本。

作为示例，当目标标签内容为标签内容B1时，将第一子集合中具有标签内容B1的视频帧样本，确定为参考视频帧样本，并统计所确定的参考视频帧样本的数量。

作为示例，当目标标签内容为标签内容C2时，将第一子集合中具有标签内容C2的视频帧样本，确定为参考视频帧样本，并统计所确定的参考视频帧样本的数量。

在步骤1032中，获取第二子集合中目标标签内容对应的至少一个目标视频帧样本，并确定目标视频帧样本的数量。

作为示例，当第二子集合包括目标视频的视频帧样本A、视频帧样本B以及视频帧样本C时，视频帧样本A携带样本标签A1和样本标签B1，视频帧样本B携带样本标签B1和样本标签B2，视频帧样本C携带样本标签A1、样本标签B2、样本标签C1和样本标签C2时，当目标标签内容为标签内容C2时，第二子集合中目标标签内容对应的至少一个目标视频帧样本可以是视频帧样本C，目标视频帧样本的数量为1。

作为示例，当第二子集合包括目标视频的视频帧样本A、视频帧样本B以及视频帧样本C时，视频帧样本A携带样本标签A1和样本标签B1，视频帧样本B携带样本标签B1和样本标签B2，视频帧样本C携带样本标签A1、样本标签B2、样本标签C1和样本标签C2时，当目标标签内容为标签内容A1时，第二子集合中目标标签内容对应的至少一个目标视频帧样本可以是视频帧样本A和视频帧样本C，目标视频帧样本的数量为2。

在步骤1033中，基于目标视频帧样本的数量，确定参考参数的值。

在一些实施例中，参考参数的值，用于确定目标标签内容对应的视频帧样本的采样数量。

在一些实施例中，上述步骤1033可以通过如下方式实现：统计各目标视频帧样本对应的其他标签内容；基于目标视频帧样本的数量，确定各其他标签内容的条件概率；将各条件概率的加和，确定为参考参数的值。

在一些实施例中，其他标签内容和目标标签内容为，同一目标视频帧样本携带的不同样本标签的标签内容。

作为示例，当目标视频帧样本为视频帧样本A时，视频帧样本A携带样本标签A1和样本标签B1，当目标标签内容为标签内容A1时，其他标签内容为标签内容B1。

作为示例，当目标视频帧样本为视频帧样本C时，视频帧样本C携带样本标签A1、样本标签B2、样本标签C1和样本标签C2，当目标标签内容为标签内容A1时，其他标签内容可以为标签内容B2、标签内容C1和标签内容C2。

在一些实施例中，上述基于目标视频帧样本的数量，确定各其他标签内容的条件概率，可以针对各其他标签内容分别执行以下处理实现：在目标视频帧样本中，统计其他视频帧样本的数量；将其他视频帧样本的数量和目标视频帧样本的数量之间的比值，确定为其他标签内容的条件概率。

在一些实施例中，其他视频帧样本为，携带其他标签内容对应的样本标签和目标标签内容对应的样本标签的目标视频帧样本。

在一些实施例中，其他视频帧样本的数量小于或等于目标视频帧样本的数量。

作为示例，当其他标签内容为标签内容B2时，目标标签内容为标签内容A1，视频帧样本A和视频帧样本C为目标视频帧样本，视频帧样本A携带样本标签A1和样本标签B1，视频帧样本C携带样本标签A1、样本标签B2、样本标签C1和样本标签C2，那么，其他视频帧样本为，携带其他标签内容B2对应的样本标签B2和目标标签内容A1对应的样本标签A1的目标视频帧样本(视频帧样本C)。

作为示例，上述其他标签内容的条件概率的表达式可以为：

其中，P(i|j)用于指示其他标签内容的条件概率，n₁用于指示其他视频帧样本的数量，n₂用于指示目标视频帧样本的数量。

作为示例，上述参考参数的值的表达式可以为：

其中，P_i用于指示参考参数的值，P(i|j)用于指示其他标签内容j的条件概率，N用于指示其他标签内容的总数量。

在步骤1034中，当参考参数的值大于或等于1时，将参考视频帧样本的数量和参考参数的值的比值，确定为目标标签内容对应的视频帧样本的采样数量。

作为示例，当参考参数的值大于或等于1时，目标标签内容对应的视频帧样本的采样数量的表达式可以为：

其中，N₁用于指示目标标签内容对应的视频帧样本的采样数量，n₃用于指示参考视频帧样本的数量，P_i用于指示参考参数的值。

在步骤1035中，当参考参数的值小于1时，将参考视频帧样本的数量和参考参数的值的乘积，确定为目标标签内容对应的视频帧样本的采样数量。

作为示例，当参考参数的值小于1时，目标标签内容对应的视频帧样本的采样数量的表达式可以为：

N₂＝n₃P_i (4)

其中，N₂用于指示目标标签内容对应的视频帧样本的采样数量，n₃用于指示参考视频帧样本的数量，P_i用于指示参考参数的值。

如此，通过针对不同的各标签内容，确定标签内容对应的视频帧样本的采样数量，由于所确定的采样数量与采样数量与第一子集合中具有相应标签内容的视频帧样本的数量负相关，使得第二子集合中采样数量的补充视频帧样本，能够对第一子集合中具有相应标签内容的视频帧样本形成有利补充，使得训练标签生成模型的视频帧样本的标签均衡度更高。

在步骤104中，基于确定的采样数量，从第二子集合中，分别选取各标签内容对应的视频帧样本作为补充视频帧样本。

在一些实施例中，上述步骤104可以通过如下方式实现：从第二子集合中，分别选取各标签内容对应的相应采样数量的视频帧样本，作为补充视频帧样本。

在一些实施例中，参见图6，图6是本申请实施例提供的标签生成模型的训练方法的流程示意图，图3所示出的步骤104可以针对不同的各标签内容分别执行图6所示出的步骤1041至步骤1043实现。

在步骤1041中，将第二子集合中标签内容对应的各视频帧样本，确定为候选视频帧样本。

作为示例，当第二子集合包括目标视频的视频帧样本A、视频帧样本B以及视频帧样本C时，视频帧样本A携带样本标签A1和样本标签B1，视频帧样本B携带样本标签B1和样本标签B2，视频帧样本C携带样本标签A1、样本标签B2、样本标签C1和样本标签C2时，针对标签内容A1，将第二子集合中标签内容A1对应的各视频帧样本(视频帧样本A和视频帧样本C)，确定为候选视频帧样本。

在步骤1042中，确定各候选视频帧样本的参考参数的值。

在一些实施例中，上述步骤1042可以通过如下方式实现：针对各候选视频帧样本分别执行以下处理：获取候选视频帧样本具有的各标签内容的参考参数的值；将各标签内容的参考参数的值的乘积，确定为候选视频帧样本的参考参数的值。

作为示例，候选视频帧样本的参考参数的值的表达式可以为：

其中，P_x用于指示候选视频帧样本的参考参数，p_i用于指示各标签内容的参考参数的值。

在步骤1043中，按照参考参数的值从高至低的顺序，依次选取相应的采样数量的候选视频帧样本，作为补充视频帧样本。

作为示例，候选视频帧样本A的参考参数的值为10，候选视频帧样本B的参考参数的值为15，候选视频帧样本C的参考参数的值为20，按照参考参数的值从高至低的顺序，依次从候选视频帧样本C、候选视频帧样本B以及候选视频帧样本A中，依次选取相应的采样数量的候选视频帧样本，作为补充视频帧样本。

如此，通过从第二子集合中，分别选取各标签内容对应的相应采样数量的视频帧样本，作为补充视频帧样本，使得第二子集合中采样数量的补充视频帧样本，能够对第一子集合中具有相应标签内容的视频帧样本形成有利补充，使得训练标签生成模型的视频帧样本的标签均衡度更高，有效避免标签长尾问题的发生。

在步骤105中，基于补充视频帧样本和第一子集合中的各视频帧样本，训练标签生成模型。

在一些实施例中，标签生成模型，用于基于视频的多个视频帧生成视频帧的标签。

在一些实施例中，补充视频帧样本能够对第一子集合中的各视频帧样本进行有效补充，使得用于训练标签生成模型的补充视频帧样本和第一子集合中的各视频帧样本的样本标签的各不同标签内容更加均衡，训练标签生成模型的效果更佳，有效提高了标签生成模型的训练效果，使得训练后的标签生成模型的预测准确性更好。

在一些实施例中，参见图7，图7是本申请实施例提供的标签生成模型的训练方法的流程示意图，图3所示出的步骤105可以针对不同的各标签内容分别执行图7所示出的步骤1051至步骤1055实现。

在步骤1051中，调用标签生成模型，对补充视频帧样本进行标签预测，得到补充视频帧样本的第一预测概率。

在一些实施例中，第一预测概率，用于指示补充视频帧样本的预测标签为相应的样本标签的概率。

在一些实施例中，上述步骤1051可以通过如下方式实现：调用标签生成模型，对补充视频帧样本进行标签预测，得到补充视频帧样本对应各样本标签的预测概率；将补充视频帧样本对应的样本标签对应的预测概率，确定为补充视频帧样本的第一预测概率。

在步骤1052中，基于第一预测概率，确定标签生成模型的第一损失值。

在一些实施例中，上述步骤1052可以通过如下方式实现：确定第一预测概率的对数值，以及第一预测概率与1之间的差值；将对数值和差值的N次方的加和，确定为第三损失值，N为大于或等于1的正整数；基于第一预测概率，确定目标预测概率，目标预测概率，用于确定标签生成模型的损失值；确定目标预测概率与1之间的目标差值，并将目标差值的对数值，与目标预测概率的N次方的差值，确定为第四损失值；将第三损失值和第四损失值进行加权求和，得到第一损失值。

作为示例，第三损失值的表达式可以为：

L₃＝log(P₁)+(1-P₁)^N (6)

其中，L₃用于指示第三损失值，P₁用于指示第一预测概率，log(P₁)用于指示第一预测概率的对数值。

作为示例，第四损失值的表达式可以为：

L₄＝(P_t)^N-log(1-P_t) (7)

其中，L₄用于指示第四损失值，P_t用于指示目标预测概率，log(1-P_t)用于指示目标预测概率与1之间的目标差值。

作为示例，第一损失值的表达式可以为：

L₁＝α₁L₃+α₂L₄ (8)

其中，L₁用于指示第一损失值，L₄用于指示第四损失值，L₃用于指示第三损失值，α₁用于指示第三损失值对应的加权系数，α₂用于指示第四损失值对应的加权系数。

在一些实施例中，上述基于第一预测概率，确定目标预测概率，可以通过如下方式实现：获取介于0至1之间的第一比较参数值和第二比较参数值，第一比较参数值大于第二比较参数值；将第一预测概率减去第一比较参数值，得到第一相减结果，将第一相减结果与0之间的最大值，确定为第一候选概率，并确定第一候选概率与第二比较参数值之间的第二差值；将第一候选概率减去第二比较参数值，得到第二相减结果，将第二相减结果与0之间的最大值，确定为第二候选概率；将第一候选概率和第二候选概率相乘，得到乘积结果；将乘积结果与第二差值的比值，确定为目标预测概率。

在一些实施例中，上述第一比较参数值和第二比较参数值的具体取值大小，可以根据实际情况而具体设定，不构成对本申请实施例的限定。

作为示例，第一候选概率的表达式可以为：

P_m＝max(P₁-m，0) (9)

其中，P_m用于指示第一候选概率，P₁用于指示第一预测概率，m用于指示第一比较参数值。

作为示例，第二候选概率的表达式可以为：

P_n＝min(P_m-n，0) (10)

其中，P_n用于指示第二候选概率，P_m用于指示第一候选概率，n用于指示第二比较参数值。

作为示例，目标预测概率的表达式可以为：

其中，P_t用于指示目标预测概率，P_n用于指示第二候选概率，P_m用于指示第一候选概率，n用于指示第二比较参数值。

在步骤1053中，调用标签生成模型，对第一子集合中的各视频帧样本分别进行标签预测，得到各视频帧样本的第二预测概率。

在一些实施例中，第二预测概率，用于指示视频帧样本的预测标签为相应的样本标签的概率。

在步骤1054中，基于各第二预测概率，确定各第二预测概率对应的第二损失值。

在一些实施例中，上述步骤1054可以通过如下方式实现：针对各第二预测概率分别执行以下处理：确定第二预测概率的对数值，以及第二预测概率与1之间的差值；将第二预测概率的对数值和差值的M次方的乘积，确定为第五损失值；将差值的对数值和第二预测概率的M次方的乘积，确定为第六损失值；将第五损失值和第六损失值进行加权求和，得到第二损失值。

在一些实施例中，M为大于或等于1的正整数。

作为示例，第五损失值的表达式可以为：

M

L₅＝log(P₂)+(1-P₂) (12)

其中，L₅用于指示第五损失值，P₂用于指示第二预测概率，log(P₂)用于指示第二预测概率的对数值，(1-P₂)^M用于指示第二预测概率与1之间的差值的M次方。

作为示例，第六损失值的表达式可以为：

M

L₆＝(P₂) -log(1-P₂) (13)

其中，L₆用于指示第六损失值，P₂用于指示第二预测概率。

作为示例，第二损失值的表达式可以为：

L₂＝α₃L₅+α₄L₆ (14)

其中，L₂用于指示第二损失值，L₅用于指示第五损失值，L₆用于指示第三损失值，α₃用于指示第五损失值对应的加权系数，α₄用于指示第六损失值对应的加权系数。

在步骤1055中，将第一损失值和各第二损失值进行加权求和，得到求和损失值，基于求和损失值，更新标签生成模型的模型参数。

作为示例，求和损失值的表达式可以为：

其中，L用于指示求和损失值，α₅用于指示第一损失值对应的加权系数，L₁用于指示第一损失值，α₆用于指示第二损失值对应的加权系数，L_2i用于指示各第二损失值，T用于指示第二损失值的总数量。

在一些实施例中，参见图9，图9是本申请实施例提供的标签生成模型的结构示意图，通过本申请实施例提供的标签生成模型的训练方法训练得到的目标标签生成模型包括基础特征提取层、多模态融合层和标签适配层，调用基础特征提取层，对待预测视频的视频帧的文本信息、视觉信息和音频信息进行特征提取，得到文本特征、视觉特征和音频特征，调用多模态融合层，对文本特征、视觉特征和音频特征进行融合，得到融合特征；调用标签适配层，基于融合特征，对视频帧的标签进行预测，得到视频帧的预测标签。

如此，通过将视频样本集合划分为第一子集合和第二子集合，从第二子集合中，分别选取各标签内容对应的采样数量的视频帧样本，作为补充视频帧样本，由于采样数量与第一子集合中具有相应所述标签内容的视频帧样本的数量负相关，从而使得采样数量的补充视频帧样本对第一子集合中的各标签内容进行了有效均衡，能够对第一子集合中具有相应标签内容的视频帧样本形成有效补充，使得训练标签生成模型的视频帧样本的标签均衡度更高。通过具有较高标签均衡度的补充视频帧样本和第一子集合中的各视频帧样本，训练标签生成模型，从而使得训练后的标签生成模型能够充分利用各标签内容，有效提升标签生成模型的标签预测性能。

下面，将说明本申请实施例在一个实际的标签生成的应用场景中的示例性应用。

在标签生成的应用场景中，假设当前有一万个样本的训练集，训练集中每个样本数量都很均衡，假设有5类，每一类就有2000张样本。现在添加一类识别，可是只有几百张，如果将新类别的几百张样本加入一万张训练集里面，会不会对原有的类别有影响，或者是会影响新类别的识别。这个问题就是长尾问题。在传统的的训练任务中，训练数据的分布往往都收到了人工的均衡，即不同类别的样本数量无明显差异。一个均衡的训练样本有很多好处，不仅可以简化了对算法鲁棒性的要求，也一定程度上保障了所得模型的可靠性。但是随着样本中的类别增强，维持各个类别之间均衡就将带来指数增长的采集成本。那如果不刻意地对样本进行人工均衡干预，那么这些数据类别的分布往往会分布不均。如果直接利用长尾数据来训练的机器学习模型，往往会对头部数据过拟合，从而在预测时忽略尾部的标签。

本申请实施例可以有效处理视频多标签长尾问题，首先从数据层面上，本申请实施例在充分考虑标签与样本的双重重要性后进行量化采样，有效缓解了多标签采样时的不均衡问题，并创新性引入基尼系数作为衡量采样效果的评价指标。其次，从损失函数上，本申请实施例对ASL函数进行了适配和改进，更贴合实际业务场景。结果表明，本申请实施例可以有效的提升长尾部分标签的准确率和召回率。在数据获取中，本申请实施例会获取到视频的帧信息，视频的标题信息，以及人工的多标签标注信息。数据，例如视频短视频帧信息、标题信息、标注结果。

本申请实施例将数据获取分成两个阶段。第一个阶段为固定采样阶段。第二个阶段为补充采样阶段。两个阶段采样数量一致。第一个阶段：固定采样流程如下：根据发文时间将数据，例如短视频帧信息、标题信息、标注结果进行排序，排序后的M条数据。从M条数据中，采样最近发文的N条数据，其中，M>N，获取视频的帧信息、标题信息以及人工的多标签标注结果。统计固定采样所获得的N条数据中，每个标签的样本数据量，一个样本会对应多个标签一个标签会对应多个样本。第二个阶段：补充采样流程如下：从M-N条数据中，补充采样P条，P条数据作为对N条数据的补充。计算每个标签在固定采样后剩余数据中的出现概率和采样数量，出现概率和采样数量的公式如公式16和公式17所示。统计每个标签在固定采样后剩余数据中所对应的样本，并对每个样本计算属于该标签的出现概率，出现概率的计算公式如公式18所示。对每个标签的所有样本按出现概率的大小，升序排列。将固定采样获取的标签按照样本量升序排序，依次采样每个标签。标签采样时先根据步骤1获取该标签的采样数量n。然后根据步骤2获取该标签对应的样本排序。从序列中优先采样前n个数据。其中，标签的出现概率为共现标签条件概率的和，公式如下，其中N为标签数，n_j为j标签样本数，n_i∩j为标签集合j共现样本数。

作为示例，样本A具有标签A1和标签A2，那么标签A1和标签A2共同在样本A中出现，标签A1和标签A2互为共现标签；样本B具有标签A1和标签B1，标签A1和标签B1互为共现标签；那么，针对标签A1而言，标签A1的共现标签为标签A2和标签B1。那么，标签A1出现概率为标签A2和标签B1条件概率的和。标签的采样数量计算公式如下，其中p_i为i标签出现概率，n_i为i标签样本数。

N_i＝n_i/p_i (17)

样本的出现概率为所包含标签出现概率的和，公式如下，其中n为样本包含标签数，p_i为标签出现概率。

在一些实施例中，经过了固定采样和补充采样两个阶段后，获取的多标签数据分布已经非常均衡，本申请实施例创新性地引入了基尼系数来量化数据的均衡程度。参见图8，图8是本申请实施例提供的基尼系数的原理示意图，基尼系数在用于衡量标签分布均衡程度时，其中横轴为累计标签百分比，纵轴为累计样本数百分比。A和B分别为曲线所围成的面积。

作为示例，参见图8，基尼系数的表达式可以为：

其中，J用于指示基尼系数，A和B分别为曲线所围成的面积。

在一些实施例中，参见图9，图9是本申请实施例提供的标签生成模型的结构示意图，图9所示出的标签生成模型包括基础特征提取层、多模特征融合层和业务标签适配层三个部分，下面进行详细说明。

在一些实施例中，参见图9，在基础特征提取中，有三种模态的特征需要提取。分别是文本信息、视觉信息、音频信息。文本特征提取可以采用Text Encoder为RoBERTa，RoBERTa是Bert模型的改进版，与Bert模型相比，RoBERTa在开源数据集上效果要更好。RoBE RTa与Bert架构一样。本申请实施例将视频对应的标题输入RoBERTa，从而得到文本特征。视觉特征提取采用的编码层可以为Video Swin Transformer。Video Swin Transformer是Swin Transformer在视频上的针对性设计。本申请实施例首先对视频帧进行了均匀采样14帧，然后输入Video Swin Transformer模型得到视觉特征。音频特征提取采用的是VGGish，VG Gish支持从音频波形中提取具有语义的128维特征。首先将音频重采样为16kHz单声道，然后在窗口中进行傅里叶变换得到频谱图，映射为mel声谱。在分组帧后，输入VGG网络，得到特征。多模态特征融合中，本申请实施例采用的是transformer encoder结构，共有24层。多模态融合层由自注意力层和反馈层两部分构成。业务标签适配部分主要完成面向业务的架构设计，由从多模态特征融合模块获取的特征的输出连接层组成。

在一些实施例中，非对称性损失函数可以替换BCE loss，主要用于处理多标签问题中正负样本不均衡的问题。为了更好地适配业务，本申请实施例从训练方式和公式上都提出了创新性的方法。本申请实施例将训练方式分成了两个阶段：第一个阶段用BCE loss作为监督进行训练，当训练一段时间后，再使用非对称性损失函数进行训练，这样可以保证ASL更好的发挥效果。

作为示例，非对称损失函数的表达式可以为：

L₊＝log(P₁)+(1-P₁)^N (20)

L_-＝(P_t)-log(1-P_t) (21)

其中，L₊用于指示第一损失函数，L_-用于指示第二损失函数，第一损失函数和第二损失函数构成非对称损失函数，P_t用于指示目标预测概率，P₁用于指示第一预测概率。

作为示例，目标预测概率的表达式可以为：

其中，P_t用于指示目标预测概率，P_m用于指示第一候选概率，P_n用于指示第二候选概率。

作为示例，第一候选概率的表达式可以为：

P_m＝max(P₁-m，0) (23)

作为示例，第二候选概率的表达式可以为：

P_n＝min(P_m-n，0) (24)

可以理解的是，在本申请实施例中，涉及到视频样本集合等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的标签生成模型的训练装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的标签生成模型的训练装置455中的软件模块可以包括：获取模块4551，用于获取视频样本集合，视频样本集合包括目标视频的多个视频帧样本，各视频帧样本分别携带至少一个样本标签，多个视频帧样本携带的样本标签对应不同的标签内容；划分模块4552，用于将视频样本集合划分为第一子集合和第二子集合，其中，第一子集合中的视频帧样本对应的播放时间点，晚于第二子集合中的视频帧样本对应的播放时间点；数量确定模块4553，用于针对不同的各标签内容，确定标签内容对应的视频帧样本的采样数量，采样数量与参考视频帧样本的数量负相关，参考视频帧样本为，第一子集合中具有相应标签内容的视频帧样本；选取模块4554，用于基于确定的采样数量，从第二子集合中，分别选取各标签内容对应的视频帧样本作为补充视频帧样本；训练模块4555，用于基于补充视频帧样本和第一子集合中的各视频帧样本，训练标签生成模型，标签生成模型，用于基于视频的多个视频帧生成视频帧的标签。

在一些实施例中，上述划分模块4552，还用于获取视频样本集合中的各视频帧样本分别对应的播放时间点；将视频样本集合中播放时间点晚于时间点阈值的视频帧样本，确定为第一视频帧样本，将视频样本集合中播放时间点早于时间点阈值的视频帧样本，确定为第二视频帧样本；将各第一视频帧样本构成的集合，确定为第一子集合，并将各第二视频帧样本构成的集合，确定为第二子集合。

在一些实施例中，上述数量确定模块4553，还用于针对不同的各标签内容分别执行以下处理：将标签内容确定为目标标签内容，并获取第一子集合中目标标签内容对应的参考视频帧样本的数量；获取第二子集合中目标标签内容对应的至少一个目标视频帧样本，并确定目标视频帧样本的数量，基于目标视频帧样本的数量，确定参考参数的值；当参考参数的值大于或等于1时，将参考视频帧样本的数量和参考参数的值的比值，确定为目标标签内容对应的视频帧样本的采样数量；当参考参数的值小于1时，将参考视频帧样本的数量和参考参数的值的乘积，确定为目标标签内容对应的视频帧样本的采样数量。

在一些实施例中，上述数量确定模块4553，还用于统计各目标视频帧样本对应的其他标签内容，其他标签内容和目标标签内容为，同一目标视频帧样本携带的不同样本标签的标签内容；基于目标视频帧样本的数量，确定各其他标签内容的条件概率；将各条件概率的加和，确定为参考参数的值。

在一些实施例中，上述数量确定模块4553，还用于针对各其他标签内容分别执行以下处理：在目标视频帧样本中，统计其他视频帧样本的数量，其他视频帧样本为，携带其他标签内容对应的样本标签和目标标签内容对应的样本标签的目标视频帧样本；将其他视频帧样本的数量和目标视频帧样本的数量之间的比值，确定为其他标签内容的条件概率。

在一些实施例中，上述选取模块4554，还用于针对不同的各标签内容分别执行以下处理：将第二子集合中标签内容对应的各视频帧样本，确定为候选视频帧样本；确定各候选视频帧样本的参考参数的值，并按照参考参数的值从高至低的顺序，依次选取相应的采样数量的候选视频帧样本，作为补充视频帧样本。

在一些实施例中，上述选取模块4554，还用于针对各候选视频帧样本分别执行以下处理：获取候选视频帧样本具有的各标签内容的参考参数的值；将各标签内容的参考参数的值的乘积，确定为候选视频帧样本的参考参数的值。

在一些实施例中，上述训练模块4555，还用于调用标签生成模型，对补充视频帧样本进行标签预测，得到补充视频帧样本的第一预测概率，第一预测概率，用于指示补充视频帧样本的预测标签为相应的样本标签的概率；基于第一预测概率，确定标签生成模型的第一损失值；调用标签生成模型，对第一子集合中的各视频帧样本分别进行标签预测，得到各视频帧样本的第二预测概率，第二预测概率，用于指示视频帧样本的预测标签为相应的样本标签的概率；基于各第二预测概率，确定各第二预测概率对应的第二损失值；将第一损失值和各第二损失值进行加权求和，得到求和损失值，基于求和损失值，更新标签生成模型的模型参数。

在一些实施例中，上述训练模块4555，还用于确定第一预测概率的对数值，以及第一预测概率与1之间的差值；将对数值和差值的N次方的加和，确定为第三损失值，N为大于或等于1的正整数；基于第一预测概率，确定目标预测概率，目标预测概率，用于确定标签生成模型的损失值；确定目标预测概率与1之间的目标差值，并将目标差值的对数值，与目标预测概率的N次方的差值，确定为第四损失值；将第三损失值和第四损失值进行加权求和，得到第一损失值。

在一些实施例中，上述训练模块4555，还用于获取介于0至1之间的第一比较参数值和第二比较参数值，第一比较参数值大于第二比较参数值；将第一预测概率减去第一比较参数值，得到第一相减结果，将第一相减结果与0之间的最大值，确定为第一候选概率，并确定第一候选概率与第二比较参数值之间的第二差值；将第一候选概率减去第二比较参数值，得到第二相减结果，将第二相减结果与0之间的最大值，确定为第二候选概率；将第一候选概率和第二候选概率相乘，得到乘积结果；将乘积结果与第二差值的比值，确定为目标预测概率。

在一些实施例中，上述训练模块4555，还用于针对各第二预测概率分别执行以下处理：确定第二预测概率的对数值，以及第二预测概率与1之间的差值；将第二预测概率的对数值和差值的M次方的乘积，确定为第五损失值，其中，M为大于或等于1的正整数；将差值的对数值和第二预测概率的M次方的乘积，确定为第六损失值；将第五损失值和第六损失值进行加权求和，得到第二损失值。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的标签生成模型的训练方法，例如，如图3示出的标签生成模型的训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEP ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上，本申请实施例具有如下有益效果：

(1)通过将视频样本集合划分为第一子集合和第二子集合，从第二子集合中，分别选取各标签内容对应的采样数量的视频帧样本，作为补充视频帧样本，由于采样数量与第一子集合中具有相应所述标签内容的视频帧样本的数量负相关，从而使得采样数量的补充视频帧样本对第一子集合中的各标签内容进行了有效均衡，能够对第一子集合中具有相应标签内容的视频帧样本形成有效补充，使得训练标签生成模型的视频帧样本的标签均衡度更高。通过具有较高标签均衡度的补充视频帧样本和第一子集合中的各视频帧样本，训练标签生成模型，从而使得训练后的标签生成模型能够充分利用各标签内容，有效提升标签生成模型的标签预测性能。

(2)通过获取多个视频帧样本，便于后续进一步对视频帧样本进行筛选，得到用于训练标签生成模型的样本，从而有效提高了标签生成模型的预测准确性。

(3)通过将视频样本集合划分为第一子集合和第二子集合，便于后续针对第一子集合和第二子集合，区别性选取相应的视频帧样本对标签生成模型进行训练。

(4)通过针对不同的各标签内容，确定标签内容对应的视频帧样本的采样数量，由于所确定的采样数量与采样数量与第一子集合中具有相应标签内容的视频帧样本的数量负相关，使得第二子集合中采样数量的补充视频帧样本，能够对第一子集合中具有相应标签内容的视频帧样本形成有效补充，使得训练标签生成模型的视频帧样本的标签均衡度更高。

(5)通过从第二子集合中，分别选取各标签内容对应的相应采样数量的视频帧样本，作为补充视频帧样本，使得第二子集合中采样数量的补充视频帧样本，能够对第一子集合中具有相应标签内容的视频帧样本形成有利补充，使得训练标签生成模型的视频帧样本的标签均衡度更高，有效避免标签长尾问题的发生。

(6)补充视频帧样本能够对第一子集合中的各视频帧样本进行有效补充，使得用于训练标签生成模型的补充视频帧样本和第一子集合中的各视频帧样本的样本标签的各不同标签内容更加均衡，训练标签生成模型的效果更佳，有效提高了标签生成模型的训练效果，使得训练后的标签生成模型的预测准确性更好。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种标签生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述视频样本集合划分为第一子集合和第二子集合，包括：

获取所述视频样本集合中的各所述视频帧样本分别对应的播放时间点；

将所述视频样本集合中播放时间点晚于时间点阈值的视频帧样本，确定为第一视频帧样本，将所述视频样本集合中播放时间点早于时间点阈值的视频帧样本，确定为第二视频帧样本；

将各所述第一视频帧样本构成的集合，确定为所述第一子集合，并将各所述第二视频帧样本构成的集合，确定为所述第二子集合。

3.根据权利要求1所述的方法，其特征在于，所述针对不同的各所述标签内容，确定所述标签内容对应的视频帧样本的采样数量，包括：

针对不同的各所述标签内容分别执行以下处理：

将所述标签内容确定为目标标签内容，并获取所述第一子集合中所述目标标签内容对应的所述参考视频帧样本的数量；

获取所述第二子集合中所述目标标签内容对应的至少一个目标视频帧样本，并确定所述目标视频帧样本的数量，基于所述目标视频帧样本的数量，确定参考参数的值；

当所述参考参数的值大于或等于1时，将所述参考视频帧样本的数量和所述参考参数的值的比值，确定为所述目标标签内容对应的视频帧样本的采样数量；

当所述参考参数的值小于1时，将所述参考视频帧样本的数量和所述参考参数的值的乘积，确定为所述目标标签内容对应的视频帧样本的采样数量。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标视频帧样本的数量，确定参考参数的值，包括：

统计各所述目标视频帧样本对应的其他标签内容，所述其他标签内容和所述目标标签内容为，同一所述目标视频帧样本携带的不同样本标签的标签内容；

基于所述目标视频帧样本的数量，确定各所述其他标签内容的条件概率；

将各所述条件概率的加和，确定为所述参考参数的值。

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标视频帧样本的数量，确定各所述其他标签内容的条件概率，包括：

针对各所述其他标签内容分别执行以下处理：

在所述目标视频帧样本中，统计其他视频帧样本的数量，所述其他视频帧样本为，携带所述其他标签内容对应的样本标签和所述目标标签内容对应的样本标签的目标视频帧样本；

将所述其他视频帧样本的数量和所述目标视频帧样本的数量之间的比值，确定为所述其他标签内容的条件概率。

6.根据权利要求1所述的方法，其特征在于，所述基于确定的所述采样数量，从所述第二子集合中，分别选取各所述标签内容对应的视频帧样本作为补充视频帧样本，包括：

针对不同的各所述标签内容分别执行以下处理：

将所述第二子集合中所述标签内容对应的各视频帧样本，确定为候选视频帧样本；

确定各所述候选视频帧样本的参考参数的值，并按照所述参考参数的值从高至低的顺序，依次选取相应的所述采样数量的候选视频帧样本，作为所述补充视频帧样本。

7.根据权利要求6所述的方法，其特征在于，所述确定各所述候选视频帧样本的参考参数的值，包括：

针对各所述候选视频帧样本分别执行以下处理：

获取所述候选视频帧样本具有的各所述标签内容的参考参数的值；

将各所述标签内容的参考参数的值的乘积，确定为所述候选视频帧样本的参考参数的值。

8.根据权利要求1所述的方法，其特征在于，所述基于所述补充视频帧样本和所述第一子集合中的各视频帧样本，训练所述标签生成模型，包括：

调用所述标签生成模型，对所述补充视频帧样本进行标签预测，得到所述补充视频帧样本的第一预测概率，所述第一预测概率，用于指示所述补充视频帧样本的预测标签为相应的所述样本标签的概率；

基于所述第一预测概率，确定所述标签生成模型的第一损失值；

调用所述标签生成模型，对所述第一子集合中的各视频帧样本分别进行标签预测，得到各所述视频帧样本的第二预测概率，所述第二预测概率，用于指示所述视频帧样本的预测标签为相应的所述样本标签的概率；

基于各所述第二预测概率，确定各所述第二预测概率对应的第二损失值；

将所述第一损失值和各所述第二损失值进行加权求和，得到求和损失值，基于所述求和损失值，更新所述标签生成模型的模型参数。

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一预测概率，确定所述标签生成模型的第一损失值，包括：

确定所述第一预测概率的对数值，以及所述第一预测概率与1之间的差值；

将所述对数值和所述差值的N次方的加和，确定为第三损失值，所述N为大于或等于1的正整数；

基于所述第一预测概率，确定目标预测概率，所述目标预测概率，用于确定所述标签生成模型的损失值；

确定所述目标预测概率与1之间的目标差值，并将所述目标差值的对数值，与所述目标预测概率的N次方的差值，确定为第四损失值；

将所述第三损失值和所述第四损失值进行加权求和，得到所述第一损失值。

10.根据权利要求9所述的方法，其特征在于，所述基于所述第一预测概率，确定目标预测概率，包括：

获取介于0至1之间的第一比较参数值和第二比较参数值，所述第一比较参数值大于所述第二比较参数值；

将所述第一预测概率减去所述第一比较参数值，得到第一相减结果，将所述第一相减结果与0之间的最大值，确定为第一候选概率，并确定所述第一候选概率与所述第二比较参数值之间的第二差值；

将所述第一候选概率减去所述第二比较参数值，得到第二相减结果，将所述第二相减结果与0之间的最大值，确定为第二候选概率；

将所述第一候选概率和所述第二候选概率相乘，得到乘积结果；将所述乘积结果与所述第二差值的比值，确定为所述目标预测概率。

11.根据权利要求8所述的方法，其特征在于，所述基于各所述第二预测概率，确定各所述第二预测概率对应的第二损失值，包括：

针对各所述第二预测概率分别执行以下处理：

确定所述第二预测概率的对数值，以及所述第二预测概率与1之间的差值；

将所述第二预测概率的对数值和所述差值的M次方的乘积，确定为第五损失值，其中，M为大于或等于1的正整数；

将所述差值的对数值和所述第二预测概率的M次方的乘积，确定为第六损失值；

将所述第五损失值和所述第六损失值进行加权求和，得到所述第二损失值。

12.一种标签生成模型的训练装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现权利要求1至11任一项所述的标签生成模型的训练方法。

14.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的标签生成模型的训练方法。

15.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的标签生成模型的训练方法。