CN113723378A

CN113723378A - 一种模型训练的方法、装置、计算机设备和存储介质

Info

Publication number: CN113723378A
Application number: CN202111288279.4A
Authority: CN
Inventors: 罗永盛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2021-11-30
Anticipated expiration: 2041-11-02
Also published as: CN113723378B

Abstract

本申请公开了一种模型训练的方法、装置、计算机设备和存储介质，包括：获取视频样本集合、真实分类结果集合以及真实标签集合；通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签；根据真实标签集合以及每个视频样本对应的第一预测视频标签得到第二待训练标签模型；通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果；通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签；根据前述所得到的结果对第一待训练分类模型进行训练，以得到目标分类模型。通过上述方法，在模型训练的过程中能够学习到视频标签中的细粒度特征，又能学习到分类任务的泛化性，由此提升目标分类模型所得到的视频分类结果的准确度。

Description

一种模型训练的方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能领域中的机器学习领域，尤其涉及一种模型训练的方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，采用视频类目作为监督信息是一种十分常见的做法，原因在于视频的分类信息比较容易获得，且人工标注的成本也较低。但是，通过分类作为监督信号，学习到的特征往往是比较粗粒度的类别特征。对于相同类别下，包含不同细粒度实体信息的视频，学习到的特征的可分性一般较差。目前，为了使得分类粒度更细，能够基于标签进行分类能够细化分类结果，但是人工标注可能会存在漏标、误标的情况，此时会降低对视频进行分类的准确度。因此，如何更为准确的对视频进行分类成为亟需解决的问题。

发明内容

本申请实施例提供了一种模型训练的方法、装置、计算机设备和存储介质，在模型训练的一次迭代过程中先训练标签模型，由于标签模型迭代过程中所学习到的特征区分性更好，因此在下一个相邻的迭代过程中再训练分类模型，使得在标签信号下学习到的细粒度、区分性高的特征迁移到待训练的分类模型中，由此在对分类模型进行训练的过程中能够学习到视频标签中的细粒度特征，又能学习到分类任务的泛化性，从而保证所得到的目标分类模型能够准确的获取视频中更为细粒度的特征，由此提升所得到的视频分类结果的准确度。

有鉴于此，本申请第一方面提供了一种模型训练的方法，包括：

获取视频样本集合、真实分类结果集合以及真实标签集合，其中，视频样本集合包括多个视频样本，真实分类结果集合包括每个视频样本对应的真实分类结果，真实标签集合包括每个视频样本对应的真实标签，真实标签与真实分类结果具有对应关系；

基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签；

根据真实标签集合以及每个视频样本对应的第一预测视频标签，训练第一待训练标签模型，以得到第二待训练标签模型，其中，第二待训练标签模型为第一待训练标签模型进行一次迭代后得到的；

基于视频样本集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果；

基于视频样本集合，通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签；

根据真实标签集合、每个视频样本对应的第二预测视频标签、真实分类结果集合以及每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型，其中，目标分类模型用于对视频进行分类。

本申请第二方面提供了一种模型训练装置，包括：

获取模块，用于获取视频样本集合、真实分类结果集合以及真实标签集合，其中，视频样本集合包括多个视频样本，真实分类结果集合包括每个视频样本对应的真实分类结果，真实标签集合包括每个视频样本对应的真实标签，真实标签与真实分类结果具有对应关系；

获取模块，还用于基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签；

训练模块，用于根据真实标签集合以及每个视频样本对应的第一预测视频标签，训练第一待训练标签模型，以得到第二待训练标签模型，其中，第二待训练标签模型为第一待训练标签模型进行一次迭代后得到的；

获取模块，还用于基于视频样本集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果；

获取模块，还用于基于视频样本集合，通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签；

训练模块，还用于根据真实标签集合、每个视频样本对应的第二预测视频标签、真实分类结果集合以及每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型，其中，目标分类模型用于对视频进行分类。

在一个可能的实施方式中，获取模块，还用于在基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签之前，基于视频样本集合，通过第三待训练标签模型得到每个视频样本对应的第三预测视频标签；

训练模块，还用于根据真实标签集合以及每个视频样本对应的第三预测视频标签，对第三待训练标签模型进行训练，得到第三标签模型。

在一个可能的实施方式中，训练模块，具体用于基于视频样本集合，通过第三标签模型得到每个视频样本对应的第三预测视频标签；

根据每个视频样本对应的第三预测视频标签以及每个视频样本对应的第一预测视频标签，通过第一损失函数对第一待训练标签模型的模型参数进行一次迭代更新，以得到第二待训练标签模型。

在一个可能的实施方式中，训练模块，具体用于根据真实分类结果集合以及每个视频样本对应的第一预测分类结果，训练第一待训练分类模型，以得到第二待训练分类模型，其中，第二待训练分类模型为第一待训练分类模型进行一次迭代后得到的；

根据真实标签集合以及每个视频样本对应的第二预测视频标签，训练第二待训练标签模型，以得到第四待训练标签模型，其中，第四待训练标签模型为第一待训练标签模型进行二次迭代后得到的；

基于视频样本集合，通过第二待训练分类模型得到每个视频样本对应的第二预测分类结果；

基于视频样本集合，通过第四待训练标签模型得到每个视频样本对应的第四预测视频标签；

根据真实标签集合、每个视频样本对应的第四预测视频标签、真实分类结果集合以及每个视频样本对应的第二预测分类结果，对第二待训练分类模型进行训练，以得到目标分类模型。

在一个可能的实施方式中，模型训练装置还包括处理模块；

处理模块，用于对视频样本集合中每个视频样本进行特征化处理，得到多模态视频特征集合，其中，多模态视频特征集合包括每个视频样本的多模态视频特征，多模态视频特征包括视频帧特征，或，多模态视频特征包括文本特征、音频特征中的一个或多个以及视频帧特征；

获取模块，具体用于基于多模态视频特征集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签；

获取模块，具体用于基于多模态视频特征集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果；

获取模块，具体用于基于多模态视频特征集合，通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签。

在一个可能的实施方式中，获取模块，具体用于获取初始视频样本集合、初始真实分类结果集合以及初始真实标签集合，其中，初始视频样本集合包括多个初始视频样本，多个初始视频样本的数量大于多个视频样本的数量，初始真实分类结果集合包括每个初始视频样本对应的真实分类结果，初始真实标签集合包括每个初始视频样本对应的真实标签；

对初始视频样本集合进行抽样处理，以得到视频样本集合；

基于视频样本集合所包括的初始视频样本，从初始真实分类结果集合中确定真实分类结果集合，以及从初始真实标签集合中确定真实标签集合。

在一个可能的实施方式中，获取模块，还用于在得到目标分类模型之后，获取待分类视频，其中，待分类视频包括多个待分类视频帧；

处理模块，还用于对待分类视频进行特征化处理，得到多模态视频特征；

获取模块，还用于基于多模态视频特征通过目标分类模型，获取待分类视频的视频分类结果。

本申请的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请的第四方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种模型训练的方法，先获取视频样本集合、真实分类结果集合以及真实标签集合，视频样本集合包括多个视频样本，真实分类结果集合包括每个视频样本对应的真实分类结果，真实标签集合包括每个视频样本对应的真实标签，真实标签与真实分类结果具有对应关系。基于此，先基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签，由此根据真实标签集合以及每个视频样本对应的第一预测视频标签，训练第一待训练标签模型，以得到第二待训练标签模型，该第二待训练标签模型为第一待训练标签模型进行一次迭代后得到的。然后基于视频样本集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果，并且基于视频样本集合，通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签，最后即可根据真实标签集合、每个视频样本对应的第二预测视频标签、真实分类结果集合以及每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型，其中，目标分类模型用于对视频进行分类。通过上述方法，在对分类模型进行训练的过程中能够学习到视频标签中的细粒度特征，又能学习到分类任务的泛化性，从而保证所得到的目标分类模型能够准确的获取视频中更为细粒度的特征，由此提升所得到的视频分类结果的准确度。

附图说明

图1为本申请实施例中模型训练的方法的一个系统示意图；

图2为本申请实施例提供的模型训练的方法的一种流程示意图；

图3为本申请实施例提供的第一待训练标签模型进行一次迭代的一个流程示意图；

图4为本申请实施例提供的第三待训练标签模型的结构示意图；

图5为本申请实施例提供的对第三待训练标签模型进行训练的流程示意图；

图6为本申请实施例提供的标签模型与分类模型进行交叉训练的结构示意图；

图7为本申请实施例提供的对视频样本进行特征化处理的流程示意图；

图8为本申请实施例提供的一种模型训练装置的结构示意图；

图9为本申请实施例中服务器一个实施例示意图；

图10为本申请实施例中终端设备一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着人工智能技术的发展，视频多模态向量学习，目前主要基于有监督的训练方法，监督信号主要有：分类信号、标签信号和三元组。模型侧主要分为特征解析模块以及特征提取模块，其中特征解析模块用于解析视频中所包括的多模态信息，如对视频帧进行全局、稀疏采样，对文本信息进行分词等。若视频中包括视频帧以及文本信息，那么特征提取模块能够先对视频中的视频帧进行采样，并提取视频帧特征再进行视频帧特征聚合以及特征增强，得到所需的视频帧特征，由此，还可以对视频中所包括的文本信息进行分词，得到分词结果并输入到词嵌入层得到词向量，再输入到前向和后向两层循环神经网络（recurrent neural network，RNN）所构成的网络中，并通过池化层获取文本特征。最终，将视频帧特征以及文本特征进行融合，得到多模态视频特征。

采用分类的作为监督信息，需要模型提取完特征后，在分类层输出每个类别的概率，例如视频属于电影、游戏等类别的概率。视频对应的预测类别和视频的真实类别通过多分类交叉熵损失函数得到模型的损失值，最后通过梯度反向传播的方式更新模型参数。采用标签作为监督信息，由于每个视频可能有多个标签，所以需要对每个标签都预测输出概率，然后计算每个标签的二分类交叉熵损失值，最终累加每个标签的损失值，得到最终的损失值。由此可知，采用视频类目作为监督信息是一种十分常见的做法，原因在于视频的分类信息比较容易获得，且人工标注的成本也较低。但是，通过分类作为监督信号，学习到的特征往往是比较粗粒度的类别特征。对于相同类别下，包含不同细粒度实体信息的视频，学习到的特征的可分性一般较差，例如，视频A是格斗类型游戏，而视频B是休闲类型游戏，虽然视频A与视频B均属于游戏分类，但视频A与视频B在视频内容上并不是非常相似。如果模型以分类作为监督信号，那么同属于游戏分类的视频A和视频B的特征向量，在空间上会比较相近，但实际内容上却不是非常相似，这样学习出来的特征向量粒度太粗。

为了使得分类粒度更细，基于标签描述的信息更丰富的特征，能够采用标签作为监督信号进行分类。然而基于标签进行分类能够细化分类结果，但是人工标注成本高很多，而且会存在漏标、误标的情况，此时会降低采用标签信息进行训练模型的准确度，如何更为准确的对视频进行分类成为亟需解决的问题。基于此，本申请实施例公开了一种模型训练的方法，在模型训练的过程中能够学习到视频标签中的细粒度特征，又能学习到分类任务的泛化性，由此提升目标分类模型所得到的视频分类结果的准确度。

首先，为了便于理解，先对本申请实施例涉及到的一些术语或概念进行解释。

一、知识蒸馏

在老师-学生（teacher-student）框架中，将复杂且学习能力强的网络（teacher网络）学到的特征表示“知识”蒸馏出来，传递给参数量小且学习能力弱的网络（student网络）。

二、视频多模态

模态是指某些事情发生或经历的方式，如果研究问题的特征包括多种这样的模态时，就是多模态的问题。本实施例中视频包括文本信息、视频帧、音频信息等多种模态信息。

三、硬标签(hard-label)

硬标签是仅含有0、1值的定长维度向量，向量长度等于标签数量，向量不同位置代表不同标签，其中0表示该位置不含该标签，1表示该位置含有该标签。本实施例中标签模型中的所输出的结果就是0、1值的定长维度向量，因此每个值指示视频是否携带该标签。

四、软标签(soft-label)

软标签相对于硬标签而言，同样是标签数量长度的向量，但每个位置的值在0~1之间，每个值表示含有该标签的概率值。本实施例中分类模型中的所输出的结果就是标签数量长度的向量，每个值指示视频属于该分类标签的概率。

基于前述描述，下面对本申请实施例的应用场景进行介绍。可以理解的，该模型训练的方法可以由终端设备来执行，也可以由服务器来执行。请参阅图1，图1为本申请实施例中模型训练的方法的一个系统示意图，如图1所示，该视频处理系统中包括服务器和终端设备，当该模型训练的方法部署于终端设备上时，终端设备可以从服务器侧获取视频样本集合、真实分类结果集合以及真实标签集合，并通过本方案中所介绍的模型训练的方式得到目标分类模型，然后在需要对待分类视频进行分类时，直接采用目标分类模型进行分类，使得对视频分类的过程更加便捷，并且保证所得到的视频分类结果的准确度。当该模型训练的方法部署于服务器时，服务器可以通过本方案中所介绍的模型训练的方式得到目标分类模型，并且将目标分类模型存储于云服务器的存储系统中，在用户对终端设备进行操作希望对待分类视频进行分类时，直接从存储系统中调用目标分类模型，以完成视频分类，进一步地提高视频分类的效率，并且提升所得到的视频分类结果的准确度。

需要说明的是，图1中的服务器可以是一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处均不限定。客户端具体部署与终端设备，终端设备可以为图1中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑（personal computer，PC）及只能语音交互设备，且终端设备还可以包括但不限于智能家电以及车载终端等。且终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中，上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络，包括但不限于蓝牙、局域网（Local Area Network，LAN）、城域网（Metropolitan Area Network，MAN）、广域网（Wide Area Network，WAN）、移动、专用网络或者虚拟专用网络的任何组合）。在一些实施例中，可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线（Universal Serial Bus，USB）闪存盘、移动硬盘或其他可移动存储介质等。

虽然图1中仅示出了五个终端设备和一个服务器，但应当理解，图1中的示例仅用于理解本方案，具体终端设备和服务器的数量均应当结合实际情况灵活确定。

可以理解的是，本发明实施例所提供的模型训练的方法可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，此处不对可应用场景进行穷举。由于本申请实施例可以应用于人工智能的场景下，在对本申请实施例提供的模型训练的方法开始介绍之前，先对人工智能领域的一些基础概念进行介绍。人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多种方向展开研究，机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。其次，由于本申请实施例需要对视频进行特征化处理，此时需要运用到计算机视觉技术(Computer Vision， CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

结合上述介绍，本申请实施例提供的方案涉及人工智能的机器学习技术以及计算机视觉技术，下面对本申请中模型训练的方法进行介绍，请参阅图2，图2为本申请实施例提供的模型训练的方法的一种流程示意图，如图2所示，该方法包括：

101、获取视频样本集合、真实分类结果集合以及真实标签集合。

本实施例中，模型训练装置需要先获取视频样本集合、真实分类结果集合以及真实标签集合，该视频样本集合包括多个视频样本，且真实分类结果集合包括每个视频样本对应的真实分类结果，真实标签集合包括每个视频样本对应的真实标签，真实标签与真实分类结果具有对应关系。

例如，视频样本集合包括视频样本A，视频样本B以及视频样本C，那么真实分类结果集合包括视频样本A对应的真实分类结果，视频样本B对应的真实分类结果以及视频样本C对应的真实分类结果，同理，真实标签集合包括视频样本A对应的真实标签，视频样本B对应的真实标签以及视频样本C对应的真实标签。基于此，若视频样本A对应的真实分类结果为“电影”，视频样本B对应的真实分类结果为“游戏”，视频样本C对应的真实分类结果为“音乐”，那么视频样本A对应的真实标签可以包括“周xx”、“喜剧电影”以及“吴xx”，此时视频样本A对应的真实标签均可以指示视频样本A对应的真实分类结果“电影”。同理，视频样本B对应的真实标签可以包括“xx游戏”以及“击杀率”，此时视频样本B对应的真实标签均可以指示视频样本B对应的真实分类结果“游戏”。其次，视频样本C对应的真实标签可以包括“林xx”、“专辑”以及“蔡xx”，此时视频样本C对应的真实标签均可以指示视频样本C对应的真实分类结果“音乐”。

应理解，每个视频样本对应的真实标签可以为多个或仅为一个，但是均可以与该视频样本对应的真实分类结果对应，且前述示例仅用于理解本方案，而不应理解为本申请的限定，在实际应用中，视频样本的真实分类结果还可以包括但不限于“动漫”、“综艺”以及“电视剧”等，而视频样本的真实标签还可以包括但不限于“收视率”、“上座率”以及“比赛直播”等，因此具体真实分类结果集合以及真实标签集合需要根据视频样本集合中每个视频样本的实际情况以及分类需求灵活确定。

102、基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签。

本实施例中，模型训练装置将步骤101所获取的视频样本集合输入至第一待训练标签模型，第一待训练标签模型输出每个视频样本对应的第一预测视频标签，此时第一预测视频标签为前述实施例中所介绍的硬标签(hard-label)，具体来说可以为视频样本包括该标签的概率大于标签概率阈值，则确定为“1”，例如，概率阈值为50%，视频样本包括标签A的概率为80%，包括标签B的概率为10%，包括标签C的概率为60%，那么可以输出该视频样本对应的第一预测视频标签包括（1，0，1），即指示该视频样本对应的第一预测视频标签具体包括标签A以及标签C。例如，若视频标签集合中包括“周xx”、“喜剧电影”、“吴xx”、“xx游戏”、“林xx”以及“蔡xx”，且视频样本集合中视频样本A对应的第一预测视频标签为（1，1，1，0，0，0），即指示视频样本A对应的第一预测视频标签具体包括“周xx”、“喜剧电影”以及“吴xx”。同理，若视频样本集合中视频样本B对应的第一预测视频标签为（0，0，0，1，1，0），即指示视频样本B对应的第一预测视频标签具体包括“xx游戏”以及“林xx”。与前述实施例类似，第一待训练标签模型所输出的具体标签需要根据该待训练模型的实际情况确定，此处不做限定。

103、根据真实标签集合以及每个视频样本对应的第一预测视频标签，训练第一待训练标签模型，以得到第二待训练标签模型。

本实施例中，模型训练装置在步骤102中会输出视频样本集合中所有视频样本对应的第一预测视频标签，且此时第一预测视频标签为一次迭代输出的第一预测视频标签，基于此，模型训练装置根据真实标签集合以及每个视频样本对应的第一预测视频标签，训练第一待训练标签模型，以得到第二待训练标签模型，该第二待训练标签模型为第一待训练标签模型进行一次迭代（epoch）后得到的。

具体地，模型训练装置根据真实标签集合以及每个视频样本对应的第一预测视频标签，训练第一待训练标签模型，通过第一损失函数（具体为二分类交叉熵损失函数）对第一待训练标签模型的模型参数进行一次迭代更新，得到前述第二待训练标签模型。也就是模型训练装置将每个视频帧样本的真实标签作为目标进行迭代训练，即根据每个视频帧样本的真实标签以及每个视频样本对应的第一预测视频标签之间的差异确定第一损失函数的损失值（具体为二分类交叉熵损失值），利用第一损失函数损失值更新第一待训练标签模型的模型参数，更新一次第一待训练标签模型的模型参数即可得到第二待训练标签模型。

为了便于理解，请参阅图3，图3为本申请实施例提供的第一待训练标签模型进行一次迭代的流程示意图，A1指的是视频样本集合，A2指的是第一待训练标签模型，A3指的是每个视频样本对应的第一预测视频标签，A4指的是真实标签集合（包括每个视频样本的真实标签）。基于此，将视频样本集合A1输入至第一待训练标签模型A2中，得到每个视频样本对应的第一预测视频标签A3，然后基于真实标签集合A4、每个视频样本对应的第一预测视频标签A3以及第一损失函数，对第一待训练标签模型进行迭代训练，完成对第一待训练标签模型的模型参数的更新后，即进行一次迭代，由此得到第二待训练标签模型。应当理解，图3中的示例仅为方便理解本方案，而不用于限定本方案。

104、基于视频样本集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果。

本实施例中，模型训练装置将步骤101所获取的视频样本集合输入至第一待训练分类模型，第一待训练分类模型输出每个视频样本对应的第一预测分类结果，此时第一预测分类结果为前述实施例中所介绍的软标签(soft-label)，本实施例中将第一预测分类结果中概率最大值对应的类别确定为视频样本的分类。

例如，若分类结果集合中包括“电影”、“游戏”以及“音乐”，且视频样本集合中视频样本A对应的第一预测分类结果为（0.8，0.1，0，1），即指示视频样本A属于“电影”这一分类的概率为80%，属于“游戏”这一分类的概率为10%，且属于“音乐”这一分类的概率为10%，那么将确定视频样本A属于“电影”。同理，若视频样本集合中视频样本B对应的第一预测分类结果为（0，0.8，0.2），即指示视频样本B属于“电影”这一分类的概率为0，属于“游戏”这一分类的概率为80%，且属于“音乐”这一分类的概率为20%，那么将确定视频样本B属于“游戏”。与前述实施例类似，第一待训练分类模型所输出的具体分类结果需要根据该待训练模型的实际情况确定，此处不做限定。

105、基于视频样本集合，通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签。

本实施例中，模型训练装置将步骤101所获取的视频样本集合输入至步骤103所得到第二待训练标签模型，并由第二待训练标签模型输出每个视频样本对应的第二预测视频标签，第二预测视频标签为前述实施例中所介绍的硬标签，具体与第一预测视频标签类似，此处不再赘述。

106、根据真实标签集合、每个视频样本对应的第二预测视频标签、真实分类结果集合以及每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型。

本实施例中，模型训练装置根据真实标签集合、每个视频样本对应的第二预测视频标签、真实分类结果集合以及每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型，该目标分类模型用于对视频进行分类。

具体地，模型训练装置将真实分类结果集合（包括每个视频样本对应的真实分类结果）作为目标进行迭代训练，即根据每个视频样本对应的真实分类结果以及每个视频样本对应的第一预测分类结果之间的差异确定第二损失函数的损失值（具体为多分类交叉熵损失值），根据第二损失函数（具体为多分类交叉熵损失函数）的损失值判断第二损失函数是否达到收敛条件，若未达到收敛条件，则利用第二损失函数的损失值更新第一待训练分类模型的模型参数，直至第二损失函数达到收敛条件，则将第二损失函数的该次的损失值确定为第一待训练分类模型的模型参数，从而得到目标分类模型。前述第二损失函数的收敛条件可以为第二损失函数的值小于或等于第一预设阈值，作为示例，例如第一预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值；也可以为第二损失函数的相邻两次的值的差值小于或等于第二预设阈值，第二阈值的取值可以与第一阈值的取值相同或不同，作为示例，例如第二预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等，模型训练装置还可以采用其它收敛条件等，此处不做限定。

进一步地，本申请实施例中在实际的训练中，是采用交替地方式进行训练的，也就是在一个迭代（epoch）中通过步骤103所描述的方式先训练第一待训练标签模型，以得到第二待训练标签模型，在下一个迭代（epoch）中将训练第一待训练分类模型，即标签模型的训练与分类模型的训练是交替进行的，即在一次迭代中第一待训练分类模型的第二损失函数未达到收敛条件，在下一个迭代（epoch）中将训练进行一次迭代后的第一待训练标签模型（即前述第二代标签模型），从而得到进行二次迭代后的第一待训练标签模型，然后在下一个迭代（epoch）中将训练进行一次迭代后的第一待训练分类模型，从而得到进行二次迭代后的第一待训练分类模型，以此类推，直至第二损失函数达到收敛条件，由此得到目标分类模型，由此使得在训练过程中能够同时结合二分类交叉熵损失函数以及多分类交叉熵损失函数。

因此，使第一待训练分类模型进行训练的过程中，能够基于前述实施例所得到真实标签集合以及每个视频样本对应的第二预测视频标签，能够学习到视频标签中的细粒度特征，然后基于真实分类结果集合以及每个视频样本对应的第一预测分类结果之间的差异确定第二损失函数的损失值，以判断第二损失函数是否达到收敛条件从而进一步地完成对第一待训练分类模型的训练，由此所得到的目标分类模型能够准确的获取视频中更为细粒度的特征。

本申请实施例中，提供了一种模型训练的方法，采用上述方式，能够在模型训练的一次迭代过程中先训练标签模型，由于标签模型迭代过程中所学习到的特征区分性更好，因此在下一个相邻的迭代过程中再训练分类模型，使得在标签信号下学习到的细粒度、区分性高的特征迁移到待训练的分类模型中，由此在对分类模型进行训练的过程中能够学习到视频标签中的细粒度特征，又能学习到分类任务的泛化性，从而保证所得到的目标分类模型能够准确的获取视频中更为细粒度的特征，由此提升所得到的视频分类结果的准确度。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，在基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签之前，模型训练的方法还包括：

基于视频样本集合，通过第三待训练标签模型得到每个视频样本对应的第三预测视频标签；

根据真实标签集合以及每个视频样本对应的第三预测视频标签，对第三待训练标签模型进行训练，得到第三标签模型。

本实施例中，模型训练装置在基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签之前，还会将视频样本集合输入至第三待训练标签模型，第三待训练标签模型输出每个视频样本对应的第三预测视频标签，该第三待训练标签模型为前述实施例中所介绍的复杂且学习能力强的网络（teacher网络）。

基于此，模型训练装置根据真实标签集合以及每个视频样本对应的第三预测视频标签，对第三待训练标签模型进行训练，得到第三标签模型。也就是通过将视频样本集合输入多标签任务中，标签包括多个，所以模型训练装置需要预测每个视频样本预测是否包含前述多个标签，并对每个标签计算二分类交叉熵损失值。

与前述训练过程类似，模型训练装置根据真实标签集合以及每个视频样本对应的第三视频标签，训练第二待训练标签模型，通过二分类交叉熵损失函数对第二待训练标签模型的模型参数进行多次迭代更新，也就是模型训练装置将每个视频帧样本的真实标签作为目标进行迭代训练，即根据每个视频帧样本的真实标签以及每个视频样本对应的第三视频标签之间的差异确定二分类交叉熵损失值，利用二分类交叉熵损失值更新第二待训练标签模型的模型参数，直至二分类交叉熵损失函数达到收敛条件，则将二分类交叉熵损失函数的该次的损失值确定为第三待训练标签模型的模型参数，从而得到第三标签模型。前述二分类交叉熵损失函数的收敛条件可以为二分类交叉熵损失函数的值小于或等于第一预设阈值，作为示例，例如第一预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值；也可以为二分类交叉熵损失函数的相邻两次的值的差值小于或等于第二预设阈值，第二阈值的取值可以与第一阈值的取值相同或不同，作为示例，例如第二预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等，模型训练装置还可以采用其它收敛条件等，此处不做限定。

为了便于理解上述第三待训练标签模型的结构，请参阅图4，图4为本申请实施例提供的第三待训练标签模型的结构示意图，通过视频样本集合B1进行标签任务B2，将输出每个视频样本对应的第三预测视频标签，根据每个视频帧样本的真实标签以及每个视频样本对应的第三视频标签之间的差异确定二分类交叉熵损失值B3，从而利用二分类交叉熵损失值B3更新第三待训练标签模型的模型参数，以进行对第三待训练标签模型的训练。为了理解前述训练过程，图5为本申请实施例提供的对第三待训练标签模型进行训练的流程示意图，C1指的是视频样本集合，C2指的是第三待训练标签模型，C3指的是每个视频样本对应的第三预测视频标签，C4指的是真实标签集合（包括每个视频样本的真实标签）。基于此，将视频样本集合C1输入至第三待训练标签模型C2中，得到每个视频样本对应的第三预测视频标签C3，然后基于真实标签集合C4、每个视频样本对应的第三预测视频标签C3以及二分类交叉熵损失函数，对第三待训练标签模型进行迭代训练，即进行对第三待训练标签模型的模型参数的更新，直至更新后的模型参数使得二分类交叉熵损失函数达到收敛条件，生成第三标签模型。应当理解，图5中的示例仅为方便理解本方案，而不用于限定本方案。

具体地，前述第二分类交叉熵损失函数如下：

；（1）

其中，

指的是二分类交叉熵损失函数，

指的是第i个视频样本的真实标签，

指的是第i个视频样本对应的第三预测视频标签，i属于视频样本集合的总数。

本申请实施例中，提供了另一种模型训练的方法，采用上述方式，能够先通过第三标签模型进行知识蒸馏学习视频样本的多标签信息，以得到复杂且学习能力强的第三标签模型，使得后续能够采用该第三标签模型指导第一待训练标签模型进行训练，从而提升第一待训练标签所学习的标签特征信息，由此提升模型训练的可靠性以及可实现性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据真实标签集合以及每个视频样本对应的第一预测视频标签，训练第一待训练标签模型，以得到第二待训练标签模型，具体包括：

基于视频样本集合，通过第三标签模型得到每个视频样本对应的第三预测视频标签；

本实施例中，模型训练装置需要将视频样本集合输入至训练好的第三标签模型，第三标签模型输出每个视频样本对应的第三预测视频标签，此时将根据每个视频样本对应的第三预测视频标签以及每个视频样本对应的第一预测视频标签，通过第一损失函数对第一待训练标签模型的模型参数进行一次迭代更新，以得到第二待训练标签模型。

具体地，模型训练装置根据每个视频样本对应的第三预测视频标签以及每个视频样本对应的第一预测视频标签，训练第一待训练标签模型，通过第一损失函数（具体为二分类交叉熵损失函数）对第一待训练标签模型的模型参数进行一次迭代更新，得到前述第二待训练标签模型。具体流程与图3所介绍的类似，但是不再以真实标签集合作为目标进行迭代训练，真实标签集合将用于对第三待训练标签模型进行训练，以复杂且学习能力强的第三标签模型，即第一待训练标签模型将以第三标签模型所输出的结果作为目标进行迭代训练。也就是模型训练装置将第三标签模型所输出的每个视频样本对应的第三预测视频标签作为目标进行迭代训练，即根据每个视频样本对应的第三预测视频标签以及每个视频样本对应的第一预测视频标签之间的差异确定第一损失函数的损失值（具体为二分类交叉熵损失值），利用第一损失函数损失值更新第一待训练标签模型的模型参数，更新一次第一待训练标签模型的模型参数即可得到第二待训练标签模型。

具体地，前述第一损失函数如下：

；（2）

其中，

指的是第一损失函数，

指的是第j个视频样本的对应的第三预测视频标签，

指的是第j个视频样本对应的第一预测视频标签，j属于视频样本集合的总数。

本申请实施例中，提供了另一种模型训练的方法，采用上述方式，先通过第三标签模型进行知识蒸馏学习视频样本的多标签信息，以使得复杂且学习能力强的第三标签模型指导第一待训练标签模型进行训练，从而提升第一待训练标签所学习的标签特征信息，使得目标分类模型进一步地学习更为精准的多标签任务的细粒度特征，保证模型训练的可靠性，从而进一步地提升了对视频进行分类的准确度。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据真实标签集合、每个视频样本对应的第二预测视频标签、真实分类结果集合以及每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型，具体包括：

根据真实分类结果集合以及每个视频样本对应的第一预测分类结果，训练第一待训练分类模型，以得到第二待训练分类模型，其中，第二待训练分类模型为第一待训练分类模型进行一次迭代后得到的；

本实施例中，由于模型训练写具体是采用交替地方式进行训练的，也就是在一个迭代（epoch）中先训练第一待训练标签模型，在下一个迭代（epoch）中将训练第一待训练分类模型，然后在再下一个迭代（epoch）中将训练进行一次迭代后的第一待训练标签模型（即前述第二代标签模型），并且在再下一个迭代（epoch）中将训练进行一次迭代后的第一待训练分类模型，从而得到进行二次迭代后的第一待训练分类模型，下面将详细介绍多次迭代过程得到目标分类模型的方式。

首先，模型训练装置根据真实分类结果集合以及每个视频样本对应的第一预测分类结果，训练第一待训练分类模型，以得到第二待训练分类模型，此时第二待训练分类模型为第一待训练分类模型进行一次迭代后得到的，具体迭代方式与第一待训练标签模型类似，此处不再赘述。基于此，模型训练装置根据真实标签集合以及每个视频样本对应的第二预测视频标签，训练第二待训练标签模型，以得到第四待训练标签模型，此时第四待训练标签模型为第一待训练标签模型进行二次迭代后得到的，应理解，此时模型训练的过程已完成3次迭代，即第一待训练标签模型进行了二次迭代，而第一待训练分类模型进行了一次迭代。进一步地，模型训练装置再将视频样本集合输入至第二待训练分类模型，从而通过第二待训练分类模型得到每个视频样本对应的第二预测分类结果，同理，模型训练装置将于视频样本集合输入至第四待训练标签模型，通过第四待训练标签模型得到每个视频样本对应的第四预测视频标签。

然后，模型训练装置根据真实标签集合、每个视频样本对应的第四预测视频标签、真实分类结果集合以及每个视频样本对应的第二预测分类结果，对第二待训练分类模型进行训练，以得到目标分类模型。即模型训练装置将真实分类结果集合（包括每个视频样本对应的真实分类结果）作为目标进行迭代训练，即根据每个视频样本对应的真实分类结果以及每个视频样本对应的第二预测分类结果之间的差异确定第二损失函数的损失值（具体为多分类交叉熵损失值），根据第二损失函数（具体为多分类交叉熵损失函数）的损失值判断第二损失函数是否达到收敛条件，若未达到收敛条件，则利用第二损失函数的损失值更新第一待训练分类模型的模型参数，直至第二损失函数达到收敛条件，则将第二损失函数的该次的损失值确定为第一待训练分类模型的模型参数，从而得到目标分类模型。第二损失函数的收敛条件与前述实施例所介绍的类似，此处不再赘述。

再进一步地，由于模型训练写具体是采用交替地方式进行训练的，因此在第二损失函数未达到收敛条件时不会停止交替训练的方式，通过前述类似的训练方式进行类推，直至第二损失函数达到收敛条件，由此得到目标分类模型，由此使得在训练过程中能够同时结合二分类交叉熵损失函数以及多分类交叉熵损失函数。使第一待训练分类模型进行训练的过程中，能够基于前述实施例所得到真实标签集合以及每个视频样本对应的第二预测视频标签，能够学习到视频标签中的细粒度特征，然后基于真实分类结果集合以及每个视频样本对应的第一预测分类结果之间的差异确定第二损失函数的损失值，以判断第二损失函数是否达到收敛条件从而进一步地完成对第一待训练分类模型的训练，由此所得到的目标分类模型能够准确的获取视频中更为细粒度的特征。

具体地，前述第二损失函数如下：

；（3）

其中，

指的是第二损失函数，

指的是第i个视频样本的真实分类结果，

指的是第i个视频样本对应的预测分类结果，C指的是视频样本集合的总数。

为了便于理解如何进行交叉训练，请参阅图6，图6为本申请实施例提供的标签模型与分类模型进行交叉训练的结构示意图，先通过视频样本集合D1进行标签任务D2，将输出每个视频样本对应的第一预测视频标签，根据每个视频帧样本的真实标签以及每个视频样本对应的第一视频标签之间的差异确定二分类交叉熵损失值D3，从而利用二分类交叉熵损失值D3更新第一待训练标签模型的模型参数，以完成对第一待训练标签模型的一次迭代，然后通过视频样本集合D1进行分类任务D4，将输出每个视频样本对应的第一预测分类结果，根据每个视频帧样本的真实分类结果以及每个视频样本对应的第一预测分类结果之间的差异确定多分类交叉熵损失值D5，从而利用多分类交叉熵损失值D5更新第一待训练分类模型的模型参数，以完成对第一待训练分类模型的一次迭代，然后通过前述方式交替更新标签模型与分类模型的模型参数，以完成本实施例中所介绍的交叉训练。

本申请实施例中，提供了另一种模型训练的方法，采用上述方式，在模型训练的多次迭代过程中通过交替训练标签模型以及分类模型的方式，能够将在标签信号下学习到的细粒度、区分性高的特征迁移到待训练的分类模型中，由此在对分类模型进行训练的过程中能够学习到视频标签中的细粒度特征，又能学习到分类任务的泛化性，随着多次迭代训练的过程使得分类模型所学习到视频标签中的细粒度特征更为准确，因此提升保证目标分类模型能够获取视频中更为细粒度的特征的准确性，进一步地提升所得到的视频分类结果的准确度。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，模型训练的方法还包括：

对视频样本集合中每个视频样本进行特征化处理，得到多模态视频特征集合，其中，多模态视频特征集合包括每个视频样本的多模态视频特征，多模态视频特征包括视频帧特征，或，多模态视频特征包括文本特征、音频特征中的一个或多个以及视频帧特征；

基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签，具体包括：

基于多模态视频特征集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签；

基于视频样本集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果，具体包括：

基于多模态视频特征集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果；

基于视频样本集合，通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签，具体包括：

基于多模态视频特征集合，通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签。

本实施例中，通过前述实施例可知，由于若视频样本中可以包括但不限于文本信息、视频帧、音频信息等多种模态信息，基于此，模型训练装置将对视频样本集合中每个视频样本进行特征化处理，得到多模态视频特征集合，此时多模态视频特征集合包括每个视频样本的多模态视频特征，多模态视频特征包括视频帧特征，或，多模态视频特征包括文本特征、音频特征中的一个或多个以及视频帧特征，也就是多模态视频特征还可以包括视频帧特征以及文本特征，或者还可以包括视频帧特征以及音频特征，或者还可以包括视频帧特征、文本特征以及音频特征。例如，当视频样本中仅包括多个视频帧，那么该视频样本的多模态视频特征仅包括视频帧特征，而视频样本中仅包括多个视频帧以及音频信息，那么该视频样本的多模态视频特征将包括视频帧特征以及音频特征。具体多模态视频特征需要根据视频样本中所包括的多种模态信息确定，此处不做限定。

为了便于理解，以视频样本中可以包括文本信息以及多个视频帧作为示例进行说明，请参阅图7，图7为本申请实施例提供的对视频样本进行特征化处理的流程示意图，首先通过对视频样本E1进行全局、稀疏采样处理，从而能够得到得到多个视频帧，通过图片深度网络模型（例如InceptionResNetV2、ResNet、EfficienNet）对多个视频帧进行特征提取，得到提取视频帧所携带的特征，然后进行视频帧特征聚合多个视频帧所携带的特征，最后进行特征增强以得到最后的视频帧特征，该视频帧特征包括视频样本E1中所有视频帧的特征。其次，还能够通过对视频样本E1进行分词处理得到分词结果，然后将分词结果输入到词嵌入层得到词向量，将词向量输入到前向和后向两层RNN构成的网络中，并通过池化层获取文本特征。最终，对视频帧特征以及结构文本特征进行融合处理，得到视频样本E1的多模态视频特征E2。应理解，图7的示例仅用于理解如何对视频样本进行特征化处理，实际流程需要根据需求以及视频样本所包括的信息灵活确定，因此不应理解为本申请的限定。

基于此，模型训练装置在前述实施例中，具体应该将所得到的多模态视频特征集合输入至第一待训练分类模型，然后第一待训练标签模型基于多模态视频特征集合输出每个视频样本对应的第一预测视频标签。同理，模型训练装置将多模态视频特征集合输入至第一待训练分类模型，第一待训练分类模型基于多模态视频特征集合输出每个视频样本对应的第一预测分类结果。以及，模型训练装置将多模态视频特征集合输入至第二待训练标签模型，第二待训练标签模型基于多模态视频特征集合输出每个视频样本对应的第二预测视频标签，其他模型也是具体基于多模态视频特征集合输出结果的，此处不再赘述。

应理解，在实际应用中，除了使用视频样本中的多种模态信息获取多模态视频特征外，还可以获取视频相关的特征信息，比如发布该视频的账号信息是确定且唯一的，那么属于外部特征信息，相同账号下发布的视频，可能会具有相似的特征信息，因此也可以将作者账号信息引入模型一起训练，具体方式此处不做限定。

本申请实施例中，提供了另一种模型训练的方法，采用上述方式，通过对视频样本进行特征化处理能够得到更为精准的多模态视频特征，该特征能够精准的描述视频样本中的特征信息，由此使得待训练模型能够更准确的基于多模态视频特征获取视频样本的预测值，在保证模型训练可信性的基础上，进一步地提升模型训练的可靠性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，获取视频样本集合、真实分类结果集合以及真实标签集合，具体包括：

获取初始视频样本集合、初始真实分类结果集合以及初始真实标签集合，其中，初始视频样本集合包括多个初始视频样本，多个初始视频样本的数量大于多个视频样本的数量，初始真实分类结果集合包括每个初始视频样本对应的真实分类结果，初始真实标签集合包括每个初始视频样本对应的真实标签；

对初始视频样本集合进行抽样处理，以得到视频样本集合；

本实施例中，模型训练装置先获取初始视频样本集合、初始真实分类结果集合以及初始真实标签集合，此时初始视频样本集合包括多个初始视频样本，多个初始视频样本的数量大于多个视频样本的数量，初始真实分类结果集合包括每个初始视频样本对应的真实分类结果，初始真实标签集合包括每个初始视频样本对应的真实标签，为了减少模型的数据处理量以及避免多个类似重复视频样本对模型训练的影响，对初始视频样本集合进行随机抽样处理，以得到视频样本集合，最后基于视频样本集合所包括的初始视频样本，从初始真实分类结果集合中确定真实分类结果集合，以及从初始真实标签集合中确定真实标签集合。

本申请实施例中，提供了另一种模型训练的方法，采用上述方式，能够减少模型的数据处理量以及避免多个类似重复视频样本对模型训练的影响，从而保证模型训练的可行性以及可靠性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，在得到目标分类模型之后，模型训练的方法还包括：

获取待分类视频，其中，待分类视频包括多个待分类视频帧；

对待分类视频进行特征化处理，得到多模态视频特征；

基于多模态视频特征通过目标分类模型，获取待分类视频的视频分类结果。

本实施例中，模型训练装置在得到目标分类模型之后，当需要进行视频分类任务时，先获取待分类视频，该待分类视频包括多个待分类视频帧，然后对待分类视频进行特征化处理，得到多模态视频特征，特征化处理的方式与前述实施例所描述的类似，此次不再赘述。最后，将多模态视频特征输入至训练得到的目标分类模型，由此获取待分类视频的视频分类结果。

本申请实施例中，提供了一种基于模型进行视频分类的方法，采用上述方式，由于在对目标分类模型进行模型训练时，能够将在标签信号下学习到的细粒度、区分性高的特征迁移到待训练的分类模型中，因此目标分类模型进行训练的过程中能够学习到视频标签中的细粒度特征，又能学习到分类任务的泛化性，从而保证所得到的目标分类模型能够准确的获取视频中更为细粒度的特征，由此提升所得到的待分类视频的视频分类结果的准确度。

图8为本申请实施例提供的一种模型训练装置的结构示意图，如图8所示，该模型训练装置800包括：

获取模块801，用于获取视频样本集合、真实分类结果集合以及真实标签集合，其中，视频样本集合包括多个视频样本，真实分类结果集合包括每个视频样本对应的真实分类结果，真实标签集合包括每个视频样本对应的真实标签，真实标签与真实分类结果具有对应关系；

获取模块801，还用于基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签；

训练模块802，用于根据真实标签集合以及每个视频样本对应的第一预测视频标签，训练第一待训练标签模型，以得到第二待训练标签模型，其中，第二待训练标签模型为第一待训练标签模型进行一次迭代后得到的；

获取模块801，还用于基于视频样本集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果；

获取模块801，还用于基于视频样本集合，通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签；

训练模块802，还用于根据真实标签集合、每个视频样本对应的第二预测视频标签、真实分类结果集合以及每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型，其中，目标分类模型用于对视频进行分类。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的模型训练装置800的另一实施例中，获取模块801，还用于在基于视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签之前，基于视频样本集合，通过第三待训练标签模型得到每个视频样本对应的第三预测视频标签；

训练模块802，还用于根据真实标签集合以及每个视频样本对应的第三预测视频标签，对第三待训练标签模型进行训练，得到第三标签模型。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的模型训练装置800的另一实施例中，训练模块802，具体用于基于视频样本集合，通过第三标签模型得到每个视频样本对应的第三预测视频标签；

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的模型训练装置800的另一实施例中，训练模块802，具体用于根据真实分类结果集合以及每个视频样本对应的第一预测分类结果，训练第一待训练分类模型，以得到第二待训练分类模型，其中，第二待训练分类模型为第一待训练分类模型进行一次迭代后得到的；

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的模型训练装置800的另一实施例中，模型训练装置还包括处理模块803；

处理模块803，用于对视频样本集合中每个视频样本进行特征化处理，得到多模态视频特征集合，其中，多模态视频特征集合包括每个视频样本的多模态视频特征，多模态视频特征包括视频帧特征，或，多模态视频特征包括文本特征、音频特征中的一个或多个以及视频帧特征；

获取模块801，具体用于基于多模态视频特征集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签；

获取模块801，具体用于基于多模态视频特征集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果；

获取模块801，具体用于基于多模态视频特征集合，通过第二待训练标签模型得到每个视频样本对应的第二预测视频标签。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的模型训练装置800的另一实施例中，获取模块801，具体用于获取初始视频样本集合、初始真实分类结果集合以及初始真实标签集合，其中，初始视频样本集合包括多个初始视频样本，多个初始视频样本的数量大于多个视频样本的数量，初始真实分类结果集合包括每个初始视频样本对应的真实分类结果，初始真实标签集合包括每个初始视频样本对应的真实标签；

对初始视频样本集合进行抽样处理，以得到视频样本集合；

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的模型训练装置800的另一实施例中，获取模块801，还用于在得到目标分类模型之后，获取待分类视频，其中，待分类视频包括多个待分类视频帧；

处理模块803，还用于对待分类视频进行特征化处理，得到多模态视频特征；

获取模块801，还用于基于多模态视频特征通过目标分类模型，获取待分类视频的视频分类结果。

本申请实施例还提供了另一种模型训练装置，模型训练装置都可以部署于服务器，也可以部署于终端设备，本申请中以模型训练装置部署于服务器为例进行说明，请参阅图9，图9为本申请实施例中服务器一个实施例示意图，如图所示，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（centralprocessing units，CPU）1022（例如，一个或一个以上处理器）和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030（例如一个或一个以上海量存储设备）。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。

该服务器所包括的CPU 1022用于执行如图2所示实施例以及图2对应的各个实施例。

本申请还提供了一种终端设备，用于执行图2所示实施例以及图2对应的各个实施例中模型训练装置执行的步骤。如图9所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。以终端设备为手机为例进行说明：

图10示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图10，手机包括：射频（Radio Frequency，RF）电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真（wireless fidelity，WiFi）模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1180处理；另外，将设计上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low NoiseAmplifier，LNA）、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System of Mobile communication，GSM）、通用分组无线服务（General PacketRadio Service，GPRS）、码分多址（Code Division Multiple Access，CDMA）、宽带码分多址（Wideband Code Division Multiple Access，WCDMA）、长期演进（Long Term Evolution，LTE）、电子邮件、短消息服务（Short Messaging Service，SMS）等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1130可用于接收输入的数字或字符信息，以及产生与手机的对象设置以及功能控制有关的键信号输入。具体地，输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131，也称为触摸屏，可收集对象在其上或附近的触摸操作（比如对象使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测对象的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由对象输入的信息或提供给对象的信息以及手机的各种菜单。显示单元1140可包括显示面板1141，可选的，可以采用液晶显示器（LiquidCrystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等形式来配置显示面板1141。进一步的，触控面板1131可覆盖显示面板1141，当触控面板1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图10中，触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，此处不做赘述。

音频电路1160、扬声器1161，传声器1162可提供对象与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给比如另一手机，或者将音频数据输出至存储器1120以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1170可以帮助对象收发电子邮件、浏览网页和访问流式媒体等，它为对象提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1170，但是可以理解的是，其并不属于手机的必须构成。

处理器1180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1180可包括一个或多个处理单元；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、对象界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

手机还包括给各个部件供电的电源1190（比如电池），优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，此处不做赘述。

在本申请实施例中，该终端所包括的处理器1180用于执行如图2所示实施例以及图2对应的各个实施例。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述图2所示实施例描述的方法中模型训练装置所执行的步骤。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图2所示实施例描述的方法中模型训练装置所执行的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如至少两个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少两个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取视频样本集合、真实分类结果集合以及真实标签集合，其中，所述视频样本集合包括多个视频样本，所述真实分类结果集合包括每个视频样本对应的真实分类结果，所述真实标签集合包括每个视频样本对应的真实标签，所述真实标签与真实分类结果具有对应关系；

基于所述视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签；

根据所述真实标签集合以及所述每个视频样本对应的第一预测视频标签，训练所述第一待训练标签模型，以得到第二待训练标签模型，其中，所述第二待训练标签模型为所述第一待训练标签模型进行一次迭代后得到的；

基于所述视频样本集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果；

基于所述视频样本集合，通过所述第二待训练标签模型得到每个视频样本对应的第二预测视频标签；

根据所述真实标签集合、所述每个视频样本对应的第二预测视频标签、所述真实分类结果集合以及所述每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型，其中，所述目标分类模型用于对视频进行分类。

2.根据权利要求1所述的方法，其特征在于，在所述基于所述视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签之前，所述方法还包括：

基于所述视频样本集合，通过第三待训练标签模型得到每个视频样本对应的第三预测视频标签；

根据所述真实标签集合以及所述每个视频样本对应的第三预测视频标签，对所述第三待训练标签模型进行训练，得到第三标签模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述真实标签集合以及所述每个视频样本对应的第一预测视频标签，训练所述第一待训练标签模型，以得到第二待训练标签模型，包括：

基于所述视频样本集合，通过所述第三标签模型得到每个视频样本对应的第三预测视频标签；

根据所述每个视频样本对应的第三预测视频标签以及所述每个视频样本对应的第一预测视频标签，通过第一损失函数对所述第一待训练标签模型的模型参数进行一次迭代更新，以得到所述第二待训练标签模型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述真实标签集合、所述每个视频样本对应的第二预测视频标签、所述真实分类结果集合以及所述每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型，包括：

根据所述真实分类结果集合以及所述每个视频样本对应的第一预测分类结果，训练所述第一待训练分类模型，以得到第二待训练分类模型，其中，所述第二待训练分类模型为所述第一待训练分类模型进行一次迭代后得到的；

根据所述真实标签集合以及所述每个视频样本对应的第二预测视频标签，训练所述第二待训练标签模型，以得到第四待训练标签模型，其中，所述第四待训练标签模型为所述第一待训练标签模型进行二次迭代后得到的；

基于所述视频样本集合，通过所述第二待训练分类模型得到每个视频样本对应的第二预测分类结果；

基于所述视频样本集合，通过所述第四待训练标签模型得到每个视频样本对应的第四预测视频标签；

根据所述真实标签集合、所述每个视频样本对应的第四预测视频标签、所述真实分类结果集合以及所述每个视频样本对应的第二预测分类结果，对所述第二待训练分类模型进行训练，以得到所述目标分类模型。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述视频样本集合中每个视频样本进行特征化处理，得到多模态视频特征集合，其中，所述多模态视频特征集合包括每个视频样本的多模态视频特征，所述多模态视频特征包括视频帧特征，或，所述多模态视频特征包括文本特征、音频特征中的一个或多个以及所述视频帧特征；

所述基于所述视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签，包括：

基于所述多模态视频特征集合，通过所述第一待训练标签模型得到所述每个视频样本对应的第一预测视频标签；

所述基于所述视频样本集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果，包括：

基于所述多模态视频特征集合，通过所述第一待训练分类模型得到所述每个视频样本对应的第一预测分类结果；

所述基于所述视频样本集合，通过所述第二待训练标签模型得到每个视频样本对应的第二预测视频标签，包括：

基于所述多模态视频特征集合，通过所述第二待训练标签模型得到所述每个视频样本对应的第二预测视频标签。

6.根据权利要求1所述的方法，其特征在于，所述获取视频样本集合、真实分类结果集合以及真实标签集合，包括：

获取初始视频样本集合、初始真实分类结果集合以及初始真实标签集合，其中，所述初始视频样本集合包括多个初始视频样本，所述多个初始视频样本的数量大于所述多个视频样本的数量，所述初始真实分类结果集合包括每个初始视频样本对应的真实分类结果，所述初始真实标签集合包括每个初始视频样本对应的真实标签；

对所述初始视频样本集合进行抽样处理，以得到所述视频样本集合；

基于所述视频样本集合所包括的初始视频样本，从所述初始真实分类结果集合中确定所述真实分类结果集合，以及从所述初始真实标签集合中确定所述真实标签集合。

7.根据权利要求1至6中任一项所述的方法，其特征在于，在所述得到目标分类模型之后，所述方法还包括：

获取待分类视频，其中，所述待分类视频包括多个待分类视频帧；

对所述待分类视频进行特征化处理，得到多模态视频特征；

基于所述多模态视频特征通过目标分类模型，获取所述待分类视频的视频分类结果。

8.一种模型训练装置，其特征在于，所述模型训练装置包括：

获取模块，用于获取视频样本集合、真实分类结果集合以及真实标签集合，其中，所述视频样本集合包括多个视频样本，所述真实分类结果集合包括每个视频样本对应的真实分类结果，所述真实标签集合包括每个视频样本对应的真实标签，所述真实标签与真实分类结果具有对应关系；

所述获取模块，还用于基于所述视频样本集合，通过第一待训练标签模型得到每个视频样本对应的第一预测视频标签；

训练模块，用于根据所述真实标签集合以及所述每个视频样本对应的第一预测视频标签，训练所述第一待训练标签模型，以得到第二待训练标签模型，其中，所述第二待训练标签模型为所述第一待训练标签模型进行一次迭代后得到的；

所述获取模块，还用于基于所述视频样本集合，通过第一待训练分类模型得到每个视频样本对应的第一预测分类结果；

所述获取模块，还用于基于所述视频样本集合，通过所述第二待训练标签模型得到每个视频样本对应的第二预测视频标签；

所述训练模块，还用于根据所述真实标签集合、所述每个视频样本对应的第二预测视频标签、所述真实分类结果集合以及所述每个视频样本对应的第一预测分类结果，对第一待训练分类模型进行训练，以得到目标分类模型，其中，所述目标分类模型用于对视频进行分类。

9.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，以实现权利要求1至7中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7中任一项所述的方法。