CN117093733A

CN117093733A - 媒体分类模型的训练方法、媒体数据分类方法和装置

Info

Publication number: CN117093733A
Application number: CN202210504251.8A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2023-11-21

Abstract

本申请涉及一种媒体分类模型的训练方法，包括：获取样本媒体数据、样本模态信息、以及样本媒体数据所属的分类标签；通过待训练的媒体分类模型，对样本媒体数据的样本媒体隐特征进行特征转换，得到样本辅助隐特征，根据样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果；通过待训练的媒体分类模型，对样本模态信息的样本模态特征进行特征转换，得到模态参考特征，基于模态参考特征进行分类，得到第二预测结果；根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数，以对待训练的媒体分类模型进行训练。通过训练得到的媒体分类模型进行分类时可以提高分类准确性。

Description

媒体分类模型的训练方法、媒体数据分类方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种媒体分类模型的训练方法、媒体数据分类方法和装置。

背景技术

随着科技的发展，各种视频平台越来越流行，且各视频平台中包含的视频数量越来越多。为了更好地推进视频推荐、搜索和分发等业务的发展，目前已提出了视频分类技术，视频分类技术即确定视频标签。其中，视频标签不仅可以准确地刻画视频的特征，还可以辅助刻画目标对象的兴趣和习惯，更能够为视频推荐、搜索和分发等业务提供全面准确的依据。

在传统技术中，在进行视频分类时，主要是通过视频分类模型进行视频分类。其中，视频分类模型是将视频的分类标签作为监督信息进行训练所得到的。由此，训练过程所利用的监督信息比较受限，从而导致视频分类模型的训练效果不佳，进而导致通过视频分类模型对视频进行分类的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提升媒体分类模型训练效果的媒体分类模型的训练方法、媒体数据分类方法和装置。

一方面，本申请提供了一种媒体分类模型的训练方法，该方法包括：

获取训练数据，训练数据包括样本媒体数据、与样本媒体数据对应的样本模态信息、以及样本媒体数据所属的分类标签；

通过待训练的媒体分类模型中的第一网络结构，对样本媒体数据的样本媒体隐特征进行特征转换，得到样本辅助隐特征，根据样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果；

通过待训练的媒体分类模型中的第二网络结构，对样本模态信息的样本模态特征进行特征转换，得到模态参考特征，基于模态参考特征进行分类，得到第二预测结果；

根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数；

通过训练损失函数对待训练的媒体分类模型进行训练，在达到训练停止条件时停止，得到训练完成的媒体分类模型。

另一方面，本申请还提供了一种媒体分类模型的训练装置，该装置包括：

获取模块，用于获取训练数据，训练数据包括样本媒体数据、与样本媒体数据对应的样本模态信息、以及样本媒体数据所属的分类标签；

第一特征转换模块，用于通过待训练的媒体分类模型中的第一网络结构，对样本媒体数据的样本媒体隐特征进行特征转换，得到样本辅助隐特征；

第一分类模块，用于根据样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果；

第二特征转换模块，用于通过待训练的媒体分类模型中的第二网络结构，对样本模态信息的样本模态特征进行特征转换，得到模态参考特征；

第二分类模块，用于基于模态参考特征进行分类，得到第二预测结果；

构建模块，用于根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数；

训练模块，用于通过训练损失函数对待训练的媒体分类模型进行训练，在达到训练停止条件时停止，得到训练完成的媒体分类模型。

在其中一个实施例中，样本媒体数据包括样本视频；获取模块，还用于获取样本视频的视频嵌入特征序列；确定视频嵌入特征序列中各视频嵌入特征的时序；按照视频嵌入特征序列中各视频嵌入特征的时序，依次对视频嵌入特征进行叠加处理，得到样本媒体隐特征。

在其中一个实施例中，获取模块，还用于从样本视频中提取多个图像帧；分别提取每个图像帧各自在多个维度层次上的特征；将每一图像帧各自对应的多个特征进行组合处理，得到每一图像帧各自对应的视频嵌入特征；将由各图像帧分别对应的视频嵌入特征所形成的特征序列，作为样本视频的视频嵌入特征序列。

在其中一个实施例中，第一网络结构中包括有特征转换子结构，特征转换子结构通过至少一层全连接层构成；第一特征转换模块，用于通过特征转换子结构，对样本媒体隐特征作全连接处理，得到样本辅助隐特征。

在其中一个实施例中，第一分类模块，用于对样本媒体隐特征和样本辅助隐特征进行组合处理，得到样本组合特征；基于样本组合特征进行分类，得到第一预测结果。

在其中一个实施例中，第二特征转换模块，用于通过待训练的媒体分类模型中的第二网络结构，对样本模态特征进行至少一次的全连接处理，得到模态参考特征。

在其中一个实施例中，该装置还包括：

第三分类模块，用于通过第一网络结构，基于样本媒体隐特征进行分类，得到第三预测结果；相应地，构建模块，用于根据第一预测结果、第二预测结果、第三预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数。

在其中一个实施例中，构建模块，用于根据第一预测结果与分类标签间的差异，确定第一损失；根据第二预测结果与分类标签间的差异，确定第二损失；根据样本辅助隐特征与模态参考特征间的差异，确定第三损失；基于第一损失、第二损失和第三损失，构建训练损失函数。

在其中一个实施例中，构建模块，还用于对于每一训练数据，计算相应训练数据所对应的样本辅助隐特征与模态参考特征间的相似度；对每一训练数据各自对应的相似度进行求和，将求和结果作为第三损失。

在其中一个实施例中，训练损失函数包括第一训练损失函数和第二训练损失函数；相应地，构建模块，用于根据第一预测结果与分类标签间的差异，构建第一训练损失函数；根据第二预测结果与分类标签间的差异、以及样本辅助隐特征与模态参考特征间的差异，构建第二训练损失函数；

训练模块，用于基于第二训练损失函数执行第二训练过程，基于第一训练损失函数执行第一训练过程，且第二训练过程与第一训练过程交替执行；其中，第一训练过程是基于第一损失函数和当前批次的训练样本，对第一网络结构的参数进行调整的过程，第二训练过程是基于第二损失函数和当前批次的训练样本，对第二网络结构的参数进行调整的过程。

在其中一个实施例中，该装置还包括：

第三分类模块，用于通过第一网络结构，基于样本媒体隐特征进行分类，得到第三预测结果；相应地，构建模块，用于根据第一预测结果与分类标签间的差异、以及第三预测结果与分类标签间的差异，构建第一训练损失函数。

在其中一个实施例中，该装置还可以通过训练完成的媒体分类模型中的第一网络结构执行媒体数据的分类；相应地，该装置还包括：

分类应用模块，用于获取待分类的目标媒体数据，提取目标媒体数据中的媒体隐特征；对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征；基于媒体隐特征和辅助隐特征进行分类，得到待分类的目标媒体数据所属的类别。

另一方面，本申请还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现所述媒体分类模型的训练方法中的步骤。

另一方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现所述媒体分类模型的训练方法中的步骤。

另一方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述媒体分类模型的训练方法的步骤。

上述媒体分类模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，通过基于第一网络结构与第二网络结构中各子结构的损失，构建训练损失函数用于对媒体分类模型进行训练。这些损失中包括基于样本辅助隐特征与模态参考特征之间的差异所计算得到的损失。其中，样本辅助隐特征是由样本媒体隐特征学习其模态信息对应的特征表征所得到的，而模态参考特征又可以作为训练标签。由此，相当于可以从媒体数据对应的模态信息中挖掘了用于训练的监督信息，同时模态信息确实与媒体数据的内容相关联而有助于媒体数据分类，从而可以克服仅利用分类标签对媒体分类模型进行训练时监督信息太弱导致训练效果不佳的问题。因此，有利于提高媒体分类模型的训练效果，后续利用媒体分类模型对媒体数据进行分类时也可以提高分类准确性。

另一方面，本申请提供了一种媒体数据分类方法，该方法包括：

获取待分类的目标媒体数据，提取目标媒体数据中的媒体隐特征；

对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征；

组合媒体隐特征和辅助隐特征得到目标组合特征；

基于目标组合特征进行分类，输出待分类的目标媒体数据所属的类别。

另一方面，本申请提供了一种媒体数据分类装置，该装置包括：

获取模块，用于获取待分类的目标媒体数据，提取目标媒体数据中的媒体隐特征；

特征转换模块，用于对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征；

组合模块，用于组合媒体隐特征和辅助隐特征得到目标组合特征；

分类模块，用于基于目标组合特征进行分类，输出待分类的目标媒体数据所属的类别。

在其中一个实施例中，特征转换模块，用于基于预先训练得到的特征转换子结构，对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征；特征转换子结构通过以模态参考特征作为标签信息进行训练得到，模态参考特征为训练阶段在对样本媒体数据的样本模态信息进行分类的过程中所得到的特征。

另一方面，本申请还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述提供的媒体数据分类方法的步骤。

另一方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述提供的媒体数据分类方法的步骤。

另一方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述提供的媒体数据分类方法的步骤。

上述媒体数据分类方法、装置、计算机设备、存储介质和计算机程序产品，通过对待分类的目标媒体数据中的媒体隐特征进行特征转换，即可得到用于表征目标媒体数据的模态信息的辅助隐特征。组合媒体隐特征和辅助隐特征，可以得到更全面的更准确的表征目标媒体数据的目标组合特征，基于该组合特征就能准确的实现对目标媒体数据的分类。这样，可以在不增加推理复杂度的情况下，引入目标媒体数据的其他维度的模态信息，可以大大提高分类准确性。

附图说明

图1为一个实施例中媒体分类模型的训练方法的应用环境图；

图2为一个实施例中媒体分类模型的训练方法的流程示意图；

图3为一个实施例中第一网络结构的结构示意图；

图4为一个实施例中第二网络结构的结构示意图；

图5为一个实施例中LSTM的结构示意图；

图6为一个实施例中LSTM中遗忘门的结构示意图；

图7为一个实施例中LSTM中输入门的结构示意图；

图8为一个实施例中LSTM中细胞状态更新的示意图；

图9为一个实施例中LSTM中输出门的结构示意图；

图10为另一个实施例中媒体分类模型的训练方法的流程示意图；

图11为一个实施例中媒体数据分类方法的流程示意图；

图12为一个实施例中媒体分类模型在训练过程中的结构示意图；

图13为一个实施例中媒体分类模型在应用过程中的结构示意图；

图14为一个实施例中媒体分类模型的训练装置的结构框图；

图15为一个实施例中媒体数据分类装置的结构框图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本申请实施例中涉及到的名词和技术进行简要解释说明：

媒体数据：指的是通过媒体为载体进行呈现的数据，可以包括文本、图像、视频和音频等。

模态信息：指的是与媒体数据在内容上存在关联的信息。例如，若媒体数据为视频，则可以理解的是，视频通常不会仅有视频数据，通常还会有视频标题或者视频简介等与视频在内容上存在关联的信息，这些信息可以称之为模态信息。可以理解的是，媒体数据的不同，其对应的模态信息也会有所不同。再例如，若媒体数据为图像，则模态信息可以为图像简介。

隐特征：神经网络除了输入层与输出层之外，中间还有一些处理基层，这些处理基层输出的特征称为隐特征；中间的处理基层可以包括卷积层、池化层和全连接层等。

媒体分类：指的是给定一个媒体数据，确定其对应的类型标签。例如，以媒体数据为视频为例，可以得到视频对应的分类，如生活日常类视频、宠物类视频、搞笑类视频和影评类视频等。

另外，在本申请实施例中，媒体分类模型的训练过程和后续的分类应用过程，主要是涉及人工智能(Artificial Intelligence，AI)和机器学习技术，基于人工智能中的语音技术、自然语言处理技术和机器学习(Machine Learning，ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人和智能医疗等，相信随着技术的发展，人工智能将在更多的领域获得应用，并发挥越来越重要的价值。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言，机器学习更加注重算法的设计，让计算机能够自动地从数据中“学习”规律，并利用规律对未知数据进行预测。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

在一些实施例中，结合上述名词解释，本申请实施例提供的媒体分类模型的训练方法或者媒体数据分类方法，可以应用于如图1所示的应用环境中。其中，终端102可通过有线或者无线网络，直接或者间接地与服务器104进行通信，本申请实施例对此不作具体限定。另外，终端102或者服务器104可各自单独用于执行本申请实施例中的媒体分类模型的训练方法，也可各自单独用于执行本申请实施例中的媒体数据分类方法；还可以是两者协同用于执行本申请实施例中的媒体分类模型的训练方法，也可以是两者协同用于执行本申请实施例中的媒体数据分类方法。

对于单独执行，现以服务器104单独执行媒体分类模型的训练方法时的其中一种实施过程为例。具体地，服务器104可以提前获取训练数据并存储，通过内部存储的媒体分类模型中的网络结构，对训练数据作特征转换处理，基于特征转换后得到的特征构建训练损失函数，从而基于训练损失函数实现对媒体分类模型的训练。

对于协同执行，现以两者协同执行媒体分类模型的训练方法时其中一种实施过程为例，终端102可以向服务器104上传训练数据，而服务器104可以基于终端102上传的训练数据，通过服务器104内部存储的媒体分类模型中的网络结构，对上传的训练数据作特征转换，基于特征转换后得到的特征构建训练损失函数，从而基于训练损失函数实现对媒体分类模型的训练。数据存储系统可以存储服务器104获取到的训练数据，还可以存储媒体分类模型，以后续基于训练数据对媒体分类模型进行训练。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。终端上可运行有应用程序，比如视频应用、或音频应用等，用于呈现媒体数据。服务器104则可以是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行媒体分类的服务器，本申请实施例不做具体限定。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一些实施例中，结合上述名词解释、技术解释和实施环境说明，如图2所示，提供了一种媒体分类模型的训练方法，以该方法应用于计算机设备(该计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤202、获取训练数据，训练数据包括样本媒体数据、与样本媒体数据对应的样本模态信息、以及样本媒体数据所属的分类标签。

其中，样本模态信息主要指的是从另一个角度给出的、与样本媒体数据内容存在关联的信息，样本模态信息的类型可以与样本媒体数据的类型相关联。例如，若样本媒体数据为视频数据，则模态信息可以为与视频内容上存在关联的视频标题、或视频简介等，也即文本数据。或者，对于视频中的音频，其自然与视频内容会存在关联，从而也可以作为模态信息。再例如，若样本媒体数据为图像数据，则模态信息可以为与图像内容上存在关联的图像简介，也即文本数据。

样本媒体数据所属的分类标签主要用于指示样本媒体数据属于哪种分类。以样本媒体数据为视频为例，视频所属的分类标签可以为影视剧、电视剧、体育比赛、教育讲座和直播带货等。分类标签的数据形式可以为数字编号，也可以为字段标识，本申请实施例对此不作具体限定。

需要说明的是，由上述举例可知，对于某一种类型的样本媒体数据，其对应的样本模态信息可能会不止一种类型。例如，对于视频，视频标题、视频简介和视频中的音频均可以作为其对应的模态信息。由此，在本步骤中，计算机设备获取到的训练数据中每一样本模态信息，其对应的样本模态信息的类型可以不是唯一的，本申请实施例对此不作具体限定。另外，本申请实施例使用的训练数据可以来自Imagenet，Imagenet指的是大型通用物体识别开源数据集。当然，实际实施过程中还可以有其它训练数据来源，本申请实施例对此不作具体限定。

以计算机设备为服务器为例，可以理解的是，本申请实施例中训练媒体分类模型，可以是用于对服务器后续存储的媒体数据进行分类，而服务器存储的媒体数据通常来自于终端上传。也即在某些应用场景下，终端实际上会向服务器上传媒体数据，而服务器则需要对终端上传的媒体数据进行存储。由此，本步骤服务器在获取训练数据时，可以是实时获取终端上传的媒体数据作为训练数据。也即，每当终端向服务器上传媒体数据，服务器除了媒体分类模型对媒体数据进行分类的同时，还可以存储终端上传的媒体数据用于训练过程。通过上述过程，可以使得媒体分类模型不断学习新样本，从而可以提高媒体分类模型的泛化能力，进而可以提高媒体分类模型后续分类的准确性。

步骤204、通过待训练的媒体分类模型中的第一网络结构，对样本媒体数据的样本媒体隐特征进行特征转换，得到样本辅助隐特征，根据样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果。

在执行本步骤之前，计算机设备可以先将样本媒体数据转化为可以被媒体分类模型处理的样本媒体隐特征，也即获取样本媒体数据的样本媒体隐特征的过程。例如，以样本媒体数据为视频为例，由于视频数据不能直接参与模型中的计算过程，从而可通过计算设备将其转化为视频特征向量，也即样本媒体隐特征。

在其中一个实施例中，第一预测结果即为媒体分类模型中的第一网络结构对样本媒体数据进行分类的分类结果。需要说明的是，一个样本媒体数据实际对应的分类结果可能为一个或多个，本申请实施例对此不作具体限定。例如，若一个视频中的内容为表演者演奏乐器，则该样本视频对应的类别可以为乐器演奏；或者，若一个视频中的内容为某人边散步边唱歌，则该样本视频对应的类别可以为生活日常或者唱歌。另外，本步骤中的第一预测结果，以及后续步骤中的第二预测结果，可以与分类标签同属同一类型范围，例如可以为影视剧、电视剧、体育比赛、教育讲座和直播带货等，本申请实施例对此也不作具体限定。

本步骤提及的媒体分类模型可以为神经网络模型，神经网络模型中通常会包含很多处理基层，这些处理基层之间存在连接关系。可以理解的是，不同的处理基层通过相互连接可以形成具有局部完整处理功能的网络结构。例如，在有些神经网络中可以存在将原始数据转换为特征向量的网络结构，如将文本数据转化为特征向量的网络结构，这个网络结构也是由多个处理基层组成。而在本申请实施例中，可以在媒体分类模型中形成了具有局部完整处理功能的第一网络结构。对应于本步骤提及的各个处理过程，第一网络结构可以实现对样本媒体隐特征进行特征转换、以及实现根据样本媒体隐特征和样本辅助隐特征对样本媒体数据进行分类的功能。

而由上述内容可知，样本媒体数据需要被转化为样本媒体隐特征。由此，第一网络结构除了可以实现上述提及的各项功能之外，还可以用于实现将样本媒体数据转化为样本媒体隐特征的功能。当然，实际实施过程中，该功能也可以不由第一网络结构实现，而是由媒体分类模型中的其它网络结构实现，本申请实施例对此不作具体限定。

以第一网络结构用于实现将样本媒体数据转化为样本媒体隐特征的功能为例，将样本媒体数据转化为样本媒体隐特征，主要是为了将样本媒体数据转化为可以被媒体分类模型处理的数据。由此，第一网络结构中可以包括将样本媒体数据转化为样本媒体隐特征的处理基层。而对样本媒体隐特征进行特征转换，主要是为了使得样本媒体隐特征能够学习到样本模态信息对应的特征表征，从而形成携带有其模态信息对应特征表征的隐特征，也即样本辅助隐特征。由此，第一网络结构中可以包括用于对样本媒体隐特征进行特征转换的处理基层。上述两个功能主要是用于得到用于分类的隐特征，得到隐特征自然需要基于隐特征实现分类。由此，第一网络结构中还可以包括用于实现分类得到第一预测结果的处理基层。

综上，第一网络结构中可以包括用于实现上述各项功能的处理基层。而实现上述各项功能的处理基层其对应的具体处理方式，也即获取样本媒体隐特征的方式、特征转换的方式以及分类处理的方式，可以与处理基层的类型以及其内部具体结构相关联。结合上述提及的内容，第一网络结构中用于实现上述各项功能的处理基层之间的连接关系可以参考图3。

需要说明的是，图3仅仅是示例性的，第一网络结构是否还包括除图3中示例之外的处理基层，图3中的处理基层其内部是否包含其它子结构，或者图3中示例的处理基层之间是否还存在其它处理基层，均可以基于实际需求进行设置，本申请实施例不对第一网络结构中是否还包括其它处理基层，第一网络结构中实现上述各项功能的处理基层的类型、处理基层的内部具体结构以及彼此之间的连接关系作具体限定。例如，处理基层的类型可以为全连接层，处理基层的内部结构及连接关系可以是多个全连接层相互连接。

步骤206、通过待训练的媒体分类模型中的第二网络结构，对样本模态信息的样本模态特征进行特征转换，得到模态参考特征，基于模态参考特征进行分类，得到第二预测结果。

在执行本步骤之前，可以先将样本模态信息转化为可以被媒体分类模型处理的样本模态特征，也即获取样本模态信息的样本模态特征的过程。例如，以样本模态信息为媒体标题为例，由于媒体标题实际上是文本数据，而文本数据不能直接参与模型中的计算过程，从而可将其转化为文本特征向量，也即样本模态特征。

在其中一个实施例中，第二网络结构可以实现对样本模态特征进行特征转换的功能。结合后续步骤的内容可知，之所以称之为“模态参考特征”，一方面是由于该特征实际上主要就是基于模态信息进行转化得到的，所以带入了“模态”二字的表述；另一方面，是由于该特征后续实际上会作为样本辅助隐特征对应的训练标签，所以带入了“参考”二字的表述。

与步骤204中的解释内容同理，可以理解的是，第二网络结构中可以包括用于实现对样本模态特征进行特征转换的处理基层，还可以包括用于实现分类得到第二预测结果的处理基层。在本步骤中，第二预测结果即为媒体分类模型中的第二网络结构基于样本模态信息对样本媒体数据进行分类的分类结果。第二网络结构中实现上述各项功能的处理基层其对应的具体处理方式，也即对样本模态特征进行特征转换、以及分类处理的方式，也可以与处理基层的类型以及其内部具体结构相关联。结合上述提及的内容，第二网络结构中用于实现上述各项功能的处理基层之间的连接关系可以参考图4。

需要说明的是，图4仅仅是示例性的，第二网络结构是否还包括除图4中示例之外的处理基层，图4中的处理基层其内部是否包含其它子结构，或者图4中示例的处理基层之间是否还存在其它处理基层，均可以基于实际需求进行设置，本申请实施例不对第二网络结构中是否还包括其它处理基层，第二网络结构中实现上述各项功能的处理基层的类型、处理基层的内部具体结构以及彼此之间的连接关系作具体限定。例如，处理基层的类型可以为全连接层，处理基层的内部结构及连接关系可以是多个全连接层相互连接。

还需要说明的是，上述内容有提及样本模态信息需要被转化为样本模态特征。由此，图4中，也即第二网络结构中还可以包括用于实现将样本模态信息转化为样本模态特征的处理基层，该处理基层可以与图4中“实现特征转换功能的处理基层”连接，以向该处理基层输入样本模态特征，本申请实施例对此不作具体限定。当然，实际实施过程中，将样本模态信息转化为样本模态特征的功能也可以不由第二网络结构实现，而是由媒体分类模型中的其它网络结构实现，本申请实施例对此不作具体限定。

另外，后续步骤中会模态参考特征作为样本辅助隐特征对应的训练标签。由此，图3中所示的第一网络结构与图4中所示的第二网络结构之间还可以存在关联关系，具体体现在可以将第二网络结构中生成的模态参考特征作为训练标签传递至第一网络结构中。

步骤208、根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数。

其中，第一预测结果与分类标签之间的差异，可以用于表示第一网络结构中根据样本媒体隐特征和样本辅助隐特征进行分类的子结构的损失。第二预测结果与分类标签之间的差异，可以用于表示第二网络结构中基于模态参考特征进行分类的子结构的损失。而样本辅助隐特征与模态参考特征间的差异，可以用于表示第一网络结构中对样本媒体隐特征进行特征转换的子结构的损失。基于上述提及的三种损失，即可构建得到训练损失函数。本申请实施例不对基于上述提及的三种损失，构建得到训练损失函数的方式作具体限定，包括但不限于：对三种损失进行加权求和，得到训练损失函数。

上述三种损失各自具体的计算方式，可以基于实际需求进行设置，如采用均方差损失、L1损失、L2损失、指数损失、负对数似然损失或平方损失等，本申请实施例对此不作具体限定。

需要说明的是，由于用于训练媒体分类模型的计算机设备通常处理资源有限，而训练数据通常又是海量的，从而实际实施过程中训练数据通常是分批次进行训练的，也即通常是多个批次训练数据且每一批次中有多个训练数据。由此，每一训练数据均可以计算得到对应的损失，而训练损失函数是对每一训练数据对应的损失进行累加所得到的，从而训练损失函数的取值则可以与训练数据的批次以及每一批次中训练数据的数量相关。也即，训练损失函数中的变量可以包括训练数据的总批次以及每一批次中训练数据的总数量。

步骤210、通过训练损失函数对待训练的媒体分类模型进行训练，在达到训练停止条件时停止，得到训练完成的媒体分类模型。

具体地，在对媒体分类模型进行训练时，训练对象可以是媒体分类模型中网络结构的参数。例如，结合上述步骤中的解释内容可知，第一网络结构中可以包括根据样本媒体隐特征和样本辅助隐特征进行分类的子结构，第二网络结构中可以包括基于模态参考特征进行分类的子结构，第一网络结构中还可以包括对样本媒体隐特征进行特征转换的子结构。而在本步骤中，即可以对上述提及的三种子结构中的参数进行训练。

需要说明的是，结合步骤204的内容可知，可以通过第一网络结构实现将样本媒体数据转化为样本媒体隐特征。由此，第一网络结构中还可以包括用于将样本媒体数据转化为样本媒体隐特征的子结构。而结合步骤206的内容可知，计算机设备可以通过第二网络结构实现将样本模态信息转化为样本模态特征。由此，第二网络结构中还可以包括用于将样本模态信息转化为样本模态特征的子结构。对于上述提及的两种子结构，在对媒体分类模型进行训练时，可以基于需求对该两种子结构中的至少一种子结构中的参数进行同时训练，本申请实施例对此不作具体限定。

还需要说明的是，计算机设备在对媒体分类模型中的第一网络结构和第二网络结构进行训练时，每次训练过程第一网络结构和第二网络结构均可以采用相同的训练数据。与此同时，在训练过程中，计算机设备可以用相同的训练数据对媒体分类模型中的第一网络结构和第二网络结构进行同时训练。具体地，计算机设备可以利用某一批次训练数据，同时对第一网络结构和第二网络结构进行训练，得到该批次训练数据下，上述内容提及的各个子结构的损失。接着，计算机设备可以换一批次训练数据，接着同时对第一网络结构和第二网络结构进行训练。由于每一批次训练数据下各个子结构的损失是可以获知的，从而自然可以得到训练损失函数对应的数值。计算机设备通过重复上述训练过程，直至达到训练停止条件时停止。

当然，除了上述同时训练的方式之外，还可以采用交替训练的方式。具体地，计算机设备可以利用某一批次训练数据，先对第二网络结构进行训练，再利用同一批次训练数据对第一网络结构进行训练。与此同时，可以得到该批次训练数据下，上述内容提及的各个子结构的损失。接着，计算机设备可以换一批次训练数据，又进行交替训练。由于每一批次训练数据下各个子结构的损失是可以获知的，从而自然可以得到训练损失函数对应的数值。通过重复上述训练过程，直至达到训练停止条件时停止。可以理解的是，本步骤提及的训练停止条件即为训练过程的结束条件。关于训练停止条件的设置方式，本申请实施例对此不作具体限定，包括但不限于：训练损失函数的数值收敛或者不再下降。

上述媒体分类模型训练方法，通过基于第一网络结构与第二网络结构中各子结构的损失，构建训练损失函数用于对媒体分类模型进行训练。这些损失中包括基于样本辅助隐特征与模态参考特征之间的差异所计算得到的损失。其中，样本辅助隐特征是由样本媒体隐特征学习其模态信息对应的特征表征所得到的，而模态参考特征又可以作为训练标签。由此，相当于可以从媒体数据对应的模态信息中挖掘了用于训练的监督信息，同时模态信息确实与媒体数据的内容相关联而有助于媒体数据分类，从而可以克服仅利用分类标签对媒体分类模型进行训练时监督信息太弱导致训练效果不佳的问题。因此，有利于提高媒体分类模型的训练效果，后续利用媒体分类模型对媒体数据进行分类时也可以提高分类准确性。

上述实施例中提及了样本媒体数据需要被转化为能够被媒体分类模型处理的样本媒体隐特征，且该过程可以由第一网络结构实现。基于该项说明，现以样本媒体数据为样本视频为例，对样本视频转化为样本媒体隐特征的过程进行说明。在一些实施例中，样本媒体隐特征的获取过程，包括：获取样本视频的视频嵌入特征序列；确定视频嵌入特征序列中各视频嵌入特征的时序；按照视频嵌入特征序列中各视频嵌入特征的时序，依次对视频嵌入特征进行叠加处理，得到样本媒体隐特征。

可以理解的是，视频实际上是由具有时序的多个图像帧所组成的。而对于该多个图像帧中的某些图像帧，这些图像帧中每一图像帧均可以转化为视频嵌入特征。具体地，计算机设备可以通过卷积神经网络或者深度神经网络实现图像帧至特征之间的转化，本申请实施例不对转化方式作具体限定。其中，在图像内容上有关联的图像帧，其对应的视频嵌入特征会在某些维度上较为接近或者有相同的规律。

可以理解的是，对应于多个图像帧对应的时序，视频嵌入特征序列中各视频嵌入特征也是具有时序的，各视频嵌入特征对应的时序可以通过时刻进行表示。为了适应对时序数据的处理，在本申请实施例中，可以采用循环神经网络对视频嵌入特征序列进行叠加处理，以得到样本媒体隐特征。更进一步地，考虑到循环神经网络存在梯度消失的问题，从而在本申请实施例中还可以采用LSTM(Long Short-Term Memory，长短期记忆网络)对视频嵌入特征序列进行叠加处理。

为了便于理解，以通过长短期记忆网络对视频嵌入特征序列进行叠加处理为例，现结合图5中长短期记忆网络的结构，对叠加处理的过程进行说明。如图5所示，图5中给出了三个封装结构依次连接的情形。图5中的每一封装结构均为长短期记忆网络中的一层结构，视频嵌入特征序列中的每一视频嵌入特征均对应长短期记忆网络中的一层结构。以每一视频嵌入特征均为2048维度为例，则第t时刻的视频嵌入特征可以表示为x_t，而x_t可以进一步表示为[Batch，t，2048]。其中，“t”表示是第几个时刻的视频嵌入特征，“2048”表示视频嵌入特征的维度，而“Batch”表示该视频嵌入特征对应的样本视频属于哪一个批次的视频。h_t表示第t时刻输出的隐特征。相应地，x_t-1表示第t-1时刻的视频嵌入特征，h_t-1表示第t-1时刻输出的隐特征；x_t+1表示第t+1时刻的视频嵌入特征，h_t+1表示第t+1时刻输出的隐特征。

在本申请实施例中，LSTM中的每一层结构均可以进一步划分为LSTM1和LSTM2。对于某一层结构，该层结构中的LSTM1层用于输出该层结构对应的隐特征，而LSTM2层用于输出该层结构对应的细胞状态。

LSTM的每一层结构中均存在遗忘门、输入门和输出门三种门结构。对于第t时刻对应的层结构，其中遗忘门的结构可以参考图6。如图6所示，加粗部分即为遗忘门结构。其中，输入的x_t即为第t时刻的视频嵌入特征，C_t-1指的是第t-1时刻输出的细胞状态，h_t-1指的是第t-1时刻输出的隐特征。f_t指的是遗忘向量，其每一位置的取值均为0至1，通过将该遗忘向量与C_t-1作按位乘，C_t-1向量中的部分值会变小，就相当于“信息”被忘记了，而遗忘向量自然表示的是要以多大程度忘记C_t-1中的信息。f_t是基于h_t-1和C_t-1所计算得到的，具体计算过程可参考如下计算公式(1)：

f_t＝σ(W_f[h_t-1,x_t]+b_f)； (1)

在上述公式(1)中，σ表示激活函数，W_f和b_f分别表示遗忘门的权重和偏差。需要说明的是，输出的隐特征可以为1024维度的数据，而输出的细胞状态可以为512维度的数据，本申请实施例不对输出特征的维度作具体限定。

输入门的结构可以参考图7，如图7所示，加粗部分即为输入门结构。其中，i_t相当于信息强化向量，其每一位置的取值与f_t相同均为0至1，而指的是单元状态更新值。i_t可以用于控制/>中的哪些特征用于更新C_t，从而实现将新的信息选择性的记录到细胞状态中。i_t与/>各自的具体计算过程可参考如下计算公式(2)和(3)：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)； (2)

在上述公式(2)和(3)中，tanh表示激活函数，W_i和b_i分别表示输入门的权重和偏差，W_c和b_c分别表示单元状态的权重和偏差。

细胞状态更新的过程可参考图8，如图8所示，加粗部分即为细胞状态更新的过程。其中，上述遗忘门与输入门的处理过程主要是为细胞状态更新所做准备的，细胞状态更新对应的具体计算过程可参考如下公式(4)：

在上述公式(4)中，各项参数的含义可以参考上述说明。可以理解的是，将f_t与C_t-1进行相乘，主要是表示上一时刻的细胞状态中哪些信息需要被忘记。而将i_t与进行相乘，主要是表示单元状态中哪些新信息需要被记录至细胞状态中，也即新的候选值。通过“忘记”与“更新”进行累计，即可得到第t时刻的细胞状态。

最后，输出门的结构可以参考图9，如图9所示，加粗部分即为输出门结构。其中，输出门的输出过程对应的具体计算过程可参考如下公式(5)和(6)：

o_t＝σ(W_o[h_t-1,x_t]+b_o)； (5)

h_t＝o_ttanh(C_t)； (6)

在上述公式(5)和(6)中，o_t主要用于确定细胞状态C_t中哪一部分将被输出。W_o和b_o分别表示输出门的权重和偏差，h_t指的是第t时刻输出的隐特征。由于细胞状态需要实时对所有时刻的信息进行累计求和操作，从而可以理解为长程信息。而每一时刻输出的隐特征由于是由当前时刻的多种因素共同决定的，如当前时刻输入的xt、上一时刻输出的隐特征和细胞状态等，从而可以理解为短程信息。而LSTM正是利用了长程信息和短程信息，对特征进行依次叠加，实现了长短期的记忆。

需要说明的是，实际实施过程中，本申请实施例所得到的样本媒体隐特征，可以是LSTM最后一个时刻输出的隐特征。此时，得到的隐特征数量为一个。当然，实际实施过程中，本申请实施例得到的样本媒体隐特征可以不止一个，如可将LSTM其它时刻输出的隐特征也作为样本媒体隐特征，本申请实施例对此不作具体限定。

还需要说明的是，上述过程主要是以样本媒体数据为样本视频为例，对样本媒体数据转化为样本媒体隐特征的过程进行说明的。可以理解的是，LSTM可以适用于具有时序特性的样本媒体数据，但并非所有样本媒体数据都具有时序特性，如图像。由此，对于具有时序特性的样本媒体数据，可以采用上述LSTM的相关处理方式，将样本媒体数据转化为样本媒体隐特征。而对于不具有时序特性的样本媒体数据，如图像，则可以直接将样本媒体数据转化为媒体嵌入特征，再作进一步处理(如直接作一层卷积处理)，从而得到样本媒体隐特征。

上述实施例中，通过按照视频嵌入特征序列中各视频嵌入特征的时序，依次对视频嵌入特征进行叠加处理，将得到的样本媒体隐特征作为后续分类处理的基础。由于视频中图像帧的时间序列与视频内容直接相关，从而分类结果自然与输入图像帧的时间序列相关联。而叠加后得到的样本媒体隐特征，不仅保留了图像帧的序列特性，还具有长期记忆功能，从而有利于提高媒体分类模型的训练效果，后续利用叠加处理得到的媒体隐特征对媒体数据进行分类时也可以提高分类准确性。

在一些实施例中，获取样本视频的视频嵌入特征序列，包括：从样本视频中提取多个图像帧；分别提取每个图像帧各自在多个维度层次上的特征；将每一图像帧各自对应的多个特征进行组合处理，得到每一图像帧各自对应的视频嵌入特征；将由各图像帧分别对应的视频嵌入特征所形成的特征序列，作为样本视频的视频嵌入特征序列。

具体地，关于从样本视频中提取多个图像帧的方式，本申请实施例对此不作具体限定，包括但不限于采用定长均匀抽帧或者随机抽帧的方式。例如，计算机设备可以每间隔10帧从视频中抽取一帧。当然，还可以采用其它方式，如不定长或者连续抽帧的方式。

可以理解的是，相较于连续抽帧或者将视频中所有视频帧作为输入，随机抽帧或者定长均匀抽帧均可以在时间维度上增强训练数据的随机性，从而可以提高后续媒体分类模型的泛化能力。除此之外，计算机设备还可以从空间维度上增强训练数据的随机性，如可以对图像帧进行裁剪或者在图像帧中增加噪声等，本申请实施例对此不作具体限定。其中，计算机设备在向图像帧中增加噪声时，可以增加高斯噪声。当然，也可以增加其他类型的噪声，如白噪声，本申请实施例对此也不作具体限定。

通过上述方式从视频中得到图像帧后，可以理解的是，对于每一图像帧，均需要将其转化为可以被处理的特征。由此，对于任一图像帧，计算机设备可以通过依次连接的处理基层处理该图像帧，从而每一处理基层均可以提取该图像帧在每一维度层次上的特征。最后，通过一个处理基层对各个维度层次所提取到的特征作组合处理，即可得到该图像帧对应的视频嵌入特征。而由各图像帧分别对应的视频嵌入特征所形成的特征序列，即为样本视频的视频嵌入特征序列。其中，用于提取各维度层次上特征的处理基层，可以为卷积层，而用于作组合处理的处理基层，则可以为池化层。当然，实际实施过程中，也可以采用其它类型的处理基层，本申请实施例对此不作具体限定。

上述实施例中，相较于对样本视频中的所有图像帧作处理，从样本视频中提取多个图像帧可以有效减少处理量，从而可提升处理效率与节省处理资源。另外，由于可分别提取每个图像帧各自在多个维度层次上的特征，在保证特征能够携带图像信息的同时，可以将作为高维原始数据的图像映射至维度更低的多个维度的特征，从而也能够有效减少处理量，进而可提升处理效率与节省处理资源。

由上述实施例可知，第一网络结构需要实现将样本媒体隐特征转换为样本辅助隐特征的功能，而该功能可以通过第一网络结构中的子结构所实现。基于该项说明，在一些实施例中，第一网络结构中包括有特征转换子结构，特征转换子结构通过至少一层全连接层构成；相应地，对样本媒体隐特征进行特征转换，得到样本辅助隐特征，包括：通过特征转换子结构，对样本媒体隐特征作全连接处理，得到样本辅助隐特征。

具体地，样本辅助隐特征的维度也可以为512维，本申请实施例不对特征转换子结构输出的特征维度作具体限定。实际实施过程中，特征转换子结构可以仅包含一个全连接层。当然，还可以为其它结构，如可以首尾均为全连接层，而中间连接至少一个由激活层与全连接层所组成的子结构。其中，中间连接的子结构数量，也可以根据需求进行设置，本申请实施例对此也不作具体限定。此时，通过特征转换子结构，不仅限于对样本媒体隐特征作全连接处理，还可以作激活函数处理。其中，激活层可以具体为Relu激活函数层，本申请实施例对此不作具体限定。

需要说明的是，上述实施例均主要是以媒体数据分类时仅引入一种模态信息的角度进行说明的。例如，计算机设备在对视频进行分类时，训练媒体分类模型时仅引入样本视频标题作为样本模态信息。而可以理解的是，实际实施过程中，是可以不仅限于仅引入一种样本模态信息用于训练的。由此，在步骤202中，计算机设备在获取训练数据时，可以获取一个样本媒体数据，并获取该样本媒体数据对应的多种类型的样本模态信息。

鉴于不同类型的模态信息通常不会通用同一个模型，从而在本申请实施例中，针对一个样本媒体数据对应多种类型的样本模态信息的情形，还可以在第一网络结构设置多个特征转换子结构。其中，每种类型的样本模态信息均对应一个特征转换子结构，不同类型的样本模态信息对应不同的特征转换子结构。通过不同的特征转换子结构分别对样本媒体隐特征作全连接处理，可以使得样本媒体隐特征学习到各自对应类型的样本模态信息的特征表征。通过多个特征转换子结构，可以得到多个样本辅助隐特征。

需要说明的是，由于第二网络结构需要提供模态参考特征作为训练标签，同样是鉴于不同类型的模态信息通常不会通用同一个模型，从而第二网络结构中可以包括多个用于对样本模态信息的样本模态特征进行特征转换的子结构。其中，每种类型的样本模态信息均可以在第二网络结构中对应一个子结构，以用于将其自身转换为模态参考特征。

上述实施例中，通过仅包含至少一个全连接层的特征转换子结构，即可使得样本媒体隐特征能够学习到样本模态信息对应的特征表征。相较于通过庞大复杂的完整深度神经网络模型对模态信息进行处理得到模态信息的特征表征，可以有效降低训练过程中的数据处理时长，从而可以有效提高媒体分类模型的训练效率。另外，后续利用媒体分类模型对媒体数据进行分类时，也不需要通过庞大复杂的完整深度神经网络模型提取模态信息的模态特征，而是直接可以基于媒体隐特征得到对应模态信息的特征表征，从而也可以提高分类效率。最后，由于可以不仅限于仅引入一种样本模态信息用于训练，而可以理解的是，引入的样本模态信息的种类越多，则用于训练媒体分类模型的监督信息种类也就越多，从而有利于提高媒体分类模型的训练效果，后续利用媒体分类模型对媒体数据进行分类时也可以提高分类准确性。

由上述实施例的内容可知，第一网络结构可以实现分类处理的功能。由此，在一些实施例中，根据样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果，包括：对样本媒体隐特征和样本辅助隐特征进行组合处理，得到样本组合特征；基于样本组合特征进行分类，得到第一预测结果。

具体地，组合处理的方式可以为拼接，还可以为加权处理，本申请实施例对此不作具体限定。其中，拼接的方式可以为直接首尾拼接，拼接时样本媒体隐特征和样本辅助隐特征的拼接次序可以任意选择，本申请实施例对此不作具体限定。在组合处理方式为直接拼接的情况下，样本媒体隐特征和样本辅助隐特征各自的维度可以相同，也可以不同，本申请实施例对此不作具体限定。

另外，关于基于样本组合特征进行分类的方式，本申请实施例对此也不作具体限定，包括但不限于：通过全连接层对样本组合特征作全连接处理，得到全连接处理结果；通过激活函数对全连接处理结果进行处理，得到第一预测结果。

需要说明的是，由上述实施例的内容可知，样本模态信息可以不止一种类型，由此得到的样本辅助隐特征也可以不止一种类型。在样本辅助隐特征为多种类型的情况下，本申请实施例实际上是将样本媒体隐特征和多种类型的样本辅助隐特征进行组合处理。此时，组合处理的方式也可以为拼接或者加权处理，本申请实施例对此不作具体限定。

上述实施例中，相较于将样本模态信息作为输入并重新再设计媒体分类模型，在维持原有媒体分类模型结构的基础下，即可使得样本媒体隐特征能够学习到样本模态信息对应的特征表征，从而可以避免改变媒体分类模型的结构，节省工作量。另外，将样本模态信息作为输入并重新再设计媒体分类模型，势必会再增加媒体分类模型的复杂程度，这一方面会增加模型存储所占用的存储资源，另一方面训练和后续使用过程也会因模型更复杂而占用更多处理资源，导致降低处理效率。而通过不改变媒体分类模型的结构，可以尽可能减少模型存储所占用的存储资源，还可以提升训练和后续使用过程中的处理效率。

最后，由于在进行分类时，融合了样本媒体隐特征以及学习到样本模态信息对应特征表征的样本辅助隐特征，而该两种隐特征分别与样本媒体数据和样本模态信息对应，从而使得训练过程中可以同时融入样本媒体数据和样本模态信息，进而可以有利于提高媒体分类模型的训练效果，后续利用媒体分类模型对媒体数据进行分类时也可以提高分类准确性。

由上述实施例的内容可知，第二网络结构可以实现特征转换的功能。由此，在一些实施例中，通过待训练的媒体分类模型中的第二网络结构，对样本模态信息的样本模态特征进行特征转换，得到模态参考特征，包括：通过待训练的媒体分类模型中的第二网络结构，对样本模态特征进行至少一次的全连接处理，得到模态参考特征。

在执行本申请实施例之前，计算机设备可以获取对样本模态信息进行转化所得到的样本模态特征。由上述实施例的内容可知，将样本模态信息转化为样本模态特征的功能也可以由第二网络结构实现，也可以不由第二网络结构实现，本申请实施例对此不作具体限定。在本申请实施例中，对于第二网络结构中用于将样本模态特征转化为模态参考特征的子结构，该子结构可以通过至少一个全连接层构成，每一全连接层用于执行一次全连接处理。以该子结构通过2个全连接层构成为例，第一个全连接层的输入为样本模态特征，输出可以为1024维的特征；第二个全连接层的输入为1024维的特征，输出可以为512维的特征，本申请实施例不对每次全连接处理输出的特征维度作具体限定。

上述实施例中，由于可以对样本模态特征进行至少一次的全连接处理，从而可以大大减少特征位置对后续分类所带来的影响。因此，有利于提高媒体分类模型的训练效果，后续利用媒体分类模型对媒体数据进行分类时也可以提高分类准确性。

可以理解的是，除了按照上述实施例提及的方式，也即除了同时使用样本媒体隐特征和样本辅助隐特征对样本媒体数据进行分类的方式之外，实际实施中还可以直接仅使用样本媒体隐特征对样本媒体数据进行分类。由此，第一网络结构中还可以包括根据样本媒体隐特征直接进行分类的子结构。还可以理解的是，在分类标签已知的前提下，该子结构自然可以存在对应的损失。

基于上述说明，本申请实施例在构建训练损失函数时还可以引入该子结构的损失。由此，在一些实施例中，该方法还包括：通过第一网络结构，基于样本媒体隐特征进行分类，得到第三预测结果；相应地，根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数，包括：根据第一预测结果、第二预测结果、第三预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数。

由上述实施例的内容可知，第一预测结果与分类标签之间的差异，可以用于表示第一网络结构中根据样本媒体隐特征和样本辅助隐特征进行分类的子结构的损失。第二预测结果与分类标签之间的差异，可以用于表示第二网络结构中基于模态参考特征进行分类的子结构的损失。而样本辅助隐特征与模态参考特征间的差异，可以用于表示第一网络结构中对样本媒体隐特征进行特征转换的子结构的损失。

而在本申请实施例中新增的，也即第三预测结果与分类标签之间的差异，可以用于表示第一网络结构中根据样本媒体隐特征直接进行分类的子结构的损失。其中，该损失也可以基于实际需求进行设置，如采用指数损失、负对数似然损失或平方损失等，本申请实施例对此不作具体限定。另外，上述提及的子结构均可以通过至少一个全连接层构成，其输出特征的维度可以与分类标签的总种类相关，如分类标签的总种类为10，则子结构输出的特征维度也可以为10，本申请实施例对此不作具体限定。

计算机设备可基于上述提及的四种损失，构建得到训练损失函数。本申请实施例不对基于上述提及的四种损失，构建得到训练损失函数的方式作具体限定，包括但不限于：对四种损失进行加权求和，得到训练损失函数。其中，训练损失函数中的变量同样可以包括训练数据的总批次以及每一批次中训练数据的总数量。另外，在本申请实施例中，后续计算机设备也可以基于训练损失函数对媒体分类模型进行训练，其训练过程可以参考上述实施例的内容，此处不再赘述。

上述实施例中，除了从媒体数据对应的模态信息中挖掘并扩展了用于训练的监督信息之外，对于基于样本媒体隐特征进行分类得到的第三预测结果与分类标签之间的差异所计算得到的损失，还添加了该损失作为监督信息，从而可以丰富监督信息的类型，以克服仅利用一种损失对媒体分类模型进行训练时监督信息太弱导致训练效果不佳的问题。另外，由于基于样本媒体隐特征进行分类得到的第三预测结果与分类标签之间的差异，可以反映仅基于样本媒体数据进行分类时的分类效果，将其作为损失构建训练损失函数，可以使得训练得到的媒体分类模型泛化能力更强。

基于上述实施例中提及的多种损失，在一些实施例中，根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数，包括：根据第一预测结果与分类标签间的差异，确定第一损失；根据第二预测结果与分类标签间的差异，确定第二损失；根据样本辅助隐特征与模态参考特征间的差异，确定第三损失；基于第一损失、第二损失和第三损失，构建训练损失函数。

具体地，对于某一批次训练数据中第i个样本媒体数据，计算机设备获取该第i个样本媒体数据的样本媒体隐特征；通过第一网络结构，对样本媒体隐特征进行特征转换，得到样本辅助隐特征；根据样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果；该第一预测结果与分类标签间的差异，所确定的第一损失可参考如下公式(7)：

在上述公式(7)中，c代表第c种分类标签，分类标签共有M个。y_ic表示第i个样本媒体数据的分类标签是否为第c种分类标签，当为第c种分类标签时，y_ic的取值为1，否则取值为0。而p_ic表示第i个样本媒体数据的第一预测结果为第c种分类标签的预测概率。

由于第二损失也是预测结果与分类标签间的差异，从而第二损失也可以基于公式(7)中相同的方式进行计算，也可以采用其它方式进行计算，本申请实施例对此不作具体限定。而由于样本辅助隐特征与模态参考特征实质上均为特征向量，而特征向量之间的相似度可以反映特征向量之间的差异程度，从而实际实施过程中，第三损失可以基于样本辅助隐特征与模态参考特征之间的相似度计算得到。其中，相似度可以有多种算法，如欧氏距离或余弦相似度等，本申请实施例对此不作具体限定。

上述实施例中，通过基于样本辅助隐特征与模态参考特征之间的差异所计算得到的损失，构建训练损失函数用于对媒体分类模型进行训练。由于可以从媒体数据对应的模态信息中挖掘并扩展了用于训练的监督信息，从而可以克服仅利用分类标签对媒体分类模型进行训练时监督信息太弱导致训练效果不佳的问题。因此，有利于提高媒体分类模型的训练效果，后续利用媒体分类模型对媒体数据进行分类时也可以提高分类准确性。

由上述实施例的内容可知，第三损失可以基于相似度计算得到。由此，在一些实施例中，根据样本辅助隐特征与模态参考特征间的差异，确定第三损失，包括：对于每一训练数据，计算相应训练数据所对应的样本辅助隐特征与模态参考特征间的相似度；对每一训练数据各自对应的相似度进行求和，将求和结果作为第三损失。

具体地，对于某一批次训练数据中第i个样本媒体数据，该第i个样本媒体数据对应的样本辅助隐特征可以记为y_i ^p，该第i个样本媒体数据对应的模态参考特征可以记为y_i。由此，以采用欧式距离表示相似度为例，第i个样本媒体数据对应的第三损失的计算过程可参考如下公式(8)：

(y_i-y_i ^p)²； (8)

在一些实施例中，训练损失函数包括第一训练损失函数和第二训练损失函数，根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数，包括：根据第一预测结果与分类标签间的差异，构建第一训练损失函数；根据第二预测结果与分类标签间的差异、以及样本辅助隐特征与模态参考特征间的差异，构建第二训练损失函数；

相应地，通过训练损失函数对待训练的媒体分类模型进行训练，包括：基于第二训练损失函数执行第二训练过程，基于第一训练损失函数执行第一训练过程，且第二训练过程与第一训练过程交替执行；其中，第一训练过程是基于第一损失函数和当前批次的训练样本，对第一网络结构的参数进行调整的过程，第二训练过程是基于第二损失函数和当前批次的训练样本，对第二网络结构的参数进行调整的过程。

具体地，结合上述示例中关于第一损失的说明，计算机设备可以先构建第一损失函数。其中，第一训练损失函数可以参考如下公式(9)：

在上述公式(9)中，N表示该批次训练数据中训练数据的总数量，loss1表示第一训练损失函数。其它参数可参考上述公式中的释义，此处不再赘述。

结合上述示例中关于第二损失的说明，参考公式(9)，计算机设备可以根据第二预测结果与分类标签间的差异，构建对应的损失函数。而结合上述示例中关于第三损失的说明，计算机设备可以根据样本辅助隐特征与模态参考特征间的差异，同样构建得到对应的损失函数。该构建得到的两个损失函数可以进行整合，从而得到第二训练损失函数。其中，第二训练损失函数可以记为loss2。整合方式可以为求均值或者加权求和，本申请实施例对此不作具体限定。而根据样本辅助隐特征与模态参考特征间的差异，所构建得到对应的损失函数可以参考如下公式(10)：

在上述公式(10)中，各项参数可参考上述公式中的释义，此处不再赘述。

在得到第一训练损失函数loss1和第一训练损失函数loss2之后，可以根据loss1和loss2对媒体分类模型进行训练。由上述实施例的内容可知，训练过程可以采用同时训练或者交替训练的方式。而在本申请实施例中，可以采用交替训练的方式。

具体地，可以采用第二训练过程与第一训练过程交替执行的方式实现交替训练。可以理解的是，第一训练损失函数主要关联的是第一网络结构中的某些子结构，如对样本媒体隐特征进行特征转换的子结构、以及根据样本媒体隐特征和样本辅助隐特征进行分类的子结构。由此，第一训练过程对第一网络结构中的参数进行调整，实际上是对第一网络结构中相关联的子结构中的参数进行调整。第二训练损失函数主要关联的是第二网络结构中的某些子结构，如对样本模态信息的样本模态特征进行特征转换的子结构，以及基于模态参考特征进行分类的子结构。由此，第二训练过程对第二网络结构中的参数进行调整，实际上是对第二网络结构中相关联的子结构中的参数进行调整。

为了便于理解第一训练过程与第二训练过程，现结合每一批次的训练数据对交替执行的过程进行说明：对于某一批次训练数据，计算机设备先利用该批次训练数据对第二网络结构进行训练，再利用该批次训练数据对第一网络结构进行训练，得到第一训练损失函数和第二训练损失函数各自的数值。

根据第一训练损失函数和第二训练损失函数各自的数值，计算机设备判断是否达到训练停止条件。若未达到，则更新一批次的训练数据，利用该更新批次训练数据对第二网络结构进行训练，再利用该更新批次训练数据对第一网络结构进行训练，得到第一训练损失函数和第二训练损失函数各自的数值。计算机设备重复上述更新批次训练数据、以及计算第一训练损失函数和第二训练损失函数各自数值的过程，直至某一次训练过程，计算得到的第一训练损失函数和第二训练损失函数各自的数值达到训练停止条件，则训练过程结束。

其中，在利用某一批次训练数据对第二网络结构进行训练时，计算机设备可以对第二训练损失函数在第二网络结构中相关联的子结构中的参数进行调整，而第一训练损失函数在第一网络结构中相关联的子结构中的参数则可以保持不变。在利用相同批次训练数据对第一网络结构进行训练时，计算机设备可以对第一训练损失函数在第一网络结构中相关联的子结构中的参数进行调整，而第二训练损失函数在第二网络结构中相关联的子结构中的参数则可以保持不变。另外，关于训练过程中参数调整的方式，本申请实施例对此不作具体限定，包括但不限于：采用随机梯度下降算法对参数进行调整。当然，还可以采用其它的参数调整方式，如批量梯度下降算法或者小批量梯度下降算法。

在采用随机梯度下降算法对参数进行调整时，其学习率可以根据需求进行设置，本申请实施例对此也不作具体限定。例如，学习率初始化可以为0.005，而每完成10个批次的训练数据对应的训练过程后，学习率可以提升10％。另外，参数的初始化可以基于高斯分布实现。当然，还可以采用Xavier初始化或者MSRA初始化等其它初始化方式，本申请实施例对此不作具体限定。在采用高斯分布实现参数初始化时，具体可以使用方差为0.01，均值为0的高斯分布，本申请实施例对此也不作具体限定。

结合上述实施例的内容，在基于第一训练损失函数和第二训练损失函数控制第一训练过程与第二训练过程交替执行的过程时，训练停止条件可以为loss1与loss2之间的加权求和结果不再下降或者收敛，本申请实施例对此不作具体限定。具体地，训练停止条件可以为(loss1+0.5loss2)不再下降。需要说明的是，上述训练停止条件中loss1对应的权重为1，loss2对应的权重为0.5。实际实施过程中加权权重可以根据需求进行设置，且可以不满足各项权重和为1，本申请实施例对此不作具体限定。

另外，loss1与loss2各自的加权权重可以并非是一直不变的，可以随着训练过程的推进而动态调整。例如，若在训练之初需要多关注模态信息相应的训练效果，可以增大loss2对应的权重。若在训练后期需要多关注媒体数据相应的训练效果，可以增大loss1对应的权重。其中，“训练之初”与“训练后期”均可以通过训练的轮次来判定。当然，也可以通过训练时长来判定，本申请实施例对此不作具体限定。例如，若总共训练100个轮次，则前10个轮次可以被认为是训练之初，而最后10个轮次可以被认为是训练后期。

实际实施过程中，除了上述提及的交替训练之外，还可以同时训练，也即利用每一批次训练数据同时对第一网络结构和第二网络结构中的参数进行训练。此时，训练停止条件也可以为loss1与loss2之间的加权求和结果不再下降或者收敛，如loss1与loss2之间的均值不再下降或者收敛。

上述实施例中，考虑到第一网络结构主要处理的是媒体数据，第二网络结构主要处理的是模态信息，而媒体数据通常比模态信息所携带的信息量更多，这导致第一网络结构与第二网络结构的收敛速度不同。若不采用交替训练的方式而同时对第一网络结构与第二网络结构中的参数进行训练，则会导致第一网络结构与第二网络结构各自对应的训练任务相互竞争，而相互竞争会导致参数梯度下降慢，从而导致训练损失函数收敛慢，进而导致整体训练过程耗费大量时长，训练效率低。而交替训练可以避免训练任务相互竞争，可以提高训练收敛速度。另外，还可以使得第一网络结构与第二网络结构各自对不同分支的特征表征进行充分学习，从而使得收敛速度不同的第一网络结构与第二网络结构可以各自达到更好且更稳定的训练效果，并可以实现联合优化，后续利用媒体分类模型对媒体数据进行分类时也可以提高分类准确性。

上述实施例中提到，基于样本媒体隐特征进行分类，可以得到第三预测结果。而第三预测结果与分类标签之间的差异，可以用于表示第一网络结构中根据样本媒体隐特征直接进行分类的子结构的损失。与此同时，该损失也可以作为监督信息用于对媒体分类模型进行训练。

基于该项说明，在一些实施例中，该方法还包括：通过第一网络结构，基于样本媒体隐特征进行分类，得到第三预测结果；相应地，根据第一预测结果与分类标签间的差异，构建第一训练损失函数，包括：根据第一预测结果与分类标签间的差异、以及第三预测结果与分类标签间的差异，构建第一训练损失函数。

具体地，参考上述实施例提及的公式(9)，计算机设备可根据第一预测结果与分类标签间的差异，构建对应的损失函数。而参考公式(9)，同样可以根据第三预测结果与分类标签间的差异，构建对应的损失函数。当然，实际实施过程中，也可以采用区分于公式(9)中的方式，构建第三预测结果对应的损失函数，如采用指数损失、负对数似然损失或平方损失等，本申请实施例对此不作具体限定。

基于上述过程构建得到的两个损失函数，计算机设备可以构建第一训练损失函数loss1。本申请实施例不对基于该两个损失函数构建loss1的方式作具体限定，包括但不限于：对该两个损失函数取均值，将均值作为loss1。当然，还可以采用加权求和的方式构建loss1。

上述实施例主要是对媒体分类模型进行训练的过程，实际实施过程中，还可以应用媒体分类模型对媒体数据进行分类。由此，在一些实施例中，该方法还可以包括通过训练完成的媒体分类模型中的第一网络结构执行媒体数据分类的步骤。该步骤包括：获取待分类的目标媒体数据，提取目标媒体数据中的媒体隐特征；对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征；基于媒体隐特征和辅助隐特征进行分类，得到待分类的目标媒体数据所属的类别。

具体地，待分类的目标媒体数据可以是由终端上传至计算机设备的。计算机设备在接收到目标媒体数据后，可以对目标媒体数据进行分类。其中，通过媒体分类模型，提取媒体隐特征、对媒体隐特征进行特征转换以及后续分类的过程可参考上述实施例中媒体分类模型的训练过程的相关说明，此处不再赘述。

上述实施例中，通过对媒体隐特征进行特征转换，即可得到用于表征目标媒体数据的模态信息的辅助隐特征。相较于通过庞大复杂的完整深度神经网络模型对模态信息进行处理得到模态信息的特征表征，可以有效降低训练过程中的数据处理时长，从而可以有效提高媒体分类模型的训练效率。另外，利用媒体分类模型对媒体数据进行分类时，也不需要通过庞大复杂的完整深度神经网络模型提取模态信息的特征表征，而是直接可以基于媒体隐特征得到对应模态信息的特征表征，从而也可以提高分类效率。

最后，相较于将样本模态信息作为输入并重新再设计媒体分类模型，在维持原有媒体分类模型结构的基础下，即可使得样本媒体隐特征能够学习到样本模态信息对应的特征表征，从而可以避免改变大范围改动媒体分类模型的结构，以节省工作量。另外，将样本模态信息作为输入并重新再设计媒体分类模型，势必会再增加媒体分类模型的复杂程度，这一方面会增加模型存储所占用的存储资源，另一方面训练和后续使用过程也会因模型更复杂而占用更多处理资源，导致降低处理效率。而本申请实施例中仅需要增加用于实现特征转换的子结构，而不需要大范围改变媒体分类模型的结构，从而可以尽可能减少模型存储所占用的存储资源，还可以提升训练和后续使用过程中的处理效率。

为了便于理解，现以媒体数据为视频、模态信息为一种、第一网络结构中包括有特征转换子结构、特征转换子结构通过至少一层全连接层构成、训练损失函数是结合四种损失所构建得到的、训练损失函数包括第一训练损失函数和第二训练损失函数、以及训练过程采用交替训练方式为例，对本申请实施例提及的训练过程进行说明。参见图10，在一个具体实施例中，媒体分类模型的训练方法和后续应用方法，具体包括以下步骤：

步骤1002、获取训练数据，训练数据包括样本视频、与样本视频对应的样本模态信息、以及样本视频所属的分类标签。

步骤1004、从样本视频中提取多个图像帧，分别提取每个图像帧各自在多个维度层次上的特征，将每一图像帧各自对应的多个特征进行组合处理，得到每一图像帧各自对应的视频嵌入特征，将由各图像帧分别对应的视频嵌入特征所形成的特征序列，作为样本视频的视频嵌入特征序列。

步骤1006、确定视频嵌入特征序列中各视频嵌入特征的时序，按照视频嵌入特征序列中各视频嵌入特征的时序，依次对视频嵌入特征进行叠加处理，得到样本视频隐特征。

步骤1008、通过待训练的媒体分类模型的第一网络结构中的特征转换子结构，对样本视频隐特征作全连接处理，得到样本辅助隐特征，并通过第一网络结构对样本视频隐特征和样本辅助隐特征进行组合处理，得到样本组合特征，基于样本组合特征进行分类，得到第一预测结果。

步骤1010、提取样本模态信息在多个维度层次上的特征，将多个特征进行组合处理，得到样本模态信息对应的样本模态特征，通过待训练的视频分类模型中的第二网络结构，对样本模态特征进行至少一次的全连接处理，得到模态参考特征，基于模态参考特征进行分类，得到第二预测结果。

步骤1012、通过第一网络结构，基于样本视频隐特征进行分类，得到第三预测结果，根据第一预测结果与分类标签间的差异、以及第三预测结果与分类标签间的差异，构建第一训练损失函数，根据第二预测结果与分类标签间的差异、以及样本辅助隐特征与模态参考特征间的差异，构建第二训练损失函数。

其中，待训练的媒体分类模型可以包括上述提及的第一网络结构与第二网络结构，而第一网络结构可以包括上述提及的特征转换子结构。样本辅助隐特征与模态参考特征间的差异可以用于表示特征转换子结构的损失，第二预测结果与分类标签间的差异可以用于表示第二网络结构的损失，第一预测结果与分类标签间的差异可以用于表示第一网络结构中用于实现基于样本组合特征进行分类的子结构的损失，第三预测结果与分类标签间的差异可以用于表示第一网络结构中用于实现基于样本视频隐特征进行分类的子结构的损失。

步骤1014、基于第二训练损失函数执行对待训练的媒体分类模型中的第二网络结构进行训练的第二训练过程，基于第一训练损失函数执行对待训练的媒体分类模型中的第一网络结构进行训练的第一训练过程，且第二训练过程与第一训练过程交替执行；在达到训练停止条件时停止，得到训练完成的媒体分类模型。

其中，第一训练过程是基于第一损失函数和当前批次的训练样本，对第一网络结构的参数进行调整的过程，第二训练过程是基于第二损失函数和当前批次的训练样本，对第二网络结构的参数进行调整的过程。

步骤1016、获取待分类的目标视频数据，通过训练完成的媒体分类模型，提取目标视频数据中的视频隐特征，对视频隐特征进行特征转换，得到用于表征目标视频数据的模态信息的辅助隐特征，基于视频隐特征和辅助隐特征进行分类，得到待分类的目标视频数据所属的类别。

上述媒体分类模型的训练方法，通过基于第一网络结构与第二网络结构中各子结构的损失，构建训练损失函数用于对媒体分类模型进行训练。这些损失中包括基于样本辅助隐特征与模态参考特征之间的差异所计算得到的损失。其中，样本辅助隐特征是由样本视频隐特征学习其模态信息对应的特征表征所得到的，而模态参考特征又可以作为训练标签。由此，相当于可以从视频数据对应的模态信息中挖掘了用于训练的监督信息，同时模态信息确实与视频数据的内容相关联而有助于视频数据分类，从而可以克服仅利用分类标签对媒体分类模型进行训练时监督信息太弱导致训练效果不佳的问题。因此，有利于提高媒体分类模型的训练效果，后续利用媒体分类模型对视频数据进行分类时也可以提高分类准确性。

其次，通过对视频隐特征进行特征转换，即可得到用于表征目标视频数据的模态信息的辅助隐特征。相较于通过庞大复杂的完整深度神经网络模型对模态信息进行处理得到模态信息的特征表征，可以有效降低训练过程中的数据处理时长，从而可以有效提高媒体分类模型的训练效率。另外，利用媒体分类模型对视频数据进行分类时，也不需要通过庞大复杂的完整深度神经网络模型提取模态信息的特征表征，而是直接可以基于视频隐特征得到对应模态信息的特征表征，从而也可以提高分类效率。

另外，相较于将样本模态信息作为输入并重新再设计媒体分类模型，在维持原有媒体分类模型结构的基础下，即可使得样本视频隐特征能够学习到样本模态信息对应的特征表征，从而可以避免改变大范围改动媒体分类模型的结构，以节省工作量。另外，将样本模态信息作为输入并重新再设计媒体分类模型，势必会再增加媒体分类模型的复杂程度，这一方面会增加模型存储所占用的存储资源，另一方面训练和后续使用过程也会因模型更复杂而占用更多处理资源，导致降低处理效率。而本申请实施例中仅需要增加用于实现特征转换的子结构，而不需要大范围改变媒体分类模型的结构，从而可以尽可能减少模型存储所占用的存储资源，还可以提升训练和后续使用过程中的处理效率。

最后，考虑到第一网络结构主要处理的是媒体数据，第二网络结构主要处理的是模态信息，而媒体数据通常比模态信息所携带的信息量更多，这导致第一网络结构与第二网络结构的收敛速度不同。若不采用交替训练的方式而同时对第一网络结构与第二网络结构中的参数进行训练，则会导致第一网络结构与第二网络结构各自对应的训练任务相互竞争，而相互竞争会导致参数梯度下降慢，从而导致训练损失函数收敛慢，进而导致整体训练过程耗费大量时长，训练效率低。而交替训练可以避免训练任务相互竞争，可以提高训练收敛速度。除此之外，还可以使得第一网络结构与第二网络结构各自对不同分支的特征表征进行充分学习，从而使得收敛速度不同的第一网络结构与第二网络结构可以各自达到更好且更稳定的训练效果，并可以实现联合优化，后续利用媒体分类模型对媒体数据进行分类时也可以提高分类准确性。

上述实施例主要是对媒体分类模型进行训练的过程，实际实施过程中，还可以应用媒体分类模型对媒体数据进行分类。由此，在一些实施例中，如图11所示，提供了一种媒体数据分类方法，以该方法应用于计算机设备(该计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤1102、获取待分类的目标媒体数据，提取目标媒体数据中的媒体隐特征。

步骤1104、对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征。

步骤1106、组合媒体隐特征和辅助隐特征得到目标组合特征。

步骤1108、基于目标组合特征进行分类，输出待分类的目标媒体数据所属的类别。

其中，具体实现过程可以参考媒体分类模型的训练方法的实施例中的相关说明，此处不再赘述。

上述媒体数据分类方法，通过对媒体隐特征进行特征转换，即可得到用于表征目标媒体数据的模态信息的辅助隐特征。由于利用媒体分类模型对媒体数据进行分类时，不需要通过庞大复杂的完整深度神经网络模型提取模态信息的特征表征，而是直接可以基于媒体隐特征得到对应模态信息的特征表征，从而也可以提高分类效率。

另外，相较于将样本模态信息作为输入并重新再设计媒体分类模型，在维持原有媒体分类模型结构的基础下，即可使得样本媒体隐特征能够学习到样本模态信息对应的特征表征，从而可以避免改变大范围改动媒体分类模型的结构，以节省工作量。另外，将样本模态信息作为输入并重新再设计媒体分类模型，势必会再增加媒体分类模型的复杂程度，这一方面会增加模型存储所占用的存储资源，另一方面训练和后续使用过程也会因模型更复杂而占用更多处理资源，导致降低处理效率。而本申请实施例中仅需要增加用于实现特征转换的子结构，而不需要大范围改变媒体分类模型的结构，从而可以尽可能减少模型存储所占用的存储资源，还可以模型使用过程中的处理效率。

在一些实施例中，对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征，包括：基于预先训练得到的特征转换子结构，对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征；特征转换子结构通过以模态参考特征作为标签信息进行训练得到，模态参考特征为训练阶段在对样本媒体数据的样本模态信息进行分类的过程中所得到的特征。

上述实施例中，通过仅包含至少一个全连接层的特征转换子结构，即可使得样本媒体隐特征能够学习到样本模态信息对应的特征表征。由于后续利用媒体分类模型对媒体数据进行分类时，不需要通过庞大复杂的完整深度神经网络模型提取模态信息的模态特征，而是直接可以基于媒体隐特征得到对应模态信息的特征表征，从而也可以提高分类效率。

为了便于理解，以媒体数据为视频、模态信息为标题且训练方式为交替训练为例，现结合图12中所示的媒体分类模型的具体结构，对本申请实施例提供的媒体分类模型的训练方法和媒体数据分类方法的实现过程进行说明：

在图12中，对于训练过程，“视频”即表示样本视频。先从样本视频中提取图像帧，如图12中共提取6帧。将6帧图像输入至由卷积神经网络CNN(Convolutional NeuralNetworks，卷积神经网络)和第一全连接层FC(Full Connection，全连接)所组成的图像Embedding(嵌入)模型，可以输出图像Embedding序列。其中，图像Embedding序列即对应于上述实施例中提及的视频嵌入特征序列。该过程主要是图像特征提取过程，实际实施过程中，可以通过采用imagenet预训练的resnet101模型实现图像特征提取，而resnet101中可以包括图12中所示的CNN和FC。图12中所示的CNN和FC其内部结构可参考如下表1。

表1

在上表1中，pool表示池化层，Max pool表示不使用学习参数进行采样，blocks表示残差块。stride表示有学习参数参与运算，stride＝2表示卷积过程会扔掉一半的特征，以减少一半的卷积处理，提升处理速度。

将图像Embedding序列输入至长短期记忆网络LSTMs，即可得到上述实施例中提及的样本视频隐特征。需要说明的是，这里输出的可以是LSTMs最后一个时刻输出的样本视频隐特征。例如，一共有6个图像帧对应6个时刻，由于最后一个时刻输出的样本视频隐特征其学习到的特征最全，从而可以使用第6个时刻输出的样本视频隐特征。将样本视频隐特征输入至图12中的第三分类层Fc_class3，可以仅基于样本视频隐特征进行分类，得到第三预测结果。其中，LSTMs和Fc_class3的结构可参考如下表2。

表2

处理基层名	输入/输出维度	层类型
			LSTM1	6x2048/6x1024	LSTM
LSTM2	6x1024/6x512	LSTM
			Fc_class3	1x10	Fc connection

通过图12中的特征转换子结构FC_title，可以对样本视频隐特征进行特征转换，得到样本辅助隐特征。其中，FC_title的结构可参考如下表3。

表3

处理基层名	输出维度	层类型
			FC_title	1x512	Fc connection

当然，由上述实施例可知，FC_title还可以为其它结构，如可以首尾均为全连接层，而中间连接至少一个由激活层与全连接层所组成的子结构。

通过图12中的组合处理层concat，可以对样本视频隐特征和样本辅助隐特征进行组合处理，得到样本组合特征。而通过图12中的第一分类层FC_class1对样本组合特征进行分类，即可得到第一预测结果。其中，concat与FC_class1的结构可参考如下表4。

表4

处理基层名	输出维度	层类型
			concat	1x1024	Fc connection
Fc_class1	1x10	Fc connection

而将样本视频的标题输入至图12中的标题Embedding模型，可以得到上述实施例中提及的样本模态特征。而通过图12中的第二全连接层tFC1和第三全连接层tFC2，对样本模态特征进行特征转换，可以得到模态参考特征。如图12所示，tFC2的输出会连接至FC_title，也即，tFC2输出的模态参考特征会作为FC_title输出的样本辅助隐特征的训练标签。而通过图12中的第二分类层Fc_class2对模态参考特征进行分类，可以得到第二预测结果。其中，tFC1、tFC2和FC_class2的结构可参考如下表5。

表5

处理基层名	输出维度	层类型
			tFC1	1x1024	Fc connection
tFC2	1x512	Fc connection
			Fc_class2	1x10	Fc connection

上述内容及各项表格，对媒体分类模型中的各个子结构进行了说明。可以理解的是，结合上述实施例中的内容，tFC1、tFC2和Fc_class2可以均属于媒体分类模型中的第二网络结构，而concat和Fc_class1可以均属于媒体分类模型中的第一网络结构。当然，实际实施过程中，LSTMs也可以属于第一网络结构，resnet101模型也可以属于第一网络结构，而标题Embedding模型可以属于第二网络结构。而对于FC_title，可以单独属于第一网络结构，也可以单独属于第二网络结构，也可以同时属于第一网络结构和第二网络结构。

结合上述关于媒体分类模型中结构划分的说明，现对交替训练的具体过程进行说明。图12中可以包含上述实施例中提及的第一损失，并记为Loss class1；可以包含上述实施例中提及的第二损失，并记为Loss class2；可以包含上述实施例中提及的第三损失，并记为Loss title-embedding。另外，图12中还可以包含上述实施例提及的第三预测结果所构建得到的损失。为了便于说明，可将其称为第四损失，并记为Loss class3。

结合上述实施例中的内容，根据第一损失和第四损失，可构建第一训练损失函数，并可以记为loss1。根据第二损失和第三损失，可构建第二训练损失函数，并可以记为loss2。在基于loss2执行第二训练过程时(对应于图12中的第二训练过程)，第二训练过程具体可以为对tFC1、tFC2、Fc_class2和FC_title中的参数进行调整的过程。在基于loss1执行第一训练过程时(对应于图12中的第一训练过程)，第一训练过程具体可以为对LSTMs、concat、Fc_class1和Fc_class3中的参数进行调整的过程。

需要说明的是，在执行第一训练过程时，除了第一训练过程所涵盖的子结构之外，媒体分类模型中其它子结构中的参数可以固定不变。同理，在执行第二训练过程时，除了第二训练过程所涵盖的子结构之外，媒体分类模型中其它子结构中的参数也可以固定不变。另外，FC_title可以仅参加上述提及的第二训练过程，也可以同时参加第一训练过程和第二训练过程，本申请实施例对此不作具体限定。其中，训练停止条件可以为loss2+0.5loss1不再下降。

在训练完媒体分类模型后，可应用媒体分类模型实现视频分类，现结合图13对应用过程进行说明：将待分类的目标视频通过图像embedding模型处理，得到目标视频的视频嵌入特征序列，也即图像Embedding序列输出。通过长短期记忆网络LSTMs对视频嵌入特征序列进行处理，可以得到视频隐特征。通过特征转换子结构FC_title对视频隐特征进行特征转换，得到辅助隐特征。通过组合处理层concat对视频隐特征和辅助隐特征进行拼接，得到组合特征。通过第一分类层Fc_class1对组合特征进行分类，得到目标视频所属的类别。上述视频分类的应用过程可具体参考图13。

另外，由于图12和图13中图像embedding模型输出的图像Embedding序列实际上可以用于表征视频的特征，从而实际应用中还可以基于不同视频的图像Embedding序列，计算不同视频之间的相似度。而基于不同视频之间的相似度，后续可以实现视频聚类和视频推荐等功能。

从上述应用过程可以看出，训练过程中涉及到的所有子结构在应用过程并非全部都用到。由此，实际实施过程中还可以对部分子结构进行模块划分，以实现功能解耦。例如，在图12中，可以将第二全连接层tFC1、第三全连接层tFC2和第二分类层Fc_class2一起作为标题分类辅助模块。可以理解的是，该三个层所组成的子结构主要也是为了使得视频隐特征能够学习到标题对应的特征表征，以使得标题能否辅以视频分类。另外，还可将长短期记忆网络LSTMs、特征转换子结构FC_title、组合处理层concat、第一分类层Fc_class1和第三分类层Fc_class3一起作为序列表征学习模块。可以理解的是，上述五个层所组成的子结构主要也是为了获取视频的各种特征表征，以便用于后续分类。

本申请实施例还提供一种应用场景，该应用场景应用上述的媒体分类模型的训练方法，以计算机设备为服务器为例进行说明。具体地，该媒体分类模型的训练方法在该应用场景的应用如下：

服务器获取样本视频、与样本视频对应的样本标题、以及样本视频所属的分类标签，如影视剧、综艺剧、体育比赛、教育讲座和直播带货等类别。服务器通过媒体分类模型中的第一网络结构，对样本视频的样本视频隐特征进行特征转换，得到样本辅助隐特征，根据样本视频隐特征和样本辅助隐特征进行分类，得到第一预测结果。

服务器通过媒体分类模型中的第二网络结构，对样本标题的样本标题特征进行特征转换，得到标题参考特征，基于标题参考特征进行分类，得到第二预测结果。

服务器根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与标题参考特征间的差异，构建训练损失函数。服务器通过训练损失函数对媒体分类模型进行训练，在达到训练停止条件时停止，得到训练完成的媒体分类模型。

后续用户自制目标视频并通过终端上传至服务器，服务器在接收到用户自制的目标视频后，可以通过媒体分类模型提取目标视频的视频隐特征，对视频隐特征进行特征转换，得到用于表征目标视频的标题信息的辅助隐特征。服务器通过媒体分类模型，基于视频隐特征和辅助隐特征对目标视频进行分类，得到目标视频的所属类别。服务器基于目标视频的所属类别，可以将目标视频存储至相同所属类别所分配的存储空间。

本申请实施例还提供一种应用场景，该应用场景应用上述的媒体分类模型的训练方法。具体地，该媒体分类模型的训练方法在该应用场景的应用如下：

终端预先布置有基于上述训练过程训练得到的媒体分类模型。以媒体分类模型的训练过程由终端完成为例，终端训练媒体分类模型的过程可如下：

终端获取样本图像、与样本图像对应的样本简介、以及样本图像所属的分类标签，如体育、动物、美食和人物等。终端通过媒体分类模型中的第一网络结构，对样本图像的样本图像隐特征进行特征转换，得到样本辅助隐特征，根据样本图像隐特征和样本辅助隐特征进行分类，得到第一预测结果。

终端通过媒体分类模型中的第二网络结构，对样本简介的样本简介特征进行特征转换，得到简介参考特征，基于简介参考特征进行分类，得到第二预测结果。

终端根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与简介参考特征间的差异，构建训练损失函数。终端通过训练损失函数对媒体分类模型进行训练，在达到训练停止条件时停止，得到训练完成的媒体分类模型。

后续用户拍照并保存至终端本地时，终端可以通过媒体分类模型提取目标图像的图像隐特征，对图像隐特征进行特征转换，得到用于表征目标图像的简介信息的辅助隐特征。终端通过媒体分类模型，基于图像隐特征和辅助隐特征对目标图像进行分类，得到目标图像的所属类别。终端基于目标图像的所属类别，可以将目标图像在本地进行分类存储。

需要说明的是，上述应用场景为示意性的应用场景，用于帮助理解本申请的方案，并不用于限定本申请的实际应用场景。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的媒体分类模型的训练方法的媒体分类模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个媒体分类模型的训练装置实施例中的具体限定可以参见上文中对于媒体分类模型的训练方法的限定，在此不再赘述。

在一些实施例中，如图14所示，提供了一种媒体分类模型的训练装置1400，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1402、第一特征转换模块1404、第一分类模块1406、第二特征转换模块1408、第二分类模块1410、构建模块1412和训练模块1414，其中：

获取模块1402，用于获取训练数据，训练数据包括样本媒体数据、与样本媒体数据对应的样本模态信息、以及样本媒体数据所属的分类标签；

第一特征转换模块1404，用于通过待训练的媒体分类模型中的第一网络结构，对样本媒体数据的样本媒体隐特征进行特征转换，得到样本辅助隐特征；

第一分类模块1406，用于根据样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果；

第二特征转换模块1408，用于通过待训练的媒体分类模型中的第二网络结构，对样本模态信息的样本模态特征进行特征转换，得到模态参考特征；

第二分类模块1410，用于基于模态参考特征进行分类，得到第二预测结果；

构建模块1412，用于根据第一预测结果、第二预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数；

训练模块1414，用于通过训练损失函数对待训练的媒体分类模型进行训练，在达到训练停止条件时停止，得到训练完成的媒体分类模型。

在一些实施例中，样本媒体数据包括样本视频；获取模块1402，还用于获取样本视频的视频嵌入特征序列；确定视频嵌入特征序列中各视频嵌入特征的时序；按照视频嵌入特征序列中各视频嵌入特征的时序，依次对视频嵌入特征进行叠加处理，得到样本媒体隐特征。

在一些实施例中，获取模块1402，还用于从样本视频中提取多个图像帧；分别提取每个图像帧各自在多个维度层次上的特征；将每一图像帧各自对应的多个特征进行组合处理，得到每一图像帧各自对应的视频嵌入特征；将由各图像帧分别对应的视频嵌入特征所形成的特征序列，作为样本视频的视频嵌入特征序列。

在一些实施例中，第一网络结构中包括有特征转换子结构，特征转换子结构通过至少一层全连接层构成；第一特征转换模块1404，用于通过特征转换子结构，对样本媒体隐特征作全连接处理，得到样本辅助隐特征。

在一些实施例中，第一分类模块1410，用于对样本媒体隐特征和样本辅助隐特征进行组合处理，得到样本组合特征；基于样本组合特征进行分类，得到第一预测结果。

在一些实施例中，第二特征转换模块1408，用于通过待训练的媒体分类模型中的第二网络结构，对样本模态特征进行至少一次的全连接处理，得到模态参考特征。

在一些实施例中，该装置还包括：

第三分类模块，用于通过第一网络结构，基于样本媒体隐特征进行分类，得到第三预测结果；相应地，构建模块1412，用于根据第一预测结果、第二预测结果、第三预测结果分别与分类标签间的差异，及样本辅助隐特征与模态参考特征间的差异，构建训练损失函数。

在一些实施例中，构建模块1412，用于根据第一预测结果与分类标签间的差异，确定第一损失；根据第二预测结果与分类标签间的差异，确定第二损失；根据样本辅助隐特征与模态参考特征间的差异，确定第三损失；基于第一损失、第二损失和第三损失，构建训练损失函数。

在一些实施例中，构建模块1412，还用于对于每一训练数据，计算相应训练数据所对应的样本辅助隐特征与模态参考特征间的相似度；对每一训练数据各自对应的相似度进行求和，将求和结果作为第三损失。

在一些实施例中，训练损失函数包括第一训练损失函数和第二训练损失函数；相应地，构建模块1412，用于根据第一预测结果与分类标签间的差异，构建第一训练损失函数；根据第二预测结果与分类标签间的差异、以及样本辅助隐特征与模态参考特征间的差异，构建第二训练损失函数；

训练模块1414，用于基于第二训练损失函数执行第二训练过程，基于第一训练损失函数执行第一训练过程，且第二训练过程与第一训练过程交替执行；其中，第一训练过程是基于第一损失函数和当前批次的训练样本，对第一网络结构的参数进行调整的过程，第二训练过程是基于第二损失函数和当前批次的训练样本，对第二网络结构的参数进行调整的过程。

在一些实施例中，该装置还包括：

第三分类模块，用于通过第一网络结构，基于样本媒体隐特征进行分类，得到第三预测结果；相应地，构建模块1412，用于根据第一预测结果与分类标签间的差异、以及第三预测结果与分类标签间的差异，构建第一训练损失函数。

在一些实施例中，该装置还可以通过训练完成的媒体分类模型中的第一网络结构执行媒体数据的分类；相应地，该装置还包括：

上述媒体分类模型的训练装置，通过基于第一网络结构与第二网络结构中各子结构的损失，构建训练损失函数用于对媒体分类模型进行训练。这些损失中包括基于样本辅助隐特征与模态参考特征之间的差异所计算得到的损失。其中，样本辅助隐特征是由样本媒体隐特征学习其模态信息对应的特征表征所得到的，而模态参考特征又可以作为训练标签。由此，相当于可以从媒体数据对应的模态信息中挖掘了用于训练的监督信息，同时模态信息确实与媒体数据的内容相关联而有助于媒体数据分类，从而可以克服仅利用分类标签对媒体分类模型进行训练时监督信息太弱导致训练效果不佳的问题。因此，有利于提高媒体分类模型的训练效果，后续利用媒体分类模型对媒体数据进行分类时也可以提高分类准确性。

关于对媒体分类模型的训练装置的具体限定可以参见上文中对于媒体分类模型的训练方法的限定，在此不再赘述。上述媒体分类模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的媒体数据分类方法的媒体数据分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个媒体数据分类装置实施例中的具体限定可以参见上文中对于媒体数据分类方法的限定，在此不再赘述。

在一些实施例中，如图15所示，提供了一种媒体数据分类装置1500，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1502、特征转换模块1504、组合模块1506和分类模块1508，其中：

获取模块1502，用于获取待分类的目标媒体数据，提取目标媒体数据中的媒体隐特征；

特征转换模块1504，用于对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征；

组合模块1506，用于组合媒体隐特征和辅助隐特征得到目标组合特征；

分类模块1508，用于基于目标组合特征进行分类，输出待分类的目标媒体数据所属的类别。

在一些实施例中，特征转换模块1504，用于基于预先训练得到的特征转换子结构，对媒体隐特征进行特征转换，得到用于表征目标媒体数据的模态信息的辅助隐特征；特征转换子结构通过以模态参考特征作为标签信息进行训练得到，模态参考特征为训练阶段在对样本媒体数据的样本模态信息进行分类的过程中所得到的特征。

上述媒体数据分类装置，通过对媒体隐特征进行特征转换，即可得到用于表征目标媒体数据的模态信息的辅助隐特征。由于利用媒体分类模型对媒体数据进行分类时，不需要通过庞大复杂的完整深度神经网络模型提取模态信息的特征表征，而是直接可以基于媒体隐特征得到对应模态信息的特征表征，从而也可以提高分类效率。

最后，相较于将样本模态信息作为输入并重新再设计媒体分类模型，在维持原有媒体分类模型结构的基础下，即可使得样本媒体隐特征能够学习到样本模态信息对应的特征表征，从而可以避免改变大范围改动媒体分类模型的结构，以节省工作量。另外，将样本模态信息作为输入并重新再设计媒体分类模型，势必会再增加媒体分类模型的复杂程度，这一方面会增加模型存储所占用的存储资源，另一方面训练和后续使用过程也会因模型更复杂而占用更多处理资源，导致降低处理效率。而本申请实施例中仅需要增加用于实现特征转换的子结构，而不需要大范围改变媒体分类模型的结构，从而可以尽可能减少模型存储所占用的存储资源，还可以模型使用过程中的处理效率。

关于对媒体数据分类装置的具体限定可以参见上文中对于媒体数据分类方法的限定，在此不再赘述。上述媒体数据分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种媒体分类模型的训练方法或者媒体数据分类方法。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种媒体分类模型的训练方法，其特征在于，所述方法包括：

获取训练数据，所述训练数据包括样本媒体数据、与所述样本媒体数据对应的样本模态信息、以及所述样本媒体数据所属的分类标签；

通过待训练的媒体分类模型中的第一网络结构，对所述样本媒体数据的样本媒体隐特征进行特征转换，得到样本辅助隐特征，根据所述样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果；

通过所述待训练的媒体分类模型中的第二网络结构，对所述样本模态信息的样本模态特征进行特征转换，得到模态参考特征，基于所述模态参考特征进行分类，得到第二预测结果；

根据所述第一预测结果、第二预测结果分别与所述分类标签间的差异，及所述样本辅助隐特征与所述模态参考特征间的差异，构建训练损失函数；

通过所述训练损失函数对所述待训练的媒体分类模型进行训练，在达到训练停止条件时停止，得到训练完成的媒体分类模型。

2.根据权利要求1所述的方法，其特征在于，所述样本媒体数据包括样本视频；所述样本媒体隐特征的获取过程，包括：

获取所述样本视频的视频嵌入特征序列；

确定所述视频嵌入特征序列中各视频嵌入特征的时序；

按照所述视频嵌入特征序列中各视频嵌入特征的时序，依次对所述视频嵌入特征进行叠加处理，得到样本媒体隐特征。

3.根据权利要求2所述的方法，其特征在于，所述获取所述样本视频的视频嵌入特征序列，包括：

从所述样本视频中提取多个图像帧；

分别提取每个图像帧各自在多个维度层次上的特征；

将每一图像帧各自对应的多个特征进行组合处理，得到每一图像帧各自对应的视频嵌入特征；

将由各图像帧分别对应的视频嵌入特征所形成的特征序列，作为所述样本视频的视频嵌入特征序列。

4.根据权利要求1所述的方法，其特征在于，所述第一网络结构中包括有特征转换子结构，所述特征转换子结构通过至少一层全连接层构成；

所述对所述样本媒体数据的样本媒体隐特征进行特征转换，得到样本辅助隐特征，包括：

通过所述特征转换子结构，对所述样本媒体数据的样本媒体隐特征作全连接处理，得到样本辅助隐特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果，包括：

对所述样本媒体隐特征和样本辅助隐特征进行组合处理，得到样本组合特征；

基于所述样本组合特征进行分类，得到第一预测结果。

6.根据权利要求1所述的方法，其特征在于，所述通过待训练的媒体分类模型中的第二网络结构，对所述样本模态信息的样本模态特征进行特征转换，得到模态参考特征，包括：

通过所述待训练的媒体分类模型中的第二网络结构，对所述样本模态特征进行至少一次的全连接处理，得到模态参考特征。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所述第一网络结构，基于所述样本媒体隐特征进行分类，得到第三预测结果；

所述根据所述第一预测结果、第二预测结果分别与所述分类标签间的差异，及所述样本辅助隐特征与所述模态参考特征间的差异，构建训练损失函数，包括：

根据所述第一预测结果、第二预测结果、第三预测结果分别与所述分类标签间的差异，及所述样本辅助隐特征与所述模态参考特征间的差异，构建训练损失函数。

8.根据权利要求1所述的方法，其特征在于，所述根据所述第一预测结果、第二预测结果分别与所述分类标签间的差异，及所述样本辅助隐特征与所述模态参考特征间的差异，构建训练损失函数，包括：

根据所述第一预测结果与所述分类标签间的差异，确定第一损失；

根据所述第二预测结果与所述分类标签间的差异，确定第二损失；

根据所述样本辅助隐特征与所述模态参考特征间的差异，确定第三损失；

基于所述第一损失、第二损失和第三损失，构建训练损失函数。

9.根据权利要求8所述的方法，其特征在于，所述根据所述样本辅助隐特征与所述模态参考特征间的差异，确定第三损失，包括：

对于每一训练数据，计算相应训练数据所对应的样本辅助隐特征与模态参考特征间的相似度；

对每一训练数据各自对应的相似度进行求和，将求和结果作为第三损失。

10.根据权利要求1所述的方法，其特征在于，所述训练损失函数包括第一训练损失函数和第二训练损失函数；所述根据所述第一预测结果、第二预测结果分别与所述分类标签间的差异，及所述样本辅助隐特征与所述模态参考特征间的差异，构建训练损失函数，包括：

根据所述第一预测结果与所述分类标签间的差异，构建第一训练损失函数；

根据所述第二预测结果与所述分类标签间的差异、以及所述样本辅助隐特征与所述模态参考特征间的差异，构建第二训练损失函数；

所述通过所述训练损失函数对所述待训练的媒体分类模型进行训练，包括：

基于所述第二训练损失函数执行第二训练过程，基于所述第一训练损失函数执行第一训练过程，且所述第二训练过程与所述第一训练过程交替执行；

其中，所述第一训练过程是基于所述第一损失函数和当前批次的训练样本，对第一网络结构的参数进行调整的过程，所述第二训练过程是基于所述第二损失函数和当前批次的训练样本，对所述第二网络结构的参数进行调整的过程。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

所述根据所述第一预测结果与所述分类标签间的差异，构建第一训练损失函数，包括：

根据所述第一预测结果与所述分类标签间的差异、以及所述第三预测结果与所述分类标签间的差异，构建第一训练损失函数。

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述方法还包括通过训练完成的媒体分类模型中的第一网络结构执行媒体数据分类的步骤，所述步骤包括：

获取待分类的目标媒体数据，提取所述目标媒体数据中的媒体隐特征；

对所述媒体隐特征进行特征转换，得到用于表征所述目标媒体数据的模态信息的辅助隐特征；

基于所述媒体隐特征和所述辅助隐特征进行分类，得到所述待分类的目标媒体数据所属的类别。

13.一种媒体数据分类方法，其特征在于，所述方法包括：

组合所述媒体隐特征和所述辅助隐特征得到目标组合特征；

基于所述目标组合特征进行分类，输出所述待分类的目标媒体数据所属的类别。

14.根据权利要求13所述的方法，其特征在于，所述对所述媒体隐特征进行特征转换，得到用于表征所述目标媒体数据的模态信息的辅助隐特征，包括：

基于预先训练得到的特征转换子结构，对所述媒体隐特征进行特征转换，得到用于表征所述目标媒体数据的模态信息的辅助隐特征；所述特征转换子结构通过以模态参考特征作为标签信息进行训练得到，所述模态参考特征为训练阶段在对样本媒体数据的样本模态信息进行分类的过程中所得到的特征。

15.一种媒体分类模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取训练数据，所述训练数据包括样本媒体数据、与所述样本媒体数据对应的样本模态信息、以及所述样本媒体数据所属的分类标签；

第一特征转换模块，用于通过待训练的媒体分类模型中的第一网络结构，对所述样本媒体数据的样本媒体隐特征进行特征转换，得到样本辅助隐特征；

第一分类模块，用于根据所述样本媒体隐特征和样本辅助隐特征进行分类，得到第一预测结果；

第二特征转换模块，用于通过待训练的媒体分类模型中的第二网络结构，对所述样本模态信息的样本模态特征进行特征转换，得到模态参考特征；

第二分类模块，用于基于所述模态参考特征进行分类，得到第二预测结果；

构建模块，用于根据所述第一预测结果、第二预测结果分别与所述分类标签间的差异，及所述样本辅助隐特征与所述模态参考特征间的差异，构建训练损失函数；

训练模块，用于通过所述训练损失函数对待训练的媒体分类模型进行训练，在达到训练停止条件时停止，得到训练完成的媒体分类模型。

16.一种媒体数据分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类的目标媒体数据，提取所述目标媒体数据中的媒体隐特征；

特征转换模块，用于对所述媒体隐特征进行特征转换，得到用于表征所述目标媒体数据的模态信息的辅助隐特征；

组合模块，用于组合所述媒体隐特征和所述辅助隐特征得到目标组合特征；

分类模块，用于基于所述目标组合特征进行分类，输出所述待分类的目标媒体数据所属的类别。

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。

19.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。