CN112149632A

CN112149632A - 一种视频识别方法、装置及电子设备

Info

Publication number: CN112149632A
Application number: CN202011133415.8A
Authority: CN
Inventors: 禹常隆; 田植良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2020-12-29

Abstract

本申请实施例公开了一种视频识别方法、装置及电子设备，方法包括：获取目标视频，所述目标视频包括视频帧图像以及目标文本；调用第一图像特征提取模型提取所述视频帧图像的第一图像特征；调用第二图像特征提取模型提取所述视频帧图像的第二图像特征；调用第一文本特征提取模型提取所述目标文本的第一文本特征；调用第二文本特征提取模型提取所述目标文本的第二文本特征；根据所述第一图像特征、所述第二图像特征、所述第一文本特征和所述第二文本特征确定所述目标视频的视频标签，确定所述目标视频的视频标签属于所述第一分类任务。可以有效提升目标视频的视频标签识别过程的自动化以及智能化程度。

Description

一种视频识别方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频识别方法、装置及电子设备。

背景技术

随着计算机技术的发展，电子设备也日益普及。电子设备上具有大量的视频播放平台，提供的海量视频，丰富了人们的日常生活。但是视频中含有的内嵌广告却严重影响了人们的观看体验。

目前在对视频进行识别时，以视频中的内嵌广告为例。针对未对内嵌广告进行标注的视频，可以通过众包的方式对视频的内嵌广告过滤。即把过滤广告任务发布到视频平台，让用户标注，并给用户一定物质奖励。但通过人工的方式无法实现设备自动智能化筛选视频的广告片段，导致广告片段识别的自动化程度低下。

发明内容

本申请实施例提供了一种视频识别方法、装置及电子设备。可以有效提升目标视频的视频标签识别过程的自动化以及智能化程度。

一方面，本申请实施例提供了一种视频识别方法，所述方法包括：

获取目标视频，所述目标视频包括视频帧图像以及目标文本；

调用第一图像特征提取模型提取所述视频帧图像的第一图像特征；所述第一图像特征提取模型是基于第一分类任务训练的图像特征提取模型；

调用第二图像特征提取模型提取所述视频帧图像的第二图像特征；所述第二图像特征提取模型是基于所述第一分类任务和第二分类任务训练的图像特征提取模型；

调用第一文本特征提取模型提取所述目标文本的第一文本特征；所述第一文本特征提取模型是基于所述第一分类任务训练的文本特征提取模型；

调用第二文本特征提取模型提取所述目标文本的第二文本特征；所述第二文本特征提取模型是基于所述第一分类任务和第三分类任务训练的文本特征提取模型；

根据所述第一图像特征、所述第二图像特征、所述第一文本特征和所述第二文本特征确定所述目标视频的视频标签，确定所述目标视频的视频标签属于所述第一分类任务。

一方面，本申请实施例提供了一种视频识别装置，所述装置包括：

获取单元，用于获取目标视频，所述目标视频包括视频帧图像以及目标文本；

处理单元，用于调用第一图像特征提取模型提取所述视频帧图像的第一图像特征；所述第一图像特征提取模型是基于第一分类任务训练的图像特征提取模型；

所述处理单元，还用于调用第二图像特征提取模型提取所述视频帧图像的第二图像特征；所述第二图像特征提取模型是基于所述第一分类任务和第二分类任务训练的图像特征提取模型；

所述处理单元，还用于调用第一文本特征提取模型提取所述目标文本的第一文本特征；所述第一文本特征提取模型是基于所述第一分类任务训练的文本特征提取模型；

所述处理单元，还用于调用第二文本特征提取模型提取所述目标文本的第二文本特征；所述第二文本特征提取模型是基于所述第一分类任务和第三分类任务训练的文本特征提取模型；

确定单元，用于根据所述第一图像特征、所述第二图像特征、所述第一文本特征和所述第二文本特征确定所述目标视频的视频标签，确定所述目标视频的视频标签属于所述第一分类任务。

一方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行上述方法中的步骤的指令。

相应的，本申请实施例提供了一种计算机可读存储介质，用于储存为终端设备所用的计算机程序指令，其包含用于执行上述方法中的步骤所涉及的程序。

相应的，本申请实施例提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被计算机设备的处理器执行时，执行上述各实施例中的方法。

可见，本申请实施例中，通过多个特征提取模型识别目标视频的视频标签，实现自动识别过程，效率高，自动化程度高。并且提取第二图像特征以及第二文本特征的模型是基于第一分类任务和第二分类任务共同训练模型，即提取的图像特征以及文本特征不仅可以表征第一分类任务领域下的特征，还可以表征第二分类任务领域的特征，不仅可以丰富图像特征以及文本特征的表达方式以及丰富视频标签的识别方式，还可以提高识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的目标视频识别过程的示意图；

图2是本申请实施例提供的一种视频识别方法的流程示意图；

图3A是本申请实施例提供的另一种视频识别方法的流程示意图；

图3B是本申请实施例提供的一种训练中间模型得到第一预测标签的示意图；

图3C是本申请实施例提供的一种使用总模型得到视频标签的示意图；

图3D是本申请实施例提供的一种第二图像待训练模型的结构示意图；

图3E是本申请实施例提供的一种模块一的结构示意图；

图3F是本申请实施例提供的一种第一图像待训练模型的结构示意图；

图3G是本申请实施例提供的一种第二文本待训练模型的结构示意图；

图3H是本申请实施例提供的一种模块二的结构示意图；

图3I是本申请实施例提供的一种第一文本待训练模型的结构示意图；

图3J是本申请实施例提供的一种总模型的结构示意图；

图4是本申请实施例提供的一种图像识别装置的功能单元示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请和机器学习相结合，利用人工神经网络技术多本申请中的使用的多个模型进行构建，以及训练，得到具有很强的图像识别能力的多个模型。并且本申请和CV技术相结合，利用ORC技术提取视频帧图像中的文件，得到目标文本。对视频内容进行识别，以此确定目标视频的视频标签。提高视频标签识别过程的智能化以及自动化程度。

本申请实施例提供一种视频识别的方法，应用于视频识别装置，该视频识别装置可以是电子设备的内置装置，也可以是该电子设备的外接装置。下面结合附图进行详细介绍。

首先，请参看图1所示的目标视频识别过程的示意图，目标视频的识别过程包括第一图像特征提取模型，第二图像特征提取模型，第一文本特征提取模型，第二文本特征提取模型。

针对某一目标视频，该目标视频包括视频帧图像以及目标文本。调用第一图像特征提取模型提取视频帧图像的第一图像特征；第一图像特征提取模型是基于第一分类任务训练的图像特征提取模型；调用第二图像特征提取模型提取视频帧图像的第二图像特征；第二图像特征提取模型是基于第一分类任务和第二分类任务训练的图像特征提取模型；调用第一文本特征提取模型提取目标文本的第一文本特征；第一文本特征提取模型是基于第一分类任务训练的文本特征提取模型；调用第二文本特征提取模型提取目标文本的第二文本特征；第二文本特征提取模型是基于第一分类任务和第三分类任务训练的文本特征提取模型；最终可以根据第一图像特征、第二图像特征、第一文本特征和第二文本特征确定目标视频的视频标签，确定目标视频的视频标签属于第一分类任务。

上述第一图像特征提取模型，第二图像特征提取模型，第一文本特征提取模型，第二文本特征提取模型可以是循环网络(Recurrent Neural Networks，RNN)，卷积网络(Convolutional Neural Networks，CNN)，深度信念网络(Deep Belief NeuralNetworks)，生成式对抗网络(Generative Adversarial Networks)，自编码器(autoencoder，AE)，递归神经网络中的任意一种或多种。

上述电子设备，例如可以包括分布式存储服务器、传统服务器、大型存储系统、台式电脑、笔记本电脑、平板电脑、掌上电脑、智能手机、便携式数字播放器、智能手表以及智能手环等。

本申请实施例的技术方案可以基于图1举例所示的视频过程的示意图或形变示意图来具体实施。

参见图2，图2是本申请实施例提供的一种视频识别方法的流程示意图，可以应用于视频识别装置。这种方法可包括但不限于如下步骤：

201、获取目标视频，所述目标视频包括视频帧图像以及目标文本。

具体的，对于一段完整视频，可以按照预设方式将这段完整视频分成一个一个的视频片段。比如每5秒或者2秒或者3秒等作为一个视频片段。视频识别装置可以将其中任意一个视频片段作为目标视频。可以理解为该目标视频包括视频帧图像以及目标文本，目标文本即每一帧视频帧图像包括的字幕。

202、调用第一图像特征提取模型提取所述视频帧图像的第一图像特征。所述第一图像特征提取模型是基于第一分类任务训练的图像特征提取模型。

具体的，视频识别装置调用第一图像特征提取模型，可以从视频帧图像中提取第一图像特征。该第一图像特征提取模型是基于第一分类任务训练的图像特征提取模型。第一分类任务可以理解为区分目标视频是广告视频或者不是广告视频，可以作为视频广告分类。对应的第一图像特征即可以判断该视频帧图像对应的目标视频为广告视频或者不是广告视频的图像特征。

203、调用第二图像特征提取模型提取所述视频帧图像的第二图像特征。所述第二图像特征提取模型是基于所述第一分类任务和第二分类任务训练的图像特征提取模型。

具体的，视频识别装置调用第二图像特征提取模型，可以从视频帧图像中提取第二图像特征。该第二图像特征提取模型是基于第一分类任务以及第二分类任务训练的图像特征提取模型。第一分类任务如前所述，可以理解为区分目标视频是广告视频或者不是广告视频。对应的第一图像特征即可以判断该视频帧图像对应的目标视频为广告视频或者不是广告视频的图像特征。

另外，第二分类任务可以理解为基于视频帧图像区分视频中的不同对象，或者对象的不同行为，可以作为一种通用视频分类。对应的第二图像特征不仅可以是判断该视频帧图像对应的目标视频为广告视频或者不是广告视频的图像特征，还可以是判断该视频帧图像对应的视频中的对象以及对象的不同行为的图像特征。

204、调用第一文本特征提取模型提取所述目标文本的第一文本特征。所述第一文本特征提取模型是基于所述第一分类任务训练的文本特征提取模型。

具体的，由于目标视频包括目标文本，视频识别装置调用第一文本特征提取模型，可以从目标文本中提取第一文本特征。该第一文本特征提取模型是基于第一分类任务训练的文本特征提取模型。第一分类任务可以理解为区分目标视频是广告视频或者不是广告视频，可以作为视频广告分类。对应的第一文本特征即可以判断该目标文本对应的目标视频为广告视频或者不是广告视频的文本特征。

205、调用第二文本特征提取模型提取所述目标文本的第二文本特征。所述第二文本特征提取模型是基于所述第一分类任务和第三分类任务训练的文本特征提取模型。

具体的，视频识别装置调用第二文本特征提取模型，可以从目标文本中提取第二文本特征。该第二文本特征提取模型是基于第一分类任务以及第二分类任务训练的文本特征提取模型。第一分类任务如前所述，可以理解为区分目标视频是广告视频或者不是广告视频。对应的第一文本特征即可以判断该目标文本对应的目标视频为广告视频或者不是广告视频的文本特征。

另外，第三分类任务可以理解为基于目标文本区分视频中的不同对象，或者对象的不同行为，可以作为一种通用视频文本分类。对应的第二文本特征即可以判断该目标文本对应的视频中的对象以及对象的不同行为。第三分类任务可以与第二类分类任务相同或者不同。

206、根据所述第一图像特征、所述第二图像特征、所述第一文本特征和所述第二文本特征确定所述目标视频的视频标签，确定所述目标视频的视频标签属于所述第一分类任务。

具体的，视频装置可以根据该第一图像特征、该第二图像特征、该第一文本特征和该第二文本特征确定该目标视频的视频标签，确定该目标视频的视频标签属于上述第一分类任务，即可以为视频广告分类任务。也可以理解为，确定该目标视频的视频标签，即可以通过该视频标签判断该目标视频是否为广告视频。当然，若第一分类任务为其他分类任务，比如判断视频是否为娱乐视频、搞笑视频、新闻资讯视频、战争史实视频等，通过该视频标签也可以判断该目标视频是否为对应类别的视频。

可选的，若根据目标视频的视频标签确定该目标视频为广告视频片段时，可以从所述完整视频中删除该目标视频，使得完整视频为不包含广告视频片段的正常视频，实现完整视频的过滤过程。减少广告视频片段对完整视频的干扰，提升视频播放效果。

可见，本申请实施例中，为了完成属于第一分类任务的视频标签识别，不仅需要提取第一分类任务领域下的图像特征以及文本特征问题，还需要参考其他分类任务(即第二分类任务和第三分类任务)领域下的图像特征以及文本特征问题，基于多个分类任务领域下的多样化的特征识别得到的视频标签，可以保证识别准确率。

与上述图2所示的实施例一致，请参阅图3A，图3A是本申请实施例提供的另一种视频识别方法的流程示意图，这种方法应用于小程序生成装置，这种方法可包括但不限于如下步骤：

301、获取目标视频，所述目标视频包括视频帧图像以及目标文本。

302、调用第一图像特征提取模型提取所述视频帧图像的第一图像特征。所述第一图像特征提取模型是基于第一分类任务训练的图像特征提取模型。

303、调用第二图像特征提取模型提取所述视频帧图像的第二图像特征。所述第二图像特征提取模型是基于所述第一分类任务和第二分类任务训练的图像特征提取模型。

304、调用第一文本特征提取模型提取所述目标文本的第一文本特征。所述第一文本特征提取模型是基于所述第一分类任务训练的文本特征提取模型。

305、调用第二文本特征提取模型提取所述目标文本的第二文本特征。所述第二文本特征提取模型是基于所述第一分类任务和第三分类任务训练的文本特征提取模型。

步骤301-305参看上述步骤201-205，在此不再赘述。

306、调用图像特征融合模型，将所述第一图像特征和所述第二图像特征融合为第一特征。

具体的，图像特征融合模型可以包括至少两个非线性变换层，两个非线性变换层之间连接全连接层。一个非线性变换层连接第一图像特征提取模型与第二图像特征提取模型，另一个非线性变换层连接标签识别模型。采用图像特征融合模型可以将第一图像特征和所述第二图像特征融合为第一特征。比如第一图像特征为广告视频特征，第二图像特征为人物运动图像特征。融合后的第一特征可以包含人物运动图像特征以及广告视频图像特征。

另外，图像特征融合模型可以为内外网模型(Inside-Outside Net，ION)、像素级融合、特征级融合和决策级融合等。也可以是早融合模型(Early fusion)。早融合为先融合多层的特征，然后在融合后的特征上训练预测器(只在完全融合之后，才统一进行检测)。这类方法也被称为skip connection(跳跃连接)，即采用concat(连接)、add(添加)融合方式。)concat，系列特征融合，直接将两个特征进行连接。两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q。add，并行策略，将这两个特征向量组合成复向量，对于输入特征x和y，z＝x+iy，其中i是虚数单位。

307、调用文本特征融合模型，将所述第一文本特征和所述第二文本特征融合为第二特征。

具体的，文本特征融合模型包括至少两个非线性变换层，两个非线性变换层之间连接全连接层。一个非线性变换层连接第一文本特征提取模型与第二文本特征提取模型，另一个非线性变换层连接标签识别模型。也可以是早融合模型(Early fusion)。

视频识别装置调用文本特征融合模型，可以将所述第一文本特征和所述第二文本特征融合为第二特征。比如第一文本特征为广告视频特征，第二文本特征为人物运动文本特征。融合后的第二特征可以包含人物运动文本特征以及广告视频文本特征。

308、调用标签识别模型，识别所述第一特征和所述第二特征，得到目标视频的视频标签。其中，所述图像特征融合模型、所述文本特征融合模型以及所述标签识别模型是基于所述第一分类任务训练的模型。

具体的，图像识别装置调用标签识别模型，可以识别所述第一特征和所述第二特征，得到目标视频的视频标签。以第一特征为包含人物运动图像特征的广告图视频特征，第二特征为包含人物运动文本特征的广告视频特征为例，图像识别装置识别第一特征与第二特征后，得到的目标视频的视频标签为包含人物运动特征的广告视频特征。进一步的可以通过该视频标签将该目标视频确定为广告视频。

其中，所述图像特征融合模型、所述文本特征融合模型以及所述标签识别模型是基于所述第一分类任务训练的模型。第一分类任务如前所述，在此不再赘述。

可见，视频识别装置在获取目标视频之后，可以分别调用第一图像特征提取模型提取第一图像特征；调用第二图像特征提取模型提取所述视频帧图像的第二图像特征。调用第一文本特征提取模型提取所述目标文本的第一文本特征；调用第二文本特征提取模型提取所述目标文本的第二文本特征。也就是基于多样化的特征提取模型，获取目标视频的多样化特征。进一步的，调用图像特征融合模型，将所述第一图像特征和所述第二图像特征融合为第一特征；调用文本特征融合模型，将所述第一文本特征和所述第二文本特征融合为第二特征；调用标签识别模型，识别所述第一特征和所述第二特征，得到目标视频的视频标签。基于多样化的特征融合模型融合多样化的特征，能有效提高视频标签识别的准确程度。

并且由于第二图像特征提取模型，以及第二文本特征提取模型不仅基于第一分类任务进行训练，还基于第二分类任务采用通用视频训练，采用的训练样本更易获取，能有效弥补第一分类任务样本量不足的问题，显著提升训练效果。使得二者最终在做目标视频识别时，能提升整体模型的识别效果。

在一个可能的实施例中，所述获取目标视频，包括：获取所述视频帧图像，识别所述视频帧图像中的文本，将识别到的文本作为所述目标文本；将所述视频帧图像和所述目标文本组合为所述目标视频。

具体的，由于目标视频是由一帧一帧的视频帧图像组成，要获取目标视频，就需要获取组成目标视频的视频帧图像。在获取视频帧图像之后，需要识别视频帧图像中的文本，并将识别到的文本作为所述目标文本，也即目标视频包含的文本。识别视频帧图像中的文本，也即将视频帧图像中的字幕提取出来。针对嵌入在频帧图像中的字幕，需要用光学字符识别(Optical Character Recognition,OCR)技术对每一个视频片段中包含的字幕进行提取。若该字幕有的是通过单独的字幕文件，则可以直接从文件中提取文本。使得通过目标视频本身的视频帧图像信息，以及目标视频字幕的语言学信息分析，对提取出的目标视频的图像特征以及文本特征，对视频标签进行识别。进一步的，可以将所述视频帧图像和所述目标文本组合为所述目标视频。

可见，根据获取的视频帧图像，识别所述视频帧图像中的文本，将识别到的文本作为所述目标文本；进一步的，将所述视频帧图像和所述目标文本组合为所述目标视频。后续，不仅使用目标视频的视频帧图像，还使用目标视频的目标文本，使得多个特征提取模型在进行特征提取时，能提取到多样化的特征，以此提升视频标签确定的准确程度。

在一个可能的实施例中，所述方法还包括：获取用于第一分类任务的第一样本数据，所述第一样本数据包括第一样本视频帧图像以及第一样本文本；调用第一图像待训练中间模型提取所述第一样本视频帧图像的第一样本图像特征，以及调用第二图像待训练中间模型提取所述第一样本视频帧图像的第二样本图像特征；调用第一文本待训练中间模型提取所述第一样本文本的第一样本文本特征，以及调用第二文本待训练中间模型提取所述第一样本文本的第二样本文本特征；调用待训练图像特征融合模型将所述第一样本图像特征以及所述第二样本图像特征融合为第一样本特征；调用待训练文本特征融合模型，将所述第一样本文本特征和所述第二样本文本特征融合为第二样本特征；调用待训练标签识别模型，识别所述第一样本特征和所述第二样本特征，得到第一样本数据的第一预测标签；获取所述第一样本数据的第一样本标签，根据所述第一预测标签和所述第一样本标签训练所述第一图像待训练中间模型、所述第二图像待训练中间模型、所述第一文本待训练中间模型、所述第二文本待训练中间模型、所述待训练图像特征融合模型、所述待训练文本特征融合模型以及所述待训练标签识别模型，得到第一图像特征提取模型、第二图像特征提取模型、第一文本特征提取模型、第二文本特征提取模型、图像特征融合模型、文本特征融合模型以及标签识别模型。

具体的，可以理解为在视频识别阶段使用的特征提取模型，是利用第一样本数据训练中间模型得到的。第一样本数据可以为进行广告标注的视频或未进行广告标注的视频，即第一样本数据的真实标签用于标识该第一样本数据是广告视频，或者不是广告视频。第一样本数据用于第一分类任务，第一分类任务可以为广告分类任务，即判断该视频是广告视频还是非广告视频。如图3B所示，图3B为基于第一样本数据训练中间模型得到第一预测标签的过程。所述第一样本数据包括第一样本视频帧图像以及第一样本文本。视频识别装置调用第一图像待训练中间模型提取所述第一样本视频帧图像的第一样本图像特征，以及调用第二图像待训练中间模型提取所述第一样本视频帧图像的第二样本图像特征。调用第一文本待训练中间模型提取所述第一样本文本的第一样本文本特征，以及调用第二文本待训练中间模型提取所述第一样本文本的第二样本文本特征。调用待训练图像特征融合模型将所述第一样本图像特征以及所述第二样本图像特征融合为第一样本特征。比如，第一样本图像特征为广告视频特征，第二样本图像特征为运动的人物图像特征。待训练图像特征融合模型将二者融合后得到的第一样本特征便可以为包含运动的人物图像特征的广告视频特征。

另外，视频识别装置调用待训练文本特征融合模型，将所述第一样本文本特征和所述第二样本文本特征融合为第二样本特征。举例来说，第一样本文本特征为广告文本，第二样本文本特征可以为情感特征。比如正向情感特征，负向情感特征等。待训练文本特征融合模型将二者融合后得到的第二样本特征便可以为带有励志激励特征的广告文本。

更进一步的，由于待训练标签识别模型为基于第一分类任务的标签识别模型，因此，调用待训练标签识别模型，识别所述第一样本特征和所述第二样本特征，得到第一样本数据的第一预测标签可以得到第一分类任务的预测结果。比如第一预测标签为广告标签或者非广告标签。当然，第一预测标签还可以带有其他标签，比如基于图像特征提取的人物运动标签，或者基于文本特征提取的情感标签等。

再者，视频识别装置在获取所述第一样本数据的第一样本标签(也就是第一样本数据的真实标签)，根据所述第一预测标签和第一样本标签训练第一图像待训练中间模型、第二图像待训练中间模型、第一文本待训练中间模型、第二文本待训练中间模型、待训练图像特征融合模型、待训练文本特征融合模型以及待训练标签识别模型。即根据第一预测标签和第一样本标签的差值(即误差)，也即根据上述中间模型或者待训练模型的损失函数，调整上述模型的参数，使得上述模型逐渐达到模型收敛条件，模型收敛条件可以是以下任意一种或多种：损失值(即误差)小于某个预先设定的误差阈值；或者，两次迭代之间的权值变化(参数)已经很小，可设定一个阈值，当权值变化值小于参数阈值后，就停止训练；又或者，设定最大迭代次数，当迭代超过最大次数就停止训练，可以视为达到模型收敛条件。在达到收敛后，得到第一图像待训练中间模型对应的第一图像特征提取模型，第二图像待训练中间模型对应的第二图像特征提取模型，第一文本待训练中间模型对应的第一文本特征提取模型，第二文本待训练中间模型对应的第二文本特征提取模型，待训练图像特征融合模型对应的图像特征融合模型、待训练文本特征融合模型对应的文本特征融合模型以及待训练标签识别模型对应的标签识别模型。

训练完成后，得到的可以识别目标视频的视频标签的综合模型可以如图3C所示。其中，图像特征融合模型包括至少两个非线性变换层，两个非线性变换层之间连接全连接层。一个非线性变换层连接第一图像特征提取模型与第二图像特征提取模型，另一个非线性变换层连接标签识别模型。同理，文本特征融合模型包括至少两个非线性变换层，两个非线性变换层之间连接全连接层。一个非线性变换层连接第一文本特征提取模型与第二文本特征提取模型，另一个非线性变换层连接标签识别模型。标签识别模型包括至少一个全连接层。

可见，视频识别装置调用基于第一分类任务的多个中间模型，联合输出第一样本数据的第一预测标签。再获取该第一样本数据的第一样本标签，根据所述第一预测标签和所述第一样本标签训练训练上述中间模型，最终使得各个模型能尽量收敛。提高各个模型针对第一分类任务的视频识别能力，提升各个模型识别目标视频的准确程度。

下面对如何得到第二图像待训练中间模型的具体过程进行说明：

在一个可能的实施例中，还包括：获取用于第二分类任务的第二样本数据；所述第二样本数据包括第二样本视频帧图像；基于第二图像待训练模型，识别所述第二样本视频帧图像的第二预测标签；根据所述第二样本数据的第二样本标签以及第二预测标签，训练所述第二图像待训练模型得到所述第二图像待训练中间模型，其中，第二样本数据的数量大于所述第一样本数据的数量。

具体的，图像识别装置获取用于第二分类任务的第二样本数据。第二分类任务如前所述，可以理解为基于视频帧图像区分视频中的不同对象，或者对象的不同行为，可以作为一种通用视频分类。不同于第一样本数据需要进行广告标注，因此，第二样本数据的数量要远远大于所述第一样本数据的数量。

该第二样本数据包括第二样本视频帧图像。第二图像待训练模型可以如图3D所示，包括模块一，还包括至少两层全连接层，两层全连接层之间通过非线性变换层连接。全连接层中的任意一层连接模块一。

另外，模块一为视频向量化表示模型，如图3E所示，包括至少一个三维卷积神经网络(Convolutional Neural Networks，3D-CNN)，还包括至少两层全连接层，两层全连接层之间通过非线性变换层连接。全连接层中的任意一层连接3D-CNN网络。由于一个完整视频包含很多个视频片段，例如每5秒、3秒、4秒等算作是一个视频片段。第二样本数据中包含大量的视频片段。本模块会将分割好的视频片段进行内容分析，3D-CNN网络对视频片段进行建模，最终模块一将每一个视频片段转化为一个视频向量，该视频向量作为视频内容的表示。

更进一步的，基于第二图像待训练模型，识别所述第二样本视频帧图像的第二预测标签。即模块一将第二样本视频帧图像的视频向量输入第二图像待训练模型，由第二图像待训练模型识别所述第二样本视频帧图像的第二预测标签。再根据所述第二样本数据的第二样本标签以及第二预测标签，确定第二图像待训练模型的损失值，并根据该损失值调整第二图像待训练模型的参数值，使得第二图像待训练模型完全收敛，得到所述第二图像待训练中间模型。由于第二样本数据是用于通用图像分类的样本数据，因此第二样本数据可以为海量数据，比如10万个视频片段，或者100万个视频片段等，因此可以将第二图像待训练模型训练至完全收敛，使得其具有很好的通用视频识别能力。

可见，基于大量的第二样本数据预先将第二图像待训练模型训练至完全收敛，得到所述第二图像待训练中间模型。提升第二图像待训练中间模型通用视频分类能力。进一步的，利用第一样本数据再次训练第二图像待训练中间模型，得到的第二图像特征提取模型能具有更好的第二图像特征提取能力，有利于提升针对第一分类任务的目标视频标签识别的准确程度。

下面对如何得到第一图像待训练中间模型的具体过程进行说明：

在一个可能的实施例中，还包括：基于第一图像待训练模型，识别所述第一样本视频帧图像的原始图像预测标签；根据所述第一样本数据的样本标签以及原始图像预测标签，训练所述第一图像待训练模型得到所述第一图像待训练中间模型。

具体的，类似于第二图像待训练模型的结构，第一图像待训练模型的结构可以如图3F所示，包括模块一，还包括至少两层全连接层，两层全连接层之间通过非线性变换层连接。全连接层中的任意一层连接模块一。模块一的结构如前所述，在此不再赘述。

更进一步的，基于第一图像待训练模型，识别所述第一样本视频帧图像的原始图像预测标签。即模块一将第一样本视频帧图像的视频向量输入第一图像待训练模型，由第一图像待训练模型识别所述第一样本视频帧图像的原始图像预测标签。再根据所述第一样本数据的样本标签以及原始图像预测标签，确定第一图像待训练模型的损失函数，并根据该损失函数调整第一图像待训练模型的参数值，使得第一图像待训练模型尽可能的收敛(即训练至所有第一样本数据都参与第一图像待训练模型的训练即可)，得到所述第一图像待训练中间模型。但由于第一样本数据来自于人工标注，会标注出每一个视频片段是否为广告片段。但是由于标注数据需要人工进行，难度大、消耗时间与金钱，所以这部分我们只能收集到较少的数据。比如50个视频片段，100个，或者500个，20个等。因此，并不能保证利用第一样本数据可以将第一图像待训练模型训练至完全收敛，也即第一图像待训练中间模型并不一定完全收敛。

可见，基于少量的第一样本数据预先将第一图像待训练模型训练至尽可能收敛，得到所述第一图像待训练中间模型。提升第一图像待训练中间模型的第一分类任务的能力，可以是广告分类能力。以便于，后续进一步利用第一样本数据再次同时训练第一图像待训练中间模型与第二图像待训练中间模型，得到第一图像特征提取模型与第二图像特征提取模型。通过第二图像特征提取模型强化整体模型的图像特征提取能力，有助于针对目标视频的第一分类任务的视频标签识别结果更加准确。

下面对如何得到第二文本待训练中间模型的具体过程进行说明：

在一个可能的实施例中，还包括：获取用于第三分类任务的第三样本数据；所述第三样本数据包括第三样本文本；基于第二文本待训练模型，识别所述第三样本文本的第三预测标签；根据第三样本数据的第三样本标签以及第三预测标签，训练所述第二文本待训练模型得到第二文本待训练中间模型，其中，第三样本数据的数量大于所述第一样本数据的数量。

具体的，图像识别装置获取用于第三分类任务的第三样本数据。第三分类任务可以同第二分类任务相同，也可以不同。可以理解为基于第三样本数据的样本文本区分文本中的不同对象，不同对象对应的不同行为，或者文本具有的不同情感。可以作为一种通用文本分类。不同于第一样本数据需要进行广告标注，第三样本数据不需要任何有监督的数据，可以直接从所有视频中提取文本字幕做文本输入和文本的向量化输出。因此，第三样本数据的数量要远远大于所述第一样本数据的数量。

该第三样本数据包括第三样本文本。第二文本待训练模型可以如图3G左侧所示，包括模块二，还包括至少两层全连接层，两层全连接层之间通过非线性变换层连接。全连接层中的任意一层连接模块二。

另外，模块二为文本向量化表示模型，并且为提高模块二的文本向量化表示准确度和效率，可以预先训练该文本向量化表示模型。该模型的结构如图3H所示。在对文本向量化表示模型进行训练时，可以做一个无监督的任务。即输入样本文本，样本文本可以是第三样本文本，也可以是第一样本文本。通过一个循环神经网络(Recurrent Neural Network，RNN)将样本文本变换成一个向量，并且输出文本向量；输出的文本向量输入另一个RNN重构出原始的句子，即样本文本。基于大规模的数据训练文本向量化表示模型，可以让该模型具有理解文本、以及很强的文本向量化表示的能力。

更进一步的，基于第二文本待训练模型，识别所述第三样本文本的第三预测标签。即模块二将第三样本文本的文本向量输入第二文本待训练模型，由第二文本待训练模型识别所述第三样本文本的第三预测标签。再根据所述第三样本数据的第三样本标签以及第三预测标签，确定第二文本待训练模型的损失函数，并根据该损失函数调整第二文本待训练模型的参数值，使得第二图像待训练模型完全收敛，得到所述第二图像待训练中间模型。由于第二样本数据为大量数据，比如20万个视频片段，50万个、或者100万个视频片段等，因此可以将第二文本待训练模型训练至完全收敛，使得其具有很好的通用文本识别能力。

可见，基于大量的第三样本数据预先将第二文本待训练模型训练至完全收敛，得到所述第二文本待训练中间模型。提升第二文本待训练中间模型通用文本分类能力。进一步的，利用第一样本数据再次训练第二文本待训练中间模型，得到的第二文本特征提取模型能具有更好的第二文本特征提取能力，有利于提升针对第一分类任务的目标视频标签识别的准确程度。

下面对如何得到第一文本待训练中间模型的具体过程进行说明：

在一个可能的实施例中，还包括：基于第一文本待训练模型，识别所述第一样本文本的原始文本预测标签；根据所述第一样本数据的样本标签以及原始文本预测标签，训练所述第一文本待训练模型得到第一文本待训练中间模型。

具体的，类似于第二文本待训练模型的结构，第一文本待训练模型的结构可以如图3I所示，包括模块二，还包括至少两层全连接层，两层全连接层之间通过非线性变换层连接。全连接层中的任意一层连接模块二。模块二的结构如前所述，在此不再赘述。通过模块二可以将第一样本文本转化成对应的文本向量。

更进一步的，基于第一文本待训练模型，识别所述第一样本文本的原始文本预测标签。即模块二将第一样本文本的文本向量输入第一文本待训练模型，由第一文本待训练模型识别所述第一样本文本的原始文本预测标签。再根据所述第一样本数据的样本标签以及原始文本预测标签，确定第一文本待训练模型的损失函数，并根据该损失函数调整第一文本待训练模型的参数值，使得第一文本待训练模型尽可能的收敛，得到所述第一文本待训练中间模型。但由于第一样本数据来自于人工标注，会标注出每一个视频片段是否为广告片段。但是由于标注数据需要人工进行，难度大、消耗时间与金钱，所以这部分我们只能收集到较少的数据。比如30个视频片段，100个，或者500个，20个等。因此，并不能保证利用第一样本数据可以将第一文本待训练模型训练至完全收敛，也即第一文本待训练中间模型并不一定完全收敛。

可见，基于少量的第一样本数据预先将第一文本待训练模型训练至尽可能收敛，得到所述第一文本待训练中间模型。可以有效提升第一文本待训练中间模型的第一分类任务的能力。第一分类任务可以是广告分类任务。以便于，后续进一步利用第一样本数据再次同时训练第一文本待训练中间模型与第二文本待训练中间模型，得到第一文本特征提取模型与第二文本特征提取模型。通过第二文本特征提取模型强化整体模型的文本特征提取能力，有助于针对目标视频的第一分类任务的视频标签识别结果更加准确。

总结上述过程，首先是针对各个待训练模型的单独训练。包括基于第一分类任务对第一图像待训练模型以及第一文本待训练模型进行训练，以及基于第二分类任务对第一文本待训练模型以及基于第三分类任务对第二文本待训练模型进行训练。使得各个待训练模型尽可能的收敛，得到各个待训练模型对应的中间模型。提高中间模型对图像的识别能力。

然后是基于第一分类任务对各个中间模型进行联合训练。且在联合训练时，可以认为中间模型是经过了上述预训练的，因此即使少量的第一样本参与联合训练，也可以达到模型收敛条件。即本申请会降低对属于第一分类任务的第一样本数据量的要求，转而用其他分类领域(即第二分类任务和第三分类任务)的数据对待训练的模型进行预先训练，得到中间模型。其他分类领域可以理解为通用分类领域。

从样本数据体量角度来说，训练模型属于半监督模型。也即既采用广告标注视频数据，又采用海量通用分类视频(未进行广告标注)数据，实现对待训练模型的预训练过程。提升各个中间模型的图像视频能力，辅助第一分类任务的完成。

在模型训练完成后得到的总体图，可以如图3J所示，图3J中的各个特征提取模型，各个特征融合模型以及标签识别模型用于第一分类任务，第一分类任务可以是广告视频分类任务。

其中，第二图像特征提取模型是由第二图像待训练中间模型训练后得到的。由于第二图像待训练中间模型是采用通用视频数据，对第二图像待训练模型训练至收敛后得到的，第二图像待训练中间模型具有通用视频分类能力。因此，图3J中标注的第二图像特征提取模型用于通用视频分类任务，可以理解为是由第二图像待训练中间模型完成的。第一图像特征提取模型与第二图像特征提取模型皆包括模块一。

同理，第二文本特征提取模型是由第二文本待训练中间模型训练后得到的。由于第二文本待训练中间模型是采用通用文本数据，对第二文本待训练模型训练至收敛后得到的，第二文本待训练中间模型具有通用文本分类能力。因此，图3J中标注的第二文本特征提取模型用于通用文本分类任务，可以理解为是由第二文本待训练中间模型完成的。第一文本特征提取模型与第二文本特征提取模型皆包括模块二。

另外，针对第一分类任务使用总模型识别目标视频的视频标签时，图像特征融合模型能融合第一图像特征提取模型以及第二图像特征提取模型输出的图像特征，得到第一特征，并将融合后的第一特征输入标签识别模型。标签识别模型可以包含至少一个全连接层。文本特征融合模型能融合第一文本特征提取模型以及第二文本特征提取模型输出的文本特征，得到第二特征，并将融合后的第二特征输入标签识别模型。标签识别模型基于第一特征以及第二特征输出视频标签。由此可见，视频标签是基于第一分类任务得到的。因此，通过视频标签可以判断该目标视频是否为广告视频。

再请参见图4，是本发明实施例的一种图像识别装置400的功能单元示意图，本申请实施例的图像识别装置400可以为前述图1-图3J对应实施例中的图像识别装置，图像识别装置400可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该图像识别装置为一个应用软件。

本发明实施例的所述装置的一个实现方式中，所述装置包括：

获取单元410，用于获取目标视频，所述目标视频包括视频帧图像以及目标文本；

处理单元420，用于调用第一图像特征提取模型提取所述视频帧图像的第一图像特征；所述第一图像特征提取模型是基于第一分类任务训练的图像特征提取模型；

所述处理单元420，还用于调用第二图像特征提取模型提取所述视频帧图像的第二图像特征；所述第二图像特征提取模型是基于所述第一分类任务和第二分类任务训练的图像特征提取模型；

所述处理单元420，还用于调用第一文本特征提取模型提取所述目标文本的第一文本特征；所述第一文本特征提取模型是基于所述第一分类任务训练的文本特征提取模型；

所述处理单元420，还用于调用第二文本特征提取模型提取所述目标文本的第二文本特征；所述第二文本特征提取模型是基于所述第一分类任务和第三分类任务训练的文本特征提取模型；

确定单元430，用于根据所述第一图像特征、所述第二图像特征、所述第一文本特征和所述第二文本特征确定所述目标视频的视频标签，确定所述目标视频的视频标签属于所述第一分类任务。

在一个可能的实施例中，在所述根据所述第一图像特征、所述第二图像特征、所述第一文本特征和所述第二文本特征确定所述目标视频的视频标签方面，所述确定单元430，具体用于：调用图像特征融合模型，将所述第一图像特征和所述第二图像特征融合为第一特征；调用文本特征融合模型，将所述第一文本特征和所述第二文本特征融合为第二特征；调用标签识别模型，识别所述第一特征和所述第二特征，得到目标视频的视频标签；其中，所述图像特征融合模型、所述文本特征融合模型以及所述标签识别模型是基于所述第一分类任务训练的模型。

在一个可能的实施例中，在所述获取目标视频方面，所述获取单元410，具体用于：获取所述视频帧图像，识别所述视频帧图像中的文本，将识别到的文本作为所述目标文本；将所述视频帧图像和所述目标文本组合为所述目标视频。

在一个可能的实施例中，所述处理单元420还用于：获取用于第一分类任务的第一样本数据，所述第一样本数据包括第一样本视频帧图像以及第一样本文本；调用第一图像待训练中间模型提取所述第一样本视频帧图像的第一样本图像特征，以及调用第二图像待训练中间模型提取所述第一样本视频帧图像的第二样本图像特征；调用第一文本待训练中间模型提取所述第一样本文本的第一样本文本特征，以及调用第二文本待训练中间模型提取所述第一样本文本的第二样本文本特征；调用待训练图像特征融合模型将所述第一样本图像特征以及所述第二样本图像特征融合为第一样本特征；调用待训练文本特征融合模型，将所述第一样本文本特征和所述第二样本文本特征融合为第二样本特征；调用待训练标签识别模型，识别所述第一样本特征和所述第二样本特征，得到第一样本数据的第一预测标签；获取所述第一样本数据的第一样本标签，根据所述第一预测标签和所述第一样本标签训练所述第一图像待训练中间模型、所述第二图像待训练中间模型、所述第一文本待训练中间模型、所述第二文本待训练中间模型、所述待训练图像特征融合模型、所述待训练文本特征融合模型以及所述待训练标签识别模型，得到第一图像特征提取模型、第二图像特征提取模型、第一文本特征提取模型、第二文本特征提取模型、图像特征融合模型、文本特征融合模型以及标签识别模型。

在一个可能的实施例中，所述处理单元420还用于：获取用于第二分类任务的第二样本数据；所述第二样本数据包括第二样本视频帧图像；基于第二图像待训练模型，识别所述第二样本视频帧图像的第二预测标签；根据所述第二样本数据的第二样本标签以及第二预测标签，训练所述第二图像待训练模型得到所述第二图像待训练中间模型，其中，第二样本数据的数量大于所述第一样本数据的数量。

在一个可能的实施例中，所述处理单元420还用于：基于第一图像待训练模型，识别所述第一样本视频帧图像的原始图像预测标签；根据所述第一样本数据的样本标签以及原始图像预测标签，训练所述第一图像待训练模型得到所述第一图像待训练中间模型。

在一个可能的实施例中，所述处理单元420还用于：获取用于第三分类任务的第三样本数据；所述第三样本数据包括第三样本文本；基于第二文本待训练模型，识别所述第三样本文本的第三预测标签；根据第三样本数据的第三样本标签以及第三预测标签，训练所述第二文本待训练模型得到第二文本待训练中间模型，其中，第三样本数据的数量大于所述第一样本数据的数量。

在一个可能的实施例中，所述处理单元420还用于：基于第一文本待训练模型，识别所述第一样本文本的原始文本预测标签；根据所述第一样本数据的样本标签以及原始文本预测标签，训练所述第一文本待训练模型得到第一文本待训练中间模型。

在一些实施例中，视频识别装置还可包括有输入输出接口、通信接口、电源以及通信总线。

本申请实施例可以根据上述方法示例对视频识别装置进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

再请参见图5，是本发明实施例的一种电子设备的结构示意图，前述图1-图3J对应实施例中的图像识别装置可以应用于该电子设备，所述电子设备包括供电模块等结构，并包括处理器501、存储设备502以及通信接口503。所述处理器501、存储设备502以及通信接口503之间可以交互数据。

所述存储设备502可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储设备502也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储设备502还可以包括上述种类的存储器的组合。所述通信接口503为电子设备的内部设备之间进行数据交互的接口，如：存储设备502与处理器501之间。

所述处理器501可以是中央处理器501(central processing unit，CPU)。在一个实施例中，所述处理器501还可以是图形处理器501(Graphics Processing Unit，GPU)。所述处理器501也可以是由CPU和GPU的组合。在一个实施例中，所述存储设备502用于存储程序指令。所述处理器501可以调用所述程序指令，执行如下步骤：

在一个可能的实施例中，在所述根据所述第一图像特征、所述第二图像特征、所述第一文本特征和所述第二文本特征确定所述目标视频的视频标签方面，所述处理器501，具体用于：调用图像特征融合模型，将所述第一图像特征和所述第二图像特征融合为第一特征；调用文本特征融合模型，将所述第一文本特征和所述第二文本特征融合为第二特征；调用标签识别模型，识别所述第一特征和所述第二特征，得到目标视频的视频标签；其中，所述图像特征融合模型、所述文本特征融合模型以及所述标签识别模型是基于所述第一分类任务训练的模型。

在一个可能的实施例中，在所述获取目标视频方面，所述处理器501，具体用于：获取所述视频帧图像，识别所述视频帧图像中的文本，将识别到的文本作为所述目标文本；将所述视频帧图像和所述目标文本组合为所述目标视频。

在一个可能的实施例中，所述处理器501，还用于：获取用于第一分类任务的第一样本数据，所述第一样本数据包括第一样本视频帧图像以及第一样本文本；调用第一图像待训练中间模型提取所述第一样本视频帧图像的第一样本图像特征，以及调用第二图像待训练中间模型提取所述第一样本视频帧图像的第二样本图像特征；调用第一文本待训练中间模型提取所述第一样本文本的第一样本文本特征，以及调用第二文本待训练中间模型提取所述第一样本文本的第二样本文本特征；调用待训练图像特征融合模型将所述第一样本图像特征以及所述第二样本图像特征融合为第一样本特征；调用待训练文本特征融合模型，将所述第一样本文本特征和所述第二样本文本特征融合为第二样本特征；调用待训练标签识别模型，识别所述第一样本特征和所述第二样本特征，得到第一样本数据的第一预测标签；获取所述第一样本数据的第一样本标签，根据所述第一预测标签和所述第一样本标签训练所述第一图像待训练中间模型、所述第二图像待训练中间模型、所述第一文本待训练中间模型、所述第二文本待训练中间模型、所述待训练图像特征融合模型、所述待训练文本特征融合模型以及所述待训练标签识别模型，得到第一图像特征提取模型、第二图像特征提取模型、第一文本特征提取模型、第二文本特征提取模型、图像特征融合模型、文本特征融合模型以及标签识别模型。

在一个可能的实施例中，所述处理器501，还用于：获取用于第二分类任务的第二样本数据；所述第二样本数据包括第二样本视频帧图像；基于第二图像待训练模型，识别所述第二样本视频帧图像的第二预测标签；根据所述第二样本数据的第二样本标签以及第二预测标签，训练所述第二图像待训练模型得到所述第二图像待训练中间模型，其中，第二样本数据的数量大于所述第一样本数据的数量。

在一个可能的实施例中，所述处理器501，还用于：基于第一图像待训练模型，识别所述第一样本视频帧图像的原始图像预测标签；根据所述第一样本数据的样本标签以及原始图像预测标签，训练所述第一图像待训练模型得到所述第一图像待训练中间模型。

在一个可能的实施例中，所述处理器501，还用于：获取用于第三分类任务的第三样本数据；所述第三样本数据包括第三样本文本；基于第二文本待训练模型，识别所述第三样本文本的第三预测标签；根据第三样本数据的第三样本标签以及第三预测标签，训练所述第二文本待训练模型得到第二文本待训练中间模型，其中，第三样本数据的数量大于所述第一样本数据的数量。

在一个可能的实施例中，所述处理器501，还用于：基于第一文本待训练模型，识别所述第一样本文本的原始文本预测标签；根据所述第一样本数据的样本标签以及原始文本预测标签，训练所述第一文本待训练模型得到第一文本待训练中间模型。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如上述方法实施例中记载的任一方法的部分或全部步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种视频识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一图像特征、所述第二图像特征、所述第一文本特征和所述第二文本特征确定所述目标视频的视频标签，包括：

调用图像特征融合模型，将所述第一图像特征和所述第二图像特征融合为第一特征；

调用文本特征融合模型，将所述第一文本特征和所述第二文本特征融合为第二特征；

调用标签识别模型，识别所述第一特征和所述第二特征，得到目标视频的视频标签；

其中，所述图像特征融合模型、所述文本特征融合模型以及所述标签识别模型是基于所述第一分类任务训练的模型。

3.根据权利要求1所述的方法，其特征在于，所述获取目标视频，包括：

获取所述视频帧图像，识别所述视频帧图像中的文本，将识别到的文本作为所述目标文本；

将所述视频帧图像和所述目标文本组合为所述目标视频。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用于第一分类任务的第一样本数据，所述第一样本数据包括第一样本视频帧图像以及第一样本文本；

调用第一图像待训练中间模型提取所述第一样本视频帧图像的第一样本图像特征，以及调用第二图像待训练中间模型提取所述第一样本视频帧图像的第二样本图像特征；

调用第一文本待训练中间模型提取所述第一样本文本的第一样本文本特征，以及调用第二文本待训练中间模型提取所述第一样本文本的第二样本文本特征；

调用待训练图像特征融合模型将所述第一样本图像特征以及所述第二样本图像特征融合为第一样本特征；

调用待训练文本特征融合模型，将所述第一样本文本特征和所述第二样本文本特征融合为第二样本特征；

调用待训练标签识别模型，识别所述第一样本特征和所述第二样本特征，得到第一样本数据的第一预测标签；

获取所述第一样本数据的第一样本标签，根据所述第一预测标签和所述第一样本标签训练所述第一图像待训练中间模型、所述第二图像待训练中间模型、所述第一文本待训练中间模型、所述第二文本待训练中间模型、所述待训练图像特征融合模型、所述待训练文本特征融合模型以及所述待训练标签识别模型，得到第一图像特征提取模型、第二图像特征提取模型、第一文本特征提取模型、第二文本特征提取模型、图像特征融合模型、文本特征融合模型以及标签识别模型。

5.根据权利要求4所述的方法，其特征在于，还包括：

获取用于第二分类任务的第二样本数据；所述第二样本数据包括第二样本视频帧图像；

基于第二图像待训练模型，识别所述第二样本视频帧图像的第二预测标签；

根据所述第二样本数据的第二样本标签以及第二预测标签，训练所述第二图像待训练模型得到所述第二图像待训练中间模型，其中，第二样本数据的数量大于所述第一样本数据的数量。

6.根据权利要求4所述的方法，其特征在于，还包括：

基于第一图像待训练模型，识别所述第一样本视频帧图像的原始图像预测标签；

根据所述第一样本数据的样本标签以及原始图像预测标签，训练所述第一图像待训练模型得到所述第一图像待训练中间模型。

7.根据权利要求4所述的方法，其特征在于，还包括：

获取用于第三分类任务的第三样本数据；所述第三样本数据包括第三样本文本；

基于第二文本待训练模型，识别所述第三样本文本的第三预测标签；

根据第三样本数据的第三样本标签以及第三预测标签，训练所述第二文本待训练模型得到第二文本待训练中间模型，其中，第三样本数据的数量大于所述第一样本数据的数量。

8.根据权利要求4所述的方法，其特征在于，还包括：

基于第一文本待训练模型，识别所述第一样本文本的原始文本预测标签；

根据所述第一样本数据的样本标签以及原始文本预测标签，训练所述第一文本待训练模型得到第一文本待训练中间模型。

9.一种视频识别装置法，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括处理器、存储设备、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行如权利要求1-8任一项所述的方法。