CN113673427B

CN113673427B - 视频识别方法、装置、电子设备及存储介质

Info

Publication number: CN113673427B
Application number: CN202110960483.XA
Authority: CN
Inventors: 徐海良; 高金楠; 李瑶
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2024-03-22
Anticipated expiration: 2041-08-20
Also published as: CN113673427A

Abstract

本公开关于一种视频识别方法、装置、电子设备及存储介质，涉及互联网技术领域；包括：确定待识别的第一视频的文字识别标签、对象识别标签和图像分类结果；在图像分类结果用于表示第一视频中包含限制性图像的情况下，获取第一视频的视频特征；基于视频特征，确定第一视频的视频识别标签，视频识别标签用于表示限制性图像的类型；基于文字识别标签、对象识别标签和视频识别标签三者之间的优先级关系，确定第一视频的识别结果。上述方案中，在第一阶段对视频进行一个筛选，在筛选出图像分类标签表示该视频中包含限制性图像的情况下，才执行第二阶段的视频标签的识别，从而节省了运算资源。

Description

视频识别方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种视频识别方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展，用户可以通过短视频平台向其他用户分享视频。而短视频平台是一个传播积极生活态度的平台，为了避免不法分子通过短视频平台分享包含限制性内容的视频，例如包括不良内容的视频等。因此，需要对用户上传的视频进行识别，在确定该视频的识别结果为该视频不包含限制性内容的情况下，分享该视频，从而防止包含限制性内容的视频的传播。

相关技术中，事先训练视频识别模型，该视频识别模型可以识别出待识别视频的视频标签，例如该视频识别模型包含限制性内容的视频标签有N个，N为正整数，则该视频识别模型相当于一个N+1的分类模型；在对视频进行识别时，将该视频输入该视频识别模型中，输出该视频的识别结果，该识别结果为该视频不包含限制性内容，或者该识别结果为该视频包含限制性内容且该视频包含的限制性内容的视频标签。

由于无论该视频是否包含限制性内容，均需要通过该视频识别模型进行识别，从而导致运算资源消耗较大。

发明内容

本公开提供一种视频识别方法、装置、电子设备及存储介质，能够提高视频识别的效率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频识别方法，包括：

确定待识别的第一视频的文字识别标签、对象识别标签和图像分类结果，所述图像分类结果用于表示所述第一视频中是否包含限制性图像；

在所述图像分类结果用于表示所述第一视频中包含限制性图像的情况下，获取所述第一视频的视频特征；

基于所述视频特征，确定所述第一视频的视频识别标签，所述视频识别标签用于表示所述限制性图像的类型；

基于所述文字识别标签、所述对象识别标签和所述视频识别标签三者之间的优先级关系，确定所述第一视频的识别结果。

在一些实施例中，所述确定待识别的第一视频的文字识别标签、对象识别标签和图像分类结果，包括：

在所述第一视频的每帧视频上标注待提取的特征的标识信息；

将标注后的所述每帧视频输入到多任务处理模型中，所述多任务处理模型包括特征判断模块、特征提取模块、文字识别模块、对象识别模块和图像分类模块；

对于每帧视频，通过所述特征判断模块，确定所述帧视频上标注的是用于提取文字特征的第一标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的文字特征，将所述文字特征输出至所述文字识别模块；

通过所述特征判断模块，确定所述帧视频上标注的是用于提取对象特征的第二标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的对象特征，将所述对象特征输出至所述对象识别模块；

通过所述特征判断模块，确定所述帧视频上标注的是用于提取图像特征的第三标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的图像特征，将所述图像特征输出至所述图像分类模块；

通过所述文字识别模块、所述对象识别模块和所述图像分类模块分别对所述每帧视频的文字特征、对象特征和图像特征进行识别，得到所述第一视频的文字识别标签、对象识别标签和图像分类结果。

在一些实施例中，所述将标注后的所述每帧视频输入到多任务处理模型中，包括：

获取所述第一视频的预设数量的目标帧视频，所述目标帧视频标注有待提取的特征的标识信息；

将所述预设数量的目标帧视频输入到所述多任务处理模型中。

在一些实施例中，所述基于所述第一视频，获取预设数量的目标帧视频，包括：

在所述第一视频包括的视频帧的数量不小于所述预设数量的情况下，从所述第一视频中提取连续的预设数量的目标视频帧；

在所述第一视频包括的视频帧的数量小于所述预设数量的情况下，在所述第一视频后补充预设内容的视频帧，得到所述预设数量的目标视频帧。

在一些实施例中，所述多任务处理模型的训练过程包括：

获取第一样本视频，所述第一样本视频标注有文字识别标签、对象识别标签和图像分类标签；

基于所述第一样本视频中的每个视频帧标注的图像分类标签和通过待训练的多任务处理模型预测的每个视频帧的图像分类标签，确定图像损失参数；

从所述第一样本视频中确定包含文字识别标签的第一视频帧，基于所述第一视频帧的文字识别标签和通过所述待训练的多任务处理模型预测的所述第一视频帧的文字识别标签，确定文字损失参数；

从所述第一样本视频中确定包含对象识别标签的第二视频帧，基于所述第二视频帧的对象识别标签和通过所述待训练的多任务处理模型预测的所述第二视频帧的对象识别标签，确定对象损失参数；

分别基于所述文字损失参数、所述对象损失参数和所述图像损失参数，对所述待训练的多任务处理模型进行训练，直到所述文字损失参数、所述对象损失参数和所述图像损失参数均满足迭代停止条件，得到所述多任务处理模型。

在一些实施例中，所述获取第一样本视频，包括：

获取第二视频，所述第二视频为第一终端上传的，所述第二视频标注图像分类标签；

在所述第二视频中标注文字识别标签和对象识别标签，得到所述第一样本视频。

在一些实施例中，所述获取第二视频，包括：

获取所述第一终端上传的多个视频；

确定每个视频标注的视频识别标签的标签来源；

从所述多个视频中，选择标签来源为图像的第二视频。

在一些实施例中，所述基于所述文字识别标签、所述对象识别标签和所述视频识别标签三者之间的优先级关系，确定所述第一视频的识别结果，包括：

基于所述文字识别标签、所述对象识别标签和所述视频识别标签三者之间的优先级关系，将优先级别最高的标签确定为所述第一视频的视频标签，所述视频标签为所述识别结果。

在一些实施例中，所述方法还包括：

在所述图像分类结果表示所述第一视频中不包含限制性图像、所述文字识别标签表示所述第一视频中不包含限制性文字和所述对象识别标签表示所述第一视频中不包含限制性对象的情况下，对所述第一视频执行目标操作，所述目标操作为发送所述第一视频的第二终端的请求操作。

根据本公开实施例的第二方面，提供一种视频识别装置，包括：

第一确定单元，被配置为确定待识别的第一视频的文字识别标签、对象识别标签和图像分类结果，所述图像分类结果用于表示所述第一视频中是否包含限制性图像；

获取单元，被配置为在所述图像分类结果用于表示所述第一视频中包含限制性图像的情况下，获取所述第一视频的视频特征；

第二确定单元，被配置为基于所述视频特征，确定所述第一视频的视频识别标签，所述视频识别标签用于表示所述限制性图像的类型；

第三确定单元，被配置为基于所述文字识别标签、所述对象识别标签和所述视频识别标签三者之间的优先级关系，确定所述第一视频的识别结果。

在一些实施例中，所述第一确定单元，包括：

标注子单元，被配置为在所述第一视频的每帧视频上标注待提取的特征的标识信息；

输入子单元，被配置为将标注后的所述每帧视频输入到多任务处理模型中，所述多任务处理模型包括特征判断模块、特征提取模块、文字识别模块、对象识别模块和图像分类模块；

提取子单元，被配置为对于每帧视频，通过所述特征判断模块，确定所述帧视频上标注的是用于提取文字特征的第一标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的文字特征，将所述文字特征输出至所述文字识别模块；通过所述特征判断模块，确定所述帧视频上标注的是用于提取对象特征的第二标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的对象特征，将所述对象特征输出至所述对象识别模块；通过所述特征判断模块，确定所述帧视频上标注的是用于提取图像特征的第三标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的图像特征，将所述图像特征输出至所述图像分类模块；

识别子单元，被配置为通过所述文字识别模块、所述对象识别模块和所述图像分类模块，分别对所述每帧视频的文字特征、对象特征和图像特征进行识别，得到所述第一视频的文字识别标签、对象识别标签和图像分类结果。

在一些实施例中，所述输入子单元，被配置为获取所述第一视频的预设数量的目标帧视频；将所述预设数量的目标帧视频输入到所述多任务处理模型中。

在一些实施例中，所述输入子单元，被配置为在所述第一视频包括的视频帧的数量不小于所述预设数量的情况下，从所述第一视频中提取连续的预设数量的目标视频帧；在所述第一视频包括的视频帧的数量小于所述预设数量的情况下，在所述第一视频后补充预设内容的视频帧，得到所述预设数量的目标视频帧。

在一些实施例中，所述第一确定单元，包括

获取子单元，被配置为获取第一样本视频，所述第一样本视频标注有文字识别标签、对象识别标签和图像分类标签；

第一确定子单元，被配置为基于所述第一样本视频中的每个视频帧标注的图像分类标签和通过待训练的多任务处理模型预测的每个视频帧的图像分类标签，确定图像损失参数；

第二确定子单元，被配置为从所述第一样本视频中确定包含文字识别标签的第一视频帧，基于所述第一视频帧的文字识别标签和通过所述待训练的多任务处理模型预测的所述第一视频帧的文字识别标签，确定文字损失参数；

第三确定子单元，被配置为从所述第一样本视频中确定包含对象识别标签的第二视频帧，基于所述第二视频帧的对象识别标签和通过所述待训练的多任务处理模型预测的所述第二视频帧的对象识别标签，确定对象损失参数；

训练子单元，被配置为分别基于所述文字损失参数、所述对象损失参数和所述图像损失参数，对所述待训练的多任务处理模型进行训练，直到所述文字损失参数、所述对象损失参数和所述图像损失参数均满足迭代停止条件，得到所述多任务处理模型。

在一些实施例中，所述获取子单元，被配置为获取第二视频，所述第二视频为第一终端上传的，所述第二视频标注图像分类标签；在所述第二视频中标注文字识别标签和对象识别标签，得到所述第一样本视频。

在一些实施例中，所述获取子单元，被配置为获取所述第一终端上传的多个视频；确定每个视频标注的视频识别标签的标签来源；从所述多个视频中，选择标签来源为图像的第二视频。

在一些实施例中，所述第三确定单元，被配置为基于所述文字识别标签、所述对象识别标签和所述视频识别标签三者之间的优先级关系，将优先级别最高的标签确定为所述第一视频的视频标签，所述视频标签为所述识别结果。

在一些实施例中，所述装置还包括：

执行单元，被配置为在所述图像分类结果表示所述第一视频中不包含限制性图像、所述文字识别标签表示所述第一视频中不包含限制性文字和所述对象识别标签表示所述第一视频中不包含限制性对象的情况下，对所述第一视频执行目标操作，所述目标操作为发送所述第一视频的第二终端的请求操作。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述任一实施例所述的视频识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施例所述的视频识别方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述任一实施例所述的视频识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开实施例中，将视频识别分为两个阶段，第一个阶段是确定视频的文字识别标签、对象识别标签和图像分类标签；第二阶段是确定视频的视频识别标签；从而在第一阶段对视频进行一个筛选，在筛选出图像分类标签表示该视频中包含限制性图像的情况下，才执行第二阶段，并且基于文字识别标签、对象识别标签和视频识别标签，确定该视频的识别结果，从而节省了运算资源。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性示出的一种实施环境的示意图。

图2是根据一示例性实施例示出的一种视频识别方法的流程图。

图3是根据一示例性实施例示出的一种视频识别的整体架构图。

图4是根据一示例性实施例示出的一种视频识别方法的流程图。

图5是根据一示例性实施例示出的一种视频识别过程的示意图。

图6是根据一示例性实施例示出的一种视频识别方法的流程图。

图7是根据一示例性实施例示出的一种样本视频的标签的示意图。

图8是根据一示例性实施例示出的一种多任务处理模型的网络架构图。

图9是根据一示例性实施例示出的一种图像分类模块的示意图。

图10是根据一示例性实施例示出的一种视频识别方法的流程图。

图11是根据一示例性实施例示出的一种视频识别装置的框图。

图12是根据一示例性实施例示出的一种终端的框图。

图13是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供的视频识别方法，应用于电子设备。在一些实施例中，电子设备提供为终端，例如，终端为手机、平板电脑、笔记本电脑和PC(Personal Computer，个人计算机)电脑等设备中的至少一种。在一些实施例中，电子设备提供为服务器，例如，服务器可以为一台服务器、由多台服务器组成的服务器集群、云服务器、云计算平台和虚拟化中心中的至少一种。在一些实施例中，电子设备包括终端和服务器。

图1是根据一示例性实施例示出的一种视频识别的实施环境的示意图，如图1所示，该实施环境中至少包括终端10和服务器20。终端10和服务器20之间通过无线或者有线网络连接。

终端10上安装有目标应用，且终端10通过该目标应用与服务器20之间实现例如数据传输、信息交互等功能。在一些实施例中，目标应用为终端10操作系统中的应用，或者为第三方提供的应用。在一些实施例中，目标应用为具有视频分享的任一应用，例如，目标应用为短视频应用或者即时通信应用等。服务器20为该目标应用的后台服务器；终端10可以向服务器20分享视频，其他终端上也安装有目标应用，通过其上安装的目标应用能够访问服务器20，也即查看该终端10分享的视频。

在一些实施例中，为了避免不良视频内容在服务器20上传播，可以先对视频进行识别，在确定该视频中不包含限制性内容的情况下，才分享该视频。其中，由服务器20对视频进行识别，也即终端10向服务器20发送待分享的视频，服务器20接收到该视频后，先对该视频进行识别，在确定该视频中不包含限制性内容的情况下，才向其他终端分享给视频。

需要说明的一点是，在目标应用为短视频应用的情况下，则服务器20通过推送的方式向其他终端分享该视频。在目标应用为社交应用的情况下，则服务器20将该视频分享到终端10中的当前登录账号的社交展示平台。

图2是根据一示例性实施例示出的一种视频识别方法的流程图，如图2所示，视频识别方法用于电子设备中，包括以下步骤。

在步骤S21中，确定待识别的第一视频的文字识别标签、对象识别标签和图像分类结果，图像分类结果用于表示第一视频中是否包含限制性图像。

文字识别标签用于表示第一视频中是否包含限制性文字，且在第一视频中包含限制性文字的情况下，该限制性文字的类别。对象识别标签用于表示第一视频中是否包含限制性对象，且在第一视频中包含限制性对象的情况下，该限制性对象的类别。

在步骤S22中，在图像分类结果用于表示第一视频中包含限制性图像的情况下，获取第一视频的视频特征。

在一些实施例中，电子设备事先训练多任务处理模型，在步骤S22中，电子设备通过多任务处理模型提取第一视频的视频特征。在一些实施例中，电子设备事先训练视频标签分类模型，在步骤S22中，电子设备通过视频标签分类模型提取第一视频的视频特征。

在步骤S23中，基于视频特征，确定第一视频的视频识别标签，视频识别标签用于表示限制性图像的类型。

电子设备基于该视频特征，通过视频标签分类模型确定第一视频的视频识别标签。

在步骤S24中，基于文字识别标签、对象识别标签和视频识别标签三者之间的优先级关系，确定第一视频的识别结果。

电子设备基于文字识别标签、对象识别标签和视频识别标签三者之间的优先级关系，将优先级别最高的标签确定为第一视频的视频标签，视频标签为识别结果。例如，文字识别标签为标签F，对象识别标签为标签G，视频识别标签为标签H，且文字识别标签的优先级高于对象识别标签和视频识别标签，则服务器将文字识别标签作为第一视频最终的视频标签，也即第一视频的识别结果为标签F。

在本公开实施例中，是通过多任务处理模型和视频标签分类模型这两个模型来对视频进行识别，在通过这两个模型来对视频进行识别之前，需要训练这两个模型，训练这两个模型需要先获取样本视频。相应的，参见图3，本公开实施例主要包括4个部分，分别为样本视频的获取过程、多任务处理模型的训练过程、视频标签分类模型的训练过程和工程应用。其中，工程应用是指使用多任务处理模型和视频标签分类模型对视频进行识别的过程，在以下图4所示的实施例中进行详细说明。多任务处理模型的训练过程，在以下图6所示的实施例中进行详细说明。视频标签分类模型的训练过程，在以下图10所示的实施例中进行详细说明。

图4是根据一示例性实施例示出的一种视频识别方法的流程图，如图4所示，视频识别方法用于电子设备中，在本公开实施例中，以使用多任务处理模型和视频标签分类模型来对视频进行识别为例进行说明，使用多任务处理模型和视频标签分类模型来对视频进行识别即为多任务处理模型和视频标签分类模型的工程应用。其中，以电子设备包括终端和服务器，也即通过终端和服务器之间的交互来实现视频识别为例进行说明，且以终端为触发服务器执行目标操作的终端，为了便于区分，将该终端称为第二终端，包括以下步骤。

在步骤S41中，第二终端获取待识别的第一视频。

第二终端中安装有目标应用，用户可以通过目标应用分享视频，待分享的视频为第一视频、第一视频可以为当前录制的视频，也可以为第二终端上事先存储的视频；并且，第一视频可以为长视频，也可以为短视频；长视频是指视频帧数超过第一预设数量的视频，短视频是指视频帧数不超过第一预设数量的视频。

在步骤S42中，第二终端向服务器发送操作请求，该操作请求携带该第一视频。

第二终端的当前界面中包括操作按钮，用户可以触发该操作按钮以触发第二终端向服务器发送操作请求。操作请求用于请求服务器对第一视频执行目标操作，目标操作为第一第二终端的请求操作；例如，目标操作为分享操作、上传操作、识别操作、编辑操作等中的至少一项。

在步骤S43中，服务器接收该操作请求，确定第一视频的文字识别标签、对象识别标签和图像分类标签。

文字识别标签用于表示第一视频中是否包含限制性文字，且在第一视频中包含限制性文字的情况下，该限制性文字的类别。对象识别标签用于表示第一视频中是否包含限制性对象，且在第一视频中包含限制性对象的情况下，该限制性对象的类别。对象可以为动物、植物、山、河流等。图像分类标签用于表示第一视频中是否包含限制性图像。

在一些实施例中，服务器通过三个模型来确定第一视频的文字识别标签、对象识别标签和图像分类标签；这三个模型分别为文字识别模型、对象识别模型和图像分类模型；则服务器确定第一视频的文字识别标签、对象识别标签和图像分类标签的步骤包括：

服务器将第一视频输入到文字识别模型中，输出第一视频的文字识别标签；将第一视频输入到对象识别模型中，输出第一视频的对象识别标签；将第一视频输入到图像分类模型中，输出第一视频的图像分类标签。

在一些实施例中，服务器通过一个多任务处理模型来确定第一视频的文字识别标签、对象识别标签和图像分类标签；则服务器确定第一视频的文字识别标签、对象识别标签和图像分类标签的步骤包括以下步骤(1)至(4)，包括：

(1)服务器在第一视频的每帧视频上标注待提取的特征的标识信息。

对于第一视频的每帧视频，在该帧视频需要提取文字特征的情况下，则服务器在该帧视频上标注第一标识信息；在该帧视频需要提取对象特征的情况下，则服务器在该帧视频上标注第二标识信息，在该帧视频需要提取图像特征的情况下，则服务器在该帧视频上标注第三标识信息。

在一些实施例中，在该帧视频中包含文字信息的情况下，则服务器确定该帧视频需要提取文字特征。例如，文字信息为电话号码，该帧视频可能是用户倒卖狗的广告，且该帧视频中包括倒卖者的电话号码，则服务器需要对该帧视频进行识别，确定是否包含限制性内容，因此，服务器确定该帧视频需要提取文字特征。

在一些实施例中，在该帧视频中包含目标对象的情况下，则服务器确定该帧视频需要提取对象特征。其中，目标对象可以为人物、动物和物体中的至少一项。例如，目标对象为狗，在该帧视频中包括狗的情况下，有可能是倒卖狗的广告，则服务器需要对该帧视频进行识别，确定是否包含限制性内容，因此，服务器确定该帧视频需要提取对象特征。

在一些实施例中，在该帧视频中包含目标图像的情况下，则服务器确定该帧视频需要提取图像特征。其中，目标图像可以为人物图像、动物图像、物体图像和风景图像中的至少一项。例如，目标图像为狗的图像，在该帧视频中包括狗的图像的情况下，有可能是倒卖狗的广告，则服务器需要对该帧视频进行识别，确定是否包含限制性内容，因此，服务器确定该帧视频需要提取图像特征。

在一些实施例中，服务器通过在帧视频中添加标签的形式为该帧视频添加标识信息；对于每帧视频，服务器在该帧视频中添加第一标签、第二标签和第三标签，第一标签、第二标签和第三标签分别用于添加第一标识信息、第二标识信息和第三标识信息。例如，在该帧视频需要提取文字特征、对象特征和图像特征的情况下，则服务器在第一标签中添加第一标识信息，在第二标签中添加第二标识信息，在第三标签中添加第三标识信息。再如，在该帧视频需要提取文字特征和图像特征的情况下，则服务器在第一标签和第三标签中分别添加第一标识信息和第三标识信息，由于不需要提取对象特征，在并不在第二标签中添加第二标识信息。

在一些实施例中，服务器还可以在帧视频的属性信息中添加标识信息。例如，对于每帧视频，在该帧视频需要提取文字特征、对象特征和图像特征的情况下，则服务器在该帧视频的属性信息中添加第一标识信息、第二标识信息和第三标识信息。再如，在该帧视频需要提取文字特征和图像特征的情况下，则服务器在该帧视频的属性信息中分别添加第一标识信息和第三标识信息，由于不需要提取对象特征，在并不在属性信息中添加第二标识信息。

第一标识信息、第二标识信息和第三标识信息为互不相同的任一标识信息；第一标识信息、第二标识信息和第三标识信息的类型相同或者不同；并且，第一标识信息、第二标识信息和第三标识信息可以为文字或者图案等。例如，第一标识信息、第二标识信息和第三标识信息均为文字，则第一标识信息为“文字”，第二标识信息为“物体”，第三标识信息为“图像”。

(2)服务器将标注后的每帧视频输入到多任务处理模型中。

在一些实施例中，服务器将第一视频的每帧视频输入到多任务处理模型中，也即将第一视频的所有帧视频输入到多任务处理模型中。在另一些实施例中，服务器将第一预设数量的视频帧输入到多任务处理模型中。相应的，本步骤包括：服务器获取第一视频的第一预设数量的目标帧视频，目标帧视频中标注有待提取的特征的标识信息，将第一预设数量的目标帧视频输入到多任务处理模型中。

服务器获取第一视频的第一预设数量的目标帧视频的步骤包括：

在第一视频包括的视频帧的数量不小于第一预设数量的情况下，服务器从第一视频中提取连续的第一预设数量的目标视频帧；在第一视频包括的视频帧的数量小于第一预设数量的情况下，在第一视频后补充预设内容的视频帧，得到第一预设数量的目标视频帧。

第一预设数量可以根据需要进行设置并更改，在本公开实施例中，对第一预设数量不作具体限定；例如，第一预设数量为10；则在第一视频包括的视频帧的数量不小于10帧的情况下，服务器抽取连续的10帧视频，第一视频的视频封面为被抽取的第一帧视频，再从第一视频中连续抽取9帧视频；在第一视频包括的视频帧的数量小于10帧的情况下，服务器对第一视频进行补充(例如补0)，凑够10帧视频。

(3)对于每帧视频，多任务处理模型基于该帧视频上标注的标识信息，提取该标识信息对应的特征。

多任务处理模型包括特征判断模块、特征提取模块、文字识别模块、对象识别模块和图像分类模块；特征判断模块的输出端与特征提取模块的输入端连接；特征提取模块的输出端分别与文字识别模块的输入端、对象识别模块的输入端和图像分类模块的输入端连接。

其中，特征判断模块用于判断该帧视频上标识的标识信息，进而确定需要提前哪类特征，也即确定出待提前特征的特征类别，将待提前特征的特征类别发送至特征提取模块，由特征提取模块提取该特征类别的特征。相应的，多任务处理模型基于该帧视频上标注的标识信息，提取该标识信息对应的特征的步骤，包括：

对于每帧视频，特征判断模块确定该帧视频上标注的是用于提取文字特征的第一标识信息，则指示特征提取模块提取帧视频的文字特征，将文字特征输出至所述文字识别模块。例如，特征判断模块向特征提取模块发送第一特征提取指令，第一特征提取指令用于指示特征提取模块提取该帧视频的文字特征。特征提取模块接收第一特征提取指令，基于第一特征提取指令，提取该帧视频的文字特征，将该文字特征输出至文字识别模块。

特征判断模块确定该帧视频上标注的是用于提取对象特征的第二标识信息，则指示特征提取模块提取该帧视频的对象特征，将该对象特征输出至对象识别模块。例如，特征判断模块向特征提取模块发送第二特征提取指令，第二特征提取指令用于指示特征提取模块提取该帧视频的对象特征。特征提取模块接收第二特征提取指令，基于第二特征提取指令，提取该帧视频的对象特征，将该对象特征输出至对象识别模块。

特征判断模块确定该帧视频上标注的是用于提取图像特征的第三标识信息，则指示特征提取模块提取该帧视频的图像特征，将该图像特征输出至图像分类模块。例如，特征判断模块向特征提取模块发送第三特征提取指令，第三特征提取指令用于指示特征提取模块提取该帧视频的图像特征。特征提取模块接收第三特征提取指令，基于第三特征提取指令，提取该帧视频的图像特征，将该图像特征输出至图像分类模块。

在本公开实施例中，特征提取模块基于特征类别，提取对应的特征，也即将文字识别技术、对象识别技术和图像分类技术使用的多个卷积神经网络的主要组件进行共享，降低了模型训练代价和耗时。

另外，在通过特征提取模块提取对应的特征时，还可以将三个特征进行融合，也即文字特征中融合部分图像特征和部分对象特征；对象特征中融合部分文字特征和部分图像特征，图像特征中融合部分文字特征和部分对象特征，从而能够提高后续视频识别的准确性。例如，视频中存在电话号码文字，以及一些小猫。该视频极有可能是用户卖猫的虚假广告。文字识别虽然能识别出电话号码，但不能以此判断视频属于包含限制性文字的视频。同样，对象识别技术检测出视频中存在小猫，也不能判断视频属于包含限制性对象的视频。图像分类技术无法理解文字信息，也可能无法做出负向视频的判断，因此将三者进行信息融合，可能会解决这类问题，从而提高后续视频识别的准确性。

(4)多任务处理模型分别对每帧视频的文字特征、对象特征和图像特征进行识别，得到第一视频的文字识别标签、对象识别标签和图像分类结果。

多任务处理模型分别对每帧视频的文字特征、对象特征和图像特征进行识别，得到每帧视频的文字识别标签、对象识别标签和图像分类标签；服务器分别基于每帧视频的文字识别标签、对象识别标签和图像分类标签，确定第一视频的文字识别标签、对象识别标签和图像分类结果。

在一些实施例中，服务器将每帧视频的文字识别标签进行与运算运算，得到第一视频的文字识别标签，将每帧视频的对象识别标签进行与运算，得到第一视频的对象识别标签，将每帧视频的图像分类结果进行或运算，得到第一视频的图像分类结果。例如，第一视频包括3帧，3帧视频的文字识别标签分别为标签A、标签A和标签B，则第一视频的文字识别标签为标签A和标签B。3帧视频的对象识别标签分别为标签C、标签D、标签E，则第一视频的对象识别标签为标签C、标签D和标签E；3帧视频的图像分类结果分别为包含限制性图像、没有包含限制性图像和没有包含限制性图像，则第一视频的图像分类结果为包含限制性图像。

在一些实施例中，对于每帧视频，多任务处理模型未对该帧视频的文字特征、对象特征和图像特征三个特征进行融合的情况下，文字识别模块基于该帧视频的文字特征，识别得到该帧视频的文字识别标签，对象识别模块基于该帧视频的对象特征，识别得到该帧视频的对象识别标签，图像分类模块基于该帧视频的图像特征，识别得到该帧视频的图像分类结果。

在一些实施例中，对于每帧视频，多任务处理模型对该帧视频的文字特征、对象特征和图像特征三个特征进行融合的情况下，文字识别模块、对象识别模块和图像分类模块也可以合并为一个模块，称为第一特征处理模块。第一特征处理模块基于融合得到的特征，识别得到该帧视频的文字识别标签、对象识别标签和图像分类结果。

在一些实施例中，对于每帧视频，多任务处理模型对该帧视频的文字特征和对象特征进行融合的情况下，文字识别模块和对象识别模块可以合并为一个模块，称为第二特征处理模块。第二特征处理模块基于融合得到的特征，识别得到该帧视频的文字识别标签和对象识别标签。图像分类模块基于该帧视频的图像特征，识别得到该帧视频的图像分类结果。

在一些实施例中，对于每帧视频，多任务处理模型对该帧视频的文字特征和图像特征进行融合的情况下，文字识别模块和图像分类模块可以合并为一个模块，称为第三特征处理模块。第三特征处理模块基于融合得到的特征，识别得到该帧视频的文字识别标签和图像分类结果。对象识别模块基于该帧视频的对象特征，识别得到该帧视频的对象识别标签。

在一些实施例中，对于每帧视频，多任务处理模型对该帧视频的对象特征和图像特征进行融合的情况下，对象识别模块和图像分类模块可以合并为一个模块，称为第四特征处理模块。第四特征处理模块基于融合得到的特征，识别得到该帧视频的对象识别标签和图像分类结果。文字识别模块基于该帧视频的文字特征，识别得到该帧视频的文字识别标签。

在本公开实施例中，将文字识别技术和对象识别技术是作为图像分类技术的补充，能够提高视频识别的准确性。

在步骤S44中，在图像分类结果表示第一视频中包含限制性图像的情况下，服务器获取第一视频的视频特征。

在一些实施例中，服务器还可以借助于多任务处理模型来提取第一视频的视频特征；相应的，在多任务处理模型中添加全连接层，全连接层与特征提取模块的输出端连接。则服务器提取多任务处理模型的全连接层输出的特征，得到第一视频的视频特征，其中，第一视频的视频特征用于确定第一视频的视频识别标签，视频识别标签用于表示限制性图像的类型。

在本公开实施例中，通过多任务处理模型获取第一视频的视频特征，进一步共享多任务处理模型中特征提取模块，从而进一步节省了资源。

在一些实施例中，服务器通过视频标签分类模型提取第一视频的视频特征；则本步骤为：服务器将第一视频输入到视频标签分类模型中，通过视频标签分类模型提取第一视频的视频特征。

在步骤S45中，服务器基于该视频特征，确定第一视频的视频识别标签，视频识别标签用于表示限制性图像的类型。

服务器基于该视频特征，通过视频标签分类模型确定第一视频的视频识别标签。

在本公开实施例中，由于直接通过多任务处理模型获取第一视频的视频特征，这样视频标签分类模型可以是一个比较简单的预测模型即可，在图像标签增加或者修改的情况下，重新训练或者更新视频标签分类模型的代价就很低。

在步骤S46中，服务器基于文字识别标签、对象识别标签和视频识别标签三者之间的优先级关系，确定第一视频的识别结果。

服务器基于文字识别标签、对象识别标签和视频识别标签三者之间的优先级关系，将优先级别最高的标签确定为第一视频的视频标签，视频标签为识别结果。例如，文字识别标签为标签F，对象识别标签为标签G，视频识别标签为标签H，且文字识别标签的优先级高于对象识别标签和视频识别标签，则服务器将文字识别标签作为第一视频最终的视频标签，也即第一视频的识别结果为标签F。

在本公开实施例中，按照标签的优先级，综合考虑文字识别标签、对象识别标签和视频识别标签，确定第一视频的视频标签，这样能够提高针对性。

在一些实施例中，服务器将文字识别标签、对象识别标签和视频识别标签组成第一视频的视频标签。在本公开实施例中，视频标签包括文字识别标签、对象识别标签和视频识别标签，这样能够从三个维度表征第一视频的视频标签，进而提高了视频标签的精准度。

例如，多任务处理模型用于执行第一阶段的识别任务，并且，多任务处理模型包括文字识别模块、对象识别模块和图像分类模块；其中，文字识别模块能够基于第一视频的文字特征，识别得到第一视频的文字识别标签，也即文字识别模块能够执行如图5所示的文字识别任务，该文字识别标签即为图5所示的文字识别结果。对象识别模块能够基于第一视频的对象特征，识别得到第一视频的对象识别标签，也即对象识别模块能够执行如图5所示的对象识别任务，该对象识别标签即为图5所示的对象识别结果。图像分类模块基于第一视频的图像特征，识别得到第一视频的图像分类结果，也即图像分类模块能够执行如图5所示的图像分类任务，图像分类结果表示第一视频中是否包含限制性图像，也即图像分类结果即为图5所示的第一视频是否为负向视频。

视频标签分类模型用于执行第二阶段的识别任务，继续参见图5，在图像分类结果表示第一视频中包含限制性图像(也即第一视频为负向视频)的情况下，通过第二阶段的视频标签分类模型，确定第一视频的视频识别标签(负向视频标签预测)，基于文字识别标签、对象识别标签和视频识别标签，确定第一视频的视频标签(也即综合识别结果)。

在步骤S47中，服务器在第一视频上标注该视频标签，将标注该视频标签的第一视频进行审核。

在一些实施例中，由服务器对第一视频进行审核；则服务器确定该视频标签是否为在预设视频标签库中，在该视频标签在预设视频标签库中的情况下，则确定审核结果为：禁止对第一视频执行目标操作；该视频标签不在预设视频标签库中的情况下，则确定审核结果为允许对第一视频执行目标操作。其中，预设视频标签库中存储禁止进行目标操作的至少一个视频标签。在本公开实施例中，由服务器自动进行视频标签的审核，不需要用户的参与，能够提高视频标签审核的效率。

在一些实施例中，由审核人员对第一视频进行审核；则服务器在第一视频上标注该视频标签，将标注该视频标签的第一视频推送给目标终端，目标终端接收标注该视频标签的第一视频，展示该视频标签以及播放该第一视频，由审核人员对第一视频进行审核。

目标终端为审核人员使用的第二终端。在本公开实施例中，在第一视频上标注该视频标签，这样能够给审核人员一些提示，加快审核人员的审核。

在一些实施例中，服务器还可以根据视频标签将视频分为多个审核等级，例如，高危、中危和低危；对于高危的视频需要多个审核人员同时审核，而低危的视频可以由一个审核人员单独审核。则服务器基于该视频标签，确定第一视频的审核等级，确定该审核等级对应的审核人数，向该审核人数个目标终端发送标注该视频标签的第一视频。

其中，服务器中存储有视频标签和审核等级之间的对应关系；相应的，服务器基于该视频标签，确定第一视频的审核等级的步骤，包括：服务器基于该视频标签，从视频标签和审核等级的对应关系中，获取第一视频的审核等级。另外，服务器中还存储有审核等级与审核人数之间的对应关系；相应的，服务器确定该审核等级对应的审核人数的步骤，包括：服务器基于该审核等级，从审核等级和审核人数之间的对应关系中，获取该审核等级对应的审核人数。

在一些实施例中，服务器还可以直接存储视频标签和审核人数之间的对应关系；相应的，服务器基于该视频标签，从视频标签和审核人数的对应关系中，获取第一视频的审核人数，然后向该审核人数个目标终端发送标注该视频标签的第一视频。

在本公开实施例中，对于高危的视频需要多个审核人员同时审核，而低危的视频可以由一个审核人员单独审核，能够实现有针对性的审核，挺高了审核的准确性。

需要说明的一点是，在图像分类结果表示第一视频中不包含限制性图像、文字识别标签表示第一视频中不包含限制性文字和对象识别标签表示第一视频中不包含限制性对象的情况下，对第一视频执行目标操作，目标操作为发送第一视频的第二终端的请求操作。例如，目标操作为分享操作、上传操作、识别操作、编辑操作等中的至少一项。

在本公开实施例中，只有在第一视频不包含限制性文字、限制性对象和限制性图像的情况下，才对第一视频执行目标操作，从而能够防止包含限制性内容的视频的传播，净化了网络环境。

图6是根据一示例性实施例示出的一种视频识别方法的流程图，如图6所示，视频识别方法用于电子设备中，在本公开实施例中，以训练多任务处理模型，且电子设备包括服务器为例进行说明，包括以下步骤。

在步骤S61中，服务器获取第一样本视频，第一样本视频中标注了文字识别标签、对象识别标签和图像分类标签。

其中，第一样本视频包括包含限制性内容的视频和不包含限制性内容的视频。包含限制性内容的视频称为负样本或者负向视频，不包含限制性内容的视频称为正样本或者正向视频；为了便于描述，在本公开实施例中，将包含限制性内容的视频称为负向视频，将不包含限制性内容的视频称为正向视频。

其中，限制性内容包括限制性文字、限制性对象和限制性图像中的至少一个。图像分类标签可以为0或者1，0表示视频不属于负向视频；1表示视频属于负向视频。

由于登录其他账号的其他终端也会向服务器上传视频，这样审核人员会对其他终端上传的视频进行审核，且标注图像分类标签。在本步骤中，服务器可以借助于其他终端上传的视频获取第一样本视频；相应的，服务器获取第一样本视频的步骤可以通过以下步骤S611和S612实现，包括：

在步骤S611中，服务器获取第二视频，第二视频为第一终端上传的，第一终端与当前登录账号以外的其他登录账号关联，第二视频标注图像识别标签。

其中，第一终端与其他登录账号关联是指，第一终端的目标应用中登录的账号为其他登录账号。在本公开实施例中，服务器从第一终端历史上传的视频中选择第一样本视频，由于第一样本视频中已经标注了图像分类标签，这样不需要获取新的视频、以及用户手动标注图像分类标签的过程，从而降低了标注所用的工作量，提高了后续模型训练的效率。

需要说明的一点是，审核人员每天会人工审核海量的视频，并且，审核人员会为每个审核过的视频打上标签。其中，审核人员打的标签是结合视频标题、图像和音频三者确定的。例如，如果一个视频通过标题，即可打上负向视频标签(标签来源：视频标题)，那么该视频的图像和音频将不会被审核。接着，如果依靠标题，无法打上负向视频标签，审核人员会查看视频的图像和音频，判断是否可以打上负向视频标签。此时，负向标签来源分为三类：图像、音频、图像+音频。由于本公开是要获取图像分类标签，因此本步骤可以为：服务器获取第一终端上传的多个视频，确定每个视频标注的视频识别标签的标签来源，从多个视频中选择标签来源为图像的第二视频。

在本公开实施例中，由于本公开中对第一视频进行识别的过程中，需要基于第一视频的图像特征，确定第一视频的图像分类结果，结合图像分类结果进行后续的识别；也即本公开在对第一视频进行识别的过程中，会用到图像；因此，选择标签来源为图像的视频，这样选择出的视频标注的标签更加准确，提高了基于选择出的视频进行后续多任务处理模型的准确性。

在步骤S612中，服务器在第一样本视频中标注文字识别标签和对象识别标签。

对于第一样本视频中的任一帧视频，该帧视频的文字识别标签可以表示为Coordinates1；Text information。其中，Coordinates1为包括文字区域的像素点；例如，Coordinates1为(x1，y1)，(x2，y2)，(x3，y3)，(x4，y4)，(x5，y5)，(x6，y6)等像素点。其中，(x1，y1)是指该文字区域包括的第一个像素点，(x2，y2)是指该文字区域包括的第二个像素点，(x3，y3)是指该文字区域包括的第三个像素点，(x4，y4)是指该文字区域包括的第四个像素点，(x5，y5)是指该文字区域包括的第五个像素点，(x6，y6)是指该文字区域包括的第六个像素点。Text information为文字识别标签。

需要说明的一点是，在文字区域为矩形的情况下，则Coordinates1可以选择4个像素点即可，也即该矩形的四个端点；在文字区域为非矩形(也即文字分布为曲线)的情况下，则Coordinates1可以选择大于4个像素点。

对于任一帧视频，该帧视频的对象识别标签可以表示为Coordinates2；Objectname；其中，Coordinates2一般为(x1，y1),(x2，y2)，(x3，y3)和(x4，y4)。Object name为对象识别标签。

第一样本视频包括多帧视频，在一些实施例中，可以在每帧视频上均标注文字识别标签和对象识别标签。在一些实施例中，可以从第一样本视频中选择部分帧视频，在选择出的帧视频上标注文字识别标签和对象识别标签。其中，服务器抽取的帧视频中包含第一样本视频的封面。

选择的帧视频的数量可以根据需要进行设置并更改，在本公开实施例中，对该数量不作具体限定；例如，该数量为10，则服务器从第一样本视频中抽取10帧视频，在抽取的10帧视频上标注文字识别标签和对象识别标签。需要说明的一点是，文字识别标签和对象识别标签抽取的图像可以是相同的，也可以是不同的。

在步骤S62中，服务器基于第一样本视频中的每个视频帧标注的图像分类标签和通过待训练的多任务处理模型预测的每个视频帧的图像分类标签，确定图像损失函数。

其中，多任务处理模型使用的主干网络为Resnet(残差)网络，多任务处理模型中包括文字识别模块、对象识别模块和图像分类模块；文字识别模块用于执行文字识别任务，对象识别模块用于执行对象识别任务，图像分类模块用于执行图像分类识别任务。

第一样本视频一般是十几秒，在识别视频中的每一帧是否属于负向视频的情况下，往往会遗漏视频的上下位关键信息。例如，有些负向视频内容需要多帧连续观看才能体现出来，单独看每一帧都属于正常内容。因此，在本公开实施例中的图像分类模块需要在视频多帧内容上预测视频是否属于负向视频，也即在构造训练图像分类模块所用的每个batch(训练集合)时，要考虑视频多帧的连续性，也即基于每个视频帧，来参与图像分类任务的损失计算。例如，参见图7，该batch中包含20张图像，对应2个第一样本视频，分别为视频A和视频B的每帧视频均参与图像分类任务的损失计算。

需要说明的一点是，在构建batch时，从每个第一样本视频中抽取第二预设数量个视频帧；在第一样本视频包括的视频帧的帧数足第二预设数量个视频帧的情况下，在第一样本视频后补充预设内容的视频帧(例如补0)，得到第二预设数量个视频帧。第二预设数量可以根据需要进行设置并更改，在本公开实施例中，对第二预设数量不作具体限定；例如，第二预设数量为10。继续参见图7，从视频A中抽取了10帧视频，而视频B一共包含4帧视频，则将视频B补全，得到10帧视频。

例如，参见图8，多任务处理模型的特征提取模块包括第一卷积层至第十二卷积层，第一上采样层至第五上采样层，第一残差层至第五残差层、最大池化层和全局平均池化层。其中，第一卷积层的输出端分别与最大池化层的输入端和第三卷积层的输入端连接，最大池化层的输出端分别与第一残差层的输入端和第五卷积层的输入端连接；第一残差层的输出端分别与第二残差层的输入端和第七卷积层的输入端连接；第二残差层的输出端分别与第三残差层的输入端和第九卷积层的输入端连接；第三残差层的输出端分别与第四残差层的输入端和第十一卷积层的输入端连接；第四残差层的输出端分别与第十二卷积层的输入端连接；第十二卷积层的输出端分别与图像分类模块和全局平均池化层的输入端连接。

全局平均池化层的输入端还与第五上采样层的输出端连接，第五上采样层的输入端和第十一卷积层的输出端通过第一异或运算与第十卷积层的输入端连接，第十卷积层的输出端分别与对象识别模块和第四上采样层的输入端连接；第四上采样的输出端和第九卷积层的输出端通过第二异或运算与第八卷积层的输入端连接，第八卷积层的输出端分别与对象识别模块和第三上采样层的输入端连接；第三上采样的输出端和第七卷积层的输出端通过第三异或运算与第六卷积层的输入端连接，第六卷积层的输出端分别与对象识别模块和第二上采样层的输入端连接；第二上采样的输出端和第五卷积层的输出端通过第四异或运算与第四卷积层的输入端连接，第四卷积层的输出端与第一上采样层的输入端连接；第一上采样层的输出端和第三卷积层的输出端通过第五异或运算与第二卷积层的输入端连接，第二卷积层的输出端与文字识别模块连接。

其中，对于每个帧视频，在通过多任务处理模型对该帧视频进行识别时，将该帧视频输入第一卷积层，第一卷积层通过7*7的卷积核，以步幅为2，提取该帧视频的特征，得到输出通道为64的第一特征，将第一特征输入最大池化层和第三卷积层。最大池化层对第一特征进行池化处理且将第一特征的尺寸转换为原来的一半，得到输出通道为64的第二特征，将第二特征分别输入第五卷积层和第一残差层，第一残差层将第二特征进行残差处理，得到输出通道为256的第三特征，将第三特征分别输入第二残差层和第七卷积层。第二残差层对第三特征进行残差处理且将第三特征转换的尺寸转换为原来的一半，得到输出通道为512的第四特征，将第四特征分别输入第四残差层和第九卷积层。第四残差层对第四特征进行残差处理且将第四特征转换的尺寸转换为原来的一半，得到输出通道为1024的第五特征，将第五特征分别输入第十一卷积层和第五残差层。第五残差层对第五特征进行残差处理且将第五特征转换的尺寸转换为原来的一半，得到输出通道为2048的第六特征，将第六特征分别输入第十二卷积层。第十二卷积层通过1*1的卷积核对第六特征进行卷积处理，得到第七特征，第七特征即为图像特征。

第十二卷积层将第七特征分别输入全局平均池化层和第五上采样层。全局平均池化层对第七特征进行全局池化处理，得到视频特征。第五上采样层对第七特征进行上采样且将第七特征的尺寸转换为原来的2倍，得到第八特征。第十一卷积层通过1*1的卷积核对第五特征进行卷积处理，得到输出通道为256的第九特征，将第九特征输入第一异或运算。第一异或运算对第八特征和第九特征进行异或运算得到第十特征，将第十特征输入第十卷积层。第十卷积层通过3*3的卷积核对第十特征进行卷积处理，得到输出通道为256的第十一特征，将第十一特征分别输入对象识别模块和第四上采样层。第四上采样层对第十一特征进行上采样且将第十一特征的尺寸转换为原来的2倍，得到输出通道为256的第十二特征，将第十二特征输入第二异或运算。第九卷积层通过1*1的卷积核对第四特征进行卷积处理，得到输出通道为256的第十三特征，将第十三特征输入第二异或运算。第二异或运算对第十二特征和第十三特征进行异或运算得到第十四特征，将第十四特征输入第八卷积层。

第八卷积层通过3*3的卷积核对第十四特征进行卷积处理，得到输出通道为256的第十五特征，将第十五特征分别输入对象识别模块和第三上采样层。第三上采样层对第十五特征进行上采样且将第十五特征的尺寸转换为原来的2倍，得到输出通道为256的第十六特征，将第十六特征输入第三异或运算。第七卷积层通过1*1的卷积核对第三特征进行卷积处理，得到输出通道为256的第十七特征，将第十七特征输入第三异或运算。第三异或运算对第十六特征和第十七特征进行异或运算得到第十八特征，将第十八特征输入第六卷积层。

第六卷积层通过1*1的卷积核对第十八特征进行卷积处理，得到输出通道为256的第十九特征，将第十九特征分别输入对象识别模块和第二上采样层。需要说明的一点是，第十一特征、第十五特征和第十九特征组成对象特征。

第二上采样层对第十九特征进行上采样且将第十九特征的尺寸转换为原来的2倍，得到输出通道为256的第二十特征，将第二十特征输入第四异或运算。第五卷积层通过1*1的卷积核对第二特征进行卷积处理，得到输出通道为256的第二十一特征，将第二十一特征输入第二异或运算。第二异或运算对第二十特征和第二十一特征进行异或运算得到第二十二特征，将第二十二特征输入第四卷积层。

第四卷积层通过1*1的卷积核对第二十二特征进行卷积处理，得到输出通道为32的第二十三特征，将第二十三特征输入第一上采样层。第一上采样层对第二十三特征进行上采样且将第二十三特征的尺寸转换为原来的2倍，得到输出通道为32的第二十四特征，将第二十四特征输入第一异或运算。第三卷积层通过1*1的卷积核对第一特征进行卷积处理，得到输出通道为32的第二十四特征，将第二十四特征输入第一异或运算。第一异或运算对第二十三特征和第二十四特征进行异或运算得到第二十五特征，将第二十五特征输入第二卷积层。

第二卷积层通过3*3的卷积核对第二十五特征进行卷积处理，得到输出通道为32的第二十六特征，第二十六特征即为文字特征。

在步骤S63中，服务器从第一样本视频中确定包含文字识别标签的第一视频帧，基于第一视频帧的文字识别标签和通过待训练的多任务处理模型预测的第一视频帧的文字识别标签，确定文字损失参数。

例如，继续参见图7，视频A的第1帧和第4帧包含文字视频标签，则视频A的第1帧和第4帧用来参与文字识别任务的损失计算。而视频B的第1帧存在文字识别标签，则视频B的第1帧用来参与文字识别任务的损失计算。

在步骤S64中，服务器从第一样本视频中确定包含对象识别标签的第二视频帧的对象识别标签和通过待训练的多任务处理模型预测的第二视频帧的对象识别标签，确定对象损失参数。

例如，继续参见图7，视频A的第7帧和第9帧包含对象识别标签，则视频A的第7帧和第9帧用来参与对象识别任务的损失计算。而视频B的第4帧存在对象识别标签，则视频B的第4帧用来参与对象识别任务的损失计算。

需要说明的一点是，可以采用任一损失函数来确定图像损失参数，在本步骤中，对损失函数不作具体限定。

需要说明的另一点是，在某帧视频不包含文字识别标签的情况下，则该帧视频不参与文字识别任务的损失计算，在该帧视频不包含对象识别标签的情况下，则该帧视频不参与对象识别任务的损失计算。

在步骤S65中，服务器分别基于文字损失参数、对象损失参数和图像损失参数，对待训练的多任务处理模型进行训练，直到文字损失参数、对象损失参数和图像损失参数均满足迭代停止条件，得到多任务处理模型。

文字损失参数可以为文字损失值，对象损失参数可以为对象损失值，图像损失参数可以为图像损失值。相应的，迭代停止条件是指文字损失值小于第一预设损失值、对象损失值小于第二损失值、图像损失值小于第三损失值。第一损失值、第二损失值和第三损失值可以相同，也可以不同。

其中，对于图像分类任务，其损失计算是针对第一样本视频，而非单张图像。相应的，在训练多任务处理模型中的图像分类任务时，在一个batch内，将同一第一样本视频的多帧图像在平均池化层得到的视频特征拿到，构造一个二分类网络，即可得到图像分类任务对应的图像分类模块。例如，参见图9，图像分类模块包括全连接层500和多个全局平均池化256。

在本公开实施例中，文字识别任务、对象识别任务、图像分类任务进行共同学习。文字识别任务会让多任务处理模型具备识别文字内容的能力。同样对象识别任务也会让多任务处理模型具备对象识别的能力。图像分类任务在自身具备宏观图像内容理解的能力上，可以感受文字内容和尺寸小于预设尺寸的小物体，进而提高负向视频识别的准确率。

图10是根据一示例性实施例示出的一种视频识别方法的流程图。参见图10，视频识别方法用于电子设备中，在本公开实施例中，以训练视频标签分类模型，且电子设备包括服务器为例进行说明，包括以下。

在步骤S101中，服务器获取第二样本视频，第二样本视频为包含限制性内容的视频，且第二样本视频标注第二样本视频的视频识别标签。

其中，第二样本视频均为负向视频，且标注了负向视频的视频识别标签。视频识别标签包括多种视频类型，且可以包括更新的视频类型。

在步骤S102中，服务器基于第二样本视频，对待训练的视频标签分类模型进行训练，得到训练完成的视频标签分类模型。

服务器基于第二样本视频的每帧视频标注的视频识别标签和通过待训练的视频标签分类模型预测的每个视频帧的视频识别标签，确定视频损失参数，基于该视频损失参数，对待训练的视频标签分类模型进行训练，直到视频损失参数满足停止迭代条件，得到视频标签分类模型。

服务器借助于多任务处理模型来训练视频标签分类模型；例如，服务器将第二样本视频输入多任务处理模型中，得到第二样本视频的多帧视频的视频特征，也即每帧视频的特征维度为256维。其中，视频标签分类模型为多分类训练模型，且视频标签分类模型可以为非常简单的模型；例如，继续参见图8，视频标签分类模型可以使用多任务处理模型中的最终的全局平均池化层的结构。全局平均池化层对来自于第十二卷积层的第七特征进行全局池化处理，得到视频特征。再如，视频标签分类模型也可以使用xgboost(一种神经网络模型算法)模型或者是循环神经网络。

在本公开实施例中，由于第二阶段的视频标签分类模型是一个很简单的模型，因此，当视频的标签发生更新时，更新第二阶段的视频分类模型的代价较低，也即耗时较低，进而能够提高视频识别标签的效率。

图11是根据一示例性实施例示出的一种视频识别装置的框图。参照图11，该装置包第一确定111，获取单元112、第二确定单元113和第三确定单元114。

第一确定单元111，被配置为确定待识别的第一视频的文字识别标签、对象识别标签和图像分类结果，图像分类结果用于表示第一视频中是否包含限制性图像；

获取单元112，被配置为在图像分类结果用于表示第一视频中包含限制性图像的情况下，获取第一视频的视频特征；

第二确定单元113，被配置为基于视频特征，确定第一视频的视频识别标签，视频识别标签用于表示限制性图像的类型；

第三确定单元114，被配置为基于文字识别标签、对象识别标签和视频识别标签三者之间的优先级关系，确定第一视频的识别结果。

在一些实施例中，第一确定单元111，包括：

标注子单元，被配置为在第一视频的每帧视频上标注待提取的特征的标识信息；

输入子单元，被配置为将标注后的每帧视频输入到多任务处理模型中，多任务处理模型包括特征判断模块、特征提取模块、文字识别模块、对象识别模块和图像分类模块；

提取子单元，被配置为对于每帧视频，通过特征判断模块，确定帧视频上标注的是用于提取文字特征的第一标识信息，则通过特征判断模块指示特征提取模块提取帧视频的文字特征，将文字特征输出至文字识别模块；通过特征判断模块，确定帧视频上标注的是用于提取对象特征的第二标识信息，则通过特征判断模块指示特征提取模块提取帧视频的对象特征，将对象特征输出至对象识别模块；通过特征判断模块，确定帧视频上标注的是用于提取图像特征的第三标识信息，则通过特征判断模块指示特征提取模块提取帧视频的图像特征，将图像特征输出至图像分类模块；

识别子单元，被配置为通过文字识别模块、对象识别模块和图像分类模块，分别对每帧视频的文字特征、对象特征和图像特征进行识别，得到第一视频的文字识别标签、对象识别标签和图像分类结果。

在一些实施例中，输入子单元，被配置为获取第一视频的预设数量的目标帧视频，目标帧视频标注有待提取的特征的标识信息；将预设数量的目标帧视频输入到多任务处理模型中。

在一些实施例中，输入子单元，被配置为在第一视频包括的视频帧的数量不小于预设数量的情况下，从第一视频中提取连续的预设数量的目标视频帧；在第一视频包括的视频帧的数量小于预设数量的情况下，在第一视频后补充预设内容的视频帧，得到预设数量的目标视频帧。

在一些实施例中，第一确定单元111，包括

获取子单元，被配置为获取第一样本视频，第一样本视频标注有文字识别标签、对象识别标签和图像分类标签；

第一确定子单元，被配置为基于第一样本视频中的每个视频帧标注的图像分类标签和通过待训练的多任务处理模型预测的每个视频帧的图像分类标签，确定图像损失参数；

第二确定子单元，被配置为从第一样本视频中确定包含文字识别标签的第一视频帧，基于第一视频帧的文字识别标签和通过待训练的多任务处理模型预测的第一视频帧的文字识别标签，确定文字损失参数；

第三确定子单元，被配置为从第一样本视频中确定包含对象识别标签的第二视频帧，基于第二视频帧的对象识别标签和通过待训练的多任务处理模型预测的第二视频帧的对象识别标签，确定对象损失参数；

训练子单元，被配置为分别基于文字损失参数、对象损失参数和图像损失参数，对待训练的多任务处理模型进行训练，直到文字损失参数、对象损失参数和图像损失参数均满足迭代停止条件，得到多任务处理模型。

在一些实施例中，获取子单元，被配置为获取第二视频，第二视频为第一终端上传的，第二视频标注图像分类标签；在第二视频中标注文字识别标签和对象识别标签，得到第一样本视频。

在一些实施例中，获取子单元，被配置为获取第一终端上传的多个视频；确定每个视频标注的视频识别标签的标签来源；从多个视频中，选择标签来源为图像的第二视频。

在一些实施例中，第三确定单元124，被配置为基于文字识别标签、对象识别标签和视频识别标签三者之间的优先级关系，将优先级别最高的标签确定为第一视频的视频标签，视频标签为识别结果。

在一些实施例中，装置还包括：

执行单元，被配置为在图像分类结果表示第一视频中不包含限制性图像、文字识别标签表示第一视频中不包含限制性文字和对象识别标签表示第一视频中不包含限制性对象的情况下，对第一视频执行目标操作，目标操作为发送第一视频的第二终端的请求操作。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

电子设备被提供为终端，图12是根据一示例性实施例示出的一种终端的框图。在一些实施例中，该终端10可以终端为手机、平板电脑、笔记本电脑和PC(PersonalComputer)电脑等设备中的至少一种。终端10还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。终端12可以为上述的第一终端或者第二终端。

通常，终端10包括有：处理器101和存储器102。

在一些实施例中，处理器101包括一个或多个处理核心，比如4核心处理器、8核心处理器等。在一些实施例中，处理器101采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(ProgrammableLogic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器101也包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器101集成有GPU(GraphicsProcessing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器101还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，存储器102包括一个或多个计算机可读存储介质，该计算机可读存储介质是非暂态的。在一些实施例中，存储器102还包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器101所执行以实现本公开中方法实施例提供的视频识别方法。

在一些实施例中，终端10还可选包括有：外围设备接口103和至少一个外围设备。在一些实施例中，处理器101、存储器102和外围设备接口103之间通过总线或信号线相连。在一些实施例中，各个外围设备通过总线、信号线或电路板与外围设备接口103相连。具体地，外围设备包括：射频电路104、显示屏105、摄像头组件106、音频电路107、定位组件108和电源109中的至少一种。

外围设备接口103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器101和存储器102。在一些实施例中，处理器101、存储器102和外围设备接口103被集成在同一芯片或电路板上；在一些其他实施例中，处理器101、存储器102和外围设备接口103中的任意一个或两个在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。在一些实施例中，射频电路104通过至少一种无线通信协议来与其他终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路104还包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏105用于显示UI(User Interface，用户界面)。在一些实施例中，该UI包括图形、文本、图标、视频及其他们的任意组合。当显示屏105是触摸显示屏时，显示屏105还具有采集在显示屏105的表面或表面上方的触摸信号的能力。在一些实施例中，该触摸信号作为控制信号输入至处理器101进行处理。此时，显示屏105还用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏105为一个，设置在终端10的前面板；在另一些实施例中，显示屏105为至少两个，分别设置在终端10的不同表面或呈折叠设计；在另一些实施例中，显示屏105是柔性显示屏，设置在终端10的弯曲表面上或折叠面上。甚至，显示屏105还设置成非矩形的不规则图形，也即异形屏。在一些实施例中，显示屏105采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件106用于采集图像或视频。在一些实施例中，摄像头组件106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其他融合拍摄功能。在一些实施例中，摄像头组件106还包括闪光灯。在一些实施例中，闪光灯是单色温闪光灯，在一些实施例中，闪光灯是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，用于不同色温下的光线补偿。

在一些实施例中，音频电路107包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器101进行处理，或者输入至射频电路104以实现语音通信。出于立体声采集或降噪的目的，在一些实施例中，麦克风为多个，分别设置在终端10的不同部位。在一些实施例中，麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器101或射频电路104的电信号转换为声波。在一些实施例中，扬声器是传统的薄膜扬声器，在一些实施例中，扬声器以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅能够将电信号转换为人类可听见的声波，也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路107还包括耳机插孔。

定位组件108用于定位终端10的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。在一些实施例中，定位组件107是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源109用于为终端10中的各个组件进行供电。在一些实施例中，电源109是交流电、直流电、一次性电池或可充电电池。当电源109包括可充电电池时，该可充电电池是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还用于支持快充技术。

在一些实施例中，终端10还包括有一个或多个传感器110。该一个或多个传感器110包括但不限于：加速度传感器111、陀螺仪传感器112、压力传感器113、指纹传感器114、光学传感器115以及接近传感器116。

在一些实施例中，加速度传感器111检测以终端10建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器111用于检测重力加速度在三个坐标轴上的分量。在一些实施例中，处理器101根据加速度传感器111采集的重力加速度信号，控制显示屏105以横向视图或纵向视图进行用户界面的显示。在一些实施例中，加速度传感器111还用于游戏或者用户的运动数据的采集。

在一些实施例中，陀螺仪传感器112检测终端10的机体方向及转动角度，陀螺仪传感器112与加速度传感器111协同采集用户对终端10的3D动作。处理器101根据陀螺仪传感器112采集的数据，能够实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

在一些实施例中，压力传感器113设置在终端10的侧边框和/或显示屏105的下层。当压力传感器113设置在终端10的侧边框时，能够检测用户对终端10的握持信号，由处理器101根据压力传感器113采集的握持信号进行左右手识别或快捷操作。当压力传感器113设置在显示屏105的下层时，由处理器101根据用户对显示屏105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器114用于采集用户的指纹，由处理器101根据指纹传感器114采集到的指纹识别用户的身份，或者，由指纹传感器114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。在一些实施例中，指纹传感器114被设置在终端10的正面、背面或侧面。当终端10上设置有物理按键或厂商Logo时，指纹传感器114与物理按键或厂商Logo集成在一起。

光学传感器115用于采集环境光强度。在一个实施例中，处理器101根据光学传感器115采集的环境光强度，控制显示屏105的显示亮度。具体地，当环境光强度较高时，调高显示屏105的显示亮度；当环境光强度较低时，调低显示屏105的显示亮度。在另一个实施例中，处理器101还根据光学传感器115采集的环境光强度，动态调整摄像头组件106的拍摄参数。

接近传感器116，也称距离传感器，通常设置在终端10的前面板。接近传感器116用于采集用户与终端10的正面之间的距离。在一个实施例中，当接近传感器116检测到用户与终端10的正面之间的距离逐渐变小时，由处理器101控制显示屏105从亮屏状态切换为息屏状态；当接近传感器116检测到用户与终端10的正面之间的距离逐渐变大时，由处理器101控制显示屏105从息屏状态切换为亮屏状态。

本领域技术人员能够理解，图12中示出的结构并不构成对终端10的限定，能够包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器102，上述指令可由终端10的处理器102执行以完成上述实施例中的视频识别方法。可选地，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当该计算机程序/指令被处理器执行时实现上述实施例中的视频识别方法。

电子设备被提供为服务器。图13是根据一示例性实施例示出的一种服务器的框图。在一些实施例中，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1301和一个或一个以上的存储器1302，其中，存储器1302中存储有至少一条程序代码，至少一条程序代码由处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频识别方法，其特征在于，包括：

通过多任务处理模型，确定待识别的第一视频的文字识别标签、对象识别标签和图像分类结果，所述图像分类结果用于表示所述第一视频中是否包含限制性图像，所述多任务处理模型包括特征判断模块、特征提取模块、文字识别模块、对象识别模块和图像分类模块，所述特征判断模块用于确定待提取特征的特征类别，将所述待提取特征的特征类别发送至所述特征提取模块，以由所述特征提取模块提取所述特征类别的特征；

2.根据权利要求1所述的方法，其特征在于，所述通过多任务处理模型，确定待识别的第一视频的文字识别标签、对象识别标签和图像分类结果，包括：

将标注后的所述每帧视频输入到所述多任务处理模型中；

对于每帧视频，通过所述特征判断模块，确定帧视频上标注的是用于提取文字特征的第一标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的文字特征，将所述文字特征输出至所述文字识别模块；

通过所述文字识别模块、所述对象识别模块和所述图像分类模块，分别对所述每帧视频的文字特征、对象特征和图像特征进行识别，得到所述第一视频的文字识别标签、对象识别标签和图像分类结果。

3.根据权利要求2所述的方法，其特征在于，所述将标注后的所述每帧视频输入到所述多任务处理模型中，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述第一视频的预设数量的目标帧视频，包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，所述多任务处理模型的训练过程包括：

6.根据权利要求5所述的方法，其特征在于，所述获取第一样本视频，包括：

7.根据权利要求6所述的方法，其特征在于，所述获取第二视频，包括：

获取所述第一终端上传的多个视频；

确定每个视频标注的视频识别标签的标签来源；

从所述多个视频中，选择标签来源为图像的第二视频。

8.根据权利要求1所述的方法，其特征在于，所述基于所述文字识别标签、所述对象识别标签和所述视频识别标签三者之间的优先级关系，确定所述第一视频的识别结果，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种视频识别装置，其特征在于，所述装置还包括：

第一确定单元，被配置为通过多任务处理模型，确定待识别的第一视频的文字识别标签、对象识别标签和图像分类结果，所述图像分类结果用于表示所述第一视频中是否包含限制性图像，所述多任务处理模型包括特征判断模块、特征提取模块、文字识别模块、对象识别模块和图像分类模块，所述特征判断模块用于确定待提取特征的特征类别，将所述待提取特征的特征类别发送至所述特征提取模块，以由所述特征提取模块提取所述特征类别的特征；

11.根据权利要求10所述的装置，其特征在于，所述第一确定单元，包括：

输入子单元，被配置为将标注后的所述每帧视频输入到所述多任务处理模型中；

提取子单元，被配置为对于每帧视频，通过所述特征判断模块，确定帧视频上标注的是用于提取文字特征的第一标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的文字特征，将所述文字特征输出至所述文字识别模块；通过所述特征判断模块，确定所述帧视频上标注的是用于提取对象特征的第二标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的对象特征，将所述对象特征输出至所述对象识别模块；通过所述特征判断模块，确定所述帧视频上标注的是用于提取图像特征的第三标识信息，则通过所述特征判断模块指示所述特征提取模块提取所述帧视频的图像特征，将所述图像特征输出至所述图像分类模块；

12.根据权利要求11所述的装置，其特征在于，所述输入子单元，被配置为获取所述第一视频的预设数量的目标帧视频，所述目标帧视频标注有待提取的特征的标识信息；将所述预设数量的目标帧视频输入到所述多任务处理模型中。

13.根据权利要求12所述的装置，其特征在于，所述输入子单元，被配置为在所述第一视频包括的视频帧的数量不小于所述预设数量的情况下，从所述第一视频中提取连续的预设数量的目标视频帧；在所述第一视频包括的视频帧的数量小于所述预设数量的情况下，在所述第一视频后补充预设内容的视频帧，得到所述预设数量的目标视频帧。

14.根据权利要求11-13任一项所述的装置，其特征在于，所述第一确定单元，包括获取子单元，被配置为获取第一样本视频，所述第一样本视频标注有文字识别标签、对象识别标签和图像分类标签；

15.根据权利要求14所述的装置，其特征在于，所述获取子单元，被配置为获取第二视频，所述第二视频为第一终端上传的，所述第二视频标注图像分类标签；在所述第二视频中标注文字识别标签和对象识别标签，得到所述第一样本视频。

16.根据权利要求15所述的装置，其特征在于，所述获取子单元，被配置为获取所述第一终端上传的多个视频；确定每个视频标注的视频识别标签的标签来源；从所述多个视频中，选择标签来源为图像的第二视频。

17.根据权利要求10所述的装置，其特征在于，所述第三确定单元，被配置为基于所述文字识别标签、所述对象识别标签和所述视频识别标签三者之间的优先级关系，将优先级别最高的标签确定为所述第一视频的视频标签，所述视频标签为所述识别结果。

18.根据权利要求10所述的装置，其特征在于，所述装置还包括：

19.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的视频识别方法。

20.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的视频识别方法。

21.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至9任一项所述的视频识别方法。