CN115035462A

CN115035462A - 视频识别方法、装置、设备和存储介质

Info

Publication number: CN115035462A
Application number: CN202210952352.1A
Authority: CN
Inventors: 沈旭; 梁树贤; 黄建强
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-09-09
Anticipated expiration: 2042-08-09
Also published as: CN115035462B

Abstract

本申请提供一种视频识别方法、装置、设备和存储介质，该方法包括：获取需要进行类别识别的视频；通过第一网络模型提取视频对应的第一特征矩阵，并根据第一特征矩阵确定视频对应的topk个类别；根据topk个类别以及第一特征矩阵生成与topk个类别相关的概要信息；基于所述概要信息，通过第二网络模型提取视频对应的第二特征矩阵，并根据第二特征矩阵确定视频对应的目标类别，目标类别为topk个类别中的一个。基于上述从概要到细节的识别思路，有助于提取到包含更多关键细节的用于识别出目标类别的特征信息，从而可以实现输入视频的准确类别识别，且节省算力。基于该方案可以实现按照其中的人物行为类别对视频进行分类。

Description

视频识别方法、装置、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种视频识别方法、装置、设备和存储介质。

背景技术

诸如行为类别识别等分类识别，是深度学习技术重要的应用方向，同时也是视频分析中的基础任务。以行为类别识别为例，若提供对视频中人物的行为类别进行识别的能力，则可以实现对视频中诸如打架斗殴等异常行为的识别，从而及时告警相关处置部门。

传统的一种识别方式是：对需要进行识别的视频，采用固定采样策略（比如等时间间隔采样）对视频进行采样，以采样出多帧图像，之后，将该多帧图像输入到识别模型，获得识别模型基于该多帧图像输出的类别识别结果。

基于上述固定采样策略实现的识别方案，容易遗漏视频中与真实类别相对应的关键细节信息，从而导致识别结果准确性不佳。

发明内容

本发明实施例提供一种视频识别方法、装置、设备和存储介质，用于提高视频的分类识别结果准确性。

第一方面，本发明实施例提供一种视频识别方法，所述方法包括：

获取需要进行类别识别的视频；

通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别；其中，所述第一网络模型能够识别出第二数量的类别，所述第二数量的类别中包含所述第一数量的类别；

根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息；

基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，所述目标类别为所述第一数量的类别中的一个。

第二方面，本发明实施例提供一种视频识别装置，所述装置包括：

视频获取模块，用于获取需要进行类别识别的视频；

第一识别模块，用于通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别；其中，所述第一网络模型能够识别出第二数量的类别，所述第二数量的类别中包含所述第一数量的类别；

概要生成模块，用于根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息；

第二识别模块，用于基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，所述目标类别为所述第一数量的类别中的一个。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如第一方面所述的视频识别方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的视频识别方法。

第五方面，本发明实施例提供一种视频识别方法，所述方法包括：

接收用户设备通过调用视频识别服务触发的请求，所述请求中包括需要进行类别识别的视频；

利用所述视频识别服务对应的处理资源执行如下步骤：

基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，所述目标类别为所述第一数量的类别中的一个；

将所述视频对应的目标类别反馈所述用户设备。

第六方面，本发明实施例提供一种视频识别方法，应用于用户终端，所述方法包括：

获取需要进行类别识别的视频，以及用于对所述视频进行类别识别的第一网络模型和第二网络模型；

通过所述第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别；其中，所述第一网络模型能够识别出第二数量的类别，所述第二数量的类别中包含所述第一数量的类别；

基于所述概要信息，通过所述第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，所述目标类别为所述第一数量的类别中的一个；

根据所述目标类别对所述视频进行处理。

在本发明实施例中，为了实现对一段视频所对应的类别的识别，联合使用了两个网络模型：第一网络模型和第二网络模型（或者成为概要网络模型和细节网络模型），其中，第一网络模型用于预测出这段视频对应的topk类别，以及生成与该topk类别相关的概要信息。概况来说，第一网络模型用于对输入的视频中的关键因素进行概要总结，而这些关键因素是与这topk类别高度相关的。基于该topk类别相关的概要信息，第二网络模型对输入的视频进行细节特征（即上文中的第二特征矩阵）的提取，并基于提取到的这些细节特征最终从topk类别中确定出输入视频所对应的目标类别。其中，该细节特征对应于有助于在上述topk中区分出目标类别的判别因素。

相比于从输入视频中直接识别出目标类别的方式，上述先识别出最为可能的topk类别，再基于细节特征区分出topk类别中的一个目标类别的方式，是更容易且节省算力的。基于上述从概要到细节的识别思路，有助于提取到包含更多关键细节的用于识别出目标类别的特征信息，从而可以实现输入视频的准确类别识别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频识别方法的流程图；

图2为本发明实施例提供的一种视频识别系统的组成示意图；

图3为本发明实施例中第二特征提取器的工作过程示意图；

图4为本发明实施例中特征融合模型的示意图；

图5为本发明实施例提供的一种视频识别方法的应用示意图；

图6为本发明实施例提供的一种采样参数θ的生成过程示意图；

图7为本发明实施例提供的一种上下文特征m的生成过程示意图；

图8为本发明实施例提供的一种视频采样方法的流程图；

图9a-图9c为关键区域的缩放效果示意图；

图10为本发明实施例提供的一种视频识别方法的应用示意图；

图11为本发明实施例提供的一种视频识别装置的结构示意图；

图12为本实施例提供的一种电子设备的结构示意。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

在线视频的爆炸性增长产生了大规模的视频自动分类识别的需求，其中，分类的角度可以包括其中的人物的行为类别，事件类别或其他分类维度。以人物行为类别为例，比如跆拳道教练拍摄学生做各种跆拳道动作（比如高踢、侧踢）的视频并上传网络，则可以通过对动作类别的识别得知一段视频中对应的跆拳道动作是什么。

对视频进行分类识别的作用，比如是：对不同类别的视频进行分类存储，放置在对应的类目下。比如是：按照用户的视频观看偏好信息，为用户推荐偏好类别的视频。再比如是：及时发现包含异常情形的视频，以便相关处置部门进行及时响应，该异常情形比如是视频中包含打架斗殴等违法违规行为或内容。因此，在大量在线视频具有自动分类识别需求的情况下，需要提供一种能够高效地、准确地完成该识别任务的解决方案。

而通过分析发现，如果一段视频中包含对应于不同类别的相似信息，往往会导致误分类。比如，如果针对某段视频进行其中人物行为类别的分类识别，误分类一般是属于非常相似的动作 (例如高踢与侧踢) 之间的错误分类。而为了区分这些相似动作行为，需要捕获细粒度的可区分性细节特征（即判别特征），以用于区分相似动作行为。

有鉴于此，本发明实施例提供了一种基于视频的概要和细节特征提取的分类识别方案，该方案的整体思路是：联合使用概要网络（Synopsis Network）模型以及细节网络（Detail Network）模型，首先，通过概要网络模型预测出视频中包含的最为可能的前k个类别（topk类别,k为预设值，比如为5），并生成概要信息（该概要信息与这k个类别相关），其次，基于概要信息，通过细节网络模型来提取用于区分这k个类别的判别细节特征，根据该细节特征完成视频所对应的一种目标类别的预测。

图1为本发明实施例提供的一种视频识别方法的流程图，如图1所示，该方法包括如下步骤：

101、获取需要进行类别识别的视频。

102、通过第一网络模型提取视频对应的第一特征矩阵，并根据第一特征矩阵确定视频对应的排序靠前的第一数量的类别，其中，第一网络模型能够识别出第二数量的类别，第二数量的类别中包含所述第一数量的类别。

103、根据第一数量的类别以及第一特征矩阵，生成与第一数量的类别相关的概要信息。

104、基于所述概要信息，通过第二网络模型提取视频对应的第二特征矩阵，并根据第二特征矩阵确定视频对应的目标类别，目标类别为第一数量的类别中的一个。

本实施例中的第一网络模型即为上文中的概要网络模型，第二网络模型即为细节网络模型。如图2中所示，第一网络模型由如下三个功能模块构成：第一采样器、第一特征提取器、第一分类器。类似地，第二网络模型由如下三个功能模块构成：第二采样器、第二特征提取器、第二分类器。另外，如图2中所示，在执行本发明实施例提供的识别视频识别方法的系统中，除第一网络模型和第二网络模型外，还包括用于生成上述概要信息的概要生成模型。

在实际应用中，上述一些网络模型比如可以采用：mobilenetv2、resnet50等模型结构，不以此为限。

需要说明的是，本发明实施例中，在训练得到图2所示系统中包含的各个模型的过程，训练数据对应的类别标签数量为N（即上述第二数量为N），从而使得上述第一网络模型、第二网络模型都具有识别这N个类别的能力，第一数量k，远小于N。

下面基于上述功能模块的组成，介绍本实施例提供的视频识别方法的执行过程。

概括来说，第一网络模型用于完成视频对应的topk类别的预测，这topk个类别包含于上述N个类别中，即从这N个类别中预测出输入视频最有可能对应的k个类别。在完成该预测的过程中，第一网络模型需要对视频进行特征提取，得到若干特征图（即特征矩阵）。

基于上述第一网络模型的组成，第一网络模型的工作过程如下：

通过第一采样器对视频进行等间隔采样以得到第一图像集；

通过第一特征提取器对第一图像集进行特征提取以得到第一特征矩阵，第一特征矩阵包括所述第一图像集中图像对应的特征矩阵；

将第一特征矩阵输入第一分类器，以得到与视频对应的topk类别。

假设输入视频的长度为10秒，帧率为30fps，那么原始输入视频中共有300帧图像，假设基于设定的固定采样间隔从这300帧图像中采样出16帧图像，表示为：

Ts=[1, 20, ..., 300]，其中，Ts表示第一采样器采样出的第一图像集，1、20…表示第几帧图像。由此可知，第一采样器是从视频全局角度，采样出反映视频全局信息的多帧图像。在一可选实施例中，在采样出第一图像集后，还可以对第一图像集中各帧图像进行尺寸缩放处理，以使缩放后的图像尺寸与第一网络模型所需的设定输入图像尺寸相适应。

之后，将第一图像集中包含的各帧分别输入到第一特征提取器，提取出每帧图像对应的特征矩阵，从而得到由第一图像集中每帧图像对应的特征矩阵构成的第一特征矩阵（即特征矩阵集）。

之后，将第一图像集中每帧图像对应的特征矩阵分别输入到第一分类器，以通过第一分类器的分类处理，得到输入的视频所对应的topk类别。

具体来说，第一分类器的工作原理如下：针对第一图像集中任一帧图像i对应的特征矩阵的输入，第一分类器可以预测输出该图像i分别对应于上述N种类别的概率，针对每一帧图像都进行该预测处理，便可以得到各帧图像分别对应于N种类别的概率。之后，针对N种类别中的任一类别Cj，统计得到第一图像集中各帧图像在该类别Cj下对应的概率的平均值（平均值仅为举例，也可以是max值等），针对每种类别都进行该统计处理。最后，根据N种类别中每种类别各自对应的平均值，从中选择topk个类别。

概括来说，实际应用中，一般会采用具有softmax的全连接（FC）层作为第一分类器，假设将第一分类器的工作过程表示为函数hs，将由第一图像集中各帧图像对应的特征矩阵构成的第一特征矩阵表示为e，那么第一分类器的输出可以表示为：

p=hs(GAP(e))，其中，GAP()表示全局平均池化处理，当然也可以采用其他的池化算子。p表示表示N个类别的softmax预测结果，即视频在这N个类别下分别对应的概率，以便据此选出topk类别。

类似于1-hot向量的表示方式，本实施例中，可以引入一个k-hot向量s来表示上述topk个类别，该向量s的维度为N*1，其中，topk类别在该向量s中对应的取值为1，其他类别在该向量s中对应的取值为0。具体来说，向量s是p的top-k二值化结果。

之后，将包含第一图像集中各帧图像对应的特征矩阵的第一特征矩阵以及第一分类器预测出的topk个类别输入到概要生成模型，概要生成模型输出与该topk个类别相关的概要信息。

具体地，该概要信息包括与topk类别相关的采样参数和/或与topk类别相关的上下文特征。

其中，所述采样参数中包括用于定位多个关键帧的第一定位参数以及用于定位各关键帧中关键区域的第二定位参数。

实际应用中，可以预先设置多个关键帧的数量以及关键区域的尺寸，比如为：16*112*112，表示需要采样出16个关键帧，每个关键帧中需要提取出112*112像素的图像区域。

也就是说，上述概要信息中给出了在视频中哪些帧中的哪些图像区域是与这topk个类别高度相关的，以及从视频中提取的哪些特征（称为上下文特征）是对预测这topk个类别更为重要的。上述概要生成模型的组成已经工作原理将在下文中详细说明。

在生成视频的上述概要信息后，可以将该概要信息引入第二网络模型，以使该第二网络模型在该概要信息的辅助下，能够从topk个类别中进一步区分出视频所对应的目标类别。

在视频的概要信息中包含上述采样参数和/或上下文特征的情形下，基于图2中示意的第二网络模型的组成，这两种信息在第二网络模型中的辅助作用体现为：

将采样参数和视频输入第二采样器，以使第二采样器根据采样参数对视频进行采样以得到第二图像集，第二图像集包括多个关键帧中的关键区域；

基于上下文特征，通过第二特征提取器对第二图像集进行特征提取以得到第二特征矩阵，第二特征矩阵包括第二图像集中图像（即关键区域）对应的特征矩阵；

将第二特征矩阵输入第二分类器，以得到视频对应的目标类别。

由此可知，上述采样参数的作用是：从视频中采样出与这topk个类别最为相关的关键图像区域。相比于第一采样器从视频的全局角度，采样出反映视频全局信息的第一图像集，第二采样器更关注的是视频中的局部区域，即与topk个类别相关的局部区域。

由上文介绍可知，采样参数中包括时空两种维度的参数，其中，时间维度的第一定位参数用于确定出视频中与topk个类别相关的多个关键帧的位置，空间维度的第二定位参数用于确定出每个关键帧中与topk个类别相关的关键区域。

第二特征提取器对第二图像集中各帧图像进行特征提取的过程，与第一特征提取器对第一图像集中各帧图像进行特征提取的过程相似，这里不展开赘述，仅强调一点：在上述概要信息中包括所述上下文特征的情形下，在第二特征提取器进行特征提取的过程中，融合了该上下文特征。基于该上下文特征的融合，第二特征提取器能够提取出能够用于判别（即区分）topk个类别的第二特征矩阵（即细节特征）。从而，该第二特征矩阵输入到第二分类器后，第二分类器便可以从topk个类别中确定输入视频所对应的目标类别。第二分类器的工作原理与第一分类器相似，在此不赘述。

为便于理解，结合图3所示实施例，介绍在第二特征提取器中融合上述上下文特征的过程。为便于描述，将上下文特征表示为m。

如图3中所示，第二特征提取器中包括多个特征提取层，比如图中示意的D1—D5这五层。实际上，这五个特征提取层输出的特征矩阵的尺度逐渐降低，即由大到小。可选地，这些特征提取层可以是卷积层、残差块，等等。

针对第二图像集中的任一图像x来说，将图像x输入到第一层D1后，经过特征提取处理会输出特征矩阵额E1；之后，特征矩阵E1输入到第二层D2，D2输出特征矩阵E2；之后，特征矩阵E3输入到第三层D3，D3输出特征矩阵E3；之后，特征矩阵E3与上下文特征m拼接在一起，之后输入到图中示意的特征融合模型fu，特征融合模型fu对输入的两个特征进行融合处理，输出融合后的特征矩阵E3’；之后，特征矩阵E3’输入到第四层D4，D4输出特征矩阵E4，可选地，此时，也可以将特征矩阵E4与上下文特征m拼接在一起，之后输入到特征融合模型fu，特征融合模型fu输出融合后的特征矩阵E4’；之后，特征矩阵E4’输入到第五层D5，D5输出特征矩阵E5。之后，特征矩阵E5输入到第二分类器。

由上述举例可知，在第二特征提取器的一些特征提取层之间可以连接上述特征融合模型，第二特征提取器基于上下文特征m进行特征提取的过程可以描述为：

获取第一特征提取层输出的第三特征矩阵；

拼接第三特征矩阵与上下文特征m；

将拼接后的特征矩阵输入特征融合模型，以获得融合后的第四特征矩阵；

将第四特征矩阵输入第二特征提取层，以获得第二特征提取层输出的第二特征矩阵；其中，第二特征提取层为多个特征提取层中的最后一层，第一特征提取层包括除第二特征提取层外的至少一层。也就是说，融合上下文特征m的位置可以是一处也可以是多处，在何处进行特征融合处理可以预先设置。

如图4中所示，可选地，上述特征融合模型fu中可以包括一个卷积（conv）层（比如图中示意的1ⅹ1ⅹ1的conv层）、正则化-激活层（BN+ReLu）。可以理解的是，在实际应用中，为了满足模型的计算需求，需要将上下文特征m转换为与上述第三特征矩阵的形状（shape）相匹配，即进行矩阵维度的扩展。

需要说明的是，实际上，上述特征融合模型fu可以内嵌于第二特征提取器中。

综上，本发明实施例提供的视频识别方案中，先识别出视频对应的topk个类别，并生成视频中与这topk个类别相关的概要信息，之后，基于该概要信息再从这topk个类别中确定出视频所对应的目标类别。相比于从视频中直接识别出目标类别的思路，先识别出前k个可能的类别，再使用细节特征区分前k个类别中的一个类别要容易得多，且更为准确。因为在第二网络模型的处理过程中，仅关注输入视频中与这k个类别相关的局部特征，不需要关注其他的冗余信息，降低了对冗余信息的计算。

图5示意了视频服务器在接收到用户终端上传的一段视频后，对该视频所对应的目标类别进行识别的处理过程。

如上文所述，概要信息中可以包括采样参数（下文中以θ表示）、上下文特征（下文中以m表示）。由概要生成模型来生成上述两种参数。下面分别介绍这两种参数的生成过程。

具体地，该概要生成模型中可以包括用于生成采样参数θ的第一概要生成模型fθ，以及用于生成上下文特征m的第二概要生成模型fm。

采样参数θ的生成过程为：确定与topk个类别对应的类别预测矩阵；拼接所述类别预测矩阵和第一特征矩阵；将拼接后的矩阵输入第一概要生成模型fθ，以获取第一概要生成模型fθ输出的采样参数θ。

结合图6示例型说明第一概要生成模型fθ的组成以及生成采样参数θ的过程。

如图6中所示，可选地，第一概要生成模型fθ中可以包括：一个1ⅹ1ⅹ1的conv层、一个3ⅹ3ⅹ3的conv层，连接在这两个卷积层之后的正则化-激活层（BN+ReLu），以及两个平行的全连接（FC）层。

与topk个类别对应的类别预测矩阵即为上文中的k-hot向量s。为了实现该向量s与第一特征矩阵的拼接，需要对向量s进行维度扩展，以与第一特征矩阵的形状（shape）相匹配，拼接结果输入第一概要生成模型fθ后，便可以获取第一概要生成模型fθ中的两个FC层输出的采样参数θ。

具体地，采样参数θ可以包括如下几类参数：θ=(µt,µy,µx,δt,δy,δx)。其中，(µt，δt) 即为用于定位多个关键帧的第一定位参数，亦即时间采样参数；(µy，µx,δy,δx) 即为用于定位关键区域的第二定位参数，亦即空间采样参数。

需要说明的是，从采样参数θ中包含的参数的数量角度来说，其中仅包括一个µt和一个δt，但是却包含Td组(µy，µx,δy,δx)。

其中，如上文所述，需要从视频中采样出的关键帧的数量，以及从每个关键帧中提取出的关键区域的尺寸都是预设值，Td即表示关键帧的数量，并假设关键区域的尺寸由Hd（高度）、Wd（宽度）表示。上述Td组(µy，µx,δy,δx)中的任一组i即为第i个关键帧中关键区域的定位参数。

由此可知，基于采样参数θ可以从输入的视频中采样出Td个Hd*Wd的关键区域。

其中，µt用于确定需要采样出的多个关键帧的中心时间点在输入视频中对应的时间位置，δt表示关键帧之间的采样步长。举例来说，假设输入视频由前述举例中的300帧图像构成，假设µt=50，δt=1，Td=16，则在输入视频中确定第50帧图像作为采样16个关键帧的中心时间点，由于采样步长为1，则可以确定第42-58帧图像即为需要采样出的16个关键帧，即以中心时间点为基准，左右对称地分别采样出连续的8帧图像（因为步长等于1）。再比如，假设µt=50，δt=2，Td=16，则在输入视频中确定第50帧图像作为采样16个关键帧的中心时间点，由于采样步长为2，则可以确定此时16个关键帧在输入视频中对应的采样范围为：第34-66帧图像，具体地，以中心时间点（第50帧图像）为基准，左右对称地按照采样间隔步长2采样出一帧图像，最终采样出由第50帧左侧的8帧图像以及右侧的8帧图像构成的16个关键帧。

(µy,δy)和（µx,δx)的原理与之相似。针对第i个关键帧（表示为关键帧i），假设其对应的一组空间采样参数表示为：(µy_i，µx_i,δy_i,δx_i)，对于(µy_i，δy_i)，µy_i用于确定关键帧i中关键区域的纵坐标中心点在关键帧i对应的空间位置，即关键区域的中间一行像素在关键帧i中对应的空间位置，δy_i用于确定该关键区域中不同行像素之间的采样步长。对于(µx_i，δx_i)，µx_i用于确定关键帧i中关键区域的横坐标中心点在关键帧i对应的空间位置，即关键区域的中间一列像素在关键帧i中对应的空间位置，δx_i用于确定该关键区域中不同列之间的采样步长。可以理解的是，由于关键区域的尺寸是预设值Hd*Wd，所以在给定上述中心空间位置以及采样步长后，采样到的边界位置便可以确定。

以上即为采样参数θ的生成过程以及具体组成。

上下文特征m的生成过程为：确定与topk个类别对应的类别预测矩阵；对第一特征矩阵进行池化处理；拼接所述类别预测矩阵和池化处理后的特征矩阵；将拼接后的矩阵输入第二概要生成模型fm，以获取第二概要生成模型fm输出的上下文特征m。

结合图7示例型说明第二概要生成模型fm的组成以及生成上下文特征m的过程。

如图7中所示，可选地，第二概要生成模型fm中可以包括：一个全连接（FC）层以及正则化-激活层（BN+ReLu）。

与topk个类别对应的类别预测矩阵即为上文中的k-hot向量s。对第一特征矩阵的池化处理比如是全局平均池化等任一种池化处理。第一特征矩阵的池化结果与向量s拼接后，输入第二概要生成模型fm，第二概要生成模型fm输出的上下文特征m。

由上文中介绍的采样参数θ的组成可知，如果其中包含的上述参数是整数，那么可以各个参数的功能描述，直接在输入视频中进行关键帧中关键区域的采样即可。但是，实际上，为了实现由第一网络模型、第二网络模型、概要生成模型、特征融合模型构成的整体模型的端到端训练，上述这些参数的取值往往不是整数（会导致没有梯度信息），而是小数，即这些模型都是可微分的。有鉴于此，本发明实施例提供一种可选地基于采样参数θ对视频进行采样的方案，如图8所示。

图8为本发明实施例提供的一种视频采样方法的流程图，如图8所示，该方法包括如下步骤：

801、根据第一定位参数确定多个关键帧在视频中对应的时间位置，根据目标关键帧中关键区域对应的第二定位参数，确定目标关键帧的关键区域中多行像素和多列像素在视频中对应的空间位置，目标关键帧为多个关键帧中任一个。

802、采用高斯采样，确定由视频中的各帧图像对产生目标关键帧的所述时间位置而贡献的权重所构成的第一权重向量。

803、采用高斯采样，确定由所述目标关键帧中的多行像素对产生目标行像素的空间位置而贡献的权重所构成的第二权重向量，目标行像素是目标关键帧的关键区域中任一行。

804、采用高斯采样，确定由目标关键帧中的多列像素对产生目标列像素的空间位置而贡献的权重所构成的第三权重向量，目标列像素是目标关键帧的关键区域中任一列。

805、根据第一权重向量、第二权重向量和第三权重向量，对视频进行采样处理，以得到第二图像集。

如上文所述，第一定位参数为(µt，δt)，用于定位出Td个关键帧。第二定位参数包括每个关键帧对应的(µy，µx,δy,δx)，用于定位出相应关键帧中的Hd*Wd的关键区域。

下面假设任一关键帧为z，该关键帧z的关键区域中任一行像素为j，任一列像素为i，可以基于如下公式(1)完成关键帧z及其中关键区域的确定：

Pt(z)= µt*T+(z-Td/2-0.5)*δt

Py(j)= µy*H+(j-Hd/2-0.5)*δy （1）

Px(i)= µx*W+(i-Wd/2-0.5)*δx

其中，T表示输入的视频中原本包含的图像帧数量，H、W分别表示视频中图像帧的原始图像尺寸（高度和宽度）。比如上文中举例的300帧图像，每帧图像的尺寸比如为224*224。

可以理解的是，z的取值范围为：[1,Td]，j的取值范围为：[1,Hd]，i的取值范围为：[1,Wd]。下文中为便于理解，假设Td=16,Hd和Wd均为112。

Pt(z)表示需要采样出的Td个关键帧中的第z个关键帧在视频中对应的时间位置，Py(j)表示关键区域中的第j行像素在视频中对应的空间位置，Px(i)表示关键区域中的第i列像素在视频中对应的空间位置。

需要说明的是，如上文所述，采样参数中会包含Td组(µy，µx,δy,δx)，分别对应于Td个关键帧，所以在计算每个关键帧中关键区域的各行、各列像素的空间位置时，需要采用的是相应关键帧对应的第二定位参数。

如上文所述，各个模型是可微的，这样往往会使得上述采样参数的取值是小数，从而导致基于上述公式（1）得到的时间、空间位置是小数，比如Pt(z)=42.5，Py(j)=80.3。而视频中原本的T个图像帧的时间位置序号（1、2…T）都是整数的，同理，每帧图像中的行、列位置序号也是整数的，因此，需要进而再通过一种设定的采样方式（比如高斯采样、插值采样、仿射变换，等），结合视频中原始的各帧图像以及每帧图像中各行各列像素来确定如果得到上述Pt(z)、Py(j)、Px(i)。

本发明实施例提供了一种基于高斯采样完成上述任务的方法，该高斯采样过程可以表示为如下公式（2）：

GT[Pt(z),r]=1/ZT*exp（- (Pt(z)-r)2/2）,

GY[Py(j),v]=1/ZY*exp（- (Py(j)-v)2/2）, (2)

GX[Px(i),u]=1/ZX*exp（- (Px(i)-u)2/2）,

其中，（r,v,u）表示视频中原始的第r帧图像，每帧图像中的第v行像素和第u列像素。ZT 、ZY 和ZX是预设的归一化常熟，以保证

，

,

=1。

其中，假设视频中原始包含了300帧图像，每帧图像的尺寸为224*224，则r的取值范围是：[1,300]，v的取值范围是：[1,224]，u的取值范围是：[1,224]。基于该假设可知，针对每个Pt(z)，遍历1-300这300帧图像，分别计算对应的GT[Pt(z),r]值。GY[Py(j),v]和GX[Px(i),u]同理。

其中，GT[Pt(z),r]，表示视频中原始的第r帧图像对产生第z个关键帧所贡献的权重，从而，遍历1-300这300帧图像，针对第z个关键帧，便可以得到由全部300帧图像分别对产生第z个关键帧贡献的权重构成的一个第一权重向量。由于z的取值范围为[1,16]，遍历每个z的取值，便可以得到16个第一权重向量，分别对应于16个关键帧，从而可以由这16个第一权重向量构成一个第一权重矩阵，假设表示为GT，其维度为：16*300。

类似地，针对任意关键帧，GY[Py(j),v]表示该关键帧原始的第v行像素对产生关键区域中的第j行而贡献的权重，从而，遍历关键帧中原始的第1-224行像素，便可以得到由全部224行像素分别对产生关键区域中该第j行像素贡献的权重构成的一个第二权重向量。由于j的取值范围是[1,112]，在该范围内遍历每个j的取值，便可以得到112个第二权重向量，由这112个第二权重向量可以构成第二权重矩阵，假设表示为GY。

针对任意关键帧，GX[Px(i),u]表示该关键帧原始的第u列像素对产生关键区域中的第i列像素而贡献的权重，从而，遍历关键帧中原始的第1-224列像素，便可以得到由全部224列像素分别对产生关键区域中该第i列像素贡献的权重构成的一个第三权重向量。由于i的取值范围是[1,112]，在该范围内遍历每个i的取值，便可以得到112个第三权重向量，由这112个第三权重向量可以构成第三权重矩阵，假设表示为GX。

最后，假设由上述300帧图像构成的输入视频表示为矩阵张量Q，则第二图像集V=GX*GY*GT*Q。第二图像集中包含的图像，实际上会是与topk个类别相关的关键图像区域，即从输入视频中采样出了与topk类别相关的局部的关键图像区域。

以识别视频中人物的动作行为为例，实际上，人类的观察过程包括两个阶段: 1)通过观察视频以识别出与最可能的动作行为相关的关键帧、关键区域；2) 减慢关键帧的播放速率，并放大每个关键帧中的关键区域，以获得额外的细节信息，以便进行更精确的预测。受此过程的启发，为了进一步提高视频识别的准确性，需要在时间和空间维度上引入放大/缩小效果，以便更好地检查视频中的细节。

而上述采样参数中的δt、δy、δx即起到上述时间和空间维度上引入放大/缩小效果。δt越小，关键帧的回放速率就越慢，相当于实现了慢放关键帧视频的效果。(δy,δx) 越小，关键区域的分辨率将越大，相当于放大了关键区域。

上述时间上的缩小（即慢放关键帧）效果可以简单理解为：假设原本的由300帧图像构成的视频需要的播放时长为10秒，从原来得到300帧图像中仅采样出16帧图像进行等时长（与播放300帧视频时长相等）的播放，在相等时长内播放的图像帧数量降低，实现慢放效果。

为便于理解空间上的缩放效果，结合图9a-图9c示例性说明。

在图9a中，为便于示意，假设视频中原始的一个图像的尺寸为8*8，并假设设定的关键区域尺寸为4*4，假设δy=1,δx=1，则如图9a中所示，在确定视频中某帧图像为关键帧后，实际上从中采样出的关键区域K1即为这帧图像中原本的一个4*4区域，此时呈现关键区域K1并未进行缩放的效果。

而假设δy=0.5,δx=0.5，则如图9b中所示，在确定视频中某帧图像为关键帧后，实际上从中采样出的关键区域K2即为这帧图像中原本的一个2*2区域，此时呈现出的是关键区域K2被缩小一倍的效果。

而假设δy=1.5,δx=1.5，则如图9c中所示，在确定视频中某帧图像为关键帧后，实际上从中采样出的关键区域K3即为这帧图像中原本的一个6*6区域，此时呈现出的是关键区域K3被放大的效果。

本发明实施例提供的视频识别方法可以在云端来执行，在云端可以部署有若干计算节点（云服务器），每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。

针对本发明实施例提供的方案，云端可以提供有视频识别服务的服务接口，用户通过用户设备调用该服务接口，以向云端触发视频识别请求，该请求中包括需要进行类别识别的视频。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：

获取需要进行类别识别的视频；

将所述视频对应的目标类别反馈所述用户设备。

上述执行过程可以参考前述其他实施例中的相关说明，在此不赘述。

为便于理解，结合图10来示例性说明。用户可以通过图10中示意的用户设备E1调用视频识别服务，以上传包含需要进行类别识别的视频的服务请求。用户调用该服务的服务接口包括软件开发工具包（Software Development Kit，简称SDK）、应用程序接口（Application Programming Interface，简称API）等形式。图10中示意的是API接口的情形。在云端，如图中所示，假设由服务集群E2提供视频识别服务，服务集群E2中包括至少一个计算节点。服务集群E2收到该请求后，执行前述实施例中所述的步骤，以得到视频对应的目标类别，将视频对应的目标类别发送给用户设备E1。用户设备E1基于该反馈结果，可以对视频进行进一步的操作处理，比如分类存储等。

以下将详细描述本发明的一个或多个实施例的视频识别装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图11为本发明实施例提供的一种视频识别装置的结构示意图，如图11所示，该装置包括：视频获取模块11、第一识别模块12、概要生成模块13和第二识别模块14。

视频获取模块11，用于获取需要进行类别识别的视频。

第一识别模块12，用于通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别；其中，所述第一网络模型能够识别出第二数量的类别，所述第二数量的类别中包含所述第一数量的类别。

概要生成模块13，用于根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息。

第二识别模块14，用于基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，所述目标类别为所述第一数量的类别中的一个。

可选地，所述第一识别模块12具体用于：通过第一网络模型中的第一采样器对所述视频进行等间隔采样以得到第一图像集；通过所述第一网络模型中的第一特征提取器对所述第一图像集进行特征提取以得到所述第一特征矩阵，所述第一特征矩阵包括所述第一图像集中图像对应的特征矩阵；将所述第一特征矩阵输入所述第一网络模型中的第一分类器，以得到与所述视频对应的排序靠前的第一数量的类别。

可选地，所述概要信息包括与所述第一数量的类别相关的采样参数和/或与所述第一数量的类别相关的上下文特征，其中，所述采样参数中包括用于定位多个关键帧的第一定位参数以及用于定位各关键帧中关键区域的第二定位参数，所述多个关键帧的数量为预设值，所述关键区域的尺寸为预设值。

可选地，所述概要生成模块13具体用于：确定与所述第一数量的类别对应的类别预测矩阵；拼接所述类别预测矩阵和所述第一特征矩阵；将拼接后的矩阵输入第一概要生成模型，以获取所述第一概要生成模型输出的所述采样参数。

可选地，所述概要生成模块13具体用于：确定与所述第一数量的类别对应的类别预测矩阵；对所述第一特征矩阵进行池化处理；拼接所述类别预测矩阵和池化处理后的特征矩阵；将拼接后的矩阵输入第二概要生成模型，以获取所述第二概要生成模型输出的所述上下文特征。

可选地，所述第二识别模块14具体用于：将所述采样参数和所述视频输入所述第二网络模型中的第二采样器，以使所述第二采样器根据所述采样参数对所述视频进行采样以得到第二图像集，所述第二图像集包括所述多个关键帧中的关键区域；基于所述上下文特征，通过所述第二网络模型中的第二特征提取器对所述第二图像集进行特征提取以得到第二特征矩阵，所述第二特征矩阵包括所述第二图像集中图像对应的特征矩阵；将所述第二特征矩阵输入所述第二网络模型中的第二分类器以得到所述视频对应的目标类别。

可选地，所述第二特征提取器中包括多个特征提取层，所述第二识别模块14具体用于：针对所述第二图像集中的任一图像，获取第一特征提取层输出的第三特征矩阵；拼接所述第三特征矩阵与所述上下文特征；将拼接后的特征矩阵输入特征融合模型，以获得融合后的第四特征矩阵；将所述第四特征矩阵输入第二特征提取层，以获得所述第二特征提取层输出的第二特征矩阵；其中，所述第二特征提取层为所述多个特征提取层中的最后一层，所述第一特征提取层包括除所述第二特征提取层外的至少一层。

可选地，所述第二识别模块14具体用于：根据所述第一定位参数，确定所述多个关键帧在所述视频中对应的时间位置；根据目标关键帧中关键区域对应的第二定位参数，确定所述目标关键帧的关键区域中多行像素和多列像素在所述视频中对应的空间位置，所述目标关键帧为所述多个关键帧中任一个；采用高斯采样，确定由所述视频中的各帧图像对产生所述目标关键帧的所述时间位置而贡献的权重所构成的第一权重向量；采用所述高斯采样，确定由所述目标关键帧中的多行像素对产生目标行像素的空间位置而贡献的权重所构成的第二权重向量，所述目标行像素是所述目标关键帧的关键区域中任一行；采用所述高斯采样，确定由所述目标关键帧中的多列像素对产生目标列像素的空间位置而贡献的权重所构成的第三权重向量，所述目标列像素是所述目标关键帧的关键区域中任一列；根据所述第一权重向量、所述第二权重向量和所述第三权重向量，对所述视频进行采样处理，以得到所述第二图像集。

图11所示装置可以执行前述实施例中的步骤，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图11所示视频识别装置的结构可实现为一电子设备。如图12所示，该电子设备可以包括：处理器21、存储器22、通信接口23。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述实施例中提供的视频识别方法。

在一可选实施例中，用于执行本发明实施例提供的视频识别方法的电子设备可以是任一种用户终端，比如手机、笔记本电脑、PC机，还可以是扩展现实（Extended Reality，简称XR）设备。XR，是虚拟现实、增强现实等多种形式的统称。

该用户终端设备在获取到需要进行类别识别的视频，以及用于对视频进行类别识别的第一网络模型和第二网络模型等模型后，使用这些模型最终得到视频的目标类别，之后根据目标类别对视频进行处理。

其中，根据目标类别对视频的处理，比如按照目标类别对视频进行分组存储，比如将视频关联上给目标类别后上传到服务器，再比如获取与该目标类别相关的一些虚拟元素，以便用户使用这些虚拟元素对视频进行编辑，再比如从服务器下载与该目标类别对应的其他视频，等等。

其中，上述模型的训练，若需要消耗较多的算力，则可以在服务器中进行训练，用户终端可以根据自身的算力能力，从服务器下载这些模型，以用于对视频进行分类识别。

当然，若用户终端的算力不足以支持使用这些模型在本地进行视频的分类识别处理，则可以将上述视频发送至服务器，已由服务器进行分类识别处理，并将识别出的目标类别发送至用户终端。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的视频识别方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频识别方法，其特征在于，包括：

获取需要进行类别识别的视频；

2.根据权利要求1所述的方法，其特征在于，所述通过第一网络模型提取所述视频对应的第一特征矩阵，并根据所述第一特征矩阵确定所述视频对应的排序靠前的第一数量的类别，包括：

通过第一网络模型中的第一采样器对所述视频进行等间隔采样以得到第一图像集；

通过所述第一网络模型中的第一特征提取器对所述第一图像集进行特征提取以得到所述第一特征矩阵，所述第一特征矩阵包括所述第一图像集中图像对应的特征矩阵；

将所述第一特征矩阵输入所述第一网络模型中的第一分类器，以得到与所述视频对应的排序靠前的第一数量的类别。

3.根据权利要求1或2所述的方法，其特征在于，所述概要信息包括与所述第一数量的类别相关的采样参数和/或与所述第一数量的类别相关的上下文特征，其中，所述采样参数中包括用于定位多个关键帧的第一定位参数以及用于定位各关键帧中关键区域的第二定位参数，所述多个关键帧的数量为预设值，所述关键区域的尺寸为预设值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息，包括：

确定与所述第一数量的类别对应的类别预测矩阵；

拼接所述类别预测矩阵和所述第一特征矩阵；

将拼接后的矩阵输入第一概要生成模型，以获取所述第一概要生成模型输出的所述采样参数。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一数量的类别以及所述第一特征矩阵，生成与所述第一数量的类别相关的概要信息，包括：

确定与所述第一数量的类别对应的类别预测矩阵；

对所述第一特征矩阵进行池化处理；

拼接所述类别预测矩阵和池化处理后的特征矩阵；

将拼接后的矩阵输入第二概要生成模型，以获取所述第二概要生成模型输出的所述上下文特征。

6.根据权利要求3所述的方法，其特征在于，所述基于所述概要信息，通过第二网络模型提取所述视频对应的第二特征矩阵，并根据所述第二特征矩阵确定所述视频对应的目标类别，包括：

将所述采样参数和所述视频输入所述第二网络模型中的第二采样器，以使所述第二采样器根据所述采样参数对所述视频进行采样以得到第二图像集，所述第二图像集包括所述多个关键帧中的关键区域构成；

基于所述上下文特征，通过所述第二网络模型中的第二特征提取器对所述第二图像集进行特征提取以得到第二特征矩阵，所述第二特征矩阵包括所述第二图像集中图像对应的特征矩阵；

将所述第二特征矩阵输入所述第二网络模型中的第二分类器以得到所述视频对应的目标类别。

7.根据权利要求6所述的方法，其特征在于，所述第二特征提取器中包括多个特征提取层；

所述基于所述上下文特征，通过所述第二网络模型中的第二特征提取器对所述第二图像集进行特征提取以得到第二特征矩阵，包括：

针对所述第二图像集中的任一图像，获取第一特征提取层输出的第三特征矩阵；

拼接所述第三特征矩阵与所述上下文特征；

将所述第四特征矩阵输入第二特征提取层，以获得所述第二特征提取层输出的第二特征矩阵；其中，所述第二特征提取层为所述多个特征提取层中的最后一层，所述第一特征提取层包括除所述第二特征提取层外的至少一层。

8.根据权利要求6所述的方法，其特征在于，所述第二采样器根据所述采样参数对所述视频进行采样以得到第二图像集的过程，包括：

根据所述第一定位参数，确定所述多个关键帧在所述视频中对应的时间位置；

根据目标关键帧中关键区域对应的第二定位参数，确定所述目标关键帧的关键区域中多行像素和多列像素在所述视频中对应的空间位置，所述目标关键帧为所述多个关键帧中任一个；

采用高斯采样，确定由所述视频中的各帧图像对产生所述目标关键帧的所述时间位置而贡献的权重所构成的第一权重向量；

采用所述高斯采样，确定由所述目标关键帧中的多行像素对产生目标行像素的空间位置而贡献的权重所构成的第二权重向量，所述目标行像素是所述目标关键帧的关键区域中任一行；

采用所述高斯采样，确定由所述目标关键帧中的多列像素对产生目标列像素的空间位置而贡献的权重所构成的第三权重向量，所述目标列像素是所述目标关键帧的关键区域中任一列；

根据所述第一权重向量、所述第二权重向量和所述第三权重向量，对所述视频进行采样处理，以得到所述第二图像集。

9.一种视频识别装置，其特征在于，包括：

视频获取模块，用于获取需要进行类别识别的视频；

10.一种电子设备，其特征在于，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至8中任一项所述的视频识别方法。

11.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至8中任一项所述的视频识别方法。

12.一种视频识别方法，其特征在于，包括：

利用所述视频识别服务对应的处理资源执行如下步骤：

将所述视频对应的目标类别反馈所述用户设备。

13.一种视频识别方法，其特征在于，应用于用户终端，包括：

根据所述目标类别对所述视频进行处理。