CN115424160A

CN115424160A - 小样本视频动作识别方法及装置

Info

Publication number: CN115424160A
Application number: CN202210451550.XA
Authority: CN
Inventors: 徐常胜; 高君宇; 冯洋博
Original assignee: Institute of Automation of Chinese Academy of Science; Zhejiang Lab
Current assignee: Institute of Automation of Chinese Academy of Science; Zhejiang Lab
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-12-02

Abstract

本发明提供一种小样本视频动作识别方法及装置，所述方法包括：提取待识别视频的视频特征；将待识别视频的视频特征输入至胶囊图神经网络，得到胶囊图神经网络输出的待识别视频的动作类别；胶囊图神经网络用于基于待识别视频的视频特征以及待识别视频的视频特征与其它视频的视频特征之间的关系，确定待识别视频的视频特征以及其它视频的视频特征对应胶囊的重要程度，并基于各胶囊的重要程度确定各胶囊的激活值，以及基于各胶囊的激活值确定待识别视频的动作类别。本发明能够进一步提高动作识别的精度。

Description

小样本视频动作识别方法及装置

技术领域

本发明涉及视频识别技术领域，尤其涉及一种小样本视频动作识别方法及装置。

背景技术

动作视频识别在视频内容分析和视频检索中有着重要的意义，尤其随着各种便携视频录入设备和多媒体技术的飞快发展，对视频进行有效且精准的识别已经成为研究的热门方向。

现有的大多数动作视频识别方法都是基于大量的视频训练样本，然而收集和存储大量的视频无疑会花费巨大的人力和物力，因此需要模型能够从少量视频样本中学习到有用的信息对视频进行识别，即进行小样本视频动作识别。

目前，多基于元学习的识别模型以及基于度量学习的识别模型来进行小样本视频动作识别，但上述忽略了局部信息与全局视频特征间的关系，导致小样本视频动作识别精度较低。

发明内容

本发明提供一种小样本视频动作识别方法及装置，用以解决现有技术中小样本视频动作识别精度较低的缺陷。

本发明提供一种小样本视频动作识别方法，包括：

提取待识别视频的视频特征；

将所述待识别视频的视频特征输入至胶囊图神经网络，得到所述胶囊图神经网络输出的所述待识别视频的动作类别；

所述胶囊图神经网络基于小样本视频的视频特征及各视频的动作类别训练得到；所述胶囊图神经网络用于基于所述待识别视频的视频特征以及所述待识别视频的视频特征与其它视频的视频特征之间的关系，确定所述待识别视频的视频特征以及其它视频的视频特征对应胶囊的重要程度，并基于各胶囊的重要程度确定各胶囊的激活值，以及基于各胶囊的激活值确定所述待识别视频的动作类别。

根据本发明提供的一种小样本视频动作识别方法，将所述待识别视频的视频特征输入至胶囊图神经网络，得到所述胶囊图神经网络输出的所述待识别视频的动作类别，包括：

基于所述胶囊图神经网络的图卷积层，以各视频的视频特征作为节点，以视频的视频特征之间的关系为边，并对各层的节点特征进行堆叠，得到各视频的视频特征对应的胶囊；

基于所述胶囊图神经网络的视频间路由层，对各胶囊进行注意力计算，确定各胶囊的重要程度，并基于各胶囊的重要程度对各胶囊的初始姿势矩阵进行重构，得到各胶囊的重构姿势矩阵；

基于所述胶囊图神经网络的视频内路由层，根据各胶囊的重构姿势矩阵，确定各胶囊的激活值；

基于所述胶囊图神经网络的动作分类层，根据各胶囊的激活值，确定所述待识别视频的动作类别。

根据本发明提供的一种小样本视频动作识别方法，各胶囊的重构姿势矩阵基于如下公式确定：

其中，

表示各胶囊的重构姿势矩阵，

表示将各胶囊的初始姿势矩阵

连接起来，

表示各胶囊的初始姿势矩阵，F_att表示两个全连接层，通过计算得到的第i个视频第k个胶囊的重要程度。

根据本发明提供的一种小样本视频动作识别方法，各胶囊的激活值基于如下公式确定：

其中，

表示各胶囊的激活值，W_k表示权重矩阵，U_i表示第i个视频的视频特征对应的胶囊集合。

根据本发明提供的一种小样本视频动作识别方法，各视频特征之间的关系基于如下公式确定：

A_i,j＝MLP(||x_i-x_j||₁)

其中，A_i,j表示第i个视频特征与第j个视频特征之间的关系，x_i表示第i个视频特征，x_j表示第j个视频特征。

根据本发明提供的一种小样本视频动作识别方法，所述胶囊图神经网络的损失函数基于如下公式确定：

其中，Loss表示所述胶囊图神经网络的损失函数，T表示查询集样本数，N表示动作类别数，K表示各类动作对应的支持集样本数，Yi_i表示动作类别，

表示第i个视频的第h个胶囊的激活值。

本发明还提供一种小样本视频动作识别装置，包括：

确定单元，用于提取待识别视频的视频特征；

识别单元，用于将所述待识别视频的视频特征输入至胶囊图神经网络，得到所述胶囊图神经网络输出的所述待识别视频的动作类别；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述小样本视频动作识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述小样本视频动作识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述小样本视频动作识别方法。

本发明提供的小样本视频动作识别方法及装置，胶囊图神经网络基于视频在内部关系以及视频特征之间关系，即考虑了每个视频特征与全局信息之间的关系，从而能够准确确定各视频特征对应胶囊的重要程度。同时，各胶囊的重要程度考虑了不同视频之间对于相同类型属性胶囊的不同敏感度，从而能够基于各胶囊的重要程度准确确定各胶囊的激活值，进而基于用于表征待识别视频内部不同层次胶囊对动作识别的影响程度准确确定待识别视频的动作类别，以提高动作识别的精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的小样本视频动作识别方法的流程示意图；

图2是本发明提供的又一小样本视频动作识别方法的流程示意图；

图3是本发明提供的小样本视频动作识别装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，多基于元学习的识别模型以及基于度量学习的识别模型来进行小样本视频动作识别。基于元学习的方法是利用以往的经验来指导新的学习任务，使得模型具备学会学习的能力，是小样本学习常用的学习方法。基于度量学习的方法也叫做相似性学习，通过衡量样本间的相似性来识别样本的类型。然而，由于传统的基于深度学习的元学习方法和度量学习方法忽略了局部信息与全局视频特征间的关系，导致小样本视频动作识别精度较低。其次，对于小样本动作视频的学习，需要有效地保存和编码与视频相关的属性，例如照明、视点、位置等。然而，传统的基于深度学习的小样本动作视频识别模型以标量的形式对这些属性进行编码，这比使用分布式表示对它们进行编码的效率要低很多。

对此，本发明提供一种小样本视频动作识别方法。图1是本发明提供的小样本视频动作识别方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、提取待识别视频的视频特征；

步骤120、将待识别视频的视频特征输入至胶囊图神经网络，得到胶囊图神经网络输出的待识别视频的动作类别；

胶囊图神经网络基于小样本视频的视频特征及各视频的动作类别训练得到；胶囊图神经网络用于基于待识别视频的视频特征以及待识别视频的视频特征与其它视频的视频特征之间的关系，确定待识别视频的视频特征以及其它视频的视频特征对应胶囊的重要程度，并基于各胶囊的重要程度确定各胶囊的激活值，以及基于各胶囊的激活值确定待识别视频的动作类别。

此处，待识别视频即需要进行动作识别的视频。待识别视频可以是预先拍摄并存储的视频，也可以是实时采集的视频流，本发明实施例对此不作具体限定。

在确定待识别视频后，可以基于ResNet50提取各帧图像的特征，并对所提取的特征进行池化(Pooling)操作后得到待识别视频的视频特征。

接着，将待识别视频的视频特征输入至胶囊图神经网络，由胶囊图神经网络以待识别视频的视频特征和其它视频的视频特征作为节点，以待识别视频的视频特征与其它视频的视频特征之间的关系为节点之间的边，并通过多次图卷积网络，学习节点的特征，将学习到的特征转化为胶囊形式。将多层网络交互后得到的胶囊进行堆叠，得到层次图胶囊。由于胶囊图神经网络以各视频特征作为节点，以各视频特征之间的关系为节点之间的边，从而不仅考虑了各视频特征，而且考虑了每个视频特征与其余视频特征之间的关系，也就是考虑了每个视频特征与全局信息之间的关系，从而能够准确确定各视频对应胶囊的重要程度。

各视频特征对应胶囊的重要程度可以理解为各胶囊的注意力值，也可以理解为各胶囊在用于行动识别时所占的权重。在确定各视频特征对应胶囊的重要程度后，基于各胶囊的重要程度确定各胶囊的激活值，从而可以基于各胶囊的激活值确定待识别视频的动作类别。

需要说明的是，由于不同视频的同一类型属性的胶囊对动作识别的影响程度是不同的，从而本发明实施例以各胶囊的重要程度来表征各胶囊对待识别视频动作识别的影响程度，也就是各胶囊的重要程度考虑了不同视频之间对于相同类型属性胶囊的不同敏感度，从而可以将待识别视频中低分辨率胶囊自适应过来，进而提高动作识别的精度。此外，各胶囊的激活值用于表征待识别视频内部低层次胶囊和高层次胶囊之间的关系，从而在基于各胶囊的激活值进行动作识别时考虑了待识别视频内部不同层次胶囊的影响，进而能够提高动作识别的精度。

可以理解的是，在将待识别视频的视频特征输入至胶囊图神经网络之前，还可以预先训练得到胶囊图神经网络，具体可以通过执行如下步骤实现：首先，收集小样本视频的视频特征，通过人工标注确定各视频的动作类别。随即，基于小样本视频的视频特征及各视频的动作类别对初始网络进行训练，从而得到胶囊图神经网络。

本发明实施例提供的小样本视频动作识别方法，胶囊图神经网络基于视频在内部关系以及视频特征之间关系，即考虑了每个视频特征与全局信息之间的关系，从而能够准确确定各视频特征对应胶囊的重要程度。同时，各胶囊的重要程度考虑了不同视频之间对于相同类型属性胶囊的不同敏感度，从而能够基于各胶囊的重要程度准确确定各胶囊的激活值，进而基于用于表征待识别视频内部不同层次胶囊对动作识别的影响程度准确确定待识别视频的动作类别，以提高动作识别的精度。

基于上述实施例，将待识别视频的视频特征输入至胶囊图神经网络，得到胶囊图神经网络输出的待识别视频的动作类别，包括：

基于胶囊图神经网络的图卷积层，以各视频的视频特征作为节点，以各视频的视频特征之间的关系为边，并对各层的节点特征进行堆叠，得到各视频的视频特征对应的胶囊；

基于胶囊图神经网络的视频间路由层，对各胶囊进行注意力计算，确定各胶囊的重要程度，并基于各胶囊的重要程度对各胶囊的初始姿势矩阵进行重构，得到各胶囊的重构姿势矩阵；

基于胶囊图神经网络的视频内路由层，根据各胶囊的重构姿势矩阵，确定各胶囊的激活值；

基于胶囊图神经网络的动作分类层，根据各胶囊的激活值，确定待识别视频的动作类别。

具体地，图卷积层用于以各视频的视频特征作为节点，以各视频的视频特征之间的关系为边，构建得到图神经网络，并对各层的节点特征进行堆叠，得到各视频特征对应的胶囊。如将每层经过图神经网络交互后的节点特征进行堆叠，共堆叠了l层特征，将特征分为多个胶囊。每个胶囊表示为

其中

是4×4维的姿势矩阵，

为第i个视频的第k个胶囊的激活值。

视频间路由层和视频内路由层可以看作是胶囊图神经网络的双路由机制。对于小样本视频而言，如果在训练过程中存在影响全局分布的胶囊，则泛化能力会受到很大影响，特别是不同视频的同一类型属性的胶囊对模型的判别能力的影响是不同的。对此，本发明实施例基于视频间路由层，考虑不同视频之间对于相同类型属性胶囊的不同敏感度，过滤噪声胶囊从而加强小样本动作视频识别模型的泛化能力，对各胶囊进行注意力计算，确定各胶囊的重要程度，并基于各胶囊的重要程度对各胶囊的初始姿势矩阵进行重构，得到各胶囊的重构姿势矩阵。接着，基于视频内路由层，构建低层次胶囊和高层次胶囊之间的关系，且无需迭代过程，考虑了局部信息和全局信息之间的关系，得到最终动作视频识别结果，也即根据各胶囊的重构姿势矩阵，考虑不同层次胶囊对小样本动作视频分类的影响，确定各胶囊的激活值。

在确定各胶囊的激活值后，采用动作分类层，根据各胶囊的激活值，确定待识别视频的动作类别。由于胶囊图神经网络考虑了每个视频的视频特征与全局信息之间的关系，不同视频之间对于相同类型属性胶囊的不同敏感度，以及待识别视频内部不同层次胶囊对动作识别的影响程度，从而能够准确确定待识别视频的动作类别，以提高动作识别的精度。

基于上述任一实施例，各胶囊的重构姿势矩阵基于如下公式确定：

其中，

表示各胶囊的重构姿势矩阵，

表示将各胶囊的初始姿势矩阵

连接起来，

表示各胶囊的初始姿势矩阵，F_att表示两个全连接层，通过计算得到的第i个视频第k个胶囊的重要程度(也即第i个视频第k个胶囊的注意力值)。

基于上述任一实施例，各胶囊的激活值基于如下公式确定：

其中，

表示各胶囊的激活值，W_k表示权重矩阵，U_i表示第i个视频的视频特征对应的胶囊集合。在确定各胶囊的激活值时，首先采用层归一化操作对各胶囊的重构姿态矩阵

进行归一化，从而可以提高收敛速度。其次路由系数与类的激活值密切相关。具体而言，视频内路由层包括可学习权重矩阵W_k用来计算视频内间路由系数，从而更新每个胶囊的激活值，其中U_i表示第i个视频包含的所有胶囊的集合。

基于上述任一实施例，各视频特征之间的关系基于如下公式确定：

A_i,j＝MLP(||x_i-x_j||₁)

A_i,j为邻接矩阵，为了更好地表示不同视频间的关系，通常使用多层感知器(Multilayer Perceptron，MLP)来构建邻接矩阵A_i,j。之后进行消息传播用于更新节点特征，每一个节点的消息是由其邻居节点以及邻接矩阵计算得到的。可选地，本发明实施例利用包括卷积层和LayerNorm层的消息传递函数来计算消息并更新节点特征。

基于上述任一实施例，胶囊图神经网络的损失函数基于如下公式确定：

其中，Loss表示胶囊图神经网络的损失函数，T表示查询集样本数，N表示动作类别数，K表示各类动作对应的支持集样本数，Y_i表示动作类别(即动作类别标签)，

表示第i个视频的第h个胶囊的激活值。

具体地，支持集可以理解为胶囊图神经网络的训练集，用于训练胶囊图神经网络。查询集可以理解为胶囊图神经网络的测试集，用于测试并更新胶囊图神经网络。

如图2所示，采用特征提取器提取动作视频支持集中各视频的视频特征，并基于各视频的视频特征以及各视频的视频特征之间的关系构建胶囊图神经网络，并对各层的各视频的视频特征进行堆叠，得到各视频对应的胶囊，然后采用双路由机制(视频间路由和视频内路由)，预测得到动作类别，并基于预测动作类别与动作类别标签确定损失函数，直至达到收敛条件，得到胶囊图神经网络。在训练得到胶囊图神经网络后，将动作视频查询集输入至胶囊图神经网络，并按照上式计算损失函数以更新胶囊图神经网络，从而使得胶囊图神经网络能够更加准确进行动作识别。

下面对本发明提供的小样本视频动作识别装置进行描述，下文描述的小样本视频动作识别装置与上文描述的小样本视频动作识别方法可相互对应参照。

基于上述任一实施例，本发明还提供一种小样本视频动作识别装置，如图3所示，该装置包括：

确定单元310，用于提取待识别视频的视频特征；

识别单元320，用于将所述待识别视频的视频特征输入至胶囊图神经网络，得到所述胶囊图神经网络输出的所述待识别视频的动作类别；

基于上述任一实施例，所述识别单元320，包括：

卷积单元，用于基于所述胶囊图神经网络的图卷积层，以各视频的视频特征作为节点，以各视频的视频特征之间的关系为边，并对各层的节点特征进行堆叠，得到各视频的视频特征对应的胶囊；

第一路由单元，用于基于所述胶囊图神经网络的视频间路由层，对各胶囊进行注意力计算，确定各胶囊的重要程度，并基于各胶囊的重要程度对各胶囊的初始姿势矩阵进行重构，得到各胶囊的重构姿势矩阵；

第二路由单元，用于基于所述胶囊图神经网络的视频内路由层，根据各胶囊的重构姿势矩阵，确定各胶囊的激活值；

动作分类单元，用于基于所述胶囊图神经网络的动作分类层，根据各胶囊的激活值，确定所述待识别视频的动作类别。

其中，

表示各胶囊的重构姿势矩阵，

表示将各胶囊的初始姿势矩阵

连接起来，

表示各胶囊的初始姿势矩阵。F_att表示两个全连接层，通过计算得到的第i个视频第k个胶囊的重要程度。

基于上述任一实施例，各胶囊的激活值基于如下公式确定：

其中，

A_i,j＝MLP(||x_i-x_j||₁)

基于上述任一实施例，所述胶囊图神经网络的损失函数基于如下公式确定：

其中，Loss表示所述胶囊图神经网络的损失函数，T表示查询集样本数，N表示动作类别数，K表示各类动作对应的支持集样本数，Y_i表示动作类别，

表示第i个视频的第h个胶囊的激活值。

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440，其中，处理器410，存储器420，通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令，以执行小样本视频动作识别方法，该方法包括：提取待识别视频的视频特征；将所述待识别视频的视频特征输入至胶囊图神经网络，得到所述胶囊图神经网络输出的所述待识别视频的动作类别；所述胶囊图神经网络基于小样本视频的视频特征及各视频的动作类别训练得到；所述胶囊图神经网络用于基于所述待识别视频的视频特征以及所述待识别视频的视频特征与其它视频的视频特征之间的关系，确定所述待识别视频的视频特征以及其它视频的视频特征对应胶囊的重要程度，并基于各胶囊的重要程度确定各胶囊的激活值，以及基于各胶囊的激活值确定所述待识别视频的动作类别。

此外，上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的小样本视频动作识别方法，该方法包括：提取待识别视频的视频特征；将所述待识别视频的视频特征输入至胶囊图神经网络，得到所述胶囊图神经网络输出的所述待识别视频的动作类别；所述胶囊图神经网络基于小样本视频的视频特征及各视频的动作类别训练得到；所述胶囊图神经网络用于基于所述待识别视频的视频特征以及所述待识别视频的视频特征与其它视频的视频特征之间的关系，确定所述待识别视频的视频特征以及其它视频的视频特征对应胶囊的重要程度，并基于各胶囊的重要程度确定各胶囊的激活值，以及基于各胶囊的激活值确定所述待识别视频的动作类别。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的小样本视频动作识别方法，该方法包括：提取待识别视频的视频特征；将所述待识别视频的视频特征输入至胶囊图神经网络，得到所述胶囊图神经网络输出的所述待识别视频的动作类别；所述胶囊图神经网络基于小样本视频的视频特征及各视频的动作类别训练得到；所述胶囊图神经网络用于基于所述待识别视频的视频特征以及所述待识别视频的视频特征与其它视频的视频特征之间的关系，确定所述待识别视频的视频特征以及其它视频的视频特征对应胶囊的重要程度，并基于各胶囊的重要程度确定各胶囊的激活值，以及基于各胶囊的激活值确定所述待识别视频的动作类别。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。