CN116524598A

CN116524598A - 一种基于图神经网络的小样本动作识别方法

Info

Publication number: CN116524598A
Application number: CN202310565601.6A
Authority: CN
Inventors: 刘勇; 幸家正; 王蒙蒙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-01

Abstract

一种基于图神经网络的小样本动作识别方法，包括：步骤S1：获取视频，并提取视频特征；步骤S2：视频特征进行重塑和增强得到视频时序特征；步骤S3：将所有视频时序特征进行平均池化操作形成对应的节点特征，并利用节点特征构建边特征，节点特征和边特征分别输入预训练好的图网络进行特征传播和更新，并计算待查询视频和类别支持集视频的任务导向型特征；步骤S4：将任务导向型特征进行类别匹配，得出待查询视频的类别预测值；步骤S5：通过类别预测值识别待查询视频中行为者的动作，本方法实现了在仅有较少标记训练数据的实际场景中可以准确快速识别行为者的动作。

Description

一种基于图神经网络的小样本动作识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于图神经网络的小样本动作识别方法。

背景技术

与普通的动作识别相比，少样本动作识别仅需要有限的标记样本来快速学习新类别。它可以避免与监督任务通常相关的大规模、耗时和劳动密集型数据注释，使其更适用于工业应用。基于这个优势，越来越多的关注点被放在了少样本动作识别领域。然而，由于少样本动作识别仅具有有限的学习材料，学习良好泛化模型是具有挑战性的。

少样本图像分类使用情境训练方法，利用来自类似任务的少量标记训练样本代表大量标记训练样本。近年来，少样本图像分类研究主要可以分为两类：adaptation-based和metric-based。Adaptation-based的方法旨在找到一个可以通过少量标记数据进行微调以适用于未知任务的网络初始化，称为“gradient by gradient”。经典的适应型方法包括元学习(MAML，Model-Agnostic Meta-Learning)、Reptile。Metric-based的方法旨在学习特征空间并通过不同的匹配策略比较任务特征，称为“learning to compare”。代表性方法包括原型网络Prototypical Networks、匹配网络Matching Networks。还有许多方法旨在改进这些方法，或受到这些方法的启发，并属于Metric-based。

少样本动作识别的核心思想类似于少样本图像分类，但由于多了一个时间维度，前者任务比后者更复杂。由于计算资源和实验时间要求很高，Adaptation-based的方法(例如MetaUVFS)在少样本动作识别中受到的关注较少。现有的研究主要应用度量学习，但侧重点不同。一些方法专注于特征表征的增强。例如，STRM采用局部和全局增强模块进行时空建模，HyRSM使用混合关系建模来学习任务特定嵌入，SloshNet利用特征融合体系结构搜索模块来利用低级空间特征以及长期和短期的时序建模模块来编码互补的全局和局部时间表示。其他方法专注于类原型的匹配策略。例如，OTAM提出了一个时间对齐模块来计算查询视频与支持集视频之间的距离值，TRX将每个查询子序列与支持集中所有子序列进行匹配，HyRSM设计了一个双向的平均豪斯多夫度量来更灵活地找到不同视频之间的对应关系。此外，TRPN、MORN专注于将视觉和语义特征结合起来，AMeFu-Net则着眼于利用深度信息辅助学习。然而，现有方法在少量标记样本识别任务中仍然存在准确度不高、不能快速地识别目标动作的问题。

发明内容

针对上述问题，本发明提出了一种基于图神经网络的小样本动作识别方法，实现了在仅有较少标记训练数据的实际场景中就可以准确快速地识别动作。

为了实现上述目的，本发明提供一种基于图神经网络的动作识别方法，包括：

步骤S1：获取待查询视频和类别支持集视频，并分别输入预训练好的特征提取网络进行特征提取得到待查询视频特征和类别支持集视频特征；

步骤S2：将步骤S1中所有的视频特征分别输入预训练好的特征增强网络进行重塑和增强得到视频时序特征；视频时序特征包括待查询视频时序特征和类别支持集视频时序特征；

步骤S3：将步骤S2中所有的视频时序特征进行平均池化操作形成对应的节点特征，并利用节点特征构建边特征，边特征用于表示任意两个节点特征之间的类别相关性，节点特征和边特征分别输入预训练好的图网络进行特征传播和更新，根据图网络传播和更新后输出的结果分别计算待查询视频和类别支持集视频的任务导向型特征；

步骤S4：将待查询视频和类别支持集视频的任务导向型特征通过预训练好的混合匹配网络进行类别匹配，得出待查询视频的类别预测值；

步骤S5：通过类别预测值识别待查询视频中行为者的动作。

优选的，步骤S3包括以下步骤：

步骤S31：将步骤S2中所有的视频时序特征进行平均池化操作形成对应的节点特征，用V表示；并利用节点特征构建边特征，用A表示；

节点特征

v_i表示第i个节点特征，代表图网络内类别支持集视频和待查询视频的节点特征总数，对节点特征进行初始化；

边特征

a_ij表示第i个节点特征和第j个节点特征之间的边特征，代表图网络内类别支持集视频和待查询视频的节点特征总数，使用真实类别标签对边特征进行初始化；

步骤S32：节点特征和边特征分别输入预训练好的L层图网络进行特征传播和更新，传播和更新的步骤具体包括：所有初始节点特征和初始边特征传播至第一层图网络，通过计算输出第一层图网络更新的节点特征和边特征，第一层图网络更新的节点特征和边特征接着传播至下一层图网络继续更新，逐层更新直至最后一层图网络输出最终更新的节点特征和边特征，L为大于等于1的整数；

步骤S33：利用Select操作从最终更新的边特征中选择与待查询视频的节点特征相关的边特征，得到关联边特征；

步骤S34：通过关联边特征计算待查询视频和类别支持集视频的图网络引导特征；

步骤S35：将待查询视频和类别支持集视频的图网络引导特征分别与待查询视频和类别支持集视频的视频时序特征进行融合得到待查询视频和类别支持集视频的任务导向型特征。

优选的，步骤S31中：

对节点特征进行初始化具体为：

表示初始节点特征，/>代表视频时序特征进行平均池化操作后的视频特征，代表类别支持集视频与待查询视频的并集；

对边特征进行初始化具体为：

表示初始边特征，y_i、y_j分别表示第i、j个视频的真实类别，/>代表类别支持集视频的个数。

步骤S32中，节点特征的更新是通过其他层的节点特征和边特征进行加权聚合的过程，具体为：

表示第l层的第i个节点特征，/>表示第l-1层的第j个节点特征，/>是一个多层感知机，用于转换特征；Cat代表矩阵之间的Concat操作；/>和/>分别代表第l-1层第i个节点和第j个节点或第h个节点之间的边特征；

边特征的更新是在节点特征更新后，通过节点特征之间的相似性或不相似性来更新，并且所有边特征值的总和保持不变，具体为：

代表第l层第i个节点和第j个节点之间的边特征，/>是用于计算两个节点特征之间的相似度的函数；/>和/>分别表示第l层的第i个，第j个和第h个节点特征；

步骤S33中，关联边特征具体为：

M_siam代表关联边特征，代表待查询视频的个数，/>代表类别支持集视频的个数，/>代表第L层第i个和第j个节点的边特征，Select的意思是从所有的边特征中选择与每个待查询视频相关的边特征；

步骤S34，关联边特征计算公式包括：

F_S ^graph＝F^graph[:,:N_S,:].Us(1).R(1,T,1,1)

F_Q ^graph＝F^graph[:,N_S:,:].Us(1).R(1,T,1)

其中Us表示unsqueeze操作，R表示repeat操作，f_FFN是一个前馈网络，f_emb是多层感知机，表示矩阵叉乘；/>和/>分别表示表示待查询视频和类别支持集视频的节点特征；/>和/>分别表示待查询视频和类别支持集视频的图网络引导特征；Cat代表矩阵之间的Concat操作；T代表视频的帧数。

优选的，步骤35中的融合公式具体为：

f_fuse是多层感知机，和/>分别表示待查询视频和类别支持集视频的视频时序特征，/>和/>分别表示待查询视频和类别支持集视频的任务导向型特征，Cat代表矩阵之间的Concat操作，Us表示unsqueeze操作。

优选的，步骤S2包括以下步骤：

步骤S21：用F表示视频特征，并将视频特征F分别重塑为F_seq1和F_seq2，为实数集，其中N代表视频的个数，T是视频的帧数，H和W分别是视频特征图的长宽，C代表视频特征图的维度；

步骤S22：将F_seq1输入到时序多层感知机中获取隐式时间特征H_T，将隐式时间特征H_T插入到F_seq1中，使F_seq1包含语义信息，并经过可学习的空间块移位操作得到空间块关系建模特征F_tp，再进行空间注意力操作后得到时序空间块关系建模特征F_tp′；

步骤S23：将F_seq2先经过可学习的通道移位操作，再进行空间注意力操作后得到时间通道关系建模特征F_tc；

步骤S24：将时序空间块关系建模特征F_tp和时间通道关系建模特征F_tc进行权重求和得到视频时序特征具体为：

其中β∈[0,1]是一个超参数。

优选的，步骤S22中，隐式时间特征H_T，具体为：

H_T＝relu(W_t1F_seq1)W_t2+F_seq1

其中W_t1和是用于不同视频帧的时序信息交互的可学习权重；relu为ReLU函数；通过W_t1和W_t2对时序信息进行建模，获得视频特征的时序语义信息；

时序空间块关系建模特征F_tp，具体为：

其中，n是空间块索引，gap是一个正整数，用于控制空间块移位的频率；

步骤S23中，可学习的通道移位操作具体为：

K_c,i表示第c个通道的时序卷积核权重，i表示相对于当前帧的相对位置，i∈{-1,0,1}，是第c个通道的输入特征，/>是第c个通道的输出特征；/>经空间注意力操作后得到通道时序关系建模特征F_tc；其中t和c分别表示视频特征映射的时间维度和通道维度；

优选的，将步骤S21和步骤S22中的视频特征F和空间块关系建模特征F_tp进行重塑，再进行空间注意力操作和加权求和，得到时序空间块关系建模特征F_tp′，具体为：

SA_spa为空间注意力操作，是从视频特征F重塑而来，/> 由空间块关系建模特征F_tp重塑而来，γ∈[0,1]是一个超参数；

优选的，步骤S4包括以下步骤：

步骤S41：用和/>分别表示待查询视频和类别支持集视频的任务导向型特征，对待查询视频的任务导向型特征/>和类别支持集视频的任务导向型特征/>进行帧级豪斯多夫匹配度量操作得到帧级匹配度量/>

步骤S42：对对待查询视频的任务导向型特征和类别支持集视频的任务导向型特征/>进行元组级豪斯多夫匹配度量操作得到元组级匹配度量/>

步骤S43：通过帧级匹配度量和元组级匹配度量/>计算混合匹配度量具体为

其中α∈[0,1]是一个超参数；

步骤S44：通过匹配度量计算得出类别预测值。

优选的，步骤S41中，帧级豪斯多夫匹配度量操作具体为：

和/>分别表示第k类中第m个类别支持集视频的视频特征和第p个待查询视频的视频特征；其中/>表示/>的第i帧特征，q_p,j表示q_p的第j帧特征，T表示/>和q_p的总帧数；

步骤S42中，元组级豪斯多夫匹配度量操作具体为：

和/>分别表示第k类中第m个类别支持集视频的第i帧图像特征和第p个待查询视频的第j帧图像特征；i₁,i₂分别代表类别支持集视频的第i₁,i₂帧的索引，j₁,j₂分别代表待查询视频的第j₁,j₂帧的索引；PE为position encoding,T表示/>和q_p的总帧数；/>为元组的个数。

优选的，对步骤S1中的特征提取网络，步骤S2中的特征增强网络、步骤S3中的图网络和步骤S4中的混合匹配网络进行预训练，预训练步骤包括：

步骤S61：获取待查询视频和类别支持集视频，利用服务器将获取的所有视频分别生成长度为T的训练视频，将所有训练视频输入特征提取网络进行特征提取得到得到待查询视频特征和类别支持集视频特征，其中T≥2；待查询视频表示为Q＝{q₁,q₂,…,q_T}，类别支持集视频表示为类别支持集视频包括N个类别；N为正整数；

步骤S62：将步骤S61中所有的视频特征分别输入特征增强网络进行重塑和增强得到视频时序特征；视频时序特征包括待查询视频时序特征和类别支持集视频时序特征；

步骤S63：将步骤S62中所有的视频时序特征进行平均池化操作形成对应的节点特征，并利用节点特征构建边特征，边特征用于表示任意两个节点特征之间的类别相关性，节点特征和边特征分别输入图网络进行特征传播和更新，根据图网络传播和更新后输出的结果分别计算待查询视频和类别支持集视频的任务导向型特征，并通过图度量获得损失

步骤S64：将待查询视频和类别支持集视频的任务导向型特征通过混合匹配网络进行类别匹配，得出类别预测值和损失

步骤S65：动作识别方法的损失函数为/>和/>的数值和，将/>通过一个标准的交叉熵损失来最小化；

步骤S66：不断优化损失函数并优化网络参数，直至网络收敛，得到预训练好的特征提取网络，预训练好的特征增强网络，预训练好的图网络和预训练好的混合匹配网络。

与现有技术相比，本发明的有益效果是：

本发明提供的一种基于图神经网络的动作识别方法，通过图网络的指导，显性优化待查询视频与类别支持集视频之间类内和类间特征的相关性。没有任何数据集以及任务类型偏好，在识别相似类别动作中表现出惊人的性能。

本发明提出了一个特征增强网络，视频特征分别经可学习的空间块移位操作和可学习的通道移位操作后，各自再进行空间注意力操作得到时序空间块建模特征和时间通道块建模特征，两者经加权求和得到视频时序特征，以本方法得到的视频时序特征表征能力强大，有助于为后续待查询视频和类别支持集视频之间的类别匹配过程打下坚实的基础。

本发明基于混合匹配网络提出了一种混合类原型匹配策略，融合帧级和元组级的类原型匹配结果可以有效处理具有不同风格的视频任务。

本发明方法能够在少量标记样本任务中准确、快速地识别目标动作，在5-way 1-shot以及5-shot任务中，在Kinetics测试集上识别准确率分别达74.9％和87.4％，在SSv2测试集上识别准确率分别达54.5％和69.2％，在HMDB51测试集上识别准确率分别达61.2％和76.9％，在UCF101测试集上识别准确率分别达85.2％和96.3％。

附图说明

图1为本发明构建的特征增强网络示意图；

图2为本发明构建的基于图网络示意图；

图3为本发明一种基于图神经网络的动作识别方法的算法框架示意图；

图4为本发明的图网络边特征最终输出的可视化结果示意图；

图5为本发明在推理阶段的目标动作识别的注意力可视化结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的一种基于图神经网络的小样本动作识别方法，包括以下步骤：

步骤S5：通过类别预测值识别待查询视频中行为者的动作。

本发明提供的一种基于图神经网络的动作识别方法，通过图神经网络的指导，显性优化待查询视频与类别支持集视频之间类内和类间特征的相关性。没有任何数据集以及任务类型偏好，在识别相似类别动作中表现出惊人的性能。

本实施例中，步骤S2包括以下步骤：

步骤S22：将F_seq1输入到时序多层感知机中获取隐式时间特征H_T，隐式时间特征H_T具有丰富视频时空信息，将隐式时间特征H_T插入到F_seq1中，使F_seq1包含语义信息，具体的，单帧视频特征F_seq1包含所有相应视频帧的语义信息，并经过可学习的空间块移位操作得到空间块关系建模特征F_tp，再进行空间注意力操作后得到时序空间块关系建模特征F_tp′；

隐式时间特征H_T，具体为：

H_T＝relu(W_t1F_seq1)W_t2+F_seq1

时序空间块关系建模特征F_tp，具体为：

步骤S23：将F_seq2先经过可学习的通道移位操作，再进行空间注意力操作后得到时间通道关系建模特征F_tc；可学习的通道移位操作是1D通道时序卷积，用于学习每个通道的独立卷积核。

可学习的通道移位操作具体为：

K_c,i表示第c个通道的时序卷积核权重，i表示相对于当前帧的相对位置，i∈{-1,0,1}，是第c个通道的输入特征，/>是第c个通道的输出特征；/>经空间注意力操作后得到通道时序关系建模特征F_tc；其中t和c分别表示视频特征映射的时间维度和通道维度。

其中β∈[0,1]是一个超参数。

本发明提出了一个特征增强网络，视频特征分别经可学习的空间块移位操作和可学习的通道移位操作后，各自再进行空间注意力操作得到时序空间块建模特征和时间通道块建模特征，两者经加权求和得到视频时序特征，以本方法得到的视频时序特征表征能力强大，有助于为后续待查询视频和类别支持集视频之间的类别匹配过程打下坚实的基础。本发明基于特征增强网络构建了一个可学习的互补时序建模单元，如图1所示，具体包括一个时序空间块关系建模模块和一个时序通道关系建模模块，用于在空间和通道域内进行密集时间建模，时序空间块关系建模模块用于对视频特征进行可学习的空间块移位操作，对聚合图像空间块的时序信息方面表现出色，而时序通道关系建模通过对视频特征进行可学习的通道移位操作学习通道的时间偏移量，因此，特征增强网络可以以一种密集且可学习的方式，在空间和通道维度上强化视频特征获取足够的时间关系。

由于以上时序空间块关系建模特征F_tp只在帧内稀疏地收集了不同视频帧的时间信息，牺牲了每个帧内的原始空间信息，为了缓解这个问题，在本实施例中，本发明采用将空间信息和时空注意力结果之间进行加权求和的方式，具体的，将步骤S21和步骤S22中的视频特征F和空间块关系建模特征F_tp进行重塑，再进行空间注意力操作和加权求和，得到时序空间块关系建模特征F_tp′，具体为：

步骤S3包括以下步骤：

步骤S31：将步骤S2中所有的视频时序特征进行平均池化操作形成对应的节点特征，用V表示；并利用节点特征构建边特征，用A表示；如图2所示，本发明基于图网络构建了基于图神经网络引导的类原型建立单元，并使用图网络来指导类原型构建过程中的学习任务导向型特征，显性优化视频特征类内和类间的相关性，具体实现过程如下：

定义图用于构建类别支持集视频/>和查询视频/>之间的关系。

节点特征

v_i表示第i个节点特征，代表图网络内类别支持集视频和待查询视频的节点特征总数，对节点特征进行初始化；对节点特征进行初始化具体为：

表示初始节点特征，/>代表视频时序特征进行平均池化操作后的视频特征，/>代表类别支持集视频与待查询视频的并集；

边特征

代表第i个节点特征和第j个节点特征之间的边特征，/>代表类别支持集视频与待查询视频的并集，使用真实类别标签对边特征进行初始化；对边特征进行初始化具体为：

步骤32：节点特征和边特征分别输入预训练好的L层图网络进行特征传播和更新，传播和更新的步骤具体包括：所有初始节点特征和初始边特征传播至第一层图网络，通过计算输出第一层图网络更新的节点特征和边特征，第一层图网络更新的节点特征和边特征接着传播至下一层图网络继续更新，逐层更新直至最后一层图网络输出最终更新的节点特征和边特征，L为大于等于1的整数；

节点特征的更新是通过其他层的节点特征和边特征进行加权聚合的过程，具体为：

表示第l层的第i个节点特征，/>表示第l-1层的第j个节点特征，/>是一个多层感知机，用于转换特征；Cat代表矩阵之间的Concat操作；/>和/>分别代表第l-1层第i个节点和第j个节点或第h个节点之间的边特征；其中b∈{1,2}，边特征包含节点相关性与相异性两矩阵，b为1时代表相关性矩阵，b为2时代表相异性矩阵；

步骤33：利用Select操作从最终更新的边特征中选择与待查询视频的节点特征相关的边特征，得到关联边特征；Select操作指的是从输出的全部边特征中选择与待查询视频特征相关的边特征，进一步形成了总共个新的边特征M_siam；关联边特征具体为：

M_siam代表关联边特征，代表查询集视频的个数，/>代表支持集视频的个数。/>代表第L层第i个以及第j个节点的边特征，由于我们只需要相关性特征所以取/>即b＝1。Select的意思是从所有的边特征中选择与每个查询视频相关的边特征，以此形成总共/>个新的边特征。

步骤34：通过关联边特征计算待查询视频和类别支持集视频的图网络引导特征；关联边特征计算公式包括：

F_S ^graph＝F^graph[:,:N_S,:].Us(1).R(1,T,1,1)

F_Q ^graph＝F^graph[:,N_S:,:].Us(1).R(1,T,1)

其中Us表示unsqueeze操作，R表示repeat操作，f_FFN是一个前馈网络，f_emb是多层感知机，表示矩阵叉乘；/>和/>分别表示表示待查询视频和类别支持集视频的节点特征；/>和/>分别表示待查询视频和类别支持集视频的图网络引导特征；Cat代表矩阵之间的Concat操作；T代表视频的帧数。任务导向特征F^task是通过融合增强的时序特征/>和通过图网络引导的特征F^graph来获取的，以保留特征的时序性，通过图神经网络的引导，每个待查询视频特征都有其特殊的类别支持集视频特征，并且视频特征的类内和类间相关性得到显性优化。

融合公式具体为：

其中f_fuse是多层感知机，和/>分别表示待查询视频和类别支持集视频的视频时序特征，/>和/>分别表示待查询视频和类别支持集视频的任务导向型特征，Cat代表矩阵之间的Concat操作，Us表示unsqueeze操作。

步骤S4包括以下步骤：

对于帧级匹配，采用双向均值豪斯多夫度量进行操作，帧级豪斯多夫匹配度量操作具体为：

步骤S42：对对待查询视频的任务导向型特征和类别支持集视频的任务导向型特征/>进行元组级豪斯多夫匹配度量操作得到元组级匹配度量/>步骤S42中，对于元组级别的原型匹配，将两帧合并成一个元组，并遍历所有组合以获得T帧的/>个元组，元组级豪斯多夫匹配度量操作具体为：

其中α∈[0,1]是一个超参数；

步骤S44：通过匹配度量计算得出类别预测值。

对步骤S1中的特征提取网络，步骤S2中的特征增强网络、步骤S3中的图网络和步骤S4中的混合匹配网络进行预训练，预训练步骤包括：

步骤S61：获取待查询视频和类别支持集视频，利用服务器将获取的所有视频分别生成长度为T的训练视频，将所有训练视频输入特征提取网络进行特征提取得到得到待查询视频特征和类别支持集视频特征，其中T≥2；待查询视频表示为Q＝{q₁,q₂,…,q_T}，类别支持集视频表示为类别支持集视频包括N个类别；N为正整数；在本实施例中，T＝8，N＝5，训练中可以使用一些基本的方法进行数据增强，例如随机水平翻转、裁剪和颜色抖动等。

步骤S63：将步骤S62中所有的视频时序特征进行平均池化操作形成对应的节点特征，并利用节点特征构建边特征，边特征用于表示任意两个节点特征之间的类别相关性，节点特征和边特征分别输入图网络进行特征传播和更新，根据图网络传播和更新后输出的结果分别计算待查询视频和类别支持集视频的任务导向型特征，并通过图度量获得损失如图3所示；

利用本实施例的小样本动作识别方法进行识别任务，利用服务器执行测试视频片段生成单元，对一个视频的8个帧进行了均匀采样，作为输入，并在测试中对输入图片进行中心裁剪；使用ResNet-50作为特征提取器，并使用ImageNet预训练权重。对于互补时序建模单元，W_t1,W_t2是两个单层多层感知机，而gap被设置为2。对于基于图神经网络引导的类原型建立单元，应用一层图网络(GNN)来获取任务导向型特征。利用本发明的小样本动作识别方法将测试视频中的待查询视频分配到与待查询视频最接近的的类别，通过/>计算得出类别预测值，再通过类别预测值识别待查询视频中行为者的动作。

本发明可视化了识别任务过程中图网络边特征最终输出的结果。如图4所示，图网络也称图神经网络，边特征的值可以被视为两个视频特征之间的相似度得分。从可视化结果来看，作为指导的图神经网络可以很好地优化视频特征的类内和类间相关性，其中更新后的边特征非常接近对应于真实类别标签的相似度矩阵。同时，通过在准确率计算区域使用边特征获得的图神经网络中间输出识别结果也能够达到较高精度。

本发明可视化了的识别任务中目标动作识别的注意力可视化结果图。如图5所示为本发明目标动作识别的注意力可视化结果，与左侧原始RGB图像相比，没有使用可学习的互补时序建模模块生成的注意力图(在中间)与使用的可学习的互补时序建模模块生成的注意力图(在右侧)形成对比。没有使用可学习的互补时序建模模块生成的注意力图包含许多不相关或分散注意力的区域。例如，“骑马”动作中的许多帧在明显关注背景和无关紧要的物体，从而转移了对动作的关注。相反，使用可学习的互补时序建模模块生成的注意力图与主体动作强相关。具体而言，“滑雪”动作中的帧在关注滑雪者，“网球挥拍”动作中的帧关注网球选手。这些观察结果提供了可学习的互补时序建模模块增强时空表征效果的实证证据。

在本发明识别任务中，本发明使系统能够在少量标记样本任务中准确、快速地识别目标动作，在5-way 1-shot以及5-shot任务中(1-shot任务指的是支持集每个类别样本只有1个，5-shot任务指的是支持集每个类别样本有5个)，在Kinetics测试集上识别准确率分别达74.9％和87.4％，在SSv2测试集上识别准确率分别达54.5％和69.2％，在HMDB51测试集上识别准确率分别达61.2％和76.9％，在UCF101测试集上识别准确率分别达85.2％和96.3％。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他实施例中。

Claims

1.一种基于图神经网络的动作识别方法，包括：

步骤S2：将步骤S1中所有的视频特征分别输入预训练好的特征增强网络进行重塑和增强得到视频时序特征；所述视频时序特征包括待查询视频时序特征和类别支持集视频时序特征；

步骤S3：将步骤S2中所有的视频时序特征进行平均池化操作形成对应的节点特征，并利用节点特征构建边特征，所述边特征用于表示任意两个节点特征之间的类别相关性，所述节点特征和边特征分别输入预训练好的图网络进行特征传播和更新，根据图网络传播和更新后输出的结果分别计算待查询视频和类别支持集视频的任务导向型特征；

步骤S4：将所述待查询视频和类别支持集视频的任务导向型特征通过预训练好的混合匹配网络进行类别匹配，得出待查询视频的类别预测值；

步骤S5：通过类别预测值识别待查询视频中行为者的动作。

2.根据权利要求1所述的一种基于图神经网络的动作识别方法，其特征在于，所述步骤S3包括以下步骤：

节点特征

边特征

步骤32：所述节点特征和边特征分别输入预训练好的L层图网络进行特征传播和更新，传播和更新的步骤具体包括：所有初始节点特征和初始边特征传播至第一层图网络，通过计算输出第一层图网络更新的节点特征和边特征，第一层图网络更新的节点特征和边特征接着传播至下一层图网络继续更新，逐层更新直至最后一层图网络输出最终更新的节点特征和边特征，L为大于等于1的整数；

3.根据权利要求2所述的一种基于图神经网络的动作识别方法，其特征在于，所述步骤S31中：

对节点特征进行初始化具体为：

对边特征进行初始化具体为：

表示初始边特征，y_i、y_j分别表示第i、j个视频的真实类别，/>代表类别支持集视频的个数；

所述步骤S32中，节点特征的更新是通过其他层的节点特征和边特征进行加权聚合的过程，具体为：

步骤S33中，关联边特征具体为：

M_siam代表关联边特征，代表待查询视频的个数，/>代表类别支持集视频的个数，/>代表第L层第i个和第j个节点的边特征；

步骤S34，关联边特征计算公式包括：

F_S ^graph＝F^graph[:,:N_S,:].Us(1).R(1,T,1,1)

F_Q ^graph＝F^graph[:,N_S:,:].Us(1).R(1,T,1)

其中Us表示unsqueeze操作，R表示repeat操作，f_FFN是一个前馈网络，f_emb是多层感知机，表示矩阵叉乘；/>和/>分别表示表示待查询视频和类别支持集视频的节点特征；和/>分别表示待查询视频和类别支持集视频的图网络引导特征；Cat代表矩阵之间的Concat操作；T代表视频的帧数。

4.根据权利要求2所述的一种基于图神经网络的动作识别方法，其特征在于，所述步骤S35中的融合公式具体为：

f_fuse是多层感知机，和/>分别表示待查询视频和类别支持集视频的视频时序特征，和/>分别表示待查询视频和类别支持集视频的任务导向型特征，Cat代表矩阵之间的Concat操作，Us表示unsqueeze操作。

5.根据权利要求1所述的一种基于图神经网络的动作识别方法，其特征在于，所述步骤S2包括以下步骤：

步骤S22：将F_seq1输入到时序多层感知机中获取隐式时间特征H_T，将所述隐式时间特征H_T插入到F_seq1中，使F_seq1包含语义信息，并经过可学习的空间块移位操作得到空间块关系建模特征F_tp，再进行空间注意力操作后得到时序空间块关系建模特征F_tp′；

其中β∈[0,1]是一个超参数。

6.根据权利要求5所述的一种基于图神经网络的动作识别方法，其特征在于，所述步骤S22中，隐式时间特征H_T，具体为：

H_T＝relu(W_t1F_seq1)W_t2+F_seq1

所述时序空间块关系建模特征G_tp，具体为：

步骤S23中，可学习的通道移位操作具体为：

K_c,i表示第c个通道的时序卷积核权重，i表示相对于当前帧的相对位置，i∈{-1,0,1}，是第c个通道的输入特征，/>是第c个通道的输出特征；/>经空间注意力操作后得到通道时序关系建模特征F_tc。

7.根据权利要求5所述的一种基于图神经网络的动作识别方法，其特征在于，将步骤S21和步骤S22中的视频特征F和空间块关系建模特征G_tp进行重塑，再进行空间注意力操作和加权求和，得到时序空间块关系建模特征G_tp′，具体为：

SA_spa为空间注意力操作，是从视频特征G重塑而来，/> 由空间块关系建模特征F_tp重塑而来，γ∈[0,1]是一个超参数。

8.根据权利要求1所述的一种基于图神经网络的动作识别方法，其特征在于：

所述步骤S4包括以下步骤：

步骤S42：对对待查询视频的任务导向型特征和类别支持集视频的任

务导向型特征进行元组级豪斯多夫匹配度量操作得到元组级匹配度量/>

步骤S43：通过帧级匹配度量和元组级匹配度量/>计算混合匹配度量/>具体为：

其中α∈[0,1]是一个超参数；

步骤S44：通过匹配度量计算得出类别预测值。

9.根据权利要求8所述的一种基于图神经网络的动作识别方法，其特征在于，所述步骤S41中，帧级豪斯多夫匹配度量操作具体为：

步骤S42中，元组级豪斯多夫匹配度量操作具体为：

和/>分别表示第k类中第m个类别支持集视频的视频特征和第p个待查询视频的视频特征；其中/>表示/>的第i帧特征，q_p,j表示q_p的第j帧特征；i₁,i₂分别代表类别支持集视频的第i₁,i₂帧的索引，j₁,j₂分别代表待查询视频的第j₁,j₂帧的索引；PE为position encoding,T表示/>和q_p的总帧数；/>为元组的个数。

10.根据权利要求1所述的一种基于图神经网络的动作识别方法，其特征在于：对步骤S1中的特征提取网络，步骤S2中的特征增强网络、步骤S3中的图网络和步骤S4中的混合匹配网络进行预训练，预训练步骤包括：

步骤S61：获取待查询视频和类别支持集视频，利用服务器将获取的所有视频分别生成长度为T的训练视频，将所有训练视频输入特征提取网络进行特征提取得到得到待查询视频特征和类别支持集视频特征，其中T≥2；待查询视频表示为Q＝{q₁,q₂,…,q_T}，类别支持集视频表示为S＝{s₁,s₂,…,s_T}，所述类别支持集视频包括N个类别；N为正整数；

步骤S62：将步骤S61中所有的视频特征分别输入特征增强网络进行重塑和增强得到视频时序特征；所述视频时序特征包括待查询视频时序特征和类别支持集视频时序特征；

步骤S63：将步骤S62中所有的视频时序特征进行平均池化操作形成对应的节点特征，并利用节点特征构建边特征，所述边特征用于表示任意两个节点特征之间的类别相关性，所述节点特征和边特征分别输入图网络进行特征传播和更新，根据图网络传播和更新后输出的结果分别计算待查询视频和类别支持集视频的任务导向型特征，并通过图度量获得损失

步骤S64：将所述待查询视频和类别支持集视频的任务导向型特征通过混合匹配网络进行类别匹配，得出类别预测值和损失