CN112560712B

CN112560712B - 基于时间增强图卷积网络的行为识别方法、装置及介质

Info

Publication number: CN112560712B
Application number: CN202011511511.1A
Authority: CN
Inventors: 谢雪梅; 李佳楠; 赵至夫; 曹玉晗; 潘庆哲; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2023-05-26
Anticipated expiration: 2040-12-18
Also published as: CN112560712A

Abstract

本发明公开了一种基于时间增强图卷积网络的行为识别方法、装置及介质，识别方法具体为：设计动态的时间结构图的点信息；构建时间结构图的边连接，完成动态的时间结构图；构建时间增强图卷积模块；构建时间增强图卷积网络；训练时间增强图卷积网络；对视频中人的行为进行识别。本发明能够获取长时间依赖关系以及时间维度结构信息，提高了行为识别的准确性，同时具有较强的适用性，解决了现有技术中存在的问题。

Description

基于时间增强图卷积网络的行为识别方法、装置及介质

技术领域

本发明属于视频处理技术领域，涉及一种基于时间增强图卷积网络的行为识别方法、装置及介质，可广泛应用于视频检索，人机交互以及视频理解。

背景技术

行为识别是给定一个视频片段，通过分析视频里人的时空动态特征，判断其表现的动作类别。按照输入数据模态的不同，行为识别被分为两大类：基于骨架的行为识别和基于RGB图像的行为识别。相比于RGB模态，骨架模态具有存储量少，对环境变化鲁棒性强等优点。并且骨架是人体的抽象表示，所以骨架模态可以很好的适用于人体行为识别。目前骨架模态的行为识别方法主要有三种实现方式：循环神经网络，卷积神经网络和图卷积网络。基于循环神经网络和卷积神经网络的方法首先需要把原始的骨架数据转换为欧几里得空间下的数据然后再用网络进行特征提取。因为骨架数据是图结构形式的而非欧几里得空间下，上述方法不能充分利用骨架数据的结构信息。图卷积网络可以直接对图结构的骨架数据进行特征提取从而保持了其结构信息。

Sijie Yan在其发表的论文“Spatial Temporal Graph Convolutional Networksfor Skeleton-based Action Recognition”(Thirty-Second AAAI Conference onArtificial Intelligence(AAAI),2018)中提出了一种基于时空图卷积网络的行为识别方法。该方法将骨架数据构造为骨架图结构，骨架图的顶点是骨架点，边是按照人体自然连接的骨头。除此之外，Lei Shi在其发表的论文“Two-Stream Adaptive Graph ConvolutionalNetworks for Skeleton-Based Action Recognition”(IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2019)中提出了一种自适应图结构，以便提取到骨架数据更丰富的结构信息。为了提取视频的时空特征，此类方法通常先利用图卷积来提取空间信息，然后再使用一维时间卷积对时间动态进行建模。该方法存在的不足是：没有充分考虑如何对时间动态的结构信息进行建模，难以提取到长时及短时的动态时间关系。

发明专利(申请号201910967740.5，名称：基于知识嵌入图卷积网络的双人交互识别方法)公开了一种知识嵌入的图卷积网络的双人交互行为识别方法。该方法在知识的引导下建立了知识学习图和知识给定图，以便充分提取到骨架数据在双人交互任务下的空间结构信息。因为该发明所构建的知识引导图结构是单独对每一帧骨架数据进行处理，对于时间维度信息只是利用普通的一维卷积提取时间动态，所以该方法存在的不足是：对于时间跨度长的视频，只能通过层级地堆叠多个一维卷积提取视频的长时依赖关系。这种方法会过分关注局部时间信息从而导致关键的远距离分离时间信息被忽略，因此对行为识别的准确率产生消极影响。

发明内容

为了解决上述问题，本发明提供一种基于时间增强图卷积网络的行为识别方法、装置及介质，能够获取长时间依赖关系以及时间维度结构信息，提高了行为识别的准确性，同时具有较强的适用性，解决了现有技术中存在的问题。

本发明所采用的技术方案是，一种基于时间增强图卷积网络的行为识别方法，具体按照以下步骤进行：

S1，设计动态的时间结构图的点信息：

S11，通过传统图卷积网络提取骨架数据特征，网络层数至少一层，得到的特征维度为C^l×T^l×J，其中l表示网络层数；C^l代表第l层特征的通道数，T^l代表第l层特征时间维的长度，J代表每个人对应的骨架点的数目；

S12，将所得维度为C^l×T^l×J的特征进行变换，得到维度为T^l×(C^l×J)的张量，其中每个时间维度的特征向量

代表时间特征，该时间特征作为动态的时间结构图的点信息，R表示实数域；

S2，构建时间结构图的边连接，完成动态的时间结构图；

S3，构建时间增强图卷积模块；

S4，构建时间增强图卷积网络；

S5，训练时间增强图卷积网络；

S6，对视频中人的行为进行识别。

进一步的，所述步骤S2包括全局时间边信息的构建：

S211，通过1×1卷积操作分别得到通道维度和空间维度的全局特征，其维度为1×1×T^l；

S212，将所得维度为1×1×T^l特征，转换为T^l×1×1，进一步通过1×1卷积操作整合时间维度的全局信息，将维度为T^l×1×1的特征转换为T^l×T^l×1×1，接着通过整形操作将得到的特征整合为T^l×T^l的参数矩阵，其中每个参数矩阵值代表时间结构图中两个点是否存在连接以及其连接强度。

进一步的，所述步骤S2包括局部时间边信息的构建：

计算任意两个时间特征向量

的内积，作为不同时间片段的语义相关性；根据语义相关性的值确定时间结构图中两个点是否连接以及连接的强度。

进一步的，所述步骤S3包括：

S31，构建时间图卷积：

S311，将得到的全局时间边信息、局部时间边信息分别用邻接矩阵表示，将两个邻接矩阵相加进行融合，再将维度为C^l×T^l×J的输入特征和融合的邻接矩阵进行相乘，得到维度不变的新张量，实现对不相邻高维时间特征的整合；

S312，将矩阵相乘结果依次经过卷积层和修正线性单元ReLU，输出特征图维度为

的新张量，得到最终特征表示；

S32，以传统的图卷积网络作为空间卷积，归一化单元BN和修正线性单元ReLU依次连接组成的空间图卷积；

S33，将空间图卷积和时间图卷积进行依次连接，并以残差网络的方式构成时间增强图卷积模块。

进一步的，所述步骤S4具体为：将10个时间增强图卷积模块，一个全局平均池化层和一个全连接层依次连接，构成时间增强图卷积网络。

进一步的，所述时间增强图卷积网络的设置包括：

S41，设置网络结构：

搭建一个12层的时间增强图卷积网络：其结构依次为：输入卷积层→第一图卷积层→第二时间增强图卷积层→第三时间增强图卷积层→第四图卷积层→第五时间增强图卷积层→第六时间增强图卷积层→第七时间增强图卷积层→第八时间增强图卷积层→第九时间增强图卷积层→全局平均池化层→全连接层。

S42，设置参数：

第一层图卷积模块的空间卷积核大小均为1×1，空间卷积步长均为1，时间卷积核大小均设置为1×9，时间卷积步长均设为1；其余9个时间增强图卷积模块，其空间卷积核大小均为1×1，空间卷积步长均为1，时间卷积核大小均设置为1×1，时间卷积步长均设为1，每个卷积块的空间和时间卷积核数量相同；全连接层的输出神经元个数设置为需要识别的行为类别总数。

进一步的，所述步骤S5包括：将训练集的数据输入到时间增强图卷积网络中，用梯度下降法迭代更新时间增强图卷积网络：

S521，将网络的学习率设置为0.1，迭代次数设置为80～120次，每次迭代在训练集中选择骨架样本数目设置为32；

S522，根据数据样本中人体行为类别标签值与时间增强图卷积网络的输出值计算网络的梯度向量

通过所求梯度向量更新网络各层参数，公式如下：

其中，

表示更新后的网络参数值，←表示赋值操作，θ表示更新前的网络参数值；α表示学习率；

S523，判断迭代次数是否达到80～120；若是，则停止对参数的更新，得到训练好的网络；否则，重复操作步骤S522，直到迭代次数达到80～120。

进一步的，所述步骤S6包括：

S61，采集RGB图像序列，每张图像均含有待识别的人的行为；

S62，在RGB图像序列中提取骨架序列，每帧骨架数据包含25个骨架点以及每个骨架点所处位置对应的三维坐标；

S63，将骨架序列输入到训练好的时间增强图卷积网络，输出人体行为的识别结果。

另一方面，本发明提供一种基于时间增强图卷积网络的行为识别设备，包括：

存储器，用于存储可由处理器执行的指令；以及

处理器，用于执行所述指令以实现如权利要求1至7任一项所述的基于时间增强图卷积网络的行为识别方法。

第三方面，本发明提供一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如权利要求1至7任一项所述的基于时间增强图卷积网络的行为识别方法。

本发明的有益效果是：

1、本发明设计了时间结构图，对不相邻的关键时间片段直接建立时间相关性，能够直接提取视频的长时依赖关系并且能够提取时间维度结构信息，从而提高了对视频中基于骨架数据的人体行为识别效果和识别准确性；克服了已有方法仅对骨架序列中相邻时间的信息相关性建模，导致其难以提取长时依赖关系并且无法提取时间维度结构信息的问题。

2、本发明构建了时间增强图卷积网络，通过同时对时空维度特征建立图结构并提取其结构特征，使得网络学习到更具判别性的行为表示特征，提高了人体行为识别的准确率。本发明构建的时间增强图卷积网络对于现有的卷积神经网络具有普适性，可以被插入到现有网络的任意一层，具有较强的适用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明的人体骨架结构示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在行为识别任务中，动态信息远比静态的空间信息更重要，但是时间信息模态的动态变化特点，难以用固定的模式表示，因此定义时间上的结构信息就尤为困难；此外，现有对视频序列建模的方法在研究时空特征时通常是割裂的，即分别研究时间和空间；本发明针对视频行为中复杂的动态关系在时间维度构建了合理的自适应时间结构图，为行为识别中如何对时间维度进行建模提供新的思路；并结合了通道维度和空间维度，克服了现有技术存在的技术困难，并利用图卷积网络提取复杂的时间结构信息，提取时间维度上更丰富的关系，建立长时的动态依赖关系，然后构建时间增强图卷积网络，训练时间增强图卷积网络并对人体行为进行识别，极大程度上提高了人体行为识别的准确性。

本发明实施例一种基于时间增强图卷积网络的行为识别方法，流程如图1所示，具体按照以下步骤进行：

S1，设计动态的时间结构图的点信息：

S11，输入数据维度为X∈R^C×T×J，其中C代表特征图的通道数，T代表视频序列的帧数，J代表每个人对应的骨架点的数目，R表示实数域。为了得到时间维度的高阶语义表示，需要首先通过传统图卷积网络提取骨架数据特征，网络层数至少一层，得到的特征维度为C^l×T^l×J，其中l表示网络层数，C^l代表第l层特征的通道数，T^l代表第l层特征时间维的长度。

S12，将所得维度为C^l×T^l×J的特征进行变换，得到维度为T^l×(C^l×J)的张量。其中每个时间维度的特征向量

代表时间特征，该时间特征作为动态的时间结构图的点信息。

S2，设计时间结构图的边连接：

S21，全局时间边信息。

S211，通过1×1卷积操作，使得通道维度和空间维度的值变为了1，得到通道维度和空间维度的全局特征，其维度为1×1×T^l；1×1×T^l表示维度为1×1×T^l的特征向量。

S212，将所得维度为1×1×T^l特征，转换为T^l×1×1。进一步通过1×1卷积操作整合时间维度的全局信息。将维度为T^l×1×1的特征转换为T^l×T^l×1×1。接着通过整形操作将T^l×T^l×1×1的特征整合为T^l×T^l的参数矩阵，其中每个参数矩阵值代表时间结构图中的点是否存在连接以及其连接强度。该模块的参数在网络训练过程中与其他参数一起迭代更新。网络训练完成时，得到最终参数矩阵值。全局时间边信息在没有任何约束的情况下通过数据集学习得到，得到的边连接是在关注全局信息的情况下学习得到的。以这种方式得到的时间结构图全局性更强。

S22，局部时间边信息。计算任意两个时间特征向量

的内积，将其作为不同时间片段的语义相关性。该语义相关性决定了时间结构图中这两个时间特征向量(即时间结构图的点)是否连接以及连接的强度；全局信息和局部信息具有互补性，通过融合这两种边信息可以提升识别准确率。

S3，构建时间增强图卷积模块：

S31，构建时间图卷积：

S311，将得到的全局时间边信息、局部时间边信息分别用邻接矩阵表示，将两个邻接矩阵相加进行融合，再利用维度为C^l×T^l×J的输入特征和融合后的邻接矩阵进行相乘，得到维度不变的新张量，实现对不相邻高维时间特征的整合；

的新张量，得到最终特征表示；

S32，利用传统的图卷积网络作为空间卷积，归一化单元BN和修正线性单元ReLU依次连接组成的空间图卷积；

S33，将空间图卷积和时间图卷积依次连接，并以残差网络的方式构成时间增强图卷积模块。

S4，构建时间增强图卷积网络：将10个时间增强图卷积模块，一个全局平均池化层和一个全连接层依次连接，构成时间增强图卷积网络；该网络可以更好的对视频序列的时间动态进行建模，通过更好地建模时间动态信息，避免一些无关信息的干扰，行为识别的准确率会被提升。

S41，设置网络结构：

S42，设置参数：

第一层图卷积模块的空间卷积核大小均为1×1，空间卷积步长均为1，时间卷积核大小均设置为1×9，时间卷积步长均设为1。其余9个时间增强图卷积模块，其空间卷积核大小均为1×1，空间卷积步长均为1，时间卷积核大小均设置为1×1，时间卷积步长均设为1，每个卷积块的空间和时间卷积核数量相同，依次设置为64，64，64，64，128，128，128，256，256，256；全连接层的输出神经元个数设置为需要识别的行为类别总数(60个)。

S5，训练时间增强图卷积网络：

S51，本实例选择被广泛使用的NTU数据集进行实验，数据集的下载网址为http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp；该数据集由40个实验对象执行的60个动作类组成，包含56,880个视频样本；数据集中每个骨架样本包括骨架点的坐标信息和该样本对应的行为标签。根据数据集提供的测试准则，按照2：1的比例将数据集划分为训练集和测试集；

S52，将训练集的数据输入到时间增强图卷积网络中，用梯度下降法迭代更新时间增强图卷积网络：

利用所求梯度向量更新网络各层参数，公式如下：

其中，

S6，对视频中人的行为进行识别：

S61，使用相机采集RGB图像序列，每张图像均含有待识别的人的行为；

S62，利用骨架姿态估计工具，在RGB图像序列中提取骨架序列，其中每帧骨架数据包含25个骨架点(如图2所示)以及每个骨架点所处位置对应的三维坐标；图2中的圆圈表示组成的人体骨架关节点，直线表示两两关节点之间的连线。

本发明的效果可通过仿真实例进一步说明：

利用步骤S51中对数据集划分得到的测试集说明本发明的技术效果，测试集共包含18,960个样本，将测试集中的每个数据样本输入到训练好的时间增强图卷积网络得到对该样本的分类结果；

统计测试集中样本分类结果与标签相同的样本数目即分类正确样本数目，分类正确样本数目为16,576，并计算与测试集样本总数的比值得到行为识别的准确率A：

从仿真结果表明得出，本发明对行为识别任务具有准确率高的优点。

本发明实施例所述基于时间增强图卷积网络的行为识别方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明施例所述基于时间增强图卷积网络的行为识别方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于时间增强图卷积网络的行为识别方法，其特征在于，具体按照以下步骤进行：

S1，设计动态的时间结构图的点信息：

S2，构建时间结构图的边连接，完成动态的时间结构图；

S3，构建时间增强图卷积模块；

S4，构建时间增强图卷积网络；

S5，训练时间增强图卷积网络；

S6，对视频中人的行为进行识别；

所述步骤S2包括全局时间边信息的构建：

S212，将所得维度为1×1×T^l特征，转换为T^l×1×1，进一步通过1×1卷积操作整合时间维度的全局信息，将维度为T^l×1×1的特征转换为T^l×T^l×1×1，接着通过整形操作将T^l×T^l×1×1的特征整合为T^l×T^l的参数矩阵，其中每个参数矩阵值代表时间结构图中的两个点是否存在连接以及其连接强度；

所述步骤S2包括局部时间边信息的构建：

计算任意两个时间特征向量

的内积，作为不同时间片段的语义相关性；根据语义相关性的值确定时间结构图中两个点是否连接以及连接的强度；

所述步骤S3包括：

S31，构建时间图卷积：

的新张量，得到最终特征表示；

S33，将空间图卷积和时间图卷积进行依次连接，并以残差网络的方式构成时间增强图卷积模块；

所述步骤S4具体为：将10个时间增强图卷积模块，一个全局平均池化层和一个全连接层依次连接，构成时间增强图卷积网络；

所述时间增强图卷积网络的设置包括：

S41，设置网络结构：

搭建一个12层的时间增强图卷积网络：其结构依次为：输入卷积层→第一图卷积层→第二时间增强图卷积层→第三时间增强图卷积层→第四图卷积层→第五时间增强图卷积层→第六时间增强图卷积层→第七时间增强图卷积层→第八时间增强图卷积层→第九时间增强图卷积层→全局平均池化层→全连接层；

S42，设置参数：

第一层图卷积模块的空间卷积核大小均为1×1，空间卷积步长均为1，时间卷积核的大小均设置为1×9，时间卷积步长均设为1；其余9个时间增强图卷积模块，其空间卷积核大小均为1×1，空间卷积步长均为1，时间卷积核大小均设置为1×1，时间卷积步长均设为1，每个卷积块的空间和时间卷积核数量；全连接层的输出神经元个数设置为需要识别的行为类别总数。

2.根据权利要求1所述的一种基于时间增强图卷积网络的行为识别方法，其特征在于，所述步骤S5包括：将训练集的数据输入到时间增强图卷积网络中，用梯度下降法迭代更新时间增强图卷积网络：

通过所求梯度向量更新网络各层参数，公式如下：

其中，

3.根据权利要求1所述的一种基于时间增强图卷积网络的行为识别方法，其特征在于，所述步骤S6包括：

S61，采集RGB图像序列，每张图像均含有待识别的人的行为；

4.一种基于时间增强图卷积网络的行为识别设备，其特征在于，包括：

存储器，用于存储可由处理器执行的指令；以及

处理器，用于执行所述指令以实现如权利要求1至3任一项所述的基于时间增强图卷积网络的行为识别方法。

5.一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如权利要求1至3任一项所述的基于时间增强图卷积网络的行为识别方法。