CN112381004B

CN112381004B - 一种基于骨架的双流自适应图卷积网络行为识别方法

Info

Publication number: CN112381004B
Application number: CN202011282994.2A
Authority: CN
Inventors: 田联房; 余陆斌; 杜启亮
Original assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2023-08-08
Anticipated expiration: 2040-11-17
Also published as: CN112381004A

Abstract

本发明公开了一种基于骨架的双流自适应图卷积网络行为识别方法，包括步骤：1)视频图像采集；2)标注视频中人体的骨架信息和行为类别，构建训练集；3)构建自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt；4)利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块；5)利用自适应图卷积模块构建自适应图卷积网络；6)利用自适应图卷积网络构建双流自适应图卷积网络；7)利用训练集训练双流自适应图卷积网络；8)利用训练得到的双流自适应图卷积网络对视频图像中的人体行为进行识别。通过本发明可有效提升人体行为种类识别的准确度，为各种计算机视觉处理应用打下了良好的基础。

Description

一种基于骨架的双流自适应图卷积网络行为识别方法

技术领域

本发明涉及图像模式识别和深度神经网络的技术领域，尤其是指一种基于骨架的双流自适应图卷积网络行为识别方法。

背景技术

目前，视频中的人体行为识别是目前计算机视觉领域中最活跃的研究主题之一，它在智能视频监控、人机交互、基于内容的视频检索、虚拟现实等方面具有广泛的应用前景和潜在经济价值。

传统的行为识别算法多用RGB视频作为输入，但当RGB视频中背景动态干扰较多，光照不稳定，噪声严重时，传统行为识别算法的效果会受到影响。近年来，与传统的使用RGB视频进行识别的方法相比，基于骨架的行为识别因其对动态环境和复杂背景的适应性强而越来越受到关注。

提取视频中人体骨架关节为顶点，其在人体中的自然连接为边作为行为识别算法输入能大大降低视频中的环境干扰对算法识别率的影响。现有的基于骨架的行为识别算法输入的骨架连接是根据人体自然连接定义的，没有充分利用骨架关节之间的信息，同时也没有充分利用关节的前后帧信息，因此急需提出一种自适应调节骨架连接识别并且充分利用空间时间信息的自适应方法。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于骨架的双流自适应图卷积网络行为识别方法，该方法通过搜集大量视频中人体行为的骨架数据，并基于图卷积网络技术，充分利用骨架的时空相关性信息，实现了有效识别视频中人体行为的目的。

为实现上述目的，本发明所提供的技术方案为：一种基于骨架的双流自适应图卷积网络行为识别方法，包括以下步骤：

1)视频图像采集；

2)标注视频中人体的骨架信息和行为类别，构建训练集；

3)构建自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt；

4)利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块；

5)利用自适应图卷积模块构建自适应图卷积网络；

6)利用自适应图卷积网络构建双流自适应图卷积网络；

7)利用训练集训练双流自适应图卷积网络；

8)利用训练得到的双流自适应图卷积网络对视频图像中的人体行为进行识别。

在步骤1)中，利用摄像头拍摄包含不同人体行为的视频，其视角要求为从人体正面拍摄，并将人体放在画面正中区域。

在步骤2)中，利用OpenPose算法检测视频中的人体骨架关键点，利用分区策略构建训练集；包括以下步骤：

2.1)提取人体骨架关键点

利用OpenPose算法检测视频中的人体骨架关键点，记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签，坐标信息x_i记录为大小T×V的矩阵，记录规则为：x_i的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积；行为标签记录为T×1的向量y_i，遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签/>其中，/>表示实数域，N为视频中不同行为的人体总数，T为行为经历的视频帧数，V为人体骨架关键点个数；

得到人体骨架关键点关节训练集X^J后构建人体骨架关键点骨骼训练集构建规则如下：X^B的第i元素为第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量，因第一个关键点没有前一序号关键点，X^B的第一个元素为/>其中/>为X^J的平均值；

2.2)根据分区策略构建训练集

根据分区策略将X^J扩展得到分区骨架关键点关节训练集根据分区策略将X^B扩展得到分区骨架关键点骨骼训练集/>K_v是子集总数；

分区策略为：选取骨架中的任一关键点为根节点，遍历所有骨架中的所有点，以根节点直接相连的邻域为分区范围，将根节点分为子集合0，分区范围内比根节点更接近骨架重心的邻节点(近心点)集合为子集合1，分区范围内比根节点更远离骨架重心的邻节点(远心点)集合为子集合2；分区策略公式如下：

式中，label_ti(v_tj)表示第t帧中第i个根节点邻域中第j个点的子集标签，v_tij为第t帧中第i个根节点邻域中的第j个点，其中，t∈[1,T]，i∈[1,V]，r_ti为第t帧中第i个根节点到t帧骨架重心的距离，r_tj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。

在步骤3)中，自适应空间域图卷积单元Convs构建过程为：根据输入特征图得到邻接矩阵和空间注意力矩阵Spatial，利用自适应系数加权后与输入特征图相乘，叠加通道后经过1×1空间域图卷积得到输出特征图；

自适应空间域图卷积单元Convs实现用公式表示如下：

式中，f_in、f_out表示输入特征图和输出特征图，α为随着训练迭代更新的空间自适应系数，A_k是根据人体骨架连接关系得到的邻接矩阵，Spatial是空间注意力矩阵，W_s ^k是空间域1×1卷积的权重，k是子集序号，K_v是子集总数；

A_k的计算规则为：骨架中第n个节点和第m个节点若相连，则A_k中第n行第m列元素为1，否则为0，当n＝m时，第n行第m列为1；空间注意力矩阵Spatial的计算规则为：对坐标信息x_i的第一维计算方差，归一化后得到大小为1×V的变化幅度向量Δ，根据变化幅度向量Δ得到大小为V×V的空间注意力矩阵Spatial，V为人体骨架关键点个数；具体规则如下公式：Spatial(n,m)＝Δ(n)+Δ(m)；其中Spatial(n,m)表示Spatial中的第n行第m列元素；Δ(n)，Δ(m)表示Δ中的第n，m个元素；

自适应时间域图卷积单元Convt的构建过程为：据输入特征图得到时间注意力矩阵Temporal，利用自适应系数和单位矩阵E加权后，与输入特征图相乘，经过卷积核大小为K_t×1时间域图卷积得到输出特征图；Temporal的计算规则为：对坐标信息x_i第二维计算方差，归一化后得到大小为T×1的时间注意力矩阵，T为行为经历的视频帧数；

自适应时间域图卷积单元Convt实现用公式表示：

f_out＝W_tf_in(βE+(1-β)Temporal)

式中，f_in、f_out表示输入特征图和输出特征图，Temporal是时间注意力矩阵，β为随着训练迭代更新的空间自适应系数，E为单位矩阵，W_t是时间域K_t×1图卷积权重，K_t×1为卷积核大小。

在步骤4)中，利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块，用于处理输入特征图f_in，输入特征图f_in通过自适应图卷积模块得到输出特征图f_out；所述自适应图卷积模由自适应空间域图卷积单元Convs、BN层、Relu层、Dropout层、自适应时间域图卷积单元Convt、BN层和Relu层依次连接而成。

在步骤5)中，利用自适应图卷积模块构建自适应卷积网络，用于处理输入数据集Data，输入数据集Data通过自适应图卷积网络得到预测结果Label；所述自适应图卷积网络由BN层、9个自适应图卷积模块L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。

在步骤6)中，利用自适应图卷积网络构建双流自适应卷积网络，用于处理两个输入数据集，两个输入数据集通过双流自适应图卷积网络得到预测结果；所述双流自适应卷积网络包含两路自适应图卷积网络，具体为：第一路自适应图卷积网络(Joint-Stream)用于处理关键点关节数据(Joint data)，该网络得到的预测结果为P^J；第二路自适应卷积网络(Bone-Stream)用于处理关键点骨骼数据(Bone data)，该网络得到的预测结果为P^B；将两路自适应图卷积网络的预测结果加权得到预测结果P；加权规则为：P＝wP^J+(1-w)P^B，其中，w是预测结果加权系数。

在步骤7)中，将分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>和训练集标签Y输入双流自适应图卷积网络进行训练，迭代训练Z轮后，得到训练好的双流自适应图卷积网络。

在步骤8)中，利用双流自适应卷积网络进行行为识别，具体操作是：利用OpenPose算法提取待检测视频中的人体骨架关键点，构建测试集和标签，再将测试集和标签输入到训练好的双流自适应图卷积网络得到预测结果。

本发明与现有技术相比，具有如下优点与有益效果：

现有的基于图卷积网络识别方法不能有效地对时空图中的空间信息和运动信息进行融合实现端到端的训练，而本发明构建的自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt对运动姿态和骨架关节点在时空域上进行特征融合并自适应特征增强，针对时域内存在的大量干扰信息，构建时间注意力矩阵Temporal进行有效的抑制，同时构建空间注意力矩阵Spatial进一步提高识别的性能。总之，本发明在多个大型骨架数据集上进行实验，与常用方法进行比较，实时性和识别准确率上均有明显提高。

附图说明

图1为人体骨架关键点示意图。

图2为分区策略示意图。

图3为自适应空间域图卷积单元Convs架构图。

图4为自适应图卷积模块架构图。

图5为自适应图卷积网络架构图。

图6为双流自适应图卷积网络架构图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1至图6所示，本实施例所提供的基于骨架的双流自适应图卷积网络行为识别方法，包括以下步骤：

1)利用摄像头拍摄包含不同人体行为的视频，其视角要求为从人体正面拍摄，并将人体放在画面正中区域。本实施例中选用的摄像头分辨率为1080p。

2)利用OpenPose算法检测视频中的人体骨架关键点，利用分区策略构建训练集，包括以下步骤：

2.1)提取人体骨架关键点

利用OpenPose算法检测视频中的人体骨架关键点，记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签，人体骨架关键点序号如图1所示；坐标信息x_i记录为大小T×V的矩阵，记录规则为：x_i的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积。行为标签记录为T×1的向量y_i，遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签其中，/>表示实数域，N为视频中不同行为的人体总数，T为行为经历的视频帧数，V为人体骨架关键点个数；本实施例中N＝10000，T＝300，V＝14。

得到人体骨架关键点关节训练集X^J后构建人体骨架关键点骨骼训练集构建规则如下：X^B的第i元素为第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量，因第一个关键点没有前一序号关键点，X^B的第一个元素为/>其中/>为X^J的平均值。

2.2)根据分区策略构建训练集

根据分区策略将X^J扩展得到分区骨架关键点关节训练集根据分区策略将X^B扩展得到分区骨架关键点骨骼训练集/>K_v是子集总数。在本实施例中K_v＝3。

一个分区策略例子示意图如图2所示，图中4号节点为根节点，灰色实线包围区域为与4号节点直接相连的邻域，虚线表示各个节点与重心的距离，根据各个节点与重心的距离划分，4号节点为子集0，3号节点和5号节点为远心点子集2，不存在近心点子集1。

3)构建自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt，具体情况如下：

自适应空间域图卷积单元Convs构建过程为：根据输入特征图得到邻接矩阵和空间注意力矩阵Spatial，利用自适应系数加权后与输入特征图相乘，叠加通道后经过1×1空间域图卷积得到输出特征图；

自适应空间域图卷积单元Convs实现用公式表示如下：

式中，f_in、f_out表示输入特征图和输出特征图，α为随着训练迭代更新的空间自适应系数，A_k是根据人体骨架连接关系得到的邻接矩阵，Spatial是空间注意力矩阵，W_s ^k是空间域1×1卷积的权重，k是子集序号；

自适应空间域图卷积单元Convs架构如图3所示。在本实施例中A_k为14×14矩阵，C_in，C_out为输入特征图通道数和输出特征图通道数，/>所有元素初始化为0，α初始化为1。

自适应时间域图卷积单元Convt实现用公式表示：

f_out＝W_tf_in(βE+(1-β)Temporal)

在本实施例中C_in，C_out为输入特征图通道数和输出特征图通道数，K_t＝9，W_t所有元素初始化为0，β初始化为1。

4)利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块，用于处理输入特征图f_in，输入特征图f_in通过自适应图卷积模块得到输出特征图f_out；所述自适应图卷积模由自适应空间域图卷积单元Convs、BN层、Relu层、Dropout层、自适应时间域图卷积单元Convt、BN层和Relu层依次连接而成。

自适应图卷积模块架构如图4所示。在本实施例中，Dropout层中丢弃率为0.5。

5)利用自适应图卷积模块构建自适应卷积网络，用于处理输入数据集Data，输入数据集Data通过自适应图卷积网络得到预测结果Label；所述自适应图卷积网络由BN层、9个自适应图卷积模块L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。

自适应图卷积网络架构如图5所示。在本实施例中，L1的输入通道为3，输出通道为64，步长为1，L2和L3的输入通道为64，输出通道为64，步长为1。L4的输入通道为64，输出通道为128，步长为2，L5和L6的输入通道为128，输出通道为128，步长为1。L7的输入通道为128，输出通道为256，步长为2，L8和L9的输入通道为256，输出通道为256，步长为1。

6)利用自适应图卷积网络构建双流自适应卷积网络，用于处理两个输入数据集，两个输入数据集通过双流自适应图卷积网络得到预测结果；所述双流自适应卷积网络包含两路自适应图卷积网络，具体为：第一路自适应图卷积网络(Joint-Stream)用于处理关键点关节数据(Joint data)，该网络得到的预测结果为P^J；第二路自适应卷积网络(Bone-Stream)用于处理关键点骨骼数据(Bone data)，该网络得到的预测结果为P^B；将两路自适应图卷积网络的预测结果加权得到双流自适应图卷积网络预测结果P；加权规则如下：P＝wP^J+(1-w)P^B，其中w是预测结果加权系数。

双流自适应卷积网络架构如图6所示。在本实施例中，w＝0.5。

7)训练双流自适应卷积网络，具体操作是：将分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>和训练集标签Y输入双流自适应图卷积网络进行训练，迭代训练Z轮后，得到训练好的双流自适应图卷积网络。

在本实施例中训练参数如下：迭代次数Z＝50，学习率为0.1，当迭代次数到30次时学习率除以10，当迭代次数到40次时学习率再除以10，权重衰减为0.0001，梯度下降策略为Nesterov算法。

8)利用训练好的双流自适应卷积网络进行行为识别，具体步骤如下：利用OpenPose算法提取待检测视频中的人体骨架关键点，构建测试集和标签，构建方法如同步骤2)；将测试集和标签输入到训练好的双流自适应图卷积网络模型即可得到预测结果。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于骨架的双流自适应图卷积网络行为识别方法，其特征在于，包括以下步骤：

1)视频图像采集；

2)标注视频中人体的骨架信息和行为类别，构建训练集；

自适应空间域图卷积单元Convs实现用公式表示如下：

式中，f_in、f_out表示输入特征图和输出特征图，α为随着训练迭代更新的空间自适应系数，A_k是根据人体骨架连接关系得到的邻接矩阵，Spatial是空间注意力矩阵，是空间域1×1卷积的权重，k是子集序号，K_v是子集总数；

自适应时间域图卷积单元Convt实现用公式表示：

f_out＝W_tf_in(βE+(1-β)Temporal)

式中，f_in、f_out表示输入特征图和输出特征图，Temporal是时间注意力矩阵，β为随着训练迭代更新的空间自适应系数，E为单位矩阵，W_t是时间域K_t×1图卷积权重，K_t×1为卷积核大小；

5)利用自适应图卷积模块构建自适应图卷积网络；

6)利用自适应图卷积网络构建双流自适应图卷积网络；

7)利用训练集训练双流自适应图卷积网络；

2.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法，其特征在于：在步骤1)中，利用摄像头拍摄包含不同人体行为的视频，其视角要求为从人体正面拍摄，并将人体放在画面正中区域。

3.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法，其特征在于：在步骤2)中，利用OpenPose算法检测视频中的人体骨架关键点，利用分区策略构建训练集；包括以下步骤：

2.1)提取人体骨架关键点

2.2)根据分区策略构建训练集

分区策略为：选取骨架中的任一关键点为根节点，遍历所有骨架中的所有点，以根节点直接相连的邻域为分区范围，将根节点分为子集合0，分区范围内比根节点更接近骨架重心的邻节点集合为子集合1，分区范围内比根节点更远离骨架重心的邻节点集合为子集合2；分区策略公式如下：

4.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法，其特征在于：在步骤4)中，利用自适应空间域图卷积单元Convs和自适应时间域图卷积单元Convt构建自适应图卷积模块，用于处理输入特征图f_in，输入特征图f_in通过自适应图卷积模块得到输出特征图f_out；所述自适应图卷积模由自适应空间域图卷积单元Convs、BN层、Relu层、Dropout层、自适应时间域图卷积单元Convt、BN层和Relu层依次连接而成。

5.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法，其特征在于：在步骤5)中，利用自适应图卷积模块构建自适应卷积网络，用于处理输入数据集Data，输入数据集Data通过自适应图卷积网络得到预测结果Label；所述自适应图卷积网络由BN层、9个自适应图卷积模块L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。

6.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法，其特征在于：在步骤6)中，利用自适应图卷积网络构建双流自适应卷积网络，用于处理两个输入数据集，两个输入数据集通过双流自适应图卷积网络得到预测结果；所述双流自适应卷积网络包含两路自适应图卷积网络，具体为：第一路自适应图卷积网络用于处理关键点关节数据，该网络得到的预测结果为P^J；第二路自适应卷积网络用于处理关键点骨骼数据，该网络得到的预测结果为P^B；将两路自适应图卷积网络的预测结果加权得到预测结果P；加权规则为：P＝wP^J+(1-w)P^B，其中，w是预测结果加权系数。

7.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法，其特征在于：在步骤7)中，将分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>和训练集标签Y输入双流自适应图卷积网络进行训练，迭代训练Z轮后，得到训练好的双流自适应图卷积网络。

8.根据权利要求1所述的一种基于骨架的双流自适应图卷积网络行为识别方法，其特征在于：在步骤8)中，利用双流自适应卷积网络进行行为识别，具体操作是：利用OpenPose算法提取待检测视频中的人体骨架关键点，构建测试集和标签，再将测试集和标签输入到训练好的双流自适应图卷积网络得到预测结果。