CN112926517A

CN112926517A - 一种人工智能监控方法

Info

Publication number: CN112926517A
Application number: CN202110328486.1A
Authority: CN
Inventors: 王田; 张奇鹏; 吕金虎
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-08
Anticipated expiration: 2041-03-26
Also published as: CN112926517B

Abstract

本发明公开了一种人工智能监控方法，通过特征提取图卷积网络获取动作特征，再根据动作特征进行人体动作预测和人体动作识别，从而实现人工智能监控。本发明提供的人工智能监控方法，能够更好的描述人体的动作，并节约运算资源，提升运算性能。

Description

一种人工智能监控方法

技术领域

本发明涉及一种人工智能监控方法，属于人工智能技术领域。

背景技术

人工智能监控包含人体动作识别和预测两个部分，传统的人工智能监控，多集中于单任务模型的研究，即分开完成这两个任务，通过两个模型分别进行人体动作识别、人体动作预测。

然而，人体动作识别和人体动作预测，都涉及从人体动作中提取特征，并且从人类的认知过程来看，动作识别和动作预测存在内在的关联。

传统单任务模型的方式，不仅计算效率低，还浪费了计算资源。

因此，有必要设计一种能够将人体动作识别和人体动作预测结合的人工智能监控方法。

发明内容

为了克服上述问题，本发明人进行了锐意研究，设计出一种人工智能监控方法，通过特征提取图卷积网络获取动作特征，再根据动作特征进行人体动作预测和人体动作识别，从而实现人工智能监控。

该方法包括以下步骤：

S1、构建特征提取图卷积网络，用于提取动作特征；

S2、构建动作识别网络和动作预测网络，根据提取的动作特征，进行动作识别和动作预测；

S3、对特征提取图卷积网络、动作识别网络和动作预测网络进行训练，获得监控模型。

进一步地，在步骤S1中，所述动作特征为能够体现人体动作状态的矩阵，所述构建特征提取图卷积网络包括以下子步骤:

S11、将图像信息转换为人体骨架，作为图卷积网络的输入；

S12、确定图卷积网络参数。

更进一步地，在步骤S11中，将图像中不同骨骼简化为线段，将线段连接形成人体骨架，通过邻接矩阵对人体骨架进行数学表达，

其中，将代表不同骨骼线段的端点作为邻接矩阵的顶点，将线段作为邻接矩阵的边，从而获得人体骨架的邻接矩阵A。

在步骤S12中，图卷积层卷积核包括固定卷积核和关联卷积：

所述固定卷积核用于描述人体骨架中相互连接的骨骼对人体动作的影响；

所述关联卷积核用于描述人体骨架中非连接的骨骼对人体动作的影响。

根据本发明一个优选的实施方式，所述固定卷积核表示为：

其中，σ()为非线性激活函数；

操作

表示元素的乘积，上标l表示不同的卷积层；

M^l为第l层的可学习矩阵，其用于表示邻接矩阵A中不同边的权重；

W^l表示第l层的权重参数矩阵；

X^l表示第l层的卷积层的输出，也是第l+1层的输入；

I是单位矩阵，

是

的度矩阵。

根据本发明一个优选的实施方式，所述关联卷积核可以表示为：

X^l+1＝σ(A_pX^lW^l)

其中，A_p为可训练邻接矩阵，其大小与邻接矩阵A相同。

根据本发明一个优选的实施方式，将固定卷积核和关联卷积核加和后作为特征提取图卷积网络最终的卷积核，表示为：

其中λ表示超参数，λ∈[0,1]，用以调整固定卷积核和关联卷积核之间的注意比例。

根据本发明，在相邻的图卷积层之间还具有时间卷积层，用以捕获图像帧序列中的动作特征。

另一方面，本发明还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述实施方式之一所述的方法。

本发明所述的人工智能监控方法，具有的有益效果包括：

(1)根据本发明提供的人工智能监控方法，将人体动作识别和人体动作预测结合起来，提取动作特征作为二者的共享骨干网，不仅可以节省资源，还能够提升性能；

(2)根据本发明提供的人工智能监控方法，从直接连接的骨骼结构中学习局部特征，从非直接连接的骨骼结构中学习全局特征，能够更好的描述人体的动作；

(3)根据本发明提供的人工智能监控方法，动作识别率准确率高。

附图说明

图1示出一种优选实施方式的人工智能监控方法流程示意图；

图2示出一种优选实施方式的人工智能监控方法特征提取图卷积网络示意图；

图3示出一种优选实施方式的人工智能监控方法网络整体结构示意图。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

本发明提供了一种人工智能监控方法，通过特征提取图卷积网络获取动作特征，再根据动作特征进行人体动作预测和人体动作识别，从而实现人工智能监控。

传统的人体动作识别或人体动作预测大都是分开进行的，在本发明中，将这两者结合起来，将动作特征提取作为二者的共享骨干网，不仅可以节省资源，还能由于两者的结果结合从而提升性能，动作识别可以为动作预测提供类别标签，而动作预测的结果反过来也可以防止动作识别出现过拟合现象。

该方法包括以下步骤：

S1、构建特征提取图卷积网络，用于提取动作特征；

S2、构建动作识别网络和动作预测网络，根据提取的动作特征，进行动作识别和动作预测。

在步骤S1中，所述特征提取图卷积网络用于从含有人体动作的图像中提取动作特征。

进一步地，所述动作特征为能够体现人体动作状态的矩阵，优选为256*75*25的矩阵，将动作特征进行分类即可判断动作的类别，将动作特征拟合，即可预测下步的动作。

进一步地，所述构建特征提取图卷积网络包括以下子步骤:

S11、将图像信息转换为人体骨架，作为图卷积网络的输入；

S12、确定图卷积网络参数。

在步骤S11中，利用人体骨架来表现人体动作状态。

具体地，识别图像中人体的不同骨骼，将不同骨骼简化为线段，将线段连接形成人体骨架。

在本发明中，对将图像信息转换为人体骨架的方式不做特别限定，本领域技术人员可根据实际经验进行，例如采用微软Kinect、Intel RealSence3D等3D相机直接获取，或采用openpose算法对RGB视频提取获得。

进一步地，在本发明中，通过邻接矩阵对人体骨架进行数学特征表达，其中，将代表不同骨骼线段的端点作为邻接矩阵的顶点，将线段作为邻接矩阵的边，从而获得人体骨架的邻接矩阵A。

进一步地，邻接矩阵A为N*N阶矩阵，N为21～26，优选为25，以与现有的数据集相同，使得特征提取图卷积网络能够使用现有的数据集进行训练，例如数据集NTU RGB+D和NTU RGB+D 120。

图卷积网络是由多层图卷积层构成，在步骤S12中，图卷积网络的参数包括图卷积层卷积核、卷积层层数和卷积层之间的连接函数。

其中，图卷积层卷积核的设计是图神经网络优劣的关键影响因素。

所述卷积核包括固定卷积核和关联卷积核。

所述固定卷积核用于描述人体骨架中相互连接的骨骼对人体动作的影响，例如“走路”动作中，大腿骨和小腿骨之间的关系；

所述关联卷积核用于描述人体骨架中非连接的骨骼对人体动作的影响，例如“走路”动作中，由于踢左脚时右手可能会向前摆动，左脚和右手之间的关系。

在本发明中，通过关联卷积核，将没有物理连接的骨骼之间的关系表征出来，使得特征提取图卷积网络提取到的动作特征更为精准。

进一步地，所述固定卷积核可以表示为：

其中，σ()为非线性激活函数，例如ReLU函数；

操作

表示元素的乘积，上标l表示不同的卷积层；

W^l表示第l层的权重参数矩阵；

X^l表示第l层的卷积层的输出，也是第l+1层的输入；第1层的输入为原始骨骼数据，即邻接矩阵A；

I是单位矩阵，

是

的度矩阵。

通过关联卷积核，使得特征提取图卷积网络能够学习到对动作表示有更大影响力的骨架表示。

所述关联卷积核可以表示为：

X^l+1＝σ(A_pX^lW^l) (二)

其中，A_p为可训练邻接矩阵，其大小与邻接矩阵A相同。

优选地，可训练邻接矩阵A_p中各元素初始值为1。

在本发明中，将固定卷积核和关联卷积核加和后作为特征提取图卷积网络最终的卷积核。

优选地，在关联卷积核中增加超参数λ，λ∈[0,1]，用以调整固定卷积核和关联卷积核之间的注意比例。

所述提取图卷积网络的卷积核可以表示为：

发明人经过大量的实验，确定卷积层的层数为5～15层，优选为9层。

进一步地，在图卷积运算中，为提高提取的骨骼连接间动作特征的多样性，采用多通道解耦的方式进行图卷积运算，将每一层图卷积层的输入按通道分组，每组对应的可训练邻接矩阵A_p不同，以获得更丰富的动作特征。

进一步地，在本发明中，在相邻的图卷积层之间还具有时间卷积层，如图2所示，用以捕获图像帧序列中的动作特征，优选地，所述时间卷积层为多个一维卷积运算，每个一维卷积运算对应一个骨骼连接位置。

更优选地，所述时间卷积层可以表示为：

其中，y(k)表示时间卷积层的输出矩阵,k表示矩阵总元素数量，N表示图像总帧数，h(k-i)表示上层图卷积层输出矩阵中相连接骨骼对应的元素，u(i)表示图像帧序列。

更进一步地，通过激活函数ReLU将图卷积层与时间卷积层连接起来。

本发明构建的特征提取图卷积网络，从直接连接的骨骼结构中学习局部特征，从非直接连接的骨骼结构中学习全局特征，使得卷积网络能够更好的描述人体的动作，从而获得更优的动作特征，为后续人体动作预测和人体动作识别提供更为精准的数据支撑。

在步骤S2中，所述动作识别网络，对提取到的动作特征识别，输出识别后的动作标签，如图3所示。

由于动作特征已经由特征提取图卷积网络进行了良好提取，通过一个简单的神经网络即可实现动作识别。

优选地，所述动作识别网络为一个卷积神经网络，包括一个池化层、一个卷积层和一个输出层。

其中，池化层用于将动作特征降维，优选降至256维度；

卷积层为卷积核大小为1×1，用于对降维后的动作特征进行分类；

输出层可以表示为softmax函数，用于将分类的结果输出。

所述动作预测网络，根据提取到的动作特征，输出预测骨架。

优选地，所述动作预测网络为循环神经网络，更优选的采用多个LSTM网络分别输出未来帧，采用论文Structured Prediction Helps 3D Human Motion Modelling(DOI:10.1109/ICCV.2019.00724)中的结构化预测网络生成每一帧骨架，从而实现动作预测。

在步骤S3中，通过数据集对特征提取图卷积网络、动作识别网络和动作预测网络进行训练，从而获得监控模型。

在本发明中，对训练用数据集的来源不做特别限定，优选地，使用公开动作数据集作为训练用数据集，例如NTU RGB+D或NTU RGB+D 120数据集。

将连续帧图片输入至监控模型后，即可实现动作的识别与预测。

根据本发明的一个方面，还提供了一种用于实施上述监控方法的电子装置，该电子装置包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法中的步骤。

实施例

实施例1

构建特征提取图卷积网络、动作识别网络和动作预测网络，通过训练后获得监控模型。

其中，特征提取图卷积网络用于提取动作特征，动作识别网络根据提取的动作特征进行动作识别，动作预测网络根据提取的动作特征进行动作预测，如图3所示。

在特征提取图卷积网络中，具有9层图卷积层，图卷积层卷积核为：

在图卷积运算中，将每一层图卷积层的输入按通道分组，每组对应的可训练邻接矩阵A_p不同。

在相邻的图卷积层之间具有时间卷积层，通过激活函数ReLU将图卷积层与时间卷积层连接起来，时间卷积层表示为：

动作识别网络为一个卷积神经网络，包括一个池化层、一个卷积层和一个输出层，其池化层降维至256，卷积核大小为1×1，输出层为softmax函数；

动作预测网络采用多个LSTM网络分别输出未来帧，采用论文StructuredPrediction Helps 3D Human Motion Modelling(DOI:10.1109/ICCV.2019.00724)中的结构化预测网络生成每一帧骨架。

采用NTU-RGB+D和NTU-RGB+D 120数据集对提取图卷积网络、动作识别网络和动作预测网络进行训练，获得最终的监控模型。

采用监控模型对NTU-RGB+D数据集进行动作识别，结果如表一所示。

对比例1

采用多个已知识别模型分别对NTU-RGB+D数据集进行动作识别，结果如表一所示。

其中，识别模型分别为：

HBRNN-L模型(参见Hierarchical recurrent neural network for skeletonbased action recognition；Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition；2015，1110--1118)、

Part-Aware LSTM模型(参见Ntu rgb+d:A large scale dataset for 3d humanactivity analysis；Proceedings of the IEEE Conference on Computer Vision andPattern Recognition；2016，1010--1019)、

ST-LSTM+Trust Gate模型(参见Spatio-temporal lstm with trust gates for3d human action recognition；European conference on computer vision；2016，Springer，816--833)、

STA-LSTM模型(参见An end-to-end spatio-temporal attention model forhuman action recognition from skeleton data；arXiv preprint arXiv:1611.06067)、

GCA-LSTM模型(参见Global context-aware attention lstm networks for 3daction recognition；Proceedings of the IEEE Conference on Computer Vision andPattern Recognition；2017，1647--1656)、

Clips+CNN+MTLN模型(参见A new representation of skeleton sequences for3d action recognition；Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition；2017，3288--3297)、

VA-LSTM模型(参见View adaptive recurrent neural networks for highperformance human action recognition from skeleton data；Proceedings of theIEEE International Conference on Computer Vision；2017，2117--2126)、

ElAtt-GRU模型(参见Adding attentiveness to the neurons in recurrentneural networks；Proceedings of the European Conference on Computer Vision；2018，135--151)、

ST-GCN模型(参见Spatial temporal graph convolutional networks forskeleton-based action recognition；arXiv preprint arXiv:1801.07455；2018)、

DPRL+GCNN模型(参见Deep progressive reinforcement learning forskeleton-based action recognition；Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition；2018，5323--5332)、

SR-TSL模型(参见Skeleton-based action recognition with spatialreasoning and temporal stack learning；Proceedings of the European Conferenceon Computer Vision；2018，103--118)、

HCN模型(参见Co-occurrence feature learning from skeleton data foraction recognition and detection with hierarchical aggregation；arXiv preprintarXiv:1804.06055；2018)、

AGC-LSTM模型(参见An attention enhanced graph convolutional lstmnetwork for skeleton-based action recognition；Proceedings of the IEEEConference on Computer Vision and Pattern Recognition；2019，1227--1236)、

AS-GCN模型(参见Actional-structural graph convolutional networks forskeleton-based action recognition；Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition；2019，3595--3603)

GR-GCN模型(参见Optimized skeleton-based action recognition viasparsified graph regression；Proceedings of the ACM International Conferenceon Multimedia；2019，601--610)

2s-AGCN模型(参见Two-stream adaptive graph convolutional networks forskeleton-based action recognition；Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition；2019，12026--12035)、

VA-CNN模型(参见View adaptive neural networks for high performanceskeleton-based human action recognition；IEEE Transactions on Pattern Analysisand Machine Intelligence；2019，8，1963—1978，41)

1s Shift-GCN模型(参见Skeleton-Based Action Recognition With ShiftGraph Convolutional Network；Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition；2020，183--192)

表一

从表一可以看出，在CS、CV基准上，实施例1中动作识别的准确率均高于其它模型，其中CS、CV为数据库中两种常用的分类标准：CS表示交叉目标分类(Cross-Subject)标准，通过对40个不同采集人所做的动作按数据来源人进行的划分，将数据划分为多个样本集，每个样本集种含有20个人的动作；

CV表示交叉视角(Cross-View)标准，由三个摄像机中的两个捕捉到的序列用于训练，那些被其他摄像机捕捉到的用于测试。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”和“外”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。