CN110215216B

CN110215216B - 基于骨骼关节点分区域分层次的行为识别方法、系统

Info

Publication number: CN110215216B
Application number: CN201910500528.8A
Authority: CN
Inventors: 原春锋; 马高群; 李兵; 李文娟; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2020-08-25
Anticipated expiration: 2039-06-11
Also published as: CN110215216A

Abstract

本发明属于计算机视觉领域，具体涉及一种基于骨骼关节点分区域分层次的行为识别方法、系统、装置，旨在为了解决有效提高行为识别准确率同时减少网络层数的问题。本发明方法包括：获取输入视频的各帧图像，从各帧图像中分别提取骨骼关节点；对每一帧图像，将其中所提取的所述骨骼关节点划分至所划分的各人体区域，并通过图卷积操作获取对应的特征表示，得到第一层特征表示集；对每一帧图像，按照所述各人体区域，基于所述第一层特征表示，通过池化、图卷积方法逐层减少关节点数量，直至通过多层聚合得到一个特征向量，并将该特征向量输入到两个全连接层得到行为类别。本发明提高了行为识别的准确率，加快了训练速度与检测速度。

Description

基于骨骼关节点分区域分层次的行为识别方法、系统

技术领域

本发明属于计算机视觉领域，具体涉及一种基于骨骼关节点分区域分层次的行为识别方法、系统。

背景技术

在人工智能领域，有一项技能叫做人体行为识别，是智能监控、人机交互、机器人等诸多应用的一项基础技术。以养老院老人智能看护为例，智能系统通过实时检测和分析老人的行动，可以判断老人是否正常吃饭、服药，是否保持最低运动量、是否有异常行动出现(例如摔倒)，及时给予提醒，确保老人的生活质量不会下降，同时可以减少看护人员的工作量。作为计算机视觉的一个重要研究领域，从2012年深度学习兴起开始，对于骨骼关节点的行为识别的研究主要有三类方法：循环神经网络(Recurrent Neural Networks)、卷积神经网络(Convolutional Neural Networks)、图卷积网络(Graph ConvolutionalNetworks).

循环神经网络：循环神经网络主要用于处理在时序上有依附关系的信息，例如语音处理和文本处理。这些方法都需要获得上下文信息甚至距离更远的信息来做翻译或者是文本生成。因视频中本身就存在时序信息，所以在做行为识别时，将每一帧的信息按照时间顺序输入到循环神经网络中做行为分类。

卷积神经网络：循环神经网络只能处理时序信息，不能学习每个动作的特征。根据这个缺陷，又重新启用卷积神经网络。做法为将一个视频中的关节点信息排成一张图片，关节点的个数作为图像的宽，视频的帧数作为图像的高，关节点的坐标作为图像的通道。

图卷积网络：卷积神经网络将视频变为图像从根本上忽略了人体骨骼关节点是一个图结构的信息。构成图像后，破坏了其原来固有的逻辑结构，导致许多信息丢失。图卷积神经网络学习每个节点自身与相邻节点之间的关系，最大化利用了人体关节点本是一张图的信息。利用图卷积网络可以使节点之间的信息流通，从而学习到不同行为的差异性信息。

由于图卷积网络本身具有的处理图结构的天然优势，因此，基于图卷积的行为识别普遍得到关注。但当前图卷积的方法存在两个问题：一是整个图卷积的过程太过于扁平，学习的只是每个关节点的局部信息，而无法学习人体五个区域之间的差异，有结论证明，许多行为都可以按照人体五个区域之间的信息进行识别，学习人体五个区域之间的信息，对行为识别的分类结果有重要影响；二是图之间最关键的问题是信息流动，这是CNN或者RNN都不具有的功能。当前的图卷积神经网络节点与节点之间的信息流动过于缓慢，因此网络层数普遍偏多，加快节点之间的信息流动，可有效减少网络层数与参数，同时加快训练速度与测试速度。

发明内容

为了解决现有技术中的上述问题，即为了解决有效提高行为识别准确率同时减少网络层数的问题，本发明的第一方面，提出了一种基于骨骼关节点分区域分层次的行为识别方法，该获取方法包括以下步骤：

步骤S100，获取输入视频的各帧图像，从各帧图像中分别提取骨骼关节点；

步骤S200，对每一帧图像，将其中所提取的所述骨骼关节点划分至所划分的各人体区域，并通过图卷积操作获取对应的特征表示，得到第一层特征表示集；

步骤S300，按照所述各人体区域，基于所述第一层特征表示，通过预设层级逐层执行：依据对应层级预设数目，通过池化减少各帧图像中骨骼关节点的数目，并通过最大池化减少图像帧的数量，对保留的图像帧基于所选取骨骼关节点的上一层级特征表示，利用图卷积操作获取对应骨骼关节点对应层级的特征表示；直至通过多层聚合得到一个特征向量，并将该特征向量输入到一个全连接层得到行为类别。

在一些优选的实施方式中，步骤S200中所划分的人体区域包括头部区域、左手区域、右手区域、左脚区域、右脚区域。

在一些优选的实施方式中，步骤S300“按照所述各人体区域，基于所述第一层特征表示，通过预设层级逐层执行：依据对应层级预设数目，通过池化减少各帧图像中骨骼关节点的数目，并通过最大池化减少图像帧的数量，对保留的图像帧基于所选取骨骼关节点的上一层级特征表示，利用图卷积操作获取对应骨骼关节点对应层级的特征表示；直至通过多层聚合得到一个特征向量，并将该特征向量输入到一个全连接层得到行为类别”，其方法为：

步骤S311，根据所划分的五个人体区域，对第一层特征表示集进行第一次池化，将每个人体区域的关节点的个数由初始个数减少为V1/5个，将输入视频的图像帧数经过一个最大池化由初始帧数T减少为T1，对得到的V1个关节点重新构图后进行一次图卷积，得到第二层特征表示集；

步骤S312，根据所划分的五个人体区域，对第二层特征表示集进行第二次池化，将每个人体区域的关节点的个数由V1/5个减少为V2/5个，将步骤S311保留的图像帧数经过一个最大池化由T1减少为T2，对得到的V2个关节点重新构图后进行一次图卷积，得到第三层特征表示集；

步骤S313，将头部区域、左手区域、右手区域作为第一区域，左脚区域、右脚区域作为第二区域，对第三层特征表示集进行第三次池化，将关节点减少为第一区域的一个、第二区域的一个，将步骤S312保留的图像帧数经过一个最大池化由T2减少为T3，对得到的2个关节点重新构图后进行一次图卷积，得到第四层特征表示集；

步骤S314，对第四层特征表示集进行全局池化，得到一个特征向量，并通过一个全连接层获取预测概率最大的行为类别作为所识别的行为类别。

步骤S311中“将每个人体区域的关节点的个数由初始个数减少为2个”，其方法为：如果该区域的总关节点数为偶数，则从最边上的点开始，取相邻的总关节点数的一半作为第一部分，剩余的关节点数作为第二部分；如果该区域的总关节点数为奇数，则取该区域中间一个关节点为共同关节点，将该区域分为两部分，合并的策略为取平均后求和。

在一些优选的实施方式中，所述输入视频为2D RGB视频。

在一些优选的实施方式中，步骤S100中“提取骨骼关节点”，其方法为：

利用openpose开源算法在输入的单帧图像中检测得到人体图像的关节点的坐标，每个坐标的通道为三维(X，Y，Z)。

在一些优选的实施方式中，V1＝10，V2＝5。

本发明的第三方面，提出了一种基于骨骼关节点分区域分层次的行为识别系统基于骨骼关节点分区域分层次的行为识别系统，该获取系统包括初始关节点提取模块、第一层特征表示集获取单元、特征向量获取单元；

所述初始关节点提取模块，配置为获取输入视频的各帧图像，从各帧图像中分别提取骨骼关节点；

所述第一层特征表示集获取单元，配置为对每一帧图像，将其中所提取的所述骨骼关节点划分至所划分的各人体区域，并通过图卷积操作获取对应的特征表示，得到第一层特征表示集；

所述特征向量获取单元，配置为按照所述各人体区域，基于所述第一层特征表示，通过预设层级逐层执行：依据对应层级预设数目，通过池化减少骨骼关节点的数目，并通过最大池化减少图像帧的数量，对保留的图像帧基于所选取骨骼关节点的上一层级特征表示，利用图卷积操作获取对应骨骼关节点对应层级的特征表示；直至通过多层聚合得到一个特征向量，并将该特征向量输入到一个全连接层得到行为类别。

基于骨骼关节点分区域分层次的行为识别系统本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于骨骼关节点分区域分层次的行为识别方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于骨骼关节点分区域分层次的行为识别方法。

本发明的有益效果：

本发明通过将人体分为五个区域，不断的池化，重新构图，使得图网络不仅在微观上学习行为之间的差异，同时能在宏观上学习人体五个区域之间的差异。提高了行为识别的准确率；池化后，加快信息流通，减少网络层数与参数，加快训练速度与检测速度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于骨骼关节点分区域分层次的行为识别方法流程示意图；

图2是本发明一种实施例的基于骨骼关节点分区域分层次的行为识别方法的网络结构示意图；

图3是本发明一种实施例的基于骨骼关节点分区域分层次的行为识别方法示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于骨骼关节点分区域分层次的行为识别方法，如图1所示，包括以下步骤：

为了更清晰地对本发明进行说明，下面结合图1、图2、图3对本方发明方法一种实施例中各步骤进行展开详述。由于基于骨骼关节点分区域分层次的行为识别方法中包含基于骨骼关节点分区域分层次的行为识别方法，为了避免过多重复描述，下面仅对基于骨骼关节点分区域分层次的行为识别方法的一个实施例进行展开。

步骤S100，获取输入视频的各帧图像，从各帧图像中分别提取骨骼关节点。

在本实施例中，该步骤的具体方法包括：

步骤S111，使用opencv将输入视频中的每一帧信息提取出来：使用opencv的videoCapture函数将输入视频的每一帧信息提取出来。

步骤S112，基于openpose的关节点检测算法对输入视频中每一帧中存在的人体关节点进行检测：使用openpose算法将图像中的所有人物的关节点信息提取出来。

步骤S113，将检测出的每一组关节点输出：将检测到的关节点按照帧的顺序排列起来。

本实施例中输入视频为2D RGB视频，利用openpose开源算法在输入的单帧图像中检测得到人体图像的关节点的坐标，每个坐标的通道为三维(X，Y，Z)。所检测得到的人体图像的关节点为18个。

步骤S200，对每一帧图像，将其中所提取的所述骨骼关节点划分至所划分的各人体区域，并通过图卷积操作获取对应的特征表示，得到第一层特征表示集。

本实施例所划分的人体区域包括头部区域、左手区域、右手区域、左脚区域、右脚区域。头部区域包括：首、鼻、右耳、右目、左耳、左目；左手区域包括：左肩、左肘、左手首；右手区域包括：右肩、右肘、右手首；左脚区域包括：左腰、左膝、左足首；右脚区域包括：右腰、右膝、右足首。

本实施例中，该步骤的具体方法为：

步骤S211，根据人体的五部分结构，确定每个关节点所在的区域；

步骤S212，将关节点信息输入到图卷积神经网络获取对应的特征表示。

图卷积神经网络是卷积神经网络的一种变体，卷积公式如下所示

其中，f_out代表关节点对应的特征输出，f_in代表输入，υ_ti代表第t帧的第i个关节点，P代表两个关节点邻接信息的有无，w代表两个邻接关节点之间的权重信息，Z_ti代表第t帧的第i个关节点邻接关节点的数量。

该步骤具体包括步骤S311-S314：

步骤S311，根据所划分的五个人体区域，对第一层特征表示集进行第一次池化，将每个人体区域的关节点的个数由初始个数减少为V1/5个(V1为预设数值，在一些实施例中V1为10)，同时，将输入视频的图像帧数经过一个最大池化(Max Pooling)由初始帧数T减少为T1(在一些实施例中，最大池化的尺寸取2，即得到的T1的值为T的值的二分之一)，对得到的10个关节点重新构图后进行一次图卷积，得到第二层特征表示集。

如图3所示，将人体的首先分为五个区域，每个区域再分为两个部分，分类依据为：如果该区域的总关节点数为偶数，则从最边上的点开始，取相邻的总关节点数的一半作为第一部分，剩余的关节点数作为第二部分；如果该区域的总关节点数为奇数，则取该区域中间一个关节点为共同关节点，将该区域分为两部分，合并的策略为取平均后求和。如图2所示，经过第一次pooling之后，关节点数量由步骤S100中提取的数量V变为V1，同时，图像帧的数量由输入视频的原始帧数T变为T1，然后送入图卷积网络进行卷积，学习行为更高层次的表达方式，即得到的10个特征表示。

步骤S312，根据所划分的五个人体区域，对第二层特征表示集进行第二次池化，将每个人体区域的关节点的个数由V1/5个减少为V2/5个(V2为预设数值，在一些实施例中V2为5)，将步骤S311保留的图像帧数经过一个最大池化由T1减少为T2(在一些实施例中，最大池化的尺寸取2，即得到的T2的值为T1的值的二分之一)，对得到的V2个关节点重新构图后进行一次图卷积，得到第三层特征表示集。

通过该步骤将关节点的个数由V1(本实施例中为10)个减少为V2(本实施例中为5)个，图帧的数量由T1减少为T2，如图3所示，将人体的五个区域都变为一个点表示。如图2所示，经过第二次pooling之后，送入图卷积网络进行卷积，去除冗余信息，继续学习更高层次的特征，得到的5个特征表示，同时加快信息流动。

步骤S313，将头部区域、左手区域、右手区域作为第一区域，左脚区域、右脚区域作为第二区域，对第三层特征表示集进行第三次池化，将关节点减少为第一区域的一个、第二区域的一个，将步骤S312保留的图像帧数经过一个最大池化由T2减少为T3(在一些实施例中，最大池化的尺寸取2，即得到的T2的值为T1的值的二分之一)，对得到的2个关节点重新构图后进行一次图卷积，得到第四层特征表示集。

如图3所示，将人体的五个区域由变为两个区域，这考虑到人体上半身和下半身之间的行为差异。将关节点个数由V2(本实施例中为5)个减少到V3个(V3为预设数值，本实施例中为2)，同时，将图像帧的数量由T2减少为T3。如图2所示，经过第三次pooling之后，送入图卷积网络学习上半身与下半身之间的差异，得到两个特征表示。

步骤S314，对第四层特征表示集进行全局池化，输出一个特征向量，并通过一个全连接层获取预测概率最大的行为类别作为所识别的行为类别。

该步骤中，用avg_global pooling函数进行全局平均池化，将关节点的个数和帧数都池化为1。

将该步骤得到的一个特征向量输入用于行为类别预测的全连接层，得到每一个预设行为类别对应的预测概率；选取所有类别预测概率中的最大值，该最大值所对应的类别就是当前检测的行为类别。

本实施例中，一个示例的具体网络结构图2所示：输入为N、C、T、V，N代表将多少个示例放到一个包中进行训练，C代表通道数，T代表帧数，V代表关节点的个数。图卷积层，第一层(64,64,1)，第一个64代表输入通道，第二个64代表输出通道，1代表步长，其余三层参数与第一层意义相同。

本实施例的网络结构需要预先进行训练，一个示例的具体网络结构图2所示，输入为N、C、T、V，N代表将多少个示例放到一个包中进行训练，C代表通道数，T代表帧数，V代表关节点的个数。图卷积层，第一层(64,64,1)，第一个64代表输入通道，第二个64代表输出通道，1代表步长，其余三层参数与第一层意义相同。利用视频样本及其行为类别标签，通过上述S100-S300的方法进行行为识别训练，得到优化后的网络参数，并基于优化后的网络，按照步骤S100-S300的方法对待识别的输入视频进行行为类别的识别。

本发明第二实施例的一种基于骨骼关节点分区域分层次的行为识别系统,其特征在于，该获取系统包括初始关节点提取模块、第一层特征表示集获取单元、特征向量获取单元；

所述特征向量获取单元，配置为对每一帧图像，按照所述各人体区域，基于所述第一层特征表示，逐步在预设层级执行：依据对应层级预设数目，通过池化减少骨骼关节点的数目，基于所选取骨骼关节点的上一层级特征表示，利用图卷积操作获取对应骨骼关节点对应层级的特征表示；直至通过多层聚合得到一个特征向量，并将该特征向量输入到两个全连接层得到行为类别。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于骨骼关节点分区域分层次的行为识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于骨骼关节点分区域分层次的行为识别方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于骨骼关节点分区域分层次的行为识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于骨骼关节点分区域分层次的行为识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于骨骼关节点分区域分层次的行为识别方法，其特征在于，步骤S200中所划分的人体区域包括头部区域、左手区域、右手区域、左脚区域、右脚区域。

3.根据权利要求2所述的基于骨骼关节点分区域分层次的行为识别方法，其特征在于，步骤S300“按照所述各人体区域，基于所述第一层特征表示，逐步在预设层级执行：依据对应层级预设数目，通过池化减少骨骼关节点的数目，基于所选取骨骼关节点的上一层级特征表示，利用图卷积操作获取对应骨骼关节点对应层级的特征表示；直至通过多层聚合得到一个特征向量，并将该特征向量输入到一个全连接层得到行为类别”，其方法为：

步骤S311，根据所划分的五个人体区域，对第一层特征表示集进行第一次池化，将每个人体区域的关节点的个数由初始个数减少为V1/5个，将输入视频的图像帧数经过一个最大池化(Max Pooling)由初始帧数T减少为T1，对得到的V1个关节点重新构图后进行一次图卷积，得到第二层特征表示集；

步骤S313，将头部区域、左手区域、右手区域作为第一区域，左脚区域、右脚区域作为第二区域，对第三层特征表示集进行第三次池化，将关节点个数由V2个减少到V3个，将步骤S312保留的图像帧数经过一个最大池化由T2减少为T3，对得到的V3个关节点重新构图后进行一次图卷积，得到第四层特征表示集；

4.根据权利要求3所述的基于骨骼关节点分区域分层次的行为识别方法，其特征在于，步骤S311中“将每个人体区域的关节点的个数由初始个数减少为2个”，其方法为：如果该区域的总关节点数为偶数，则从最边上的点开始，取相邻的总关节点数的一半作为第一部分，剩余的关节点数作为第二部分；如果该区域的总关节点数为奇数，则取该区域中间一个关节点为共同关节点，将该区域分为两部分，合并的策略为取平均后求和。

5.根据权利要求3所述的基于骨骼关节点分区域分层次的行为识别方法，其特征在于，所述输入视频为2D RGB视频。

6.根据权利要求3所述的基于骨骼关节点分区域分层次的行为识别方法，其特征在于，步骤S100中“提取骨骼关节点”，其方法为：

7.根据权利要求3所述的基于骨骼关节点分区域分层次的行为识别方法，其特征在于，V1＝10，V2＝5，V3＝2。

8.一种基于骨骼关节点分区域分层次的行为识别系统,其特征在于，该系统包括初始关节点提取模块、第一层特征表示集获取单元、特征向量获取单元；

所述特征向量获取单元，配置为按照所述各人体区域，基于所述第一层特征表示，通过预设层级逐层执行：依据对应层级预设数目，通过池化减少各帧图像中骨骼关节点的数目，并通过最大池化减少图像帧的数量，对保留的图像帧基于所选取骨骼关节点的上一层级特征表示，利用图卷积操作获取对应骨骼关节点对应层级的特征表示；直至通过多层聚合得到一个特征向量，并将该特征向量输入到一个全连接层得到行为类别。

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于骨骼关节点分区域分层次的行为识别方法。

10.一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于骨骼关节点分区域分层次的行为识别方法。