CN110135277B

CN110135277B - 一种基于卷积神经网络的人体行为识别方法

Info

Publication number: CN110135277B
Application number: CN201910326391.9A
Authority: CN
Inventors: 赵立昌; 陈志�; 岳文静; 吴宇晨; 孙斗南; 周传
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2022-08-16
Anticipated expiration: 2039-07-05
Also published as: CN110135277A

Abstract

本发明提供一种基于卷积神经网络的人体行为识别方法，包括如下步骤：采集不同人体动作的图像，每张所述图像都有一个人体骨架序列；根据人体骨架序列形成所述人体图像的移动骨架描述符图像和移动关节描述符图像；将不同人体动作的移动骨架描述符图像和移动关节描述符图像分别作为训练集训练卷积神经网络；将待识别人体动作的图像分别输入训练好的两个卷积神经网络中，分别得到各个人体动作的分数；将两种分数中相同人体动作对应的分数相加，得出得分最高的动作，作为人体行为识别的结果。本发明使得对于输入的人体姿势序列，能够使用卷积神经网络进行人体行为识别，提高对人体行为识别的准确度，并且降低学习模型的计算复杂度。

Description

一种基于卷积神经网络的人体行为识别方法

技术领域

本发明涉及一种基于卷积神经网络的人体行为识别方法，属于行为识别、深度学习、机器视觉等交叉技术领域。

背景技术

人体行为识别是计算机视觉领域中的一个重要研究课题，具有重要的理论意义与实际应用价值。

随着科技的发展，目前人体骨架主要有两个获取的途径：通过RGB图像进行关节点估计或是通过深度摄像机直接获得(例如Kinect)。而深度摄像机正成为人体行为识别最常用的传感器之一。

目前使用深度图和人体骨架数据来进行人体行为识别变得非常流行，但现有的技术还存在一些局限性。首先，传统的基于深度图的人体行为识别通常需要建立多个视角的深度图数据集，提取大量特征，以便为分类提供各种人类行为的独特表现，能识别出在前视图中看起来相似，在侧视图中不同的动作。其次，尽管基于深度图的人体行为识别方法结果比较准确，但当输入的特征维度较大时，学习模型的计算复杂度会迅速增加，因此在解决大规模问题和实时应用方面变得更加缓慢、复杂、不实用。最后，利用人体骨架数据进行人体行为识别对关节运动相当敏感，很容易把两个相同动作识别成不同的动作。

对于人体行为系统的研究，国内外所采用的技术并不成熟。大部分人体行为识别系统依赖于人工对数据进行标记加工，再将数据放入模型中进行识别。对数据有较强的依赖性，其系统运行效率低，不适合工业化与商品化的需求。最近在人类视觉皮层层次处理的启发下，深度学习，特别是卷积神经网络，在图像分类方面取得了巨大的成功。但更具成本效益且更准确的人体行为识别方法，还需要进行大量的研究工作。

发明内容

技术问题：发明所要解决的技术问题是通过一套系统，使得对于输入的人体姿势序列，能够使用卷积神经网络进行人体行为识别，提高对人体行为识别的准确度，并且降低学习模型的计算复杂度。

技术方案：本发明的一种基于卷积神经网络的人体行为识别方法，包括以下步骤：

步骤1：输入一个由深度摄像机捕获的用于人体行为识别的数据集，数据集中的每个深度序列(即样本动作)都有一个人体骨架序列文件，通过数据集获得人体骨架序列；

步骤2：用归一化函数F将步骤1得到的人体骨架序列中的每个人体关节的三维坐标转化为标准化空间中的三维关节坐标(x′_i,y′_i，z′_i)，将所有标准化空间的坐标按照一定顺序堆叠起来形成移动骨架描述符图像，用不同人体动作的移动骨架描述符图像作为训练集训练卷积神经网络；

步骤3：将步骤1得到的人体骨架序列中的用笛卡尔坐标表示的人体关节坐标，转换成用球坐标表示。将每一帧的θ、

r组合起来形成移动关节描述符图像，其中，角度θ表示人体关节坐标与z轴的垂直角度，角度

表示人体关节坐标与x轴的水平角度，角度r表示人体关节坐标与原点之间的距离。用不同人体动作的移动关节描述符图像作为训练集训练卷积神经网络；

步骤4：将待识别人体动作的图像分别输入步骤2和3训练好的两个卷积神经网络中，分别得到各个人体动作的分数，即图像中可能出现的各个人体动作的概率；

步骤5：将步骤4得到的两种分数中相同人体动作对应的分数进行分数融合的操作，得出得分最高的动作，作为人体行为识别的结果；

步骤6：输出人体行为识别的结果。

其中，

所述步骤2具体如下：

步骤21：步骤1得到的人体骨架序列中，给定具体N帧[F₁,F₂,…,F_N]的人体骨架序列s，令(x_i,y_i,z_i)为第n帧{F_n}∈s中的每个人体关节的三维坐标，其中n∈[1,N]；

步骤22：用归一化函数F将s中每个人体关节的三维坐标转化为标准化空间s′中的三维关节坐标(x′_i,y′_i，z′_i)，即F_i′＝(x′_i,y′_i，z′_i)＝F(x_i,y_i,z_i)，

其中min{c}和max{c}分别是s中所有坐标的最大值和最小值，即max(x_n,y_n,z_n)和min(x_n,y_n,z_n)；

步骤23：将所有标准化空间的坐标堆叠起来，形成时间序列[F′₁,F′₂,…,F′_n]来表示整个动作序列，将这些元素量化为RGB颜色空间，并存储为RGB图像；

步骤24：将人体关节分别五个部分，包括两个手臂、两个腿和一个躯干，按照两个手臂、一个躯干、两个腿的顺序，重新排列RGB图像中的像素行的位置，即重新排列序列[F′₁,F′₂,…,F′_n]中的所有帧，得到移动骨架描述符图像；

步骤25：经过步骤21～步骤24的预处理，得到了移动骨架描述符图像，将大小调整为112×112，用作卷积神经网络CNN模型的输入。该模型中，第一卷积层使用32个7×7大小的卷积滤波器，第二、第三、第四卷积层分别使用64、128、256个5×5的卷积滤波器，最后一个卷积层使用512个3×3的卷积过滤器；

步骤26：在步骤25中，初试学习率为0.0008，权重衰减为0.0005，动量为0.9，softmax回归层根据基础训练的权重为每个人体动作生成分数。

所述步骤3具体如下：

步骤31：步骤1得到的人体骨架序列中人体关节的坐标用笛卡尔坐标表示，转换成用球坐标表示，人体关节的集合Joints＝{J₁,J₂,…,J_k,…,J₂₀}，

其中角度θ表示人体关节与z轴的垂直角度，角度

表示人体关节与x轴的水平角度，角度r表示人体关节与原点之间的距离，J₁,J₂,…,J_k,…,J₂₀表示从数据集提供的骨架模型的20个人体关节，J_k表示第k个人体关节；

步骤32：求出三个灰度图像R、G、B，其中R(J_k,n)＝{θ|θ是第n帧中关节J_k的坐标θ}，

B(J_k,n)＝{r|r是第n帧中关节J_k的坐标r}；

步骤33：将三个灰度图像组合在一起产生移动关节描述符MJD，MJD＝R+B+G；

步骤34：经过步骤31～步骤33的预处理，得到了移动关节描述符图像，将大小调整为112×112，用作卷积神经网络CNN模型的输入。该模型中，第一卷积层使用32个7×7大小的卷积滤波器，第二、第三、第四卷积层分别使用64、128、256个5×5的卷积滤波器，最后一个卷积层使用512个3×3的卷积过滤器；

步骤35：在步骤34中，初试学习率为0.0008，权重衰减为0.0005，动量为0.9，softmax回归层根据基础训练的权重为每个人体动作生成分数。

所述步骤4具体如下：

步骤41：将步骤26和步骤35输出的相同工作对应的两个分数进行融合操作，将两个通道输出的分数相加，得分最大的分数对应的动作即识别出的动作。

有益效果：本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明只使用人体姿势数据进行人体行为识别，相比传统的使用深度图进行行为识别，学习模型的计算复杂度显著降低。本发明对人体姿势数据采用了不同的算法转换成两个不同的描述符图像，使用卷积神经网络以相同的参数同时进行训练，最后通过分数融合来完成人体行为识别。其中两个不同的描述符图像分别为移动骨架描述符图像和移动关节描述符图像，是两种新的基于骨架的表示方法。通过这些方法的应用，提高了人体行为识别的准确性，同时降低了学习模型的计算复杂度，使系统具有较高的成本效益，具体来说：

(1)本发明采用两个通道以相同的参数在卷积神经网络中进行训练，相比单一通道，具有更高的准确性。

(2)本发明只使用了人体姿势数据，比传统的深度图的维数更低，降低了训练的计算时间，使得整个人体行为识别的过程更简单、更快捷。

(3)本发明将人体姿势数据用球坐标转换成描述符，比使用笛卡尔坐标得出的结果更准确，提高了行为识别的准确性。

(4)本发明采用的移动骨架描述符，相比传统的基于骨架的行为识别方法，结果更准确且计算复杂度更低。

(5)本发明采用分数融合从两个通道中得出最终的人体行为识别结果，提高了行为识别的准确性。

(6)本发明的方法是通用的，可以很容易地应用于其他时间序列问题，例如利用集成惯性传感器、利用移动设备识别人的行为。

附图说明

图1是基于卷积神经网络的人体行为识别方法流程。

具体实施方式

在具体实施中，图1是基于卷积神经网络的人体行为识别方法流程。

本实例使用MSRAction3D数据集，MSRAction3D数据集由微软Kinect v1深度摄像机捕获，该数据集包含20个动作。

首先，系统依次获取数据集中的人体骨架序列。接收到的关节姿势序列中，给定具体N帧[F₁,F₂,…,F_N]的人体骨架序列s，令(x_i,y_i,z_i)为第n帧{F_n}∈s中的每个人体关节的三维坐标，其中n∈[1,N]。

接着，关节姿势序列通过归一化函数F将s中每个人体关节的三维坐标转化为标准化空间s′中的三维关节坐标(x′_i,y′_i，z′_i)，将所有标准化空间的坐标堆叠起来，形成时间序列[F′₁,F′₂,…,F′_n]来表示整个动作序列，将这些元素量化为RGB颜色空间。按照两个手臂、一个躯干、两个腿的顺序，重新排列RGB图像中的像素行的位置，得到移动骨架描述符图像。

与此同时，将关节姿势序列中的关节坐标转换成球坐标，输入的关节的集合Joints＝{J₁,J₂,…,J_k,…,J₂₀}，

求出三个灰度图像R、G、B，其中

R(J_k,n)＝{θ|θ是第n帧中人体关节J_k的坐标θ}，

B(J_k,n)＝{r|r是第n帧中人体关节J_k的坐标r}，

将三个灰度图像组合在一起产生移动关节描述符MJD。

然后，将两个通道内描述符图像的大小调整为112×112，分别放入卷积神经网络CNN模型中进行训练。该模型中，第一卷积层使用32个7×7大小的卷积滤波器，第二、第三、第四卷积层分别使用64、128、256个5×5的卷积滤波器，最后一个卷积层使用512个3×3的卷积过滤器。初试学习率为0.0008，权重衰减为0.0005，动量为0.9，softmax回归层根据基础训练的权重为每个类生成分数。

最后，两个通道的训练结果经过分数融合的操作，将两个通道输出的分数相加，得分最大的分数对应的动作即识别出的动作，输出人体行为识别的结果。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的人体行为识别方法，其特征在于，包括如下步骤：

步骤1：采集不同人体动作的图像，每张所述图像都有一个人体骨架序列；

步骤2：根据人体骨架序列形成人体图像的移动骨架描述符图像；

步骤3：根据人体骨架序列形成所述人体图像的移动关节描述符图像；

步骤4：将步骤2和步骤3中得到的不同人体动作的移动骨架描述符图像和移动关节描述符图像分别作为训练集训练卷积神经网络；

步骤5：将待识别人体动作的图像分别输入步骤4训练好的两个卷积神经网络中，分别得到各个人体动作的分数；

步骤6：将步骤5中得到的两种分数中相同人体动作对应的分数相加，得出得分最高的动作，作为人体行为识别的结果；

所述步骤2中根据人体骨架序列形成移动骨架描述符图像的步骤包括：

步骤22：用归一化函数F将s中每个人体关节的三维坐标转化为标准化空间s′中的三维关节坐标(x′_i,y′_i′z′_i)，即F′_i＝(x′_i,y′_i′z′_i)＝F(x_i,y_i,z_i)，

其中min{c}和max{c}分别是s中所有坐标的最大值和最小值，即max(x_n,y_n,z_n)和min(x_n,y_n,z_n)，其中n∈[1,N]；

步骤24：将人体关节分别五个部分，包括两个手臂、两个腿和一个躯干，按照两个手臂、一个躯干、两个腿的顺序，重新排列RGB图像中的像素行的位置，即重新排列序列[F′₁,F′₂,…,F′_N]中的所有帧，得到移动骨架描述符图像。

2.根据权利要求1所述的一种基于卷积神经网络的人体行为识别方法，其特征在于，所述步骤3中根据人体骨架序列形成移动关节描述符图像的步骤包括：

步骤31：将步骤1得到的人体骨架序列中人体关节的坐标转换成用球坐标表示，人体关节的集合Joints＝{J₁,J₂,…,J_k,…,J₂₀}，

其中角度θ表示人体关节与z轴的垂直角度，角度

B(J_k,n)＝{r|r是第n帧中关节J_k的坐标r}；

步骤33：将三个灰度图像组合在一起产生移动关节描述符MJD，MJD＝R+B+G，得到移动关节描述符图像。

3.根据权利要求1所述的一种基于卷积神经网络的人体行为识别方法，其特征在于，步骤4中，所述卷积神经网络的第一卷积层使用32个7×7大小的卷积滤波器，第二、第三、第四卷积层分别使用64、128、256个5×5的卷积滤波器，最后一个卷积层使用512个3×3的卷积过滤器。

4.根据权利要求1所述的一种基于卷积神经网络的人体行为识别方法，其特征在于，步骤4中，所述卷积神经网络的初试学习率为0.0008，权重衰减为0.0005，动量为0.9，softmax回归层根据基础训练的权重为每个人体动作生成分数。