CN110490109B

CN110490109B - 一种基于单目视觉的在线人体康复动作识别方法

Info

Publication number: CN110490109B
Application number: CN201910733962.0A
Authority: CN
Inventors: 闫航; 陈刚; 王钦钦; 胡北辰; 鄂正源; 佟瑶; 王宗敏
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2022-03-25
Anticipated expiration: 2039-08-09
Also published as: CN110490109A

Abstract

本发明公开了一种基于单目视觉的在线人体康复动作识别方法。该方法包括建模训练和在线识别，建模训练步骤中包括采集样本、提取特征、构建模型和模型训练四个分步骤，在线识别步骤中包括识别目标、识别特征和识别动作三个分步骤。通过以上步骤，本发明融合姿态估计方法OpenPose与最近邻匹配方法对监控视频流中的目标人体进行识别并生成动作序列，再通过滑动窗口从动作序列中识别检测动作特征，再将检测动作特征输入到经过建模训练得到的检测模型中进行康复动作识别。本发明只需对每帧图像中提取的少数关节点进行处理从而极大地降低了计算成本，模型易于部署，能够适应非理想、嘈杂的环境，在线识别连续的康复动作准确率达90.66％。

Description

一种基于单目视觉的在线人体康复动作识别方法

技术领域

本发明涉及计算机视觉和图形学技术领域，尤其涉及一种基于单目视觉的在线人体康复动作识别方法。

背景技术

近年来基于视觉的人体动作识别的研究得到了广泛的关注，当前仍是计算机视觉中一个极具挑战性的课题，涉及图像处理、模式识别、人工智能等多个学科，在智能监控、人机交互、康复运动等领域有着广泛的应用前景。

脑卒中是最常见的慢性病之一，具有高发病率、高致残率的特点，是老年人健康的重大威胁。而康复锻炼是恢复卒中患者日常生活能力的主要手段，也是广泛推荐的康复疗法。

当前在居家康复领域缺乏护理医师的现场指导，同时存在看护者缺乏耐心和信心、康复知识不足的问题，导致患者出院后在家中难以完成有针对性的康复目标，依从性较差,因此需要建立一种居家康复场景下的在线动作识别方法，实现患者康复过程中动作的实时监督与指导，对患者中长期的康复水平有着重要的意义。

发明内容

本发明主要解决的技术问题是提供一种基于单目视觉的在线人体康复动作识别方法，解决现有技术中的难以实现在线识别人体康复动作的问题。

为解决上述技术问题，本发明采用的一个技术方案是提供一种基于单目视觉的在线人体康复动作识别方法，包括以下步骤：第一步，建模训练，包括采集样本、提取特征、构建模型和模型训练四个分步骤：在所述采集样本中，通过单目视觉采集设备拍摄人体动作样本，分别获得康复动作短视频样本和正常动作短视频样本；在所述提取特征中，将所述康复动作短视频样本中的每一帧图像中的人体形态进行提取，得到样本骨架特征，进一步根据所述样本骨架特征提取样本动作特征；在所述构建模型中，构建分类模型，包括依次时空特征提取模块、双层GRU网络和Softmax分类器；在所述模型训练中，将多个所述康复动作短视频样本和正常动作短视频样本对应的样本动作特征分别输入到所述分类模型中进行训练，训练所述分类模型中的参数，最终得到参数优化且能够对所述康复动作短视频样本和正常动作短视频样本进行分类识别的检测模型；

第二步，在线识别，包括识别目标、识别特征、识别动作三个分步骤：在所述识别目标中，通过单目视觉采集设备在线实时获取监控视频流，对所述监控视频流中的每一帧图像进行姿态估计并识别目标人体，并对应得到包含所述目标人体的检测骨架特征的目标人体动作序列；在所述识别特征中，对所述目标人体动作序列进行滑窗处理，识别所述目标人体动作序列的检测动作特征；在所述识别动作中，将所述检测动作特征输入到所述检测模型中，由所述检测模型实时识别出所述检测动作特征对应的动作类型。

在本发明基于单目视觉的在线人体康复动作识别方法另一实施例中，在所述提取特征分步骤中，通过姿态估计方法OpenPose提取人体的14个骨架关键点作为样本骨架特征，包括脸、脖子、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左脚裸、右脚裸共14个部位对应的骨架关键点。

在本发明基于单目视觉的在线人体康复动作识别方法另一实施例中，所述14个骨架关键点的坐标对应的28个特征为：脸(x₁,y₁)，脖子(x₂,y₂)，左肩(x₃,y₃)，右肩(x₄,y₄)，左肘(x₅,y₅)，右肘(x₆,y₆)，左腕(x₇,y₇)，右腕(x₈,y₈)，左胯(x₉,y₉)，右胯(x₁₀,y₁₀)，左膝(x₁₁,y₁₁)，右膝(x₁₂,y₁₂)，左脚裸(x₁₃,y₁₃)，右脚裸(x₁₄,y₁₄)；所述样本骨架特征提取样本动作特征是通过所述14个骨架关键点提取13个动作向量来表达

关节的运动信息，计算方法如下：

V_a＝(x₁,y₁)-(x₂,y₂),V_b＝(x₂,y₂)-(x₃,y₃),V_c＝(x₂,y₂)-(x₄,y₄),V_d＝(x₃,y₃)-(x₅,y₅),

V_e＝(x₄,y₄)-(x₆,y₆),V_f＝(x₅,y₅)-(x₇,y₇),V_g＝(x₆,y₆)-(x₈,y₈),V_h＝(x₂,y₂)-(x₉,y₉),

V_i＝(x₂,y₂)-(x₁₀,y₁₀),V_j＝(x₉,y₉)-(x₁₁,y₁₁),V_k＝(x₁₀,y₁₀)-(x₁₂,y₁₂),V_l＝(x₁₁,y₁₁)-(x₁₃,y₁₃),

V_m＝(x₁₂,y₁₂)-(x₁₄,y₁₄)；

其中,(x_i,y_i)为骨架关键点i的坐标，V_a,V_b,…V_m为提取的13个动作向量，其中每一个动作向量对应2个特征，13个动作向量对应26个特征。

在本发明基于单目视觉的在线人体康复动作识别方法另一实施例中，对所述骨架关键点i的坐标(x_i,y_i)进行归一化处理，即将坐标值(x_i,y_i)分别与对应的视频分辨率(v_w,v_h)相比，归一化得到的坐标值均是在(0,1)范围。

在本发明基于单目视觉的在线人体康复动作识别方法另一实施例中，在所述时空特征提取模块中，通过多层一维卷积并结合BN层与池化层自动提取时空特征，第一卷积层与第二卷积层的卷积核数量为128，长度为8，第三卷积层与第四卷积层的卷积核数量为32，长度为8；三个池化层的步长都为2，大小也为2，每一个池化层将输入的时间步减少一半。

在本发明基于单目视觉的在线人体康复动作识别方法另一实施例中，在所述双层GRU网络中，两个GRU网络单元的神经元个数为32，时间步长为输入到所述时空特征提取模块的动作向量序列的时间步长n的八分之一，第一层隐藏层每个时间步的输出状态传递给第二层隐藏层，取最后一个时间步的输出向量传递给神经元个数为64的全连接层，最后通过Softmax分类器进行动作类型的识别。

在本发明基于单目视觉的在线人体康复动作识别方法另一实施例中，在所述识别目标分步骤中进一步包括：首先，确认目标人体，摄像头开启后，通过前述的姿态估计方法OpenPose实时提取图像中的多人骨架关键点，计算图像中每个人体i中的骨架关键点的y轴坐标最大值、最小值之差

其中最大

值对应的人体i则认为距离摄像头最近，确定为在线动作识别的目标人体；接着，目标最近邻匹配，以脖子部位的关键点坐标为基准坐标，计算当前帧每个人体i的基准坐标

与前一帧目标人体基准坐标(x₀,y₀)的欧式距离d_i,d_i最小者判断当前帧中的目标人体,d_i计算方法如下：

然后，生成动作序列，结合上一步中最近邻匹配的结果，将视频流中目标人体的14个骨架关键点作为检测骨架特征按照时序关系加入到动作序列中。

在本发明基于单目视觉的在线人体康复动作识别方法另一实施例中，在所述识别特征分步骤中，以滑动窗口的方式从目标人体的动作序列中提取分段的检测动作特征，流程如下:第一步骤，目标人体的检测骨架特征不断加入队列，直到队列长度为n，即T＝[T₁,T₂,T₃,…,T_n]，然后识别该队列的检测动作特征；第二步骤，从队头删除T₁,T₂,…T_k，队尾不断加入后续的k帧对应的目标人体的骨架关键点即T_n+1,T_n+2,…T_n+k,组合成新的队列分段[T_k+1,T_k+2,T_k+3,…,T_n,T_n+1,T_n+2,T_n+k]，然后新的队列的检测动作特征；第三步骤，重复第二步骤，直至该目标人体消失。

在本发明基于单目视觉的在线人体康复动作识别方法另一实施例中，在所述识别动作分步骤中，由滑动窗口提取分段后的每一帧图像对应的26个动作向量特征连续输入到经过训练后的检测模型中，经过前向传播并通过Softmax分类器识别得出概率最大的动作类型，实时输出目标人体正在发生的动作类别与置信度，其中置信度表达了该动作的标准程度。

在本发明基于单目视觉的在线人体康复动作识别方法另一实施例中，在所述采集样本分步骤中，所述康复动作短视频样本则包括上下臂锻炼样本、左右臂锻炼样本和/或坐起锻炼样本。

本发明的有益效果是：本发明公开了一种基于单目视觉的在线人体康复动作识别方法。该方法包括建模训练和在线识别，建模训练步骤中包括采集样本、提取特征、构建模型和模型训练四个分步骤，在线识别步骤中包括识别目标、识别特征和识别动作三个分步骤。通过以上步骤，本发明融合姿态估计方法OpenPose与最近邻匹配方法对监控视频流中的目标人体进行识别并生成动作序列，再通过滑动窗口从动作序列中识别检测动作特征，再将检测动作特征输入到经过建模训练得到的检测模型中进行康复动作识别。本发明只需对每帧图像中提取的少数关节点进行处理从而极大地降低了计算成本，模型易于部署，能够适应非理想、嘈杂的环境，在线识别连续的康复动作准确率达90.66％。

附图说明

图1是根据本发明基于单目视觉的在线人体康复动作识别方法一实施例的流程图；

图2是根据本发明基于单目视觉的在线人体康复动作识别方法另一实施例中人体骨架特征和动作特征示意图；

图3是根据本发明基于单目视觉的在线人体康复动作识别方法另一实施例中动作分类模型组成示意图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1显示了本发明基于单目视觉的在线人体康复动作识别方法一实施例的流程图。在图1中，包括以下步骤：

第一步，建模训练S1，包括采集样本S101、提取特征S102、构建模型S103和模型训练S104四个分步骤：

在所述采集样本S101中，通过单目视觉采集设备拍摄人体动作样本，分别获得康复动作短视频样本和正常动作短视频样本；

在所述提取特征S102中，将所述康复动作短视频样本中的每一帧图像中的人体形态进行提取，得到样本骨架特征，进一步根据所述样本骨架特征提取样本动作特征；

在所述构建模型S103中，构建分类模型，包括依次时空特征提取模块、双层GRU网络和Softmax分类器；

在所述模型训练S104中，将多个所述康复动作短视频样本和正常动作短视频样本对应的样本动作特征分别输入到所述分类模型中进行训练，训练所述分类模型中的参数，最终得到参数优化且能够对所述康复动作短视频样本和正常动作短视频样本进行分类识别的检测模型；

第二步，在线识别S2，包括识别目标S201、识别特征S202、识别动作S203三个分步骤：

在所述识别目标S201中，通过单目视觉采集设备在线实时获取监控视频流，对所述监控视频流中的每一帧图像进行姿态估计并识别目标人体，并对应得到包含所述目标人体的检测骨架特征的目标人体动作序列；

在所述识别特征S202中，对所述目标人体动作序列进行滑窗处理，识别所述目标人体动作序列的检测动作特征；

在所述识别动作S203中，将所述检测动作特征输入到所述检测模型中，由所述检测模型实时识别出所述检测动作特征对应的动作类型。

优选的，在所述采集样本S101中，所述单目视觉采集设备包括使用单镜头智能手机、单目摄像头采集人体动作样本，这里的人体动作样本是一段短视频，对于康复动作短视频样本则包括上下臂锻炼样本、左右臂锻炼样本和/坐起锻炼样本，正常动作短视频样本则包括静止站立、静止坐位、慢走、伸展等日常行为。

优选的，对于上述三种康复动作短视频样本对应的康复动作描述如表1中具体说明。

表1

动作类型	动作说明	目的
			上下臂锻炼	双手交叉扣手，双臂伸直自腹部向头顶运动	肩关节前屈
左右臂锻炼	双手交叉扣手，双臂伸直后向左右运动	肩关节内收、外展
			坐起锻炼	双臂交叉，由患侧负重站起	坐站训练

优选的，为了获得大量较好的康复动作短视频样本和正常动作短视频样本，由5位实验人员在3种不同的环境下采集而成，包含4种行为共964个短视频段，并且在光照、人体尺度、背景、拍摄角度方面都有变化。

优选的，在所述提取特征S102中，对于样本骨架特征的提取利用姿态估计方法OpenPose提取骨架关键点。这里，姿态估计方法OpenPose是基于深度学习实现的实时多人姿态估计开源库，能够实时的对图片中每个人的姿态进行精准的估计，实现面部、躯干、四肢以及手部骨骼点的提取。它兼顾了实时性与准确性，并且具有较强的鲁棒性。

优选的，这里采用的姿态估计方法OpenPose为多阶段预测网络结构，该框架以VGG-19网络模型为基础，将输入的图像转化为图像特征F，通过分阶段预测分别回归,其中表示的是亲和度向量场，描述关键点在骨架中的走向；表示关键点的置信度。该结构将每一次预测分为6个阶段，通过前4个阶段预测亲和度向量，而后两个阶段预测置信度。在每个后续阶段，将前一阶段的预测结果与原始图像特征连接起来作为输入，用于生成更精细的预测。在得到关键点的置信度及亲和度之后，采用匈牙利算法对相邻关键点进行最优匹配，从而得到每一个人的骨架信息。姿态估计方法OpenPose实时性非常出色，并且设计了多种模型架构来兼容不同的硬件配置，采用单目摄像头即可获取可靠的关键点信息，而无需专用的深度摄像头。

优选的，采用在超大规模图像数据集COCO中预训练好的参数来初始化姿态估计方法OpenPose中的VGG-19网络模型。

优选的，将短视频样本中的每一帧图像的分辨率调整为432×368后输入到姿态估计方法OpenPose中的VGG-19网络模型，输出为人体的14个2D骨架关键点，包含脸、脖子、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左脚裸、右脚裸共14个部位。

优选的，对于康复动作短视频样本和正常动作短视频样本中每一个短视频样本，根据时序关系以三帧为间隔对一个短视频样本采样图像，并提取骨架关键点，以采样后的每帧图像作为一个时间步，每个时间步包含14个2D骨架关键点坐标，每个坐标对应两个特征，共28个特征。如图2所示，这14个2D骨架关键点坐标对应的28个特征为：脸(x₁,y₁)，脖子(x₂,y₂)，左肩(x₃,y₃)，右肩(x₄,y₄)，左肘(x₅,y₅)，右肘(x₆,y₆)，左腕(x₇,y₇)，右腕(x₈,y₈)，左胯(x₉,y₉)，右胯(x₁₀,y₁₀)，左膝(x₁₁,y₁₁)，右膝(x₁₂,y₁₂)，左脚裸(x₁₃,y₁₃)，右脚裸(x₁₄,y₁₄)。

优选的，由于不同的单目采集设备获取的视频分辨率不同，对应的这些骨架关键点i的坐标在不同像素图像中坐标值不同，为此可以进行优化，即分别将骨架关键点坐标进行归一化，即是将绝对坐标转化为相对坐标。将坐标值(x_i,y_i)分别与对应的视频分辨率(v_w,v_h)相比，归一化得到的坐标值均是在(0,1)范围，这样减小了不同视频分辨率以及不同骨架关键点的数值差异。

进一步的，根据所述样本骨架特征提取样本动作特征是通过14个骨架关键点提取13个动作向量来表达关节的运动信息，计算方式如下：

V_m＝(x₁₂,y₁₂)-(x₁₄,y₁₄)。

其中,(x_i,y_i)为骨架关键点i的坐标，V_a,V_b,…V_m即提取的13个动作向量，其中每一个动作向量对应2个特征，因此13个动作向量对应26个特征，即26个动作向量特征。

优选的，如图3所示，在所述构建模型中，为了充分地挖掘序列的关系，结合一维卷积与双层GRU设计了动作分类模型。

进一步的，在时空特征提取模块12中，首先通过多层一维卷积并结合BN(批归一化)层与池化层自动提取时空特征，第一卷积层conv1与第二卷积层conv2的卷积核数量为128，长度为8，第三卷积层conv3与第四卷积层conv4的卷积核数量为32，长度为8；三个池化层pool1、pool2和pool3的步长都为2，大小也为2，每一个池化层将输入的时间步减少一半。输入到时空特征提取模块12的是时间步为n、特征维度为26的动作向量序列。在时间序列上经过多层一维卷积后输出时间步为n/8、特征维度为32的时空特征。

优选的，在双层GRU网络13中，两个GRU网络单元的神经元个数为32，时间步长为输入到所述时空特征提取模块的动作向量序列的时间步长n的八分之一，即n/8，第一层隐藏层每个时间步的输出状态传递给第二层隐藏层，取最后一个时间步的输出向量传递给神经元个数为64的全连接层，最后通过Softmax分类器14进行动作类型的识别。

优选的，Softmax分类器14是通过Softmax激活函数将多个神经元的输出映射到(0,1)之间，即各个类别的数值转化为概率，概率最大的类别即判定为分类结果。此外人体的大部分时间为静止坐位、慢走、站立等正常活动，而将正常活动误识别为康复动作对于患者的康复过程是不可靠的。该分类模型将多种正常活动视为一类动作类型，同时进行康复动作以及正常活动的识别，提升了对康复动作识别的稳定性。

优选的，在所述模型训练中，可以将所述康复动作短视频样本和正常动作短视频样本构成的样本数据集以7：3的比例划分为训练集与测试集，其中70％的样本数据用于模型训练，30％的样本数据用于测试经过训练之后的模型对康复动作样本和正常动作样本识别的效果。

优选的，通过正态分布的方式生成随机值来初始化图3所示分类模型中的权重参数，这些样本采取分批量的方式输入到该分类模型中，然后进行前向传播得到损失值，采用Adam优化器来最小化损失值，继而通过反向传播进行参数的更新，结合L2正则化与Dropout来防止过拟合的风险，学习率设置为0.001。迭代运行10000次，训练完成后保存在测试集取得最优效果的参数。

优选的，在所述识别目标中,本发明以高精度1080P单目摄像头获取在线、实时监控视频流，由于监控视频中可能有多个人体，因此要对其中的目标观测对象进行识别，这是在线视频与样本视频明显不同的一个地方，并且也只有先自动识别出目标人体后才能排除干扰，对目标人体的运动动作进行类型识别。

优选的，在识别目标步骤中，首先要确认目标人体，摄像头开启后，通过前述的姿态估计方法OpenPose实时提取图像中的多人骨架关键点，也即是获得了每一帧图像中的多人的检测骨架特征，计算图像中每个人体i中的骨架关键点的y轴坐标最大值、最小值之差

其中最大

值对应的人体i则认为距离摄像头最近，确定为在线动作识别的目标人体。通过该方法可以确定目标人体，以及目标人体对应的检测骨架特征。

接着是目标最近邻匹配，这是为了增强对目标人体识别的可靠性，还基于相邻帧图像进行识别，以脖颈部位的关键点坐标为基准坐标，计算当前帧每个人体i的基准坐标

然后是生成动作序列，结合上一步中最近邻匹配的结果，将视频流中目标人体的14个骨架关键点按照时序关系加入到动作序列中。若连续10帧没有检测到目标人体，则删除目标动作序列，重新开始确认目标人体。

由于在识别过程中是以在线的方式实时进行，需要不断的截取一段一段的短视频来进行动作类型识别，因此需要对输入的视频进行分段识别特征。而前述的样本处理中不要这一步骤，因为这些样本短视频是预处理截取好的视频段。

优选的，在所述识别特征中，这里以滑动窗口的方式从目标人体的动作序列中识别检测动作特征，这里设置滑动窗口的大小为n，例如优选n＝80，即连续80帧图像作为一组分段，滑窗间隔设置为k，例如优选k＝10帧。为了合理利用资源，设计队列的方式进行滑窗处理，假设动作队列为T，滑窗提取检测动作特征的流程如下:

第一步骤，目标人体的骨架关键点不断加入队列，直到队列长度为n，即T＝[T₁,T₂,T₃,…,T_n]，然后识别该队列的检测动作特征；

第二步骤，从队头删除T₁,T₂,…T_k，队尾不断加入后续的k帧对应的目标人体的骨架关键点即T_n+1,T_n+2,…T_n+k,组合成新的队列分段[T_k+1,T_k+2,T_k+3,…,T_n,T_n+1,T_n+2,…T_n+k]，然后新的队列的检测动作特征；

第三步骤，重复第二步骤，直至该目标人体消失。

优选的，在所述识别目标和识别特征中，对目标人体对应的检测骨架特征和检测动作特征的识别方法与前述对样本骨架特征和检测动作特征的提取方法相同，例如，将每个图像帧中的目标人体有14个2D骨架关键点，共28个特征，再通过14个骨架关键点提取13个动作向量来表达关节的运动信息，以及将坐标值(x,y)分别比视频分辨率(v_w,v_h)归一化到(0,1)范围，这些方法与前述方法相同，这里不再赘述。

优选的，在所述识别动作中，由前述滑动窗口提取分段后的每一帧图像对应的26个动作向量特征连续输入到经过训练后的检测模型中，经过前向传播并通过Softmax分类器识别得出概率最大的动作类型，实时输出目标人体正在发生的动作类别与置信度，其中置信度表达了该动作的标准程度。

为了更好的验证本发明的技术效果，对本发明进行了测试验证。在建模训练阶段，为了客观评本发明方法的准确性以及在康复场景的可用性，本文选取一个公开数据集KTH，采集了一组康复动作数据集。其中，KTH是计算机视觉一个具有标志性的数据集，包含了4类场景下25个志愿者的6种行为:慢跑(Jogging)、步行(Walking)、跑步(Running)、拳击(Boxing)、挥手(Hand waving)和拍手(Hand clappong)。该数据集一共599个视频，每秒25帧，分辨率为160×120，具有人体尺度、光照的变化，背景较为简单。康复动作数据集由5位实验人员在3种不同的环境下采集而成，包含4类行为共964个视频段，具有光照、人体尺度、背景、拍摄角度的变化。行为类型分为三种康复动作以及一类正常活动动作，其中康复动作为上下臂锻炼、左右臂锻炼和坐起锻炼，正常活动包括静止站立、静止坐位、慢走、伸展等日常行为，具体动作说明如表1所示。每个视频的分辨率为1280*720或1920*1080，帧速率为每秒15帧，视频段持续时间为8到15秒之间。

动作识别数据集的对比分析通常采用准确率作为评价标准，为分析不同的模型设置对识别精度的影响，实验分别从GRU网络的隐藏层节点个数、时间步长以及特征预处理三个方面对KTH与康复动作数据集进行分析。实验分别将GRU网络的隐藏层节点个数设置为16、32、64、128，时间步长统一设置为50，实验结果如表2所示。当隐藏层节点个数依次增加时，KTH与康复动作数据集的识别准确率分别提高至97.22％、100％。依据实验结果选取最佳的隐藏层节点数量，在KTH数据集下的隐藏层节点个数设置为64，康复动作数据集中设置为32。

表2隐藏层节点个数对精度的影响

选取合理的时间步长对于识别精度是至关重要的，过短的时间步不能够充分表达一个动作，而过长的时间步则导致运算速度慢，冗余的信息也会干扰识别过程。实验分别将时间步长设置为10、20、40、50、60、80，KTH数据集中隐藏层节点个数设置为64，康复动作数据集中隐藏层节点设置为32，实验结果如表3所示。通过识别精度在每个数据集选取合理的时间步长，时间步长在KTH与康复动作数据集中分别大于50、40后模型的精度不再提高，即两个数据集通过提取的前50、40帧图像就能够达到最好的识别效果。

表3时间步长对精度的影响

对于在线识别，相比建模训练阶段的数据集，在线动作识别更具挑战性。为测试康复训练场景下动作识别的效果，通过精度为1080P的单目摄像头捕获连续的视频流，采用在康复动作数据集中训练好的参数初始化分类网络。考虑到康复活动发生过程较慢，间隔3帧采样图像，采用时间步长为80、隐藏层节点个数为32的分类网路参数。实时获取系统时间作为参考，其中加入了无关人员的干扰，并且目标人体的位置产生了移动。本发明方法的处理能力达18FPS，能够持续捕捉并判断监控流中目标人体的康复动作，实时输出目标位置、动作类型以及动作概率，对于活动位置、其它人员干扰具有较强的适应能力。

为了客观展示本发明方法于在线动作识别方式下对康复动作的识别准确率，实验人员连续做左右臂锻炼、上下臂锻炼以及坐起锻炼各50次，并以站立、慢走等正常活动作为间隔动作。实验结果如表4所示，算法平均识别率达93％，且不易将正常活动误识别为康复动作，在线场景下能够有效进行康复动作识别。然而相对于在康复动作数据集中的表现，在线场景下模型对三种康复动作的平均识别率仅90.66％，原因在于实时环境下不同目标的动作行为存在较大的不确定性，需要更加充分的数据集训练分类网络来进一步达到更好的识别效果。

表4连续动作识别结果

由此可见，本发明公开了一种基于单目视觉的在线人体康复动作识别方法。该方法包括建模训练和在线识别，建模训练步骤中包括采集样本、提取特征、构建模型和模型训练四个分步骤，在线识别步骤中包括识别目标、识别特征和识别动作三个分步骤。通过以上步骤，本发明融合姿态估计方法OpenPose与最近邻匹配方法对监控视频流中的目标人体进行识别并生成动作序列，再通过滑动窗口从动作序列中识别检测动作特征，再将检测动作特征输入到经过建模训练得到的检测模型中进行康复动作识别。本发明只需对每帧图像中提取的少数关节点进行处理从而极大地降低了计算成本，模型易于部署，能够适应非理想、嘈杂的环境，在线识别连续的康复动作准确率达90.66％。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于单目视觉的在线人体康复动作识别方法，其特征在于，包括以下步骤：

第一步，建模训练，包括采集样本、提取特征、构建模型和模型训练四个分步骤：

在所述采集样本中，通过单目视觉采集设备拍摄人体动作样本，分别获得康复动作短视频样本和正常动作短视频样本；

在所述提取特征中，将所述康复动作短视频样本中的每一帧图像中的人体形态进行提取，得到样本骨架特征，进一步根据所述样本骨架特征提取样本动作特征；

在所述构建模型中，构建分类模型，包括依次时空特征提取模块、双层GRU网络和Softmax分类器；

在所述模型训练中，将多个所述康复动作短视频样本和正常动作短视频样本对应的样本动作特征分别输入到所述分类模型中进行训练，训练所述分类模型中的参数，最终得到参数优化且能够对所述康复动作短视频样本和正常动作短视频样本进行分类识别的检测模型；

第二步，在线识别，包括识别目标、识别特征、识别动作三个分步骤：

在所述识别目标中，通过单目视觉采集设备在线实时获取监控视频流，对所述监控视频流中的每一帧图像进行姿态估计并识别目标人体，并对应得到包含所述目标人体的检测骨架特征的目标人体动作序列；

在所述识别特征中，对所述目标人体动作序列进行滑窗处理，识别所述目标人体动作序列的检测动作特征；

在所述识别动作中，将所述检测动作特征输入到所述检测模型中，由所述检测模型实时识别出所述检测动作特征对应的动作类型；

在所述提取特征分步骤中，通过姿态估计方法OpenPose提取人体的14个骨架关键点作为样本骨架特征，包括脸、脖子、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左脚裸、右脚裸共14个部位对应的骨架关键点；所述14个骨架关键点的坐标对应的28个特征为：脸(x₁,y₁)，脖子(x₂,y₂)，左肩(x₃,y₃)，右肩(x₄,y₄)，左肘(x₅,y₅)，右肘(x₆,y₆)，左腕(x₇,y₇)，右腕(x₈,y₈)，左胯(x₉,y₉)，右胯(x₁₀,y₁₀)，左膝(x₁₁,y₁₁)，右膝(x₁₂,y₁₂)，左脚裸(x₁₃,y₁₃)，右脚裸(x₁₄,y₁₄)；所述样本骨架特征提取样本动作特征是通过所述14个骨架关键点提取13个动作向量来表达关节的运动信息，计算方法如下：

V_m＝(x₁₂,y₁₂)-(x₁₄,y₁₄)；

其中,(x_i,y_i)为骨架关键点i的坐标，V_a,V_b,…V_m为提取的13个动作向量，其中每一个动作向量对应2个特征，13个动作向量对应26个特征；对所述骨架关键点i的坐标(x_i,y_i)进行归一化处理，即将坐标值(x_i,y_i)分别与对应的视频分辨率(v_w,v_h)相比，归一化得到的坐标值均是在(0,1)范围；其中，x_i和y_i是骨架关键点i对应坐标(x_i,y_i)中的横坐标值和纵坐标值，v_w和v_h是视频分辨率(v_w,v_h)对应的视频中每帧图像中包含的像素的横向位置和纵向位置；

在所述时空特征提取模块中，通过多层一维卷积并结合BN层与池化层自动提取时空特征，第一卷积层与第二卷积层的卷积核数量为128，长度为8，第三卷积层与第四卷积层的卷积核数量为32，长度为8；三个池化层的步长都为2，大小也为2，每一个池化层将输入的时间步减少一半；在所述双层GRU网络中，两个GRU网络单元的神经元个数为32，时间步长为输入到所述时空特征提取模块的动作向量序列的时间步长n的八分之一，第一层隐藏层每个时间步的输出状态传递给第二层隐藏层，取最后一个时间步的输出向量传递给神经元个数为64的全连接层，最后通过Softmax分类器进行动作类型的识别；

在所述识别目标分步骤中进一步包括：

首先，确认目标人体，摄像头开启后，通过前述的姿态估计方法OpenPose实时提取图像中的多人的骨架关键点，计算图像中每个人体i中的骨架关键点的y轴坐标最大值、最小值之差

其中最大

值对应的人体i则认为距离摄像头最近，确定为在线动作识别的目标人体；

接着，目标最近邻匹配，以脖子部位的关键点坐标为基准坐标，计算当前帧每个人体i的基准坐标

2.根据权利要求1所述的基于单目视觉的在线人体康复动作识别方法，其特征在于，在所述识别特征分步骤中，以滑动窗口的方式从目标人体的动作序列中提取分段的检测动作特征，流程如下:

第一步骤，目标人体的检测骨架特征不断加入队列，直到队列长度为n，即T＝[T₁,T₂,T₃,…,T_n]，然后识别该队列的检测动作特征；

第二步骤，从队头删除T₁,T₂,…T_k，队尾不断加入后续的k帧对应的目标人体的骨架关键点即T_n+1,T_n+2,…T_n+k,组合成新的队列分段[T_k+1,T_k+2,T_k+3,…,T_n,T_n+1,T_n+2,…T_n+k]，然后识别新的队列的检测动作特征；

第三步骤，重复第二步骤，直至该目标人体消失。

3.根据权利要求2所述的基于单目视觉的在线人体康复动作识别方法，其特征在于，在所述识别动作分步骤中，由滑动窗口提取分段后的每一帧图像对应的26个动作向量特征连续输入到经过训练后的检测模型中，经过前向传播并通过Softmax分类器识别得出概率最大的动作类型，实时输出目标人体正在发生的动作类别与置信度，其中，置信度表达了该动作的标准程度。

4.根据权利要求1至3中任一项所述的基于单目视觉的在线人体康复动作识别方法，其特征在于，在所述采集样本分步骤中，所述康复动作短视频样本则包括上下臂锻炼样本、左右臂锻炼样本和/或坐起锻炼样本。