CN112966628A

CN112966628A - 一种基于图卷积神经网络的视角自适应多目标摔倒检测方法

Info

Publication number: CN112966628A
Application number: CN202110287827.5A
Authority: CN
Inventors: 曾碧; 陈文轩; 刘建圻
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-15

Abstract

本发明为克服因依赖数据集所导致的视角问题导致摔倒检测准确率低的问题，公开了一种基于图卷积神经网络的视角自适应多目标摔倒检测方法，包括以下步骤：采用目标检测算法检测目标视频源中每一帧图像的人物目标，采用姿态估计算法提取每一帧图像中人物目标的关键骨骼点数据，当连续检测到同一人物目标的帧数大于预设的检测阈值时，将所提取的关键骨骼点数据输入完成训练的视角自适应子网络中，得到视角调整参数；根据视角调整参数对关键骨骼点数据进行视角调整，再根据视角调整后的关键骨骼点数据计算运动数据，将视角调整后的关键骨骼点数据和运动数据输入完成训练的图卷积摔倒识别主网络进行摔倒检测，输出检测结果标签。

Description

一种基于图卷积神经网络的视角自适应多目标摔倒检测方法

技术领域

本发明涉及动作识别摔倒检测技术领域，更具体地，涉及一种基于图卷积神经网络的视角自适应多目标摔倒检测方法。

背景技术

针对老年群体的跌倒检测，目前主要利用视频流图像数据、佩戴式的陀螺仪传感器数据、地板传感器数据或者是骨骼数据等等进行检测摔倒。其中，基于佩戴式传感器的摔倒检测方法是让老人在腰部、手腕等地方穿戴陀螺仪、压力传感器等组成的装置，不仅使老人行动不便，而且识别准确率较低。

而在基于计算机视觉分析的摔倒检测方法中，智能视频监控与传统视频监控有本质区别，智能视频监控不需要人工实时观察，而是通过计算机智能识别视频中发生的事件，具体做法是通过摄像头实时获得视频流数据，对视频中的人物进行检测、跟踪，在提取了一系列必要的特征后由某种方法判断人物的行为，从而达到智能监控的效果；因此在老人摔倒检测的问题中应用智能监控技术，对比穿戴式的设备，可以在完全不干扰老人的日常生活下，实时捕获摔倒行为并通知救护人员。如公开号为CN110738154A(公开日：2020-01-31)公开了一种基于人体姿态估计的行人摔倒检测方法，基于LSTM模型与openpose，其中，openpose是自下而上的姿态估计算法，先检测骨骼点再使用匈牙利算法进行匹配，高精度的openpose算力较大，无法应用到实际场景，而轻量级的openpose在多人混淆时误检率较高，单纯利用骨骼信息的跟踪算法难以满足复杂情况，对后续的判断有较大的影响；而LSTM虽说可以很好地捕捉时间序列的信息，但是缺乏空间信息的解读，并且依赖数据集，而目前现有的能应用于摔倒检测的训练数据集非常有限，并且难以囊括所有的视角，不能自适应不同视角的位置部署，仍然存在摔倒检测准确率低的问题。

发明内容

本发明为解决现有的摔倒检测方法中，因依赖数据集所导致的视角问题导致摔倒检测准确率低的问题，提供一种基于图卷积神经网络的视角自适应多目标摔倒检测方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于图卷积神经网络的视角自适应多目标摔倒检测方法，包括以下步骤：

采用目标检测算法检测训练视频源中每一帧图像的人物，采用姿态估计算法提取训练视频源中每一帧图像的关键骨骼点数据，根据所提取的关键骨骼点数据作为训练集并进行预处理；

将预处理后的训练集输入视角自适应子网络中进行训练及视角调整，并根据视角调整后的关键骨骼点数据计算样本运动数据，将视角调整后的训练集和所述样本运动数据输入图卷积摔倒识别主网络中进行训练；

采用目标检测算法检测目标视频源中每一帧图像的人物目标，采用姿态估计算法提取每一帧图像中人物目标的关键骨骼点数据，当连续检测到同一人物目标的帧数大于预设的检测阈值时，将所提取的关键骨骼点数据输入完成训练的视角自适应子网络中，得到视角调整参数；

根据所述视角调整参数对所述关键骨骼点数据进行视角调整，再根据视角调整后的关键骨骼点数据计算运动数据，将所述视角调整后的关键骨骼点数据和所述运动数据输入完成训练的图卷积摔倒识别主网络进行摔倒检测，输出检测结果标签。

作为优选方案，对训练集进行预处理的步骤包括：对单帧图像的关键骨骼点数据逐一进行归一化处理，再对所有关键骨骼点数据进行平均归一化处理；对训练视频源中每一帧图像进行动作识别并标注标签，对所述标签进行平滑化处理；根据所述标签确定训练视频源中的动作衔接帧，以所述动作衔接帧作为交界取前8帧图像及后8帧图像进行前一动作递减以及后一动作递增处理，再乘以对应图像帧中所有关键骨骼点数据的平均值。

作为优选方案，所述关键骨骼点数据包括：鼻节点、左肩部节点、右肩部节点、左肘部节点、右肘部节点、左手腕节点、右手腕节点、左胯部节点、右胯部节点、左膝盖节点、右膝盖节点、左脚踝节点、右脚踝节点、胸节点，其中，胸节点利用左肩部节点和右肩部节点进行构建。

作为优选方案，采用目标检测算法检测视频源中每一帧图像的人物的步骤包括：采用YOLOv5目标检测算法逐帧捕捉视频源中的人物；若当前图像中检测到人物，采用姿态估计算法提取当前图像的关键骨骼点数据；若当前图像中没有检测到人物，采用YOLOv3目标检测算法捕捉当前图像帧的人物，若当前图像中检测到人物，采用姿态估计算法提取当前图像的关键骨骼点数据，否则对下一帧图像进行检测。

作为优选方案，所述姿态估计算法包括ResNet152和/或ResNet50，以及SSTN网络；采用膨胀优化算法EDO对所述姿态估计算法网络中的ResNet152和ResNet50残差网络结构进行优化；所述SSTN网络对姿态估计算法中的检测框偏移值进行优化。

作为优选方案，还包括以下步骤：采用以优化后的检测框作为输入的多目标跟踪算法捕捉检测人物目标，并设置人物目标对应的追踪ID；根据相邻两帧图像的检测框重合度IOU并结合检测框内图像特征，逐一判断相邻两帧图像目标的追踪ID是否一致：若是，则判定目标连续存在于相邻两帧图像；若否，则判定目标不连续存在于相邻两帧图像。

作为优选方案，还包括以下步骤：设置关节置信度阈值范围，扩大影响摔倒行为检测的胸节点、左肩膀、右肩膀、左胯部、右胯部的关节置信度，应用于姿态估计算法提取骨骼点数据。

作为优选方案，对所述关键骨骼点数据进行视角调整的步骤包括：根据视频源第一帧图像建立全局坐标轴，获取第一帧图像关键骨骼点数据的坐标；将其他帧图像的关键骨骼点数据输入视角自适应子网络得到样本视角调整参数；所述样本视角调整参数包括：与第一帧图像关键骨骼点数据的坐标相比，在x轴方向上的平移距离d_x、在y轴方向的平移距离d_y、绕x轴旋转角度α、绕y轴的旋转角度β、关于置信度的注意力参数φ；将其他帧图像关键骨骼点数据的坐标分别根据所述样本视角调整参数进行视角平移、旋转调整。

作为优选方案，根据视角调整后的关键骨骼点数据计算样本运动数据或运动数据的步骤包括：将后一帧图像关键骨骼点的坐标与前一帧图像关键骨骼点的坐标进行相减得到训练集帧间运动数据；将所述帧间运动数据进行整合作为样本运动数据或运动数据。

作为优选方案，所述图卷积摔倒识别主网络邻接设置有3个可学习的邻接矩阵，所述邻接矩阵包括分别由人体骨骼机理连接的矩阵及静止运动子集组成的矩阵、由向心运动子集组成的矩阵、由离心运动子集组成的矩阵。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过采用视角自适应子网络对采集的关键骨骼点数据进行视角调整，实现“检测观察”视角的优化；根据视角调整后的关键骨骼点数据计算运动数据，将视角调整后的关键骨骼点数据和运动数据分别输入图卷积摔倒识别主网络进行摔倒检测，能同时捕捉空间信息和时间信息，有效提高摔倒检测准确率。

附图说明

图1为本发明的基于图卷积神经网络的视角自适应多目标摔倒检测方法的流程图；

图2为本发明的摔倒检测阶段的流程图；

图3为实施例1的图卷积摔倒识别主网络的结构示意图；

图4为实施例1的根据先验知识获得的固定的全局图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。

需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

本实施例提出一种基于图卷积神经网络的视角自适应多目标摔倒检测方法，如图1～2所示，为本实施例的基于图卷积神经网络的视角自适应多目标摔倒检测方法的流程图。

首先，本实施例中的关键骨骼点数据包括鼻节点、左肩部节点、右肩部节点、左肘部节点、右肘部节点、左手腕节点、右手腕节点、左胯部节点、右胯部节点、左膝盖节点、右膝盖节点、左脚踝节点、右脚踝节点、胸节点等14个节点，其中，胸节点利用左肩部节点和右肩部节点进行构建。

本实施例提出的基于图卷积神经网络的视角自适应多目标摔倒检测方法中，包括以下步骤：

S1：采用目标检测算法检测训练视频源中每一帧图像的人物，采用姿态估计算法提取训练视频源中每一帧图像的关键骨骼点数据，根据所提取的关键骨骼点数据作为训练集并进行预处理。

本实施例中的姿态估计算法包括ResNet152、ResNet50、SSTN网络，其中，ResNet152和/或ResNet50连接在姿态估计主网络前，用于检测图像帧的关键骨骼点数据；SSTN网络连接在姿态估计主网络后，用于对目标检测算法中的检测框进行偏移优化，形成更加稳定的检测框。本实施例采用开源的膨胀优化算法EDO对ResNet152、ResNet50残差网络进行优化。

本步骤中，先采用YOLOv5目标检测算法对训练视频源进行逐帧捕捉人物目标，当检测到人物目标时，采用姿态估计算法提取当前图像的关键骨骼点数据；当没有检测到人物目标时，则采用YOLOv3目标检测算法捕捉当前图像帧的人物目标，若当前图像中检测到人物，则采用姿态估计算法提取当前图像的关键骨骼点数据，否则对下一帧图像进行检测。

特别的，在本步骤的关键骨骼点数据训练集构建过程中，在采用姿态估计算法提取当前图像的关键骨骼点数据时，其中的ResNet152和ResNet50残差网络对当前图像的关键骨骼点数据进行提取，并选择高置信度的骨骼点作为数据集，得到关键骨骼点数据。

本实施例中设置有关节置信度阈值范围，扩大影响摔倒行为检测的胸节点、左肩膀、右肩膀、左胯部、右胯部的关节置信度，应用于姿态估计算法提取骨骼点数据。

进一步的，对训练集进行预处理的步骤包括：对单帧图像的关键骨骼点数据逐一进行归一化处理，再对所有关键骨骼点数据进行平均归一化处理；对训练视频源中每一帧图像进行动作识别并标注标签，对所述标签进行平滑化处理；根据所述标签确定训练视频源中的动作衔接帧，以所述动作衔接帧作为交界取前8帧图像及后8帧图像进行前一动作递减以及后一动作递增处理，再乘以对应图像帧中所有关键骨骼点数据的平均值。

本实施例中，将每30帧图像得到的关键骨骼点数据作为一个训练子集，并将第一帧图像的动作标签作为该训练自己的标签。

S2：将预处理后的训练集输入视角自适应子网络中进行训练及视角调整，并根据视角调整后的关键骨骼点数据计算样本运动数据，将视角调整后的训练集和所述样本运动数据输入图卷积摔倒识别主网络中进行训练。

本实施例中，对训练集中的关键骨骼点数据进行视角调整的步骤包括：

根据训练视频源第一帧图像建立全局坐标轴，获取第一帧图像关键骨骼点数据的坐标(x₀,y₀)；

将其他帧图像的关键骨骼点数据输入视角自适应子网络得到样本视角调整参数；其中，样本视角调整参数包括：第t帧(t＝1,2,...,n，n为图像帧总数)图像关键骨骼点数据的坐标(x_t,y_t)与第一帧图像关键骨骼点数据的坐标(x₀,y₀)相比，在x轴方向上的平移距离d_x＝|x₀-x_t|、在y轴方向的平移距离d_y＝|y₀-y_t|、绕x轴旋转角度α_t、绕y轴的旋转角度β_t、关于置信度的注意力参数φ；将其他帧图像关键骨骼点数据的坐标分别根据所述样本视角调整参数进行视角平移、旋转调整。

本实施例以四元素旋转矩阵表示上述样本视角调整参数，其表达公式如下：

其中，

表示绕x轴旋转矩阵，

表示绕y轴的旋转矩阵，

表示绕z轴的旋转矩阵，由于本实施例使用的是二维姿态估计算法，因此γ_t使用0表示；将角度α_t、β_t代入上述四元素旋转矩阵实现位移和旋转。

本实施例中，根据视角调整后的关键骨骼点数据计算样本运动数据或运动数据的步骤包括：将后一帧图像关键骨骼点的坐标与前一帧图像关键骨骼点的坐标进行相减得到训练集帧间运动数据；将所述帧间运动数据进行整合作为样本运动数据或运动数据。

S3：采用目标检测算法检测目标视频源中每一帧图像的人物目标，采用姿态估计算法提取每一帧图像中人物目标的关键骨骼点数据，当连续检测到同一人物目标的帧数大于预设的检测阈值时，将所提取的关键骨骼点数据输入完成训练的视角自适应子网络中，得到视角调整参数。

特别的，本步骤采用姿态估计算法提取每一帧图像中人物目标的关键骨骼点数据时，仅采用ResNet50残差网络对当前图像的关键骨骼点数据进行提取。

本步骤中，采用经SSTN网络优化后的检测框作为输入的多目标跟踪算法捕捉检测人物目标，并设置人物目标对应的追踪ID；根据相邻两帧图像的检测框重合度IOU并结合检测框内图像特征，逐一判断相邻两帧图像目标的追踪ID是否一致：若是，则判定目标连续存在于相邻两帧图像；若否，则判定目标不连续存在于相邻两帧图像。

本实施例中，当同一个追踪ID存储的关键骨骼点数据达到30帧时(即当连续检测到同一人物目标的帧数大于30帧时)，将所提取的关键骨骼点数据输入完成训练的视角自适应子网络中，得到视角调整参数。

S4：根据所述视角调整参数对所述关键骨骼点数据进行视角调整，再根据视角调整后的关键骨骼点数据计算运动数据，将所述视角调整后的关键骨骼点数据和所述运动数据输入完成训练的图卷积摔倒识别主网络进行摔倒检测，输出检测结果标签。

进一步的，本实施例中的图卷积摔倒识别主网络AAGCN包括3个可学习的邻接矩阵，如图3所示，为本实施例的图卷积摔倒识别主网络的结构示意图。

其中，TCN模块为对时间维度卷积操作模块，不改变数据维度。

本实施例中的图卷积摔倒识别主网络中设置的邻接矩阵包括如下的矩阵形式：

(1)根据人体骨骼机理连接的矩阵加上以图4中S_i2节点为代表的静止运动子集(单位矩阵)；

(2)以图4中S_i1节点为代表的向心运动子集，其中以每个S_i2节点为代表产生的多个S_i1节点，S_i1节点比S_i2节点更靠近重心X；

(3)以图4中S_i3节点为代表的离心运动子集，以每个S_i2节点为代表产生的多个S_i3节点，S_i3节点比S_i2节点更远离重心X。

其中，图4为本实施例根据先验知识获得的图卷积网络的节点子集分布的全局图，网络中还有根据节点之间的特征相似性建立关系的局部图。一方面全局图可以为网络的学习提供运动时的骨骼之间的基本连接信息，让网络不至于随意学习，另一方面局部图提供了远离关节点的非连接关系，为每个样本学习唯一拓扑的独立图；其连接关系和强度由标准化的嵌入高斯函数来进行估计，高斯函数的计算公式如下：

其中

和θ是两个嵌入函数，υ_i表示骨骼节点i的输入特征映射，υ_j骨骼节点j的输入特征映射表示，N表示骨骼节点总数；该特征映射是将骨骼的二维信息和帧间差信息拼接后经过双层全连接层后进行的非线性表示。

注意力模块，分别是关节点注意力、帧注意力以及关节点信息注意力，其表达公式如下：

M_t＝σ(g_t(AvgPool(f_in))

M_s＝σ(g_s(AvgPool(f_in))

M_c＝σ(W₂(δ(W₁(AvgPool(f_in)))))

式中，M_t表示输入特征图加上帧注意力后的注意力图，M_s表示输入特征图加上空间注意力后的注意力图，M_c表示输入特征图加上通道注意力后的注意力图，f_in表示输入特征图；g_t、g_s都表示一维卷积，W₁、W₂表示全连接层。

本实施例中，通过视角自适应子网络去优化“观察”角度，采用邻接矩阵自适应图卷积神经网络AAGCN去学习检测摔倒，模型更容易拟合并且效果更好，因为其能同时捕捉空间信息和时间信息，在以往固定的邻接矩阵的基础上加上自学习的邻接矩阵，实现网络在高层处捕获到自己所需的语义信息。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于图卷积神经网络的视角自适应多目标摔倒检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的视角自适应多目标摔倒检测方法，其特征在于，对训练集进行预处理的步骤包括：对单帧图像的关键骨骼点数据逐一进行归一化处理，再对所有关键骨骼点数据进行平均归一化处理；对训练视频源中每一帧图像进行动作识别并标注标签，对所述标签进行平滑化处理；根据所述标签确定训练视频源中的动作衔接帧，以所述动作衔接帧作为交界取前8帧图像及后8帧图像进行前一动作递减以及后一动作递增处理，再乘以对应图像帧中所有关键骨骼点数据的平均值。

3.根据权利要求2所述的视角自适应多目标摔倒检测方法，其特征在于，所述关键骨骼点数据包括：鼻节点、左肩部节点、右肩部节点、左肘部节点、右肘部节点、左手腕节点、右手腕节点、左胯部节点、右胯部节点、左膝盖节点、右膝盖节点、左脚踝节点、右脚踝节点、胸节点，其中，胸节点利用左肩部节点和右肩部节点进行构建。

4.根据权利要求3所述的视角自适应多目标摔倒检测方法，其特征在于，采用目标检测算法检测视频源中每一帧图像的人物的步骤包括：

采用YOLOv5目标检测算法逐帧捕捉视频源中的人物；

若当前图像中检测到人物，采用姿态估计算法提取当前图像的关键骨骼点数据；

若当前图像中没有检测到人物，采用YOLOv3目标检测算法捕捉当前图像帧的人物，若当前图像中检测到人物，采用姿态估计算法提取当前图像的关键骨骼点数据，否则对下一帧图像进行检测。

5.根据权利要求4所述的视角自适应多目标摔倒检测方法，其特征在于，所述姿态估计算法包括ResNet152和/或ResNet50，以及SSTN网络；采用膨胀优化算法EDO对所述姿态估计算法网络中的ResNet152和ResNet50残差网络结构进行优化；所述SSTN网络对姿态估计算法中的检测框偏移值进行优化。

6.根据权利要求5所述的视角自适应多目标摔倒检测方法，其特征在于，还包括以下步骤：

采用以优化后的检测框作为输入的多目标跟踪算法捕捉检测人物目标，并设置人物目标对应的追踪ID；根据相邻两帧图像的检测框重合度IOU并结合检测框内图像特征，逐一判断相邻两帧图像目标的追踪ID是否一致：若是，则判定目标连续存在于相邻两帧图像；若否，则判定目标不连续存在于相邻两帧图像。

7.根据权利要求5所述的视角自适应多目标摔倒检测方法，其特征在于，还包括以下步骤：设置关节置信度阈值范围，扩大影响摔倒行为检测的胸节点、左肩膀、右肩膀、左胯部、右胯部的关节置信度，应用于姿态估计算法提取骨骼点数据。

8.根据权利要求1～7任一项所述的视角自适应多目标摔倒检测方法，其特征在于，对所述关键骨骼点数据进行视角调整的步骤包括：根据视频源第一帧图像建立全局坐标轴，获取第一帧图像关键骨骼点数据的坐标；将其他帧图像的关键骨骼点数据输入视角自适应子网络得到样本视角调整参数；所述样本视角调整参数包括：与第一帧图像关键骨骼点数据的坐标相比，在x轴方向上的平移距离d_x、在y轴方向的平移距离d_y、绕x轴旋转角度α、绕y轴的旋转角度β、关于置信度的注意力参数φ；将其他帧图像关键骨骼点数据的坐标分别根据所述样本视角调整参数进行视角平移、旋转调整。

9.根据权利要求8所述的视角自适应多目标摔倒检测方法，其特征在于，根据视角调整后的关键骨骼点数据计算样本运动数据或运动数据的步骤包括：将后一帧图像关键骨骼点的坐标与前一帧图像关键骨骼点的坐标进行相减得到训练集帧间运动数据；将所述帧间运动数据进行整合作为样本运动数据或运动数据。

10.根据权利要求8所述的视角自适应多目标摔倒检测方法，其特征在于，所述图卷积摔倒识别主网络邻接设置有3个可学习的邻接矩阵，所述邻接矩阵包括分别由人体骨骼机理连接的矩阵及静止运动子集组成的矩阵、由向心运动子集组成的矩阵、由离心运动子集组成的矩阵。