CN117423138A

CN117423138A - 基于多分支结构的人体跌倒检测方法、装置及系统

Info

Publication number: CN117423138A
Application number: CN202311746606.5A
Authority: CN
Inventors: 宗涛; 刘云川; 贺亮; 邓粤鹏; 肖亿; 周伟
Original assignee: Chongqing Hongbao Technology Co ltd; Sichuan Hongbaorunye Engineering Technology Co ltd
Current assignee: Chongqing Hongbao Technology Co ltd; Sichuan Hongbaorunye Engineering Technology Co ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-01-19
Anticipated expiration: 2043-12-19
Also published as: CN117423138B

Abstract

本申请揭示了基于多分支结构的人体跌倒检测方法、装置及系统，所述方法包括：S100：采集作业现场图像；S200：对所采集的图像进行预处理；S300：构建人体姿态估计模型并训练；S400：基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息；S500：构建人体跌倒检测模型并训练；S600：将所述人体关键点信息输入训练好的人体跌倒检测模型，以对人体是否跌倒进行检测。本申请能够提高人体姿态检测精度以及对人体是否跌倒进行准确判断。

Description

基于多分支结构的人体跌倒检测方法、装置及系统

技术领域

本申请属于人工智能领域，具体涉及基于多分支结构的人体跌倒检测方法、装置及系统。

背景技术

在油气作业区，由于现场工作环境复杂，安全风险较高，跌倒事故时有发生，给工作人员的人身安全带来了较大的威胁。传统的跌倒检测方法主要基于硬件设备（陀螺仪或者加速器）和传统计算机视觉两种方案，存在设备成本高、检测精度低和对环境的适应性差等问题。同时，在大型站场，监控数量和并行运行的算法数量可能会很多，传统的检测方法需要传输大量的数据到云端进行处理，带来了较大的带宽压力和延迟，不利于实时的跌倒检测。

发明内容

针对现有技术中的不足，本申请的目的在于提供一种基于多分支结构的人体跌倒检测方法，该方法受到复杂背景带来的影响较小，同时网络参数量较小，使得模型在运行时占用的资源较少，从而能够提高人体姿态检测精度以及对人体是否跌倒进行准确判断。

为实现上述目的，本申请提供以下技术方案：

一种基于多分支结构的人体跌倒检测方法，包括如下步骤：

S100：采集作业现场图像；

S200：对所采集的图像进行预处理；

S300：构建人体姿态估计模型并训练；

S400：基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息；

S500：构建人体跌倒检测模型并训练；

S600：将所述人体关键点信息输入训练好的人体跌倒检测模型，以对人体是否跌倒进行检测。

优选的，步骤S200中，对所采集的图像通过以下步骤进行预处理：随机角度旋转、随机亮度变换和添加高斯噪声。

优选的，步骤S300中，所述人体姿态估计模型通过以下步骤进行训练：

S301：获取多张包括人体的作业现场图像并进行预处理，对预处理后的图像中的人体关键点信息进行标注，将标注后的图像划分为训练集和测试集；

S302：设置训练参数，利用训练集对人体姿态估计模型进行训练，当达到预设训练次数，模型训练完成；

S303：利用测试集对训练后的人体姿态估计模型进行测试，在测试过程中，当识别精度达到90%或以上且模型运行速度小于2秒，模型测试通过；否则调整训练参数重新对模型进行训练，直至模型测试通过。

优选的，步骤S500中，所述人体跌倒检测模型通过以下步骤进行训练：

S501：获取包括人体跌倒后的人体关键点信息数据集，将数据集划分为训练集和测试集；

S502：设置训练参数，利用训练集对人体跌倒检测模型进行训练，当达到预设训练次数，模型训练完成；

S503：利用测试集对训练后的人体跌倒检测模型进行测试，在测试过程中，当识别精度达到90%或以上且模型运行速度小于2秒，测试通过；否则调整训练参数重新对模型进行训练，直至模型测试通过。

本申请还提供一种基于多分支结构的人体跌倒检测装置，包括：

采集模块，用于采集作业现场图像；

预处理模块，用于对所采集的图像进行预处理；

第一模型构建及训练模块，用于构建人体姿态估计模型并训练；其中，所述人体姿态估计模型采用高像素特征分支和低像素特征分支并列的多分支结构，通过融合不同分辨率的特征提高模型的位置敏感性和位置不变性；

获取模块，用于基于训练好的人体姿态估计模型获取预处理后的图像中的人体关键点信息；

第二模型构建及训练模块，用于构建人体跌倒检测模型并训练；其中，所述人体跌倒检测模型通过引入空间图卷积层和时间图卷积层以对人体是否跌倒进行综合判断；所述人体跌倒检测模型还引入了注意力机制模块，通过跨通道交互以提高通道注意力；

检测模块，用于将所述人体关键点信息输入训练好的人体跌倒检测模型，以对人体是否跌倒进行检测。

本申请还提供一种电子设备，包括：

存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，

所述处理器执行所述程序时实现如前任一所述的方法。

本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如前任一所述的方法。

本申请还提供一种基于多分支结构的人体跌倒检测系统，其特征在于，所述系统包括监控设备、从盒服务器和主盒服务器，其中，

所述监控设备用于采集作业现场图像，并将数据实时传输到从盒服务器；

所述从盒服务器用于基于所搭载的人体姿态估计模型获取人体关键点信息以及用于基于所搭载的人体跌倒检测模型对人体关键点信息进行检测，以对人体是否跌倒进行检测；

所述主盒服务器用于汇总各个从盒服务器产生的检测信息。

与现有技术相比，本申请带来的有益效果为：本方法在检测时的速度更快，并且在监控设备应用的场景中通过本方法对于复杂背景带来的影响较小，同时算法的网络参数量较小，使得模型在运行时占用的资源较少。

附图说明

图1为本申请一个实施例提供的一种基于多分支结构的人体跌倒检测方法流程图；

图2为本申请另一个实施例提供的人体姿态估计模型的结构示意图；

图3为本申请另一个实施例提供的深度可分离卷积的结构示意图；

图4为本申请另一个实施例提供的多分支残差网络的结构示意图；

图5为本申请另一个实施例提供的关键点的热力图；

图6为本申请另一个实施例提供的人体跌倒检测模型的结构示意图；

图7为本申请另一个实施例提供的注意力模块HECA的结构示意图；

图8为本申请另一个实施例提供的输出模块的结构示意图；

图9为本申请另一个实施例提供的人体跌倒检测系统的结构示意图。

具体实施方式

下面将参照附图1到图9详细地描述本申请的具体实施例。虽然附图中显示了本申请的具体实施例，然而应当理解，可以通过各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式，而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

为便于对本申请实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且各个附图并不构成对本申请实施例的限定。

一个实施例中，如图1所示，本申请提出一种基于多分支结构的人体跌倒检测方法，包括如下步骤：

S100：采集作业现场图像；

S200：对所采集的图像进行预处理；

S300：构建人体姿态估计模型并训练；

S500：构建人体跌倒检测模型并训练；

另一个实施例中，步骤S200中，对所采集的视频数据通过以下步骤进行预处理：随机角度旋转、随机亮度变换和添加高斯噪声。

本实施例中，通过对所采集的视频数据进行预处理，能够提高后续模型训练的鲁棒性，以增强模型的泛化能力，从而避免过拟合。

另一个实施例中，所述人体姿态估计模型包括高像素特征分支和低像素分支并行排列的多分支结构。

本实施例中，人体姿态估计模型采用多分支结构，在该多分支结构中，高像素特征分支与低像素特征分支并行排列，通过融合不同分辨率的特征以提高模型的位置敏感性和位置不变性。具体的，如图2所示，人体姿态估计模型包括依次连接的四个部分，第一部分包括一个分支，分辨率为，通道数为48；第二部分包括两个分支，分辨率分别为、，通道数分别为48、96；第三部分包括三个分支，分辨率分别为、、，通道数分别为 48、96、192；第四部分包括三个分支，分辨率分别为、、、，通道数分别为 48、96、192、384（图2中，每个部分的每个分支中的特征图的尺寸由上到下依次减小，表示分辨率依次降低，此外，为了避免分辨率下降造成特征图信息丢失，每个新增的低分辨率分支通道数增加一倍）。

下面，本实施例对人体姿态估计模型中以上所述的四个部分分别进行详细说明，具体说明如下：

1、第一部分通过使用Bottleneck模块进行特征提取，Bottleneck模块基于残差思想解决由于网络深度加深导致的网络学习能力退化问题。Bottleneck模块包括3个卷积层，第一和第三个卷积层均为1*1卷积，用于改变通道数；第二个卷积层为3*3卷积，该层的输入和输出的通道数相同；第三个卷积层的输出的通道数为输入的4倍。

Bottleneck模块的计算公式为：

其中，表示输入特征，表示输出特征，表示学习到的映射变换。采用残差思想的Bottleneck模块的主要优点在于特征再利用，通过特征再利用，可以减少特征冗余。当输入特征大小为（输入高度、输入宽度和输入深度），输出特征大小为（输出高度、输出宽度和输出深度），且卷积核大小为时，标准卷积可学习的参数量为，具体表示为：

2、第二部分通过使用深度可分离卷积和多分支残差模块（ResNeXt）对第一部分的输出特征进一步提取（其中，第一部分的输出特征中的一部分输入第二部分的第一分支，另一部分下采样后输入第二部分的第二分支）。第二部分的第一分支与第二分支的输出特征除输入第三部分中的对应分辨率分支外，还分别通过下采样和上采样输入第三部分的第二分支和第一分支，使得不同分辨率下的特征能够相互融合，进而使得第三部分的每个分支都含有第二部分中高、低分辨率下提取的特征，从而能够提取到准确且具有鲁棒性的特征，进而能够捕捉目标在不同尺度下的特征信息以提高模型对于人体姿态的识别能力。

如图3所示，第二部分中的深度可分离卷积包括依次连接的四个部分，第一部分包括输入层，输入维度为（3×512×256）的图像；第二部分包括一个深度卷积层（Depthwise Conv 3×256×128，卷积核大小为3，步长为2，填充为1）、一个卷积层（Pointwise Conv, 32×256×128，卷积层的卷积核大小为1，步长为1，填充为0）、一个批量归一化层BN和一个 Prelu激活函数；第三部分包括一个深度卷积层（Depthwise Conv 32×128×64，卷积核大小为3，步长为2，填充为1）、一个卷积层（Pointwise Conv 64×128×64，卷积核大小为 1，步长为1，填充为0）、一个批量归一化层BN和一个Prelu激活函数；第四部分包括一个深度卷积层（Depthwise Conv 64×64×32，卷积核大小为3，步长为2，填充为1）、一个卷积层（Pointwise Conv 128×64×32，卷积核大小为1，步长为1，填充为0）和一个批量归一化层 BN。第二至第四部分中的每个深度卷积层只对输入图像的一个通道进行卷积操作，卷积核的数量与特征的通道数相同，因此，深度卷积层不会改变特征的通道数量。第二至第四部分中的每个卷积层用于实现输入图像的升维或降维。与常规的卷积操作相比，深度可分离卷积的参数量和运算成本相对更低，能够更好的捕捉图像中的细节和特征。

如图4所示，多分支残差模块由两个卷积和一个分组（分组数为32）卷积组成。多分支残差模块提出了深度和宽度之外的另外一个维度，即基数（Cardinality）（基数即分支数量，图4中包括2个分支，基数即为2），通过增加基数（现有的残差模块的基数一般都设定为1）可以在保持模型复杂度的情况下提高模型的性能及表达能力。

多分支残差模块表示为：

其中，为输入特征，为输出特征，为多分支残差第个分支学习到的映射变换，为基数，即分组数。

3、第三部分的第一分支的输出经两次下采样后分别输入第四部分的第二和第三分支，第三部分的第三分支的输出经两次上采样后分别输入第四部分的第一和第二分支，每一次上采样或下采样操作都进行了特征的交换融合，因此可以认为第三部分包含4个交换块，每个交换块中的每个分支包含3个剩余单元和1个交换单元，其中，每个单元在每个分辨率中包含1个3×3卷积和2个1×1卷积，每个交换块对应一次特征融合，即共进行4次多尺度融合。

4、第四部分将四个不同分辨率分支的输出特征共同上采样到相同的分辨率，然后通过元素相加得到最终的输出，最终输出为如图5所示的18个关键点（示例性的，18个关键点包括：头部、颈部、右肩、右肘、右手腕、左肩、左肘、左手腕、右髋、右膝、右脚踝、左髋、左膝、左脚踝、右眼、左眼、右耳、左耳）热力图。

进一步的，所述人体姿态估计模型的具体结构如表1所示：

表1

表1中，表示两个步长为2的卷积；表示含有步长为1的 1×1卷积、卷积和1×1卷积组合在一起，这样的组合共有四个；表示分组卷积。次数1、1、4、3分别表示第一部分运行1次、第二部分运行1次、第三部分运行4次，第四部分运行3次。

上述实施例中，所构建的人体姿态估计模型通过采用高像素特征分支和低像素特征分支并列的多分支结构，使得各部分之间能够进行信息交互，使得不同尺度的对象信息得以保留，从而对于图像中不同尺寸的目标都具有较好的鲁棒性，进而能够提高模型对于人体姿态的检测效果。

另一个实施例中，所述人体姿态估计模型通过以下步骤进行训练：

S301：获取多张包括人体姿态的作业现场图像并进行预处理，预处理步骤如前所述，对预处理后的图像中的人体关键点信息进行标注，将标注后的图像划分为训练集和测试集；

S302：设置训练参数，例如将学习率设置为0.01，步长stride设置为30，训练次数设置为500次，利用训练集对人体姿态估计模型进行训练，当达到预设训练次数，模型训练完成；

S303：利用测试集对训练后的人体姿态估计模型进行测试，在测试过程中，当识别精度达到90%或以上且模型运行速度小于2秒，模型测试通过；否则调整训练参数（例如，将学习率调整为0.05，或将训练次数调整为600次）重新对模型进行训练，直至模型测试通过。

另一个实施例中，所述人体跌倒检测模型包括：输入部分、跌倒检测部分和输出部分。

本实施例中，输入部分能够将各个骨架关键点不同时间帧内的位置特征进行归一化，使得每批多帧人体关键点由随机分布归一化变为同分布，而每一批数据的均值和方差会是不固定的，这样的差异可以提高模型的鲁棒性，也能减少过拟合。

如图6所示，跌倒检测部分包括依次连接的空间图卷积层、Relu激活函数层、批归一化层BatchNorm、注意力机制层（HECA）、时间图卷积层、Relu激活函数层和BatchNorm层。

其中，图卷积是基于图谱理论的卷积操作，其理论基础是图谱理论。图谱理论利用图的拉普拉斯矩阵的特征值和特征向量来研究图的性质，图卷积则是在此基础上定义的卷积操作。对于图，其拉普拉斯矩阵的定义为：

其中，表示图中节点的集合，表示图中边的集合，表示拉普拉斯矩阵，表示节点的度矩阵，一般形式为对角矩阵，对角线上的元素分别为各个顶点的度，表示图的邻接矩阵，表示两个节点之间是否有连接。基于空域的图卷积方法直接在各个节点的空间连接关系上定义卷积操作。若在空间维度上，给定卷积核大小为，通道数为、维度为的输入特征图，图卷积计算有如下式：

其中，x为给定关键点，p()为采样函数，w()为权重函数。

本模型中利用空间图卷积层挖掘和利用由人体姿态估计模型输出的人体姿态信息，同时利用时间图卷积层利用时序信息，结合前后检测结果以对人体是否跌倒进行综合判断，从而能够增强人体跌倒检测模型的泛化能力。

注意力机制模块（HECA）的结构如图7所示，与传统的注意力机制的区别在于：本申请中的注意力机制模块通过使用一维卷积代替通道降维，能够实现跨通道交互，从而避免了传统的注意力机制因通道降维导致的通道注意力不足的问题，能够在不增加模型参数量的情况下融合通道特征信息。HECA使用作为激活函数，因为其可以避免指数计算，进一步减少计算量。

为了增加模型的全局感受野，避免在浅层网络中丢失全局信息，HECA采用未进行降维的逐通道全局平均池化（Global Average Pooling）操作。其次，只使用感受野为的一维卷积对通道以及其相邻的个通道进行处理，以实现跨通道的交互作用。接着，通过激活函数为每个通道分配新的之间归一化的权重，作用到之前的特征图中，激活函数的计算公式为：

其中，为激活函数，为与通道相邻的个通道，为通道的权重，i为当前通道，j为相邻通道，为跨通道交互所覆盖的范围，即参与该通道注意力预测的相邻通道数量，为通道数，odd为奇数。本实施例中，如图6所示，选择来构建高效网络。如果让所有的通道都共享权重信息，计算公式变为：

通过上面的公式推导，得到注意力机制HECA的最终公式为：

。

人体跌倒检测模型使用一个5维张量表示模型的输入数据，其中，代表批次（batch）大小（本实施例设置为32），代表人体关键点的特征，人体关键点包含三个特征，其中，为关键点的坐标，为人体关键点的置信度得分，代表关键帧的数量，是人体关键点的数量（本申请中人体关键点数为18），是每帧中包含的人数，所以输入数据的形式为。

如图8所示，输出模块包括平均池化层、全连接层和多分类函数，输出模块能够对经过跌倒检测部分输出的特征进行分类，当识别到身体倾斜或腿部有弯曲动作时，则输出人体跌倒的检测结果。

另一个实施例中，步骤S500中，所述人体跌倒检测模型通过以下步骤进行训练：

S502：设置训练参数，例如，将学习率设置为0.001，步长stride设置为20，训练次数设置为300次，利用训练集对人体跌倒检测模型进行训练，当达到预设训练次数，模型训练完成；

S503：利用测试集对训练后的人体跌倒检测模型进行测试，在测试过程中，当识别精度达到90%或以上且模型运行速度小于2秒，测试通过；否则调整训练参数（例如，将学习率调整为0.01，或将训练次数调整为400次）重新对模型进行训练，直至模型测试通过。

另一个实施例中，本申请还提出一种基于多分支结构的人体跌倒检测装置，包括：

采集模块，用于采集作业现场图像；

预处理模块，用于对所采集的图像进行预处理；

另一个实施例中，本申请还提供一种电子设备，包括：

所述处理器执行所述程序时实现如前任一所述的方法。

另一个实施例中，本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如前任一所述的方法。

另一个实施例中，如图9所示，本申请还提出一种基于多分支结构的人体跌倒检测系统，包括监控设备、从盒服务器和主盒服务器，其中，

所述主盒服务器用于汇总各个从盒服务器产生的检测信息。

本实施例中，从盒服务器，即边缘计算服务器内置有人体姿态估计模型和人体跌倒检测模型，数据发送模块和智能预警模块；人体姿态估计模型能够从所获取的作业区现场的实时视频数据中对作业人员的骨架信息数据构造时空图；人体跌倒检测模型能够识别基于时空图对作业人员是否跌倒进行检测。此外，从盒服务器中还设置有数据发生模块和智能预警模块，其中，数据发送模块将以上模型产生的跌倒报警信息和实时视频数据通过流媒体服务发生到主盒服务器；当模型检测到人体发生跌倒行为发生时，且跌倒行为持续时间超过默认阈值（一般设置为10s）时，即表示作业人员发生严重的跌倒行为，此时智能预警模块会从盒子服务器产生报警信息，并指示监控设备录制跌倒行为视频并对数据进行统计，并通过数据发送模块将数据上传至主盒服务器进行汇总分析和存储。

所述主盒服务器的体系架构包括服务层、管理层、硬件层和接入层，服务层为主端服务器中的应用提供智能预警系统的软件支撑；管理层进行从服务器资源集群和任务管理，从服务器资源集群实现系统数据的存储与定期删除，硬件层提供硬件资源，对存储资源、计算资源和网络资源使用不同的硬件资源进行管理；接入层为其它模块的数据提供网络接入服务，能够使监控视频数据传输至服务器中。

以上所述皆为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多分支结构的人体跌倒检测方法，其特征在于，所述方法包括如下步骤：

S100：采集作业现场图像；

S200：对所采集的图像进行预处理；

S300：构建人体姿态估计模型并训练；

其中，所述人体姿态估计模型采用高像素特征分支和低像素特征分支并列的多分支结构，通过融合不同分辨率的特征提高模型的位置敏感性和位置不变性；

S500：构建人体跌倒检测模型并训练；

其中，所述人体跌倒检测模型通过引入空间图卷积层和时间图卷积层以对人体是否跌倒进行综合判断；所述人体跌倒检测模型还引入了注意力机制模块，通过跨通道交互以提高通道注意力；

2.根据权利要求1所述的方法，其特征在于，步骤S200中，对所采集的图像通过以下步骤进行预处理：随机角度旋转、随机亮度变换和添加高斯噪声。

3.根据权利要求1所述的方法，其特征在于，步骤S300中，所述人体姿态估计模型通过以下步骤进行训练：

4.根据权利要求1所述的方法，其特征在于，步骤S500中，所述人体跌倒检测模型通过以下步骤进行训练：

5.一种基于多分支结构的人体跌倒检测装置，其特征在于，所述装置包括：

采集模块，用于采集作业现场图像；

预处理模块，用于对所采集的图像进行预处理；

6.一种基于多分支结构的人体跌倒检测系统，其特征在于，所述系统包括监控设备、从盒服务器和主盒服务器，其中，

所述主盒服务器用于汇总各个从盒服务器产生的检测信息。