CN114882532A

CN114882532A - 一种基于改进yolox网络的跌倒检测方法及系统

Info

Publication number: CN114882532A
Application number: CN202210570391.5A
Authority: CN
Inventors: 石胜君; 宋帅博; 赵钦君; 王磊; 赵方; 毕淑慧; 申涛
Original assignee: Hit Robot Group Co ltd; University of Jinan
Current assignee: Hit Robot Group Co ltd; University of Jinan
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-08-09

Abstract

本申请提供一种基于改进YOLOX网络的跌倒检测方法及系统，涉及目标检测技术领域，该跌倒检测方法通过获取不同场景下的人体动作图像，并进行数据增强处理，可以对人体动作图像进行补充，丰富训练样本，提升跌倒检测网络模型的训练效果；样本图像经过主干特征提取网络进行特征提取，并经过加强特征提取网络进行特征融合，得到加强特征层，将加强特征层输入至分类预测网络得到人体动作类别与目标检测框，其中，加强特征提取网络为在特征金字塔网络的指定位置引入注意力机制，通过该方式，可以提取出图像通道方向的深层次特征，增强目标检测效果，从而提高人体动作的检测精度。

Description

一种基于改进YOLOX网络的跌倒检测方法及系统

技术领域

本申请属于目标检测技术领域，尤其涉及一种基于改进YOLOX网络的跌倒检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着物质条件的提升，医疗卫生事业的不断发展，人类寿命不断增长，人口老龄化问题不断加重。关于人口老龄化报告中预计，到本世纪中叶全球将有六分之一的人到达或超过65岁。老年人的护理和养老将成为中国乃至世界关注的重要问题。在老人的安全问题中，因跌倒致死致残的比率逐年上升。根据中国疾病监测系统数据显示，有超过40％的老年人因为摔伤就医。因此，利用高效准确的跌倒检测方法识别跌倒，将是一项具有重大意义的技术。

国内外对跌倒的检测方法分为三种：基于可穿戴式传感器、基于环境式传感器、基于计算机视觉。由于计算机视觉技术具有成本低、扩展性强、方便快捷等特点，更适用于跌倒检测的研究。随着深度学习的发展，计算机视觉领域从传统的人为定义跌倒特征，发展为让深度学习网络自动学习图像特征，不仅将准确率和鲁棒性提升到了新的高度，更提升了检测速度，满足跌倒检测所需要的实时性。

发明人发现，现有的基于深度学习的跌倒检测方法通常是从所采集的图片中识别出目标区域，然后提取目标区域内人体的动作特征，从而判定人体的跌倒行为。但是，摄像头采集的图像背景复杂，且人体姿态多种多样，动作较为复杂，导致目标检测的效果较低，甚至无法检测出目标区域，从而影响人体动作的检测精度。

发明内容

为克服现有技术的不足，本申请提供一种基于改进YOLOX网络的跌倒检测方法及系统，以YOLOX目标检测框架作为主体，通过改进YOLOX主体框架增强目标检测的效果，从而提高人体动作的检测精度。

本申请采用的技术方案如下：

第一方面，本发明实施例提供一种基于改进YOLOX网络的跌倒检测方法，包括：

获取不同场景下的人体动作图像；

对所述人体动作图像进行数据增强处理，得到样本图像；

建立YOLOX网络结构，所述样本图像经过主干特征提取网络进行特征提取，并经过加强特征提取网络进行特征融合，得到加强特征层，将所述加强特征层输入至分类预测网络得到人体动作类别与目标检测框，其中，所述加强特征提取网络为在特征金字塔网络的指定位置引入注意力机制；

对所建立的YOLOX网络结构进行训练，得到跌倒检测网络模型，利用所述跌倒检测网络模型对人体动作图像进行跌倒检测。

在一种可能的实施方式中，在所述获取不同场景下的人体动作图像之前，还包括：设定不同的拍摄场景，针对每一个拍摄场景，从多个角度拍摄该拍摄场景下的人体动作视频，提取所述人体动作视频中的帧图像，得到人体动作图像；所述人体动作视频的拍摄角度包括人体的侧面、正面和反面；人体动作包括站立、跌倒和坐。

在一种可能的实施方式中，采用以下方法对所述人体动作图像进行数据增强处理：采用色域变换，改变图像亮度，以适应不同光线条件下的检测效果；和/或，采用图像扭曲、图片缩放，改变图片不同尺寸，以适应不同摄像头远近拍摄下的检测效果；和/或，采用镜像翻转，扩充图像数据，以适应不同角度下的检测效果。

在一种可能的实施方式中，所述主干特征提取网络包括Focus网络结构、基本卷积层、CSP残差网络和SPP空间金子塔池化。

在一种可能的实施方式中，在所述特征图金字塔网络中，图像特征依次经过上采样、下采样和信息融合处理，在所述图像特征的特征输入端、上采样输出端、下采样输出端和特征输出端引入注意力机制。

在一种可能的实施方式中，所述注意力机制包括ECA通道注意力模块和CBAM卷积注意力模块。

在一种可能的实施方式中，所述分类预测网络包括两个分支的卷积层，其中一个分支用于预测目标的人体动作类别，另一个分支用于预测目标检测框的回归参数和置信度。

第二方面，本申请实施例提供一种基于改进YOLOX网络的跌倒检测系统，包括：

获取模块，用于获取不同场景下的人体动作图像；

处理模块，用于对所述人体动作图像进行数据增强处理，得到样本图像；

模型构建模块，用于建立YOLOX网络结构，所述样本图像经过主干特征提取网络进行特征提取，并经过加强特征提取网络进行特征融合，得到加强特征层，将所述加强特征层输入至分类预测网络得到人体动作类别与目标检测框，其中，所述加强特征提取网络为在特征金字塔网络的指定位置引入注意力机制；

跌倒检测模块，用于对所建立的YOLOX网络结构进行训练，得到跌倒检测网络模型，利用所述跌倒检测网络模型对人体动作图像进行跌倒检测。

第三方面，本发明实施例提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面和第一方面任一种可能的实施方式中所述的基于改进YOLOX网络的跌倒检测方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面和第一方面任一种可能的实施方式中所述的基于改进YOLOX网络的跌倒检测方法的步骤。

本申请的有益效果是：

通过获取不同场景下的人体动作图像，并进行数据增强处理，可以对人体动作图像进行补充，丰富训练样本，提升跌倒检测网络模型的训练效果；样本图像经过主干特征提取网络进行特征提取，并经过加强特征提取网络进行特征融合，得到加强特征层，将加强特征层输入至分类预测网络得到人体动作类别与目标检测框，其中，加强特征提取网络为在特征金字塔网络的指定位置引入注意力机制，通过该方式，可以提取出图像通道方向的深层次特征，增强目标检测效果，提高人体动作的检测精度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本申请实施例所提供的基于改进YOLOX网络的跌倒检测方法的流程图；

图2a-图2f分别是本申请实施例所提供的主干特征提取网络，以及主干特征提取网络中各组成部分的结构示意图；

图3是本申请实施例所提供的CBAM卷积注意力模块的结构示意图；

图4是本申请实施例所提供的ECA通道注意力模块的结构示意图；

图5是本申请实施例所提供的一种加强特征提取网络的结构示意图；

图6是本申请实施例所提供的另一种加强特征提取网络的结构示意图；

图7是图5或图6中CSP残差结构2的结构示意图；

图8是本申请实施例所提供的跌倒检测网络模型训练方法的流程图；

图9是本申请实施例所提供的分类预测网络的结构示意图；

图10是本申请实施例所提供的基于改进YOLOX网络的跌倒检测系统的结构示意图；

图11是本申请实施例所提供的一种计算机设备的示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

请参阅图1，图1是本申请实施例所提供的基于改进YOLOX网络的跌倒检测方法的流程图，如图1中所示，基于改进YOLOX网络的跌倒检测方法包括以下步骤：

S101：获取不同场景下的人体动作图像。

在具体实施中，通过摄像设备采集不同场景下的人体动作图像，拍摄场景包括但不限于工作室、卧室、客厅、室外等不同场景；人体动作包括但不限于站立、跌倒、弯腰、坐、蹲等。

作为一可选实施方式，为了有效获取不同场景下的人体动作图像，本实施例在所述获取不同场景下的人体动作图像之前，还包括：设定不同的拍摄场景，针对每一个拍摄场景，从多个角度拍摄该拍摄场景下的人体动作视频，提取所述人体动作视频中的帧图像，得到人体动作图像；所述人体动作视频的拍摄角度包括人体的侧面、正面和反面；人体动作包括站立、跌倒和坐。

S102：对所述人体动作图像进行数据增强处理，得到样本图像。

在具体实施中，对获取到的人体动作图像进行数据增强处理，以丰富训练样本，提高跌倒检测网络模型的训练效果。数据增强处理方法包括剪裁、旋转、亮度、对比度等。

作为一可选实施方式，本实施例采用以下方法对所述人体动作图像进行数据增强处理：采用色域变换，改变图像亮度，以适应不同光线条件下的检测效果；和/或，采用图像扭曲、图片缩放，改变图片不同尺寸，以适应不同摄像头远近拍摄下的检测效果；和/或，采用镜像翻转，扩充图像数据，以适应不同角度下的检测效果。

S103：建立YOLOX网络结构，所述样本图像经过主干特征提取网络进行特征提取，并经过加强特征提取网络进行特征融合，得到加强特征层，将所述加强特征层输入至分类预测网络得到人体动作类别与目标检测框，其中，所述加强特征提取网络为在特征金字塔网络的指定位置引入注意力机制。

在具体实施方式中，所得到的样本图像输入至主干特征提取网络进行特征提取，如图2a-2f中所示，所述主干特征提取网络包括Focus网络结构、基本卷积层、CSP残差网络和SPP空间金子塔池化。其主要作用是在不同图像细颗粒度上，聚合并形成图像特征，在网络的中间层、中下层、底层等输出三个有效特征层，送入加强特征提取网络中。

其中，Focus网络结构用于在图像进入特征提取网络前对图片进行切片操作。具体操作方法是在一张图片中每隔一个像素取一个值，把高分辨率的图片拆分成多个低分辨率的图片，然后将采样后的图像进行拼接。这种操作方式将空间信息集中到了通道中，该操作类似于下采样过程，参数量比普通的卷积层更小，同时保留了更多细颗粒度特征。

基本卷积层由卷积层、批量归一化层、Silu激活函数组成。卷积层以不同的卷积核与图像做内积操作，以此提取图像特征。批量归一化层对卷积后的图像进行归一化处理，能够加速网络的收敛并提升准确率。

作为一可选实施方式，在所述特征图金字塔网络中，图像特征依次经过上采样、下采样和信息融合处理，在所述图像特征的特征输入端、上采样输出端、下采样输出端和特征输出端引入注意力机制。可选的，所述注意力机制包括ECA通道注意力模块和CBAM卷积注意力模块。

在具体实施中，加强特征提取网络由特征金字塔网络(Feature PyramidNetworks，FPN)构成，将主干特征提取网络输出的特征层进行特征融合，有利于提取更深层次特征。FPN自顶向下，高层的图像特征通过上采样、下采样、信息融合的方式进行传递，更加合理的利用特征金字塔中不同的语义信息，输出多尺度特征送入分类预测网络进行预测。

为增强特征提取的效果，本实施例在加强特征提取网络中加入了两种注意力模块：

第一种为CBAM(Convolutional Block Attention Module)卷积注意力模块，其结构如图3中所示。卷积块注意模块是一个简单而有效的前馈卷积神经网络注意模块，在给定中间特征图的情况下，模块按照通道和空间两个独立的维度依次推断注意图，然后将注意图乘以输入特征图进行自适应特征细化，相当于给整个空间特征图乘以两个权重。

CBAM可用以下公式表示：

其中，F表示输入特征图，M_c和M_s分别表示基于通道和空间的注意力权重，

表示逐元素相乘，F′和F″分别表示进行了通道注意力和空间注意力后的输出特征图。由于CBAM模块的输入和输出特征矩阵大小相同，所以它可以插入到已有模型的任意位置。

通道注意力模块中，将输入特征图F分别经过全局最大池化层(Maxpool)和全局平均池化层(Avgpool)，用来聚合特征映射的空间信息。然后经过参数共享的多层感知机MLP层，MLP层是由三层全连接层构成，然后经过sigmoid激活函数，得到通道注意力权重，将该权重与输入特征图相乘，实现通道注意力机制。其网络结构可表示为：

Mc＝σ{MLP[MaxPool(F)]+MLP[AvgPool(F)]}；

其中，σ表示sigmoid激活函数。

在空间注意力模块中，将得到的通道注意力特征图F′作为输入，特征图经过基于通道的最大池化层和平均池化层，将得到的两个特征图做基于通道的拼接，再对其进行卷积操作和sigmoid激活函数，得到通道数为1，特征图大小和输入相同的注意力权重M_s，再与输入特征图做逐元素的乘法，就完成了空间注意力机制。其网络结构可表示为：

Ms＝σ{f^7×7[MaxPool(F′)；AvgPool(F′)]}；

其中，f^7×7表示卷积核大小7×7为的卷积操作。

第二种为ECA(Efficient Channel Attention)通道注意力机制，ECA是一种适用于深度卷积神经网络的高效注意力机制，该模块避免了在通道注意力中使用全连接层导致的维度缩减，并以高效的方式捕获跨通道交互的信息。其结构如图4中所示，首先经过全局平均池化，得到1×1×C的特征向量，然后通过内核大小为k的1维卷积，考虑每个通道及其k个相邻通道捕获跨通道交互的信息。其中1维卷积核的大小通过一个函数自适应调节，使得通道数较多的层可以进行更多的跨通道交互，其计算公式如下：

其中，|t|_odd表示离t最近的奇数，γ取2，b取1。

本实施例测试了两种改进加强特征提取网络的方法。第一种，在网络中加入ECA模块后的改善效果，其具体添加位置如图5中所示；第二种，在网络中添加CBAM模块与ECA模块后的改善效果，其具体添加位置如图6中所示，其中，CSP残差结构2的结构如图7中所示。

作为一可选实施方式，所述分类预测网络包括两个分支的卷积层，其中一个分支用于预测目标的人体动作类别，另一个分支用于预测目标检测框的回归参数和置信度。

在具体实施中，如图8中所示，经过上述步骤得到加强后的特征提取网络后，将其输入至分类预测网络进行预测。分类预测网络的结构如图9中所示，采用两个卷积分支进行分类与回归的任务。对于每一个特征层，我们可以获得三个预测结果：

(1)Reg用于判断每一个特征点的回归参数，回归参数调整后可以获得预测框。

(2)Obj用于判断每一个特征点是否包含物体。

(3)Cls用于判断每一个特征点所包含的物体种类。

通过对结果的解码，得到人体动作类别、目标检测框的回归参数和置信度。

S104：对所建立的YOLOX网络结构进行训练，得到跌倒检测网络模型，利用所述跌倒检测网络模型对人体动作图像进行跌倒检测。

在具体实施中，将样本图像输入至改进后的YOLOX模型进行训练，直至网络收敛，得到跌倒检测网络模型。利用训练好的跌倒检测网络模型对人体动作图像进行跌倒检测。

实施例二

通过验证性实验比较改进后的YOLOX网络结构，与原YOLOX网络结构的性能。具体操作方法为：采用网上公开的三种数据集UR Fall Detection Dataset、Multicam、Le2iFall detection Dataset作为数据来源，并利用网络爬虫，爬取坐姿图片对坐姿数据集进行补充，在不同的场景下得到人体站立、坐、跌倒，三种动作的图片。

表1跌倒检测数据

运行环境为pytorch1.7.0，Python3.8，Cuda 11.0，硬件条件为RTX 3090显卡。分别对Yolox、Yolox+ECA、Yolox+ECA+CBAM的网络进行训练。

每个网络迭代足够的次数，直至训练集损失与验证集损失趋于平衡状态。训练过程分为两个阶段，epoch设置成250，前20个epoch冻结主干特征提取网络权重，有利于加快训练效率，后220个epoch解冻训练。一次训练所取的样本数(batch_size)设置为32。采用余弦退火衰减学习率。

得到三种模型的训练权重，输入测试集图片评价三种模型的性能，采用以下两种性能评价指标进行评估：

AP即Average Precision，称为平均准确率，是对不同召回率点上的准确率进行平均，在PR曲线图上表现为PR曲线下面的面积。AP的值越大，则说明模型的平均准确率越高。

mAP称为平均精度均值，多个类别的AP值的平均就是mAP.mAP衡量的是学出的模型在所有类别上的好坏，是目标检测中一个最为重要的指标。

三种模型的性能表现结果如表所示：

表2改进网络对比图

根据实验结果，在跌倒检测模型中，在加强特征提取网络中加入ECA模块后，相对原网络提升精度为：跌倒0.12％，站立0.56％，坐1.16％，平均精度均值提升0.6％。在加入ECA和CBAM模块后，相对于原网络提升精度为：跌倒0.79％，站立1.84％，坐2.72％，平均精度均值提升1.78％。两种改进策略均显著改善了Yolox对跌倒数据集的检测效果。其中，在加强特征提取网络中同时加入两种注意力模块的效果更好。

实施例三

请参阅图10，图10是本申请实施例所提供的基于改进YOLOX网络的跌倒检测系统的结构示意图，如图10中所示，基于改进YOLOX网络的跌倒检测系统1000包括：

获取模块1010，用于获取不同场景下的人体动作图像；

处理模块1020，用于对所述人体动作图像进行数据增强处理，得到样本图像；

模型构建模块1030，用于建立YOLOX网络结构，所述样本图像经过主干特征提取网络进行特征提取，并经过加强特征提取网络进行特征融合，得到加强特征层，将所述加强特征层输入至分类预测网络得到人体动作类别与目标检测框，其中，所述加强特征提取网络为在特征金字塔网络的指定位置引入注意力机制；

跌倒检测模块1040，用于对所建立的YOLOX网络结构进行训练，得到跌倒检测网络模型，利用所述跌倒检测网络模型对人体动作图像进行跌倒检测。

实施例四

请参阅图11，图11是本申请实施例提供的一种计算机设备的示意图。如图11中所示，所述计算机设备1100包括处理器1110、存储器1120和总线1130。

所述存储器1120存储有所述处理器1110可执行的机器可读指令，当计算机设备1100运行时，所述处理器1110与所述存储器1120之间通过总线1130通信，所述机器可读指令被所述处理器1110执行时，可以执行如上述图1至图9所示方法实施例中的基于改进YOLOX网络的跌倒检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

实施例五

基于同一申请构思，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法实施例中所述的基于改进YOLOX网络的跌倒检测方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进YOLOX网络的跌倒检测方法，其特征在于，包括：

获取不同场景下的人体动作图像；

对所述人体动作图像进行数据增强处理，得到样本图像；

2.如权利要求1所述的基于改进YOLOX网络的跌倒检测方法，其特征在于，在所述获取不同场景下的人体动作图像之前，还包括：设定不同的拍摄场景，针对每一个拍摄场景，从多个角度拍摄该拍摄场景下的人体动作视频，提取所述人体动作视频中的帧图像，得到人体动作图像；所述人体动作视频的拍摄角度包括人体的侧面、正面和反面；人体动作包括站立、跌倒和坐。

3.如权利要求1所述的基于改进YOLOX网络的跌倒检测方法，其特征在于，采用以下方法对所述人体动作图像进行数据增强处理：采用色域变换，改变图像亮度，以适应不同光线条件下的检测效果；和/或，采用图像扭曲、图片缩放，改变图片不同尺寸，以适应不同摄像头远近拍摄下的检测效果；和/或，采用镜像翻转，扩充图像数据，以适应不同角度下的检测效果。

4.如权利要求1所述的基于改进YOLOX网络的跌倒检测方法，其特征在于，所述主干特征提取网络包括Focus网络结构、基本卷积层、CSP残差网络和SPP空间金子塔池化。

5.如权利要求1所述的基于改进YOLOX网络的跌倒检测方法，其特征在于，在所述特征图金字塔网络中，图像特征依次经过上采样、下采样和信息融合处理，在所述图像特征的特征输入端、上采样输出端、下采样输出端和特征输出端引入注意力机制。

6.如权利要求5所述的基于改进YOLOX网络的跌倒检测方法，其特征在于，所述注意力机制包括ECA通道注意力模块和CBAM卷积注意力模块。

7.如权利要求1所述的基于改进YOLOX网络的跌倒检测方法，其特征在于，所述分类预测网络包括两个分支的卷积层，其中一个分支用于预测目标的人体动作类别，另一个分支用于预测目标检测框的回归参数和置信度。

8.一种基于改进YOLOX网络的跌倒检测系统，其特征在于，包括：

获取模块，用于获取不同场景下的人体动作图像；

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的基于改进YOLOX网络的跌倒检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的基于改进YOLOX网络的跌倒检测方法的步骤。