CN116863539A

CN116863539A - 一种基于优化YOLOv8s网络结构的跌倒人物目标检测方法

Info

Publication number: CN116863539A
Application number: CN202310893976.5A
Authority: CN
Inventors: 张燕; 吴剑飞; 彭昊杰; 董美琪; 王志祥
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-10

Abstract

本发明属于目标检测技术领域，具体涉及基于改进YOLOv8网络结构的跌倒人物目标检测方法及系统。方法如下：S1，收集跌倒人物目标检测数据集，对数据集进行预处理；S2，对原YOLOv8模型进行修改，获得修改后的YOLOv8模型；具体设计了一个IMFAPM模块，该模块为注意力卷积结合增强感受野模块组成；提出一种新的激活函数EDELU，并使用该激活函数设计出一个关注通道和空间的双重注意力模块SACDAN；S3，根据硬件设备的参数以及需要达到的识别效果，配置改进后的YOLOv8模型参数。S4，将预处理后的数据集分为训练集、验证集和测试集；使用训练集和验证集对修改后的YOLOv8模型进行训练；S5，训练结束后生成权重文件，导入训练好的权重与待检测的图片，得到检测结果，比较识别效果和检测精度是否达到预期要求。本发明具有提升模型的准确性和泛化力且能解决遮挡和复杂环境下造成的漏检和错检问题的特点。

Description

一种基于优化YOLOv8s网络结构的跌倒人物目标检测方法

技术领域

本发明涉及计算机视觉领域中的目标检测技术，具体是一种基于优化YOLOv8网络结构的跌倒人物目标检测方法。该方法不仅可用于跌倒检测任务，也具有一定的通用性和适用性。该发明主要解决目标检测模型在人物跌倒场景下易漏检、误检、数据样本不平衡、特征提取能力不足和泛化能力差等问题。为此，提出了几种算法优化措施，包括在主干网络中添加IMFAPM结构、设计新的激活函数以及引入SACDAN网络结构等。这些措施可以加强特征提取过程和位置定位准确性，同时也可以更好地处理跌倒遮挡和复杂背景等问题，从而提高模型的检测精度和泛化能力。实验结果表明，相较于原始的YOLOv8算法，改进后的算法EYOLOv8在跌倒检测任务中具有更强的特征提取能力和更高的检测精度。

背景技术

据医学调查显示，老年人跌倒后得到及时救治可以降低80％的死亡风险。对于需要智能看护的老人，跌倒检测系统的准确性和鲁棒性至关重要。目前，现有技术主要分为两类：一类是基于计算机视觉的跌倒检测，另一类是通过穿戴传感器来检测质心下降速度。然而，在某些场所或任务中，佩戴传感器可能并不适合。

在计算机视觉方面，最常用的跌倒检测方法之一是OpenPose，但其需要检测关键点，容易受到复杂环境、光照、遮挡等因素的影响。近年来，YOLO已成为最常用的目标检测算法之一，并得到了快速发展。2023年，YOLOv8横空出世，相对于YOLOv5，其网络结构更轻量，更适合部署在移动端。然而，与其他目标检测模型一样，YOLOv8在检测人物跌倒时仍然存在漏检率高、误检率高、数据样本不平衡、特征提取能力不足、鲁棒性和泛化能力差等问题。

为了解决这些问题，本文提出了一种基于改进YOLOv8的跌倒人物目标检测模型EYOLOv8。该模型通过增强特征提取过程的感受野、同时考虑通道间关系和长距离位置信息的IMFAPM结构，以及同时对特征的空间和通道进行关注的SACDAN网络结构等优化策略，提高了模型的特征提取能力和鲁棒性，从而提高了检测精度和泛化能力。相较于原始的YOLOv8算法，改进后的EYOLOv8模型在跌倒检测任务中具有更高的准确性和鲁棒性，可以更好地应用于智能看护等领域。

发明内容

为了解决现有技术的不足，本发明提出了一种基于改进YOLOv8网络结构的跌倒检测技术EYOLOv8。该技术能够在不显著降低检测速度的情况下，提高对跌倒目标的检测精度。

本发明的技术方案包括如下步骤：

S1：获取跌倒图像数据集，利用标记软件对获取的数据集进行标记，将图像中的目标用特定的方框标记出来；

S2:在YOLOv8模型的主干特征提取网络中引入IMFAPM模块，用于提高YOLOv8模型对跌倒目标的检测性能；引入SACDAN模块，用于加强对特征的空间和通道双重关注，以提高对图像中模糊、遮挡物体的检测精度。将改进后的YOLOv8命名为EYOLOv8；

S3：将跌倒数据集输入到EYOLOv8网络中，根据需要设置训练次数和超参数。通过主干特征提取网络获得特征图。SACDAN注意力模块将输出特征图输入到颈部网络中进行融合，并利用特征金字塔网络和路径聚合网络，对特征图进行双向融合，将低级的空间特征与高级的语义特征进行融合。最终，将融合后的特征图输入到EYOLOv8模型的检测网络中进行跌倒目标检测。

S4:EYOLOv8网络利用基于无锚盒的检测框对融合后的特征图进行处理，识别跌倒目标的种类、位置和置信度，并在输入图片中标识出来。

S5:随着训练次数的增加，EYOLOv8模型的损失函数曲线会逐渐收敛，当损失函数曲线稳定时，EYOLOv8模型训练到最优，并生成相应的权重文件。

S6：将训练好的权重文件加载到EYOLOv8模型的预测网络中，对测试集进行预测，将检测出的种类、位置、置信度等信息在图片中加以标注，并输出相关文件。

所述步骤S1中采用LabelImg程序标注图像数据集，并将格式修改为YOLO格式，以用于EYOLOv8模型的训练中。

所述步骤S2中YOLOv8模型的主干特征提取网络中引入IMFAPM模块方式为：将特征提取网络中最后一个C2f模块替换为IMFAPM模块。最终IMFAPM模块在最后一个卷积模块和特征金字塔池化模块之间，用于扩大特征提取的感受野。引入SACDAN模块方式为：在特征金字塔池化模块后加入一个SACDAN模块，来加强对特征的空间和通道双重关注。

所述步骤S3中epochs设置为300、batch设置为16、学习率设置为0.01。在颈部网络中生成三种类型的特征图，用于检测图像中的大、中、小目标，并将这三种特征图输入到检测网络中进行实际检测。

所述步骤S4中EYOLOv8模型的检测网络由三个检测层组成，EYOLOv8模型的检测网络由三个检测层组成，分别输出80×80、40×40和20×20的特征图，用于检测图像中的大、中、小目标。

所述步骤S5中具体包括两个数据集，并进行了三种不同的数据集划分。最终的测试结果在这三种不同的划分数据集上得到了验证。训练集、验证集和测试集的比例分别为8:1:1、6:2:2和官方划分。

回归损失函数为CIOU损失函数，具体的计算公式为：

其中ρ²(b,b^gt)表示预测框中心坐标与真实框中心坐标的欧氏距离，b为预测框中心点坐标，b^gt为真实框中心点坐标，A为预测框，B为真实框，c为A、B最小包围框的对角线长度，αv表示引入的真实框与预测框长宽比因子。

与现有技术相比，本发明的有益效果是：

在跌倒检测领域，能够达到更高的识别效果。

对于具有遮挡、复杂环境下的跌倒能够表现出更好的检测效果。

附图说明

图1为：EYOLOv8模型的网络结构示意图

图2为：IMFAPM结构示意图

图3为：关注通道和位置信息的CAConv结构示意图

图4为：增强感受野模块ECERFM结构示意图

图5为：激活函数对比和选取不同超参数的EDELU激活函数曲线

图6为：SACDAN注意力网络结构

图7为：CSDFM模块网络结构

图8为：本发明实施例提供的检测结果图

具体实施方式

为了更清晰地说明本发明的目的、技术方案和优点，下面结合附图对本发明的实施方案进行了详细描述。

本发明提供了一种基于优化的YOLOv8模型的跌倒人物目标检测方法，包括以下步骤：

本发明使用了两种不同的数据集，第一种是公共数据集Fall DetectionDataset，另一种是收集的视频跌倒数据集。Fall Detection Dataset有33128张图片，官方已经按照同一视频裁剪出来的图片放在一起的标准划分。另外，还将Fall DetectionDataset按照6:2:2比例进行划分。收集的视频数据集被剪裁为约10000张图片，并按照8:1:1比例划分为训练集、验证集和测试集。本实施例采用LabelImg程序对数据集进行标注，并将其转换为YOLO格式，用于YOLOv8模型的训练。

S2：为了提高YOLOv8模型主干网络对特征的提取能力，并获得更丰富的特征图，在将数据集输入到主干网络之前，采取了适当的措施对YOLOv8模型原始的主干网络进行了修改。

如图1所示，给出EYOLOv8模型的网络结构示意图。具体改进包括将特征提取网络中最后一个C2f模块替换为IMFAPM模块。最终IMFAPM模块在最后一个卷积模块和特征金字塔池化模块之间。用于扩大特征提取的感受野。在特征金字塔池化模块后加入一个SACDAN模块，用于加强对特征的空间和通道双重关注，提高YOLOv8模型对图像中模糊、遮挡物体的检测精度。

S3:将数据集输入到EYOLOv8模型主干特征提取网络，获得特征图，SACDAN注意力模块的输出特征图输入到颈部网络中进行融合，利用特征金字塔网络和路径聚合网络，对所述特征图通过双向融合将低级的空间特征与高级的语义特征进行融合，将融合后的特征图输入到EYOLOv8模型的检测网络中；

下面根据图1叙述整个网络的流程：

首先输入图像进入网络，网络对图像输入部分加入了图像填充、Mosaic数据增强来对数据进行处理，以增加检测的辨识度和准确度。

特征提取网络依旧是卷积与有着CSPDarknet结构的C2f模块的组成。主干网络包含第一、二下采样操作，第二带有残差结构的卷积归一化层，第三下采样层，第三带有残差结构的卷积归一化层，第四下采样层，第四带有残差结构的卷积归一化层，第五下采样层，第六是将原本的带有残差结构的卷积归一化层替换为一个IMFAPM模块，该过程是该专利的核心内容。第七空间金字塔池化层，添加一个第八空间通道双重注意力机制模块SACDAN，该过程也是该专利的核心内容。

上述中所有下采样层产生的特征图都采用3×3的卷积进行特征提取，其中第三卷积归一化分割层，第四卷积归一化分割层，第八空间通道双重注意力层得到的特征分别记为M3，M4，M5；如果输入图像大小为640×640×3，则M3的大小为80×80×256，M4的大小为40×40×512，M5的大小为20×20×1024。

颈部网络首先是传统的FPN网络结构，采用自底向上的通路进行多尺度目标检测，使得底层特征与含有丰富位置信息的底层信息进行融合；M5相比原网络先经过一个3×3卷积，然后输出记为P5¹；P5¹经过上采样，然后与M4逐元素相加。再经过一个不带残差结构的卷积归一化层，记为P4¹；P4¹经过上采样，与M3逐元素相加，再经过一个不带残差结构的卷积归一化层生成特征图P3¹。

在FPN基础上，添加一条自上而下的通路，称为PAN网络，该通路实现的是下采样。P3¹记为P3，P3经过一个卷积核3×3、步长为2、填充为1的卷积，与P4¹逐元素相加，再经过一个带残差结构的卷积归一化层，得到的特征记为P4；P4经过一个卷积核3×3、步长为2、填充为1的卷积，然后与M5特征图逐元素相加，再经过一个带残差结构的卷积归一化层，得到的特征记为P5；输入仍然为640×640×3，则P3特征图大小为80×80×256、P4特征图大小为40×40×512、P5特征图大小为20×20×1024。

将特征图P3、P4、P5分别输入EYOLOv8检测头网络，该网络采取解耦头和Anchor-free策略。训练过程并不设置先验框。特征图进入两个并行分支分别计算分类损失和回归损失。分类分支首先经过两个核为3×3的一维卷积，再经过一个核为1×1、通道为64的二维卷积。回归分支经过两个核为3×3的一维卷积，再经过一个核为1×1、通道为分类数值的二维卷积。EYOLOv8采取的是动态分配策略，即TOOD的TaskAlignedAssigner。TaskAlignedAssigner是一种较新的算法，它的主要特点是能够更好地处理多目标跟踪中的任务分配问题。具体来说，该算法会考虑目标检测结果和历史跟踪结果之间的相似性，以及不同目标之间的相似性，来决定如何进行任务分配。它的匹配策略是根据分类与回归的分数加权的分数选择正样本。

下面结合其他附图详细介绍本发明的创新点。

本发明的创新点之一是IMFAPM结构。如图2所示，该结构由三个CAConv层和ECERFM增强感受野层组成。

如图3所示，自定义一个名为CAConv卷积模块。该模块采用了CA轻量级位置注意力机制,该机制由三个不同的嵌套注意力机制组成：全局感知、区域感知和位置感知。全局感知用于捕获序列中的全局依赖性，区域感知用于捕获局部依赖性，而位置感知则将注意力限制在局部范围内，以减少计算成本。具体来说，CA位置注意力机制首先将输入序列分为多个区域，然后使用区域感知注意力机制对每个区域进行特征提取。接着，再使用全局感知注意力机制对所有区域进行汇总，并生成一个全局向量表示。最后，使用位置感知注意力机制对每个区域的特征进行调整，以更好地捕捉局部信息。相较于传统的注意力机制，该机制具有更高的效率和更好的性能。

本发明的CAConv模块包括以下步骤：输入先经过组卷积，然后调整特征图的形状大小。定义了两个自适应平均池化层，分别用于沿着宽度和高度方向进行自适应池化，池化大小会根据输入的形状进行自动调整。同时添加一个残差结构连接到最后的卷积层。定义了一个1×1卷积层和一个BatchNorm层，用于将输入通道数缩减到中间通道数mip。同时还定义了一种改进版的swish激活函数用于非线性映射，该激活函数使用了一个名为h_sigmoid的自定义激活函数，用于将输出值变换到[0,1]之间，最后将输入特征图x和h_sigmoid(x)相乘。这样可以确保输出值在[0,x]之间，并且保留了部分swish激活函数的优势。定义了两个Conv2d_1×1、sigmoid层，用于将中间通道数mip还原回输入通道数inp，分别用于宽度方向和高度方向。对这两个特征图分别进行1×1卷积操作，将通道数从c缩减到1，并使用sigmoid激活函数将输出值变换到[0,1]之间。将缩减后的特征图在宽度方向和高度方向进行切分，得到两个形状为[n,c,1,1]的特征图。将输入特征图、宽度方向的注意力图和高度方向的注意力图相乘，得到形状与输入特征图相同的特征图，这个特征图包含了空间注意力机制的信息。最后通过Conv2d、BatchNorm2d、ReLU，得到最终的输出。

因为感受野的大小不同往往意味着捕获长程依赖性的能力不同，为此设计了一个增强感受野模块ECERFM结构。扩张卷积的作用是通过增大卷积核的感受野来获取更多的空间信息。残差网络的主要作用是解决神经网络中的梯度消失和梯度爆炸问题，以及提高模型的训练效率和性能。如图4所示，使用残差网络结合扩张卷积的结构来构建一个ECERFM模块。使用不同扩张卷积率的三个分支来捕获多尺度信息和不同的依赖范围。所有的分支都有相同的权重，唯一的区别是它们独特的感受野。三个分支分别取1、2、3作为扩张率和填充率，并且都添加了一个残差连接。ECERFM最后一条分支为了简化结构，采用卷积核大小为1×1的普通卷积。

本发明设计了一个关注空间和通道的双重注意力机制网络，首先介绍所提出的激活函数EDELU，该函数由下述公式定义：

此激活函数使用了SiLU激活函数的左侧部分，从而在零的左侧获得一个缓冲区，这能从接近零的函数中获得平滑的输出，并且能很好的收敛。右侧部分类似于ReLU激活函数，但更平滑，因为它使用了α|e^-x-1|。该公式斜率由两个参数控制，分别是n和α。其中n控制了x趋近于正无穷时的增长速度，α控制了|e^-x-1|这一项的影响程度。当α越大时，|e^-x-1|这一项的影响越大，整个函数的斜率也会越大。图5显示了具有不同参数n值和α值的EDELU激活函数的不同变体以及与其他激活函数曲线的对比。其中SiLU激活函数公式定义如下：

SiLU(x)＝xσ(x)

其中σ(x)为sigmoid函数，其公式如下定义：

如图6所示，给出关注空间和通道的SACDAN注意力网络结构。SACDAN主要由深度可分离卷积与全连接层组成，其中前者结构命名为CSDFM，其网络结构如图7所示，将上述提出的激活函数应用于CSDFM中。

深度可分离卷积中包含深度卷积和点向卷积，深度卷积是指将N×H×W×C的输入分为C组，然后每一组做3×3卷积，这样相当于收集了每个Channel的空间特征，输出N×H×W×C；点向卷积是指对输入N×H×W×C做K个普通的1×1卷积，这样相当于收集每个点的特征，输出为N×H×W×K。两个卷积后分别加入激活层和归一化层。

从CSDFM结构生成的特征进行自适应平均池化，然后将其展开成二维张量。然后进入两个全连接层，第一个全连接层将通道数降到1/16，后接EDELU层；第二个全连接层将通道数恢复到原来大小，后接sigmoid激活函数，sigmoid将输出值压缩到0到1之间，作为通道权重系数。

对通道权重系数进行指数化，以增加权重的区分度，最终通过残差网络将输入特征图引出并乘以通道权重系数，得到最终的输出特征图。所有模块的权重和偏置项都被初始化，对于卷积和全连接模块，权重被正态分布初始化，偏置项被零初始化。

S4:EYOLOv8模型检测网络中的基于无锚盒的检测框对输入的融合后的特征图进行处理，将检测到的目标的种类、位置和置信度在输入图片中标识出来；

EYOLOv8模型的检测网络由三个检测层组成，其输入为维度分别为80×80、40×40和20×20的特征图即P3、P4和P5特征图，用于对图像中的大、中、小目标进行检测。

S5:将数据集输入到EYOLOv8模型中，设置相应的训练次数，随着训练次数的增加，EYOLOv8模型的损失函数曲线逐渐收敛，当损失函数曲线收敛并稳定时，EYOLOv8模型训练到最优，并生成相应的权重文件；

损失函数为CIOU损失函数，具体的计算公式为：

如图8所示，EYOLOv8模型在检测任务中表现出非常强的鲁棒性和准确性，能够对多种不同的混淆动作进行准确的检测，例如坐与跌倒以及躺与跌倒的混淆。即使在光照亮度较低的背景下，EYOLOv8模型也能够保持较高的检测准确率，并且在遮挡情况下仍能检测出是否发生跌倒。这些检测结果图充分证明了EYOLOV8模型在目标检测任务中的优越性和可靠性。

实验结果说明

(1)公共数据集

(2)公共数据集随机划分

(3)自制数据集随机划分

Claims

1.一种基于改进YOLOv8网络结构的跌倒人物目标检测方法，其特征在于，包括以下步骤：

步骤1：构建跌倒图像数据集，利用标记软件对获取的数据集进行标记，将图像中的目标用特定的方框标记出来；

步骤2：基于改进YOLOv8网络分别对两种跌倒数据集进行训练。改进YOLOv8网络是将YOLOv8网络模型中的backbone层中的一个C2f模块替换为IMFAPM模块，并在backbone层后加入一个SACDAN模块；将改进后的YOLOv8命名为EYOLOv8；

步骤3：将跌倒数据集输入到EYOLOv8网络中，根据需要设置训练次数和超参数。通过主干特征提取网络获得特征图。SACDAN注意力模块将输出特征图输入到颈部网络中进行融合，并利用特征金字塔网络和路径聚合网络，对特征图进行双向融合，将低级的空间特征与高级的语义特征进行融合。最终，将融合后的特征图输入到EYOLOv8模型的检测网络中进行跌倒目标检测；

步骤4：EYOLOv8网络利用基于无锚盒的检测框对融合后的特征图进行处理，识别跌倒目标的种类、位置和置信度，并在输入图片中标识出来；

步骤5：随着训练次数的增加，EYOLOv8模型的损失函数曲线会逐渐收敛，当损失函数曲线稳定时，EYOLOv8模型训练到最优，并生成相应的权重文件；

步骤6：将训练好的权重文件加载到EYOLOv8模型的预测网络中，对测试集进行预测，将检测出的种类、位置、置信度等信息在图片中加以标注，并输出相关文件。

2.根据权利要求1所述的一种基于改进YOLOv8网络结构的跌倒人物目标检测方法，其特征在于，步骤2具体包括以下步骤：

将特征提取网络中最后一个C2f模块替换为IMFAPM模块。最终IMFAPM模块在最后一个卷积模块和特征金字塔池化模块之间，用于扩大特征提取的感受野。在特征金字塔池化SPPF模块后加入一个SACDAN模块，来加强对特征的空间和通道双重关注；

IMFAPM模块中提出一种CAConv结构，并设计一个增强感受野模块ECERFM；SACDAN模块中提出一种全新的具有两个超参数的EDELU激活函数，并设计了一个CSDFM模块；

基于改进YOLOv8网络中的backbone层提取图像特征，其中backbone层包括Conv、C2f模块、IMFAPM模块、SACDAN模块和SPPF模块；

基于改进YOLOv8网络中的neck层实现特征的融合，采用FPN+PAN的结构，head检测头采用解耦头。

3.根据权利要求1所述的一种基于改进YOLOv8网络结构的跌倒人物目标检测方法，其特征在于，步骤6具体包括以下步骤：

得到权重模型后，采取最优的权重模型，对待检测图像进行预测，得到跌倒人物检测目标；

获取跌倒检测目标在原图中的位置信息，包括左上角x坐标，左上y坐标，图像宽度w和图像高度h，并将位置信息存储至runs文件夹中的label文件夹，存储格式为txt；

根据获取的位置信息，截取跌倒检测目标图像，并将图像存储至runs文件夹中的exp文件夹，存储格式为jpg。

4.根据权利要求1所述的一种基于改进YOLOv8网络结构的跌倒人物目标检测方法，其特征在于，通过以下步骤构建跌倒人物数据集：

获取公共数据集图像FallDetectionDataset，收集视频跌倒图像，构建两个数据集。Fall DetectionDataset有33128张图片，收集的视频跌倒图像大约有10000张图像。本实施例采用LabelImg程序对数据集进行标注，并将其转换为YOLO格式，用于YOLOv8模型的训练。本实施例采用LabelImg程序对数据集进行标注，并将其转换为YOLO格式，用于YOLOv8模型的训练。