CN112906535A

CN112906535A - 一种基于神经网络的适用于多尺度多目标的摔倒检测方法

Info

Publication number: CN112906535A
Application number: CN202110170064.6A
Authority: CN
Inventors: 柳长源; 刘珈辰; 王鹏; 薛楠; 由茗枫; 侯梦辰
Original assignee: Harbin Penglu Intelligent Technology Co ltd; Harbin University of Science and Technology
Current assignee: Harbin Penglu Intelligent Technology Co ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-06-04
Anticipated expiration: 2041-02-09
Also published as: CN112906535B

Abstract

本发明公开了一种基于神经网络的适用于多尺度多目标的摔倒检测方法，主要解决现有摔倒检测算法对小目标检测准确率低及无法实现多目标检测的问题。其方案是：(1)对公开的摔倒检测数据集进行补充，制作摔倒检测融合数据集；(2)对YOLOv4网络进行改造，搭建针对人体特性的YOLOv4摔倒检测网络；(3)使用K‑means算法针对摔倒检测融合数据集更新anchors值；(4)采用Label Smoothing对网络标签进行改造；(5)对改造后YOLOv4网络进行训练和测试。本发明提高了小目标的摔倒检测精度，实现了多目标的摔倒检测，可应用于易发生摔倒的场所，提高对于摔倒人群的救助效率。

Description

一种基于神经网络的适用于多尺度多目标的摔倒检测方法

技术领域

本发明涉及机器视觉领域，具体为一种基于神经网络的适用于多尺度多目标的摔倒检测方法。

背景技术

近年来，随着科学技术和医疗水平的发展，人口老龄化情况不断加剧，经常发生老人独自在家中摔倒无人发现，最终致死的悲剧。因此，将机器视觉应用在摔倒检测中具有十分重要的现实意义。

基于机器视觉的摔倒检测方法主要有：基于传统图像处理的摔倒检测方法和基于深度学习的摔倒检测方法，基于传统图像处理的摔倒检测方法受检测环境的影响较大，且无法实现多目标检测；基于深度学习的摔倒检测方法受检测环境影响较小，且可精准实现对多目标检测。

已公开的基于深度学习的摔倒检测方法普遍将检测过程分为两步：运动目标检测和摔倒判定，使用两个网络进行检测，在运动目标检测阶段进行一次特征提取，在摔倒判定阶段再次进行特征提取，重复两次特征提取大大影响检测速度，造成网络模型训练困难。此外，已公开的目标检测网络模型在复杂背景下检测的准确率低，对人体征的提取效果不好，缺少语义信息。已公开的人体行为的数据集中包含小目标的样本数量极少，潜在的让目标检测模型更关注大目标检测，会造成小目标检测的准确率较低。

为解决上述问题，本发明提出一种基于神经网络的适用于多尺度多目标的摔倒检测方法，通过制作摔倒检测融合数据集，对现有摔倒数据集补充小目标样本，提高网络模型对小目标检测的准确率；针对人体特性，对YOLOv4网络模型进行改造，提高网络模型对人体目标识别的精度；将摔倒判定问题看作分类问题，将目标识别和摔倒判定均放到YOLOv4网络模型中，实现端到端的摔倒检测，降低网络训练难度，提高检测速度。

发明内容

本发明提供一种基于神经网络的适用于多尺度多目标的摔倒检测方法。拍摄包含大目标、中目标和小目标三种人体目标的摔倒视频，经过前期处理制作成摔倒检测融合数据集；将摔倒判定问题看作分类问题，将目标检测和摔倒判定均放到YOLOv4网络模型中，实现端到端的摔倒检测；针对人体特性，对YOLOv4网络模型的特征层进行改造，让网络模型更符合对人体行为的检测。

本发明采用如下方法来实现：

为实现上述目的本发明一种基于神经网络的适用于多尺度多目标的摔倒检测方法，通过以下步骤实现：

(1)对公开的摔倒检测数据集进行补充，制作摔倒检测融合数据集：

(1-1)制作融合视频：拍摄多段人体目标距离摄像头不同距离不同角度以及单人和多人的摔倒视频，并与公开的摔倒视频进行融合，视频中的人体动作包括站立、行走、坐、弯腰和摔倒；拍摄场景包括会议室、家中卧室；

(1-2)帧截取和初步筛选：对融合视频进行帧截取，每秒截取三帧，并且选取不同时刻视频数据，以防止由于光线、背景和穿着变化带来的影响，通过初步筛选，获得N1张原始图片；

(1-3)进一步筛选：人体目标在监控中是按时间段停留，会出现人体目标出现在监控区域边界的情况，当人体只有部分部位出现在监控区域时，参考人眼特性，无法对目标进行区分，当人体处于监控区域边界范围且不易被肉眼区分所处状态的目标不做检测，场景中有物体将人体遮挡三分之二以上的目标不做检测；通过进一步筛选，最终获得N2张图片；

(1-4)数据标定：对两次筛选后的图片进行标定，将标签分为5类：Standing、Walk、Sit、Bend_over和Fall；在N2张图片中随机选取N3张图片作为测试数据，剩余N4张图片用作训练数据；

(1-5)数据增强：使用Mosaic数据增强方法每次随机读取4张图片，分别对4张图片进行旋转缩放等操作，将4张图片拼接成一张图片，丰富物体的检测背景，对摔倒检测融合数据集进行扩增；

(2)对YOLOv4网络进行改造，搭建针对人体特性的YOLOv4摔倒检测网络：包括针对人体特性的YOLOv4特征提取网络CSPDarknet53、YOLOv4的颈部网络和YOLOv4头部网络；

(2-1)搭建针对人体特性的YOLOv4特征提取网络CSPDarknet53：YOLOv4网络模型共使用(13，13，N)，(26，26，N)，(52，52，N)三个特征层，分别用来识别大中小三类目标，由于人体尺寸较大，为适合人体尺寸N特性，将以上三类特征层改造成(6，6，N)，(12，12，N)，(24，24，N)进行检测，将输入图片大小调整为(384，384)，且增加一层Resblock_body(6，6，1024)x1层；

(2-2)搭建YOLOv4的颈部网络：PANet网络；

(2-3)搭建YOLOv4头部网络：YOLO Head1网络、YOLO Head2网络和YOLO Head3网络；

(3)使用K-means算法针对摔倒检测融合数据集更新anchors值：

使用K-means算法对摔倒检测融合数据集进行统计，对anchors值进行更新；

(4)采用Label Smoothing对网络标签进行改造：

采用Label Smoothing平滑，将分类准确做出惩罚，平滑后的标签变成0.005和0.995；

(5)对改造后YOLOv4网络进行训练和测试：

对摔倒检测融合数据集进行训练，剖析整个网络训练的损失函数，若不收敛则不断迭代更新网络参数调整网络结构，重新对网络进行训练，若整个网络趋于收敛则得到目标检测和摔倒判定融合网络模型，对得到的网络模型进行测试得到检测的准确率，通过比较和评价得到对检测目标的分类结果，实现对人体是否摔倒的检测，最终进行分析和总结。

优选的：所述步骤(1)将目标识别和摔倒判定融合到YOLOv4网络中：将摔倒检测融合数据集中图片输入到网络模型中，人体行为图片被分成不同大小的网格，将每个网格预测的人体行为信息和预测框的置信值进行乘积，得到每个预测框的具体类别置信分数，将摔倒判定问题看做分类问题在目标检测网络中进行。

优选的：所述步骤(1)摔倒检测融合数据集中目标分类的结果包括：站立的人、行走的人、坐着的人、弯腰的人和摔倒的人，其中身体被遮挡一半以内站立的人也可被识别为站立的人，身体被遮挡一半以内行走的人也可被识别为行走的人，身体被遮挡一半以内坐着的人也可被识别为坐着的人，身体被遮挡一半以内弯腰的人也可被识别为弯腰的人和身体被遮挡一半以内摔倒的人也可被识别为摔倒的人。

优选的：所述步骤(2)中网络结构为：在特征提取网络CSPDarknet53中，Input(384，384，3)层连接DarknetConv2D_BN_Mish(384，384，32)层，DarknetConv2D_BN_Mish(384，384，32)层连接Resblock_body(192，192，64)x1层，Resblock_body(192，192，64)x1层连接Resblock_body(96，96，128)x2层，Resblock_body(96，96，128)x2层连接Resblock_body(48，48，256)x8层，Resblock_body(48，48，256)x8层连接Resblock_body(24，24，512)x8层，Resblock_body(24，24，512)x8层连接Resblock_body(12，12，1024)x8层，Resblock_body(12，12，1024)x8层连接Resblock_body(6，6，1024)x1层；CSPDarknet53网络中的Resblock_body(24，24，512)x8层与与PANet网络连接，PANet网络与Yolo Head1网络连接；CSPDarknet53网络中的Resblock_body(12，12，1024)x8层与PANet网络连接，PANet网络与Yolo Head2网络连接；CSPDarknet53网络中的Resblock_body(6，6，1024)x1层与Conv x3层连接，Conv x3层与SPP网络连接，SPP网络与Concat+Conv x3层连接，Concat+Conv x3层与PANet网络连接，PANet网络与Yolo Head3网络连接。

优选的：所述步骤(2)中Yolo Head1网络的形状为(24，24，30)，Yolo Head2网络的形状为(12，12，30)，Yolo Head3网络的形状为(6，6，30)。

优选的：所述步骤(3)更新anchors值过程为：将数据分为K个类，在数据中随机选取K个点作为聚类中心，并计算每个点分别到K个聚类中心的欧氏距离，将该点分到最近的聚类中心形成K个簇，重新计算每个簇的均值，重复以上步骤直到达到迭代次数，anchors值更新完成。

本发明的有益效果为：

一种基于神经网络的适用于多尺度多目标的摔倒检测方法，通过制作摔倒检测融合数据集，对现有摔倒数据集补充小目标样本，提高网络模型对小目标检测的准确率；针对人体特性，对YOLOv4网络模型进行改造，提高网络模型对人体目标识别的精度；将摔倒判定问题看作分类问题，将目标识别和摔倒判定均放到YOLOv4网络模型中，实现端到端的摔倒检测，降低网络训练难度，提高检测速度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体算法流程图；

图2为本发明的摔倒检测融合数据集制作流程图；

图3为本发明的网络结构图；

图4为本发明的实验方法流程图；

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的部分，而省略了与本发明关系不大的其他细节。

具体实施方式一：

本实施方式的一种基于神经网络的适用于多尺度多目标的摔倒检测方法，结合图1，所述方法包括以下步骤：

步骤一、对公开的摔倒检测数据集进行补充，制作摔倒检测融合数据集；

步骤二、对YOLOv4网络进行改造，搭建针对人体特性的YOLOv4摔倒检测网络；

步骤三、使用K-means算法针对摔倒检测融合数据集更新anchors值；

步骤四、采用Label Smoothing对网络标签进行改造；

步骤五、对改造后YOLOv4网络进行训练和测试。

具体实施方式二：

与具体实施方式一不同的是，本实施方式的一种基于神经网络的适用于多尺度多目标的摔倒检测方法，结合图2，所述的步骤一中制作摔倒检测融合数据集具体流程为：

(1)制作融合视频：拍摄多段人体目标距离摄像头不同距离不同角度以及单人和多人的摔倒视频，并与公开的摔倒视频进行融合，视频中的人体动作包括站立、行走、坐、弯腰和摔倒；拍摄场景包括会议室、家中卧室；

(2)帧截取和初步筛选：对融合视频进行帧截取，每秒截取三帧，并且选取不同时刻视频数据，以防止由于光线、背景和穿着等变化带来的影响，通过初步筛选，获得13746张原始图片；

(3)进一步筛选：人体目标在监控中是按时间段停留，会出现人体目标出现在监控区域边界的情况，当人体只有部分部位出现在监控区域时，参考人眼特性，无法对目标进行区分，当人体处于监控区域边界范围且不易被肉眼区分所处状态的目标不做检测，场景中有物体将人体遮挡三分之二以上的目标不做检测；通过进一步筛选，最终获得10379张图片；

(4)数据标定：对两次筛选后的图片进行标定，将标签分为5类：Standing、Walk、Sit、Bend_over和Fall；随机选取1037张图片作为测试数据，剩余9342张图片用作训练数据；

(5)数据增强：使用Mosaic数据增强方法每次随机读取4张图片，分别对4张图片进行旋转缩放等操作，将4张图片拼接成一张图片，丰富物体的检测背景，对摔倒检测融合数据集进行扩增。

具体实施方式三：

与具体实施方式一或二不同的是，本实施方式的一种基于神经网络的适用于多尺度多目标的摔倒检测方法，结合图3，所述的步骤二中搭建针对人体特性的YOLOv4的摔倒检测网络具体流程为：

(1)搭建针对人体特性的YOLOv4特征提取网络CSPDarknet53：YOLOv4网络模型共使用(13，13，N)，(26，26，N)，(52，52，N)三个特征层，分别用来识别大中小三类目标，由于人体尺寸较大，为适合人体尺寸N特性，将以上三类特征层改造成(6，6，N)，(12，12，N)，(24，24，N)进行检测，将输入图片大小调整为(384，384)，且增加一层Resblock_body(6，6，1024)x1层；

(2)搭建YOLOv4的颈部网络：PANet网络；

(3)搭建YOLOv4头部网络：YOLO Head1网络、YOLO Head2网络和YOLO Head3网络。

所述步骤二中网络具体结构为：在特征提取网络CSPDarknet53中，Input(384，384，3)层连接DarknetConv2D_BN_Mish(384，384，32)层，DarknetConv2D_BN_Mish(384，384，32)层连接Resblock_body(192，192，64)x1层，Resblock_body(192，192，64)x1层连接Resblock_body(96，96，128)x2层，Resblock_body(96，96，128)x2层连接Resblock_body(48，48，256)x8层，Resblock_body(48，48，256)x8层连接Resblock_body(24，24，512)x8层，Resblock_body(24，24，512)x8层连接Resblock_body(12，12，1024)x8层，Resblock_body(12，12，1024)x8层连接Resblock_body(6，6，1024)x1层；CSPDarknet53网络中的Resblock_body(24，24，512)x8层与与PANet网络连接，PANet网络与Yolo Head1网络连接；CSPDarknet53网络中的Resblock_body(12，12，1024)x8层与PANet网络连接，PANet网络与Yolo Head2网络连接；CSPDarknet53网络中的Resblock_body(6，6，1024)x1层与Conv x3层连接，Conv x3层与SPP网络连接，SPP网络与Concat+Conv x3层连接，Concat+Conv x3层与PANet网络连接，PANet网络与Yolo Head3网络连接。

具体实施方式四：

与具体实施方式三不同的是，本实施方式的一种基于神经网络的适用于多尺度多目标的摔倒检测方法，结合图4，所述的步骤五中训练及测试网络的具体流程为：

Claims

1.一种基于神经网络的适用于多尺度多目标的摔倒检测方法，其特征在于：所述方法通过以下步骤实现：

(2-2)搭建YOLOv4的颈部网络：PANet网络；

(3)使用K-means算法针对摔倒检测融合数据集更新anchors值：

(4)采用Label Smoothing对网络标签进行改造：

(5)对改造后YOLOv4网络进行训练和测试：

2.根据权利要求1所述一种基于神经网络的适用于多尺度多目标的摔倒检测方法，其特征在于：将目标识别和摔倒判定融合到YOLOv4网络中：将摔倒检测融合数据集中图片输入到网络模型中，人体行为图片被分成不同大小的网格，将每个网格预测的人体行为信息和预测框的置信值进行乘积，得到每个预测框的具体类别置信分数，将摔倒判定问题看做分类问题在目标检测网络中进行。

3.根据权利要求1所述一种基于神经网络的适用于多尺度多目标的摔倒检测方法，其特征在于：所述网络结构为：在特征提取网络CSPDarknet53中，Input(384，384，3)层连接DarknetConv2D_BN_Mish(384，384，32)层，DarknetConv2D_BN_Mish(384，384，32)层连接Resblock_body(192，192，64)x1层，Resblock_body(192，192，64)x1层连接Resblock_body(96，96，128)x2层，Resblock_body(96，96，128)x2层连接Resblock_body(48，48，256)x8层，Resblock_body(48，48，256)x8层连接Resblock_body(24，24，512)x8层，Resblock_body(24，24，512)x8层连接Resblock_body(12，12，1024)x8层，Resblock_body(12，12，1024)x8层连接Resblock_body(6，6，1024)x1层；CSPDarknet53网络中的Resblock_body(24，24，512)x8层与与PANet网络连接，PANet网络与Yolo Head1网络连接；CSPDarknet53网络中的Resblock_body(12，12，1024)x8层与PANet网络连接，PANet网络与Yolo Head2网络连接；CSPDarknet53网络中的Resblock_body(6，6，1024)x1层与Conv x3层连接，Conv x3层与SPP网络连接，SPP网络与Concat+Conv x3层连接，Concat+Conv x3层与PANet网络连接，PANet网络与Yolo Head3网络连接。

4.根据权利要求1所述一种基于神经网络的适用于多尺度多目标的摔倒检测方法，其特征在于：所述步骤(2-3)中，Yolo Head1网络的形状为(24，24，30)，Yolo Head2网络的形状为(12，12，30)，Yolo Head3网络的形状为(6，6，30)。

5.根据权利要求1所述一种基于神经网络的适用于多尺度多目标的摔倒检测方法，其特征在于：其数据集中目标分类的结果包括：站立的人、行走的人、坐着的人、弯腰的人和摔倒的人，其中身体被遮挡一半以内站立的人也可被识别为站立的人，身体被遮挡一半以内行走的人也可被识别为行走的人，身体被遮挡一半以内坐着的人也可被识别为坐着的人，身体被遮挡一半以内弯腰的人也可被识别为弯腰的人和身体被遮挡一半以内摔倒的人也可被识别为摔倒的人。