CN111178134B

CN111178134B - 一种基于深度学习与网络压缩的摔倒检测方法

Info

Publication number: CN111178134B
Application number: CN201911223306.2A
Authority: CN
Inventors: 李祖祥; 曾碧
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-05-30
Anticipated expiration: 2039-12-03
Also published as: CN111178134A

Abstract

本发明提供了一种基于深度学习与网络压缩的摔倒检测方法，该方法的检测部分由姿态估计网络与循环网络两部分构成，利用人体姿态模型从图像序列中获取人体的头部与两髋中心与其连线的中点的位置信息，计算前后两幅图像的身体中心的位移，构成一个位移序列。将这组位移序列送入循环网络中进行摔倒识别；为了扩展到多角度识别，将多个位置的摄像头输出的识别概率送入SVM分类器进行投票判别。为了提高识别速度，根据卷积核输出的特征的冗余度，对占时最长的人体姿态估计网络进行裁剪；本方法是一种纯视觉化的检测方法，既克服了传感器检测的局限性，也提高了视觉检测的速度和精度。兼备灵活性与实用性。

Description

一种基于深度学习与网络压缩的摔倒检测方法

技术领域

本发明涉及到摔倒行为检测、健康监测与机器视觉识别技术，提供一种基于深度学习与网络压缩的摔倒检测方法。

背景技术

作为能对人体产生直接影响的行为之一，摔倒不仅会对人的身体健康造成直接的负面影响，还会带来潜在的健康隐患。最为关键的一点是，摔倒本身就是反映人体健康状况恶化的重要标志。对于无人看护的老人和病人而言，能否及时发现其摔倒行为直接关系到他们的生命安全。由于由人直接通过视频监测摔倒行为需要耗费大量人力物力资源。因此智能化的摔倒检测应运而生。

目前的智能摔倒检测主要集中在传感器检测与视觉检测上。基于传感器检测的方法通过穿戴的传感器获取人体摔倒期间的加速度特征、角速度特征等序列数据并应用如阈值法等传统分类方法对数据与训练模板匹配，优点是准确率高且速度快，但使用传感器会不仅会带来高昂的制作与维护成本，而且大部分都要求使用者穿戴或携带感应设备，降低了方法的便利性与灵活性。

而当前的基于视觉检测的方法主要是通过对摄像头获取的图像进行分析，获取人体角速度变化等特征，并用SVM、CNN等判别器判别摔倒行为。此类方法耗时较长，速度与精度难以平衡。本发明的主要目的是提供一种快速且高精度的摔倒检测方法，在克服传感器检测灵活性差的基础上，达到速度远优于当前视觉检测技术的检测效果。

目前已有的解决方法与技术：

1.基于姿态分析的健壮性摔倒判别。主要思路是提取视频中人体的最佳拟合椭圆，分段轮廓的投影直方图和头部姿势随时间的变化的特征，并送入多分类SVM进行运动分类与摔倒判别。主要问题是特征信息获取难度高，直接降低了识别速度。

2.基于CNN的室内摔倒判别。主要思路是通过背景剔除法获取图像中的人体，从而得到人体姿态的变化特征图像，并将其送入CNN训练。最后用得到的CNN分类器作摔倒判别。主要问题是没有利用到摔倒过程的动态特征，没有利用时间轴上的信息，而且背景剔除法难以区分复杂的环境背景与人体。

3.基于三轴加速度传感器的摔倒检测系统。用三轴加速度传感器采集人体摔倒时的三个方向的加速度信息，用加速度数值计算人体摔倒时的姿态角。设定姿态角阈值，超出阈值时判别为摔倒。主要问题是阈值需要靠既有经验去设定，可信度不高，而且需要额外配备专用的三轴传感器。

4.基于Kinect骨架追踪的人体摔倒自动检测。利用kinect获取视频中的人体头、左肩、右肩、左髋、右髋、两髋中心6个骨架点信息，计算其空间位置与运动速度等参数。最后应用阈值法判断是否摔倒。主要问题是阈值需要人为设定，而且成本较高。

发明内容

为了克服传感器检测的低灵活性问题与视觉检测的速度过慢的问题，本发明提供了一种深度学习与网络压缩相结合的摔倒检测方法。

为了实现上述任务，本申请采用以下技术方案：

一种基于深度学习与网络压缩的摔倒检测方法，包括以下步骤：

在监测区域安装多个不同角度的摄像头，所有摄像头共享一个姿态估计网络，而每一个摄像头均对应一个独立的循环网络；

训练姿态估计网络，并对姿态估计网络进行压缩；训练循环网络，建立并训练多人投票系统；

检测过程中，对于每个摄像头，每隔固定的帧数获取一张摄像头采集的检测图像，送入训练后的姿态估计网络提取出头部、两髋中心、身体中心关键点位置；计算摄像头当前获取的检测图像与上一次获取的检测图像中人体的身体中心点的归一化位移量，并将其缓存；

当针对一个摄像头已经缓存了设定数量的位移量时，将这些位移量按照缓存顺序连接成位移序列并输入到该摄像头对应的训练好的循环网络中，输出摔倒行为的概率，若该概率大于设定的第一阈值，则该摄像头进行汇报；

若有摄像头汇报，则将所有摄像头对应的训练好的循环网络当前输出的摔倒概率输入到训练好的多人投票系统中，多人投票系统最终摔倒概率，若最终摔倒概率大于设定的第二阈值，则输出报警信号。

进一步地，所述归一化位移量的计算公式为：

其中，(x_t，y_t)、(x_t-10，y_t-10)分别表示当前获取的检测图像、上一次获取的检测图像中身体中心关键点位置，(a_t，b_t)、(c_t，d_t)分别表示当前获取的检测图像中头部、两髋中心的位置，其中：

进一步地，所述姿态估计网络采用yolov2网络；在yolov2网络训练好之后，通过下面网络剪枝的方法进行网络压缩：

2.1确定剪枝对象，剪枝对象为yolov2网络的darknet-19全部卷积层与其后的全部卷积层块，其中所述卷积层块中包含多个卷积层；对所有卷积层设定裁剪概率，记l_i层概率为p_i，i表示卷积层的序号；

2.2输入训练图像样本集X到姿态估计网络中，训练图像样本集X内的每张图片包含人体的头部与两髋中心的框图和肢体框图；

2.3对l_i层的所有m个卷积核输出的特征图集的集合H(H＝{h1，h2，…，hN}，重复2.4至2.7m*p_i次；其中N为训练图像样本集X中的图像数，hn表示X中的第n张图像在l_i层输出的特征图集；

2.4计算训练图像样本集X中每张图像在l_i层输出的特征图集中，每个特征图关于该特征图集中的其他特征图的相似度；

2.5计算每个特征图集中，每个特征图对应的卷积核的特征冗余度；

2.6计算l_i层中各卷积核关于训练图像样本集X的特征冗余度的平均值；将平均值最大的冗余度最大的卷积核删除；

2.7对姿态估计网络进行微调；

2.8如果l_i层不是剪枝对象中的最后一个卷积层，返回步骤2.3，选择下一个卷积层l_i+1并重复步骤2.3至步骤2.8；如果l_i已经是最后一个卷积层，则执行步骤2.9；

2.9适当降低网络学习率，用同样的训练图像样本集X训练整个姿态估计网络。

进一步地，所述卷积核的特征冗余度计算方法为：

其中，red_a为特征图H_a对应的卷积核的特征冗余度；

用sim_ab表示两特征图H_a，H_b的相似度：

sim_ab＝(H_a-H_b)²

其中，H_a，H_b为属于同一个特征图集合。

进一步地，所述对姿态估计网络进行微调的过程包括：

用训练图像样本集X训练第l_i层与其上一层l_i-1的权值w_i，w_i-1，使得下一层l_i+1输出的任意特征图

和对应于裁剪前的特征图H_j的相似度

尽可能小。

进一步地，所述用训练图像样本集X训练第l_i层与其上一层l_i-1的权值w_i，w_i-1，使得下一层l_i+1输出的任意特征图

和对应于裁剪前的特征图H_j的相似度

尽可能小，包括：

对X中的每一张图像，取出其在裁剪后的姿态估计网络的l_i+1层输出的全部特征图

m为l_i+1的卷积核数量；与其在裁剪前的网络的l_i+1层输出的全部特征图H＝{H₁，H₂，...，H_m}，求

以在训练图像样本集X上的均值作为损失，训练姿态估计网络的l_i层与其上一层l_i-1，使得

在训练图像样本集X上的均值最小：

进一步地，所述循环网络采用RNN网络。

进一步地，所述建立并训练多人投票系统，包括：

建立多人投票系统，多人投票系统采用SVM分类器，以多个所述摄像头所采集的图像通过训练后的循环网络输出的多个摔倒概率值作为输入，以0-1作为是否摔倒的标签，SVM分类器输出当前处于摔倒状态的概率，以SVM分类器预测的分布与实际标签分布的交叉熵作为损失函数，对SVM分类器进行训练。

进一步地，所述的第一阈值、第二阈值均设置为0.5。

进一步地，当所述的摄像头进行汇报之后，删除位移序列中缓存最早的一个位移量后，待接收到新的缓存位移量时，通过训练好的循环网络进行下一次摔倒概率的预测；

若摔倒行为的概率小于等于第一阈值，则摄像头不进行汇报。

1.本申请将深度卷积网络与循环网络结合，实现泛化能力强且高精度的摔倒检测；提出一种新的网络剪枝方法并应用于姿态估计网络中，实现快速检测；同时采用多人投票系统，以在多角度检测的同时保持速度。

2.本申请是一种纯视觉化的检测方法，既克服了传感器检测的局限性，也提高了视觉检测的速度和精度，兼备灵活性与实用性。

附图说明

图1为本申请的基于深度学习与网络压缩的摔倒检测方法在应用时的流程示意图；

图2为基于深度学习与网络压缩方法的整体流程框图；

图3为姿态估计网络的模型结构图；

图4为姿态估计网路进行压缩的示意图；

图5为姿态估计网络进行微调的示意图；

图6为循环网络的模型结构图。

具体实施方式

本申请由姿态检测网络与摔倒识别网络两部分构成，前者是卷积网络，后者是循环网络。利用人体姿态模型从图像序列中获取人体的头部与两髋中心与其连线的中点(即身体中心)的位置信息，计算前后两幅图像的身体中心的位移，构成一个位移序列。将这组位移序列送入循环神经网络中进行摔倒识别。为了扩展到多角度识别，将多个位置的摄像头输出的识别概率送入多人投票系统进行投票判别。为了提高识别速度，根据卷积核输出的特征的冗余度，对占时最长的人体姿态估计网络进行裁剪。

一种基于深度学习与网络压缩的摔倒检测方法，如图1所示，包括如下步骤：

步骤1，在监测区域安装多个不同角度的摄像头，所有摄像头共享一个姿态估计网络，而每一个摄像头均对应一个独立的循环网络。

例如，当监测区域为住所里的房间时，摄像头可安装在检测区域的四个顶角，并使镜头指向房间中部，以确保摄像头所拍摄的图像尽可能涵盖房间区域，也能从不同角度获取房间内的图像。在其他监测环境下，摄像头可根据实际情况进行位置和数量的布设。

本申请的实施例中，姿态估计网络的作用是从摄像头采集的图像中获取人体的关键点位置，而循环网络则用于进行摔倒行为的判别。所述的多个摄像头均连接至一个中央处理模块，所述的姿态估计网络设置在中央处理模块中；所述的循环网络的数量与摄像头数量相同，每一个循环网络独立地用于对应的摄像头进行摔倒行为的判别；因此，循环网络可建立在对应的摄像头内的处理模块中，也可以在中央处理模块内分别建立对应于多个摄像头的多个循环网络。

步骤2，训练姿态估计网络，并对姿态估计网络进行压缩。

本申请的实施例中，分别需要对姿态估计网络进行训练、压缩，然后进行循环网络、多人投票系统的训练，如图2所示。

所述姿态估计网络采用yolov2网络。如图3所示，在yolov2中，姿态识别方法类似Openpose方法，识别姿态关键点与PAF(肢体向量场)。yolov2网络以摄像头获取的一张图像为输入，以图像中人体的头部与两髋中心的回归框图(回归框图包括关键点类型t、关键点中心位置(x,y)、框高h、框宽w)和肢体(在本申请中，只检测头部与两髋中心连线的肢体，即躯干)框图(肢体方向L(用0～359表示)、肢体中心位置(x,y)、框高h、框宽w)为输出。此后，利用Openpose的方法输出人体姿态(包含头部、两髋中心与其连线)。

利用预先采集的数据集或已有的数据集对姿态估计网络进行训练，训练好网络后，对姿态估计网络进行压缩剪枝操作。

图4给姿态估计网络进行压缩的示例图，具体地，本实施例中通过对网络进行剪枝以达到压缩的目的，具体步骤如下：

2.1确定剪枝对象，剪枝对象为姿态估计网络yolov2的darknet-19全部卷积层与其后的全部卷积层块，其中所述卷积层块中包含多个卷积层；对所有卷积层设定裁剪概率，记l_i层概率为p_i，i表示卷积层的序号；

2.2输入训练图像样本集X到姿态估计网络中，X内的每张图片包含人体的头部与两髋中心的框图和肢体框图；

2.3对l_i层的所有m个卷积核输出的特征图集的集合H(H＝{h1，h2，…，hN}，重复2.4至2.7m*p_i(取整)次；其中N为训练图像样本集X中的图像数，hn表示训练图像样本集X中的第n(n∈N)张图像在l_i层输出的特征图集；

2.4计算训练图像样本集X中每张图像在l_i层输出的特征图集中，每个特征图关于该特征图集中的其他特征图的相似度；用sim_ab表示两特征图H_a，H_b的相似度：

sim_ab＝(H_a-H_b)² 式1

2.5计算每个特征图集中，每个特征图对应的卷积核的特征冗余度。

令red_a为H_a对应的卷积核的特征冗余度，计算每个卷积核的特征冗余度：

2.6计算l_i层中各卷积核关于训练图像样本集X的特征冗余度的平均值；将平均值最大的冗余度最大的卷积核删除；即在训练图像样本集X中的每一张图像的特征图集hn中，均找出对应于第k(k∈m)个卷积核的特征图(n个)，先分别利用步骤2.5计算这n个特征图对应的特征冗余度，然后求其平均值；将所有卷积核均按照相同方法操作后，找出特征冗余度最大的卷积核进行删除。

2.7对姿态估计网络进行微调：

图5为微调姿态估计网络的示例图，用同样的训练图像样本集X训练第l_i层与其上一层l_i-1的权值w_i，w_i-1，使得下一层l_i+1输出的任意特征图

和对应于裁剪前(未进行网络剪枝时)的特征图H_j的相似度即

尽可能小，即：

对训练图像样本集X(图像数为N)中的每一张图像，取出其在(经过步骤2.1至步骤2.6)裁剪后的姿态估计网络的l_i+1层输出的全部特征图

(设m为l_i+1的卷积核数量)，与其在裁剪前的网络的l_i+1层输出的全部特征图H＝{H₁，H_２，...，H_m}，通过式3求

并以在训练图像样本集X上的均值作为损失，训练姿态估计网络的l_i层与其上一层l_i-1，使得

在训练图像样本集X上的均值最小，即式4：

2.8如果l_i层不是剪枝对象中的最后一个卷积层，返回步骤2.3，选择下一个卷积层l_i+1并重复步骤2.3至步骤2.8；如果l_i已经是最后一个卷积层，则执行步骤2.9。

2.9适当降低网络学习率，用同样的训练图像样本集X训练整个姿态估计网络，这是因为每次裁剪网络后进行的训练仅针对两层卷积层，而非裁剪层与其前面的所有卷积层。这样最终得出的网络不一定能使得网络最终输出的变化最小(只是尽量接近最小值)，因此需要再训练一次网络。

最后得到压缩后的姿态估计网络，可以大幅提高估计的速度，从而提高整个摔倒检测的速度。

步骤3，训练循环网络，建立并训练多人投票系统。

图5给出了本申请实现识别摔倒行为的循环网络，在本申请的实施例中，所述循环网络采用RNN网络。可利用训练好的状态估计网络来训练循环网络，即姿态估计网络训练好之后，利用其输出的头部、两髋中心、身体中心关键点位置计算位移量，利用位移量构成位移序列，以训练循环网络。

在图4中，当向网络中输入位移序列样本时，例如位移序列的长度为20，s1～s20为位移序列的第1～20个元素(按时间排列)。h1～h20为网络的第1～20层神经元层。每层神经元数量约100～300个。网络层h1～h19的激活函数σ_1～19采用relu，h20的激活函数σ₂₀采用sigmoid。网络一次接收一个元素输入，经过relu激活后与下一个元素一同输入到下一阶段的网络层中，重复20次后输出摔倒概率p。

设y_i为第i个样本的标签，h_n(S_i)为第i个样本在第n层网络的输出，U为输入的位移序列s的权值、W为上一层输出h_n-1的权值、b为阈值。则y_i由式5给出，h_n(S_i)由式6给出：

h_n(S_i)＝σ_n(Us_n+Wh_n-1(S_i)+b) 式6

上式中，σ_n表示第n层网络的激活函数，s_n表示第n层的位移序列。

用交叉熵计算网络损失l，最小化该损失以训练网络：

其中，m为循环网络的训练样本集中的样本数量。

本申请的实施例中，将每一个摄像头对应的循环网络均采用上述相同的方法进行训练，保存训练后的网络。

为了能够通过多个角度进行摔倒检测，并降低误报率，本申请提出一个简单的多人投票系统，具体设置步骤为：

离线训练多人投票系统，本实施例中多人投票系统采用SVM分类器，以n个摄像头所采集的图像通过训练后的循环网络输出的n个摔倒概率值作为输入，以0-1作为是否摔倒的标签，SVM分类器输出当前处于摔倒状态的概率，以SVM分类器预测的分布与实际标签分布的交叉熵作为损失函数，对SVM分类器进行训练。

在实际检测中，当有摄像头报警时，取出n个摄像头输出的n个摔倒概率，并将其输入到SVM分类器中。当SVM输出概率值大于0.5时，判断为摔倒并向系统报警。

步骤4，检测过程中，所有摄像头同步采集图像并进行概率判定过程。对n个摄像头中的每个摄像头，每间隔固定的帧数，例如隔10帧获取摄像头采集的检测图像，送入训练后的姿态估计网络提取出头部、两髋中心、身体中心关键点位置(a，b)，(c，d)，(x，y)，其中x，y的值由式8给出：

步骤5，对于每一个摄像头，计算摄像头当前获取的检测图像与上一次在10帧前获取的检测图像中人体的身体中心点的归一化位移量s，并将其缓存，作为此10帧内中心关键点的位移量：

其中，(x_t，y_t)、(x_t-10，y_t-10)分别表示当前获取的检测图像、10帧前获取的上一帧检测图像中身体中心关键点位置，(a_t，b_t)、(c_t，d_t)分别表示当前获取的检测图像中头部、两髋中心的位置。

步骤6，当针对一个摄像头已经缓存了设定数量的位移量时，例如本实施例中设定20个位移量，则将该20个位移量按照缓存顺序连接成位移序列S并输入到该摄像头对应的训练好的循环网络中，输出摔倒行为的概率p；若p>0.5，则该摄像头向系统进行汇报，同时删除向量S中缓存最早的一个位移量，转回步骤4，待接收到新的缓存位移量时(以构成新的20个位移量)，以进行下一次的判定过程；否则直接删除向量S中缓存最早的一个位移量后转回步骤4，而不进行汇报。

步骤7，若有摄像头汇报，将所有n个摄像头对应的训练好的循环网络当前输出的摔倒概率p1,p2,…,pn输入到训练好的多人投票系统中，多人投票系统最终摔倒概率P，若P>0.5，则输出报警信号。

在中央处理模块中，如果多人投票系统最终输出的摔倒概率大于设定的阈值，则最终判断监测区域有人摔倒，此时可通过例如短信提醒、电话提醒等进行报警。