CN110942009B

CN110942009B - 基于时空混合卷积网络的跌倒检测方法与系统

Info

Publication number: CN110942009B
Application number: CN201911152346.2A
Authority: CN
Inventors: 杨帆; 冯帅; 刘利卉; 胡建国
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology Jiangsu Co ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-06-08
Anticipated expiration: 2039-11-22
Also published as: CN110942009A

Abstract

本发明提供一种基于时空混合卷积网络的跌倒检测方法与系统，采用时空混合卷积网络的检测方法，把检测分为定位(坐标回归)和分类两部分，结合2D CNN和3D CNN的时空混合卷积网络，同时获取到优质的位置特征和类别特征，坐标回归完的特征全由2D CNN生成，分类的特征则是由3D CNN特征生成。然后将位置特征和类别特征进行融合，进行模型训练得到预测模型。利用预测模型对视频流输入进行检测最终得到预测结果，即是否有人跌倒。本发明具有便捷的扩充网络的识别能力，解决了现有检测方法的精度低，速度慢，扩展性差的问题。

Description

基于时空混合卷积网络的跌倒检测方法与系统

技术领域

本发明涉及人脸与行为识别技术领域，具体而言涉及一种基于时空混合卷积网络的跌倒检测方法与系统。

背景技术

现有跌倒检测技术主要有两种，第一种是通过单张图片进行检测，这种技术只考虑单张图片信息，即只考虑空域信息，没有考虑到时序信息，通常很难得到较好的精度。第二种是基于二阶段的单帧目标检测器进行设计，将二阶段检测器的2D CNN主干网络用3DCNN主干网络替换，3D CNN用于提取视频序列的时序特征，区域提出网络直接使用独立的单帧目标检测器在关键帧上回归出的坐标进行替换，然后把坐标映射到提取的视频流特征上，最后通过三维区域降采样进行行为分类，即识别出是否跌倒。这种方法存在会丢失过多的目标上下文信息、不能端到端训练，以及计算量大的缺点。

因此可见，目前的检测方法的缺陷都给跌倒检测的应用都造成了很大的障碍。

发明内容

本发明目的在于提供一种基于时空混合卷积网络的跌倒检测方法，包括：

步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断，然后截取视频片段，得到N张图片，

步骤2、将图片的最后一帧,即第N张图片作为关键帧，只对关键帧里面的人进行标注；

步骤3、特征融合，包括两个分支，第一个分支作用是人体定位，使用2D CNN网络，第二个分支是作用是分类，采用3D CNN网络，其中2D CNN网络提取位置特征，3D CNN网络提取运动特征，对提取的位置特征和运动特征进行融合后，基于融合特征进行位置回归和行为分类；

步骤4、基于行为分类和位置回归进行模型训练，模型输入图片数量为L，从步骤1得到的第1至第N-1张图片进行随机采样，同时确保最后一帧被选到，之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练，得到预测模型；

步骤5、利用测试集对训练的预测模型进行评估，选择模型精度最高的作为最终的跌倒检测模型；

步骤6、基于步骤5输出的跌倒检测模型，输入用户的视频和/或图片进行跌倒检测。

优选地，所述步骤2中，标注信息包含坐标和类别，坐标信息为人所在矩形区域左上角(xmin,ymin)和矩形区域的右下角(xmax,ymax)，类别为跌倒(fall down)，跌倒的标注取决于关键帧之前的动作。

优选地，所述步骤3中，所述2D CNN网络采用ResNet50作为主干网络，定位分支的输入为一张视频帧，即关键帧。

优选地，所述步骤3中，所述3D CNN网络采用SlowFast网络作为主干网络，SlowFast网络分别由slow和fast两部分组成，输入视频帧数分别为4帧和32帧，slow和fast部分提取到的特征维度均为1x1024x10x10，将slow和fast部分提取到的特征合并到一起得到1x2048x10x10维的特征，再将得到1x2048x10x10维的特征通过两层2D卷积Conv1和Conv2，使得3D CNN部分最终得到的特征维度为1x30x10x10。

优选地，所述步骤3中，图片输入尺寸缩放为320x320，3D CNN网络和2D CNN网络使用五次最大池化(Max pooling)，2D CNN网络和3D CNN网络最终提取的特征均为1x30x10x10，其中在特征融合过程中采用YOLO一阶段检测器。

优选地，所述步骤4中的模型训练过程中，优化器采用ADAM，并对2D CNN网络和3DCNN网络的初始学习率(learning rate)和权重衰减参数(weight decay)进行单独设置：

2D CNN的基础学习率设置为0.0001，权重衰减参数设置为0.00005；

3D CNN的基础学习率设置为0.00006，权重衰减参数设置为0.0001；

其中，在随机采样和初始化训练过程中，批大小(batch size)设置成64，一共迭代90轮，每30轮两个分支的学习率同时降低一半。

根据本发明，还提出一种基于时空混合卷积网络的跌倒检测系统，包括：

用于通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断，然后截取视频片段，得到N张图片的模块；

用于将图片的最后一帧,即第N张图片作为关键帧的模块，其中只对关键帧里面的人进行标注的模块；

用于特征融合的模块，所述特征融合包括两个分支，第一个分支作用是人体定位，使用2D CNN网络，第二个分支是作用是分类，采用3D CNN网络，其中2D CNN网络提取位置特征，3D CNN网络提取运动特征，对提取的位置特征和运动特征进行融合后，基于融合特征进行位置回归和行为分类；

用于基于行为分类和位置回归进行模型训练的模块，模型输入图片数量为L，从步骤1得到的第1至第N-1张图片进行随机采样，同时确保最后一帧被选到，之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练，得到预测模型；

用于利用测试集对训练的预测模型进行评估，选择模型精度最高的作为最终的跌倒检测模型的模块；

用于基于输出的跌倒检测模型，输入用户的视频和/或图片进行跌倒检测的模块。

一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括：

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明的基于时空混合卷积网络的跌倒检测的流程图。

图2是本发明的基于时空混合卷积网络的跌倒检测的原理框图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是应为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

本发明所提出的跌倒检测属于时空域的行为检测。时空域行为检测就是需要在视频中识别出目标在某段时间内发生的行为并给出目标的具体位置。跌倒检测在学校，医院，家庭等场景都具有非常广泛的应用前景，但是目前的算法都存在精度低以及计算量大等缺陷导致跌倒检测很难应用。本发明提出时空混合卷积网络来解决上述存在的问题，同时时空混合卷积网络可拓展到其它行为识别，比如走路、跑步、打架、谈话等行为。

下面结合图1-2所示，更加具体地说明本发明的示例性实施例的基于时空混合卷积网络的跌倒检测的实现过程。

结合图1所示，上述过程整体上包括跌倒检测模型生成以及跌倒行为检测。其中结合图2所示，跌倒检测模型训练生成流程包括图片数据截取、数据标注、数据融合以及模型训练和验证。

如此，本发明所采用的跌倒检测采用时空混合卷积网络的检测方法，把检测分为定位(坐标回归)和分类两部分，单纯采用单张图片用过2D CNN进行跌倒检测会出现难以被准确识别，采用3D CNN又会损失了目标的大量位置信息，本发明提出的结合2D CNN和3DCNN的时空混合卷积网络，同时获取到优质的位置特征和类别特征，坐标回归完的特征全由2D CNN生成，分类的特征则是由3D CNN特征生成。然后将位置特征和类别特征进行融合，融合操作包含了特征映射和NMS等后处理，最终得到预测结果，即是否有人跌倒。

优选地，所述步骤3中，所述3D CNN网络采用SlowFast网络作为主干网络，SlowFast网络分别由slow和fast两部分组成，输入视频帧数分别为4帧和32帧，slow和fast部分提取到的特征维度均为1x1024x10x10，将slow和fast部分提取到的特征合并到一起得到1x2048x10x10维的特征。

更加优选地，为了slow和fast部分提取到的特征有效融合，可再将得到1x2048x10x10维的特征通过两层2D卷积Conv1和Conv2，使得3D CNN部分最终得到的特征维度为1x30x10x10。

优选地，所述步骤3中，图片输入尺寸缩放为320x320，3D CNN网络和2D CNN网络使用五次最大池化(Max pooling)，2D CNN网络和3D CNN网络最终提取的特征均为1x30x10x10，其中在特征融合过程中采用YOLO一阶段检测器。优选地，损失函数部分也可以采用YOLO一阶段检测器的方法。

优选地，所述步骤4中的模型训练过程中，优化器采用ADAM，并针对3D CNN参数量大，容易产生过拟合的问题，可对2D CNN网络和3D CNN网络的初始学习率(learning rate)和权重衰减参数(weight decay)进行单独设置：

2D CNN的基础学习率设置为0.0001，权重衰减参数设置为0.00005；

3D CNN的基础学习率设置为0.00006，权重衰减参数设置为0.0001；

作为示例，本发明中采用了使用8块NVIDIA 2080TI GPU的硬件环境进行随机初始化训练。

如此，通过本发明的实施例可得到优选的检测模型。

结合图1、2，跌倒行为检测部分示例性的实施例中，包括视频流输入模块、图像预处理模块、模型前向计算模块以及后处理模块。具体流程如下：

第一步、视频流输入模块将采集到的视频帧按照每隔一帧的频率压入(push)到一个Q队列里面，直到Q的长度等于L；

第二步、图像预处理，将Q里面的图片序列进行归一化，得到归一化之后的图片序列Q-Norm；

第三步、将第二步归一化之后的图片序列Q-Norm输入到模型进行前向计算；

第四步、对前向计算的结果进行后处理，后处理主要是通过设定阈值来判断否有人跌倒，同时将Q里面最先压入(push)的视频帧取出(pop)，然后按照步骤一里的规则继续压入新的视频帧，Q等待下一次的预测。

如此，通过本发明的基于时空混合卷积方法的跌倒检测，在数据标注部分只需要标注一张关键帧，数据标注的成本将会更低。在网络训练部分，可以实现端到端的训练。在精度部分，通过时空混合卷积让网络可以提取到高质量的特征，从而可以有着较好的召回率和精度。在可拓展方面，本发明还可以扩展加入其它行为，便捷的扩充网络的识别能力，解决了现有检测方法的精度低，速度慢，扩展性差的问题。

结合图示，本发明的前述实施例还可以根据具体实施配置如下。

{跌倒检测系统}

一种基于时空混合卷积网络的跌倒检测系统，包括：

{跌倒检测系统}

一种基于时空混合卷积网络的跌倒检测系统，包括：

一个或多个处理器；

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于时空混合卷积网络的跌倒检测方法，其特征在于，包括：

步骤2、将图片的最后一帧,即第N张图片作为关键帧，只对关键帧里面的人进行标注，其中标注信息包含坐标和类别，坐标信息为人所在矩形区域左上角（xmin,ymin）和矩形区域的右下角（xmax,ymax），类别为跌倒(fall down)，跌倒的标注取决于关键帧之前的动作；

步骤3、特征融合，包括两个分支，第一个分支作用是人体定位，使用2D CNN网络，第二个分支是作用是分类，采用3D CNN网络，其中2D CNN网络提取位置特征，3D CNN网络提取运动特征，对提取的位置特征和运动特征进行融合后，基于融合特征进行位置回归和行为分类；所述2D CNN网络采用ResNet50作为主干网络，定位分支的输入为一张视频帧，即关键帧；

步骤6、基于步骤5输出的跌倒检测模型，输入用户的视频和/或图片进行跌倒检测；

其中，在所述步骤3中，所述3D CNN网络采用SlowFast网络作为主干网络，SlowFast网络分别由slow和fast两部分组成，输入视频帧数分别为4帧和32帧，slow和 fast部分提取到的特征维度均为1x1024x10x10，将slow和fast部分提取到的特征合并到一起得到1x2048x10x10维的特征，再将得到1x2048x10x10维的特征通过两层2D卷积Conv1和Conv2，使得3D CNN部分最终得到的特征维度为1x30x10x10。

2.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法，其特征在于，所述步骤1中，对于视频片段的截取，得到的N张图片，其中N=3*M，M为视频片段的帧率。

3.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法，其特征在于，所述步骤3中，图片输入尺寸缩放为320x320，3D CNN网络和2D CNN网络使用五次最大池化（Maxpooling），2D CNN网络和3D CNN网络最终提取的特征均为1x30x10x10，其中在特征融合过程中采用YOLO一阶段检测器。

4.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法，其特征在于，所述步骤4中的模型训练过程中，优化器采用ADAM，并对2D CNN网络和3D CNN网络的初始学习率（learning rate）和权重衰减参数(weight decay)进行单独设置：

2D CNN的基础学习率设置为0.0001，权重衰减参数设置为0.00005；

3D CNN的基础学习率设置为0.00006，权重衰减参数设置为0.0001；

其中，在随机采样和初始化训练过程中，批大小（batch size）设置成64，一共迭代90轮，每30轮两个分支的学习率同时降低一半。

5.一种基于时空混合卷积网络的跌倒检测系统，其特征在于，包括：

6.一种基于时空混合卷积网络的跌倒检测系统，其特征在于，包括：

一个或多个处理器；