CN113743339B

CN113743339B - 一种基于场景识别的室内跌倒检测方法和系统

Info

Publication number: CN113743339B
Application number: CN202111054520.7A
Authority: CN
Inventors: 刘军清; 严兵; 康维
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2023-10-03
Anticipated expiration: 2041-09-09
Also published as: CN113743339A

Abstract

本申请公开了基于场景识别的室内跌倒检测方法和系统，本方法包括：采集监测区视频影像数据；场景类别判断，切割出单人画面；截取单人视频数据，并进行多模态处理；根据多模态数据和预置跌倒检测网络，进行跌倒判断；本系统包括影像采集单元、场景分类单元、多模态处理单元和跌倒判断单元；影像采集单元用于采集监测区视频影像数据；场景分类单元用于场景类别判断并标示单人画面，多模态处理单元用于进行多模态处理，生成多模态数据，跌倒判断单元用于进行跌倒判断。本申请方法简单，避免了大量无人场景和多人场景下的无效计算，利用多模态数据，提高了跌倒检测准确率。

Description

一种基于场景识别的室内跌倒检测方法和系统

技术领域

本申请属于深度学习和计算机视觉技术领域，具体涉及一种基于场景识别的室内跌倒检测方法和系统。

背景技术

跌倒是高龄老人受伤并死亡的主要原因，老年人由于身体素质体能下降或各种疾病的困扰，跌倒后没有及时获得帮助导致受伤的概率激增。传统的跌倒检测方法是佩戴可穿戴设备，通过获取相应的行为特征来判断是否发生跌倒行为。对于可穿戴设备，老人很容易忘记穿戴或者穿戴相关设备影响正常生活，采用这种方式成本较高。

现阶段很多家庭会在家里装上摄像头，但是这种摄像头的作用只是简单监控，没有对监控数据进行利用。大量视频数据完全可以应用于室内跌倒检测的应用中。通过智慧监控系统可以帮助那些独居人士，给他们的生活提供一定的安全保障。

因此，为了提高跌倒检测的准确率和减少跌倒检测过程中不必要的计算，急需一种高效的跌倒检测方法。

发明内容

本申请提出了一种基于场景识别的室内跌倒检测方法和系统，识别室内单人场景中的人体目标，对单人场景的图片和视频片段进行多模态数据处理，由跌倒检测网络进行跌倒情形的判断。

为实现上述目的，本申请提供了如下方案：

一种基于场景识别的室内跌倒检测方法，包括如下步骤：

采集监测区视频影像数据；

基于所述监测区视频影像数据，进行场景类别判断，所述场景类别包括无人场景、单人场景和多人场景，基于所述单人场景，切割出单人画面；

基于所述单人画面，从所述监测区视频影像数据中截取包含所述单人画面的视频数据，生成单人视频数据，并对所述单人画面和所述单人视频数据进行多模态处理，生成多模态数据；

根据所述多模态数据和预置跌倒检测网络，进行跌倒判断，完成基于场景识别的室内跌倒检测。

优选的，进行所述场景类别判断的方法包括：使用目标检测算法，识别所述监测区视频影像数据中的场景画面人数，当所述场景画面人数为1时，从所述监测区视频影像数据中切割出所述单人画面，当所述场景画面人数不为1时，不做处理。

优选的，所述多模态处理包括单人画面处理和单人视频处理；

所述多模态数据包括人体目标裁切图片数据、单人视频数据、单人视频光流数据和单人视频前景序列数据。

优选的，所述单人画面处理的方法包括：

使用目标检测算法检测单人场景中的人体目标，并切割出人体锚框，生成人体目标锚框坐标数据；

根据所述人体目标锚框坐标数据，构建尺度特征；

基于所述尺度特征，采用异常点算法计算出所述尺度特征的正常范围和异常值，根据所述正常范围达到最佳裁切尺寸；

对所述单人画面进行裁剪和等比例缩放处理，达到所述人体目标裁切图片数据。

优选的，所述单人视频处理的方法包括：

基于所述单人画面，从所述监测区视频影像数据中截取包含所述单人画面的视频数据，生成单人视频数据；

使用光流算法计算所述单人视频数据的光流序列，得到所述单人视频光流数据；

使用ViBe算法计算所述单人视频数据的前景序列，得到所述单人视频前景序列数据。

优选的，所述跌倒检测网络包括特征提取方法和状态判断方法；

所述跌倒判断的方法包括：

使用特征提取方法提取所述多模态数据的特征分量，基于所述特征分量组成特征张量；

基于所述特征张量，使用状态判断方法检测视频中的跌倒情形。

本申请还公开了一种基于场景识别的室内跌倒检测系统，包括顺次连接的影像采集单元、场景分类单元、多模态处理单元和跌倒判断单元；

所述影像采集单元用于采集监测区视频影像数据；

所述场景分类单元用于对所述监测区视频影像数据进行场景类别判断，所述场景类别包括无人场景、单人场景和多人场景，所述场景分类单元还用于标示单人画面，并忽略所述无人场景和多人场景；

所述多模态处理单元用于根据所述单人画面，从所述监测区视频影像数据中截取包含所述单人画面的视频片段，生成单人视频，所述多模态处理单元还用于对所述单人画面和所述单人视频进行多模态处理，生成多模态数据；

所述跌倒判断单元用于对所述多模态数据进行特征提取，得到视频特征张量，并基于所述视频特征张量进行跌倒判断，当发现跌倒情形时，所述跌倒判断单元发出跌倒报警信息。

优选的，所述场景分类单元包括场景标识模块和单人标识模块；

所述场景标识模块用于对所述监测区视频影像数据进行场景类别判断，标示出单人场景；

所述单人标识模块用于从所述单人场景中切割出所述单人画面。

优选的，所述多模态处理单元包括人体目标处理模块、视频提取模块、视频光流处理模块和视频前景序列处理模块；

所述多模态数据包括人体目标裁切图片数据、单人视频数据、单人视频光流数据、单人视频前景序列数据；

所述人体目标处理模块用于对所述单人画面进行裁切处理，得到所述人体目标裁切图片数据；

所述视频提取模块用于根据所述单人画面，从所述监测区视频影像数据中截取所述单人视频数据，所述单人视频数据包含有所述单人画面；

所述视频光流处理模块用于对所述单人视频数据进行光流计算，得到所述单人视频光流数据；

所述视频前景序列处理模块用于提取所述单人视频数据的前景序列，生成所述单人视频前景序列数据。

优选的，所述跌倒判断单元包括特征提取模块、状态判断模块和报警模块；

所述特征提取模块用于对所述多模态数据进行特征提取，得到视频特征张量；

所述状态判断模块用于根据所述视频特征张量识别所述跌倒情形，并发出跌倒信息；

所述报警模块用于根据所述跌倒信息，发出所述跌倒报警信息。

本申请的有益效果为：

本申请公开了一种基于场景识别的室内跌倒检测方法和系统，可在现有监控视频的基础上进行跌倒判断，方法简单，只提取单人场景时间段内的视频数据，避免了大量无人场景和多人场景下的无效计算，利用多模态数据，从图片、光流、前景序列多个角度进行特征提取并进行跌倒情形判断，提高了跌倒检测准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的基于场景识别的室内跌倒检测方法流程示意图；

图2为本申请实施例一的构建多模态数据的流程示意图；

图3为本申请实施例二的基于场景识别的室内跌倒检测系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

如图1所示，为本申请实施例一所示的基于场景识别的室内跌倒检测方法，包括如下步骤：

S1.采集监测区视频影像数据。

在本实施例一中，使用视频监控设备采集室内环境下的日常活动视频影像。

S2.基于监测区视频影像数据，进行场景类别判断，在本实施例一中，场景类别包括无人场景、单人场景和多人场景，排除多人情况的干扰，检测单人场景的跌倒行为简单，实验结果更准确，进行跌倒监测逻辑更为合理；多人场合下，智能跌倒监测实际用处不大。在本实施例一中，使用目标检测算法计算计算视频中的人数，当视频画面中人数为1的时候，将切割出单人画面，并记录相应的时间。

具体的，根据Yolo-v4神经网络的检测人体目标的结果切割出人体锚框，检测人体左上角坐标(x₁，y₁)及右下角坐标(x₂，y₂)，n代表检测每帧中人体目标的总数，取出当n＝1时所有的帧，根据上述坐标切割出目标图像。

以检测目标数量n＝1为起始，记录帧数为tb，当检测人体目标数量不为1时，记录帧数为te，中间抽样间隔取8帧，于是处理图像为所有的原始数据，待处理的图像总数为8*(te-tb)+1。

基于此，监控系统采集每隔8帧提取一帧组成目标检测的视频信息。

本实施例一使用的目标检测算法用的是Yolo-V4神经网络，其中算法的输入为整个图像。其主干网络采用的是CSP和darknet-53框架，用于浅层特征提取，Neck部分为了丰富backbone网络提取的特征，采用FPN用相邻层的信息在自下而上和自上而下的信息流中进行组合。通过不同核大小的池化层提取不同尺度下的特征。

在本实施例一中yolo-v4网络检测人体目标，其中运用到的训练模型是其官方提供的训练模型。本发明中的目标检测是用于场景识别。在实际应用过程中，采用的yolo-v4神经输出人体坐标，根据检测的人体目标的数目记录相关数据，记录视频中只出现1个人的时间段。

先用yolo-v4神经网络进行场景识别，有以下几大优势：

排除多人情况的干扰，检测单人场景的跌倒行为简单，实验结果更准确。进行跌倒监测逻辑更为合理；多人场合下，智能跌倒监测实际用处不大。

由于后续步骤中需要统一尺度的输入，为了统一输入尺寸又能减弱背景的影响，本发明采用了统一尺寸策略。在人体目标检测过程中，人体目标随着空间位置的改变，其在摄像过程中显像的尺寸有差异。为了减轻上述问题的影响，本发明在输入原始数据的过程中采用Isolation Forest算法检测异常数据。

目标检测网络检测人体目标总数为1的坐标输出，人体左上角坐标(x₁，y₁)及右下角坐标(x₂，y₂)。为了检测目标检测结果中的异常数据，本发明在处理过程中，将目标检测的结果用＜width，height，scale＞来表示人体目标的尺度特征。

width＝x₂-x₁

height＝y₂-y₁

SCale＝width*height

在检测人体目标总数为1的一段时间内所有帧的尺度特征用以上＜width，height，scale＞表示。根据Isolation Forest算法将尺度特征分成正常与异常两类。当检测到尺度特征为正常的人体目标，每一帧裁剪区域宽度和高度分别为width、height中的最大值，其裁剪区域的中心点坐标为对于尺度特征为异常的人体目标，裁剪区域以(x₁，y₁)，(x₁，y₂)，(x₂，y₁)，(x₂，y₂)为四个顶点的矩形区域。

以上处理步骤是为了减轻背景对目标特征的影响，但是输入尺度并不一致。

(h，w)为分类网络输入的尺寸大小。为了裁剪的目标区域的大小与分类网络输入大小一致，将上述裁剪区域等比例放缩。

当width＞height时，裁剪区域放缩后的宽度与高度分别为(wf，hf)，

wf＝w

当width＜height时，裁剪区域放缩后的宽度与高度分别为(wf，hf)，

hf＝h

裁剪区域放缩后的图片，在上下或左右区域填充白色背景扩展成宽度和高度分别为(h，w)的图片作为分类网络的输入。

S3.基于单人画面，从监测区视频影像数据中截取包含单人画面的视频数据，生成单人视频数据，并对单人画面和单人视频数据进行多模态处理，生成多模态数据。

在本实施例一中，根据前述目标检测网络的结果，判断场景为单人场景时记录相应的时间，并根据记录的时间，将该段视频切割出来。其中该段视频作为跌倒行为识别的单人视频数据。

随后，对该单人视频数据使用光流算法计算其光流序列，在本实施例一中，将光流序列中抽样出16帧作为分类网络的第二模态数据输入，即单人视频光流数据。

对单人视频数据使用ViBe算法提取整段视频数据的前景序列数据，在本实施例一中，将其抽样出16帧作为分类网络的第三模态数据输入，即单人视频前景序列数据。

基于前述S2得到的、并经裁切后的单人画面组成的视频信息，目标位置准确相关人体信息比较集中的视频数据作为分类网络的第四个模态数据输入，即人体目标裁切图片数据。

图2为本申请实施例一的构建多模态数据的流程示意图，单人视频数据、单人视频光流数据、单人视频前景序列数据和人体目标裁切图片数据组成的多模态数据的输入，是为了增强待检测目标的特征。

以下详细说明光流计算过程。

光流数据作为多模态数据之一，其在三维空间中的运动在二位平面上的投影，反映了物体在极小时间内对应的图像像素的运动方向和速度。

假设I(x，y，t)表示t时刻像素点(x，y)的像素值，该像素点在两幅图像之间移动了Δx，Δy，Δt，有下结论：

I(x，y，t)＝I(x+Δx，y+Δy，t+Δt)

由于是极短时间内的运动，运动幅度很小，可以推导其一阶泰勒展开式：

因此，

其中为该像素的光流。

为了计算光流，假设亮度是恒定的，图像中对象的像素亮度在连续帧之间不会改变；短距离(短期)运动，相邻帧之间的时间足够短，并且物体运动很小，相邻像素具有相似的运动，得到视频的光流数据，将视频数据中随机抽取16帧进行检测。

跌倒检测网络为了提取足够多特征，使用ViBe算法用于前景检测，提取的前景序列能够作为多模态数据输入。

下面介绍使用ViBe算法提取视频数据的前景序列。

ViBe算法通过为每个像素点存储一个样本集，样本集中的采样值为该像素点背景模型和邻域中的像素，将每一个新的像素值和样本集进行比较来判断是否属于背景点。

初始化单帧图像中每个像素点的背景模型。假设每个像素值和其邻域像素在空域上有相似的分布。基于这种假设，每一个像素模型都可以用其邻域中的像素表示。

输入第一帧图像时，即t＝0时，像素的背景模型

其中f⁰(xⁱ，yⁱ)表示当前像素的像素值，N_G(x，y)表示邻域像素值，N表示初始化的次数。

当t＝k时，像素点(x，y)的背景模型为像素值为f^k(x，y)。

跟据以下公式判断该像素点是否为前景。

(x^r，y^r)表示样本集中随机抽取的一点，th表示预先设置的阈值，f^k(x，y)符合背景点达到N次判断为背景。

在本实施例一中，随机初始化次数设置为5次，th设置为10。根据ViBe算法计算视频的前景序列，最后取出16帧作为分类网络的输入。

S4.根据多模态数据和预置跌倒检测网络，进行跌倒判断。

在本实施例一中，跌倒检测网络包括特征提取方法和状态判断方法，是已经经过训练好的，训练过程采用如下方式：准备好含有室内跌倒行为的数据集，在本实施例一中，选用URFD数据集和收集的室内环境下的跌倒和日常行为视频，共同作为本发明的训练数据集和测试数据集。将该数据集用前述步骤S3的方式处理，再准备两个数据文件夹，一个为训练集，另外一个为测试集。该数据分为两类，跌倒行为和非跌倒行为。用训练好的ResNet51提取其浅层特征，其网络的输入大小为[3,224,224]。该网络输出的特征大小为[3,2048]。用全连接层进行降维，特征输出大小为[3,256]。每段视频数据抽取16帧，数据处理阶段提取四种模态的数据，因此最终的特征输出大小为[3,64,256]。全连接层与输出特征中间Dropout的概率为0.5。后接两层门控递归单元(GRU)，其隐藏节点数为256，Dropout的概率为0.3。最后将GRU层输出到线性分类层。在训练过程中，CNN网络提取特征使用的是固化的模型，而后面的GRU网络是重新训练的。其中学习率为0.0001，训练周期为50。当网络模型取得较好结果并且其损失函数逐渐收敛时，保存模型参数。

将多模态数据用训练好的残差网络进行特征提取，用提取到的特征分量组成大的特征张量，判断采集的视频中是否有跌倒行为。若发生跌倒，监控系统向数据中心传递跌倒预警信号。

通过上述基于场景识别的室内跌倒检测方法，不仅能够避免了大量无人场景和多人场景下的无效计算，，还利用多模态数据，准确识别单人场景下的跌倒情形，提高跌倒检测准确率。

实施例二

如图3所示，为本申请实施例二基于场景识别的室内跌倒检测系统结构示意图，包括顺次连接的影像采集单元、场景分类单元、多模态处理单元和跌倒判断单元。

其中，影像采集单元用于采集监测区视频影像数据。

场景分类单元用于对监测区视频影像数据进行场景类别判断，场景类别包括无人场景、单人场景和多人场景，场景分类单元还用于标示单人画面，并忽略无人场景和多人场景；

多模态处理单元用于根据单人画面，从监测区视频影像数据中截取包含单人画面的视频片段，生成单人视频，多模态处理单元还用于对单人画面和单人视频进行多模态处理，生成多模态数据；

跌倒判断单元用于对多模态数据进行特征提取，得到视频特征张量，并基于视频特征张量进行跌倒判断，当发现跌倒情形时，跌倒判断单元发出跌倒报警信息。

在本实施例二中，采用常规视频监控设备采集室内环境下的日常活动视频影像。

在本实施例二中，排除多人情况的干扰，检测单人场景的跌倒行为简单，实验结果更准确，进行跌倒监测逻辑更为合理；多人场合下，智能跌倒监测实际用处不大。有鉴于此，场景分类单元只用于识别单人场景，包括场景标识模块和单人标识模块；其中，场景标识模块使用目标检测算法对监测区视频影像数据进行场景类别判断，标示出单人场景；单人标识模块则进一步的使用Yolo-V4神经网络从单人场景中切割出单人画面。

在本实施例二中，多模态处理单元包括人体目标处理模块、视频提取模块、视频光流处理模块和视频前景序列处理模块，相应的，多模态数据包括人体目标裁切图片数据、单人视频数据、单人视频光流数据、单人视频前景序列数据。

其中，人体目标处理模块用于对单人画面进行裁切处理，得到人体目标裁切图片数据。

视频提取模块用于根据单人画面，从监测区视频影像数据中截取单人视频数据，单人视频数据包含有单人画面；

视频光流处理模块使用光流算法对单人视频数据进行光流计算，得到单人视频光流数据；

视频前景序列处理模块使用ViBe算法提取单人视频数据的前景序列，生成单人视频前景序列数据。

在本实施例二中，特征提取模块采用残差网络对多模态数据进行特征提取，得到视频特征张量；状态判断模块用于根据视频特征张量识别跌倒情形，并发出跌倒信息；报警模块用于根据跌倒信息，发出跌倒报警信息。

其中，报警信息可以直接显示，也可以通过网络传输的形式向特定目标传送。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种基于场景识别的室内跌倒检测方法，其特征在于，包括如下步骤：

采集监测区视频影像数据；

基于所述单人画面，从所述监测区视频影像数据中截取包含所述单人画面的视频数据，生成单人视频数据，并对所述单人画面和所述单人视频数据进行多模态处理，生成多模态数据；所述多模态处理包括单人画面处理和单人视频处理；所述多模态数据包括人体目标裁切图片数据、单人视频数据、单人视频光流数据和单人视频前景序列数据；所述单人画面处理的方法包括：使用目标检测算法检测单人场景中的人体目标，并切割出人体锚框，生成人体目标锚框坐标数据；根据所述人体目标锚框坐标数据，构建尺度特征；基于所述尺度特征，采用异常点算法计算出所述尺度特征的正常范围和异常值，根据所述正常范围达到最佳裁切尺寸；对所述单人画面进行裁剪和等比例缩放处理，达到所述人体目标裁切图片数据；所述单人视频处理的方法包括：基于所述单人画面，从所述监测区视频影像数据中截取包含所述单人画面的视频数据，生成单人视频数据；使用光流算法计算所述单人视频数据的光流序列，得到所述单人视频光流数据；使用ViBe算法计算所述单人视频数据的前景序列，得到所述单人视频前景序列数据；

2.根据权利要求1所述的基于场景识别的室内跌倒检测方法，其特征在于，进行所述场景类别判断的方法包括：使用目标检测算法，识别所述监测区视频影像数据中的场景画面人数，当所述场景画面人数为1时，从所述监测区视频影像数据中切割出所述单人画面，当所述场景画面人数不为1时，不做处理。

3.根据权利要求1所述的基于场景识别的室内跌倒检测方法，其特征在于，所述跌倒检测网络包括特征提取方法和状态判断方法；

所述跌倒判断的方法包括：

4.一种基于场景识别的室内跌倒检测系统，所述跌倒检测系统用于实现权利要求1-3任一项所述的跌倒检测方法，其特征在于，包括顺次连接的影像采集单元、场景分类单元、多模态处理单元和跌倒判断单元；

所述影像采集单元用于采集监测区视频影像数据；

5.根据权利要求4所述的基于场景识别的室内跌倒检测系统，其特征在于，所述场景分类单元包括场景标识模块和单人标识模块；

6.根据权利要求4所述的基于场景识别的室内跌倒检测系统，其特征在于，所述多模态处理单元包括人体目标处理模块、视频提取模块、视频光流处理模块和视频前景序列处理模块；

7.根据权利要求4所述的基于场景识别的室内跌倒检测系统，其特征在于，所述跌倒判断单元包括特征提取模块、状态判断模块和报警模块；