CN112801000A

CN112801000A - 一种基于多特征融合的居家老人摔倒检测方法及系统

Info

Publication number: CN112801000A
Application number: CN202110159864.8A
Authority: CN
Inventors: 李晓飞; 蒋阳阳
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-14
Anticipated expiration: 2041-02-05
Also published as: CN112801000B

Abstract

本发明公开了计算机视觉技术领域的一种基于多特征融合的居家老人摔倒检测方法及系统，能够有效地监测居家老人的潜在性摔倒风险，提高对居家老人的潜在性摔倒风险预判准确度。包括：对给定的监测对象进行实时视频采集，分别获取语音信号和视频信号；提取语音信号的声学特征；获取监测对象的当前姿态特征和人脸特征，基于人脸特征获取监测对象的当前心率值，基于当前姿态特征获取监测对象的姿态响应峰值；获取监测对象的表情特征；对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和姿态响应峰值判断监测对象的摔倒情况。

Description

一种基于多特征融合的居家老人摔倒检测方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多特征融合的居家老人摔倒检测方法及系统。

背景技术

随着信息化进程的加快，智能居家体系也迎来了新的变革，在家庭中的视频监控方面也产生了较大积极的影响。在对家中老人进行安全监测分析过程中，有一项非常重要的任务就是对老人进行潜在性摔倒风险分析。作为能对人体产生直接影响的行为之一，摔倒不仅会对人的身体健康造成直接的负面影响，还会带来潜在的健康隐患。数据显示，跌倒是65岁及以上人群受伤的首要原因。每年大约有9500名老年人死于跌倒，而平均年龄在65岁至69岁之间的人每200次跌倒中就有一次髋关节骨折。更严重的是，20％到30％的患者会出现中度到严重的并发症，很可能导致残疾。最为关键的一点是，摔倒本身就是反映人体健康状况恶化的重要标志。对于无人看护的老人和病人而言，能否及时发现其摔倒行为直接关系到他们的生命安全，而且现有的居家安防潜在性风险监测过程中主要依靠人力来进行，不能做到全天候的观察分析，如果对具有潜在性摔倒风险的老人没能准确预判，将会造成不可逆的的严重后果。

目前的智能摔倒检测主要集中在传感器检测与视觉检测上。基于传感器检测的方法主要是通过穿戴的传感器设备获取人体摔倒期间的加速度特征、角速度特征等序列数据并应用阈值法等传统分类方法对数据与训练模板匹配，优点是准确率高且速度快，但使用传感器会不仅会带来高昂的制作与维护成本，而且大部分都要求使用者穿戴或携带感应设备，降低了方法的便利性与灵活性。基于视觉检测的方法主要是通过对摄像头获取的图像进行分析，获取人体姿态变化等特征，并用支持向量机(Support Vector Machine,SVM)、卷积神经网络(Convolutional Neural Network,CNN)等判别器判别摔倒行为。此类方法耗时较长，速度与精度难以平衡。上述方法虽然在某一场景下都能达到一定的识别效果，但是单一的特征很难完全表征摔倒这一动作的丰富信息，在复杂场景下的识别率还有待提高，而且考虑到识别的灵活性与准确率要求，有必要提供一种基于多特征融合的摔倒行为识别方法，以此在居家安防方面实现较好的效果。

发明内容

为解决现有技术中的不足，本发明提供一种基于多特征融合的居家老人摔倒检测方法及系统，能够有效地监测居家老人的潜在性摔倒风险，提高对居家老人的潜在性摔倒风险预判准确度。

为达到上述目的，本发明所采用的技术方案是：

第一方面，提供一种基于多特征融合的摔倒检测方法，包括：对给定的监测对象进行实时视频采集，分别获取语音信号和视频信号；对语音信号进行预处理并提取语音信号的声学特征；对视频信号进行分帧处理，将分帧处理后获取的图像分别输入Darknet-53网络和VGG-16网络中，获取监测对象的当前姿态特征和人脸特征，基于人脸特征获取监测对象的当前心率值，基于当前姿态特征获取监测对象的姿态响应峰值；将人脸特征进行归一化处理和时序同步后与提取的语音信号的声学特征进行级联，完成融合，并将融合后的融合特征进行降维，用BLSTM构建情绪识别特征层融合框架对降维后的融合特征进行识别，获取监测对象的表情特征；对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和姿态响应峰值判断监测对象的摔倒情况。

进一步地，采用Python中的视频编辑库MoviePy获取语音信号。

进一步地，所述对语音信号进行预处理并提取语音信号的声学特征，包括：对每一句输入的时域连续语音信号进行采样，然后采用预加重、分帧加窗、端点检测技术对语音信号进行预处理，得到预处理后的语音信号；计算预处理后的语音信号的声学参数，包括MFCC、基因频率、过零率、短时能量；计算每条语音的统计特征，即分别对每条语音的各帧信号的声学参数进行统计，统计特征包含最大值、最小值、中值、方差、均值，最后得到的统计特征即是每条语音的声学特征。

进一步地，还包括：将分帧处理后获取的图像输入训练好的yolov3-tiny目标检测模型进行特征提取，获取包含监测对象的坐标框及其坐标参数和置信度；计算包含监测对象的坐标框的中心点坐标并输入追踪器，用于预测下一帧图像中的包含监测对象的坐标框的中心点坐标。

进一步地，在所述VGG-16网络中，采用前5层网络，丢弃全连接层。

进一步地，所述对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和当前姿态特征判断监测对象的摔倒情况，包括：假设归一化后的当前姿态特征、表情特征及当前心率值在k时刻的置信度分别为λ_e、λ_t、和λ_d；则，在k时刻每个特征的融合权重分别为：

其中，α_k-1、β_k-1和γ_k-1分别为k-1时刻当前姿态特征、表情特征及当前心率值的融合权值，τ为权值调节系数，初始权值α，β，γ均为

针对单一特征在目标表述上的不完整性和不确定性，根据加性融合策略得到多特征融合观测模型，融合公式如下：

对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和姿态响应峰值判断监测对象的摔倒情况。

第二方面，提供一种基于多特征融合的摔倒检测系统，包括：第一模块，用于对给定的监测对象进行实时视频采集，分别获取语音信号和视频信号；第二模块，用于对语音信号进行预处理并提取语音信号的声学特征；第三模块，用于对视频信号进行分帧处理，将分帧处理后获取的图像分别输入Darknet-53网络和VGG-16网络中，获取监测对象的当前姿态特征和人脸特征，基于人脸特征获取监测对象的当前心率值，基于当前姿态特征获取监测对象的姿态响应峰值；第四模块，用于将人脸特征进行归一化处理和时序同步后与提取的语音信号的声学特征进行级联，完成融合，并将融合后的融合特征进行降维，用BLSTM构建情绪识别特征层融合框架对降维后的融合特征进行识别，获取监测对象的表情特征；第五模块，用于对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和姿态响应峰值判断监测对象的摔倒情况。

与现有技术相比，本发明所达到的有益效果：

(1)本发明通过对给定的监测对象进行实时视频采集，分别获取语音信号和视频信号；对语音信号和视频信号进一步处理，获取监测对象的当前姿态特征、表情特征和当前心率值，并基于此获取监测对象的融合摔倒置信度，进一步结合姿态响应峰值判断监测对象的摔倒情况，在克服传感器检测灵活性差的基础上，达到速度和精度远优于当前视觉检测技术的检测效果，能够有效地监测居家老人的潜在性摔倒风险，提高对居家老人的潜在性摔倒风险预判准确度；

(2)本发明通过将分帧处理后获取的图像输入训练好的yolov3-tiny目标检测模型进行特征提取，获取包含监测对象的坐标框及其坐标参数和置信度；计算包含监测对象的坐标框的中心点坐标并输入追踪器，用于预测下一帧图像中的包含监测对象的坐标框的中心点坐标，实现了目标较长时间的实时稳定跟踪，具有速度快、抗遮挡和形变能力强的特点。

附图说明

图1是本发明实施例提供的一种基于多特征融合的居家老人摔倒检测方法的主要流程图；

图2是本发明实施例中使用的Darknet-53网络结构示意图；

图3是本发明实施例的方法部分展开流程示意图；

图4是本发明实施例中的目标跟踪流程示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1～图4所示，一种基于多特征融合的摔倒检测方法，包括：对给定的监测对象进行实时视频采集，分别获取语音信号和视频信号；对语音信号进行预处理并提取语音信号的声学特征；对视频信号进行分帧处理，将分帧处理后获取的图像分别输入Darknet-53网络和VGG-16网络中，获取监测对象的当前姿态特征和人脸特征，基于人脸特征获取监测对象的当前心率值，基于当前姿态特征获取监测对象的姿态响应峰值；将人脸特征进行归一化处理和时序同步后与提取的语音信号的声学特征进行级联，完成融合，并将融合后的融合特征进行降维，用BLSTM构建情绪识别特征层融合框架对降维后的融合特征进行识别，获取监测对象的表情特征；对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和姿态响应峰值判断监测对象的摔倒情况。

步骤1：对给定的监测对象进行实时视频采集，分别获取语音信号和视频信号；本实施例中，监测对象为居家老人，采集的视频帧中带有老人的人体动作、人脸和声音，具体地，采用Python中的视频编辑库MoviePy将视频进行预处理操作，分为语音信号和视频信号。

步骤2：对语音信号进行预处理并提取语音信号的声学特征；具体为：

步骤2-1：对每一句输入的时域连续语音信号进行采样，然后采用预加重、分帧加窗、端点检测技术对语音信号进行预处理，得到预处理后的语音信号；

步骤2-2：计算预处理后的语音信号的声学参数，包括MFCC、基因频率、过零率、短时能量；

步骤2-3：计算每条语音的统计特征，即分别对每条语音的各帧信号的声学参数进行统计，统计特征包含最大值、最小值、中值、方差、均值，最后得到的统计特征即是每条语音的声学特征。

步骤3：对视频信号进行分帧处理，将分帧处理后获取的图像输入训练好的yolov3-tiny目标检测模型进行特征提取，获取包含监测对象的坐标框及其坐标参数和置信度；

对视频信号进行分帧处理，将分帧后的图像进行预处理，将图像大小缩放至416×416，通过预先训练的yolov3-tiny目标检测模型对所述待检测图像的全局区域进行特征提取，得到需要检测的目标人体四个坐标参数：左上角的x_i、y_i、宽度t_w和高度t_h，以及一个置信度；具体为：

步骤3-1：将416*416大小的待测图像输入Darknet-53网络中，经过多层的深度卷积一直降维到52，26和13；

步骤3-2：在52，26和13维分别有三个全卷积特征提取器，特征提取器中，1*1的卷积核用于降维，3*3的卷积核用于提取特征，多个卷积核交错达到目的。每个全卷积特征层是有连接的，在图4中为Concatenate标志，意味着当前特征层的输入有来自于上一层的输出的一部分。每个特征层都有一个输出Predict，即预测结果，最后根据置信度大小对结果进行回归，得到最终的预测结果。

步骤4：计算包含监测对象的坐标框的中心点坐标并输入追踪器，用于预测下一帧图像中的包含监测对象的坐标框的中心点坐标，达到实时跟踪的目的；具体为：

步骤4-1：待测图像经过检测，得到人体坐标框，然后计算中心点位置centers(x_o,y_o)，将该centers(x_o,y_o)输入给追踪器，追踪器去学习并给出预测；

Yolov3目标检测模型使用sigmoid函数进行中心坐标预测，这使得输出值在0和1之间；

步骤4-2：对于每一帧的待测图像，tracker都会给出多条轨迹，每条轨迹都可能由若干个点组成。新的一帧物体中心点centers给入之后，tracker给出预测值prediction，同时预测值与实际检测到目标的距离迭代匈牙利算法匹配(linear_sum_assignment)。

步骤5：对视频信号进行分帧处理，将分帧处理后获取的图像分别输入Darknet-53模型和VGG-16网络中，获取监测对象的当前姿态特征和人脸特征，基于人脸特征获取监测对象的当前心率值，基于当前姿态特征获取监测对象的姿态响应峰值；具体为：

步骤5-1：将步骤3中获得的图像特征作为训练数据分别输入Darknet-53和VGG-16网络中，分别提取目标当前姿态和人脸特征；所述Darknet-53网络丢弃全连接层，VGG-16采用前5层网络；

步骤5-2：将提取出的姿态特征作为训练数据输入预训练模型yolov3-tiny中，得到监测对象的姿态响应峰值；所述预训练模型yolov3-tiny为预先通过含有所述目标的站立及摔倒的图片对YOLOv3模型进行训练得到的；

步骤5-3：将提取的人脸特征，归一化，输入心率检测接口，获得当前心率值。

步骤6：将人脸特征进行归一化处理和时序同步后与提取的语音信号的声学特征进行级联，完成融合，并将融合后的融合特征进行降维，用BLSTM构建情绪识别特征层融合框架对降维后的融合特征进行识别，获取监测对象的表情特征；具体为：

步骤6-1：将步骤2中的语音信号特征和步骤5中的人脸特征以直接级联的方式结合，并通过PCA进行降维来达到特征融合；

步骤6-2：使用BLSTM网络对融合的特征进行情感识别。

步骤7：对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和步骤5中的姿态响应峰值判断监测对象的摔倒情况；具体为：

步骤7-1：假设归一化后的当前姿态特征、表情特征及当前心率值在k时刻的置信度分别为λ_e、λ_t、和λ_d；

则，在k时刻每个特征的融合权重分别为：

步骤7-2：针对单一特征在目标表述上的不完整性和不确定性，根据加性融合策略得到多特征融合观测模型，融合公式如下：

步骤7-3：对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和姿态响应峰值判断监测对象的摔倒情况；根据摔倒情况动态调整yolov3-tiny模型的学习率更新模型。

本实施例通过对给定的监测对象进行实时视频采集，分别获取语音信号和视频信号；对语音信号和视频信号进一步处理，获取监测对象的当前姿态特征、表情特征和当前心率值，并基于此获取监测对象的融合摔倒置信度，进一步结合姿态响应峰值判断监测对象的摔倒情况，在克服传感器检测灵活性差的基础上，达到速度和精度远优于当前视觉检测技术的检测效果，能够有效地监测居家老人的潜在性摔倒风险，提高对居家老人的潜在性摔倒风险预判准确度；本实施例通过将分帧处理后获取的图像输入训练好的yolov3-tiny目标检测模型进行特征提取，获取包含监测对象的坐标框及其坐标参数和置信度；计算包含监测对象的坐标框的中心点坐标并输入追踪器，用于预测下一帧图像中的包含监测对象的坐标框的中心点坐标，实现了目标较长时间的实时稳定跟踪，具有速度快、抗遮挡和形变能力强的特点。

实施例二：

基于实施例一所述的基于多特征融合的摔倒检测方法，本实施例提供一种基于多特征融合的摔倒检测系统，包括：

第一模块，用于对给定的监测对象进行实时视频采集，分别获取语音信号和视频信号；

第二模块，用于对语音信号进行预处理并提取语音信号的声学特征；

第三模块，用于对视频信号进行分帧处理，将分帧处理后获取的图像分别输入Darknet-53模型和VGG-16网络中，获取监测对象的当前姿态特征和人脸特征，基于人脸特征获取监测对象的当前心率值，基于当前姿态特征获取监测对象的姿态响应峰值；

第四模块，用于将人脸特征进行归一化处理和时序同步后与提取的语音信号的声学特征进行级联，完成融合，并将融合后的融合特征进行降维，用BLSTM构建情绪识别特征层融合框架对降维后的融合特征进行识别，获取监测对象的表情特征；

第五模块，用于对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和姿态响应峰值判断监测对象的摔倒情况。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于多特征融合的摔倒检测方法，其特征是，包括：

对给定的监测对象进行实时视频采集，分别获取语音信号和视频信号；

对语音信号进行预处理并提取语音信号的声学特征；

对视频信号进行分帧处理，将分帧处理后获取的图像分别输入Darknet-53网络和VGG-16网络中，获取监测对象的当前姿态特征和人脸特征，基于人脸特征获取监测对象的当前心率值，基于当前姿态特征获取监测对象的姿态响应峰值；

将人脸特征进行归一化处理和时序同步后与提取的语音信号的声学特征进行级联，完成融合，并将融合后的融合特征进行降维，用BLSTM构建情绪识别特征层融合框架对降维后的融合特征进行识别，获取监测对象的表情特征；

2.根据权利要求1所述的基于多特征融合的摔倒检测方法，其特征是，采用Python中的视频编辑库MoviePy获取语音信号。

3.根据权利要求1所述的基于多特征融合的摔倒检测方法，其特征是，所述对语音信号进行预处理并提取语音信号的声学特征，包括：

对每一句输入的时域连续语音信号进行采样，然后采用预加重、分帧加窗、端点检测技术对语音信号进行预处理，得到预处理后的语音信号；

计算预处理后的语音信号的声学参数，包括MFCC、基因频率、过零率、短时能量；

计算每条语音的统计特征，即分别对每条语音的各帧信号的声学参数进行统计，统计特征包含最大值、最小值、中值、方差、均值，最后得到的统计特征即是每条语音的声学特征。

4.根据权利要求1所述的基于多特征融合的摔倒检测方法，其特征是，还包括：

将分帧处理后获取的图像输入训练好的yolov3-tiny目标检测模型进行特征提取，获取包含监测对象的坐标框及其坐标参数和置信度；

计算包含监测对象的坐标框的中心点坐标并输入追踪器，用于预测下一帧图像中的包含监测对象的坐标框的中心点坐标。

5.根据权利要求1所述的基于多特征融合的摔倒检测方法，其特征是，在所述VGG-16网络中，采用前5层网络，丢弃全连接层。

6.根据权利要求1所述的基于多特征融合的摔倒检测方法，其特征是，所述对监测对象的当前姿态特征、表情特征和当前心率值分别评估其特征置信度以确定每个特征的融合权重，获取监测对象的融合摔倒置信度；基于监测对象的融合摔倒置信度和当前姿态特征判断监测对象的摔倒情况，包括：

假设归一化后的当前姿态特征、表情特征及当前心率值在k时刻的置信度分别为λ_e、λ_t、和λ_d；

则，在k时刻每个特征的融合权重分别为：

7.一种基于多特征融合的摔倒检测系统，其特征是，包括：

第三模块，用于对视频信号进行分帧处理，将分帧处理后获取的图像分别输入Darknet-53网络和VGG-16网络中，获取监测对象的当前姿态特征和人脸特征，基于人脸特征获取监测对象的当前心率值，基于当前姿态特征获取监测对象的姿态响应峰值；