CN114792429A

CN114792429A - 多视角摔倒检测方法、装置及存储介质

Info

Publication number: CN114792429A
Application number: CN202210352997.1A
Authority: CN
Inventors: 孙伟; 纪锦; 胡亚华; 张小瑞; 赵畅; 左军; 徐凡
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-26

Abstract

本发明公开了一种基于时空自适应和人体姿态估计的多视角摔倒检测方法、装置及存储介质，其包括：获取摄像头采集的视频流片段；通过轻量级卷积网络对视频序列进行预处理，得到全局特征图序列；对全局特征图序列中的每一幅全局特征图进行时空自适应处理，得到包含老人行为动作的图像块；利用人体姿态估计算法从图像块中得到人体关键点的位置坐标；根据人体关键点的位置坐标，利用阈值法判断不同视觉角度下图像块中的老人是否摔倒；当连续N帧图像块判断为老人摔倒时，生成报警信号。本发明能够在减少冗余计算降低模型的计算开销的同时保证老人摔倒检测的实时性和准确性。

Description

多视角摔倒检测方法、装置及存储介质

技术领域

本发明涉及一种基于时空自适应和人体姿态估计的多视角摔倒检测方法、装置及存储介质，属于计算机视觉技术领域。

背景技术

随着社会的不断发展，人口老龄化问题日益严重，越来越多的年轻人在工作后也会与父母分居生活，导致空巢老人、独居老人的数量与日俱增，因此，老年人的居家生活状态越来越受到社会的广泛关注。随着老人年龄的增长，身体的各项生理机能不断下降，跌倒给老人身体带来的伤害程度也愈加严重，在日常生活中跌倒已经成为老人身体健康的首要威胁。传统的老人摔倒检测都是通过穿戴传感器设备来实现，对于记忆力日益衰退的老年人来说，不仅有可能会忘记穿戴检测设备，而且穿戴接触式的检测设备可能会让老人身体感到不适或导致老人行动更加不便，影响老人的日常生活，不适合居家老人使用。

随着计算机视觉技术的不断发展，基于智能视频监控的老人摔倒检测技术越来越多，智能视频监控已经不需要人工实时查看，可以通过一些轻量级算法实时检测视频中老人是否摔倒，这不仅不会干扰老人的日常生活，还能在出现意外情况时及时发出报警。目前，大部分基于视频的摔倒检测算法要么计算成本和硬件需求较高，难以实现实际场景的应用；要么为了保证视频检测的实时性降低计算开销，将算法模型进行轻量化处理，却难以保证视频检测的准确率或生成良好的可视化效果，从而影响摔倒姿态的判定。比如经典的人体姿态估计算法OpenPose计算量较大，在嵌入式设备上难以保证实时性，但轻量级的OpenPose对复杂姿态的识别准确率较低。尽管目前有许多根据2D人体姿态进行摔倒判定的方法，却无法根据不同的视觉角度较精准的判断人物是否摔倒，难以解决以二维图片判断三维姿态的问题。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种基于时空自适应和人体姿态估计的多视角摔倒检测方法、装置及存储介质，不仅能够减少冗余计算降低模型的计算开销，实现在实际场景下的应用，还能实时准确的检测室内老人是否摔倒。

为解决上述技术问题，本发明采用了如下技术手段：

第一方面，本发明提出了一种基于时空自适应和人体姿态估计的多视角摔倒检测方法，包括如下步骤：

获取摄像头采集的视频流片段，得到视频序列；

通过轻量级卷积网络对视频序列进行预处理，得到全局特征图序列；

对全局特征图序列中的每一幅全局特征图进行时空自适应处理，得到包含老人行为动作的图像块；

利用人体姿态估计算法从图像块中得到人体关键点的位置坐标；

根据人体关键点的位置坐标，利用阈值法判断不同视觉角度下图像块中的老人是否摔倒；

当连续N帧图像块判断为老人摔倒时，生成报警信号。

结合第一方面，进一步的，利用空间自适应的奖励函数和时间自适应的奖励函数处理全局特征图序列中的每一幅全局特征图，选择出包含老人行为动作的图像块，其中，空间自适应的奖励函数和时间自适应的奖励函数的表达式如下：

其中，

表示空间自适应的奖励函数，

表示从第i个视频帧O_i采样的图像块，

表示

属于包含老人行为动作的图像块的softmax预测，

表示高斯分布采样所获得的期望，R'_i(B_i|B₁,...,B_i-1)表示时间自适应的奖励函数，B_i表示第i个视频帧输出的Bernoulli参数，P'_iy(B₁,...,B_i-1,1)表示B_i＝1时的softmax预测，P'_iy(B₁,...,B_i-1,0)表示B_i＝0时的softmax预测，λ为预定义的超参数，L表示图像块的长度，ω表示激活视频帧的阈值，i＝1,2,…,n，n为视频帧的数量。

结合第一方面，进一步的，所述人体姿态估计算法采用MoveNet算法。

结合第一方面，进一步的，利用人体姿态估计算法从图像块中得到人体关键点的位置坐标的方法为：

将ResNet网络与特征金字塔网络横向连接后对关键帧中的图像块进行处理，得到关键特征图；

通过四个预测头对关键特征图中人体关键点的位置坐标进行预测；

通过后处理精确定位并输出一组最靠近图像块中心的人体关键点位置坐标。

结合第一方面，进一步的，人体关键点包括左肩、右肩、左胯、右胯、左膝、右膝、左踝和右踝。

结合第一方面，进一步的，根据人体关键点的位置坐标，利用阈值法判断不同视觉角度下图像块中的老人是否摔倒，包括：

当y₁₀-y₁₁＜0时，判断老人面对着摄像头方向摔倒，其中，y₁₀表示当前帧图像块中人体两胯中点的纵坐标，y₁₁表示当前帧图像块中人体两踝中点的纵坐标；

当y₁₀-y₁₁＜y_min且

时，判断老人侧对着摄像头方向摔倒，其中，y_min表示老人直立行走时两胯中点与两踝中点的最小垂直高度，θ表示躯干偏离角度，(x₉,y₉)表示当前帧图像块中人体两肩中点的位置坐标，x₁₀表示当前帧图像块中人体两胯中点的横坐标；

当

且

时，判断老人背对着摄像头方向摔倒，其中，(x₅,y₅)表示当前帧图像块中人体左膝盖的位置坐标，(x₆,y₆)表示当前帧图像块中人体右膝盖的位置坐标，(x₇,y₇)表示当前帧图像块中人体左脚踝的位置坐标，(x₈,y₈)表示表示当前帧图像块中人体右脚踝的位置坐标，x₁₁表示当前帧图像块中人体两踝中点的横坐标；以采集的原始视频序列为准，(x'₅,y'₅)表示从当前帧图像块开始向前第m帧图像中人体左膝盖的位置坐标，(x'₆,y'₆)表示从当前帧图像块开始向前第m帧图像中人体右膝盖的位置坐标，(x'₇,y'₇)表示从当前帧图像块开始向前第m帧图像中人体左脚踝的位置坐标，(x'₈,y'₈)表示从当前帧图像块开始向前第m帧图像中人体右脚踝的位置坐标，(x'₉,y'₉)表示从当前帧图像块开始向前第m帧图像中人体两肩中点的位置坐标，(x'₁₀,y'₁₀)表示从当前帧图像块开始向前第m帧图像中人体两胯中点的位置坐标，(x'₁₁,y'₁₁)表示从当前帧图像块开始向前第m帧图像中人体两踝中点的位置坐标。

结合第一方面，进一步的，轻量级卷积网络采用ShuffleNet-V2网络。

第二方面，本发明提出了一种基于时空自适应和人体姿态估计的多视角摔倒检测装置，包括：

视频流采集模块，用于通过摄像头采集视频流片段，得到视频序列；

第一级特征提取模块，用于通过轻量级卷积网络对视频序列进行预处理，得到全局特征图序列；

第二级特征提取模块，用于对全局特征图序列中的每一幅全局特征图进行时空自适应处理，得到包含老人行为动作的图像块；

第三级特征提取模块，用于利用人体姿态估计算法从图像块中得到人体关键点的位置坐标；

摔倒判断模块，用于根据人体关键点的位置坐标，利用阈值法判断不同视觉角度下图像块中的老人是否摔倒；

报警模型，用于当连续N帧图像块判断为老人摔倒时，生成报警信号。

第三方面，本发明提出了一种基于时空自适应和人体姿态估计的多视角摔倒检测装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行本发明第一方面所述方法的步骤。

第四方面，本发明提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面所述方法的步骤。

采用以上技术手段后可以获得以下优势：

本发明提出了一种基于时空自适应和人体姿态估计的多视角摔倒检测方法、装置及存储介质，通过时空自适应处理从原始的视频序列中选取关键帧中包含老人行为动作的图像块，能够从时间和空间两个维度去除视频流中的冗余信息，不仅不需要逐帧处理，而且图像块的空间尺寸小于原图，能够显著降低网络模型的计算开销，保证算法在嵌入式设备或移动设备上运行时的实时性。与此同时本发明利用人体姿态估计算法从图像块中得到人体关键点坐标，人体姿态估计算法使用计算量较大的ResNet网络提高了关键点坐标的准确性，实现良好的关键点可视化效果。最后，本发明采用阈值法判断不同视觉角度下图像块中人物是否摔倒，可有效区分正常站立、蹲坐和躺倒姿势，精确判断老人是否摔倒。

本发明能够在减少冗余计算降低模型的计算开销的同时保证老人摔倒检测的实时性和准确性，进一步优化了基于智能视频监控的老人摔倒检测技术。

附图说明

图1为本发明一种基于时空自适应和人体姿态估计的多视角摔倒检测方法的步骤流程图；

图2为本发明实施例中多视角摔倒检测方法的流程示意图；

图3为本发明实施例中人体关键点的示意图；

图4为本发明实施例中老人直立行走的姿态示意图；

图5为本发明实施例中老人面对着摄像头方向摔倒的姿态示意图；

图6为本发明实施例中老人侧对着摄像头方向摔倒的姿态示意图；

图7为本发明实施例中老人背对着摄像头方向摔倒的姿态示意图；

图8为本发明实施例中一种基于时空自适应和人体姿态估计的多视角摔倒检测装置的结构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明：

本发明提出了一种基于时空自适应和人体姿态估计的多视角摔倒检测方法，如图1、2所示，具体包括如下步骤：

步骤A、获取摄像头采集的视频流片段，得到视频序列。

步骤B、通过轻量级卷积网络ShuffleNet-V2对视频序列进行快速粗略的预处理，获取视频序列中每一帧的全局特征信息，得到全局特征图序列。

步骤C、对全局特征图序列中的每一幅全局特征图进行时空自适应处理，确定视频流中关键帧的关键区域，得到包含老人行为动作的图像块。

将全局特征图序列中的每一幅全局特征作为输入，通过时空自适应处理输出每个关键帧中包含老人行为动作的图像块。

时空自适应是一个策略网络，将步骤B获取的廉价全局特征图作为输入，并整合目前为止所有视频帧的信息，使用策略梯度的方法优化目标为最大化折扣奖励函数，利用空间自适应的奖励函数和时间自适应的奖励函数处理全局特征图序列中的每一幅全局特征图，通过得到的奖励函数值判断视频的每一帧是否处理并选择出含有老人行为动作的图像块。

在本发明实施例中，空间自适应的奖励函数和时间自适应的奖励函数的表达式如下：

其中，

表示空间自适应的奖励函数，

表示从第i个视频帧O_i采样的图像块，

表示

属于包含老人行为动作的图像块的softmax预测，

公式(3)中通过高斯分布采样所获得的期望作为基准优化损失函数，可以鼓励模型选择能够产生可靠预测的图像块；公式(4)将标签类别上的置信度上升效果与视频帧中图像块所需的计算开销进行比较，并通过阈值筛选出关键帧避免冗余计算。

步骤D、利用人体姿态估计算法从图像块中得到人体关键点的位置坐标。

人体姿态估计算法采用MoveNet算法，利用人体姿态估计算法从图像块中得到人体关键点的位置坐标的具体操作为：

使用ResNet作为局部卷积网络，将ResNet网络与特征金字塔网络横向连接后对关键帧中的图像块进行处理，输出高分辨率且语义信息丰富的关键特征图；通过四个预测头对关键特征图中人体关键点的位置坐标进行预测，粗略定位关键点的范围；通过后处理加权精细化关键点坐标，输出一组最靠近图像块中心的人体关键点位置坐标。

在本发明实施例中，如图3所示，人体关键点共有8个，分别是1：左肩、2：右肩、3：左胯、4：右胯、5：左膝、6：右膝、7：左踝、8：右踝。

步骤E、根据人体关键点的位置坐标，利用阈值法判断不同视觉角度下图像块中的老人是否摔倒，具体操作如下：

步骤E01、从视频序列中提取每次老人走入视频检测区域后的前8帧图像，并计算8帧图像中两胯中点与两踝中点的最小垂直高度，记为y_min，如图4所示，y_min表示老人正常直立行走时腿部的最小垂直高度，是本发明中的重要阈值。

步骤E02、根据人体关键点的位置坐标分别计算当前帧图像块中人体两肩中点、两胯中点和两踝中点的位置坐标，此处的当前帧指的是一个图像块在采集的原始视频序列中所处的帧位置。

步骤E03、当y₁₀-y₁₁＜0时，判断老人面对着摄像头方向摔倒，其中，y₁₀表示当前帧图像块中人体两胯中点的纵坐标，y₁₁表示当前帧图像块中人体两踝中点的纵坐标。如图5所示，y₁₀-y₁₁＜0表示视频帧图像块中两踝中点位置的坐标高度高于两胯中点位置的坐标高度。

步骤E04、当y₁₀-y₁₁＜y_min且

时，判断老人侧对着摄像头方向摔倒，其中，y_min表示老人直立行走时两胯中点与两踝中点的最小垂直高度，θ表示躯干偏离角度，(x₉,y₉)表示当前帧图像块中人体两肩中点的位置坐标，x₁₀表示当前帧图像块中人体两胯中点的横坐标。如图6所示，y₁₀-y₁₁＜y_min表示视频帧图像块中两胯中点与两踝中点的垂直高度小于y_min，老人处于非正常行走或站立状态，即老人可能躺倒或者蹲坐，为了排除正常蹲坐姿态，本发明使用躯干的角度进行判断，若躯干偏移竖直角度过大(即θ＜45°)则为摔倒。

步骤E05、当

且

时，判断老人背对着摄像头方向摔倒，其中，(x₅,y₅)表示当前帧图像块中人体左膝盖的位置坐标，(x₆,y₆)表示当前帧图像块中人体右膝盖的位置坐标，(x₇,y₇)表示当前帧图像块中人体左脚踝的位置坐标，(x₈,y₈)表示表示当前帧图像块中人体右脚踝的位置坐标，x₁₁表示当前帧图像块中人体两踝中点的横坐标；以采集的原始视频序列为准，(x'₅,y'₅)表示从当前帧图像块开始向前第m帧图像中人体左膝盖的位置坐标，(x'₆,y'₆)表示从当前帧图像块开始向前第m帧图像中人体右膝盖的位置坐标，(x'₇,y'₇)表示从当前帧图像块开始向前第m帧图像中人体左脚踝的位置坐标，(x'₈,y'₈)表示从当前帧图像块开始向前第m帧图像中人体右脚踝的位置坐标，(x'₉,y'₉)表示从当前帧图像块开始向前第m帧图像中人体两肩中点的位置坐标，(x'₁₀,y'₁₀)表示从当前帧图像块开始向前第m帧图像中人体两胯中点的位置坐标，(x'₁₁,y'₁₁)表示从当前帧图像块开始向前第m帧图像中人体两踝中点的位置坐标。如图7所示，上述条件表示以m帧为时间间隔，当老人在这段时间内移动较短范围时，当前帧相比于向前第m帧的身体躯干长度和两小腿长度的都有所缩小；为了防止摔倒时小范围的位置偏移，若当前帧的两踝中点的坐标(x₁₁，y₁₁)处在以m帧前两踝中点坐标(x'₁₁，y'₁₁)为圆心，

为半径的圆形范围中，判断身体躯干及各肢体长度是否缩小，若都缩小则判为摔倒。

在本发明实施例中，m＝8，即将视频序列中当前帧的人体关键点位置坐标与向前第8帧的人体关键点位置坐标比较，进行摔倒判断。

步骤F、当连续N帧图像块判断为老人摔倒时，生成报警信号。在本发明实施例中，N＝3。

基于本发明方法，本发明还提出了一种基于时空自适应和人体姿态估计的多视角摔倒检测装置，如图8所示，主要包括视频流采集模块、第一级特征提取模块、第二级特征提取模块、第三级特征提取模块、摔倒判断模块和报警模块。

视频流采集模块主要用于通过摄像头采集视频流片段，得到视频序列。

第一级特征提取模块主要用于通过轻量级卷积网络对视频序列进行预处理，得到全局特征图序列，轻量级卷积网络采用ShuffleNet-V2网络。

第二级特征提取模块主要用于对全局特征图序列中的每一幅全局特征图进行时空自适应处理，得到包含老人行为动作的图像块，第二级特征提取模块的操作与本发明方法的步骤C一致。

第三级特征提取模块主要用于利用人体姿态估计算法从图像块中得到人体关键点的位置坐标，人体姿态估计算法采用MoveNet，第三级特征提取模块的操作与本发明方法的步骤D一致。

摔倒判断模块主要用于根据人体关键点的位置坐标，利用阈值法判断不同视觉角度下图像块中的老人是否摔倒，摔倒判断模块可以判断出老人是面对着摄像头方向、侧对着摄像头方向或背对着摄像头方向摔倒，具体操作与本发明方法步骤E一致。

报警模型主要用于当连续N帧图像块判断为老人摔倒时，生成报警信号，其中，N＝3。

基于本发明方法，本发明还提出了一种基于时空自适应和人体姿态估计的多视角摔倒检测装置，包括处理器及存储介质；其中，存储介质用于存储指令；处理器用于根据所述指令进行操作以执行本发明方法的步骤。

基于本发明方法，本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明方法的步骤。

与现有技术相比，本发明首先通过时空自适应处理从原始的视频序列中选取关键帧中包含老人行为动作的图像块，能够从时间和空间两个维度去除视频流中的冗余信息，不仅不需要逐帧处理，而且图像块的空间尺寸小于原图，能够显著降低网络模型的计算开销，保证算法在嵌入式设备或移动设备上运行时的实时性。其次，本发明利用人体姿态估计算法从图像块中得到人体关键点坐标，人体姿态估计算法使用计算量较大的ResNet网络提高了关键点坐标的准确性，实现良好的关键点可视化效果。最后，本发明采用阈值法判断不同视觉角度下图像块中人物是否摔倒，先通过人的腿部垂直高度来判断老人是否是正常行走、站立或蹲坐状态，再利用躯干倾斜角度精确判断老人是否摔倒，当距离摄像头一定距离时，利用摄像头视角下同一位置的人背向摄像头躺倒时与正常站立时相比身体躯干和各肢体的长度减小，可有效区分正常站立、蹲坐和躺倒姿势，精确判断老人是否摔倒。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。