CN114898471A

CN114898471A - 一种基于人体骨架特征的行为检测方法及存储介质

Info

Publication number: CN114898471A
Application number: CN202210812319.9A
Authority: CN
Inventors: 喻莉; 喻晗
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-08-12
Anticipated expiration: 2042-07-12
Also published as: CN114898471B; US20240021019A1; US11948400B2

Abstract

本发明公开了一种基于人体骨架特征的行为检测方法及存储介质，属于计算机视觉技术领域，包括：提取视频流各帧内各人物目标的一系列人体关键点，作为人体骨架特征；对于每一帧中的每一个人物目标，利用其人体骨架特征计算人体结构中心点和近似刚性运动区域，作为骨架特征状态计算值，并估计下一帧中各人物目标的骨架特征状态估计值；根据骨架特征状态的估计值和计算值进行人物目标匹配后，将属于同一个人物目标的人体骨架特征关联到一起，得到各人物目标的骨架特征序列，并将其中的各关键点的特征在时间域上进行关联，得到时空域骨架特征；将时空域骨架特征输入至行为检测模型，得到对应的行为类别。本发明能够提高多人场景下行为检测的精度。

Description

一种基于人体骨架特征的行为检测方法及存储介质

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于人体骨架特征的行为检测方法及存储介质。

背景技术

随着人口老龄化程度的加剧，对老人的安全监护逐渐成为整个社会的重要课题。意外跌倒是导致老人意外死亡的重要原因，若能够及时地检测出跌倒的行为，对挽救老人的生命有很大帮助。近年来随着网络摄像头的普及，人们可以通过网络远程查看老人的生活情况，但仅依靠人工的方式对老人的行为进行实时监测依然是不现实的，对于跌倒等危险行为而言，发现的越及时则获救的可能性越大。因此，为了尽可能地避免安全事故的发生，提出有效的行为检测方法对老人的跌倒等危险行为进行实时监测是非常有必要的。

传统的行为检测方法是基于穿戴式传感器或环境传感器的部署，抗噪声能力很差，应用范围非常有限。随着智能终端设备的快速普及，基于视频的行为检测方法逐渐成为了领域内的主流，深度学习相关技术的发展也为实现视频数据的自动分析处理提供了巨大的帮助。

在目前行为检测方法的设计中，光流特征作为对视频中目标运动信息的表示被广泛采用，然而，由于得到光流特征需要使用较多的计算资源与存储资源，难以满足行为检测方法在应用场景中的高实时性要求。随着计算机视觉技术领域中人体姿态估计技术的发展，为设计高效的行为检测方法提供了新的思路，不同于传统基于光流特征的行为检测方法，基于人体关键点的行为检测方法数据量小，计算成本低，并且训练过程不需要人工标注的数据，大大提高了异常检测的适用性和实时性。

但是，由于人体姿态估计提取到的人体骨架特征中仅包含多个人体关键点，特征信息较少、表达能力弱，最终的行为检测精度往往较低。此外，在多目标监控场景下，为了实现对不同人物的行为检测，需要进行视频帧间相同人物的匹配，而人体骨架特征中不同关键点的运动幅度不同，直接基于人体骨架特征进行人物匹配，匹配结果会受到运动噪声的影响，最终的行为检测精度也会受到影响。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于人体骨架特征的行为检测方法及存储介质，其目的在于，提高多人场景下行为检测的精度。

为实现上述目的，按照本发明的一个方面，提供了一种基于人体骨架特征的行为检测方法，包括：（S1）提取输入的视频流中每一帧图像内各人物目标的一系列人体关键点，作为各人物目标的人体骨架特征；（S2）对于每一帧图像中的每一个人物目标，利用其人体骨架特征计算人体结构中心点和近似刚性运动区域，作为骨架特征状态计算值，并根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域，作为骨架特征状态估计值；人体结构中心点和近似刚性运动区域分别为人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点的平均坐标点和最小外接矩形；（S3）根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配，基于匹配结果将各帧图像中属于同一个人物目标的人体骨架特征关联到一起，得到各人物目标的骨架特征序列，并将骨架特征序列中的每一个关键点的特征在时间域上进行关联，得到时空域骨架特征；（S4）将人物目标的时空域骨架特征输入至已训练好的行为检测模型，得到对应的行为类别；行为检测模型为深度学习模型，以人物目标的时空域骨架特征为输入，用于预测对应的行为类别。

进一步地，人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点，为人体骨架特征中剔除了属于运动噪声列表的人体关键点后，剩余的人体关键点；运动噪声列表包括：左肘、右肘、左腕、右腕、左膝、右膝、左踝和右踝。

进一步地，步骤（S2）还包括：对于每一帧图像中的每一个人物目标，计算各人体关键点的邻域的空间特征；并且，步骤（S3）中，各人物目标的时空域骨架特征包括各关键点的邻域的空间特征。

进一步地，空间特征为SIFT特征。

进一步地，步骤（S3）还包括：对人体骨架特征中的人体关键点进行划分，得到多个划分组；每个划分组中的人体关键点在空间和运动上相互关联。

进一步地，行为检测模型为图卷积神经网络模型。

进一步地，步骤（S2）中，根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域，由卡尔曼滤波器完成。

进一步地，步骤（S3）中，根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配，所使用的算法为匈牙利匹配算法。

进一步地，步骤（S4）还包括：若检测得到的行为类别为跌倒，则发出预警信息。

按照本发明的另一个方面，本发明提供了一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的基于人体骨架特征的行为检测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：（1）本发明对于输入的视频流，提取每一帧图像中的人物目标的人体骨架特征，并基于人体骨架特征完成行为检测，由于人体骨架特征能够很好地编码人体的结构信息，不受图像中光照、衣着等因素的影响，因此具有更强的鲁棒性；由于人体骨架特征相比于光流特征具有更为稀疏的结构，因此，能够有效提升行为检测的效率。本发明在进行视频帧间相同人物的匹配时，会先剔除人体骨架特征中在帧间运动幅度较大的人体关键点，而仅利用在视频帧间运动幅度相对稳定的人体关键点计算人体结构中心点和近似刚性运动区域，并基于所计算的人体结构中心点和近似刚性运动区域，由此能够有效降低人物匹配过程中运动噪声的干扰，提高人物目标的匹配准确度，从而有效提高多人场景下行为检测的精度。

（2）本发明提取到人体骨架特征之后，会计算各人体关键点的邻域的空间特征，该空间特征会连同人物目标的时空域骨架特征一起作为行为检测模型的输入，由于空间特征也包含了一定的人体结构信息，因此，相比于传统的基于人体骨架特征的行为检测方法，本发明中，模型的输入包含为了更多的特征信息，能够有效提高模型输出的行为检测结果的精度。

（3）由于人体的结构特点，部分关键点在空间和运动上相关联，本发明基于这一特点，将人体骨架特征中的人体关键点规划分为多个划分组，使得所得到的时空域骨架特征同时包含了骨架点在空间和运动上的关联信息，从而进一步丰富了行为检测模型的输入特征，有利于提高行为检测的精度。

（4）在本发明的一些优选方案中，利用卡尔曼滤波器估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域，利用匈牙利匹配算法进行人物目标匹配，在多人场景下行为检测中，具有较高的计算精度，并这些算法都属于轻量级算法，能够有效提高计算效率。

附图说明

图1为本发明实施例提供的基于人体骨架特征的行为检测方法。

图2为本发明实施例提供的人体结构中心点和近似刚性运动区域。

图3为本发明实施例提供的视频帧间相同人物的匹配示意图。

图4为本发明实施例提供的人体骨架特征和时空域骨架特征示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了解决现有的基于人体骨架特征的行为检测方法由于运动噪声干扰而导致多人场景下行为检测精度低的技术问题，本发明提供了一种基于人体骨架特征的行为检测方法及存储介质，其整体思路在于：在进行帧间相同人物的匹配时，从人体骨架特征中剔除在帧间运动幅度较大的人体骨架点，以降低运动噪声的干扰，利用剩余的人体关键点计算人体结构中心和近似刚性运动区域，作为帧间相同人物匹配的依据，由此提高匹配精度，进而提高多人场景下行为检测的精度；在此基础上，通过在行为检测模型的输入中附加人体关键点的邻域的空间特征，以及人体关键点间的结构关联信息，丰富模型输入特征的信息量，进一步提高模型输出的行为检测结果的精度。

以下为实施例。

实施例1：一种基于人体骨架特征的行为检测方法，如图1所示，包括：（S1）提取输入的视频流中每一帧图像内各人物目标的一系列人体关键点，作为各人物目标的人体骨架特征；本实施例中，输入的视频流中共包括30帧图像。

本实施例可以采用任意一种人体姿态估计方法提取输入视频流中每一帧图像内人物目标的人体骨架特征；作为一种可选的实施方式，本实施例具体使用已训练好的人体姿态估计模型进行人体骨架特征的提取，该模型为一个卷积神经网络，在Microsoft COCO数据集上进行训练，因此人体的骨架特征是由数据集中定义的17个人体关键点构成，如图2所示，分别有左眼、右眼、左耳、右耳、鼻子、左肩、右肩、左肘、右肘、左腕、右腕、左臀、右臀、左膝、右膝、左踝、右踝。

（S2）对于每一帧图像中的每一个人物目标，利用其人体骨架特征计算人体结构中心点和近似刚性运动区域，作为骨架特征状态计算值，并根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域，作为骨架特征状态估计值；人体结构中心点和近似刚性运动区域分别为人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点的平均坐标点和最小外接矩形。

考虑到不同的人体关键点在帧间的运动幅度不同，基于人体特征以及人体运动时各人体关键点的运动特性，本实施例中，将人体关键点分为两个部分，其中一个部分为在帧间运动幅度相对稳定的人体关键点，包括：左眼、右眼、左耳、右耳、鼻子、左肩、右肩、左臀和右臀；另一个部分为在帧间运动幅度较大的人体关键点，包括：左肘、右肘、左腕、右腕、左膝、右膝、左踝和右踝，这一部分人体关键点中包含了运动噪声，会影响视频帧间相同人物匹配的准确度。

本实施例中，对于一个人物目标，所计算的人体结构中心点和近似刚性运动区域，如图2所示。

考虑到人体姿态估计提取到的人体骨架特征中仅包含多个人体关键点的位置信息，特征量较少，本实施例在提取到人体骨架特征后，会进一步计算各人体关键的邻域的空间特征，该空间特征将连同人体骨架特征一起作为行为检测模型的输入；本实施例所提取的空间特征为SIFT特征。

在实际应用中，基于运动状态方程即可完成骨架特征状态的估计；为了高效、准确地获取骨架特征状态估计值，如图3所示，本实施例中，具体使用卡尔曼滤波器估计下一帧图像中各人物目标的人体结构中心点和近似刚性运动区域；卡尔曼滤波器中构建了运动状态方程并利用估计结果与计算结果的差异来不断优化方程；估计过程中，人体结构中心点由其坐标进行表示，近似刚性运动区域由其宽高比、宽和高进行表示。

（S3）根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配，基于匹配结果将各帧图像中属于同一个人物目标的人体骨架特征关联到一起，得到各人物目标的骨架特征序列，并将骨架特征序列中的每一个关键点的特征在时间域上进行关联，得到时空域骨架特征。

由于一帧图像中的骨架特征状态估计值中包含了该帧与其上一帧图像中人物目标之间的对应关系，因此，通过骨架特征状态计算值和骨架特征状态估计值的匹配，可实现相邻两帧之间的人物匹配。

本实施例进行相同人物匹配的过程，如图3所示；为了高效、准确地完成骨架特征状态计算值和骨架特征状态估计值之间的匹配，以实现视频帧间相同人物目标的匹配，如图3所示，本实施例中，具体使用匈牙利匹配算法完成骨架特征状态计算值和骨架特征状态估计值之间的匹配。

为了丰富行为检测模型的输入特征的信息量，本实施例中，所得到的时空域骨架特征除了包含建立了时域关联的人体关键点，还包括各关键点的邻域的SIFT特征。

为了进一步丰富行为检测模型的输入特征的信息量，本实施例的步骤（S3）还包括：对人体骨架特征中的人体关键点进行划分，得到多个划分组；每个划分组中的人体关键点在空间和运动上相互关联，由此使得模型输入同时包含了人体关键在空间上的关联信息；图4所示为根据人体骨架特征获取时空域骨架特征的示例，其中左侧为人体骨架特征，右侧为时空域骨架特征；本实施例中，人体骨架特征序列的长度固定为30。

（S4）将人物目标的时空域骨架特征输入至已训练好的行为检测模型，得到对应的行为类别；行为检测模型为深度学习模型，以人物目标的时空域骨架特征为输入，用于预测对应的行为类别。

作为一种可选的实施方式，本实施例中，所使用的行为检测模型具体为图卷积神经网络，其中图结构内点的数目与人体骨架特征中关键点的数目保持相同，在本实施例中该数目为17；将输入视频流中人物目标的时空域骨架特征输入至行为检测模型，图卷积运算中权重是基于邻接子集划分的形式来进行分配，具体过程为：在图卷积运算的过程中，将运算的中心点映射为一个子集，将与其在空间上相邻接的点映射为另一个子集，依据不同的子集分配不同的权重大小；最终，模型将输出视频流中人物目标的行为类别，如坐、跌倒等。

容易理解的是，建立图卷积神经网络后，利用已知人物行为类别的视频流，按照上述步骤（S1）~（S3）获取各任务目标的时空域骨架特征，即可构建相应的数据集，利用该数据集对图卷积神经网络进行训练后，即可得到行为检测模型。

考虑到在健康监护、安全监控、幼儿园、养老院等视频监控场景中，跌倒行为是需要及时发现的行为，因此，本实施例的步骤（S4）还包括：若检测得到的行为类别为跌倒，则发出预警信息。

总的来说，本实施例基于人体结构中心点和近似刚性运动区域进行帧间人物匹配，克服了人体骨架特征在匹配的过程中发生的误匹配问题，提高了跌倒行为的检测方法在多人场景下的性能。

实施例2：一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1提供的基于人体骨架特征的行为检测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人体骨架特征的行为检测方法，其特征在于，包括：

（S1）提取输入的视频流中每一帧图像内各人物目标的一系列人体关键点，作为各人物目标的人体骨架特征；

（S2）对于每一帧图像中的每一个人物目标，利用其人体骨架特征计算人体结构中心点和近似刚性运动区域，作为骨架特征状态计算值，并根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域，作为骨架特征状态估计值；人体结构中心点和近似刚性运动区域分别为人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点的平均坐标点和最小外接矩形；

（S3）根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配，基于匹配结果将各帧图像中属于同一个人物目标的人体骨架特征关联到一起，得到各人物目标的骨架特征序列，并将骨架特征序列中的每一个关键点的特征在时间域上进行关联，得到时空域骨架特征；

（S4）将人物目标的时空域骨架特征输入至已训练好的行为检测模型，得到对应的行为类别；所述行为检测模型为深度学习模型，以人物目标的时空域骨架特征为输入，用于预测对应的行为类别。

2.如权利要求1所述的基于人体骨架特征的行为检测方法，其特征在于，人体骨架特征中在帧间运动幅度小于预设阈值的人体关键点，为人体骨架特征中剔除了属于运动噪声列表的人体关键点后，剩余的人体关键点；

所述运动噪声列表包括：左肘、右肘、左腕、右腕、左膝、右膝、左踝和右踝。

3.如权利要求1所述的基于人体骨架特征的行为检测方法，其特征在于，所述步骤（S2）还包括：对于每一帧图像中的每一个人物目标，计算各人体关键点的邻域的空间特征；

并且，所述步骤（S3）中，各人物目标的时空域骨架特征包括各关键点的邻域的空间特征。

4.如权利要求3所述的基于人体骨架特征的行为检测方法，其特征在于，所述空间特征为SIFT特征。

5.如权利要求1所述的基于人体骨架特征的行为检测方法，其特征在于，所述步骤（S3）还包括：

对人体骨架特征中的人体关键点进行划分，得到多个划分组；每个划分组中的人体关键点在空间和运动上相互关联。

6.如权利要求1~5任一项所述的基于人体骨架特征的行为检测方法，其特征在于，所述行为检测模型为图卷积神经网络模型。

7.如权利要求1~5任一项所述的基于人体骨架特征的行为检测方法，其特征在于，所述步骤（S2）中，根据每一帧中各人物目标的骨架特征状态计算值估计相邻的下一帧中各人物目标的人体结构中心点和近似刚性运动区域，由卡尔曼滤波器完成。

8.如权利要求1~5任一项所述的基于人体骨架特征的行为检测方法，其特征在于，所述步骤（S3）中，根据每一帧图像的骨架特征状态估计值和骨架特征状态计算值进行人物目标匹配，所使用的算法为匈牙利匹配算法。

9.如权利要求1~5任一项所述的基于人体骨架特征的行为检测方法，其特征在于，所述步骤（S4）还包括：若检测得到的行为类别为跌倒，则发出预警信息。

10.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1~9任一项所述的基于人体骨架特征的行为检测方法。