CN115862128A

CN115862128A - 一种基于人体骨架的顾客异常行为识别方法

Info

Publication number: CN115862128A
Application number: CN202211201543.0A
Authority: CN
Inventors: 汪朵拉
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-03-28

Abstract

本发明公开了一种基于人体骨架的顾客异常行为识别方法，获取顾客行为图像，通过多任务学习姿态估计模型对顾客行为图像进行识别，其中多任务学习姿态估计模型包括人体骨架检测任务和目标检测任务，经模型识别后输出顾客异常行为识别结果。本发明结合了由上而下和由下而上的人体骨架检测算法，在人体骨架检测模型的基础上提出了一种包含人体骨架检测和目标检测两大检测任务的多任务联合学习姿态估计模型模型，用于监控场景的姿态估计，有效提高了人体骨架检测的泛化能力和准确率，可以对超市监控视频中顾客的人体关键部位或主要关节进行姿态估计检测，识别顾客是否有异常行为，避免安全事故的发生。

Description

一种基于人体骨架的顾客异常行为识别方法

技术领域

本发明涉及机器和计算机视觉领域，尤其涉及一种基于人体骨架的顾客异常行为识别方法。

背景技术

新型的智能安防监控系统通过计算机视觉技术对超市中顾客群体进行监控。智能监控通过人体骨架检测算法，对视频中的多个人进行识别、分类和分析，不仅能识别人群中特殊个体的行为，还能识别和分析群体行为，并对监控视频中的个体或群体的异常行为进行判断和预警，自动发出报警提醒工作人员，极大的提高了视频监控的实时性和实用性。智能安防监控系统还可以针对特定的要求对视频进行初筛和浓缩提取，从而减轻值守人员的工作量，对人们的生命财产安全进行了最大化的保护。

但在实际应用中，对顾客行为的检测场景是极其复杂的，场景中可能有很多噪声的影响，而且亮度随着昼夜、阴晴的交替更是不可能不变的，所以此类算法在实际应用中会存在准确率不高、实时性差、鲁棒性差等问题，严重影响了检测模型实际部署的效果。

发明内容

为了解决上述现有技术中存在的不足，本发明提供一种基于人体骨架的顾客异常行为方法，其可以高效地完成顾客异常行为识别任务，解决现有技术中存在的准确率低、鲁棒性差的缺陷。

本发明解决上述技术问题所采用的技术方案为：获取顾客行为图像；通过多任务学习姿态估计模型对顾客行为图像进行识别，其中所述多任务学习姿态估计模型包括人体骨架检测任务和目标检测任务；输出顾客异常行为识别结果。

进一步的，多任务学习姿态估计模型包括特征提取模块、多任务共享模块、姿态估计模块以及目标检测模块；其中

特征提取模块基于VGG16网络，其提取顾客行为图像中人体骨骼关节点，形成图像数据集；

多任务共享模块也基于VGG16网络，其对图像数据集根据顾客目标检测及顾客骨架模型检测，得到每个顾客的骨骼模型；

姿态估计模块基于OpenPose网络，其对骨骼模型中的人体姿态进行估计，提取出人体骨骼关键点；

目标检测模块将人体骨骼关键点带入到判断模型中，判断顾客是否存在异常行为，并输出检测结果。

进一步的，多任务学习姿态估计模型中的目标检测模块基于特征提取模块的人体特征提取输出结果进行目标检测，并利用检测框进行框定，得到至少一个目标检测框。

进一步的，根据特征提取模块提取的任一人体关键点信息和候选目标检测框的位置，计算目标检测框与人体关键点信息的距离。当人体关键点信息与候选目标检测框的距离不大于预设阈值时，人体关键点信息与候选目标检测框匹配。

进一步的，特征提取模块包括深度可分离卷积模块、逆残差模块以及轻量型注意力模块，其中，所述轻量型注意力模块包括SE结构。

进一步的，轻量型注意力模块位于深度可分离卷积模块之后，用于加在深度可分离卷积模块之后使多任务学习姿态估计模型在不显著增加计算量的同时提升检测精度以及保持原有的灵敏度。

进一步的，目标检测模块在异常行为识别阶段，保留多任务学习姿态估计模型中预测网络的第一阶段的网络结构不变，将剩余所有阶段的网络结构进行剪枝，保留预测网络中两个预测分支中的第一预测分支的卷积核来同时处理两个预测分枝的信息流输入，在每一预测分支的末端保留两层1x1的卷积核作为输出，得到人体关键点的热力图以及关键点的亲和力场图，并判断顾客是否存在异常行为，输出顾客异常行为识别结果。

进一步的，获取历史时期内的顾客行为图像，进行标注并存储为多任务学习姿态估计模型的图像数据集。对图像数据集中图像进行数据增强处理，其中数据增强处理包括图像随机角度翻转、裁剪、镜像处理中至少一种，获得数据增强处理后的图像数据集。使用数据增强处理后的图像数据集中的图像对多任务学习姿态估计模型进行训练。

与现有技术相比，本发明的优点在于：

1、将人体骨架检测和目标检测统一在一个网络框架下进行处理，通过两个任务之间的高参数共享，使检测模型能够同时、无缝地利用不同类别的数据进行训练，提高了检测模型的准确率。

2、在原有的姿态估计模块中，引入一种基于运动感知的新的姿态优化网络，改善视频姿态估计的平滑性，同时提高每帧精度，有效地减轻了长期抖动对姿态估计结果的影响。

3、采用带有注意力机制的轻量化结构来对姿态估计模块的特征提取模块进行优化，将原本特征提取模块的复杂结构迁移到一个结构更简单更轻量的网络中，在保证精度的前提下大幅度减少检测模型的运算量和参数量。

4、利用结构剪枝，并且采用空洞卷积进一步减少检测模型的运算量。

附图说明

图1为本发明的原理框图；

图2为多任务学习姿态估计模型的原理框图；

图3为姿态优化网络原理图；

图4为特征提取模块的原理框图；

图5为姿态估计模块的预测网络结构优化原理图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述，但不作为对本发明的限定。

本发明提供一种基于人体骨架的顾客异常行为识别方法，该方法不易受场景因素的干扰，具有较高的鲁棒性以及准确率。

实施例一：参照图1，图1示出了本发明公开的于人体骨架的顾客异常行为识别方法，包括：

S10获取顾客行为图像；

优选的，所述获取顾客行为图像，包括：利用摄像设备采集顾客在超市等场所的视频信息，从视频信息中提取顾客的行为图像；

现有的购物场所中，布设有摄像设备，例如摄像头。顾客行为图像包括顾客进入场所中至离开场所期间的包含行为信息的图像。只要顾客进入，其行为都会被摄像设备采集。通过在场所中布设多个摄像设备，实现无死角的采集顾客行为图像。

优选的，所有采集的顾客行为图像都进行行为标注并存储在图像数据集中用于对多任务学习姿态估计模型进行训练以不断提高模型识别的准确率。

除了日常采集顾客行为图像外，为了增加数据训练样本，还可对图像数据集中已存储图像进行数据增强处理，处理方式包括但不限于图像随机角度翻转、裁剪、镜像处理中的至少一种。

S20通过多任务学习姿态估计模型对顾客行为图像进行识别，其中所述多任务学习姿态估计模型包括人体骨架检测任务和目标检测任务。

示例性地，通过模型提取人体关键点(关节点)的位置坐标进行人体姿态估计。例如，提取脖子、胸部、头部、右肩、左肩、右臀部、左臀部、右手肘、左手肘、右膝盖、左膝盖、右手腕、左手腕、右脚踝和左脚踝这15个关键点的位置坐标，通过关键点的位置坐标获得人体姿态。

S30.输出顾客异常行为识别结果。

顾客异常行为如偷拿商品、摔倒、滑到和推搡冲突。如果顾客异常行为识别结果是异常行为，则实时进行处理。例如，有顾客跌倒在店中，系统实时发出报警信息。

本实施例中，根据顾客在超市等购物场所中的监控视频信息，从监控视频信息提取顾客行为图像，根据多任务学习姿态估计模型对顾客行为图像的识别结果判断顾客行为是否属于异常行为并进行处理。与现有技术相比，本实施例的方法可有效发现报告异常行为，避免造成更大损失。

实施例二：参见图2，与上述实施例不同的是，本实施例中的多任务学习姿态估计模型包括特征提取模块2、多任务共享模块3、姿态估计模块4以及目标检测模块5；其中

多任务学习旨在用其他相关任务提升主要任务的泛化性能，简单来说多任务学习是一种集成学习方法，通过对几个任务同时训练而使得多个任务之间相互影响。本实施例中的多任务学习姿态估计模型1是包含人体骨架检测和目标检测两大检测任务的多任务联合学习人体骨架检测网络模型，将人体骨架检测与目标检测相结合，通过目标检测来辅助人体骨架检测即姿态估计的准确性。

由于目标检测和人体骨架检测的相关性很强，都需要从图像中提取到人体的基本特征，优选的，本实施例中的多任务学习姿态估计模型1为硬参数共享的多任务联合学习网络框架，在人体骨架检测任务与目标检测任务之间共享隐藏层但制定不同的输出层。

具体的，特征提取模块2用于从顾客行为图像中提取到人体的基本特征，如外观特征、运动特征。

多任务共享模块3可以一次处理多个任务，以及在多个任务之间共享信息。

姿态估计模块4用于根据图像或视频中人的身体部位和关节位置来预测不同的姿势。示例性地，可以通过检测图像中人的关节、手臂、臀部和脊柱的位置，根据相对关系判断姿态，从而判断一个人的行为是否异常。

目标检测模块5用于对特征提取模块2输出的特征图进行目标检测，并利用检测框进行框定，得到至少一个目标检测框。

优选的，本实施例中利用多任务网络学习得到的人体目标检测框辅助姿态估计的关键点匹配。

具体的，根据所述特征提取模块提取的任一人体关键点位置信息和至少一个目标检测框的位置，计算目标检测框与人体关键点的距离。当人体关键点信息与目标检测框的距离不大于预设阈值时，人体关键点信息与目标检测框匹配，其中，预设阈值可根据经验设置。从而将人体关键点组成的人体骨架与目标检测框进行匹配，最终限制关键点匹配的范围，使用目标检测框内的人体关键点进行人体姿态估计。

优选的，本实例中，特征提取模块2和多任务共享模块3采用VGG16网络，姿态估计模块4采用OpenPose网络。

本实施例中，将姿态估计和目标检测统一在一个网络框架下进行处理，通过两个任务之间的高参数共享，使模型能够同时、无缝地利用不同类别的数据进行训练，获得更好的识别效果。

实施例三：参加图3，与上述实施例不同的是，为了处理姿态估计模块4估计结果中的抖动问题，本实施例中引入姿态优化网络，学习由姿态估计模块4产生的估计结果

并进行优化。

其中g是引入的姿态优化网络，

是产生的优化姿态结果。

具体的，本实施例中的姿态优化网络沿着时间轴构建多个具有残差连接的全连接(FC-Full Connection)层，每一层的计算可以表示如下：

其中

和b^l是在第t帧上可学习的权重和偏差，并且它们分别在第i轴之间共享参数。σ是非线性激活函数，选择Leaky ReLu激活函数。为了用优化网络来处理并优化姿态估计模块，首先提取大小为T的块，并产生优化结果，然后移动到步长为s的下一个块进行处理。

本实施例中，在原有的姿态估计模块中，引入一种基于运动感知的新的姿态优化网络，该网络可以改善视频姿态估计的平滑性，同时提高其每帧精度，有效地减轻了长期抖动对姿态估计结果的影响。

实施例四：参加图4，与上述实施例不同的是，特征提取模块2包括深度可分离卷积模块21、逆残差模块22以及轻量型注意力模块23。

优选的，深度可分离卷积模块21和逆残差模块22为MobileNet v2网络中的深度可分离卷积结构和逆残差结构，且逆残差模块22为具有线性瓶颈的逆残差结构。

优选的，特征提取模块2中的轻量型注意力模块23位于深度可分离卷积模块21之后，用于加在所述深度可分离卷积模块21之后使所述多任务学习姿态估计1模型在不显著增加计算量的同时提升检测精度以及保持原有的灵敏度。

假设标准的卷积层是由尺寸为D_k×D_k的卷积核组成，则处理输入特征信息的每一单独通道需要M个这样的卷积核，而输出特征图的深度N表示共需要N个这样的卷积核，所以该卷积层的总参数量为D_k×D_k×M×N。由此可以得到，一个标准的卷积层的运算量为D_k×D_k×M×N×D_F×D_F，且卷积层的运算量主要与卷积核的空间尺寸D_k、输入特征图的通道数M、输出特征图的通道数N和特征图的空间尺寸D_F有关。

注意力机制即为聚焦局部信息的方法，其核心思想就是把注意力集中放在检测包含关键信息的区域上，突出重要部分的细节信息而忽略其他无关紧要的部分。

具体的，轻量型注意力模块23包括SE(squeeze and excitation)结构。

在本实施例中，为了在轻量化特征提取模块模型的同时，能够保证人体骨架检测的准确率要求，提出采用轻量化的SE(Squeeze and Excitation)结构的通道注意力机制与深度可分离卷积相结合的方法，将原本特征提取模块的复杂结构迁移到一个结构更简单更轻量的网络中，在保证精度的前提下大幅度减少模型的运算量和参数量。

实施例五：参加图5，与上述实施例不同的是，本实施例中对姿态估计模块4的预测网络进行结构上的优化，利用结构剪枝，并且采用空洞卷积进一步减少模型的运算量。

具体的，在异常行为识别阶段，特征图进入预测网络中进行处理，保留预测网络中第一阶段的网络结构不变，将剩余所有阶段的网络结构进行剪枝，保留两个预测分支中的第一预测分支的卷积核来同时处理两个预测分枝的信息流输入，在每一预测分支的末端保留两层1x1的卷积核作为输出，得到人体关键点的热力图以及关键点的亲和力场图，并判断顾客是否存在异常行为，输出顾客异常行为识别结果。

经过实验验证，本实施例所提出的方法具有较强的鲁棒性以及较高的准确率

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该知晓，实现上述实施例的方法或者系统，可以通过计算机程序指令来实现。该计算机程序指令装载到可编程数据处理设备上，例如计算机，从而在可编程数据处理设备上执行相应的指令，用于实现上述实施例的方法或者系统实现的功能。

本领域技术人员依据上述实施例，可以对本申请进行非创造性的技术改进，而不脱离本发明的精神实质。这些改进仍应视为在本申请权利要求的保护范围之内。

Claims

1.一种基于人体骨架的顾客异常行为识别方法，其特征在于，包括：

获取顾客行为图像；

通过多任务学习姿态估计模型对顾客行为图像进行识别；其中所述多任务学习姿态估计模型包括人体骨架检测任务和目标检测任务；

输出顾客异常行为识别结果。

2.根据权利要求1所述的一种基于人体骨架的顾客异常行为识别方法，其特征在于：

所述多任务学习姿态估计模型包括特征提取模块、多任务共享模块、姿态估计模块以及目标检测模块；其中

所述多任务共享模块也基于VGG16网络，其对图像数据集根据顾客目标检测及顾客骨架模型检测，得到每个顾客的骨骼模型；

所述姿态估计模块基于OpenPose网络，其对骨骼模型中的人体姿态进行估计，提取出人体骨骼关键点；

所述目标检测模块将人体骨骼关键点带入到判断模型中，判断顾客是否存在异常行为，并输出检测结果。

3.根据权利要求2所述的一种基于人体骨架的顾客异常行为识别方法，其特征在于：

所述目标检测模块基于所述特征提取模块的人体特征提取输出结果进行目标检测，并利用检测框进行框定，得到至少一个目标检测框。

4.根据权利要求3所述的一种基于人体骨架的顾客异常行为识别方法，其特征在于：

根据所述特征提取模块提取的任一人体关键点信息和候选目标检测框的位置，计算所述目标检测框与所述人体关键点信息的距离；

当所述人体关键点信息与所述候选目标检测框的距离不大于预设阈值时，所述人体关键点信息与所述候选目标检测框匹配。

5.根据权利要求2所述的一种基于人体骨架的顾客异常行为识别方法，其特征在于：

所述特征提取模块包括深度可分离卷积模块、逆残差模块以及轻量型注意力模块，其中，所述轻量型注意力模块包括SE结构。

6.根据权利要求5所述的一种基于人体骨架的顾客异常行为识别方法，其特征在于：

所述轻量型注意力模块位于所述深度可分离卷积模块之后，用于加在所述深度可分离卷积模块之后使所述多任务学习姿态估计模型在不显著增加计算量的同时提升检测精度以及保持原有的灵敏度。

7.根据权利要求1所述的一种基于人体骨架的顾客异常行为识别方法，其特征在于：

所述目标检测模块在异常行为识别阶段，保留所述多任务学习姿态估计模型中预测网络的第一阶段的网络结构不变，将剩余所有阶段的网络结构进行剪枝，保留所述预测网络中两个预测分支中的第一预测分支的卷积核来同时处理所述两个预测分枝的信息流输入，在每一预测分支的末端保留两层1x1的卷积核作为输出，得到人体关键点的热力图以及关键点的亲和力场图，并判断顾客是否存在异常行为，输出顾客异常行为识别结果。

8.根据权利要求1所述的一种基于人体骨架的顾客异常行为识别方法，其特征在于：

获取历史时期内的顾客行为图像，进行标注并存储为所述多任务学习姿态估计模型的图像数据集；

对所述图像数据集中图像进行数据增强处理，其中所述数据增强处理包括图像随机角度翻转、裁剪、镜像处理中至少一种，获得数据增强处理后的图像数据集；

使用所述数据增强处理后的图像数据集中的图像对所述多任务学习姿态估计模型进行训练。