CN115761807A

CN115761807A - 一种基于深度学习的人体姿态识别方法及电子设备

Info

Publication number: CN115761807A
Application number: CN202211486958.7A
Authority: CN
Inventors: 瞿关明; 于宏志; 张鹏超; 李辰; 张翰卿
Original assignee: Tianjin Tiandi Weiye Intelligent Security Technology Co ltd
Current assignee: Tianjin Tiandi Weiye Intelligent Security Technology Co ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-07

Abstract

本发明提供了一种基于深度学习的人体姿态识别方法，属于视频监控技术领域，解决了现有技术中存在的视频监控中对人像是否长期处于同种姿态检测效率低的技术问题。本发明用于获取视频中的图像并通过抠图获取图像中的人像信息；利用深度学习关键点检测模型检测人像信息中的人体关键点；基于人体关键点对人像姿态进行分类；判定人像姿态是否长期处于站立姿态、下蹲姿态和举手姿态中的至少一种；若是，输出人体姿态。

Description

一种基于深度学习的人体姿态识别方法及电子设备

技术领域

本发明涉及视频监控技术领域，尤其是涉及一种基于深度学习的人体姿态识别方法及电子设备。

背景技术

随着社会的迅速发展，人体姿态识别在计算机视觉、模式识别、人工智能等领域中，已经成为一个极具意义的研究热点，其具有广阔的应用领域，包括虚拟现实、生物力学、游戏、医疗健康、办案审讯等人机交互领域。

随着深度学习技术的不断发展，现有技术中对人像中人体姿态的识别，存在特征能力提取不足，识别准确率不高，识别效率低的问题；二是浅层机器学习算法与信号处理技术结合，例如，通过小波变换、经验模态分解或快速傅立叶变换提取信号特征后输入机器学习模型分类，虽然分类效果尚可，但存在提取过程复杂、滤波延时高、特征提取不全面的问题导致识别不精准且识别效率低的问题。

发明内容

本发明的目的在于提供一种基于深度学习的人体姿态识别方法及电子设备，解决了现有技术中存在的视频监控中对人像是否长期处于同种姿态检测效率低的技术问题。

第一方面，本发明提供的一种基于深度学习的人体姿态识别方法，包括：

获取视频中的图像并通过抠图获取图像中的人像信息；

利用深度学习关键点检测模型检测人像信息中的人体关键点；

基于人体关键点对人像姿态进行分类；

判定人像姿态是否长期处于站立姿态、下蹲姿态和举手姿态中的至少一种；

若是，输出人体姿态。

进一步的，所述关键点包括：头部关键点、左肩关键点、右肩关键点、左肘关键点、右肘关键点、左腕关键点、右腕关键点、左臀关键点、右臀关键点、左膝关键点、右膝关键点、左踝关键点和右踝关键点。

进一步的，所述深度学习关键点检测模型检测人像信息中的人体关键点的步骤，包括：

将人体13个关键点作为深度学习关键点检测模型的输入，并经过各卷积层以得到人体13个关键点对应的13个通道；

获取各通道在各位置的分值，提取各通道的最大分值对应位置，作为各通道的关键点位置。

进一步的，基于人体关键点对人像姿态进行分类的步骤，包括：

提取所述人体的13个关键点中的9个关键点的相关参数输入至人工神经网络分类器；

人工神经网络分类器根据人体的9个关键点的相关参数，输出对应人像是否为站立状态或下蹲状态。

进一步的，提取所述人体的13个关键点的9个关键点的相关参数输入至人工神经网络分类器时，

所述人体的9个关键点为：头部关键点、左肩关键点、右肩关键点、左臀关键点、右臀关键点、左膝关键点、右膝关键点、左踝关键点和右踝关键点；

所述人体的9个关键点的相关参数为：各关键点的的横坐标值、纵坐标值和置信度，并将人体的9个关键点的相关参数输入至人工神经网络分类器以进行所述人工神经网络分类器对人像姿态进行分类的步骤。

进一步的，所述基于人体关键点对人像姿态进行分类的步骤，包括：

提取所述人体的13个关键点中的7个关键点的位置参数；

根据人体的7个关键点的位置参数判断对应人像是否为举手状态。

进一步的，所述人体的7个关键点为：头部关键点、左肩关键点、右肩关键点、左肘关键点、右肘关键点、左腕关键点和右腕关键点；

所述根据人体的7个关键点的位置参数判断对应人像是否为举手姿态的步骤，包括：

根据左腕关键点和右腕关键点高于头部关键点的像素值，获得第一得分；

根据左肘关键点高于左肩关键点的像素值，以及右肘关键点高于右肩关键点的像素值，获得第二得分；

将第一得分和第二得分相加获取总分，根据总分判定人像是否为举手姿态。

第二方面，本发明还提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第三方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述方法。

本发明提供的一种基于深度学习的人体姿态识别方法，通过获取人像信息并利用深度学习关键点检测模型检测人像信息中的人体关键点，通过关键点确认人像姿态，该方法对人像姿态识别具有较高准确性且具有较强的场景适应性，不受环境影响，能够精准的识别人体长期所处的姿态，本发明深度学习关键检测模型层数浅，同时每层的通道数也较少，数据处理速度快，能够在不影响人体姿态识别效果的前提下，提高检测速度，能够达到实时识别的效果，在精准识别人像姿态的同时提高了人像姿态的检测效率。

相应地，本发明实施例提供的一种基于深度学习的人体姿态识别设备及计算机可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于深度学习的人体姿态识别方法的步骤图；

图2为本发明实施例提供的一种基于深度学习的人体姿态识别方法的流程图；

图3为本发明实施例提供的一种电子设备示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，一种基于深度学习的人体姿态识别方法，包括：

S1：获取视频中的图像并通过抠图获取图像中的人像信息；

S2：利用深度学习关键点检测模型检测人像信息中的人体关键点；

S3：基于人体关键点对人像姿态进行分类；

S4：判定人像姿态是否长期处于站立姿态、下蹲姿态和举手姿态中的至少一种；

S5：若是，输出人体姿态。

如图1至图3所示，在一种对视频监控中的人像姿态检测的实施方式中，具体包括以下步骤：

深度学习检测模型检测每一帧视频中的人像，使用的深度学习检测模型由darknet改进而来，转换成caffe模型的大小为8.5M。

下表为深度学习检测模型改进后的darknet的模型参数，深度学习检测模型的输入尺寸为384×224(宽×高)。

index	layer	filters	size	input	output
						0	conv	25	3 x 3/2	384 x 224 x 3	192 x 112 x 25
1	conv	62	3 x 3/2	192 x 112 x 25	96 x 56 x 62
						2	conv	64	3 x 3/1	96 x 56 x 62	96 x 56 x 64
3	conv	32	1 x 1/1	96 x 56 x 64	96 x 56 x 32
						4	conv	32	3 x 3/1	96 x 56 x 32	96 x 56 x 32
5	conv	32	3 x 3/1	96 x 56 x 32	96 x 56 x 32
						6	route 5 4				96 x 56 x 64
7	conv	60	1 x 1/1	96 x 56 x 64	96 x 56 x 60
						8	route 2 7				96 x 56 x 124
9	max		2x 2/2	96 x 56 x 124	48 x 28 x 124
						10	conv	124	3 x 3/1	48 x 28 x 124	48 x 28 x 124
11	conv	57	1 x 1/1	48 x 28 x 124	48 x 28 x 57
						12	conv	56	3 x 3/1	48 x 28 x 57	48 x 28 x 56
13	conv	43	3 x 3/1	48 x 28 x 56	48 x 28 x 43
						14	route 13 12				48 x 28 x 99
15	conv	107	1 x 1/1	48 x 28 x 99	48 x 28 x 107
						16	route 10 15				48 x 28 x 231
17	max		2x 2/2	48 x 28 x 231	24 x 14 x 231
						18	conv	160	3 x 3/1	24 x 14 x 231	24 x 14 x 160
19	conv	95	1 x 1/1	24 x 14 x 160	24 x 14 x 95
						20	conv	93	3 x 3/1	24 x 14 x 95	24 x 14 x 93
21	conv	73	3 x 3/1	24 x 14 x 93	24 x 14 x 73
						22	route 21 20				24 x 14 x 166
23	conv	228	1 x 1/1	24 x 14 x 166	24 x 14 x 228
						24	route 18 23				24 x 14 x 388
25	max		2x 2/2	24 x 14 x 388	12 x 7 x 388
						26	conv	191	3 x 3/1	12 x 7 x 388	12 x 7 x 191
27	conv	145	1 x 1/1	12 x 7 x 191	12 x 7 x 145
						28	conv	111	3 x 3/1	12 x 7 x 145	12 x 7 x 111
29	conv	18	1 x 1/1	12 x 7 x 111	12 x 7 x 18
						30	yolo
31	route 27				12 x 7 x 145
						32	conv	128	1 x 1/1	12 x 7 x 145	12 x 7 x 128
33	upsample		2x	12 x 7 x 128	24 x 14 x 128
						34	route 33 23				24 x 14 x 356
35	conv	122	3 x 3/1	24 x 14 x 356	24 x 14 x 122
						36	conv	18	1 x 1/1	24 x 14 x 122	24 x 14 x 18
37	yolo
						38	route 35				24 x 14 x 122
39	conv	64	1 x 1/1	24 x 14 x 122	24 x 14 x 64
						40	upsample		2x	24 x 14 x 64	48 x 28 x 64
41	route 40 15				48 x 28 x 171
						42	conv	84	3 x 3/1	48 x 28 x 171	48 x 28 x 84
43	conv	18	1 x 1/1	48 x 28 x 84	48 x 28 x 18
						44	yolo

S1具体包括：获取视频中的图像并通过抠图获取图像中的人像信息。

抠出的图片保持图片的宽高比不变且缩放至96×192(宽×高)大小。

S2具体包括：将人像信息输入至深度学习关键点检测模型，回归人像信息中的13个关键点。

13个关键点包括：头部关键点、左肩关键点、右肩关键点、左肘关键点、右肘关键点、左腕关键点、右腕关键点、左臀关键点、右臀关键点、左膝关键点、右膝关键点、左踝关键点和右踝关键点。

将人体的13个关键点作为深度学习关键点检测模型的输入，并经过各卷积层以得到人体13个关键点对应的13个通道。

各通道对应的最大分值为关键点的置信度，置信度越大表示关键点的位置越可信。

深度学习关键点检测模型由卷积层和反卷积层组成，没有全连接层，最后用于关键点回归的是一个1×1的卷积层，其输出通道个数为13。

S3具体包括：

S3-1：提取所述人体的13个关键点中的9个关键点的相关参数输入至人工神经网络分类器，判断人体是否处于站立姿态或下蹲姿态。

人体的9个关键点为：头部关键点、左肩关键点、右肩关键点、左臀关键点、右臀关键点、左膝关键点、右膝关键点、左踝关键点和右踝关键点。

所述人体的9个关键点的相关参数为：各关键点的的横坐标值、纵坐标值和置信度，并将人体的9个关键点的相关参数输入至人工神经网络分类器以进行人像姿态分类。

本方法中的人工神经网络分类器，包括：

输入层节点个数为27；

隐藏层节点个数为20；

输出层节点个数为3；

人工神经网络分类器对人体9个关键点的27个节点进行分类，输出3个置信度，置信度分别代表下蹲姿态、站立姿态和其他姿势的3种姿态的可能性，并选择其中的最大值对应的姿势标签作为label最终结果。

若为下蹲姿态，则输出label＝0；

若为站立姿态，则输出label＝1；

若为其他姿态，则输出label＝2；

对输出的下蹲姿态或站立姿态的置信度Y进行判定，预设置信度阈值Y0，并将Y与Y0进行比对以确定是否可信，本实施例中设置Y0＝0.75；

若Y＞Y0，则判定结果可信；

若Y≤Y0，则判定结果不可信。

S3-2：提取所述人体的13个关键点中的7个关键点的位置参数；根据7个关键点的位置参数判断对应人像是否为举手状态。

人体的7个关键点为：头部关键点、左肩关键点、右肩关键点、左肘关键点、右肘关键点、左腕关键点和右腕关键点。

设置多个满足举手的条件，每满足一个条件获得一个得分。

将图像水平方向设为横坐标轴，竖直方向设为纵坐标轴，图像左上角为坐标原点，对应关键点的位置越高，其纵坐标y值越小。

提取各通道的关键点位置的纵坐标y，

设置头部关键点或肩部关键点分值阈值为0.3，高于图像整体的0.3位置，则认为此关键点无效。则将其纵坐标y值设为-1，即腕部关键点或肘部关键点无法高于头部关键点或肩部关键点；

设置手部关键点或肘部关键点阈值为0.8，低于图像整体的0.8位置，则认为此关键点无效。则将其纵坐标y值设为10000，即手部关键点或肘部关键点无法高于头部关键点或肩部关键点。

本实施例中对应的关键点都有效时，将左腕关键点高于头部关键点10个像素值或右腕关键点高于头10个像素值设置得分均为0.25，左肘关键点高于左肩关键点10个像素值设置得分为0.20，右腕关键点高于右肩关键点10个像素值得分设置为0.20；

将各得分相加以得到整体分值L，即L＝0.25+0.25+0.20+0.20＝0.9；设定预设标准举手分值L0，并将L与L0进行比对以确定人像是否为举手姿态，本示例中设定L0＝0.84，

若L＞L0，则判定人像为举手姿态；

若L≤L0，则判定人像为未举手姿态。

S3-3：获取视频监控图像过程中判断人体是否处于站立姿态、下蹲姿态或举手姿态，在每一帧检测到的人像姿态通过交并比与前一帧的结果进行匹配，并对每一帧的人像姿态进行记录以对人像姿态进行跟踪，

若人像连续40帧存在同种姿态，则判定人像处于对应的姿态；

若人像连续40帧未存在同种姿态，则判定人像未处于同种姿态。

设置预设标准人像处于某种姿态时间值为T0，本实施例中设定举手姿态T0＝3min，设定站立姿态T0＝15min，设定下蹲姿态T0＝2min，

若人像处于某种姿态的时间大于T0时，则判定人像对应的人员长期处于该种姿态并发出警报至相关业务程序。

本发明实施例具有以下技术效果：

1.深度学习检测模型改进后的模型层数浅，同时每层的通道数也较少，在不影响效果的前提下，检测速度快，能够达到实时检测的效果。

2.将不同关键点分成不同的通道，使得图像特征变得更加丰富，可以有效提升人体姿态检测的准确率，以使检测结果更加精准。

3.通过深度学习检测模型确认关键点，并通过人工神经网络分类器确认人像姿态，该方法对人像姿态识别具有较高准确性且具有较强的场景适应性，不受环境影响。

4.在保证人像姿态检测精准的前提下，提高了检测速度，能够达到实时检测效果的同时，提高了人像姿态的检测效率。

本发明实施例提供的一种电子设备，如图3所示，电子设备800包括存储器801、处理器802，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。

如图3所示，电子设备还包括：总线803和通信接口804，处理器802、通信接口804和存储器801通过总线803连接；处理器802用于执行存储器801中存储的可执行模块，例如计算机程序。

其中，存储器801可能包含高速随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口804(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线803可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器801用于存储程序，所述处理器802在接收到执行指令后，执行所述程序，前述本发明任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器802中，或者由处理器802实现。

处理器802可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器802读取存储器801中的信息，结合其硬件完成上述方法的步骤。

对应于上述方法，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述方法的步骤。

本发明实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习的人体姿态识别方法，其特征在于，包括：

获取视频中的图像并通过抠图获取图像中的人像信息；

基于人体关键点对人像姿态进行分类；

若是，输出人体姿态。

2.根据权利要求1所述的基于深度学习的人体姿态识别方法，其特征在于，所述关键点包括：头部关键点、左肩关键点、右肩关键点、左肘关键点、右肘关键点、左腕关键点、右腕关键点、左臀关键点、右臀关键点、左膝关键点、右膝关键点、左踝关键点和右踝关键点。

3.根据权利要求2所述的基于深度学习的人体姿态识别方法，其特征在于，所述深度学习关键点检测模型检测人像信息中的人体关键点的步骤，包括：

4.根据权利要求1所述的基于深度学习的人体姿态识别方法，其特征在于，基于人体关键点对人像姿态进行分类的步骤，包括：

5.根据权利要求4所述的基于深度学习的人体姿态识别方法，其特征在于，提取所述人体的13个关键点的9个关键点的相关参数输入至人工神经网络分类器时，

6.根据权利要求3所述的基于深度学习的人体姿态识别方法，其特征在于，所述基于人体关键点对人像姿态进行分类的步骤，包括：

提取所述人体的13个关键点中的7个关键点的位置参数；

7.根据权利要求6所述的基于深度学习的人体姿态识别方法，其特征在于，所述人体的7个关键点为：头部关键点、左肩关键点、右肩关键点、左肘关键点、右肘关键点、左腕关键点和右腕关键点；

8.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。