CN115359563A

CN115359563A - 多人行为识别方法、装置、计算机设备及存储介质

Info

Publication number: CN115359563A
Application number: CN202211012593.4A
Authority: CN
Inventors: 胡懋成; 王秋阳; 周婧雯; 汪玉冰; 郑博超; 凤阳
Original assignee: Shenzhen Sunwin Intelligent Co Ltd
Current assignee: Shenzhen Sunwin Intelligent Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-18

Abstract

本发明实施例公开了一种多人行为识别方法、装置、计算机设备及存储介质，其中方法包括：获取检测区域内的图像数据；对图像数据进行切帧处理，以得到多帧静态图片；将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。本发明结合了多目标跟踪、关键点检测以及光流估计方法，可以有效的对多目标移动的人体进行实时行为识别，对较短时间段内大幅移动人体的行为检测有很好的兼容性，提高了模型在不同场景识别的鲁棒性以及准确性，使得模型对于复杂内容的图像有较好的理解能力。

Description

多人行为识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，更具体地说是一种多人行为识别方法、装置、计算机设备及存储介质。

背景技术

随着社会快速发展，人体行为预测是目前工业界和学界的一个研究热点和难点，其在实际生活中有重要应用价值。针对人体行为预测目前有以下几种方式：

第一种是首先对采集的可见光图像及红外图像进行图像处理得到跟踪目标区域，接着检测待跟踪目标区域是否包括行人，当包含行人的时候对行人进行跟踪，并在跟踪的过程中检测行人边缘以从待跟踪目标区域获得行人待识别区域，将行人待识别区域输入到识别模型得到行人行为识别结果。该专利基于红外的方式对目标进行跟踪，设备需要额外的花费，且基于传统的方向梯度直方图的方式对图像进行特征提取来判断行人目标，受光照影响严重，效果较差，且该方法仅仅基于人物外观轮廓进行行为识别忽略了空间时间融合信息，识别效果较差。

第二种是通过运用多任务深度学习的方法训练3D卷积神经网络，将多种人体行为属性以背景视频的固定连续帧数的帧快作为网络的输入，经过3D卷积神经网络训练后完成识别任务。该方法仅仅对固定位置的人体行为进行识别，且仅针对单个人进行行为识别，有很大的局限性。此外，基于3D卷积进行行为识别，模型效率较低，训练的模型容易受背景因素的影响严重，导致识别效果差。

第三种是通过获取视频片段，对视频片段中的图像帧序列进行特征提取以及降维处理，然后对降维后的特征向量进行编码，将降维特征向量进行扩充，得到预设个数的扩充特征向量。将扩充特征向量和所述编码特征向量输入到三层单层解码器进行解码，再将最后一层解码特征向量输入至单层全连接前馈网络进行计算，得到多个预测值。再将预测值输入至逻辑回归网络得到对应的预测概率，选取最大概率值对应的类别作为最后一层解码特征向量对应矩形框的人体行为动作类别。该方法先采取空间信息，接着再通过不同时间段的空间特征进行时间特征的提取，很容易在时间特征提取的过程中丢失空间信息，很难做到空间特征与时间特征的融合，因此动作识别的准确度会被降低。

发明内容

本发明的目的在于克服现有技术的不足，提供多人行为识别方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：

第一方面，多人行为识别方法，包括：

获取检测区域内的图像数据；

对图像数据进行切帧处理，以得到多帧静态图片；

将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。

其进一步技术方案为：所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果，包括：

将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像；

将带有id索引的不同人物图像输入至关键点检测模型进行处理，以得到关键点热力图；

将带有id索引的人物图像输入至光流模型中进行处理，以得到光流特征图；

将关键点热力图和光流特征图输入至视频分类模型中进行处理，以得到人体行为识别结果。

其进一步技术方案为：所述将带有id索引的不同人物图像输入至关键点检测模型进行处理，以得到关键点热力图，包括：

将带有id索引的不同人物图像输入到多个串联的ExtrackBlock中进行处理，以得到人物特征；

将人物特征进行输入到RefineBlock进行处理，以得到关键点热力图。

其进一步技术方案为：所述将带有id索引的不同人物图像输入到多个串联的ExtrackBlock中进行处理，以得到人物特征，包括：

将带有id索引的不同人物图像分别进行深度可分离卷积和空间可分离卷积处理，以得到深度卷积特征和空间卷积特征；

将深度卷积特征和空间卷积特征进行相加处理，以得到相加结果特征；

将相加结果特征分别通过第一卷积、第二卷积、第三卷积和第四卷积进行处理，以得到第一卷积特征、第二卷积特征、第三卷积特征和第四卷积特征；

将第一卷积特征、第二卷积特征、第三卷积特征和第四卷积特征分别输入到4个注意力机制分支中进行处理，以分别得到第一注意力分支特征、第二注意力分支特征、第三注意力分支特征和第四注意力分支特征；

将第一注意力分支特征、第二注意力分支特征、第三注意力分支特征和第四注意力分支特征进行concat处理，以得到结合特征；

将结合特征与空间卷积特征进行合并，以得到人物特征。

其进一步技术方案为：所述将人物特征进行输入到RefineBlock进行处理，以得到关键点热力图，包括：

将人物特征通过可变形卷积处理，以得到可变形卷积特征；

将可变形卷积特征输入至SCSE中进行处理，以得到注意力权重特征；

将可变形卷积特征输入到混合深度卷积网络并连接sigmoid层进行处理，以得到注意力特征图；

将注意力权重特征与注意力特征图进行相乘处理后得到的结果与可变形卷积特征进行相加处理，以得到输出特征；

将输出特征通过双线性插值放大到原始尺寸，以得到关键点热力图。

其进一步技术方案为：所述将带有id索引的人物图像输入至光流模型中进行处理，以得到光流特征图，包括：

将前后两帧带有id索引的人物图像输入到残差卷积进行处理，以得到第一残差卷积特征和第二残差卷积特征；

将第一残差卷积特征和第二残差卷积特征分别输入到深度可分离卷积网络和空间可分离卷积网络进行处理，以得到第一深度可分离卷积特征、第一空间可分离卷积特征、第二深度可分离卷积特征、第二空间可分离卷积特征；

将第一深度可分离卷积特征和第一空间可分离卷积特征进行concat处理，以得到第一结合特征；

将第二深度可分离卷积特征和第二空间可分离卷积特征进行concat处理，以得到第二结合特征；

将第一结合特征、第二结合特征进行相乘处理后的结果经过sigmoid激活函数处理，以得到激活函数特征；

将第一残差卷积特征进行卷积处理，以得到卷积处理特征；

将卷积处理特征与激活函数特征进行concat，以得到合并特征；

将合并特征输入到卷积块中进行处理，以得到卷积块特征；

对激活函数特征进行空洞卷积上采样处理，以得到空洞卷积上采样特征；

对合并特征进行反卷积上采样处理，以得到反卷积上采样特征；

对卷积块特征进行反池化上采样处理，以得到反池化上采样特征；

将空洞卷积上采样特征、反卷积上采样特征、反池化上采样特征的值进行相加处理，以得到第一相加处理结果特征；

将前后两帧带有id索引的人物图像进行concat处理后再分别输入到transformerEncoder和可变形卷积进行处理，以得到第一处理特征和第二处理特征；

将第一处理特征进行resize处理后得到的结果与第二处理特征进行concat处理，以得到组合特征；

将组合特征分别输入到两个卷积块中进行处理，以得到第三处理特征和第四处理特征；

将第三处理特征和第四处理特征分别通过上采样处理，并将二者上采样处理得到的结果进行相加处理，以得到第二相加处理结果特征；

将第一相加处理结果特征和第二相加处理结果特征进行concat处理，以得到中间结果特征；

将中间结果特征分别输入到两个卷积进行处理，得到光流特征图。

其进一步技术方案为：所述将关键点热力图和光流特征图输入至视频分类模型中进行处理，以得到人体行为识别结果，包括：

将关键点热力图中的每个通道上的高斯热力图的关键点映射到单通道图上，以得到单通道高斯热力图；

将光流特征图进行比例缩放到与单通道高斯热力图一致的尺寸，并与之进行concat合并，以得到含有光流信息的关键点特征；

将含有光流信息的关键点特征输入到TIN进行中进行行为分类，以得到人体行为识别结果。

第二方面，多人行为识别装置，包括：

获取单元，用于获取检测区域内的图像数据；

第一处理单元，用于对图像数据进行切帧处理，以得到多帧静态图片；

第二处理单元，用于将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。

第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的多人行为识别方法步骤。

第四方面，一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得所述处理器执行如上述的多人行为识别方法步骤。

本发明与现有技术相比的有益效果是：本发明结合了多目标跟踪、关键点检测以及光流估计方法，可以有效的对多目标移动的人体进行实时行为识别，对较短时间段内大幅移动人体的行为检测有很好的兼容性。

通过融合了光流特征以及关键点热力图特征，可以更准确的进行行为识别动作分析，解决了行为过度依赖背景而导致训练效果较差的问题，提高了模型在不同场景识别的鲁棒性以及准确性。

另外，考虑了空间及时间维度的信息，对于空间信息加入了原像素及关键点位置的监督信息，在时间维度上同时考虑了长周期的视频序列信息以及短周期的光流信息，使得模型对于复杂内容的图像有较好的理解能力。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明技术手段，可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征及优点能够更明显易懂，以下特举较佳实施例，详细说明如下。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明具体实施例提供的多人行为识别方法的应用场景示意图；

图2为本发明具体实施例提供的多人行为识别方法的流程图；

图3为本发明具体实施例提供的多人行为识别装置的示意性框图；

图4为本发明具体实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的多人行为识别方法的应用场景示意图；图2为本发明具体实施例提供的多人行为识别方法的流程图，该多人行为识别方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，多人行为识别方法，包括以下步骤：S10-S30。

S10、获取检测区域内的图像数据。

使用监控设备，例如监控摄像头来监控捕获需要检测区域内的视频数据(图像数据)。监控设备采用市面上常见的即可，本申请对此不做限定。

S20、对图像数据进行切帧处理，以得到多帧静态图片。

对检测出来的图像数据切帧成一帧一帧的RGB静态图片，用作人体行为预测模型的输入数据。

S30、将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。

在一实施例中，步骤S30具体包括以下步骤：S301-S304。

S301、将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像。

在本实施例中，跟踪模型采用的BoT-SORT，BoT-SORT使用yolov7模型作为人体检测器，同时为了减少因人物遮挡导致id切换的情况不仅仅基于人体特征作为匹配基准，还加入了前后帧光流特征，基于检测器得出的人体特征与光流特征作为融合来作为判断前后帧行人的索引是否匹配加入辅助信息。

在本实施例中，步骤S301具体包括以下步骤：

S3011、将多帧静态图片以图片序列的形式输入至跟踪模型，以检测出不同的人体目标框。

在本实施例中，将得到的多帧静态图片(帧视频流)以图片序列的形式输入至跟踪模型中，可以检测出不同的人体目标框，该目标框通过图片位置坐标(x_min,y_min)(x_max,y_max)，即目标框相对图片左上角坐标以及目标框相对图片右下角坐标来表示坐标的位置。

S3012、对检测出的不同的人体目标框赋予索引id，以得到带有id索引的人物图像。

S302、将带有id索引的不同人物图像输入至关键点检测模型进行处理，以得到关键点热力图。

基于注意力机制以及卷积神经网络设计了MRN(Multi-Residual Network)网络进行关键点检测。关键点检测模型分为两个自网络结构，分别是特征提取模型结构ExtractBlock以及生成关键点热力图的RefineBlock。

在一实施例中，步骤S302具体包括以下步骤：S3021-S3022。

S3021、将带有id索引的不同人物图像输入到多个串联的ExtrackBlock中进行处理，以得到人物特征。

在一实施例中，步骤S3021具体包括以下步骤：S30211-S30216。

S30211、将带有id索引的不同人物图像分别进行深度可分离卷积和空间可分离卷积处理，以得到深度卷积特征和空间卷积特征。

在本实施例中，对于每一个ExtrackBlock结构，将输入的带有id索引的不同人物图像分别进行3*3深度可分离卷积以及空间可分离卷积处理，以得到特征f_ds以及特征f_ss。

S30212、将深度卷积特征和空间卷积特征进行相加处理，以得到相加结果特征。

在本实施例中，将特征f_ds和特征f_ss进行相加计算得到特征f_dss。

S30213、将相加结果特征分别通过第一卷积、第二卷积、第三卷积和第四卷积进行处理，以得到第一卷积特征、第二卷积特征、第三卷积特征和第四卷积特征。

在本实施例中，将特征分别通过3*3卷积，5*5卷积，7*7卷积以及9*9卷积得到特征f_m1、特征f_m2、特征f_m3和特征f_m4。

S30214、将第一卷积特征、第二卷积特征、第三卷积特征和第四卷积特征分别输入到4个注意力机制分支中进行处理，以分别得到第一注意力分支特征、第二注意力分支特征、第三注意力分支特征和第四注意力分支特征。

在本实施例中，将特征f_m1、特征f_m2、特征f_m3和特征f_m4分别输入到4个注意力机制分支中进行处理，对于第一个分支来说先将f_m1输入到ConvBlock中，该ConvBlock分别由1*1卷积，3*3卷积以及3*3空洞卷积BacthNormalization构成，最后得到特征f_d1，同时将特征f_m1通过CBAM(Convolution Block Attention Module)以及1*1卷积处理得到特征f_c1，接着将f_d1与f_c1进行concat合并得到特征f_dc1。

第二个分支使用与第一个分支一样的结构，将得到的特征f_m2分别输入到CBAM分支以及1*1卷积分支得到特征f_c1，同时也将f_m2并行输入到ConvBlock得到特征f_d2，将特征f_d2与特征f_dc1进行concat合并得到特征f_dc2。将第一个分支得到的f_dc1通过3*3卷积再与f_dc2合并得到特征f_s2。接着将f_s2输入到ConvBlock模块中得到特征f_out2。

对于第三个分支来说，将输入得到的特征f_m3分别输入到CBAM以及1*1卷积，同时也输入至ConvBlock中，再将特征进行concante合并得到特征f_dc3，将第二个分支f_dc2特征接3*3卷积与f_dc3进行concat合并输入到ConvBlock模型得到f_d5，并于第二个分支得到的f_s1通过3*3卷积的结果进行concat得到特征f_s3，再将其输入到ConvBlock并与第二个分支中的特征f_s2concat得到特征f_out3。

对于第四个分支按照上述三个分支的处理方式以此类推得到便可得到特征f_out4。

S30215、将第一注意力分支特征、第二注意力分支特征、第三注意力分支特征和第四注意力分支特征进行concat处理，以得到结合特征。

在本实施例中，将得到特征f_dc1，f_out2，f_out3以及f_out4，对它们进行concat处理，得到特征f_fusion。

S30216、将结合特征与空间卷积特征进行合并，以得到人物特征。

在本实施例中，将特征f_ss与现在得到的特征f_fusion进行合并得到特征f_extract1，通过个串联得到的ExtrackBlock之后，最终可以得到特征f_extract2，f_extract3以及特征f_extract4。其中特征f_extract4即为人物特征。

S3022、将人物特征进行输入到RefineBlock进行处理，以得到关键点热力图。

在一实施例中，步骤S3022具体包括以下步骤：S30221-S30225。

S30221、将人物特征通过可变形卷积处理，以得到可变形卷积特征。

在本实施例中，将将f_extract4通过3*3可变形卷积得到特征f_p。

S30222、将可变形卷积特征输入至SCSE中进行处理，以得到注意力权重特征。

在本实施例中，将特征f_p输入至SCSE(Spatial and Channel SE Block)模块中得到注意力权重特征f_{weih t}。

S30223、将可变形卷积特征输入到混合深度卷积网络并连接sigmoid层进行处理，以得到注意力特征图。

在本实施例中，将f_p输入到混合深度卷积(Mixed Depthwise Convolution)网络并连接sigmoid层得到注意力特征图f_{attention map}。

S30224、将注意力权重特征与注意力特征图进行相乘处理后得到的结果与可变形卷积特征进行相加处理，以得到输出特征。

在本实施例中，将得到的注意力权重的特征f_{weih t}与得到的注意力图f_{attention map}进行相乘并与特征f_p相加得到输出特征f_kout。

S30225、将输出特征通过双线性插值放大到原始尺寸，以得到关键点热力图。

在本实施例中，将得到的特征f_kout通过双线性插值进行放大，将其放大到输入的原图大小得到关键点的热力图Heatmap_keypoint。这里的关键点的输出通道数为关键点的数量，这里我们coco18个关键点即含有18个通道的热力图。

S303、将带有id索引的人物图像输入至光流模型中进行处理，以得到光流特征图。

在本实施例中，光流模型使用的OFNet，OFNet分为两个主要部分，分别是OFsBlock以及OFpBlock。光流模型主要是为了提取人体光流特征图，即对于不同人物索引，分别输入到该光流模型中得到其对应的人物光流特征图。

在一实施例中，步骤S303具体包括以下步骤：

S3031、将前后两帧带有id索引的人物图像输入到残差卷积进行处理，以得到第一残差卷积特征和第二残差卷积特征。

在本实施例中，对于OFsBlock，将前后两帧带有id索引的人物图像分别输入到残差卷积得到对应特征f_res1以及特征f_res2。

S3032、将第一残差卷积特征和第二残差卷积特征分别输入到深度可分离卷积网络和空间可分离卷积网络进行处理，以得到第一深度可分离卷积特征、第一空间可分离卷积特征、第二深度可分离卷积特征、第二空间可分离卷积特征。

S3033、将第一深度可分离卷积特征和第一空间可分离卷积特征进行concat处理，以得到第一结合特征。

S3034、将第二深度可分离卷积特征和第二空间可分离卷积特征进行concat处理，以得到第二结合特征。

对于S3032-S3034，在本实施例中，将特征f_res1和特征f_res2分别输入到深度可分离卷积网络以及空间可分离卷积网络。对于f_res1来说经过上述操作得到特征f_dd1以及特征f_sd1将其两个concat得到特征f_c1，对于f_res2来说进经过上述操作得到特征f_dd2以及特征f_sd2将两者进行concat得到特征f_c2。

S3035、将第一结合特征、第二结合特征进行相乘处理后的结果经过sigmoid激活函数处理，以得到激活函数特征。

在本实施例中，将特征f_c1与特征f_c2进行相乘经过sigmoid激活函数后得到新的特征f_c3，该特征能更好的反应像素运动信息。

S3036、将第一残差卷积特征进行卷积处理，以得到卷积处理特征。

在本实施例中，特征f_res1通过5*5卷积得到特征f_s。

S3037、将卷积处理特征与激活函数特征进行concat，以得到合并特征。

在本实施例中，将将特征f_s与特征f_c3进行concat合并得到特征f_so1。

S3038、将合并特征输入到卷积块中进行处理，以得到卷积块特征。

在本实施例中，将特征f_so1输入到卷积块中得到特征f_so2，该卷积块由3*3卷积、BatchNormalization以及SiLu激活函数组成。

S3039、对激活函数特征进行空洞卷积上采样处理，以得到空洞卷积上采样特征。

S3040、对合并特征进行反卷积上采样处理，以得到反卷积上采样特征。

S30401、对卷积块特征进行反池化上采样处理，以得到反池化上采样特征。

S30402、将空洞卷积上采样特征、反卷积上采样特征、反池化上采样特征的值进行相加处理，以得到第一相加处理结果特征。

对于S3039-S30402，在本实施例中，对特征f_c3做空洞卷积上采样，特征f_so1进行反卷积上采样，对于特征f_so2做反池化上采样，最终分别得到大小一致的特征f_u1，f_u2以及特征f_u3，最后将三者特征进行值相加得到特征f_cu。

S30403、将前后两帧带有id索引的人物图像进行concat处理后再分别输入到transformerEncoder和可变形卷积进行处理，以得到第一处理特征和第二处理特征。

在本实施例中，对于OFsBlock，将前后两帧带有id索引的人物图像进行concat再分别输入到transformerEncoder以及可变形卷积中得到特征f_t1以及特征f_dc。

S30404、将第一处理特征进行resize处理后得到的结果与第二处理特征进行concat处理，以得到组合特征。

在本实施例后踵，对特征f_t1进行resize并与f_dc特征concat得到特征f_std。

S30405、将组合特征分别输入到两个卷积块中进行处理，以得到第三处理特征和第四处理特征。

在本实施例中，将特征f_std分别输入到两个卷积块中分别得到特征f_scr1以及特征f_scr2，其中卷积块则是由Depthwise、batchnormlization以及relu激活函数组成。

S30406、将第三处理特征和第四处理特征分别通过上采样处理，并将二者上采样处理得到的结果进行相加处理，以得到第二相加处理结果特征。

在本实施例中，将特征f_scr1以及特征f_scr2分别通过上采样，并将二者上采样的结果相加得到特征f_ut。

S30407、将第一相加处理结果特征和第二相加处理结果特征进行concat处理，以得到中间结果特征。

在本实施例中，将特征f_cu和特征f_ut进行concat得到特征f_cut。

S30408、将中间结果特征分别输入到两个卷积进行处理，得到光流特征图。

在本实施例中，将特征f_cut分别输入至3*3卷积以及5*5卷积，并且将5*5卷积的输出特征连接空洞卷积后合并3*3卷积的结果并最终通过1*1卷积以及放大得到特征f_o，该特征大小与输入尺寸大小一致，通道数为2的特征。

S304、将关键点热力图和光流特征图输入至视频分类模型中进行处理，以得到人体行为识别结果。

在一实施例后踵，步骤S304具体包括以下步骤：S3041-S3043。

S3041、将关键点热力图中的每个通道上的高斯热力图的关键点映射到单通道图上，以得到单通道高斯热力图。

在本实施例中，基于得到的Heatmap_keypoint中的每个通道上的高斯热力图的关键点映射到单通道图上，得到单通道高斯热力图Heatmap_sc。

S3042、将光流特征图进行比例缩放到与单通道高斯热力图一致的尺寸，并与之进行concat合并，以得到含有光流信息的关键点特征。

S3043、将含有光流信息的关键点特征输入到TIN进行中进行行为分类，以得到人体行为识别结果。

对于S3042和S3043，在本实施例中，光流特征图f_o进行等比例缩放到与Heatmap_sc一致的尺寸，并与之进行concat合并得到含有光流信息的关键点特征f_{optical-h eatmap}。首先合并不同人对应每一帧对应的f_{optical-h eatmap}，且控制的帧数在60帧，再将其输入到视频分类模型中去即可以得到每个行人的行为类别结果。本实施例中，使用的是TIN(TemporalInterlacing Network)进行视频分类。视频分类类别有5个类别，分别是跳跃，奔跑，坐下，站立，行走。

另外，人体行为预测模型使用到的损失函数包括目标检测的损失函数、关键点损失函数、光流损失函数和视频行为分类损失函数，其中：

目标检测的损失函数使用的是yolov7的损失函数，该损失函数主要由分类损失，定位损失以及置信度损失函数构成，即：

Loss＝Loss_分类+Loss_定位+Loss_置信度。

关键点损失函数使用的是MSE损失函数，这里分别对关键点模型特征f_extract3，f_extract4以及特征Heatmap_keypoint分别与真实标注的ground truth做MSE损失，即：

Loss＝αLoss_extract2+βLoss_extract3+γLoss_extract3，这里α＝0.2，β＝0.3，γ＝0.5。

光流损失函数由f_cut的损失Loss_cut以及f_o的损失Loss_o构成，统一使用端点误差(endpoint error，EPE)作为训练的损失函数，它表示预测的流向量和ground truth之间每个像素平均的欧几里得距离。

视频行为分类损失函数使用分类的交叉熵损失来进行模型训练。

本发明结合了多目标跟踪、关键点检测以及光流估计方法，可以有效的对多目标移动的人体进行实时行为识别，对较短时间段内大幅移动人体的行为检测有很好的兼容性。通过融合了光流特征以及关键点热力图特征，可以更准确的进行行为识别动作分析，解决了行为过度依赖背景而导致训练效果较差的问题，提高了模型在不同场景识别的鲁棒性以及准确性。另外，考虑了空间及时间维度的信息，对于空间信息加入了原像素及关键点位置的监督信息，在时间维度上同时考虑了长周期的视频序列信息以及短周期的光流信息，使得模型对于复杂内容的图像有较好的理解能力。

图3是本发明实施例提供的多人行为识别装置100的示意性框图。对应于上述的多人行为识别方法，本发明具体实施例还提供了多人行为识别装置100。该多人行为识别装置100包括用于执行上述多人行为识别方法的单元和模块，该装置可以被配置于服务器中。

如图3所示，多人行为识别装置100，包括：

获取单元110，用于获取检测区域内的图像数据。

第一处理单元120，用于对图像数据进行切帧处理，以得到多帧静态图片。

第二处理单元130，用于将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。

在一实施例中，第二处理单元130包括：

第一处理模块，用于将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像。

在一实施例中，第一处理模块包括：

第一处理子模块，用于将多帧静态图片以图片序列的形式输入至跟踪模型，以检测出不同的人体目标框。

第二处理子模块，用于对检测出的不同的人体目标框赋予索引id，以得到带有id索引的人物图像。

第二处理模块，用于将带有id索引的不同人物图像输入至关键点检测模型进行处理，以得到关键点热力图。

在一实施例中，第二处理模块包括：

第三处理子模块，用于将带有id索引的不同人物图像输入到多个串联的ExtrackBlock中进行处理，以得到人物特征。

在一实施例中，第三处理子模块包括：

第一卷积处理子模块，用于将带有id索引的不同人物图像分别进行深度可分离卷积和空间可分离卷积处理，以得到深度卷积特征和空间卷积特征。

第一相加处理子模块，用于将深度卷积特征和空间卷积特征进行相加处理，以得到相加结果特征。

第二卷积处理子模块，用于将相加结果特征分别通过第一卷积、第二卷积、第三卷积和第四卷积进行处理，以得到第一卷积特征、第二卷积特征、第三卷积特征和第四卷积特征。

注意力处理子模块，用于将第一卷积特征、第二卷积特征、第三卷积特征和第四卷积特征分别输入到4个注意力机制分支中进行处理，以分别得到第一注意力分支特征、第二注意力分支特征、第三注意力分支特征和第四注意力分支特征。

第一融合处理子模块，用于将第一注意力分支特征、第二注意力分支特征、第三注意力分支特征和第四注意力分支特征进行concat处理，以得到结合特征。

第一合并处理子模块，用于将结合特征与空间卷积特征进行合并，以得到人物特征。

第四处理子模块，用于将人物特征进行输入到RefineBlock进行处理，以得到关键点热力图。

在一实施例中，第四处理子模块包括：

第三卷积处理子模块，用于将人物特征通过可变形卷积处理，以得到可变形卷积特征。

第五处理子模块，用于将可变形卷积特征输入至SCSE中进行处理，以得到注意力权重特征。

第六处理子模块，用于将可变形卷积特征输入到混合深度卷积网络并连接sigmoid层进行处理，以得到注意力特征图。

第二相加处理子模块，用于将注意力权重特征与注意力特征图进行相乘处理后得到的结果与可变形卷积特征进行相加处理，以得到输出特征。

放大处理子模块，用于将输出特征通过双线性插值放大到原始尺寸，以得到关键点热力图。

第三处理模块，用于将带有id索引的人物图像输入至光流模型中进行处理，以得到光流特征图。

在一实施例中，第三处理子模块包括：

残差卷积处理子模块，用于将前后两帧带有id索引的人物图像输入到残差卷积进行处理，以得到第一残差卷积特征和第二残差卷积特征。

第七处理子模块，用于将第一残差卷积特征和第二残差卷积特征分别输入到深度可分离卷积网络和空间可分离卷积网络进行处理，以得到第一深度可分离卷积特征、第一空间可分离卷积特征、第二深度可分离卷积特征、第二空间可分离卷积特征。

第一融合子模块，用于将第一深度可分离卷积特征和第一空间可分离卷积特征进行concat处理，以得到第一结合特征。

第二融合子模块，用于将第二深度可分离卷积特征和第二空间可分离卷积特征进行concat处理，以得到第二结合特征。

激活函数处理子模块，用于将第一结合特征、第二结合特征进行相乘处理后的结果经过sigmoid激活函数处理，以得到激活函数特征。

第四卷积处理子模块，用于将第一残差卷积特征进行卷积处理，以得到卷积处理特征。

第三融合子模块，用于将卷积处理特征与激活函数特征进行concat，以得到合并特征。

第一卷积块处理子模块，用于将合并特征输入到卷积块中进行处理，以得到卷积块特征。

空洞卷积上采样处理子模块，用于对激活函数特征进行空洞卷积上采样处理，以得到空洞卷积上采样特征。

反卷积上采样处理子模块，用于对合并特征进行反卷积上采样处理，以得到反卷积上采样特征。

反池化上采样处理子模块，用于对卷积块特征进行反池化上采样处理，以得到反池化上采样特征。

第三相加处理子模块，用于将空洞卷积上采样特征、反卷积上采样特征、反池化上采样特征的值进行相加处理，以得到第一相加处理结果特征。

第八处理子模块，用于将前后两帧带有id索引的人物图像进行concat处理后再分别输入到transformerEncoder和可变形卷积进行处理，以得到第一处理特征和第二处理特征。

第四融合处理子模块，用于将第一处理特征进行resize处理后得到的结果与第二处理特征进行concat处理，以得到组合特征。

第二卷积块处理子模块，用于将组合特征分别输入到两个卷积块中进行处理，以得到第三处理特征和第四处理特征。

第四相加处理子模块，用于将第三处理特征和第四处理特征分别通过上采样处理，并将二者上采样处理得到的结果进行相加处理，以得到第二相加处理结果特征。

第五融合处理子模块，用于将第一相加处理结果特征和第二相加处理结果特征进行concat处理，以得到中间结果特征。

第九处理子模块，用于将中间结果特征分别输入到两个卷积进行处理，得到光流特征图。

第四处理模块，用于将关键点热力图和光流特征图输入至视频分类模型中进行处理，以得到人体行为识别结果。

在一实施例中，第四处理模块包括：

映射子模块，用于将关键点热力图中的每个通道上的高斯热力图的关键点映射到单通道图上，以得到单通道高斯热力图。

缩放子模块，用于将光流特征图进行比例缩放到与单通道高斯热力图一致的尺寸，并与之进行concat合并，以得到含有光流信息的关键点特征。

分类子模块，用于将含有光流信息的关键点特征输入到TIN进行中进行行为分类，以得到人体行为识别结果。

上述多人行为识别装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

如图4所示，该计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述的多人行为识别方法步骤。

该计算机设备700可以是终端或服务器。该计算机设备700包括通过系统总线710连接的处理器720、存储器和网络接口750，其中，存储器可以包括非易失性存储介质730和内存储器740。

该非易失性存储介质730可存储操作系统731和计算机程序732。该计算机程序732被执行时，可使得处理器720执行任意一种多人行为识别方法。

该处理器720用于提供计算和控制能力，支撑整个计算机设备700的运行。

该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境，该计算机程序732被处理器720执行时，可使得处理器720执行任意一种多人行为识别方法。

该网络接口750用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。其中，所述处理器720用于运行存储在存储器中的程序代码，以实现以下步骤：

第一方面，多人行为识别方法，包括：

获取检测区域内的图像数据；

对图像数据进行切帧处理，以得到多帧静态图片；

在一实施例中：所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果，包括：

在一实施例中：所述将带有id索引的不同人物图像输入至关键点检测模型进行处理，以得到关键点热力图，包括：

在一实施例中：所述将带有id索引的不同人物图像输入到多个串联的ExtrackBlock中进行处理，以得到人物特征，包括：

将结合特征与空间卷积特征进行合并，以得到人物特征。

在一实施例中：所述将人物特征进行输入到RefineBlock进行处理，以得到关键点热力图，包括：

将人物特征通过可变形卷积处理，以得到可变形卷积特征；

在一实施例中：所述将带有id索引的人物图像输入至光流模型中进行处理，以得到光流特征图，包括：

将第一残差卷积特征进行卷积处理，以得到卷积处理特征；

将合并特征输入到卷积块中进行处理，以得到卷积块特征；

在一实施例中：所述将关键点热力图和光流特征图输入至视频分类模型中进行处理，以得到人体行为识别结果，包括：

应当理解，在本申请实施例中，处理器720可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器720还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图4中示出的计算机设备700结构并不构成对计算机设备700的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本发明的另一实施例中提供了一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的多人行为识别方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.多人行为识别方法，其特征在于，包括：

获取检测区域内的图像数据；

对图像数据进行切帧处理，以得到多帧静态图片；

2.根据权利要求1所述的多人行为识别方法，其特征在于，所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果，包括：

3.根据权利要求2所述的多人行为识别方法，其特征在于，所述将带有id索引的不同人物图像输入至关键点检测模型进行处理，以得到关键点热力图，包括：

4.根据权利要求3所述的多人行为识别方法，其特征在于，所述将带有id索引的不同人物图像输入到多个串联的ExtrackBlock中进行处理，以得到人物特征，包括：

将结合特征与空间卷积特征进行合并，以得到人物特征。

5.根据权利要求3所述的多人行为识别方法，其特征在于，所述将人物特征进行输入到RefineBlock进行处理，以得到关键点热力图，包括：

将人物特征通过可变形卷积处理，以得到可变形卷积特征；

6.根据权利要求2所述的多人行为识别方法，其特征在于，所述将带有id索引的人物图像输入至光流模型中进行处理，以得到光流特征图，包括：

将第一残差卷积特征进行卷积处理，以得到卷积处理特征；

将合并特征输入到卷积块中进行处理，以得到卷积块特征；

7.根据权利要求2所述的多人行为识别方法，其特征在于，所述将关键点热力图和光流特征图输入至视频分类模型中进行处理，以得到人体行为识别结果，包括：

8.多人行为识别装置，其特征在于，包括：

获取单元，用于获取检测区域内的图像数据；

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7中任意一项所述的多人行为识别方法步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得所述处理器执行如权利要求1～7任意一项所述的多人行为识别方法步骤。