CN116110005A

CN116110005A - 一种人群行为属性的计数方法、系统及产品

Info

Publication number: CN116110005A
Application number: CN202310153107.9A
Authority: CN
Inventors: 黄良军; 陈光凯; 沈世晖; 祝鲁宁
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-12

Abstract

本发明涉及一种人群行为属性的计数方法、系统及产品，属于计算机视觉领域，计数方法包括：获取复杂人群图像；构建多尺度特征融合注意力机制的人群行为属性的计数神经网络主干；基于所述复杂人群图像对所述多尺度特征融合注意力机制的人群行为属性的计数神经网络主干进行训练；获取待计数的复杂人群图像；将所述待计数的复杂人群图像输入至训练好的计数神经网络，得到计数结果。本发明中的上述方案适合用于大规模高密度人群的行为属性的划分以及人群的数量检测，有效的提高了对于检测特定人群数量的准确性。

Description

一种人群行为属性的计数方法、系统及产品

技术领域

本发明涉及计算机视觉领域，特别是涉及一种人群行为属性的计数方法、系统及产品。

背景技术

随着国家城市化步伐的加快，人群计数由于在公共监控、交通控制和确保公共安全等方面的实际应用而受到越来越多的关注，而人群行为属性的计数则是将人群按照不同行为属性分别计数，可进一步拓展人群计数的应用。例如，将公交站的人群计数细分为“等待人群”与“路过人群”，可用于确定公共交通的出发间隔。人群行为属性的计数也可以应用到私人监控，即企业主跟踪其商店内的不同行为属性的客户数量，从而获得更好的商业见解。此外，在高度拥挤的场景中区分出进行暴力或抢劫行为的人员，可帮助相关人员及时处置突发事件的，使得人们的生命和财产安全得到保障。

目前已有的通过语义分割来区分人群行为属性的方法主要有两种：1)CRF是一种图形模型，广泛用于语义分割以提高准确性。在相似像素应该具有相似标签的假设下，使用概率推理对像素之间的关系进行建模。但该算法训练代价大且复杂度高。2)GCN是CNN对图结构的泛化，用于在于利用上下文信息完成语义分割。但该方法在标签较少时会出现算法性能下降的问题。因此以上两种算法均存在一定的局限性。OpenPose是一种有着较高检测精度的自底向上的检测算法。基于上述两种算法缺点，本发明提出一种基于多尺度特征融合注意力机制的人群行为属性的计数方法通过OpenPose分类人群，接下来分别计算不同类别人群的人数，最后汇总。

发明内容

本发明的目的是提供一种人群行为属性的计数方法、系统及产品，提高对于检测特定人群数量的准确性。

为实现上述目的，本发明提供了如下方案：

第一方面，本发明提供了一种人群行为属性的计数方法，所述计数方法包括：

获取复杂人群图像；

构建多尺度特征融合注意力机制的人群行为属性的计数神经网络主干；

基于所述复杂人群图像对所述多尺度特征融合注意力机制的人群行为属性的计数神经网络主干进行训练；

获取待计数的复杂人群图像；

将所述待计数的复杂人群图像输入至训练好的计数神经网络，得到计数结果。

可选的，所述方法在步骤“获取复杂人群图像”和步骤“构建多尺度特征融合注意力机制的人群行为属性的计数神经网络主干”之间还包括：对所述复杂人群图像进行预处理。

可选的，对所述复杂人群图像进行预处理具体包括以下步骤：

对所述复杂人群图像进行整理归类并随机抽取所需数量的图片作为训练集，剩下的作为测试集；

将训练集图片进行翻转、剪裁、镜像以扩充数据集；

将扩充后的数据集进行二值化、数据增强以及归一化处理并消除图像中的无关信息。

可选的，所述多尺度特征融合注意力机制的人群行为属性的计数神经网络主干具体包括：

VGG16模块、多分支特征提取模块、细化分割图模块、OpenPose网络模块以及U-Net语义分割模块；

所述VGG16模块、多分分支特征提取模块、细化分割图模块以及OpenPose网络模块依次连接；所述U-Net语义分割模块与所述OpenPose网络模块连接。

可选的，所述多分支特征提取模块包括：

第一卷积层、第一上采样层、第一注意力模块、第二卷积层、第二上采样层、第二注意力模块、第三卷积层、第三上采样层、第三注意力模块、第四卷积层、第四上采样层、第四注意力模块、全局接受阈模块以及第五卷积层；

所述第一卷积层、第一上采样层以及第一注意力模块依次连接；

所述第二卷积层、第二上采样层以及第二注意力模块依次连接；

所述第三卷积层、第三上采样层以及第三注意力模块依次连接；

所述第四卷积层、第四上采样层以及第四注意力模块依次连接；

所述第一注意力模块、第二注意力模块、第三注意力模块以及第四注意力模块均与所述全局接受阈模块连接；

所述全局接受阈模块还与所述第五卷积层连接。

可选的，所述第一卷积层的卷积核大小为1，输入通道数为512，输出网络层数为128，膨胀系数为1，填充数为0，后接LRelu激活函数；

所述第二卷积层的卷积核大小为3，输入通道数为512，输出网络层数为128，膨胀系数为2，填充数为2，后接LRelu激活函数；

所述第三卷积层的卷积核大小为3，输入通道数为512，输出网络层数为128，膨胀系数为3，填充数为3，后接LRelu激活函数；

所述第四卷积层的卷积核大小为3，输入通道数为512，输出网络层数为128，膨胀系数为6，填充数为6，后接LRelu激活函数。

第二方面，基于本发明中的上述方法，本发明另外提供一种人群行为属性的计数系统，所述计数系统包括：

第一图像获取模块，用于获取复杂人群图像；

计数神经网络主干构建模块，用于构建多尺度特征融合注意力机制的人群行为属性的计数神经网络主干；

训练模块，用于基于所述复杂人群图像对所述多尺度特征融合注意力机制的人群行为属性的计数神经网络主干进行训练；

第二图像获取模块，用于获取待计数的复杂人群图像；

预测模块，用于将所述待计数的复杂人群图像输入至训练好的计数神经网络，得到计数结果。

第三方面，本发明还提供一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述述的人群行为属性的计数方法。

第四方面，本发明另外提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述的人群行为属性的计数方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明的上述方法改进了经典卷积神经网络的结构，通过多尺度特征融合注意力机制模块代替了简单的卷积网络层，使用Adam优化器对神经网络的初始权值阈值进行优化，加快了网络的收敛速度，贴近网络最优参数，增强了网络对不同特征的提取；

另外，本发明在VGG16的前10层提取特征基础上，通过多尺度特征融合注意力机制，进一步强化了不同区域的特征信息，提高网络对密集人群的注意力，克服了密集区域内特征提取细致的问题，并通过语义分割分支进一步细化密度预测最终得到不同行为人群的人数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明人群行为属性的计数方法流程图；

图2为本发明计数神经网络主干示意图；

图3为本发明人群行为属性的计数系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明人群行为属性的计数方法流程图，如图1所示，本发明中的方法包括：

S1：获取复杂人群图像。

具体包括以下步骤：

S1.1：从网络上获取计算机视觉领域的多个公开数据集。

S1.2：对每个数据集分别进行整理归类并随机抽取所需数量的图片作为训练集，剩下的作为测试集。

S1.3：将训练集图片进行翻转，剪裁和镜像以扩充数据集。

S1.4：将整理完的数据集进行二值化，数据增强，归一化的预处理并消除图像中的无关信息。

S2：构建多尺度特征融合注意力机制的人群行为属性的计数神经网络主干。

其中，该计数神经网络主干主要包括：

具体的，本发明中选用VGG16的前10层作为特征提取层，卷积核大小为3。

具体的，多分支特征提取模块包括：

第一卷积层、第一上采样层以及第一注意力模块依次连接；

第二卷积层、第二上采样层以及第二注意力模块依次连接；

第三卷积层、第三上采样层以及第三注意力模块依次连接；

第四卷积层、第四上采样层以及第四注意力模块依次连接；

第一注意力模块、第二注意力模块、第三注意力模块以及第四注意力模块均与所述全局接受阈模块连接；

所述全局接受阈模块还与所述第五卷积层连接。

其中，所述第一卷积层的卷积核大小为1，输入通道数为512，输出网络层数为128，膨胀系数为1，填充数为0，后接LRelu激活函数，最近邻插值上采样，上采样倍数为原数图像2倍。

所述第二卷积层的卷积核大小为3，输入通道数为512，输出网络层数为128，膨胀系数为2，填充数为2，后接LRelu激活函数，最近邻插值上采样，上采样倍数为原数图像2倍。

所述第三卷积层的卷积核大小为3，输入通道数为512，输出网络层数为128，膨胀系数为3，填充数为3，后接LRelu激活函数，最近邻插值上采样，上采样倍数为原数图像2倍。

所述第四卷积层的卷积核大小为3，输入通道数为512，输出网络层数为128，膨胀系数为6，填充数为6，后接LRelu激活函数，最近邻插值上采样，上采样倍数为原数图像2倍。

最后连接以上模块后通过卷积核大小为1的卷积，即第五卷积层，后连接LRelu函数输出预测密度图。

具体的，强化注意力模块AT，将上述四分支特征分别通过一个GlobalAveragePooling，输出的1×1×C数据，再经过两级全连接，最后用Sigmoid函数将结果约束在[0，1]的范围，把这个值作为scale，乘到输入图片第一个全连接的C个通道上，作为下一级的输入数据。这种结构的原理是想通过控制scale的大小，把重要的特征增强，不重要的特征减弱，从而让提取的特征指向性更强。第一个全连接把C个通道压缩成了C/r个通道，从而降低了计算量，压缩比r设为16，然后使用LRelu函数提高计算速度，加快网络训练。第二个全连接再恢复回C个通道，然后使用Sigmoid函数将结果约束在[0，1]范围内。

具体的，全局接受域模块GRF，首先将输入特征分别通过一个最大池化层Maxpool(卷积核大小为3，步长为2)和一个平均池化层Avgpool(卷积核大小为3，步长为2)，后将两模块的输出特征进行拼接并通过Sigmoid函数将结果约束在[0，1]的范围。这样具有全局接受域信息的分支应用于其他4个多尺度分支，以辅助多尺度特征学习。

在此，通过此方式为每个特征图增加一个权重参数，从而提高精度。

具体的，细化图分割模块由预测密度图分支所生成的整体密度图与U-Net网络语义分割后的图片进行拼接生成。然后将细化分割图输入到OpenPose网络模块中。

本发明中语义分割分支提取U-Net前10层，每个卷积层后都加上LRelu激活函数卷积核大小设为5每层通道数为16。MaxPooling(kernel＝2)。

OpenPose网络模块，是一个公认的用于姿态识别的模块，OpenPose是基于卷积神经网络和监督学习并以caffe为框架写成的开源库，可以实现人的面部表情、躯干和四肢甚至手指的跟踪，不仅适用于单人也适用于多人，同时具有较好的鲁棒性。可以称是世界上第一个基于深度学习的实时多人二维姿态估计，是人机交互上的一个里程碑，为机器理解人提供了一个高质量的信息维度。

S3：基于所述复杂人群图像对所述多尺度特征融合注意力机制的人群行为属性的计数神经网络主干进行训练。

具体包括：

S3.1训练过程中用到的损失函数及参数设定：损失函数使用mse均方误差，使用Adam优化器，batchsize设为5，学习率0.00001，epoch设为3000。

S3.2：将经过高斯化处理后的图输入神经网络进行训练。

S3.4：加载训练出的网络参数，用测试集测试评价函数mae、mse大小，以估算神经网络的性能。

S4：获取待计数的复杂人群图像。

具体的，将人群图像处理为小于1024×1024像素，以得到处理后的图像。

S5：将所述待计数的复杂人群图像输入至训练好的计数神经网络，得到计数结果。

具体的，将处理后的图像，输入测试好的网络，得到预测人数y。

下面对具体的处理细节做详细介绍：

将待预测的图像，输入至VGG16，进行浅层的特征提取，将特征提取结果输入至四个分支，即第一卷积层、第二卷积层、第三卷积层以及第四卷积层，将第一卷积层、第二卷积层、第三卷积层以及第四卷积层的输出结果，依次输入至第一上采样层、第二上采样层、第三上采样层以及第四上采样，上采样的倍数为原图像的2倍，将第一上采样层、第二上采样层、第三上采样层以及第四上采样的输出依次输入到第一注意力模块、第二注意力模块、第三注意力模块以及第四注意力模块，后将第一注意力模块、第二注意力模块、第三注意力模块以及第四注意力模块的输出依次与全局接受阈模块相乘，再通过第五卷积层进行融合，得到整体密度图。

将待预测的图像输入至U-Net语义分割模块，得到分割后的图片。

将整体密度图和分割后的图片进行拼接，得到细化分割图。

将细化分割图输入至OpenPose网络模块进行姿态估计，得到最后的语义分割图。

由预测密度图模块的输出与最后的语义分割图模块的输出进行拼接生成最后的细化密度图，由语义分割图中元素与细化密度图中元素逐个相乘得到最后的人群行为属性密度图。

图3为本发明人群行为属性的计数系统结构示意图，如图3所示，本发明中的系统包括：

第一图像获取模块201，用于获取复杂人群图像；

计数神经网络主干构建模块202，用于构建多尺度特征融合注意力机制的人群行为属性的计数神经网络主干；

训练模块203，用于基于所述复杂人群图像对所述多尺度特征融合注意力机制的人群行为属性的计数神经网络主干进行训练；

第二图像获取模块204，用于获取待计数的复杂人群图像；

预测模块205，用于将所述待计数的复杂人群图像输入至训练好的计数神经网络，得到计数结果。

另外本发明还提供一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述述的人群行为属性的计数方法。

本发明另外提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述的人群行为属性的计数方法。

综上所述，本发明可用于对不同人群潜在的不同行为统计其人数。

本发明改进了经典卷积神经网络的结构，通过特征提取模块自定义注意力模块代替了简单的卷积网络层，使用Adam优化器对神经网络的初始权值阈值进行优化，加快了网络的收敛速度，贴近网络最优参数，增强了网络对不同特征的提取。

本发明在VGG16的前10层提取特征基础上，通过多尺度特征融合注意力模块，进一步强化了不同区域的特征信息，提高网络对密集人群的注意力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人群行为属性的计数方法，其特征在于，所述计数方法包括：

获取复杂人群图像；

获取待计数的复杂人群图像；

2.根据权利要求1所述的人群行为属性的计数方法，其特征在于，所述方法在步骤“获取复杂人群图像”和步骤“构建多尺度特征融合注意力机制的人群行为属性的计数神经网络主干”之间还包括：对所述复杂人群图像进行预处理。

3.根据权利要求2所述的人群行为属性的计数方法，其特征在于，对所述复杂人群图像进行预处理具体包括以下步骤：

将训练集图片进行翻转、剪裁、镜像以扩充数据集；

4.根据权利要求1所述的人群行为属性的计数方法，其特征在于，所述多尺度特征融合注意力机制的人群行为属性的计数神经网络主干具体包括：

5.根据权利要求4所述的人群行为属性的计数方法，其特征在于，所述多分支特征提取模块包括：

所述全局接受阈模块还与所述第五卷积层连接。

6.根据权利要求5所述的人群行为属性的计数方法，其特征在于，所述第一卷积层的卷积核大小为1，输入通道数为512，输出网络层数为128，膨胀系数为1，填充数为0，后接LRelu激活函数；

7.根据权利要求1所述的人群行为属性的计数方法，其特征在于，对所述多尺度特征融合注意力机制的人群行为属性的计数神经网络主干进行训练时，损失函数使用mse均方误差，使用Adam优化器，batchsize设为5，学习率0.00001，epoch设为3000。

8.一种人群行为属性的计数系统，其特征在于，所述计数系统包括：

第一图像获取模块，用于获取复杂人群图像；

第二图像获取模块，用于获取待计数的复杂人群图像；

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1-7中任一项所述的人群行为属性的计数方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的人群行为属性的计数方法。