CN117876963A

CN117876963A - 人群密度检测方法、装置、设备及存储介质

Info

Publication number: CN117876963A
Application number: CN202410039470.2A
Authority: CN
Inventors: 韩亚敏; 冯冠中; 吕彬彬
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-04-12

Abstract

本申请公开了一种人群密度检测方法、装置、设备及存储介质，涉及图像处理技术领域，用于提高对人群密度进行检测的准确度，包括：实时采集目标区域的目标图像，目标图像包括多个人体图像；将目标图像输入至预先训练得到的人群密度检测模型中，确定目标区域的人群密度，人群密度检测模型包括目标模块，目标模块包括：多层感知机MLP、窗口多头自注意力层W‑MSA、滑动窗口多头自注意力层SW‑MSA和卷积层CONV，卷积层CONV用于提取目标图像中包括的人体特征。本申请应用于对人群密度进行检测的场景中。

Description

人群密度检测方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种人群密度检测方法、装置、设备及存储介质。

背景技术

随着人群密度检测技术在城市交通管理、公共安全监控、活动场所管理等领域的广泛应用，人群密度检测技术也不断发展。目前的人群密度检测技术是通过监控摄像头或其他视觉传感器收集图像或视频数据，再通过对图像中像素级的人体或人脸区域进行检测来估计人群的数量，得到实时的人群密度，从而实时了解人群的分布情况，并及时采取必要措施来管理和调控人群流动。

但是，在拥挤或复杂的场景中，由于采集到的图像中的人体之间存在重叠、相互遮挡的情况，或者，在光线条件较差或摄像机视角较差的情况下，不能将人体与周围环境特征进行区分，从而对图像中人体进行检测和计数不准确。因此，对人群密度进行检测的准确度较低。

发明内容

本申请提供一种人群密度检测方法、装置、设备及存储介质，用于提高对人群密度进行检测的准确度。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供了一种人群密度检测方法，该方法包括：实时采集目标区域的目标图像，目标图像包括多个人体图像；将目标图像输入至预先训练得到的人群密度检测模型中，确定目标区域的人群密度，人群密度检测模型包括目标模块，目标模块包括：多层感知机MLP、窗口多头自注意力层W-MSA、滑动窗口多头自注意力层SW-MSA和卷积层CONV，卷积层CONV用于提取目标图像中包括的人体特征。

在一种可能的实现方式中，方法还包括：获取多张训练图像，多张训练图像中的每张训练图像中包括至少一个人体图像；对每张训练图像中的人体图像进行标注处理，得到多张标注图像，标注处理为在每张训练图像中框选出人脸图像区域；分别将多张标注图像中的每张标注图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型，目标模块为对预设模块进行训练得到的。

在一种可能的实现方式中，分别将多张标注图像中的每张标注图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型，包括：分别将多张标注图像中的每张标注图像分割为多张子图像；分别将多张标注图像中的每张标注图像对应的多张子图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型。

在一种可能的实现方式中，分别将多张标注图像中的每张标注图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型，包括：针对多张标注图像中的任一张标注图像，将任一张标注图对应的多张子图像输入至预设模块中的卷积层CONV，得到每张标注图像对应的特征数据；通过预设模块中的窗口多头自注意力层W-MSA消除多张子图像中的每张子图像中包括的人体图像对应的特征数据中的异常数据；通过预设模块中的滑动窗口多头自注意力层SW-MSA确定多张子图像中的每张子图像之间的关联度；基于每张标注图像对应的消除异常数据后的特征数据，对预设模型进行训练，得到人群密度检测模型。

在一种可能的实现方式中，将目标图像输入至预先训练得到的人群密度检测模型中，确定目标区域的人群密度，包括：将目标图像输入至预先训练得到的人群密度检测模型中，通过目标模块对目标图像进行处理，得到目标处理结果，目标处理结果用于指示目标图像中包括的多个人体图像对应的特征数据；基于目标处理结果和预设算法，确定目标图像中包括的多个人体图像的数量；基于目标图像中包括的多个人体图像的数量确定目标区域的人群密度。

第二方面，提供了一种人群密度检测装置，该人群密度检测装置包括：获取单元和处理单元；获取单元，用于实时采集目标区域的目标图像，目标图像包括多个人体图像；处理单元，用于将目标图像输入至预先训练得到的人群密度检测模型中，确定目标区域的人群密度，人群密度检测模型包括目标模块，目标模块包括：多层感知机MLP、窗口多头自注意力层W-MSA、滑动窗口多头自注意力层SW-MSA和卷积层CONV，卷积层CONV用于提取目标图像中包括的人体特征。

在一种可能的实现方式中，获取单元，还用于获取多张训练图像，多张训练图像中的每张训练图像中包括至少一个人体图像；处理单元，还用于对每张训练图像中的人体图像进行标注处理，得到多张标注图像，标注处理为在每张训练图像中框选出人脸图像区域；处理单元，还用于分别将多张标注图像中的每张标注图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型，目标模块为对预设模块进行训练得到的。

在一种可能的实现方式中，处理单元，具体用于分别将多张标注图像中的每张标注图像分割为多张子图像；处理单元，具体用于分别将多张标注图像中的每张标注图像对应的多张子图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型。

在一种可能的实现方式中，处理单元，具体用于针对多张标注图像中的任一张标注图像，将任一张标注图对应的多张子图像输入至预设模块中的卷积层CONV，得到每张标注图像对应的特征数据；处理单元，具体用于通过预设模块中的窗口多头自注意力层W-MSA消除多张子图像中的每张子图像中包括的人体图像对应的特征数据中的异常数据；处理单元，具体用于通过预设模块中的滑动窗口多头自注意力层SW-MSA确定多张子图像中的每张子图像之间的关联度；处理单元，具体用于基于每张标注图像对应的消除异常数据后的特征数据，对预设模型进行训练，得到人群密度检测模型。

在一种可能的实现方式中，处理单元，具体用于将目标图像输入至预先训练得到的人群密度检测模型中，通过目标模块对目标图像进行处理，得到目标处理结果，目标处理结果用于指示目标图像中包括的多个人体图像对应的特征数据；处理单元，具体用于基于目标处理结果和预设算法，确定目标图像中包括的多个人体图像的数量；处理单元，具体用于基于目标图像中包括的多个人体图像的数量确定目标区域的人群密度。

第三方面，一种电子设备，包括：处理器以及存储器；其中，存储器用于存储一个或多个程序，一个或多个程序包括计算机执行指令，当电子设备运行时，处理器执行存储器存储的计算机执行指令，以使电子设备执行如第一方面的一种人群密度检测方法。

第四方面，提供了一种存储一个或多个程序的计算机可读存储介质，该一个或多个程序包括指令，上述指令当被计算机执行时使计算机执行如第一方面的一种人群密度检测方法。

本申请提供了一种人群密度检测方法、装置、设备及存储介质，应用于对人群密度进行检测的场景中。首先在目标区域中实时采集包括多个人体图像的目标图像，并将目标图像输入至包括多层感知机MLP、窗口多头自注意力层W-MSA、滑动窗口多头自注意力层SW-MSA和卷积层CONV的预先训练得到的人群密度检测模型中，从而得到目标区域的人群密度。通过上述方法，可以根据从目标区域中实时采集的图像，基于预先训练得到的人群密度检测模型，通过卷积层CONV将图像中包括的人体特征进行有效地提取，从而准确的确定该区域的人群密度，可以有效提高对人群密度进行检测的效率和准确度。

附图说明

图1为本申请的实施例提供的一种人群密度检测系统结构示意图；

图2为本申请的实施例提供的一种人群密度检测方法流程示意图一；

图3为本申请的实施例提供的一种人群密度检测方法流程示意图二；

图4为本申请的实施例提供的一种人群密度检测方法流程示意图三；

图5为本申请的实施例提供的一种预设模型的结构示意图；

图6为本申请的实施例提供的一种人群密度检测方法流程示意图四；

图7为本申请的实施例提供的一种预设模块的结构示意图；

图8为本申请的实施例提供的一种人群密度检测方法流程示意图五；

图9为本申请的实施例提供的一种人群密度检测装置结构示意图；

图10为本申请的实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在本申请的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

人群密度检测技术是一种利用计算机视觉和图像处理技术对人群密度进行定量分析的方法。它可以通过监控摄像头或其他视觉传感器来收集的图像数据或视频数据，从而实时对人群密度进行测量，得到有关人群分布和拥堵程度的信息。但是，现有人群密度检测技术也存在如下缺点和挑战：

(1)在拥挤或复杂的场景中(例如在拥挤的街道、交通枢纽或活动场所)，人体之间的重叠和相互遮挡可能会导致人体检测和计数不准确。

(2)光线条件和摄像机视角可能会对人群密度检测的准确性产生影响。在低光照条件下或者在不同角度观察人群的情况下，可能会产生图像噪声和误差，降低人群密度检测算法的性能。

(3)实时人群密度检测对于许多应用非常关键，例如城市交通管理或交通事件响应。然而，高精度的实时检测需要较高的计算资源，因此，需要强大的硬件设备和高效的算法实现，使得对智能设备的性能和功耗的要求较高，使用时对电子设备具有局限性。

(4)现有的人群密度检测技术主要关注人体检测和数量估计，而忽略了个体属性和行为的详细信息。对于一些具有特定需求的场景，例如人脸识别、行为分析等，可能需要额外的技术和方法，使用时对技术方案的拓展性较差。

本申请实施例提供的一种人群密度检测方法，可以适用于人群密度检测系统。图1示出了该人群密度检测系统的一种结构示意图。如图1所示，人群密度检测系统20包括：电子设备21和感知设备22。

感知设备22用于采集目标区域的图像，具体可以为摄像头、智能监控、带有摄像头的智能门锁等。

电子设备21可以将感知设备22采集到的目标图像输入至预先训练得到的人群密度检测模型中，确定目标区域的人群密度。

下面结合附图对本申请实施例提供的一种人群密度检测方法进行描述。如图2所示，本申请实施例提供的一种人群密度检测方法，包括S201-S202：

S201、实时采集目标区域的目标图像。

其中，目标图像包括多个人体图像。

可选的，可以从安装在道路或公共场所等地区的摄像头中获取目标图像，也可以从安装有摄像头的智能门锁、智能监控、智能报警的电子设备中获取目标区域的目标图像。

可选的，目标图像可以是图片，也可以是视频。

S202、将目标图像输入至预先训练得到的人群密度检测模型中，确定目标区域的人群密度。

其中，人群密度检测模型包括目标模块，目标模块包括：多层感知机MLP、窗口多头自注意力层W-MSA、滑动窗口多头自注意力层SW-MSA和卷积层CONV，卷积层CONV用于提取目标图像中包括的人体特征。

可选的，人群密度检测模型包括的目标模块可以是基于Swin Transformer神经网络模型进行改进训练得到的，通过使用卷积层CONV可以有效提高对人体特征的识别的效果，使得人群密度检测模型确定的人体数量更加准确，并通过使用稀疏自注意力机制进行自注意力计算，提高人群密度检测模型的计算效率，使得人群密度检测模型确定的人体数量更加高效。

可选的，使用目标模块对目标图像进行检测，相较于使用卷积神经网络(Convolutional Neural Networks，CNN)，目标模块可以充分利用图像中上下文信息，获取目标图像的全局特征，对于人体特征的检测更为精确。

可选的，由于人群密度检测模型所占内存较小，运算量较低，对设备的计算能力和存储能力的要求不高，因此，可以轻松的部署在很多感知设备中，降低了实际应用中的经济成本。

可选的，根据得到的目标区域的人群密度，相关部门可以实时了解人群的分布情况，从而可以及时采取必要的措施来管理和调控人群流动，提高人员安全和管理效率。

本申请实施例中，首先在目标区域中实时采集包括多个人体图像的目标图像，并将目标图像输入至包括多层感知机MLP、窗口多头自注意力层W-MSA、滑动窗口多头自注意力层SW-MSA和卷积层CONV的预先训练得到的人群密度检测模型中，从而得到目标区域的人群密度。通过上述方法，可以根据从目标区域中实时采集的图像，基于预先训练得到的人群密度检测模型，通过卷积层CONV将图像中包括的人体特征进行有效地提取，从而准确的确定该区域的人群密度，可以有效提高对人群密度进行检测的效率和准确度。

在一种设计中，如图3所示，本申请实施例提供的一种人群密度检测方法，上述方法具体还可以包括步骤S301-S303：

S301、获取多张训练图像。

其中，多张训练图像中的每张训练图像中包括至少一个人体图像。

可选的，可以通过计算机编程语言(python)进行网络爬虫(又称为网页蜘蛛、网络机器人)，获取多张多样性的人群图像，也可以从摄像头录制的视频中获取多张训练图像。

可选的，根据网络爬虫得到的人群图像，需要进行筛选和清洗，从而将模糊的、不包括人体的图像进行删除，得到清晰的、包含人体的图像作为多张训练图像。

需要说明的是，由于多张训练图像的质量直接影响预设模型中的预设模块训练的准确率，因此，需要从不同高度、不同人种、不同年龄阶段等多个方面获取多张训练图像，保证模型对不同人体的检测的准确度。

示例性的，可以获取包括不同肤色、不同年龄阶段等多样人体特征的训练图像，并且训练图像包含拍摄的各个高度，从而在使用过程中，可以从任一角度对图像中的人体进行识别，保证人群检测的准确。

S302、对每张训练图像中的人体图像进行标注处理，得到多张标注图像。

其中，标注处理为在每张训练图像中框选出人脸图像区域。

可选的，可以使用图像标注工具(例如LabelImg、Labelme或Labelbox等)进行标注处理，得到多张标注图像。

示例性的，可以通过LabelImg图像标注工具，将每张训练图像中的人脸图像区域进行框选，并将该区域标注为“人脸”类别，从而得到多张标注图像，并生成可扩展标记语言格式(xml)的文件，xml文件包含标注区域的类别、标注区域的坐标等信息。并且，可以将多张标注图像存放在数据库中，为后续预设模型训练提供数据。

需要说明的是，在多张训练图像中可能会出现人体重叠的图像，因此，在对每张训练图像进行标注处理时，必须仔细对人体图像区域进行框选并标注，保证输入模型的图像数据的准确。

S303、分别将多张标注图像中的每张标注图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型。

其中，目标模块为对预设模块进行训练得到的。

可选的，可以将多张标注图像裁剪成固定大小像素的三通道图像，从而为后续输入至预设模型中进行训练提供标准的训练数据。

可选的，可以将多张标注图像分为训练集和验证集，通过训练集对模型进行训练，并通过验证集对模型的训练效率进行验证，从而进一步调节超参数。

示例性的，可以将多张标注图像裁剪成大小为416×416像素的三通道图像，并将多张标注图像按80％和20％的比例划分为训练集和验证集，在训练过程中，以固定数量的多张标注图像为一批(例如一批64张标注图像)，训练固定次数(例如训练轮次为100)，并设置固定参数的学习率(例如学习率learning rate为0.00261)进行训练处理。

具体的，可以将多张标注图像中的每张标注图像进行分割，得到多张子图像，从而将每张标注图像对应的多张子图像输入至预设模型中，训练得到每张标注图像对应的多张子图像中每张子图像的特征，以及每张子图像之间的关联度和特征，从而得到人群密度检测模型。

本申请实施例中，通过获取多张训练图像，进而对每张训练图像进行标注，得到多张标注图像，并且，多张标注图像中的每张标注图像包括了标注类型和标注区域的位置坐标。进一步使用多张标注图像对预设模型进行训练，得到人群密度检测模型，从而可以对目标图像进行判断，确定目标区域的人群密度。

在一种设计中，如图4所示，本申请实施例提供的一种人群密度检测方法，上述步骤S303中的方法，具体可以包括步骤S401-S402：

S401、分别将多张标注图像中的每张标注图像分割为多张子图像。

可以理解，通过将多张标注图像中的每张标注图像进行分割，可以高效的对大尺寸的图像进行特征提取，提高图像特征的提取效率。

可以理解，对多张标注图像中的每张标注图像进行分割后，每张标注图像的最小单位从像素转换为子图像，从而对子图像进行特征提取。

S402、分别将多张标注图像中的每张标注图像对应的多张子图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型。

示例性的，如图5所示，为预设模型的结构示意图。将多张标注图像中的每张标注图像输入至特征分块层(Patch Partition)中，按4×4的像素大小进行分割处理，每张标注图像可以分割为多张子图像(可称为patch)，则每个patch展平后的特征维度为48(4×4×3)，每张标注图像是H/4×W/4的矩阵。

进一步，将多张标注图像中的每张标注图像对应的多个patch输入至预设模型中，首先输入至线性嵌入层(Linear Embedding)，将patch映射到任意维度C；然后，再经过预设模块进行两次特征处理。此时，通道的数量保持为H/4×W/4，输出维度为C。

进一步，输入至下采样层(Patch Merging)，将2×2的每一组patch的特征拼接起来，并在拼接特征上连接一个线性层，从而实现降采样，缩小分辨率，调整通道数进而形成层次化；再经过预设模块进行两次特征处理。此时，通道的数量减少了4倍，转化为H/8×W/8，输出维度则转化为2C。

进一步，输入至下采样层，再将2×2的每一组patch的特征拼接起来，减少通道数量，同时也降低特征维度；再经过预设模块进行六次特征处理。此时，通道的数量减少了8倍，变为H/16×W/16，输出维度则变为4C。

进一步，输入至下采样层，再将2×2的每一组patch的特征拼接起来，减少通道数量，同时也降低特征维度；再经过预设模块进行两次特征处理，将特征转换到更深层，输出最终特征。此时，通道的数量减少了16倍，变为H/32×W/32，输出维度则变为8C。

本申请实施例中，通过将多张标注图像中的每张标注图像进行分割，可以有效提高人群密度检测模型的训练效率和训练准确度，进一步对每张标注图像进行训练，可以得到人群密度检测模型，用于准确、高效地确定目标区域的人群密度。

在一种设计中，如图6所示，本申请实施例提供的一种人群密度检测方法中，上述步骤S402中的方法，具体可以包括步骤S501-S504：

S501、针对多张标注图像中的任一张标注图像，将任一张标注图对应的多张子图像输入至预设模块中的卷积层CONV，得到每张标注图像对应的特征数据。

具体的，预设模块包括：多层感知机(Multilayer Perceptron，MLP)、窗口多头自注意力层(Window Multi-head Self-Attention，W-MSA)、滑动窗口多头自注意力层(Shifted Window based Multi-head Self-Attention，SW-MSA)和卷积层(ConvolutionalLayer，CONV)。

示例性的，如图7所示，为两个连续的预设模块的结构示意图。预设模块是将线性嵌入层或下采样层的每个patch首先输入至卷积层提取特征值，再输入至W-MSA层进行特征的学习，计算残差，再次提取特征值，输入至MLP层，最后再进行一次残差运算，得到输出特征。而SW-MSA层和W-MSA层类似，区别在于SW-MSA层在计算特征是需要进行滑动窗口的操作。

S502、通过预设模块中的窗口多头自注意力层W-MSA消除多张子图像中的每张子图像中包括的人体图像对应的特征数据中的异常数据。

具体的，通过使用W-MSA层代替全局自注意力，可以高效建模。以不重叠的方式均匀地划分图像得到各个窗口，然后再在每个窗口内部进行单独的自注意力机制的计算。可以减少计算量，但是窗口之间的像素无法进行通信，导致感受视野变小。

具体的，可以将每张子图像中不包括的人体图像的异常数据进行消除，不在计算，进一步提高模型的计算效率。

S503、通过预设模块中的滑动窗口多头自注意力层SW-MSA确定多张子图像中的每张子图像之间的关联度。

可以理解，再通过使用SW-MSA层，弥补W-MSA层中窗口与窗口间无法进行信息交互的缺陷，同时也保证了和W-MSA层一样的计算复杂度。

具体的，将使用过W-MSA层多张子图像中的每张子图像的窗口重新分割，然后每个窗口中完成自注意力机制计算，新的窗口(SW-MSA层的窗口)中有些仍然是老的窗口(W-MSA层的窗口)的一部分，并且，有些新的窗口还含有老的多个窗口的信息，也就是完成了窗口间的信息的交互，从而确定多张子图像中的每张子图像之间的关联度。

示例性的，W-MSA层和SW-MSA层中自注意力机制的计算可以使用稀疏自注意力机制，计算公式如下公式一所示：

其中，Q为查询(query)，K为关键字(key)，V为值(value)，d为查询维数，M_k(E)运算表示按行顺序的从上至下选择k个元素。

需要说明的是，传统的自注意力机制可能会将无关图像元素和相关图像元素混合在一起，特别是在训练开始时，相关图像元素之间的相似性并不明显大于无关图像元素之间的相似性，因此，可能会导致模型在初期训练时表现不佳，并且可能会误将其他类似人脸的环境信息检测为人脸。而使用稀疏自注意力机制，只考虑了前k个最相似的元素，最大程度的消除了无关元素的影响，提高了模型的收敛程度，对局部图像的感知更为敏感，对人脸的小目标识别检测精度更高，训练和预测速度更快。

S504、基于每张标注图像对应的消除异常数据后的特征数据，对预设模型进行训练，得到人群密度检测模型。

具体的，根据预设模块得到的特征数据，在预设模型中进行逐步训练，可以得到准确且高效的人群密度检测模型。

本申请实施例中，通过使用CONV层来提取图像人体特征，和使用稀疏自注意力机制进行特征计算，得到的人群密度检测模型提高了对人体特征的识别，以及对人群密度检测的准确度。

在一种设计中，如图8所示，本申请实施例提供的一种人群密度检测方法中，上述步骤S202中的方法，具体可以包括步骤S601-S603：

S601、将目标图像输入至预先训练得到的人群密度检测模型中，通过目标模块对目标图像进行处理，得到目标处理结果。

其中，目标处理结果用于指示目标图像中包括的多个人体图像对应的特征数据。

具体的，由于人群密度检测模型中的目标模块已经完成训练，因此，可以对输入的目标图像中的多个人体图像进行高效识别，得到目标处理结果。

S602、基于目标处理结果和预设算法，确定目标图像中包括的多个人体图像的数量。

可选的，预设算法可以为使用开源的python机器学习库(pytorch)下的深度学习计算机视觉工具箱(mmcv库)和目标检测开源框架(MMDetection框架)编写的人脸识别训练代码。

具体的，根据目标图像的目标处理结果，以及预设算法，可以确定在目标图像中的多个人体图像的数量，从而计算目标区域的人群密度。

S603、基于目标图像中包括的多个人体图像的数量确定目标区域的人群密度。

具体的，可以根据目标图像中包括的多个人体图像的数量，以及目标区域的范围大小，确定出目标区域的人群密度。

本申请实施例中，通过使用预先训练得到的人群密度检测模型对目标图像中包括的多个人体图像进行识别，从而得到人群数量，进一步确定目标区域的人群密度，提高了对人群密度检测的效率。

本申请提供了一种人群密度检测方法，首先在目标区域中实时采集包括多个人体图像的目标图像，并将目标图像输入至包括多层感知机MLP、窗口多头自注意力层W-MSA、滑动窗口多头自注意力层SW-MSA和卷积层CONV的预先训练得到的人群密度检测模型中，从而得到目标区域的人群密度。通过上述方法，可以根据从目标区域中实时采集的图像，基于预先训练得到的人群密度检测模型，通过卷积层CONV将图像中包括的人体特征进行有效地提取，从而准确的确定该区域的人群密度，可以有效提高对人群密度进行检测的效率和准确度。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对一种人群密度检测装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。可选的，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图9为本申请实施例提供的一种人群密度检测装置的结构示意图。如图9所示，一种人群密度检测装置90用于提高对人群密度进行检测的准确度，例如用于执行图2所示的一种人群密度检测方法。该人群密度检测装置90包括：获取单元901和处理单元902；

获取单元901，用于实时采集目标区域的目标图像，目标图像包括多个人体图像；

处理单元902，用于将目标图像输入至预先训练得到的人群密度检测模型中，确定目标区域的人群密度，人群密度检测模型包括目标模块，目标模块包括：多层感知机MLP、窗口多头自注意力层W-MSA、滑动窗口多头自注意力层SW-MSA和卷积层CONV，卷积层CONV用于提取目标图像中包括的人体特征。

在一种可能的实现方式中，在本申请实施例提供的一种人群密度检测装置90中，获取单元901，还用于获取多张训练图像，多张训练图像中的每张训练图像中包括至少一个人体图像；

处理单元902，还用于对每张训练图像中的人体图像进行标注处理，得到多张标注图像，标注处理为在每张训练图像中框选出人脸图像区域；

处理单元902，还用于分别将多张标注图像中的每张标注图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型，目标模块为对预设模块进行训练得到的。

在一种可能的实现方式中，在本申请实施例提供的一种人群密度检测装置90中，处理单元902，具体用于分别将多张标注图像中的每张标注图像分割为多张子图像；

处理单元902，具体用于分别将多张标注图像中的每张标注图像对应的多张子图像输入至预设模型中，对预设模型中的预设模块进行训练，得到人群密度检测模型。

在一种可能的实现方式中，在本申请实施例提供的一种人群密度检测装置90中，处理单元902，具体用于针对多张标注图像中的任一张标注图像，将任一张标注图对应的多张子图像输入至预设模块中的卷积层CONV，得到每张标注图像对应的特征数据；

处理单元902，具体用于通过预设模块中的窗口多头自注意力层W-MSA消除多张子图像中的每张子图像中包括的人体图像对应的特征数据中的异常数据；

处理单元902，具体用于通过预设模块中的滑动窗口多头自注意力层SW-MSA确定多张子图像中的每张子图像之间的关联度；

处理单元902，具体用于基于每张标注图像对应的消除异常数据后的特征数据，对预设模型进行训练，得到人群密度检测模型。

在一种可能的实现方式中，在本申请实施例提供的一种人群密度检测装置90中，处理单元902，具体用于将目标图像输入至预先训练得到的人群密度检测模型中，通过目标模块对目标图像进行处理，得到目标处理结果，目标处理结果用于指示目标图像中包括的多个人体图像对应的特征数据；

处理单元902，具体用于基于目标处理结果和预设算法，确定目标图像中包括的多个人体图像的数量；

处理单元902，具体用于基于目标图像中包括的多个人体图像的数量确定目标区域的人群密度。

在采用硬件的形式实现上述集成的模块的功能的情况下，本申请实施例提供了上述实施例中所涉及的电子设备的另外一种可能的结构示意图。如图10所示，一种电子设备100，用于提高对人群密度进行检测的准确度，例如用于执行图2所示的一种人群密度检测方法。该电子设备100包括处理器1001，存储器1002以及总线1003。处理器1001与存储器1002之间可以通过总线1003连接。

处理器1001是通信装置的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器1001可以是一个通用中央处理单元(central processing unit，CPU)，也可以是其他通用处理器等。其中，通用处理器可以是微处理器或者是任何常规的处理器等。

作为一种实施例，处理器1001可以包括一个或多个CPU，例如图10中所示的CPU 0和CPU 1。

存储器1002可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

作为一种可能的实现方式，存储器1002可以独立于处理器1001存在，存储器1002可以通过总线1003与处理器1001相连接，用于存储指令或者程序代码。处理器1001调用并执行存储器1002中存储的指令或程序代码时，能够实现本申请实施例提供的一种人群密度检测方法。

另一种可能的实现方式中，存储器1002也可以和处理器1001集成在一起。

总线1003，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外围设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要指出的是，图10示出的结构并不构成对该电子设备100的限定。除图10所示部件之外，该电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

作为一个示例，结合图9，电子设备中的获取单元901和处理单元902实现的功能与图10中的处理器1001的功能相同。

可选的，如图10所示，本申请实施例提供的电子设备100还可以包括通信接口1004。

通信接口1004，用于与其他设备通过通信网络连接。该通信网络可以是以太网，无线接入网，无线局域网(wireless local area networks，WLAN)等。通信接口1004可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。

在一种设计中，本申请实施例提供的电子设备中，通信接口还可以集成在处理器中。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元的划分进行举例说明。在实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将装置的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当计算机执行该指令时，该计算机执行上述方法实施例所示的方法流程中的各个步骤。

本申请的实施例提供一种包含指令的计算机程序产品，当指令在计算机上运行时，使得计算机执行上述方法实施例中的一种人群密度检测方法。

其中，计算机可读存储介质，例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘。随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的人以合适的组合、或者本领域数值的任何其他形式的计算机可读存储介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit，ASIC)中。

在本申请实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

由于本申请的实施例中的电子设备、计算机可读存储介质、计算机程序产品可以应用于上述方法，因此，其所能获得的技术效果也可参考上述方法实施例，本申请实施例在此不再赘述。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种人群密度检测方法，其特征在于，所述方法包括：

实时采集目标区域的目标图像，所述目标图像包括多个人体图像；

将所述目标图像输入至预先训练得到的人群密度检测模型中，确定所述目标区域的人群密度，所述人群密度检测模型包括目标模块，所述目标模块包括：多层感知机MLP、窗口多头自注意力层W-MSA、滑动窗口多头自注意力层SW-MSA和卷积层CONV，所述卷积层CONV用于提取所述目标图像中包括的人体特征。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多张训练图像，所述多张训练图像中的每张训练图像中包括至少一个人体图像；

对每张训练图像中的人体图像进行标注处理，得到多张标注图像，所述标注处理为在每张训练图像中框选出人脸图像区域；

分别将所述多张标注图像中的每张标注图像输入至预设模型中，对所述预设模型中的预设模块进行训练，得到所述人群密度检测模型，所述目标模块为对所述预设模块进行训练得到的。

3.根据权利要求2所述的方法，其特征在于，所述分别将所述多张标注图像中的每张标注图像输入至预设模型中，对所述预设模型中的预设模块进行训练，得到所述人群密度检测模型，包括：

分别将所述多张标注图像中的每张标注图像分割为多张子图像；

分别将所述多张标注图像中的每张标注图像对应的多张子图像输入至所述预设模型中，对所述预设模型中的预设模块进行训练，得到所述人群密度检测模型。

4.根据权利要求3所述的方法，其特征在于，所述分别将所述多张标注图像中的每张标注图像输入至预设模型中，对所述预设模型中的预设模块进行训练，得到所述人群密度检测模型，包括：

针对所述多张标注图像中的任一张标注图像，将所述任一张标注图对应的多张子图像输入至所述预设模块中的所述卷积层CONV，得到每张标注图像对应的特征数据；

通过所述预设模块中的窗口多头自注意力层W-MSA消除所述多张子图像中的每张子图像中包括的人体图像对应的特征数据中的异常数据；

通过所述预设模块中的滑动窗口多头自注意力层SW-MSA确定所述多张子图像中的每张子图像之间的关联度；

基于每张标注图像对应的消除异常数据后的特征数据，对所述预设模型进行训练，得到所述人群密度检测模型。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述将所述目标图像输入至预先训练得到的人群密度检测模型中，确定所述目标区域的人群密度，包括：

将所述目标图像输入至所述预先训练得到的人群密度检测模型中，通过所述目标模块对所述目标图像进行处理，得到目标处理结果，所述目标处理结果用于指示所述目标图像中包括的多个人体图像对应的特征数据；

基于所述目标处理结果和预设算法，确定所述目标图像中包括的多个人体图像的数量；

基于所述目标图像中包括的多个人体图像的数量确定所述目标区域的人群密度。

6.一种人群密度检测装置，其特征在于，所述人群密度检测装置包括：获取单元和处理单元；

所述获取单元，用于实时采集目标区域的目标图像，所述目标图像包括多个人体图像；

所述处理单元，用于将所述目标图像输入至预先训练得到的人群密度检测模型中，确定所述目标区域的人群密度，所述人群密度检测模型包括目标模块，所述目标模块包括：多层感知机MLP、窗口多头自注意力层W-MSA、滑动窗口多头自注意力层SW-MSA和卷积层CONV，所述卷积层CONV用于提取所述目标图像中包括的人体特征。

7.根据权利要求6所述的人群密度检测装置，其特征在于，所述获取单元，还用于获取多张训练图像，所述多张训练图像中的每张训练图像中包括至少一个人体图像；

所述处理单元，还用于对每张训练图像中的人体图像进行标注处理，得到多张标注图像，所述标注处理为在每张训练图像中框选出人脸图像区域；

所述处理单元，还用于分别将所述多张标注图像中的每张标注图像输入至预设模型中，对所述预设模型中的预设模块进行训练，得到所述人群密度检测模型，所述目标模块为对所述预设模块进行训练得到的。

8.根据权利要求7所述的人群密度检测装置，其特征在于，所述处理单元，具体用于分别将所述多张标注图像中的每张标注图像分割为多张子图像；

所述处理单元，具体用于分别将所述多张标注图像中的每张标注图像对应的多张子图像输入至所述预设模型中，对所述预设模型中的预设模块进行训练，得到所述人群密度检测模型。

9.根据权利要求8所述的人群密度检测装置，其特征在于，所述处理单元，具体用于针对所述多张标注图像中的任一张标注图像，将所述任一张标注图对应的多张子图像输入至所述预设模块中的所述卷积层CONV，得到每张标注图像对应的特征数据；

所述处理单元，具体用于通过所述预设模块中的窗口多头自注意力层W-MSA消除所述多张子图像中的每张子图像中包括的人体图像对应的特征数据中的异常数据；

所述处理单元，具体用于通过所述预设模块中的滑动窗口多头自注意力层SW-MSA确定所述多张子图像中的每张子图像之间的关联度；

所述处理单元，具体用于基于每张标注图像对应的消除异常数据后的特征数据，对所述预设模型进行训练，得到所述人群密度检测模型。

10.根据权利要求6-9中任一项所述的人群密度检测装置，其特征在于，所述处理单元，具体用于将所述目标图像输入至所述预先训练得到的人群密度检测模型中，通过所述目标模块对所述目标图像进行处理，得到目标处理结果，所述目标处理结果用于指示所述目标图像中包括的多个人体图像对应的特征数据；

所述处理单元，具体用于基于所述目标处理结果和预设算法，确定所述目标图像中包括的多个人体图像的数量；

所述处理单元，具体用于基于所述目标图像中包括的多个人体图像的数量确定所述目标区域的人群密度。

11.一种电子设备，其特征在于，包括：处理器以及存储器；其中，所述存储器用于存储一个或多个程序，所述一个或多个程序包括计算机执行指令，当所述电子设备运行时，处理器执行所述存储器存储的所述计算机执行指令，以使所述电子设备执行权利要求1-5中任一项所述的一种人群密度检测方法。

12.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当被计算机执行时使所述计算机执行如权利要求1-5中任一项所述的一种人群密度检测方法。