CN117037077B

CN117037077B - 基于图像处理的人群计数方法、装置、介质、设备及产品

Info

Publication number: CN117037077B
Application number: CN202311294790.4A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Chengdu Shuzhi Innovation Lean Technology Co ltd
Current assignee: Chengdu Shuzhi Innovation Lean Technology Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-12-08
Anticipated expiration: 2043-10-09
Also published as: CN117037077A

Abstract

本申请的实施例公开了基于图像处理的人群计数方法、装置、介质、设备及产品，涉及机器视觉技术领域，包括：将原始图像上的遮挡区域进行分割，获得分割图像；将分割图像输入预测模型，获得密度图像；根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像；根据目标密度图像，获得原始图像上的人群数量。本申请通过对图像上的遮挡区域进行分割，去除掉遮挡物的干扰，预测得到人群密度信息，由于预测模型基于多尺度注意力网络获得，使其能够准确捕捉图像上背景噪音的位置并进行消除，降低尺度变化带来的影响，最后通过对遮挡区域进行补全，得到完整的密度图像，据此可以获得更为准确的人群数量。

Description

基于图像处理的人群计数方法、装置、介质、设备及产品

技术领域

本申请涉及机器视觉技术领域，具体涉及一种基于图像处理的人群计数方法、装置、介质、设备及产品。

背景技术

人群计数是指利用计算机视觉技术估计图像或视频中的人数，可应用于如景区的安全防控、商场的人群定位并辅助产品投放等诸多的场景中，然而基于图像的识别预测受拍摄装置的影响，会使得人物信息在图像中呈现尺度变化，场景中存在的遮挡物在拍摄于图像上后则可能进一步放大这种影响，导致图像上人物信息被遮挡，进而影响对人群计数的准确性。

发明内容

本申请的主要目的在于提供一种基于图像处理的人群计数方法、装置、介质、设备及产品，旨在解决现有技术中受场景中遮挡物的影响，致使基于图像处理的人群计数的准确性偏低的问题。

为实现上述目的，本申请的实施例采用的技术方案如下：

第一方面，本申请实施例提供一种基于图像处理的人群计数方法，包括以下步骤：

将原始图像上的遮挡区域进行分割，获得分割图像；其中，分割图像为原始图像上除遮挡区域以外的图像；

将分割图像输入预测模型，获得密度图像；其中，预测模型基于多尺度注意力网络获得；

根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像；

其中，根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像之前，基于图像处理的人群计数方法还包括：

将密度图像上遮挡区域的边缘轮廓按照目标像素单位进行外扩，获得外扩后的边缘轮廓与原边缘轮廓之间的区域作为参考区域；

将密度图像上遮挡区域的边缘轮廓按照目标像素单位进行外扩，获得外扩后的边缘轮廓与原边缘轮廓之间的区域作为参考区域之前，基于图像处理的人群计数方法还包括：

根据遮挡区域的尺寸和遮挡区域相对目标边缘的距离，获得目标像素单位；其中，目标边缘为原始图像的视场方向上最靠近拍摄位置的边缘；

根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像，包括：

根据密度图像上参考区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像；

根据目标密度图像，获得原始图像上的人群数量。

首先通过对图像上的遮挡区域进行分割，去除掉遮挡物的干扰，然后在分割图像基础上通过预测模型进行预测，得到人群密度信息，由于预测模型基于多尺度注意力网络获得，使其能够准确捕捉图像上背景噪音的位置并进行消除，降低尺度变化带来的影响，生成质量较高的密度图像，由于被遮挡区域的人物信息也连同遮挡区域一同被分割，因此通过已经预测得到的密度图像上这部分区域以外的人群密度信息来对其进行补全，得到完整的密度图像，据此可以获得更为准确的人群数量。

在第一方面的一种可能实现方式中，根据遮挡区域的尺寸和遮挡区域相对目标边缘的距离，获得目标像素单位，包括：

根据遮挡区域的尺寸，获得外扩的像素单位；

根据遮挡区域相对目标边缘的距离，确定调整系数；

根据外扩的像素单位和调整系数，获得目标像素单位。

遮挡区域的尺寸较大，那么目标像素单位就需要设置越大，然后为了匹配视场方向尺度的变化，需要引入一个相对距离，也就是遮挡区域相对目标边缘的距离，遮挡区域距离目标边缘越远，其尺寸所占像素越少，那么需要设置的像素单位就越小；前述两种变化均为线性变化，因此在确定目标像素单位，也即需要外扩的尺寸时，只需要通过遮挡区域相对目标边缘的距离，确定一个调整系数来对外扩的像素单位进行调整。

在第一方面的一种可能实现方式中，根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像之前，基于图像处理的人群计数方法还包括：

获得密度图像上遮挡区域的最小外接矩；

将最小外接矩进行矩阵划分，获得若干矩形子框；

根据矩形子框被遮挡区域的覆盖情况，将矩形子框划分为全覆盖子框和非全覆盖子框。

提供另一种基于线框划分的分步补全的实施方式，这种方式适用于遮挡区域尺寸偏大，以参考区域获得的平均值来作为整个遮挡区域的人群密度信息会导致偏差较大，因此采用分步的方式，按照计算机中常用的矩形框标注，对遮挡区域做最小外接矩，然后将外接矩再划分为多个矩形子框，类似于田字格形式，由内到外进行划分，最小外接矩的尺寸一定是大于遮挡区域的，遮挡区域的边缘区域可能会与矩形子框出现部分覆盖的情况，因此将其划分为全覆盖子框与非全覆盖子框。

在第一方面的一种可能实现方式中，根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像，包括：

根据密度图像上遮挡区域以外区域的人群密度信息，由最小外接矩的边框向内，对非全覆盖子框和全覆盖子框内的遮挡区域的人群密度信息进行补全，获得目标密度图像。

由于边缘部分由于其不规则的形态，可能会出现全覆盖子框和非全覆盖子框，但其中以非全覆盖子框为主，并且非全覆盖子框也只会出现在边缘区域，因此可以考虑由外向内的分步补全方式。

在第一方面的一种可能实现方式中，根据密度图像上遮挡区域以外区域的人群密度信息，由最小外接矩的边框向内，对非全覆盖子框和全覆盖子框内的遮挡区域的人群密度信息进行补全，获得目标密度图像，包括：

根据非全覆盖子框内遮挡区域以外区域的人群密度信息，对非全覆盖子框内的遮挡区域的人群密度进行补全，获得第一密度图像；

由最小外接矩的边框向内，根据第一密度图像的人群密度信息，对全覆盖子框内的遮挡区域的人群密度信息进行补全，获得第二密度图像；

根据第一密度图像和第二密度图像，获得目标密度图像。

由最小外接矩的边框向内，分步进行补全的思路为，首先将非全覆盖子框所覆盖的遮挡区域进行补全，由于该种子框内一部分区域上具有人群密度信息，可以以此作为该子框整个的人群密度信息，对该非全覆盖子框进行补全，补全获得第一密度图像。在将这部分补全后，区域内就只剩下靠近中间部位的全覆盖区域，然后就可以以第一密度图像，对其靠近的全覆盖子框逐步向内补全，得到第二密度图像，然后结合第一密度图像与第二密度图像，可得到完整的密度图像，即目标密度图像。

在第一方面的一种可能实现方式中，将原始图像上的遮挡区域进行分割，获得分割图像之前，基于图像处理的人群计数方法还包括：

将原始图像输入查找模型，获得原始图像上的遮挡区域；其中，查找模型基于若干样本图像训练获得，样本图像上标注遮挡区域。

为了更快速准确地获得定位遮挡区域并完成分割，将原始图像输入查找模型，通过对样本图像上的遮挡区域进行标注，在有监督训练下使得查找模型学习到对遮挡区域的标注识别能力。查找模型通过基于模板匹配、轮廓查找等方式实现对遮挡区域的获取，并通过标注手段使得遮挡区域与其他区域有更明显的区别，以便于进行分割。

在第一方面的一种可能实现方式中，多尺度注意力网络包括特征提取模块、注意力模块、多尺度模块以及特征重用模块，其中：

特征提取模块用于对原始图像进行特征提取，获得第一原始图像；

注意力模块用于定位并消除第一原始图像上的背景噪音，获得第二原始图像；

多尺度模块用于根据原始图像上人群的尺度特征，获得第三原始图像，并根据第二原始图像与第三原始图像，生成第四原始图像；

特征重用模块用于重用第四原始图像上的特征信息，生成密度图像。

提出一种基于多尺度注意力网络构建的预测模型，来解决复杂背景干扰以及尺度变化带来的计数不准确问题。多尺度注意力网络主要包含四个部分：第一部分为特征提取模块（Backbone），对图像进行基本特征的提取，如边缘、纹理等，提取后获得第一原始图像。第二部分为注意力模块（Spatial-Channel Model, SCM），该部分可由四个相同的注意力块构成，主要用于定位并消除背景噪音，处理后的图像为第二原始图像。第三部分为多尺度模块（Multi-Scale Architecture, MSA），用于捕获人群中不同尺度的特征，得到第三原始图像，根据第二原始图像与第三原始图像，从而实现尺度信息的传递，辅助捕获多尺度特征。第四部分为特征重用模块（Feature Re-use Model, FRM），用于重用特征，生成高质量密度图。

在第一方面的一种可能实现方式中，特征提取模块包括若干主卷积层，每一主卷积层包含若干次卷积层，次卷积层的卷积核小于主卷积层的卷积核。

基础的特征提取模块可采用经典卷积神经网络VGG16，后辅以3层空洞卷积模块，可在不降低分辨率的前提下扩大感受野。一方面可以减少参数，另一方面相当于进行了更多的非线性映射，可以增加网络的表达能力。

在第一方面的一种可能实现方式中，注意力模块用于定位并消除第一原始图像上的背景噪音，获得第二原始图像，包括：

注意力模块用于定位第一原始图像上的背景噪音，获得第五原始图像；

对第五原始图像上人群所在区域的权重进行增大，以消除背景噪音，获得第二原始图像。

SCM是一种注意力模块，它不仅可以对特征图之间通道级别的关系进行编码，还可以在空间维度上捕获精准的位置关系。在实施例中，用于定位并区分背景噪音，得到第五原始图像，在第五原始图像基础上通过加大人群区域的权重，从而突出人群，弱化背景，以达到消除背景噪音的目的。

在第一方面的一种可能实现方式中，特征重用模块包括若干卷积核，卷积核用于依次重用第四原始图像上的特征信息，生成密度图像。

在特征图经Backbone的特征提取网络和注意力网络后，会进入到多尺度结构MSA中，为了捕获人群中的尺度变化，采取了不同大小的卷积核获取不同大小的尺度特征。MSA中可包含由4个不同大小卷积核组成的分支，通过将其生成的特征图与注意力网络SCM生成的特征图相乘，从而达到捕获多尺度特征且抑制背景噪音的目的。同时，将较小卷积核生成的特征图送入到下一个分支中，连接后再与第二块注意力模块生成的特征图相乘，从而帮助尺度信息的传递，辅助捕获多尺度特征。FRM会通过4层相同大小的卷积核，进一步加强之前网络生成的特征图包含的信息，从而生成更高质量的密度图，得到精准的人群数量。

第二方面，本申请实施例提供一种基于图像处理的人群计数装置，包括：

分割模块，分割模块用于将原始图像上的遮挡区域进行分割，获得分割图像；其中，分割图像为原始图像上除遮挡区域以外的图像；

预测模块，预测模块用于将分割图像输入预测模型，获得密度图像；其中，预测模型基于多尺度注意力网络获得；

补全模块，补全模块用于根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像；

获得模块，获得模块用于根据目标密度图像，获得原始图像上的人群数量。

第三方面，本申请实施例提供一种计算机可读存储介质，储存有计算机程序，计算机程序被处理器加载执行时，实现如上述第一方面中任一项提供的基于图像处理的人群计数方法。

第四方面，本申请实施例提供一种电子设备，包括处理器及存储器，其中，

存储器用于存储计算机程序；

处理器用于加载执行计算机程序，以使电子设备执行如上述第一方面中任一项提供的基于图像处理的人群计数方法。

与现有技术相比，本申请的有益效果是：

本申请实施例提出的一种基于图像处理的人群计数方法、装置、介质、设备及产品，该方法包括：将原始图像上的遮挡区域进行分割，获得分割图像；将分割图像输入预测模型，获得密度图像；其中，预测模型基于多尺度注意力网络获得；根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像；根据目标密度图像，获得原始图像上的人群数量。本申请首先通过对图像上的遮挡区域进行分割，去除掉遮挡物的干扰，然后在分割图像基础上通过预测模型进行预测，得到人群密度信息，由于预测模型基于多尺度注意力网络获得，使其能够准确捕捉图像上背景噪音的位置并进行消除，降低尺度变化带来的影响，生成质量较高的密度图像，由于被遮挡区域的人物信息也连同遮挡区域一同被分割，因此通过已经预测得到的密度图像上这部分区域以外的人群密度信息来对其进行补全，得到完整的密度图像，据此可以获得更为准确的人群数量。

附图说明

图1为本申请实施例涉及的硬件运行环境的电子设备结构示意图；

图2为本申请实施例提供的基于图像处理的人群计数方法的流程示意图；

图3为本申请实施例提供的基于图像处理的人群计数方法中一种原始图像的示意图；

图4为本申请实施例提供的基于图像处理的人群计数方法中一种分割图像的示意图；

图5为本申请实施例提供的基于图像处理的人群计数方法中一种密度图像的示意图；

图6为本申请实施例提供的基于图像处理的人群计数方法中一种目标密度图像的示意图；

图7为本申请实施例提供的基于图像处理的人群计数方法中VGG16的网络组成示意图；

图8为本申请实施例提供的基于图像处理的人群计数方法中人群计数系统的可视化操作界面的示意图；

图9为本申请实施例提供的基于图像处理的人群计数方法中人群计数系统的可视化操作界面在应用时的示意图；

图10为本申请实施例提供的基于图像处理的人群计数装置的模块示意图；

图中标记：101-处理器，102-通信总线，103-网络接口，104-用户接口，105-存储器。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例的主要解决方案是：将原始图像上的遮挡区域进行分割，获得分割图像；将分割图像输入预测模型，获得密度图像；其中，预测模型基于多尺度注意力网络获得；根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像；根据目标密度图像，获得原始图像上的人群数量。

人群计数是指利用计算机视觉技术估计图像或视频中的人数，可应用于如景区的安全防控、商场的人群定位并辅助产品投放等诸多的场景中。近年来，基于深度学习的人群计数由于速度快、精度高等特点得到广泛的研究与应用，然而现实场景中背景复杂且人群尺度变化，给人群计数带来了极大挑战，影响计数准确率。

基于图像的识别预测还受拍摄装置的影响，会使得人物信息在图像中呈现尺度变化，场景中存在的遮挡物在拍摄于图像上后则可能进一步放大这种影响，导致图像上人物信息被遮挡，进而影响对人群计数的准确性。在现实生活场景中背景多变复杂，摄像头位置固定拍摄时，由于离摄像头距离位置不一，导致人头大小在图片中呈现尺度变化的现象。通常来说，距离摄像头越远，人的头部在图片中所占的像素比越小，比如附图3所示的原始图像中，近处的遮挡物如伞，会对远处的人物造成比实际更多的遮挡。

目前大多方法采用了不同的解决方案用于解决由于背景复杂及尺度变化导致的计数不准问题，这是从图像本质去提升计数准确，但是却忽略了遮挡物的存在会直接遮盖人物信息，从背景与尺度如何优化也不能弥补这部分信息缺失带来的计数问题。

为此，本申请提供一种解决方案，本申请首先通过对图像上的遮挡区域进行分割，去除掉遮挡物的干扰，然后在分割图像基础上通过预测模型进行预测，得到人群密度信息，由于预测模型基于多尺度注意力网络获得，使其能够准确捕捉图像上背景噪音的位置并进行消除，降低尺度变化带来的影响，生成质量较高的密度图像，由于被遮挡区域的人物信息也连同遮挡区域一同被分割，因此通过已经预测得到的密度图像上这部分区域以外的人群密度信息来对其进行补全，得到完整的密度图像，据此可以获得更为准确的人群数量。

参照附图1，附图1为本申请实施例方案涉及的硬件运行环境的电子设备结构示意图，该电子设备可以包括：处理器101，例如中央处理器（Central Processing Unit，CPU），通信总线102、用户接口104，网络接口103，存储器105。其中，通信总线102用于实现这些组件之间的连接通信。用户接口104可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口104还可以包括标准的有线接口、无线接口。网络接口103可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器105可选的可以是独立于前述处理器101的存储装置，存储器105可能是高速的随机存取存储器（Random Access Memory，RAM）存储器，也可能是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器；处理器101可以是通用处理器，包括中央处理器、网络处理器等，还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本领域技术人员可以理解，附图1中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如附图1所示，作为一种存储介质的存储器105中可以包括操作系统、网络通信模块、用户接口模块以及基于图像处理的人群计数装置。

在附图1所示的电子设备中，网络接口103主要用于与网络服务器进行数据通信；用户接口104主要用于与用户进行数据交互；本申请中的处理器101、存储器105可以设置在电子设备中，电子设备通过处理器101调用存储器105中存储的基于图像处理的人群计数装置，并执行本申请实施例提供的基于图像处理的人群计数方法。

参照附图2，基于前述实施例的硬件设备，本申请的实施例提供一种基于图像处理的人群计数方法，包括以下步骤：

S10：将原始图像上的遮挡区域进行分割，获得分割图像。

在具体实施过程中，原始图像待预测人群数量的图像，可以是拍摄装置实时拍摄的图像，也可以是拍摄存储的历史图像。遮挡区域为图像上的除任务以外的物体所处的区域，比如附图3所示的原始图像上的遮阳伞、旗帜所在的区域即为遮挡区域，以其中一个需要处理的遮挡区域为例，分割得到的分割图像如附图4所示。对于遮挡区域的分割，也即沿着遮挡区域轮廓进行裁剪，将遮挡区域部分从原始图像上分割开，分割后原遮挡区域的部分保留背板颜色或者做灰度化处理。

在一种实施例中，将原始图像上的遮挡区域进行分割，获得分割图像之前，基于图像处理的人群计数方法还包括：

在具体实施过程中，为了更快速准确地获得定位遮挡区域并完成分割，将原始图像输入查找模型，通过对样本图像上的遮挡区域进行标注，在有监督训练下使得查找模型学习到对遮挡区域的标注识别能力。查找模型通过基于模板匹配、轮廓查找等方式实现对遮挡区域的获取，并通过标注手段使得遮挡区域与其他区域有更明显的区别，以便于进行分割。

S20：将分割图像输入预测模型，获得密度图像；其中，预测模型基于多尺度注意力网络获得。

在具体实施过程中，预测模型为提前训练的用于进行人群预测的深度学习模型，利用目标检测方法能够实现多目标检测，通过统计某类的数量即可达到计数的目的，但是在高密度、高重叠场景下，检测方法检测效果不如人意。因此利用密度图作为中间表征去监督深度学习模型的学习，最终对密度图求和即为总人数。基于附图4的分割图像生成的密度图像如附图5所示，图像上不同的色彩区域表示了不同的人群密度。密度图像的生成可以采用坐标形式，采用冲击函数将所有人像的头部中心标注像素坐标，而后以图像长宽方向构建坐标系进行像素坐标的统计，以高斯函数生成密度图像。

同时本实施例中提出一种基于多尺度注意力网络构建的预测模型，来解决复杂背景干扰以及尺度变化带来的计数不准确问题。其中，多尺度注意力网络可包括特征提取模块、注意力模块、多尺度模块以及特征重用模块，其中：

在具体实施过程中，多尺度注意力网络的网络结构中，主要包含四个部分：第一部分为特征提取模块（Backbone），对图像进行基本特征的提取，如边缘、纹理等，提取后获得第一原始图像。第二部分为注意力模块（Spatial-Channel Model, SCM），该部分可由四个相同的注意力块构成，主要用于定位并消除背景噪音，处理后的图像为第二原始图像。第三部分为多尺度模块（Multi-Scale Architecture, MSA），用于捕获人群中不同尺度的特征，得到第三原始图像，根据第二原始图像与第三原始图像，从而实现尺度信息的传递，辅助捕获多尺度特征。第四部分为特征重用模块（Feature Re-use Model, FRM），用于重用特征，生成高质量密度图。

具体的，特征提取模块包括若干主卷积层，每一主卷积层包含若干次卷积层，次卷积层的卷积核小于主卷积层的卷积核。

在具体实施过程中，基础的特征提取模块可采用经典卷积神经网络VGG16，如附图7所示，后辅以3层空洞卷积模块，可在不降低分辨率的前提下扩大感受野，其网络组成如下表所示，其中，Conv3，64，1 （2）代表卷积核大小为3*3，卷积核个数为64，步长为1（卷积层个数为2，一个卷积层代表Conv3, 64, 1 ）。采用多个较小卷积核（3*3）的卷积层来代替一个卷积核较大的卷积层，即多个次卷积层替换主卷积层，一方面可以减少参数，另一方面相当于进行了更多的非线性映射，可以增加网络的表达能力。

在一种实施例中，注意力模块用于定位并消除第一原始图像上的背景噪音，获得第二原始图像，包括：

在具体实施过程中，SCM是一种注意力模块，它不仅可以对特征图之间通道级别的关系进行编码，还可以在空间维度上捕获精准的位置关系。在实施例中，用于定位并区分背景噪音，得到第五原始图像，在第五原始图像基础上通过加大人群区域的权重，从而突出人群，弱化背景，以达到消除背景噪音的目的，得到第二原始图像。SCM的网络结构中，先通过池化层对水平和垂直方向进行压缩，从而得到包含上下文信息及精准位置关系的特征图；其次将二者在通道上进行拼接，从而获得包含完整信息的特征图，之后将其进行压缩并分割，从而降低计算量并通过水平和垂直方向定位感兴趣区域。

在一种实施例中，特征重用模块包括若干卷积核，卷积核用于依次重用第四原始图像上的特征信息，生成密度图像。

在具体实施过程中，在特征图经Backbone的特征提取网络和注意力网络后，会进入到多尺度结构MSA中，为了捕获人群中的尺度变化，采取了不同大小的卷积核获取不同大小的尺度特征。MSA中可包含由4个不同大小卷积核组成的分支，通过将其生成的特征图与注意力网络SCM生成的特征图相乘，从而达到捕获多尺度特征且抑制背景噪音的目的。同时，将较小卷积核生成的特征图送入到下一个分支中，连接后再与第二块注意力模块生成的特征图相乘，从而帮助尺度信息的传递，辅助捕获多尺度特征。FRM会通过4层相同大小的卷积核，进一步加强之前网络生成的特征图包含的信息，从而生成更高质量的密度图，得到精准的人群数量。

S30：根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像。

在具体实施过程中，由于遮挡区域被分割后使得原始图像这部分缺失，从而密度图像上这部分区域也不会有人群信息，因此为了获得完整的密度图进行计数，通过遮挡区域以外区域所包含的人群密度信息进行补全，补全后的密度图像如附图6所示，也即目标密度图像。

在一种实施例中，根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像之前，基于图像处理的人群计数方法还包括：

根据遮挡区域的尺寸和遮挡区域相对目标边缘的距离，获得目标像素单位；其中，目标边缘为原始图像的视场方向上最靠近拍摄位置的边缘。

在具体实施过程中，提供一种基于像素单位的补全方式，基本思路为以遮挡区域周边的区域的人群密度信息作为依据，为了保证补全信息的可靠，需要保证用于参考的部分相对遮挡区域的可靠性，因此需要提前确定外扩的尺寸。具体来说，根据遮挡区域的尺寸和遮挡区域相对目标边缘的距离，获得目标像素单位，包括：

根据遮挡区域的尺寸，获得外扩的像素单位；

根据遮挡区域相对目标边缘的距离，确定调整系数；

根据外扩的像素单位和调整系数，获得目标像素单位。

在具体实施过程中，遮挡区域的尺寸较大，那么目标像素单位就需要设置越大，然后为了匹配视场方向尺度的变化，需要引入一个相对距离，也就是遮挡区域相对目标边缘的距离，遮挡区域距离目标边缘越远，其尺寸所占像素越少，那么需要设置的像素单位就越小；前述两种变化均为线性变化，因此在确定目标像素单位，也即需要外扩的尺寸时，只需要通过遮挡区域相对目标边缘的距离，确定一个调整系数来对外扩的像素单位进行调整。在其他实施例中，可以分别根据遮挡区域的尺寸、遮挡区域相对目标边缘的距离确定出一个外扩的像素单位，然后按照二者的权重设置权重占比系数进行求和得到最终的目标像素单位。

将密度图像上遮挡区域的边缘轮廓按照目标像素单位进行外扩，获得外扩后的边缘轮廓与原边缘轮廓之间的区域作为参考区域。

在具体实施过程中，按照确定的外扩的像素单位，对遮挡区域的边缘轮廓进行外扩，变相的可认为遮挡区域被按照某一比例进行放大了，比如遮挡区域为一个圆形区域，那么外扩之后就形成了一个同样圆心但是尺寸更大的圆形区域。外扩之后的区域相比原有的遮挡区域扩展了一部分，扩展的该部分即参考区域，其上具有密度图像上的人群密度信息，因此可基于该部分上的人群密度信息对遮挡区域进行补全，由于参考区域是环绕遮挡区域的，因此是涵盖了周边人群密度的变化趋势，而位于其中间的遮挡区域以参考区域的平均值即可以准确表达其上的人群密度信息。

基于前述步骤，根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像，包括：

根据密度图像上参考区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像。

获得密度图像上遮挡区域的最小外接矩；

将最小外接矩进行矩阵划分，获得若干矩形子框；

在具体实施过程中，提供另一种基于线框划分的分步补全的实施方式，这种方式适用于遮挡区域尺寸偏大，以参考区域获得的平均值来作为整个遮挡区域的人群密度信息会导致偏差较大，因此采用分步的方式，按照计算机中常用的矩形框标注，对遮挡区域做最小外接矩，然后将外接矩再划分为多个矩形子框，类似于田字格形式，由内到外进行划分，最小外接矩的尺寸一定是大于遮挡区域的，遮挡区域的边缘区域可能会与矩形子框出现部分覆盖的情况，因此将其划分为全覆盖子框与非全覆盖子框。

基于前述内容，由于边缘部分由于其不规则的形态，可能会出现全覆盖子框和非全覆盖子框，但其中以非全覆盖子框为主，并且非全覆盖子框也只会出现在边缘区域，因此可以考虑由外向内的分步补全方式，即：根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像，包括：

更为具体的，根据密度图像上遮挡区域以外区域的人群密度信息，由最小外接矩的边框向内，对非全覆盖子框和全覆盖子框内的遮挡区域的人群密度信息进行补全，获得目标密度图像，包括：

根据第一密度图像和第二密度图像，获得目标密度图像。

在具体实施过程中，由最小外接矩的边框向内，分步进行补全的思路为，首先将非全覆盖子框所覆盖的遮挡区域进行补全，由于该种子框内一部分区域上具有人群密度信息，可以以此作为该子框整个的人群密度信息，对该非全覆盖子框进行补全，补全获得第一密度图像。在将这部分补全后，区域内就只剩下靠近中间部位的全覆盖区域，然后就可以以第一密度图像，对其靠近的全覆盖子框逐步向内补全，得到第二密度图像，然后结合第一密度图像与第二密度图像，可得到完整的密度图像，即目标密度图像。当然，划分的子框中还会有部分是完全未被遮挡区域覆盖的，这部分可在补全中作为其他需要补全区域的基础，比如对全覆盖子框补全时，若其相邻位置有完全未被遮挡区域覆盖的区域，那么这部分也要参与补全。对全覆盖区域的补全思路为，获取其相邻的子框，然后将相邻自框中有密度信息的子框求平均来表征目标子框。

S40：根据目标密度图像，获得原始图像上的人群数量。

在具体实施过程中，得到补全后的密度图像如附图6所示，图像上不同的密度用不同的色彩深度表达，根据密度图所包含的人群密度信息即可以完成对原始图像的人群计数。在如附图8所示的人群计数系统的可视化操作界面中，左侧框为用户上传的原始图像，后台检测到原始图像之后，电子设备执行本申请的方法完成人数预测，然后在操作界面的右侧框内显示对应的出密度图像，以及在下方的功能栏显示预测的人数结果以及耗费的时间，如附图9所示。

本实施例中，首先通过对图像上的遮挡区域进行分割，去除掉遮挡物的干扰，然后在分割图像基础上通过预测模型进行预测，得到人群密度信息，由于预测模型基于多尺度注意力网络获得，使其能够准确捕捉图像上背景噪音的位置并进行消除，降低尺度变化带来的影响，生成质量较高的密度图像，由于被遮挡区域的人物信息也连同遮挡区域一同被分割，因此通过已经预测得到的密度图像上这部分区域以外的人群密度信息来对其进行补全，得到完整的密度图像，据此可以获得更为准确的人群数量。

参照附图10，基于与前述实施例中同样的发明构思，本申请实施例还提供一种基于图像处理的人群计数装置，该装置包括：

分割模块，分割模块用于将原始图像上的遮挡区域进行分割，获得分割图像；

本领域技术人员应当理解，实施例中的各个模块的划分仅仅是一种逻辑功能的划分，实际应用时可以全部或部分集成到一个或多个实际载体上，且这些模块可以全部以软件通过处理单元调用的形式实现，也可以全部以硬件的形式实现，或是以软件、硬件结合的形式实现，需要说明的是，本实施例中基于图像处理的人群计数装置中各模块是与前述实施例中的基于图像处理的人群计数方法中的各步骤一一对应，因此，本实施例的具体实施方式可参照前述基于图像处理的人群计数方法的实施方式，这里不再赘述。

基于与前述实施例中同样的发明构思，本申请的实施例还提供一种计算机可读存储介质，储存有计算机程序，计算机程序被处理器加载执行时，实现如本申请实施例提供的基于图像处理的人群计数方法。

基于与前述实施例中同样的发明构思，本申请的实施例还提供一种电子设备，包括处理器及存储器，其中，

存储器用于存储计算机程序；

处理器用于加载执行计算机程序，以使电子设备执行如本申请实施例提供的基于图像处理的人群计数方法。

基于与前述实施例中同样的发明构思，本申请的实施例还提供一种计算机程序产品，包括计算机程序，当计算机程序被执行时，用于执行如本申请实施例提供的基于图像处理的人群计数方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台多媒体终端设备（可以是手机，计算机，电视接收机，或者网络设备等）执行本申请各个实施例所述的方法。

综上，本申请提供的一种基于图像处理的人群计数方法、装置、介质、设备及产品，该方法包括：将原始图像上的遮挡区域进行分割，获得分割图像；将分割图像输入预测模型，获得密度图像；其中，预测模型基于多尺度注意力网络获得；根据密度图像上遮挡区域以外区域的人群密度信息，对遮挡区域的人群密度信息进行补全，获得目标密度图像；根据目标密度图像，获得原始图像上的人群数量。本申请首先通过对图像上的遮挡区域进行分割，去除掉遮挡物的干扰，然后在分割图像基础上通过预测模型进行预测，得到人群密度信息，由于预测模型基于多尺度注意力网络获得，使其能够准确捕捉图像上背景噪音的位置并进行消除，降低尺度变化带来的影响，生成质量较高的密度图像，由于被遮挡区域的人物信息也连同遮挡区域一同被分割，因此通过已经预测得到的密度图像上这部分区域以外的人群密度信息来对其进行补全，得到完整的密度图像，据此可以获得更为准确的人群数量。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于图像处理的人群计数方法，其特征在于，包括以下步骤：

将原始图像上的遮挡区域进行分割，获得分割图像；其中，所述分割图像为所述原始图像上除所述遮挡区域以外的图像；

将所述分割图像输入预测模型，获得密度图像；其中，所述预测模型基于多尺度注意力网络获得；

根据所述密度图像上所述遮挡区域以外区域的人群密度信息，对所述遮挡区域的人群密度信息进行补全，获得目标密度图像；

其中，所述根据所述密度图像上所述遮挡区域以外区域的人群密度信息，对所述遮挡区域的人群密度信息进行补全，获得目标密度图像之前，所述基于图像处理的人群计数方法还包括：

将所述密度图像上所述遮挡区域的边缘轮廓按照目标像素单位进行外扩，获得外扩后的边缘轮廓与原边缘轮廓之间的区域作为参考区域；

所述将所述密度图像上所述遮挡区域的边缘轮廓按照目标像素单位进行外扩，获得外扩后的边缘轮廓与原边缘轮廓之间的区域作为参考区域之前，所述基于图像处理的人群计数方法还包括：

根据所述遮挡区域的尺寸和所述遮挡区域相对目标边缘的距离，获得所述目标像素单位；其中，所述目标边缘为所述原始图像的视场方向上最靠近拍摄位置的边缘；

所述根据所述密度图像上所述遮挡区域以外区域的人群密度信息，对所述遮挡区域的人群密度信息进行补全，获得目标密度图像，包括：

根据所述密度图像上所述参考区域的人群密度信息，对所述遮挡区域的人群密度信息进行补全，获得目标密度图像；

根据所述目标密度图像，获得所述原始图像上的人群数量。

2.根据权利要求1所述的基于图像处理的人群计数方法，其特征在于，所述根据所述遮挡区域的尺寸和所述遮挡区域相对目标边缘的距离，获得所述目标像素单位，包括：

根据所述遮挡区域的尺寸，获得外扩的像素单位；

根据所述遮挡区域相对目标边缘的距离，确定调整系数；

根据所述外扩的像素单位和所述调整系数，获得目标像素单位。

3.根据权利要求1所述的基于图像处理的人群计数方法，其特征在于，所述将原始图像上的遮挡区域进行分割，获得分割图像之前，所述基于图像处理的人群计数方法还包括：

将所述原始图像输入查找模型，获得所述原始图像上的遮挡区域；其中，所述查找模型基于若干样本图像训练获得，所述样本图像上标注遮挡区域。

4.根据权利要求1所述的基于图像处理的人群计数方法，其特征在于，所述多尺度注意力网络包括特征提取模块、注意力模块、多尺度模块以及特征重用模块，其中：

所述特征提取模块用于对所述原始图像进行特征提取，获得第一原始图像；

所述注意力模块用于定位并消除所述第一原始图像上的背景噪音，获得第二原始图像；

所述多尺度模块用于根据所述原始图像上人群的尺度特征，获得第三原始图像，并根据所述第二原始图像与所述第三原始图像，生成第四原始图像；

所述特征重用模块用于重用所述第四原始图像上的特征信息，生成所述密度图像。

5.根据权利要求4所述的基于图像处理的人群计数方法，其特征在于，所述特征提取模块包括若干主卷积层，每一所述主卷积层包含若干次卷积层，所述次卷积层的卷积核小于所述主卷积层的卷积核。

6.根据权利要求4所述的基于图像处理的人群计数方法，其特征在于，所述注意力模块用于定位并消除所述第一原始图像上的背景噪音，获得第二原始图像，包括：

所述注意力模块用于定位所述第一原始图像上的背景噪音，获得第五原始图像；

对所述第五原始图像上人群所在区域的权重进行增大，以消除所述背景噪音，获得第二原始图像。

7.根据权利要求4所述的基于图像处理的人群计数方法，其特征在于，所述特征重用模块包括若干卷积核，所述卷积核用于依次重用所述第四原始图像上的特征信息，生成所述密度图像。

8.一种基于图像处理的人群计数装置，其特征在于，包括：

分割模块，所述分割模块用于将原始图像上的遮挡区域进行分割，获得分割图像；其中，所述分割图像为所述原始图像上除所述遮挡区域以外的图像；

预测模块，所述预测模块用于将所述分割图像输入预测模型，获得密度图像；其中，所述预测模型基于多尺度注意力网络获得；

补全模块，所述补全模块用于根据所述密度图像上所述遮挡区域以外区域的人群密度信息，对所述遮挡区域的人群密度信息进行补全，获得目标密度图像；

获得模块，所述获得模块用于根据所述目标密度图像，获得所述原始图像上的人群数量。

9.一种计算机可读存储介质，储存有计算机程序，其特征在于，所述计算机程序被处理器加载执行时，实现如权利要求1-7中任一项所述的基于图像处理的人群计数方法。

10.一种电子设备，其特征在于，包括处理器及存储器，其中，

所述存储器用于存储计算机程序；

所述处理器用于加载执行所述计算机程序，以使所述电子设备执行如权利要求1-7中任一项所述的基于图像处理的人群计数方法。