CN110991267A

CN110991267A - 基于图像或视频人群计数的密度图生成方法和装置

Info

Publication number: CN110991267A
Application number: CN201911108295.3A
Authority: CN
Inventors: 樊硕
Original assignee: Beijing Moviebook Technology Corp Ltd
Current assignee: Beijing Moviebook Technology Corp Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-04-10

Abstract

本申请公开了一种基于图像或视频人群计数的密度图生成方法和装置，涉及密度图领域。该方法包括：获取包括人群的图像或视频；使用Chan‑Vese分割算法在所述图像或视频的背景中计算出距离头部的最近点，分割出头部区域，将所述头部区域以外的所有区域确定为外部区域，并确定所述头部区域与外部区域的边界；采用二维高斯滤波器去除所述头部区域的噪声；根据去除噪声后的头部区域和所述外部区域进行人群密度估计，创建全局密度图。该装置包括：获取模块、分割模块、去噪模块和估计模块。本申请能够生成精度更高的地面实况人群密度图，能帮助人群计数模型获得更高的准确度和效率，并促进了视频人群计数领域的发展。

Description

基于图像或视频人群计数的密度图生成方法和装置

技术领域

本申请涉及密度图领域，特别是涉及一种基于图像或视频人群计数的密度图生成方法和装置。

背景技术

人类行为研究是一项重大课题，其中最热门的研究领域是对人群特征的处理和分析。近年来人群特征的分析由于其广泛的应用引起人们的关注和兴趣，例如安全监控，灾害管理，公共空间设计和情报收集，特别是在商场、机场等拥挤场景下的视频人群特征分析。对于人群规模，准确的知道其密度和流量可以为安全应用、活动规划、建筑设计和分析消费者的行为提供有价值的信息。

通常，人群计数和密度估计方法可以分为两类：基于检测的方法和基于回归的方法。基于检测的方法假设人群中的每个人都可以依据自己的特征而被单独检测和定位，该方法在稀疏人群中能够取得较好结果，但当人群出现显著遮挡时并不能有效的分析人群规模。基于回归的方法利用人群特征估计人群规模和密度，当人群拥挤时会出现大量的遮挡，这种情况下一般采用人体头部作为确定性特征。由于人体的严重遮挡、光照不足、摄影的视角和高度动态的环境变化，使得人群计数和密度估计面临巨大的挑战，另外人群计数数据集的质量参差不齐也增加了拥挤环境下人群计数的复杂性。

现有人群计数研究受到基准数据集数量和质量的影响，现有基准数据集不仅在数量上受到限制，而且在人群数量的注释方面也存在严重不足，将其进行应用时太过消耗时间，从而影响了人群计数模型的性能和效率。例如，现有的基准数据集UCF-CC-50和ShanghaiTech均仅提供人体头部质心的像素，而不是掩盖整个头部的像素集，这种情况下要使用静态二维高斯滤波器或者基于K近邻的动态二维高斯滤波器来完成地面实况头部掩模的再现，但是动态高斯方法没有结合图像内容并且将大量噪声结合到实际数据中，从而对模型的准确性产生负面影响。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于图像或视频人群计数的密度图生成方法，包括：

获取包括人群的图像或视频；

使用Chan-Vese分割算法在所述图像或视频的背景中计算出距离头部的最近点，分割出头部区域，将所述头部区域以外的所有区域确定为外部区域，并确定所述头部区域与外部区域的边界；

采用二维高斯滤波器去除所述头部区域的噪声；

根据去除噪声后的头部区域和所述外部区域进行人群密度估计，创建全局密度图。

可选地，使用Chan-Vese分割算法在所述图像或视频的背景中计算出距离头部的最近点，分割出头部区域，包括：

使用暴力最近邻搜索的方法对所述图像或视频进行迭代，从背景中分割出头部区域，其中，在所述迭代过程中最小化以下能量函数：

F(c₁,c₂,G)＝μ.Len(G)+v.Area(in(G))+λ_`1∫_in(G)|u0(x,y)-c₁|²dxdy+λ_`2∫_out(G)|u0(x,y)-c₂|²dxdy

其中，所述G表示手动设置为以标记头点为中心的5x5边界框的初始头部，所述Len(G)和Area(in(G))表示其长度项和形状正则项，所述c₁表示初始头部区域G内的平均像素均值，所述c₂表示区域外的平均像素均值，以注释头点及其边界扩展到最近的邻居头点，所述μ和v分别为长度项系数和形状正则项系数，所述λ₁和λ₂是正标量，将其设置为1，所述u0(x,y)为所述图像或视频的所有像素点，dx是对x的积分，dy是对y的积分。

可选地，所述方法还包括：

所述能量函数的能量值F(c1,c2,G)由对应于分割区域外的像素平均值定义，所述像素平均值为强度之和的加权值。

可选地，所述方法还包括：

在每次迭代进行人群密度估计时均标准化所述全局密度图。

可选地，所述方法还包括：

在UCF-CC-50和ShanghaiTech数据集上进行训练和测试，并计算均方误差和平均绝对误差进行评价。

根据本申请的另一个方面，提供了一种基于图像或视频人群计数的密度图生成装置，包括：

获取模块，其配置成获取包括人群的图像或视频；

分割模块，其配置成使用Chan-Vese分割算法在所述图像或视频的背景中计算出距离头部的最近点，分割出头部区域，将所述头部区域以外的所有区域确定为外部区域，并确定所述头部区域与外部区域的边界；

去噪模块，其配置成采用二维高斯滤波器去除所述头部区域的噪声；

估计模块，其配置成根据去除噪声后的头部区域和所述外部区域进行人群密度估计，创建全局密度图。

可选地，所述分割模块具体配置成：

F(c₁,c₂,G)＝μ.Len(G)+v.Area(in(G))+λ_`1∫_in(G)|u0(x,y)-c₁|²dxdy

+λ_`2∫_out(G)|u0(x,y)-c₂|²dxdy

可选地，所述分割模块还配置成：

可选地，所述估计模块还配置成：

在每次迭代进行人群密度估计时均标准化所述全局密度图。

可选地，所述装置还包括：

评价模块，其配置成在UCF-CC-50和ShanghaiTech数据集上进行训练和测试，并计算均方误差和平均绝对误差进行评价。

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请提供的技术方案，通过获取包括人群的图像或视频，使用Chan-Vese分割算法在所述图像或视频的背景中计算出距离头部的最近点，分割出头部区域，将所述头部区域以外的所有区域确定为外部区域，并确定所述头部区域与外部区域的边界，采用二维高斯滤波器去除所述头部区域的噪声，根据去除噪声后的头部区域和所述外部区域进行人群密度估计，创建全局密度图，能够生成精度更高的地面实况人群密度图，能帮助人群计数模型获得更高的准确度和效率，并促进了视频人群计数领域的发展。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的基于图像或视频人群计数的密度图生成方法流程图；

图2是根据本申请另一个实施例的基于图像或视频人群计数的密度图生成方法流程图；

图3是根据本申请另一个实施例的基于图像或视频人群计数的密度图生成装置结构图；

图4是根据本申请另一个实施例的计算设备结构图；

图5是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

图1是根据本申请一个实施例的基于图像或视频人群计数的密度图生成方法流程图。参见图1，该方法包括：

101：获取包括人群的图像或视频；

102：使用Chan-Vese分割算法在图像或视频的背景中计算出距离头部的最近点，分割出头部区域，将头部区域以外的所有区域确定为外部区域，并确定头部区域与外部区域的边界；

103：采用二维高斯滤波器去除头部区域的噪声；

104：根据去除噪声后的头部区域和外部区域进行人群密度估计，创建全局密度图。

本实施例中，可选的，使用Chan-Vese分割算法在所述图像或视频的背景中计算出距离头部的最近点，分割出头部区域，包括：

使用暴力最近邻搜索的方法对图像或视频进行迭代，从背景中分割出头部区域，其中，在迭代过程中最小化以下能量函数：

其中，G表示手动设置为以标记头点为中心的5x5边界框的初始头部，Len(G)和Area(in(G))表示其长度项和形状正则项，c₁表示初始头部区域G内的平均像素均值，c₂表示区域外的平均像素均值，以注释头点及其边界扩展到最近的邻居头点，μ和v分别为长度项系数和形状正则项系数，λ₁和λ₂是正标量，将其设置为1，u0(x,y)为图像或视频的所有像素点，dx是对x的积分，dy是对y的积分。

本实施例中，可选的，上述方法还包括：

能量函数的能量值F(c1,c2,G)由对应于分割区域外的像素平均值定义，像素平均值为强度之和的加权值。

本实施例中，可选的，上述方法还包括：

在每次迭代进行人群密度估计时均标准化全局密度图。

本实施例中，可选的，上述方法还包括：

本实施例提供的上述方法，通过获取包括人群的图像或视频，使用Chan-Vese分割算法在所述图像或视频的背景中计算出距离头部的最近点，分割出头部区域，将所述头部区域以外的所有区域确定为外部区域，并确定所述头部区域与外部区域的边界，采用二维高斯滤波器去除所述头部区域的噪声，根据去除噪声后的头部区域和所述外部区域进行人群密度估计，创建全局密度图，能够生成精度更高的地面实况人群密度图，能帮助人群计数模型获得更高的准确度和效率，并促进了视频人群计数领域的发展。

图2是根据本申请另一个实施例的基于图像或视频人群计数的密度图生成方法流程图。参见图2，该方法包括：

201：获取包括人群的图像或视频；

202：使用暴力最近邻搜索的方法对图像或视频进行迭代，从背景中分割出头部区域，其中，在迭代过程中最小化以下能量函数：

其中，能量函数的能量值F(c1,c2,G)由对应于分割区域外的像素平均值定义，像素平均值为强度之和的加权值。

本实施例中采用Chan-Vese分割算法进行头部分割，该能够Chan-Vese分割算法采用暴力最近邻搜索的方法，在没有明确定义边界的情况下分割对象，该算法采用能量函数表示可以很自然地融入图像的边界信息、区域信息并且获得较好的分割效果。

203：将头部区域以外的所有区域确定为外部区域，并确定头部区域与外部区域的边界；

204：采用二维高斯滤波器去除头部区域的噪声；

205：根据去除噪声后的头部区域和外部区域进行人群密度估计，创建全局密度图；

其中，在每次迭代进行人群密度估计时均标准化全局密度图，从而可以保持计数的完整性。

206：在UCF-CC-50和ShanghaiTech数据集上进行训练和测试，并计算均方误差和平均绝对误差进行评价。

本实施例中，还重新训练了一些现有深度模型，并使用Github中作者提供的这些算法的原始实现，使用该人群密度图生成器以及常用的现有密度图生成器，在UCF-CC-50和ShanghaiTech数据集上训练和测试，并与本申请的训练和测试结果进行比较，实验证明本申请的方法能够更好的描绘地面实况密度图，均方误差(MSE)和平均绝对误差(MAE)均有较大改善，可以实现更高的人群密度估计精度。

图3是根据本申请另一个实施例的基于图像或视频人群计数的密度图生成装置结构图。参见图3，该装置包括：

获取模块301，其配置成获取包括人群的图像或视频；

分割模块302，其配置成使用Chan-Vese分割算法在图像或视频的背景中计算出距离头部的最近点，分割出头部区域，将头部区域以外的所有区域确定为外部区域，并确定头部区域与外部区域的边界；

去噪模块303，其配置成采用二维高斯滤波器去除头部区域的噪声；

估计模块304，其配置成根据去除噪声后的头部区域和外部区域进行人群密度估计，创建全局密度图。

本实施例中，可选的，分割模块具体配置成：

本实施例中，可选的，分割模块还配置成：

本实施例中，可选的，估计模块还配置成：

在每次迭代进行人群密度估计时均标准化全局密度图。

本实施例中，可选的，装置还包括：

本实施例提供的上述装置，可以执行上述任一方法实施例提供的方法，详细过程详见方法实施例中的描述，此处不赘述。

本实施例提供的上述装置，通过获取包括人群的图像或视频，使用Chan-Vese分割算法在所述图像或视频的背景中计算出距离头部的最近点，分割出头部区域，将所述头部区域以外的所有区域确定为外部区域，并确定所述头部区域与外部区域的边界，采用二维高斯滤波器去除所述头部区域的噪声，根据去除噪声后的头部区域和所述外部区域进行人群密度估计，创建全局密度图，能够生成精度更高的地面实况人群密度图，能帮助人群计数模型获得更高的准确度和效率，并促进了视频人群计数领域的发展。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于图像或视频人群计数的密度图生成方法，包括：

获取包括人群的图像或视频；

采用二维高斯滤波器去除所述头部区域的噪声；

2.根据权利要求1所述的方法，其特征在于，使用Chan-Vese分割算法在所述图像或视频的背景中计算出距离头部的最近点，分割出头部区域，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在每次迭代进行人群密度估计时均标准化所述全局密度图。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

6.一种基于图像或视频人群计数的密度图生成装置，包括：

获取模块，其配置成获取包括人群的图像或视频；

7.根据权利要求6所述的装置，其特征在于，所述分割模块具体配置成：

其中，所述G表示手动设置为以标记头点为中心的5x5边界框的初始头部，所述Len(G)和Area(in(G))表示其长度项和形状正则项，所述c1表示初始头部区域G内的平均像素均值，所述c₂表示区域外的平均像素均值，以注释头点及其边界扩展到最近的邻居头点，所述μ和v分别为长度项系数和形状正则项系数，所述λ₁和λ₂是正标量，将其设置为1，所述u0(x,y)为所述图像或视频的所有像素点，dx是对x的积分，dy是对y的积分。

8.根据权利要求7所述的装置，其特征在于，所述分割模块还配置成：

9.根据权利要求6所述的装置，其特征在于，所述估计模块还配置成：

在每次迭代进行人群密度估计时均标准化所述全局密度图。

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述装置还包括：