CN109241825A

CN109241825A - 用于人群计数的数据集生成的方法及装置

Info

Publication number: CN109241825A
Application number: CN201810789325.0A
Authority: CN
Inventors: 张弛; 李嘉文
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2019-01-18
Anticipated expiration: 2038-07-18
Also published as: CN109241825B

Abstract

提供了一种用于人群计数的数据集生成的方法及装置。该方法包括：获取单人数据集；将所述单人数据集中的每个单人数据构建为三维行人数据；基于所述三维行人数据，结合场景信息和人群分布信息，生成人群图；将所述人群图添加到用于人群计数的数据集。由此可见，本发明实施例能够基于单人数据集生成人群图，将人群图添加至用于人群计数的数据集从而实现了对用于人群计数的数据集的扩充。该过程简单、易于实现，且所生成的人群图具有准确的标注信息，能够极大地减少人力成本。

Description

用于人群计数的数据集生成的方法及装置

技术领域

本发明涉及图像处理领域，更具体地涉及一种用于人群计数的数据集生成的方法及装置。

背景技术

公共场合中采用摄像机实现人群计数在智能安防领域具有重要价值。因此，人群计数(Crowd Counting)是计算机视觉和智能视频监控领域的重要研究内容。

当前的人群计数多是基于深度学习算法的，该算法通过针对数据集中大量的数据学习一般广泛的计数特征。但是受限于目前数据集的规模，算法容易过拟合，限制算法在实际当中的应用；而人群的标注又需要耗费大量的人力物力，因此如何得到更多的数据集是摆在人群计数面前的一大障碍。

发明内容

本发明提供了一种用于人群计数的数据集生成的方法及装置，能够在单人数据集的基础上生成人群数据集，有效地扩充现有数据集。

根据本发明的一方面，提供了一种用于人群计数的数据集生成的方法，所述包括：

获取单人数据集；

将所述单人数据集中的每个单人数据构建为三维行人数据；

基于所述三维行人数据，结合场景信息和人群分布信息，生成人群图；

将所述人群图添加到用于人群计数的数据集。

根据本发明的一种实现方式，所述基于所述三维行人数据，结合场景信息和人群分布信息，生成人群图，包括：

根据所述人群分布信息，选取多个三维行人数据；

根据所述场景信息，将所述多个三维行人数据进行放置，生成所述人群图。

根据本发明的一种实现方式，所述场景信息包括视角和景深，

所述根据所述场景信息，将所述多个三维行人数据进行放置，生成所述人群图，包括：

根据所述视角和所述景深构建平面；

根据所述人群分布信息，在所述平面上选取多个点；

将所述多个三维行人数据放置于所述多个点并进行缩放，生成所述人群图，

其中，每个三维行人数据的缩放比例是根据所述每个三维行人数据所放置的点的位置所确定的。

根据本发明的一种实现方式，所述人群分布信息包括以下任意一项：稀疏、中等密集、密集。

根据本发明的一种实现方式，还包括：根据所述人群图确定场景密度分布图。

根据本发明的一种实现方式，所述根据所述人群图确定场景密度分布图，包括：

获取所述人群图中每个行人的空间位置和缩放比例；

构建与所述每个行人对应的高斯核矩阵；

在所述每个行人的空间位置处叠加所述对应的高斯核矩阵，得到所述场景密度分布图。

根据本发明的一种实现方式，所述获取单人数据集，包括：

获取用于行人检测或用于行人重识别的已有数据集；

将所述已有数据集作为所述单人数据集。

根据本发明的另一方面，提供了一种用于人群计数的数据集生成的装置，所述装置用于实现前述方面或任一实现方式所述方法的步骤，所述装置包括：

获取模块，用于获取单人数据集；

构建模块，用于将所述单人数据集中的每个单人数据构建为三维行人数据；

生成模块，用于基于所述三维行人数据，结合场景信息和人群分布信息，生成人群图；

添加模块，用于将所述人群图添加到用于人群计数的数据集。

根据本发明的又一方面，提供了一种用于人群计数的数据集生成的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方面或任一实现方式所述的用于人群计数的数据集生成的方法的步骤。

根据本发明的再一方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方面或任一实现方式所述的用于人群计数的数据集生成的方法的步骤。

由此可见，本发明实施例能够基于单人数据集生成人群图，将人群图添加至用于人群计数的数据集从而实现了对用于人群计数的数据集的扩充。该过程简单、易于实现，且所生成的人群图具有准确的标注信息，能够极大地减少人力成本。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的用于人群计数的数据集生成的方法的一个示意性流程图；

图3是本发明实施例的用于人群计数的数据集生成的装置的一个示意性框图；

图4是本发明实施例的用于人群计数的数据集生成的装置的另一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括中央处理单元(Central Processing Unit，CPU)1021和图形处理单元(Graphics Processing Unit，GPU)1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如现场可编程门阵列(Field－Programmable GateArray，FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或更多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或更多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

图2是本发明实施例的用于人群计数的数据集生成的方法的一个示意性流程图。图2所示的方法包括：

S110，获取单人数据集；

S120，将所述单人数据集中的每个单人数据构建为三维行人数据；

S130，基于所述三维行人数据，结合场景信息和人群分布信息，生成人群图；

S140，将所述人群图添加到用于人群计数的数据集。

示例性地，S110中可以从已有数据集获取该单人数据集。具体地，可以获取用于行人检测或用于行人重识别的已有数据集；并将所述已有数据集作为所述单人数据集。

可理解，在进行行人检测或行人重识别等时，其数据集已经是比较完备的，包括大量的单人或者少量人的训练集。因此，可以直接获取该已有数据集作为S110中的单人数据集，如此能够实现对现有数据集的充分利用。

示例性地，S120中，可以通过物理建模将2D的单人数据构建为3D的行人数据。

示例性地，S130中，可以包括：根据所述人群分布信息，选取多个三维行人数据；根据所述场景信息，将所述多个三维行人数据进行放置，生成所述人群图。

其中，人群分布信息可以为以下任意一项：稀疏、中等密集、密集。其中，场景信息可以包括以下至少一项：场景的视角、倾斜角度、景深。

可选地，在S130之前或者甚至在图2所示的方法之前，可以预先设定待生成的人群图的人群分布信息为稀疏或中等密集或密集。举例来说，人群分布信息为稀疏时，生成的人群图中的行人的数量可以属于区间[N11,N12]。人群分布信息为中等密集时，生成的人群图中的行人的数量可以属于区间[N21,N22]。人群分布信息为密集时，生成的人群图中的行人的数量可以属于区间[N31,N32]。且满足N12≤N21，N22≤N31。

这些数量的行人在生成的人群图中可以按照高斯分布放置，或者可以随机地确定各个行人的位置。可以根据场景的视角、倾斜角度等对某个或某些行人进行旋转等操作；可以根据景深等将某个或某些行人进行等比例缩放，例如通过线性映射等方式进行等比例缩放。

示例性地，可以根据人群分布信息，选取多个三维行人数据。其中，选取的方式可以是随机选取或其他方式选取，另外所选取的三维行人数据的数量可以是根据人群分布信息所确定的，例如，若人群分布信息为中等密集，所选取的三维行人数据的数量可以是N21至N22之间的某一值。

作为一种实现方式，场景信息包括视角和景深。根据所述场景信息，将所述多个三维行人数据进行放置，生成所述人群图，可以包括：根据所述视角和所述景深构建平面；根据所述人群分布信息，在所述平面上选取多个点；将所述多个三维行人数据放置于所述多个点并进行缩放，生成所述人群图，其中，每个三维行人数据的缩放比例是根据所述每个三维行人数据所放置的点的位置所确定的。

具体地，可以根据景深和视角建立一个平面，该平面可以认为是模拟实际场景中的地面。随后可以根据人群分布信息在该平面选取多个点，例如可以随机选取或者按高斯分布来选取多个点，作为随后行人放置的位置。可理解，所选取的点的数量根据人群分布信息来确定，例如，若人群分布信息为中等密集，所选取的点的数量可以是N21至N22之间的某一值，该数量可以等于前述所选的三维行人数据的数量。

进一步地，可以根据所选取的每个点的位置，确定将放置于该点的行人的缩放比例。例如，距离图像采集装置越远的点，对应的缩放比例越大，即行人的尺寸相对越小。随后便可以将多个三维行人数据放置于多个点处，且按照与各个点对应的缩放比例进行缩放，从而得到人群图。

可选地，在缩放之后，还可以执行进一步的其他操作等，以对人群图进行优化。例如，可以进行光照的渲染改变。例如，可以根据倾斜角度等人群图进行倾斜处理。例如，可以对人群图中的一个或若干个行人进行旋转等，如此可以使得到的人群图更加贴近实际的场景。

由此，便可以得到人群图，该人群图中包括多个行人，行人的数量、场景的视角、倾斜角度、景深等可以作为该人群图的标注信息。

进一步地，在S140中，将S130得到的人群图添加至用于人群计数的数据集，便可以实现对该数据集的扩充。

可理解，通过调整场景信息和/或人群分布信息，在S130中可以得到多个或大量的人群图。将它们都添加至用于人群计数的数据集，进而能够用于训练人群计数神经网络。

示例性地，本发明实施例还可以包括：根据所述人群图确定场景密度分布图。举例来说，可以将人群图中的每个行人位置用矩阵块进行表示，进而结合场景信息等得到场景密度分布图。

作为一种实现方式，根据所述人群图确定场景密度分布图，可以包括：获取所述人群图中每个行人的空间位置和缩放比例；构建与所述每个行人对应的高斯核矩阵；在所述每个行人的空间位置处叠加所述对应的高斯核矩阵，得到所述场景密度分布图。

可理解，在S130中将三维行人数据放置于各个点时，可以获取与每个行人所对应的点的空间位置以及对应的缩放比例。例如，可以将某个行人A的空间位置表示为(x,y)，将其缩放比例表示为a。

可以通过一个满足均值为0，方差为1的高斯核矩阵来代表一个行人。例如，高斯核矩阵中的元素表示图像中行人所在位置处每个像素点的像素值。假定正常人的高斯核矩阵表示为m*m，那么对于缩放比例为a的行人来说，其高斯核矩阵可以表示为(m*a)*(m*a)，并且该矩阵仍然满足均值为0，方差为1。

进一步地，在一张与人群图大小相等的空的图片上，在位置(x,y)上加上对应的高斯核矩阵并遍历所有的空间位置，从而得到场景密度分布图。其中，表示向上取整。

示例性地，场景密度分布图可以与人群图一起添加至用于人群计数的数据集中。

图3是本发明实施例的用于人群计数的数据集生成的装置的一个示意性框图。图3所示的装置30可以包括获取模块310、构建模块320、生成模块330和添加模块340。

获取模块310，用于获取单人数据集；

构建模块320，用于将所述单人数据集中的每个单人数据构建为三维行人数据；

生成模块330，用于基于所述三维行人数据，结合场景信息和人群分布信息，生成人群图；

添加模块340，用于将所述人群图添加到用于人群计数的数据集。

示例性地，生成模块330可以具体用于：根据所述人群分布信息，选取多个三维行人数据；根据所述场景信息，将所述多个三维行人数据进行放置，生成所述人群图。

其中，所述场景信息包括以下至少一项：场景的视角、倾斜角度、景深。

示例性地，所述场景信息包括视角和景深。生成模块330可以具体用于：根据所述视角和所述景深构建平面；根据所述人群分布信息，在所述平面上选取多个点；将所述多个三维行人数据放置于所述多个点并进行缩放，生成所述人群图。其中，每个三维行人数据的缩放比例是根据所述每个三维行人数据所放置的点的位置所确定的。

其中，所述人群分布信息包括以下任意一项：稀疏、中等密集、密集。

示例性地，获取模块310可以具体用于：获取用于行人检测或用于行人重识别的已有数据集；将所述已有数据集作为所述单人数据集。

示例性地，该装置30还可以包括确定模块，用于根据所述人群图确定场景密度分布图。

可选地，确定模块可以具体用于：获取所述人群图中每个行人的空间位置和缩放比例；构建与所述每个行人对应的高斯核矩阵；在所述每个行人的空间位置处叠加所述对应的高斯核矩阵，得到所述场景密度分布图。

图3所示的装置30能够实现前述图2所示的用于人群计数的数据集生成的方法，为避免重复，这里不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，本发明实施例还提供了另一种用于人群计数的数据集生成的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图2所示的用于人群计数的数据集生成的方法的步骤。

如图4所示，该装置40可以包括存储器410和处理器420。存储器410存储用于实现根据本发明实施例的用于人群计数的数据集生成的方法中的相应步骤的计算机程序代码。处理器420用于运行存储器410中存储的计算机程序代码，以执行根据本发明实施例的用于人群计数的数据集生成的方法的相应步骤，并且用于实现根据本发明实施例的图3所述的装置中的获取模块310、构建模块320、生成模块330和添加模块340。

示例性地，在所述计算机程序代码被处理器420运行时执行以下步骤：获取单人数据集；将所述单人数据集中的每个单人数据构建为三维行人数据；基于所述三维行人数据，结合场景信息和人群分布信息，生成人群图；将所述人群图添加到用于人群计数的数据集。

另外，本发明实施例还提供了一种电子设备，该电子设备可以包括图3所示的装置30。该电子设备可以实现前述图2所示的用于人群计数的数据集生成的方法。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述图2所示的用于人群计数的数据集生成的方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

计算机存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含用于构建三维行人数据的计算机可读的程序代码，另一个计算机可读存储介质包含用于生成人群图的计算机可读的程序代码。

由此可见，本发明实施例能够基于单人数据集生成人群图，将人群图添加至用于人群计数的数据集从而实现了对用于人群计数的数据集的扩充。该过程简单、易于实现，且所生成的人群图具有准确的标注信息。免去了大量人力物力进行标注生成数据集，从而能够极大地减少人力成本。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(Digital Signal Processing，DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于人群计数的数据集生成的方法，其特征在于，所述方法包括：

获取单人数据集；

将所述单人数据集中的每个单人数据构建为三维行人数据；

将所述人群图添加到用于人群计数的数据集。

2.根据权利要求1所述的方法，其特征在于，所述基于所述三维行人数据，结合场景信息和人群分布信息，生成人群图，包括：

根据所述人群分布信息，选取多个三维行人数据；

3.根据权利要求2所述的方法，其特征在于，所述场景信息包括视角和景深，

根据所述视角和所述景深构建平面；

根据所述人群分布信息，在所述平面上选取多个点；

4.根据权利要求1所述的方法，其特征在于，所述人群分布信息包括以下任意一项：

稀疏、中等密集、密集。

5.根据权利要求1所述的方法，其特征在于，还包括：

根据所述人群图确定场景密度分布图。

6.根据权利要求5所述的方法，其特征在于，所述根据所述人群图确定场景密度分布图，包括：

获取所述人群图中每个行人的空间位置和缩放比例；

构建与所述每个行人对应的高斯核矩阵；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述获取单人数据集，包括：

获取用于行人检测或用于行人重识别的已有数据集；

将所述已有数据集作为所述单人数据集。

8.一种用于人群计数的数据集生成的装置，其特征在于，所述装置用于实现权利要求1至7中任一项所述方法的步骤，所述装置包括：

获取模块，用于获取单人数据集；

9.一种用于人群计数的数据集生成的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。