CN109523538A

CN109523538A - 一种基于生成对抗神经网络的人群计数方法以及系统

Info

Publication number: CN109523538A
Application number: CN201811388878.1A
Authority: CN
Inventors: 王丽; 傅冰飞; 彭垚; 李斌; 薛向阳
Original assignee: SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd
Current assignee: SHANGHAI QINIU INFORMATION TECHNOLOGIES Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-03-26

Abstract

本发明实施例提供了一种基于生成对抗神经网络的人群计数方法以及系统，所述方法包括：获取源数据，对所述源数据进行标注处理，所述源数据包括预设数量的图片；采用预设的模型创建计数模型以及判别模型；根据所述源数据训练所述计数模型，使其能够预测所述源数据对应的人群密度图，得到第一训练模型；分别将所述源数据以及待识别的目标数据作为输入，根据所述计数模型以及判别模型，优化所述第一训练模型，得到第二训练模型；采用所述第二训练模型预测所述目标数据对应的人群密度以实现人群计数。本发明实施例通过生成对抗神经网络，无需对目标数据进行标注，节省了人力，提高了处理效率，可以实现无监督迁移学习，适用于多个场景的人群计数。

Description

一种基于生成对抗神经网络的人群计数方法以及系统

技术领域

本发明涉及计算机图像检测领域，尤其涉及一种基于生成对抗神经网络的人群计数方法以及系统。

背景技术

随着技术的不断进步，通过机器视觉来进行图像识别以实现现实场景人群个数统计日益普遍。

现阶段采用深度学习来进行图像识别的手段通常是对训练集的样本进行标注，然后进行训练。由于标注的工作量较大，当识别场景切换时，往往需要重新进行标注训练，这使得这种模型往往无法适用于其他场景，可移植性较差，适用范围不广。

发明内容

本发明实施例提供一种基于生成对抗神经网络的人群计数方法以及系统，通过生成对抗网络，无需目标场景的标注，节省人力，适用于多个场景的人群计数。

本发明实施例第一方面提供了一种基于生成对抗神经网的人群计数方法，包括：

获取源数据，对所述源数据进行标注处理并生成对应的人群密度图，所述源数据包括预设数量的图片；

采用预设的模型创建计数模型以及判别模型；

根据所述源数据训练所述计数模型，得到第一训练模型；

分别将所述源数据以及待识别的目标数据作为输入，根据所述计数模型以及判别模型，优化所述第一训练模型，得到第二训练模型；

采用所述第二训练模型预测所述目标数据以实现人群计数。

可选的，所述采用预设的模型创建计数模型以及判别模型，包括：

所述计数模型采用VGG-16模型的卷积层并加额外添加2层空洞卷积层。

可选的，所述根据所述源数据训练所述计数模型，得到第一训练模型，包括：

获取所述源数据及其对应的标注信息；

采用随机梯度下降法对所述计数模型进行训练。

根据所述计数模型生成的密度图确定任务损失函数。

可选的，所述分别将所述源数据以及待识别的目标数据作为输入，根据所述计数模型以及判别模型，优化所述第一训练模型，得到第二训练模型，包括：

将所述目标数据的金字塔图片区域作为输入，所述金字塔图片区域共享中心点；

所述计数模型分别根据所述源数据以及所述目标数据的金字塔图片区域，生成对应的密度图；

所述判别模型判断所述密度图的来源，所述来源包括源数据以及目标数据；

根据所述判别模型的判断结果优化所述第一训练模型。

可选的，所述金字塔尺寸比例为1,0.8,0,6,0,4。

可选的，所述根据所述判别模型的判断结果优化所述第一训练模型，包括：

采用自适应矩估计法进行优化。

可选的，所述方法还包括：

根据所述目标数据的金字塔图片区域对应的密度图，确定对抗损失函数。

可选的，所述方法还包括：

根据输入所述判别模型的密度图，确定判别损失函数以及排序损失函数。

本发明实施例第二方面提供了一种基于生成对抗神经网络的人群计数系统，所述系统包括处理器以及存储器，

所述存储器用于存储可执行程序；

所述处理器用于执行所述可执行程序以实现上述所述的人群计数方法。

实施本发明实施例，具有如下有益效果：

本发明实施例的基于生成对抗神经网络的人群计数方法以及系统，通过创建计数模型以及判别模型，采用生成对抗神经网络来实现对计数模型的训练，从而提高计数模型的统计效果。同时，通过生成对抗神经网络，无需对目标数据进行标注，节省了人力，提高了处理效率，可以实现无监督迁移学习，适用于多个场景的人群计数。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于生成对抗神经网络的人群计数方法的实施环境图。

图2为本发明实施例提供的一种基于生成对抗神经网络的人群计数方法第一实施例的流程图。

图3为本发明实施例提供的一种基于生成对抗神经网络的人群计数方法第二实施例的流程图。

图4所示为本发明实施例提供的一种基于生成对抗神经网络的人群计数系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理，但是其中的许多步骤可以并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排，当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

图1为本发明实施例提供的一种基于生成对抗神经网络的人群计数方法的实施环境图。如图1所示，所述对抗神经网络101包括计数模型102以及判别模型103，通过将源数据以及目标数据作为输入，能够实现对图像的识别，进而实现对图像中密度分析和人群计数。

图2为本发明实施例提供的一种基于生成对抗神经网络的人群计数方法第一实施例的流程图。可以理解的是，该人群计数方法可以应用于移动终端、计算机、服务器等设备。在一种实施方式中，可以实时获取图片信息，此时该应用人群计数方法的设备可以具有摄像头等获取图像的组件；在其他实施方式中，也可以通过其他方式获取图片信息。该方法包括以下步骤S201-S205。

在步骤S201中，获取源数据，对所述源数据进行标注处理，所述源数据包括预设数量的图片。

具体的，首先获取一定数量的源数据，并对源数据进行标注处理。本实施例中，由于最终目的为进行图片中的人群计数，因此在进行标注处理时需要标注源数据中每张图片的人物，以便于后续训练网络。可以理解的是，本实施例中的计数方法除了可以应用于人群的计数，还可以应用于其他物体的计数，本实施例并不以此为限。

在步骤S202中，采用预设的模型创建计数模型以及判别模型。

具体的，所述模型可以采取当前迁移任务学习中的一些网络模型，比如GoogLeNet模型、VGG模型，也可以是自定义的CNN模型。

在一种实施方式中，所述计数模型采用VGG-16模型，所述计数模型采用其卷积层，并在卷积层之后连接2层空洞卷积层。所述计数模型用于生产与图片对应的密度图，在密度图中，每个像素点代表对应图片像素点处的人数个数，整张密度图的积分即为图片对应的人数总数。在采用上述网络结构时，最后再添加一个卷积层用来生成所述密度图。使用空洞卷积层而不使用池化层来生成密度图的原因在于增大感受野的同时不减小像素。

在一种实施方式中，所述判别模型采用5个卷积层。

可以理解的是，为了进一步提高识别的准确度，也可以采用其他的网络模型创建计数模型，比如VGG-19，本发明实施例并不以此为限。

在步骤S203中，根据所述源数据训练所述计数模型，得到第一训练模型。

具体的，本实施中，首先采用经过了标注处理的源数据对计数模型进行训练，得到第一训练模型。

在一种实施方式中，通过获取源数据以及对应的标注信息，采用随机梯度下降法对所述计数模型进行训练，在训练过程中，学习率为1e-6。

在另一种实施方式中，在对源数据进行数据增广时，可以采用随机水平翻转、旋转以及裁剪。

在另一种实施方式中，针对源数据进行生产密度图的过程，进一步的包含了损失函数，特别的，根据所述计数模型生成的密度图确定任务损失函数。

在步骤S204中，分别将所述源数据以及待识别的目标数据作为输入，根据所述计数模型以及判别模型，优化所述第一训练模型，得到第二训练模型。

具体的，所述目标数据没有标注信息。在使用源数据对技术模型进行训练得到第一训练模型之后，进一步的，通过使用没有标注信息的目标数据，采用计数模型以及判别模型一起，优化该第一训练模型，得到第二训练模型，使得该第二训练模型可以适应目标数据的未知场景，产生较高质量的密度图。

本实施例中，所述判别模型用于判断计数模型生成的密度图的来源，所述来源包括源数据或者目标数据。

本实施例中，通过计数模型以及判别模型生成对抗网络，实现减小计数模型在采用第二训练模型在源数据上预测的密度图与真实密度图的差距，同时使得判别模型能够最大程度的辨别出预测的密度图对应的图片来源。同时，为了使为目标数据中的图片产生的密度图与源数据中的更相似，在整个网络的优化过程中，加入了对抗学习损失函数，即在训练计数模型时，使判别模型为目标数据集密度图预测的结果尽量接近源数据。

在步骤S205中，采用所述第二训练模型预测所述目标数据密度图以实现人群计数。

具体的，在获得第二训练模型之后，所述计数模型可以通过采用所述第二训练模型对目标数据进行预测，进而进行人群计数。

上述可知，本发明实施例的基于生成对抗神经网络的人群计数方法，通过创建计数模型以及判别模型，采用生成对抗神经网络来实现对计数模型的训练，从而提高计数模型的识别效果。同时，通过生成对抗神经网络，无需对目标数据进行标注，节省了人力，提高了处理效率，可以实现无监督迁移学习，适用于多个场景的人群计数。

本发明将人物计数作为像素级别的任务学习，通过一个计数模型在源数据集上进行训练得到第一训练模型。然后将计数模型与判别模型联合得到生成对抗网络，分别将源数据的图片和目标数据的图片区域输入网络，使得网络为目标数据的图片生成的密度图尽可能的与源数据的图片的密度图相似，从而进一步的优化第一训练模型，以得到第二训练模型，进而可以实现通过第二训练模型的人数识别。本发明实施例不仅可以解决人群计数的迁移泛化问题，还可以解决人群计数到车辆计数或者其他物体计数的迁移。

图3为本发明实施例提供的一种基于生成对抗神经网络的人群计数方法第二实施例的流程图。对比图2所示的第一实施例，本实施例中进一步包括了采用金字塔输入的步骤，该方法包括以下步骤S301-S308。

在步骤S301中，获取源数据，对所述源数据进行标注处理，所述源数据包括预设数量的图片。

在步骤S302中，采用预设的模型创建计数模型以及判别模型。

在步骤S303中，根据所述源数据训练所述计数模型，得到第一训练模型。

在步骤S304中，将所述目标数据的金字塔图片区域作为输入。

具体的，在生成对抗网络模型的学习过程中，由于源数据与目标数据图片区域密度分布差异较大，而局部图片区域对于密度适应来说尤为重要，并且不同密度分布的场景间也共享许多类似的局部密度模式。因此，在进行生成对抗学习时，对目标数据采用金字塔图片区域作为网络模型的输入，通过对不同尺寸的训练，使得最终的训练模型对于不同密度的图片区域具有更好的适应性。另外，由于对源数据与目标数据之间域的差异性的未知性，网络对目标图片的密度图预测可能不可控。通过利用金字塔图片区域输入间的包含关系，对产生的计数值(整张密度图的积分)进行约束。具体来说，所述金字塔图片区域共享中心点，规定原始的区域尺寸比例为1，比其边长短0.8倍的区域的尺寸比例为0.8，依此类推。由此可见，尺寸比例为1的区域的计数总值总是大于或等于其包含的区域(如尺寸比例为0.8，0.6等)，利用这种包含关系，在生成对抗学习的过程中，每个尺寸比例小于1的区域(即被包含区域)加入了排序损失函数，即被包含区域产生的计数值必须小于等于包含区域。本实施例中，所述金字塔尺寸比例为1,0.8,0,6,0,4。

在步骤S305中，所述计数模型分别根据所述源数据以及所述目标数据的金字塔图片区域，生成对应的密度图。

在步骤S306中，所述判别模型判断所述密度图的来源。

具体的，所述来源包括源数据以及目标数据。

在步骤S307中，根据所述判别模型的判断结果优化所述第一训练模型，得到第二训练模型。

具体的，在进行优化时，采用自适应矩估计法进行优化，初始学习率为1e-3，使用功率为0.9的多项式衰变，权重衰减为1e-4并且动量设为0.9和0.99。

在其他实施方式中，针对目标数据金字塔图片区域生成的区域图，还包括了对抗损失函数。此外，针对输入判别网络的密度图，还包括了判别损失函数和排序损失。具体的，根据所述目标数据的金字塔图片区域对应的密度图，确定对抗损失函数；根据输入所述判别模型的密度图，确定判别损失函数以及排序损失函数。

在步骤S308中，采用所述第二训练模型预测所述目标数据以实现人群计数。

本发明实施例，通过将输入图片区域划分成金字塔输入，使得网络适应各种密度分布的，并且利用金字塔输入间的包含关系，约束产生的计数值在合理的范围内。

图4所示为本发明实施例提供的一种基于生成对抗神经网络的人群计数系统的结构示意图。如图4所示，所述系统包括处理器401(所述处理器401的数量可以一个或多个，图4以一个处理器为例)以及存储器402。在本发明的实施例中，处理器401、存储器402可通过总线或其它方式连接，其中，图4中以通过总线连接为例。可以理解的是，本实施例中的系统也可以应用于图2或图3所示的实施例中。

其中，存储器402中存储有可执行程序，处理器401执行所述可执行程序以实现如下步骤：

获取源数据，对所述源数据进行标注处理，所述源数据包括预设数量的图片；

采用预设的模型创建计数模型以及判别模型；

根据所述源数据训练所述计数模型，得到第一训练模型；

采用所述第二训练模型预测所述目标数据以实现人群计数。

可选的，所述处理器401采用预设的模型创建计数模型以及判别模型，包括：

所述计数模型采用VGG-16模型，所述计数模型包括VGG全部卷积层以及2层空洞卷积层。

可选的，所述处理器401根据所述源数据训练所述计数模型，得到第一训练模型，包括：

获取所述源数据及其对应的标注信息；

采用随机梯度下降法对所述计数模型进行训练。

根据所述计数模型生成的密度图确定任务损失函数。

可选的，所述处理器401分别将所述源数据以及待识别的目标数据作为输入，根据所述计数模型以及判别模型，优化所述第一训练模型，得到第二训练模型，包括：

根据所述判别模型的判断结果优化所述第一训练模型。

可选的，所述金字塔尺寸比例为1,0.8,0,6,0,4。

可选的，所述处理器401根据所述判别模型的判断结果优化所述第一训练模型，包括：采用自适应矩估计法进行优化。

可选的，所述处理器401还用于根据所述目标数据的金字塔图片区域对应的密度图，确定对抗损失函数。

可选的，所述处理器401还用于根据输入所述判别模型的密度图，确定判别损失函数以及排序损失函数。

上述可知，本发明实施例的基于生成对抗神经网络的人群计数系统，通过创建计数模型以及判别模型，采用生成对抗神经网络来实现对计数模型的训练，从而提高计数模型的识别效果。同时，通过生成对抗神经网络，无需对目标数据进行标注，节省了人力，提高了处理效率，可以实现无监督迁移学习，适用于多个场景的人群计数。

本发明将人物计数作为像素级别的任务学习，通过一个计数模型在源数据集上进行训练得到第一训练模型。然后将计数模型与判别模型联合得到生成对抗网络，分别将源数据的图片和目标数据的图片区域输入网络，使得网络为目标数据的图片生成的密度图尽可能的与源数据的图片的密度图相似，从而进一步的优化第一训练模型，以得到第二训练模型，进而可以实现通过第二训练模型在目标数据上进行人群计数。本发明实施例不仅可以解决人群计数的迁移泛化问题，还可以解决人群计数到车辆计数或者其他物体计数的迁移。同时，通过将输入图片区域划分成金字塔输入，使得网络适应各种密度分布的，并且利用金字塔输入间的包含关系，约束产生的计数值在合理的范围内。

上述实施例中提供各模块两两之间均可实现通讯连接，且各模块均可与平台的中心控制装置通讯连接，上述实施例中提供的通过指纹识别快速录音装置可执行本公开中任意实施例中所提供的通过指纹识别快速录音的方法，具备执行该方法相应的功能模块和有益效果，未在上述实施例中详细描述的技术细节，可参见本公开任意实施例中所提供的快速录音的方法。

将意识到的是，本公开也扩展到适合于将本公开付诸实践的计算机程序，特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式，或者以任何其它适合在按照本公开的方法的实现中使用的形式。也将注意的是，这样的程序可能具有许多不同的构架设计。例如，实现按照本公开的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。

用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中，从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令，例如处理器指令和/或解释器指令(例如，Java解释器指令)。可替换地，子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中，并且与主程序静态地或者动态地(例如在运行时间)链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者装置。例如，载体可以包含存储介质，诸如(ROM例如CDROM或者半导体ROM)或者磁记录介质(例如软盘或者硬盘)。进一步地，载体可以是可传输的载体，诸如电学或者光学信号，其可以经由电缆或者光缆，或者通过无线电或者其它手段传递。当程序具体化为这样的信号时，载体可以由这样的线缆或者装置组成。可替换地，载体可以是其中嵌入有程序的集成电路，所述集成电路适合于执行相关方法，或者供相关方法的执行所用。

应该留意的是，上文提到的实施例是举例说明本公开，而不是限制本公开，并且本领域的技术人员将能够设计许多可替换的实施例，而不会偏离所附权利要求的范围。在权利要求中，任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本公开可以通过包括几个明显不同的组件的硬件，以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中，这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

如果期望的话，这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外，如果期望的话，以上所描述的一个或多个功能可以是可选的或者可以进行组合。

如果期望的话，上文所讨论的各步骤并不限于各实施例中的执行顺序，不同步骤可以以不同顺序执行和/或彼此同时执行。此外，在其他实施例中，以上所描述的一个或多个步骤可以是可选的或者可以进行组合。

虽然本公开的各个方面在独立权利要求中给出，但是本公开的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合，而并非仅是权利要求中所明确给出的组合。

这里所要注意的是，虽然以上描述了本公开的示例实施方式，但是这些描述并不应当以限制的含义进行理解。相反，可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本公开的范围。

本领域普通技术人员应该明白，本公开实施例的装置中的各模块可以用通用的计算装置来实现，各模块可以集中在单个计算装置或者计算装置组成的网络组中，本公开实施例中的装置对应于前述实施例中的方法，其可以通过可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本公开并不局限于特定的硬件或者软件及其结合。

本领域普通技术人员应该明白，本公开实施例的装置中的各模块可以用通用的移动终端来实现，各模块可以集中在单个移动终端或者移动终端组成的装置组合中，本公开实施例中的装置对应于前述实施例中的方法，其可以通过编辑可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本公开并不局限于特定的硬件或者软件及其结合。

Claims

1.一种基于生成对抗神经网络的人群计数方法，其特征在于，包括：

采用预设的模型创建计数模型以及判别模型；

根据所述源数据训练所述计数模型，得到第一训练模型；

采用所述第二训练模型预测所述目标数据以实现人群计数。

2.如权利要求1所述的方法，其特征在于，所述采用预设的模型创建计数模型以及判别模型，包括：

所述计数模型采用VGG-16模型中的卷积层并额外添加2层空洞卷积层。

3.如权利要求2所述的方法，其特征在于，所述根据所述源数据训练所述计数模型，得到第一训练模型，包括：

获取所述源数据及其对应的标注信息；

采用随机梯度下降法对所述计数模型进行训练。

4.如权利要求2所述的方法，其特征在于，所述根据所述源数据训练所述计数模型，得到第一训练模型，包括：

根据所述计数模型的训练任务确定任务损失函数。

5.如权利要求1-4任一项所述的方法，其特征在于，分别将所述源数据以及待识别的目标数据作为输入，根据所述计数模型以及判别模型，优化所述第一训练模型，得到第二训练模型，包括：

将所述源数据及目标数据的金字塔图片区域作为输入，所述金字塔图片区域共享中心点；

根据所述判别模型的判断结果优化所述第一训练模型。

6.如权利要求5所述的方法，其特征在于，所述金字塔尺寸比例为1,0.8,0,6,0,4。

7.如权利要求5所述的方法，其特征在于，所述根据所述判别模型的判断结果优化所述第一训练模型，包括：

采用自适应矩估计法进行优化。

8.如权利要求5所述的方法，其特征在于，还包括：

9.如权利要求5所述的方法，其特征在于，还包括：

10.一种基于生成对抗神经网络的人群计数系统，其特征在于，所述系统包括处理器以及存储器，

所述存储器用于存储可执行程序；

所述处理器用于执行所述可执行程序以实现权利要求1-9所述的人群计数方法。