CN112560925A

CN112560925A - 一种复杂场景目标检测数据集构建方法及系统

Info

Publication number: CN112560925A
Application number: CN202011438924.1A
Authority: CN
Inventors: 秦文健; 朱思航; 何佳慧; 曾光; 产银萍
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-26

Abstract

本发明公开了一种复杂场景目标检测数据集构建方法及系统。该方法包括：从公开数据集中筛选出适用于视障人群生活场景的图像，构成初始数据集；利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据；利用所述初始数据集及对应的多维深度特征数据进行无监督学习，以将所述多维特征数据整合到无监督聚类模型中，进而将聚类得到的视障人群生活场景的图像构成数据集；基于所述数据集训练生成对抗网络；利用经训练的生成对抗网络的生成器构建多种场景的目标检测数据集。利用本发明构建的数据集，适用于视障人群生活场景的目标检测，解决了数据样本丰富和准确标定之间的矛盾。

Description

一种复杂场景目标检测数据集构建方法及系统

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种复杂场景目标检测数据集构建方法及系统。

背景技术

在现有技术中，已经公开类似车载摄像头的视频KITTI跟踪数据集，或显示了各种不同视角的行人MOT Challenge数据集，或静态场景解析的ADE20K数据集都是用于无人驾驶的检测算法的benchmark(标准)数据集。目前并没有一套适用于视障人群生活场景解析的数据集，例如社区、学校和工作场所等。

目前大部分建立标准的训练和验证数据库主要是人工采集图像，并手动对图像的感兴趣的目标进行标定。但是由于视障人群生活场景图像的复杂性、光照变化不均匀、数据量大等自身特点，人工标注结果一方面工作量过于繁重，另一方面又受限于标注者自身经验主观性以及图像中本身就出现的人肉眼难以区分的对象。如果要在短期内构建标准的训练和验证数据库以用于模型训练，人工采集并标注的方法已无法满足研究和生产工作的需要。

基于深度学习的数据集构建方法成为近年来国内外非常热门的前沿领域之一。相对于传统的人工采集标注，计算机图像生成标注具有多样性、量化和低成本的优势，从而提高了图像标注的准确性和工作效率。现有技术往往是通过生成对抗网络(GAN)来生成图像，以扩展数据样本的多样性。但是生成的样本并不含有标准信息，无法适用于目标检测任务。

目前目标检测benchmark的构建还主要依靠人工采集和图像生成的方法来组建，后期再依靠人工标注。在针对视障人群构建复杂生活场景的数据集过程中，这种方法仍具有一定的缺陷，这主要是因为：

1)、图像的复杂性。由于生活场景的多样，图像中会出现遮挡，运动物体的畸变，低照度下的物体肉眼难以识别。

2)、图像的多样性。要使构建的数据集足以训练鲁棒性高的检测器需要丰富的、大量的数据，而在一定时期内搜集相关场景并拍摄的方法不足以涵盖各种情况。

3)、标注的工作量巨大。由于构建一个好的数据集需要大量的数据样本，要训练一个好的检测器，如何对上万张图像进行标注也是个非常大的技术难点。

上述技术问题制约了实际生产和研究的应用，据目前已发表的文献来看，尚没有一个系统的解决方案来构建适用于视障人群生活场景的目标检测，尤其是难以解决数据样本丰富和准确标定之间的矛盾。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种复杂场景目标检测数据集构建方法及系统，基于生成对抗方法构建数据集，生成多种光照、不同场景下的图像数据，通过利用深度学习方法批量生成数据，使得构造数据集的工作效率大幅提升。

根据本发明的第一方面，提供一种复杂场景目标检测数据集构建方法。该方法包括以下步骤：

从公开数据集中筛选出适用于视障人群生活场景的图像，构成初始数据集；

利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据；

利用所述初始数据集及对应的多维深度特征数据进行无监督学习，以将所述多维特征数据整合到无监督聚类模型中，进而将聚类得到的视障人群生活场景的图像构成数据集；

基于所述数据集训练生成对抗网络，该生成对抗网络包括图像生成器和图像判别器，其中图像生成器基于所述数据集和不同风格图像来生成图像，并将生成图像输入训练的所述深度学习特征提取模型来提取特征，图像判别器针对所提取的生成图像的特征和所述不同风格图像特征进行对抗训练；

利用经训练的图像生成器构建多种场景的目标检测数据集。

根据本发明的第二方面，提供一种复杂场景目标检测数据集构建系统。该系统包括：

图像搜集模块：用于从公开数据集中筛选出适用于视障人群生活场景的图像，构成初始数据集；

特征提取模块：用于利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据；

图像筛选模块：用于利用所述初始数据集及对应的多维深度特征数据进行无监督学习，以将所述多维特征数据整合到无监督聚类模型中，进而将聚类得到的视障人群生活场景的图像构成数据集；

对抗训练模块：用于基于所述数据集训练生成对抗网络，该生成对抗网络包括图像生成器和图像判别器，其中图像生成器基于所述数据集和不同风格图像来生成图像，并将生成图像输入训练的所述深度学习特征提取模型来提取特征，图像判别器针对所提取的生成图像的特征和所述不同风格图像特征进行对抗训练；

图像标注模块：用带标注的数据集预训练网络，重点检测出视障人群感兴趣的目标；

数据集构建模块：用于利用经训练的图像生成器构建多种场景的目标检测数据集。

与现有技术相比，本发明的优点在于，通过计算机和信息技术对海量数据进行图像筛选，并生成风格(光照、场景)多样的图片；用半监督的目标检测器对图像进行标注，相比于人工筛选和采集标注，显著提高了工作效率，也提高了图像标注的质量。本发明对构建大样本的benchmark具有重要的生产、研究价值，显著降低了构建大量数据集的成本。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的复杂场景目标检测数据集构建系统的框架图；

图2是根据本发明一个实施例的复杂场景目标检测数据集构建方法的流程图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

参见图1所示，该实施例提供的复杂场景目标检测数据集构建系统包括图像搜集模块、图像筛选模块、特征提取模块、图像生成模块、图像判别模块和图像标注模块。

图像搜集模块用于从已有的公开数据集中重新筛选出一部分适用于视障人群生活场景的图像，构成初始数据集。例如，具体包括搜集包含感兴趣目标的数据集，并从已有数据集中筛选出包含目标对象的图片(或称图像)。

特征提取模块(或称深度学习特征提取模型)用于基于筛选出的初始数据集提取深层次特征。需要从数据集中筛选出视障人群的生活场景图片来构成数据集，人肉眼可以很明显的观察出图片是否符合这样的需求，然而由于数据集中包含的海量图像数据，且图像内容复杂多变，面对大量的数据，人工筛选过程十分缓慢。本发明的特征提取模块可以实现自动、快速的特征提取，在无需人工干预的条件下对上述图像质量标准化模块中的感兴趣区域图像块的颜色、形态学、纹理和空间分布特征进行检测。例如，利用残差网络来设计更深的网络，以便学到更深层的图像特征，同时，采取金字塔的网络结构来提取不同尺度的特征。为了加快计算速度，本发明优选采用GPU对上述各个图像块独立进行特征提取，提取的特征例如包括形状特征、颜色特征和高维纹理特征等多维度特征。

图像筛选模块是基于先期训练的图像筛选系统，利用前期挑选的少量目标图像(例如提取的深层特征)以及大量的待挑选的数据集进行无监督学习，将不断学习前期挑选的图像的形状、颜色、高维纹理特征集整合到一个无监督聚类模型中。例如，聚类后的结果就可以自动将大量的数据划分为不同的视障人群生活场景和不感兴趣的图像两类。进一步地，将所有视障人群生活场景的图像构成数据集。

图像生成模块和图像判别模块：由于图像筛选模块得到的数据集只是从其他公开数据中筛选得到，包含的场景种类、光照强度都比较有限，为了提高目标检测的泛化性能，优选地，还利用GAN网络来生成不同光照、不同场景的图像，GAN整体上包括生成器和辨别器。图像生成模块(即生成对抗网络的生成器)用于将筛选后的图片和所需要的不同光照和场景图像来生成需要的数据，再将图片放入之前训练好的特征提取模块中，共享卷积层来提取特征。并将提取的生成图像的特征和筛选的图片特征一同放入判别器中来对抗训练。

图像标注模块：用带标注的数据集预训练网络，重点检测出视障人群感兴趣的目标。对于部分数据未进行数据标注的如视频图像中每个人的脸部标识或生活场景的标识，通过部分样本进行人工多目标实例标注，然后对上述网络进行微调整学习，从而得到较为准确的标准结果，最后在人工的核对每张图片并对标注缺陷的图像进行人工标注矫正。

在一个实施例中，整个训练过程的损失函数定义如下：

L(G，F，D_X，D_Y)＝L_GAN(G，D_Y，X，Y)+L_GAN(F，D_X，Y，X)+λL_cyc(G，F)

其中前两项是常规生成对抗网络中的损失函数，最后一项是循环一致性损失函数，λ是一个调节系数。对于前两项，优选地采用LSGAN(最小二乘GAN)的思想，可以进一步表达为：

其中X，Y分别表示原域和目标域的数据，而x，y则表示为从原数据域和目标数据域中采样得到的数据样本。G：X→Y，F：Y→X表示两个生成器的映射过程，D_X，D_Y分别表示针对原数据域和目标数据域的判别器。

对于循环一致性损失，其相当于自动编码器的重构误差，可以表达为：

优选地，本发明还包括图像标注模块。图像标注是训练目标检测器的金标准，而大部分筛选出的数据中，其中包含目标boundingbox(边界框)的图像只有一部分，而对剩下的数据进行人工标注仍需要大量的精力和时间。而且有部分图像由于光照等因素，人肉眼无法准确的标定目标。本发明从已有的公开数据集中重新筛选出适用于视障人群生活场景的视频图像，然后采用全卷积语义分割网络对整理数据集进行网络预训练，并重点标注出符合视障人群生活需求的感兴趣目标，对于部分数据未进行数据标注的如视频图像中每个人的脸部标识或生活场景的标识，通过部分样本进行人工多目标实例标注，然后对上述网络进行微调整学习，从而得到较为准确的标准结果，最后再人工核对每张图片并对标注缺陷的图像进行勾画矫正。而部分生成的图像由于只是进行了光照的变化，并无图像内容的变化，若风格迁移前的图像包含标注信息，则直接利用原标注，若原图像不包含标注信息，则对风格转换后的图像和原图像共同检测，两者标注以互补的形式工作。

相应地，本发明还提供一种复杂场景目标检测数据集构建方法，可实现图1所示系统的功能。例如，参见图2所示，该方法包括：

步骤S210，从公开数据集中筛选出适用于视障人群生活场景的图像，构成初始数据集。

步骤S220，利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据。

步骤S230，利用所述初始数据集及对应的多维深度特征数据进行无监督学习，以将所述多维特征数据整合到无监督聚类模型中，进而将聚类得到的视障人群生活场景的图像构成数据集。

步骤S240，基于所述数据集训练生成对抗网络，该生成对抗网络包括图像生成器和图像判别器。

图像生成器基于所述数据集和不同风格图像来生成图像，并将生成图像输入训练的深度学习特征提取模型来提取特征，图像判别器针对所提取的生成图像的特征和不同风格图像特征进行对抗训练。不同风格图像是指不同角度、不同光照或不同场景的图像。

步骤S250，利用经训练的图像生成器构建多种场景的目标检测数据集。

综上所述，本发明设计了一套完整的基于深度学习的数据筛选、生成以及标注系统和方法，可显著减少构建数据集的人力和精力，并提供风格多样的数据，有助于目标检测器的训练；提出了基于聚类方法和颜色分布信息的多尺度图像块构建，根据图像特征快速的筛选出适用于视障人群的数据集，并加快图像特征提取计算速度；针对视障人群的生活场景，利用残差网络提取深层特征，再用金字塔结构提取不同尺度的特征，并提出了融合了颜色、形态、纹理和空间分布等多维特征提取和描述方法，能够兼顾不同场景中不同大小的关键特征信息，且可以兼顾鲁棒性和计算速度。总之，本发明针对适用视障人群生活场景下的现有数据集少、图像标注困难的特点，提供一种图像生成、图像标注自动化技术领域，解决适用于视障人群复杂场景目标检测数据集不足以训练模型的难题。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种复杂场景目标检测数据集构建方法，包括以下步骤：

利用经训练的图像生成器构建多种场景的目标检测数据集。

2.根据权利要求1所述的方法，其中，利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据包括：

将所述初始数据集输入到残差网络得到特征图；

对于所述特征图利用金字塔结构提取不同尺度的多维深度特征数据。

3.根据权利要求1所述的方法，其中，还包括：

利用经训练的图像生成器获得的带标注的符合视障人群生活需求的感兴趣目标；

对于部分未进行数据标注的图像中每个人的脸部标识或生活场景的标识，进行多目标实例标注；

利用所有标注数据通过网络学习进行调整，获得最终的目标检测数据集。

4.根据权利要求1所述的方法，其中，所述多维深度特征数据包括感兴趣区域图像块的颜色、形态学、纹理和空间分布特征。

5.根据权利要求1所述的方法，其中，所述生成对抗网络训练过程的损失函数包含常规的生成对抗网络损失函数和循环一致性损失函数，并通过设置调节系数来调整该循环一致性损失函数的权重。

6.根据权利要求1所述的方法，其中，所述不同风格图像包括不同光照和不同场景图像。

7.一种复杂场景目标检测数据集构建系统，包括：

图像标注模块：用带标注的数据集预训练网络，以检测出视障人群感兴趣的目标；

8.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至6中任一项所述方法的步骤。

9.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6中任一项所述的方法的步骤。