CN110189406A

CN110189406A - 图像数据标注方法及其装置

Info

Publication number: CN110189406A
Application number: CN201910471476.6A
Authority: CN
Inventors: 马岳文; 郁树达; 郭林杰; 邹成; 李思琪; 赵雄心; 周大江
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-08-30
Anticipated expiration: 2039-05-31
Also published as: CN110189406B

Abstract

本申请公开了一种图像数据标注方法及其装置。所述图像数据标注方法，包括：对任务场景进行三维重建；根据重建的任务场景的三维模型，生成虚拟合成图像数据，其中，所述虚拟合成图像数据带有任务所需的标注信息；利用所述虚拟合成图像数据和所述虚拟合成图像数据带有的所述标注信息，训练预标注神经网络；利用所述预标注神经网络对实拍采集图像数据进行标注，生成所述实拍采集图像数据的标注信息。

Description

图像数据标注方法及其装置

技术领域

本说明书涉及计算机视觉领域。

背景技术

近年来深度学习在多个领域取得了突破，特别是在图像检测识别任务上将准确率提升到了前所未有的高度，从而促进了人工智能在更多商业领域的落地，然而深度学习技术的应用依赖于大量带有标注信息的图像数据。对于实拍采集图像数据，需要进行标注以后方可用于深度学习。有别于实拍采集图像数据，虚拟合成图像数据天然带有深度学习所需要的标注信息，如轮廓，类别等。

现有技术中，用于处理图像检测识别任务的深度学习，主要有以下两种技术方案：

1.谷歌流体标注系统

该系统基于imageNet数据库训练了一个通用的检测识别网络，并将该检测识别网络应用于新的待标注图像生成一系列轮廓及标签的候选项供人工选择。同时开发了一套交互系统方便人工操作，标注效率是传统人工标注的3倍。但是，由于该检测识别网络的训练基于一个包含大量类别物体的通用数据集，在应用于细分场景的图像时，其检测识别的精度往往会比较低，此时需要大量的人工干预才能取得比较好的标注效果，其标注效率就会相应地显著降低。

2.基于虚拟样本深度学习的机器人目标识别和位姿重构方法

通过3D渲染从多视角获得物体的图像，用于训练物体检测及姿态估计神经网络。但是，由于虚拟合成与实际采集图像之间存在域的差异，基于虚拟合成数据训练的网络直接应用于真实采集数据的任务精度存在不确定性，对于精度要求极高的领域存在应用风险。

发明内容

本说明书提供了一种图像数据标注方法及其装置，用以解决现有技术中图像标注效率低，标注结果不准确的问题。

本申请的实施方式公开了一种图像数据标注方法，包括：

对任务场景进行三维重建；

根据重建的任务场景的三维模型，生成虚拟合成图像数据，所述虚拟合成图像数据带有任务所需的标注信息；

利用所述虚拟合成图像数据和所述虚拟合成图像数据带有的所述标注信息，训练预标注神经网络；

利用所述预标注神经网络对实拍采集图像数据进行标注，生成所述实拍采集图像数据的标注信息。

本申请的实施方式还公开了一种图像数据标注装置，包括：

场景重建模块，用于对任务场景进行三维重建；

虚拟合成模块，用于根据重建的任务场景的三维模型，生成虚拟合成图像数据，所述虚拟合成图像数据带有任务所需的标注信息；

预标注网络训练模块，用于利用所述虚拟合成图像数据和所述虚拟合成图像数据带有的所述标注信息，训练预标注神经网络；

标注模块，利用所述预标注神经网络对实拍采集图像数据进行标注，生成所述实拍采集图像数据的标注信息。

本申请的实施方式还公开了一种图像数据标注设备，包括：

存储器，用于存储计算机可执行指令；以及，

处理器，用于在执行所述计算机可执行指令时实现上述方法中的步骤。

本申请的实施方式还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述方法中的步骤。

本说明书实施方式中，通过对任务场景进行虚拟数据合成，利用虚拟合成数据训练预标注神经网络，对实拍采集图像数据进行标注，标注效率更高，标注结果也更准确，确保了训练数据与真实应用场景的一致性，保障了深度学习应用的鲁棒性。

本说明书中记载了大量的技术特征，分布在各个技术方案中，如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话，会使得说明书过于冗长。为了避免这个问题，本说明书上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征，都可以自由地互相组合，从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载)，除非这种技术特征的组合在技术上是不可行的。例如，在一个例子中公开了特征A+B+C，在另一个例子中公开了特征A+B+D+E，而特征C和D是起到相同作用的等同技术手段，技术上只要择一使用即可，不可能同时采用，特征E技术上可以与特征C相组合，则，A+B+C+D的方案因技术不可行而应当不被视为已经记载，而A+B+C+E的方案应当视为已经被记载。

附图说明

图1是根据本说明书第一实施方式的一种图像数据标注方法的流程示意图；

图2是根据本说明书第二实施方式的一种图像数据标注装置的结构示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

部分概念的说明：

场景还原：针对具体的应用场景，对场景进行数字化还原的过程，包含但不限于场景三维模型重建、光照采集等。

虚拟合成：通过计算机生成图像数据的方法，包含但不限于通过图形渲染生成图像数据。

预标注神经网络：基于虚拟合成图像数据训练出来的用于对实拍采集图像数据进行标注的神经网络。

深度学习技术的应用依赖于大量带有标注信息的图像数据，目前这些数据获得需要大量的人工参与，耗时，成本高，也不便于规模化。因此，对实拍采集图像进行标注是目前深度学习应用中主要的效率瓶颈之一。为此，本申请提出了一种基于虚拟合成数据的高效图像数据标注方法，不仅可以大幅度降低人力及时间成本，而且也具有规模化的优势。

下面将结合附图对本说明书的实施方式作进一步地详细描述。

本说明书的第一实施方式涉及一种图像数据标注方法，其流程如图1所示，该方法包括以下步骤：

在步骤101中，对任务场景进行三维重建。

针对任务场景，将场景里的环境与任务对象进行三维重建。

举个例子来说，这里所述的任务可以是对图像进行检测识别，任务场景可以是所述图像的拍摄场景。

在本实施方式中，三维重建的方式包括但不限于：通过建模师建模和利用三维扫描仪进行多角度融合重建等。

需要说明的是，对本领域技术人员来说，三维重建属于现有技术中的成熟技术，在此不再详细描述。

本领域技术人员可以理解，三维重建的结果包含了几何、文理和材质等信息。

另外，优选地，在步骤101之后，还包括以下步骤：

采集采集所述任务场景中的物理信息。

为了能够更好地通过虚拟合成还原现实场景，还需要采集任务场景中的物理信息，所述物理信息包括但不限于：光照、相机位置、镜头视场角(FOV)和畸变等。

光照采集可以通过在任务场景中放置光照探针(Light Probe)或者任意具有镜面反射材质的球体，利用相机进行多曝光采集得到高范围动态(HDR)图像来表示，也可以根据任务场景中的光照情况放置显式光源进行参数调节来获得。相机位置、FOV和畸变等信息可以通过利用棋盘格标定来获得。

此后进入步骤103，根据重建的任务场景的三维模型，生成虚拟合成图像数据，所述虚拟合成图像数据带有任务所需的标注信息。

进一步地，优选地，在步骤103中，通过图形渲染引擎生成虚拟合成图像数据。并且，所述图形渲染的方法包括：光栅化实时渲染和光线追踪离线渲染等。

将上述重建的任务场景的三维模型导入图形系统(例如，游戏引擎Unreal Unity等)，根据采集的光照信息设置光照属性，相机位置根据标定的外参结果放置，同时根据标定的内参进行FOV以及畸变模拟。利用图形渲染引擎生成虚拟合成图像数据，有别于实拍采集图像数据需要后期进行专门标注外，虚拟合成图像数据天然带有深度学习所需要的标注信息。因此，这里所生成的虚拟合成图像数据也必然带有任务所需的标注信息，如物体的轮廓、标识等。需要说明的是，渲染方式包括但不限于：光栅化实时渲染和光线追踪离线渲染等。近年来，随着图形处理技术与渲染技术的发展，渲染图像的真实感取得了长足的进步，目前已广泛应用于影视动画以及广告营销等，也为虚拟合成数据作为训练数据应用于深度学习提供了可能。同样地，关于图形渲染，在此也不再详细描述。

此外，为了能更好地提升虚拟合成图像数据的真实性，在本申请的实施方式中，还可以额外利用少量无标注的实拍采集图像数据通过图像层面迁移学习的方法对所述虚拟合成图像数据进行增强，同时保持所述虚拟合成图像数据的标注信息不变。

关于图像层面迁移学习的方法，可以参考2017年国际计算机视觉大会(ICCV)上由等Jun-Yan Zhu、Taesung Park、Phi llip Isola、Alexei A.Efros以和UC Berkeley等发表的一篇名为“Unpaired Image-to-Image Translation using Cycle-ConsistentAdversarial Networks(使用循环一致的对抗网络的非配对图像到图像的迁移)”的论文，在此不再详述。

此后进入步骤105，利用所述虚拟合成图像数据和所述虚拟合成图像数据带有的所述标注信息，训练预标注神经网络。

基于虚拟合成图像数据及其自身带有的标注信息，训练任务所需的神经网络。也就是说，在本申请的实施方式中，我们通过虚拟合成的方式解决了预标注神经网络的数据来源问题。另一方面，我们针对具体的任务场景生成高真实度的虚拟合成数据，确保了训练的预标注神经网络应用于对应场景时(即对实拍采集图像数据进行标注时)的高精度。

同样地，对本领域技术人员来说，神经网络的训练是现有技术中的成熟技术，在此不再详细描述。

此后进入步骤107，利用所述预标注神经网络对实拍采集图像数据进行标注，生成所述实拍采集图像数据的标注信息。

将预标注神经网络应用于实拍采集图像数据，对实拍采集图像数据进行标注，生成实拍采集图像数据的标注信息。

由于虚拟合成图像数据与实拍采集图像数据之间存在域的差异，预标注神经网络应用在实拍采集图像数据上不可避免地存在着误差。但是，在本申请的实施方式中，由于针对任务场景进行了虚拟数据合成，真实感渲染保证了预标注神经网络在实拍采集图像中的应用能达到很高的精度。此外，相比于直接利用虚拟合成图像数据直接训练对实拍采集图像数据进行检测识别的神经网络，本申请实施方式创造性地提出了利用虚拟合成图像数据训练预标注神经网络，对实拍采集图像数据进行标注，也就是说，利用虚拟合成图像数据训练的是对实拍采集图像数据进行标注的预标注神经网络。利用该预标注神经网络，只需要极少量的人工干预即可完成实拍采集图像数据的标注工作，标注效率大大提高，此外，这种方式也确保了训练数据与真实应用场景的一致性，从而保障了深度学习应用的鲁棒性。

此后结束本流程。

需要说明的是，在本申请各实施方式中，所述标注信息包括：物体的轮廓、标识和类别等。

综上所述，本申请针对特定的应用场景进行数据合成，并通过真实感渲染以及可选的迁移学习增强保证了合成数据的真实感，基于该数据生成的预标注神经网络比基于通用数据集训练的标注网络精度更高且稳定。根据实际测试结果显示，本申请的预标注神经网络在图像检测识别任务中的精度可以达到99％以上，只需要额外的极少量人工干预即可完成完整的实拍采集图像数据的标注工作，相比人工标注，标注效率提升了20倍。另一方面，由于虚拟合成图像数据的标注信息可以达到像素级精度，表现在对实拍采集图像数据标注上，其标注结果比人工标注更准确。另外，虚拟数据合成不受人工及使用场景限制，能够满足规模化的需求。

更重要的是，虽然通过优化虚拟合成图像数据的真实感，预标注神经网络作用于实拍采集图像数据达到了很高的精度，但是，本申请实施方式并不是把预标注神经网络直接应用于真实场景中，而是用作实拍采集图像数据的标注工具，通过极少量的人工干预获得完全精确的标注数据。由于保持了域信息，基于实拍采集图像数据训练的神经网络在真实应用场景中可以取得神经网络的最高精度，使得数据不再制约神经网络应用的瓶颈。

因此，本申请通过对任务场景进行虚拟数据合成，利用虚拟合成数据训练预标注神经网络，对实拍采集图像数据进行标注，标注效率更高，标注结果也更准确，确保了训练数据与真实应用场景的一致性，保障了深度学习应用的鲁棒性。

本说明书的第二实施方式涉及一种图像数据标注装置，其结构如图2所示，该图像数据标注装置包括：

场景重建模块，用于对任务场景进行三维重建。

优选地，所述场景重建模块采用通过建模师建模或利用三维扫描仪进行多角度融合重建的方式对任务场景进行三维重建。

虚拟合成模块，用于根据重建的任务场景的三维模型，生成虚拟合成图像数据，所述虚拟合成图像数据带有任务所需的标注信息。

有别于实拍采集图像数据需要后期进行专门标注外，虚拟合成图像数据天然带有深度学习所需要的标注信息。

所述标注信息可以包括：物体的轮廓、标识和类别。

优选地，所述虚拟合成模块通过图形渲染引擎生成虚拟合成图像数据。并且，所述图形渲染包括：光栅化实时渲染和光线追踪离线渲染。

预标注网络训练模块，用于利用所述虚拟合成图像数据和所述虚拟合成图像数据带有的所述标注信息，训练预标注神经网络。

此外，所述图像数据标注装置还可以包括：采集模块，用于采集所述任务场景中的物理信息。其中，所述物理信息包括：光照、相机位置、镜头视场角和畸变。

综上所述，本申请基于虚拟合成的方式为预标注神经网络生成数据，可以针对应用场景进行定制化数据生成，预标注神经网络精度更高。此外，本申请以高精度预标注神经网络并辅以少量人工辅助对实拍采集图像数据进行标注，大大提高了标注的效率，不受场景及人工限制，适应规模化拓展。

第一实施方式是与本实施方式相对应的方法实施方式，第一实施方式中的技术细节可以应用于本实施方式，本实施方式中的技术细节也可以应用于第一实施方式。

需要说明的是，本领域技术人员应当理解，上述图像数据标注装置的实施方式中所示的各模块的实现功能可参照前述图像数据标注方法的相关描述而理解。上述图像数据标注装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现，也可通过具体的逻辑电路而实现。本说明书实施例上述图像数据标注装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本说明书各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本说明书实施例不限制于任何特定的硬件和软件结合。

相应地，本说明书实施方式还提供一种计算机可读存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本说明书的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于，相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

此外，本说明书实施方式还提供一种图像数据标注设备，其中包括用于存储计算机可执行指令的存储器，以及，处理器；该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中，该处理器可以是中央处理单元(CentralProcessing Unit，简称“CPU”)，还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，简称“DSP”)、专用集成电路(Application SpecificIntegratedCircuit，简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory，简称“ROM”)、随机存取存储器(random access memory，简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

需要说明的是，在本专利的申请文件中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在本说明书提及的所有文献都被认为是整体性地包括在本说明书的公开内容中，以便在必要时可以作为修改的依据。此外应理解，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种图像数据标注方法，包括：

对任务场景进行三维重建；

2.如权利要求1所述的方法，其中，在所述对任务场景进行三维重建的步骤中，所述三维重建的方法包括：通过建模师建模和利用三维扫描仪进行多角度融合重建。

3.如权利要求1所述的方法，其中，在所述对任务场景进行三维重建的步骤之后，还包括：采集所述任务场景中的物理信息。

4.如权利要求3所述的方法，其中，所述物理信息包括：光照、相机位置、镜头视场角和畸变。

5.如权利要求1所述的方法，其中，在所述根据重建的任务场景的三维模型，生成虚拟合成图像数据的步骤中，通过图形渲染引擎生成虚拟合成图像数据。

6.如权利要求5所述的方法，其中，所述图形渲染的方法包括：光栅化实时渲染和光线追踪离线渲染。

7.如权利要求1至6中任一项所述的方法，其中，所述标注信息包括：物体的轮廓、标识和类别。

8.一种图像数据标注装置，包括：

场景重建模块，用于对任务场景进行三维重建；

9.如权利要求8所述的装置，其中，所述场景重建模块采用通过建模师建模或利用三维扫描仪进行多角度融合重建的方式对任务场景进行三维重建。

10.如权利要求8所述的装置，其中，还包括：采集模块，用于采集所述任务场景中的物理信息。

11.如权利要求10所述的装置，其中，所述物理信息包括：光照、相机位置、镜头视场角和畸变。

12.如权利要求8所述的装置，其中，所述虚拟合成模块通过图形渲染引擎生成虚拟合成图像数据。

13.如权利要求12所述的装置，其中，所述图形渲染包括：光栅化实时渲染和光线追踪离线渲染。

14.如权利要求8至13中任一项所述的装置，其中，所述标注信息包括：物体的轮廓、标识和类别。

15.一种图像数据标注设备，包括：

存储器，用于存储计算机可执行指令；以及，

处理器，用于在执行所述计算机可执行指令时实现如权利要求1至7中任意一项所述的方法中的步骤。

16.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如权利要求1至7中任意一项所述的方法中的步骤。