CN113128565A

CN113128565A - 面向预训练标注数据不可知的图像自动标注系统和装置

Info

Publication number: CN113128565A
Application number: CN202110317531.3A
Authority: CN
Inventors: 陈岱渊; 钟昊文; 单海军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-07-16
Anticipated expiration: 2041-03-25
Also published as: CN113128565B

Abstract

本发明公开了面向预训练标注数据不可知的图像自动标注系统，包括：获取模块和图像标注模块，及分别与所述获取模块和图像标注模块连接的模型迁移模块；所述获取模块，用于获取一组图像标注任务和待标注图像；所述模型迁移模块，用于将一组确定的预训练图像处理模型无监督迁移至适配于待标注图像域的更新后的图像处理模型，包括依次连接的模型拆分单元、信息最大化损失约束单元、聚类单元、标签空间分类单元、标签分配单元、分配更新单元和收敛单元；所述图像标注模块，用于生成与待标注图像相匹配的标注信息，并进行可视化标注。

Description

面向预训练标注数据不可知的图像自动标注系统和装置

技术领域

本发明涉及人工智能和计算机视觉领域，尤其是涉及了一种面向预训练标注数据不可知的图像自动标注系统和装置。

背景技术

随着网络信息时代的到来，每分每秒都有海量的图像数据生成。针对不同视觉任务，训练对应的深度学习模型往往需要大量的标注数据。但现有利用人工标注的方法不仅耗费大量人力和物力，同时不可避免地存在标注误差。因此各种图像自动标注方法被提出。目前，大部分图像自动标注方法采用有监督的方法来训练深度学习模型，以获得高准确率的标注结果。但是由于图像采集时存在光照、角度、背景等方面的影响，使得不同数据集之间存在较大分布差异。因此，这类有监督的方法很难保证模型在待标注数据上的泛化性能。

鉴于此现状，越来越多的图像自动标注工作利用迁移学习进行有效训练。迁移学习是将基于预训练数据集（源域）训练好的模型迁移到新数据集（目标域）来加速并优化新模型学习。其中，域适应是一种特殊的迁移学习方法，适用于以下情形：当有标注的源域数据和没有标注的目标域数据分布不同，但两个学习任务相同时。其常见的实现方式是学习一种特征转换，使得在转换后的空间中，源域数据和目标域数据分布的可区分度最小（即提取到不同域共有特征），从而使更新后的源域模型适用于无标注的目标域数据。但是基于域适应的方法需要同时获取源域数据和目标域数据。这对于数据存储和传输的要求十分高。相对应的，针对这些数据集训练好的预训练模型大小往往只有数据集大小的千分之一甚至更低。因此，采用依赖于没有标注数据的无监督训练方法进行自动标注更具实际应用价值。

发明内容

为解决现有技术的不足，通过自动化的手段，完成对待标注图像的自动标注，实现降低人工标注成本、提高图像标注的效率的同时，提升自动标注实际应用价值、降低了装置存储压力的目的，本发明采用如下的技术方案：

面向预训练标注数据不可知的图像自动标注系统，包括：获取模块和图像标注模块，及分别与所述获取模块和图像标注模块连接的模型迁移模块；

所述获取模块，用于获取一组图像标注任务和待标注图像；

所述模型迁移模块，用于将一组确定的预训练图像处理模型无监督迁移至适配于待标注图像域的更新后的图像处理模型，包括依次连接的模型拆分单元、信息最大化损失约束单元、聚类单元、标签空间分类单元、标签分配单元、分配更新单元和收敛单元；

所述模型拆分单元，将确定的预训练图像处理模型拆分为特征提取模型

和标注预测模型

，通过输入待标注图像

对特征提取模型

进行参数更新，并得到更新后的模型

，固定标注预测模型

的参数，使得

；

所述信息最大化损失约束单元，采用信息最大化损失约束预训练图像处理模型的特征提取模型，使预训练图像处理模型输出的具体类别确定，整体类别分布离散；

所述聚类单元，通过加权聚类，对预训练图像处理模型的特征提取模型的输出特征进行聚类；

所述标签空间分类单元，使用大津法自适应地获取聚类簇大小的阈值，根据阈值区分预训练数据集标签空间，具体分为预训练数据集与待标注图像的共有类别，预训练数据集的独有类别；

所述标签分配单元，计算所有待标注图像与每个共有类别的距离，并据此给所有待标注图像打上伪标签；

所述分配更新单元，使用自监督方法对待标注图像重新聚类，并根据重新聚类后的聚类中心分配伪标签；

所述收敛单元，判断更新后的预训练图像处理模型是否达到收敛，若否，则返回信息最大化损失约束单元，直到收敛；此时，更新后的特征提取模型

提取待标注图像

的深度特征，与预训练的特征提取模型

提取相对应的源域数据的深度特征，在高维空间中的分布差异最小；

所述图像标注模块，用于生成与待标注图像相匹配的标注信息，并进行可视化标注。

进一步地，所述模型迁移模块还包括预处理单元，对待标注图像进行预处理，包括图像清洗、图像增强、图像标准化，以确保每张图像数据特征的一致性。

进一步地，所述收敛单元，确定收敛的方式包括如下一种或多种方式的结合：

通过记录预训练图像处理模型，在迁移过程中，损失函数的曲线趋势，判断是否收敛，当损失函数的曲线斜率小于预先设定的斜率阈值时，确定更新后的预训练图像处理模型达到收敛；

通过记录预训练图像处理模型，在迁移过程中，特征提取模型

的权重变化趋势，判断是否收敛，当权重变化的幅度小于预先设定的幅度阈值时，确定更新后的预训练图像处理模型达到收敛；

预先设定预训练图像处理模型与训练相关的超参数阈值，当达到超参数阈值时，确定更新后的预训练图像处理模型达到收敛，所述超参数包括迁移的步数、时长。

进一步地，当任务选择图像检测，预训练的图像处理模型为Faster RCNN（FasterRegion-based Convolutional Neural Networks），待标注图像包含一个以上待标注对象时，对每个待标注对象进行检测，通过输入待标注图像对特征提取模型

进行参数更新得

，固定边界框预测模型的参数，使得

，在迁移过程中，边界框预测模型

生成伪边界框对每个待标注对象进行检测，将伪边界框引入迁移过程，帮助参数更新达到收敛。

进一步地，所述获取模块，包括任务选取单元、模型确定单元、图像获取单元和格式判断单元；

所述任务选取单元，用于用户选择图像标注任务；

所述模型确定单元，用于确定标注任务对应的性能SOTA预训练图像处理模型；

所述图像获取单元，用于从数据库中获取待标注图像；

所述格式判断单元，用于判断待标注图像是否满足规定格式，若否，则输出提示信息，并继续通过图像获取单元获取待标注图像进行格式判断。

进一步地，获取待标注图像的方式包括：直接读取数据库中保存的二进制形式的图像文件；获取数据库中保存的图像路径，根据路径在对应本地或远程存储器上读取图像文件。

进一步地，所述图像标注模块，包括依次连接的标注信息生成单元、标注单元、输出单元，所述输出单元与数据库连接；

所述标注信息生成单元，用于将待标注图像输入到更新后的预训练图像处理模型，生成标注信息；

所述标注单元，根据标注信息以及待标注图像中标注元素之间的对应关系，对待标注图像进行标注；

所述输出单元，将标注后的标签结果及其与待标注图像的对应关系输出，并存储在数据库中。

进一步地，所述图像标注模块包括内置呈现模块，和/或外接呈现模块；

所述内置呈现模块，用于根据标注信息对待标注图像直接进行可视化标注；

所述外接呈现模块，通过标注工具，对经格式转换的标注信息进行可视化呈现。

进一步地，当确定选择多个预训练图像处理模型时，最终的标注信息通过规则选择单元进行确定，所述规则选择单元，包括选择标注概率最大、范围最大，取标注交集、并集的方式。

进一步地，所述图像标注任务，包括：图像分类、目标检测、语义分割、人脸关键点检测、视频行为识别任务。

进一步地，所述预训练图像处理模型，是性能SOTA的Top N图像处理模型，形成视觉任务模型集合，包括：

图像分类：VGG、ResNet、DenseNet、Inception ；

目标检测：RCNN系列，YOLO系列、SSD系列；

语义分割：Mask RCNN、DeepLab、UNet。

进一步地，当任务选择目标检测，预训练图像处理模型为预训练图像检测模型时，标注信息指示待标注图像内部的检测对象的位置信息和分类类别。

进一步地，当任务选择图像分类，预训练图像处理模型为预训练图像分类模型时，标注信息指示待标注图像的分类类别。

进一步地，处理器对存储器中或者输入或输出装置中的指令进行处理；

所述存储器，用于存储非瞬时软件程序、指令以及模块，包括存储获取模块、模型迁移模块和图像标注模块；

所述处理器，通过处理存储器中的非瞬时软件程序、指令以及模块，从而执行各种功能应用和数据处理，即实现执行图像自动标注。

进一步地，所述存储器，包括高速随机存取存储器、非易失性存储器、远离处理器的远程存储装置，所述远程存储装置通过网络与装置连接。

进一步地，所述处理器，包括CPU、GPU、中央处理器、网络处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件。

进一步地，所述输入装置，接收输入的数字或字符信息，以及与实现图像自动标注的电子设备的用户设备以及功能控制相关的键信号输入，包括触摸屏、键盘、鼠标；

进一步地，所述输出装置，包括显示设备、辅助照明装置和触觉反馈装置，所述显示设备包括液晶显示屏、发光二极管显示器和触摸屏。

本发明的优势和有益效果在于：

本发明的系统和装置提高了图像自动标注装置的灵活性；图像自动标注系统基于无监督的域适应方法，可以在不获取有标注的训练图像数据的情况下，通过用户选择的计算机视觉任务确定预训练的性能State-Of-The-Art(SOTA)的深度学习模型，完成用户无感知的模型迁移，得到适配于待标注图像的更新后的深度学习模型，相对于传统的有监督方法，增加了图像自动标注的实用性，提高了标注效率，减低了人工成本，并保证了标注精度；同时，因为不再存储有标注的训练图像数据，降低了图像自动标注装置的存储压力，减少了数据传输成本。

附图说明

图1是本发明的系统结构图。

图2是本发明中获取模块的软件流程图。

图3是本发明中模型迁移模块的软件流程图。

图4是本发明中图像标注模块的软件流程图。

图5是本发明的装置结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，一种面向预训练标注数据不可知的图像自动标注系统，该系统包括依次连接的获取模块、模型迁移模块和图像标注模块，所述获取模块与数据库连接。

获取模块，用于获取图像标注任务和待标注图像。如图2所示，该模块具体流程包括：

1、用户选择图像标注任务；

2、确定标注任务对应的性能SOTA预训练图像处理模型；

3、从数据库中读取待标注图像；

4、判断待标注图像是否满足规定格式，若否，则输出提示信息，重复3。

图像标注任务的选择包括但不仅限于：图像分类、目标检测、语义分割、人脸关键点检测、视频行为识别等计算机视觉领域任务。例如：若想对待标注图像进行大规模的标注时，可在任务选择中选择多个任务，在实际应用中可根据具体需要，对任务选择的数量进行设定。

本发明已离线收集预训练的各类计算机视觉领域任务相对应的性能SOTA的Top N（N可灵活设定）图像处理模型，形成视觉任务模型集合。具体地，可参考以下但不仅限于以下的模型选择：

图像分类：VGG、ResNet、DenseNet、Inception ；

目标检测：RCNN系列，YOLO系列、SSD系列；

语义分割：Mask RCNN、DeepLab、UNet。

从数据库中获取待标注图像可参考但不仅限于以下读取方式：

1、直接读取数据库中保存的二进制形式的图像文件，该二进制文件可存储在常见数据库MySQL的BLOB字段，MEDIUMBLOB字段或LONGBLOB字段；

2、获取数据库中保存的图像路径，根据路径在对应本地或远程存储器上读取图像文件。

模型迁移模块，用于将确定的预训练图像处理模型无监督迁移至适配于待标注图像域的更新后的图像处理模型。如图3所示，该模块具体流程包括：

1、对待标注图像进行预处理操作（包括但不仅限于：图像清洗、图像增强、图像标准化）以确保每张图像数据的特征（如颜色分布、尺寸大小或明暗程度等）尽可能一致；

2、将待标注图像输入确定的预训练图像处理模型，利用本发明提供的一种面向预训练标注数据不可知的图像自动标注方法，无监督地迁移预训练的图像处理模型并更新参数；

3、判断模型迁移过程是否收敛，若否，则重复步骤。

4、完成模型迁移，得到更新后的图像处理模型。

具体地，模型迁移方法分为以下步骤：

步骤一、将确定的预训练图像处理模型拆分为特征提取模型

和标注预测模型

可选择通过输入所述待标注图像

对所述特征提取模型

进行参数更新并得到更新后模型

，而固定标注预测模型的参数，使得

。

步骤二、采用信息最大化损失约束图像处理模型的特征提取器，使图像处理模型输出的具体类别确定，整体类别分布离散。

步骤三、通过加权聚类方法对图像自动标注模型的特征提取器输出特征进行聚类。

步骤四、使用大津法自适应地获取聚类簇大小的阈值，根据阈值区分预训练数据集标签空间。具体分为预训练数据集与待标注数据共有类别（以下简称共有类别）和预训练数据集独有类别。

步骤五、计算所有样例与每个共有类别的距离，并据此给所有待标注样例打上伪标签。

步骤六、使用自监督方法对待标注样例重新聚类，并根据重新聚类后的聚类中心分配伪标签。

步骤七、判断更新后的图像处理模型是否达到收敛，若否，则重复上述步骤二到六直到收敛。此时更新后的特征提取模型

提取待标注图像

的深度特征与预训练的特征提取模型

提取相对应的源域数据的深度特征在高维空间中的分布差异最小。

可选地，判断收敛的方式可选择下述的一种或多种方法相结合：

1、通过记录模型迁移过程中损失函数的曲线趋势进行判断。具体地，当损失函数的曲线斜率小于预先设定的阈值时，可确定更新后的图像处理模型达到收敛。

2、通过记录模型迁移过程中图像处理模型中特征提取模型

的权重变化趋势进行判断。具体地，当权重变化的幅度小于预先设定的阈值时，可确定更新后的图像处理模型达到收敛。

3、通过设定模型迁移的步数、时长等与训练相关的超参数，当达到预先设定的阈值时，即作为停止/收敛的条件。

进一步的，因为一个所述任务选择可以对应多个预先训练的图像处理模型，在实际应用中，可根据具体需要确定选择一个或多个预先训练的图像处理模型。当确定选择多个预先训练的图像处理模型时，最终的标注信息可根据一定选择规则进行确定。所述一定选择规则，包括但不仅限于选择标注概率最大，范围最大，取标注交集、并集的方式。

作为一种可行的实施方式，所述任务选择可以为图像检测，所述预先训练的图像处理模型可以是RCNN系列中的Faster RCNN（(Faster Region-based ConvolutionalNeural Networks）。此时，所述待标注图像可能包含可能不止一个待标注对象，这时需要对每个待标注对象进行检测。所述图像处理模型由特征提取模型

和边界框预测模型

构成。与上一种实施方式类似，可以通过输入待标注图像对所述特征提取模型

进行参数更新得

，而固定所述边界框预测模型的参数，使得

。其中，在训练过程中，所述边界框预测模型

可生成伪边界框来对每个待标注对象进行检测，可以将所述伪边界框引入训练过程，帮助所述参数更新达到收敛。

图像标注模块，用于生成与所述待标注图像相匹配的标注信息，并进行可视化标注。如图4所示，该模块具体流程包括：

1、将预处理后的待标注图像输入到所述更新后的图像处理模型，生成标注信息；

2、根据所述标注信息以及待标注图像中标注元素之间的相对应关系对待标注图像进行标注；

3、将标注后的标签结果及与数据样本的对应关系存储在数据库中。

可选地，具体标注方式可选择下述的一种或多种方法相结合：

1、所述图像标注模块，可以包含内置呈现模块，用于根据所述标注信息对所述待标注图像直接进行可视化标注。

2、所述图像标注模块，也可以包含外接呈现模块。在实际应用场景中，可以选择常用标注工具对所述经格式转换的标注信息进行可视化呈现。具体地，所述任务选择为图像分类，根据更新后的图像处理模型得到所述待标注图像的标注信息后，将所述标注信息转化了LabelMe可读的json文件，从而可以利用LabelMe将所述标注信息进行可视化标注。

作为一种可选的实施方式，所述任务选择为目标检测，所述预先训练的图像处理模型为预先训练的图像检测模型，所述标注信息指示所述待标注图像内部的检测对象的位置信息和分类类别。

作为一种可选的实施方式，所述任务选择为图像分类，所述预先训练的图像处理模型为预先训练的图像分类模型，所述标注信息指示所述待标注图像的分类类别。

本实例提供的一种面向预训练标注数据不可知的图像自动标注系统可适用于通用图像自动标注场景。该系统可由图像自动标注装置来执行，该装置可由软件和/或硬件的方式来实现，一般可集成在电子设备中。该电子设备可以是计算机设备，也可以是可移动设备等其他具备如图5所示结构的电子设备中。

如图5所示，本实例还提供了一种电子设备和可读存储介质。所述电子设备包括：存储器、处理器、输入装置、输出装置。各个部件利用总线进行连接，并且可以被安装在公共主板上或者根据实际需要以其他方式进行安装。所述处理器可以对在所述电子设备内执行的指令进行处理，包括存储器中的指令或者输入或输出装置中的指令。在其他实施方式中，按实际需要可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作。如图5所示，仅以一个处理器S202为例。

电子设备可表示各种形式的数字计算机，包括但不仅限于，便携式平板电脑、台式计算机、高计算量的智能手机、大型计算机。如图5所示的部件、部件的连接和关系和部件的功能仅作为展示实例，并不意在限制本文中描述的和/或者要求的实现。

所述存储器，即为本发明所提供的非瞬时计算机可读存储介质。其中，所述存储器存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，例如，本发明中的图像自动标注方法对应的程序指令/模块（如图1中的获取模块、模型迁移模块和图像标注模块）。所述处理器，通过处理存储在所述存储器中的非瞬时软件程序、指令以及模块，从而执行各种功能应用和数据处理，即实现执行本发明所提供的图像自动标注方法。

作为一种可选的实施方式，所述存储器，可以包括高速随机存取存储器，还可以包括非易失性存储器，比如至少一个磁盘存储器、闪存器等。另外，所述存储器，还可以是至少一个远离所述处理器的远程存储装置。所述远程存储装置可以通过网络连接至所述电子设备上。所述网络连接包括但不仅限于局域网、广域网和互联网。

所述处理器，可以是通用处理器，包括但不仅限于Central Processing Unit（CPU）、Graphics Processing Unit（GPU）、中央处理器、网络处理器，还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件等。

所述输入装置，可接收输入的数字或字符信息，以及与实现图像自动标注方法的电子设备的用户设备以及功能控制相关的键信号输入，例如触摸屏、键盘、鼠标等输入装置。所述输出装置，可包括显示设备、辅助照明装置和触觉反馈装置等。所述显示设备包括但不仅限于液晶显示屏、发光二极管显示器和触摸屏。

作为一种可选的实施方式，可以增加多种形式的反馈来增加与用户的交互，例如，视觉反馈、听觉反馈或者触觉反馈，包括但不仅限于利用显示装置、键盘和指向装置。并且可以用任何形式来接收来自用户的输入，包括但不仅限于语音输入、触觉输入等。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.面向预训练标注数据不可知的图像自动标注系统，包括：获取模块和图像标注模块，其特征在于还包括分别与所述获取模块和图像标注模块连接的模型迁移模块；

所述获取模块，用于获取一组图像标注任务和待标注图像；

和标注预测模型

，通过输入待标注图像

对特征提取模型

进行参数更新，并得到更新后的模型

，固定标注预测模型

的参数，使得

；

所述信息最大化损失约束单元，采用信息最大化损失约束特征提取模型，使预训练图像处理模型输出的具体类别确定，整体类别分布离散；

所述聚类单元，通过加权聚类，对特征提取模型的输出特征进行聚类；

所述标签分配单元，计算待标注图像与每个共有类别的距离，并据此给所有待标注图像打上伪标签；

所述收敛单元，判断更新后的预训练图像处理模型是否达到收敛，若否，则返回信息最大化损失约束单元，直到收敛；

2.如权利要求1所述的面向预训练标注数据不可知的图像自动标注系统，其特征在于所述模型迁移模块还包括预处理单元，对待标注图像进行预处理，包括图像清洗、图像增强、图像标准化，以确保每张图像数据特征的一致性。

3.如权利要求1所述的面向预训练标注数据不可知的图像自动标注系统，其特征在于所述收敛单元，确定收敛的方式包括如下一种或多种方式的结合：

4.如权利要求1所述的面向预训练标注数据不可知的图像自动标注系统，其特征在于当任务选择图像检测，预训练的图像处理模型为Faster RCNN，待标注图像包含一个以上待标注对象时，对每个待标注对象进行检测，通过输入待标注图像对特征提取模型

进行参数更新得

，固定边界框预测模型的参数，使得

，在迁移过程中，边界框预测模型

5.如权利要求1所述的面向预训练标注数据不可知的图像自动标注系统，其特征在于所述获取模块，包括任务选取单元、模型确定单元、图像获取单元和格式判断单元；

所述任务选取单元，用于选择图像标注任务；

所述模型确定单元，用于确定标注任务对应的预训练图像处理模型；

所述图像获取单元，用于获取待标注图像；

所述格式判断单元，用于判断待标注图像是否满足规定格式。

6.如权利要求1所述的面向预训练标注数据不可知的图像自动标注系统，其特征在于获取待标注图像的方式包括：直接读取数据库中保存的二进制形式的图像文件；获取数据库中保存的图像路径，根据路径在对应本地或远程存储器上读取图像文件。

7.如权利要求1所述的面向预训练标注数据不可知的图像自动标注系统，其特征在于所述图像标注模块，包括依次连接的标注信息生成单元、标注单元、输出单元，所述输出单元与数据库连接；

所述输出单元，将标注后的标签结果及其与待标注图像的对应关系输出。

8.如权利要求1所述的面向预训练标注数据不可知的图像自动标注系统，其特征在于所述图像标注模块包括内置呈现模块，和/或外接呈现模块；

9.如权利要求1所述的面向预训练标注数据不可知的图像自动标注系统，其特征在于当确定选择多个预训练图像处理模型时，最终的标注信息通过规则选择单元进行确定，所述规则选择单元，包括选择标注概率最大、范围最大，取标注交集、并集的方式。

10.如权利要求1所述的图像自动标注装置，包括相互连接的处理器、存储器、输入装置和输出装置，其特征在于处理器对存储器中或者输入或输出装置中的指令进行处理；

所述处理器，通过处理存储器中的非瞬时软件程序、指令以及模块，执行图像自动标注。