CN111797653A

CN111797653A - 基于高维图像的图像标注方法和装置

Info

Publication number: CN111797653A
Application number: CN201910280680.XA
Authority: CN
Inventors: 提纯利; 叶璟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2020-10-20
Anticipated expiration: 2039-04-09
Also published as: WO2020206850A1; CN111797653B

Abstract

本申请实施例提供了一种基于高维图像的图像标注方法和装置。本申请实施例提供的方案中，获取高维图像以及高维图像的分析结果，将高维图像降维为低维图像之后对低维图像进行分析得到低维图像分析结果，再根据高维图像的分析结果和低维图像的分析结果对高维图像和经由高维图像降维得到的低维图像进行自动化清洗和标注。本申请实施例利用高维图像的数据维度和信息量的优势，能够获取更为准确、置信度更高的分析结果，并根据高维图像分析结果提升低维图像的智能分析准确率，结合高维图像和低维图像的分析结果，提高自动标注图像的准确率。

Description

基于高维图像的图像标注方法和装置

技术领域

本申请涉及图像处理领域，特别涉及一种基于高维图像的图像标注方法、装置及系统。

背景技术

在视频监控领域，利用目标检测、跟踪、识别、属性检测及再识别(Re-Identification，ReID)等智能算法分析视频内容的技术已经得到了广泛应用。随着半导体技术的发展及轻量化模型压缩的成熟，智能分析模型既能够部署在云服务器上，也能部署在智能终端，如智能摄像机、智能会议终端或手机等。

视频智能分析算法多为以深度学习为代表的机器学习算法。由于深度学习模型的神经网络结构通常较为复杂，因此需要利用数量巨大且高质量的标注图像集进行训练才能得到较为理想的模型参数。目前，用于深度学习模型训练的数据集需要人工标注，费时费力。而且，数据的数量、质量和环境分布直接影响其运行质量。因此，构建大规模、高质量的标注图像集是影响智能分析算法的关键所在。

发明内容

有鉴于此，本申请实施例提供了一种基于高维图像的图像标注方法、装置及系统，利用高维图像中包含的丰富的真实场景中的数据信息，实现在线自动数据标注，获得高质量、高置信度的标注图像集，以缓解人工标注费时费力，以及数据集场景差异导致的训练后的智能分析模型环境适应性差的问题。基于本申请实施例提供的技术方案获得的标注图像集，可以用于离线训练模型，也可以与支持在线训练的模型相结合，持续优化模型性能。

为达到上述目的，第一方面，本申请实施例提供了一种基于高维图像的图像标注方法，该方法中，首先获取高维图像和对应的第一分析结果，第一分析结果中包括第一目标位置信息和第一主语义标签，再对高维图像进行降维处理并得到低维图像，然后对低维图像进行分析，得到第二分析结果，第二分析结果包括第二目标位置信息和第二主语义标签，最后，根据第一目标位置信息和第二目标位置信息在低维图像和/或高维图像中标记出待标注目标所在的位置区域，并利用第一主语义标签和第二主语义标签标注该位置区域，进而完成对低维图像和高维图像的标注。本申请实施例提供的方法中，充分利用高维图像数据维度和信息量的优势，对高维图像进行智能分析，得到相应的分析结果，并用高维图像的分析结果辅助低维图像的标注，能够提高低维图像的智能分析准确率，进而获取到高质量、高置信度的标注数据集。

其中，可以有多种方式确定低维图像和/或高维图像中待标注目标所在的位置区域，例如，在目标分割或目标追踪标注任务中，由于从高维图像中能够更准确地提取出各目标区域，可以直接将第一目标位置信息作为待标注目标所在的位置区域；或者，在目标识别、ReID或目标属性等标注任务中，可以将第二目标位置信息作为待标注目标所在的位置区域；或者，在某些标注任务中，为更好地排除目标位置区域中的干扰信息，可以利用第一分析结果中的目标位置信息和第一主语义标签的材质和三维结果信息，在第二目标位置信息范围内确定待标注目标所在的位置区域，这样可以剔除远景、非目标材质等背景干扰信息。

其中，根据标注任务以及得到的分析结果的不同，可以有多种策略将第一主语义标签和第二主语义标签标注给待标注目标的位置区域。例如，可以利用所述第一分析结果调整所述第二分析结果的置信度，若所述第二分析结果调整后的置信度高于置信度阈值，则将所述第二主语义标签标注给待标注目标在低维图像和/或高维图像中位置区域；若所述第一分析结果的置信度高于置信度阈值，将所述第一主语义标签标注给待标注目标在低维图像和/或高维图像中的位置区域；若所述第一分析结果和所述第二分析结果中存在多个具有相关性的结果，选取最大置信度的结果，当所述最大置信度高于置信度阈值，将所述最大置信度的结果对应的主语义标签标注给待标注目标在低维图像和/或高维图像中对应的位置区域；将所述第一分析结果和所述第二分析结果中的特征向量组合后获得第三分析结果以及对应的置信度，选取第一分析结果、第二分析结果和第三分析结果的置信度中的最大置信度，若所述最大置信度大于置信度阈值，将所述最大置信度对应的分析结果的主语义标签标注给待标注目标在低维图像和/或高维图像对应的位置区域。本申请实施例给出了多种不同的标注策略，针对不同的标注任务可以采用不同的标注策略，也可以将上述标注策略进行组合，本领域技术人员可以根据需要灵活选择。

可选的，第一分析结果和第二分析结果中不仅仅包括主语义标签，还可能得到跟标注任务非直接关联的辅助语义标签，在将主语义标签标注到待标注目标的位置区域后，还可以将第一辅助语义标签和/或第二辅助语义标签中的部分或全部辅助语义标签标注到该位置区域。通过上述方法，可以更充分利用高维图像的分析结果，对高维图像和/或低维图像进行更为全面的标注，提高了图像的利用效率。

可选的，在对高维图像进行降维处理，得到低维图像时，可以先对高维图像进行降维处理，得到第一低维图像，再检测第一低维图像中目标的感兴趣区域(region ofinterest，ROI)边界框(bounding box)，从第一低维图像的ROI边界框中进行背景剔除，得到第二低维图像，利用智能分析模型对第二低维图像进行分析，得到第二分析结果。通过上述方式，可以仅分析进行了背景剔除等操作得到的第二低维图像，能够减少干扰，提高分析的准确率。

本申请实施例提供的图像标注方法可以标注多种图像，包括第一低维图像、第二低维图像以及根据高维图像降维得到的其他低维图像，可以充分利用从高维图像中得到的第一分析结果和从低维图像中得到的第二分析结果来标注图像，能够增加标注数据集。

在标注之前，还可以对低维图像和高维进行过滤，将低维图像和高维图像中低质量和低置信度的图像过滤，过滤的方法有多种，例如可以采用质量评估或多模型分析算法等。

其中，低质量图像包括图像中目标被遮挡的图像、模糊图像、低信噪比图像和包含多个目标图像中的一种或多种，低置信度图像包括图像的分析结果置信度低或图像对应的第一分析结果和第二分析结果矛盾。

本申请实施例中的高维图像可以为多光谱图像、高光谱图像、多偏振角图像和红绿蓝深度图像中的一种或多种。

第二方面，本申请实施例提供了一种图像标注装置，该图像标注装置具有实现上述第一方面所述的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面，本申请实施例提供了一种图像标注装置，包括：处理器、存储器、总线和通信接口；该存储器用于存储计算机执行指令，该处理器与该存储器通过该总线连接，当该设备管理中心运行时，该处理器执行该存储器的该计算机执行指令，以使该图像标注装置执行如上述第一方面中任意所述的基于高维图像的图像标注方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读介质中存储有指令，当其在计算机上运行时，使得计算机可以执行上述第一方面中任意一项的基于高维图像的图像标注方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机可以执行上述第一方面任意一项的基于高维图像的图像标注方法。

其中，第四方面至第七方面中任一种设计方式所带来的技术效果可参见第二方面中不同设计方式所带来的技术效果，此处不再赘述。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的基于高维图像的图像标注系统的架构图；

图2为本申请实施例提供的一种计算机设备的结构示意图；

图3为本申请实施例提供的基于高维图像的图像标注方法框架示意图；

图4为本申请实施例提供的基于高维图像的图像标注方法流程示意图；

图5为本申请实施例提供的图像标注装置的结构示意图；

图6为本申请实施例提供的图像标注装置的又一种结构示意图。

具体实施方式

为方便理解本申请实施例的技术方案，首先给出本申请相关技术的简要介绍如下：

1、高维图像：数字图像是二维图像用有限数字数值像素的表示。数字图像中的每个像素通常对应于二维空间中一个特定的“位置”，并且由一个或者多个与该点相关的采样值组成数值。传统图像传感器获取的数字图像主要包含灰度图像和彩色图像两类，其中灰度图像由一个亮度值表示，彩色图像由RGB或转换到其他色彩空间的三个颜色分量值表示。本申请实施例中所述的高维图像包括但不限于多光谱图像、高光谱图像、多偏振角图像或者RGB+深度图像等，其特点是在二维空间位置上不只存在亮度信息，还包含光谱维、偏振维、深度空间等其他维度的更丰富的信息。本申请实施例中所述高维图像可以是上述的图像的某一种，也可以是几种的组合。所述高维图像可以是由一个硬件设备直接拍摄获取，也可以是由两个或多个设备获得的信息，经空间校准后融合或组合处理获得。

2、数据标注：数据标注是指根据任务需求对所收集的数据进行结构化处理，得到可供计算机识别分析的数据的过程，主要包括两个步骤：1.用方形的边界框(boundingbox)和柔性边界的区域划分等标记目标在图像中的位置信息；2.给图像上位置信息对应区域上的图像内容添加识别ID、分类结果、属性、特征等语义标签(Label)。数据标注用于为机器学习中的监督学习提供训练和测试的数据集，是基于深度学习等监督学习算法的人工智能应用的基础工作。

其中，图像的标注主要包括以下几个类别：

检测(Detection)框标注：在图像中标记待检测的对象的位置区域，用语义标签标记出所述检测结果，主要用于机非人检测、人脸检测等任务；

分类(Classification)标注：在图像中标记待分类对象的位置区域，并根据分类任务添加对应的类别标签，主要用于人脸识别、物体分类、目标追踪、目标再识别等任务；

属性(Attribute)标注：在图像中标记出待描述属性对象的位置区域，并添加描述对象属性的标签；

分割(Segmentation)标注：相对于检测框标注更加精细，具有柔性的轮廓线对图片进行切割，将图片划分为若干自适应形状的封闭区域(Region)，为每个封闭区域内包含的像素集合添加分割区域ID(如Region1，Region2…等)。

在进行数据标注前通常需要先对数据进行清洗，使数据符合算法和应用的需求。数据的清洗包括去除异常/无效/低置信的图像、将图像整理成规整的格式等。

3、位置信息：用于描述目标内容在图像坐标系中所处的位置，计算机可以利用该位置信息确定出与目标内容相对应的像素集合。位置信息通常包括：矩形的ROI边界框、柔性边界的区域划分等形式，特殊地，直接对整幅图像进行标注时可以认为该位置信息为图像的全部区域。

4、语义标签：用于提供计算机可识别分析的描述目标图像特性的信息，包括检测结果、识别ID、类别、属性、追踪ID、区域ID等。本申请实施例中所述的主语义标签为与标注任务直接对应的语义标签，会体现在标注结果中；辅助语义标签与标注任务非直接相关，主要用来协助标注和清洗过程中的决策，可以不体现在标注结果中。例如，在对目标识别任务进行标注时，识别ID为主语义标签，目标属性等标签为辅助语义标签；对目标属性进行标注时，目标属性则为主语义标签。智能分析结果的置信度通常作为辅助语义标签，用于辅助图像的标注，而不直接用于标注图像。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，方法实施例中的具体操作方法也可以应用于装置实施例中。其中，在本申请的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

本申请实施例描述的系统架构以及业务场景是为了更加清楚地说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

如图1所示，为本申请实施例提供的基于高维图像的图像标注系统的架构示意图。该系统100中包括高维图像采集装置110以及基于高维图像的图像标注装置120。

高维图像采集装置110用于采集和预处理高维图像，并利用相应的智能分析算法实现目标检测、追踪、识别或属性信息提取等功能，将处理后的高维图像和分析结果传输给图像标注装置。高维图像采集装置包括高维图像采集单元111、预处理单元112和高维图像智能分析单元113。

其中，高维图像采集单元111用于获取高维图像，相比于传统可见光/近红外图像传感器，本单元可以获取在光谱、偏振、相位或深度等维度具有更多信息的图像，高维图像包括但不限于MSI、HSI、多偏振角图像或者RGB+D图像等。高维图像采集单元111可以由各种新型的高维图像传感器实现，具有高维图像传感器的图像采集设备能够采集到实际场景中的HSI、MSI、多偏振角图像或RGB+D图像等高维图像。

预处理单元112用于对高维图像采集单元采集的高维图像进行降噪、辐射校正、畸变校正等预处理。

高维图像智能分析单元113，用于根据标注任务需要，利用对应的图像处理和机器学习等算法对高维图像进行智能分析。由于具有更高的数据维度以及高维图像中含有的材质、三维结构等额外信息的优势，高维图像智能分析单元113可以获得比传统可见光图像的智能分析系统更为准确、置信度更高的目标检测、识别、追踪，材质识别、对象分割、ReID等分析结果。高维图像智能分析单元得到的结果可以用于辅助低维数据的智能分析和标注。

图像标注装置120用于将高维图像降维为RGB可见光图像、近红外图像等低维图像，再对低维图像进行目标检测、跟踪、识别等智能分析处理，并结合高维图像分析结果对低维图像进行自动化的标注和数据清洗，最终生成标注图像集。图像标注装置包括图像降维单元121、低维图像智能分析单元122以及数据标注单元123。

其中，图像降维单元121，用于根据高维图像与低维图像之间的关系，直接抽取高维图像中的部分信息或利用光谱转移矩阵等方式将高维图像转换为RGB可见光图像或近红外光图像等低维图像。

低维图像智能分析单元122，用于根据具体的标注任务，利用相应的智能分析算法对降维得到的低维图像进行目标检测、跟踪、识别、提取目标属性及目标结构化信息等智能分析处理。在对低维图像进行智能分析处理时，还可以基于低维图像对应的高维图像分析结果，利用其对象分割等结果，对降维得到的低维数据进行背景剔除等操作，以提升分析结果的准确性。

图像自动标注单元123综合利用高维图像的分析结果和低维图像的分析结果，对实际场景获取的高维图像降维得到的低维图像和/或高维图像进行自动化标注。对用于不同任务的图像，其标注策略和具体的标注方式具有一定差异，下文将结合具体的标注任务详细阐述如何进行自动化标注。

当前低维图像应用广泛，积累了许多标注图像、底库对比数据和相对成熟的智能分析方法。同时，由高维图像降维得到的低维图像与传统低维图像传感器获取的图像具有相似的性质。对降维得到的低维图像的智能分析可以更方便高效的获取人脸检测框、人体检测框、车辆检测框、衣着样式属性等二维特性强相关的分析结果，并获取高维图像暂时不易获取的、需要与底库信息比对的人脸识别ID等语义标签。由于高维图像和其对应的低维图像在二维空间上是对齐的，可以通过综合利用以上框选位置、区域划分和语义标签结果，并结合质量评估、置信度评估、MCS等算法和策略清洗掉低质量、低置信度、不同分析结论间存在矛盾等结果，对由高维图像降维得到的低维图像和/或高维图像进行标注。

需要说明的是，图1中的高维图像采集装置110和图像标注装置120，可以由一个实体设备实现，也可以分别由多个实体设备共同实现，还可以是一个实体设备内的一个逻辑功能模块，本申请实施例对此不作具体限定。例如，由一个实体设备实现高维图像采集装置110和图像标注装置120的功能，这样该设备既可以采集高维图像，又可以将高维图像降维处理，并标注降维得到的低维图像，该设备即为图1中的基于高维图像的图像标注系统。

可选的，也可以分别采用独立的装置来分别实现高维图像采集装置和图像标注装置的功能，即可以利用已有的高维图像采集装置，再与本申请实施例提供的图像标注装置结合，实现基于高维图像的图像标注功能。

可选的，还可以由图像标注装置来实现图1中高维图像采集装置中高维图像智能分析单元的功能，即高维图像采集装置不具备智能分析的能力，而是将采集的高维图像传输给图像标注装置后，再由图像标注装置对高维图像进行智能分析和标注。

例如，如图2所示，图1中的图像标注装置120和图像标注系统100均可以通过图2中的计算机设备来实现。

图2所示为本申请实施例提供的计算机设备的硬件结构示意图。计算机设备200包括至少一个处理器201，通信总线202，存储器203以及至少一个通信接口204。

处理器201可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信总线202可包括一通路，在上述组件之间传送信息。

通信接口204，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等，可以根据实际应用场景选定通信方式，本申请对此不作限定。

存储器203可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器203用于存储执行本申请方案的应用程序代码，并由处理器201来控制执行。处理器201用于执行存储器203中存储的应用程序代码，从而实现本申请下述实施例提供的基于高维图像的图像标注方法。

在具体实现中，作为一种实施例，处理器201可以包括一个或多个CPU，例如图2中的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备200可以包括多个处理器，例如图2中的处理器201和处理器208。这些处理器中的每一个可以是一个单核(single-core)处理器，也可以是一个多核(multi-core)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备200还可以包括输出设备205和输入设备206。输出设备205和处理器201通信，可以以多种方式来显示信息。例如，输出设备205可以是液晶显示器(liquid crystal display，LCD),发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备206和处理器201通信，可以以多种方式接受用户的输入。例如，输入设备406可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备200可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，计算机设备200可以是台式机、便携式电脑、网络服务器、无线终端设备、嵌入式设备或有图2中类似结构的设备等。本申请实施例不限定计算机设备200的类型。

以下将结合图1至图3，从基于高维图像的图像标注方法的通用流程，到适用于具体应用场景的示例，对本申请实施例提供的图像标注方法、装置和系统做进一步说明。

图3示出了本申请实施例提供的基于高维图像的图像标注方法的框架示意图。如图3所示，本申请实施例提供的图像标注方法是基于高维图像。相比于低维图像，高维图像中除了具有场景的二维空间分布特性，还包含了更多的三维空间结构、光谱、偏振和深度空间等信息，因此利用高维图像进行目标追踪或对象分割方面具有明显优势。如图3所示，本申请实施例提供的图像标注方法中，将高维图像进行智能分析，得到第一分析结果，第一分析结果中包括待标注目标的区域划分等位置信息和描述目标材质等特性的语义标签。同时，本申请实施例提供的方法中，还对高维图像进行降维处理，得到对应的低维图像。具体的，可以根据低维图像传感器的感光特性曲线或者光谱转移矩阵将高维图像降维，得到低维图像。得到低维图像后，再对低维图像进行智能分析，得到低维图像的第二分析结果，第二分析结果中可以包括目标边界框等位置信息和描述目标识别ID等特性的语义标签。得到第一分析结果和第二分析结果之后，再综合利用第一分析结果和第二分析结果对高维图像和低维图像进行自动标注，得到标注后的高维图像和低维图像。经过标注的高维图像和低维图像中包括目标检测/追踪边界框/区域划分等位置信息，以及描述对应位置区域图像内容的目标ID、追踪ID、区域ID或目标属性等标签信息。

如图4所示，为本申请实施例提供的基于高维图像的图像标注方法详细的流程示意图，包括如下步骤：

S410、利用高维图像采集单元111采集高维图像。

利用高维图像采集单元111采集高维图像，高维图像包括MSI、HSI、多偏振角图像、RGB+D等在光谱、偏振、相位及深度等维度具有更多信息的高维图像。在实际应用场景中，可以通过高维图像传感器采集拍摄场景的高维图像。需要说明的是，不同的高维图像传感器可以采集不同类型的高维图像。所述高维图像的各个维度在二维空间上是对准的。所述高维图像也可以通过同时拍摄的两个或多个不同模态的高维图像在空间位置上对准后组合或融合得到。

可选的，在采集高维图像的同时，也可以记录采集的高维图像的来源和时间戳等信息。

S420、对高维图像进行预处理。

通常，可以采用高维图像采集装置110中的预处理单元112对高维图像进行预处理。对高维图像进行的预处理可以包括降噪、辐射校正、畸变校正、解混等操作，可以根据实际需要选择具体的预处理操作，而不需要对高维图像进行所有的预处理操作。对高维图像进行预处理之后，可以将处理得到的高维图像发送给后续的装置或模块进行进一步分析和处理，同时还可以将处理得到的高维图像保存。

S430、对高维图像进行智能分析，得到第一分析结果。

高维图像除与传统低维图像同样带有目标场景的二维空间可见光反射分布信息外，还包含更为丰富的物理信息(包括三维空间结构信息、更加精细的光谱信息和偏振信息等)。高维图像采集装置110中的高维图像智能分析单元113利用这些信息结合相应的智能分析算法，可以得到比低维图像更准确的检测、追踪、信息结构化、对象分割和ReID结果。对高维图像进行目标检测的方法可以参考J.Liang,J.Zhou,L.Tong,X.Bai,and B.Wang,“Material based salient object detection from hyperspectral images,”PatternRecognition,vol.76,pp.476–490,2018；对高维图像进行目标追踪的方法可以参考K.Qian,J.Zhou,F.Xiong,H.Zhou,and J.Du,“Object tracking in hyperspectralvideos with convolutional features and kernelized correlation filter,”arXivpreprint arXiv:1810.11819,2018；提取高维图像种目标的材质、分类等结构化信息的方法可以参考S.Yu,S.Jia,and C.Xu,“Convolutional neural networks forhyperspectral image classification,”Neurocomputing,vol.219,pp.88–98,2017及Y.Chen,H.Jiang,C.Li,X.Jia,and P.Ghamisi,“Deep feature extraction andclassification of hyperspectral images based on convolutional neuralnetworks,”IEEE Transactions on Geoscience and Remote Sensing,vol.54,no.10,pp.6232–6251,Oct 2016；对高维图像进行对象分割的方法可以参考G.Moser,S.B.Serpico,and J.A.Benediktsson,“Land-cover mapping by markov modeling ofspatial-contextual information in very-high-resolution remote sensingimages,”Proceedings of the IEEE,vol.101,no.3,pp.631–651,March 2013及Y.Tarabalka,M.Fauvel,J.Chanussot,and J.A.Benediktsson,“SVM-and MRF-basedmethod for accurate classification of hyperspectral images,”IEEE Geoscienceand Remote Sensing Letters,vol.7,no.4,pp.736–740,Oct 2010；提取高维图像的ReID结果的方法可以参见S.Prasad,T.Priya,M.Cui,S.Shah,”Person re-identificationwith hyperspectral multi-camera systems#x2014；A pilot study,”in Workshop onHyperspectral Image and Signal Processing:Evolution in Remote Sensing,8th/21st,Los Angeles,CA,USA,2016。

根据实际的场景需要和具体的标注任务的不同，可以采用不同的图像处理算法或机器学习等算法对高维图像进行分析，获取边界框Bounding-box1、区域划分Region1等位置信息，以及描述对应区域中图像内容的追踪ID、属性结构化信息、再识别ID等语义标签Label1。由于实际场景多种多样，并且具体的标注任务也有所不同，因而实际采用的分析算法也会不同，可以得到对应的分析结果，本申请实施例并不限定具体采用的分析算法以及得到何种分析结果。所述语义标签Label1包括与标注任务直接对应的主语义标签mLabel1。可选的，所述语义标签Label1还包含与标注任务非直接相关的辅助语义标签aLabel1。

需要说明的是，在对高维图像进行智能分析时，可以不仅仅使用一种分析算法或智能分析模型，而可以使用多种智能分析算法或智能分析模型分析该高维图像，以获得多个分析结果，每个分析结果中都包括该分析结果对应的置信度，对高维图像进行智能分析得到的分析结果统称为第一分析结果。

可选的，可以将第一分析结果通过数据库统一存储管理，并保留数据的来源、时间戳等标识信息，存储的高维图像及分析结果可以利用深度优先搜索(Deep First Search，DFS)或多分类器系统(Multiple Classifier System，MCS)等方式进行检索，以辅助低维图像的智能分析和标注。

对高维图像进行分析之后，将得到的第一分析结果发送给后续的设备以供标注图像。可选的，后续的设备可以与执行上述步骤的设备为同一设备，也可以由不同的设备执行后续操作。

S440、降维单元121将高维图像降维，得到二维空间上与高维图像对齐的低维图像。

相比于可见光图像和近红外图像等低维图像，高维图像中包含有更多信息，但很多现有的智能分析应用是针对低维图像设计的，其算法模型利用低维图像进行训练并要求输入对应格式的数据才能给出分析结果，并且部分智能分析方法(如人脸识别等)需要提取输入数据的特征与底库数据的特征进行比对，因此首先需要将高维图像降维为低维图像，才能有效利用现有算法模型和数据对新的数据进行智能分析以实现自动标注。降维单元121可以通过多种方式将高维图像降维得到低维图像，例如可以利用光谱转移矩阵，或直接抽取高维图像中的部分信息将高维图像转换为RGB可见光图像或近红外图像。将高维图像进行降维得到低维图像可以参考以下方法：Jia,S.；Qian,Y.Constrained nonnegativematrix factorization for hyperspectral unmixing.IEEE Trans.Geosci.RemoteSens.2009,47,161–173和Yokoya,N.；Mayumi,N.；Iwasaki,A.Cross-Calibration forData Fusion of EO-1/Hyperion and Terra/ASTER.IEEE J.Sel.Top.Appl.EarthObs.Remote Sens.2013,6,419–426。

例如，将高光谱图像或多光谱图像降维为RGB彩色可见光图像或单波段的红外图像，可以根据低维图像传感器的光谱响应曲线，在曲线峰值位置抽取高维图像中对应的波段或利用光谱转移矩阵等方法。

所述光谱响应曲线t，横轴代表光线的波长，纵轴为传感器对该波长光线感知灵敏度，其中不同颜色的曲线t_R、t_G、t_B表示彩色传感器中不同颜色的传感像元的响应曲线，每个像元感光后的信号强度z正比于照射到该像元上光线能量l与响应曲线乘积的在波长维度的积分，即：

其中α为增益，i为R,G,B,NIR(近红外)等波段。

所述基于光谱矩阵的降维方法可以表示为：

Z＝TX

其中X为用b_high×(r×c)矩阵表示的高维图像，r和c分别图像在二维空间中的行数和列数，b_high＞3为高维图像每一个空间位置上在光谱维的采样数。Z为b_low×(r×c)矩阵表示的低维图像，b_low通常不大于3，为低维图像每一个空间位置上在光谱维的采样数。T为大小b_low×b_high的光谱转移矩阵，其元素值可以在光谱响应曲线t上采样得到。

同样的，可以通过SAN等方式将降维得到的低维图像保存，同时记录低维图像的来源、时间戳等标识信息，并可以通过DFS、MCS等方式检索低维图像，用于后续低维图像的标注。

S450、低维图像智能分析单元122对低维图像进行智能分析，得到第二分析结果。

根据具体的标注任务的不同，低维图像智能分析单元122可以采用不同的智能分析算法分析低维图像，得到对应的分析结果。在分析低维图像得到第二分析结果时，通常第二分析结果中还包括该分析结果对应的置信度，用于评估该分析结果的可信程度。

根据不同的标注任务，可以对低维图像进行不同的智能分析，例如，可以对低维图像进行目标检测、跟踪、识别或提取目标轨迹及目标结构化信息等智能分析操作，获取人脸检测边界框、人体检测边界框、车辆检测边界框等位置信息Bounding-box2，还可以获取当前难以从高维图像获取的衣着样式属性、车型车款、以及需要与底库信息比对的人脸识别ID等语义标签Label2。所述语义标签Label2包括与标注任务直接对应的主语义标签mLabel2，语义标签Label2还可以包含与标注任务非直接相关的辅助语义标签aLabel2。

需要说明的是，在对低维图像进行智能分析时，可以不仅仅使用一种分析算法或智能分析模型，而是可以使用多种智能分析算法或智能分析模型分析该低维图像，以获得多个分析结果，每个分析结果中都包括该分析结果对应的置信度，对低维图像进行智能分析得到的分析结果统称为第二分析结果。

可选的，在某些情况下，高维图像对应的第一分析结果中包括对象区域分割或材质分类结果。在分析低维图像时可以利用低维图像对应的高维图像的上述分析结果，先对低维图像中目标的感兴趣区域(Region Of Interest，ROI)内的图像进行背景剔除等操作，得到第二低维图像，再根据具体任务需要，利用对应的智能分析算法对分割得到的第二低维图像进行目标检测、跟踪、识别或提取目标轨迹及目标结构化信息等智能分析操作，得到第二分析结果，以提升对低维图像分析的准确度。

S460、标注单元123利用第一分析结果和第二分析结果标注高维图像和/或低维图像。

相比于低维图像，高维图像包含有更多信息，高维图像具有更准确的目标检测、追踪、信息结构化、对象分割以及ReID能力。标注单元123综合利用高维图像的第一分析结果和低维图像的第二分析结果对高维图像和/或低维图像进行自动清洗和标注，能够得到更为精确和可靠的标注结果。需要说明的是，本申请实施例中可以标注第一低维图像、第二低维图像，也可以标注由同一高维图像降维得到的其他低维图像。

其中，图像清洗通常包括去除异常/无效/低置信的图像，将图像处理成标准的格式，以使图像符合算法和应用的需求。本申请实施例中，数据自动清洗主要通过利用利用高维图像的第一分析结果和低维图像的第二分析结果，结合质量评估、多模型分类等算法，去除低质量(如严重遮挡、模糊、低信噪比、检测框内包含多个目标等)和低置信度(如单一分析结果置信度不高、不同分析结果间存在矛盾等)的图像。例如，可以利用高维图像的光谱特性、三维结构特征和材质结构化信息等，去除不符合车牌反射特性的车牌数据、平面的/非皮肤材质/伪装/遮挡的人脸图像等、高维图像解混后无相似光谱特征的ReID/追踪目标、第一和第二分析结果的置信度低于阈值的低置信图像等。

在对图像进行自动标注时，首先利用第一分析结果和第二分析结果中的位置信息和辅助语义标签确定待标注目标在图像中所处的二维空间位置，即待标注目标的位置区域，其中待标注目标的位置区域为待标注目标在高维图像和/或低维图像中的像素集合。例如，在目标识别、ReID和目标属性标注任务中，利用第二分析结果中的Bounding-box2作为待标注目标所处的位置区域；可选的，利用第一分析结果中的区域划分信息Region1和语义标签中的材质、三维结构等信息，在Bounding-box2范围内确定目标精确的位置区域，剔除远景、非目标材质的背景干扰信息；在目标追踪任务中，利用第一分析结果中高置信的Bounding-box1作为待标注目标所处的位置区域；在目标分割任务中，利用第一分析结果中高置信的区域划分信息Region1作为待标注目标的位置区域。由于高维图像和低维图像在空间位置上是对齐的，因此本方法获取的位置区域同时适用于高维和低维图像。可选的，可将确定的位置区域上的图像内容从原高维或低维图像中截取出作为ROI抠图独立保存，此时位置区域为ROI抠图的全部区域。

图像自动标注时，确定待标注目标的位置区域后，根据第一分析结果中的主语义标签mLabel1和第二分析结果中的主语义标签mLabel2置信度，将高于置信度阈值要求的主语义标签标记给待标注目标在高维图像和/或低维图像中所在的位置区域。根据标注任务的不同，可以有不同的标注策略，如下示出了一些可能的标注策略。

作为一种实现方式，可以利用第一分析结果中调整第二分析结果的置信度，若第二分析结果调整后的置信度高于置信度阈值，则将第二主语义标签标注给待标注目标在低维图像和/或高维图像中位置区域。例如，在目标识别标注和目标属性标注任务中，获得第一分析结果和第二分析结果后，可以利用第一分析结果中的目标材质、三维结构特征等物理信息，对第二分析结果进行验证并调整置信度，再判断第二分析结果调整后的置信度是否大于置信度阈值，若大于置信度阈值，则将第二分析结果中的第二语义标签标注给待标注目标在低维图像和/或高维图像中位置区域对应的图像内容。

作为一种实现方式，若第一分析结果的置信度高于置信度阈值，则将第一主语义标签标注给待标注目标在低维图像和/或高维图像中的位置区域。在目标追踪和目标分割标注任务中，可以直接利用aLabel1中的置信度等信息判断第一分析结果mLabel1中的追踪ID或区域ID是否符合置信度阈值要求，如符合将其作为语义标签标记给位置区域对应的图像内容。

作为一种实现方式，若第一分析结果和第二分析结果中存在多个具有相关性的结果时，通过选取最大置信度的结果，当最大置信度结果的置信度高于置信度阈值时，将对应的结果标注给待标注目标在低维图像和/或高维图像中对应的位置区域。选取最大置信度时，可以直接选取最大数值的置信度，也可以通过投票方式从多个置信度中选取最大的置信度。

作为另一种实现方式，若第一分析结果和第二分析结果中存在多个具有相关性的结果时，还可以通过多分类器系统重新计算各分析结果的置信度，并选取置信度最大的分析结果，若该结果重新计算的置信度大于置信度阈值，则将该分析结果的主语义标签标注给待标注目标在低维图像和/或高维图像中对应的位置区域。

作为另一种实现方式，若第一分析结果和第二分析结果中对同一分析任务得到了特征向量，可以将特征组合后获得新的分析结果以及对应的置信度，再将新的分析结果的置信度与第一分析结果和第二分析结果的置信度比较，将置信度最高的分析结果中的主语义标签标记给待标注目标在低维图像和/或高维图像对应的位置区域。例如，在进行目标ReID标注任务时，可以将aLabel1和aLabel2中的特征向量进行拼接组合后再进行搜索匹配和聚类，获取新的ReID标签和置信度，将新的ReID标签和置信度与mLabel1和mLabel2中各自的ReID标签进行投票或置信度比较后选取出置信度最高的ReID标签。

上述标注策略仅为示意性的，在实际的标注任务中，可以灵活组合上述标注策略，得到新的、适应标注任务的标注方式。

可选的，还可以将辅助语义标签作为辅助信息也标记给待标注目标的位置区域。

图像自动标注时，还要求同一目标的不同图像只对应同一个ID，且同一ID下不能存在不同目标的图像。例如，在目标识别任务中，可以利用第二分析结果中的目标追踪框和目标追踪ID，在低维图像的对应空间位置上标记追踪框和目标ID，对同一ID的目标只保留置信度最高或图像质量最好的作为标注结果，避免遮挡导致的同一目标被标记为多个ID；在ReID标注任务中，利用不同时间或空间高维图像的第一分析结果中ReID标签和目标位置信息，将对应位置内的高维图像、降维得到的RGB彩色图像及不同波段的红外图像等低维图像标记为同一ID。

经过清洗和标注，得到高置信度的标注图像，标注后的图像构成标注数据集。根据应用场景的需要，标注数据集可以分为训练集和测试集，其中，训练集和测试集正交，即训练集中的图像与测试集中的图像各不相同。

本申请实施例提供的基于高维图像的图像标注方法中，利用高维图像中相比于低维图像包含的更多信息，对高维图像进行分析处理，得到更为准确、置信度更高的第一分析结果，再利用第一分析结果辅助对高维图像降维得到的低维图像的分析处理，提升第二分析结果的准确度，再综合利用第一分析结果和第二分析结果来标注低维数据，得到高质量、高置信度的标注数据集，能够极大程度减少甚至脱离人工操作，大幅降低标注成本。

此外，本申请实施例提供的图像标注方法可以与支持在线优化的智能分析模型相结合，能够实现在线标注图像，而不需要将图像回传再分析，并且无需人工介入，可以充分保护用户隐私和数据安全，实现不断提升模型性能，提升模型的场景适应能力。

以上介绍了本申请实施例提供的图像标注方法的主要步骤，针对不同的标注任务，各步骤可以采用不同的实现方式，下面以具体的标注任务为例，进一步介绍本申请实施例提供的图像标注方法。

作为一种实施方式，下面首先介绍利用高维图像解决可见光图像或近红外光图像目标识别的标注问题，其中，典型的目标如人脸、人体及车辆等。

在标注之前，首先需要采集高维图像，并对高维图像作预处理，具体步骤在前述实施例中已经说明，此处不再赘述。

在获得了经过预处理的高维图像后，需要对高维图像进行分析处理，得到第一分析结果以用于标注低维图像。其中对高光谱图像进行分析时，首先需要对高维图像进行端元提取和光谱解混；之后利用高维图像的光谱信息、偏振特性、三维空间分布特征和相应的分割算法，对高维图像进行像素级的对象分割，获取区域划分结果Region1等位置信息；再利用智能分析算法对Region1中的各个区域进行分析，得到置信度、追踪ID、三维空间特征、偏振特征、光谱特征、材质等属性信息的辅助语义标签aLabel1；可选的，利用针对高维图像的目标识别算法获取与标注任务直接对应的主语义标签mLabel1。所述位置信息、辅助语义标签和主语义标签组成第一分析结果。

可选的，可以采用N-finder、VCA或NMF等方法对高维图像进行端元提取和光谱解混。具体实现方式可以参考以下文章：M.E.Winter,“N-FINDR:an algorithm for fastautonomous spectral end-member determination in hyperspectral data,”inImaging Spectrometry V,vol.3753.International Society for Optics andPhotonics,1999,pp.266–276、J.M.P.Nascimento and J.M.B.Dias,“Vertex componentanalysis:a fast algorithm to unmix hyperspectral data,”IEEE Transactions onGeoscience and Remote Sensing,vol.43,no.4,pp.898–910,April 2005或D.D.Lee andH.S.Seung,“Learning the parts of objects by non-negative matrixfactorization,”Nature,vol.401,no.6755,p.788,1999.

可选的，还可以检测高维图像中目标的ROI边界框bounding-box1作为第一分析结果中的位置信息；利用目标的空间和光谱特性对目标进行追踪，得到目标的轨迹，目标轨迹为目标抠图组成的图像序列，同时每张目标ROI抠图携带了轨迹信息，如原始视频ID、轨迹ID或轨迹中的ROI抠图ID等加入第一分析结果中的辅助语义标签。

其中，所述ROI边界框指确定所检测到的目标在原图像中所处位置的矩形框，所述ROI抠图指将上述ROI边界框内图像内容的截取出的另一子图像。

在根据具体的标注任务分析处理高维图像，得到第一分析结果之后，还需要对高维图像进行降维，得到低维图像，并根据标注任务采用对应的算法分析处理低维图像。将高维图像降维得到低维图像的方法已经记载在前文，此处不再赘述。

降维得到低维图像后，检测低维图像中待识别目标的ROI边界框bounding-box2作为目标位置信息。可选的，可以利用bounding-box2对应位置上的高维图像的像素级对象分割、材质分类等第一分析结果，对bounding-box2内低维图像的ROI抠图内图像进行背景剔除、背景替换等操作，使目标的背景分布接近比对数据集(如各种证件照数据集)的背景分布，再将替换后的ROI抠图得到第二低维图像。得到的第二低维图像由于减少了许多干扰信息，在目标识别时可以提高准确率，也可以在标注图像后扩展标注图像应用场景。

在分割得到第二低维图像后，根据具体任务需要，可以利用训练好的智能分析模型对第二低维图像进行目标检测、识别和提取目标结构化信息等分析处理，得到第二分析结果。第二分析结果主要为与目标识别场景的标注任务直接对应的主语义标签mLabel2，所述主语义标签可以是物体的类别、人物/车辆的ID等，此外第二分析结果还可以包含识别置信度、追踪ID、目标属性、图像质量打分等辅助信息的辅助语义标签aLabel2。

得到第一分析结果和第二分析结果后，再综合利用第一分析结果和第二分析结果对高维图像和/或低维图像进行标注和清洗。需要说明的是，本申请实施例中可以标注原始的高维图像，也可以标注第一低维图像、第二低维图像，还可以标注由同一高维图像降维得到的其他低维图像。

自动清洗时，首先利用第一分析结果和第二分析结果，结合目标材质等先验知识和MCS等方法，去除多个分析结果间存在矛盾的低置信度数据。在目标识别的标注任务中，需要避免同一目标被标记为不同的mLabel，这会严重降低标注图像集的质量，影响其训练算法的性能。因此，一般需要对一段连续图像的目标进行ID关联。传统的基于低维数据的追踪算法对于相似颜色文理、遮挡等复杂环境适应性较低，追踪精度不高，可以利用第一分析结果中更为准确的目标追踪ID，对连续帧中的识别结果进行聚类，再利用第二分析结果中的图像质量打分选取出最优质量的数据，去除其他同一ID的数据，可以避免遮挡导致的同一个目标被标记为多个不同的mLabel，实现数据的自动清洗。

自动标注时，首先利用bounding-box1，Region1和bounding-box2等第一分析结果和第二分析结果中的位置信息确定待标注目标在高维和低维图像中所处的位置区域，再将mLabel1或mLabel2标记给该位置区域对应的图像内容。当只能获取mLabel1和mLabel2其中之一时，将可获取的mLabel标记给待标注目标，当mLabel1和mLabel2可同时获取时，利用MCS等方法，并借助辅助语义标签中提供的识别置信度、材质和图像质量等信息，选取出高置信度结果标记给图像中的待标注目标。可选的，根据实际需要，还可以将aLabel1和aLabel2中的部分或全部辅助语义标签标记给待标注目标，以完成自动标注过程。

需要说明的是，可以同时标注高维图像，以及第一低维图像、第二低维图像和其他由高维图像降维得到的图像，也可以根据需要选取其中部分用于标注，本申请实施例对此不做限定。

此外，可选的，对于不同时间或不同终端设备采集到的图像，可以利用标注得到的mLabel，结合第一分析结果和第二分析结果中的属性标签，对其进行检索聚类，将同一目标的不同图像都归类到同一ID下，清洗去除相似度过高的标注图像。

可选的，还可以利用高维图像的目标检测、材质识别等结果，对目标识别结果进行筛选和清洗。例如，根据高维图像的材质识别结果，对低维图像中不包含皮肤材质的人脸检测结果进行剔除，这样可以降低图像中的人脸画像等目标对标注图像的干扰。

作为一种实施方式，本申请实施例提供的基于高维图像的图像标注方案还可以用于解决可见光图像、近红外光图像目标属性的标注问题，典型的目标属性包括人脸数据(如佩戴口罩、眼镜等)、人体属性(如衣服款式、颜色、背包、携带拉杆箱等)、车辆属性(车型、车款、车身颜色等)。

针对目标属性的标注问题与针对目标识别的标注问题类似，主要区别在于不需要将不同的时间和终端的标注结果聚类在同一ID下，具体的实现方式可以参照目标识别的标注，下文主要阐述与目标识别标注不同的特征。

在目标属性的标注中，在对高维图像进行分析时，首先需要对高维图像进行端元提取和光谱解混；之后利用高维图像的光谱信息、偏振特性、三维空间分布特征和相应的分割算法，对高维图像进行像素级的对象分割，获取区域划分结果Region1等位置信息；再利用智能分析算法对Region1中的各个区域进行分析，得到与标注任务相对应目标属性直接对应的谱特性、三维空间特性、偏振特性、材质等属性信息作为主语义标签mLabel1，以及置信度、追踪ID、的辅助语义标签aLabel1。所述位置信息、辅助语义标签和主语义标签组成第一分析结果。可选的，还可以检测高维图像中目标的ROI边界框bounding-box1加入第一分析结果中的位置信息；利用目标的空间和光谱特性对目标进行追踪，得到目标的轨迹，目标轨迹为目标抠图组成的图像序列，同时每张目标ROI抠图携带了轨迹信息，如原始视频ID、轨迹ID或轨迹中的ROI抠图ID等作为第一分析结果中的辅助语义标签。

可选的，在对高维图像进行分析时，可以检测待标记属性的目标ROI边界框bounding-box1，利用目标的空间和光谱特性对目标进行追踪，得到目标轨迹，目标轨迹为目标抠图组成的图像序列，同时每张目标抠图携带了轨迹信息，如原始视频ID、轨迹ID及轨迹中的ROI抠图ID等加入第一分析结果中的辅助语义标签。

降维得到低维图像后，检测低维图像中待识别目标的ROI边界框bounding-box2作为目标位置信息。可选的，利用bounding-box2对应位置上的高维图像的像素级对象分割、材质分类等第一分析结果，对bounding-box2内低维图像的ROI抠图内图像进行背景剔除、背景替换等操作，使目标的背景分布接近比对数据集(如各种证件照数据集)的背景分布，再将替换后的ROI抠图得到第二低维图像。得到的第二低维图像由于减少了许多干扰信息，在目标识别时可以提高准确率，也可以在标注图像后提高标注图像的通用性。

得到第二低维图像后，利用训练好的智能分析模型对第二低维图像进行目标属性识别，得到目标属性的结构化信息，即第二分析结果。第二分析结果主要为与标注任务相直接对应的目标属性主语义标签mLabel2，所述语义标签mLabel2可以是人物/车辆的颜色、纹理、型号及其他视觉特性的语义描述等，此外第二分析结果还可以包含属性判别置信度、追踪ID、图像质量打分等辅助信息的辅助语义标签aLabel2。由于第二低维图像相比于直接降维得到的低维图像的背景干扰更少，对第二低维图像进行目标属性识别可以提升目标属性识别的准确度。

在得到第一分析结果和第二分析结果后，综合利用第一分析结果和第二分析结果对高维图像和/或低维图像进行标注和清洗。需要说明的是，本申请实施例中可以标注第一低维图像、第二低维图像，也可以标注由同一高维图像降维得到的其他低维图像。

在目标属性的标注任务中，自动清洗的步骤与在目标识别的标注任务类似，此处不再赘述。

自动标注时，首先利用bounding-box1，Region1和bounding-box1等第一分析结果和第二分析结果中的位置信息确定待标注目标在高维和低维图像中所处的位置区域，之后根据标注任务将mLabel1或mLabel2标记给该位置区域对应的图像内容。当mLabel1和mLabel2中所包含的属性不存在冲突时，将mLabel1和mLabel2中的属性组合后标记给待标注目标，当mLabel1和mLabel2中存在重复的属性项时，利用MCS等方法并借助辅助语义标签中提供的识别置信度、材质和图像质量等信息，选取出高置信度属性信息标记给待标注目标。可选的，根据实际需要将aLabel1和aLabel2中的部分或全部辅助语义标签标记给待标注目标以完成自动标注过程。

作为一种实施方式，本申请实施例提供的基于高维图像的图像标注方案还可以用于解决可见光图像、近红外光图像目标追踪或对象分割的标注问题。相比于低维图像，高维图像中除了具有场景的二维空间分布特性，还包含了更多的三维空间结构、光谱或偏振等信息，因此利用高维图像进行目标追踪或对象分割具有明显优势，并且对复杂环境具有更好的鲁棒性，可以直接以高维图像的分析结果作为标注结果。

在对高维图像进行分析时，其中对高光谱图像进行分析时，首先需要对高维图像进行端元提取和光谱解混；之后，在对象分割标注时利用高维图像的光谱信息、偏振特性、三维空间分布特征和相应的分割算法，对高维图像进行像素级的对象分割，获取区域划分结果Region1等位置信息；可选的，在目标追踪标注时，可以检测待标记属性的目标ROI边界框bounding-box1并作为位置信息。对Region1中各个区域的图像进行分析或对连续帧中的bounding-box1内的图像内容进行分析得到与标注任务相直接对应的各个区域ID、追踪ID等主语义标签mLabel1，以及包含各个子区域的三维空间特性、光谱特性、材质属性、追踪ID置信度等辅助语义标签aLabel1。其中，上述位置信息、辅助语义标签和主语义标签统称为第一分析结果。

将高维图像降维，得到第一低维图像。降维方法如上文所述，此处不再赘述。可选的，获得第一低维图像后，获取第一低维图像对应的图像质量、物体识别等辅助语义标签aLabel2作为第二分析结果。

在得到第一分析结果和第一低维图像后，利用第一分析结果对第一低维图像进行清洗和标注。自动清洗时，可以利用第一分析结果中的置信度信息，去除掉低置信度的数据；利用第二分析结果中的图像质量评价信息去除掉低质量的数据。

目标分割自动标注时，将低维图像按照第一分析结果中的Region1的空间位置信息进行分割，然后将第一分析结果中mLabel1中每一个子区域的区域ID标记给待标注目标在低维图像中对应位置区域的图像内容。可选的，还可以将三维空间特性、材质属性等辅助语义标签aLabel1标记给对应位置区域的图像内容以完成标注。

目标追踪自动标注时，利用第一分析结果中的bounding-box1和Region1等位置信息确定待标注目标的位置区域，之后将第一分析结果中mLabel1中的追踪ID标记给低维图像中对应位置区域的图像内容。可选的，根据实际需要将aLabel1和aLabel2中的部分或全部辅助语义标签标记给待标注目标。

作为一种实施方式，本申请实施例提供的基于高维图像的图像标注方案还可以用于解决可见光图像、近红外光图像目标ReID的标注问题。ReID是指利用计算机视觉技术判断图像或者视频序列中是否存在特定目标的技术，利用特定目标除人脸特征之外的其他特征，例如穿着、体态、发型等，结合相应智能算法，来对目标进行再识别。ReID标注的任务通常是将不同时间、空间或不同摄像机拍摄到的同一目标进行关联，并标记为同一ID标签。

在解决目标ReID的标注问题时，首先对高维图像进行分析，其中对高光谱图像进行分析时，首先需要对高维图像进行端元提取和光谱解混；之后利用高维图像的光谱信息、偏振特性、三维空间分布特征和相应的分割算法，对高维图像进行像素级的对象分割，获取区域划分结果Region1等位置信息；再利用智能分析算法对Region1中的各个区域进行分析，提取高维图像中目标的光谱或三维几何特征等结构化信息，生成对应的特征向量v1，并利用训练好的智能算法并对多个数据进行聚类分析后获得包括ReID的主语义标签mLabel1。此外，将目标的三维空间特性、光谱特性、材质属性、ReID置信度等信息作为辅助语义标签aLabel1。所述位置信息、辅助语义标签和主语义标签组成第一分析结果。

可选的，还可以检测高维图像中目标的ROI边界框bounding-box1加入第一分析结果中的位置信息；利用目标的空间和光谱特性对目标进行追踪，得到目标的轨迹，目标轨迹为目标抠图组成的图像序列，同时每张目标ROI抠图携带了轨迹信息，如原始视频ID、轨迹ID或轨迹中的ROI抠图ID等加入第一分析结果中的辅助语义标签。

在根据具体的标注任务分析处理高维图像，得到第一分析结果之后，还需要对高维图像进行降维，得到第一低维图像，并根据标注任务采用对应的算法分析处理低维图像。将高维图像降维得到低维图像的方法已经记载在前文，此处不再赘述。

降维得到第一低维图像后，检测低维图像中待识别目标的ROI边界框bounding-box2作为目标位置信息。可选的，利用bounding-box2对应位置上的高维图像的像素级对象分割、材质分类等第一分析结果，对bounding-box2内低维图像的ROI抠图内图像进行背景剔除、背景替换等操作，再将替换后的ROI抠图得到第二低维图像。得到的第二低维图像由于减少了许多干扰信息，在目标ReID时可以提高准确率，也可以在标注图像后提高标注图像的通用性。再根据具体标注任务需要，利用训练好的智能分析模型对第二低维图像进行智能分析，并提取其结构化信息，生成特征向量v2，并对多个数据进行聚类分析后获得其ReID标签作为主语义标签mLabel2；此外，将目标属性、ReID置信度等作为辅助语义标签aLabel1。所述位置信息、辅助语义标签和主语义标签组成第二分析结果。

将高维数据高维图像降维得到第一低维图像后，对第一低维图像中待识别目标的ROI抠图，利用高维数据的像素级对象分割、材质分类等分析结果，对ROI抠图内图像进行背景剔除、背景替换等操作，得到第二低维图像，以排除背景信息对ReID标注图像的干扰。再根据具体标注任务需要，利用训练好的智能分析模型对第二低维图像进行智能分析ReID处理，并提取提出其结构化信息，生成特征向量，即获得第二分析结果。

自动清洗时，可以利用aLabel1和aLabel2中的置信度信息，去除掉低置信度的数据；利用第二分析结果中的图像质量评价信息去除掉低质量的数据。利用第一分析结果和第二分析结果，结合目标材质等先验知识和MCS等方法，去除多个分析结果间存在矛盾的低置信数据(如衣服样式和颜色相同，但材质不同的图像)。

自动标注时，首先利用bounding-box1，Region1和bounding-box1等第一分析结果和第二分析结果中的位置信息确定待标注目标在高维图像和低维图像中所处的位置区域，之后根据标注任务将mLabel1或mLabel2标记给待标注目标。一种标注策略是，当mLabel1和mLabel2中的ReID标签不存在冲突时，将其标记给待标注目标，当mLabel1和mLabel2中的ReID标签存在冲突时，利用MCS等方法和辅助语义标签中的信息将高置信度的ReID标签标记给待标注目标。另一种标注策略是，将aLabel1的特征向量v1和aLabel2中的特征向量v2组合为融合特征向量V，利用ReID算法估计对多个图像内的目标间融合特征向量V的相似度，并进行聚类分析，给出ReID标签和置信度，并将ReID标签标记给待标注目标。可选的，还可以根据实际需要将aLabel1和aLabel2中的部分或全部辅助语义标签标记给待标注目标，以完成自动标注过程。可选的，得到高质量、高置信度的标注图像之后，可以将标注图像按一定比例分配到数据集中的训练集和测试集中。

以上介绍了本申请实施例提供的图像标注方法的主要步骤，并通过具体的标注任务对该方法作了详细说明，可以理解的是，上述针对具体标注任务的实现方式仅仅是示例性的，在实际应用场景中，本申请实施例提供的图像标注方法还可以适用于其他类似的场景，本申请对此不作限定。上述所有场景中涉及的处理方式，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

上述主要从方案的主要步骤和具体应用场景介绍了本申请实施例提供的方法。可以理解的是，为了实现上述功能，本申请实施例提供的图像标注装置包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法实例对图像标注装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

比如，在采用对应各个功能划分各个功能模块的情况下，图5示出了上述实施例中所涉及的图像标注装置的一种可能的结构示意图。该图像标注装置包括接收模块510、降维模块520、智能分析模块530和标注模块540。其中，接收模块510用于接收高维图像以及对应的第一分析结果，第一分析结果中包括第一主语义标签和第一目标位置信息；降维模块520，用于执行上述步骤S440；智能分析模块530，用于执行上述步骤S450；标注模块540，用于执行上述步骤S460。

在本实施例中，该图像标注装置以对应各个功能划分各个功能模块的形式来呈现，或者，该图像标注装置以采用集成的方式划分各个功能模块的形式来呈现。这里的“模块”可以指特定应用集成电路(Application-Specific Integrated Circuit，ASIC)，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到图像标注装置500可以采用图2所示的形式。比如，图5中的接收模块510、降维模块520、智能分析模块530和标注模块540可以通过图2的处理器201和存储器203来实现。具体的，接收模块510、降维模块520、智能分析模块530和标注模块540可以通过由处理器201来调用存储器203中存储的应用程序代码来执行，本申请实施例对此不作任何限制。

需要说明的是，图5所示的图像标注装置在标注图像时，仅以上述各功能模块的划分进行举例说明，实际应用中可以根据需要将上述功能分配由不同的功能模块完成，即将图像标注装置的内部结构划分成不同的功能模块，以完成以上描述的全部或部分功能。另外，上述实施例提供的图像标注装置与图像标注方法属于同一构思，其具体实现过程详见方法实施例，其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

图6示出了上述实施例中所涉及的图像标注装置600的另一种可能的结构示意图，与图5所示图像标注装置不同的是，图6中的图像标注装置600包括高维图像采集和智能分析功能。如图6所示，该图像标注装置包括高维图像采集模块610，预处理模块620、智能分析模块630、降维模块640和标注模块650。其中，高维图像采集模块610用于执行步骤S410；预处理模块620用于执行步骤S420；智能分析模块630用于执行步骤S430和步骤S450；降维模块640用于执行步骤S440；标注模块650用于执行步骤S460。

在本实施例中，该图像标注装置以对应各个功能划分各个功能模块的形式来呈现，或者，该图像标注装置以采用集成的方式划分各个功能模块的形式来呈现。这里的“模块”可以指特定应用集成电路(Application-Specific Integrated Circuit，ASIC)，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到图像标注装置600可以采用图2所示的形式。比如，图6中的图像采集模块610、预处理模块620、智能分析模块630、降维模块640和标注模块650可以通过图2的处理器201和存储器203来实现。具体的，图像采集模块610、预处理模块620、智能分析模块630、降维模块640和标注模块650可以通过由处理器201来调用存储器203中存储的应用程序代码来执行，本申请实施例对此不作任何限制。

需要说明的是，图6所示的图像标注装置在标注图像时，仅以上述各功能模块的划分进行举例说明，实际应用中可以根据需要将上述功能分配由不同的功能模块完成，即将图像标注装置的内部结构划分成不同的功能模块，以完成以上描述的全部或部分功能。另外，上述实施例提供的图像标注装置与图像标注方法属于同一构思，其具体实现过程详见方法实施例，其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于高维图像的图像标注方法，其特征在于，所述方法包括：

获取高维图像和对应的第一分析结果，所述第一分析结果中包括第一目标位置信息和第一主语义标签；

对所述高维图像进行降维处理，得到低维图像；

对所述低维图像进行分析，得到第二分析结果，所述第二分析结果包括第二目标位置信息和第二主语义标签；

根据所述第一目标位置信息和所述第二目标位置信息在所述低维图像和/或高维图像中标记出待标注目标所在的位置区域，并利用所述第一主语义标签和所述第二主语义标签标注所述位置区域。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一目标位置信息和所述第二目标位置信息在所述低维图像和/或高维图像中标记出待标注目标所在的位置区域，包括：

将所述第一目标位置信息作为所述标注目标所在的位置区域；或者，

将所述第二目标位置信息作为所述标注目标所在的位置区域；或者，

利用所述第一分析结果中的区域划分信息和所述第一主语义标签的材质和三维结果信息，在所述第二目标位置信息范围内确定所述标注目标所在的位置区域。

3.如权利要求2所述的方法，其特征在于，所述第一分析结果和所述第二分析结果中包括各自的置信度，所述利用所述第一主语义标签和所述第二主语义标签标注所述位置区域，包括：

利用所述第一分析结果调整所述第二分析结果的置信度，若所述第二分析结果调整后的置信度高于置信度阈值，则将所述第二主语义标签标注给待标注目标在低维图像和/或高维图像中位置区域；

若所述第一分析结果的置信度高于置信度阈值，将所述第一主语义标签标注给待标注目标在低维图像和/或高维图像中的位置区域；

若所述第一分析结果和所述第二分析结果中存在多个具有相关性的结果，选取最大置信度的结果，当所述最大置信度高于置信度阈值，将所述最大置信度的结果对应的主语义标签标注给待标注目标在低维图像和/或高维图像中对应的位置区域；

将所述第一分析结果和所述第二分析结果中的特征向量组合后获得第三分析结果以及对应的置信度，选取第一分析结果、第二分析结果和第三分析结果的置信度中的最大置信度，若所述最大置信度大于置信度阈值，将所述最大置信度对应的分析结果的主语义标签标注给待标注目标在低维图像和/或高维图像对应的位置区域。

4.如权利要求1所述的方法，其特征在于，所述第一分析结果中包括第一辅助语义标签，所述第二分析结果中包括第二辅助语义标签，所述方法还包括：

将所述第一辅助语义标签和/或所述第二辅助语义标签中的部分或全部辅助语义标签标注到所述位置区域。

5.如权利要求1所述的方法，其特征在于，所述对所述高维图像进行降维处理，得到低维图像，包括：对所述高维图像进行降维处理，得到第一低维图像；

所述对所述低维图像进行分析，得到第二分析结果，包括：

检测所述第一低维图像中目标的感兴趣区域(region of interest，ROI)边界框(bounding box)，从所述第一低维图像的ROI边界框中进行背景剔除，得到第二低维图像；

利用智能分析模型对所述第二低维图像进行分析，得到所述第二分析结果。

6.如权利要求5所述的方法，其特征在于，所述根据所述第一目标位置信息和所述第二目标位置信息在所述低维图像和/或高维图像中标记出待标注目标所在的位置区域，包括：根据所述第一目标位置信息和所述第二目标位置信息在所述第一低维图像、第二低维图像或根据所述高维图像降维得到的其他低维图像中的一种或多种中标记出待标注目标所在的位置区域。

7.如权利要求5所述的方法，其特征在于，在根据所述第一目标位置信息和所述第二目标位置信息在所述低维图像和/或高维图像中标记出待标注目标所在的位置区域之前，所述方法还包括：

基于所述第一分析结果和/或所述第二分析结果，采用质量评估或多模型分类算法，将所述低维图像和/或高维图像中低质量和/或低置信度的图像过滤。

8.如权利要求1至7任一项所述的方法，其特征在于，所述高维图像包括多光谱图像、高光谱图像、多偏振角图像和红绿蓝深度图像中的一种或多种。

9.一种图像标注装置，其特征在于，所述装置包括：

接收模块，用于获取高维图像和对应的第一分析结果，所述第一分析结果中包括第一目标位置信息和第一主语义标签；

降维模块，用于对所述高维图像进行降维处理，得到低维图像；

智能分析模块，用于对所述低维图像进行分析，得到第二分析结果，所述第二分析结果包括第二目标位置信息和第二主语义标签；

标注模块，用于根据所述第一目标位置信息和所述第二目标位置信息在所述低维图像和/或高维图像中标记出待标注目标所在的位置区域，并利用所述第一主语义标签和所述第二主语义标签标注所述位置区域。

10.如权利要求9所述的图像标注装置，其特征在于，所述标注模块还用于：

11.如权利要求10所述的图像标注装置，其特征在于，所述标注模块还用于：

12.如权利要求9所述的图像标注装置，其特征在于，所述第一分析结果中包括第一辅助语义标签，所述第二分析结果中包括第二辅助语义标签，所述标注模块还用于：

13.如权利要求9所述的图像标注装置，其特征在于：

所述降维模块，还用于对所述高维图像进行降维处理，得到第一低维图像；

所述智能分析模块，还用于检测所述第一低维图像中目标的感兴趣区域(region ofinterest，ROI)边界框(bounding box)，从所述第一低维图像的ROI边界框中进行背景剔除，得到第二低维图像，利用智能分析模型对所述第二低维图像进行分析，得到所述第二分析结果。

14.如权利要求13所述的图像标注装置，其特征在于，所述标注模块，还用于根据所述第一目标位置信息和所述第二目标位置信息在所述第一低维图像、第二低维图像或根据所述高维图像降维得到的其他低维图像中的一种或多种中标记出待标注目标所在的位置区域。

15.如权利要求13所述的图像标注装置，其特征在于，所述标注模块，还用于基于所述第一分析结果和/或所述第二分析结果，采用质量评估或多模型分类算法，将所述低维图像和/或高维图像中低质量和/或低置信度的图像过滤。

16.如权利要求9至15任一项所述的图像标注装置，其特征在于，所述高维图像包括多光谱图像、高光谱图像、多偏振角图像和红绿蓝深度图像中的一种或多种。

17.一种图像标注装置，其特征在于，包括：处理器、存储器、总线和通信接口；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述控制设备运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述控制设备执行如权利要求1-8中任意一项所述的图像标注方法。

18.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得所述计算机执行如权利要求1-8中任意一项所述的图像标注方法。