CN115082659A

CN115082659A - 一种图像标注方法、装置、电子设备及存储介质

Info

Publication number: CN115082659A
Application number: CN202210747593.2A
Authority: CN
Inventors: 许汪洋
Original assignee: Hangzhou Ezviz Software Co Ltd
Current assignee: Hangzhou Ezviz Software Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-20

Abstract

本发明实施例提供了一种图像标注方法、装置、电子设备及存储介质，该方法包括：获取待标注图像，将待标注图像输入实体分割模型，得到待标注图像对应的分割结果，实体分割模型用于基于输入图像的图像特征确定输入图像中属于同一目标的区域，基于分割结果，从待标注图像中提取各目标对应的物体块图像，将物体块图像输入到分类模型，得到各目标对应的类别，其中，分类模型用于基于输入图像的图像特征确定输入图像中目标对应的类别，根据各目标对应的物体块图像以及类别，确定待标注图像对应的标注结果。基于实体分割模型和分类模型，可以得到待标注图像中各目标对应的物体块图像的类别，而无需人工进行标注，节省了标注时间，提高了标注效率。

Description

一种图像标注方法、装置、电子设备及存储介质

技术领域

本发明涉及图像分割技术领域，特别是涉及一种图像标注方法、装置、电子设备及存储介质。

背景技术

图像分割是将图像分成若干个特定的、具有独特性质的区域并提取出特定目标，可以包括语义分割等，大多数分割算法基于深度学习的方式，深度学习需要大规模图像数据集训练模型，而图像数据集需要耗费大量的人力和时间进行标注。

在目前的图像标注方式中，先通过人工标注一部分图像数据集，然后对图像数据集进行数据扩增，获得训练集，利用训练集训练出图像分割模型，利用图像分割模型对待标注数据进行预测得到标注结果，标注人员修改图像分割模型预测的标注结果，最后对修改后的标注结果进行验收审核，完成图像标注。

上述图像标注方式中，原始的一部分图像数据集需要人工进行标注，耗费大量时间，标注效率较低。

发明内容

本发明实施例的目的在于提供一种图像标注方法、装置、电子设备及存储介质，用以提高图像的标注效率。具体技术方案如下：

第一方面，本发明实施例提供了一种图像标注方法，所述方法包括：

获取待标注图像；

将所述待标注图像输入实体分割模型，得到所述待标注图像对应的分割结果，其中，所述实体分割模型用于基于输入图像的图像特征确定所述输入图像中属于同一目标的区域；

基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像；

将所述物体块图像输入到分类模型，得到所述各目标对应的类别，其中，所述分类模型用于基于输入图像的图像特征确定所述输入图像中目标对应的类别；

根据所述各目标对应的物体块图像以及类别，确定所述待标注图像对应的标注结果。

可选的，所述将所述物体块图像输入到分类模型，得到所述各目标对应的类别的步骤，包括：

将所述物体块图像以及各描述信息输入到分类模型，得到所述各目标对应的描述信息，其中，所述描述信息用于表征对应的目标的类别，所述分类模型用于基于所述物体块图像的图像特征从所述各描述信息中确定所述物体块图像中目标对应的描述信息；

基于所述各目标对应的描述信息，确定所述各目标对应的类别。

可选的，在所述将所述物体块图像以及各描述信息输入到分类模型的步骤之前，所述方法还包括：

将所述待标注图像和/或所述物体块图像输入目标识别网络，得到所述待标注图像对应的描述信息。

可选的，在所述基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像的步骤之前，所述方法还包括：

基于所述分割结果包括的各个区域的面积，对所述各个区域进行筛选，得到筛选后的分割结果；

所述基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像的步骤，包括：

所述基于所述筛选后的分割结果，从所述待标注图像中提取各目标对应的物体块图像。

可选的，所述基于所述分割结果包括的各个区域的面积，对所述各个区域进行筛选，得到筛选后的分割结果的步骤，包括：

计算所述分割结果包括的各个区域的面积；

从所述各个区域中，删除面积小于预设面积阈值的区域，得到筛选后的分割结果；或，

在所述各个区域的数量达到预设数量阈值的情况下，删除目标数量个面积最小的区域，得到筛选后的分割结果，其中，所述目标数量为所述各个区域的数量与所述预设数量阈值之间的差值。

可选的，所述根据所述各目标对应的物体块图像以及类别，确定所述待标注图像对应的标注结果的步骤，包括：

根据所述各目标对应的类别，确定类别相同的目标对应的目标序号，作为该目标对应的类别标签；

根据每个目标对应的物体块图像确定该目标对应的图像区域；

基于所述每个目标对应的类别标签和图像区域，确定所述待标注图像对应的标注结果。

可选的，所述方法还包括：

基于所述待标注图像以及其对应的标注结果，对预设图像分割模型进行训练，得到图像分割模型。

第二方面，本发明实施例提供了一种图像标注装置，所述装置包括：

图像获取模块，用于获取待标注图像；

分割结果获取模块，用于将所述待标注图像输入实体分割模型，得到所述待标注图像对应的分割结果，其中，所述实体分割模型用于基于输入图像的图像特征确定所述输入图像中属于同一目标的区域；

物体块图像提取模块，用于基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像；

类别获取模块，用于将所述物体块图像输入到分类模型，得到所述各目标对应的类别，其中，所述分类模型用于基于输入图像的图像特征确定所述输入图像中目标对应的类别；

标注结果确定模块，用于根据所述各目标对应的物体块图像以及类别，确定所述待标注图像对应的标注结果。

可选的，所述类别获取模块，包括：

描述信息获取子模块，用于将所述物体块图像以及各描述信息输入到分类模型，得到所述各目标对应的描述信息，其中，所述描述信息用于表征对应的目标的类别，所述分类模型用于基于所述物体块图像的图像特征从所述各描述信息中确定所述物体块图像中目标对应的描述信息；

类别确定子模块，用于基于所述各目标对应的描述信息，确定所述各目标对应的类别。

可选的，所述装置还包括：

描述信息获取模块，用于在所述将所述物体块图像以及各描述信息输入到分类模型之前，将所述待标注图像和/或所述物体块图像输入目标识别网络，得到所述待标注图像对应的描述信息。

可选的，所述装置还包括：

分割结果筛选模块，用于在所述基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像之前，基于所述分割结果包括的各个区域的面积，对所述各个区域进行筛选，得到筛选后的分割结果；

所述物体块图像提取模块，包括：

物体块图像提取子模块，用于所述基于所述筛选后的分割结果，从所述待标注图像中提取各目标对应的物体块图像。

可选的，所述分割结果筛选模块，包括：

面积计算子模块，用于计算所述分割结果包括的各个区域的面积；

分割结果筛选子模块，用于从所述各个区域中，删除面积小于预设面积阈值的区域，得到筛选后的分割结果；或，用于在所述各个区域的数量达到预设数量阈值的情况下，删除目标数量个面积最小的区域，得到筛选后的分割结果，其中，所述目标数量为所述各个区域的数量与所述预设数量阈值之间的差值。

可选的，所述标注结果确定模块，包括：

类别标签确定子模块，用于根据所述各目标对应的类别，确定类别相同的目标对应的目标序号，作为该目标对应的类别标签；

图像区域确定子模块，用于根据每个目标对应的物体块图像确定该目标对应的图像区域；

标注结果确定子模块，用于基于所述每个目标对应的类别标签和图像区域，确定所述待标注图像对应的标注结果。

可选的，所述装置还包括：

分割模型获取模块，用于基于所述待标注图像以及其对应的标注结果，对预设图像分割模型进行训练，得到图像分割模型。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。

本发明实施例有益效果：

本发明实施例提供的的方案中，电子设备可以获取待标注图像，将待标注图像输入实体分割模型，得到待标注图像对应的分割结果，其中，实体分割模型用于基于输入图像的图像特征确定输入图像中属于同一目标的区域，基于分割结果，从待标注图像中提取各目标对应的物体块图像，将物体块图像输入到分类模型，得到各目标对应的类别，其中，分类模型用于基于输入图像的图像特征确定输入图像中目标对应的类别，根据各目标对应的物体块图像以及类别，确定待标注图像对应的标注结果。由于基于实体分割模型可以确定待标注图像中各目标的区域，基于分类模型可以确定各目标对应的类别，所以基于各目标的区域提取各目标对应的物体块图像后，可以得到待标注图像中各目标对应的物体块图像的类别，而无需人工对待标注图像进行标注，只需根据各目标对应的物体块图像及类别，确定待标注图像对应的标注结果，因此，大大节省了标注时间，提高了标注效率。当然，实施本发明的产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本发明实施例所提供的一种图像标注方法的流程图；

图2(a)为本发明实施例所提供的待标注图像的一种示意图；

图2(b)为本发明实施例所提供的待标注图像分割结果的一种示意图；

图2(c)为本发明实施例所提供的待标注图像的另一种示意图；

图2(d)为本发明实施例所提供的待标注图像分割结果的另一种示意图；

图2(e)为本发明实施例所提供的提取物体块图像的一种示意图；

图3为图1所示实施例中步骤S104的一种具体流程图；

图4为本发明实施例所提供的CLIP模型处理图像的一种流程示意图；

图5(a)为本发明实施例所提供的物体块图像确定类别结果的一种示意图；

图5(b)为本发明实施例所提供的物体块图像修正类别结果的一种示意图；

图6为基于图1实施例的筛选分割结果的一种具体流程图；

图7为图1所示实施例中步骤S105的一种具体流程图；

图8为本发明实施例所提供的待标注图像分割结果的另一种示意图；

图9为本发明实施例所提供的图像标注方法的一种流程示意图；

图10为本发明实施例所提供的一种图像标注装置的结构示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

为了提高图像的标注效率，本发明实施例提供了一种图像标注方法、装置、电子设备、计算机可读存储介质以及计算机程序产品，下面首先对本发明实施例所提供的一种图像标注方法进行介绍。

本发明实施例所提供的一种图像标注方法，可以应用于任意需要进行图像标注的电子设备，例如，可以为电脑、平板电脑或其他图像处理设备等，在此不做具体限定，为了描述清楚，以下称为电子设备。

如图1所示，一种图像标注方法，所述方法包括：

S101，获取待标注图像；

S102，将所述待标注图像输入实体分割模型，得到所述待标注图像对应的分割结果；

其中，所述实体分割模型用于基于输入图像的图像特征确定所述输入图像中属于同一目标的区域。

S103，基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像；

S104，将所述物体块图像输入到分类模型，得到所述各目标对应的类别；

其中，所述分类模型用于基于输入图像的图像特征确定所述输入图像中目标对应的类别。

S105，根据所述各目标对应的物体块图像以及类别，确定所述待标注图像对应的标注结果。

可见，本发明实施例提供的方案中，电子设备可以获取待标注图像，将待标注图像输入实体分割模型，得到待标注图像对应的分割结果，其中，实体分割模型用于基于输入图像的图像特征确定输入图像中属于同一目标的区域，基于分割结果，从待标注图像中提取各目标对应的物体块图像，将物体块图像输入到分类模型，得到各目标对应的类别，其中，分类模型用于基于输入图像的图像特征确定输入图像中目标对应的类别，根据各目标对应的物体块图像以及类别，确定待标注图像对应的标注结果。由于基于实体分割模型可以确定待标注图像中各目标的区域，基于分类模型可以确定各目标对应的类别，所以基于各目标的区域提取各目标对应的物体块图像后，可以得到待标注图像中各目标对应的物体块图像的类别，而无需人工对待标注图像进行标注，只需根据各目标对应的物体块图像及类别，确定待标注图像对应的标注结果，因此，大大节省了标注时间，提高了标注效率。

在图像识别、图像分割等众多图像处理场景中，用户可以采用深度学习的方式对图像进行处理，深度学习需要大量已标注的图像数据集来训练深度学习模型，而在对图像数据集进行预处理的过程中，图像的标注是至关重要的。

例如，在基于深度学习实现自动驾驶汽车障碍物自动识别的场景中，需要收集各种道路场景的障碍物的图像，对每张图像中障碍物的轮廓和类别等进行标注，得到图像对应的标签，进而基于这些图像以及其对应的标签训练深度学习模型，以实现通过该深度学习模型识别自动驾驶场景中采集的图像中的障碍物，以指导车辆进行自动避障。

为了实现对图像的标注，在上述步骤S101中，电子设备获取待标注图像。其中，待标注图像可以根据需要训练的深度学习模型的应用场景确定，可以为人员图像、车辆图像等，在此不做具体限定。例如，针对识别室内目标的场景，待标注图像可以如图2(a)所示，待标注图像中包括桌子、椅子、柜子、墙以及地板等。

电子设备获取待标注图像后，在上述步骤S102中，可以将该待标注图像输入实体分割模型，得到该待标注图像对应的分割结果，其中，实体分割模型用于基于输入图像的图像特征确定输入图像中属于同一目标的区域。

在一种实施方式下，电子设备可以采用实体分割模型对待标注图像进行分割处理。实体分割是对图像进行分“块”处理，使分割得到的每个“块”是一个不考虑类别信息的区域，也就是说，实体分割模型可以从待标注图像中识别出属于同一目标的区域。

例如，针对如图2(a)所示的待标注图像，采用实体分割模型对该待标注图像进行分割处理，可以将该待标注图像中的物体分割出来，得到的分割结果如图2(b)所示，可以得到该待标注图像包括的各个目标对应的“块”，即各个目标对应的区域。

又例如，针对如图2(c)所示的待标注图像，采用实体分割模型对该待标注图像进行分割处理，可以将该待标注图像中的物体分割出来，得到的分割结果如图2(d)所示，可以得到待标注图像包括的各个目标对应的“块”，即各个目标对应的区域。

为了确定待标注图像中包括的各个目标的类别，在上述步骤S103中，电子设备可以基于上述分割结果，从待标注图像中提取各目标对应的物体块图像。由于电子设备将待标注图像输入实体分割模型后，可以确定待标注图像包括的各目标对应的区域，而各目标对应的区域即为待标注图像中各目标所在的位置，所以可以按照各目标对应的区域从待标注图像中提取各目标对应的物体块图像。

在一种实施方式中，由于待标注图像的分割结果为一个包括各个目标对应的区域的图像，所以可以将待标注图像的分割结果作为掩膜，将该待标注图像中各目标对应的区域按照该掩膜提取出来，得到物体块图像。

例如，针对图2(a)所示的待标注图像，电子设备将该待标注图像输入实体分割模型后，可以得到该待标注图像的分割结果，如图2(b)所示，分割结果包括各个目标对应的区域，同一目标对应的区域序号相同。其中，各目标的区域为该待标注图像中各物体块图像对应的位置，例如，序号1表示的目标的区域为该待标注图像中桌子对应的位置、序号2表示的目标的区域为该待标注图像中椅子对应的位置，因此，可以将分割掩膜作为该待标注图像的掩膜，即可以将椅子、桌子、柜子等物体块图像提取出来，如图2(e)所示，得到该待标注图像的物体块图像。

进而，在上述步骤S104中，电子设备可以将物体块图像输入到分类模型，得到各目标对应的类别，其中，分类模型用于基于输入图像的图像特征确定输入图像中目标对应的类别。

由于电子设备获取到的物体块图像为从待标注图像中分割出来的图像区域，未确定对应的类别，所以电子设备可以将物体块图像输入到分类模型中，分类模型可以提取物体块图像的图像特征，进而根据图像特征确定各物体块图像的类别，即可以得到各目标对应的类别。

电子设备获得待标注图像中各目标对应的物体块图像以及类别后，可以根据各目标对应的物体块图像以及类别，确定该待标注图像对应的标注结果。在一种实施方式中，可以将待标注图像的数据格式进行规范化标注格式转化，例如，将待标注图像的数据格式转换成JSON数据集格式，根据该待标注图像各目标对应的物体块图像以及类别，可以在JSON数据集格式下，标记各目标对应的物体块图像的轮廓和类别等。

例如，电子设备获取待标注图像对应的物体块图像如图2(e)所示，各物体块图像对应的类别分别为“地板”、“椅子”、“柜子”、“桌子”、“椅子”以及“墙”，将待标注图像的数据格式转化成规范化标注格式，在待标注图像的规范化标注格式下，标注出各目标对应的物体块图像“地板”、“椅子”、“柜子”、“桌子”、“椅子”以及“墙”的轮廓，并标注对应的类别。

本发明实施例提供的方案中，由于基于实体分割模型可以确定待标注图像中各目标的区域，基于分类模型可以确定各目标对应的类别，所以基于各目标的区域提取各目标对应的物体块图像后，可以得到待标注图像中各目标对应的物体块图像的类别，而无需人工对待标注图像进行标注，只需根据各目标对应的物体块图像及类别，确定待标注图像对应的标注结果，因此，大大节省了标注时间，提高了标注效率。

作为本发明实施例的一种实施方式，如图3所示，上述将所述物体块图像输入到分类模型，得到上述各目标对应的类别的步骤，可以包括：

S301，将所述物体块图像以及各描述信息输入到分类模型，得到所述各目标对应的描述信息；

为了确定待标注图像各目标对应的描述信息，电子设备可以获取物体块图像对应的描述信息，其中，描述信息用于表征对应的目标的类别，例如，可以由人工预先根据各个待标注图像包括的目标的类别设置描述信息。

确定描述信息后，可以将物体块图像和各描述信息输入分类模型，其中，分类模型可以用于基于物体块图像的图像特征从各描述信息中确定物体块图像中目标对应的描述信息。这样，分类模型可以根据输入的物体块图像的图像特征，从各描述信息中确定哪一个描述信息与该物体块图像更加匹配，进而得到该物体块图像中目标对应的描述信息。

在一种实施方式中，电子设备可以采用CLIP(Contrastive Language-Image Pre-training，对比语言-图像预训练)模型作为分类模型，CLIP模型可以利用文本信息实现监督视觉任务自训练，将分类任务转换成图文匹配任务，也就是根据文本描述区分图像。采用CLIP模型处理图像的流程如图4所示，采用图像编码器处理图像数据，采用文本编码器处理文本数据，将图像数据和文本数据转换为特征向量，其中，由于每张图像只由一个标签进行标注，而该模型处理的文本数据需要是语句的形式，所以需要将图像的标签按照“A photoof a{object}”的形式转化为语句，然后计算有关联性的图像数据和文本数据的余弦相似度，根据余弦相似度进行图文匹配。

假设将一张图像和一组为“a cat”、“a plane”、“a dog”、“a bird”的文本数据输入CLIP模型，其中，文本数据会转化为“A photo of a cat”、“A photo of a plane”、“Aphoto of a dog”、“A photo of a bird”的形式，由图像编码器处理图像数据，由文本编码器处理文本数据，计算该图像数据和每个对应文本数据的余弦相似度，确定余弦相似度中的最大相似度，该最大相似度对应的文本数据即为该图像数据对应的最为匹配的文本数据，从而实现图像与文本的匹配。

例如，针对如图2(e)所示的物体块图像，物体块图像对应的描述信息分别为“desk”、“chair”、“cabinet”、“wall”以及“floor”，将物体块图像和物体块图像对应的描述信息输入CLIP模型中，确定各物体块图像对应的匹配概率最大的描述信息，可以得到物体块图像1对应的匹配概率最大的描述信息为“chair”、物体块图像2对应的匹配概率最大的描述信息为“chair”、物体块图像3对应的匹配概率最大的描述信息为“cabinet”、物体块图像4对应的匹配概率最大的描述信息为“chair”、物体块图像5对应的匹配概率最大的描述信息为“chair”、物体块图像6对应的匹配概率最大的描述信息为“wall”，即得到各目标对应的描述信息。

S302，基于所述各目标对应的描述信息，确定所述各目标对应的类别。

确定了各目标对应的描述信息后，由于描述信息可以表征对应的目标的类别，所以电子设备可以根据各个目标对应的描述信息，确定每个目标对应的类别。

例如，如图2(e)所示，各目标对应的匹配概率最大的描述信息分别为“chair”、“chair”、“cabinet”、“chair”、“chair”以及“wall”，那么电子设备可以根据各目标对应的描述信息，确定各目标对应的类别。描述信息“chair”、“cabinet”以及“wall”分别表征的类别为“椅子”、“柜子”和“墙”，那么如图5(a)所示，电子设备可以确定待标注图像中各目标对应的类别分别为“椅子”、“椅子”、“柜子”、“椅子”、“椅子”以及“墙”。

可见，在本实施例中，电子设备将物体块图像以及各描述信息输入到分类模型，得到各目标对应的描述信息，基于该各目标对应的描述信息，可以确定各目标对应的类别。由于电子设备在获取物体块图像以及各描述信息情况下，基于分类模型，可以将物体块图像按照类别分开，无需人工进行标注，大大节省了标注时间，提高了标注效率。

作为本发明实施例的一种实施方式，在上述将所述物体块图像以及各描述信息输入到分类模型的步骤之前，上述方法还可以包括：

为了确定待标注图像对应的描述信息，电子设备可以将待标注图像和/或物体块图像输入到目标识别网络，由目标识别网络输出待标注图像对应的描述信息。该目标识别网络可以识别输入图像中包括的各个目标，并将能够描述图像中目标的特点的信息输出，该描述图像中目标的特点的信息可以表征该目标对应的类别，因此，可以将待标注图像和/或物体块图像输入到目标识别网络，从而得到待标注图像对应的描述信息。

可见，在本实施例中，电子设备将待标注图像和/或物体块图像输入到目标识别网络，可以得到物体块图像对应的描述信息，以使将物体块图像输入分类模型进行类别识别时，可以得到准确的物体块图像的描述信息，并且无需人工确定描述信息，进一步提升图像标注的效率。

作为本发明实施例的一种实施方式，在上述基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像的步骤之前，上述方法还可以包括：

基于所述分割结果包括的各个区域的面积，对所述各个区域进行筛选，得到筛选后的分割结果。

电子设备将待标注图像输入实体分割模型后，可以得到分割结果，分割结果中包括各个目标对应的区域，其中，可能存在某个或某些区域的面积比较小，而面积比较小的区域很可能是被误分割得到的，因此为了提高标注准确度，可以对分割结果包括的各个区域进行筛选，得到筛选后的分割结果。

相应的，上述基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像的步骤，可以包括：

得到待标注图像对应的筛选后的分割结果后，电子设备可以基于筛选后的分割结果所包括各目标的区域，从待标注图像中提取各目标对应的物体块图像。

可见，在本实施例中，针对上述分割结果包括的各个目标对应的区域，电子设备可以对各个区域进行筛选，得到筛选后的结果，并基于所述筛选后的分割结果，从待标注图像中提取各目标对应的物体块图像，由于对分割结果中各个区域进行筛选，可以去除误分割得到的结果，使筛选后的区域更加准确，从而进一步提高物体块图像提取的准确率。

作为本发明实施例的一种实施方式，如图6所示，上述基于所述分割结果包括的各个区域的面积，对所述各个区域进行筛选，得到筛选后的分割结果的步骤，可以包括：

S601，计算所述分割结果包括的各个区域的面积；

在对上述分割结果包括的各个区域进行筛选时，电子设备可以计算各个区域的面积。在一种实施方式中，针对不同形状的区域面积，可以根据该区域包括的像素的数量计算各个区域的面积。具体来讲，电子设备获取的分割结果中，各个区域包括圆形区域、矩形区域以及不规则区域，可以分别计算圆形区域、矩形区域以及不规则区域包括的像素的数量，进而将该数量作为对应的区域的面积。

S602，从所述各个区域中，删除面积小于预设面积阈值的区域，得到筛选后的分割结果；或，在所述各个区域的数量达到预设数量阈值的情况下，删除目标数量个面积最小的区域，得到筛选后的分割结果。

在一种实施方式中，由于区域面积比较小，说明该区域为误分割结果的概率比较大，所以电子设备可以根据预设面积阈值，删除面积小于预设面积阈值的区域。

例如，待标注图像的分割结果包括8个区域，分别为区域1-区域8，预设面积阈值为S_预。那么电子设备可以计算各个区域的面积，得到的区域面积分别为S1、S2、S3、S4、S5、S6、S7以及S8，其中，区域7和区域8的区域面积小于预设面积阈值S_预，那么，电子设备可以删除区域7和区域8，以得到筛选后的分割结果。

在另一种实施方式中，为了删除面积比较小的区域，针对待标注图像分割结果包括的各个区域，电子设备可以根据预设数量阈值，删除目标数量个面积最小的区域，其中，目标数量为各个区域的数量与预设数量阈值之间的差值。

例如，分割结果包括的区域的数量为8，预设数量阈值为6，电子设备可以计算各个区域的数量与预设数量阈值之间的差值为2，那么，可以删除面积最小的2个区域，假设区域7和区域8的面积最小，可以删除区域7和区域8，以得到筛选后的分割结果。

可见，在本方案中，电子设备可以计算分割结果中各个区域的面积，进而可以根据预设面积阈值，删除区域面积小于预设面积阈值的区域，或者，在各个区域的数量达到预设数量阈值的情况下，删除目标数量个区域面积最小的区域，得到筛选后的分割结果。这样，通过按预设面积阈值或者预设数量阈值，对待标注图像的分割结果进行筛选，可以从分割结果中删除误分割结果，可以提高后续待标注图像的标注结果的准确度。

作为本发明实施例的一种实施方式，如图7所示，上述根据所述各目标对应的物体块图像以及类别，确定所述待标注图像对应的标注结果的步骤，可以包括：

S701，根据所述各目标对应的类别，确定类别相同的目标对应的目标序号，作为该目标对应的类别标签；

在一种实施方式中，实体分割模型输出的分割结果中会将每个目标对应的区域采用一个序号进行标识，为了统一相同类别的目标对应序号，电子设备可以将类别相同的目标对应的序号确定为同一个序号，并将该序号作为该待标注图像中该类别的目标对应的类别标签。

例如，如图5(a)所示，电子设备获取待标注图像中各目标对应的类别分别为“椅子”、“椅子”、“柜子”、“椅子”、“椅子”以及“墙”，各目标对应的目标序号分别记为1、2、3、4、5以及6，那么，电子设备可以确定“椅子”、“柜子”、“墙”对应的目标序号分别为1、2、3，可以将目标序号1、2、3作为各目标对应的类别标签，即将目标序号1作为“椅子”的类别标签、将目标序号2作为“柜子”的类别标签、将目标序号3作为“墙”的类别标签。

针对多个待标注图像，电子设备可以将各个待标注图像中类别相同的目标对应的序号确定为同一个序号，并将该序号作为各个待标注图像中该类别的目标对应的类别标签。

例如，针对多张足球场待标注图像A、B、C，电子设备可以确定该多张待标注图像A、B、C中各目标对应的类别，该各目标对应的类别分别为“足球场地”、“球门”、“观众座位”。对待标注图像A进行分类得到“足球场地”的目标序号为1，“球门”的目标序号为2，“观众座位”的目标序号为3，对待标注图像B进行分类得到“球门”的目标序号为1，“足球场地”的目标序号为2，“观众座位”的目标序号为3，对待标注图像C进行分类得到“足球场地”的目标序号为1，“观众座位”的目标序号为2，“球门”的目标序号为3。

那么电子设备可以将类别相同的目标对应的序号调整为同一序号，可以将待标注图像A、B、C中相同类别的目标确定为同一个序号，具体来说，可以确定待标注图像A、B、C中“足球场地”、“球门”、“观众座位”对应的目标序号分别为1、2、3，并将目标序号1、2、3作为各目标对应的类别标签，即目标序号1作为“足球场地”的类别标签，将目标序号2作为“球门”的类别标签，将目标序号3作为“观众座位”的类别标签。

S702，根据每个目标对应的物体块图像确定该目标对应的图像区域；

针对待标注图像中各个目标对应的物体块图像，电子设备可以确定该物体块图像在待标注图像中的区域位置，即图像区域，该图像区域也就是该物体块图像对应的目标在待标注图像中所在的位置。该位置可以采用图像坐标等方式表示。

如图5(a)所示，待标注图像中各个目标对应的物体块图像分别为“椅子”、“椅子”、“柜子”、“椅子”、“椅子”以及“墙”对应的图像，针对各个目标对应的物体块图像，可以确定该物体块图像在待标注图像中的区域位置，如图2(b)所示，得到图像区域6、图像区域3、图像区域4、图像区域1、图像区域2和图像区域5。

S703，基于所述每个目标对应的类别标签和图像区域，确定所述待标注图像对应的标注结果。

确定了每个目标对应的类别标签和图像区域后，电子设备可以基于每个目标对应的图像区域的轮廓和类别，确定待标注图像对应的标注结果。

在一种情况下，由于分类模型输出的描述信息可能存在错误，在确定每个目标对应的类别标签之前，可以人工修正各目标对应的描述信息中的错误描述信息，以准确确定各个目标对应的类别标签。

如图5(a)所示，采用CLIP模型得到的物体块图像中目标对应描述信息中，存在错误的描述信息，例如，将“floor”、“desk”识别为“chair”，因此，可以根据目标的实际类别修正错误的描述信息，确定物体块图像的类别标签。修正结果如图5(b)所示，得到待标注图像中物体块图像正确的描述信息，分别为“floor”、“chair”、“cabinet”、“desk”、“chair”以及“wall”，由此可以确定各个目标对应的类别分别为“地板”、“椅子”、“柜子”、“桌子”、“椅子”以及“墙”。

可见，在本方案中，根据各目标对应的类别，确定类别相同的目标对应的目标序号，作为该目标对应的类别标签，根据每个目标对应的物体块图像确定该目标对应的图像区域，基于每个目标对应的类别标签和图像区域，确定待标注图像对应标注结果。由于电子设备可以获取每个目标对应的类别标签和图像区域，无需人工进行标注，节省了人工标注时间，提高了标注效率。

作为本发明实施例的一种实施方式，上述方法还可以包括：

获得待标注图像对应的标注结果后，可以采用各待标注图像以及其对应的标注结果对预设图像分割模型进行训练，得到图像分割模型。

如图8所示，待标注图像为车辆图像，对该待标注图像进行标注，得到待标注图像对应的标注结果，其中包括车辆对应的图像区域和类别标签。可以基于待标注图像以及其对应标注结果，对该预设的车辆分割模型进行训练，可以得到车辆分割模型。

作为一种实施方式，电子设备可以将待标注图像作为图像样本输入预设图像分割模型，预设图像分割模型可以基于当前模型参数提取图像样本的图像特征，并基于图像特征对图像样本进行分割，得到预测分割结果，该预测分割结果包括图像样本中的各目标对应的图像区域以及类别。进而，可以根据预测分割结果与该图像样本的标注结果之间的差异，调整预设图像分割模型的模型参数，直到预设图像分割模型收敛，得到图像分割模型。

可见，在本方案中，电子设备基于待标注图像以及对应的标注结果，对预设图像分割模型进行训练，可以得到图像分割模型。训练得到的图像分割模型可以对输入图像进行准确分割，得到准确的图像分割结果。

图9为本发明实施例所提供的图像标注方法的一种流程示意图。下面结合图9对本发明实施例所提供的图像标注方法进行举例介绍。如图9所示，本发明实施例所提供的图像标注方法可以包括以下步骤：

步骤A：采集数据集；

数据集包括多个原始图像，即待标注图像。

步骤B：进行实体分割；

获取上述待标注图像后，电子设备可以使用实体分割网络对待标注图像进行实体分割，得到分割结果。其中，分割结果也是一张图像，该图像中相同的值代表一个物体区域。该图像中的各个区域可以称为区域块图像，即对待标注图像进行实体分割，得到区域块图像。

步骤C：进行区域筛选；

接下来，电子设备可以进行区域筛选，即为对分割结果进行分析和筛选，可以计算各区域块的面积，删除面积过小的区域，因为这些区域被误分割的概率一般比较大；也可以统计各区域的数量，选定一个阈值，当区域数量高于这个阈值的时候，删除高于阈值的面积最小的区域，一般图像中物体较多，被误分割的概率可能也会增加。

步骤D：根据区域提取图像物体块；

将筛选后的各区域块作为待标注图像的掩膜，从待标注图像中将对应区域的物体(物体块)提取出来，得到图像物体块，即物体块图像。

步骤E：保存图像物体块；

得到图像物体块之后，可以保存图像物体块。

步骤F：确定物体类别；

电子设备可以根据待标注图像和/或物体块图像确定物体类别及对应描述信息，也可以人工确定物体类别及对应描述信息。

步骤G：使用CLIP对物体块进行分类；

确定了描述信息后，可以使用CLIP对物体块图像进行分类，使用CLIP，根据上一步确定的描述信息，将物体块图像分类。

步骤H：初步给物体块类别序号；

可以人工整理上一步的物体块图像，修正描述信息错误的结果，整理物体类别。

步骤I：修改对应区域块序号；

可以将同一类物体块图像对应的所有区域块改成同一序号，删除不需要的区域块，即删除对后续预设图像分割模型的训练来说不必要的类别的物体块图像。

步骤J：将区域块图像转换成标注；

进而，可以将上一步修改完的物体块图像(区域块图像)转成电子设备可编辑的标注格式。

步骤K：人工修改标注。

如果标注结果不够准确，可以人工修改标注，实现对待标注图像的准确标注。

可见，本发明实施例中，提出了一种半自动标注框架，通用性强，并不局限于数据场景和物体类别。由于实体分割模型和CLIP模型在不同的数据集上效果都比较好，所以可以直接应用官方提供的模型权重，不需要自己训练分割模型和分类模型。目前的图像标注方法中，需要人工对部分数据集进行标注，本方案可以应用模型实现这一部分数据集的标注，因此扩展性强，可以嵌入目前的图像标注方法中，大大提高图像标注效率。

相应于上述图像标注方法，本发明实施例还提供了一种图像标注装置。下面对本发明实施例所提供的一种图像标注装置进行介绍。

如图10所示，一种图像标注装置，所述装置包括：

图像获取模块1010，用于获取待标注图像；

分割结果获取模块1020，用于将所述待标注图像输入实体分割模型，得到所述待标注图像对应的分割结果；

物体块图像提取模块1030，用于基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像；

类别获取模块1040，用于将所述物体块图像输入到分类模型，得到所述各目标对应的类别；

标注结果确定模块1050，用于根据所述各目标对应的物体块图像以及类别，确定所述待标注图像对应的标注结果。

作为本发明实施例的一种实施方式，上述类别获取模块1040，可以包括：

描述信息获取子模块，用于将所述物体块图像以及各描述信息输入到分类模型，得到所述各目标对应的描述信息；

其中，所述描述信息用于表征对应的目标的类别，所述分类模型用于基于所述物体块图像的图像特征从所述各描述信息中确定所述物体块图像中目标对应的描述信息。

作为本发明实施例的一种实施方式，上述装置还可以包括：

所述物体块图像提取模块1030，可以包括：

作为本发明实施例的一种实施方式，上述分割结果筛选模块，可以包括：

分割结果筛选子模块，用于从所述各个区域中，删除面积小于预设面积阈值的区域，得到筛选后的分割结果；或，用于在所述各个区域的数量达到预设数量阈值的情况下，删除目标数量个面积最小的区域，得到筛选后的分割结果。

其中，所述目标数量为所述各个区域的数量与所述预设数量阈值之间的差值。

作为本发明实施例的一种实施方式，上述标注结果确定模块1050，可以包括：

作为本发明实施例的一种实施方式，上述装置还可以包括：

本发明实施例还提供了一种电子设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现上述任一实施例所述的图像标注方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的图像标注方法的步骤。

可见，本发明实施例提供的方案中，计算机程序被处理器执行时可以获取待标注图像，将待标注图像输入实体分割模型，得到待标注图像对应的分割结果，其中，实体分割模型用于基于输入图像的图像特征确定输入图像中属于同一目标的区域，基于分割结果，从待标注图像中提取各目标对应的物体块图像，将物体块图像输入到分类模型，得到各目标对应的类别，其中，分类模型用于基于输入图像的图像特征确定输入图像中目标对应的类别，根据各目标对应的物体块图像以及类别，确定待标注图像对应的标注结果。由于基于实体分割模型可以确定待标注图像中各目标的区域，基于分类模型可以确定各目标对应的类别，所以基于各目标的区域提取各目标对应的物体块图像后，可以得到待标注图像中各目标对应的物体块图像的类别，而无需人工对待标注图像进行标注，只需根据各目标对应的物体块图像及类别，确定待标注图像对应的标注结果，因此，大大节省了标注时间，提高了标注效率。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一图像标注方法的步骤。

可见，本发明实施例提供的方案中，包含指令的计算机程序产品在计算机上运行时可以获取待标注图像，将待标注图像输入实体分割模型，得到待标注图像对应的分割结果，其中，实体分割模型用于基于输入图像的图像特征确定输入图像中属于同一目标的区域，基于分割结果，从待标注图像中提取各目标对应的物体块图像，将物体块图像输入到分类模型，得到各目标对应的类别，其中，分类模型用于基于输入图像的图像特征确定输入图像中目标对应的类别，根据各目标对应的物体块图像以及类别，确定待标注图像对应的标注结果。由于基于实体分割模型可以确定待标注图像中各目标的区域，基于分类模型可以确定各目标对应的类别，所以基于各目标的区域提取各目标对应的物体块图像后，可以得到待标注图像中各目标对应的物体块图像的类别，而无需人工对待标注图像进行标注，只需根据各目标对应的物体块图像及类别，确定待标注图像对应的标注结果，因此，大大节省了标注时间，提高了标注效率。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像标注方法，其特征在于，所述方法包括：

获取待标注图像；

2.根据权利要求1所述的方法，其特征在于，所述将所述物体块图像输入到分类模型，得到所述各目标对应的类别的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，在所述将所述物体块图像以及各描述信息输入到分类模型的步骤之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在所述基于所述分割结果，从所述待标注图像中提取各目标对应的物体块图像的步骤之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述分割结果包括的各个区域的面积，对所述各个区域进行筛选，得到筛选后的分割结果的步骤，包括：

计算所述分割结果包括的各个区域的面积；

6.根据权利要求1所述的方法，其特征在于，所述根据所述各目标对应的物体块图像以及类别，确定所述待标注图像对应的标注结果的步骤，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

8.一种图像标注装置，其特征在于，所述装置包括：

图像获取模块，用于获取待标注图像；

9.根据权利要求8所述的装置，其特征在于，所述类别获取模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述物体块图像提取模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述分割结果筛选模块，包括：

13.根据权利要求8所述的装置，其特征在于，所述标注结果确定模块，包括：

14.根据权利要求8-13任一项所述的装置，其特征在于，所述装置还包括：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。