CN117152753B

CN117152753B - 图像标注方法、计算机设备和存储介质

Info

Publication number: CN117152753B
Application number: CN202311422619.7A
Authority: CN
Inventors: 任少卿; 谢涛; 周欣; 李斌
Original assignee: Anhui Weilai Zhijia Technology Co Ltd
Current assignee: Anhui Weilai Zhijia Technology Co Ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-04-16
Anticipated expiration: 2043-10-31
Also published as: CN117152753A

Abstract

本申请涉及数据自动标注领域，并且更具体地涉及一种图像标注方法、实施该方法的计算机设备、实施该方法的计算机存储介质。该图像标注方法包括：利用图像分割模型对多视角下的原始图像进行分割处理，以输出各视角下的原始图像的分割掩码图，分割掩码图包含指示目标物体的轮廓的标注信息；利用神经辐射场对各视角下的分割掩码图进行多视角融合以修正单视角错误，并生成经修正的第一掩码图；以及根据时序关系对第一掩码图进行多帧时序融合以修正单帧错误，并生成鸟瞰图视角下的第二掩码图。

Description

图像标注方法、计算机设备和存储介质

技术领域

本申请涉及数据自动标注领域，并且更具体地涉及一种图像标注方法、实施该方法的计算机设备以及实施该方法的计算机存储介质。

背景技术

自动驾驶系统中对物体的感知依赖于模型迭代，而大量的标注数据是模型迭代的基础。图像分割模型作为自动驾驶中重要的感知识别模型，不同于检测和分类模型，其标注需要像素级。像素级标注精度要求极高，物体边缘必须完美的拟合，这就导致了一张图像的分割标注成本极高，且标注时间极长。此类像素级标注由于过高的复杂性和成本，无法支持大规模的数据量，使得自动驾驶系统的感知功能受限于数据量，精度无法进一步提高。

要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

为了解决或至少缓解以上问题中的一个或多个，提供了以下技术方案。本申请的实施例提供了一种图像标注方法、实施该方法的计算机设备以及实施该方法的计算机存储介质，其能够降低标注成本并提高标注效率，从而提高自动驾驶模型的迭代效率。

按照本申请的第一方面，提供一种图像标注方法，所述方法包括以下步骤：A、利用图像分割模型对多视角下的原始图像进行分割处理，以输出各视角下的原始图像的分割掩码图，所述分割掩码图包含指示目标物体的轮廓的标注信息；B、利用神经辐射场对各视角下的分割掩码图进行多视角融合以修正单视角错误，并生成经修正的第一掩码图；以及C、根据时序关系对所述第一掩码图进行多帧时序融合以修正单帧错误，并生成鸟瞰图视角下的第二掩码图。

作为以上方案的替代或补充，在根据本申请一实施例的图像标注方法中，所述方法进一步包括：对由多视角视频采集单元采集的视频数据进行抽帧处理，并生成一系列带有时间戳的原始图像。

作为以上方案的替代或补充，在根据本申请一实施例的图像标注方法中，步骤A包括：利用所述图像分割模型对所述原始图像进行像素级识别，其中所述原始图像中的每个像素都被标注有类别信息；以及基于标注的类别信息绘制目标物体的轮廓。

作为以上方案的替代或补充，在根据本申请一实施例的图像标注方法中，所述图像分割模型是基于包含样本图像和所述样本图像的掩码信息的训练数据集而构建的，所述掩码信息是基于针对所述样本图像中的目标物体的目标识别结果而生成的，并且所述图像分割模型包括以下各项中的一项或多项：针对刚性物体的实例分割模型、针对非刚性物体的语义分割模型、针对刚性物体以及非刚性物体的全景分割模型。

作为以上方案的替代或补充，在根据本申请一实施例的图像标注方法中，步骤B包括：利用所述神经辐射场对所述分割掩码图进行三维重建，以将多视角下的分割掩码图中的二维掩码投影到三维掩码网格；以及将重建后的三维掩码图反投影至二维掩码网格，以生成经修正的、多视角下的第一掩码图。

作为以上方案的替代或补充，在根据本申请一实施例的图像标注方法中，步骤C包括：针对时间戳相同的多视角下的第一掩码图，利用仿射变换将其投影至世界坐标系下的鸟瞰图视角，以生成各时刻的鸟瞰图视角下的第三掩码图；以及根据时序关系对所述各时刻的第三掩码图进行多帧时序融合以生成所述第二掩码图，其中所述第二掩码图的尺寸大于所述第三掩码图的尺寸。

作为以上方案的替代或补充，在根据本申请一实施例的图像标注方法中，所述方法进一步包括：在多帧时序融合过程中计算各个目标物体的修正误差；以及将所述第二掩码图反投影至特定视角，以生成特定视角下的第四掩码图。

作为以上方案的替代或补充，在根据本申请一实施例的图像标注方法中，所述方法进一步包括：若各个目标物体的修正误差均小于或等于所述第一阈值，则输出所述第四掩码图以作为最终标注结果，其中所述特定视角包括所述原始图像的多个原始视角。

作为以上方案的替代或补充，在根据本申请一实施例的图像标注方法中，所述方法进一步包括：若第一目标物体的修正误差大于所述第一阈值，则对所述第四掩码图中的所述第一目标物体进行单目标聚合以修复所述第四掩码图中的第一目标物体的误差，并生成经修正的第五掩码图，其中所述特定视角包括所述原始图像的多个原始视角中的一个或多个；以及利用所述第五掩码图更新所述分割掩码图，并重新执行所述步骤B和步骤C。

作为以上方案的替代或补充，在根据本申请一实施例的图像标注方法中，计算所述目标物体的修正误差包括计算相邻帧中所述目标物体的像素差，并且/或者所述单目标聚合是基于交互式分割模型执行的。

根据本申请的第二方面，提供一种计算机设备，包含：存储器；处理器；以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序的运行使得根据本申请第一方面所述的图像标注方法中的任意一项被执行。

根据本申请的第三方面，提供一种计算机存储介质，所述计算机存储介质包括指令，所述指令在运行时执行根据本申请第一方面所述的图像标注方法中的任意一项。

根据本申请的一个或多个实施例的图像标注方案基于图像分割和时序动态修复技术而实现。该方案引入了自动驾驶中的时序特征，不仅具有单帧标注能力，还能够利用神经辐射场修正图像的单视角错误，并且根据前后时序关系自动修正图像的单帧错误。相较于现有的图像分割标注方法，该方案能够减少因单帧图像抖动、空洞、误差等问题引起的标注错误，从而提高标注准确率，提高自动驾驶系统的感知功能精度。此外，该方案无需人工标注，大大降低了标注成本，减少了无效的冗余标注。

附图说明

本申请的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解，附图中相同或相似的单元采用相同的标号表示。在所述附图中：

图1为按照本申请的一个或多个实施例的图像标注方法10的示意性流程图；

图2为按照本申请的一个或多个实施例的计算机设备20的示意性框图。

具体实施方式

以下具体实施方式的描述本质上仅仅是示例性地，并且不旨在限制所公开的技术或所公开的技术的应用和用途。此外，不意图受在前述技术领域、背景技术或以下具体实施方式中呈现的任何明示或暗示的理论的约束。

在实施例的以下详细描述中，阐述了许多具体细节以便提供对所公开技术的更透彻理解。然而，对于本领域普通技术人员显而易见的是，可以在没有这些具体细节的情况下实践所公开的技术。在其他实例中，没有详细描述公知的特征，以避免不必要地使描述复杂化。

诸如“包含”和“包括”之类的用语表示除了具有在说明书中有直接和明确表述的单元和步骤以外，本申请的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。本申请的技术通常用于电动汽车，其包括但不限于纯电动汽车（BEV）、混合动力汽车（HEV）、燃料电池汽车（FCEV）等。

一些图像分割人工标注方法主要通过对目标物体绘制外接多边形的方式来实现图像标注。在这种标注方式下，单个目标物体所需的外接多边形通常由10-20个点构成，所消耗的时间约为10-30秒不等。因此，一张具有上百种目标物体的复杂场景，其图像标注时间通常超过30分钟。对此，为了提高标注效率，还可采用半自动交互式分割作为标注手段。半自动交互式分割通常需要通过提取鼠标点击处的物体特征、计算周围像素的相似度、并对超过阈值的像素进行聚类来输出物体轮廓。由于采用了自动特征提取的图像算法，使得模型能够一定程度上自动识别目标物体，大大降低了标注速度和标注成本。然而，半自动交互式分割的标注结果通常并不精确，仍存在一定的误差，因此需要通过人工修正进行弥补。对此，本申请提出一种基于图像分割和时序动态修复技术而实现的图像标注方案，以在降低标注成本和耗时的同时实现更高的标注精度，从而提高自动驾驶的感知能力。

在下文中，将参考附图详细地描述根据本申请的各示例性实施例。

下面参考附图，图1为按照本申请的一个或多个实施例的图像标注方法10的示意性流程图。

如图1所示，在步骤S110中，利用图像分割模型对多视角下的原始图像进行分割处理，以输出各视角下的原始图像的分割掩码图。

根据本发明的一个或多个实施例采用多个视频采集单元对车辆周围环境信息进行多视角采集并输出对应的多视角视频数据。多个视频采集单元可分别设置在车辆上的不同预设位置，每个视频采集单元对应一个视角。为了避免视角盲区，多个视频采集单元的取像视野范围可以存在重叠。

示例性地，上述多个视频采集单元包括一个或多个前视摄像头和/或一个或多个侧视摄像头，上述摄像头可安装在车顶高位侧、车辆翼子板上、或安装在反光镜上方的灯带上、或安装在反光镜下方与车门板连接处，以增加视觉冗余度并减小感知盲区。示例性地，在进行图像分割处理之前，还可对由上述多视角视频采集单元（例如，左前向摄像头、正向摄像头、右前向摄像头）采集的视频数据进行抽帧处理，并生成一系列带有时间戳的原始图像（例如，左前视角下的原始图像、正前视角下的原始图像、右前视角下的原始图像）。在本文中，相机、镜头、摄像机、摄像头等均表示可以获取覆盖范围内的图像或影像的设备，其含义类似，且可以互换，本发明对此不做限制。

图像分割是指根据灰度、彩色、空间纹理、几何形状等特征将图像划分成若干个互不相交的区域，使得这些特征在同一区域内表现出一致性或相似性，而在不同区域间表现出明显的不同。示例性地，图像分割模型可以是SegNet、DeepLab、Mask R-CNN、U-Net、GatedSCNN之一。

可选地，图像分割模型是基于包含样本图像和样本图像的掩码信息的训练数据集而构建的，其中掩码信息是基于针对样本图像中的目标物体的目标识别结果而生成的。在根据本申请的一些实施例中，为了避免通过人工标注的方式对样本图像进行标注，可以预先训练一个或多个目标检测模型，以通过其对样本图像中的目标物体所在的区域和目标物体的类别进行识别，并确定样本图像中像素点是否为目标物体中的像素点，从而生成相应的掩码信息。接着利用包含样本图像和样本图像的掩码信息的训练数据集对图像分割模型进行训练。在步骤S110中，可利用通过上述方式训练好的图像分割模型对每个视角（例如，左前视角、正前视角和右前视角）下的原始图像进行识别，使得每个视角下的原始图像中的每个像素都被标注有类别信息（例如，车辆、行人、车道线），以达到像素级标注的要求。此外，在步骤S110中，还可基于标注好的类别信息绘制目标物体的轮廓并输出包含指示目标物体的轮廓的标注信息的分割掩码图。例如，在输出的分割掩码图中，可以将具有相同类别信息的像素标注成相同颜色，将具有不同类别信息的像素标注成不同颜色。

可选地，可针对数据自身特点、需要标注的目标等特征，采用具有不同的分割框架的模型图像分割。示例性地，步骤S110中的图像分割模型可以是实例分割（InstanceSegmentation，IS）模型、语义分割（Semantic segmentation，SS）模型以及全景分割（Panoptic Segmentation，PS）模型中的一者或多者的组合。语义分割基于像素级分割而不单独区分类别内的实例，其主要适用于非刚性物体，例如，路面、车道线、地面标志等。示例性地，可将图像中的全部车道线打上黄色标签、将全部路面打上黑色标签。实例分割为目标检测和语义分割的结合，也即，在图像中将目标物体检测出来，然后对每个像素打上标签。实例分割通常受限于目标物体必须是规则可框入的特性，因此适用于分割刚性物体，例如，车辆、行人、障碍物、红绿灯等。需要说明的是，语义分割结果不区分属于相同类别的不同实例（例如，将所有行人都标为红色），实例分割结果区分同类的不同实例（例如，使用不同颜色区分不同的行人）。全景分割为实例分割和全景分割的能力集合，既要将所有目标物体都检测出来，又要区分出同个类别中的不同实例，以输出图像中所有物体的像素轮廓。需要说明的是，实例分割只对图像中的目标物体（例如，行人）进行检测和按像素分割，使用不同颜色区分不同实例，而全景分割是对图像中的所有物体（包括背景）都要进行检测和分割，并使用不同颜色区分不同实例。上述三种图像分割模型所输出的图像分割结果（也即，分割掩码图）均能作为后续步骤的输入，其中所述图像分割结果为与原始图像尺寸比例相同的掩码图。

接下来，在步骤S120中，利用神经辐射场（Neural Radiance Field，NeRF）对各视角下的分割掩码图进行多视角融合以修正单视角错误，并生成经修正的第一掩码图。

NeRF是一种基于神经网络的三维（3D）重建技术，不同于传统的3D重建方法把场景表示为点云、网格、体素等显式的表达，NeRF将场景建模成一个连续的辐射场隐式存储在神经网络中，只需输入多角度的二维（2D）图像，就可以通过训练得到NeRF，并根据NeRF渲染出任意视角下的清晰照片。步骤S120旨在使用NeRF并结合多视角信息进行3D重建，从不同视角融合图像分割结果，然后以任意视角生成高质量的新2D视图。

可选地，在步骤S120中，可首先利用训练好的NeRF将图像分割结果（也即，各视角下的分割掩码图）中的2D掩码投影到三维掩码网格以进行3D重建（例如，基于左前视角下的2D分割掩码图、正前视角下的2D分割掩码图和右前视角下的2D分割掩码图生成一个3D掩码图），并将重建后的3D掩码图反投影至2D掩码网格，以生成经修正的、多视角下的第一掩码图（例如，生成左前视角下的第一掩码图、正前视角下的第一掩码图和右前视角下的第一掩码图，其分别是前述左前视角下的2D分割掩码图、正前视角下的2D分割掩码图和右前视角下的2D分割掩码图的修正版本）。需要说明的是，单视角下的图像分割结果容易出现分割不全、类别错误等缺陷，因此，相较于步骤S110中的图像分割模块输出的各视角下的分割掩码图（例如，左前视角下的2D分割掩码图、正前视角下的2D分割掩码图和右前视角下的2D分割掩码图），步骤S120输出的第一掩码图（例如，左前视角下的第一掩码图、正前视角下的第一掩码图和右前视角下的第一掩码图）融合了各视角的信息，从而通过信息互补修正了单视角下的缺陷，提高了数据标注的准确性。

在步骤S130中，根据时序关系对步骤S120生成的各视角下的第一掩码图进行多帧时序融合以修正单帧错误，并生成鸟瞰图视角下的第二掩码图。由于部分样本在多视角融合后仍无法修复，因此步骤S130旨在通过视角融合与时序融合的结合进一步改善图像分割结果中细节不准的问题。

可选地，在步骤S130中，首先针对时间戳相同的多视角下的第一掩码图，利用仿射变换将其投影至世界坐标系下的鸟瞰图（Bird's Eye View，BEV）视角，以生成各时刻的BEV视角下的第三掩码图，接着根据时序关系对各时刻的第三掩码图进行多帧时序融合以生成第二掩码图。示例性地，可将基于左前向摄像头、正向摄像头、右前向摄像头在同一时刻采集的原始数据而获得的左前视角下、正前视角下以及右前视角下的第一掩码图进行空间融合，得到一个BEV视角下的第三掩码图，其中BEV视角下的第三掩码图的尺寸大于原视角下的第一掩码图的尺寸。接下来，根据前后帧的时序关系，将多个时刻的第三掩码图进行融合，得到时序融合后的第二掩码图，其中第二掩码图的尺寸大于第三掩码图的尺寸。可以理解的是，由于融合了多视角信息和多帧信息，因此相较于第一掩码图，第二掩码图已对单帧错误进行了修补，从而能够减少单帧抖动、空洞等问题，进一步提高数据标注的准确性。

上述图像标注方法10利用了图像分割和时序动态修复技术的结合，相较于现有的分割方案引入了自动驾驶中的时序特征，不仅具有单帧标注能力，还能够利用NeRF修正图像的单视角错误，并且根据前后时序关系自动修正图像的单帧错误，在降低了标注成本的同时减少了因单帧图像抖动、空洞、误差等问题引起的标注错误，提高了标注准确率，提高了自动驾驶系统的感知功能精度。与此同时，本发明意识到在实践过程中可能仍有一些长时间出现的标注错误无法通过时序动态修复来解决，因此还可进一步添加单目标聚合步骤以针对错误样本进行定点修复。

可选地，方法10还可以包括步骤S140：在多帧时序融合过程中计算各个目标物体的修正误差，并将第二掩码图反投影至特定视角，以生成特定视角下的第四掩码图。

在一个示例中，可以通过计算相邻帧中目标物体的像素差来确定上述修正误差。在另一个示例中，还可以通过计算时序融合前、后的掩码图中的目标物体的位置和姿态变化，确定上述修正误差，例如，平移量、旋转角度或尺度变化等。

示例性地，若各个目标物体的修正误差均小于或等于第一阈值，则判定无需执行单目标聚合，并将第二掩码图反投影至特定视角下的第四掩码图以作为最终标注结果，其中特定视角为原始图像的多个原始视角（例如，左前视角、正前视角和右前视角）。

示例性地，若多个目标物体中的第一目标物体的修正误差大于第一阈值，则判定需要执行针对第一目标物体的单目标聚合。例如，可针对特定视角下的第四掩码图中的第一目标物体进行单目标聚合以修复第四掩码图中的第一目标物体的误差，并生成经修正的第五掩码图，其中特定视角包括原始图像的多个原始视角中的一个或多个。通过单目标聚合，原始视角下的第一目标物体的标注已得到修正，对此，可利用经修正的第五掩码图更新步骤S110生成的分割掩码图，也即，利用第五掩码图作为步骤S120的输入，针对第五掩码图进行多视角融合并执行步骤S130中的多帧时序融合，以进一步提高标注的准确性。示例性地，上述单目标聚合可基于交互式分割模型而执行，也即，通过输入目标的掩码图、提取对应区域的特征、查找特征最近邻像素这三个步骤，对错误和遗漏的像素进一步修正和聚类，以此得到更加准确的标注图像。

图2为按照本申请的一个或多个实施例的计算机设备20的示意性框图。计算机设备20包含存储器210、处理器220、以及存储在存储器210上并可在处理器220上运行的计算机程序230，计算机程序230的运行使得如图1所示的图像标注方法10被执行。另外，如上所述，本申请也可以被实施为一种计算机存储介质，在其中存储有用于使计算机执行如图1所示的图像标注方法10的程序。在此，作为计算机存储介质，能采用盘类（例如，磁盘、光盘等）、卡类（例如，存储卡、光卡等）、半导体存储器类（例如，ROM、非易失性存储器等）、带类（例如，磁带、盒式磁带等）等各种方式的计算机存储介质。

在可适用的情况下，可以使用硬件、软件或硬件和软件的组合来实现由本申请提供的各种实施例。而且，在可适用的情况下，在不脱离本申请的范围的情况下，本文中阐述的各种硬件部件和/或软件部件可以被组合成包括软件、硬件和/或两者的复合部件。在可适用的情况下，在不脱离本申请的范围的情况下，本文中阐述的各种硬件部件和/或软件部件可以被分成包括软件、硬件或两者的子部件。另外，在可适用的情况下，预期的是，软件部件可以被实现为硬件部件，以及反之亦然。

根据本申请的软件（诸如程序代码和/或数据）可以被存储在一个或多个计算机存储介质上。还预期的是，可以使用联网的和/或以其他方式的一个或多个通用或专用计算机和/或计算机系统来实现本文中标识的软件。在可适用的情况下，本文中描述的各个步骤的顺序可以被改变、被组合成复合步骤和/或被分成子步骤以提供本文中描述的特征。

提供本文中提出的实施例和示例，以便最好地说明按照本申请及其特定应用的实施例，并且由此使本领域的技术人员能够实施和使用本申请。但是，本领域的技术人员将会知道，仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本申请的各个方面或者将本申请局限于所公开的精确形式。

Claims

1.一种图像标注方法，其特征在于，所述方法包括以下步骤：

A、利用图像分割模型对多视角下的原始图像进行分割处理，以输出各视角下的原始图像的分割掩码图，所述分割掩码图包含指示目标物体的轮廓的标注信息；

B、利用神经辐射场对各视角下的分割掩码图进行三维重建和反投影，并输出经修正的、与所述分割掩码图的视角相同的所述各视角下的第一掩码图，以利用多视角融合修正单视角错误；

C、针对时间戳相同的各视角下的第一掩码图，利用仿射变换将其投影至世界坐标系下的鸟瞰图视角，以生成各时刻的鸟瞰图视角下的第三掩码图；以及

D、根据时序关系对所述各时刻的第三掩码图进行多帧时序融合以生成鸟瞰图视角下的第二掩码图。

2.根据权利要求1所述的图像标注方法，其中，所述方法进一步包括：

对由多视角视频采集单元采集的视频数据进行抽帧处理，并生成一系列带有时间戳的原始图像。

3.根据权利要求1所述的图像标注方法，其中，步骤A包括：

利用所述图像分割模型对所述原始图像进行像素级识别，其中所述原始图像中的每个像素都被标注有类别信息；以及

基于标注的类别信息绘制所述目标物体的轮廓。

4.根据权利要求1所述的图像标注方法，其中，

所述图像分割模型是基于包含样本图像和所述样本图像的掩码信息的训练数据集而构建的，所述掩码信息是基于针对所述样本图像中的所述目标物体的目标识别结果而生成的，并且所述图像分割模型包括以下各项中的一项或多项：针对刚性物体的实例分割模型、针对非刚性物体的语义分割模型、针对刚性物体以及非刚性物体的全景分割模型。

5.根据权利要求1所述的图像标注方法，其中，步骤B包括：

利用所述神经辐射场对所述分割掩码图进行三维重建，以将多视角下的分割掩码图中的二维掩码投影到三维掩码网格；以及

将重建后的三维掩码图反投影至二维掩码网格，以生成经修正的、多视角下的第一掩码图。

6.根据权利要求1所述的图像标注方法，其中，所述第二掩码图的尺寸大于所述第三掩码图的尺寸。

7.根据权利要求1所述的图像标注方法，其中，所述方法进一步包括：

在多帧时序融合过程中计算各个目标物体的修正误差；以及

将所述第二掩码图反投影至特定视角，以生成特定视角下的第四掩码图。

8.根据权利要求7所述的图像标注方法，其中，所述方法进一步包括：

若各个目标物体的修正误差均小于或等于第一阈值，则输出所述第四掩码图以作为最终标注结果，其中所述特定视角包括所述原始图像的多个原始视角。

9.根据权利要求7所述的图像标注方法，其中，所述方法进一步包括：

若第一目标物体的修正误差大于第一阈值，则对所述第四掩码图中的所述第一目标物体进行单目标聚合以修复所述第四掩码图中的第一目标物体的误差，并生成经修正的第五掩码图，其中所述特定视角包括所述原始图像的多个原始视角中的一个或多个；以及

利用所述第五掩码图更新所述分割掩码图，并重新执行所述步骤B、步骤C和步骤D。

10.根据权利要求9所述的图像标注方法，其中，

计算所述目标物体的修正误差包括计算相邻帧中所述目标物体的像素差，并且/或者所述单目标聚合是基于交互式分割模型执行的。

11.一种计算机设备，其特征在于，包含：存储器；处理器；以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序的运行使得根据权利要求1-10中任一项所述的图像标注方法被执行。

12.一种计算机存储介质，其特征在于，所述计算机存储介质包括指令，所述指令在运行时执行根据权利要求1-10中任一项所述的图像标注方法。