CN109658481A

CN109658481A - 图像标注方法及装置、特征图生成方法及装置

Info

Publication number: CN109658481A
Application number: CN201811584634.0A
Authority: CN
Inventors: 李健昆; 范浩强
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-04-19
Anticipated expiration: 2038-12-24
Also published as: CN109658481B

Abstract

本发明涉及图像标注技术领域，提供一种图像标注方法及装置、特征图生成方法及装置。其中，图像标注方法包括：当检测到画刷的第一操作时，确定第一操作对应的原始图像中的第一像素；获取画刷范围内的每个第二像素与第一像素的相似性度量；根据相似性度量确定与第一像素相似的第二像素的集合，在标注结果图像上显示第二像素的集合的位置。在上述方法中，在标注结果图像上显示的第二像素集合的位置可以视为画刷当前的形状，画刷的形状是根据相似性度量计算的，因此具有自适应性，有利于改善标注质量，提高标注效率。同时，该画刷的形状支持在标注结果图像上实时显示，使得标注员能够根据预览到的内容作出更为精确的标注行为，从而提高标注质量。

Description

图像标注方法及装置、特征图生成方法及装置

技术领域

本发明涉及图像标注技术领域，具体而言，涉及一种图像标注方法及装置、特征图生成方法及装置。

背景技术

图像语义分割和实例分割是计算机视觉领域的核心任务之一，其在自动驾驶、人像美化以及医疗图像分析等领域中都发挥着重要作用。随着深度学习的兴起，利用卷积神经网络进行语义和实例分割凭借其优异的性能成为了当前处理图像分割任务的主流方法。为训练图像分割用的网络模型，需要对原始图像进行逐像素的标注，即为每个像素指定一个表示其类别的标签。

现有的标注工具为标注员提供画刷，标注员通过肉眼观察的方式判断像素区域的类别，然后用画刷在像素区域中进行涂抹，将属于同一类别像素区域涂成同一种颜色，不同的颜色即可以作为标识不同类别的像素区域的标签。

然而，现有的画刷形状是固定的，当原始图像中不同类别的像素区域之间具有复杂的边界时，采用固定形状的画刷进行涂抹可能导致标注错误，如果反复切换画刷的尺寸又会导致标注效率低下。

发明内容

有鉴于此，本发明实施例提供一种图像标注方法及装置、特征图生成方法及装置，采用具有自适应形状的画刷进行标注，提高标注的精度和效率。

为实现上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种图像标注方法，包括：

当检测到标注用的画刷的第一操作时，确定第一操作对应的原始图像中的第一像素；

获取画刷范围内的每个第二像素与第一像素的相似性度量，其中，画刷范围是指画刷在原始图像上覆盖的包括第一像素的区域；

根据相似性度量确定与第一像素相似的第二像素的集合，在标注结果图像上显示第二像素的集合的位置。

在上述方法中，在标注结果图像上显示的第二像素集合的位置可以视为画刷当前的形状，该形状是根据第一像素与第二像素的相似性度量计算的，相当于根据相似性度量对标注结果作了自动推荐，因此其形状具有自适应性，例如在原始图像中不同类别的像素区域之间的边界处进行标注时，该画刷能够自适应边界的形状，从而有利于改善标注结果的质量，提高标注员的标注效率。另一方面，该画刷的形状支持在标注结果图像上实时显示，相当于可以对标注结果进行预览，从而使得标注员能够根据预览到的内容作出更为精确的标注行为，从而提高标注质量。

在一些实施例中，相似性度量根据第一像素与第二像素在特征空间中的距离进行计算，特征空间为第一特征图中的像素对应的向量所在的向量空间，第一特征图是利用卷积神经网络对原始图像进行特征提取后获得的。

一方面，原始图像中的像素之间可能存在噪声干扰，将原始图像中的像素映射到特征空间以后，可以减小噪声的影响。另一方面，原始图像中的像素之间语义关联性不清晰，而特征图由于经过了卷积神经网络的处理，其中的每个像素具有一定的感受野，从而相互之间具有更清晰的语义关联性。综合以上两方面，利用特征图上的像素(原始图像上的像素映射到特征空间就是映射为特征图上的像素)之间的距离来计算相似性度量，能够更准确地表征第一像素与第二像素的相似程度。

在一些实施例中，相似性度量根据第一像素与第二像素在原始图像上的距离，以及第一像素与第二像素在特征空间中的距离进行计算。

除了考虑第一像素与第二像素在特征空间中的距离以外，还可以考虑第一像素与第二像素在实际的位置空间中的距离，这样可以使第二像素的集合中包含更多在位置上接近第一像素的第二像素，或者说第二像素的集合聚集在第一像素附近，而不是分布在若干离散的位置，这样显示的画刷形状更符合一般用户的认知，有利于标注员进行标注。

在一些实施例中，用于计算相似性度量S_i,c的公式为：

S_i,c＝α||P_i-P_c||+(1-α)||I_i-I_c||

其中，P_c为第一像素在原始图像上的位置，P_i为第二像素在原始图像上的位置，||P_i-P_c||为第一像素与第二像素在原始图像上的距离，I_c为第一像素在第一特征图中对应的像素，I_i为第二像素在第一特征图中对应的像素，||I_i-I_c||为第一像素与第二像素在特征空间中的距离，α为两个距离加权求和时的权重参数。

两种不同类型的距离可以通过权重参数调节占比，便于调节相似性度量的计算方式。

在一些实施例中，画刷范围为以第一像素为中心，且具有第一半径的圆形区域，根据相似性度量确定与第一像素相似的第二像素的集合，包括：

对获得的全部相似性度量按照表示的相似度的高低进行排序，根据排序结果从全部相似性度量中选择出表示的相似度最高的第一比例的相似性度量，由每个选择出的相似性度量对应的第二像素共同构成第二像素的集合。

在一些实施例中，第一半径为预设的半径，第一比例为预设的比例，第一操作包括选择开始标注的位置的操作或在未进行标注时移动画刷的操作。

这些实施例为画刷默认的显示方式。

在一些实施例中，第一半径为预设的半径，第一比例和第三像素与第一像素在原始图像上的距离正相关，其中，第三像素为当检测到画刷的第二操作时，确定的第二操作对应的原始图像中的像素，第一操作包括选择开始标注的位置的操作，第二操作包括在进行标注时移动画刷的操作。

这些实施例为画刷在标注过程中的工作模式之一，在该模式下，画刷最大的显示半径固定，在该显示半径内显示的第二像素的占比可调，此种模式适合微调标注边界，以便精确标注。

在一些实施例中，第一比例为预设的比例，第一半径为第三像素与第一像素在原始图像上的距离，其中，第三像素为当检测到画刷的第二操作时，确定的第二操作对应的原始图像中的像素，第一操作包括选择开始标注的位置的操作，第二操作包括在进行标注时移动画刷的操作。

这些实施例为画刷在标注过程中的工作模式之二，在该模式下，画刷最大的显示半径可调，在该显示半径内显示的第二像素的占比固定，此种模式适合大面积快速标注。

在一些实施例中，在在标注结果图像上显示第二像素的集合的位置之后，方法还包括：

当检测到画刷的第三操作时，将标注结果图像中显示的第二像素的集合的位置确定为标注结果。

第三操作为标注确认操作，将之前在标注结果图像上预览的标注结果实际确认并保存。

在一些实施例中，标注结果图像为覆盖在原始图像上的透明图像。

由于原始图像要用于计算相似性度量，因此不适于直接在原始图像上进行标注结果的显示，可以单独生成标注结果图像来显示标注过程，标注结果图像设置为透明的并覆盖在原始图像上，便于标注员观察标注结果是否准确。

第二方面，本发明实施例提供一种特征图生成方法，包括：

获取原始图像；

利用卷积神经网络对所述原始图像进行特征提取，获得第一特征图；

将所述第一特征图提供给能够利用所述第一特征图计算所述原始图像上的两个像素之间的相似性度量的客户端。

上述方法获得的第一特征图被用于图像标注中的客户端，客户端在计算原始图像上的不同像素的相似性度量时根据两个像素(例如，第一像素和第二像素)在特征空间中的距离进行计算，其中，特征空间为第一特征图中的像素对应的向量所在的向量空间。利用特征图上的像素之间的距离来计算原始图像上像素间的相似性度量，能够更准确地表征两个像素的相似程度。

同时，根据原始图像获得第一特征图的过程可以在客户端上实施；或者，在客户端性能较差时，也可以在其他设备上(例如服务器端)实施，将获得的第一特征图发送给客户端，实现第一特征图的生成和图像标注过程的解耦，有利于算力在不同设备间的合理分配，提高图像标注的效率。

在一些实施例中，卷积神经网络为经过度量学习后获得的，度量学习的学习目标被设置为减小属于同一类别的像素在特征空间中的距离和/或增大属于不同类别的像素在特征空间中的距离。

卷积神经网络按照上述学习目标进行度量学习后，输出的第一特征图将具有学习目标中的性质，从而能够更有效地用于相似性度量的计算，使得计算结果能够更准确地表征像素的相似程度。

在一些实施例中，学习目标被设置为减小属于同一类别的像素在特征空间中的距离和增大属于不同类别的像素在特征空间中的距离，方法还包括：

将训练图像输入至卷积神经网络，获得卷积神经网络输出的第二特征图，其中，训练图像中的每个像素均对应有预先标注好的分类标签；

根据分类标签确定第二特征图中属于不同类别的区域之间的边界区域；

在边界区域中确定多个三元组，每个三元组中均包括第一图像块、第二图像块以及第三图像块，其中，属于同一类别的第一图像块与第二图像块构成正样本对，属于不同类别的第一图像块与第三图像块构成负样本对；

根据正样本对中的两个图像块在特征空间中的第一距离计算卷积神经网络的第一损失，以及负样本对中的两个图像块在特征空间中的第二距离计算卷积神经网络的第二损失，并根据第一损失和第二损失确定卷积神经网络的损失，其中，用于计算第一损失的损失函数被设置为在第一距离越小时计算出的第一损失越小，用于计算第二损失的损失函数被设置为在第二距离越大时计算出的第二损失越小；

根据卷积神经网络的损失调整卷积神经网络的参数；

将新的训练图像输入至卷积神经网络重新进行训练直至满足训练结束条件。

之前提到的度量学习的学习目标可以在损失函数的设计中体现，计算第一损失用于减小属于同一类别的像素在特征空间中的距离，计算第二损失用于增大属于不同类别的像素在特征空间中的距离。

在一些实施例中，在边界区域中确定多个三元组，包括：

在边界区域中确定多个第四图像块，第四图像块的中心位于边界区域中的边界上，在第四图像块中确定第一图像块、第二图像块以及第三图像块。

先确定第四图像块，可以将相互关联的正负样本对限制在比较接近的区域内，这样的训练结果更有意义，网络模型也容易收敛。

在一些实施例中，在获得第一特征图后，方法还包括：

将原始图像作为引导图对第一特征图进行导向滤波，以使处理后的第一特征图中属于不同类别的区域之间的边界与原始图像中属于不同类别的区域之间的边界具有相似的形状。

第一特征图中的属于不同类别的区域之间的边界可能与原始图像的边界存在一定的差异，还有可能发生模糊，导向滤波后可以使特征图中的边界与原始图像相似，有利于改善相似性度量的计算结果，进而改善图像标注的结果。

第三方面，本发明实施例提供一种图像标注装置，包括：

检测模块，用于当检测到标注用的画刷的第一操作时，确定第一操作对应的原始图像中的第一像素；

相似性度量获取模块，用于获取画刷范围内的每个第二像素与第一像素的相似性度量，其中，画刷范围是指画刷在原始图像上覆盖的包括第一像素的区域；

显示模块，用于根据相似性度量确定与第一像素相似的第二像素的集合，在标注结果图像上显示第二像素的集合的位置。

第四方面，本发明实施例提供一种特征图生成装置，包括：

原始图像获取模块，用于获取原始图像；

特征图获取模块，用于利用卷积神经网络对原始图像进行特征提取，获得第一特征图；

特征图提供模块，用于将第一特征图提供给能够利用第一特征图计算原始图像上的两个像素之间的相似性度量的客户端。

第五方面，本发明实施例提供一种图像标注系统，包括：相互之间通信连接的客户端和服务器端：

服务器端用于接收原始图像，利用卷积神经网络对原始图像进行特征提取，并将获得的第一特征图发送至客户端；

客户端用于从服务器端接收原始图像，以及当检测到标注用的画刷的第一操作时，确定第一操作对应的原始图像中的第一像素，获取画刷范围内的每个第二像素与第一像素的相似性度量，其中，画刷范围是指画刷在原始图像上覆盖的包括第一像素的区域，并根据相似性度量确定与第一像素相似的第二像素的集合，在标注结果图像上显示第二像素的集合的位置。

在该系统中，通过设置服务器端和客户端将第一特征图的生成和图像标注过程解耦，让性能相对较强的服务器端进行第一特征图的提取，让性能相对较差的客户端仅执行标注工作，有利于算力在不同设备间的合理分配，提高图像标注的效率。

第六方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器读取并运行时，执行本发明实施例提供的方法的步骤。

第七方面，本发明实施例提供一种电子设备，包括存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行本发明实施例提供的方法的步骤。

为使本发明的上述目的、技术方案和有益效果能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的一种图像标注方法的流程图；

图2示出了本发明实施例提供的画刷的显示效果的示意图；

图3示出了本发明实施例提供的正负样本对的选择方式的示意图；

图4(A)至图4(C)示出了本发明实施例提供的画刷的第一种工作模式的示意图；

图5(A)至图5(C)示出了本发明实施例提供的画刷的第二种工作模式的示意图；

图6示出了本发明实施例提供的一种图像标注装置的功能模块图；

图7示出了本发明实施例提供的一种特征图生成装置的功能模块图；

图8示出了一种可应用于本发明实施例中的电子设备的结构框图；

图9示出了本发明实施例提供的一种图像标注系统的示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了本发明实施例提供的一种图像标注方法的流程图。参照图1，该方法包括：

步骤S10：当检测到标注用的画刷的第一操作时，确定第一操作对应的原始图像中的第一像素。

原始图像可以是用于语义分割或实例分割的训练集中的图像，但由于后文会出现训练图像一词并与原始图像具有不同的含义，因此本文中用原始图像一词专门指代待标注的图像。

画刷是标注用的工具，在标注时标注员通过操作画刷将原始图像上属于同一类别像素区域打上相同的标签，属于不同类别的像素区域被打上不同的标签。作为一种实现方式，标注员在标注时可以指定画刷的颜色，用不同的颜色作为标识不同类别的像素区域的标签。在后文中，经常以着色的标注方式为例说明标注过程，但这不应当视为对本发明保护范围的限制。像素区域属于同一类别表示像素区域之间具有某种语义层面上的共性，反之则不具有共性，例如，两个像素区域都是原始图像中的汽车，在语义分割中可以将其标注为同一类别，两个像素区域分别是原始图像中的汽车和路面，在语义分割中可以将其标注为不同的类别。在开始标注前，标注员首先选择合适的画刷。

第一操作可以是选择开始标注的位置的操作，例如，在标注员通过操作鼠标进行标注时，第一操作可以是按下鼠标左键的操作，第一像素可以是原始图像上鼠标点击位置处的像素。又例如，在标注员通过手指或触控笔进行标注时，第一操作可以是用手指或触控笔点击触控屏的操作，第一像素可以是原始图像上手指或触控笔接触位置处的像素。

第一操作还可以是在未进行标注时移动画刷的操作，例如，在标注员通过操作鼠标进行标注时，第一操作可以是未按下鼠标左键时(按下鼠标左键表示开始标注)的鼠标移动的操作，第一像素为原始图像上光标移动到的位置对应的像素。可以理解的，通过键盘上的方向键或者通过触控板等设备也可以移动光标，其效果和操作鼠标类似。

画刷的第一操作是可检测的，例如，在Windows系统下，按下鼠标左键会产生WM＿LBUTTONDOWN消息，通过截获该消息可以获知第一操作的发生，并通过消息参数获知第一像素的坐标。

步骤S11：获取画刷范围内的每个第二像素与第一像素的相似性度量。

画刷范围是指画刷在原始图像上覆盖的包括第一像素的区域，或者说第一像素的一个邻域。实际显示的画刷形状覆盖的区域不超过画刷范围，因此这里的画刷范围是指画刷最大能够标注的区域，但实际中很可能不会标注满整个画刷范围。

画刷范围可以具有预设的形状，例如，以第一像素为中心的圆形区域，以第一像素为中心的矩形区域，等等，在一些实现方式中，标注员可以指定画刷范围的形状。

相似性度量是一个用于衡量第一像素与第二像素的相似程度的数值，相似的定义不作限定，例如可以是位置上的、颜色上的、纹理上的相似等等。

步骤S12：根据相似性度量确定与第一像素相似的第二像素的集合，在标注结果图像上显示第二像素的集合的位置。

根据相似性度量的数值可以确定每个第二像素与第一像素的相似程度的高低，进而可以根据预设的规则从全部的第二像素中选择出一部分或全部构成第二像素的集合，该集合中的每个第二像素都被认为与第一像素相似，或者说与第一像素同属一个类别。

不限定如何选择第二像素的集合，例如，在一种实现方式中，对获得的全部相似性度量按照表示的相似度的高低进行排序，根据排序结果从全部相似性度量中选择出表示的相似度最高的第一比例 (如20％、50％等)的相似性度量，由每个选择出的相似性度量对应的第二像素共同构成第二像素的集合。又例如，在另一种实现方式中，对获得的全部相似性度量按照表示的相似度的高低进行排序，根据排序结果从全部相似性度量中选择出表示的相似度最高的第一数量(如100、200)的相似性度量，由每个选择出的相似性度量对应的第二像素共同构成第二像素的集合。

标注结果图像是指不同于原始图像的另一张图像，由于要根据原始图像计算相似性度量，因此不适合直接在原始图像上进行标注，而需要在标注结果图像上进行标注。在一种实现方式中，生成一个原始图像的副本作为标注结果图像，在另一种实现方式中，生成一个透明的图像作为标注结果图像，该图像覆盖在原始图像上，便于标注员参照原始图像观察标注结果是否准确。

标注结果图像与原始图像中的像素具有对应关系，例如，二者可以实现为具有相同的分辨率。从而可以在标注结果图像上的对应位置处显示第二像素的集合，表明第二像素的集合中的第二像素与第一像素同属一个类别。作为一种可选的实现方式，显示的方式是在标注结果图像中将第二像素的集合对应的像素着色，第一像素在标注结果图像中对应的像素也可以同时着色(同一种颜色)。

其中，在标注结果图像上显示的第二像素集合的位置就是画刷当前的形状，该形状是根据第一像素与第二像素的相似性度量计算的，相当于根据相似性度量对画刷范围内的标注结果作了自动推荐，因此并不是一种固定形状，而是具有自适应性的形状。

以图2为例说明画刷的显示效果。图2中原始图像包括A、B 两个类别的像素区域，假设二者具有不同的颜色，A、B之间的曲线表示二者的边界，虚线的圆表示画刷范围，圆心表示第一像素，假设画刷移动到第一像素的位置时，相似性度量考虑第一像素与第二像素的颜色关系和在原始图像上的位置关系，获得的第二像素的集合如阴影区域所示，阴影区域即当前画刷显示的形状。作为定性的分析，阴影区域内的第二像素在位置上与第一像素接近，且与第一像素在颜色上也接近，因此计算相似性度量后与第一像素划分至同一类别，即A类别。而B类别的像素区域中虽然也有部分第二像素在位置上接近与第一像素，但与第一像素在颜色上不相似，因此计算相似性度量后并未将其包含在阴影区域中，即画刷的形状很好地适应了A、B之间边界。

若采用传统的标注方法在A、B的边界处进行标记，由于画刷的形状是固定的，在处理这样较为复杂的边界时往往较为困难，直接进行涂抹很可能造成标注错误。因此，通常标注员需要不断地调整画刷的大小以适应边界处细微的变化，谨慎地进行标注，其效率十分低下。

而在本发明实施例提供的图像标注方法中，由于画刷形状的自适应性，在标注复杂的边界区域时，画刷形状能够与边界的形状相匹配，若在此基础上确认标注的结果，有利于改善标注结果的质量，同时，由于标注员不再需要自行调整画刷尺寸进行标注，有利于提高标注员的标注效率。

同时，根据上面的阐述，第一操作可以是选择开始标注的位置的操作、移动画刷的操作等，在进行这些操作时，实际上尚未确定标注的最终结果，因此在检测到第一操作后显示画刷的形状还提供标注预览的功能，使标注员能够实时预览到标注的结果，从而相应地调整标注行为，提高标注质量，同时预览的方式也有助于改善标注员的标注体验，使标注过程更加直观。作为对照，传统的标注方法至多只能预览画刷的形状，并且在传统的标注方法中，画刷的形状是固定的，预览画刷的形状虽然能够帮助用户了解画刷在涂抹时的笔触效果，但这种效果是不会变化的(除非选择另一种形状的画刷)，并不是对标注结果的预览，因此其对于图像标注的意义十分有限。

需要指出，虽然第一操作可能并不包含标注确认操作，也就是说标注结果图像上显示的画刷形状并不一定是最终的标注结果，但是画刷形状的自适应性是画刷本身的性质，与是否进行了标注确认无关，因此其对于改善标注结果是有利的。当然，在一些实现方式中，第一操作也有可能既是选择开始标注的位置的操作又是标注确认操作，例如，按下鼠标左键后，直接将标注结果图像中与第二像素的集合对应的像素着色，并将着色结果确认为最终的标注结果。

在一些实施例中，利用一个训练好的卷积神经网络原始图像进行特征提取获得第一特征图，第一特征图中的每个像素是一个向量 (向量的元素个数为第一特征图的输出通道数)，称这些向量所在的向量空间为特征空间。相似性度量可以根据第一像素与第二像素在特征空间中的距离进行计算，其中，第一像素与第二像素在特征空间中的距离是指将第一像素和第二像素映射到特征图中的对应的像素后，两个对应的像素在特征空间中的距离，距离的计算形式可以采用L1距离(L1范数)，L2距离(L2范数)等。

一方面，原始图像中的像素之间可能存在噪声干扰，例如椒盐噪声等，直接根据原始图像的特征(例如颜色)计算相似性度量易受到噪声干扰，造成计算结果不准确。而将原始图像中的像素映射到特征空间以后，可以减小噪声的影响。另一方面，原始图像中的像素之间语义关联性不清晰，而第一特征图由于经过了卷积神经网络的处理，其中的每个像素具有一定的感受野，从而相互之间具有更清晰的语义关联性。从而，利用特征图上的像素之间的距离来计算相似性度量，能够更准确地表征第一像素与第二像素的相似程度。

进一步的，相似性度量除了根据第一像素与第二像素在特征空间中的距离计算之外，还可考虑其他因素。例如，在一种实现方式中，相似性度量可以根据第一像素与第二像素在原始图像上的距离，以及第一像素与第二像素在特征空间中的距离进行计算。

在考虑了第一像素与第二像素在实际的位置空间中的距离后，若两个第二像素与第一像素在特征空间中的距离相同，但在位置空间中与第一像素距离较近的第二像素计算出的相似性度量所表示的相似度将更高。从而，在第二像素的集合中将包含更多在位置上接近第一像素的第二像素，或者说第二像素的集合中的第二像素将聚集在第一像素附近，而不是分布在若干离散的位置，这样显示的画刷形状更符合一般用户的认知，也有利于标注员进行标注。此外，第一像素与第二像素在原始图像上的距离只涉及第一像素与第二像素的位置，也不会受到噪声之类的因素的干扰。

进一步的，可以根据如下公式计算相似性度量S_i,c：

S_i,c＝α||P_i-P_c||+(1-α)||I_i-I_c||

两种不同类型的距离可以通过权重参数调节占比，权重参数可由标注员根据标注结果进行调节，例如，可以设置为0.5、0.6等值。当α＝0时，相似性度量的计算退化为只考虑像素在特征空间中的距离的情况。

进一步的，上述卷积神经网络可以是经过度量学习后获得的。度量学习的学习目标被设置为减小属于同一类别的像素在特征空间中的距离和/或增大属于不同类别的像素在特征空间中的距离，根据该学习目标可以设计训练卷积神经网络时所使用的损失函数的形式，从而实现学习目标。

卷积神经网络按照上述学习目标进行度量学习后，在输出的第一特征图中，属于同一类别的像素在特征空间中的距离将变得较小，和/或，属于不同类别的像素在特征空间中的距离将变得较大，即符合上述学习目的中的性质，从而，基于第一特征图计算出的相似性度量有利于判别第一像素与第二像素是否属于同一类别，进而改善标注结果的质量。

下面介绍采用度量学习的方式训练获得上述卷积神经网络的一种具体实现方法。首先需要构建卷积神经网络，例如，卷积神经网络可以被构建为包括编码器以及解码器，编码器包含卷积层以及池化层，用于对训练图像进行下采样，解码器包含卷积层以及反卷积层，用于对编码器的输出图像进行上采样，输出与训练图像具有相同分辨率的第二特征图。

编码器和解码器是语义分割网络中常见的结构，这里可以采用和语义分割网络中类似的结构实现，或者直接将现有的语义分割网络去掉分类器后的部分作为要训练的卷积神经网络。编解码器结构的卷积神经网络由于可用于语义分割，因此其输出的特征图中的像素之间具有较强的语义关联性，对改善标注结果有利。

训练卷积神经网络具体可以包括如下步骤：

步骤A：将训练图像输入至卷积神经网络，获得卷积神经网络输出的第二特征图，其中，训练图像中的每个像素均对应有预先标注好的分类标签。

步骤B：根据分类标签确定第二特征图中属于不同类别的区域之间的边界区域。

第二特征图中的像素和训练图像中的像素具有对应关系，例如，在采用上述编解码器网络的实现方式中，训练图像和第二特征图具有相同的分辨率，二者的像素是一一对应关系。从而，根据训练图像中每个像素的分类标签可以确定第二特征图中属于不同类别的区域之间的边界，边界区域是指边界附近一定范围内的区域。

步骤C：在边界区域中确定多个三元组，每个三元组中均包括第一图像块、第二图像块以及第三图像块，其中，属于同一类别的第一图像块与第二图像块构成正样本对，属于不同类别的第一图像块与第三图像块构成负样本对。

每个图像块的类别可以定义为其中心像素的类别，该类别可以通过步骤A中的分类标签获得。在一些实现方式中，图像块可以选择正方形，同一个三元组中的图像块采用相同的大小，便于在后续步骤中进行图像块之间的距离计算。

图3示出了本发明实施例提供的正负样本对的选择方式的示意图。参照图3，第二特征图包括X、Y、Z三个类别的像素区域，三个区域之间的通过两条边界分隔开。每个三元组均选择在边界附近，其中第一图像块编号为1，第二图像块编号为2，第三图像块编号为 3，由图可知，在一个三元组中，第一图像块和第二图像块总在边界的同侧，第一图像块和第三图像块总在边界的异侧。

进一步的，可以将三元组中的三个图像块之间的距离限制在一定的范围内，避免三个图像块相距过远，导致网络模型在训练时难以收敛。具体可以采取如下做法：

首先在边界区域中确定多个第四图像块，第四图像块的中心位于边界区域中的边界上，在第四图像块中确定第一图像块、第二图像块以及第三图像块。其中，第四图像块的位置可以随机选择，在第四图像块中，三元组中的三个图像块的位置也可以随机选择(当然要满足正负样本对的要求)，三元组中的图像块包含在第四图像块内，是指这些图像块的中心像素包含在第四图像块内。继续参照图3，图3中的虚线方框表示第四图像块，通过设置第三图像块，限制了每个三元组的分布范围。

步骤D：根据正样本对中的两个图像块在特征空间中的第一距离计算卷积神经网络的第一损失，以及负样本对中的两个图像块在特征空间中的第二距离计算卷积神经网络的第二损失，并根据第一损失和第二损失确定卷积神经网络的损失，其中，用于计算第一损失的损失函数被设置为在第一距离越小时计算出的第一损失越小，用于计算第二损失的损失函数被设置为在第二距离越大时计算出的第二损失越小。

上述损失函数的设计方式和之前提到的学习目标是对应的，具体而言，计算第一损失用于减小属于同一类别的像素在特征空间中的距离，计算第二损失用于增大属于不同类别的像素在特征空间中的距离，这里的减小或增大是指利用相应的损失函数进行训练后产生的效果是减小或增大。

在步骤D中同时考虑了两种损失，即度量学习以减小属于同一类别的像素在特征空间中的距离和增大属于不同类别的像素在特征空间中的距离为学习目标。可以理解的，若将度量学习的学习目标确定为减小属于同一类别的像素在特征空间中的距离或增大属于不同类别的像素在特征空间中的距离，也可以在计算卷积神经网络的损失时只考虑其中一种损失，例如只考虑第一损失，此时在步骤C 中也可以只选取正样本对。

下面给出在根据第一损失和第二损失确定卷积神经网络的损失时，卷积神经网络的损失函数L的一种可能的形式：

其中，为第一损失函数，N为第二特征图中正样本对的个数，为第一图像块，为第二图像块，为第一距离，ε为第一间隔参数，表示若大于0则对进行下取整，若不大于0则为0，M为第二特征图中负样本对的个数。其中，第一距离，可以采用L1距离、L2距离等形式。

根据第一损失函数的形式，若正样本对中的两个图像块在特征空间中的距离不大于第一间隔参数，第一损失函数的值将为0，由于正样本对中的像素表示属于同一类别的像素，因此采用第一损失函数训练后，属于同一类别的像素在特征空间中的距离将减小。

为第二损失函数，M为第二特征图中负样本对的个数，为第一图像块，为第二图像块，为第二距离，δ为第二间隔参数，表示若大于0则对进行下取整，若不大于0则为0。

根据第二损失函数的形式，若负样本对中的两个图像块在特征空间中的距离不小于第二间隔参数，第二损失函数的值将为0，由于负样本对中的像素表示属于不同类别的像素，因此采用第二损失函数训练后，属于不同类别的像素在特征空间中的距离将增大。

步骤E：根据卷积神经网络的损失调整卷积神经网络的参数。

步骤F：将新的训练图像输入至卷积神经网络重新进行训练直至满足训练结束条件。

其中，训练结束调节可以是模型已经收敛、训练轮数已经达到预定的论述、训练时间已经达到预定的时间等等。

在一些实施例中，在获得第一特征图后，可以将原始图像作为引导图对第一特征图进行导向滤波，以使处理后的第一特征图中属于不同类别的区域之间的边界与原始图像中属于不同类别的区域之间的边界具有相似的形状。完成导向滤波后，再将第一特征图用于标注时相似性度量的计算。关于导向滤波的具体步骤为现有技术，这里不再详细阐述。

在一些实施例中，第一特征图的获取和原始图像的标注过程可以在同一设备(如客户端)上进行，例如，二者可能是该设备上不同的程序片段，利用卷积神经网络对原始图像进行特征提取并获得第一特征图后，将其提供给执行图像标注操作的程序片段。在另一些实施例中，第一特征图的获取和原始图像的标注过程也可以在不同的设备上进行，例如，第一特征图的获取在服务器端，原始图像的标注过程在客户端，服务器端利用卷积神经网络对原始图像进行特征提取并获得第一特征图后，将其发送给客户端。大多数情况下，服务器端的处理能力远强于客户端的处理能力，而第一特征图的获取需要较大的运算量，可以将其放到服务器端取执行，这种做法有利于算力在不同设备间的合理分配，提高图像标注的效率。此外，有的步骤的执行主体具有较大的灵活性，例如，导向滤波的步骤既可以放到服务器端执行，也可以放到客户端执行。

需要指出，上述所称的设备可以是硬件，也可以是软件，不作限定。上述生成第一特征图的过程也即本发明实施例提供的特征图生成方法。

下面再具体介绍一下图像标注过程中画刷的使用。为简化阐述，假设画刷范围是以第一像素为中心，且具有第一半径的圆形区域，相似性度量根据第一像素与第二像素在原始图像上的距离，以及第一像素与第二像素在特征空间中的距离进行计算，第二像素的集合按照第一比例进行选择，选择方法在步骤S12中已经阐述过。

将第一半径和第一比例作为画刷的参数，至少包括以下三种情况：

第一种，第一半径为预设的半径，第一比例为预设的比例，这里的所称的预设是指标注员设定的。此种情况为画刷默认的显示方式，例如，第一操作为未进行标注时移动画刷的操作，此时并未进行标注，但是需要在标注结果图像上实时显示画刷的形状给标注员预览，因此采用预设的参数显示画刷。

第二种，第一半径为预设的半径，第一比例和第三像素与第一像素在原始图像上的距离正相关。第二种情况也称为画刷的第一种工作模式。其中，第三像素为当检测到画刷的第二操作时，确定的第二操作对应的原始图像中的像素。

第一操作可以是选择开始标注的位置的操作，第二操作可以是在进行标注时移动画刷的操作。例如，在标注员通过操作鼠标进行标注时，第一操作可以是按下鼠标左键的操作，第二操作可以是按下鼠标左键的情况下鼠标移动的操作(拖拽操作)，第三像素为原始图像上光标移动到的位置对应的像素，以图4(A)至图4(C)为例进行说明。

图4(A)是按下鼠标左键的情况，按照第一种工作模式的定义，第一比例的取值和第三像素与第一像素在原始图像上的距离正相关，但此时该距离为0，若第一比例取0将导致画刷形状不显示，故此时应当适用上面的第一种情况，即第一比例为预设的比例，画刷的形状按照该预设的比例选择第二像素的集合后进行显示，如图4(A) 所示。

需要指出，虽然在第一操作为未进行标注时移动画刷的操作或选择开始标注的位置的操作时，画刷的第一半径和第一比例都是预设的值，但在这两种操作中，预设的值并不一定是相同的，例如对于前一种操作，第一比例可以是预设值50％，对于后一种操作，第一比例可以是预设值20％。

继续参照图4(B)，图4(B)中的箭头表示拖拽鼠标的方向，箭头的位置表示当前光标所在的位置，即第三像素的位置，可以看出，当第三像素与第一像素的在原始图像上的距离增大后，第一比例也相应地增大，但画刷范围不变，从而阴影区域在画刷范围内的面积占比增大。需要指出，图4(B)中的箭头只是表示向远离第一像素的方向拖拽鼠标，但具体朝哪个角度拖拽并不影响画刷的形状。

标注员可以通过自由地拖拽鼠标调节画刷的形状，直至调节到一个满意的位置，然后进行标注确认。继续参照图4(C)，当阴影区域覆盖画刷范围内属于A类别的全部像素区域时，可以进行标注确认。关于标注确认，稍后再阐述。在一种实现方式中，如果一直向远离第一像素的方向拖拽鼠标，第一比例将最终增长至1，即阴影区域将覆盖整个画刷范围。

可以理解的，若第一操作不同，则第二操作也相应地变化。例如，在标注员通过手指或触控笔进行标注时，第一操作可以是用手指或触控笔点击触控屏的操作，第二操作可以是手指或触控笔在触控屏表面移动的操作。

总结第一种工作模式，即画刷最大的显示半径固定，在该显示半径内显示的第二像素的占比可调，此种模式适合微调标注边界，以便精确标注。

第三种，第一比例为预设的比例，第一半径为第三像素与第一像素在原始图像上的距离。第三种情况也称为画刷的第二种工作模式。其中，第三像素为当检测到画刷的第二操作时，确定的第二操作对应的原始图像中的像素。

第一操作可以是选择开始标注的位置的操作，第二操作可以是在进行标注时移动画刷的操作。例如，在标注员通过操作鼠标进行标注时，第一操作可以是按下鼠标左键的操作，第二操作可以是按下鼠标左键的情况下鼠标移动的操作(拖拽操作)，第三像素为原始图像上光标移动到的位置对应的像素，以图5(A)至图5(C)为例进行说明。

图5(A)是按下鼠标左键的情况，按照第二种工作模式的定义，第一半径为第三像素与第一像素在原始图像上的距离，但此时该距离为0，若第一半径取0将导致画刷形状不显示，故此时应当适用上面的第一种情况，即第一半径为预设的半径，画刷的形状按照该预设的比例选择第二像素的集合后进行显示，如图5(A)所示。

需要指出，虽然在第一操作为未进行标注时移动画刷的操作或选择开始标注的位置的操作时，画刷的第一半径和第一比例都是预设的值，但在这两种操作中，预设的值并不一定是相同的，例如对于前一种操作，第一半径可以是预设值200，对于后一种操作，第一半径可以是预设值100。

继续参照图5(B)，图5(B)中的箭头表示拖拽鼠标的方向，箭头的位置表示当前光标所在的位置，即第三像素的位置，可以看出，当第一半径增大后，画刷范围增大，但第一比例不变，从而阴影区域在画刷范围内的面积占比不变。需要指出，图5(B)中的箭头只是表示向远离第一像素的方向拖拽鼠标，但具体朝哪个角度拖拽并不影响画刷的形状。

标注员可以通过自由地拖拽鼠标调节画刷的形状，直至调节到一个满意的位置，然后进行标注确认。继续参照图5(C)，当认为阴影区域足够大，已经覆盖了希望标注的像素区域时，可以进行标注确认。关于标注确认，稍后再阐述。

总结第二种工作模式，即画刷最大的显示半径可调，在该显示半径内显示的第二像素的占比固定，此种模式适合对大面积的同一类别的区域进行快速标注。

可以理解的，画刷还可以具有其他的显示方式，不限于以上所举示例。例如，在标注员通过压感笔进行标注时，第一操作可以是压感笔点击压感屏的操作，第二操作可以是压感笔调节按压力度的操作，假设第一半径为预设的半径，增加压力时第一比例增大，减小压力时第一比例减小，从而可以通过压力感应调节画刷的形状。

在一些实施例中，在在标注结果图像上显示第二像素的集合的位置之后，还可以检测画刷的第三操作，即标注确认操作，在检测到标注确认操作时，将标注结果图像中显示的第二像素的集合的位置确定为标注结果。例如，将这些位置的像素着色并保存标注结果图像(第一操作或第二操作有可能只是临时着色，并未保存)。例如，在标注员通过操作鼠标进行标注时，第一操作可以是按下鼠标左键的操作，第三操作可以是释放鼠标左键的操作。又例如，在标注员通过手指或触控笔进行标注时，第一操作可以是用手指或触控笔点击触控屏的操作，第三操作可以是手指或触控笔离开触控屏的操作。

由于本发明实施例提供的画刷具有自适应性，作为一种可选的方式，标注员可以先标注像素区域的边界，在边界附近标注完后，像素区域已经被画刷的着色结果或者原始图像本身的边界围合成一封闭的区域，可以直接通过填充工具(类似Windows画图工具中的油漆桶)，将整个像素区域剩余的部分着色，其标注效率非常高。

本发明实施例还提供一种图像标注装置200，如图6所示。参照图6，该装置包括：

检测模块610，用于当检测到标注用的画刷的第一操作时，确定第一操作对应的原始图像中的第一像素；

相似性度量获取模块620，用于获取画刷范围内的每个第二像素与第一像素的相似性度量，其中，画刷范围是指画刷在原始图像上覆盖的包括第一像素的区域；

显示模块630，用于根据相似性度量确定与第一像素相似的第二像素的集合，在标注结果图像上显示第二像素的集合的位置。

本发明实施例提供的图像标注装置200，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法施例中相应内容。

本发明实施例提供一种特征图生成装置212，如图7所示。参照图7，该装置包括：

原始图像获取模块2120，用于获取原始图像；

特征图获取模块2122，用于利用卷积神经网络对原始图像进行特征提取，获得第一特征图；

特征图提供模块2124，用于将第一特征图提供给能够利用第一特征图计算原始图像上的两个像素之间的相似性度量的客户端。

本发明实施例提供的特征图生成装置212，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法施例中相应内容。

本发明实施例还提供一种电子设备300，如图8所示。参照图8，电子设备300包括一个或多个处理器302、一个或多个存储装置304、输入装置306以及输出装置308，这些组件通过总线系统112和/或其他形式的连接机构(未示出)互连。

处理器302可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备 300中的其他组件以执行期望的功能。

存储装置304可以各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器302可以运行计算机程序指令，以实现本发明实施例提供的图像标注方法和/ 或特征图生成方法的步骤以及/或者其他期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置306可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置308可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

可以理解，图8所示的结构仅为示意，电子设备300还可包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。图8中所示的各组件可以采用硬件、软件或其组合实现。于本发明实施例中，电子设备300可以是，但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备。电子设备300 还可以是虚拟机等虚拟设备。

本发明实施例还提供一种图像标注系统400，如图9所示。参照图9，该系统包括服务器端410以及客户端420，服务器端410 与客户端420之间通信连接。

其中，服务器端410用于接收原始图像，利用卷积神经网络对原始图像进行特征提取，并将获得的第一特征图发送至客户端420；

客户端用420于从服务器端410接收原始图像，以及当检测到标注用的画刷的第一操作时，确定第一操作对应的原始图像中的第一像素，获取画刷范围内的每个第二像素与第一像素的相似性度量，并根据相似性度量确定与第一像素相似的第二像素的集合，在标注结果图像上显示第二像素的集合的位置。

可以理解的，以上仅仅是服务器端410和客户端420的基本功能，前述方法实施例中的其他步骤也可以在服务器端410或客户端 420上实现，例如卷积神经网络的训练过程可以在服务器端410上实现。

服务器端410可以实现为，但不限于单台服务器、多台服务器的组合或者云服务器，客户端420可以实现为，但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备，或者虚拟机等虚拟设备。服务器端410和客户端420上分别安装服务器端软件以及客户端软件，用于实现数据交互以及本发明实施例提供的图像标注方法的步骤。

下面举例说明图像标注系统400的两种可能的工作方式：

其一，用户将需要标注的原始图像上传至服务器端410，服务器端410获得第一特征图后，将原始图像和对应的第一特征图发送至客户端420，标注员在客户端420上进行标注。

其二，客户端420将需要标注的原始图像发送至服务器端410，服务器端410获得第一特征图后，将第一特征图发送至客户端420，标注员在客户端420上进行标注。

进一步的，标注员在标注完成后，可以将标注结果在客户端420 本地存储，或者将标注结果上传至服务器端410，由服务器端410 进行存储，并提供给他人查看或下载。

作为一种可选的方案，标注员包括多种级别，以两个级别为例，一级标注员和二级标注员都使用相同的客户端软件，但权限不同。其中，一级标注员在标注完后，可以通过客户端420将标注结果上传至服务器端410，二级标注员通过客户端420可以查看一级标注员的标注结果，从而进一步检查一级标注员的标注结果是否正确，并可以对标注结果进行备注、驳回、重新标注等操作，二级标注员可以通过客户端420将检查结果上传至服务器端410，一级标注员可以通过客户端420查看二级标注员的检查结果，并进行重新标注等操作。

不同于在单一的设备(例如电子设备300)上实现的方案，在图像标注系统400中，通过设置服务器端410和客户端420将第一特征图的生成和原始图像的标注过程解耦，让性能相对较强的服务器端410进行第一特征图的提取，让性能相对较差的客户端420仅执行原始图像的标注工作，有利于算力在不同设备间的合理分配，避免性能瓶颈，提高图像标注的效率。

图像标注系统400的其他实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，系统实施例部分未提及之处，可参考方法施例中相应内容。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得计算机设备执行本发明各个实施例所述方法的全部或部分步骤。前述的计算机设备包括：个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备，前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像标注方法，其特征在于，包括：

当检测到标注用的画刷的第一操作时，确定所述第一操作对应的原始图像中的第一像素；

获取画刷范围内的每个第二像素与所述第一像素的相似性度量，其中，所述画刷范围是指所述画刷在所述原始图像上覆盖的包括所述第一像素的区域；

根据所述相似性度量确定与所述第一像素相似的第二像素的集合，在标注结果图像上显示所述第二像素的集合的位置。

2.根据权利要求1所述的图像标注方法，其特征在于，所述相似性度量根据所述第一像素与所述第二像素在特征空间中的距离进行计算，所述特征空间为第一特征图中的像素对应的向量所在的向量空间，所述第一特征图是利用卷积神经网络对所述原始图像进行特征提取后获得的。

3.根据权利要求2所述的图像标注方法，其特征在于，所述相似性度量根据所述第一像素与所述第二像素在所述原始图像上的距离，以及所述第一像素与所述第二像素在所述特征空间中的距离进行计算。

4.根据权利要求3所述的图像标注方法，其特征在于，用于计算所述相似性度量S_i,c的公式为：

S_i,c＝α||P_i-P_c||+(1-α)||I_i-I_c||

其中，P_c为所述第一像素在所述原始图像上的位置，P_i为所述第二像素在所述原始图像上的位置，||P_i-P_c||为所述第一像素与所述第二像素在所述原始图像上的距离，I_c为所述第一像素在所述第一特征图中对应的像素，I_i为所述第二像素在所述第一特征图中对应的像素，||I_i-I_c||为所述第一像素与所述第二像素在所述特征空间中的距离，α为两个距离加权求和时的权重参数。

5.根据权利要求1－4中任一项所述的图像标注方法，其特征在于，所述画刷范围为以所述第一像素为中心，且具有第一半径的圆形区域，所述根据所述相似性度量确定与所述第一像素相似的第二像素的集合，包括：

对获得的全部相似性度量按照表示的相似度的高低进行排序，根据排序结果从所述全部相似性度量中选择出表示的相似度最高的第一比例的相似性度量，由每个选择出的相似性度量对应的第二像素共同构成所述第二像素的集合。

6.根据权利要求5所述的图像标注方法，其特征在于，所述第一半径为预设的半径，所述第一比例为预设的比例，所述第一操作包括选择开始标注的位置的操作或在未进行标注时移动所述画刷的操作。

7.根据权利要求5所述的图像标注方法，其特征在于，所述第一半径为预设的半径，所述第一比例和第三像素与所述第一像素在所述原始图像上的距离正相关，其中，所述第三像素为当检测到所述画刷的第二操作时，确定的所述第二操作对应的所述原始图像中的像素，所述第一操作包括选择开始标注的位置的操作，所述第二操作包括在进行标注时移动所述画刷的操作。

8.根据权利要求5所述的图像标注方法，其特征在于，所述第一比例为预设的比例，所述第一半径为第三像素与所述第一像素在所述原始图像上的距离，其中，所述第三像素为当检测到所述画刷的第二操作时，确定的所述第二操作对应的所述原始图像中的像素，所述第一操作包括选择开始标注的位置的操作，所述第二操作包括在进行标注时移动所述画刷的操作。

9.根据权利要求1－4中任一项所述的图像标注方法，其特征在于，在所述在标注结果图像上显示所述第二像素的集合的位置之后，所述方法还包括：

当检测到所述画刷的第三操作时，将所述结果图像中显示的所述第二像素的集合的位置确定为标注结果。

10.根据权利要求1－4中任一项所述的图像标注方法，其特征在于，所述标注结果图像为覆盖在所述原始图像上的透明图像。

11.一种特征图生成方法，其特征在于，包括：

获取原始图像；

12.根据权利要求11所述的特征图生成方法，其特征在于，所述卷积神经网络为经过度量学习后获得的，度量学习的学习目标被设置为减小属于同一类别的像素在所述特征空间中的距离和/或增大属于不同类别的像素在所述特征空间中的距离。

13.根据权利要求12所述的特征图生成方法，其特征在于，所述学习目标被设置为减小属于同一类别的像素在所述特征空间中的距离和增大属于不同类别的像素在所述特征空间中的距离，所述方法还包括：

将训练图像输入至所述卷积神经网络，获得所述卷积神经网络输出的第二特征图，其中，所述训练图像中的每个像素均对应有预先标注好的分类标签；

根据所述分类标签确定所述第二特征图中属于不同类别的区域之间的边界区域；

在所述边界区域中确定多个三元组，每个三元组中均包括第一图像块、第二图像块以及第三图像块，其中，属于同一类别的所述第一图像块与所述第二图像块构成正样本对，属于不同类别的所述第一图像块与所述第三图像块构成负样本对；

根据所述正样本对中的两个图像块在所述特征空间中的第一距离计算所述卷积神经网络的第一损失，以及所述负样本对中的两个图像块在所述特征空间中的第二距离计算所述卷积神经网络的第二损失，并根据所述第一损失和所述第二损失确定所述卷积神经网络的损失，其中，用于计算所述第一损失的损失函数被设置为在所述第一距离越小时计算出的所述第一损失越小，用于计算所述第二损失的损失函数被设置为在所述第二距离越大时计算出的所述第二损失越小；

根据所述卷积神经网络的损失调整所述卷积神经网络的参数；

将新的训练图像输入至所述卷积神经网络重新进行训练直至满足训练结束条件。

14.根据权利要求13所述的特征图生成方法，其特征在于，所述在所述边界区域中确定多个三元组，包括：

在所述边界区域中确定多个第四图像块，所述第四图像块的中心位于所述边界区域中的边界上，在所述第四图像块中确定所述第一图像块、所述第二图像块以及所述第三图像块。

15.根据权利要求11－14中任一项所述的特征图生成方法，其特征在于，在所述获得所述第一特征图后，所述方法还包括：

将所述原始图像作为引导图对所述第一特征图进行导向滤波，以使处理后的所述第一特征图中属于不同类别的区域之间的边界与所述原始图像中属于不同类别的区域之间的边界具有相似的形状。

16.一种图像标注装置，其特征在于，包括：

检测模块，用于当检测到标注用的画刷的第一操作时，确定所述第一操作对应的原始图像中的第一像素；

相似性度量获取模块，用于获取画刷范围内的每个第二像素与所述第一像素的相似性度量，其中，所述画刷范围是指所述画刷在所述原始图像上覆盖的包括所述第一像素的区域；

显示模块，用于根据所述相似性度量确定与所述第一像素相似的第二像素的集合，在标注结果图像上显示所述第二像素的集合的位置。

17.一种特征图生成装置，其特征在于，包括：

原始图像获取模块，用于获取原始图像；

特征图获取模块，用于利用卷积神经网络对所述原始图像进行特征提取，获得第一特征图；

特征图提供模块，用于将所述第一特征图提供给能够利用所述第一特征图计算所述原始图像上的两个像素之间的相似性度量的客户端。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行权利要求1－15中任一项所述的方法的步骤。

19.一种电子设备，包括存储器以及处理器，所述存储器中存储有计算机程序指令，其特征在于，所述计算机程序指令被所述处理器读取并运行时，执行权利要求1－15中任一项所述的方法的步骤。