CN111723814A

CN111723814A - 基于跨图像关联的弱监督图像语义分割方法、系统、装置

Info

Publication number: CN111723814A
Application number: CN202010507843.6A
Authority: CN
Inventors: 张兆翔; 谭铁牛; 宋纯锋; 樊峻菘
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-29

Abstract

本发明属于深度学习、计算机视觉及模式识别领域，具体涉及了一种基于跨图像关联的弱监督图像语义分割方法、系统、装置，旨在解决弱监督采用的粗略标注带来的语义分割目标不完整、定位不准确、语义类别判断不准确的问题。本发明包括：通过跨图像间关联关系模块从多张同类别物体的图像间获取互补信息，得到融合特征；基于融合特征进行图像语义分割模型的训练；通过训练好的模型，获取单张输入图像或多张同类别物体图像组的语义分割结果。本发明从粗略的弱图像标注生成像素级的伪图像标注，并在模型训练过程中，从不同图像间获取互补信息，来弥补伪图像标注不全的不足，能够在仅依赖图像级标注的情况下，显著地提高弱监督语义分割模型的性能。

Description

基于跨图像关联的弱监督图像语义分割方法、系统、装置

技术领域

本发明属于深度学习、计算机视觉及模式识别领域，具体涉及了一种基于跨图像关联的弱监督图像语义分割方法、系统、装置。

背景技术

语义分割是计算机视觉中的一个基础任务，它的目标是给图片中每个像素标注一个对应的语义类别，它对后续的图像理解、图像编辑等任务起到了重要的作用，例如交通场景行人分割、医疗场景病灶分割、军事场景航拍图分割等。目前较为成熟的语义分割技术，基本上都是基于深度学习的方法，然而，深度学习网络的训练通常需要利用大量人力和时间来完成训练图像的精细手工标注，十分耗时耗力，同时也很难保证标注的准确性和一致性。

弱监督语义分割致力于仅采用平价易得的粗略弱监督标注进行深度学习网络的训练，从而减少对人工的依赖。然而，由于仅采用粗略的标注，弱监督的语义分割通常面临目标预测不完整，定位不准确等问题。

总的来说，现有的基于深度学习的语义分割方法对于训练样本的标注要求较高，不仅耗时耗力，还很难保证标注的准确性和一致性，而基于弱监督的语义分割方法虽然对于标注的要求较低，但同时也带来了语义分割结果的目标预测不完整，定位不准确、语义类别判断不准确等问题。

发明内容

为了解决现有技术中的上述问题，即弱监督采用的粗略标注带来的语义分割目标不完整、定位不准确、语义类别判断不准确的问题，本发明提供了一种基于跨图像关联的弱监督图像语义分割方法，该图像语义分割方法包括：

步骤S10，获取同类别物体的单张图像/图像组作为输入图像，并提取所述输入图像对应的特征图/特征图组；分别以所述特征图作为第一特征图、第二特征图/在所述特征图组中以任一特征图作为第一特征图，其他特征图作为第二特征图；

步骤S20，对于所述第一特征图的每一个像素位置，分别计算其对应的特征与各第二特征图中每一个像素位置的特征之间的关联度；

步骤S30，以所述关联度作为特征加权的权重，对各第二特征图的特征进行加权，获得第一特征图的互补特征图；

步骤S40，将所述互补特征图与第一特征图融合，获得输入图像的融合特征图；

步骤S50，基于所述输入图像的融合特征图，通过图像语义分割模型，获取输入图像的语义分割结果。

在一些优选的实施例中，该图像语义分割方法还设置有特征预处理的步骤，其方法为：

通过卷积、激活函数、最大值池化、均值池化中的一种或多种方法进行特征预处理。

在一些优选的实施例中，所述输入图像包括一张或多张同类别物体的图像。

在一些优选的实施例中，步骤S20之前还设置有图像下采样的步骤，其方法为：

分别通过最近邻插值法、双线性插值法、均值插值法、中值插值法、深度模型层中的一种方法进行所述第二特征图的图像下采样。

在一些优选的实施例中，所述图像语义分割模型，其训练方法为：

步骤B10，获取同类别物体的图像组集合及其对应的弱标签图像标注作为训练样本集合；所述图像组包括多张同类别物体的图像；

步骤B20，通过上述的基于跨图像关联的弱监督图像语义分割方法的步骤S10-步骤S40对应的方法获取所述训练样本集合中每一个训练样本的融合特征图；

步骤B30，随机选取一个训练样本的融合特征图，通过图像语义分割模型获取图像语义分割结果对应的伪图像标注；

步骤B40，基于所述样本的弱标签图像标注与所述伪图像标注，计算相应的损失函数值，并进行所述图像语义分割模型的参数更新；

步骤B50，重复执行步骤B30-步骤B40直至所述损失函数值低于设定阈值或达到设定训练次数，获得训练好的图像语义分割模型。

在一些优选的实施例中，所述弱标签图像标注包括图像类别标注、目标框标注、笔画标注。

在一些优选的实施例中，所述损失函数值通过逐点的交叉熵损失函数获取；所述交叉熵损失函数为：

其中，Y_i代表位置i处像素的伪标签，x_i代表位置i处的融合特征图的特征，H、W分别代表特征图的高、宽。

本发明的另一方面，提出了一种基于跨图像关联的弱监督图像语义分割系统，基于上述的基于跨图像关联的弱监督图像语义分割方法，该图像语义分割系统包括输入模块、特征提取模块、特征分组模块、关联度计算模块、特征加权模块、特征融合模块、语义分割模块和输出模块；

所述输入模块，配置为获取同类别物体的单张图像/图像组作为输入图像并输入；

所述特征提取模块，配置为通过特征提取网络提取所述输入图像对应的特征图/特征图组；

所述特征分组模块，配置为分别以所述特征图作为第一特征图、第二特征图/在所述特征图组中以任一特征图作为第一特征图，其他特征图作为第二特征图；

所述关联度计算模块，配置为对于所述第一特征图的每一个像素位置，分别计算其对应的特征与各第二特征图中每一个像素位置的特征之间的关联度；

所述特征加权模块，配置为以所述关联度作为特征加权的权重，对各第二特征图的特征进行加权，获得第一特征图的互补特征图；

所述特征融合模块，配置为将所述互补特征图与第一特征图融合，获得输入图像的融合特征图；

所述语义分割模块，配置为基于所述输入图像的融合特征图，通过图像语义分割模型，获取输入图像的语义分割结果；

所述输出模块，配置为输出获取的输入图像的语义分割结果。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于跨图像关联的弱监督图像语义分割方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于跨图像关联的弱监督图像语义分割方法。

本发明的有益效果：

本发明基于跨图像关联的弱监督图像语义分割方法，通过构建图像间的关联关系，用以辅助提高弱监督语义分割模型的训练，还可以通过多种不同的具体实施方式构建图像间的关联关系，本发明可以应用在任何基于弱监督的语义分割任务训练中，包括基于图像的弱监督，基于目标框的弱监督以及基于笔画的弱监督等形式，本发明在以上各种不同的弱监督标注形式下，均能显著地提高弱监督语义分割模型的性能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于跨图像关联的弱监督图像语义分割方法的语义分割及网络训练流程示意图；

图2是本发明基于跨图像关联的弱监督图像语义分割方法一种实施例的跨图像间关联关系模块结构示意图；

图3是本发明基于跨图像关联的弱监督图像语义分割方法一种实施例的图像语义分割模型训练流程示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于跨图像关联的弱监督图像语义分割方法，通过图像间的关联关系，挖掘有用的互补特征，以辅助语义分割网络的训练，从而解决弱监督语义分割下目标预测不完整，定位不准确等问题。

一方面，本发明引入了一个跨图像间目标关联关系模型，用以自动地学习和挖掘不同图像之间的关联关系，并提取相应的信息用以补充到对方图像的特征之中，得到更加准确、完整的目标分割估计。该模型可以和语义分割网络同时进行端到端的训练。另一方面，本发明提出了一套基于跨图像间关联关系的弱监督语义分割训练方法。该方法能够在训练过程中，自动配对不同的图像以提供能够学习跨图像间关系的数据。同时，该方法能够在线地根据补充了图像之间关联关系之后的估计结果，自动生成新的伪标，并反馈给语义分割网络进行训练，通过这种动态的过程进一步提升语义分割网络的性能。综上两个方面，本发明能够在仅使用弱标签的情况下，取得较为完整、准确的分割预测结果。

本发明的一种基于跨图像关联的弱监督图像语义分割方法，该图像语义分割方法包括：

为了更清晰地对本发明基于跨图像关联的弱监督图像语义分割方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明一种实施例的基于跨图像关联的弱监督图像语义分割方法，包括步骤S10-步骤S50，各步骤详细描述如下：

步骤S10，获取同类别物体的单张图像/图像组作为输入图像，并提取所述输入图像对应的特征图/特征图组。

输入图像包括一张或多张同类别物体的图像。

本发明实施例中，图像之间可以互相传递信息用以补充原本的特征，以便增加特征的鲁棒性，并得到更加准确和完整的目标语义分割结果。

若输入图像为单张图像，则以其对应的特征图分别作为第一特征图、第二特征图；若输入图像为图像组，则以其对应的特征图组中任一特征图作为第一特征图，其他特征图作为第二特征图。

步骤S20之前还设置有图像下采样的步骤，其方法为：

分别通过最近邻插值法、双线性插值法、均值插值法、中值插值法、深度模型层(例如，采样步长大于1的卷积层、池化层等)中的一种方法进行所述第二特征图的图像下采样。在一些实施例中，还可以选择其他的图像下采样方法，本发明对此不作限定。

图像下采样使得图像具有更小的空间尺寸，进行特征图的下采样后再计算特征图相应像素位置对应的特征之间的关联度，可以减少计算量、提高计算效率。

步骤S20，对于所述第一特征图的每一个像素位置，分别计算其对应的特征与各第二特征图中每一个像素位置的特征之间的关联度。

以所述特征图组中任一特征图作为第一特征图Q，其他特征图作为第二特征图R1、R2…Rn。

分别计算第一特征图Q每一个像素位置与各特征图R1、R2…Rn中每一个像素位置的特征之间的关联度。

若输入图像为单张图像，则将其对应的特征图记为第一特征图Q、第二特征图R，并通过上述方法计算关联度。

步骤S30，以所述关联度作为特征加权的权重，对各第二特征图的特征进行加权，获得第一特征图的互补特征图H。

步骤S40，将所述互补特征图与第一特征图融合，获得输入图像的融合特征图。

本发明将步骤S20-步骤S40的方法作为提取同类别物体的图像组中各图像之间互补信息的跨图像间关联关系模块，并将模块融入到图像语义分割模型中。如图2所示，为本发明基于跨图像关联的弱监督图像语义分割方法一种实施例的跨图像间关联关系模块结构示意图，以两张同类别物体的图像为例，其特征图分别为特征图Q与特征图R，

和

分别用来对特征图Q和特征图R中的特征进行编码并采取上述的下采样操作(可选)，

用来在特征图R中提取互补特征，

为像素位置i和像素位置j的特征之间的关联度，m_ij为特征图R中像素位置j对应于特征图Q中像素位置i的特征的互补特征，m_i为融合了m_ij之后的特征图R中所有像素位置对应于特征图Q中像素位置i的特征的互补特征，

代表对特征m_i进行融合前的变换(可选用类似于

的方法)，最终将变换后的互补特征图与特征图Q融合后，得到最终的融合特征图Q′。

关联度计算可以通过多种方式实现。例如，可以计算内积用以衡量关联度大小，还可以通过别的度量方式如L2距离、余弦距离等方式，计算其间的关联度大小。又例如，可以在直接从Q与R中根据像素位置抽取的特征进行关联度的计算，也可以通过映射函数，如图2中所示的

与

将原特征进行映射，再计算其间的关联度。其中，映射函数可以由带参数的可训练的神经网络层实现，也可由预先手工定义的函数实现。在一些实施例中，还可以选择其他的关联度计算方法以及其他的映射函数，本发明对此不作限定。

获取由R到Q的互补特征时，可以通过多种方式实现。例如，可直接使用原本R的特征，根据关联度进行汇总得到用于补充Q的特征；也可以先将R的特征经由映射函数

进行映射，再将映射后的特征结合关联度进行汇总得到用于补充Q的特征。其中，映射函数

可由多种方式实现，包括但不限于用可训练的神经网络层实现、用手工设计的映射函数实现等。针对Q中每一像素的对应位置，R中对应像素位置都有与其进行补充的特征。可将这些不同特征加和得到总特征，也可以将这些特征取最大值进行汇总，还可通过其他函数计算得到一个总的特征。在一些实施例中，还可以选择其他的特征融合汇总方法，本发明对此不作限定。

输入图像为两张同类别物体的图像时，其特征融合即为进行对应的特征图R与特征图Q之间的融合；输入图像为多张同类别物体的图像时，其特征融合即为进行对应的特征图R1、R2…Rn与特征图Q之间的融合。

本发明一个实施例中，首先获取特征图R1、R2…Rn对应于特征Q的互补特征，然后进行特征图R1、R2…Rn与特征图Q融合。在其他的实施例中，还可以首先将特征图R1、R2…Rn进行融合获得特征图R，然后获取特征图R对应于特征Q的互补特征，再进行特征图R与特征图Q之间的融合，实现特征图R1、R2…Rn与特征图Q的融合。两种方式对于获取融合特征图没有影响，均能很好地实现多张图像之间的跨图像信息传递。

图像语义分割模型，其训练方法为：

步骤B10，获取同类别物体的图像组集合及其对应的弱标签图像标注作为训练样本集合。

同类别物体的图像组包括多张同类别物体的图像。以两张图像为例，图像Q与R的选取，可以选取具有至少一个共同类别的两张图像，也可以按照别的策略进行选取。例如，可以选取具有完全相同的所有类别的图像；也可以选取具有手工指定的关联关系的两个类别，或多个类别的图像。

弱标签图像标注包括图像类别标注、目标框标注、笔画标注以及其他任何类别的弱于逐像素级别的弱标注。

步骤B20，通过上述的基于跨图像关联的弱监督图像语义分割方法的步骤S10-步骤S40对应的方法获取所述训练样本集合中每一个训练样本的融合特征图。

损失函数值通过逐点的交叉熵损失函数获取，交叉熵损失函数如式(1)所示：

如图3所示，为本发明基于跨图像关联的弱监督图像语义分割方法一种实施例的图像语义分割模型训练流程示意图，图像Q与图像R经过共享权重的特征提取网络提取特征，得到特征图Q和特征图R，之后通过跨图像关联关系模块进行跨图像的特征提取补充，得到最终的融合特征后使用损失函数进行图像语义分割模型的训练。

图像语义分割模型训练中，可以仅使用R对Q的特征进行补充；也可以同时既使用R对Q的特征进行补充，也使用Q对Q的特征进行补充，从而得到两个经过跨图像信息补充的特征，提高训练的效率。

本发明第二实施例的基于跨图像关联的弱监督图像语义分割系统，基于上述的基于跨图像关联的弱监督图像语义分割方法，该图像语义分割系统包括输入模块、特征提取模块、特征分组模块、关联度计算模块、特征加权模块、特征融合模块、语义分割模块和输出模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于跨图像关联的弱监督图像语义分割系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于跨图像关联的弱监督图像语义分割方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于跨图像关联的弱监督图像语义分割方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于跨图像关联的弱监督图像语义分割方法，其特征在于，该图像语义分割方法包括：

2.根据权利要求1所述的基于跨图像关联的弱监督图像语义分割方法，其特征在于，该图像语义分割方法还设置有特征预处理的步骤，其方法为：

3.根据权利要求1所述的基于跨图像关联的弱监督图像语义分割方法，其特征在于，所述输入图像包括一张或多张同类别物体的图像。

4.根据权利要求1所述的基于跨图像关联的弱监督图像语义分割方法，其特征在于，步骤S20之前还设置有图像下采样的步骤，其方法为：

5.根据权利要求1所述的基于跨图像关联的弱监督图像语义分割方法，其特征在于，所述图像语义分割模型，其训练方法为：

步骤B20，通过权利要求1-4任一项所述的基于跨图像关联的弱监督图像语义分割方法的步骤S10-步骤S40对应的方法获取所述训练样本集合中每一个训练样本的融合特征图；

6.根据权利要求5所述的基于跨图像关联的弱监督图像语义分割方法，其特征在于，所述弱标签图像标注包括图像类别标注、目标框标注、笔画标注。

7.根据权利要求5所述的基于跨图像关联的弱监督图像语义分割方法，其特征在于，所述损失函数值通过逐点的交叉熵损失函数获取；所述交叉熵损失函数为：

8.一种基于跨图像关联的弱监督图像语义分割系统，其特征在于，基于权利要求1-7任一项所述的基于跨图像关联的弱监督图像语义分割方法，该图像语义分割系统包括输入模块、特征提取模块、特征分组模块、关联度计算模块、特征加权模块、特征融合模块、语义分割模块和输出模块；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于跨图像关联的弱监督图像语义分割方法。

10.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-7任一项所述的基于跨图像关联的弱监督图像语义分割方法。