CN111914947B

CN111914947B - 基于特征融合图像实例分割方法、装置、设备及存储介质

Info

Publication number: CN111914947B
Application number: CN202010841858.6A
Authority: CN
Inventors: 杜吉祥; 程海峰; 张洪博; 翟传敏
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2024-04-16
Anticipated expiration: 2040-08-20
Also published as: CN111914947A

Abstract

本发明提供一种基于特征融和图像实例分割方法、装置、设备及存储介质，方法包括：获取待分割图像，将所述待分割图像通过去除BN层的ResNet卷积单元提取特征，获取特征图；将所述特征图与原始特征图输入到特征融合单元进行相加融合，将所述融合特征图输入到3×3的卷积单元，重新调整特征图，通过池化链从调整后特征图中提取背景上下文信息，融合多个不同感受野的特征图，获得池化后的特征图；将所述池化后的特征图输入到一个卷积单元，整合所述池化链的结果，获得整合后特征图；根据整合后特征图通过分类分割，获得实例分割结果。本发明通过自定义的特征融和模块进行处理，更高效的利用特征图信息，使最终处理的mask图信息更丰富，精确度更高。

Description

基于特征融合图像实例分割方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，具体而言，涉及一种基于特征融合图像实例分割方法、装置、设备及存储介质。

背景技术

图像实例分割问题是计算机视觉领域的一个极为重要的子问题，其主要目的是将图像中人们感兴趣的物体精确地从图像中截取出来，以此来避免背景的干扰，方便后续的处理。实例分割本身包含很多支线问题，分别是目标检测和语义分割。每一点的提升对于最后的结果的改善都是极为重要的，因此本文的改进方向也可以从这两个地方出发。

早期图像分割并没有实例分割和语义分割的区分，目的就是将前背景图像区分开。早期的图像分割发展技术主要有以下两个方向：

基于阈值的图像分割算法

使用阈值来进行图像分割的算法是最常用的图像分割算法之一，其主要思想是将图像的每个像素的灰度值与阈值相比较，之后进行分类，得到最终的二值图像，将目标与背景分隔开。因此，阈值法的重点就是如何找到最优的灰度阈值。经典的算法有OTSU大津法，通过将不同类别间的方差最大化来求取最佳阈值。除此之外还有均值法，直方图双峰法，迭代阈值法等多种算法。

阈值法本身具有计算速度快，算法实现简单等特点，在目标和背景差异较大或是对比度较为明显时效果优异。但是当图像本身信息复杂，遮挡噪声等问题较为严重时，阈值法就无法达到一个满意的分割结果。

基于边缘信息的图像分割算法

相比于像素值，边缘本身所包含的信息更丰富，在图像中边缘信息在像素值，梯度等特征上变化也是最剧烈的区域，因此根据边缘信息进行分割也是最容易想到和研究时间最长的方法之一。

一般情况下，目标内部的像素是较为统一的或者变化也是较为缓和的，而在不同物体间，这种变化会变得极为剧烈，因此通常情况下边缘信息大多是高频信息。人们可以通过这一特性计算得到图像中所有可能的边界信息，并以此来进行分割。常用的边缘检测算法有Sobel，Canny等。但是当目标本身的像素值较为多变或是蕴含很多细微的纹理时，单一的边缘检测算法就很难完整的得到目标的边界。同样的，当图像本身噪声影响严重时，边缘检测算法也无法发挥效果，因为噪声信息本身就与图像无关，他同样也是高频信息，对于检测来说影响极大。

早期图像分割算法主要集中在对图像表层信息的使用，比如像素，边缘，梯度等，但是随着深度学习的发展，神经网络可以从图像中提取到更为高级的语义信息，这无疑扩充了算法所能够使用的信息的数量，对于图像分割起了极大地促进作用，分割开始向着两个方向发展，一个是语义分割，一个是实例分割。

语义分割的目的较为简单，就是对图像中的所有像素进行分类，以此将图像中的不同类别的物体区分开来。当前的语义分割算法发展十分迅速，已经做到了端到端的训练和预测，并且不断刷新的准确率。语义分割在神经网络上的发展应该是从FCN这篇论文开始，他将传统的神经网络作为编码部分，得到一个低分辨率但是信息丰富的特征图，之后使用转置卷积对特征图进行解码，最终输出与输入图像相同的分割结果图。这是第一次实现了端到端的训练，也将语义分割的发展方向确定了下来。在后续的语义分割论文中，主体的思想都没有太大的变化，前半部分为编码器，主要使用卷积神经网络进行图像信息的编码，后半部分为解码器，对编码后的特征图进行解码处理，得到最终的结果图。后续的改进也主要集中在了编解码这两部分。编码器部分主要是使用更为优秀的神经网络，如GoogleNet,ResNet,SENet等，解码器则其中较为优秀的方法比如U-Net添加了短路连接，重用了中间检测特征。还有一些则是在处理细节上做了改进，比如DeepLab提出的空洞卷积，增加了感受野，使得特征图的信息更加丰富。

在实例分割领域，基本思路是目标检测加语义分割。早期SDS使用MCG生成建议区域，之后使用Bottom-Up分割出结果，但是这样计算量很大，且分割效果一般。之后的HyperColumns在SDS的基础上，在分类器中引入超列的概念，实现对ROI的修正。之后的CFM开始使用mask进行辅助分割。经过不断地迭代发展，最终何凯明的Mask-RCNN将实例分割的发展提高了一大步，他使用当时精度最高的Faster-RCNN作为目标检测部分，之后在此基础上添加了语义分割分支，对每一个检测到的目标区域进行分割。这样不管是在目标检测阶段还是语义分割阶段，精度都得到了保证。之后的发展主要就是围绕Mask-RCNN本身的问题进行改进，比如PANet在语义分割分支添加的全连接信息辅助分割或是MS-RCNN添加的对分割结果进行打分的机制。

在实际的生产生活中使用的场景范围也很广，而其中实例分割技术与使用者进行交互更为直观，提出精度更高的实例分割要求。目前，Mask-RCNN方法与本发明较为相似。该模型在语义分割阶段主要是使用四层全卷积网络以及最后的反卷积进行处理得到mask图。本发明与之不同的地方在于本发明在语义分割阶段使用自定义的特征融和模块进行处理，更高效的利用特征图信息，最终处理的道德mask图信息更丰富，精确度更高。

发明内容

本发明的目的在于提供一种基于特征融和图像实例分割方法、装置、设备及存储介质用以实现更高精度实例分割。

为实现上述目的，本发明实施例提供一种基于特征融和图像实例分割方法，包括以下步骤：

获取待分割图像，将所述待分割图像通过去除BN层的ResNet卷积单元提取特征，获取特征图；

将所述特征图与原始特征图输入到特征融合单元进行相加融合，获得融合特征图；

将所述融合特征图输入到3×3的卷积单元，重新调整特征图以更好地整合信息，得到调整后特征图；

通过池化链从所述调整后特征图中提取背景上下文信息，融合多个不同感受野的特征图，获得池化后的特征图；

将所述池化后的特征图输入到一个卷积单元，整合所述池化链的结果，获得整合后特征图；

根据整合后特征图通过分类分割，获得实例分割结果。

进一步的，所述池化链包括池化加卷积的处理单元，并通过残差连接不断地连接融合。

更进一步的，所述不断地连接融合的过程为：一个处理单元将前一个单元的处理结果作为输入，重复使用先前的处理结果，保证特征信息的完整性。

进一步的，所述整合所述池化链的结果包括调整重构特征图的信息，同时引入非线性运算作为后续操做的预处理。

本发明实施例还提供一种基于特征融和图像实例分割装置，包括

提取模块，用于获取待分割图像，将所述待分割图像通过去除BN层的ResNet卷积单元提取特征，获取特征图；

融合模块，用于将所述特征图与原始特征图输入到特征融合单元进行相加融合，获得所述融合特征图；

调整模块，用于将所述融合特征图输入到3×3的卷积单元，重新调整特征图以更好地整合信息，得到调整后特征图；

池化模块，用于通过池化链从所述调整后特征图中提取背景上下文信息，融合多个不同感受野的特征图，获得池化后的特征图；

整合模块，用于将池化后的特征图输入到一个卷积单元，整合所述池化链的结果，获得整合后特征图；

分割模块，用于根据整合后特征图通过分类分割，获得实例分割结果。

更进一步的，所述不断地连接融合的过程为：一个处理单元将前一个单元的处理结果作为输入，重复使用先前的处理结果，以保证特征信息的完整性。

本发明实施例还提供了一种基于特征融合图像实例分割设备，包括存储器以及处理器，所述存储器内存储有计算机程序，所述处理器用于运行所述计算机程序以实现所述的一种基于特征融合图像实例分割方法。

本发明实施例还提供了一种存储介质，所述存储介质用于存储至少一个程序，至少一个指令，所述至少一个程序、指令被执行以实现所述的一种基于特征融合图像实例分割方法。

本发明实施例的有益技术效果：

在语义分割阶段使用自定义的特征融和模块进行处理，更高效的利用特征图信息，可以有效地减少因为卷积池化处理所导致的图像空间信息损失，使用大量的残差链接，使得梯度可以有效地在网络中传递，有利于网络的训练。最终处理的得到的mask图信息更丰富，精确度更高。语义分割分支引入更为精细的分割网络，对于网络最终的结果提升起到了很大的作用。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明第一实施例提供的一种基于特征融合图像实例分割方法的流程示意图。

图2为本发明第一实施例提供的一种基于特征融合图像实例分割方法的另一流程示意图。

图3为本发明实施例提供的特征融合模块流程示意图。

图4为本发明施例提供的卷积单元流程示意图。

图5为本发明施例提供的融合单元流程示意图。

图6为本发明施例提供的池化链流程示意图。

图7本发明第二实施例提供的一种基于特征融合图像实例分割装置的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下详述本发明实施例的具体内容。

本发明第一实施例提供了一种图像实例分割方法，如图1-3所示，包括步骤：

S11:获取待分割图像，将所述待分割图像通过去除BN层的ResNet卷积单元提取特征，获取特征图；

在本实施例中，如图4所示，去除BN层的ResNet卷积单元是在原始ResNet卷积单元的基础上去除了BN层，因为训练图像大小，网络以及硬件的因素，在训练时相对于整个训练集数量来讲batch-size很小，此时如果使用BN会导致BN很不稳定，影响网络的整体性能，因此在设计时选择去掉BN。在原始的Mask-RCNN中因为batch-size的原因BN也是默认锁定的，不参与训练。卷积单元的主要作用与传统全卷积网络中的卷积层作用一样，提取特征，增大感受野，同时根据实际的任务对ResNet的预训练权重进行微调。因为只有经过ROI-Align处理后的特征图输入，所以第一个特征融合模块只有一个输入，之后的特征融合模块因为有了前一阶段的输出以及原始输入，所以有两个输入，这里默认介绍双输入的结构，单输入就是简单的经过两个卷积单元处理之后输入到下一阶段的模块中。

S12:将所述特征图与原始特征图输入到特征融合单元进行相加融合，获得融合特征图；

在本实施例中，经过卷积单元的处理，来自不同阶段的经过处理的特征图输入到特征融合单元进行融合，如图5所示。该模块的主要作用借鉴了ResNet网络的思想，将处理过的特征图与原始特征图相加融合，这样的处理确保了特征图信息的完整性，最大程度上保证了特征图不会因为卷积处理而出现空间信息的损失。同时因为融合了两个阶段的特征图，输出的结果信息量会更丰富，为后续的处理模块提供质量更好的特征图。

S13:将所述融合特征图输入到3×3的卷积单元，重新调整特征图以更好地整合信息，得到调整后特征图；

在本实施例中，在两阶段特征图相加融合后再经过一个3×3的卷积单元，有助于特征图整合相加后的信息，重新调整特征图，这对后续的处理很重要。同时经过实验发现这里使用相加融合可以更好地整合信息，如果使用逐像素相乘，会使得特征图信息混乱，导致网络无法正常训练，分析原因可能是因为不同阶段的特征图感受野不同，经过上采样后对应位置像素信息在原图的投影区域可能相差较大，采用相乘融合会导致信息混乱，网络无法成功学习到有用的特征。

S14:通过池化链从所述调整后特征图中提取背景上下文信息，融合多个不同感受野的特征图，获得池化后的特征图；

在本实施例中，池化链的设计如图6所示，池化链的主要作用是为了从图像中的较大区域提取背景上下文信息，它能够有效地融合多个不同感受野的特征图，通过残差连接也可以有效地使用可学习的权重更好地融合特征图的信息。整个模块使用池化加卷积的处理单元构成，并且通过残差连接不断地连接融合。后一个处理单元可以将前一个单元的处理结果作为输入，这样的处理可以重复使用先前的处理结果，在此基础上进行更深一步的处理。这样设计的好处是可以在不使用过大的池化窗口的情况下获取足够大的感受野，可以访问足够大的图像区域。同时因为也融合了前一模块的输入，最大程度的避免了因为池化处理而损失空间信息的情况发生，保证了特征信息的完整性，这对于最终的mask输出很关键，可以极大地保证小目标的准确率以及大目标的细节信息完整性。模块的设计灵活性也很高，图6中的虚线表示理论上池化加卷积的处理单元可以无限堆叠，可以根据任务的具体情况调整。本实施例的网络设计从内到外始终贯穿着残差连接，不管是融合模块的链接还是池化链内部的链接，这样的链接方式有助于在训练期间网络内部的梯度传递。

S15:将所述池化后的特征图输入到一个卷积单元，整合所述池化链的结果，获得整合后特征图；

在本实施例中，在池化链之后又接了一个卷积单元进行处理，主要的目的是整合池化链的处理结果，调整重构特征图的信息，同时引入非线性运算作为后续操做的预处理，基于此本文增加了最后一个卷积单元。

S16:根据整合后特征图通过分类分割，获得实例分割结果。

为便于对本发明的理解，在第一实施例中我们使用的植物数据集中对模块的整体性能以及每个部分的性能做了评测，相关的消融实验结果如表1：

本实施例中，通过在语义分割阶段使用自定义的特征融和模块进行处理，更高效的利用特征图信息，可以有效地减少因为卷积池化处理所导致的图像空间信息损失，使用大量的残差链接，使得梯度可以有效地在网络中传递，有利于网络的训练。最终处理的得到的mask图信息更丰富，精确度更高。语义分割分支引入更为精细的分割网络，对于网络最终的结果提升起到了很大的作用。

本发明第二实施例提供一种基于特征融和图像实例分割装置，如图7，包括：

提取模块110，用于获取待分割图像，将所述待分割图像通过去除BN层的ResNet卷积单元提取特征，获取特征图；

在本实施例中，如图4所示，在原始ResNet卷积单元的基础上去除了BN层，因为训练图像大小，网络以及硬件的因素，在训练时相对于整个训练集数量来讲batch-size很小，此时如果使用BN会导致BN很不稳定，影响网络的整体性能，因此在设计时选择去掉BN。在原始的Mask-RCNN中因为batch-size的原因BN也是默认锁定的，不参与训练。卷积单元的主要作用与传统全卷积网络中的卷积层作用一样，提取特征，增大感受野，同时根据实际的任务对ResNet的预训练权重进行微调。因为只有经过ROI-Align处理后的特征图输入，所以第一个特征融合模块只有一个输入，之后的特征融合模块因为有了前一阶段的输出以及原始输入，所以有两个输入，这里默认介绍双输入的结构，单输入的话就是简单的经过两个卷积单元处理之后输入到下一阶段的模块中。

融合模块120，用于将所述特征图与原始特征图输入到特征融合单元进行相加融合，获得所述融合特征图；

调整模块130，用于将所述融合特征图输入到3×3的卷积单元，重新调整特征图以更好地整合信息，得到调整后特征图；

池化模块140，用于通过池化链从所述调整后特征图中提取背景上下文信息，融合多个不同感受野的特征图，获得池化后的特征图；

整合模块150，用于将池化后的特征图输入到一个卷积单元，整合所述池化链的结果，获得整合后特征图；

分割模块160，用于根据整合后特征图通过分类分割，获得实例分割结果。

本发明第三实施例提供了一种基于特征融和图像实例分割设备，包括存储器以及处理器，所述存储器内存储有计算机程序，所述处理器用于运行所述计算机程序以实现所述一种基于特征融和图像实例分割方法。

本发明第四实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序能够被所述存储介质所在设备的处理器执行，以实现所述的一种基于特征融和图像实例分割方法。

在本发明实施例所提供的几个实施例中，应该理解到，所提供的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于特征融和图像实例分割方法，其特征在于，包括以下步骤：

通过池化链从所述调整后特征图中提取背景上下文信息，融合多个不同感受野的特征图，获得池化后的特征图，所述池化链包括池化加卷积的处理单元，并通过残差连接不断地连接融合，所述不断地连接融合的过程为：一个处理单元将前一个单元的处理结果作为输入，重复使用先前的处理结果，以保证特征信息的完整性；

根据整合后特征图通过分类分割，获得实例分割结果。

2.根据权利要求1所述的一种基于特征融和图像实例分割方法，其特征在于，所述整合所述池化链的结果包括调整重构特征图的信息，同时引入非线性运算作为后续操做的预处理。

3.一种基于特征融和图像实例分割装置，其特征在于，包括

融合模块，用于将所述特征图与原始特征图输入到特征融合单元进行相加融合，获得融合特征图；

池化模块，用于通过池化链从所述调整后特征图中提取背景上下文信息，融合多个不同感受野的特征图，获得池化后的特征图，所述池化链包括池化加卷积的处理单元，并通过残差连接不断地连接融合，所述不断地连接融合的过程为：一个处理单元将前一个单元的处理结果作为输入，重复使用先前的处理结果，以保证特征信息的完整性；

4.根据权利要求3所述的一种基于特征融和图像实例分割装置，其特征在于，所述整合所述池化链的结果包括调整重构特征图的信息，同时引入非线性运算作为后续操做的预处理。

5.一种基于特征融和图像实例分割设备，其特征在于，包括存储器以及处理器，所述存储器内存储有计算机程序，所述处理器用于运行所述计算机程序以实现如权利要求1-2任意一项所述的一种基于特征融和图像实例分割方法。

6.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序能够被所述存储介质所在设备的处理器执行，以实现如权利要求1-2任意一项所述的一种基于特征融和图像实例分割方法。