CN111915618B

CN111915618B - 基于峰值响应增强的实例分割算法、计算设备

Info

Publication number: CN111915618B
Application number: CN202010497402.2A
Authority: CN
Inventors: 何盛烽; 朱乾树
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2024-05-14
Anticipated expiration: 2040-06-02
Also published as: CN111915618A

Abstract

本发明公开了一种基于峰值响应增强的实例分割算法、计算设备，算法首先获取数据集，数据集包括训练图像和测试图像，其中，仅训练图像包含图像上物体的类别信息；然后设计实现峰值响应生成器，并基于输入的图像和实现峰值响应生成器，获得对应的不完备的峰值响应图；接着设计实现峰值响应增强网络，并基于不完备的峰值响应图和实现峰值响应增强网络，得到覆盖更全面的增强版峰值响应图；对输入图像进行似物性采样，得到似物性采样集合；再设计匹配策略；最后根据匹配策略，将测试图像所对应的增强版峰值响应图与似物性采样集合进行匹配，得到测试图像最终的实例分割结果。本发明实现了弱监督的实例分割效果。

Description

基于峰值响应增强的实例分割算法、计算设备

技术领域

本发明涉及弱监督实例分割技术领域，特别涉及一种基于峰值响应增强的实例分割算法、计算设备。

背景技术

图像识别技术的进步推动了从自动驾驶到医疗诊断等诸多领域的发展。许多研发人员正在竞相开发用于物体识别的深度学习算法，这类算法能够进行高精度的实时物体检测和分类，其中许多技术依赖于由卷积神经网络支撑的图像分割技术，这些技术构成了计算机视觉深度学习的基础。图像分割实际上就是在像素级别分割出输入图像内物体的边界，这有助于实现现实场景中的物体检测任务，并帮助区分同一图像中的多个相似物体。图像分割可以细分为语义分割和实例分割。语义分割可以检测输入图像中的物体，将它们与背景分离，并根据类别对它们进行分组。实例分割使这一过程更进一步，可以检测出相同类别分组中的每个单独物体，并独立标识出每个物体。

大多数现有语义分割方法都依靠大规模的密集标注来训练深度模型，其中，依靠人工进行的像素级标注的成本高昂且劳动强度大，而图像级注释的成本低且易于定义，即只需要标注图像中出现的对象类别。这激发了弱监督分割方法的发展，该方法使用图像标注来训练卷积神经网络进行类别感知分割。大多数现有的弱监督语义分割方法都将卷积神经网络中的卷积过滤器视为对象检测器。通常，将经过预训练的分类网络首先转换为全卷积网络，使其在前向推理中生成类别响应图。这样的类别响应图虽然可以指明网络用来判断图像类别的基本图像区域，但却不能区分同一类别中的不同对象实例。因此，现有的弱监督语义分割方法不能简单地推广到实例分割。

现有研究人员通过利用类峰值响应来解决这个具有挑战性的问题。仅在图像标签监督下，卷积网络以全卷积的方式生成类响应图，该图包含每个图像位置的分类置信度。可以观察到，类别响应图中的局部最大值(即峰值)通常对应于每个实例最明显的部位。通过这个峰值响应图与该图对应的似物性采样进行匹配，可以得到一个粗糙的实例分割。尽管峰值响应图突出显示了物体的最明显部位，通过这些响应图，我们可以粗略定位每个类的实例，但是，这种不完备的峰值响应图并无法提供用于分割的可靠信息，这是因为不完备峰值响应图并不知道哪个区域可以视为完整实例。可见，现有方法无法实现精准实例分割，因此，有必要研究出能够实现精准实例分割的新方法。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足，提供一种基于峰值响应增强的实例分割算法，该算法实现了对图像内出现物体的弱监督实例级分割。

本发明的第二目的在于提供一种计算设备。

本发明的第一目的通过下述技术方案实现：一种基于峰值响应增强的实例分割算法，步骤如下：

S1、获取数据集，数据集包括训练图像和测试图像，其中，仅训练图像包含图像上物体的类别信息；

S2、设计实现峰值响应生成器，并基于输入的图像和实现峰值响应生成器，获得对应的不完备的峰值响应图；

S3、设计实现峰值响应增强网络，并基于不完备的峰值响应图和实现峰值响应增强网络，得到覆盖更全面的增强版峰值响应图；

S4、对输入图像进行似物性采样，得到似物性采样集合；

S5、设计匹配策略；

S6、根据匹配策略，将测试图像所对应的增强版峰值响应图与似物性采样集合进行匹配，得到测试图像最终的实例分割结果。

优选的，实现峰值响应生成器由常规分类神经网络改进而来，其网络结构包括依次连接的三个步长为1的卷积块、三个步长为2的卷积块、8个残差层、以及两个反卷积块和模拟峰值层；

其中，步长为1的卷积块包括依次连接的步长为1的二维卷积层和ReLU激活层，步长为1的二维卷积层用于提取底层级特征，底层级特征包括纹理和轮廓；

步长为2的卷积块包括包括依次连接的步长为2的二维卷积层和ReLU激活层，步长为2的二维卷积层用于下采样，去除冗余的空间信息；

残差层用于融合不同级别的特征，以及防止深度网络训练中常见的梯度爆炸/消失；

反卷积块包括依次连接的上采样层、步长为1的二维卷积层和ReLU激活层；反卷积块用于将特征恢复回输入图像的原始分辨率，保证输出的峰值响应图与似物性采样结果的可匹配性；反卷积块的数量对应步长为2的卷积块的下采样次数；

模拟峰值层用于从预生成的类响应图中模拟出最大响应点，即峰值响应，以增强实例级感知响应的能力，其中，从模拟峰值层之前的最后一个卷积层中提取每个类的响应图，称为类响应图，其分辨率为H×W×C，H×W表示类响应图的空间分辨率，H表示类响应图的高；W表示类响应图的宽，C表示类响应图的通道数，也表示物体类别的总数目，以及类响应图的总层数；

其模拟过程的数学表达式如下：

其中，是给定的物体类别c经过峰值生成器得到的峰值响应图；i表示物体类别序号；M_i代表第i类的响应映射，即最后一个卷积层的第i个通道；/>表示高斯滤波运算；E_η是一个类阈值矩阵，其空间分辨率与M_i相同，并用常数η填充，目的是抑制类别响应的噪声；

实现峰值响应生成器的设计过程为：

选取一个预训练好的分类网络，该分类网络可输出图像的分类信息，设计一个连接分类网络的模拟峰值层，然后设定整个网络的初始学习率和衰减率，将训练图像作为输入，利用训练图像对实现峰值响应生成器进行迭代训练，迭代完成后再固定生成器的参数；在这个训练过程中还使用Adam优化器来优化网络的权重。

更进一步的，步骤S2中，基于输入的图像和实现峰值响应生成器，获得对应的不完备的峰值响应图的过程如下：

S21、将数据集中的图像输入实现峰值响应生成器，利用实现峰值响应生成器来模拟和定位输入图像域内每个对象实例的最突出标识区域，得到输入图像的物体类别所对应的峰值响应图；

其中，对于训练图像，在输入之前还包括预处理步骤：将图像经放大或者缩小后裁剪成统一大小的分辨率，并对其进行最大最小标准化处理，使得深度网络训练更加稳定高效；

S22、为了获得实例级别的峰值响应图，对步骤S21生成的峰值响应图中的每个峰值进行梯度反向传播：

首先使用高斯滤波器将类响应图作平滑处理，然后将平滑处理前和处理后的类响应图作矩阵减法运算，以筛选出峰值区域，并仅对峰值区域执行梯度反向传播以生成不完备的峰值响应图；

根据微积分的链式法则，每个峰值区域对应的不完备峰值响应图表示为：

其中，k表示属于物体类别c的实例个数；j表示峰值区域序号，表示每个峰值的空间位置，/>表示第i个物体类别的峰值响应图中第j个峰值区域的空间位置；L表示标准分类损失；W₁表示模拟峰值层之前的最后一个卷积层的权重矩阵；U表示该最后一个卷积层的输出。

优选的，增强版峰值响应图的获取过程如下：

S31、对不完备峰值响应图进行标准化处理，使其与输入图像统一量纲，然后将不完备峰值响应图与相应的输入图像沿特征通道方向拼接成一个完整张量；

S32、将上述拼接而成的完整张量输入到实现峰值响应增强网络，实现峰值响应增强网络输出与原始峰值响应图分辨率一致的增强的峰值响应图，以此来扩大步骤S2中得到的峰值响应图的覆盖范围。

更进一步的，在步骤S3中，实现峰值响应增强网络作为一个迭代优化网络，用于将不完备的峰值响应图和相应的输入图像沿着通道方向进行拼接得到的张量作为输入，并利用其VGG-16基础网络架构作为特征提取器来进行分层的多层次特征表示，神经网络的较深层包含更多的高级上下文，而较浅的层则包含大量精细的细节，层越靠近输入即层次越浅，层越靠近输出即层次越深；

实现峰值响应增强网络由三个部分组成：上下文驱动的融合模块、细节驱动的融合模块和特征重构模块，其中，

上下文驱动的融合模块由工作在高层特征上的常规卷积层组成；上下文驱动的融合模块用于融合来自最后和倒数第二个卷积层的特征图，然后将融合的特征图作为新的输入，与来自相对较浅层的特征图继续融合，这个过程一直持续到最浅的卷积层即第一个卷积层为止，从而使高级功能逐渐聚合由全局和局部上下文驱动的低级细节；

细节驱动的融合模块由工作在低层特征上的常规卷积层组成；细节驱动的融合模块用于从相反的方向来融合多级特征，融合来自第一和第二个卷积层的特征图，然后将融合的特征图作为新的输入，与来自相对较深层的特征图继续融合，这个过程一直持续到最深的卷积层即最后的卷积层为止，从而使低层次细节信息逐渐与其相应的高级上下文特征相匹配以抑制多余的噪声；

特征重构模块用于将上下文驱动的融合模块和细节驱动的融合模块这两条并行路径的最后聚合特征作为输入，并利用连续的上采样操作输出与原始峰值响应图分辨率一致的增强的峰值响应图。

更进一步的，训练实现峰值响应增强网络的策略有两种，第一种策略是利用自有的似物性采样算法生成的采样结果来监督网络训练，具体如下：

(a1)首先使用训练图像所对应的不完备峰值响应图挑选出匹配度最高的N1张可能的实例采样图，并随机保留其中的N2张采样图；

(a2)然后将保留下来的采样图合并为一个采样图，该采样图作为监督训练峰值响应增强网络的粗略标签数据；这样，给定每对不完备峰值响应图和采样图，基于设定的初始学习率和衰减率，就可以训练以采样图作为标签的峰值响应增强网络来完善不完备峰值响应图；

(a3)在测试阶段，采用迭代优化的策略：将上一轮迭代的峰值响应图迭代地输入到增强网络中，以逐步增强原始的不完备峰值响应图；

第二种策略是通过引入额外的显著性实例标注数据来训练增强网络，该显著性实例标注数据集由N3张带有像素级实例注释的训练图像组成，具体如下：

(b1)为了使该显著性实例标注数据集与实现峰值响应增强网络正常适配，首先需要将每张训练图像输入到实现峰值响应生成器中，以获得其对应的不完备峰值响应图；

(b2)然后通过计算每个不完备峰值响应图与对应输入图像的所有显著性标签的交并比，找到一个交并比得分最高的与不完备峰值响应图对应的显著性标签，且该标签具备唯一性；这样，给定每对不完备峰值响应图和训练图像，基于设定的初始学习率和衰减率，就可以训练以显着性实例标注图作为标签的实现峰值响应增强网络来完善不完备峰值响应图；

(b3)为了更好的优化实现峰值响应增强网络的权重，采用逐像素交叉熵作为损失函数，其数学定义如下：

其中，和O分别表示预测结果和真实标注，它们的空间分辨率一致；N表示著性实例标注数据集中训练图像的样本数量；H表示特征图及标签的高；W表示特征图及标签的宽；

(b4)在测试阶段，采用迭代优化的策略：将上一轮迭代的峰值响应图迭代地输入到增强网络中，以逐步增强原始的不完备峰值响应图。

优选的，在步骤S4中，对输入图像进行似物性采样，得到似物性采样集合的过程如下：

S41、对于输入图像，基于超像素算法先产生初始的分割区域，并将分割区域作为候选区域列表的输入，然后将所有分割区域的轮廓信息添加到候选区域列表中，基于相似度对相似度大的分割区域进行合并，以此对候选区域列表进行更新；

S42、重复上述步骤S41，通过不停的迭代，候选区域列表中的区域越来越大，直到候选区域列表数目小于特定阈值，则停止合并，最终的候选区域列表即为似物性采样集合。

优选的，在步骤S5中，为了实现实例分割，设计一种可以平衡多尺度的实例匹配策略，以挑选出最佳的似物性采样，匹配策略具体如下：

针对输入图像，利用步骤S4来构造对应的实例分割的候选集合，似物性采样集合即作为候选集合；

然后计算增强后的峰值响应图与候选集合中的每个候选分割区域之间的匹配分数计算公式为：

其中，为第一项的权重因子，P为候选似物性采样结果，sum(P)为属于P的像素数；V为每个对象实例的增强版峰值响应图；α、β和γ均为三个拉格朗日乘子，用来协调三个子项之间的关系；E(·)表示轮廓提取器，B(·)是与E(·)相对应的背景提取器；

式中，第一个子项用于将强制增强的峰值响应图和选定的似物性采样共享更多的重叠区域；第二个子项致力于选取轮廓与增强型峰值响应图的轮廓最接近的似物性采样；最后一个子项用于将背景作为模板来抑制无关区域对匹配过程的影响。

优选的，步骤S6中，匹配过程具体为：

利用实现峰值响应生成器中的预训练好的分类网络得出测试图像的类别信息；

根据匹配策略，将输入图像对应的增强版峰值响应图与似物性采样集合进行匹配，并将所有匹配到的采样集合中的候选分割区域合并到一张相同分辨率的画布中，结合上述类别信息，得出测试图像最终的实例分割结果。

本发明的第二目的通过下述技术方案实现：一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现本发明第一目的所述的基于峰值响应增强的实例分割算法。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明基于峰值响应增强的实例分割算法，克服了现有监督分割方法对大规模像素级标记数据的重度依赖问题。仅仅依靠图片级的类别信息，本算法可以获取输入图像的类响应特征图；结合模拟峰值层及梯度方向传播技术，本算法可以模拟输出不完备峰值响应图来标识图像实例的最明显区域。然后在本发明提出的峰值增强网络的优化下，不完备峰值响应图得到了增强，覆盖区域得到大幅度提升。最后对输入图像进行似物性采样得出批量的候选分割区域，并通过匹配策略选取与增强型峰值响应图外形最相似的采样结果。基于上述过程，本发明算法可以实现精细的实例级图像分割效果。

(2)本发明分析了原始的峰值响应图方法的主要局限性，并设计了一个实例感知的峰值增强网络来填充清晰的峰值响应形状。此外，在测试阶段，本发明算法通过迭代策略进一步增强了原始峰值响应图，从而极大地提高了分割精度。使得本发明算法更具有通用性以及可靠的实例分割效果。

(3)本发明提出了一种新的似物性采样匹配策略，以重新平衡多种不同尺度采样结果的贡献，该策略能够解决现有的匹配策略对所有尺度采样一视同仁的局限性，使得本发明算法具备更广泛的适用性。

附图说明

图1是本发明基于峰值响应增强的实例分割算法的流程图。

图2(a)是实施例1中的一张输入图像。

图2(b)是图2(a)的不完备峰值响应图。

图2(c)是使用图2(b)匹配得出的实例分割效果图。

图2(d)是图2(a)对应的真实标注数据。

图2(e)是图2(a)的增强型峰值响应图。

图2(f)是使用图2(e)匹配得出的实例分割效果图。

图3(a)是实施例1中的另一张输入图像。

图3(b)是图3(a)的不完备峰值响应图。

图3(c)是图3(a)的增强型峰值响应图。

图3(d)是图3(a)的实例分割效果图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明提出一种峰值响应增强的方法来解决此问题，实现更精准的实例分割。直观地说，峰值响应增强旨在滤除背景干扰并使响应范围覆盖整个实例。

实施例1

本实施例公开了一种基于峰值响应增强的实例分割算法，如图1所示，步骤如下：

S1、获取数据集，数据集包括训练图像和测试图像，其中，仅训练图像包含图像上物体的类别信息。

这里数据集采用VOC 2012数据集，它总共包括11530张图片级标注的训练图像和无标注的测试图像，其中包含27450个对象实例，6929个密集的像素级标注和类注释。由于本实施例算法旨在实现图像级别的弱监督实例分割，因此仅使用类注释信息来训练实现峰值响应生成器。

S2、设计实现峰值响应生成器，并基于输入的图像和实现峰值响应生成器，获得对应的不完备的峰值响应图。

其中，实现峰值响应生成器由常规分类神经网络改进而来，具体实现上可采用Pytorch深度学习框架来编写，其设计过程为：

选取一个预训练好的分类网络，该分类网络可输出图像的分类信息，设计一个连接分类网络的模拟峰值层，然后设定整个网络的初始学习率和衰减率，将训练图像作为输入，利用训练图像对实现峰值响应生成器进行迭代训练，迭代完成后再固定生成器的参数；在这个训练过程中还使用Adam优化器来优化网络的权重，Adam优化器是一种常用的梯度下降算法。

在本实施例中，初始学习率设为1e-4，而且在每10个周期后乘以0.1，共训练了20轮完整迭代。

分类网络可以从最后一个卷积层中提取每个类的响应图，称为类响应图，其分辨率为H×W×C，H×W表示类响应图的空间分辨率，H表示类响应图的高；W表示类响应图的宽，C表示类响应图的通道数，也表示物体类别的总数目，以及类响应图的总层数。虽然通过对该类响应图进行梯度反向传播即可直接生成具有类意识的注意力图，但是以这种方式生成的类感知映射范围及其模糊，根本谈不上实例级别，为了解决这些问题，因此设计了模拟峰值层，它可以从预生成的类响应图中模拟出最大响应点，即峰值响应，以增强实例级感知响应的能力。

这里，实现峰值响应生成器的网络结构具体包括依次连接的三个步长为1的卷积块、三个步长为2的卷积块、8个残差层、以及两个反卷积块和模拟峰值层。

其中，步长为1的卷积块包括依次连接的步长为1的二维卷积层和ReLU激活层，步长为1的二维卷积层用于提取底层级特征，底层级特征包括纹理，轮廓等；

反卷积块包括依次连接的上采样层、步长为1的二维卷积层和ReLU激活层；反卷积块用于将特征恢复回输入图像的原始分辨率，保证输出的峰值响应图与似物性采样结果的可匹配性；反卷积块的数量对应步长为2的卷积块的下采样次数，比如说，浅层网络部分如果下采样了两次，那么当前特征图的分辨率就是原始输入图像的四分之一，那么就需要执行两次反卷积操作帮助特征图恢复分辨率；

模拟峰值层用于从预生成的类响应图中模拟出最大响应点，即峰值响应，以增强实例级感知响应的能力，其中，预生成的类响应图从模拟峰值层之前的最后一个卷积层(即分类网络的最后一个卷积层)中提取。

其模拟过程的数学表达式如下：

其中，是给定的物体类别c经过峰值生成器得到的峰值响应图；i表示物体类别序号；M_i代表第i类的响应映射(类响应图)，即最后一个卷积层的第i个通道；/>表示高斯滤波运算；E_η是一个类阈值矩阵，其空间分辨率与M_i相同，并用常数η填充，目的是抑制类别响应的噪声。

基于输入的图像和实现峰值响应生成器，获得对应的不完备的峰值响应图的过程如下：

其中，对于训练图像，在输入之前还包括预处理步骤：将图像经放大或者缩小后裁剪成统一大小的分辨率，并对其进行最大最小标准化处理(也就是最大最小归一化)，使得深度网络训练更加稳定高效；

S22、为了获得实例级别的峰值响应图，对步骤S21生成的峰值响应图中的每个峰值进行梯度反向传播，而不是现有方法中的对原始的类响应图M_i进行梯度反向传播：

首先使用高斯滤波器将类响应图作平滑处理，然后将平滑处理前和处理后的类响应图作矩阵减法运算，以筛选出峰值区域，并仅对峰值区域执行梯度反向传播以生成不完备的峰值响应图。

在本实施例中，在梯度反向传播期间，仅启用与当前类别相关的峰。使用峰值激活和梯度反向传播，就可以激活每个实例在输入图像中最突出的区域，也称为不完备峰值响应图。

S3、为了克服原始峰值响应图只关注物体最具标识性区域的缺陷，获得更完整的物体峰值响应图，设计实现峰值响应增强网络，基于不完备的峰值响应图和实现峰值响应增强网络，得到覆盖更全面的增强版峰值响应图。

这里，实现峰值响应增强网络由三个部分组成：上下文驱动的融合模块、细节驱动的融合模块和特征重构模块，其中，

上下文驱动的融合模块由工作在高层特征上的常规卷积层组成；上下文驱动的融合模块用于融合来自最后和倒数第二个卷积层的特征图，然后将融合的特征图作为新的输入，与来自相对较浅层的特征图继续融合，这个过程一直持续到最浅的卷积层即第一个卷积层为止，从而使高级功能逐渐聚合由全局和局部上下文驱动的低级细节。

细节驱动的融合模块由工作在低层特征上的常规卷积层组成；细节驱动的融合模块用于从相反的方向来融合多级特征，融合来自第一和第二个卷积层的特征图，然后将融合的特征图作为新的输入，与来自相对较深层的特征图继续融合，这个过程一直持续到最深的卷积层即最后的卷积层为止，从而使低层次细节信息逐渐与其相应的高级上下文特征相匹配以抑制多余的噪声。

实现峰值响应增强网络作为一个迭代优化网络，用于将不完备的峰值响应图和相应的输入图像沿着通道方向进行拼接得到的张量作为输入，并利用其VGG-16基础网络架构作为特征提取器来进行分层的多层次特征表示，神经网络的较深层包含更多的高级上下文，而较浅的层则包含大量精细的细节，层越靠近输入即层次越浅，层越靠近输出即层次越深，所以才从这个角度设计两个并行的特征融合模块，更具体地说，上下文驱动模块和细节驱动的融合模块主要是用来封装基本设计思想。最后，为了更好地利用上述两种互为补充的不同特征融合策略，设计了特征重构模块。

训练实现峰值响应增强网络的策略有两种，第一种策略是利用自有的似物性采样算法生成的采样结果来监督网络训练，具体如下：

(a1)首先使用训练图像所对应的不完备峰值响应图挑选出匹配度最高的N1张可能的实例采样图，并随机保留其中的N2张采样图；本实施例的N1取20，N2取5～10；

(a3)在利用测试图像验证的测试阶段，采用迭代优化的策略：将上一轮迭代的峰值响应图迭代地输入到增强网络中，以逐步增强原始的不完备峰值响应图；

(b4)在利用测试图像验证的测试阶段，采用迭代优化的策略：将上一轮迭代的峰值响应图迭代地输入到增强网络中，以逐步增强原始的不完备峰值响应图。

本实施例的显著性实例标注数据集包含1000张带有像素级实例注释的训练图像，也就是说，N3取1000。这些图像大部分是来自现有数据集，例如DUT-OMRON，HKU-IS和MSO。

两种策略下，初始学习率都设为1e-3，每20个周期衰减0.5倍，增强网络都训练了120轮全迭代。考虑到增强网络的数据集规模，还额外采用了丰富的数据增强技术，包括随机翻转和裁剪。

增强版峰值响应图的获取过程如下：

S4、对输入图像进行似物性采样，得到似物性采样集合，过程如下：

S41、对于输入图像，基于超像素算法先产生大量初始的分割区域，并将分割区域作为候选区域列表的输入，然后将所有分割区域的轮廓信息添加到候选区域列表中，基于相似度对相似度大的分割区域进行合并，以此对候选区域列表进行更新；

S5、为了实现实例分割，设计一种可以平衡多尺度的实例匹配策略，以挑选出最佳的似物性采样，匹配策略具体如下：

匹配过程具体为：

在本实施例中，从VOC 2012数据集的测试图像中选择图2(a)和图3(a)作为测试用的输入图像，通过上述算法对输入图像进行实例分割。对于图2(a)，图2(b)为对应的不完备峰值响应图；图2(c)为使用图2(b)匹配得出的实例分割效果图；图2(d)是图2(a)对应的真实标注数据；图2(e)是图2(a)的增强型峰值响应图；图2(f)是使用图2(e)匹配得出的实例分割效果图。图2(c)和图2(f)上均标注有分类网络的分类信息：motorbike(摩托车)。

对于图3(a)，图3(b)为图3(a)的不完备峰值响应图；图3(c)为图3(a)的增强型峰值响应图；图3(d)为图3(a)的实例分割效果图。图3(d)上标注有分类网络的分类信息：bus(大巴)。

由图2(d)和图2(f)可得，图2(d)和图2(f)分割区域基本一致，说明本实施例算法能够实现精准的实例分割。由图2(c)和图2(f)可得，本实施例算法的实例分割精准率优于原始的不完备峰值匹配方法。

由图2(a)和图2(f)、图3(a)和图3(d)可得，两个不同的测试图像通过本实施例算法均可以匹配到准确的实例分割结果，说明本实施例算法可以实现对图像内出现物体的弱监督实例级分割，也就是能得知图像内哪个区域为物体的完整实例。

实施例2

本实施例公开了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例1所述的基于峰值响应增强的实例分割算法，具体如下：

S4、对输入图像进行似物性采样，得到似物性采样集合；

S5、设计匹配策略；

本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有处理器功能的终端设备。

在本实施例中，具体是将训练好的实现峰值响应生成器及参数嵌入进英特尔的神经计算棒(Neural Compute Stick，简称NCS)，来打造一个便携式的移动设备。同样，训练好的实现峰值响应增强网络也写入英特尔的神经计算棒，将程序固化进便携式设备。将神经计算棒接入需要进行实例分割的系统，只需要对输入数据进行规范化处理，网络推理就在计算棒内部运转，基于输入的图像生成不完备的峰值响应图、增强版峰值响应图，结合步骤S4～S6，最后反馈给系统所需要的实例分割结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于峰值响应增强的实例分割算法，其特征在于，步骤如下：

S4、对输入图像进行似物性采样，得到似物性采样集合；

S5、设计匹配策略；

S6、根据匹配策略，将测试图像所对应的增强版峰值响应图与似物性采样集合进行匹配，得到测试图像最终的实例分割结果；

实现峰值响应生成器由常规分类神经网络改进而来，其网络结构包括依次连接的三个步长为1的卷积块、三个步长为2的卷积块、8个残差层、以及两个反卷积块和模拟峰值层；

步长为2的卷积块包括依次连接的步长为2的二维卷积层和ReLU激活层，步长为2的二维卷积层用于下采样，去除冗余的空间信息；

其模拟过程的数学表达式如下：

实现峰值响应生成器的设计过程为：

选取一个预训练好的分类网络，该分类网络可输出图像的分类信息，设计一个连接分类网络的模拟峰值层，然后设定整个网络的初始学习率和衰减率，将训练图像作为输入，利用训练图像对实现峰值响应生成器进行迭代训练，迭代完成后再固定生成器的参数；在这个训练过程中还使用Adam优化器来优化网络的权重；

在步骤S3中，实现峰值响应增强网络作为一个迭代优化网络，用于将不完备的峰值响应图和相应的输入图像沿着通道方向进行拼接得到的张量作为输入，并利用其VGG-16基础网络架构作为特征提取器来进行分层的多层次特征表示，神经网络的较深层包含更多的高级上下文，而较浅的层则包含大量精细的细节，层越靠近输入即层次越浅，层越靠近输出即层次越深；

特征重构模块用于将上下文驱动的融合模块和细节驱动的融合模块这两条并行路径的最后聚合特征作为输入，并利用连续的上采样操作输出与原始峰值响应图分辨率一致的增强的峰值响应图；

在步骤S5中，为了实现实例分割，设计一种可以平衡多尺度的实例匹配策略，以挑选出最佳的似物性采样，匹配策略具体如下：

2.根据权利要求1所述的基于峰值响应增强的实例分割算法，其特征在于，步骤S2中，基于输入的图像和实现峰值响应生成器，获得对应的不完备的峰值响应图的过程如下：

3.根据权利要求1所述的基于峰值响应增强的实例分割算法，其特征在于，增强版峰值响应图的获取过程如下：

4.根据权利要求3所述的基于峰值响应增强的实例分割算法，其特征在于，训练实现峰值响应增强网络的策略有两种，第一种策略是利用自有的似物性采样算法生成的采样结果来监督网络训练，具体如下：

第二种策略是通过引入额外的显著性实例标注数据集来训练增强网络，该显著性实例标注数据集由N3张带有像素级实例注释的训练图像组成，具体如下：

5.根据权利要求1所述的基于峰值响应增强的实例分割算法，其特征在于，在步骤S4中，对输入图像进行似物性采样，得到似物性采样集合的过程如下：

6.根据权利要求1所述的基于峰值响应增强的实例分割算法，其特征在于，步骤S6中，匹配过程具体为：

7.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1～6中任一项所述的基于峰值响应增强的实例分割算法。