CN115375901A

CN115375901A - 图像目标检测和实例分割方法、系统、计算设备及介质

Info

Publication number: CN115375901A
Application number: CN202211114552.6A
Authority: CN
Inventors: 胡坚明; 石运达; 李力; 裴欣; 张毅
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-11-22

Abstract

本发明涉及一种图像目标检测和实例分割方法、系统、计算设备及介质，其包括：将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取，得到不同深度下的多尺度的特征图；将多尺度的特征图输入颈部网络，进行递归特征金字塔的递归融合，得到新的特征图，并进行候选区域的生成，得到感兴趣区域；将感兴趣区域输入头部网络，进行实例类别、类别置信度、实例边界框和实例掩膜的预测。本发明能有效提升性能及有效性，并在更广泛的领域上获得潜在应用价值。本发明可以在图像数据处理领域中应用。

Description

图像目标检测和实例分割方法、系统、计算设备及介质

技术领域

本发明涉及一种图像数据处理领域，特别是关于一种基于递归特征金字塔和可切换空洞卷积的图像目标检测和实例分割方法、系统、计算设备及介质。

背景技术

实例分割是计算机视觉领域的一项重要任务。与语义分割相比，实例分割是一种更具体化的分割类型，实例分割更加注重对每个实例的单独分割。如今，随着越来越多的研究投入，实例分割已经成为计算机视觉领域的一个重要分支。实例分割的众多算法可以按照技术路线分为两类，单阶段法和双阶段法。双阶段法中，第一阶段通过一个可训练的候选框生成器生成候选框，第二阶段对候选框进行检测和分割操作。单阶段法则是一体化的流程。这种结构特性使得单阶段方法会更快，而双阶段方法会更准确。根据深度学习的特点，低层特征的定位精度较高，但语义信息较少，而高层特征的定位精度较低。因此，将低层和高层特征图进行融合以提高信息利用率具有重要意义。长期以来，多尺度问题一直是目标检测和实例分割的难点之一，直到特征金字塔网络(Feature Pyramid Network,FPN)被提出来解决这个问题。在FPN之前，已经提出了特征化图像金字塔、单一特征映射和金字塔特征层次，试图以不同的方式从不同层面使用特征映射。FPN引入了一个自上而下的连接，从最高级别的特征到最低级别的特征，并在每个级别上执行预测，同时使用高级别特征的高语义信息和低级别特征的高分辨率位置。

实例分割作为计算机视觉中一项重要而富有挑战性的任务，已经引起了人们的广泛关注，并得到了持续算法的推动。有的提出了不同于现有算法的独特结构，有的对现有算法的模块进行了改进。对于第二种情况，为了证明其有效性和更好的性能，在提出最新的算法时，这些从现有模块修改的机制总是应用于最新的算法。故，如何将DetectoRS机制添加到Mask RCNN模型中，使经典模型Mask RCNN在目标检测和实例分割领域获得性能的提升为目前亟需解决的技术问题。

发明内容

针对上述问题，本发明的目的是提供一种图像目标检测和实例分割方法、系统、计算设备及介质，其能有效提升性能及有效性，并在更广泛的领域上获得潜在应用价值。

为实现上述目的，本发明采取以下技术方案：一种图像目标检测和实例分割方法，其包括：将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取，得到不同深度下的多尺度的特征图；将多尺度的特征图输入颈部网络，进行递归特征金字塔的递归融合，得到新的特征图，并进行候选区域的生成，得到感兴趣区域；将感兴趣区域输入头部网络，进行实例类别、类别置信度、实例边界框和实例掩膜的预测。

进一步，所述递归特征金字塔的递归融合，包括：

最高层特征不变，其他每层特征都是由当前层的输入和其更高一层的输入通过插值尺寸缩放及对应位置相加方式进行融合，得到自上而下的特征融合的结果；

将自上而下融合后的特征再次进行自下而上的特征提取，得到特征再提取的特征图；

将特征再提取的特征图再次进行自上而下的特征融合，得到经过进一步特征提取和融合的新的特征图。

进一步，所述进行候选区域的生成，包括：

以新的特征图为输入，在不同阶段特征图的不同位置生成不同大小和不同尺寸的锚框；提取特征，对每个锚框进行前景背景分类并计算类别置信度，根据置信度阈值筛选掉非前景锚框，对保留下来的前景锚框进行目标类别预测和边界框预测，得到锚框的目标类别信息以及边界框位置信息。

进一步，所述感兴趣区域的获取，包括：

采用感兴趣区域对齐策略ROIAlign将候选区域对齐到新的特征图上，减小量化误差，得到感兴趣区域。

进一步，所述头部网络包括目标检测分支和掩膜预测分支；

目标检测分支对新的特征图进行实例类别以及实例边界框的预测；

掩膜分支对新的特征图进行实例掩膜的精细预测。

进一步，在进行所述实例类别和实例掩膜的预测中采用的损失函数为CrossEntropy Loss；在进行实例边界框的预测中采用的损失函数为L1 Loss。

进一步，在所述将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取之前，还包括：加载网络预训练权重参数的步骤。

一种图像目标检测和实例分割系统，其包括：第一处理模块，将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取，得到不同深度下的多尺度的特征图；第二处理模块，将多尺度的特征图输入颈部网络，进行递归特征金字塔的递归融合，得到新的特征图，并进行候选区域的生成，得到感兴趣区域；预测模块，将感兴趣区域输入头部网络，进行实例类别、类别置信度、实例边界框和实例掩膜的预测。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明的基本框架采用了应用相当广泛的Mask RCNN架构，基础结构清晰简洁，并且在引入新的结构之后具有更多的潜在应用价值。

2、本发明将DetectoRS机制添加到Mask RCNN模型中，引入的是目前实例分割领域效果相当好并且非常新颖的模块，一方面提升了经典网络的性能，另一方面使得经典算法在当前仍具备相应的竞争力。

附图说明

图1是本发明一实施例中图像目标检测和实例分割方法整体流程示意图；

图2是本发明一实施例中图像目标检测和实例分割方法详细流程图；

图3是本发明一实施例中RSMask RCNN的深度学习部分取得的收敛效果图；

图4是本发明一实施例中总损失收敛效果图；

图5是本发明一实施例中经过进一步特征提取和融合的新的特征图；

图6是本发明一实施例中锚框的目标类别以及边界框位置信息图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

由于实例分割作为计算机视觉中一项重要而富有挑战性的任务，已经引起了人们的广泛关注，并得到了持续算法的推动。有的提出了不同于现有算法的独特结构，有的对现有算法的模块进行了改进。对于第二种情况，为了证明其有效性和更好的性能，在提出最新的算法时，这些从现有模块修改的机制总是应用于最新的算法。故，如何将DetectoRS机制添加到Mask RCNN模型中，使经典模型Mask RCNN在目标检测和实例分割领域获得性能的提升为目前亟需解决的技术问题。

根据上述技术问题，本发明致力于将高效检测组件引入深度学习经典算法以获得性能提升，并在更广泛的领域上获得潜在应用价值。以目标检测和实例分割领域的MaskRCNN为模型基础框架，将检测分割方法定义为分类任务、回归任务和掩膜预测三个部分。模型的宏观结构可以分为骨干网络、颈部网络和头部网络三个部分，在颈部网络上，本发明在Mask RCNN的结构上引入递归特征金字塔；模型的微观操作主要涉及到图像卷机操作、池化操作、归一化操作和感兴趣区域对准操作等，本发明在卷积操作上以可切换空洞卷机代替原有卷积；本发明的损失函数分为两个部分，在实例类别和掩膜预测上采用Cross EntropyLoss，在实例边界框预测上采用L1 Loss。下面通过实施例对本发明进行详细的介绍。

在本发明的一个实施例中，提供一种图像目标检测和实例分割方法。本实施例中，如图1、图2所示，该方法包括以下步骤：

1)将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取，得到不同深度下的多尺度的特征图；

2)将多尺度的特征图输入颈部网络，进行递归特征金字塔的递归融合，得到新的特征图，并进行候选区域的生成，得到感兴趣区域；

3)将感兴趣区域输入头部网络，进行实例类别、类别置信度、实例边界框和实例掩膜的预测。

上述步骤1)中，在本实施例中，将图像以批次的形式输入到包含可切换空洞卷积的骨干残差网络中，通过深层网络的运算充分进行深层次的特征提取，通过对深层骨干网络的不同阶段提取特征图得到不同深度下的多尺度的特征图。

上述步骤2)中，多尺度的特征图通过递归特征金字塔的递归融合，进一步加强高低阶特征融合和特征再提取，得到信息更加丰富的新的多尺度的特征图。其中，递归特征金字塔的递归融合，包括以下步骤：

2.1)最高层特征不变，其他每层特征都是由当前层的输入和其更高一层的输入通过插值尺寸缩放及对应位置相加方式进行融合，得到自上而下的特征融合的结果；

2.2)将自上而下融合后的特征再次进行自下而上的特征提取，得到特征再提取的特征图；

2.3)将特征再提取的特征图再次进行自上而下的特征融合，得到经过进一步特征提取和融合的新的特征图。

上述步骤2)中，进行候选区域的生成，具体为：

在本实施例中，采用区域建议网络RPN(Region Proposal Network)进行建议候选区域的生成，根据不同阶段的特征图进行特征选择并调整RPN参数，输出感兴趣区域ROIs。

上述步骤2)中，感兴趣区域ROIs的获取，具体为：采用感兴趣区域对齐策略ROIAlign将候选区域对齐到新的特征图上，减小量化误差，得到感兴趣区域ROIs。

上述步骤3)中，头部网络包括目标检测分支和掩膜预测分支。其中：

目标检测分支，用于对新的特征图进行实例类别以及实例边界框的预测；

掩膜分支，用于对新的特征图进行实例掩膜的精细预测。

在本实施例中，进行实例类别和实例掩膜的预测中采用的损失函数为CrossEntropy Loss；在进行实例边界框的预测中采用的损失函数为L1 Loss。采用随机梯度下降法对网络参数进行学习和更新，返回步骤1)，直到网络达到预先设定的收敛条件。

上述实施例中，在步骤1)将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取之前，还包括：加载网络预训练权重参数的步骤。从预训练模型权重文件中加载模型权重θ，对于预训练权重中未包含的参数采用随机初始化处理。

将本发明的方法与现有模型Mask RCNN进行比较，通过在主要数据集上的对比实验来表明本发明的效果提升作用。

1、首先，本发明的RSMask RCNN的深度学习部分取得了很好的收敛效果：本发明的分类损失、回归损失和掩膜损失三项损失收敛效果显著，如图3所示。

2、由上述分类损失、回归损失和掩膜损失三项损失构成的总损失收敛效果显著，如图4所示。

3、在同样的实验条件下进行算法性能的比较以最大限度的保证结果呈现的公平性。在实例分割领域非常重要的COCO数据集上进行模型效果的测试。新老模型都加载同一个Mask RCNN的权重以保证公平，再在数据集上进行同样轮次的微调。在COCO验证集上，Mask RCNN和RSMask RCNN的模型对比效果如表1所示。

表1实验效果对比

实施例：本发明的基于递归特征金字塔和可切换空洞卷积的目标检测和实例分割方法，包括以下步骤：

1)以典型的RGB三通道图像为对象，将其作为算法网络的输入，加载网络预训练权重参数。

2)将图像输入到包含可切换空洞卷积的骨干残差网络中进行多阶段特征提取，在每一阶段提取出不同级别的图像信息。

骨干网络包含四个阶段，取每一阶段输出的特征图，得到四个尺寸不同、阶数不同的特征图，作为下一步颈部网络的输入。特征图可以表示为x_{i,i＝1,2,3,4},以i表示特征图所属阶段，更大的i值意味着特征图是由更深的阶段产生的。

3)以提取的四阶段特征图为输入，递归特征金字塔首先进行自上而下的特征融合：

最高层即x₄不变，其他每层特征都是由当前层的输入x_i和其更高一层的输入x_i+1通过插值尺寸缩放及对应位置相加方式进行融合，以

表示这种融合关系，可以得到自上而下的特征融合的结果：

之后将自上而下融合后的特征x_i返回到在此之前的自下而上的特征提取模块，再次进行特征提取，以B(x)表示这种特征提取操作，于是经过特征再提取的特征图x_i可以表示为：

x_i＝B(x_i) (2)

将经过了特征再提取的特征图再次输入到自上而下的特征融合模块进行融合，得到经过进一步特征提取和融合的新的特征图，如图5所示，其中实线箭头表示特征提取过程，虚线表示特征金字塔网络结构，点划线表示递归神经网络中的回传递归连接。

4)对上述各阶段特征图进行候选区域的生成：

由候选区域生成网络生成候选区域，候选区域生成网络以特征图为输入，在不同阶段特征图的不同位置生成不同大小和不同尺寸的锚框，以卷积、激活、池化等操作提取特征，对每个锚框进行前景背景分类并计算类别置信度，根据置信度阈值筛选掉非前景锚框，对保留下来的前景锚框进行目标类别预测和边界框预测，得到锚框的目标类别信息以及边界框位置信息，如图6所示。

5)RPN网络生成的边界框位置一般为浮点型数值，存在着小数，于是在将RPN的区域建议对应到特征图上时会存在量化误差。采用ROIAlign将候选框对齐到特征图上以减小这种量化误差，得到感兴趣区域ROIs。

6)将得到的感兴趣区域ROIs分别送入目标检测分支和掩膜预测分支。目标检测分支将对特征图进行实例类别、类别置信度以及实例边界框的预测，而掩膜分支将进行实例掩膜的精细预测。

在本发明的一个实施例中，提供一种图像目标检测和实例分割系统，其包括：

第一处理模块，将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取，得到不同深度下的多尺度的特征图；

第二处理模块，将多尺度的特征图输入颈部网络，进行递归特征金字塔的递归融合，得到新的特征图，并进行候选区域的生成，得到感兴趣区域；

预测模块，将感兴趣区域输入头部网络，进行实例类别、类别置信度、实例边界框和实例掩膜的预测。

上述第二处理模块中，递归特征金字塔的递归融合，包括：

上述第二处理模块中，进行候选区域的生成，具体为：

上述第二处理模块中，感兴趣区域ROIs的获取，具体为：采用感兴趣区域对齐策略ROIAlign将候选区域对齐到新的特征图上，减小量化误差，得到感兴趣区域ROIs。

上述预测模块中，头部网络包括目标检测分支和掩膜预测分支。其中：

掩膜分支，用于对新的特征图进行实例掩膜的精细预测。

在本实施例中，进行实例类别和实例掩膜的预测中采用的损失函数为CrossEntropy Loss；在进行实例边界框的预测中采用的损失函数为L1 Loss。

上述实施例中，在步骤1)将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取之前，还包括：加载网络预训练权重参数的步骤。

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

在本发明一实施例中提供的计算设备结构，该计算设备可以是终端，其可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时以实现一种图像目标检测和实例分割方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏，该输入装置可以是显示屏上覆盖的触摸层，也可以是计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令，以执行如下方法：将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取，得到不同深度下的多尺度的特征图；将多尺度的特征图输入颈部网络，进行递归特征金字塔的递归融合，得到新的特征图，并进行候选区域的生成，得到感兴趣区域；将感兴趣区域输入头部网络，进行实例类别、类别置信度、实例边界框和实例掩膜的预测。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以理解，上述计算设备的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的计算设备的限定，具体的计算设备可以包括更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取，得到不同深度下的多尺度的特征图；将多尺度的特征图输入颈部网络，进行递归特征金字塔的递归融合，得到新的特征图，并进行候选区域的生成，得到感兴趣区域；将感兴趣区域输入头部网络，进行实例类别、类别置信度、实例边界框和实例掩膜的预测。

在本发明的一个实施例中，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取，得到不同深度下的多尺度的特征图；将多尺度的特征图输入颈部网络，进行递归特征金字塔的递归融合，得到新的特征图，并进行候选区域的生成，得到感兴趣区域；将感兴趣区域输入头部网络，进行实例类别、类别置信度、实例边界框和实例掩膜的预测。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像目标检测和实例分割方法，其特征在于，包括：

将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取，得到不同深度下的多尺度的特征图；

将多尺度的特征图输入颈部网络，进行递归特征金字塔的递归融合，得到新的特征图，并进行候选区域的生成，得到感兴趣区域；

将感兴趣区域输入头部网络，进行实例类别、类别置信度、实例边界框和实例掩膜的预测。

2.如权利要求1所述图像目标检测和实例分割方法，其特征在于，所述递归特征金字塔的递归融合，包括：

3.如权利要求1所述图像目标检测和实例分割方法，其特征在于，所述进行候选区域的生成，包括：

4.如权利要求1所述图像目标检测和实例分割方法，其特征在于，所述感兴趣区域的获取，包括：

5.如权利要求1所述图像目标检测和实例分割方法，其特征在于，所述头部网络包括目标检测分支和掩膜预测分支；

掩膜分支对新的特征图进行实例掩膜的精细预测。

6.如权利要求5所述图像目标检测和实例分割方法，其特征在于，在进行所述实例类别和实例掩膜的预测中采用的损失函数为Cross Entropy Loss；在进行实例边界框的预测中采用的损失函数为L1 Loss。

7.如权利要求1所述图像目标检测和实例分割方法，其特征在于，在所述将图像输入包含可切换空洞卷积的骨干残差网络中进行不同阶段特征提取之前，还包括：加载网络预训练权重参数的步骤。

8.一种图像目标检测和实例分割系统，其特征在于，包括：

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至7所述方法中的任一方法。

10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。