CN113486956B

CN113486956B - 目标分割系统及其训练方法、目标分割方法及设备

Info

Publication number: CN113486956B
Application number: CN202110767088.XA
Authority: CN
Inventors: 张凯; 王任; 丁冬睿; 杨光远
Original assignee: Shandong Liju Robot Technology Co ltd
Current assignee: Shandong Liju Robot Technology Co ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2022-03-25
Anticipated expiration: 2041-07-07
Also published as: CN113486956A

Abstract

本发明公开了一种目标分割系统及其训练方法、目标分割方法及设备。该系统包括：语义感知网络，采用全卷积网络形式，包括卷积模块、池化模块和正则化模块，语义感知网络设置为提取图像的语义特征图；纹理感知网络，采用无池化的网络形式，包括串行排列的空洞卷积层、特征收缩层、特征扩展层和第一卷积层，纹理感知网络设置为提取图像的纹理特征图；特征融合层，设置为对所述语义特征图和所述纹理特征图进行拼接和融合，得到所述图像的目标分割图。本发明提出了一种双分支多尺度特征融合模型，提高了自然图像中多尺度目标分割的准确性和鲁棒性。

Description

目标分割系统及其训练方法、目标分割方法及设备

技术领域

本发明实施例涉及计算机视觉领域，尤其涉及一种目标分割系统及其训练方法、目标分割方法及设备。

背景技术

图像分割是计算机视觉领域的经典问题，是为完成场景理解的重要途径之一。越来越多的应用和场景从图像中获取知识，如自动驾驶，人机交互，智能机器人，和增强现实等，这凸显了图像分割作为计算机视觉的核心问题的重要性。图像分割可以定义为一种特定的图像处理技术，用于将图像分为两个或多个有意义的区域。图像分割也可以看作是定义图像中各个语义实体之间边界的过程。从技术角度来看，图像分割是为图像中的每个像素分配标签的过程，以使属于同一类别的像素属于图像中的唯一语义实体。目标分割是图像分割中的重要分支，旨在通过算法实现图像中前景目标像素级的标签预测，为自动驾驶、机器人的自动避障提供了切实可用的方案。

尽管目标分割在深度框架的推动下有了实质性的进展，但多尺度的目标检测和分割始终是一个亟待解决的问题。复杂背景下的小尺寸物体与超大尺度物体都会严重影响分割算法的性能。现有的分割模型多基于全卷积神经网络，卷积结构能够一定程度上保留特征图的空间信息。但当前深度学习中追求的网络深度会使这种结构忽视浅层的纹理信息，必然造成网络对多尺寸目标缺乏感知能力。

发明内容

本发明提供一种一种目标分割系统及其训练方法、目标分割方法及设备，以解决现有技术中存在的上述问题。

第一方面，本发明实施例提供了一种目标分割系统，该系统包括：

语义感知网络，采用全卷积网络形式，包括卷积模块、池化模块和正则化模块，所述语义感知网络设置为获取图像的第一预处理数据，基于所述第一预处理数据提取所述图像的语义特征图；

纹理感知网络，采用无池化的网络形式，包括串行排列的空洞卷积层、特征收缩层、特征扩展层和第一卷积层，所述纹理感知网络设置为获取所述图像的第二预处理数据，基于所述第二预处理数据提取所述图像的纹理特征图；

特征融合层，与所述语义感知网络和所述纹理感知网络连接，设置为对所述语义特征图和所述纹理特征图进行拼接和融合，得到所述图像的目标分割图。

在一实施例中，所述语义感知网络包括串行排列的VGGNet骨干网络和上采样层，其中，

所述VGGNet骨干网络包括多个串行排列的卷积模块，每个卷积模块包含串行排列的VGG卷积层、最大池化层、批正则化层和非线性层，所述VGGNet骨干网络设置为基于所述第一预处理数据，提取所述图像的高级语义特征，得到第一特征图；

所述上采样层设置为对所述第一特征图进行尺度放大，得到所述语义特征图，其中，所述语义特征图与所述图像尺度相同。

在一实施例中，在所述纹理感知网络中，

所述空洞卷积层的数量为多个且串行排列，所述多个空洞卷积层设置为对所述第二预处理数据进行空洞卷积操作，提取所述图像的浅层纹理特征，得到第二特征图；

所述特征收缩层包括第二卷积层，设置为所述第二特征图进行通道维度的升维卷积操作，实现所述第二特征图在通道级别的降维；

所述特征扩展层包括第三卷积层，设置为对所述降维后的第二特征图进行通道维度的降维卷积操作，实现降维后的第二特征图在通道级别的升维；

所述第一卷积层设置为对扩展后的第二特征图进行卷积操作，以继续提取所述图像的纹理特征，得到所述纹理特征图。

在一实施例中，所述特征融合层包括串行排列的拼接模块和第四卷积层，其中，

所述拼接模块与所述语义感知网络和所述纹理感知网络连接，设置为在通道维度拼接所述语义特征图和所述纹理特征图，使所述语义特征图和所述纹理特征图在每个通道维度逐像素对齐；

所述第四卷积层设置为利用1×1的卷积完成在每个像素上的特征融合，得到所述目标分割图。

在一实施例中，所述语义感知网络采用ResNet网络形式或WRN网络形式，包括卷积模块、池化模块、正则化模块和随机连接删除模块。

第二方面，本发明实施例还提供了一种目标分割系统的训练方法。该方法包括：

S10、获取训练图像集，其中，所述训练图像集中包括多个训练图像；对每个训练图像进行像素级的手工分割标注，得到所述每个训练图像的标注图；

S20、对每个训练图像进行原始尺度数据增强，得到所述每个训练图像的第一预处理数据；对所述第一预处理数据进行多尺度数据增强，得到所述每个训练图像的第二预处理数据；其中，所述原始尺度数据增强包括翻转、旋转、颜色抖动增强中的至少一种，所述多尺度的处理策略包括中心裁剪、随机裁剪、均匀裁剪、缩放和高斯金字塔中的至少一种；

S30：依次将每个训练图像输入上述任一实施例所述的目标分割系统，以对所述目标分割系统的参数进行迭代优化，其中，每个训练图像的第一预处理数据输入所述语义感知网络，所述每个训练图像的第二预处理数据输入所述纹理感知网络；

S40：基于所述纹理感知网络的输出，构建辅助损失函数；基于所述特征融合层的输出，构建主损失函数；以所述主损失函数和所述辅助损失函数的组合为总损失函数，以每个训练图像的标注图为标注信息迭代更新所述目标分割系统的网络参数。

在一实施例中，S20还包括：

将每个训练图像的标注图进行与所述每个训练图像相同的多尺度数据增强，得到所述每个训练图像的多尺度标注图。

在一实施例中，S40中，所述以所述主损失函数和所述辅助损失函数的组合为总损失函数，以每个训练图像的标注图为标注信息迭代更新所述目标分割系统的网络参数，包括：

S41：将所述纹理感知网络输出的每个训练图像的纹理特征图代入所述辅助损失函数，计算辅助损失；将所述特征融合层输出的所述每个训练图像的目标分割图代入所述主损失函数，计算主损失；其中，所述辅助损失函数和所述主损失函数层均包括softmax函数和交叉熵损失函数，所述softmax函数为：

其中，z_i表示目标分割中第i种分割结果对应的输出，C表示分割结果的种类数；

所述交叉熵损失函数为：

其中，y表示预测的分割结果，y′表示真实的分割结果；

S42：根据公式(3)计算总损失：

其中，

表示所述主损失函数，

表示所述辅助损失函数，y_s′表示每个训练图像的标注图，y_t′表示所述每个训练图像的多尺度标注图。

S43：以所述总损失为优化目标，迭代更新所述目标分割系统的网络参数。

第三方面，本发明实施例还提供了一种目标分割方法，包括：

S1：获取待分割图像；

S2：将所述待分割图像作为第一预处理数据，输入训练好的上述任意实施例所述的目标分割系统的语义感知网络；

S3：将所述待分割图像作为第二预处理数据，输入所述目标分割系统的纹理感知网络；

S4：利用所述目标分割系统对所述待分割图像进行目标分割，得到所述待分割图像的目标分割图。

第四方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例所述的目标分割系统的训练方法，或实现所述实施例所述的目标分割方法。

本发明提出了一种双分支网络框架，能够充分挖掘、融合图像内的多尺度特征，实现对于不同尺寸目标的准确分割，本发明具有如下有益效果。

1.将手工设计多尺度特征的策略(如高斯金字塔)作为数据增强的方式之一融入到深度网络模型，帮助模型在尺度空间中学习。

2.以双分支并行的形式融合了串行结构和并行结构，以串行结构获取的语义特征作为引导，并行结构获取的细节纹理作为补充进行目标分割，既不会由于缺乏语义信息导致精度降低，也不会由于缺乏浅层信息忽略小尺寸缺陷。

3.采用多损失函数融合的方式训练网络，设计辅助损失函数帮助纹理感知子网络更好地学习细节信息。

4.网络以端到端的形式训练，可以直接获得最终的分割结果；两个分支以并行的方式同时训练，在准确分割的同时不会显著增加运行时间。

5.对于极小尺寸与超大尺度的目标的分割能够取得更准确的结果。

附图说明

图1是本发明实施例提供的一种目标分割系统的结构示意图。

图2是本发明实施例提供的另一种目标分割系统的结构示意图。

图3是本发明实施例提供的纹理感知网络中空洞卷积层的结构示意图。

图4A是本发明实施例提供的语义感知网络中池化结构的进行的图象处理的示意图。

图4B是本发明实施例提供的纹理感知网络中特征收缩模块和特征扩展模块进行的图像处理的示意图。

图5是本发明实施例提供的一种目标分割系统的训练方法的流程图。

图6是本发明实施例提供的另一种目标分割系统的训练方法的流程图。

图7是本发明实施例提供的一种目标分割方法的流程图。

图8为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在多尺度目标分割中，复杂背景下的小尺寸物体与超大尺度物体都会严重影响分割算法的性能。现有的分割模型多基于全卷积神经网络，卷积结构能够一定程度上保留特征图的空间信息。但当前深度学习中追求的网络深度会使这种结构忽视浅层的纹理信息，必然造成网络对多尺寸目标缺乏感知能力。因此，如何挖掘并融合图像中不同尺度的特征是解决多尺度目标分割的关键。

按照网络中多尺度特征的捕捉方式，可以将网络结构分为串行结构和并行结构。串行结构依赖于天然的网络深度，认为网络浅层中包含更多的纹理细节信息，而随着层数的加深，网络学习到更多的高级语义特征。最后将不同抽象层级的特征进行融合，这对于边界敏感的图像分割任务是不可缺少的。然而串行结构的损失函数通常要求其预测结果以语义为主，因此随着网络的训练，细节信息甚至小尺寸目标会不可避免地被当成噪声过滤掉。并行多分支结构中设计了多个并行结构，每个结构负责获取不同尺度的信息。这种并行分支可以存在于网络的每个基本模块，也可以存在于整个网络模型中。同一层级的并行分支获取不同感受野的特征，经过融合后传递到下一层，可以更加灵活地平衡计算量和模型能力。但在浅层融合的过程缺乏高级语义信息的引导，会影响分割精准度。因此，如何借助这些多尺度特征融合方式的优势，提高多尺度目标的分割性能，是解决多尺度目标分割的关键。

实施例一

本实施例提出一种目标分割系统。该系统提出了双分支多尺度特征融合模型，适用于图像中目标尺度不均匀的情况，提高了自然图像中多尺度目标分割的准确性和鲁棒性。图1是本发明实施例提供的一种目标分割系统的结构示意图。如图1所示，该系统包括：语义感知网络110、纹理感知网络120和特征融合层130。

语义感知网络110采用全卷积网络形式，包括卷积模块、池化模块和正则化模块，所述语义感知网络设置为获取图像的第一预处理数据，基于所述第一预处理数据提取所述图像的语义特征图。

纹理感知网络120采用无池化的网络形式，包括串行排列的空洞卷积层、特征收缩层、特征扩展层和第一卷积层，所述纹理感知网络设置为获取所述图像的第二预处理数据，基于所述第二预处理数据提取所述图像的纹理特征图。

特征融合层130与所述语义感知网络和所述纹理感知网络连接，设置为对所述语义特征图和所述纹理特征图进行拼接和融合，得到所述图像的目标分割图。

在一实施例中，所述语义感知网络110包括串行排列的VGGNet骨干网络和上采样层。

所述VGGNet骨干网络包括多个串行排列的卷积模块，每个卷积模块包含串行排列的VGG卷积层、最大池化层、批正则化层和非线性层，所述VGGNet骨干网络设置为基于所述第一预处理数据，提取所述图像的高级语义特征，得到第一特征图。

图2是本发明实施例提供的另一种目标分割系统的结构示意图。在图2中，包括左边和两边两路并行的分支，以及特征融合层。右边的分支为语义感知网络，左边的分支为纹理感知网络。

如图2所示，VGGNet由五个串行排列的卷积模块堆叠而成。每个卷积模块包含核尺寸为3×3、步长为1的卷积层，步长为2的最大池化层，批正则化层和非线性层的串行排列。由于最大池化层的存在，输入图像经过每个卷积模块时空间尺度缩小为原来的1/2。因此经过标准的VGG16结构后，输出特征图尺寸缩小为输入图像尺寸的1/32。

VGGNet中多的正则化层和激活层都是为了调整和纠正卷积层得到的特征。特征在经过卷积层后分布会发生变化，因此在每次卷积之后通过正则化层调整特征的分布。同时，卷积操作本质上是一种线性变换，无法拟合复杂的非线性情况，因此用激活层对卷积特征做非线性映射，使“输入->输出”的过程由线性变换变成非线性变换。

可选地，上采样层可以为双线性差值层，将VGGNet得到的第一特征图经过双线性插值层，进一步放大到与真实标注图像相同的尺寸，将得到的结果作为语义特征图，以得到逐像素的预测结果。

在一实施例中，所述语义感知网络还可以采用ResNet网络形式或WRN网络形式，包括卷积模块、池化模块、正则化模块和随机连接删除模块。

在一实施例中，所述纹理感知网络包括串行排列的空洞卷积层、特征收缩层、特征扩展层和第一卷积层。

所述空洞卷积层的数量为多个且串行排列，所述多个空洞卷积层设置为对所述第二预处理数据进行空洞卷积操作，提取所述图像的浅层纹理特征，得到第二特征图。

所述特征收缩层包括第二卷积层，设置为对所述第二特征图进行通道维度的升维卷积操作，实现所述第二特征图在通道级别的降维。

所述特征扩展层包括第三卷积层，设置为对所述降维后的第二特征图进行通道维度的降维卷积操作，实现降维后的第二特征图在通道级别的升维。

需要说明的是，“通道维度的卷积操作”可以从特征图长宽高的角度理解。例如，将特征图是为立方体，立方体的长为通道维度，剩下两个维度为高和宽，那么这个卷积是在特征图的高和长组成的平面内进行的卷积，而传统的卷积是在特征图的宽和高的平面内进行的卷积。

另外，降维和升维的实现是通过通道数来反映的。例如，初始特征图的通道数为256，经过核尺寸为1×1，通道数为32的卷积核时，输出的特征图的通道数只有32，包含的信息减少，可以认为是对特征的降维。同理，通道数为256的特征图，经过核尺寸为1×1，通道数为1024的卷积核时，输出的特征图的通道数为1024，包含的信息增多，可以认为是对特征的升维。

在图2中，所述纹理感知网络以空洞卷积层为主要结构构成，其最大的特点是不包含任何形式的池化层。输入纹理感知网络的图像数据首先经过两个核尺寸为3×3、步长为1、膨胀率为(1，2，4)的空洞卷积层，两个多尺度空洞卷积层可以帮助获取多尺度特征。之后通过由核尺寸为1×1的卷积构成的特征收缩层，实现通道级别的降维，既能模拟池化层下采样加速网络训练，又能完全保留图像的空间特征。进一步地，由核尺寸为3×3、步长为1且通道数翻倍的卷积层作为特征扩展模块，将收缩后的特征重新映射到高维空间，保持特征表示的多样性。最后，再使用卷积层充分挖掘局部细节纹理特征间的联系，得到纹理特征图。

图3是本发明实施例提供的纹理感知网络中空洞卷积层的结构示意图。如图3所示，用方格表示像素点，图中左右两幅示例图像的尺寸分别是15×15。用圆点表示卷积核操作时对应输入的像素点，显然图中两幅示例图像的卷积核尺寸均为3×3。不同的是，左图中的原点之间的距离是1(即原点对应相邻的像素位置)，代表了正常卷积3×3的感受野大小。而右图中的原色点间的距离是2(即原点对应位置间隔一个像素)，代表了膨胀率为2的空洞卷积7×7的感受野。本方案中还使用了膨胀率为4，15×15感受野的空洞卷积结构。这些多尺度的空洞卷积结构可以帮助获取图像的多尺度特征。

另外，还需要说明的是，纹理感知网络得到的纹理特征图是多通道的，每个通道的二维纹理特征图中都包含相对独立的多尺度特征。多个通道的二维纹理特征图之间的差别是提取这些特征的角度不同。例如，二维纹理特征图1可能包含了多尺度的形状特征，而二维纹理特征图2可能包含了多尺度的颜色特征等等。纹理特征图是的通道数由卷积层的通道数决定的是网络的超参数。在图2的实施例中，纹理特征图和语义特征图的通道数均为256，拼接后的特征图的通道数是512。

每个二维特征图间的尺度可能是相同的也可能是不同的，这由网络学习而来的。

纹理感知网络采用了无池化的网络形式，通过特征收缩层和特征扩展层实现通道级别的降维和升维，同时完全保留了图像的空间特征。为了更清楚地说明纹理感知网络的优势，下面将对纹理感知网络中的特征收缩模块和特征扩展模块的图像处理过程，与语义感知网络中的池化结构的图像处理过程进行对比。图4A是本发明实施例提供的语义感知网络中池化结构进行的图像处理的示意图。图4B是本发明实施例提供的纹理感知网络中特征收缩模块和特征扩展模块进行的图像处理的示意图。

图4A中，从左到右依次是池化层处理之前的特征图，经过池化层之后的特征图和经过上采样后的特征图。可以看出，特征图在经过池化层后空间分辨率明显减小(通道维度不变，即二维特征图的数量保持不变)，这在分类任务中有益于语义特征的获取，可以使分类结果更准确，但在分割任务中丢弃了大量的细节纹理。尽管上采样层通过插值技术将缩小的特征图重新放大，但在池化过程中丢失的细节并不会被重新补充，导致分割结果不准确。这也是本方案中纹理感知网络中的特征收缩层的主要设计动机。

在图4B中，从左到右依次是特征收缩层处理之前的特征图，经过特征收缩层处理之后的特征图和经过特征扩展层处理之后的特征图。与池化结构最大的区别是，特征图的空间分辨率在整个过程中没有发生变化，没有任何空间信息的损失。降维和升维的过程发生在通道层，与池化层一样，也实现了对冗余参数的筛选。但是空间信息的保持使细节信息得以完整保留，并在网络高层中与语义信息融合。

另外，还需要说明的是，第一卷积层和特征扩展模块中的第三卷积层尽管都是卷积的形式，但二者的作用是不同的。特征扩展模块目的是将收缩后的特征扩展到高维特征空间，其卷基层通道维数要高于前一层(即收缩模块)以实现“扩展”。而第一卷积层与前一层(即扩展模块)的通道数没有严格要求(本案例中使用相同的通道数)，其目的是加深网络层数，更充分的挖掘特征。

在本发明实施例中，纹理感知网络旨在尽可能地挖掘和保留图像中的纹理细节，整个结构的设计和处理策略都是以此为目的。首先，每层空洞卷积(又叫膨胀卷积)中可以使用不同的膨胀率帮助网络在同一网络层次中获得多层级特征。其次，经过前两层结构，网络中包含了丰富的多尺度细节纹理。为了保留特征的完整性，最好的方式是避免使用任何形式的池化(pooling)层，继续利用卷积或空洞卷积对特征进行挖掘直至结束。但由于pooling层的参数降维作用对于深层网络的训练时必要的，否则冗余的参数会导致训练困难和资源浪费。因此，本方案使用特征收缩模块从通道降维的角度代替pooling层，这对于网络中的特征来说，在降维的过程中其空间分辨率不会发生任何变化，完全避免了空间信息的丢失，以实现细节信息的保留。之后，特征扩展模块模拟了语义感知网络中的上采样层，将通道降维后的特征再次映射到高维空间以使特征拥有更丰富的表现形式。注意，与上采样层不同的是，这个过程中特征图的空间维度依然保持始终不变，这避免了人为噪声的引入。最后，卷积层是为了促进升维后的特征在高维空间中的进一步增强。

在一实施例中，所述特征融合层包括串行排列的拼接模块和第四卷积层。

所述拼接模块与所述语义感知网络和所述纹理感知网络连接，设置为在通道维度拼接所述语义特征图和所述纹理特征图，使所述语义特征图和所述纹理特征图在每个通道维度逐像素对齐。

特征融合层完成纹理特征图和语义特征图。融合的过程包括两部分：①是拼接，②是利用1×1的卷积融合。①拼接是由图2中的⊕符号表示，在图2中，网络的特征图由两个256被合并成了512。②融合是利用核尺寸为1×1，通道数为class的卷积实现的。具体来说，拼接后特征图包含了用于分割的所有信息，这个通道数为512的图会经过一个核尺寸1×1，通道数为类别数(class)的卷积层(1×1×class)。该卷积层的作用是将通道数为512的特征图变成通道数为“类别数”的特征图，其中每个通道特征图表示像素属于该类别的得分，通道数为“类别数”的特征图才是分割结果。例如：如果图中包含3个类，则分割结果这样得出：

1.通道数为512的特征图经过核尺寸为1×1，通道数为3的卷积核，得到了通道数为3的特征图。第一幅中包含的每个位置的像素值表示该像素位置属于类别1的概率；第二个特征图中的像素值表示该像素属于类别2的概率...以此类推。

2.经过训练后，原始图像中属于类别1的像素值应该在最后输出的特征图1中得分最大；属于类别2的像素位置应该在特征图2中的得分最大....。这样就实现了对图像中逐像素类别的预测，完成了分割。

由于语义特征和纹理特征的融合，使得每个像素点的预测类别中兼顾了语义信息和纹理信息，通常以语义信息作为引导，以纹理信息作为补充。具体来说，在对每个像素点的类别进行预测时，利用语义特征得到的准确率一般是要高于纹理特征的，因此二者结合更大的概率会以语义特征为“引导”。当纹理特征在某个点或某个区域内的判断置信度高于语义特征时，就会以纹理特征得到的结果为主，但这种情况发生的概率更小(例如某个小目标，在语义网络中由于池化层的存在会被忽略，而纹理网络则可以明确的感知其存在)，所以称纹理网络是“补充”。值得注意的是，在判断某一个点的类别时，都是由语义和纹理特征共同决定的。只是多数情况是语义特征占上风(引导)，而纹理特征在少数情况下会纠正语义得到的结果(补充)。

在本发明实施例中，提出了双分支多尺度特征融合模型，语义感知分支挖掘抽象的语义信息为逐像素类别预测提供方向，纹理感知分支则尽可能捕捉图像中的细节纹理信息以获得更为精确地分割结果。其中，浅层纹理特征由纹理感知子网络独立提取，并且根据辅助损失函数进行优化。具体来说，纹理感知网络中的多尺度数据增强和空洞卷积层是专门针对浅层纹理设计的，能够捕获不同尺度的纹理特征。与通过深度网络内部提取的浅层特征相比，一方面，本实施例中的浅层特征更加丰富，另一方面，深层网络内部的不同层次中提取多尺度特征，不可避免地会受到以获取语义信息为主的损失函数的影响，而本实施中的浅层特征是网络间多层级的形式，网络的设计初衷就是为了获取浅层多尺度特征，不会受到语义感知网络的影响。

本发明实施例提出了一种双分支网络框架，能够充分挖掘、融合图像内的多尺度特征，实现对于不同尺寸目标的准确分割，具有如下有益效果。

这里“串行”指的是语义感知网络内部是串行结构，“并行”指的是整个模型的语义感知网络和纹理感知网络是并行的。

3.对于极小尺寸与超大尺度的目标的分割能够取得更准确的结果。

值得注意的是，上述实施例中，所包括的各个网络和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例二

本实施例提供一种目标分割系统的训练方法，用于对实施例一所述的目标分割系统进行训练。图5是本发明实施例提供的一种目标分割系统的训练方法的流程图。如图5所示，该方法包括步骤S10-S40。

S10、获取训练图像集，其中，所述训练图像集中包括多个训练图像；对每个训练图像进行像素级的手工分割标注，得到所述每个训练图像的标注图。

S20、对每个训练图像进行原始尺度数据增强，得到所述每个训练图像的第一预处理数据；对所述第一预处理数据进行多尺度数据增强，得到所述每个训练图像的第二预处理数据；其中，所述原始尺度数据增强包括翻转、旋转、颜色抖动增强中的至少一种，所述多尺度的处理策略包括中心裁剪、随机裁剪、均匀裁剪、缩放和高斯金字塔中的至少一种。

原始尺度数据增强的目的是增加训练样本数目，或增加训练样本的多样性，使网络能够更充分的训练，与正常的数据增强作用相同。

多尺度数据增强是服务于纹理感知网络的。尽管纹理感知网络内部的膨胀卷积(空洞卷积)也可以捕捉不同尺度的特征，但是在输入前的多尺度预处理能够为网络带来更丰富的多尺度感受野。在多尺度数据增强中，会改变图像的空间分辨率的操作，例如：随机裁剪和缩放操作的结合。裁剪可以将输入图像由整幅变为其中的某个图像块，缩放将这个图像块处理成不同分辨率的(多尺度的)图像。高斯金字塔的效果与之类似。

需要说明的是，将数据进行两种形式的增强的根本原因是：在语义感知网络中只关注于“图像是什么或图像中有什么”，因此不需要多尺度处理；而对于纹理感知网络，需要尽可能保留各种尺度的细节信息，帮助精细分割，因此在数据处理阶段就对其进行了多尺度预处理。

S30：依次将每个训练图像输入实施例一项所述的目标分割系统，以对所述目标分割系统的参数进行迭代优化，其中，每个训练图像的第一预处理数据输入所述语义感知网络，所述每个训练图像的第二预处理数据输入所述纹理感知网络。

在该步骤中，为目标分割系统设计总损失函数，以此总损失函数为优化目标迭代训练目标分割网络。所述总损失函数包括：一个辅助损失函数，用来监督纹理感知网络；一个主损失函数，用来监督整个网络的输出。所述迭代训练过程采用多损失函数融合的方式迭代更新网络参数。

在一实施例中，S20包括：步骤S21-S22。

S21：将每个训练图像通过原始尺度的处理策略进行数据增强。原始尺度的处理策略包括：翻转、旋转、颜色抖动增强等。颜色抖动增强包括：随机擦除图像中的色块、直方图均衡化等。

为了不破坏图像的纹理规律，使用的几何变换的参数均固定在一个指定的范围均匀分布。例如，翻转包括上下翻转、左右翻转和镜像翻转，旋转的范围在[-5°，5°]∪180°∪-180°。设置这一角度范围是因为：过大的旋转角度可能会引入自然数据集中本不存在的噪声。而±180的旋转可以认为是对同一目标的不同方向观测，引入噪声信息的可能性较小，因此在小角度旋转之外还补充了±180°的旋转。

S22：对原始尺度增强后数据，采用随机组合的多尺度数据增强策略进行处理，以增加数据的尺度多样性，提高网络的多尺度目标感知能力。所述多尺度数据增强策略包括中心裁剪、随机裁剪、均匀裁剪、缩放和高斯金字塔等方式，其中，缩放尺寸保持在0.8倍至1.2倍之间。

将仅接受原始尺度增强的数据即为S30中的第一预处理数据，所有训练图像的第一预处理数据构成的集合将作为语义感知网络的训练数据集。接受了原始尺度增强和多尺度数据增强的数据即为S30中的第二预处理数据，所有训练图像的第二预处理数据构成的集合将作为纹理感知网络的训练数据集。

在一实施例中，S20还包括：将每个训练图像的标注图进行与所述每个训练图像相同的多尺度数据增强，得到所述每个训练图像的多尺度标注图。

将接受了多尺度增强的图像对应的真实标注(手工逐像素标注得到的标注图)按照相同的多尺度数据增强策略进行处理，将得到的多尺度标注图作为纹理感知子网络中辅助损失函数层的真实标签。

在一实施例中，将同一批次图像的不同增强结果分别作为语义感知网络和纹理感知网络的训练数据，对已经建立的网络模型进行端到端的训练。所述训练过程使用梯度下降法算法，学习率初始值设置为10^-3，并以多项式衰减形式调整，即lr_new＝lr_now*(1-step_now/step_total)^power，其中step_now表示当前训练的迭代次数，step_total表示训练的需要迭代的总次数，lr_now表示当前时刻的学习率，lr_new表示经过step_now次迭代后调整得到的学习率。另外，动量设置为0.99，权重衰减项设置为0.0005。

在一实施例中，S40中，以所述主损失函数和所述辅助损失函数的组合为总损失函数，以每个训练图像的标注图为标注信息迭代更新所述目标分割系统的网络参数，包括：S41和S42。

S41：将所述纹理感知网络输出的每个训练图像的纹理特征图代入所述辅助损失函数，计算辅助损失；将所述特征融合层输出的所述每个训练图像的目标分割图代入所述主损失函数，计算主损失。

即，将纹理感知网络得到的逐像素预测结果输入到辅助损失函数层，将整个多尺度分割系统得到的最终预测结果输入主损失函数层。所述辅助损失函数和所述主损失函数层均包括softmax函数和交叉熵损失函数。

所述softmax函数为：

其中，z_i表示目标分割中第i种分割结果对应的输出，C表示分割结果的种类数。通过softmax函数即可将多分类的输出值转换为范围在[0,1]且和为1的概率分布。

所述交叉熵损失函数为：

其中，y表示预测的分割结果，y′表示真实的分割结果。

S42：根据公式(3)计算总损失：

其中，

表示所述主损失函数，

表示所述辅助损失函数，y_s′表示每个训练图像的标注图，y_t′表示所述每个训练图像的多尺度标注图。使用参数λ平衡两个损失函数分量之间的权重，以便网络可以更好地提高分割性能。

图6是本发明实施例提供的另一种目标分割系统的训练方法的流程图，以更直观地形式显示了该训练方法的流程和信号流。

首先，获取训练数据集，对训练数据集中的图像进行逐像素标注和原始尺度数据增强。

然后，在左边的语义感知网络分支，经过原始尺度增强后的数据作为语义感知网络的训练数据集，直接输入语义感知网络，得到图像的语义特征。在右边的纹理感知网络分支，经过原始尺度增强后的数据继续进行多尺度数据增强，增强后的数据作为纹理感知网络的训练数据集，输入纹理感知网络，得到图像的纹理特征，并利用所述纹理特征计算出纹理损失(即辅助损失)。

最后，多语义特征和纹理特征进行多尺度特征融合，得到图像的多尺度融合特征，基于该融合特征生成图像的多尺度分割结果。利用该分割结果与图像的真实标注计算多尺度分割系统的主损失，同时结合纹理损失，对整个多尺度分割系统进行优化。

5.对于极小尺寸与超大尺度的目标的分割能够取得更准确的结果。。

本发明实施例的目标分割系统的训练方法与实施例一中的目标分割系统具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节，请参照实施例一中的目标分割系统。

实施例三

本实施例提供一种目标分割方法。首先利用实施例二的训练方法对目标分割系统进行训练，该方法利用训练好的目标分割系统，实现图像的多尺度目标分割。图7是本发明实施例提供的一种目标分割方法的流程图。如图7所示，该方法包括步骤S1-S4。

S1：获取待分割图像。

S2：将所述待分割图像作为第一预处理数据，输入训练好的实施例一所述的目标分割系统的语义感知网络。

S3：将所述待分割图像作为第二预处理数据，输入所述目标分割系统的纹理感知网络。

实施例二中的数据预处理的过程是针对系统训练阶段的，在预测阶段不需要对图像进行预处理。因此，在预测阶段，只需直接将待处理图像本身输入语义感知网络和纹理感知网络进行处理。也可以理解为，多尺度分割系统中的第一预处理数据和第二预处理数据就是待处理图像本身。

本发明实施例的目标分割方法与实施例一中的目标分割系统具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节，请参照实施例一中的目标分割系统。

实施例四

图8为本发明实施例提供的一种计算机设备的结构示意图。如图8所示，该设备包括处理器810和存储器820。处理器810的数量可以是一个或多个，图8中以一个处理器810为例。

存储器820作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例二所述的目标分割系统的训练方法的程序指令/模块，或实施例三所述的目标分割方法的程序指令/模块。

相应地，处理器810通过运行存储在存储器820中的软件程序、指令以及模块，实现本发明实施例二所述的目标分割系统的训练方法，或实现实施例三所述的目标分割方法。

存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器820可进一步包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标分割系统，其特征在于，包括：

特征融合层，与所述语义感知网络和所述纹理感知网络连接，设置为对所述语义特征图和所述纹理特征图进行拼接和融合，得到所述图像的目标分割图；

在所述纹理感知网络中，

所述空洞卷积层的数量为多个且串行排列，所述多个空洞卷积层设置为对所述第二预处理数据进行空洞卷积操作，提取所述图像的浅层纹理特征，得到第二特征图；多个所述空洞卷积层为两个核尺寸为3×3、步长为1、膨胀率为(1，2，4)的空洞卷积层，使用不同的膨胀率能够使网络在同一网络层次中获得多层级特征；

所述特征收缩层包括第二卷积层，设置为对所述第二特征图进行通道维度的降维卷积操作，实现所述第二特征图在通道级别的降维；由核尺寸为1×1的卷积构成的特征收缩层；

所述特征扩展层包括第三卷积层，设置为对所述降维后的第二特征图进行通道维度的升维卷积操作，实现降维后的第二特征图在通道级别的升维；由核尺寸为3×3、步长为1且通道数翻倍的卷积层作为特征扩展模块；

所述第一卷积层设置为对扩展后的第二特征图进行卷积操作，加深网络层数，以继续提取所述图像的纹理特征，得到所述纹理特征图。

2.如权利要求1所述的目标分割系统，其特征在于，所述语义感知网络包括串行排列的VGGNet骨干网络和上采样层，其中，

3.如权利要求1所述的目标分割系统，其特征在于，所述特征融合层包括串行排列的拼接模块和第四卷积层，其中，

4.如权利要求1所述的目标分割系统，其特征在于，所述语义感知网络采用ResNet网络形式或WRN网络形式，包括卷积模块、池化模块、正则化模块和随机连接删除模块。

5.一种目标分割系统的训练方法，其特征在于，包括：

S30：依次将每个训练图像输入权利要求1-4任意一项所述的目标分割系统，以对所述目标分割系统的参数进行迭代优化，其中，每个训练图像的第一预处理数据输入所述语义感知网络，所述每个训练图像的第二预处理数据输入所述纹理感知网络；

S40：基于所述纹理感知网络的输出，构建辅助损失函数；基于所述特征融合层的输出，构建主损失函数；以所述主损失函数和所述辅助损失函数的组合为总损失函数，以每个训练图像的标注图为标注信息迭代更新所述目标分割系统的网络参数；所述辅助损失函数用来监督纹理感知网络，所述主损失函数用来监督整个网络的输出。

6.如权利要求5所述的训练方法，其特征在于，S20还包括：

7.如权利要求6所述的训练方法，其特征在于，S40中，所述以所述主损失函数和所述辅助损失函数的组合为总损失函数，以每个训练图像的标注图为标注信息迭代更新所述目标分割系统的网络参数，包括：

所述交叉熵损失函数为：

其中，y表示预测的分割结果，y′表示真实的分割结果；

S42：根据公式(3)计算总损失：

其中，

表示所述主损失函数，

表示所述辅助损失函数，y′_s表示每个训练图像的标注图，y′_t表示所述每个训练图像的多尺度标注图；

8.一种目标分割方法，其特征在于，包括：

S1：获取待分割图像；

S2：将所述待分割图像作为第一预处理数据，输入训练好的如权利要求1-4任意一项所述的目标分割系统的语义感知网络；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求5-7中任意一项所述的训练方法，或实现如权利要求8所述的目标分割方法。