CN111626298A

CN111626298A - 一种实时图像语义分割装置及分割方法

Info

Publication number: CN111626298A
Application number: CN202010306188.8A
Authority: CN
Inventors: 周军; 白兴; 张鹏远; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-09-04
Anticipated expiration: 2040-04-17
Also published as: CN111626298B

Abstract

本发明提供一种实时图像语义分割装置及分割方法。在一个实施例中，将原始图像输入编码器，提取出至少两个大小不同的编码图像；将所述至少两个大小不同的编码图像输入第一解码器，提取出主特征图；将所述至少两个大小不同的编码图像输入第二解码器，提取出边缘特征图；根据所述主特征图和边缘特征图计算所述原始图像的最终损失；并根据最终损失训练所述主解码器和所述边缘解码器；将待预测图像通过编码器处理以后输入到主解码器中，得到主特征图。使用了两个结构相同的解码器，一个用于训练整体，一个用于训练边缘，在训练时使用其中的一个解码器检测目标边缘处的特征，使得能够更好的对目标边缘处的像素进行分割。

Description

一种实时图像语义分割装置及分割方法

技术领域

本发明涉及图像语义分割技术领域,尤其涉及一种实时图像语义分割装置及分割方法。

背景技术

随着深度学习技术的快速发展，计算机视觉领域也迎来了一波发展热潮。在实际应用中，无论是物体检测还是自动驾驶技术，计算机视觉技术都是不可或缺的。图像语义分割是图像处理的基础算法，所以其性能对后续的应用有很大的影响。因此，寻找一种高效的图像语义分割方法具有极为重要的现实意义和较强的应用价值。

图像语义分割将图像分割和目标识别相结合，将图像分成具有特定语义的像素组，识别每个区域的类别，最终得到分类图。2015年，Long等在CVPR上的论文中提出的模型首先将深度语义分割的潮流转向全卷积神经网络。所谓全卷积的意思就是在网络结构中摒弃全连接层，与之前使用CNN进行图像语义分割的方法相比，FCN对输入图像的大小没有限制，并且可以实现端到端的训练。随后，许多研究人员在FCN基础上提出了各种用于语义分割的神经网络算法。

语义分割模型面临两个主要问题：恢复输入图像的分辨率和扩大感受野。最简单的恢复输入分辨率的方法就是避免下采样。通常用步长为1的池化层来代替步长为2的池化层，在后续的卷积层中使用空洞卷积。但是，这种方法增加了深层特征图的分辨率，增加了计算复杂度，以目前的计算能力，不能实现实时分割的效果。

另一种方法是在下采样过后的特征图上做预测然后通过上采样特征图逐渐恢复分辨率。这个过程可以通过结合语义信息丰富的深层特征图和空间信息丰富的浅层特征图来完成。

目前最优的图像语义分割方法使用的编码器都是深度全卷积神经网络，如ResNet、MobileNet，这些方法需要巨大的计算资源。许多重要的应用如自动导航、辅助驾驶需要处理像素非常高的图像而且必须要注意到200米外的行人。同时，这些应用为了能实时判断，需要非常低的延迟。这些要求增加了计算压力。

最简单的实时图像语义分割方法是使用在ImageNet上预训练过的分类网络，去掉其最后的池化、全连接层后，将特征图输入像素级的损失函数来获得预测值。这样的模型预测速度非常快，但是精度非常低。首先，因为预测值的分辨率非常小，只有输入图像的1/32，所以很难被识别。其次，因为这种模型的感受野不大，所以难以分类大目标(如公共汽车和卡车)。

发明内容

有鉴于此，本申请实施例提供了一种实时图像语义分割装置及分割方法。

第一方面，一种实时图像语义分割装置，包括：

编码器，用于对输入的原始图像进行处理，提取出至少两个大小不同的编码图像；

第一解码器，用于将所述至少两个大小不同的编码图像输入至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图；其中，所述至少两个特征图中的第二特征图是由第一分组卷积横向连接模块中输出的第一特征图进行上采样后与第二分组卷积横向连接模块输出的特征图相加得到，所述第一分组卷积横向连接模块和所述第二分组卷积横向连接模块具有相同的结构；

将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理，将所述至少两个并行分组全局卷积模块输出的至少两个特征图进行上采样后输入到卷积层，得到主特征图；

第二解码器，用于将所述至少两个大小不同的编码图像输入到第二解码器，得到边缘特征图；

所述第一解码器还用于，根据所述主特征图计算所述原始图像的主损失；

所述第二解码器还用于，根据所述边缘特征图计算所述原始图像的边缘损失；

处理器，用于将所述主损失和边缘损失相加得到所述原始图像的最终损失；并根据所述最终损失训练所述第一解码器和第二解码器。

可选地，所述第一解码器和所述第二解码器结构相同；

所述第一解码器和所述第二解码器中包括：至少两个分组卷积横向连接模块与至少两个并行分组全局卷积模块横向连接。

可选地，所述根据所述主特征图和所述边缘特征图计算所述原始图像的最终损失包括：

将所述主特征图与主标签进行比较得到主损失；将所述边缘特征图与边缘标签进行比较得到边缘损失；

将所述主损失与所述边缘损失相加得到所述原始图像的最终损失。

可选地，将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图，包括：

将所述至少两个大小不同的编码图像分别通过核为(1,1)、(3,3)和(1,1)的卷积层；

所述将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理，包括：

将所述至少两个特征图经过核为(1，k)和(k，1)的卷积层。

可选地，每个卷积层后都包括一个整流线性单元和批标准化层。

第二方面，一种实时图像语义分割方法，包括：

将原始图像输入到编码器，提取出至少两个大小不同的编码图像；

将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图；其中，所述至少两个特征图中的第二特征图是由第一分组卷积横向连接模块中输出的第一特征图进行上采样后与第二分组卷积横向连接模块输出的特征图相加得到，所述第一分组卷积横向连接模块和所述第二分组卷积横向连接模块具有相同的结构；

根据所述主特征图和边缘特征图计算所述原始图像的最终损失，其中，所述边缘特征图是由第二解码器对编码器输出的至少两个编码图像进行处理得到的；根据最终损失训练所述第一解码器和所述第二解码器；

将待预测图像输入到编码器得到至少两个大小不同的特征图，将至少两个大小不同的特征图输入到第一解码器中，得到主特征图。

可选地，所述第一解码器和所述第二解码器结构相同；

将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理，包括：

将所述至少两个特征图经过核为(1，k)和(k，1)的卷积层。

本申请实施例提供一种实时图像语义分割装置及分割方法。在一个实施例中，使用了两个结构相同的解码器，一个用于训练整体，一个用于训练边缘，在训练时使用其中的一个解码器检测目标边缘处的特征，使得能够更好的对目标边缘处的像素进行分割。在解码器中使用了新的横向连接方式，在增加很少的计算量和参数的情况下，提高了分割精度。在解码器中增加了并行分组全局卷积模块(PGCN)，能更好的提取编码器各个模块生成的特征图的特征。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1本发明申请一种实时图像语义分割装置的结构图；

图2本发明申请一种实时图像语义分割装置中的RB模块的结构示意图；

图3本发明申请一种实时图像语义分割装置中的PGCN模块的结构示意图；

图4本发明申请一种实时图像语义分割方法的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

在本发明申请实施例中，提出了基于轻量级ImagNet分类网络、衡量了效率与精度的模型。本发明在实现实时语义分割的基础上，有效地提高了分割精度。

图1为本发明申请一种实时图像语义分割装置的结构图。参照图1，本发明申请一种实时图像语义分割装置包括：编码器101、主解码器102、边缘解码器103。

编码器101用于对输入的原始图像进行处理。将原始图像输入到编码器，经过编码器的四个模块处理后，得到四种大小不同的特征图。

主解码器102,用于对编码器101输出的特征图进行处理然后提取出主特征。在主解码器102中包括分组卷积横向连接模块(RB)和并行分组全局卷积模块(PGCN)。其中，RB模块的结构示意图如图2所示，PGCN模块的结构示意图如图3所示。

在RB模块中包括3个卷积层分别为：in_channels×fpn_dim×1×1的卷积层、fpn_dim×fpn_dim×3×3、fpn_dim×fpn_dim×1×1。在RB模块中的每个卷积层之后，都包含一个整流线性单元(ReLU)和批标准化层(BatchNorm)。

PGCN模块包括两个不同的分支PGCN-LEFT和PGCN-RIGHT。其中PGCN-LEFT中包括padding＝(0,(k-1)/2)的fpn_dim×inter_channels×1×k的卷积层、BatchNorm层、ReLU层、padding＝((k-1)/2,0),groups＝inter_channels的inter_channels×inter_channels×k×1的卷积层、BatchNorm层、ReLU层。PGCN-RIGHT包括padding＝((k-1)/2,0)的fpn_dim×inter_channels×k×1的卷积层、BatchNorm层、ReLU层、padding＝(0,(k-1)/2),groups＝inter_channels的inter_channels×inter_channels×1×k的卷积层、BatchNorm层、ReLU层。

在一个可能的实施例中，对于卷积层的计算为：设定输入的特征图为(C_in，H，W)，输出的特征图为(C_in，H_out，W_out)，二维卷积的公式如下：

其中，★是二维互相关运算符，C是特征图的数目，H是特征图的高，W是特征图的宽。

在一个可能的实施例中，ReLU层的计算公式为：ReLU(x)＝max(0,x)。

在一个可能的实施例中，批标准化(BatchNorm)层的计算公式为：

边缘解码器103,用于对编码器101输出的特征图进行处理然后提取出边缘特征。边缘解码器103和主解码器102的结构相同，在此不做重复叙述。

在一个可能的实施例中，对用于自动驾驶的语义分割装置进行训练包括：首先，将原始图像输入编码器101，经过编码101的四个模块处理后，得到4种大小不同的特征图。在训练时，将四种大小不同的特征图分别输入主解码器102和边缘解码器103中的4个RB模块，将它们的通道数统一变为fpn_dim，继而将深一层的特征图放大两倍，与浅一层的特征图相加，得到新的特征图。然后将新的特征图分别输入PGCN模块，将得到的特征图放大到原图像大小的1/4。将这些特征图联接起来后输入核3的卷积层得到最终的特征图。将得到的特征图与主解码器中的主标签比较计算主损失，将得到的特征图与边缘解码器中的边缘标签比较计算边缘损失。最后将主损失与边缘损失相加作为最终的损失，训练主解码器和边缘解码器。

在一个可能的实施例中，将主解码器102输出的主特征与主标签进行比较，得到主损失。将边缘解码器103输出的边缘特征与边缘标签进行比较得到边缘损失。

在一个可能的实施例中，制作边缘标签包括：在每幅图像的注释(annotation)中找出每个目标边缘处的2个像素，并将其余标签置为0。

其中，通过主损失和边缘损失计算最终损失的计算公式为：loss＝main loss+edge scale×edge loss。

图4为本发明申请一种实时图像语义分割方法的流程图，参照图4，本发明申请一种实时图像语义分割方法包括步骤S401-步骤S405。

步骤S401：将原始图像输入到编码器，提取出至少两个大小不同的编码图像。

得到的至少两个大小不同的编码图像中最大的编码图像的大小为原始图像大小的1/4。

步骤S402：将至少两个大小不同的编码图像输入到第一解码器的至少两个RB模块中进行卷积处理得到至少两个特征图；其中，至少两个特征图中的第二特征图是由第一RB模块中输出的第一特征图进行上采样后与第二RB模块输出的特征图相加得到的；将至少两个特征图输入到至少两个PGCN模块中进行卷积处理，将至少两个PGCN模块输出的至少两个特征图进行上采样后输入到卷积层，得到主特征图。

步骤S403：将编码器输出的至少两个大小不同的编码图像输入到第二解码器，得到边缘特征图。

步骤S402和步骤S403在执行上不存在先后顺序。

步骤S404：根据原始图像的主特征和边缘特征计算所述原始图像的最终损失；并根据最终损失训练主解码器和边缘解码器。

步骤S405：将待预测图像输入到编码器得到至少两个大小不同的编码图像，将至少两个大小不同的编码图像输入到第一解码器中，得到主特征图。

在训练好的用于自动驾驶的语义分割装置中进行预测时，只涉及到编码器101和主解码102。边缘解码器103用于在训练过程中对主解码器102进行优化训练。

在一个可能的实施例中，将原始图像输入到编码器101，经过编码器101的四个模块进行处理后，输出的特征图像分别为Res-2、Res-3、Res-4、Res-5，将编码器101输出的特征图像分别输入到主解码器102中。

将特征图像Res-2、Res-3、Res-4、Res-5分别输入到主解码器102中不同的RB模块，对于Res-5，先将其输入512×fpn_dim×1×1的卷积层、BatchNorm层、ReLU层得到第一特征图。然后将得到的第一特征图输入groups为fpn_dim，padding为1的512×fpn_dim×3×3的卷积层、BatchNorm层、ReLU层得到第二特征图。然后将得到的第二特征特征图输入512×fpn_dim×1×1的卷积层、BatchNorm层、ReLU层得到第三特征图。将得到的第三特征图记为fpn-5，假设原输入图像的大小为3×1024×1024，则fpn-5的大小为128×32×32，将Res-4输入结构相同的RB-4，将得到的特征图记为rb-4，rb-4的大小为128×64×64，将fpn-5放大两倍，然后与rb-4相加，将得到的特征图记为fpn-4，以此类推，将fpn-4放大两倍与rb-3相加，将得到的特征图记为fpn-3，将fpn-3放大两倍与rb-2相加，将得到的特征图记为fpn-2。

将fpn-5，fpn-4，fpn-3，fpn-2分别输入结构相同的四个PGCN模块中，以fpn-5为例，将其输入两个不同的分支PGCN-LEFT和PGCN-RIGHT。其中PGCN-LEFT中包括padding＝(0,11)的fpn_dim×inter_channels×1×k的卷积层、BatchNorm层、ReLU层、padding＝(11,0),groups＝inter_channels的inter_channels×inter_channels×k×1的卷积层、BatchNorm层、ReLU层。PGCN-RIGHT包括padding＝(11,0)的fpn_dim×inter_channels×k×1的卷积层、BatchNorm层、ReLU层、padding＝(0,11),groups＝128的inter_channels×inter_channel×1×k的卷积层、BatchNorm层、ReLU层。将fpn-5经过PGCN-LEFT模块后的特征图记为pgcn-left-5，将其经过PGCN-RIGHT模块后的特征图记为pgcn-right-5，将pgcn-left-5与pgcn-right-5相加，将得到的特征图分别输入padding＝1的inter_channels×num_class×3×3的卷积层、BatchNorm层、ReLU层，并将得到的特征图记为pgcn-5。以此类推，分别得到pgcn-4、pgcn-3、pgcn-2。将pgcn-4、pgcn-3、pgcn-2放大到与pgcn-5大小相同，然后将pgcn-5、pgcn-4、pgcn-3、pgcn-2联接起来，得到4*num_class×H/4×W/4的特征图。

在本发明申请实施例中，在解码器的PGCN模块中使用了空洞卷积，在没有显著增加计算量的情况下，增大了感受野。在预测时，计算量小，在分割像素为1024×1024的图像时，所需的GFLOPs仅为58.58GMac，模型参数为13.7M。在实现实时分割的基础上，分割精度高，比如在Cityscapes数据集上可达到75.8％meanIoU。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种实时图像语义分割装置，包括：

2.根据权利要求1所述的装置，其特征在于，所述第一解码器和所述第二解码器结构相同；

3.根据权利要求1所述的装置，其特征在于，所述根据所述主特征图和所述边缘特征图计算所述原始图像的最终损失包括：

4.根据权利要求1所述的装置，其特征在于，将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图，包括：

将所述至少两个特征图经过核为(1，k)和(k，1)的卷积层。

5.根据权利要求4所述的装置，其特征在于，每个卷积层后都包括一个整流线性单元和批标准化层。

6.一种实时图像语义分割方法，包括：

7.根据权利要求6所述的方法，其特征在于，所述第一解码器和所述第二解码器结构相同；

8.根据权利要求6所述的方法，其特征在于，所述根据所述主特征图和所述边缘特征图计算所述原始图像的最终损失包括：

9.根据权利要求6所述的方法，其特征在于，将所述至少两个大小不同的编码图像输入到第一解码器的至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图，包括：

将所述至少两个特征图经过核为(1，k)和(k，1)的卷积层。

10.根据权利要求9所述的方法，其特征在于，每个卷积层后都包括一个整流线性单元和批标准化层。