CN112733919B

CN112733919B - 基于空洞卷积和多尺度多分支的图像语义分割方法及系统

Info

Publication number: CN112733919B
Application number: CN202011640090.2A
Authority: CN
Inventors: 吕蕾; 李赓; 王福运; 吕晨
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-05-20
Anticipated expiration: 2040-12-31
Also published as: CN112733919A

Abstract

本发明公开了基于空洞卷积和多尺度多分支的图像语义分割方法及系统，包括：通过摄像头获取待处理图像；对待处理图像进行预处理；对预处理图像分别进行并行两个分支的特征提取，其中第一个分支提取出第一特征；第二个分支提取出第二特征；对第一特征和第二特征均进行不同尺度的全局上下文特征提取，分别得到四个尺度的全局上下文特征；对八个尺度的全局上下文特征进行融合，得到融合特征；对融合特征进行上采样操作；将上采样后的融合特征输入到训练后的分类器中，输出图像语义分割结果。

Description

基于空洞卷积和多尺度多分支的图像语义分割方法及系统

技术领域

本申请涉及计算机视觉和图像处理技术领域，特别是涉及基于空洞卷积和多尺度多分支的图像语义分割方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

语义分割指的是对一张图像在像素级别上对其进行分割，具体来说是对图像的每一个像素，预测其所属类别的计算机视觉问题，实时语义分割则对实时性和准确性提出了更为严格的要求。由于近些年计算机算力的不断提升和更多更优秀的深度神经网络模型的提出，实时语义分割在自动驾驶、遥感成像等需要精细化信息的领域上有着非常广阔的应用前景，能够为计算机针对场景进行理解提供重要帮助。

在深度学习方法流行之前，TextonForest和基于随机森林分类器等语义分割方法是用得比较多的方法。不过在深度卷积网络流行之后，深度学习方法比传统方法提升了很多。目前常用的深度学习语义分割方法大多是基于全卷积神经网络进行的。全卷积神经网络舍弃了普通卷积神经网络结构中的全连接层，取而代之的是一定深度的反卷积层，又称解码器。整个分割过程大体是先通过解码器对输入图像进行多次下采样，提取不同的特征信息，得到不同分辨率的特征图，然后经过解码器针对特征图上采样，将其还原至与输入图像同等尺寸，并对各部分特征像素进行分类。然而这种方式存在一个问题，就是低层的特征图包含丰富的空间信息并且分辨率高，但特征信息匮乏，而高层的特征图特征信息丰富但分辨率低且空间信息较少。FCN(Fully Convolutioin Network)创新性地引入了跳跃连接，一定程度上解决了这一问题，大体思想是将高层低分辨率的特征图通过扩大相应的倍数，来与低层高分辨率的特征图进行融合，得到了分辨率高特征信息丰富的特征图，提高了语义分割的精度。UNet则是在其基础上改进的一个更为优雅的网络结构，它是对称的U型结构，他将每一层的特征图都与通过解码器上采样得到的特征图进行跳跃连接，获得了更为丰富的融合特征，使语义分割的精度大大提高，因此，UNet在医学图像的分割上得到了广泛的应用。

而对于实时性和准确性要求更高的实时语义分割领域，一些网络结构由于骨架网络层数太多，参数量太大，而导致运行速度大打折扣，使得实时性要求无法满足。这一问题的解决主要是通过改变骨架网络结构解决的，比如ENet主体是基于ResNet，并且该网络结构中，所有卷积层channel数最高只有128，相对于ResNet50里面的2048降低了非常多，使得计算速度有了一定的提升。SQ的网络结构基于传统的先特征提取，然后再进行上采样，跟FCN差不太多，但是同时借鉴了Unet里面的同样大小的特征图进行skip，然后一起融合生成预测的方式。但是在实时语义分割的应用场景中，由于场景信息持续动态变化，其仍面临着尺度变化频繁的问题，并且现有方法通过引入空洞卷积改变卷积核的大小仍存在许多问题，比如空洞卷积扩张率太小会限制神经元的感受野，使其无法有效提取全局特征，太大又会导致学习到远距离的不相关特征并丢失近距离的细节信息。另一方面，利用更好的骨架网络能够取得更好的特征提取也就是Encoder的效果，但是相对而言计算所需要的代价就越高。浅层网络运算速度快但是特征提取效果很差，这两者难以进行一个权衡呢；所以，现有语义分割方法还不能有效解决空洞卷积扩张率和协调网络深度和运算速度的问题。

发明内容

为了解决现有技术的不足，本申请提供了基于空洞卷积和多尺度多分支的图像语义分割方法及系统；

第一方面，本申请提供了基于空洞卷积和多尺度多分支的图像语义分割方法；

基于空洞卷积和多尺度多分支的图像语义分割方法，包括：

通过摄像头获取待处理图像；对待处理图像进行预处理；

对预处理图像分别进行并行两个分支的特征提取，其中第一个分支提取出第一特征；第二个分支提取出第二特征；

对第一特征和第二特征均进行不同尺度的全局上下文特征提取，分别得到四个尺度的全局上下文特征；

对八个尺度的全局上下文特征进行融合，得到融合特征；对融合特征进行上采样操作；

将上采样后的融合特征输入到训练后的分类器中，输出图像语义分割结果。

第二方面，本申请提供了基于空洞卷积和多尺度多分支的图像语义分割系统；

基于空洞卷积和多尺度多分支的图像语义分割系统，包括：

预处理模块，其被配置为：通过摄像头获取待处理图像；对待处理图像进行预处理；

基础特征提取模块，其被配置为：对预处理图像分别进行并行两个分支的特征提取，其中第一个分支提取出第一特征；第二个分支提取出第二特征；

全局上下文特征提取模块，其被配置为：对第一特征和第二特征均进行不同尺度的全局上下文特征提取，分别得到四个尺度的全局上下文特征；

特征融合模块，其被配置为：对八个尺度的全局上下文特征进行融合，得到融合特征；对融合特征进行上采样操作；

语义分割模块，其被配置为：将上采样后的融合特征输入到训练后的分类器中，输出图像语义分割结果。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

本发明提出了一个基于自适应形变空洞卷积和多尺度多分支的实时语义分割方法，使用双分支网络结构进行特征提取，浅层网络负责提取空间信息，深层网络负责提取场景上下文信息及高层次特征信息。同时引入自适应形变空洞卷积模块，可以有效解决空洞卷积扩张率的问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图；

图2为第一个实施例的网络结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于空洞卷积和多尺度多分支的图像语义分割方法；

如图1所示，基于空洞卷积和多尺度多分支的图像语义分割方法，包括：

S101：通过摄像头获取待处理图像；对待处理图像进行预处理；

S102：对预处理图像分别进行并行两个分支的特征提取，其中第一个分支提取出第一特征；第二个分支提取出第二特征；

S103：对第一特征和第二特征均进行不同尺度的全局上下文特征提取，分别得到四个尺度的全局上下文特征；

S104：对八个尺度的全局上下文特征进行融合，得到融合特征；对融合特征进行上采样操作；

S105：将上采样后的融合特征输入到训练后的分类器中，输出图像语义分割结果。

作为一个或多个实施例，所述S101中，对待处理图像进行预处理；具体步骤包括：

降噪处理和舍弃非关键帧处理。

进一步地，所述非关键帧，判断步骤包括：对待处理图像的所有帧进行聚类处理，将距离簇中心超过设定距离的帧视为非关键帧。

作为一个或多个实施例，第一个分支提取出第一特征；具体包括：

使用改进的VGG16网络，对待处理图像提取出第一特征；

所述改进的VGG16网络，为对VGG16网络只保留前10个卷积层，删除后六个卷积层、全连接层和softmax分类器。

所述第一特征，是指边缘特征。

作为一个或多个实施例，所述第二个分支提取出第二特征；具体包括：

使用ResNet50提取出第二特征。所述第二特征是指形状特征。

作为一个或多个实施例，如图2所示，所述S103：对第一特征和第二特征均进行不同尺度的全局上下文特征提取，分别得到四个尺度的全局上下文特征；具体包括：

对第一特征，采用1*1的卷积层进行全局上下文特征提取，得到第一尺度的全局上下文特征；

对第一特征，采用空洞率为6的3*3空洞卷积层(Dilated Convolution)进行全局上下文特征提取，得到第二尺度的全局上下文特征；

对第一特征，采用空洞率为12的3*3空洞卷积层(Dilated Convolution)进行全局上下文特征提取，得到第三尺度的全局上下文特征；

对第一特征，采用空洞率为18的3*3空洞卷积层(Dilated Convolution)进行全局上下文特征提取，得到第四尺度的全局上下文特征；

对第二特征，采用1*1的卷积层进行全局上下文特征提取，得到第五尺度的全局上下文特征；

对第二特征，采用空洞率为6的3*3空洞卷积层(Dilated Convolution)进行全局上下文特征提取，得到第六尺度的全局上下文特征；

对第二特征，采用空洞率为12的3*3空洞卷积层(Dilated Convolution)进行全局上下文特征提取，得到第七尺度的全局上下文特征；

对第二特征，采用空洞率为18的3*3空洞卷积层(Dilated Convolution)进行全局上下文特征提取，得到第八尺度的全局上下文特征。

作为一个或多个实施例，所述S104：对八个尺度的全局上下文特征进行融合，得到融合特征；对融合特征进行上采样操作；具体包括：

对八个尺度的全局上下文特征进行逐像素相加，得到融合后的特征图；对融合后的特征图进行上采样操作，还原至原图像大小。

进一步地，所述上采样操作采用双线性插值方式实现。

作为一个或多个实施例，所述S105：将上采样后的融合特征输入到训练后的分类器中，输出图像语义分割结果；其中，训练后的分类器的训练步骤包括：

采用支持向量机作为分类器；

构建训练集，所述训练集为已知图像语义分割结果的图像；

将训练集输入到支持向量机中，训练次数达到迭代次数后，停止训练，得到训练好的分类器。

将得到的融合特征图F进行上采样还原至原图像大小，采样的方式使用双线性插值。

对上采样得到的特征图进行特征分类，就可以得到分类好的语义分割图。

本方法采用多尺度多分支的方式来权衡网络深度和运行速度之间的关系。网络主要分为两支，首先用一个正常大小的图像，通过一个较浅层的网络，然后生成保留更多细节的预测图，即用于保存空间结构信息，另一支用一个较小分辨率的图像通过一个完全的语义分割网络，然后生成一个分辨率较小的语义分割图，用于捕捉场景上下文信息和高层次语义信息。

实施例二

本实施例提供了基于空洞卷积和多尺度多分支的图像语义分割系统；

基于空洞卷积和多尺度多分支的图像语义分割系统，包括：

此处需要说明的是，上述预处理模块、基础特征提取模块、全局上下文特征提取模块、特征融合模块和语义分割模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于空洞卷积和多尺度多分支的图像语义分割方法，其特征是，包括：

通过摄像头获取待处理图像；对待处理图像进行预处理；

将上采样后的融合特征输入到训练后的分类器中，输出图像语义分割结果；

其中，第一个分支提取出第一特征；具体包括：

使用改进的VGG16网络，对待处理图像提取出第一特征；

所述改进的VGG16网络，为对VGG16网络只保留前10个卷积层，删除后六个卷积层、全连接层和softmax分类器；

其中，所述第二个分支提取出第二特征；具体包括：

使用ResNet50提取出第二特征；

其中，对第一特征和第二特征均进行不同尺度的全局上下文特征提取，分别得到四个尺度的全局上下文特征；具体包括：

对第一特征，采用空洞率为6的3*3空洞卷积层进行全局上下文特征提取，得到第二尺度的全局上下文特征；

对第一特征，采用空洞率为12的3*3空洞卷积层进行全局上下文特征提取，得到第三尺度的全局上下文特征；

对第一特征，采用空洞率为18的3*3空洞卷积层进行全局上下文特征提取，得到第四尺度的全局上下文特征；

对第二特征，采用空洞率为6的3*3空洞卷积层进行全局上下文特征提取，得到第六尺度的全局上下文特征；

对第二特征，采用空洞率为12的3*3空洞卷积层进行全局上下文特征提取，得到第七尺度的全局上下文特征；

对第二特征，采用空洞率为18的3*3空洞卷积层进行全局上下文特征提取，得到第八尺度的全局上下文特征；

对八个尺度的全局上下文特征进行融合，得到融合特征；对融合特征进行上采样操作；具体包括：

2.如权利要求1所述的基于空洞卷积和多尺度多分支的图像语义分割方法，其特征是，对待处理图像进行预处理；具体步骤包括：

降噪处理和舍弃非关键帧处理。

3.如权利要求2所述的基于空洞卷积和多尺度多分支的图像语义分割方法，其特征是，所述非关键帧，判断步骤包括：对待处理图像的所有帧进行聚类处理，将距离簇中心超过设定距离的帧视为非关键帧。

4.如权利要求1所述的基于空洞卷积和多尺度多分支的图像语义分割方法，其特征是，将上采样后的融合特征输入到训练后的分类器中，输出图像语义分割结果；其中，训练后的分类器的训练步骤包括：

采用支持向量机作为分类器；

构建训练集，所述训练集为已知图像语义分割结果的图像；

5.基于空洞卷积和多尺度多分支的图像语义分割系统，其特征是，包括：

语义分割模块，其被配置为：将上采样后的融合特征输入到训练后的分类器中，输出图像语义分割结果；

其中，第一个分支提取出第一特征；具体包括：

使用改进的VGG16网络，对待处理图像提取出第一特征；

其中，所述第二个分支提取出第二特征；具体包括：

使用ResNet50提取出第二特征；

6.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-4任一项所述的方法。