CN110992367B

CN110992367B - 对带有遮挡区域的图像进行语义分割的方法

Info

Publication number: CN110992367B
Application number: CN201911056289.8A
Authority: CN
Inventors: 白双
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2024-02-02
Anticipated expiration: 2039-10-31
Also published as: CN110992367A

Abstract

本发明提供了一种对带有遮挡区域的图像进行语义分割的方法，包括：为图像中的遮挡区域生成二值掩模，叠加原始图像与所述二值掩模；根据叠加后的图像，搭建具有编码‑解码结构的遮挡区域图像内容恢复深度神经网络子模型；搭建具有双流结构的深度神经网络作为图像语义分割子模型，并构建所述的遮挡区域图像内容恢复深度神经网络子模型和所述的语义分割子模型的级联模型；对所述级联模型进行训练和验证，通过验证好的级联模型对带有遮挡区域的图像进行语义分割。本方法可以实现对图像的遮挡区域的语义分割，解决图像中存在遮挡的图像内容理解问题。

Description

对带有遮挡区域的图像进行语义分割的方法

技术领域

本发明涉及图像语义分割技术领域，尤其涉及一种对带有遮挡区域的图像进行语义分割的方法。

背景技术

图像语义分割是实现图像内容理解的重要方式。但是，目前的图像语义分割方法仅能够对无遮挡的图像进行语义分割，而对于带有遮挡的图像区域，当前的语义分割方法都无法获得正确的结果。

如果能够实现对遮挡的图像区域进行正确的语义分割将会使基于语义分割的图像理解技术更加接近人类图像理解的水平，进一步拓宽语义分割技术在现实中的应用场景，包括无人驾驶技术和自主机器人技术等。

发明内容

本发明提供了一种对带有遮挡区域的图像进行语义分割的方法，以实现对图像的遮挡区域的语义分割，解决图像中存在遮挡的图像内容理解问题。

为了实现上述目的，本发明采取了如下技术方案。

本发明提供了一种对带有遮挡区域的图像进行语义分割的方法，包括：

为图像中的遮挡区域生成二值掩模，叠加原始图像与所述二值掩模；

根据叠加后的图像，搭建具有编码-解码结构的遮挡区域图像内容恢复深度神经网络子模型；

搭建具有双流结构的深度神经网络作为图像的语义分割子模型，并构建所述的遮挡区域图像内容恢复深度神经网络子模型和所述语义分割子模型的级联模型；

对所述级联模型进行训练和验证，通过验证好的级联模型对带有遮挡区域的图像进行语义分割。

优选地，为图像中的遮挡区域生成二值掩模，包括：二值掩模中对应于遮挡区域的像素值被设为1，其余区域的像素值被设置为0。

优选地，叠加原始图像与所述二值掩模，包括：

将二值掩模按下式(1)进行像素取反：

I'_m＝1-I_m (1)

根据下式(2)叠加原始图像与二值掩模：

I′_x＝I_x⊙I′_m (2)

其中，I_m为图像二值掩模，I'_m为取反后的二值掩模，I_x为原始输入图像，⊙表示按元素相乘运算。

优选地，搭建具有编码-解码结构的遮挡区域图像内容恢复深度神经网络子模型，包括：

在主干网络的从编码器特征图到解码器特征图的跨层连接中引入特征迁移模块，具体包括：

设有来自遮挡区域图像内容恢复深度神经网络子模型的对应于编码器部分的第l层的特征图F_l被连接到遮挡区域图像内容恢复深度神经网络子模型的对应于解码器部分的第L-l层的特征图F_L-l，F_l和F_L-l被传输给跨接于第l层和第L-l层的特征迁移模块，特征迁移模块按以下方式对特征图F_l和F_L-l进行处理：

设R_L-l对应于特征图F_L-l中的遮挡区域，而对应于非遮挡区域，对于一个来自于特征图F_L-l的位置为(i',j')的大小为3×3的特征图片段p_L-l(i',j')，如果该图像片段与遮挡区域R_L-1有任何重叠，该特征图片段在非遮挡区域的最近邻片段通过下式(3)计算获得：

其中，L指该子模型的总层数，p_L-l(i^*,j^*)为非遮挡区域R_L-1中与p_L-l(i',j')最近邻的特征图片段，

基于检测结果，将特征图F_l中(i',j')处的3×3的图像片段p_l(i',j')用F_l中的(i*,j*)处的特征图片段p_l(i^*,j^*)取代；

在对F_l中对应于遮挡区域的特征图片段进行替换后，得到新的特征图F_l'，将F_l'和F_L-l沿通道维进行串接，并使用卷积运算进行特征融合。

优选地，搭建具有双流结构的深度神经网络作为图像的语义分割子模型包括：顶网络和底网络两部分，底网络为编码器-解码器结构，其中编码器逐层增加特征的语义信息，而解码器则逐层恢复特征的空间信息；顶网络用于保持特征图的分辨率，在具有双流结构的深度神经网络语义分割子模型的每个特征层上，顶网络和底网络进行信息交换。

优选地，对所述级联模型进行训练和验证，包括：

根据图像遮挡区域内容恢复子网络的输出和语义分割子网络的输出计算相应的损失值，并根据损失值对级联模型进行优化。

由上述本发明的对带有遮挡区域的图像进行语义分割的方法提供的技术方案可以看出，本发明可以实现对图像的遮挡区域的语义分割，解决图像中存在遮挡的图像内容理解问题，进而可以实现对有损毁的图像的语义分割，提高自动驾驶的安全性，在人机交互中更好地判断有遮挡的人的姿态等。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例提供了一种对带有遮挡区域的图像进行语义分割的方法流程图；

图2为图像遮挡区域内容恢复子模型的网络结构图；

图3为图像语义分割子模型网络结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤和/或操作，但是并不排除存在或添加一个或多个其他特征、整数、步骤和/或操作的组。应该理解，这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明。

实施例

图1为本实施例提供了一种对带有遮挡区域的图像进行语义分割的方法流程图，包括：

S1为图像中的遮挡区域生成二值掩模，叠加原始图像与所述二值掩模。

二值掩模中对应于遮挡区域的像素值被设为1，其余区域的像素值被设置为0。

将二值掩模按下式(1)进行像素取反：

I'_m＝1-I_m (1)

根据下式(2)叠加原始图像与二值掩模：

I′_x＝I_x⊙I′_m (2)

S2根据叠加后的图像，搭建具有编码-解码结构的遮挡区域图像内容恢复深度神经网络子模型。

以U-Net为主干，在主干网络的从编码器特征图到解码器特征图的跨层连接中引入特征迁移模块，通过特征迁移模块改善遮挡区域的恢复效果，图2为图像遮挡区域内容恢复子模型的网络结构图，特征迁移模块的作用是基于解码器特征图和编码器特征图，使用非遮挡区域的特征图片段改善遮挡区域的特征图片段。

具体包括：

其中，L指该子模型的总层数，p_L-l(i^*,j^*)为非遮挡区域R_L-1中与p_L-l(i',j')最近邻的特征图片段；

上述处理过程可通过由Chen和Schmidt在[T.Q.Chen andM.Schmidt.Fast patch-based styletransfer of arbitrary style.arXiv:1612.04337.2016.]中提出的算法实现。

在对F_l中对应于遮挡区域的特征图片段进行替换后，得到新的特征图F_l'，将F_l'和F_L-l沿通道维进行串接，并使用卷积运算进行特征融合。具体地，使用下表1中所列卷积运算进行特征融合。

表1

[k×k,d]指定卷积运算对应的卷积核的信息，其中k×k是卷积核的大小，d指卷积核的通道数；D(x)表示能够返回输入参数x特征图通道数的函数。

S3搭建具有双流结构的深度神经网络作为图像语义分割子模型，并构建遮挡区域图像内容恢复深度神经网络子模型和语义分割子模型的级联模型。

图3为图像语义分割子模型网络结构图，参照图3，图像语义分割子模型U-Net为主干，包括：顶网络和底网络两部分，底网络为编码器-解码器结构，其中编码器逐层增加特征的语义信息，而解码器则逐层恢复特征的空间信息；顶网络用于保持特征图的分辨率，在语义分割子模型的每个特征层上，顶网络和底网络进行信息交换。

具体地，包括：设有来自顶网络的第l层的特征图F_l ^t，该特征图具有与原始输入图像相同的分辨率，首先将其进行下采样得到特征图F_l ^td，使其与底网络的第l层的特征图F_l ^b分辨率相同；然后，将F_l ^td和F_l ^b沿通道维串接到一起得到F_l ^b'，该步骤对应的信息流如图3中向下箭头所示；接着，用两层卷积核大小为3×3的卷积运算融合串接后的特征图得到特征图F_l ^b”。

一方面，F_l ^b”被上采样到与顶网络中的特征图相同的分辨率并使用卷积核大小为1×1的卷积运算将其通道数调整为与顶网络特征图具有相同的通道数，进行按元素的相加运算，该步骤的信息流方向对应于图中的向上箭头；在顶网络中，做完按元素相加后的全分辨率特征图被传递到下一层做进一步处理。

另一方面，将池化操作运用于F_l ^b”，以降低其空间尺度得到来传递到底层网络的下一层。

底网络处理输入的方式与U-Net处理输入的方式相似。以上过程被重复进行，直到底网络中的特征图被转换成一个单独的向量，然后特征图开始做上采样处理，直到特征图恢复到原始图像大小。

在语义分割子网络的最后一层，顶网络的特征图和底网络的特征图被串接到一起，并进行特征融合。使用下表2中所列卷积运算进行特征融合。

表2

其中，是顶网络的最后一个网络层的特征图。D(x)表示能够返回输入参数x特征图通道数的函数，C为进行语义分割的语义类别的个数。

级联遮挡区域图像内容恢复深度神经网络子模型和语义分割子模型，以构建能够对有遮挡区域的图像进行语义分割的模型，将遮挡区域图像内容恢复深度神经网络子模型的输出传递给语义分割子模型作为输入。

S4对所述级联模型进行训练和验证，通过验证好的级联模型对带有遮挡区域的图像进行语义分割。

根据遮挡区域图像内容恢复深度神经网络子模型的输出和语义分割子网络的输出计算相应的损失值，并根据损失值对级联模型进行优化。

具体地，给定有遮挡图像I_x，对应的二值掩模图像I_m用于表示遮挡区域。在二值掩模中，对应于遮挡区域的像素的值是1，而对应于非遮挡区域的像素值是0。采用L₂范数计算图像遮挡区域内容恢复的重构损失L_r，表述如下式(4)所示：

L_r＝||I_m⊙(I_x-I_o)|| (4)

其中，符号⊙表示按元素相乘，I_o是遮挡区域图像内容恢复深度神经网络子模型的输出。

为得到更为接近自然图像的图像遮挡区域内容恢复结果，除重构损失外，还可以通过使用VGG-16网络作为区分真实图像和生成图像的判别器，来生成对抗损失。具体地，对抗损失如下式(5)计算：

其中，E[]表示对[]中内容求期望值。是带有遮挡图像的图像集，/>是有遮挡的图像对应的真实无遮挡图像的数据集。Net_R()为图像遮挡区域内容恢复子网络，D()为区分真实图像和生成图像的判别器。图像内容恢复子网络的损失函数计算如下式(6)所示：

L_cr＝L_r+λL_a (6)

其中，Lr图像遮挡区域内容恢复的重构损失函数，La为对抗损失，λ是重构损失和对抗损失的组合系数。对于语义分割网络的损失函数，采用下式(7)交叉熵损失函数计算：

其中，N为图像I_x中像素的数量，为将像素i预测为正确标注/>的概率。

最后将叠加了二值掩模的图像输入到级联模型，进行语义分割，即可以得到包括遮挡区域在内的图像的语义分割结果。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种对带有遮挡区域的图像进行语义分割的方法，其特征在于，包括：

根据叠加后的图像，搭建具有编码-解码结构的遮挡区域图像内容恢复深度神经网络子模型，包括：

设R_L-l对应于特征图F_L-l中的遮挡区域，而对应于非遮挡区域，对于一个来自于特征图F_L-l的位置为(i',j')的大小为3×3的特征图片段p_L-l(i',j')，如果该特征图片段与遮挡区域R_L-1有任何重叠，该特征图片段在非遮挡区域的最近邻片段通过下式(3)计算获得：

在对F_l中对应于遮挡区域的特征图片段进行替换后，得到新的特征图F_l'，将F_l'和F_L-l沿通道维进行串接，并使用卷积运算进行特征融合；

2.根据权利要求1所述的方法，其特征在于，所述的为图像中的遮挡区域生成二值掩模，包括：二值掩模中对应于遮挡区域的像素值被设为1，其余区域的像素值被设置为0。

3.根据权利要求1所述的方法，其特征在于，所述的叠加原始图像与所述二值掩模，包括：

将二值掩模按下式(1)进行像素取反：

I'_m＝1-I_m (1)

根据下式(2)叠加原始图像与二值掩模：

I′_x＝I_x⊙I′_m (2)

4.根据权利要求1所述的方法，其特征在于，所述的搭建具有双流结构的深度神经网络作为图像的语义分割子模型包括：顶网络和底网络两部分，底网络为编码器-解码器结构，其中编码器逐层增加特征的语义信息，而解码器则逐层恢复特征的空间信息；顶网络用于保持特征图的分辨率，在具有双流结构的深度神经网络语义分割子模型的每个特征层上，顶网络和底网络进行信息交换。

5.根据权利要求1所述的方法，其特征在于，所述的对所述级联模型进行训练和验证，包括：