CN112819873A

CN112819873A - 高泛化性的跨域道路场景语义分割方法和系统

Info

Publication number: CN112819873A
Application number: CN202110164478.8A
Authority: CN
Inventors: 雷印杰; 彭铎
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-18
Anticipated expiration: 2041-02-05
Also published as: CN112819873B

Abstract

本发明公开一种高泛化性的跨域道路场景语义分割方法，包括：通过游戏引擎产生虚拟图像及对应标签；利用虚拟图像生成全局/局部纹理迁移图像；对虚拟图像、全局/局部纹理迁移图像送入神经网络进行训练；将神经网络训练的全局/局部纹理迁移图像进行一致性约束；对经过神经网络训练的虚拟图像以及经过一致性约束的局纹理迁移图像和局部纹理迁移图像分别与标签计算损失值，并依据损失值训练语义分割模型；利用训练好的语义分割模型进行语义分割。本发明通过对虚拟图像的全局纹理迁移和局部纹理迁移实现数据增强，攻击神经网络，迫使模型学习跨域不变的形状信息；且该方法只在源域进行网络训练，实现了可靠的跨域分割效果，同时拥有很强的泛化性能。

Description

高泛化性的跨域道路场景语义分割方法和系统

技术领域

本发明属于计算机视觉技术领域，具体来说，涉及一种高泛化性的跨域道路场景语义分割方法和系统。

背景技术

图像语义分割是指计算机根据图像的内容实现对图像的理解，然后进行可视化分割。近些年来，随着人工智能的不断发展，基于深度学习的语义分割技术开始越来越多地应用到工业生产、社会安防和交通运输等各个方面，其中，语义分割实现无人驾驶是一个热门方向，也是发展的必然趋势。语义分割是无人车驾驶的核心算法技术，车载摄像头，或者激光雷达探查到图像后输入到神经网络中，后台计算机可以自动将图像分割归类，以避让行人和车辆等障碍。

在近几年的发展中，深度学习语义分割的性能趋于完善，但是研究人员发现，在训练数据集上表现优异的模型在其他场景中应用时效能并不理想，这是因为训练图像(源域)和应用的图像(目标域)存在于两个不同的域，他们的数据分布不一致。对此，科研人员提出了大量基于深度学习的人工智能方法来应对跨域后语义分割的效能衰减问题，这种方法需要提前获取目标域的图像来进一步地将源域分布适应为目标域的分布，从而提高在目标域的分割鲁棒性，但这存在两个问题：其一，目前的大多数方法为了适应新的目标域就必须要提前获得这个目标域的一部分图像数据，这无疑是非常耗费人力物力的；其二，这些方法旨在针对某个已知的目标域进行跨域分割，固定好的模型仅能够适用于这个特定的域，不能泛化到其他域当中，不能满足实际应用的需要。

发明内容

针对现有技术存在的目标域数据依赖度高、泛化性能差的问题，本发明提供了一种不依赖目标域数据且同时具有可观泛化性能的跨域道路场景语义分割方法，该方法通过游戏引擎产生虚拟数据并在虚拟数据集上进行图像处理，攻击神经网络，提升网络对跨域分割的纹理变化的鲁棒性，促进网络对图像中物体形状的学习，从而增强模型的多域泛化的性能。

为实现上述技术目的，本发明采用的技术方案如下：

一种高泛化性的跨域道路场景语义分割方法，包括：

通过游戏引擎产生虚拟图像及对应标签；

将虚拟图像进行全局纹理迁移生成全局纹理迁移图像；

将虚拟图像和全局纹理迁移图像进行局部纹理迁移生成局部纹理迁移图像；

对虚拟图像、全局纹理迁移图像以及局部纹理迁移图像进行统一尺寸后送入神经网络进行训练；

将经过神经网络训练的全局纹理迁移图像和局部纹理迁移图像进行一致性约束；

对经过神经网络训练的虚拟图像以及经过一致性约束的局纹理迁移图像和局部纹理迁移图像分别与标签计算损失值，并依据损失值训练语义分割模型；

利用训练好的语义分割模型对任一真实场景进行语义分割。

进一步限定，所述将虚拟图像进行全局纹理迁移生成全局纹理迁移图像按照如下方式获得全局纹理迁移图像X_GTR：

其中，F_X是虚拟图像的特征，F_T是纹理图像的特征，μ是特征图的均值，σ是特征图的方差，f为将特征解码为全局纹理迁移图像的神经网络。

进一步限定，所述将虚拟图像和全局纹理迁移图像进行局部纹理迁移生成局部纹理迁移图像，包括：

构建随机掩膜M；

按照如下方式获得局部纹理迁移图像X_LTR：

其中

为元素点乘运算。

进一步限定，所述构建随机掩膜M包括：

对随机噪声图像进行卷积平滑得到卷积图像，卷积核为3×3大小，服从e^logλ分布；

将卷积图像通过自适应判决门限生成随机掩膜M，所述自适应判决门限由特征图的均值μ和方差σ决定。

进一步限定，所述对虚拟图像、全局纹理迁移图像以及局部纹理迁移图像进行统一尺寸后送入神经网络进行训练包括：

分别对虚拟图像、全局纹理迁移图像以及局部纹理迁移图像按照设定步长s裁剪成正方形图像；

分别对裁剪后的虚拟图像、全局纹理迁移图像以及局部纹理迁移图像放缩成指定分辨率大小；

将放缩后的虚拟图像、全局纹理迁移图像以及局部纹理迁移图像分别送入深度卷积神经网络进行训练。

进一步限定，所述设定步长_s按照如下方式获得：

其中，l为图像的长度，w为图像的宽度，[]为向下取整。

进一步限定，所述将经过神经网络训练的全局纹理迁移图像和局部纹理迁移图像进行一致性约束包括：

获取经过神经网络训练的全局纹理迁移图像和局部纹理迁移图像的特征图；

计算每个对应特征图的L₁距离：

其中，

和

分别为全局纹理迁移图像和局部纹理迁移图像在神经网络输出层前一层的特征，i代表特征图中第i个特征值，N为特征图的分辨率；

通过L₁距离计算特征图之间的差异性实现约束。

本申请另一个发明目的是提供一种高泛化性的跨域道路场景语义分割系统，具体包括：

图像生成模块，其通过游戏引擎产生虚拟图像及对应标签；

全局纹理迁移模块，其将虚拟图像进行全局纹理迁移生成全局纹理迁移图像；

局部纹理迁移模块，其将局部将虚拟图像和全局纹理迁移图像进行局部纹理迁移生成局部纹理迁移图像；

神经网络训练模块，其对虚拟图像、全局纹理迁移图像以及局部纹理迁移图像进行统一尺寸后送入神经网络进行训练；

一致性约束模块，其将经过神经网络训练的全局纹理迁移图像和局部纹理迁移图像进行一致性约束；

语义分割模型训练模块，其对经过神经网络训练的虚拟图像以及经过一致性约束的局纹理迁移图像和局部纹理迁移图像分别与标签计算损失值，并依据损失值训练语义分割模型；

语义分割模块，利用训练好的语义分割模型对任一真实场景进行语义分割。

本发明相比现有技术，具有如下有益效果：

1.数据获取方便，减轻劳动力，训练网络最基础的虚拟图像可以由游戏引擎直接产生，相应的标签也是直接生成，无需人工标注，节省大量人力物力。

2.鲁棒性好，模型只从单一的虚拟图像进行训练，学习图像形状，而不关注纹理特征，训练过程种不需要适应特定的目标域，因此可以普遍适用于多种真实场景。

3.在不接触任何目标域数据的基础上，跨域语义分割的评价指标精度高。

4.发展前景好，数据不依赖任何目标域数据，只凭借源域数据的纹理迁移增强即可，任何形式的纹理图皆可用来实现纹理迁移，目前纹理图像仅为15种，按照需要可以不断增加迁移的纹理种类，能够满足未来更深的网络和更高的算力需求。

附图说明

图1为本发明跨域道路场景语义分割方法的流程图；

图2为本发明的全局纹理迁移示意图；

图3为本发明的局部纹理迁移示意图；

图4为本发明跨域道路场景语义分割系统的结构示意图；

图5为本发明的在三个真实场景下的跨域语义分割效果图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

目前的语义分割方法中，目标域的图像数据难以提前获取，以自动驾驶为例，运营商不可能提前获得所有目标地区的道路图像，而且现有的分割方法只能针对已知的目标域进行分割，因此训练好的模型仅能够适用于这个特定的域，无法泛化到其他目标域。

图1示出了一种高泛化性的跨域道路场景语义分割方法的流程图，包括：

S10：通过游戏引擎产生虚拟图像及对应标签。

由于游戏引擎可以产生大量拟真图像，同时易于获取对应标签，本实施例中通过游戏引擎来产生大量虚拟图像和标签来进行训练模型。

S20：将虚拟图像进行全局纹理迁移生成全局纹理迁移图像。

首先采用AdaIN(Adaptive Instance Normalization)来对虚拟图像X进行全局纹理迁移，用于全局纹理迁移的纹理图像T不低于15种。记FX是虚拟图像的特征，FT是纹理图像的特征，μ是特征图的均值，σ是特征图的方差，则按照如下方式获得全局纹理迁移图像X_GTR：

其中，f为将特征解码为全局纹理迁移图像的神经网络。

图2给出了全局纹理迁移的示意图，从图中可以看出，虚拟图像能将纹理图像的特征迁移后生成了具有纹理图像特征的全局纹理图像。

S30：将虚拟图像和全局纹理迁移图像进行局部纹理迁移生成局部纹理迁移图像。

在局部纹理迁移过程中，其迁移对象是虚拟图像以及已经完成的全局纹理迁移图像，包括如下步骤：

首先是按下式构建随机掩膜M

M＝γ(f^3×3(G，e^logλ))

其中，f^3×3(G，e^logλ)为3×3大小且服从e^logλ分布的卷积核对随机噪声图像进行卷积平滑得到的卷积图像，然后将其通过自适应判决门限γ生成随机掩膜M。

可见随机掩膜M的生成依赖于自适应判决门限γ，参数自适应判决门限由特征图的均值μ和方差σ决定，因此是自适应的。

随机掩膜的随机性体现在λ在神经网络每次迭代时，是随机从[4，16]之间取值。

最后按照如下方式获得局部纹理迁移图像X_LTR：

其中

为元素点乘运算。

图3给出了将虚拟图像和全局纹理图像使用随机掩膜M后生成的局部纹理迁移图像。

S40：对虚拟图像、全局纹理迁移图像以及局部纹理迁移图像进行统一尺寸后送入神经网络进行训练。

在将待训练图像(虚拟图像、全局纹理迁移图像以及局部纹理迁移图像)送入神经网络进行训练之前，先对待训练图像统一尺寸，具体为：

先设定步长s将待训练图像裁剪成正方形图像，步长的设定方式如下：

其中，l为待训练图像的长度，w为待训练图像的宽度，[]为向下取整操作。

以一个分辨率为640*480的图像举例来说，步长s为

因此只需要将该图像640的长边裁剪掉160，就可以获得一个480*480的正方形图像。

然后将裁剪为正方形的待训练图像放缩到指定分辨率大小，本实施例中指定分辨率大小为640*640。

最后将放缩后的待训练图像送虚拟图像、全局纹理迁移图像以及局部纹理迁移图像分别送入采用101层的深度残差网络ResNet-101中进行训练。

ResNet-101网络结构为端到端的“编码-解码”结构，在解码过程中，每个模块接收前一模块的输出作为输入，然后进行最近邻插值，使得特征图尺寸变为输入的2倍，训练过程中我们采用交叉熵损失和L₁距离的函数形式来衡量网络当前的分割效果并惩罚网络权重。

ResNet-101相比其它卷积神经网络(比如vgg-16，Resnet-50等)的实验效果更好。

S50：将经过神经网络训练的全局纹理迁移图像和局部纹理迁移图像进行一致性约束。

其中，上述一致性约束过程具体为：

计算每个对应特征图的L₁距离；

其中，

和

分别为全局纹理迁移图像和局部纹理迁移图像在神经网络输出层前一层的特征，i代表特征图中第i个特征值，N为特征图的分辨率。L₁表示先计算每个对应特征图的元素距离，再求和。

通过L₁距离计算特征图之间的差异性实现约束。

S60：对经过神经网络训练的虚拟图像以及经过一致性约束的局纹理迁移图像和局部纹理迁移图像分别与标签计算损失值，并依据损失值训练语义分割模型。

损失值的计算可以依据交叉熵损失函数来计算。

S70：利用训练好的语义分割模型对任一真实场景进行语义分割。

如图4所示，本申请还提供了一种高泛化性的跨域道路场景语义分割系统，具体包括图像生成模块、全局纹理迁移模块、局部纹理迁移模块、神经网络训练模块、一致性约束模块、语义分割模型训练模块和语义分割模块。

其中，由于游戏引擎可以产生大量拟真图像，同时易于获取对应标签，图像生成模块通过游戏引擎来产生需要训练的虚拟图像。

全局纹理迁移模块将虚拟图像进行全局纹理迁移生成全局纹理迁移图像，全局纹理迁移中纹理图像不低于15种。

局部纹理迁移模块用于将局部将虚拟图像和全局纹理迁移图像进行局部纹理迁移生成局部纹理迁移图像。在局部纹理迁移中，需要先将随机噪声图像经过高斯核平滑后经过一个自适应的判决门限形成随即掩码M：

M＝γ(f^3×3(G，e^logλ))

卷积核为3×3大小且服从e^logλ分布，自适应判决门限γ由特征图的均值μ和方差σ决定，因此是自适应的。

随机掩膜M的随机性体现在λ在神经网络每次迭代时，是随机从[4，16]之间取值。

最后按照如下方式利用随机掩码获得局部纹理迁移图像x_LTR：

其中

为元素点乘运算。

神经网络训练模块对虚拟图像、全局纹理迁移图像以及局部纹理迁移图像进行统一尺寸后送入神经网络进行训练，可见在进行神经网络训练之前需要先对虚拟图像、全局纹理迁移图像以及局部纹理迁移图像统一尺寸，具体为：

先按照设定步长s裁剪成正方形图像；

再对裁剪后的虚拟图像、全局纹理迁移图像以及局部纹理迁移图像放缩成指定分辨率大小；

最后将放缩后的虚拟图像、全局纹理迁移图像以及局部纹理迁移图像分别送入深度卷积神经网络Resnet-101进行训练。

一致性约束模块用于将经过神经网络训练的全局纹理迁移图像和局部纹理迁移图像进行一致性约束。

其中一致性约束是指：先获取经过神经网络训练的全局纹理迁移图像和局部纹理迁移图像的特征图，再计算每个对应特征图的L₁距离，最后通过L₁距离计算特征图之间的差异性实现约束，其中L₁距离为：

其中，

和

分别为全局纹理迁移图像和局部纹理迁移图像在神经网络输出层前一层的特征，i代表特征图中第i个特征值，N为特征图的分辨率。

语义分割模型训练模块用于对经过神经网络训练的虚拟图像以及经过一致性约束的局纹理迁移图像和局部纹理迁移图像分别与标签计算损失值，并依据损失值训练语义分割模型，最后保存该语义分割模型。

使用时，语义分割模块利用训练好的语义分割模型对任一真实场景进行语义分割。

本发明通过对虚拟图像的全局纹理迁移和局部纹理迁移实现数据增强，攻击神经网络，迫使模型学习跨域不变的形状信息；该方法充分考虑了在应用场景下目标域的数据很难提前获得，提出只在源域进行网络的训练，实现了可靠的跨域分割效果，同时拥有很强的泛化性能。

语义分割评价指标-mIOU

在进行语义分割结果评价的时候，常常将预测出来的结果分为四种情况：真正truepositive(TP，预测的某标签部分，符合真值)、假正false positive(FP，预测中分割为某标签的部分，但是实际上并不是该标签所属的部分)、真负true negative(TN，预测中真实的背景部分)和假负false negative(FN，预测中被预测为背景，但实际上并不是背景的部分)，其中negative就是指非物体标签的部分(可以直接理解为背景)，那么显而易见的，positive就是指有标签的部分。

IoU(intersection overunion)指标就是大家常说的交并比，在语义分割中作为标准度量一直被人使用。IoU一般都是基于类进行计算的，也有基于图片计算，基于类进行计算的IoU就是将每一类的IoU计算之后累加，再进行平均，得到的就是基于全局的评价，其实是取了均值的IoU，也就是均交并比mIOU(mean IoU)。

其中，p_ij表示真实值为i，被预测为j的数量，k+1为类别个数(包含空类)，p_ii表示真正TP的数量，p_ij表示假正FP的数量，p_ji则表示假负FN的数量。

如图5所示，本实施例通过训练得到的语义分割模型在三个真实场景下检验跨域语义分割效果，GTA5到Cityscapes、GTA5到BDDS和GTA5到Mapillary的跨域语义分割设定上分别达到了43.7，39.6和39.1的mIOU，可见在不接触任何目标域数据的基础上，本申请提供的跨域道路场景的语义分割方法和系统评价指标精度比较高。

以上对本申请提供的一种高泛化性的跨域道路场景语义分割方法和系统进行了详细介绍。具体实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。