CN114445413A

CN114445413A - 一种基于域自适应的帧间图像语义分割方法与系统

Info

Publication number: CN114445413A
Application number: CN202210357799.4A
Authority: CN
Inventors: 蒋先涛; 张纪庄; 郭咏梅; 郭咏阳
Original assignee: Ningbo Kangda Kaineng Medical Technology Co ltd
Current assignee: Ningbo Kangda Kaineng Medical Technology Co ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-05-06
Anticipated expiration: 2042-04-07
Also published as: CN114445413B

Abstract

本发明公开了一种基于域自适应的帧间图像语义分割方法与系统，涉及图像处理技术领域，包括步骤：通过图像层级的域自适应处理训练图像，获得视觉风格优化后的增强图像；获取增强图像经过目标渲染处理后，带有相应语义标签的目标渲染图像；通过最小熵损失函数进行目标渲染图像与目标图像之间基于对抗学习的域间自适应训练；基于目标图像的熵图平均值进行有监督数据和无监督数据的提取；通过域间自适应训练后的模型结合有监督数据，与无监督数据进行基于熵的对抗学习，获取域内自适应后的语义分割模型。本发明通过增加图像层级的域自适应，降低视觉高维特征对输出空间的影响，通过三个层次域自适应的结合大大提高语义分割的精度。

Description

一种基于域自适应的帧间图像语义分割方法与系统

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于域自适应的帧间图像语义分割方法与系统。

背景技术

基于卷积神经网络（CNNs）的研究促进了对于计算机视觉的不断发展。在基于CNN的模型中，语义分割在自动驾驶、事态诊断和图像编辑等方面的潜在应用前景受到了人们的广泛关注。语义分割是一种将类标签(如人、车、路、树等分类)分配到图像中每个像素的技术。这样的分割模型需要使用逐像素的真实数据（ground truths）来对模型进行训练。然而，语义分割训练模型存在两个关键的问题。首先，创建精确的逐像素注释需要长时间的手工工作以及高劳动力成本。事实上，据报告，Cityscape数据集(一个驾驶图像数据集)需要90分钟才能创建获得逐像素的注释。其次，当训练图像和测试图像之间，由于不同环境（如光照度、清晰度等）而导致存在域间隙时，很难很好地对其进行检测。例如，当城市、天气或拍摄条件发生变化时，图像的特征分布可能与训练图像的特征分布存在显著不同。在这种情况下，仅依靠监督模型，会由于域间隙的存在导致语义分割的准确性降低。

为了在各种条件下都能执行高精确的语义分割，有必要在各种条件下都为每个像素创建有监督的数据。但是，逐像素注释非常耗时，而且很难注释所有条件。因此，人们现如今的解决方法是，通过在游戏引擎渲染的逼真数据中添加像素级注释，再将其用于学习语义分割网络。然而，由于游戏图像和真实驾驶序列的域分布不同，其分割精度并不如想象中的高。

发明内容

为了进一步提高语义分割的精度，考虑到现有语义分割中对于特征空间处理的特点，本发明提出了一种基于域自适应的帧间图像语义分割方法，以真实世界的城市景观数据集作为目标图像，以带有语义标签的城市景观数据集作为训练图像，包括步骤：

S1：获取预设数量的目标图像和训练图像；

S2：通过图像层级的域自适应处理训练图像，获得视觉风格优化后的增强图像；

S3：获取增强图像经过目标渲染处理后，带有相应语义标签的目标渲染图像；

S4：通过最小熵损失函数进行目标渲染图像与目标图像之间基于对抗学习的域间自适应训练；

S5：基于目标图像的熵图平均值提取目标图像中预设域间隙范围内的图像作为有监督数据，并提取目标图像中预设域间隙范围外的图像作为无监督数据；

S6：通过域间自适应训练后的模型结合有监督数据，与无监督数据进行基于熵的对抗学习，获取域内自适应后的语义分割模型。

进一步地，所述带有语义标签的城市景观数据集来自于城市景观写实应用的图像数据库。

进一步地，所述S2步骤中，图像层级的域自适应通过对图像参数进行调整，使训练图像优化为真实世界的视觉风格。

进一步地，所述S4步骤中，域间自适应训练是将基于熵的无监督域自适应应用于输出空间，通过对抗式最小化与域自适应强相关的熵进行的语义分割，其表示为如下公式：

式中，L_seg为有监督分割损失，L_ent为无监督熵损失，（x_s，y_s）为目标渲染图像，x_t为目标图像。

进一步地，所述S5步骤中，熵图平均值表示为如下公式：

式中，R(|X_t|)为熵图平均值，H、W分别表示目标图像的长度和宽度，h为上限为H的常数，w为上限为W的常数，

为目标图像在（h，w）处的熵值。

进一步地，所述预设域间隙范围由如下公式确认：

式中，λ为预设域间隙范围，|X_t|为当前帧图像的熵图平均值，|X_te|为目标图像通过YOLO模型检测所获得易分割图像的熵图平均值。

本发明还提出了一种基于域自适应的帧间图像语义分割系统，以真实世界的城市景观数据集作为目标图像，以带有语义标签的城市景观数据集作为训练图像，包括：

数据获取单元，用于获取预设数量的目标图像和训练图像；

视觉优化单元，用于通过图像层级的域自适应处理训练图像，获得视觉风格优化后的增强图像；

图像渲染单元，用于渲染增强图像中的目标，并获得带有相应语义标签的目标渲染图像；

域间优化单元，用于通过最小熵损失函数进行目标渲染图像与目标图像之间基于对抗学习的域间自适应训练；

数据分化单元，用于根据目标图像的熵图平均值提取目标图像中预设域间隙范围内的图像作为有监督数据，并提取目标图像中预设域间隙范围外的图像作为无监督数据；

域内优化单元，通过域间自适应训练后的模型结合有监督数据，与无监督数据进行基于熵的对抗学习，获取域内自适应后的语义分割模型。

进一步地，所述视觉优化单元中，图像层级的域自适应通过对图像参数进行调整，使训练图像优化为真实世界的视觉风格。

进一步地，所述域间优化单元中，域间自适应训练是将基于熵的无监督域自适应应用于输出空间，通过对抗式最小化与域自适应强相关的熵进行的语义分割，其表示为如下公式：

与现有技术相比，本发明至少含有以下有益效果：

（1）本发明所述的一种基于域自适应的帧间图像语义分割方法与系统，考虑到现有的语义分割技术都只考虑了中间特征空间的自适应学习，没有在图像层面进行预自适应，因此通过增加图像层级的域自适应，降低视觉高维特征对输出空间的影响；

（2）通过域自适应进行语义分割，可以在没有任何监督数据的情况下很好地分割图像，减少语义标签的创建时间。

附图说明

图1为一种基于域自适应的帧间图像语义分割方法的方法步骤图；

图2为一种基于域自适应的帧间图像语义分割系统的系统结构图；

图3为图像域处理流程示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

为了改进现有语义分割过程中由于考虑不够全面导致的分割精度不足问题，如图1所示，本发明提出了一种基于域自适应的帧间图像语义分割方法，包括步骤：

S1：获取预设数量的目标图像和训练图像；

考虑到逐像素注释非常耗时，而且很难注释所有条件，因此，本发明从城市景观写实应用中的图像数据库中，选取相应带有语义标签的城市景观数据作为训练图像，以真实世界的城市景观数据集作为目标图像。

在一优选实施例中，将《侠盗猎车手V》选为该实施例的城市景观写实应用，选取19252张图像作为训练图像。另外，从真实世界（例如亚琛、波鸿、不莱梅和苏黎世等符合《侠盗猎车手V》中城市景观特征的城市）中拍摄获取的Cityscape数据集中的2975幅图像作为目标图像，并从中单独筛选出500张图像作为最终的评估数据。需要注意的是，该优选实施例仅为举例说明，在实际应用中可以根据实际需求选用其它城市景观写实应用作为训练图像的数据提取源。

在语义分割中，考虑到城市景观仿真软件中的城市景观图像，为增强用户的视觉感官冲击，营造更为美观的城市景观，其在视觉风格（存在曝光度、分辨率、清晰度、透明度等方面的过度调整）上往往是与真实世界的城市景观不相符的。因此，两者之间存在域间差距，因此直接通过城市景观仿真软件中的城市景观图像进行语义分割训练容易导致分割精度较低。

基于目标图像与训练图像之间的域间差距，本发明提出通过域自适应的方法来调整两者之间的特征。而对域间差距的调整，一般是采用对抗性方法减小熵损失的方法（包括域间自适应和域内自适应两个阶段）。基于最小熵损失模型的两阶段自监督域自适应方法，虽然使训练图像与目标图像之间的大部分域内间隙最小化了，能够比之前的模型表现出更好的语义分割性能。但是，上述模型都只考虑了中间特征空间的自适应学习，没有在图像级层面进行域自适应。

之所以说需要对图像级层面的域自适应进行考虑，是因为域自适应常常受到视觉高维特征复杂性的困扰，并容易将该干扰带入到输出空间中。因此，为了避免图像层级的视觉复杂性影响到后续的域自适应处理，在挑选出城市景观仿真应用中的城市景观图像后，就需要对其进行图像层级的域自适应处理，以改进基于城市景观写实应用进行训练图像提取的语义分割训练方法。通过对各种图像各项参数（亮度、对比度、透明度等）的调整获得视觉风格优化后的增强图像，使其更加贴近真实世界的视觉风格，而后在对增强图像进行目标渲染后就可进入下一处理流程。同时，由于图像层级的域自适应，其输入图像与输出图像在结构上是一致的，因此，其也可以用于无监督域自适应，以便满足图像样本少、识别标签少情况下的自适应学习。

如图3所示，为本发明在现有域自适应的基础上增加图像层级域自适应的的大致图像处理流程图。整体包括：图像层级域自适应、域间自适应和域内自适应。上文所述的就是对于图像层级域自适应的处理，接下来对域间自适应和域内自适应进行解释说明。

无监督域间自适应的主要思想是调整有标签训练图像和无标签目标图像之间的分步偏差。在此处，本发明通过最小化中间特征的分步差异来处理域间自适应工作。也即是在输出空间中通过一种有效的具有对抗性学习能力的域自适应算法，在分割空间的输出空间中应用基于熵的无监督域自适应，利用对抗性学习，最小化与域自适应强相关的熵来实现语义分割的准确率提高。也即是通过对抗训练，使得目标渲染图像在经过对抗训练后，使其更加符合真实世界下对于各目标的识别与语义标签选定，其可以表示为如下公式：

在一优选实施例中，使用19252张经过图像层级域自适应的图像和相对应的语义标签作为目标渲染图像。另外，使用除去500张评估图像的2475张真实世界的城市景观数据集作为域间自适应中的目标图像。使用对抗方法最小化熵损失的方法进行基于对抗学习的域间自适应学习。培训周期为120000次，批量为1。分割网络使用Deeplabv2，网络是经过ResNet预训练的ImageNet。

在域内自适应中，是在结合域间自适应的训练基础上，将研究的重点放在填补域内的差距。相比之下，本发明所提出的模型考虑到了熵的域内自适应，通过对目标数据集中的图像进行排序，将其分为易分割和难分割两类来处理域内自适应问题。其中，易分割是指图像的域间隙小，易于检测；难分割是指图像的域间隙大，检测精度低。同时，域内自适应也是一种基于熵的对抗性学习（公式类比于域间自适应的对抗性学习）。

在这里，采取目标图像X_t作为输入并且生成熵图，用于后续对抗学习的域内自适应。其中，排序方程如下公式：

为目标图像在（h，w）处的熵值。

通过计算熵图I_t的平均值，使用平均值R(|X_t|)和易分割图像之间的比例λ将目标图像分为易分割和难分割，其中：

式中，λ也即是预设域间隙范围，|X_t|为当前帧图像的熵图平均值，|X_te|为目标图像通过YOLO模型检测所获得易分割图像的熵图平均值。

通过λ，可以从目标数据中提取一组具有小域间隙的图像。分类完成后，将具有小域间隙的图像的熵输出结果作为有监督数据结合域间自适应训练后得到的模型，并利用大域间隙的图像作为无监督数据，进行两者间基于熵的对抗学习，从而进一步提高语义分割的精确度。

域内自适应旨在减少目标图像本身的大域缺口。与静止状态下的清洗图像相比，目标图像中的某些图像会受到噪声的影响而退化，这种情况称为域内间隙。而域内自适应就是将这些退化的图像挑选出来，进行有监督数据与无监督数据（退化的图像）之间基于熵的对抗学习，从而解决大域内间隙目标图像引起的语义分割精度下降的问题。

最后，本发明通过交并比（Intersect over Union，简称IoU）作为评价指标，通过预先筛选出的500张评估图像进行目标检测挑战。以此来验证最终所获得语义分割模型的精确度。其中，交并比法的计算，是将重叠区域划分为联合区域。重叠区域是预测区域和真实区域重叠的区域，联合区域是预测区域和真实区域共同包含的区域。通过将重叠区域除以联合区域，我们可以得到所求的IoU值。

实施例二

为了更好的对本发明的技术内容进行理解，本实施例通过系统结构的形式来对本发明的技术内容进行阐述，如图2所示，一种基于域自适应的帧间图像语义分割系统，以真实世界的城市景观数据集作为目标图像，以带有语义标签的城市景观数据集作为训练图像，包括：

数据获取单元，用于获取预设数量的目标图像和训练图像；

进一步地，带有语义标签的城市景观数据集来自于城市景观写实应用的图像数据库。

进一步地，视觉优化单元中，图像层级的域自适应通过对图像参数进行调整，使训练图像优化为真实世界的视觉风格。

进一步地，域间优化单元中，域间自适应训练是将基于熵的无监督域自适应应用于输出空间，通过对抗式最小化与域自适应强相关的熵进行的语义分割，其可以表示为如下公式：

综上所述，本发明所述的一种基于域自适应的帧间图像语义分割方法与系统，考虑到现有的语义分割技术都只考虑了中间特征空间的自适应学习，没有在图像层面进行预自适应，因此通过增加图像层级的域自适应，降低视觉高维特征对输出空间的影响。

通过域自适应进行语义分割，可以在没有任何监督数据的情况下很好地分割图像，减少语义标签的创建时间。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”、“一”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

Claims

1.一种基于域自适应的帧间图像语义分割方法，其特征在于，以真实世界的城市景观数据集作为目标图像，以带有语义标签的城市景观数据集作为训练图像，包括步骤：

S1：获取预设数量的目标图像和训练图像；

2.如权利要求1所述的一种基于域自适应的帧间图像语义分割方法，其特征在于，所述带有语义标签的城市景观数据集来自于城市景观写实应用的图像数据库。

3.如权利要求1所述的一种基于域自适应的帧间图像语义分割方法，其特征在于，所述S2步骤中，图像层级的域自适应通过对图像参数进行调整，使训练图像优化为真实世界的视觉风格。

4.如权利要求1所述的一种基于域自适应的帧间图像语义分割方法，其特征在于，所述S4步骤中，域间自适应训练是将基于熵的无监督域自适应应用于输出空间，通过对抗式最小化与域自适应强相关的熵进行的语义分割，其表示为如下公式：

5.如权利要求1所述的一种基于域自适应的帧间图像语义分割方法，其特征在于，所述S5步骤中，熵图平均值表示为如下公式：

为目标图像在（h，w）处的熵值。

6.如权利要求5所述的一种基于域自适应的帧间图像语义分割方法，其特征在于，所述预设域间隙范围由如下公式确认：

7.一种基于域自适应的帧间图像语义分割系统，其特征在于，以真实世界的城市景观数据集作为目标图像，以带有语义标签的城市景观数据集作为训练图像，包括：

数据获取单元，用于获取预设数量的目标图像和训练图像；

8.如权利要求7所述的一种基于域自适应的帧间图像语义分割系统，其特征在于，所述带有语义标签的城市景观数据集来自于城市景观写实应用的图像数据库。

9.如权利要求7所述的一种基于域自适应的帧间图像语义分割系统，其特征在于，所述视觉优化单元中，图像层级的域自适应通过对图像参数进行调整，使训练图像优化为真实世界的视觉风格。

10.如权利要求7所述的一种基于域自适应的帧间图像语义分割系统，其特征在于，所述域间优化单元中，域间自适应训练是将基于熵的无监督域自适应应用于输出空间，通过对抗式最小化与域自适应强相关的熵进行的语义分割，其表示为如下公式：