CN113627433A

CN113627433A - 基于数据扰动的跨域自适应语义分割方法及装置

Info

Publication number: CN113627433A
Application number: CN202110680850.0A
Authority: CN
Inventors: 张兆翔; 宋纯锋; 王玉玺
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-11-09
Anticipated expiration: 2041-06-18
Also published as: CN113627433B

Abstract

本发明提供的一种基于数据扰动的跨域自适应语义分割方法及装置，该方法包括，获取待处理数据以及添加数据扰动后的语义分割特征；基于所述待处理数据以及所述语义分割特征确定损失函数；基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型，通过对目标域中大量无标签数据，本发明对这部分数据随机加入扰动，并保证经过扰动处理的图像能够保持语义的一致性，从数据扰动和跨域原型分类器两个角度解决了源域和目标域之间的领域不一致问题，并且针对在现实应用中更具实际应用价值的少量监督问题做了针对性的设计，并在基于对抗的学习框架下，取得了优秀的分割性能，将现有的标注样本的知识迁移到新数据模型中。

Description

基于数据扰动的跨域自适应语义分割方法及装置

技术领域

本发明涉及机器视觉技术领域，尤其涉及一种基于数据扰动的跨域自适应语义分割方法及装置。

背景技术

领域自适应作为迁移学习的一种，是机器学习领域一个重要且具有挑战性的任务，在图像识别，目标检测以及图像语义分割等领域具有广泛应用。在大数据时代，每天都会有海量的数据产生，但能够用于机器学习的标注数据却很难获取，因为这些数据的标注有些需要耗时的精细标注，比如像素级别的语义分割标注，有些需要标注者有足够的主业知识及经验，比如医学影像的标注，还有些由于数据量极大，标注困难。

因此，如何提供一种基于数据扰动的跨域自适应语义分割方案，将现有的标注样本的知识迁移到新数据模型中是本领域技术人员亟待处理的技术问题。

发明内容

本发明提供一种基于数据扰动的跨域自适应语义分割方法及装置，将现有的标注样本的知识迁移到新数据模型中。

第一方面，本发明提供一种基于数据扰动的跨域自适应语义分割方法，包括：

获取待处理数据以及添加数据扰动后的语义分割特征；

基于所述待处理数据以及所述语义分割特征确定损失函数；

基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型。

进一步地，所述获取待处理数据以及添加数据扰动后的语义分割特征包括：

获取待处理数据，所述待处理数据包括：有标签的源域数据

有标签的目标域数据

和无标签的目标域数据

其中，n_s、n_t和n_u分别依次表示源域数据的数量、有标签的目标域的数量以及无标签的目标域数据的数量；

对所述无标签的目标域数据添加随机扰动，得到扰动后的目标域图像数据

基于所述待处理数据以及所述目标域图像数据处理得到各自对应的语义分割特征；所述语义分割特征包括：有标签的源域数据特征F_s＝G(x_s)，有标签的目标域数据特征F_t＝G(x_t)，无标签的目标域数据特征F_u＝G(x_u)以及扰动后的目标域图像数据特征F_a＝G(x_a)。

进一步地，所述数据扰动包括以下至少一种：颜色抖动处理、高斯模糊处理以及亮度处理。

进一步地，所述基于所述待处理数据以及所述语义分割特征确定损失函数包括：

将基于所述有标签的源域数据特征F_s＝G(x_s)以及无标签的目标域数据特征F_u＝G(x_u)传入到领域判别器网络，得到数据来源结果；所述判别器网络用于判别输出的特征来自于源数据或目标域数据；

基于所述数据来源结果构建对抗损失函数：

其中，E表示期望，p(x)表示数据x来自于分布p(x)。

基于有标签的源域数据

以及有标签的目标域数据

构造基于标签监督信息的语义分割损失：

其中l_seg表示交叉熵损失，并且在数据x和标签y之间的定义为：

H、W表示图像长和宽并且C代表分割类别总数；

构造基于原型分类器的迁移损失，所述迁移损失包括：类别层面的适应损失

其中

和

分别表示基于源域数据和目标域数据得到的类别原型；任务层面对齐损失：L_task(x_u)＝D_KL(P_s(G,x_u)||P_t(G,x_u))，D_KL表示KL散度约束；

基于有标签的源域数据构造出基于有监督的语义分割损失

其中，H，W，C分别表示图像的长宽以及类别；

基于无标签的目标域数据构造语义一致性损失L_{s_cyc}(G)＝D_KLP_u(G,x_u)||P_a(G,x_a)。

进一步地，所述基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型包括：

将训练样本输入到待训练模型，计算待训练模型的各层输出数据；

基于所述损失函数计算待训练模型的网络输出误差，得到各层误差信息；

基于所述各层误差信息调整待训练模型各层权值，直到网络总误差是否达到预设条件。

第二方面，本发明提供一种基于数据扰动的跨域自适应语义分割装置，包括：

数据获取模块，用于获取待处理数据以及添加数据扰动后的语义分割特征；

损失确定模块，用于基于所述待处理数据以及所述语义分割特征确定损失函数；

模型训练模块，用于基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型。

进一步地，所述数据获取模块包括：

第一单元，用于获取待处理数据，所述待处理数据包括：有标签的源域数据

有标签的目标域数据

和无标签的目标域数据

第二单元，用于对所述无标签的目标域数据添加随机扰动，得到扰动后的目标域图像数据

第三单元，用于基于所述待处理数据以及所述目标域图像数据处理得到各自对应的语义分割特征；所述语义分割特征包括：有标签的源域数据特征F_s＝G(x_s)，有标签的目标域数据特征F_t＝G(x_t)，无标签的目标域数据特征F_u＝G(x_u)以及扰动后的目标域图像数据特征F_a＝G(x_a)。

进一步地，所述损失确定模块包括：

来源判别单元，用于将基于所述有标签的源域数据特征F_s＝G(x_s)以及无标签的目标域数据特征F_u＝G(x_u)传入到领域判别器网络，得到数据来源结果；所述判别器网络用于判别输出的特征来自于源数据或目标域数据；

函数构造单元，用于基于所述数据来源结果构建对抗损失函数：

D(G(x_u)))]，其中，E表示期望，p(x)表示数据x来自于分布p(x)。

进一步地，所述损失确定模块包括：

第四单元，用于基于有标签的源域数据

以及有标签的目标域数据

构造基于标签监督信息的语义分割损失：

H、W表示图像长和宽并且C代表分割类别总数；

第五单元，用于构造基于原型分类器的迁移损失，所述迁移损失包括：类别层面的适应损失

其中

和

第六单元，用于基于有标签的源域数据构造出基于有监督的语义分割损失

其中，H，W，C分别表示图像的长宽以及类别；

第七单元，用于基于无标签的目标域数据构造语义一致性损失L_{s_cyc}(G)＝D_KLP_u(G,x_u)||P_a(G,x_a)。

进一步地，所述模型训练模块包括：

数据输出单元，一股脑油将训练样本输入到待训练模型，计算待训练模型的各层输出数据；

误差分析单元，用于基于所述损失函数计算待训练模型的网络输出误差，得到各层误差信息；

权值调整单元，用于基于所述各层误差信息调整待训练模型各层权值，直到网络总误差是否达到预设条件。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于数据扰动的跨域自适应语义分割方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于数据扰动的跨域自适应语义分割方法的步骤。

本发明提供的一种基于数据扰动的跨域自适应语义分割方法及装置，通过对目标域中大量无标签数据，本发明对这部分数据随机加入扰动，并保证经过扰动处理的图像能够保持语义的一致性，通过构建跨域原型分类器来对齐源域和目标域的数据分布，从数据扰动和跨域原型分类器两个角度解决了源域和目标域之间的领域不一致问题，并且针对在现实应用中更具实际应用价值的少量监督问题做了针对性的设计，并在基于对抗的学习框架下，取得了优秀的分割性能，将现有的标注样本的知识迁移到新数据模型中。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割方法的流程示意图；

图2为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割方法的源域和目标域数据示意图；

图3为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割方法的跨域自适应语义分割模型示意图；

图4为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割方法的算法流程图；

图5为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割装置的组成结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图4描述一种基于数据扰动的跨域自适应语义分割方法。

图1为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割方法的流程示意图；图2为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割方法的源域和目标域数据示意图；图3为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割方法的跨域自适应语义分割模型示意图；图4为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割方法的算法流程图。

在本发明一种具体实施方式中，本发明提供一种基于数据扰动的跨域自适应语义分割方法，包括：

步骤110：获取待处理数据以及添加数据扰动后的语义分割特征；

具体地，可以获取待处理数据，所述待处理数据包括：有标签的源域数据

有标签的目标域数据

和无标签的目标域数据

其中，n_s、n_t和n_u分别依次表示源域数据的数量、有标签的目标域的数量以及无标签的目标域数据的数量；对所述无标签的目标域数据添加随机扰动，得到扰动后的目标域图像数据

进一步地，所述数据扰动包括以下至少一种：颜色抖动处理、高斯模糊处理以及亮度处理。针对S0中的无标签目标域数据加入随机扰动，包括但不限于ColorJitter、GaussianBlur、Brightness等，经过扰动后的目标域图像标记为，所有用于训练的数据如图2所示。

将源域数据和目标域数据归一化至统一的大小(如512×1024×3像素)，并将其输入到同一个语义分割网络(G)中。在本发明中，采用DeepLabV2作为语义分割网络模型，并且模型基于ImageNet数据预训练结果作为初始化参数，如图3所示，可以得到不同数据的语义分割特征，分别标记为F_s＝G(x_s)、F_t＝G(x_t)、F_u＝G(x_u)和F_a＝G(x_a)。基于源域数据和目标与数据的特征，将其传入到领域判别器网络D中。判别器网络由三层卷积网络构成，是一个二分网络，用于判别特征来自于源于数据还是目标域数据，如图3所示。

步骤120：基于所述待处理数据以及所述语义分割特征确定损失函数。

具体地，可以将基于所述有标签的源域数据特征F_s＝G(x_s)以及无标签的目标域数据特征F_u＝G(x_u)传入到领域判别器网络，得到数据来源结果；所述判别器网络用于判别输出的特征来自于源数据或目标域数据；基于所述数据来源结果构建对抗损失函数：

其中，E表示期望，p(x)表示数据x来自于分布p(x)。

当然，也可以构造其他的损失函数，具体地，可以基于有标签的源域数据

以及有标签的目标域数据

构造基于标签监督信息的语义分割损失：

H、W表示图像长和宽并且C代表分割类别总数。

还可以构造基于原型分类器的迁移损失，所述迁移损失包括：类别层面的适应损失

其中

和

分别表示基于源域数据和目标域数据得到的类别原型；任务层面对齐损失：L_task(x_u)＝D_KL(P_s(G,x_u)||P_t(G,x_u))，D_KL表示KL散度约束；基于有标签的源域数据构造出基于有监督的语义分割损失

其中，H，W，C分别表示图像的长宽以及类别；基于无标签的目标域数据构造语义一致性损失L_{s_cyc}(G)＝D_KLP_u(G,x_u)||P_a(G,x_a)。

步骤130：基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型。

具体地，可以将训练样本输入到待训练模型，计算待训练模型的各层输出数据；基于所述损失函数计算待训练模型的网络输出误差，得到各层误差信息；基于所述各层误差信息调整待训练模型各层权值，直到网络总误差是否达到预设条件。

本发明实施例从数据扰动角度更好的解决源域和目标域数据之间分布不一致的问题。在具体实现上，首先对原有的域自适应问题做了进一步改进，在目标域数据中加入少量标注信息，这些标注样本并不会带来太大的标注成本，却可以大幅度的提高适应性能，具有实际应用意义。在方法层面，主要包括四个部分，一是针对有标注的源域和少量标注的目标域数据，构造有标签的语义分割损失；二是在源域数据和目标域数据之间构造对抗损失函数，用于对齐源域数据和目标域数据之间的分布，学习不同域数据之间的域不变表达；第三，针对大量无标注的目标域数据，本发明通过对其加入随机扰动，改变数据原始分布，但保持原有语义信息不变，因此在扰动前和扰动后的数据之间在预测结果上应保持一致性；最后，本发明为充分利用标签信息学习，在不同域直接学习类别原型，构造基于原型分类器的可迁移知识学习。以某通用跨域自适应语义分割数据集为例，包含合成图像的源域数据和真实数据的目标域数据，其中源域数据具有像素级别的标注信息，目标域数据有少量标注。

请参考图4，如图所示，在本发明的又一具体实施例中，具体包括如下步骤：

步骤S0，构造输入数据，将数据集中不同域数据分为有标签的源域数据

有标签的目标域数据

和无标签的目标域数据

作为网络的输入，其中n_s、n_t和n_u分别表示源域数据的数量、有标签目标域的数量以及无标签目标域数据的数量；

步骤S1，针对S0中的无标签目标域数据加入随机扰动，包括但不限于ColorJitter、GaussianBlur、Brightness等，经过扰动后的目标域图像标记为

所有用于训练的数据如图1所示；

步骤S2，将S0和S1中的源域数据和目标域数据归一化至统一的大小(如512×1024×3像素)，并将其输入到同一个语义分割网络(G)中。在本发明中，采用DeepLabV2作为语义分割网络模型，并且模型基于ImageNet数据预训练结果作为初始化参数，如图2所示；

步骤S3，经过步骤S2，可以得到不同数据的语义分割特征，分别标记为F_s＝G(x_s)、F_t＝G(x_t)、F_u＝G(x_u)和F_a＝G(x_a)。

步骤S4，基于步骤S3中得到的源域数据和目标与数据的特征，将其传入到领域判别器网络D中。判别器网络由三层卷积网络构成，是一个二分网络，用于判别特征来自于源于数据还是目标域数据，如图2所示；

步骤S5，经过步骤S4，在源域和目标域之间构造对抗损失函数，以源域数据和无标注的目标域数据为例，对抗损失表示为

其中，E表示期望，p(x)表示数据x来自于分布p(x)；

步骤S6，针对有标签的源域和数据和少量标签的目标域数据，构造基于标签监督信息的语义分割损失：

H、W表示图像长和宽并且C代表分割类别总数，可以看出有标签的监督；

步骤S7：基于S6中得到的类别原型，构造基于原型分类器的迁移损失，主要包括两部分，首先是在源域数据和目标域数据中得到的类别原型应该是一致的，称为类别层面的适应，具体表述为

其中

和

分别表示基于源域数据和目标域数据得到的类别原型。其次，在任务层面，基于源域和目标域原型得到的分类器，对无标签的目标域数据的预测结果应该是一致的，因此本发明提出一种基于原型分类器的任务层面的对齐方式：L_task(x_u)＝D_KL(P_s(G,x_u)||P_t(G,x_u))，D_KL表示KL散度约束；

步骤S8，针对有标签的源域数据，我们构造出基于有监督的语义分割损失

该损失是一个交叉熵损失，由于语义分割是一个像素到像素级别的任务，所以H，W，C分别表示图像的长宽以及类别，由于在目标域数据中也存在部分标签信息，因此本发明针对有标注的目标域图像也同样保持语义分割监督；

步骤S9，在该步骤中，主要针对无标签的目标域数据，构造语义一致性损失。具体来说，针对无标注的目标域数据，本发明通过加入随机扰动得到增强后的图像，基于在步骤S3中得到的语义分割特征，分类器对于扰动前和扰动后的图像特征应该具有相同的预测结果，因此语义一致性损失约束表示为：L_{s_cyc}(G)＝D_KLP_u(G,x_u)||P_a(G,x_a)；

步骤S10，通过梯度反传算法训练模型，利用训练好的跨域自适应语义分割模型在目标域数据集进行测试。首先将目标域测试数据归一化为统一的大小(如512×1024×3像素)，送入训练好的跨域自适应模型，得到目标域数据的分割结果，并与测试数据标签进行对比，得到最终的识别性能。

下面对本发明提供的基于数据扰动的跨域自适应语义分割装置进行描述，下文描述的基于数据扰动的跨域自适应语义分割装置与上文描述的基于数据扰动的跨域自适应语义分割方法可相互对应参照。

请参考图5，图5为本发明实施例提供的一种基于数据扰动的跨域自适应语义分割装置的组成结构示意图。

在本发明又一具体实施方式中，本发明提供一种基于数据扰动的跨域自适应语义分割装置500，包括：

数据获取模块510，用于获取待处理数据以及添加数据扰动后的语义分割特征；

损失确定模块520，用于基于所述待处理数据以及所述语义分割特征确定损失函数；

模型训练模块530，用于基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型。

进一步地，所述数据获取模块包括：

有标签的目标域数据

和无标签的目标域数据

进一步地，所述损失确定模块包括：

其中，E表示期望，p(x)表示数据x来自于分布p(x)。

进一步地，所述损失确定模块包括：

第四单元，用于基于有标签的源域数据

以及有标签的目标域数据

构造基于标签监督信息的语义分割损失：

H、W表示图像长和宽并且C代表分割类别总数；

其中

和

分别表示基于源域数据和目标域数据得到的类别原型；任务层面对齐损失：L_task(x_u)＝D_KL(P_s(G,x_u)||P_t(G,x_u))，B_KL表示KL散度约束；

其中，H，W，C分别表示图像的长宽以及类别；

第七单元，用于基于无标签的目标域数据构造语义一致性损失L_{s_cyc}(G)＝B_KLP_u(G,x_u)||P_a(G,x_a)。

进一步地，所述模型训练模块包括：

本发明提供的一种基于数据扰动的跨域自适应语义分割装置，通过对目标域中大量无标签数据，本发明对这部分数据随机加入扰动，并保证经过扰动处理的图像能够保持语义的一致性，通过构建跨域原型分类器来对齐源域和目标域的数据分布，从数据扰动和跨域原型分类器两个角度解决了源域和目标域之间的领域不一致问题，并且针对在现实应用中更具实际应用价值的少量监督问题做了针对性的设计，并在基于对抗的学习框架下，取得了优秀的分割性能，将现有的标注样本的知识迁移到新数据模型中。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行基于数据扰动的跨域自适应语义分割方法，该方法包括：获取待处理数据以及添加数据扰动后的语义分割特征；基于所述待处理数据以及所述语义分割特征确定损失函数；基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于数据扰动的跨域自适应语义分割方法，该方法包括：获取待处理数据以及添加数据扰动后的语义分割特征；基于所述待处理数据以及所述语义分割特征确定损失函数；基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于数据扰动的跨域自适应语义分割方法，该方法包括：获取待处理数据以及添加数据扰动后的语义分割特征；基于所述待处理数据以及所述语义分割特征确定损失函数；基于所述损失函数通过误差反向传播算法训练模型得到跨域自适应语义分割模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。