CN113326848A

CN113326848A - 半监督领域自适应方法、系统、设备及存储介质

Info

Publication number: CN113326848A
Application number: CN202110674550.1A
Authority: CN
Inventors: 李冠彬; 李佳铭
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-08-31
Anticipated expiration: 2041-06-17
Also published as: CN113326848B

Abstract

本发明公开了一种半监督领域自适应方法，包括获取有标签源域图像、有标签目标域图像及无标签目标域图像；将有标签目标域图像、无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像；将第二图像输入至源域分割模型，得到第一概率置信图；将无标签目标域图像输入至目标域分割模型，得到第二概率置信图；根据第一概率置信图推断出的类别结果图合成第一伪标签，根据第二概率置信图推断出的类别结果图合成第二伪标签；利用第一伪标签及第一概率置信图监督目标域分割模型，得到其损失函数；利用第二伪标签及第二概率置信图监督源域分割模型，得到其损失函数。本发明能更好地缩减域间差及更好地利用目标域图片，进而提高语义分割效果。

Description

半监督领域自适应方法、系统、设备及存储介质

技术领域

本发明涉及语义分割技术领域，具体涉及一种半监督领域自适应方法、系统、设备及存储介质。

背景技术

语义分割是计算机视觉研究的一个重要分支，其在自动驾驶、面部识别中均有着广泛应用。然而，在语义分割中训练神经网络通常需要大量的图片以及相应的准确分割标注，而采集数据集与分割标注往往花费大量的时间成本和人力成本。因此标签数量往往较为匮乏。

为了解决标签数量不充足问题，现有技术主要通过无监督领域自适应方法合成或者在半监督设置下利用少量的有监督图片训练模型。但是，无监督领域自适应的方法是在没有目标域监督的设置下设计的，通常未能充分利用有标签的目标域图片，且消除域间差距非常困难；分类领域的半监督领域自适应方法如MME，Mico，由于无法获取相邻像素信息，很难直接应用到分割领域上。而分割任务上的ASS本质上是无监督领域自适应的方法应用到了半监督领域自适应上，也未能充分利用到有标签的目标域样本上。

发明内容

本发明的目的在于提供一种半监督领域自适应方法、系统、设备及存储介质，以解决现有技术中语义分割获取标签时存在的对目标域标签利用不充分、消除域间差距困难、分割效果不理想的技术问题。

为了克服上述现有技术中的缺陷，本发明提供了一种半监督领域自适应方法，包括：

获取有标签源域图像、有标签目标域图像及无标签目标域图像；将所述有标签目标域图像、所述无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像；

将所述第二图像输入至源域分割模型，得到第一概率置信图；及将所述无标签目标域图像输入至目标域分割模型，得到第二概率置信图；

根据所述第一概率置信图推断出的类别结果图合成第一伪标签，及根据所述第二概率置信图推断出的类别结果图合成第二伪标签；

利用所述第一伪标签及所述第一概率置信图监督目标域分割模型，得到目标域分割模型的损失函数；及利用所述第二伪标签及所述第二概率置信图监督源域分割模型，得到源域分割模型的损失函数。

进一步地，所述半监督领域自适应方法，还包括：

对所述无标签目标域图像、所述第二图像进行弹性扭曲处理，分别得到第一增广图像、第二增广图像；

将所述第一增广图像输入至所述目标域分割模型，将所述第二增广图像输入至所述源域分割模型，分别利用输出结果进行跨域一致性计算。

进一步地，所述半监督领域自适应方法，还包括：

将所述有标签源域图像转换为具有目标域图像风格的第三图像；

利用所述源域图像和所述第一图像对所述源域分割模型进行有监督学习，及利用所述第三图像和所述有标签目标域图像对所述目标域分割模型进行有监督学习。

进一步地，利用傅里叶变换将所述源域图像转换为具有目标域图像风格的第三图像，及将所述有标签目标域图像、所述无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像。

本发明还提供了一种半监督领域自适应系统，包括：

第一风格变换单元，用于获取有标签源域图像、有标签目标域图像及无标签目标域图像；将所述有标签目标域图像、所述无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像；

分割单元，用于将所述第二图像输入至源域分割模型，得到第一概率置信图；及将所述无标签目标域图像输入至目标域分割模型，得到第二概率置信图；

伪标签合成单元，用于根据所述第一概率置信图推断出的类别结果图合成第一伪标签，及根据所述第二概率置信图推断出的类别结果图合成第二伪标签；

协同监督单元，用于利用所述第一伪标签及所述第一概率置信图监督目标域分割模型，得到目标域分割模型的损失函数；及利用所述第二伪标签及所述第二概率置信图监督源域分割模型，得到源域分割模型的损失函数。

进一步地，所述半监督领域自适应系统，还包括：

增广图像生成单元，用于对所述无标签目标域图像、所述第二图像进行弹性扭曲处理，分别得到第一增广图像、第二增广图像；

跨域一致性计算单元，用于将所述第一增广图像输入至所述目标域分割模型，将所述第二增广图像输入至所述源域分割模型，分别利用输出结果进行跨域一致性计算。

进一步地，所述半监督领域自适应系统，还包括：

第二风格变换单元，用于将所述有标签源域图像转换为具有目标域图像风格的第三图像；

有监督学习单元，用于利用所述源域图像和所述第一图像对所述源域分割模型进行有监督学习，及利用所述第三图像和所述有标签目标域图像对所述目标域分割模型进行有监督学习。

进一步地，所述第一风格变换单元，还用于利用傅里叶变换将所述有标签目标域图像、所述无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像；所述第二风格变换单元，还用于利用傅里叶变换将所述源域图像转换为具有目标域图像风格的第三图像。

本发明还提供了一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任一项所述的半监督领域自适应方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现如上任一项所述的半监督领域自适应方法。

相对于现有技术，本发明的有益效果在于：

本发明通过设计一种半监督领域自适应方法，在源域和目标域分别建立两个模型并通过一个协同训练框架共同优化。该方法首先在源域图片和目标域图片上分别进行风格转换来形成两个不同视角。两个模型分别在两个视角下对源域和目标域图片进行监督学习。该方法使用硬协同监督让两个模型分别在无标签图像上为对方提供伪标签，并使用基于增广的协同一致性模块去拉近不同模型在无标签图片与其增广下输出的软预测值。在该方法下，源模型和目标模型可以互相交换知识，同时通过风格变换，该方法可以充分利用到有标签目标域图片和源域图片的知识。此外，基于增广的协同一致性模块可以让模型在噪声下更加稳定，更加依赖于相邻像素以及全局信息，从而在分割任务上取得良好的效果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的半监督领域自适应方法的流程示意图；

图2是本发明某一实施例提供的半监督领域自适应方法的整体框架图；

图3是本发明某一实施例提供的半监督领域自适应系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

第一方面：

请参阅图1，本发明某一实施例提供了一种半监督领域自适应方法，包括：

S10、获取有标签源域图像、有标签目标域图像及无标签目标域图像；将所述有标签目标域图像、所述无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像；

S20、将所述第二图像输入至源域分割模型，得到第一概率置信图；及将所述无标签目标域图像输入至目标域分割模型，得到第二概率置信图；

S30、根据所述第一概率置信图推断出的类别结果图合成第一伪标签，及根据所述第二概率置信图推断出的类别结果图合成第二伪标签；

S40、利用所述第一伪标签及所述第一概率置信图监督目标域分割模型，得到目标域分割模型的损失函数；及利用所述第二伪标签及所述第二概率置信图监督源域分割模型，得到源域分割模型的损失函数。

需要说明的是，目前针对语义分割中标签不充足的问题，最常用的手段主要包括以下几种：第一，通过无监督领域自适应方法利用计算机合成的图像训练一个应用在真实图片上的模型。第二，在半监督设置下利用少量的有监督图片训练模型，在大量图片上取得良好的效果。

然而，在无监督领域自适应中消除域间差距非常困难，而在半监督学习中，模型往往会对监督数据过拟合。所以，使用单一的方法往往不能取得令人满意的效果。利用无监督领域自适应和半监督学习的互补性开发算法是一种很有潜力的解决方案。因此，半监督领域自适应逐渐引起了研究者的关注。半监督领域自适应结合了半监督学习和领域自适应的设置，可以利用大量的源域图片和少量的目标域图片训练模型。在分类领域上，MME通过使特征提取器和分类器分别最大化和最小化无标签图片的熵来进行对抗，从而使模型计算域不变的类别原型。Mico尝试将半监督领域自适应问题分为协同训练一个无监督领域自适应模型和另一个半监督学习模型，并引入mixup的方法在训练两个模型的过程来连接无标签样本和有标签样本。而在分割领域上，ASS设计了一个简单的对抗学习框架来将全局特征和语义层次特征从源域适应到目标域上。但是，无监督领域自适应的方法是在没有目标域监督的设置下设计的，通常未能充分利用有标签的目标域图片。而半监督设置下没有源域样本，所以半监督方法没有利用源域的样本。分类领域的半监督领域自适应方法如MME，Mico,很难直接应用到分割领域上，这主要是因为分类一个像素不仅要考虑它本身的像素值，还有相邻像素的信息。而分割任务上的ASS本质上是无监督领域自适应的方法应用到了半监督领域自适应上，也未能充分利用到有标签目标域样本。因此，在本实施例中主要提供一种半监督领域自适应方法，旨在能够缩减域间差，并充分利用目标域样本。

具体地，请参阅图1-2，图1主要提供了该半监督领域自适应方法的流程图，图2主要提供了该半监督领域自适应方法的整体架构。在步骤S10中，首先获取有标签源域图像、有标签目标域图像及无标签目标域图像；然后将有标签目标域图像、无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像。

在某一实施例中，基于图2提供的架构，引入图像风格变换模块来实现图片的风格变换。在该模块中，主要利用傅里叶变换去将一张图片的语义内容和另一张图片的风格进行合成，转换出新风格的图片。通过这个风格转换模块，可以为源域和目标域中的每个图像创建两个视角，然后在两个视角下分别监督源域和目标域模型。如图2所示，其中一个视角I^s→u，是通过将源域图像I^s的风格转换为无监督的目标域图像I^u的风格而合成的，也即将源域图像I^s转换后可得到具有目标域图像I^u的风格的图像(第一图像)。相反的，有标签的目标域图像I^l和无标签的目标域图像I^u可以转换成源域图像I^s的风格，从而生成两个新图片I^l→s和I^u→s，此处I^l→s和I^u→s也即步骤S10中的第二图像。

需要说明的是，风格转换模块是连接源域模型G^s和目标域模型G^t的关键。G^t在目标域上的推断和G^t在风格转换后的目标域上的推断实际上是在追求同一个目标，即预测目标图像的分割图。两个模型的推断可以看做是互相的监督。通过协同训练，可以使用无监督目标图像来借用源模型的分割能力提升目标模型的效果。

进一步地，为了交换源域模型和目标域模型学习到的知识，在某一实施例中，设计了一个协同训练方法来使两个模型可以互相学习。在这个过程中，分割模型可以在两个模块中监督另一个模型，两个模型互相监督并且合作训练处一个良好的分割器。通过使用协同训练方法，无监督目标图像可以充分被利用。除此之外，在风格变换组件并不能完全消除源域和目标域之间的域间隔，即源模型在处理转换来的目标域图片时效果有限，而跨域训练可以改进源域模型的效果，从而有利于为目标域模型提供更好的跨域监督。

具体地，步骤S20-S40主要目的在于实现跨域的硬协同监督。在步骤S20中，将无标签的第二图像输入至源域分割模型，得到第一概率置信图；将无标签目标域图像输入至目标域分割模型，得到第二概率置信图。在步骤S30中，根据第一概率置信图推断出的类别结果图合成第一伪标签，并根据第二概率置信图推断出的类别结果图合成第二伪标签。

需要说明的是，在本实施例中，通过切割模型预测出来的概率图来生成硬的伪标签。如图2所示，首先给定一个输入图片I^u(目标域图像)，输入至目标域分割模型G^t，G^t可以预测出一个概率置信度图P^u,P^u∈R^h×w×m，即步骤S20所说的第二概率置信图。其中，h,w分别为图的高与宽，m为种类的数量。然后从概率置信度图P^u推断出的类别结果图为M^u,M^u∈{1,…,m}^h×w×m；其中M^u(x,y)＝argmax_kP^u(x,y,k)。最后，可以根据下式合成I^u的伪标签Y^u：

式中，θ是一个常数，Y^u(x,y)＝-1表明像素(x,y)的标签是未知的，因为它们的预测是不置信的。Y^u也即步骤S30中所说的第二伪标签。

同样地，源域分割模型G^s可以根据I^u→s计算出概率图P^u→s，并转化成伪标签图Y^u→s，即步骤S30中所说的第一伪标签。

最后，执行步骤S40，即利用第一伪标签及第一概率置信图监督目标域分割模型，得到目标域分割模型的损失函数；同时利用第二伪标签及第二概率置信图监督源域分割模型，得到源域分割模型的损失函数。

需要说明的是，在步骤S40中，考虑到I^u与I^u→s拥有相同的语义内容，所以可以用Y^u ^→s来监督G^t的训练过程，并且用Y^u来监督G^s的训练过程。其中，源域分割模型和目标域分割模型的损失函数

与

计算公式如下：

式中，CE是标准的交叉熵函数。上述的损失函数可以实现源模型和目标模型基于无标签图片的两个视角I^u与I^u→s的协同训练。

在某一个实施例中，所述半监督领域自适应方法，还包括：

1)选取无监督的无标签目标域图像以及与无监督目标域图像对应的第二图像，对无标签目标域图像和第二图像进行弹性扭曲处理，分别得到第一增广图像、第二增广图像；

2)将第一增广图像输入至目标域分割模型，将第二增广图像输入至源域分割模型，分别利用输出结果计算跨域一致性计算。

在本实施例中，需要说明的是，在无监督数据上应用的基于增广的协同一致性迫使模型在强增广图片下输出和原本图片下相似的预测结果，这在半监督设置下是非常有效的。因此本实施例中提出了跨域一致性约束来正则化G^s和G^t对I^u与I^u→s与其增广的输出，并采用了弹性扭曲来作为图像增广，如图2所示，其中，跨域一致性的计算方式如下：

式中，T(I,θ)代表弹性扭曲函数，它根据参数θ对输入图片I进行扭曲。在

中，I^u→s首先被扭曲并输入进源模型G^s中，而输出的结果被拉近为P^u的变换。P^u的变换是由相同的参数进行扭曲操作合成的。同理，

对I^u做了类似的操作。本实施例通过使用基于增广的协同一致性模块去拉近不同模型在无标签图片与其增广下输出的软预测值。在该方法下，源模型和目标模型可以互相交换知识，同时通过风格变换，该方法可以充分利用到有标签目标域图片和源域图片的知识。此外，基于增广的协同一致性模块可以让模型在噪声下更加稳定，更加依赖于相邻像素以及全局信息，从而在分割任务上取得良好的效果。

在某一个实施例中，所述半监督领域自适应方法，还包括：

a)将所述有标签源域图像转换为具有目标域图像风格的第三图像；

b)利用所述源域图像和所述第一图像对所述源域分割模型进行有监督学习，及利用所述第三图像和所述有标签目标域图像对所述目标域分割模型进行有监督学习。

需要说明的是，利用傅里叶变换将所述源域图像转换为具有目标域图像风格的第三图像。在风格转换模块中，有监督的图片在图中物体和结构不变的情况下从原本的域转换到了另一个域。因此，转换后的图片I^s→u和I^l→s分别继承了I^s和I^l的标签。所以可以通过下式使用转换后的图片监督源模型G^s和目标模型G^t：

本发明实施例提供的半监督领域自适应方法，通过在源域和目标域分别建立两个模型并基于一个协同训练框架共同优化。该方法首先在源域图片和目标域图片上分别进行风格转换来形成两个不同视角，能够充分利用目标域图像。其次，两个模型分别在两个视角下对源域和目标域图片进行监督学习，并通过硬协同监督让两个模型分别在无标签图像上为对方提供伪标签，很好地缩减了两个模型的域间隔。

第二方面：

请参阅图3，本发明某一实施例还提供了一种半监督领域自适应系统，包括：

第一风格变换单元01，用于获取有标签源域图像、有标签目标域图像及无标签目标域图像；将所述有标签目标域图像、所述无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像；

分割单元02，用于将所述第二图像输入至源域分割模型，得到第一概率置信图；及将所述无标签目标域图像输入至目标域分割模型，得到第二概率置信图；

伪标签合成单元03，用于根据所述第一概率置信图推断出的类别结果图合成第一伪标签，及根据所述第二概率置信图推断出的类别结果图合成第二伪标签；

协同监督单元04，用于利用所述第一伪标签及所述第一概率置信图监督目标域分割模型，得到目标域分割模型的损失函数；及利用所述第二伪标签及所述第二概率置信图监督源域分割模型，得到源域分割模型的损失函数。

在某一实施例中，所述半监督领域自适应系统，还包括：

在某一实施例中，所述第一风格变换单元，还用于利用傅里叶变换将所述有标签目标域图像、所述无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像；所述第二风格变换单元，还用于利用傅里叶变换将所述源域图像转换为具有目标域图像风格的第三图像。

需要说明的是，本发明实施例提供的半监督领域自适应系统，用于执行如第一方面所述的半监督领域自适应方法。

本发明实施例通过在源域和目标域分别建立两个模型并基于一个协同训练框架共同优化。首先在源域图片和目标域图片上分别进行风格转换来形成两个不同视角，能够充分利用目标域图像。其次，两个模型分别在两个视角下对源域和目标域图片进行监督学习，并通过硬协同监督让两个模型分别在无标签图像上为对方提供伪标签，很好地缩减了两个模型的域间隔。

第三方面：

本发明某一实施例还提供了一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的半监督领域自适应方法。

处理器用于控制该终端设备的整体操作，以完成上述的半监督领域自适应方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该终端设备的操作，这些数据例如可以包括用于在该终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

终端设备可以被一个或多个应用专用集成电路(Application Specific1ntegrated Circuit，简称AS1C)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行如上述任一项实施例所述的半监督领域自适应方法，并达到如上述方法一致的技术效果。

本发明某一实施例还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现如上述任一项实施例所述的半监督领域自适应方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器，上述程序指令可由终端设备的处理器执行以完成如上述任一项实施例所述的半监督领域自适应方法，并达到如上述方法一致的技术效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种半监督领域自适应方法，其特征在于，包括：

2.根据权利要求1所述的半监督领域自适应方法，其特征在于，还包括：

3.根据权利要求2所述的半监督领域自适应方法，其特征在于，还包括：

4.根据权利要求3所述的半监督领域自适应方法，其特征在于，利用傅里叶变换将所述源域图像转换为具有目标域图像风格的第三图像，及将所述有标签目标域图像、所述无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像。

5.一种半监督领域自适应系统，其特征在于，包括：

6.根据权利要求5所述的半监督领域自适应系统，其特征在于，还包括：

7.根据权利要求6所述的半监督领域自适应系统，其特征在于，还包括：

8.根据权利要求7所述的半监督领域自适应系统，其特征在于，所述第一风格变换单元，还用于利用傅里叶变换将所述有标签目标域图像、所述无标签目标域图像分别转换为具有源域图像风格的第一图像、第二图像；

所述第二风格变换单元，还用于利用傅里叶变换将所述源域图像转换为具有目标域图像风格的第三图像。

9.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至4任一项所述的半监督领域自适应方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行实现如权利要求1至4任一项所述的半监督领域自适应方法。