CN113011456A

CN113011456A - 用于图像分类的基于类别自适应模型的无监督域适应方法

Info

Publication number: CN113011456A
Application number: CN202110171322.2A
Authority: CN
Inventors: 张天柱; 张勇东; 钱柄乔; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-22
Anticipated expiration: 2041-02-05
Also published as: CN113011456B

Abstract

本发明提供了一种用于图像分类的基于类别自适应模型的无监督域适应方法，包括以下步骤：通过自注意模块和交叉注意模块建立领域可转移编码器，所述领域可转移编码器对源域和目标域的输入图像之间的关系进行建模，实现域内对齐和域间对齐；建立类别自适应解码器，所述类别自适应解码器通过类原型学习和对齐来减少域差异；训练时，利用所述源域的标签信息对源域图片特征的分类预测进行约束；测试时，将直接对所述目标域的图片特征进行分类预测。本发明还提供了一种用于图像分类的基于类别自适应模型的无监督域适应装置。

Description

用于图像分类的基于类别自适应模型的无监督域适应方法

技术领域

本发明涉及人工智能领域，尤其涉及一种用于图像分类的基于类别自适应模型的无监督域适应方法。

背景技术

为了将有效的分类知识从一个标签丰富的源域转移到完全无标签的目标域以实现无监督域适应。

最近的方法大多数集中于利用域内对齐、域间对齐或类原型对齐来减少域差异。域内对齐是对源域或目标域内的数据样本进行对齐。对于每个域，其目标是通过将同一类的样本聚在一起来增强类内的紧致性，并利用类间可分离性将不同类的样本推离。域间对齐是指在源域和目标域之间对数据样本进行对齐。由于目标域中没有标签，如果我们忽略跨域的类内相关性，即使源域和目标域非常接近，现有的方法也可能混合不同类的样本。因此，有必要对源域和目标域之间的数据样本关系进行建模，以便将一些信息从有标记的源数据传播到无标记的目标数据。类原型对齐是为了对源域和目标域中的每个类的类原型进行域调整。基本思想是学习并对齐源域和目标域中每个类的类原型，作为无监督域适应的桥梁。这三种对齐对域适应任务的成功至关重要。然而，现有技术并没有一个联合统一的框架将这三种不同的对齐适当地结合在一起以应对域适应挑战。

发明内容

有鉴于此，本发明的主要目的在于提供一种用于图像分类的基于类别自适应模型的无监督域适应方法，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，作为本发明的一方面，提供了一种用于图像分类的基于类别自适应模型的无监督域适应方法，包括以下步骤：

通过自注意模块和交叉注意模块建立领域可转移编码器，所述领域可转移编码器对源域和目标域的输入图像之间的关系进行建模，实现域内对齐和域间对齐；

建立类别自适应解码器，所述类别自适应解码器通过类原型学习和对齐来减少域差异；

训练时，利用所述源域的标签信息对源域图片特征的分类预测进行约束；

测试时，将直接对所述目标域的图片特征进行分类预测。

其中，所述自注意模块为L个注意单元的叠加，其中，L＝1，2，3……。

其中，所述注意单元包括注意机制MHA和前馈网络FFN。

其中，所述注意机制MHA是多头注意力机制；FFN是带有LeakyReLU 激活函数的单层感知器。

其中，所述注意单元的设计步骤如下：

根据给定的源数据特征设计查询、键和值；

通过相似性对每个查询与键之间的关系进行建模；

根据相似性分数通过混合值来获得查询的参与特征，完成注意单元的设计。

其中，所述类别自适应解码器包括：

构造源域的类原型记忆和目标域的类原型记忆；

通过交叉注意单元中的源数据特征和目标数据特征自适应地更新类原型。

其中，所述类别自适应解码器包括类内对齐和类间对齐。

其中，所述类内对齐用于确保来自不同领域的同一个类的类原型在特征空间中紧密映射在一起，为此，设计了类内对齐损失。

其中，所述类间对齐用于将来自不同领域的不同类的原型推离彼此，为此，设计了类间对齐损失。

作为本发明的另一方面，提供了一种用于图像分类的基于类别自适应模型的无监督域适应装置，包括：

领域可转移编码器，用于对源域和目标域的输入图像之间的关系进行建模，实现域内对齐和域间对齐；

类别自适应解码器，通过类原型学习和对齐来减少域差异；

图像分类模块，训练时，利用所述源域的标签信息对源域图片特征的分类预测进行约束；测试时，将直接对所述目标域的图片特征进行分类预测。

基于上述技术方案可知，本发明的用于图像分类的基于类别自适应模型的无监督域适应方法相对于现有技术至少具有如下有益效果的一部分：

本发明提出的方法基于注意力机制，能通过端到端的方式训练神经网络来自适应地学习到源和目标域的类别原型并对齐，较好地完成了无监督域适应任务；该方法在多个公开的分类数据集上得到了平均10％的分类准确率的提升，且深度模型的训练收敛速度更快，所使用的注意力机制也带了更多的域适应过程的可解释性。

附图说明

图1为类别自适应Transformer模型的无监督域适应训练框架。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的目的在于根据有标签的源域数据和模型以及无标签目标域数据训练得到在目标域有效的分类模型。

为此，本发明提出了一种新的类别自适应Transformer，通过在一个统一的深度模型中联合建模三种对齐方式来实现无监督域自适应。提议的类别自适应Transformer模型有几个优点。首先，据我们所知，第一个应用编码器-解码器Transformer架构于域适应任务的工作，它包括领域可转移编码器和类别自适应解码器。其次，本发明设计了一种新的类别自适应解码器，利用类内对齐和类间对齐，对类别原型进行无监督域自适应学习和对齐。在Office-31，Image-CLEF，Office-Home，VisDA-2017四个具有挑战性的数据集上的广泛实验结果表明，本发明提出的CAT模型(即由领域可转移编码器和类别自适应解码器共同组成的Transformer模型)大大超过了最先进的无监督领域适应方法。

本发明提出了一种基于类别自适应Transformer模型的无监督域适应方法，包括以下步骤：

测试时，将直接对所述目标域的图片特征进行分类预测。

本发明提出了一种基于类别自适应Transformer模型的无监督域适应装置，该装置由三部分组成：(1)领域可转移编码器；(2)类别自适应解码器；(3)图像分类模块。总技术如图1所示，训练过程如下：

(1)领域可转移编码器。给定每一批次的源域和目标域输入图像数据，通过预训练的ResNet网络模型进行特征提取，作为输入图像的特征。然后，我们设计了自注意模块和交叉注意模块，分别实现域内对齐和域间对齐。

自注意模块：自注意模块分别实现源域和目标域的域内对齐。将其设计为L个注意单元的叠加，为简便起见，将其表示为自单元，如图1所示。在这里，每个单元都有两个子层，包括注意机制MHA和前馈网络FFN。 MHA是一个多头注意力机制，FFN是一个带有LeakyReLU激活函数的单层感知器。然后取第1个(1＝1，...，L)单元为例，详细介绍如何设计。

给定源数据特征

我们可以设计查询、键和值，如下所示。

其中i，j＝1，2，...，N且

是源域投影矩阵。然后，相似性s_i，j对每个查询q_i与第j个键k_j之间的关系进行建模，可按下式定义计算。

T是转置运算。根据相似性分数s_i，j我们可以通过混合值来获得查询q_i的参与特征a_i：

如图1所示，BN后的残差连接应用于两个子层。我们将上述自注意单位表示为Attn_l。基于Attn_l，我们可以得到更新后的源数据特征

给定目标数据特征

我们可以使用自我注意单元Attn_l来更新上述定义的目标数据特征。

根据自注意模块，可以对源域和目标域的数据样本交互进行建模，分别增加它们的相互依赖性。

交叉注意模块：交叉注意模块实现源域与目标域的域间对齐。为了简单起见，我们只使用一个注意单元来实现它。具体情况如下。

通过自注意模块，更新源域和目标域的数据特征。对于源域，我们取源数据特征

和目标数据特征

分别获取下式中定义的查询和键值对：

其中i，j＝1，2，...，N且

是源域投影矩阵，

是目标域投影矩阵。在自注意模块中，第i个源查询q_i与第j个目标键k_j之间的相似度s_i，j，然后更新查询qi，得到更新后的源特征矩阵E^S。为简单起见，我们将此处理表示为自注意模块中中类似定义的，并命名为Attn_c。

对于目标域，域间的对齐与源域中的处理相同，只是查询和键值对不同。我们取目标数据特征

作为查询，源数据特征

为键、值。通过同样的处理，我们可以得到更新后的目标特征矩阵E^T

如上所述，我们的模型使不同领域的样本能够相互通信和聚合。

通过自注意模块和交叉注意模块，我们的领域可转移编码器可以对源域和目标域的数据样本之间的关系进行建模，实现域内对齐和域间对齐。

(2)类别自适应解码器。类别自适应解码器是通过类原型学习和对齐来减少域差异。为了实现这一目标，我们首先构造源域的类原型记忆，包括源域的类原型记忆和目标域的类原型记忆。然后，我们设计了交叉注意单元，在类原型学习过程中利用源数据特征

和目标数据特征

自适应地更新这些类原型。在无监督域适应任务中，我们还实现了类原型对齐，以减少领域差异。具体情况如下。

原型学习：类原型在源域和目标域的学习是相似的。为简单起见，我们以源领域的类原型学习为例。在类自适应解码器中，查询来自类原型

键和值来自源数据特征E^S：

其中i＝1，2，...，K而j＝1，2，...，N。

是源投影矩阵。根据相似度，通过对对应数据样本的值进行聚合，对每个查询q_i进行自适应更新，得到更新后的源类原型

为简单起见，我们将此处理表示为 Attn_p，如下所示。

同样，我们可以获得更新后的目标类原型

综上所述，该模型通过端到端的方式使用源数据和目标数据，可以自适应地学习类原型。

原型对齐：为了使类原型成为无监督域适应的源域和目标域之间的桥梁，我们设计了两种类原型对齐机制作为学习指导，包括类内对齐和类间对齐。

1)类内对齐：为了确保来自不同领域的同一个类的类原型在特征空间中紧密映射在一起，我们设计了一个定义的类内对齐损失：

其中

和

为学习到的第k类别在源域和目标域的类原型特征。 φ(·，·)是距离测度函数，我们在实验中使用的是欧式距离的平方。

2)类间对齐：为了将来自不同领域的不同类的原型推离彼此，我们设计了类间对齐损失：

其中τ是超参数，在所有实验中都固定为10.0。

综上所述，我们提出的方法实现了类原型的对齐，不仅可以对类内的紧凑性建模，也可以对类间的可分离性建模。

(3)图像分类模块。自适应图像分类器，一个简单全连接层。训练阶段，利用源域的标签信息对分类器所作源域图片特征的分类预测进行约束。测试阶段，将直接使用该分类器对目标域图片特征进行分类预测。

本发明可应用于大规模数据的日常生活图像的机器初步分类，分类结果可靠性高，可通过简单人工快速筛选得到大量可用数据。在实施上，可以以软件形式嵌入到小型设备中，提供的注意力可视化接口也可以方便观察自适应过程；同时也可以部署程序于后台服务器，提供大批量无标签图像数据的分类预测结果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于图像分类的基于类别自适应模型的无监督域适应方法，其特征在于，包括以下步骤：

测试时，将直接对所述目标域的图片特征进行分类预测。

2.根据权利要求1所述的无监督域适应方法，其特征在于，所述自注意模块为L个注意单元的叠加，其中，L＝I，2，3……。

3.根据权利要求2所述的无监督域适应方法，其特征在于，所述注意单元包括注意机制MHA和前馈网络FFN。

4.根据权利要求3所述的无监督域适应方法，其特征在于，所述注意机制MHA是多头注意力机制；FFN是带有LeakyReLU激活函数的单层感知器。

5.根据权利要求2所述的无监督域适应方法，其特征在于，所述注意单元的设计步骤如下：

根据给定的源数据特征设计查询、键和值；

通过相似性对每个查询与键之间的关系进行建模；

6.根据权利要求1所述的无监督域适应方法，其特征在于，所述类别自适应解码器包括：

构造源域的类原型记忆和目标域的类原型记忆；

7.根据权利要求1所述的无监督域适应方法，其特征在于，所述类别自适应解码器包括类内对齐和类间对齐。

8.根据权利要求7所述的无监督域适应方法，其特征在于，所述类内对齐用于确保来自不同领域的同一个类的类原型在特征空间中紧密映射在一起，为此，设计了类内对齐损失。

9.根据权利要求7所述的无监督域适应方法，其特征在于，所述类间对齐用于将来自不同领域的不同类的原型推离彼此，为此，设计了类间对齐损失。

10.一种用于图像分类的基于类别自适应模型的无监督域适应装置，其特征在于，包括：

类别自适应解码器，通过类原型学习和对齐来减少域差异；