CN113011456B - 用于图像分类的基于类别自适应模型的无监督域适应方法 - Google Patents
用于图像分类的基于类别自适应模型的无监督域适应方法 Download PDFInfo
- Publication number
- CN113011456B CN113011456B CN202110171322.2A CN202110171322A CN113011456B CN 113011456 B CN113011456 B CN 113011456B CN 202110171322 A CN202110171322 A CN 202110171322A CN 113011456 B CN113011456 B CN 113011456B
- Authority
- CN
- China
- Prior art keywords
- domain
- class
- source
- alignment
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Abstract
本发明提供了一种用于图像分类的基于类别自适应模型的无监督域适应方法,包括以下步骤:通过自注意模块和交叉注意模块建立领域可转移编码器,所述领域可转移编码器对源域和目标域的输入图像之间的关系进行建模,实现域内对齐和域间对齐;建立类别自适应解码器,所述类别自适应解码器通过类原型学习和对齐来减少域差异;训练时,利用所述源域的标签信息对源域图片特征的分类预测进行约束;测试时,将直接对所述目标域的图片特征进行分类预测。本发明还提供了一种用于图像分类的基于类别自适应模型的无监督域适应装置。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种用于图像分类的基于类别自 适应模型的无监督域适应方法。
背景技术
为了将有效的分类知识从一个标签丰富的源域转移到完全无标签的 目标域以实现无监督域适应。
最近的方法大多数集中于利用域内对齐、域间对齐或类原型对齐来减 少域差异。域内对齐是对源域或目标域内的数据样本进行对齐。对于每个 域,其目标是通过将同一类的样本聚在一起来增强类内的紧致性,并利用 类间可分离性将不同类的样本推离。域间对齐是指在源域和目标域之间对 数据样本进行对齐。由于目标域中没有标签,如果我们忽略跨域的类内相 关性,即使源域和目标域非常接近,现有的方法也可能混合不同类的样本。因此,有必要对源域和目标域之间的数据样本关系进行建模,以便将一些 信息从有标记的源数据传播到无标记的目标数据。类原型对齐是为了对源 域和目标域中的每个类的类原型进行域调整。基本思想是学习并对齐源域 和目标域中每个类的类原型,作为无监督域适应的桥梁。这三种对齐对域 适应任务的成功至关重要。然而,现有技术并没有一个联合统一的框架将 这三种不同的对齐适当地结合在一起以应对域适应挑战。
发明内容
有鉴于此,本发明的主要目的在于提供一种用于图像分类的基于类别 自适应模型的无监督域适应方法,以期部分地解决上述技术问题中的至少 之一。
为了实现上述目的,作为本发明的一方面,提供了一种用于图像分类 的基于类别自适应模型的无监督域适应方法,包括以下步骤:
通过自注意模块和交叉注意模块建立领域可转移编码器,所述领域可 转移编码器对源域和目标域的输入图像之间的关系进行建模,实现域内对 齐和域间对齐;
建立类别自适应解码器,所述类别自适应解码器通过类原型学习和对 齐来减少域差异;
训练时,利用所述源域的标签信息对源域图片特征的分类预测进行约 束;
测试时,将直接对所述目标域的图片特征进行分类预测。
其中,所述自注意模块为L个注意单元的叠加,其中,L=1,2,3……。
其中,所述注意单元包括注意机制MHA和前馈网络FFN。
其中,所述注意机制MHA是多头注意力机制;FFN是带有LeakyReLU 激活函数的单层感知器。
其中,所述注意单元的设计步骤如下:
根据给定的源数据特征设计查询、键和值;
通过相似性对每个查询与键之间的关系进行建模;
根据相似性分数通过混合值来获得查询的参与特征,完成注意单元的 设计。
其中,所述类别自适应解码器包括:
构造源域的类原型记忆和目标域的类原型记忆;
通过交叉注意单元中的源数据特征和目标数据特征自适应地更新类 原型。
其中,所述类别自适应解码器包括类内对齐和类间对齐。
其中,所述类内对齐用于确保来自不同领域的同一个类的类原型在特 征空间中紧密映射在一起,为此,设计了类内对齐损失。
其中,所述类间对齐用于将来自不同领域的不同类的原型推离彼此, 为此,设计了类间对齐损失。
作为本发明的另一方面,提供了一种用于图像分类的基于类别自适应 模型的无监督域适应装置,包括:
领域可转移编码器,用于对源域和目标域的输入图像之间的关系进行 建模,实现域内对齐和域间对齐;
类别自适应解码器,通过类原型学习和对齐来减少域差异;
图像分类模块,训练时,利用所述源域的标签信息对源域图片特征的 分类预测进行约束;测试时,将直接对所述目标域的图片特征进行分类预 测。
基于上述技术方案可知,本发明的用于图像分类的基于类别自适应模 型的无监督域适应方法相对于现有技术至少具有如下有益效果的一部分:
本发明提出的方法基于注意力机制,能通过端到端的方式训练神经网 络来自适应地学习到源和目标域的类别原型并对齐,较好地完成了无监督 域适应任务;该方法在多个公开的分类数据集上得到了平均10%的分类准 确率的提升,且深度模型的训练收敛速度更快,所使用的注意力机制也带 了更多的域适应过程的可解释性。
附图说明
图1为类别自适应Transformer模型的无监督域适应训练框架。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明作进一步的详细说明。
本发明的目的在于根据有标签的源域数据和模型以及无标签目标域 数据训练得到在目标域有效的分类模型。
为此,本发明提出了一种新的类别自适应Transformer,通过在一个统 一的深度模型中联合建模三种对齐方式来实现无监督域自适应。提议的类 别自适应Transformer模型有几个优点。首先,据我们所知,第一个应用 编码器-解码器Transformer架构于域适应任务的工作,它包括领域可转移 编码器和类别自适应解码器。其次,本发明设计了一种新的类别自适应解 码器,利用类内对齐和类间对齐,对类别原型进行无监督域自适应学习和对齐。在Office-31,Image-CLEF,Office-Home,VisDA-2017四个具有挑战性 的数据集上的广泛实验结果表明,本发明提出的CAT模型(即由领域可 转移编码器和类别自适应解码器共同组成的Transformer模型)大大超过 了最先进的无监督领域适应方法。
本发明提出了一种基于类别自适应Transformer模型的无监督域适应 方法,包括以下步骤:
通过自注意模块和交叉注意模块建立领域可转移编码器,所述领域可 转移编码器对源域和目标域的输入图像之间的关系进行建模,实现域内对 齐和域间对齐;
建立类别自适应解码器,所述类别自适应解码器通过类原型学习和对 齐来减少域差异;
训练时,利用所述源域的标签信息对源域图片特征的分类预测进行约 束;
测试时,将直接对所述目标域的图片特征进行分类预测。
本发明提出了一种基于类别自适应Transformer模型的无监督域适应 装置,该装置由三部分组成:(1)领域可转移编码器;(2)类别自适应解 码器;(3)图像分类模块。总技术如图1所示,训练过程如下:
(1)领域可转移编码器。给定每一批次的源域和目标域输入图像数 据,通过预训练的ResNet网络模型进行特征提取,作为输入图像的特征。 然后,我们设计了自注意模块和交叉注意模块,分别实现域内对齐和域间 对齐。
自注意模块:自注意模块分别实现源域和目标域的域内对齐。将其设 计为L个注意单元的叠加,为简便起见,将其表示为自单元,如图1所示。 在这里,每个单元都有两个子层,包括注意机制MHA和前馈网络FFN。 MHA是一个多头注意力机制,FFN是一个带有LeakyReLU激活函数的单 层感知器。然后取第1个(1=1,...,L)单元为例,详细介绍如何设计。
T是转置运算。根据相似性分数si,j我们可以通过混合值来获得查询qi的参与特征ai:
根据自注意模块,可以对源域和目标域的数据样本交互进行建模,分 别增加它们的相互依赖性。
交叉注意模块:交叉注意模块实现源域与目标域的域间对齐。为了简 单起见,我们只使用一个注意单元来实现它。具体情况如下。
其中i,j=1,2,...,N且是源域投影矩阵,是目 标域投影矩阵。在自注意模块中,第i个源查询qi与第j个目标键kj之间 的相似度si,j,然后更新查询qi,得到更新后的源特征矩阵ES。为简单起 见,我们将此处理表示为自注意模块中中类似定义的,并命名为Attnc。
如上所述,我们的模型使不同领域的样本能够相互通信和聚合。
通过自注意模块和交叉注意模块,我们的领域可转移编码器可以对源 域和目标域的数据样本之间的关系进行建模,实现域内对齐和域间对齐。
(2)类别自适应解码器。类别自适应解码器是通过类原型学习和对 齐来减少域差异。为了实现这一目标,我们首先构造源域的类原型记忆, 包括源域的类原型记忆和目标域的类原型记忆。然后,我们设计了交叉注 意单元,在类原型学习过程中利用源数据特征和目标数据特征自适应地更新这些类原型。在 无监督域适应任务中,我们还实现了类原型对齐,以减少领域差异。具体 情况如下。
其中i=1,2,...,K而j=1,2,...,N。是源投影矩阵。 根据相似度,通过对对应数据样本的值进行聚合,对每个查询qi进行自适 应更新,得到更新后的源类原型为简单起见,我们将此处理表示为 Attnp,如下所示。
综上所述,该模型通过端到端的方式使用源数据和目标数据,可以自 适应地学习类原型。
原型对齐:为了使类原型成为无监督域适应的源域和目标域之间的桥 梁,我们设计了两种类原型对齐机制作为学习指导,包括类内对齐和类间 对齐。
1)类内对齐:为了确保来自不同领域的同一个类的类原型在特征 空间中紧密映射在一起,我们设计了一个定义的类内对齐损失:
2)类间对齐:为了将来自不同领域的不同类的原型推离彼此,我 们设计了类间对齐损失:
其中τ是超参数,在所有实验中都固定为10.0。
综上所述,我们提出的方法实现了类原型的对齐,不仅可以对类内的 紧凑性建模,也可以对类间的可分离性建模。
(3)图像分类模块。自适应图像分类器,一个简单全连接层。训练 阶段,利用源域的标签信息对分类器所作源域图片特征的分类预测进行约 束。测试阶段,将直接使用该分类器对目标域图片特征进行分类预测。
本发明可应用于大规模数据的日常生活图像的机器初步分类,分类结 果可靠性高,可通过简单人工快速筛选得到大量可用数据。在实施上,可 以以软件形式嵌入到小型设备中,提供的注意力可视化接口也可以方便观 察自适应过程;同时也可以部署程序于后台服务器,提供大批量无标签图 像数据的分类预测结果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已, 并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、 等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于图像分类的基于类别自适应模型的无监督域适应方法,其特征在于,包括以下步骤:
通过自注意模块和交叉注意模块建立领域可转移编码器,所述领域可转移编码器对源域和目标域的输入图像之间的关系进行建模,实现域内对齐和域间对齐,其中,所述自注意模块分别实现源域和目标域的域内对齐,所述交叉注意模块实现源域与目标域的域间对齐;
建立类别自适应解码器,所述类别自适应解码器通过类原型学习和对齐来减少域差异,其中,所述类原型学习包括源类原型学习和目标类原型学习,所述源类原型学习的表达式为所述目标类原型学习的表达式为其中,为更新后的源类原型,CS为源类原型,ES为源数据特征;为更新后的目标类原型,CT为目标类原型,ET为目标数据特征,Attnp是指对每个查询进行自适应更新的处理过程;
训练时,利用所述源域的标签信息对源域图片特征的分类预测进行约束;
测试时,将直接对所述目标域的图片特征进行分类预测。
2.根据权利要求1所述的无监督域适应方法,其特征在于,所述自注意模块为L个注意单元的叠加,其中,L=1,2,3……。
3.根据权利要求2所述的无监督域适应方法,其特征在于,所述注意单元包括注意机制MHA和前馈网络FFN。
4.根据权利要求3所述的无监督域适应方法,其特征在于,所述注意机制MHA是多头注意力机制;FFN是带有LeakyReLU激活函数的单层感知器。
5.根据权利要求2所述的无监督域适应方法,其特征在于,所述注意单元的设计步骤如下:
根据给定的源数据特征设计查询、键和值;
通过相似性对每个查询与键之间的关系进行建模;
根据相似性分数通过混合值来获得查询的参与特征,完成注意单元的设计。
6.根据权利要求1所述的无监督域适应方法,其特征在于,所述类别自适应解码器包括:
构造源域的类原型记忆和目标域的类原型记忆;
通过交叉注意单元中的源数据特征和目标数据特征自适应地更新类原型。
7.根据权利要求1所述的无监督域适应方法,其特征在于,所述类别自适应解码器包括类内对齐和类间对齐。
8.根据权利要求7所述的无监督域适应方法,其特征在于,所述类内对齐用于确保来自不同领域的同一个类的类原型在特征空间中紧密映射在一起,为此,设计了类内对齐损失。
9.根据权利要求7所述的无监督域适应方法,其特征在于,所述类间对齐用于将来自不同领域的不同类的原型推离彼此,为此,设计了类间对齐损失。
10.一种用于图像分类的基于类别自适应模型的无监督域适应装置,其特征在于,包括:
领域可转移编码器,用于对源域和目标域的输入图像之间的关系进行建模,实现域内对齐和域间对齐,其中,所述域内对齐采用自注意模块实现,所述域间对齐采用交叉注意模块实现;
类别自适应解码器,通过类原型学习和对齐来减少域差异,其中,所述类原型学习包括源类原型学习和目标类原型学习,所述源类原型学习的表达式为所述目标类原型学习的表达式为其中,为更新后的源类原型,CS为源类原型,ES为源数据特征;为更新后的目标类原型,CT为目标类原型,ET为目标数据特征,Attnp是指对每个查询进行自适应更新的处理过程;
图像分类模块,训练时,利用所述源域的标签信息对源域图片特征的分类预测进行约束;测试时,将直接对所述目标域的图片特征进行分类预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110171322.2A CN113011456B (zh) | 2021-02-05 | 2021-02-05 | 用于图像分类的基于类别自适应模型的无监督域适应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110171322.2A CN113011456B (zh) | 2021-02-05 | 2021-02-05 | 用于图像分类的基于类别自适应模型的无监督域适应方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011456A CN113011456A (zh) | 2021-06-22 |
CN113011456B true CN113011456B (zh) | 2022-07-15 |
Family
ID=76384441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110171322.2A Active CN113011456B (zh) | 2021-02-05 | 2021-02-05 | 用于图像分类的基于类别自适应模型的无监督域适应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011456B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673555B (zh) * | 2021-07-09 | 2023-12-12 | 浙江大学 | 一种基于记忆体的无监督域适应图片分类方法 |
CN115497120B (zh) * | 2022-09-23 | 2023-12-15 | 清华大学 | 基于Transformer的两步式领域自适应行人再识别方法 |
CN116778969B (zh) * | 2023-06-25 | 2024-03-01 | 山东省人工智能研究院 | 一种基于双通道交叉注意力的域适应的心音分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110880019A (zh) * | 2019-10-30 | 2020-03-13 | 北京中科研究院 | 通过无监督域适应训练目标域分类模型的方法 |
CN111242157A (zh) * | 2019-11-22 | 2020-06-05 | 北京理工大学 | 联合深度注意力特征和条件对抗的无监督域自适应方法 |
CN111259625A (zh) * | 2020-01-16 | 2020-06-09 | 平安科技(深圳)有限公司 | 意图识别方法、装置、设备及计算机可读存储介质 |
CN111814854A (zh) * | 2020-06-28 | 2020-10-23 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109690577A (zh) * | 2016-09-07 | 2019-04-26 | 皇家飞利浦有限公司 | 利用堆叠式自动编码器进行的半监督式分类 |
EP3767536A1 (en) * | 2019-07-17 | 2021-01-20 | Naver Corporation | Latent code for unsupervised domain adaptation |
-
2021
- 2021-02-05 CN CN202110171322.2A patent/CN113011456B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110880019A (zh) * | 2019-10-30 | 2020-03-13 | 北京中科研究院 | 通过无监督域适应训练目标域分类模型的方法 |
CN111242157A (zh) * | 2019-11-22 | 2020-06-05 | 北京理工大学 | 联合深度注意力特征和条件对抗的无监督域自适应方法 |
CN111259625A (zh) * | 2020-01-16 | 2020-06-09 | 平安科技(深圳)有限公司 | 意图识别方法、装置、设备及计算机可读存储介质 |
CN111814854A (zh) * | 2020-06-28 | 2020-10-23 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
Non-Patent Citations (2)
Title |
---|
Fusing Two Directions in Cross-domain Adaption for Real Life Person Search by Language;Kai Niu 等;《IEEE》;20200305;第1815-1818页 * |
结合自注意力的对抗性领域适应图像分类方法;陈诚等;《计算机工程与科学》;20200215(第02期);第72-78页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113011456A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011456B (zh) | 用于图像分类的基于类别自适应模型的无监督域适应方法 | |
CN110674880B (zh) | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 | |
CN112232416B (zh) | 一种基于伪标签加权的半监督学习方法 | |
Gu et al. | Non-autoregressive neural machine translation | |
WO2022057776A1 (zh) | 一种模型压缩方法及装置 | |
CN109564505B (zh) | 人工智能引擎、系统及机器可读存储设备 | |
CN112288075B (zh) | 一种数据处理方法及相关设备 | |
WO2021159714A1 (zh) | 一种数据处理方法及相关设备 | |
CN106973244A (zh) | 使用弱监督为图像配字幕 | |
CN113609965B (zh) | 文字识别模型的训练方法及装置、存储介质、电子设备 | |
US20200293888A1 (en) | System and Method For Implementing Modular Universal Reparameterization For Deep Multi-Task Learning Across Diverse Domains | |
CN109582786B (zh) | 一种基于自动编码的文本表示学习方法、系统及电子设备 | |
CN111144124A (zh) | 机器学习模型的训练方法、意图识别方法及相关装置、设备 | |
Costa-Jussà | From feature to paradigm: deep learning in machine translation | |
CN110569359A (zh) | 识别模型的训练及应用方法、装置、计算设备及存储介质 | |
WO2022222854A1 (zh) | 一种数据处理方法及相关设备 | |
CN110781271A (zh) | 一种基于层次注意力机制的半监督网络表示学习模型 | |
Tan et al. | Image recognition by predicted user click feature with multidomain multitask transfer deep network | |
Vuong et al. | Vector quantized wasserstein auto-encoder | |
CN114880527B (zh) | 一种基于多预测任务的多模态知识图谱表示方法 | |
CN111259673A (zh) | 一种基于反馈序列多任务学习的法律判决预测方法及系统 | |
CN115204253A (zh) | 基于分层变分条件转移神经元的跨域小样本学习方法 | |
Yang et al. | Ouroboros: On accelerating training of transformer-based language models | |
Tian et al. | An adversarial joint learning model for low-resource language semantic textual similarity | |
Wang et al. | The most related knowledge first: A progressive domain adaptation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |