CN116580255A - 多源域多目标域自适应方法、装置与电子设备 - Google Patents

多源域多目标域自适应方法、装置与电子设备 Download PDF

Info

Publication number
CN116580255A
CN116580255A CN202310854431.3A CN202310854431A CN116580255A CN 116580255 A CN116580255 A CN 116580255A CN 202310854431 A CN202310854431 A CN 202310854431A CN 116580255 A CN116580255 A CN 116580255A
Authority
CN
China
Prior art keywords
domain
dynamic
features
target
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310854431.3A
Other languages
English (en)
Other versions
CN116580255B (zh
Inventor
陆玉武
黄浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202310854431.3A priority Critical patent/CN116580255B/zh
Publication of CN116580255A publication Critical patent/CN116580255A/zh
Priority to LU504903A priority patent/LU504903B1/de
Application granted granted Critical
Publication of CN116580255B publication Critical patent/CN116580255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种多源域多目标域自适应方法、装置与电子设备,涉及跨域分类技术领域,其中,该方法包括将多个源域和多个目标域的中的样本分别输入动态特征生成器,得到各源域和各目标域的动态特征;确定具有相同标签的动态特征对应的注意力特征;将注意力特征输入多个域判别器进行判别,根据判别结果确定各源域和各目标域对应的总损失值,多个域判别器包括每个目标域分别与各个源域对应的第一域判别器和每两个目标域对应的第二域判别器;根据总损失值进行迭代训练,生成目标动态特征生成器。本申请提供的技术方案能够提升多域自适应方法的泛化性和鲁棒性。

Description

多源域多目标域自适应方法、装置与电子设备
技术领域
本申请涉及跨域分类技术领域,尤其涉及一种多源域多目标域自适应方法、装置与电子设备。
背景技术
迁移学习是指利用不同领域数据之间存在的相似性关系,把从源域学习到的知识,应用于新的未知领域。迁移学习的主要挑战是找到新领域和旧领域之间的相似性,然后可以顺利地实现知识的迁移,目前迁移学习主要通过深度域自适应方法来实现。
深度域自适应方法可分为成对域自适应(即单源域单目标域自适应)和多域自适应。其中,多域自适应方法是一种更加流行的域自适应策略。
多域自适应方法通常需要依赖于大量标记数据。然而,在现实世界中,有标记的数据往往比较缺乏,而更多的是大量未标记的数据,这使得多域自适应方法往往会陷入次优解的困境。
发明内容
有鉴于此,本申请提供一种多源域多目标域自适应方法、装置与电子设备,用以提升多域自适应方法的泛化性和鲁棒性。
为了实现上述目的,第一方面,本申请实施例提供一种多源域多目标域自适应方法,包括:
将多个源域和多个目标域的中的样本分别输入动态特征生成器,得到各源域和各目标域的动态特征,所述动态特征生成器包括动态适应模块和动态卷积模块,所述动态适应模块包括静态块和动态残差块,所述动态适应模块用于提取输入样本的低级特征,所述动态卷积模块用于提取输入样本的高级特征;
确定具有相同标签的所述动态特征对应的注意力特征;
将所述注意力特征输入多个域判别器进行判别,根据判别结果确定所述各源域和所述各目标域对应的总损失值,所述多个域判别器包括每个目标域分别与各个源域对应的第一域判别器和每两个目标域对应的第二域判别器,所述第一域判别器用于对所对应的目标域和源域中的样本的注意力特征进行判别,所述第二域判别器用于对所对应的两个目标域中的样本的注意力特征进行判别;
根据所述总损失值进行迭代训练,生成目标动态特征生成器。
作为本申请实施例一种可选的实施方式,所述将所述注意力特征输入多个域判别器进行判别,根据判别结果确定所述各源域和所述各目标域对应的总损失值,包括:
根据各所述注意力特征,分别确定各所述源域对应的总分类损失值、各个第一域判别器对应的第一总对抗损失值、各个第二域判别器对应的第二总对抗损失值;
根据所述总分类损失值、所述第一总对抗损失值和所述第二总对抗损失值,确定所述各源域和所述各目标域对应的总损失值。
作为本申请实施例一种可选的实施方式,所述静态块用于提取输入样本中的低级静态特征,所述动态残差块用于提取输入样本中的低级动态特征,所述低级静态特征与所述低级动态特征之和为所述低级特征。
作为本申请实施例一种可选的实施方式,所述动态卷积模块包括第一核生成器、第二核生成器、降维模块、升维模块和卷积模块;
所述第一核生成器用于根据输入的样本,生成第一卷积核;
所述第二核生成器用于根据输入的样本,生成第二卷积核,所述第一卷积核和所述第二卷积核的膨胀率不同;
所述降维模块用于对输入的样本进行降维操作,得到降维结果;
所述卷积模块用于根据所述降维结果和所述第一卷积核得到第一子高级特征,根据所述降维结果和所述第二卷积核得到第二子高级特征;
所述升维模块用于对所述第一子高级特征和所述第二子高级特征进行升维操作,并将升维后的第一子高级特征和第二子高级特征相加得到输入的样本的高级特征。
作为本申请实施例一种可选的实施方式,所述确定具有相同标签的所述动态特征对应的注意力特征,包括:
针对每个样本对,根据所述样本对中的每个样本各自对应的动态特征,生成对应的亲和矩阵,每个样本对包括两个具有相同标签的样本;
根据所述亲和矩阵,确定所述样本对对应的注意力映射;
根据所述注意力映射和所述样本对对应的动态特征,确定所述样本对对应的注意力特征。
作为本申请实施例一种可选的实施方式,所述样本对包括:同一源域或目标域中具有相同标签的两个不同样本,或,不同域中具有相同标签的两个样本。
作为本申请实施例一种可选的实施方式,所述根据所述总损失值进行迭代训练,生成目标动态特征生成器,包括:
在当前迭代的总损失值减去上一迭代的总损失值的差值小于或等于预设值的情况下,将当前迭代对应的动态特征生成器作为所述目标动态特征生成器。
第二方面,本申请实施例提供一种多源域多目标域自适应装置,包括:动态特征生成模块、注意力模块、确定模块和训练模块:
所述动态特征生成模块用于:将多个源域和多个目标域的中的样本分别输入动态特征生成器,得到各源域和各目标域的动态特征,所述动态特征生成器包括动态适应模块和动态卷积模块,所述动态适应模块包括静态块和动态残差块,所述动态适应模块用于提取输入样本的低级特征,所述动态卷积模块用于提取输入样本的高级特征;
所述注意力模块用于:确定具有相同标签的所述动态特征对应的注意力特征;
所述确定模块用于:将所述注意力特征输入多个域判别器进行判别,根据判别结果确定所述各源域和所述各目标域对应的总损失值,所述多个域判别器包括每个目标域分别与各个源域对应的第一域判别器和每两个目标域对应的第二域判别器,所述第一域判别器用于对所对应的目标域和源域中的样本的注意力特征进行判别,所述第二域判别器用于对所对应的两个目标域中的样本的注意力特征进行判别;
所述训练模块用于:根据所述总损失值进行迭代训练,生成目标动态特征生成器。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在调用计算机程序时执行上述第一方面或第一方面的任一实施方式所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面或第一方面的任一实施方式所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项所述的方法。
本申请实施例提供的技术方案,包括:将多个源域和多个目标域的中的样本分别输入动态特征生成器,得到各源域和各目标域的动态特征;确定具有相同标签的动态特征对应的注意力特征;将注意力特征输入多个域判别器进行判别,根据判别结果确定各源域和各目标域对应的总损失值;根据总损失值进行迭代训练,生成目标动态特征生成器。上述技术方案中,动态特征生成器包括动态适应模块和动态卷积模块,动态适应模块包括静态块和动态残差块,动态适应模块用于提取输入样本的低级特征,动态卷积模块用于提取输入样本的高级特征,这样通过动态特征生成器就能够更好的处理来自不同域的高级特征和低级特征,减少多源域和多目标域的分布差异;并且,利用注意力机制来探索不同域之间的可迁移信息,能够帮助模型学习到域不变表示,提升模型的性能,从而本方案能够提升多域自适应方法的泛化性和鲁棒性;另外,多个域判别器包括每个目标域分别与各个源域对应的第一域判别器和每两个目标域对应的第二域判别器,第一域判别器用于对所对应的目标域和源域中的样本的注意力特征进行判别,第二域判别器用于对所对应的两个目标域中的样本的注意力特征进行判别,这样通过对多目标域的注意力特征进行判别,提升各源域和各目标域对应的总损失值的准确性,能够进一步提升多域自适应方法的鲁棒性。
附图说明
图1为本申请一实施例提供的多源域多目标域自适应方法的流程示意图;
图2为本申请的方案提取的特征与DANN提取的特征的可视化对比结果;
图3为本申请实施例提供的多源域多目标域自适应装置的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
目前的多域自适应方法通常需要依赖于大量标记数据。然而,在现实世界中,有标记的数据(即源域)往往比较缺乏,而更多的是大量未标记的数据(即目标域),这使得多域自适应方法往往会陷入次优解的困境。有鉴于此,本申请提供一种多源域多目标域自适应方法,该方法使用注意力引导的动态特征生成器(Dynamic Feature Generator WithAttention,DGWA)来解决多源域多目标域自适应问题,DGWA旨在利用动态特征生成器来减少多源域和多目标域的分布差异,同时利用注意力机制来探索不同域之间的可迁移信息,帮助模型学习到域不变表示,进一步提升模型的性能,从而能够提升多域自适应方法的泛化性和鲁棒性。
图1为本申请一实施例提供的多源域多目标域自适应方法的流程示意图,如图1所示,该方法可以包括如下步骤:
S110、将多个源域和多个目标域的中的样本分别输入动态特征生成器,得到各源域和各目标域的动态特征。
为了更好地处理来自不同域的高级特征和低级特征,动态特征生成器可以包括动态适应模块和动态卷积模块。
动态适应模块主要针对输入样本中的低级特征,这些低级特征包含较多背景信息和噪声信息,不是输入样本的对应域的共有特征,可以通过动态适应模块来处理。
动态卷积模块主要针对输入样本中的高级特征,这些高级特征包含输入样本的对应域内的关键信息,动态卷积模块能够更好提取这些关键信息。
具体地,可以根据如下公式(1)确定各源域和各目标域的动态特征:
(1)
其中,Z i为任意源域或目标域中第i个样本的动态特征,为动态适应模块提取的输入样本中的低级特征,/>为动态卷积模块提取的输入样本中的高级特征。
动态适应模块能够让动态特征生成器的参数随输入样本的变化而改变,同时还能够降低参数的尺度,进行深度学习。动态适应模块可以包括静态块和动态残差块。静态块用于提取输入样本中的低级静态特征,动态残差块用于提取输入样本中的低级动态特征,低级静态特征与低级动态特征之和为低级特征。
具体地,可以根据如下公式(2)确定输入样本中的低级特征:
(2)
其中,为静态块提取的输入样本中的低级静态特征,/>为动态残差块提取的输入样本中的低级动态特征。
进一步,可以根据如下公式(3)确定低级动态特征:
(3)
其中,W为卷积层权重矩阵的个数,可以根据具体情况设置为不同的数值,例如W=4,为相应权重子空间中的样本相关矩阵,/>为相关卷积层的权重矩阵,通过输入依赖的方式限制上述矩阵,动态残差模块可以生成不同的权重来处理不同的样本。
由于来自不同域的样本可能具有不同的特征分布,因此可以通过动态卷积模块生成不同膨胀率的动态卷积核,来拟合不同特征分布的样本,从而能够有效地处理不同样本的尺度变化使,使动态特征生成器能够更好地处理输入样本。
动态卷积模块可以包括第一核生成器、第二核生成器、降维模块、升维模块和卷积模块。
第一核生成器用于根据输入的样本,生成第一卷积核;第二核生成器用于根据输入的样本,生成第二卷积核,第一卷积核和第二卷积核的膨胀率不同。
降维模块用于对输入的样本进行降维操作,得到降维结果;卷积模块用于根据降维结果和第一卷积核得到第一子高级特征,根据降维结果和第二卷积核得到第二子高级特征;升维模块用于对第一子高级特征和第二子高级特征进行升维操作,并将升维后的第一子高级特征和第二子高级特征相加得到输入的样本的高级特征。
具体地,可以根据如下公式(4)和公式(5)确定降维后的两个卷积核:
(4)
(5)
其中,Mi和Ni为降维后的两个卷积核,和/>为第一核生成器和第二核生成器生成的两个不同膨胀率的卷积核,Fi为降维模块的输出结果。/>,h为样本的高度,w为样本的宽度,c为样本的维度,m为样本维度降低的尺度。
进一步,可以根据如下公式(6)确定动态卷积模块提取的高级特征:
(6)
S120、确定具有相同标签的动态特征对应的注意力特征。
针对各个域之间的互补信息,可以通过注意力模块的注意力机制来获取各个域之间的可迁移的信息。
注意力模块每次的输入可以为一个样本对,样本对中的两个样本可以是同一源域或目标域中具有相同标签的两个不同样本,也可以是不同域中具有相同标签的两个样本。
首先可以根据样本对中的每个样本各自对应的动态特征,生成对应的亲和矩阵,通过亲和矩阵学习具有较大的接受域的不同类别之间的上下文依赖性。
具体地,可以根据如下公式(7)和公式(8)确定亲和矩阵:
(7)
(8)
其中,为第k个域的第i个样本对应的动态特征,/>为第h个域的第j个样本对应的动态特征,/>为第k个域的第i个样本和第h个域的第j个样本之间的亲和矩阵,/>和/>均由1x1卷积核的卷积层实现,m为样本/>的第m个元素,n为样本/>的第n个元素,T为矩阵的转置符号。
接着可以根据亲和矩阵,确定上述样本对对应的注意力映射。
具体地,可以根据如下公式(9)确定样本对对应的注意力映射:
(9)
其中,为样本/>注意力映射,由/>和/>共同得出,/>由1x1卷积核的卷积层实现。
然后,可以根据注意力映射和样本对对应的动态特征,确定样本对对应的注意力特征。
具体地,可以根据如下公式(10)确定样本对对应的注意力特征:
(10)
其中,Ai为注意力特征,ɑ为超参数。
S130、将注意力特征输入多个域判别器进行判别,根据判别结果确定各源域和各目标域对应的总损失值。
首先可以根据各注意力特征,分别确定各源域对应的总分类损失值。
具体地,可以根据如下公式(11)和公式(12)确定各源域对应的总分类损失值:
(11)
(12)
其中, 为第i个源域的分类损失值,/>为第i个源域的样本数量,/>为交叉熵损失函数,/>为分类器,/>为第i个源域对应的各注意力特征,/>为分类器参数,/>为第i个源域的样本,/>为第i个源域的标签,Ly为K个源域对应的总分类损失值,K为源域的总数。
其次,为了对齐来自多个源域和多个目标域的动态特征,可以通过构造多个域判别器,通过多重对抗策略将上述各模块整合到统一的端到端训练框架中。
为了最小化多个源域和多个目标域之间的特征分布差异和域偏移,可以将源域和目标域两两配对,从而混淆对应的域判别器。多个域判别器可以包括每个目标域分别与各个源域对应的第一域判别器和每两个目标域对应的第二域判别器,第一域判别器可以用于对所对应的目标域和源域中的样本的注意力特征进行判别,第二域判别器可以用于对所对应的两个目标域中的样本的注意力特征进行判别。
具体地,可以先根据各注意力特征,确定各个第一域判别器对应的第一总对抗损失值。
具体地,可以根据如下公式(13)确定第i个源域和第j个目标域之间的对抗损失:
(13)
其中,是第一域判别器,/>为第一域判别器的参数,d为域标签,若样本来自于源域,则d=0,若样本来自于目标域,则d=1。
接着,可以根据各注意力特征,确定各个第二域判别器对应的第一总对抗损失值。
具体地,可以根据如下公式(14)确定第i个目标域和第j个目标域之间的对抗损失:
(14)
各源域和各目标域,各目标域之间的对抗损失可以根据如下公式(15)确定:
(15)
各源域和各目标域之间的总损失值可以根据如下公式(16)确定:
(16)
其中,、/>和/>均为超参数。
S140、根据总损失值进行迭代训练,生成目标动态特征生成器。
在每次迭代确定出总损失值之后,可以根据当前迭代的总损失值判断当前迭代对应的动态特征生成器是否适用于目标域。
具体地,可以在当前迭代的总损失值减去上一迭代的总损失值的差值小于或等于预设值的情况下,将当前迭代对应的动态特征生成器作为所述目标动态特征生成器;在当前迭代的总损失值减去上一迭代的总损失值的差值大于预设值的情况下,继续进行迭代。
本申请实施例提供的技术方案,包括:将多个源域和多个目标域的中的样本分别输入动态特征生成器,得到各源域和各目标域的动态特征;确定具有相同标签的动态特征对应的注意力特征;将注意力特征输入多个域判别器进行判别,根据判别结果确定各源域和各目标域对应的总损失值;根据总损失值进行迭代训练,生成目标动态特征生成器。上述技术方案中,动态特征生成器包括动态适应模块和动态卷积模块,动态适应模块包括静态块和动态残差块,动态适应模块用于提取输入样本的低级特征,动态卷积模块用于提取输入样本的高级特征,这样通过动态特征生成器就能够更好的处理来自不同域的高级特征和低级特征,减少多源域和多目标域的分布差异;并且,利用注意力机制来探索不同域之间的可迁移信息,能够帮助模型学习到域不变表示,提升模型的性能,从而本方案能够提升多域自适应方法的泛化性和鲁棒性;另外,多个域判别器包括每个目标域分别与各个源域对应的第一域判别器和每两个目标域对应的第二域判别器,第一域判别器用于对所对应的目标域和源域中的样本的注意力特征进行判别,第二域判别器用于对所对应的两个目标域中的样本的注意力特征进行判别,这样通过对多目标域的注意力特征进行判别,提升各源域和各目标域对应的总损失值的准确性,能够进一步提升多域自适应方法的鲁棒性。
本领域技术人员可以理解,以上实施例是示例性的,并非用于限定本申请。在可能的情况下,以上步骤中的一个或者几个步骤的执行顺序可以进行调整,也可以进行选择性组合,得到一个或多个其他实施例。本领域技术人员可以根据需要从上述步骤中任意进行选择组合,凡是未脱离本申请方案实质的,都落入本申请的保护范围。
下面通过实验数据对本申请方案的有效性进行说明。
本次实验采用两个经典的数据集Office+Clatech10和Office-Home。
Office+Caltech10数据集由Office31数据集和Caltech256数据集组成,共包含四个子域A(Amazon),W(Webcam),D(Dslr),以及C(Caltech);Office31数据集总共包含来自31个类别的4110张图像。Caltech256包含来自256个类别的30607张图像。在实验中将Caltech作为第四个域,并从Office31和Caltech256数据集中选择10个共同的类,组成Office+Caltech10数据集,针对Office+Caltech10数据集的4个子域构造6个迁移任务:C/DA/W,D/W/>A/C,W/C/>A/D,A/D/>W/C,C/A/>W/D,以及A/W/>C/D。
Office-Home数据集比Office+Caltech10更加复杂,其包含四个子域和来自65个类别的15500张图像。四个子域分别为Ar(Artistic images),Cl(Clip Art),Pr(Productimages),以及Rw(Real-world images)。针对Office-Home数据集的4个子域同样构造六个迁移任务:Ar/ClPr/Rw,Ar/Pr/>Cl/Rw,Ar/Rw/>Cl/Pr,Cl/Pr/>Ar/Rw,Cl/Rw/>Ar/Pr,以及Pr/Rw/>Ar/Cl。
对于以上两个数据集,本次实验均采用ResNet-50作为动态特征生成器的主干网络,并在前三层瓶颈层中引入动态适应模块,在最后一层瓶颈层引入动态卷积模块来实现动态特征生成器。加载在ImageNet数据集上预训练的参数。使用带动量(Momentum)参数的随机梯度下降作为优化器,Momentum=0.9。
在训练时,将每个小批量的大小设置为32,并训练50次迭代,初始学习率设置为0.001,随着每次迭代动态减小学习率。对于域判别器,使用带有128个隐藏单元的三层全连接层神经网络实现,并使用两层全连接层的神经网络作为最终分类器,以提升计算分类的准确率,将超参数设置为,/>,/>
最后将本次的实验结果与本领域中常见的先进方法进行对比,本次对比对象包括:单源域单目标域方法:TCA,JDA,DANN,RSDA-MSTN,DAN,DCTN,SCDA,BIWAA,SymNets;多源域单目标域方法:M3SDA,DCA,MDAN;单源多目标域方法:MTDA-ITA和多源域多目标域方法:HTA和AMDA。
表1展示了使用Office+Caltech10数据集时图像分类的实验结果。对于单源域单目标域方法,每一列代表一个单源域单目标域迁移任务,比如表1第一列代表的是从源域C迁移知识到目标域A,即C→A。对于单源域多目标域方法,比较内容为两个多目标域迁移任务中的准确率较高的那个,比如表1中的C→A/W和D→A/W。对于多源域多目标域方法,通过两个源域和两个目标域的方式来进行对比,例如表1中的第一列,C+D→A/W指的是从源域C和D中学习知识并将知识迁移到多个目标域,即A和W。
从表1中可以看出,DGWA(即本申请的方案)在6个迁移任务中的平均分类准确率98.4%,比最优对比方法提高了0.6%。并且在多个对比组合中超过对比方法AMDA。对比多源域方法DCA,DGWA比DCA平均提高1.6%。DCA使用了多视角特征以及伪标签训练策略来优化模型,但是由于DCA忽略了多个目标域所能提供的有用信息,因此性能与DGWA存在一定的差距。
表2展示了DGWA在Office-Home数据集上的图像分类实验结果。从表
2中可以看到,DGWA比最先进的多源域多目标域自适应方法AMDA的分类准确率高出2.1%,并且在6个迁移任务中的平均性能均超过AMDA。注意到Office-Home数据集比Office+Caltech10数据集更加复杂,其中包含的样本的分布差异相较于上一个数据集要大得多。本申请的方案依然能够超过现有的最先进的方法,并且领先的幅度相较于上一个数据集要更大,该现象说明,本申请的动态特征生成器面对分布差异越大的样本表现出的性能越好,同时本申请方案中的注意力模块也起到了捕捉样本间可迁移信息的作用。此外,多个目标域的信息在域自适应中能够有效促进模型的学习。
综上所述,本申请的动态特征生成器能够在来自多个域的分布差异较大的样本中学习到更加清晰的领域不变表示,同时注意力模块能够很好地捕捉到不同样本之间的可迁移信息。并且多个目标域的信息能够辅助特征的对齐,使得模型能够更好地适应多个目标域。
图2为本申请的方案提取的特征与DANN提取的特征的可视化对比结果,本次提取均从分类器预测的前一层隐藏层提取出特征来生成t-SNE特征可视化。如图2所示,在两组对比实验中,DANN方法生成的特征的判别能力均差于DGWA生成的特征(即DANN提取的特征的类内样本距离不够紧凑,同时类间样本距离不够大)。原因为DANN的静态特征生成器不能很好地处理来自多个域的信息,使其学习到的特征表示的效果不如DGWA。由特征可视化实验结果可以进一步证明本申请所提出的注意力机制引导的动态特征生成器的有效性。
基于同一发明构思,作为对上述方法的实现,本申请实施例提供了一种多源域多目标域自适应装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
图3为本申请实施例提供的多源域多目标域自适应装置的结构示意图,如图3所示,本实施例提供的装置包括:
动态特征生成模块11:用于将多个源域和多个目标域的中的样本分别输入动态特征生成器,得到各源域和各目标域的动态特征,所述动态特征生成器包括动态适应模块111和动态卷积模块112,所述动态适应模块111包括静态块1111和动态残差块1112,所述动态适应模块111用于提取输入样本的低级特征,所述动态卷积模块112用于提取输入样本的高级特征;
注意力模块12:用于确定具有相同标签的所述动态特征对应的注意力特征;
确定模块13:用于将所述注意力特征输入多个域判别器进行判别,根据判别结果确定所述各源域和所述各目标域对应的总损失值,所述多个域判别器包括每个目标域分别与各个源域对应的第一域判别器和每两个目标域对应的第二域判别器,所述第一域判别器用于对所对应的目标域和源域中的样本的注意力特征进行判别,所述第二域判别器用于对所对应的两个目标域中的样本的注意力特征进行判别;
训练模块14:用于根据所述总损失值进行迭代训练,生成目标动态特征生成器。
作为一种可选的实施方式,所述确定模块13具体用于:
根据各所述注意力特征,分别确定各所述源域对应的总分类损失值、各个第一域判别器对应的第一总对抗损失值、各个第二域判别器对应的第二总对抗损失值;
根据所述总分类损失值、所述第一总对抗损失值和所述第二总对抗损失值,确定所述各源域和所述各目标域对应的总损失值。
作为一种可选的实施方式,所述静态块1111用于提取输入样本中的低级静态特征,所述动态残差块1112用于提取输入样本中的低级动态特征,所述低级静态特征与所述低级动态特征之和为所述低级特征。
作为一种可选的实施方式,所述动态卷积模块112包括第一核生成器1121、第二核生成器1122、降维模块1123、升维模块1124和卷积模块1125;
所述第一核生成器1121用于根据输入的样本,生成第一卷积核;
所述第二核生成器1122用于根据输入的样本,生成第二卷积核,所述第一卷积核和所述第二卷积核的膨胀率不同;
所述降维模块1123用于对输入的样本进行降维操作,得到降维结果;
所述卷积模块1125用于根据所述降维结果和所述第一卷积核得到第一子高级特征,根据所述降维结果和所述第二卷积核得到第二子高级特征;
所述升维模块1124用于对所述第一子高级特征和所述第二子高级特征进行升维操作,并将升维后的第一子高级特征和第二子高级特征相加得到输入的样本的高级特征。
作为一种可选的实施方式,所述注意力模块12具体用于:
针对每个样本对,根据所述样本对中的每个样本各自对应的动态特征,生成对应的亲和矩阵,每个样本对包括两个具有相同标签的样本;
根据所述亲和矩阵,确定所述样本对对应的注意力映射;
根据所述注意力映射和所述样本对对应的动态特征,确定所述样本对对应的注意力特征。
作为一种可选的实施方式,所述样本对包括:同一源域或目标域中具有相同标签的两个不同样本,或,不同域中具有相同标签的两个样本。
作为一种可选的实施方式,所述训练模块14具体用于:
在当前迭代的总损失值减去上一迭代的总损失值的差值小于或等于预设值的情况下,将当前迭代对应的动态特征生成器作为所述目标动态特征生成器。
本实施例提供的多源域多目标域自适应装置可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种电子设备。图4为本申请实施例提供的电子设备的结构示意图,如图4所示,本实施例提供的电子设备包括:存储器210和处理器220,存储器210用于存储计算机程序;处理器220用于在调用计算机程序时执行上述方法实施例所述的方法。
本实施例提供的电子设备可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例所述的方法。
本申请实施例还提供一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时实现上述方法实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘或磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质可以包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
在本申请所提供的实施例中,应该理解到,所揭露的装置/设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
在本申请的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,A/B可以表示A或B;本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。
并且,在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。“以下至少一项”或其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b,或c中的至少一项,可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种多源域多目标域自适应方法,其特征在于,包括:
将多个源域和多个目标域的中的样本分别输入动态特征生成器,得到各源域和各目标域的动态特征,所述动态特征生成器包括动态适应模块和动态卷积模块,所述动态适应模块包括静态块和动态残差块,所述动态适应模块用于提取输入样本的低级特征,所述动态卷积模块用于提取输入样本的高级特征;
确定具有相同标签的所述动态特征对应的注意力特征;
将所述注意力特征输入多个域判别器进行判别,根据判别结果确定所述各源域和所述各目标域对应的总损失值,所述多个域判别器包括每个目标域分别与各个源域对应的第一域判别器和每两个目标域对应的第二域判别器,所述第一域判别器用于对所对应的目标域和源域中的样本的注意力特征进行判别,所述第二域判别器用于对所对应的两个目标域中的样本的注意力特征进行判别;
根据所述总损失值进行迭代训练,生成目标动态特征生成器。
2.根据权利要求1所述的方法,其特征在于,所述将所述注意力特征输入多个域判别器进行判别,根据判别结果确定所述各源域和所述各目标域对应的总损失值,包括:
根据各所述注意力特征,分别确定各所述源域对应的总分类损失值、各个第一域判别器对应的第一总对抗损失值、各个第二域判别器对应的第二总对抗损失值;
根据所述总分类损失值、所述第一总对抗损失值和所述第二总对抗损失值,确定所述各源域和所述各目标域对应的总损失值。
3.根据权利要求1所述的方法,其特征在于,所述静态块用于提取输入样本中的低级静态特征,所述动态残差块用于提取输入样本中的低级动态特征,所述低级静态特征与所述低级动态特征之和为所述低级特征。
4.根据权利要求3所述的方法,其特征在于,所述动态卷积模块包括第一核生成器、第二核生成器、降维模块、升维模块和卷积模块;
所述第一核生成器用于根据输入的样本,生成第一卷积核;
所述第二核生成器用于根据输入的样本,生成第二卷积核,所述第一卷积核和所述第二卷积核的膨胀率不同;
所述降维模块用于对输入的样本进行降维操作,得到降维结果;
所述卷积模块用于根据所述降维结果和所述第一卷积核得到第一子高级特征,根据所述降维结果和所述第二卷积核得到第二子高级特征;
所述升维模块用于对所述第一子高级特征和所述第二子高级特征进行升维操作,并将升维后的第一子高级特征和第二子高级特征相加得到输入的样本的高级特征。
5.根据权利要求1所述的方法,其特征在于,所述确定具有相同标签的所述动态特征对应的注意力特征,包括:
针对每个样本对,根据所述样本对中的每个样本各自对应的动态特征,生成对应的亲和矩阵,每个样本对包括两个具有相同标签的样本;
根据所述亲和矩阵,确定所述样本对对应的注意力映射;
根据所述注意力映射和所述样本对对应的动态特征,确定所述样本对对应的注意力特征。
6.根据权利要求5所述的方法,其特征在于,所述样本对包括:同一源域或目标域中具有相同标签的两个不同样本,或,不同域中具有相同标签的两个样本。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据所述总损失值进行迭代训练,生成目标动态特征生成器,包括:
在当前迭代的总损失值减去上一迭代的总损失值的差值小于或等于预设值的情况下,将当前迭代对应的动态特征生成器作为所述目标动态特征生成器。
8.一种多源域多目标域自适应装置,其特征在于,包括:动态特征生成模块、注意力模块、确定模块和训练模块:
所述动态特征生成模块用于:将多个源域和多个目标域的中的样本分别输入动态特征生成器,得到各源域和各目标域的动态特征,所述动态特征生成器包括动态适应模块和动态卷积模块,所述动态适应模块包括静态块和动态残差块,所述动态适应模块用于提取输入样本的低级特征,所述动态卷积模块用于提取输入样本的高级特征;
所述注意力模块用于:确定具有相同标签的所述动态特征对应的注意力特征;
所述确定模块用于:将所述注意力特征输入多个域判别器进行判别,根据判别结果确定所述各源域和所述各目标域对应的总损失值,所述多个域判别器包括每个目标域分别与各个源域对应的第一域判别器和每两个目标域对应的第二域判别器,所述第一域判别器用于对所对应的目标域和源域中的样本的注意力特征进行判别,所述第二域判别器用于对所对应的两个目标域中的样本的注意力特征进行判别;
所述训练模块用于:根据所述总损失值进行迭代训练,生成目标动态特征生成器。
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在调用所述计算机程序时执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN202310854431.3A 2023-07-13 2023-07-13 多源域多目标域自适应方法、装置与电子设备 Active CN116580255B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310854431.3A CN116580255B (zh) 2023-07-13 2023-07-13 多源域多目标域自适应方法、装置与电子设备
LU504903A LU504903B1 (de) 2023-07-13 2023-08-14 Ein für mehrere Quell-und Zieldomänen geeignetes adaptives Verfahren und elektronisches Gerät

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310854431.3A CN116580255B (zh) 2023-07-13 2023-07-13 多源域多目标域自适应方法、装置与电子设备

Publications (2)

Publication Number Publication Date
CN116580255A true CN116580255A (zh) 2023-08-11
CN116580255B CN116580255B (zh) 2023-09-26

Family

ID=87545663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310854431.3A Active CN116580255B (zh) 2023-07-13 2023-07-13 多源域多目标域自适应方法、装置与电子设备

Country Status (2)

Country Link
CN (1) CN116580255B (zh)
LU (1) LU504903B1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256561A (zh) * 2017-12-29 2018-07-06 中山大学 一种基于对抗学习的多源域适应迁移方法及系统
CN109948648A (zh) * 2019-01-31 2019-06-28 中山大学 一种基于元对抗学习的多目标域适应迁移方法及系统
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation
CN113610219A (zh) * 2021-08-16 2021-11-05 中国石油大学(华东) 一种基于动态残差的多源域自适应方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256561A (zh) * 2017-12-29 2018-07-06 中山大学 一种基于对抗学习的多源域适应迁移方法及系统
CN109948648A (zh) * 2019-01-31 2019-06-28 中山大学 一种基于元对抗学习的多目标域适应迁移方法及系统
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation
CN113610219A (zh) * 2021-08-16 2021-11-05 中国石油大学(华东) 一种基于动态残差的多源域自适应方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白静等: "跨域变分对抗自编码器", 《计算机辅助设计与图形学学报》, vol. 32, no. 9, pages 1402 - 1410 *

Also Published As

Publication number Publication date
CN116580255B (zh) 2023-09-26
LU504903B1 (de) 2024-02-19

Similar Documents

Publication Publication Date Title
Wang et al. Kvt: k-nn attention for boosting vision transformers
Cui et al. Class-balanced loss based on effective number of samples
Alzantot et al. Genattack: Practical black-box attacks with gradient-free optimization
CN111709435B (zh) 一种基于离散小波变换的对抗样本生成方法
CN103455597B (zh) 面向海量web图像的分布式信息隐藏检测方法
Karawia Image encryption based on Fisher‐Yates shuffling and three dimensional chaotic economic map
CN113627543A (zh) 一种对抗攻击检测方法
CN115146055B (zh) 一种基于对抗训练的文本通用对抗防御方法及系统
Liu et al. Ensemble of CNN and rich model for steganalysis
Wang et al. Cross-view representation learning for multi-view logo classification with information bottleneck
Jiang et al. A new steganography without embedding based on adversarial training
Mo et al. Siamese prototypical contrastive learning
Narvaez et al. Painting authorship and forgery detection challenges with ai image generation algorithms: Rembrandt and 17th century dutch painters as a case study
Tran et al. One-shot learning approach for unknown malware classification
Chen et al. Sparse general non-negative matrix factorization based on left semi-tensor product
Qin et al. Robustness enhancement against adversarial steganography via steganalyzer outputs
Jin et al. DANAA: Towards transferable attacks with double adversarial neuron attribution
CN116580255B (zh) 多源域多目标域自适应方法、装置与电子设备
Yan et al. Towards explainable model extraction attacks
Xiao et al. CTNet: hybrid architecture based on CNN and transformer for image inpainting detection
Jonker et al. Detecting post editing of multimedia images using transfer learning and fine tuning
Yang et al. APE-GAN++: An improved APE-GAN to eliminate adversarial perturbations
CN114332745B (zh) 一种基于深度神经网络的近重复视频大数据清洗方法
Amrit et al. AutoCRW: Learning based robust watermarking for smart city applications
CN114444690B (zh) 一种基于任务扩增的迁移攻击方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant