CN112801179A - 面向跨领域复杂视觉任务的孪生分类器确定性最大化方法 - Google Patents
面向跨领域复杂视觉任务的孪生分类器确定性最大化方法 Download PDFInfo
- Publication number
- CN112801179A CN112801179A CN202110107883.6A CN202110107883A CN112801179A CN 112801179 A CN112801179 A CN 112801179A CN 202110107883 A CN202110107883 A CN 202110107883A CN 112801179 A CN112801179 A CN 112801179A
- Authority
- CN
- China
- Prior art keywords
- classifier
- twin
- certainty
- domain
- cdd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000000007 visual effect Effects 0.000 title claims abstract description 20
- 238000005259 measurement Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 230000011218 segmentation Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种面向跨领域复杂视觉任务的孪生分类器确定性最大化方法,其特征在于,包括以下步骤:步骤1,构建神经网络框架并初始化;步骤2,将源域样本输入至特征生成器G中获得相应的特征表示;步骤3,在源域样本的标签信息的监督下,利用标准交叉熵损失函数计算在源域样本上模型预测输出p与真实标签y之间的经验风险误差等步骤;本发明的优越效果在于设计了一种新型的分类器确定性差异度量CDD,利用孪生分类器的目标预测间的类别相关性来衡量分类器的差异,同时会对目标特征的可鉴别性施加隐式的约束。
Description
技术领域
本发明涉及迁移学习领域中一种无监督领域自适应的匹配方法,确切地说,涉及一种面向图像分类、语义分割和目标检测的复杂视觉任务的孪生分类器确定性最大化方法。
背景技术
随着信息技术的飞速发展与数据规模的大幅增长,机器学习无论是在理论层面还是在实际应用中都有了很大的进展,尤其是近年来提出的深度神经网络(Deep NeuralNetwork,DNN),已成功地应用在包括计算机视觉、自然语言处理、医疗诊断等在内的多个领域,并取得了极大的突破。然而值得注意的是,深度学习所取得的巨大成功很大程度上依赖于大规模的带标签数据。但是在很多实际应用场景中,标记数据的获取需要耗费昂贵的时间与人力成本,从而导致了标注数据稀缺的问题。无监督领域自适应技术(UnsupervisedDomain Adaptation,UDA)作为一种解决传统深度学习需要大量标注数据问题的手段随之提出,并受到了广泛关注。该技术旨在利用领域间的自适应将从标签丰富的源域中学到的知识迁移到无标签的目标域中。无监督域自适应放宽了训练数据和测试数据必须服从相同概率分布的约束,免于对每个任务都收集大量的标注数据,具有极强的研究价值与应用价值。
尽管现有的UDA方法在图像分类、语义分割、目标检测等计算机视觉任务上有着十分优越的表现,但是大多方法却倾向于仅面向某一个特定的任务场景,而无法直接应用到其他任务场景下,也很难泛化到包含不止一个任务场景的复杂视觉任务上。而随着人工智能与物联网的发展,同时涉及到诸如图像分类、语义分割、目标检测等多个任务场景的复杂视觉任务逐渐成为很多实际应用中亟需解决的问题。例如在无人驾驶领域中,对于由传感器获得的路面图像信息,既需要将其按照天气、路况、场景等进行分类,如晴天、雪天、拥堵、畅通、城市、乡村等,从而进一步调整车辆驾驶模式;也需要根据语义对图像进行分割,以识别出当前视野中哪些为街道、哪些为行人、哪些为建筑等;还需要对包括行人、车辆等进行目标检测甚至跟踪,从而精确调整车辆的行驶速度与方向。又如在医疗诊断领域,对医疗影像进行疾病分类、目标病变区域检测、按肌肉、血管、内脏等进行分割将同时作为进行最终医疗诊断的判断依据。以上的实际场景中所面临的视觉任务是极其复杂的,而现有的无监督域自适应方法却更适合于单一的任务场景。而在一个复杂视觉任务场景中同时应用多个不同模型来分别单独面向每个任务的话,势必会对系统整体的统一性、兼容性与高效性造成影响。
此外,如何利用有限的标签更好地实现领域间的对齐也是很重要的研究方向。其中主流的两类UDA方法分别基于最小化域间距离和基于生成式对抗网络GANs(GenerativeAdversarial Networks)。基于域间距离最小化的算法主要依赖于距离度量的选择,通过最小化域间距离来学习具有域不变性的特征,实现两个分布的对齐;基于生成式对抗网络的方法则一般通过域鉴别器或者孪生分类器与特征生成器间的博弈来学习具有良好迁移性的特征表示。但是上述方法大都主要关注于特征表示的可迁移性,而忽略了分类器在目标域上的确定性,进而会导致特征可鉴别性的缺失,大大限制了算法的性能。例如最大化分类器差异方法(Maximum Classifier Discrepancy,MCD,)中所使用的简单的距离度量L1(两个n维向量间距离的简单度量方式,可定义为对应维度差的绝对值之和)范数,仅仅考虑了孪生分类器输出预测对应位置上的差异,却没有考虑到预测的确定性问题。这样的话当最小化孪生分类器间的L1距离时,就可能会输出诸如[0.34,0.33,0.33]和[0.34,0.33,0.33]这样的预测,导致生成位于决策边界附近的具有迷惑性的特征,从而极大地损害算法的性能。
因此,本发明提出了一种面向跨领域分类、分割和检测的复杂视觉任务的孪生分类器确定性最大化方法。该方法将图像分类、语义分割以及目标检测任务集成到了一个统一的算法框架中,可以同时适用于上述三类任务场景,从而达到对复杂视觉任务的支持。并且提出了一种新的度量方式,并基于该度量方式对现有域自适应算法做出了改进,能够在保证特征可迁移性的前提下,同时进一步保证特征的可鉴别性,从而实现对模型自适应性能的提升。
中国专利申请号CN202010687755.9公开了一种基于孪生条件对抗网络的跨领域多视图目标识别方法,包括:将孪生形式的网络结构作为特征提取器用于提取源域和目标域样本的特征;构建域鉴别器以对齐源域和目标域样本特征,采用源域样本特征训练分类器,使对齐后的源域和目标域特征具有类级可区分性;将对齐后的源域和目标域样本特征均输入到分类器中,分别获取输出结果,再将输出结果和对应的样本特征经过非线性映射后作为域鉴别器的输入;结合分类器和域鉴别器的分类损失作为网络损失,利用反向传播训练特征提取器,将目标域的分类结果也作为条件对抗网络的输入;利用训练好的特征提取器,提取目标域样本的特征,进行跨域的多视目标识别。
又如,中国发明专利公开号CN109800810A涉及一种基于不平衡数据的少样本学习分类器的构建方法,属于计算机数据分类技术领域。该方法:首先,根据孪生神经网络的一次学习和少样本学习特性设计了孪生平行全连接网络用于输入样本对的特征学习;然后,利用成本敏感优化器来处理输入样本对的不平衡问题,同时根据不同的误分类代价设计期望误分类成本函数,并将其融入网络参数优化算法中用于调节类不平衡分类权重。
上述发明专利申请存在的缺陷是,无法同时适用于多个视觉任务场景,从而无法处理复杂视觉任务下的问题,并且在进行跨领域适应的过程中仅关注于具有良好可迁移性的特征表示的学习,而无法保证特征的可鉴别性,从而限制甚至损害了模型的自适应性能。
发明内容
为了解决跨领域视觉任务适应场景单一以及其中特征表示的可鉴别性不足的问题,本发明提出了一种面向跨领域复杂视觉任务的孪生分类器确定性最大化方法。
本发明所述方法包括以下步骤:
步骤1,构建神经网络框架并初始化,包括特征生成器G以及孪生分类器C1,C2;
步骤2,将源域样本输入至特征生成器G中获得相应的特征表示,然后将生成的特征表示分别输入分类器C1,C2中获得标签预测输出p1,p2;
步骤3,在源域样本的标签信息的监督下,利用标准交叉熵损失函数计算在源域样本上模型预测输出p与真实标签y之间的经验风险误差,并利用随机梯度下降算法(Stochastic Gradient Descent,SGD)进行反向传播,以更新特征生成器G以及孪生分类器C1,C2的参数,学习具有类级可区分性的源域样本特征;
步骤4,将目标域样本输入至特征生成器G中获得对应的特征表示,然后将特征表示输入至孪生分类器C1,C2中获得标签预测输出p1,p2;
步骤6,根据孪生分类器C1,C2预测相关性矩阵A定义分类器确定性差异度量CDD(Classifier Determinacy Disparity),如下式(1)所示:
上式(1)中:Amn即为分类器C1将样本分为第m类同时分类器C2将样本分为第n类的概率,看到分类器确定性差异度量CDD包含了所有分类器C1和分类器C2的预测不一致的概率,故而能够被用来衡量两个分类器C1,C2之间的差异;
步骤7,基于分类器确定性差异度量CDD度量计算两个孪生分类器C1,C2,在目标域样本上的差异并将其作为损失函数,在源域标签信息的监督下更新孪生分类器C1,C2的参数,以使分类器确定性差异度量CDD损失函数最大化,通过最大化孪生分类器C1,C2之间的分类器确定性差异度量CDD差异,能够使两个孪生分类器C1,C2在类别上生成尽可能不一致的预测,从而实现对更多元化的输出空间的探索并保证预测结果的多样性;
步骤8,再次计算两个孪生分类器C1,C2在目标样本上的分类器确定性差异度量CDD损失,并更新特征生成器G的参数,以使分类器确定性差异度量CDD损失函数最小化,通过最小化分类器确定性差异度量CDD损失函数,减小孪生分类器C1,C2的在目标域上的差异,促使特征生成器G生成更具有域不变性的特征表示,并使分类器的预测输出更具有确定性,同时保证目标特征表示的可鉴别性,实现源域样本和目标域样本的按类别的对齐;
步骤9,重复步骤2至步骤8,直至迭代次数已达到最大或神经网络模型参数达到收敛。
进一步地,步骤3中所述计算源域样本的标准监督损失所利用的标准交叉熵损失函数如下:
上式(1)中:Xs,Ys分别为源域样本空间和源域标签空间,k为类别数目,y为对应的预测标签,在源域标签数据的监督下保留源域样本的特征可鉴别性。
进一步地,步骤7中,计算两个孪生分类器C1,C2在目标域样本上的分类器确定性差异度量CDD损失函数定义如下
进一步地,所述步骤3中,计算源域样本的标准监督损失所利用的标准交叉熵损失函数的优化目标如下式(4):
进一步地,所述步骤7中,所述面向跨领域复杂视觉任务的孪生分类器确
定性最大化方法,优化目标如下式(5):
本发明所述方法与现有同类方法相比较,具有以下的优越效果:
1.与传统的基于L1范数的朴素孪生分类器方法不同,本发明设计了一种新型的分类器确定性差异度量CDD,利用孪生分类器的目标预测间的类别相关性来衡量分类器的差异,同时会对目标特征的可鉴别性施加隐式的约束。
2.采用现有域自适应方法学习到的目标样本特征极易位于决策边界附近,从而容易导致错误的分类结果。而基于本发明提出的新型分类器确定性差异度量CDD,孪生分类器确定性最大化方法(BCDM)能够通过对抗式地优化分类器确定性差异度量CDD损失函数来使孪生分类器对目标样本的预测输出一致且确定,通过两个孪生分类器C1,C2对目标样本预测的一致性保证了目标样本按类别对齐到源域样本的迁移能力,而分类器预测的确定性则能使目标的特征表示具有可鉴别性,远离决策边界。
2.本发明所述方法通过对同一个损失函数的对抗式优化,在生成具有可迁移性的特征表示的同时能够保证特征的可鉴别性以及预测的多样性,从而进一步提高了模型性能,这充分展示了本发明提出的方法的简洁性和有效性。
3.本发明所述方法对于分类器确定性差异度量CDD度量的一些特性进行了理论推导,证明了其严格属于度量空间;并且对于孪生分类器确定性最大化方法BCDM在目标领域上的泛化误差上界的理论保证进行了严格的推导与证明。
4.在多个不同的跨领域视觉任务的应用场景下验证了本发明的有效性,表明孪生分类器确定性最大化方法BCDM与现有的最先进的域自适应方法相比更好地保证了特征表示的可鉴别性,有着更好的性能表现。包括玩具数据集、跨领域图像分类基准数据集、流行的“synthetic-2-real”语义分割数据集以及目标检测数据集等。大量的实验也证明提高分类器的确定性能够有效增强特征表示的可鉴别性,从而实现更精确的预测效果。
5.本发明所述方法与其他最先进的UDA方法相比,不仅在模型的自适应性能上有着显著的提升,还能够应用于包括图像分类、语义分割、目标检测在内的复杂视觉任务,具有十分显著的优势。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,对本发明所述方法的具体实例作进一步的详细描述。
为了便于理解,在本实例中,包含一个拥有标签的源域 其中:ns为样本数量,为源域中的第i个样本,为对应的标签,以及一个无标签的目标域其中:nt为目标域样本数量,为目标域中的第i个样本;本发明所述方法的目标是将在源域样本上训练好的深度神经网络模型迁移到目标域,并使其能够在目标域上学习到具有良好可迁移性以及可鉴别性的特征表示,从而实现模型在目标域上良好的性能表现,即φ:Xt→Yt;本发明所述方法的模型框架包含一个特征生成器G和两个孪生分类器C1,C2,其中θg,θc1,θc2分别为对应网络的参数示。
本发明所述方法首先提出了一种新型的分类器确定性差异度量CDD,对于给定的两个分类器C1、C2对同一个样本的softmax概率预测输出标签预测输出p1,p2∈RK×1,其中各元素均为非负数且各元素之和为1,用来表示Cj的概率输出的第k个元素,即Cj将样本分为第k类的概率,K为类别数。现有技术中的方法,例如MCD,使用朴素的L1距离|p1-p2|来衡量两个预测分布间的差异,但是L1距离只考虑了标签预测输出p1,p2在对应类别即相同位置上的相似度,而忽略了两个预测的不同类别间的相关性,而这将会影响到预测的确定性。例如预测p1=[0,34,0.33,0.33]和p2=[0,34,0.33,0.33]间的L1距离为0,已满足MCD的优化目标,但这样的预测却是十分模糊的,这将导致特征生成器生成位于决策边界附近的模糊特征。本发明所述方法提出的分类器确定性差异度量CDD方法则通过构造一个孪生分类器预测相关性矩阵A来探索分类器间的差异,其中这样则可得到一个K×K的方阵,其中矩阵的第m行n列元素代表着分类器C1将一个样本预测为第m类同时分类器C2将该样本预测为第n类的概率。也就是说,矩阵A能够有效地衡量孪生分类器的预测在不同类别间的相关性。由于矩阵A的特性,想要最小化分类器在预测相关性上的差异,只能使矩阵A的对角线元素最大化,这就意味着要使两个预测分布更加一致,同时使预测结果具有更大的确定性。与此同时,矩阵A的非对角线元素可被视为两个孪生分类器C1,C2细粒度的混淆信息。本发明提出的分类器确定性差异度量CDD损失被定义为下式:
由于标签预测输出p1,p2为softmax输出,上式中第一项的值为1,可以看到分类器确定性差异度量CDD包含了所有分类器C1和C2的预测不一致的概率,故而能够被用来衡量两个预测间的差异。需要说明的是,经过严格的证明,Γ(p1,p2)满足度量空间的性质。另外,只有当两个预测完全一致且完全确信的时候,例如[1,0,0]和[1,0,0],分类器确定性差异度量CDD才会达到最小值0,这充分保证了分类器的确定性,进而保证了特征的可鉴别性。
基于上述提出的分类器确定性差异度量CDD,本发明所述方法通过对抗式地优化孪生分类器在目标域上的分类器确定性差异度量CDD损失来学习具有良好可迁移性以及可鉴别性的特征表示。由于在UDA问题中,确保分类器能够正确分类源域样本是必要的前提。因此为了充分利用源域标签的监督信息,本发明所述方法首先训练整个网络来最小化在源域样本上的标准监督损失,优化目标如下:
上式中:Lce(·,·)是交叉熵损失函数。在源域数据的充分监督下,源域样本的特征可鉴别性可以被很好地保留。然而,需要注意的是,由于域间存在分布差异,在源域上学习到的决策边界无法被直接迁移到目标域上。本发明所述方法进一步提出通过一种对抗的方式来在目标域上训练两个孪生分类器C1,C2。为了更好地达到目的,本发明所述方法使用了上述设计的分类器确定性差异度量CDD度量来衡量分类器差异。具体地说,通过最大化孪生分类器确定性差异度量CDD在目标样本上的分类器确定性差异度量CDD损失进行更新,如下式所示:
通过最大化上述目标函数,能够有效地检测出远离源域分布支持范围的目标样本。本质上来说,最大化分类器确定性差异度量CDD损失函数是在鼓励两个分类器产生跨类别的预测差异,而不是像MCD中一样仅鼓励同类别间的预测产生差异。此外,优化上式还能够潜在地削弱预测的确定性,从而生成更多位于决策边界附近的模糊目标特征,通过这种简单的方式使分类器能够探索更多样化的概率空间。
在进行上式的优化之后,为了能够拥有多样化的预测,大多数的目标样本更倾向于位于决策边界附近,而这会为目标特征的学习带来很大的不确定性。因此为了鼓励生成具有可鉴别性的特征并实现孪生分类器的确定性,本发明所述方法接下来在目标域上训练特征生成器G来最小化分类器确定性差异度量CDD损失函数,此时分类器的参数被固定,优化目标如下式所示:
考虑到分类器确定性差异度量CDD度量的特殊性,当且仅当两个预测完全一致且100%确定时,分类器确定性差异度量CDD损失才能达到最小值0,因此特征生成器G能够通过最小化上式生成具有很好的可鉴别性的特征表示,从而进一步有益于模型的学习任务。相反的,MCD则无法保证决策边界是否将目标域按类分隔成簇,因为MCD仅关注了预测间的一致性。显然,对于MCD等方法,会出现尽管输出概率一致满足优化目标但仍然生成了令人混淆的目标特征的情况,这严重影响了模型的适应性能。
综上所述,为了最大化分类器确定性差异度量CDD,需要最小化矩阵A的对角线元素之和,即标签预测输出p1和p2需要拥有尽可能不一致的类别预测。这使模型能够对每个样本进行更多分类可能性的探索,从而提高预测的多样性。而为了最小化分类器确定性差异度量CDD,孪生分类器C1,C2在目标域上的预测需要高度一致并具有很大的确定性,理想情况下有p1=p2且预测类的概率为1。通过最小化分类器确定性差异度量CDD,预测分布会具有很高的确定性,从而使目标域的样本分布远离决策边界,同时使特征生成器G生成更具可鉴别性的特征。经过上述对两个分类器C1,C2的预测输出间分类器确定性差异度量CDD损失函数的对抗式优化,本发明所述方法能够在保证目标特征可迁移性的前提下提高其可鉴别性,同时保证预测空间的多样性。
整体训练过程如下:
步骤1.使用在ImageNet上预训练的ResNet50/101网络初始化θg,随机初始化θc1,θc2;
步骤2.随机采样最小批次的B个源域样本和B个目标域样本;
步骤3.在源域标签信息的监督下更新参数θg,θc1,θc2,
步骤4.通过最大化分类器确定性差异更新参数θc1,θc2:
步骤5.通过最小化分类器确定性差异更新参数θg:
步骤6.重复步骤3至6直到达到最大迭代次数I或模型参数达到收敛。
在跨领域视觉任务实验中,对于图像分类任务,本实例使用了在ImageNet上预训练的ResNet50/101网络作为特征生成器G的基础结构,并且用一个bottleneck层替换了最后三个全连接层以加速实验的进程。分类器的结构相当于一个随机初始化的三层全连接层(x->1024->1024->K),连接在特征生成器G后。在实验中,分类器的学习速率设置为特征生成器G的10倍;使用了学习率为0.0003,动量为0.9,weight decay为5×10-4的随机梯度下降优化器(SGD),批大小设置为64。对于语义分割任务,本实施例使用了基于在ImageNet上预训练的ResNet-101网络的DeepLab-v2框架作为语义分割网络G的基础框架。为了更好地捕捉场景的上下文信息,在分类器中使用了ASPP技术并应用于conv5的卷积输出层上。采样率固定为{6,12,18,24},并修改了最后一层的步长和视野以生成具有更大可视野的更密集的特征映射。SGD优化器的学习率设置为2.5×10-4,动量为0.9,weight decay为10-4,批大小设置为8。此外,对于训练过程,首先使用Lcls损失函数训练20k个迭代过程,然后再按照上述训练步骤进行完整的优化。对于目标检测任务,本实施例使用了基于Inception-V2框架的标准SSD模型,并使用SGD进行优化,momentum设为0.9,最小批大小为16,weight decay为0.0001,学习率设置为0.0001,并且对整个网络的训练应用了随机的cropping和flipping。
本实施例使用的数据集如下:
DomainNet:视觉域自适应中至今为止最大且最难的数据集,包含跨6个域的345类约60,0000张图片。
VisDA-2017:一个大规模的合成到真实的数据集,包含12个类别上的28,0000张图片。
Office-31:在领域自适应中被广泛使用的数据集,包含3个不同的领域:Amazon,DSLR和Webcam。
ImageCLEF:由被三个流行数据集Caltech-256,ImageNet ILSVRC2012,PASCALVOC2012共享的12个公共类组成。
Cityscapes:一个包含真实世界中5000个城市场景的数据集,划分为训练集、验证集和测试集。
GTA5:一个合成数据集,包含从GTA5游戏引擎中抓取的24966张合成图片。
VisDA2018:包含由3D CAD模型渲染生成的源域样本和从MSCOCO中收集的目标样本。由于合成图像和真实图像之间的目标尺度和位置未进行校准,该数据集是十分具有挑战性的。
本实施例使用以下几个结果作为评估标准:
平均准确度(Avg.):Average classification accuracy,平均分类准确度。在本实例中作为图像分类任务的评估度量,取同一任务三次随机试验的平均值。
交并比(Intersection-over-union IoU):两个区域的交叠率。在本实例中作为语义分割任务以及目标检测任务的评估度量,其中TP,FP,FN分别表示真阳性、假阳性和假阴性像素,或者候选框与原标记框的交叠部分、候选框的未交叠部分、原标记框的未交叠部分。
平均精准率(mAP):mean Average Precision。在本实施例中作为目标检测任务的评估度量。
下面详细评估本发明所述方法在各个任务上的性能表现:
A.图像分类任务
训练过程中,所有算法每一回合最大迭代次数均设置为30000,并选取平均表现(Avg.)作为评价指标。本实施例接下来共在4个基准数据集上进行验证,分别为DomainNet,ViSDA-2017,Office-31以及Image-CLEF。
下表1a示出本发明所述方法在图像分类任务中DomainNet基准数据集上的分类准确度结果,本发明所提出的孪生分类器确定性最大化方法BCDM方法在平均准确率上显著优于对比方法,例如CDAN,BNM,MCD,能够看到主流的域自适应方法MCD会受到负迁移的影响,这是因为MCD生成了模糊的类别边界,从而会损害特征表示的可鉴别性,尤其是在数据集间存在较大的域偏移或类别数较多时。与这些基线方法相比,无论是在ResNet50还是ResNet101框架下,孪生分类器确定性最大化方法BCDM在各个任务场景中都有着很大的提升,这突出了本发明在无监督跨领域自适应中的优越性以及对不平衡数据集的适用性。
表1a
下表1b示出在ResNet101框架下多种方法在VisDA-2017数据集上的性能表现。能够看到本发明所述方法在12类中的7类上平均准确率远远优于其他方法。与源域模型(ResNet-101)相比,孪生分类器确定性最大化方法BCDM提升了31%的准确率;与同样使用对抗性优化孪生分类器来实现域间对齐的MCD和SWD相比,孪生分类器确定性最大化方法BCDM分别提升了11.5%和7.0%的准确率,并且在bicycle,knife,sktbrd等类别上有着大幅度的提升。
表1b
下表1(c)展示了在Office-31数据集和Image-CLEF数据集上的结果,在这两个数据集中,孪生分类器确定性最大化方法BCDM都取得了最高的平均准确率(Office-31上为89.0%,Image-CLEF上为89.3%)。这些结果说明孪生分类器确定性最大化方法BCDM对于提升网络的迁移性能是十分有效的,尤其是在基线方法准确率较低的困难任务上。
表1c
Table3:Classification Accuracy(%)on Office-31 and ImageCLEF Datasets(ResNet-50).
B.语义分割任务
训练过程中最大迭代次数设置为60000,使用mIoU作为评价指标。本实施例在GTA5和Cityscapes共有的19个类上进行训练,并在Cityscapes的验证机上进行验证。
如表2所示,本实例展示了从GTA5迁移到Cityscapes的结果,在该“合成-2-真实”场景中存在很大的域偏移,能够看到本发明提出的BCDM方法与仅在源域上训练的模型相比获得了10.0%的提升。此外,本发明所述方法与其他近期使用孪生分类器的方法相比也依然具有很大的优势。
表2
C.目标检测任务
为了进一步突出本发明所述方法对复杂视觉任务的适用性,本发明通过进一步在VisDA2018数据集的目标检测任务上应用了孪生分类器确定性最大化方法BCDM算法,并在表3中列出了本发明所述方法和相关对比方法在0.5IoU下的检测精度。能够清楚地看到,即使在图像真实度、目标尺度、目标相对位置都有很大的域偏移的情况下,本发明所述方法与对比方法相比也能大幅度地提升模型性能。这进一步说明了本发明所述方法在跨领域复杂视觉任务上的有效性与通用性。
表3
本发明不受上述实例的限制,上述实例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书界定。
Claims (5)
1.一种面向跨领域复杂视觉任务的孪生分类器确定性最大化方法,其特征在于,包括以下步骤:
步骤1,构建神经网络框架并初始化,包括特征生成器G以及孪生分类器C1,C2;
步骤2,将源域样本输入至特征生成器G中获得相应的特征表示,然后将生成的特征表示分别输入分类器C1,C2中获得标签预测输出p1,p2;
步骤3,在源域样本的标签信息的监督下,利用标准交叉熵损失函数计算在源域样本上模型预测输出p与真实标签y之间的经验风险误差,并利用随机梯度下降算法(StochasticGradient Descent,SGD)进行反向传播,以更新特征生成器G以及孪生分类器C1,C2的参数,学习具有类级可区分性的源域样本特征;
步骤4,将目标域样本输入至特征生成器G中获得对应的特征表示,然后将特征表示输入至孪生分类器C1,C2中获得标签预测输出p1,p2;
步骤6,根据孪生分类器C1,C2预测相关性矩阵A定义分类器确定性差异度量CDD(Classifier Determinacy Disparity),如下式(1)所示:
上式(1)中:Amn即为分类器C1将样本分为第m类同时分类器C2将样本分为第n类的概率,看到分类器确定性差异度量CDD包含了所有分类器C1和分类器C2的预测不一致的概率,能够被用来衡量两个分类器C1,C2之间的差异;
步骤7,基于分类器确定性差异度量CDD度量计算两个孪生分类器C1,C2,在目标域样本上的差异并将其作为损失函数,在源域标签信息的监督下更新孪生分类器C1,C2的参数,以使分类器确定性差异度量CDD损失函数最大化,通过最大化孪生分类器C1,C2之间的分类器确定性差异度量CDD差异,能够使两个孪生分类器C1,C2在类别上生成尽可能不一致的预测,从而实现对更多元化的输出空间的探索并保证预测结果的多样性;
步骤8,再次计算两个孪生分类器C1,C2在目标样本上的分类器确定性差异度量CDD损失,并更新特征生成器G的参数,以使分类器确定性差异度量CDD损失函数最小化,通过最小化分类器确定性差异度量CDD损失函数,减小孪生分类器C1,C2的在目标域上的差异,促使特征生成器G生成更具有域不变性的特征表示,并使分类器的预测输出更具有确定性,同时保证目标特征表示的可鉴别性,实现源域样本和目标域样本的按类别的对齐;
步骤9,重复步骤2至步骤8,直至迭代次数已达到最大或神经网络模型参数达到收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110107883.6A CN112801179A (zh) | 2021-01-27 | 2021-01-27 | 面向跨领域复杂视觉任务的孪生分类器确定性最大化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110107883.6A CN112801179A (zh) | 2021-01-27 | 2021-01-27 | 面向跨领域复杂视觉任务的孪生分类器确定性最大化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112801179A true CN112801179A (zh) | 2021-05-14 |
Family
ID=75811948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110107883.6A Pending CN112801179A (zh) | 2021-01-27 | 2021-01-27 | 面向跨领域复杂视觉任务的孪生分类器确定性最大化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801179A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408528A (zh) * | 2021-06-24 | 2021-09-17 | 数贸科技(北京)有限公司 | 商品图像的质量识别方法、装置、计算设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753992A (zh) * | 2018-12-10 | 2019-05-14 | 南京师范大学 | 基于条件生成对抗网络的无监督域适应图像分类方法 |
CN110837850A (zh) * | 2019-10-23 | 2020-02-25 | 浙江大学 | 一种基于对抗学习损失函数的无监督域适应方法 |
CN111814871A (zh) * | 2020-06-13 | 2020-10-23 | 浙江大学 | 一种基于可靠权重最优传输的图像分类方法 |
US10839269B1 (en) * | 2020-03-20 | 2020-11-17 | King Abdulaziz University | System for fast and accurate visual domain adaptation |
-
2021
- 2021-01-27 CN CN202110107883.6A patent/CN112801179A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753992A (zh) * | 2018-12-10 | 2019-05-14 | 南京师范大学 | 基于条件生成对抗网络的无监督域适应图像分类方法 |
CN110837850A (zh) * | 2019-10-23 | 2020-02-25 | 浙江大学 | 一种基于对抗学习损失函数的无监督域适应方法 |
US10839269B1 (en) * | 2020-03-20 | 2020-11-17 | King Abdulaziz University | System for fast and accurate visual domain adaptation |
CN111814871A (zh) * | 2020-06-13 | 2020-10-23 | 浙江大学 | 一种基于可靠权重最优传输的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
SHUANG LI,ET AL.: "Bi-Classifier Determinacy Maximization for Unsupervised Domain Adaptation", 《ARXIV》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408528A (zh) * | 2021-06-24 | 2021-09-17 | 数贸科技(北京)有限公司 | 商品图像的质量识别方法、装置、计算设备及存储介质 |
CN113408528B (zh) * | 2021-06-24 | 2024-02-23 | 数贸科技(北京)有限公司 | 商品图像的质量识别方法、装置、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967294B (zh) | 一种无监督域自适应的行人重识别方法 | |
CN110956185B (zh) | 一种图像显著目标的检测方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN111738315B (zh) | 基于对抗融合多源迁移学习的图像分类方法 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN110414368B (zh) | 一种基于知识蒸馏的无监督行人重识别方法 | |
Lin et al. | RSCM: Region selection and concurrency model for multi-class weather recognition | |
CN112131967B (zh) | 基于多分类器对抗迁移学习的遥感场景分类方法 | |
Alhussan et al. | Pothole and plain road classification using adaptive mutation dipper throated optimization and transfer learning for self driving cars | |
CN111611847B (zh) | 基于尺度注意力空洞卷积网络的视频动作检测方法 | |
CN110046671A (zh) | 一种基于胶囊网络的文本分类方法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN108399435B (zh) | 一种基于动静特征的视频分类方法 | |
CN114692732A (zh) | 一种在线标签更新的方法、系统、装置及存储介质 | |
CN112990282A (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN115830531A (zh) | 一种基于残差多通道注意力多特征融合的行人重识别方法 | |
CN112183464A (zh) | 基于深度神经网络和图卷积网络的视频行人识别方法 | |
CN115690549A (zh) | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 | |
Yu et al. | Progressive Transfer Learning | |
CN114579794A (zh) | 特征一致性建议的多尺度融合地标图像检索方法及系统 | |
CN112801179A (zh) | 面向跨领域复杂视觉任务的孪生分类器确定性最大化方法 | |
CN116311387B (zh) | 一种基于特征交集的跨模态行人重识别方法 | |
US11526807B2 (en) | Machine learning systems and methods with source-target adaptation | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210514 |
|
RJ01 | Rejection of invention patent application after publication |