CN115578593B - 一种使用残差注意力模块的域适应方法 - Google Patents
一种使用残差注意力模块的域适应方法 Download PDFInfo
- Publication number
- CN115578593B CN115578593B CN202211278399.0A CN202211278399A CN115578593B CN 115578593 B CN115578593 B CN 115578593B CN 202211278399 A CN202211278399 A CN 202211278399A CN 115578593 B CN115578593 B CN 115578593B
- Authority
- CN
- China
- Prior art keywords
- full
- image
- data set
- domain
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种使用残差注意力模块的域适应方法。该方法包括:在目标数据集中通过能量函数选择能量差异较大的图片作为激活图片数据集;将源域标记的数据集、目标域未标记的数据集和激活图片数据集共同作为输入数据,将输入数据输入到包含卷积加注意力模块和LSE_At结构的特征提取网络,特征提取网络提取输入数据的高维特征图;将高维特征图通过全连接层分类器映射成一维特征向量,实现图像分类,利用调整好参数的特征提取网络和全连接层分类器构成图像识别模型。本发明通过增加原图在数据处理过程中的参与来加深特征提取,提高模型对图像特征提取的多样性和有效性,从而实现对图像特征更加充分的提取提高了图像识别领域适应性能。
Description
技术领域
本发明涉及图像分类技术领域,尤其涉及一种使用残差注意力模块的域适应方法。
背景技术
图像分类是机器学习分类任务中的一种,计算机完成对图像的识别分类主要是依靠图像信息反映出来的不同特征,但针对不同领域的图像,相同的图片往往因为图像的尺寸、背景和光照等不同环境表现出不同的特征。计算机在识别过程中无法像人眼一样自主提取感兴趣的目标来排除不必要的特征以准确的完成图像识别,因此训练一个可以在不同领域内可通用的图像识别模型是很有研究价值的。
传统的机器学习在训练模型时会使用来自相同数据分布或针对特定领域的数据集,造成训练好的模型在特定的数据集内表现优异而在被用于处理其他领域的数据时准确率不高的问题,通常这个问题被称为“领域飘移”现象,为迁移学习的发展留下了很大的空间。在迁移学习中,训练集和测试集分别称为源域和目标域,核心目的是训练一种模型减小两域之间的分布差异。当源域和目标的数据分布不同但两个任务相同时,这种特殊的迁移学习叫做域适应(DomainAdaptation,DA)。在计算机视觉中,域适应的应用比较广泛,因为带有标注的数据集很容易取得,但获得的数据集和最终应用的数据集来源的域往往不同。如用艺术品闹钟训练的网络可以很好的识别艺术品闹钟,但对于剪切画的闹钟或者实物商品闹钟的识别效果就比较差,模型在这种场景中表现不佳的原因是域发生了变化。因此,源域和目标域之间的关联程度通常决定了域适应的成功程度。
研究者通过大量实验得出域间差异问题可通过一步域适应解决,目前,现有技术中的一步域适应方法包括如下的三种方案:
1、基于散度的域适应,通过最小化源和目标数据分布之间的散度准则来实现域不变的特征表示。常用的四种散度度量是:最大均值差异(Maximum Mean Discrepancy,MMD)、相关对齐(Correlation Alignment,CORAL)、对比域差异(Contrastive DomainDiscrepancy,CCD)和Wasserstein度量。
2、基于对抗性的域适应,通过对源分布和目标分布使用两个生成器/判别器进行对抗训练来实现域适应,对生成器和判别器的权重进行共享,来学习域不变的特征空间。通过这种方式,可以生成标记的目标数据,这些数据可以进一步用于后续的分类任务中。
3、基于重建的域适应,是基于图像到图像的转换。一种方法是学习从目标域图像到源域图像的转换,然后在源域上训练一个分类器。另一种方法是使用循环生成网络(CycleGAN),在CycleGAN中采用了基于两种编解码器的神经网络,一个用于将目标转换为源域,另一个用于将源转换为目标域。
上述现有技术中的一步域适应方法的缺点包括:解决域适应问题的方法多依赖于所用的标注数据集,而常用的公共数据集又是人为构造的,提取图像特征时依靠网络的深度和所用算法的准确度。
特征提取的过程中采用复杂的网络结构去优化属性,导致求解最优化模型时的计算量会大幅度升高,使计算变得更加复杂。
对图像特征进行提取时所依靠的神经网络模型以及算法设计不够完善,不能对图像的多尺度特征进行提取,导致对图像的特征提取不够充分。
发明内容
本发明的实施例提供了一种使用残差注意力模块的域适应方法,以实现提高图像识别模型的域适应能力。
为了实现上述目的,本发明采取了如下技术方案。
一种使用残差注意力模块的域适应方法,包括:
在目标数据集中通过能量函数选择能量差异较大的图片作为激活图片数据集;
将源域标记的数据集、目标域未标记的数据集和所述激活图片数据集共同作为输入数据,将所述输入数据输入到包括卷积加注意力模块和LSE_At结构的特征提取网络,所述特征提取网络中提取所述输入数据的高维特征图;
将所述高维特征图通过全连接层分类器映射成一维特征向量,实现图像分类,利用负对数似然损失和自由能对齐损失训练验证所述图像分类的结果,根据验证结果调整所述特征提取网络和全连接层分类器的参数,利用调整好参数的特征提取网络和全连接层分类器构成图像识别模型;
利用所述图像识别模型对待识别的图片数据集进行分类处理。
优选地,所述的在目标数据集中通过能量函数选择能量差异较大的图片作为激活图片数据集,包括:
设置标记的源域S={(xs,ys)},S代表源域数据集,xs代表源域数据的图像,ys代表源域数据的标签;
设置未标记的的目标域T={xt},目标域T由一个标记了的数据集Tl和一个未标记的数据集Tu组成,T=Tl∪Tu,目标域T和源域S来自不同的网络,设E表示一种能量函数,则源域的能量形式Es和目标域的能量形式ET的能量形式如式1所示:
其中,S表示源域数据集,xs代表源域数据的图像,ys代表源域数据的标签,T表示目标域数据集,xT代表目标域数据的图像,要做的目标就是让通过源域训练的一个神经网络模型,包括找到一个含有参数θ的能量函数Es,能在图像分类时给正确答案最小的能量,并使得网络模型能在目标域T上有不错的泛化表现;
有了能量函数之后,将最低能量值的标签和次低能量标签的能量值之间的差值作为不确定性的度量,选取激活图片数据集,如式2所示:
U(x)=E(x,y*;θ)-E(x,y′;θ) (2)
其中,U(x)是最低能量值的标签和次低能量标签的能量值之间的差值,E表示一种能量函数,x代表源域数据的图像,y*代表最低能量值的标签,y′表示次低能量标签,θ代训练参数。
优选地,所述的将源域标记的数据集、目标域未标记的数据集和所述激活图片数据集共同作为输入数据,将所述输入数据输入到包括卷积加注意力模块和LSE_At结构的特征提取网络,所述特征提取网络中提取所述输入数据的高维特征图,包括:
将源域标记的数据集、目标域未标记的数据集和所述激活图片数据集共同作为输入数据,将所述输入数据输入到特征提取网络,特征提取网络通过LSE_At结构获取所述输入数据的高维特征图中各个通道的重要程度,根据各个通道的重要程度给高维特征图中的各个特征赋予权重值;
特征提取网络通过卷积加注意力模块序列化地在通道和空间两个维度上产生所述输入数据的注意力特征图信息,将通道和空间两个维度上的注意力特征图信息与原图结合后,再与各个特征的权重值进行相乘,通过自适应特征修正产生所述输入数据的高维特征图。
优选地,所述的将所述高维特征图通过全连接层分类器映射成一维特征向量,实现图像分类,包括:将所述高维特征图输入到全连接层分类器,将全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,将全连接层转化为卷积核为h×w的全局卷积,h,w分别为前层卷积结果的高和宽,全连接的核心操作就是运算矩阵向量乘积后输出一个值,实现图像分类。
优选地,所述的利用负对数似然损失和自由能对齐损失训练验证所述图像分类的结果,根据验证结果调整所述特征提取网络和全连接层分类器的参数,利用调整好参数的特征提取网络和全连接层分类器构成图像识别模型,包括:
给不同的分类任务设置各自的学习率,将各个子数据集作为源域和目标域数据输入到特征提取网络和全连接层分类器构成的图像识别模型中,图像识别模型输出图像分类结果;
利用如下的负对数似然损失公式计算出各个子数据集的能量值:
Lnll是负对数似然损失函数,x代表图像输入,y代表标签输入,θ是要通过训练得到的参数,τ是一个较低的值对应能量在空间上的分布;
利用如下的自由能对齐损失训练公式计算出所述图像识别模型的损失函数的自由能对准损失;
Lfea(x;θ)=max(0,E(x;θ))
Lfea是自由能对准损失,x代表图像输入,θ是要通过训练得到的参数,并利用公式:
计算出所述图像识别模型的损失函数和精度;
Lnll是负对数似然损失函数,x代表图像输入,y代表标签输入,θ是要通过训练得到的参数,Tu为未标记的目标域数据集,γ是损失超参数。
根据所述图像识别模型的损失函数和精度使用梯度下降法反向传播,调整所述特征提取网络和全连接层分类器的参数,循环执行上述处理过程设定轮次,得到最优的特征提取网络和全连接层分类器,利用最优的特征提取网络和全连接层分类器构成图像识别模型。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过增加原图在数据处理过程中的参与来加深特征提取,提高模型对图像特征提取的多样性和有效性。激活函数结合归一化来调整网络性能,将具有更多网络层数并且使用更够完善激活函数的神经网络模型应用于整个过程,从而实现对图像特征更加充分的提取提高了图像识别领域适应性能。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种模型的整体结构示意图;
图2为本发明实施例提供的一种LSE_At结构示意图;
图3为本发明实施例提供的一种CBAAM模块的结构图;
图4为本发明实施例提供的一种CBAAM模块中的全通道注意力(AChannel)和全空间注意力(ASpatial)模块结构图;
图5为本发明实施例提出的提出一种使用残差注意力的域适应方法的网络模型结构图;
图6为本发明实施例提出的提出一种使用残差注意力的域适应方法的处理流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明以基于散度的域适应为出发点,以最小化源和目标数据分布之间的能量差来实现域不变的特征表示为目的,结合当前研究,提出一种使用残差注意力的域适应方法。
本发明实施例设计了一个改进残差网络结构Resnet,用来提高图像分类准确度的域适应模型。将原有残差块(Residuals)网络结构改成了左压缩激发注意力机制结构(Lift-Squeeze-and-Excitation_Attention,LSE_At)。并且在LSE_At中加入了压缩提取注意力模块(Squeeze-and-Excitation,SE),SE模块通过一个权重矩阵,从通道域的角度赋予图像不同位置不同的权重,得到更重要的特征信息。
本发明实施例在Resnet主干网络中加入了卷积加注意力模块(ConvolutionalBlockAddAttentionModule,CBAAM)模块来加深特征提取,提高模型对图像特征提取的多样性和有效性,并使用批归一化层(BatchNormalization,BN)调整激活函数性能,避免过拟合,提高泛化性能。
本发明实施例提出的使用残差注意力的域适应方法中的图像识别模型结构主要包括特征提取网络和神经网络分类器,
本发明实施例提出的使用残差注意力的域适应方法中的图像识别模型结构主要包括特征提取网络和全连接层分类器,其中特征提取网络以加入卷积加注意力模块为基本框架,以LSE_At结构为基础块,加入批量归一化层来对输入图像进行特征提取。全连接层将特征提取得到的高维特征图映射成一维特征向量,可以转化为最终分类成各个类别的概率实现分类要求。该方法的最终目的是建立一个域适应的图像识别模型。
本发明实施例提供的一种使用残差注意力的域适应方法的实现原理图如图1所示。首先,在目标数据集中通过能量函数选择能量差异较大的图片作为激活图片数据集;接着将源域标记的数据集、目标域未标记的数据集以及选择的图片数据集共同作为输入数据输入到包括卷积加注意力模块和LSE_At结构的特征提取网络中进行特征提取,其次将得到的高维特征图通过全连接层映射成一维特征向量实现图像分类,并利用标准的负对数似然损失Lnll和所提出的自由能对齐损失来训练网络,最终得到一个精确度更高的域适应的图像识别模型。
结合上述三个本发明要解决的问题,对本发明实施例的图像识别模型的改进算法做如下解释。
1:设计LSE_At结构
在深度学习中,为了增强模型的学习能力,网络层会变得越来越深,但是随着深度的增加,也带来了一些问题。如网络退化,也就是说模型的学习能力达到了饱和,增加网络层数并不能提升精度了。为了解决网络退化问题,在本发明实施例中,提出了在残差块的基础上添加包含LSE_At注意力机制的另外一条左通路的想法。该通路通过自动学习的方式,获取特征图每个通道的重要程度,然后用这个重要程度去给每个特征赋予权重值,从而让神经网络重点关注某些特征通道,提取对当前任务有用的特征图的通道,抑制对当前任务用处不大的特征通道来提取输入图像的更多尺度特征。本发明实施例提供的一种LSE_At结构如图2所示。
2:提出卷积加注意力模块CBAAM
计算机视觉中能够把注意力聚集在图像重要区域而丢弃掉不相关的方法被称作注意力机制。注意力机制可以看做是对图像输入重要信息的动态选择过程,这个过程是由对于特征自适应权重实现的。注意力机制极大提升了计算机视觉任务的性能水平,比如在分类,目标检测,语义分割,人脸识别,动作识别,小样本检测等任务中发挥着重要作用。本发明提出一种混合注意力模块CBAAM能够序列化地在通道和空间两个维度上产生注意力特征图信息,并在原有的空间通道注意力的基础上,增加了原图在整个特征提取过程中的参与,弥合了特征提取时丢失原图信息的缺点。然后两种特征图信息与原图结合后在与之前原输入特征图进行相乘进行自适应特征修正,产生最后的特征图。CBAAM是一种轻量级的模块,可以嵌入到任何主干网络中提高网络的性能。本发明实施例提供的一种CBAAM模块的结构如图3所示,CBAAM模块中的全通道注意力(AChannel)和全空间注意力(ASpatial)模块结构图如图4所示。
(3)加入批量归一化层BN
神经网络最终是为了学习数据的分布,若每一批次训练的数据分布不同,神经网络则需要在这多个分布中寻找平衡点,导致神经网络很难收敛。而且在深层神经网络中,中间某一层的输入是其之前的神经层的输出,之前神经层的参数变化会导致其输入的分布发生较大的差异。利用随机梯度下降更新参数时,每次参数更新都会导致网络中间每一层的输入的分布发生改变。越深的层,其输入分布会改变的越明显(如高层大厦底部发生了微小偏移,楼层越高,偏移越严重),这个问题被称为内部协变量偏移问题。为了解决内部协变量偏移问题,要使每一个神经层的输入分布在训练过程要保持一致,归一化处理就能解决这个问题。本发明引入BN归一化方法来处理LSE_At和CBAAM模块的数据分布,并利用BN层将参数的量级进行统一来更好的配置优化器的使用,防止过拟合、优化网络性能。
(4)神经网络结构
在主动域适应中,可以访问一个标记的源域S={(xs,ys)}(其中S代表源域数据集,xs代表源域数据的图像,ys代表源域数据的标签)和一个未标记的的目标域T={xt}来自不同的网络。按照主动预适应的要求,需要选择远小于T量的β个活性样本进行注释。所以整个目标域由一个标记了的数据集Tl和一个未标记的数据集Tu组成,即T=Tl∪Tu。在这项工作中,引入了一种基于能量的策略来选择最有价值的目标数据来帮助域适应。假设可以访问一个标记的源域S={(xs,ys)]和一个未标记的的目标域T={xt}来自不同的网络。当训练(源)和测试(目标)数据来自不同的分布时,基于能量的模型会表现出自由能偏差。让E代表生成的网络模型,则源域的Es和目标域的ET的能量形式如式(1)所示:
要做的目标就是让通过源域训练的具有一个参数θ的神经网络Es能在目标域ET上有不错的泛化表现。本发明实施例提出的提出一种使用残差注意力的域适应方法的网络模型结构图如图5所示,Resnet分为5个Stage(阶段),其中Stage0的结构比较简单,可以视其为对输入(Input)的预处理,后4个Stage都由Bottleneck(Resnet的基本组成块)组成,结构较为相似。Stage 1包含3个Bottleneck,剩下的3个Stage分别包括4个、6个、3个Bottleneck。最后将CBAAM块加到前3个stage块后面用于加强特征提取。
本发明实施例提出的提出一种使用残差注意力的域适应方法的处理流程图如图6所述,包括如下的处理步骤:
步骤S1:配置相应的运行环境。本发明训练模型使用Pytorch架构进行训练,开始训练模型时,需要配备相应的各种包。对于本发明,使用Python3.8并配置了新的虚拟环境。
步骤S2:准备用于训练模型的数据集,数据集包括高维的图像数据xs和低维的标签数据ys,以及用于测试的目标域数据集的高维图像Xt。本发明选用的源域数据集和目标数据集均为Office31和Vida2007数据集。
步骤S3:设置配置文件、下载预训练模型。除了设置整个系统的配置文件外,根据Office31、和Vida2007数据集的不同特点,分别设置了属于各自的配置文件,主要的不同是分类数。为了提高Resnet网络的利用率,选择下载相似领域内对本任务训练后的预训练模型参数用于本次训练的基础,以减少训练的运算量并将从开放领域学到的知识迁移到下游任务。
步骤S4:图像预处理和加载阶段。对输入图像进行大小的调整、随即裁剪、归一化等处理,以提高图像的可用性。之后将处理过的源域和目标域的的图像以及配置文件加载到模型内。
步骤S5;预训练阶段。将源域和目标域的图像特征以及标签输入到特征提取网络和全连接层分类器中进行一次模型的训练,得到一个预训练的识别模型。
步骤S6:载入学习率。给不同的分类任务设置各自的学习率,通过设置学习率指导模型如何通过损失函数的梯度调整网络权重的超参数,控制参数更新的速度。
步骤S7:进入域适应阶段。使用Office数据集的各个子数据集作为源域和目标域数据输入到网络模型中,利用公式:
求取各个子数据集的能量值,以便后续得到完整的学习目标损失函数。其中Lnll是负对数似然损失函数,x代表图像输入,y代表标签输入,θ是要通过训练得到的参数,τ是一个较低的值对应能量在空间上的分布。
步骤S8:利用公式Lfea(x;θ)=max(0,E(x;θ))
设计一个正则化规则,其中Lfea是自由能对准损失,用来减少步骤S7中各个子数据集间的能量差,x代表图像输入,θ是要通过训练得到的参数,并利用公式:
计算出最终要用的损失函数和精度,其中Lnll是负对数似然损失函数,x代表图像输入,y代表标签输入,θ是要通过训练得到的参数,Tu为未标记的目标域数据集,γ是损失超参数。
步骤S9:记录模型训练的准确度。未达到设定的最大epoch(训练轮数)前,每5个epoch计算一次模型的准确度。
步骤S10:每轮模型更新结束,进入目标样本挑选阶段,每5个epoch进行一次目标样本挑选,若当前的epoch属于选择轮数中的数,则通过两次选择来获取更有价值的目标样本,标记后用于训练,提高泛化能力。根据公式(1)计算未标记的目标数据的能量值,选择自由能比较大的α1%作为备选数据集,然后在备选数据集中根据公式U(x)=E(x,y*;θ)-E(x,y';θ)计算其中差异比较大自由能的α2%作为激活样本用于训练。
步骤S11:使用梯度下降法,反向传播,通过模型更新参数,更新学习的分类网络并生成网络的权重并保存。
步骤S12:将步骤S10挑选出的样本作为开始输入图像的目标样本输入网络中进行模型训练,可以提高模型的泛化。
步骤S13:计算各个域之间的损失函数和识别准确度,评估图像识别的适应效果。
步骤S14:循环执行步骤S4到步骤S14的处理过程50轮,相当于进行了50次模型训练,能够得到一个相对稳定的模型。为了得到最优的识别模型,分别对不同的数据集进行50、20次的循环训练,最终挑选出一个最优的训练模型。
步骤S15:保存记录的每轮损失、所挑选的目标图像和最终最优的网络模型。
步骤S16:结束整个过程。
综上所述,本发明实施例通过在构造该模型的过程中,通过最大最小能量差选择激活目标样本能够提高模型的泛化能力。设计的LSE_At和CBAAM的块结构的结合能帮助网络提取到更多、更重要的特征信息,提高域适应的准确度,结果如表1所示。引入常用的BN归一化方法来处理LSE_At和CBAAM模块的数据分布,并利用BN层将参数的量级进行统一来更好的配置优化器使用,防止过拟合、优化网络性能。选取Office数据集作为实验数据集进行模型训练,本发明提高了图像识别模型的域适应能力,改善了图像识别模型领域漂移现象。
表1:以5%目标样本为标签预算的Office-31和Vida2007的比较结果
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (2)
1.一种使用残差注意力模块的域适应方法,其特征在于,包括:
在目标数据集中通过能量函数选择具有一定能量差异的图片作为激活图片数据集;
将源域标记的数据集、目标域未标记的数据集和所述激活图片数据集共同作为输入数据,将所述输入数据输入到包括卷积加注意力模块和LSE_At结构的特征提取网络,所述特征提取网络中提取所述输入数据的特征图;
将所述特征图通过全连接层分类器映射成一维特征向量,实现图像分类,利用负对数似然损失和自由能对齐损失训练验证所述图像分类的结果,根据验证结果调整所述特征提取网络和全连接层分类器的参数,利用调整好参数的特征提取网络和全连接层分类器构成图像识别模型;
利用所述图像识别模型对待识别的图片数据集进行分类处理;
所述的在目标数据集中通过能量函数选择具有一定能量差异的图片作为激活图片数据集,包括:
设置标记的源域S={(xs,ys)},S代表源域,xs代表源域数据的图像,ys代表源域数据的标签;
设置未标记的目标域T={xt},T代表目标域,目标域T由一个标记了的数据集Tl和一个未标记的数据集Tu组成,T=Tl∪Tu,目标域T和源域S来自不同的网络,设E表示一种能量函数,则源域的能量函数ES和目标域的能量函数ET如式(1)所示:
其中,S表示源域,xs代表源域数据的图像,ys代表源域数据的标签,T表示目标域,xt代表目标域数据的图像,y代表目标域数据对应的标签,通过源域训练的一个神经网络模型,包括能量函数Es,能在图像分类时给正确答案最小的能量,并使得网络模型能在目标域T上有泛化表现;
有了能量函数之后,将最低能量值的标签和次低能量标签的能量值之间的差值作为不确定性的度量,选取激活图片数据集,如式(2)所示:
U(x)=E(x,y*;θ)-E(x,y′;θ) (2)
其中,U(x)是最低能量值的标签和次低能量标签的能量值之间的差值,E表示一种能量函数,x代表输入的图像数据,y*代表输入图像数据对应的最低能量值的标签,y′表示输入图像数据对应的次低能量标签,θ代表训练模型的权重参数;
所述的利用负对数似然损失和自由能对齐损失训练验证所述图像分类的结果,根据验证结果调整所述特征提取网络和全连接层分类器的参数,利用调整好参数的特征提取网络和全连接层分类器构成图像识别模型,包括:
给不同的分类任务设置各自的学习率,将各个子数据集作为源域和目标域数据输入到特征提取网络和全连接层分类器构成的图像识别模型中,图像识别模型输出图像分类结果;
利用如下的负对数似然损失公式计算出各个子数据集的似然损失:
Lnll是负对数似然损失函数,x代表输入的图像数据,θ代表训练模型的权重参数,τ是一个对应能量在空间上的分布的值;
利用如下的自由能对齐损失训练公式计算出所述图像识别模型的损失函数的自由能对准损失;
Lfea(x;θ)=max(0,E(x;θ))
Lfea是自由能对准损失,x代表输入的图像数据,θ代表训练模型的权重参数,并利用公式:
计算出所述图像识别模型的损失函数和精度;
Lnll是负对数似然损失函数,x代表输入的图像数据,θ代表训练模型的权重参数,Tu为一个未标记的数据集,γ是损失超参数;
根据所述图像识别模型的损失函数和精度使用梯度下降法反向传播,调整所述特征提取网络和全连接层分类器的参数,循环执行上述处理过程设定轮次,得到最优的特征提取网络和全连接层分类器,利用最优的特征提取网络和全连接层分类器构成图像识别模型;
所述LSE_At结构在残差块的基础上添加包含LSE_At注意力机制的通路,该通路通过自动学习的方式获取特征图每个通道的重要程度,用该重要程度给每个特征赋予权重值,让神经网络关注某些特征通道,提取对当前任务有用的特征图的通道;所述卷积加注意力模块包括全通道注意力模块和全空间注意力模块,所述卷积加注意力模块序列化地在通道和空间两个维度上产生注意力特征图信息,并在原有的空间通道注意力的基础上,增加了原图在整个特征提取过程中的参与,两种特征图信息与原图结合后再与之前原输入特征图进行相乘进行自适应特征修正,产生最后的特征图。
2.根据权利要求1所述的方法,其特征在于,所述的将所述特征图通过全连接层分类器映射成一维特征向量,实现图像分类,包括:将所述特征图输入到全连接层分类器,将全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,将全连接层转化为卷积核为h×w的全局卷积,h和w分别为前层卷积结果的高和宽,全连接的核心操作就是运算矩阵向量乘积后输出一个值,实现图像分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211278399.0A CN115578593B (zh) | 2022-10-19 | 2022-10-19 | 一种使用残差注意力模块的域适应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211278399.0A CN115578593B (zh) | 2022-10-19 | 2022-10-19 | 一种使用残差注意力模块的域适应方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115578593A CN115578593A (zh) | 2023-01-06 |
CN115578593B true CN115578593B (zh) | 2023-07-18 |
Family
ID=84585818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211278399.0A Active CN115578593B (zh) | 2022-10-19 | 2022-10-19 | 一种使用残差注意力模块的域适应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115578593B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385808B (zh) * | 2023-06-02 | 2023-08-01 | 合肥城市云数据中心股份有限公司 | 大数据跨域图像分类模型训练方法、图像分类方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610219A (zh) * | 2021-08-16 | 2021-11-05 | 中国石油大学(华东) | 一种基于动态残差的多源域自适应方法 |
CN113688723A (zh) * | 2021-08-21 | 2021-11-23 | 河南大学 | 一种基于改进YOLOv5的红外图像行人目标检测方法 |
CN114092964A (zh) * | 2021-10-19 | 2022-02-25 | 杭州电子科技大学 | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11257255B2 (en) * | 2019-12-03 | 2022-02-22 | Leica Microsystems Cms Gmbh | Domain matching methods for transportable imaging applications |
CN111368886B (zh) * | 2020-02-25 | 2023-03-21 | 华南理工大学 | 一种基于样本筛选的无标注车辆图片分类方法 |
CN113569881A (zh) * | 2020-04-28 | 2021-10-29 | 上海舜瞳科技有限公司 | 一种基于链式残差与注意力机制的自适应语义分割方法 |
CN111814854B (zh) * | 2020-06-28 | 2023-07-28 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
CN113592809B (zh) * | 2021-07-28 | 2024-05-14 | 中国海洋大学 | 一种基于通道注意力残差网络的肺炎图像检测系统及方法 |
CN113988126B (zh) * | 2021-10-26 | 2024-04-16 | 哈尔滨理工大学 | 一种基于少标签数据特征迁移的滚动轴承故障诊断方法 |
CN114120019B (zh) * | 2021-11-08 | 2024-02-20 | 贵州大学 | 一种轻量化的目标检测方法 |
CN114359637A (zh) * | 2022-01-10 | 2022-04-15 | 华南师范大学 | 一种脑部医学影像分类方法及装置 |
CN114677535A (zh) * | 2022-03-01 | 2022-06-28 | 浙江大学 | 域适应图像分类网络的训练方法、图像分类方法及装置 |
CN114596477A (zh) * | 2022-03-16 | 2022-06-07 | 东南大学 | 基于领域自适应和注意力机制的雾天火车故障检测方法 |
CN115105076A (zh) * | 2022-05-20 | 2022-09-27 | 中国科学院自动化研究所 | 基于动态卷积残差多源迁移的脑电情绪识别方法及系统 |
CN115019104A (zh) * | 2022-06-23 | 2022-09-06 | 中山大学 | 基于多源域自注意力的小样本遥感图像分类方法及系统 |
-
2022
- 2022-10-19 CN CN202211278399.0A patent/CN115578593B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610219A (zh) * | 2021-08-16 | 2021-11-05 | 中国石油大学(华东) | 一种基于动态残差的多源域自适应方法 |
CN113688723A (zh) * | 2021-08-21 | 2021-11-23 | 河南大学 | 一种基于改进YOLOv5的红外图像行人目标检测方法 |
CN114092964A (zh) * | 2021-10-19 | 2022-02-25 | 杭州电子科技大学 | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115578593A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321926B (zh) | 一种基于深度残差修正网络的迁移方法及系统 | |
WO2021164625A1 (en) | Method of training an image classification model | |
CN109325516B (zh) | 一种面向图像分类的集成学习方法及装置 | |
CN112488209B (zh) | 一种基于半监督学习的增量式图片分类方法 | |
Xu et al. | Deep neural network self-distillation exploiting data representation invariance | |
CN114463605B (zh) | 基于深度学习的持续学习图像分类方法及装置 | |
CN114692741A (zh) | 基于域不变特征的泛化人脸伪造检测方法 | |
SG171858A1 (en) | A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine | |
CN115578593B (zh) | 一种使用残差注意力模块的域适应方法 | |
Chen et al. | Coupled end-to-end transfer learning with generalized fisher information | |
CN115115908B (zh) | 跨域目标检测模型训练方法、目标检测方法及存储介质 | |
Zhang et al. | Web-supervised network for fine-grained visual classification | |
CN113781324A (zh) | 一种老照片修复方法 | |
CN110796177B (zh) | 一种有效减少图像分类任务中神经网络过拟合的方法 | |
Purwaningsih et al. | Image classification of Golek puppet images using convolutional neural networks algorithm | |
Pomponi et al. | Pseudo-rehearsal for continual learning with normalizing flows | |
CN114863176A (zh) | 基于目标域移动机制的多源域自适应方法 | |
CN114782742A (zh) | 基于教师模型分类层权重的输出正则化方法 | |
Dubout et al. | Adaptive sampling for large scale boosting | |
CN116758610A (zh) | 基于注意力机制和特征融合的轻量化人耳识别方法及系统 | |
CN116797850A (zh) | 基于知识蒸馏和一致性正则化的类增量图像分类方法 | |
CN116187400A (zh) | 一种基于对抗训练增强的主动学习方法及系统 | |
CN110647927A (zh) | 一种基于acgan图像半监督分类算法 | |
Lazarou et al. | Few-shot learning via tensor hallucination | |
CN114118357A (zh) | 计算机视觉神经网络中替换激活函数的重训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |