CN114693983A - 基于图像-实例对齐网络的训练方法和跨域目标检测方法 - Google Patents

基于图像-实例对齐网络的训练方法和跨域目标检测方法 Download PDF

Info

Publication number
CN114693983A
CN114693983A CN202210595693.8A CN202210595693A CN114693983A CN 114693983 A CN114693983 A CN 114693983A CN 202210595693 A CN202210595693 A CN 202210595693A CN 114693983 A CN114693983 A CN 114693983A
Authority
CN
China
Prior art keywords
matrix
prototype
loss function
foreground
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210595693.8A
Other languages
English (en)
Other versions
CN114693983B (zh
Inventor
张天柱
张哲�
张勇东
姜涵
吴枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210595693.8A priority Critical patent/CN114693983B/zh
Publication of CN114693983A publication Critical patent/CN114693983A/zh
Application granted granted Critical
Publication of CN114693983B publication Critical patent/CN114693983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于图像‑实例对齐网络的训练方法和跨域目标检测方法。其中,该训练方法包括:将源域图片输入目标检测主干网络,得到初始化类别原型和待训练目标检测主干网络;将源域图片和目标域图片输入待训练目标检测主干网络,得到特征图和候选框区域特征;将特征图输入自适应前景感知的注意力模块,得到域标签概率和前景感知域标签概率;将候选框区域特征和初始化类别原型输入类别感知的原型对齐模块,得到候选框区域特征矩阵和初始化类别原型矩阵,利用候选框区域特征矩阵对初始化类别原型矩阵进行更新,得到滑动平均后的类别原型矩阵;对待训练目标检测主干网络联合训练,调整待训练目标检测主干网络的网络参数。

Description

基于图像-实例对齐网络的训练方法和跨域目标检测方法
技术领域
本发明属于数据识别领域,具体涉及计算机视觉领域,更具体地,涉及一种基于图像-实例对齐网络的训练方法和跨域目标检测方法。
背景技术
目标检测是一种能够找出图像中所有被计算机识别为感兴趣的目标的技术,并确定目标的类别和位置的技术。目标检测器在自主导航、视频监控、图像分析等领域有着广泛的应用,但是在实际应用中,由于天气、光照或环境的变化,目标检测器的工作受到影响,性能下降。可以通过引入无监督域自适应技术,提高目标检测器性能。无监督域自适应技术利用有标记的源域数据和无标记的目标域数据来训练目标检测器,提高对无标记目标域数据的泛化性能。
目前的跨域目标检测方法可以分为三类。基于半监督学习的跨域目标检测方法利用教师学生网络中的一致性正则化减少域差异。基于风格迁移的跨域目标检测方法先合成类目标的中间域,以限制视觉位移,然后以监督的方式训练目标检测器。基于特征对齐的跨域目标检测方法通过对齐不同域的特征来减小域差异。
发明内容
有鉴于此,本发明提供了一种基于图像-实例对齐网络的训练方法和跨域目标检测方法。
根据本发明的一个方面,提供了一种基于图像-实例对齐网络的训练方法,包括:
将源域图片输入目标检测主干网络,得到上述源域图片的初始化类别原型和待训练目标检测主干网络;将上述源域图片和目标域图片输入上述待训练目标检测主干网络,得到上述源域图片和上述目标域图片各自对应的特征图和上述特征图的候选框区域特征;将上述特征图输入自适应前景感知的注意力模块,得到上述特征图的域标签概率和前景感知域标签概率;将上述候选框区域特征和上述源域图片的初始化类别原型输入类别感知的原型对齐模块,得到候选框区域特征矩阵和源域图片的初始化类别原型矩阵,利用上述特征图的候选框区域特征矩阵对上述初始化类别原型矩阵进行更新,得到滑动平均后的类别原型矩阵;以及,将上述待训练目标检测主干网络、上述自适应前景感知的注意力模块和上述类别感知的原型对齐模块联合训练,基于上述待训练目标检测主干网络得到的目标检测损失函数值、上述自适应前景感知的注意力模块得到的全局判别损失函数值、前景判别损失函数值、组合损失函数值和上述类别感知的原型对齐模块得到的对比损失函数值调整上述待训练目标检测主干网络的网络参数。
备选地,上述自适应前景感知的注意力模块包括前景感知域判别器、全局域判别器和跨注意力层;将上述特征图输入自适应前景感知的注意力模块,得到上述特征图的域标签概率和前景感知域标签概率包括:在上述跨注意力层利用K+1个预设计算原型向量对上述特征图的特征图元素进行处理,得到前景感知总特征图矩阵;将上述前景感知总特征图矩阵输入上述前景感知域判别器,输出上述前景感知总特征图矩阵的前景感知域标签概率;以及,将上述特征图输入全局域判别器,输出上述特征图的域标签概率;其中,K为大于1的正整数,前K个上述预设计算原型向量用来描述上述源域图片和上述目标域图片的前景区域,第K+1个上述预设计算原型向量用来描述上述源域图片和上述目标域图片的背景区域。
备选地,上述基于图像-实例对齐网络的训练方法还包括:
利用上述域标签概率得到全局判别损失函数值,利用上述前景感知域标签概率得到上述前景判别损失函数;其中,通过以下公式获得上述全局判别损失函数值:
Figure DEST_PATH_IMAGE001
其中
Figure 778828DEST_PATH_IMAGE002
为全局判别损失函数;I为行总数,J为列总数;y用于表征输入上述全 局域判别器的图片类型,当输入为上述源域图片时y=1,当输入为上述目标域图片时y=0;
Figure DEST_PATH_IMAGE003
为全局域判别器运算函数;
Figure 177580DEST_PATH_IMAGE004
为上述源域图片的特征图的第i行第j列元素;
Figure DEST_PATH_IMAGE005
为上述目标域图片的特征图的第i行第j列元素;以及
通过以下公式获得上述前景判别损失函数值:
Figure 810686DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 659169DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure 403134DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE011
为中间量元素;
Figure 921971DEST_PATH_IMAGE012
为第k个上述预设计算原型向量,k为大于或等于1且小 于K+1的正整数;
Figure DEST_PATH_IMAGE013
为上述特征图的第i行第j列元素;
Figure 194821DEST_PATH_IMAGE014
为对上述
Figure 330267DEST_PATH_IMAGE012
与上述
Figure 205819DEST_PATH_IMAGE013
进 行内积运算得到的结果进行Sigmoid激活函数运算;
Figure DEST_PATH_IMAGE015
为相似度矩阵
Figure 579163DEST_PATH_IMAGE016
的第
Figure DEST_PATH_IMAGE017
行第
Figure 166789DEST_PATH_IMAGE018
列元 素;
Figure DEST_PATH_IMAGE019
为由前K个预设计算原型向量得到的相似度矩阵累加得到的相似度矩阵和;
Figure 586269DEST_PATH_IMAGE020
为前 景感知总特征图矩阵;
Figure DEST_PATH_IMAGE021
为特征图;
Figure 344141DEST_PATH_IMAGE022
为前景判别损失函数;
Figure DEST_PATH_IMAGE023
为乘积运算;
Figure 899887DEST_PATH_IMAGE024
为 前景感知域判别器运算函数;
Figure DEST_PATH_IMAGE025
为上述源域图片的前景感知总特征图矩阵的第i行第j 列元素;
Figure 186643DEST_PATH_IMAGE026
为上述目标域图片的前景感知总特征图矩阵的第i行第j列元素。
备选地,上述基于图像-实例对齐网络的训练方法还包括:
在上述跨注意力层利用预设的K+1个上述预设计算原型向量对上述对应特征图的特征图元素进行处理,得到上述组合损失函数值;其中,通过以下公式获得上述组合损失函数值:
Figure DEST_PATH_IMAGE027
Figure 90489DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
Figure 714369DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE031
为源域背景损失函数;
Figure 796725DEST_PATH_IMAGE032
为对数运算函数;
Figure DEST_PATH_IMAGE033
为与第K+1个上 述预设计算原型向量计算得到的相似度矩阵元素;
Figure 847858DEST_PATH_IMAGE034
为源域前景损失函数;I为行总数,J 为列总数;
Figure 445192DEST_PATH_IMAGE015
为上述相似度矩阵
Figure DEST_PATH_IMAGE035
的第i行第j列元素;
Figure 872763DEST_PATH_IMAGE036
为根据源域真实标 签生成的前景蒙版;
Figure DEST_PATH_IMAGE037
为目标域损失函数;
Figure 824274DEST_PATH_IMAGE038
为组合损失函数。
备选地,利用上述候选框区域特征矩阵对上述初始化类别原型矩阵进行更新,得到滑动平均后的类别原型矩阵包括:
上述类别感知的原型对齐模块包括全连接层。
将上述候选框区域特征和上述初始化类别原型输入类别感知的原型对齐模块,利用上述全连接层映射得到上述候选框区域特征矩阵和上述初始化类别原型矩阵。
基于上述候选框区域特征矩阵、上述初始化类别原型矩阵和聚合矩阵的取值范围,利用最优传输算法对聚合矩阵进行优化,得到最优传输聚合矩阵。
基于上述最优传输聚合矩阵和上述候选框区域特征矩阵得到当前更新的类别原型矩阵,基于上述当前更新的类别原型矩阵得到滑动平均后的类别原型矩阵,基于所述滑动平均后的类别原型矩阵得到对比损失函数值。
备选地,通过以下公式获得上述对比损失函数值:
Figure DEST_PATH_IMAGE039
Figure 311887DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
Figure 599780DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
其中,
Figure 440829DEST_PATH_IMAGE044
(· )为取最大值函数;
Figure DEST_PATH_IMAGE045
为求矩阵的秩;
Figure 825674DEST_PATH_IMAGE046
为上述聚合矩 阵
Figure DEST_PATH_IMAGE047
的转置矩阵;
Figure 484188DEST_PATH_IMAGE048
为上述初始化类别原型矩阵;
Figure DEST_PATH_IMAGE049
为上述
Figure 256447DEST_PATH_IMAGE050
的转置 矩阵;
Figure DEST_PATH_IMAGE051
为上述候选框区域特征矩阵;
Figure 166766DEST_PATH_IMAGE052
为第一常数;
Figure DEST_PATH_IMAGE053
为上述聚合矩阵
Figure 406117DEST_PATH_IMAGE047
的熵;
Figure 704374DEST_PATH_IMAGE054
为上述聚合矩阵
Figure 888231DEST_PATH_IMAGE047
的取值范围;
Figure DEST_PATH_IMAGE055
为 实数域集;
Figure 71082DEST_PATH_IMAGE056
为第二常数;
Figure DEST_PATH_IMAGE057
为上述当前更新的类别原型矩阵;
Figure 433449DEST_PATH_IMAGE058
为上述最优传输矩阵;C为 上述滑动平均后的类别原型矩阵
Figure DEST_PATH_IMAGE059
为基于上述源域图片的候选框区域特征矩阵和第n个 上述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵;
Figure 840290DEST_PATH_IMAGE060
为基于上述目标域图片的 候选框区域特征矩阵和第n个上述初始化类别原型矩阵得到的滑动平均后的类别原型矩 阵;
Figure DEST_PATH_IMAGE061
为基于上述源域图片的候选框区域特征矩阵和第i个上述初始化类别原型矩阵得到 的滑动平均后的类别原型矩阵;
Figure 183547DEST_PATH_IMAGE062
为基于上述目标域图片的候选框区域特征矩阵和第j个 上述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵;
Figure DEST_PATH_IMAGE063
为对比损失函数;
Figure 435668DEST_PATH_IMAGE064
为余弦相似性函数;N为上述初始化类别原型矩阵中的元素总个数;n为上述候选 框区域特征矩阵中的元素总个数。
备选地,上述待训练目标检测主干网络包括特征提取器、区域建议网络和区域分类检测头;将上述源域图片和目标域图片输入上述待训练目标检测主干网络,得到上述源域图片和上述目标域图片各自对应的特征图和上述特征图的候选框区域特征包括:
将上述源域图片和上述目标域图片输入上述特征提取器,得到上述源域图片和上述目标域图片各自对应的特征图。
将上述特征图输入到上述区域建议网络,得到上述特征图的候选框,利用上述区域分类检测头对上述对应特征图和上述候选框处理,得到上述特征图的候选框区域特征。
备选地,上述源域图片在上述待训练目标检测主干网络进行处理的过程中得到目标检测损失函数,通过以下公式获得上述目标检测损失函数:
Figure DEST_PATH_IMAGE065
其中,
Figure 915191DEST_PATH_IMAGE066
为目标检测损失函数;
Figure DEST_PATH_IMAGE067
为上述区域建议网络中的区域分类损失函 数;
Figure 86409DEST_PATH_IMAGE068
为上述区域建议网络中的区域回归损失函数;
Figure 117295DEST_PATH_IMAGE069
为上述区域分类检测头的回归 损失函数;
Figure DEST_PATH_IMAGE070
为上述区域分类检测头的回归损失函数。
备选地,基于图像-实例对齐网络的训练方法还包括:
根据上述目标检测损失函数、上述全局判别损失函数、上述前景判别损失函数、上述组合损失函数、上述对比损失函数输出的损失结果联合调整上述待训练目标检测主干网络、上述自适应前景感知的注意力模块和上述类别感知的原型对齐模块的网络参数,直至满足预设条件。
将在满足上述预设条件的情况下得到的目标检测主干网络作为训练好的目标检测主干网络。
本发明的另一方面,提供了一种基于图像-实例对齐网络的跨域目标检测方法,包括:
将随机选取的目标域数据集输入到目标检测主干网络,得到上述随机选取的目标域数据集中至少一个目标域数据图片的目标检测结果,上述目标检测结果包括上述目标域数据图片的被检测目标框以及上述被检测目标框的类别标签。
其中,上述目标检测主干网络是利用上述基于图像-实例对齐网络的训练方法之一进行训练的。
基于上述技术方案,本发明的基于图像-实例对齐网络的训练方法具有以下积极效果:
根据上述目标检测损失函数、全局判别损失函数、前景判别损失函数、组合损失函数、对比损失函数输出的损失结果联合调整待训练目标检测主干网络、自适应前景感知的注意力模块和类别感知的原型对齐模块的的网络参数,得到训练好的目标检测主干网络,在联合调整的过程中降低源域图片和目标域图片在对齐的过程中由于目标域图片的标签未知而产生的噪声影响。上述训练方法能够提升跨域目标检测方法的准确率和稳定性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了本发明实施例的基于图像-实例对齐网络的训练模型的框图;
图2示意性示出了本发明实施例的利用自适应前景感知的注意力模块实现图像级特征对齐的流程图;
图3示意性示出了本发明的实施例的利用类别感知的原型对齐模块实现实例级特征对齐的流程图;以及
图4示意性示出了本发明的实施例的待训练目标检测主干网络的卷积神经网络结构图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在实现本发明构思的过程中,发明人发现相关技术中至少存在如下问题:基于半监督学习的跨域目标检测方法中,教师网络并不是总能传达比学生网络更有效的知识,基于半监督学习的跨域目标检测方法的目标检测器容易累积错误,出现检测性能下降的问题。基于风格迁移的跨域目标检测方法生成的图像的质量不稳定。基于特征对齐的跨域目标检测方法相比于前两类方法性能更好且网络结构更加简单,但是在对齐的过程中,由于目标域标签未知会导致出现噪声,影响跨域目标检测结果。
为了至少部分地解决相关技术中存在的技术问题,本发明提供了一种基于图像-实例对齐网络的训练方法和跨域目标检测方法,可以应用于计算机视觉领域。
根据本发明实施例,提供了一种基于图像-实例对齐网络的训练方法包括:
将源域图片输入目标检测主干网络,得到源域图片的初始化类别原型和待训练目标检测主干网络。
将源域图片和目标域图片输入待训练目标检测主干网络,得到源域图片和目标域图片的各自对应特征图和特征图的候选框区域特征。
将特征图输入自适应前景感知的注意力模块,得到特征图的域标签概率和前景感知域标签概率。
将候选框区域特征和初始化类别原型输入类别感知的原型对齐模块,得到候选框区域特征矩阵和源域图片的初始化类别原型矩阵,利用候选框区域特征对初始化类别原型矩阵进行更新,得到滑动平均后的类别原型矩阵。
以及,将待训练目标检测主干网络、自适应前景感知的注意力模块和类别感知的原型对齐模块联合训练,基于待训练目标检测主干网络得到的目标检测损失函数值、自适应前景感知的注意力模块得到的全局判别损失函数值、前景判别损失函数值、组合损失函数值和类别感知的原型对齐模块得到的对比损失函数值调整待训练目标检测主干网络的网络参数。
图1示意性示出了本发明实施例的基于图像-实例对齐网络的训练模型的框图。
如图1所示,训练模型包括待训练目标检测主干网络、自适应前景感知的注意力模块和类别感知的原型对齐模块。
在得到待训练目标检测主干网络前,将源域图片输入目标检测主干网络,得到源域图片的初始化类别原型。其中,源域图片具有标签,该标签指示了源域图片对应所属的类别,类别可以存储为向量形式。
目标检测主干网络可以采用Faster-RCNN(Faster-Region ConvolutionalNeural Networks)作为基础目标检测器,Faster-RCNN可以包括VGG16(Visual GeometryGroup-16)卷积神经网络、区域建议网络(RPN,Region Proposal Net)、区域分类检测头(ROI,Region of interest)。
利用VGG16卷积神经网络对源域图片进行特征提取,得到源域图片的特征图;利用区域建议网络和区域分类检测头,基于源域图片的特征图得到源域图片候选框;目标检测主干网络对源域图片候选框中的特征进行平均处理,并将特征经过平均处理的源域图片候选框保存为源域图片的初始化类别原型。
调整目标检测主干网络的网络参数,在完成保存源域图片的初始化类别原型的操作后,对目标检测主干网络重新训练,利用ImageNet(即ISLVRC2012)数据集进行预训练得到的参数对VGG16卷积网络进行初始化,并对区域建议网络和区域分类检测头的参数进行随机初始化,得到待训练目标检测主干网络。
将源域图片和目标域图片输入待训练目标检测主干网络,得到源域图片和目标域图片各自对应的特征图和特征图的候选框区域特征。待训练目标检测主干网络在处理源域图片时可以得到目标检测损失函数值,基于目标检测损失函数值调整待训练目标检测主干网络的网络参数。
自适应前景感知的注意力模块包括前景感知域判别器、全局域判别器和跨注意力层。
利用前景感知域判别器对源域图片和目标域图片各自对应的特征图进行处理,得到特征图的前景感知域标签概率。基于前景感知域标签概率得到前景判别损失函数值,基于前景判别损失函数值调整待训练目标检测主干网络的网络参数。
利用全局域判别器对源域图片和目标域图片各自对应的特征图进行处理,得到特征图的域标签概率。基于域标签概率得到全局判别损失函数值,基于全局判别损失函数值调整待训练目标检测主干网络的网络参数。
利用跨注意力层对源域图片和目标域图片各自对应的特征图与预设计算原型向量进行处理时,得到组合损失函数值,基于组合损失函数值调整待训练目标检测主干网络的网络参数。
类别感知的原型对齐模块包括全连接层,将源域图片的初始化类别原型输入全连接层,经过全连接层映射得到的源域图片的初始化类别原型矩阵;将源域图片和目标域图片各自对应的特征图的候选框区域特征输入全连接层,经过全连接层映射得到候选框区域特征矩阵。
利用候选框区域特征矩阵和源域图片的初始化类别原型矩阵对初始化类别原型矩阵进行更新,得到当前更新的类别原型矩阵,基于当前更新的类别原型矩阵得到滑动平均后的类别原型矩阵。类别感知的原型对齐模块利用滑动平均后的类别原型矩阵得到对比损失函数值,基于对比损失函数值调整待训练目标检测主干网络的网络参数。
利用目标检测损失函数值、前景判别损失函数值、全局判别损失函数值、组合损失函数值、组合损失函数值对待训练目标检测主干网络、自适应前景感知的注意力模块和类别感知的原型对齐模块联合训练,调整待训练目标检测主干网络的网络参数,得到训练好的目标检测主干网络。
备选地,自适应前景感知的注意力模块中前景感知域判别器对源域图片和目标域图片对应特征图进行处理前,可以先经过梯度反转层(GRL,Gradient Reversal Layer),通过梯度反转层实现对抗网络的作用,使前景感知域判别器可以实现对源域图片和目标域图片各自对应的特征图的域迁移处理。全局域判别器对源域图片和目标域图片对应特征图进行处理前,也可以进行相同的操作,在此不再赘述。
备选地,待训练目标检测主干网络包括特征提取器、区域建议网络和区域分类检测头。得到特征图和特征图的候选框区域特征矩阵包括:
将源域图片和目标域图片输入待训练目标检测主干网络的特征提取器,得到源域图片和目标域图片各自对应的特征图。
将特征图输入到区域建议网络,得到特征图的候选框,利用区域分类检测头对特征图和候选框进行处理,得到特征图的候选框区域特征。
备选地,源域图片在待训练目标检测主干网络进行处理的过程中可以通过以下公式获得目标检测损失函数:
Figure 641948DEST_PATH_IMAGE071
; (1)
其中,
Figure DEST_PATH_IMAGE072
为目标检测损失函数;
Figure 241557DEST_PATH_IMAGE073
为区域建议网络中的区域分类损失函数;
Figure 52518DEST_PATH_IMAGE068
为区域建议网络中的区域回归损失函数;
Figure 308050DEST_PATH_IMAGE069
为区域分类检测头的回归损失函数;
Figure DEST_PATH_IMAGE074
为区域分类检测头的回归损失函数。
备选地,可以通过以下公式获得区域分类损失函数和回归损失函数:
Figure 26607DEST_PATH_IMAGE075
; (2)
Figure DEST_PATH_IMAGE076
; (3)
Figure 347299DEST_PATH_IMAGE077
; (4)
Figure DEST_PATH_IMAGE078
; (5)
其中,
Figure 125899DEST_PATH_IMAGE079
为标签,
Figure DEST_PATH_IMAGE080
为标签框的位置中心点横坐标,
Figure 540831DEST_PATH_IMAGE081
为标签框的位置中心点纵 坐标,
Figure DEST_PATH_IMAGE082
为标签框的框宽,
Figure 797500DEST_PATH_IMAGE083
为标签框的框长;
Figure DEST_PATH_IMAGE084
为候选框,
Figure 106122DEST_PATH_IMAGE085
为候选框位置中心点横坐 标,
Figure DEST_PATH_IMAGE086
为候选框中心点纵坐标,
Figure 930990DEST_PATH_IMAGE087
为候选框的框宽,
Figure DEST_PATH_IMAGE088
为候选框的框长;
Figure 689343DEST_PATH_IMAGE089
为区域分 类损失函数;
Figure DEST_PATH_IMAGE090
为候选框的个数;
Figure 625069DEST_PATH_IMAGE091
为标签类别;
Figure DEST_PATH_IMAGE092
为对数运算函数;
Figure 788197DEST_PATH_IMAGE093
为将生 成的第k个候选框预测为类别
Figure 846283DEST_PATH_IMAGE091
的概率;
Figure DEST_PATH_IMAGE094
为回归损失函数;
Figure 360441DEST_PATH_IMAGE095
为第i个标签与第i个候选框的绝对损失函数(L1损失)。
备选地,区域建议网络和区域分类检测头中得到的区域分类损失和回归损失值基本一致。
图2示意性示出了本发明实施例的利用自适应前景感知的注意力模块实现图像级特征对齐的流程图。
如图2所示,利用自适应前景感知的注意力模块实现图像级特征对齐包括操作S210~S240。
在操作S210,在跨注意力层利用K+1个预设计算原型向量对源域图片和目标域图片各自对应的特征图的特征图元素进行处理,得到各自对应的前景感知总特征图矩阵。
在操作S220,将前景感知总特征图矩阵输入前景感知域判别器,输出前景感知总特征图矩阵的前景感知域标签概率。
在操作S230,将特征图输入全局域判别器,输出特征图的域标签概率。
在操作S240,基于前景感知域标签概率和特征图的域标签概率得到前景判别损失函数值和全局判别损失函数值,基于前景判别损失函数值和全局判别损失函数值调整待训练目标检测主干网络的网络参数,实现源域图片和目标域图片各自对应的特征图的特征的图像级特征对齐。
备选地,自适应前景感知的注意力模块包括前景感知域判别器、全局域判别器和跨注意力层。
备选地,预设的K+1个预设计算原型向量的维度与特征图的每一个特征图元素的维度一致,前K个预设计算原型向量用来描述源域图片和目标域图片的前景区域,第K+1个预设计算原型向量用来描述源域图片和目标域图片的背景区域,K为大于1的正整数。设置描述源域图片和目标域图片的前景区域的预设计算原型向量,在跨注意力层对特征图的特征图元素进行处理,得到前景感知总特征图矩阵。将前景感知总特征图矩阵输入到前景感知域判别器,得到前景感知总特征图矩阵的前景感知域标签概率,增强前景特征在对齐的时候所占的权重,可以使自适应前景感知的注意力模块在进行源域图片和目标域图片对应特征图对齐处理的过程中更关注前景区域的对齐,实现源域图片和目标域图片对应特征的图像级特征对齐。待训练目标检测主干网络基于自适应前景感知的注意力模块的训练,可以达到对前景特征的检测更敏感的效果,提高目标检测结果的准确率。
备选地,将源域图片和目标域图片对应特征图输入跨注意力层,利用前K个预设计算原型向量对特征图的每一个特征图元素进行处理,得到每一个特征图元素的相似度矩阵元素。利用每一个特征图元素的相似度矩阵元素得到相似度矩阵和。利用相似度矩阵和对应特征图得到前景感知总特征图矩阵。
备选地,源域图片和目标域图片对应特征图输入跨注意力层后,先经过一个卷积层降低源域图片和目标域图片对应特征图的通道数,再进行得到前景感知总特征图矩阵的操作。前景感知总特征图矩输出跨注意力层前,需要经过一个Sigmoid激活函数层,Sigmoid激活层可以使待训练目标检测主干网络学习到非线性映射。
备选地,前景感知域判别器利用前景感知总特征图矩阵得到前景感知总特征图矩阵的前景感知域标签概率。利用前景感知域标签概率,得到前景判别损失函数值。
备选地,全局域判别器利用源域图片和目标域图片各自对应的特征图,得到特征图的域标签概率。利用域标签概率,得到全局判别损失函数值。
备选地,可以通过以下公式获得前景感知总特征图矩阵:
Figure DEST_PATH_IMAGE096
; (6)
Figure 958912DEST_PATH_IMAGE097
; (7)
Figure DEST_PATH_IMAGE098
; (8)
Figure 589263DEST_PATH_IMAGE099
; (9)
备选地,可以利用前景感知域标签概率通过以下公式获得前景判别损失函数值:
Figure DEST_PATH_IMAGE100
;(10)
其中,
Figure 146147DEST_PATH_IMAGE101
为中间量元素;
Figure DEST_PATH_IMAGE102
为第k个所述预设计算原型向量,k为大于或等于1且 小于K+1的正整数;
Figure 616442DEST_PATH_IMAGE103
为特征图第i行第j列元素;
Figure DEST_PATH_IMAGE104
为对
Figure 628392DEST_PATH_IMAGE102
Figure 94008DEST_PATH_IMAGE103
进行内积运算得 到的结果进行sigmoid激活函数运算;
Figure 25055DEST_PATH_IMAGE105
为相似度矩阵
Figure DEST_PATH_IMAGE106
的第
Figure 717068DEST_PATH_IMAGE017
行第
Figure 391762DEST_PATH_IMAGE018
列元素;
Figure 318743DEST_PATH_IMAGE107
为由前K 个预设计算原型得到的相似度矩阵累加得到的的相似度矩阵和;
Figure DEST_PATH_IMAGE108
为前景感知总特征图矩 阵;
Figure 951849DEST_PATH_IMAGE109
为特征图;
Figure DEST_PATH_IMAGE110
为前景判别损失函数;I为行总数,J为列总数;y为判断输入前景感知 域判别器的图片类型,当输入为源域图片时y=1,当输入为目标域图片时y=0;
Figure 537683DEST_PATH_IMAGE111
为乘积运 算;
Figure DEST_PATH_IMAGE112
为前景感知域判别器运算函数;
Figure 547227DEST_PATH_IMAGE113
为所述源域图片前景感知总特征图矩阵 第i行第j列元素;
Figure DEST_PATH_IMAGE114
为所述目标域图片前景感知总特征图矩阵第i行第j列元素。
备选地,可以利用域标签概率通过以下公式获得全局判别损失函数值:
Figure 269326DEST_PATH_IMAGE115
;(11)
其中
Figure DEST_PATH_IMAGE116
为全局判别损失函数;I为行总数,J为列总数;y为判断输入全局域判 别器的图片类型,当输入为源域图片时y=1,当输入为目标域图片时y=0;
Figure 338914DEST_PATH_IMAGE117
为全局域 判别器运算函数;
Figure DEST_PATH_IMAGE118
为源域图片特征图第i行第j列元素;
Figure 20167DEST_PATH_IMAGE119
为目标域图片特征图第i行 第j列元素。
备选地,在源域图片和目标域图片特征对齐的过程中,为了使K+1个预设计算原型向量更好地将特征信息从源域转移到目标域,在跨注意力层利用K+1个预设计算原型向量对对应特征图的特征图元素进行处理,得到组合损失函数;可以通过以下公式获得组合损失函数值:
Figure DEST_PATH_IMAGE120
; (12)
Figure 708768DEST_PATH_IMAGE121
; (13)
Figure DEST_PATH_IMAGE122
; (14)
Figure 410008DEST_PATH_IMAGE123
; (15)
其中,
Figure DEST_PATH_IMAGE124
为源域背景损失函数;
Figure 260283DEST_PATH_IMAGE092
为对数运算函数;
Figure 273239DEST_PATH_IMAGE125
为与第K+1个预 设计算原型向量计算得到的相似度矩阵元素;
Figure DEST_PATH_IMAGE126
为源域前景损失函数;I为行总数,J为列 总数;
Figure 234373DEST_PATH_IMAGE127
为相似度矩阵
Figure DEST_PATH_IMAGE128
的第i行第j列元素;
Figure 787189DEST_PATH_IMAGE129
为源域根据真实标签生成的 前景蒙版;
Figure DEST_PATH_IMAGE130
为目标域损失函数;
Figure 933000DEST_PATH_IMAGE131
为组合损失函数。
备选地,将源域图片和目标域图片各自对应的特征图的特征元素经过注意力层处理后输入前景感知域判别器和全局域判别器中进行比较,得到前景判别损失函数值、全局判别损失函数值和组合损失函数值。基于前景判别损失函数值、全局判别损失函数值和组合损失函数值调整了待训练目标检测主干网络的参数,实现了源域图片和目标域图片图像级别的对齐。前K个预设计算原型向量参与到产生前景判别损失函数值、全局判别损失函数值和组合损失函数值的过程中,可以有效表示出源域图片和目标域图片的前景区域,使特征对齐的过程更稳定。
图3示意性示出了本发明的实施例的利用类别感知的原型对齐模块实现实例级特征对齐的流程图。
如图3所示,利用类别感知的原型对齐模块实现实例级特征对齐包括操作S310~S340。
在操作S310,将候选框区域特征和源域图片的初始化类别原型输入类别感知的原型对齐模块,通过类别感知的原型对齐模块中的全连接层映射得到候选框区域特征矩阵和初始化类别原型矩阵。
在操作S320,基于候选框区域特征矩阵和初始化类别原型矩阵得到滑动平均后的类别原型矩阵。
在操作S330,基于滑动平均后的类别原型矩阵得到对比损失函数值。
在操作S340,根据对比损失函数值调整待训练目标检测主干网络的网络参数,实现源域图片和目标域图片的候选框区域特征的实例级特征对齐。
备选地,类别感知的原型对齐模块包括全连接层,将候选框区域特征输入全连接层映射得到候选框区域特征矩阵;将初始化类别原型输入全连接层映射得到初始化类别原型矩阵。
备选地,类别感知的原型对齐模块基于候选框区域特征矩阵、源域图片的初始化类别原型矩阵、聚合矩阵的取值范围,利用最优传输算法对聚合矩阵进行优化,得到最优传输聚合矩阵。基于最优传输聚合矩阵和候选框区域特征矩阵得到当前更新的类别原型矩阵。类别感知的原型对齐模块基于当前更新的类别原型矩阵和初始化类别原型矩阵,利用滑动平均方法,得到滑动平均后的类别原型矩阵。类别感知的原型对齐模块基于当前更新的类别原型矩阵,得到对比损失函数值。
备选地,可以通过以下公式获得滑动平均后的类别原型矩阵:
Figure DEST_PATH_IMAGE132
; (16)
Figure 715142DEST_PATH_IMAGE133
;(17)
Figure DEST_PATH_IMAGE134
; (18)
Figure 870180DEST_PATH_IMAGE135
; (19)
备选地,可以通过以下公式获得对比损失函数值:
Figure DEST_PATH_IMAGE136
; (20)
其中,
Figure 421378DEST_PATH_IMAGE137
(· )为取最大值函数;
Figure DEST_PATH_IMAGE138
为求矩阵的秩;
Figure 738090DEST_PATH_IMAGE139
为聚合矩阵
Figure 338354DEST_PATH_IMAGE140
的转置矩阵;
Figure DEST_PATH_IMAGE141
为初始化类别原型矩阵;
Figure 31504DEST_PATH_IMAGE142
Figure 765104DEST_PATH_IMAGE143
的转置矩阵;
Figure DEST_PATH_IMAGE144
代表候选框区域特征矩阵;
Figure 518297DEST_PATH_IMAGE145
为第一常数;
Figure DEST_PATH_IMAGE146
为聚 合矩阵
Figure 9452DEST_PATH_IMAGE147
的熵;
Figure DEST_PATH_IMAGE148
为聚合矩阵
Figure 506293DEST_PATH_IMAGE147
的取值范围;
Figure 359979DEST_PATH_IMAGE149
为实数域集;
Figure DEST_PATH_IMAGE150
为第二常数;
Figure 15564DEST_PATH_IMAGE151
为当前 更新的类别原型矩阵;
Figure DEST_PATH_IMAGE152
为最优传输矩阵;C为滑动平均后的类别原型矩阵;
Figure 259595DEST_PATH_IMAGE153
为基于源 域图片的候选框区域特征矩阵和第n个初始化类别原型矩阵得到的滑动平均后的类别原型 矩阵;
Figure DEST_PATH_IMAGE154
为基于目标域图片的候选框区域特征矩阵和第n个初始化类别原型矩阵得到的滑 动平均后的类别原型矩阵;
Figure 294547DEST_PATH_IMAGE061
为基于源域图片的候选框区域特征矩阵和第i个初始化类别 原型矩阵得到的滑动平均后的类别原型矩阵;
Figure 2740DEST_PATH_IMAGE062
为基于目标域图片的候选框区域特征矩阵 和第j个初始化类别原型矩阵得到的滑动平均后的类别原型矩阵;
Figure 35418DEST_PATH_IMAGE063
为对比损失函数;
Figure 953695DEST_PATH_IMAGE155
为余弦相似性函数;N为初始化类别原型矩阵中的元素总个数;n为候选框区域特 征矩阵中的元素总个数。
备选地,在得到对比损失函数值的过程中,类别感知的原型基于齐模块基于候选框区域特征矩阵、源域图片的初始化类别原型矩阵对源域图片的初始化类别原型矩阵进行了更新,将源域图片和目标域图片各自对应的候选框区域特征进行了结合和更新。根据对比损失函数输出的损失结果可以调整类别感知的原型对齐模块和待训练目标检测主干网络的网络参数,实现源域图片和目标域图片的候选框区域特征的实例级特征对齐。
备选地,将待训练目标检测主干网络、自适应前景感知的注意力模块、类别感知的原型对齐模块联合训练,使目标检测损失函数值、全局判别损失函数值、前景判别损失函数值、组合损失函数值、对比损失函数值满足预设条件,调整待训练目标检测主干网络的网络参数,将满足预设条件时得到的目标检测主干网络作为训练好的目标检测主干网络。
备选地,通过将待训练目标检测主干网络、自适应前景感知的注意力模块、类别感知的原型对齐模块联合训练,改变待训练目标检测主干网络的区域建议网络的所有参数。待训练目标检测主干网络的VGG16卷积神经网络需要设置一部分参数不进行改变。
图4示意性示出了本发明的实施例的待训练目标检测主干网络的卷积神经网络结构图。
如图4所示,图中实线框框选VGG16卷积神经网络的卷积层结构。内部虚线框框选VGG16卷积神经网络中参数不进行改变的10个网络层。参数不进行改变的10个网络层包括VGG16卷积神经网络中第一卷积层包括的两个卷积层,第二卷积层包括的两个卷积层,第三卷积层包括的三个卷积层,以及第一卷积层、第二卷积层、第三卷积层输出时各自连接的最大池化层。VGG16卷积神经网络中除了虚线框框选的10个网络层,其余部分网络的参数随着图像-实例对齐网络的训练进行改变。
备选地,可以通过以下公式获得最终损失函数:
Figure DEST_PATH_IMAGE156
;(21)
L为最终损失函数;
Figure 667704DEST_PATH_IMAGE157
为目标检测损失函数,
Figure DEST_PATH_IMAGE158
为全局判别损失函数;
Figure 424877DEST_PATH_IMAGE159
为 前景判别损失函数;
Figure DEST_PATH_IMAGE160
为组合损失函数;
Figure 425194DEST_PATH_IMAGE063
为对比损失函数;
Figure 706134DEST_PATH_IMAGE161
Figure DEST_PATH_IMAGE162
Figure 817309DEST_PATH_IMAGE163
Figure DEST_PATH_IMAGE164
为预 设的不同常数。
根据目标检测损失函数值、全局判别损失函数值、前景判别损失函数值、组合损失函数值、对比损失函数值得到最终损失函数值,在得到最终损失函数值的过程中调整待训练目标检测主干网络的网络参数,使得源域图片和目标域图片的特征图的图像级联合对齐和特征图的候选框区域特征的实例级联合对齐,降低了在对齐的过程中由于目标域标签未知产生的噪声影响,提升了基于图像-实例对齐网络的跨域目标检测方法的准确率和稳定性。当最终损失函数值收敛或达到预设阈值时,待训练目标检测主干网络训练完毕,保留训练完毕的待训练目标检测主干网络的网络参数作为训练后的目标检测主干网络的网络参数。
本发明的另一方面,提供了一种基于图像-实例对齐网络的跨域目标检测方法,包括:
将随机选取的目标域数据集输入到目标检测主干网络,得到随机选取的目标域数据集中至少一个目标域数据图片的目标检测结果,目标检测结果包括目标域数据图片的被检测目标框以及被检测目标框的类别标签。
其中,目标检测主干网络是利用基于图像-实例对齐网络的训练方法之一进行训练的。
备选地,根据有标签的源域数据集和无标签的目标域数据集,基于图像-实例对齐网络的训练方法可以训练得到一个能够泛化到目标域数据集上的目标检测器。
备选地,目标检测主干网络可以以软件的方式安装于前端设备上,为前端设备提供实时检测结果。还可以以软件的方式安装于后台服务器上,为后台服务器提供缓存在服务器中的大批量无标签数据集的目标检测结果。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。

Claims (10)

1.一种基于图像-实例对齐网络的训练方法,其特征在于,包括:
将源域图片输入目标检测主干网络,得到所述源域图片的初始化类别原型和待训练目标检测主干网络;
将所述源域图片和目标域图片输入所述待训练目标检测主干网络,得到所述源域图片和所述目标域图片各自对应的特征图和所述特征图的候选框区域特征;
将所述特征图输入自适应前景感知的注意力模块,得到所述特征图的域标签概率和前景感知域标签概率;
将所述候选框区域特征和所述初始化类别原型输入类别感知的原型对齐模块,得到候选框区域特征矩阵和所述源域图片的初始化类别原型矩阵,利用所述候选框区域特征矩阵对所述初始化类别原型矩阵进行更新,得到滑动平均后的类别原型矩阵;以及
将所述待训练目标检测主干网络、所述自适应前景感知的注意力模块和所述类别感知的原型对齐模块联合训练,基于所述待训练目标检测主干网络得到的目标检测损失函数值、所述自适应前景感知的注意力模块得到的全局判别损失函数值、前景判别损失函数值、组合损失函数值和所述类别感知的原型对齐模块得到的对比损失函数值调整所述待训练目标检测主干网络的网络参数。
2.根据权利要求1所述的方法,其特征在于,所述自适应前景感知的注意力模块包括前景感知域判别器、全局域判别器和跨注意力层;
将所述特征图输入自适应的前景感知的注意力模块,得到所述特征图的域标签概率和前景感知域标签概率包括:
在所述跨注意力层利用K+1个预设计算原型向量对所述特征图的特征图元素进行处理,得到前景感知总特征图矩阵;
将所述前景感知总特征图矩阵输入所述前景感知域判别器,输出所述前景感知总特征图矩阵的前景感知域标签概率;以及
将所述特征图输入所述全局域判别器,输出所述特征图的域标签概率;
其中,K为大于1的正整数,前K个所述预设计算原型向量用来描述所述源域图片和所述目标域图片的前景区域,第K+1个所述预设计算原型向量用来描述所述源域图片和所述目标域图片的背景区域。
3.根据权利要求2所述的训练方法,其特征在于,还包括:
利用所述域标签概率得到所述全局判别损失函数值,利用所述前景感知域标签概率得到所述前景判别损失函数值;
其中,通过以下公式获得所述全局判别损失函数值:
Figure 90191DEST_PATH_IMAGE001
其中,
Figure 335228DEST_PATH_IMAGE002
为全局判别损失函数;I为行总数,J为列总数;y用于表征输入所述全局域 判别器的图片类型,当输入为所述源域图片时y=1,当输入为所述目标域图片时y=0;
Figure 459173DEST_PATH_IMAGE003
为全局域判别器运算函数;
Figure 916699DEST_PATH_IMAGE004
为所述源域图片的特征图的第i行第j列元素;
Figure 934333DEST_PATH_IMAGE005
为所述目标域图片的特征图的第i行第j列元素;以及
通过以下公式获得所述前景判别损失函数值:
Figure 569845DEST_PATH_IMAGE006
Figure 164774DEST_PATH_IMAGE007
Figure 442303DEST_PATH_IMAGE008
Figure 439078DEST_PATH_IMAGE009
Figure 635704DEST_PATH_IMAGE010
其中,
Figure 465732DEST_PATH_IMAGE011
为中间量元素;
Figure 265061DEST_PATH_IMAGE012
为第k个所述预设计算原型向量,k为大于或等于1且小于K+ 1的正整数;
Figure 132654DEST_PATH_IMAGE013
为所述特征图的第i行第j列元素;
Figure 624815DEST_PATH_IMAGE014
为对所述
Figure 69703DEST_PATH_IMAGE012
与所述
Figure 423455DEST_PATH_IMAGE013
进行内 积运算得到的结果进行Sigmoid激活函数运算;
Figure 394822DEST_PATH_IMAGE015
为相似度矩阵
Figure 808617DEST_PATH_IMAGE016
的第
Figure 740801DEST_PATH_IMAGE017
行第
Figure 147512DEST_PATH_IMAGE018
列元素;
Figure 727047DEST_PATH_IMAGE019
为由前K个所述预设计算原型向量得到的相似度矩阵累加得到的相似度矩阵和;
Figure 967536DEST_PATH_IMAGE020
为前 景感知总特征图矩阵;
Figure 246070DEST_PATH_IMAGE021
为特征图;
Figure 207204DEST_PATH_IMAGE022
为前景判别损失函数;
Figure 887584DEST_PATH_IMAGE023
为乘积运算;
Figure 33395DEST_PATH_IMAGE024
为 前景感知域判别器运算函数;
Figure 549958DEST_PATH_IMAGE025
为所述源域图片的前景感知总特征图矩阵的第i行第j 列元素;
Figure 298471DEST_PATH_IMAGE026
为所述目标域图片的前景感知总特征图矩阵的第i行第j列元素。
4.根据权利要求2所述的训练方法,其特征在于,还包括:
在所述跨注意力层利用K+1个所述预设计算原型向量对所述对应特征图的特征图元素进行处理,得到所述组合损失函数值;
其中,通过以下公式获得所述组合损失函数值:
Figure 849669DEST_PATH_IMAGE027
Figure 166381DEST_PATH_IMAGE028
Figure 419508DEST_PATH_IMAGE029
Figure 985094DEST_PATH_IMAGE030
其中,
Figure 249853DEST_PATH_IMAGE031
为源域背景损失函数;
Figure 862100DEST_PATH_IMAGE032
为对数运算函数;
Figure 353256DEST_PATH_IMAGE033
为与第K+1个所述预 设计算原型向量计算得到的相似度矩阵元素;
Figure 709151DEST_PATH_IMAGE034
为源域前景损失函数;I为行总数,J为列 总数;
Figure 93996DEST_PATH_IMAGE035
为所述相似度矩阵
Figure 362297DEST_PATH_IMAGE036
的第i行第j列元素;
Figure 855595DEST_PATH_IMAGE037
为根据源域真实标签生 成的前景蒙版;
Figure 234755DEST_PATH_IMAGE038
为目标域损失函数;
Figure 739686DEST_PATH_IMAGE039
为组合损失函数。
5.根据权利要求1所述的训练方法,其特征在于,利用所述候选框区域特征矩阵对所述初始化类别原型矩阵进行更新,得到滑动平均后的类别原型矩阵包括:
所述类别感知的原型对齐模块包括全连接层;
将所述候选框区域特征和所述初始化类别原型输入所述类别感知的原型对齐模块,利用所述全连接层映射得到所述候选框区域特征矩阵和所述初始化类别原型矩阵;
基于所述候选框区域特征矩阵、所述初始化类别原型矩阵和聚合矩阵的取值范围,利用最优传输算法对聚合矩阵进行优化,得到最优传输聚合矩阵;
基于所述最优传输聚合矩阵和所述候选框区域特征矩阵得到当前更新的类别原型矩阵,基于所述当前更新的类别原型矩阵得到滑动平均后的类别原型矩阵,基于所述滑动平均后的类别原型矩阵得到对比损失函数值。
6.根据权利要求5所述的训练方法,其特征在于,通过以下公式获得所述对比损失函数值:
Figure 693735DEST_PATH_IMAGE040
Figure 174131DEST_PATH_IMAGE041
Figure 747195DEST_PATH_IMAGE042
Figure 965687DEST_PATH_IMAGE043
Figure 841370DEST_PATH_IMAGE044
其中,
Figure 778102DEST_PATH_IMAGE045
(· )为取最大值函数;
Figure 154857DEST_PATH_IMAGE046
为求矩阵的秩;
Figure 509746DEST_PATH_IMAGE047
为所述聚合矩阵
Figure 805598DEST_PATH_IMAGE048
的转置矩阵;
Figure 104992DEST_PATH_IMAGE049
为所述初始化类别原型矩阵;
Figure 895225DEST_PATH_IMAGE050
为所述
Figure 88309DEST_PATH_IMAGE051
的转置矩阵;
Figure 37286DEST_PATH_IMAGE052
为所述候选框区域特征矩阵;
Figure 89555DEST_PATH_IMAGE053
为第一常数;
Figure 667167DEST_PATH_IMAGE054
为 所述聚合矩阵
Figure 731069DEST_PATH_IMAGE048
的熵;
Figure 775249DEST_PATH_IMAGE055
为所述聚合矩阵
Figure 439448DEST_PATH_IMAGE048
的取值范围;
Figure 40325DEST_PATH_IMAGE056
为实数域集;
Figure 208001DEST_PATH_IMAGE057
为第二常 数;
Figure 891923DEST_PATH_IMAGE058
为所述当前更新的类别原型矩阵;
Figure 528572DEST_PATH_IMAGE059
为所述最优传输矩阵;C为所述滑动平均后的类 别原型矩阵;
Figure 713566DEST_PATH_IMAGE060
为基于所述源域图片的候选框区域特征矩阵和第n个所述初始化类别原型 矩阵得到的滑动平均后的类别原型矩阵;
Figure 876694DEST_PATH_IMAGE061
为基于所述目标域图片的候选框区域特征矩阵 和第n个所述初始化类别原型矩阵得到的滑动平均后的类别原型矩阵;
Figure 609813DEST_PATH_IMAGE062
为基于所述源域 图片的候选框区域特征矩阵和第i个所述初始化类别原型矩阵得到的滑动平均后的类别原 型矩阵;
Figure 123971DEST_PATH_IMAGE063
为基于所述目标域图片的候选框区域特征矩阵和第j个所述初始化类别原型矩 阵得到的滑动平均后的类别原型矩阵;
Figure 847077DEST_PATH_IMAGE064
为对比损失函数;
Figure 943340DEST_PATH_IMAGE065
为余弦相似性函 数;N为所述初始化类别原型矩阵中的元素总个数;n为所述候选框区域特征矩阵中的元素 总个数。
7.根据权利要求1所述的方法,其特征在于,所述待训练目标检测主干网络包括特征提取器、区域建议网络和区域分类检测头;
将所述源域图片和目标域图片输入所述待训练目标检测主干网络,得到所述源域图片和所述目标域图片各自对应的特征图和所述特征图的候选框区域特征包括:
将所述源域图片和所述目标域图片输入所述特征提取器,得到所述源域图片和所述目标域图片各自对应的特征图;
将所述特征图输入所述区域建议网络,得到所述特征图的候选框,利用所述区域分类检测头对所述特征图和所述候选框处理,得到所述特征图的候选框区域特征。
8.根据权利要求7所述的方法,其特征在于,所述源域图片在所述待训练目标检测主干网络进行处理的过程中得到目标检测损失函数值,通过以下公式获得所述目标检测损失函数值:
Figure 359278DEST_PATH_IMAGE066
其中,
Figure 704939DEST_PATH_IMAGE067
为目标检测损失函数;
Figure 372681DEST_PATH_IMAGE068
为所述区域建议网络中的区域分类损失函数;
Figure 103877DEST_PATH_IMAGE069
为所述区域建议网络中的区域回归损失函数;
Figure 441448DEST_PATH_IMAGE070
为所述区域分类检测头的回归损 失函数;
Figure 523674DEST_PATH_IMAGE071
为所述区域分类检测头的回归损失函数。
9.根据权利要求8所述的方法,其特征在于,还包括:
根据所述目标检测损失函数、所述全局判别损失函数、所述前景判别损失函数、所述组合损失函数、所述对比损失函数输出的损失结果联合调整所述待训练目标检测主干网络、所述自适应前景感知的注意力模块和所述类别感知的原型对齐模块的网络参数,直至满足预设条件;
将在满足所述预设条件的情况下得到的目标检测主干网络作为训练好的目标检测主干网络。
10.一种基于图像-实例对齐网络的跨域目标检测方法,其特征在于,包括:
将随机选取的目标域数据集输入到目标检测主干网络,得到所述随机选取的目标域数据集中至少一个目标域数据图片的目标检测结果,所述目标检测结果包括所述目标域数据图片的被检测目标框以及所述被检测目标框的类别标签;
其中,所述目标检测主干网络是利用根据权利要求1-9之一所述的方法训练的。
CN202210595693.8A 2022-05-30 2022-05-30 基于图像-实例对齐网络的训练方法和跨域目标检测方法 Active CN114693983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210595693.8A CN114693983B (zh) 2022-05-30 2022-05-30 基于图像-实例对齐网络的训练方法和跨域目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210595693.8A CN114693983B (zh) 2022-05-30 2022-05-30 基于图像-实例对齐网络的训练方法和跨域目标检测方法

Publications (2)

Publication Number Publication Date
CN114693983A true CN114693983A (zh) 2022-07-01
CN114693983B CN114693983B (zh) 2022-09-30

Family

ID=82145035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210595693.8A Active CN114693983B (zh) 2022-05-30 2022-05-30 基于图像-实例对齐网络的训练方法和跨域目标检测方法

Country Status (1)

Country Link
CN (1) CN114693983B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082762A (zh) * 2022-07-21 2022-09-20 合肥中科类脑智能技术有限公司 基于区域建议网络中心对齐的目标检测无监督域适应系统
CN115131590A (zh) * 2022-09-01 2022-09-30 浙江大华技术股份有限公司 目标检测模型的训练方法、目标检测方法及相关设备
CN115908723A (zh) * 2023-03-09 2023-04-04 中国科学技术大学 基于区间感知的极线引导多视图立体重建方法
CN118570610A (zh) * 2024-07-25 2024-08-30 电子科技大学(深圳)高等研究院 一种跨域目标检测模型训练方法、目标检测方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516671A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 神经网络模型的训练方法、图像检测方法及装置
CN111695456A (zh) * 2020-05-28 2020-09-22 西安工程大学 一种基于主动判别性跨域对齐的低分辨人脸识别方法
CN112016594A (zh) * 2020-08-05 2020-12-01 中山大学 一种基于领域自适应的协同训练方法
CN112668594A (zh) * 2021-01-26 2021-04-16 华南理工大学 一种基于对抗性域适应的无监督图像目标检测方法
CN113158943A (zh) * 2021-04-29 2021-07-23 杭州电子科技大学 一种跨域红外目标检测方法
CN113343989A (zh) * 2021-07-09 2021-09-03 中山大学 一种基于前景选择域自适应的目标检测方法及系统
EP3879429A2 (en) * 2020-06-16 2021-09-15 Baidu USA LLC Cross-lingual unsupervised classification with multi-view transfer learning
US20210312232A1 (en) * 2020-04-06 2021-10-07 Adobe Inc. Domain alignment for object detection domain adaptation tasks
CN113807420A (zh) * 2021-09-06 2021-12-17 湖南大学 一种考虑类别语义匹配的域自适应目标检测方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516671A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 神经网络模型的训练方法、图像检测方法及装置
US20210312232A1 (en) * 2020-04-06 2021-10-07 Adobe Inc. Domain alignment for object detection domain adaptation tasks
CN111695456A (zh) * 2020-05-28 2020-09-22 西安工程大学 一种基于主动判别性跨域对齐的低分辨人脸识别方法
EP3879429A2 (en) * 2020-06-16 2021-09-15 Baidu USA LLC Cross-lingual unsupervised classification with multi-view transfer learning
CN112016594A (zh) * 2020-08-05 2020-12-01 中山大学 一种基于领域自适应的协同训练方法
CN112668594A (zh) * 2021-01-26 2021-04-16 华南理工大学 一种基于对抗性域适应的无监督图像目标检测方法
CN113158943A (zh) * 2021-04-29 2021-07-23 杭州电子科技大学 一种跨域红外目标检测方法
CN113343989A (zh) * 2021-07-09 2021-09-03 中山大学 一种基于前景选择域自适应的目标检测方法及系统
CN113807420A (zh) * 2021-09-06 2021-12-17 湖南大学 一种考虑类别语义匹配的域自适应目标检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MINGHAO FU 等: "Deeply Aligned Adaptation for Cross-domain Object Detection", 《ARXIV》 *
MINGHAO XU 等: "Cross-domain Detection via Graph-induced Prototype Alignment", 《IEEE》 *
YANGTAO ZHENG 等: "Cross-domain Object Detection through Coarse-to-Fine Feature Adaptation", 《IEEE》 *
廖星宇: "基于无监督增量学习的跨域行人重识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082762A (zh) * 2022-07-21 2022-09-20 合肥中科类脑智能技术有限公司 基于区域建议网络中心对齐的目标检测无监督域适应系统
CN115131590A (zh) * 2022-09-01 2022-09-30 浙江大华技术股份有限公司 目标检测模型的训练方法、目标检测方法及相关设备
CN115131590B (zh) * 2022-09-01 2022-12-06 浙江大华技术股份有限公司 目标检测模型的训练方法、目标检测方法及相关设备
CN115908723A (zh) * 2023-03-09 2023-04-04 中国科学技术大学 基于区间感知的极线引导多视图立体重建方法
CN118570610A (zh) * 2024-07-25 2024-08-30 电子科技大学(深圳)高等研究院 一种跨域目标检测模型训练方法、目标检测方法及装置

Also Published As

Publication number Publication date
CN114693983B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN114693983B (zh) 基于图像-实例对齐网络的训练方法和跨域目标检测方法
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
CN112597883B (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN109753913B (zh) 计算高效的多模式视频语义分割方法
Zhou et al. Scale adaptive image cropping for UAV object detection
Li et al. Source-free object detection by learning to overlook domain style
CN109886121A (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN111382686B (zh) 一种基于半监督生成对抗网络的车道线检测方法
CN111583263A (zh) 一种基于联合动态图卷积的点云分割方法
CN111046939A (zh) 基于注意力的cnn类别激活图生成方法
CN113807420A (zh) 一种考虑类别语义匹配的域自适应目标检测方法及系统
US20210027207A1 (en) Cross-modality image generation
CN112308862A (zh) 图像语义分割模型训练、分割方法、装置以及存储介质
CN112446436A (zh) 基于生成对抗网络的抗模糊无人驾驶车辆多目标跟踪方法
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN112634171B (zh) 基于贝叶斯卷积神经网络的图像去雾方法及存储介质
CN111105439A (zh) 一种使用残差注意力机制网络的同步定位与建图方法
Nagendar et al. Neuro-IoU: Learning a Surrogate Loss for Semantic Segmentation.
CN113763417B (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN115937254B (zh) 一种基于半监督学习的多空中飞行目标跟踪方法和系统
CN113392933A (zh) 一种基于不确定性引导的自适应跨域目标检测方法
JP6600288B2 (ja) 統合装置及びプログラム
CN113989256A (zh) 遥感图像建筑物的检测模型优化方法及检测方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant