CN115424288A - 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统 - Google Patents

一种基于多维度关系建模的视觉Transformer自监督学习方法及系统 Download PDF

Info

Publication number
CN115424288A
CN115424288A CN202210645115.0A CN202210645115A CN115424288A CN 115424288 A CN115424288 A CN 115424288A CN 202210645115 A CN202210645115 A CN 202210645115A CN 115424288 A CN115424288 A CN 115424288A
Authority
CN
China
Prior art keywords
self
network
dimension
image
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210645115.0A
Other languages
English (en)
Inventor
程明明
李钟毓
高尚华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202210645115.0A priority Critical patent/CN115424288A/zh
Publication of CN115424288A publication Critical patent/CN115424288A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,提供了一种基于多维度关系建模的视觉Transformer自监督学习方法及系统,该方法利用空间维度和通道维度上的自关系建模,使用不同的图像变换处理图像得到图像的不同视图;图像的不同视图分别由教师网络和学生网络处理,得到特征图;学生网络提取的特征图进一步通过卷积层处理;通过点积计算特征图在空间维度与通道维度的自关系矩阵,计算教师网络与学生网络提取的关系矩阵的差异作为损失函数,并利用其关于网络参数的导数更新网络参数,相较于现有的自监督学习方法只考虑视觉模式的特征,该方法同时考虑了视觉模式在空间和通道维度的相关性,可以显著提升图像识别、语义分割、目标检测、实例检测等任务的准确性。

Description

一种基于多维度关系建模的视觉Transformer自监督学习方 法及系统
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种基于多维度关系建模的视觉Transformer自监督学习方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
自监督学习逐渐成为计算机视觉领域的研究热点之一,尤其是关于Transformer的自监督模型已经被证明可以提取高质量的图像特征,同时可以不受标注成本的限制。如何提高模型表达视觉模式特征的能力是自监督学习的关键。
在现实场景中,不同的视觉模式之间存在关系,即相似的视觉模式是强相关的而不同的视觉模式应是弱相关的。对于Transformer网络来说,其提取的图像特征包含多个维度,如空间维度和通道维度。在空间维度上,每一个像素有其所属的类别,属于同一类物体的像素之间是强相关的;在通道维度上,不同的通道表示不同的视觉模型,不同通道之间表示的模式也存在着一定的关系。正确捕捉视觉模式间关系的能力,是使神经网络具有强大特征提取能力的必要条件。
发明人发现,目前关于Transformer网络的自监督学习方法主要都是通过图像特征实现的,却忽略了视觉模式之间的关系。Chen等人通过对比学习,构造正样本和负样本,通过在特征空间拉近正样本而推开负样本的方式来强化的表征质量。Caron等人通过聚类赋予图像类别标签,通过加强图片不同视角间的类别一致性,提高模型识别图像语义的能力。Zhou等人在Caron等人提出方法的基础上,在更细粒度的维度即像素上引入类别一致性,强化了模型的表征表达能力。以上方法主要着眼于特征层次,并在很多视觉任务上取得了较好的成果,但这些方法忽略了视觉模式之间的关系,因而不能充分发挥自监督模型表达视觉模式的潜力。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供一种基于多维度关系建模的视觉Transformer自监督学习方法及系统,其在Transformer自监督训练过程中显式地强化模型的建模视觉关系的能力,解决了现有的自监督学习方法仅考虑特征而忽略视觉模式间关系的问题。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于多维度关系建模的视觉Transformer自监督学习方法,包括如下步骤:
对待训练图像样本数据进行预处理得到每张图像对应的不同视图并提取得到对应视图的特征图;
基于每张图像对应的不同视图的特征图和Transformer网络进行自监督学习得到语义特征;其中,所述自监督学习的过程包括:
基于不同视图的特征图,通过点积计算得到所有视图在通道维度上的自关系矩阵,将每张视图的特征图沿着通道维度划分为多个子集,通过点乘计算每个子特征图上像素之间在空间维度上的自关系矩阵;
将通道维度上和空间维度上的自关系矩阵的差异作为损失函数,通过损失函数的梯度更新Transformer网络的参数。
本发明的第二个方面提供一种基于多维度关系建模的视觉Transformer自监督学习系统,包括:
特征提取模块,用于对待训练图像样本数据进行预处理得到每张图像对应的不同视图并提取得到对应视图的特征图;
自监督学习模块,用于基于每张图像对应的不同视图的特征图和Transformer网络进行自监督学习得到语义特征;其中,所述自监督学习的过程包括:
基于不同视图的特征图,通过点积计算得到所有视图在通道维度上的自关系矩阵,将每张视图的特征图沿着通道维度划分为多个子集,通过点乘计算每个子特征图上像素之间在空间维度上的自关系矩阵;
将通道维度上和空间维度上的自关系矩阵的自关系矩阵的差异作为损失函数,通过损失函数的梯度更新Transformer网络的参数。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明利用空间维度和通道维度上的自关系建模提升了自监督模型的表征质量,使用不同的图像变换处理图像得到图像的不同视图;图像的不同视图分别由教师网络和学生网络处理得到特征图;通过点积计算特征图在空间维度与通道维度的自关系矩阵,计算教师网络与学生网络提取的关系矩阵的差异作为损失函数,并利用其关于网络参数的导数更新网络参数。相较于现有的自监督学习方法只考虑视觉模式的特征,该方法同时考虑了视觉模式在空间和通道维度的相关性,基于该方法的自监督预训练模型能提供高质量的语义特征,可以显著提升图像识别、语义分割、目标检测、实例检测等任务的准确性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明中的基于多维度关系建模的视觉Transformer自监督学习方法的流程图;
图2为本发明中的基于多维度关系建模的视觉Transformer自监督学习方法的框架图;
图3是本发明与现有方法的主要区别示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
为了解决正如背景技术所提及的现有的自监督学习方法仅考虑特征而忽略视觉模式间关系的问题,本发明使用不同的图像变换处理图像得到图像的不同视图;图像的不同视图分别由教师网络和学生网络处理,得到特征图;学生网络提取的特征图进一步通过卷积层处理;通过点积计算特征图在空间维度与通道维度的自关系矩阵,计算教师网络与学生网络提取的关系矩阵的差异作为损失函数,并利用其关于网络参数的导数更新网络参数。本发明提出一种方法在Transformer自监督训练过程中显式地强化模型的建模视觉关系的能力,相较于其他方法只考虑了特征实现自监督学习,本发明方法可以显著提高自监督模型建模视觉关系的能力,从而提高自监督模型的特征表达能力。基于该方法训练的到的模型可以作为多种视觉任务的预训练模型,同时提升准确性。
实施例一
如图1-图2所示,本实施例提供一种基于多维度关系建模的视觉Transformer自监督学习方法,包括如下步骤:
步骤1:获取待训练图像样本数据;
步骤2:对待训练图像样本数据进行预处理;
所述预处理过程包括:
对于待训练的大规模数据集中的数据,通过随机裁剪、随机翻转、随机模糊、随机灰度化等变换预处理图像,并将预处理后的图像变换为统一的尺寸;
可以理解的是,图像的具体尺寸可以根据需求进行设置,本实施将预处理后的图像的尺寸统一变换为224×224。
步骤3:将预处理后的每张图像分别采用不同的图像变换方法进行随机变换处理,得到每张图像对应的不同视图;
步骤4:基于每张图像对应的不同视图和Transformer网络进行自监督学习得到语义特征,其中,所述自监督学习的过程包括:
分别采用教师网络和学生网络进行特征提取得到对应视图的特征图;
基于不同视图的特征图,通过点积计算得到所有视图在通道维度上的自关系矩阵,将每张视图的特征图沿着通道维度划分为多个子集,通过点乘计算每个子特征图上像素之间在空间维度上的自关系矩阵;将通道维度上和空间维度上的自关系矩阵的差异作为损失函数,通过损失函数的梯度更新学生网络和教师网络的参数。
作为一种或多种实施例,步骤4中,所述Transformer网络包括教师网络和学生网络,其中,学生网络通过梯度下降更新参数,教师网络的参数基于学生网络的参数按动量更新。
为了更清楚地理解本发明的技术方案,本实施例以每张图像存在两个视图为例,分别用x1和x2表示,若视图的个数大于二,则多出来的视图由学生网络处理,在自监督学习时,这些视图的处理方式与x1的处理方式一致。
具体包括如下技术方案:
步骤401:分别采用教师网络和学生网络进行特征提取得到对应视图的特征图;
z1=S(x1)
z2=T(x2)
其中,S表示学生网络,T表示教师网络。
步骤402:将学生网络提取的特征图采用卷积层、归一化层和激活层进一步处理;
z’1=M(z1)
本实施例中,M表示由卷积层、归一化层和激活层组成的函数,表示进一步处理学生网络提取的特征;归一化层为批归一化;激活层为RELU,M中的卷积层输入维度是384,输出维度是384维度;
特征的维度是B×N×C,B表示当前训练批次的图像数量,N表示图片中像素的数量,C表示特征的维度。
步骤403:基于步骤401和步骤402得到的特征图,通过点积计算得到所有视图通道维度上的自关系矩阵,将特征图沿着通道维度划分为多个子集,通过点乘计算每个特征图子集上两两像素之间的空间维度上的自关系矩阵。
具体包括:
(1)在空间维度上,首先将特征图沿着通道划分为几个子集:
Figure BDA0003685599520000071
其中,split函数表示划分通道的操作,
Figure BDA0003685599520000072
的维度是B×H×N/H×C,H表示子集的数量。
之后通过点乘计算每一个子集上两两像素之间空间维度上的自关系矩阵:
Figure BDA0003685599520000073
其中,矩阵P1表示了每一个子集上两两像素之间的关系,transpose表示转置矩阵最后两维;
可以理解的是,上述以其中一个视图为例,另一个视图上的空间维度上的自关系矩阵P2通过相同的方法得到,因此在次不再赘述。
(2)在通道维度上,利用对应视图的特征图计算所有视图通道维度上的自关系矩阵:
C1=transpose(z′1)*z′1
C2=transpose(z2)*z2
步骤404:基于通道维度上和空间维度上的自关系矩阵的自关系矩阵的差异更新学生网络和教师网络的参数,通过交叉熵损失衡量相同图像不同视图的关系矩阵之间的差异,作为损失函数,并计算损失函数关于网络参数的导数作为梯度更新网络参数;具体包括:
(1)在通道维度上,利用交叉熵损失函数衡量两个视图的空间维度关系矩阵的差异:
Figure BDA0003685599520000081
其中,
Figure BDA0003685599520000082
表示第一视图通道维度上像素i和像素j之间的关系,
Figure BDA0003685599520000083
表示第二视图通道维度上像素i和像素j之间的关系。
关系矩阵的差异越大,损失函数的值也越大。
(2)在空间维度上,利用交叉熵损失函数衡量两个视图的通道维度关系矩阵的差异:
Figure BDA0003685599520000084
其中,式中,
Figure BDA0003685599520000085
表示第一视图空间维度上像素i和像素j之间的关系,
Figure BDA0003685599520000086
表示第二视图空间维度上像素i和像素j之间的关系。
(3)将通道维度上和空间维度上的两个损失函数相加得到最后的损失函数:
L=Lc+Lp
(4)计算该损失对网络参数的倒数,作为梯度利用反向传播更新学生网络的参数:
Figure BDA0003685599520000091
其中,
Figure BDA0003685599520000092
是时刻t的学生网络参数,其中,
Figure BDA0003685599520000093
是损失函数关于网络参数的导数即梯度,α是学习率,
Figure BDA0003685599520000094
表示更新后的模型的参数。
教师网络的参数
Figure BDA0003685599520000095
按照学生网络的参数动量更新:
Figure BDA0003685599520000096
其中,m表示动量,
Figure BDA0003685599520000097
是时刻t的教师网络参数,随着训练m从0.996逐渐增长到1。
上述实施例的自监督学习方法训练之后可以应用于在目标检测、语义分割、半监督语义分割和图像分类等任务上。
为了证明本发明的有效性,故在多个任务上测试使用本方法提出的预训练方法的效果。如表格1所示,相较于现有的方法DINO,本发明提出的自监督预训练方法可以在目标检测、语义分割、半监督语义分割和图像分类等任务上实现更优异的效果。
表1本发明和现有方法训练效果对比
任务 DINO 本发明
目标检测 46.0 46.6
VOC语义分割/mIoU 77.1 78.5
半监督语义分割/mIoU 22.3 25.9
图像分类/% 79.7 80.4
上述技术方案的优点在于,如图3所示,其中,图3中的(a)表示现有的方法主要关注于表征;(b)表示本发明关注于视觉模式间的关系。
现有方法主要关注与表征,而本发明从关注视觉模式间的关系出发,本发明提出的自监督学习方法考虑了神经网络提取的特征中视觉模式之间的关系,相较于其他方法只考虑了特征实现自监督学习,本发明方法可以显著提高自监督模型建模视觉关系的能力,从而提高自监督模型的特征表达能力,基于该方法训练得到的模型可以作为多种视觉任务的预训练模型,同时提升准确性。
实施例二
本实施例提供一种基于多维度关系建模的视觉Transformer自监督学习系统,包括:
样本数据获取模块,用于获取待训练图像样本数据;
特征提取模块,用于对待训练图像样本数据进行预处理得到每张图像对应的不同视图并提取得到对应视图的特征图;
自监督学习模块,用于基于每张图像对应的不同视图的特征图和Transformer网络进行自监督学习得到语义特征;其中,所述自监督学习的过程包括:
基于不同视图的特征图,通过点积计算得到所有视图在通道维度上的自关系矩阵,将每张视图的特征图沿着通道维度划分为多个子集,通过点乘计算每个子特征图上像素之间在空间维度上的自关系矩阵;
将通道维度上和空间维度上的自关系矩阵的自关系矩阵的差异作为损失函数,通过损失函数的梯度更新Transformer网络的参数。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,包括如下步骤:
对待训练图像样本数据进行预处理得到每张图像对应的不同视图并提取得到对应视图的特征图;
基于每张图像对应的不同视图的特征图和Transformer网络进行自监督学习得到语义特征;其中,所述自监督学习的过程包括:
基于不同视图的特征图,通过点积计算得到所有视图在通道维度上的自关系矩阵,将每张视图的特征图沿着通道维度划分为多个子集,通过点乘计算每个子特征图上像素之间在空间维度上的自关系矩阵;
将通道维度上和空间维度上的自关系矩阵的差异作为损失函数,通过损失函数的梯度更新Transformer网络的参数。
2.如权利要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,所述将通道维度上和空间维度上的自关系矩阵的差异,通过损失函数的梯度更新学生网络和教师网络的参数包括:
基于通道维度上和空间维度上的自关系矩阵,分别利用交叉熵损失函数计算通道维度上和空间维度上自关系矩阵的差异得到对应的损失函数;
将损失函数作为梯度利用反向传播更新学生网络的参数;
按照学生网络的参数动量更新得到教师网络的参数。
3.如权利要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,每张图像对应的不同视图通过采用教师网络和学生网络进行特征提取得到对应视图的特征图表示为:
z1=S(x1)
z2=T(x2)
其中,S表示学生网络,T表示教师网络,x1和x2表示不同的视图。
4.如权利要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,在获取待训练图像样本数据后,对数据进行预处理,分别将每张图像分别采用不同的图像变换方法进行随机变换处理,得到每张图像对应的不同视图。
5.如权利要求3所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,分别采用教师网络和学生网络进行特征提取得到对应视图的特征图,其中,学生网络提取的特征图采用卷积层、归一化层和激活层进一步处理。
6.如权利要求2所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,所述分别利用交叉熵损失函数计算通道维度上和空间维度上自关系矩阵的差异得到对应的损失函数中:
通道维度上的损失函数为:
Figure FDA0003685599510000021
式中,
Figure FDA0003685599510000022
表示第一视图通道维度上像素i和像素j之间的关系,
Figure FDA0003685599510000023
表示第二视图通道维度上像素i和像素j之间的关系;
空间维度上的损失函数为:
Figure FDA0003685599510000024
式中,
Figure FDA0003685599510000025
表示第一视图空间维度上像素i和像素j之间的关系,
Figure FDA0003685599510000026
表示第二视图空间维度上像素i和像素j之间的关系。
7.如权利要求2所述的一种基于多维度关系建模的视觉Transformer自监督学习方法,其特征在于,所述将损失函数作为梯度利用反向传播更新学生网络的参数的表达式为:
Figure FDA0003685599510000031
其中,
Figure FDA0003685599510000032
是时刻t的学生网络参数,
Figure FDA0003685599510000033
是损失函数关于网络参数的导数即梯度,α是学习率,
Figure FDA0003685599510000034
表示更新后的模型的参数;
所述按照学生网络的参数动量更新得到教师网络的参数的表达式为:
Figure FDA0003685599510000035
其中,m表示动量,
Figure FDA0003685599510000036
是时刻t的教师网络参数。
8.一种基于多维度关系建模的视觉Transformer自监督学习系统,其特征在于,包括:
特征提取模块,用于对待训练图像样本数据进行预处理得到每张图像对应的不同视图并提取得到对应视图的特征图;
自监督学习模块,用于基于每张图像对应的不同视图的特征图和Transformer网络进行自监督学习得到语义特征;其中,所述自监督学习的过程包括:
基于不同视图的特征图,通过点积计算得到所有视图在通道维度上的自关系矩阵,将每张视图的特征图沿着通道维度划分为多个子集,通过点乘计算每个子特征图上像素之间在空间维度上的自关系矩阵;
将通道维度上和空间维度上的自关系矩阵的自关系矩阵的差异作为损失函数,通过损失函数的梯度更新Transformer网络的参数。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。
CN202210645115.0A 2022-06-09 2022-06-09 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统 Pending CN115424288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210645115.0A CN115424288A (zh) 2022-06-09 2022-06-09 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210645115.0A CN115424288A (zh) 2022-06-09 2022-06-09 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统

Publications (1)

Publication Number Publication Date
CN115424288A true CN115424288A (zh) 2022-12-02

Family

ID=84195982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210645115.0A Pending CN115424288A (zh) 2022-06-09 2022-06-09 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统

Country Status (1)

Country Link
CN (1) CN115424288A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908955A (zh) * 2023-03-06 2023-04-04 之江实验室 基于梯度蒸馏的少样本学习的鸟类分类系统、方法与装置
CN117197843A (zh) * 2023-11-06 2023-12-08 中国科学院自动化研究所 无监督的人体部件区域确定方法及装置
CN118379502A (zh) * 2024-06-24 2024-07-23 南京邮电大学 基于空间视觉和统计关系蒸馏的持续语义分割方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908955A (zh) * 2023-03-06 2023-04-04 之江实验室 基于梯度蒸馏的少样本学习的鸟类分类系统、方法与装置
CN117197843A (zh) * 2023-11-06 2023-12-08 中国科学院自动化研究所 无监督的人体部件区域确定方法及装置
CN117197843B (zh) * 2023-11-06 2024-02-02 中国科学院自动化研究所 无监督的人体部件区域确定方法及装置
CN118379502A (zh) * 2024-06-24 2024-07-23 南京邮电大学 基于空间视觉和统计关系蒸馏的持续语义分割方法及系统

Similar Documents

Publication Publication Date Title
CN115424288A (zh) 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统
CN112241762B (zh) 一种用于病虫害图像分类的细粒度识别方法
CN108154133B (zh) 基于非对称联合学习的人脸画像-照片识别方法
CN113378937B (zh) 一种基于自监督增强的小样本图像分类方法及系统
CN111241933A (zh) 一种基于通用对抗扰动的养猪场目标识别方法
CN113936295A (zh) 基于迁移学习的人物检测方法和系统
CN110188750A (zh) 一种基于深度学习的自然场景图片文字识别方法
CN113223037A (zh) 一种面向大规模数据的无监督语义分割方法及系统
CN112270404A (zh) 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法
CN116935438A (zh) 一种基于模型结构自主进化的行人图像重识别方法
CN106650629A (zh) 一种基于核稀疏表示的快速遥感目标检测识别方法
CN116452418A (zh) 低分辨率图像目标识别的方法、装置及系统
CN106157291B (zh) 识别重复纹理的方法和装置
CN114841287A (zh) 分类模型的训练方法、图像分类方法及装置
CN108596167B (zh) 一种变长光学字符文字快速识别系统及方法、装置
CN113409327A (zh) 一种基于排序与语义一致性约束的实例分割改进方法
CN115880524B (zh) 基于马氏距离损失特征注意力网络的小样本图像分类方法
CN117237984B (zh) 基于标签一致性的mt腿部识别方法、系统、介质和设备
CN117593755B (zh) 一种基于骨架模型预训练的金文图像识别方法和系统
CN116563170B (zh) 一种图像数据处理方法、系统以及电子设备
CN112115949B (zh) 一种烟草证件以及订单的光学文字识别方法
CN114154512A (zh) 小样本学习处理方法、装置、设备及存储介质
CN112364892B (zh) 一种基于动态模型的图像识别方法及装置
CN113505783B (zh) 基于少次学习的甲骨文单字识别方法和装置
Zhang et al. Adaptive Destruction Learning for Fine-grained Visual Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination