CN115311504A - 一种基于注意力重定位的弱监督定位方法和装置 - Google Patents

一种基于注意力重定位的弱监督定位方法和装置 Download PDF

Info

Publication number
CN115311504A
CN115311504A CN202211236327.XA CN202211236327A CN115311504A CN 115311504 A CN115311504 A CN 115311504A CN 202211236327 A CN202211236327 A CN 202211236327A CN 115311504 A CN115311504 A CN 115311504A
Authority
CN
China
Prior art keywords
layer
image
classification
repositioning
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211236327.XA
Other languages
English (en)
Other versions
CN115311504B (zh
Inventor
苏慧
卢修生
叶越
王瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211236327.XA priority Critical patent/CN115311504B/zh
Publication of CN115311504A publication Critical patent/CN115311504A/zh
Application granted granted Critical
Publication of CN115311504B publication Critical patent/CN115311504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明公开了一种基于注意力重定位的弱监督定位方法和装置,将图像切分成图像块并线性投影映射成局部表征,利用网络中第一层至倒数第二层的transformer层的自注意力机制构建类别关联向量;对类别关联向量进行排序和积分图操作,构建重定位二值矩阵;构建掩码transformer层,局部表征输入掩码transformer层中获得分类权重向量;基于分类权重向量对局部表征实现加权和操作,将类别表征和加权和结果一并送入最后一层transformer层;训练过程中,对最后一层transformer层的输出类别表征和图像类别标签构建交叉熵损失函数,进行训练。测试过程中融合类别关联向量和分类权重向量,获得目标检测框信息,实现目标定位。相较于现有技术,本发明充分发挥transformer长程依赖能力,目标定位能力更优。

Description

一种基于注意力重定位的弱监督定位方法和装置
技术领域
本发明涉及图像目标检测技术领域,特别涉及一种基于注意力重定位的弱监督定位方法和装置。
背景技术
弱监督目标定位是指利用图像级别的标签(如图像类别)对网络模型进行分类训练,实现模型目标定位功能的一类方法。虽然目前最优的目标定位方法依旧是采用全监督训练方法,但是全监督方法的训练数据需要大量的物体目标框标注信息,密集标注图像中所有目标位置信息势必大大增加人力和时间成本。而弱监督定位方法仅仅只需要标注图像整体类别的训练数据,人力和时间成本上的优势导致近年来弱监督定位方法获得了广泛的关注。
弱监督定位方法大多是基于类激活热力图(class activation map)方法展开。类激活热力图仅强调了图像目标中最具有判别性的区域,难以包含目标全貌,由此引出了需要改进方法,如对抗性擦除方法(adversarial erasing)、发散激活(divergentactivation)、多任务关联训练等等,然而这类方法虽然引导网络关注判别性次优的区域,但是大多只是缓解类激活热力图仅检测目标局部的问题,因为卷积神经网络特征局部关联难以捕捉全局的固有特点,类激活热力图方法的缺陷依旧存在。近年来随着transformer网络结构在计算机视觉领域的广泛应用,如何利用transformer结构中的长程依赖能力实现更好的弱监督定位,也有了初步研究,如TS-CAM(《TS-CAM: Token Semantic CoupledAttention Map forWeakly Supervised Object Localization》)融合transformer和类激活热力图结构,但是该方法虽然能定位到更完整的目标,依旧未充分发挥transformer的长程能力。
发明内容
本发明的目的在于提供一种基于注意力重定位的弱监督定位方法和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本申请公开了一种基于注意力重定位的弱监督定位方法,包括以下步骤:
S1、构建图像分类数据集;所述图像分类数据集中包括训练集和测试集;所述训练集由图像和分类标签组成;
S2、调整图像分类数据集中的图像的宽和高,将图像不交叠地切分成若干个图像块;将图像块进行线性投影映射成局部表征;构建类别表征,将局部表征和类别表征共同送入Deit网络;所述Deit网络中共有L层transformer层;
S3、通过Deit网络中第一层至第L-1层transformer层逐层利用自注意力机制构建类别表征与局部表征之间的关联信息,生成类别关联向量;
S4、对所有类别关联向量进行累加融合,并对融合结果进行从大到小排序,基于排序结果构建积分图;
S5、基于积分图构建重定位二值矩阵,对第L-1层transformer层输出的局部表征是否需要重定位进行判断;
S6、基于重定位二值矩阵,构建掩码transformer层;
S7、将L-1层transformer层输出的局部表征送入掩码transformer层中,再进行线性投影映射和指数归一化操作,生成分类权重向量;
S8、对于训练集的图像,利用分类权重向量,对第L-1层transformer层输出的局部表征进行加权和操作,将加权和结果与第L-1层transformer层输出的分类表征一同送入第L层transformer层中;
S9、对第L层transformer层输出的分类表征进行线性投影映射,生成图像分类结果,基于图像分类结果和图像分类标签构建交叉熵损失,训练Deit网络;
S10、对于测试集的图像,融合S3中的类别关联向量和S7中的分类权重向量,生成激活矩阵,设置阈值,令激活矩阵中值大于阈值的置255,小于阈值的置0,生成二值图,基于二值图,建立等级树结构,获取矩形框信息,实现目标定位功能。
作为优选,步骤S2具体包括如下子步骤:
S21、调整图像分类数据集中的图像的宽和高均为224;
S22、将调整好的图像不交叠地切分成196个16*16的图像块;
S23、对图像块进行线性投影映射成局部表征;
S24、构建分类表征,将分类表征和所有局部表征拼接在一起,生成全局表征;
S25、构建可学习位置编码,对全局表征和可学习位置编码求和,将求和结果送入Deit网络。
作为优选,步骤S2中的Deit网络采用Deit-B_16,共有12层transformer层。
作为优选,步骤S1中的图像分类数据集采用包含若干个类别的自然图像。
作为优选,步骤S10中阈值为0.1,令激活矩阵中值大于阈值的置255,小于阈值的置0,由此生成二值图
一种基于注意力重定位的弱监督定位装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于上述的一种基于注意力重定位的弱监督定位方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的一种基于注意力重定位的弱监督定位方法。
本发明的有益效果:
本发明公开了一种基于注意力重定位的弱监督定位方法和装置,将图像切分成图像块并线性投影映射成局部表征,送入Deit网络结构中。利用Deit网络中第一层至倒数第二层的transformer层的自注意力机制构建类别表征和局部表征之间的关联关系,生成类别关联向量。对类别关联向量进行排序和积分图操作,基于关联阈值构建重定位二值矩阵。利用重定位二值矩阵构建掩码transformer层,局部表征输入掩码transformer层中获得分类权重向量。基于分类权重向量对局部表征实现加权和操作,将类别表征和加权和结果一并送入最后一层transformer层。训练过程中,对最后一层transformer层的输出类别表征和图像类别标签构建交叉熵损失函数,进行分类训练。测试过程中融合类别关联向量和分类权重向量,获得目标检测框信息,实现目标定位。相较于以往的弱监督定位方法,本发明方法充分发挥transformer长程依赖能力,目标定位能力更优。
本发明的特征及优点将通过实施例结合附图进行详细说明。
附图说明
图1为本发明一种基于注意力重定位的弱监督定位方法的流程图
图2为本发明的检测定位结果图;
图3是本发明一种基于注意力重定位的弱监督定位装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明一种基于注意力重定位的弱监督定位方法,具体过程如下:
步骤S1:构建包含鸟类、动物、植物、人等1000个类别的自然图像分类数据集共120多万张,其中训练集120万张,测试集5万张。(ImageNet-1k公开数据集);
步骤S2:给定宽、高都为224的RGB图像,将图像不交叠地切分成196(14*14)个宽、高都为16的图像块,这些图像块进行线性投影映射成局部表征(part token)。 构建类别表征(class token),将局部表征和类别表征共同送入Deit网络(本发明中选择Deit-B_16,共L=12层transformer层);
步骤S3:第1层至第L-1层transformer层逐层利用自注意力机制构建类别表征和局部表征之间的关联信息,生成类别关联向量;
步骤S4:对所有类别关联向量进行累加融合,并对融合结果进行从大到小排序,基于排序结果构建积分图;
步骤S5:设置关联阈值,基于积分图构建重定位二值矩阵,对第L-1层transformer层输出的局部表征是否需要重定位进行判断:
步骤S6:基于重定位二值矩阵,构建掩码transformer层;
步骤S7:第L-1层transformer输出的局部表征送入掩码transformer层中,输出结果进行线性投影映射和指数归一化操作,生成分类权重向量;
步骤S8:利用分类权重向量,对第L-1层transformer输出的局部表征进行加权和操作,将第L-1层transformer层输出的分类表征和加权和结果一同送入第L层transformer层中。
步骤S9:对第L层transformer层输出的分类表征进行线性投影映射(linearprojection mapping)操作,生成图像分类结果。基于分类结果和图像分类标签构建交叉熵损失,训练网络。
步骤S10:测试过程中,融合类别关联向量和分类权重向量,生成激活矩阵。构建阈值,激活矩阵中值大于阈值的置255,小于阈值的置0,由此生成二值图。基于二值图,建立等级树结构,获取矩形框信息,从而实现目标定位功能。
在一种可行的实施例中,所述步骤S1中,给定
Figure DEST_PATH_IMAGE001
个样本和
Figure 1766DEST_PATH_IMAGE002
个类别的自然图像分类数据
Figure DEST_PATH_IMAGE003
Figure 981224DEST_PATH_IMAGE004
为样本,
Figure DEST_PATH_IMAGE005
为属性分类标签。
在一种可行的实施例中,所述步骤S2中,给定宽、高都为224的RGB图像,将图像等分切成196(14*14)个相同尺寸(16*16)的不重叠图像块,并对图像块做线性投影映射,生成维度
Figure 105169DEST_PATH_IMAGE006
为局部表征。构建可学习分类表征,将分类表征(class token)和所有局部表征(patch token)拼接一起,生成全局表征。构建可学习位置编码(learnable positionembedding),对全局表征和可学习位置编码求和,将求和结果送入Deit-B-16网络中:
Figure DEST_PATH_IMAGE007
(1)
其中,
Figure 719952DEST_PATH_IMAGE008
表示输入Deit-B-16网络的全局表征,
Figure DEST_PATH_IMAGE009
共有
Figure 862220DEST_PATH_IMAGE010
个序列,每个序列特征维度为
Figure DEST_PATH_IMAGE011
(1个分类表征和M个局部表征)。
Figure 294470DEST_PATH_IMAGE012
表示分类表征,
Figure DEST_PATH_IMAGE013
表示线性投影映射操作,
Figure 905711DEST_PATH_IMAGE014
表示第 i个图像块, M表示图像块数目, P表示可学习位置编码。
在一种可行的实施例中,所述步骤S3中,对Deit-B-16网络进行从第1层到第L-1层逐transformer层做多头自注意力机制(multi-head self-attention MHSA), 构建每一层类别表征和局部表征之间的关联信息,生成类别关联向量。
一个完整的transformer层公式如下:
Figure DEST_PATH_IMAGE015
(2)
Figure 370190DEST_PATH_IMAGE016
(3)
Figure DEST_PATH_IMAGE017
(4)
Figure 55381DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
Figure 14458DEST_PATH_IMAGE020
(7)
Figure DEST_PATH_IMAGE021
(8)
其中
Figure 96683DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
Figure 115586DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
Figure 701288DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
分别表示宽、高都为D的可学习编码矩阵,
Figure 6499DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
Figure 61173DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
Figure 133035DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
分别表示长度为D的可学习编码向量。
Figure 855134DEST_PATH_IMAGE034
表示矩阵外积运算。
Figure DEST_PATH_IMAGE035
表示第
Figure 347558DEST_PATH_IMAGE036
层transformer层的输出全局表征结果,
Figure DEST_PATH_IMAGE037
表示第
Figure 279742DEST_PATH_IMAGE038
层transformer层的输出全局表征结果。
Figure DEST_PATH_IMAGE039
Figure 30660DEST_PATH_IMAGE040
分别有M+1个序列,每个序列特征D 维。
Figure DEST_PATH_IMAGE041
表示全局表征
Figure 590954DEST_PATH_IMAGE042
的自注意关联矩阵,
Figure DEST_PATH_IMAGE043
表示自注意关联矩阵的指数归一化结果,即归一化自注意关联矩阵,宽、高都为 M+1。
Figure 519858DEST_PATH_IMAGE044
层transformer层的类别关联向量公式如下:
Figure DEST_PATH_IMAGE045
(9)
其中
Figure 798393DEST_PATH_IMAGE046
表示第
Figure 556264DEST_PATH_IMAGE038
层transformer层的类别关联向量,长度为 M。
在一种可行的实施例中,所述步骤S4中,对所有类别关联向量进行累加融合,并对融合结果进行从大到小排序,基于排序结果构建积分图;
Figure DEST_PATH_IMAGE047
(10)
Figure 987377DEST_PATH_IMAGE048
(11)
其中
Figure DEST_PATH_IMAGE049
表示向量
Figure DEST_PATH_IMAGE051
中第
Figure 726663DEST_PATH_IMAGE052
大的值;
Figure DEST_PATH_IMAGE053
表示一行
Figure DEST_PATH_IMAGE055
列的积分图,
Figure 712067DEST_PATH_IMAGE056
表示
Figure DEST_PATH_IMAGE057
的第
Figure 460581DEST_PATH_IMAGE058
列的值。
在一种可行的实施例中,所述步骤S5中,设置关联阈值,基于积分图构建重定位二值矩阵,对L-1层transformer层输出的局部表征是否需要重定位进行判断:
Figure DEST_PATH_IMAGE059
Figure 11779DEST_PATH_IMAGE060
其中 i表示类别关联向量
Figure DEST_PATH_IMAGE061
中第
Figure 187545DEST_PATH_IMAGE062
大的值在
Figure 847197DEST_PATH_IMAGE064
中的列系数值;
Figure DEST_PATH_IMAGE065
表示关联阈值;
Figure 138414DEST_PATH_IMAGE066
长度为
Figure DEST_PATH_IMAGE067
,表示局部表征是否需要进行重定位的二值向量,
Figure 403174DEST_PATH_IMAGE068
表示
Figure DEST_PATH_IMAGE069
的第i个局部表征需要进行重定位操作,
Figure 749841DEST_PATH_IMAGE070
表示
Figure DEST_PATH_IMAGE071
的第 i个局部表征不进行重定位操作。
Figure 240997DEST_PATH_IMAGE072
表示点乘操作, I表示M行M列的单位矩阵, B表示重定位二值矩阵。
在一种可行的实施例中,所述步骤S6中,基于重定位二值矩阵,将步骤S3中完整transformer结构中的公式(6)用下式(14)替换,其他保留不变,构建掩码transformer层。
Figure DEST_PATH_IMAGE073
其中
Figure 596892DEST_PATH_IMAGE074
表示掩码transformer层的自注意关联矩阵,
Figure DEST_PATH_IMAGE075
表示掩码transformer层的归一化自注意关联矩阵。
在一种可行的实施例中,所述步骤S7中,将第L-1层transformer层的输出
Figure 857103DEST_PATH_IMAGE076
的局部表征送入掩码transformer层中,输出结果进行线性投影映射和指数归一化操作,生成分类权重向量:
Figure DEST_PATH_IMAGE077
Figure 250038DEST_PATH_IMAGE078
其中
Figure DEST_PATH_IMAGE079
表示掩码transformer的输出局部表征,M行 D列。
Figure 477757DEST_PATH_IMAGE080
表示 D行1列的可学习编码矩阵,
Figure DEST_PATH_IMAGE081
表示1行1列的可学习编码向量,
Figure 122496DEST_PATH_IMAGE082
表示M行1列的线性投影映射结果。
Figure DEST_PATH_IMAGE083
表示 M行1列的分类权重向量。
在一种可行的实施例中,所述步骤S8中,利用类权重向量
Figure 752061DEST_PATH_IMAGE084
,对
Figure DEST_PATH_IMAGE085
的局部表征进行加权和操作,将第L-1层transformer层输出的分类表征
Figure 315897DEST_PATH_IMAGE086
和加权和结果一同送入第L层transformer层中。
Figure 312803DEST_PATH_IMAGE087
其中
Figure DEST_PATH_IMAGE088
表示
Figure DEST_PATH_IMAGE089
的第 K个局部表征序列,
Figure DEST_PATH_IMAGE090
表示局部表征的加权和结果。
在一种可行的实施例中,所述步骤S9中,对第L层transformer层输出的分类表征进行线性投影映射(linear projection mapping)操作,生成图像分类结果。基于分类结果和图像分类标签构建交叉熵损失,训练网络。
Figure DEST_PATH_IMAGE091
Figure DEST_PATH_IMAGE092
其中
Figure DEST_PATH_IMAGE093
表示第L层transformer层输出的分类表征
Figure DEST_PATH_IMAGE094
表征外积操作,
Figure 89129DEST_PATH_IMAGE095
表示D 行 C 列的可学习编码矩阵,
Figure DEST_PATH_IMAGE096
表示1行C 列的可学习矩编码向量, P表示长度为 C 的分类向量。
Figure 58353DEST_PATH_IMAGE097
表示交叉熵损失函数, y表示图像分类标签, y表示 y的独热编码形式。
在一种可行的实施例中,所述步骤10中,测试过程中,融合步骤S4的类别关联向量和步骤S5的分类权重向量,生成激活矩阵。调整激活矩阵至与原图一样大小后,构建阈值
Figure DEST_PATH_IMAGE098
,激活矩阵中值大于阈值的置255,小于阈值的置0,由此生成二值图。基于二值图,建立等级树结构,获取矩形轮廓信息(python中的cv2.findContours函数),从而实现目标定位功能。
Figure 183304DEST_PATH_IMAGE099
Figure 260982DEST_PATH_IMAGE100
其中
Figure DEST_PATH_IMAGE101
表示长度为 M的类别关联向量, b表示长度为 M的重定位二值向量,
Figure 247523DEST_PATH_IMAGE102
表示b的转置,
Figure DEST_PATH_IMAGE103
表示分类权重向量。
Figure 586101DEST_PATH_IMAGE104
表示矩阵形状改变操作,将长度为M的向量m,变化为
Figure DEST_PATH_IMAGE105
Figure 367106DEST_PATH_IMAGE106
列的激活矩阵
Figure DEST_PATH_IMAGE107
本发明的方法使用Pytorch框架进行实验,在自然图像数据上使用初始学习率为0.0005的AdamW优化器,训练过程中,图像尺寸调整至256*256,在随机裁剪至224*224大小,训练过程使用4个gpu,每个gpu的batch size设置为512,训练12个epoch。本发明所有实验加载Deit-B_16预训练模型训练。
图2是本发明检测定位结果图,图中灰色框为标注检测框,白色框为本发明模型得到的测试检测框,右上角的数字标注标注检测框和测试检测框之间的矩形框交并比(IOU)信息,值越大说明定位效果越好。
本发明一种基于注意力重定位的弱监督定位装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明一种基于注意力重定位的弱监督定位装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于注意力重定位的弱监督定位装置。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于注意力重定位的弱监督定位方法,其特征在于,包括以下步骤:
S1、构建图像分类数据集;所述图像分类数据集中包括训练集和测试集;所述训练集由图像和分类标签组成;
S2、调整图像分类数据集中的图像的宽和高,将图像不交叠地切分成若干个图像块;将图像块进行线性投影映射成局部表征;构建类别表征,将局部表征和类别表征共同送入Deit网络;所述Deit网络中共有L层transformer层;
S3、通过Deit网络中第一层至第L-1层transformer层逐层利用自注意力机制构建类别表征与局部表征之间的关联信息,生成类别关联向量;
S4、对所有类别关联向量进行累加融合,并对融合结果进行从大到小排序,基于排序结果构建积分图;
S5、基于积分图构建重定位二值矩阵,对第L-1层transformer层输出的局部表征是否需要重定位进行判断;
S6、基于重定位二值矩阵,构建掩码transformer层;
S7、将L-1层transformer层输出的局部表征送入掩码transformer层中,再进行线性投影映射和指数归一化操作,生成分类权重向量;
S8、对于训练集的图像,利用分类权重向量,对第L-1层transformer层输出的局部表征进行加权和操作,将加权和结果与第L-1层transformer层输出的分类表征一同送入第L层transformer层中;
S9、对第L层transformer层输出的分类表征进行线性投影映射,生成图像分类结果,基于图像分类结果和图像分类标签构建交叉熵损失,训练Deit网络;
S10、对于测试集的图像,融合S3中的类别关联向量和S7中的分类权重向量,生成激活矩阵,设置阈值,根据激活矩阵中值与阈值之间的关系,生成二值图,基于二值图,建立等级树结构,获取矩形框信息,实现目标定位功能。
2.如权利要求1所述的一种基于注意力重定位的弱监督定位方法,其特征在于,步骤S2具体包括如下子步骤:
S21、调整图像分类数据集中的图像的宽和高均为224;
S22、将调整好的图像不交叠地切分成196个16*16的图像块;
S23、对图像块进行线性投影映射成局部表征;
S24、构建分类表征,将分类表征和所有局部表征拼接在一起,生成全局表征;
S25、构建可学习位置编码,对全局表征和可学习位置编码求和,将求和结果送入Deit网络。
3.如权利要求1所述的一种基于注意力重定位的弱监督定位方法,其特征在于,步骤S2中的Deit网络采用Deit-B_16,共有12层transformer层。
4.如权利要求1所述的一种基于注意力重定位的弱监督定位方法,其特征在于,步骤S1中的图像分类数据集采用包含若干个类别的自然图像。
5.如权利要求1所述的一种基于注意力重定位的弱监督定位方法,其特征在于,步骤S10中阈值为0.1,令激活矩阵中值大于阈值的置255,小于阈值的置0,由此生成二值图。
6.一种基于注意力重定位的弱监督定位装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-5任一项所述的一种基于注意力重定位的弱监督定位方法。
7.一种计算机可读存储介质,其特征在于:其上存储有程序,该程序被处理器执行时,实现权利要求1-5任一项所述的一种基于注意力重定位的弱监督定位方法。
CN202211236327.XA 2022-10-10 2022-10-10 一种基于注意力重定位的弱监督定位方法和装置 Active CN115311504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211236327.XA CN115311504B (zh) 2022-10-10 2022-10-10 一种基于注意力重定位的弱监督定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211236327.XA CN115311504B (zh) 2022-10-10 2022-10-10 一种基于注意力重定位的弱监督定位方法和装置

Publications (2)

Publication Number Publication Date
CN115311504A true CN115311504A (zh) 2022-11-08
CN115311504B CN115311504B (zh) 2023-01-31

Family

ID=83867873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211236327.XA Active CN115311504B (zh) 2022-10-10 2022-10-10 一种基于注意力重定位的弱监督定位方法和装置

Country Status (1)

Country Link
CN (1) CN115311504B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152575A (zh) * 2023-04-18 2023-05-23 之江实验室 基于类激活采样引导的弱监督目标定位方法、装置和介质
CN116664839A (zh) * 2023-05-31 2023-08-29 博衍科技(珠海)有限公司 一种弱监督半监督缺陷感知分割方法、装置及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200356854A1 (en) * 2017-11-03 2020-11-12 Siemens Aktiengesellschaft Weakly-supervised semantic segmentation with self-guidance
JP2021184169A (ja) * 2020-05-21 2021-12-02 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN113887653A (zh) * 2021-10-20 2022-01-04 西安交通大学 一种基于三元网络的紧耦合弱监督学习的定位方法及系统
CN114283152A (zh) * 2021-08-18 2022-04-05 腾讯科技(深圳)有限公司 图像处理、图像处理模型的训练方法、装置、设备及介质
US20220108169A1 (en) * 2020-10-02 2022-04-07 Salesforce.Com, Inc. Systems and methods for numerical reasoning by a partially supervised numeric reasoning module network
CN114332544A (zh) * 2022-03-14 2022-04-12 之江实验室 一种基于图像块评分的细粒度图像分类方法和装置
CN114462559A (zh) * 2022-04-14 2022-05-10 中国科学技术大学 目标定位模型训练方法、目标定位方法及装置
CN114494791A (zh) * 2022-04-06 2022-05-13 之江实验室 一种基于注意力选择的transformer运算精简方法及装置
CN114596471A (zh) * 2022-02-23 2022-06-07 中山大学 基于浅层特征背景抑制的弱监督目标定位方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200356854A1 (en) * 2017-11-03 2020-11-12 Siemens Aktiengesellschaft Weakly-supervised semantic segmentation with self-guidance
JP2021184169A (ja) * 2020-05-21 2021-12-02 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US20220108169A1 (en) * 2020-10-02 2022-04-07 Salesforce.Com, Inc. Systems and methods for numerical reasoning by a partially supervised numeric reasoning module network
CN114283152A (zh) * 2021-08-18 2022-04-05 腾讯科技(深圳)有限公司 图像处理、图像处理模型的训练方法、装置、设备及介质
CN113887653A (zh) * 2021-10-20 2022-01-04 西安交通大学 一种基于三元网络的紧耦合弱监督学习的定位方法及系统
CN114596471A (zh) * 2022-02-23 2022-06-07 中山大学 基于浅层特征背景抑制的弱监督目标定位方法及装置
CN114332544A (zh) * 2022-03-14 2022-04-12 之江实验室 一种基于图像块评分的细粒度图像分类方法和装置
CN114494791A (zh) * 2022-04-06 2022-05-13 之江实验室 一种基于注意力选择的transformer运算精简方法及装置
CN114462559A (zh) * 2022-04-14 2022-05-10 中国科学技术大学 目标定位模型训练方法、目标定位方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI GAO等: "TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
刘文婷等: "基于计算机视觉的Transformer研究进展", 《计算机工程与应用》 *
李文书等: "基于注意力机制的弱监督细粒度图像分类", 《计算机系统应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152575A (zh) * 2023-04-18 2023-05-23 之江实验室 基于类激活采样引导的弱监督目标定位方法、装置和介质
CN116664839A (zh) * 2023-05-31 2023-08-29 博衍科技(珠海)有限公司 一种弱监督半监督缺陷感知分割方法、装置及电子设备
CN116664839B (zh) * 2023-05-31 2024-02-13 博衍科技(珠海)有限公司 一种弱监督半监督缺陷感知分割方法、装置及电子设备

Also Published As

Publication number Publication date
CN115311504B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN115311504B (zh) 一种基于注意力重定位的弱监督定位方法和装置
US11256960B2 (en) Panoptic segmentation
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
WO2019213459A1 (en) System and method for generating image landmarks
CN113378600B (zh) 一种行为识别方法及系统
CN112164002B (zh) 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN112307982B (zh) 基于交错增强注意力网络的人体行为识别方法
WO2023024406A1 (zh) 数据蒸馏的方法、装置、设备、存储介质、计算机程序及产品
CN110569814A (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
JP7357176B1 (ja) 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置
CN112183602B (zh) 一种带有并行卷积块的多层特征融合细粒度图像分类方法
CN109492610A (zh) 一种行人重识别方法、装置及可读存储介质
CN114676777A (zh) 一种基于孪生网络的自监督学习细粒度图像分类方法
CN114549913A (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
WO2023068953A1 (en) Attention-based method for deep point cloud compression
CN117315752A (zh) 人脸情绪识别网络模型的训练方法、装置、设备和介质
CN111967408A (zh) 基于“预测-恢复-识别”的低分辨率行人重识别方法及系统
CN115082840B (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
CN116012662A (zh) 特征编解码方法、编解码器的训练方法、设备和介质
CN111539263B (zh) 一种基于聚合对抗网络的视频人脸识别方法
CN112396063A (zh) 一种基于聚集激励上下文金字塔的人像语义解析方法
CN116452600B (zh) 实例分割方法、系统、模型训练方法、介质及电子设备
CN114049634B (zh) 一种图像识别方法、装置、计算机设备和存储介质
Jasti Multi-frame Video Prediction with Learnable Temporal Motion Encodings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant