CN114676776A - 一种基于Transformer的细粒度图像分类方法 - Google Patents
一种基于Transformer的细粒度图像分类方法 Download PDFInfo
- Publication number
- CN114676776A CN114676776A CN202210305985.3A CN202210305985A CN114676776A CN 114676776 A CN114676776 A CN 114676776A CN 202210305985 A CN202210305985 A CN 202210305985A CN 114676776 A CN114676776 A CN 114676776A
- Authority
- CN
- China
- Prior art keywords
- token
- classification
- image
- encoder
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 230000000007 visual effect Effects 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims 5
- 238000010606 normalization Methods 0.000 claims 2
- 238000000605 extraction Methods 0.000 claims 1
- 238000005192 partition Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Transformer的细粒度图像分类方法。本方法为:1)将样本图像输入线性映射和编码器层中提取多层令牌特征;2)通过令牌特征选择模块作用于编码器提取的多层令牌特征;3)通过语义部件生成模块作用于第一层令牌特征,获取包含辨识性视觉图案的局部区域,利用局部分支学习该区域内对象的细节信息;4)将两个分支的分类令牌交换,编码器作用于交换后的分类令牌与当前分支的图像块令牌,融合全局分支提取的图像完整信息与局部分支获取的关键区域的细节信息;5)通过中心损失函数约束细粒度对象类内特征距离,间接地增大类间特征距离;6)连接两个分支的分类令牌,输入到分类器,从而实现对输入图像的分类。
Description
技术领域
本发明涉及图像分类技术领域,具体涉及细粒度图像分类,尤其涉及基于Transformer的细粒度图像分类方法。
背景技术
细粒度图像分类是一项具有实际意义的、并且有挑战性的计算机视觉任务,它的目的是识别同一类别下的不同子类别。近年来,随着深度学习以及人工智能技术的飞速发展,该任务得到了极大的推动,在病毒识别、商品零售、库存管理以及自动驾驶等领域均获得广泛应用。许多工作采用卷积神经网络来学习图像中的具有可区分度的特征,但卷积神经网络受制于卷积核的大小,无法构建整张图像的语义信息,因此细粒度图像分类任务的准确度提升遇到了瓶颈。视觉Transformer的诞生,彻底打破了这一限制,大幅提升了该任务的分类准确度。它将图像序列化成类似自然语言处理任务中的令牌,通过构建令牌间的关系,完成计算机视觉的各项任务。不同于卷积神经网络仅能构建相邻区域像素的关系,视觉Transformer通过图建模机制,拥有更加强健的构建图像全局表征的能力,但将Transformer迁移至细粒度图像分类任务还存在一些问题。首先,Transformer具备强大的全局建模能力,势必导致它学习物体细节的能力差,而具有可区分度的细节特征对于正确识别细粒度图像类别至关重要。其次,随着Transformer结构层数的增加,整个网络提取到的特征过度平滑,导致网络无法捕捉多样性的辨识性特征。第三,忽略网络提取到的多粒度特征的融合,导致模型性能的损失。第四,没有考虑到细粒度图像分类的难点,即子类别间对象外观极其相似,特征差异较小;由于光照、姿态和遮挡等外界环境因素导致子类别内对象外观差异较大,特征相似性小。
发明内容
为了克服上述问题,本发明的目的在于提供一种基于Transformer的细粒度图像分类方法,及电子设备和存储介质。首先,从Transformer的编码器层中选取包含信息量最多的图像块令牌特征,组合成从低层到高层的多层次图像特征表示。其次,采用双分支架构,显示地学习细粒度区域内的具有可区分性的特征,增强模型捕捉细微差异的能力。第三,交换两个分支的分类令牌,融合全局和局部信息。第四,通过中心损失函数约束样本特征距离,从而缓解类内特征差距大,类间特征差异小的难点。我们的方法使得网络获得显著的性能增益,从而完成了本发明。
为了实现本发明的目的,本发明采用以下步骤:
1)将样本图像输入线性映射和编码器层中提取多层令牌特征{Z1,…,Zn-2};
2)通过令牌特征选择模块作用于编码器提取的多层令牌特征{Z1,…,Zn-2},以此获取对分类结果更有效的具有区分度的多层级特征;
3)通过语义部件生成模块作用于第一层令牌特征Z1,获取包含辨识性视觉图案的局部区域,利用局部分支学习该区域内对象的细节信息;
4)将两个分支的分类令牌交换,编码器作用于交换后的分类令牌与当前分支的图像块令牌,简单且有效地融合全局分支提取的图像完整信息与局部分支获取的关键区域的细节信息;
5)通过中心损失函数,进一步约束细粒度对象类内特征距离,间接地增大类间特征距离;
6)连接两个分支的分类令牌,输入到分类器,从而实现对输入图像的分类。
一种服务器,包括存储器和处理器,计算机程序存储在所述存储器中,所述处理器执行所述计算机程序,所述计算机程序包括用于执行上述方法中各步骤的指令。
一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述方法的步骤。
本发明所具有的有益效果包括:
1)本发明提出一种新的双分支Transformer模型,包含三个模块,分别为:令牌特征选择、语义部件生成和特征融合模块;
2)本发明提供的基于Transformer的细粒度图像分类方法,可以在细粒度图像分类算法的基线上获得显著的性能提升。特别地,在三个基准数据集(CUB-200-2011、NABirds和iNat2017)中,取得了当前最好的分类效果。
附图说明
图1为本发明实施例所述的基于Transformer的细粒度图像分类方法流程;
图2示出了本发明所述的基于Transformer的细粒度图像分类方法框架;
图3示出了编码器的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明做进一步的详细描述。所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
本发明所述的基于Transformer的细粒度图像分类方法包括以下步骤:
步骤S1:构建线性映射和编码器层,并在大规模分类数据集ImageNet上进行预训练,用于提取输入图像的多层级令牌特征{Z1,…,Zn-2},具体过程如下所示:
如图2所示,首先,线性映射将输入图像切分成N个图像块xp,通过隐层空间E,将图像块xp转换为图像块令牌xpE。接着,手动添加与图像块令牌xpE特征维度相同的的分类令牌分类令牌是Transformer结构中最重要的令牌,分类器对分类令牌进行分类,从而完成对输入图像的分类。最后,因为图像被序列化成一维序列,致使图中像素丢失空间位置信息。因此,额外添加一个位置特征向量Epos,从而保留图像块间的位置信息。输入编码器层1的令牌特征,如下所示:对应分类令牌,j=1,2…N分别对应N个图像块令牌。
接着,通过图3所示的编码器层,交互令牌间的有效信息,Transformer结构中每层编码器结构相同。每个编码器层由多头注意力机制和多层感知机构成,信息交互过程如下所示:编码器层w(w∈[1,n-2])的输入数据为编码器层(w-1)的输出Zw-1,输出数据为Zw。多头注意力机制(MSA)作用于经层正则化(LN)处理后的令牌特征Zw-1,实现令牌间的信息交互,残差连接作用于Zw-1和MSA(LN(Zw-1))。多层感知机(MLP)作用于经LN处理后的Z′w,残差连接作用于Z′w和MLP(LN(Z′w))。
Z′w=MSA(LN(Zw-1))+Zw-1
Zw=MLP(LN(Z′w))+Z′w
步骤S2:构建令牌特征选择模块。首先,多头注意力机制将令牌特征划分入K个子空间,在每个子空间内,建模令牌间的交互信息,使得每个令牌的特征表示拥有K个不同空间分布。然后,在每个子空间内,选择与分类令牌关联程度最高的图像块令牌特征,从而,能够获取第1层到第n-2层每一层的令牌特征(w∈[1,n-2])。值得注意的是,不同子空间内与分类令牌关联程度最高的图像块令牌并不是同一个。例如,在第i个子空间内,第m个图像块令牌与分类令牌最相似,而在第j个子空间,第n个图像块令牌与分类令牌最相似。最后,将从第1到第n-2层挑选的令牌特征与第n-2层的分类令牌拼接起来,利用编码器层n-1将被选取的关键性特征所携带的多层级信息融合到分类令牌上。
步骤S3:构建语义部件生成模块。对于步骤S1获得第一层令牌特征Z1,根据与分类令牌的关联程度的高低,选择与分类令牌关联程度大于阈值θ的图像块令牌,阈值θ为经过多次实验选取的经验值,计算包含所选择的全部图像块令牌的矩形区域的四个顶点坐标。然后从输入图像中裁切该矩形,获得包含语义部件的局部区域。
步骤S4:通过局部分支显示地捕捉语义部件上的细微差异。其原理为,该分支的输入为仅包含语义部件的局部区域。因此,局部分支相较于全局分支,能够重点关注语义部件上具有差异性的细节。局部分支结构与全局分支结构相同,均由线性映射、编码层以及令牌特征选择模块构成。虽然二者结构相同,但参数不共享,从而保证两个分支能够专注于提取相应尺度的特征表示。
步骤S5:构建特征融合模块。首先,直接交换两个视觉Transformer分支倒数第二层输出的令牌特征中的分类令牌。接着,将分类令牌与当前分支倒数第二层输出的令牌特征中的图像块令牌特征拼接起来,通过编码器层n,交互分类令牌与图像块令牌信息。最后,将全局分类令牌和局部分类令牌拼接起来,通过分类器中的全连接层处理所获特征,使得两个分类令牌包含更丰富的有助于分类的信息。
步骤S6:通过中心损失函数紧凑细粒度对象类内特征距离,扩大类间特征间距。中心损失函数公式如下所示。其中x对应拼接起来的全局分类令牌和局部分类令牌,中心特征向量c为与x特征维度相同的向量,其初始化服从正态分布。通对中心损失函数,在训练迭代过程中,不断更新中心特征向量c且约束样本特征x靠近中心特征向量。
Lct=‖x-c‖2
步骤S7:通过梯度下降算法训练网络。当达到提前规定的轮数时,整个网络停止训练。
步骤S8:网络测试。将待分类的图像,送入已训练好的网络模型中,得到分类器将目标图像分类为每个类别的概率值,最高概率值所在的类别,为目标图像最终的类别标签。
实施例2
本发明实施例2提供一种电子设备,包括存储器和处理器,其特征在于,存储有基于Transformer的细粒度图像分类程序被处理器执行时,使得处理器执行基于Transformer的细粒度图像分类方法,该方法包括如下步骤:
1)使用预训练的编码器层提取输入图像的多层级特征;
2)采用令牌特征选择模块从每层特征表示中选取包含信息量最多的图像块令牌特征;
3)定位语义部件,送入局部分支,提取该区域内对分类有效的信息;
4)置换两个分支的分类令牌,聚合全局和局部信息;
5)利用中心损失函数减小类内样本特征距离,增大类间样本特征间距。最后,分类器作用于分类令牌,输出预测类别概率,最大概率值所在类别,为网络预测细粒度图像的类别。
实施例3
本发明实施例3提供一种计算机可读存储介质,其特征在于,所述程序被处理器执行时,使得处理器执行基于Transformer的细粒度图像分类方法,该方法包括如下步骤:
1)使用预训练的编码器层提取输入图像的多层级特征;
2)采用令牌特征选择模块从每层特征表示中选取包含信息量最多的图像块令牌特征;
3)定位语义部件,送入局部分支,提取该区域内对分类有效的信息;
4)置换两个分支的分类令牌,聚合全局和局部信息;
5)利用中心损失函数减小类内样本特征距离,增大类间样本特征间距。最后,分类器输出预测的细粒度图像的类别。
以上所述仅为本公开的优选实例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (8)
1.一种基于Transformer的细粒度图像分类方法,其步骤包括:
构建图像分类模型,包括局部分支、全局分支、语义部件生成模块、特征融合模块和分类器,所述局部分支、全局分支均包括线性映射和编码器层、令牌特征选择模块;
训练所述图像分类模型:
线性映射和编码器层对输入的样本图像进行特征提取,得到多层令牌特征{Z1,…,Zn-2};其中,线性映射和编码器层包括对输入数据依次处理的线性映射单元和n个编码器,Zn-2为第n-2个编码器输出的特征,即第n-2层令牌特征;
令牌特征选择模块从所述多层令牌特征{Z1,…,Zn-2}中选取具有区分度的多层级特征;
语义部件生成模块从第1个编码器输出的第一层令牌特征Z1中获取包含辨识性视觉图案的局部区域,然后利用所述局部分支学习该局部区域内对象的细节信息;
特征融合模块将所述局部分支中第n-1个编码器输出的令牌特征中的分类令牌与所述全局分支中第n-1个编码器输出的令牌特征中的分类令牌进行交换;然后所述局部分支将交换所得分类令牌与所述局部分支第n-1个编码器输出的令牌特征中的图像块令牌特征拼接后输入第n个编码器,所述全局分支将交换所得分类令牌与所述全局分支第n-1个编码器输出的令牌特征中的图像块令牌特征拼接后输入第n个编码器;然后将所述全局分支中第n个编码器输出的全局分类令牌特征与所述局部分支中第n个编码器输出的局部分类令牌特征拼接后输入分类器,得到输入样本图像的类别;
通过设定的损失函数约束所述样本图像中的对象类内特征距离;
图像分类模型应用阶段:
将待分类的目标图像输入训练后的图像分类模型中,得到目标图像的类别标签。
3.根据权利要求2所述的方法,其特征在于,所述编码器由多头注意力机制MSA和多层感知机MLP构成,第w层编码器的多头注意力机制首先对第(w-1)层编码器输出的令牌特征Zw-1进行层归一化LN,所得数据记为MSA(LN(Zw-1));然后将Zw-1和MSA(LN(Zw-1))输入第一残差连接单元,得到特征Z′w;多层感知机对Z′w进行层归一化LN,所得数据记为MLP(LN(Z′w)),将Z′w和MLP(LN(Z′w))输入第二残差连接单元,得到第w层令牌特征Zw;w∈[1,n-2]。
5.根据权利要求1所述的方法,其特征在于,所述损失函数为中心损失函数Lct=‖x-c‖2;其中,c为中心特征向量,x为拼接后的全局分类令牌特征和局部分类令牌特征。
6.根据权利要求1所述的方法,其特征在于,语义部件生成模块选取令牌特征Z1中与分类令牌关联程度大于设定阈值θ的图像块令牌,计算包含所选择的全部图像块令牌的矩形区域的四个顶点坐标;然后从输入图像中裁切该四个顶点确定的矩形区域作为所述局部区域。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210305985.3A CN114676776A (zh) | 2022-03-25 | 2022-03-25 | 一种基于Transformer的细粒度图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210305985.3A CN114676776A (zh) | 2022-03-25 | 2022-03-25 | 一种基于Transformer的细粒度图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114676776A true CN114676776A (zh) | 2022-06-28 |
Family
ID=82076117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210305985.3A Pending CN114676776A (zh) | 2022-03-25 | 2022-03-25 | 一种基于Transformer的细粒度图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676776A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229178A (zh) * | 2023-03-14 | 2023-06-06 | 安徽大学 | 一种基于Transformer针对少量训练样本的图像分类方法 |
CN116403171A (zh) * | 2023-06-08 | 2023-07-07 | 松立控股集团股份有限公司 | 一种车辆重识别方法、系统及电子设备 |
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553904A (zh) * | 2021-06-16 | 2021-10-26 | 北京百度网讯科技有限公司 | 人脸防伪模型的训练方法、装置及电子设备 |
CN113887610A (zh) * | 2021-09-29 | 2022-01-04 | 内蒙古工业大学 | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 |
CN113936339A (zh) * | 2021-12-16 | 2022-01-14 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
CN113947680A (zh) * | 2021-10-12 | 2022-01-18 | 哈尔滨理工大学 | 一种基于级联多尺度视觉Transformer的图像语义分割方法 |
CN114155395A (zh) * | 2021-10-21 | 2022-03-08 | 阿里巴巴(中国)有限公司 | 图像分类方法、装置、电子装置和存储介质 |
-
2022
- 2022-03-25 CN CN202210305985.3A patent/CN114676776A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553904A (zh) * | 2021-06-16 | 2021-10-26 | 北京百度网讯科技有限公司 | 人脸防伪模型的训练方法、装置及电子设备 |
CN113887610A (zh) * | 2021-09-29 | 2022-01-04 | 内蒙古工业大学 | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 |
CN113947680A (zh) * | 2021-10-12 | 2022-01-18 | 哈尔滨理工大学 | 一种基于级联多尺度视觉Transformer的图像语义分割方法 |
CN114155395A (zh) * | 2021-10-21 | 2022-03-08 | 阿里巴巴(中国)有限公司 | 图像分类方法、装置、电子装置和存储介质 |
CN113936339A (zh) * | 2021-12-16 | 2022-01-14 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
Non-Patent Citations (3)
Title |
---|
LI YUAN: ""Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet"", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, 28 February 2022 (2022-02-28), pages 538 - 547 * |
RUYI JI: ""Dual Transformer With Multi-Grained Assembly for Fine-Grained Visual Classification"", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 33, no. 9, 24 February 2023 (2023-02-24), pages 5009 - 5021, XP011948304, DOI: 10.1109/TCSVT.2023.3248791 * |
傅愉: ""基于深度学习的图像融合研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2022, 15 January 2022 (2022-01-15), pages 138 - 2796 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229178A (zh) * | 2023-03-14 | 2023-06-06 | 安徽大学 | 一种基于Transformer针对少量训练样本的图像分类方法 |
CN116229178B (zh) * | 2023-03-14 | 2023-11-24 | 安徽大学 | 一种基于Transformer针对少量训练样本的图像分类方法 |
CN116452931A (zh) * | 2023-04-11 | 2023-07-18 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116452931B (zh) * | 2023-04-11 | 2024-03-19 | 北京科技大学 | 一种层级敏感的图像特征聚合方法 |
CN116403171A (zh) * | 2023-06-08 | 2023-07-07 | 松立控股集团股份有限公司 | 一种车辆重识别方法、系统及电子设备 |
CN116403171B (zh) * | 2023-06-08 | 2023-09-01 | 松立控股集团股份有限公司 | 一种车辆重识别方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10691899B2 (en) | Captioning a region of an image | |
US11328172B2 (en) | Method for fine-grained sketch-based scene image retrieval | |
Qian et al. | Deep learning for steganalysis via convolutional neural networks | |
CN112766158B (zh) | 基于多任务级联式人脸遮挡表情识别方法 | |
Nawaz et al. | AI-based object detection latest trends in remote sensing, multimedia and agriculture applications | |
US20220375213A1 (en) | Processing Apparatus and Method and Storage Medium | |
Chen et al. | Research on recognition of fly species based on improved RetinaNet and CBAM | |
CN114676776A (zh) | 一种基于Transformer的细粒度图像分类方法 | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
CN111639544A (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN111178251A (zh) | 一种行人属性识别方法及系统、存储介质及终端 | |
CN109740539B (zh) | 基于超限学习机和融合卷积网络的3d物体识别方法 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
CN113642602B (zh) | 一种基于全局与局部标签关系的多标签图像分类方法 | |
Xu et al. | Graphical modeling for multi-source domain adaptation | |
CN116343287A (zh) | 面部表情识别、模型训练方法、装置、设备及存储介质 | |
Li et al. | Multi-view convolutional vision transformer for 3D object recognition | |
CN113159053A (zh) | 图像识别方法、装置及计算设备 | |
Tan et al. | Attention-based Grasp Detection with Monocular Depth Estimation | |
Mery et al. | Deep learning in x-ray testing | |
Zhang et al. | Weighted score-level feature fusion based on Dempster–Shafer evidence theory for action recognition | |
CN115063831A (zh) | 一种高性能行人检索与重识别方法及装置 | |
Iqbal et al. | Capsule-net for Urdu digits recognition | |
Zhao et al. | ICA-Net: Industrial defect detection network based on convolutional attention guidance and aggregation of multiscale features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |