CN114528928A - 一种基于Transformer的二训练图像分类算法 - Google Patents

一种基于Transformer的二训练图像分类算法 Download PDF

Info

Publication number
CN114528928A
CN114528928A CN202210130231.9A CN202210130231A CN114528928A CN 114528928 A CN114528928 A CN 114528928A CN 202210130231 A CN202210130231 A CN 202210130231A CN 114528928 A CN114528928 A CN 114528928A
Authority
CN
China
Prior art keywords
model
label
classification
transformer
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210130231.9A
Other languages
English (en)
Inventor
叶增荣
曹迪
黄立鑫
高嘉彬
胡尚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Huikan Intelligent Technology Co ltd
Original Assignee
Hangzhou Huikan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huikan Intelligent Technology Co ltd filed Critical Hangzhou Huikan Intelligent Technology Co ltd
Priority to CN202210130231.9A priority Critical patent/CN114528928A/zh
Publication of CN114528928A publication Critical patent/CN114528928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Transformer的二训练图像分类算法,属于图像分类技术领域,包括将图像进行预处理并划分成固定大小的子图,连接子图形成输入数据;将输入数据输入ResNet‑50模型,获得图片分类结果;将分类标签和蒸馏标签分别拼接到输入数据的头和尾,得到标签数据;将标签数据进行位置编码,得到位置编码标签数据;将位置编码标签数据输入Transformer模型中,获取分类标签和蒸馏标签的分类结果;将Transformer模型作为学生模型,ResNet‑50模型作为教师模型构建损失函数;将损失函数对Transformer模型进行反向传播训练,训练完成后,得到训练好的Transformer模型;基于训练好的Transformer模型,获得待测图像的类别。本发明将ResNet‑50模型和Transformer模型分别作为师生模型,学习教师网络的特征空间表达,最后输出分类结果。

Description

一种基于Transformer的二训练图像分类算法
技术领域
本发明属于图像分类技术领域,特别涉及一种基于Transformer的二训练图像分类算法。
背景技术
当下面对垃圾产量的日益增长导致生态环境每况愈下,如何通过垃圾分类管理,最大限度地实现垃圾资源利用,减少垃圾处置量,改善生存环境质量,是一个重要问题。
伴随着垃圾分类在我国立法推行,各地区也陆续颁布了生活垃圾相关管理条例,在有组织、有目的性的监督下,垃圾分类初期效果显著。为了保证垃圾分类的效果,现在的垃圾桶都具有自动分类功能,但是现在的分类功能有一定的局限性,分类种类不多且错误率高,另外由于自动分拣设备的延迟需要保持在一个较低的水平,对算法的执行效率要求较高;造成上述问题的原因主要是因为垃圾分类数目繁多,且图像的类别之间数目不均衡,不同类别之间视觉上存在差异较小,或图像背景信息干扰等。故现在急需一种具体应用于垃圾分类上的分类方法。
发明内容
针对上述的问题,本发明提供一种基于Transformer的二训练图像分类算法,该方法包括:
将输入的图像进行预处理;
将处理后的所述图像划分成固定大小的子图,连接各个所述子图后进行维度调整,形成输入数据;
将所述输入数据输入ResNet-50模型,获得图片分类结果;
定义分类标签和蒸馏标签,并将所述分类标签和所述蒸馏标签分别拼接到所述输入数据的头和尾,得到标签数据;
将所述标签数据进行位置编码,得到位置编码标签数据;
将所述位置编码标签数据输入注意力Transformer模型中,获取所述分类标签的分类结果以及所述蒸馏标签的分类结果;
将所述注意力Transformer模型作为学生模型,所述ResNet-50模型作为教师模型构建损失函数;
将所述损失函数对所述注意力Transformer模型进行反向传播训练,训练完成后,得到训练好的所述Transformer模型;
基于训练好的所述Transformer模型,获得待测图像的类别。
优选的是,对所述图像进行预处理包括将所述图像转换为Tensor类型。
优选的是,所述ResNet-50模型为卷积神经网络。
优选的是,所述将所述位置编码标签数据输入注意力Transformer模型中,获取所述分类标签的分类结果以及所述蒸馏标签的分类结果包括:
将所述位置编码标签数据输入所述注意力Transformer模型中Encoder编码器,设定滑动窗口,采用全局与所述滑动窗口结合的多头自注意力机制,获得自注意力机制的结果;
将所述自注意力机制的结果输入至所述Transformer模型中Meta-Transformer学习器,获得不同类别的各个特征分布;
将所述不同类别的各个特征分布泛化,进行二次训练,训练完成后获得训练好的所述Transformer模型;
将所述位置编码标签数据输入至训练好的所述Transformer模型,获得所述分类标签的分类结果以及所述蒸馏标签的分类结果。
优选的是,所述获得自注意力机制的结果中,自注意力机制公式:
Figure BDA0003502324600000021
式中:Q代表查询矩阵,K代表键矩阵,V代表值矩阵;
其中,多头自注意力计算步骤如下:
将所述分类标签、所述蒸馏标签分别通过公式
Figure BDA0003502324600000022
计算,得到两个结果Attn1和Attn2
将所述结果Attn1和Attn2分别乘以V,获得AttnV1和AttnV2
将所述AttnV1和AttnV2拼接,得到AttnV12
将所述AttnV12维度转换和通过全连接层,得到自注意力机制的结果Attn。
优选的是,将所述自注意力机制的结果输入至所述Transformer模型中Meta-Transformer学习器,获得不同类别的各个特征分布包括:
所述Meta-Transformer学习器中设有符合高斯分布参数的度量模型;
对所述度量模型进行初步训练:
将所述输入数据分为训练集和测试集,所述测试集为单一类别,所述训练集为不同于所述测试集的至少一种不同类别;
将所述自注意力机制的结果与所述训练集和测试集同步输入迭代训练,求解所述度量模型中的参数,完成所述度量模型的训练。
优选的是,所述对所述Transformer模型进行二次训练包括:
将输入的所述自注意力机制的结果中的所述分类标签、所述蒸馏标签和其余部分分离;
将所述其余部分经过全连接层,所得到的结果投影至新的矩阵中;
对所述投影结果进行重塑;
将重塑投影结果经过深度为32层的深度卷积网络处理,所得到的结果进行重塑;
将该重塑结果经过全连接层后,并拼接回分离的所述分类标签和所述蒸馏标签,得到新的输入数据;
将所述自注意力机制的结果和所述新的输入数据进行残差连接和LayerNorm,获得输出结果;
从所述输出结果中取出与所述分类标签以及所述蒸馏标签对应的层,经过全连接层,得到所述分类标签的分类结果以及所述蒸馏标签的分类结果。
优选的是,将所述注意力Transformer模型作为学生模型,所述ResNet-50模型作为教师模型构建损失函数包括:
采用软蒸馏法构建损失函数,所述损失函数公式为:
Figure BDA0003502324600000031
式中:Zt为所述教师模型的输出结果;Zs是所述学生模型中分类标签对应的输出结果;Zd是所述学生模型中蒸馏标签对应的输出结果;τ为蒸馏温度;λ为KL散度与实标号y之间的交叉熵
Figure BDA0003502324600000042
之间的平衡系数;ψ为softmax函数。
与原有技术相比,本发明的有益效果为:
本发明采取全局与滑动窗口相结合的多头自注意力机制,大大减少了训练所需的计算资源和内存;并且将原有的多头感知机层与卷积神经网络相结合,充分考虑了图像像素与像素之间的相关度,使得分类结果正确率大大提高。
附图说明
图1为本发明基于Transformer的图像分类的流程图;
图2为本发明基于Transformer的图像分类中Transformer模型结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于Transformer的二训练图像分类算法,包括:
将输入的图像进行预处理;
具体地,对图像进行预处理包括将图像转换为Tensor类型。
将处理后的图像划分成固定大小的子图,连接各个子图后进行维度调整,形成输入数据;
具体地,根据设定的图片分块大小将图像进行分块处理,将每一块视作一个标签,得到维度为Rbatch_size×src_len×(channel×patch_size×patch_size),其中src_len代表分块的总数,image_length与image_width代表图片分辨率的长度与宽度;计算公式为
Figure BDA0003502324600000041
最后,通过全连接层将维度处理为Rbatch_size×src_len×d_model,便得到输入数据。
将输入数据输入ResNet-50模型,获得图片分类结果;
具体地,ResNet-50模型为卷积神经网络,且为大规模数据集预训练过的卷积神经网络,将输入数据分成若干批,并对ResNet-50模型进行训练,训练完毕,得到训练好的教师模型。该训练方法为常规方法,故在此不再详细说明。将输入数据输入训练好的教师模型的的带图片分类结果。
定义分类标签和蒸馏标签,并将分类标签和蒸馏标签分别拼接到输入数据的头和尾,得到标签数据,此时输入数据的维度为
Rbatch_size×(src_len+2)×d_model
将标签数据进行位置编码,得到位置编码标签数据;该数据维度不变;
将位置编码标签数据输入注意力Transformer模型中,获取分类标签的分类结果以及蒸馏标签的分类结果;
具体地,位置编码标签数据输入注意力Transformer模型中,
首先经过dropout层,随机失活一些神经元,随机失活的概率是人为定义的参数emb_dropout,此处的概率会直接导致神经元的丢失的多少,过多会使得模型性能变差,过少会让整个模型训练困难,此处我们采用随机失活概率为0.3;
将失活后的位置编码标签数据输入注意力Transformer模型中Encoder编码器,设定滑动窗口,采用全局与滑动窗口结合的多头自注意力机制,获得自注意力机制的结果;
进一步地,自注意力机制公式:
Figure BDA0003502324600000051
式中:Q代表查询矩阵,K代表键矩阵,V代表值矩阵;
其中,多头自注意力计算步骤如下:
将分类标签、蒸馏标签分别通过公式
Figure BDA0003502324600000052
计算,得到两个结果Attn1和Attn2,其维度分别为
Rbatch_size×n_heads×2×2与Rbatch_size×n_heads×src_len×src_len
将结果Attn1和Attn2分别乘以V,获得AttnV1和AttnV2,其维度分别为Rbatch _size×n_heads×2×d_v与Rbatch_size×n_heads×src_len×d_v
将AttnV1和AttnV2拼接,得到AttnV12,其维度为
Rbatch_size×n_heads×(src_len+2)×d_v
将AttnV12维度转换和通过全连接层,得到自注意力机制的结果Attn。该结果维度为Rbatch_size×(src_len+2)×d_model
将自注意力机制的结果输入至Transformer模型中Meta-Transformer学习器,获得不同类别的各个特征分布;
进一步地,Meta-Transformer学习器中设有符合高斯分布参数的度量模型,该度量模型设置在Transformer模型的特征仿射变换层中,在这个特征仿射变换层中,有两个超参数θγ∈R和θβ∈R,这二者代表的是变化层的一个高斯分布的标准差;
对度量模型进行初步训练:
将输入数据分为训练集和测试集,测试集为单一类别,训练集为不同于测试集的至少一种不同类别;
将自注意力机制的结果与训练集和测试集同步输入迭代训练,求解度量模型中的参数,完成所述度量模型的训练,即初步训练。
具体地,对输入数据进行重新规划,本实施例将4个类别的图片组成一个训练集,称为可见域,即
Figure BDA0003502324600000061
将这4个类别外的其他类别中的一个类别单独作为测试集,称为伪可见域,即τps。将训练集中和测试集的组成为一个合集,即为训练的一个单位<τseen,τps>。
在每一次的训练迭代t中,我们对数据集进行采样得到一个Set,并将上一阶段的自注意力层得到的特征矩阵也作为输入,通过伪可见任务
Figure BDA0003502324600000062
求解参数θf,公式如下:
Figure BDA0003502324600000063
Figure BDA0003502324600000064
Figure BDA0003502324600000065
Figure BDA0003502324600000066
式中:α为可学习参数;t为迭代次数;
Figure BDA0003502324600000067
Figure BDA0003502324600000068
分别为图片和这张图片的标签;
Figure BDA0003502324600000069
为自注意力机制矩阵的符号;
Figure BDA00035023246000000610
为度量模型的特征编码器;
Figure BDA00035023246000000611
为度量模型的度量函数;f为参数的集合;ps为伪可见域;q为测试集;
Figure BDA00035023246000000612
分别为特征自编码器和度量函数的可变参数,用于参与Lpu的计算;s为训练集;Lcls为常见类别收益损失函数;Lpu为度量模型的损失函数。以上整个操作都是在特征仿射变换层进行的,模型的泛化能力就是通过这个特征仿射变换层实现。
以上的都是在训练中完成,在完成训练后得到了特征分布参数,此步骤为初训练。
将不同类别的各个特征分布泛化,进行二次训练,训练完成后获得训练好的Transformer模型;
进一步地,将输入的自注意力机制的结果中的分类标签、蒸馏标签和其余部分分离,得到其余部分维度为Rbatch_size×src_len×d_model
将其余部分经过全连接层,所得到的结果投影至新的矩阵中,其维度为Rbatch _size×src_len×d_ff
对投影结果进行重塑,得到新的矩阵,其维度为
Figure BDA0003502324600000071
将重塑投影结果经过深度为32层的深度卷积网络处理,得到了特征矩阵并保持维度不变;
将所得到的结果进行重塑,使其维度变回Rbatch_size×src_len×d_ff
将该重塑结果经过全连接层后,维度变回Rbatch_size×src_len×d_model
拼接回分离的分类标签和蒸馏标签,使特征矩阵的维度变为Rbatch _size×(src_len+2)×d_model,得到新的输入数据;
将自注意力机制的结果和新的输入数据进行残差连接和LayerNorm,获得输出结果;此步骤是常见操作,有助于提高模型的泛化能力。当初步训练的执行次数达到n_layers时,则输出结果;否则重复输入注意力Transformer模型中Encoder编码器到出初训练的过程,直至执行次数达到n_layers。n_layers指的是Transformer+Meta-Transformer的组数,即如果有两个组,每个组都是由一个Transformer+Meta-Transformer组成,则n_layers为2。
从输出结果中取出与分类标签以及蒸馏标签对应的层,经过全连接层,得到分类标签的分类结果以及蒸馏标签的分类结果。
将注意力Transformer模型作为学生模型,ResNet-50模型作为教师模型构建损失函数;
具体地,利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是参数数量大幅降低,从而实现模型压缩与加速。
采用软蒸馏法构建损失函数,损失函数公式为:
Figure BDA0003502324600000081
式中:Zt为教师模型的输出结果;Zs是学生模型中分类标签对应的输出结果;Zd是学生模型中蒸馏标签对应的输出结果;τ为蒸馏温度;λ为KL散度与实标号y之间的交叉熵
Figure BDA0003502324600000082
之间的平衡系数;ψ为softmax函数。
将损失函数对注意力Transformer模型进行反向传播训练,训练完成后,得到训练好的Transformer模型;
基于训练好的Transformer模型,获得待测图像的类别。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于Transformer的二训练图像分类算法,其特征在于,包括:
将输入的图像进行预处理;
将处理后的所述图像划分成固定大小的子图,连接各个所述子图后进行维度调整,形成输入数据;
将所述输入数据输入ResNet-50模型,获得图片分类结果;
定义分类标签和蒸馏标签,并将所述分类标签和所述蒸馏标签分别拼接到所述输入数据的头和尾,得到标签数据;
将所述标签数据进行位置编码,得到位置编码标签数据;
将所述位置编码标签数据输入注意力Transformer模型中,获取所述分类标签的分类结果以及所述蒸馏标签的分类结果;
将所述注意力Transformer模型作为学生模型,所述ResNet-50模型作为教师模型构建损失函数;
将所述损失函数对所述注意力Transformer模型进行反向传播训练,训练完成后,得到训练好的所述Transformer模型;
基于训练好的所述Transformer模型,获得待测图像的类别。
2.如权利要求1所述的基于Transformer的二训练图像分类算法,其特征在于,对所述图像进行预处理包括将所述图像转换为Tensor类型。
3.如权利要求1所述的基于Transformer的二训练图像分类算法,其特征在于,所述ResNet-50模型为卷积神经网络。
4.如权利要求1所述的基于Transformer的二训练图像分类算法,其特征在于,所述将所述位置编码标签数据输入注意力Transformer模型中,获取所述分类标签的分类结果以及所述蒸馏标签的分类结果包括:
将所述位置编码标签数据输入所述注意力Transformer模型中Encoder编码器,设定滑动窗口,采用全局与所述滑动窗口结合的多头自注意力机制,获得自注意力机制的结果;
将所述自注意力机制的结果输入至所述Transformer模型中Meta-Transformer学习器,获得不同类别的各个特征分布;
将所述不同类别的各个特征分布泛化,进行二次训练,训练完成后获得训练好的所述Transformer模型;
将所述位置编码标签数据输入至训练好的所述Transformer模型,获得所述分类标签的分类结果以及所述蒸馏标签的分类结果。
5.如权利要求4所述的基于Transformer的二训练图像分类算法,其特征在于,所述获得自注意力机制的结果中,自注意力机制公式:
Figure FDA0003502324590000021
式中:Q代表查询矩阵,K代表键矩阵,V代表值矩阵;
其中,多头自注意力计算步骤如下:
将所述分类标签、所述蒸馏标签分别通过公式
Figure FDA0003502324590000022
计算,得到两个结果Attn1和Attn2
将所述结果Attn1和Attn2分别乘以V,获得AttnV1和AttnV2
将所述AttnV1和AttnV2拼接,得到AttnV12
将所述AttnV12维度转换和通过全连接层,得到自注意力机制的结果Attn。
6.如权利要求4所述的基于Transformer的二训练图像分类算法,其特征在于,将所述自注意力机制的结果输入至所述Transformer模型中Meta-Transformer学习器,获得不同类别的各个特征分布包括:
所述Meta-Transformer学习器中设有符合高斯分布参数的度量模型;
对所述度量模型进行初步训练:
将所述输入数据分为训练集和测试集,所述测试集为单一类别,所述训练集为不同于所述测试集的至少一种不同类别;
将所述自注意力机制的结果与所述训练集和测试集同步输入迭代训练,求解所述度量模型中的参数,完成所述度量模型的训练。
7.如权利要求4所述的基于Transformer的二训练图像分类算法,其特征在于,所述对所述Transformer模型进行二次训练包括:
将输入的所述自注意力机制的结果中的所述分类标签、所述蒸馏标签和其余部分分离;
将所述其余部分经过全连接层,所得到的结果投影至新的矩阵中;
对所述投影结果进行重塑;
将重塑投影结果经过深度为32层的深度卷积网络处理,所得到的结果进行重塑;
将该重塑结果经过全连接层后,并拼接回分离的所述分类标签和所述蒸馏标签,得到新的输入数据;
将所述自注意力机制的结果和所述新的输入数据进行残差连接和LayerNorm,获得输出结果;
从所述输出结果中取出与所述分类标签以及所述蒸馏标签对应的层,经过全连接层,得到所述分类标签的分类结果以及所述蒸馏标签的分类结果。
8.如权利要求1所述的基于Transformer的二训练图像分类算法,其特征在于,将所述注意力Transformer模型作为学生模型,所述ResNet-50模型作为教师模型构建损失函数包括:
采用软蒸馏法构建损失函数,所述损失函数公式为:
Figure FDA0003502324590000031
式中:Zt为所述教师模型的输出结果;Zs是所述学生模型中分类标签对应的输出结果;Zd是所述学生模型中蒸馏标签对应的输出结果;τ为蒸馏温度;λ为KL散度与实标号y之间的交叉熵
Figure FDA0003502324590000032
之间的平衡系数;ψ为softmax函数。
CN202210130231.9A 2022-02-11 2022-02-11 一种基于Transformer的二训练图像分类算法 Pending CN114528928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210130231.9A CN114528928A (zh) 2022-02-11 2022-02-11 一种基于Transformer的二训练图像分类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210130231.9A CN114528928A (zh) 2022-02-11 2022-02-11 一种基于Transformer的二训练图像分类算法

Publications (1)

Publication Number Publication Date
CN114528928A true CN114528928A (zh) 2022-05-24

Family

ID=81623751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210130231.9A Pending CN114528928A (zh) 2022-02-11 2022-02-11 一种基于Transformer的二训练图像分类算法

Country Status (1)

Country Link
CN (1) CN114528928A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169530A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN116030257A (zh) * 2023-02-27 2023-04-28 速度时空信息科技股份有限公司 一种基于NesT模型的语义分割方法
CN116091849A (zh) * 2023-04-11 2023-05-09 山东建筑大学 基于分组解码器的轮胎花纹分类方法、系统、介质及设备
CN117853664A (zh) * 2024-03-04 2024-04-09 云南大学 基于双分支特征融合三维人脸重建方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169530A (zh) * 2022-06-29 2022-10-11 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN115169530B (zh) * 2022-06-29 2023-09-26 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和可读存储介质
CN116030257A (zh) * 2023-02-27 2023-04-28 速度时空信息科技股份有限公司 一种基于NesT模型的语义分割方法
CN116030257B (zh) * 2023-02-27 2023-08-15 速度科技股份有限公司 一种基于NesT模型的语义分割方法
CN116091849A (zh) * 2023-04-11 2023-05-09 山东建筑大学 基于分组解码器的轮胎花纹分类方法、系统、介质及设备
CN117853664A (zh) * 2024-03-04 2024-04-09 云南大学 基于双分支特征融合三维人脸重建方法
CN117853664B (zh) * 2024-03-04 2024-05-14 云南大学 基于双分支特征融合三维人脸重建方法

Similar Documents

Publication Publication Date Title
CN114528928A (zh) 一种基于Transformer的二训练图像分类算法
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
US20210224332A1 (en) Chart question answering
CN114519469A (zh) 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN110543566B (zh) 一种基于自注意力近邻关系编码的意图分类方法
CN113947262A (zh) 基于异构图学习融合学习参与状态的知识追踪方法
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
Golovko et al. Deep neural networks: Selected aspects of learning and application
Thapa et al. Hdxplore: Automated blackbox testing of brain-inspired hyperdimensional computing
CN116311483A (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN109840506B (zh) 利用结合关系互动的视频转换器解决视频问答任务的方法
Zhao et al. A contrastive knowledge transfer framework for model compression and transfer learning
Slijepcevic et al. Learning useful representations for radio astronomy" in the wild" with contrastive learning
Farinhas et al. Sparse communication via mixed distributions
Sekiyama et al. Automated proof synthesis for the minimal propositional logic with deep neural networks
CN116304089A (zh) 一种融合权重与时态信息的知识图谱补全方法
CN116306940A (zh) 一种基于bert编码的数学应用题求解系统及方法
CN112735604B (zh) 一种基于深度学习算法的新型冠状病毒分类方法
CN114860952A (zh) 一种基于数据统计和知识指导的图拓扑学习方法及系统
CN113435190A (zh) 一种融合多层次信息抽取和降噪的篇章关系抽取方法
CN111951792A (zh) 一种基于分组卷积神经网络的标点标注模型
Chen et al. Optimize the Performance of the Neural Network by using a Mini Dataset Processing Method
CN115131599B (zh) 一种基于对抗偏差与鲁棒性知识蒸馏的图像分类方法
CN116610770B (zh) 一种基于大数据的司法领域类案推送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination