CN116030257B - 一种基于NesT模型的语义分割方法 - Google Patents

一种基于NesT模型的语义分割方法 Download PDF

Info

Publication number
CN116030257B
CN116030257B CN202310168857.3A CN202310168857A CN116030257B CN 116030257 B CN116030257 B CN 116030257B CN 202310168857 A CN202310168857 A CN 202310168857A CN 116030257 B CN116030257 B CN 116030257B
Authority
CN
China
Prior art keywords
model
training
nest
image
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310168857.3A
Other languages
English (en)
Other versions
CN116030257A (zh
Inventor
任鑫
周祥
李俊
朱必亮
郝本明
周雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Speed China Technology Co Ltd
Original Assignee
Speed China Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speed China Technology Co Ltd filed Critical Speed China Technology Co Ltd
Priority to CN202310168857.3A priority Critical patent/CN116030257B/zh
Publication of CN116030257A publication Critical patent/CN116030257A/zh
Application granted granted Critical
Publication of CN116030257B publication Critical patent/CN116030257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于NesT模型的语义分割方法,包括步骤:S1选取和训练教师teacher模型:选取教师模型,并进行训练,完成教师模型的训练;S2设计和训练学生student模型:采用知识蒸馏方法使用教师模型引导训练学生模型,提高学生模型的泛化性能;S3利用学生模型进行分割处理:输入待分割的图像,经过学生模型进行图像分割得到输出,并构建损失函数,从而实现语义分割。将NesT模型作为高级特征编码器,进行图像特征的压缩编码,经过上采样解码映射操作后,实现图像分割,提高分割的准确性。

Description

一种基于NesT模型的语义分割方法
技术领域
本发明涉及图像分割领域,具体涉及一种基于NesT模型的语义分割方法。
背景技术
人们普遍认为,成功地训练一个深层网络往往需要大量的数据支撑,这样得到的模型精度等指标才符合实际生活的要求。而在现实生活中,往往有些任务无法获得大规模的训练样本,例如医学领域。这致使很多基于深度学习的方法在工程应用时,受到约束。
与之前的基于卷积神经网络CNN的方法不同,Transformer不仅在建模全局上下文方面很强大,而且在大规模的预训练下,对下游任务也表现出优越的可移植性。在机器翻译和自然语言处理(NLP)领域取得了广泛的成功。基于Vision Transformer (ViT)的方法由于其在许多核心视觉应用上的优越性能而受到了广泛关注。最近的工作表明,当在包含数千万或数亿标记数据的数据集上进行训练时,ViT模型可以比目前最先进的卷积网络获得更好的精度。然而,在小数据集上训练时,ViT的表现通常不如卷积网络。
NesT是一款模拟脉冲神经网络的框架,提供接口包括各类神经元模型、网络连接模型、以及监控设备模型等。NesT在最初的ViT模型上做了少量的更改,通过简单地堆叠基本的Transformer,以单独处理不重叠的图像块,通过对不重叠的图像块进行局部Transformer 操作,并通过提出的块聚合函数将覆盖Transformer层的图像块拼接,由上下层间的块拼接实现相邻块之间的信息交互。NesT收敛速度快,且只需较少的训练数据即可获得较好的泛化效果。
知识蒸馏(Knowledge Distillation,KD)是一种新的训练范式。通过知识蒸馏策略,可以将复杂模型的优异性能“迁移”到小规模的模型中,进而提高小规模模型的性能。经过蒸馏学习的网络模型,其对进行训练所需的数据集规模可以比复杂模型小的多。
针对现有的基于Transformer系列的模型,在实际应用中,通常需要较大的数据集进行训练才能取得较好的效果,因此,有必要开发一种基于NesT模型的语义分割方法。
发明内容
本发明要解决的技术问题是提供一种基于NesT模型的语义分割方法,将NesT模型作为特征编码器,结合KD训练方式,实现小数据集的图像分割任务。
为了解决上述技术问题,本发明采用的技术方案是:基于NesT模型的语义分割方法,具体包括以下步骤:
S1选取和训练教师teacher模型:选取教师模型,并进行训练,完成教师模型的训练;
S2设计和训练学生student模型:采用知识蒸馏方法使用教师模型引导训练学生模型,提高学生模型的泛化性能;
S3利用学生模型进行分割处理:输入待分割的图像,经过学生模型进行图像分割得到输出,并构建损失函数,从而实现语义分割。
采用上述技术方案,采用NesT模型作为特征编码器,结合知识蒸馏(KnowledgeDistillation,KD)的训练方式,实现图像的语义分割任务,尤其涉及小样本集的分割训练。其中采用NesT模型作为语义分割任务中的高级特征编码器,实现小样本集的分割任务;采用KD训练方式进行模型训练,提高了模型的性能。其中NesT模型源于论文Zhang Z, ZhangH, Zhao L, et al. Aggregating nested transformers[J]. arXiv preprint arXiv:2105.12723, 2021;ViT模型源于论文A. Dosovitskiy, L. Beyer, A. Kolesnikov, D.Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold,S. Gelly, et al. An image is worth 16x16 words: Transformers for imagerecognition at scale. ICLR, 2021。
优选地,所述步骤S3在利用学生模型进行分割处理时,学生模型完成训练后,将归一化指数函数softmax的温度参数E恢复到1,输入待分割图像,进行图像分割。
优选地,所述步骤S1中的选用resnet-101为教师模型,输入训练样本后,采用卷积神经网络模型训练流程进行模型训练,完成教师模型训练。
优选地,所述步骤S2设计并训练学生模型的具体步骤为:
S21:将温度参数E引入教师模型中,得到教师模型的归一化指数函数softmax层输出类别的概率定义为“soft target”,用来辅助原始数据标签ground truth训练学生模型;在输出数据进入softmax层之前,引入温度参数E,经过softmax层后,得到输出类别的概率:
其中,q i 是在温度参数E下教师模型的softmax输出在第i类上的值, exp为指数函数,z i 是教师模型进入softmax层之前的输出概率,N是总类别数量;其中E是温度参数;其中当温度参数E=1时,即为标准的softmax公式,输出概率为输出各个类别的概率;当温度参数E越接近于0时,则输出概率最大值会越近1,相应的,其它值会越接近0;E越大,则输出的结果的分布越平缓;
S22:引导并训练基于NesT的分割模型即学生模型;
S23:学生模型反向传播,更新参数;计算损失函数,梯度下降,更新参数,直到完成训练。
优选地,所述步骤S22引导并训练基于NesT的分割模型的具体步骤为:
S221:输入图像数据,即给定一帧输入图像,图像的形状大小为H×W×3,将每个大小为S×S的图像线性映射到词向量空间R d d是映射的词向量空间维度;然后对所有的词向量进行分块和展开,生成输入,其中,b是批量大小,T n 是NesT结构最底部的块数,n是每个图像块里的序列长度,公式为:/>
S222:NesT的每个块采用标准Transformer层独立的处理信息,在每个图像块内,多个Transformer层被堆叠在一起,每个Transformer层由一个多头自注意力机制MSA层后接一个具有跳转连接和归一化层的前馈全连接网络组成,将可训练的位置嵌入向量添加到R d 中的所有序列向量中,对空间信息进行编码,然后输入块函数:
其中,multiple指多个Transformer层,MSA Nest 指多头注意力机制模块,x是输入序列,x’=LN(x)是经过层归一化映射处理的序列,y是残差输出;
给定输入,由于NesT层次结构中的所有块都共享参数,因此,利用MSA Nest 对所有块并行应用多头自注意力机制MSA层,上述公式则转换成并行形式,如下式所示:
其中,MSA Nest (Q,K,V)是同层结构中多注意力机制的总输出,Stack()是堆叠函数,block是图像序列块,且 其中,W O 是Transformer矩阵,block i 的尺寸为b×n×d
S223:在图像层面执行块集成,以促进近邻块的信息交互;将l层的输出,转换全图像平面/>,其中,H’是转换后的图像平面的高,W’是转换后的图像平面的宽,d’是转换后的图像平面的维度,再在采样特征上进行空域操作;
S224:将空域操作后的特征转换为;判断l+1是否为总的结构层数;若是,则输出X l+1,否则继续执行步骤S223;
S225:将特征编码进行上采样解码,从而完成学生模型的设计和训练。
优选地,在所述步骤S225中所述上采样解码包括1个2×2卷积,2个3×3卷积,最后一层是1个1×1卷积;最后一层的1×1卷积将每个64分量特征向量映射到所需的类数。
优选地,所述步骤S3的具体步骤为:
S31:输入图像,在温度参数E下,由教师模型作softmax计算之后,得到预测类别概率;
S32:再在相同温度参数E下,经过学生模型得到输出;
S33:构建损失函数,一方面与教师模型预测类别概率soft target做交叉熵运算,得到第一部分损失函数;另一方面,与原始数据标签ground truth进行交叉熵运算,得到第二部分损失函数;再将第一部分损失函数和第二部分损失函数相加,得到总的损失函数,实现语义分割。
优选地,所述步骤S32具体为:
S321:输入待分割的图像,将图像进行投影和分块,生成输入序列;
S322:对输入块采用标准Transformer层独立的处理信息后,进行块集成操作,增加全局交流,循环块集成操作,输出最终特征编码;在特征编码进行上采样解码;
S323:在输出进入softmax层之前,将温度参数E引入学生模型中,得到学生模型的softmax层输出;
其中,p i 是在温度参数E下学生模型的softmax输出在第i类上的值,exp为指数函数,v i 是进入softmax层之前学生模型的输出概率。
优选地,所述步骤S33构建损失函数具体为:将qp进行交叉熵运算,记为L soft
当学生模型在温度参数E=1时,得到的softmax输出和训练样本的原始数据标签做交叉熵运算,得到损失L hard,
其中,c j 是第j类上的原始数据标签的值,正标签取1,负标签取0;可得损失函数L
L=αL soft +βL hard
其中,α、β为权重值,且α+β=1。
优选地,在所述步骤S322中的块集成具体为将处理后的输入块实例化为一个3×3卷积,获得层归一化和一个3×3最大池化。
与现有技术相比,本发明具有的有益效果为:NesT模型在层次结构上对ViT模型进行了改进,在具有ViT优点的同时,使其更加适用于小样本的模型训练,本发明中将NesT模型作为高级特征编码器,进行图像特征的压缩编码,经过上采样解码映射操作后,实现图像分割;为了提高模型的性能,采用知识蒸馏方法KD作为模型的训练方式,选用一个成熟的复杂网络模型对基于Nest的分割模型进行引导训练,使其学习复杂网络学习方式,增强模型的泛化能力;本发明针对那些所能获取的数据不足,或数据有效利用不够的学习任务中,可以获得较好的效果。
附图说明
图1 是本发明基于NesT模型的语义分割方法的流程图;
图2是本发明基于NesT模型的语义分割方法的模型训练流程图。
具体实施方式
下面将结合本发明的实施例图中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
实施例:如图1所示,该基于NesT模型的语义分割方法,具体包括以下步骤:
S1选取和训练教师teacher模型:选取教师模型,并进行训练,完成教师模型的训练;所述步骤S1中的选用resnet-101为教师模型,输入训练样本后,采用卷积神经网络CNN模型训练流程进行模型训练,完成教师模型训练;
S2设计和训练学生student模型:采用知识蒸馏方法使用教师模型引导训练学生模型,提高学生模型的泛化性能;
所述步骤S2设计并训练学生模型的具体步骤为:
S21:将温度参数E引入教师r模型中,得到教师模型的归一化指数函数softmax层输出类别的概率定义为“soft target”,用来辅助原始数据标签ground truth训练学生模型;在输出数据进入softmax层之前,引入温度参数E,经过softmax层后,得到输出类别的概率:
其中,q i 是在温度参数E下教师模型的softmax输出在第i类上的值, exp为指数函数,z i 是教师模型进入softmax层之前的输出概率,N是总类别数量;E是温度参数;当温度参数E=1时,即为标准的softmax公式,输出概率logit为输出各个类别的概率;当温度参数E越接近于0时,则输出概率最大值会越近1,相应的,其它值会越接近0;E越大,则输出的结果的分布越平缓;
S22:引导并训练基于NesT的分割模型即学生student模型;
如图2所示,所述步骤S22引导并训练基于NesT的分割模型的具体步骤为:
S221:输入图像数据,即给定一帧输入图像,图像的形状大小为H×W×3,将每个大小为S×S的图像线性映射到词向量空间R d d是映射的词向量空间维度;然后对所有的词向量进行分块和展开,生成输入,其中,b是批量大小,T n 是NesT结构最底部的块数,n是每个图像块里的序列长度,公式为:/>
S222:NesT的每个块采用标准Transformer层独立的处理信息,在每个图像块内,多个Transformer层被堆叠在一起,每个Transformer层由一个多头自注意力机制MSA层后接一个具有跳转连接和归一化层的前馈全连接网络组成,将可训练的位置嵌入向量添加到R d 中的所有序列向量中,对空间信息进行编码,然后输入块函数:
其中,multiple指多个Transformer层,MSA Nest 指多头注意力机制模块,x是输入序列,x’=LN(x)是经过层归一化映射处理的序列,y是残差输出;
给定输入,由于NesT层次结构中的所有块都共享参数,因此,利用MSA Nest 对所有块并行应用多头自注意力机制MSA层,上述公式则转换成并行形式,如下式所示:
其中,MSA Nest (Q,K,V)是同层结构中多注意力机制的总输出,Stack()是堆叠函数,block是图像序列块,且 其中,W O 是Transformer矩阵,block i 的尺寸为b×n×d
S223:在图像层面执行块集成,以促进近邻块的信息交互;将l层的输出,转换全图像平面/>,其中,H’是转换后的图像平面的高,W’是转换后的图像平面的宽,d’是转换后的图像平面的维度,再在采样特征上进行空域操作;
S224:将空域操作后的特征转换为;判断l+1是否为总的结构层数;若是,则输出X l+1,否则继续执行步骤S223;
S225:将特征编码进行上采样解码,从而完成学生模型的设计和训练;在所述步骤S225中所述上采样解码包括1个2×2卷积,2个3×3卷积,最后一层是1个1×1卷积;最后一层的1×1卷积将每个64分量特征向量映射到所需的类数;
S23:学生模型反向传播,更新参数;计算损失函数,梯度下降,更新参数,直到完成训练;
S3利用学生模型进行分割处理:输入待分割的图像,经过学生模型进行图像分割得到输出,并构建损失函数,从而实现语义分割;所述步骤S3在利用学生模型进行分割处理时,学生模型完成训练后,将归一化指数函数softmax的温度参数E恢复到1,输入待分割图像,进行图像分割;
所述步骤S3的具体步骤为:
S31:输入图像,在温度参数E下,由教师模型作softmax计算之后,得到预测类别概率;
S32:再在相同温度参数E下,经过学生模型得到输出;
所述步骤S32具体为:
S321:输入待分割的图像,将图像进行投影和分块,生成输入序列;
S322:对输入块采用标准Transformer层独立的处理信息后,进行块集成操作,增加全局交流,循环块集成操作,输出最终特征编码;在特征编码进行上采样解码;在所述步骤S322中的块集成具体为将处理后的输入块实例化为一个3×3卷积,获得层归一化和一个3×3最大池化;
S323:在输出进入softmax层之前,将温度参数E引入学生模型中,得到学生模型的softmax层输出;
其中,p i 是在温度参数E下学生模型的softmax输出在第i类上的值,exp为指数函数,v i 是进入softmax层之前学生模型的输出概率;
S33:构建损失函数,一方面与教师模型预测类别概率soft target做交叉熵运算,得到第一部分损失函数;另一方面,与原始数据标签ground truth进行交叉熵运算,得到第二部分损失函数;再将第一部分损失函数和第二部分损失函数相加,得到总的损失函数,实现语义分割;
所述步骤S33构建损失函数具体为:将qp进行交叉熵运算,记为L soft
当学生模型在温度参数E=1时,得到的softmax输出和训练样本的原始数据标签做交叉熵运算,得到损失L hard,
其中,c j 是第j类上的原始数据标签的值,正标签取1,负标签取0;可得损失函数L
L=αL soft +βL hard
其中,α、β为权重值,且α+β=1。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于NesT模型的语义分割方法,其特征在于,具体包括以下步骤:
S1选取和训练教师teacher模型:选取教师模型,并进行训练,完成教师模型的训练;
S2设计和训练学生student模型:采用知识蒸馏方法使用教师模型引导训练学生模型,提高学生模型的泛化性能;
S3利用学生模型进行分割处理:输入待分割的图像,经过学生模型进行图像分割得到输出,并构建损失函数,从而实现语义分割;
所述步骤S1中的选用resnet-101为教师模型,输入训练样本后,采用卷积神经网络CNN模型训练流程进行模型训练,完成教师模型训练;
所述步骤S2设计和训练学生模型的具体步骤为:
S21:将温度参数E引入教师模型中,得到教师模型的归一化指数函数softmax层输出类别的概率定义为“soft target”,用来辅助原始数据标签ground truth训练学生模型;即在输出数据进入softmax层之前,引入温度参数E,经过softmax层后,得到输出类别的概率:
其中,qi是在温度参数E下教师模型的softmax输出在第i类上的值,exp为指数函数,zi是教师模型进入softmax层之前的输出概率,N是总类别数量;其中
E是温度参数;
S22:引导并训练基于NesT的分割模型即学生模型;
S23:学生模型反向传播,更新参数;计算损失函数,梯度下降,更新参数,直到完成训练;
所述步骤S22引导并训练基于NesT的分割模型的具体步骤为:
S221:输入图像数据,即给定一帧输入图像,图像的形状大小为H×W×3,将每个大小为S×S的图像线性映射到词向量空间Rd,d是映射的词向量空间维度;然后对所有的词向量进行分块和展开,生成输入X∈Rb×Tn×n×d,其中,b是批量大小,Tn是NesT结构最底部的块数,n是每个图像块里的序列长度,公式为:
S222:NesT的每个块采用标准Transformer层独立的处理信息,在每个图像块内,多个Transformer层被堆叠在一起,每个Transformer层由一个多头自注意力机制MSA层后接一个具有跳转连接和归一化层的前馈全连接网络组成,将可训练的位置嵌入向量添加到Rd中的所有序列向量中,对空间信息进行编码,然后输入块函数:
其中,multiple指多个Transformer层,MSANest指多头注意力机制模块,x是输入序列,x’=LN(x)是经过层归一化映射处理的序列,y是残差输出;给定输入X∈Rb×Tn×n×d,由于NesT层次结构中的所有块都共享参数,因此,利用MSANest是对所有块并行应用MSA层,上述公式则转换成并行形式,如下式所示:
其中,MSANest(Q,K,V)是同层结构中多注意力机制的总输出,Stack()是堆叠函数,block是图像序列块且blocki=MSANest(Q,K,V)WO,WO是Transformer矩阵,blocki的尺寸为b×n×d;
S223:在图像层面执行块集成,以促进近邻块的信息交互;将l层的输出Xl∈Rb ×block×n×d,转换全图像平面Al∈Rb×H’×W‘×d’,其中,H’是转换后的图像平面的高,W’是转换后的图像平面的宽,d’是转换后的图像平面的维度,在采样特征Al’∈Rb×H’/2×W‘/2×d上进行空域操作;
S224:将空域操作后的特征转换为Xl+1∈Rb×block/4×n×d;判断l+1是否为总的结构层数;若是,则输出Xl+1,否则继续执行步骤S223;
S225:将特征编码进行上采样解码,从而完成学生模型的设计和训练。
2.根据权利要求1所述的基于NesT模型的语义分割方法,其特征在于,所述步骤S3在利用学生模型进行分割处理时,学生模型完成训练后,将归一化指数函数softmax的温度参数E恢复到1,输入待分割图像,进行图像分割。
3.根据权利要求1所述的基于NesT模型的语义分割方法,其特征在于,在所述步骤S225中所述上采样解码包括1个2×2卷积,2个3×3卷积,最后一层是1个1×1卷积;最后一层的1×1卷积将每个64分量特征向量映射到所需的类数。
4.根据权利要求1所述的基于NesT模型的语义分割方法,其特征在于,所述步骤S3的具体步骤为:
S31:输入图像,在温度参数E下,由教师模型作softmax计算之后,得到预测类别概率;
S32:再在相同温度参数E下,经过学生模型得到输出;
S33:构建损失函数,一方面与教师模型预测类别概率soft target做交叉熵运算,得到第一部分损失函数;另一方面,与原始数据标签ground truth进行交叉熵运算,得到第二部分损失函数;再将第一部分损失函数和第二部分损失函数相加,得到总的损失函数,实现语义分割。
5.根据权利要求4所述的基于NesT模型的语义分割方法,其特征在于,所述步骤S32具体为:
S321:输入待分割的图像,将图像进行投影和分块,生成输入序列;
S322:对输入块采用标准Transformer层独立的处理信息后,进行块集成操作,增加全局交流,循环块集成操作,输出最终特征编码;在特征编码进行上采样解码;
S323:在输出进入softmax层之前,将温度参数E引入学生模型中,得到学生模型的softmax层输出;
其中,pi是在温度参数E下学生模型的softmax输出在第i类上的值,exp为指数函数,vi是进入softmax层之前学生模型的输出概率。
6.根据权利要求5所述的基于NesT模型的语义分割方法,其特征在于,所述步骤S33构建损失函数具体为:将q与p进行交叉熵运算,记为Lsoft
当学生模型在温度参数E=1时,得到的softmax输出和训练样本的原始数据标签做交叉熵运算,得到损失Lhard
其中,cj是第j类上的原始数据标签的值,正标签取1,负标签取0;可得损失函数L:
L=αLsoft+βLhard
其中,α、β为权重值,且α+β=1。
7.根据权利要求5所述的基于NesT模型的语义分割方法,其特征在于,在所述步骤S322中的块集成具体为将处理后的输入块实例化为一个3×3卷积,获得层归一化和一个3×3最大池化。
CN202310168857.3A 2023-02-27 2023-02-27 一种基于NesT模型的语义分割方法 Active CN116030257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310168857.3A CN116030257B (zh) 2023-02-27 2023-02-27 一种基于NesT模型的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310168857.3A CN116030257B (zh) 2023-02-27 2023-02-27 一种基于NesT模型的语义分割方法

Publications (2)

Publication Number Publication Date
CN116030257A CN116030257A (zh) 2023-04-28
CN116030257B true CN116030257B (zh) 2023-08-15

Family

ID=86076140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310168857.3A Active CN116030257B (zh) 2023-02-27 2023-02-27 一种基于NesT模型的语义分割方法

Country Status (1)

Country Link
CN (1) CN116030257B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法
CN114528928A (zh) * 2022-02-11 2022-05-24 杭州慧看智能科技有限公司 一种基于Transformer的二训练图像分类算法
CN115049534A (zh) * 2021-03-09 2022-09-13 上海交通大学 基于知识蒸馏的鱼眼图像实时语义分割方法
CN115422518A (zh) * 2022-08-19 2022-12-02 河北师范大学 基于无数据知识蒸馏的文本验证码识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法
CN115049534A (zh) * 2021-03-09 2022-09-13 上海交通大学 基于知识蒸馏的鱼眼图像实时语义分割方法
CN114528928A (zh) * 2022-02-11 2022-05-24 杭州慧看智能科技有限公司 一种基于Transformer的二训练图像分类算法
CN115422518A (zh) * 2022-08-19 2022-12-02 河北师范大学 基于无数据知识蒸馏的文本验证码识别方法

Also Published As

Publication number Publication date
CN116030257A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN108664632B (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN108717574A (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN110516095A (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN108446766A (zh) 一种快速训练堆栈自编码深度神经网络的方法
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN111460097B (zh) 一种基于tpn的小样本文本分类方法
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN114782776B (zh) 基于MoCo模型的多模块知识蒸馏方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN116168401A (zh) 基于多模态码本的文本图像翻译模型的训练方法
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN112052889A (zh) 基于双门控递归单元解码的喉镜图像识别方法
CN107944468A (zh) 基于隐空间编码的零样本学习分类方法
CN113436224B (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
Zeng et al. Domain adaptive meta-learning for dialogue state tracking
Qi et al. Learning low resource consumption cnn through pruning and quantization
Jiang et al. Hadamard product perceptron attention for image captioning
CN116779091B (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
CN116030257B (zh) 一种基于NesT模型的语义分割方法
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN112668543A (zh) 一种手模型感知的孤立词手语识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210000 8 -22, 699 Xuanwu Road, Xuanwu District, Nanjing, Jiangsu.

Applicant after: Speed Technology Co.,Ltd.

Address before: 210000 8 -22, 699 Xuanwu Road, Xuanwu District, Nanjing, Jiangsu.

Applicant before: SPEED TIME AND SPACE INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant