CN116030257B - 一种基于NesT模型的语义分割方法 - Google Patents
一种基于NesT模型的语义分割方法 Download PDFInfo
- Publication number
- CN116030257B CN116030257B CN202310168857.3A CN202310168857A CN116030257B CN 116030257 B CN116030257 B CN 116030257B CN 202310168857 A CN202310168857 A CN 202310168857A CN 116030257 B CN116030257 B CN 116030257B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- nest
- image
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于NesT模型的语义分割方法,包括步骤:S1选取和训练教师teacher模型:选取教师模型,并进行训练,完成教师模型的训练;S2设计和训练学生student模型:采用知识蒸馏方法使用教师模型引导训练学生模型,提高学生模型的泛化性能;S3利用学生模型进行分割处理:输入待分割的图像,经过学生模型进行图像分割得到输出,并构建损失函数,从而实现语义分割。将NesT模型作为高级特征编码器,进行图像特征的压缩编码,经过上采样解码映射操作后,实现图像分割,提高分割的准确性。
Description
技术领域
本发明涉及图像分割领域,具体涉及一种基于NesT模型的语义分割方法。
背景技术
人们普遍认为,成功地训练一个深层网络往往需要大量的数据支撑,这样得到的模型精度等指标才符合实际生活的要求。而在现实生活中,往往有些任务无法获得大规模的训练样本,例如医学领域。这致使很多基于深度学习的方法在工程应用时,受到约束。
与之前的基于卷积神经网络CNN的方法不同,Transformer不仅在建模全局上下文方面很强大,而且在大规模的预训练下,对下游任务也表现出优越的可移植性。在机器翻译和自然语言处理(NLP)领域取得了广泛的成功。基于Vision Transformer (ViT)的方法由于其在许多核心视觉应用上的优越性能而受到了广泛关注。最近的工作表明,当在包含数千万或数亿标记数据的数据集上进行训练时,ViT模型可以比目前最先进的卷积网络获得更好的精度。然而,在小数据集上训练时,ViT的表现通常不如卷积网络。
NesT是一款模拟脉冲神经网络的框架,提供接口包括各类神经元模型、网络连接模型、以及监控设备模型等。NesT在最初的ViT模型上做了少量的更改,通过简单地堆叠基本的Transformer,以单独处理不重叠的图像块,通过对不重叠的图像块进行局部Transformer 操作,并通过提出的块聚合函数将覆盖Transformer层的图像块拼接,由上下层间的块拼接实现相邻块之间的信息交互。NesT收敛速度快,且只需较少的训练数据即可获得较好的泛化效果。
知识蒸馏(Knowledge Distillation,KD)是一种新的训练范式。通过知识蒸馏策略,可以将复杂模型的优异性能“迁移”到小规模的模型中,进而提高小规模模型的性能。经过蒸馏学习的网络模型,其对进行训练所需的数据集规模可以比复杂模型小的多。
针对现有的基于Transformer系列的模型,在实际应用中,通常需要较大的数据集进行训练才能取得较好的效果,因此,有必要开发一种基于NesT模型的语义分割方法。
发明内容
本发明要解决的技术问题是提供一种基于NesT模型的语义分割方法,将NesT模型作为特征编码器,结合KD训练方式,实现小数据集的图像分割任务。
为了解决上述技术问题,本发明采用的技术方案是:基于NesT模型的语义分割方法,具体包括以下步骤:
S1选取和训练教师teacher模型:选取教师模型,并进行训练,完成教师模型的训练;
S2设计和训练学生student模型:采用知识蒸馏方法使用教师模型引导训练学生模型,提高学生模型的泛化性能;
S3利用学生模型进行分割处理:输入待分割的图像,经过学生模型进行图像分割得到输出,并构建损失函数,从而实现语义分割。
采用上述技术方案,采用NesT模型作为特征编码器,结合知识蒸馏(KnowledgeDistillation,KD)的训练方式,实现图像的语义分割任务,尤其涉及小样本集的分割训练。其中采用NesT模型作为语义分割任务中的高级特征编码器,实现小样本集的分割任务;采用KD训练方式进行模型训练,提高了模型的性能。其中NesT模型源于论文Zhang Z, ZhangH, Zhao L, et al. Aggregating nested transformers[J]. arXiv preprint arXiv:2105.12723, 2021;ViT模型源于论文A. Dosovitskiy, L. Beyer, A. Kolesnikov, D.Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold,S. Gelly, et al. An image is worth 16x16 words: Transformers for imagerecognition at scale. ICLR, 2021。
优选地,所述步骤S3在利用学生模型进行分割处理时,学生模型完成训练后,将归一化指数函数softmax的温度参数E恢复到1,输入待分割图像,进行图像分割。
优选地,所述步骤S1中的选用resnet-101为教师模型,输入训练样本后,采用卷积神经网络模型训练流程进行模型训练,完成教师模型训练。
优选地,所述步骤S2设计并训练学生模型的具体步骤为:
S21:将温度参数E引入教师模型中,得到教师模型的归一化指数函数softmax层输出类别的概率定义为“soft target”,用来辅助原始数据标签ground truth训练学生模型;在输出数据进入softmax层之前,引入温度参数E,经过softmax层后,得到输出类别的概率:
;
其中,q i 是在温度参数E下教师模型的softmax输出在第i类上的值, exp为指数函数,z i 是教师模型进入softmax层之前的输出概率,N是总类别数量;其中E是温度参数;其中当温度参数E=1时,即为标准的softmax公式,输出概率为输出各个类别的概率;当温度参数E越接近于0时,则输出概率最大值会越近1,相应的,其它值会越接近0;E越大,则输出的结果的分布越平缓;
S22:引导并训练基于NesT的分割模型即学生模型;
S23:学生模型反向传播,更新参数;计算损失函数,梯度下降,更新参数,直到完成训练。
优选地,所述步骤S22引导并训练基于NesT的分割模型的具体步骤为:
S221:输入图像数据,即给定一帧输入图像,图像的形状大小为H×W×3,将每个大小为S×S的图像线性映射到词向量空间R d ,d是映射的词向量空间维度;然后对所有的词向量进行分块和展开,生成输入,其中,b是批量大小,T n 是NesT结构最底部的块数,n是每个图像块里的序列长度,公式为:/>;
S222:NesT的每个块采用标准Transformer层独立的处理信息,在每个图像块内,多个Transformer层被堆叠在一起,每个Transformer层由一个多头自注意力机制MSA层后接一个具有跳转连接和归一化层的前馈全连接网络组成,将可训练的位置嵌入向量添加到R d 中的所有序列向量中,对空间信息进行编码,然后输入块函数:
;
其中,multiple指多个Transformer层,MSA Nest 指多头注意力机制模块,x是输入序列,x’=LN(x)是经过层归一化映射处理的序列,y是残差输出;
给定输入,由于NesT层次结构中的所有块都共享参数,因此,利用MSA Nest 对所有块并行应用多头自注意力机制MSA层,上述公式则转换成并行形式,如下式所示:
;
其中,MSA Nest (Q,K,V)是同层结构中多注意力机制的总输出,Stack()是堆叠函数,block是图像序列块,且 ,其中,W O 是Transformer矩阵,block i 的尺寸为b×n×d;
S223:在图像层面执行块集成,以促进近邻块的信息交互;将l层的输出,转换全图像平面/>,其中,H’是转换后的图像平面的高,W’是转换后的图像平面的宽,d’是转换后的图像平面的维度,再在采样特征上进行空域操作;
S224:将空域操作后的特征转换为;判断l+1是否为总的结构层数;若是,则输出X l+1,否则继续执行步骤S223;
S225:将特征编码进行上采样解码,从而完成学生模型的设计和训练。
优选地,在所述步骤S225中所述上采样解码包括1个2×2卷积,2个3×3卷积,最后一层是1个1×1卷积;最后一层的1×1卷积将每个64分量特征向量映射到所需的类数。
优选地,所述步骤S3的具体步骤为:
S31:输入图像,在温度参数E下,由教师模型作softmax计算之后,得到预测类别概率;
S32:再在相同温度参数E下,经过学生模型得到输出;
S33:构建损失函数,一方面与教师模型预测类别概率soft target做交叉熵运算,得到第一部分损失函数;另一方面,与原始数据标签ground truth进行交叉熵运算,得到第二部分损失函数;再将第一部分损失函数和第二部分损失函数相加,得到总的损失函数,实现语义分割。
优选地,所述步骤S32具体为:
S321:输入待分割的图像,将图像进行投影和分块,生成输入序列;
S322:对输入块采用标准Transformer层独立的处理信息后,进行块集成操作,增加全局交流,循环块集成操作,输出最终特征编码;在特征编码进行上采样解码;
S323:在输出进入softmax层之前,将温度参数E引入学生模型中,得到学生模型的softmax层输出;
;
;
其中,p i 是在温度参数E下学生模型的softmax输出在第i类上的值,exp为指数函数,v i 是进入softmax层之前学生模型的输出概率。
优选地,所述步骤S33构建损失函数具体为:将q与p进行交叉熵运算,记为L soft ,
;
当学生模型在温度参数E=1时,得到的softmax输出和训练样本的原始数据标签做交叉熵运算,得到损失L hard,
;
其中,c j 是第j类上的原始数据标签的值,正标签取1,负标签取0;可得损失函数L:
L=αL soft +βL hard ;
其中,α、β为权重值,且α+β=1。
优选地,在所述步骤S322中的块集成具体为将处理后的输入块实例化为一个3×3卷积,获得层归一化和一个3×3最大池化。
与现有技术相比,本发明具有的有益效果为:NesT模型在层次结构上对ViT模型进行了改进,在具有ViT优点的同时,使其更加适用于小样本的模型训练,本发明中将NesT模型作为高级特征编码器,进行图像特征的压缩编码,经过上采样解码映射操作后,实现图像分割;为了提高模型的性能,采用知识蒸馏方法KD作为模型的训练方式,选用一个成熟的复杂网络模型对基于Nest的分割模型进行引导训练,使其学习复杂网络学习方式,增强模型的泛化能力;本发明针对那些所能获取的数据不足,或数据有效利用不够的学习任务中,可以获得较好的效果。
附图说明
图1 是本发明基于NesT模型的语义分割方法的流程图;
图2是本发明基于NesT模型的语义分割方法的模型训练流程图。
具体实施方式
下面将结合本发明的实施例图中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
实施例:如图1所示,该基于NesT模型的语义分割方法,具体包括以下步骤:
S1选取和训练教师teacher模型:选取教师模型,并进行训练,完成教师模型的训练;所述步骤S1中的选用resnet-101为教师模型,输入训练样本后,采用卷积神经网络CNN模型训练流程进行模型训练,完成教师模型训练;
S2设计和训练学生student模型:采用知识蒸馏方法使用教师模型引导训练学生模型,提高学生模型的泛化性能;
所述步骤S2设计并训练学生模型的具体步骤为:
S21:将温度参数E引入教师r模型中,得到教师模型的归一化指数函数softmax层输出类别的概率定义为“soft target”,用来辅助原始数据标签ground truth训练学生模型;在输出数据进入softmax层之前,引入温度参数E,经过softmax层后,得到输出类别的概率:
;
其中,q i 是在温度参数E下教师模型的softmax输出在第i类上的值, exp为指数函数,z i 是教师模型进入softmax层之前的输出概率,N是总类别数量;E是温度参数;当温度参数E=1时,即为标准的softmax公式,输出概率logit为输出各个类别的概率;当温度参数E越接近于0时,则输出概率最大值会越近1,相应的,其它值会越接近0;E越大,则输出的结果的分布越平缓;
S22:引导并训练基于NesT的分割模型即学生student模型;
如图2所示,所述步骤S22引导并训练基于NesT的分割模型的具体步骤为:
S221:输入图像数据,即给定一帧输入图像,图像的形状大小为H×W×3,将每个大小为S×S的图像线性映射到词向量空间R d ,d是映射的词向量空间维度;然后对所有的词向量进行分块和展开,生成输入,其中,b是批量大小,T n 是NesT结构最底部的块数,n是每个图像块里的序列长度,公式为:/>;
S222:NesT的每个块采用标准Transformer层独立的处理信息,在每个图像块内,多个Transformer层被堆叠在一起,每个Transformer层由一个多头自注意力机制MSA层后接一个具有跳转连接和归一化层的前馈全连接网络组成,将可训练的位置嵌入向量添加到R d 中的所有序列向量中,对空间信息进行编码,然后输入块函数:
;
其中,multiple指多个Transformer层,MSA Nest 指多头注意力机制模块,x是输入序列,x’=LN(x)是经过层归一化映射处理的序列,y是残差输出;
给定输入,由于NesT层次结构中的所有块都共享参数,因此,利用MSA Nest 对所有块并行应用多头自注意力机制MSA层,上述公式则转换成并行形式,如下式所示:
;
其中,MSA Nest (Q,K,V)是同层结构中多注意力机制的总输出,Stack()是堆叠函数,block是图像序列块,且 ,其中,W O 是Transformer矩阵,block i 的尺寸为b×n×d;
S223:在图像层面执行块集成,以促进近邻块的信息交互;将l层的输出,转换全图像平面/>,其中,H’是转换后的图像平面的高,W’是转换后的图像平面的宽,d’是转换后的图像平面的维度,再在采样特征上进行空域操作;
S224:将空域操作后的特征转换为;判断l+1是否为总的结构层数;若是,则输出X l+1,否则继续执行步骤S223;
S225:将特征编码进行上采样解码,从而完成学生模型的设计和训练;在所述步骤S225中所述上采样解码包括1个2×2卷积,2个3×3卷积,最后一层是1个1×1卷积;最后一层的1×1卷积将每个64分量特征向量映射到所需的类数;
S23:学生模型反向传播,更新参数;计算损失函数,梯度下降,更新参数,直到完成训练;
S3利用学生模型进行分割处理:输入待分割的图像,经过学生模型进行图像分割得到输出,并构建损失函数,从而实现语义分割;所述步骤S3在利用学生模型进行分割处理时,学生模型完成训练后,将归一化指数函数softmax的温度参数E恢复到1,输入待分割图像,进行图像分割;
所述步骤S3的具体步骤为:
S31:输入图像,在温度参数E下,由教师模型作softmax计算之后,得到预测类别概率;
S32:再在相同温度参数E下,经过学生模型得到输出;
所述步骤S32具体为:
S321:输入待分割的图像,将图像进行投影和分块,生成输入序列;
S322:对输入块采用标准Transformer层独立的处理信息后,进行块集成操作,增加全局交流,循环块集成操作,输出最终特征编码;在特征编码进行上采样解码;在所述步骤S322中的块集成具体为将处理后的输入块实例化为一个3×3卷积,获得层归一化和一个3×3最大池化;
S323:在输出进入softmax层之前,将温度参数E引入学生模型中,得到学生模型的softmax层输出;
;
;
其中,p i 是在温度参数E下学生模型的softmax输出在第i类上的值,exp为指数函数,v i 是进入softmax层之前学生模型的输出概率;
S33:构建损失函数,一方面与教师模型预测类别概率soft target做交叉熵运算,得到第一部分损失函数;另一方面,与原始数据标签ground truth进行交叉熵运算,得到第二部分损失函数;再将第一部分损失函数和第二部分损失函数相加,得到总的损失函数,实现语义分割;
所述步骤S33构建损失函数具体为:将q与p进行交叉熵运算,记为L soft ,
;
当学生模型在温度参数E=1时,得到的softmax输出和训练样本的原始数据标签做交叉熵运算,得到损失L hard,
;
其中,c j 是第j类上的原始数据标签的值,正标签取1,负标签取0;可得损失函数L:
L=αL soft +βL hard ;
其中,α、β为权重值,且α+β=1。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于NesT模型的语义分割方法,其特征在于,具体包括以下步骤:
S1选取和训练教师teacher模型:选取教师模型,并进行训练,完成教师模型的训练;
S2设计和训练学生student模型:采用知识蒸馏方法使用教师模型引导训练学生模型,提高学生模型的泛化性能;
S3利用学生模型进行分割处理:输入待分割的图像,经过学生模型进行图像分割得到输出,并构建损失函数,从而实现语义分割;
所述步骤S1中的选用resnet-101为教师模型,输入训练样本后,采用卷积神经网络CNN模型训练流程进行模型训练,完成教师模型训练;
所述步骤S2设计和训练学生模型的具体步骤为:
S21:将温度参数E引入教师模型中,得到教师模型的归一化指数函数softmax层输出类别的概率定义为“soft target”,用来辅助原始数据标签ground truth训练学生模型;即在输出数据进入softmax层之前,引入温度参数E,经过softmax层后,得到输出类别的概率:
其中,qi是在温度参数E下教师模型的softmax输出在第i类上的值,exp为指数函数,zi是教师模型进入softmax层之前的输出概率,N是总类别数量;其中
E是温度参数;
S22:引导并训练基于NesT的分割模型即学生模型;
S23:学生模型反向传播,更新参数;计算损失函数,梯度下降,更新参数,直到完成训练;
所述步骤S22引导并训练基于NesT的分割模型的具体步骤为:
S221:输入图像数据,即给定一帧输入图像,图像的形状大小为H×W×3,将每个大小为S×S的图像线性映射到词向量空间Rd,d是映射的词向量空间维度;然后对所有的词向量进行分块和展开,生成输入X∈Rb×Tn×n×d,其中,b是批量大小,Tn是NesT结构最底部的块数,n是每个图像块里的序列长度,公式为:
S222:NesT的每个块采用标准Transformer层独立的处理信息,在每个图像块内,多个Transformer层被堆叠在一起,每个Transformer层由一个多头自注意力机制MSA层后接一个具有跳转连接和归一化层的前馈全连接网络组成,将可训练的位置嵌入向量添加到Rd中的所有序列向量中,对空间信息进行编码,然后输入块函数:
其中,multiple指多个Transformer层,MSANest指多头注意力机制模块,x是输入序列,x’=LN(x)是经过层归一化映射处理的序列,y是残差输出;给定输入X∈Rb×Tn×n×d,由于NesT层次结构中的所有块都共享参数,因此,利用MSANest是对所有块并行应用MSA层,上述公式则转换成并行形式,如下式所示:
其中,MSANest(Q,K,V)是同层结构中多注意力机制的总输出,Stack()是堆叠函数,block是图像序列块且blocki=MSANest(Q,K,V)WO,WO是Transformer矩阵,blocki的尺寸为b×n×d;
S223:在图像层面执行块集成,以促进近邻块的信息交互;将l层的输出Xl∈Rb ×block×n×d,转换全图像平面Al∈Rb×H’×W‘×d’,其中,H’是转换后的图像平面的高,W’是转换后的图像平面的宽,d’是转换后的图像平面的维度,在采样特征Al’∈Rb×H’/2×W‘/2×d上进行空域操作;
S224:将空域操作后的特征转换为Xl+1∈Rb×block/4×n×d;判断l+1是否为总的结构层数;若是,则输出Xl+1,否则继续执行步骤S223;
S225:将特征编码进行上采样解码,从而完成学生模型的设计和训练。
2.根据权利要求1所述的基于NesT模型的语义分割方法,其特征在于,所述步骤S3在利用学生模型进行分割处理时,学生模型完成训练后,将归一化指数函数softmax的温度参数E恢复到1,输入待分割图像,进行图像分割。
3.根据权利要求1所述的基于NesT模型的语义分割方法,其特征在于,在所述步骤S225中所述上采样解码包括1个2×2卷积,2个3×3卷积,最后一层是1个1×1卷积;最后一层的1×1卷积将每个64分量特征向量映射到所需的类数。
4.根据权利要求1所述的基于NesT模型的语义分割方法,其特征在于,所述步骤S3的具体步骤为:
S31:输入图像,在温度参数E下,由教师模型作softmax计算之后,得到预测类别概率;
S32:再在相同温度参数E下,经过学生模型得到输出;
S33:构建损失函数,一方面与教师模型预测类别概率soft target做交叉熵运算,得到第一部分损失函数;另一方面,与原始数据标签ground truth进行交叉熵运算,得到第二部分损失函数;再将第一部分损失函数和第二部分损失函数相加,得到总的损失函数,实现语义分割。
5.根据权利要求4所述的基于NesT模型的语义分割方法,其特征在于,所述步骤S32具体为:
S321:输入待分割的图像,将图像进行投影和分块,生成输入序列;
S322:对输入块采用标准Transformer层独立的处理信息后,进行块集成操作,增加全局交流,循环块集成操作,输出最终特征编码;在特征编码进行上采样解码;
S323:在输出进入softmax层之前,将温度参数E引入学生模型中,得到学生模型的softmax层输出;
其中,pi是在温度参数E下学生模型的softmax输出在第i类上的值,exp为指数函数,vi是进入softmax层之前学生模型的输出概率。
6.根据权利要求5所述的基于NesT模型的语义分割方法,其特征在于,所述步骤S33构建损失函数具体为:将q与p进行交叉熵运算,记为Lsoft,
当学生模型在温度参数E=1时,得到的softmax输出和训练样本的原始数据标签做交叉熵运算,得到损失Lhard;
其中,cj是第j类上的原始数据标签的值,正标签取1,负标签取0;可得损失函数L:
L=αLsoft+βLhard;
其中,α、β为权重值,且α+β=1。
7.根据权利要求5所述的基于NesT模型的语义分割方法,其特征在于,在所述步骤S322中的块集成具体为将处理后的输入块实例化为一个3×3卷积,获得层归一化和一个3×3最大池化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310168857.3A CN116030257B (zh) | 2023-02-27 | 2023-02-27 | 一种基于NesT模型的语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310168857.3A CN116030257B (zh) | 2023-02-27 | 2023-02-27 | 一种基于NesT模型的语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116030257A CN116030257A (zh) | 2023-04-28 |
CN116030257B true CN116030257B (zh) | 2023-08-15 |
Family
ID=86076140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310168857.3A Active CN116030257B (zh) | 2023-02-27 | 2023-02-27 | 一种基于NesT模型的语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030257B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
CN114528928A (zh) * | 2022-02-11 | 2022-05-24 | 杭州慧看智能科技有限公司 | 一种基于Transformer的二训练图像分类算法 |
CN115049534A (zh) * | 2021-03-09 | 2022-09-13 | 上海交通大学 | 基于知识蒸馏的鱼眼图像实时语义分割方法 |
CN115422518A (zh) * | 2022-08-19 | 2022-12-02 | 河北师范大学 | 基于无数据知识蒸馏的文本验证码识别方法 |
-
2023
- 2023-02-27 CN CN202310168857.3A patent/CN116030257B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
CN115049534A (zh) * | 2021-03-09 | 2022-09-13 | 上海交通大学 | 基于知识蒸馏的鱼眼图像实时语义分割方法 |
CN114528928A (zh) * | 2022-02-11 | 2022-05-24 | 杭州慧看智能科技有限公司 | 一种基于Transformer的二训练图像分类算法 |
CN115422518A (zh) * | 2022-08-19 | 2022-12-02 | 河北师范大学 | 基于无数据知识蒸馏的文本验证码识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116030257A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664632B (zh) | 一种基于卷积神经网络和注意力机制的文本情感分类算法 | |
CN110046671A (zh) | 一种基于胶囊网络的文本分类方法 | |
CN112560432A (zh) | 基于图注意力网络的文本情感分析方法 | |
CN108717574A (zh) | 一种基于连词标记和强化学习的自然语言推理方法 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN110516095A (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN108446766A (zh) | 一种快速训练堆栈自编码深度神经网络的方法 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN111460097B (zh) | 一种基于tpn的小样本文本分类方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN114782776B (zh) | 基于MoCo模型的多模块知识蒸馏方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN116168401A (zh) | 基于多模态码本的文本图像翻译模型的训练方法 | |
CN113920379B (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN112052889A (zh) | 基于双门控递归单元解码的喉镜图像识别方法 | |
CN107944468A (zh) | 基于隐空间编码的零样本学习分类方法 | |
CN113436224B (zh) | 一种基于显式构图规则建模的智能图像裁剪方法及装置 | |
Zeng et al. | Domain adaptive meta-learning for dialogue state tracking | |
Qi et al. | Learning low resource consumption cnn through pruning and quantization | |
Jiang et al. | Hadamard product perceptron attention for image captioning | |
CN116779091B (zh) | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 | |
CN116030257B (zh) | 一种基于NesT模型的语义分割方法 | |
CN114880527B (zh) | 一种基于多预测任务的多模态知识图谱表示方法 | |
CN116958700A (zh) | 一种基于提示工程和对比学习的图像分类方法 | |
CN112668543A (zh) | 一种手模型感知的孤立词手语识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 210000 8 -22, 699 Xuanwu Road, Xuanwu District, Nanjing, Jiangsu. Applicant after: Speed Technology Co.,Ltd. Address before: 210000 8 -22, 699 Xuanwu Road, Xuanwu District, Nanjing, Jiangsu. Applicant before: SPEED TIME AND SPACE INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |