CN112801280B - 视觉深度自适应神经网络的一维卷积位置编码方法 - Google Patents

视觉深度自适应神经网络的一维卷积位置编码方法 Download PDF

Info

Publication number
CN112801280B
CN112801280B CN202110263635.0A CN202110263635A CN112801280B CN 112801280 B CN112801280 B CN 112801280B CN 202110263635 A CN202110263635 A CN 202110263635A CN 112801280 B CN112801280 B CN 112801280B
Authority
CN
China
Prior art keywords
result
neural network
dimension
dimensional convolution
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110263635.0A
Other languages
English (en)
Other versions
CN112801280A (zh
Inventor
张萌
吴瑞霞
李国庆
翁东鹏
王九阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110263635.0A priority Critical patent/CN112801280B/zh
Publication of CN112801280A publication Critical patent/CN112801280A/zh
Application granted granted Critical
Publication of CN112801280B publication Critical patent/CN112801280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视觉深度自适应神经网络的一维卷积位置编码方法,包括:1)将输入的批量图片分为N2个片段,图片通道数由C转换为D,并将宽高维度展开为1维;2)将通道维度与宽高维度进行置换;3)将2)结果与分类表征拼接,分类表征是一个可学习的向量;4)将3)结果进行一维卷积,将卷积结果作为位置编码,并将位置编码与3)结果进行相加;5)用1)‑4)过程作为该模型的嵌入模块,在之后使用堆叠的编码模块;6)对1)‑5)所提出的网络在大规模数据集上进行预训练;7)在预训练模型的基础上训练基准数据集。一维卷积位置编码技术经验证对于深度自适应神经网络在视觉领域应用的精度有显著提升效果。

Description

视觉深度自适应神经网络的一维卷积位置编码方法
技术领域
本发明涉及人工智能领域,尤其是深度自适应(Transformer)神经网络位置编码方法。
背景技术
Transformer模型是基于自注意力模块的一种深度神经网络模型,原本应用于自然语言处理领域。由于其强大的表达能力,研究者将Transformer应用在了计算机视觉任务,如图像识别、目标检测、语义分割等。Transformer神经网络模型在计算机视觉任务上展现了与卷积神经网络相匹敌甚至是比卷积神经网络更好的结果。
近年来谷歌的Ashish Vaswani等人提出ViT,将图片分成序列,再使用Transformer中的Embedded和堆叠的Encoder模块用于图像识别,在大数据集上预训练之后,在基准数据集上测试结果达到了与卷积神经网络相匹敌的性能;2021年依图科技提出首次全面超越ResNet,甚至轻量化版本优于MobileNet系列的T2T-ViT模型,该模型提出了一种新颖的Tokens-to-Tokens机制,用于同时建模图像的局部结构信息与全局相关性,同时还借鉴了CNN架构设计思想引导ViT的骨干设计。2020年加州大学伯克利分校的AravindSrinivas等人提出了BoTNet[13],将Transformer中的多头注意力模块用于ResNet的Bottleneck结构中,用于代替原Bottleneck中的3×3卷积,并且只在最后3个block中使用该Bottleneck Transformer Block,最终在ImageNet上的精度高达84.1%的top-1精度。Transformer在计算机视觉领域激起了研究热潮。如何让Transformer模型更加适用于视觉任务,如何提高Transformer模型的鲁棒性、如何让Transformer更具有解释性以及如何轻量化Transformer都是继续破解的课题。
Transformer中最重要的模块为自注意力模块,然而由于自注意力模块不能获取位置信息,所以必须要加上位置编码。位置编码有多种实现方式例如可学习的位置编码、正弦位置编码、2D相对位置编码等。视觉Transformer受限于固定长度的位置编码,并不能像CNN一样处理不同尺度的输入,ViT中对位置编码进行插值,使其适用于不同的图片尺寸输入,但需要微调模型以保持精度。本发明所提出的发明通过一维卷积实现位置编码,使得视觉Transformer可以更好地处理图片的位置信息,并提升模型的精度。
发明内容
技术问题:本发明所要解决的技术问题在于提供视觉深度自适应神经网络的一维卷积位置编码方法,使深度自适应神经网络可以更好地学习图片的位置信息,改变了原有位置编码对输入图像大小的限制,同时提高了模型精度。
技术方案:本发明的一种视觉深度自适应神经网络的一维卷积位置编码方法包括如下步骤:
步骤1:将批次图像维度为(B、C、H、H)进行卷积,其中B表示图片张数,C表示每张图片的通道数,H表示图片的长和宽;卷积核大小为P、步长为S、输入通道数为C、输出通道数为D,卷积后的特征图维度为(B、D、N、N),其中N=H/P;
步骤2:将步骤1结果的N、N两个维度展开为一个维度,转换后结果维度为(B、D、N2);
步骤3:对步骤2结果的D、N2两个维度进行置换,置换后结果的维度变为(B、N2、D);
步骤4:将分类表征与步骤3结果按照第二维度N2进行拼接操作,分类表征为维度(B、1、D)的随机初始化的向量,拼接后结果维度为(B、N2+1、D);
步骤5:对步骤4结果按照第三维度D进行一维卷积得到位置编码,一维卷积的卷积核大小为K,填充大小为K//2,由于采用的是特征图大小不变的卷积方式,结果的位置编码维度仍为(B、N2+1、D);
步骤6:将步骤4位置编码结果与步骤5结果进行相加,由于采用的是逐元素相加的方式,最终结果维度仍为(B、N2+1、D);
步骤7:搭建编码网络与步骤1至6一起作为一个深度自适应神经网络。
其中,
所述步骤1进行卷积核大小为P、步长为S、输入通道数为C、输出通道数为D的二维卷积,相当于对批次图像的每张图片按照图片长、宽两个维度进行切割,切割大小即是卷积核大小P,并对切割后产生的N×N个片段进行嵌入,使每个片段产生维度为1×D的嵌入向量。
所述步骤2,将原维度为(B、D、N、N)的特征图转换为维度为(B、D、N×N)的特征图,转换方式为将N个N维向量顺序拼接成一个N×N维向量。
所述步骤3,将原维度为(B,D,N×N)的特征图转换为维度为(B,N×N,D)的特征图,转换方式采用矩阵转置。
所述步骤4,将维度为(B,1,D)的分类表征向量与步骤3产生的维度为(B,N×N,D)的特征图进行拼接,拼接方式为按照第二维度进行拼接,即将1与N2拼接。
所述步骤5,对步骤4产生的结果进行一维卷积,即对N×N+1个向量进行一维卷积,对单个向量进行卷积核大小为3,填充为1进行一维卷积相当于进行如下矩阵乘:
Figure BDA0002971123060000031
所述编码网络由多头自注意力模块及前向传播神经网络组成,多头自注意力模块的具体操作是,首先将输入分为H个部分,每个部分分别转换为查询矢量、键矢量及值矢量,将查询矢量与键矢量的转置进行矩阵乘用于计算相似度,之后为了有更稳定的梯度,需对结果进行缩放,缩放之后的结果再通过归一化指数函数Softmax将值转换为相似度,最后与值矢量矩阵乘;在注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接,最后经过层归一化;前向传播神经网络由两个前馈网络及一个非线性激活函数组成,非线性激活函数用高斯误差线性单元GELU。
所述深度自适应神经网络在搭建好之后,由于深度自适应神经网络相对于卷积神经网络模型复杂,需要在大数据集且图像分辨率大的数据集上进行训练,用于视觉对象识别软件研究的、由1400多万幅分辨率为224×224的图片组成大型可视化数据库ImageNet。
所述深度自适应神经网络需利用在所述ImageNet上预训练好的模型进行微调,以测试其他基准数据集。
所述基准数据集为:用于普适物体识别的计算机视觉数据集Cifar10、Cifar100,其中Cifar10由10类60000个32×32彩色图像组成,Cifar100由100个类别图像组成,每个类别包含600个图像;利用预训练好的视觉自适应神经网络训练Cifar10、Cifar100数据集结果会相较直接在Cifar10、Cifar100数据集训练的精度高。
有益效果:本发明出发点是使深度自适应神经网络更好地学习图片中物体的相对位置,以提高深度自适应神经网络对视觉任务的适应度,本发明重点提出一维卷积位置编码,此编码可结合其他任意深度自适应神经网络结合,用于计算机视觉任务以提升准确率,需要注意的是适度增大一维卷积的卷积核大小可以提升网络模型精度。提升模型精度的原因在于,一维卷积可以对位置信息进行更好的学习。对于一整张图片,并不需要网络知道每个像素点的具体位置,而只需要知道相对位置就可以了。
本发明所提出的一维卷积位置编码,其优势在于可以显著加快深度自适应神经网络的收敛,加快学习,提升网络模型的精度。
除了对第三维度进行一维卷积,还可对第二维度进行一维卷积实现位置编码,其优势在于一维卷积位置编码不受输入图片尺寸影响。使得深度自适应神经网络可以用于更广泛的计算机视觉应用领域。
附图说明
图1为一维卷积位置编码深度自适应神经网络模型训练示意图,
图2为一维卷积位置编码技术示意图,
图3为整体深度自适应神经网络示意图。
具体实施方式
本发明的视觉深度自适应神经网络的一维卷积位置编码方法,包括如下步骤:
步骤1:将批次图像维度为(B、C、H、H)进行卷积,其中B表示图片张数,C表示每张图片的通道数,H表示图片的长和宽;卷积核大小为P、步长为S、输入通道数为C、输出通道数为D,卷积后的特征图维度为(B、D、N、N),其中N=H/P;
步骤2:将步骤1结果的最后两个维度展开为一个维度,转换后结果维度为(B、D、N2);
步骤3:对步骤2结果的最后两个维度进行置换,置换后结果的维度变为(B、N2、D);
步骤4:将分类表征与步骤3结果按照第二维度N2进行拼接操作,分类表征为维度(B、1、D)的随机初始化的向量,拼接后结果维度为(B、N2+1、D);
步骤5:对步骤4结果按照第三维度D进行一维卷积得到位置编码,注意一维卷积的卷积核大小为K,填充大小为K//2,结果的位置编码维度为(B、N2+1、D);
步骤6:将步骤4位置编码结果与步骤5结果进行相加,最终结果维度为(B、N2+1、D);
步骤7:搭建编码网络(Encoder)与之前步骤一起作为一个Transformer神经网络模型。
编码模块(Encoder)由多头自注意力模块及前向传播神经网络组成,多头自注意力模块的具体操作是,首先将输入分为h个部分,每个部分分别转换为查询矢量、键矢量及值矢量,将查询矢量与键矢量的转置进行矩阵乘用于计算相似度,之后为了有更稳定的梯度,需对结果进行缩放,缩放之后的结果再通过softmax函数将值转换为相似度,最后与值矢量矩阵乘。在注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接,最后经过层归一化。前向传播网络由两个前馈网络及一个非线性激活函数组成,非线性激活函数用GELU。
在搭建好Transformer模型之后,由于Transformer模型相对于卷积神经网络模型复杂,需要在大数据集且图像分辨率大的数据集上进行训练,如Imagenet数据集等。
可利用在Imagenet上预训练好的模型进行微调,以对其他基准数据集,如Cifar10、Cifar100等进行性能比较。利用预训练模型训练Cifar10、Cifar100等数据集结果会相较直接在Cifar10、Cifar100数据集训练的精度好。
举例:
步骤(1)将批次图像维度为(B、C、H、H)进行卷积,其中B表示图片张数可设为256,C表示每张图片的通道数一般值为3,H表示图片的长和宽,H、W的值均为224;卷积核大小为P值为16、步长为S值为16、输入通道数为C值为3、输出通道数为D值为768,卷积后的特征图维度为(B、D、N、N)即(256、768、14、14),其中N=H/P=224/16=14;
步骤(2)将步骤1结果的最后两个维度展开为一个维度,转换后结果维度为(B、D、N2)即(256、768、196);
步骤(3)对步骤2结果的最后两个维度进行置换,置换后结果的维度变为(B、N2、D)即(256、196、768);
步骤(4)将分类表征与步骤3结果按照第二维度N2进行拼接操作,分类表征为维度(B、1、D)即(256、1、768)的随机初始化的向量,拼接后结果维度为(B、N2+1、D)即(256、197、768);
步骤(5)对步骤4结果按照第三维度D进行一维卷积得到位置编码,注意一维卷积的卷积核大小为K,K的值设为7,填充大小为K//2即3,结果的位置编码维度为(B、N2+1、D)即(256、197、768);
步骤(6)将步骤4位置编码结果与步骤5结果进行逐元素相加,最终结果维度为(B、N2+1、D)即(256、197、768);
步骤(7)搭建编码网络与之前步骤一起作为一个深度自适应神经网络。
其中步骤(7)的编码模型即是标准深度自适应神经网络中的编码模型,该编码模型由多头自注意力模块及前向传播神经网络组成,多头自注意力模块的具体操作是,首先将输入矢量的第三维度D(值为768)分为H(值为12)个部分,每个部分分别经过全连接层(输入为64,输出为64)转换为查询矢量、键矢量及值矢量,将查询矢量与键矢量的转置进行矩阵乘用于计算相似度,之后为了有更稳定的梯度,需对结果进行缩放即将所有的值除以8,缩放之后的结果再通过归一化指数函数(softmax)将值转换为相似度,将相似度与值矢量矩阵乘。在多头注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接,最后经过层归一化。前向传播网络由两个前馈网络及一个非线性激活函数组成,非线性激活函数用高斯误差线性单元(GELU)。
搭建好深度自适应神经网络之后,需要在ImageNet数据集中进行预训练,分类数为21843,编码模块堆叠12次,训练350次,预训练好的模型结构用于继续基于基准数据集ImageNet数据集、Cifar10数据集、Cifar100数据集进行微调以产生更好的模型精度。已验证在Cifar10数据集上直接测试该带有一维位置编码的模型,精度比原来的结果提升了7%。
本发明内容主要是一维卷积位置编码方法,不限于编码模块及训练过程,所有与此相关的任何权利均受本专利的保护。

Claims (10)

1.一种视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于,该方法包括如下步骤:
步骤1:将批次图像维度为(B、C、H、H)进行卷积,其中B表示图片张数,C表示每张图片的通道数,H表示图片的长和宽;卷积核大小为P、步长为S、输入通道数为C、输出通道数为D,卷积后的特征图维度为(B、D、N、N),其中N=H/P;
步骤2:将步骤1结果的N、N两个维度展开为一个维度,转换后结果维度为(B、D、N2);
步骤3:对步骤2结果的D、N2两个维度进行置换,置换后结果的维度变为(B、N2、D);
步骤4:将分类表征与步骤3结果按照第二维度N2进行拼接操作,分类表征为维度(B、1、D)的随机初始化的向量,拼接后结果维度为(B、N2+1、D);
步骤5:对步骤4结果按照第三维度D进行一维卷积得到位置编码,一维卷积的卷积核大小为K,填充大小为K//2,由于采用的是特征图大小不变的卷积方式,结果的位置编码维度仍为(B、N2+1、D);
步骤6:将步骤4位置编码结果与步骤5结果进行相加,由于采用的是逐元素相加的方式,最终结果维度仍为(B、N2+1、D);
步骤7:搭建编码网络与步骤1至6一起作为一个深度自适应神经网络。
2.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤1进行卷积核大小为P、步长为S、输入通道数为C、输出通道数为D的二维卷积,相当于对批次图像的每张图片按照图片长、宽两个维度进行切割,切割大小即是卷积核大小P,并对切割后产生的N×N个片段进行嵌入,使每个片段产生维度为1×D的嵌入向量。
3.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤2,将原维度为(B、D、N、N)的特征图转换为维度为(B、D、N×N)的特征图,转换方式为将N个N维向量顺序拼接成一个N×N维向量。
4.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤3,将原维度为(B,D,N×N)的特征图转换为维度为(B,N×N,D)的特征图,转换方式采用矩阵转置。
5.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤4,将维度为(B,1,D)的分类表征向量与步骤3产生的维度为(B,N×N,D)的特征图进行拼接,拼接方式为按照第二维度进行拼接,即将1与N2拼接。
6.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤5,对步骤4产生的结果进行一维卷积,即对N×N+1个向量进行一维卷积,对单个向量进行卷积核大小为3,填充为1进行一维卷积相当于进行如下矩阵乘:
Figure FDA0002971123050000021
7.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述编码网络由多头自注意力模块及前向传播神经网络组成,多头自注意力模块的具体操作是,首先将输入分为H个部分,每个部分分别转换为查询矢量、键矢量及值矢量,将查询矢量与键矢量的转置进行矩阵乘用于计算相似度,之后为了有更稳定的梯度,需对结果进行缩放,缩放之后的结果再通过归一化指数函数Softmax将值转换为相似度,最后与值矢量矩阵乘;在注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接,最后经过层归一化;前向传播神经网络由两个前馈网络及一个非线性激活函数组成,非线性激活函数用高斯误差线性单元GELU。
8.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述深度自适应神经网络在搭建好之后,由于深度自适应神经网络相对于卷积神经网络模型复杂,需要在大数据集且图像分辨率大的数据集上进行训练,用于视觉对象识别软件研究的、由1400多万幅分辨率为224×224的图片组成大型可视化数据库ImageNet。
9.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述深度自适应神经网络需利用在所述ImageNet上预训练好的模型进行微调,以测试其他基准数据集。
10.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述基准数据集为:用于普适物体识别的计算机视觉数据集Cifar10、Cifar100,其中Cifar10由10类60000个32×32彩色图像组成,Cifar100由100个类别图像组成,每个类别包含600个图像;利用预训练好的视觉自适应神经网络训练Cifar10、Cifar100数据集结果会相较直接在Cifar10、Cifar100数据集训练的精度高。
CN202110263635.0A 2021-03-11 2021-03-11 视觉深度自适应神经网络的一维卷积位置编码方法 Active CN112801280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110263635.0A CN112801280B (zh) 2021-03-11 2021-03-11 视觉深度自适应神经网络的一维卷积位置编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110263635.0A CN112801280B (zh) 2021-03-11 2021-03-11 视觉深度自适应神经网络的一维卷积位置编码方法

Publications (2)

Publication Number Publication Date
CN112801280A CN112801280A (zh) 2021-05-14
CN112801280B true CN112801280B (zh) 2022-11-08

Family

ID=75816846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110263635.0A Active CN112801280B (zh) 2021-03-11 2021-03-11 视觉深度自适应神经网络的一维卷积位置编码方法

Country Status (1)

Country Link
CN (1) CN112801280B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113507608A (zh) * 2021-06-09 2021-10-15 北京三快在线科技有限公司 图像编码方法、装置、电子设备
CN113378973B (zh) * 2021-06-29 2023-08-08 沈阳雅译网络技术有限公司 一种基于自注意力机制的图像分类方法
CN113723208B (zh) * 2021-08-05 2023-10-20 北京大学 基于规范等变转换算子神经网络的三维物体形状分类方法
CN113822276B (zh) * 2021-09-30 2024-06-14 中国平安人寿保险股份有限公司 基于神经网络的图片矫正方法、装置、设备及介质
CN113951834A (zh) * 2021-11-30 2022-01-21 湖南应超智能计算研究院有限责任公司 基于视觉Transformer算法的阿尔兹海默症分类预测方法
CN114898219B (zh) * 2022-07-13 2022-11-08 中国标准化研究院 一种基于svm的机械手触觉数据表示识别方法
CN115100480B (zh) * 2022-07-28 2024-06-14 西南交通大学 基于向量量化变分自编码器的医学影像分类模型及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020682B (zh) * 2019-03-29 2021-02-26 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110751193B (zh) * 2019-10-08 2022-03-18 浙江工业大学 一种基于中层特征扩展卷积网络的农作物病害分析方法
CN111582044B (zh) * 2020-04-15 2023-06-20 华南理工大学 基于卷积神经网络和注意力模型的人脸识别方法

Also Published As

Publication number Publication date
CN112801280A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112801280B (zh) 视觉深度自适应神经网络的一维卷积位置编码方法
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
KR20220050758A (ko) 다차원 어텐션 메커니즘에 기반한 다방향 장면 텍스트 인식 방법 및 시스템
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN113065550B (zh) 基于自注意力机制的文本识别方法
EP3979207A1 (en) Conditional axial transformer layers for high-fidelity image transformation
CN113221874A (zh) 基于Gabor卷积和线性稀疏注意力的文字识别系统
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN113095431B (zh) 一种基于注意力机制的图像描述方法、系统及装置
CN117529755A (zh) 图像识别系统中的迁移学习
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
Bazrafkan et al. Pushing the AI envelope: merging deep networks to accelerate edge artificial intelligence in consumer electronics devices and systems
CN116758130A (zh) 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法
CN114818889A (zh) 一种基于线性自注意力Transformer的图像分类方法
CN116612283A (zh) 一种基于大卷积核骨干网络的图像语义分割方法
CN114241218A (zh) 一种基于逐级注意力机制的目标显著性检测方法
Wang et al. Optimization-based post-training quantization with bit-split and stitching
CN115965789A (zh) 一种基于场景感知类注意力的遥感图像语义分割方法
Li et al. Incoherent dictionary learning with log-regularizer based on proximal operators
CN115908806A (zh) 基于轻量级多尺度特征增强网络的小样本图像分割方法
EP3664017B1 (en) Method and device for digital image or video data processing
CN114037770A (zh) 一种基于离散傅里叶变换的注意力机制的图像生成方法
CN117011943A (zh) 基于多尺度自注意力机制的解耦的3d网络的动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant