CN112801280B

CN112801280B - 视觉深度自适应神经网络的一维卷积位置编码方法

Info

Publication number: CN112801280B
Application number: CN202110263635.0A
Authority: CN
Inventors: 张萌; 吴瑞霞; 李国庆; 翁东鹏; 王九阳
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2022-11-08
Anticipated expiration: 2041-03-11
Also published as: CN112801280A

Abstract

本发明公开了一种视觉深度自适应神经网络的一维卷积位置编码方法，包括：1)将输入的批量图片分为N²个片段，图片通道数由C转换为D，并将宽高维度展开为1维；2)将通道维度与宽高维度进行置换；3)将2)结果与分类表征拼接，分类表征是一个可学习的向量；4)将3)结果进行一维卷积，将卷积结果作为位置编码，并将位置编码与3)结果进行相加；5)用1)‑4)过程作为该模型的嵌入模块，在之后使用堆叠的编码模块；6)对1)‑5)所提出的网络在大规模数据集上进行预训练；7)在预训练模型的基础上训练基准数据集。一维卷积位置编码技术经验证对于深度自适应神经网络在视觉领域应用的精度有显著提升效果。

Description

视觉深度自适应神经网络的一维卷积位置编码方法

技术领域

本发明涉及人工智能领域，尤其是深度自适应(Transformer)神经网络位置编码方法。

背景技术

Transformer模型是基于自注意力模块的一种深度神经网络模型，原本应用于自然语言处理领域。由于其强大的表达能力，研究者将Transformer应用在了计算机视觉任务，如图像识别、目标检测、语义分割等。Transformer神经网络模型在计算机视觉任务上展现了与卷积神经网络相匹敌甚至是比卷积神经网络更好的结果。

近年来谷歌的Ashish Vaswani等人提出ViT，将图片分成序列，再使用Transformer中的Embedded和堆叠的Encoder模块用于图像识别，在大数据集上预训练之后，在基准数据集上测试结果达到了与卷积神经网络相匹敌的性能；2021年依图科技提出首次全面超越ResNet，甚至轻量化版本优于MobileNet系列的T2T-ViT模型，该模型提出了一种新颖的Tokens-to-Tokens机制，用于同时建模图像的局部结构信息与全局相关性，同时还借鉴了CNN架构设计思想引导ViT的骨干设计。2020年加州大学伯克利分校的AravindSrinivas等人提出了BoTNet[13]，将Transformer中的多头注意力模块用于ResNet的Bottleneck结构中，用于代替原Bottleneck中的3×3卷积，并且只在最后3个block中使用该Bottleneck Transformer Block，最终在ImageNet上的精度高达84.1％的top-1精度。Transformer在计算机视觉领域激起了研究热潮。如何让Transformer模型更加适用于视觉任务，如何提高Transformer模型的鲁棒性、如何让Transformer更具有解释性以及如何轻量化Transformer都是继续破解的课题。

Transformer中最重要的模块为自注意力模块，然而由于自注意力模块不能获取位置信息，所以必须要加上位置编码。位置编码有多种实现方式例如可学习的位置编码、正弦位置编码、2D相对位置编码等。视觉Transformer受限于固定长度的位置编码，并不能像CNN一样处理不同尺度的输入，ViT中对位置编码进行插值，使其适用于不同的图片尺寸输入，但需要微调模型以保持精度。本发明所提出的发明通过一维卷积实现位置编码，使得视觉Transformer可以更好地处理图片的位置信息，并提升模型的精度。

发明内容

技术问题：本发明所要解决的技术问题在于提供视觉深度自适应神经网络的一维卷积位置编码方法，使深度自适应神经网络可以更好地学习图片的位置信息，改变了原有位置编码对输入图像大小的限制，同时提高了模型精度。

技术方案：本发明的一种视觉深度自适应神经网络的一维卷积位置编码方法包括如下步骤：

步骤1：将批次图像维度为(B、C、H、H)进行卷积，其中B表示图片张数，C表示每张图片的通道数，H表示图片的长和宽；卷积核大小为P、步长为S、输入通道数为C、输出通道数为D，卷积后的特征图维度为(B、D、N、N)，其中N＝H/P；

步骤2：将步骤1结果的N、N两个维度展开为一个维度，转换后结果维度为(B、D、N²)；

步骤3：对步骤2结果的D、N²两个维度进行置换，置换后结果的维度变为(B、N²、D)；

步骤4：将分类表征与步骤3结果按照第二维度N²进行拼接操作，分类表征为维度(B、1、D)的随机初始化的向量，拼接后结果维度为(B、N²+1、D)；

步骤5：对步骤4结果按照第三维度D进行一维卷积得到位置编码，一维卷积的卷积核大小为K，填充大小为K//2，由于采用的是特征图大小不变的卷积方式，结果的位置编码维度仍为(B、N²+1、D)；

步骤6：将步骤4位置编码结果与步骤5结果进行相加，由于采用的是逐元素相加的方式，最终结果维度仍为(B、N²+1、D)；

步骤7：搭建编码网络与步骤1至6一起作为一个深度自适应神经网络。

其中，

所述步骤1进行卷积核大小为P、步长为S、输入通道数为C、输出通道数为D的二维卷积，相当于对批次图像的每张图片按照图片长、宽两个维度进行切割，切割大小即是卷积核大小P，并对切割后产生的N×N个片段进行嵌入，使每个片段产生维度为1×D的嵌入向量。

所述步骤2，将原维度为(B、D、N、N)的特征图转换为维度为(B、D、N×N)的特征图，转换方式为将N个N维向量顺序拼接成一个N×N维向量。

所述步骤3，将原维度为(B,D,N×N)的特征图转换为维度为(B,N×N,D)的特征图，转换方式采用矩阵转置。

所述步骤4，将维度为(B,1,D)的分类表征向量与步骤3产生的维度为(B,N×N,D)的特征图进行拼接，拼接方式为按照第二维度进行拼接，即将1与N²拼接。

所述步骤5，对步骤4产生的结果进行一维卷积，即对N×N+1个向量进行一维卷积，对单个向量进行卷积核大小为3，填充为1进行一维卷积相当于进行如下矩阵乘：

所述编码网络由多头自注意力模块及前向传播神经网络组成，多头自注意力模块的具体操作是，首先将输入分为H个部分，每个部分分别转换为查询矢量、键矢量及值矢量，将查询矢量与键矢量的转置进行矩阵乘用于计算相似度，之后为了有更稳定的梯度，需对结果进行缩放，缩放之后的结果再通过归一化指数函数Softmax将值转换为相似度，最后与值矢量矩阵乘；在注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接，最后经过层归一化；前向传播神经网络由两个前馈网络及一个非线性激活函数组成，非线性激活函数用高斯误差线性单元GELU。

所述深度自适应神经网络在搭建好之后，由于深度自适应神经网络相对于卷积神经网络模型复杂，需要在大数据集且图像分辨率大的数据集上进行训练，用于视觉对象识别软件研究的、由1400多万幅分辨率为224×224的图片组成大型可视化数据库ImageNet。

所述深度自适应神经网络需利用在所述ImageNet上预训练好的模型进行微调，以测试其他基准数据集。

所述基准数据集为：用于普适物体识别的计算机视觉数据集Cifar10、Cifar100，其中Cifar10由10类60000个32×32彩色图像组成，Cifar100由100个类别图像组成，每个类别包含600个图像；利用预训练好的视觉自适应神经网络训练Cifar10、Cifar100数据集结果会相较直接在Cifar10、Cifar100数据集训练的精度高。

有益效果：本发明出发点是使深度自适应神经网络更好地学习图片中物体的相对位置，以提高深度自适应神经网络对视觉任务的适应度，本发明重点提出一维卷积位置编码，此编码可结合其他任意深度自适应神经网络结合，用于计算机视觉任务以提升准确率,需要注意的是适度增大一维卷积的卷积核大小可以提升网络模型精度。提升模型精度的原因在于，一维卷积可以对位置信息进行更好的学习。对于一整张图片，并不需要网络知道每个像素点的具体位置，而只需要知道相对位置就可以了。

本发明所提出的一维卷积位置编码，其优势在于可以显著加快深度自适应神经网络的收敛，加快学习，提升网络模型的精度。

除了对第三维度进行一维卷积，还可对第二维度进行一维卷积实现位置编码，其优势在于一维卷积位置编码不受输入图片尺寸影响。使得深度自适应神经网络可以用于更广泛的计算机视觉应用领域。

附图说明

图1为一维卷积位置编码深度自适应神经网络模型训练示意图，

图2为一维卷积位置编码技术示意图，

图3为整体深度自适应神经网络示意图。

具体实施方式

本发明的视觉深度自适应神经网络的一维卷积位置编码方法，包括如下步骤：

步骤2：将步骤1结果的最后两个维度展开为一个维度，转换后结果维度为(B、D、N²)；

步骤3：对步骤2结果的最后两个维度进行置换，置换后结果的维度变为(B、N²、D)；

步骤5：对步骤4结果按照第三维度D进行一维卷积得到位置编码，注意一维卷积的卷积核大小为K，填充大小为K//2，结果的位置编码维度为(B、N²+1、D)；

步骤6：将步骤4位置编码结果与步骤5结果进行相加，最终结果维度为(B、N²+1、D)；

步骤7：搭建编码网络(Encoder)与之前步骤一起作为一个Transformer神经网络模型。

编码模块(Encoder)由多头自注意力模块及前向传播神经网络组成，多头自注意力模块的具体操作是，首先将输入分为h个部分，每个部分分别转换为查询矢量、键矢量及值矢量，将查询矢量与键矢量的转置进行矩阵乘用于计算相似度，之后为了有更稳定的梯度，需对结果进行缩放，缩放之后的结果再通过softmax函数将值转换为相似度，最后与值矢量矩阵乘。在注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接，最后经过层归一化。前向传播网络由两个前馈网络及一个非线性激活函数组成，非线性激活函数用GELU。

在搭建好Transformer模型之后，由于Transformer模型相对于卷积神经网络模型复杂，需要在大数据集且图像分辨率大的数据集上进行训练，如Imagenet数据集等。

可利用在Imagenet上预训练好的模型进行微调，以对其他基准数据集，如Cifar10、Cifar100等进行性能比较。利用预训练模型训练Cifar10、Cifar100等数据集结果会相较直接在Cifar10、Cifar100数据集训练的精度好。

举例：

步骤(1)将批次图像维度为(B、C、H、H)进行卷积，其中B表示图片张数可设为256，C表示每张图片的通道数一般值为3，H表示图片的长和宽，H、W的值均为224；卷积核大小为P值为16、步长为S值为16、输入通道数为C值为3、输出通道数为D值为768，卷积后的特征图维度为(B、D、N、N)即(256、768、14、14)，其中N＝H/P＝224/16＝14；

步骤(2)将步骤1结果的最后两个维度展开为一个维度，转换后结果维度为(B、D、N²)即(256、768、196)；

步骤(3)对步骤2结果的最后两个维度进行置换，置换后结果的维度变为(B、N²、D)即(256、196、768)；

步骤(4)将分类表征与步骤3结果按照第二维度N²进行拼接操作，分类表征为维度(B、1、D)即(256、1、768)的随机初始化的向量，拼接后结果维度为(B、N²+1、D)即(256、197、768)；

步骤(5)对步骤4结果按照第三维度D进行一维卷积得到位置编码，注意一维卷积的卷积核大小为K，K的值设为7，填充大小为K//2即3，结果的位置编码维度为(B、N²+1、D)即(256、197、768)；

步骤(6)将步骤4位置编码结果与步骤5结果进行逐元素相加，最终结果维度为(B、N²+1、D)即(256、197、768)；

步骤(7)搭建编码网络与之前步骤一起作为一个深度自适应神经网络。

其中步骤(7)的编码模型即是标准深度自适应神经网络中的编码模型，该编码模型由多头自注意力模块及前向传播神经网络组成，多头自注意力模块的具体操作是，首先将输入矢量的第三维度D(值为768)分为H(值为12)个部分，每个部分分别经过全连接层(输入为64，输出为64)转换为查询矢量、键矢量及值矢量，将查询矢量与键矢量的转置进行矩阵乘用于计算相似度，之后为了有更稳定的梯度，需对结果进行缩放即将所有的值除以8，缩放之后的结果再通过归一化指数函数(softmax)将值转换为相似度，将相似度与值矢量矩阵乘。在多头注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接，最后经过层归一化。前向传播网络由两个前馈网络及一个非线性激活函数组成，非线性激活函数用高斯误差线性单元(GELU)。

搭建好深度自适应神经网络之后，需要在ImageNet数据集中进行预训练，分类数为21843，编码模块堆叠12次，训练350次，预训练好的模型结构用于继续基于基准数据集ImageNet数据集、Cifar10数据集、Cifar100数据集进行微调以产生更好的模型精度。已验证在Cifar10数据集上直接测试该带有一维位置编码的模型，精度比原来的结果提升了7％。

本发明内容主要是一维卷积位置编码方法，不限于编码模块及训练过程，所有与此相关的任何权利均受本专利的保护。

Claims

1.一种视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述步骤1进行卷积核大小为P、步长为S、输入通道数为C、输出通道数为D的二维卷积，相当于对批次图像的每张图片按照图片长、宽两个维度进行切割，切割大小即是卷积核大小P，并对切割后产生的N×N个片段进行嵌入，使每个片段产生维度为1×D的嵌入向量。

3.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述步骤2，将原维度为(B、D、N、N)的特征图转换为维度为(B、D、N×N)的特征图，转换方式为将N个N维向量顺序拼接成一个N×N维向量。

4.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述步骤3，将原维度为(B,D,N×N)的特征图转换为维度为(B,N×N,D)的特征图，转换方式采用矩阵转置。

5.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述步骤4，将维度为(B,1,D)的分类表征向量与步骤3产生的维度为(B,N×N,D)的特征图进行拼接，拼接方式为按照第二维度进行拼接，即将1与N²拼接。

6.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述步骤5，对步骤4产生的结果进行一维卷积，即对N×N+1个向量进行一维卷积，对单个向量进行卷积核大小为3，填充为1进行一维卷积相当于进行如下矩阵乘：

7.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述编码网络由多头自注意力模块及前向传播神经网络组成，多头自注意力模块的具体操作是，首先将输入分为H个部分，每个部分分别转换为查询矢量、键矢量及值矢量，将查询矢量与键矢量的转置进行矩阵乘用于计算相似度，之后为了有更稳定的梯度，需对结果进行缩放，缩放之后的结果再通过归一化指数函数Softmax将值转换为相似度，最后与值矢量矩阵乘；在注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接，最后经过层归一化；前向传播神经网络由两个前馈网络及一个非线性激活函数组成，非线性激活函数用高斯误差线性单元GELU。

8.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述深度自适应神经网络在搭建好之后，由于深度自适应神经网络相对于卷积神经网络模型复杂，需要在大数据集且图像分辨率大的数据集上进行训练，用于视觉对象识别软件研究的、由1400多万幅分辨率为224×224的图片组成大型可视化数据库ImageNet。

9.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述深度自适应神经网络需利用在所述ImageNet上预训练好的模型进行微调，以测试其他基准数据集。

10.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述基准数据集为：用于普适物体识别的计算机视觉数据集Cifar10、Cifar100，其中Cifar10由10类60000个32×32彩色图像组成，Cifar100由100个类别图像组成，每个类别包含600个图像；利用预训练好的视觉自适应神经网络训练Cifar10、Cifar100数据集结果会相较直接在Cifar10、Cifar100数据集训练的精度高。