CN116091842A

CN116091842A - 一种Vision Transformer模型结构优化系统、方法、介质

Info

Publication number: CN116091842A
Application number: CN202310177844.2A
Authority: CN
Inventors: 王敬超; 夏瑞; 邓博于; 任双印; 薛超
Original assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Current assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-05-09
Anticipated expiration: 2043-02-23
Also published as: CN116091842B

Abstract

本发明属于深度学习技术领域，特别涉及一种图像处理优化方法。一种Vision Transformer模型结构优化方法，包括以下步骤：S1.将图片数据利用图片块映射层，先切割为图片块后再分别处理为高维向量；S2.利用级联的优化的Transformer编码器，将所述高维向量进行建模。本发明通过有效结合卷积神经网络与Transformer中的多头注意力层，向Vision Transformer中有效的引入的归纳偏置，提高了模型对图片/图像数据的建模性能。相较于原始的Vision Transformer模型，本发明能够更加高效地给出图片/图像数据的建模结果。同时，本发明还公开了一种Vision Transformer模型结构优化系统及介质。

Description

一种Vision Transformer模型结构优化系统、方法、介质

技术领域

本发明属于深度学习技术领域，特别涉及一种图像处理优化系统、方法和介质。

背景技术

随着大数据时代的到来，海量的数据(图片、视频、声音、文字等等)亟待高效处理。深度学习作为一种数据驱动型技术应运而生。在如今计算机强有力的计算资源支持下，深度学习技术已广泛用于各行各业，其中热门行业之二为自然语言处理和图像处理。Transformer作为一种崭新的，基于纯自注意力机制的自然语言处理模型架构，自2017年提出以来，在自然语言处理领域的各个子研究方向均取得了最优的性能。2020年，谷歌基于相同模型统一自然处理与图像处理的出发点，提出了Vision Transformer。VisionTransformer作为一种崭新的图像处理模型架构，由于其拥有超越过去模型的性能，自提出以来就受到了业界广泛地关注。

然而，Vision Transformer的优越性能依赖于海量的标注数据(3亿)，这阻碍了其在图像处理领域的快速发展。2021年，Mate AI提出了强数据增强方案支撑下的VisionTransformer(DeiT)，基于1千万的图片标注数据训练，超越了Vision Transformer的性能。最近的研究发现，强数据增强方案支撑下的Vision Transformer依然是次优的，其根本原因之一为，Vision Transformer缺少传统图像处理网络(卷积神经网络)的归纳偏置，如局部侧重性。因此，为进一步提高Vision Transformer的性能，如何有效将卷积神经网络的归纳偏置融合到Vision Transformer是目前的研究热点。

发明内容

本发明的目的是：现有技术的不足，结合卷积神经网络，设计了基于递减卷积结构与多头注意力层相结合的，提升Vision Transformer性能的网络框架。

本发明的一个技术方案是：一种Vision Transformer模型结构优化系统，它包括：映射单元以及建模单元。

所述映射单元包括：对图片数据进行切块操作，并完成对图片块的高维化映射处理的卷积层；以及，用于过滤掉冗余高维向量的池化层。

所述建模单元包括：由多个优化的Transformer编码器首尾依次相连组成的级联的优化的Transformer编码器；所述优化的Transformer编码器包括：归一化层、多头注意力层、卷积层、全连接层；所述建模单元用于将所述映射单元生成的高维向量进行建模。

本发明的另一个技术方案是：一种Vision Transformer模型结构优化方法，它基于如上所述的一种Vision Transformer模型结构优化系统，包括以下步骤：

S1.利用映射单元对图片数据进行处理，得到高维向量。

S101.利用所述映射单元中的卷积层对所述图片数据进行切块操作，并完成对图片块的高维化映射处理。

S102.利用所述映射单元中的池化层过滤掉冗余的高维向量，以减少后续处理的计算量。

S2.利用建模单元将高维向量进行建模。

S201.高维向量经所述建模单元中归一化层进行归一化处理。

S202.归一化处理后的高维向量中的一部分数据经过所述建模单元中多头注意力层进行处理。

S203.归一化处理后的高维向量中的另一部分数据经过所述建模单元中卷积层进行处理。

S204.对S202及S203处理后的数据进行拼接。

S205.对S204得到的拼接数据与S201中处理前的高维向量进行相加。

S206.将相加后的数据再次经过所述建模单元中归一化层进行归一化处理。

S207.将再次归一化处理后的数据经过所述建模单元中全连接层进行处理。

S208.将S207中经过全连接处理后的数据与S205中相加后的数据再次进行相加。

S209若下一个优化的Transformer编码器存在，则将S208得到的数据输入下一个优化的Transformer编码器，重复步骤S201～S208。

若下一个优化的Transformer编码器不存在，则将S208得到的数据作为模型的建模结果输出，为下游视觉处理业务所应用，如分类、目标检测、语义分割等。

S202中经过多头注意力层进行处理的数据会随着级联位置的靠后而增加占比；S203中经过卷积层进行处理的数据会随着级联位置的靠后而减少占比。

本发明的第三个技术方案是：一种存储有指令的非暂时性计算机可读介质，当指令执行时，处理器根据如上所述的一种Vision Transformer模型结构优化方法中的步骤执行。

有益效果：本发明通过有效结合卷积神经网络与Transformer中的多头注意力层，向Vision Transformer中有效的引入的归纳偏置，提高了模型对图片/图像数据的建模性能。相较于原始的Vision Transformer模型，本方法能够更加高效地给出图片/图像数据的建模结果(如图片分类)。

附图说明

图1为本发明实施例1中的系统组成框图；

图2为本发明实施例2中图片分类的示意图。

具体实施方式

实施例1：如图1所示，一种Vision Transformer模型结构优化系统，它包括：映射单元以及建模单元。

映射单元包括：对图片数据进行切块操作，并完成对图片块的高维化映射处理的卷积层；以及，用于过滤掉冗余高维向量的池化层。

建模单元包括：由多个优化的Transformer编码器首尾依次相连组成的级联的优化的Transformer编码器；优化的Transformer编码器包括：归一化层、多头注意力层、卷积层、全连接层；建模单元用于将映射单元生成的高维向量进行建模。

对于每一个优化的Transformer编码器来说，首先，映射单元生成的高维向量经过优化的Transformer编码器中归一化层进行归一化处理，生成数据1；接着，数据1的一部分数据经过多头注意力层进行处理生成数据2；同时，数据1的另一部分数据经过卷积层进行处理生成数据3；接着，数据1和数据3进行拼接生成数据4；接着，数据4与数据1进行相加生成数据5；数据5经过另一个归一化层进行归一化处理生成数据6；接着，数据6经过全连接网络进行处理生成数据7；接着，数据7与数据5进行相加生成数据8；接着，数据8输入下一个优化的Transformer编码器；直至下一个优化的Transformer编码器若不存在，则将数据8作为模型的建模结果输出。

实施例2：如图2所示，一种Vision Transformer模型结构优化方法，图片首先被图片块映射层中的卷积层建模，然后通过图片块映射层中的最大池化层选择一些较大的值最为最终结果，产生高维向量。接着向高维向量添加一个用于分类的分类向量。然后输入到由多个级联的优化的Transformer编码器中进行建模。在建模过程中，优化的Transformer编码器中的卷积层和多头注意力层分别处理一部分的数据，并且越靠后的卷积层处理的数据占比会逐渐减少，多头注意力层则与之相反。最终将建模后的分类向量输入一个全连接层，由此输出该图片属于某个类别的概率。

方法具体包括以下步骤：

S1.利用映射单元对图片数据进行处理，得到高维向量。

S2.利用建模单元将高维向量进行建模。

S201.高维向量经所述建模单元中归一化层进行归一化处理。

S204.对S202及S203处理后的数据进行拼接。

若下一个优化的Transformer编码器不存在，则将S208得到的数据作为模型的建模结果输出，为下游视觉处理业务所应用，如分类、目标检测、语义分割等。本例中，将最后一个优化的Transformer编码器的输出中的分类向量会作为一个全连接层的输入，全连接层输出一个概率向量，向量中的每个值为预测图片属于某个类的概率。

实施例3：一种存储有指令的非暂时性计算机可读介质，当指令执行时，处理器根据如实施例2所述的一种Vision Transformer模型结构优化方法中的步骤执行。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种Vision Transformer模型结构优化系统，其特征在于，它包括：映射单元以及建模单元；

所述映射单元包括：对图片数据进行切块操作，并完成对图片块的高维化映射处理的卷积层；以及，用于过滤掉冗余高维向量的池化层；

2.一种Vision Transformer模型结构优化方法，它基于如权利要求1所述的一种Vision Transformer模型结构优化系统，其特征在于，包括以下步骤：

S1.利用映射单元对图片数据进行处理，得到高维向量；

S101.利用所述映射单元中的卷积层对所述图片数据进行切块操作，并完成对图片块的高维化映射处理；

S102.利用所述映射单元中的池化层过滤掉冗余的高维向量；

S2.利用建模单元将高维向量进行建模；

S201.高维向量经所述建模单元中归一化层进行归一化处理；

S202.归一化处理后的高维向量中的一部分数据经过所述建模单元中多头注意力层进行处理；

S203.归一化处理后的高维向量中的另一部分数据经过所述建模单元中卷积层进行处理；

S204.对S202及S203处理后的数据进行拼接；

S205.对S204得到的拼接数据与S201中处理前的高维向量进行相加；

S206.将相加后的数据再次经过所述建模单元中归一化层进行归一化处理；

S207.将再次归一化处理后的数据经过所述建模单元中全连接层进行处理；

S208.将S207中经过全连接处理后的数据与S205中相加后的数据再次进行相加；

S209若下一个优化的Transformer编码器存在，则将S208得到的数据输入下一个优化的Transformer编码器，重复步骤S201～S208；

若下一个优化的Transformer编码器不存在，则将S208得到的数据作为模型的建模结果输出。

3.一种存储有指令的非暂时性计算机可读介质，其特征在于，当指令执行时，处理器根据权利要求2所述的一种Vision Transformer模型结构优化方法中的步骤执行。