CN116091842A - 一种Vision Transformer模型结构优化系统、方法、介质 - Google Patents

一种Vision Transformer模型结构优化系统、方法、介质 Download PDF

Info

Publication number
CN116091842A
CN116091842A CN202310177844.2A CN202310177844A CN116091842A CN 116091842 A CN116091842 A CN 116091842A CN 202310177844 A CN202310177844 A CN 202310177844A CN 116091842 A CN116091842 A CN 116091842A
Authority
CN
China
Prior art keywords
data
layer
processing
modeling
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310177844.2A
Other languages
English (en)
Other versions
CN116091842B (zh
Inventor
王敬超
夏瑞
邓博于
任双印
薛超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Systems Engineering of PLA Academy of Military Sciences
Original Assignee
Institute of Systems Engineering of PLA Academy of Military Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Systems Engineering of PLA Academy of Military Sciences filed Critical Institute of Systems Engineering of PLA Academy of Military Sciences
Priority to CN202310177844.2A priority Critical patent/CN116091842B/zh
Publication of CN116091842A publication Critical patent/CN116091842A/zh
Application granted granted Critical
Publication of CN116091842B publication Critical patent/CN116091842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明属于深度学习技术领域,特别涉及一种图像处理优化方法。一种Vision Transformer模型结构优化方法,包括以下步骤:S1.将图片数据利用图片块映射层,先切割为图片块后再分别处理为高维向量;S2.利用级联的优化的Transformer编码器,将所述高维向量进行建模。本发明通过有效结合卷积神经网络与Transformer中的多头注意力层,向Vision Transformer中有效的引入的归纳偏置,提高了模型对图片/图像数据的建模性能。相较于原始的Vision Transformer模型,本发明能够更加高效地给出图片/图像数据的建模结果。同时,本发明还公开了一种Vision Transformer模型结构优化系统及介质。

Description

一种Vision Transformer模型结构优化系统、方法、介质
技术领域
本发明属于深度学习技术领域,特别涉及一种图像处理优化系统、方法和介质。
背景技术
随着大数据时代的到来,海量的数据(图片、视频、声音、文字等等)亟待高效处理。深度学习作为一种数据驱动型技术应运而生。在如今计算机强有力的计算资源支持下,深度学习技术已广泛用于各行各业,其中热门行业之二为自然语言处理和图像处理。Transformer作为一种崭新的,基于纯自注意力机制的自然语言处理模型架构,自2017年提出以来,在自然语言处理领域的各个子研究方向均取得了最优的性能。2020年,谷歌基于相同模型统一自然处理与图像处理的出发点,提出了Vision Transformer。VisionTransformer作为一种崭新的图像处理模型架构,由于其拥有超越过去模型的性能,自提出以来就受到了业界广泛地关注。
然而,Vision Transformer的优越性能依赖于海量的标注数据(3亿),这阻碍了其在图像处理领域的快速发展。2021年,Mate AI提出了强数据增强方案支撑下的VisionTransformer(DeiT),基于1千万的图片标注数据训练,超越了Vision Transformer的性能。最近的研究发现,强数据增强方案支撑下的Vision Transformer依然是次优的,其根本原因之一为,Vision Transformer缺少传统图像处理网络(卷积神经网络)的归纳偏置,如局部侧重性。因此,为进一步提高Vision Transformer的性能,如何有效将卷积神经网络的归纳偏置融合到Vision Transformer是目前的研究热点。
发明内容
本发明的目的是:现有技术的不足,结合卷积神经网络,设计了基于递减卷积结构与多头注意力层相结合的,提升Vision Transformer性能的网络框架。
本发明的一个技术方案是:一种Vision Transformer模型结构优化系统,它包括:映射单元以及建模单元。
所述映射单元包括:对图片数据进行切块操作,并完成对图片块的高维化映射处理的卷积层;以及,用于过滤掉冗余高维向量的池化层。
所述建模单元包括:由多个优化的Transformer编码器首尾依次相连组成的级联的优化的Transformer编码器;所述优化的Transformer编码器包括:归一化层、多头注意力层、卷积层、全连接层;所述建模单元用于将所述映射单元生成的高维向量进行建模。
本发明的另一个技术方案是:一种Vision Transformer模型结构优化方法,它基于如上所述的一种Vision Transformer模型结构优化系统,包括以下步骤:
S1.利用映射单元对图片数据进行处理,得到高维向量。
S101.利用所述映射单元中的卷积层对所述图片数据进行切块操作,并完成对图片块的高维化映射处理。
S102.利用所述映射单元中的池化层过滤掉冗余的高维向量,以减少后续处理的计算量。
S2.利用建模单元将高维向量进行建模。
S201.高维向量经所述建模单元中归一化层进行归一化处理。
S202.归一化处理后的高维向量中的一部分数据经过所述建模单元中多头注意力层进行处理。
S203.归一化处理后的高维向量中的另一部分数据经过所述建模单元中卷积层进行处理。
S204.对S202及S203处理后的数据进行拼接。
S205.对S204得到的拼接数据与S201中处理前的高维向量进行相加。
S206.将相加后的数据再次经过所述建模单元中归一化层进行归一化处理。
S207.将再次归一化处理后的数据经过所述建模单元中全连接层进行处理。
S208.将S207中经过全连接处理后的数据与S205中相加后的数据再次进行相加。
S209若下一个优化的Transformer编码器存在,则将S208得到的数据输入下一个优化的Transformer编码器,重复步骤S201~S208。
若下一个优化的Transformer编码器不存在,则将S208得到的数据作为模型的建模结果输出,为下游视觉处理业务所应用,如分类、目标检测、语义分割等。
S202中经过多头注意力层进行处理的数据会随着级联位置的靠后而增加占比;S203中经过卷积层进行处理的数据会随着级联位置的靠后而减少占比。
本发明的第三个技术方案是:一种存储有指令的非暂时性计算机可读介质,当指令执行时,处理器根据如上所述的一种Vision Transformer模型结构优化方法中的步骤执行。
有益效果:本发明通过有效结合卷积神经网络与Transformer中的多头注意力层,向Vision Transformer中有效的引入的归纳偏置,提高了模型对图片/图像数据的建模性能。相较于原始的Vision Transformer模型,本方法能够更加高效地给出图片/图像数据的建模结果(如图片分类)。
附图说明
图1为本发明实施例1中的系统组成框图;
图2为本发明实施例2中图片分类的示意图。
具体实施方式
实施例1:如图1所示,一种Vision Transformer模型结构优化系统,它包括:映射单元以及建模单元。
映射单元包括:对图片数据进行切块操作,并完成对图片块的高维化映射处理的卷积层;以及,用于过滤掉冗余高维向量的池化层。
建模单元包括:由多个优化的Transformer编码器首尾依次相连组成的级联的优化的Transformer编码器;优化的Transformer编码器包括:归一化层、多头注意力层、卷积层、全连接层;建模单元用于将映射单元生成的高维向量进行建模。
对于每一个优化的Transformer编码器来说,首先,映射单元生成的高维向量经过优化的Transformer编码器中归一化层进行归一化处理,生成数据1;接着,数据1的一部分数据经过多头注意力层进行处理生成数据2;同时,数据1的另一部分数据经过卷积层进行处理生成数据3;接着,数据1和数据3进行拼接生成数据4;接着,数据4与数据1进行相加生成数据5;数据5经过另一个归一化层进行归一化处理生成数据6;接着,数据6经过全连接网络进行处理生成数据7;接着,数据7与数据5进行相加生成数据8;接着,数据8输入下一个优化的Transformer编码器;直至下一个优化的Transformer编码器若不存在,则将数据8作为模型的建模结果输出。
实施例2:如图2所示,一种Vision Transformer模型结构优化方法,图片首先被图片块映射层中的卷积层建模,然后通过图片块映射层中的最大池化层选择一些较大的值最为最终结果,产生高维向量。接着向高维向量添加一个用于分类的分类向量。然后输入到由多个级联的优化的Transformer编码器中进行建模。在建模过程中,优化的Transformer编码器中的卷积层和多头注意力层分别处理一部分的数据,并且越靠后的卷积层处理的数据占比会逐渐减少,多头注意力层则与之相反。最终将建模后的分类向量输入一个全连接层,由此输出该图片属于某个类别的概率。
方法具体包括以下步骤:
S1.利用映射单元对图片数据进行处理,得到高维向量。
S101.利用所述映射单元中的卷积层对所述图片数据进行切块操作,并完成对图片块的高维化映射处理。
S102.利用所述映射单元中的池化层过滤掉冗余的高维向量,以减少后续处理的计算量。
S2.利用建模单元将高维向量进行建模。
S201.高维向量经所述建模单元中归一化层进行归一化处理。
S202.归一化处理后的高维向量中的一部分数据经过所述建模单元中多头注意力层进行处理。
S203.归一化处理后的高维向量中的另一部分数据经过所述建模单元中卷积层进行处理。
S204.对S202及S203处理后的数据进行拼接。
S205.对S204得到的拼接数据与S201中处理前的高维向量进行相加。
S206.将相加后的数据再次经过所述建模单元中归一化层进行归一化处理。
S207.将再次归一化处理后的数据经过所述建模单元中全连接层进行处理。
S208.将S207中经过全连接处理后的数据与S205中相加后的数据再次进行相加。
S209若下一个优化的Transformer编码器存在,则将S208得到的数据输入下一个优化的Transformer编码器,重复步骤S201~S208。
若下一个优化的Transformer编码器不存在,则将S208得到的数据作为模型的建模结果输出,为下游视觉处理业务所应用,如分类、目标检测、语义分割等。本例中,将最后一个优化的Transformer编码器的输出中的分类向量会作为一个全连接层的输入,全连接层输出一个概率向量,向量中的每个值为预测图片属于某个类的概率。
实施例3:一种存储有指令的非暂时性计算机可读介质,当指令执行时,处理器根据如实施例2所述的一种Vision Transformer模型结构优化方法中的步骤执行。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (3)

1.一种Vision Transformer模型结构优化系统,其特征在于,它包括:映射单元以及建模单元;
所述映射单元包括:对图片数据进行切块操作,并完成对图片块的高维化映射处理的卷积层;以及,用于过滤掉冗余高维向量的池化层;
所述建模单元包括:由多个优化的Transformer编码器首尾依次相连组成的级联的优化的Transformer编码器;所述优化的Transformer编码器包括:归一化层、多头注意力层、卷积层、全连接层;所述建模单元用于将所述映射单元生成的高维向量进行建模。
2.一种Vision Transformer模型结构优化方法,它基于如权利要求1所述的一种Vision Transformer模型结构优化系统,其特征在于,包括以下步骤:
S1.利用映射单元对图片数据进行处理,得到高维向量;
S101.利用所述映射单元中的卷积层对所述图片数据进行切块操作,并完成对图片块的高维化映射处理;
S102.利用所述映射单元中的池化层过滤掉冗余的高维向量;
S2.利用建模单元将高维向量进行建模;
S201.高维向量经所述建模单元中归一化层进行归一化处理;
S202.归一化处理后的高维向量中的一部分数据经过所述建模单元中多头注意力层进行处理;
S203.归一化处理后的高维向量中的另一部分数据经过所述建模单元中卷积层进行处理;
S204.对S202及S203处理后的数据进行拼接;
S205.对S204得到的拼接数据与S201中处理前的高维向量进行相加;
S206.将相加后的数据再次经过所述建模单元中归一化层进行归一化处理;
S207.将再次归一化处理后的数据经过所述建模单元中全连接层进行处理;
S208.将S207中经过全连接处理后的数据与S205中相加后的数据再次进行相加;
S209若下一个优化的Transformer编码器存在,则将S208得到的数据输入下一个优化的Transformer编码器,重复步骤S201~S208;
若下一个优化的Transformer编码器不存在,则将S208得到的数据作为模型的建模结果输出。
3.一种存储有指令的非暂时性计算机可读介质,其特征在于,当指令执行时,处理器根据权利要求2所述的一种Vision Transformer模型结构优化方法中的步骤执行。
CN202310177844.2A 2023-02-23 2023-02-23 一种Vision Transformer模型结构优化系统、方法、介质 Active CN116091842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310177844.2A CN116091842B (zh) 2023-02-23 2023-02-23 一种Vision Transformer模型结构优化系统、方法、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310177844.2A CN116091842B (zh) 2023-02-23 2023-02-23 一种Vision Transformer模型结构优化系统、方法、介质

Publications (2)

Publication Number Publication Date
CN116091842A true CN116091842A (zh) 2023-05-09
CN116091842B CN116091842B (zh) 2023-10-27

Family

ID=86210235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310177844.2A Active CN116091842B (zh) 2023-02-23 2023-02-23 一种Vision Transformer模型结构优化系统、方法、介质

Country Status (1)

Country Link
CN (1) CN116091842B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034436A1 (en) * 2018-07-26 2020-01-30 Google Llc Machine translation using neural network models
CN110751644A (zh) * 2019-10-23 2020-02-04 上海应用技术大学 道路表面裂纹检测方法
CN114154017A (zh) * 2021-11-26 2022-03-08 哈尔滨工程大学 一种无监督可见光与红外双向跨模态行人搜索方法
CN114445420A (zh) * 2021-12-31 2022-05-06 湖南科技大学 编解码结构结合注意力机制的图像分割模型及其训练方法
CN114611792A (zh) * 2022-03-11 2022-06-10 南通大学 一种基于混合CNN-Transformer模型的大气臭氧浓度预测方法
CN114820828A (zh) * 2022-05-19 2022-07-29 国网山东省电力公司聊城供电公司 一种基于Vision Transformer的图像压缩感知重构方法及系统
CN114896733A (zh) * 2022-05-20 2022-08-12 合肥工业大学 一种基于深度强化学习的滚动轴承故障类型识别方法
CN115482241A (zh) * 2022-10-21 2022-12-16 上海师范大学 一种跨模态双分支互补融合的图像分割方法及装置
CN115512360A (zh) * 2022-09-14 2022-12-23 阿里巴巴(中国)有限公司 文本识别方法、装置、设备及存储介质
US20220415027A1 (en) * 2021-06-29 2022-12-29 Shandong Jianzhu University Method for re-recognizing object image based on multi-feature information capture and correlation analysis
CN115661635A (zh) * 2022-09-22 2023-01-31 深圳大学 基于Transformer融合卷积神经网络的高光谱图像重建方法
EP4125000A1 (en) * 2021-07-29 2023-02-01 Koninklijke Philips N.V. Generating location data

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200034436A1 (en) * 2018-07-26 2020-01-30 Google Llc Machine translation using neural network models
CN110751644A (zh) * 2019-10-23 2020-02-04 上海应用技术大学 道路表面裂纹检测方法
US20220415027A1 (en) * 2021-06-29 2022-12-29 Shandong Jianzhu University Method for re-recognizing object image based on multi-feature information capture and correlation analysis
EP4125000A1 (en) * 2021-07-29 2023-02-01 Koninklijke Philips N.V. Generating location data
CN114154017A (zh) * 2021-11-26 2022-03-08 哈尔滨工程大学 一种无监督可见光与红外双向跨模态行人搜索方法
CN114445420A (zh) * 2021-12-31 2022-05-06 湖南科技大学 编解码结构结合注意力机制的图像分割模型及其训练方法
CN114611792A (zh) * 2022-03-11 2022-06-10 南通大学 一种基于混合CNN-Transformer模型的大气臭氧浓度预测方法
CN114820828A (zh) * 2022-05-19 2022-07-29 国网山东省电力公司聊城供电公司 一种基于Vision Transformer的图像压缩感知重构方法及系统
CN114896733A (zh) * 2022-05-20 2022-08-12 合肥工业大学 一种基于深度强化学习的滚动轴承故障类型识别方法
CN115512360A (zh) * 2022-09-14 2022-12-23 阿里巴巴(中国)有限公司 文本识别方法、装置、设备及存储介质
CN115661635A (zh) * 2022-09-22 2023-01-31 深圳大学 基于Transformer融合卷积神经网络的高光谱图像重建方法
CN115482241A (zh) * 2022-10-21 2022-12-16 上海师范大学 一种跨模态双分支互补融合的图像分割方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
康雁;崔国荣;李浩;杨其越;李晋源;王沛尧;: "融合自注意力机制和多路金字塔卷积的软件需求聚类算法", 计算机科学, no. 03 *

Also Published As

Publication number Publication date
CN116091842B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN113378580B (zh) 文档版面分析方法、模型训练方法、装置和设备
JP7286810B2 (ja) テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体
CN113590858B (zh) 目标对象的生成方法、装置、电子设备以及存储介质
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
JP7264951B2 (ja) オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
WO2023040306A1 (zh) 多模态预训练方法和装置
WO2023159746A1 (zh) 基于图像分割的图像抠图方法、装置、计算机设备及介质
CN115409855B (zh) 图像处理方法、装置、电子设备和存储介质
CN113869138A (zh) 多尺度目标检测方法、装置及计算机可读存储介质
CN113408272A (zh) 摘要生成模型的训练方法、装置、设备和存储介质
CN116385947B (zh) 一种视频目标分割方法、装置、计算机设备及存储介质
KR20230123449A (ko) 문서 이미지의 인식 방법, 장치, 저장 매체 및 전자 기기
CN113705575B (zh) 一种图像分割方法、装置、设备及存储介质
CN114242113B (zh) 语音检测方法、训练方法、装置和电子设备
JP7309811B2 (ja) データ注釈方法、装置、電子機器および記憶媒体
CN113160820B (zh) 语音识别的方法、语音识别模型的训练方法、装置及设备
CN113361523A (zh) 文本确定方法、装置、电子设备和计算机可读存储介质
CN116091842B (zh) 一种Vision Transformer模型结构优化系统、方法、介质
US20240021000A1 (en) Image-based information extraction model, method, and apparatus, device, and storage medium
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
CN114399646B (zh) 一种基于Transformer结构的图像描述方法和装置
US10910014B2 (en) Method and apparatus for generating video
CN113361522A (zh) 确定字符序列的方法、装置和电子设备
CN113421267A (zh) 一种基于改进PointConv的点云语义与实例联合分割方法及系统
CN113554042A (zh) 神经网络及其训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant