CN114494791B - 一种基于注意力选择的transformer运算精简方法及装置 - Google Patents

一种基于注意力选择的transformer运算精简方法及装置 Download PDF

Info

Publication number
CN114494791B
CN114494791B CN202210353591.5A CN202210353591A CN114494791B CN 114494791 B CN114494791 B CN 114494791B CN 202210353591 A CN202210353591 A CN 202210353591A CN 114494791 B CN114494791 B CN 114494791B
Authority
CN
China
Prior art keywords
unimportant
identifications
image
identifiers
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210353591.5A
Other languages
English (en)
Other versions
CN114494791A (zh
Inventor
苏慧
程乐超
王聪
卢修生
宋明黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210353591.5A priority Critical patent/CN114494791B/zh
Publication of CN114494791A publication Critical patent/CN114494791A/zh
Application granted granted Critical
Publication of CN114494791B publication Critical patent/CN114494791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于注意力选择的transformer运算精简方法,在transformer网络的每层用注意力机制获取关联矩阵,对关联矩阵的每一行计算信息熵,获得各个局部标识对于网络任务的重要性程度,将局部标识划分为重要标识和不重要标识,每间隔一定网络层,计算不重要标识的特征参数和,将不重要标识的特征参数值加到重要标识上,删除不重要标识,仅重要标识进入网络下一层。网络训练过程中,构建交叉熵损失函数和重要性损失函数,重要性损失函数用于降低重要标识与不重要标识的关联。本发明方法从影响网络任务的判别性区域的选择角度出发,实现方法简单,有效减少网络计算量的同时,对模型精度影响很小,且可以与已知网络压缩方法同时使用,共同实现计算量压缩。

Description

一种基于注意力选择的transformer运算精简方法及装置
技术领域
本发明涉及模型压缩技术领域,特别涉及一种基于注意力选择的transformer运算精简方法及装置。
背景技术
深度神经网络作为机器学习的主流分支,网络结构获得了不断的创新。近年来提出的transformer网络结构在自然语言处理任务上展示了强大的表现能力,并扩展到计算机视觉任务中。然而,transformer较大的计算复杂度导致了其效率低下,如何有效压缩transformer网络结构的计算量,实现模型的高效、高性能实现,成为新的研究方向。
在transformer网络计算量压缩领域,除了常规的用复杂网络蒸馏简单网络、网络结构剪枝、模型参数精度量化等压缩方法外,研究者们还针对自注意力机制二次复杂度方面展开各方面优化,试图用更高效、线性复杂度的注意力机制替代,比如fastformer用加性注意替代乘性注意建模全局上下文,实现每个局部标识(token)与全局上下文表示的交互;lite transformer分析自注意力计算的冗余问题,仅保留部分自注意力用于长距离依赖,用卷积方法替代自注意力获取短距离关系,从而减少计算量;Linformer方法构建低秩矩阵近似表示自注意力机制,实现时间和空间的压缩。然而,多数方法在自然语言处理任务上实现了有效应用,但是在计算机视觉方面上却效果受限。
发明内容
本发明的目的在于提供一种基于注意力选择的transformer运算精简方法及装置,以克服现有技术中transformer模型计算复杂度高,效率低下的问题。
为实现上述目的,本发明提供如下技术方案:
本申请公开了一种基于注意力选择的transformer运算精简方法,包括以下步骤:
S1、构建分类数据集;所述分类数据集由若干个分类数据图像构成;
S2、调整分类数据图像的宽、高,将分类数据图像不交叠地切分若干个图像块,将各个图像块进行编码作为局部标识;所有局部标识构成图像标识;
S3、将图像标识送入transformer网络获得各个图像块特征信息;所述transformer网络由若干个transformer层构成;每隔n个transformer层,结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度,将局部标识分为不重要标识和重要标识;对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,重要标识送入下一个transformer层;
S4、构建重要性损失函数和交叉熵损失函数,训练模型。
作为优选,步骤S2中调整分类数据图像的宽、高都为448,将分类数据图像不交叠地切分为784个宽、高都为16的图像块。
作为优选,步骤S2中,对所有图像块做卷积操作,加上可训练位置嵌入,生成图像标识。
作为优选,步骤S3中具体包括如下子步骤:
S31、将图像标识送入transformer层中进行特征提取,并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联,生成关联矩阵;
S32、对关联矩阵逐行计算信息熵,获得各个局部标识对于图像分类的重要性程度;对信息熵结果进行排序,值最小的top-n个局部标识作为不重要标识,其他局部标识作为重要标识;
S33、对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,仅重要标识进入下一个transformer层。
作为优选,所述步骤S4中的具体操作如下:对transformer网络的每一层构建重要性损失函数引导transformer网络仅保留重要标识的特征信息;对最后分类结果构建交叉熵损失函数;训练模型。
作为优选,步骤S3中n的取值为3。
本申请还公开了一种基于注意力选择的transformer运算精简装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述的一种基于注意力选择的transformer运算精简方法。
本申请还公开了一种计算机可读存储介质,,其上存储有程序,该程序被处理器执行时,实现上述的一种基于注意力选择的transformer运算精简方法。
本发明的有益效果:
本发明公开了一种基于注意力选择的transformer运算精简方法,该方法在transformer网络的每层用注意力机制获取关联矩阵,对关联矩阵的每一行计算信息熵,获得各个局部标识(image token)对于网络任务的重要性程度,将局部标识划分为重要标识和不重要标识。计算不重要标识的特征参数和,将不重要标识的特征参数值加到重要标识上,删除不重要标识,仅重要标识进入网络下一层。网络训练过程中,构建交叉熵损失函数和重要性损失函数,交叉熵损失函数用于图像分类,重要性损失函数用于降低重要标识与不重要标识的关联。
本发明的特征及优点将通过实施例结合附图进行详细说明。
附图说明
图1为本发明一种基于注意力选择的transformer运算精简方法的流程示意图图;
图2为利用关联矩阵信息熵获得的图像注意力热度图;
图3是本发明的网络计算量压缩前后测试结果;
图4是本发明一种基于注意力选择的transformer运算精简装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明一种基于注意力选择的transformer运算精简方法,包括以下步骤:
S1、构建分类数据集;所述分类数据集由若干个分类数据图像构成;
S2、调整分类数据图像的宽、高,将分类数据图像不交叠地切分若干个图像块,将各个图像块进行编码作为局部标识;所有局部标识构成图像标识;
S3、将图像标识送入transformer网络获得各个图像块特征信息;所述transformer网络由若干个transformer层构成;每隔n个transformer层,结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度,将局部标识分为不重要标识和重要标识;对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,重要标识送入下一个transformer层;
S4、构建重要性损失函数和交叉熵损失函数,训练模型。
在一种可行的实施例中,步骤S2中调整分类数据图像的宽、高都为448,将分类数据图像不交叠地切分为784个宽、高都为16的图像块。
在一种可行的实施例中,步骤S2中,对所有图像块做卷积操作,加上可训练位置嵌入,生成图像标识。
在一种可行的实施例中,步骤S3中具体包括如下子步骤:
S31、将图像标识送入transformer层中进行特征提取,并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联,生成关联矩阵;
S32、对关联矩阵逐行计算信息熵,获得各个局部标识对于图像分类的重要性程度;对信息熵结果进行排序,值最小的top-n个局部标识作为不重要标识,其他局部标识作为重要标识;
S33、对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,仅重要标识进入下一个transformer层。
在一种可行的实施例中,所述步骤S4中的具体操作如下:对transformer网络的每一层构建重要性损失函数引导transformer网络仅保留重要标识的特征信息;对最后分类结果构建交叉熵损失函数;训练模型。
在一种可行的实施例中,步骤S3中n的取值为3。
实施例:
步骤S1:构建汽车分类数据集共16,185张,其中8144张为训练集,8041张为测试集。汽车数据集共196类,主要基于汽车品牌、车型、年份实现类别划分;
步骤S2:调整汽车分类数据的宽、高都为448,将图像不交叠地切分784(28*28)个为宽、高都为16的图像块,这些图像块进行编码作为局部标识(part token)。将局部标识送入transformer网络获得各个图像块特征信息;
步骤S3:针对transformer结构,每隔3层,结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度,删除不重要的局部标识,剩余局部标识送入下一层;对于被删除的局部标识,计算其特征参数和。将参数值均匀赋予送入下一层的局部标识;
步骤S4:构建重要性损失函数和交叉熵损失函数,训练模型。
所述步骤S1中,给定
Figure 556072DEST_PATH_IMAGE001
个样本和
Figure 535530DEST_PATH_IMAGE002
个类别的汽车数据
Figure 112005DEST_PATH_IMAGE003
Figure 303952DEST_PATH_IMAGE004
为样本,
Figure 915061DEST_PATH_IMAGE005
为属性分类标签。
所述步骤S2中,将宽、高都为448的图像切分为784(28*28)个宽、高都为16的不重叠图像块。对所有图像块做卷积操作,再加上可训练位置嵌入(position embedding),生成图像标识。
Figure 534262DEST_PATH_IMAGE006
其中,
Figure 332453DEST_PATH_IMAGE007
表示卷积映射操作,
Figure 331021DEST_PATH_IMAGE008
表示第
Figure 327796DEST_PATH_IMAGE009
个图像块,
Figure 773689DEST_PATH_IMAGE010
表示图像块数目,
Figure 324756DEST_PATH_IMAGE011
表示位置嵌入。
Figure 858506DEST_PATH_IMAGE012
表示送入第1层transformer层的图像标识,
Figure 444208DEST_PATH_IMAGE012
共有
Figure 204878DEST_PATH_IMAGE010
个序列(
Figure 243241DEST_PATH_IMAGE010
个局部标识,本发明中
Figure 580682DEST_PATH_IMAGE010
=784),特征维度为C(本发明中C=768)。
所述步骤S3中,将图像标识送入transformer层中进行特征提取,并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联,生成关联矩阵。
Figure 286470DEST_PATH_IMAGE013
Figure 418374DEST_PATH_IMAGE014
Figure 678454DEST_PATH_IMAGE015
Figure 85164DEST_PATH_IMAGE016
Figure 379879DEST_PATH_IMAGE017
Figure 213843DEST_PATH_IMAGE018
Figure 964149DEST_PATH_IMAGE019
其中,
Figure 908971DEST_PATH_IMAGE020
表示自注意力机制的公式,
Figure 58193DEST_PATH_IMAGE021
表示送入第
Figure 797479DEST_PATH_IMAGE022
层的图像标识,
Figure 32151DEST_PATH_IMAGE023
分别表示三个结构一致,参数初始化不同的全连接结构,
Figure 249506DEST_PATH_IMAGE024
分别表示自注意力计算的三个矩阵元素,长、宽分别为
Figure 518813DEST_PATH_IMAGE025
Figure 429000DEST_PATH_IMAGE026
标识单头特征长度。
Figure 150969DEST_PATH_IMAGE027
为关联矩阵,其宽、高分别为
Figure 172014DEST_PATH_IMAGE028
, 关联矩阵的每一行表示单个局部标识和所有局部标识的关联程度。
Figure 287039DEST_PATH_IMAGE029
表示
Figure 368127DEST_PATH_IMAGE021
经历自注意力机制后的标识。
Figure 842971DEST_PATH_IMAGE030
表示
Figure 667708DEST_PATH_IMAGE029
经历多层感知机操作后的标识,一个transformer层包含一个自注意力机制和一个多层感知机操作,因此
Figure 911607DEST_PATH_IMAGE030
同时也是
Figure 163597DEST_PATH_IMAGE021
经历一个transformer层后得到的标识。
Figure 860158DEST_PATH_IMAGE031
表示多层感知机操作。
所述步骤S3中,对关联矩阵逐行计算信息熵,获得各个局部标识对于图像分类的重要性程度。对信息熵结果进行排序,值最小的topn(topn=200)部标识作为不重要标识,其他局部标识作为重要标识。
Figure 223006DEST_PATH_IMAGE032
其中,
Figure 586991DEST_PATH_IMAGE033
表示对关联矩阵的信息熵简化公式,
Figure 12812DEST_PATH_IMAGE034
表示关联矩阵,
Figure 462248DEST_PATH_IMAGE035
表示特征的维度系数。
Figure 628787DEST_PATH_IMAGE036
表示对关联矩阵的第
Figure 316120DEST_PATH_IMAGE035
维逐个计算当前维度下的最大值,
Figure 909912DEST_PATH_IMAGE037
表示对关联矩阵的第
Figure 315486DEST_PATH_IMAGE035
维逐个计算当前维度下的平均值。本发明中,
Figure 285716DEST_PATH_IMAGE038
,表示对关联矩阵的每一行,计算当前行中所有列的最大值与当前行所有列的平均值的比值,比值结果尺寸为
Figure 358714DEST_PATH_IMAGE039
,表示
Figure 123408DEST_PATH_IMAGE040
个局部标识的重要性程度。
针对不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,仅重要标识进入网络下一层。该步骤保证进入下一层网络的参数值的和与当前层一致,防止网络训练过程中因为删减标识导致层间参数总和变化过大,训练不稳定。
Figure 16278DEST_PATH_IMAGE041
Figure 527549DEST_PATH_IMAGE042
Figure 189475DEST_PATH_IMAGE043
Figure 125069DEST_PATH_IMAGE044
其中,
Figure 505235DEST_PATH_IMAGE045
表示
Figure 817268DEST_PATH_IMAGE046
经历第
Figure 599279DEST_PATH_IMAGE047
层transformer层后得到的标识,利用步骤3的信息熵简化公式将
Figure 705775DEST_PATH_IMAGE045
分为重要标识
Figure 573237DEST_PATH_IMAGE048
和不重要标识
Figure 157802DEST_PATH_IMAGE049
Figure 59899DEST_PATH_IMAGE050
表示统计特征的元素个数,
Figure 340227DEST_PATH_IMAGE051
表示重要标识
Figure 429405DEST_PATH_IMAGE048
的元素个数,即
Figure 348820DEST_PATH_IMAGE048
各个维度大小的乘积;
Figure 839844DEST_PATH_IMAGE052
表示计算特征的所有元素和,
Figure 288143DEST_PATH_IMAGE053
表示不重要标识
Figure 130197DEST_PATH_IMAGE054
的所有元素值的和。
Figure 587723DEST_PATH_IMAGE055
表示第
Figure 933254DEST_PATH_IMAGE056
层transformer层的输入。
所述步骤S4中,对网络的每一层构建重要性损失函数引导网络仅保留重要标识的特征信息;对最后分类结果构建交叉熵损失函数。训练模型。
Figure 818033DEST_PATH_IMAGE057
Figure 147383DEST_PATH_IMAGE058
其中,
Figure 423249DEST_PATH_IMAGE059
表示重要性损失函数,用于控制重要标识中不引入不重要标识,维护重要标识特征信息的质量,
Figure 888865DEST_PATH_IMAGE060
表示第
Figure 944546DEST_PATH_IMAGE061
层transformer层的关联矩阵,
Figure 761192DEST_PATH_IMAGE062
表示第
Figure 294942DEST_PATH_IMAGE061
层transformer层中重要标识所在的位置系数,
Figure 880644DEST_PATH_IMAGE063
表示第
Figure 841647DEST_PATH_IMAGE061
层transformer层中不重要标识所在的位置系数,
Figure 880010DEST_PATH_IMAGE064
表示从关联矩阵提取
Figure 217450DEST_PATH_IMAGE065
Figure 926168DEST_PATH_IMAGE066
列的信息,
Figure 323651DEST_PATH_IMAGE067
表示L1操作。
Figure 849310DEST_PATH_IMAGE068
表示交叉熵损失函数,用于分类任务,
Figure 990442DEST_PATH_IMAGE069
表示输入数据,
Figure 550736DEST_PATH_IMAGE070
表示数据类别标签。
定义与数学符号
本发明主要解决transformer模型计算复杂度高,效率低下的问题。这里正式定义
Figure 853541DEST_PATH_IMAGE071
个样本和
Figure 132076DEST_PATH_IMAGE072
个类别的汽车数据
Figure 811319DEST_PATH_IMAGE073
Figure DEST_PATH_IMAGE074
为样本,
Figure 760208DEST_PATH_IMAGE075
为属性分类标签。网络测试结果为
Figure DEST_PATH_IMAGE076
,其中
Figure 561811DEST_PATH_IMAGE077
为网络参数,
Figure DEST_PATH_IMAGE078
为模型网络映射函数。
实验实施细节
本发明的方法使用Pytorch框架进行实验,在Stanford Cars汽车数据上使用初始学习率为0.03的SGD优化器,训练过程中,图像尺寸调整至600*600,在随机裁剪至448*448大小,同时将图像随机左右翻转,亮度、对比度、饱和度均在原有基础上随机波动40%,最后再进行自动数据增强操作。数据训练统一四个gpu分布式训练,每个gpu的batch size为16,训练15000步数。使用的transformer网络共12个transformer层,图像先使用卷积操作下采样生成28*28的局部标识后再送入transformer网络中,因此transformer网络的局部标识为784(28*28=784)个。计算量压缩后的网络,每间隔n=3个transformer层删除topn=200个局部标识,最后输出网络的局部标识仅185个,计算量压缩为原来的0.62倍。
参阅图2,图2为利用关联矩阵信息熵获得的图像注意力热度图;可以看到,使用关联矩阵信息熵的方法,网络的注意力会关注到车轮、车灯、车体轮廓等有利于识别车辆类别的判别性区域。对车的窗面、车面等无法识别车辆类别的区域,网络关注度很低。
参阅图3,图3分别展示了使用本发明方法进行计算量压缩和不进行压缩的网络分别在汽车数据上测试的准确率结果,以及本发明方法的计算量压缩比例情况。可以看到,使用本发明方法对网络的计算量实现了较大的压缩,而精度损失却很小。
本发明一种基于注意力选择的transformer运算精简装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种基于注意力选择的transformer运算精简装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于注意力选择的transformer运算精简装置。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于注意力选择的transformer运算精简方法,其特征在于,包括以下步骤:
S1、构建分类数据集;所述分类数据集由若干个分类数据图像构成;
S2、调整分类数据图像的宽、高,将分类数据图像不交叠地切分若干个图像块,将各个图像块进行编码作为局部标识;所有局部标识构成图像标识;
S3、将图像标识送入transformer网络获得各个图像块特征信息;所述transformer网络由若干个transformer层构成;每隔n个transformer层,结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度,将局部标识分为不重要标识和重要标识;对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,重要标识送入下一个transformer层;具体包括如下子步骤:
S31、将图像标识送入transformer层中进行特征提取,并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联,生成关联矩阵;
S32、对关联矩阵逐行计算信息熵,获得各个局部标识对于图像分类的重要性程度;对信息熵结果进行排序,值最小的top-n个局部标识作为不重要标识,其他局部标识作为重要标识;
S33、对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,仅重要标识进入下一个transformer层;
S4、构建重要性损失函数和交叉熵损失函数,训练模型;所述重要性损失函数如下:
Figure 299891DEST_PATH_IMAGE001
,其中,
Figure 261638DEST_PATH_IMAGE002
表示重要性损失函数,用于控制重要标识中不引入不重要标识,维护重要标识特征信息的质量,
Figure 432856DEST_PATH_IMAGE003
表示第
Figure 715939DEST_PATH_IMAGE004
层transformer层的关联矩阵,
Figure 630805DEST_PATH_IMAGE005
表示第
Figure 699255DEST_PATH_IMAGE004
层transformer层中重要标识所在的位置系数,
Figure 57687DEST_PATH_IMAGE006
表示第
Figure 109956DEST_PATH_IMAGE004
层transformer层中不重要标识所在的位置系数,
Figure 828514DEST_PATH_IMAGE007
表示从关联矩阵提取
Figure 282629DEST_PATH_IMAGE005
Figure 44917DEST_PATH_IMAGE006
列的信息,
Figure 318904DEST_PATH_IMAGE008
表示L1操作。
2.根据权利要求1所述的一种基于注意力选择的transformer运算精简方法,其特征在于:步骤S2中调整分类数据图像的宽、高都为448,将分类数据图像不交叠地切分为784个宽、高都为16的图像块。
3.根据权利要求1所述的一种基于注意力选择的transformer运算精简方法,其特征在于,步骤S2中,对所有图像块做卷积操作,加上可训练位置嵌入,生成图像标识。
4.根据权利要求1所述的一种基于注意力选择的transformer运算精简方法,其特征在于:步骤S3中n的取值为3。
5.一种基于注意力选择的transformer运算精简装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-4中任一项所述的一种基于注意力选择的transformer运算精简方法。
6.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-4中任一项所述的一种基于注意力选择的transformer运算精简方法。
CN202210353591.5A 2022-04-06 2022-04-06 一种基于注意力选择的transformer运算精简方法及装置 Active CN114494791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210353591.5A CN114494791B (zh) 2022-04-06 2022-04-06 一种基于注意力选择的transformer运算精简方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210353591.5A CN114494791B (zh) 2022-04-06 2022-04-06 一种基于注意力选择的transformer运算精简方法及装置

Publications (2)

Publication Number Publication Date
CN114494791A CN114494791A (zh) 2022-05-13
CN114494791B true CN114494791B (zh) 2022-07-08

Family

ID=81488756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210353591.5A Active CN114494791B (zh) 2022-04-06 2022-04-06 一种基于注意力选择的transformer运算精简方法及装置

Country Status (1)

Country Link
CN (1) CN114494791B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311504B (zh) * 2022-10-10 2023-01-31 之江实验室 一种基于注意力重定位的弱监督定位方法和装置
CN115761437B (zh) * 2022-11-09 2024-02-06 北京百度网讯科技有限公司 基于视觉转换器的图像处理方法、训练方法和电子设备
CN116152575B (zh) * 2023-04-18 2023-07-21 之江实验室 基于类激活采样引导的弱监督目标定位方法、装置和介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104481508A (zh) * 2014-09-10 2015-04-01 大庆明达韦尔信息系统服务有限公司 用信息熵结合灰度关联矩阵实现油田抽油机井故障诊断的方法
CN109800754A (zh) * 2018-12-06 2019-05-24 杭州电子科技大学 一种基于卷积神经网络的古字体分类方法
CN113011192A (zh) * 2021-03-16 2021-06-22 广东工业大学 基于注意力因果解释的文本情感特征提取方法
US11080607B1 (en) * 2020-12-16 2021-08-03 Ro5 Inc. Data platform for automated pharmaceutical research using knowledge graph
WO2021174871A1 (zh) * 2020-09-01 2021-09-10 平安科技(深圳)有限公司 数据查询方法、系统、计算机设备及存储介质
CN113763933A (zh) * 2021-05-06 2021-12-07 腾讯科技(深圳)有限公司 语音识别方法、语音识别模型的训练方法、装置和设备
CN113823264A (zh) * 2021-06-30 2021-12-21 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质及计算机设备
CN113887610A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN114049584A (zh) * 2021-10-09 2022-02-15 百果园技术(新加坡)有限公司 一种模型训练和场景识别方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402448B2 (en) * 2017-06-28 2019-09-03 Google Llc Image retrieval with deep local feature descriptors and attention-based keypoint descriptors
CN113343937B (zh) * 2021-07-15 2022-09-02 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104481508A (zh) * 2014-09-10 2015-04-01 大庆明达韦尔信息系统服务有限公司 用信息熵结合灰度关联矩阵实现油田抽油机井故障诊断的方法
CN109800754A (zh) * 2018-12-06 2019-05-24 杭州电子科技大学 一种基于卷积神经网络的古字体分类方法
WO2021174871A1 (zh) * 2020-09-01 2021-09-10 平安科技(深圳)有限公司 数据查询方法、系统、计算机设备及存储介质
US11080607B1 (en) * 2020-12-16 2021-08-03 Ro5 Inc. Data platform for automated pharmaceutical research using knowledge graph
CN113011192A (zh) * 2021-03-16 2021-06-22 广东工业大学 基于注意力因果解释的文本情感特征提取方法
CN113763933A (zh) * 2021-05-06 2021-12-07 腾讯科技(深圳)有限公司 语音识别方法、语音识别模型的训练方法、装置和设备
CN113823264A (zh) * 2021-06-30 2021-12-21 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质及计算机设备
CN113887610A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN114049584A (zh) * 2021-10-09 2022-02-15 百果园技术(新加坡)有限公司 一种模型训练和场景识别方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention-based generative models for de novo molecular design;Orion Dollar等;《Computer Science》;20210514;全文 *
基于计算机视觉的Transformer研究进展;刘文婷 等;《计算机工程与应用》;20211203;第58卷(第6期);全文 *

Also Published As

Publication number Publication date
CN114494791A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN114494791B (zh) 一种基于注意力选择的transformer运算精简方法及装置
US10740865B2 (en) Image processing apparatus and method using multi-channel feature map
AU2019213369B2 (en) Non-local memory network for semi-supervised video object segmentation
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
CN111066063B (zh) 利用卷积空间传播网络学习的亲和度进行深度估计的系统和方法
CN110135227B (zh) 一种基于机器学习的激光点云室外场景自动分割方法
CN111523546A (zh) 图像语义分割方法、系统及计算机存储介质
CN109919209A (zh) 一种领域自适应深度学习方法及可读存储介质
CN114332544A (zh) 一种基于图像块评分的细粒度图像分类方法和装置
CN111325766A (zh) 三维边缘检测方法、装置、存储介质和计算机设备
CN112101364A (zh) 基于参数重要性增量学习的语义分割方法
CN114037674A (zh) 一种基于语义上下文的工业缺陷图像分割检测方法及装置
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN116912829A (zh) 小气道分割方法、装置、电子设备及非易失性存储介质
CN112465050A (zh) 一种图像模板选择方法、装置、设备及存储介质
CN111126501A (zh) 一种图像识别方法、终端设备及存储介质
CN115359484A (zh) 图像处理方法、装置、设备及存储介质
CN112926585A (zh) 一种基于再生核希尔伯特空间的跨域语义分割方法
CN111062477A (zh) 一种数据处理方法、装置及存储介质
CN116958711B (zh) 铅锌矿石图像分类模型构建方法、系统、存储介质及设备
CN112214750B (zh) 字符验证码的识别方法、系统、电子设备和存储介质
CN117496025B (zh) 一种基于关系和风格感知的多模态场景生成方法
CN117095136B (zh) 一种基于3d gan的多物体和多属性的图像重建和编辑方法
CN116091849B (zh) 基于分组解码器的轮胎花纹分类方法、系统、介质及设备
US20240233325A9 (en) Method for classifying images and electronic device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant