CN114494791B - 一种基于注意力选择的transformer运算精简方法及装置 - Google Patents
一种基于注意力选择的transformer运算精简方法及装置 Download PDFInfo
- Publication number
- CN114494791B CN114494791B CN202210353591.5A CN202210353591A CN114494791B CN 114494791 B CN114494791 B CN 114494791B CN 202210353591 A CN202210353591 A CN 202210353591A CN 114494791 B CN114494791 B CN 114494791B
- Authority
- CN
- China
- Prior art keywords
- unimportant
- identifications
- image
- identifiers
- important
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 25
- 230000009467 reduction Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 abstract description 14
- 238000007906 compression Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于注意力选择的transformer运算精简方法,在transformer网络的每层用注意力机制获取关联矩阵,对关联矩阵的每一行计算信息熵,获得各个局部标识对于网络任务的重要性程度,将局部标识划分为重要标识和不重要标识,每间隔一定网络层,计算不重要标识的特征参数和,将不重要标识的特征参数值加到重要标识上,删除不重要标识,仅重要标识进入网络下一层。网络训练过程中,构建交叉熵损失函数和重要性损失函数,重要性损失函数用于降低重要标识与不重要标识的关联。本发明方法从影响网络任务的判别性区域的选择角度出发,实现方法简单,有效减少网络计算量的同时,对模型精度影响很小,且可以与已知网络压缩方法同时使用,共同实现计算量压缩。
Description
技术领域
本发明涉及模型压缩技术领域,特别涉及一种基于注意力选择的transformer运算精简方法及装置。
背景技术
深度神经网络作为机器学习的主流分支,网络结构获得了不断的创新。近年来提出的transformer网络结构在自然语言处理任务上展示了强大的表现能力,并扩展到计算机视觉任务中。然而,transformer较大的计算复杂度导致了其效率低下,如何有效压缩transformer网络结构的计算量,实现模型的高效、高性能实现,成为新的研究方向。
在transformer网络计算量压缩领域,除了常规的用复杂网络蒸馏简单网络、网络结构剪枝、模型参数精度量化等压缩方法外,研究者们还针对自注意力机制二次复杂度方面展开各方面优化,试图用更高效、线性复杂度的注意力机制替代,比如fastformer用加性注意替代乘性注意建模全局上下文,实现每个局部标识(token)与全局上下文表示的交互;lite transformer分析自注意力计算的冗余问题,仅保留部分自注意力用于长距离依赖,用卷积方法替代自注意力获取短距离关系,从而减少计算量;Linformer方法构建低秩矩阵近似表示自注意力机制,实现时间和空间的压缩。然而,多数方法在自然语言处理任务上实现了有效应用,但是在计算机视觉方面上却效果受限。
发明内容
本发明的目的在于提供一种基于注意力选择的transformer运算精简方法及装置,以克服现有技术中transformer模型计算复杂度高,效率低下的问题。
为实现上述目的,本发明提供如下技术方案:
本申请公开了一种基于注意力选择的transformer运算精简方法,包括以下步骤:
S1、构建分类数据集;所述分类数据集由若干个分类数据图像构成;
S2、调整分类数据图像的宽、高,将分类数据图像不交叠地切分若干个图像块,将各个图像块进行编码作为局部标识;所有局部标识构成图像标识;
S3、将图像标识送入transformer网络获得各个图像块特征信息;所述transformer网络由若干个transformer层构成;每隔n个transformer层,结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度,将局部标识分为不重要标识和重要标识;对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,重要标识送入下一个transformer层;
S4、构建重要性损失函数和交叉熵损失函数,训练模型。
作为优选,步骤S2中调整分类数据图像的宽、高都为448,将分类数据图像不交叠地切分为784个宽、高都为16的图像块。
作为优选,步骤S2中,对所有图像块做卷积操作,加上可训练位置嵌入,生成图像标识。
作为优选,步骤S3中具体包括如下子步骤:
S31、将图像标识送入transformer层中进行特征提取,并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联,生成关联矩阵;
S32、对关联矩阵逐行计算信息熵,获得各个局部标识对于图像分类的重要性程度;对信息熵结果进行排序,值最小的top-n个局部标识作为不重要标识,其他局部标识作为重要标识;
S33、对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,仅重要标识进入下一个transformer层。
作为优选,所述步骤S4中的具体操作如下:对transformer网络的每一层构建重要性损失函数引导transformer网络仅保留重要标识的特征信息;对最后分类结果构建交叉熵损失函数;训练模型。
作为优选,步骤S3中n的取值为3。
本申请还公开了一种基于注意力选择的transformer运算精简装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述的一种基于注意力选择的transformer运算精简方法。
本申请还公开了一种计算机可读存储介质,,其上存储有程序,该程序被处理器执行时,实现上述的一种基于注意力选择的transformer运算精简方法。
本发明的有益效果:
本发明公开了一种基于注意力选择的transformer运算精简方法,该方法在transformer网络的每层用注意力机制获取关联矩阵,对关联矩阵的每一行计算信息熵,获得各个局部标识(image token)对于网络任务的重要性程度,将局部标识划分为重要标识和不重要标识。计算不重要标识的特征参数和,将不重要标识的特征参数值加到重要标识上,删除不重要标识,仅重要标识进入网络下一层。网络训练过程中,构建交叉熵损失函数和重要性损失函数,交叉熵损失函数用于图像分类,重要性损失函数用于降低重要标识与不重要标识的关联。
本发明的特征及优点将通过实施例结合附图进行详细说明。
附图说明
图1为本发明一种基于注意力选择的transformer运算精简方法的流程示意图图;
图2为利用关联矩阵信息熵获得的图像注意力热度图;
图3是本发明的网络计算量压缩前后测试结果;
图4是本发明一种基于注意力选择的transformer运算精简装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明一种基于注意力选择的transformer运算精简方法,包括以下步骤:
S1、构建分类数据集;所述分类数据集由若干个分类数据图像构成;
S2、调整分类数据图像的宽、高,将分类数据图像不交叠地切分若干个图像块,将各个图像块进行编码作为局部标识;所有局部标识构成图像标识;
S3、将图像标识送入transformer网络获得各个图像块特征信息;所述transformer网络由若干个transformer层构成;每隔n个transformer层,结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度,将局部标识分为不重要标识和重要标识;对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,重要标识送入下一个transformer层;
S4、构建重要性损失函数和交叉熵损失函数,训练模型。
在一种可行的实施例中,步骤S2中调整分类数据图像的宽、高都为448,将分类数据图像不交叠地切分为784个宽、高都为16的图像块。
在一种可行的实施例中,步骤S2中,对所有图像块做卷积操作,加上可训练位置嵌入,生成图像标识。
在一种可行的实施例中,步骤S3中具体包括如下子步骤:
S31、将图像标识送入transformer层中进行特征提取,并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联,生成关联矩阵;
S32、对关联矩阵逐行计算信息熵,获得各个局部标识对于图像分类的重要性程度;对信息熵结果进行排序,值最小的top-n个局部标识作为不重要标识,其他局部标识作为重要标识;
S33、对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,仅重要标识进入下一个transformer层。
在一种可行的实施例中,所述步骤S4中的具体操作如下:对transformer网络的每一层构建重要性损失函数引导transformer网络仅保留重要标识的特征信息;对最后分类结果构建交叉熵损失函数;训练模型。
在一种可行的实施例中,步骤S3中n的取值为3。
实施例:
步骤S1:构建汽车分类数据集共16,185张,其中8144张为训练集,8041张为测试集。汽车数据集共196类,主要基于汽车品牌、车型、年份实现类别划分;
步骤S2:调整汽车分类数据的宽、高都为448,将图像不交叠地切分784(28*28)个为宽、高都为16的图像块,这些图像块进行编码作为局部标识(part token)。将局部标识送入transformer网络获得各个图像块特征信息;
步骤S3:针对transformer结构,每隔3层,结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度,删除不重要的局部标识,剩余局部标识送入下一层;对于被删除的局部标识,计算其特征参数和。将参数值均匀赋予送入下一层的局部标识;
步骤S4:构建重要性损失函数和交叉熵损失函数,训练模型。
所述步骤S2中,将宽、高都为448的图像切分为784(28*28)个宽、高都为16的不重叠图像块。对所有图像块做卷积操作,再加上可训练位置嵌入(position embedding),生成图像标识。
其中,表示卷积映射操作,表示第个图像块,表示图像块数目,表示位置嵌入。表示送入第1层transformer层的图像标识,共有个序列(个局部标识,本发明中=784),特征维度为C(本发明中C=768)。
所述步骤S3中,将图像标识送入transformer层中进行特征提取,并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联,生成关联矩阵。
其中,表示自注意力机制的公式,表示送入第层的图像标识,分别表示三个结构一致,参数初始化不同的全连接结构,分别表示自注意力计算的三个矩阵元素,长、宽分别为。标识单头特征长度。为关联矩阵,其宽、高分别为, 关联矩阵的每一行表示单个局部标识和所有局部标识的关联程度。表示经历自注意力机制后的标识。表示经历多层感知机操作后的标识,一个transformer层包含一个自注意力机制和一个多层感知机操作,因此同时也是经历一个transformer层后得到的标识。表示多层感知机操作。
所述步骤S3中,对关联矩阵逐行计算信息熵,获得各个局部标识对于图像分类的重要性程度。对信息熵结果进行排序,值最小的topn(topn=200)部标识作为不重要标识,其他局部标识作为重要标识。
其中,表示对关联矩阵的信息熵简化公式,表示关联矩阵,表示特征的维度系数。表示对关联矩阵的第维逐个计算当前维度下的最大值,表示对关联矩阵的第维逐个计算当前维度下的平均值。本发明中,,表示对关联矩阵的每一行,计算当前行中所有列的最大值与当前行所有列的平均值的比值,比值结果尺寸为,表示个局部标识的重要性程度。
针对不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,仅重要标识进入网络下一层。该步骤保证进入下一层网络的参数值的和与当前层一致,防止网络训练过程中因为删减标识导致层间参数总和变化过大,训练不稳定。
其中,表示经历第层transformer层后得到的标识,利用步骤3的信息熵简化公式将分为重要标识和不重要标识。表示统计特征的元素个数,表示重要标识的元素个数,即各个维度大小的乘积;表示计算特征的所有元素和,表示不重要标识的所有元素值的和。表示第层transformer层的输入。
所述步骤S4中,对网络的每一层构建重要性损失函数引导网络仅保留重要标识的特征信息;对最后分类结果构建交叉熵损失函数。训练模型。
其中,表示重要性损失函数,用于控制重要标识中不引入不重要标识,维护重要标识特征信息的质量,表示第层transformer层的关联矩阵,表示第层transformer层中重要标识所在的位置系数,表示第层transformer层中不重要标识所在的位置系数,表示从关联矩阵提取行列的信息,表示L1操作。表示交叉熵损失函数,用于分类任务,表示输入数据,表示数据类别标签。
定义与数学符号
实验实施细节
本发明的方法使用Pytorch框架进行实验,在Stanford Cars汽车数据上使用初始学习率为0.03的SGD优化器,训练过程中,图像尺寸调整至600*600,在随机裁剪至448*448大小,同时将图像随机左右翻转,亮度、对比度、饱和度均在原有基础上随机波动40%,最后再进行自动数据增强操作。数据训练统一四个gpu分布式训练,每个gpu的batch size为16,训练15000步数。使用的transformer网络共12个transformer层,图像先使用卷积操作下采样生成28*28的局部标识后再送入transformer网络中,因此transformer网络的局部标识为784(28*28=784)个。计算量压缩后的网络,每间隔n=3个transformer层删除topn=200个局部标识,最后输出网络的局部标识仅185个,计算量压缩为原来的0.62倍。
参阅图2,图2为利用关联矩阵信息熵获得的图像注意力热度图;可以看到,使用关联矩阵信息熵的方法,网络的注意力会关注到车轮、车灯、车体轮廓等有利于识别车辆类别的判别性区域。对车的窗面、车面等无法识别车辆类别的区域,网络关注度很低。
参阅图3,图3分别展示了使用本发明方法进行计算量压缩和不进行压缩的网络分别在汽车数据上测试的准确率结果,以及本发明方法的计算量压缩比例情况。可以看到,使用本发明方法对网络的计算量实现了较大的压缩,而精度损失却很小。
本发明一种基于注意力选择的transformer运算精简装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种基于注意力选择的transformer运算精简装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于注意力选择的transformer运算精简装置。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于注意力选择的transformer运算精简方法,其特征在于,包括以下步骤:
S1、构建分类数据集;所述分类数据集由若干个分类数据图像构成;
S2、调整分类数据图像的宽、高,将分类数据图像不交叠地切分若干个图像块,将各个图像块进行编码作为局部标识;所有局部标识构成图像标识;
S3、将图像标识送入transformer网络获得各个图像块特征信息;所述transformer网络由若干个transformer层构成;每隔n个transformer层,结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度,将局部标识分为不重要标识和重要标识;对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,重要标识送入下一个transformer层;具体包括如下子步骤:
S31、将图像标识送入transformer层中进行特征提取,并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联,生成关联矩阵;
S32、对关联矩阵逐行计算信息熵,获得各个局部标识对于图像分类的重要性程度;对信息熵结果进行排序,值最小的top-n个局部标识作为不重要标识,其他局部标识作为重要标识;
S33、对于不重要标识,计算其特征参数值的和,将特征参数值均匀加到重要标识上,删除不重要标识,仅重要标识进入下一个transformer层;
2.根据权利要求1所述的一种基于注意力选择的transformer运算精简方法,其特征在于:步骤S2中调整分类数据图像的宽、高都为448,将分类数据图像不交叠地切分为784个宽、高都为16的图像块。
3.根据权利要求1所述的一种基于注意力选择的transformer运算精简方法,其特征在于,步骤S2中,对所有图像块做卷积操作,加上可训练位置嵌入,生成图像标识。
4.根据权利要求1所述的一种基于注意力选择的transformer运算精简方法,其特征在于:步骤S3中n的取值为3。
5.一种基于注意力选择的transformer运算精简装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-4中任一项所述的一种基于注意力选择的transformer运算精简方法。
6.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-4中任一项所述的一种基于注意力选择的transformer运算精简方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210353591.5A CN114494791B (zh) | 2022-04-06 | 2022-04-06 | 一种基于注意力选择的transformer运算精简方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210353591.5A CN114494791B (zh) | 2022-04-06 | 2022-04-06 | 一种基于注意力选择的transformer运算精简方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114494791A CN114494791A (zh) | 2022-05-13 |
CN114494791B true CN114494791B (zh) | 2022-07-08 |
Family
ID=81488756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210353591.5A Active CN114494791B (zh) | 2022-04-06 | 2022-04-06 | 一种基于注意力选择的transformer运算精简方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494791B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311504B (zh) * | 2022-10-10 | 2023-01-31 | 之江实验室 | 一种基于注意力重定位的弱监督定位方法和装置 |
CN115761437B (zh) * | 2022-11-09 | 2024-02-06 | 北京百度网讯科技有限公司 | 基于视觉转换器的图像处理方法、训练方法和电子设备 |
CN116152575B (zh) * | 2023-04-18 | 2023-07-21 | 之江实验室 | 基于类激活采样引导的弱监督目标定位方法、装置和介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104481508A (zh) * | 2014-09-10 | 2015-04-01 | 大庆明达韦尔信息系统服务有限公司 | 用信息熵结合灰度关联矩阵实现油田抽油机井故障诊断的方法 |
CN109800754A (zh) * | 2018-12-06 | 2019-05-24 | 杭州电子科技大学 | 一种基于卷积神经网络的古字体分类方法 |
CN113011192A (zh) * | 2021-03-16 | 2021-06-22 | 广东工业大学 | 基于注意力因果解释的文本情感特征提取方法 |
US11080607B1 (en) * | 2020-12-16 | 2021-08-03 | Ro5 Inc. | Data platform for automated pharmaceutical research using knowledge graph |
WO2021174871A1 (zh) * | 2020-09-01 | 2021-09-10 | 平安科技(深圳)有限公司 | 数据查询方法、系统、计算机设备及存储介质 |
CN113763933A (zh) * | 2021-05-06 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、语音识别模型的训练方法、装置和设备 |
CN113823264A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读存储介质及计算机设备 |
CN113887610A (zh) * | 2021-09-29 | 2022-01-04 | 内蒙古工业大学 | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 |
CN114049584A (zh) * | 2021-10-09 | 2022-02-15 | 百果园技术(新加坡)有限公司 | 一种模型训练和场景识别方法、装置、设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10402448B2 (en) * | 2017-06-28 | 2019-09-03 | Google Llc | Image retrieval with deep local feature descriptors and attention-based keypoint descriptors |
CN113343937B (zh) * | 2021-07-15 | 2022-09-02 | 北华航天工业学院 | 一种基于深度卷积和注意力机制的唇语识别方法 |
-
2022
- 2022-04-06 CN CN202210353591.5A patent/CN114494791B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104481508A (zh) * | 2014-09-10 | 2015-04-01 | 大庆明达韦尔信息系统服务有限公司 | 用信息熵结合灰度关联矩阵实现油田抽油机井故障诊断的方法 |
CN109800754A (zh) * | 2018-12-06 | 2019-05-24 | 杭州电子科技大学 | 一种基于卷积神经网络的古字体分类方法 |
WO2021174871A1 (zh) * | 2020-09-01 | 2021-09-10 | 平安科技(深圳)有限公司 | 数据查询方法、系统、计算机设备及存储介质 |
US11080607B1 (en) * | 2020-12-16 | 2021-08-03 | Ro5 Inc. | Data platform for automated pharmaceutical research using knowledge graph |
CN113011192A (zh) * | 2021-03-16 | 2021-06-22 | 广东工业大学 | 基于注意力因果解释的文本情感特征提取方法 |
CN113763933A (zh) * | 2021-05-06 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、语音识别模型的训练方法、装置和设备 |
CN113823264A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读存储介质及计算机设备 |
CN113887610A (zh) * | 2021-09-29 | 2022-01-04 | 内蒙古工业大学 | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 |
CN114049584A (zh) * | 2021-10-09 | 2022-02-15 | 百果园技术(新加坡)有限公司 | 一种模型训练和场景识别方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
Attention-based generative models for de novo molecular design;Orion Dollar等;《Computer Science》;20210514;全文 * |
基于计算机视觉的Transformer研究进展;刘文婷 等;《计算机工程与应用》;20211203;第58卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114494791A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114494791B (zh) | 一种基于注意力选择的transformer运算精简方法及装置 | |
US10740865B2 (en) | Image processing apparatus and method using multi-channel feature map | |
CN110837836B (zh) | 基于最大化置信度的半监督语义分割方法 | |
CN111066063B (zh) | 利用卷积空间传播网络学习的亲和度进行深度估计的系统和方法 | |
EP3608844A1 (en) | Methods for training a crnn and for semantic segmentation of an inputted video using said crnn | |
CN110135227B (zh) | 一种基于机器学习的激光点云室外场景自动分割方法 | |
CN111523546A (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN114037674B (zh) | 一种基于语义上下文的工业缺陷图像分割检测方法及装置 | |
CN114332544B (zh) | 一种基于图像块评分的细粒度图像分类方法和装置 | |
CN110826581A (zh) | 一种动物数量识别方法、装置、介质及电子设备 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN112101364A (zh) | 基于参数重要性增量学习的语义分割方法 | |
CN118334323B (zh) | 一种基于紫外图像的绝缘子检测方法及系统 | |
CN117876793A (zh) | 一种高光谱影像树种分类方法及装置 | |
CN111126501B (zh) | 一种图像识别方法、终端设备及存储介质 | |
CN116912829A (zh) | 小气道分割方法、装置、电子设备及非易失性存储介质 | |
CN116958711A (zh) | 铅锌矿石图像分类模型构建方法、系统、存储介质及设备 | |
US20240233325A9 (en) | Method for classifying images and electronic device | |
CN117011943A (zh) | 基于多尺度自注意力机制的解耦的3d网络的动作识别方法 | |
WO2020192262A1 (zh) | 一种实物图像生成方法及装置、设备 | |
CN115359484A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112926585A (zh) | 一种基于再生核希尔伯特空间的跨域语义分割方法 | |
CN111062477A (zh) | 一种数据处理方法、装置及存储介质 | |
CN117933346B (zh) | 一种基于自监督强化学习的即时奖励学习方法 | |
CN112084912B (zh) | 一种基于自适应信息增强的人脸特征点定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |