CN114611700A - 一种基于结构重参数化的模型推理速度提升方法及装置 - Google Patents

一种基于结构重参数化的模型推理速度提升方法及装置 Download PDF

Info

Publication number
CN114611700A
CN114611700A CN202210076146.9A CN202210076146A CN114611700A CN 114611700 A CN114611700 A CN 114611700A CN 202210076146 A CN202210076146 A CN 202210076146A CN 114611700 A CN114611700 A CN 114611700A
Authority
CN
China
Prior art keywords
layer
conv
residual
model
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210076146.9A
Other languages
English (en)
Inventor
周祖煜
白博文
林波
陈煜人
张澎彬
莫志敏
张�浩
李天齐
刘俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Lingjian Digital Agricultural Technology Co ltd
Original Assignee
Hangzhou Lingjian Digital Agricultural Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Lingjian Digital Agricultural Technology Co ltd filed Critical Hangzhou Lingjian Digital Agricultural Technology Co ltd
Priority to CN202210076146.9A priority Critical patent/CN114611700A/zh
Publication of CN114611700A publication Critical patent/CN114611700A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种基于结构重参数化的模型推理速度提升方法及装置,涉及卷积神经网络模型技术领域,包括:获取样本数据并按照多分支结构进行训练,得到训练模型,所述训练模型包括残差连接大层,且所述残差连接大层包括1×1卷积层和3×3卷积层;将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,以得到结构重参数化的检测模型。本技术方案采取将大层中的非线性层和线性层分开,将非线性层放在大层的最后一层,并通过结构重参数对线性层进行融合,从而完成大层的融合,解决大层不能融合的问题,从而提高了模型的推理速度。

Description

一种基于结构重参数化的模型推理速度提升方法及装置
技术领域
本发明属于卷积神经网络模型技术领域,尤其涉及一种基于结构重参数化的模型推理速度提升方法及装置。
背景技术
卷积神经网络已成为解决许多问题的主流方法。VGG在图像识别方面取得了巨大的成功,但是它仅使用了一个由conv、ReLU和pooling组成的简单体系结构。随着Inception、ResNet和DenseNet的出现,许多研究兴趣转移到了设计良好的体系结构上,使得模型变得越来越复杂。
许多复杂的卷积网络比简单的卷积网络提供更高的精度,但缺点也非常显著:(1)复杂的多分支设计虽然使得模型的精度大大的提高,但是复杂的结构使得模型的推理速度相应的大大降低;(2)虽然在现有技术中,通常采用Conv层和BN层融合的技术,从而减少网络层,提升推理速度,但是无法将一个像ResNet一样的残差连接大层进行融合,因为通常一个Conv层都由Conv+BN+Relu组成,即根据Conv层和BN层融合的技术无法将线性层与非线性层融合,不能提高模型的推理速度。
发明内容
本发明提供了一种基于结构重参数化的模型推理速度提升方法及装置,旨在解决上述中复杂的结构使得模型推理速度较低,现有融合技术无法融合像ResNet一样的残差连接大层的问题。
为了实现上述目的,本申请采用以下技术方案,包括:
获取样本数据并按照多分支结构进行训练,得到训练模型,所述训练模型包括残差连接大层,且所述残差连接大层包括1×1卷积层和3×3卷积层;
将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,得到卷积融合层并完成所述残差连接大层的融合,以得到结构重参数化的检测模型。
作为优选,所述Conv层与BN层融合的技术,包括:
分别将Conv层的表达式Conv=Wc*x+Bc和BN层的表达式
Figure BDA0003484136870000021
带入公式y=BN(Conv(x))中进行计算,得到第一公式
Figure BDA0003484136870000022
其中x为所述Conv层的输入,y为所述Conv层的输出,Wc为所述Conv层的权重,Bc为所述Conv层的偏置项,γ为所述BN层的缩放系数,β为所述BN层的偏移系数,E为所述BN层的均值,var为所述BN层的方差;
对所述第一公式进行变形,得到第二公式
Figure BDA0003484136870000023
所述第二公式为一元一次方程,完成所述Conv层和所述BN层的融合。
作为优选,所述将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,得到卷积融合层并完成所述残差连接大层的融合,以得到结构重参数化的检测模型,包括:
步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层;
步骤二、预设所述残差连接大层的输入为
Figure BDA0003484136870000024
输出为
Figure BDA0003484136870000025
步骤三、当C1=C2,H1=H2,W1=W2时,可得所述输入M1与所述输出M2的关系式为:
Figure BDA0003484136870000031
且所述残差连接大层的权重为
Figure BDA0003484136870000032
所述残差连接大层的偏置为
Figure BDA0003484136870000033
其中
Figure BDA0003484136870000034
表示从1开始,i表示通道,C1为所述残差连接大层的输入通道,C2为所述残差连接大层的输出通道,N是batch_size,H1、W1是输入特征的高和宽,H2,W2是输出特征的高和宽,var(3),E(3)(3)(3)分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(1),E(1)(1)(1)分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(0),E(0)(0)(0)分别表示identity之后的BN的方差、均值、偏置系数、缩放系数,identity表示一个层;
步骤四、根据所述步骤一、所述步骤二、所述步骤三可得,所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。
作为优选,所述当C1=C2,H1=H2,W1=W2时,可得所述输入M1与所述输出M2的关系式为:
Figure BDA0003484136870000035
还包括:
当所述C1=C2,H1=H2,W1=W2不成立时,所述输入M1与所述输出M2的关系式为M2=BN(Conv(M1),var(3),E(3)(3)(3))+BN(Conv(M1*W1),var(1),E(1)(1)(1))。
作为优选,所述非线性层包括激活函数Relu。
一种基于结构重参数化的模型推理速度提升装置,包括:
模型训练模块:用于获取样本数据并按照多分支结构进行训练,得到训练模型,所述训练模型包括残差连接大层,且所述残差连接大层包括1×1卷积层和3×3卷积层;
结构重参数化的模型生成模块:用于将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,得到卷积融合层并完成所述残差连接大层的融合,以得到结构重参数化的检测模型。
作为优选,所述结构重参数化的模型生成模块,包括:
Conv层与BN层第一融合模块:用于分别将Conv层的表达式Conv=Wc*x+Bc和BN层的表达式
Figure BDA0003484136870000041
带入公式y=BN(Conv(x))中进行计算,得到第一公式
Figure BDA0003484136870000042
其中x为所述Conv层的输入,y为所述Conv层的输出,Wc为所述Conv层的权重,Bc为所述Conv层的偏置项,γ为所述BN层的缩放系数,β为所述BN层的偏移系数,E为所述BN层的均值,var为所述BN层的方差;
Conv层与BN层第二融合模块:用于对所述第一公式进行变形,得到第二公式
Figure BDA0003484136870000043
所述第二公式为一元一次方程,完成所述Conv层和所述BN层的融合。
作为优选,所述结构重参数化的模型生成模块,还包括:
第一结构重参数化模块:用于步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层;
第二结构重参数化模块:用于步骤二、预设所述残差连接大层的输入为
Figure BDA0003484136870000044
输出为
Figure BDA0003484136870000045
第三结构重参数化模块:用于步骤三、当C1=C2,H1=H2,W1=W2时,可得所述输入M1与所述输出M2的关系式为:
Figure BDA0003484136870000046
且所述残差连接大层的权重为
Figure BDA0003484136870000051
所述残差连接大层的偏置为
Figure BDA0003484136870000052
其中
Figure BDA0003484136870000053
表示从1开始,i表示通道,C1为所述残差连接大层的输入通道,C2为所述残差连接大层的输出通道,N是batch_size,H1、W1是输入特征的高和宽,H2,W2是输出特征的高和宽,var(3),E(3)(3)(3)分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(1),E(1)(1)(1)分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(0),E(0)(0)(0)分别表示identity之后的BN的方差、均值、偏置系数、缩放系数,identity表示一个层;
第四结构重参数化模块:用于步骤四、根据所述步骤一、所述步骤二、所述步骤三可得,所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。
一种基于结构重参数化的模型推理速度提升装置,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种基于结构重参数化的模型推理速度提升方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时实现如上述中任一项所述的一种基于结构重参数化的模型推理速度提升方法。
本发明具有以下有益效果:
(1)本技术方案通过结构参数重构将训练多分支结构和推理结构解耦,即通过参数转换将结构从一个结构转换为另一个结构,例如将1×1卷积层和3×3卷积层通过结构重参数化,按照Conv层与BN层融合的技术方式进行融合,合成一个网络层,即将y=x+g(x)+f(x)转化为y=h(x),将两个网络层的卷积运算,合为一个网络层的卷积运算,减少网络层,从而减少计算量,提高模型的推理速度;
(2)本技术方案中为了解决像ResNet一样的残差连接大层的融合问题,采取将大层中的非线性层和线性层分开,因为非线性层和线性层无法融合,所以本方案中将非线性层(Relu)放在大层的最后一层,对线性层(Conv层、BN层)进行融合,从而完成大层的融合,解决大层不能融合的问题,并且通过融合大层,从而提高了模型的推理速度。
附图说明
图1为本发明实施例实现一种基于结构重参数化的模型推理速度提升方法的流程图
图2为本发明实施例中一种模型测试结果的示意图
图3为本发明实施例实现一种基于结构重参数化的模型推理速度提升装置的结构示意图
图4为本发明实施例实现一种基于结构重参数化的模型推理速度提升装置中的结构重参数化的模型生成模块20的结构示意图
图5为本发明实施例实现一种基于结构重参数化的模型推理速度提升装置的一种电子设备示意图
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的权利要求书和说明书的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式,此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同,本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
实施例1
如图1所示,一种基于结构重参数化的模型推理速度提升方法,包括以下步骤:
S11、获取样本数据并按照多分支结构进行训练,得到训练模型,所述训练模型包括残差连接大层,且所述残差连接大层包括1×1卷积层和3×3卷积层;
S12、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,得到卷积融合层并完成所述残差连接大层的融合,以得到结构重参数化的检测模型。
在本实施例中,具体包括:
(1)模型训练
由于多分支结构的优点都是用于训练,在训练的时候,多分支结构可以提高模型的精度,在本实施例中,选择目标检测模型来举例,首先获取用于目标检测的样本数据,然后按照多分支结构进行样本数据的训练,得到训练模型,训练完成之后,进入模型测试阶段,此时,多分支结构就会导致推理速度变慢,所以要进行结构重参数化,简化结构,融合网络层,提高速度;在目标检测模型中包含有像ResNet(残差网络)一样的残差连接大层
(2)Conv层与BN层融合的技术
在现有技术中,为了提高模型的推理速度,常用的就是将Conv层与BN层融合,减少网络层,提高推理速度,该技术具体如下:
设x是当前Conv层(卷积层)的输入,y为所述Conv层的输出,Wc为Conv层的权重,Bc为Conv层的偏置项,γ是BN层的缩放系数,β是BN层的偏移系数,E为BN层的均值,var为BN层的方差,则每层Conv的表达式为:
y=BN(Conv(x)),
Conv=Wc*x+Bc,
Figure BDA0003484136870000081
公式合并后变为:
Figure BDA0003484136870000082
该公式即“第一公式”,
Figure BDA0003484136870000083
该公式即“第二公式”,
上式中,除x,y之外,都为常数,形式和向量卷积运算一样是一个一元一次方程,所以在推理阶段Conv和BN可以进行融合,即线性函数的相加性,它能够使得模型在模型推理时,整体速度提高5-10%;
(3)针对“大层”的结构重参数化
因为上述(2)中的技术,无法将一个像ResNet(残差网络)一样的“残差连接大层”进行融合,因为通常一个Conv层都由Conv+BN+Relu组成,即线性层无法与非线性层融合,所以采用结构重参数化改进(2)中的技术,进行大层融合,具体如下:
例如:ResNet每个大层的公式表达如下:
y=x+g(x)+f(x),
其中,g(x)是1x1 Conv,f(x)就是正常的一系列3x3 Conv,本技术方案的结构重参数化的核心就是将y=x+g(x)+f(x)转化为y=h(x),即将多层网络融合成一个层,因为通常情况下,网络层数少的要比网络层数多的,推理速度更快,为了说明大层的融合,举例如下:
设输入每个大层的输入通道为C1,输出通道为C2,则3x3 Conv的权重可表示为:
Figure BDA0003484136870000091
1x1 Conv的权重可表示为:
Figure BDA0003484136870000092
设var(3),E(3)(3)(3)分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(1),E(1)(1)(1)分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(0),E(0)(0)(0)分别表示identity之后的BN的方差、均值、偏置系数、缩放系数,identity表示一个层,
设输入为
Figure BDA0003484136870000093
输出为
Figure BDA0003484136870000094
其中N是batch_size(批量大小),H1、W1是输入特征的高和宽,H2,W2是输出的高和宽,当C1=C2,H1=H2,W1=W2时,可得所述输入M1与所述输出M2的关系式为:
Figure BDA0003484136870000095
当所述C1=C2,H1=H2,W1=W2不成立时,所述输入M1与所述输出M2的关系式为:
Figure BDA0003484136870000101
且其权重和偏置如下:
Figure BDA0003484136870000102
权重:
Figure BDA0003484136870000103
偏置:
Figure BDA0003484136870000104
在等到输入输出的关系等式,及BN的方差、均值、偏置系数、缩放系数以及整个大层的权重和偏置之后,可以根据(2)中的Conv层与BN层融合的技术,将相应的参数和公式带入进行变化,也可以得到跟
Figure BDA0003484136870000105
一样的一元一次方程,即一个卷积的形式,并且上述过程只是对残差连接大层中的线性层(Conv层、BN层)进行融合,因为卷积层是由Conv+BN+Relu构成,所以将Relu非线性层放到本残差连接大层的最后一层,就可以完成该大层的融合。
本方案通过在COCO2017数据集上训练,最终检测模型的Map为39.8,进行INT8量化后,在RTX 3080Ti上速度达到1.1毫秒,与对标的YOLOX-S相比,虽然MAP下降了0.2(YOLOX-SMAP=40.0),但速度提升了将近17倍,所以可以认为通过本方案,在模型精度几乎没有变化的情况下(因为0.2%的精度可以忽略不计),速度提升了17倍,有的非常明显的提升,实验结果数据如图2所示。
本实施例的有益效果为:
(1)本技术方案通过结构参数重构将训练多分支结构和推理结构解耦,即通过参数转换将结构从一个结构转换为另一个结构,例如将1×1卷积层和3×3卷积层通过结构重参数化,按照Conv层与BN层融合的技术方式进行融合,合成一个网络层,即将y=x+g(x)+f(x)转化为y=h(x),将两个网络层的卷积运算,合为一个网络层的卷积运算,减少网络层,从而减少计算量,提高模型的推理速度;
(2)本技术方案中为了解决像ResNet一样的残差连接大层的融合问题,采取将大层中的非线性层和线性层分开,因为非线性层和线性层无法融合,所以本方案中将非线性层(Relu)放在大层的最后一层,对线性层(Conv层、BN层)进行融合,从而完成大层的融合,解决大层不能融合的问题,并且通过融合大层,从而提高了模型的推理速度。
实施例2
如图3所示,一种基于结构重参数化的模型推理速度提升装置,包括:
模型训练模块10:用于获取样本数据并按照多分支结构进行训练,得到训练模型,所述训练模型包括残差连接大层,且所述残差连接大层包括1×1卷积层和3×3卷积层;
结构重参数化的模型生成模块20:用于将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,得到卷积融合层并完成所述残差连接大层的融合,以得到结构重参数化的检测模型。
上述装置的一种实施方式为,在模型训练模块10中,获取样本数据并按照多分支结构进行训练,得到训练模型,所述训练模型包括残差连接大层,且所述残差连接大层包括1×1卷积层和3×3卷积层,在结构重参数化的模型生成模块20中,将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,得到卷积融合层并完成所述残差连接大层的融合,以得到结构重参数化的检测模型。
实施例3
如图4所示,一种基于结构重参数化的模型推理速度提升装置中的结构重参数化的模型生成模块20,包括:
Conv层与BN层第一融合模块21:用于分别将Conv层的表达式Conv=Wc*x+Bc和BN层的表达式
Figure BDA0003484136870000121
带入公式y=BN(Conv(x))中进行计算,得到第一公式
Figure BDA0003484136870000122
其中x为所述Conv层的输入,y为所述Conv层的输出,Wc为所述Conv层的权重,Bc为所述Conv层的偏置项,γ为所述BN层的缩放系数,β为所述BN层的偏移系数,E为所述BN层的均值,var为所述BN层的方差;
Conv层与BN层第二融合模块22:用于对所述第一公式进行变形,得到第二公式
Figure BDA0003484136870000123
所述第二公式为一元一次方程,完成所述Conv层和所述BN层的融合;
第一结构重参数化模块23:用于步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层;
第二结构重参数化模块24:用于步骤二、预设所述残差连接大层的输入为
Figure BDA0003484136870000124
输出为
Figure BDA0003484136870000125
第三结构重参数化模块25:用于步骤三、当C1=C2,H1=H2,W1=W2时,可得所述输入M1与所述输出M2的关系式为:
Figure BDA0003484136870000126
且所述残差连接大层的权重为
Figure BDA0003484136870000131
所述残差连接大层的偏置为
Figure BDA0003484136870000132
其中
Figure BDA0003484136870000133
表示从1开始,i表示通道,C1为所述残差连接大层的输入通道,C2为所述残差连接大层的输出通道,N是batch_size,H1、W1是输入特征的高和宽,H2,W2是输出特征的高和宽,var(3),E(3)(3)(3)分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(1),E(1)(1)(1)分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(0),E(0)(0)(0)分别表示identity之后的BN的方差、均值、偏置系数、缩放系数,identity表示一个层;
第四结构重参数化模块26:用于步骤四、根据所述步骤一、所述步骤二、所述步骤三可得,所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。
上述装置的一种实施方式为,在Conv层与BN层第一融合模块21中,分别将Conv层的表达式Conv=Wc*x+Bc和BN层的表达式
Figure BDA0003484136870000134
带入公式y=BN(Conv(x))中进行计算,得到第一公式
Figure BDA0003484136870000135
其中x为所述Conv层的输入,y为所述Conv层的输出,Wc为所述Conv层的权重,Bc为所述Conv层的偏置项,γ为所述BN层的缩放系数,β为所述BN层的偏移系数,E为所述BN层的均值,var为所述BN层的方差,在Conv层与BN层第二融合模块22中,对所述第一公式进行变形,得到第二公式
Figure BDA0003484136870000136
所述第二公式为一元一次方程,完成所述Conv层和所述BN层的融合,在第一结构重参数化模块23中,步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,在第二结构重参数化模块24中,步骤二、预设所述残差连接大层的输入为
Figure BDA0003484136870000141
输出为
Figure BDA0003484136870000142
在第三结构重参数化模块25中,步骤三、当C1=C2,H1=H2,W1=W2时,可得所述输入M1与所述输出M2的关系式为:
Figure BDA0003484136870000143
且所述残差连接大层的权重为
Figure BDA0003484136870000144
所述残差连接大层的偏置为
Figure BDA0003484136870000145
其中
Figure BDA0003484136870000146
表示从1开始,i表示通道,C1为所述残差连接大层的输入通道,C2为所述残差连接大层的输出通道,N是batch_size,H1、W1是输入特征的高和宽,H2,W2是输出特征的高和宽,var(3),E(3)(3)(3)分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(1),E(1)(1)(1)分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(0),E(0)(0)(0)分别表示identity之后的BN的方差、均值、偏置系数、缩放系数,identity表示一个层,在第四结构重参数化模块26中,步骤四、根据所述步骤一、所述步骤二、所述步骤三可得,所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。
实施例4
如图5所示,一种电子设备,包括存储器401和处理器402,所述存储器401用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器402执行以实现上述的任一一种方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述的任一一种方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器401中,并由处理器402执行,并由输入接口405和输出接口406完成数据的I/O接口传输,以完成本发明,一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,存储器401、处理器402,本领域技术人员可以理解,本实施例仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入器407、网络接入设备、总线等。
处理器402可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器402、数字信号处理器402(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgRAM403mableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器402可以是微处理器402或者该处理器402也可以是任何常规的处理器402等。
存储器401可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器401也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等,进一步地,存储器401还可以既包括计算机设备的内部存储单元也包括外部存储设备,存储器401用于存储计算机程序以及计算机设备所需的其他程序和数据,存储器401还可以用于暂时地存储在输出器408,而前述的存储介质包括U盘、移动硬盘、只读存储器ROM403、随机存储器RAM404、碟盘或光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的具体实施例,但本发明的技术特征并不局限于此,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims (10)

1.一种基于结构重参数化的模型推理速度提升方法,其特征在于,包括:
获取样本数据并按照多分支结构进行训练,得到训练模型,所述训练模型包括残差连接大层,且所述残差连接大层包括1×1卷积层和3×3卷积层;
将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,得到卷积融合层并完成所述残差连接大层的融合,以得到结构重参数化的检测模型。
2.根据权利要求1所述的一种基于结构重参数化的模型推理速度提升方法,其特征在于,所述Conv层与BN层融合的技术,包括:
分别将Conv层的表达式Conv=Wc*x+Bc和BN层的表达式
Figure FDA0003484136860000011
带入公式y=BN(Conv(x))中进行计算,得到第一公式
Figure FDA0003484136860000012
其中x为所述Conv层的输入,y为所述Conv层的输出,Wc为所述Conv层的权重,Bc为所述Conv层的偏置项,γ为所述BN层的缩放系数,β为所述BN层的偏移系数,E为所述BN层的均值,var为所述BN层的方差;
对所述第一公式进行变形,得到第二公式
Figure FDA0003484136860000013
所述第二公式为一元一次方程,完成所述Conv层和所述BN层的融合。
3.根据权利要求2所述的一种基于结构重参数化的模型推理速度提升方法,其特征在于,所述将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,得到卷积融合层并完成所述残差连接大层的融合,以得到结构重参数化的检测模型,包括:
步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层;
步骤二、预设所述残差连接大层的输入为
Figure FDA0003484136860000021
输出为
Figure FDA0003484136860000022
步骤三、当C1=C2,H1=H2,W1=W2时,可得所述输入M1与所述输出M2的关系式为:
Figure FDA0003484136860000023
且所述残差连接大层的权重为
Figure FDA0003484136860000024
所述残差连接大层的偏置为
Figure FDA0003484136860000025
其中
Figure FDA0003484136860000026
表示从1开始,i表示通道,C1为所述残差连接大层的输入通道,C2为所述残差连接大层的输出通道,N是batch_size,H1、W1是输入特征的高和宽,H2,W2是输出特征的高和宽,var(3),E(3)(3)(3)分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(1),E(1)(1)(1)分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(0),E(0)(0)(0)分别表示identity之后的BN的方差、均值、偏置系数、缩放系数,identity表示一个层;
步骤四、根据所述步骤一、所述步骤二、所述步骤三可得,所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。
4.根据权利要求3所述的一种基于结构重参数化的模型推理速度提升方法,其特征在于,所述当C1=C2,H1=H2,W1=W2时,可得所述输入M1与所述输出M2的关系式为:
Figure FDA0003484136860000027
还包括:
当所述C1=C2,H1=H2,W1=W2不成立时,所述输入M1与所述输出M2的关系式为M2=BN(Conv(M1),var(3),E(3)(3)(3))+BN(Conv(M1*W1),var(1),E(1)(1)(1))。
5.根据权利要求1所述的一种基于结构重参数化的模型推理速度提升方法,其特征在于,所述非线性层包括激活函数Relu。
6.一种基于结构重参数化的模型推理速度提升装置,用于实现如权利要求1所述的一种基于结构重参数化的模型推理速度提升方法,其特征在于,包括:
模型训练模块:用于获取样本数据并按照多分支结构进行训练,得到训练模型,所述训练模型包括残差连接大层,且所述残差连接大层包括1×1卷积层和3×3卷积层;
结构重参数化的模型生成模块:用于将所述残差连接大层的非线性层放在所述残差连接大层的最后一层,再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合,得到卷积融合层并完成所述残差连接大层的融合,以得到结构重参数化的检测模型。
7.根据权利要求6所述的一种基于结构重参数化的模型推理速度提升装置,其特征在于,所述结构重参数化的模型生成模块,包括:
Conv层与BN层第一融合模块:用于分别将Conv层的表达式Conv=Wc*x+Bc和BN层的表达式
Figure FDA0003484136860000031
带入公式y=BN(Conv(x))中进行计算,得到第一公式
Figure FDA0003484136860000032
其中x为所述Conv层的输入,y为所述Conv层的输出,Wc为所述Conv层的权重,Bc为所述Conv层的偏置项,γ为所述BN层的缩放系数,β为所述BN层的偏移系数,E为所述BN层的均值,var为所述BN层的方差;
Conv层与BN层第二融合模块:用于对所述第一公式进行变形,得到第二公式
Figure FDA0003484136860000033
所述第二公式为一元一次方程,完成所述Conv层和所述BN层的融合。
8.根据权利要求7所述的一种基于结构重参数化的模型推理速度提升装置,其特征在于,所述结构重参数化的模型生成模块,还包括:
第一结构重参数化模块:用于步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层;
第二结构重参数化模块:用于步骤二、预设所述残差连接大层的输入为
Figure FDA0003484136860000041
输出为
Figure FDA0003484136860000042
第三结构重参数化模块:用于步骤三、当C1=C2,H1=H2,W1=W2时,可得所述输入M1与所述输出M2的关系式为:
Figure FDA0003484136860000043
且所述残差连接大层的权重为
Figure FDA0003484136860000044
所述残差连接大层的偏置为
Figure FDA0003484136860000045
其中
Figure FDA0003484136860000046
表示从1开始,i表示通道,C1为所述残差连接大层的输入通道,C2为所述残差连接大层的输出通道,N是batch_size,H1、W1是输入特征的高和宽,H2,W2是输出特征的高和宽,var(3),E(3)(3)(3)分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(1),E(1)(1)(1)分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数,var(0),E(0)(0)(0)分别表示identity之后的BN的方差、均值、偏置系数、缩放系数,identity表示一个层;
第四结构重参数化模块:用于步骤四、根据所述步骤一、所述步骤二、所述步骤三可得,所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。
9.一种基于结构重参数化的模型推理速度提升装置,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1~5中任一项所述的一种基于结构重参数化的模型推理速度提升方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被计算机执行时实现如权利要求1~5中任一项所述的一种基于结构重参数化的模型推理速度提升方法。
CN202210076146.9A 2022-01-23 2022-01-23 一种基于结构重参数化的模型推理速度提升方法及装置 Pending CN114611700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210076146.9A CN114611700A (zh) 2022-01-23 2022-01-23 一种基于结构重参数化的模型推理速度提升方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210076146.9A CN114611700A (zh) 2022-01-23 2022-01-23 一种基于结构重参数化的模型推理速度提升方法及装置

Publications (1)

Publication Number Publication Date
CN114611700A true CN114611700A (zh) 2022-06-10

Family

ID=81857276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210076146.9A Pending CN114611700A (zh) 2022-01-23 2022-01-23 一种基于结构重参数化的模型推理速度提升方法及装置

Country Status (1)

Country Link
CN (1) CN114611700A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116206188A (zh) * 2023-05-04 2023-06-02 浪潮电子信息产业股份有限公司 一种图像识别方法、系统、设备及存储介质
WO2024099004A1 (zh) * 2022-11-09 2024-05-16 腾讯科技(深圳)有限公司 一种图像处理模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024099004A1 (zh) * 2022-11-09 2024-05-16 腾讯科技(深圳)有限公司 一种图像处理模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN116206188A (zh) * 2023-05-04 2023-06-02 浪潮电子信息产业股份有限公司 一种图像识别方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN114611700A (zh) 一种基于结构重参数化的模型推理速度提升方法及装置
WO2023231329A1 (zh) 一种医学图像的语义分割方法及装置
Irons A conforming quartic triangular element for plate bending
CN112883149B (zh) 一种自然语言处理方法以及装置
DE102019122818A1 (de) Neuronale Netzwerkvorrichtung für eine neuronale Netzwerkoperation, Verfahren zum Betreiben einer neuronalen Netzwerkvorrichtung und Anwendungsprozessor, der die neuronale Netzwerkvorrichtung beinhaltet
CN112560980A (zh) 目标检测模型的训练方法、装置及终端设备
WO2020118615A1 (zh) 一种磁共振成像及斑块识别方法和装置
DE102022119386A1 (de) Verfahren und einrichtung zum durchführen einer dichten vorhersage unter verwendung von transformatorblöcken
CN101976431A (zh) 一种基于动态可重构技术的通用图像处理平台及其实现方法
US20230409886A1 (en) Method and apparatus for performing deconvolution processing on feature data by using convolution hardware
CN113052868A (zh) 一种抠图模型训练、图像抠图的方法及装置
CN110930306A (zh) 一种基于非局部感知的深度图超分辨率重建网络构建方法
CN111507100A (zh) 一种卷积自编码器及基于该编码器的词嵌入向量压缩方法
CN115618195A (zh) 传感器电路故障诊断方法、系统、介质及装置
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN112784951B (zh) Winograd卷积运算方法及相关产品
CN117274333A (zh) 一种基于多尺度深度特征图融合的多光谱图像配准方法
CN109300120B (zh) 遥感成像仿真方法及装置
CN111368969A (zh) 基于残差神经网络的特征图处理方法、设备及存储介质
CN116228542A (zh) 基于跨尺度非局部注意力机制的图像超分辨率重建方法
CN114239814B (zh) 用于图像处理的卷积神经网络模型的训练方法
CN112612936B (zh) 一种基于对偶转换网络的多模态情感分类方法
CN114373078A (zh) 目标检测方法、装置、终端设备及存储介质
Ortega et al. Parameter estimation of two classes of nonlinear systems with non-separable nonlinear parameterizations
DE102021108536A1 (de) Neuronale netzvorrichtung für den betrieb eines neuronalen netzes, verfahren zum betreiben einer neuronalen netzvorrichtung und anwendungsprozessor, der diese umfasst

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination