CN114611700A

CN114611700A - 一种基于结构重参数化的模型推理速度提升方法及装置

Info

Publication number: CN114611700A
Application number: CN202210076146.9A
Authority: CN
Inventors: 周祖煜; 白博文; 林波; 陈煜人; 张澎彬; 莫志敏; 张�浩; 李天齐; 刘俊
Original assignee: Hangzhou Lingjian Digital Agricultural Technology Co ltd
Current assignee: Hangzhou Lingjian Digital Agricultural Technology Co ltd
Priority date: 2022-01-23
Filing date: 2022-01-23
Publication date: 2022-06-10

Abstract

本申请提供了一种基于结构重参数化的模型推理速度提升方法及装置，涉及卷积神经网络模型技术领域，包括：获取样本数据并按照多分支结构进行训练，得到训练模型，所述训练模型包括残差连接大层，且所述残差连接大层包括1×1卷积层和3×3卷积层；将所述残差连接大层的非线性层放在所述残差连接大层的最后一层，再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合，以得到结构重参数化的检测模型。本技术方案采取将大层中的非线性层和线性层分开，将非线性层放在大层的最后一层，并通过结构重参数对线性层进行融合，从而完成大层的融合，解决大层不能融合的问题，从而提高了模型的推理速度。

Description

一种基于结构重参数化的模型推理速度提升方法及装置

技术领域

本发明属于卷积神经网络模型技术领域，尤其涉及一种基于结构重参数化的模型推理速度提升方法及装置。

背景技术

卷积神经网络已成为解决许多问题的主流方法。VGG在图像识别方面取得了巨大的成功，但是它仅使用了一个由conv、ReLU和pooling组成的简单体系结构。随着Inception、ResNet和DenseNet的出现，许多研究兴趣转移到了设计良好的体系结构上，使得模型变得越来越复杂。

许多复杂的卷积网络比简单的卷积网络提供更高的精度，但缺点也非常显著：(1)复杂的多分支设计虽然使得模型的精度大大的提高，但是复杂的结构使得模型的推理速度相应的大大降低；(2)虽然在现有技术中，通常采用Conv层和BN层融合的技术，从而减少网络层，提升推理速度，但是无法将一个像ResNet一样的残差连接大层进行融合，因为通常一个Conv层都由Conv+BN+Relu组成，即根据Conv层和BN层融合的技术无法将线性层与非线性层融合，不能提高模型的推理速度。

发明内容

本发明提供了一种基于结构重参数化的模型推理速度提升方法及装置，旨在解决上述中复杂的结构使得模型推理速度较低，现有融合技术无法融合像ResNet一样的残差连接大层的问题。

为了实现上述目的，本申请采用以下技术方案，包括：

获取样本数据并按照多分支结构进行训练，得到训练模型，所述训练模型包括残差连接大层，且所述残差连接大层包括1×1卷积层和3×3卷积层；

将所述残差连接大层的非线性层放在所述残差连接大层的最后一层，再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合，得到卷积融合层并完成所述残差连接大层的融合，以得到结构重参数化的检测模型。

作为优选，所述Conv层与BN层融合的技术，包括：

分别将Conv层的表达式Conv＝Wc*x+Bc和BN层的表达式

带入公式y＝BN(Conv(x))中进行计算，得到第一公式

其中x为所述Conv层的输入，y为所述Conv层的输出，Wc为所述Conv层的权重，Bc为所述Conv层的偏置项，γ为所述BN层的缩放系数，β为所述BN层的偏移系数，E为所述BN层的均值，var为所述BN层的方差；

对所述第一公式进行变形，得到第二公式

所述第二公式为一元一次方程，完成所述Conv层和所述BN层的融合。

作为优选，所述将所述残差连接大层的非线性层放在所述残差连接大层的最后一层，再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合，得到卷积融合层并完成所述残差连接大层的融合，以得到结构重参数化的检测模型，包括：

步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层；

步骤二、预设所述残差连接大层的输入为

输出为

步骤三、当C₁＝C₂,H₁＝H₂,W₁＝W₂时，可得所述输入M₁与所述输出M₂的关系式为：

且所述残差连接大层的权重为

所述残差连接大层的偏置为

其中

表示从1开始，i表示通道，C₁为所述残差连接大层的输入通道，C₂为所述残差连接大层的输出通道，N是batch_size，H1、W1是输入特征的高和宽，H2,W2是输出特征的高和宽，var⁽³⁾,E⁽³⁾,β⁽³⁾,γ⁽³⁾分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数，var⁽¹⁾,E⁽¹⁾,β⁽¹⁾,γ⁽¹⁾分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数，var⁽⁰⁾,E⁽⁰⁾,β⁽⁰⁾,γ⁽⁰⁾分别表示identity之后的BN的方差、均值、偏置系数、缩放系数，identity表示一个层；

步骤四、根据所述步骤一、所述步骤二、所述步骤三可得，所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。

作为优选，所述当C₁＝C₂,H₁＝H₂,W₁＝W₂时，可得所述输入M₁与所述输出M₂的关系式为：

还包括：

当所述C₁＝C₂,H₁＝H₂,W₁＝W₂不成立时，所述输入M₁与所述输出M₂的关系式为M₂＝BN(Conv(M₁),var⁽³⁾,E⁽³⁾,β⁽³⁾,γ⁽³⁾)+BN(Conv(M₁*W₁),var⁽¹⁾,E⁽¹⁾,β⁽¹⁾,γ⁽¹⁾)。

作为优选，所述非线性层包括激活函数Relu。

一种基于结构重参数化的模型推理速度提升装置，包括：

模型训练模块：用于获取样本数据并按照多分支结构进行训练，得到训练模型，所述训练模型包括残差连接大层，且所述残差连接大层包括1×1卷积层和3×3卷积层；

结构重参数化的模型生成模块：用于将所述残差连接大层的非线性层放在所述残差连接大层的最后一层，再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合，得到卷积融合层并完成所述残差连接大层的融合，以得到结构重参数化的检测模型。

作为优选，所述结构重参数化的模型生成模块，包括：

Conv层与BN层第一融合模块：用于分别将Conv层的表达式Conv＝Wc*x+Bc和BN层的表达式

带入公式y＝BN(Conv(x))中进行计算，得到第一公式

Conv层与BN层第二融合模块：用于对所述第一公式进行变形，得到第二公式

作为优选，所述结构重参数化的模型生成模块，还包括：

第一结构重参数化模块：用于步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层；

第二结构重参数化模块：用于步骤二、预设所述残差连接大层的输入为

输出为

第三结构重参数化模块：用于步骤三、当C₁＝C₂,H₁＝H₂,W₁＝W₂时，可得所述输入M₁与所述输出M₂的关系式为：

且所述残差连接大层的权重为

所述残差连接大层的偏置为

其中

第四结构重参数化模块：用于步骤四、根据所述步骤一、所述步骤二、所述步骤三可得，所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。

一种基于结构重参数化的模型推理速度提升装置，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种基于结构重参数化的模型推理速度提升方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时实现如上述中任一项所述的一种基于结构重参数化的模型推理速度提升方法。

本发明具有以下有益效果：

(1)本技术方案通过结构参数重构将训练多分支结构和推理结构解耦，即通过参数转换将结构从一个结构转换为另一个结构，例如将1×1卷积层和3×3卷积层通过结构重参数化，按照Conv层与BN层融合的技术方式进行融合，合成一个网络层，即将y＝x+g(x)+f(x)转化为y＝h(x)，将两个网络层的卷积运算，合为一个网络层的卷积运算，减少网络层，从而减少计算量，提高模型的推理速度；

(2)本技术方案中为了解决像ResNet一样的残差连接大层的融合问题，采取将大层中的非线性层和线性层分开，因为非线性层和线性层无法融合，所以本方案中将非线性层(Relu)放在大层的最后一层，对线性层(Conv层、BN层)进行融合，从而完成大层的融合，解决大层不能融合的问题，并且通过融合大层，从而提高了模型的推理速度。

附图说明

图1为本发明实施例实现一种基于结构重参数化的模型推理速度提升方法的流程图

图2为本发明实施例中一种模型测试结果的示意图

图3为本发明实施例实现一种基于结构重参数化的模型推理速度提升装置的结构示意图

图4为本发明实施例实现一种基于结构重参数化的模型推理速度提升装置中的结构重参数化的模型生成模块20的结构示意图

图5为本发明实施例实现一种基于结构重参数化的模型推理速度提升装置的一种电子设备示意图

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的权利要求书和说明书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式，此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同，本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

实施例1

如图1所示，一种基于结构重参数化的模型推理速度提升方法，包括以下步骤：

S11、获取样本数据并按照多分支结构进行训练，得到训练模型，所述训练模型包括残差连接大层，且所述残差连接大层包括1×1卷积层和3×3卷积层；

S12、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层，再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合，得到卷积融合层并完成所述残差连接大层的融合，以得到结构重参数化的检测模型。

在本实施例中，具体包括：

(1)模型训练

由于多分支结构的优点都是用于训练，在训练的时候，多分支结构可以提高模型的精度，在本实施例中，选择目标检测模型来举例，首先获取用于目标检测的样本数据，然后按照多分支结构进行样本数据的训练，得到训练模型，训练完成之后，进入模型测试阶段，此时，多分支结构就会导致推理速度变慢，所以要进行结构重参数化，简化结构，融合网络层，提高速度；在目标检测模型中包含有像ResNet(残差网络)一样的残差连接大层

(2)Conv层与BN层融合的技术

在现有技术中，为了提高模型的推理速度，常用的就是将Conv层与BN层融合，减少网络层，提高推理速度，该技术具体如下：

设x是当前Conv层(卷积层)的输入，y为所述Conv层的输出，Wc为Conv层的权重，Bc为Conv层的偏置项，γ是BN层的缩放系数，β是BN层的偏移系数，E为BN层的均值，var为BN层的方差，则每层Conv的表达式为：

y＝BN(Conv(x))，

Conv＝Wc*x+Bc，

公式合并后变为：

该公式即“第一公式”，

该公式即“第二公式”，

上式中，除x,y之外，都为常数，形式和向量卷积运算一样是一个一元一次方程，所以在推理阶段Conv和BN可以进行融合，即线性函数的相加性，它能够使得模型在模型推理时，整体速度提高5-10％；

(3)针对“大层”的结构重参数化

因为上述(2)中的技术，无法将一个像ResNet(残差网络)一样的“残差连接大层”进行融合，因为通常一个Conv层都由Conv+BN+Relu组成，即线性层无法与非线性层融合，所以采用结构重参数化改进(2)中的技术，进行大层融合，具体如下：

例如：ResNet每个大层的公式表达如下：

y＝x+g(x)+f(x)，

其中，g(x)是1x1 Conv，f(x)就是正常的一系列3x3 Conv，本技术方案的结构重参数化的核心就是将y＝x+g(x)+f(x)转化为y＝h(x)，即将多层网络融合成一个层，因为通常情况下，网络层数少的要比网络层数多的，推理速度更快，为了说明大层的融合，举例如下：

设输入每个大层的输入通道为C1，输出通道为C2，则3x3 Conv的权重可表示为：

1x1 Conv的权重可表示为：

设var⁽³⁾,E⁽³⁾,β⁽³⁾,γ⁽³⁾分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数，var⁽¹⁾,E⁽¹⁾,β⁽¹⁾,γ⁽¹⁾分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数，var⁽⁰⁾,E⁽⁰⁾,β⁽⁰⁾,γ⁽⁰⁾分别表示identity之后的BN的方差、均值、偏置系数、缩放系数，identity表示一个层，

设输入为

输出为

其中N是batch_size(批量大小)，H1、W1是输入特征的高和宽，H2,W2是输出的高和宽，当C₁＝C₂,H₁＝H₂,W₁＝W₂时，可得所述输入M₁与所述输出M₂的关系式为：

当所述C₁＝C₂,H₁＝H₂,W₁＝W₂不成立时，所述输入M₁与所述输出M₂的关系式为：

且其权重和偏置如下：

权重：

偏置：

在等到输入输出的关系等式，及BN的方差、均值、偏置系数、缩放系数以及整个大层的权重和偏置之后，可以根据(2)中的Conv层与BN层融合的技术，将相应的参数和公式带入进行变化，也可以得到跟

一样的一元一次方程，即一个卷积的形式，并且上述过程只是对残差连接大层中的线性层(Conv层、BN层)进行融合，因为卷积层是由Conv+BN+Relu构成，所以将Relu非线性层放到本残差连接大层的最后一层，就可以完成该大层的融合。

本方案通过在COCO2017数据集上训练，最终检测模型的Map为39.8，进行INT8量化后，在RTX 3080Ti上速度达到1.1毫秒，与对标的YOLOX-S相比，虽然MAP下降了0.2(YOLOX-SMAP＝40.0)，但速度提升了将近17倍，所以可以认为通过本方案，在模型精度几乎没有变化的情况下(因为0.2％的精度可以忽略不计)，速度提升了17倍，有的非常明显的提升，实验结果数据如图2所示。

本实施例的有益效果为：

实施例2

如图3所示，一种基于结构重参数化的模型推理速度提升装置，包括：

模型训练模块10：用于获取样本数据并按照多分支结构进行训练，得到训练模型，所述训练模型包括残差连接大层，且所述残差连接大层包括1×1卷积层和3×3卷积层；

结构重参数化的模型生成模块20：用于将所述残差连接大层的非线性层放在所述残差连接大层的最后一层，再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合，得到卷积融合层并完成所述残差连接大层的融合，以得到结构重参数化的检测模型。

上述装置的一种实施方式为，在模型训练模块10中，获取样本数据并按照多分支结构进行训练，得到训练模型，所述训练模型包括残差连接大层，且所述残差连接大层包括1×1卷积层和3×3卷积层，在结构重参数化的模型生成模块20中，将所述残差连接大层的非线性层放在所述残差连接大层的最后一层，再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合，得到卷积融合层并完成所述残差连接大层的融合，以得到结构重参数化的检测模型。

实施例3

如图4所示，一种基于结构重参数化的模型推理速度提升装置中的结构重参数化的模型生成模块20，包括：

Conv层与BN层第一融合模块21：用于分别将Conv层的表达式Conv＝Wc*x+Bc和BN层的表达式

带入公式y＝BN(Conv(x))中进行计算，得到第一公式

Conv层与BN层第二融合模块22：用于对所述第一公式进行变形，得到第二公式

所述第二公式为一元一次方程，完成所述Conv层和所述BN层的融合；

第一结构重参数化模块23：用于步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层；

第二结构重参数化模块24：用于步骤二、预设所述残差连接大层的输入为

输出为

第三结构重参数化模块25：用于步骤三、当C₁＝C₂,H₁＝H₂,W₁＝W₂时，可得所述输入M₁与所述输出M₂的关系式为：

且所述残差连接大层的权重为

所述残差连接大层的偏置为

其中

第四结构重参数化模块26：用于步骤四、根据所述步骤一、所述步骤二、所述步骤三可得，所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。

上述装置的一种实施方式为，在Conv层与BN层第一融合模块21中，分别将Conv层的表达式Conv＝Wc*x+Bc和BN层的表达式

带入公式y＝BN(Conv(x))中进行计算，得到第一公式

其中x为所述Conv层的输入，y为所述Conv层的输出，Wc为所述Conv层的权重，Bc为所述Conv层的偏置项，γ为所述BN层的缩放系数，β为所述BN层的偏移系数，E为所述BN层的均值，var为所述BN层的方差，在Conv层与BN层第二融合模块22中，对所述第一公式进行变形，得到第二公式

所述第二公式为一元一次方程，完成所述Conv层和所述BN层的融合，在第一结构重参数化模块23中，步骤一、将所述残差连接大层的非线性层放在所述残差连接大层的最后一层，在第二结构重参数化模块24中，步骤二、预设所述残差连接大层的输入为

输出为

在第三结构重参数化模块25中，步骤三、当C₁＝C₂,H₁＝H₂,W₁＝W₂时，可得所述输入M₁与所述输出M₂的关系式为：

且所述残差连接大层的权重为

所述残差连接大层的偏置为

其中

表示从1开始，i表示通道，C₁为所述残差连接大层的输入通道，C₂为所述残差连接大层的输出通道，N是batch_size，H1、W1是输入特征的高和宽，H2,W2是输出特征的高和宽，var⁽³⁾,E⁽³⁾,β⁽³⁾,γ⁽³⁾分别表示3x3 Conv之后的BN的方差、均值、偏置系数、缩放系数，var⁽¹⁾,E⁽¹⁾,β⁽¹⁾,γ⁽¹⁾分别表示1x1 Conv之后的BN的方差、均值、偏置系数、缩放系数，var⁽⁰⁾,E⁽⁰⁾,β⁽⁰⁾,γ⁽⁰⁾分别表示identity之后的BN的方差、均值、偏置系数、缩放系数，identity表示一个层，在第四结构重参数化模块26中，步骤四、根据所述步骤一、所述步骤二、所述步骤三可得，所述残差连接大层按照所述Conv层与BN层融合的技术可以完成融合。

实施例4

如图5所示，一种电子设备，包括存储器401和处理器402，所述存储器401用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器402执行以实现上述的任一一种方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述的任一一种方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器401中，并由处理器402执行，并由输入接口405和输出接口406完成数据的I/O接口传输，以完成本发明,一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，存储器401、处理器402,本领域技术人员可以理解，本实施例仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入器407、网络接入设备、总线等。

处理器402可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器402、数字信号处理器402(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgRAM403mableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器402可以是微处理器402或者该处理器402也可以是任何常规的处理器402等。

存储器401可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器401也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等,进一步地，存储器401还可以既包括计算机设备的内部存储单元也包括外部存储设备,存储器401用于存储计算机程序以及计算机设备所需的其他程序和数据,存储器401还可以用于暂时地存储在输出器408，而前述的存储介质包括U盘、移动硬盘、只读存储器ROM403、随机存储器RAM404、碟盘或光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims

1.一种基于结构重参数化的模型推理速度提升方法，其特征在于，包括：

2.根据权利要求1所述的一种基于结构重参数化的模型推理速度提升方法，其特征在于，所述Conv层与BN层融合的技术，包括：

分别将Conv层的表达式Conv＝Wc*x+Bc和BN层的表达式

带入公式y＝BN(Conv(x))中进行计算，得到第一公式

对所述第一公式进行变形，得到第二公式

3.根据权利要求2所述的一种基于结构重参数化的模型推理速度提升方法，其特征在于，所述将所述残差连接大层的非线性层放在所述残差连接大层的最后一层，再根据Conv层与BN层融合的技术对所述1×1卷积层和所述3×3卷积层进行融合，得到卷积融合层并完成所述残差连接大层的融合，以得到结构重参数化的检测模型，包括：

步骤二、预设所述残差连接大层的输入为