CN117764129A

CN117764129A - 一种无乘法神经网络自动设计的边缘设备

Info

Publication number: CN117764129A
Application number: CN202410070762.2A
Authority: CN
Inventors: 孙彪
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-03-26
Anticipated expiration: 2044-01-18
Also published as: CN117764129B

Abstract

本申请提出一种无乘法神经网络自动设计的边缘设备，在边缘设备中应用无乘法神经网络进行自动搜索，用于对神经网络参数进行优化。首先通过构建无乘法的可扩展运算符搜索空间并对该空间进行搜索获得符号化程序，并且，为了能够进一步提高搜索效率和计算的速度，采用哈希加速算法对搜索获得的符号化程序进行优化，以获得最优的符号化程序；最后在边缘设备中基于优化结果并行电路设计并实现无乘法计算功能。本申请能够提高神经网络在边缘设备中的计算效率以及适应性，能够降低智能算法对于硬件设备的要求并提高算法的适用性。

Description

一种无乘法神经网络自动设计的边缘设备

技术领域

本发明涉及一种用于神经网络计算的一种边缘设备。

背景技术

边缘设备是指在边缘侧运行神经网络进行训练、推理等计算的设备，其能源和算力都非常有限，在其上运行的神经网络必须要求轻量化、低功耗。现有的边缘神经网络大都通过对标准神经网络进行剪枝、量化等操作来降低参数量，但其底层仍是乘法运算。乘法运算在常见的边缘计算设备安装的芯片（如单片机、FPGA等）上执行效率低下，远低于加法、逻辑等运算的执行效率，因此现有的边缘神经网络效率不高，能耗居高不下。为了提高边缘神经网络的执行效率，不得不在边缘计算设备上安装GPU芯片，不但成本高昂，而且体积大、能耗高，无法在能源和空间都有限的场景中应用。

为了降低边缘神经网络的计算复杂度和能耗，可以考虑设计不包含乘法等复杂运算符的神经网络，称之为无乘法神经网络。无乘法神经网络层是将输入特征X与网络层权重W进行某种无乘法复合运算，以得到网络层输出Y的过程，可表示为

其中是一种复合运算，其中不包含乘法运算符，可包含但不限于加法、减法、取符号、最大值、最小值、绝对值、逻辑运算等运算符。通过将无乘法网络层进行堆叠，即可构造边缘无乘法神经网络。由此可见，关键是要设计无乘法复合运算符/>。

已经有一些研究将加法、绝对值、取符号位等运算符组合起来替代乘法运算符，并证明了在保证神经网络精度的前提下可有效降低神经网络的能耗。然而，这些神经网络依赖于人工设计，其前向运算和反向梯度传播公式均需要人工推导，当前成功的案例非常少见。此外，人工设计的无乘法神经网络是否最优也无法判断。

由此可见，如何自动化设计高效的无乘法神经网络，并在边缘设备上进行电路实现及部署，当前尚未出现有效的解决方案。

发明内容

本申请提出一种在边缘设备中应用的无乘法神经网络自动搜索系统，用于对神经网络参数进行优化。首先通过构建无乘法的可扩展运算符搜索空间并对该空间进行搜索获得符号化程序，并且，为了能够进一步提高搜索效率和计算的速度，采用哈希加速算法对搜索获得的符号化程序进行优化，以获得最优的符号化程序；最后在边缘设备中基于优化结果并行电路设计并实现无乘法计算功能。本申请能够提高神经网络在边缘设备中的计算效率以及适应性，能够降低智能算法对于硬件设备的要求并提高算法的适用性。

一种边缘设备，包括：无乘法神经网络自动搜索模块和第一运算模块；

无乘法神经网络自动搜索模块用于对神经网络参数进行优化，具体包括：

第一计算模块，用于构建无乘法神经网络的可扩展运算符搜索空间；

第二计算模块，与第一计算模块连接，用于对第一计算模块中构建的可扩展运算符搜索空间结果进行弹性符号化搜索，自动获得用于构建无乘法复合运算符的符号化程序语句；

第三计算模块，与第二计算模块连接，使用第一优化算法对弹性符号化搜索结果进行优化，获得第一优化结果；

在第三计算模块中还具有第四计算模块，所述第四计算模块中具有第二优化算法，所述第二优化算法对第一优化算法进行加速；

第一运算模块用于构建无乘法神经网络及部署边缘设备，包括第五计算模块和第六计算模块，第五计算模块基于所述第一优化结果对其所涉及的运算建立并行电路；第六计算模块用于使用第一优化结果来替换神经网络中的乘法运算以在边缘设备中进行无乘法神经网络运算。

可选地，所构建的可运算符搜索空间包括但不限于加法、减法、取符号、最大值、最小值、绝对值、逻辑运算等。

可选地，第二计算模块进行的弹性符号化搜索，利用计算机自动搜索获得数量弹性可变的无乘法复合运行程序语句。

可选地，第三计算模块中使用的第一优化算法为进化算法，第四计算模块中使用的第二优化算法为适应第一优化算法的哈希加速算法。

可选地，第六计算模块中使用优化结果替换神经网络中的乘法运算包含但不限于：使用已有卷积神经网络并使用替换卷积层、使用已有Transformer网络并使用/>替换矩阵乘法运算符、使用已有递归神经网络并使用/>替换矩阵乘法运算符等。

本申请的无乘法神经网络自动搜索系统，能够进一步提高搜索效率和计算的速度，能够提高神经网络在边缘设备中的计算效率以及适应性，能够降低智能算法对于硬件设备的要求并提高算法的适用性。

附图说明

为了更加清楚地说明本申请实施例中的技术方案，下面将实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的无乘法神经网络自动搜索模块框图；

图2为本申请实施例提供的顺序执行的符号化程序结构流程图；

图3为本申请实施例提供的搜索完成后的符号化程序结构示例图；

图4为本申请实施例提供的进化算法优化流程图；

图5为本申请实施例提供的进化算法优化流程图；

图6为本申请实施例提供的哈希加速方法流程图；

图7为本申请实施例提供的并行电路设计示意图；

图8为本申请实施例提供的在边缘设备中实现无乘法神经网络的系统框架图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中提供了一种边缘设备，用于实现无乘法神经网络自动搜索。边缘设备中包括无乘法神经网络自动搜索模块和第一运算模块；无乘法神经网络自动搜索模块如图1所示：

第一计算模块，用于构建无乘法神经网络的可扩展运算符搜索空间。

由于乘法运算符在硬件电路上运行效率低下，因此本申请排除乘法运算符，而选用运行效率较高的运算符来构造搜索空间。选用的运算符包括但不限于加法、减法、取符号、最大值、最小值、绝对值、逻辑运算等，即搜索空间可表示为：

其中Sgn表示取符号运算符，Max表示最大值运算符，Min表示最小值运算符，Abs表示绝对值运算符，And表示逻辑与运算符，Or表示逻辑或运算符，Not表示逻辑非运算符，Nand表示逻辑与非运算符，Nor表示逻辑或非运算符，Xor表示逻辑异或运算符。值得注意的是，搜索空间不限于这里列出的运算符，也可以容纳更多的运算符。例如，待部署神经网络的边缘计算芯片可高效运行某种运算符（如哈希运算符），也可以将其纳入到搜索空间内，因此本申请提出的运算符搜索空间构建方法具备可扩展性。运算符搜索空间构建完成后，即可从中选取运算符构建无乘法复合运算符/>。

第二计算模块，与第一计算模块连接，用于对第一计算模块中构建的可扩展运算符搜索空间结果进行弹性符号化搜索，自动获得用于构建无乘法复合运算符的符号化程序语句。

为了更有效地从搜索空间中取运算符构建无乘法复合运算符/>，本申请构建了一个符号化程序搜索框架，将复合运算/>表示为一种顺序执行的程序结构，其中包含多条可搜索的符号化程序语句，

符号化程序结构如图2所示，其中包含N条可搜索的符号化程序语句，每条语句均可由搜索空间中的运算符构成，经过搜索后确定所有N条语句的运算符，即可构成无乘法复合运算符/>。值得注意的是，该符号化程序结构是弹性的，即包含的语句数量N是可变的，随着搜索过程的进行，语句数量可随之增大或减小，因此可大大扩展搜索空间大小。一个搜索完成后的符号化程序结构示例如图3所示，该程序包含4条程序语句，每条语句包含1个无乘法运算符，分别为加法、取最小值、取绝对值、减法，该程序构建的无乘法复合运算符/>可表示为：

虽然该复合运算包含4个无乘法运算符，但都是可以在硬件电路上快速执行的运算符，相比乘法运算符的执行效率有极大提升，因此由该运算符构建的无乘法神经网络可有效提升在硬件上的执行效率。

第三计算模块，与第二计算模块连接，使用第一优化算法对弹性符号化搜索结果进行优化，获得第一优化结果；所述第一优化算法为进化算法。

构建无乘法复合运算符的目的是在保证网络精准度不下降的前提下，替换乘法运算符来提升硬件执行效率。因此，在搜索过程中，既要保证复合运算符/>的执行效率高，又要保证构建的无乘法神经网络的精准度高。为达到此目的，本申请提出一种用于符号化程序搜索的进化算法，首先随机生成一个包含P个符号化程序的种群，之后进行多次种群进化来搜索最优的符号化程序。每次种群进化包含4个步骤，以P=5为例，流程如图4所示，具体如下：

第一个步骤中，将最旧的程序删除。

第二个步骤中，将剩余的P-1个程序保留，并评估出其中最优的程序。最优程序的评估使用网络分类误差和硬件资源消耗两方面的指标相结合，即：

其中Error代表网络分类误差，FLOPs代表程序的硬件资源消耗，为二者的平衡参数。为评估网络分类误差，本申请采取CIFAR10数据集，并使用搜索出的程序代替卷积层来构建ResNet20网络，训练50轮之后，以网络的分类误差来表示Error的值。在步骤二中，对种群内所有的程序评估其LOSS值，取LOSS值最低的程序作为最优程序。

第三个步骤中，将最优的程序复制一份，放到最新程序的位置。

第四个步骤中，对最新的程序进行突变，生成新的程序。本申请提出四种方式对程序进行突变，如图5所示。第一种方式为随机添加，即在原程序中的随机位置添加一条随机的程序语句；第二种方式为随机删除，即在原程序中的随机位置选定并删除一条程序语句；第三种方式为随机改变运算符，即在原程序中的随机位置选定一条程序语句并改变其运算符；第四种方式为随机改变参数，即在原程序中包含参数的程序语句中随机选定一条并改变其参数。使用以上任意一种方式均能够生成新程序。

经过以上四个步骤，即可生成新一代的种群。不断迭代执行以上四个步骤，即可不断生成新的种群。在最终的种群中选出最优的符号化程序，作为最终的复合运算符，即第一优化结果。

在第三计算模块中还具有第四计算模块，所述第四计算模块中具有第二优化算法，所述第二优化算法对第一优化算法进行加速；所述第二优化算法为适应第三计算模块优化算法的哈希加速算法。

在进化算法执行过程中，生成的新程序有可能和以前生成的程序重复，或功能上等价。重复训练网络来计算这些程序的LOSS值会造成计算资源浪费，大大降低进化算法的搜索效率。为解决此问题，本申请提出一种用于进化算法的哈希加速方法，如图6所示。通过一张哈希表来记录已经生成程序的哈希值及对应的LOSS值。首先随机生成一对X和W，并在整个哈希加速过程中保持不变。对于每个程序，将X和W输入程序中，将计算得到的Y作为程序的哈希值，并评估得到其LOSS值，将哈希值和对应的LOSS值共同存入哈希表中。对于新生成的程序，首先将X和W输入程序中计算哈希值，并在哈希表中搜索是否有相同的哈希值。如果不存在相同哈希值，则重新训练网络来计算LOSS值，并添加进哈希表中。如果存在相同哈希值，则将存储的对应LOSS值取出用来评估程序性能。此方法能够避免重复训练网络来计算LOSS值，从而大大提升进化算法的搜索效率。

第一运算模块包括第五计算模块和第六计算模块。

第五计算模块基于第二优化结果对其所涉及的运算建立并行电路；第五计算模块用于无乘法复合运算符并行电路设计。完成无乘法复合运算符搜索后，得到的是顺序执行的程序。边缘计算设备上一般都配置有FPGA芯片，可并行高效地运行计算程序。为充分利用FPGA芯片的并行计算能力，本申请提出一种将无乘法复合运算符转化为并行数字电路的自动化设计方法。以复合运算符⨁ (X, W) = (Sgn(X)) And (Sgn(W)) And (|W|+|X|)为例，并行电路设计步骤如图7所示。

首先将所有程序语句划分执行层次，越需要提前执行的程序语句，其执行层次越高。本例中，TEMP₁= Sgn (W)、TEMP₂= Sgn (X)、TEMP₄= Abs (X)、TEMP₅= Abs (W)均为第一层次，需要优先执行；TEMP₃= (TEMP₁) And (TEMP₂)、TEMP₆= (TEMP₄) + (TEMP₅)为第二层次，将在第一层次后执行，Y = (TEMP₃) And (TEMP₆)为第三层次，将在最后执行。

在相同执行层次中判断程序语句是否可并行执行，若某条语句的输入变量不依赖于其他语句的输出变量，则这些语句可并行执行。如第一层次中的4条语句，每条语句的输入变量均不依赖于其他3条语句的输出变量，因此这4条语句可并行执行。第二层次中的2条语句，每条语句的输入变量均不依赖于其他1条语句的输出变量，因此这2条语句可并行执行。

将可并行的程序语句映射为FPGA的并行电路结构。如本例中，将第一层次中的4条语句映射为FPGA中的4个并行电路模块，将第二层次中的2条语句映射为FPGA中的2个并行电路模块。

将不同执行层次的程序语句映射为FPGA中的顺序电路结构。如本例中，将第二层次中的2个并行电路模块连接到第一层次中的4个并行电路模块后端执行。

将最低层次的程序语句映射为FPGA中的输出端口，得到对应复合运算符的输出。

第六计算模块用于使用优化结果来替换神经网络中的乘法运算。具体地，在边缘设备中进行无乘法神经网络构建及边缘设备的部署。

本申请可使用的无乘法神经网络构造方法包含但不限于：使用已有卷积神经网络并使用替换卷积层、使用已有Transformer网络并使用/>替换矩阵乘法运算符、使用已有递归神经网络并使用/>替换矩阵乘法运算符等。

无乘法神经网络构建完成后，能够方便的部署到低算力的单片机或小规模的FPGA芯片上。在此以FPGA芯片为例，描述无乘法神经网络部署方法，部署流程如图8所示。首先使用高级编程语言进行网络模型编程，在此以C++为例编写代码；之后使用高级综合工具对代码进行综合，得到Verilog文件，以.v文件表示；与此同时，对无乘法复合运算符并行电路进行打包，加入生成的Verilog文件中；进一步，将Verilog文件导出为RTL文件；进一步，将RTL文件通过Vivado转化为电路实现；最后，将电路部署到边缘设备上的FPGA芯片中，用于获得神经网络的计算结果。

本说明书中各个实施例可以采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种边缘设备，其特征在于，所述边缘设备包括：无乘法神经网络自动搜索模块和第一运算模块；

2.根据权利要求1所述的边缘设备，所述可扩展运算符搜索空间包括加法、减法、取符号、最大值、最小值、绝对值、逻辑运算。

3.根据权利要求1所述的边缘设备，所述可扩展运算符搜索空间中所包括的程序数量是弹性可变的。

4.根据权利要求1所述的边缘设备，第三计算模块中使用的所述第一优化算法为进化算法。

5.根据权利要求1所述的边缘设备，第四计算模块中使用的所述第二优化算法为适应所述第一优化算法的哈希加速算法。

6.根据权利要求1所述的边缘设备，所述边缘设备中包括FPGA。

7.根据权利要求1所述的边缘设备，所述第六计算模块中使用优化结果替换神经网络中的乘法运算包含：使用已有卷积神经网络并使用替换卷积层、使用已有Transformer网络并使用/>替换矩阵乘法运算符、使用已有递归神经网络并使用/>替换矩阵乘法运算。

8.根据权利要求1所述的边缘设备，所述并行电路包括：将所执行的程序语句划分执行程序，在先执行的其层次越高，并判断相同执行层次中的程序语句是否可以并行，将可并行的程序语句映射为FPGA的并行电路结构。

9.一种使用如权利要求1所述边缘设备的神经网络优化方法，其特征在于，第三计算模块中使用的所述第一优化算法为进化算法，第四计算模块中使用的所述第二优化算法为适应所述第一优化算法的哈希加速算法，所述进化算法包括：

步骤1：将最旧的程序删除；

步骤2：将剩余的P-1个程序保留，并评估出其中最优的程序；最优程序的评估使用网络分类误差和硬件资源消耗两方面的指标相结合，即：

其中Error代表网络分类误差，FLOPs代表程序的硬件资源消耗，为二者的平衡参数；

步骤3：最优的程序复制一份，放到最新程序的位置；

步骤4：对最新的程序进行突变，生成新的程序；

不断迭代执行上述四个步骤，不断生成新的种群，在最终的种群中选出最优的符号化程序，作为最终的复合运算符。

10.根据权利要求9所述的神经网络优化方法，适应所述第一优化算法的哈希加速算法包括：首先随机生成一对X和W，并在整个哈希加速过程中保持不变；对于每个程序，将X和W输入程序中，将计算得到的Y作为程序的哈希值，并评估得到其LOSS值，将哈希值和对应的LOSS值共同存入哈希表中；对于新生成的程序，首先将X和W输入程序中计算哈希值，并在哈希表中搜索是否有相同的哈希值；如果不存在相同哈希值，则重新训练网络来计算LOSS值，并添加进哈希表中；如果存在相同哈希值，则将存储的对应LOSS值取出用来评估程序性能。