CN114897159B

CN114897159B - 一种基于神经网络的快速推断电磁信号入射角的方法

Info

Publication number: CN114897159B
Application number: CN202210538029.XA
Authority: CN
Inventors: 詹瑾瑜; 于安泰; 江维; 杨永佳; 江昱呈; 蒲治北; 边晨; 雷洪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-05-12
Anticipated expiration: 2042-05-18
Also published as: CN114897159A

Abstract

本发明公开一种基于二值化神经网络的快速推断电磁信号入射角的方法，应用于神经网络硬件加速领域，针对在边缘计算环境下，将神经网络部署在资源受限设备时，边缘计算设备能耗过高的问题；本发明首先对现有全精度网络模型进行改进，具体的：在每个激活层前添加BN层，同时删去全精度网络模型中的bias偏差；然后使用二值化权重对改进后的网络模型进行训练；训练完成的网络模型结合硬件并行设计，可以有效降低所部署边缘设备功耗和资源消耗。

Description

一种基于神经网络的快速推断电磁信号入射角的方法

技术领域

本发明属于神经网络硬件加速领域，特别涉及一种在边缘计算环境下，将神经网络部署在资源受限设备上的硬件加速技术。

背景技术

二值化是一种1位量化，其中数据只能有两个可能的值，即-1(0)或+1。其主要目的是将网络进行大幅度的压缩。二值化后，神经网络中的权重和激活都可以用1位表示，而不会占用太多内存。二值化技术主要分为2种：二值化权重，二值化激活与权重。过去很难将神经网络的参数量化到一位，因为人们通常认为二值化会给神经网络带来灾难性的后果。但是BinaryConnect做了一个开创性的实验，将权重范围缩小到{+1,-1}，在常用的MNIST和CIFAR-10数据集上获得了近乎最新的结果。通过量化，不仅减小了参数的大小，而且可以使用简单的加减法来代替权重和激活的乘法。该实验消除了大约2/3的乘法要求。由于二值化神经网络在大型数据集(如ImageNet数据集)上的精度低于全精度神经网络，BWN添加了一个缩放因子α将权重范围更改为{+α,-α}。通过求解优化问题可以很容易地确定缩放因子的最优值，这种方法可以大大提高网络分类的精度。

当权重和激活都量化为{+1,-1}时，模型尺寸可以大大减小。并且xnor-popcount操作可以用来代替乘法累加操作，前者不需要DSP的参与。并且xnor-popcount计算可以大大减少计算时间。

BNN是第一个将权重和激活量化为{+1,-1}的工作。与32位网络相比，这将大大降低边缘计算设备的能耗。并且通过实验表明，它在GPU上运行时可以比32位网络快7倍，并且它的分类精度仅略低于BinaryConnect。但它在大型数据集上的准确率仍然很低。为了解决这个问题，XNOR-Net将二值化的权重和激活值乘以缩放因子，使量化值尽可能接近全精度值，以此来减少量化误差。这确实大大提高了网络的准确率，但与仅量化权重的BWN相比，准确率在大数据集ImageNet上仍有较大下降。这是因为量化激活的影响远大于量化权重的影响。

硬件加速器主要用于网络加速。在高层次上，它们包含整个处理器平台，并且通常包括针对神经网络优化的硬件。TaiJiNet提出了部分二值神经网络，因为有时候硬件不用完全二值化也能很好的运行，而完全二值化往往会导致准确率下降。TaiJiNet通过研究对比制定了mean-l_1和mean-l_2标准。当权重的计算值小于阈值时，将权重进行二值化，否则不进行二值化。它在大型数据集上具有很高的准确性。但是，部分二值化也意味着权重既有浮点数又有1位定点数。因此，硬件必须与网络结构相匹配，才能更好地发挥FPGA的并行性。

二值化神经网络网络大大缩小了模型的大小，但仍然有很多的冗余。因为网络的数据集和特征图一般在空间上是相关的，而二值化后的值只有两种可能，所以输入会有大量相同的元素。权重反映了输入在不同空间的特征系数，所以输入在空间的相似性也会使权重产生相似性。Fu等人提出了两种架构：分别针对输入和权重。对于输入，在计算卷积时，首先检查当前计算阶段的输入和上一个计算阶段的输入的差异。如果没有差异，则重复使用之前的结果，如果有差异，则只计算差异项并更新结果。对于权重，检查当前计算阶段和上一个计算阶段的权重之间的差异。这样平均可以跳过80％的计算和40％的缓冲区访问。而在硬件加速器中，对缓冲区进行访问是造成高用时和高功耗的一大因素。

发明内容

为解决现有技术问题，本发明提供一种基于二值化神经网络的快速推断电磁信号入射角的方法，该方法不仅将二值化神经网络应用到了回归网络，还使得网络的推理速度得到成倍的提高。

本发明的目的是通过以下技术方案来实现的：一种基于二值化神经网络的快速推断电磁信号入射角的方法，包括以下步骤：

A1、将获取到的电压信号作为输入数据，并对输入数据进行归一化处理；

A2、构建全精度网络模型，所述全精度网络模型为全连接层与激活层交叉设置的串联型网络结构；

A3、对步骤A2的全精度网络模型进行改进，具体的：在每个激活层前添加BN层，同时删去全精度网络模型中的bias偏差，得到改进后的二值化网络模型；

A4、采用步骤A1归一化处理后的数据对步骤A3得到的改进后的二值化网络模型进行重训练；

A5、将训练完成的二值化网络模型参数与二值化网络模型输入数据导出，存储到本地；

A6、配置硬件，所述硬件包括处理系统PL与可编程逻辑PS，具体的：使用vivado块设计来实现PL与PS对BRAM的读写，同时用AXI4来进行PL与PS的通信；

A7、FPGA端根据改进后的二值化网络模型结构以及步骤A5存储到本地的参数，并行计算矩阵相乘，并将结果写入输出BRAM中；

A8、ARM端读取输出BRAM中的结果，并做BN层以及激活层的运算；

A9、重复A7-A8，直到完成改进后的二值化网络模型所有层的计算，得到最终电磁信号入射角的结果。

步骤A4具体包括：

A41、前向传播过程中，利用sign()函数将权重进行二值化，并使用二值权重来计算网络的预测结果以及loss，其中sign()公式为：

前向传播的基本过程为：

w_b＝sign(w)

y＝Relu(BN(x*w_b))

其中w代表权重的全精度值，w_b代表二值化后的权重，x代表输入，BN代表BN层的计算，Relu是激活层的计算；

A42、利用Straight-Through Estimator算法进行后向传播；

A43、重复步骤A41与A42，直到网络拟合，并得到一个损失值低于0.05的网络模型。

步骤A42具体为：使用直通估计器根据参数的全精度值来计算梯度，并对参数的全精度值进行更新；同时限制权重的全精度值在[-1,+1]之间，权重的参数更新公式为：

其中w为权重的全精度值，η代表学习率，loss为损失函数，w_b为二值化后的权重，clip函数的用于将计算值限制在正负1之间.

步骤A43中采用均方误差来计算损失值。

步骤A5具体包括6个BRAM与1个.h文件，6个BRAM包括1个输入BRAM，4个权重BRAM以及1个输出BRAM；输入BRAM用于存储输入数据，4个权重BRAM用于存储权重参数，输出BRAM用于存储输出数据，.h文件用于存储BN层的数据。

本发明的有益效果：本发明不同于传统的二值化网络应用，该发明将二值化网络应用到了分类任务以外的深度学习领域，即回归问题。并且克服了传统神经网络运算速度慢，参数庞大的缺点，将网络压缩了25倍以上，有效降低了神经网络所部署在的硬件设备的功耗及资源消耗；并以低功耗和低资源消耗实现了神经网络的快速推断。

附图说明

图1为本发明的基于二值化神经网络的快速推断电磁信号入射角技术的流程图；

图2是本发明的二值化神经网络的训练过程；

图3是本发明的网络部署前的准备工作流程图；

图4是本发明的FPGA端计算架构图；

图5是本发明的ARM端计算架构图；

图6是本发明的硬件计算总过程流程图。

图7是本发明的全精度网络结构图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图1所示，本发明的一种基于二值化神经网络的快速推断电磁信号入射角技术包括以下步骤：

S1、对输入数据和网络结构进行处理，得到利于二值化神经网络训练的模型结构以及数据样式；输入数据是通过传感器和硬件电路捕获的一系列电压信号的模拟量，输出是电磁信号的入射角度。

如图1所示，步骤S1具体包括以下子步骤：

S11、计算预先准备好的训练集的均值与标准差，对不同的维度要分别进行计算，即每个维度对应一个均值与标准差。

S12、将训练数据集进行归一化处理，即将训练数据集减去均值，再除以标准差。同时用训练集的均值与标准差对测试集进行归一化处理，因为在实际情况中，并不能事先得知测试集的均值与标准差。

S13、将训练集随机打乱，使网络可以学习到不同的特征，来避免过拟合的问题。

S14、对预先准备好的网络模型进行改进，得到改进后的二值化网络模型。

本发明采用的全精度网络模型结构如图7所示，包括五个全连接层(Denselayer)与4个Relu激活层，五个全连接层依次记为：第一全连接层、第二全连接层、第三全连接层、第四全连接层、第五全连接层；4个Relu激活层依次记为：第一Relu激活层，第二Relu激活层，第三Relu激活层，第四Relu激活层；

全连接层的计算公式为：

y＝w*x+bias

其中，y是该全连接层的输出，x是该全连接层的输入，w是权重，bias是偏差。

本实施例中输入的数据集是1*18的电压信号模拟量，因此采用了如图7所示的包括五个全连接层(Denselayer)与4个Relu激活层的全精度网络模型，如果输入的数据集比较庞大，则需要增加全精度网络模型中全连接与激活层的数量，具体的网络结构与图7类似，均为2个相邻全连接层之间包括一个激活层。

本发明对全精度网络模型的改进具体为：

本发明在每个激活层前添加BN层，通过添加BN层可以极大的减小二值化的量化误差，有利于二值网络的拟合；同时删去全精度网络模型中的bias偏差，把网络中的bias偏差去掉，这样不仅可以减少参数，也有利于之后的硬件并行设计；对每层的特征进行归一化处理，四个BN层依次记为：第一BN层，第二BN层，第三BN层，第四BN层，每个BN层的计算公式相同，具体为：

其中，x_i为BN层的第i个输入，m为输入的数据量，μ为均值，σ²为方差，β为可训练偏差，y_i表示BN层的第i个输出。

S2、对网络进行重训练，得到高精度以及低损失的网络模型，训练过程主要在GPU进行。如图2所示，具体包括以下子步骤：

S21、前向传播过程中，利用sign()函数将权重进行二值化，并使用二值权重来计算网络的预测结果以及loss等。其中sign()公式为：

前向传播的基本过程为：

w_b＝sign(w)

y＝Relu(BN(x*w_b))

其中w代表权重的全精度值，w_b代表二值化后的权重，x代表全连接层的输入，y代表全连接层的输出，BN代表BN层的计算，Relu是激活层的计算。Relu的计算公式为：

S22、利用Straight-Through Estimator算法进行后向传播，即使用直通估计器。根据参数的全精度值来计算梯度，并对参数的全精度值进行更新。同时限制权重的全精度值在[-1,+1]之间。权重的参数更新公式为：

其中w为权重的全精度值，η代表学习率，loss为损失函数，w_b为二值化后的权重。clip函数的作用是将参数限制在正负1之间，其公式为：

clip(x)＝max(-1,min(1,x))

S23、用S13得到的训练数据对S14得到的改进后的二值化网络模型进行重训练。重复步骤S21与S22，直到改进后的二值化网络模型拟合，并得到一个损失值低于0.05的网络模型。本发明中采用均方误差来计算损失值。

S3、将训练好的模型参数导出，并存储进FPGA的Block memory里。如图3所示，具体包括以下子步骤：

S31、将S23训练好的改进后的二值化网络模型参数导出到计算机本地文件中，其中包含模型浮点输入数据与二值权重参数。

S32、将改进后的二值化网络模型浮点输入数据转换为32位定点数，使用Q23量化系数。将二值权重按照f_0,1(w_b)的映射关系进行数值转换，并把32个1位的权重值拼成一个32位的权重值，以便存储。其中f_0,1(w_b)公式为：

然后将改进后的二值化网络模型的浮点输入数据按如下规则转换成相应的定点数，其中Q为23：

浮点数(F_x)转换为定点数(I_x)：I_x＝(int)F_x*2^Q

定点数(I_x)转换为浮点数(F_x)：F_x＝(float)I_x÷2^Q

S33、把S32得到的数据存进FPGA的BRAM中。其中转换为定点数的模型输入数据(数据集的信号量数据)存在一个BRAM中，转换后的权重参数存在4个BRAM中，再使用一个BRAM用来存放输出数据。

S34、BN层的数据存储进.h文件中。

S35、最后要配置硬件，具体为：采用AXI4来进行PL与PS的通信，实现了PL与PS都能对BRAM进行读写，使用vivado块设计来实现PL(Progarmmable Logic，可编程逻辑)与PS(Processing System，处理系统)对BRAM的读写与矩阵计算IP核。

本实施例中采用的zcu102开发板包括2个核心部分，一个是ARM，一个是FPGA，即本实施例中的PL就是FPGA，PS就是ARM。

本实施例中ARM主要计算BN层和激活层，FPGA主要计算全连接层，即矩阵相乘。

本领域技术人员应知OpenCL是一个异构并行计算平台编写程序的工作标准，此异构计算可映射到CPU/GPU/DSP和FPGA等计算设备；每个OpenCL设备可划分成一个或多个计算单元(CU)，每个计算单元又可划分成一个或多个处理元件(PE)。

S4、FPGA端根据模型结构以及参数，并行计算矩阵相乘，并将结果写入输出BRAM中。如图4所示，具体包括以下子步骤：

S41、FPGA端从输入BRAM与权重BRAM中读取数据，并进行矩阵运算。FPGA计算模块每一个时钟周期就读取一个输入和4个32位的权重。

S42、激活复用。4个32位权重就是128个权重数据(4*32＝128)，在一个时钟周期内将S41得到的输入与128个权重同时进行乘累加计算。

S43、重复步骤S41和S42一定次数(输入数据的深度)，直到计算得到该层输出的128个节点值。重复的次数根据输入数据的深度确定，比如输入是1*512，权重有512*1024个，就重复512次。

S44、将S43得到的128个输出数据存进输出BRAM中，并重复S41-S44的步骤，直到该层所有节点计算完毕并存储进输出BRAM中。

S5、ARM端读取输出BRAM中的结果，并做BN层以及激活的运算。如图5所示，具体包括以下子步骤：

S51、在ARM端调用库函数Xil_In32(addr)，读取S44完毕后存储进输出BRAM中的数据。函数中的addr为想要获取数据的地址值。

S52、将S51得到的输出数据转换为32位浮点数。再根据S31得到的BN层参数，对输出数据进行BN层的计算。最后进行Relu激活计算得到该层的输出结果值，即把小于0的输出数据置0。

S53、依然使用Q23的量化系数来将S52得到的输出结果转换为32位定点数，并调用库函数Xil_Out32(addr,val)将结果存进输入BRAM中。函数中的addr为想要存放到的地址值，val为存放的数据值。

S6、计算出最终电磁信号入射角的结果并验证。如图6所示，具体包括以下子步骤：

S61、重复步骤S4～S5，直到改进后的二值化网络模型的所有层都计算完毕，得到网络的最终预测值。

将S61得到的入射角的最终预测值打印在输出终端上，并与数据集中相应的回归值(标签)做比较验证，若计算得到的预测值与回归值相差小于1则正确，否则不正确并返回S2。

本实施例使用的FPGA器件型号为ZCU102，如表1所示，本发明的方法克服了传统神经网络运算速度慢，参数庞大的缺点，将网络压缩了25倍以上，其中“在ZCU102的ARM端计算”是指FPGA端未参加计算的二值化网络的推理；如表2所示，本发明的方法保持了较低的资源消耗。

表格1二值化网络推理时间

	推理时间
		采用本方法在ZCU102上计算	2ms
在ZCU102的ARM端计算	51ms

表格2 ZCU102资源消耗情况

资源	使用量	可用量	使用率
				LUT	44626	274080	16.28
LUTRAM	712	144000	0.49
				FF	10094	548160	1.84
BRAM	40	912	4.39
				Power(功耗)	3.994W	-	-

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于二值化神经网络的快速推断电磁信号入射角的方法，其特征在于，包括以下步骤：

A2、构建全精度网络模型，所述全精度网络模型包括N层全连接层与N-1层激活层，相邻两层全连接层之间包括一层激活层；

A6、配置硬件，具体的：所述硬件包括处理系统端与可编程逻辑端，使用AXI4来进行处理系统端与可编程逻辑端的通信；

A7、可编程逻辑端根据改进后的二值化网络模型结构以及步骤A5存储到本地的参数，并行计算矩阵相乘，并将结果写入输出BRAM中；

A8、处理系统端读取输出BRAM中的结果，并做BN层以及激活层的运算；

2.根据权利要求1所述的一种基于二值化神经网络的快速推断电磁信号入射角的方法，其特征在于，步骤A4具体包括：

前向传播的基本过程为：

w_b＝sign(w)

y＝Relu(BN(x*w_b))

其中w代表权重的全精度值，w_b代表二值化后的权重，x代表全连接层的输入，y代表全连接层的输出，BN代表BN层的计算，Relu是激活层的计算；

A42、利用Straight-Through Estimator算法进行后向传播；

A43、重复步骤A41与A42，直到网络拟合，得到最终的网络模型。

3.根据权利要求2所述的一种基于二值化神经网络的快速推断电磁信号入射角的方法，其特征在于，步骤A41所述BN层的计算，具体为：

4.根据权利要求2所述的一种基于二值化神经网络的快速推断电磁信号入射角的方法，其特征在于，步骤A43所述网络模型的损失值小于或等于0.05。

5.根据权利要求4所述的一种基于二值化神经网络的快速推断电磁信号入射角的方法，其特征在于，步骤A43中采用均方误差来计算损失值。

6.根据权利要求2所述的一种基于二值化神经网络的快速推断电磁信号入射角的方法，其特征在于，步骤A42具体为：使用直通估计器根据参数的全精度值来计算梯度，并对参数的全精度值进行更新；同时限制权重的全精度值在[-1,+1]之间，权重的参数更新公式为：

其中，w为权重的全精度值，η代表学习率，loss为损失函数，w_b为二值化后的权重，clip函数的用于将计算值限制在正负1之间。

7.根据权利要求2所述的一种基于二值化神经网络的快速推断电磁信号入射角的方法，其特征在于，步骤A5具体包括6个BRAM与1个.h文件，6个BRAM包括1个输入BRAM，4个权重BRAM以及1个输出BRAM；输入BRAM用于存储输入数据，4个权重BRAM用于存储权重参数，输出BRAM用于存储输出数据，.h文件用于存储BN层的数据。