CN111445018B

CN111445018B - 基于加速卷积神经网络算法的紫外成像实时信息处理方法

Info

Publication number: CN111445018B
Application number: CN202010232346.XA
Authority: CN
Inventors: 张广东; 刘康; 包艳艳; 温定筠; 孙亚明; 郭陆; 高立超; 陈博栋; 吴玉硕; 牛欢欢; 王津; 李峰; 卢武; 唐敏; 赵文彬
Original assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; Shanghai University of Electric Power
Current assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; Shanghai University of Electric Power
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2023-11-14
Anticipated expiration: 2040-03-27
Also published as: CN111445018A

Abstract

基于加速卷积神经网络算法的紫外成像实时信息处理方法，包括：从FPGA或ASIC或其他形式的集成电路中选型；根据集成电路的片上存储的容量，从需要计算的数据中选择一部分计算数据；将一部分计算数据，卷积神经网络的权重以及卷积神经网络的偏置，通过DMA(Direct Memory Access)从内存中读取到所述片上存储中，然后通过所述集成电路片上存储的数据进行计算以加速卷积神经网络CNN，其中，对于卷积层而言，其能够多次复用输入的数据；将计算得到的数据通过合理的存储方式，安排存放到所述集成电路的片上的输出缓存中，当片上的数据复用结束，将输出缓存中的计算结果通过DMA传输到内存中；重复上述步骤，将剩余部分的数据分块传输到片上进行计算，直至选择完毕所有需要计算的数据。

Description

基于加速卷积神经网络算法的紫外成像实时信息处理方法

技术领域

本公开属于电气工程领域，涉及该领域中紫外成像仪的检测结果的数据处理，尤其涉及基于加速卷积神经网络算法的紫外成像实时信息处理方法。

背景技术

在电气工程领域，紫外成像一般采用光子倍增成像的技术，其成像原理是利用电子光学系统将紫外光转换荧光屏图像，原理如图1所示。

国内应用紫外成像手段开展电气设备状态检测的历史最早至少可以追溯至十年前，当时主要采用南非生产的CoroCAM以及以色列生产的OFIL紫外成像装置。国外的装置利用半透镜原理的日盲型紫外检测技术，巧妙的解决了日光对紫外成像的影响，使紫外光呈现在可见光的图像上，并实现放电计数，放电强度评估等功能。

虽然现有技术中已经涉及了利用神经网络来处理紫外图谱的技术，但是依然缺乏低功耗的紫外成像实时信息处理技术。

发明内容

为了解决上述技术问题，本公开揭示了一种基于加速卷积神经网络算法的紫外成像实时信息处理方法，包括以下步骤：

S100：从FPGA或ASIC或其他形式的集成电路中选型；

S200：根据所述集成电路的片上存储的容量，从需要计算的数据中选择一部分计算数据；

S300：将所述一部分计算数据，卷积神经网络的权重以及卷积神经网络的偏置，通过DMA(Direct Memory Access)从内存中读取到所述片上存储中，然后通过所述集成电路片上存储的数据进行计算以加速卷积神经网络CNN，其中，对于卷积层而言，其能够多次复用输入的数据；

S400：将计算得到的数据通过合理的存储方式，安排存放到所述集成电路的片上的输出缓存中，当片上的数据复用结束，将输出缓存中的计算结果通过DMA传输到内存中；

S500：重复上述S200至S300，将剩余部分的数据分块传输到片上进行计算，直至选择完毕所有需要计算的数据。

优选的，所述集成电路还包括输入缓存，所述剩余部分的数据事先预取到所述输入缓存。

优选的，

对于作为加速器的所述集成电路，其对加法与乘法均采用定点数运算。

由此，本公开能够在集成电路用于加速卷积神经网络领域，通过DMA(DirectMemory Access)方式存储数据以及在加速器中采用定点数进行加法与乘法运算，实现了低功耗的紫外成像实时信息处理。

附图说明

图1是本公开中简化的卷积神经网络的示意图；

图2是本公开的一个实施例的示意图。

具体实施方式

下文通过附图和文字来详细描述本公开的各个实施例。

在一个实施例中，本公开揭示了一种基于加速卷积神经网络算法的紫外成像实时信息处理方法，包括以下步骤：

S100：从FPGA或ASIC或其他形式的集成电路中选型；

为了方便理解上述实施例，参见图1和图2，

卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。它包括卷积层(alternating convolutional layer)和池(化)层(pooling layer)。

卷积神经网络一般包含两部分，一部分是特征提取部分，一部分是

分类器部分。通常特征提取部分是由多个卷积层和池化层组成的。分类器部分则是由多个全连接层和分类网络组成的。图1为一个简化的卷积神经网络的结构图。图1中c1层和c3层都是卷积层，两个卷积层都分别有3个神经元；s2和s4是池化层。nn就是网络的全连接部分，也即分类器。全连接部分和传统的BP神经网络是一致的。图中转成一维向量的部分是将s4层的输出特征图由空间二维形式变为一维向量，以便送入nn中。

输入图片经过卷积层c1的三个神经元的卷积核卷积后加上偏置并进行非线性操作，就可以得到卷积层c1的输出特征图，如图1中c1层中的三个方块所示；s2主要针对c1层的特征图进行池化操作，达到缩小特征图尺寸的目的；c3层再以s2层获得的特征图为输入进行和c1层相同的操作并获得卷积后的层特征图；s4在对c3层的特征图进行池化操作；最后，由于s4层池化后的特征图可能为空间形式的，因此需要将特征图拉成一维向量形式的数据，以方便全连接层的传播，然后将数据传入全连接层。

目前，对于卷积神经网络来讲为了提高模型的性能，一般采用的方法是增加模型的层数，从而增加模型的复杂度，用较大的模型来训练并应用。然而当模型变大后，模型的参数也随之增多，带来了更高的计算需求以及存储需求，随之而来的是能耗的进一步提升以及计算时间的增加，这给实时处理带来了很大的影响。

在神经网络的计算中，我们需要存储很大数量的参数以及中间结果，以典型的卷积神经网络为例，任何一个高性能的卷积神经网络其参数的数量都十分巨大，无法直接放到FPGA等集成电路的片上存储中，因此必须将参数以及中间结果放到内存里，即片外的数据存储器中。因此对于计算过程能量的消耗大多都浪费在了对内存的存取上。

正是因此，所以上述实施例创造性的将数据一部分的逐次处理，并且采取DMA的方式，同时充分考虑到如何利用数据复用作为有利的一面：我们通过对卷积神经网络的计算特点分析发现，对于卷积层而言，输入的数据是可以进行复用的。

因此，为了减少在内存存取上浪费的能耗，同时也是为了能够充分利用FPGA等的片上资源，将卷积神经网络中：需要计算的部分数据、权重以及偏置通过DMA(DirectMemory Access)从内存中读取到片上存储中进行运算，并多次复用输入的数据，将计算得到的数据通过合理的存储安排存放到片上的输出缓存中，当片上的数据复用结束，将输出缓存中的计算结果通过DMA传输到内存中，然后再重复上述操作，将剩余部分的数据分块传输到片上进行计算。

也就是说，上述实施例大大减少了对于内存的访问次数，从而节省了大量的能量。这是因为，无论是定点还是浮点计算，其能量消耗都远远小于频繁访问片外数据存储器，即内存所带来的消耗。

在另一个实施例中，所述集成电路还包括输入缓存，所述剩余部分的数据事先预取到所述输入缓存。

在另一个实施例中，

就该实施例而言，我们考虑到充分利用定点数计算的消耗要小于浮点数计算的消耗这一点，所以将加法和乘法均采用定点数运算。

在另一个实施例中，

为了最大化避免采用定点数运算所带来的精度损失，对算法所用的网络进行量化压缩，在不损失精度的前提下，把算法中原模型中双精度浮点的权重、数据以及偏置量，通过量化的方法以更少位数的定点数来表示。

显而易见的，经过这样的进一步创新操作，本公开将网络的参数所占的空间减少了数倍，减小了算法运算过程中对于带宽的需求。

在另一个实施例中，

也可以通过增大片上缓存大小的方法，进一步减少对内存的存取操作的次数，节约能耗。

综上，本公开通过DMA(Direct Memory Access)方式存储数据以及在加速器中采用定点数进行加法与乘法运算，实现了低功耗的紫外成像实时信息处理。

以上所述，以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开的各实施例技术方案的范围。

Claims

1.基于加速卷积神经网络算法的紫外成像实时信息处理方法，包括以下步骤：

S100：从FPGA或ASIC集成电路中选型；

S300：将所述一部分计算数据，卷积神经网络的权重以及卷积神经网络的偏置，通过DMA从内存中读取到所述片上存储中，然后通过所述集成电路的片上存储的数据进行计算以加速卷积神经网络CNN，其中，对于卷积层而言，其能够多次复用输入的数据；

S400：将计算得到的数据通过存储方式，安排存放到所述集成电路的片上的输出缓存中，当片上的数据复用结束，将输出缓存中的计算结果通过DMA 传输到内存中；

S500：重复上述S200至S300，将剩余部分的数据分块传输到片上进行计算，直至选择完毕所有需要计算的数据；

其中，

所述集成电路还包括输入缓存，所述剩余部分的数据事先预取到所述输入缓存；

所述卷积神经网络包含两部分，一部分是特征提取部分，一部分是分类器部分，特征提取部分是由多个卷积层和池化层组成的，分类器部分则是由多个全连接层和分类网络组成的；其中，c1 层和c3 层都是卷积层，两个卷积层都分别有3个神经元；s2和 s4 是池化层；nn是网络的全连接层，也即分类器部分，其和传统的BP神经网络是一致的；转成一维向量的部分是将s4层的输出特征图由空间二维形式变为一维向量，以便送入nn全连接层中；

输入图片input经过卷积层 c1 层的三个神经元的卷积核卷积后加上偏置并进行非线性操作，就得到卷积层 c1 层输出的特征图；s2层针对c1层的特征图进行池化操作，达到缩小特征图尺寸的目的；c3 层再以 s2层获得的特征图为输入进行和 c1 层相同的操作并获得卷积后的特征图；s4 层在对 c3 层的特征图进行池化操作；最后，由于s4层池化后的特征图为空间形式的，因此需要将特征图拉成一维向量形式的数据以方便全连接层的传播，然后将数据传入全连接层nn；

其中，

所述紫外成像实时信息处理方法，

为了最大化避免采用定点数运算所带来的精度损失，对算法所用的网络进行量化压缩，在不损失精度的前提下，把算法中原模型中双精度浮点的权重、数据以及偏置量，通过量化的方法以更少位数的定点数来表示；

对于作为加速器的所述集成电路，其对加法与乘法均采用定点数运算；

为了减少在内存存取上浪费的能耗，同时也是为了能够充分利用片上资源，将卷积神经网络中：需要计算的部分数据、权重以及偏置通过DMA从内存中读取到片上存储中进行运算，并多次复用输入的数据，将计算得到的数据通过合理的存储安排存放到片上的输出缓存中，当片上的数据复用结束，将输出缓存中的计算结果通过DMA 传输到内存中，然后再重复上述操作，将剩余部分的数据分块传输到片上进行计算；

减少了对于内存的访问次数，从而节省了能量，这是因为，无论是定点还是浮点计算，其能量消耗都小于频繁访问片外数据存储器，即内存所带来的消耗；

通过DMA方式存储数据以及在加速器中采用定点数进行加法与乘法运算，实现了低功耗的紫外成像实时信息处理。