CN113222831B

CN113222831B - 一种图像条带噪声去除的特征记忆遗忘单元、网络及系统

Info

Publication number: CN113222831B
Application number: CN202110362212.4A
Authority: CN
Inventors: 赖睿; 徐旭东; 张华威; 张宇豪; 王传舸; 官俊涛; 李骅南; 黄泽铖
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2024-02-13
Anticipated expiration: 2041-04-02
Also published as: CN113222831A

Abstract

本发明涉及一种图像条带噪声去除的特征记忆遗忘单元、网络及系统，特征记忆遗忘单元包括：Block Cache模块，用于存储前一输出特征张量、当前输出特征张量、前一循环状态张量、当前循环状态张量与待处理的图像张量序列；Buffer模块，用于存储根据前一输出特征张量和当前待处理的输入图像张量得到的输入特征张量；缓存模块，用于存储权重；卷积运算模块，用于根据卷积结果、前一循环状态张量得到当前循环状态张量，根据卷积结果、当前循环状态张量得到当前输出特征张量。本发明构建了采用循环神经网络的图像条带噪声去除单元，利用循环神经网络找到图像中条带噪声的空域分布以及时间关联性，可有效地提取条带噪声的特征。

Description

一种图像条带噪声去除的特征记忆遗忘单元、网络及系统

技术领域

本发明属于卷积神经网络技术领域，涉及一种图像条带噪声去除的特征记忆遗忘单元、网络及系统。

背景技术

高光谱图像与红外图像已经广泛应用于军事和民用领域。但是由于线阵扫描器件与红外焦平面制造工艺以及读出电路设计等问题，导致高光谱图像与红外图像中经常出现条带噪声，条带噪声的存在大幅降低了成像信噪比，严重影响了遥感高光谱图像地物信息的识别与红外图像的目标信息获取。因此，图像的条带噪声去除是数字图像处理领域的一个重要的课题。

当前图像条带噪声去除的方法主要有：基于统计匹配的方法、基于能量泛函最优化模型的变分法和基于深度学习的神经网络法。基于统计匹配的方法对图片数量依赖性大且去噪效果不佳。基于能量泛函最优化模型的变分法对应用于不同探测器或不同场景图像的模型，其参数调谐非常繁复，一旦变分模型不能完全匹配噪声特性，就不能有效地去除噪声。基于深度学习的神经网络法，则通过神经网络提取图像中像素间丰富的空间关联信息进行噪声抑制，但传统的卷积神经网络对任务关联特征的聚类分析能力不足，在抑制噪声的同时会造成图像细节的损失，同时卷积网络规模计算量和参数量庞大，面临着处理速度慢、效率低的问题。

因此，如何提供一种能有效去除条带噪声并保留更多图像细节信息的系统成为了亟待解决的问题。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种图像条带噪声去除的特征记忆遗忘单元、网络及系统。本发明要解决的技术问题通过以下技术方案实现：

一种图像条带噪声去除的特征记忆遗忘单元，包括：

Block Cache模块，用于存储前一输出特征张量h_t-1、当前输出特征张量h_t、前一循环状态张量c_t-1、当前循环状态张量c_t与待处理的图像张量序列，所述待处理的图像张量序列包括若干输入图像张量；

Buffer模块，用于存储根据所述前一输出特征张量h_t-1和当前待处理的输入图像张量得到的输入特征张量；

缓存模块，用于存储权重；

卷积运算模块，用于接收所述输入特征张量的数据和所述权重参数，对所述输入特征张量的数据和所述权重参数进行卷积运算得到卷积结果，并根据所述卷积结果、前一循环状态张量c_t-1得到当前循环状态张量c_t，根据所述卷积结果、所述当前循环状态张量c_t得到所述当前输出特征张量h_t。

在本发明的一个实施例中，所述Buffer模块包括H+1路Line Buffer，每一路所述Line Buffer用于存储所述输入特征张量的一行数据，其中，H为卷积核的高。

在本发明的一个实施例中，所述缓存模块包括4个Weight Cache，每个所述WeightCache用于存储一个卷积层的权重，每个所述Weight Cache由N路缓存子模块组成，其中，N为卷积层输入通道数目。

在本发明的一个实施例中，所述卷积运算模块包括4个PE模块，4个所述PE模块接收各自对应的所述Weight Cache的权重，4个所述PE模块同时接收相同的输入特征张量的数据，每个所述PE模块用于对接收的所述输入特征张量的数据和所述权重参数进行卷积运算得到卷积结果，并根据所述卷积结果、前一循环状态张量c_t-1得到当前循环状态张量c_t，根据所述卷积结果、所述当前循环状态张量c_t得到所述当前输出特征张量h_t。

在本发明的一个实施例中，所述H+1路Line Buffer中的H路所述Line Buffer用于按照顺序存储H行所述输入特征张量的数据，存储有所述输入特征张量的数据的H路所述Line Buffer将所述H行所述输入特征张量的数据均送入至4个所述PE模块中，并且4个所述Weight Cache分别将权重送入至对应的所述PE模块中，所述PE模块对所接收的H行所述输入特征张量的数据和权重进行卷积运算以得到一行输出结果，同时，剩余的1路所述LineBuffer逐点读取所述输入特征张量之后一行的数据；在得到一行输出结果之后，保留所述H+1路Line Buffer中存储后H行的H路所述Line Buffer中的所述输入特征张量，以进行下一行卷积运算操作，而剩余的1路所述Line Buffer按照顺序读取逐点读取所述输入特征张量之后一行的数据，直至计算完成所述输入特征张量的最后一行数据。

在本发明的一个实施例中，所述PE模块为基于滑窗流水线形式进行卷积运算。

在本发明的一个实施例中，将所述c_t-1前一循环状态张量和第1个所述PE模块的卷积结果进行张量逐点相乘操作得到第一结果，将第2个所述PE模块的卷积结果和第3个所述PE模块的卷积结果点对点相乘后再与第一结果相加得到所述当前循环状态张量c_t，将所述当前循环状态张量c_t经ReLU激活后与第4个所述PE模块的卷积结果进行张量逐点相乘操作得到所述当前输出特征张量h_t。

在本发明的一个实施例中，所述特征记忆遗忘单元构建于FPGA上。

本发明一个实施例还提供一种图像条带噪声去除的网络，包括M个上述任一项实施例所述的特征记忆遗忘单元，M个所述特征记忆遗忘单元依次级联，其中，M>1。

本发明一个实施例还提供一种图像条带噪声去除的网络，包括上述任一项实施例所述的图像条带噪声去除的网络。

与现有技术相比，本发明的有益效果：

本发明构建了采用循环神经网络的图像条带噪声去除单元及网络，利用循环神经网络找到图像中条带噪声的空域分布以及时间关联性，可以有效地提取条带噪声的特征，并通过FPGA实现高效率的硬件计算与处理。

本发明现有的条带噪声去除方法相比，本发明的单元及网络可以有效地抑制条带噪声，处理后的图像细节更为丰富，并且该单元及网络的处理速度快，能效比高。

通过以下参考附图的详细说明，本发明的其它方面和特征变得明显。但是应当知道，该附图仅仅为解释的目的设计，而不是作为本发明的范围的限定，这是因为其应当参考附加的权利要求。还应当知道，除非另外指出，不必要依比例绘制附图，它们仅仅力图概念地说明此处描述的结构和流程。

附图说明

图1为本发明实施例提供的一种图像条带噪声去除的特征记忆遗忘单元的结构示意图；

图2为本发明实施例提供的一种特征记忆遗忘单元的示意图；

图3为本发明实施例提供的一种图像条带噪声去除的特征记忆遗忘单元的示意图；

图4为本发明实施例提供的一种输入缓冲区轮转读写结构的示意图；

图5为本发明实施例提供的一种卷积计算单元运算机制的示意图；

图6为本发明实施例提供的一种卷积门控一体流水线结构的示意图；

图7为本发明实施例提供的一种去噪网络整体结构的示意图；

图8为本发明实施例提供的一种特征记忆遗忘单元的级联方式的示意图；

图9为本发明实施例提供的一种图像的张量分解与逆分解操作的示意图；

图10为本发明实施例提供的一种硬件系统整体结构的示意图；

图11为本发明实施例提供的一种红外图像序列中的一帧的示意图；

图12为本发明实施例提供的一种采用变分法对红外图像序列进行条带噪声去除后的输出的红外图像序列中的一帧的示意图；

图13为本发明实施例提供的一种采用卷积神经网络法对红外图像序列进行条带噪声去除后的红外图像序列中的一帧的示意图；

图14为本发明实施例提供的一种采用本发明系统对红外图像序列进行条带噪声去除后的红外图像序列中的一帧的示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请参见图1和图2，图1为本发明实施例提供的一种图像条带噪声去除的特征记忆遗忘单元的结构示意图,图2为本发明实施例提供的一种特征记忆遗忘单元的示意图。本发明实施例提供了一种图像条带噪声去除的特征记忆遗忘单元，特征记忆遗忘单元包括Block Cache模块、Buffer模块、缓存模块和卷积运算模块，其中：

Block Cache模块，用于存储前一输出特征张量h_t-1、当前输出特征张量h_t、前一循环状态张量c_t-1、当前循环状态张量c_t与待处理的图像张量序列，所述待处理的图像张量序列包括若干输入图像张量，其中，前一输出特征张量h_t-1为前一噪声张量，当前输出特征张量h_t为当前噪声张量，前一循环状态张量c_t-1为前一卷积在卷积之后得到的所有可以用于下一个卷积的信息张量的集合，如信息张量的集合包括噪声张量、背景信息张量等，当前循环状态张量c_t为当前卷积在卷积之后得到的所有可以用于下一个卷积的信息张量的集合，如信息张量的集合包括噪声张量、背景信息张量等；

Buffer模块，用于存储根据前一输出特征张量h_t-1和当前待处理的输入图像张量得到的输入特征张量，即将前一输出特征张量h_t-1和当前待处理的输入图像张量在通道维进行拼接后便可以得到输入特征张量；

缓存模块，用于存储权重；

卷积运算模块，用于接收输入特征张量的数据和权重参数，对输入特征张量的数据和权重参数进行卷积运算得到卷积结果，并根据卷积结果、前一循环状态张量c_t-1得到当前循环状态张量c_t，根据卷积结果、当前循环状态张量c_t得到当前输出特征张量h_t。

在本实施例中，特征记忆遗忘单元构建于FPGA上。

具体地，特征记忆遗忘单元是本实施例的基本处理单元，由4个规格一致的卷积层与对应的张量点计算门控操作构成，可级联组建循环网络。特征记忆遗忘单元有两个输出，分别为当前循环状态张量c_t和当前输出特征张量h_t，同时有三个输入，分别为前一特征记忆遗忘单元的循环状态张量c_t-1、前一特征记忆遗忘单元的输出特征张量h_t-1以及当前输入图像张量。本实施例通过在FPGA上实现卷积模块与门控张量一体流水线，搭配多级数据缓存结构，构建特征记忆遗忘单元的硬件模块。其中，多级缓存结构用于优化硬件访存效率，卷积模块用于对记忆遗忘单元内卷积运算任务的处理，门控张量一体流水线则将张量点计算单元与卷积单元统一串联，组成完整的记忆遗忘单元运行模块。

需要说明的是，本发明中的特征记忆遗忘单元是灵活可配置的，在不同模式下可单独完成其中的一个或多个卷积操作并输出结果。

多级缓存的数据传输交互结构的主要作用是提高特征记忆遗忘单元内的数据流动与传输的效率，优化系统访存延迟，进而提高系统硬件处理速度。多级缓存的数据传输交互结构主要由用于存储图像处理数据的Block Cache模块、用于存储记忆遗忘单元权重参数的缓存模块和作为卷积运算模块输入缓冲区的Buffer模块共同构成。

进一步地，请参见图3，Block Cache模块主要分为五个部分，分别用于存储特征记忆遗忘单元中的前一输出特征张量h_t-1、当前输出特征张量h_t、前一循环状态张量c_t-1、当前循环状态张量c_t与待处理的图像张量序列。其中，前一循环状态张量c_t-1直接送入卷积运算模块参与张量运算操作，前一输出特征张量h_t-1与待处理的图像张量序列则先送入Buffer模块以准备卷积操作所需的数据，处理完成后得到当前循环状态张量c_t与当前输出特征张量h_t的值写回Block Cache模块中。

进一步地，请参见图3，Buffer模块包括H+1路Line Buffer，每一路Line Buffer用于存储第二图像张量的一行数据，其中，H为卷积核的高。

进一步地，请参见图3，缓存模块包括4个Weight Cache，每个Weight Cache用于存储一个卷积层的权重，每个Weight Cache由N路缓存子模块组成，其中，N为卷积层输入通道数目。

本实施例为了实现特征记忆遗忘单元中卷积操作的并行处理，存储特征记忆遗忘单元权重参数的Weight Cache被分成4组，独立存储特征记忆遗忘单元内4个卷积层的权重，可与卷积运算模块同时通信。每组Weight Cache由N路缓存单元组成，与卷积层输入通道数目一致，每路缓存单元配置独立的读写端口，以满足同时读取卷积层N个输入通道权重的需要。

进一步地，请参见图3，卷积运算模块包括4个PE模块，4个PE模块接收各自对应的Weight Cache的权重，4个PE模块同时接收相同的输入特征张量的数据，每个PE模块用于对接收的输入特征张量的数据和权重参数进行卷积运算得到卷积结果，并根据卷积结果、前一循环状态张量c_t-1得到当前循环状态张量c_t，根据卷积结果、当前循环状态张量c_t得到当前输出特征张量h_t。

具体地，H+1路Line Buffer中的H路Line Buffer用于按照顺序存储H行输入特征张量的数据，存储有输入特征张量的数据的H路Line Buffer将H行输入特征张量的数据均送入至4个PE模块中，并且4个Weight Cache分别将权重送入至对应的PE模块中，PE模块对所接收的H行输入特征张量的数据和权重进行卷积运算以得到一行输出结果，同时，剩余的1路Line Buffer逐点读取输入特征张量之后一行的数据；在得到一行输出结果之后，保留H+1路Line Buffer中存储后H行的H路Line Buffer中的输入特征张量的数据，以进行下一行卷积运算操作，而剩余的1路Line Buffer按照顺序读取逐点读取输入特征张量之后一行的数据，直至计算完成输入特征张量的最后一行数据。

也就是说，请参见图4和图5，特征记忆遗忘单元中卷积层的卷积核大小为W×H，W为宽度，H为高度，Buffer模块根据此设计为由H+1路Line Buffer构成的可配置轮转读写结构，每一路Line Buffer与输入特征张量中的一行数据的大小一致。卷积操作开始前，从Block Cache模块中读取用于初始行卷积的输入特征张量中的前H行数据至前H路LineBuffer，完成后将前H路Line Buffer中的前H行数据送入4个PE模块，同时4个PE模块分别从对应的Weight Cache读取权重，之后进行处理。卷积运算模块开始对前H行数据进行逐点卷积计算，同时，最后一路Line Buffer逐点读取输入张量块的第H+1行数据。计算处理完成第一行的张量输出后，前H路Line Buffer中后H-1行的输入与最后一路Line Buffer组成新的H行卷积输入，开始下一行卷积操作，而第一路Line Buffer则开始读取第H+2行的输入数据。以这样的方式，H+1路Line Buffer轮流向卷积运算模块提供当前行卷积所需的H行数据，并从Block Cache模块读取下一行的新输入，组成一种类似于轮转的结构，在尽可能节省FPGA片上存储资源的同时，实现了在计算单元进行数据处理的同时完成下一行输入数据的读取，达到“边读边算”。

特征记忆遗忘单元内的4个卷积层使用的输入特征相同，有各自的权重参数，4个PE模块的卷积计算可被视为相互独立，设计独立卷积并行处理的计算单元是为了提高系统的计算效率，是本实施例的核心计算模块。在FPGA上构建4个完整的卷积运算ProcessElements(PE)模块，它们的权重参数分别存储于Weight Cache的4个缓存组中。输入特征图与前一记忆遗忘单元的输出暂存于Block Cache模块中，卷积运算模块工作时，从Buffer模块中读出相应输入特征点的数值，写入4个寄存器组中，由4个寄存器组将特征点数值分别送入4块卷积运算模块，与此同时4块卷积运算模块从缓存模块中读取各自的权重进行卷积运算。这样的方式在FPGA上实现4个卷积并行处理，它们输入各自的权重参数，共享同样的输入特征，独立运算，增加了系统的整体并行性。

卷积运算模块基于滑窗流水线形式，对输入的输入特征张量的数据逐行逐点计算遍历完成卷积。每个卷积运算模块根据卷积输入通道数与卷积核的大小，设计为内层W×(H+Z)个卷积点，N个通道并行处理的结构，使用同一组权重完成滑窗中Z个相邻点的卷积运算。特征记忆遗忘单元内的4个卷积层独立并行，每个周期对输入张量中各通道同一行的两个相邻点并行处理，完成对应卷积中Z个特征点值的计算，以逐行滑窗再按输出通道遍历的形式得到完整卷积输出。由此卷积单元计算模块实现了在一个时钟周期内完成4×N×W×H×Z次乘法与4×N×W×H×Z次加法运算。

卷积门控一体流水线的主要作用是将卷积计算与张量点计算融为一体的流水线，提高系统运算效率，并将各硬件模块串联组成为完整的特征记忆遗忘单元。特征记忆遗忘单元内4个卷积处理完成后均有相对应的张量点计算操作作为门控单元，在FPGA上实现时，使用卷积与张量运算共同组建流水线的处理模式。在硬件卷积单元子流水线的基础上，将门控的点运算引入卷积流水线的结尾，延长流水线长度，实现与卷积运算结合的流水化处理。

具体地，请参见图2和图6，将c_t-1前一循环状态张量和第1个PE模块的卷积结果进行张量逐点相乘操作得到第一结果，将第2个PE模块的卷积结果和第3个PE模块的卷积结果点对点相乘后再与第一结果相加得到当前循环状态张量c_t，将当前循环状态张量c_t经ReLU激活后与第4个PE模块的卷积结果进行张量逐点相乘操作得到当前输出特征张量h_t。

也就是说，将前一循环状态引入第1个卷积层流水线的最后一级，在得到第1个卷积层结果的同时与前一循环状态张量进行张量逐点相乘操作再输出第一结果。将第2个卷积层与第3个卷积层的流水线延长，使第2个卷积层与第3个卷积层的卷积计算结果进行点对点相乘后再与第1个卷积层输出的第一结果相加作为新的流水线输出，得到当前循环状态张量c_t。最后将得到当前循环状态张量c_t，经ReLU激活后引入第4个卷积层流水线最后一级，完成张量逐点相乘操作后得到最终输出特征，即当前输出特征张量h_t。4个卷积层与相应张量门控计算的流水线相结合，共同构成特征记忆遗忘单元内部的一体式流水线结构，实现了特征记忆遗忘单元从输入到输出的完整操作，构建了系统的硬件特征记忆遗忘单元。同时通过一体流水线的分支输出，可实现对特征记忆遗忘单元内部一个或多个卷积操作的单独计算。

本发明提出了一种图像条带噪声去除的特征记忆遗忘单元，该单元设计了用于条带噪声抑制的循环神经网络模型，并将该模型进行了轻量化调优并部署在SoC FPGA之上，搭建起图像条带噪声的硬件消除系统。相较于其他方法，该系统能有效去除条带噪声并保留更多图像细节信息，且运行速度快、能效比高。

本发明提出一种用于去除图像条带噪声的特征记忆遗忘单元，可用于高光谱图像和红外图像非均匀性响应的校正。

实施例二

本实施例在上述实施例的基础上还提供一种图像条带噪声去除的网络，该网络包括M个实施例一所述的特征记忆遗忘单元，M个特征记忆遗忘单元依次级联，其中，M>1。

具体地，请参见图7、图8、图9，完整的图像条带噪声去除的网络(也称去噪网络)，由M个实施例一所述的特征记忆遗忘单元依次级联构成的用于条带噪声提取循环网络以及两个用于噪声重建的卷积层构成。去噪网络具有发掘序列时序关联的能力，可以利用图像中条带噪声的同向一致性与空间分布特征之间的互补特性，更为精准地提取条带噪声特征。图片送入去噪网络前需要进行张量分解变为输入图像张量序列，网络模型将重建的条带噪声与图相张量相加后再经逆张量变换得到最终去噪图像。

本实施例的去噪网络通过复用实施例一所述的特征记忆遗忘单元的硬件实现模块，完成去噪网络的实现。运行去噪网络时，将硬件模块配置为完整的特征记忆遗忘单元计算模式，由于去噪网络具有权重共享的特性，因此M个特征记忆遗忘单元的权重参数完全相同，直接复用Weight Cache中的数据。第一个特征记忆遗忘单元的输入为第一个图像张量块以及对应尺寸的全“0”张量，均存储于Block Cache中。第一个记忆遗忘单元完成后，将得到的输出特征张量与循环状态张量存入Block Cache中，供下一个记忆遗忘单元使用，而下一个记忆遗忘单元的输出则会覆盖上一个记忆遗忘单元的输入，以节约硬件存储资源。硬件计算单元交替读取Block Cache中的数据，并从Weight Cache中获得权重，完成对去噪网络中M个特征记忆遗忘单元的处理。对去噪网络后的噪声重建卷积层，则将硬件模块配置为单独进行卷积运算的模式，通过单独复用记忆遗忘单元内的硬件卷积模块，实现噪声重建卷积层的处理。提高FPGA资源利用率。

实施例三

本实施例在上述实施例的基础上还提供一种图像条带噪声去除的系统，该图像条带噪声去除的系统包括权实施例二所述的图像条带噪声去除的网络。

请参见图10，本实施例的系统整体基于SoC FPGA实现，硬件系统可分为Processing System(PS)模块和Programmable Logic(PL)模块，由ARM核完成整个系统的任务调度，通过AXI4协议总线完成PS与PL间的通信，DMA控制DDR内存与PL间的数据传输。其中，DDR内存通过带有缓存一致性的高速接口经AXI4总线与PL端进行数据交互，ARM处理器则通过AXI4 Lite总线传输信号对PL端进行整体控制。

具体地，受条带噪声污染的图像与去噪网络模型权重参数从外部存储介质读入DDR内存中，经由ARM处理器完成对输入图像的张量分解后，图像张量序列与权重参数通过AXI4总线分别送入PL端的Block Cache模块与Weight Cache中，PL端复用计算处理单元完成去噪网络与噪声重建卷积层的运算，重建条带噪声后与Block Cache中的图像张量序列相加，再按顺序逐块输出处理后的图像张量回DDR内存中，完成逆张量变换，在DDR内存中构成最终的去噪图像。

本发明利用循环神经网络对图像条带噪声进行抑制，并通过FPGA实现了高速硬件处理系统。与现有的条带噪声去除方法相比，本发明的系统可以有效地去除条带噪声并保留图像细节信息，且系统处理速度快，能效比高。

本发明的效果可以通过以下仿真实验进一步说明。

分别采用变分法、卷积神经网络法和本发明系统对红外图像序列进行条带噪声抑制，本发明系统运行于Xilinx Zynq ZCU102开发版，设定特征记忆遗忘单元卷积核大小为3×3，输入通道为33，输出通道为32，噪声重建卷积层规格与记忆遗忘单元卷积层一致。图11是红外图像序列中的一帧，图12是采用变分法对红外图像序列进行条带噪声去除后的输出的红外图像序列中的一帧。图13是采用卷积神经网络法对红外图像序列进行条带噪声去除后的红外图像序列中的一帧。图14是采用本发明对红外图像序列进行条带噪声去除后的红外图像序列中的一帧。

通过图12、图13、图14的对比可以看出，经本发明系统去除条带噪声后的遥感图像较之另外两种方法去噪后的图像，噪声残留的更少，且细节更丰富，图像颜色与明暗度保持较好，边缘更清晰。

下面，分别采用峰值信噪比(PSNR)和结构相似度(SSIM)来量化对照评估本发明提出图像处理系统与现有的全变分方法以及卷积神经网络法的去噪性能。使用添加了条带噪声的Set12数据集作为输入图像，实验结果见表1。

表1去噪测试结果的量化参数对比表

由表1可见：

(1)经本发明系统去除条带噪声后的图像的峰值信噪比高于变分法和卷积神经网络法，说明经本发明系统去噪后的图像条带噪声残留更低。

(2)本发明系统去除条带噪声后的图像的结构相似度高于变分法和卷积神经网络法，说明经本发明系统去噪后的图像保留了更多细节信息。

下面通过单帧图像处理时间与平台功耗来量化对比在计算机显卡(GPU)上运行的卷积神经网络系统与本发明图像处理系统的能效。本发明系统运行于Xilinx Zynq ZCU102开发板，主频250Mhz，循环网络模型参数配置与前一实验一致，卷积神经网络基于PyTorch深度学习框架运行于Nvidia GTX1080Ti GPU端，实验采用大小为256×256的灰度图像，结果见表2。

表2能效测试结果的量化参数对比表

由表2可见，本发明处理系统在比GPU平台运行的卷积网络系统处理时间更低的情况下，功耗更低，说明本发明系统拥有更高的能效比。

上述结果充分说明了，本发明提出的图像条带噪声去除系统针对数字图像的条带噪声抑制效果更好，且运行速度快，能效比高。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种图像条带噪声去除的特征记忆遗忘单元，其特征在于，包括：

Buffer模块，用于存储根据所述前一输出特征张量h_t-1和当前待处理的输入图像张量得到的输入特征张量，所述Buffer模块包括H+1路Line Buffer，每一路所述Line Buffer用于存储所述输入特征张量的一行数据，其中，H为卷积核的高；

缓存模块，用于存储权重，所述缓存模块包括4个Weight Cache，每个所述WeightCache用于存储一个卷积层的权重，每个所述Weight Cache由N路缓存子模块组成，其中，N为卷积层输入通道数目；

卷积运算模块，用于接收所述输入特征张量的数据和所述权重参数，对所输入特征张量的数据和所述权重参数进行卷积运算得到卷积结果，并根据所述卷积结果、前一循环状态张量c_t-1得到当前循环状态张量c_t，根据所述卷积结果、所述当前循环状态张量c_t得到所述当前输出特征张量h_t，所述卷积运算模块包括4个PE模块，4个所述PE模块接收各自对应的所述Weight Cache的权重，4个所述PE模块同时接收相同的输入特征张量的数据，每个所述PE模块用于对接收的所述输入特征张量的数据和所述权重参数进行卷积运算得到卷积结果，并根据所述卷积结果、前一循环状态张量c_t-1得到当前循环状态张量c_t，根据所述卷积结果、所述当前循环状态张量c_t得到所述当前输出特征张量h_t。

2.根据权利要求1所述的图像条带噪声去除的特征记忆遗忘单元，其特征在于，所述H+1路Line Buffer中的H路所述Line Buffer用于按照顺序存储H行所述输入特征张量的数据，存储有所述输入特征张量的数据的H路所述Line Buffer将所述H行所述输入特征张量的数据均送入至4个所述PE模块中，并且4个所述Weight Cache分别将权重送入至对应的所述PE模块中，所述PE模块对所接收的H行所述输入特征张量的数据和权重进行卷积运算以得到一行输出结果，同时，剩余的1路所述Line Buffer逐点读取所述输入特征张量之后一行的数据；在得到一行输出结果之后，保留所述H+1路Line Buffer中存储后H行的H路所述Line Buffer中的所述输入特征张量，以进行下一行卷积运算操作，而剩余的1路所述LineBuffer按照顺序读取逐点读取所述输入特征张量之后一行的数据，直至计算完成所述输入特征张量的最后一行数据。

3.根据权利要求2所述的图像条带噪声去除的特征记忆遗忘单元，其特征在于，所述PE模块为基于滑窗流水线形式进行卷积运算。

4.根据权利要求2所述的图像条带噪声去除的特征记忆遗忘单元，其特征在于，将所述c_t-1前一循环状态张量和第1个所述PE模块的卷积结果进行张量逐点相乘操作得到第一结果，将第2个所述PE模块的卷积结果和第3个所述PE模块的卷积结果点对点相乘后再与第一结果相加得到所述当前循环状态张量c_t，将所述当前循环状态张量c_t经ReLU激活后与第4个所述PE模块的卷积结果进行张量逐点相乘操作得到所述当前输出特征张量h_t。

5.根据权利要求1至4任一项所述的图像条带噪声去除的特征记忆遗忘单元，其特征在于，所述特征记忆遗忘单元构建于FPGA上。

6.一种图像条带噪声去除的网络，其特征在于，包括M个权利要求1至5任一项所述的特征记忆遗忘单元，M个所述特征记忆遗忘单元依次级联，其中，M>1。

7.一种图像条带噪声去除的系统，其特征在于，包括权利要求6所述的网络。