CN112561943B

CN112561943B - 一种基于脉动阵列卷积运算数据复用的图像处理方法

Info

Publication number: CN112561943B
Application number: CN202011532801.4A
Authority: CN
Inventors: 张垚; 王红; 霍可家
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-11-22
Anticipated expiration: 2040-12-23
Also published as: CN112561943A

Abstract

本发明涉及图像处理领域，具体涉及一种基于脉动阵列卷积运算数据复用的图像处理方法。本发明方法在脉动阵列结构的基础上进行拓展，通过对卷积核旋转处理实现了卷积核在图像上滑动的效果；通过图像的重排列实现了图像和旋转后的卷积核的对应。这一改变极大的改善了嵌入式设备的性能。对比于传统的卷积运算转化为矩阵乘法运算的内存开销，本方法的内存开销减少了近70％。在图像边缘检测的实现效果中，基于CycloneVSoC‑FPGA平台，设计了本方法对应的图像边缘识别加速系统，对卷积运算进行了加速验证。在测试中，卷积核旋转脉动阵列结构的处理速度为0.011秒，对比于ARMCoretexA9处理器，速度提升了16.27倍，对比于i5‑7700 2.8GHz CPU，速度提升了9倍。

Description

一种基于脉动阵列卷积运算数据复用的图像处理方法

技术领域

本发明涉及图像处理领域，具体涉及一种基于脉动阵列卷积运算数据复用的图像处理方法。

背景技术

图像边缘检测是图像处理学研究的热点之一，是图像分析和图像识别领域的基础性课题。图像边缘检测的核心是卷积运算，卷积运算贯穿于图像识别的处理整个过程，因此卷积运算的加速对于图像处理领域意义重大。

脉动阵列结构发明于上世界80年代，而受制于当时的半导体制造工艺，脉动阵列结构并没有太多的实际应用。随着半导体技术的持续演进，芯片的存储和处理能力得到大幅度提升，为脉冲阵列的发展提供了硬件的基础和实现的可能，以及大数据和深度学习高速发展的实际需求推动了其研究的动力，脉动阵列最终在大数据处理、图像处理等方面得到了实际应用。

卷积运算在硬件设计过程中，通常以矩阵乘法的方式实现。矩阵乘法运算简单且规则的特性适合于脉动阵列，而且脉动阵列可以实现充分的流水，因此脉动阵列可实现较好的卷积运算加速效果。

卷积运算变换为矩阵运算后，运算过程中存在大量重复的输入数据，使得内存开销变大。而传统的脉动阵列使用方法无法实现数据复用的效果。

发明内容

本发明的目的是提出一种基于脉动阵列卷积运算数据复用的图像处理方法，以充分实现数据复用，减少内存开销，实现卷积运算的加速。

本发明提出的基于脉动阵列卷积运算数据复用的图像处理方法，如下步骤：

(1)将待处理图像的R、G、B三通道数据加权求和，得到待处理图像的灰度图

(2)以(2Nλ-1)×(2Nλ-1)的窗口大小在待处理图像的灰度图上进行滑动取值，滑动的步长为N-1；

其中，N为卷积核的尺寸，λ为卷积核的移动步长，这里的卷积核指Sobel算子，包括x方向和y方向两个矩阵；

(3)根据卷积核移动规律，将步骤(2)得到的待处理图像D₁₁、D₁₂、D₁₃…D_1(2Nλ-1)、D₂₁…D_{(2Nλ-1)(2Nλ-1)}进行重排列，得到N²行图像数据；

其中，D₁₁表示图像中第一行第一列的元素，D_{(2Nλ-1)(2Nλ-1)}表示图像中第2Nλ-1行第2Nλ-1列的元素；

N²行图像数据中的第一行与待处理图像的四个元素{D₁₁ D_1(Nλ+1) D_(Nλ+1)1D_{(Nλ+1)(Nλ+1)}}相对应，N²行图像数据中的第二行与待处理图像的四个元素{D₂₁ D_2(Nλ+1) D_(Nλ+2)1D_{(Nλ+2)(Nλ+1)}}相对应，直到N²行图像数据中的第N行，与{D_(Nλ)1 D_Nλ(Nλ+1) null null}相对应，其中null表示第N行的第三个和第四个元素超过了图像范围，用后续的图像数据补充，以此类推，N²行图像数据中的第N+1行与待处理图像的四个元素{D₁₃ D_1(Nλ+2) D_(Nλ+1)2 D_{(Nλ+1)(Nλ+2)}}相对应，第N+1行到第2N行的变化规律与第1行到第N行的变化规律相同；因此第2N行对应于{D_(Nλ)2 D_Nλ(Nλ+2) null null}，以此类推，第N²行对应于{D_{(Nλ+1)(Nλ+2)} null null null}；

(4)对用于卷积运算的卷积核进行旋转处理如下：

设定卷积核为矩阵C₁₁、C₁₂、C₁₃…C_1N、C₂₁…C_NN共N×N个元素，将卷积核在图像上的滑动转换为卷积核的旋转，即卷积核在图像上从左至右按照步长λ滑动转换为卷积核以列为单位进行右移λ操作，所述的右移λ操作，即第0列到第N-λ列移动至第λ列到第N列，第N-λ+1列到第N列移动至第0列到第λ-1列；

将卷积核在图像上从上至下按照步长λ滑动转换为卷积核以行为单位进行右移λ操作，所述右移λ操作，即第0行到第N-λ行移动至第λ行到第N行，第N-λ+1行到第N行移动至第0行到第λ-1行；

(5)采用脉动阵列结构，利用步骤(2)的卷积核对步骤(1)的N²行图像进行加权求和计算，得到待处理图像的x方向和y方向的偏导数，实现步骤如下：

将步骤(1)的N²行图像在脉动阵列结构的x方向进行广播，同时使步骤(2)的卷积核与脉动阵列结构的基本运算单元相连，图像和卷积核在基本单元中进行乘积运算，实现加权操作，将所有N²行图像的运算结果在脉动阵列结构的y方向进行广播，实现求和运算；

(6)将待处理图像的x方向和y方向的导数的绝对值相加得到最终的待处理图像的边缘检测灰度图结果，基于脉动阵列卷积运算数据复用的图像处理。

本发明提出的基于脉动阵列卷积运算数据复用的图像处理方法，其优点是：

本发明的基于脉动阵列卷积运算数据复用的图像处理方法，图像处理过程中计算量集中在卷积运算，因此基于脉动阵列卷积运算数据复用方法与传统的卷积运算转化为矩阵乘法运算的内存开销相比，充分利用图像，内存开销减少了近70％。这一改进对于内存资源受限的嵌入式系统有着重大意义，充分利用内存可以减少嵌入式系统与片外存储器的通讯次数，进而加快图像处理速度。

本发明方法在图像边缘检测的实现效果中，基于CycloneVSoC-FPGA平台，设计了本方法对应的图像边缘识别加速系统，对卷积运算进行了加速验证。在测试中，卷积核旋转脉动阵列结构的处理速度为0.011秒，对比于ARMCoretexA9处理器，速度提升了16.27倍，对比于i5-7700 2.8GHz CPU，速度提升了9倍。

附图说明

此处附图的说明是帮助进一步的理解本申请，构成本申请的一部分，本申请的示意性实施例用于解释本申请，并不构成对本申请的不当限定。

图1为本发明方法在嵌入式系统上实现时的片上系统架构。

图2为本发明方法中脉动阵列基本单元的RTL结构图。

图3为本发明方法中卷积核和待处理图像在脉动阵列中的广播示意图。

具体实施方式

本发明提出的基于脉动阵列卷积运算数据复用的图像处理方法，其流程框图如图1所示，包括如下步骤：

N²行图像数据中的第一行与待处理图像的四个元素{D₁₁ D_1(Nλ+1) D_(Nλ+1)1D_{(Nλ+1)(Nλ+1)}}相对应，N²行图像数据中的第二行与待处理图像的四个元素{D₂₁ D_2(Nλ+1) D_(Nλ+2)1D_{(Nλ+2)(Nλ+1)}}相对应，直到N²行图像数据中的第N行，与{D_(Nλ)1 D_Nλ(Nλ+1) null null}相对应，其中null表示第N行的第三个和第四个元素超过了图像范围，用后续的图像数据补充，以此类推，N²行图像数据中的第N+1行与待处理图像的四个元素{D₁₂ D_1(Nλ+2) D_(Nλ+1)2 D_{(Nλ+1)(Nλ+2)}}相对应，第N+1行到第2N行的变化规律与第1行到第N行的变化规律相同；因此第2N行对应于{D_(Nλ)2 D_Nλ(Nλ+2) null null}，以此类推，第N²行对应于{D_{(Nλ+1)(Nλ+2)} null null null}；

(4)对用于卷积运算的卷积核进行旋转处理如下：

(6)将待处理图像的x方向和y方向的导数的绝对值相加得到最终的待处理图像的边缘检测灰度图结果，实现基于脉动阵列卷积运算数据复用的图像处理。

下面结合附图详细介绍本发明内容，显然这只是本发明的一部分实施例，仅仅用以解释本发明，并不用于限定本发明。

图1是基于脉动阵列卷积运算数据复用的图像处理方法的嵌入式系统实现的片上系统架构。

本发明方法中，卷积核的大小为N×N，步长为λ。图像大小为M×M。在实施例的说明当中卷积核为Sobel算子，得到N＝3，步长为λ＝1，使用的是Intel公司的CycloneVSoC-FPGA平台作为嵌入式实现平台。下面的说明也将在这个数据基础上进行说明。

核心模块包括数据控制器、权重控制器、计算器和数据控制器；

数据控制器通过输入数据缓存器读取输入数据，数据控制器的个数为N²＝9。输入数据会按照预处理的方式传递到9个数据控制器模块，数据控制器模块再按照脉动阵列中每一行的数据输入顺序传递给计算器每一行的第一个基本运算单元；

权重控制器用于存储所有的卷积核权重参数，存储空间的设定当以卷积核数量做多的一层为基准，权重控制器的个数为N²＝9，分别对应一个旋转得到的新的卷积核。

计算器模块负责执行卷积运算，并将每一次卷积运算结果传递给数据处理器；数据处理器负责将脉动阵列输出的结果与上一个卷积核的运算结果相加并且存入内部，如此循环执行直至图像所有的卷积运算结果全部输出。

图2为脉动阵列基本单元的RTL结构图。

脉动阵列实现了卷积核和待处理图像的加权求和的过程，下面通过本实施例中基本单元的RTL结构图说明脉动阵列实现功能的过程：

脉动阵列由基本单元组成，基本单元内部通过使能信号en确定工作状态，自动执行乘法运算和累加运算，并将累加结果和图像选择传递给相邻的基本单元PE中。

基本单元，包含一个乘法器，一个加法器、一个二选一选择器、2个D触发器；

乘法器用于接收待处理图像和新卷积核并进行乘法运算，输出连接到加法器的输入端；

加法器输入端还连接到上一级基本单元的数据输出端，加法器的输出接至所述二选一数据控制器；

二选一数据控制器使能端由输入端口得到，输出连接到输出结果数据的D触发器；

D触发器，分别用于输出结果数据和传递待处理图像的数据。输入端包括时钟信号，使能信号，数据信号；

图3为卷积核和待处理图像在脉动阵列中的广播示意图。

图像数据选择器和脉动阵列中第一列的每一个PE相连，根据时钟周期将预处理后的N²行图像数据依次传递给与其对应的基本运算单元。为了提高内存的利用率，当某些行的基本运算单元需要的数据不足4个时，用下一次滑动窗口里对应的数据进行填补。

权重参数选择器的核心在于卷积核的旋转。卷积核的旋转设计的特殊之处在于不仅要求同一列脉动阵列基本单元内部的权重参与参数的传递，并且权重的传递在脉动阵列基本单元之间存在跳跃，而脉动阵列的并行处理和流水处理要求参数只能传递到相邻的PE，脉动阵列中的数据、结果、权重3个参数既要同时传递，并且还存在跨越脉动阵列基本单元的转递。既要不破坏脉动阵列的结构一致性，又要实现跨越脉动阵列基本单元参数传递。因此在每个脉动阵列基本单元当中增加一个权重控制模块来实现功能，为了保证脉动阵列中所有的脉动阵列基本单元结构一致，将脉动阵列基本单元内部的控制单元以及权重寄存器转移出来进行封装组成权重寄存器和权重参数选择器。

经过卷积核旋转后可以得到N²个新的卷积核，并且这N²次卷积所需要的数据规模N²+2λ(N-1)·N+[λ(N-1)]²＝(N+Nλ-λ)²，相比较于普通卷积运算所需的N²·N²的数据规模，卷积核旋转脉动阵列的内存开销减少了：1-[(N+Nλ-λ)/N²]²。几种常用的卷积核尺寸和步长的卷积运算过程中，内存开销减少的比例如下所示

Claims

1.一种基于脉动阵列卷积运算数据复用的图像处理方法，其特征在于该方法包括如下步骤：

N²行图像数据中的第一行与待处理图像的四个元素{D₁₁ D_1(Nλ+1) D_(Nλ+1)1 D_{(Nλ+1)(Nλ+1)}}相对应，N²行图像数据中的第二行与待处理图像的四个元素{D₂₁ D_2(Nλ+1) D_(Nλ+2)1 D_{(Nλ+2)(Nλ+1)}}相对应，直到N²行图像数据中的第N行，与{D_(Nλ)1 D_Nλ(Nλ+1) null null}相对应，其中null表示第N行的第三个和第四个元素超过了图像范围，用后续的图像数据补充，以此类推，N²行图像数据中的第N+1行与待处理图像的四个元素{D₁₂ D_1(Nλ+2) D_(Nλ+1)2 D_{(Nλ+1)(Nλ+2)}}相对应，第N+1行到第2N行的变化规律与第1行到第N行的变化规律相同；因此第2N行对应于{D_(Nλ)2D_Nλ(Nλ+2) null null}，以此类推，第N²行对应于{D_{(Nλ+1)(Nλ+2)} null null null}；

(4)对用于卷积运算的卷积核进行旋转处理如下：