CN100409258C

CN100409258C - 一种实时快速实现高斯模板卷积的装置

Info

Publication number: CN100409258C
Application number: CNB2005101347354A
Authority: CN
Inventors: 张广军; 江洁; 周富强; 魏振忠
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2005-12-21
Filing date: 2005-12-21
Publication date: 2008-08-06
Anticipated expiration: 2025-12-21
Also published as: CN1987928A

Abstract

本发明属于机器视觉检测技术，涉及对高斯模板卷积实现装置的改进。它包括图象传感器1、列卷积系数寄存器组2和行卷积系数寄存器组3，其特征在于，有一个高斯卷积电路，它由地址发生器4、行缓存器组5、列向数据合并电路6、列卷积电路7、串行移位寄存器组8、行向数据合并电路9和行卷积电路10组成。本发明减少了模板的存储容量和逻辑资源的使用；通过并行和流水方法的结合实现了实时的大模板高斯卷积；大大提高了高斯模板卷积实现的速度。

Description

一种实时快速实现高斯模板卷积的装置

技术领域

本发明属于机器视觉检测技术，涉及对高斯模板卷积实现装置的改进。

背景技术

高斯卷积是一种线性的图像平滑滤波过程，其卷积模板是一种线性模板，可直接从二维零均值离散高斯函数计算模板权值，其从二维零均值离散高斯函数表达式为，

g (x, y) = e^{\frac{- (x^{2} + y^{2})}{2 σ^{2}}}

其中，σ是高斯函数的均方差，它控制着平滑效果。σ值越大，平滑的程度越好。

基于高斯模板卷积的高斯滤波器是一种应用非常广泛的滤波器，除了进行图像的平滑外还与很多的其他算法结合实现精确且高效的边缘提取、光条条纹提取及角点特征提取等。这些边缘、角点和光条特征信息的提取是机器视觉检测中非常重要和基础的工作。对于离散的二维图像，这些算法要求通过相应高斯核或微分形式的高斯核与原图像进行卷积来求图像灰度函数的偏导数。有些算法要对整幅图像进行多次的大模板二维卷积，算法的运算量大，如德国Steger博士(Steger1998)提出的基于Hessian矩阵的子像素级边缘检测算法在结构光条纹提取中具有较好的性能、较强的通用性以及高的定位精度，但算法要求通过相应微分形式的高斯核与原图像进行卷积来求图像灰度函数的偏导数r_x，r_y，r_xx，r_xy和r_yy，而且随着光条条纹加宽，所采用的高斯模板加大(高斯模板大小达到37×37)，算法的运算量非常大。由于要对整幅图像进行多次的大模板二维卷积，导致算法的运算量大。目前这些算法都是在计算机上采用软件进行实现，由于计算机的串行运算机制，计算速度非常慢。虽然也有一些人在研究其快速算法，如对其中高斯核卷积采用递归方法实现，但都不能做到实时实现，极大地影响了该算法在机器视觉中的实时应用。采用并行实现的装置(如FPGA)实现时，如果不对算法进行改进，由于模板比较大，其实现过程也是一个非常消耗逻辑资源的，计算量也是非常大的，也会极大地影响算法实现的速度。对于n×n的高斯模板(为了保证精度n值一般取≥7的奇数)，它需要将一个象素附近n×n个象素与高斯模板进行卷积运算，如图1中矩形框内7×7的象素用于计算中心像元(三角形表示)的偏导数。卷积运算对应于硬件实现就是乘法器和加法器，乘法器在硬件实现中特别占逻辑单元。对于n＝9的高斯模板，需要9×9＝81个乘法器。

发明内容

本发明的目的是：提出一种能减少乘法器的数量和降低运算量的高斯模板卷积实现装置，使其能实现快速实时卷积运算。

本发明的技术方案是：一种实时快速实现高斯模板卷积的装置，包括一个图象传感器1、一个列卷积系数寄存器组2和一个行卷积系数寄存器组3，列卷积系数寄存器组2由(n+1)/2个寄存器CG₁～CG_(n+1)/2构成，行卷积系数寄存器组3由(n+1)/2个寄存器RG₁～RG_(n+1)/2构成，其特征在于，有一个高斯卷积电路，它由地址发生器4、行缓存器组5、列向数据合并电路6、列卷积电路7、串行移位寄存器组8、行向数据合并电路9和行卷积电路10组成；

行缓存器组5由n-1个行缓存器BUF₁～BUF_n-1构成，地址发生器4的地址输出端通过地址总线与图象传感器1的地址输入端连接，控制其串行输出数据，地址发生器4的地址输出端通过地址总线分别与行缓存器组5中的n-1个行缓存器的地址输入端连接，控制n-1个行缓存器的写入和读出，图象传感器1的数据输出端通过数据总线分别与行缓存器组5中的n-1个行缓存器的数据输入端连接；

列向数据合并电路6由一组加减法器CAS₁～CAS_(n-1)/2组成，加减法器的个数为(n-1)/2，每一个加减法器有两个输入端，第一加减法器CAS₁的一个输入端与第一行缓存器BUF₁的数据输出端Y_1i连接，其另一个输入端与图象传感器1的数据输出端连接；第二加减法器CAS₂的一个输入端与第二行缓存器BUF₂的数据输出端Y_2i连接，其另一个输入端与第n-1个行缓存器BUF_n-1的数据输出端Y_n-1i连接；第三加减法器CAS₃的一个输入端与第三行缓存器BUF₃的数据输出端Y_3i连接，其另一个输入端与第n-2个行缓存器BUF_n-2的数据输出端Y_n-2i连接；依次类推，第(n-1)/2个加减法器CAS_(n-1)/2的一个输入端与第(n-1)/2个行缓存器BUF_(n-1)/2的数据输出端Y_(n-1)/2连接，其另一个输入端与第(n+3)/2个行缓存器BUF_(n+3) _/2的数据输出端Y_(n+3)/2i连接；

列卷积电路7由(n+1)/2个乘法器CPE₁～CPE_(n+1)/2和一个加法器树组成，这个加法器树由若干列加法器CAD组成，第一乘法器CPE₁的一个输入端与第一加减法器CAS₁的输出端连接，其另一个输入端与列卷积系数寄存器组2中的寄存器CG₁的输出端连接，第二乘法器CPE₂的一个输入端与第二加减法器CAS₂的输出端连接，其另一个输入端与列卷积系数寄存器组2中的寄存器CG₂的输出端连接，依次类推，第(n-1)/2乘法器CPE_(n-1)/2的一个输入端与第(n-1)/2加减法器CAS_(n-1)/2的输出端连接，其另一个输入端与列卷积系数寄存器组2中的寄存器CG_(n-1)/2的输出端连接，第(n+1)/2乘法器CPE_(n+1)/2的一个输入端与中间的第(n+1)/2个行缓存器BUF_(n+1)/2的数据输出端Y_(n+1)/2i连接，其另一个输入端与列卷积系数寄存器组2中的寄存器CG_(n+1)/2的输出端连接；加法器树由若干列加法器CAD组成，第一列加法器CAD₁的个数为(n+1)/4取整数，第一列加法器CAD₁的第一个加法器CAD₁₁对第一乘法器CPE₁和第二乘法器CPE₂的输出求和，第一列加法器CAD₁的第二个加法器CAD₁₂对第三乘法器CPE₃和第四乘法器CPE₄的输出求和，依次类推，第一列加法器CAD₁的最后一个加法器CAD_1(n+1)/4对第(n-1)/2乘法器CPE_(n-1)/2和第(n+1)/2乘法器CPE_(n+1)/2的输出求和；第二列加法器CAD₂中的加法器分别对第一列加法器CAD的输出进行两两求和；依次类推，直至完成全部乘法器输出的求和；当被求和的乘法器或者加法器输出的个数为奇数时，剩余的一个乘法器或者加法器的输出并入下一列加法器求和；

串行移位寄存器组8由n个移位寄存器D₁～D_n组成，加法器树的输出端与第一个移位寄存器D₁的输入端连接，第一个移位寄存器D₁输出端与第二个移位寄存器D₂的输入端连接，依次类推，第n-1个移位寄存器D_(n-1)的输入端与第n-2个移位寄存器D_(n-2)的输出端连接，其输出端与第n个移位寄存器D_n的输入端连接；

行向数据合并电路9由一组加减法器RAS₁～RAS_(n-1)/2组成，加减法器的个数为(n-1)/2，每一个加减法器有两个输入端，第一加减法器RAS1的一个输入端与第一个移位寄存器D₁的数据输出端连接，其另一个输入端与第n个移位寄存器D_n的数据输出端连接，第二加减法器RAS₂的一个输入端与第二个移位寄存器D₂的数据输出端连接，其另一个输入端与第n-1个移位寄存器D_n-1的数据输出端连接；依次类推，第(n-1)/2个加减法器RAS_(n-1)/2的一个输入端与第(n-1)/2个移位寄存器D_(n-1)/2的数据输出端连接，其另一个输入端与第(n+3)/2个移位寄存器D_(n+3)/2的数据输出端连接；

行卷积电路10由(n+1)/2个乘法器RPE₁～RPE_(n+1)/2和一个加法器树组成，这个加法器树由若干行加法器RAD组成，第一乘法器RPE₁的一个输入端与第一加减法器RAS₁的输出端连接，其另一个输入端与行卷积系数寄存器组3中的寄存器RG₁的输出端连接，第二乘法器RPE₂的一个输入端与第二加减法器RAS₂的输出端连接，其另一个输入端与行卷积系数寄存器组3中的寄存器RG₂的输出端连接，依次类推，第(n-1)/2乘法器RPE_(n-1)/2的一个输入端与第(n-1)/2加减法器RAS_(n-1)/2的输出端连接，其另一个输入端与行卷积系数寄存器组3中的寄存器RG_(n-1)/2的输出端连接，第(n+1)/2乘法器RPE_(n+1)/2的一个输入端与中间的第(n+1)/2个移位寄存器D_(n+1)/2的数据输出端连接，其另一个输入端与行卷积系数寄存器组3中的寄存器RG_(n+1)/2的输出端连接；加法器树由若干行加法器RAD组成，第一列加法器RAD₁的个数为(n+1)/4取整数，第一列加法器RAD₁的第一个加法器RAD₁₁对第一乘法器RPE₁和第二乘法器RPE₂的输出求和，第一列加法器RAD₁的第二个加法器RAD₁₂对第三乘法器RPE₃和第四乘法器RPE₄的输出求和，依次类推，第一列加法器RAD₁的最后一个加法器RAD_1(n+1) _/4对第(n-1)/2乘法器RPE_(n-1)/2和第(n+1)/2乘法器RPE_(n+1)/2的输出求和；第二列加法器RAD₂中的加法器分别对第一列加法器RAD₁的输出进行两两求和；依次类推，直至完成全部乘法器输出的求和；当被求和的乘法器或者加法器输出的个数为奇数时，剩余的一个乘法器或者加法器的输出并入下一列加法器求和；最后一列加法器RAD_last的输出为高斯模板卷积装置的输出，这里的n值取≥7的奇数。

本发明的优点是：通过对高斯模板的分解，减少了模板的存储容量，减少了乘法器的使用，减小了逻辑资源的使用；通过并行和流水方法的结合实现了实时的大模板高斯卷积；大大提高了高斯模板卷积实现的速度。

附图说明

图1是高斯模板卷积示意图。

图2是高斯模板的可分解示意图。

图3是高斯模板的对称性示意图。其中，(a)是零阶高斯模板，(b)是1阶高斯模板，(c)是2阶高斯模板。

图4是对称性模板精简示意图。

图5是图像数据缓存示意图。

图6是输出列向数据合并示意图。

图7是本发明高斯模板卷积装置的结构原理图。

图8(a)是在计算机上采用软件算法实现的高斯模板卷积用于基于Hessian矩阵的结构光光条中心线的提取结果，(b)是采用本发明装置实现的高斯模板卷积用于用于基于Hessian矩阵的结构光光条中心线的提取得到的结果。

具体实施方式

下面对本发明做进一步详细说明。本发明为了减少乘法器的使用并能实现实时卷积，充分利用高斯模板的特点，对卷积过程进行了改进。具体改进如下：

为了实现高精度的特征提取(如边缘、角点、光条中心)算法在实时的机器视觉中的应用，本发明以一个专用集成电路运算装置为基础，采用FPGA器件，设计其中高斯模板卷积的硬件实时实现的装置。为了减少乘法器的使用并能实现实时卷积，本发明充分利用高斯模板的特点，对高斯模板进行分解。

1)高斯模板的可分解性。

二维高斯模板的数学表达式为，

g (x, y) = e^{\frac{- (x^{2} + y^{2})}{2 σ^{2}}} = e^{\frac{- x^{2}}{2 σ^{2}}} \times e^{\frac{{- y}^{2}}{2 σ^{2}}} - - - [2]

它可以分解为两个一维的高斯函数，因此，对于一个二维高斯模板，可以分解成两个一维的模板如图2所示。从图2可以看出通过模板的分解原来需要n×n的模板大小变成了2n，一维行模板和一维列模板的值是相同的，因此模板的大小从2n变成了n，在硬件实现中大大减少了所需的模板存储容量。

2)高斯模板的对称性。

从图3可以看出零阶和2阶高斯模板是偶对称的，而1阶高斯模板是奇对称的，因此上述的模板大小还可以从n精简为(n+1)/2，如图4所示是模板精简的示意图。

模板的精简不仅减少了模板本身的存储容量，还减少了硬件实现中乘法器的使用。在硬件实现的过程中，本发明将卷积中对应相同高斯模板值的图像数据先进行加或减操作，再进行并行的乘法和流水线的加法操作。采用这样的处理后，所采用的乘法器从原来的n×n减少到n+1，如n＝9，原来乘法器的个数为81个，现有操作所需的乘法器个数仅为10个，大大减少了硬件逻辑资源的使用。

本发明的高斯模板卷积装置，包括一个图象传感器1、一个列卷积系数寄存器组2和一个行卷积系数寄存器组3，列卷积系数寄存器组2由(n+1)/2个寄存器CG₁～CG_(n+1)/2构成，行卷积系数寄存器组3由(n+1)/2个寄存器RG₁～RG_(n+1)/2构成。二维图像数据以行扫描的方式，在时钟的驱动下，由图象传感器1串行输出。列卷积系数寄存器组2和行卷积系数寄存器组3存储的是简化后的高斯模板的系数。在进行乘法运算时，这些系数并行的从寄存器组中输出，输入到乘法器的输入端。

本发明的特征在于：有一个高斯卷积电路，它由地址发生器4、行缓存器组5、列向数据合并电路6、列卷积电路7、串行移位寄存器组8、行向数据合并电路9和行卷积电路10组成。

行缓存器组5由n-1个行缓存器BUF₁～BUF_n-1构成，地址发生器4的地址输出端通过地址总线与图象传感器1的地址输入端连接，控制其串行输出数据，地址发生器4的地址输出端通过地址总线分别与行缓存器组5中的n-1个行缓存器的地址输入端连接，控制n-1个行缓存器的写入和读出，图象传感器1的数据输出端通过数据总线分别与行缓存器组5中的n-1个行缓存器的数据输入端连接。

为了实现并行处理，重复充分利用每个输入数据，扩大数据的吞吐量，需要对图像先进行缓存。图像的缓存由行缓存器组5完成。对于n×n的卷积，只需要进行n-1行的数据存储，如图5所示。每一个时钟周期从行缓存器组5和图像传感器1输出一列n个数据，以供进行实时并行的列卷积。其数据输出过程是：行缓存器组5缓存n-1行数据，并在时钟驱动下从左至右并行输出n-1个数据，同时图像传感器1输出第n个数据。

列向数据合并电路6由一组加减法器CAS₁～CAS_(n-1)/2组成，加减法器的个数为(n-1)/2，每一个加减法器有两个输入端，第一加减法器CAS₁的一个输入端与第一行缓存器BUF₁的数据输出端Y_1i连接，其另一个输入端与图象传感器1的数据输出端连接；第二加减法器CAS₂的一个输入端与第二行缓存器BUF₂的数据输出端Y_2i连接，其另一个输入端与第n-1个行缓存器BUF_n-1的数据输出端Y_n-1i连接；第三加减法器CAS₃的一个输入端与第三行缓存器BUF₃的数据输出端Y_3i连接，其另一个输入端与第n-2个行缓存器BUF_n-2的数据输出端Y_n-2i连接；依次类推，第(n-1)/2个加减法器CAS_(n-1)/2的一个输入端与第(n-1)/2个行缓存器BUF_(n-1)/2的数据输出端Y_(n-1)/2i连接，其另一个输入端与第(n+3)/2个行缓存器BUF_(n+3) _/2的数据输出端Y_(n+3)/2i连接。

根据高斯模板的对称性，由列向数据合并电路6对输出的一列图像数据先进行列向数据合并，对于1阶卷积是进行减法运算，0阶和2阶是进行加法运算，如图6所示，图6还显示了其合并的数据与简化高斯模板系数的对应关系，其中g₁表示1阶卷积，g₀，g₂分别表示零阶和2阶的卷积系数，对于同样阶数的行和列高斯卷积，其卷积模板系数相同。通过列向数据合并减少了一半的并行处理的数据量。

经列向数据合并电路6合并后的数据由列卷积电路7进行列卷积。列卷积就是将合并后的图像数据与简化的高斯模板系数进行并行的乘法和流水线的加法。

列卷积电路7由(n+1)/2个乘法器CPE₁～CPE_(n+1)/2和一个加法器树组成，这个加法器树由若干列加法器CAD组成，第一乘法器CPE₁的一个输入端与第一加减法器CAS₁的输出端连接，其另一个输入端与列卷积系数寄存器组2中的寄存器CG₁的输出端连接，第二乘法器CPE₂的一个输入端与第二加减法器CAS₂的输出端连接，其另一个输入端与列卷积系数寄存器组2中的寄存器CG₂的输出端连接，依次类推，第(n-1)/2乘法器CPE_(n-1)/2的一个输入端与第(n-1)/2加减法器CAS_(n-1)/2的输出端连接，其另一个输入端与列卷积系数寄存器组2中的寄存器CG_(n-1)/2的输出端连接，第(n+1)/2乘法器CPE_(n+1)/2的一个输入端与中间的第(n+1)/2个行缓存器BUF_(n+1)/2的数据输出端Y_(n+1)/2i连接，其另一个输入端与列卷积系数寄存器组2中的寄存器CG_(n+1)/2的输出端连接；加法器树由若干列加法器CAD组成，第一列加法器CAD₁的个数为(n+1)/4取整数，第一列加法器CAD₁的第一个加法器CAD₁₁对第一乘法器CPE₁和第二乘法器CPE₂的输出求和，第一列加法器CAD₁的第二个加法器CAD₁₂对第三乘法器CPE₃和第四乘法器CPE₄的输出求和，依次类推，第一列加法器CAD₁的最后一个加法器CAD_1(n+1)/4对第(n-1)/2乘法器CPE_(n-1)/2和第(n+1)/2乘法器CPE_(n+1)/2的输出求和；第二列加法器CAD₂中的加法器分别对第一列加法器CAD₁的输出进行两两求和；依次类推，直至完成全部乘法器输出的求和；当被求和的乘法器或者加法器输出的个数为奇数时，剩余的一个乘法器或者加法器的输出并入下一列加法器求和。对于n×n卷积，列卷积需要(n+1)/2个乘法器。

经列卷积电路7处理得到的串行输出的结果通过串行移位寄存器8进行串并转换。串行移位寄存器组8由n个移位寄存器D₁～D_n组成，加法器树的输出端与第一个移位寄存器D₁的输入端连接，第一个移位寄存器D₁输出端与第二个移位寄存器D₂的输入端连接，依次类推，第n-1个移位寄存器D_(n-1)的输入端与第n-2个移位寄存器D_(n-2)的输出端连接，其输出端与第n个移位寄存器D_n的输入端连接。这样经过串行移位寄存器8的串并转换，n个串行输出的行卷积数据就可以并行输出给后续处理电路进行并行的处理。

移位寄存器8并行输出的数据根据高斯模板的对称性进行行方向的数据的合并，合并后的数据进行行卷积，行卷积与列卷积相同也是将合并后的图像数据与简化的高斯模板系数进行并行的乘法和流水线的加法。

行向数据合并电路9由一组加减法器RAS₁～RAS_(n-1)/2组成，加减法器的个数为(n-1)/2，每一个加减法器有两个输入端，第一加减法器RAS的一个输入端与第一个移位寄存器D₁的数据输出端连接，其另一个输入端与第n个移位寄存器D_n的数据输出端连接，第二加减法器RAS₂的一个输入端与第二个移位寄存器D₂的数据输出端连接，其另一个输入端与第n-1个移位寄存器D_n-1的数据输出端连接；依次类推，第(n-1)/2个加减法器RAS_(n-1)/2的一个输入端与第(n-1)/2个移位寄存器D_(n-1)/2的数据输出端连接，其另一个输入端与第(n+3)/2个移位寄存器D_(n+3)/2的数据输出端连接。

对于n×n卷积，行卷积也需要(n+1)/2个乘法器，因此对于n×n的高斯卷积总共需要消耗的乘法器为n+1个。在硬件电路设计中乘法器是最占逻辑资源的。乘法器的减少意味着逻辑资源的减少。

当n＝9时，直接采用二维高斯卷积模板进行卷积需要的乘法器为81个，本发明需要的乘法器仅为10个。表1是采用二维卷积模板进行卷积和采用本发明进行卷积消耗乘法器的对比。从表中可以看出随着n的增大，采用二维卷积模板进行卷积所需要的乘法器的数量增加非常多，而采用本发明进行卷积所需要乘法器的数量增加不大。在高斯卷积中n一般取奇数，随着n增加2，乘法器数量仅增加2个，是一个线性增加的过程。

表1乘法器需求对比

n	采用二维卷积模板进行卷积乘法器消耗	采用本方法进行卷乘法器消耗
n	采用二维卷积模板进行卷积乘法器消耗	采用本方法进行卷乘法器消耗	9	81	10
11	121	12	9	81	10
11	121	12	13	169	14
15	225	16	13	169	14
15	225	16	17	289	18
37	1369	38	17	289	18

图8(a)是在计算机上采用软件算法实现的高斯模板卷积用于基于Hessian矩阵的结构光光条中心线的提取结果，(b)是采用上述硬件方法实现的高斯模板卷积用于基于Hessian矩阵的结构光光条中心线的提取得到的结果。这里n＝4σ+1，σ＝4，n＝17。从图8可以看出软硬件处理的结果是一致的。表2是不同方法实现高斯模板卷积的耗时比较，从表2中可以看出本发明实现的速度大大加快了。随着所采用的时钟频率的提高，本发明装置的运算速度还可以提高。

表2计算耗时比较

图像大小	高斯模板卷积(计算机实现ms)	递归的高斯模板卷积(计算机实ms)	本发明高斯模板卷积装置(并行硬件实现10M时钟ms)
图像大小	高斯模板卷积(计算机实现ms)	递归的高斯模板卷积(计算机实ms)	本发明高斯模板卷积装置(并行硬件实现10M时钟ms)	398×280	91.1	59.7	11.1
373×325	98.7	65.8	12.1	398×280	91.1	59.7	11.1
373×325	98.7	65.8	12.1	768×576	355.7	242.1	44.2

Claims

1. 一种实时快速实现高斯模板卷积的装置，包括一个图象传感器[1]、一个列卷积系数寄存器组[2]和一个行卷积系数寄存器组[3]，列卷积系数寄存器组[2]由(n+1)/2个寄存器CG₁～CG_(n+1)/2构成，行卷积系数寄存器组[3]由(n+1)/2个寄存器RG₁～RG_(n+1)/2构成，其特征在于，有一个高斯卷积电路，它由地址发生器[4]、行缓存器组[5]、列向数据合并电路[6]、列卷积电路[7]、串行移位寄存器组[8]、行向数据合并电路[9]和行卷积电路[10]组成；

行缓存器组[5]由n-1个行缓存器BUF₁～BUF_n-1构成，地址发生器[4]的地址输出端通过地址总线与图象传感器[1]的地址输入端连接，控制其串行输出数据，地址发生器[4]的地址输出端通过地址总线分别与行缓存器组[5]中的n-1个行缓存器的地址输入端连接，控制n-1个行缓存器的写入和读出，图象传感器[1]的数据输出端通过数据总线分别与行缓存器组[5]中的n-1个行缓存器的数据输入端连接；

列向数据合并电路[6]由一组加减法器CAS₁～CAS_(n-1)/2组成，加减法器的个数为(n-1)/2，每一个加减法器有两个输入端，第一加减法器CAS₁的一个输入端与第一行缓存器BUF₁的数据输出端Y_1i连接，其另一个输入端与图象传感器[1]的数据输出端连接；第二加减法器CAS₂的一个输入端与第二行缓存器BUF₂的数据输出端Y_2i连接，其另一个输入端与第n-1个行缓存器BUF_n-1的数据输出端Y_n-1i连接；第三加减法器CAS₃的一个输入端与第三行缓存器BUF₃的数据输出端Y_3i连接，其另一个输入端与第n-2个行缓存器BUF_n-2的数据输出端Y_n-2i连接；依次类推，第(n-1)/2个加减法器CAS_(n-1)/2的一个输入端与第(n-1)/2个行缓存器BUF_(n-1)/2的数据输出端Y_(n-1)/2i连接，其另一个输入端与第(n+3)/2个行缓存器BUF_(n+3) _/2的数据输出端Y_(n+3)/21连接；

列卷积电路[7]由(n+1)/2个乘法器CPE₁～CPE_(n+1)/2和一个加法器树组成，这个加法器树由若干列加法器CAD组成，第一乘法器CPE₁的一个输入端与第一加减法器CAS₁的输出端连接，其另一个输入端与列卷积系数寄存器组[2]中的寄存器CG₁的输出端连接，第二乘法器CPE₂的一个输入端与第二加减法器CAS₂的输出端连接，其另一个输入端与列卷积系数寄存器组[2]中的寄存器CG₂的输出端连接，依次类推，第(n-1)/2乘法器CPE_(n-1)/2的一个输入端与第(n-1)/2加减法器CAS_(n-1)/2的输出端连接，其另一个输入端与列卷积系数寄存器组[2]中的寄存器CG_(n-1)/2的输出端连接，第(n+1)/2乘法器CPE_(n+1)/2的一个输入端与中间的第(n+1)/2个行缓存器BUF_(n+1)/2的数据输出端Y_(n+1)/21连接，其另一个输入端与列卷积系数寄存器组[2]中的寄存器CG_(n+1)/2的输出端连接；加法器树由若干列加法器CAD组成，第一列加法器CAD₁的个数为(n+1)/4取整数，第一列加法器CAD₁的第一个加法器CAD₁₁对第一乘法器CPE₁和第二乘法器CPE₂的输出求和，第一列加法器CAD₁的第二个加法器CAD₁₂对第三乘法器CPE₃和第四乘法器CPE₄的输出求和，依次类推，第一列加法器CAD₁的最后一个加法器CAD1_(n+1)/4对第(n-1)/2乘法器CPE_(n-1)/2和第(n+1)/2乘法器CPE_(n+1)/2的输出求和；第二列加法器CAD₂中的加法器分别对第一列加法器CAD₁的输出进行两两求和；依次类推，直至完成全部乘法器输出的求和；当被求和的乘法器或者加法器输出的个数为奇数时，剩余的一个乘法器或者加法器的输出并入下一列加法器求和；

串行移位寄存器组[8]由n个移位寄存器D₁～D_n组成，加法器树的输出端与第一个移位寄存器D₁的输入端连接，第一个移位寄存器D₁输出端与第二个移位寄存器D₂的输入端连接，依次类推，第n-1个移位寄存器D_(n-1)的输入端与第n-2个移位寄存器D_(n-2)的输出端连接，其输出端与第n个移位寄存器D_n的输入端连接；

行向数据合并电路[9]由一组加减法器RAS₁～RAS_(n-1)/2组成，加减法器的个数为(n-1)/2，每一个加减法器有两个输入端，第一加减法器RAS₁的一个输入端与第一个移位寄存器D₁的数据输出端连接，其另一个输入端与第n个移位寄存器D_n的数据输出端连接，第二加减法器RAS₂的一个输入端与第二个移位寄存器D₂的数据输出端连接，其另一个输入端与第n-1个移位寄存器D_n-1的数据输出端连接；依次类推，第(n-1)/2个加减法器RAS_(n-1)/2的一个输入端与第(n-1)/2个移位寄存器D_(n-1)/2的数据输出端连接，其另一个输入端与第(n+3)/2个移位寄存器D_(n+3)/2的数据输出端连接；

行卷积电路[10]由(n+1)/2个乘法器RPE₁～RPE_(n+1)/2和一个加法器树组成，这个加法器树由若干行加法器RAD组成，第一乘法器RPE₁的一个输入端与第一加减法器RAS₁的输出端连接，其另一个输入端与行卷积系数寄存器组[3]中的寄存器RG₁的输出端连接，第二乘法器RPE₂的一个输入端与第二加减法器RAS₂的输出端连接，其另一个输入端与行卷积系数寄存器组[3]中的寄存器RG₂的输出端连接，依次类推，第(n-1)/2乘法器RPE_(n-1)/2的一个输入端与第(n-1)/2加减法器RAS_(n-1)/2的输出端连接，其另一个输入端与行卷积系数寄存器组[3]中的寄存器RG_(n-1)/2的输出端连接，第(n+1)/2乘法器RPE_(n+1)/2的一个输入端与中间的第(n+1)/2个移位寄存器D_(n+1)/2的数据输出端连接，其另一个输入端与行卷积系数寄存器组[3]中的寄存器RG_(n+1)/2的输出端连接；加法器树由若干行加法器RAD组成，第一列加法器RAD₁的个数为(n+1)/4取整数，第一列加法器RAD₁的第一个加法器RAD₁₁对第一乘法器RPE₁和第二乘法器RPE₂的输出求和，第一列加法器RAD₁的第二个加法器RAD₁₂对第三乘法器RPE₃和第四乘法器RPE₄的输出求和，依次类推，第一列加法器RAD₁的最后一个加法器RAD_1(n+1)/4对第(n-1)/2乘法器RPE_(n-1)/2和第(n+1)/2乘法器RPE_(n+1)/2的输出求和；第二列加法器RAD₂中的加法器分别对第一列加法器RAD₁的输出进行两两求和；依次类推，直至完成全部乘法器输出的求和；当被求和的乘法器或者加法器输出的个数为奇数时，剩余的一个乘法器或者加法器的输出并入下一列加法器求和；最后一列加法器RAD_last的输出为高斯模板卷积装置的输出，这里的n值取≥7的奇数。