CN114862654A

CN114862654A - 一种实时模板卷积在fpga上的实现方法及系统

Info

Publication number: CN114862654A
Application number: CN202210393094.8A
Authority: CN
Inventors: 薄振桐; 赵鑫鑫; 姜凯
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-05

Abstract

本发明公开了一种实时模板卷积在FPGA上的实现方法及系统，属于图像处理技术领域；所述的方法实现平台为FPGA,在FPGA中构建n组模板卷积运算单元进行并行计算，模板大小为mxm,每组模板卷积运算单元由m个乘法器和m‑l个加法器组成；运算过程中，m个乘法器的图像数据和模板数据利用FPGA内部的m+l个寄存器给出，通过水平方向并行计算和垂直方向流水计算，实现模板卷积运算。发明方法通过在FPGA中构建n个独立的卷积运算单元并行计算和垂直方向流水计算，实现模板卷积运算，提高了模板卷积的运算速度，能够更好地满足实时性的要求。

Description

一种实时模板卷积在FPGA上的实现方法及系统

技术领域

本发明公开一种实时模板卷积在FPGA上的实现方法及系统，涉及图像处理技术领域。

背景技术

目前，模板卷积运算被广泛应用于图像增强、边缘检测以及目标识别等数字图像处理领域。模板卷积运算虽然操作简单，但运算量巨大且非常耗时。对于一个N×N的模板来说，每个输出点的运算量为N2次乘法N2-1次加法，1次除法；对于一帧大小为M×M的图像来说，输出点的数量为(M-N+1)2，总的乘法运算量将是(M-N+1)2×N2。

传统的实现方法是采用通用CPU或DSP做处理机，通过流水线方式进行模板卷积运算。由于CPU或DSP速度的限制，对于高速实时的设计，传统方法不再能满足要求。同时，因为模板越大，运算量越大，所以传统方法所使用的模板都相对较小，进而影响处理结果。

故现发明一种实时模板卷积在FPGA上的实现方法及系统，以解决上述问题。

发明内容

本发明针对现有技术的问题，提供一种实时模板卷积在FPGA上的实现方法及系统，所采用的技术方案为：一种实时模板卷积在FPGA上的实现方法，所述的方法实现平台为FPGA,在FPGA中构建n组模板卷积运算单元进行并行计算，模板大小为mxm,每组模板卷积运算单元由m个乘法器和m-l个加法器组成；运算过程中，m个乘法器的图像数据和模板数据利用FPGA内部的m+l个寄存器给出，通过水平方向并行计算和垂直方向流水计算，实现模板卷积运算。

所述方法的具体步骤如下：

S1将一帧M×N图像的第1行第1个到第m个图像数据存放到FPGA内部的第1到第m个寄存器，同时将模板的第1行数据提供给模板卷积运算单元的m个乘法器；

S2将S1中第1个到第m个寄存器中存放的m个图像数据提供给m个乘法器进行乘法运算，这相当于第1组数据；

S3在进行S2的同时，将图像该行的第m+1个图像数据更新至第m+1个寄存器；

S4保持模板数据不变，将FPGA内部第2到第m+1个寄存器中的m个图像数据提供给模板卷积运算单元的m个乘法器，进行乘法运算，这相当于第2组数据；

S5在进行S4的同时，将图像该行第m+2个图像数据更新至m+1个寄存器中闲置的一个寄存器中；

S6重复以上步骤直至图像数据运算结束。

S7将第1行至第m行所有对应组数据运算结果相加，得到模板运算处理结果；

S8将一帧图像的第2行到M-m+1行重复S1～S8。

所述S6具体步骤如下：

S601重复S1～S5，直到第1行图像数据运算结束；

S602重复S1～S601，直到第m行图像数据运算结束；

所述S8将一帧图像的第2行到M-m+1行重复S1～S8，直到完成整帧图像的模板卷积运算。

一种实时模板卷积在FPGA上的实现系统，所述的系统实现平台为FPGA,在FPGA中构建n组模板卷积运算单元进行并行计算，模板大小为mxm,每组模板卷积运算单元由m个乘法器和m-l个加法器组成；

运算过程中，m个乘法器的图像数据和模板数据利用FPGA内部的m+l个寄存器给出，通过水平方向并行计算和垂直方向流水计算，实现模板卷积运算。

所述系统具体包括数据存放模块、数据组件模块A、数据更新模块A、数据组件模块B、数据更新模块B、循环操作模块、运算处理模块和运算循环模块：

数据存放模块：将一帧M×N图像的第1行第1个到第m个图像数据存放到FPGA内部的第1到第m个寄存器，同时将模板的第1行数据提供给模板卷积运算单元的m个乘法器；

数据组件模块A：将数据存放模块中第1个到第m个寄存器中存放的m个图像数据提供给m个乘法器进行乘法运算，这相当于第1组数据；

数据更新模块A：在数据组件模块A工作的同时，将图像该行的第m+1个图像数据更新至第m+1个寄存器；

数据组件模块B：保持模板数据不变，将FPGA内部第2到第m+1个寄存器中的m个图像数据提供给模板卷积运算单元的m个乘法器，进行乘法运算，这相当于第2组数据；

数据更新模块B：在数据组件模块B工作的同时，将图像该行第m+2个图像数据更新至m+1个寄存器中闲置的一个寄存器中；

循环操作模块：重复以上步骤直至图像数据运算结束。

运算处理模块：将第1行至第m行所有对应组数据运算结果相加，得到模板运算处理结果；

运算循环模块：将一帧图像的第2行到M-m+1行重复S1～S8。

所述循环操作模块具体包括第一循环模块和第二循环模块：

第一循环模块：重复之前的模块工作，直到第1行图像数据运算结束；

第二循环模块：重复之前的模块工作，直到第m行图像数据运算结束；

所述运算循环模块将一帧图像的第2行到M-m+1行重复S1～S8，直到完成整帧图像的模板卷积运算。

本发明的有益效果为：本发明方法通过在FPGA中构建n个独立的卷积运算单元并行计算和垂直方向流水计算，实现模板卷积运算，提高了模板卷积的运算速度，能够更好地满足实时性的要求。同时由于能够在FPGA中建立多个运算单元，而且运算能力相比传统的CPU或DSP大大提高，增大了卷积模板的大小，从而改善了模板卷积的处理结果，可应用于图像增强、边缘检测以及目标识别等数字图像处理技术领域，尤其用于对实时性要求较高的系统。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法实施例的模板卷积运算单元计算示意图；图2是本发明方法实施例的模板运算到哪元并行流水运算流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一：

一种实时模板卷积在FPGA上的实现方法，所述的方法实现平台为FPGA,在FPGA中构建n组模板卷积运算单元进行并行计算，模板大小为mxm,每组模板卷积运算单元由m个乘法器和m-l个加法器组成；运算过程中，m个乘法器的图像数据和模板数据利用FPGA内部的m+l个寄存器给出，通过水平方向并行计算和垂直方向流水计算，实现模板卷积运算；

进一步的，所述方法的具体步骤如下：

S6重复以上步骤直至图像数据运算结束；

S8将一帧图像的第2行到M-m+1行重复S1～S8；

如图1所示，本发明方法采用4组模板卷积运算单元进行并行计算，模板大小为15x15；每组模板卷积运算单元由15个乘法器和14个加法器组成；在运算过程中，15个乘法器的图像数据和模板数据利用FPGA内部16个寄存器给出，通过水平力向并行计算和垂直力向流水计算，实现模板卷积运算；

进一步的，所述S6具体步骤如下：

S601重复S1～S5，直到第1行图像数据运算结束；

S602重复S1～S601，直到第m行图像数据运算结束；

再进一步的，所述S8将一帧图像的第2行到M-m+1行重复S1～S8，直到完成整帧图像的模板卷积运算；

如图2所示，基于FPGA的实时模板卷积实现方法，模板运算单元的并行和流水运算步骤如下：

(la)将一阵图像的第1行第1到第15个图像数据存放到第1到第15个寄存器，同时将模板的第1行数据提供给模板卷积运算单元的15个乘法器；

(1b)将步骤(la)中第1个到第15个寄存器中存放的15个图像数据提供给15个乘法器进行乘法运算，这相当于第1组数据；

(lc)在进行步骤(1b)的同时，将该行第16个图像数据更新至第16个寄存器；

(1d)步骤(1b)(lc)结束后，保持模板数据不变，将第2到第16个寄存器中的15个图像数据提供给模板卷积运算单元的15个乘法器，进行乘法运算，这相当于第2组数据；

(le)在进行步骤(1d)的同时，将该行第17个图像数据更新至16个寄存器中闲置的一个寄存器中，此时为第1个寄存器；

结果，到此完成了模板在原始输入图像上扫描1行的运算；

(1f)重复步骤(la)至(li)，直到完成整帧图像的模板卷积运算；

上述模板尺寸为15×15，对于小尺寸模板的运算，可以通过将15×15模板边缘置0实现；上述模板卷积运算单元由15个乘法器和14个加法器组成，15个乘法器进行并行乘法运算；上述寄存器共使用31个，其中15个寄存器存放卷积模板数据，16个寄存器存放图像数据；上述模板运算过程采用4个独立模板卷积运算单元，即可同时并行计算4行图像数据。

实施例二：

运算过程中，m个乘法器的图像数据和模板数据利用FPGA内部的m+l个寄存器给出，通过水平方向并行计算和垂直方向流水计算，实现模板卷积运算；

进一步的，所述系统具体包括数据存放模块、数据组件模块A、数据更新模块A、数据组件模块B、数据更新模块B、循环操作模块、运算处理模块和运算循环模块：

循环操作模块：重复以上步骤直至图像数据运算结束；

运算循环模块：将一帧图像的第2行到M-m+1行重复以上操作；

进一步的，所述循环操作模块具体包括第一循环模块和第二循环模块：

再进一步的，所述运算循环模块将一帧图像的第2行到M-m+1行重复以上操作，直到完成整帧图像的模板卷积运算。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种实时模板卷积在FPGA上的实现方法，其特征是所述的方法实现平台为FPGA,在FPGA中构建n组模板卷积运算单元进行并行计算，模板大小为mxm,每组模板卷积运算单元由m个乘法器和m-l个加法器组成；运算过程中，m个乘法器的图像数据和模板数据利用FPGA内部的m+l个寄存器给出，通过水平方向并行计算和垂直方向流水计算，实现模板卷积运算。

2.根据权利要求1所述的方法，其特征是所述方法的具体步骤如下：

S6重复以上步骤直至图像数据运算结束。

S8将一帧图像的第2行到M-m+1行重复S1～S8。

3.根据权利要求2所述的方法，其特征是所述S6具体步骤如下：

S601重复S1～S5，直到第1行图像数据运算结束；

S602重复S1～S601，直到第m行图像数据运算结束。

4.根据权利要求3所述的方法，其特征是所述S8将一帧图像的第2行到M-m+1行重复S1～S8，直到完成整帧图像的模板卷积运算。

5.一种实时模板卷积在FPGA上的实现系统，其特征是所述的系统实现平台为FPGA,在FPGA中构建n组模板卷积运算单元进行并行计算，模板大小为mxm,每组模板卷积运算单元由m个乘法器和m-l个加法器组成；

6.根据权利要求5所述的系统，其特征是所述系统具体包括数据存放模块、数据组件模块A、数据更新模块A、数据组件模块B、数据更新模块B、循环操作模块、运算处理模块和运算循环模块：

循环操作模块：重复以上步骤直至图像数据运算结束。

运算循环模块：将一帧图像的第2行到M-m+1行重复以上操作。

7.根据权利要求6所述的系统，其特征是所述循环操作模块具体包括第一循环模块和第二循环模块：

第二循环模块：重复之前的模块工作，直到第m行图像数据运算结束。

8.根据权利要求7所述的系统，其特征是所述运算循环模块将一帧图像的第2行到M-m+1行重复以上操作，直到完成整帧图像的模板卷积运算。