CN100409259C

CN100409259C - 可缩放大规模二维卷积电路

Info

Publication number: CN100409259C
Application number: CNB200610105061XA
Authority: CN
Inventors: 黄士坦; 刘红侠
Original assignee: China Aerospace Times Electronics Corp
Current assignee: China Aerospace Times Electronics Corp
Priority date: 2006-08-29
Filing date: 2006-08-29
Publication date: 2008-08-06
Anticipated expiration: 2026-08-29
Also published as: CN1916959A

Abstract

本发明公开了一种可缩放大规模二维卷积电路，该电路包括一个基准图像素寄存器Y，一个实时图像素寄存器组X，由128个的阵列乘法器M₀，M₁，……M₁₂₇组成的乘法器组，由128个寄存器p₀，p₁，……p₁₂₇组成的乘积寄存器组，由128个加法器A₀，A₁，……A₁₂₇构成的加法器组，由128个寄存器S₀，S₁，……S₁₂₇组成的中间结果寄存器组，一个输出电路，用于计算结果的三态输出；一个用于产生时钟、读写、片选以及清除信号的控制电路。该电路在计算时，算法中运算量大、规则性强的计算由卷积电路完成，微处理器负责存储采集的图像数据，并运算其他并行性较差、无规则的计算，把微处理器的灵活性与硬件电路的高速性有机的结合起来，达到灵活、高适应性和高实时性的效果，能够大幅提高处理速度，又确保可靠性。

Description

可缩放大规模二维卷积电路

技术领域

本发明属于嵌入式计算机高速协处理部件，涉及一种可缩放大规模二维卷积电路，用于大幅提高嵌入式计算机在进行图像匹配时的计算速度。

背景技术

现有技术在进行图像匹配计算时，都是用微处理器(包括DSP微处理器)进行的，由于计算量大，单个微处理器(DSP)达不到实时性要求，为加快计算速度，用多个微处理器(DSP)来并行计算，但这增加了体积、功耗，也降低了可靠性，满足不了嵌入式应用要求。

发明内容

针对上述现有技术存在的缺陷与不足，本发明的目的在于，提供一种可缩放大规模二维卷积电路，该电路在嵌入式条件下，能够大幅提高处理速度，既提高了实时性，又确保可靠性，而且具有较广的应用范围。

为了实现上述任务，本发明采取如下的技术解决方案：

一种可缩放大规模二维卷积电路，其特征在于：面向算法设计，充分挖掘算法中的并行性特点，应用资源重复与时间重叠技术，用硬件电路直接完成计算；同时可根据计算环境的变化，缩放计算规模。电路包括：

一个基准图像素寄存器Y，数据宽度为8位；

一个实时图像素寄存器组X，数据宽度为8位，由128个8位寄存器x₀～x₁₂₇构成移位寄存器，其寄存器x₀的输出接至片外，以备级连时连接，X值以串行方式移入寄存器组；

乘法器组，由128个阵列乘法器M₀，M₁，.....M₁₂₇组成，每一个乘法器M_i的两个输入，来自基准图像素寄存器Y和对应的实时图像素寄存器x_i；

乘积寄存器组，由128个寄存器p₀，p₁，....p₁₂₇组成，数据宽度为16位，寄存器p_i输入接相应乘法器M_i输出；

中间结果寄存器组，由128个寄存器S₀，S₁，.....S₁₂₇组成，数据宽度16～26位，每个中间结果寄存器S_i用于暂存相应加法器A_i的和；

加法器组，由128个加法器A₀，A₁，......A₁₂₇构成，每个加法器A_i的两个输入来自相应的乘积寄存器p_i和中间结果寄存器S_i-1；

一个输出电路，用于计算结果的三态输出，以便与CPU的总线相连；

一个控制电路，用于产生时钟、读写、片选以及清除信号。

本发明的可缩放大规模二维卷积电路，可在一个时钟周期同时实现128对像素值的乘累加，即完成计算：

R = Σ_{i = 0}^{7} Σ_{j = 0}^{15} x_{ij} y_{ij},

若用微处理器计算，需要进行128次乘操作和127次加操作，共255次操作，但用本发明的卷积电路计算时，当流水建立后，只要一次操作就可完成。本发明的可缩放大规模二维卷积器电路，在计算时，算法中运算量大、规则性强的计算由卷积电路完成，微处理器负责存储采集的图像数据，并运算其他并行性较差、无规则的计算，把微处理器的灵活性与硬件电路的高速性有机的结合起来，达到灵活、高适应性和高实时性的效果。

附图说明

图1是本发明的大规模二维卷积器电路结构图；

图2是卷积单元电路图；

图3是编程控制图；

图4是卷积器用于信号处理的信号处理单元结构。

以下结合附图和发明人给出的实施例对本发明作进一步的详细说明。

具体实施方式

在图像匹配等图像处理算法中，经常要计算如下的公式：

R = Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} x_{ij} y_{ij}

当M和N很大时，计算量很大，但由于图像匹配等图像处理算法具有规则性强、并行性好等特点，可用硬件电路直接实现，省去用微处理器计算时程序执行时间的约束，从而提高处理速度。

卷积电路充分挖掘算法中的流水和并行特性，充分运用时间重叠和资源重复技术，使电路具有流水和并行计算能力，同时为了扩大运用范围，能进行平滑、滤波等计算，使电路可通过编程控制，实现规模可缩放。

(1)、电路结构

电路结构如图1所示，其组成为：

a、一个基准图像素寄存器Y，数据宽度为8位；

b、一个实时图像素寄存器组X，数据宽度为8位。由128个8位寄存器x₀～x₁₂₇构成移位寄存器。其寄存器x₀的输出接至片外，以备级连时连接。X值以串行方式移入寄存器组；

c、乘法器组：由128个的阵列乘法器组成：M₀，M₁，.....M₁₂₇，每一个乘法器M_i的两个输入，来自基准图像素寄存器Y和对应的实时图像素寄存器x_i；

d、乘积寄存器组，由128个寄存器组成：p₀，p₁....p₁₂₇，数据宽度为16位，寄存器p_i输入接相应乘法器M_i输出；

e、加法器组：由128个加法器构成：A₀，A₁......A₁₂₇，每个加法器A_i的两个输入来自相应的乘积寄存器p_i和中间结果寄存器S_i-1；

f、中间结果寄存器组，由128个寄存器组成：S₀S₁.....S₁₂₈。数据宽度16～26位，每个中间结果寄存器S_i用于暂存相应加法器A_i的和；

g、输出电路：三态输出；

h、控制电路：产生时钟(CLK)，读写(R/W)，和片选(CS)以及清除(RESET)信号。

由电路结构可看出，整个电路实质上是由一个个基本卷积单元串连构成的。基本卷积单元由一个实时图寄存器、一个像素对乘法器、一个像素对乘寄存器、一个加法器和一个中间结果寄存器构成。如图2所示，每一基本单元实现：S_i-1+x_iy_i，128点卷积电路是由128个基本单元直接串连起来，再连接Y寄存器，控制电路和三态门。整个电路结构规整，简单、易于设计实现。

(2)、电路工作过程

1)、将所有寄存器复位；

2)、先将128个X值x₀～x₁₂₇串行移入X寄存器组，然后将Y值依次移入Y寄存器；

3)、移入第一个Y值后，第130个脉冲将第一个卷积结果置入S₁₂₇。实现：

S_{127} = Σ_{i = 0}^{127} x_{i} y_{i + u}, u = 0, 1, \cdot \cdot \cdot, m

此后，每移入一个Y值，S₁₂₇中置入一个卷积结果，即每个时钟周期获得一个128对像素值的乘累加结果，这些结果按顺序分别对应u＝0，1，…，m。

(3)、电路特点

1)、结构规整：由一个个基本单元串联而成，便于设计和实现；

2)、级连方便灵活：可根据需要级连，增大计算规模，提高计算速度；

3)、卷积规模大，计算速度快；

4)、电路采用了多种并行技术：

资源重复技术：128个相同的乘法器，128个相同的加法器，128个乘积寄存器和128个中间结果寄存器同时工作。

时间重叠技术：乘和加及多级加之间采用时间重叠，流水操作。

(4)计算规模可编程性

为使电路规模可缩放，从而适应计算环境的变化，可通过级连来扩大计算规模，通过编程来控制计算规模的变化，如在滤波、平滑等的3×3、5×5、7×7模板等，编程控制如图3所示。

编码与计算规模对应关系如下：

a	b	c	d	e	计算规模
a	b	c	d	e	计算规模	1	1	1	1	1	8×16＝128对象素
0	1	1	1	1	8×8＝64对象素	1	1	1	1	1	8×16＝128对象素
0	1	1	1	1	8×8＝64对象素	0	0	1	1	1	7×7＝49对象素
0	0	0	1	1	4×8＝32对象素	0	0	1	1	1	7×7＝49对象素
0	0	0	1	1	4×8＝32对象素	0	0	0	0	1	5×5＝25对象素
0	0	0	0	0	3×3＝9对象素	0	0	0	0	1	5×5＝25对象素

(5)实现方案：设计成IP核，用FPGA实现。

发明带来的技术效果是：

1、可在一个时钟周期同时实现128对像素值的乘累加，即完成计算：

R = Σ_{i = 0}^{7} Σ_{j = 0}^{15} x_{ij} y_{ij},

若用微处理器计算，需要进行128次乘操作和127次加操作，共255次操作，但用本发明的卷积器计算时，当流水建立后，只要一次操作就完成了。

2、用DSP做主处理器，可缩放大规模二维卷积器做快速协助处理部件的信号处理单元处理速度估计：

信号处理单元由DSPTMS320C6701和算法硬件构成。因为图像匹配的计算量很大。用进行图像匹配计算来估算信号处理单元的处理速度。图像匹配计算中乘累加运算占总计算量的80％以上，可以用乘累加运算来估算。以128对象素值的乘加运算为例来说明。

128对象素值的乘累加运算要进行128次乘操作和127次加操作。共255次操作。用TMS320C6701估算时，每次操作平均要用到四条指令，所以完成全部计算，DSP要执行的指令数为L₁＝255×4＝1020条指令。

信号处理单元计算时，在DSP的控制下，由算法硬件卷积器来计算。当流水建立后，由DSP发读信号从基准图存储器中将一个象素值置入Y寄存器，同时，读出一个128对象素值的乘累加结果，并保存起来，如此循环，因此只需要读、写、条件转移三条指令，但在访问存储器时要等待一个周期，所以三条指令要占用6个指令周期，相当于6条单周期指令，用L₂表示。

故信号处理单元进行乘累加运算时的处理速度比单用TMS320C6701计算时的处理大大提高了。提高的倍数为：

M = \frac{L_{1}}{L_{2}} = \frac{1020}{6} = 170

TMS320C6701的平均处理速度约600MIPS，因此信号处理单元在进行乘累加运算时的处理速度为：V₁＝170×600MIPS＝102000MIPS.

以乘累加运算占整个匹配计算工作量的80％折算，信号处理单元在进行图像匹配计算时的处理能力为V＝V₁×80％＝81600MIPS。

实施例：

信号处理单元采用DSP+卷积器的结构，如图4所示。在此结构中，用FPGA实现的卷积器挂在DSP总线上，接受DSP的驱动控制，作为DSP的高速协处理部件，减轻DSP的负担，加快运行速度。算法中运算量大，规则性高的计算(如平滑、滤波、匹配计算等)由卷积器完成。DSP负责存储采集的图像数据，并运行其它并行性较差，无规则的计算(如求直方图、校正、拟合等)，并对卷积器的计算结果进行综合判断，输出控制参数，这样就把DSP的灵活性和算法硬件电路的高速、高效性有机结合起来，达到高灵活性、高适应性和高实时性的效果。

为了提高计算速度，充分发挥卷积器的并行计算效率，在进行卷积计算时，当流水建立后，向卷积器的Y寄存器(见图1)写入数据和从卷积器读出结果是同时进行的，这样就会使写入数据和读出数据发生冲突。为了解决此问题，用了一个隔离电路，其作用是当DSP向存储器写入图像数据时隔离器打开，DSP通过数据总线将数据写入基准图存储器。当进行卷积计算时，隔离器关闭，断开DSP数据总线与存储器数据总线的通路，由存储器置入卷积器的数据与由卷积器读出的数据相隔离，从而不会发生冲突，可以做到向Y置入数据与读出计算结果同时进行，充分发挥卷积电路流水和并行计算的特点，提高了计算速度。

Claims

1. 一种可缩放大规模二维卷积电路，其特征在于，该电路包括：

一个基准图像素寄存器Y，数据宽度为8位；

中间结果寄存器组，由128个寄存器S₀，S₁，....S₁₂₇组成，数据宽度16～26位，每个中间结果寄存器S_i用于暂存相应加法器A_i的和；

加法器组，由128个加法器A₀，A₁，.....A₁₂₇构成，每个加法器A_i的两个输入来自相应的乘积寄存器p_i和中间结果寄存器S_i-1；

一个控制电路，用于产生时钟、读写、片选以及清除信号。