CN100517382C

CN100517382C - 一种并行提升9/7小波基的vlsi结构

Info

Publication number: CN100517382C
Application number: CN 200710052272
Authority: CN
Inventors: 田昕; 田金文; 谭毅华
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2007-05-23
Filing date: 2007-05-23
Publication date: 2009-07-22
Anticipated expiration: 2027-05-23
Also published as: CN101059866A

Abstract

一种并行提升9/7小波基的VLSI结构，属于图像压缩处理中的小波变换领域，目的在于有效减少所需的硬件资源，提高最大工作频率，以适于高速、硬件资源要求比较严格的应用场合。本发明包括四个实现不同提升步骤的处理单元，各处理单元由乘法器，加法器，反相器和延时寄存器组成，其中提升系数a＝-4，b＝12，c＝-16/5，k₁＝5/96，k₂＝-/16。为了缩短结构的关键路径，本发明可以在不同的处理单元之间加入流水线寄存器来减小关键路径延时。本发明与传统的9/7小波基VLSI结构具有类似的压缩性能，但是具有最小的硬件资源和最短的关键路径延时，可有效地应用于各种高速、硬件资源要求比较严格的各种系统中。

Description

一种并行提升9/7小波基的VLSI结构

技术领域

本发明属于图像压缩处理中的小波变换领域，具体涉及一种并行提升9/7小波基的VLSI结构。

背景技术

随着卫星遥感技术的发展和对传输式观测卫星遥感图像质量要求的不断提高，航天遥感图像的分辨率和采样率也越来越高，由此引起高分辨率遥感图像数据存储量和传输数据量的急剧增长。为了尽量保持高分辨率遥感图像所具有的信息，必须解决输入数据码速率和传输信道带宽之间的矛盾，因此星载环境高分辨率遥感图像数据的高速、实时、大压缩比压缩编码是解决数传带宽和信息保持之间矛盾的关键技术。作为最新的静止图像压缩国际标准，JPEG2000在遥感图像等海量数据压缩方面提供了很好的技术支持和具有优秀的压缩性能。而在JPEG2000算法中，一个比较核心的关键技术就是小波变换技术。传统双正交97(CDF97)小波基具有线性相位，具有良好的压缩性能，因此被JPEG2000图像压缩标准所采用，也被大多数基于小波的图像压缩算法所采用。提升型小波变换能够有效减少算术运算单元的数目和寄存器的数量，但是基于提升算法的小波变换比基于卷积运算的小波变换结构实现关键路径较长。Chao-Tsung HUANG的论文——Flipping structure：an efficient VLSIarchitecture for lifting-based discrete wavelet transform，IEEE Trans.onSignal Processing.2004，52(4)：1080-1089，和Cheng-Yi Xiong的论文——ANote on“Flipping Structure：An Efficient VLSI Architecture forLifting-Based Discrete Wavelet Transform，IEEE Trans.on SignalProcessing.2006，54(5)：1910-1916.提出了各种一维CDF97小波变换的超大规模集成电路(VLSI)结构，从而减少了关键路径延时。但是，这些变换结构都是基于CDF97小波变换。由于其小波变换提升系数均是无理数，在计算过程中需要使用大量的浮点乘法运算，因此，通过各种结构变换之后，由于存在舍入误差，其压缩性能不一定最佳。

发明内容

本发明提出一种并行提升9/7小波基的VLSI结构，目的在于有效减少所需的硬件资源，提高最大工作频率，以适于高速、硬件资源要求比较严格的应用场合。

本发明的一种并行提升9/7小波基的VLSI结构，包括四个实现不同提升步骤的处理单元，各处理单元由乘法器，加法器，反相器和延时寄存器组成，其特征在于：

(1)所述第一处理单元的输入、输出为：

H⁽⁰⁾(n)＝x(2n+1)，L⁽⁰⁾(n)＝x(2n)；

H⁽¹⁾(n)＝L⁽⁰⁾(n)+L⁽⁰⁾(n+1)-H⁽⁰⁾(n)，L⁽¹⁾(n)＝aL⁽⁰⁾(n)；

(2)所述第二处理单元的输入、输出为：

H⁽²⁾(n)＝bH⁽¹⁾(n)，L⁽²⁾(n)＝H⁽¹⁾(n)+H⁽¹⁾(n-1)-L⁽¹⁾(n)；

(3)所述第三处理单元的输入、输出为：

H⁽³⁾(n)＝L⁽²⁾(n)+L⁽²⁾(n+1)-H⁽²⁾(n)，L⁽³⁾(n)＝cL⁽²⁾(n)；

(4)所述第四处理单元的输入、输出为：

H⁽⁴⁾(n)＝H⁽³⁾(n)，L⁽⁴⁾(n)＝H⁽³⁾(n)+H⁽³⁾(n-1)-L⁽³⁾(n)；

(5)所述第四处理单元的两个输出值分别送到两个输出乘法器进行缩放操作：

H(n)＝H⁽⁴⁾(n)K₁，L(n)＝L⁽⁴⁾(n)K₂；

上述式中，a＝-4，b＝12，c＝-16/5，

k_{1} = 5 \sqrt{2} / 96,

k_{2} = - \sqrt{2} / 16 .

所述的一种并行提升9/7小波基的VLSI结构，其特征在于：所述第四处理单元和两个输出乘法器之间具有两个流水线寄存器。

所述的一种并行提升9/7小波基的VLSI结构，其特征在于：所述第二处理单元和第三处理单元之间具有两个流水线寄存器。

所述的一种并行提升9/7小波基的VLSI结构，其特征在于：所述第一处理单元和第二处理单元之间具有两个流水线寄存器；所述第三处理单元和第四处理单元之间具有两个流水线寄存器。

本发明的VLSI结构，所需的乘法器和加法器数量分别为5和4。相对于CDF97而言，有效地减少了一个乘法器资源。在不同的提升步中，所有的乘法运算是并行执行的；在每个提升步中，所有的加法运算与乘法运算是并行执行的。

本发明采用二级流水线技术时，其关键路径延时为Tm+Ta(Tm代表乘法器的延时，Ta代表加法器的延时)；采用四级流水线技术时，关键路径延时可进一步减少到Tm。因此，通过较少的硬件资源可取得最短的关键路径延时。

图1是传统双正交97与本发明在相同压缩比下(采用EBCOT算法)，用不同的图像进行比较得到的图像压缩客观质量(峰值信噪比)的对比值，测试图像大小为512×512的块，见图2：女士图和图3：气球图。表明本发明提出的并行提升9/7小波基VLSI结构，与传统的9/7小波基VLSI结构具有类似的压缩性能。但是其VLSI结构具有最小的硬件资源和最短的关键路径延时，可有效地应用于各种高速、硬件资源要求比较严格的各种系统中。

附图说明

图1为传统双正交97与本发明在相同压缩比的对比结果示意图；

图2为女士图像；

图3为气球图像；

图4为本发明的VLSI结构示意图；

图5为本发明中第一处理单元结构示意图；

图6为本发明中第二处理单元结构示意图；

图7为本发明中第三处理单元结构示意图；

图8为本发明中第四处理单元结构示意图；

图9为本发明采用一级流水线示意图；

图10为本发明采用二级流水线示意图；

图11为本发明采用四级流水线示意图；

图12为传统双正交97的VLSI结构采用四级流水线示意图。

图4～图12中的标记：

表示延时寄存器，

表示流水线寄存器，

表示加法器，

表示乘法器，

表示反相器。

具体实施方式

下面结合附图对本发明详细说明。

在本发明中，设定分解端与重构端的低通滤波器的长度分别为9和7，消失矩的阶数分别为2和4，即小波滤波器在分解端与重构端的低通滤波器函数分别为

H (w) = \sqrt{2} {[(1 + e^{- iw}) / 2]}^{2} P (w), G (w) = \sqrt{2} {[(1 + e^{- iw}) / 2]}^{4} \tilde{P} (w),

H(w)和G(w)的k阶导数满足：

H^(k)(w)|_w＝π＝0，k＝0，G^(k)(w)|_w＝π＝0，k＝0，2

即H(π)＝0，G(π)＝0，G⁽²⁾(π)＝0 (1)

小波滤波器分解端低通滤波器函数的z变换表示为：h(z)＝h_e(z²)+z^-1h_o(z²)，其中，h_e，h_o分别为偶、奇系数多项式，即

h_{e} (z) = \underset{k}{Σ} h_{2 k} z^{- k},

h_{o} (z) = \underset{k}{Σ} h_{2 k + 1} z^{- k}

同理，小波滤波器重构端低通滤波器函数的z变换表示为：g(z)＝g_e(z²)+z^-1g_o(z²)，

g_{e} (z) = \underset{k}{Σ} g_{2 k} z^{- k},

g_{o} (z) = \underset{k}{Σ} g_{2 k + 1} z^{- k}

多相位矩阵P(z)定义为：

P (z) = [\begin{matrix} h_{e} (z) & g_{e} (z) \\ h_{o} (z) & g_{o} (z) \end{matrix}] - - - (2)

假设输入信号的Z变换表示为：

x(z)＝x_e(z²)+z^-1x_o(z²)，

而输出的低、高频分量的Z变换表示分别为r₁(z)，d₁(z)，则Mallat算法的分解过程可以等价地表示为

[\begin{matrix} r_{1} (z) \\ d_{1} (z) \end{matrix}] = P^{T} (z) [\begin{matrix} x_{e} (z) \\ z^{- 1} x_{o} (z) \end{matrix}]

本发明提出P(z)的一种并行提升分解格式：

P (z) = [\begin{matrix} a & 1 + z^{- 1} \\ 0 & - 1 \end{matrix}] [\begin{matrix} - 1 & 0 \\ 1 + z & b \end{matrix}] [\begin{matrix} c & 1 + z^{- 1} \\ 0 & - 1 \end{matrix}] [\begin{matrix} - 1 & 0 \\ 1 + z & 1 \end{matrix}] [\begin{matrix} K_{1} & 0 \\ 0 & K_{2} \end{matrix}] - - - (3)

按照并行提升分解格式，比较(2)式和(3)式，由(1)式和归一化条件，可求得如下的并行提升小波基(PA97)对应的提升系数：

a＝-4，b＝12，c＝-16/5，

k_{1} = 5 \sqrt{2} / 96,

k_{2} = - \sqrt{2} / 16 .

采用数学方程形式表示，其VLSI结构实现过程可表示如下：

L⁽⁰⁾(n)＝x(2n)，H⁽⁰⁾(n)＝x(2n+1)；

H⁽¹⁾(n)＝L⁽⁰⁾(n)+L⁽⁰⁾(n+1)-H⁽⁰⁾(n)，

L⁽¹⁾(n)＝aL⁽⁰⁾(n)；

L⁽²⁾(n)＝H⁽¹⁾(n)+H⁽¹⁾(n-1)-L⁽¹⁾(n)，

H⁽²⁾(n)＝bH⁽¹⁾(n)；

H⁽³⁾(n)＝L⁽²⁾(n)+L⁽²⁾(n+1)-H⁽²⁾(n)，

L⁽³⁾(n)＝cL⁽²⁾(n)；

L⁽⁴⁾(n)＝H⁽³⁾(n)+H⁽³⁾(n-1)-L⁽³⁾(n)，

H⁽⁴⁾(n)＝H⁽³⁾(n)；

H(n)＝H⁽⁴⁾(n)K₁，L(n)＝L⁽⁴⁾(n)K₂

将上述的数学方程形式，映射得到相应的VLSI结构如图4所示，a，b，c，k₁，k₂为本发明对应的提升系数。每个采样时钟交替输入一个数据，分别为偶序列信号x(2n)和奇序列信号x(2n+1)，L(n)和H(n)分别代表输入的低频和高频分量的输出。在变换过程中，数据顺序输入到第一处理单元PE1、第二处理单元PE2、第三处理单元PE3和第四处理单元PE4进行处理，交替实现一次提升和二次提升运算，最后经过后级的归一化乘法运算，输出原始信号的高频分量H(n)和低频分量L(n)，该系统结构能够实现每个内部时钟周期输出一个数据(一个低频和一个高频分量交替输出)。

第一处理单元PE1结构如图5所示，第二处理单元PE2结构如图6所示，第三处理单元PE3结构如图7所示，第四处理单元PE4结构如图8所示，其中PE4不需要使用乘法单元，而PE1、PE2、PE3均由一个三输入加法器、反相器和乘法器构成。此时所用到的资源数目为：乘法器5个，三输入加法器4个，反相器4个，寄存器数目为4。

为了缩短结构的关键路径，本发明可以在不同的处理单元之间加入流水线寄存器来减小关键路径延时。如图9所示，当在第四处理单元PE4和输出乘法器之间加入一级流水线寄存器时，此时关键路径延时近似为2Tm+2Ta(由于反相器关键路径延时很小，其中Tm代表乘法器延时，Ta代表三输入加法器延时)，所需的流水线寄存器数目为2。如图10所示，当在第二处理单元PE2和第三处理单元PE3之间加入一级流水线寄存器时，此时各个乘法运算单元之间是并行执行的，所需的流水线寄存器数目为4，关键路径延时近似为Tm+Ta；当在每个处理单元之间加入4级流水线寄存器时，此时加法运算与乘法运算是并行执行的，所需的流水线寄存器数目为8，关键路径延时减小到Tm，该结构如图11所示。

将本发明提出的VLSI结构与其它比较有效的VLSI结构进行性能比较，其中包括Chao-Tsung HUANG的翻折结构[1]和Cheng-Yi Xiong的改进型翻折结构[2]。对比结果如表1所示，表明本发明能有效地提高系统性能。

表1：性能比较

实现结构	乘法器	加法器	关键路径延时	寄存器数目
实现结构	乘法器	加法器	关键路径延时	寄存器数目	CDF+1级流水	6	8	4Tm+8Ta	6
CDF+4级流水	6	8	Tm+2Ta	12	CDF+1级流水	6	8	4Tm+8Ta	6
CDF+4级流水	6	8	Tm+2Ta	12	[1]+5级流水	6	4	Tm	14
[2]+4级流水	6	4	Tm	14	[1]+5级流水	6	4	Tm	14
[2]+4级流水	6	4	Tm	14	本发明+1级流水	5	4	2Tm+2Ta	6
本发明+2级流水	5	4	Tm+Ta	8	本发明+1级流水	5	4	2Tm+2Ta	6
本发明+2级流水	5	4	Tm+Ta	8	本发明+4级流水	5	4	Tm	12

乘法器延时Tm；加法器延时Ta。除CDF+4级流水线结构外，其他结构中加法器均指三输入加法器。

为了便于比较，在图12中给出了传统双正交97的VLSI结构采用四级流水线示意图，a′，b′，c′，d′，k₁′，k₂′为传统双正交97小波的提升系数。

Claims

1.一种并行提升9/7小波基的VLSI结构，包括四个实现不同提升步骤的处理单元，各处理单元由乘法器，加法器，反相器和延时寄存器组成，其特征在于：

(1)第一处理单元的输入为：H⁽⁰⁾(n)＝x(2n+1)，L⁽⁰⁾(n)＝x(2n)；

输出为：H⁽¹⁾(n)＝L⁽⁰⁾(n)+L⁽⁰⁾(n+1)-H⁽⁰⁾(n)，L⁽¹⁾(n)＝a L⁽⁰⁾(n)；

(2)第二处理单元的输入为：H⁽¹⁾(n)，L⁽¹⁾(n)；

输出为：H⁽²⁾(n)＝b H⁽¹⁾(n)，L⁽²⁾(n)＝H⁽¹⁾(n)+H⁽¹⁾(n-1)-L⁽¹⁾(n)；

(3)第三处理单元的输入为：H⁽²⁾(n)，L⁽²⁾(n)；

输出为：H⁽³⁾(n)＝L⁽²⁾(n)+L⁽²⁾(n+1)-H⁽²⁾(n)，L⁽³⁾(n)＝c L⁽²⁾(n)；

(4)第四处理单元的输入为：H⁽³⁾(n)，L⁽³⁾(n)；

输出为：H⁽⁴⁾(n)＝H⁽³⁾(n)，L⁽⁴⁾(n)＝H⁽³⁾(n)+H⁽³⁾(n-1)-L⁽³⁾(n)；

(5)第四处理单元的两个输出值分别送到两个输出乘法器进行缩放操作：

H(n)＝H⁽⁴⁾(n)K₁，L(n)＝L⁽⁴⁾(n)K₂；

上述式中，a＝-4，b＝12，c＝-16/5，

k_{1} = 5 \sqrt{2} / 96,

k_{2} = - \sqrt{2} / 16 .

2.如权利要求1所述的一种并行提升9/7小波基的VLSI结构，其特征在于：所述第四处理单元和两个输出乘法器之间具有两个流水线寄存器。

3.如权利要求2所述的一种并行提升9/7小波基的VLSI结构，其特征在于：所述第二处理单元和第三处理单元之间具有两个流水线寄存器。

4.如权利要求3所述的一种并行提升9/7小波基的VLSI结构，其特征在于：所述第一处理单元和第二处理单元之间具有两个流水线寄存器；所述第三处理单元和第四处理单元之间具有两个流水线寄存器。