CN1153346C

CN1153346C - 流水线式并行-串行架构最小均方自适应滤波器及其方法

Info

Publication number: CN1153346C
Application number: CNB981040136A
Authority: CN
Inventors: 钟和明; 黄国升; 苏文光; 徐朝辉
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 1997-08-18
Filing date: 1998-01-22
Publication date: 2004-06-09
Anticipated expiration: 2018-01-22
Also published as: US6035319A; US6009448A; CN1529411A; CN100573440C; CN1208994A

Abstract

一种最小均方自适应滤波器的方法与装置。其中，用以进行最小均方自适应滤波器中有限冲激响应(FIR)乘法运算的滤波器系数与时间指标有关，而有限冲激响应滤波器部分中每个分支抽头(tap)所使用的系数各属于不同的时间指标。此方法使超大规模集成电路的硬件实现得以模块化且易于实现。此外，本发明中提出一种乘加器用以实现所提出的最小均方自适应滤波器。

Description

流水线式并行一串行架构最小均方自适应滤波器及其方法

技术领域

本发明涉及最小均方自适应滤波器，特别涉及最小均方算法的流水线式架构的自适应滤波器。

背景技术

最小均方(Least Mean Spuare，以下简称LMS)自适应滤波器算法已有许多应用。在这些LMS的使用场合中，输入过程的统计特性是未知或随时变化的，例如噪声消除、信号增强(line enhancing)、及自适应阵列处理等，此算法使用一由原始输入信号驱动的横截滤波器(transversal filter)结构，目的在于将均方误差(mean square error)最小化。

LMS算法经常被选用于硬件实现中，因为此算法不需先得知所处理信号的高阶统计特性即可处理自适应滤波器的问题。LMS算法的推导参考B.Widrow及S.D.Stearns所著“Adaptive Signal Processing(自适应信号处理)”(Prentice-Hall公司，1985出版)一书的第六章。现有技术中LMS算法的横截(transversal)滤波器实现方式为一时域(time-domain)网络，用以将输入信号的各时间点上的取样加以加权并求和，以产生一极近似于原始信号的输出信号。这些应用的例子，均使用顺序处理(sequential processing)或微处理器控制。

实现LMS算法的N阶滤波器，可由下列方程式表示：

e(n)＝g(n)-y(n)

y (n) = Σ_{k = 0}^{N - 1} C_{k} (n) x (n - k)

C_k(n+1)＝C_k(n)+μe(n)x(n-k)

k＝0，1，...，N-1

其中x(n)为滤波器在时间点n时的输入；C_k(n)为时间点n时，滤波器的第k个系数；y(n)为滤波器输出，g(n)为期望的结果，e(n)为输出与期望结果间的误差。而μ为更新滤波器系数的步长(step size)。

LMS算法一般以横截(transversal)方式予以实现(如图1中的5级滤波器例子所示)，特别是在高速的应用场合中。此结构包含滤波器本体核心、误差发生器、以及反馈环路。滤波器核心包含图1中虚线内的范围，包括横截式有限冲激响应(finite impulse response，以下简称FIR)滤波器部分以及系数更新部分。关于此现有技术的完整叙述记载于Chester等人的专利(美国专利号5,450,339)，此现有技术的横截式LMS实现方法有几项限制：在需要较长滤波器的应用中，用以执行方块38加法的树状加法器(summation tree)会导致滤波器的时间延迟(latency)问题。例如，当滤波器愈长(即FIR滤波器的阶数愈高)，自适应滤波器的分支级数(tap)便愈多，而由树状加法器造成的时间延迟便愈长；此时间延迟会延误误差的计算而终将导致如此的情况：进行误差计算时相对应的数据取样已经离开滤波器的状态寄存器。除此之外，树状加法器限制硬件设计的规律及模块化，这会严重限制集成电路的实现，因为其架构上的可级联性(cascadability)受到限制。

LMS算法也可由一特别为LMS运算设计的可重新组态的数据路径(re-configurable data path)加以实现，或者甚至使用一个数字信号处理器。前者的效率高于后者，然而其速度仍远低于使用特定并行硬件的实现方式。此外，数据的交换、存储以及组态的控制会导致可观的硬件上的额外负担。图2所示为一现有技术的实现方式，该作法使用一可重新组态的硬件架构来执行LMS算法及其他乘法运算，其完整叙述参考Corleto等人的专利(美国专利号5,001,661)。

发明内容

为了克服标准LMS算法先天上的缺点，有数种改进方式已被提出以解决硬件实现上的困难，图3所示的现有技术在算法中，有限冲激响应部分采用直接的横截式滤波器作法，但滤波器系数使用更新再加以延迟的版本。图3的实施例出自美国专利号4,726,036(Sawyer等人)，并在其中有完整叙述。虽然在此作法中由于抽头延迟线(tapped delay line)的新架构而缩短了某些硬件上的关键路径(critical path)，树状加法器30所造成的主要缺点仍然存在。

另一类LMS的改进型式，称为延迟式的LMS(delayed LMS，以下简称DLMs)，在最近被提出，DLMS算法在G.Long，G.Ling及J.G.Proakis名为“The LMS algorithm with Delayed Coefficient Adaptation(采用延迟式系数自适应的LMS算法)”(IEEE Transactions of Acoustics，Speech，and Signal Processing，vol.37.No.9，1989年9月)一文中首次提出。此DLMS算法的一种硬件实现在C.L.Wang“Bit-Serial VLSI Implementation of Delayed LMS Adaptive FIRFilters(延迟式LMS自适应FIR滤波器的位串行VLSI实现)”(IEEETransactions on Signal Processing，vol.42.No.8，1994年8月)一文中提出，图4、5、6显示DLMS算法的数据流程图，以及实现DLMS算法的两种心脏收缩式(Systolic)架构。在图5及图6的实现方式中树状加法器已被去除。虽然图5及图6的DLMS算法的实现方式，解决某些程度的硬件运算上的关键路径问题，并且提供了超大规模集成电路实现的模块化可能性，然而这些架构仍未被最优化。于是，本发明披露一种最小均方自适应滤波器的方法与装置，提出一种结合并行与数字串行的改进LMS算法架构，能降低数据交换时所带来的额外负担，以缩短硬件运算上的关键路径，使数据能在硬件间以最经济有效的方式流动，在配置时亦能降低硬件间连线复杂度，并使硬件能更规则化并极易实现模块化。

本发明用以进行最小均方自适应滤波器中FIR乘法运算的滤波器系数与时间指标(time index)有关，且FIR部分中每个分支抽头(tap)所使用的系数各属于不同的时间指标。此方法使硬件能实现最佳的模块化，及更易被以超大规模集成电路(VLSI)实施。

为此，本发明提供了一种最小均方适应性滤波器方法，对输入的数字信号x(n)进行数字滤波运算，以产生滤波器输出信号y(n)，其至少包括：(a)将输入的数字信号给一H-阶(N-tap)有限脉冲响应(FIR)滤波器；(b)决定该有限脉冲响应(FIR)滤波器中各个抽头(tap)的与时间指标相关的滤波器系数，其中包括下列步骤：(1)将输入数字信号给予时间延迟；(2)将时间延迟后的输入数字信号乘上一剩余的误差，以取得该与时间指标相关的滤波器的系数乘积；且(3)将该与时间指标相关的滤波器系数乘积和一经时间延迟后的与时间指标相关的滤波器系数乘积；且其中的剩余的误差是比较有限脉冲响应(FIR)滤波器的输出信号与所期望的响应信号后得到；(c)将输入给该有限脉冲响应(FIR)滤波器中各个抽头(tap)的数字信号和相对应的与时间指标相关的滤波器系数相乘，以取得输出乘积；且(d)将每个输出乘积给予时间延迟，将经时间延迟后的输出乘积加总起来，以获得该有限脉冲响应(FIR)滤波器的输出信号；其中上述步骤(a)～(d)是依据以下方式进行滤波运算：

y (n) = Σ_{k = 0}^{N - 1} C_{k} (n - k) x (n - k)

e(n)＝g(n)-y(n)

C_k(n+1)＝C_k(n)+μe(n)x(n-k)

k＝0，1，...，N-1其中C_k(n)为时间n时的第k项滤波器系数；g(n)为所期望的响应信号；e(n)为剩余的误差；μ为更新系数所用的步阶尺寸；N为滤波器的阶数。

本发明还提供了一种最小均方适应滤波器，此滤波器至少包括：多个第一乘法器，各个第一乘法器包括一第一输入、第二输入及一输出，各个第一乘法器的第一输入接收一输入信号；多个第一加法器，各个第一加法器包括一第一输入、第二输入及一输出，各个第一加法器与各个第一乘法器相对应，各个第一加法器的第一输入与相对应的第一乘法器的输出耦接；多个第一延迟元件，各个第一延迟元件包括一输入及一输出，各个第一延迟元件的输入与一第一加法器的输出耦接，且各个第一延迟元件的输出与不同的第一加法器的输入耦接；一抽头延迟线，其具有一输入与多个抽头延迟输出，该输入接收该输入信号；多个第二乘法器，各个第二乘法器包括一第一输入、第二输入及一输出，各个第二乘法器的第一输入与一抽头延迟输出耦接，且各个第二乘法器的第二输入接收一剩余误差信号；多个第二加法器，各个第二加法器包括一第一输入、第二输入及一输出，各个第二加法器与各个第二乘法器相对应，各个第二加法器的第一输入与相对应的第二乘法器的输出耦接；以及多个第二延迟元件，各个第二延迟元件包括一输入及一输出，各个第二延迟元件的输入耦接一第二加法器的输出，且各个第二延迟元件的输出与相同的第二加法器的输入及一第一加法器的第二输入耦接。

本发明的算法的实现能使硬件在配置时，降低硬件间连线设计的复杂度，并使硬件能更规则化并极易实现模块化，更易被以超大规模集成电路(VLSI)实施。

附图说明

参照随后的详细叙述以及相应的附图，前文所述本发明的观点及衍生的优点将更易于被了解，其中：

图1-6为最小均方自适应滤波器的数种现有技术实现方式。

图7为根据本发明得到的并行一串行(parallel-serial)实数型LMS自适应滤波器的实施例。

图8为根据本发明得到的并行—串行复数型LMS自适应滤波器实施例的示意图。

图9所示为图8中并行—串行复数型LMS自适应滤波器中的运算方块(Calculation block)。

图10为根据本发明得到的并行—串行流水线式(pipelined)乘加器的实施例。

图11所示为图10中的部分积(partial product)产生器的实施例。

图12所示为图10中的并行/串行累加器的实施例。

图13所示为图10中的进位存储(carry-save)加法器的实施例。

图14所示为本发明的实施例的整个乘加器的架构。

具体实施方式

本发明的架构揭示一种新的LMS算法，并能极有效地以VLSI架构加以实现，本发明所改进的实数型LMS算法，可由下列方程式表示：

e(n)＝g(n)-y(n)

C_k(n+1)＝C_k(n)+μe(n)x(n-k)

k＝0，1，...，N-1

y (n) = Σ_{k = 0}^{N - 1} C_{k} (n - k) x (n - k)

其中x(n)为时间n时的滤波器输入；C_k(n)为时间n时的第k个滤波器系数；y(n)为滤波器输出，g(n)为期望的结果，e(n)为误差；μ为更新系数时的步长。初始时，主抽头的C_k(n)＝1，而其余抽头的C_k(n)＝0。

参照图7所示，运用上述实数型LMS算法，为本发明所改进的实数型LMS自适应滤波器的硬件实现架构。图中粗线表示数据以并行方式传递；相对地，细线表示数据以串行方式传递。如图7中所示，输入信号x(n)送入滤波器701，而输出信号y(n)为滤波器701的输出。另外，图中也表示了期望的响应信号g(n)及用来更新滤波器系数的误差e(n)。

滤波器701包含一个FIR部分703以及一个LMS自适应部分705；另外，还包含一个误差计算单元707、一个并行至串行转换器709、及一个串行至并行转换器711。误差计算单元707计算g(n)及y(n)间的差并将此差乘以步长因数μ。而串行至并行转换器711及并行至串行转换器709，可由现有技术实现。其例子可参考M.Morris Mano所著的“Digital Logic and ComputerDesign(数字逻辑和计算机设计)”，(1979，prentice-Hall，Inc)。

FIR部分703包含一些乘法器721、加法器723、以及延迟元件725。如在实施例中所示，延迟元件可为D型触发器。此外，加法器723为进位存储加法器，其输出为两个输入的和，乘法器721则为特定的并行/串行乘法器。(加法器及乘法器都将在随后详述)。LMS自适应部分705也包含一些乘法器721、加法器723、以及延迟元件725。这些元件与FIR部分703中所用的相同。

本发明的技术特征之一为上述图7内所示，结合并行与数字串行(digital-serial)数据型态与运算方式的硬件架构。其中结合并行与数字串行的数据传递架构，可降低数据交换时所带来的额外负担，缩短硬件运算上的关键路径，让数据能在硬件间以最经济有效的方式流动，同样地亦能降低硬件间连线复杂度。所谓并行的方式，表示使用数据的整个字长(wordlength)，而所谓数字串行的方式，表示整个数据字长中的一个短的片段。数字串行的极端情况为使用单个位的位串行(bit-serial)电路。而当考虑运算速度及硬件成本间的折衷平衡，以及当使用了较精巧的运算电路的情形时，我们发现2位或4位数字串行的数位尺寸是很好的选择。

参照图8所示，为本发明的一个用以实现复数型LMS自适应滤波器的硬件实现架构。图8与图7极为相关，在图8中包含2个并行的分支，而每个分支实际上又包含两份图7所示的电路。两个分支分别用以计算信号的实部部分及虚部部分。而在其它各方面，图7与图8则有相同的架构。运用于本发明中的复数型LMS算法的方程式表示如下。初始时，主抽头的C_kr(n)＝1，而其余抽头的C_kr(n)＝0；且所有的C_ki(n)＝0。(其中下标“r”表示实数部分，“i”表示虚数部分)

e_r(n)＝g_r(n)-y_r(n)

e_i(n)＝g_i(n)-y_i(n)

C_kr(n+1)＝C_kr(n)+μ[e_r(n)x_r(n-k)e_i(n)x_i(n-k)]

C_ki(n+1)＝C_ki(n)+μ[e_r(n)x_i(n-k)e_i(n)x_r(n-k)]

y_{r} = Σ_{k = 0}^{N - 1} C_{kr} (n - k) x_{r} (n - k) - Σ_{k = 0}^{N - 1} C_{ki} (n - k) x_{i} (n - k)

y_{i} = Σ_{k = 0}^{N - 1} C_{kr} (n - k) x_{i} (n - k) + Σ_{K = 0}^{N - 1} C_{ki} (n - k) x_{r} (n - k)

如上列方程式所示，共有四组乘法及累加运算以计算输出信号y(n)。因此图8中有二个分开的主要分支，每个主要分支有两个次级的分支，(故共有四个分支)，图8中的上方分支输出y_d，下方分支输出y_b及y_c，y_a及y_c的和即为上述公式中输出信号y(n)的实数部分y_r(n)。其中要注意的是y_c部分要加以变号，因两个正虚数的乘积会形成一个负的实数。另一方面，y_b及y_d的和即为上列公式中输出信号y(n)的虚数部分y_i(n)。图8表示了本发明中所用复数型LMS方程式的硬件架构实现方式。

图9所示为图8中运算方块801内部的细节。如图所示，方块801由4个乘法器721、4个加法器723、以及5个延迟单元725组成。运算方块801包含两个实数的FIR抽头及一个实数的系数更新装置。此实数系数更新电路执行两个二维向量间的内积运算。两个运算方块801组成一个复数的FIR抽头。由于其规律性、模块化、以及数据交换连接的局部性，此种硬件的分割方式在VLSI实现上有很高的效率。另外，如图8所示，需要两个额外的加法器将这四个部分结果求和，以形成滤波器的输出(包含实数部分以及虚数部分)，除此之外，另有串行至并行的转换装置将数据格式转换，以适于外部的复数数据运算。

使本发明得以运作的关键元件之一为乘法器721和加法器723。图10所示的为乘法器721及加法器723的实施例的方块图。如图所示，两个操作数被提供给乘法器721，其中“被乘数”以并行格式表示，而“乘数”以数字串行的格式表示。由于这个缘故，两个操作数间的乘法运算被分为数个部分乘法执行，直到以数字串行的数据完整地提供一整个乘数。在每个时钟脉冲周期内，一个输入的乘数位数(digit)和一个被乘数被相乘以算出一个部分乘积(partial product)。其中运算的细节视对乘数所做的算术上的重新编码而定。重编码方法中最常被使用的方法之一为Booth算法或改进的Booth算法。

图10所示的是，乘数与被乘数被输入一个部分乘积产生器1001。这个部分乘积产生器产生一个部分乘积，以作为一个并行/串行累加器1003的输入数据。此并行/串行累加器1003的输出则被输入一个进位存储加法器723。该进位存储加法器723所对应的也就是图7及图9中的进位存储加法器723。

部分积产生器1001的细节描述于图11中。如图所示，部分积产生器1001包含一个重编码器(recoder)1101及一个部分积选择器1103。重编码器1101使用一项重编码算法将乘数重新编码。此算法可以是Booth算法，或其他任一种乘数重编码算法。Booth算法在本技术领域中为习知并广为使用。在美国专利号5,574,672(Briggs)、4,817,092(Finegold)、及5,001,661(Corleto等人)等专利中有例子说明。

在实施例中，重编码器的输出是一个3位的信号，用以从预设的几种被乘数的倍数中选出适当的部分积。在此例中，一个16位的乘数被输入一个改进的Booth重编码器。此重编码器的输出字长为3位。(虽然在每个时钟脉冲周期内16位的乘数只有2位被处理)。此3位数据被部分积选择器1103所使用，以输出一个17位的部分积。此部分积再被送往累加器1003予以累加。(对一个16位乘数而言，有8个部分积需累加以得到一个乘积)。需注意的是，在此发明实施例中累加器1003只需要17位。在现有技术中，进行两个16位数字的乘法需要使用32位的加法器。

在每个乘法运算的次循环(sub-cycle)中，累加器1003输出两位给加法器723。此二位即为乘法结果中的2个末位位(LSBs)。每个次循环中所送出的2位构成乘法最后乘积的末16位。而前面的16位(MSBs)则在所有部分积都已被累加起来后才由累加器送出。这16个MSB及16个LSB则由一个由多路选择器构成的合并电路予以结合。

图12显示了并行/串行加法器的细节，累加器1003包含一个加法器1201、一个D寄存器1203、一个移位器1205、一个并行至串行的缓冲器1207、以及一个多路选择器1209。在运作上由部分积产生器1001所提供的部分积被送往加法器1201，加法器1201的另一个输入为D寄存器1203的输出。此加法器将二个输出相加并将结果输出到移位器1205及并行/串行缓冲器1207。移位器1205将加法器输出移位后再送往D寄存器1203。此移位器同时提供一个串行的输出给多路选择器1209。并行/串行缓冲器1207将输入的并行格式数据加以缓冲后提供一个串行输出给多路选择器1209。

图13所示为图10中进位存储加法器723的进一步细节。如图所示，加法器723由一个加法器和一个D寄存器组成。其中的累加器输入来自前一级的累加结果。例如在图7中，每个加法器723都有一个输入来自前一级累加(上一级的滤波器分支抽头或上一回的累加结果)。

图14为此发明中乘法器的整体架构，如图所示，一个被乘数Y及一个乘数X被输入此装置。被乘数Y的字长为W_Y位。乘数X的字长为W_X位。乘数X被输入重编码器，而后以字长W_X位输出。重编码后的乘数(W_X位)以及被乘数被输入部分积产生器以产生一个部分积{pp}。此部分积被送往加法器1，移位器及D寄存器用来将部分积移位，以使加法器1的输出成为加法器1输入的后W_Y+1+1-m位。在数个时钟脉冲周期后，最后乘积的一半已经由移位器被送往多路选择器。此即乘积的后半部各位。至于前半部各位则由加法器1经由并行至串行转换器在几个时钟脉冲周期后送往多路选择器。多路选择器结合前半部各位及后半部各位以形成字长W_X+W_Y的乘积。

此乘积被送到进位存储加法器(add2)以与来自前一级的累加器输入z相加。最后的累加总和再以串行至并行转换器转换成并行的数据型态输出。

以上所图示及说明的为此发明的一项较佳实施例。根据此发明涵盖的范围及精神，此发明还可以做多种的变化。

Claims

1.一种最小均方适应性滤波器方法，对输入的数字信号x(n)进行数字滤波运算，以产生滤波器输出信号y(n)，其至少包括：

(a)将输入的数字信号给一H-阶(N-tap)有限脉冲响应(FIR)滤波器；

(b)决定该有限脉冲响应(FIR)滤波器中各个抽头(tap)的与时间指标相关的滤波器系数，其中包括下列步骤：

(1)将输入数字信号给予时间延迟；

(2)将时间延迟后的输入数字信号乘上一剩余的误差，以取得该与时间指标相关的滤波器的系数乘积；且

(3)将该与时间指标相关的滤波器系数乘积和一经时间延迟后的与时间指标相关的滤波器系数乘积；

且其中的剩余的误差是比较有限脉冲响应(FIR)滤波器的输出信号与所期望的响应信号后得到；

(c)将输入给该有限脉冲响应(FIR)滤波器中各个抽头(tap)的数字信号和相对应的与时间指标相关的滤波器系数相乘，以取得输出乘积；且

(d)将每个输出乘积给予时间延迟，将经时间延迟后的输出乘积加总起来，以获得该有限脉冲响应(FIR)滤波器的输出信号；

其中上述步骤(a)～(d)是依据以下方式进行滤波运算：

y (n) = Σ_{k = 0}^{N - 1} C_{k} (n - k) x (n - k)

e(n)＝g(n)-y(n)

C_k(n+1)＝C_k(n)+μe(n)x(n-k)

k＝0，1，…，N-1其中C_k(n)为时间n时的第k项滤波器系数；g(n)为所期望的响应信号；e(n)为剩余的误差；μ为更新系数所用的步阶尺寸；N为滤波器的阶数。

2.如权利要求1所述的滤波器方法，其中该输入信号x(n)、输出信号y(n)、系数C_k(n)、期望响应信号g(n)，及剩余误差e(n)，皆为复数时，其中的步骤(a)～(d)是根据以下的方式进行滤波运算：

e_r(n)＝g_r(n)-y_r(n)

e_i(n)＝g_i(n)-y_i(n)

C_kr(n+1)＝C_kr(n)+μ[e_r(n)x_r(n-k)e_i(n)x_i(n-k)]

C_ki(n+1)＝C_ki(n)+μ[e_r(n)x_i(n-k)e_i(n)x_r(n-k)]

y_{r} = Σ_{k = 0}^{N - 1} C_{kr} (n - k) x_{r} (n - k) - Σ_{k = 0}^{N - 1} C_{ki} (n - k) x_{i} (n - k)

y_{i} = Σ_{k = 0}^{N - 1} C_{kr} (n - k) x_{i} (n - k) - Σ_{k = 0}^{N - 1} C_{ki} (n - k) x_{r} (n - k)

其中X_r为输入信号的实部；X_i为输入信号的虚部；y_r为输出信号的实部；y_i为输出信号的虚部；C_kr(n)为时间n时的第k项滤波器系数的实部；C_k(n)为时间n时的第k项滤波器系数的虚部；g_r(n)为所期望的响应信号的实部；g_i(n)为所期望的响应信号的虚部；e_r(n)为剩余的误差的实部；e_i(n)为剩余的误差的虚部；μ为更新系数所用的步阶尺寸；N为滤波器的阶数。

3.一种最小均方适应滤波器，此滤波器至少包括：

多个第一乘法器，各个第一乘法器包括一第一输入、第二输入及一输出，各个第一乘法器的第一输入接收一输入信号；

多个第一加法器，各个第一加法器包括一第一输入、第二输入及一输出，各个第一加法器与各个第一乘法器相对应，各个第一加法器的第一输入与相对应的第一乘法器的输出耦接；

多个第一延迟元件，各个第一延迟元件包括一输入及一输出，各个第一延迟元件的输入与一第一加法器的输出耦接，且各个第一延迟元件的输出与不同的第一加法器的输入耦接；

一抽头延迟线，其具有一输入与多个抽头延迟输出，该输入接收该输入信号；

多个第二乘法器，各个第二乘法器包括一第一输入、第二输入及一输出，各个第二乘法器的第一输入与一抽头延迟输出耦接，且各个第二乘法器的第二输入接收一剩余误差信号；

多个第二加法器，各个第二加法器包括一第一输入、第二输入及一输出，各个第二加法器与各个第二乘法器相对应，各个第二加法器的第一输入与相对应的第二乘法器的输出耦接；以及

多个第二延迟元件，各个第二延迟元件包括一输入及一输出，各个第二延迟元件的输入耦接一第二加法器的输出，且各个第二延迟元件的输出与相同的第二加法器的输入及一第一加法器的第二输入耦接。

4.如权利要求3所述的滤波器，其中的第一及第二乘法器是并行-串行乘加器，将第一输入与第二输入相乘以合成一乘积，再将此乘积与一累加器输入相加。

5.如权利要求4所述的滤波器，其中的并行-串行乘加器至少包括：

一重编码器，用以接受该第二输入并输出一个经过重新编码的有序序列；

一部分积产生器，根据该第一输入及各个重编码的有序序列，以产生多个部分积；

一加法器，用来将多个部分积相加以合成前述的乘积；以及

一数字串行加法器，该数字串行加法器至少包括，一进位储存加法器，用来接受该乘积及前述的累加器的输入，以产生一输出，此输出为该乘积及该累加器的输入之和。

6.如权利要求5所述的滤波器，其中的并行-串行乘加器，包含与该数字串行加法器相串连的一移位器和一D寄存器，用以将前述的部分积相加。

7.如权利要求6所述的滤波器，其中的该数字串行加法器在部分积正在被加总当中，就将部分积的中间和的较低位以数字串行的格式输出。

8.如权利要求7所述的滤波器，还包含一多工器，用以结合前述的数字串行加法器在所有部分积被加总之后，所产生的和的较高位及较低位。

9.如权利要求5所述的滤波器，还包含一第一并行至串行的转换器，用以将前述的累加器的输入转换为数字串行的格式，并将该累加器的输入以数字串行的格式传送至前述的数字串行加法器。

10.如权利要求9所述的滤波器，还包含一第一串行至并行的转换器，以将该输出转换至并行格式。

11.如权利要求5所述的滤波器，其中的该数字串行加法器在部分积正在被加总当中，就将部分积的中间和的较低位以数字串行的格式输出。

12.如权利要求11所述的滤波器，还包含一多工器，用以结合前述的数字串行加法器在所有部分积被加总之后，所产生的和的较高位及较低位。

13.如权利要求5所述的滤波器，还包括一第二串行至并行转换器，其包括一串行输入及一并行输出，该串行输入与一第一加法器的输出耦接。

14.如权利要求13所述的滤波器，包括一误差计算装置，此误差计算装置包括一第一输入、第二输入及一输出，该第一输入与该第二串行至并行转换器耦接，该第二输入与一期望信号耦接。

15.如权利要求14所述的滤波器，包括一第二并行至串行转换器，其包括一并行输入及一串行输出，该并行输入与该误差计算装置的输出耦接，该串行输出连接至该第二乘法器的第二输入，以提供该剩余误差信号。