CN105306395B - 一种并行qrd-lsl均衡器的实现方法 - Google Patents
一种并行qrd-lsl均衡器的实现方法 Download PDFInfo
- Publication number
- CN105306395B CN105306395B CN201510675708.1A CN201510675708A CN105306395B CN 105306395 B CN105306395 B CN 105306395B CN 201510675708 A CN201510675708 A CN 201510675708A CN 105306395 B CN105306395 B CN 105306395B
- Authority
- CN
- China
- Prior art keywords
- processor
- initial value
- parallel
- equation
- qrd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种并行QRD‑LSL均衡器的实现方法,包括如下步骤:步骤一,将输入数据流分成n组,前n‑1组以0为起始值;步骤二,分配n‑1个处理器进行运算,计算其中的部分解;步骤三,分配n‑2个处理器计算并更新初始值,依照目标方程的运算类型,确定初始值同部分值合并方式;步骤四,各处理器在步骤三基础上根据递归方程计算预测值,并进行合并,通过本发明可以得到递归方程中的每一位数,供后续方程直接读取,大幅度提升系统吞吐率,本发明通过利用算法强度缩减变换减小乘法和加法器的数目,实现芯片面积增加小于线性增加幅度的目的。
Description
技术领域
本发明涉及一种物理层自适应均衡器的并行实现方法,特别是涉及一种并行QRD-LSL均衡器的实现方法。
背景技术
QRD-LSL(基于QR分解的最小二乘格型自适应滤波器)的实现依赖QR分解中酉旋转产生一个后阵列以消除前阵列的某一项,具有良好的数字特性,对输入数据相关矩阵特征值的变化不敏感,具有良好的收敛特性,预测过程模块化和采用格型架构,具有良好的计算效率。QRD-LSL属于格型架构,因此它所包含阶数的增加或者减少都不会影响其他各阶的加权系数。QRD-LSL可以通过残差的均方值的大小来确定所需要的阶数,这样可以使得后续阶次电路停止工作,降低功耗。然而,传统自适应算法实现的横向自适应均衡器的各阶参数会随着阶数的变化而全局更新,这种情况会影响导致增加延时和降低收敛速度。
并行QRD-LSL架构是pipline架构的几何重复,级与级之间相互关联,阶与阶之间相互独立。并行架构保持了QRD-LSL架构的属性的同时大幅度提高了均衡器的吞吐率,降低了功耗。然而,得到这些红利的代价是增加芯片的面积,这是所有并行算法无法避免的,只有通过算法强度缩减变换的办法来改进。。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种并行QRD-LSL均衡器的实现方法,其通过利用算法强度缩减变换减小乘法和加法器的数目,实现芯片面积增加小于线性增加幅度的目的。
为达上述及其它目的,本发明提出一种并行QRD-LSL均衡器的实现方法,包括如下步骤:
步骤一,将输入数据流分成n组,前n-1组以0为起始值;
步骤二,分配n-1个处理器进行运算,计算其中的部分解;
步骤三,分配n-2个处理器计算并更新初始值,依照目标方程的运算类型,确定初始值同部分值合并方式;
步骤四,各处理器在步骤三基础上根据递归方程计算预测值,并进行合并。
进一步地,该方法用于对具有较强依赖关系的递归方程进行并行化处理。
进一步地,在步骤一中,将输入数据流以分成5组为例,前4组以0为起始值。
进一步地,将输入数据流N分成5组,每N/5位数据为一组,Bm-1(1)~Bm-1(N/5)为第一组,Bm-1(N/5+1)~Bm-1(2N/5)为第二组,Bm-1(2N/5+1)~Bm-1(3N/5)为第三组,Bm-1(3N/5+1)~Bm-1(4N/5)为第四组,Bm-1(4N/5+1)~Bm-1(N)为第五组。
进一步地,在步骤二中,分配4个处理器进行运算。
进一步地,步骤二中,在步骤一的分组和初值设定基础上,第一处理器根据递归方程计算部分解从Bm-1(1)到Bm-1(N/5-1),第二处理器根据递归方程计算部分解从Bm-1(N/5+1)到Bm-1(2N/5-1),第三处理器根据递归方程计算部分解从Bm-1(2N/5+1)到Bm-1(3N/5-1),第四处理器CPU D根据递归方程计算部分解从Bm-1(3N/5+1)到Bm-1(4N/5-1)。
进一步地,于步骤三中,步骤二的第一处理器计算的结果作为步骤三的第二处理器的初值,步骤二的第二处理器计算的结果作为步骤三的第三处理器的初值,步骤二的第三处理器计算的结果作为步骤三的第四处理器的初值,利用三个处理器对节点进行计算。
进一步地,于步骤四中,在步骤二和步骤三的初值基础上,第一处理器根据该递归方程计算部分解得到新的预测值Bm-1(N/5+1)到Bm-1(2N/5),第二处理器根据递归方程计算部分解得到新的预测值Bm-1(2N/5+1)到Bm-1(3N/5),第三处理器递归方程计算部分解得到新的预测值Bm-1(3N/5+1)到Bm-1(4N/5),第四处理器根据递归方程计算部分解得到新的Bm-1(4N/5+1)到Bm-1(N)。
进一步地,各处理器并行处理。
进一步地,实现过程中,该方法利用算法强度缩减变换减小乘法和加法器的数目
与现有技术相比,本发明一种并行QRD-LSL均衡器的实现方法实现了对具有较强依赖关系的递归方程并行化处理方法,可以得到每一个数据的计算结果,供其他方程直接读取,大幅度提升系统吞吐率,进一步降低了系统的功耗,并通过利用算法强度缩减变换减小乘法和加法器的数目,实现芯片面积增加小于线性增加幅度的目的,
附图说明
图1为本发明一种并行QRD-LSL均衡器的实现方法的步骤流程图;
图2为本发明具体实施例中递归方程Bm-1(n-1)并行处理数据的分配示意图;
图3为本发明具体实施例中Bm-1(n-1)的并行处理初始化设置示意图;
图4为若干递归方程的具体实现架构示意图;
图5为算法强度缩减对图4中的蝶形单元的处理结果;
图6为本发明之并行架构和串行架构在计算时间上的对比图;
图7为本发明之并行架构收敛效果图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
本发明利用PC四核处理器对并行QRD-LSL算法进行验证。验证过程中需要解决具有前向依赖关系方程的并行化处理,本发明以QRD-LSL算法前向预测阵列实值量为例说明:
式1
图1为本发明一种并行QRD-LSL均衡器的实现方法的步骤流程图。如图1所示,本发明一种并行QRD-LSL均衡器的实现方法,包括如下步骤:
步骤101,数据分组,将输入数据流分成5组,每N/5位数据为一组,前4组均以0为起始值,计算结果是相互独立的每一组部分和。
图2为本发明具体实施例中递归方程Bm-1(n-1)并行处理数据的分配示意图。图2是以第一阶前向线性预测实值量Bm-1(n-1)为例说明,由于阶与阶之间相互独立,可以类比为并行研究中的任意阶。N是输入数据流位数。Bm-1(-1)和Bm-1(0)是起始值,初始化为-1和0。
步骤102,分配四个处理器进行运算,计算部分解。在步骤101的分组和初值设定基础上,第一处理器CPU A按式1计算部分解得到新的Bm-1(1)到Bm-1(N/5-1),第二处理器CPUB按式1计算部分解得到新的Bm-1(N/5+1)到Bm-1(2N/5-1),第三处理器CPU C按式1计算部分解得到新的Bm-1(2N/5+1)到Bm-1(3N/5-1),第四处理器CPU D按式1计算部分解得到新的Bm-1(3N/5+1)到Bm-1(4N/5-1)。其部分代码示意为:
步骤103,更新初始值,依照目标方程的运算类型,确定初始值同部分值合并方式,例如本具体实例中需要将初始值同部分值相加。第一处理器CPU A的初始值按步骤102的结果进行更新,而步骤102计算的结果作为其他部分计算的初始值,即步骤102中第一处理器CPU A计算的结果作为步骤103的第一处理器CPU A的初值,步骤102第一和二处理器CPU B计算的结果作为步骤103的第二处理器CPU B的初值,步骤102第一、二和三处理器CPU C计算的结果作为步骤103的第三处理器CPU C的初值,利用三个处理器对节点进行计算。
因为Bm-1(N/5)的值已经计算得到,所以
Bm-1(2N/5)=Bm-1(N/5)+I.CPU B
I.CPU B为步骤102中第二处理器CPU B的计算结果.
依次类推可以得到步骤103的实现过程。即利用第一、第二、第三处理器CPUA~C按后面的式2~4分别计算Bm-1(2N/5)、Bm-1(3N/5)、Bm-1(4N/5)。其部分代码示意为:
在计算过程中会因为不同CPU对内存同一位置数据多次读取,在进行内存分享过程中消耗了大量的运算时间。
步骤104,计算预测值,由于步骤103已经将部分解的初始值求出,所以,只需要计算剩余数据即可,最后计算Bm-1(4N/5+1)到Bm-1(N)的值。即在步骤二和步骤三的初值基础上,第一处理器CPU A按式1计算部分解得到新的预测值Bm-1(N/5+1)到Bm-1(2N/5),第二处理器CPU B按式1计算部分解得到新的预测值Bm-1(2N/5+1)到Bm-1(3N/5),第三处理器CPU C按式1计算部分解得到新的预测值Bm-1(3N/5+1)到Bm-1(4N/5),第四处理器CPU D按式1计算部分解得到新的Bm-1(4N/5+1)到Bm-1(N)。其部分代码示意为:
上述过程就是分离递归算法中数据前向依赖关系的方法原理,具体应用如下所示。方程Bm-1(n-1)的并行化处理过程和初始值分布如图3所示
由于此实现过程已经在步骤101-步骤104中给出,在此仅仅给出具体方程表示。在步骤中只计算前四路数据,避免重复计算,第五路数据会在最后计算。
步骤102中:
CPU Afrom A to B
CPU Bfrom C to E
CPU Cfrom F to H
CPU Dfrom I to K
步骤103:
CPU A
式2
CPU B
式3
CPU C
式4
步骤102中参数λ取1,在计算过程不需要考虑其累加过程。全过程保守估计约为pipline运行时间的3/5。若对102过程依照pipline架构计算,省去了内存共享的过程,计算时间会更短。随着输入数据N的增加,并行架构的运行时间上的优势会更加明显。
步骤103
CPU A
CPU B
CPU C
CPU Dfrom L to N
按照以上对具有较强依赖关系的递归方程并行化处理方法,可以类比到QRD-LSL其他的方程,在这里不依次叙述。
本发明之并行QRD-LSL均衡器的实现方法主要用于对具有较强依赖关系的递归方程进行并行化处理。例如下列前向预测阵列:
图4为若干递归方程的具体实现架构示意图。图4所示具体实现架构由4(M+1)个类似结构误差计算子单元和2(M+1)合成器组成,每一行分M+1个误差计算子单元,每一列含4个误差计算子单元,列与列间由2个合成器联系。预测误差εf,m-1(l)分两路分别送至乘法器Mm1和Mm2,分别与第一预测系数cb,m-1(l-1)和第二预测系数相乘,乘法器Mm1和Mm2的输出分别送至加法器Sm1和Sm2之一端,预测误差分两路分别送至乘法器Mm3和Mm4,分别与第三预测系数sb,m-1(l-1)和第一预测系数cb,m-1(l-1)相乘,乘法器Mm3和Mm4的输出分别送至加法器Sm1和Sm2之另一端,加法器Sm1和Sm2的输出则分别送至合成器Merge m和Merge m*与每一列的另三个误差计算子单元的加法器输出进行合成,合成的结果分别作为下一列的预测误差输入进行下一轮计算。
图5为算法强度缩减对图4中的蝶形单元的处理结果,从图4中可以看出,门级利用率明显增加。乘法器的数目由2m降低至3m/2,加法器的数目由2(m-1)降低至3(m/2-1)。其中m是阶数。
图6为本发明之并行架构和串行架构在计算时间上的对比图。从上图中可以看出,并行架构实现的时间明显比串行架构实现的时间短,这种优势会随着输入信号的增加而越来越明显。
图7为本发明之并行架构收敛效果图。从上图可以看出,并行架构在大约20此迭代就可以收敛,同串行架构的收敛速度保持一致,但是,并行架构运算量却是串行架构的四倍(四路并行,n路并行意味着有n倍的运算量)。
在功耗的节省方面:
并行处理的电容增加四倍。为了保持同样的采样速率,并行电路的时钟周期为
Tclk=4Tsample,
因此,对电容充电时间增加了四倍,工作频率降低四倍。意味着硬件速度的要求放宽了四倍,电源电压降低,延时加倍。假设电源电压降低为
βV0(0<β<1)。
并行处理的传播延时表示为
上式中,Req是晶体管导通电阻,C是电容,IDSAT是饱和电流,k是忽略沟道调制系数的工艺跨导参数,Vt是阈值电压。当电源电压时,延时将与电源电压无关。方程可以近似表示为
其中,Vt是器件的阈值电压,V0是电源电压。系数β可以联立流水线传播延时计算得到
4(βV0-Vt)2=β(V0-Vt)2,
所以,四路并行系统的功耗表示为
其中,Psequence是原始系统的系统功耗。所以,并行处理的功耗降低了β2倍。针对并行架构供应电压在2.5V,阈值电压Vt=0.4V时,功耗可以降低40%。
综上所述,本发明一种并行QRD-LSL均衡器的实现方法实现了对具有较强依赖关系的递归方程并行化处理方法,大幅度提升系统吞吐率,以及进一步降低功耗,并通过利用算法强度缩减变换减小乘法和加法器的数目,实现芯片面积增加小于线性增加幅度的目的。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (3)
1.一种并行QRD-LSL均衡器的实现方法,包括如下步骤:
步骤一,将输入数据流N分成5组,前4组以0为起始值,N为输入数据流位数;
步骤二,分配4个处理器进行运算,计算其中的部分解,在步骤一的分组和初值设定基础上,第一处理器根据递归方程计算部分解从Bm-1(1)到Bm-1(N/5-1),第二处理器根据递归方程计算部分解从Bm-1(N/5+1)到Bm-1(2N/5-1),第三处理器根据递归方程计算部分解从Bm-1(2N/5+1)到Bm-1(3N/5-1),第四处理器根据递归方程计算部分解从Bm-1(3N/5+1)到Bm-1(4N/5-1),其中,B为递归方程;
步骤三,分配3个处理器计算并更新初始值,依照目标方程的运算类型,确定初始值同部分值合并方式,将步骤二的第一处理器计算的结果作为步骤三的第一处理器的初值,步骤二的第一和第二处理器计算的结果作为步骤三的第二处理器的初值,步骤二的第一、二和三处理器计算的结果作为步骤三的第三处理器的初值;
步骤四,各处理器在步骤三基础上根据递归方程计算预测值,并进行合并,在步骤二和步骤三的初值基础上,第一处理器根据该递归方程计算部分解得到新的预测值Bm-1(N/5+1)到Bm-1(2N/5),第二处理器根据递归方程计算部分解得到新的预测值Bm-1(2N/5+1)到Bm-1(3N/5),第三处理器递归方程计算部分解得到新的预测值Bm-1(3N/5+1)到Bm-1(4N/5),第四处理器根据递归方程计算部分解得到新的Bm-1(4N/5+1)到Bm-1(N)。
2.如权利要求1所述的一种并行QRD-LSL均衡器的实现方法,其特征在于:各处理器并行处理。
3.如权利要求1所述的一种并行QRD-LSL均衡器的实现方法,其特征在于:实现过程中,该方法利用算法强度缩减变换减小乘法和加法器的数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510675708.1A CN105306395B (zh) | 2015-10-16 | 2015-10-16 | 一种并行qrd-lsl均衡器的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510675708.1A CN105306395B (zh) | 2015-10-16 | 2015-10-16 | 一种并行qrd-lsl均衡器的实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105306395A CN105306395A (zh) | 2016-02-03 |
CN105306395B true CN105306395B (zh) | 2019-01-18 |
Family
ID=55203158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510675708.1A Active CN105306395B (zh) | 2015-10-16 | 2015-10-16 | 一种并行qrd-lsl均衡器的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105306395B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1142302A (zh) * | 1994-12-30 | 1997-02-05 | 马特端通讯法国公司 | 一种用子带滤波的声音回声消除器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8837715B2 (en) * | 2011-02-17 | 2014-09-16 | Gradiant, Centro Tecnolóxico de Telecomunicacións de Galica | Method and apparatus for secure iterative processing and adaptive filtering |
-
2015
- 2015-10-16 CN CN201510675708.1A patent/CN105306395B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1142302A (zh) * | 1994-12-30 | 1997-02-05 | 马特端通讯法国公司 | 一种用子带滤波的声音回声消除器 |
Non-Patent Citations (1)
Title |
---|
A Modified QRD for Smoothing and a QRD-LSL Smoothing Algorithm;Jenq-Tay Yuan;《IEEE TRANSACTIONS ON SIGNAL PROCESSING》;19990531;第47卷(第5期);第1414-1420页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105306395A (zh) | 2016-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3607504B1 (en) | Neuron smearing for accelerated deep learning | |
Nguyen et al. | Layer-specific optimization for mixed data flow with mixed precision in FPGA design for CNN-based object detectors | |
CN113792847A (zh) | 加速的深度学习的设备、方法和系统 | |
WO2020044208A1 (en) | Isa enhancements for accelerated deep learning | |
CN111133456B (zh) | 在集成电路中实现神经网络的系统和方法 | |
Nakahara et al. | A memory-based realization of a binarized deep convolutional neural network | |
Wang et al. | WinoNN: Optimizing FPGA-based convolutional neural network accelerators using sparse Winograd algorithm | |
Kyriakos et al. | High performance accelerator for cnn applications | |
Muñoz et al. | Comparison between two FPGA implementations of the particle swarm optimization algorithm for high-performance embedded applications | |
Li et al. | Low cost LSTM implementation based on stochastic computing for channel state information prediction | |
Wang et al. | FPAP: A folded architecture for energy-quality scalable convolutional neural networks | |
CN107851026A (zh) | 电力高效获取适应 | |
CN105306395B (zh) | 一种并行qrd-lsl均衡器的实现方法 | |
Elkurdi et al. | FPGA architecture and implementation of sparse matrix–vector multiplication for the finite element method | |
Chen et al. | Exploiting on-chip heterogeneity of versal architecture for gnn inference acceleration | |
US20220121915A1 (en) | Configurable bnn asic using a network of programmable threshold logic standard cells | |
Ponraj et al. | High-performance multiply-accumulate unit by integrating binary carry select adder and counter-based modular Wallace tree multiplier for embedding system | |
Huang et al. | A low-bit quantized and hls-based neural network fpga accelerator for object detection | |
Shin et al. | Low complexity gradient computation techniques to accelerate deep neural network training | |
Reddy et al. | 16-Bit GDI multiplier design for low power applications | |
Pułka et al. | Considerations on incremental approach to hardware implementation of Smith-Waterman algorithm | |
Wazurkar et al. | Globally asynchronous locally synchronous (GALS) pipelined signed multiplier | |
Que | Reconfigurable acceleration of recurrent neural networks | |
Savich et al. | A low-power scalable stream compute accelerator for general matrix multiply (GEMM) | |
Huang et al. | An Efficient Hardware Architecture for DNN Training by Exploiting Triple Sparsity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |