CN103226648B

CN103226648B - 基于gpu架构的分段归一化最小均方误差杂波对消方法

Info

Publication number: CN103226648B
Application number: CN201310090569.7A
Authority: CN
Inventors: 王俊; 武勇; 汤涛; 夏斌
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2013-03-20
Filing date: 2013-03-20
Publication date: 2016-01-20
Anticipated expiration: 2033-03-20
Also published as: CN103226648A

Abstract

本发明公开了一种基于GPU架构的分段归一化最小均方误差杂波对消方法，主要解决传统基于CPU架构的自适应杂波对消处理难于实现并行和实时处理的问题。其实现步骤为：在CPU主机端对杂波对消的参数进行初始化，将杂波对消的数据分成两段，分别传输至不同的图形处理器GPU显存中；两块GPU对归一化最小均方误差NLMS杂波对消处理涉及到的所有运算进行并行加速，分别得到各自进行杂波对消后的数据；并把两段杂波对消后的数据传输至内存中，CPU将两段对消后的数据拼接成一段完整的数据继续后续的处理。本发明具有硬件平台搭建简单、稳定性好、运算速度快、精度高、数据扩展性强、易于开发的优点，可用于实际工程中杂波对消实时处理。

Description

基于GPU架构的分段归一化最小均方误差杂波对消方法

本发明属于雷达技术领域，主要涉及杂波对消的实现方法，具体来说就是一种基于GPU架构的分段归一化最小均方误差杂波对消方法，可在数学仿真软件MATLAB和微软提供的软件集成开发平台Visualstudio上，快速进行杂波对消。

技术背景

杂波对消广泛应用于各种信号处理系统中，特别是外辐射雷达信号处理系统。杂波抑制一般位于信号处理的前端，是整个信号处理中最重要的模块，杂波抑制的好坏直接影响着后续信号处理的性能高低。杂波对消处理的主要是强直达波、多径杂波干扰的问题，通过主、辅两个通道的信号相关来对消主通道中掺杂的杂波，理想的情况下，主通道中的杂波可以被完全抑制掉。

杂波对消主要有最小均方误差LMS、直接矩阵求逆SMI和递归最小二乘RLS三种方法。归一化最小均方误差NLMS属于最小均方误差LMS的升级方法，结构简单，运算量小，但难于进行实时对消处理，如何提高NLMS的处理速度是实现实时对消处理的一个关键问题。现有技术中，NLMS杂波对消是基于CPU架构实现的，杂波对消速度受到了硬件的限制，不能满足各种信号处理系统的需求。

发明内容

本发明的目的在于针对上述基于CPU架构的NLMS杂波对消的不足，提出一种基于GPU架构的分段归一化最小均方误差杂波对消方法，在不损失处理精度的情况下，实现杂波对消的实时处理，满足各种实时信号处理系统的需求。

本发明的技术思路是：把杂波对消分两段分别进行，利用图形处理器GPU强大的数据并行能力，对杂波对消中涉及到的矩阵运算进行并行加速，实现杂波对消的实时处理。

为实现上述目的，本发明方法包括如下步骤：

(1)在CPU主机端对归一化最小均方误差NLMS滤波器的参数进行初始化：

(1a)将雷达目标信号、杂波信号和噪声信号作为归一化最小均方误差NLMS滤波器主通道的接收信号sig；将杂波信号和噪声信号作为归一化最小均方误差NLMS滤波器辅助通道的接收信号ref，这两种信号sig、ref的数据长度S根据接收信号的采样率设定，并根据杂波强度设定杂波对消阶数值C；

(1b)把归一化最小均方误差NLMS滤波器主通道信号sig分为两段,记为sig1、sig2，把辅助通道信号ref分为两段，记为ref1、ref2；sig1、sig2、ref1、ref2数据长度均为S1，sig1和sig2及ref1和ref2重叠的数据长度均为L；

(1c)在CPU主机端分配杂波对消所需的内存、显存资源；

(1d)设归一化最小均方误差NLMS杂波对消分段后，杂波对消权向量w1_C×1、w2_C×1的初始值均为[00...00]_C×1；

(1e)设杂波对消初始时刻迭代初值l₁、l₂均为0；

(1f)设归一化最小均方误差NLMS杂波对消分两段后，误差信号初始值分别为：e1＝sig1、e2＝sig2；

(1g)在CPU主机端，把主通道信号sig、辅助通道信号ref的数据加载到CPU内存中；

(2)在CPU主机端上创建两个杂波对消的工作线程；

(3)选择两块能支持计算统一设备架构CUDA的图形处理器GPU，并将两块图形处理器GPU与两个工作线程进行连接；

(4)分别确定调用一次图形处理器GPU内核函数所能计算出的数据点数M，调用GPU内核函数的次数N及分段后的数据长度S1；

(5)每个CPU工作线程在图形处理器GPU设备端加载各自分段后的主通道、辅助通道信号数据，分别存入sig1、ref1、sig2、ref2中，即：

sig1＝sig[12...S1-1S1]_S1×1，

ref1＝ref[12...S1-1S1]_S1×1，

sig2＝sig[S1-L+1S1-L+2...S-1S]_S1×1，

ref2＝ref[S1-L+1S1-L+2...S-1S]_S1×1；

(6)在两块图形处理器GPU设备端上，分别调用内核函数进行归一化最小均方误差NLMS杂波对消处理：

(6a)设两个内核函数的线程格grid均为(1,1)，线程块block均为(C,1)，其中，其中(1,1)表示内核函数由一个线程块block组成，(C,1)表示线程块block由C个图形处理器GPU线程组成；

(6b)在两块图形处理器GPU设备端上，分别设置各自迭代初值为：k₁＝0、k₂＝0；

(6c)在第一块图形处理器GPU设备端上，获取k₁+l₁×M时刻的主通道信号和辅助通道参考信号

(6d)在第二块图形处理器GPU设备端上，获取k₂+l₂×M时刻的主通道信号和辅助通道参考信号

(6e)在两块图形处理器GPU设备端上，利用k₁+l₁×M时刻和k₂+l₂×M时刻的主通道信号和辅助通道参考信号分别计算这两个时刻的误差信号

(6f)在两块图形处理器GPU设备端上，利用k₁+l₁×M时刻和k₂+l₂×M时刻的辅助通道参考信号分别计算步长因子μ1、μ2；

(6g)在两块图形处理器GPU设备端上，利用k₁+l₁×M时刻和k₂+l₂×M时刻的误差信号和步长因子μ1、μ2，分别更新杂波对消权向量w1_C×1、w2_C×1；

(6h)在两块图形处理器GPU设备端上，分别更新各自的迭代值：k₁＝k₁+1，k₂＝k₂+1；

(7)重复迭代步骤(6c)～步骤(6h)共M次，在两块GPU设备端上，分别得到M点杂波对消后的误差信号数据，并存入e1、e2中的对应位置；

(8)在CPU主机端两个工作线程中分别更新各自的迭代值：l₁＝l₁+1、l₂＝l₂+1；

(9)重复迭代步骤(6)～步骤(8)共N次，在每个GPU设备端上，得到进行杂波对消后的误差信号e1、e2；

(10)将e1、e2的数据传输至CPU主机端内存中；

(11)设置CPU与GPU同步，等待两块GPU显存中的数据全部传输完成后，在CPU主机端上，将误差信号e1、e2拼接成长度为S的误差信号e并保存，保存后释放进行杂波对消所分配的内存、显存资源。

本发明与现有技术相比具有以下优点：

1)本发明将杂波对消分成两段同时进行，与不分段相比，提高了杂波对消的处理效率；

2)本发明将归一化最小均方误差杂波对消涉及到的所有运算，调度到两块图形处理器GPU上并行处理，实现了杂波对消的实时处理；

3)本发明由于采用了基于浮点运算能力大的GPU架构系统，与CPU相比，数据扩展性强；

4)本发明中的硬件平台易于搭建，与专业的信号处理板相比，降低了开发费用，缩短了开发周期。

附图说明

图1是本发明应用的自适应滤波器原理图；

图2是本发明的流程图；

图3是在对消阶数为128时，用本发明与CPU对仿真数据处理的时间对比图；

图4是本发明采用单精度浮点型对仿真数据处理与CPU处理的结果对比图；

图5是本发明采用双精度浮点型对仿真数据处理与CPU处理的结果对比图；

具体实施方式

参照图1，本发明应用的自适应滤波器是基于双通道实现的，其中一个通道为主通道，接收的信号包括目标信号、直达波信号、多径杂波信号和噪声信号，另一个为辅助通道，接收的信号包括直达波信号和噪声信号。主通道和辅助通道中的杂波信号必须相关才可以进行杂波对消，在对消时，用主通道的信号减去不同延时参考信号的加权和，就可以把主通道中的杂波干扰滤除掉，得到相对纯净的目标信号。

参照图2，本发明是基于GPU架构的分段归一化最小均方误差杂波对消方法，其实现步骤如下：

步骤1：在CPU主机端对归一化最小均方误差NLMS滤波器的参数进行初始化。

(1b)把归一化最小均方误差NLMS滤波器主通道信号sig分为两段,记为sig1、sig2，把辅助通道信号ref分为两段，记为ref1、ref2；该sig1、sig2、ref1、ref2数据长度均为S1，其中，S/2＜S1＜S，sig1与sig2及ref1与ref2重叠的数据长度均为L；

(1c)在CPU主机端调用WindowsAPI中的malloc()函数和计算统一设备架构CUDA中的cudaMalloc()函数，分配杂波对消所需的内存、显存资源；

(1e)设杂波对消初始时刻迭代初值l₁、l₂均为0；

(1g)在CPU主机端，把主通道信号sig、辅助通道信号ref的数据加载到CPU内存中。

步骤2：在CPU主机端上调用Windows应用编程接口API中的CreateThread()函数创建两个杂波对消的工作线程，这两个CPU工作线程在各自的数据集上并发执行，提高归一化最小均方误差NLMS杂波对消的处理速度。

步骤3：选择两块能支持计算统一设备架构CUDA的图形处理器GPU，两个CPU工作线程分别调用计算统一设备架构CUDA中的cudaSetDevice()函数将两块图形处理器GPU与两个工作线程进行连接，此后每个CPU工作线程就可以对各自的GPU进行调度。

步骤4：确定GPU杂波对消内核函数的工作参数。

(4a)根据关系式M＝m×C+1，m＝0,1,...,8，C表示杂波对消阶数的值，选择m确定调用一次GPU杂波对消内核函数所能计算出的数据点数M；

(4b)根据关系式M×N+C-1＝S1和S/2＜S1＜S，N＝1,2,...,S1-C+1，N表示调用GPU杂波对消内核函数的次数，选择一个N值，计算出分段后的数据长度S1。

步骤5：每个CPU工作线程在GPU设备端调用计算统一设备架构CUDA中的同步拷贝函数cudaMemcpy()，加载各自分段后的主通道、辅助通道信号数据，分别存入主通道的第一段信号sig1、辅助通道的第一段信号ref1、主通道的第二段信号sig2、辅助通道的第二段信号ref2中，即：

sig1＝sig[12...S1-1S1]_S1×1，

ref1＝ref[12...S1-1S1]_S1×1，

sig2＝sig[S1-L+1S1-L+2...S-1S]_S1×1，

ref2＝ref[S1-L+1S1-L+2...S-1S]_S1×1

步骤6：在两块图形处理器GPU设备端上，分别调用内核函数进行归一化最小均方误差NLMS杂波对消处理。

(6a)设两个杂波对下内核函数的线程格grid均为(1,1)，线程块block均为(C,1)，其中，其中(1,1)表示内核函数由一个线程块block组成，(C,1)表示线程块block由C个图形处理器GPU线程组成；

(6c1)在该块图形处理器GPU的设备端上，直接读取k₁+l₁×M时刻的主通道信号

(6c2)在该块图形处理器GPU的设备端上，先读取k₁+l₁×M时刻的辅助通道信号再将其向前滑动C个采样周期，C表示杂波对消阶数的值，即得到辅助通道参考信号

{x 1}_{k_{1}} = ref 1 {[k_{1} + 1 + l_{1} \times M \cdot \cdot \cdot k_{1} + C + l_{1} \times M]}_{C \times 1};

(6d1)在该块图形处理器GPU的设备端上，直接读取k₂+l₂×M时刻的主通道信号

(6d2)在该块图形处理器GPU的设备端上，先读取k₂+l₂×M时刻的辅助通道信号再将其向前滑动C个采样周期，C表示杂波对消阶数的值，即得到辅助通道参考信号

{x 2}_{k_{2}} = ref 2 {[k_{2} + 1 + l_{2} \times M \cdot \cdot \cdot k_{2} + C + l_{2} \times M]}_{C \times 1};

(6e)在第一块图形处理器GPU设备端上，利用k₁+l₁×M时刻的主通道信号与辅助通道参考信号计算这个时刻的误差信号即：

{el}_{k_{1} + C + l_{1} \times M} = sig 1_{k_{1} + C + l_{1} \times M} - P 1,

其中，表示自适应滤波器的输出值，H表示共轭转置；

(6f)在第二块图形处理器GPU设备端上，利用k₂+l₂×M时刻的主通道信号与辅助通道参考信号计算这个时刻的误差信号即：

{e 2}_{k_{2} + C + l_{2} \times M} = sig 2_{k_{2} + C + l_{2} \times M} - P 2,

其中，表示自适应滤波器的输出值，H表示共轭转置；

(6g)在第一块图形处理器GPU设备端上，利用辅助通道参考信号计算步长因子μ1：

μ 1 = \frac{α}{β + T 1},

其中，表示辅助通道参考信号的功率值，α、β均为常数，α取0.6，β取0.1;

(6h)在第二块图形处理器GPU设备端上，利用辅助通道参考信号，分别计算步长因子μ2：

μ 2 = \frac{α}{β + T 2},

其中，表示辅助通道参考信号的功率值，α、β均为常数，α取0.6，β取0.1。

(6i)在第一块图形处理器GPU设备端上，利用k₁+l₁×M时刻的误差信号和步长因子μ1，更新杂波对消权向量w1_C×1：

(6i1)在该块图形处理器GPU设备端上，计算中间矩阵：

{K 1}_{C \times 1} = μ 1 \times {x 1}_{k_{1}} \times {e 1}_{k_{1} \times C + l_{1} \times M}^{*},

其中*表示复共轭；

(6i2)在该块图形处理器GPU设备端上，通过中间矩阵K1_C×1，更新杂波对消权向量w1_C×1中的C点权系数：

{w 1}_{C \times 1}^{(k_{1} + C + l_{1} \times M + 1)} = {w 1}_{C \times 1}^{(k_{1} + C + l_{1} \times M)} + {K 1}_{C \times 1},

其中表示(k₁+C+l₁×M)时刻的杂波对消权向量的值;

(6j)在第二块图形处理器GPU设备端上，利用k₂+l₂×M时刻的误差信号和步长因子μ2，更新杂波对消权向量w2_C×1：

(6j1)在该块图形处理器GPU设备端上，计算中间矩阵：

{K 2}_{C \times 1} = μ 2 \times {x 2}_{k_{2}} \times {e 2}_{k_{2} \times C + l_{2} \times M}^{*},

其中*表示复共轭；

(6j2)在该块图形处理器GPU设备端上，通过中间矩阵K2_C×1，更新杂波对消权向量w2_C×1中的C点权系数：

{w 2}_{C \times 1}^{(k_{2} + C + l_{2} \times M + 1)} = {w 2}_{C \times 1}^{(k_{2} + C + l_{2} \times M)} + {K 2}_{C \times 1},

其中表示(k₂+C+l₂×M)时刻的杂波对消权向量的值;

(6k)在两块图形处理器GPU设备端上，分别更新各自的迭代值：k₁＝k₁+1，k₂＝k₂+1；

步骤7：重复迭代步骤(6c)～(6k)共M次，在两块GPU设备端上，分别得到M点杂波对消后的误差信号数据，并存入e1、e2中的对应位置。

步骤8：在CPU主机端两个工作线程中分别更新各自的迭代值：l₁＝l₁+1、l₂＝l₂+1。

步骤9：重复迭代步骤(6)～步骤(8)共N次，在每个GPU设备端的显存中，得到进行杂波对消后的误差信号e1、e2。

步骤10：每个CPU工作线程在GPU设备端调用计算统一设备架构CUDA中的同步拷贝函数cudaMemcpy()，将e1、e2的数据传输至CPU主机端内存中。

步骤11：在CPU主机端调用同步函数cutWaitForThreads()，设置CPU与GPU同步，等待两块GPU显存中的数据全部传输完成后，在CPU主机端上，将误差信号e2中后S1-L点数据连接到误差信号e1的末尾，得到长度为S的误差信号：e＝[e1[1...S1]e2[L+1...S1]]_S×1，将误差信号e保存后，调用Windows应用编程接口API中的free()函数和统一设备计算架构CUDA中的cudaFree()函数，释放进行杂波对消所分配的内存、显存资源。

本发明的效果可通过以下仿真进一步说明：

1）实验条件：

在实验中，硬件平台选用HPZ820工作站，GPU显卡型号为NVIDATelsaC2075，ntelXeon多核处理器，Win7系统，软件平台为VisualStdio2008+CUDA4.0和MATLAB2009b。

实验采用一帧外辐射源雷达的仿真数据，其中主通道中包括两个目标信号、直达波信号、多径信号和噪声信号，辅助通道中包括直达波信号和噪声信号，另外，主通道和辅助通道的数据量均为200000点复数数据。

2）实验内容及结果：

实验1，采用本发明提出的方法，在对消阶数C为128时，采用单精度浮点型float，对一帧外辐射源雷达的仿真数据进行杂波对消，滤除主通道中含有的直达波信号和多径信号。实验中，参数设置为：S1＝118347，L＝36694，C＝128，m＝2，M＝257，N＝460，α＝0.6，β＝0.1。在同样的条件下，分别进行30次重复实验，记录每次实验的运行时间，并与CPU处理的时间进行对比，实验结果如图3。

由图3可见，使用本发明提出的方法进行杂波对消的时间小于1秒，均显著小于CPU处理的时间，其中，使用单精度浮点型进行杂波对消的时间最短，平均加速比达到了20倍，而且处理时间很稳定，验证了本发明提出的方法具有良好的实时性、稳定性和加速性能。

实验2，采用本发明提出的方法，在对消阶数C为256时，采用单精度浮点型float，对一帧外辐射源雷达的仿真数据进行杂波对消后，将对消结果与CPU处理的结果进行对比，在实验中，参数设置为：S1＝118475，L＝36950，C＝256，m＝1，M＝257，N＝460，α＝0.6，β＝0.1，实验结果如图4。

图4可见，本发明使用单精度浮点类型进行杂波对消处理，与CPU杂波对消的结果相比，误差为10-6量级，验证了本发明所提出方法的正确性和高精度。

实验3，采用本发明提出的方法，在对消阶数C为256时，采用双精度浮点型double，对一帧外辐射源雷达的仿真数据进行杂波对消后，将对消结果与CPU处理的结果进行对比，在实验中，参数设置为S1＝118475，L＝36950，C＝256，m＝1，M＝257，N＝460，α＝0.6，β＝0.1，实验结果如图5。

由图5可见，本发明使用双精度浮点类型进行杂波相消，与CPU杂波对消的结果相比，误差为10^-8量级，进一步验证了本发明所提出方法的正确性和高精度。

Claims

1.一种基于GPU架构的分段归一化最小均方误差杂波对消方法，其特征在于包括如下步骤：

(1a)将雷达目标信号、杂波信号和噪声信号作为归一化最小均方误差NLMS滤波器主通道的接收信号sig；将杂波信号和噪声信号作为归一化最小均方误差NLMS滤波器辅助通道的接收信号ref，这两种信号sig、ref的数据长度S根据接收信号的采样率设定，并根据杂波强度设定杂波对消阶数的值C；

(1c)在CPU主机端分配杂波对消所需的内存、显存资源；

(1d)设归一化最小均方误差NLMS杂波对消分段后，杂波对消权向量w1_C×1、w2_C×1的初始值均为[00…00]_C×1；

(1e)设杂波对消初始时刻迭代初值l₁、l₂均为0；

(2)在CPU主机端上创建两个杂波对消的工作线程；

sig1＝sig[12…S1-1S1]_S1×1，

ref1＝ref[12…S1-1S1]_S1×1，

sig2＝sig[S1-L+1S1-L+2…S-1S]_S1×1，

ref2＝ref[S1-L+1S1-L+2…S-1S]_S1×1；

(6a)设两个内核函数的线程格grid均为(1,1)，线程块block均为(C,1)，其中(1,1)表示内核函数由一个线程块block组成，(C,1)表示线程块block由C个图形处理器GPU线程组成；

(10)将e1、e2的数据传输至CPU主机端内存中；

2.根据权利要求1所述的基于GPU架构的分段归一化最小均方误差杂波对消方法，其中步骤(4)所述的确定调用一次图形处理器GPU内核函数所能计算出的数据点数M，调用GPU内核函数的次数N及分段后的数据长度S1，按如下步骤进行：

(4a)根据关系式M＝m×C+1，m＝0,1,…,8，C表示杂波对消阶数的值，选择m确定调用一次GPU内核函数所能计算出的数据点数M；

(4b)根据关系式M×N+C-1＝S1和S/2<S1<S，N＝1,2,…,S1-C+1，选择一个N值，计算出S1。

3.根据权利要求1所述的基于GPU架构的分段归一化最小均方误差杂波对消方法，其特征在于步骤(6c)所述的在第一块图形处理器GPU设备端上，获取k₁+l₁×M时刻的主通道信号和辅助通道参考信号按如下步骤进行：

x 1_{k_{1}} = r e f 1 {[\begin{matrix} k_{1} + 1 + l_{1} \times M & ... & k_{1} + C + l_{1} \times M \end{matrix}]}_{C \times 1} .

4.根据权利要求1所述的基于GPU架构的分段归一化最小均方误差杂波对消方法，其特征在于步骤(6d)所述的在第二块图形处理器GPU设备端上，获取k₂+l₂×M时刻的主通道信号和辅助通道参考信号按如下步骤进行：

x 2_{k_{2}} = r e f 2 {[\begin{matrix} k_{2} + 1 + l_{2} \times M & ... & k_{2} + C + l_{2} \times M \end{matrix}]}_{C \times 1} .

5.根据权利要求1所述的基于GPU架构的分段归一化最小均方误差杂波对消方法，其特征在于所述步骤(6e)中计算k₁+l₁×M时刻的误差信号按如下公式计算：

e 1_{k_{1} + C + l_{1} \times M} = s i g 1_{k_{1} + C + l_{1} \times M} - P 1,

其中，表示自适应滤波器的输出值，H表示共轭转置。

6.根据权利要求1所述的基于GPU架构的分段归一化最小均方误差杂波对消方法，其特征在于所述步骤(6e)中计算k₂+l₂×M时刻的误差信号按如下公式计算：

e 2_{k_{2} + C + l_{2} \times M} = s i g 2_{k_{2} + C + l_{2} \times M} - P 2,

其中，表示自适应滤波器的输出值，H表示共轭转置。

7.根据权利要求1所述的基于GPU架构的分段归一化最小均方误差杂波对消方法，其特征在于所述步骤(6f)中计算步长因子μ1、μ2，按如下公式进行：

μ 1 = \frac{α}{β + T 1}, μ 2 = \frac{α}{β + T 2},

其中，表示辅助通道参考信号的功率值，表示辅助通道参考信号的功率值，α、β均为常数，α取0.6，β取0.1。

8.根据权利要求1所述的基于GPU架构的分段归一化最小均方误差杂波对消方法，其特征在于所述步骤(6g)中更新杂波对消权向量w1_C×1，按如下步骤进行：

(6g1)在第一块图形处理器GPU设备端上，计算中间矩阵：

K 1_{C \times 1} = μ 1 \times x 1_{k_{1}} \times e 1_{k_{1} + C + l_{1} \times M}^{*},

其中*表示复共轭；

(6g2)在该块图形处理器GPU设备端上，通过中间矩阵K1_C×1，更新杂波对消权向量w1_C×1中的C点权系数：

w 1_{C \times 1}^{(k_{1} + C + l_{1} \times M + 1)} = w 1_{C \times 1}^{(k_{1} + C + l_{1} \times M)} + K 1_{C \times 1},

其中表示(k₁+C+l₁×M)时刻的杂波对消权向量的值。

9.根据权利要求1所述的基于GPU架构的分段归一化最小均方误差杂波对消方法，其特征在于所述步骤(6g)中更新杂波对消权向量w2_C×1，按如下步骤进行：

(6g3)在第二块图形处理器GPU设备端上，计算中间矩阵：

K 2_{C \times 1} = μ 2 \times x 2_{k_{2}} \times e 2_{k_{2} + C + l_{2} \times M}^{*},

其中*表示复共轭；

(6g4)在该块图形处理器GPU设备端上，通过中间矩阵K2_C×1，更新杂波对消权向量w2_C×1的C点权系数：

w 2_{C \times 1}^{(k_{2} + C + l_{2} \times M + 1)} = w 2_{C \times 1}^{(k_{2} + C + l_{2} \times M)} + K 2_{C \times 1},

其中，其中表示(k₂+C+l₂×M)时刻的杂波对消权向量的值。

10.根据权利要求1所述的基于GPU架构的分段归一化最小均方误差杂波对消方法，其特征在于所述步骤(11)中将误差信号e1、e2拼接成长度为S的误差信号e，将误差信号e2中后S1-L点数据连接到误差信号e1的末尾，得到长度为S的误差信号：e＝[e1[1…S1]e2[L+1…S1]]_S×1。