CN102523054B

CN102523054B - Mimo检测方法

Info

Publication number: CN102523054B
Application number: CN201110404926.3A
Authority: CN
Inventors: 隋丹; 李云洲; 钟晓峰; 许希斌; 赵明; 王京
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-12-07
Filing date: 2011-12-07
Publication date: 2014-10-22
Anticipated expiration: 2031-12-07
Also published as: CN102523054A

Abstract

本发明公开了一种MIMO检测方法，涉及多输入多输出信号检测技术领域，该方法包括以下步骤：A：将信道矩阵和接收信号数据从CPU设备端的内存传输到GPU设备端的全局存储器中；B：根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值，并将所得符号估计值存储到所述全局存储器中；C：将所述符号估计值从所述全局存储器传输到CPU设备端的内存中。本发明的方法采用基于流水线的CPU与GPU协同工作模式，在CPU与GPU进行数据传输的同时，能够在GPU上进行数据的并行处理。并且本发明的方法通过采用三个核函数，将任务进行拆分，在达到快速同步的同时，降低了运算的复杂度、减小了传输时延，提高了整个算法的执行效率，缩短了检测时间。

Description

MIMO检测方法

技术领域

本发明涉及无线通信技术领域，尤其涉及一种MIMO检测方法。

背景技术

在分布式无线通信系统(DWCS)中，越来越多地将多输入多输出(MIMO)技术与正交频分复用(OFDM)技术相结合。这是因为MIMO技术能够通过增强无线通信系统的分集和容量来提高数据传输速率，而OFDM技术能够通过减少频率选择性衰落的影响而降低均衡器复杂度，同时提高频谱效率。将两者有机结合构成的MIMO-OFDM系统，已经在4G无线通信标准中广泛使用，例如LTE/LTE-Advanced、WiMAX等。

而在MIMO-OFDM系统中，一个关键的模块是MIMO信号检测模块。常用的MIMO检测算法可以分为线性检测算法(最小均方误差(MMSE)、迫零(ZF)等)和非线性检测算法(基于最大似然(ML)、球形译码(SD)、K-Best等)两大类。其中，基于最大似然的检测算法误码率最小，但复杂度最高，特别适用于存在大频率选择性衰落的恶劣信道。而最小均方误差算法误码率相对较高，但实现复杂度较低。考虑到降低数据突发错误率的需要，现有技术在LTE/LTE-Advanced等4G协议中采用了自适应信道估计、预编码矩阵指示(PMI)反馈等技术，从而大大提高了信道质量。此时，与最大似然算法相比，MMSE检测算法也可以达到期望的误码率。

由于MMSE检测算法需要对大量信道矩阵进行求逆运算，且无线通信系统特别是在高速传输的新型无线通信系统中，对数据业务实时性要求非常高。传统的基于CPU的MMSE检测器运算复杂、检测耗时长，很难达到数据业务实时性要求。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何降低MIMO-OFDM系统中MIMO信号检测运算的复杂度、缩短检测时间。

(二)技术方案

为解决上述问题，本发明提供了一种MIMO检测方法，包括以下步骤：

A：将信道矩阵和接收信号数据从CPU设备端的内存传输到GPU设备端的全局存储器中；

B：根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值，并将所得符号估计值存储到所述全局存储器中；

C：将所述符号估计值从所述全局存储器传输到CPU设备端的内存中。

优选地，所述步骤B中，根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值包括：

B1：计算MMSE检测子的内核J，J＝H^HH+I_M/ρ，其中ρ表示信噪比，I_M表示M×M维的单位阵，上标H表示共轭转置；

B2：计算内核J的逆矩阵J^-1；

B3：计算MMSE检测子G_MMSE及相应的符号估计结果

G_MMSE＝J^-1H^H

\hat{x} = G_{MMSE} y .

优选地，所述步骤B1、B2和B3，进一步包括：将计算结果存储于所述全局存储器中的步骤。

优选地，所述步骤B1和B2，进一步包括：使一个计算线程块处理多个信道矩阵，且计算线程块中的一个计算线程对信道矩阵的一行或一列进行处理的步骤。

优选地，所述步骤A，进一步包括：利用函数cudaMemcpyAsync将信道矩阵和接收信号数据从CPU设备端的内存拷贝到GPU设备端的全局存储器中的步骤。

优选地，所述步骤C，进一步包括：利用函数cudaMemcpyAsync将所述符号估计值从所述全局存储器拷贝到CPU设备端的内存中的步骤。

(三)有益效果

本发明的方法采用基于流水线的CPU与GPU协同工作模式，在CPU与GPU进行数据传输的同时，能够在GPU上进行数据的并行处理。并且本发明的方法通过采用三个核函数，将任务进行拆分，在达到快速同步的同时，降低了运算的复杂度、减小了传输时延，提高了整个算法的执行效率，缩短了检测时间。

附图说明

图1为本发明实施方式中所述MIMO检测方法的流程图；

图2为本发明实施方式中所述不同数据量下吞吐量的比较图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本发明所述的MIMO检测方法，包括以下步骤：

本步骤中，利用函数cudaMemcpyAsync将信道矩阵和接收信号从CPU设备端的内存传输到GPU的全局存储器。

具体可通过以下步骤实现：

B2：计算内核J的逆矩阵J^-1；

B3：计算MMSE检测子G_MMSE及相应的符号估计结果

G_MNSE＝J^-1H^H

\hat{x} = G_{MMSE} y .

所述步骤B1、B2和B3，进一步包括：将计算结果存储于所述全局存储器中的步骤。

所述步骤B1和B2中，可使一个计算线程块处理多个信道矩阵，且计算线程块中的一个计算线程对信道矩阵的一行或一列进行处理。

例如，本发明设定一个线程块处理多个矩阵，即对于1个M×M的矩阵，设一个线程块含有M个线程，每个线程依次把矩阵中的元素读入到共享存储器中，再按照上述公式分别进行矩阵共轭转置、矩阵乘法、矩阵加法、矩阵求逆等处理。这样，就可以把在CPU上对各个信道矩阵的串行MIMO信号检测，转换为同时对多个信道矩阵的并行执行。

本步骤中，可利用函数cudaMemcpyAsync将所述符号估计值从所述全局存储器拷贝到CPU设备端的内存中。

一个带有M根发射天线、N根接收天线的MIMO-OFDM系统可以表示为：y＝Hx+w，其中，y＝[y₀，y₁，...，y_N-1]^T是N×1维的接收信号矢量，上标T表示转置，H是N×M维的MIMO信道矩阵，x是M×1维的发射信号矢量，w是M×1维的高斯白噪声矢量。

基于MMSE准则的MIMO检测算法的基本思想是最小化估计值的均方误差，即其中，E[·]表示对随机变量求数学期望，上标H表示共轭转置。那么，MMSE检测子可以表示为

G_MMSE＝(H^HH+I_M/ρ)^-1H^H＝J^-1H^H

其中，ρ表示信噪比，I_M表示M×M维的单位阵。相应的符号估计结果可以表示为

最新的NVIDIA Fermi架构的GPU，由14个流多处理器(SMs)组成，每个流多处理器包含32个CUDA核。每个SM可以作为一个单指令多线程(SIMT)的处理器，并且最高支持1536个并发线程。并且，每个SM还拥有48KB的共享存储器，能够支持快速低时延的数据访问。在CUDA编程模型中，若干个线程(thread)组织在一起构成线程块(block)，若干个线程块再组成一个网格(grid)。

本发明还采用了一种基于多个子流的CPU与GPU协同工作方法，即将CPU与GPU之间的数据传输与GPU上的核函数执行相重叠，在CPU向GPU传输数据的同时，可以在GPU上继续进行运算。类似地，在GPU运行时，可以将部分已经计算处理的结果传回CPU。从而进一步提高了MIMO检测算法的速度。

为了测试加速结果，本发明选取一个满足LTE标准的测试床进行实验，分别考虑MIMO-OFDM系统的带宽为5MHz、10MHz、15MHz、20MHz的情况，此时分别对应于0.5ms的子帧间隔中存在300，600，900，1200个可用OFDM子载波。实验中所采用的硬件配置如下：CPU为Intel Core i7-950(主频3.07GHz，内存6GB)；GPU为NVIDIA Tesla C2050(448个CUDA核处理器，主频1.15GHz，显存3GB)；操作系统是Win764位专业版；编程环境为Visual Studio 2008；CUDA版本为4.0。为了便于描述加速结果，用T_CPU表示基于MMSE的MIMO检测算法在CPU上的执行时间，用T_GPU表示相应程序在GPU上的执行时间(包括GPU上核函数的运行时间与CPU和GPU之间数据拷贝时间的总和)，用T_CPU/T_GPU表示加速倍数。表1给出了一个4×464QAM的MIMO-OFDM系统，信噪比固定为20dB，进行1000次独立实验时，不同带宽下的CPU与GPU运行时间比较。从表中可以看出，对于相同接收信号而言，加速比随着带宽的增加而增加。并且GPU的处理时间小于信号驻留时间。

表1

更进一步，比较CPU与GPU算法的吞吐量，其中吞吐量的定义是单位时间内处理的数据量。仍然考虑一个4×464QAM的MIMO-OFDM系统，设定信噪比为20dB，进行1000次独立实验，比较不同数据量下的吞吐量如图2所示。从图2中可以看出，基于GPU的方法能够达到100Mbps的吞吐量，能够满足LTE/LTE-Advanced的要求。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种MIMO检测方法，其特征在于，包括以下步骤：

C：将所述符号估计值从所述全局存储器传输到CPU设备端的内存中；

其中，所述步骤B中，根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值包括：

B2：计算内核J的逆矩阵J^-1；

B3：计算MMSE检测子G_MMSE及相应的符号估计结果

G_MMSE＝J^-1H^H

\hat{x} = G_{MMSE} y;

其中，所述步骤B1、B2和B3，进一步包括：将计算结果存储于所述全局存储器中的步骤；

其中，所述步骤B1和B2，进一步包括：使一个计算线程块处理多个信道矩阵，且计算线程块中的一个计算线程对信道矩阵的一行或一列进行处理的步骤；

其中，所述步骤A，进一步包括：利用函数cudaMemcpyAsync将信道矩阵和接收信号数据从CPU设备端的内存拷贝到GPU设备端的全局存储器中的步骤；

其中，所述步骤C，进一步包括：利用函数cudaMemcpyAsync将所述符号估计值从所述全局存储器拷贝到CPU设备端的内存中的步骤。