CN102523054B - Mimo检测方法 - Google Patents
Mimo检测方法 Download PDFInfo
- Publication number
- CN102523054B CN102523054B CN201110404926.3A CN201110404926A CN102523054B CN 102523054 B CN102523054 B CN 102523054B CN 201110404926 A CN201110404926 A CN 201110404926A CN 102523054 B CN102523054 B CN 102523054B
- Authority
- CN
- China
- Prior art keywords
- mmse
- gpu
- equipment end
- cpu
- global storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 16
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 6
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 238000004904 shortening Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000005562 fading Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Radio Transmission System (AREA)
Abstract
本发明公开了一种MIMO检测方法,涉及多输入多输出信号检测技术领域,该方法包括以下步骤:A:将信道矩阵和接收信号数据从CPU设备端的内存传输到GPU设备端的全局存储器中;B:根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值,并将所得符号估计值存储到所述全局存储器中;C:将所述符号估计值从所述全局存储器传输到CPU设备端的内存中。本发明的方法采用基于流水线的CPU与GPU协同工作模式,在CPU与GPU进行数据传输的同时,能够在GPU上进行数据的并行处理。并且本发明的方法通过采用三个核函数,将任务进行拆分,在达到快速同步的同时,降低了运算的复杂度、减小了传输时延,提高了整个算法的执行效率,缩短了检测时间。
Description
技术领域
本发明涉及无线通信技术领域,尤其涉及一种MIMO检测方法。
背景技术
在分布式无线通信系统(DWCS)中,越来越多地将多输入多输出(MIMO)技术与正交频分复用(OFDM)技术相结合。这是因为MIMO技术能够通过增强无线通信系统的分集和容量来提高数据传输速率,而OFDM技术能够通过减少频率选择性衰落的影响而降低均衡器复杂度,同时提高频谱效率。将两者有机结合构成的MIMO-OFDM系统,已经在4G无线通信标准中广泛使用,例如LTE/LTE-Advanced、WiMAX等。
而在MIMO-OFDM系统中,一个关键的模块是MIMO信号检测模块。常用的MIMO检测算法可以分为线性检测算法(最小均方误差(MMSE)、迫零(ZF)等)和非线性检测算法(基于最大似然(ML)、球形译码(SD)、K-Best等)两大类。其中,基于最大似然的检测算法误码率最小,但复杂度最高,特别适用于存在大频率选择性衰落的恶劣信道。而最小均方误差算法误码率相对较高,但实现复杂度较低。考虑到降低数据突发错误率的需要,现有技术在LTE/LTE-Advanced等4G协议中采用了自适应信道估计、预编码矩阵指示(PMI)反馈等技术,从而大大提高了信道质量。此时,与最大似然算法相比,MMSE检测算法也可以达到期望的误码率。
由于MMSE检测算法需要对大量信道矩阵进行求逆运算,且无线通信系统特别是在高速传输的新型无线通信系统中,对数据业务实时性要求非常高。传统的基于CPU的MMSE检测器运算复杂、检测耗时长,很难达到数据业务实时性要求。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何降低MIMO-OFDM系统中MIMO信号检测运算的复杂度、缩短检测时间。
(二)技术方案
为解决上述问题,本发明提供了一种MIMO检测方法,包括以下步骤:
A:将信道矩阵和接收信号数据从CPU设备端的内存传输到GPU设备端的全局存储器中;
B:根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值,并将所得符号估计值存储到所述全局存储器中;
C:将所述符号估计值从所述全局存储器传输到CPU设备端的内存中。
优选地,所述步骤B中,根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值包括:
B1:计算MMSE检测子的内核J,J=HHH+IM/ρ,其中ρ表示信噪比,IM表示M×M维的单位阵,上标H表示共轭转置;
B2:计算内核J的逆矩阵J-1;
B3:计算MMSE检测子GMMSE及相应的符号估计结果
GMMSE=J-1HH
优选地,所述步骤B1、B2和B3,进一步包括:将计算结果存储于所述全局存储器中的步骤。
优选地,所述步骤B1和B2,进一步包括:使一个计算线程块处理多个信道矩阵,且计算线程块中的一个计算线程对信道矩阵的一行或一列进行处理的步骤。
优选地,所述步骤A,进一步包括:利用函数cudaMemcpyAsync将信道矩阵和接收信号数据从CPU设备端的内存拷贝到GPU设备端的全局存储器中的步骤。
优选地,所述步骤C,进一步包括:利用函数cudaMemcpyAsync将所述符号估计值从所述全局存储器拷贝到CPU设备端的内存中的步骤。
(三)有益效果
本发明的方法采用基于流水线的CPU与GPU协同工作模式,在CPU与GPU进行数据传输的同时,能够在GPU上进行数据的并行处理。并且本发明的方法通过采用三个核函数,将任务进行拆分,在达到快速同步的同时,降低了运算的复杂度、减小了传输时延,提高了整个算法的执行效率,缩短了检测时间。
附图说明
图1为本发明实施方式中所述MIMO检测方法的流程图;
图2为本发明实施方式中所述不同数据量下吞吐量的比较图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明所述的MIMO检测方法,包括以下步骤:
A:将信道矩阵和接收信号数据从CPU设备端的内存传输到GPU设备端的全局存储器中;
本步骤中,利用函数cudaMemcpyAsync将信道矩阵和接收信号从CPU设备端的内存传输到GPU的全局存储器。
B:根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值,并将所得符号估计值存储到所述全局存储器中;
具体可通过以下步骤实现:
B1:计算MMSE检测子的内核J,J=HHH+IM/ρ,其中ρ表示信噪比,IM表示M×M维的单位阵,上标H表示共轭转置;
B2:计算内核J的逆矩阵J-1;
B3:计算MMSE检测子GMMSE及相应的符号估计结果
GMNSE=J-1HH
所述步骤B1、B2和B3,进一步包括:将计算结果存储于所述全局存储器中的步骤。
所述步骤B1和B2中,可使一个计算线程块处理多个信道矩阵,且计算线程块中的一个计算线程对信道矩阵的一行或一列进行处理。
例如,本发明设定一个线程块处理多个矩阵,即对于1个M×M的矩阵,设一个线程块含有M个线程,每个线程依次把矩阵中的元素读入到共享存储器中,再按照上述公式分别进行矩阵共轭转置、矩阵乘法、矩阵加法、矩阵求逆等处理。这样,就可以把在CPU上对各个信道矩阵的串行MIMO信号检测,转换为同时对多个信道矩阵的并行执行。
C:将所述符号估计值从所述全局存储器传输到CPU设备端的内存中。
本步骤中,可利用函数cudaMemcpyAsync将所述符号估计值从所述全局存储器拷贝到CPU设备端的内存中。
一个带有M根发射天线、N根接收天线的MIMO-OFDM系统可以表示为:y=Hx+w,其中,y=[y0,y1,...,yN-1]T是N×1维的接收信号矢量,上标T表示转置,H是N×M维的MIMO信道矩阵,x是M×1维的发射信号矢量,w是M×1维的高斯白噪声矢量。
基于MMSE准则的MIMO检测算法的基本思想是最小化估计值的均方误差,即其中,E[·]表示对随机变量求数学期望,上标H表示共轭转置。那么,MMSE检测子可以表示为
GMMSE=(HHH+IM/ρ)-1HH=J-1HH
其中,ρ表示信噪比,IM表示M×M维的单位阵。相应的符号估计结果可以表示为
最新的NVIDIA Fermi架构的GPU,由14个流多处理器(SMs)组成,每个流多处理器包含32个CUDA核。每个SM可以作为一个单指令多线程(SIMT)的处理器,并且最高支持1536个并发线程。并且,每个SM还拥有48KB的共享存储器,能够支持快速低时延的数据访问。在CUDA编程模型中,若干个线程(thread)组织在一起构成线程块(block),若干个线程块再组成一个网格(grid)。
本发明还采用了一种基于多个子流的CPU与GPU协同工作方法,即将CPU与GPU之间的数据传输与GPU上的核函数执行相重叠,在CPU向GPU传输数据的同时,可以在GPU上继续进行运算。类似地,在GPU运行时,可以将部分已经计算处理的结果传回CPU。从而进一步提高了MIMO检测算法的速度。
为了测试加速结果,本发明选取一个满足LTE标准的测试床进行实验,分别考虑MIMO-OFDM系统的带宽为5MHz、10MHz、15MHz、20MHz的情况,此时分别对应于0.5ms的子帧间隔中存在300,600,900,1200个可用OFDM子载波。实验中所采用的硬件配置如下:CPU为Intel Core i7-950(主频3.07GHz,内存6GB);GPU为NVIDIA Tesla C2050(448个CUDA核处理器,主频1.15GHz,显存3GB);操作系统是Win764位专业版;编程环境为Visual Studio 2008;CUDA版本为4.0。为了便于描述加速结果,用TCPU表示基于MMSE的MIMO检测算法在CPU上的执行时间,用TGPU表示相应程序在GPU上的执行时间(包括GPU上核函数的运行时间与CPU和GPU之间数据拷贝时间的总和),用TCPU/TGPU表示加速倍数。表1给出了一个4×464QAM的MIMO-OFDM系统,信噪比固定为20dB,进行1000次独立实验时,不同带宽下的CPU与GPU运行时间比较。从表中可以看出,对于相同接收信号而言,加速比随着带宽的增加而增加。并且GPU的处理时间小于信号驻留时间。
表1
更进一步,比较CPU与GPU算法的吞吐量,其中吞吐量的定义是单位时间内处理的数据量。仍然考虑一个4×464QAM的MIMO-OFDM系统,设定信噪比为20dB,进行1000次独立实验,比较不同数据量下的吞吐量如图2所示。从图2中可以看出,基于GPU的方法能够达到100Mbps的吞吐量,能够满足LTE/LTE-Advanced的要求。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (1)
1.一种MIMO检测方法,其特征在于,包括以下步骤:
A:将信道矩阵和接收信号数据从CPU设备端的内存传输到GPU设备端的全局存储器中;
B:根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值,并将所得符号估计值存储到所述全局存储器中;
C:将所述符号估计值从所述全局存储器传输到CPU设备端的内存中;
其中,所述步骤B中,根据MMSE算法调用CUDA内部函数在GPU上多线程并行计算MMSE检测子的符号估计值包括:
B1:计算MMSE检测子的内核J,J=HHH+IM/ρ,其中ρ表示信噪比,IM表示M×M维的单位阵,上标H表示共轭转置;
B2:计算内核J的逆矩阵J-1;
B3:计算MMSE检测子GMMSE及相应的符号估计结果
GMMSE=J-1HH
其中,所述步骤B1、B2和B3,进一步包括:将计算结果存储于所述全局存储器中的步骤;
其中,所述步骤B1和B2,进一步包括:使一个计算线程块处理多个信道矩阵,且计算线程块中的一个计算线程对信道矩阵的一行或一列进行处理的步骤;
其中,所述步骤A,进一步包括:利用函数cudaMemcpyAsync将信道矩阵和接收信号数据从CPU设备端的内存拷贝到GPU设备端的全局存储器中的步骤;
其中,所述步骤C,进一步包括:利用函数cudaMemcpyAsync将所述符号估计值从所述全局存储器拷贝到CPU设备端的内存中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110404926.3A CN102523054B (zh) | 2011-12-07 | 2011-12-07 | Mimo检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110404926.3A CN102523054B (zh) | 2011-12-07 | 2011-12-07 | Mimo检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102523054A CN102523054A (zh) | 2012-06-27 |
CN102523054B true CN102523054B (zh) | 2014-10-22 |
Family
ID=46293865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110404926.3A Expired - Fee Related CN102523054B (zh) | 2011-12-07 | 2011-12-07 | Mimo检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102523054B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614541B2 (en) | 2017-06-29 | 2020-04-07 | Nvidia Corporation | Hybrid, scalable CPU/GPU rigid body pipeline |
CN109902059B (zh) * | 2019-02-28 | 2021-06-29 | 苏州浪潮智能科技有限公司 | 一种cpu与gpu之间的数据传输方法 |
CN110348402B (zh) * | 2019-07-15 | 2021-05-28 | 哈尔滨工业大学 | 一种结合特征频率的期望似然的信号检测方法 |
CN111965616B (zh) * | 2020-08-18 | 2023-10-17 | 西安电子科技大学 | 基于cpu和gpu的时分mimo雷达信号处理方法 |
CN112764027B (zh) * | 2020-12-10 | 2023-11-14 | 北京无线电计量测试研究所 | 基于cuda的mimo毫米波雷达三维成像方法及系统 |
CN113660046B (zh) * | 2021-08-17 | 2022-11-11 | 东南大学 | 一种大规模无线信道系数产生的加速方法 |
-
2011
- 2011-12-07 CN CN201110404926.3A patent/CN102523054B/zh not_active Expired - Fee Related
Non-Patent Citations (10)
Title |
---|
> * |
< * |
.2009,第305页第1栏最后一段-第2栏第1段. * |
.2010,第8卷(第1期),第18页第4-15行. * |
Michael Wu+.A GPU Implementation of a Real-Time MIMO Detector.< * |
Michael Wu+.A GPU Implementation of a Real-Time MIMO Detector.<<Signal Processing Systems, 2009. SiPS 2009. IEEE Workshop on>>.2009,第305页第1栏最后一段-第2栏第1段. |
Signal Processing Systems, 2009. SiPS 2009. IEEE Workshop on> * |
南京工程学院学报(自然科学版)> * |
周健,张冬.MIMO-OFDM系统中的信号检测算法(I).< * |
周健,张冬.MIMO-OFDM系统中的信号检测算法(I).<<南京工程学院学报(自然科学版)>>.2010,第8卷(第1期),第18页第4-15行. |
Also Published As
Publication number | Publication date |
---|---|
CN102523054A (zh) | 2012-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102523054B (zh) | Mimo检测方法 | |
Li et al. | Decentralized baseband processing for massive MU-MIMO systems | |
TWI740119B (zh) | 執行無線通訊通道的通道估計的方法及行動設備 | |
CN103152140B (zh) | 一种基于直积码书的三维多用户mimo有限反馈方法 | |
US9654188B2 (en) | Scalable massive MIMO | |
CN102546088B (zh) | 一种块对角化预编码方法及装置 | |
KR101547421B1 (ko) | 통계적 채널정보 기반의 혼합 빔포밍 방법, 및 이를 수행하는 장치들 | |
CN106911372A (zh) | 一种确定多用户传输方式的方法及装置 | |
CN111800172B (zh) | 一种通信方法及装置 | |
CN103414664B (zh) | Lte系统中基于信道预测的二维插值有限反馈方法 | |
CN103780332A (zh) | 传输编码指示信息和确定预编码矩阵的方法、系统及设备 | |
CN103780331A (zh) | 传输编码指示信息和确定预编码矩阵的方法、系统及设备 | |
US10892926B2 (en) | Method and device for transmitting signal by switching phase in mobile communication system | |
Wang et al. | Singular value decomposition hardware for mimo: State of the art and custom design | |
Malkowsky et al. | Implementation of low-latency signal processing and data shuffling for TDD massive MIMO systems | |
CN111464217A (zh) | 一种用于mimo-ofdm的改进的svd预编码算法 | |
CN105703813B (zh) | 一种mimo系统的预编码方法 | |
CN108259072B (zh) | 用于fdd大规模mimo下行系统减少训练序列开销的方法 | |
US8724754B2 (en) | Noise power thresholding and balancing for long term evolution (LTE) symbol detection | |
Lin et al. | Dual-mode low-complexity codebook searching algorithm and VLSI architecture for LTE/LTE-advanced systems | |
Abbas et al. | Novel receiver architecture for LTE‐A downlink physical control format indicator channel with diversity | |
CN111756416B (zh) | 一种通信方法及装置 | |
Sui et al. | High throughput MIMO-OFDM detection with graphics processing units | |
CN105871439B (zh) | 一种基于投影算子的迭代bd预编码方法 | |
Zhao et al. | Hybrid beamforming for multiuser millimeter wave MIMO-OFDM Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141022 Termination date: 20181207 |
|
CF01 | Termination of patent right due to non-payment of annual fee |