CN114510268B

CN114510268B - 一种基于gpu实现下变频中单精度浮点数累积误差控制方法

Info

Publication number: CN114510268B
Application number: CN202111601590.XA
Authority: CN
Inventors: 李超; 焦义文; 马宏; 吴涛; 高泽夫; 毛飞龙; 陈雨迪; 滕飞; 李冬; 卢志伟; 周扬
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-09-20
Anticipated expiration: 2041-12-24
Also published as: CN114510268A

Abstract

本发明公开了一种基于GPU实现下变频中累积误差控制方法，涉及通信技术领域，该方法通过分析工程需要频率分辨率、实际采样频率和下变频频率的值，通过计算三者之间的关系，可得到将累积误差可以严格控制在K个有限个数据点之间，且每隔K点，相位值将归零，从而阻止了误差累积的传播。本发明未使用查找表计算相位值，节省了宝贵的片上内存资源，资源利用率更高，且累加误差控制在有限的数据点内，误差累积更小。本发明设计出了一种基于GPU的计算下变频控制误差累积的方法，针对下变频本地频率与采样频率的关系，在保证下变频频率灵活可变的同时满足了精度要求，计结果算表明，可有效将累积误差控制在1e‑8量级。

Description

一种基于GPU实现下变频中单精度浮点数累积误差控制方法

技术领域

本发明涉及通信技术领域，具体涉及一种基于GPU实现下变频中单精度浮点数累积误差控制方法，基于GPU实现下变频中单精度浮点数累积误差控制方法。

背景技术

在传统航天测控系统及深空探测系统中，接收端通常包括射频接收单元，模数转换单元(Analog-to-digital converter，ADC)，数字下变频单元(Digital DownConverter,DDC)，滤波抽取单元，基带处理单元。射频接收单元将电磁信号接收并转变为电信号，经滤波放大到一定幅度范围内。模数转换单元，将接收到的模拟信号转变为数字信号。下变频单元将射频信号转变为零中频基带信号。滤波抽取单元将高速率的码流按照一定关系抽取降速为低速率码流。基带完成降速后数字信号的同步解调等功能。下变频单元是通信系统中的重要组成部分，占据着重要的地位和作用，其性能的好坏直接影响到任务的完成质量。

数字下变频是本地下变频频率和接收信号做点乘运算后，经低通滤波器滤除高频分量得到基带信号的过程。其过程如图1所示。

假设接收到的信号为实信号s(t)，表达式为：

s(t)＝a(t)cos[2πf₀t+φ₀] (1)

其中，a(t)是接收信号的幅度信息，φ₀是接收信号的初始相位值，f₀是信号的载频。

对式(1)进行采样数字化，采样周期为T_s，可以得到：

s(nT_s)＝a(nT_s)cos[2πf₀nT_s+φ₀] (2)

上式进一步简化，结果为：

s(n)＝a(n)cos[2πf₀n+φ₀] (3)

直接数字下变频过程示意图如图1所示。首先，将接收机收到的信号s(n)分别和同相和正交两路本地下变频信号cos(ω₀)和-sin(ω₀)进行相乘，得到对应的I'(n)和Q'(n)信号，进行低通滤波，过滤掉信号中的高频谐波分量，以便提取信号的低频分量，得到基带的I(n)和Q(n)两路信号，最后，考虑到输出信号的速率通常比奈奎斯特采样速率要大，所以对应得到的I(n)信号和Q(n)信号做D倍抽取，输出降速后的I(m)信号和Q(m)信号。

I(m)信号和Q(m)信号中携带了信号s(n)的全部信息，可以很方便的通过计算得到瞬时幅度、相位和频率信息。具体的计算公式如下：

瞬时幅度：

瞬时相位：

瞬时频率：

上式中，Ts是I(m)和Q(m)两个分量的采样周期。

由下变频过程可以看出，产生下变频载频信号是关键过程。在传统数字下变频过程中，数字下变频模块一般由硬件芯片实现。包括ASIC芯片和FPGA芯片。ASIC以TI、ADI公司的芯片最为典型。这些芯片在出厂时参数就已经固定，不能适应多种带宽和多种速率的要求，当系统升级改造或者参数改变时，需要重新开发硬件芯片，开发周期长，成本高，使得ASIC芯片很难在如今灵活多变的通信系统中取得很好的性能、成本及适应性之间的协调。其灵活性的缺乏使得ASIC芯片很难在技术和协议的更新中第一时间完成设计和流片，且后期升级成本高。FPGA是一种由可编程阵列逻辑(Programing Array Logic，PAL)、通用阵列逻辑器件(Generic Array Logic，GAL)、复杂可编程逻辑器件(complex Programing LogicDevice，CPLD)等可编程器件进一步发展而形成的、具备可灵活编程的特殊集成电路。目前，主流的FPGA均是采用查找表(LooK Up Table，LUT)的技术构建可编程的逻辑单元。查找表的相位分辨精度受到FPGA片上存储空间的制约，无法有效提高。近年来随着片上存储空间的增加，查找表法因占用计算资源少和高速特性而得到广泛应用，但是以上问题却没有得到根本性解决。且由于硬件开发难度大、门槛高，周期长，成本高，门电路数和功能受限等缺点，无法适应现代参数灵活可配置，技术更新升级快，功能灵活多变的现代通信系统发展的需求。

随着高性能计算的发展，GPU的高速并行处理能力、参数可动态灵活可配置、研发周期短、门槛低和后期维护升级换代成本低等优点为解决基于硬件开发的固有问题提供了有效的解决方案。

CUDA可利用其高效的浮点运算能力和多层次存储体系为数字本振的实现提供高效高精度正弦函数查找表。出现了利用GPU纹理内存实现查找表的解决途径，2016年，四川大学团队采用查找表法设计了数字下变频信号，实现了相比于直接计算4倍的速度提升，然而该方法频率精度受限于同一block内线程数，难以提高。Scott C.Kim等分别使用纹理内存最近邻和线性插值实现了任意带宽的输出，结果显示纹理插值与传统重采样均方误差(Mean Square Error,MSE)约为4.11e-4，而最近邻和线性插值MSE约为1e-5，且线性插值的MSE略优于最近邻插值，但该方法未解决相位累加误差问题，精度较低。2020年航天工程大学团队提出了一种基于GPU纹理缓存查找表，实现NCO输出，同时设计了基于相位循环消整周+浮点数相位累积综合补偿算法，将累积误差控制在10^-5量级。该方法设计思想和基于FPGA设计查找表思路一致，但利用了GPU的并行运算能力，同时将每个点进行了误差补偿的计算与修正，大大增加了运算复杂度，降低了运算效率，该算法还通过将数据分段，将每段数据末尾的相位值归一化到2pi内，并将此值作为参数传递到下一段数据的初始相位中，这样上段数据的累积误差仍通过相位值传递到下一段数据中，没有彻底解决相位传递过程中的误差累积传递问题。该方法虽然在一定程度上限制了误差累积，但误差累积仍然比较大，未有效解决误差累积问题，存在一定局限性。

基于GPU的数字下变频信号实现方法虽然具有灵活高效的优势，但是GPU在计算下变频过程中因浮点数的精度限制，存在舍入误差，长时间计算的误差累积将导致不可预测的错误结果。需要针对性研究合适的算法将累积误差控制在可一定精度内，保证结果的准确性。

基于GPU的查找表实现NCO的下变频过程中，提前将相位信息预置到GPU缓存中，占用了大量片上资源。

基于GPU的数据分段+循环消整周方法中，采用了随机数据分段方式，将上一段数据末尾相位值归一化到2π以内，并将此值作为初始相位传递到下段数据进行相位计算，同时逐点对数据进行修正计算。该方法虽然对每段数据末尾值归一化到2π以内，但是误差累积仍然存在，并传递给了下一段数据，误差累积在数据段之间层层传递，不可控制，另外，在逐点对计算结果进行修正计算，增加了运算复杂度，降低了计算效率。

因此目前缺少一种能够对GPU实现下变频过程中的累积误差进行控制的方法。

发明内容

有鉴于此，本发明提供了一种基于GPU实现下变频中累积误差控制方法，能够针对GPU实现下变频过程中的累积误差进行控制，累加误差能够控制在有限的数据点内，误差累积更小。

为达到上述目的，本发明的技术方案为：GPU针对接收信号进行下变频处理，在下变频处理过程中，执行如下步骤：

步骤1：GPU接收主机送来的信号，即为接收信号，其采样频率为F_s。

步骤2：根据工程实际确定频率分辨率为ΔF_max，则GPU核函数一次处理数据量为N＝F_s/ΔF_max；根据需求计算GPU缓存一次读入数量data_length＝j×N，j＝1,2,3…。

步骤3：根据工程实际分辨率要求，选择下变频频率F_L＝mΔF_max；其中m取正整数。

步骤4：根据F_L/F_s＝mΔF_max/NΔF_max＝m/N，若m和N不可约分，将每N点数据进行相位归零操作，当m和N有公约数i时，m/N约分至L/K，则选取K为归零点数，即每K点数据进行相位归零操作。

步骤5：GPU核函数计算相位值，并将接收到的数据点按照每K点数据进行相位归零操作，即相位phase＝2π×F_L/F_s×mod(N,K)。

步骤6：GPU判断数据是否处理完毕，若是则输出处理结果，否则返回步骤1。

进一步地，GPU针对接收信号进行下变频处理，具体为：

GPU图形处理器，在CUDA架构下，GPU执行运算的最小单位是线程thread，数个线程thread组成一个块block，一个块block中的线程thread存取一块共享的内存，不同块block中的线程thread无法存取同一个共享内存，数个块block组成一个网格grid，线程thread、块block和网格grid有不同的存储，GPU的计算核心是thread。

GPU接收到的信号为s(n)＝a(n)cos[2πf₀n+φ₀]，其中a(n)为接收信号的幅度，f₀为接收信号的频率，φ₀为接收信号的初始相位值，n为数据点采样点。

接收信号每一个采样点都送入GPU中对应的一个线程做下变频处理。

进一步地，GPU采用单精度浮点数运算。

进一步地，GPU核函数一次处理数据量为N＝F_s/ΔF_max，即GPU核函数一次处理数据量N与频率分辨率成反比关系。

进一步地，根据需求计算GPU缓存一次读入数量data_length＝j×N，j＝1,2,3…，即每次读入GPU缓存的数据长度是数据点数N的j倍，j取正整数。

有益效果：

1、本发明提出一种基于GPU计算下变频过程中，有效控制浮点数运算过程中的累积误差的循环归零方法。该方法通过分析工程需要频率分辨率、实际采样频率和下变频频率的值，通过计算三者之间的关系，即F_L/F_s＝mΔF_max/NΔF_max＝m/N＝L*i/K*i＝L/K，可得到将累积误差可以严格控制在K个有限个数据点之间，且每隔K点，相位值将归零，从而阻止了误差累积的传播。该方法简单易操作，执行效率高，累积误差控制严格，可满足实际工程需要。与传统基于ASIC/FPGA实现数字下变频方法相比，本发明利用GPU实现下变频，灵活性高，算法调试开发周期短，精度更高，可靠性更高，成本更低。与基于GPU实现数字NCO方法相比，本发明未使用查找表计算相位值，节省了宝贵的片上内存资源，资源利用率更高，且累加误差控制在有限的数据点内，误差累积更小。本发明设计出了一种基于GPU的计算下变频控制误差累积的方法，针对下变频本地频率与采样频率的关系，在保证下变频频率灵活可变的同时满足了精度要求，计结果算表明，可有效将累积误差控制在1e-8量级。

2、本发明基于GPU实现数字下变频，可充分利用GPU的高并行处理能力和基于CUDA编程的灵活性，根据需求灵活配置资源，克服了现有技术的不足，较基于查找表实现方法，节省了宝贵的片上资源，较基于ASIC/FPGA硬件实现下变频，具有开发便捷，重构灵活，升级扩展方便，后期维护升级成本更低等优点。

附图说明

图1典型数字下变频过程示意图；

图2为本发明实施例中基于GPU的数字下变频过程示意图；

图3为本发明实施例中100ms数据相位累加误差示意图；

图4为本发明实施例中100ms数据幅度累加误差示意图；

图5为本发明实施例中基于GPU实现下变频中单精度浮点数累积误差控制方法流程图；

图6为本发明实施例中基于GPU实现下变频中单精度浮点数累积误差控制方法流程图；

图7为本发明实施例中5.6K数据归零处理后相位累加误差示意图；

图8为本发明实施例中5.6K数据归零处理后幅度累加误差示意图；

图9为本发明实施例中优化后100ms幅度累加误差示意图；

图10为本发明实施例中优化后100ms相位累加误差示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种基于GPU实现下变频过程中控制误差累积的方法。基于GPU在实现下变频过程中，需要利用本地下变频信号与接收信号做点乘，利用GPU的多核多线程优势，可实现下变频数据的大规模并行处理，从而提高计算实时性，满足现代航天测控和深空干涉测量的实时性要求。但是受GPU浮点数精度限制，当时间累积到一定程度时，误差累积将变得非常严重，导致结果偏差较大。本发明设计出了一种基于GPU的计算下变频控制误差累积的方法，针对下变频本地频率与采样频率的关系，在保证下变频频率灵活可变的同时满足了精度要求，计结果算表明，可有效将累积误差控制在1e-8量级，较基于GPU的查找表实现高精度相位误差控制在1e-6，提高了两个数量级。

基于GPU实现数字下变频，可充分利用GPU的高并行处理能力和基于CUDA编程的灵活性，根据需求灵活配置资源，克服了现有技术的不足，较基于查找表实现方法，节省了宝贵的片上资源，较基于ASIC/FPGA硬件实现下变频，具有开发便捷，重构灵活，升级扩展方便，后期维护升级成本更低等优点。

基于GPU实现数字下变频

GPU(Graphics Processing Unit)图形处理器，是一种专门在个人电脑、工作站等上面进行图像运算工作的微处理器。在CUDA架构下，GPU执行运算的最小单位是线程(thread)，数个线程(thread)组成一个块(block)，一个块(block)中的线程(thread)能存取一块共享的内存，而且可以快速进行同步操作。不同块(block)中的线程(thread)无法存取同一个共享内存，因此无法直接互通或进行同步。数个块(block)组成一个网格(grid)，线程，块和网格有着不同的存储，GPU的计算核心是线程。

根据公式(3)可知，接收到的信号为s(n)＝a(n)cos[2πf₀n+φ₀]，其中a(n)为接收信号的幅度，f₀为接收信号的频率，φ₀为接收信号的初始相位值。基于GPU的数字下变频与传统硬件串行实现方式不同，在CUDA模型下，充分利用多核多线程优势，采用并行下变频实现方式。过程如图2所示。

为便于理解分析问题，图中采用一维网格(grid)和一维块(block)。接收信号每一个采样点都送入GPU中对应的一个线程做处理。为便于分析，以深空干涉测量下变频计算过程为例，输入信号采用某实际装备采集信号，中频频率70MHz，采样频率56MHz，码速率为1Msps，本地载波信号为14MHz，数据长度100ms。GPU处理后的下变频信号与真值作差，结果如图3、图4所示。从图中可以清楚的看到，随着时间的不断增长，由于GPU采用单精度浮点数运算，在求解相位φ＝2πf_Ln和幅度DDCsignal(n)＝s(n)*cos(2πf_Ln)时，n值越来越大，因单精度浮点数据精度引起相位和幅度的累加误差越来越大。

误差分析

造成上述累加误差越来越大的原因，是由于浮点数在计算机内存中存储位数有限。按照浮点数IEEE754表示方法，单精度浮点数float在内存中的存储结构如表1所示。

表1

31	30	29-23	22-0
				实数符号位	指数符号位	指数位	有效数位

其中，符号位1表示正，0表示负。有效位数为24位，其中一位是实数符号位。转换为十进制数，单精度浮点数的有效位数为6-7位。所以随着数据量的不断增大，n越来越大，受单精度浮点数有效位数限制，累加误差也越来越大。

基于GPU实现下变频中累积误差控制方法

由上述分析可知，产生累积误差的原因是数据量n的不断增长，导致相位值phase＝2πf_Ln越来越大。而浮点数精度又有限，在浮点数运算过程中，对阶和规格化操作产生的舍入误差将会累积放大。要将累积误差控制在可接受范围内，必须采取一定的方法。

本发明提供的约束数据长度的累积误差控制方法

通过上述分析，为有效控制误差累积，可以将时间处理数据量n控制在一定长度内。不失一般性，首先根据实际工程需要或指标要求，得到频率分辨率为ΔF_max，由分辨率和数据点数之间的关系，可得处理数据的点数N＝F_s/ΔF_max，即处理点数N与频率分辨率成反比关系，N越大，频率分辨率越小，反之亦然。此时，下变频频率是频率分辨率整倍数时，可以取到精确的下变频频率，即F_L＝mΔF_max。

根据确定好的N值，可以计算每次读入GPU缓存的数据量data_length＝j*N，即每次读入GPU缓存的数据长度是数据点数N的j倍，j取正整数。

相位归零的累积误差控制方法

通过计算数据长度N可知，F_L/F_s＝mΔF_max/NΔF_max＝m/N时，极限情况下，m和N不可约分，应将每N点数据归零操作(当m和N有公约数时，归零点可以小于N)。即做mod(n，N)运算，则可以将累积误差严格控制在N个点以内，而第二组数据进来时相位从0开始时，解决了累积误差传递问题。当m和N有公约数时m/N＝L*i/K*i＝L/K，归零点数可以更小，此时累积误差将会严格控制在K个点以内。基于GPU实现下变频过程中控制累积误差过程如图5和图6所示。

通过分析计算工程所需的分辨率，确定下变频频率值，进而确定好归零操作的K值。通过这一步，可以将相位值严格限定在0-((K-1)*L*2π/K)的K个相位值内。保证了相位精度。而在计算过程中，仅仅多了一项取模操作，对计算实时性几乎无影响。在保证计算实时性的同时，保证了相位的高精度高效计算。

仿真验证

以深空干涉测量下变频为例，根据深空干涉测量带宽为0.5M的倍数，按照最小带宽0.5M计算，考虑实际工程中频差不大于1％带宽即可满足频差要求，即频差不大于5KHz。按照该项指标，综合考虑采样频率56MHz，则根据式ΔF＝F_s/2N可得，N＝56MHz/2*5KHz＝5.6K。即下变频频率取5KHz整倍数时，实际计算时同时计算的数据块不超过5.6K Samples时满足实际工程需要。

根据图6过程，选择N＝5.6K做相位归零处理，计算结果如图7和图8所示。由图7和图8可以看出，经过本发明处理后，最恶劣的情况下，可以将幅度累加误差严格控制在10^-7范围内，相位误差控制在10^-4范围内，且累积误差不在随着时间的增长而增大。

实际工程中，选取得下变频频率是14MHz，即5KHz的2800整倍数。则可以满足频率分辨率。

同时，选取m/N＝14MHz/56MHz＝2800*5KHz/11200*5KHz＝1/4。即将每四个点相位归一到0相位，可实现相位控制在[0,pi/2,pi,3pi/2]四个相位值，无误差的累加。仿真结果如图9和图10所示。由图9和图10可以看出，通过分析采样频率、下变频频率和频率分辨率之间特定的关系。可以将相位值按照一定间隔循环归零，从而阻止了累积误差传递，将累加误差限定在有限的数据点内，从而大大提高计算精度。本解决方案将误差控制在10^-8以内。

在实际应用中，下变频频率和载波频率往往相差不会超过1个数量级，所以该方法在实际应用中，可以将累积误差有效控制在数个点内，在保证精度的情况下，也阻止了累积误差的传播。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GPU实现下变频中累积误差控制方法，其特征在于，GPU针对接收信号进行下变频处理，在下变频处理过程中，执行如下步骤：

步骤1：GPU接收主机送来的信号，即为接收信号，其采样频率为F_s；

步骤2：根据工程实际确定频率分辨率为ΔF_max，则GPU核函数一次处理数据量为N＝F_s/ΔF_max；根据需求计算GPU缓存一次读入数量data_length＝j×N，j＝1,2,3…；

步骤3：根据工程实际分辨率要求，选择下变频频率F_L＝mΔF_max；其中m取正整数；

步骤4：根据F_L/F_s＝mΔF_max/NΔF_max＝m/N，若m和N不可约分，将每N点数据进行相位归零操作，当m和N有公约数i时，m/N约分至L/K，则选取K为归零点数，即每K点数据进行相位归零操作；

步骤5：GPU核函数计算相位值，并将接收到的数据点按照每K点数据进行相位归零操作，即相位phase＝2π×F_L/F_s×mod(N,K)；

步骤6：GPU判断数据是否处理完毕，若是则输出处理结果，否则返回步骤1；

所述GPU针对接收信号进行下变频处理，具体为：

GPU图形处理器，在CUDA架构下，GPU执行运算的最小单位是线程thread，数个线程thread组成一个块block，一个块block中的线程thread存取一块共享的内存，不同块block中的线程thread无法存取同一个共享内存，数个块block组成一个网格grid，线程thread、块block和网格grid有不同的存储，GPU的计算核心是thread；

GPU接收到的信号为s(n)＝a(n)cos[2πf₀n+φ₀]，其中a(n)为接收信号的幅度，f₀为接收信号的频率，φ₀为接收信号的初始相位值，n为数据点采样点；

2.如权利要求1所述的方法，其特征在于，所述GPU采用单精度浮点数运算。

3.如权利要求1～2任一所述的方法，其特征在于，所述GPU核函数一次处理数据量为N＝F_s/ΔF_max，即GPU核函数一次处理数据量N与频率分辨率成反比关系。

4.如权利要求1～2任一所述的方法，其特征在于，所述根据需求计算GPU缓存一次读入数量data_length＝j×N，j＝1,2,3…，即每次读入GPU缓存的数据长度是数据点数N的j倍，j取正整数。