CN113015254B

CN113015254B - 一种基于gpp资源的波形部署方法、装置、设备及介质

Info

Publication number: CN113015254B
Application number: CN202110459557.1A
Authority: CN
Inventors: 王杉; 庄佩文; 魏急波; 唐麒
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-10-15
Anticipated expiration: 2041-04-27
Also published as: CN113015254A

Abstract

本申请公开了一种基于GPP资源的波形部署方法、装置、设备及介质，包括：获取各波形应用组件的GPP资源需求；不断扫描，得到实时的GPP设备资源，并在每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈，并基于所述波形部署策略更新所述GPP设备资源；当扫描次数达到预设次数，则利用全部所述整体反馈从所述波形部署策略中确定出最优波形部署策略，并根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中。这样，能够在波形部署时考虑实时资源情况，从而高效合理的利用GPP资源，提升通信效率。

Description

一种基于GPP资源的波形部署方法、装置、设备及介质

技术领域

本申请涉及软件无线电技术领域，特别涉及一种基于GPP资源的波形部署方法、装置、设备及介质。

背景技术

软件无线电以一个通用标准和模块化的硬件平台为依托，通过软件来实现无线电设备的各种功能，通过共享通用的可互换的软件与硬件组件实现系统的可伸缩性与互连互通性，是实现系统集成与优化设计的重要技术手段。

目前，在软件无线电领域的波形应用部署中，传统的部署方式为静态部署，即通过开发人员编写部署配置文件完成对波形应用组件的部署，对于多核处理器的情况，处理器内核随机分配资源，这会引发处理器之间资源是否高效合理利用的问题。

发明内容

有鉴于此，本申请的目的在于提供一种基于GPP资源的波形部署方法、装置、设备及介质，能够在波形部署时考虑实时资源情况，从而高效合理的利用GPP资源，提升通信效率。其具体方案如下：

第一方面，本申请公开了一种基于GPP资源的波形部署方法，其特征在于，包括：

获取各波形应用组件的GPP资源需求；

不断扫描，得到实时的GPP设备资源，并在每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈，并基于所述波形部署策略更新所述GPP设备资源；

当扫描次数达到预设次数，则利用全部所述整体反馈从所述波形部署策略中确定出最优波形部署策略，并根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中。

可选的，所述每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈，包括：

在首次扫描到GPP设备资源时，根据扫描到的GPP设备资源为第一个待分配资源的波形应用组件在满足该波形应用组件的所述GPP资源需求的所有GPP设备中随机分配一台GPP设备，针对其他波形应用组件，基于扫描到的GPP设备资源以及已分配的波形应用组件所分配的GPP设备资源，在满足相应波形应用组件的所述GPP资源需求的所有GPP设备中随机分配一台GPP设备，得到本次扫描到的GPP设备资源下的波形部署策略，并确定当前波形部署策略对应的整体反馈；

在非首次扫描到GPP设备资源时，生成随机数；

若所述随机数小于预设值，则根据扫描到的GPP设备资源为第一个待分配资源的波形应用组件在满足该波形应用组件的所述GPP资源需求的所有GPP设备中随机分配一台GPP设备，针对其他波形应用组件，基于扫描到的GPP设备资源以及已分配的波形应用组件所分配的GPP设备资源，在满足相应波形应用组件的所述GPP资源需求的所有GPP设备中随机分配一台GPP设备，得到本次扫描到的GPP设备资源下的波形部署策略，并确定当前波形部署策略对应的整体反馈；

若所述随机数大于或等于所述预设值，则将已确定出的所有整体反馈中最大的整体反馈对应的所述波形部署策略确定为当前的GPP设备资源下的波形部署策略，以及将最大的整体反馈确定为当前波形部署策略对应的整体反馈。

可选的，确定当前波形部署策略对应的整体反馈，包括：

利用所述GPP资源需求中每个波形应用组件的需求处理速度和需求容量以及每个波形应用组件被分配到的GPP设备当前的处理速度和容量大小确定各波形应用组件的整体反馈。

可选的，确定当前波形部署策略对应的整体反馈，包括：

利用预设反馈函数、每个波形应用组件的所述需求处理速度和所述需求容量、以及每个波形应用组件被分配到的GPP设备当前的处理速度和容量大小确定每个波形应用组件对应的反馈；

基于每个波形应用组件对应的反馈确定当前波形部署策略对应的整体反馈；

其中，所述预设反馈函数为R＝(rate_i-rate)^x*(capacity_i-capacity)^y；

并且，R表示反馈，rate_i、capacity_i分别表示当前波形应用组件被分配到的GPP设备i当前的处理速度、容量大小，rate、capacity分别表示波形应用组件的需求处理速度、需求容量，x,y分别为调节处理速度、容量大小对反馈的影响程度的参数。

可选的，所述不断扫描，得到实时的GPP设备资源，包括：

不断扫描，得到实时的GPP设备匹配资源和GPP设备分配资源；其中，所述GPP设备匹配资源包括GPP设备的处理器类型、处理器型号以及操作系统，所述GPP设备分配资源包括GPP设备的处理速度和容量大小。

可选的，所述不断扫描，得到实时的GPP设备匹配资源和GPP设备分配资源，包括：

不断扫描，得到实时的并且利用预设GPP设备匹配资源模型表示的GPP设备匹配资源，以及利用GPP设备分配资源模型表示的GPP设备分配资源。

第二方面，本申请公开了一种基于GPP资源的波形部署装置，包括：

GPP资源需求获取模块，用于获取各波形应用组件的GPP资源需求；

GPP设备资源扫描模块，用于不断扫描，得到实时的GPP设备资源；

策略及反馈确定模块，用于在所述GPP设备资源扫描模块每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈；

GPP设备资源更新模块，用于基于所述波形部署策略更新所述GPP设备资源；

最优部署策略确定模块，用于当扫描次数达到预设次数，则利用全部所述整体反馈从所述波形部署策略中确定出最优波形部署策略；

GPP资源部署模块，用于根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中。

可选的，所述策略及反馈确定模块，具体用于：

在非首次扫描到GPP设备资源时，生成随机数；

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的基于GPP资源的波形部署方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的基于GPP资源的波形部署方法。

可见，本申请获取各波形应用组件的GPP资源需求，并不断扫描，得到实时的GPP设备资源，并在每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈，并基于所述波形部署策略更新所述GPP设备资源；当扫描次数达到预设次数，则利用全部所述整体反馈从所述波形部署策略中确定出最优波形部署策略，并根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中。也即，本申请实施例利用强化学习，根据实时GPP设备资源确定出最优波形部署策略，然后根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中，这样，能够在波形部署时考虑实时资源情况，从而高效合理的利用GPP资源，提升通信效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种基于GPP资源的波形部署方法流程图；

图2为本申请公开的一种具体的基于GPP资源的波形部署方法流程图；

图3为本申请公开的一种具体的基于GPP资源的波形部署方案示意图；

图4为本申请公开的一种具体的基于GPP资源的波形预部署流程图；

图5为本申请公开的一种具体的最优波形部署策略获取流程图；

图6为本申请公开的一种具体的基于GPP资源的波形部署示意图；

图7为本申请公开的一种波形部署平均奖励比对示意图；

图8为本申请公开的一种波形部署方案延时比对图；

图9为本申请公开的一种基于GPP资源的波形部署装置结构示意图；

图10为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在软件无线电领域的波形应用部署中，传统的部署方式为静态部署，即通过开发人员编写部署配置文件完成对波形应用组件的部署，对于多核处理器的情况，处理器内核随机分配资源，这会引发处理器之间资源是否高效合理利用的问题。为此，本申请提供了一种基于GPP资源的波形部署方案，能够在波形部署时考虑实时资源情况，从而高效合理的利用GPP资源，提升通信效率。

参见图1所示，本申请实施例公开了一种基于GPP资源的波形部署方法，包括：

步骤S11：获取各波形应用组件的GPP资源需求。

需要指出的是，将一个波形应用以最合适的颗粒度分层，包括GPP组件、DSP组件和FPGA组件，本申请中的波形应用组件为GPP组件。

步骤S12：不断扫描，得到实时的GPP设备资源，并在每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈，并基于所述波形部署策略更新所述GPP设备资源。

在具体的实施方式中，在首次扫描到GPP设备资源时，根据扫描到的GPP设备资源为第一个待分配资源的波形应用组件在满足该波形应用组件的所述GPP资源需求的所有GPP设备中随机分配一台GPP设备，针对其他波形应用组件，基于扫描到的GPP设备资源以及已分配的波形应用组件所分配的GPP设备资源，在满足相应波形应用组件的所述GPP资源需求的所有GPP设备中随机分配一台GPP设备，得到本次扫描到的GPP设备资源下的波形部署策略，并确定当前波形部署策略对应的整体反馈。

也即，在第一次扫描到GPP设备资源时，依次为各波形应用组件分配对应的GPP设备资源，在分配时，每个波形应用组件均需要考虑该组件对应的GPP资源需求，以及扫描到GPP设备资源，非第一个待分配资源的波形应用组件还需要考虑已分配的GPP设备资源。比如，第一个待分配资源的波形应用组件分配一台GPP设备，该台GPP设备在分配给第一个待分配资源的波形应用组件之后，该台GPP设备剩余资源无法满足第二个待分配资源的波形应用组件的需求，则不为第二个待分配资源的波形应用组件分配该台GPP设备，而是分配其他满足需求的设备。在分配GPP设备后，GPP设备资源发生变化，因此需要更新GPP设备资源。

在非首次扫描到GPP设备资源时，生成随机数；若所述随机数小于预设值，则根据扫描到的GPP设备资源为第一个待分配资源的波形应用组件在满足该波形应用组件的所述GPP资源需求的所有GPP设备中随机分配一台GPP设备，针对其他波形应用组件，基于扫描到的GPP设备资源以及已分配的波形应用组件所分配的GPP设备资源，在满足相应波形应用组件的所述GPP资源需求的所有GPP设备中随机分配一台GPP设备，得到本次扫描到的GPP设备资源下的波形部署策略，并确定当前波形部署策略对应的整体反馈；若所述随机数大于或等于所述预设值，则将已确定出的所有整体反馈中最大的整体反馈对应的所述波形部署策略确定为当前的GPP设备资源下的波形部署策略，以及将最大的整体反馈确定为当前波形部署策略对应的整体反馈。

也即，每次扫描到实时的GPP设备资源，均会确定相应的波形部署策略以及当前波形部署策略对应的整体反馈，当随机数大于或等于预设值时，从历史扫描对应的整体反馈中确定出最大的整体反馈，进而将最大的整体反馈对应的部署策略确定为本次扫描对应的波形部署策略。

需要指出的是，本申请实施例在每次扫描过程中通过生成随机数以及预设值，让每次扫描根据随机数和预设值的比较结果确定相应的波形部署策略和整体反馈，并且，根据已确定出的整体反馈确定波形部署策略，将最大的整体反馈对应的所述波形部署策略确定为当前的GPP设备资源下的波形部署策略，这样，能够在不断迭代后，使实时确定出的波形部署策略趋于最优，即整体反馈趋于最大。

其中，确定当前波形部署策略对应的整体反馈，包括：

在具体的实施方式中，可以利用预设反馈函数、每个波形应用组件的所述需求处理速度和所述需求容量、以及每个波形应用组件被分配到的GPP设备当前的处理速度和容量大小确定每个波形应用组件对应的反馈；利用每个波形应用组件对应的反馈确定当前波形部署策略对应的整体反馈；

也即，在任一GPP设备上分配波形应用组件后，若再为其他波形应用组件分配该GPP设备，则减去上一波形应用组件所占用的资源，得到当前的处理速度和容量大小，进行反馈计算。

在具体的实施方式中，若所有GPP设备上均部署了波形应用组件，则可以将每个波形应用组件对应的反馈相加，得到当前波形部署策略对应的整体反馈，若存在没有部署波形应用组件的GPP设备，则可以将每个波形应用组件对应的反馈相加，得到反馈和，并计算没有部署波形应用组件的GPP设备对应的反馈，将该反馈和反馈和相加，得到整体反馈。这样，在整体反馈的计算过程中，考虑了所有GPP设备资源。

其中，利用预设反馈函数计算没有部署波形应用组件的GPP设备对应的反馈，rate、capacity取0。

也即，本申请实施例可以利用强化学习进行波形的预部署，将GPP设备资源设置为环境，环境处于不断变化的过程，利用强化学习中Agent(智能体)和环境不断交互的思想，实现波形部署方案中预部署步骤的实时策略生成的功能。其中考虑的反馈主要是环境中的实时数据，通过反馈函数实时反馈软件无线电系统实时资源，使得自动生成的部署方案趋于更优。通过反馈函数中调节处理速度、容量大小对反馈的影响程度的参数解决不同类型资源影响能力不同的问题，有利于资源在各自影响能力基础上实现均衡利用，同时提高通信效率。

步骤S13：当扫描次数达到预设次数，则利用全部所述整体反馈从所述波形部署策略中确定出最优波形部署策略，并根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中。

在具体的实施方式中，从全部波形部署策略中确定出整体反馈最大的波形部署策略，得到最优波形部署策略。

可见，本申请实施例获取各波形应用组件的GPP资源需求，并不断扫描，得到实时的GPP设备资源，并在每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈，并基于所述波形部署策略更新所述GPP设备资源；当扫描次数达到预设次数，则利用全部所述整体反馈从所述波形部署策略中确定出最优波形部署策略，并根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中。也即，本申请实施例利用强化学习，根据实时GPP设备资源确定出最优波形部署策略，然后根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中，这样，能够在波形部署时考虑实时资源情况，从而高效合理的利用GPP资源，提升通信效率。

参见图2所示，本申请实施例公开了一种具体的基于GPP资源的波形部署方法，包括：

步骤S21：获取各波形应用组件的GPP资源需求。

在具体的实施方式中，可以获取各波形应用组件的利用预设资源需求模型表示的GPP资源需求。

步骤S22：不断扫描，得到实时的GPP设备匹配资源和GPP设备分配资源；并在每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈，并基于所述波形部署策略更新所述GPP设备资源；其中，所述GPP设备匹配资源包括GPP设备的处理器类型、处理器型号以及操作系统，所述GPP设备分配资源包括GPP设备的处理速度和容量大小。在具体的实施方式中，可以不断扫描，得到实时的并且利用预设GPP设备匹配资源模型表示的GPP设备匹配资源，以及利用GPP设备分配资源模型表示的GPP设备分配资源。

相应的，在为各波形应用组件分配GPP设备时，判断是否满足相应波形应用组件的GPP资源需求包括判断是否满足匹配资源需求以及分配资源需求。

并且，本实施例可以利用GPP设备资源模型表示GPP设备资源，可以扫描，基于利用GPP设备资源模型表示GPP设备资源，得到实时的并且利用预设GPP设备匹配资源模型表示的GPP设备匹配资源，以及利用GPP设备分配资源模型表示的GPP设备分配资源。相应的，基于所述波形部署策略更新所述GPP设备资源，即更新利用GPP设备资源模型表示GPP设备资源。

也即，本申请实施例可以构建资源需求模型、GPP设备匹配资源模型、GPP设备分配资源模型、GPP设备资源模型。

需要指出的是，使用强化学习算法需先对算法中的元素进行建模，主要包括GPP设备和波形应用组件，建模主要依据现有的硬件技术标准。随着硬件技术的推进，如今的处理器(如GPP)多以多核的方式存在，不仅仅是芯片内部处理器数量上的增多，处理器内部体系架构也是不同的。波形能否部署于某芯片上，架构匹配是需要考虑的第一影响因素。同时，由于处理器架构不同，其处理能力不同，面向的应用目标也不同，这又间接影响波形功能的实现。

通信设备上的GPP处理资源由N个GPP设备以一定的互联拓扑结构组成，可建模为一个长度为N的GPP设备序列，即：

GPP＝(GPP₁ GPP₂ … GPP_N)'

其中，每一个GPP设备资源由T_M种匹配特性和T_A种分配特性进行描述，具体为：

GPP_i＝(R_M(GPP_i)R_A(GPP_i))

其中，R_M(GPP_i)表示第i台GPP设备的匹配资源，只有组件的匹配需求与设备匹配资源相适应，部署才能进一步进行。R_A(GPP_i)表示第i台GPP设备的分配资源，描述了处理资源的能力大小，包括处理速度、容量大小等。将匹配资源、分配资源分别建模为长度分别为T_M和T_A的一维矢量，矢量中每一个元素描述一项匹配特性或分配特性，即可得到每个GPP设备资源的匹配模型和分配模型：

R_M(GPP_i)＝(type_i model_i OS_i)；

R_A(GPP_i)＝(rate_i capacity_i)；

其中，type_i，model_i及OS_i分别表示第i台GPP设备的处理器类型、处理器型号及操作系统；rate_i和capacity_i分别表示第i台GPP设备的处理速度及容量大小。

可得到，全部GPP设备对应的GPP设备匹配资源模型：

全部GPP设备对应的GPP设备分配资源模型：

最终，GPP设备资源模型可表示为：

与GPP设备资源模型对应，每个波形应用组件的资源需求模型为：

gpp＝(r_m(gpp)r_a(gpp))

＝(type model OS rate capacity)

其中，r_m(gpp)表示需求匹配资源，r_a(gpp)表示需求分配资源，type、model、OS、rate、capacity分别表示波形应用组件的需求处理器类型、需求处理器型号以及需求操作系统、需求处理速度、需求容量。

步骤S23：当扫描次数达到预设次数，则利用全部所述整体反馈从所述波形部署策略中确定出最优波形部署策略，并根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中。

参见图3所示，图3为本申请公开的一种具体的基于GPP资源的波形部署方案示意图。

A1:域管理器创建应用工厂，不断扫描，得到实时的GPP设备资源，包含所有的GPP设备的GPP设备匹配资源和GPP设备分配资源。

A2:获取各波形应用组件的GPP资源需求后，通过基于强化学习的预部署过程，经过预设次数的迭代，智能体Agent计算产生最优波形部署策略；

A3:根据预部署得出的最优波形部署策略，将波形应用组件部署到对应的GPP设备中，进行功能实现验证。

需要指出的是，预部署过程需要进行大量的数据匹配、对比和筛选，通过预设的反馈函数和探索算法相结合，前述预设值即为探索算法的探索率，在资源情况不断变化的动态环境中寻找最优波形部署方案。机器学习中的强化学习(Reinforcement Learning，RL)是一个动态学习过程。智能体(agent)与环境(Environment)对动作(Action)、状态(state)以及反馈(reward)等信息进行交互，通过不断地训练，提高决策能力，使智能体学习并决定在每个状态下应当执行什么动作，从而使效益最大化。

基于强化学习的预部署过程可参考图4所示，图4为本申请实施例公开的一种具体的基于GPP资源的波形预部署流程图。

预部署过程包括：获取各波形应用组件的GPP资源需求；不断扫描，得到实时的GPP设备资源，并在每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈，并基于所述波形部署策略更新所述GPP设备资源，直到扫描次数达到预设次数。具体的：

将GPP设备资源R_M(GPP)和R_A(GPP)设置为环境Environment，环境处于不断变化的过程；智能体Agent获取各波形应用组件的GPP资源需求；智能体Agent依照现有的环境状态R_M(GPP)、R_A(GPP)或历史扫描对应的整体反馈，为各波形应用组件选择对应GPP设备，得到本次扫描的波形部署策略；Environment更新资源状态，并确定相应的整体反馈；Agent根据新的资源状态和整体反馈再次进行部署；Agent通过动态学习不断选择趋向更优的波形部署策略，得出最优波形部署策略。

例如，参见图5所示，图5为本申请实施例公开的一种具体的最优波形部署策略获取流程图。设置扫描次数i以及探索率eq，即前述预设值，并利用反馈表记录整体反馈，不断迭代，最终输出最优波形部署策略。

进一步的，本申请实施例可以在每次产生整体反馈后，计算平均反馈，平均反馈为已确定的整体反馈之和除以已扫描次数，并根据平均反馈验证得到的最优波形部署策略。

需要指出的是，本申请方案，随着迭代次数的增加，会慢慢趋向选择整体反馈最高的部署方案，平均奖励也会慢慢稳定，约等于最优波形部署方案的整体反馈，因此，可以利用平均奖励与最优波形部署策略对应的整体反馈的差值判断是否成功确定出最优波形部署策略。

下面，对本申请实施例进行仿真验证，具体通过C语言和MATLAB在虚拟机中进行验证。虚拟机参数如表1。

表1

指标名称	参数
		核数	4
内存	4G
		操作系统	Linux

通过虚拟机的四个核模拟4台GPP设备，每个设备携带的能力如表2所示。

表2

设计3个波形应用，每个波形应用由1个或2个波形应用组件组成，如表3，将这些组件优化部署到GPP设备上，提高资源的利用率并降低通信延迟。

表3

波形应用	组件数	组件1	组件2
				WF1	2	LLC1	NET1
WF2	1	LLC2	-
				WF3	1	LLC3	-

虚拟平台上的资源情况可作为强化学习算法的输入，按照GPP资源模型格式进行抽象建模，训练阶段结束后，将算法得出的最优波形部署策略应用到虚拟平台上。参见图6所示，图6为本申请实施例公开的一种具体的基于GPP资源的波形部署示意图。

在仿真实验中，rate用CPU内核空闲的百分比表示，capacity用内存表示。参见图7所示，图7为本申请实施例公开的一种波形部署平均奖励比对示意图。图7中横坐标为迭代次数，纵坐标为平均奖励，比传统算法的平均(累计)奖励高很多。经过1000次迭代，传统方法的平均奖励稳定在GPP反馈的平均值，说明在部署GPP时，每个设备被选择的概率是均等的，GPP组件随机部署。当使用本申请实施例提供的波形部署方案，平均奖励显著提高，这意味着本方案趋于选中最优部署方案。

需要指出的是，平均奖励与迭代次数相关，整体反馈为单次迭代中所有组件部署到设备中产生的反馈，整体反馈＝某次迭代中m个组件部署于n个设备后，每台设备产生的反馈之和，而平均奖励为多次部署后的累计数据，具体的，平均奖励＝前k次迭代产生的整体反馈之和/k。例如，假设有4台设备为A、B、C、D，三个组件x、y、z，设置的迭代次数为1000次，→代表部署。其中，部署方案(有4³种)不同，四台设备反馈各不相同，整体反馈则不同。每台设备(比如设备i)的反馈根据R＝(rate_i-rate)^x*(capacity_i-capacity)^y计算。第一次迭代：x→A，y→B，z→C；整体反馈1＝波形应用组件x部署在A设备的反馈+波形应用组件y部署在B设备的反馈+波形应用组件z部署在C的反馈+没有波形部署的D设备的反馈，平均奖励1＝整体反馈1/1；第二次迭代：x→B，y→C，z→C；整体反馈2＝没有波形部署的A设备的反馈+波形应用组件x部署在B设备的反馈+波形应用组件y部署在C设备的反馈+波形应用组件z部署在C设备的反馈+没有波形部署的D设备的反馈，平均奖励2＝(整体反馈1+整体反馈2)/2；这样，随着迭代次数的增加，会慢慢趋向选择整体反馈最高的部署方案，平均奖励也会慢慢稳定，约等于最优波形部署方案的整体反馈，因为：平均奖励1000＝(奖励1+……+最高奖励+最高奖励+……+最高奖励)/1000。与之对比的传统算法，每次部署方案都随机生成，则平均奖励会趋向于所有方案的平均值，即4³种方案反馈的平均值。

并且，将MATLAB计算结果应用于虚拟平台，测试传输1024个字节的传输时延。结果显示：与传统方法相比，通信时延有了明显的改善，例如，参见图8所示，图8为本申请实施例公开的一种波形部署方案延时比对图。其中，以3个波形为例，传统部署方案通信延迟约为37us，本申请方案通信延迟约为21us，减少了16us左右。这说明对于多通道波形同时部署的情况，本申请提供的波形部署方案在节省GPP资源的同时，有效地提高了通信效率。

参见图9所示，本申请提供了一种基于GPP资源的波形部署装置，包括：

GPP资源需求获取模块11，用于获取各波形应用组件的GPP资源需求；

GPP设备资源扫描模块12，用于不断扫描，得到实时的GPP设备资源；

策略及反馈确定模块13，用于在所述GPP设备资源扫描模块每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈；

GPP设备资源更新模块14，用于基于所述波形部署策略更新所述GPP设备资源；

最优部署策略确定模块15，用于当扫描次数达到预设次数，则利用全部所述整体反馈从所述波形部署策略中确定出最优波形部署策略；

GPP资源部署模块16，用于根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中。

其中，所述策略及反馈确定模块13，具体用于：

在非首次扫描到GPP设备资源时，生成随机数；

并且，策略及反馈确定模块13，具体用于：

进一步的，策略及反馈确定模块13，具体用于利用预设反馈函数、每个波形应用组件的所述需求处理速度和所述需求容量、以及每个波形应用组件被分配到的GPP设备当前的处理速度和容量大小确定每个波形应用组件对应的反馈；

GPP设备资源扫描模块12，用于不断扫描，得到实时的GPP设备匹配资源和GPP设备分配资源；其中，所述GPP设备匹配资源包括GPP设备的处理器类型、处理器型号以及操作系统，所述GPP设备分配资源包括GPP设备的处理速度和容量大小。

在具体的实施方式中，GPP设备资源扫描模块12，用于不断扫描，得到实时的并且利用预设GPP设备匹配资源模型表示的GPP设备匹配资源，以及利用GPP设备分配资源模型表示的GPP设备分配资源。

参见图10所示，本申请实施例公开了一种电子设备，包括处理器21和存储器22；其中，所述存储器22，用于保存计算机程序；所述处理器21，用于执行所述计算机程序，以实现前述实施例公开的基于GPP资源的波形部署方法。

关于上述基于GPP资源的波形部署方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的基于GPP资源的波形部署方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种基于GPP资源的波形部署方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于GPP资源的波形部署方法，其特征在于，包括：

获取各波形应用组件的GPP资源需求；

当扫描次数达到预设次数，则利用全部所述整体反馈从所述波形部署策略中确定出最优波形部署策略，并根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中；

其中，所述每次扫描到GPP设备资源时，基于强化学习确定所述GPP资源需求在当前的GPP设备资源下的波形部署策略以及当前波形部署策略对应的整体反馈，包括：

在非首次扫描到GPP设备资源时，生成随机数；

若所述随机数大于或等于所述预设值，则将已确定出的所有整体反馈中最大的整体反馈对应的所述波形部署策略确定为当前的GPP设备资源下的波形部署策略，以及将最大的整体反馈确定为当前波形部署策略对应的整体反馈；

其中，确定当前波形部署策略对应的整体反馈，包括：

利用所述GPP资源需求中每个波形应用组件的需求处理速度和需求容量以及每个波形应用组件被分配到的GPP设备当前的处理速度和容量大小确定当前波形部署策略对应的整体反馈；

其中，确定当前波形部署策略对应的整体反馈，包括：

2.根据权利要求1所述的基于GPP资源的波形部署方法，其特征在于，所述不断扫描，得到实时的GPP设备资源，包括：

3.根据权利要求2所述的基于GPP资源的波形部署方法，其特征在于，所述不断扫描，得到实时的GPP设备匹配资源和GPP设备分配资源，包括：

4.一种基于GPP资源的波形部署装置，其特征在于，包括：

GPP资源部署模块，用于根据所述最优波形部署策略将各波形应用组件部署至对应的GPP设备中；

其中，所述策略及反馈确定模块，具体用于：

在非首次扫描到GPP设备资源时，生成随机数；

并且，策略及反馈确定模块，具体用于：

利用所述GPP资源需求中每个波形应用组件的需求处理速度和需求容量以及每个波形应用组件被分配到的GPP设备当前的处理速度和容量大小确定各波形应用组件的整体反馈；

并且，策略及反馈确定模块，具体用于利用预设反馈函数、每个波形应用组件的所述需求处理速度和所述需求容量、以及每个波形应用组件被分配到的GPP设备当前的处理速度和容量大小确定每个波形应用组件对应的反馈；

5.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至3任一项所述的基于GPP资源的波形部署方法。

6.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的基于GPP资源的波形部署方法。