CN117997467A

CN117997467A - 一种配置方法、配置装置及存储介质

Info

Publication number: CN117997467A
Application number: CN202211366739.5A
Authority: CN
Inventors: 李高盛; 常世元; 徐溪明; 张斌; 李玉诗
Original assignee: Datang Mobile Communications Equipment Co Ltd
Current assignee: Datang Mobile Communications Equipment Co Ltd
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2024-05-07

Abstract

本发明公开了一种配置方法、配置装置及存储介质，用以解决网络难以持续高效运行的问题，包括：向终端持续发送具有预设帧结构的数据包，使终端反馈对应的接收状态报告，进而确定基站的当前系统状态值；预设帧结构是根据MCS与RANK的当前调度值配置的；当前系统状态值包括MCS与RANK的当前上报值及第一通信服务质量指标；用MCS与RANK的自优化模型对当前系统状态值及当前调度值进行计算，获得调度修正值；自优化模型用于据当前调度值与当前系统状态值，预测不同调整量对应的第二通信服务质量指标，选高于第一通信服务质量指标的第二通信服务质量指标对应的调整量作为修正值；用调度修正值修正当前调度值，重配置预设帧结构。

Description

一种配置方法、配置装置及存储介质

技术领域

本发明涉及通信领域，尤其是涉及一种配置方法、配置装置及存储介质。

背景技术

在第五代移动通信系统(the fifith generation mobile network，5G)无线通信网络中，(the next Generation Node B，下一代通用基站，又称5G基站)通过调制与编码策略(Modulation and Coding Scheme，MCS)保障UE业务的传输效率和传输质量，通过空分复用流数(RANK，也称作秩)控制时频资源的复用。

当信道质量好时，采用更高阶的调制方式和更高的编码效率；当信道质量差时，采用更低阶的调制方式和更低的编码效率；在时频资源不变的情况下，码字通过层映射到各个流上，类似于串行到并行的变换，一般层数越多、速率越高；多流之间其相关性越低，抗干扰能力越强，RANK越高。可见，MCS、RANK和感知速率存在正相关的关系，对于MCS和RANK而言，只要两者越大，感知速率原则上都会更大。因此，基于无线环境快速设置最优的MCS与RANK参数组合是实现速率快速提升的关键。

在现有技术中，通常是无线算法工程师通过通信系统仿真以及外场测试的方式形成MCS与RANK配置修正方案，其主要流程为：首先，基于一系列门限和仿真曲线构建专家系统；然后，依据终端上报的信道状态测量指标，以及基站小区测量或预测的终端信道状态信息设置MCS与RANK的配置值；最后，根据终端传输反馈信息(例如ACK/NACK)进行MCS与RANK修正。

然而，上述方案通常适用于用户场景较稳定的情况，而对于用户信道状态变化较快的场景环境，基于终端的反馈难以快速完成MCS与RANK修正，这使得MCS与RANK修成的过程偏长；并且，由于基站侧的MCS与RANK设定及修正算法来自于预设专家系统，仿真和测试的信道环境类型有限，无法普适于各种外场环境。而在外场测试环节中，经常出现MCS与RANK配置值过低或过高，需要后续修正环节修正，但在终端运动导致信道快速变化的场景下，修正速度无法匹配信道变化速度，进而导致终端始终无法处于理想的MCS与RANK设置，影响了系统性能。

鉴于此，如何实时根据基站小区的终端环境为其反馈适宜的MCS与RANK配置指标，以确保网络持续高效的运行，成为一个亟待解决的技术问题。

发明内容

本发明提供一种配置方法、配置装置及存储介质，用以解决现有技术中存在的无法实时为基站配置合适的MCS与RANK指标，使网络持续高效运行的技术问题。

第一方面，为解决上述技术问题，本发明实施例提供的一种配置方法，应用于基站，该配置方法的技术方案如下：

向终端持续发送具有预设帧结构的数据包，使所述终端反馈对应的接收状态报告；其中，所述预设帧结构是根据调制与编码策略MCS与空分复用流数RANK的当前调度值配置的；

根据所述接收状态报告，确定在所述当前调度值配置下所述基站的当前系统状态值；其中，所述当前系统状态值包括所述MCS与RANK的当前上报值，及在所述当前调度值配置下所述基站的第一通信服务质量指标；

用所述MCS与RANK的自优化模型对所述当前系统状态值及所述当前调度值进行计算，获得所述MCS与RANK的调度修正值；其中，所述自优化模型用于根据所述当前调度值与所述当前系统状态值，预测所述当前调度值在使用不同调整量后产生的第二通信服务质量指标，并选取高于所述第一通信服务质量指标的第二通信服务质量指标对应的调整量作为所述修正值；

用所述调度修正值修正所述当前调度值，用修正后的所述当前调度值重新配置所述预设帧结构。

一种可能的实施方式，构建所述自优化模型，包括：

构建强化学习算法的输入参数、输出参数及评价体系；其中，所述输入参数包括所述当前系统状态值及所述当前调度值，所述输出参数为所述调整量，所述评价体系用于预测调整所述当前调度值后产生的所述第一通信服务质量指标；

用样本数据对所述强化学习算法进行迭代训练，直至训练后的强化学习算法的收益达到预设值，获得所述自优化模型。

一种可能的实施方式，用样本数据对所述强化学习算法进行迭代训练，直至训练后的强化学习算法的收益达到预设值，获得所述自优化模型，包括：

按时间序列，用历史样本数据对所述强化学习算法进行迭代训练，直至训练后的强化学习算法的收益达到所述预设值，获得所述自优化模型。

将实时获得的系统状态值及对应的调度值作为所述样本数据，持续训练所述强化学习算法，直至训练后的强化学习算法的收益达到所述预设值，获得所述自优化模型。

一种可能的实施方式，所述强化学习算法，包括：

Q学习Q-learning、深度Q学习Deep Q-learning、状态-动作-回报-状态-动作的链式算法SARSA、决策评价算法AC、异步优势的决策评价算法A3C、深度确定性策略梯度DDPG、置信域策略优化算法TRPO、近端策略优化算法PPO。

一种可能的实施方式，所述第一通信服务质量指标和所述第二通信服务质量指标，包括：

误块率、频谱效率、单次修正吞吐量中的至少一个。

一种可能的实施方式，所述单次修正吞吐量的计算公式为：

TH＝eff×RANK×(1-BLER)；

其中，所述eff为所述频谱效率，所述BLER为所述误块率。

一种可能的实施方式，向终端持续发送具有预设帧结构的数据包之前，还包括：

获取所述MCS与RANK的当前调度值；

根据所述当前调度值配置所述预设帧结构；

基于所述预设帧结构持续生成数据包。

一种可能的实施方式，获取所述MCS与RANK的当前调度值，包括：

配置满足所述基站正常运行所需的基础参数；

唤醒或激活所述自优化模型；

从所述自优化模型获取所述MCS与RANK的初始调度值；

将所述初始调度值作为所述MCS与RANK的当前调度值。

一种可能的实施方式，所述基础参数，包括：

系统参数、高层参数、物理层参数。

第二方面，本发明实施例还提供一种配置装置，包括存储器，收发机，处理器：

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：

一种可能的实施方式，所述处理器还用于：

一种可能的实施方式，所述强化学习算法，包括：

误块率、频谱效率、单次修正吞吐量中的至少一个。

一种可能的实施方式，所述单次修正吞吐量的计算公式为：

TH＝eff×RANK×(1-BLER)；

其中，所述eff为所述频谱效率，所述BLER为所述误块率。

一种可能的实施方式，所述处理器还用于：

获取所述MCS与RANK的当前调度值；

根据所述当前调度值配置所述预设帧结构；

基于所述预设帧结构持续生成数据包。

一种可能的实施方式，所述处理器还用于：

配置满足所述基站正常运行所需的基础参数；

唤醒或激活所述自优化模型；

从所述自优化模型获取所述MCS与RANK的初始调度值；

将所述初始调度值作为所述MCS与RANK的当前调度值。

一种可能的实施方式，所述基础参数，包括：

系统参数、高层参数、物理层参数。

第三方面，本发明实施例提供了一种配置装置，包括：

发送单元，用于向终端持续发送具有预设帧结构的数据包，使所述终端反馈对应的接收状态报告；其中，所述预设帧结构是根据调制与编码策略MCS与空分复用流数RANK的当前调度值配置的；

确定单元，用于根据所述接收状态报告，确定在所述当前调度值配置下所述基站的当前系统状态值；其中，所述当前系统状态值包括所述MCS与RANK的当前上报值，及在所述当前调度值配置下所述基站的第一通信服务质量指标；

处理单元，用于用所述MCS与RANK的自优化模型对所述当前系统状态值及所述当前调度值进行计算，获得所述MCS与RANK的调度修正值；其中，所述自优化模型用于根据所述当前调度值与所述当前系统状态值，预测所述当前调度值在使用不同调整量后产生的第二通信服务质量指标，并选取高于所述第一通信服务质量指标的第二通信服务质量指标对应的调整量作为所述修正值；

修正单元，用于用所述调度修正值修正所述当前调度值，用修正后的所述当前调度值重新配置所述预设帧结构。

一种可能的实施方式，还包括构建单元，所述构建单元用于：

一种可能的实施方式，所述构建单元用于：

一种可能的实施方式，所述强化学习算法，包括：

误块率、频谱效率、单次修正吞吐量中的至少一个。

一种可能的实施方式，所述单次修正吞吐量的计算公式为：

TH＝eff×RANK×(1-BLER)；

其中，所述eff为所述频谱效率，所述BLER为所述误块率。

一种可能的实施方式，所述处理单元还用于：

向终端持续发送具有预设帧结构的数据包之前，获取所述MCS与RANK的当前调度值；

根据所述当前调度值配置所述预设帧结构；

基于所述预设帧结构持续生成数据包。

一种可能的实施方式，所述处理单元还用于：

配置满足所述基站正常运行所需的基础参数；

唤醒或激活所述自优化模型；

从所述自优化模型获取所述MCS与RANK的初始调度值；

将所述初始调度值作为所述MCS与RANK的当前调度值。

一种可能的实施方式，所述基础参数，包括：

系统参数、高层参数、物理层参数。

第四方面，本发明实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行如第一方面所述的方法。

通过本发明实施例的上述一个或多个实施例中的技术方案，本发明实施例至少具有如下技术效果：

在本发明提供的实施例中，通过向终端持续发送具有预设帧结构的数据包，使终端反馈对应的接收状态报告；其中，预设帧结构是根据MCS与RANK的当前调度值配置的；进而根据接收状态报告，确定在当前调度值配置下基站的当前系统状态值；并用MCS与RANK的自优化模型对当前系统状态值及当前调度值进行计算，获得MCS与RANK的调度修正值；用调度修正值修正当前调度值，用修正后的当前调度值重新配置预设帧结构；其中，当前系统状态值包括MCS与RANK的当前上报值，及在当前调度值配置下基站的第一通信服务质量指标；自优化模型用于根据当前调度值与当前系统状态值，预测当前调度值在使用不同调整量后产生的第二通信服务质量指标，并选取第二通信服务质量指标高于第一通信服务质量指标对应的调整量作为修正值；从而利用自优化模型对MCS于RANK的当前调度值进行自适应修正，确保网络持续高效运行。

附图说明

图1为本发明实施例提供的一种配置方法的流程图；

图2为本发明实施例提供的一种MCS与RANK的当前调度值修正的示意图；

图3为本发明实施例提供的MCS与RANK自优化模型进行强化学习的示意图；

图4为本发明实施例提供的自优化模型与传统方式调整MCS与RANK的仿真效果对比图；

图5为本发明实施例提供的一种配置装置的结构示意图；

图6为本发明实施例提供的另一种配置装置的结构示意图。

具体实施方式

本发明实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

本申请实施例提供的技术方案可以适用于多种系统，尤其是5G系统。例如适用的系统可以是全球移动通讯(global system of mobile communication，GSM)系统、码分多址(code division multiple access，CDMA)系统、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)通用分组无线业务(general packet radio service，GPRS)系统、长期演进(long term evolution，LTE)系统、LTE频分双工(frequencydivision duplex，FDD)系统、LTE时分双工(time division duplex，TDD)系统、高级长期演进(long term evolution advanced，LTE-A)系统、通用移动系统(universal mobiletelecommunication system，UMTS)、全球互联微波接入(worldwide interoperabilityfor microwave access，WiMAX)系统、5G新空口(New Radio,NR)系统等。这多种系统中均包括终端设备和网络设备。系统中还可以包括核心网部分，例如演进的分组系统(EvlovedPacket System,EPS)、5G系统(5GS)等。

本申请实施例涉及的终端设备，可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备等。在不同的系统中，终端设备的名称可能也不相同，例如在5G系统中，终端设备可以称为用户设备(User Equipment，UE)。无线终端设备可以经无线接入网(Radio Access Network,RAN)与一个或多个核心网(Core Network,CN)进行通信，无线终端设备可以是移动终端设备，如移动电话(或称为“蜂窝”电话)和具有移动终端设备的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。例如，个人通信业务(Personal Communication Service，PCS)电话、无绳电话、会话发起协议(Session Initiated Protocol，SIP)话机、无线本地环路(Wireless Local Loop，WLL)站、个人数字助理(Personal Digital Assistant，PDA)等设备。无线终端设备也可以称为系统、订户单元(subscriber unit)、订户站(subscriber station)，移动站(mobilestation)、移动台(mobile)、远程站(remote station)、接入点(access point)、远程终端设备(remote terminal)、接入终端设备(access terminal)、用户终端设备(userterminal)、用户代理(user agent)、用户装置(user device)，本申请实施例中并不限定。

本申请实施例提供了一种配置方法、配置装置及存储介质，用以解决现有技术中存在的无法实时为基站配置合适的MCS与RANK指标，使网络持续高效运行的技术问题。

请参考图1，本发明实施例提供一种配置方法，该配置方法的处理过程如下。

步骤101：向终端持续发送具有预设帧结构的数据包，使终端反馈对应的接收状态报告；其中，预设帧结构是根据调制与编码策略MCS与空分复用流数RANK的当前调度值配置的；

步骤102：根据接收状态报告，确定在当前调度值配置下基站的当前系统状态值；其中，当前系统状态值包括MCS与RANK的当前上报值，及在当前调度值配置下基站的第一通信服务质量指标；

步骤103：用MCS与RANK的自优化模型对当前系统状态值及当前调度值进行计算，获得MCS与RANK的调度修正值；其中，自优化模型用于根据当前调度值与当前系统状态值，预测当前调度值在使用不同调整量后产生的第二通信服务质量指标，并选取高于第一通信服务质量指标的第二通信服务质量指标对应的调整量作为修正值；

步骤104：用调度修正值修正当前调度值，用修正后的当前调度值重新配置预设帧结构。

上述MCS与RANK的当前调度值，包括当前MCS的调度值与当前RANK的调度值。

上述第一通信服务质量指标是由基站根据终端发送的接收状态报告计算出的，表征的是终端所在环境的实际通信服务质量；第二通信服务质量指标是MCS与RANK的自优化模型预测当前调度值在被某一调整量调整后，预期产生的通信服务质量指标，表征的是终端所在环境的预期通信服务质量。

第一通信服务质量指标和第二通信服务质量指标，包括：

误块率、频谱效率、单次修正吞吐量中的至少一个。

如，第一通信服务质量指标和第二通信服务质量指标可以包括单次修正吞吐量，也可以包括误块率和频谱效率，还可以包括误块率、频谱效率、单次修正吞吐量，具体第一通信服务质量指标和第二通信服务质量指标由哪些指标构成在此不做限定。

单次修正吞吐量的计算公式为：

TH＝eff×RANK×(1-BLER)；

其中，eff为频谱效率，BLER为误块率。

MCS与RANK的自优化模型可以设置在基站内，也可以设置在基站外(如云端服务器)。

以MCS与RANK的自优化模型设置在基站外为例，请参见图2为本发明实施例提供的一种MCS与RANK的当前调度值修正的示意图。

步骤S11：持续发送数据包。

基站用MCS于RANK的当前调度值配置预设帧结构后，持续生成数据包，并发送给终端。

终端根据接收到的数据包生成接收状态报告，并发送给基站。如，接收状态报告包括正向反馈(Acknowledgment，ACK)、负向反馈(Non-Acknowledgment，NACK)等的反馈信息。

步骤S12：基站接收接收状态报告。

步骤S13：生成，当前系统状态值。

基站根据接收到的接收状态报告，对接收状态报告中的反馈信息进行汇总统计，生成当前系统状态值；当前系统状态值包括MCS与RANK的当前上报值及第一通信服务质量指标。

步骤S14：发送当前系统状态值及当前调度值。

基站将当前系统状态值及当前调度值发送给MCS与RANK的自优化模型。

MCS与RANK的自优化模型对当前系统状态值及当前调度值进行计算，得到调度修正值，并发送给基站。

在一些实施例中，MCS与RANK的自优化模型在每次输出调度修正值之后进行一次迭代更新，以强化MCS与RANK的自优化模型的正确决策能力，这样可以进一步使MCS与RANK的自优化模型提供更适宜的调度修正值，使网络持续高效的运行。

步骤S15：基站接收调度修正值。

步骤S16：修正。

基站用接收到的调度修正值对当前调度值进行修正，得到修正后的当前调度值(即最新的当前调度值)，并用修正后的当前调度值重配置预设帧结构，持续生成数据包，并循环执行步骤S11～步骤S16。

在一些实施例中，在向终端持续发送具有预设帧结构的数据包之前，可以通过下列方式生成数据包：

获取MCS与RANK的当前调度值；根据当前调度值配置预设帧结构；基于预设帧结构持续生成数据包。

若基站和MCS与RANK的自优化模型已正常运行，获取MCS与RANK的当前调度值，可以根据基站上次使用的上一次使用的当前调度值与自优化模型上次提供的调度修正值确定。

若基站尚未开始运行或MCS与RANK的自优化模型尚未运行，获取MCS与RANK的当前调度值，可以通过下列方式实现：

配置满足基站正常运行所需的基础参数；唤醒或激活自优化模型；从自优化模型获取MCS与RANK的初始调度值；将初始调度值作为MCS与RANK的当前调度值。

基础参数，包括：

系统参数、高层参数、物理层参数。

如，包括单不限于对基站的业务模式、帧结构、波形、接入方式、信道参数、调制解调方式、多输入多输出(Multiple-Input Multiple-Output，MIMO)配置、切换配置、控制过程、智能感知等进行配置，使上述基础参数能满足基站的正常运行。

在完成满足基站正常运行的基础参数配置后，还需激活或唤醒MCS与RANK的自优化模型，并从自优化模型获取MCS与RANK的初始调度值，将此初始调度值作为MCS与RANK的当前调度值，并用于配置预设帧结构，持续生成数据包，并发送给终端。

在一些实施例中，构建MCS与RANK的自优化模型，可以通过下列方式实现：

构建强化学习算法的输入参数、输出参数及评价体系；其中，输入参数包括当前系统状态值及当前调度值，输出参数为调整量，评价体系用于预测调整当前调度值后产生的第一通信服务质量指标；用样本数据对强化学习算法进行迭代训练，直至训练后的强化学习算法的收益达到预设值，获得自优化模型。

强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一。强化学习算法是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。

在本发明中MCS与RANK的自优化模型视为上述智能体，基站视为上述环境，行为为输出调度修正值，奖赏(即收益)为第二通信服务质量指标。如图3所示为本发明实施例提供的MCS与RANK自优化模型进行强化学习的示意图。S1、当前系统状态值及当前调度值，由基站提供给自优化模型；S2、调度修正值，有自优化模型接收到当前系统状态值及当前调度值后，作为动作输出给基站；S3、当前调度值修正后的系统状态值，基站用调度修正值修正当前调度值后，将得到的系统状态值反馈给自优化模型；S4、自优化模型根据基站反馈的系统状态值进行迭代更新。

评价体系即为MCS与RANK的自优化模型中，产生上述奖赏的方法，该方法与第二通信服务质量指标包含的具体内容相关，如第二通信服务质量指标包含误块率、频谱效率、单次修正吞吐量，则评价体系包含误块率的计算方法、频率效率的计算方法、单次修正吞吐量的计算方法，这些计算方法为现有技术，在此不做赘述。

强化学习算法，包括：

Q学习(Q-learning)、深度Q学习(Deep Q-learning)、状态-动作-回报-状态-动作的链式算法(State-Action-Reward-State-Action，SARSA)、决策评价算法(Actor-Critic，AC)、异步优势的决策评价算法(Asynchronous Advantage Actor-critic，A3C)、深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)、置信域策略优化算法(TrustRegion Policy Optimization，TRPO)、近端策略优化算法(Proximal PolicyOptimization，PPO)。

在本发明提供的实施例中，通过将MCS与RANK的当前调度值及当前系统状态值作为强化学习算法的输入参数，并构建对应的评价体系，能使训练得到的强化学习模型准确掌握基站的环境状态，并反馈MCS与RANK的调度修正值对应的第二通信服务质量指标。

在构建好强化学习算法的输入参数、输出参数及评价体系后，可以用历史样本数据对强化学习算法进行训练，也可以用实时获取的样本数据对强化学习算法进行训练，具体如下：

用历史样本数据对强化学习算法进行训练：按时间序列，用历史样本数据对强化学习算法进行迭代训练，直至训练后的强化学习算法的收益达到预设值，获得自优化模型。

例如，将最近一周使用的历史调度值及对应的历史系统状态值作为样本数据，按它们生成的时间序列，逐个对强化学习算法进行迭代训练，直至训练后的强化学习算法的收益达到预设值，获得自优化模型。

上述历史样本数据可以是基站中真实产生的数据，也可以是通过仿真软件仿真得到的数据，具体不做限制。

用实时获取的样本数据对强化学习算法进行训练：将实时获得的系统状态值及对应的调度值作为样本数据，持续训练强化学习算法，直至训练后的强化学习算法的收益达到预设值，获得自优化模型。

例如，可以将基站实时产生的当前系统状态值及对应使用的当前调度值作为样本数据，提供给强化学习算法，对强化学习算法进行持续训练，直至训练后的强化学习算法的收益达到预设值，获得自优化模型。

在训练好上述自优化模型后，便可将上述自优化模型投入使用，如上述自优化模型是通过历史样本数据训练得到的，则需要先将自优化模型部署到基站或云端，若上述自优化模型是实施训练得到的，则无需在进行部署。

例如，在仿真环境下对模型进行在线训练，配置仿真环境如下：设定基站与终端通信；帧结构为5ms单周期，包含7个全下行时隙、1个特殊时隙和2个全上行时隙；采用满缓存(full buffer)业务模式；完成下行MCS与RANK的当前调度值的修正。假设MCS与RANK的自优化模型是对PPO进行在线训练(即实时从基站获取样本数据训练)得到的。

基于PPO的自优化模型的输入参数包括：当前系统状态值(由当前MCS的上报值、RANK的上报值构、第一通信服务质量指标)，及MCS与RANK的当前调度值(由当前MCS的调度值、RANK的调度值构成)。

基于PPO的自优化模型的输出参数包括：MCS与RANK的调度修正值。

基于PPO的自优化模型的评价体系为单次修正吞吐量。

对上述自优化模型共仿真了73500次，上述自优化模型能够在37000次更新后单次修正吞吐量趋于稳定。请参见图4为本发明实施例提供的自优化模型与传统方式调整MCS与RANK的仿真效果对比图。从图4中可见，基于强化学习的MCS与RANK自优化模型较传统专家系统具有基站吞吐率高、应变能力强、服务稳定的优势。

并且，由于自优化模型采用在线持续学习更新的方式修正MCS与RANK的当前调度值，因此能够有效改善正路径长及环境适应能力的缺陷。

如图5所示，本发明实施例提供的一种配置装置，应用于基站，该配置装置包括存储器501，收发机502，处理器503：

存储器501，用于存储计算机程序；收发机502，用于在所述处理器503的控制下收发数据；处理器503，用于读取所述存储器501中的计算机程序并执行以下操作：

一种可能的实施方式，所述处理器503还用于：

一种可能的实施方式，所述强化学习算法，包括：

误块率、频谱效率、单次修正吞吐量中的至少一个。

一种可能的实施方式，所述单次修正吞吐量的计算公式为：

TH＝eff×RANK×(1-BLER)；

其中，所述eff为所述频谱效率，所述BLER为所述误块率。

一种可能的实施方式，所述处理器503还用于：

获取所述MCS与RANK的当前调度值；

根据所述当前调度值配置所述预设帧结构；

基于所述预设帧结构持续生成数据包。

一种可能的实施方式，所述处理器503还用于：

配置满足所述基站正常运行所需的基础参数；

唤醒或激活所述自优化模型；

从所述自优化模型获取所述MCS与RANK的初始调度值；

将所述初始调度值作为所述MCS与RANK的当前调度值。

一种可能的实施方式，所述基础参数，包括：

系统参数、高层参数、物理层参数。

收发机502，用于在处理器503的控制下接收和发送数据。

其中，在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器503代表的一个或多个处理器和存储器501代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机502可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器503负责管理总线架构和通常的处理，存储器501可以存储处理器503在执行操作时所使用的数据。

处理器503可以是中央处埋器(CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)，处理器也可以采用多核架构。

在此需要说明的是，本发明实施例提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

基于同一发明构思，本发明一实施例中提供一种配置装置，该配置装置的配置方法的具体实施方式可参见方法实施例部分的描述，重复之处不再赘述，请参见图6，该配置装置包括：

发送单元601，用于向终端持续发送具有预设帧结构的数据包，使所述终端反馈对应的接收状态报告；其中，所述预设帧结构是根据调制与编码策略MCS与空分复用流数RANK的当前调度值配置的；

确定单元602，用于根据所述接收状态报告，确定在所述当前调度值配置下所述基站的当前系统状态值；其中，所述当前系统状态值包括所述MCS与RANK的当前上报值，及在所述当前调度值配置下所述基站的第一通信服务质量指标；

处理单元603，用于用所述MCS与RANK的自优化模型对所述当前系统状态值及所述当前调度值进行计算，获得所述MCS与RANK的调度修正值；其中，所述自优化模型用于根据所述当前调度值与所述当前系统状态值，预测所述当前调度值在使用不同调整量后产生的第二通信服务质量指标，并选取高于所述第一通信服务质量指标的第二通信服务质量指标对应的调整量作为所述修正值；

修正单元604，用于用所述调度修正值修正所述当前调度值，用修正后的所述当前调度值重新配置所述预设帧结构。

一种可能的实施方式，还包括构建单元605，所述构建单元605用于：

一种可能的实施方式，所述构建单元605用于：

一种可能的实施方式，所述强化学习算法，包括：

Q-learning、Deep Q-learning、状态-动作-回报-状态-动作的链式算法SARSA、决策评价算法AC、异步优势的决策评价算法A3C、深度确定性策略梯度DDPG、置信域策略优化算法TRPO、近端策略优化算法PPO。

误块率、频谱效率、单次修正吞吐量中的至少一个。

一种可能的实施方式，所述单次修正吞吐量的计算公式为：

TH＝eff×RANK×(1-BLER)；

其中，所述eff为所述频谱效率，所述BLER为所述误块率。

一种可能的实施方式，所述处理单元603还用于：

根据所述当前调度值配置所述预设帧结构；

基于所述预设帧结构持续生成数据包。

一种可能的实施方式，所述处理单元603还用于：

配置满足所述基站正常运行所需的基础参数；

唤醒或激活所述自优化模型；

从所述自优化模型获取所述MCS与RANK的初始调度值；

将所述初始调度值作为所述MCS与RANK的当前调度值。

一种可能的实施方式，所述基础参数，包括：

系统参数、高层参数、物理层参数。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

基于同一发明构思，本发明实施例还提一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行如上所述的配置方法。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中，使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种配置方法，其特征在于，应用于基站，包括：

2.如权利要求1所述的配置方法，其特征在于，构建所述自优化模型，包括：

3.如权利要求2所述的配置方法，其特征在于，用样本数据对所述强化学习算法进行迭代训练，直至训练后的强化学习算法的收益达到预设值，获得所述自优化模型，包括：

4.如权利要求2所述的配置方法，其特征在于，用样本数据对所述强化学习算法进行迭代训练，直至训练后的强化学习算法的收益达到预设值，获得所述自优化模型，包括：

5.如权利要求2所述的配置方法，其特征在于，所述强化学习算法，包括：

6.如权利要求1-5任一项所述的配置方法，其特征在于，所述第一通信服务质量指标和所述第二通信服务质量指标，包括：

误块率、频谱效率、单次修正吞吐量中的至少一个。

7.如权利要求6所述的配置方法，其特征在于，所述单次修正吞吐量的计算公式为：

TH＝eff×RANK×(1-BLER)；

其中，所述eff为所述频谱效率，所述BLER为所述误块率。

8.如权利要求1-5任一项所述的配置方法，其特征在于，向终端持续发送具有预设帧结构的数据包之前，还包括：

获取所述MCS与RANK的当前调度值；

根据所述当前调度值配置所述预设帧结构；

基于所述预设帧结构持续生成数据包。

9.如权利要求8所述的配置方法，其特征在于，获取所述MCS与RANK的当前调度值，包括：

配置满足所述基站正常运行所需的基础参数；

唤醒或激活所述自优化模型；

从所述自优化模型获取所述MCS与RANK的初始调度值；

将所述初始调度值作为所述MCS与RANK的当前调度值。

10.如权利要求9所述的配置方法，其特征在于，所述基础参数，包括：

系统参数、高层参数、物理层参数。

11.一种配置装置，其特征在于，包括存储器，收发机，处理器：

12.如权利要求11所述的配置装置，其特征在于，所述处理器还用于：

13.如权利要求12所述的配置装置，其特征在于，所述处理器还用于：

14.如权利要求12所述的配置装置，其特征在于，所述处理器还用于：

15.如权利要求12所述的配置装置，其特征在于，所述强化学习算法，包括：

16.如权利要求11-15任一项所述的配置装置，其特征在于，所述第一通信服务质量指标和所述第二通信服务质量指标，包括：

误块率、频谱效率、单次修正吞吐量中的至少一个。

17.如权利要求16所述的配置装置，其特征在于，所述单次修正吞吐量的计算公式为：

TH＝eff×RANK×(1-BLER)；

其中，所述eff为所述频谱效率，所述BLER为所述误块率。

18.如权利要求11-15任一项所述的配置装置，其特征在于，所述处理器还用于：

获取所述MCS与RANK的当前调度值；

根据所述当前调度值配置所述预设帧结构；

基于所述预设帧结构持续生成数据包。

19.如权利要求18所述的配置装置，其特征在于，所述处理器还用于：

配置满足所述基站正常运行所需的基础参数；

唤醒或激活所述自优化模型；

从所述自优化模型获取所述MCS与RANK的初始调度值；

将所述初始调度值作为所述MCS与RANK的当前调度值。

20.如权利要求19所述的配置装置，其特征在于，所述基础参数，包括：

系统参数、高层参数、物理层参数。

21.一种配置装置，其特征在于，包括：

22.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求1至10任一项所述的方法。