CN117581493A

CN117581493A - 链路适配

Info

Publication number: CN117581493A
Application number: CN202180100155.0A
Authority: CN
Inventors: S·曼德利; A·韦伯; P·巴拉卡; J·穆罕默迪; K·P·凯拉; T·M·韦加莱宁
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-02-20
Also published as: WO2023274522A1; US20240305403A1; EP4364327A1

Abstract

描述了一种装置、方法和计算机程序，包括：生成信道质量度量偏移；对信道质量度量和信道质量度量偏移进行求和，以生成移动通信系统的信道的经调整的信道质量度量；至少部分地基于经调整的信道质量度量，设置用于在信道上发送数据的调制与编码方案；获取与通过信道的数据传递的成功有关的反馈数据；至少部分地基于反馈数据来编译损失/奖励函数；以及使用损失/奖励函数来更新模型，其中模型被用在信道质量度量偏移的生成中。

Description

链路适配

技术领域

本说明书涉及移动通信系统中的链路适配。

背景技术

链路适配可被用于设置调制与编码方案(MCS)，用于在移动通信系统的信道上发送数据的。该领域仍需要进一步发展。

发明内容

在第一方面中，本说明书描述了一种装置，包括部件，部件用于执行：生成信道质量度量偏移；对信道质量度量和信道质量度量偏移进行求和，以生成移动通信系统的信道的经调整的信道质量度量；至少部分地基于经调整的信道质量度量，设置用于在信道上发送数据的调制与编码方案；获取与通过信道的数据传递的成功有关的反馈数据；至少部分地基于反馈数据来编译损失/奖励函数；以及使用损失/奖励函数来更新模型，其中模型被用在信道质量度量偏移的生成中。

信道质量度量偏移至少部分地基于针对使用移动通信系统的传输的目标误差率(例如，BLER)。用于在信道上发送数据的调制与编码方案(MCS)可以至少部分地基于目标误差率。

反馈数据可以包括指示通过信道的先前传输是否成功的确认信号。

一些示例实施例还包括用于执行以下项的部件：基于预测的误差率和获取的反馈信号来生成损失/奖励函数。

用于执行生成信道质量度量偏移的部件包括用于执行以下项的部件：从模型获取初始偏移值和平均偏移步长；以及根据反馈信号，将信道质量度量偏移增加或减少一数量，数量至少部分地取决于平均偏移步长。

一些示例实施例还包括用于执行以下项的部件：生成或更新计算图，计算图包括信道质量度量、信道质量度量偏移、调制与编码方案、以及反馈信号，其中模型基于计算图。

一些示例实施例还包括用于执行以下项的部件：响应于信道质量度量的改变，生成信道质量度量校正项，信道质量度量校正项用于在对信道质量度量和信道质量度量偏移进行求和时平滑对信道质量度量偏移的调整。

在一些示例实施例中，模型提供信道质量度量偏移。反馈信号包括数据的分组(例如，包括PDCP分组)的传输是否成功的指示。

一些示例实施例还包括用于执行以下项的部件：在数据的分组的尝试递送中获取累积的物理资源块使用；以及至少部分地基于累积的物理资源块使用以及分组的递送是否成功的指示，生成损失/奖励函数。

损失/奖励函数至少部分地基于失败的分组指示和/或分组延迟预算违反。

信道质量度量包括SINR信号。

一些示例实施例还包括用于执行以下项的部件：基于经调整的信道质量度量和目标误差率，使用内环链路适配算法选择调制与编码方案。

信道质量度量偏移是用户设备专用偏移。

一些示例实施例还包括用于执行以下项的部件：确定是否触发模型的训练。

一些示例实施例还包括用于执行以下项的部件：基于重置条件的检测而重置模型。

部件可以包括：至少一个处理器；以及至少一个存储器，包括计算机程序代码，至少一个存储器和计算机程序代码被配置为与至少一个处理器使得装置的性能。

在第二方面中，本说明书描述了一种方法，包括：生成信道质量度量偏移；对信道质量度量和信道质量度量偏移进行求和，以生成移动通信系统的信道的经调整的信道质量度量；至少部分地基于经调整的信道质量度量，设置用于在信道上发送数据的调制与编码方案；获取与通过信道的数据传递的成功有关的反馈数据；至少部分地基于反馈数据来编译损失/奖励函数；以及使用损失/奖励函数来更新模型，其中模型被用在信道质量度量偏移的生成中。

方法可以包括：基于预测的误差率和获取的反馈信号来生成损失/奖励函数。

生成信道质量度量偏移可以包括：从模型获取初始偏移值和平均偏移步长；以及根据反馈信号，将信道质量度量偏移增加或减少一数量，数量至少部分地取决于平均偏移步长。

方法可以包括：生成或更新计算图，计算图包括信道质量度量、信道质量度量偏移、调制与编码方案、以及反馈信号，其中模型基于计算图。

方法可以包括：响应于信道质量度量的改变，生成信道质量度量校正项，信道质量度量校正项用于在对信道质量度量和信道质量度量偏移进行求和时平滑对信道质量度量偏移的调整。

在一些示例实施例中，模型提供信道质量度量偏移。反馈信号可以例如包括数据的分组(例如，包括PDCP分组)的传输是否成功的指示。

方法可以包括：在数据的分组的尝试递送中获取累积的物理资源块使用；以及至少部分地基于累积的物理资源块使用以及分组的递送是否成功的指示，生成损失/奖励函数。

方法可以包括：基于经调整的信道质量度量和目标误差率，使用内环链路适配算法选择调制与编码方案。

方法可以包括：确定是否触发模型的训练。

方法可以包括：基于重置条件的检测而重置模型。

在第三方面中，本说明书描述了一种装置，被配置为执行根据第二方面描述的任一(至少)任一方法。

在第四方面中，本说明书描述了计算机可读指令，计算机可读指令当由计算设备执行时，使计算设备执行(至少)根据第二方面描述的任一方法。

在第五方面中，本说明书描述了一种计算机可读介质(例如，非暂态计算机可读介质)，包括存储在其上的程序指令，用于执行(至少)根据第二方面描述的任一方法。

在第六个方面中，本说明书描述了一种装置，包括：至少一个处理器；和至少一个存储器，包括计算机程序代码，计算机程序代码当由至少一个处理器执行时，使装置执行(至少)根据第二个方面描述的任一方法。

在第七方面中，本说明书描述了一种计算机程序，包括指令，用于使装置至少执行以下：生成信道质量度量偏移；对信道质量度量和信道质量度量偏移进行求和，以生成移动通信系统的信道的经调整的信道质量度量；至少部分地基于经调整的信道质量度量，设置用于在信道上发送数据的调制与编码方案；获取与通过信道的数据传递的成功有关的反馈数据；至少部分地基于反馈数据来编译损失/奖励函数；以及使用损失/奖励函数来更新模型，其中模型被用在信道质量度量偏移的生成中。

在第八方面中，本说明书描述了一种装置，包括：处理器、机器学习算法或一些其他部件，用于生成信道质量度量偏移；加法器(或一些其他部件)，用于对信道质量度量和信道质量度量偏移进行求和，以生成移动通信系统的信道的经调整的信道质量度量；链路适配模块(或一些其他部件)，用于至少部分地基于经调整的信道质量度量，设置用于在信道上发送数据的调制与编码方案；反馈装置(或一些其他部件)，用于获取与通过信道的数据传递的成功有关的反馈数据；奖励模块(或一些其他部件)，至少部分地基于反馈数据来编译损失/奖励函数；以及训练模块(或一些其他部件)用于使用损失/奖励函数更新模型，其中模型被用在信道质量度量偏移的生成中。

附图说明

参考下面的示意图，现在将通过非限制性示例的方式来描述示例实施例，其中：

图1是根据示例实施例的端到端通信系统的框图；

图2和图3是根据示例实施例的系统的框图；

图4是示出了图3系统的示例使用的绘图；

图5是根据示例实施例的算法的流程图；

图6是根据示例实施例的系统的框图；

图7和图8是根据示例实施例的算法的流程图；

图9示出了根据示例实施例的算法；

图10、图11、图12A和图12B是示出了根据示例实施例的仿真结果的绘图；

图13是示出了根据示例实施例的算法的流程图；

图14是根据示例实施例的系统的框图；

图15是示出了根据示例实施例的算法的流程图；

图16是根据示例实施例的信令图；

图17至图19是示出了根据示例实施例的仿真结果的绘图；

图20是根据示例实施例的系统的部件的框图；以及

图21示出了存储计算机可读代码的有形介质，其当由计算机运行时可以执行根据上述示例实施例的方法。

具体实施方式

本发明的各种实施例所寻求的保护范围由独立权利要求设定，说明书中描述的不属于独立权利要求范围的实施例和特征(如果有的话)应被解释为有助于理解本发明的各种实施例的示例。

在描述和附图中，相同的附图标记表示相同的元素。

图1是根据示例实施例的示例端到端通信系统的框图，总体上由附图标记10指示。系统10包括发送器12、信道14和接收器16。从系统级来看，系统10将在发送器12的输入处接收的数据(b)转换为用于在信道14上传输的发送符号(x)，并且接收器16根据从信道14接收的符号(y)生成对所发送的数据的估计。

发送器12可以包括调制器(例如，使用正交频分复用(OFDM))，该调制器根据调制方案将数据符号(b)转换为发送符号(x)。然后，发送符号通过信道14发送，并在接收器16处作为接收到的符号(y)被接收。接收器可以包括解调器，该解调器将接收到的符号(y)转换为最初发送的数据符号的估计。

图2是根据示例实施例的发送器模块的框图，总体上由附图标记20指示。发送器模块20可被用于实现上述通信系统10的发送器12。

发送器模块20包括链路适配模块22和发送器24。链路适配模块22接收多个参数并提供调制与编码方案(MCS)供发送器24使用。

发送器24接收来自链路适配模块22的MCS以及用于传输的数据符号(b)。发送器24根据由链路适配模块22设置的调制方案将数据符号(b)转换为发送符号(x)。

链路适配(LA)可以以任意低的误块率(BLER)为目标。例如，MCS的选择可以基于参数，诸如信道质量以及每个MCS针对该信道质量的预期错误概率。在这种情况下，针对LA的传统方案可以保证目标BLER，但通常具有以低效率的方式使用资源的缺点。

图3是根据示例实施例的系统的框图，总体上由附图标记30指示。系统30包括链路适配模块32、发送器34、外环链路适配(OLLA)模块36和求和模块38。链路适配模块32和发送器34是上述链路适配模块22和发送器24的示例实现。OLLA 36和求和模块38生成由链路适配模块32使用的参数。

在系统30中，链路适配模块32接收并基于来自求和模块38的信号与干扰加噪声比(SINR)估计生成满足目标BLER q的最高比率的调制与编码方案(MCS)。

求和模块通过在时间τ上使用OLLA偏移δ(τ)校正最近的SINR估计c(例如，从信道质量指标(CQI)反馈获得)来生成SINR估计γ(τ)，从而使得SINR估计：

γ(τ)＝c+δ(τ)

发送器34根据由链路适配模块32设置的调制方案将数据符号(b)转换为发送符号(x)。

OLLA模块36接收指示传输是否被接收到的ACK/NACK消息。在每个第一传输的ACK/NACK被接收到之后，OLLA偏移(在本文有时被称为SINR偏移)被更新如下：

其中：

·Δ是OLLA步进幅度；并且

·SINR偏移被初始化为δ(0)：＝Δ₀。

图4是总体上由附图标记40指示的绘图，示出了图3的系统的使用的示例。在示例绘图40中，目标BLER q＝10％。

在绘图40中，每次ACK决定被接收到(指示数据的成功传输)，SINR偏移δ(τ)增加以下Δ的倍数：

每次NACK决定被接收到(指示数据传输不成功)，SINR偏移δ(τ)减少以下Δ的倍数：

在示例绘图40中，在单个NACK信号被接收之前(减少的SINR偏移超过六个ACK信号的增量)，六个ACK信号被接收(使得SINR偏移越来越大)。然后，在下个NACK信号被接收之前，10个ACK信号被接收(将SINR偏移增加到超过先前的高)。然后，在下个NACK信号被接收之前，四个ACK信号被接收。然后，在NACK信号被接收之前13个ACK信号被接收，然后10个ACK信号被接收。

在针对超可靠低延迟(URLCC)通信时，由于其定义，OLLA必须正确地被参数化，以避免过于保守的比率选择(例如，步长太大)或缓慢的收敛(例如，步长太小)，取决于场景。

如下文详细讨论的，在根据本文描述的原理的第一种方法中，提供了一种算法，该算法允许在运行时期间适配SINR偏移参数，例如OLLA/SINR偏移初始值Δ₀和平均步长Δ。在该方法中，涵盖在传输时间间隔(TTI)τ∈T期间发生的全部传输的可微分计算图可以被建立，其中包括：

·链路适配(LA)输入，例如，最近的未被校正的SINR估计c(τ)、当前校正项以及期望得到的目标BLER q；

·针对在TTI τ处的传输的所选择的MCS m(τ)的索引；以及

·有关在TTI τ处发生的传输的ACK/NACK e(τ)信息。

这允许在神经网络中所使用的相同技术/库被用于将损失函数的导数反向传播给OLLA参数。然后，可以使用已知技术(例如，Adam梯度下降)在运行时和每个单元中优化OLLA的参数(例如，初始值和平均步长)。

一种解决方案是针对每个小区/基站(或它们的聚合)学习单个初始值Δ₀和单个平均步长Δ。这个概念的扩展包括：

·针对每个管理的目标BLER q保留具有不同OLLA参数值的表，并且仅使用利用所考虑的第一目标BLER执行的传输生成的数据进行训练。该表可以利用其他维度来扩展为(例如，除了目标BLER之外，还考虑系统的负载，例如短/中/高负载，扇区/波束等)。

·由于SINR偏移和OLLA参数的导数可以被计算，因此原则上可以应用所提出的技术来学习通用可微分机制(例如，NN)的参数，该机制基于其他输入确定SINR偏移或OLLA参数。这可以允许在运行时期间反向传播可用信息以优化高层协议。

·当前的OLLA机制可以通过存在被称为CQI适应参数的新参数来增强，其任务是平滑新的未校正SINR估计的影响(例如，由于新的CQI报告)。

如下文进一步讨论的，用户设备可以利用所提出的流程来使用OLLA机制抵消其CQI报告，并使用所提出的技术来学习CQI偏移超参数(例如，OLLA参数)。

图5是根据示例实施例的算法的流程图，总体上由附图标记50指示。

算法50开始于操作51，其中信道质量度量偏移δ(τ)被生成。

在操作52，将本文所表示的诸如SINR的信道质量度量c与在操作51中生成的信道质量度量偏移相加，以便生成移动通信系统的信道的经调整的信道质量度量γ(τ)(使得γ(τ)＝c+δ(τ))。

在操作53中调制与编码方案(MCS)被设置，用于在信道上发送数据。MCS至少部分地基于经调整的信道质量度量γ(τ)而生成。

在操作54，与数据传递的成功有关的反馈数据被获取。这种数据可以是上文讨论的ACK/NACK信号。

在操作55至少部分地基于在操作54中获取的反馈数据来编译损失/奖励函数(如下文详细讨论)。然后，在操作56，使用损失/奖励函数来更新模型。如下文详细讨论的，该模型可以被用于信道质量度量偏移的生成。

图6是根据示例实施例的系统的框图，总体由附图标记60指示，系统60可被用于实现算法50及其变体，如下文详细讨论的。

系统60包括链路适配模块62、发送器63、反馈模块64、外环链路适配(OLLA)模块65、求和模块66和损失/奖励功能模块67。

在系统60中，链路适配模块62基于来自求和模块66的信号与干扰加噪声比(SINR)估计接收并生成满足目标BLER q的最高速率调制与编码方案(MCS)。因此链路适配模块62类似于上文描述的链路适配模块32。

以与上述求和模块38类似的方式，求和模块66通过在时间τ上使用OLLA偏移δ(τ)来校正最近的SINR估计c(例如，从信道质量指标(CQI)反馈获得)来生成SINR估计γ(τ)，从而产生SINR估计：

γ(τ)＝c+δ(τ)

OLLA偏移(有时被称为信道质量度量偏移)可以至少部分地基于针对使用移动通信系统的传输的目标误差率(例如，BLER)。

发送器63根据由链路适配模块62和反馈模块64设置的调制方案将数据符号转换成发送符号，并提供指示先前在相关信道上的传输是否成功的ACK/NACK消息(或一些其它确认信号)。

如下文进一步讨论的，OLLA模块65接收ACK/NACK消息并更新SINR偏移。

如下文详细讨论的，损失/奖励函数模块67可被用于基于预测的误差率以及从反馈模块64获取的反馈信号生成损失/奖励函数。

图7是根据示例实施例的算法的流程图，总体上由附图标记70指示。算法70示出了OLLA模块65的示例使用。

算法70从操作72开始，其中初始偏移值Δ_o和平均偏移步长Δ从模型被获取。

在操作74，根据从反馈模块64接收的反馈信号，信道质量度量偏移δ被增加或减少。信道质量度量偏移δ的变化量取决于许多变量，包括从模型和BLER获取的平均偏移步长Δ。

算法70可被用于向在求和模块66处接收的SINR估计c提供偏移。如下文详细讨论的，在系统60的使用期间，该模型被用于随时间更新OLLA参数。

在系统60的使用中，我们首先考虑一组与每个所需的目标BLER q相关联的OLLA参数，被称为Δ和Δ₀。然后，我们构建一个计算图，允许确定每个输入和OLLA参数对系统中每个变量的影响，特别是对损失分数l的影响，该损失分数表示MCS’预测的BLER的序列f_m(γ)与经历的第一传输的ACK/NACK e有多大不同。布尔变量e分别假设NACK和ACK的值为1和0。

图8是根据示例实施例的算法的流程图，总体上由附图标记80指示。

算法80从操作82开始，其中包括信道质量度量、信道质量度量偏移、调制与编码方案以及上文讨论的反馈信号的计算图被生成或更新。然后，在操作84，相关模型被生成或更新。然后，该模型可以被用于将OLLA参数提供给OLLA模块65。然后，计算图(以及因此的模型)可以在期间(例如，在系统60的使用期间)被更新。

在系统60的示例使用中，我们在时间传输间隔(TTI)τ处具有如下输入：

·最新的CQI报告c(τ)

·SINR偏移δ(τ)

我们考虑传输及其D个TTI的ACK/NACK接收之间的延迟。注意，SINR偏移更新通常仅考虑第一次分组传输尝试。我们定义通过一些数学运算，可以将SINR偏移写成如下：

因此，我们得到SINR估计：γ(τ)＝c+δ(τ)。

然后可以使用SINR估计来执行MCS选择，针对每个MCS使用参数化的BLER曲线(例如，使用Sigmoid或误差函数BLER曲线)。(在下面的描述中，我们通常假设由于高数值稳定性而使用Sigmoid函数，但原则上任何通用参数化等式都可以被使用。)因此，我们认为通用MCS m的BLER曲线可以被写为：

BLER_m(γ)＝f_m(γ)＝σ(α_m(γ-γ_m))

其中α_m和γ_m是MCS m和σ(x)＝(1+e^-x)^-1的斜率和转换点。注意，BLER曲线也可以取决于其他参数，例如传输块大小。MCS选择可以以任何方式来执行，但通常应用选择的概念，使得它是满足第一传输目标BLER，即f_m(γ)≤q，的最高速率的MCS。

因此，在TTIτ，被选择，并且我们可以将sigmoid输入写入如下：

我们省略了Sigmoid操作，因为在计算(以及稍后的反向传播)我们提出的损失函数时，当Sigmoid直接被应用于损失计算时，数值稳定性可能会被改善。我们提出通过计算(使用损失/奖励函数模块67)所选择的在时间τ上预测的BLER以及在时间τ上发生的针对传输的经历的ACK/NACK之间的二进制交叉熵(BCE)e(τ)来测量整个LA过程的性能。由于输入是在不进行Sigmoid操作的情况下被计算的，我们可以使用带有Logits损失的二进制交叉熵的概念来提高稳定性：

l(τ)＝e(τ)log(σ(ι(τ)))+(1-e(τ))log(1-σ(ι(τ))) (1)

其他更复杂的替代方案可以是双曲正切激活函数与铰链损失，但原则上，这个概念可以适用于与损失和激活函数的任一可导成分(在上面的等式(1)中，它们只是被组合在唯一的二进制交叉熵和对数损失中)。

在计算导数时，由于计算图的反向传播特性，损失函数l(τ)相对于SINR偏移的导数可以通过以下获得：

因此，我们有一种通用的方法将损失函数的导数反向传播到SINR偏移，允许训练生成它的参数。如果我们更进一步：

可以允许OLLA参数Δ₀，Δ的训练。

例如，可以考虑从利用目标BLER q发送的活动用户的每个第一传输中对等式(2)和(3)的所有贡献。获取的数据可以以多种方式被聚合，例如通过在T个TTI窗口内独立地聚合(求和/求平均/取线性组合)每个单个用户的所有N个贡献，获得N个样本。

通过使用每个样本的所计算的导数，这些样本可被用于更新OLLA参数。数据可以被分成n＜N个小批量，并且不同的更新机制可以被使用，例如随机梯度下降或Adam。数据可以被使用一次(单个时期(epoch))或多次迭代。

还可以使用不依赖导数的机制来优化搜索，例如高斯过程/贝叶斯优化。事实上，技术人员会知晓许多可能的方法。

新的更新的OLLA参数可以从那时刻起在小区中被使用，允许每个单个基站训练其OLLA参数(在操作期间)，而无需手动配置它们以及搜索它们的最优值。此外，每个单个基站可以学习(由于适当的学习速率设置)以适应这些参数，遵循小区的当前情况(例如，如果在该场景中强干扰被观察到，使用较低的Δ₀，而在干扰不是问题的更稳定的小区可以更激进)。

如果对于BLER曲线不使用sigmoid回归，而是使用通用函数f_m(γ)，则可以通过以下方式修改损失函数(1)：

l(τ)＝e(τ)log(f_m(γ(τ)))+(1-e(τ))log(1-f_m(γ(τ)))

因此，导数变成：

然后继续的反向传播，其中X是通用参数(例如，Δ或Δ₀)。

如下文所讨论的，原则的许多变体都是可能的。

本发明的扩展可以是考虑一个更复杂的函数来计算被用于校正SINR估计的SINR偏移，而不是OLLA简单操作。如果想要采用迄今为止所描述的相同过程，函数逼近器应当是可导的。

例如，通用NN可以替代上述OLLA模块65来估计SINR偏移。然后，在采用NN时许多扩展可以被使用，例如：

·使用来自一个(多个用户)的序列作为输入，以允许时间相干层的训练，如RNN、GRU、LSTM或CNN。

·除了前面的ACK/NACK之外，还输入其他信息，例如：

ο当前的SINR估计(最近的CQI)；或者

ο当前的SINR与所需的SINR之间的差距，以实现所需的第一传输目标BLER q。

·输出其他值，如预测的SINR值及它们的分位数，并使用真实经历的知识(例如，在仿真器中可用)的知识来支持NN训练。这可以通过添加测量SINR预测和真实值之间的误差的损失分量来完成。

至此，我们已经讨论了为基站必须处理的针对每个不同的第一传输目标BLER q使用和训练不同的OLLA参数。可以扩展这个概念以保留可学习的OLLA参数表，同时区分其他条件(超参数)，诸如：

·低/中/平均负载；

·一天中的不同时间；

·用户终端处的天线的数目；

·用户位置，如果它具有足够好的波束成形能力，可以由用户自身发送或由基站推断；

·单个用户(SU)传输与多用户(MU)传输对比，即相同资源上的并行传输的数目；

·描述其硬件的其他用户超参数，如噪声系数、ADC处的量化比特数目等。

这将允许与特定超参数相对应的表的条目的OLLA参数的训练。因此，可以在可能影响系统行为的宏观条件之间进行区分。

可以概括上述计算图的使用。例如，可以将感兴趣的超参数输入到通用参数函数中，例如输出要使用的OLLA参数的NN，而不是处理表并且仅更新与感兴趣的超参数相对应的条目。

如果通用参数函数定义了导数(以下简称NN)，则可以在OLLA参数之外进一步反向传播损失函数l的导数。可以扩展链式规则以反向传播导数来估计NN参数，从而允许针对每个可能的超参数的实现来获得优化的OLLA参数。

这种方法保持了易于调试的可能性，因为NN的输出是用于每个实现的OLLA参数的纯值，允许在NN输出之上放置特定的规则和限制(例如，通过夹紧其输出)，以确保系统不会出现不想要的行为。

如果用户的传输是偶尔发生的，CQI报告(例如，SINR估计)的作用就变得有意义，允许基站知晓由移动设备测量的当前信道质量。在这种情况下，OLLA校正项δ的工作是确保长期第一传输目标BLER q是匹配的。

然而，在经常性的传输的情况下，例如在CQI更新周期内的多次传输，OLLA校正项被更频繁地更新。在这种情况下，δ可以代表CQI和实际信道条件之间正确偏移的更新鲜的估计。因此，应当适当地融合更新的CQI和OLLA校正项所携带的信息。

如果SINR估计利用新的值c(u)≠c(u-1)被第u次更新，其中c(u-1)为旧值，我们提出如下方式更新OLLA校正项：

δ(τ)：＝δ(τ)+k(c(u-1)-c(u))

其中k是CQI校正项(CCT)。CCT项k的使用在示例系统60的OLLA模块65中被示出。

注意，利用k＝0将获得未被更新的校正项，而利用k＝1在新的CQI更新的接收处，所估计的被校正的SINRγ(τ)将不会有不连续性。这种方法的好处将在下面被进一步讨论。

在一些示例实施例中，提供了连续传输，因此在这些实施例中没有固定的值k是没有意义的。然而，可能希望CCT具有可变值，这取决于与CQI报告周期相比用户/承载发送的频率。例如，提建可以是跟踪(例如，移动平均或指数平滑)CQI周期中平均的传输的数目与CQI周期本身之间的比率R。然后，可以使用通用参数等式作为CCT，该等式随着R的增加而增加，例如：

其中k₀和k₁是正参数。注意，由于R＞0，常数k的情况可以通过设置k₁＝+∞来获得。

然后，可以使用前面介绍的OLLA训练技术来更新/添加前进和后退步骤，以便进一步对CCT进行优化，假设在时间τ之前在系统中已经经历了U(τ)次整体CQI更新，每次更新都有相应的CQI值c(u)和传输比率R(u)。

OLLA修正项的正向传递变为：

导数可以被计算为：

在常数CCT为的情况下。关于参数k₁，我们有：

在神经网络文献中，梯度分离(GD)已被用于减少具有循环层(例如，长短期记忆(LSTM))的反向传播操作的复杂性。通过GD，可以在计算图中去除生成了变量(此后被视为常数)的先前依赖关系。这减少了反向传播导数所需的时间，但不允许网络学习长期依赖关系。

然而，给定此处所描述的示例实施例中使用的简单等式，没有像LSTM中那样允许捕获长期依赖关系的门控单元，而是全部数据被用来确定相对于初始偏移Δ₀、步长Δ和CCT的导数。因此，在一个示例实施例中，此处提议在初始化周期之后应用GD，以仅允许第一个τ′个TTI来影响Δ₀的导数。可以仅分离梯度Δ₀，但在该示例实施例中，我们考虑分离导数δ(τ′)。因此，我们可以将等式写为：

δ(τ)＝δ(τ′)^GD+Δρ(τ，τ′)+Γ(τ，τ′)，其中τ＞τ′

其中δ(τ′)^GD在反向传播期间被视为常数，并且ρ(τ，τ′)和0(τ，τ′)分别具有与ρ(τ)和Γ(τ，τ′)相同的表达式，但从分离TTIτ′计算得到。因此，我们可以推导出等式：

在GD后，导数只对于OLLA步骤和CCT是非零的。注意，GD可以在训练期间被多次应用，但除了在TTIτ′处的初始分离之外，这似乎没有显著影响。

图9示出了根据示例实施例的算法(算法1)，算法1是此处描述的被应用于单个用户的算法的实际实现，包括在时间τ_GD处的初始GD以及固定的CCT k(u)＝k₀。返回值分别是相对于Δ、Δo、k₀的导数。

开发了用以验证上述提议的仿真设置，包括两个元素。首先，我们在符合下行链路(DL)3GPP标准的系统级仿真器中生成了真实SINR和预测的CQI报告的跟踪，该仿真器使用固定的LA参数来执行操作。这将包括我们的数据，我们将在此处描述的OLLA更新算法的基于自定义AI_LA Python/Pytorch的实现中使用该数据用于我们的实验。

被用于利用系统级仿真器生成数据的主要参数/假设被报告在下表1中。

表1：主要系统级仿真器参数

通过一些数学计算，我们可以看到可供我们使用的真实SINR值的15秒的1050个跟踪(15000个值)以及由移动设备发送给下一代基站(gNB)的周期性CQI报告。这些数据已经被打乱并被分成840个样本用于训练，以及210个样本用于性能的验证。全部结果仅包含验证数据的性能，验证数据在训练期间将不会被看到。FTP3用户的到达率是动态的，并且每2.5秒在每用户1到6个分组/秒之间切换，总共有三个周期，每个周期2个阶段。

我们使用表2中报告的参数和假设，在基于Python/Pytorch的实现中研究了许多不同方法(在下面讨论的图中被称为OLLA、TOLLA、NN LA/LA-Net)的性能，其中每个用户的瞬时SINR和CQI报告序列被用作输入数据集。注意，此后我们将TTI视为时间的单位。我们考虑了来自每个用户的连续传输。给定恒定传输，我们考虑了用于CCT参数的固定值。

表2：LA研究的主要参数和训练设置

研究的关键绩效指标(KPI)如下：

·由每个用户实现的BLER，我们希望其保持接近目标。

·由每个用户实现的频谱效率，我们希望对其最大化(匹配BLER目标)。

·在用户历史开始时(第一个50ms)的连续故障的数目，我们希望对其尽可能限制，给定低目标BLER和URLLC KPI之一用于限制连续的故障。

·连续两次首次传输故障的数目，我们希望保持其尽可能小，以允许连续传输不会失败。应当记住，由于ACK/NACK延迟和每个TTI考虑的恒定传输，在这些实验中很可能会观察到连续的NACK。然而，在没有连续传输的实际系统中，结果会好得多。

研究的算法是：

·具有不同平均步长、零偏移初始化、以及未启用CCT的基线OLLA(真正的基线OLLA实现)。

·根据此处所描述的原则，具有可学习的平均步长、初始偏移、以及CCT值的可训练OLLA(TOLLA)。在下面所讨论的图中绘制的实验中，最终学习的参数为Δ₀＝-6.7dB，Δ＝0.0602，k₀＝0.305。

·通用的神经网络解决方案(LA-Net)。

图10、图11、图12A和图12B是根据示例实施例示出了仿真结果的绘图；

图10是总体上由附图标记90指示的绘图，示出了由用户实现的BLER CDF。

LA-NET方法比0.1％的目标BLER更保守。这是由于有限的MCS表和MCS的选择，其BLER低于目标。由于没有OLLA机制，LA-NET从长远来看不被迫匹配BLER。

注意，具有优化的平均步长Δ＝0.0602的TOLLA算法如何可以对其全部用户强制执行所需的BLER，保持具有手动优化的平均步长为0.1和0.3的OLLA基线的相同性能。应当注意到，这些值显然取决于场景，并且TOLLA可以在不需要任何手动调谐的情况下优化它们。

图11是总体上由附图标记100指示的绘图，示出了用户设备(UE)的频谱效率。

在绘图100中，我们可以立即注意到LA-NET方法无法实现最高的频谱效率，可能是由于在高SINR状态下缺乏一致的训练数据。然而，我们可以理解的是在低-中频谱效率下，其他OLLA/TOLLA算法的频谱效率相当，可以实现更低的BLER(来自前面的图)。

TOLLA算法可以保持在OLLA子组的中间，与LA相比，实现更高的最高频谱效率。

OLLA基线在OLLA步长过高时开始退化(这是一个众所周知的问题)，由于它的校正过于保守。注意，绘图90中来自BLERCDF的有前景的OLLA 0.3将在这里提供过低的光谱效率，清楚地示出了在考虑纯OLLA时需要对于平均步长考虑BLER和光谱效率之间的权衡。唯一剩下的OLLA基线似乎是步长大小为0.1。

图12A是总体上由附图标记110指示的绘图，示出了根据示例实施例的初始化时的连续故障的数目。

图12B是总体上由附图标记120指示的绘图，示出了根据示例实施例的连续故障的总数。

注意，在初始化时(绘图110)，由于收敛可能会出现故障，在运行时期间(绘图120)，由于ACK/NACK延迟可能会出现故障。

LA-Net在初始化方面明显优于所有其竞争对手。在整个实验中，由于可用的训练数据量相当少，无法涵盖某些情况，它的性能变得更加多样化。尽管如此，它仍然是最鲁棒的算法。

此处所描述的TOLLA算法是下个表现最好的候选。只有轻微的初始化问题和跨实验中大约15次故障。

OLLA 0.1是唯一跟得上TOLLA步长的，其他步长要么过于保守，要么过于激进。对于OLLA 0.3可以观察到较少的双重故障，但在没有恒定传输的情况下，TOLLA和其他OLLA基线也会消失(URLLC就是这种情况)。

总之，LA-NET方法仍然是一个有趣的解决方案，当场景变得更加多样化并且更多的输入信息可以被利用时，它可能会泛化并提高性能。然而，它的实现所需的努力和计算复杂度使其在产品中的实际实现相当困难。

另一方面，给定其参数优化的简单性，此处所描述的TOLLA算法允许在运行时对OLLA参数进行优化。只需要很少的乘法/加法来计算每次传输时的导数贡献，累加它们，并在周期性时间窗口上采取参数步骤。正如我们在结果中看到的，TOLLA能够找到最优的OLLA执行工作点，甚至在给定其优化的初始化和CCT的情况下对其仍有所改善。

系统60是寻求选择用于链路适配的最优调制与编码方案(MCS)的一个示例方法。然而，存在备选方法。

为了选择用于上行链路传输的最优调制与编码方案(MCS)，传统链路适配(LA)需要信号与干扰加噪声比(SINR)测量和关于先前的接收是否成功的HARQ信息。如上所述，通常LA实现被分为内环链路适配(ILLA)和外环链路适配(OLLA)。ILLA基于SINR测量选择MCS，并且OLLA提供用于对SINR测量加和的偏移。分别对于每个UE，失败的重传可被用于将SINR指向更鲁棒的方向，将成功的传输指向不太鲁棒的方向。这允许选择OLLA算法所针对的块误差率(BLER)目标。

传统的OLLA算法已被证明适用于传统的移动宽带(MBB)流量，其最优BLER目标约为0.1(10％)，用于实现吞吐量最大化。这种算法也可以收敛到更鲁棒的BLER目标，但对于目前在3GPP所讨论的要求，传统OLLA可能不是最优解决方案。例如，增强现实(AR)、虚拟现实(VR)和云游戏(CG)应用可能要求整个网际互连协议(IP)分组的可靠性为0.9999，延迟<10ms，其中上行链路(UL)分组到达间隔时间可能约为4ms。

传统OLLA的另一问题是，对于每个UE分别进行最优OLLA参数化的穷尽搜索是不现实的。因此，关于足够的OLLABLER偏移的有根据的猜测有必要被使用。

此外，OLLA可能会导致分组延迟的高偶然峰值。例如，如果gNB无法正确解码上行传输，则gNB可能会立即使后续传输更加鲁棒。这增加了发送单个分组所需的资源块(RB)的数目。这种负载增加也会导致调度延迟和其他UE的额外干扰，特别是如果多个UE同时开始遇到错误。

图13是总体上由附图标记130指示的根据示例实施例的算法的流程图。

算法130在操作131处开始，在操作131处信道质量度量偏移δ(τ)被生成，如下面详细描述的，在一个示例实施例中，信道质量度量偏移由模型(例如，机器学习模型)生成。

在操作132，信道质量度量，诸如在此被表示为c的SINR，与在操作131中生成的信道质量度量偏移相加，以便生成移动通信系统的信道的经调整的信道质量度量γ(τ)(使得γ(τ)＝c+δ(τ))。

在操作133中调制与编码方案(MCS)被设置用于在信道上的发送数据。至少部分地基于经调整的信道质量度量γ(τ)来生成MCS。

在操作134，与信道上的数据传递的成功有关的反馈数据被获取。在上面描述的示例中，这种数据可以包括ACK/NACK信号，但这不是唯一的可能性。如下文进一步讨论的，反馈信号可以包括数据的分组(例如，PDCP分组)的传输是否成功的指示。

在操作135，至少部分地基于在操作134中获取的反馈数据来编译损失/奖励函数(如下文详细讨论的)。然后，在操作136，使用损失/奖励函数来更新模型。如下文详细讨论，该模型被用于在操作131中生成信道质量度量偏移。

算法130可以利用基于机器学习的方法代替传统的OLLA，用于针对ILLA生成SINR偏移。此外，由PDCP PDU被成功发送所引起的累积的资源块(RB)使用可以被用作机器学习过程的输入。此外，可以考虑其他信息，诸如失败的PDCP分组接收或分组延迟预算(PDB)违反。ML方法可以旨在最小化由单个PDCP PDU产生的累积RB消耗，而不会产生传输错误或违反分组延迟预算。累积的RB消耗可以被计算为用于发送新传输的全部的RB的总和，新的传输包括全部段以及全部所需的重复和/或重传(如果有的话)。

图14是根据示例实施例的系统的框图，总体上由附图标记140指示，系统140可被用于实现算法130。

系统140包括gNB 141(或一些其它移动通信节点)，该gNB 141包括多个链路适配模块142。gNB 141与多个用户设备(UE)143通信。单独的链路适配模块148可以被提供用于针对每个用户设备生成MCS。(因此，如此处所描述的信道质量度量偏移可以是用户设备特定的偏移。)

示例链路适配模块142包括机器学习(ML)模块144、上行链路(UL)SINR测量模块145、ILLA模块146、调度器147和无线电链路控制(RLC)模块148。

ML模块144生成信道质量度量偏移δ(τ)并将该偏移提供给ILLA 146，从而实现算法130的操作131。

UL SINR测量模块145向ILLA 146提供SINR测量(尽管一些其它信道质量SINR可以在备选实施例中被提供)。

将从UL SINR测量模块145接收的信道质量度量(诸如SINR)与从ML模块144接收的偏移相加，以生成移动通信系统的信道的经调整的信道质量度量γ(τ)，从而实现算法130的操作132。

至少部分地基于经调整的信道质量度量由ILLA 146来设置调制与编码方案(MCS)，从而实现算法130的操作133。

调度器147和RLC模块148确定分组数据汇聚协议(PDCP)分组是否被完全接收(即完全组装在无线电链路控制(RLC)层148)。累积的物理资源块(PRB)使用以及PDCP PDU递送是否成功被馈送到ML模块148，从而实现算法130的操作134。附加信息诸如可能的分组延迟预算(PDB)(和/或存活时间)违反事件还可以被提供。

损失/奖励函数(实现操作135)至少部分地基于在操作134中获取的反馈数据。然后，使用损失/奖励函数来更新ML模型144，从而实现算法130的操作136。

ML模块148然后可以更新其对内部环路链路适配的最优SINR偏移的建议(并向ILLA模块146提供该建议)。注意，这种方法不会对单个成功或不成功的传输做出反应，相反，ML模型保持不断对偏移进行学习，最小化无线电资源使用，而不会错过任何PDCP PDUUE尝试的发送。

图15是根据示例实施例的算法的流程图，总体上由附图标记150指示。该算法150可以使用系统140来实现。

算法150在操作151处开始，在操作151在较低层处的新传输或重传被接收。在操作152，gNB累积用于相关联的数据流(或相关联的PDCP分组)的物理资源块(PRB)使用。

在操作153，关于相关数据的分组的发送/接收是否被完成的确定被做出。如果是，则算法移动到操作154；否则算法返回到操作151。

在操作154，分组大小被确定。此外，如果可用，延迟信息可以被获取。

在操作155，ML模型被用来更新信道质量度量偏移(该偏移被提供给ILLA)。ML模型可以在该阶段被更新。

最后，在操作156，在操作155中生成的更新的偏移被用于确定即将到来的上行链路传输的MCS。

在一些示例实施例中，UE可以提供可以进一步改善ML模型的学习的附加信息。例如，UE可以在注意到分组违反分组延迟预算(PDB)或生存时间的任何时候提供指示。在上行链路的情况下，针对传输，UE知道分组到达的时间。因此，在UE处跟踪上行链路分组延迟可能比在gNB处更准确。

图16是根据示例实施例的信令图，总体上由附图标记160指示的。该信令图示出了机器学习(ML)模块161(诸如ML模块144)、gNB无线电链路控制(RLC)模块162(诸如RLC模块148)、gNB MAC/PHY层163、以及用户设备(UE)164(诸如UE 143)之间的信号。

在信令图160中，ML模块161可以位于RLC和PHY/MAC层的不同逻辑实体中。尽管实现可以在gNB中，但在一些架构(例如，DU/CU分割)中，ML模型可能在与一些RAN层不同的物理位置。例如，ML模块161可以在RLC中，并经由接口连接到PHY/MAC，ML模块可以位于PHY/MAC或者ML模块可以在RAN之外。

信令图160示出了在四个阶段(分别为第一到第四阶段165到168)中生成和发送的消息。

在第一阶段165中，针对MAC/PHY层163提供偏移。

第一阶段165从推理开始，它包括根据艾司隆贪心(epsilon-greedy)原理的探索和开发。利用概率p我们选择随机动作，并利用概率1-p动作从Q表中被选择。每次推理p都会减少，直到它达到最小探索概率p_min。ML模型161针对PHY/MAC层163和UE ID提供推理输出，对于UE ID，偏移是预期的。

在另一个实施例中，如果ML模型输入依赖于用户测量(例如，CQI)，PHY/MAC层163将发信号通知UE ID和针对ML实体的测量，并获得偏移作为响应。

第二阶段166是传输阶段。

当数据到达UE 164时，UE根据相关标准定义的那样向gNB请求资源。在传输期间，gNB链路适配(LA)实现将UE特定的偏移(在第一阶段165接收的)应用于CQI到MCS的映射功能。

MAC层记录用于之后的ML训练的必要信息(例如，每MAC_PDU的RB使用，可选的每个re-tx的错误概率)。

在第三阶段167，奖励被编译，用于在训练ML模型中使用。

MAC将MAC_PDU和ML奖励信息转发给gNB RLC 162。RLC 162等待直到PDCP_PDU完成，然后编译相关奖励，如上面详细讨论的。然后奖励函数被转发给ML模块161。

在第四阶段168中，使用在第三阶段167中生成的奖励来更新ML模型，例如根据Q学习原理。

尽管未在图16中示出，消息序列然后返回到第一阶段165。

为了证明所提出的ML辅助的链路适配的技术可行性，使用现实可行的5G NR仿真器(FREAC)进行了系统级仿真。图17至19示出了根据示例实施例的仿真结果，总体上分别由附图标记170至190指示。

在仿真中，我们用提出的ML方法替换了FREAC的传统OLLA实现，并将其性能与传统OLLA进行了比较。机器学习算法使用了Q学习方法。作为对实现的ML实体的输入，我们使用了PDCP分组的累积资源块(RB)使用。此外，还使用了分组是否失败以及gNB是否能够在选定阈值内调度分组及其可能的重传的信息。在我们的仿真中，这个阈值被设置为匹配分组到达间隔时间，即4ms。这样，我们鼓励了ML在新分组到达之前尝试摆脱旧分组，用于传输。因此，我们的奖励函数如下：

其中T是以字节为单位的接收到的数据，即分组大小，k_i是用于第i次接收到的传输的RB数目，包括接收到的PDCP分组的(新的或重新发送的)数据，并且给定如果分组失败并且/或者可能PDB违反被注意到，F_error是可选的额外惩罚。如果gNB能够估计分组错误概率p，也可以通过缩放k来考虑。分组错误概率可以从用于接收到的传输的MCS以及在所使用的RB上接收时测量的SINR来估计。在该研究中，如果PDCP分组没有被正确地接收，则F_error为-10。备选地，例如，如果在PDB过期后收到了分组，则F_error＝PDB-延迟可以被用作惩罚。

奖励的备选的定义可能如下：

其中J是第i个PDCP PDU的下层传输(即分段及它们的重传)的总数。附加分组延迟预算(PDB)违反惩罚ε和由以下给出：

ε_i＝10(T_max-τ_i)，如果τ_i＞T_max

ε_i＝0，如果τ_i≤T_max

并且

如果接收成功

如果接收失败

其中τ是从预期的分组到达至成功接收或失败的时间(以毫秒为单位)，T_max表示最大PDB。

仿真参数化遵循3GPP针对XR上行链路流量假设。

我们在城市宏观场景中使用了20MHz FR₁ TDD载波。上行链路流量模型是具有4ms到达间隔时间的100B个分组。针对这种流量的分组延迟预算被确定为10ms。在绘图170和绘图180中，提供了仿真区域内84个UE的示例延迟分布结果。在密集宏小区环境中，全部的七个独立的随机仿真都使用了相同的参数化。可以看出，传统的具有10-20％的BLER目标的基于OLLA的链路适配达到了其最优性能。可以看出，基于ML的方法可以更好地避免传输缓冲中同时存在超过一个分组的情况。因此，它可以提供明显更好的性能，特别是对于高可靠性目标。

在图19中，示出了所提出的ML算法是如何收敛的。特别地，我们对于每个UE的链路适配做了～7秒的探索期。很可能更短的时间也足够了，需要记住的是，OLLA也需要一些时间来收敛。由于仿真的实用性，我们同时对全部的UE进行了探索，并且我们没有可用的针对ML的预存信息。因此，我们总是从头开始仿真运行。然而，在实际环境中，单个UE的偏移很可能可以被更快地探索，因为全部的UE不是同时探索的，并且存储的-已经学习的-值可以被作为起点而再次使用。例如，gNB可能已经收敛了针对某些SINR区域的已学习的值。因此，当UE连接时，与第一SINR测量值(或DL中的CQI)匹配的被预先初始化的值(例如，Q学习中的Q表)可以被用作ML的起点。

为了完整起见，图20是前面描述的一个或多个示例性实施例的组件的示意图，此后将被统称为处理系统300，处理系统300例如可以是(或可以包括)下面权利要求中涉及的装置。

处理系统300可以具有处理器302、紧密耦合到处理器并包括RAM 314和ROM 312的存储器304、以及可选的用户输入310和显示器318。处理系统300可以包括一个或多个网络/装置接口308，用于连接到网络/装置，例如可以是有线或无线的调制解调器。网络/装置接口308还可以操作为向其他设备的连接，其他设备诸如不是网络侧装置的设备/装置。因此，在没有网络参与的情况下，设备/装置之间的直接连接是可能的。

处理器302被连接到其他组件中的每个组件，以控制其操作。

存储器304可以包括非易失性存储器，诸如硬盘驱动器(HDD)或固态驱动器(SSD)。存储器304的ROM 312存储操作系统315等，并且可以存储软件应用316。存储器304的RAM314由处理器302用于数据的临时存储。操作系统315可以包含代码，该代码当由处理器执行时，实现上述算法和信令图50、70、80、130、150和160的方面。注意，在小型设备/装置的情况下，存储器可以最适合小尺寸使用，即不总是使用硬盘驱动器(HDD)或固态驱动器(SSD)。

处理器302可以采用任何合适的形式。例如，它可以是微控制器、多个微控制器、处理器或多个处理器。

处理系统300可以是独立的计算机、服务器、控制台或其网络。处理系统300和所需的结构部件可以全部在设备/装置内部，诸如IoT设备/装置，即被嵌入到非常小的尺寸。

在一些示例实施例中，处理系统300还可以与外部软件应用相关联，这些可以是被存储在远程服务器设备/装置上的应用，并且可以部分地或排他地运行在远程服务器设备/装置上。这些应用可以被称为云托管应用，处理系统300可以与远程服务器设备/装置通信，以便利用存储在那里的软件应用。

图21示出了有形介质，具体地说是可移动存储单元365，存储有计算机可读代码，该计算机可读代码在由计算机运行时可执行根据上述示例实施例的方法。可移动存储单元365可以是记忆棒，例如USB记忆棒，具有存储有计算机可读代码的内部存储器366。内部存储器366可以由计算机系统经由连接器367访问。其它形式的有形存储介质也可以被使用。有形介质可以是能够存储数据/信息的任何设备/装置，其数据/信息可以在设备/装置/网络之间交换。

本发明的实施例可以用软件、硬件、应用逻辑或软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在存储器或任何计算机介质上。在示例实施例中，应用逻辑、软件或指令集被维护在各种常规计算机可读介质中的任何一种上。在本文档的上下文中，“存储器”或“计算机可读介质”可以是任何非暂态介质或装置，其可以包含、存储、通信、传播或发送指令，以供诸如计算机的指令执行系统、装置或设备使用或与之结合使用。

在相关的情况下，对“计算机可读介质”、“计算机程序产品”、“有形体现的计算机程序”等或“处理器”或“处理电路”等的引用应理解为不仅包括具有不同体系结构的计算机，诸如单/多处理器体系结构和序列器/并行体系结构，还包括专用电路，诸如现场可编程门阵列FPGA、应用指定电路ASIC、信号处理设备/装置和其他设备/装置。对计算机程序、指令、代码等的引用应理解为表达用于可编程处理器固件的软件，诸如硬件设备/装置的可编程内容，作为用于处理器的指令或用于固定功能设备/装置、门阵列、可编程逻辑装置/装置等的配置或配置设置。

如果需要，此处讨论的不同功能可以以不同的顺序和/或彼此同时执行。此外，如果需要，上述功能中的一个或多个可以是可选的或可以被组合。同样，还将理解，图5、图7、图8、图13、图15和图16的流程图和信令图仅是示例，其中描述的各种操作可以被省略、重新排序和/或组合。

可以理解的是，上述示例实施例纯粹是说明性的，并不限制本发明的范围。其他变化和修改对于本领域技术人员在阅读本说明书后是显而易见的。

此外，本申请的公开内容应理解为包括任何新颖的特征或任何新颖的特征组合或者本文公开的任何显式或隐式的特征或其任何概括，并且在对本申请或由此衍生的任何申请进行起诉期间，可以制定新的权利要求以覆盖任何这样的特征和/或这样的特征的组合。

尽管本发明的各个方面在独立权利要求中列出，本发明的其它方面包括来自所描述的示例实施例和/或从属权利要求的特征与独立权利要求的特征的其它组合，而不仅仅是在权利要求中明确列出的组合。

这里还注意到，虽然以上描述了各种示例，但不应从限制的意义上看待这些描述，而是存在若干变化和修改，这些变化和修改可以在不脱离所附权利要求所限定的本发明的范围的情况下进行。

Claims

1.一种装置，包括部件，所述部件用于执行：

生成信道质量度量偏移；

对信道质量度量和所述信道质量度量偏移进行求和，以生成移动通信系统的信道的经调整的信道质量度量；

至少部分地基于所述经调整的信道质量度量，设置用于在所述信道上发送数据的调制与编码方案；

获取与通过所述信道的数据传递的成功有关的反馈数据；

至少部分地基于所述反馈数据来编译损失/奖励函数；以及

使用所述损失/奖励函数来更新模型，其中所述模型被用在所述信道质量度量偏移的所述生成中。

2.根据权利要求1所述的装置，其中：

所述信道质量度量偏移至少部分地基于针对使用所述移动通信系统的传输的目标误差率。

3.根据权利要求1或权利要求2所述的装置，其中所述反馈数据包括指示通过所述信道的先前传输是否成功的确认信号。

4.根据权利要求1至3中任一项所述的装置，还包括用于执行以下项的部件：

基于预测的误差率和获取的所述反馈信号来生成所述损失/奖励函数。

5.根据前述权利要求中任一项所述的装置，其中用于执行生成所述信道质量度量偏移的部件包括用于执行以下项的部件：

从所述模型获取初始偏移值和平均偏移步长；以及

根据所述反馈信号，将所述信道质量度量偏移增加或减少一数量，所述数量至少部分地取决于所述平均偏移步长。

6.根据前述权利要求中任一项所述的装置，还包括用于执行以下项的部件：

生成或更新计算图，所述计算图包括所述信道质量度量、所述信道质量度量偏移、所述调制与编码方案、以及所述反馈信号，其中所述模型基于所述计算图。

7.根据前述权利要求中任一项所述的装置，还包括用于执行以下项的部件：

响应于所述信道质量度量的改变，生成信道质量度量校正项，所述信道质量度量校正项用于在对所述信道质量度量和所述信道质量度量偏移进行求和时平滑对所述信道质量度量偏移的调整。

8.根据权利要求1所述的装置，其中所述模型提供所述信道质量度量偏移。

9.根据权利要求8所述的装置，其中所述反馈信号包括数据的分组的传输是否成功的指示。

10.根据权利要求8或权利要求9所述的装置，还包括用于执行以下项的部件：

在数据的所述分组的尝试递送中获取累积的物理资源块使用；以及

至少部分地基于所述累积的物理资源块使用以及所述分组的所述递送是否成功的所述指示，生成所述损失/奖励函数。

11.根据权利要求8至10中任一项所述的装置，其中数据的所述分组包括PDCP分组。

12.根据权利要求8至11中任一项所述的装置，其中所述损失/奖励函数至少部分地基于失败的分组指示和/或分组延迟预算违反。

13.根据前述权利要求中任一项所述的装置，其中所述信道质量度量包括SINR信号。

14.根据前述权利要求中任一项所述的装置，还包括用于执行以下项的部件：

基于所述经调整的信道质量度量和所述目标误差率，使用内环链路适配算法选择所述调制与编码方案。

15.根据前述权利要求中任一项所述的装置，其中所述信道质量度量偏移是用户设备专用偏移。

16.根据前述权利要求中任一项所述的装置，还包括用于执行以下项的部件：

确定是否触发所述模型的训练。

17.根据前述权利要求中任一项所述的装置，还包括用于执行以下项的部件：

基于重置条件的检测而重置所述模型。

18.一种方法，包括：

生成信道质量度量偏移；

获取与通过所述信道的数据传递的成功有关的反馈数据；

至少部分地基于所述反馈数据来编译损失/奖励函数；以及

19.一种计算机程序，包括指令，所述指令用于使装置至少执行以下：

生成信道质量度量偏移；

获取与通过所述信道的数据传递的成功有关的反馈数据；

至少部分地基于所述反馈数据来编译损失/奖励函数；以及