CN115412437A

CN115412437A - 数据处理方法及装置、设备、存储介质

Info

Publication number: CN115412437A
Application number: CN202210987455.1A
Authority: CN
Inventors: 周林
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-29

Abstract

本申请提供了数据处理方法及装置、设备、存储介质；其中，所述数据处理方法包括：获取第一状态，所述第一状态包括用于反映无线信道质量的测量数据；基于训练后的强化学习模型，确定与所述第一状态对应的第一目标动作，所述第一目标动作包括影响物理层速率的参数的参数值；其中，所述第一目标动作用于向第一设备发送第一数据；所述训练后的强化学习模型是基于第二状态和与所述第二状态对应的第二目标动作的第一奖励训练得到的，所述第一奖励是至少基于所述第二目标动作发送第二数据时所达到的第一吞吐速率得到的。

Description

数据处理方法及装置、设备、存储介质

技术领域

本申请涉及通信技术，涉及但不限于数据处理方法及装置、设备、存储介质。

背景技术

在无线保真(Wireless Fidelity，Wi-Fi)通信系统中，发送端多采用采样技术动态调整Wi-Fi的物理层速率(Wi-Fi Data Rate)，即每间隔若干次发送都会尝试用一个更高的物理层速率来发送数据包，然后收集反馈的数据包发送失败率和重传次数等指标。如果这些指标比较好，说明信道情况允许以更高的物理层速率收发数据包，那么就采用这个更高的物理层速率来发送数据包。反之，如果这些指标较差，说明当前信道情况不允许以更高的物理层速率收发数据包，则保持当前速率不变。另一方面，如果当前速率下收发数据包的指标恶化，说明信道情况已不允许以当前速率收发数据包，则发送端需要下调物理层速率。

然而，基于上述方法实现的物理层速率调整不能获得较好的吞吐速率。

发明内容

有鉴于此，本申请提供的数据处理方法及装置、设备、存储介质，能够提高数据传输的吞吐速率。

根据本申请实施例的一个方面，提供一种数据处理方法，包括：获取第一状态，所述第一状态包括用于反映无线信道质量的测量数据；基于训练后的强化学习模型，确定与所述第一状态对应的第一目标动作，所述第一目标动作包括影响物理层速率的参数的参数值；其中，所述第一目标动作用于向第一设备发送第一数据；所述训练后的强化学习模型是基于第二状态和与所述第二状态对应的第二目标动作的第一奖励训练得到的，所述第一奖励是至少基于所述第二目标动作发送第二数据时所达到的第一吞吐速率得到的。

根据本申请实施例的又一方面，提供一种数据处理装置，包括：第一获取模块，配置为获取第一状态，所述第一状态包括用于反映无线信道质量的测量数据；第一确定模块，配置为基于训练后的强化学习模型，确定与所述第一状态对应的第一目标动作，所述第一目标动作包括影响物理层速率的参数的参数值；其中，所述第一目标动作用于向第一设备发送第一数据，所述训练后的强化学习模型是基于第二状态和与所述第二状态对应的第二目标动作的第一奖励训练得到的，所述第一奖励是至少基于所述第二目标动作发送第二数据时所达到的第一吞吐速率得到的。

根据本申请实施例的另一方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请实施例所述的方法。

根据本申请实施例的又一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的所述的方法。

在本申请实施例中，由于训练后的强化学习模型不是人工手动调校得出的经验公式，而是基于强化学习算法得到的，其能够发掘和总结状态空间中的更深层次的规律。因此，相比于经验公式，其输出的目标动作(即物理层速率)更为符合实际传输环境；从而，一方面，减少了因采用不当的物理层速率发送数据所带来的带宽损失，进而提高了实际的吞吐能力；这是因为：与信道实际容量不一致的物理层速率将导致吞吐速率变差；如果物理层速率低于信道实际容量，那么显然达不到信道容量最大化的利用率；如果物理层速率高于信道实际容量，将会产生大量的错包和重传，而不必要的重传会浪费信道的可用容量。而基于经验公式的数据处理方法，不可避免地带来更大的带宽损失。

另一方面，实际的吞吐能力的提高，也可以改善芯片的功耗表现；原因是：如果可以最大化地或较大化地利用信道容量，那么数据发送端就能够以更快的速度完成数据包的收包，而让芯片有更多的时间进入低功耗模式。同样的，通过避免不必要的数据重传，也可以让芯片尽早完成数据的发送，从而有更多的时间进入低功耗模式。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1为本申请实施例提供的模型训练方法的实现流程示意图；

图2为Actor-Critic算法原理示意图；

图3为本申请实施例提供的数据处理方法的实现流程示意图；

图4为强化学习算法的原理示意图；

图5为优化策略估计器和价值估计器的结构示意图；

图6为本申请实施例提供的数据处理装置的结构示意图；

图7为本申请实施例提供的电子设备的硬件实体示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”、“本实施例”、“本申请实施例”以及举例等等，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三\第四\第五”等不代表针对对象的特定排序。可以理解地，“第一\第二\第三第四\第五”等在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在本申请实施例中，第二设备采用训练后的强化学习模型，对用以数据传输的物理层速率进行计算，至少基于计算结果向第一设备发送第一数据。即，第二设备获取第一状态，以及基于训练后的强化学习模型，确定与所述第一状态对应的第一目标动作，该第一目标动作用于向第一设备发送第一数据；

其中，所述第一状态包括用于反映无线信道质量的测量数据，所述第一目标动作包括影响物理层速率的参数的参数值，所述训练后的强化学习模型是基于第二状态和与所述第二状态对应的第二目标动作的第一奖励训练得到的，所述第一奖励是至少基于所述第二目标动作发送第二数据时所达到的第一吞吐速率得到的。

为了便于对本申请实施例提供的数据处理方法和装置的理解，首先对训练后的强化学习模型的训练过程进行说明，然后再对数据处理方法的实现流程进行说明。

图1为本申请实施例提供的模型训练方法的实现流程示意图，如图1所示，包括如下步骤101至步骤105：

步骤101，第四设备获取一个第二状态，所述第二状态包括用于反映无线信道质量的测量数据；

步骤102，第四设备基于当前强化学习模型，确定与所述第二状态对应的一个第二目标动作，所述第二目标动作包括影响物理层速率的至少一个参数的参数值；

步骤103，第四设备至少基于所述第二目标动作，向第三设备发送第二数据；

步骤104，第四设备在发送所述第二数据之后，测量对应的第一吞吐速率；

步骤105，第四设备将所述第一吞吐速率作为第一奖励，更新所述强化学习模型的模型参数的参数值。

第四设备重复迭代上述步骤，直至满足迭代截止条件，得到训练后的强化学习模型。

可以理解地，人工得出的经验公式一般表达能力比较有限，对于状态空间比较大的输出价值的判断是比较琐碎且不容易总结规律的，而能够总结的规律往往也是比较显而易见的，更深层次的规律难以发掘和总结。

有鉴于此，在本申请实施例中，第四设备采用强化学习的方法对强化学习模型进行机器学习而非是人工经验总结的，从而挖掘出实际传输环境中更深层次的传输规律，进而得到相比于人工得出的经验公式更为符合实际传输环境的强化学习模型；因此，该训练后的强化学习模型对于第二设备获得较优的物理层速率是非常有益的，使得第二设备在基于该模型预测的物理层速率发送数据时能够达到较好的吞吐速率。

需要说明的是，本申请实施例提供的模型训练方法的执行主体也可以是第二设备，即离线模型训练和在线模型推理可以在同一设备中实现。

以下分别对上述各个步骤的进一步的可选的实施方式以及相关名词等进行说明。

在步骤101中，第四设备获取一个第二状态，所述第二状态包括用于反映无线信道质量的测量数据。

在本申请实施例中，所述测量数据至少包括当前时刻的状态数据。在另一些实施例中，所述测量数据包括当前时刻的状态数据和之前时刻的状态数据。这些状态数据可以是基于第四设备或接收端设备(即第三设备)的硬件的统计数据，包括但不限于来自RF、PHY和MAC层统计的基础数据。

例如，在一些实施例中，所述测量数据至少包括以下至少之一：接收信号强度指示(Received Signal Strength Indicator，RSSI)、误差向量幅度(Error VectorMagnitude，EVM)、信噪比(Signal to Noise Ratio，SNR)、重传率(retry ratio)、丢包率(Packet Loss Rate，PER)。当然，在本申请实施例中，也不局限于是这些参数的参数值。总之，能够反映无线信道质量的参数的参数值即可。

在步骤102中，第四设备基于当前强化学习模型，确定与所述第二状态对应的一个第二目标动作，所述第二目标动作包括影响物理层速率的至少一个参数的参数值。

在一些实施例中，第二目标动作至少包括以下参数的参数值：调制编码策略(Modulation and Coding Scheme，MCS)的索引(index)、带宽(bandwidth)、长/短保护间隔(guard interval，保护间隔)、空间流编号(spatial stream number，SSN)。当然，在本申请实施例中，也不局限于是上述参数的参数值，第二目标动作还可以包括其他影响物理层速率的参数的参数值。

由于无线信道的复杂性以及实际应用场景突发因素的偶然性，直接建模往往不能较有效地表达信道特性和交互特征。因此，在本申请实施例中，对于强化学习算法不做限定，即对于强化学习模型和训练方法不做限定。在一些实施例中，第四设备可以采用无模型的(Model-Free RL)强化学习算法，其中主要包括策略算法(Policy Optimization)和Q-Learning这两大类算法。具体又包括一簇实现算法，包括但不限于DQN(Deep Q Networks)、策略梯度(Policy Gradient)、A2C(Advantage Actor-Critic)、A3C(AsynchronousAdvantage Actor-Critic)以及深度确定性策略梯度算法(Deep Deterministic PolicyGradient，DDPG)。

在步骤103中，第四设备至少基于所述第二目标动作，向第三设备发送第二数据。

所述至少基于所述第二目标动作，向第三设备发送第二数据，在一些实施例中，第四设备可以在得到第二目标动作之后，不对该动作进行扩展，直接基于该动作向第三设备发送第二数据；进一步地，第四设备可以在基于第二目标动作发送第二数据失败的情况下再基于第二目标动作和预先配置的物理层速率列表，扩展得到至少一个第四目标动作，基于此依次尝试发送第二数据；

在另一些实施例中，所述至少基于所述第二目标动作，向第三设备发送第二数据，包括：第四设备先基于第二目标动作和预先配置的物理层速率列表，扩展得到至少一个第四目标动作，然后基于第二目标动作和所述至少一个第四目标动作，依次尝试向第一设备发送第二数据。

进一步地，在一些实施例中，所述至少一个第四目标动作包括多个第四目标动作，第四设备可以按照SNR的要求的高低，对所述多个第四目标动作进行排序；第四设备按照排序结果依次尝试发送第二数据。

例如，按照SNR要求的高低，得到三个动作，即：吞吐速率次于第二目标动作的动作、次优可靠性的动作、最优可靠性的动作。在第四设备在基于第二目标动作发送第二数据失败的情况下，第四设备按照这三个动作的排列顺序依次尝试发送第二数据给第三设备。

在一些实施例中，第四设备基于所述第二目标动作，对所述第二数据进行编码调制，从而向第三设备发送第二数据。也就是，以第二目标动作对应的物理层速率，将第二数据发送至第三设备。

在步骤104中，第四设备在发送所述第二数据之后，测量对应的第一吞吐速率(throughput)。

在步骤105中，第四设备将所述第一吞吐速率作为第一奖励，更新所述当前强化学习模型的模型参数的参数值。

考虑到在某些通信系统中，吞吐速率往往是大于或等于0的数值，而强化学习算法通常需要一个负的奖励(reward)来调整强化学习模型的模型参数的参数值的增减。而如果奖励都是正值的情况下，那么所有的动作都将得到奖励，这样在强化学习模型的模型参数的参数值还没有达到最优就饱和了。

有鉴于此，在一些实施例中，第四设备可以通过价值网络对第一奖励进行修正，得到修正后的第一奖励；将所述修正后的第一奖励输入至损失函数，根据所述损失函数的梯度，更新所述当前强化学习模型的模型参数；如此，避免了由于奖励都是正值而无法将强化学习模型的模型参数的参数值训练到满足需求的情况发生。

在一些实施例中，第四设备可以采用RL基线(baseline)改进算法，即对奖励进行修正。例如，可以采用RL算法中的Actor-Critic(表演者-批评者)算法，由价值函数的估值对奖励进行修正，其修正值再拿去优化策略估计器(estimator)和价值估计器，后两者可以是两个深度神经网络。Actor-Critic算法原理如图2所示，其中Policy即为强化学习模型的一种示例，Value Function即为价值网络的一种示例，Environment即为环境(可以理解为第四设备所在的实际环境)。Policy扮演的是Actor这一角色，Value Function扮演的是Critic这一角色。Actor的输入为一个状态(state)、修正后的奖励(TD error)，即修正后的第一吞吐速率。Actor作为一个策略网络(Policy Network)，基于修正后的奖励来进行调节不同状态下采取各种动作的概率。

Critic是一个以值为基础的学习法，因此可以进行单步更新，计算每一步的奖惩值(即奖励)。那么二者相结合，Actor来选择动作，Critic来告诉Actor它选择的动作是否合适。在这一过程中，Actor不断迭代，得到每一个状态下选择每一动作的合理概率，Critic也不断迭代，不断完善每个状态下选择每一个动作的奖惩值；其中，所述的动作即为候选动作，而目标动作来自于多个候选动作中的一个。

第四设备重复迭代上述步骤，直至满足迭代截止条件，得到训练后的强化学习模型。可以理解地，每次迭代输入至最新的强化学习模型中的状态不同。

在本申请实施例中，对于迭代截止条件不做限定，可以是迭代次数达到预设次数，也可以是第一奖励趋于收敛。

在本申请实施例中，对于第四设备采用何种强化学习算法以及采用何种结构的强化学习模型，均不做限定。例如，可以是Q learning、Sarsa、Deep QNetwork、PolicyGradients、Model based RL、Actor-Critic等强化学习算法实现对强化学习模型的训练。总之，基于状态信号和动作，获得环境给的奖励；基于奖励，更新强化学习模型的模型参数，从而得到最终训练后的强化学习模型，进而能够在第二设备中被使用即可，即能够基于当前测量的状态数据，获得合适的目标动作，基于目标动作，将待发送数据发送给第一设备。

在得到训练后的强化学习模型之后，由于该训练后的强化学习模型满足数据传输的性能指标要求，例如满足吞吐速率的指标要求，因此该模型可以应用在第二设备的数据处理方法中。图3为本申请实施例提供的数据处理方法的实现流程示意图，如图3所示，该方法包括以下步骤301至步骤303：

步骤301，第二设备获取第一状态，所述第一状态包括用于反映无线信道质量的测量数据。

第一状态包括的参数与上文提到的第二状态包括的参数是相同的，不同的是二者是在不同时刻获取的信息，同一参数的参数值可能是不同的。这些测量数据可以是基于第二设备或接收端设备(即第一设备)的硬件的统计数据，包括但不限于来自RF、PHY和MAC层统计的基础数据。

例如，在一些实施例中，所述第一状态至少包括以下至少之一的测量数据：RSSI、EVM、SNR、重传率、丢包率。当然，在本申请实施例中，也不局限于是这些参数的参数值。总之，能够反映无线信道质量的参数的参数值即可。

步骤302，第二设备基于训练后的强化学习模型，确定与所述第一状态对应的第一目标动作，所述第一目标动作包括影响物理层速率的参数的参数值；

步骤303，第二设备至少基于所述第一目标动作，向第一设备发送第一数据。

另一方面，实际的吞吐能力的提高，也可以改善芯片的功耗表现；原因是：如果可以最大化地或较大化地利用信道容量，那么数据发送端就能够以更快的速度完成数据包的收包，而让芯片有更多的时间进入低功耗模式。同样的，通过避免不必要的数据重传，也可以使芯片尽早完成数据的发送，从而有更多的时间进入低功耗模式。

需要说明的是，第二设备至少基于第一目标动作向第一设备发送第一数据，在一些实施例中，可以是基于第一目标动作向第一设备发送第一数据；进一步地，在一些实施例中，第二设备在基于第一目标动作发送失败的情况下，再基于第一目标动作和预先配置的物理层速率列表，扩展得到至少一个第三目标动作，然后基于所述至少一个第三目标动作，依次尝试向第一设备发送第一数据。

在另一些实施例中，所述至少基于第一目标动作向第一设备发送第一数据，也可以是基于第一目标动作和预先配置的物理层速率列表，扩展得到至少一个第三目标动作，然后基于第一目标动作和所述至少一个第三目标动作，依次尝试向第一设备发送第一数据。

可以理解地，第二设备基于第一目标动作发送第一数据时也可能存在第一数据发送失败的情况，即第二设备没有得到第一数据。因此，第二设备基于所述第一目标动作和预先配置的物理层速率列表，先扩展得到至少一个第三目标动作；然后，再基于第一目标动作和所述至少一个第三目标动作，向第一设备发送第一数据；其中，所述至少一个第三目标动作用于在第一数据发送失败的情况下向所述第一设备重新发送所述第一数据。

进一步地，在一些实施例中，所述至少一个第三目标动作包括多个第三目标动作，第二设备可以按照SNR的要求的高低，对所述多个第三目标动作进行排序；第二设备按照排序结果依次尝试发送第一数据。

例如，按照SNR要求的高低，得到三个动作，即：吞吐速率次于第一目标动作的动作、次优可靠性的动作、最优可靠性的动作。在第二设备基于第一目标动作发送第一数据失败的情况下，第二设备按照这三个动作的排列顺序依次尝试发送第一数据给第一设备。

其中，预先配置的物理层速率列表实际包括的是每一物理层速率对应的动作。例如下表1所示的列表的部分信息。

表1 DATA RATES FOR VARIOUS 802.11AC CONFIGURATIONS

在一些实施例中，第二设备可以基于所述第一目标动作，对所述第一数据进行编码调制，从而发送给所述第一设备；其中，所述第一目标动作至少包括：MCS索引、带宽(Channel width)、保护间隔(Guard Interval，GI)、空间流(Spatial streams)编号。当然，在本申请实施例中，也不局限于是上述参数的参数值，第一目标动作还可以包括其他影响物理层速率的参数的参数值。同理，第二设备在基于第三目标动作发送第一数据时，基于第三目标动作对第一数据进行编码调制。从而实现对第一数据的重新发送。

在一些实施例中，训练后的强化学习模型是在通用环境中训练得到的，该训练后的强化学习模型可能没有接近第二设备的个性化环境。有鉴于此，在一些实施例中，所述数据处理方法还包括：第二设备在发送所述第一数据之后，测量对应的第二吞吐速率；将所述第二吞吐速率作为第二奖励，更新所述训练后的强化学习模型的模型参数的参数值；如此，基于第二设备实际所在环境输出的吞吐速率，对训练后的强化学习模型的模型参数的参数值进行更新，使得更新后的强化学习模型更为符合第二设备所在的实际环境，从而得到满足用户定制化的强化学习模型，以在后续使用中能够预测出更为符合第二设备的实际环境的目标动作，进而进一步提高吞吐速率。

进一步地，在一些实施例中，第二设备通过价值网络对第二奖励进行修正，得到修正后的第二奖励；将所述修正后的第二奖励输入至损失函数，得到所述损失函数的梯度；根据所述损失函数的梯度，更新所述训练后的强化学习模型的模型参数。

对于第二奖励的修正算法与前文训练阶段提到的第一奖励的修正算法相同，因此这里不再重复说明。

需要说明的是，本申请实施例提供的数据处理方法可以用于Wi-Fi通信系统的设备，即IEEE 802.11标准的无线局域网中的设备，相应地，第二设备和第一设备为Wi-Fi设备，第三设备和第四设备也为Wi-Fi设备。

本申请实施例提供的数据处理方法也可以应用于其他类型的无线通信系统设备中，例如第四代移动通信系统(the 4th generation mobile communication system，4G)、第五代移动通信技术(5th-Generation wireless communication technology，5G)新空口(New Radio，NR)系统或未来的通信系统等。

第一设备、第二设备、第三设备和第四设备在实施的过程中可以为各种类型的具有通信能力的设备，例如可以包括手机、平板电脑、路由设备、电视机、智能穿戴设备(如手环、手表)等。

在本申请实施例中，第二设备与第四设备可以是同一设备，也可以是不同设备。第一设备和第三设备可以是同一设备，也可以是不同设备。但是，第一设备和第二设备为不同设备，第三设备和第四设备为不同设备。

基于采样的Wi-Fi速率调整策略，对于环境变化的反应是滞后的，且是不灵活的，这体现在调整的策略。如果太过于激进的调整速率，会导致实际带宽吞吐不稳定有较大起伏。如果太过于消极调整速率，就无法及时响应环境变化，会导致吞吐性能下降，低于实际的最大能力。而这个调整快慢的度很难把握，且往往不具有普适意义。

另一方面，手动调校得出的经验公式一般表达能力比较有限，对于状态空间比较大的输出价值判断是很琐碎且不容易总结规律的，而能够总结的规律往往也是比较显而易见的，更深层次的规律难以发掘和总结。

基于此，下面将说明本申请实施例在一个实际的应用场景中的示例性应用。

在本申请实施例中，基于强化学习算法，可以对输入Wi-Fi信道上的各种输入状态进行推理，直接得出最优动作。

强化学习算法的原理如图4所示，在强化学习过程中，智能体与环境一直在交互。这里的智能体包括上文提到的收发设备，主要是指第二设备或第四设备，环境则是指数据收发设备之间的传输环境。智能体在环境中获取到状态S_t，智能体利用这个状态S_t输出一个动作A_t，也即一个决策。然后将这个决策A_t放到环境之中，环境根据智能体采取的决策A_t，输出下一个状态S_t+1以及当前的这个决策得到的奖励R_t+1。智能体的目的是为了尽可能多地从环境中获取奖励。

根据强化学习的特点，整个训练过程包含几个部分：环境(environment)，智能体(agent)、状态(state)、动作(action)和奖励(reward)。

A.状态(即前文提到的状态)：对应于Wi-Fi的测量数据，基于Wi-Fi硬件的统计数据，包括但不限于来自RF、PHY和MAC层统计的基础数据。其中基础数据包括但不限于：RSSI、EVM、SNR、重传率和PER。

B.动作(即前文提到的动作)：算法的输出是对于一个参数的选择，即所谓的动作，包括：MCS索引、带宽、长/短保护间隔、SSN以及将来可能影响Wi-Fi data rate的参数。为了便于形成最终动作的输出，所有这些参数的组合会被分配一个唯一的动作标识，作为对一组参数的选择。

C.奖励：即测量到的实际吞吐的速率(throughput)。

D.由于Wi-Fi信道的复杂性，以及实际应用场景突发因素的偶然性，直接建模往往不能很有效的表达信道特性和交互特征，所以这里采用无模型的(Model-Free RL)强化学习算法，主要包括Policy Optimization和Q-Learning这两大类算法，具体又包括一簇实现算法，包括但不限于：DQN、Policy Gradient、A2C、A3C和DDPG。

E.由于Wi-Fi速率的特点，反馈的结果通常是实际吞吐的速率，这个值是一个大于或等于零的正值，而通常强化学习算法需要一个负的reward来调整参数的增减。如果都是正值，那么所有的动作都将得到奖励，这样很快使动作选择模块饱和，所以可以采用RL基线(baseline)改进算法，即对奖励进行修正。具体来说，可以采用RL算法中的Actor-Critic算法，由价值函数的估值对奖励进行修正，其修正值再拿去优化策略估计器(estimator)和价值估计器，后两者是两个深度神经网络，如图5所示。

F.由于Wi-Fi的data rate往往需要一组结果输入硬件进行挨个尝试，所以对于RL输出的最优结果可以参照Wi-Fi data rate算法扩展处理，包括但不限于如下例子：从最优结果出发，按照SNR要求高低进行排序，得出四个速率，分别是最高throughput的datarate、次高throughput的data rate、次优可靠性的data rate和最优可靠性的data rate。

G.Actor-Critic算法的训练过程包括如下步骤601至步骤605：

步骤601，样本{s_i,a_i}来自于策略函数π_θ(a|s)；其中，s即状态state缩写，s_i是指第i时刻或第i步的状态，a是action缩写；

步骤602，通过价值函数

对样本{s_i,a_i}获得的奖励进行修正；

步骤603，计算

步骤604，计算

步骤605，

需要说明的是，r是reward的缩写，π表示策略函数。θ代表π的内部参数，π_θ(a|s)代表对状态s和动作a输入在参数θ的策略。

为价值函数，即Critic的函数，V为value的缩写，其代表在策略π内部参数φ下的价值评估。γ为修正参数(超参数)，Σ为求和函数，log为对数函数，

为偏导函数，

为对策略网络内部参数的偏导。α为调制参数(超参数)。

其中，state、action和reward在前文已描述，而其他参数为Actor-Critic算法的标准参数。策略函数π即为Actor，价值函数V即为Critic，其结构为图5所示的全连接网络层。

上述方法可以减少不当速率尝试所带来的带宽损失，进而提高实际吞吐能力。原因是：与信道实际容量不一致的速率导致吞吐变差。如果发送速率低于信道实际容量，那么显然达不到信道容量最大化的利用率；如果发送速率高于信道实际容量，将会产生大量的错包和重传，而不必要的重传会浪费信道的可用容量。而传统基于采样的算法，不可避免的存在采样开销和带宽损失的问题。

上述方法还可以改善芯片的功耗表现。原因是：如果可以最大化地利用信道容量，那么发送设备就能够以更快的速度完成数据包的收包，从而使芯片有更多的时间进入低功耗模式。同样的，通过避免不必要的重传，也可以使芯片尽早完成数据发送，从而有更多的时间进入低功耗模式。

基于强化学习的数据处理方法，可以快速识别当前信道和干扰特征，包括但不限于频谱特征、重传率特征和错包率特征等等，如前面state所述，形成状态向量，运用强化学习算法，根据信道的反馈reward，可以从中学习到应该输出的最优速率。强化学习网络训练完成后，可以根据当前状态直接预测出对应的最优速率，避免了采样算法的采样开销、带宽损失和调节滞后等问题。

上述方法包括步骤A、B、C、D、E、F、G，其中E可以通过E’来改进/替换，E’这里可以是其他改善学习稳定性的算法，也可以是换另一种reward指标(而不是实际吞吐速率)，从而可以运用更简单的RL算法。

作为对历史状态数据的利用，这里的策略神经网络和估值神经网络也可以是RNN或者Transformer技术的序列数据网络，从而可以从历史序列数据中提取更多特征，从而输出不局限当前状态的最优结果，还可以是最近一段历史的最优结果。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等；或者，将不同实施例中步骤组合为新的技术方案。

基于前述的实施例，本申请实施例提供一种模型训练装置和数据处理装置，这两个装置包括所包括的各模块、以及各模块所包括的各单元，可以通过处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为AI加速引擎(如NPU等)、GPU、中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等等。

图6为本申请实施例提供的数据处理装置的结构示意图，如图6所示，数据处理装置600包括：

第一获取模块601，配置为获取第一状态，所述第一状态包括用于反映无线信道质量的测量数据；

第一确定模块602，配置为基于训练后的强化学习模型，确定与所述第一状态对应的第一目标动作，所述第一目标动作包括影响物理层速率的参数的参数值；其中，所述第一目标动作用于向第一设备发送第一数据，所述训练后的强化学习模型是基于第二状态和与所述第二状态对应的第二目标动作的第一奖励训练得到的，所述第一奖励是至少基于所述第二目标动作发送第二数据时所达到的第一吞吐速率得到的。

在一些实施例中，数据处理装置600还包括：第二获取模块，配置为获取第二状态，所述第二状态包括用于反映无线信道质量的测量数据；第二确定模块，配置为基于强化学习模型，确定与所述第二状态对应的第二目标动作，所述第二目标动作包括影响物理层速率的参数的参数值；第二发送模块，配置为基于所述第二目标动作，向第三设备发送第二数据；第一测量模块，配置为在发送所述第二数据之后，测量对应的第一吞吐速率；更新模块，配置为将第一吞吐速率作为第一奖励，更新所述当前强化学习模型的模型参数的参数值；迭代模块，配置为触发上述模块，直至满足迭代截止条件，得到训练后的强化学习模型。

在一些实施例中，更新模块，还配置为：在发送所述第一数据之后，测量对应的第二吞吐速率；将所述第二吞吐速率作为第二奖励，更新所述训练后的强化学习模型的模型参数的参数值。

在一些实施例中，更新模块，配置为：通过价值网络对奖励进行修正，得到修正后的奖励；所述奖励为所述第一奖励或所述第二奖励；将所述修正后的奖励输入至损失函数，根据所述损失函数的梯度，更新所述强化学习模型的模型参数。

在一些实施例中，数据处理装置600还包括第一发送模块，配置为：基于所述第一目标动作和预先配置的物理层速率列表，确定至少一个第三目标动作；其中，所述至少一个第三目标动作用于在发送所述第一数据失败的情况下，向所述第一设备重新发送所述第一数据。

在一些实施例中，第一发送模块，配置为：基于所述第一目标动作和所述至少一个第三目标动作，依次尝试向第一设备发送第一数据。

在一些实施例中，所述第一状态至少包括以下至少之一：RSSI、EVM、SNR、重传率、丢包率。

在一些实施例中，第一发送模块603配置为：基于所述第一目标动作，对所述第一数据进行编码调制，从而发送给所述第一设备；其中，所述第一目标动作至少包括：MCS索引、带宽、保护间隔、空间流编号。

在一些实施例中，数据处理装置600设置在第二设备之中，第二设备和第一设备为Wi-Fi设备。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中所述装置对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。也可以采用软件和硬件结合的形式实现。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

本申请实施例提供一种电子设备，图7为本申请实施例提供的电子设备的硬件实体示意图，如图7所示，所述电子设备700包括存储器701和处理器702，所述存储器701存储有可在处理器702上运行的计算机程序，所述处理器702执行所述程序时实现上述实施例中提供的模型训练方法中的步骤，或者所述处理器702执行所述程序时实现上述实施例中提供的数据处理方法中的步骤。

需要说明的是，存储器701配置为存储由处理器702可执行的指令和应用，还可以缓存在处理器702以及电子设备700中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(RandomAccess Memory，RAM)实现。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法实施例提供的方法中的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质、存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如对象A和/或对象B，可以表示：单独存在对象A，同时存在对象A和对象B，单独存在对象B这三种情况。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其他的方式实现。以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个模块或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性的、机械的或其他形式的。

上述作为分离部件说明的模块可以是、或也可以不是物理上分开的，作为模块显示的部件可以是、或也可以不是物理模块；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能模块可以全部集成在一个处理单元中，也可以是各模块分别单独作为一个单元，也可以两个或两个以上模块集成在一个单元中；上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取第一状态，所述第一状态包括用于反映无线信道质量的测量数据；

基于训练后的强化学习模型，确定与所述第一状态对应的第一目标动作，所述第一目标动作包括影响物理层速率的参数的参数值；

其中，所述第一目标动作用于向第一设备发送第一数据；所述训练后的强化学习模型是基于第二状态和与所述第二状态对应的第二目标动作的第一奖励训练得到的，所述第一奖励是至少基于所述第二目标动作发送第二数据时所达到的第一吞吐速率得到的。

2.根据权利要求1所述的方法，其特征在于，所述强化学习模型的训练过程包括：

获取第二状态，所述第二状态包括用于反映无线信道质量的测量数据；

基于当前强化学习模型，确定与所述第二状态对应的第二目标动作，所述第二目标动作包括影响物理层速率的参数的参数值；

至少基于所述第二目标动作，向第三设备发送第二数据；

在发送所述第二数据之后，测量对应的第一吞吐速率；

将所述第一吞吐速率作为第一奖励，更新所述当前强化学习模型的模型参数的参数值；

重复迭代上述步骤，直至满足迭代截止条件，得到训练后的强化学习模型。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在发送所述第一数据之后，测量对应的第二吞吐速率；

将所述第二吞吐速率作为第二奖励，更新所述训练后的强化学习模型的模型参数的参数值。

4.根据权利要求2或3所述的方法，其特征在于，

通过价值网络对奖励进行修正，得到修正后的奖励；所述奖励为所述第一奖励或所述第二奖励；

将所述修正后的奖励输入至损失函数，根据所述损失函数的梯度，更新所述强化学习模型的模型参数。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述第一目标动作和预先配置的物理层速率列表，确定至少一个第三目标动作；

其中，所述至少一个第三目标动作用于在所述第一数据发送失败的情况下，向所述第一设备重新发送所述第一数据。

6.根据权利要求1所述的方法，其特征在于，所述第一状态至少包括以下至少之一：RSSI、EVM、SNR、重传率、丢包率。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述第一目标动作，对所述第一数据进行编码调制，从而发送给所述第一设备；其中，所述第一目标动作至少包括：MCS索引、带宽、保护间隔、空间流编号。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法应用于第二设备，所述第二设备和所述第一设备为Wi-Fi设备。

9.一种数据处理装置，其特征在于，包括：

第一获取模块，配置为获取第一状态，所述第一状态包括用于反映无线信道质量的测量数据；

第一确定模块，配置为基于训练后的强化学习模型，确定与所述第一状态对应的第一目标动作，所述第一目标动作包括影响物理层速率的参数的参数值；其中，所述第一目标动作用于向第一设备发送第一数据，所述训练后的强化学习模型是基于第二状态和与所述第二状态对应的第二目标动作的第一奖励训练得到的，所述第一奖励是至少基于所述第二目标动作发送第二数据时所达到的第一吞吐速率得到的。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第二获取模块，配置为获取第二状态，所述第二状态包括用于反映无线信道质量的测量数据；

第二确定模块，配置为基于当前强化学习模型，确定与所述第二状态对应的第二目标动作，所述第二目标动作包括影响物理层速率的参数的参数值；

第二发送模块，配置为至少基于所述第二目标动作，向第三设备发送第二数据；

第一测量模块，配置为在发送所述第二数据之后，测量对应的第一吞吐速率；

更新模块，配置为将所述第一吞吐速率作为第一奖励，更新所述强化学习模型的模型参数的参数值；

迭代模块，配置为触发上述模块，直至满足迭代截止条件，得到训练后的强化学习模型。

11.一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。