CN117651346A

CN117651346A - 一种强化学习的训练方法及相关装置

Info

Publication number: CN117651346A
Application number: CN202210968171.8A
Authority: CN
Inventors: 刘鹏; 郭子阳; 罗嘉俊; 舒同欣; 杨讯; 颜敏
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2024-03-05
Also published as: WO2024032228A1

Abstract

本申请提供了一种强化学习的训练方法及相关装置，该方法包括：根据多个站点的动作，确定第一回报值，第一回报值为多个站点中第一站点的回报值，第一回报值用于第一站点进行强化学习训练；向第一站点发送第一回报值。可以看出，通过根据多个站点的动作确定回报值，使得回报值的计算可以结合用户间的相互影响，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。本申请可应用于EHT，或Wi‑Fi7，或Wi‑Fi 8等WLAN系统。

Description

一种强化学习的训练方法及相关装置

技术领域

本申请涉及计算机技术、通信技术领域，尤其涉及一种强化学习的训练方法及相关装置。

背景技术

强化学习是用于实现序列决策的通用方法，智能体(agent)以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的回报(reward)值指导行为，目标是使智能体获得最大的回报值。目前，往往需要利用动作、环境状态和回报值进行强化学习训练。但是，在现有方案中，得到的回报值精准性低，进而导致在利用动作、环境状态和回报值进行强化学习训练后在实际应用时效果不好。

发明内容

本申请提供了一种强化学习的训练方法及相关装置，可以提高回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

第一方面，提供一种强化学习的训练方法，该方法包括：根据多个站点的动作，确定第一回报值，第一回报值为多个站点中第一站点的回报值，第一回报值用于第一站点进行强化学习训练；向第一站点发送第一回报值。可以看出，通过根据多个站点的动作确定回报值，使得回报值的计算可以结合用户间的相互影响，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

可选的，一个站点的动作包括以下至少一项：站点发起信道接入、站点进行信道选择、站点进行功率控制、站点进行速率自适应。

应理解的，第一站点可以为多个站点中的任意一个站点。这意味着，针对多个站点中的任意一个站点，接入点均是根据多个站点的动作确定该站点的回报值。示例性的，接入点根据站点1的动作、站点2的动作和站点3的动作，确定站点1的回报值；接入点根据站点1的动作、站点2的动作和站点3的动作，确定站点2的回报值；接入点根据站点1的动作、站点2的动作和站点3的动作，确定站点3的回报值。

可选的，多个站点中不同站点的动作可以完全相同、部分相同或完全不同，在此不做限定。示例性的，站点#1的动作为发起信道接入，站点#2的动作为发起信道接入，站点#3的动作为发起信道接入。因此三个站点的动作完全相同。又示例性的，站点#1的动作为发起信道接入，站点#2的动作为发起信道接入，站点#3的动作为进行功率控制。因此三个站点的动作部分相同。又示例性的，站点#1的动作为发起信道接入，站点#2的动作为进行速率自适应，站点#3的动作为进行功率控制。因此三个站点的动作完全不同。

强化学习(reinforcement learning，RL)用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是马尔可夫决策过程(markov decision process，MDP)。MDP是一种分析决策问题的数学模型。强化学习是智能体以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的奖励(reward)指导行为，目标是使智能体获得最大的奖励。应理解的，在本申请中，智能体可以理解为一种AI模型，包括大量的参数和计算公式(或计算规则)。奖励又可以称为回报值、评价等。

强化学习可以由环境提供的强化信号(即奖励)对动作的好坏作一种评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，智能体必须靠自身的经历进行学习。通过这种方式，智能体在行动-评价(即奖励)的环境中获得知识，改进行动方案以适应环境。常见的强化学习算法有深度Q学习(deep Q-learning，DQN)、近端策略优化(proximal policy optimization，PPO)等。

可选的，结合第一方面，根据多个站点的动作，确定第一回报值，包括：根据多个站点的动作和多个站点的动作对应的时间，确定第一回报值。可以看出，通过根据多个站点的动作和多个站点的动作对应的时间确定回报值，使得回报值的计算可以结合用户间的相互影响，还可以结合不同站点的动作对应的时间，丰富了确定回报值的相关信息，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

可选的，结合第一方面，多个站点的动作对应的时间相同。可以看出，因为多个站点的动作对应的时间相同，所以接入点在根据多个站点的动作和多个站点的动作对应的时间确定回报值时，可以提高回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

可选的，结合第一方面，第一回报值为第一时间对应的回报值，第一时间为第一站点的动作对应的时间。可以看出，因为回报值为某个时间对应的回报值，所以使得站点可以获知该时间对应的动作和环境状态，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

可选的，结合第一方面，向所述第一站点发送所述第一回报值，包括：向第一站点发送广播帧，广播帧包括第一回报值。可以看出，因为第一回报值由广播帧携带，所以可以使得其他站点也收到广播帧。

其中，广播帧例如可以为信标帧或触发(trigger)帧等。

可选的，结合第一方面，多个站点还包括第二站点，该方法还包括：若第一站点和第二站点同时发送报文并导致传输失败，则确定第二站点的回报值，第二站点的回报值与第一回报值相同；向第二站点发送广播帧。可以看出，在不同站点的回报值相同的情况下，通过发送广播帧，使得不同站点都可以获取到回报值，节省了开销。

可选的，结合第一方面，向第一站点发送第一回报值，包括：向第一站点发送第一报文的响应帧；其中，第一报文的响应帧包括第一回报值，第一回报值与第二报文对应，第二报文在第一报文之后接收。可以看出，第二报文对应的回报值可以在第一报文的响应帧中携带，因为第二报文在第一报文之后接收，所以实现了延迟发送第二报文对应的回报值，这为回报值的计算提供了更多的时间。

其中，第一回报值与第二报文对应可以理解为：第一回报值与第二报文中第一站点的动作对应。第一站点的动作对应的时间为接入点接收第二报文的时间。

在本申请中，响应帧例如可以为确认(acknowledgment，ACK)帧、清除发送(cleartosend，CTS)帧或块确认(block ACK，BA)等。

可选的，结合第一方面，第一报文的响应帧还包括第二报文的标识信息或第二报文的时间戳。可以看出，由于第一报文的响应帧还包括第二报文的标识信息或第二报文的时间戳，使得第一站点可以获知第一回报值具体是哪个报文对应的回报值。

在一可能的实施方式中，第二报文的标识信息例如可以为第二报文的索引值。在另一可能的实施方式中，第二报文的标识信息例如可以为第一报文的索引值与第二报文的索引值之间的差值。如，第一报文的索引值为10，第二报文的索引值为4，第二报文的标识信息可以为4或6。

可选的，结合第一方面，第二报文的时间戳为第二报文的接收时间；或，第二报文的时间戳为第一报文的接收时间与第二报文的接收时间的差值。

可选的，结合第一方面，第一回报值

其中，d₀为第一站点距离最近一次收到第一站点的确认帧的时间间隔，N为站点的数量，d₁为第一站点距离最近一次监听到其他站点的确认帧的时间间隔，其他站点为多个站点中除第一站点的站点。可以看出，回报值的计算可以结合用户间的相互影响，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

应理解的，在本申请中，当第一站点传输报文成功，且其他站点传输报文成功时，第一回报值为d₀-(N-1)*d₁。当第一站点传输报文成功，且其他站点传输报文失败时，第一回报值为d₀-(N-1)*d₁。当第一站点传输报文失败，且其他站点传输报文失败时，第一回报值为-N。当第一站点传输报文失败，且其他站点传输报文成功时，第一回报值为-N。

第二方面，提供一种通信装置，该装置包括处理模块和收发模块，处理模块，用于根据多个站点的动作，确定第一回报值，第一回报值为多个站点中第一站点的回报值，第一回报值用于第一站点进行强化学习训练；收发模块，用于向第一站点发送第一回报值。

可选的，结合第二方面，一个站点的动作包括以下至少一项：站点发起信道接入、站点进行信道选择、站点进行功率控制、站点进行速率自适应。

可选的，结合第二方面，在根据多个站点的动作，确定第一回报值时，处理模块，用于根据多个站点的动作和多个站点的动作对应的时间，确定第一回报值。

可选的，结合第二方面，多个站点的动作对应的时间相同。

可选的，结合第二方面，第一回报值为第一时间对应的回报值，第一时间为第一站点的动作对应的时间。

可选的，结合第二方面，在向第一站点发送第一回报值时，收发模块，用于向第一站点发送广播帧，广播帧包括第一回报值。

可选的，结合第二方面，多个站点还包括第二站点，处理模块，还用于若第一站点和第二站点同时发送报文并导致传输失败，则确定第二站点的回报值，第二站点的回报值与第一回报值相同；收发模块，还用于向第二站点发送广播帧。

可选的，结合第二方面，在向第一站点发送第一回报值时，收发模块，用于向第一站点发送第一报文的响应帧；其中，第一报文的响应帧包括第一回报值，第一回报值与第二报文对应，第二报文在第一报文之后接收。

可选的，结合第二方面，第一报文的响应帧还包括第二报文的标识信息或第二报文的时间戳。

可选的，结合第二方面，第二报文的时间戳为第二报文的接收时间；或，第二报文的时间戳为第一报文的接收时间与第二报文的接收时间的差值。

可选的，结合第二方面，第一回报值

其中，d₀为第一站点距离最近一次收到第一站点的确认帧的时间间隔，N为站点的数量，d₁为第一站点距离最近一次监听到其他站点的确认帧的时间间隔，其他站点为多个站点中除第一站点的站点。

第三方面，提供一种芯片，芯片包括至少一个处理器和接口，处理器用于读取并执行存储器中存储的指令，当指令被运行时，使得芯片执行如第一方面任一项所述的方法。

第四方面，提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被计算机执行时，使计算机执行如第一方面任一项所述的方法。

第五方面，提供一种通信装置，包括处理器、存储器、输入接口和输出接口，输入接口用于接收来自通信装置之外的其它通信装置的信息，输出接口用于向通信装置之外的其它通信装置输出信息，处理器调用存储器中存储的计算机程序实现如第一方面中任一项所述的方法。

在一种可能的设计中，该通信装置可以是实现第一方面中方法的芯片或者包含芯片的设备。

第六方面，提供一种计算机程序产品，当计算机读取并执行计算机程序产品时，使得计算机执行实现如第一方面中任一项所述的方法。

第七方面，提供一种通信系统，包括用于实现第一方面中任一项所述方法的接入点，和/或，站点。

附图说明

下面将对实施例描述中所需要使用的附图作简单地介绍。

其中：

图1为本申请实施例提供的一种WLAN的网络架构图；

图2为本申请实施例提供的一种强化学习原理图；

图3所示为可适用于本申请实施例的一种通信装置的硬件结构示意图；

图4为本申请实施例提供的一种强化学习的训练方法的流程示意图；

图5为本申请实施例提供的一种延迟反馈回报值的示意图；

图6为本申请实施例提供的有益效果图；

图7为本申请实施例提供的一种通信装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，本申请实施例中的术语“系统”和“网络”可被互换使用。除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是一个，也可以是多个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对网元和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在本申请实施例中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

以下的具体实施方式，对本申请的目标、技术方案和有益效果进行了进一步详细说明，所应理解的是，以下仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

应理解的，本申请实施例可以适用于无线局域网(wireless local areanetwork，WLAN)的场景，可以适用于IEEE 802.11系统标准，例如802.11a/b/g、802.11n、802.11ac、802.11ax，或其下一代，例如802.11be或更下一代的标准中。或者本申请实施例也可以适用于物联网(internet of things，IoT)、车联网(Vehicle to X，V2X)、窄带物联网(narrow band internet of things，NB-IoT)系统、其他短距通信系统(如蓝牙(bluetooth)、超宽带(ultra wide band，UWB))等等。当然，本申请实施例还可以适用于其他可能的通信系统，例如，长期演进(long term evolution，LTE)系统、LTE频分双工(frequency division duplex，FDD)系统、LTE时分双工(time division duplex，TDD)、通用移动通信系统(universal mobile telecommunication system，UMTS)、全球互联微波接入(worldwide interoperability for microwave access，WiMAX)通信系统、以及未来的6G通信系统等。

下文以本申请实施例可以适用于WLAN的场景为例。应理解，WLAN从802.11a/g标准开始，历经802.11n、802.11ac、802.11ax和如今正在讨论的802.11be和Wi-Fi 8。其中802.11n也可称为高吞吐率(high throughput,HT)；802.11ac也可称为非常高吞吐率(veryhigh throughput，VHT)；802.11ax也可称为高效(high efficient，HE)或者Wi-Fi 6；802.11be也可称为极高吞吐率(extremely high throughput，EHT)或者Wi-Fi 7，而对于HT之前的标准，如802.11a/b/g等统称叫做非高吞吐率(Non-HT)。

参见图1，图1为本申请实施例提供的一种WLAN的网络架构图。图1以该WLAN包括1个无线接入点(access point，AP)和2个站点(station，STA)为例。与AP关联的STA，能够接收该AP发送的无线帧，也能够向该AP发送无线帧。另外，本申请实施例同样适用于AP与AP之间的通信，例如各个AP之间可通过分布式系统(distributed system，DS)相互通信，本申请实施例也适用于STA与STA之间的通信。应理解，图1中的AP和STA的数量仅是举例，还可以更多或者更少。

本申请实施例涉及到的STA可以是各种具有无线通信功能的用户终端、用户装置，接入装置，订户站，订户单元，移动站，用户代理，用户装备或其他名称，其中，用户终端可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端(terminal)，终端设备(terminal equipment)，便携式通信设备，手持机，便携式计算设备，娱乐设备，游戏设备或系统，全球定位系统设备或被配置为经由无线介质进行网络通信的任何其他合适的设备等。例如STA可以是路由器、交换机和网桥等，在此，为了描述方便，上面提到的设备统称为站点或STA。

本申请实施例所涉及到的AP和STA可以为适用于IEEE 802.11系统标准的AP和STA。AP是部署在无线通信网络中为其关联的STA提供无线通信功能的装置，该AP可用作该通信系统的中枢，通常为支持802.11系统标准的MAC和PHY的网络侧产品，例如可以为基站、路由器、网关、中继器，通信服务器，交换机或网桥等通信设备，其中，所述基站可以包括各种形式的宏基站，微基站，中继站等。在此，为了描述方便，上面提到的设备统称为AP。STA通常为支持802.11系统标准的介质访问控制(media access control，MAC)和物理层(physical，PHY)的终端产品，例如手机、笔记本电脑等。

本申请实施例还可以应用于一个节点与一个或多个节点进行数据传输的场景中；也可以应用于单用户的上行/下行数据传输场景，多用户的上行/下行数据传输场景中；还可以应用于设备到设备(device to device，D2D)的数据传输场景中。上述任一节点可以为AP或STA。

本方案可以应用于无线通信系统。该无线通信系统可以为无线局域网(Wirelesslocal area network)或蜂窝网，本方案可以由无线通信系统中的通信设备或通信设备中的芯片或处理器实现，该通信设备可以是一种支持多条链路并行进行传输的无线通信设备，例如，称为多链路设备(multi-link device)或多频段设备(multi-band device)。相比于仅支持单条链路传输的设备来说，多链路设备具有更高的传输效率和更高的吞吐量。多链路设备包括一个或多个隶属的站点STA(affiliated STA)，隶属的STA是一个逻辑上的站点，可以工作在一条链路上。其中，隶属的站点可以为接入点(Access Point，AP)或非接入点站点(non-Access Point Station,non-AP STA)。为描述方便，本申请将隶属的站点为AP的多链路设备可以称为多链路AP或多链路AP设备或AP多链路设备(AP multi-linkdevice)，隶属的站点为non-AP STA的多链路设备可以称为多链路STA或多链路STA设备或STA多链路设备(STA multi-link device)。应理解的，多链路设备中各个站点可以分别工作在一条链路上，但允许多个站点工作在同一条链路上。

需要说明的，在本申请中，AP和STA可以具有一定的人工智能(artificialintelligence，AI)能力，如可以使用神经网络进行推理决策，还可以进行神经网络的训练等。应理解的，在本申请中，主要涉及到强化学习的训练等，强化学习例如可以为深度强化学习(deep reinforcement learning，DRL)。

参见图2，图2为本申请实施例提供的一种强化学习原理图。如图2所示，强化学习主要包含五个元素：智能体、环境(environment)、状态(state)、动作(action)与奖励(reward)。其中，智能体的输入为状态，输出为动作。强化学习的训练过程为：通过智能体与环境进行多次交互，获得每次交互的动作、状态、奖励；将这多组(动作，状态，奖励)作为训练数据，对智能体进行一次训练。采用上述过程，对智能体进行下一轮次训练，直至满足收敛条件。

示例性的，获得一次交互的动作、状态、奖励的过程如图2所示，将环境当前状态S0输入至智能体，获得智能体输出的动作A0，根据环境在动作A0作用下的相关性能指标计算本次交互的奖励R0，至此，获得本次交互的动作A0、状态S0与奖励R0。记录本次交互的动作A0、状态S0与奖励R0，以备后续用来训练智能体。还可以记录环境在动作A0作用下的下一个状态S1，以便实现智能体与环境的下一次交互。

在本申请中，动作为站点的动作，站点的动作可以包括以下至少一项：站点发起信道接入、站点进行信道选择、站点进行功率控制、站点进行速率自适应。

可选的，当站点的动作为站点发起信道接入时，状态可以是载波侦听结果，如信道质量、丢包率等中的一个或多个。当站点的动作为站点进行信道选择时，状态可以是信道的负载情况等。当站点的动作为站点进行功率控制时，状态可以是站点的位置、信道质量、吞吐等中的一个或多个。当当站点的动作为站点进行速率自适应时，状态可以是载波侦听结果，如信道质量、丢包率等中的一个或多个。

可选的，图1中的各设备(例如AP、STA等)可以由一个设备实现，也可以由多个设备共同实现，还可以是一个设备内的一个功能模块，本申请实施例对此不作具体限定。可以理解的是，上述功能既可以是硬件设备中的网络元件，也可以是在专用硬件上运行的软件功能，或者是平台(例如，云平台)上实例化的虚拟化功能。

例如，图1中的各设备均可以通过图3中的通信装置300来实现。图3所示为可适用于本申请实施例的一种通信装置的硬件结构示意图。该通信装置300包括至少一个处理器301，通信线路302，存储器303以及至少一个通信接口304。

处理器301可以是通用中央处理器(central processing unit，CPU)、微处理器、特定应用集成电路(application-specific integrated circuit，ASIC)、神经网络处理器(neural-network processing unit，NPU)等中一个或多个。处理器301还可以是一个或多个用于控制本申请方案程序执行的集成电路。

通信线路302可包括一通路，在上述组件之间传送信息。

通信接口304，是任何收发器一类的装置(如天线等)，用于与其他设备或通信网络通信，如以太网，RAN，无线局域网(wireless local area networks，WLAN)等。

存储器303可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路302与处理器相连接。存储器也可以和处理器集成在一起。本申请实施例提供的存储器通常可以具有非易失性。

其中，存储器303用于存储执行本申请方案的计算机执行指令，并由处理器301来控制执行。处理器301用于执行存储器303中存储的计算机执行指令，从而实现本申请下述实施例提供的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在一种可能的实施方式中，处理器301可以包括一个或多个CPU，例如图3中的CPU0和CPU1。

在一种可能的实施方式中，通信装置300可以包括多个处理器，例如图3中的处理器301和处理器307。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在一种可能的实施方式中，通信装置300还可以包括输出设备305和输入设备306。输出设备305和处理器301通信，可以以多种方式来显示信息。例如，输出设备305可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备306和处理器301通信，可以以多种方式接收用户的输入。例如，输入设备306可以是鼠标、键盘、触摸屏设备或传感设备等。

当通信装置开机后，处理器301可以读取存储器303中的软件程序，解释并执行软件程序的指令，处理软件程序的数据。当需要通过无线发送数据时，处理器301对待发送的数据进行基带处理后，输出基带信号至射频电路，射频电路将基带信号进行射频处理后将射频信号通过天线以电磁波的形式向外发送。当有数据发送到通信装置时，射频电路通过天线接收到射频信号，将射频信号转换为基带信号，并将基带信号输出至处理器301，处理器301将基带信号转换为数据并对该数据进行处理。

在另一种实现中，所述的射频电路和天线可以独立于进行基带处理的处理器而设置，例如在分布式场景中，射频电路和天线可以独立于通信装置，呈拉远式的布置。

可选的，神经网络处理器例如可以包括图3中未示出的训练模块和推理模块，训练模块的输入例如可以包括动作、状态、回报值等，输出为神经网络参数。一般来说，训练好的神经网络参数可以反馈到推理模块。应理解的，神经网络处理器可以与通信装置300的各个模块交互，如控制通信接口的数据的传输，以节能；或，与天线交互，控制天线的朝向。在一可能的实施方式中，该通信装置300还可以包括图3中未示出的媒体接入控制(mediaaccess control，MAC)。神经网络处理器还可以与MAC交互，控制信道接入、信道选择和空间复用决策等。

上述的通信装置300可以是一个通用设备或者是一个专用设备。在具体实现中，通信装置300可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digitalassistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或有图3中类似结构的设备。本申请实施例不限定通信装置300的类型。

以下结合附图，说明本申请实施例提供的技术方案。

参见图4，图4为本申请实施例提供的一种强化学习的训练方法的流程示意图。如图4所示，该方法包括但不限于以下步骤：

401、接入点根据多个站点的动作，确定第一回报值，第一回报值为多个站点中第一站点的回报值。

可选的，本申请中，接入点获知第一站点的动作，可以通过以下任意一种方式。应理解的，接入点具体采用方式1.1，还是方式1.2获知第一站点的动作，可以取决于接入点的实现、预先的约定或者标准的定义。

方式1.1、在步骤401之前，接入点接收第一站点发送的第一站点的动作。示例性的，第一站点发送的报文被接入点接收，因为报文中包括第一站点的动作，所以接入点可以获知第一站点的动作。即在第一站点发送的报文被接入点接收的情况下，接入点通过报文获知第一站点的动作。又示例性的，第一站点发送的报文未被接入点接收，因为报文丢失，接入点无法获知第一站点的动作，所以第一站点可以重新向接入点发送丢失报文的动作。即在第一站点发送的报文未被接入点接收的情况下，接入点通过丢失报文的动作获知第一站点的动作。

方式1.2、接入点自行确定第一站点的动作。示例性的，第一站点不发送报文，因此，接入点也不会收到第一站点发送的报文，此时可以接入点可以自行确定第一站点的动作。又示例性的，第一站点发送的报文被接入点接收，该报文包括报文的速率信息、时间长度信息等一个或多个。如该报文的包头中包括报文的速率信息、时间长度信息等一个或多个。因此接入点可以根据报文的速率信息、时间长度信息等一个或多个确定第一站点的动作。应理解的，在接入点自行确定第一站点的动作时，第一站点的动作可以为空。

可以看出，方式1.1和方式1.2中的任意一种方式，实现了接入点获知站点的动作，进而为后续接入点确定回报值做准备。

其中，第一回报值可以用于第一站点进行强化学习训练。

可选的，步骤401可以包括：接入点根据多个站点的动作和多个站点的动作对应的时间，确定第一回报值。可以看出，通过根据多个站点的动作和多个站点的动作对应的时间确定回报值，使得回报值的计算可以结合用户间的相互影响，还可以结合不同站点的动作对应的时间，丰富了确定回报值的相关信息，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

需要说明的，在第一站点发送的报文被接入点接收的情况下，因为报文中包括第一站点的动作，所以第一站点的动作对应的时间例如可以是接入点接收该报文的时间。在第一站点发送的报文未被接入点接收的情况下，第一站点的动作对应的时间例如可以是丢失报文的发送时间。在接入点自行确定第一站点的动作的情况下，第一站点的动作对应的时间例如可以是第一站点发起信道接入的时间。

其中，多个站点的动作对应的时间相同。可以看出，因为多个站点的动作对应的时间相同，所以接入点在根据多个站点的动作和多个站点的动作对应的时间确定回报值时，可以提高回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

可选的，第一回报值为第一时间对应的回报值，第一时间为第一站点的动作对应的时间。可以看出，因为回报值为某个时间对应的回报值，所以使得站点可以获知该时间对应的动作和环境状态，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

在本申请中，第一回报值

可以看出，回报值的计算可以结合用户间的相互影响，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

可选的，该方法还可以包括步骤402。

402、接入点向第一站点发送第一回报值。

相应的，第一站点接收接入点发送的第一回报值。

可选的，在本申请中，步骤402可以通过以下任意一种方式实现。应理解的，接入点具体采用方式2.1，还是方式2.2发送第一回报值，可以取决于接入点的实现、预先的约定或者标准的定义。

方式2.1、接入点向第一站点发送广播帧或组播帧，相应的，第一站点接收接入点发送的广播帧或组播帧。其中，广播帧或组播帧包括第一回报值，该组播帧还可以包括第一站点的地址。广播帧例如可以为信标帧或触发(trigger)帧等。应理解的，对于方式2.1这种情况，接入点可以采用上述方式1.1中通过丢失报文的动作获知第一站点的动作，或，接入点可以采用上述方式1.2获知第一站点的动作。可以看出，因为第一回报值由广播帧或组播帧携带，所以可以使得其他站点也收到广播帧或组播帧。

方式2.2、接入点向第一站点发送第一报文的响应帧，相应的，第一站点接收接入点发送的第一报文的响应帧。其中，第一报文的响应帧包括第一回报值，第一回报值与第二报文对应，第二报文在第一报文之后接收。

其中，第一回报值与第二报文对应可以理解为：第一回报值与第二报文中第一站点的动作对应。第一站点的动作对应的时间为接入点接收第二报文的时间。另外，在本申请中，响应帧例如可以为确认(acknowledgment，ACK)帧、清除发送(clear tosend，CTS)帧或块确认(block ACK，BA)等。

示例性的，参见图5，图5为本申请实施例提供的一种延迟反馈回报值的示意图。如图5所示，在步骤501中，站点1向接入点发送报文1，报文1包括站点1的动作。在步骤502中，接入点向站点1发送报文1的响应帧。在步骤503中，站点1向接入点发送报文2。在步骤504中，接入点向站点1发送报文2的响应帧，报文2的响应帧包括报文1对应的回报值，报文1对应的回报值根据多个站点的动作确定，站点1为多个站点中的一个。即因为接入点计算报文1对应的回报值需要时间，所以接入点可以在报文2的响应帧中携带报文1对应的回报值。

可以看出，方式2.2中，第二报文对应的回报值可以在第一报文的响应帧中携带，因为第二报文在第一报文之后接收，所以实现了延迟发送第二报文对应的回报值，这为回报值的计算提供了更多的时间。

可选的，针对方式2.1，多个站点还可以包括第二站点，该方法还包括：若第一站点和第二站点同时发送报文并导致传输失败，接入点则确定第二站点的回报值，第二站点的回报值与第一回报值相同；接入点向第二站点发送广播帧。其中，第一站点和第二站点同时发送报文并导致传输失败，可以理解为：第一站点和第二站点同时发送报文导致第一站点传输失败，第二站点也传输失败。可以看出，在不同站点的回报值相同的情况下，通过发送广播帧，使得不同站点都可以获取到回报值，节省了开销。

示例性的，在时刻t，站点1和站点2的动作均为信道接入，即站点1和站点2同时向接入点发送报文，由于冲突导致报文发送失败，AP为了惩罚站点1和站点2在t时刻的行为，可以将回报值设置为较大的负值，例如-100，此时其中，/>为站点1的回报值，/>为站点2的回报值。这种情况下，最节省开销的方式是进行广播，这使得站点1和站点2都可以获取到回报值。

可选的，针对方式2.2，第一报文的响应帧还可以包括以下任意一种。应理解的，接入点具体在第一报文的响应帧中携带第一种，还是第一种，可以取决于接入点的实现、预先的约定或者标准的定义。

第一种、第二报文的标识信息。在一可能的实施方式中，第二报文的标识信息例如可以为第二报文的索引值。在另一可能的实施方式中，第二报文的标识信息例如可以为第一报文的索引值与第二报文的索引值之间的差值。如，第一报文的索引值为10，第二报文的索引值为4，第二报文的标识信息可以为4或6。

第二种、第二报文的时间戳。在一可能的实施方式中，第二报文的时间戳例如可以为第二报文的接收时间。在另一可能的实施方式中，第二报文的时间戳例如可以为第一报文的接收时间与第二报文的接收时间的差值。在本申请中，报文的接收时间可以理解为接入点接收报文的时间。

可以看出，由于第一报文的响应帧还包括第二报文的标识信息或第二报文的时间戳，使得第一站点可以获知第一回报值具体是哪个报文对应的回报值。

应理解的，本申请中，第一报文的响应帧具体携带的信息例如可以参考表1或表2。在表1中，第一报文的响应帧包括第一回报值和第二报文的标识信息。在表2中，第一报文的响应帧包括第一回报值和第二报文的时间戳。

表1

第一回报值

第二报文的标识信息

表2

第一回报值

第二报文的时间戳

可选的，该方法还可以包括步骤403。

403、第一站点根据第一回报值进行强化学习训练。

可选的，步骤403可以包括：第一站点获取第一回报值对应的状态和动作；第一站点根据第一回报值、状态和动作进行强化学习训练。其中，第一站点根据第一回报值、状态和动作进行强化学习训练可以理解为：第一站点根据第一回报值、状态和动作对智能体进行强化学习训练。

可选的，在本申请中，多个站点中不同站点可以采用不同的强化学习算法进行强化学习训练，如站点1使用DQN进行强化学习训练，站点2使用PPO进行强化学习训练等。

可以看出，通过根据多个站点的动作确定回报值，使得回报值的计算可以结合用户间的相互影响，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

参见图6，图6为本申请实施例提供的有益效果图。在图6中，多个站点中不同站点使用不同的深度学习算法，如使用DQN的站点的数量为1，使用PPO的站点的数量也为1。在这些站点发起信道接入的场景下，仍然能够公平且高效的共享频谱。具体的，在图6的6-1中，横坐标为接入时延(Delay)，单位为秒，纵坐标为累积概率分布(Probability)，可以看出这些站点在发起信道接入时，使用不同算法的站点对应的接入时延的分布情况。在图6的6-2中，横坐标为时间(Time)，单位为秒，纵坐标为吞吐(Throughtput)，这些站点的总吞吐在0.8至1之间趋于稳定，各个站点的吞吐在0.4至0.6之间趋于稳定，也就是说各个站点的吞吐差别不大，所以这些站点能够公平且高效的共享频谱。

上述主要从各个设备之间交互的角度对本申请提供的方案进行了介绍。可以理解的是，上述实现各设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对接入点、站点等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的模块的情况下，参见图7，图7为本申请实施例提供的一种通信装置的结构示意图。该通信装置700可应用于上述图4所示的方法中，如图7所示，该通信装置700包括：处理模块701和收发模块702。处理模块701可以是一个或多个处理器，收发模块702可以是收发器或者通信接口。该通信装置可用于实现上述任一方法实施例中涉及站点或接入点，或用于实现上述任一方法实施例中涉及网元的功能。该网元或者网络功能既可以是硬件设备中的网络元件，也可以是在专用硬件上运行的软件功能，或者是平台(例如，云平台)上实例化的虚拟化功能。可选的，该通信装置700还可以包括存储模块703，用于存储通信装置700的程序代码和数据。

一种实例，当该通信装置作为接入点或为应用于接入点中的芯片，并执行上述方法实施例中由接入点执行的步骤。收发模块702用于支持与站点等之间的通信，收发模块具体执行图4中由接入点执行的发送和/或接收的动作，例如支持接入点执行步骤402，和/或本文中所描述的技术的其他过程。处理模块701可用于支持通信装置700执行上述方法实施例中的处理动作，例如，支持接入点执行步骤401等中一个或多个步骤，和/或本文中所描述的技术的其他过程。

示例性的，处理模块701，用于根据多个站点的动作，确定第一回报值，第一回报值为多个站点中第一站点的回报值，第一回报值用于第一站点进行强化学习训练；收发模块702，用于向第一站点发送第一回报值。

可选的，在根据多个站点的动作，确定第一回报值时，处理模块701，用于根据多个站点的动作和多个站点的动作对应的时间，确定第一回报值。

可选的，多个站点的动作对应的时间相同。

可选的，第一回报值为第一时间对应的回报值，第一时间为第一站点的动作对应的时间。

可选的，在向第一站点发送第一回报值时，收发模块702，用于向第一站点发送广播帧，广播帧包括第一回报值。

可选的，多个站点还包括第二站点，处理模块701，还用于若第一站点和第二站点同时发送报文并导致传输失败，则确定第二站点的回报值，第二站点的回报值与第一回报值相同；收发模块702，还用于向第二站点发送广播帧。

可选的，在向第一站点发送第一回报值时，收发模块702，用于向第一站点发送第一报文的响应帧；其中，第一报文的响应帧包括第一回报值，第一回报值与第二报文对应，第二报文在第一报文之后接收。

可选的，第一报文的响应帧还包括第二报文的标识信息或第二报文的时间戳。

可选的，第二报文的时间戳为第二报文的接收时间；或，第二报文的时间戳为第一报文的接收时间与第二报文的接收时间的差值。

可选的，第一回报值

在一种可能的实施方式中，当接入点或站点为芯片时，收发模块702可以是通信接口、管脚或电路等。通信接口可用于输入待处理的数据至处理器，并可以向外输出处理器的处理结果。具体实现中，通信接口可以是通用输入输出(general purpose input output，GPIO)接口，可以和多个外围设备(如显示器(LCD)、摄像头(camara)、射频(radiofrequency，RF)模块、天线等等)连接。通信接口通过总线与处理器相连。

处理模块701可以是处理器，该处理器可以执行存储模块存储的计算机执行指令，以使该芯片执行图4实施例涉及的方法。

进一步的，处理器可以包括控制器、运算器和寄存器。示例性的，控制器主要负责指令译码，并为指令对应的操作发出控制信号。运算器主要负责执行定点或浮点算数运算操作、移位操作以及逻辑操作等，也可以执行地址运算和转换。寄存器主要负责保存指令执行过程中临时存放的寄存器操作数和中间操作结果等。具体实现中，处理器的硬件架构可以是专用集成电路(application specific integrated circuits，ASIC)架构、无互锁管道阶段架构的微处理器(microprocessor without interlocked piped stagesarchitecture，MIPS)架构、进阶精简指令集机器(advanced RISC machines，ARM)架构或者网络处理器(network processor，NP)架构等等。处理器可以是单核的，也可以是多核的。

该存储模块可以为该芯片内的存储模块，如寄存器、缓存等。存储模块也可以是位于芯片外部的存储模块，如只读存储器(Read Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)等。

需要说明的，处理器、接口各自对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，这里不作限制。

本申请实施例还提供一种通信装置，包括处理器、存储器、输入接口和输出接口，输入接口用于接收来自通信装置之外的其它通信装置的信息，输出接口用于向通信装置之外的其它通信装置输出信息，处理器调用存储器中存储的计算机程序实现如图4所示实施例。

本申请实施例还提供一种芯片，芯片包括至少一个处理器和接口，处理器用于读取并执行存储器中存储的指令，当指令被运行时，使得芯片执行如图4所示实施例。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被计算机执行时，使计算机执行如图4所示实施例。

本申请实施例还提供一种计算机程序产品，当计算机读取并执行计算机程序产品时，使得计算机执行实现如图4所示实施例。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目标。另外，在本申请各个实施例中的各网元单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件网元单元的形式实现。

上述集成的单元如果以软件网元单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端设备，云服务器，或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种强化学习的训练方法，其特征在于，所述方法包括：

根据多个站点的动作，确定第一回报值，所述第一回报值为所述多个站点中第一站点的回报值，所述第一回报值用于所述第一站点进行强化学习训练；

向所述第一站点发送所述第一回报值。

2.根据权利要求1所述的方法，其特征在于，一个站点的动作包括以下至少一项：所述站点发起信道接入、所述站点进行信道选择、所述站点进行功率控制、所述站点进行速率自适应。

3.根据权利要求1或2所述的方法，其特征在于，所述根据多个站点的动作，确定第一回报值，包括：

根据所述多个站点的动作和所述多个站点的动作对应的时间，确定所述第一回报值。

4.根据权利要求3所述的方法，其特征在于，所述多个站点的动作对应的时间相同。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述第一回报值为第一时间对应的回报值，所述第一时间为所述第一站点的动作对应的时间。

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述向所述第一站点发送所述第一回报值，包括：

向所述第一站点发送广播帧，所述广播帧包括所述第一回报值。

7.根据权利要求6所述的方法，其特征在于，所述多个站点还包括第二站点，所述方法还包括：

若所述第一站点和所述第二站点同时发送报文并导致传输失败，则确定所述第二站点的回报值，所述第二站点的回报值与所述第一回报值相同；

向所述第二站点发送所述广播帧。

8.根据权利要求1-5任意一项所述的方法，其特征在于，所述向所述第一站点发送所述第一回报值，包括：

向所述第一站点发送第一报文的响应帧；

其中，所述第一报文的响应帧包括所述第一回报值，所述第一回报值与第二报文对应，所述第二报文在所述第一报文之后接收。

9.根据权利要求8所述的方法，其特征在于，所述第一报文的响应帧还包括所述第二报文的标识信息或所述第二报文的时间戳。

10.根据权利要求9所述的方法，其特征在于，

所述第二报文的时间戳为所述第二报文的接收时间；或，

所述第二报文的时间戳为所述第一报文的接收时间与所述第二报文的接收时间的差值。

11.根据权利要求1-10任意一项所述的方法，其特征在于，

所述第一回报值

其中，d₀为所述第一站点距离最近一次收到所述第一站点的确认帧的时间间隔，N为站点的数量，d₁为所述第一站点距离最近一次监听到所述其他站点的确认帧的时间间隔，所述其他站点为所述多个站点中除所述第一站点的站点。

12.一种通信装置，其特征在于，所述装置包括处理模块和收发模块，

处理模块，用于根据多个站点的动作，确定第一回报值，所述第一回报值为所述多个站点中第一站点的回报值，所述第一回报值用于所述第一站点进行强化学习训练；

收发模块，用于向所述第一站点发送所述第一回报值。

13.根据权利要求12所述的装置，其特征在于，一个站点的动作包括以下至少一项：所述站点发起信道接入、所述站点进行信道选择、所述站点进行功率控制、所述站点进行速率自适应。

14.根据权利要求12或13所述的装置，其特征在于，在根据多个站点的动作，确定第一回报值时，所述处理模块，用于根据所述多个站点的动作和所述多个站点的动作对应的时间，确定所述第一回报值。

15.根据权利要求14所述的装置，其特征在于，所述多个站点的动作对应的时间相同。

16.根据权利要求14所述的装置，其特征在于，所述第一回报值为第一时间对应的回报值，所述第一时间为所述第一站点的动作对应的时间。

17.根据权利要求12-16任意一项所述的装置，其特征在于，在向所述第一站点发送所述第一回报值时，所述收发模块，用于向所述第一站点发送广播帧，所述广播帧包括所述第一回报值。

18.根据权利要求17所述的装置，其特征在于，

所述多个站点还包括第二站点，所述处理模块，还用于若所述第一站点和所述第二站点同时发送报文并导致传输失败，则确定所述第二站点的回报值，所述第二站点的回报值与所述第一回报值相同；

所述收发模块，还用于向所述第二站点发送所述广播帧。

19.根据权利要求12-16任意一项所述的装置，其特征在于，在向所述第一站点发送所述第一回报值时，所述收发模块，用于向所述第一站点发送第一报文的响应帧；

20.根据权利要求19所述的装置，其特征在于，所述第一报文的响应帧还包括所述第二报文的标识信息或所述第二报文的时间戳。

21.根据权利要求19所述的装置，其特征在于，

所述第二报文的时间戳为所述第二报文的接收时间；或，

22.根据权利要求12-21任意一项所述的装置，其特征在于，

所述第一回报值

23.一种芯片，其特征在于，所述芯片包括至少一个处理器和接口，所述处理器用于读取并执行存储器中存储的指令，当所述指令被运行时，使得所述芯片执行如权利要求1-11任一项所述的方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行如权利要求1-11任一项所述的方法。