CN117979455A

CN117979455A - 一种物联网中基于深度强化学习的信道接入方法

Info

Publication number: CN117979455A
Application number: CN202311570749.5A
Authority: CN
Inventors: 雷建军; 马小涵
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-05-03

Abstract

本发明属于通信技术领域，特别涉及一种物联网中基于深度强化学习的信道接入方法，包括节点进行初始化，初始化包括仲裁时隙的触发帧以通知节点竞争TXOP；在接收到触发帧后，节点开始退避，获得信道接入机会的节点进入仲裁竞争阶段时在信道中随机选择资源单元；节点从仲裁空间中选择一个仲裁号；若选择当前资源单元的节点中若存在一个仲裁号最大的节点，则仲裁号最大的节点完成信道接入后进行数据传输；若存在多个仲裁号最大的节点，则进行下一轮退避；本发明可以有效缓解在密集网络场景下因为随机选择仲裁号进行信道接入而导致的高冲突率。

Description

一种物联网中基于深度强化学习的信道接入方法

技术领域

本发明属于通信技术领域，特别涉及一种物联网中基于深度强化学习的信道接入方法。

背景技术

在物联网中介质访问控制的主要任务是确保设备之间的通信互不干扰，合理分配信道资源，提高信道的利用率。物联网中常见的介质访问控制方法包括信道信道划分介质访问控制、随机访问介质访问控制和轮询访问介质访问控制。其中，信道划分是通过分时、分频、分码等方法将原来的一条广播信道逻辑上分为几条用于两个节点之间的互不干扰的子信道；随机访问则允许节点随机地发送数据，但需要解决可能出现的碰撞问题；轮询访问则是按照一定的顺序逐个访问节点，每个节点在一定的时间内获得发送数据的机会。

由于无线和低成本设备的轻松集成，物联网在各种民用和工业领域的普及，导致了设备的密集部署产生的信道冲突严重等问题。在IEEE802.11ax中提出了密集网络场景下UL多用户传输技术，只有需要UL传输机会(TXOP)的节点才能使用随机接入(UORA)规则竞争资源单元(RU)，更适用于密集的网络场景。802.11ax为无线网络提供了更高的带宽效率、更高的容量、更低的延迟、更好的兼容性和更强的安全性。这些特性使得IEEE802.11ax协议同样适用于物联网环境。然而，在该协议下各节点基于二进制指数退避规则获得在单个RU上进行的UL传输的TXOP。由于各节点不知道其它传输节点所选择的RU，因此信道碰撞不可避免。

在现有的物联无线分散网络中的介质访问控制(MAC)协议大都采用无争用的MAC协议，但这往往导致低效率和高时间成本且难以适用于所有网络场景。

虽然MBTA机制的引入极大地提高了UORA的效率和网络吞吐量，但仲裁号的选择缺乏灵活性。且信道接入算法大多基于固定的接入规则，在未来物联网环境中，由于网络环境的不可预测性，无法根据网络的实时状态和实际场景的需求，灵活地做出智能接入决策。

目前，DRL已经成为机器学习和传统决策的一种很有前途的替代方法，它可以通过智能体和现实世界环境之间的交互来学习最优控制。然而，现有的基于DRL来改进物联网络信道接入的方法基本都是通过优化CW来缓解网络冲突。目前，还没有学者基于MBTA来对节点的仲裁空间进行优化设计。

发明内容

为了降低随机选择仲裁号进行信道接入导致的高冲突率、提高系统吞吐量，本发明提出一种物联网中基于深度强化学习的信道接入方法，需要进行数据传输的节点进行信道接入，如图5，具体包括以下步骤：

节点进行初始化，初始化包括仲裁时隙的触发帧以通知节点竞争TXOP；

在接收到触发帧后，节点开始退避，获得信道接入机会的节点进入仲裁竞争阶段时在信道中随机选择资源单元；

节点从仲裁空间中选择一个仲裁号；

若选择当前资源单元的节点中若存在一个仲裁号最大的节点，则仲裁号最大的节点完成信道接入后进行数据传输；

若存在多个仲裁号最大的节点，则进行下一轮退避。

进一步的，节点从仲裁空间中选择一个仲裁号时，将节点视为一个智能体，并将节点选择仲裁号的过程描述为一个马尔可夫决策过程，并结合深度强化学习选择最优动作。

进一步的，将节点选择仲裁号的过程描述为一个马尔可夫决策过程，利用四元组描述马尔科夫决策过程，表示为(S,A,P,R)，其中：

S为状态空间，s_t∈S，属于，t时刻的状态s_t表示为{N_RU,N_RU,N_AS,N_C}，N_RU表示的是单个信道中可用的资源单元数，N_RU表示网络场景中上行链路接入阶段竞争节点的个数，N_AS为本次竞争过程中分配到的仲裁空间大小，N_C表示本次竞争过程超帧结束之后的冲突率大小；

A为动作空间，a_t∈A，t时刻选择的动作为a_t，a_t∈[1,7]且a_t∈Z⁺，即t时刻的仲裁空间大小为a_t；Z⁺为正整数集合；

P表示转移概率空间，p_t→t+1∈P，p_t→t+1表示从t时刻状态s_t转移到t+1时刻状态s_t+1的概率；

R为奖励空间，r_t∈R，r_t表示t时刻执行动作a_t的奖励。

进一步的，t时刻执行动作a_t的奖励r_t表示为：

其中，C_t为系统信道冲突率，U_t为系统信道利用率，D_t为系统吞吐量；w₁，w₂和w₃为权重系数。

进一步的，系统信道冲突率表示为：

系统信道利用率表示为：

系统吞吐量表示为：

其中，为节点在一个超帧周期t内数据包冲突的次数，/>为节点在一个超帧周期t内成功发送的数据包数；T_a,t为节点在一个超帧周期t内竞争周期竞争信号的传输时间，T_d,t为节点在一个超帧周期t内的传输时间，N_RU为系统可用的资源单元数，T_Df为一个超帧周期的持续时间；S_n为当前超帧周期竞争到资源单位的站点个数；N_b为在当前超帧周期内发送数据包的总个数；T_pl为数据传输阶段数据载荷的传输时间；τ表示在传统的UORA过程中节点的传输概率；N_STA为系统中节点的数量；P{N_win＝1}表示RU成功地支持了一个传输的概率。

进一步的，一个超帧结构包括仲裁竞争过程和数据传输过程，汇聚节点初始化包括仲裁时隙的触发帧，其他节点收到触发帧后开始进行退避，获得信道接入机会的节点进入仲裁竞争过程，在信道中随机选择一个资源单元并选择一个仲裁号，基于仲裁号对选择的资源单元进行竞争，如果竞争成功，则进入数据传输过程，在数据传输过程中进行数据传输。

进一步的，智能体包括训练神经网络和目标神经网络，智能体进行深度强化学习训练的过程包括：

在预训练阶段，从数据缓冲区随机选择数据用于训练智能体，利用目标神经网络计算训练的损失函数，并利用梯度下降法更新训练神经网络的参数；

每个训练周期结束后，利用训练神经网络的参数更新目标神经网络的参数；

在策略学习阶段，智能体获取当前状态，基于ε-greedy算法选择仲裁号，即以1-ε的概率随机选择动作，以ε的概率选择令训练神经网络值函数最大的动作；

t时刻智能体执行选择的动作a_t，获取对应的奖励r_t，并从t时刻的状态s_t转移到t+1时刻的状态s_t+1，智能体将该过程中获得的经验(s_t,a_t,r_t,s_t+1)放入输入缓冲区；

重复以上预训练阶段和策略学习阶段，直到训练结束。

进一步的，选择令训练神经网络值函数最大的动作包括：

a_t＝argmax_aQ(s_t,a_t；θ)

其中，s_t表示在t时刻的状态，a_t表示在状态s_t下选择的动作，θ表示当前用于选择动作的神经网络的参数，Q(s_t,a_t；θ)表示神经网络在状态s_t采取动作a_t的Q值。

进一步的，利用目标神经网络计算训练的损失函数，损失函数表示为：

L＝q_target-Q(s_t,a_t；θ)

其中，γ表示折扣因子；表示用训练神经网络选出使Q值最大化的动作a_t，再用目标神经网络使用这个a_t计算的Q值。

进一步的，节点开始退避时，退避窗口的大小设置包括：

其中，CW*为退避窗口大小；n为竞争节点的数量；T_s为节点成功发送数据包的平均时间段长度；T_i表示节点空闲时隙的长度。

与现有技术相比，本发明具有以下有益效果：

1、本发明引入了DDQN来训练智能体独立进行仲裁号的选择，降低随机接入的冲突率，即本发明从仲裁位数的选择入手，同时影响各站点仲裁号的选择以此做全局的随机接入冲突考虑，此举可以有效缓解在密集网络场景下因为随机选择仲裁号进行信道接入而导致的高冲突率。

2、本发明通过综合考虑影响物联网络性能的因素，联合系统信道冲突率、系统信道利用率和吞吐量建立系统效用函数，从而将信道接入问题转化为一个动态优化问题，然后将问题进一步建模为马尔可夫决策过程，基于DRL让智能体不断与网络环境进行交互并在当前状态下作出最优动作选择，最终学习到一种低冲突率、高吞吐量和高信道利用率的信道接入策略。

3、本发明考虑到竞争窗口的大小会影响网络性能的提高，在保证网络环境一致的前提下使用了之前工作中推导定义的最优CW值，以最大化上行随机接入阶段的系统吞吐量。

附图说明

图1为本发明中采用的超帧结构：

图2为本发明中智能体框架图；

图3为本发明中采用的深度强化学习的流程图；

图4为本发明中进行信道接入的流程图；

图5为本发明进行数据传输的节点进行信道接入的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种物联网中基于深度强化学习的信道接入方法，需要进行数据传输的节点进行信道接入具体包括以下步骤：

节点从仲裁空间中选择一个仲裁号；

若存在多个仲裁号最大的节点，则进行下一轮退避。

为了减少节点之间的碰撞，在传统信道UORA机制的基础上，有学者提出了一种MBTA优化机制，该机制提出在节点接入信道前增加了一个仲裁阶段，使各节点相互协调。具体包括以下步骤：

首先，接入点(AP)传输一个触发帧(TF)，其中包含仲裁时隙数(用N_AS表示)和可用RUs数(用N_RU表示)；

具有传输数据的节点将每个可用RU的退避计数器(OBO)减一；

当节点的OBO减少到零时，节点随机选择一个可用的RU和一个N_AS位二进制号(从0到2^NAS-1)作为仲裁号；

在仲裁阶段，节点评估每个仲裁位(按照从最低位到最高位的顺序)；

如果当前位为1，则节点在所选RU中发送忙音信号，否则，节点感知所选RU；

在仲裁阶段需要考虑两种情况：在第一种情况下，节点在所选RU中检测一个忙音信号，这意味着在RU中至少存在至少一个具有较大仲裁号的节点，然后，该节点放弃了竞争RU，并进行了重传；在第二种情况下，当节点感知到RU时，RU在所有时隙中空闲，这种情况发生在节点有最大的仲裁号时。

因此，该节点赢得所选的RU，然后在该RU中发送其帧；然而，也有可能不止一个节点赢得了RU，从而导致碰撞。

本发明将物联网中的汇聚节点(sink)视为智能体，利用DRL根据网络状态自适应调整仲裁空间大小从而减小节点选择同一RU的概率，减少冲突。将节点信道冲突率定义为该节点在一次超帧周期内数据包冲突的次数与总的发包次数之比，其中当节点被分配的二进制仲裁位为1时视为节点在随机选择的RU中发送一个数据包。因此，在第t个超帧周期的信道冲突率定义为sink成功接收到的数据包与总的发送的数据包之比，表示为：

其中，是在一个超帧周期内数据包冲突的次数，/>是成功发送的数据包数。

通过考虑系统信道利用率，可以提升系统整体性能。将系统信道利用率定义为在整个周期时间内信道上有数据传输的时间与整个周期总时间之比，其中整个周期包括竞争阶段和数据传输阶段，因此在第t个超帧内的系统信道利用率表示为：

其中，T_a,t为在第t个超帧中竞争周期竞争信号的传输时间，T_d,t为数据周期的传输时间，N_RU为系统可用的RU数，T_Df为整个超帧周期的持续时间。

同时，通过考虑系统信道饱和吞吐量，提升信道效率。根据MBTA文献中的推导，在一般的UORA过程中，第j个站点的传输概率为τ，其成功传输概率为N_win＝1表示在节点数为N_STA时，该节点在RU上成功传输。因此，在第t个超帧周期中的吞吐量定义为：

其中，S_n为当前超帧周期竞争到RU的站点个数；N_b为在当前超帧周期内发包的总个数；T_pl为数据传输阶段数据载荷的传输时间。

由于效用函数能够量化信道接入机制在决策过程中得到的效益和消耗的资源之间的关系，可以衡量信道接入机制的性能。对于物联网的多用户场景，相较于单纯考虑冲突率，使用自定义的系统效用作为性能评估标准更为全面。因此，本发明的优化策略以系统效用作为信道接入性能评估指标，系统效用函数定义为：

其中，C_t为系统信道冲突率，一般情况下，随着信道冲突率的增加，效用函数的值会单调下降。这意味着，如果系统的信道冲突率较低，那么系统可以获得较高的满意度，即冲突率较低的情况下，系统的性能会更好；U_t和D_t为系统信道利用率和系统吞吐量，与效用成正比关系；w₁，w₂和w₃是权重系数，用于权衡三个性能指标的相对重要性。

本发明将密集物联网络中节点的信道接入问题定义为一个优化问题，旨在最大化整个系统的效用。在给定条件的约束下，该问题可表示为：

s.t.C1:C_t,U_t∈{0,1}

C2:

C3:w₁+w₂+w₃＝1

C4:

C5:i∈N_RU,t∈N_ep

在约束集合中，约束C1表明在单位超帧时间中信道冲突率和信道利用率U_t为概率，取值范围大于0小于1；约束条件C2表明单个RU的最大带宽速率为带宽总速率与子信道个数之比；C3表明三个性能指标权重之和为1。C4确保分配的计算资源在设备可用资源的范围内；C5表明节点和RU属于该任务的候选资源集合。

该问题旨在寻找最优的奖励函数值，其中决策变量为二元变量，因此具有非凸特性。随着物联网络时代终端设备的不断增多，网络规模急剧扩大，导致非凸问题变得更为复杂，具有NP难特性。为了解决这一难题，本发明提出了一种基于DRL的方法，以寻找最优解。

为了实现提出的方案，本发明设计了一种新的基于DRL的超帧结构，将传输过程解耦为仲裁竞争过程和数据传输过程，具体包括：

在开始时，sink初始化包含仲裁时隙N_AS的触发帧(TF-R)，以通知节点竞争TXOP；

在接收到TF-R之后，各个节点开始进行退避，获得信道接入机会的节点进入仲裁阶段时在信道中随机选择RU；此外，节点将确定从0到的N_AS比特仲裁序列，以在其它节点之间竞争TXOP，具有更高阶仲裁序列的节点能够获得TXOP；

在确认程序完成了UL仲裁启用的争用过后，在有效负载阶段进行UL数据传输。

如图1所示，展示了一个具有3轮退避7个节点竞争TXOP的示例，其中具有可实现的若干个RU和3个仲裁时隙。选择第一RU的节点2和节点5分别生成仲裁序列{110}和{101}，这导致节点2的数据传输具有更高的仲裁次序。另一方面，节点1和节点7拥有{101}的相同序列，这将导致信道发生冲突从而数据无法进行传输，所有在第一轮没有成功获得RU的节点再次加入第二轮退避过程，以此类推。MBTA机制通常应用在一个固定的网络场景中，仲裁号也固定；然而，在密集网络场景下，由于大量节点需要传输数据，固定的仲裁号往往不能在网络场景发生变化时达到最优性能。

本发明将仲裁空间调整过程描述为一个马尔可夫决策过程(MDP)。MDP基于智能体和环境之间的交互来构建，其中包含状态、动作、策略和奖励等要素。在模拟过程中，智能体首先感知环境状态，按照策略对环境执行动作，然后环境状态发生变化从而得到奖励，奖励随时间变化而累计形成回报。本发明将sink视为智能体，可以根据网络环境状态的变化做出相应的决策。通常用四元组(S,A,P,R)来定义MDP，其中S是状态集，A是动作集，P是智能体在t时刻执行动作a_t后从状态s_t转移到状态s_t+1的转移概率，R是智能体在执行动作a_t之后获得的即时奖励，从反馈的奖励可以得知在当前环境下执行动作a_t的好坏程度。在本发明无模型的DRL方法下，即使状态转移概率矩阵P未知，也可以对改进策略进行优化。下面将详细介绍MDP各要素的定义。

状态空间S：由智能体在时刻t观察到的联合网络状态定义。本发明将智能体的状态空间定义如下：

s＝{N_RU,N_S,N_AS,N_C}

其中，N_RU表示的是单个信道中可用的RU数；N_S表示网络场景中UL接入阶段竞争节点的个数；N_AS是在这次竞争中分配到的仲裁空间大小；N_C表示该超帧结束之后的冲突率大小。

动作空间，表示智能体每次动作取值的集合：智能体在网络模型中输入状态并输出动作与环境交互，本发明的动作是以最大化奖励为目标的仲裁空间大小，动作a_t表示智能体在时间t选择的动作，动作设置为：

A＝a_t,a_t∈[1,7],a_t∈Z⁺

奖励函数：定义为智能体在t时刻执行动作a_t使得状态转移后环境反馈给智能体的即时奖励。本发明寻求一种最优策略来获得最高的期望回报进而实现网络性能最优，通过计算机模型部分的分析，为了实现这一目标，本发明将t时刻获得的奖励设置为：

强化学习产生的数据样本之间具有相关性，使得智能体的训练变得困难。为了解决这个问题，可以通过随机采样经验回放记忆单元中的样本，使得每个样本都具有独立性，允许智能体不使用单一经验进行训练，从而提高训练效率。但在训练过程中，Q值会不断变化，使用这些变化的值来更新Q网络会影响算法稳定性。为了避免这个问题，本发明用目标神经网络来频繁计算并周期性更新训练神经网络的Q值，这样，目标神经网络的输出可以作为稳定的目标值，从而减小估计值和目标值之间的相关性，提高算法稳定性。Deep Q-network(DQN)在估计Q值时存在过高估计问题，而Double DQN(DDQN)可以通过分割选择动作和评估动作来避免过高估计问题。

智能体框架如图2所示，智能体内部包括评估网络和目标网络，评价网络用于基于其网络参数计算目标Q值，目标网络用于根据其网络参数计算当前状态的Q值，并根据目标Q值与当前状态的Q值之间的损失，利用该损失对目标网络进行梯度更新(更新目标网络的网络参数)，即目标网络的网络参数是实时进行更新后；每个固定个更新步数，将目标网络的网络参数复制到评估网络，更新评估网络的网络参数，即评估网络的网络参数不是实时进行更新，而是有滞后性，是根据经验对当前状态进行评价。评估网络在计算目标Q值的过程中，是根据经验重放的机制计算目标Q值，而在本实施例的目标网络中，为了让网络能够探索到更多策略，设置一个贪婪概率，并为当前选择的策略设置一个随机概率ε，若设置的随机概率ε小于设置的贪婪策略，则根据目标网络选择一个令Q值最大的动作，否则随机选择一个动作，执行动作之后，在环境中当前状态根据执行的动作转移到下一个状态S_t+1，计算该状态对应的奖励值r_t，此时可以将状态S_t、状态S_t+1、动作a_t以及奖励值组成一组经验放入经验池中，方便后续评估网络计算目标Q值。图2还给出评估网络的结构，本领域一般评估网络和目标网络均是采用神经网络，可以采用如图2给出的结构，即包括输入层和输出层以及三层级联的全连接层(Full Connection,FC)。

原始的Double Q-Learning算法包含两个价值函数(value function)，一个负责选择动作(基于当前状态的策略)，另一个则负责评估当前状态的价值。这两个价值函数的参数分别记做θ和θ'，通过训练神经网络来优化损失函数，即减小网络输出估计值和目标值之间的偏差。在DDQN中，首先在当前Q网络中找出最大Q值对应的动作，即：

然后利用具有最大Q值对应的动作max_a(S'_j,θ)在目标网络中计算目标Q值。即：

结合最大Q值对应的动作和计算目标Q值，可以得出：

而具有最大Q值对应的动作就是sink获取到的最优仲裁空间。

每个节点在接入信道之前需要“后退”，即等待一定数量的时隙。该数量是从0到CW(竞争窗口)随机选择的。为了降低多个节点选择相同随机数的概率，CW在每次碰撞后加倍。IEEE 802.11定义了静态CW最小值和最大值，这种方法虽然对网络变化具有鲁棒性，并且计算量较小，但可能导致低效操作，尤其是在密集网络中。

因此在本发明中，使用在我们之前工作中推导定义的最优CW值，以最大化UL随机接入阶段的系统吞吐量。最优CW可以通过以下方式确定：

其中，n为竞争节点的数量；T_s为成功发送数据包的平均时间段长度；T_i表示空闲时隙的长度。

本发明给出了在MBTA过程的基础上结合DRL优化的过程，如图3，具体包括以下步骤：

初始化两个神经网络，一个是具有随机权重θ的训练神经网络，另一个是具有权重θ'的目标神经网络，同时初始化一个经验回放记忆单元φ，容量为N，初始化当前训练轮数Episode＝0；

将收集到的数据以(s_t,a_t,r_t,s_t+1)的形式存储在演示数据缓冲区中；

在预训练阶段，从从缓冲区中选取一部分数据来训练智能体，然后用目标神经网络计算损失函数，并用梯度下降法更新训练神经网络参数；

在每个训练周期结束后，即达到目标网络更新周期时，对目标神经网络参数进行更新；

在策略学习阶段，智能体感知网络环境获得状态s_t，并利用ε-greedy算法选择动作a_t，得到奖励r_t，并转移到下一个状态s_t+1；

将获取的经验数据(s_t,a_t,r_t,s_t+1)添加到经验回放记忆单元中，再从中随机采样训练智能体，然后使用目标神经网络计算损失函数；

通过梯度下降方法更新训练神经网络参数，循环上述过程直到训练结束。

该算法实现的伪代码如下：

在饱和流量场景，各节点始终都有数据包要发送。如图4，具体包括以下步骤：

各节点接入信道前需要从sink(即智能体)处获取初始OBO和仲裁号大小，通过随机分配的OBO值来判断是否有权进行本轮次的退避接入；

获得退避接入权的节点需要再次在CW范围内随机选择更新其OBO值，然后在所有可用RU中随机选择一个RU进行接入；

如果同时有多个节点选择相同的RU，则需要比较该节点集合中所有节点的仲裁号，具有最大仲裁号的节点获得该RU的信道接入权。

以上算法的伪代码如下：

在仲裁竞争阶段，各节点会根据其随机选择的仲裁号在RU上发送忙音信号。首先将RU分成与仲裁空间大小相等的时隙，当节点的二进制仲裁号为“1”时，该节点就会在当前时隙的RU上发送一个数据包，即忙音信号。在三轮退避过后，sink会根据各节点的仲裁竞争结果发送TF帧，以通知各节点信道分配结果，各节点通过在TF帧中分配的RU上传输数据来完成整个UL数据传输过程。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种物联网中基于深度强化学习的信道接入方法，其特征在于，需要进行数据传输的节点进行信道接入具体包括以下步骤：

节点从仲裁空间中选择一个仲裁号；

若存在多个仲裁号最大的节点，则进行下一轮退避。

2.根据权利要求1所述的一种物联网中基于深度强化学习的信道接入方法，其特征在于，节点从仲裁空间中选择一个仲裁号时，将节点视为一个智能体，并将节点选择仲裁号的过程描述为一个马尔可夫决策过程，并结合深度强化学习选择最优动作。

3.根据权利要求2所述的一种物联网中基于深度强化学习的信道接入方法，其特征在于，将节点选择仲裁号的过程描述为一个马尔可夫决策过程，利用四元组描述马尔科夫决策过程，表示为(S,A,P,R)，其中：

R为奖励空间，r_t∈R，r_t表示t时刻执行动作a_t的奖励。

4.根据权利要求3所述的一种物联网中基于深度强化学习的信道接入方法，其特征在于，t时刻执行动作a_t的奖励r_t表示为：

5.根据权利要求4所述的一种物联网中基于深度强化学习的信道接入方法，其特征在于，系统信道冲突率表示为：

系统信道利用率表示为：

系统吞吐量表示为：

6.根据权利要求5所述的一种物联网中基于深度强化学习的信道接入方法，其特征在于，一个超帧结构包括仲裁竞争过程和数据传输过程，汇聚节点初始化包括仲裁时隙的触发帧，其他节点收到触发帧后开始进行退避，获得信道接入机会的节点进入仲裁竞争过程，在信道中随机选择一个资源单元并选择一个仲裁号，基于仲裁号对选择的资源单元进行竞争，如果竞争成功，则进入数据传输过程，在数据传输过程中进行数据传输。

7.根据权利要求3所述的一种物联网中基于深度强化学习的信道接入方法，其特征在于，智能体包括训练神经网络和目标神经网络，智能体进行深度强化学习训练的过程包括：

重复以上预训练阶段和策略学习阶段，直到训练结束。

8.根据权利要求7所述的一种物联网中基于深度强化学习的信道接入方法，其特征在于，选择令训练神经网络值函数最大的动作包括：

a_t＝argmax_aQ(s_t,a_t；θ)

9.根据权利要求8所述的一种物联网中基于深度强化学习的信道接入方法，其特征在于，利用目标神经网络计算训练的损失函数，损失函数表示为：

L＝q_target-Q(s_t,a_t；θ)

10.根据权利要求1所述的一种物联网中基于深度强化学习的信道接入方法，其特征在于，节点开始退避时，退避窗口的大小设置包括：