CN111867139B

CN111867139B - 基于q学习的深度神经网络自适应退避策略实现方法及系统

Info

Publication number: CN111867139B
Application number: CN202010640594.8A
Authority: CN
Inventors: 毛中杰; 俞晖; 王政; 许丽丽; 武新波; 夏天
Original assignee: Shanghai Jiaotong University; Beijing Dongfang Measurement and Test Institute
Current assignee: Shanghai Jiaotong University; Beijing Dongfang Measurement and Test Institute
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2022-03-01
Anticipated expiration: 2040-07-06
Also published as: CN111867139A

Abstract

本发明提供了一种基于Q学习的深度神经网络自适应退避策略实现方法及系统，包括：步骤1：对无人机网络中的网络节点和网络拓扑结构进行初始化，确定树形网络的簇头节点，对退避策略参数初始化后，广播至全网节点；步骤2：全网节点根据初始化后的退避策略参数来更新本地的退避策略；步骤3：簇头节点根据收到的更新信息进行统计，得出网络公平性指标并形成向量，保存进经验池中；步骤4：簇头节点从经验池中提取向量，输入到深度神经网络进行训练，得到真实Q值，将真实Q值与预测Q值进行对比；步骤5：返回步骤2继续执行，当学习策略趋于稳定符合预设条件时，输出退避策略。本发明提高了无人机节点在动态变化网络场景中的通信性能。

Description

基于Q学习的深度神经网络自适应退避策略实现方法及系统

技术领域

本发明涉及无人机自组织网络技术领域，具体地，涉及一种基于Q学习的深度神经网络自适应退避策略实现方法及系统。

背景技术

近年来，无人机(unmanned aerial vehicle,UAV)凭借其多用途，高扩展，和高效率等诸多优势，受到了世界各国的不断重视，无人机自组网已成为新的研究热点。无人机自组网是自组网中的一种特别形式，除了一般自组网的多跳，无中心等特点，还具备一些独有的特点，如高速移动、低密度分布、节点能量强、独特的网络目标等。高速移动的特性将造成网络拓扑频繁变化，进而对网络结构稳定性和协议性能带来冲击；低密度分布使节点之间存在不确定性，无人机一般用于执行特殊任务，运动规律性不强，导致节点的入网及退网更加频繁；节点能量强的原因是无人机上的通信设备由飞机提供空间和能量，这使得无人机自组网时不需额外考虑节点计算能力和能量耗费问题；独特的网络目标表现为无人机网络的连接目标是对等的，此外网络中还需要部分担任数据收集的簇头节点，因此需要支持流量汇聚；网内可能存在多种传感器，传输的业务包括图像，音频视频等，具有时延敏感性高，数据业务量大，数据类型多元化等特点，需要保证相应的通信质量。

由于无人机自组织网络拓扑和业务变化的多变性，网络常常使用基于竞争的MAC层协议进行通信，在基于竞争的MAC层协议中，退避策略是影响协议性能的重要因素。随着近年来无线传感器网络的逐渐发展，网络节点和业务类型不断增加，传统的退避算法如二进制指数型退避算法(BEB)等在变化的网络环境下表现不佳，针对这一问题，出现许多利用增强学习优化MAC协议的退避算法。

Pressas,Andreas,Sheng,Zhengguo,Ali,Falah,Tian,Daxin and Nekovee,Maziar(2018)Contention-based learning MAC protocol for broadcast Vehicle-to-Vehicle Communication.IEEE Vehicular Networking Conference(VNC),Italy,27-29November 2017，此文针对车载互联网通信设计了一种基于Q-Learning和802.11p的MAC协议，其智能调整的对象是CW，即回退窗口。其观测的状态值S是CW大小，动作是CW的乘2、除2或不变，使用Q-Learning方法，对回退窗口进行了调整，缺点是由于其观测的状态是CW值大小，而没有观测环境信息，导致智能体没有直接与环境互动，不能依据环境情况的变化进行动作的选取，同时动作的可选数目过少，使得仿真性能受到限制。

S.Lohier,Y.GhamriDoudane,G.Pujolle.MAC-layer Adaptation to ImproveTCP Flow Performance in 802.11 Wireless Networks[J].2011，此文通过调整mac层中的重传上限次数，来降低由于不当触发TCP拥塞控制机制导致的性能下降，规定，当数据率超过12Mbps时，RetryLimit＝6(节点靠近AP)，当数据率小于12Mbps大于6Mbps时，RetryLimit＝12，当数据率小于6Mbps时，RetryLimit＝18。此文的缺点是使用手动设置门限对重传次数进行调整，不具有普适性。

目前大部分方法受限于算法复杂度和空间平稳变化的因素，仅仅考虑了使用Q-Learning算法对通信系统进行简单的参数优化，其数学建模涉及的因素比较少，缺乏对环境信息的利用。而在无人机通信网络中，因其具备高速移动，拓扑变化快等特点，简单的Q-Learning算法已经无法满足网络的变化，因此本发明提出一种数学模型更加完备的基于Q-Learning的深度神经网络自适应退避算法，在无人机网络中通信设备由飞机提供空间和能量，因此节点的能量充足，具备实施深度学习算法的能力，故利用深度神经网络和Q-Learning相结合以获取更优秀的通信性能存在实施的可能性。

专利文献CN109462858A利用Q-learning算法优化退避算法中的部分参数，如最大重传次数和最大退避次数等，取得了一定的性能提升，但是也存在着一些缺点，比如训练效率较低，在一般的Q-Learning学习算法中，使用Q表来存储状态-动作所对应的值Q(s,a)，由于Q表的大小有限，因此智能体可以存储的Q(s,a)值是有限个数的。然而，在剧烈变化的无人机自组织网络中，通信过程中的状态个数是无限的，使用Q表存储将导致Q表内存占用过大，查表时间过长，从而影响网络性能；同时各个节点仅考虑自身情况，各节点接入信道的公平性不能得到保障等。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于Q学习的深度神经网络自适应退避策略实现方法及系统。

根据本发明提供的基于Q学习的深度神经网络自适应退避策略实现方法，包括：

步骤1：对无人机网络中的网络节点和网络拓扑结构进行初始化，根据节点的位置信息确定树形网络的簇头节点，簇头节点采用MAC协议并在对退避策略参数初始化后，广播至全网节点；

步骤2：全网节点根据簇头节点广播的初始化后的退避策略参数来更新本地的退避策略，并将更新信息发送至簇头节点；

步骤3：簇头节点根据收到的更新信息进行统计，得出网络公平性指标并形成向量，保存进经验池中，若经验池满，则覆盖其中误差低于预设值的向量；簇头节点使用基于Q学习的深度神经网络的学习策略输出新的退避策略参数，并广播至全网节点；

步骤4：簇头节点从经验池中提取向量，输入到深度神经网络进行训练，得到真实Q值，将真实Q值与预测Q值进行对比，使用反向传播算法，更新深度神经网络中的参数，直至迭代终止；

步骤5：返回步骤2继续执行，当学习策略趋于稳定符合预设条件时，输出退避策略。

优选的，所述步骤2包括：

全网节点按照初始化后的退避策略进行通信，各节点分别记录在单位时间内的更新信息，包括传输成功率、平均时延、吞吐量和网络负载；

传输成功率和平均时延通过从接收节点返回的ACK消息确定；

吞吐量和网络负载通过单位时间内到达的业务量和发送的业务量确定。

优选的，在无人机自组织网络中，节点采用CSMA/CA协议，以随机的方式接入信道；节点在监听到信道空闲后，退避一段时间，在这段时间内，节点将持续监听信道，当整段时间内信道均为空闲时，节点接入信道并发送数据包；当节点发送数据包失败时，将根据退避策略调整退避窗口的大小，进行退避重传，重传次数到达上限时，丢弃数据包。

优选的，当站点通信冲突时，退避窗口CW按m倍增长；当站点通信完成时，退避窗口CW按n倍减少，来控制退避窗口变化的速度，公式为：

其中，CW_t表示退避重传t次后退避窗口的大小；常数m,n由学习策略确定。

优选的，根据网络公平性指标计算各节点之间的吞吐量差异，用吞吐量Throughput_now、吞吐量标准差σ_th和变异系数C_v反映各节点吞吐量的波动性，通过变异系数的变化C_fairness确定不同节点间的公平性差异，表达式为：

其中，Throughput_now表示当前单位时间内的吞吐量，σ_th表示吞吐量标准差，

表示前一个单位时间内的变异系数，

表示当前时间内的变异系数。

优选的，采用深度神经网络模型进行训练，深度神经网络内部的神经网络层分为三类：输入层、隐藏层、输出层；

所述深度神经网络模型满足线性关系：z＝∑ω_ix_i+b

z表示局部神经元中的线性关系输出；ω_i表示局部神经元中第i个输入变量的权重系数；x_i表示局部神经元中的第i个输入变量；

初始化a¹＝x，forl＝2toL；

训练的计算公式为：a^l＝σ(z^l)＝σ(W^la^l-1+b^l)

L为神经网络层的总层数，W为所有隐藏层和输出层对应的矩阵，b为偏移变量，x为输入值向量，a^L为输出层的输出，σ(z)为激活函数；a^L为第L层的输出值。

优选的，以网络传输成功率变化量PDR，平均时延变化量DE和公平性指标C_Fairness作为目标对象，以簇头节点作为智能体，以无人机网络的网络负载Load和退避参数m,n作为环境状态集合S，以单位时间内m,n的取值作为动作集合A＝{[m₁,n₁],[m₂,n₂],...[m_k,n_k]}，以网络节点采取动作后的网络公平性指标变化作为智能体的奖励函数，采用Q-Learning算法对下一步动作进行决策，同时用真实Q值对神经网络预测Q值进行比较，从而对深度神经网络的参数进行更新，直至收敛。

优选的，所述步骤4采用神经网络反向传播算法，减少预测结果和期望得到结果的差距，使用均方差定义损失函数，公式为：

其中，a^L为第L层的输出值，也是预测Q值；y为期望Q值；J表示损失函数；

根据Q学习更新公式：

Q(S,A)←Q(S,A)+α[r+γmax_aQ(S',a)-Q(S,A)]

a^L＝Q_predict,y＝r+γ*Q(s',a)

Q_predict表示神经网络预测的Q(S，A)；Q(s',a)表示采取动作a后到达新的状态s'后的Q值；s'表示采取动作后到达的新状态；r表示奖励R，γ表示折扣因子，指之前的预测Q值对当前预测Q值的影响大小。

优选的，以批量梯度下降法描述反向传播算法，包括：

设第l层的梯度为δ^l，经过推导第L层的梯度为：

为求导符号；σ'表示σ函数的导函数；

已知第L层的梯度，通过递推关系式获得每一层的梯度，第l层的梯度表达式为：

δ^l＝(W^l+1)^Tδ^l+1·σ'(z^l)

使用批量梯度下降法作为反向传播算法对损失函数进行最小化，计算出神经网络每一层的梯度后就可以对每一层的W,b参数进行更新。

根据本发明提供的基于Q学习的深度神经网络自适应退避策略实现系统，包括：

模块M1：对无人机网络中的网络节点和网络拓扑结构进行初始化，根据节点的位置信息确定树形网络的簇头节点，簇头节点采用MAC协议并在对退避策略参数初始化后，广播至全网节点；

模块M2：全网节点根据簇头节点广播的初始化后的退避策略参数来更新本地的退避策略，并将更新信息发送至簇头节点；

模块M3：簇头节点根据收到的更新信息进行统计，得出网络公平性指标并形成向量，保存进经验池中，若经验池满，则覆盖其中误差低于预设值的向量；簇头节点使用基于Q学习的深度神经网络的学习策略输出新的退避策略参数，并广播至全网节点；

模块M4：簇头节点从经验池中提取向量，输入到深度神经网络进行训练，得到真实Q值，将真实Q值与预测Q值进行对比，使用反向传播算法，更新深度神经网络中的参数，直至迭代终止；

模块M5：回调模块M2继续更新学习策略，当学习策略趋于稳定符合预设条件时，输出退避策略。

与现有技术相比，本发明具有如下的有益效果：

1、本发明使用深度神经网络对当前网络状态进行分析，输出一系列动作的Q预测值，利用Q-Learning算法产生决策，更新退避策略，以达到优化网络性能的效果；

2、本发明适用于无人机网络，包含深度神经网络训练、Q-Learning学习算法、公平竞争，对树状编队网络中基于竞争的MAC协议退避算法进行了设计，提高了无人机节点在动态变化网络场景中的通信性能；

3、本发明依托于无人机配备的强大的计算资源，实施复杂的神经网络算法，对复杂的网络环境信息进行分析，从而进行退避策略的调整，以此获得优秀的网络通信性能。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程图；

图2为前向传播算法图；

图3为DQN-BEB传输成功率图；

图4为DQN-BEB平均时延图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

本发明实施流程如图1所示，下面结合具体实例对本发明的实施方式进行具体说明：

步骤1：初始化网络节点设置和拓扑结构，在无人机自组织网络中，经常采用编队飞行的方式执行任务，拓扑结构以树状网络最为常见。在组网过程中，依据位置信息选举出簇头节点，即离网络中心最近的节点自动成为簇头节点，簇头节点作为智能体用于广播全局信息。

步骤2：由簇头节点决定采用CSMA/CA的MAC协议，并初始化自适应退避算法的参数，广播至全网节点。

步骤3：全网节点根据簇头节点广播的控制信息(退避策略参数(m,n))来更新本地的退避策略。在一个单位时间内，节点按照新的退避策略进行通信，各节点分别记录在单位时间内的传输成功率变化量PDR、网络负载Load、平均时延变化量DE，并将此信息定时发送给簇头节点。

步骤4：簇头节点根据收到的信息，统计网络传输成功率变化量PDR、吞吐量Throughput、网络负载Load、平均时延变化量DE。簇头节点通过对各节点的传输情况进行计算，使用吞吐量Throughput_now和吞吐量标准差σ_th并引入变异系数C_v来反映各节点吞吐量的波动性，通过变异系数的变化C_fairness确定不同节点间的公平性差异：

结合以上4个指标，计算出奖励r：

R＝μ*PDR+θ*DE+(1-μ-θ)*C_Fairness.μ,θ∈[0,1]

m,n，网络负载Load，实时奖励R形成向量[m,n,Load,R]，保存进经验池中。簇头节点使用神经网络和Q-learning学习策略进行训练，根据Q-Learning的更新公式：

Q(S,A)←Q(S,A)+α[r+γmax_aQ(S',a)-Q(S,A)]

在Q-Learning更新策略中，更新公式的含义是对参数为S,A下的Q值进行更新；作用是找出参数为S,A的状态下，下一步采取何种动作a才能使得Q值最大化。当采取的动作策略逐渐最优化时，Q值的更新逐渐减少(即以上公式的中括号内的值趋于0)。当使用神经网络预测Q值时，损失函数的作用同样是使得以上公式的中括号内的值趋于0。

其中r为实时奖励物理意义为吞吐量、时延和公平性的变化；γ为折扣因子，物理意义是之前策略对现在的影响，本发明中γ＝0.9；α为学习率，由于本发明使用神经网络对Q(S,A)进行预测，在神经网络参数收敛后，其预测的Q(S,A)等于真实的Q(S,A)，即对于状态S，Q值不再变化，因此神经网络的收敛条件是令r+γmax_aQ(S',a)-Q(S,A)-＞0

智能体根据神经网络输出的Q值，利用ε-greedy策略输出新的退避策略参数，并广播到全网节点。具体策略如下：

以

的概率进行探索，即对每个动作a以均等概率进行选取；以1-ε的概率进行利用，即采用Q预测值中最大值对应的动作。选择动作的数学表达式如下：

z表示全部可选的行为，一共9个，1/z代表从z个行为中随机选择行为a的概率，

代表以ε的概率在z个可选行为中选中行为a的概率。

步骤5：簇头节点不断从经验池中抽取向量，输入神经网络进行训练，依据预测的Q值与目标Q值对比，利用批量梯度下降算法反向传播，更新神经网络中的参数，直至迭代终止。

步骤6：重复步骤3-5，直至迭代终止，输出神经网络。

实施例2：

仿真设置及性能分析

本发明利用了Matlab软件进行仿真性能分析，采用的MAC协议为载波侦听多路访问/冲突避免(CSMA/CA)协议，模拟N＝100个网络节点的通信仿真，允许旧节点的退网以及新节点的入网，节点业务到达服从参数为λ的泊松分布，仿真中不考虑路由协议带来的路径选择问题，以最大化退避策略带来的性能影响。神经网络设置为5层，每层神经元个数为[3,32,64,36,9],经验池大小设置为40，具体仿真参数如下表所示：

Data_rate(bps)	6*10^6
		Packet_size(bit)	200
Slot_size(s)	9*10^-6
		N	100
λ	500
		Max_delay(s)	0.1
Simulation_time(s)	100
		Samplinginterval(s)	1
N<sub>decay</sub>	400

表1仿真参数表

Data_rate表示数据传输速率，以bps为单位；Packet_size表示数据包的大小，以bit为单位；Slot_size表示时隙的大小，以s为单位；N表示节点数量，以个数为单位；λ表示服从泊松分布的业务流的参数；Max_delay表示数据包的最大容许时延，超过该值数据包直接丢弃，以s为单位；Simulation_time表示单次通信系统仿真的时间，以s为单位；Samplinginterval表示在单次通信系统仿真中的采样间隔，采样获得的参数将存入经验池，用于神经网络的训练，以s为单位。N_decay表示迭代次数的预设值，即总共进行多少次仿真后终止迭代。

在相同的仿真参数下，本发明对比了二进制指数(BEB)退避策略和基于Q-Learning的深度神经网络(DQN)自适应退避策略的仿真性能，选取了传输成功率和平均时延为评判指标，仿真结果如图3、图4。

通过图3和图4可以看出，在迭代次数较少的情况下，两种退避策略的传输成功率和时延几乎没有差别，这表明在样本数目较少的情况下，基于DQN的自适应退避策略对于网络性能的提升微弱；随着迭代次数的增加，基于Q-Learning的深度神经网络自适应退避策略的传输成功率高于二进制指数退避策略，平均时延低于二进制指数退避策略，这证明了基于Q-Learning的深度神经网络自适应退避策略可以改善网络的性能。而在仿真次数到达一定数量后，神经网络的训练趋于饱和，网络性能稳定下来，与预期结果相符。

综合以上仿真结果，本发明使用的基于Q-Learning的深度神经网络自适应退避策略在一定的迭代次数下，可以有效改善网络的平均时延和传输成功率等性能。本发明依托于无人机配备的强大的计算资源，实施复杂的神经网络算法，对复杂的网络环境信息进行分析，从而进行退避策略的调整，以此获得优秀的网络通信性能。

实施例3：

本发明提出了在无人机网络中使用基于Q-Learning的深度神经网络方法学习一种适用于竞争MAC协议(如CSMA/CA协议)的自适应退避策略：由簇头节点统计全网吞吐量、网络负载、平均时延及公平性，将这些数据向量化之后，与当前的退避参数一同输入神经网络，得到预测Q值并与实际的Q值比较，反向传播，更新深度神经网络的参数。该方法采取的是系统边运行边训练的模式，即系统一直按当前的策略进行通信，得到一组组的[吞吐量，网络负载，时延，退避参数，实际Q值]的向量，向量存入经验池中；与此同时，神经网络反复利用经验池中的向量，用于训练网络的适应性。同时，神经网络预测的Q值将为系统提供当前最优退避策略，然后由中心基站广播给所有的网络节点进行退避策略的更新，继续通信单位时间后得出运行结果，运行结果放入经验池用于训练神经网络，不断重复以上过程，直至迭代终止。

基于马尔科夫决策过程，将通信环境建模如下：

状态S：通信过程中的状态除了与退避算法中的参数m,n有关之外，同样考虑到一跳范围内业务负载Load。我们将状态S定义为(m,n,Load)，其物理意义是在业务负载Load下，本发明所采样的算法中的退避参数设置为(m,n)。本发明中我们取m∈[1,3],n∈[1,3]。业务负载Load具体为一跳范围内邻居节点的所有业务队列中的数据包的个数(假设每个数据包大小相同，不同大小的业务由不同个数的数据包组成)，由于网络环境的多样性，业务负载Load没有取值范围。

动作A：本模型中的动作为调整参数m,n的大小，根据m,n的取值范围，一共有3*3＝9种动作。由于通信系统需要进行一定时间的运行，才能得出通信性能，因此动作A的改变是具有周期性的，即每间隔单位时间，进行参数m,n的改变。

奖励R：在采取动作A后，通信系统进行单位时间的运行，得出这一段时间的传输成功率变化量PDR、平均时延变化量DE以及吞吐量Throughput信息，然后将这些指标与之前进行对比并归一化，为了量化节点发送业务的公平性，我们使用吞吐量标准差σ_th并引入变异系数C_v来反映各节点吞吐量的波动性，将计算按比例计入R的计算。

R＝μ*PDR+θ*DE+(1-μ-θ)*C_Fairness.μ,θ∈[0,1]

上式中μ,θ为权重因子，表示传输成功率变化量和平均时延在奖励中的占比；PDR_now,PDR_past分别表示当前单位时间内的传输成功率和前一个单位时间内的传输成功率；delay_now,delay_past分别表示当前单位时间内的平均时延和前一个单位时间内的平均时延；σ_th,Throughput_now分别表示当前单位时间内的吞吐量标准差和吞吐量；

分别表示当前单位时间内的吞吐量变异系数和前一个单位时间内的吞吐量变异系数。

转移概率P：在本模型中，假设通过广播发送的控制信息不会丢失，且将被各节点严格执行，理想情况下，状态转移概率全部为1。

在通用的Q-Learning学习算法中，使用Q表来存储状态-动作所对应的值Q(s,a)，由于Q表的大小有限，因此智能体可以存储的Q(s,a)值是有限个数的。然而，在剧烈变化的无人机自组织网络中，通信过程中的状态个数是无限的，使用Q表存储将导致Q表内存占用过大，查表时间过长，从而影响网络性能。为了解决这一缺陷，本发明依托无人机上的计算资源，引入深度神经网络对Q值进行预测，解决Q表冗余的缺点。

本发明采用深度神经网络(Deep Neural Networks，以下简称DNN)模型进行训练，DNN可以理解为有很多隐藏层的神经网络，DNN内部的神经网络层可以分为三类：输入层，隐藏层，输出层。小的局部模型与神经网络相同，即一个线性关系z＝∑ω_ix_i+b和一个激活函数σ(z)。

如图2，前向传播算法：

输入：总层数L，所有隐藏层和输出层对应的矩阵W，偏移变量b，输入值向量x；

输出：输出层的输出a^L；

初始化a¹＝x；

for l＝2 to L，计算：

a^l＝σ(z^l)＝σ(W^la^l-1+b^l)

对于本系统而言，输入的参数是退避算法的(m，n)参数以及业务负载共3个参数，最终输出的是每个动作的Q_predict＝Q(s,a)，而真实的训练样本输出是Q_real＝r+γ*Q(s',a)。然后我们利用反向传播算法更新线性关系系数矩阵W和偏倚变量b。

本发明使用最常用且稳定的均方差度量损失，对于每个样本，损失函数定义为：

上式中a^L为第L层的输出，y为期望值，在本发明中a^L＝Q_predict,y＝r+γ*Q(s',a)。

设第l层的梯度为δ^l，经过推导第L层的梯度为：

已知第L层的梯度，可以通过递推关系式获得每一层的梯度。第l层的梯度表达式为：

δ^l＝(W^l+1)^Tδ^l+1·σ'(z^l)

计算出每一层的梯度后就可以对每一层的W,b参数进行更新。

以最基本的批量梯度下降法描述反向传播算法。

输入：总层数L，以及各隐藏层与输出层的神经元个数，激活函数，损失函数，迭代步长α，最大迭代次数MAX与停止迭代阈值，输入的q个训练样本{(x₁,y₁),(x₂,y₂),...,(x_q,y_q)}

输出：各隐藏层与输出层的线性关系系数矩阵W和偏倚变量b；

1)初始化各隐藏层与输出层的线性关系系数矩阵W和偏倚向量b的值为一个随机值。

for iter to 1 to MAX：

2-1)for i＝1 to q：

a)将DNN输入a¹设置为x_i

b)for l＝2 to L，进行前向传播算法计算a^i,l＝σ(z^i,l)＝σ(W^la^i,l-1+b^l)

c)通过损失函数计算输出层的δ^i,L

d)for l＝L-1 to 2，进行反向传播算法计算δ^i,l＝(W^l+1)^Tδ^i,l+1·σ'(z^i,l)

2-2)for l＝2 to L，更新第l层的W^l,b^l:

2-3)如果所有W,b的变化值都小于停止迭代阈值∈，则跳出迭代循环到步骤3。

3)输出各隐藏层与输出层的线性关系系数矩阵W和偏倚变量b。

在神经网络输出Q预测值后，智能体选出其中值最大的动作，使用贪婪策略ε-greedy来决策下一步采取什么样的动作。贪婪策略的作用是维持探索和利用两个过程的平衡，以ε的概率进行探索，即对每个动作a以均等概率进行选取；以1-ε的概率进行利用，即采用Q预测值中最大值对应的动作。选择动作的数学表达式如下：

z表示全部可选的行为，1/z代表从z个行为中随机选择行为a的概率，

代表以ε的概率在z个可选行为中选中行为a的概率。最好的行为a^*有两种情况下可能被选到，一是以Q值表选取，二是随机选取。

ε由以下公式确定：

N_iteration是迭代次数，N_decay是预设值，即程序迭代终止条件。随着传输数据包的数目增加，探索的概率将逐步降低，利用的概率将逐渐增加，直至迭代终止，不再进行探索。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于Q学习的深度神经网络自适应退避策略实现方法，其特征在于，包括：

2.根据权利要求1所述的基于Q学习的深度神经网络自适应退避策略实现方法，其特征在于，所述步骤2包括：

传输成功率和平均时延通过从接收节点返回的ACK消息确定；

3.根据权利要求1所述的基于Q学习的深度神经网络自适应退避策略实现方法，其特征在于，在无人机自组织网络中，节点采用CSMA/CA协议，以随机的方式接入信道；节点在监听到信道空闲后，退避一段时间，在这段时间内，节点将持续监听信道，当整段时间内信道均为空闲时，节点接入信道并发送数据包；当节点发送数据包失败时，将根据退避策略调整退避窗口的大小，进行退避重传，重传次数到达上限时，丢弃数据包。

4.根据权利要求3所述的基于Q学习的深度神经网络自适应退避策略实现方法，其特征在于，当站点通信冲突时，退避窗口CW按m倍增长；当站点通信完成时，退避窗口CW按n倍减少，来控制退避窗口变化的速度，公式为：

5.根据权利要求2所述的基于Q学习的深度神经网络自适应退避策略实现方法，其特征在于，根据网络公平性指标计算各节点之间的吞吐量差异，用吞吐量Throughput_now、吞吐量标准差σ_th和变异系数C_v反映各节点吞吐量的波动性，通过变异系数的变化C_fairness确定不同节点间的公平性差异，表达式为：

表示前一个单位时间内的变异系数，

表示当前时间内的变异系数。

6.根据权利要求5所述的基于Q学习的深度神经网络自适应退避策略实现方法，其特征在于，采用深度神经网络模型进行训练，深度神经网络内部的神经网络层分为三类：输入层、隐藏层、输出层；

所述深度神经网络模型满足线性关系：z＝∑ω_ix_i+b

初始化a¹＝x，forl＝2toL；

训练的计算公式为：a^l＝σ(z^l)＝σ(W^la^l-1+b^l)

7.根据权利要求6所述的基于Q学习的深度神经网络自适应退避策略实现方法，其特征在于，以网络传输成功率变化量PDR，平均时延变化量DE和公平性指标C_Fairness作为目标对象，以簇头节点作为智能体，以无人机网络的网络负载Load和退避参数m,n作为环境状态集合S，以单位时间内m,n的取值作为动作集合A＝{[m₁,n₁],[m₂,n₂],...[m_k,n_k]}，以网络节点采取动作后的网络公平性指标变化作为智能体的奖励函数，采用Q-Learning算法对下一步动作进行决策，同时用真实Q值对神经网络预测Q值进行比较，从而对深度神经网络的参数进行更新，直至收敛。

8.根据权利要求7所述的基于Q学习的深度神经网络自适应退避策略实现方法，其特征在于，所述步骤4采用神经网络反向传播算法，减少预测结果和期望得到结果的差距，使用均方差定义损失函数，公式为：

根据Q学习更新公式：

Q(S,A)←Q(S,A)+α[r+γmax_aQ(S',a)-Q(S,A)]

a^L＝Q_predict,y＝r+γ*Q(s',a)

9.根据权利要求7所述的基于Q学习的深度神经网络自适应退避策略实现方法，其特征在于，以批量梯度下降法描述反向传播算法，包括：

设第l层的梯度为δ^l，经过推导第L层的梯度为：

为求导符号；σ’表示σ函数的导函数；

δ^l＝(W^l+1)^Tδ^l+1·σ'(z^l)

10.一种基于Q学习的深度神经网络自适应退避策略实现系统，其特征在于，包括：