CN109548044A

CN109548044A - 一种基于ddpg的能量可收集通信的比特率优化算法

Info

Publication number: CN109548044A
Application number: CN201811305167.3A
Authority: CN
Inventors: 陈彦; 邱成润; 胡洋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-03-29
Anticipated expiration: 2038-11-02
Also published as: CN109548044B

Abstract

本发明公开了一种基于DDPG的能量可收集通信的比特率优化算法，属于绿色通信与深度强化学习技术领域。本发明所述算法首先通过环境在当前在线网络中得到当前一个策略，加上噪声后得到当前一个动作；将该动作作用于交互环境后得到下一时刻的状态与当前赏值，并于该时刻动作与状态打包成一个集合存储于回放存储中；如果存储已满，则开始训练DDPG网络。训练时，首先通过小批量的集合取出对应的状态，然后用Actor目标网络生成一个动作，然后通过优化器优化Critic在线网络；之后Critic的在线网络将动作的梯度传递给Actor网络，并通过优化器更新Actor在线网络。最后两个网络的目标网络对自身进行软更新。

Description

一种基于DDPG的能量可收集通信的比特率优化算法

技术领域

本发明属于绿色通信与深度强化学习技术领域，具体涉及一种基于DDPG的能量可收集通信的比特率优化算法。

背景技术

能量可收集技术在无线传感器网络中有着很广泛的应用。因为WSN中每个传感器节点大小有限，造成电池的容量有限，没有办法存储很多的能量。而更换电池也很麻烦，因为传感器很小，并且大多分布在室外。所以，使用一个可以收集能量的传感器与一个能充电的电池就能够解决这一难题。然而由于自然界的可再生能量存在不稳定，随机性等特点，并且无线信道也具有独立同分布随机性，如何有效地分配收集的能量使得收益最大化便成了一个很重要的问题。

在解决能量可收集的无线通信中的在线算法中，马尔科夫决策过程(Markov-decision-process，MDP)是最常用的算法。MDP首先将整个随机事件集合分成有限个状态元素，然后通过随机事件状态(信道、电池、可收集能量)的分布概率求出其转换概率，最后通过马尔可夫链求解。因为我们求的是期望平均目标函数，所以马尔科夫链包含了无数个项，此时MDP借助贝尔曼公式，只对前有限个项进行运算，然后选取优化解。然而MDP也存在数项不足：(1)MDP需要将参数离散化成状态表示，之后选取的解在一个状态内都是相同的。所以如果状态选取过少，得到的解就离最优差距很大；如果状态选取过多，则可能导致维数爆炸，使算法复杂度急速增加；(2)贝尔曼公式本身也是一种近似；(3)如果单位能量选取高于平均能量收集率，则得到的效果边界会比问题本身的边界要差；(4)由于单位能量的存在，当SNR很高时会造成浪费。

Deep deterministic policy gradient(DDPG)是一种结合了深度强化学习DeepQ learning与确定性策略梯度Deterministic policy gradient的一种强化学习的框架。由于在Deep Q learning中虽然输入的环境变量是连续范围内的任意参数，但是其输出的动作依然是离散的。如果增加动作的精度，那么就会带来额外的训练代价。而策略梯度相较于其他的强化学习方法，能被用来在连续动作上进行动作的筛选，而且筛选的时候是根据所学习到的动作分布随机进行筛选。Deterministic policy gradient则改变了输出动作的过程，学习的也不再是动作的分布概率，而是一个确定的函数，只在连续动作上输出一个动作值。DDPG将两个强化学习技术相结合，既能够满足复杂的系统输入，也能够输出连续的动作值。DDPG中含有两部分网络——Actor与Critic，其中Actor用于产生输出连续动作的一个确定性函数，而Critic则负责用深度神经网络来模拟复杂且庞大的Q值表。网络训练完毕后，只需要保留Actor网络来完成每次的优化决策。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种参数连续化，复杂度低的深度强化学习方法去学习一种能量分配决策，用来优化能量可收集无线通信的时平均比特率，帮助能量收集节点有效率的分配从外界收集到的有限能量。

DDPG网络结构如图1所示，Actor网络和Critic网络都包含两个子网：在线网络和目标网络，它们的结构是相同的，整体工作流程如下。首先当前在线网络通过环境得到当前一个策略，加上噪声后得到当前一个动作；将该动作作用于交互环境后得到下一时刻的状态与当前赏值，并于该时刻动作与状态打包成一个集合存储与回放存储中；如果存储已满，则开始训练DDPG网络。训练时，首先通过小批量的集合取出对应的状态，然后用Actor目标网络生成一个动作，然后通过优化器优化Critic在线网络；之后Critic的在线网络将动作的梯度传递给Acer在线网络，并通过优化器更新Acer在线网络。最后两个网络的目标网络对自身进行软更新。

本发明所提出的技术问题是这样解决的：

一种基于DDPG的能量可收集通信的比特率优化算法，包括训练部分和应用部分：

训练部分包括以下步骤：

步骤1.设置初始参数：

DDPG参数：训练总次数T，训练集数据长度L，Actor网络学习率lrA，Critic网络学习率lrC，折扣因子γ，软更新因子τ，回访存储容量B，小批量长度N，高斯分布行为噪声n₀，噪音衰减因子κ，缩放因子λ₁、λ₂；

能量可收集通信参数：初始训练集的可收集能量E_H，初始训练集的衰落信道增益ζ，调制方式m、平均信道噪声功率N₀，包传输耗时T_P，包中所含符号数L_s，符号所含比特数χ_m，一次传输策略周期时间长度T_L；

计算初始训练集的平均可收集能量平均衰落信道增益可收集能量方差衰落信道增益方差

令当前训练次数t＝0，当前时刻l＝0；

步骤2.通过Actor的在线网络得到l时刻的决策a_l＝min(max(μ(s_l|θ_μ+n₀)，0)，1)，其中，μ为在线网络的策略函数，s_l为l时刻的状态，θ_μ为Actor在线网络的(所有)神经网络节点值，μ(s_l|θ_μ+n₀)表示θ_μ确定时的μ，min表示求最小值，max表示求最大值；

步骤3.通过训练样本计算l+1时刻的状态s_l+1＝(b_l+1，ζ_l+1，E_H，l+1)，其中，b_l+1为l+1时刻的电池能量，ζ_l+1为l+1时刻的衰落信道增益，E_H，l+1为l+1时刻的可收集能量，b_l+1＝min(b_l+E_H，l-a_lb_l，b_max)，b_max为电池容量；

步骤4.计算l时刻的奖赏值：

其中误码率：

其中，erfc为误差函数；

当调制模式m为QPSK时，r取0，(α(m，0)，β(m，0))＝(1，1)；

当调制模式m为8PSK时，r取0或1，

当调制模式m为16QAM时，r取0或1，

步骤5.向回访存储中存储集合(s_l，a_l，r_l，s_l+1)，若存储已满则按顺序覆盖，行为噪声n₀＝n₀×κ；

步骤6.判断回访存储是否已满，若是，则跳转步骤11，若否，则跳转步骤7；

步骤7.在回访存储中随机选择N个集合(s_i，a_i，r_i，s_i+1)，1≤i≤N，对s_i和s_i+1作状态归一处理；

步骤8.计算y_i＝r_i+γQ′(s_i+1，μ′(s_i+1)|θ^Q′)，其中，μ′为目标网络的策略函数，Q′为Critic目标网络评价函数，θ^Q′为Critic目标网络的(所有)神经网络节点值，μ′(s_i+1)|θ^Q′表示θ^Q′确定时的μ′(s_i+1)，通过最小化损失来更新Critic的在线网络，其中，Q为Critic在线网络评价函数，θ^Q为Critic在线网络的(所有)神经网络节点值，Q(s_i，a_i|θ^Q)表示θ^Q确定时的Q；

步骤9.通过梯度更新Actor的在线网络，其中，θ^μ为Actor在线网络的(所有)神经网络节点值，Q(s，a|θ^Q)表示θ^Q确定时的Q，μ(s|θ^μ)表示θ^μ确定时的μ；

步骤10.软更新Actor与Critic的目标网络：θ^Q′＝τθ^Q+(1-τ)θ^Q′，θ^μ′＝τθ^μ+(1-τ)θ^μ′，θ^μ′为Actor目标网络的(所有)神经网络节点值；

步骤11.判断l是否等于L，若是，则跳转步骤12，若否，则跳转步骤2，且l＝l+1；

步骤12.判断t是否等于T，若是，则跳转步骤13，若否，则跳转步骤2，且t＝t+1，l＝0；

步骤13.训练算法结束，保存Actor在线网络。

应用部分包括以下步骤：

步骤1.计算归一化后的状态其中，b_tt为当前时刻tt的电池能量，ζ_tt为当前时刻tt的衰落信道增益，E_H，tt为当前时刻tt的可收集能量；

步骤2.利用Actor在线网络输出最佳决策a_tt＝μ(s_tt′|θ^μ)，则需要分配的能量为a_ttb_tt；

步骤3.继续读取下一时刻的状态，若能读取到则转至步骤1，若不能读取到则结束运算。

训练部分步骤7中状态归一化的具体步骤如下：

步骤7-1.计算归一化后的状态：

步骤7-2.输出归一化后的状态：s_i′＝(b_i′，ζ_i′，E_H，i′)。

本发明的有益效果是：

本发明所述方法利用DDPG框架，提出了对应的强化学习算法，对连续参数的能量可收集无线通信作优化，帮助发射节点能够有效的分配随机收集到的能量来优化时平均比特率。和现有方法相比，本算法具有如下优点：

(1)不需要对输入进行离散化预处理，策略直接输出连续值动作，输出动作的复杂度小，并且对训练数据的泛化性好，用一天的数据训练就能训练出适用于几个月的能量分配策略；

(2)SNR低时效果与MDP接近，比Lyapunov优化效果要好；SNR高时效果优于MDP，与Lyapunov优化效果持平，整体效果都要优于MDP与Lyapunov优化；

(3)对目标优化函数没有凸的要求，不需要预先进行凸近似。

附图说明

图1为DDPG网络结构图。

图2为系统模型图；

图3为本发明所述算法的训练部分算法流程图；

图4为本发明所述算法的训练部分状态归一化算法流程图；

图5为本发明所述算法的应用部分算法流程图；

图6为本发明所述算法与Lyapunov优化的算法性能比较图；

图7为本发明所述算法与MDP的算法性能比较图。

具体实施方式

下面结合附图和实施例对本发明进行进一步的说明。

本实施例提供一种基于DDPG的能量可收集通信的比特率优化算法，本发明基于的系统模型图如图2所示，算法包括训练部分和应用部分：

训练部分的算法流程图如图3所示，包括以下步骤：

步骤1.设置初始参数：

令当前训练次数t＝0，当前时刻l＝0；

步骤4.计算l时刻的奖赏值：

其中误码率：

其中，erfc为误差函数；

当调制模式m为QPSK时，r取0，(α(m，0)，β(m，0))＝(1，1)；

当调制模式m为8PSK时，r取0或1，

当调制模式m为16QAM时，r取0或1，

步骤13.训练算法结束，保存Actor在线网络。

应用部分的算法流程图如图5所示，包括以下步骤：

步骤1.计算归一化后的状态其中，b_tt为当前时刻tt的电池能量，ξ_tt为当前时刻tt的衰落信道增益，E_H，tt为当前时刻tt的可收集能量；

训练部分步骤7中状态归一化的算法流程图如图4所示，具体步骤如下：

步骤7-1.计算归一化后的状态：

本实施例验证了能量可收集端到端通信中，不同的信噪比情况下下，本发明所述算法对期望错误率的优化效果。一次策略周期T_L设为300秒，传输单个包的所需时间为0.01秒，并且单个包中可以包含100个符号。可选调制方法为QPSK、8PSK与16QAM，相对应的，每个符号可以包含2、3、4比特的信息。试验使用了测量站测量的真实的太阳能数据，来检查经过强化学习后的策略是否具有好的泛化性，数据日期为2010～2012年的6月。太阳能电池板的大小为4cm^2，收集效率为20％，电池容量设定大小为40*12*T_L mJ。本实施例仅使用2010年6月1日的日照数据进行训练，样本长度为120，并用2010～2012年的6月的数据来检测训练完毕的决策网络的效果。假设无线信道遵循瑞利分布，利用Jakes model生成连续的模拟信道增益，并且多普勒频率为0.05。

DDPG在线网络与目标网络的结构是相同的，结构都如表1所示，并且剩余参数如下所示。训练循环次数设为2000，回放存储量设为20000，小批量长度设为80。两个网络的学习率都设为0.0002，折扣因子设为0.999并且软更新因子设为0.01。行为噪声的均值为10，满足正态分布，并且衰减率设为0.9995。状态归一化方面，两个放缩因子分别设为100与2。

表1.DDPG神经网络结构

网络	网络层	神经元数量	激活函数	FLOPs复杂度
					Actor网络	全连接层	60
	全连接层	30
						全连接层	1	Sigmoid	2.01K
Critic网络	全连接层	60	RELU
						全连接层	60
	全连接层	60	Tanh
						全连接层	60
	全连接层	60	RELU
						全连接层	1		14.94K

仿真效果如图6、7所示。使用训练完毕的决策网络来分配能量时，当SNR较低时，平均比特率表现与MDP相似，并且明显好于Lyapunov优化；当SNR比较高时比起MDP，本发明所述算法有明显的优势，并且效果与Lyapunov优化持平。并且本发明所述算法有着良好的泛化性，仅用一天的数据训练，就可以在三个月的仿真上取得优于其他两个方法的效果。整体来说，本发明所述方法比起MDP与Lyapunov有着更好的效果。

Claims

1.一种基于DDPG的能量可收集通信的比特率优化算法，其特征在于，包括训练部分和应用部分：

训练部分包括以下步骤：

步骤1.设置初始参数：

计算初始训练集的平均可收集能量平均衰落信道增益可收集能量方差衰落信道增益方差1≤l≤L；

令当前训练次数t＝0，当前时刻l＝0；

步骤2.通过Actor的在线网络得到l时刻的决策a_l＝min(max(μ(s_l|θ_μ+n₀)，0)，1)，其中，μ为在线网络的策略函数，s_l为l时刻的状态，θ_μ为Actor在线网络的神经网络节点值，min表示求最小值，max表示求最大值；

步骤4.计算l时刻的奖赏值：

其中误码率：

其中，erfc为误差函数；

当调制模式m为QPSK时，r取0，(α(m，0)，β(m，0))＝(1，1)；

当调制模式m为8PSK时，r取0或1，

当调制模式m为16QAM时，r取0或1，

步骤5.向回访存储中存储集合(s_l，a_l，r_i，s_l+1)，若存储已满则按顺序覆盖，行为噪声n₀＝n₀×κ；

步骤8.计算y_i＝r_i+γQ′(s_i+1，μ′(s_i+1)|θ^Q′)，其中，μ′为目标网络的策略函数，Q′为Critic目标网络评价函数，θ^Q′为Critic目标网络的神经网络节点值，通过最小化损失来更新Critic的在线网络，其中，Q为Critic在线网络评价函数，θ^Q为Critic在线网络的神经网络节点值；

步骤9.通过梯度更新Actor的在线网络，其中，θ^μ为Actor在线网络的神经网络节点值；

步骤10.软更新Actor与Critic的目标网络：θ^Q′＝τθ^Q+(1-τ)θ^Q′，θμ′＝τθ^μ+(1-τ)θ^μ′，θ^μ′为Actor目标网络的神经网络节点值；

步骤13.训练算法结束，保存Actor在线网络；

应用部分包括以下步骤：

2.根据权利要求1所述的基于DDPG的能量可收集通信的比特率优化算法，其特征在于，训练部分步骤7中状态归一化的具体步骤如下：

步骤7-1.计算归一化后的状态：