CN109548044A - 一种基于ddpg的能量可收集通信的比特率优化算法 - Google Patents

一种基于ddpg的能量可收集通信的比特率优化算法 Download PDF

Info

Publication number
CN109548044A
CN109548044A CN201811305167.3A CN201811305167A CN109548044A CN 109548044 A CN109548044 A CN 109548044A CN 201811305167 A CN201811305167 A CN 201811305167A CN 109548044 A CN109548044 A CN 109548044A
Authority
CN
China
Prior art keywords
network
actor
energy
training
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811305167.3A
Other languages
English (en)
Other versions
CN109548044B (zh
Inventor
陈彦
邱成润
胡洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811305167.3A priority Critical patent/CN109548044B/zh
Publication of CN109548044A publication Critical patent/CN109548044A/zh
Application granted granted Critical
Publication of CN109548044B publication Critical patent/CN109548044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于DDPG的能量可收集通信的比特率优化算法,属于绿色通信与深度强化学习技术领域。本发明所述算法首先通过环境在当前在线网络中得到当前一个策略,加上噪声后得到当前一个动作;将该动作作用于交互环境后得到下一时刻的状态与当前赏值,并于该时刻动作与状态打包成一个集合存储于回放存储中;如果存储已满,则开始训练DDPG网络。训练时,首先通过小批量的集合取出对应的状态,然后用Actor目标网络生成一个动作,然后通过优化器优化Critic在线网络;之后Critic的在线网络将动作的梯度传递给Actor网络,并通过优化器更新Actor在线网络。最后两个网络的目标网络对自身进行软更新。

Description

一种基于DDPG的能量可收集通信的比特率优化算法
技术领域
本发明属于绿色通信与深度强化学习技术领域,具体涉及一种基于DDPG的能量可收集通信的比特率优化算法。
背景技术
能量可收集技术在无线传感器网络中有着很广泛的应用。因为WSN中每个传感器节点大小有限,造成电池的容量有限,没有办法存储很多的能量。而更换电池也很麻烦,因为传感器很小,并且大多分布在室外。所以,使用一个可以收集能量的传感器与一个能充电的电池就能够解决这一难题。然而由于自然界的可再生能量存在不稳定,随机性等特点,并且无线信道也具有独立同分布随机性,如何有效地分配收集的能量使得收益最大化便成了一个很重要的问题。
在解决能量可收集的无线通信中的在线算法中,马尔科夫决策过程(Markov-decision-process,MDP)是最常用的算法。MDP首先将整个随机事件集合分成有限个状态元素,然后通过随机事件状态(信道、电池、可收集能量)的分布概率求出其转换概率,最后通过马尔可夫链求解。因为我们求的是期望平均目标函数,所以马尔科夫链包含了无数个项,此时MDP借助贝尔曼公式,只对前有限个项进行运算,然后选取优化解。然而MDP也存在数项不足:(1)MDP需要将参数离散化成状态表示,之后选取的解在一个状态内都是相同的。所以如果状态选取过少,得到的解就离最优差距很大;如果状态选取过多,则可能导致维数爆炸,使算法复杂度急速增加;(2)贝尔曼公式本身也是一种近似;(3)如果单位能量选取高于平均能量收集率,则得到的效果边界会比问题本身的边界要差;(4)由于单位能量的存在,当SNR很高时会造成浪费。
Deep deterministic policy gradient(DDPG)是一种结合了深度强化学习DeepQ learning与确定性策略梯度Deterministic policy gradient的一种强化学习的框架。由于在Deep Q learning中虽然输入的环境变量是连续范围内的任意参数,但是其输出的动作依然是离散的。如果增加动作的精度,那么就会带来额外的训练代价。而策略梯度相较于其他的强化学习方法,能被用来在连续动作上进行动作的筛选,而且筛选的时候是根据所学习到的动作分布随机进行筛选。Deterministic policy gradient则改变了输出动作的过程,学习的也不再是动作的分布概率,而是一个确定的函数,只在连续动作上输出一个动作值。DDPG将两个强化学习技术相结合,既能够满足复杂的系统输入,也能够输出连续的动作值。DDPG中含有两部分网络——Actor与Critic,其中Actor用于产生输出连续动作的一个确定性函数,而Critic则负责用深度神经网络来模拟复杂且庞大的Q值表。网络训练完毕后,只需要保留Actor网络来完成每次的优化决策。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种参数连续化,复杂度低的深度强化学习方法去学习一种能量分配决策,用来优化能量可收集无线通信的时平均比特率,帮助能量收集节点有效率的分配从外界收集到的有限能量。
DDPG网络结构如图1所示,Actor网络和Critic网络都包含两个子网:在线网络和目标网络,它们的结构是相同的,整体工作流程如下。首先当前在线网络通过环境得到当前一个策略,加上噪声后得到当前一个动作;将该动作作用于交互环境后得到下一时刻的状态与当前赏值,并于该时刻动作与状态打包成一个集合存储与回放存储中;如果存储已满,则开始训练DDPG网络。训练时,首先通过小批量的集合取出对应的状态,然后用Actor目标网络生成一个动作,然后通过优化器优化Critic在线网络;之后Critic的在线网络将动作的梯度传递给Acer在线网络,并通过优化器更新Acer在线网络。最后两个网络的目标网络对自身进行软更新。
本发明所提出的技术问题是这样解决的:
一种基于DDPG的能量可收集通信的比特率优化算法,包括训练部分和应用部分:
训练部分包括以下步骤:
步骤1.设置初始参数:
DDPG参数:训练总次数T,训练集数据长度L,Actor网络学习率lrA,Critic网络学习率lrC,折扣因子γ,软更新因子τ,回访存储容量B,小批量长度N,高斯分布行为噪声n0,噪音衰减因子κ,缩放因子λ1、λ2
能量可收集通信参数:初始训练集的可收集能量EH,初始训练集的衰落信道增益ζ,调制方式m、平均信道噪声功率N0,包传输耗时TP,包中所含符号数Ls,符号所含比特数χm,一次传输策略周期时间长度TL
计算初始训练集的平均可收集能量平均衰落信道增益可收集能量方差衰落信道增益方差
令当前训练次数t=0,当前时刻l=0;
步骤2.通过Actor的在线网络得到l时刻的决策al=min(max(μ(slμ+n0),0),1),其中,μ为在线网络的策略函数,sl为l时刻的状态,θμ为Actor在线网络的(所有)神经网络节点值,μ(slμ+n0)表示θμ确定时的μ,min表示求最小值,max表示求最大值;
步骤3.通过训练样本计算l+1时刻的状态sl+1=(bl+1,ζl+1,EH,l+1),其中,bl+1为l+1时刻的电池能量,ζl+1为l+1时刻的衰落信道增益,EH,l+1为l+1时刻的可收集能量,bl+1=min(bl+EH,l-albl,bmax),bmax为电池容量;
步骤4.计算l时刻的奖赏值:
其中误码率:
其中,erfc为误差函数;
当调制模式m为QPSK时,r取0,(α(m,0),β(m,0))=(1,1);
当调制模式m为8PSK时,r取0或1,
当调制模式m为16QAM时,r取0或1,
步骤5.向回访存储中存储集合(sl,al,rl,sl+1),若存储已满则按顺序覆盖,行为噪声n0=n0×κ;
步骤6.判断回访存储是否已满,若是,则跳转步骤11,若否,则跳转步骤7;
步骤7.在回访存储中随机选择N个集合(si,ai,ri,si+1),1≤i≤N,对si和si+1作状态归一处理;
步骤8.计算yi=ri+γQ′(si+1,μ′(si+1)|θQ′),其中,μ′为目标网络的策略函数,Q′为Critic目标网络评价函数,θQ′为Critic目标网络的(所有)神经网络节点值,μ′(si+1)|θQ′表示θQ′确定时的μ′(si+1),通过最小化损失来更新Critic的在线网络,其中,Q为Critic在线网络评价函数,θQ为Critic在线网络的(所有)神经网络节点值,Q(si,aiQ)表示θQ确定时的Q;
步骤9.通过梯度更新Actor的在线网络,其中,θμ为Actor在线网络的(所有)神经网络节点值,Q(s,a|θQ)表示θQ确定时的Q,μ(s|θμ)表示θμ确定时的μ;
步骤10.软更新Actor与Critic的目标网络:θQ′=τθQ+(1-τ)θQ′,θμ′=τθμ+(1-τ)θμ′,θμ′为Actor目标网络的(所有)神经网络节点值;
步骤11.判断l是否等于L,若是,则跳转步骤12,若否,则跳转步骤2,且l=l+1;
步骤12.判断t是否等于T,若是,则跳转步骤13,若否,则跳转步骤2,且t=t+1,l=0;
步骤13.训练算法结束,保存Actor在线网络。
应用部分包括以下步骤:
步骤1.计算归一化后的状态其中,btt为当前时刻tt的电池能量,ζtt为当前时刻tt的衰落信道增益,EH,tt为当前时刻tt的可收集能量;
步骤2.利用Actor在线网络输出最佳决策att=μ(stt′μ),则需要分配的能量为attbtt
步骤3.继续读取下一时刻的状态,若能读取到则转至步骤1,若不能读取到则结束运算。
训练部分步骤7中状态归一化的具体步骤如下:
步骤7-1.计算归一化后的状态:
步骤7-2.输出归一化后的状态:si′=(bi′,ζi′,EH,i′)。
本发明的有益效果是:
本发明所述方法利用DDPG框架,提出了对应的强化学习算法,对连续参数的能量可收集无线通信作优化,帮助发射节点能够有效的分配随机收集到的能量来优化时平均比特率。和现有方法相比,本算法具有如下优点:
(1)不需要对输入进行离散化预处理,策略直接输出连续值动作,输出动作的复杂度小,并且对训练数据的泛化性好,用一天的数据训练就能训练出适用于几个月的能量分配策略;
(2)SNR低时效果与MDP接近,比Lyapunov优化效果要好;SNR高时效果优于MDP,与Lyapunov优化效果持平,整体效果都要优于MDP与Lyapunov优化;
(3)对目标优化函数没有凸的要求,不需要预先进行凸近似。
附图说明
图1为DDPG网络结构图。
图2为系统模型图;
图3为本发明所述算法的训练部分算法流程图;
图4为本发明所述算法的训练部分状态归一化算法流程图;
图5为本发明所述算法的应用部分算法流程图;
图6为本发明所述算法与Lyapunov优化的算法性能比较图;
图7为本发明所述算法与MDP的算法性能比较图。
具体实施方式
下面结合附图和实施例对本发明进行进一步的说明。
本实施例提供一种基于DDPG的能量可收集通信的比特率优化算法,本发明基于的系统模型图如图2所示,算法包括训练部分和应用部分:
训练部分的算法流程图如图3所示,包括以下步骤:
步骤1.设置初始参数:
DDPG参数:训练总次数T,训练集数据长度L,Actor网络学习率lrA,Critic网络学习率lrC,折扣因子γ,软更新因子τ,回访存储容量B,小批量长度N,高斯分布行为噪声n0,噪音衰减因子κ,缩放因子λ1、λ2
能量可收集通信参数:初始训练集的可收集能量EH,初始训练集的衰落信道增益ζ,调制方式m、平均信道噪声功率N0,包传输耗时TP,包中所含符号数Ls,符号所含比特数χm,一次传输策略周期时间长度TL
计算初始训练集的平均可收集能量平均衰落信道增益可收集能量方差衰落信道增益方差
令当前训练次数t=0,当前时刻l=0;
步骤2.通过Actor的在线网络得到l时刻的决策al=min(max(μ(slμ+n0),0),1),其中,μ为在线网络的策略函数,sl为l时刻的状态,θμ为Actor在线网络的(所有)神经网络节点值,μ(slμ+n0)表示θμ确定时的μ,min表示求最小值,max表示求最大值;
步骤3.通过训练样本计算l+1时刻的状态sl+1=(bl+1,ζl+1,EH,l+1),其中,bl+1为l+1时刻的电池能量,ζl+1为l+1时刻的衰落信道增益,EH,l+1为l+1时刻的可收集能量,bl+1=min(bl+EH,l-albl,bmax),bmax为电池容量;
步骤4.计算l时刻的奖赏值:
其中误码率:
其中,erfc为误差函数;
当调制模式m为QPSK时,r取0,(α(m,0),β(m,0))=(1,1);
当调制模式m为8PSK时,r取0或1,
当调制模式m为16QAM时,r取0或1,
步骤5.向回访存储中存储集合(sl,al,rl,sl+1),若存储已满则按顺序覆盖,行为噪声n0=n0×κ;
步骤6.判断回访存储是否已满,若是,则跳转步骤11,若否,则跳转步骤7;
步骤7.在回访存储中随机选择N个集合(si,ai,ri,si+1),1≤i≤N,对si和si+1作状态归一处理;
步骤8.计算yi=ri+γQ′(si+1,μ′(si+1)|θQ′),其中,μ′为目标网络的策略函数,Q′为Critic目标网络评价函数,θQ′为Critic目标网络的(所有)神经网络节点值,μ′(si+1)|θQ′表示θQ′确定时的μ′(si+1),通过最小化损失来更新Critic的在线网络,其中,Q为Critic在线网络评价函数,θQ为Critic在线网络的(所有)神经网络节点值,Q(si,aiQ)表示θQ确定时的Q;
步骤9.通过梯度更新Actor的在线网络,其中,θμ为Actor在线网络的(所有)神经网络节点值,Q(s,a|θQ)表示θQ确定时的Q,μ(s|θμ)表示θμ确定时的μ;
步骤10.软更新Actor与Critic的目标网络:θQ′=τθQ+(1-τ)θQ′,θμ′=τθμ+(1-τ)θμ′,θμ′为Actor目标网络的(所有)神经网络节点值;
步骤11.判断l是否等于L,若是,则跳转步骤12,若否,则跳转步骤2,且l=l+1;
步骤12.判断t是否等于T,若是,则跳转步骤13,若否,则跳转步骤2,且t=t+1,l=0;
步骤13.训练算法结束,保存Actor在线网络。
应用部分的算法流程图如图5所示,包括以下步骤:
步骤1.计算归一化后的状态其中,btt为当前时刻tt的电池能量,ξtt为当前时刻tt的衰落信道增益,EH,tt为当前时刻tt的可收集能量;
步骤2.利用Actor在线网络输出最佳决策att=μ(stt′|θμ),则需要分配的能量为attbtt
步骤3.继续读取下一时刻的状态,若能读取到则转至步骤1,若不能读取到则结束运算。
训练部分步骤7中状态归一化的算法流程图如图4所示,具体步骤如下:
步骤7-1.计算归一化后的状态:
步骤7-2.输出归一化后的状态:si′=(bi′,ζi′,EH,i′)。
本实施例验证了能量可收集端到端通信中,不同的信噪比情况下下,本发明所述算法对期望错误率的优化效果。一次策略周期TL设为300秒,传输单个包的所需时间为0.01秒,并且单个包中可以包含100个符号。可选调制方法为QPSK、8PSK与16QAM,相对应的,每个符号可以包含2、3、4比特的信息。试验使用了测量站测量的真实的太阳能数据,来检查经过强化学习后的策略是否具有好的泛化性,数据日期为2010~2012年的6月。太阳能电池板的大小为4cm^2,收集效率为20%,电池容量设定大小为40*12*TL mJ。本实施例仅使用2010年6月1日的日照数据进行训练,样本长度为120,并用2010~2012年的6月的数据来检测训练完毕的决策网络的效果。假设无线信道遵循瑞利分布,利用Jakes model生成连续的模拟信道增益,并且多普勒频率为0.05。
DDPG在线网络与目标网络的结构是相同的,结构都如表1所示,并且剩余参数如下所示。训练循环次数设为2000,回放存储量设为20000,小批量长度设为80。两个网络的学习率都设为0.0002,折扣因子设为0.999并且软更新因子设为0.01。行为噪声的均值为10,满足正态分布,并且衰减率设为0.9995。状态归一化方面,两个放缩因子分别设为100与2。
表1.DDPG神经网络结构
网络 网络层 神经元数量 激活函数 FLOPs复杂度
Actor网络 全连接层 60
全连接层 30
全连接层 1 Sigmoid 2.01K
Critic网络 全连接层 60 RELU
全连接层 60
全连接层 60 Tanh
全连接层 60
全连接层 60 RELU
全连接层 1 14.94K
仿真效果如图6、7所示。使用训练完毕的决策网络来分配能量时,当SNR较低时,平均比特率表现与MDP相似,并且明显好于Lyapunov优化;当SNR比较高时比起MDP,本发明所述算法有明显的优势,并且效果与Lyapunov优化持平。并且本发明所述算法有着良好的泛化性,仅用一天的数据训练,就可以在三个月的仿真上取得优于其他两个方法的效果。整体来说,本发明所述方法比起MDP与Lyapunov有着更好的效果。

Claims (2)

1.一种基于DDPG的能量可收集通信的比特率优化算法,其特征在于,包括训练部分和应用部分:
训练部分包括以下步骤:
步骤1.设置初始参数:
DDPG参数:训练总次数T,训练集数据长度L,Actor网络学习率lrA,Critic网络学习率lrC,折扣因子γ,软更新因子τ,回访存储容量B,小批量长度N,高斯分布行为噪声n0,噪音衰减因子κ,缩放因子λ1、λ2
能量可收集通信参数:初始训练集的可收集能量EH,初始训练集的衰落信道增益ζ,调制方式m、平均信道噪声功率N0,包传输耗时TP,包中所含符号数Ls,符号所含比特数χm,一次传输策略周期时间长度TL
计算初始训练集的平均可收集能量平均衰落信道增益可收集能量方差衰落信道增益方差1≤l≤L;
令当前训练次数t=0,当前时刻l=0;
步骤2.通过Actor的在线网络得到l时刻的决策al=min(max(μ(slμ+n0),0),1),其中,μ为在线网络的策略函数,sl为l时刻的状态,θμ为Actor在线网络的神经网络节点值,min表示求最小值,max表示求最大值;
步骤3.通过训练样本计算l+1时刻的状态sl+1=(bl+1,ζl+1,EH,l+1),其中,bl+1为l+1时刻的电池能量,ζl+1为l+1时刻的衰落信道增益,EH,l+1为l+1时刻的可收集能量,bl+1=min(bl+EH,l-albl,bmax),bmax为电池容量;
步骤4.计算l时刻的奖赏值:
其中误码率:
其中,erfc为误差函数;
当调制模式m为QPSK时,r取0,(α(m,0),β(m,0))=(1,1);
当调制模式m为8PSK时,r取0或1,
当调制模式m为16QAM时,r取0或1,
步骤5.向回访存储中存储集合(sl,al,ri,sl+1),若存储已满则按顺序覆盖,行为噪声n0=n0×κ;
步骤6.判断回访存储是否已满,若是,则跳转步骤11,若否,则跳转步骤7;
步骤7.在回访存储中随机选择N个集合(si,ai,ri,si+1),1≤i≤N,对si和si+1作状态归一处理;
步骤8.计算yi=ri+γQ′(si+1,μ′(si+1)|θQ′),其中,μ′为目标网络的策略函数,Q′为Critic目标网络评价函数,θQ′为Critic目标网络的神经网络节点值,通过最小化损失来更新Critic的在线网络,其中,Q为Critic在线网络评价函数,θQ为Critic在线网络的神经网络节点值;
步骤9.通过梯度更新Actor的在线网络,其中,θμ为Actor在线网络的神经网络节点值;
步骤10.软更新Actor与Critic的目标网络:θQ′=τθQ+(1-τ)θQ′,θμ′=τθμ+(1-τ)θμ′,θμ′为Actor目标网络的神经网络节点值;
步骤11.判断l是否等于L,若是,则跳转步骤12,若否,则跳转步骤2,且l=l+1;
步骤12.判断t是否等于T,若是,则跳转步骤13,若否,则跳转步骤2,且t=t+1,l=0;
步骤13.训练算法结束,保存Actor在线网络;
应用部分包括以下步骤:
步骤1.计算归一化后的状态其中,btt为当前时刻tt的电池能量,ζtt为当前时刻tt的衰落信道增益,EH,tt为当前时刻tt的可收集能量;
步骤2.利用Actor在线网络输出最佳决策att=μ(stt′|θμ),则需要分配的能量为attbtt
步骤3.继续读取下一时刻的状态,若能读取到则转至步骤1,若不能读取到则结束运算。
2.根据权利要求1所述的基于DDPG的能量可收集通信的比特率优化算法,其特征在于,训练部分步骤7中状态归一化的具体步骤如下:
步骤7-1.计算归一化后的状态:
步骤7-2.输出归一化后的状态:si′=(bi′,ζi′,EH,i′)。
CN201811305167.3A 2018-11-02 2018-11-02 一种基于ddpg的能量可收集通信的比特率优化方法 Active CN109548044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811305167.3A CN109548044B (zh) 2018-11-02 2018-11-02 一种基于ddpg的能量可收集通信的比特率优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811305167.3A CN109548044B (zh) 2018-11-02 2018-11-02 一种基于ddpg的能量可收集通信的比特率优化方法

Publications (2)

Publication Number Publication Date
CN109548044A true CN109548044A (zh) 2019-03-29
CN109548044B CN109548044B (zh) 2020-11-17

Family

ID=65846473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811305167.3A Active CN109548044B (zh) 2018-11-02 2018-11-02 一种基于ddpg的能量可收集通信的比特率优化方法

Country Status (1)

Country Link
CN (1) CN109548044B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399006A (zh) * 2019-08-28 2019-11-01 江苏提米智能科技有限公司 基于大数据的双面光伏组件最大发电量角度控制方法
CN112508172A (zh) * 2020-11-23 2021-03-16 北京邮电大学 基于q学习和srnn模型的航天测控自适应调制方法
CN112788629A (zh) * 2020-12-31 2021-05-11 重庆邮电大学 基于Lyapunov优化框架的能量收集通信系统中功率和调制方式在线联合控制方法
CN113364712A (zh) * 2021-05-19 2021-09-07 电子科技大学 基于ddpg网络的混合辐射源信号分离方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167578A (zh) * 2013-04-02 2013-06-19 山东大学 用Hopfield 神经网络对无线传感器网络分簇的方法
CN107949042A (zh) * 2017-11-08 2018-04-20 浙江工业大学 一种适用于能量采集型无线传感网络的低存储自适应传输调度方法
US20180295531A1 (en) * 2016-09-27 2018-10-11 King Fahd University Of Petroleum And Minerals Method for determining data collection in a sensor node/server system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167578A (zh) * 2013-04-02 2013-06-19 山东大学 用Hopfield 神经网络对无线传感器网络分簇的方法
US20180295531A1 (en) * 2016-09-27 2018-10-11 King Fahd University Of Petroleum And Minerals Method for determining data collection in a sensor node/server system
CN107949042A (zh) * 2017-11-08 2018-04-20 浙江工业大学 一种适用于能量采集型无线传感网络的低存储自适应传输调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜冬梅: "无线传感器网络能量收集技术分析", 《微纳电子技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399006A (zh) * 2019-08-28 2019-11-01 江苏提米智能科技有限公司 基于大数据的双面光伏组件最大发电量角度控制方法
CN112508172A (zh) * 2020-11-23 2021-03-16 北京邮电大学 基于q学习和srnn模型的航天测控自适应调制方法
CN112788629A (zh) * 2020-12-31 2021-05-11 重庆邮电大学 基于Lyapunov优化框架的能量收集通信系统中功率和调制方式在线联合控制方法
CN112788629B (zh) * 2020-12-31 2022-05-03 重庆邮电大学 一种能量收集通信系统功率和调制方式在线联合控制方法
CN113364712A (zh) * 2021-05-19 2021-09-07 电子科技大学 基于ddpg网络的混合辐射源信号分离方法
CN113364712B (zh) * 2021-05-19 2022-06-14 电子科技大学 基于ddpg网络的混合辐射源信号分离方法

Also Published As

Publication number Publication date
CN109548044B (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
Qiu et al. Deep deterministic policy gradient (DDPG)-based energy harvesting wireless communications
CN109548044A (zh) 一种基于ddpg的能量可收集通信的比特率优化算法
Jiang et al. AI driven heterogeneous MEC system with UAV assistance for dynamic environment: Challenges and solutions
CN113610303B (zh) 一种负荷预测方法及系统
Akbas et al. Neural network based instant parameter prediction for wireless sensor network optimization models
CN104134351B (zh) 一种短时交通流预测方法
CN101867960B (zh) 一种无线传感器网络性能综合评价方法
CN105354646B (zh) 一种混合粒子群优化与极限学习机的电力负荷预测方法
CN107547460A (zh) 基于深度学习的无线通信调制信号识别方法
CN104636801A (zh) 一种基于优化bp神经网络的预测输电线路可听噪声方法
CN107133695A (zh) 一种风电功率预测方法和系统
CN102780765A (zh) 一种基于性能融合的云制造服务资源匹配与组合方法
CN101706888B (zh) 一种旅行时间预测的方法
CN106934451A (zh) 一种基于蚁群优化的bp神经网络wsn森林火灾防范系统
CN105792218A (zh) 具有射频能量收集能力的认知无线电网络的优化方法
Liu et al. Dynamic multichannel sensing in cognitive radio: Hierarchical reinforcement learning
CN112272074A (zh) 一种基于神经网络的信息传输速率控制方法及系统
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
Ji et al. Balance optimization method of energy shipping based on Hopfield neural network
Chen et al. Tasks-oriented joint resource allocation scheme for the Internet of vehicles with sensing, communication and computing integration
Liu et al. AoI minimization of ambient backscatter-assisted EH-CRN with cooperative spectrum sensing
CN104092503A (zh) 一种基于狼群优化的人工神经网络频谱感知方法
Tong et al. Model-based thompson sampling for frequency and rate selection in underwater acoustic communications
CN103401626A (zh) 基于遗传算法的协作频谱感知优化方法
CN107423811A (zh) 基于bp人工神经网络和情景模拟组合的径流变化归因识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant