CN112261725A - 一种基于深度强化学习的数据包传输智能决策方法 - Google Patents

一种基于深度强化学习的数据包传输智能决策方法 Download PDF

Info

Publication number
CN112261725A
CN112261725A CN202011145525.6A CN202011145525A CN112261725A CN 112261725 A CN112261725 A CN 112261725A CN 202011145525 A CN202011145525 A CN 202011145525A CN 112261725 A CN112261725 A CN 112261725A
Authority
CN
China
Prior art keywords
neural network
data packet
value
behavior
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011145525.6A
Other languages
English (en)
Other versions
CN112261725B (zh
Inventor
葛斌
李孜恒
方贤进
杨高明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202011145525.6A priority Critical patent/CN112261725B/zh
Publication of CN112261725A publication Critical patent/CN112261725A/zh
Application granted granted Critical
Publication of CN112261725B publication Critical patent/CN112261725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于深度强化学习的数据包传输智能决策方法,包括:构建深度神经网络模型;设计并初始化状态空间和行为空间;获取数据传输当前状态信息和历史状态信息,输入状态空间;采用经验回放机制保存历史状态信息;对步骤(3)和步骤(4)迭代执行T次,则回合结束;更新目标值神经网络参数θ′,将原始值神经网络的最新参数θ赋予目标值神经网络;迭代执行步骤(2)至(5),直至迭代次数达到预设的回合上限N或者深度神经网络收敛,则终止并自动得到满足多约束条件限制并且能量消耗更低的数据传输策略。本发明提高了用户服务质量,同时降低数据传输能耗,有效提高了通信网络在高度复杂动态环境下数据传输的智能决策能力。

Description

一种基于深度强化学习的数据包传输智能决策方法
技术领域
本发明涉及无线通信技术领域,尤其是一种基于深度强化学习的数据包传输智能决策方法。
背景技术
随着物联网的发展,移动终端的大规模普及,无线流量激增,数据传输所带来的能耗也在大幅增加。此外,随着绿色网络和智慧网络等新概念的提出,降低能量消耗变得愈发重要。如何在保证用户服务体验的同时,合理制定数据传输策略,实现数据稳定传输以及降低传输能耗,成为了备受关注的话题。
当前背景下的数据传输正变得复杂多样和动态多变,数据传输决策面临着庞大决策空间的考验。同时,考虑到数据包大小和请求数量的不确定性,以及用户对传输时延的强烈需求,传统算法在处理如此复杂动态的数据传输需求时,无法综合考虑诸多限制条件,同时降低传输能耗,较难获得理想的优化效果。
发明内容
本发明的目的在于提供一种能够综合考虑不同大小数据包的到达时间和传输截止时间,同时保证用户服务体验,通过实时性能反馈,动态调整传输策略,实现能量消耗最小化的基于深度强化学习的数据包传输智能决策方法。
为实现上述目的,本发明采用了以下技术方案:一种基于深度强化学习的数据包传输智能决策方法,该方法包括下列顺序的步骤:
(1)构建深度神经网络模型,该模型包含用于计算行为价值函数的原始值神经网络,以及基于行为价值函数的计算结果进行行为选择的目标值神经网络;
(2)设计并初始化状态空间和行为空间;
(3)获取数据传输当前状态信息和历史状态信息,输入状态空间,对数据包的传输次序和发送功率进行优化和分配;
(4)采用经验回放机制保存历史状态信息,并随机采集训练样本进行深度神经网络训练;
(5)根据数据包总数T,对步骤(3)和步骤(4)迭代执行T次,则回合结束;更新目标值神经网络参数θ′,将原始值神经网络的最新参数θ赋予目标值神经网络;
(6)迭代执行步骤(2)至(5),直至迭代次数达到预设的回合上限N或者深度神经网络收敛,则终止并自动得到满足多约束条件限制并且能量消耗更低的数据传输策略。
所述步骤(2)具体是指:根据数据包大小B、发送功率Pi、传输截止时间DL和数据包到达时间AT建立状态信息,
Figure BDA0002739607560000021
选取当前状态信息和三组历史状态信息构成状态空间,行为空间由发送功率Pi构成;状态空间初始化时,首先初始化当前状态信息,分别将初始化后的当前状态信息赋值给另外三组历史状态信息,共同构成初始状态空间;行为空间初始化时,将所有发送功率离散化处理,得到行为空间A={P1,P2,P3,...,Pi}。
所述步骤(3)中对数据包的发送功率分配过程包括以下步骤:
(3a)对所有数据包初始状态信息进行预处理,基于先入先出数据流,按照数据包到达时间升序排列;
(3b)输入状态空间st,按照ε-贪婪策略,即随机生成0至1的常数与贪婪指数ε进行比较;如果该常数小于或者等于贪婪指数ε,随机选择行为at;否则,在所有可选行为中,选择使状态st的行为价值最大的行为at
(3c)执行行为at,并对贪婪指数ε进行线性衰减;将贪婪指数ε乘以衰减因子μ,得到最新的贪婪指数ε;
(3d)检查所选数据包是否已经到达,如果是,第一即时奖励值r1>0;否则,第一即时奖励值r1<0;
(3e)根据行为at,得到当前数据包的发送功率
Figure BDA0002739607560000022
根据公式
Figure BDA0002739607560000023
计算得到数据包传输速率λ(t),默认信道增益h(t)为1;
(3f)根据公式
Figure BDA0002739607560000031
计算得到当前数据包传输时间τ(t),其中B(t)为数据包的大小;
(3g)检查数据包总传输时间是否超出剩余未发送数据包的截止时间,如果不超出,第二即时奖励值r2>0;如果超出,第二即时奖励值r2<0;
(3h)计算能量消耗
Figure BDA0002739607560000032
第三即时奖励值
Figure BDA0002739607560000033
η为影响因子;
(3i)根据公式
Figure BDA0002739607560000034
对第一、二、三即时奖励值r1,r2,r3进行归一化处理,计算归一化结果之和,得到奖励值rt+1
(3j)将当前状态st的前三组状态信息置于下一状态st+1的第一组状态信息之后,组成一个新的状态空间st+1,以(st,at,rt+1,st+1)组成四元组并存入经验池中作为训练样本;
(3k)令st=st+1
所述步骤(4)中的进行深度神经网络训练具体包括以下步骤:
(4a)根据预设的训练开始值,如果经验池中样本数量大于训练开始值,按照批大小,从经验池中随机采集一定数量的训练样本,开始训练;否则,不进行训练,执行步骤(5);
(4b)以当前状态st作为原始值神经网络Q_Net的输入值,输出该状态下执行at获得的Q值Q(st,at);以下一状态st+1作为目标值神经网络Q_Nettarget的输入值,输出该状态的下每个行为的Q值Q′(st+1,at+1),选择使Q′(st+1,at+1)最大的行为at+1作为st+1状态的最优行为;训练深度神经网络时采用随机梯度下降法最小化损失函数:
Figure BDA0002739607560000035
得到的参数用来更新原始值神经网络Q_Net的参数θ。
所述步骤(5)中的回合结束是指当所有数据包即T个数据包均已发送,则视为一个回合结束。
所述步骤(6)具体是指:迭代执行步骤(2)至步骤(5),每次迭代结束,当前训练回合数Mcurrent进行加一,将当前训练回合数Mcurrent与预设的回合上限N进行比较,如果Mcurrent≥N,或者深度神经网络得到收敛,则结束算法迭代,得到满足多约束条件限制并且能耗更低的数据传输策略。
由上述技术方案可知,本发明的有益效果为:第一,本发明对基站的数据传输策略进行动态自适应优化,有效解决了传统算法面对大规模决策空间时优化效果差、决策灵活性低的问题;第二,本发明能够保证数据的稳定传输,并在有限时间内满足用户请求,提高了用户服务质量,同时降低数据传输能耗,有效提高了通信网络在高度复杂动态环境下数据传输的智能决策能力。
附图说明
图1为本发明的算法结构示意图;
图2为本发明的方法流程图;
图3为本发明在执行过程中,每回合的平均奖励值变化图;
图4为本发明在执行过程中,每回合的数据传输能量消耗变化图;
图5为本发明在执行过程中,深度神经网络loss值变化图;
图6为本发明的算法性能对比图。
具体实施方式
如图2所示,一种基于深度强化学习的数据包传输智能决策方法,该方法包括下列顺序的步骤:
(1)构建深度神经网络模型,该模型包含用于计算行为价值函数的原始值神经网络,以及基于行为价值函数的计算结果进行行为选择的目标值神经网络;
(2)设计并初始化状态空间和行为空间;
(3)获取数据传输当前状态信息和历史状态信息,输入状态空间,对数据包的传输次序和发送功率进行优化和分配;
(4)采用经验回放机制保存历史状态信息,并随机采集训练样本进行深度神经网络训练;
(5)根据数据包总数T,对步骤(3)和步骤(4)迭代执行T次,则回合结束;更新目标值神经网络参数θ′,将原始值神经网络的最新参数θ赋予目标值神经网络;
(6)迭代执行步骤(2)至(5),直至迭代次数达到预设的回合上限N或者深度神经网络收敛,则终止并自动得到满足多约束条件限制并且能量消耗更低的数据传输策略。
所述步骤(2)具体是指:根据数据包大小B、发送功率Pi、传输截止时间DL和数据包到达时间AT建立状态信息,
Figure BDA0002739607560000051
选取当前状态信息和三组历史状态信息构成状态空间,行为空间由发送功率Pi构成;状态空间初始化时,首先初始化当前状态信息,分别将初始化后的当前状态信息赋值给另外三组历史状态信息,共同构成初始状态空间;行为空间初始化时,将所有发送功率离散化处理,得到行为空间A={P1,P2,P3,...,Pi}。
所述步骤(3)中对数据包的发送功率分配过程包括以下步骤:
(3a)对所有数据包初始状态信息进行预处理,基于先入先出数据流,按照数据包到达时间升序排列;
(3b)输入状态空间st,按照ε-贪婪策略,即随机生成0至1的常数与贪婪指数ε进行比较;如果该常数小于或者等于贪婪指数ε,随机选择行为at;否则,在所有可选行为中,选择使状态st的行为价值最大的行为at
(3c)执行行为at,并对贪婪指数ε进行线性衰减;将贪婪指数ε乘以衰减因子μ,得到最新的贪婪指数ε;
(3d)检查所选数据包是否已经到达,如果是,第一即时奖励值r1>0;否则,第一即时奖励值r1<0;
(3e)根据行为at,得到当前数据包的发送功率
Figure BDA0002739607560000052
根据公式
Figure BDA0002739607560000053
计算得到数据包传输速率λ(t),默认信道增益h(t)为1;
(3f)根据公式
Figure BDA0002739607560000061
计算得到当前数据包传输时间τ(t),其中B(t)为数据包的大小;
(3g)检查数据包总传输时间是否超出剩余未发送数据包的截止时间,如果不超出,第二即时奖励值r2>0;如果超出,第二即时奖励值r2<0;
(3h)计算能量消耗
Figure BDA0002739607560000062
第三即时奖励值
Figure BDA0002739607560000063
η为影响因子;
(3i)根据公式
Figure BDA0002739607560000064
对第一、二、三即时奖励值r1,r2,r3进行归一化处理,计算归一化结果之和,得到奖励值rt+1
(3j)将当前状态st的前三组状态信息置于下一状态st+1的第一组状态信息之后,组成一个新的状态空间st+1,以(st,at,rt+1,st+1)组成四元组并存入经验池中作为训练样本;
(3k)令st=st+1
所述步骤(4)中的进行深度神经网络训练具体包括以下步骤:
(4a)根据预设的训练开始值,如果经验池中样本数量大于训练开始值,按照批大小,从经验池中随机采集一定数量的训练样本,开始训练;否则,不进行训练,执行步骤(5);
(4b)以当前状态st作为原始值神经网络Q_Net的输入值,输出该状态下执行at获得的Q值Q(st,at);以下一状态st+1作为目标值神经网络Q_Nettarget的输入值,输出该状态的下每个行为的Q值Q′(st+1,at+1),选择使Q′(st+1,at+1)最大的行为at+1作为st+1状态的最优行为;训练深度神经网络时采用随机梯度下降法最小化损失函数:
Figure BDA0002739607560000065
得到的参数用来更新原始值神经网络Q_Net的参数θ。
所述步骤(5)中的回合结束是指当所有数据包即T个数据包均已发送,则视为一个回合结束。
所述步骤(6)具体是指:迭代执行步骤(2)至步骤(5),每次迭代结束,当前训练回合数Mcurrent进行加一,将当前训练回合数Mcurrent与预设的回合上限N进行比较,如果Mcurrent≥N,或者深度神经网络得到收敛,则结束算法迭代,得到满足多约束条件限制并且能耗更低的数据传输策略。
如图1所示,智能体向原始值网络输入当前状态,即可得到最优行为,该行能够获得最大的状态行为价值。通过将每次执行行为获得的(st,at,rt+1,st+1)四元组信息存入经验池作为训练样本,分别将st和st+1输入原始值和目标值网络,根据损失函数训练原始值网络,得到最新的参数θ,每回合结束将最新的参数θ赋予目标值网络。
如图3所示,由于本算法采用线性衰减的ε,在前期ε较大的情况下,算法更倾向于探索未知状态,无法得到满足到达时间和发送截止时间限制的最优发送功率,平均奖励值不能稳定增长。随着回合数的增加,算法更多的采取满足条件限制的最优发送功率,平均奖励值逐渐增大并最终收敛至最优值。
如图4所示,由于算法前期ε较大,算法更倾向于探索未知状态,所执行的发送功率并非最优发送功率,能量消耗虽然大幅下降,但并不满足到达时间和发送截止时间限制。随着回合数的增加,算法更多的采取满足条件限制的最优发送功率,数据传输能量消耗相对初始状态得到大幅降低,并且算法逐渐收敛,能量消耗不再大幅震荡。
如图5所示,由于算法前期更倾向于探索未知状态,因此算法无法收敛,loss值持续增加。随着ε持续线性衰减,深度神经网络取得更好的拟合效果,loss值逐渐下降最终收敛至最小值。
如图6所示,随着数据包数量的增加,本专利的能量消耗明显低于传统的即到即传算法和加权分配算法,能够满足复杂动态环境下的数据传输要求。
综上所述,本发明对基站的数据传输策略进行动态自适应优化,有效解决了传统算法面对大规模决策空间时优化效果差、决策灵活性低的问题;本发明能够保证数据的稳定传输,并在有限时间内满足用户请求,提高了用户服务质量,同时降低数据传输能耗,有效提高了通信网络在高度复杂动态环境下数据传输的智能决策能力。

Claims (6)

1.一种基于深度强化学习的数据包传输智能决策方法,其特征在于:该方法包括下列顺序的步骤:
(1)构建深度神经网络模型,该模型包含用于计算行为价值函数的原始值神经网络,以及基于行为价值函数的计算结果进行行为选择的目标值神经网络;
(2)设计并初始化状态空间和行为空间;
(3)获取数据传输当前状态信息和历史状态信息,输入状态空间,对数据包的传输次序和发送功率进行优化和分配;
(4)采用经验回放机制保存历史状态信息,并随机采集训练样本进行深度神经网络训练;
(5)根据数据包总数T,对步骤(3)和步骤(4)迭代执行T次,则回合结束;更新目标值神经网络参数θ′,将原始值神经网络的最新参数θ赋予目标值神经网络;
(6)迭代执行步骤(2)至(5),直至迭代次数达到预设的回合上限N或者深度神经网络收敛,则终止并自动得到满足多约束条件限制并且能量消耗更低的数据传输策略。
2.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法,其特征在于:所述步骤(2)具体是指:根据数据包大小B、发送功率Pi、传输截止时间DL和数据包到达时间AT建立状态信息,
Figure FDA0002739607550000011
选取当前状态信息和三组历史状态信息构成状态空间,行为空间由发送功率Pi构成;状态空间初始化时,首先初始化当前状态信息,分别将初始化后的当前状态信息赋值给另外三组历史状态信息,共同构成初始状态空间;行为空间初始化时,将所有发送功率离散化处理,得到行为空间A={P1,P2,P3,...,Pi}。
3.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法,其特征在于:所述步骤(3)中对数据包的发送功率分配过程包括以下步骤:
(3a)对所有数据包初始状态信息进行预处理,基于先入先出数据流,按照数据包到达时间升序排列;
(3b)输入状态空间st,按照ε-贪婪策略,即随机生成0至1的常数与贪婪指数ε进行比较;如果该常数小于或者等于贪婪指数ε,随机选择行为at;否则,在所有可选行为中,选择使状态st的行为价值最大的行为at
(3c)执行行为at,并对贪婪指数ε进行线性衰减;将贪婪指数ε乘以衰减因子μ,得到最新的贪婪指数ε;
(3d)检查所选数据包是否已经到达,如果是,第一即时奖励值r1>0;否则,第一即时奖励值r1<0;
(3e)根据行为at,得到当前数据包的发送功率
Figure FDA0002739607550000021
根据公式
Figure FDA0002739607550000022
计算得到数据包传输速率λ(t),默认信道增益h(t)为1;
(3f)根据公式
Figure FDA0002739607550000023
计算得到当前数据包传输时间τ(t),其中B(t)为数据包的大小;
(3g)检查数据包总传输时间是否超出剩余未发送数据包的截止时间,如果不超出,第二即时奖励值r2>0;如果超出,第二即时奖励值r2<0;
(3h)计算能量消耗
Figure FDA0002739607550000024
第三即时奖励值
Figure FDA0002739607550000025
η为影响因子;
(3i)根据公式
Figure FDA0002739607550000026
对第一、二、三即时奖励值r1,r2,r3进行归一化处理,计算归一化结果之和,得到奖励值rt+1
(3j)将当前状态st的前三组状态信息置于下一状态st+1的第一组状态信息之后,组成一个新的状态空间st+1,以(st,at,rt+1,st+1)组成四元组并存入经验池中作为训练样本;
(3k)令st=st+1
4.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法,其特征在于:所述步骤(4)中的进行深度神经网络训练具体包括以下步骤:
(4a)根据预设的训练开始值,如果经验池中样本数量大于训练开始值,按照批大小,从经验池中随机采集一定数量的训练样本,开始训练;否则,不进行训练,执行步骤(5);
(4b)以当前状态st作为原始值神经网络Q_Net的输入值,输出该状态下执行at获得的Q值Q(st,at);以下一状态st+1作为目标值神经网络Q_Nettarget的输入值,输出该状态的下每个行为的Q值Q′(st+1,at+1),选择使Q′(st+1,at+1)最大的行为at+1作为st+1状态的最优行为;训练深度神经网络时采用随机梯度下降法最小化损失函数:
Figure FDA0002739607550000031
得到的参数用来更新原始值神经网络Q_Net的参数θ。
5.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法,其特征在于:所述步骤(5)中的回合结束是指当所有数据包即T个数据包均已发送,则视为一个回合结束。
6.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法,其特征在于:所述步骤(6)具体是指:迭代执行步骤(2)至步骤(5),每次迭代结束,当前训练回合数Mcurrent进行加一,将当前训练回合数Mcurrent与预设的回合上限N进行比较,如果Mcurrent≥N,或者深度神经网络得到收敛,则结束算法迭代,得到满足多约束条件限制并且能耗更低的数据传输策略。
CN202011145525.6A 2020-10-23 2020-10-23 一种基于深度强化学习的数据包传输智能决策方法 Active CN112261725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011145525.6A CN112261725B (zh) 2020-10-23 2020-10-23 一种基于深度强化学习的数据包传输智能决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011145525.6A CN112261725B (zh) 2020-10-23 2020-10-23 一种基于深度强化学习的数据包传输智能决策方法

Publications (2)

Publication Number Publication Date
CN112261725A true CN112261725A (zh) 2021-01-22
CN112261725B CN112261725B (zh) 2022-03-18

Family

ID=74264423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011145525.6A Active CN112261725B (zh) 2020-10-23 2020-10-23 一种基于深度强化学习的数据包传输智能决策方法

Country Status (1)

Country Link
CN (1) CN112261725B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052257A (zh) * 2021-04-13 2021-06-29 中国电子科技集团公司信息科学研究院 一种基于视觉转换器的深度强化学习方法及装置
CN113115355A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种d2d系统中基于深度强化学习的功率分配方法
CN113934966A (zh) * 2021-09-17 2022-01-14 北京理工大学 一种群体感知中利用图卷积强化学习最小化信息年龄方法
CN114362888A (zh) * 2022-01-24 2022-04-15 厦门大学 一种提升无线通信下行链路传输性能的方法
CN115696400A (zh) * 2022-10-26 2023-02-03 重庆邮电大学 一种物理层参数的智能决策方法
CN116192760A (zh) * 2023-01-12 2023-05-30 中国人民解放军军事科学院系统工程研究院 一种空间太赫兹通信网络流量整形方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144244A1 (en) * 2016-11-23 2018-05-24 Vital Images, Inc. Distributed clinical workflow training of deep learning neural networks
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法
CN111182644A (zh) * 2019-12-24 2020-05-19 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
CN111585915A (zh) * 2020-03-30 2020-08-25 西安电子科技大学 长、短流量均衡传输方法、系统、存储介质、云服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144244A1 (en) * 2016-11-23 2018-05-24 Vital Images, Inc. Distributed clinical workflow training of deep learning neural networks
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法
CN111182644A (zh) * 2019-12-24 2020-05-19 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
CN111585915A (zh) * 2020-03-30 2020-08-25 西安电子科技大学 长、短流量均衡传输方法、系统、存储介质、云服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN AO: "Deep Reinforcement Learning Based Spinal Code Transmission Strategy in Long Distance FSO Communication", 《IEEE》 *
李孜恒等: "基于深度强化学习的无线网络资源分配算法", 《通信技术》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052257A (zh) * 2021-04-13 2021-06-29 中国电子科技集团公司信息科学研究院 一种基于视觉转换器的深度强化学习方法及装置
CN113052257B (zh) * 2021-04-13 2024-04-16 中国电子科技集团公司信息科学研究院 一种基于视觉转换器的深度强化学习方法及装置
CN113115355A (zh) * 2021-04-29 2021-07-13 电子科技大学 一种d2d系统中基于深度强化学习的功率分配方法
CN113934966A (zh) * 2021-09-17 2022-01-14 北京理工大学 一种群体感知中利用图卷积强化学习最小化信息年龄方法
CN113934966B (zh) * 2021-09-17 2024-07-26 北京理工大学 一种群体感知中利用图卷积强化学习最小化信息年龄方法
CN114362888A (zh) * 2022-01-24 2022-04-15 厦门大学 一种提升无线通信下行链路传输性能的方法
CN114362888B (zh) * 2022-01-24 2024-01-19 厦门大学 一种提升无线通信下行链路传输性能的方法
CN115696400A (zh) * 2022-10-26 2023-02-03 重庆邮电大学 一种物理层参数的智能决策方法
CN116192760A (zh) * 2023-01-12 2023-05-30 中国人民解放军军事科学院系统工程研究院 一种空间太赫兹通信网络流量整形方法及装置
CN116192760B (zh) * 2023-01-12 2023-08-29 中国人民解放军军事科学院系统工程研究院 一种空间太赫兹通信网络流量整形方法及装置

Also Published As

Publication number Publication date
CN112261725B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN112261725B (zh) 一种基于深度强化学习的数据包传输智能决策方法
CN110958680B (zh) 面向能量效率的无人机群多智能体深度强化学习优化方法
CN112367353B (zh) 基于多智能体强化学习的移动边缘计算卸载方法
CN113254197B (zh) 一种基于深度强化学习的网络资源调度方法及系统
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN111628855B (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN111010294B (zh) 一种基于深度强化学习的电力通信网路由方法
CN110113195B (zh) 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN107690176B (zh) 一种基于q学习算法的网络选择方法
WO2023179010A1 (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN115277689A (zh) 一种基于分布式联邦学习的云边网络通信优化方法及系统
CN114375066B (zh) 一种基于多智能体强化学习的分布式信道竞争方法
CN116050540B (zh) 一种基于联合双维度用户调度的自适应联邦边缘学习方法
CN115374853A (zh) 基于T-Step聚合算法的异步联邦学习方法及系统
CN114390057A (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
CN115499441A (zh) 超密集网络中基于深度强化学习的边缘计算任务卸载方法
CN115396953A (zh) 移动边缘计算中一种基于改进粒子群算法的计算卸载方法
CN114126021B (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN115314399A (zh) 一种基于逆强化学习的数据中心流量调度方法
CN108833227A (zh) 一种基于边缘计算的智能家居通信优化调度系统及方法
CN114154685A (zh) 智能电网中电能数据调度方法
CN113543271A (zh) 一种面向有效容量的资源分配方法及系统
CN117369964A (zh) 边缘计算系统的任务处理方法及相关装置
CN109561129B (zh) 一种基于光纤-无线网络的协同计算卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant