CN112261725A

CN112261725A - 一种基于深度强化学习的数据包传输智能决策方法

Info

Publication number: CN112261725A
Application number: CN202011145525.6A
Authority: CN
Inventors: 葛斌; 李孜恒; 方贤进; 杨高明
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-22
Anticipated expiration: 2040-10-23
Also published as: CN112261725B

Abstract

本发明涉及一种基于深度强化学习的数据包传输智能决策方法，包括：构建深度神经网络模型；设计并初始化状态空间和行为空间；获取数据传输当前状态信息和历史状态信息，输入状态空间；采用经验回放机制保存历史状态信息；对步骤(3)和步骤(4)迭代执行T次，则回合结束；更新目标值神经网络参数θ′，将原始值神经网络的最新参数θ赋予目标值神经网络；迭代执行步骤(2)至(5)，直至迭代次数达到预设的回合上限N或者深度神经网络收敛，则终止并自动得到满足多约束条件限制并且能量消耗更低的数据传输策略。本发明提高了用户服务质量，同时降低数据传输能耗，有效提高了通信网络在高度复杂动态环境下数据传输的智能决策能力。

Description

一种基于深度强化学习的数据包传输智能决策方法

技术领域

本发明涉及无线通信技术领域，尤其是一种基于深度强化学习的数据包传输智能决策方法。

背景技术

随着物联网的发展，移动终端的大规模普及，无线流量激增，数据传输所带来的能耗也在大幅增加。此外，随着绿色网络和智慧网络等新概念的提出，降低能量消耗变得愈发重要。如何在保证用户服务体验的同时，合理制定数据传输策略，实现数据稳定传输以及降低传输能耗，成为了备受关注的话题。

当前背景下的数据传输正变得复杂多样和动态多变，数据传输决策面临着庞大决策空间的考验。同时，考虑到数据包大小和请求数量的不确定性，以及用户对传输时延的强烈需求，传统算法在处理如此复杂动态的数据传输需求时，无法综合考虑诸多限制条件，同时降低传输能耗，较难获得理想的优化效果。

发明内容

本发明的目的在于提供一种能够综合考虑不同大小数据包的到达时间和传输截止时间，同时保证用户服务体验，通过实时性能反馈，动态调整传输策略，实现能量消耗最小化的基于深度强化学习的数据包传输智能决策方法。

为实现上述目的，本发明采用了以下技术方案：一种基于深度强化学习的数据包传输智能决策方法，该方法包括下列顺序的步骤：

(1)构建深度神经网络模型，该模型包含用于计算行为价值函数的原始值神经网络，以及基于行为价值函数的计算结果进行行为选择的目标值神经网络；

(2)设计并初始化状态空间和行为空间；

(3)获取数据传输当前状态信息和历史状态信息，输入状态空间，对数据包的传输次序和发送功率进行优化和分配；

(4)采用经验回放机制保存历史状态信息，并随机采集训练样本进行深度神经网络训练；

(5)根据数据包总数T，对步骤(3)和步骤(4)迭代执行T次，则回合结束；更新目标值神经网络参数θ′，将原始值神经网络的最新参数θ赋予目标值神经网络；

(6)迭代执行步骤(2)至(5)，直至迭代次数达到预设的回合上限N或者深度神经网络收敛，则终止并自动得到满足多约束条件限制并且能量消耗更低的数据传输策略。

所述步骤(2)具体是指：根据数据包大小B、发送功率P_i、传输截止时间DL和数据包到达时间AT建立状态信息，

选取当前状态信息和三组历史状态信息构成状态空间，行为空间由发送功率P_i构成；状态空间初始化时，首先初始化当前状态信息，分别将初始化后的当前状态信息赋值给另外三组历史状态信息，共同构成初始状态空间；行为空间初始化时，将所有发送功率离散化处理，得到行为空间A＝{P₁,P₂,P₃,...,P_i}。

所述步骤(3)中对数据包的发送功率分配过程包括以下步骤：

(3a)对所有数据包初始状态信息进行预处理，基于先入先出数据流，按照数据包到达时间升序排列；

(3b)输入状态空间s_t，按照ε-贪婪策略，即随机生成0至1的常数与贪婪指数ε进行比较；如果该常数小于或者等于贪婪指数ε，随机选择行为a_t；否则，在所有可选行为中，选择使状态s_t的行为价值最大的行为a_t；

(3c)执行行为a_t，并对贪婪指数ε进行线性衰减；将贪婪指数ε乘以衰减因子μ，得到最新的贪婪指数ε；

(3d)检查所选数据包是否已经到达，如果是，第一即时奖励值r₁＞0；否则，第一即时奖励值r₁＜0；

(3e)根据行为a_t，得到当前数据包的发送功率

根据公式

计算得到数据包传输速率λ(t)，默认信道增益h(t)为1；

(3f)根据公式

计算得到当前数据包传输时间τ(t)，其中B(t)为数据包的大小；

(3g)检查数据包总传输时间是否超出剩余未发送数据包的截止时间，如果不超出，第二即时奖励值r₂＞0；如果超出，第二即时奖励值r₂＜0；

(3h)计算能量消耗

第三即时奖励值

η为影响因子；

(3i)根据公式

对第一、二、三即时奖励值r₁,r₂,r₃进行归一化处理，计算归一化结果之和，得到奖励值r_t+1；

(3j)将当前状态s_t的前三组状态信息置于下一状态s_t+1的第一组状态信息之后，组成一个新的状态空间s_t+1，以(s_t,a_t,r_t+1,s_t+1)组成四元组并存入经验池中作为训练样本；

(3k)令s_t＝s_t+1。

所述步骤(4)中的进行深度神经网络训练具体包括以下步骤：

(4a)根据预设的训练开始值，如果经验池中样本数量大于训练开始值，按照批大小，从经验池中随机采集一定数量的训练样本，开始训练；否则，不进行训练，执行步骤(5)；

(4b)以当前状态s_t作为原始值神经网络Q_Net的输入值，输出该状态下执行a_t获得的Q值Q(s_t,a_t)；以下一状态s_t+1作为目标值神经网络Q_Net_target的输入值，输出该状态的下每个行为的Q值Q′(s_t+1,a_t+1)，选择使Q′(s_t+1,a_t+1)最大的行为a_t+1作为s_t+1状态的最优行为；训练深度神经网络时采用随机梯度下降法最小化损失函数：

得到的参数用来更新原始值神经网络Q_Net的参数θ。

所述步骤(5)中的回合结束是指当所有数据包即T个数据包均已发送，则视为一个回合结束。

所述步骤(6)具体是指：迭代执行步骤(2)至步骤(5)，每次迭代结束，当前训练回合数M_current进行加一，将当前训练回合数M_current与预设的回合上限N进行比较，如果M_current≥N，或者深度神经网络得到收敛，则结束算法迭代，得到满足多约束条件限制并且能耗更低的数据传输策略。

由上述技术方案可知，本发明的有益效果为：第一，本发明对基站的数据传输策略进行动态自适应优化，有效解决了传统算法面对大规模决策空间时优化效果差、决策灵活性低的问题；第二，本发明能够保证数据的稳定传输，并在有限时间内满足用户请求，提高了用户服务质量，同时降低数据传输能耗，有效提高了通信网络在高度复杂动态环境下数据传输的智能决策能力。

附图说明

图1为本发明的算法结构示意图；

图2为本发明的方法流程图；

图3为本发明在执行过程中，每回合的平均奖励值变化图；

图4为本发明在执行过程中，每回合的数据传输能量消耗变化图；

图5为本发明在执行过程中，深度神经网络loss值变化图；

图6为本发明的算法性能对比图。

具体实施方式

如图2所示，一种基于深度强化学习的数据包传输智能决策方法，该方法包括下列顺序的步骤：

(2)设计并初始化状态空间和行为空间；

所述步骤(3)中对数据包的发送功率分配过程包括以下步骤：

(3e)根据行为a_t，得到当前数据包的发送功率

根据公式

计算得到数据包传输速率λ(t)，默认信道增益h(t)为1；

(3f)根据公式

(3h)计算能量消耗

第三即时奖励值

η为影响因子；

(3i)根据公式

(3k)令s_t＝s_t+1。

所述步骤(4)中的进行深度神经网络训练具体包括以下步骤：

得到的参数用来更新原始值神经网络Q_Net的参数θ。

如图1所示，智能体向原始值网络输入当前状态，即可得到最优行为，该行能够获得最大的状态行为价值。通过将每次执行行为获得的(s_t,a_t,r_t+1,s_t+1)四元组信息存入经验池作为训练样本，分别将s_t和s_t+1输入原始值和目标值网络，根据损失函数训练原始值网络，得到最新的参数θ，每回合结束将最新的参数θ赋予目标值网络。

如图3所示，由于本算法采用线性衰减的ε，在前期ε较大的情况下，算法更倾向于探索未知状态，无法得到满足到达时间和发送截止时间限制的最优发送功率，平均奖励值不能稳定增长。随着回合数的增加，算法更多的采取满足条件限制的最优发送功率，平均奖励值逐渐增大并最终收敛至最优值。

如图4所示，由于算法前期ε较大，算法更倾向于探索未知状态，所执行的发送功率并非最优发送功率，能量消耗虽然大幅下降，但并不满足到达时间和发送截止时间限制。随着回合数的增加，算法更多的采取满足条件限制的最优发送功率，数据传输能量消耗相对初始状态得到大幅降低，并且算法逐渐收敛，能量消耗不再大幅震荡。

如图5所示，由于算法前期更倾向于探索未知状态，因此算法无法收敛，loss值持续增加。随着ε持续线性衰减，深度神经网络取得更好的拟合效果，loss值逐渐下降最终收敛至最小值。

如图6所示，随着数据包数量的增加，本专利的能量消耗明显低于传统的即到即传算法和加权分配算法，能够满足复杂动态环境下的数据传输要求。

综上所述，本发明对基站的数据传输策略进行动态自适应优化，有效解决了传统算法面对大规模决策空间时优化效果差、决策灵活性低的问题；本发明能够保证数据的稳定传输，并在有限时间内满足用户请求，提高了用户服务质量，同时降低数据传输能耗，有效提高了通信网络在高度复杂动态环境下数据传输的智能决策能力。

Claims

1.一种基于深度强化学习的数据包传输智能决策方法，其特征在于：该方法包括下列顺序的步骤：

(2)设计并初始化状态空间和行为空间；

2.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法，其特征在于：所述步骤(2)具体是指：根据数据包大小B、发送功率P_i、传输截止时间DL和数据包到达时间AT建立状态信息，

3.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法，其特征在于：所述步骤(3)中对数据包的发送功率分配过程包括以下步骤：

(3e)根据行为a_t，得到当前数据包的发送功率

根据公式

计算得到数据包传输速率λ(t)，默认信道增益h(t)为1；

(3f)根据公式

(3h)计算能量消耗

第三即时奖励值

η为影响因子；

(3i)根据公式

(3k)令s_t＝s_t+1。

4.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法，其特征在于：所述步骤(4)中的进行深度神经网络训练具体包括以下步骤：

得到的参数用来更新原始值神经网络Q_Net的参数θ。

5.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法，其特征在于：所述步骤(5)中的回合结束是指当所有数据包即T个数据包均已发送，则视为一个回合结束。

6.根据权利要求1所述的基于深度强化学习的数据包传输智能决策方法，其特征在于：所述步骤(6)具体是指：迭代执行步骤(2)至步骤(5)，每次迭代结束，当前训练回合数M_current进行加一，将当前训练回合数M_current与预设的回合上限N进行比较，如果M_current≥N，或者深度神经网络得到收敛，则结束算法迭代，得到满足多约束条件限制并且能耗更低的数据传输策略。