CN113438315A

CN113438315A - 基于双网络深度强化学习的物联网信息新鲜度优化方法

Info

Publication number: CN113438315A
Application number: CN202110753368.5A
Authority: CN
Inventors: 王玺钧; 林文锐; 陈翔; 孙兴华; 詹文
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-09-24
Anticipated expiration: 2041-07-02
Also published as: CN113438315B

Abstract

本发明公开了基于双网络深度强化学习的物联网信息新鲜度优化方法，该方法包括：传感器将运行规定的经历数，在每段经历的每个时步中都会根据策略选择动作并执行，观察奖励和状态，并保存至经验回放池中；之后模型从经验回放池取出一批经验，使用平均代价形式的目标值计算公式计算损失函数并更新当前网络参数，每隔一定时步数更新目标网络参数；循环执行上述步骤直至该段经历结束。该方法能够帮助传感器在每一时步中做出最优决策，从而最小化平均信息变化年龄和能量消耗的加权和，达到在最小化系统平均信息变化年龄的同时最大化设备使用寿命的目的。本发明作为基于双网络深度强化学习的物联网信息新鲜度优化方法，可应用于深度强化学习领域。

Description

基于双网络深度强化学习的物联网信息新鲜度优化方法

技术领域

本发明涉及深度强化学习领域，尤其涉及基于双网络深度强化学习的物联网信息新鲜度优化方法。

背景技术

随着物联网系统应用场景的深化、车联网等设施的落地，物联网系统的实时性性能越来越重要。另一方面，目前现有的实时性指标大部分只考虑信息在时间维度上的变化，缺乏对信息在内容维度上的变化的考虑，而信息变化年龄便同时度量信息在时间和内容维度上的变化。由于信息变化年龄是随时间变化的随机过程，往往用其平均值作为性能指标。类似于平均信息变化年龄以及平均能量消耗，这类优化平均值问题统称为平均代价问题。目前常见的强化学习优化算法大部分是折扣形式的强化学习算法，折扣形式的强化学习算法并不能直接应用于平均代价问题的优化中，而传统的适用于平均代价问题的强化学习算法面临维度灾难的问题，存在巨大的局限性。

发明内容

为了解决上述技术问题，本发明的目的是提供基于双网络深度强化学习的物联网信息新鲜度优化方法，最小化物联网系统的平均信息变化年龄的同时最大化物联网设备的使用寿命，并克服环境信息不可知的问题。

本发明所采用的技术方案是：基于双网络深度强化学习的物联网信息新鲜度优化方法，包括以下步骤：

S1、将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程，将优化目标设置为最小化信息变化年龄和能量消耗的加权和，在传感器内设置强化学习模型以及相关参数；

S2、初始化初始状态s₀；

S3、传感器中的强化学习模型观察当前系统的状态s_t，使用∈-greedy策略和当前网络Q(s,a；w)选择动作a_t；

S4、传感器执行动作a_t，观察系统中状态的变化，收集相关的代价信息r_j+1以及动作执行后的系统状态s_t+1；

S5、传感器将当前的经验信息{s_t,a_t,r_t+1,s_t+1}存储到经验回放池中；

S6、传感器从经验回放池中随机取出一批经验信息{s_j,a_j,r_j+1,s_j+1}，计算这批经验信息的目标值y_j和对应的损失函数(y_j-Q(s_j,a_j；w))²并利用梯度下降法优化当前网络的参数w；

S7、每隔固定的时间间隔O更新一次目标网络Q(s,a；w^-)的参数，更新方式为将目标网络参数同步为当前网络的参数，即w^-＝w；

S8、判断当前时步是否达到最大值，若是跳转S9，否则跳转S3；

S9、判断当前经历数是否等于最大经历数，若是则跳转S10，否则跳转S2；

S10、对模型的训练已完成，将传感器部署到实际应用场景中，并将传感器选择动作的策略改为贪心策略；

S11、在传感器的实际运行过程中，统计系统模型的平均代价、平均信息变化年龄和平均能量消耗，得到物联网通信系统的信息新鲜度指标数据。

进一步，所述将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程，组成元素为(S,A,R)，分别为：

状态，用S表示状态空间，用s_t＝(Δ_t,δ_t,μ_t)表示第t时隙的状态，其中Δ_t表示信息变化年龄，δ_t表示信息年龄，μ_t表示存储在接收端缓存区的数据包X′_t里关于源端的状态信息；

动作，用A表示动作空间集合，A为离散空间，用a_t表示第t时隙的动作且a_t∈{0,1}，其中0代表不发送动作，1代表采样并发送动作；

代价，用R表示代价信息，用r_t+1表示在第t时隙时在状态s_t下采取动作a_t产生的代价，定义r_t+1＝Δ_t+ωa_tC_u，其中C_u是采样传输的能量消耗，ω是权重因子，可通过ω动态调节能量消耗的占比。

进一步，所述将优化目标设置为最小化平均信息变化年龄和能量消耗的加权和，即：

上式中，Δ_t是系统在t时隙时的信息变化年龄，s₀是该经历的初始状态。该指标综合考虑了系统中的平均能量消耗以及信息变化年龄，优化该指标的同时就能达到最小化系统信息年龄和延长设备寿命的目标。

进一步，所述损失函数(y_j-Q(s_j,a_j；w))²，目标值为：

其中

为参考状态，

为目标网络Q(s,a；w^-)在输入状态为s_j+1时所能获得的最小状态动作值。

进一步，当前网络Q(s,a；w)与目标网络Q(s,a；w^-)的结构一致。

进一步，所述系统中状态的变化包括信息变化年龄更新和信息年龄更新。

进一步，所述信息变化年龄更新的更新公式为：

其中h_t表示发送端在第t时隙时发送的数据包是否被成功接收，1代表传输成功，0代表传输失败；D_t表示在t时刻新到来的数据包X_t和接收端原有的数据包X′_t的比较结果，1代表不一致，0代表一致，比较操作只有在接收端成功接收新数据包X_t时才会进行。

进一步，所述信息年龄更新的更新公式为：

δ_t＝t-U(X_t),

其中，t代表是第t时隙，X_t代表第t时隙接收端成功接收到的最新数据包，U(X)代表数据包X的时间戳。

进一步，所述贪心策略即每次选择动作时都选择代价最低的动作。

本发明方法及系统的有益效果是：本发明综合考虑了系统中的平均信息变化年龄以及能量消耗，将优化目标设置为最小化平均信息变化年龄以及能量消耗的加权和，目的是为了在最小化物联网点对点通信模型系统的平均信息变化年龄的同时，最大化系统所使用的物联网设备的使用寿命。

附图说明

图1是本发明基于双网络深度强化学习的物联网信息新鲜度优化方法的步骤流程图；

图2是本发明具体实施例中使用的物联网点对点通信系统模型图；

图3是本发明具体实施例应用的算法结构图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图2所示，本发明适用于点对点通信系统模型的传输优化场景，本实施例中的通信网络场景具有的特点包括：这是一个时隙系统模型；传感器内部部署有强化学习模型，具备随时对源端信息采样传输的功能；无线信道不是完美信道，传输可能失败；对于传感器来说，信道状态信息以及源端状态信息均未知，意味着传感器在采样传输之前都不知道当前源端以及信道的状态信息；采样传输需要消耗1个时隙的时间和固定的能量；传感器在完成采样传输行为之后，接收端会根据传输结果在时隙末尾返回1个1bit的ACK/NACK信号，该信号会立即到达传感器且不会出错，传感器依据上述反馈的信号来判断本次传输是否成功。本发明将优化目标设置为信息变化年龄以及能量消耗的加权和，该指标综合考虑了系统中的平均能量消耗以及信息变化年龄，优化该指标的同时就能达到最小化系统信息年龄和延长设备寿命的目标，达到帕累托最优。

参照图1和图3，本发明提供了基于双网络深度强化学习的物联网信息新鲜度优化方法，该方法包括以下步骤：

S1、将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程，将优化目标设为最小化信息变化年龄和能量消耗的加权和，在传感器内设置强化学习模型以及相关参数；

具体地，对于传感器来说，源端的状态信息以及信道的状态信息都是未知的；强化学习模型的输入层与输出层有严格的规定，输入层结构与系统状态一致，输出维数与动作空间数量一致，模型中间的隐藏层无特殊要求，可根据具体问题灵活设置；

具体地，优化目标设置为最小化平均信息年龄和能量消耗的加权和，即：

其中Δ_t是系统在t时隙时的信息变化年龄，s₀是经历的初始状态，C_u是采样传输的能量消耗，ω是权重因子，可通过ω动态调节能量消耗的占比。该指标综合考虑了系统中的平均能量消耗以及信息变化年龄，因此优化该指标的同时就能达到最小化系统信息年龄和延长设备寿命的目标。

具体地，将所述物联网点对点通信系统模型建模为平均代价马尔科夫决策过程，组成元素为(S,A,R)，分别为：

代价，用R表示代价信息，用r_t+1表示在第t时隙时在状态s_t下采取动作a_t产生的代价，定义r_t+1＝Δ_t+ωa_tC_u，C_u是采样传输的能量消耗，ω是权重因子，可通过ω动态调节能量消耗的占比。

具体地，初始化工作包括设置最大经历数、每段经历的最大时步数，随后初始化强化学习模型的各类参数，包括：经验回放池RM，学习率η，更新步长O，当前网络Q(s,a；w)以及该网络的参数w，目标网络Q(s,a；w^-)以及该网络的参数w^-，其中当前网络Q(s,a；w)与目标网络Q(s,a；w^-)的结构一致，并且令w^-＝w；探索概率∈的初始值、最小值以及每个时步中∈的下降幅度。在实际中，探索概率∈可设为固定值，也可设为随时步变化而变化的值。在本算法中，在初始时将∈设置为较大的值，每个时步下降一定数值，直至达到最小值，以达到让强化学习模型在训练前期多进行随机选择操作，后期更多地选择最优动作的目的，从而提高算法的训练效率。

S2、初始化初始状态s₀；

具体地，在每一段经历开始时系统都会将系统状态重置为初始状态，并重置时步数。

具体地，∈-greedy策略的规则为以概率∈从动作集合中随机选择动作，以概率1-∈选择当前状态的最优动作，其中最优动作是强化学习模型利用当前网络Q(s,a；w)以及状态信息计算得到，也即：

其中Pr(a_t|s_t)是指在状态s_t中采取动作a_t的概率，

代表当前网络Q(s,a；w)在输入状态为s_t时计算得到的状态动作值最小的动作。

具体地，系统中状态的变化包括信息变化年龄更新和信息年龄更新。

具体地，信息变化年龄更新的更新公式为：

具体地，信息年龄更新的更新公式为：

δ_t＝t-U(X_t),

其中，t代表是第t时隙，X_t代表第t时隙接收端成功接收到的最新数据包，U(X)代表数据包X的产生时间戳。

具体地，为了减少经验数据间的相关性并增加数据的利用率，本算法引入了经验回放池机制，经验回放池中存储经验信息，每一段经验信息的结构为{s_j,a_j,r_j+1,s_j+1}。同时，强化学习模型每次从经验回放池中选取经验的数量不做特殊要求，一般设置为2的若干次方，如32、64、128、256等等。

具体地，经验回放池有容量限制，当回放池已满，新的经验将覆盖最早进入回放池的经验。

具体地，损失函数为(y_j-Q(s_j,a_j；w))²，其中目标值y_j为：

其中

为参考状态，

S7、每隔固定的时间间隔O更新一次目标网络Q(s,a；w^-)的参数；

具体地，更新方式为将目标网络参数同步为当前网络的参数，即w^-＝w；

具体地，贪心策略即每次选择动作时都选择由神经网络计算得到的状态动作值最低的动作，即

其中

代表传感器在输入状态为s_t时利用当前网络Q(s,a；w)计算得到的状态动作值最小的动作。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于双网络深度强化学习的物联网信息新鲜度优化方法，其特征在于，包括以下步骤：

S2、初始化初始状态s₀；

S3、传感器中的强化学习模型观察当前系统的状态s_t，使用∈-greedy策略和当前网络Q(s，a；w)选择动作a_t；

S5、传感器将当前的经验信息{s_t，a_t，r_t+1，s_t+1}存储到经验回放池中；

S6、传感器从经验回放池中随机取出一批经验信息{s_j，a_j，r_j+1，s_j+1}，计算这批经验信息的目标值y_j和对应的损失函数(y_j-Q(s_j，a_j；w))²并利用梯度下降法优化当前网络的参数w；

S7、每隔固定的时间间隔O更新一次目标网络Q(s，a；w^-)的参数，更新方式为将目标网络参数同步为当前网络的参数，即w^-＝w；

2.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法，其特征在于，所述将物联网点对点通信系统模型建模为平均代价马尔科夫决策过程，组成元素为(S，A，R)，分别为：

状态，用S表示状态空间，用s_t＝(Δ_t，δ_t，μ_t)表示第t时隙的状态，其中△_t表示信息变化年龄，δ_t表示信息年龄，μ_t表示存储在接收端缓存区的数据包X′_t里关于源端的状态信息；

动作，用A表示动作空间集合，A为离散空间，用a_t表示第t时隙的动作且a_t∈{0，1}，其中0代表不发送动作，1代表采样并发送动作；

代价，用R表示代价信息，用r_t+1表示在第t时隙时在状态s_t下采取动作a_t产生的代价，定义r_t+1＝△_t+ωa_tC_u，其中C_u是采样传输的能量消耗，ω是权重因子，可通过ω动态调节能量消耗的占比。

3.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法，其特征在于，所述将优化目标设置为最小化平均信息变化年龄和能量消耗的加权和，即：

上式中，△_t是系统在t时隙时的信息变化年龄，s₀是经历的初始状态。

4.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法，其特征在于，所述损失函数为(y_j-Q(s_j，a_j；w))²，其中目标值y_j为：

上式中，

为参考状态，

为目标网络Q(s，a；w^-)在输入状态为s_j+1时所能获得的最小状态动作值。

5.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法，其特征在于，当前网络Q(s，a；w)与目标网络Q(s，a；w^-)的结构一致。

6.根据权利要求1所述基于双网络深度强化学习的物联网信息新鲜度优化方法，其特征在于，所述系统中状态的变化包括信息变化年龄更新和信息年龄更新。

7.根据权利要求6所述基于双网络深度强化学习的物联网信息新鲜度优化方法，其特征在于，所述信息变化年龄更新的更新公式为：

上式中，h_t表示发送端在第t时隙时发送的数据包是否被成功接收，1代表传输成功，0代表传输失败；D_t表示在t时刻新到来的数据包X_t和接收端原有的数据包X′_t的比较结果，1代表不一致，0代表一致，比较操作只有在接收端成功接收新数据包X_t时才会进行。

8.根据权利要求6所述基于双网络深度强化学习的物联网信息新鲜度优化方法，其特征在于，所述信息年龄更新的更新公式为：

δ_t＝t-U(X_t)，

上式中，t代表是第t时隙，X_t代表第t时隙接收端成功接收到的最新数据包，U(X)代表数据包X产生时的时间戳。