CN113891276B - 基于信息年龄的混合更新工业无线传感器网络调度方法 - Google Patents

基于信息年龄的混合更新工业无线传感器网络调度方法 Download PDF

Info

Publication number
CN113891276B
CN113891276B CN202111248407.2A CN202111248407A CN113891276B CN 113891276 B CN113891276 B CN 113891276B CN 202111248407 A CN202111248407 A CN 202111248407A CN 113891276 B CN113891276 B CN 113891276B
Authority
CN
China
Prior art keywords
network
information age
source node
data packet
throughput
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111248407.2A
Other languages
English (en)
Other versions
CN113891276A (zh
Inventor
王恒
余蕾
谢鑫
王平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111248407.2A priority Critical patent/CN113891276B/zh
Publication of CN113891276A publication Critical patent/CN113891276A/zh
Application granted granted Critical
Publication of CN113891276B publication Critical patent/CN113891276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/535Allocation or scheduling criteria for wireless resources based on resource usage policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于信息年龄的混合更新工业无线传感器网络调度方法,属于工业无线传感器网络技术领域。该方法针对周期数据和非周期数据两种数据更新方式混合并存的工业无线传感器网络,对网络中数据平均信息年龄进行优化,同时考虑吞吐量因素,通过逐时隙的调度方式对最小化信息年龄和吞吐量加权和的链路调度问题进行联合优化,并将该优化问题表述为有限状态马尔可夫决策过程,利用深度Q网络对状态价值函数进行近似表示,采用深度强化学习的方式获得链路调度方法。本发明通过所发明的联合优化方法,降低了系统状态空间的维度,提高了数据交付的及时性和网络的吞吐量。

Description

基于信息年龄的混合更新工业无线传感器网络调度方法
技术领域
本发明属于工业无线传感器网络技术领域,涉及一种基于信息年龄的混合更新工业无线传感器网络调度方法。
背景技术
随着工业无线传感器网络的快速发展,在大量实时业务场景中得到了广泛应用,例如汽车制造和电子产品制造等。为保证安全高效的生产和及时正确的决策,工业无线传感器网络需要满足更加严格的数据交付及时性要求。为了更加全面地衡量这种及时性,信息年龄(Age of information,AoI)被提出用于度量信息新鲜度,它综合考虑了数据的生成时间和传输延迟,从目的地的角度对网络交付数据的新鲜度进行了衡量。
在工业无线传感器网络中,非周期性和周期性混合产生的各类数据需要实时地更新至控制中心。其中,非周期性数据一般是基于事件的数据流,例如警报数据,具有不可预测性,而周期性数据一般是感知数据流,例如传感数据。这两类数据都需要及时交付至控制中心用以对整个工业生产过程进行实时监控或决策,因此在这两类数据更新方式混合并存的条件下发明AoI优化链路调度方法对保障工业无线传感器网络及时性具有重要的意义。除了AoI以外,吞吐量也是衡量网络性能的重要指标。但高吞吐量并不意味着低AoI。当网络频繁地交付陈旧的数据时,尽管此时吞吐量较高,但由于数据的陈旧,会造成AoI降低。因此,面向混合更新场景如何并行优化信息年龄和吞吐量,使网络能够在提升数据传输及时性的同时还能保持较高的吞吐量,成为了一个重要的挑战。
发明内容
有鉴于此,本发明的目的在于提供一种基于信息年龄的混合更新工业无线传感器网络调度方法,同时考虑了网络中数据混合更新的特性与吞吐量对信息年龄优化的影响,将最小化信息年龄和吞吐量加权和的多目标问题表述为马尔科夫决策过程,并基于深度强化学习对该问题进行求解,获得了对应的链路调度方法,有效的优化了网络交付数据的及时性,降低了系统平均信息年龄,提高了系统吞吐量。
为达到上述目的,本发明提供如下技术方案:
一种基于信息年龄的混合更新工业无线传感器网络调度方法,针对工业场景中数据更新呈现非周期/周期混合的特点,同时考虑到吞吐量因素,在多源节点向目标节点发送数据包的网络模型中,通过调度网络学习最优调度策略,以逐时隙的方式进行链路调度,最小化信息年龄和吞吐量的加权和;
该方法具体包括以下步骤:
S1:获取工业无线传感器网络的参数信息,建立系统信息年龄更新模型,构造调度网络,所述调度网络包括两个结构相同但网络参数不同的当前值网络和目标值网络;并初始化该网络参数;
S2:构建最小化信息年龄和吞吐量加权和的多目标优化问题,根据获取的各源节点的信息年龄、缓存信息与吞吐量相关的随机变量建立系统的状态空间、决策空间和奖励函数;
S3:在每个时隙更新目标节点的信息年龄,利用当前状态和决策输入至当前值网络获取经验集合并存储至回放记忆单元,从回放记忆单元中随机抽取一批经验集合计算梯度损失,利用梯度下降法更新当前值网络参数;
S4:在损失函数趋于稳定时,生成目标值网络学习后的网络参数,得到面向混合更新场景的链路调度方法。
进一步,步骤S1中,获取工业无线传感器网络的参数信息,建立系统信息年龄更新模型,具体包括以下步骤:
S11:设由M个源节点构成的集合Φ和一个目标节点组成的工业无线传感器网络,其中集合
Figure BDA0003321879540000021
的源节点采集工业现场中的人工触发信号或者报警信号,集合/>
Figure BDA0003321879540000022
的源节点定期收集传感数据和正常控制消息。源节点m∈φ1在采集数据包时,则表示被采集的非周期数据包更新过程服从/>
Figure BDA0003321879540000023
的伯努利分布;若m∈φ2,则令正整数/>
Figure BDA0003321879540000024
为周期数据包的更新周期。系统逐时隙的调度数据包,令k∈{1,2,…,K}表示时隙的索引。源节点在收集了生产过程中的数据包后,将尚未交付的数据包缓存在各自的先入先出队列中;如果队列空间满载,则将队列头数据包丢弃,把新的数据包缓存至队列尾部。
S12:根据步骤S11中各源节点数据包更新特性计算信息年龄。
进一步,步骤S12具体包括:定义信息年龄am(k)为数据包自生成以来到最后一次交付到目标节点后所经过的时间,其更新表达式如下:
Figure BDA0003321879540000025
其中,
Figure BDA0003321879540000026
表示源节点m队列头部数据包的信息年龄,h为队列头部数据包标识;k表示第k个时隙;
对于源节点m∈φ1,令
Figure BDA0003321879540000031
表示源节点在时隙k采集到新数据,否则/>
Figure BDA0003321879540000032
表示源节点在时隙k未采集到新数据;定义/>
Figure BDA0003321879540000033
为队列缓存数据包的个数,其中
Figure BDA0003321879540000034
Figure BDA0003321879540000035
表示非周期源节点队列缓存数据包的最大容量;若队列头部数据包的后继数据包信息年龄为/>
Figure BDA0003321879540000036
其中n为后继数据包标识;则/>
Figure BDA0003321879540000037
的迭代过程为:
Figure BDA0003321879540000038
对于源节点m∈φ2,当时
Figure BDA0003321879540000039
表示源节点在当前时隙周期的采集了新数据包。假设队列缓存了/>
Figure BDA00033218795400000310
个数据包,其中/>
Figure BDA00033218795400000311
Figure BDA00033218795400000312
表示周期源节点队列缓存数据包的最大容量;若源节点队列头部数据包的后继数据包AoI为/>
Figure BDA00033218795400000313
则/>
Figure BDA00033218795400000314
更新过程为:
Figure BDA00033218795400000315
进一步,步骤S2中,构建最小化信息年龄和吞吐量加权和的多目标优化问题,具体包括以下步骤:
S201:定义随机变量τ(k)=1表示源节点在时隙k成功交付数据包至目标节点,若交付失败τ(k)=0;则目标节点的长期平均吞吐量为:
Figure BDA00033218795400000316
其中,K表示调度结束的时隙,Ε[·]表示随机变量τ(k)的期望;
S202:建立权衡了信息年龄和吞吐量的优化目标;网络中期望得到较小的平均信息年龄和较大的吞吐量,定义β为信息年龄和吞吐量之间的权重参数,则目标节点处的长期平均信息年龄和吞吐量加权和W为:
Figure BDA00033218795400000317
进一步,步骤S2中,建立系统的状态空间、决策空间和奖励函数,具体包括以下步骤:
S211:基于步骤S11、S12建立系统的状态空间。其包含了目标节点处在时隙k时各个源节点数据包的信息年龄集合a(k),其中a(k)={a1(k),a2(k),…,am(k)}。同时还需包含全部源节点的缓存信息集合z(k),定义zm(k)表示源节点m在时隙k的缓存信息,则z(k)={z1(k),z2(k),…,zm(k)}。最后系统状态还应包含与吞吐量相关的随机变量τ(k)。因此,建立系统的状态空间为:
s(k)=(a(k),z(k),τ(k))
其中,a(k)表示目标节点处在时隙k时各个源节点数据包的信息年龄集合,z(k)表示全部源节点的缓存信息集合;
S212:系统的决策空间包括了链路调度的决策以及网络空闲时;则系统的决策空间为:
d(k)={0,1,…,M}
其中,0表示系统处于空闲状态,1至M表示源节点的索引。
S213:为最小化系统的信息年龄与吞吐量加权和,基于步骤S202,选择链路调度决策后目标节点处的W作为奖励函数c(k),则:
Figure BDA0003321879540000041
进一步,步骤S3中,基于步骤S1的当前值网络,将当前系统状态和决策输入至网络中计算决策执行后对应状态-决策对的V值;再通过步骤S212~S213,将得到的当前状态s(k)、决策d(k)、奖励c(k)以及下一状态s(k+1)组成的经验集合(s(k),d(k),c(k),s(k+1))存储至回放记忆单元,调度网络通过经验集合进行学习,具体包括以下步骤:当前值网络和目标值网络在学习最优调度策略的过程中不断更新自身参数向量,设ωk表示当前值网络的参数向量;
S31:随机从回放记忆单元中选取一批经验集合,则经验集合的当前值y(k)为:
y(k)=c(k)+γminV(s(k+1),d;ωk)
其中,V表示当前值网络输出的值函数,γ表示值函数的折扣因子;
S32:根据当前值y(k)以及目标值网络返回的目标值V′得到损失函数L(ωk)为:
L(ωk)=(y(k)-V′(s(k),d′(k)|ωk′))2
其中,V′表示目标值网络输出的值函数,d′(k)表示下一状态的决策,ωk′表示目标值网络的网络参数向量;
S33:基于步骤S32的损失函数,计算得到梯度损失函数
Figure BDA0003321879540000051
为:
Figure BDA0003321879540000052
其中,
Figure BDA0003321879540000053
表示当前值网络的梯度向量;
S34:当前值网络根据步骤S33的梯度损失函数更新参数向量ωk,每迭代100步将当前值网络参数向量ωk复制至目标值网络参数向量ωk′。
在系统的损失函数收敛过程中,生成目标值网络学习后的网络模型参数ωk′,得到混合更新条件下基于信息年龄的调度网络。在每一时隙开始,将当前状态输入训练后的调度网络模型中,网络根据学习的决策经验进行链路调度。
再进一步,在系统的损失函数不断的收敛过程中,重复将当前系统状态和决策输入至当前值网络进行学习。在系统的损失函数收敛至稳定时,生成目标值网络学习后的网络模型参数ωk′,得到混合更新条件下基于信息年龄的调度网络,在每一时隙开始时将当前状态输入训练后的网络模型中,网络根据自己的学习经验进行链路调度。
本发明的有益效果在于:
(1)本发明所提供基于信息年龄的链路调度方法应用于周期数据和非周期数据两种数据更新方式混合并存的工业无线传感器网络,降低了网络中的平均信息年龄,提高了系统的吞吐量,满足了工业现场对数据交付及时性的要求。
(2)本发明提出基于信息年龄的链路调度方法,在最小化信息年龄与吞吐量加权和的过程中,避免了该多目标优化问题传统最优求解方法会面临维数灾难的情况,在学习最优调度策略的同时,有效的降低了状态空间的复杂度,使得该调度方法能够应对大规模工业设备部署环境。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作详细描述,其中:
图1为本发明所提供周期数据和非周期数据两种数据更新方式混合并存的工业无线传感器网络示意图;
图2为本发明基于深度强化学习的最小化信息年龄与吞吐量加权和训练示意图;
图3为本发明基于信息年龄的混合更新工业无线传感器网络调度方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,本发明针对周期数据和非周期数据两种数据更新方式混合并存的工业无线传感器网络,对网络中数据平均信息年龄进行优化,同时考虑吞吐量因素,通过逐时隙的调度方式对最小化信息年龄和吞吐量加权和的链路调度问题进行联合优化,并将该优化问题表述为有限状态马尔可夫决策过程,利用深度Q网络对状态价值函数进行近似表示,采用深度强化学习的方式获得链路调度方法。
图1为周期数据和非周期数据两种数据更新方式混合并存的工业无线传感器网络示意图,如图1所示,多个源节点需要向目标节点交付时间敏感的数据包,在每个时隙开始时,目标节点在源节点的队列头部调度数据包。若队列为空,则网络处于空闲状态。由于信道噪声的存在,源节点m的传输成功率为qm∈(0,1]。当数据包成功交付时,目标节点会回复一个ACK,源节点m的缓存会将已成功发送的数据包进行丢弃;如果交付失败,目标节点就会请求重传。根据时隙网络的数据包更新特性,可建立信息年龄的更新公式:
Figure BDA0003321879540000061
其中,
Figure BDA0003321879540000062
表示源节点m队列头部数据包的信息年龄。
源节点m为非周期性更新时,令
Figure BDA0003321879540000063
表示源节点在时隙k采集到新数据,否则/>
Figure BDA0003321879540000064
定义/>
Figure BDA0003321879540000065
为队列缓存数据包的个数,其中/>
Figure BDA0003321879540000066
若队列头部数据包的后继数据包信息年龄为/>
Figure BDA0003321879540000067
则/>
Figure BDA0003321879540000068
的迭代过程为:/>
Figure BDA0003321879540000069
源节点m为周期性更新时,当
Figure BDA0003321879540000071
表示源节点在当前时隙周期的采集了新数据包。假设队列缓存了/>
Figure BDA0003321879540000072
个数据包,其中/>
Figure BDA0003321879540000073
若源节点队列头部数据包的后继数据包AoI为/>
Figure BDA0003321879540000074
则/>
Figure BDA0003321879540000075
更新过程为:
Figure BDA0003321879540000076
面向混合更新的网络场景,不仅需要考虑系统的信息年龄,也需要评估吞吐量对系统性能的影响。定义随机变量τ(k)=1表示源节点在时隙k成功交付数据包至目标节点,若交付失败τ(k)=0。因此,目标节点的长期平均吞吐量为:
Figure BDA0003321879540000077
在优化过程中,期望得到较小的平均信息年龄和较大的吞吐量,定义β为信息年龄和吞吐量之间的权重参数,因此在可行的策略下,则有
Figure BDA0003321879540000078
定义集合Π表示所有的可行策略,则以最小化W为目标的策略π∈Π。因此该优化问题可表示为:
Figure BDA0003321879540000079
图2为基于深度强化学习的最小化信息年龄与吞吐量加权和训练示意图,如图2所示,在当前值网络与工业无线传感器网络环境进行交互的过程中,把系统状态和当前决策作为调度网络的输入,执行可行的链路调度决策d(k)后,得到每个状态-决策对的V值和下一个系统状态,然后计算经验集合(s(k),d(k),c(k),s(k+1))的当前值:
y(k)=c(k)+γminV(s(k+1),d;ωk) (7)
同时将得到的经验集合存储至回放记忆单元,目标值网络在每次训练时随机选择一小批样本进行学习,计算出当前状态的损失函数:
L(ωk)=(y(k)-V′(s(k),d′(k)|ωk′))2 (8)
由公式(8)可得梯度损失函数为:
Figure BDA0003321879540000081
当前值网络则根据梯度下降法更新网络参数。每经过一定次数的迭代后,将当前值网络的参数复制至目标值网络。
图3为本发明基于信息年龄的混合更新工业无线传感器网络调度方法流程图,如图3所示,具体包括以下步骤:
V1:时隙调度过程开始。
V2~V4:获取工业无线传感器网络系统参数,构建学习最优策略的调度网络以及回放记忆单元,确定网络的状态集、动作集以及奖励函数。
V5~V8:目标节点逐时隙的更新各源节点数据包并计算信息年龄,将当前时隙下的状态和动作输入到当前值网络中以获得对应V值,并计算当前状态下的奖励函数以及获取下一状态信息,把所得经验集合存储至回放记忆单元。
V9~V13:目标值网络从回放记忆单元中随机抽取一批经验集合计算目标V值,计算当前V值和目标V值的梯度损失函数,再通过梯度下降法更新当前值网络参数,每隔N步更新目标值网络参数,随着网络对目标V值的逼近,平均信息年龄趋于稳定。
V14~V16:将训练后的目标值网络参数保存,生成用于决策的调度网络,系统通过该网络对当前状态进行特征分析在当前时隙做出决策。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于信息年龄的混合更新工业无线传感器网络调度方法,其特征在于,该方法在多源节点向目标节点发送数据包的网络模型中,通过调度网络学习最优调度策略,以逐时隙的方式进行链路调度,最小化信息年龄和吞吐量的加权和;
该方法具体包括以下步骤:
S1:获取工业无线传感器网络的参数信息,建立系统信息年龄更新模型,构造调度网络,所述调度网络包括两个结构相同但网络参数不同的当前值网络和目标值网络;并初始化该网络参数;
S2:构建最小化信息年龄和吞吐量加权和的多目标优化问题,根据获取的各源节点的信息年龄、缓存信息与吞吐量相关的随机变量建立系统的状态空间、决策空间和奖励函数;
S3:在每个时隙更新目标节点的信息年龄,利用当前状态和决策输入至当前值网络获取经验集合并存储至回放记忆单元,从回放记忆单元中随机抽取一批经验集合计算梯度损失,利用梯度下降法更新当前值网络参数;
S4:在损失函数趋于稳定时,生成目标值网络学习后的网络参数,得到面向混合更新场景的链路调度方法;
步骤S1中,获取工业无线传感器网络的参数信息,建立系统信息年龄更新模型,具体包括以下步骤:
S11:设由M个源节点构成的集合Φ和一个目标节点组成的工业无线传感器网络,其中集合
Figure FDA0004186343100000011
的源节点采集工业现场中的人工触发信号或者报警信号,集合/>
Figure FDA0004186343100000012
的源节点定期收集传感数据和正常控制消息;源节点m∈φ1在采集数据包时,则表示被采集的非周期数据包更新过程服从/>
Figure FDA0004186343100000013
的伯努利分布;若m∈φ2,则令正整数/>
Figure FDA0004186343100000014
为周期数据包的更新周期;系统逐时隙的调度数据包,令k∈{1,2,…,K}表示时隙的索引;源节点在收集了生产过程中的数据包后,将尚未交付的数据包缓存在各自的先入先出队列中;如果队列空间满载,则将队列头数据包丢弃,把新的数据包缓存至队列尾部;
S12:根据步骤S11中各源节点数据包更新特性计算信息年龄,具体包括:定义信息年龄am(k)为数据包自生成以来到最后一次交付到目标节点后所经过的时间,其更新表达式如下:
Figure FDA0004186343100000015
其中,
Figure FDA0004186343100000016
表示源节点m队列头部数据包的信息年龄,h为队列头部数据包标识;k表示第k个时隙;
对于源节点m∈φ1,令
Figure FDA0004186343100000021
表示源节点在时隙k采集到新数据,否则/>
Figure FDA0004186343100000022
表示源节点在时隙k未采集到新数据;定义/>
Figure FDA0004186343100000023
为队列缓存数据包的个数,其中
Figure FDA0004186343100000024
Figure FDA0004186343100000025
表示非周期源节点队列缓存数据包的最大容量;若队列头部数据包的后继数据包信息年龄为/>
Figure FDA0004186343100000026
其中n为后继数据包标识;则/>
Figure FDA0004186343100000027
的迭代过程为:/>
Figure FDA0004186343100000028
对于源节点m∈φ2,当时
Figure FDA0004186343100000029
表示源节点在当前时隙周期的采集了新数据包;假设队列缓存了/>
Figure FDA00041863431000000210
个数据包,其中/>
Figure FDA00041863431000000211
Figure FDA00041863431000000212
表示周期源节点队列缓存数据包的最大容量;若源节点队列头部数据包的后继数据包AoI为/>
Figure FDA00041863431000000213
则/>
Figure FDA00041863431000000214
更新过程为:
Figure FDA00041863431000000215
步骤S2中,构建最小化信息年龄和吞吐量加权和的多目标优化问题,具体包括以下步骤:
S201:定义随机变量τ(k)=1表示源节点在时隙k成功交付数据包至目标节点,若交付失败τ(k)=0;则目标节点的长期平均吞吐量为:
Figure FDA00041863431000000216
其中,K表示调度结束的最大时隙,E[·]表示随机变量τ(k)的期望;
S202:建立权衡了信息年龄和吞吐量的优化目标;网络中期望得到较小的平均信息年龄和较大的吞吐量,定义β为信息年龄和吞吐量之间的权重参数,则目标节点处的长期平均信息年龄和吞吐量加权和W为:
Figure FDA00041863431000000217
步骤S2中,建立系统的状态空间、决策空间和奖励函数,具体包括以下步骤:
S211:建立系统的状态空间为:
s(k)=(a(k),z(k),τ(k))
其中,a(k)表示目标节点处在时隙k时各个源节点数据包的信息年龄集合,z(k)表示全部源节点的缓存信息集合;
S212:系统的决策空间包括了链路调度的决策以及网络空闲时;则系统的决策空间为:
d(k)={0,1,…,M}
其中,0表示系统处于空闲状态,1至M表示源节点的索引;
S213:为最小化系统的信息年龄与吞吐量加权和,基于步骤S202,选择链路调度决策后目标节点处的W作为奖励函数c(k),则:
Figure FDA0004186343100000031
步骤S3中,基于当前值网络,将当前系统状态和决策输入至网络中计算决策执行后对应状态-决策对的V值;再通过当前状态s(k)、决策d(k)、奖励c(k)以及下一状态s(k+1)组成的经验集合(s(k),d(k),c(k),s(k+1))存储至回放记忆单元,调度网络通过经验集合进行学习,具体包括以下步骤:当前值网络和目标值网络在学习最优调度策略的过程中不断更新自身参数向量,设ωk表示当前值网络的参数向量;
S31:随机从回放记忆单元中选取一批经验集合,则经验集合的当前值y(k)为:
y(k)=c(k)+γminV(s(k+1),d;ωk)
其中,V表示当前值网络输出的值函数,γ表示值函数的折扣因子;
S32:根据当前值y(k)以及目标值网络返回的目标值V′得到损失函数L(ωk)为:
L(ωk)=(y(k)-V′(s(k),d′(k)|ω′k))2
其中,V′表示目标值网络输出的值函数,d′(k)表示下一状态的决策,ω′k表示目标值网络的网络参数向量;
S33:基于步骤S32的损失函数,计算得到梯度损失函数
Figure FDA0004186343100000032
为:
Figure FDA0004186343100000033
其中,
Figure FDA0004186343100000034
表示当前值网络的梯度向量;
S34:当前值网络根据步骤S33的梯度损失函数更新参数向量ωk,每迭代100步将当前值网络参数向量ωk复制至目标值网络参数向量ω′k
CN202111248407.2A 2021-10-26 2021-10-26 基于信息年龄的混合更新工业无线传感器网络调度方法 Active CN113891276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111248407.2A CN113891276B (zh) 2021-10-26 2021-10-26 基于信息年龄的混合更新工业无线传感器网络调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111248407.2A CN113891276B (zh) 2021-10-26 2021-10-26 基于信息年龄的混合更新工业无线传感器网络调度方法

Publications (2)

Publication Number Publication Date
CN113891276A CN113891276A (zh) 2022-01-04
CN113891276B true CN113891276B (zh) 2023-05-26

Family

ID=79014522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111248407.2A Active CN113891276B (zh) 2021-10-26 2021-10-26 基于信息年龄的混合更新工业无线传感器网络调度方法

Country Status (1)

Country Link
CN (1) CN113891276B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114710410B (zh) * 2022-06-07 2022-08-26 南京信息工程大学 基于深度强化学习的网络数据采集效率优化方法及系统
CN115052325B (zh) * 2022-06-07 2023-05-19 华北电力大学(保定) 适用于变电站业务的多频异构无线通信网络接入选择方法
CN115174419B (zh) * 2022-06-30 2023-09-22 重庆邮电大学 截止时延约束下基于信息年龄的工业物联网调度方法
CN115643594A (zh) * 2022-10-11 2023-01-24 重庆邮电大学 多传感器多服务器工业物联网的信息年龄优化调度方法
CN115442910B (zh) * 2022-10-12 2023-04-07 香港中文大学(深圳) 一种基于最大权重调度策略的时延和时新联合优化方法
CN116156654B (zh) * 2023-02-24 2023-08-29 重庆控环科技集团有限公司 联合数据价值与信息年龄的多集群视频直播系统调度方法
CN117135655A (zh) * 2023-08-15 2023-11-28 华中科技大学 时延敏感WiFi的智能OFDMA资源调度方法、系统及终端
CN116828510B (zh) * 2023-08-31 2024-01-09 华南师范大学 基于物联网的功率分配方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112165716A (zh) * 2020-09-29 2021-01-01 重庆邮电大学 支持重传的无线网络信息年龄优化调度方法
CN112203307A (zh) * 2020-10-10 2021-01-08 重庆邮电大学 一种支持信息年龄优化的多信道无线网络调度方法
CN113190039A (zh) * 2021-04-27 2021-07-30 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法
CN113438315A (zh) * 2021-07-02 2021-09-24 中山大学 基于双网络深度强化学习的物联网信息新鲜度优化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7283814B2 (en) * 2003-07-31 2007-10-16 Lucent Technologies Inc. Method and apparatus for scheduling transmissions in wireless data networks
FI118291B (fi) * 2004-12-22 2007-09-14 Timo D Haemaelaeinen Energiatehokas langaton anturiverkko, solmulaitteita sitä varten sekä menetelmä tietoliikenteen järjestämiseksi langattomassa anturiverkossa

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112165716A (zh) * 2020-09-29 2021-01-01 重庆邮电大学 支持重传的无线网络信息年龄优化调度方法
CN112203307A (zh) * 2020-10-10 2021-01-08 重庆邮电大学 一种支持信息年龄优化的多信道无线网络调度方法
CN113190039A (zh) * 2021-04-27 2021-07-30 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法
CN113438315A (zh) * 2021-07-02 2021-09-24 中山大学 基于双网络深度强化学习的物联网信息新鲜度优化方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
6G时代信息新鲜度优先的无线网络设计;熊轲;胡慧敏;艾渤;张煜;裴丽;;物联网学报(第01期);全文 *
Sensing and Transmission Design for AoI-Sensitive Wireless Sensor Networks;Jinwoong Kim;2020 IEEE Globecom Workshops (GC Wkshps;全文 *
基于信息年龄优化的多信道无线网络调度方法;王恒;电子与信息学报;全文 *
无线传感网络的端到端时延感知跨层优化研究;涂建臣;徐伟强;;工业控制计算机(第04期);全文 *
面向WIA-PA工业无线传感器网络的确定性调度算法;王恒;陈鹏飞;王平;;电子学报(第01期);全文 *

Also Published As

Publication number Publication date
CN113891276A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN113891276B (zh) 基于信息年龄的混合更新工业无线传感器网络调度方法
Zhu et al. Caching transient data for Internet of Things: A deep reinforcement learning approach
CN109990790B (zh) 一种无人机路径规划方法及装置
Mao et al. Learning agent communication under limited bandwidth by message pruning
US20230153124A1 (en) Edge network computing system with deep reinforcement learning based task scheduling
CN112261725B (zh) 一种基于深度强化学习的数据包传输智能决策方法
CN110336620B (zh) 一种基于mac层公平接入的ql-uacw退避方法
CN110519816B (zh) 一种无线漫游控制方法、装置、存储介质及终端设备
CN107040961A (zh) 一种无线传感器网络拥塞控制方法
CN111884947B (zh) 一种在接收端基于信息年龄的数据包管理方法
WO2024077819A1 (zh) 多传感器多服务器工业物联网的信息年龄优化调度方法
CN112766497A (zh) 深度强化学习模型的训练方法、装置、介质及设备
CN114710410B (zh) 基于深度强化学习的网络数据采集效率优化方法及系统
CN114374949B (zh) 一种车联网中基于信息新鲜度优化的功率控制机制
CN116321255A (zh) 一种无线联邦学习中高时效模型压缩和用户调度方法
CN114090108B (zh) 算力任务执行方法、装置、电子设备及存储介质
CN112291284A (zh) 一种内容推送方法、装置和计算机可读存储介质
CN115174419B (zh) 截止时延约束下基于信息年龄的工业物联网调度方法
CN117392483A (zh) 基于增强学习的相册分类模型训练加速方法、系统及介质
CN114697394B (zh) 基于离散maddpg的边缘缓存决策模型、方法和系统
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统
CN114138493A (zh) 一种基于能耗感知的边缘算力资源调度方法
Chi et al. AoI optimal dynamic power control for IoT networks: A DRDPG approach
CN115914227B (zh) 一种基于深度强化学习的边缘物联网代理资源分配方法
CN114630175B (zh) 一种缓存管理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant