CN115174419B - 截止时延约束下基于信息年龄的工业物联网调度方法 - Google Patents
截止时延约束下基于信息年龄的工业物联网调度方法 Download PDFInfo
- Publication number
- CN115174419B CN115174419B CN202210771493.3A CN202210771493A CN115174419B CN 115174419 B CN115174419 B CN 115174419B CN 202210771493 A CN202210771493 A CN 202210771493A CN 115174419 B CN115174419 B CN 115174419B
- Authority
- CN
- China
- Prior art keywords
- data
- network
- information age
- follows
- sampling device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005070 sampling Methods 0.000 claims abstract description 110
- 230000000737 periodic effect Effects 0.000 claims abstract description 52
- 230000005540 biological transmission Effects 0.000 claims abstract description 37
- 230000009471 action Effects 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 230000008901 benefit Effects 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 108010065920 Insulin Lispro Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- WNRQPCUGRUFHED-DETKDSODSA-N humalog Chemical compound C([C@H](NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CO)NC(=O)[C@H](CS)NC(=O)[C@H]([C@@H](C)CC)NC(=O)[C@H](CO)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CS)NC(=O)[C@H](CS)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@H](C(C)C)NC(=O)[C@@H](NC(=O)CN)[C@@H](C)CC)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N[C@@H](CS)C(=O)N[C@@H](CC(N)=O)C(O)=O)C1=CC=C(O)C=C1.C([C@@H](C(=O)N[C@@H](CC(C)C)C(=O)N[C@H](C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CS)C(=O)NCC(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)NCC(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCCCN)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H]([C@@H](C)O)C(O)=O)C(C)C)NC(=O)[C@H](CO)NC(=O)CNC(=O)[C@H](CS)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CC=1NC=NC=1)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@H](CC(N)=O)NC(=O)[C@@H](NC(=O)[C@@H](N)CC=1C=CC=CC=1)C(C)C)C1=CN=CN1 WNRQPCUGRUFHED-DETKDSODSA-N 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 229960002068 insulin lispro Drugs 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Abstract
本发明涉及一种截止时延约束下基于信息年龄的工业物联网调度方法,属于工业网络技术领域。该方法针对周期数据和随机数据两种采样方式同时存在的工业物联网系统,保证周期性采样设备的截止时延满足约束的情况下,对随机采样设备的信息年龄进行优化。针对数据成功传输概率的先验知识已知的场景,采用基于时隙的李雅普诺夫漂移框架开发一个动态调度策略;针对数据成功传输概率的先验知识未知的场景,采用深度强化学习对未知环境进行探索并开发一种基于决斗深度Q网络的调度策略。本发明考虑截止时延对平均信息年龄优化,既实现了数据传输的确定性,又提高了网络信息传输的实时性。
Description
技术领域
本发明属于工业网络技术领域,涉及一种截止时延约束下基于信息年龄的工业物联网调度方法。
背景技术
随着信息技术与操作技术的融合,工业物联网作为一种使能技术得到了广泛的部署。在工业物联网应用中,应用设备对数据的及时传输要求更为严格。例如,在智能工厂等实时工业场景中,监控中心需要及时地收到最新鲜的数据以执行更加精确地决策。为了有效地衡量数据的新鲜度,信息年龄(Age of Information,AoI)被提出作为度量数据新鲜度的指标,其描述的是目的地接收到的最新数据自其产生以来所经过的时间。
在工业物联网系统中,数据通常是以周期性或随机性的方式生成。周期性数据一般是具有严格时延约束的控制数据,在相同的时间间隔产生并发送,一旦数据传输时延超过截止时间,就会对工业生产造成严重危害。对于随机性数据,随机采样的传感数据需要尽早地交付,通常不考虑严格的截止时延约束。因此,如何同时在满足周期性数据截止时延约束的条件下优化随机性数据的平均信息年龄,使得网络能够保证确定性传输的同时,还能提高网络信息传输的实时性,成为一个重要的挑战。
发明内容
有鉴于此,本发明的目的在于提供一种截止时延约束下基于信息年龄的工业物联网调度方法,针对数据成功传输概率的先验知识已知和数据成功传输概率的先验知识未知的两种场景,提供基于李雅普诺夫框架的动态策略和基于决斗深度Q网络的调度策略,既能提高网络信息传输的可靠性,又能实现数据确定性地传输。
为达到上述目的,本发明提供如下技术方案:
一种截止时延约束下基于信息年龄的工业物联网调度方法,针对工业物联网系统中设备具有周期性采样和随机性采样两种方式,考虑到截止时延约束,保证周期性采样设备的截止时延满足约束的情况下,对随机性采样设备的信息年龄进行优化。该方法具体包括以下步骤:
S1:获取基于时隙的工业物联网系统的参数信息,计算周期性采样设备排队时延,根据随机采样设备信息年龄更新过程,得到随机性采样设备的平均信息年龄;
S2:构建截止时延约束下平均信息年龄的优化目标表达式;
S3:针对数据成功传输概率的先验知识已知和未知的两种场景,分别采用基于时隙的李雅普诺夫漂移框架的动态调度策略和基于决斗深度Q网络的调度策略;其中,
(1)针对数据成功传输概率的先验知识已知的场景,采用的基于时隙的李雅普诺夫漂移框架的动态调度策略包括:通过定义李雅普诺夫函数,构建相应的系统李雅普诺夫漂移表达式,随后通过对系统李雅普诺夫漂移上界的求取,获得当前时隙下调度策略。
(2)针对数据成功传输概率的先验知识未知的场景,采用的基于决斗深度Q网络的调度策略包括:通过构造目标决斗网络和在线决斗网络,输出状态价值函数和优势函数,根据获取的各时隙的截止时延、债务情况与信息年龄创建系统状态空间、动作空间和奖励函数,并初始化所有网络参数、所有状态、奖励值和步长数,根据网络输出执行调度动作,得到新状态和奖励值等相关参数的集合并存入经验存储中,从经验存储中随机采样一批经验集合计算损失函数,采用梯度下降法更新网络参数,通过迭代训练使损失函数最小化,从而得到先验知识未知场景的调度策略。
进一步,步骤S1中,得到随机性采样设备的平均信息年龄,具体包括以下步骤:
S11:设有Np个周期性采样的设备和NR个随机性采样的设备以及一个公共目的地组成的工业物联网系统;每个时隙只能调度一个数据进行交付,在噪声信道中,考虑数据成功传输的概率服从一个已知的固定概率pk,其中k∈{1,2,...,Np+NR};对于周期性采样设备i∈{1,2,…,Np},Ti为数据的采样周期,Di为确定性截止时延约束;对于随机性采样设备j∈{Np+1,Np+2,…,Np+NR},数据的采样服从伯努利分布,采样概率为gi;vk(t)∈{0,1}表示时隙t处每个设备的调度决策,vk(t)=1表示设备k在时隙t中被调度,uk(t)∈{0,1}表示设备k的数据包的传递结果,uk(t)=1表示设备k的数据包成功发送到目的地;设备k的迭代传输期望表达式如下:
E[uk(t)]=pkE[vk(t)]
计算周期性采样设备i,缓冲区处的排队时延为:
其中,ci(t)表示设备i是否采样,取值范围为{0,1},ci(t)=0表示设备i没有在时隙t采样,ci(t)=1则表示设备i在时隙t采样;表示没有采样数据后的排队时延;
对于每个周期性采样设备,mi(t)表示目的地在时隙t开始时已经接收周期性采样设备i的数据包的数量,表达式如下:
其中,表示目的地在截止时间Di内成功接收到来自设备i的数据包;mi(t)+1表示在满足条件下成功交付的数据包个数,如果没有满足约束条件或者数据没有完成交付的情况,在目的地处的数据包的数量保持不变;
对于随机性采样的设备,表示随机设备j在缓冲区的信息年龄,表达式如下:
其中,表示每经过一个时隙t,没有采样数据时,缓冲区处的信息年龄;若有新的采样数据,缓冲区处的信息年龄将重新累计,信息年龄越小代表数据越新,信息年龄越大代表数据越旧;
对于随机性采样设备目的地处的信息年龄为:
其中,表示随机性采样设备j成功传输到目的地时,目的地处的信息年龄;表示随机性采样设备j发送数据包到目的地失败时,目的地处的信息年龄;
S12:根据步骤S11中所建立的周期性采样设备以及随机性采样设备各状态更新过程,得到随机性采样设备的平均信息年龄Jπ,表达式如下:
其中,π∈Π表示任意可行调度策略,L表示大小为L的时隙单元。
进一步,步骤S2中,构建的随机性采样设备的平均信息年龄的优化目标即是截止时延约束下最小化随机性采样设备的平均信息年龄,表达式如下:
其中,J*表示截止时延约束下随机性采样设备的最小平均信息年龄;Si表示周期性采样设备i在确定性传输要求下的最低比率。
进一步,步骤S3中,针对数据成功传输概率的先验知识已知的场景,采用的基于时隙的李雅普诺夫漂移框架的动态调度策略,具体包括以下步骤:
S311:对步骤S11中建立的周期性采样设备相关公式,计算数据包债务hi(t),即数据包到达目的地的理论数量与实际数量之差,表达式如下:
S312:根据步骤S311中的数据包债务表达式,得出其迭代公式为:
hi(t+1)=hi(t)-ui(t)+ci(t)Si
S313:定义二次李雅普诺夫函数表达式如下:
其中,Λt表示离散时间网络中单包队列长度的向量过程,V表示数据包债务数量的权重,L(Λt)表示任意非负数量值函数;
S314:通过最小化每个时隙的Δ(Λt),使步骤S313中L(Λt)的值较小,即李雅普诺夫漂移Δ(Λt)的表达式如下:
Δ(Λt)=E{L(Λt+1)-L(Λt)|Λt}
S315:根据步骤S313和步骤S314,推导出李雅普诺夫漂移上界,简化后,表达式如下:
其中,
Qi(t)=2hi(t)piV,
S316:根据步骤S315的表达式,显示出J1(t)和J2(t)项与决策无关,使Qj(t)+Qi(t)的值最大的策略表示当前时隙下调度策略。
进一步,步骤S3中,针对数据成功传输概率的先验知识未知的场景,采用的基于决斗深度Q网络的调度策略中,具体包括以下步骤:
S321:创建系统状态空间、动作空间和奖励函数,具体包括以下步骤:
S3211:构造目标决斗网络和在线决斗网络,输出的Q值,表达式如下:
Q(s,b;β)=V(s;βV)+A(s,b;βA)
其中,V(s)表示状态价值函数,A(s,b)表示优势函数,βV和βA分别表示独立的网络参数;
S3212:建立系统的状态空间为:
s(t)={qs(t),as(t),ad(t),h(t),pu(t)}
其中,qs(t)表示所有周期性采样设备在时隙t的排队时延,as(t)表示所有随机采样设备在时隙t时缓冲区处的信息年龄,ad(t)表示所有随机采样设备在时隙t时目的地的信息年龄,h(t)表示所有周期性采样设备在时隙t的债务,puk(t)∈{0,1}表示设备的可调度条件,puk(t)=1表示设备k可被调度;
S3213:网络通过ε-greedy策略对环境进行探索,建立系统动作空间为:
其中,所有行为包括Np+NR+1个行为;
S3214:通过周期性采样设备的债务和随机性采样设备作为奖励函数r(t),表达式如下:
其中,δi表示周期性采样设备债务惩罚的权重。
S322:更新在线决斗网络参数,具体包括以下步骤:
S3221:在线决斗深度Q网络通过每次选择输出值的动作b(t),学习到新状态s(t+1)和奖励值r(t)等相关参数的集合并存入经验存储中,表示为:
(s(t),b(t),r(t),s(t+1))
S3222:随机采样经验存储中的参数集合,并通过目标决斗网络Q-,计算目标值Qta,表达式如下:
其中,γ表示折扣因子,β-表示目标决斗网络参数,β表示在线决斗深度Q网络参数;
S3223:通过得到的目标值Qta,计算损失函数,损失函数Q(β)表达式如下:
Q(β)=(Qta-Q(s(t),b(t);β))2
S3224:通过梯度下降法使损失函数最小化,以此更新在线深度Q决斗网络参数,每间隔U步后,将在线决斗网络参数更新到目标决斗网络。
本发明的有益效果在于:
(1)本发明考虑了周期性和随机性数据混合的工业物联网中,满足周期性数据截止时延约束的条件下优化随机性数据的平均信息年龄,使得网络能够保证确定性传输的同时,还能提高网络信息传输的实时性。
(2)本发明针对数据传输成功率的先验知识已知和未知两种场景进行了考虑,结合李雅普诺夫漂移理论和深度强化学习方法,分别提供了两种场景下对应的调度方法,满足了不同工业物联网场景下对信息传输确定性和及时性的需求。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所提供周期性采样设备和随机性采样设备供监控中心调度的网络示意图;
图2为本发明基于深度强化学习的训练示意图;
图3为本发明针对基于李雅普诺夫漂移框架的动态调度策略的流程图;
图4为本发明基于决斗深度Q网络的链路调度方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,图1为周期性采样设备和随机性采样设备供监控中心调度的网络示意图,如图1所示,监控中心向多个周期性采样数据的设备和多个随机性采样数据的设备中选择设备进行调度,假设数据的传输占用一个时隙,并且每个时隙最多可以选择一台设备通过无线信道进行数据传输。若考虑到噪声信道,设备以概率pk∈(0,1]通过噪声信道成功地向监控中心发送数据,其中k∈{1,2,...,Np+NR}。要求周期性采样设备的数据在截止时间内传送到监控中心,如果超过该期限,数据将会被丢弃。为了保证数据的确定性传输,设置一个约束条件即成功传输数据包的最低比率为Si。vk(t)∈{0,1}表示时隙t处每个设备的调度决策,vk(t)=1表示设备k在时隙t中被调度,uk(t)∈{0,1}表示设备k的数据包的传递结果,uk(t)=1表示设备k的数据包成功发送到监控中心;
设备k的迭代传输期望表达式如下:
E[uk(t)]=pkE[vk(t)]
对于周期性采样设备i,缓冲区处的排队时延为:
其中,ci(t)表示设备i是否采样。mi(t)表示监控中心在时隙t开始时接收到的周期性采样设备的数据包的数量,表达式如下:
ui(t)表示设备i是否被调度,mi(t+1)表示设备i被调度,且监控中心在截止时间Di内成功接收到来自设备i的数据包的数量。
对于随机性采样设备,需要考虑每个设备缓冲区处的信息年龄和到达监控中心之后的信息年龄,表示随机设备j在时隙t处的缓冲区中的信息年龄,表达式如下:
表示随机设备j在时隙t监控中心处的信息年龄,表达式如下:
随着时间范围增加到无穷大,最优的调度策略π*∈Π下的随机性采样设备的最小化平均信息年龄,表达式如下:
本发明的目标是开发一个调度策略来最小化随机性采样设备的平均年龄,其需满足以下优化目标表达式:
其中,vk表示每个设备在时隙t的调度决策;Si表示周期性采样设备i在确定性传输要求下的最低比率(为了保证周期性采样设备的数据包在确定的时间内,实现一定数量的数据包到达监控中心)。
针对数据成功传输概率的先验知识已知和未知的场景,本发明分别提出了对应的基于时隙的李雅普诺夫漂移框架的动态调度方案和基于决斗深度Q网络的链路调度策略。
1)针对动态调度方法,通过最小化系统的李亚普诺夫漂移函数来获得基于时隙的李亚普诺夫策略,首先引入债务的概念,hi(t)表示到达监控中心的数据包的理论数量和实际数量之间的差异,表达式如下:
其中,表示周期性采样设备i采样的数据包总数,为了表征与债务相关的等式,其递归表达式如下:
hi(t+1)=hi(t)-ui(t)+ci(t)Si (9)
考虑如下二次李雅普诺夫函数:
其中,Λt表示离散时间网络中单包队列长度的向量过程,V是一个大于零的常数,表示包债务数的权重。因此L(Λt)可以是任何非负的标量值函数,其李亚普诺夫漂移可以定义为:
Δ(Λt)=E{L(Λt+1)-L(Λt)|Λt} (11)
根据式(10)和(11)可推出,李亚普诺夫漂移的上界表达式为:
其中,
Qi(t)=2hi(t)piV, (15)
通过上式,可以看出J1(t)和J2(t)项与决策无关,使Qj(t)+Qi(t)的值最大的策略表示当前时隙下调度策略。
2)针对基于决斗深度Q网络的链路调度策略,应用于数据成功传输概率的先验知识未知的场景,通过深度强化学习到先验未知概率pk,引入决斗深度Q网络,输出由状态值函数和优势函数组成的Q值,表达式如下:
Q(s,b;β)=V(s;βV)+A(s,b;βA) (17)
建立系统的状态空间为:
s(t)={qs(t),as(t),ad(t),h(t),pu(t)} (18)
其中,qs(t)表示所有周期性采样设备在时隙t的排队时延,as(t)表示所有随机采样设备在时隙t时,缓冲区处信息年龄,ad(t)表示所有随机采样设备在时隙t时,目的地的信息年龄,h(t)表示所有周期性采样设备在时隙t的债务,puk(t)∈{0,1}表示设备的可调度条件,puk(t)=1表示设备k可被调度。
网络通过ε-greedy策略对环境进行探索,建立系统动作空间为:
其中,所有行为包括Np+NR+1个行为。
通过周期性采样设备的债务和随机性采样设备作为奖励函数r(t),表达式如下:
其中,δi表示周期性采样设备债务惩罚的权重。
在线决斗网络通过每次选择输出值的动作b(t),学习到新状态s(t+1)和奖励值r(t)等相关参数集合并存入经验存储中,表示为:
(s(t),b(t),r(t),s(t+1)) (21)
随机采样在经验存储中的参数集合,并通过目标决斗网络Q-,计算目标值Qta,表达式如下:
其中,γ表示折扣因子,β-表示目标决斗网络参数,β表示在线决斗网络参数。
通过得到的目标值Qta,计算损失函数,损失函数Q(β)表示如下:
Q(β)=(Qta-Q(s(t),b(t);β))2 (23)
通过梯度下降法使损失函数最小化,以此更新在线决斗网络参数,每间隔U步,将在线决斗网络参数更新到目标决斗网络。
图2为本发明基于深度强化学习的训练示意图。如图2所示,通过深度强化学习到先验未知概率pk,引入决斗深度Q网络,建立系统状态空间、动作空间和奖励函数,通过在线决斗网络选择不同输出值的动作,得到新状态和奖励值,并将当前状态、当前动作、奖励函数以及新状态组成参数集合存入经验存储中,随机采样在经验存储中的参数集合,计算损失函数,通过梯度下降法让损失函数最小化,以此更新在线决斗网络参数,每间隔U步,将在线决斗网络参数更新到目标决斗网络中,通过更新后的目标决斗网络中的参数得到调度网络,进行链路调度。
图3为本发明针对基于李雅普诺夫漂移框架的动态调度策略的流程图,如图3所示,具体包括以下步骤:
V1:时隙调度过程开始。
V2:周期性采样设备和随机性采样设备混合调度获取系统的参数信息。
V3~V4:更新周期性采样设备排队时延,统计数据包的数量,以及分别更新随机性采样设备在缓冲区和监控中心的信息年龄。
V5:构建截止时延约束下基于平均信息年龄优化的表达式。
V6:根据信息年龄和债务表达式建立李雅普诺夫函数。
V7~V9:构建李雅普诺夫漂移表达式,最小化系统的李亚普诺夫漂移函数,即求取最大值Qj(t)+Qi(t)。
V10:生成当前时隙下的动态调度策略。
V11:时隙调度过程结束。
图4为本发明基于决斗深度Q网络的链路调度方法流程图,如图3所示,具体包括以下步骤:
V1:时隙调度过程开始。
V2:周期性采样设备和随机性采样设备混合调度获取系统的参数信息。
V3~V4:构造目标决斗网络和在线决斗网络,输出状态价值函数和优势函数,根据获取的各时隙的截止时延、债务情况与信息年龄创建系统状态空间、动作空间和奖励函数;并初始化所有网络参数、所有状态、奖励值、步长数以及最大迭代次数。
V5~V6:更新周期性采样设备排队时延,统计数据包的数量,分别更新随机性采样设备在缓冲区和监控中心的信息年龄。
V7~V9:构建截止时延约束下基于平均信息年龄优化的表达式,从(0,1)区间随机生成一个小数χ与ε比较,如果χ<ε,则随机选择一台设备进行调度,如果χ>ε,则选择Q值最大的设备进行调度。
V10~V12:将当前状态、当前动作、奖励函数以及新状态组成参数集合存入经验存储中,随机采样在经验存储中的参数集合,计算损失函数。
V13~V14:通过梯度下降法让损失函数最小化,以此更新在线决斗网络参数,每间隔U步,将在线决斗网络参数更新到目标决斗网络中,判断是否达到最大迭代次数,如果否,则转入V3,如果是,则转入V15。
V15:通过更新后的目标决斗网络中的参数得到调度网络,进行链路调度。
V16:时隙调度过程结束。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种截止时延约束下基于信息年龄的工业物联网调度方法,其特征在于,该方法具体包括以下步骤:
S1:获取基于时隙的工业物联网系统的参数信息,计算周期性采样设备排队时延,根据随机性采样设备信息年龄更新过程,得到随机性采样设备的平均信息年龄;具体包括以下步骤:
S11:设有Np个周期性采样的设备和NR个随机性采样的设备以及一个公共目的地组成的工业物联网系统;每个时隙只能调度一个数据进行交付,在噪声信道中,考虑数据成功传输的概率服从一个已知的固定概率pk,其中k∈{1,2,...,Np+NR};对于周期性采样设备i∈{1,2,…,Np},Ti为数据的采样周期,Di为确定性截止时延约束;对于随机性采样设备j∈{Np+1,Np+2,…,Np+NR},数据的采样服从伯努利分布,采样概率为gi;vk(t)∈{0,1}表示时隙t处每个设备的调度决策,vk(t)=1表示设备k在时隙t中被调度,uk(t)∈{0,1}表示设备k的数据包的传递结果,uk(t)=1表示设备k的数据包成功发送到目的地;设备k的迭代传输期望表达式如下:
E[uk(t)]=pkE[vk(t)]
计算周期性采样设备i,缓冲区处的排队时延为:
其中,ci(t)表示设备i是否采样,取值范围为{0,1},ci(t)=0表示设备i没有在时隙t采样,ci(t)=1则表示设备i在时隙t采样;表示没有采样数据后的排队时延;
对于每个周期性采样设备,mi(t)表示目的地在时隙t开始时已经接收周期性采样设备i的数据包的数量,表达式如下:
其中,表示目的地在截止时间Di内成功接收到来自设备i的数据包;mi(t)+1表示在满足条件下成功交付的数据包个数,如果没有满足约束条件或者数据没有完成交付的情况,在目的地处的数据包的数量保持不变;
对于随机性采样的设备,表示随机设备j在缓冲区的信息年龄,表达式如下:
其中,表示每经过一个时隙t,没有采样数据时,缓冲区处的信息年龄;若有新的采样数据,缓冲区处的信息年龄将重新累计,信息年龄越小代表数据越新,信息年龄越大代表数据越旧;
对于随机性采样设备目的地处的信息年龄为:
其中,表示随机性采样设备j成功传输到目的地时,目的地处的信息年龄;
表示随机性采样设备j发送数据包到目的地失败时,目的地处的信息年龄;
S12:根据步骤S11中所建立的周期性采样设备以及随机性采样设备各状态更新过程,得到随机性采样设备的平均信息年龄Jπ,表达式如下:
其中,π∈Π表示任意可行调度策略,L表示大小为L的时隙单元;
S2:构建随机性采样设备的平均信息年龄的优化目标即是截止时延约束下最小化随机性采样设备的平均信息年龄,表达式如下:
其中,J*表示截止时延约束下随机性采样设备的最小平均信息年龄;Si表示周期性采样设备i在确定性传输要求下的最低比率;
S3:针对数据成功传输概率的先验知识已知和未知的两种场景,分别采用基于时隙的李雅普诺夫漂移框架的动态调度策略和基于决斗深度Q网络的调度策略;
针对数据成功传输概率的先验知识已知的场景,采用的基于时隙的李雅普诺夫漂移框架的动态调度策略,包括:通过定义李雅普诺夫函数,构建相应的系统李雅普诺夫漂移表达式,随后通过对系统李雅普诺夫漂移上界的求取,获得当前时隙下调度策略;具体包括以下步骤:
S311:对步骤S11中建立的周期性采样设备相关公式,计算数据包债务hi(t),即数据包到达目的地的理论数量与实际数量之差,表达式如下:
S312:根据步骤S311中的数据包债务表达式,得出其迭代公式为:
hi(t+1)=hi(t)-ui(t)+ci(t)Si
S313:定义二次李雅普诺夫函数表达式如下:
其中,Λt表示离散时间网络中单包队列长度的向量过程,V表示数据包债务数量的权重,L(Λt)表示任意非负数量值函数;
S314:通过最小化每个时隙的Δ(Λt),使步骤S313中L(Λt)的值小,即李雅普诺夫漂移Δ(Λt)的表达式如下:
Δ(Λt)=E{L(Λt+1)-L(Λt)|Λt}
S315:根据步骤S313和步骤S314,推导出李雅普诺夫漂移上界,表达式如下:
其中,
Qi(t)=2hi(t)piV,
S316:使Qj(t)+Qi(t)的值最大的策略表示当前时隙下调度策略;
针对数据成功传输概率的先验知识未知的场景,采用的基于决斗深度Q网络的调度策略,包括:通过构造目标决斗网络和在线决斗网络,输出状态价值函数和优势函数,根据获取的各时隙的截止时延、债务情况与信息年龄创建系统状态空间、动作空间和奖励函数,并初始化所有网络参数、所有状态、奖励值和步长数,根据网络输出执行调度动作,得到新状态和奖励值的集合并存入经验存储中,从经验存储中随机采样一批经验集合计算损失函数,采用梯度下降法更新网络参数,通过迭代训练使损失函数最小化,从而得到先验知识未知场景的调度策略;具体包括以下步骤:
S321:构造目标决斗网络和在线决斗网络,输出的Q值,表达式如下:
Q(s,b;β)=V(s;βV)+A(s,b;βA)
其中,V(s)表示状态价值函数,A(s,b)表示优势函数,βV和βA分别表示独立的网络参数;
S322:建立系统的状态空间为:
s(t)={qs(t),as(t),ad(t),h(t),pu(t)}
其中,qs(t)表示所有周期性采样设备在时隙t的排队时延,as(t)表示所有随机采样设备在时隙t时缓冲区处的信息年龄,ad(t)表示所有随机采样设备在时隙t时目的地的信息年龄,h(t)表示所有周期性采样设备在时隙t的债务,puk(t)∈{0,1}表示设备的可调度条件,puk(t)=1表示设备k可被调度;
S323:网络通过ε-greedy策略对环境进行探索,建立系统动作空间为:
其中,所有行为包括Np+NR+1个行为;
S324:通过周期性采样设备的债务和随机性采样设备作为奖励函数r(t),表达式如下:
其中,δi表示周期性采样设备债务惩罚的权重;
S325:在线决斗深度Q网络通过每次选择输出值的动作b(t),学习到新状态s(t+1)和奖励值r(t)的集合并存入经验存储中,表示为:
(s(t),b(t),r(t),s(t+1))
S326:随机采样经验存储中的参数集合,并通过目标决斗网络Q-,计算目标值Qta,表达式如下:
其中,γ表示折扣因子,β-表示目标决斗网络参数,β表示在线决斗深度Q网络参数;
S327:通过得到的目标值Qta,计算损失函数,损失函数Q(β)表达式如下:
Q(β)=(Qta-Q(s(t),b(t);β))2
S328:通过梯度下降法使损失函数最小化,以此更新在线深度Q决斗网络参数,每间隔U步后,将在线决斗网络参数更新到目标决斗网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210771493.3A CN115174419B (zh) | 2022-06-30 | 2022-06-30 | 截止时延约束下基于信息年龄的工业物联网调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210771493.3A CN115174419B (zh) | 2022-06-30 | 2022-06-30 | 截止时延约束下基于信息年龄的工业物联网调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115174419A CN115174419A (zh) | 2022-10-11 |
CN115174419B true CN115174419B (zh) | 2023-09-22 |
Family
ID=83489383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210771493.3A Active CN115174419B (zh) | 2022-06-30 | 2022-06-30 | 截止时延约束下基于信息年龄的工业物联网调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115174419B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115442910B (zh) * | 2022-10-12 | 2023-04-07 | 香港中文大学(深圳) | 一种基于最大权重调度策略的时延和时新联合优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112203307A (zh) * | 2020-10-10 | 2021-01-08 | 重庆邮电大学 | 一种支持信息年龄优化的多信道无线网络调度方法 |
CN113891276A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006566A1 (en) * | 2000-11-07 | 2004-01-08 | Matt Taylor | System and method for augmenting knowledge commerce |
-
2022
- 2022-06-30 CN CN202210771493.3A patent/CN115174419B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112203307A (zh) * | 2020-10-10 | 2021-01-08 | 重庆邮电大学 | 一种支持信息年龄优化的多信道无线网络调度方法 |
CN113891276A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
Non-Patent Citations (3)
Title |
---|
Age of Information Aware VNF Scheduling in Industrial IoT Using Deep Reinforcement Learning;Mohammad Akbari;《IEEE Journal on Selected Areas in Communications》;全文 * |
基于5G的工业互联网场景组网优化策略研究;朱能裕;《硕士电子期刊》;全文 * |
基于能效的NOMA蜂窝车联网动态资源分配算法;唐伦;肖娇;赵国繁;杨友超;陈前斌;;电子与信息学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115174419A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Learning to schedule communication in multi-agent reinforcement learning | |
CN109976909B (zh) | 边缘计算网络中基于学习的低延时任务调度方法 | |
CN113891276B (zh) | 基于信息年龄的混合更新工业无线传感器网络调度方法 | |
US10909450B2 (en) | Multiple-action computational model training and operation | |
CN110225535B (zh) | 基于深度确定性策略梯度的异构无线网络垂直切换方法 | |
US20230153124A1 (en) | Edge network computing system with deep reinforcement learning based task scheduling | |
Yin et al. | Application-oriented scheduling for optimizing the age of correlated information: A deep-reinforcement-learning-based approach | |
CN115174419B (zh) | 截止时延约束下基于信息年龄的工业物联网调度方法 | |
CN114490057B (zh) | 一种基于深度强化学习的mec已卸载任务资源分配方法 | |
CN113408797A (zh) | 流转量预测多时序模型生成方法、信息发送方法和装置 | |
WO2024077819A1 (zh) | 多传感器多服务器工业物联网的信息年龄优化调度方法 | |
CN116489226A (zh) | 一种服务质量保障的在线资源调度方法 | |
CN112766497A (zh) | 深度强化学习模型的训练方法、装置、介质及设备 | |
CN116321255A (zh) | 一种无线联邦学习中高时效模型压缩和用户调度方法 | |
Miśkowicz | Analysis of mean access delay in variable-window CSMA | |
GB2603852A (en) | Performing network congestion control utilizing reinforcement learning | |
Karras et al. | Download speed optimization in p2p networks using decision making and adaptive learning | |
CN111767991B (zh) | 一种基于深度q学习的测控资源调度方法 | |
CN113887748A (zh) | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 | |
Bhattacharyya et al. | QFlow: A learning approach to high QoE video streaming at the wireless edge | |
CN116484976A (zh) | 一种无线网络中异步联邦学习方法 | |
KR101508328B1 (ko) | 운동 기구의 제어 방법 | |
CN111324444B (zh) | 一种云计算任务调度方法及装置 | |
CN113052312A (zh) | 深度强化学习模型的训练方法、装置、介质及电子设备 | |
CN112949850A (zh) | 超参数确定方法、装置、深度强化学习框架、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |