CN115643594A - 多传感器多服务器工业物联网的信息年龄优化调度方法 - Google Patents
多传感器多服务器工业物联网的信息年龄优化调度方法 Download PDFInfo
- Publication number
- CN115643594A CN115643594A CN202211241536.3A CN202211241536A CN115643594A CN 115643594 A CN115643594 A CN 115643594A CN 202211241536 A CN202211241536 A CN 202211241536A CN 115643594 A CN115643594 A CN 115643594A
- Authority
- CN
- China
- Prior art keywords
- network
- data
- server
- node
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000009471 action Effects 0.000 claims abstract description 53
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000008901 benefit Effects 0.000 claims abstract description 20
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 230000008878 coupling Effects 0.000 claims abstract description 5
- 238000010168 coupling process Methods 0.000 claims abstract description 5
- 238000005859 coupling reaction Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 38
- 230000033001 locomotion Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Mobile Radio Communication Systems (AREA)
- Small-Scale Networks (AREA)
Abstract
本发明涉及一种多传感器多服务器工业物联网的信息年龄优化调度方法,属于工业无线网络技术领域。该方法面向多传感器多服务器的工业物联网系统,通过选择每个时隙的链路调度组合来最小化系统的平均信息年龄,将链路调度、服务器选择和服务抢占的强耦合优化问题构造为马尔可夫决策过程,采用共享决策模块和多个网络分支改进的深度Q网络减少问题求解的状态空间和动作空间,并利用固定优势策略来加快训练速度,获得链路调度方法。本发明通过分支深度Q网络和固定优势策略,加快了调度方法的学习速度,保障了工业物联网数据交付的新鲜度。
Description
技术领域
本发明属于工业无线网络技术领域,涉及一种多传感器多服务器工业物联网的信息年龄优化调度方法。
背景技术
随着工业4.0时代的到来,实时工业物联网应用的普及对网络的实时保障技术提出了新的要求。尤其是工厂自动化、智能制造等工业物联网应用更依赖于新鲜数据的及时交付。为了有效地衡量新数据交付的时效性,信息年龄的概念被提出,定义为目的地最新接收到的数据自生成以来所经过的时间,专注于数据使用者对所接受数据新鲜度的要求。
在工业物联网系统中,多传感器多服务器是一种常见的系统架构,传感器可以任意选择一台服务器进行数据的传输和处理。然而,与多传感器单服务器的系统相比,多服务器场景中的调度问题更加复杂。首先,每个传感器和每个服务器可以进行互相配对以进行数据传输,可选的调度组合数量更多。其次,服务器必须在继续处理当前数据和调度新数据之间做出选择,进一步增加了调度组合的求解空间。最后,最优链路调度组合的确定需要满足链路冲突约束,使得策略的制定更加复杂。因此,如何在满足链路冲突约束的条件下,发明一种适用于多传感器多服务器工业物联网的信息年龄优化调度方法,使得系统数据平均信息年龄最小化,成为了一个重要的挑战。
发明内容
有鉴于此,本发明的目的在于提供一种适用于多传感器多服务器工业物联网的信息年龄优化调度方法,在多传感器多服务器的工业物联网系统模型中,构建网络交付数据的信息年龄更新模型,并将最小化网络平均信息年龄的优化问题表述为马尔科夫决策过程,进一步通过调度网络学习最优调度策略。本发明能减少深度强化学习方法表达的状态空间和动作空间并加快调度策略的学习速度,提高系统数据交付的及时性。
为达到上述目的,本发明提供如下技术方案:
一种多传感器多服务器工业物联网的信息年龄优化调度方法,通过选择每个时隙的链路调度组合来最小化系统的平均信息年龄,将链路调度、服务器选择和服务抢占的强耦合优化问题构造为马尔可夫决策过程,采用共享决策模块和多个网络分支改进的深度Q网络减少问题求解的状态空间和动作空间,并利用固定优势策略来加快训练速度获得链路调度方法。该方法具体包括以下步骤:
S1:获取多传感器多服务器工业物联网系统参数,构建系统信息年龄更新模型,构造学习最优调度策略的调度网络;
S2:构建最小化系统平均信息年龄的优化问题,并根据系统信息年龄更新模型建立系统的状态空间、动作空间和代价函数,从而将链路调度、服务器选择和服务抢占的强耦合优化问题转化为马尔科夫决策过程;
S3:在每个时隙系统进行更新时,调度网络采用固定优势策略生成优势动作探索空间,以及通过共享决策模块和多个网络分支改进的深度Q网络优化动作空间,减少调度网络输出的数量;
S4:调度网络在学习最优调度策略的过程中更新网络参数,在损失函数趋于稳定后,得到面向多传感器多服务器的链路调度方法。
进一步,步骤S1中,构建系统信息年龄更新模型具体包括以下步骤:
S11:设一个由M个传感器节点、N个服务器节点和一个目标节点(控制中心)组成的工业物联网系统,其中传感器节点采样的数据通过无线信道传输到服务器节点并进行处理,然后服务器节点通过有线连接交付数据至目标节点,m∈{1,2,…,M}和n∈{1,2,…,N}分别表示传感器节点和服务器节点的索引;系统交付数据是基于时隙的,一个时隙交付一个数据,且t∈{1,2,…,T}表示时隙的索引;在每个时隙开始时,最多能调度min{M,N}个数据通过正交通道进行无冲突的传输,传输成功后到达对应的服务器;信道噪声下传感器节点m向服务器节点n成功传递数据的概率为pm,n∈(0,1];由于链路冲突的存在,一个数据不能被多个服务器调度,一个服务器也不能在每个时隙调度多个数据;由于有线链路的数据传输速率远高于无线信道,因此从服务器节点到目标节点的传输时间可以忽略不计;
S12:每个传感器节点能存储一个数据,被采集数据的生成速率遵循λm∈(0,1]的伯努利分布;当有新数据产生时,缓存中的旧数据将被替换;每个服务器节点能缓存一个数据进行处理,并且允许服务被抢占,即服务器能优先处理新接收到的数据,丢弃当前的旧数据;有限正整数cm,n表示服务器节点n完成传感器节点m的数据处理所需时隙;
S13:信息年龄为目标节点最新接收到的数据在生成以来所经过的时间;定义表示在时隙t传感器节点m数据的信息年龄,设gm(t)∈{0,1}表示传感器节点m在时隙t是否生成新数据,若生成则gm(t)=1,否则gm(t)=0;目标节点处信息年龄的更新过程表示为:
S14:对于服务器节点,令表示在时隙t传感器节点m交付给服务器节点n数据的信息年龄,并定义dm,n(t)∈{0,1}表示服务器节点n在时隙t是否调度传感器节点m的数据,若当前时隙调度传感器节点m,则dm,n(t)=1,否则dm,n(t)=0;定义fm,n(t)=1表示当前服务器节点n成功接收到传感器节点m的数据,否则fm,n(t)=o;的更新过程如下:
S15:在目标节点处数据的信息年龄受处理时间的影响,定义lm,n(t)∈{0,1,…,cm,n}表示服务器节点n处理传感器节点m数据所占用的时隙数;令im,n(t)∈{0,1}表示处理传感器节点数据的状态,其中im,n(t)=1表示传感器节点m的数据被处理完成,im,n(t)=0表示未处理完成;im,n(t)和lm,n(t)的具体更新过程分别为:
进一步,步骤S2中,构建最小化系统平均信息年龄的优化问题,具体包括以下步骤:
S202:为避免调度时链路之间的冲突,定义∏表示所有可行调度策略的集合,其中π∈∏;由此最小化系统平均信息年龄的优化问题可表述为:
其中,π*表示最优调度策略。
进一步,步骤S2中,建立系统的状态空间具体包括:系统的状态空间应该捕获网络中每个节点中数据的信息年龄,此外,还应考虑服务器处理的数据的索引。设vn(t)={0,1,…,M}为服务器n在时隙t处理数据的索引,其中vn(t)=0表示在时隙t服务器n空闲;则系统状态空间s(t)表示为:
s(t)=(as(t),ad(t),v(t),at(t),l(t))
进一步,步骤S2中,建立系统的动作空间具体包括:动作空间通过尺寸为M×N的矩阵ω(t)来表示,每行元素的和代表一个动作,每列元素的和都小于或等于1,其中索引为(m,n)的元素表示动作dm,n(t),由此得到:
令|ω|为动作空间的大小,则系统动作的数量为:
进一步,步骤S3中,具体包括以下步骤:
S31:调度网络采用固定优势策略生成优势动作探索空间,具体包括:在调度网络选择状态动作对进行学习时,利用固定优势策略减少探索过程中的低效状态动作对;当服务器节点n不参与调度时,将继续执行当前的计算任务,期望信息年龄减少与耗时之比可计算为:当服务器节点n选择传感器节点m进行调度时,期望花费的时间为调度次数与完成计算任务所需的时间之和;期望信息年龄减少与时间消耗的比率为由此,在时隙t服务器节点n的动作比率为:
S32:通过共享决策模块和多个网络分支优化动作空间,具体包括:为了降低由于大的动作空间而产生的复杂性,对深度Q网络结构进行改进,在网络中分别设置价值函数网络和优势函数网络,其中价值函数与状态有关而与动作无关,优势函数与状态和动作都有关;这两部分共享一个共同的学习模块,以价值函数网络输出和优势函数网络输出的线性组合作为网络的最终输出;价值函数网络根据动作的特点对高维动作进行分支,形成若干附加于共享模块之后的关联分支来评估每个子动作的Q值,然后由子动作组合形成调度动作,从而减少网络输出的数量。至此,改进后的深度Q网络的输出量可由减少为N(M+1)+1。
进一步,步骤S4具体包括以下步骤:
S41:设置由在线网络和目标网络组成的调度网络,两种网络均是由共享决策模块和多个网络分支改进的深度Q网络组成;
S42:在线网络根据输入的系统状态和优势动作探索空间,获得由分支动作组成的动作组合ω(t),执行动作后将经验存储至回放缓存;
S43:从缓存中随机抽取经验,通过目标网络计算每个分支的目标值,进而结合在线网络计算损失函数;具体步骤如下:
S431:对于每个子动作,在线网络从子动作的优势中减去分支中所有子动作的平均优势,然后将其与状态值结合起来,作为子动作的Q值;令un∈μ={0,1,…,M}表示服务器节点n的可行子动作,其中un=0表示服务器节点不参与调度,un=m表示服务器节点n调度传感器节点m;由此,在线网络中子动作un的Q值为:
S432:对于每个分支,其目标值yn为:
其中,c(t)为代价函数,γ为累计折扣因子,u′n为目标网络中分支n的任意可选子动作,Q′n(s(t+1),u′n|θ′t)为状态s(t+1)和子动作u′n下目标网络分支n的Q值;由于在线网络和目标网络的网络结构相同,Q′n(s(t+1),u′n|θ′t)值可以通过类似Q值的计算方式得到;定义损失函数为:
S44:根据梯度下降法更新网络参数以最小化损失函数,在损失函数的变化趋于稳定到达终止条件后,得到面向多传感器多服务器的调度方法。
本发明的有益效果在于:
(1)本发明联合考虑了链路调度、服务器选择和业务抢占等因素,对系统平均信息年龄进行了优化,保障了工业物联网系统数据交付的新鲜度。
(2)本发明采用共享决策模块和多个网络分支对深度Q网络进行改进,利用固定优势策略进行动作探索,在减少网络表征的状态空间和动作空间的同时,有效地提高了调度策略的学习速度,使得调度方法能够部署于大规模多传感器多服务器工业物联网系统。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所提供多传感器多服务器工业物联网结构示意图;
图2为本发明采用的共享决策模块和多个网络分支改进的深度Q网络示意图;
图3为本发明调度网络结构示意图;
图4为本发明基于信息年龄的工业物联网调度方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,本发明针对多传感器多服务器的工业物联网系统,通过选择每个时隙的链路调度组合来最小化系统的平均信息年龄,将链路调度、服务器选择和服务抢占的强耦合优化问题构造为马尔可夫决策过程,采用共享决策模块和多个网络分支改进的深度Q网络减少问题求解的状态空间和动作空间,并利用固定优势策略来加快训练速度,发明一种基于深度强化学习的调度方法。
图1为多传感器多服务器工业物联网结构示意图。一个由M个传感器节点、N个服务器节点和一个目标节点(控制中心)组成的工业物联网系统,其中传感器节点采样的数据通过无线信道传输到服务器节点并进行处理,然后服务器节点通过有线连接交付数据至目标节点,m∈{1,2,…,M}和n∈{1,2,…,N}分别表示传感器节点和服务器节点的索引。系统交付数据是基于时隙的,一个时隙交付一个数据,且t∈{1,2,…,T}表示时隙的索引。在每个时隙开始时,最多可调度min{M,N}个数据通过正交通道进行无冲突的传输,传输成功后到达对应的服务器。信道噪声下传感器节点m向服务器节点n成功传递数据的概率为pm,n∈(0,1]。由于链路冲突的存在,一个数据不能被多个服务器调度,一个服务器也不能在每个时隙调度多个数据。由于有线链路的数据传输速率远高于无线信道,因此从服务器节点到目标节点的传输时间可以忽略不计。
每个传感器节点可以存储一个数据,被采集数据的生成速率遵循λm∈(0,1]的伯努利分布。当有新数据产生时,缓存中的旧数据将被替换。每个服务器节点可以缓存一个数据进行处理,并且允许服务被抢占,即服务器可以优先处理新接收到的数据,丢弃当前的旧数据。有限正整数cm,n表示服务器节点n完成传感器节点m的数据处理所需时隙。
图2为共享决策模块和多个网络分支改进的深度Q网络示意图。对于每个子动作,网络从子动作的优势中减去分支中所有子动作的平均优势,然后将其与状态值结合起来,作为子动作的Q值,最终输出动作组合w(t)。令un∈μ={0,1,…,M}表示服务器节点n的可行子动作,其中un=0表示服务器节点不参与调度,un=m表示服务器节点n调度传感器节点m。由此,在线网络中子动作un的Q值为:
其中,O(s,un|θ)为子动作的优势值,V(s|θ)为在线网络Q中状态值s的估计值。
图3为调度网络结构示意图,调度网络设置了在线网络和目标网络,都是由改进的Q网络组成。在线网络根据输入的系统状态获得由分支动作的组成的动作组合w(t),执行动作后将经验存储至回放缓存,然后从缓存中随机抽取经验,通过目标网络计算每个分支的目标值,进而结合在线网络计算损失函数。
对于每个分支,其目标值yn为:
由于在线网络和目标网络的网络结构相同,Q′n(s(t+1),u′n|θ′t)值可以通过类似Q值的计算方式得到。则损失函数定义为:
梯度下降法被用来更新网络参数以最小化损失函数。在损失函数的变化趋于稳定到达终止条件后,得到面向多传感器多服务器的调度方法。
图4为本发明基于信息年龄的工业物联网调度方法流程图,具体包括以下步骤:
V1~V4:获取工业物联网系统模型参数,构造学习最优调度策略的调度网络,确定网络的状态空间、动作空间以及代价函数。
V5~V9:目标节点通过信息年龄迭代模型进行更新数据,将当前时隙下的状态输入至调度网络,采用固定优势策略生成优势动作探索空间,执行动作并进行经验存储。
V10~V13:抽取经验片段计算各分支的目标值,获得损失函数,根据梯度下降法更新参数。
V14~V15:在损失函数稳定达到训练终止条件后,生成调度网络参数,工业物联网系统则根据训练完备的调度网络进行链路调度。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种多传感器多服务器工业物联网的信息年龄优化调度方法,其特征在于,该方法具体包括以下步骤:
S1:获取多传感器多服务器工业物联网系统参数,构建系统信息年龄更新模型,构造学习最优调度策略的调度网络;
S2:构建最小化系统平均信息年龄的优化问题,并根据系统信息年龄更新模型建立系统的状态空间、动作空间和代价函数,从而将链路调度、服务器选择和服务抢占的强耦合优化问题转化为马尔科夫决策过程;
S3:在每个时隙系统进行更新时,调度网络采用固定优势策略生成优势动作探索空间,以及通过共享决策模块和多个网络分支改进的深度Q网络优化动作空间,减少调度网络输出的数量;
S4:调度网络在学习最优调度策略的过程中更新网络参数,在损失函数趋于稳定后,得到面向多传感器多服务器的链路调度方法。
2.根据权利要求1所述的信息年龄优化调度方法,其特征在于,步骤S1中,构建系统信息年龄更新模型具体包括以下步骤:
S11:设一个由M个传感器节点、N个服务器节点和一个目标节点组成的工业物联网系统,其中传感器节点采样的数据通过无线信道传输到服务器节点并进行处理,然后服务器节点通过有线连接交付数据至目标节点,m∈{1,2,…,M}和n∈{1,2,…,N}分别表示传感器节点和服务器节点的索引;系统交付数据是基于时隙的,一个时隙交付一个数据,且t∈{1,2,…,T}表示时隙的索引;在每个时隙开始时,最多能调度min{M,N}个数据通过正交通道进行无冲突的传输,传输成功后到达对应的服务器;信道噪声下传感器节点m向服务器节点n成功传递数据的概率为pm,n∈(0,1];一个数据不能被多个服务器调度,一个服务器也不能在每个时隙调度多个数据;从服务器节点到目标节点的传输时间忽略不计;
S12:每个传感器节点能存储一个数据,被采集数据的生成速率遵循λm∈(0,1]的伯努利分布;当有新数据产生时,缓存中的旧数据将被替换;每个服务器节点能缓存一个数据进行处理,并且允许服务被抢占,即服务器能优先处理新接收到的数据,丢弃当前的旧数据;有限正整数cm,n表示服务器节点n完成传感器节点m的数据处理所需时隙;
S13:信息年龄为目标节点最新接收到的数据在生成以来所经过的时间;定义表示在时隙t传感器节点m数据的信息年龄,设gm(t)∈{0,1}表示传感器节点m在时隙t是否生成新数据,若生成则gm(t)=1,否则gm(t)=0;目标节点处信息年龄的更新过程表示为:
S14:对于服务器节点,令表示在时隙t传感器节点m交付给服务器节点n数据的信息年龄,并定义dm,n(t)∈{0,1}表示服务器节点n在时隙t是否调度传感器节点m的数据,若当前时隙调度传感器节点m,则dm,n(t)=1,否则dm,n(t)=0;定义fm,n(t)=1表示当前服务器节点n成功接收到传感器节点m的数据,否则fm,n(t)=0;的更新过程如下:
S15:在目标节点处数据的信息年龄受处理时间的影响,定义lm,n(t)∈{0,1,…,cm,n}表示服务器节点n处理传感器节点m数据所占用的时隙数;令im,n(t)∈{0,1}表示处理传感器节点数据的状态,其中im,n(t)=1表示传感器节点m的数据被处理完成,im,n(t)=0表示未处理完成;im,n(t)和lm,n(t)的具体更新过程分别为:
7.根据权利要求4所述的信息年龄优化调度方法,其特征在于,步骤S3中,调度网络采用固定优势策略生成优势动作探索空间,具体包括:在调度网络选择状态动作对进行学习时,利用固定优势策略减少探索过程中的低效状态动作对;当服务器节点n不参与调度时,将继续执行当前的计算任务,期望信息年龄减少与耗时之比计算为:当服务器节点n选择传感器节点m进行调度时,期望花费的时间为调度次数与完成计算任务所需的时间之和;期望信息年龄减少与时间消耗的比率为由此,在时隙t服务器节点n的动作比率为:
8.根据权利要求1或5所述的信息年龄优化调度方法,其特征在于,步骤S3中,通过共享决策模块和多个网络分支优化动作空间,具体包括:对深度Q网络结构进行改进,在网络中分别设置价值函数网络和优势函数网络,其中价值函数与状态有关而与动作无关,优势函数与状态和动作都有关;这两部分共享一个共同的学习模块,以价值函数网络输出和优势函数网络输出的线性组合作为网络的最终输出;价值函数网络根据动作的特点对高维动作进行分支,形成若干附加于共享模块之后的关联分支来评估每个子动作的Q值,然后由子动作组合形成调度动作,从而减少网络输出的数量。
9.根据权利要求1所述的信息年龄优化调度方法,其特征在于,步骤S4具体包括以下步骤:
S41:设置由在线网络和目标网络组成的调度网络,两种网络均是由共享决策模块和多个网络分支改进的深度Q网络组成;
S42:在线网络根据输入的系统状态和优势动作探索空间,获得由分支动作组成的动作组合ω(t),执行动作后将经验存储至回放缓存;
S43:从缓存中随机抽取经验,通过目标网络计算每个分支的目标值,进而结合在线网络计算损失函数;具体步骤如下:
S431:对于每个子动作,在线网络从子动作的优势中减去分支中所有子动作的平均优势,然后将其与状态值结合起来,作为子动作的Q值;令un∈μ={0,1,…,M}表示服务器节点n的可行子动作,其中un=0表示服务器节点不参与调度,un=m表示服务器节点n调度传感器节点m;由此,在线网络中子动作un的Q值为:
S432:对于每个分支,其目标值yn为:
其中,c(t)为代价函数,γ为累计折扣因子,u′n为目标网络中分支n的任意可选子动作,Q′n(s(t+1),u′n|θ′t)为状态s(t+1)和子动作u′n下目标网络分支n的Q值;由于在线网络和目标网络的网络结构相同,Q′n(s(t+1),u′n|θ′t)值通过类似Q值的计算方式得到;定义损失函数为:
S44:根据梯度下降法更新网络参数以最小化损失函数,在损失函数的变化趋于稳定到达终止条件后,得到面向多传感器多服务器的调度方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211241536.3A CN115643594B (zh) | 2022-10-11 | 2022-10-11 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
PCT/CN2023/075323 WO2024077819A1 (zh) | 2022-10-11 | 2023-02-10 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211241536.3A CN115643594B (zh) | 2022-10-11 | 2022-10-11 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115643594A true CN115643594A (zh) | 2023-01-24 |
CN115643594B CN115643594B (zh) | 2024-08-02 |
Family
ID=84945653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211241536.3A Active CN115643594B (zh) | 2022-10-11 | 2022-10-11 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115643594B (zh) |
WO (1) | WO2024077819A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116156654A (zh) * | 2023-02-24 | 2023-05-23 | 重庆控环科技集团有限公司 | 联合数据价值与信息年龄的多集群视频直播系统调度方法 |
WO2024077819A1 (zh) * | 2022-10-11 | 2024-04-18 | 重庆邮电大学 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307877A (zh) * | 2019-07-26 | 2021-02-02 | 株式会社倍乐生 | 信息处理方法、信息处理装置及计算机可读取的存储介质 |
US10956855B1 (en) * | 2015-08-16 | 2021-03-23 | Palidian Incorporated | Integrated multi-location scheduling, routing, and task management |
CN113891276A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
CN114330885A (zh) * | 2021-12-29 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 目标状态的确定方法、装置、设备以及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580196B (zh) * | 2019-09-12 | 2021-04-06 | 北京邮电大学 | 一种实现并行任务调度的多任务强化学习方法 |
CN112888004B (zh) * | 2021-02-08 | 2022-10-25 | 华南理工大学 | 一种物联网中多源节点信息更新的信息年龄优化方法 |
CN115643594B (zh) * | 2022-10-11 | 2024-08-02 | 重庆邮电大学 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
-
2022
- 2022-10-11 CN CN202211241536.3A patent/CN115643594B/zh active Active
-
2023
- 2023-02-10 WO PCT/CN2023/075323 patent/WO2024077819A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956855B1 (en) * | 2015-08-16 | 2021-03-23 | Palidian Incorporated | Integrated multi-location scheduling, routing, and task management |
CN112307877A (zh) * | 2019-07-26 | 2021-02-02 | 株式会社倍乐生 | 信息处理方法、信息处理装置及计算机可读取的存储介质 |
CN113891276A (zh) * | 2021-10-26 | 2022-01-04 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
CN114330885A (zh) * | 2021-12-29 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 目标状态的确定方法、装置、设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
DA SONG等: "Cloud-Edge Computing Resource Collaborative Optimization Method for Power Distribution Fault Analysis Service", 2021 CHINA INTERNATIONAL CONFERENCE ON ELECTRICITY DISTRIBUTION (CICED), 8 October 2021 (2021-10-08) * |
丁承君;刘强;田军强;朱雪宏;: "信息物理系统事件驱动下的农业气象监测系统", 江苏农业学报, no. 04, 5 September 2018 (2018-09-05) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024077819A1 (zh) * | 2022-10-11 | 2024-04-18 | 重庆邮电大学 | 多传感器多服务器工业物联网的信息年龄优化调度方法 |
CN116156654A (zh) * | 2023-02-24 | 2023-05-23 | 重庆控环科技集团有限公司 | 联合数据价值与信息年龄的多集群视频直播系统调度方法 |
CN116156654B (zh) * | 2023-02-24 | 2023-08-29 | 重庆控环科技集团有限公司 | 联合数据价值与信息年龄的多集群视频直播系统调度方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2024077819A1 (zh) | 2024-04-18 |
CN115643594B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115643594A (zh) | 多传感器多服务器工业物联网的信息年龄优化调度方法 | |
Kalathil et al. | Decentralized learning for multiplayer multiarmed bandits | |
CN111199360B (zh) | 无人机任务分配规划方法 | |
CN111367657B (zh) | 一种基于深度强化学习的计算资源协同合作方法 | |
CN111858009A (zh) | 基于迁移和强化学习的移动边缘计算系统任务调度方法 | |
CN112437131A (zh) | 物联网中考虑数据相关性的数据动态采集与传输方法 | |
CN111740925B (zh) | 一种基于深度强化学习的Coflow调度方法 | |
CN112948885B (zh) | 实现隐私保护的多方协同更新模型的方法、装置及系统 | |
CN112149990B (zh) | 一种基于预测的模糊供需匹配方法 | |
CN114995119A (zh) | 基于多智能体深度强化学习的城市交通信号协同控制方法 | |
CN112203307A (zh) | 一种支持信息年龄优化的多信道无线网络调度方法 | |
CN116489226A (zh) | 一种服务质量保障的在线资源调度方法 | |
CN114501667A (zh) | 一种考虑业务优先级的多信道接入建模及分布式实现方法 | |
CN116456480A (zh) | 通信资源受限下基于深度强化学习的多智能体协同决策方法 | |
CN114022731A (zh) | 基于drl的联邦学习节点选择方法 | |
CN107992999B (zh) | 一种面向个性化生产环境的多主体调度方法 | |
Xie et al. | Scheduling for minimizing the age of information in multisensor multiserver Industrial Internet of Things systems | |
CN117008995A (zh) | 一种工业软件组件服务功能链装配集成方法 | |
Zheng et al. | Green Simulation Based Policy Optimization with Partial Historical Trajectory Reuse | |
CN113869511A (zh) | 一种基于策略迁移的多智能体协同进化方法 | |
Kim et al. | RL-based transmission completion time minimization with energy harvesting for time-varying channels | |
US12050438B1 (en) | Collaborative intelligence of artificial intelligence agents | |
Huang et al. | DVF: Multi-agent Q-learning with difference value factorization | |
Gracla et al. | On the Importance of Exploration for Real Life Learned Algorithms | |
CN116455754A (zh) | 多智能体强化学习通信方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |