CN115643594A - 多传感器多服务器工业物联网的信息年龄优化调度方法 - Google Patents

多传感器多服务器工业物联网的信息年龄优化调度方法 Download PDF

Info

Publication number
CN115643594A
CN115643594A CN202211241536.3A CN202211241536A CN115643594A CN 115643594 A CN115643594 A CN 115643594A CN 202211241536 A CN202211241536 A CN 202211241536A CN 115643594 A CN115643594 A CN 115643594A
Authority
CN
China
Prior art keywords
network
data
server
node
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211241536.3A
Other languages
English (en)
Other versions
CN115643594B (zh
Inventor
王恒
谢鑫
王雨洁
王平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211241536.3A priority Critical patent/CN115643594B/zh
Publication of CN115643594A publication Critical patent/CN115643594A/zh
Priority to PCT/CN2023/075323 priority patent/WO2024077819A1/zh
Application granted granted Critical
Publication of CN115643594B publication Critical patent/CN115643594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Small-Scale Networks (AREA)

Abstract

本发明涉及一种多传感器多服务器工业物联网的信息年龄优化调度方法,属于工业无线网络技术领域。该方法面向多传感器多服务器的工业物联网系统,通过选择每个时隙的链路调度组合来最小化系统的平均信息年龄,将链路调度、服务器选择和服务抢占的强耦合优化问题构造为马尔可夫决策过程,采用共享决策模块和多个网络分支改进的深度Q网络减少问题求解的状态空间和动作空间,并利用固定优势策略来加快训练速度,获得链路调度方法。本发明通过分支深度Q网络和固定优势策略,加快了调度方法的学习速度,保障了工业物联网数据交付的新鲜度。

Description

多传感器多服务器工业物联网的信息年龄优化调度方法
技术领域
本发明属于工业无线网络技术领域,涉及一种多传感器多服务器工业物联网的信息年龄优化调度方法。
背景技术
随着工业4.0时代的到来,实时工业物联网应用的普及对网络的实时保障技术提出了新的要求。尤其是工厂自动化、智能制造等工业物联网应用更依赖于新鲜数据的及时交付。为了有效地衡量新数据交付的时效性,信息年龄的概念被提出,定义为目的地最新接收到的数据自生成以来所经过的时间,专注于数据使用者对所接受数据新鲜度的要求。
在工业物联网系统中,多传感器多服务器是一种常见的系统架构,传感器可以任意选择一台服务器进行数据的传输和处理。然而,与多传感器单服务器的系统相比,多服务器场景中的调度问题更加复杂。首先,每个传感器和每个服务器可以进行互相配对以进行数据传输,可选的调度组合数量更多。其次,服务器必须在继续处理当前数据和调度新数据之间做出选择,进一步增加了调度组合的求解空间。最后,最优链路调度组合的确定需要满足链路冲突约束,使得策略的制定更加复杂。因此,如何在满足链路冲突约束的条件下,发明一种适用于多传感器多服务器工业物联网的信息年龄优化调度方法,使得系统数据平均信息年龄最小化,成为了一个重要的挑战。
发明内容
有鉴于此,本发明的目的在于提供一种适用于多传感器多服务器工业物联网的信息年龄优化调度方法,在多传感器多服务器的工业物联网系统模型中,构建网络交付数据的信息年龄更新模型,并将最小化网络平均信息年龄的优化问题表述为马尔科夫决策过程,进一步通过调度网络学习最优调度策略。本发明能减少深度强化学习方法表达的状态空间和动作空间并加快调度策略的学习速度,提高系统数据交付的及时性。
为达到上述目的,本发明提供如下技术方案:
一种多传感器多服务器工业物联网的信息年龄优化调度方法,通过选择每个时隙的链路调度组合来最小化系统的平均信息年龄,将链路调度、服务器选择和服务抢占的强耦合优化问题构造为马尔可夫决策过程,采用共享决策模块和多个网络分支改进的深度Q网络减少问题求解的状态空间和动作空间,并利用固定优势策略来加快训练速度获得链路调度方法。该方法具体包括以下步骤:
S1:获取多传感器多服务器工业物联网系统参数,构建系统信息年龄更新模型,构造学习最优调度策略的调度网络;
S2:构建最小化系统平均信息年龄的优化问题,并根据系统信息年龄更新模型建立系统的状态空间、动作空间和代价函数,从而将链路调度、服务器选择和服务抢占的强耦合优化问题转化为马尔科夫决策过程;
S3:在每个时隙系统进行更新时,调度网络采用固定优势策略生成优势动作探索空间,以及通过共享决策模块和多个网络分支改进的深度Q网络优化动作空间,减少调度网络输出的数量;
S4:调度网络在学习最优调度策略的过程中更新网络参数,在损失函数趋于稳定后,得到面向多传感器多服务器的链路调度方法。
进一步,步骤S1中,构建系统信息年龄更新模型具体包括以下步骤:
S11:设一个由M个传感器节点、N个服务器节点和一个目标节点(控制中心)组成的工业物联网系统,其中传感器节点采样的数据通过无线信道传输到服务器节点并进行处理,然后服务器节点通过有线连接交付数据至目标节点,m∈{1,2,…,M}和n∈{1,2,…,N}分别表示传感器节点和服务器节点的索引;系统交付数据是基于时隙的,一个时隙交付一个数据,且t∈{1,2,…,T}表示时隙的索引;在每个时隙开始时,最多能调度min{M,N}个数据通过正交通道进行无冲突的传输,传输成功后到达对应的服务器;信道噪声下传感器节点m向服务器节点n成功传递数据的概率为pm,n∈(0,1];由于链路冲突的存在,一个数据不能被多个服务器调度,一个服务器也不能在每个时隙调度多个数据;由于有线链路的数据传输速率远高于无线信道,因此从服务器节点到目标节点的传输时间可以忽略不计;
S12:每个传感器节点能存储一个数据,被采集数据的生成速率遵循λm∈(0,1]的伯努利分布;当有新数据产生时,缓存中的旧数据将被替换;每个服务器节点能缓存一个数据进行处理,并且允许服务被抢占,即服务器能优先处理新接收到的数据,丢弃当前的旧数据;有限正整数cm,n表示服务器节点n完成传感器节点m的数据处理所需时隙;
S13:信息年龄为目标节点最新接收到的数据在生成以来所经过的时间;定义
Figure BDA0003884428680000021
表示在时隙t传感器节点m数据的信息年龄,设gm(t)∈{0,1}表示传感器节点m在时隙t是否生成新数据,若生成则gm(t)=1,否则gm(t)=0;目标节点处信息年龄
Figure BDA0003884428680000022
的更新过程表示为:
Figure BDA0003884428680000031
S14:对于服务器节点,令
Figure BDA0003884428680000032
表示在时隙t传感器节点m交付给服务器节点n数据的信息年龄,并定义dm,n(t)∈{0,1}表示服务器节点n在时隙t是否调度传感器节点m的数据,若当前时隙调度传感器节点m,则dm,n(t)=1,否则dm,n(t)=0;定义fm,n(t)=1表示当前服务器节点n成功接收到传感器节点m的数据,否则fm,n(t)=o;
Figure BDA0003884428680000033
的更新过程如下:
Figure BDA0003884428680000034
S15:在目标节点处数据的信息年龄受处理时间的影响,定义lm,n(t)∈{0,1,…,cm,n}表示服务器节点n处理传感器节点m数据所占用的时隙数;令im,n(t)∈{0,1}表示处理传感器节点数据的状态,其中im,n(t)=1表示传感器节点m的数据被处理完成,im,n(t)=0表示未处理完成;im,n(t)和lm,n(t)的具体更新过程分别为:
Figure BDA0003884428680000035
Figure BDA0003884428680000036
S16:当传感器节点m的数据处理完成后,交付给目标节点;令
Figure BDA0003884428680000037
表示目标节点处来自传感器节点m数据的信息年龄,则
Figure BDA0003884428680000038
的更新过程表示为:
Figure BDA0003884428680000039
进一步,步骤S2中,构建最小化系统平均信息年龄的优化问题,具体包括以下步骤:
S201:在长期时间T→∞的条件下,通过目标节点的平均信息年龄来衡量网络的数据新鲜度,在任意可行策略π下,目标节点的期望平均信息年龄
Figure BDA00038844286800000310
可表示为:
Figure BDA00038844286800000311
其中,
Figure BDA00038844286800000312
表示系统初始系统状态信息年龄;
S202:为避免调度时链路之间的冲突,定义∏表示所有可行调度策略的集合,其中π∈∏;由此最小化系统平均信息年龄的优化问题可表述为:
Figure BDA0003884428680000041
满足于:
Figure BDA0003884428680000042
Figure BDA0003884428680000043
其中,π*表示最优调度策略。
进一步,步骤S2中,建立系统的状态空间具体包括:系统的状态空间应该捕获网络中每个节点中数据的信息年龄,此外,还应考虑服务器处理的数据的索引。设vn(t)={0,1,…,M}为服务器n在时隙t处理数据的索引,其中vn(t)=0表示在时隙t服务器n空闲;则系统状态空间s(t)表示为:
s(t)=(as(t),ad(t),v(t),at(t),l(t))
其中,
Figure BDA0003884428680000044
v(t)=(v1(t),v2(t),…,vN(t)),
Figure BDA0003884428680000045
Figure BDA0003884428680000046
进一步,步骤S2中,建立系统的动作空间具体包括:动作空间通过尺寸为M×N的矩阵ω(t)来表示,每行元素的和代表一个动作,每列元素的和都小于或等于1,其中索引为(m,n)的元素表示动作dm,n(t),由此得到:
Figure BDA0003884428680000047
令|ω|为动作空间的大小,则系统动作的数量为:
Figure BDA0003884428680000048
进一步,步骤S2中,建立系统的代价函数具体包括:针对优化目标,将执行一个动作后下一个时隙的信息年龄作为代价,代价函数c(t)定义为:
Figure BDA0003884428680000049
进一步,步骤S3中,具体包括以下步骤:
S31:调度网络采用固定优势策略生成优势动作探索空间,具体包括:在调度网络选择状态动作对进行学习时,利用固定优势策略减少探索过程中的低效状态动作对;当服务器节点n不参与调度时,将继续执行当前的计算任务,期望信息年龄减少与耗时之比可计算为:
Figure BDA0003884428680000051
当服务器节点n选择传感器节点m进行调度时,期望花费的时间为调度次数与完成计算任务所需的时间之和;期望信息年龄减少与时间消耗的比率为
Figure BDA0003884428680000052
由此,在时隙t服务器节点n的动作比率
Figure BDA0003884428680000053
为:
Figure BDA0003884428680000054
进一步定义每个动作ω(t)下的比率为
Figure BDA0003884428680000055
为:
Figure BDA0003884428680000056
在探索的过程中,建立由
Figure BDA0003884428680000057
的值最大的ρ个动作组成的导向状态空间Wρ,其中ρ是设置探索范围的一个正整数超参。
S32:通过共享决策模块和多个网络分支优化动作空间,具体包括:为了降低由于大的动作空间而产生的复杂性,对深度Q网络结构进行改进,在网络中分别设置价值函数网络和优势函数网络,其中价值函数与状态有关而与动作无关,优势函数与状态和动作都有关;这两部分共享一个共同的学习模块,以价值函数网络输出和优势函数网络输出的线性组合作为网络的最终输出;价值函数网络根据动作的特点对高维动作进行分支,形成若干附加于共享模块之后的关联分支来评估每个子动作的Q值,然后由子动作组合形成调度动作,从而减少网络输出的数量。至此,改进后的深度Q网络的输出量可由
Figure BDA0003884428680000058
减少为N(M+1)+1。
进一步,步骤S4具体包括以下步骤:
S41:设置由在线网络和目标网络组成的调度网络,两种网络均是由共享决策模块和多个网络分支改进的深度Q网络组成;
S42:在线网络根据输入的系统状态和优势动作探索空间,获得由分支动作组成的动作组合ω(t),执行动作后将经验存储至回放缓存;
S43:从缓存中随机抽取经验,通过目标网络计算每个分支的目标值,进而结合在线网络计算损失函数;具体步骤如下:
S431:对于每个子动作,在线网络从子动作的优势中减去分支中所有子动作的平均优势,然后将其与状态值结合起来,作为子动作的Q值;令un∈μ={0,1,…,M}表示服务器节点n的可行子动作,其中un=0表示服务器节点不参与调度,un=m表示服务器节点n调度传感器节点m;由此,在线网络中子动作un的Q值为:
Figure BDA0003884428680000061
其中,O(s,un|θ)为子动作的优势值,V(s|θ)为在线网络Q中状态值s的估计值,
Figure BDA0003884428680000062
为在线网络中分支n的任意可选子动作;
S432:对于每个分支,其目标值yn为:
Figure BDA0003884428680000063
其中,c(t)为代价函数,γ为累计折扣因子,u′n为目标网络中分支n的任意可选子动作,Q′n(s(t+1),u′n|θ′t)为状态s(t+1)和子动作u′n下目标网络分支n的Q值;由于在线网络和目标网络的网络结构相同,Q′n(s(t+1),u′n|θ′t)值可以通过类似Q值的计算方式得到;定义损失函数为:
Figure BDA0003884428680000064
S44:根据梯度下降法更新网络参数以最小化损失函数,在损失函数的变化趋于稳定到达终止条件后,得到面向多传感器多服务器的调度方法。
本发明的有益效果在于:
(1)本发明联合考虑了链路调度、服务器选择和业务抢占等因素,对系统平均信息年龄进行了优化,保障了工业物联网系统数据交付的新鲜度。
(2)本发明采用共享决策模块和多个网络分支对深度Q网络进行改进,利用固定优势策略进行动作探索,在减少网络表征的状态空间和动作空间的同时,有效地提高了调度策略的学习速度,使得调度方法能够部署于大规模多传感器多服务器工业物联网系统。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所提供多传感器多服务器工业物联网结构示意图;
图2为本发明采用的共享决策模块和多个网络分支改进的深度Q网络示意图;
图3为本发明调度网络结构示意图;
图4为本发明基于信息年龄的工业物联网调度方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,本发明针对多传感器多服务器的工业物联网系统,通过选择每个时隙的链路调度组合来最小化系统的平均信息年龄,将链路调度、服务器选择和服务抢占的强耦合优化问题构造为马尔可夫决策过程,采用共享决策模块和多个网络分支改进的深度Q网络减少问题求解的状态空间和动作空间,并利用固定优势策略来加快训练速度,发明一种基于深度强化学习的调度方法。
图1为多传感器多服务器工业物联网结构示意图。一个由M个传感器节点、N个服务器节点和一个目标节点(控制中心)组成的工业物联网系统,其中传感器节点采样的数据通过无线信道传输到服务器节点并进行处理,然后服务器节点通过有线连接交付数据至目标节点,m∈{1,2,…,M}和n∈{1,2,…,N}分别表示传感器节点和服务器节点的索引。系统交付数据是基于时隙的,一个时隙交付一个数据,且t∈{1,2,…,T}表示时隙的索引。在每个时隙开始时,最多可调度min{M,N}个数据通过正交通道进行无冲突的传输,传输成功后到达对应的服务器。信道噪声下传感器节点m向服务器节点n成功传递数据的概率为pm,n∈(0,1]。由于链路冲突的存在,一个数据不能被多个服务器调度,一个服务器也不能在每个时隙调度多个数据。由于有线链路的数据传输速率远高于无线信道,因此从服务器节点到目标节点的传输时间可以忽略不计。
每个传感器节点可以存储一个数据,被采集数据的生成速率遵循λm∈(0,1]的伯努利分布。当有新数据产生时,缓存中的旧数据将被替换。每个服务器节点可以缓存一个数据进行处理,并且允许服务被抢占,即服务器可以优先处理新接收到的数据,丢弃当前的旧数据。有限正整数cm,n表示服务器节点n完成传感器节点m的数据处理所需时隙。
图2为共享决策模块和多个网络分支改进的深度Q网络示意图。对于每个子动作,网络从子动作的优势中减去分支中所有子动作的平均优势,然后将其与状态值结合起来,作为子动作的Q值,最终输出动作组合w(t)。令un∈μ={0,1,…,M}表示服务器节点n的可行子动作,其中un=0表示服务器节点不参与调度,un=m表示服务器节点n调度传感器节点m。由此,在线网络中子动作un的Q值为:
Figure BDA0003884428680000081
其中,O(s,un|θ)为子动作的优势值,V(s|θ)为在线网络Q中状态值s的估计值。
图3为调度网络结构示意图,调度网络设置了在线网络和目标网络,都是由改进的Q网络组成。在线网络根据输入的系统状态获得由分支动作的组成的动作组合w(t),执行动作后将经验存储至回放缓存,然后从缓存中随机抽取经验,通过目标网络计算每个分支的目标值,进而结合在线网络计算损失函数。
对于每个分支,其目标值yn为:
Figure BDA0003884428680000082
由于在线网络和目标网络的网络结构相同,Q′n(s(t+1),u′n|θ′t)值可以通过类似Q值的计算方式得到。则损失函数定义为:
Figure BDA0003884428680000091
梯度下降法被用来更新网络参数以最小化损失函数。在损失函数的变化趋于稳定到达终止条件后,得到面向多传感器多服务器的调度方法。
图4为本发明基于信息年龄的工业物联网调度方法流程图,具体包括以下步骤:
V1~V4:获取工业物联网系统模型参数,构造学习最优调度策略的调度网络,确定网络的状态空间、动作空间以及代价函数。
V5~V9:目标节点通过信息年龄迭代模型进行更新数据,将当前时隙下的状态输入至调度网络,采用固定优势策略生成优势动作探索空间,执行动作并进行经验存储。
V10~V13:抽取经验片段计算各分支的目标值,获得损失函数,根据梯度下降法更新参数。
V14~V15:在损失函数稳定达到训练终止条件后,生成调度网络参数,工业物联网系统则根据训练完备的调度网络进行链路调度。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种多传感器多服务器工业物联网的信息年龄优化调度方法,其特征在于,该方法具体包括以下步骤:
S1:获取多传感器多服务器工业物联网系统参数,构建系统信息年龄更新模型,构造学习最优调度策略的调度网络;
S2:构建最小化系统平均信息年龄的优化问题,并根据系统信息年龄更新模型建立系统的状态空间、动作空间和代价函数,从而将链路调度、服务器选择和服务抢占的强耦合优化问题转化为马尔科夫决策过程;
S3:在每个时隙系统进行更新时,调度网络采用固定优势策略生成优势动作探索空间,以及通过共享决策模块和多个网络分支改进的深度Q网络优化动作空间,减少调度网络输出的数量;
S4:调度网络在学习最优调度策略的过程中更新网络参数,在损失函数趋于稳定后,得到面向多传感器多服务器的链路调度方法。
2.根据权利要求1所述的信息年龄优化调度方法,其特征在于,步骤S1中,构建系统信息年龄更新模型具体包括以下步骤:
S11:设一个由M个传感器节点、N个服务器节点和一个目标节点组成的工业物联网系统,其中传感器节点采样的数据通过无线信道传输到服务器节点并进行处理,然后服务器节点通过有线连接交付数据至目标节点,m∈{1,2,…,M}和n∈{1,2,…,N}分别表示传感器节点和服务器节点的索引;系统交付数据是基于时隙的,一个时隙交付一个数据,且t∈{1,2,…,T}表示时隙的索引;在每个时隙开始时,最多能调度min{M,N}个数据通过正交通道进行无冲突的传输,传输成功后到达对应的服务器;信道噪声下传感器节点m向服务器节点n成功传递数据的概率为pm,n∈(0,1];一个数据不能被多个服务器调度,一个服务器也不能在每个时隙调度多个数据;从服务器节点到目标节点的传输时间忽略不计;
S12:每个传感器节点能存储一个数据,被采集数据的生成速率遵循λm∈(0,1]的伯努利分布;当有新数据产生时,缓存中的旧数据将被替换;每个服务器节点能缓存一个数据进行处理,并且允许服务被抢占,即服务器能优先处理新接收到的数据,丢弃当前的旧数据;有限正整数cm,n表示服务器节点n完成传感器节点m的数据处理所需时隙;
S13:信息年龄为目标节点最新接收到的数据在生成以来所经过的时间;定义
Figure FDA0003884428670000011
表示在时隙t传感器节点m数据的信息年龄,设gm(t)∈{0,1}表示传感器节点m在时隙t是否生成新数据,若生成则gm(t)=1,否则gm(t)=0;目标节点处信息年龄
Figure FDA0003884428670000021
的更新过程表示为:
Figure FDA0003884428670000022
S14:对于服务器节点,令
Figure FDA0003884428670000023
表示在时隙t传感器节点m交付给服务器节点n数据的信息年龄,并定义dm,n(t)∈{0,1}表示服务器节点n在时隙t是否调度传感器节点m的数据,若当前时隙调度传感器节点m,则dm,n(t)=1,否则dm,n(t)=0;定义fm,n(t)=1表示当前服务器节点n成功接收到传感器节点m的数据,否则fm,n(t)=0;
Figure FDA0003884428670000024
的更新过程如下:
Figure FDA0003884428670000025
S15:在目标节点处数据的信息年龄受处理时间的影响,定义lm,n(t)∈{0,1,…,cm,n}表示服务器节点n处理传感器节点m数据所占用的时隙数;令im,n(t)∈{0,1}表示处理传感器节点数据的状态,其中im,n(t)=1表示传感器节点m的数据被处理完成,im,n(t)=0表示未处理完成;im,n(t)和lm,n(t)的具体更新过程分别为:
Figure FDA0003884428670000026
Figure FDA0003884428670000027
S16:当传感器节点m的数据处理完成后,交付给目标节点;令
Figure FDA0003884428670000028
表示目标节点处来自传感器节点m数据的信息年龄,则
Figure FDA0003884428670000029
的更新过程表示为:
Figure FDA00038844286700000210
3.根据权利要求2所述的信息年龄优化调度方法,其特征在于,步骤S2中,构建最小化系统平均信息年龄的优化问题,具体包括以下步骤:
S201:在长期时间T→∞的条件下,通过目标节点的平均信息年龄来衡量网络的数据新鲜度,在任意可行策略π下,目标节点的期望平均信息年龄
Figure FDA00038844286700000211
表示为:
Figure FDA0003884428670000031
其中,
Figure FDA0003884428670000032
表示系统初始系统状态信息年龄;
S202:为避免调度时链路之间的冲突,定义∏表示所有可行调度策略的集合,其中π∈∏;由此最小化系统平均信息年龄的优化问题表述为:
Figure FDA0003884428670000033
满足于:
Figure FDA0003884428670000034
Figure FDA0003884428670000035
其中,π*表示最优调度策略。
4.根据权利要求3所述的信息年龄优化调度方法,其特征在于,步骤S2中,建立系统的状态空间具体包括:设vn(t)={0,1,…,M}为服务器n在时隙t处理数据的索引,其中vn(t)=0表示在时隙t服务器n空闲;则系统状态空间s(t)表示为:
s(t)=(as(t),ad(t),v(t),ar(t),l(t))
其中,
Figure FDA0003884428670000036
Figure FDA0003884428670000037
Figure FDA0003884428670000038
5.根据权利要求3所述的信息年龄优化调度方法,其特征在于,步骤S2中,建立系统的动作空间具体包括:动作空间通过尺寸为M×N的矩阵ω(t)来表示,每行元素的和代表一个动作,每列元素的和都小于或等于1,其中索引为(m,n)的元素表示动作dm,n(t),由此得到:
Figure FDA0003884428670000039
令|ω|为动作空间的大小,则系统动作的数量为:
Figure FDA00038844286700000310
6.根据权利要求3所述的信息年龄优化调度方法,其特征在于,步骤S2中,建立系统的代价函数c(t)定义为:
Figure FDA0003884428670000041
7.根据权利要求4所述的信息年龄优化调度方法,其特征在于,步骤S3中,调度网络采用固定优势策略生成优势动作探索空间,具体包括:在调度网络选择状态动作对进行学习时,利用固定优势策略减少探索过程中的低效状态动作对;当服务器节点n不参与调度时,将继续执行当前的计算任务,期望信息年龄减少与耗时之比计算为:
Figure FDA0003884428670000042
当服务器节点n选择传感器节点m进行调度时,期望花费的时间为调度次数与完成计算任务所需的时间之和;期望信息年龄减少与时间消耗的比率为
Figure FDA0003884428670000043
由此,在时隙t服务器节点n的动作比率
Figure FDA0003884428670000044
为:
Figure FDA0003884428670000045
进一步定义每个动作ω(t)下的比率为
Figure FDA0003884428670000046
为:
Figure FDA0003884428670000047
在探索的过程中,建立由
Figure FDA0003884428670000048
的值最大的ρ个动作组成的导向状态空间Wρ,其中ρ是设置探索范围的一个正整数超参。
8.根据权利要求1或5所述的信息年龄优化调度方法,其特征在于,步骤S3中,通过共享决策模块和多个网络分支优化动作空间,具体包括:对深度Q网络结构进行改进,在网络中分别设置价值函数网络和优势函数网络,其中价值函数与状态有关而与动作无关,优势函数与状态和动作都有关;这两部分共享一个共同的学习模块,以价值函数网络输出和优势函数网络输出的线性组合作为网络的最终输出;价值函数网络根据动作的特点对高维动作进行分支,形成若干附加于共享模块之后的关联分支来评估每个子动作的Q值,然后由子动作组合形成调度动作,从而减少网络输出的数量。
9.根据权利要求1所述的信息年龄优化调度方法,其特征在于,步骤S4具体包括以下步骤:
S41:设置由在线网络和目标网络组成的调度网络,两种网络均是由共享决策模块和多个网络分支改进的深度Q网络组成;
S42:在线网络根据输入的系统状态和优势动作探索空间,获得由分支动作组成的动作组合ω(t),执行动作后将经验存储至回放缓存;
S43:从缓存中随机抽取经验,通过目标网络计算每个分支的目标值,进而结合在线网络计算损失函数;具体步骤如下:
S431:对于每个子动作,在线网络从子动作的优势中减去分支中所有子动作的平均优势,然后将其与状态值结合起来,作为子动作的Q值;令un∈μ={0,1,…,M}表示服务器节点n的可行子动作,其中un=0表示服务器节点不参与调度,un=m表示服务器节点n调度传感器节点m;由此,在线网络中子动作un的Q值为:
Figure FDA0003884428670000051
其中,O(s,un|θ)为子动作的优势值,V(s|θ)为在线网络Q中状态值s的估计值,
Figure FDA0003884428670000052
为在线网络中分支n的任意可选子动作;
S432:对于每个分支,其目标值yn为:
Figure FDA0003884428670000053
其中,c(t)为代价函数,γ为累计折扣因子,u′n为目标网络中分支n的任意可选子动作,Q′n(s(t+1),u′n|θ′t)为状态s(t+1)和子动作u′n下目标网络分支n的Q值;由于在线网络和目标网络的网络结构相同,Q′n(s(t+1),u′n|θ′t)值通过类似Q值的计算方式得到;定义损失函数为:
Figure FDA0003884428670000054
S44:根据梯度下降法更新网络参数以最小化损失函数,在损失函数的变化趋于稳定到达终止条件后,得到面向多传感器多服务器的调度方法。
CN202211241536.3A 2022-10-11 2022-10-11 多传感器多服务器工业物联网的信息年龄优化调度方法 Active CN115643594B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211241536.3A CN115643594B (zh) 2022-10-11 2022-10-11 多传感器多服务器工业物联网的信息年龄优化调度方法
PCT/CN2023/075323 WO2024077819A1 (zh) 2022-10-11 2023-02-10 多传感器多服务器工业物联网的信息年龄优化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211241536.3A CN115643594B (zh) 2022-10-11 2022-10-11 多传感器多服务器工业物联网的信息年龄优化调度方法

Publications (2)

Publication Number Publication Date
CN115643594A true CN115643594A (zh) 2023-01-24
CN115643594B CN115643594B (zh) 2024-08-02

Family

ID=84945653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211241536.3A Active CN115643594B (zh) 2022-10-11 2022-10-11 多传感器多服务器工业物联网的信息年龄优化调度方法

Country Status (2)

Country Link
CN (1) CN115643594B (zh)
WO (1) WO2024077819A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116156654A (zh) * 2023-02-24 2023-05-23 重庆控环科技集团有限公司 联合数据价值与信息年龄的多集群视频直播系统调度方法
WO2024077819A1 (zh) * 2022-10-11 2024-04-18 重庆邮电大学 多传感器多服务器工业物联网的信息年龄优化调度方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307877A (zh) * 2019-07-26 2021-02-02 株式会社倍乐生 信息处理方法、信息处理装置及计算机可读取的存储介质
US10956855B1 (en) * 2015-08-16 2021-03-23 Palidian Incorporated Integrated multi-location scheduling, routing, and task management
CN113891276A (zh) * 2021-10-26 2022-01-04 重庆邮电大学 基于信息年龄的混合更新工业无线传感器网络调度方法
CN114330885A (zh) * 2021-12-29 2022-04-12 腾讯科技(深圳)有限公司 目标状态的确定方法、装置、设备以及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580196B (zh) * 2019-09-12 2021-04-06 北京邮电大学 一种实现并行任务调度的多任务强化学习方法
CN112888004B (zh) * 2021-02-08 2022-10-25 华南理工大学 一种物联网中多源节点信息更新的信息年龄优化方法
CN115643594B (zh) * 2022-10-11 2024-08-02 重庆邮电大学 多传感器多服务器工业物联网的信息年龄优化调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956855B1 (en) * 2015-08-16 2021-03-23 Palidian Incorporated Integrated multi-location scheduling, routing, and task management
CN112307877A (zh) * 2019-07-26 2021-02-02 株式会社倍乐生 信息处理方法、信息处理装置及计算机可读取的存储介质
CN113891276A (zh) * 2021-10-26 2022-01-04 重庆邮电大学 基于信息年龄的混合更新工业无线传感器网络调度方法
CN114330885A (zh) * 2021-12-29 2022-04-12 腾讯科技(深圳)有限公司 目标状态的确定方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DA SONG等: "Cloud-Edge Computing Resource Collaborative Optimization Method for Power Distribution Fault Analysis Service", 2021 CHINA INTERNATIONAL CONFERENCE ON ELECTRICITY DISTRIBUTION (CICED), 8 October 2021 (2021-10-08) *
丁承君;刘强;田军强;朱雪宏;: "信息物理系统事件驱动下的农业气象监测系统", 江苏农业学报, no. 04, 5 September 2018 (2018-09-05) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077819A1 (zh) * 2022-10-11 2024-04-18 重庆邮电大学 多传感器多服务器工业物联网的信息年龄优化调度方法
CN116156654A (zh) * 2023-02-24 2023-05-23 重庆控环科技集团有限公司 联合数据价值与信息年龄的多集群视频直播系统调度方法
CN116156654B (zh) * 2023-02-24 2023-08-29 重庆控环科技集团有限公司 联合数据价值与信息年龄的多集群视频直播系统调度方法

Also Published As

Publication number Publication date
WO2024077819A1 (zh) 2024-04-18
CN115643594B (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
CN115643594A (zh) 多传感器多服务器工业物联网的信息年龄优化调度方法
Kalathil et al. Decentralized learning for multiplayer multiarmed bandits
CN111199360B (zh) 无人机任务分配规划方法
CN111367657B (zh) 一种基于深度强化学习的计算资源协同合作方法
CN111858009A (zh) 基于迁移和强化学习的移动边缘计算系统任务调度方法
CN112437131A (zh) 物联网中考虑数据相关性的数据动态采集与传输方法
CN111740925B (zh) 一种基于深度强化学习的Coflow调度方法
CN112948885B (zh) 实现隐私保护的多方协同更新模型的方法、装置及系统
CN112149990B (zh) 一种基于预测的模糊供需匹配方法
CN114995119A (zh) 基于多智能体深度强化学习的城市交通信号协同控制方法
CN112203307A (zh) 一种支持信息年龄优化的多信道无线网络调度方法
CN116489226A (zh) 一种服务质量保障的在线资源调度方法
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
CN116456480A (zh) 通信资源受限下基于深度强化学习的多智能体协同决策方法
CN114022731A (zh) 基于drl的联邦学习节点选择方法
CN107992999B (zh) 一种面向个性化生产环境的多主体调度方法
Xie et al. Scheduling for minimizing the age of information in multisensor multiserver Industrial Internet of Things systems
CN117008995A (zh) 一种工业软件组件服务功能链装配集成方法
Zheng et al. Green Simulation Based Policy Optimization with Partial Historical Trajectory Reuse
CN113869511A (zh) 一种基于策略迁移的多智能体协同进化方法
Kim et al. RL-based transmission completion time minimization with energy harvesting for time-varying channels
US12050438B1 (en) Collaborative intelligence of artificial intelligence agents
Huang et al. DVF: Multi-agent Q-learning with difference value factorization
Gracla et al. On the Importance of Exploration for Real Life Learned Algorithms
CN116455754A (zh) 多智能体强化学习通信方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant