CN115456313B - 一种基于分层优化的工业互联网资源调配方法 - Google Patents

一种基于分层优化的工业互联网资源调配方法 Download PDF

Info

Publication number
CN115456313B
CN115456313B CN202211402063.0A CN202211402063A CN115456313B CN 115456313 B CN115456313 B CN 115456313B CN 202211402063 A CN202211402063 A CN 202211402063A CN 115456313 B CN115456313 B CN 115456313B
Authority
CN
China
Prior art keywords
decision
industrial
network
resource
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211402063.0A
Other languages
English (en)
Other versions
CN115456313A (zh
Inventor
高庆
张可昕
吕金虎
刘昊
王振乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202211402063.0A priority Critical patent/CN115456313B/zh
Publication of CN115456313A publication Critical patent/CN115456313A/zh
Application granted granted Critical
Publication of CN115456313B publication Critical patent/CN115456313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于分层优化的工业互联网资源调配方法,包括步骤:对实际工业互联网资源调配网络进行建模,获得图网络模型;搭建信息特征整合编码器,进行数据预处理;搭建特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络,依次串联获得单层级感知决策模块,级联若干模块,获得工业互联网资源调配子图感知决策网络;进行决策,在每次决策轮次中,高层次对低层次结构进行预测完成决策,低层次对高层次结构进行观测完成决策;训练决策网络,得到优化后的工业互联网资源调配子图感知决策网络。该方法能够提高工业互联网多层次工业资源全局同步决策的最优程度,提升单位时间内运输效益价值,降低运输代价损失,降低调配时限。

Description

一种基于分层优化的工业互联网资源调配方法
技术领域
本发明属于工业互联网研究领域,尤其涉及一种基于分层优化的工业互联网资源调配方法。
背景技术
资源调配问题是工业互联网场景研究中一个常见且关键的问题。宏观层面上,面对具有复杂拓扑连接关系的工业互联网实体,目标资源个体的合理调用以及高效运输,成为提升工业互联网生产、管理、运作的关键,也是智慧赋能工业互联网生产制造的一个关键内容。
其中,在工业互联网的具有固定拓扑关系的运输连接结构上,同时被调配的不同调配资源个体会面临通路选择的问题,在通路载荷和效益代价函数的约束下,不同调配资源个体出现竞争现象,因此,如何提升具有广泛复杂连接形式的工业互联网资源调配综合效益,最小化运输消耗,快速准确完成工业资源的调配,是工业互联网资源调配问题研究中需要重点关注的。
现实工业互联网场景中,存在多种类型目标个体资源数据包,其资源调配过程中的重要性程度不同,因此按照重要性程度可以划分为不同的工业数据包层次,实际调配过程中的效益函数与代价函数也存在较大区别。此外,出于网络安全和生产利益考虑,工业互联网资源调配问题还面临信息层级共享和层间单向传递问题,这些均是面向工业互联网的资源调配问题需要着重关注的。
通常情况下,工业互联网的资源调配问题可以被建模为具有固定拓扑结构的带约束条件最短路径寻优问题。传统以弗洛伊德算法为核心的最短路径寻优问题针对简单拓扑结构或者简易带约束问题可以取得一定的效果。然而,这类传统对于处理多目标个体最短路径寻优中出现各类约束与信息交互的问题并不占优势,求解繁琐,甚至大部分情况下无法求出纳什均衡解。
基于深度强化学习的方法在工业互联网环境下工业资源调配问题的研究中取得了一定的效果。在此问题的研究中,通常将效益函数与代价函数建模为动作转移奖励函数。针对复杂的工业互联网拓扑连接结构以及各类带约束的转移限制,利用动作价值Q网络对决策价值进行计算,进而通过损失函数反向传播优化决策网络。结果表明,基于深度强化学习的方法相较于传统解析算法具有更加优良的效果。
对于普遍情况下的一般通用资源调配算法常常满足于解决一类资源包的资源调配问题,其可以理解为具有多目标个体在固定拓扑结构的最短路径寻优问题。现有的基于深度Q网络强化学习的资源调配方法问题建模较为特殊化,假设工业资源包的重要性程度相同,对应的效益价值函数、转移消耗函数相同,转移规则相同对于资源目标个体之间的竞争与合作关系并没有有效度量和利用。但在实际工业互联网环境中,工业数据包存在信息的不对称属性甚至出现层级关系。工业数据包的重要性程度有区分,转移规则函数以及效益或者代价函数也存在区别。因此若采用上述基于强化学习深度Q网络的方法进行资源目标个体调配决策时,无法表征不同工业数据包之间的个体差异与层级结构关系,宏观角度上现有网络算法不能有效利用层级关系对全局决策进行调控,导致资源目标个体在不同转移规则下却被视作同一类待调配资源,因此工业数据包出现较为巨大的利益竞争现象。此外,在训练优化过程中,由于不同类别工业资源包奖励函数不同,类间竞争情况出现,并不能保证每一类资源个体最终决策方案优化程度收敛到纳什均衡点,换言之最终训练生成的决策网络所做出的通路选择决策并非为最优决策,带来的效益价值、代价损失、运输到达平均时间变化均出现震荡不收敛情况,并不能同时满足不同类别工业资源包的最佳决策需求。
发明内容
鉴于上述的网络不收敛和效率低下的问题,本发明提出一种基于分层优化的工业互联网资源调配方法,针对同一工业互联网场景下,具有不同动作奖励函数和重要性程度的资源个体包在资源调配过程中的同时决策问题,基于工业资源包在工业互联网拓扑位置的子图拓扑结构,完成工业资源包不对称信息的感知与表征;利用不同重要性程度层级工业资源包之间的信息关系,引入斯塔克伯格博弈思想,实现层级工业资源包决策方案的预测和观测,完成工业资源包依据重要性程度先后决策顺序,以提高决策的稳定性、最优性,最小化运输消耗,最大化资源转运收益。本发明采用如下技术方案:
一种基于分层优化的工业互联网资源调配方法,包括以下步骤:
步骤一,对实际工业互联网资源调配网络进行建模,获得图网络模型;
步骤二,根据图网络模型的数据维度,搭建对应维度的信息特征整合编码器,对工业资源包特征属性数据、图网络进行数据预处理;
步骤三,搭建特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络,依次串联特征编码网络、基于子图结构的注意力计算网络、动作价值分数决策网络,得到单层级感知决策模块;按照工业资源个体层级顺序以及预测过程和观测过程的先后顺序,级联单层级感知决策模块,完成整个基于分层优化的工业互联网资源调配子图感知决策网络搭建;
步骤四,利用工业互联网资源调配子图感知决策网络进行决策,在每次决策轮次中,高层次对低层次结构进行预测完成决策,低层次对高层次结构进行观测完成决策;
步骤五,利用步骤四获得的决策完成动作状态转移,获取动作奖励,实现工业资源包数据属性更新,将更新获得数据记入元胞数组,并放入经验池;
步骤六,从经验池中提取若干元胞数组,作为输入数据传入工业互联网资源调配子图感知决策网络中,获得不同工业资源个体动作价值函数值计算损失函数,完成网络训练。
进一步,所述步骤一,所述图网络模型为
Figure 110354DEST_PATH_IMAGE001
,并初始化连接关系矩阵
Figure 677602DEST_PATH_IMAGE002
以及节点之间的连接权重矩阵
Figure 38176DEST_PATH_IMAGE003
,其中,
Figure 222032DEST_PATH_IMAGE004
表示运输基站集合,简称节点集合,
Figure 60675DEST_PATH_IMAGE005
表示节点之间的运输通路集合,
Figure 13588DEST_PATH_IMAGE006
表示节点之间邻接关系集合,
Figure 545063DEST_PATH_IMAGE007
Figure 950637DEST_PATH_IMAGE008
表示连接关系矩阵,
Figure 858550DEST_PATH_IMAGE009
表示节点之间的连接权重矩阵。
进一步,所述步骤二,所述对工业资源包特征属性数据、图网络进行数据预处理具体为:
将属性信息、结构信息、邻接信息输入信息特征整合编码器进行统一编码,对齐输入向量特征维度,形成分层级标准化工业资源个体状态信息矩阵,
Figure 869231DEST_PATH_IMAGE010
其中,S是全局工业资源个体状态矩阵,
Figure 368346DEST_PATH_IMAGE011
表示信息特征整合编码器函数,X表示工业资源个体的特征属性信息向量,T表示工业资源个体子图拓扑结构属性信息向量与局部工业资源个体重点特征属性信息矩阵,O表示全局工业资源个体子图拓扑结构连接关系矩阵。
进一步,所述步骤三,所述特征编码网络由全连接网络组成,对输入的整合编码特征向量获得其在隐空间的表征形式;所述基于子图结构的特征注意力计算网络通过计算同一特征向量在不同关系空间的特征投影距离,获得不同特征向量的注意力权重矩阵;所述动作价值分数决策网络由两层全连接网络组成,通过获得到的隐空间特征感知向量,完成状态价值评分,并输出结果,作为下一步决策的选择依据。
进一步,所述步骤四具体为:
根据重要性层次与效益损失规则的不同将工业资源分为i个层级结构,每个层级结构具有n i 个工业资源包;i越大重要性程度越低,越靠近底层结构;
将最底层次i信息矩阵输入第i个动作价值子网络模型,计算得出动作价值q i ,按照贪心策略获得i层级工业资源包决策向量
Figure 261216DEST_PATH_IMAGE012
,更新全局决策向量a i ,将其与i-1层次信息矩阵一同输入第i-1个动作价值子网络模型,计算得出动作价值q i-1,获得i-1层级工业资源包决策向量
Figure 441661DEST_PATH_IMAGE013
,更新全局决策向量a i-1,以此递推,直到完成第2层次工业资源包决策向量
Figure 369166DEST_PATH_IMAGE014
,完成整个分层优化中的决策预测部分;
从顶层至底层,第一层次工业资源包获得所有层次所预测的决策向量,计算得出决策
Figure 242444DEST_PATH_IMAGE015
,第二层次工业资源包观测获得第一层次工业资源数据与3到i层次预测决策,计算得出决策
Figure 622610DEST_PATH_IMAGE016
,以此递推,以相同的传递方式完成1到i的决策更迭,实现全局全工业资源包单步同步决策。
进一步,所述步骤五,所述元胞数组为;
Figure 606746DEST_PATH_IMAGE017
其中,S为全局工业资源个体状态矩阵,A为全局决策向量,O为全局工业资源个体子图拓扑结构连接关系矩阵,R为全局工业资源个体动作奖励价值向量,Y为全局工业资源个体是否完成目标转移标识符。
进一步,所述步骤六,所述损失函数为:
Figure 388757DEST_PATH_IMAGE018
其中,n为工业资源包总个数,
Figure 432937DEST_PATH_IMAGE019
为目标网络动作价值
Figure 300399DEST_PATH_IMAGE020
的输出结果,每训练一定单位时间步长更新目标网络参数与动作价值网络参数同步,α为目标网络学习率,r i 为第i个工业资源包在完成一次决策并实现动作转移后所获得的奖励分数,Q_value为工业资源个体动作价值函数值。
本发明与现有技术相比所具有的有益效果:
本发明针对工业互联网实际环境中存在的多层级工业资源包信息共享约束的资源调配问题,提出了基于分层优化的高层次预测、低层次观测的宏观博弈资源调配均衡解求解,提高了工业互联网多层次工业资源全局同步决策的最优程度,提升单位时间内运输效益价值,降低单位时间内运输代价损失,降低调配时限。此外,本方法可以推广到一般的分层结构数据调用算法中,实现多层次具有约束条件的博弈解求解问题,泛化应用到具有不同复杂拓扑关系的工业互联网资源调配场景中。
附图说明
图1 为本发明所述的基于分层优化的工业互联网资源调配方法流程图。
具体实施方式
以面对一个具有i个层次工业资源包的资源调度问题作为实施例。
一种基于分层优化的工业互联网资源调配方法,如图1所示,包括以下步骤:
步骤一,对实际具有复杂拓扑关系的工业互联网场景进行建模。根据实际工业互联网工业资源宏观资源调配环境,构建具有复杂连接拓扑关系的工业互联网图网络模型
Figure 88226DEST_PATH_IMAGE001
,并初始化连接关系矩阵
Figure 482602DEST_PATH_IMAGE002
以及节点之间的连接权重矩阵
Figure 760000DEST_PATH_IMAGE003
。其中,
Figure 786861DEST_PATH_IMAGE004
表示工业互联网图网络模型中运输基站集合,以下简称节点集合;
Figure 440697DEST_PATH_IMAGE005
表示工业互联网图网络模型中运输基站之间的运输通路集合,以下简称连接边集合;
Figure 869404DEST_PATH_IMAGE006
表示节点之间邻接关系集合,
Figure 317703DEST_PATH_IMAGE007
步骤二,搭建信息特征整合编码器。根据图网络模型的数据维度,搭建对应维度的信息特征整合编码器,对工业资源包特征属性数据、图网络进行数据预处理。
对于整个网络,在网络输入中,由于工业资源个体重要性程度存在差异,因此局部工业资源个体重点特征属性信息获取有局限,因此存在输入特征向量维度统一的情况。考虑到此类情况,将已知属性信息、结构信息、邻接信息输入信息特征整合编码器进行统一编码,对齐输入向量特征维度,形成分层级标准化工业资源个体状态信息矩阵如下所示:
Figure 97440DEST_PATH_IMAGE010
其中,S是全局工业资源个体状态信息矩阵,
Figure 289387DEST_PATH_IMAGE011
表示信息特征整合编码器函数,X表示工业资源个体的特征属性信息向量,T表示工业资源个体子图拓扑结构属性信息向量与局部工业资源个体重点特征属性信息矩阵,O表示全局工业资源个体子图拓扑结构连接关系矩阵。XTO均需从初始数据中进行为已知原始数据
Figure 572601DEST_PATH_IMAGE021
以及工业互联网图网络模型
Figure 457380DEST_PATH_IMAGE001
中获得,此过程均为数据预处理部分。
Figure 458834DEST_PATH_IMAGE022
Figure 188893DEST_PATH_IMAGE023
Figure 592192DEST_PATH_IMAGE024
其中,原始数据
Figure 647873DEST_PATH_IMAGE021
包含每一个工业资源个体的固有属性信息,包括当前位置坐标,当前目标坐标,容量大小,所属层级,层级优先次序等。
步骤三,搭建动作价值子网络模块。构建特征编码网络、基于子图结构的注意力计算网络、动作价值分数决策网络模块,并将其串联,获得动作价值子网络模块。
特征编码网络由全连接网络组成,对输入的整合编码特征向量获得其在隐空间的表征形式。
基于子图结构的注意力计算网络借鉴卷积神经网络中注意力权重矩阵求解以及相似性内积空间度量思路,通过计算同一特征向量在不同关系空间的特征投影距离,获得不同特征向量的注意力权重矩阵。每一个工业资源个体获得子图拓扑结构下信息感知注意力权重,进行特征表征过程中有效加权,提升感知决策优越性。
动作价值分数决策网络由两层全连接网络组成,通过获得到的隐空间特征感知向量,完成状态价值评分,并输出结果,作为下一步决策的选择依据。
将特征编码网络、基于子图结构的注意力计算网络、动作价值分数决策网络依次串联,得到动作价值子网络,将其作为分层结构中一个独立的单层级感知决策模块。
按照工业资源个体层级顺序以及预测过程和观测过程的先后顺序,级联i个单层级感知决策模块,完成整个基于分层优化的工业互联网资源调配子图感知决策网络搭建。
步骤四,利用工业互联网资源调配子图感知决策网络进行决策,在每次决策轮次中,高层次对低层次结构进行预测完成决策,低层次对高层次结构进行观测完成决策。
在宏观结构层面,在工业互联网所需要进行资源调配的工业资源包具有不同的重要性结构层次与效益损失规则。全局情况下,根据重要性层次与效益损失规则的不同可以将工业资源分为i个层级结构,每个层级结构具有n i 个工业资源包。i越大重要性程度越低,越靠近底层结构。该任务中共计存在n个工业资源包。
根据实体工业互联网环境信息约束实际要求,相同层级之间资源调配信息共享,层次高的工业资源具有普遍性和信息共享性,高层次结构可以预测低级别层次结构的决策结果,进行宏观决策,低层次结构根据观测到的高层次结构决策结果做出现有决策。
具体地,在每一步的决策优化中,需要依次对工业互联网场景下对不同层级工业资源包进行层间依次决策,层内同步决策。根据分层优化利用,将模块化的动作价值子网络按照分层结构排列重组。对最底层次i信息矩阵输入第i个动作价值子网络模型,计算得出动作价值q i ,按照贪心策略获得i层级工业资源包决策向量
Figure 871044DEST_PATH_IMAGE012
,更新全局决策向量a i ,将其与i-1层次信息矩阵一同输入第i-1个动作价值子网络模型,计算得出动作价值q i-1,获得i-1层级工业资源包决策向量
Figure 670373DEST_PATH_IMAGE013
,更新全局决策向量a i-1,以此递推,直到完成第2层次工业资源包决策向量
Figure 928179DEST_PATH_IMAGE014
,完成整个分层优化中的决策预测部分。
从顶层至底层,第一层次工业资源包可以获得所有层次所预测的决策向量,计算得出决策
Figure 889181DEST_PATH_IMAGE015
,第二层次工业资源包可以观测获得第一层次工业资源数据与3到i层次预测决策,计算得出决策
Figure 865228DEST_PATH_IMAGE016
,以此递推,以相同的传递方式完成1到i的决策更迭,实现全局全工业资源包单步同步决策。
对步骤四进行详细阐述:
i个层级结构所含所有工业资源包数据输入信息特征整合编码器进行预处理,将低层次数据矩阵输入对应的动作价值子网络模块中,获得预测决策。
其中
Figure 202668DEST_PATH_IMAGE012
表示层级预测决策结果,
Figure 314981DEST_PATH_IMAGE025
表示层级最终观测后的决策结果。由以上过程可以实现顶层逐层对底层的决策预测,最顶层结构在宏观下做出决策,底层依次对上一层次决策进行观测做出决策,完成本轮次决策更迭。具体数学表达如下:
Figure 712464DEST_PATH_IMAGE026
Figure 910227DEST_PATH_IMAGE027
Figure 51358DEST_PATH_IMAGE028
Figure 283757DEST_PATH_IMAGE029
其中,
Figure 586562DEST_PATH_IMAGE030
表示除了
Figure 537201DEST_PATH_IMAGE031
以外的其他所有已知决策,
Figure 216444DEST_PATH_IMAGE032
表示当
Figure 303348DEST_PATH_IMAGE033
最大时返回a的数值结果,S表示全局工业资源个体状态矩阵,a表示所有层级工业资源包决策向量矩阵,a i 表示第i层级n i 个工业资源包决策向量,θ i 表示第i层级单层级感知决策模块网络参数。
高层次工业资源依据预测结果完成决策计算,低层次结构根据观测到的高层次工业资源决策结果完成自我决策。具体地,从顶层至底层,第一层次工业资源包可以获得到所有层次所预测的决策向量,计算得出决策
Figure 777055DEST_PATH_IMAGE034
,第二层次第一层次工业资源包可以观测获得第一层次工业资源数据与3到i层次预测决策,计算得出决策
Figure 949410DEST_PATH_IMAGE016
,以此递推,以相同的传递方式完成1到i的决策更迭,实现全局全工业数据包单步同步决策。根据不同的状态转移规则和动作奖励规则,实现动作状态转移。具体数学表达如下:
Figure 432344DEST_PATH_IMAGE035
Figure 373755DEST_PATH_IMAGE036
Figure 283943DEST_PATH_IMAGE037
其中,
Figure 740332DEST_PATH_IMAGE038
表示除了
Figure 964640DEST_PATH_IMAGE039
以外的其他所有预测决策,
Figure 822874DEST_PATH_IMAGE040
表示当
Figure 841646DEST_PATH_IMAGE041
最大时返回a的数值结果。特殊的,当i=2时,两层次博弈为斯塔克伯格博弈,所求得的结果为斯塔克伯格博弈均衡解。
步骤五,根据步骤四获得的决策完成动作状态转移,获取动作奖励,实现工业资源包数据属性更新。根据实际工业资源调配奖励和代价条件、转移规则,数学化动作价值转移函数以及动作奖励函数。根据步骤四计算求解所得出的决策,完成工业个体资源动作价值转移,实现工业资源包数据属性更新获取每个个体动作奖励值,完成单位时间步的决策。
与此同时,在单位时间步决策下,实现数据的计入和更新。将所获得实验数据记入元胞数组C内,并放入固定容量的经验池中。在训练过程中,从经验池中抽取批量元胞数组作为训练输入数据,并不断产生新的实验数据计入元胞数组中,放入经验池。当元胞数组数量超过经验池容量,则按照堆栈思想弹出“先入坏经验”,存储“后存好经验”,实现经验池中“经验”实验数据的更新,不断优化训练过程。
元胞数组记为
Figure 785331DEST_PATH_IMAGE017
。其中,S为全局工业资源个体状态矩阵,A为全局决策向量,O为全局工业资源个体子图拓扑结构连接关系矩阵,R为全局工业资源个体动作奖励价值向量,Y为全局工业资源个体是否完成目标转移标识符。
当某一工业资源个体完成当前目标转移,Y=1时,原始数据
Figure 547751DEST_PATH_IMAGE042
中该工业资源个体属性信息进行更新,产生新的目标位置信息,容量大小,实现整个工业互联网结构上工业资源包的动态不间断转移。
步骤六,从经验池中批量抽取元胞数组,作为输入数据传入工业互联网资源调配子图感知决策网络中,获得不同工业资源个体动作价值函数值Q_value计算损失函数,完成网络训练。
结合深度Q网络常见时间差分方法估计期望动作价值,定义如下损失函数:
Figure 526071DEST_PATH_IMAGE043
其中,n为工业资源包总个数,
Figure 715744DEST_PATH_IMAGE019
为目标网络动作价值
Figure 412304DEST_PATH_IMAGE020
的输出结果,每训练一定单位时间步长更新目标网络参数与动作价值网络参数同步,α为目标网络学习率,一般设置为1,r i 为第i个工业资源包在完成一次决策并实现动作转移后所获得的奖励分数,Q_value为工业资源个体动作价值函数值。
根据计算所获取的损失函数值Loss,对参数网络进行梯度反向传播参数更新,梯度更新学习率根据训练情况适时调整。
当整个决策网络参数学习训练更新轮次达到人为设定规定次数时,停止训练,获得收敛的损失函数曲线,完成对网络参数的训练优化,从而实现高层次与低层次动作价值子网络的网络训练,实现一般化分层级工业互联网资源调配问题决策方案。
以上所述仅为本发明的具体实施方式,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于分层优化的工业互联网资源调配方法,其特征在于,包括以下步骤:
步骤一,对实际工业互联网资源调配网络进行建模,获得图网络模型;
步骤二,根据图网络模型的数据维度,搭建对应维度的信息特征整合编码器,对工业资源包特征属性数据、图网络进行数据预处理;
步骤三,搭建特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络,依次串联特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络,得到单层级感知决策模块;按照工业资源个体层级顺序以及预测过程和观测过程的先后顺序,级联单层级感知决策模块,完成整个基于分层优化的工业互联网资源调配子图感知决策网络搭建;
步骤四,利用工业互联网资源调配子图感知决策网络进行决策,在每次决策轮次中,高层次对低层次结构进行预测完成决策,低层次对高层次结构进行观测完成决策;
步骤五,利用步骤四获得的决策完成动作状态转移,获取动作奖励,实现工业资源包数据属性更新,将更新获得数据记入元胞数组,并放入经验池;
步骤六,从经验池中提取若干元胞数组,作为输入数据传入工业互联网资源调配子图感知决策网络中,获得不同工业资源个体动作价值函数值计算损失函数,完成网络训练。
2.根据权利要求1所述的方法,其特征在于,所述步骤一,所述图网络模型为
Figure 794580DEST_PATH_IMAGE001
,并初始化连接关系矩阵
Figure 823716DEST_PATH_IMAGE002
以及节点之间的连接权重矩阵
Figure 126521DEST_PATH_IMAGE003
,其中,
Figure 77159DEST_PATH_IMAGE004
表示运输基站集合,简称节点集合,
Figure 756402DEST_PATH_IMAGE005
表示节点之间的运输通路集合,
Figure 843307DEST_PATH_IMAGE006
表示节点之间邻接关系集合,
Figure 317014DEST_PATH_IMAGE007
Figure 754948DEST_PATH_IMAGE008
表示连接关系矩阵,
Figure 706724DEST_PATH_IMAGE009
表示节点之间的连接权重矩阵。
3.根据权利要求2所述的方法,其特征在于,所述步骤二,所述对工业资源包特征属性数据、图网络进行数据预处理具体为:
将属性信息、结构信息、邻接信息输入信息特征整合编码器进行统一编码,对齐输入向量特征维度,形成分层级标准化工业资源个体状态信息矩阵,
Figure 976031DEST_PATH_IMAGE010
其中,S是全局工业资源个体状态矩阵,
Figure 558322DEST_PATH_IMAGE011
表示信息特征整合编码器函数,X表示工业资源个体的特征属性信息向量,T表示工业资源个体子图拓扑结构属性信息向量与局部工业资源个体重点特征属性信息矩阵,O表示全局工业资源个体子图拓扑结构连接关系矩阵。
4.根据权利要求3所述的方法,其特征在于,所述步骤三,所述特征编码网络由全连接网络组成,对输入的整合编码特征向量获得其在隐空间的表征形式;所述基于子图结构的注意力计算网络通过计算同一特征向量在不同关系空间的特征投影距离,获得不同特征向量的注意力权重矩阵;所述动作价值分数决策网络由两层全连接网络组成,通过获得到的隐空间特征感知向量,完成状态价值评分,并输出结果,作为下一步决策的选择依据。
5.根据权利要求4所述的方法,其特征在于,所述步骤四具体为:
根据重要性层次与效益损失规则的不同将工业资源分为i个层级结构,每个层级结构具有n i 个工业资源包;i越大重要性程度越低,越靠近底层结构;
将最底层次i信息矩阵输入第i个动作价值子网络模型,计算得出动作价值q i ,按照贪心策略获得i层级工业资源包决策向量
Figure 280291DEST_PATH_IMAGE012
,更新全局决策向量a i ,将其与i-1层次信息矩阵一同输入第i-1个动作价值子网络模型,计算得出动作价值q i-1,获得i-1层级工业资源包决策向量
Figure 239019DEST_PATH_IMAGE013
,更新全局决策向量a i-1,以此递推,直到完成第2层次工业资源包决策向量
Figure 362833DEST_PATH_IMAGE014
,完成整个分层优化中的决策预测部分;
从顶层至底层,第一层次工业资源包获得所有层次所预测的决策向量,计算得出决策
Figure 381605DEST_PATH_IMAGE015
,第二层次工业资源包观测获得第一层次工业资源数据与3到i层次预测决策,计算得出决策
Figure 590869DEST_PATH_IMAGE016
,以此递推,以相同的传递方式完成1到i的决策更迭,实现全局全工业资源包单步同步决策。
6.根据权利要求5所述的方法,其特征在于,所述步骤五,所述元胞数组为:
Figure 87710DEST_PATH_IMAGE017
其中,S为全局工业资源个体状态矩阵,A为全局决策向量,O为全局工业资源个体子图拓扑结构连接关系矩阵,R为全局工业资源个体动作奖励价值向量,Y为全局工业资源个体是否完成目标转移标识符。
7.根据权利要求6所述的方法,其特征在于,所述步骤六,所述损失函数为:
Figure 66030DEST_PATH_IMAGE018
其中,n为工业资源包总个数,
Figure 255703DEST_PATH_IMAGE019
为目标网络动作价值
Figure 952263DEST_PATH_IMAGE020
的输出结果,每训练一定单位时间步长更新目标网络参数与动作价值网络参数同步,α为目标网络学习率,r i 为第i个工业资源包在完成一次决策并实现动作转移后所获得的奖励分数,Q_value为工业资源个体动作价值函数值。
CN202211402063.0A 2022-11-10 2022-11-10 一种基于分层优化的工业互联网资源调配方法 Active CN115456313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211402063.0A CN115456313B (zh) 2022-11-10 2022-11-10 一种基于分层优化的工业互联网资源调配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211402063.0A CN115456313B (zh) 2022-11-10 2022-11-10 一种基于分层优化的工业互联网资源调配方法

Publications (2)

Publication Number Publication Date
CN115456313A CN115456313A (zh) 2022-12-09
CN115456313B true CN115456313B (zh) 2023-01-10

Family

ID=84295791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211402063.0A Active CN115456313B (zh) 2022-11-10 2022-11-10 一种基于分层优化的工业互联网资源调配方法

Country Status (1)

Country Link
CN (1) CN115456313B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905343A (zh) * 2021-02-09 2021-06-04 重庆大学 一种工业云环境下基于负载特性的资源调度系统
US11409270B1 (en) * 2021-02-18 2022-08-09 Institute Of Automation, Chinese Academy Of Sciences Optimization decision-making method of industrial process fusing domain knowledge and multi-source data
CN115037749A (zh) * 2022-06-08 2022-09-09 山东省计算中心(国家超级计算济南中心) 一种性能感知的大规模微服务智能多资源协同调度方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905343A (zh) * 2021-02-09 2021-06-04 重庆大学 一种工业云环境下基于负载特性的资源调度系统
US11409270B1 (en) * 2021-02-18 2022-08-09 Institute Of Automation, Chinese Academy Of Sciences Optimization decision-making method of industrial process fusing domain knowledge and multi-source data
CN115037749A (zh) * 2022-06-08 2022-09-09 山东省计算中心(国家超级计算济南中心) 一种性能感知的大规模微服务智能多资源协同调度方法及系统

Also Published As

Publication number Publication date
CN115456313A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
Tyagi et al. An intelligent and optimal resource allocation approach in sensor networks for smart agri-IoT
CN111445111B (zh) 一种基于边缘协同的电力物联网任务分配方法
CN112380008B (zh) 一种面向移动边缘计算应用的多用户细粒度任务卸载调度方法
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
Randhawa et al. MLBC: Multi-objective load balancing clustering technique in wireless sensor networks
CN110401564B (zh) 基于相对混合择优的指挥控制超网络模型构建方法
CN111984419B (zh) 一种边缘环境可靠性约束的复杂任务计算迁移方法
CN106102079A (zh) 基于改进pso的c‑ran载波迁移资源需求预测方法
CN107707412A (zh) 基于多属性加权的指挥控制网络建模方法
CN116050540B (zh) 一种基于联合双维度用户调度的自适应联邦边缘学习方法
CN102904815A (zh) 基于无尺度网络的路由级拓扑建模方法
CN111313957A (zh) 基于分类多目标优化的混合卫星通信系统资源分配方法
CN114205251B (zh) 基于时空特征的交换机链路资源预测方法
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN115940294A (zh) 多级电网实时调度策略调整方法、系统、设备及存储介质
Liu et al. Multi-user dynamic computation offloading and resource allocation in 5G MEC heterogeneous networks with static and dynamic subchannels
CN115456313B (zh) 一种基于分层优化的工业互联网资源调配方法
Benmammar et al. A pareto optimal multi-objective optimisation for parallel dynamic programming algorithm applied in cognitive radio ad hoc networks
CN116708294B (zh) 基于apn6网络实现智能应用感知及报文转发的方法
Bardhan et al. A decentralized game theoretic approach for team formation and task assignment by autonomous unmanned aerial vehicles
CN114970981B (zh) 一种基于随机优化的多区互联综合能源系统规划方法
CN116471632A (zh) 一种移动边缘计算中基于多点协作的任务迁移方法
Lu et al. Agent-based self-organized constructive heuristics for travelling salesman problem
CN101741749A (zh) 基于免疫克隆的多目标组播路由优化方法
CN112333810B (zh) 一种基于tmpa算法的分层无线传感器网络拓扑优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant