CN115456313B

CN115456313B - 一种基于分层优化的工业互联网资源调配方法

Info

Publication number: CN115456313B
Application number: CN202211402063.0A
Authority: CN
Inventors: 高庆; 张可昕; 吕金虎; 刘昊; 王振乾
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-01-10
Anticipated expiration: 2042-11-10
Also published as: CN115456313A

Abstract

本发明公开了一种基于分层优化的工业互联网资源调配方法，包括步骤：对实际工业互联网资源调配网络进行建模，获得图网络模型；搭建信息特征整合编码器，进行数据预处理；搭建特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络，依次串联获得单层级感知决策模块，级联若干模块，获得工业互联网资源调配子图感知决策网络；进行决策，在每次决策轮次中，高层次对低层次结构进行预测完成决策，低层次对高层次结构进行观测完成决策；训练决策网络，得到优化后的工业互联网资源调配子图感知决策网络。该方法能够提高工业互联网多层次工业资源全局同步决策的最优程度，提升单位时间内运输效益价值，降低运输代价损失，降低调配时限。

Description

一种基于分层优化的工业互联网资源调配方法

技术领域

本发明属于工业互联网研究领域，尤其涉及一种基于分层优化的工业互联网资源调配方法。

背景技术

资源调配问题是工业互联网场景研究中一个常见且关键的问题。宏观层面上，面对具有复杂拓扑连接关系的工业互联网实体，目标资源个体的合理调用以及高效运输，成为提升工业互联网生产、管理、运作的关键，也是智慧赋能工业互联网生产制造的一个关键内容。

其中，在工业互联网的具有固定拓扑关系的运输连接结构上，同时被调配的不同调配资源个体会面临通路选择的问题，在通路载荷和效益代价函数的约束下，不同调配资源个体出现竞争现象，因此，如何提升具有广泛复杂连接形式的工业互联网资源调配综合效益，最小化运输消耗，快速准确完成工业资源的调配，是工业互联网资源调配问题研究中需要重点关注的。

现实工业互联网场景中，存在多种类型目标个体资源数据包，其资源调配过程中的重要性程度不同，因此按照重要性程度可以划分为不同的工业数据包层次，实际调配过程中的效益函数与代价函数也存在较大区别。此外，出于网络安全和生产利益考虑，工业互联网资源调配问题还面临信息层级共享和层间单向传递问题，这些均是面向工业互联网的资源调配问题需要着重关注的。

通常情况下，工业互联网的资源调配问题可以被建模为具有固定拓扑结构的带约束条件最短路径寻优问题。传统以弗洛伊德算法为核心的最短路径寻优问题针对简单拓扑结构或者简易带约束问题可以取得一定的效果。然而，这类传统对于处理多目标个体最短路径寻优中出现各类约束与信息交互的问题并不占优势，求解繁琐，甚至大部分情况下无法求出纳什均衡解。

基于深度强化学习的方法在工业互联网环境下工业资源调配问题的研究中取得了一定的效果。在此问题的研究中，通常将效益函数与代价函数建模为动作转移奖励函数。针对复杂的工业互联网拓扑连接结构以及各类带约束的转移限制，利用动作价值Q网络对决策价值进行计算，进而通过损失函数反向传播优化决策网络。结果表明，基于深度强化学习的方法相较于传统解析算法具有更加优良的效果。

对于普遍情况下的一般通用资源调配算法常常满足于解决一类资源包的资源调配问题，其可以理解为具有多目标个体在固定拓扑结构的最短路径寻优问题。现有的基于深度Q网络强化学习的资源调配方法问题建模较为特殊化，假设工业资源包的重要性程度相同，对应的效益价值函数、转移消耗函数相同，转移规则相同对于资源目标个体之间的竞争与合作关系并没有有效度量和利用。但在实际工业互联网环境中，工业数据包存在信息的不对称属性甚至出现层级关系。工业数据包的重要性程度有区分，转移规则函数以及效益或者代价函数也存在区别。因此若采用上述基于强化学习深度Q网络的方法进行资源目标个体调配决策时，无法表征不同工业数据包之间的个体差异与层级结构关系，宏观角度上现有网络算法不能有效利用层级关系对全局决策进行调控，导致资源目标个体在不同转移规则下却被视作同一类待调配资源，因此工业数据包出现较为巨大的利益竞争现象。此外，在训练优化过程中，由于不同类别工业资源包奖励函数不同，类间竞争情况出现，并不能保证每一类资源个体最终决策方案优化程度收敛到纳什均衡点，换言之最终训练生成的决策网络所做出的通路选择决策并非为最优决策，带来的效益价值、代价损失、运输到达平均时间变化均出现震荡不收敛情况，并不能同时满足不同类别工业资源包的最佳决策需求。

发明内容

鉴于上述的网络不收敛和效率低下的问题，本发明提出一种基于分层优化的工业互联网资源调配方法，针对同一工业互联网场景下，具有不同动作奖励函数和重要性程度的资源个体包在资源调配过程中的同时决策问题，基于工业资源包在工业互联网拓扑位置的子图拓扑结构，完成工业资源包不对称信息的感知与表征；利用不同重要性程度层级工业资源包之间的信息关系，引入斯塔克伯格博弈思想，实现层级工业资源包决策方案的预测和观测，完成工业资源包依据重要性程度先后决策顺序，以提高决策的稳定性、最优性，最小化运输消耗，最大化资源转运收益。本发明采用如下技术方案：

一种基于分层优化的工业互联网资源调配方法，包括以下步骤：

步骤一，对实际工业互联网资源调配网络进行建模，获得图网络模型；

步骤二，根据图网络模型的数据维度，搭建对应维度的信息特征整合编码器，对工业资源包特征属性数据、图网络进行数据预处理；

步骤三，搭建特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络，依次串联特征编码网络、基于子图结构的注意力计算网络、动作价值分数决策网络，得到单层级感知决策模块；按照工业资源个体层级顺序以及预测过程和观测过程的先后顺序，级联单层级感知决策模块，完成整个基于分层优化的工业互联网资源调配子图感知决策网络搭建；

步骤四，利用工业互联网资源调配子图感知决策网络进行决策，在每次决策轮次中，高层次对低层次结构进行预测完成决策，低层次对高层次结构进行观测完成决策；

步骤五，利用步骤四获得的决策完成动作状态转移，获取动作奖励，实现工业资源包数据属性更新，将更新获得数据记入元胞数组，并放入经验池；

步骤六，从经验池中提取若干元胞数组，作为输入数据传入工业互联网资源调配子图感知决策网络中，获得不同工业资源个体动作价值函数值计算损失函数，完成网络训练。

进一步，所述步骤一，所述图网络模型为

，并初始化连接关系矩阵

以及节点之间的连接权重矩阵

，其中，

表示运输基站集合，简称节点集合，

表示节点之间的运输通路集合，

表示节点之间邻接关系集合，

，

表示连接关系矩阵，

表示节点之间的连接权重矩阵。

进一步，所述步骤二，所述对工业资源包特征属性数据、图网络进行数据预处理具体为：

将属性信息、结构信息、邻接信息输入信息特征整合编码器进行统一编码，对齐输入向量特征维度，形成分层级标准化工业资源个体状态信息矩阵，

其中，S是全局工业资源个体状态矩阵，

表示信息特征整合编码器函数，X表示工业资源个体的特征属性信息向量，T表示工业资源个体子图拓扑结构属性信息向量与局部工业资源个体重点特征属性信息矩阵，O表示全局工业资源个体子图拓扑结构连接关系矩阵。

进一步，所述步骤三，所述特征编码网络由全连接网络组成，对输入的整合编码特征向量获得其在隐空间的表征形式；所述基于子图结构的特征注意力计算网络通过计算同一特征向量在不同关系空间的特征投影距离，获得不同特征向量的注意力权重矩阵；所述动作价值分数决策网络由两层全连接网络组成，通过获得到的隐空间特征感知向量，完成状态价值评分，并输出结果，作为下一步决策的选择依据。

进一步，所述步骤四具体为：

根据重要性层次与效益损失规则的不同将工业资源分为i个层级结构，每个层级结构具有n _i个工业资源包；i越大重要性程度越低，越靠近底层结构；

将最底层次i信息矩阵输入第i个动作价值子网络模型，计算得出动作价值q _i，按照贪心策略获得i层级工业资源包决策向量

，更新全局决策向量a _i，将其与i-1层次信息矩阵一同输入第i-1个动作价值子网络模型，计算得出动作价值q _i-1，获得i-1层级工业资源包决策向量

，更新全局决策向量a _i-1，以此递推，直到完成第2层次工业资源包决策向量

，完成整个分层优化中的决策预测部分；

从顶层至底层，第一层次工业资源包获得所有层次所预测的决策向量，计算得出决策

，第二层次工业资源包观测获得第一层次工业资源数据与3到i层次预测决策，计算得出决策

，以此递推，以相同的传递方式完成1到i的决策更迭，实现全局全工业资源包单步同步决策。

进一步，所述步骤五，所述元胞数组为;

其中，S为全局工业资源个体状态矩阵，A为全局决策向量，O为全局工业资源个体子图拓扑结构连接关系矩阵，R为全局工业资源个体动作奖励价值向量，Y为全局工业资源个体是否完成目标转移标识符。

进一步，所述步骤六，所述损失函数为：

其中，n为工业资源包总个数，

为目标网络动作价值

的输出结果，每训练一定单位时间步长更新目标网络参数与动作价值网络参数同步，α为目标网络学习率，r _i为第i个工业资源包在完成一次决策并实现动作转移后所获得的奖励分数，Q_value为工业资源个体动作价值函数值。

本发明与现有技术相比所具有的有益效果：

本发明针对工业互联网实际环境中存在的多层级工业资源包信息共享约束的资源调配问题，提出了基于分层优化的高层次预测、低层次观测的宏观博弈资源调配均衡解求解，提高了工业互联网多层次工业资源全局同步决策的最优程度，提升单位时间内运输效益价值，降低单位时间内运输代价损失，降低调配时限。此外，本方法可以推广到一般的分层结构数据调用算法中，实现多层次具有约束条件的博弈解求解问题，泛化应用到具有不同复杂拓扑关系的工业互联网资源调配场景中。

附图说明

图1 为本发明所述的基于分层优化的工业互联网资源调配方法流程图。

具体实施方式

以面对一个具有i个层次工业资源包的资源调度问题作为实施例。

一种基于分层优化的工业互联网资源调配方法，如图1所示，包括以下步骤：

步骤一，对实际具有复杂拓扑关系的工业互联网场景进行建模。根据实际工业互联网工业资源宏观资源调配环境，构建具有复杂连接拓扑关系的工业互联网图网络模型

，并初始化连接关系矩阵

以及节点之间的连接权重矩阵

。其中，

表示工业互联网图网络模型中运输基站集合，以下简称节点集合；

表示工业互联网图网络模型中运输基站之间的运输通路集合，以下简称连接边集合；

表示节点之间邻接关系集合，

。

步骤二，搭建信息特征整合编码器。根据图网络模型的数据维度，搭建对应维度的信息特征整合编码器，对工业资源包特征属性数据、图网络进行数据预处理。

对于整个网络，在网络输入中，由于工业资源个体重要性程度存在差异，因此局部工业资源个体重点特征属性信息获取有局限，因此存在输入特征向量维度统一的情况。考虑到此类情况，将已知属性信息、结构信息、邻接信息输入信息特征整合编码器进行统一编码，对齐输入向量特征维度，形成分层级标准化工业资源个体状态信息矩阵如下所示：

其中，S是全局工业资源个体状态信息矩阵，

表示信息特征整合编码器函数，X表示工业资源个体的特征属性信息向量，T表示工业资源个体子图拓扑结构属性信息向量与局部工业资源个体重点特征属性信息矩阵，O表示全局工业资源个体子图拓扑结构连接关系矩阵。X，T，O均需从初始数据中进行为已知原始数据

以及工业互联网图网络模型

中获得，此过程均为数据预处理部分。

其中，原始数据

包含每一个工业资源个体的固有属性信息，包括当前位置坐标，当前目标坐标，容量大小，所属层级，层级优先次序等。

步骤三，搭建动作价值子网络模块。构建特征编码网络、基于子图结构的注意力计算网络、动作价值分数决策网络模块，并将其串联，获得动作价值子网络模块。

特征编码网络由全连接网络组成，对输入的整合编码特征向量获得其在隐空间的表征形式。

基于子图结构的注意力计算网络借鉴卷积神经网络中注意力权重矩阵求解以及相似性内积空间度量思路，通过计算同一特征向量在不同关系空间的特征投影距离，获得不同特征向量的注意力权重矩阵。每一个工业资源个体获得子图拓扑结构下信息感知注意力权重，进行特征表征过程中有效加权，提升感知决策优越性。

动作价值分数决策网络由两层全连接网络组成，通过获得到的隐空间特征感知向量，完成状态价值评分，并输出结果，作为下一步决策的选择依据。

将特征编码网络、基于子图结构的注意力计算网络、动作价值分数决策网络依次串联，得到动作价值子网络，将其作为分层结构中一个独立的单层级感知决策模块。

按照工业资源个体层级顺序以及预测过程和观测过程的先后顺序，级联i个单层级感知决策模块，完成整个基于分层优化的工业互联网资源调配子图感知决策网络搭建。

步骤四，利用工业互联网资源调配子图感知决策网络进行决策，在每次决策轮次中，高层次对低层次结构进行预测完成决策，低层次对高层次结构进行观测完成决策。

在宏观结构层面，在工业互联网所需要进行资源调配的工业资源包具有不同的重要性结构层次与效益损失规则。全局情况下，根据重要性层次与效益损失规则的不同可以将工业资源分为i个层级结构，每个层级结构具有n _i个工业资源包。i越大重要性程度越低，越靠近底层结构。该任务中共计存在n个工业资源包。

根据实体工业互联网环境信息约束实际要求，相同层级之间资源调配信息共享，层次高的工业资源具有普遍性和信息共享性，高层次结构可以预测低级别层次结构的决策结果，进行宏观决策，低层次结构根据观测到的高层次结构决策结果做出现有决策。

具体地，在每一步的决策优化中，需要依次对工业互联网场景下对不同层级工业资源包进行层间依次决策，层内同步决策。根据分层优化利用，将模块化的动作价值子网络按照分层结构排列重组。对最底层次i信息矩阵输入第i个动作价值子网络模型，计算得出动作价值q _i，按照贪心策略获得i层级工业资源包决策向量

，完成整个分层优化中的决策预测部分。

从顶层至底层，第一层次工业资源包可以获得所有层次所预测的决策向量，计算得出决策

，第二层次工业资源包可以观测获得第一层次工业资源数据与3到i层次预测决策，计算得出决策

对步骤四进行详细阐述：

对i个层级结构所含所有工业资源包数据输入信息特征整合编码器进行预处理，将低层次数据矩阵输入对应的动作价值子网络模块中，获得预测决策。

其中

表示层级预测决策结果，

表示层级最终观测后的决策结果。由以上过程可以实现顶层逐层对底层的决策预测，最顶层结构在宏观下做出决策，底层依次对上一层次决策进行观测做出决策，完成本轮次决策更迭。具体数学表达如下：

…

其中，

表示除了

以外的其他所有已知决策，

表示当

最大时返回a的数值结果，S表示全局工业资源个体状态矩阵，a表示所有层级工业资源包决策向量矩阵，a _i表示第i层级n _i个工业资源包决策向量，θ _i表示第i层级单层级感知决策模块网络参数。

高层次工业资源依据预测结果完成决策计算，低层次结构根据观测到的高层次工业资源决策结果完成自我决策。具体地，从顶层至底层，第一层次工业资源包可以获得到所有层次所预测的决策向量，计算得出决策

,第二层次第一层次工业资源包可以观测获得第一层次工业资源数据与3到i层次预测决策，计算得出决策

，以此递推，以相同的传递方式完成1到i的决策更迭，实现全局全工业数据包单步同步决策。根据不同的状态转移规则和动作奖励规则，实现动作状态转移。具体数学表达如下：

…

其中，

表示除了

以外的其他所有预测决策，

表示当

最大时返回a的数值结果。特殊的，当i=2时，两层次博弈为斯塔克伯格博弈，所求得的结果为斯塔克伯格博弈均衡解。

步骤五，根据步骤四获得的决策完成动作状态转移，获取动作奖励，实现工业资源包数据属性更新。根据实际工业资源调配奖励和代价条件、转移规则，数学化动作价值转移函数以及动作奖励函数。根据步骤四计算求解所得出的决策，完成工业个体资源动作价值转移，实现工业资源包数据属性更新获取每个个体动作奖励值，完成单位时间步的决策。

与此同时，在单位时间步决策下，实现数据的计入和更新。将所获得实验数据记入元胞数组C内，并放入固定容量的经验池中。在训练过程中，从经验池中抽取批量元胞数组作为训练输入数据，并不断产生新的实验数据计入元胞数组中，放入经验池。当元胞数组数量超过经验池容量，则按照堆栈思想弹出“先入坏经验”，存储“后存好经验”，实现经验池中“经验”实验数据的更新，不断优化训练过程。

元胞数组记为

。其中，S为全局工业资源个体状态矩阵，A为全局决策向量，O为全局工业资源个体子图拓扑结构连接关系矩阵，R为全局工业资源个体动作奖励价值向量，Y为全局工业资源个体是否完成目标转移标识符。

当某一工业资源个体完成当前目标转移，Y=1时，原始数据

中该工业资源个体属性信息进行更新，产生新的目标位置信息，容量大小，实现整个工业互联网结构上工业资源包的动态不间断转移。

步骤六，从经验池中批量抽取元胞数组，作为输入数据传入工业互联网资源调配子图感知决策网络中，获得不同工业资源个体动作价值函数值Q_value计算损失函数，完成网络训练。

结合深度Q网络常见时间差分方法估计期望动作价值，定义如下损失函数：

其中，n为工业资源包总个数，

为目标网络动作价值

的输出结果，每训练一定单位时间步长更新目标网络参数与动作价值网络参数同步，α为目标网络学习率，一般设置为1，r _i为第i个工业资源包在完成一次决策并实现动作转移后所获得的奖励分数，Q_value为工业资源个体动作价值函数值。

根据计算所获取的损失函数值Loss，对参数网络进行梯度反向传播参数更新，梯度更新学习率根据训练情况适时调整。

当整个决策网络参数学习训练更新轮次达到人为设定规定次数时，停止训练，获得收敛的损失函数曲线，完成对网络参数的训练优化，从而实现高层次与低层次动作价值子网络的网络训练，实现一般化分层级工业互联网资源调配问题决策方案。

以上所述仅为本发明的具体实施方式，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分层优化的工业互联网资源调配方法，其特征在于，包括以下步骤：

步骤三，搭建特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络，依次串联特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络，得到单层级感知决策模块；按照工业资源个体层级顺序以及预测过程和观测过程的先后顺序，级联单层级感知决策模块，完成整个基于分层优化的工业互联网资源调配子图感知决策网络搭建；

2.根据权利要求1所述的方法，其特征在于，所述步骤一，所述图网络模型为

，并初始化连接关系矩阵

以及节点之间的连接权重矩阵

，其中，

表示运输基站集合，简称节点集合，

表示节点之间的运输通路集合，

表示节点之间邻接关系集合，

，

表示连接关系矩阵，

表示节点之间的连接权重矩阵。

3.根据权利要求2所述的方法，其特征在于，所述步骤二，所述对工业资源包特征属性数据、图网络进行数据预处理具体为：

其中，S是全局工业资源个体状态矩阵，

4.根据权利要求3所述的方法，其特征在于，所述步骤三，所述特征编码网络由全连接网络组成，对输入的整合编码特征向量获得其在隐空间的表征形式；所述基于子图结构的注意力计算网络通过计算同一特征向量在不同关系空间的特征投影距离，获得不同特征向量的注意力权重矩阵；所述动作价值分数决策网络由两层全连接网络组成，通过获得到的隐空间特征感知向量，完成状态价值评分，并输出结果，作为下一步决策的选择依据。

5.根据权利要求4所述的方法，其特征在于，所述步骤四具体为：

，完成整个分层优化中的决策预测部分；

6.根据权利要求5所述的方法，其特征在于，所述步骤五，所述元胞数组为：

7.根据权利要求6所述的方法，其特征在于，所述步骤六，所述损失函数为：

其中，n为工业资源包总个数，

为目标网络动作价值