CN114500561A

CN114500561A - 电力物联网网络资源分配决策方法、系统、设备及介质

Info

Publication number: CN114500561A
Application number: CN202210148221.8A
Authority: CN
Inventors: 丁慧霞; 张慧; 孟萨出拉; 王智慧; 汪洋; 朱思成; 马世乾; 郭晓艳
Original assignee: China Electric Power Research Institute Co Ltd CEPRI; State Grid Tianjin Electric Power Co Ltd
Current assignee: China Electric Power Research Institute Co Ltd CEPRI; State Grid Tianjin Electric Power Co Ltd
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-05-13
Anticipated expiration: 2042-02-17
Also published as: CN114500561B

Abstract

本发明公开了一种电力物联网网络资源分配决策方法、系统、设备及介质，所述方法包括以下步骤：基于以强化学习训练获取的分配决策模型，获取电力物联网已输入数据信息的当前节点的下一跳节点，实现网络资源分配决策；其中，所述分配决策模型获取时，基于待资源分配的电力物联网的每个节点的属性信息，构建获得MDP图；所述MDP图中每个状态点分别用于表述电力物联网的每个节点，点的权重用于表示节点的可使用资源；MDP图中两个点间的边用于表示两个状态点分别对应的两个节点间能够通信。本发明具体提供了一种基于强化学习的分配决策优化方法，通过强化学习算法可以动态地平衡网络负载，可提升网络资源使用率。

Description

电力物联网网络资源分配决策方法、系统、设备及介质

技术领域

本发明属于网络资源分配决策技术领域，特别涉及一种电力物联网网络资源分配决策方法、系统、设备及介质。

背景技术

现有传统的云计算需要依托传输网络获取用户数据，并将处理后的结果反输给用户，这种模式带来的传输延迟、处理延迟等问题在海量信息处理中变得非常明显且不可忽略。鉴于边缘计算可在用户的“边缘地带”处理数据，具有较低延迟的特点，采用边缘计算可以较好地解决上述问题。

基于上述技术特点，未来通信协议网关会作为边缘计算服务节点，在支撑海量终端通信的同时，还将承载大量的数据处理业务(示例性的，如视频编解码、AI大数据分析和机器学习等任务)；数据处理业务势必会抢占通信传输的算力资源，造成吞吐能力的下降以及时延的不确定性。

综上，电力物联网网络本身非常复杂，内含大量的网关，如何实现网关之间的负载平衡，充分利用网络资源是一个亟待解决的问题。

发明内容

本发明的目的在于提供一种电力物联网网络资源分配决策方法、系统、设备及介质，以解决上述存在的一个或多个技术问题。本发明具体提供了一种基于强化学习的分配决策优化方法，通过强化学习算法可以动态地平衡网络负载，可提升网络资源使用率。

为达到上述目的，本发明采用以下技术方案：

本发明第一方面提供的一种电力物联网网络资源分配决策方法，包括以下步骤：

基于以强化学习训练获取的分配决策模型，获取电力物联网已输入数据信息的当前节点的下一跳节点，实现网络资源分配决策；

其中，所述分配决策模型获取时，基于待资源分配的电力物联网的每个节点的属性信息，构建获得MDP图；所述MDP图中每个状态点分别用于表述电力物联网的每个节点，点的权重用于表示节点的可使用资源；MDP图中两个点间的边用于表示两个状态点分别对应的两个节点间能够通信。

本发明方法的进一步改进在于，所述每个节点的属性信息包括可使用资源、物理位置、信号覆盖半径与支持的通信协议中的一种或多种。

本发明方法的进一步改进在于，在获取电力物联网已输入数据信息的当前节点的下一跳节点，实现网络资源分配决策后还包括：

跟踪获取所述数据信息跳转至获取的当前节点的下一节点的收益，基于收益更新所述分配决策模型；

采用更新后的分配决策模型，处理电力物联网后续网络资源分配决策。

本发明方法的进一步改进在于，所述分配决策模型通过输入的数据信息类型、当前节点与下一跳节点，唯一地定位到存放的收益值并输出；其中，q_predict(i,x,y)＝qtable(i,x,y)；式中，i为数据信息类型、x为当前节点、y为下一跳节点、q_predict(i,x,y)为当前分配决策模型认为的数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心的收益值；所述分配决策模型维护两个qtable；其中一个为QT_predict，用于更新预估收益值；另一个为QT_target，用于存放当前分配决策模型的预估收益值；

所述分配决策模型的初训练步骤包括：获取历史样本数据集；所述历史样本数据集中的每一条历史样本数据均包括一次传输的数据信息类型、当前节点、下一跳节点以及本次传输至数据中心实际收益值；基于每一条历史样本数据同步更新所述两个qtable，更新表达式为，

式中，

代表在使用第n条历史样本数据训练决策模型之前，QT_predict中存放的对于数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心处的预估收益值；rr_n是第n条历史样本数据中记录的数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心处的实际收益值；

代表在使用第n+1条历史样本数据训练决策模型之前，QT_target中存放的数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心处的预估收益值；α是学习因子；n是从1开始的正整数；其中，

所述分配决策模型使用时的自训练步骤包括：所述QT_predict的更新方式为，

式中，

代表t时刻QT_predict中存放的对于数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心处的预估收益值，R_t+1是第t+1时刻得到的数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心处的实际收益值，

代表在收到实际收益值的t+1时刻QT_target中存放的数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心处的预估收益值；在预设定的更新周期T后，QT_target更新为QT_predict中的值。

本发明方法的进一步改进在于，以负载平衡作为目标时，收益为数据信息在传至下一跳节点之后系统的整体负载平衡，表达式为：

式中，LB为负载平衡衡量值，N为电力物联网网络中节点的个数；cr_m表示第m个节点当前被占用的资源量，tr_m表示第m个节点拥有的资源总量；pt_m表示节点m当前数据信息的平均处理时间；qt_m表示节点m当前数据信息的平均排队时间；w_r表示节点m当前被占用资源比在计算总收益LB时所占的权重因子，w_p表示节点m当前数据信息的平均处理时间在计算总收益LB时所占的权重因子，w_q表示节点m当前数据信息的平均排队时间在计算总收益LB时所占的权重因子；

以平均数据传输时间作为衡量标准时，收益为数据信息从当前节点经下一跳节点传输至数据中心所需的总时间与历史所需时间的平均值，表达式为：

式中，

为t时刻数据信息类型i的数据信息从当前节点x经过下一跳节点y到达数据中心的平均时长；

为t时刻数据信息类型i的数据信息从节点y经过下一跳节点z到达数据中心的平均时长；

是数据信息类型i的数据信息到达下一跳节点y时的时间点，

是数据信息类型i的数据信息在当前节点x处的时间戳；neighbours(y,i)表示下一跳节点y对应的状态点在MDP图中所有相连的且可处理与传输数据信息类型i的数据信息的状态点对应的电力网络节点；w_h为历史传输时长所占比重。

本发明第二方面提供的一种电力物联网网络资源分配决策系统，包括：

网络资源分配模块，用于基于以强化学习训练获取的分配决策模型，获取电力物联网已输入数据信息的当前节点的下一跳节点，实现网络资源分配决策；

本发明系统的进一步改进在于，还包括：

自训练更新模块，用于在获取电力物联网已输入数据信息的当前节点的下一跳节点，实现网络资源分配决策后，跟踪获取所述数据信息跳转至获取的当前节点的下一节点的收益，基于收益更新所述分配决策模型；更新后的分配决策模型，用于处理电力物联网后续网络资源分配决策。

本发明系统的进一步改进在于，所述分配决策模型通过输入的数据信息类型、当前节点与下一跳节点，唯一地定位到存放的收益值并输出；其中，q_predict(i,x,y)＝qtable(i,x,y)；式中，i为数据信息类型、x为当前节点、y为下一跳节点、q_predict(i,x,y)为当前分配决策模型认为的数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心的收益值；所述分配决策模型维护两个qtable；其中一个为QT_predict，用于更新预估收益值；另一个为QT_target，用于存放当前分配决策模型的预估收益值；

式中，

式中，

本发明第三方面提供的一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明任一项上述方法的步骤。

本发明第四方面提供的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明任一项上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明提供的方法中，创新地根据电力物联网网络中的节点的特性(物理位置、支持的通信协议和可使用的资源)构建MDP模型，将该MDP模型作为电力网络的一种抽象的描述；基于此抽象MDP模型进行强化学习，强化学习用于电力物联网网络资源分配决策模型的训练；基于上述训练好的分配决策模型，在有数据到达网络中的某一节点时决定该数据下一步被传输至哪一个节点，决策依据则是预设的优化目标(例如，想要缩短数据处理与传输时间，则决策依据该数据从当前节点到最终的数据处理中心需要的处理与传输时间)，决策依据是灵活的，可以根据具体的需要制定。综上所述，本发明具体提供了一种基于强化学习的分配决策优化方法，通过强化学习算法可以动态地平衡网络负载，可提升网络资源使用率。

本发明中，依据具体的需求生成一个计算公式，可用来计算当前决策模型每一次决策的优劣程度(例如，在决策模型作出一次决定后，追踪该组数据被传送至数据中心所需时间)，并将计算结果反馈给强化学习算法，算法将根据反馈的数据进一步优化决策模型的参数，从而达到在实际应用中根据现实反馈不断训练优化决策模型的效果；同时，如果网络本身状态产生波动，强化学习算法也将通过实时的反馈数据训练决策模型作出更贴近网络真实状态的决定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种电力物联网网络资源分配决策方法的流程示意图；

图2是本发明实施例中，决策模型选择一条收益为20的路径的示意图；

图3是本发明实施例中，决策模型选择一条收益为50的路径的示意图；

图4是本发明实施例中，决策模型学习到两条路径不同的收益且在后续选择收益更高的路径的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

请参阅图1，本发明实施例的一种电力物联网网络资源分配决策方法，具体包括以下步骤：

基于以强化学习训练获得的分配决策模型，获取所述电力物联网已输入数据信息的当前节点的下一跳节点，实现网络资源分配决策。具体优选的还包括，跟踪获取所述数据信息跳转至获取的当前节点的下一节点的收益，基于收益更新所述分配决策模型；采用更新后的分配决策模型，处理电力物联网后续网络资源分配决策。

本发明实施例中，所述以强化学习训练获得的分配决策模型的获取步骤具体包括：

基于待资源分配的电力物联网的每个节点的属性信息，构建获得MDP(马尔可夫决策过程，Markov Decision Process)图；其中，MDP图中每个状态点分别用于表述所述电力物联网的每个节点，点的权重用于表示节点的可使用资源；MDP图中两个点间的边用于表示两个状态点分别对应的两个节点间能够通信(示例性解释的，如支持相同的通信协议、信号覆盖区域有重叠则表示能够通信等)。本发明实施例示例性可选的，每个节点的属性信息包括可使用资源、物理位置、信号覆盖半径与支持的通信协议中的一种或多种。

本发明实施例公开的一种基于表格的决策模型，所述决策模型基于类似于表格的结构qtable，通过当前信息类型i、当前节点x与下一跳节点y三个信息，可以唯一地定位到表中存放的数据q_predict，它代表着当前决策模型认为的数据信息i在x节点经过y节点到达数据中心的收益值，表达式为：q_predict(i,x,y)＝qtable(i,x,y)。

为了维持决策模型的相对稳定，防止决策模型频繁波动导致所作出的决策失去准确度，需要维护两个qtable；其中一个为QT_predict，用于更新预估收益值；另一个为QT_target，用于存放当前分配决策模型的预估收益值。

模型的每一次更新都发生在前者中，但是决策都基于后者中的值，后者会遵循一定更新周期更新同步到前者。所述QT_predict的更新方式为，

式中，

本发明实施例示例性公开的几种收益：

1.当以负载平衡作为目标时，收益可定为一类数据信息在传至下一跳节点之后系统的整体负载平衡：

其中，N为电力网络中节点的个数，也是MDP模型中状态的个数；cr_i表示第i个节点当前被占用的资源量，tr_i表示第i个节点拥有的资源总量，二者相除得到当前节点的资源使用率；pt_i表示节点i当前数据信息的平均处理时间；qt_i表示节点i当前数据信息的平均排队时间；w_x∈{r,p,q})则表示上述三个衡量因素的权重，权重越高代表我们更看重该网络的哪一方面性能。

在计算负载平衡衡量值LB时，考虑到三个因素：每一个节点的当前的资源占用率，每一个节点的当前的平均数据信息处理时间与每一个节点当前的数据信息平均排队时间(传入某节点的信息如果已经没有资源可以用于处理时将进入队列等候处理)。通常来讲，资源占用率达到峰值后，信息才会出现排队的情况，因而把两者都考虑进去可以使得收益的衡量同时适用于网络较为空闲的状态下和网络较为繁忙的状态下。此外，在不同的情况下，对于这三组因素的侧重可能有所不同，此时可以通过修改w参数以改变收益衡量标准，从而进一步调节决策模型的学习方向。

2.当以平均数据传输时间作为衡量标准时，收益可定为一组数据信息i从当前某节点x经过下一跳节点y传输至数据中心所需的总时间与历史所需时间的平均值：

其中，

为t时刻数据信息i从节点x经过节点y到达数据中心的平均时长，

是数据信息i到达数据中心的时间，

则是该组数据信息在节点x处的时间戳，二者相减可以计算出数据信息i本次从节点x传到节点y的实际所用的时间；neighbours(y)表示节点y对应的状态在MDP中所有的相连的状态点对应的电力网络节点；w_h为历史传输时长所占比重。

当有了新的数据后，也就是新的一次同样类型的数据信息、到达同样下一跳节点的传输时长后，AT(x,y)_i将自我更新并作为新的收益值。然而，考虑到现实中存在偶然情况，直接使用全新的传输时长是不合理的，因此，新的收益值由之前的收益值与新的数据组合计算得到，通过调整权值w_h的大小，可以调节新数据所占比重，新数据所占比重高时，决策模型将学习地更快，但是也会带来较大的波动，比重低时则决策模型学习速度会下降，但相对稳定。

本发明实施例原理解释性的，(1)分配决策模型用于在数据信息到达电力物联网的一个节点时决定该数据信息的下一跳节点。其中，下一跳节点必须支持该数据信息当前的通信协议，且下一跳节点的信号范围必须与当前节点的信号覆盖范围存在重叠，且下一跳节点的剩余资源必须足够处理该数据信息。(2)分配决策模型将首先挑选出符合(1)中描述的节点集合，之后根据数据信息从当前节点到达预设的数据中心的整体收益(收益根据与优化目标相关的实际数据计算)，从节点集合中选择给出信息传输适合的下一跳节点。例如，优化目标是缩短信息从当前节点传输至数据中心的时间，那么决策模型将选择可以更快将信息传至数据中心的节点。

示例性的，分配决策模型维护一个表(适用于小系统)或者一个预测模型(适用于大系统)用于预估可选节点集中每一个节点作为下一跳的收益；决策模型将根据这个预估的收益进行选择。强化学习将根据实际数据计算每一次决策的收益值(例如优化信息传输时间时，收益值即为信息传输时间)，之后将根据收益值计算出决策模型参数的调整量，以调整决策模型的预估值。解释性的，分配决策模型需要有历史数据进行训练，使其预估的收益有一定准确度，历史数据需要具备信息所使用的协议、数据信息下一跳的节点以及信息从当前节点到达数据中心的整体收益(收益根据与优化目标相关的实际数据的计算)之后将该模型部署现网，在使用该决策模型的同时，通过强化学习算法对其进行不断优化与调整。

本发明实施例优选的，分配决策模型优化基于强化学习算法；在现网实际使用过程中，将对每一次的决策进行跟踪，并将与优化目标相关的实际数据反馈给强化学习算法(例如，优化目标为缩短信息传输至数据中心的时间，则系统将反馈信息到达数据中心所需时间给强化学习算法)；强化学习将根据实际数据计算每一次决策的收益值(例如优化信息传输时间时，收益值即为信息传输时间)，之后将根据收益值计算出决策模型参数的调整量，以调整决策模型的预估值。

本发明实施例优选的，为了可以不断优化决策模型、自适应整个电力网络状态的变化，需要不停探索从当前节点到数据中心的不同路径以便发现更优路径或者感知到系统状态的变化。为了达到这个目的，决策模型将不会100％选择当前最优的下一跳节点，而是在一定预设概率(ε)下随机从可用节点集中选择一个节点作为下一跳节点；示例性的，ε通常是一个较小的值，可在0.1-0.3之间。假设节点A作为一个更优下一跳节点，当其被选择时，它的具体优势将直观体现在反馈的现实数据中，即为一个更高的收益值，强化算法会调整决策模型参数，使之预估的选择节点A作为下一跳节点时的收益升高。

综上所述，强化学习是机器学习的一个领域，它注重的是软件主体在一个环境中应该如何进行行动从而达到最大化累积奖励的想法。强化学习被认为是与监督学习和非监督学习并列的三种机器学习范式之一。强化学习与监督学习的不同之处在于，不需要标记输入/输出对，并且不需要明确校正次优动作。相反，强化学习的重点是在探索(未知领域)和利用(当前知识)之间找到平衡。环境通常被表示为一个马尔可夫决策过程(MDP)，所以在这种情况下许多强化学习算法使用动态规划技术。经典动态规划方法和强化学习算法的主要区别的是，后者不需要假定知道马尔可夫决策过程的精确的数学模型，而且针对的是无法找到确切方法的大规模马尔可夫决策过程。

强化学习算法在不断摸索中自我优化的。在这之前，首先需要对整个电力物联网进行建模，模型为一个马尔可夫过程模型(MDP)，MDP模型中的一个节点表示为一个状态(数据到达某一个边缘计算网关+在该网关处是否进行数据处理)，而可以传输数据的网关在模型中相连以表示从其中一个状态转移到另一个状态(通常是从离客户近的网关传输数据至离数据中心近的网关)，这种状态转移是通过一个动作来完成的，而在此模型之中，一个动作即为一次数据传输。在该模型中，起始节点是一个无意义的点，它只代表强化学习算法的起点，算法首先获取用户所处位置并识别出所有用户可以接入的状态点，之后在这些状态点中进行选择。模型的终节点也只有一个，即为数据中心且数据中心必处理数据。起始节点与终节点中的每一个网关/数据中心都可以对应数据处理与不处理两种情况，这里我们假设所有的任务数据，即使在边缘节点处理过，最终也要汇聚至数据中心进行处理。每一个任务从一开始都是一个数据处理型任务，若其在中间的某一个边缘计算节点被处理过，则变为一个单纯的传输任务。

强化学习算法自身维护一个对于当前网络状态(即真实环境)的估计状态，利用该估计状态，算法会对每一步操作带来的“收益”(此处主要指数据剩余传输时间加处理时间的综合)进行评估计算，并根据此结果选择下一步操作(即是否在此节点处处理数据以及下一步该将数据传至哪一个网关)。而在该操作完成后，算法会追踪该任务后续每一步操作的“收益”，并在任务达到终节点(数据中心)时将这些“收益”作为反馈，据此调整其维护的估计状态，使之更接近真实状态。利用此原理，强化学习可以察觉到网络状态的变化，并根据得到的反馈对自身参数进行动态调整。这种强化学习算法自然地平衡了系统负载，因为过于忙碌的网关通常对应着更长的等待时间、更差的服务质量，因此每次算法都会倾向于将任务分配给那些有更多空闲资源的网关，从而在一定程度上保证了系统的负载平衡，提升了网络整体资源的利用率。

本发明为了解决现有技术存在的问题，即如何避免任务之间的资源抢占，尤其是当前更需要被处理的任务被其他任务抢占资源的情况，以及如何尽可能地充分利用网络资源，动态地实现网络的负载平衡，具体提供了一种资源分配决策方法，其应用强化学习，依托其强大的自学习能力，再结合对整个传输网路的建模与不同业务的优先级划分，在为每项业务选择适合的处理节点的同时，可以平衡整个系统的负载，避免出现大量任务集中于某些节点而其他节点空闲的情况。具体解释性的，本发明通过强化学习算法可以动态地平衡网络负载，提升资源使用率、提升服务质量，在网络性能出现波动时也可以较敏锐地察觉到并自动做出相应调整。同时优先级的划分以及适当的调度算法也保证了每个任务都被执行的前提下，不会出现资源抢占的问题。

请参阅图2至图4，通过三个附图来说明强化算法是如何从环境中学习的。假设有三个用户A、B、C分别给出任务A，且三个用户按照前面提及的顺序接入网络。从图中可以看出，对于处在图中位置的客户ABC，均需要首先接入网关A，之后再选择是接入网关B还是网关C。首先是用户A，此时强化学习算法并不知道网关B和网关C哪个更好，因此它随机为用户A选择了网关B，并在用户数据到达数据中心后计算“收益”(收益的计算方法根据优化目标确定，例如，如果要优化数据在网络中的传输与处理时间，则收益计算与数据从经网关B到达数据中心所耗费的时间强相关，时间越长，收益越低)，此处我们可以看到，收益为20。接下来用户B接入网关A，此时算法为用户B指定网关C作为下一跳网关，并在用户B数据传输至数据中心后得到收益50。这时算法已经意识到对于任务A来说，当前网络状态下，网关C很有可能是一个更好的选择，因此对于最后接入的用户C，算法有更大的可能分配网关C给用户C。

本发明上述实施例提供的技术方案最适用于具有以下特性的场景，包括：1)存在大量网关的电力网络，且这些网关错落分布，互相连通。2)优化方向多样；因为强化学习算法中对于“收益”的定义是可变的，可以根据不同的需求构建不同的收益计算方式，从而达到不同的优化效果。3)网络本身状态多变；强化学习的一大好处在于它的动态优化能力，因为该算法从实际结果中得到反馈，并据此自我调整，所以当网络自身状态发生变化时，例如某一个网关因为某种故障宕机或者处理变慢等，它都可以通过实际环境给出的反馈察觉到该网关的处理能力低下，从而不再倾向于选择这个网关来进行数据传输与处理。4)训练数据集不充足时；不同于其他的人工智能，强化学习不需要进行大量的模型训练，也就是说，它不需要使用一个足够大、足够好的数据集来训练。相反地，强化学习会从环境反馈中不断调整参数，在“实践”中获取“经验”。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明再一实施例中，本发明实施例提供了一种电力物联网网络资源分配决策系统，包括：

本发明再一个实施例中，本发明实施例提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于电力物联网网络资源分配决策方法的操作。

本发明再一个实施例中，本发明实施例提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关电力物联网网络资源分配决策方法的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电力物联网网络资源分配决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种电力物联网网络资源分配决策方法，其特征在于，所述每个节点的属性信息包括可使用资源、物理位置、信号覆盖半径与支持的通信协议中的一种或多种。

3.根据权利要求1所述的一种电力物联网网络资源分配决策方法，其特征在于，在获取电力物联网已输入数据信息的当前节点的下一跳节点，实现网络资源分配决策后还包括：

4.根据权利要求3所述的一种电力物联网网络资源分配决策方法，其特征在于，所述分配决策模型通过输入的数据信息类型、当前节点与下一跳节点，唯一地定位到存放的收益值并输出；其中，q_predict(i，x，y)＝qtable(i，x，y)；式中，i为数据信息类型、x为当前节点、y为下一跳节点、q_predict(i，x，y)为当前分配决策模型认为的数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心的收益值；所述分配决策模型维护两个qtable；其中一个为QT_predict，用于更新预估收益值；另一个为QT_target，用于存放当前分配决策模型的预估收益值；

式中，

式中，

5.根据权利要求1至4中任一项所述的一种电力物联网网络资源分配决策方法，其特征在于，

以负载平衡作为目标时，收益为数据信息在传至下一跳节点之后系统的整体负载平衡，表达式为：

式中，

是数据信息类型i的数据信息到达下一跳节点y时的时间点，

是数据信息类型i的数据信息在当前节点x处的时间戳；neighbours(y，i)表示下一跳节点y对应的状态点在MDP图中所有相连的且可处理与传输数据信息类型i的数据信息的状态点对应的电力网络节点；w_h为历史传输时长所占比重。

6.一种电力物联网网络资源分配决策系统，其特征在于，包括：

7.根据权利要求6所述的一种电力物联网网络资源分配决策方系统，其特征在于，还包括：

8.根据权利要求7所述的一种电力物联网网络资源分配决策系统，其特征在于，所述分配决策模型通过输入的数据信息类型、当前节点与下一跳节点，唯一地定位到存放的收益值并输出；其中，q_predict(i，x，y)＝qtable(i，x，y)；式中，i为数据信息类型、x为当前节点、y为下一跳节点、q_predict(i，x，y)为当前分配决策模型认为的数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心的收益值；所述分配决策模型维护两个qtable；其中一个为QT_predict，用于更新预估收益值；另一个为QT_target，用于存放当前分配决策模型的预估收益值；

式中，

代表在使用第n条历史样本数据训练决策模型之前，QT_predict中存放的对于数据信息类型i的数据信息在当前节点x经过下一跳节点y到达数据中心处的预估收益值；rr_n是第n条历史样本数据中记录的数据信息类型i 的数据信息在当前节点x经过下一跳节点y到达数据中心处的实际收益值；

式中，

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。