CN117270520A

CN117270520A - 一种巡检路线优化方法及装置

Info

Publication number: CN117270520A
Application number: CN202310630947.XA
Authority: CN
Inventors: 刘中河; 王放; 张奕; 陈帅; 张黎明; 安博林; 彭伟; 杨潇; 卞艺晓
Original assignee: Beijing Gas Group Tianjin Lng Co ltd
Current assignee: Beijing Gas Group Tianjin Lng Co ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-12-22

Abstract

本发明提供了一种巡检路线优化方法及装置，该方法包括：将最优巡检路线抽象为马尔可夫决策过程；根据巡检点的位置建立强化学习仿真环境；智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习，用于完成最优巡检路线规划；利用最大熵奖励增强型强化学习算法，进行最大熵奖励增强型强化学习；智能体在奖励增强型强化学习的过程中，在环境因素变化的干扰下选取最优巡检路线。本发明可以提高数据效率，克服现有技术存在的收敛速度的问题。

Description

一种巡检路线优化方法及装置

技术领域

本发明涉及强化学习技术领域，尤其涉及一种巡检路线优化方法及装置。

背景技术

化工厂对于设备的安全性和效率要求较高。化工产品生产的物理过程可归纳为几个单元操作，每个单元之间环环相扣，一个设备的运行状态影响后续的设备，进出口的物料有着一定的关联。而现场巡检工作则是对生产设备进行定期的巡检，由几个班组的工作人员完成。巡检中对设备的运行情况及生产进度进行详细记录，有故障将联系技术人员进行紧急处理。现有的巡检形式是在固定时间采用固定路线要求员工在巡检点进行检查和记录，在现场巡检工作中，存在以下问题：1、数据繁琐，无法提取有效信息。每个巡检人员上传的数据包括时间、路线、处理情况等等，针对不同的目标应该注重数据中的不同部分，需总花费时间最短，则需要设计优化路线；需处理效率最高，则需要优化人员处理能力及后续维护的协调；2、耗费时间，需要大量人工干预；3、巡检路线不够灵活，效率不高。

而路线的优化是巡检工作中的重点。巡检路线的优化可以给化工企业带来更高的工作效率和更低的人工成本投入，加快了故障的处理速度，对于化工厂的稳定运行以及提升安全生产都有着重大意义。给定起点终点和途径点从而进行路径优化是一个很出名的研究问题，近几年以强化学习为主的智能算法被发现在处理这类问题时所具备的优势。目前主要巡检路线优化方法分为三类：1、传统算法：比如A*算法、Dijkstra算法，这类方法算法简单，应用方便，主要缺陷是应对复杂情况下适应能力不足；2、群体算法：比如蚁群算法，遗传算法及其改进算法，这类方法具有不错的适应性和鲁棒性，但是数据效率不够高，且存在无法逃离局部最优的问题存在；3、智能算法：包括强化学习算法解决巡检路径优化的问题，但算法也存在超参数敏感，收敛到局部最优的问题。

强化学习是一种数据驱动的智能学习算法，无需模型的具体信息，大部分为无模型的应用场景，具备一定的鲁棒性和灵活性。通过与环境进行互动来得到环境对于动作的反馈信号，从而在不断学习和互动的过程中得到近乎最优的策略。如图1的强化学习模型，近几年由于深度神经网络超强的逼近和拟合能力，深度强化学习越来越成为研究热点，尤其是最大熵强化学习的算法的提出，在强化学习探索和利用的关键问题上取得了较好的平衡。最大熵强化学习算法指的是在强化学习优化过程中不仅需要累积奖励值最大，也需要累计的熵值最大，即动作选取时保持一定的多样性，但是该算法存在一定的收敛速度的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的巡检路线优化方法及装置。

本发明的一个方面，提供了一种巡检路线优化方法，所述方法包括：

将最优巡检路线抽象为马尔可夫决策过程；

根据巡检点的位置建立强化学习仿真环境；

智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习，用于完成最优巡检路线规划；

利用最大熵奖励增强型强化学习算法，进行最大熵奖励增强型强化学习；

智能体在奖励增强型强化学习的过程中，在环境因素变化的干扰下选取最优巡检路线。

进一步地，所述马尔可夫决策过程包括四元组，分别为：

状态空间S，S＝{s_t}表示当前时间步的状态的集合，s_t由巡检路线标志矩阵与巡检点标志矩阵组成；

动作空间A，A＝{a_t}表示智能体动作的集合，a_t为当前时间步的动作；状态转移概率p，假设状态空间S和动作空间A都是连续的，状态转移概率p表示从状态s_t转移到下一步状态s_t+1的概率；

即时奖励值R，R＝{r_t}表示即时奖励的集合，r_t为单步的距离与根据环境中距离的标尺得到的负系数的乘积。

进一步地，所述智能体根据当前时间步的状态信息给出的环境反馈进行奖励增强型强化学习，包括：

智能体在时刻t观测到环境反馈的状态s_t∈S，根据策略π(s_t,a_t)选取动作a_t∈A，完成动作后获取实时奖励值r_t，动作a_t同时改变环境，状态从s_t转移到s_t+1，智能体根据t+1时刻的状态s_t+1选择下一个动作，进入下一时间节点的迭代。

进一步地，所述利用最大熵奖励增强型强化学习算法，进行最大熵奖励增强型强化学习，还包括：

同时最大化累计奖励和最大化选取动作累积的熵的最优策略的表达式为：

式中，π为策略，T为时间长度，γ为折扣因子，温度因子α用于控制熵正则化的程度，若α较大，表明策略随机性越强，若α＝0，则策略趋近于确定性，表示状态s_t下策略分布的熵，且策略π(.∣s_t)越随机，熵值越大。

最大熵奖励增强型强化学习中，奖励r_a的表达式为：

r_a＝r_t+τlogπ(a_t∣s_t)

式中，τ为奖励增强项的系数。

进一步地，所述利用最大熵奖励增强型强化学习算法，进行最大熵奖励增强型强化学习，包括：

初始化网络参数，所述网络参数包括：Q网络参数θ，Q目标网络参数和策略网络参数/>

预设步数内选取随机动作进行智能体与环境互动，将互动经验填充经验池D，填充到经验池的奖励为r_a，预设步数后利用策略网络输出的均值与方差的分布进行采样得到的动作进行互动；

利用随机梯度下降算法交替更新Q网络和策略网络，直到所述Q网络和所述策略网络达到收敛状态，最大熵奖励增强型强化学习算法学习过程结束。

进一步地，所述Q网络的损失函数的表达式为：

所述策略网络的损失函数的表达式为：

进一步地，所述Q网络和所述策略网络均由三层全连接层结构组成；

所述策略网络的最后一层包括输出均值的全连接层和方差的全连接层。

进一步地，判断最优巡检路线是否符合要求，如果不符合要求，则重新设置状态、动作和奖励，再次进行学习。

本发明的第二方面，提供了一种巡检路线优化装置，所述装置包括：

抽象模块，用于将最优巡检路线抽象为马尔可夫决策过程；

建立模块，用于根据巡检点的位置建立强化学习仿真环境；

奖励增强型强化学习模块，用于智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习，用于完成最优巡检路线规划；

最大熵奖励增强型强化学习模块，用于利用最大熵奖励增强型强化学习算法，进行最大熵奖励增强型强化学习；

选取模块，用于智能体在奖励增强型强化学习的过程中，在环境因素变化的干扰下选取最优巡检路线。

本发明的另一个方面，还提供了一种电子设备，该设备包括存储控制器，所述存储控制器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上巡检路线优化方法的步骤。

本发明实施例提供的一种巡检路线优化方法及装置，可以提高数据效率，克服现有技术存在的收敛速度的问题，超参数稳定，可以给化工企业带来更高的工作效率和更低的人工成本投入，加快了故障的处理速度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了强化学习模型的结构示意图；

图2为本发明实施例提供的一种巡检路线优化方法的流程图；

图3为本发明实施例提供的最大熵奖励增强型强化学习算法示意图；

图4为本发明实施例提供的待巡检点的坐标分布图；

图5为本发明实施例提供的初始情况随机巡检路线的情况示意图；

图6为本发明实施例提供的最大熵奖励增强型强化学习算法学习过后最优巡检路线的情况示意图；

图7为本发明实施例提供的最大熵奖励增强型强化学习算法与普通最大熵强化学习算法对比效果图；

图8为本发明实施例提供的一种巡检路线优化装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

图2示意性示出了本发明一个实施例的一种巡检路线优化方法的流程图。参照图2，本发明实施例的巡检路线优化方法具体包括以下步骤：

S21、将最优巡检路线抽象为马尔可夫决策过程；

S22、根据巡检点的位置建立强化学习仿真环境；

S23、智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习，用于完成最优巡检路线规划；

S24、利用最大熵奖励增强型强化学习算法，进行最大熵奖励增强型强化学习；

S25、智能体在奖励增强型强化学习的过程中，在环境因素变化的干扰下选取最优巡检路线。

进一步地，所述马尔可夫决策过程包括四元组，分别为：

动作空间A，A＝{a_t}表示智能体动作的集合，a_t为当前时间步的动作；

状态转移概率p，假设状态空间S和动作空间A都是连续的，状态转移概率p表示从状态s_t转移到下一步状态s_t+1的概率；

本实施例中，状态转移概率p，可以通过建立强化学习仿真环境完成。

本实施例中，利用python具体编写强化学习仿真环境中的初始化函数以及与最大熵强化学习算法互动的函数，具体涉及到初始状态以及状态如何转移。

最大熵奖励增强型强化学习中，奖励r_a的表达式为：

r_a＝r_t+τlogπ(a_t∣s_t)

式中，r_t为环境反馈的即时奖励，τ为奖励增强项的系数。

本实施例中，设置P＝τlogπ(a_t∣s_t)。

本实施例中，计算回合奖励的时候累加的仍然是单步奖励r_t。

本实施例中，最大熵强化学习与普通强化学习算法的区别在于不仅需要最大化累计奖励，还需要最大化选取动作累积的熵，而在奖励增强型最大熵强化学习中，奖励r_a设置为本身环境反馈的奖励r_t以及选择当前动作的一个概率值。

进一步地，所述Q网络的损失函数的表达式为：

所述策略网络的损失函数的表达式为：

本实施例中，强化学习最开始采取的动作为随机动作，可以从中得到最开始的随机路径，并且由于强化学习的学习过程中奖励与巡检点之间距离相关，奖励的最大化为巡检路线总距离的最小化；

将最开始的随机路径与强化学习后得到的巡检路径进行对比可以看出明显的差距，来验证强化学习算法的效果；

查看并分析最后得到的最优巡检路线是否符合要求，需要更改的地方再次记录或者重新设置强化学习状态、动作和奖赏，再次进行学习。

本实施例中，将得到的符合要求的最优巡检路线统一布置给巡检员工，便于统一管理，如果在巡检中遇到具体问题需要具体分析。

本发明实施例提供的一种巡检路线优化方法，可以提高数据效率，克服现有技术存在的收敛速度的问题，超参数稳定，可以给化工企业带来更高的工作效率和更低的人工成本投入，加快了故障的处理速度。

图3为本发明实施例提供的最大熵奖励增强型强化学习算法示意图。

图4为本发明实施例提供的待巡检点的坐标分布图。

本实施例中，例如巡检地有20个巡检节点，并固定0号节点为起点的情况为例，进行结果分析，在学习之前，第一回合采用的是随机选择巡检点，如图5所示，路线杂乱无章，在实际情况中耗时耗力，工作效率极低；在最大熵奖励增强型强化学习算法学习之后得到的优化后的巡检路线如图6所示，得到了全局最优解；将本发明中的最大熵奖励增强型强化学习算法与普通最大熵强化学习算法进行了对比，如图7所示，在不同随机种子的设定下，本发明的算法无论在收敛速度还是收敛终值都优于普通最大熵强化学习算法；本发明的算法与传统方法A*算法，群体智能算法粒子群算法进行对比，由最大熵奖励增强型强化学习算法学习得到的优化后路径总距离最短，最符合巡检的要求。结果如表1所示。

表一

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

图8示意性示出了本发明一个实施例的一种巡检路线优化装置的结构示意图。参照图8，本发明实施例的巡检路线优化装置具体包括：

抽象模块801，用于将最优巡检路线抽象为马尔可夫决策过程；

建立模块802，用于根据巡检点的位置建立强化学习仿真环境；

奖励增强型强化学习模块803，用于智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习，用于完成最优巡检路线规划；

最大熵奖励增强型强化学习模块804，用于利用最大熵奖励增强型强化学习算法，进行最大熵奖励增强型强化学习；

选取模块805，用于智能体在奖励增强型强化学习的过程中，在环境因素变化的干扰下选取最优巡检路线。

本发明实施例提供的一种巡检路线优化装置，可以提高数据效率，克服现有技术存在的收敛速度的问题，超参数稳定，可以给化工企业带来更高的工作效率和更低的人工成本投入，加快了故障的处理速度。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

此外，本发明实施例还提供了一种电子设备，该设备包括存储控制器，所述存储控制器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述巡检路线优化方法的步骤。例如图2所示的步骤S21～S25。或者，所述处理器执行所述计算机程序时实现上述巡检路线优化装置实施例中各模块/单元的功能，例如图8所示的抽象模块801、建立模块802、奖励增强型强化学习模块803、最大熵奖励增强型强化学习模块804以及选取模块805。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种巡检路线优化方法，其特征在于，所述方法包括：

将最优巡检路线抽象为马尔可夫决策过程；

根据巡检点的位置建立强化学习仿真环境；

2.根据权利要求1所述的方法，其特征在于，所述马尔可夫决策过程包括四元组，分别为：

3.根据权利要求1所述的方法，其特征在于，所述智能体根据当前时间步的状态信息给出的环境反馈进行奖励增强型强化学习，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用最大熵奖励增强型强化学习算法，进行最大熵奖励增强型强化学习，还包括：

最大熵奖励增强型强化学习中，奖励r_a的表达式为：

r_a＝r_t+τlogπ(a_t∣s_t)

式中，τ为奖励增强项的系数。

5.根据权利要求1所述的方法，其特征在于，所述利用最大熵奖励增强型强化学习算法，进行最大熵奖励增强型强化学习，包括：

初始化网络参数，所述网络参数包括：Q网络参数θ，Q目标网络参数和策略网络参数

6.根据权利要求5所述的方法，其特征在于，所述Q网络的损失函数的表达式为：

所述策略网络的损失函数的表达式为：

7.根据权利要求5所述的方法，其特征在于，所述Q网络和所述策略网络均由三层全连接层结构组成；

8.根据权利要求1所述的方法，其特征在于，

判断最优巡检路线是否符合要求，如果不符合要求，则重新设置状态、动作和奖励，再次进行学习。

9.一种巡检路线优化装置，其特征在于，所述装置包括：

抽象模块，用于将最优巡检路线抽象为马尔可夫决策过程；

建立模块，用于根据巡检点的位置建立强化学习仿真环境；

10.一种电子设备，其特征在于，包括存储控制器，所述存储控制器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述方法的步骤。