CN117270520A - 一种巡检路线优化方法及装置 - Google Patents

一种巡检路线优化方法及装置 Download PDF

Info

Publication number
CN117270520A
CN117270520A CN202310630947.XA CN202310630947A CN117270520A CN 117270520 A CN117270520 A CN 117270520A CN 202310630947 A CN202310630947 A CN 202310630947A CN 117270520 A CN117270520 A CN 117270520A
Authority
CN
China
Prior art keywords
rewarding
reinforcement learning
maximum entropy
network
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310630947.XA
Other languages
English (en)
Inventor
刘中河
王放
张奕
陈帅
张黎明
安博林
彭伟
杨潇
卞艺晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gas Group Tianjin Lng Co ltd
Original Assignee
Beijing Gas Group Tianjin Lng Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gas Group Tianjin Lng Co ltd filed Critical Beijing Gas Group Tianjin Lng Co ltd
Priority to CN202310630947.XA priority Critical patent/CN117270520A/zh
Publication of CN117270520A publication Critical patent/CN117270520A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种巡检路线优化方法及装置,该方法包括:将最优巡检路线抽象为马尔可夫决策过程;根据巡检点的位置建立强化学习仿真环境;智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线。本发明可以提高数据效率,克服现有技术存在的收敛速度的问题。

Description

一种巡检路线优化方法及装置
技术领域
本发明涉及强化学习技术领域,尤其涉及一种巡检路线优化方法及装置。
背景技术
化工厂对于设备的安全性和效率要求较高。化工产品生产的物理过程可归纳为几个单元操作,每个单元之间环环相扣,一个设备的运行状态影响后续的设备,进出口的物料有着一定的关联。而现场巡检工作则是对生产设备进行定期的巡检,由几个班组的工作人员完成。巡检中对设备的运行情况及生产进度进行详细记录,有故障将联系技术人员进行紧急处理。现有的巡检形式是在固定时间采用固定路线要求员工在巡检点进行检查和记录,在现场巡检工作中,存在以下问题:1、数据繁琐,无法提取有效信息。每个巡检人员上传的数据包括时间、路线、处理情况等等,针对不同的目标应该注重数据中的不同部分,需总花费时间最短,则需要设计优化路线;需处理效率最高,则需要优化人员处理能力及后续维护的协调;2、耗费时间,需要大量人工干预;3、巡检路线不够灵活,效率不高。
而路线的优化是巡检工作中的重点。巡检路线的优化可以给化工企业带来更高的工作效率和更低的人工成本投入,加快了故障的处理速度,对于化工厂的稳定运行以及提升安全生产都有着重大意义。给定起点终点和途径点从而进行路径优化是一个很出名的研究问题,近几年以强化学习为主的智能算法被发现在处理这类问题时所具备的优势。目前主要巡检路线优化方法分为三类:1、传统算法:比如A*算法、Dijkstra算法,这类方法算法简单,应用方便,主要缺陷是应对复杂情况下适应能力不足;2、群体算法:比如蚁群算法,遗传算法及其改进算法,这类方法具有不错的适应性和鲁棒性,但是数据效率不够高,且存在无法逃离局部最优的问题存在;3、智能算法:包括强化学习算法解决巡检路径优化的问题,但算法也存在超参数敏感,收敛到局部最优的问题。
强化学习是一种数据驱动的智能学习算法,无需模型的具体信息,大部分为无模型的应用场景,具备一定的鲁棒性和灵活性。通过与环境进行互动来得到环境对于动作的反馈信号,从而在不断学习和互动的过程中得到近乎最优的策略。如图1的强化学习模型,近几年由于深度神经网络超强的逼近和拟合能力,深度强化学习越来越成为研究热点,尤其是最大熵强化学习的算法的提出,在强化学习探索和利用的关键问题上取得了较好的平衡。最大熵强化学习算法指的是在强化学习优化过程中不仅需要累积奖励值最大,也需要累计的熵值最大,即动作选取时保持一定的多样性,但是该算法存在一定的收敛速度的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的巡检路线优化方法及装置。
本发明的一个方面,提供了一种巡检路线优化方法,所述方法包括:
将最优巡检路线抽象为马尔可夫决策过程;
根据巡检点的位置建立强化学习仿真环境;
智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;
利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;
智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线。
进一步地,所述马尔可夫决策过程包括四元组,分别为:
状态空间S,S={st}表示当前时间步的状态的集合,st由巡检路线标志矩阵与巡检点标志矩阵组成;
动作空间A,A={at}表示智能体动作的集合,at为当前时间步的动作;状态转移概率p,假设状态空间S和动作空间A都是连续的,状态转移概率p表示从状态st转移到下一步状态st+1的概率;
即时奖励值R,R={rt}表示即时奖励的集合,rt为单步的距离与根据环境中距离的标尺得到的负系数的乘积。
进一步地,所述智能体根据当前时间步的状态信息给出的环境反馈进行奖励增强型强化学习,包括:
智能体在时刻t观测到环境反馈的状态st∈S,根据策略π(st,at)选取动作at∈A,完成动作后获取实时奖励值rt,动作at同时改变环境,状态从st转移到st+1,智能体根据t+1时刻的状态st+1选择下一个动作,进入下一时间节点的迭代。
进一步地,所述利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习,还包括:
同时最大化累计奖励和最大化选取动作累积的熵的最优策略的表达式为:
式中,π为策略,T为时间长度,γ为折扣因子,温度因子α用于控制熵正则化的程度,若α较大,表明策略随机性越强,若α=0,则策略趋近于确定性,表示状态st下策略分布的熵,且策略π(.∣st)越随机,熵值越大。
最大熵奖励增强型强化学习中,奖励ra的表达式为:
ra=rt+τlogπ(at∣st)
式中,τ为奖励增强项的系数。
进一步地,所述利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习,包括:
初始化网络参数,所述网络参数包括:Q网络参数θ,Q目标网络参数和策略网络参数/>
预设步数内选取随机动作进行智能体与环境互动,将互动经验填充经验池D,填充到经验池的奖励为ra,预设步数后利用策略网络输出的均值与方差的分布进行采样得到的动作进行互动;
利用随机梯度下降算法交替更新Q网络和策略网络,直到所述Q网络和所述策略网络达到收敛状态,最大熵奖励增强型强化学习算法学习过程结束。
进一步地,所述Q网络的损失函数的表达式为:
所述策略网络的损失函数的表达式为:
进一步地,所述Q网络和所述策略网络均由三层全连接层结构组成;
所述策略网络的最后一层包括输出均值的全连接层和方差的全连接层。
进一步地,判断最优巡检路线是否符合要求,如果不符合要求,则重新设置状态、动作和奖励,再次进行学习。
本发明的第二方面,提供了一种巡检路线优化装置,所述装置包括:
抽象模块,用于将最优巡检路线抽象为马尔可夫决策过程;
建立模块,用于根据巡检点的位置建立强化学习仿真环境;
奖励增强型强化学习模块,用于智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;
最大熵奖励增强型强化学习模块,用于利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;
选取模块,用于智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线。
本发明的另一个方面,还提供了一种电子设备,该设备包括存储控制器,所述存储控制器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上巡检路线优化方法的步骤。
本发明实施例提供的一种巡检路线优化方法及装置,可以提高数据效率,克服现有技术存在的收敛速度的问题,超参数稳定,可以给化工企业带来更高的工作效率和更低的人工成本投入,加快了故障的处理速度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性示出了强化学习模型的结构示意图;
图2为本发明实施例提供的一种巡检路线优化方法的流程图;
图3为本发明实施例提供的最大熵奖励增强型强化学习算法示意图;
图4为本发明实施例提供的待巡检点的坐标分布图;
图5为本发明实施例提供的初始情况随机巡检路线的情况示意图;
图6为本发明实施例提供的最大熵奖励增强型强化学习算法学习过后最优巡检路线的情况示意图;
图7为本发明实施例提供的最大熵奖励增强型强化学习算法与普通最大熵强化学习算法对比效果图;
图8为本发明实施例提供的一种巡检路线优化装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
图2示意性示出了本发明一个实施例的一种巡检路线优化方法的流程图。参照图2,本发明实施例的巡检路线优化方法具体包括以下步骤:
S21、将最优巡检路线抽象为马尔可夫决策过程;
S22、根据巡检点的位置建立强化学习仿真环境;
S23、智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;
S24、利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;
S25、智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线。
进一步地,所述马尔可夫决策过程包括四元组,分别为:
状态空间S,S={st}表示当前时间步的状态的集合,st由巡检路线标志矩阵与巡检点标志矩阵组成;
动作空间A,A={at}表示智能体动作的集合,at为当前时间步的动作;
状态转移概率p,假设状态空间S和动作空间A都是连续的,状态转移概率p表示从状态st转移到下一步状态st+1的概率;
即时奖励值R,R={rt}表示即时奖励的集合,rt为单步的距离与根据环境中距离的标尺得到的负系数的乘积。
本实施例中,状态转移概率p,可以通过建立强化学习仿真环境完成。
本实施例中,利用python具体编写强化学习仿真环境中的初始化函数以及与最大熵强化学习算法互动的函数,具体涉及到初始状态以及状态如何转移。
进一步地,所述智能体根据当前时间步的状态信息给出的环境反馈进行奖励增强型强化学习,包括:
智能体在时刻t观测到环境反馈的状态st∈S,根据策略π(st,at)选取动作at∈A,完成动作后获取实时奖励值rt,动作at同时改变环境,状态从st转移到st+1,智能体根据t+1时刻的状态st+1选择下一个动作,进入下一时间节点的迭代。
进一步地,所述利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习,还包括:
同时最大化累计奖励和最大化选取动作累积的熵的最优策略的表达式为:
式中,π为策略,T为时间长度,γ为折扣因子,温度因子α用于控制熵正则化的程度,若α较大,表明策略随机性越强,若α=0,则策略趋近于确定性,表示状态st下策略分布的熵,且策略π(.∣st)越随机,熵值越大。
最大熵奖励增强型强化学习中,奖励ra的表达式为:
ra=rt+τlogπ(at∣st)
式中,rt为环境反馈的即时奖励,τ为奖励增强项的系数。
本实施例中,设置P=τlogπ(at∣st)。
进一步地,所述利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习,包括:
初始化网络参数,所述网络参数包括:Q网络参数θ,Q目标网络参数和策略网络参数/>
预设步数内选取随机动作进行智能体与环境互动,将互动经验填充经验池D,填充到经验池的奖励为ra,预设步数后利用策略网络输出的均值与方差的分布进行采样得到的动作进行互动;
利用随机梯度下降算法交替更新Q网络和策略网络,直到所述Q网络和所述策略网络达到收敛状态,最大熵奖励增强型强化学习算法学习过程结束。
本实施例中,计算回合奖励的时候累加的仍然是单步奖励rt
本实施例中,最大熵强化学习与普通强化学习算法的区别在于不仅需要最大化累计奖励,还需要最大化选取动作累积的熵,而在奖励增强型最大熵强化学习中,奖励ra设置为本身环境反馈的奖励rt以及选择当前动作的一个概率值。
进一步地,所述Q网络的损失函数的表达式为:
所述策略网络的损失函数的表达式为:
进一步地,所述Q网络和所述策略网络均由三层全连接层结构组成;
所述策略网络的最后一层包括输出均值的全连接层和方差的全连接层。
本实施例中,强化学习最开始采取的动作为随机动作,可以从中得到最开始的随机路径,并且由于强化学习的学习过程中奖励与巡检点之间距离相关,奖励的最大化为巡检路线总距离的最小化;
将最开始的随机路径与强化学习后得到的巡检路径进行对比可以看出明显的差距,来验证强化学习算法的效果;
查看并分析最后得到的最优巡检路线是否符合要求,需要更改的地方再次记录或者重新设置强化学习状态、动作和奖赏,再次进行学习。
本实施例中,将得到的符合要求的最优巡检路线统一布置给巡检员工,便于统一管理,如果在巡检中遇到具体问题需要具体分析。
本发明实施例提供的一种巡检路线优化方法,可以提高数据效率,克服现有技术存在的收敛速度的问题,超参数稳定,可以给化工企业带来更高的工作效率和更低的人工成本投入,加快了故障的处理速度。
图3为本发明实施例提供的最大熵奖励增强型强化学习算法示意图。
图4为本发明实施例提供的待巡检点的坐标分布图。
本实施例中,例如巡检地有20个巡检节点,并固定0号节点为起点的情况为例,进行结果分析,在学习之前,第一回合采用的是随机选择巡检点,如图5所示,路线杂乱无章,在实际情况中耗时耗力,工作效率极低;在最大熵奖励增强型强化学习算法学习之后得到的优化后的巡检路线如图6所示,得到了全局最优解;将本发明中的最大熵奖励增强型强化学习算法与普通最大熵强化学习算法进行了对比,如图7所示,在不同随机种子的设定下,本发明的算法无论在收敛速度还是收敛终值都优于普通最大熵强化学习算法;本发明的算法与传统方法A*算法,群体智能算法粒子群算法进行对比,由最大熵奖励增强型强化学习算法学习得到的优化后路径总距离最短,最符合巡检的要求。结果如表1所示。
表一
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图8示意性示出了本发明一个实施例的一种巡检路线优化装置的结构示意图。参照图8,本发明实施例的巡检路线优化装置具体包括:
抽象模块801,用于将最优巡检路线抽象为马尔可夫决策过程;
建立模块802,用于根据巡检点的位置建立强化学习仿真环境;
奖励增强型强化学习模块803,用于智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;
最大熵奖励增强型强化学习模块804,用于利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;
选取模块805,用于智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线。
本发明实施例提供的一种巡检路线优化装置,可以提高数据效率,克服现有技术存在的收敛速度的问题,超参数稳定,可以给化工企业带来更高的工作效率和更低的人工成本投入,加快了故障的处理速度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
此外,本发明实施例还提供了一种电子设备,该设备包括存储控制器,所述存储控制器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述巡检路线优化方法的步骤。例如图2所示的步骤S21~S25。或者,所述处理器执行所述计算机程序时实现上述巡检路线优化装置实施例中各模块/单元的功能,例如图8所示的抽象模块801、建立模块802、奖励增强型强化学习模块803、最大熵奖励增强型强化学习模块804以及选取模块805。
本发明实施例提供的一种巡检路线优化方法及装置,可以提高数据效率,克服现有技术存在的收敛速度的问题,超参数稳定,可以给化工企业带来更高的工作效率和更低的人工成本投入,加快了故障的处理速度。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种巡检路线优化方法,其特征在于,所述方法包括:
将最优巡检路线抽象为马尔可夫决策过程;
根据巡检点的位置建立强化学习仿真环境;
智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;
利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;
智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线。
2.根据权利要求1所述的方法,其特征在于,所述马尔可夫决策过程包括四元组,分别为:
状态空间S,S={st}表示当前时间步的状态的集合,st由巡检路线标志矩阵与巡检点标志矩阵组成;
动作空间A,A={at}表示智能体动作的集合,at为当前时间步的动作;
状态转移概率p,假设状态空间S和动作空间A都是连续的,状态转移概率p表示从状态st转移到下一步状态st+1的概率;
即时奖励值R,R={rt}表示即时奖励的集合,rt为单步的距离与根据环境中距离的标尺得到的负系数的乘积。
3.根据权利要求1所述的方法,其特征在于,所述智能体根据当前时间步的状态信息给出的环境反馈进行奖励增强型强化学习,包括:
智能体在时刻t观测到环境反馈的状态st∈S,根据策略π(st,at)选取动作at∈A,完成动作后获取实时奖励值rt,动作at同时改变环境,状态从st转移到st+1,智能体根据t+1时刻的状态st+1选择下一个动作,进入下一时间节点的迭代。
4.根据权利要求1所述的方法,其特征在于,所述利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习,还包括:
同时最大化累计奖励和最大化选取动作累积的熵的最优策略的表达式为:
式中,π为策略,T为时间长度,γ为折扣因子,温度因子α用于控制熵正则化的程度,若α较大,表明策略随机性越强,若α=0,则策略趋近于确定性,表示状态st下策略分布的熵,且策略π(.∣st)越随机,熵值越大。
最大熵奖励增强型强化学习中,奖励ra的表达式为:
ra=rt+τlogπ(at∣st)
式中,τ为奖励增强项的系数。
5.根据权利要求1所述的方法,其特征在于,所述利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习,包括:
初始化网络参数,所述网络参数包括:Q网络参数θ,Q目标网络参数和策略网络参数
预设步数内选取随机动作进行智能体与环境互动,将互动经验填充经验池D,填充到经验池的奖励为ra,预设步数后利用策略网络输出的均值与方差的分布进行采样得到的动作进行互动;
利用随机梯度下降算法交替更新Q网络和策略网络,直到所述Q网络和所述策略网络达到收敛状态,最大熵奖励增强型强化学习算法学习过程结束。
6.根据权利要求5所述的方法,其特征在于,所述Q网络的损失函数的表达式为:
所述策略网络的损失函数的表达式为:
7.根据权利要求5所述的方法,其特征在于,所述Q网络和所述策略网络均由三层全连接层结构组成;
所述策略网络的最后一层包括输出均值的全连接层和方差的全连接层。
8.根据权利要求1所述的方法,其特征在于,
判断最优巡检路线是否符合要求,如果不符合要求,则重新设置状态、动作和奖励,再次进行学习。
9.一种巡检路线优化装置,其特征在于,所述装置包括:
抽象模块,用于将最优巡检路线抽象为马尔可夫决策过程;
建立模块,用于根据巡检点的位置建立强化学习仿真环境;
奖励增强型强化学习模块,用于智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;
最大熵奖励增强型强化学习模块,用于利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;
选取模块,用于智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线。
10.一种电子设备,其特征在于,包括存储控制器,所述存储控制器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述方法的步骤。
CN202310630947.XA 2023-05-31 2023-05-31 一种巡检路线优化方法及装置 Pending CN117270520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310630947.XA CN117270520A (zh) 2023-05-31 2023-05-31 一种巡检路线优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310630947.XA CN117270520A (zh) 2023-05-31 2023-05-31 一种巡检路线优化方法及装置

Publications (1)

Publication Number Publication Date
CN117270520A true CN117270520A (zh) 2023-12-22

Family

ID=89205091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310630947.XA Pending CN117270520A (zh) 2023-05-31 2023-05-31 一种巡检路线优化方法及装置

Country Status (1)

Country Link
CN (1) CN117270520A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933673A (zh) * 2024-03-22 2024-04-26 广东电网有限责任公司湛江供电局 线路巡视的规划方法、装置和线路巡视规划系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933673A (zh) * 2024-03-22 2024-04-26 广东电网有限责任公司湛江供电局 线路巡视的规划方法、装置和线路巡视规划系统

Similar Documents

Publication Publication Date Title
Pinciroli et al. Optimization of the operation and maintenance of renewable energy systems by deep reinforcement learning
CN111104522A (zh) 一种基于知识图谱的区域产业关联效应趋势预测方法
CN108573303A (zh) 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略
Zhao et al. DGM (1, 1) model optimized by MVO (multi-verse optimizer) for annual peak load forecasting
Zhao et al. A reinforcement learning brain storm optimization algorithm (BSO) with learning mechanism
Jadav et al. Optimizing weights of artificial neural networks using genetic algorithms
CA3131688A1 (en) Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
WO2018058061A1 (en) Systems, methods and apparatus for sampling from a sampling server
CN111339675B (zh) 基于机器学习构建模拟环境的智能营销策略的训练方法
CN113570039B (zh) 一种基于强化学习的优化共识的区块链系统
Gupta Introduction to deep learning: Part 1
CN117270520A (zh) 一种巡检路线优化方法及装置
CN110674965A (zh) 基于动态特征选取的多时间步长风功率预测方法
CN114584406B (zh) 一种联邦学习的工业大数据隐私保护系统及方法
CN111311577A (zh) 一种基于生成对抗网络及强化学习的智能渗水检测方法
CN111079926A (zh) 基于深度学习的具有自适应学习率的设备故障诊断方法
CN116933619A (zh) 基于强化学习的数字孪生配网故障场景生成方法及系统
CN116690589A (zh) 基于深度强化学习的机器人u型拆解线动态平衡方法
Wu et al. Automl with parallel genetic algorithm for fast hyperparameters optimization in efficient iot time series prediction
Huang et al. Bootstrap estimated uncertainty of the environment model for model-based reinforcement learning
Jin et al. Container stacking optimization based on Deep Reinforcement Learning
CN117075634A (zh) 基于改进蚁群算法的配电网多无人机调度巡检方法及装置
Wu et al. Applications of AI techniques to generation planning and investment
CN117035739A (zh) 光伏电站的工单路径规划方法、装置、电子设备和介质
CN115964898A (zh) 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination