CN112231964B

CN112231964B - 基于深度强化学习的气体泄漏源自主搜索及定位方法

Info

Publication number: CN112231964B
Application number: CN202011233584.9A
Authority: CN
Inventors: 陈彬; 赵勇; 陈海亮; 朱正秋; 季雅泰; 谢旭; 程光权; 朱晓敏; 李小波; 王锐; 周鑫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2022-07-05
Anticipated expiration: 2040-11-06
Also published as: CN112231964A

Abstract

本发明公开了一种基于深度强化学习的气体泄漏源自主搜索及定位方法，包括：1)建立泄漏气体正向扩散模型以及传感器探测模型；2)进行气体泄漏源搜索过程的建模；3)将建模得到的气体泄漏源搜索过程转换为马尔科夫决策过程，并设计状态特征；4)构建深度强化学习框架；5)利用深度强化学习训练寻源策略。本发明基于深度强化学习的气体泄漏源自主搜索及定位方法针对气体泄漏事件能够快速进行自主搜索与定位，具有较高效率与精度，具有适用范围广，搜索性能好，搜索时间短、速度快，湍流环境中鲁棒性强的优点。

Description

基于深度强化学习的气体泄漏源自主搜索及定位方法

技术领域

本发明涉及面向气体泄漏源的移动机器人自主搜索及定位技术，具体涉及一种基于深度强化学习的气体泄漏源自主搜索及定位方法，可用于包括化工厂内危化气体泄漏事故寻源，居民楼内煤气泄漏源搜索等多场景、多种类气体泄漏源的搜索及定位。

背景技术

为了维护人员安全，避免财产损失，对于气体泄漏源的快速搜索及定位十分重要。当前存在着许多自主搜索与定位泄漏源的方法，其中基于移动机器人的寻源方法被广泛运用。该方法指导携带了传感器的移动机器人，在泄漏场景中一边移动搜索一边收集信息，最终机器人移动至泄漏源附近进行泄漏源精确定位。寻源方法主要分为基于仿生学的寻源方法和基于认知策略的寻源方法。

早在20世纪八十年代，一些基于仿生学的寻源方法就被提出。仿生寻源法大多收到生物觅食、求偶等行为的启发，例如狗能够通过嗅觉来寻找食物，雄蛾能够跟踪雌蛾留在空气中的信息素等。仿生寻源法一般基于泄漏气体的浓度梯度信息和风向信息来进行自主寻源。Zigzag方法是一种模拟甲粪虫寻找食物行为的自主寻源方法，该方法控制移动机器人按一定角度在泄漏气体羽流中沿逆风方向移动，直到寻找到泄漏源。此外还有Silkworm寻源方法以及Casting方法。仿生学寻源方法不需要对羽流进行建模，只是单纯的基于传感器读数来保持或切换预设好的移动模式，其原理都比较简单，部分方法只是在细节上略有差别。然而基于仿生学的寻源方法的良好性能，依赖于稳定的羽流边界和风场。但在现实情况中，由于湍流效应的影响，气体的稳定羽流会遭到破坏，实际的风场也并非稳定，因此仿生学方法的实用性不高。

基于认知搜索策略的寻源方法能够处理湍流条件下的寻源，该方法将寻源过程建模为部分可观马尔科夫决策过程(Partially Observable Markov Decision Process，POMDP)，利用概率密度函数来表示对于真实泄漏源位置的估计，并基于这种估计来计算奖励函数，从而决策所采取的行动。在每一步收集到新的信息后，更新概率密度函数，从而获得更准确的估计。Infotaxis方法和Entrotaxis方法是两种典型的认知搜索算法。Infotaxis方法中引入了粒子滤波来代替原本基于网格的寻源方法，从而解决了维数灾难的问题；Entrotaxis方法在此基础上，设计了基于最大熵采样原则的奖励函数，提高了该种方法的计算效率。然而基于认知搜索策略的寻源方法计算复杂度较高，每一步的计算都需要消耗较长时间，从而使整个寻源时间增长，在实际的应急处置中，寻源效率较低。

强化学习是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。深度强化学习是一种结合了深度学习与强化学习的新方法，它可以将强化学习扩展到以往难以解决的高维问题。DQN(Deep Q-network)算法是一种典型的深度强化学习算法，它利用神经网络作为值函数逼近器，将状态特征作为神经网络的输入，将状态-动作值函数作为输出，从而实现序贯决策。利用深度强化学习训练出的自主搜索及定位策略，将比认知搜索策略的计算效率更高，实用性更高，同时也保留了认知搜索策略在湍流环境中的良好性能。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于深度强化学习的气体泄漏源自主搜索及定位方法，本发明针对气体泄漏事件能够快速进行自主搜索与定位，具有较高效率与精度，具有适用范围广，搜索性能好，搜索时间短、速度快，湍流环境中鲁棒性强的优点。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于深度强化学习的气体泄漏源自主搜索及定位方法，包括：

1)建立泄漏气体正向扩散模型以及传感器探测模型；

2)进行气体泄漏源搜索过程的建模；

3)将建模得到的气体泄漏源搜索过程转换为马尔科夫决策过程，并设计状态特征；

4)构建深度强化学习框架；

5)利用深度强化学习训练寻源策略。

可选地，步骤1)中建立的泄漏气体正向扩散模型的函数表达式为：

R(r|θ₀)＝4πDac(r|θ₀)

上式中，c(r|θ₀)表示位于r＝{x,y}位置的气体的平均浓度，θ₀＝{r₀,Q}为待估计的源项参数，r₀＝{x₀,y₀}为气味源位置，Q表示气味源泄漏气体分子的速率，D为该气体分子的扩散率，V为风速，τ表示气体分子的平均寿命；R(r|θ₀)表示气体分子与半径为a的传感器在单位时间内的接触次数；

步骤1)中建立的传感器探测模型的函数表达式为：

上式中，P(d(r)|θ₀)为位于r位置的传感器在单位时间内接触到d次气体分子的概率，R(r|θ₀)表示气体分子与半径为a的传感器在单位时间内的接触次数。

可选地，步骤2)中进行气体泄漏源搜索过程的建模具体是指关于气体泄漏源搜索过程建立可观马尔科夫决策过程，该可观马尔科夫决策过程包括重复的多步；每一步中环境处于某个未知状态s，寻源机器人基于自主搜索策略π采取了一个动作a，使得环境以T(s'|s,a)的概率转移到了状态s'，并基于动作a和新状态s'获得了一个观察值o，其条件观察概率为O(o|s',a)，最终获得一个奖励r＝R(s,a)；所述重复的多步最终获得一个总的回报

其中r_t表示t时刻的奖励，且最终目标是找到一个最优的策略π^*来指导代理agent在每一步选择特定的动作，使得期望总累计汇报

最大，折扣因子γ决定每一步的奖励对最终的回报的影响大小；该可观马尔科夫决策过程中，状态s即为泄漏源的真实参数，状态s在寻源过程中不变，使得状态转移概率T＝1；动作集A主要包含四个动作，采取固定步长向前后左右四个方向移动；观察值o即为单位时间内传感器与气体分子的接触次数，条件观察概率O基于传感器探测模型和正向扩散模型求得。

可选地，步骤3)包括：

3.1)Belief状态设计：对泄漏源位置进行估计得到估计b(s)，将估计b(s)作为Belief状态，并通过与环境的交互、获取观察值来更新Belief状态，采用粒子滤波来表示Belief状态，将Belief状态的更新可转化为粒子滤波的更新；基于Belief状态，可将部分可观马尔科夫决策过程转化为马尔科夫决策过程，在新的马尔科夫决策过程中，状态为Belief状态，动作集和奖励函数都可以沿用部分可观马尔科夫决策过程中的要素；

3.2)Belief状态特征设计：利用基于密度的DBSCAN算法对粒子滤波中的粒子进行聚类把具有足够高密度的粒子划分为簇，并可在有噪声的空间数据库中发现任意形状的聚类；若某个簇的粒子数量超过粒子总数的ε，则称该簇为有效簇；将包含粒子数最多的簇称为最大簇，则包含粒子数最多的有效簇则称为最大有效簇；若存在有效簇，则定义目标簇为最大有效簇，若不存在有效簇，则令目标簇为整个粒子集，x_mean和y_mean分别为目标簇粒子的均值；假设寻源场景为规则矩形，X和Y分别为场景的长和宽，根据目标簇粒子的均值x_mean和y_mean、场景的长和宽X和Y设计多个状态特征。

可选地，步骤3.2)设计得到的多个状态特征包括：特征F₁:噪声粒子占总粒子数的比例；特征F₂:最大有效簇粒子占总粒子数的比例；特征F₃:有效簇的数量；特征F₄:(x_mean-x)/X；特征F₅:(y_mean-y)/Y；特征F₆:|F|₅-|F₄|，其中，x_mean和y_mean分别为目标簇粒子的均值；假设寻源场景为规则矩形，X和Y分别为场景的长和宽。

可选地，步骤4)中构建深度强化学习框架为基于DQN算法的深度强化学习框架，所述基于DQN算法的深度强化学习框架包括一个用于估计值函数的逼近值函数网络θ和一个用于单独计算Q目标的目标网络θ^-，值函数网络θ和目标网络θ^-的结构一致，包括依次相连的输入层、隐含层和输出层，且输入为信念状态特征，隐藏层包括若干个神经元，输出层为动作对应的值函数取值。

可选地，步骤5)中利用深度强化学习训练寻源策略的步骤包括：

5.1)针对基于DQN算法的深度强化学习框架初始化DQN算法相关参数；

5.2)判断是否终止训练，若终止训练则跳转执行步骤5.14)；否则跳转执行下一步；

5.3)初始化寻源相关参数和DBSCAN算法参数，得到初始的Belief状态；

5.4)采用DBSCAN算法提取初始Belief状态的状态特征；

5.5)判断是否完成源确认，若完成源确认则跳转执行步骤5.14)；否则跳转执行下一步；

5.6)依据ε-greedy的策略，以预设的概率ε随机选择动作，否则选择值函数最大的动作；

5.7)执行选取的动作，即机器人在仿真或真实环境中进行移动；

5.8)得到新的观测值和奖励函数；

5.9)利用新的观测值中包含的信息更新Belief状态，即更新粒子滤波，得到下一时刻的状态；

5.10)利用DBSCAN算法提取新的Belief状态的特征；

5.11)将当前时刻的记忆储存到记忆池；

5.12)从记忆池中抽取部分记忆，并基于梯度下降法进行训练；

5.13)每C步将值函数网络θ的值赋给目标网络θ^-，跳转执行步骤5.6)；

5.14)结束并退出。

此外，本发明还提供一种基于深度强化学习的气体泄漏源自主搜索及定位系统，包括：

建模程序单元，用于建立泄漏气体正向扩散模型以及传感器探测模型；

搜索过程建模程序单元，用于进行气体泄漏源搜索过程的建模；

马尔科夫决策过程转换程序单元，用于将建模得到的气体泄漏源搜索过程转换为马尔科夫决策过程，并设计状态特征；

框架建模程序单元，用于构建深度强化学习框架；

框架训练程序单元，用于利用深度强化学习训练寻源策略。

此外，本发明还提供一种基于深度强化学习的气体泄漏源自主搜索及定位系统，包括计算机设备，该计算机设备包括相互连接的微处理器和存储器，所述计算机设备的微处理器被编程或配置以执行所述基于深度强化学习的气体泄漏源自主搜索及定位方法的步骤，或者该计算机设备包括相互连接的微处理器和存储器，所述计算机设备的存储器中存储有被编程或配置以执行所述基于深度强化学习的气体泄漏源自主搜索及定位方法的步计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述基于深度强化学习的气体泄漏源自主搜索及定位方法的步计算机程序。

和现有技术相比，本发明具有下述优点：本发明包括建立泄漏气体正向扩散模型以及传感器探测模型；进行气体泄漏源搜索过程的建模；将建模得到的气体泄漏源搜索过程转换为马尔科夫决策过程，并设计状态特征；构建深度强化学习框架；利用深度强化学习训练寻源策略，本发明针对气体泄漏事件能够快速进行自主搜索与定位，具有较高效率与精度，具有适用范围广，搜索性能好，搜索时间短、速度快，湍流环境中鲁棒性强的优点。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例方法步骤2)中的部分可观马尔科夫决策过程。

图3为本发明实施例方法步骤3)中的Belief马尔科夫过程。

图4为本发明实施例方法步骤4)中的DQN框架示意图。

图5为本发明实施例方法步骤4)中的神经网络结构示意图。

图6为本发明实施例方法步骤5)中的DQN训练详细流程示意图。

具体实施方式

下文以突发气体泄漏事件为例，对本实施例的基于深度强化学习的气体泄漏源自主搜索及定位方法进行详细说明。需要说明的是，本实施例仅仅是以突发气体泄漏事件为例进行说明，毫无疑问地，本实施例基于深度强化学习的气体泄漏源自主搜索及定位方法还可以应用到其它各种需要对气体泄漏源进行搜索与定位的场景，在此不再赘述。

如图1所示，本实施例基于深度强化学习的气体泄漏源自主搜索及定位方法包括：

1)建立泄漏气体正向扩散模型以及传感器探测模型；

2)进行气体泄漏源搜索过程的建模；

4)构建深度强化学习框架；

5)利用深度强化学习训练寻源策略。

若要对气体泄漏源进行搜索，需要充分利用气体泄漏源释放出的相关信息，并得到这些信息与源位置参数的映射关系。因此，需要依据气体扩散模式构建气体正向扩散模型并确定模型相关参数。可供参考的模型有高斯扩散模型，对流扩散方程模型，计算流体力学模型等。由于寻源问题对时效性有较高要求，在构建模型时还应当权衡模型计算精度与计算速度。此外，还需要建立湍流条件下的传感器探测模型。

本实施例中，步骤1)中建立的泄漏气体正向扩散模型的函数表达式为：

R(r|θ₀)＝4πDac(r|θ₀)

上式中，c(r|θ₀)表示位于r＝{x,y}位置的气体的平均浓度，θ₀＝{r₀,Q}为待估计的源项参数，r₀＝{x₀,y₀}为气味源位置，Q表示气味源泄漏气体分子的速率，D为该气体分子的扩散率，V为风速，τ表示气体分子的平均寿命；R(r|θ₀)表示气体分子与半径为a的传感器在单位时间内的接触次数。；假设存在一个气体泄漏源位于θ₀＝{x₀,y₀}位置，以强度Q稳定释放气体，D为扩散率，V为泄漏场景内平均风速，则在任意位置r＝{x,y}上，气体的平均浓度如上式第一个函数表达式所示。受湍流效应影响，气体分子与半径为a的传感器在单位时间内的接触次数为近似服从一定分布的随机变量，利用平均浓度可计算其均值如上式第二个函数表达式所示。

步骤1)中建立的传感器探测模型为引入泊松过程建模该随机接触过程，本实施例步骤1)中建立的传感器探测模型的函数表达式为：

基于移动机器人自主搜索及定位气体泄漏源的过程是一个序贯决策过程，一般可以将其建模为部分可观马尔科夫决策过程，该过程是指决策者只能观察到具有马尔可夫性的随机动态系统的部分状态，序贯地做出决策。即根据每个时刻观察到的部分状态，从可用的行动集合中选用一个行动做出决策，系统下一步的状态与当前状态和选用的行动有关，其状态转移概率具有马尔可夫特征。决策者根据新观察到的部分状态，再作新的决策，依此反复地进行。该过程包含七个要素(S,A,T,R,Ω,O,γ)，其中：S为状态集，A为动作集，T为状态之间的条件转移概率，R为奖励函数，Ω为观察集，O为条件观察概率，γ为折扣因子。

本实施例步骤2)中进行气体泄漏源搜索过程的建模具体是指关于气体泄漏源搜索过程建立可观马尔科夫决策过程，该可观马尔科夫决策过程包括重复的多步；如图2所示，每一步中得到先验信息，环境处于某个初始状态s₀，寻源机器人基于自主搜索策略π采取了一个动作a，使得环境以T(s'|s,a)的概率转移到了状态s'，并基于动作a和新状态s'获得了一个观察值o，其条件观察概率为O(o|s',a)，最终获得一个奖励r＝R(s,a)；所述重复的多步最终获得一个总的回报

由于强化学习能够很好的解决马尔科夫决策问题，因此需要将寻源过程转化为马尔科夫决策过程。马尔科夫决策过程只有三个要素(S,A,R)，即状态集、动作集和奖励函数。由步骤2)中得到的部分可观马尔科夫决策过程可知，泄漏源位置(即状态)无法被直接感知，但可以对其进行估计。该估计由被称作信念(Belief)状态，并且具有马尔科夫性。将该Belief状态当作马尔科夫决策过程中的状态，可以将部分可观马尔科夫决策过程转化为Belief马尔科夫决策过程。在完成转化后，还要针对Belief状态进行特征提取，以满足深度强化学习框架的需求。本实施例步骤3)中基于Belief状态的马尔科夫决策过程如图3所示，步骤3)包括：

由于Belief状态是基于粒子滤波表示和更新的，无法直接作为深度强化学习网络的输入，因此需要进行特征提取。粒子滤波是基于一组带权重的粒子来表示概率估计的，因此可以利用基于密度的DBSCAN算法对粒子滤波中的粒子进行聚类，从而提取出状态特征。DBSCAN算法能够把具有足够高密度的粒子划分为簇，并可在有噪声的空间数据库中发现任意形状的聚类。若某个簇的粒子数量超过粒子总数的ε，则称该簇为有效簇。将包含粒子数最多的簇称为最大簇，则包含粒子数最多的有效簇则称为最大有效簇；若存在有效簇，则定义目标簇为最大有效簇，若不存在有效簇，则令目标簇为整个粒子集。作为一种可选的实施方式，步骤3.2)设计得到的多个状态特征包括：

特征F₁:噪声粒子占总粒子数的比例；

特征F₂:最大有效簇粒子占总粒子数的比例；

特征F₃:有效簇的数量；

特征F₄:(x_mean-x)/X；特征F₅:(y_mean-y)/Y；

特征F₆:|F|₅-|F₄|，

其中，x_mean和y_mean分别为目标簇粒子的均值；假设寻源场景为规则矩形，X和Y分别为场景的长和宽。

深度强化学习方法经过若干年的发展，已经存在了许多训练框架，例如DeepQ-network(DQN)，以及它的改进版本：双DQN、对称DQN、最小二乘DQN、平均DQN等。需要根据应用背景，选取合适的深度强化学习训练框架。此外，还需要构建深度神经网络，包括网络结构以及初始化参数。在构建深度神经网络结构时，应当结合步骤3)中所得的Belief马尔科夫决策过程。本实施例步骤4)中构建深度强化学习框架为基于DQN算法的深度强化学习框架，所述基于DQN算法的深度强化学习框架包括一个用于估计值函数的逼近值函数网络θ和一个用于单独计算Q目标的目标网络θ^-，值函数网络θ和目标网络θ^-的结构一致，如图5所示，包括依次相连的输入层、隐含层和输出层，且输入为信念(Belief)状态特征，隐藏层包括若干个神经元，输出层为动作对应的值函数取值。该深度强化学习框架如图4所示，在每一次与环境发生交互中，由环境得到状态s，经值函数网络θ运算后得到决策结果

并与环境交互得到奖励r和下一时刻状态s^-。将本次获得的记忆(s,a,r,s')存入记忆池。在之后的训练步中，随机从记忆池中抽取部分记忆，并使用随机梯度下降法进行值函数网络θ的更新。设置固定参数N，再每N次迭代后，将值函数网络θ的值赋给目标网络θ^-。

本实施例中，步骤4)采用深度强化学习方法中的DQN算法，该算法结合了Q-learning算法和神经网络，采用了经验回放机制和目标网络，增强了该种方法的训练稳定性和收敛性。

值函数：在强化学习中，智能体往往不会被告知应该采取哪些行为，而是通过试错(trial and error)的方式得到评价性的即时奖励信号r_t来衡量当前策略的好坏。然而最终的目的是找到最优的策略π^*使得期望总回报

最大。这就需要定义值函数(Value function)来表征策略对于状态的长期效果。值函数可分为状态值函数和动作-状态值函数，值函数的取值越大，表明当前状态或状态-动作对对于获取最大的期望累计奖励越有帮助。值函数是强化学习的实际学习目标，不断更新值函数体现了学习过程。基于不同的公式表示和更新值函数，就构成了不同的强化学习方法。Q-learning算法是一种重要的强化学习算法，该方法基于贝尔曼公式定义值函数的更新公式：

其中s'为状态s下采取了动作a后的下一个状态，α为学习率，

被称为Q目标，

为下一个状态s'可能得到的最大Q值。在Q-learning中，可采用贪婪策略选择动作，即在每一个状态下选择值函数最大的动作：

深度强化学习需要设定一系列的参数，例如记忆池大小、训练速率、最大迭代次数、折扣系数等。此外还需要通过前几步的建模搭建仿真环境，并进行仿真实验，以收集足够多的数据用于深度神经网络的训练。

传统的基于表格形式的Q-learning方法可以通过表格来存储、更新值函数，然而面对连续状态空间或连续动作空间的问题时，需要考虑设计合适的值函数逼近器代替表格。DQN算法框架如图4所示。DQN方法利用神经网络作为值函数逼近器，将状态特征作为神经网络的输入，将该状态下各动作的值函数作为神经网络输出。DQN最关键的技术，就是采用了经验回放。通过在经验回放中随机均匀采样，打破了训练样本之间的相关性；同时，采用过去的多个样本做平均，也平滑了训练样本分布，减缓了样本分布变化的问题。此外，DQN除了设置一个逼近值函数网络θ来估计值函数外，还设置了一个目标网络θ^-来单独计算Q目标。与Q-learning方法不同的是，DQN更新的是神经网络的参数θ，其更新方式为随机梯度下降法。本实例为DQN算法设计了包含一个隐藏层的神经网络，其结构如图5所示。该神经网络的输入为6个人工设计的Belief状态特征，输出为4个可选动作(以固定步长向上、下、左、右四个方向的移动)的值函数取值。

如图6所示，本实施例步骤5)中利用深度强化学习训练寻源策略的步骤包括：

5.4)采用DBSCAN算法提取初始Belief状态的状态特征；

5.8)得到新的观测值和奖励函数；

5.10)利用DBSCAN算法提取新的Belief状态的特征；

5.11)将当前时刻的记忆储存到记忆池；

5.14)结束并退出。

综上所述，本实施例基于深度强化学习的气体泄漏源自主搜索及定位方法能够实现在湍流条件下的自主搜索与定位气体泄漏源。该方法中对于气体正向扩散的建模和对传感器探测过程的建模，考虑了湍流效应以及传感器误差，保证了方法在湍流条件下的良好性能。使用深度强化学习方法训练出的策略网络，相比于之前的基于规则的自主寻源方法，计算效率更高，决策时间更短。在实际应用中，具有更强的实用性。

此外，本实施例还提供一种基于深度强化学习的气体泄漏源自主搜索及定位系统，包括：

框架建模程序单元，用于构建深度强化学习框架；

框架训练程序单元，用于利用深度强化学习训练寻源策略。

此外，本实施例还提供一种基于深度强化学习的气体泄漏源自主搜索及定位系统，包括计算机设备，该计算机设备包括相互连接的微处理器和存储器，所述计算机设备的微处理器被编程或配置以执行前述基于深度强化学习的气体泄漏源自主搜索及定位方法的步骤，或者该计算机设备包括相互连接的微处理器和存储器，所述计算机设备的存储器中存储有被编程或配置以执行前述基于深度强化学习的气体泄漏源自主搜索及定位方法的步计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行前述基于深度强化学习的气体泄漏源自主搜索及定位方法的步计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的气体泄漏源自主搜索及定位方法，其特征在于，包括：

1)建立泄漏气体正向扩散模型以及传感器探测模型；

2)进行气体泄漏源搜索过程的建模；

4)构建深度强化学习框架；

5)利用深度强化学习训练寻源策略；

步骤3)包括：

2.根据权利要求1所述的基于深度强化学习的气体泄漏源自主搜索及定位方法，其特征在于，步骤1)中建立的泄漏气体正向扩散模型的函数表达式为：

R(r|θ₀)＝4πDac(r|θ₀)

步骤1)中建立的传感器探测模型的函数表达式为：

3.根据权利要求1所述的基于深度强化学习的气体泄漏源自主搜索及定位方法，其特征在于，步骤2)中进行气体泄漏源搜索过程的建模具体是指关于气体泄漏源搜索过程建立可观马尔科夫决策过程，该可观马尔科夫决策过程包括重复的多步；每一步中环境处于某个未知状态s，寻源机器人基于自主搜索策略π采取了一个动作a，使得环境以T(s'|s,a)的概率转移到了状态s'，并基于动作a和新状态s'获得了一个观察值o，其条件观察概率为O(o|s',a)，最终获得一个奖励r＝R(s,a)；所述重复的多步最终获得一个总的回报

4.根据权利要求1所述的基于深度强化学习的气体泄漏源自主搜索及定位方法，其特征在于，步骤3.2)设计得到的多个状态特征包括：特征F₁:噪声粒子占总粒子数的比例；特征F₂:最大有效簇粒子占总粒子数的比例；特征F₃:有效簇的数量；特征F₄:(x_mean-x)/X；特征F₅:(y_mean-y)/Y；特征F₆:|F|₅-|F₄|，其中，x_mean和y_mean分别为目标簇粒子的均值；假设寻源场景为规则矩形，X和Y分别为场景的长和宽。

5.根据权利要求1所述的基于深度强化学习的气体泄漏源自主搜索及定位方法，其特征在于，步骤4)中构建深度强化学习框架为基于DQN算法的深度强化学习框架，所述基于DQN算法的深度强化学习框架包括一个用于估计值函数的值函数网络θ和一个用于单独计算Q目标的目标网络θ^-，值函数网络θ和目标网络θ^-的结构一致，包括依次相连的输入层、隐含层和输出层，且输入为信念状态特征，隐藏层包括若干个神经元，输出层为动作对应的值函数取值。

6.根据权利要求5所述的基于深度强化学习的气体泄漏源自主搜索及定位方法，其特征在于，步骤5)中利用深度强化学习训练寻源策略的步骤包括：

5.4)采用DBSCAN算法提取初始Belief状态的状态特征；

5.8)得到新的观测值和奖励函数；

5.10)利用DBSCAN算法提取新的Belief状态的特征；

5.11)将当前时刻的记忆储存到记忆池；

5.14)结束并退出。

7.一种基于深度强化学习的气体泄漏源自主搜索及定位系统，其特征在于，包括：

框架建模程序单元，用于构建深度强化学习框架；

框架训练程序单元，用于利用深度强化学习训练寻源策略；

所述将建模得到的气体泄漏源搜索过程转换为马尔科夫决策过程，并设计状态特征包括：

3.1)Belief状态设计：对泄漏源位置进行估计得到估计b(s)，将估计b(s)作为Belief状态，并通过与环境的交互、获取观察值来更新Belief状态，采用粒子滤波来表示Belief状态，将Belief状态的更新可转化为粒子滤波的更新；基于Belief状态，可将部分可观马尔科夫决策过程转化为马尔科夫决策过程，在新的马尔科夫决策过程中，状态为Belief状态，动作集和奖励函数都可以沿用部分可观马尔科夫决策过程中的要素；3.2)Belief状态特征设计：利用基于密度的DBSCAN算法对粒子滤波中的粒子进行聚类把具有足够高密度的粒子划分为簇，并可在有噪声的空间数据库中发现任意形状的聚类；若某个簇的粒子数量超过粒子总数的ε，则称该簇为有效簇；将包含粒子数最多的簇称为最大簇，则包含粒子数最多的有效簇则称为最大有效簇；若存在有效簇，则定义目标簇为最大有效簇，若不存在有效簇，则令目标簇为整个粒子集，x_mean和y_mean分别为目标簇粒子的均值；假设寻源场景为规则矩形，X和Y分别为场景的长和宽，根据目标簇粒子的均值x_mean和y_mean、场景的长和宽X和Y设计多个状态特征。

8.一种基于深度强化学习的气体泄漏源自主搜索及定位系统，包括计算机设备，该计算机设备包括相互连接的微处理器和存储器，其特征在于，所述计算机设备的微处理器被编程或配置以执行权利要求1～6中任意一项所述基于深度强化学习的气体泄漏源自主搜索及定位方法的步骤，或者所述计算机设备的存储器中存储有被编程或配置以执行权利要求1～6中任意一项所述基于深度强化学习的气体泄漏源自主搜索及定位方法的步计算机程序。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有被编程或配置以执行权利要求1～6中任意一项所述基于深度强化学习的气体泄漏源自主搜索及定位方法的步计算机程序。