CN113033815A

CN113033815A - 一种阀门智能协作控制方法、装置、设备及存储介质

Info

Publication number: CN113033815A
Application number: CN202110169108.3A
Authority: CN
Inventors: 林凡; 张秋镇; 黄富铿
Original assignee: GCI Science and Technology Co Ltd
Current assignee: GCI Science and Technology Co Ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-25

Abstract

本发明公开了一种阀门智能协作控制方法、装置、设备及存储介质，该方法包括：检测主管道的压力以及设置在所述主管道上的所有阀门的启闭状态；根据所述主管道的压力以及所有阀门的启闭状态，确定所述主管道的当前环境状态；根据预先建立的质量值表以及主管道的当前环境状态，采用贪婪算法从所有可能联合动作中选取一个可能联合动作；其中，所述质量值表基于强化学习算法建立，并记录了不同种环境状态下选择不同联合动作时对应的质量值；控制所述阀门按照选取出的可能联合动作执行相应动作；基于强化学习算法和贪婪算法对主管道的阀门进行协作控制，可以实现大规模阀门优化、合理控制。

Description

一种阀门智能协作控制方法、装置、设备及存储介质

技术领域

本发明涉及阀门控制技术领域，尤其涉及一种阀门智能协作控制方法、装置、设备及存储介质。

背景技术

在流体管道系统中，阀门是控制元件，其主要作用是隔离设备和管道系统、调节流量、防止回流、调节和排泄压力。大规模阀门协作控制可以保障主管道的压力不会过大，可以防止管道泄漏甚至爆管，预防重大损失。目前，常规的阀门控制方案是控制器包括开度采集单元、模式选择单元、阀门开度现场设定单元、开度控制单元；开度采集单元采集阀门当前开度信号，模式选择单元获取用户的模式选择信号，阀门开度现场设定单元获取用户在现场设定的阀门开度设定值；上位机连接控制器，用于获取阀门当前开度信号，并向控制器发送用户远程设定的阀门开度设定值；控制器根据控制模式，将现场或远程设定的开度值与当前开度值进行对比，然后根据对比结果控制开度控制单元改变阀门开度。上述方法需要有经验的操作人员根据经验手动设置阀门的开度值，在面对大规模阀门时通过手动设置阀门的开度值只能实现局部优化，不能对大规模阀门进行合理控制。

发明内容

针对上述问题，本发明的目的在于提供一种阀门智能协作控制方法、装置、设备及存储介质，其通过对大规模阀门智能协作控制，实现大规模阀门优化、合理控制。

第一方面，本发明实施例提供了一种阀门智能协作控制方法，包括：

检测主管道的压力以及设置在所述主管道上的所有阀门的启闭状态；

根据所述主管道的压力以及所有阀门的启闭状态，确定所述主管道的当前环境状态；

根据预先建立的质量值表以及主管道的当前环境状态，采用贪婪算法从所有可能联合动作中选取一个可能联合动作；其中，所述质量值表基于强化学习算法建立，并记录了不同种环境状态下选择不同联合动作时对应的质量值；

控制所述阀门按照选取出的可能联合动作执行相应动作。

作为上述方案的改进，所述控制所述阀门按照选取出的可能联合动作执行相应动作之后，还包括：

检测所述主管道的当前压力以及所有阀门的当前启闭状态；

根据所述主管道的当前压力以及所有阀门的当前启闭状态，确定奖励值以及下一环境状态；

根据所述奖励值、下一环境状态以及当前环境状态下选取出的可能联合动作对应的质量值，采用强化学习算法对所述质量值表中的质量值进行更新。

作为上述方案的改进，所述方法还包括质量值表建立步骤：

根据所述主管道的所有环境状态，构建状态集合；

对所有阀门的动作进行随机组合，得到若干种可能联合动作；并根据若干种所述可能联合动作，构建联合动作集合；

根据所述状态集合和所述联合动作集合，建立在不同环境状态下选择不同可能联合动作的质量值表；其中，所述质量值表中的所有质量值的初始值设置为第一预设值。

作为上述方案的改进，所述环境状态包括主管道压力正常的第一状态、所有阀门关闭的第二状态、主管道压力超阈值的第三状态以及除第一、二、三状态以外的第四状态；

所述根据所述主管道的当前压力以及所有阀门的当前启闭状态，确定奖励值以及下一环境状态，包括：

判断所述主管道的当前压力是否处于预设的安全压力范围内、或者所述主管道的当前压力是否超过预设的压力阈值、或者所有阀门是否均处于闭合状态；

当所述当前压力处于预设安全压力范围内时，判断出所述主管道的下一环境状态为第一状态；

当所有阀门均处于闭合状态时，判断出所述主管道的下一环境状态为第二状态；

当所述当前压力超过所述压力阈值时，判断出所述主管道的下一环境状态为第三状态；

当所述当前压力不处于预设安全压力范围内、或不是所有阀门均处于闭合状态、或所述当前压力不超过所述压力阈值时，判断出所述主管道的下一环境状态为第四状态；

根据判断出的下一环境状态以及预设的奖励函数，确定下一环境状态对应的奖励值。

作为上述方案的改进，所述根据所述奖励值、下一环境状态以及当前环境状态下选取出的可能联合动作对应的质量值，采用强化学习算法对所述质量值表中的质量值进行更新，包括：

采用公式(1)对所述质量值表中当前环境状态下选取出的第i个可能联合动作对应的质量值进行更新，并进行计数处理，得到当前计数值；

其中，Q(S_t,A_t')表示当前环境状态S_t下选取出的可能联合动作A_t'对应的更新后的质量值，[Q(S_t,A_t')]'表示当前环境状态S_t下选取出的可能联合动作A_t'对应的更新前的质量值；

表示下一环境状态S_t+1下选取出的可能联合动作A_t'₊₁对应的的最大质量值；α表示强化学习算法的衰减因子；γ表示强化学习算法的学习效率；R表示奖励值；

判断当前计数值是否大于预设的学习周期；

当当前计数值大于等于所述学习周期时，确认完成所述质量值表的更新；

当当前计数值小于所述学习周期时，采用贪婪算法从对应的所有可能联合动作中选取出第i+1个可能联合动作，并控制所述阀门按照选取出第i+1个可能联合动作执行相应动作以及当前环境状态下选取出的第i+1个可能联合动作对应的质量值进行更新。

作为上述方案的改进，所述根据预先建立的质量值表以及主管道的当前环境状态，采用贪婪算法从所有可能联合动作中选取一个可能联合动作，包括：

在概率为ε的情况下，从所有可能联合动作中随机选取一个可能联合动作；

在概率为1-ε的情况下，根据所述质量值表，从所有可能联合动作中选取当前环境状态下最大质量值对应的至少一个可能联合动作；并从最大质量值对应的至少一个可能联合动作中随机选取一个可能联合动作；

其中，ε表示贪婪算法的预设的探索度，表示随机选取一个可能联合动作的概率，1-ε表示选取最大质量值对应的可能联合动作的概率。

作为上述方案的改进，所述第一预设值为零。

第二方面，本发明实施例提供了一种阀门智能协作控制装置，包括：

第一管道检测模块，用于检测主管道的压力以及设置在所述主管道上的所有阀门的启闭状态；

第一管道状态确定模块，用于根据所述主管道的压力以及所有阀门的启闭状态，确定所述主管道的当前环境状态；

联合动作选取模块，用于根据预先建立的质量值表以及主管道的当前环境状态，采用贪婪算法从所有可能联合动作中选取一个可能联合动作；其中，所述质量值表基于强化学习算法建立，并记录了不同种环境状态下选择不同联合动作时对应的质量值；

阀门控制模块，用于控制所述阀门按照选取出的可能联合动作执行相应动作。

第三方面，本发明实施例提供了一种阀门智能协作控制设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的阀门智能协作控制方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的阀门智能协作控制方法。

相对于现有技术，本发明实施例的有益效果在于：所述阀门智能协作控制方法，包括：检测主管道的压力以及设置在所述主管道上的所有阀门的启闭状态；根据所述主管道的压力以及所有阀门的启闭状态，确定所述主管道的当前环境状态；根据预先建立的质量值表以及主管道的当前环境状态，采用贪婪算法从所有可能联合动作中选取一个可能联合动作；其中，所述质量值表基于强化学习算法建立，并记录了不同种环境状态下选择不同联合动作时对应的质量值；控制所述阀门按照选取出的可能联合动作执行相应动作。基于强化学习算法和贪婪算法对主管道的阀门进行协作控制，可以实现大规模阀门优化、合理控制。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种阀门智能协作控制方法的流程图；

图2是本发明提供的主管道示意图；

图3是本发明第二实施例提供的一种阀门智能协作控制装置的示意图；

图4是本发明第三实施例提供的一种阀门智能协作控制设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其是本发明第一实施例提供的一种阀门智能协作控制方法的流程图，所述阀门智能协作控制方法，包括：

S1：检测主管道的压力以及设置在所述主管道上的所有阀门的启闭状态；

S2：根据所述主管道的压力以及所有阀门的启闭状态，确定所述主管道的当前环境状态；

S3：根据预先建立的质量值表以及主管道的当前环境状态，采用贪婪算法从所有可能联合动作中选取一个可能联合动作；其中，所述质量值表基于强化学习算法建立，并记录了不同种环境状态下选择不同联合动作时对应的质量值；

S4：控制所述阀门按照选取出的可能联合动作执行相应动作。

在本发明实施例中，基于强化学习算法建立关于可能联合动作与质量值的质量值表，然后基于主管道的当前环境状态，采用贪婪算法对主管道的阀门的可能联合动作进行优化选择，使得所有阀门控制所述阀门按照选取出的可能联合动作执行相应动作，解决了船动态阀门控制在面对大规模阀门时只能局部优化的问题，可以实现大规模阀门优化、合理控制。

在一种可选的实施例中，所述控制所述阀门按照选取出的可能联合动作执行相应动作之后，还包括：

检测所述主管道的当前压力以及所有阀门的当前启闭状态；

在本发明实施例中，在所有阀门按照选取出的可能联合动作执行相应动作之后，重新检测所述主管道的当前压力以及所有阀门的当前启闭状态以确定下一环境状态以及下一环境状态对应的奖励值，然后通过强化学习算法(Q-learning)进行当前环境状态下选取出的可能联合动作对应的质量值的训练更新，并将得到的更新值替换所述质量值表中相应的质量值，实现无监督的阀门控制，相对于传统的聚类算法，无需预先给定大量数据，优化了高维度变量计算需要大量算力的问题。

在一种可选的实施例中，所述方法还包括质量值表建立步骤：

根据所述主管道的所有环境状态，构建状态集合；

在一种可选的实施例中，所述第一预设值为零。

在一种可选的实施例中，所述环境状态包括主管道压力正常的第一状态、所有阀门关闭的第二状态、主管道压力超阈值的第三状态以及除第一、二、三状态以外的第四状态；

在一种可选的实施例中，所述根据所述奖励值、下一环境状态以及当前环境状态下选取出的可能联合动作对应的质量值，采用强化学习算法对所述质量值表中的质量值进行更新，包括：

表示下一环境状态S_t+1下选取出的可能联合动作A'_t+1对应的的最大质量值；α表示强化学习算法的衰减因子；γ表示强化学习算法的学习效率；R表示奖励值；

判断当前计数值是否大于预设的学习周期；

在一种可选的实施例中，所述根据预先建立的质量值表以及主管道的当前环境状态，采用贪婪算法从所有可能联合动作中选取一个可能联合动作，包括：

在本发明实例中，强化学习过程可以简化为马尔科夫决策过程(Markov decisionprocess，MDP)，MDP是由<S,A,P,R,γ>构成的一个集合。

其中，S表示状态集合，S＝{S₁,S₂,S₃,S₄}，S₁表示第一状态，即主管道压力正常；S₂表示第二状态，即所有阀门均处于闭合状态；S₃表示第三状态，即主管道压力超过压力阈值；S₄表示第四状态，即其他管道状态。

A表示联合动作集合，阀门的动作具体为：A₀表示第一种动作，即闭合；A₁表示第二种动作，即第一开度，A₂表示第三种动作，即第二开度，...，A_j表示第j种动作，即第j开度，...，A_m示第m种动作，即完全打开。

表示第k个阀门执行第j种动作，j∈[0,m]，k∈[1,n]，n表示所述主管道设置的阀门总数量。

下面为了更清楚说明本发明实施例，以m＝4，第一开度为25％开度，第二开度为50％开度、第三开度为75％开度为例进行说明，即A＝{A₀,A₁,A₂,S₃,S₄}，则n个阀门智能控制模块的联合动作

共有4ⁿ种组合。主管道的示意如图2所示，图中阀门多智体即本发明实施例所述的阀门。

预先设置基于环境状态和奖励值的奖励函数

初始化贪婪算法的探索度ε∈[0,1]；

初始化强化学习算法的衰减因子γ∈[0,1]，学习效率α∈[0,1]，起始计数值T＝0，以及终止学习的学习周期T_max，学习周期T_max可根据经验设置。

初始化质量值表，将质量值表中的Q(S,A')的初始值设置为0。

其中，质量值表如下：

表示多个阀门在环境状态S_t下选择联合动作

的质量值，即Q值，以此类推。

在当前环境状态S_t下，根据贪婪算法选择联合动作：在概率为1-ε的情况下，根据所述质量值表，从所有可能联合动作中选取当前环境状态下最大质量值对应可能联合动作A'，当存在多个最大质量值时，从多个最大质量值对应的多个个可能联合动作中随机选取一个可能联合动作A'；在概率为ε的情况下，从所有可能联合动作中随机选取一个可能联合动作A'。

控制所有阀门执行动作A'，然后检测所述主管道的当前压力和所有阀门是否均处于闭合状态，从而确定下一环境状态S_t+1以及根据所述奖励函数确定下一环境状态S_t+1对应的奖励值。

更新质量值表：按照上述公式(1)表示的强化学习算法更新所述质量值表中在当前环境状态S_t下可能联合动作A'对应的质量值，同时计数值加1，即T＝T+1。

判断T是否大于等于T_max，若是，则学习结束；若否，则返回步骤S3，即在当前环境状态S_t下，根据贪婪算法选择另一联合动作重新进行阀门动作控制和质量值表更新。

请参阅图3，本发明第二实施例提供了一种阀门智能协作控制装置，包括：

第一管道检测模块1，用于检测主管道的压力以及设置在所述主管道上的所有阀门的启闭状态；

第一管道状态确定模块2，用于根据所述主管道的压力以及所有阀门的启闭状态，确定所述主管道的当前环境状态；

联合动作选取模块3，用于根据预先建立的质量值表以及主管道的当前环境状态，采用贪婪算法从所有可能联合动作中选取一个可能联合动作；其中，所述质量值表基于强化学习算法建立，并记录了不同种环境状态下选择不同联合动作时对应的质量值；

阀门控制模块4，用于控制所述阀门按照选取出的可能联合动作执行相应动作。

在一种可选的实施例中，所述阀门智能协作控制装置还包括：

第二管道检测模块，用于检测所述主管道的当前压力以及所有阀门的当前启闭状态；

第二管道状态确定模块，用于根据所述主管道的当前压力以及所有阀门的当前启闭状态，确定奖励值以及下一环境状态；

质量值表更新模块，用于根据所述奖励值、下一环境状态以及当前环境状态下选取出的可能联合动作对应的质量值，采用强化学习算法对所述质量值表中的质量值进行更新。

状态集合构建模块，用于根据所述主管道的所有环境状态，构建状态集合；

动作集合构建模块，用于对所有阀门的动作进行随机组合，得到若干种可能联合动作；并根据若干种所述可能联合动作，构建联合动作集合；

质量值表建立模块，用于根据所述状态集合和所述联合动作集合，建立在不同环境状态下选择不同可能联合动作的质量值表；其中，所述质量值表中的所有质量值的初始值设置为第一预设值。

所述第二管道状态确定模块包括：

第一判断单元，用于判断所述主管道的当前压力是否处于预设的安全压力范围内、或者所述主管道的当前压力是否超过预设的压力阈值、或者所有阀门是否均处于闭合状态；

第一状态确定单元，用于当所述当前压力处于预设安全压力范围内时，判断出所述主管道的下一环境状态为第一状态；

第二状态确定单元，用于当所有阀门均处于闭合状态时，判断出所述主管道的下一环境状态为第二状态；

第三状态确定单元，用于当所述当前压力超过所述压力阈值时，判断出所述主管道的下一环境状态为第三状态；

第四状态确定单元，用于当所述当前压力不处于预设安全压力范围内、或不是所有阀门均处于闭合状态、或所述当前压力不超过所述压力阈值时，判断出所述主管道的下一环境状态为第四状态；

奖励值确定单元，用于根据判断出的下一环境状态以及预设的奖励函数，确定下一环境状态对应的奖励值。

在一种可选的实施例中，所述质量值表更新模块包括：

更新值计算单元，用于采用公式(1)对所述质量值表中当前环境状态下选取出的第i个可能联合动作对应的质量值进行更新，并进行计数处理，得到当前计数值；

计数判断单元，用于判断当前计数值是否大于预设的学习周期；当当前计数值大于等于所述学习周期时，确认完成所述质量值表的更新；当当前计数值小于所述学习周期时，采用贪婪算法从对应的所有可能联合动作中选取出第i+1个可能联合动作，并控制所述阀门按照选取出第i+1个可能联合动作执行相应动作以及当前环境状态下选取出的第i+1个可能联合动作对应的质量值进行更新。

在一种可选的实施例中，所述联合动作选取模块包括：

第一选取单元，用于在概率为ε的情况下，从所有可能联合动作中随机选取一个可能联合动作；

第二选取单元，用于在概率为1-ε的情况下，根据所述质量值表，从所有可能联合动作中选取当前环境状态下最大质量值对应的至少一个可能联合动作；并从最大质量值对应的至少一个可能联合动作中随机选取一个可能联合动作；

在一种可选的实施例中，所述第一预设值为零。

需要说明的是，本发明实施例的工作原理和技术效果与第一实施例所述的阀门智能协作控制方法相同，在此不再赘述。

参见图4，是本发明第三实施例提供的阀门智能协作控制设备的示意图。如图4所示，该阀门智能协作控制设备包括：至少一个处理器11，例如CPU，至少一个网络接口14或者其他用户接口13，存储器15，至少一个通信总线12，通信总线12用于实现这些组件之间的连接通信。其中，用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器，也可能还包括非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。

在一些实施方式中，存储器15存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

操作系统151，包含各种系统程序，用于实现各种基础业务以及处理基于硬件的任务；

程序152。

具体地，处理器11用于调用存储器15中存储的程序152，执行上述实施例所述的阀门智能协作控制方法，例如图1所示的步骤S1。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如第一管道检测模块。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述阀门智能协作控制设备中的执行过程。

所述阀门智能协作控制设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述阀门智能协作控制设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是阀门智能协作控制设备的示例，并不构成对阀门智能协作控制设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

所称处理器11可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器11是所述阀门智能协作控制设备的控制中心，利用各种接口和线路连接整个阀门智能协作控制设备的各个部分。

所述存储器15可用于存储所述计算机程序和/或模块，所述处理器11通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述阀门智能协作控制设备的各种功能。所述存储器15可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器15可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述阀门智能协作控制设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本发明第六实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一实施例中任意一项所述的阀门智能协作控制方法。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种阀门智能协作控制方法，其特征在于，包括：

控制所述阀门按照选取出的可能联合动作执行相应动作。

2.如权利要求1所述的阀门智能协作控制方法，其特征在于，所述控制所述阀门按照选取出的可能联合动作执行相应动作之后，还包括：

检测所述主管道的当前压力以及所有阀门的当前启闭状态；

3.如权利要求1所述的阀门智能协作控制方法，其特征在于，所述方法还包括质量值表建立步骤：

根据所述主管道的所有环境状态，构建状态集合；

4.如权利要求2所述的阀门智能协作控制方法，其特征在于，所述环境状态包括主管道压力正常的第一状态、所有阀门关闭的第二状态、主管道压力超阈值的第三状态以及除第一、二、三状态以外的第四状态；

5.如权利要求2所述的阀门智能协作控制方法，其特征在于，所述根据所述奖励值、下一环境状态以及当前环境状态下选取出的可能联合动作对应的质量值，采用强化学习算法对所述质量值表中的质量值进行更新，包括：

其中，Q(S_t,A′_t)表示当前环境状态S_t下选取出的可能联合动作A′_t对应的更新后的质量值，[Q(S_t,A′_t)]'表示当前环境状态S_t下选取出的可能联合动作A′_t对应的更新前的质量值；

表示下一环境状态S_t+1下选取出的可能联合动作A′_t+1对应的的最大质量值；α表示强化学习算法的衰减因子；γ表示强化学习算法的学习效率；R表示奖励值；

判断当前计数值是否大于预设的学习周期；

6.如权利要求1所述的阀门智能协作控制方法，其特征在于，所述根据预先建立的质量值表以及主管道的当前环境状态，采用贪婪算法从所有可能联合动作中选取一个可能联合动作，包括：

7.如权利要求3所述的阀门智能协作控制方法，其特征在于，所述第一预设值为零。

8.一种阀门智能协作控制装置，其特征在于，包括：

9.一种阀门智能协作控制设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的阀门智能协作控制方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1-7中任意一项所述的阀门智能协作控制方法。