CN111639778A

CN111639778A - 一种信息处理方法及相关设备

Info

Publication number: CN111639778A
Application number: CN201910159707.XA
Authority: CN
Inventors: 肖昌南
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-09-08
Anticipated expiration: 2039-03-01
Also published as: CN111639778B

Abstract

本发明实施例提供了一种信息处理方法及相关设备，用于帮助油气集输联合站库优化生产决策。该方法包括：获取油气集输联合站库中设备的第一运行状态；将第一运行状态进行向量化处理；将向量化处理后的第一运行状态输入预设动作模型以确定目标动作概率分布，目标动作概率分布中的动作用于对油气集输联合站库中的设备进行操作，预设动作模型为基于模拟路径对状态空间和动作空间进行训练后得到，模拟路径指示状态空间中的运行状态与动作空间中的动作的对应关系，状态空间包括油气集输联合站库中的设备的静态参数，动作空间包括油气集输联合站库中的设备的操作动作，且操作动作与静态参数具有关联关系。

Description

一种信息处理方法及相关设备

技术领域

本发明涉及信息处理领域，特别涉及一种信息处理方法及相关设备。

背景技术

油气集输系统涵盖集输管网和油田站库，集输管网是将单井的产液汇聚到联合站等站库，联合站一般由油站、污水站与注水站构成。

目前联合站库针对不同状态的处置措施手册还不能覆盖可能出现的全部情况。在这种情况下，为了安全生产和高效生产，需要可以在避免危险的情况下，找到不同生产状态下的最优处置措施。同时目前的处置措施手册只能定性的描述处置措施，比如开大阀门。针对这种情况，希望能够更精确的找到定量的处置措施。

油气集输联合站库的生产具有时间滞后性，进行相关操作后，需要继续进行一定时间的模拟，才可以看到操作后的结果。油气集输联合站库的生产具有的状态空间十分巨大，不同设备的液位、流量、压力等等信息构成的乘积空间维度十分的惊人，基本不可能密集的遍历到所有的状态。同时操作方案也十分的多，不同设备都有多个可控阀门，构成的乘积空间也十分巨大。想要全部遍历几乎不可能。

发明内容

本发明实施例提供了一种信息处理方法及相关设备，用于找到油气集输联合站库中设备的当前状态最优的决策方案，帮助油气集输联合站库优化生产决策。

本发明实施例第一方面提供了一种信息处理方法，具体包括：

获取油气集输联合站库中设备的第一运行状态；

将所述第一运行状态进行向量化处理；

将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布，所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作，所述预设动作模型为基于模拟路径对状态空间和动作空间进行训练后得到，所述模拟路径指示所述状态空间中的运行状态与所述动作空间中的动作的对应关系，所述状态空间包括所述油气集输联合站库中的设备的静态参数，所述动作空间包括所述油气集输联合站库中的设备的操作动作，且所述操作动作与所述静态参数具有关联关系。

可选地，所述获取油气集输联合站库中设备的第一运行状态之前，所述方法还包括：

构建所述油气集输联合站库的模拟系统，所述模拟系统包括所述油气集输联合站库中的设备对应的物理模型。

可选地，所述将所述第一运行状态输入预设动作模型以确定目标动作之前，所述方法还包括：

确定所述状态空间以及所述动作空间；

确定所述油气集输联合站库对应的初始动作模型，所述初始动作模型包括第一模块以及第二模块，所述第一模块以及所述第二模块均由人工神经网络构成；

基于所述模拟路径，根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练，以确定所述预设动作模型。

可选地，所述基于所述模拟路径，根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练，以确定所述预设动作模型包括：

步骤1、根据所述初始动作模型确定目标网络，所述目标网络包括第三模块以及第四模块，所述第一模块与第三模块具有关联关系，所述第二模块与所述第四模块具有关联关系；

步骤2、确定到N条长度为T的模拟路径，所述N为大于1的正整数，所述T为大于1的正整数，所述长度为T的模拟路径指示所述状态空间中的任意T个第二运行状态与所述动作空间中的T个第一动作的对应关系，所述T个第一动作为所述任意T个第二运行状态分别输入所述第一模块后输出得到的，所述T为大于1的正整数；

步骤3、根据所述N条长度为T的模拟路径通过共轭梯度法更新所述第一模块的第一参数的参数值；

步骤4、根据所述N条长度为T的模拟路径确定时序差分误差；

步骤5、根据所述时序差分误差更新所述第二模块的第二参数的参数值

步骤6、通过更新参数值后的所述第一模块以及更新参数值后的第二模块更新所述第三模块的第一参数的参数值以及所述第四模块的第二参数的参数值；

重复执行步骤2至步骤6，直至满足预置迭代终止条件；

将迭代终止时的所述目标网络确定为所述预设动作模型。

可选地，所述根据所述N条长度为T的模拟路径通过共轭梯度法更新所述第一模块的第一参数的参数值包括：

通过所述共轭梯度法求解如下公式，以更新所述第一模块的参数：

且

其中，π为所述第一模块的函数，A为时序差分误差，所述时序差分误差通过对所述第二运行状态的奖励值、所述第三运行状态的价值以及所述第二运行状态的价值计算后得到的，所述第三运行状态为将所述第一动作输入所述模拟系统后得到，所述第三运行状态的价值以及所述第一运行状态的价值为根据所述第二模块计算后得到的，θ_old为所述第三模块的第一参数的参数值，θ为所述第一模块的第一参数的参数值，D_KL为所述第三模块与所述第一模块的相对熵，s为所述N条长度为T的模拟路径中的任意一个第二运行状态，a为所述s对应的动作，ρ为所述s的概率分布，δ为所述相对熵的执行区间。

可选地，所述方法还包括：

根据所述目标动作概率分布中概率最高的目标动作确定所述模拟系统的第四运行状态；

确定所述第一运行状态的价值以及所述第四运行状态的价值；

确定所述第四运行状态的奖励值，所述第四运行状态的奖励值指示所述模拟系统处于所述第四运行状态时是否正常运行；

通过所述第一运行状态价值、所述第四运行状态的价值以及所述第四运行状态的奖励值更新所述预设动作模型的参数。

本发明实施例第二方面提供了一种信息处理装置，包括：

获取单元，用于获取油气集输联合站库中设备的第一运行状态；

处理单元，用于将所述第一运行状态进行向量化处理；

确定单元，用于将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布，所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作，所述预设动作模型为基于模拟路径对状态空间和动作空间进行训练后得到，所述模拟路径指示所述状态空间中的运行状态与所述动作空间中的动作的对应关系，所述状态空间包括所述油气集输联合站库中的设备的静态参数，所述动作空间包括所述油气集输联合站库中的设备的操作动作，且所述操作动作与所述静态参数具有关联关系。

可选地，所述装置还包括：

构建单元，用于构建所述油气集输联合站库的模拟系统，所述模拟系统包括所述油气集输联合站库中的设备对应的物理模型。

可选地，所述装置还包括：训练单元，所述训练单元用于：

确定所述状态空间以及所述动作空间；

可选地，所述训练单元基于所述模拟路径，根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练，以确定所述预设动作模型包括：

步骤4、根据所述N条长度为T的模拟路径确定时序差分误差；

重复执行步骤2至步骤6，直至满足预置迭代终止条件；

将迭代终止时的所述目标网络确定为所述预设动作模型。

可选地，所述训练单元根据所述N条长度为T的模拟路径通过共轭梯度法更新所述第一模块的第一参数的参数值包括：

且

可选地，所述确定单元还用于：

本发明实施例第三方面提供了一种处理器，所述处理器用于运行计算机程序，所述计算机程序运行时执行如上述各方面所述的信息处理方法的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时上述各方面所述的信息处理方法的步骤。

综上所述，可以看出，本发明提供的实施例中，通过对油气集输联合站库中设备当前时刻的状态进行向量后，之后输出油气集输联合站库中的设备的目标动作概率分布，目标动作概率分布中的动作用于对油气集输联合站库中的设备进行操作。由此该预设动作模型为基于模拟路径对油气集输联合站库的状态空间以及动作空间进行训练后得到的，该预设动作模型学习到的不同生产状态下的最优操作方案是一个固定方案，而是一个动作的概率分布，也就是在真实生产中，可以有效地避免探索，更好的利用现有的最优操作方案，最大化生产效率，帮助油气集输联合站库优化生产决策。

附图说明

图1为本发明实施例提供的信息处理方法的实施例示意图；

图2为本发明实施例提供的预设动作模型的训练流程示意图；

图3为本发明实施例提供的信息处理装置的实施例示意图；

图4为本发明实施例提供的服务器的硬件结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面从信息处理装置的角度对本发明的信息处理方法进行说明，该信息处理装置可以是服务器，也可以是服务器中的服务单元，具体不做限定。

请参阅图1，图1为本发明实施例提供的信息处理方法的实施例示意图，包括：

101、获取油气集输联合站库中设备的第一运行状态。

本实施例中，在油气集输联合在库中的设备在运行的过程中，信息处理装置可以获取当前时刻油气集输联合站库中设备的第一运行状态。该第一运行状态例为油气集输联合站库中设备在当前时刻的状态，例如油气集输联合站库中水罐的液面高度、以及油气集输联合站库中阀门的开关状态等等。

需要说明的是，在获取油气集输联合站库中设备的第一运行状态之前，还可以构建油气集输联合站库的模拟系统，该模拟系统包括油气集合联合站库中的设备对应的物理模型，下面进行具体说明：首先确定油气集输联合站库中的多个设备，以及多个设备的静态参数，其中，静态参数用于表示多个设备自身固有的属性，多个设备可以包括但不限于以下几种：三相分离器、沉降罐、核桃壳过滤器、纤维球过滤器等。上述静态参数表示多个设备自身的固有属性，以三相分离器为例，三相分离器的静态参数可以包括但不限于以下几种：三相分离器等效长度、三相分离器的半径、三相分离器罐内总体积、三相分离器的水室横截面积、三相分离器的油室横截面积、三相分离器的溢油挡板的高度、水密度、油密度、气体平均分子质量、气体常数、重力加速度等。

其次，根据多个设备的静态参数构建多个设备中每个设备的物理模型。也就是说，可以根据多个设备中每个设备的信息，随机初始化每个设备的物理模型中的参数，并根据每个设备的历史运行参数，计算每一个时刻的预测数据与真实生产数据之间的二次损失函数，采用随机梯度下降算法，估计每个设备中的参数。

再次，确定油气集输联合站库的多个设备中每个设备之间的连接关系。例如，可以根据油气集输联合站库中各个设备之间的连接方式确定多个设备的物理模型的连接方式。具体地，可以将多个设备中每个设备作为一个节点，将多个设备中的每个设备对应的节点按照上述油气集输联合站库中各个设备之间的连接方式以边的形式进行连接。例如，在真实生产中三相分离器的出水口连接沉降罐的进水口，则将三相分离器节点和沉降罐节点相连接。采用相同的方式实现对多个设备中每个设备的物理模型的连接。具体地，可以根据各个设备之间的可调节控制的阀门、水泵等信息搭建边，根据节点和边连接成站库系统。

最后，基于连接关系将多个设备中每个设备的物理模型进行连接，构建油气集输联合站库的模拟系统。具体地，可以重复下述过程进行系统模拟：根据可控信息，更新各个边的信息；对于每个节点，集成流向该节点的所有边的信息，根据每个节点本身的信息和集成的边的信息，更新各个节点的信息。

102、将第一运行状态进行向量化处理。

本实施例中，信息处理装置在获取到第一运行状态之后，可以将该第一运行状态进行向量化处理，例如可以通过word2rvec向量化工具对第一运行状态进行向量化，当然也还可以通过其他的方式进行向量化，具体不做限定。

103、将向量化处理后的第一运行状态输入预设动作模型以确定目标动作概率分布。

本实施例中，信息处理装置可以预先训练一个动作输出模型，即预设动作模型，该预设动作模型用于根据运行状态的向量输出运行状态对应的动作概率分布，之后，可以将向量化处理后的第一运行状态输入预设动作模型，以确定目标动作概率分布，该目标动作概率分布中的动作用于对油气集输联合站库中的设备进行操作，预设动作模型为基于模拟路径对状态空间和动作空间进行训练后得到，该模拟路径指示状态空间中的运行状态与动作空间中的动作的对应关系(也就是说，将状态空间中的一个运行状态与动作空间中与该运行状态对应的动作作为一条模拟路径来进行训练，由此训练得到的预设动作模型输出的是动作的概率分布，之后可以选取概率最高的动作作为固定动作，来完成对最优动作的选取)，该状态空间包括油气集输联合站库中设备的静态参数，比如油气集输联合站库中水罐的液面高度是从0m到10m，则可以得到(0m-10m)这样一个水罐液面高度的多个不同状态的连续空间作为液面高度的空间，同理还有油气集输联合站库中的所有设备的压力、流量等动态参数和比热容、长度、密度等静态参数采用如上述的方式形成的空间，之后将油气集输联合站库中所有设备的连续空间做乘积空间，构成了状态空间(该状态空间中的所有设备的状态以向量的形式存在)，该动作空间包括油气集输联合站库中的设备的操作动作，也即动作空间为所有单独的操作拼接而成，即认为同一时刻之后进行一种操作，比如调节油气集输联合站库中的设备的某个阀门或者某个水泵，例如单个阀门的连续空间就是{最小至最大}中多个不同的动作构成的空间，之后，将油气集输联合站库中所有设备的连续动作空间拼接形成动作空间，(该动作空间中的所有操作动作均以向量的形式存在)。该状态空间与该动作空间具有关联关系，也就是说，状态空间中的每个状态向量均可以在动作空间找到一个与之对应的操作动作。

需要说明的是，在通过预设动作模型确定目标动作概率分布之后，可以将该目标动作概率分布向用户展示，以使得用户根据目标概率分布中概率最高的目标动作对油气集输联合站库中的设备进行操作，或者，信息处理设备直接基于该目标动作概率分布中概率最高的目标动作对油气集输联合站库中的设备进行操作，例如调节液面的高度等。

综上所述，可以看出，本发明提供的实施例中，通过对油气集输联合站库中设备当前时刻的状态进行向量后，之后输出油气集输联合站库中的设备的目标动作概率分布，并通过目标动作概率分布中概率最高的目标动作对油气集输联合站库中的设备进行操作。由此可以通过预设动作模型为基于模拟路径对油气集输联合站库的状态空间以及动作空间进行训练后得到的，该预设动作模型学习到的不同生产状态下的最优操作方案是一个固定方案，而是一个动作的概率分布，也就是在真实生产中，可以有效地避免探索，更好的利用现有的最优操作方案，最大化生产效率，帮助油气集输联合站库优化生产决策。

下面结合图2对预设动作模型的训练进行说明。

请参阅图2，图2为本发明实施例提供的预设动作模型的训练流程示意图，包括：

201、确定状态空间以及动作空间。

本实施例中，可以确定状态空间以及动作空间，该状态空间包括油气集输联合站库中设备的静态参数，比如油气集输联合站库中水罐的液面高度是从0m到10m，则可以得到(0m-10m)这样一个水罐液面高度的多个不同状态的连续空间作为液面高度的空间，同理油气集输联合站库中所有设备的压力、流量等动态参数和比热容、长度、密度等静态参数采用如上述的方式形成的空间，之后将油气集输联合站库中所有设备形成的空间做乘积空间，构成了状态空间(该状态空间中的所有设备的状态以向量的形式存在)，该动作空间包括油气集输联合站库中设备的操作动作，也即动作空间为所有单独的操作拼接而成，即认为同一时刻之后进行一种操作，比如调节油气集输联合站库中的设备的某个阀门或者某个水泵，例如单个阀门的连续空间就是{最小至最大}中多个不同的动作构成，之后，将这些空间拼接形成动作空间，(该动作空间中的所有操作动作以向量的形式存在)。该状态空间与该动作空间具有关联关系，也就是说，状态空间中的每个状态向量均可以在动作空间找到一个与之对应的操作动作。

需要说明的是，状态空间由油气集输联合站库中的所有的设备的所有流量、压力、液位高度等状态信息构成的向量和阀门开度、水泵压力、流量等动作信息构成的向量拼接而成的向量表示；动作空间是由油气集输联合站库中所有可以操作的阀门开度、水泵压力等拼接而成的向量表示，其中操作分为两种，一种是只有有限种选项的操作，比如阀门只能开或者关，在这种情况下使用一个二维向量表示，其中至多一个位置为1，其余为0；另一种是连续可控制操作，这种情况下用连续数值表示。

可以理解的是，上述数值仅为举例说明，并不代表对其的限定。

202、确定油气集输联合站库对应的初始动作模型。

本实施例中，信息处理装置可以确定一个初始动作模型，该初始动作模型包括第一模块以及第二模块，该第一模块以及第二模块均由人工神经网络构成，此处以第一模块为Actor模块，第二模块为Critic模块为例进行说明，其中，该Actor模块由隐藏层为5层的MLP(Multi-Layer Perceptron，多层感知器)组成，输入是状态空间中模拟系统的运行状态的向量，即油气集输联合站库中的每一个设备的所有静态参数以及每一个可控制的操作信息，输出是长度为所有的可控制信息的向量，即每一个位置表达对系统的一种操作方式，Critic模块由隐藏层为3层的MLP组成，输入与Actor模块完全相同，输出是一个数值，表示输入的状态对应的价值。

需要说明的是，通过步骤201可以确定状态空间以及动作空间，通过步骤202可以确定油气集输联合站库对应的初始动作模型，然而这两个步骤之间并没有先后执行顺序的限制，可以先执行步骤201，也可以先执行步骤202，或者同时执行，具体不做限定。

203、基于模拟路径，根据初始动作模型以及模拟系统对状态空间以及动作空间进行训练，以确定预设动作模型。

本实施例中，在得到油气集输联合站库的状态空间以及动作空间之后，信息处理装置可以基于模拟路径，联合初始动作模型以及模拟系统对油气集输联合站库的状态空间以及动作空间进行训练，以确定预设动作模型，该模拟系统为预先设置的对油气集输联合站库中设备的状态以及动作进行模拟的系统，下面进行具体说明：

步骤1、根据初始动作模型确定目标网络。

本实施例中，信息处理装置可以根据初始动作模型确定目标网络，该目标网络包括第三模块以及第四模块，其中，第一模块与第三模块具有关联关系，第二模块与第四模块具有关联关系，也就是说，可以将初始动作模型中的第一模块复制得到第三模块，将初始动作模型中的第二模块复制得到第四模块。

步骤2、确定N条长度为T的模拟路径。

也就是说，信息处理装置可以确定N条长度为T的模拟路径，其中N为大于1的正整数，T为大于1的正整数，长度为T的模拟路径指示状态空间中任意T个第二运行状态与动作空间中的T个第一动作的对应关系，该T个第一动作为任意T个第二运行状态分别输入第一模块后输出得到的，也就是说，信息处理装置可以从状态空间中随机挑选一个状态向量，例如液面高度的状态向量输入第一模块，输出一个动作，该液面高度的状态向量与该输出的动作即作为一个模拟路径，之后重复执行T次，得到1条长度为T的模拟路径，最后重复执行上述动作N次，得到N条长度为T的模拟路径。

步骤3、根据N条长度为T的模拟路径通过共轭梯度法更新第一模块的第一次参数的参数值。

本实施例中，信息处理装置可以通过共轭梯度法求解如下公式，以更新第一模块的第一参数的参数值(其中，该第一参数为第一模块中状态决定动作的参数)：

且

其中，π为第一模块的函数，A为时序差分误差，时序差分误差通过对第二运行状态的奖励值(该第二运行状态为N条长度为T的模拟路径中的任意一个运行状态)、第三运行状态的价值以及第二运行状态的价值计算后得到的，第三运行状态为将第一动作输入所述模拟系统后得到，第三运行状态的价值以及第一运行状态的价值为根据第二模块计算后得到的，θ_old为第三模块的第一参数的参数值，θ为第一模块的第一参数的参数值，D_KL为第三模块与第一模块的相对熵(又称KL散度(Kullback–Leibler divergence)，是描述两个概率分布差异的一种方法)，s为N条长度为T的模拟路径中的任意一个第二运行状态，a为s对应的动作，ρ为s的概率分布，δ为相对熵的执行区间。

需要说明的是，该第二运行状态的奖励值指示模拟系统处于第二运行状态下是否是正常运行的，具体的，可以提前定义模拟系统的奖励函数R，即当模拟系统正常运行时该奖励函数R的奖励值为0.01，当模拟系统出现预警时，该奖励函数R的奖励值为-1，此处可以根据第二运行状态确定该模拟系统的是否正常运行，当模拟系统正常运行时，该第二运行状态的奖励值为0.01，当模拟系统出现异常预警时，该第二运行状态的奖励值-1，上述奖励函数R的奖励值仅为举例说明，并不代表对其的限定。

步骤4、根据N条长度为T的模拟路径确定时序差分误差。

本实施例中，在得到N条长度为T的模拟路径之后，可以将每个模拟路径中的第一动作输入模拟系统得到该第一动作对应的第三运行状态，之后，计算每个模拟路径中的第二运行状态的奖励值，并通过第二模块计算每个模拟路径中的第二运行状态的价值，以及每个第三运行状态的价值，之后通过每个模拟路径中的第二运行状态的奖励值、每个第三运行状态的价值以及每个模拟路径中的第二运行状态的价值计算得到多个时序差分误差，具体的，可以先计算每个模拟路径中的第二运行状态的奖励值与每个第三运行状态的价值之后，之后减去每个第二运行状态的价值，得到多个时序差分误差。

步骤5、根据时序查分误差更新第二模块的第二参数的参数值。

本实施例中，在得到多个时序差分误差之后，可以通过最小化二次时序差分误差更新第二模块的第二参数的参数值，其中，该第二参数为第二模块中动作决定价值的参数。

步骤6、通过更新参数值后的第一模块以及更新参数值后的第二模块更新第三模块的第一模块的参数值以及第四模块的第二参数的参数值。

本实施例中，在将第一模块的第一参数的参数值以及第二模块的第二参数的参数值更新之后，可以通过增量更新的方式使用更新参数指后的第一模块更新第三模块的第一参数的参数值，同时，通过增量更新的方式使用更新参数值后的第二模块更新第四模块的第二参数的参数值。

需要说明的是，由于该第三模块为第一模块复制后的模块，第四模块为第二模块复制后的模块，因此可以基于更新参数值后的第一模块对第三模块的第一参数的参数值进行更新，基于更新参数值后的第二模块对第四模块的第二参数的参数值进行更新。

需要说明的是，该第一参数为第一模块中状态决定动作的参数，该第二参数为第二模块中状态决定价值的参数。

步骤7、重复执行步骤2至步骤6，直至满足预置迭代终止条件。

本实施例中，可以在每次迭代之后，判断迭代次数是否达到预置数值，若是，则确定满足预置的迭代终止条件；或，判断第一模块的第一参数的参数值和/或第二模块的第二参数的参数值是否收敛，若是，则确定满足预置的迭代终止条件。

步骤8、将迭代终止时的目标网络确定为预设动作模型。

需要说明的是，在实际操作的过程中，基于目标动作对油气集输联合站库中的设备进行操作之后，还可以对预设动作模型的参数进行更新，具体如下：根据目标概率动作分布中概率最高的目标动作确定模拟系统的第四运行状态；确定第一运行状态的价值以及第四运行状态的价值；确定第四运行状态的奖励值，第四运行状态的奖励值指示模拟系统处于第四运行状态时是否正常运行；通过第一运行状态价值、第四运行状态的价值以及第四运行状态的奖励值更新所述预设动作模型的参数。具体的更新预设动作模型中的参数可以参数上述步骤3、步骤4以及步骤5的说明，上述已经进行了具体说明，此处不再赘述。

综上所述，可以看出，在预设动作模型的训练过程中，不断的通过迭代对第一模块的第一参数的参数值以及第二模块的第二参数的参数值进行更新，并通过第一模块的第一参数的参数值以及第二模块的第二参数的参数值不断的对第三模块的第一参数的参数值以及第四模块的第二参数的参数值进行增量更新，使得训练出的预设动作模型更加贴合油气集输联合站库中各个设备的状态以及状态对应的操作，同时，由于在训练的过程中使用共轭梯度法对第一模块的第一参数的参数值进行更新，同时通过时序差分误差对第二模块的第二参数的参数值进行更新，且在第一模块的第一参数的参数值进行更新的过程中，同时保证了第一模块的第一参数的参数值更新后需要满足第三模块与第一模块之间的相对熵的执行区间，这样可以保证学习迭代后预设动作模型的性能的稳步提升提升，避免了使用随机梯度下降带来的可能的短期内性能下降，大大提高了联合站库中自动化得到当前状态对应的最优操作的稳定性。

上面对本发明实施例提供的信息处理方法进行说明，下面结合图3对本发明实施例提供的信息处理装置进行说明。

请参阅图3，图3为本发明实施例提供的信息处理装置的实施例示意图，该信息处理装置包括：

获取单元301，用于获取油气集输联合站库中设备的第一运行状态；

处理单元302，用于将所述第一运行状态进行向量化处理；

确定单元303，用于将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布，所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作，所述预设动作模型为基于模拟路径对状态空间和动作空间进行训练后得到，所述模拟路径指示所述状态空间中的运行状态与所述动作空间中的动作的对应关系，所述状态空间包括所述油气集输联合站库中的设备的静态参数，所述动作空间包括所述油气集输联合站库中的设备的操作动作，且所述操作动作与所述静态参数具有关联关系。

可选地，所述装置还包括：

构建单元304，用于构建所述油气集输联合站库的模拟系统，所述模拟系统包括所述油气集输联合站库中的设备对应的物理模型。

可选地，所述装置还包括：训练单元305，所述训练单元305用于：

确定所述状态空间以及所述动作空间；

可选地，所述训练单元305基于所述模拟路径，根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练，以确定所述预设动作模型包括：

步骤4、根据所述N条长度为T的模拟路径确定时序差分误差；

步骤5、根据所述时序差分误差更新所述第二模块的第二参数的参数值；

重复执行步骤2至步骤6，直至满足预置迭代终止条件；

将迭代终止时的所述目标网络确定为所述预设动作模型。

可选地，所述训练单元305根据所述N条长度为T的模拟路径通过共轭梯度法更新所述第一模块的第一参数的参数值包括：

通过所述共轭梯度法求解如下公式，以更新所述第一模块的第一参数的参数值：

且

可选地，所述确定单元303还用于：

本实施例中的信息处理装置的各单元之间的交互方式如前述图1以及图2所示实施例中的描述，具体此处不再赘述。

综上所述，可以看出，本发明提供的实施例中，通过对油气集输联合站库中设备当前时刻的状态进行向量后，之后输出油气集输联合站库中的设备的目标动作概率分布，该目标动作概率分布中的用于对油气集输联合站库中的设备进行操作。该预设动作模型为基于模拟路径对油气集输联合站库的状态空间以及动作空间进行训练后得到的，该预设动作模型学习到的不同生产状态下的最优操作方案是一个固定方案，而是一个动作的概率分布，也就是在真实生产中，可以有效地避免探索，更好的利用现有的最优操作方案，最大化生产效率，帮助油气集输联合站库优化生产决策。

请参阅图4，图4是本发明实施例提供的一种服务器的结构示意图，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，和/或，一个或一个以上操作系统441，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由信息处理装置所执行的步骤可以基于该图4所示的服务器结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述信息处理方法。

本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述信息处理方法。

本发明实施例还提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取油气集输联合站库中设备的第一运行状态；

将所述第一运行状态进行向量化处理；

在具体实施过程中，处理器执行程序时可以实现图1以及图2对应的实施例中任一实施方式。

本文中的设备可以是服务器、PC、PAD、手机等。

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取油气集输联合站库中设备的第一运行状态；

将所述第一运行状态进行向量化处理；

在具体实施过程中，执行计算机程序产品时可以实现图1以及图2对应的实施例中任一实施方式。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种信息处理方法，其特征在于，包括：

获取油气集输联合站库中设备的第一运行状态；

将所述第一运行状态进行向量化处理；

2.根据权利要求1所述的方法，其特征在于，所述获取油气集输联合站库中设备的第一运行状态之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第一运行状态输入预设动作模型以确定目标动作之前，所述方法还包括：

确定所述状态空间以及所述动作空间；

4.根据权利要求3所述的方法，其特征在于，所述基于所述模拟路径，根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练，以确定所述预设动作模型包括：

步骤4、根据所述N条长度为T的模拟路径确定时序差分误差；

重复执行步骤2至步骤6，直至满足预置迭代终止条件；

将迭代终止时的所述目标网络确定为所述预设动作模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述N条长度为T的模拟路径通过共轭梯度法更新所述第一模块的第一参数的参数值包括：

且

其中，π为所述第一模块的函数，A为时序差分误差，所述时序差分误差通过对所述第二运行状态的奖励值、所述第三运行状态的价值以及所述第二运行状态的价值计算后得到，所述第三运行状态为将所述第一动作输入所述模拟系统后得到，所述第三运行状态的价值以及所述第一运行状态的价值为根据所述第二模块计算后得到的，θ_old为所述第三模块的第一参数的参数值，θ为所述第一模块的第一参数的参数值，D_KL为所述第三模块与所述第一模块的相对熵，s为所述N条长度为T的模拟路径中的任意一个第二运行状态，a为所述s对应的动作，ρ为所述s的概率分布，δ为所述相对熵的执行区间。

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述方法还包括：

7.一种信息处理装置，其特征在于，包括：

处理单元，用于将所述第一运行状态进行向量化处理；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种处理器，其特征在于，所述处理器用于运行计算机程序，所述计算机程序运行时执行如权利要求1至6中任意一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述方法的步骤。