CN111639828B

CN111639828B - 一种信息处理方法及相关设备

Info

Publication number: CN111639828B
Application number: CN201910159710.1A
Authority: CN
Inventors: 肖昌南
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2023-08-29
Anticipated expiration: 2039-03-01
Also published as: CN111639828A

Abstract

本发明实施例提供了一种信息处理方法及相关设备，用于帮助油气集输联合站库优化生产决策。该方法包括：获取油气集输联合站库中设备的第一运行状态；将所述第一运行状态进行向量化处理；将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布，所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作，所述预设动作模型为基于预设内部好奇心模型，通过对状态空间和动作空间进行训练后得到，所述状态空间包括所述油气集输联合站库中的设备的静态参数，所述动作空间包括所述油气集输联合站库中的设备的操作动作，且所述操作动作与所述静态参数具有关联关系。

Description

一种信息处理方法及相关设备

技术领域

本发明涉及信息处理领域，特别涉及一种信息处理方法及相关设备。

背景技术

油气集输系统涵盖集输管网和油田站库，集输管网是将单井的产液汇聚到联合站等站库，联合站一般由油站、污水站与注水站构成。

目前联合站库针对不同状态的处置措施手册还不能覆盖可能出现的全部情况。在这种情况下，为了安全生产和高效生产，需要可以在避免危险的情况下，找到不同生产状态下的最优处置措施。同时目前的处置措施手册只能定性的描述处置措施，比如开大阀门。针对这种情况，希望能够更精确的找到定量的处置措施。

油气集输联合站库的生产具有时间滞后性，进行相关操作后，需要继续进行一定时间的模拟，才可以看到操作后的结果。油气集输联合站库的生产具有的状态空间十分巨大，不同设备的液位、流量、压力等等信息构成的乘积空间维度十分的惊人，基本不可能密集的遍历到所有的状态。同时操作方案也十分的多，不同设备都有多个可控阀门，构成的乘积空间也十分巨大。想要全部遍历几乎不可能。

发明内容

本发明实施例提供了一种信息处理方法及相关设备，用于帮助油气集输联合站库优化生产决策。

本发明实施例第一方面提供了一种信息处理方法，具体包括：

获取油气集输联合站库中设备的第一运行状态；

将所述第一运行状态进行向量化处理；

将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布，所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作，所述预设动作模型为基于预设内部好奇心模型，通过对状态空间和动作空间进行训练后得到，所述状态空间包括所述油气集输联合站库中的设备的静态参数，所述动作空间包括所述油气集输联合站库中的设备的操作动作，且所述操作动作与所述静态参数具有关联关系。

可选地，所述将所述第一运行状态输入预设动作模型以确定目标动作之前，所述方法还包括：

确定所述状态空间以及所述动作空间；

确定所述油气集输联合站库对应的初始动作模型，所述初始动作模型包括第一模块以及第二模块，所述第一模块以及所述第二模块均由人工神经网络构成；

构建所述油气集输联合站库对应的所述预设内部好奇心模型；

基于所述预设内部好奇心模型，根据所述初始动作模型以及模拟系统对所述状态空间以及所述动作空间进行训练，以确定所述预设动作模型，所述模拟系统包括所述油气集输联合站库中的设备对应的物理模型。

可选地，所述基于所述预设内部好奇心模型，根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练，以确定所述预设动作模型包括：

步骤1、将第二运行状态输入所述第一模块，以输出第一动作，所述第二运行状态为所述状态空间中的任意一个运行状态，所述第一动作为所述动作空间中与所述第二运行状态对应的动作；

步骤2、根据所述第一动作确定所述模拟系统的第三运行状态；

步骤3、基于所述预设内部好奇心模型，确定所述第一动作的预测动作、所述第三运行状态的特征编码以及所述第三运行状态的预测特征编码；

步骤4、基于所述第三运行状态的奖励值以及第一距离确定所述第三运行状态的综合奖励值，所述第一距离为所述第三运行状态的特征编码与所述第三运行状态的预测特征编码之间的距离，所述第三运行状态的奖励值指示所述模拟系统处于所述第三运行状态时是否正常运行；

步骤5、确定所述第一动作与所述第一动作的预测动作之间的第二距离；

步骤6、基于策略梯度下降，通过所述第二运行状态、所述第一距离、所述第二距离以及所述第三运行状态的综合奖励值更新所述第一模块的第一参数的参数值；

步骤7、确定时序差分误差；

步骤8、根据所述时序差分误差更新所述第二模块的第二参数的参数值。

重复执行步骤1至步骤8，直至满足预置迭代终止条件；

将迭代终止时的所述第一模块以及迭代终止时的所述第二模块确定为所述预设动作模型。

可选地，所述预设内部好奇心模型包括第一神经网络、第二神经网络以及第三神经网络，所述基于所述预设内部好奇心模型，确定所述第一动作的预测动作、所述第三运行状态的特征编码以及所述第三运行状态的预测特征编码包括：

将所述第二运行状态以及所述第三运行状态输入所述第一神经网络，以确定所述第二运行状态的特征编码以及所述第三运行状态的特征编码；

将所述第二运行状态的特征编码以及所述第一动作输入所述第二神经网络，以确定所述第三运行状态的预测特征编码；

将所述第二运行状态的特征编码以及所述第三运行状态的特征编码输入所述第三神经网络，以确定所述第一动作的预测动作。

可选地，所述基于策略梯度下降，通过所述第二运行状态、所述第一距离、所述第二距离以及所述第三运行状态的综合奖励值更新所述第一模块的第一参数的参数值包括：

通过计算如下公式，对所述第一模块的第一参数的参数值进行更新：

其中，π为所述第一模块的函数，θ_P为所述第一模块的第一参数的参数值，θ_I为所述第三神经网络的参数的参数值，θ_F为所述第二神经网络的参数的参数值，s_t为所述第二运行状态，r_t为所述第三运行状态的综合奖励值，β为大于0小于1的常数，λ为大于0的正数，L_F为所述第一距离，L_I为所述第二距离。

可选地，所述方法还包括：

基于所述目标动作概率分布中概率最大的目标动作确定所述模拟系统的第四运行状态；

基于所述预设内部好奇心模型，确定所述目标动作的预测动作、所述第四运行状态的特征编码以及所述第四运行状态的预测特征编码；

基于所述第四运行状态的奖励值以及第三距离确定所述第四运行状态的综合奖励值，所述第三距离为所述第四运行状态的特征编码与所述第四运行状态的预测特征编码之间的距离，所述第四运行状态的奖励值指示所述模拟系统处于所述第四运行状态时是否正常运行；

确定所述目标动作与所述目标动作的预测动作之间的第四距离；

根据所述第一运行状态、所述第四运行状态的综合奖励值、所述第三距离以及所述第四距离更新所述第一模型的第一参数的参数值；

确定第二时序差分误差；

根据所述第二时序差分误差更新所述第二模块的第二参数的参数值。

本发明实施例第二方面提供了一种信息处理装置，包括：

获取单元，用于获取油气集输联合站库中设备的第一运行状态；

处理单元，用于将所述第一运行状态进行向量化处理；

确定单元，用于将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布，所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作，所述预设动作模型为基于预设内部好奇心模型，通过对状态空间和动作空间进行训练后得到，所述状态空间包括所述油气集输联合站库中的设备的静态参数，所述动作空间包括所述油气集输联合站库中的设备的操作动作，且所述操作动作与所述静态参数具有关联关系。

可选地，所述装置还包括训练单元，所述训练单元用于：

确定所述状态空间以及所述动作空间；

可选地，所述训练单元基于所述预设内部好奇心模型，根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练，以确定所述预设动作模型包括：

步骤7、确定时序差分误差；

重复执行步骤1至步骤8，直至满足预置迭代终止条件；

可选地，所述预设内部好奇心模型包括第一神经网络、第二神经网络以及第三神经网络，所述训练单元基于所述预设内部好奇心模型，确定所述第一动作的预测动作、所述第三运行状态的特征编码以及所述第三运行状态的预测特征编码包括：

可选地，所述训练单元基于策略梯度下降，通过所述第二运行状态、所述第一距离、所述第二距离以及所述第三运行状态的综合奖励值更新所述第一模块的第一参数的参数值包括：

可选地，所述确定单元还用于：

确定第二时序差分误差；

本发明实施例第三方面提供了一种处理器，所述处理器用于运行计算机程序，所述计算机程序运行时执行如上述各方面所述的信息处理方法的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时上述各方面所述的信息处理方法的步骤。

综上所述，可以看出，本发明提供的实施例中，通过对油气集输联合站库中设备当前时刻的状态进行向量后，之后输出油气集输联合站库中的设备的目标动作概率分布，目标动作概率分布中的动作用于对油气集输联合站库中的设备进行操作。由于在对预设动作模型的训练过程中加入了好奇心模型，通过该好奇心模型的好奇心奖励机制提供内生的奖励信号，在预设动作模型很少会出现报警信息以及负奖励的出现稀疏的情况下，提高预设动作模型的强化学习的学习效果，可以更有效的更快速的学习到油气集输联合站库的最优操作策略，由此可以输出更加贴合油气集输联合站库中设备的操作。

附图说明

图1为本发明实施例提供的信息处理方法的实施例示意图；

图2为本发明实施例提供的预设动作模型的训练流程示意图；

图3为本发明实施例提供的信息处理装置的实施例示意图；

图4为本发明实施例提供的服务器的硬件结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面从信息处理装置的角度对本发明的信息处理方法进行说明，该信息处理装置可以是服务器，也可以是服务器中的服务单元，具体不做限定。

请参阅图1，图1为本发明实施例提供的信息处理方法的实施例示意图，包括：

101、获取油气集输联合站库中设备的第一运行状态。

本实施例中，在油气集输联合在库中的设备在运行的过程中，信息处理装置可以获取当前时刻油气集输联合站库中的设备的第一运行状态。该第一运行状态例为油气集输联合站库中的设备当前时刻的状态，例如油气集输联合站库中水罐的液面高度、以及油气集输联合站库中阀门的开关状态等等。

需要说明的是，在获取油气集输联合站库中设备的第一运行状态之前，还可以构建油气集输联合站库的模拟系统，该模拟系统包括油气集合联合站库中的设备对应的物理模型，下面进行具体说明：首先确定油气集输联合站库中的多个设备，以及多个设备的静态参数，其中，静态参数用于表示多个设备自身固有的属性，多个设备可以包括但不限于以下几种：三相分离器、沉降罐、核桃壳过滤器、纤维球过滤器等。上述静态参数表示多个设备自身的固有属性，以三相分离器为例，三相分离器的静态参数可以包括但不限于以下几种：三相分离器等效长度、三相分离器的半径、三相分离器罐内总体积、三相分离器的水室横截面积、三相分离器的油室横截面积、三相分离器的溢油挡板的高度、水密度、油密度、气体平均分子质量、气体常数、重力加速度等。

其次，根据多个设备的静态参数构建多个设备中每个设备的物理模型。也就是说，可以根据多个设备中每个设备的信息，随机初始化每个设备的物理模型中的参数，并根据每个设备的历史运行参数，计算每一个时刻的预测数据与真实生产数据之间的二次损失函数，采用随机梯度下降算法，估计每个设备中的参数。

再次，确定油气集输联合站库的多个设备中每个设备之间的连接关系。例如，可以根据油气集输联合站库中各个设备之间的连接方式确定多个设备的物理模型的连接方式。具体地，可以将多个设备中每个设备作为一个节点，将多个设备中的每个设备对应的节点按照上述油气集输联合站库中各个设备之间的连接方式以边的形式进行连接。例如，在真实生产中三相分离器的出水口连接沉降罐的进水口，则将三相分离器节点和沉降罐节点相连接。采用相同的方式实现对多个设备中每个设备的物理模型的连接。具体地，可以根据各个设备之间的可调节控制的阀门、水泵等信息搭建边，根据节点和边连接成站库系统。

最后，基于连接关系将多个设备中每个设备的物理模型进行连接，构建油气集输联合站库的模拟系统。具体地，可以重复下述过程进行系统模拟：根据可控信息，更新各个边的信息；对于每个节点，集成流向该节点的所有边的信息，根据每个节点本身的信息和集成的边的信息，更新各个节点的信息。

102、将第一运行状态进行向量化处理。

本实施例中，信息处理装置在获取到第一运行状态之后，可以将该第一运行状态进行向量化处理，例如可以通过word2rvec向量化工具对第一运行状态进行向量化，当然也还可以通过其他的方式进行向量化，具体不做限定。

103、将向量化处理后的第一运行状态输入预设动作模型以确定目标动作概率分布。

本实施例中，信息处理装置可以预先训练一个动作输出模型，即预设动作模型，该预设动作模型用于根据运行状态的向量输出运行状态对应的动作的概率分布，该目标动作概率分布中的动作用于对油气集输联合站库中的设备进行操作，该预设动作模型为基于预设内部好奇心模型，通过对状态空间和动作空间进行训练后得到(也就是说，可以预设构建一个好奇心模型，通过该好奇心模型的好奇心奖励机制提供内生的奖励信号，在预设动作模型很少会出现报警信息以及负奖励的出现稀疏的情况下，提高预设动作模型的强化学习的学习效果，由此预设动作模型可以更有效的更快速的学习到油气集输联合站库的最优操作策略)，该状态空间包括所述油气集输联合站库中的设备的静态参数，比如水罐液面高度是从0m到10m，则可以得到(0m-10m)这样一个水罐液面高度多个不同的状态的连续空间作为液面高度的空间，同理还有油气集输联合站库中的所有设备的压力、流量等动态参数和比热容、长度、密度等静态参数采用如上述的方式形成的空间，之后将油气集输联合站库中所有设备的连续空间做乘积空间，构成了状态空间(该状态空间中的所有设备的状态以向量的形式存在)，该动作空间包括油气集输联合站库中的设备的操作动作，也即动作空间为所有单独的操作拼接而成，即认为同一时刻之后进行一种操作，比如调节油气集输联合站库中的设备的某个阀门或者某个水泵，例如单个阀门的连续空间就是{最小至最大}中多个不同的动作构成的空间，之后，将油气集输联合站库中所有设备的连续动作空间拼接形成动作空间，(该动作空间中的所有操作动作均以向量的形式存在)。该状态空间与该动作空间具有关联关系，也就是说，状态空间中的每个状态向量均可以在动作空间找到一个与之对应的操作动作。

需要说明的是，在通过预设动作模型确定目标动作概率分布之后，可以将该目标动作概率分布向用户展示，以使得用户根据所述目标概率分布中概率最高的目标动作对油气集输联合站库中的设备进行操作，或者，信息处理设备直接基于该目标动作概率分布中概率最高的目标动作对油气集输联合站库中的设备进行操作，例如调节液面的高度等。

下面结合图2对预设动作模型的训练进行说明。

请参阅图2，图2为本发明实施例提供的预设动作模型的训练流程示意图，包括：

201、确定状态空间以及动作空间。

本实施例中，可以确定状态空间以及动作空间，该状态空间包括所述油气集输联合站库中的设备的静态参数，比如油气集输联合站库中水罐的液面高度是从0m到10m，则可以得到(0m-10m)这样一个水罐液面高度的多个不同的状态的连续空间作为液面高度的空间，同理还有油气集输联合站库中的所有设备的压力、流量等动态参数和比热容、长度、密度等静态参数采用如上述的方式形成的空间，之后将油气集输联合站库中所有设备的空间做乘积空间，构成了状态空间(该状态空间中的所有设备的状态以向量的形式存在)，该动作空间包括油气集输联合站库中的设备的操作动作，也即动作空间为所有单独的操作拼接而成，即认为同一时刻之后进行一种操作，比如调节油气集输联合站库中的设备的某个阀门或者某个水泵，例如单个阀门的连续空间就是{最小至最大}中多个不同的动作构成，之后，将这些空间拼接形成动作空间，(该动作空间中的所有操作动作以向量的形式存在)。该状态空间与该动作空间具有关联关系，也就是说，状态空间中的每个状态向量均可以在动作空间找到一个与之对应的操作动作。

需要说明的是，状态空间由油气集输联合站库中的所有的设备的所有流量、压力、液位高度等状态信息构成的向量和阀门开度、水泵压力、流量等动作信息构成的向量拼接而成的向量表示；动作空间是由油气集输联合站库中所有可以操作的阀门开度、水泵压力等拼接而成的向量表示，其中操作分为两种，一种是只有有限种选项的操作，比如阀门只能开或者关，在这种情况下使用一个二维向量表示，其中至多一个位置为1，其余为0；另一种是连续可控制操作，这种情况下可以用连续数值进行表示。

可以理解的是，上述数值仅为举例说明，并不代表对其的限定。

202、确定油气集输联合站库对应的初始动作模型。

本实施例中，信息处理装置可以确定一个初始动作模型，该初始动作模型包括第一模块以及第二模块，该第一模块以及第二模块均有人工神经网络构成，此处以第一模块为Actor模块，第二模块为Critic模块为例进行说明，其中，该Actor模块由隐藏层为5层的MLP(Multi-Layer Perceptron，多层感知器)组成，输入是状态空间中模拟系统的运行状态的向量，即油气集输联合站库中的每一个设备的所有静态参数以及每一个可控制的操作信息，输出是长度为所有的可控制信息的向量，即每一个位置表达对系统的一种操作方式，Critic模块由隐藏层为3层的MLP组成，输入与Actor模块完全相同，输出是一个数值，表示输入的状态对应的价值。

203、构建油气集输联合站库对应的预设内部好奇心模型。

本实施例中，该预设内部好奇心模型包括第一神经网络、第二神经网络以及第三神经网络，此处以第一神经网络为Feature Model，第二神经网络为Forward Model，第三神经网络为Inverse Model为例进行说明，当然也还可以是其他神经网络，只要能实现预设内部好奇心模型的构建即可。

需要说明的是，通过步骤201可以确定状态空间以及动作空间，通过步骤202可以确定油气集输联合站库对应的初始动作模型，通过步骤203可以构建预设内部好奇心模型，然而这三个步骤之间并没有先后执行顺序的限制，可以先执行步骤201，也可以先执行步骤202，也可以先执行步骤203，或者同时执行，具体不做限定。

204、基于预设内部好奇心模型，根据初始动作模型以及模拟系统对状态空间以及动作空间进行训练，以确定预设动作模型。

本实施例中，在得到油气集输联合站库的状态空间以及动作空间之后，信息处理装置可以基于内部好奇心模型，联合初始动作模型以及模拟系统对油气集输联合站库的状态空间以及动作空间进行训练，以确定预设动作模型，该模拟系统为预设设置的用于对油气集输联合站库中设备的状态以及动作进行模拟的系统，下面进行具体说明：

步骤1、将第二运行状态输入第一模块，以输出第一动作。

本实施例中，信息处理装置可以随机从状态空间中挑选一个第二运行状态，并将该第二运行状态输入第一模块，输出第一动作，其中，该第一动作为动作空间中的动作。

步骤2、根据第一动作以及模拟系统确定第三运行状态。

本实施例中，信息处理状态在得到第一动作之后，可以将第一动作输入模拟系统，以输出第一动作对应的第三运行状态，也即通过第一动作对模拟系统中设备进行操作，并记录设备通过第一动作操作后的状态，即为第三运行状态。

步骤3、基于预设内部好奇心模型，确定第一动作的预测动作、第三运行状态的特征编码以及第三运行状态的预测特征编码。

本实施例中，该预设内部好奇心模型包括第一神经网络、第二神经网络以及第三神经网络，此处以第一神经网络为Feature Model，第二神经网络为Forward Model，第三神经网络为Inverse Model为例进行说明，具体的，信息处理装置将第二运行状态以及第三运行状态输入第一神经网络，以输出第二运行状态的特征编码以及第三运行状态的特征编码；将第二运行状态的特征编码以及第一动作输入第二神经网络，以输出第三运行状态的预测特征编码；将第二运行状态的特征编码以及第三运行状态的特征编码输入第三神经网络，以输出第一动作的预测动作。

也就是说，信息处理装置可以将第二运行状态s_t以及第三运行状态s_t+1分别输入同一个第一神经网络Feature Model，分别输出代表第二运行状态的特征编码φ(s_t)以及第三运行状态的特征编码φ(s_t+1)；

将第二运行状态s_t和第一动作a_t同时输入第二神经网络ForwardModel，得到输出第三运行状态的预测特征编码

将第二运行状态的特征编码φ(s_t)以及第三运行状态的特征编码φ(s_t+1)同时输入第三神经网络Inverse Model，得到输出第一动作的预测动作

步骤4、基于第三运行状态的奖励值以及第一距离确定第三运行状态的综合奖励值。

本实施例中，可以首先计算第三运行状态的特征编码φ(s_t+1)与第三运行状态的预测特征编码的第一距离/>之后根据第三运行状态的奖励值与第一距离进行相加得到第三运行状态的综合奖励值，具体公式计算如下：

其中，为第一距离，/>为第三运行状态的奖励值，rt为第三运行状态的综合奖励值。

需要说明的是，该第三运行状态的奖励值指示模拟系统处于第三运行状态下是否是正常运行的，具体的，可以提前定义模拟系统的奖励函数R，即当模拟系统正常运行时该奖励函数R的奖励值为0.01，当模拟系统出现预警时，该奖励函数R的奖励值为-1，此处可以根据第三运行状态确定该模拟系统的是否正常运行，当模拟系统正常运行时，该第三运行状态的奖励值为0.01，当模拟系统出现异常预警时，该第三运行状态的奖励值-1，上述奖励函数R的奖励值仅为举例说明，并不代表对其的限定。

步骤5、确定第一动作与第一动作的预测动作之间的第二距离。

本实施例中，可以计算第一动作与第一动作的预测动作之间的第二距离，也即第一动作a_t与第一动作的预测动作之间的第二距离L_I。

步骤6、基于策略梯度下降，通过第二运行状态、第一距离、第二距离以及第三运行状态的综合奖励值更新第一模块的第一参数的参数值。

本实施例中，信息处理装置可以通过计算如下公式，对第一模块的第一参数的参数值进行更新：

其中，π为第一模块的函数，θ_P为第一模块的第一参数的参数值，θ_I为第三神经网络的参数的参数值，θ_F为第二神经网络的参数的参数值，s_t为第二运行状态，r_t为第三运行状态的综合奖励值，β为大于0小于1的常数，λ为大于0的正数，L_F为第一距离(也即第三运行状态的预测特征编码与第三运行状态的特征编码之间的距离)，L_I为第二距离(也即第一动作与第一动作的预测动作之间的距离)。

需要说明的是，上述所说的第一距离以及第二距离可以是欧式距离，也可以是其他的空间距离，具体不做限定。

步骤7、确定时序差分误差。

本实施例中，可以确定当前一次迭代中的时序差分误差，具体可以通过第二模块确定第三运行状态的奖励值，并通过第二模块计算第二运行状态的价值，以及每个第三运行状态的价值，之后第三运行状态的奖励值与第三运行状态的价值相加，之后减去第二运行状态的价值，得到时序差分误差。

步骤8、根据时序差分误差更新第二模块的第二参数的参数值。

本实施例中，可以通过最小二次时序差分误差的方式更新第二模块的第二参数的参数值。

需要说明的是，该第一参数为第一模块中状态决定动作的参数，该第二参数为第二模块中动作决定价值的参数。

步骤9、重复执行步骤1至步骤8，直至满足预设迭代中止条件。

本实施例中，可以在每次迭代之后，判断迭代次数是否达到预置数值，若是，则确定满足预置的迭代终止条件；或，判断第一模块的第一参数的参数值或第二模块的第二参数的参数值是否收敛，若是，则确定满足预置的迭代终止条件。

步骤10、将迭代中止时的第一模块以及迭代中止时的第二模块确定为预设动作模型。

需要说明的是，在实际操作的过程中，基于目标动作对油气集输联合站库中的设备进行操作之后，还可以对预设动作模型的参数进行更新，具体如下：

基于目标动作概率分布中概率最大的目标动作确定模拟系统的第四运行状态；

基于预设内部好奇心模型，确定目标动作的预测动作、第四运行状态的特征编码以及第四运行状态的预测特征编码；

基于第四运行状态的奖励值以及第三距离确定第四运行状态的综合奖励值，第三距离为第四运行状态的特征编码与第四运行状态的预测特征编码之间的距离，第四运行状态的奖励值指示模拟系统处于第四运行状态时是否正常运行；

确定目标动作与目标动作的预测动作之间的第四距离；

根据第一运行状态、第四运行状态的综合奖励值、第三距离以及第四距离更新第一模型的第一参数的参数值；

确定第二时序差分误差；

根据第二时序差分误差更新所述第二模块的第二参数的参数值。

其中，具体的更新预设动作模型中第一模块的第一参数的参数值以及第二模块的第二参数的参数值可以参数上述步骤3至步骤8，上述已经进行了具体说明，此处不再赘述。

综上所述，可以看出，本发明提供的实施例中，在对预设动作模型的训练过程中，由于在对预设动作模型的训练过程中加入了好奇心模型，通过该好奇心模型的好奇心奖励机制提供内生的奖励信号，在预设动作模型很少会出现报警信息以及负奖励的出现稀疏的情况下，提高预设动作模型的强化学习的学习效果，可以更有效的更快速的学习到油气集输联合站库的最优操作策略。

上面对本发明实施例提供的信息处理方法进行说明，下面结合图3对本发明实施例提供的信息处理装置进行说明。

请参阅图3，图3为本发明实施例提供的信息处理装置的实施例示意图，该信息处理装置包括：

获取单元301，用于获取油气集输联合站库中设备的第一运行状态；

处理单元302，用于将所述第一运行状态进行向量化处理；

确定单元303，用于将向量化处理后的所述第一运行状态输入预设动作模型以确定目标动作概率分布，所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作，所述预设动作模型为基于预设内部好奇心模型，通过对状态空间和动作空间进行训练后得到，所述状态空间包括所述油气集输联合站库中的设备的静态参数，所述动作空间包括所述油气集输联合站库中的设备的操作动作，且所述操作动作与所述静态参数具有关联关系。

可选地，所述装置还包括训练单元304，所述训练单元304用于：

确定所述状态空间以及所述动作空间；

可选地，所述训练单元304基于所述预设内部好奇心模型，根据所述初始动作模型以及所述模拟系统对所述状态空间以及所述动作空间进行训练，以确定所述预设动作模型包括：

步骤7、确定时序差分误差；

重复执行步骤1至步骤8，直至满足预置迭代终止条件；

可选地，所述预设内部好奇心模型包括第一神经网络、第二神经网络以及第三神经网络，所述训练单元304基于所述预设内部好奇心模型，确定所述第一动作的预测动作、所述第三运行状态的特征编码以及所述第三运行状态的预测特征编码包括：

可选地，所述训练单元304基于策略梯度下降，通过所述第二运行状态、所述第一距离、所述第二距离以及所述第三运行状态的综合奖励值更新所述第一模块的第一参数的参数值包括：

可选地，所述确定单元303还用于：

确定第二时序差分误差；

本实施例中的信息处理装置的各单元之间的交互方式如前述图1以及图2所示实施例中的描述，具体此处不再赘述。

请参阅图4，图4是本发明实施例提供的一种服务器的结构示意图，该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，和/或，一个或一个以上操作系统441，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由信息处理装置所执行的步骤可以基于该图4所示的服务器结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述信息处理方法。

本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述信息处理方法。

本发明实施例还提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取油气集输联合站库中设备的第一运行状态；

将所述第一运行状态进行向量化处理；

在具体实施过程中，处理器执行程序时可以实现图1以及图2对应的实施例中任一实施方式。

本文中的设备可以是服务器、PC、PAD、手机等。

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取油气集输联合站库中设备的第一运行状态；

将所述第一运行状态进行向量化处理；

在具体实施过程中，执行计算机程序产品时可以实现图1以及图2对应的实施例中任一实施方式。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种信息处理方法，其特征在于，包括：

确定状态空间以及动作空间；

确定油气集输联合站库对应的初始动作模型，所述初始动作模型包括第一模块以及第二模块，所述第一模块以及所述第二模块均由人工神经网络构成；

构建所述油气集输联合站库对应的预设内部好奇心模型；

步骤2、根据所述第一动作确定模拟系统的第三运行状态；

步骤6、基于策略梯度下降，通过所述第二运行状态、所述第一距离、所述第二距离、所述第三运行状态的综合奖励值更新所述第一模块的第一参数的参数值；

步骤7、确定时序差分误差；

步骤8、根据所述时序差分误差更新所述第二模块的第二参数的参数值；

重复执行步骤1至步骤8，直至满足预置迭代终止条件；

将迭代终止时的所述第一模块以及迭代终止时的所述第二模块确定为预设动作模型；

获取所述油气集输联合站库中设备的第一运行状态；

将所述第一运行状态进行向量化处理；

将向量化处理后的所述第一运行状态输入所述预设动作模型以确定目标动作概率分布，所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作，所述预设动作模型为基于所述预设内部好奇心模型，通过对所述状态空间和所述动作空间进行训练后得到，所述状态空间包括所述油气集输联合站库中的设备的静态参数，所述动作空间包括所述油气集输联合站库中的设备的操作动作，且所述操作动作与所述静态参数具有关联关系。

2.根据权利要求1所述的方法，其特征在于，所述预设内部好奇心模型包括第一神经网络、第二神经网络以及第三神经网络，所述基于所述预设内部好奇心模型，确定所述第一动作的预测动作、所述第三运行状态的特征编码以及所述第三运行状态的预测特征编码包括：

3.根据权利要求2所述的方法，其特征在于，所述基于策略梯度下降，通过所述第二运行状态、所述第一距离、所述第二距离以及所述第三运行状态的综合奖励值更新所述第一模块的第一参数的参数值包括：

其中，π为所述第一模块的函数，θ_P为所述第一模块的第一参数的参数值，θ_I为第三神经网络的参数的参数值，θ_F为第二神经网络的参数的参数值，st为所述第二运行状态，rt为所述第三运行状态的综合奖励值，β为大于0小于1的常数，λ为大于0的正数，LF为所述第一距离，LI为所述第二距离。

4.一种信息处理装置，其特征在于，包括：

训练单元，用于：

确定状态空间以及动作空间；

构建所述油气集输联合站库对应的预设内部好奇心模型；

步骤2、根据所述第一动作确定模拟系统的第三运行状态；

步骤7、确定时序差分误差；

重复执行步骤1至步骤8，直至满足预置迭代终止条件；

获取单元，用于获取所述油气集输联合站库中设备的第一运行状态；

处理单元，用于将所述第一运行状态进行向量化处理；

确定单元，用于将向量化处理后的所述第一运行状态输入所述预设动作模型以确定目标动作概率分布，所述目标动作概率分布中的动作用于对所述油气集输联合站库中的设备进行操作，所述预设动作模型为基于所述预设内部好奇心模型，通过对所述状态空间和所述动作空间进行训练后得到，所述状态空间包括所述油气集输联合站库中的设备的静态参数，所述动作空间包括所述油气集输联合站库中的设备的操作动作，且所述操作动作与所述静态参数具有关联关系。

5.一种处理器，其特征在于，所述处理器用于运行计算机程序，所述计算机程序运行时执行如权利要求1至3中任意一项所述方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至3中任意一项所述方法的步骤。