CN112882381B

CN112882381B - 一种潜油电泵的自寻优决策控制系统

Info

Publication number: CN112882381B
Application number: CN202110028281.1A
Authority: CN
Inventors: 檀朝东; 赵小雨; 邓涵文; 冯钢; 宋健; 牛会钊; 宋文容
Original assignee: Beijing Yadan Petroleum Technology Co ltd; China University of Petroleum Beijing
Current assignee: Beijing Yadan Petroleum Technology Co ltd; China University of Petroleum Beijing
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2022-02-01
Anticipated expiration: 2041-01-08
Also published as: CN112882381A

Abstract

本发明涉及一种潜油电泵的自寻优决策控制系统，至少包括采集模块和控制模块，所述控制模块基于所述采集模块采集的环境信息通过强化学习算法生成潜油电泵执行的优化决策以实现自寻优，所述控制模块配置为在基于状态空间对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分的基础上以融合在线学习和离线学习的方式构建强化学习算法中的损失函数。通过该设置方式，本发明基于启停次数、开井时间和关井时间等将控制模块对于执行模块的优化控制分为不同阶段，根据不同的阶段基于融合在线学习和离线学习的方式构建学习更新中的损失函数。

Description

一种潜油电泵的自寻优决策控制系统

技术领域

本发明涉及石油开采技术领域，具体涉及一种潜油电泵的自寻优决策控制系统。

背景技术

潜油电泵是井下工作的多级离心泵，同油管一起下入井内。地面电源通过变压器、动力电缆等奖电能输送给井下潜油电动机，使得潜油电动机带动多级离心泵旋转，将电能转换成机械能，把油井中的井液举升到地面。潜油电泵相对游梁式抽油机采油方式来说，其投资成本低、能量消耗低、对介质适应性较好，并且与以往的采油方式相比较，不仅经济成本低，而且故障率也较低。但是随着油田开发的不断深入，油田不断的开采和注水，地下情况处于不断地运动和变化中，并且潜油电泵具有大排量的特点，更是加剧了地下环境的变化。潜油电泵在设计或优化设计时，均力图使潜油电泵在其额定排量或高泵效区工作，但潜油电泵在工作过程中，由于地层、产能等变化，可能使得潜油电泵偏离高泵效区工作，因此需要根据环境变化、产能变化等诊断结果，对井下潜油电泵机组进行合理的参数调节以保证潜油电泵的高效运行。

例如，公开号为CN111766831A的中国专利公开了一种潜油电泵智能控制系统及其控制方法。潜油电泵智能控制系统包括位于地面部分和位于井下的检测部分；井下部分包括与潜油电泵电性连接的传感器；地面部分包括控制柜和井口接线箱，所述井口接线箱与潜油电泵电性连接，所述井口接线箱电性连接有升压变压器和电抗器；所述控制柜内分为上中下三层，所述控制柜的中层设有PLC控制器和PLC控制器电性连接的传感器解码器。该专利文献针对现有技术不能对潜油电泵进行实时控制的问题，通过物联网关和三合一天线的设置来远程实时调节潜油电泵的运行，并通过调用启动智能控制程序或者生产智能控制程序对潜油电泵进行自动调控，即地面的控制柜可以根据传感器和变频器的数据自动判断潜油电泵的状态是否正常，判断后实时调用相关程序，从而实现潜油电泵的智能自动控制和无人值守，降低人工成本和维护成本。但是该专利文献提供的潜油电泵智能控制系统没有考虑到注采环境问题的多变和复杂，建立好的控制模型或者控制程序需要随时面临变化，经常需要进行更新以适应新的环境，不符合潜油电泵针对复杂多变环境智能控制的根本需求。

此外，一方面由于对本领域技术人员的理解存在差异；另一方面由于发明人做出本发明时研究了大量文献和专利，但篇幅所限并未详细罗列所有的细节与内容，然而这绝非本发明不具备这些现有技术的特征，相反本发明已经具备现有技术的所有特征，而且申请人保留在背景技术中增加相关现有技术之权利。

发明内容

现阶段油藏开发层间矛盾突出，油水分布复杂，应用静态资料分析判断高含水产层的准确性较低且无法快速适应生产状态的动态变化，为此除了应提高分层采油技术的实时监测水平，实现井下分层流量、压力、含水率等参数的长期监测以提高油藏认识水平外，更重要的是当油藏动态变化需调整生产方案时，分层采油技术应具备实时调整能力。现有技术可以通过先验知识和采集的数据构建特定的控制模型来对潜油电泵的相关参数进行调优和进行智能决策，例如可以通过机器学习预测潜油电泵的运行寿命和优化运行参数。但是典型的机器学习算法需要数百万个数据才能成功发现和预测潜油电泵的排采优化决策。因此如果环境发生变化，无法迅速做出调整，使得储层收到不同程度的伤害，并且解吸过程也会受到阻碍，排采效果降低。而且由于环境问题的多变和复杂，建立好的控制模型随时面临变化，这就需要控制模型进行更改以适应新的环境，而控制模型的更改又需要一定时间成本，无法满足智能控制的实施调控的根本需求。

针对上述不足，本发明提供一种潜油电泵的自寻优决策控制系统，至少包括采集模块和控制模块。所述控制模块基于所述采集模块采集的环境信息通过强化学习算法生成潜油电泵执行的优化决策以实现自寻优。所述控制模块配置为在基于状态空间对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分的基础上以融合在线学习和离线学习的方式构建强化学习算法中的损失函数。本发明基于强化学习通过与环境的交互式学习，对动态环境进行灵活的奖惩，实现智能体在复杂环境下的智能决策和参数优化。为了提高学习训练速度的同时避免相关设备损坏次数增多，本发明基于状态空间和/或价值表等确定间抽制度，然后根据间抽制度中的启停次数、开井时间和关井时间等将控制模块对于执行模块的优化控制分为不同阶段，根据不同的阶段基于融合在线学习和离线学习的方式构建学习更新中的损失函数。具体而言，当前状态的决策是以当前状态下的比较保守的第二现实价值为主，并且考虑到了当前状态和上一状态的差异程度，从而使得两个状态下执行模块执行的决策对应的执行动作能够平稳，并增加了一定的决策的改变程度。此外，考虑到了当前优化策略相比价值表中对应的过去的相同状态下的激进程度能够进一步增加决策改变的程度，从而减少控制模块的学习训练时间。本发明在潜油电泵排采参数优化控制问题上具有真实时调整能力，能够实时调整参数设置、自适应环境变化和无需大数据进行训练的优势。

本发明还提供一种潜油电泵的自寻优决策控制系统，至少包括采集模块、控制模块和执行模块。控制模块配置为基于采集模块提供的当前时刻环境状态和先前时刻环境状态下执行模块执行动作后的奖励进行训练学习以逼近油井产量最大及检泵周期最长为优化目标的方式做出优化决策。所述控制模块配置为在基于状态空间对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分的基础上以融合在线学习和离线学习的方式构建训练学习更新中的损失函数。

本发明还提供一种潜油电泵的自寻优决策控制系统，至少包括采集模块和控制模块。所述控制模块配置为在基于状态空间对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分的基础上以融合在线学习和离线学习的方式构建强化学习算法/深度强化学习算法中的损失函数。所述控制模块配置为将确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间构建为日累计总产量不下降条件下的耗能最小化的混合整数非线性规划模型，进而在避免局部最优问题的情况下得到最优且动态变化的启停次数、第一时间和第二时间。

根据一种优选实施方式，所述控制模块配置为按照如下步骤实现在线学习和离线学习的融合：

基于状态空间对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分，进而确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间；

在同一个第一时间/第二时间内，当前状态下的现实价值为在当前状态对应的第二现实价值基础上线性叠加上一状态下现实价值与当前状态下第二现实价值之差以及当前状态下第一现实价值与第二现实价值之差。优选地，上一状态下现实价值与当前状态下第二现实价值与第一权值相乘。优选地，当前状态下第一现实价值与第二现实价值之差与第二权值相乘。优选地，基于最大评估新环境状态下的价值函数的方式确定第一现实价值。优选地，基于价值表中的新环境状态下价值函数的价值确定第二现实价值。

根据一种优选实施方式，在由相邻的第一时间进入第二时间或者由相邻的第二时间进入第一时间的情况下，所述控制模块配置为在当前状态的第二现实价值的基础上线性叠加第三权值下的当前状态对应的第一现实价值与第二现实价值的差值。

根据一种优选实施方式，所述控制模块配置为按照如下步骤确定的状态转移概率生成优化决策中执行模块的所执行的动作：

在所述控制模块最初的学习回合中基于波尔兹曼分布策略通过采集模块探索环境；

在所述控制模块学习回合结束之后基于ε-greedy贪婪策略确定所述执行模块所执行的动作。

根据一种优选实施方式，所述控制模块配置为按照如下方式来进行优化决策：

构建关于环境状态和执行模块执行动作的价值函数，并记录不同环境状态和动作以构建价值表；

在价值函数收敛且所述控制模块的优化决策未使得环境状态达到优化目标的情况下，或者在价值函数收敛且系统未损坏的情况下，所述控制模块配置为基于ε-greedy贪婪策略获取对应环境状态下的第一动作；

所述执行模块基于所述控制模块传递的第一动作信息控制潜油电机和井口油嘴。

根据一种优选实施方式，所述控制模块配置为：

基于所述采集模块获取所述执行模块执行第一动作后的新环境状态以及对应的奖励；

基于新的环境状态以及对应的奖励进行学习更新。优选地，所述控制模块配置为基于先前环境状态下的先前价值与损失函数的线性叠加进行学习更新。所述控制模块配置为基于学习速率以及现实价值与先前环境状态下的先前价值之差构建损失函数。现实价值包括在线学习的第一现实价值和离线学习的第二现实价值。在更新后，所述控制模块配置为将环境状态更新为新环境状态从而作为下一轮控制的初始状态。

根据一种优选实施方式，在价值函数未收敛的情况下，所述控制模块配置为随机选取执行模块中执行动作的阈值内的参数，并将该参数对应下的状态作为初始状态。

根据一种优选实施方式，所述控制模块配置为构建关于启停次数、第一时间和第二时间的混合整数非线性规划模型。混合整数非线性规划模型的优化目标为耗能最小化。混合整数非线性规划模型的约束条件至少包括日累计总产量不下降、满足最低流动性能和管柱完整性大于最低阈值。混合整数非线性规划模型的决策变量包括井口油嘴的阀开度和潜油电机的频率。

附图说明

图1是本发明系统的一个优选实施方式的简化模块示意图。

附图标记列表

100：采集模块 200：控制模块 300：执行模块

400：潜油电泵 401：潜油电机 402：井口油嘴

具体实施方式

下面结合附图1进行详细说明。

潜油电泵400由三部分组成：井下部分、地面部分和联系井下、地面的中间部分。井下部分是潜油电泵400的主要机组，由多级离心泵、保护器和潜油电机401三个部分组成，主要起抽油的作用。其布置方法一般是多级离心泵在上面，保护器在中间，潜油电机401在下面，三者的轴用花键联结，三者的外壳用法兰联结。优选地，潜油电机401下部还可以装有井底压力探测器，测定井底压力和液面升降情况，并将信号传送给地面控制模块100。地面部分是由控制屏、变压器及辅助设备。辅助设备可以是电缆滚筒、导向轮、井口支座和挂垫等组成。控制屏可用手动或自动开关来控制潜油电泵400工作，同时保护潜油电机401，防止电机电缆系统短路和电机过载。变压器用于将电网电压(380V)提高到保证潜油电机401工作所需要的计算电压。辅助设备包括潜油电泵400运输、安装及操作用的辅助工具和设备。

优选地，采集模块100可以包括压力传感器、温度传感器、电压传感器、电流传感器。采集模块100还包括测量含水量的测量仪。

优选地，控制模块200可以是计算机设备，例如移动计算设备、台式计算设备、服务器等。控制模块200可以包括处理器和存储装置。存储装置用于存储处理器发出的指令。处理器被配置为执行存储装置存储的指令。优选地，可以在控制模块200外单独设置存储装置。处理器可以是中央处理器(Central Processing Unit，CPU)，通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application-SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

优选地，控制模块200可以承载有操作系统，例如Linux系统、Android系统、IOS操作系统等。

优选地，控制模块200可以通过有线或者无线的方式与采集模块100和执行模块300连接。执行模块300分别与潜油电机401和井口油嘴402连接。

优选地，控制模块200可以通过有线或者无线的方式使用到一个或多个远程计算机的逻辑连接在网络环境中操作。远程计算机可以是相对控制模块200的另一个计算机、平板电脑、PDA、服务器、路由器、网络PC、对等设备或其他常见网络节点，并且通常包括以上相对于计算机描述的元件中的部分和/或全部元件。逻辑连接包括通过实例而非限制方式呈现的局域网、广域网、专用网络等。本发明的控制模块200可以由油藏开发的人员、部门、企业等实体进行远程查询、修改、调用运行等操作。

优选地，存储装置可以是磁盘、硬盘、光盘、移动硬盘、固态硬盘、闪存等。

实施例1

本实施例提供一种潜油电泵的自寻优决策控制系统，包括采集模块100、控制模块200、执行模块300。优选地，注采井筒内设置有用于与环境交互的采集模块100。采集模块100设置于井下。采集模块100能够采集环境状态。环境是包括储层在内的整个排采系统。环境状态包括储层信息和排采系统信息。例如，井下流量、温度、压力、含水量、潜油电泵400排采的液面高度、液量、电参数和井口油嘴402的直径大小。电参数包括潜油电机401参数，例如电机的频率、电压、电量消耗等。优选地，井口油嘴402直径的大小即是阀开度。优选地，采集模块100可以与潜油电泵400连接以获取潜油电泵400排采过程中的排采系统信息。

优选地，控制模块200通过采集模块100感知环境状态，从而与环境进行交互。控制模块200通过采集模块100反馈的环境状态自动寻优以做出决策。决策可以是增大频率、保持频率、减小频率、增大阀开度、保持阀开度、减小阀开度等。优选地，这些决策可以由控制模块200控制执行模块300进行执行。执行模块300基于控制模块200传输的决策信息控制潜油电机401和井口油嘴402。优选地，控制模块200可以采用比例积分微分控制(Proportional Integral Derivative control，PID)的方式对执行模块300进行控制。优选地，执行模块300可以包括变频器和井口油嘴402的调节机构。例如控制模块200可以通过变频器来控制潜油电机401频率。控制模块200可以通过调节机构调节井口油嘴402的阀开度。优选地，井口油嘴402可以是可调油嘴。可调油嘴包括阀体、阀口和阀杆。可调油嘴的阀开度可以通过阀杆的轴向位移来实现调节。阀杆的轴向位移可以通过螺旋机构来实现。

优选地，控制模块200配置为通过强化学习算法生成潜油电泵400排采控制的优化决策以实现自寻优。强化学习的基本过程是一个马尔科夫决策过程。马尔科夫决策过程可以用状态s、动作a、状态转移概率p、状态转移奖励或回报r构成四元组表示{s，a，p，r}。对于离散时间马尔科夫决策过程，状态和动作的集合称为状态空间S和动作空间A。具体表示为状态s_i∈S，a_i∈A。根据第t步选择的行动，状态根据概率P(s_t+1,s_t,a_t)从s_t转移到s_t+1。在状态转移的同时，决策主体得到1个即时奖励R(s_t+1,s_t,a_t)。以上表达式中的s_t表示为t时刻的状态。a_t表示为t时刻的动作。以上过程结束时累积的奖励为：

G_t＝R_t+γR_t+1+γ²R_t+2+…+γ^kR_t+k＝∑_k＝0γ^kR_t+k (1)

式(1)中的R_t为时间t内累积的奖励。γ为折扣因子，取值范围在0～1之间。折扣因子用于削减远期决策对应的奖励权重。决策的最终目标是在抵达目标状态的同时实现累积奖励的最大化。

优选地，控制模块200配置为基于采集模块100提供的当前时刻环境状态和先前时刻环境状态下执行模块300执行动作后的奖励进行训练学习以逼近油井产量最大及检泵周期最长为优化目标的方式做出优化决策。控制模块200基于采集模块100提供的环境状态构建状态空间S。优选地，控制模块200基于其做出的优化决策构建执行模块300的动作空间A。由于以油井产量最大及检泵周期最长为优化目标，因此可以选择与产量和检泵周期直接相关的属性作为状态空间S。优选地，产量直接相关的属性可以是油井的产油量。优选地，潜油电泵的检泵周期与井下的工作环境和潜油电泵400机组、电缆等有关。例如，供液不足可能造成潜油电机401周围的液量少和流速低，产生的热量不能尽快地被带走，造成潜油电机401温度过高，而电机在高温下长期运转导致电磁线绝缘性能下降。而且，供液不足还导致潜油电泵400不能工作在最佳排量区，当潜油电泵400的流量低于最低界限，下推力磨损增加，会加快潜油电泵400的损坏。此外，长期的供液不足会造成潜油电泵400井间频繁停机，使得潜油电机401内部温度频繁交替上升和下降，从而造成保护器呼吸的次数增加，并且每启动潜油电泵400一次，井下的潜油电机401会受到电机正常运转时额定电流3～8倍的冲击，对潜油电机401和电缆绝缘造成很大伤害。再次，这种冲击对潜油电泵400的机械冲击损害较大，容易造成机组的轴被拧断或花键套脱销和断脱。需要说明的是，除了供液量、启停机以及功率较大且频繁启动的电器设备的冲击有关，检泵周期还与油井出砂、结垢和施工质量有关。本实施例以产油量和供液量作为状态空间S的状态量。由于油田设置有多个井，因此状态空间S的数学表示为2×n维矩阵。该矩阵包括产油量的n维列向量和供液量的n维列向量。优选地，产油量的n维列向量为o₁,o₂,…,o_n。供液量的n维列向量为q₁,q₂,…,q_n。优选地，状态空间S还可以是储层信息和排采系统信息相关的环境状态变量。例如，井下流量、温度、压力、含水量、潜油电泵400排采的液面高度、液量、电参数等。优选地，可以从上述环境状态变量中选择多个组合成多个优化目标，或者选择多个组合来表征所要优化的目标。

优选地，由于潜油电泵400排采过程的主要控制量包括压力和液面高度，而压力和液面高度与潜油电泵400的潜油电机401的频率和井口油嘴402的阀开度有关。因此，控制模块200控制执行模块300的变量为执行模块300中变频器的频率和调节机构的轴向位移量。由于执行模块300的调节机构是通过轴向位移量来表征井口油嘴402的阀开度，因此可以基于执行模块300的动作空间A包括频率v_i和阀开度d_i。同样由于有多个井，设井的数量为n，那么频率v_i为n维列向量。阀开度d_i为n维列向量。优选地，针对每个单井的频率v_i和阀开度d_i设定动作特征量。动作特征量指的是执行模块300的增大频率、保持频率、减小频率、增大阀开度、保持阀开度、减小阀开度等。需要说明的是，动作空间A的设置需要满足完备性和合法性。优选地，完备性是动作空间A要提供实现预期目标的可能性，即本实施例的动作空间A能够通过增大频率、保持频率、减小频率、增大阀开度、保持阀开度、减小阀开度来完成潜油电泵优化产量和检泵周期的目标。此外动作空间A应该尽可能见到高效，为了降低训练难度提升算法性能，尽可能选择离散动作空间，即互斥、可穷举，能够辨识成one-hot形式。优选地，动作空间还要满足合法性。在实际应用并不是所有执行的动作在任何状态下都有效，例如在潜油电泵400停机的过程中执行增加潜油电机401的频率的动作就是无效动作。基于以上原因，控制模块200传输至执行模块300的决策是一种整数的低纬输出，从而使得控制模块200能够简单高效地对执行模块300进行控制，进而实现潜油电泵的高效调节。优选地，频率v_i的动作特征量为：

v_i的取值为1，0，-1。当控制模块200给执行模块300反馈时，即1，0，-1时，执行模块300在原来的频率上增加、不变、减少Δv。

优选地，阀开度d_i的动作特征量为：

d_i的取值为1，0，-1。当控制模块200给执行模块300反馈时，即1，0，-1时，执行模块300在原来的阀开度上增加、不变、减少Δd。

需要说明的是Δv和Δd的大小设置应根据实际情况确定。Δv或Δd如果过小会导致收敛速度缓慢，如果过大会导致系统运行不稳定，甚至无法收敛。

优选地，控制模块200基于先前执行模块300执行动作后采集模块100反馈的环境状态来构建关于奖励的函数。奖励函数的最大值应该与优化的目标等价。优选地，奖励函数为关于执行模块300执行的动作a和采集模块100采集的环境状态s的函数。奖励函数R(a,s)如下所示：

优选地，控制模块200配置为按照如下步骤确定的状态转移概率生成优化决策中执行模块300的所执行的动作：

在控制模块200最初的学习回合中基于波尔兹曼分布策略通过采集模块100探索环境；

在控制模块200学习回合结束之后基于ε-greedy贪婪策略确定执行模块300所执行的动作。

波尔兹曼分布策略如下所示：

p(a_t|s_t)是状态转移概率。具体的，p(a_t|s_t)表示的是控制模块200在状态s_t采用动作a_t的概率。

是动作状态的价值函数。

是状态s_t下可做动作

的一个子集。

属于动作空间A下的一个子集。

根据先前状态s_t-1对应选择的动作a_t-1确定。波尔兹曼分布策略是价值函数大动作被选中的概率大。价值函数小的动作被选中的概率小。在实际应用中，将任何一系列输入动作应用于系统是不实际的，因此输入值的推导应受到限制。因此，状态s_t中选择的动作，应位于动作a_t-1的附近，由集合

表示，而不是来自

的任何动作。这里，利用温度系数τ(τ>0)控制探索/利用特征。高温导致更多的探索，动作选择更加随机。低温导致更多的利用，动作选择更加贪婪。也就是说低的温度系数会使智能体选择价值最高或相应奖励最高的动作。此外，在每个回合的学习过程中，温度系数都会按照式(6)更新规则进行更新。

式(6)中ζ为学习率。ζ取值范围在0～1之间。ζ决定了控制模块200从环境探索到获取经验知识进行利用的速率。

在学习结束时，策略是完全贪婪的。在每个状态下，控制模块200会选择价值函数值最大的动作。学习率ζ的取值应该使得控制模块200有足够的探索/利用时间。

优选地，ε-greedy贪婪策略如式(7)所示。

式(7)中，ε为贪婪因子。ε取值范围在0～1之间。贪婪因子表征控制模块200随机选择一个动作获取奖励的概率。argmaxQ(s,a)表征为在环境状态s下，价值函数最大的动作。

优选地，控制模块200配置为按照如下方式来进行优化决策：

构建关于环境状态和执行模块300执行动作的价值函数，并记录不同环境状态和动作从而构建价值表。价值表示关于价值函数的离散记录。优选地，价值函数为关于产油量和供液量的一元二次函数组。例如，产油量为-l(x-m)²+n。l、m、n三个系数的设定至少满足产油量在生产周期的一半时间内处于正值。

优选地，在价值函数收敛且控制模块200的优化决策未使得环境状态达到优化目标的情况下，或者在价值函数收敛且系统未损坏的情况下，控制模块200配置为基于ε-greedy贪婪策略获取对应环境状态下的第一动作。优选地，第一动作是基于ε-greedy贪婪策略获得的。优选地，第一动作是随机动作。ε-greedy贪婪策略使得控制模块200在学习训练后期时选择价值函数最大值对应的动作，但是还有一定的概率ε随机选择一个动作来获取奖励。

优选地，执行模块300基于控制模块200传递的第一动作信息控制潜油电机401和井口油嘴402。控制模块200基于采集模块100获取执行模块300执行第一动作后的新环境状态以及对应的奖励。控制模块200基于新的环境状态以及对应的奖励进行学习更新。优选地，控制模块200配置为基于先前环境状态下的先前价值与损失函数的线性叠加进行学习更新。控制模块200配置为基于融合在线学习和离线学习的方式构建损失函数。优选地，在更新后，控制模块200将环境状态更新为新环境状态从而作为下一轮控制的初始状态。

优选地，控制模块200配置为基于学习速率以及现实价值与先前环境状态下的先前价值之差构建损失函数。优选地，更新的价值函数的价值为：

Q(s_t+1,a_t+1)＝Q_o(s_t,a_t)+loss (8)

式(8)中的Q(s_t+1,a_t+1)为更新后的价值函数的价值。Q_o(s_t,a_t)先前环境状态下的先前价值。先前价值为存储在价值表中的价值。loss为损失函数。

loss＝α[Q_r(s_t+1,a_t+1)-Q_o(s_t,a_t)] (9)

式(9)中Q_r(s_t+1,a_t+1)为现实价值。α为学习速率。α取值在0～1之间。α决定了价值表更新的速率。

优选地，现实价值包括在线学习的第一现实价值和离线学习的第二现实价值。优选地，控制模块200按照如下方式配置在线学习的第一现实价值：

基于最大评估新环境状态下的价值函数的方式确定第一现实价值。优选地，第一现实价值为：

Q_r1(s_t,a_t)＝R(s_t,a_t)+γmaxQ_o(s_t+1,a_t+1) (10)

式(10)中Q_r1(s_t,a_t)为第一现实价值。R(s_t,a_t)为执行模块300执行第一动作后对应的奖励。maxQ_o(s_t+1,a_t+1)为执行动作后新状态在价值表中，新状态对应的最大值。γ表示的是状态s_t采用动作a_t的价值与下一状态的和动作的关联的衰减程度。γ的取值范围在0～1之间。

优选地，控制模块200按照如下方式配置离线学习的第二现实价值函数：

优选地，基于价值表中的新环境状态下价值函数的价值确定第二现实价值。优选地，第二现实价值为：

Q_r2(s_t,a_t)＝R(s_t,a_t)+γQ_o(s_t+1,a_t+1) (11)

式(11)中Q_r2(s_t,a_t)表示第二现实价值。

优选地，在进行强化学习的训练中，不同的更新策略会影响学习率、收敛率、稳定性、计算复杂度等问题，进而会影响训练时间以及潜油电泵的检修周期。例如，学习率、收敛率和计算复杂度直接关系到控制模块200的学习训练时间。而在基于ε-greedy贪婪策略选择执行模块300的过程中，如果基于在线学习的第一现实价值进行更新的情况下，其更新是对价值函数的最大评估，并且依赖采集模块100对环境状态的实时反馈，从而生成的优化决策比较激进，使得执行模块300执行的动作改变程度较大，潜油电机401以及井口油嘴402的机械运动过程不够平滑，进而可能对潜油电机401和井口油嘴402产生较大的损伤，导致控制模块200控制潜油电泵学习训练的过程中出现多次损坏的情况。而根据离线学习的第二现实价值进行更新的情况下，其更新比较保守，导致控制模块200学习训练的时间过长，因此本发明基于融合在线学习和离线学习的方式在缩短学习训练时间的基础上使得控制模块200在学习训练的过程中其优化的决策平缓，从而执行模块300执行的动作平滑，不会产生较大的波动。

优选地，控制模块200配置为按照如下步骤实现在线学习和离线学习的融合：

1、基于状态空间S对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分，进而确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间。需要说明的是，供液不足井占所有生产油井的20％～30％，在开采时间长的油田中比例更大。对于供液不足井，间歇采油是一种有效降低成本增加效益的采油方式。间歇采油的目的是提高产量，降低成本。关键是确定合理的间抽制度，即制定一个恰当的开井时间和关井时间。因此本发明可以基于状态空间S和/或价值表等确定间抽制度，然后根据间抽制度中的启停次数、开井时间和关井时间等将控制模块200对于执行模块300的优化控制分为不同阶段，根据不同的阶段优化控制模块200的学习训练和决策。

优选地，现有技术中，大部分的采油井依然是工程师根据经验手动关闭抽汲设备，实现液面恢复的目的，等过一段时间再开机继续抽汲，进行采油生产工作。这种方式无法把握关井的时间长度，如果关井时间太久，会影响油井的总产量，降低生产效益。尤其对于稠油井，如果停抽时间过长，原油粘度加大，再开机时抽油机由于摩擦力加大，会造成抽油杆断脱，造成安全事故。如果关井时间太短，抽油机频繁启停，会影响抽汲设备寿命。如果开井时间太长，容易发生液击和泵抽空现象，使得振动加大，进而导致设备磨损严重。如果开井时间太短，泵充满程度依然很高，那么产量相对减少，降低了生产效益。间抽制度可以根据井筒流动压力分布理论和压力恢复试井理论确定供液不足井的间抽制度。原理是依据油井压力恢复测试的实际现场生产情况和现代试井理论分析，在关井恢复测量压力的早期阶段，关井时间和环空液面的变化高度呈正比关系。即在关机停井后，由于地层和井底压力的差异，地层流体流入到井底，井筒的液面开始上升，因此抽油泵的充满程度升高、沉没度增高、抽油泵效率加大。当打开油井继续生产时，随着抽汲的不断进行，地层的供液能力逐渐变差，当地层流体流入井底的速度小于抽油泵的抽汲速度，环空中的动液面就开始逐渐下降，抽油泵入口的吸入压力也开始逐渐降低，抽油泵的充满程度也开始减小。当减小到一定程度，就关井停机进入下一个间抽周期。

2、在同一个第一时间/第二时间内，当前状态下的现实价值为在当前状态对应的第二现实价值基础上线性叠加上一状态下现实价值与当前状态下第二现实价值之差以及当前状态下第一现实价值与第二现实价值之差。优选地，上一状态下现实价值与当前状态下第二现实价值与第一权值相乘。当前状态下第一现实价值与第二现实价值之差与第二权值相乘。第一权值与第二权值的和为0～1。第一权值和第二权值可以根据价值表进行设置，或者根据实际情况进行设置。优选地，当前状态对应的第二现实价值作为当前状态现实价值的最小值，确保控制模块200的学习训练的基础时间。上一状态下现实价值与当前状态下第二现实价值用于确定当前状态和上一状态的差异程度。当前状态下第一现实价值与第二现实价值之差用于衡量当前优化策略相比价值表中对应的过去的相同状态下的激进程度。通过该设置方式，达到的有益效果是：

由于第一权值和第二权值的和为1，即对应的当前状态的决策是以当前状态下的第二现实价值为主，并且考虑到了当前状态和上一状态的差异程度，从而使得两个状态下执行模块300执行的决策对应的执行动作能够平稳，并增加了一定的决策的改变程度。此外，考虑到了当前优化策略相比价值表中对应的过去的相同状态下的激进程度能够进一步增加决策改变的程度，从而减少控制模块200的学习训练时间。

优选地，在由相邻的第一时间进入第二时间或者由相邻的第二时间进入第一时间的情况下，控制模块200配置为在当前状态的第二现实价值的基础上线性叠加第三权值下的当前状态对应的第一现实价值与第二现实价值的差值。第三权值取值在0～1之间。由于开井和关井的状态显著不同，因此可以仅考虑第一现实价值与第二现实价值的改变程度，使得控制模块200生产的决策不会改变过大，避免对潜油电泵和井口油嘴402产生损伤。

优选地，在价值函数未收敛的情况下，控制模块200配置为随机选取执行模块300中执行动作的阈值内的参数，并将该参数对应下的状态作为初始状态。状态至少包括产油量和供液量，然后进行新一轮控制。优选地，本发明的状态指代为环境状态。

实施例2

本实施例是对实施例1的进一步改进/补充，重复的内容不再赘述。

在实施例1中采用强化学习的方式进行学习训练和优化决策，但是实施例1的优化决策是建立在状态空间S和动作空间A离散且数据维度较小的情况下可以得到较好的收敛。而本发明的决策变量即动作空间A不是列向量，期不仅考虑了潜油电机401的频率，还考虑了井口油嘴402的阀开度。而且在实际情况中单井的数量n可能较大，在这种情况下通过强化学习中的价值表存储大量的状态及动作对应的价值进行学习不现实。因此本实施例在实施例1的基础结合深度学习以解决状态空间S和动作空间A参量较多而无法利用价值表更新学习的问题。

优选地，本实施例与实施例1的不同之处在于：

控制模块200配置为基于环境状态、执行动作以及更新参数构建价值函数。即本实施例的价值函数在实施例1价值函数Q(s_t,a_t)的基础上添加更新参数θ。θ取值在0～1之间。本实施例的价值函数为Q(s_t,a_t,θ_t)。优选地，控制模块200配置为基于先前环境状态下的先前价值与损失函数的线性叠加进行学习更新。优选地，更新的价值函数的价值为：

Q(s_t+1,a_t+1,θ_t+1)＝Q_o(s_t,a_t,θ_t)+loss (12)

优选地，价值函数可以是正弦、余弦、指数等曲线。优选地，控制模块200配置为将价值函数的更新问题转换为函数拟合问题。优选地，控制模块200配置为通过多阶多项式拟合价值函数。控制模块200配置为通过更新参数θ逼近最优价值。通过采用以上设置方式能够解决高维输入，即状态空间S和动作空间A较大的问题。但是常规的深度强化学习，其价值函数的值采用最大估计的方式，容易出现过高估计价值函数值的问题。因此本实施例中，控制模块200配置为基于学习速率以及现实价值与先前环境状态下的先前价值之差构建损失函数。控制模块200配置为基于融合在线学习的第一现实价值和离线学习的第二现实价值的方式构建现实价值。优选地，基于最大评估新环境状态下的价值函数的方式确定第一现实价值。基于先前存储的新环境状态下对应价值函数的价值确定第二现实价值。优选地，控制模块200配置为按照如下步骤实现在线学习和离线学习的融合：

1、基于状态空间S对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分，进而确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间。

2、在同一个第一时间/第二时间内，当前状态下的现实价值为在当前状态对应的第二现实价值基础上线性叠加上一状态下现实价值与当前状态下第二现实价值之差以及当前状态下第一现实价值与第二现实价值之差。优选地，上一状态下现实价值与当前状态下第二现实价值与第一权值相乘。当前状态下第一现实价值与第二现实价值之差与第二权值相乘。第一权值与第二权值的和为0～1。第一权值和第二权值可以根据价值表进行设置，或者根据实际情况进行设置。优选地，当前状态对应的第二现实价值作为当前状态现实价值的最小值，确保控制模块200的学习训练的基础时间。上一状态下现实价值与当前状态下第二现实价值用于确定当前状态和上一状态的差异程度。当前状态下第一现实价值与第二现实价值之差用于衡量当前优化策略相比价值表中对应的过去的相同状态下的激进程度。通过该设置方式，学习更新中价值函数的估计永远小于最优估计，进而避免过高估计，同时由于第一权值和第二权值的和为1，即对应的当前状态的决策是以当前状态下的第二现实价值为主，并且考虑到了当前状态和上一状态的差异程度，从而使得两个状态下执行模块300执行的决策对应的执行动作能够平稳，并增加了一定的决策的改变程度。此外，考虑到了当前优化策略相比价值表中对应的过去的相同状态下的激进程度能够进一步增加决策改变的程度，从而减少控制模块200的学习训练时间。

实施例3

本实施例是对实施例1、2及其结合的进一步改进/补充，重复的内容不再赘述。

实施例1和2中的间抽制度中的启停次数、第一时间以及第二时间是固定不变的。尽管以这种固定不变的间抽制度生产方便了油田现场的管理，但是每个单井的井下地层天然能量是不同的，环空动液面上升和下降的速率也各不相同。因此，固定的第一时间和第二时间不适用于所有的单井。而且，在实际开采的过程中，油藏的天然能量随着开采时间的增加而不断减少，相应的间抽制度应该动态对应变化。

另一方面，如果启停次数、第一时间和第二时间动态变化，这使得本发明的优化决策、动作空间和状态空间均是高维且数据量加大，使得实施例2中的深度学习训练较大的神经网络，存在大量的参数，并且损失函数被定义在较高的维度空间，可能使得控制模块200陷入局部最优的问题。本实施例在实施例1和2的基础上，将启停次数、开井时间和关井时间优化为混合整数非线性规划模型，进而在避免局部最优问题的情况下得到最优且动态变化的启停次数、第一时间和第二时间，从而使得控制模块200快速学习训练，进而实现潜油电泵的自动寻优决策。

优选地，控制模块200基于状态空间S对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分，进而将确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间构建为日累计总产量不下降条件下的耗能最小化的混合整数非线性规划模型。优选地，混合整数非线性规划模型的优化目标为耗能最小化。混合整数非线性规划模型的约束条件如下：

1、日累计总产量不下降；

2、满足最低流动性能；

3、管柱完整性大于最低阈值。

优选地，混合整数非线性规划模型的决策变量可以是井口油嘴402的阀开度和潜油电机401的频率。优选地，最低流动性能和管柱完整性的最低阈值可以以井口油嘴402的阀开度和潜油电机401的频率构建关系式。优选地，最流动性能的数学表征可以是每个分层节点满足最小临界携液流量。井筒以及管柱需要在一定压力范围内运行，因此管柱需要满足强度要求。优选地，管柱完整性还可以表征为管柱承受的压力在一定范围内。管柱承受的压力小于最高阈值，并且大于最低阈值。优选地，最小临界携液流量以及管柱运行过程中的工作压力范围根据油田开采的实际参数进行设置。优选地，控制模块200可以基于混合整数非线性规划求解器来求解以上混合整数非线性规划模型。

本发明说明书包含多项发明构思，申请人保留根据每项发明构思提出分案申请的权利。本发明说明书包含多项发明构思，诸如“优选地”、“根据一个优选实施方式”或“可选地”均表示相应段落公开了一个独立的构思，申请人保留根据每项发明构思提出分案申请的权利。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种潜油电泵的自寻优决策控制系统，其特征在于，至少包括采集模块(100)和控制模块(200)，所述控制模块(200)基于所述采集模块(100)采集的环境信息通过强化学习算法生成潜油电泵(400)执行的优化决策以实现自寻优，其中，

所述控制模块(200)配置为在基于状态空间对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分的基础上以融合在线学习和离线学习的方式构建强化学习算法中的损失函数，

所述控制模块(200)配置为按照如下步骤实现在线学习和离线学习的融合：

在同一个第一时间/第二时间内，当前状态下的现实价值为在当前状态对应的第二现实价值基础上线性叠加上一状态下现实价值与当前状态下第二现实价值之差以及当前状态下第一现实价值与第二现实价值之差，其中，

上一状态下现实价值与当前状态下第二现实价值与第一权值相乘；

当前状态下第一现实价值与第二现实价值之差与第二权值相乘；

基于最大评估新环境状态下的价值函数的方式确定第一现实价值；

基于价值表中的新环境状态下价值函数的价值确定第二现实价值。

2.一种潜油电泵的自寻优决策控制系统，其特征在于，至少包括采集模块(100)、控制模块(200)和执行模块(300)，控制模块(200)配置为基于采集模块(100)提供的当前时刻环境状态和先前时刻环境状态下执行模块(300)执行动作后的奖励进行训练学习以逼近油井产量最大及检泵周期最长为优化目标的方式做出优化决策，其中，

所述控制模块(200)配置为在基于状态空间对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分的基础上以融合在线学习和离线学习的方式构建训练学习更新中的损失函数，

3.一种潜油电泵的自寻优决策控制系统，其特征在于，至少包括采集模块(100)和控制模块(200)，所述控制模块(200)配置为在基于状态空间对每个单井在一个检泵周期内的启停次数、开井时间和关井时间进行划分的基础上以融合在线学习和离线学习的方式构建强化学习算法/深度强化学习算法中的损失函数，其中，

所述控制模块(200)配置为将确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间构建为日累计总产量不下降条件下的耗能最小化的混合整数非线性规划模型，进而在避免局部最优问题的情况下得到最优且动态变化的启停次数、第一时间和第二时间，

4.根据前述权利要求任一所述的自寻优决策控制系统，其特征在于，在由相邻的第一时间进入第二时间或者由相邻的第二时间进入第一时间的情况下，所述控制模块(200)配置为在当前状态的第二现实价值的基础上线性叠加第三权值下的当前状态对应的第一现实价值与第二现实价值的差值。

5.根据权利要求4所述的自寻优决策控制系统，其特征在于，所述控制模块(200)配置为按照如下步骤确定的状态转移概率生成优化决策中执行模块(300)的所执行的动作：

在所述控制模块(200)最初的学习回合中基于波尔兹曼分布策略通过采集模块(100)探索环境；

在所述控制模块(200)学习回合结束之后基于ε-greedy贪婪策略确定所述执行模块(300)所执行的动作。

6.根据权利要求5所述的自寻优决策控制系统，其特征在于，所述控制模块(200)配置为按照如下方式来进行优化决策：

在价值函数收敛且所述控制模块(200)的优化决策未使得环境状态达到优化目标的情况下，或者在价值函数收敛且系统未损坏的情况下，所述控制模块(200)配置为基于ε-greedy贪婪策略获取对应环境状态下的第一动作；

所述执行模块(300)基于所述控制模块(200)传递的第一动作信息控制潜油电机(401)和井口油嘴(402)。

7.根据权利要求6所述的自寻优决策控制系统，其特征在于，所述控制模块(200)配置为：

基于所述采集模块(100)获取所述执行模块(300)执行第一动作后的新环境状态以及对应的奖励；

基于新的环境状态以及对应的奖励进行学习更新，其中，

基于先前环境状态下的先前价值与损失函数的线性叠加进行学习更新，并基于学习速率以及现实价值与先前环境状态下的先前价值之差构建损失函数，其中，

现实价值包括在线学习的第一现实价值和离线学习的第二现实价值；

在更新后，将环境状态更新为新环境状态从而作为下一轮控制的初始状态。

8.根据权利要求7所述的自寻优决策控制系统，其特征在于，在价值函数未收敛的情况下，所述控制模块(200)配置为随机选取执行模块(300)中执行动作的阈值内的参数，并将该参数对应下的状态作为初始状态。

9.根据权利要求8所述的自寻优决策控制系统，其特征在于，所述控制模块(200)配置为构建关于启停次数、第一时间和第二时间的混合整数非线性规划模型，其中：

混合整数非线性规划模型的优化目标为耗能最小化；

混合整数非线性规划模型的约束条件至少包括日累计总产量不下降、满足最低流动性能和管柱完整性大于最低阈值；

混合整数非线性规划模型的决策变量包括井口油嘴(402)的阀开度和潜油电机(401)的频率。