CN114718525A

CN114718525A - 抽油机控制方法、计算机设备及存储介质

Info

Publication number: CN114718525A
Application number: CN202110006565.0A
Authority: CN
Inventors: 高鹏; 朱丹丹; 金学锋; 陈佳乐; 张战敏; 朱丽萍; 朱延慧; 常鹏刚; 李芳�; 刘婷婷
Original assignee: Petrochina Co Ltd
Current assignee: Petrochina Co Ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2022-07-08
Anticipated expiration: 2041-01-05
Also published as: CN114718525B

Abstract

本申请公开了一种抽油机控制方法、计算机设备及存储介质，涉及石油天然气生产领域。该方法包括：获取第t控制周期内抽油机的第t示功图，并通过抽油机控制系统确定抽油机在第t控制周期内的第t奖励；将第t示功图输入抽油机控制系统，得到抽油机控制系统输出的第t工作频率曲线；在第t+1控制周期内，按照第t工作频率曲线控制抽油机进行抽油，并获取抽油机的第t+1示功图；将第t示功图、第t奖励、第t工作频率曲线以及第t+1示功图存储至抽油机控制系统的记忆库；基于记忆库中存储的数据对抽油机控制系统进行强化学习；采用本申请实施例提供的方案能够降低抽油机控制技术的成本及能耗，同时提高了抽油机的工作效率。

Description

抽油机控制方法、计算机设备及存储介质

技术领域

本申请涉及石油天然气领域，特别涉及一种抽油机控制方法、计算机设备及存储介质。

背景技术

当前我国经济高速发展，随之而来的就是对能源需求的不断增加，随着油田开发步入中后期，地层能量会逐渐消耗，大部分油井会出现开采速度大于地层供液能力的情况，单纯为了提高油井产量，加快抽汲速度，反而会增加能耗和降低系统效率。

现有的宏观变速控制技术主要通过调节抽油机的冲次来调节油井抽汲速度。微观变速控制技术主要通过建立抽油机系统的仿真模型，对抽油机系统主要部分的运行进行动态模拟，将一个周期内电机频率设计问题转化为数学模型优化问题对抽油机系统进行变速调节。

发明内容

本申请实施例提供了一种抽油机控制方法、计算机设备及存储介质。所述技术方案如下：

一方面，本申请实施例提供了一种抽油机控制方法，所述方法用于计算机设备，所述方法包括：

获取第t控制周期内抽油机的第t示功图，并通过所述抽油机控制系统确定所述抽油机在所述第t控制周期内的第t奖励；

将所述第t示功图输入所述抽油机控制系统，得到所述抽油机控制系统输出的第t工作频率曲线；

在第t+1控制周期内，按照所述第t工作频率曲线控制所述抽油机进行抽油，并获取所述抽油机的第t+1示功图；

将所述第t示功图、所述第t奖励、所述第t工作频率曲线以及所述第t+1示功图存储至所述抽油机控制系统的记忆库；

基于所述记忆库中存储的数据对所述抽油机控制系统进行强化学习。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的抽油机控制方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的抽油机控制方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的抽油机控制方法。

本申请实施例提供的技术方案至少包括如下有益效果：

本申请实施例提供的方法基于强化学习技术实现对抽油机控制，当抽油机抽油时，只需将采集到的抽油机地面示功图数据输入抽油机控制系统，即可根据示功图运算出对应的工作频率曲线，且通过引入奖励机制，使抽油机控制系统能够根据记忆库中存储的历史示功图、历史奖励以及历史工作频率曲线进行强化学习，从而提高了抽油机工作频率曲线的预测准确性；采用本申请实施例提供的方案，无需通过微观变速技术建立复杂的数学模型，相较于宏观变速控制技术调节更加精细，对每个控制周期内抽油机的冲次进行调节，降低了抽油机控制技术的成本及能耗，同时提高了抽油机的工作效率和产液量。

附图说明

图1示出了本申请一个示例性实施例提供的实施环境的示意图；

图2示出了本申请一个示例性实施例提供的抽油机控制方法的流程图；

图3示出了本申请一个示例性实施例提供的抽油机控制系统的系统架构图；

图4示出了本申请另一个示例性实施例提供的抽油机控制方法的流程图；

图5是图4所示抽油机控制方法实施过程的实施示意图；

图6示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步的详细描述。

相关技术中，宏观变速控制技术包括基于悬点示功图的冲次控制和基于动液面深度的冲次控制，两者均通过减小冲次来增大泵的充满度，达到供采平衡，进而降低能耗，但同时也会降低日产量。

抽油机微观变速控制技术通过对抽油机每个时刻的运行状态建立精准的控制模型，实现对抽油机的频率精准调节和优化，将一个周期内抽油机的工作频率设计问题转化为数学优化问题。而实际井下情况较为复杂，难以建立较高精度的仿真模型，使得变速控制效果不佳，甚至导致系统运行状况变差。

本申请实施例提供的抽油机控制方法中，只需将采集到的抽油机示功图数据输入抽油机控制系统，通过抽油机控制系统的策略模块运算出对应的抽油机频率曲线，无需通过微观变速技术建立复杂的数学模型，相较于宏观变速控制技术调节更加精细，对每个控制周期内抽油机的冲次进行调节，同时油机控制系统利用强化学习的方式，不断对抽油机控制系统的网络参数进行学习与更新，从根本上降低了抽油机控制技术的成本及能耗，同时提高了抽油机的工作效率。下述各个实施例对抽油机控制方法应用于实际油井进行说明。

为了方便理解，下面对本申请实施例中涉及的名词进行说明。

强化学习(Reinforcement Learning,RL)：又称再励学习、评价学习或增强学习，是机器学习领域一个非常重要的分支，用于智能体在与环境的交互过程中不断地在线学习，以达到回报的最大化或者实现特定目标。

抽油机示功图(Indicator Map)：将抽油机井光杆悬点载荷变化所作的功和地面位移简化成封闭的几何图形，是光杆悬点载荷在动态生产过程中的直观反映。通过示功图的正确分析评价，可诊断抽油机井是否正常生产，还可以实现测量油井产液量等功能。

请参考图1，其示出了本申请一个示例性实施例提供的实施环境的示意图，该实施环境中包括抽油机110以及计算机设备120。

抽油机110是设置在抽油井处用于采油的设备。在一种可能的实施方式中，抽油机110上安装有传感器，用于对采油过程进行实时监控和数据传输。当抽油机110执行抽油工作时，传感器采用自动化采集和物联网系统获取抽油机110的实时工作数据，从而通过网络将工作数据传输至远端的计算机设备120，其中，该工作数据包括示功图以及有功功率曲线等等。

计算机设备120是运行有抽油机控制系统的电子设备，该计算机设备120可以是个人计算机、便携式计算机或工作站等等，本实施例对此不作限定。本申请实施例中，计算机设备120具有获取抽油机110在工作状态下输出的工作数据的功能，通过将工作数据输入抽油机控制系统，即可得到抽油机110的工作频率曲线，从而基于该工作频率曲线对抽油机110的工作状态进行控制。

在一种可能的实施方式中，抽油机控制系统对输入的示功图进行运算处理，得到对抽油机的控制策略(包括抽油机的工作频率曲线)，并基于该控制策略对抽油机进行控制。抽油机110执行控制策略时输出示功图，并将新的示功图传输至抽油机控制系统，以便抽油机控制系统进行下一周期的控制策略决策，形成计算机设备120与抽油机110的交互过程。

请参考图2，其示出了本申请一个示例性实施例提供的抽油机控制方法的流程图。本实施例以该方法用于图1所示的计算机设备120为例进行说明，该方法包括以下步骤：

步骤201，获取第t控制周期内抽油机的第t示功图，并通过抽油机控制系统确定抽油机在第t控制周期内的第t奖励。

第t控制周期内，抽油机处的传感器通过网络将自动化采集到传感器输出传输至计算机设备，计算机设备即获取到第t控制周期内抽油机的第t示功图。

在一种可能的实施方式中计算机设备即通过抽油机控制系统对第t示功图进行分析处理，得到第t控制周期内的抽油机的第t奖励。第t奖励是一种对第t控制周期内抽油机运行状态的评价，其中，第t奖励越高，表示第t控制周期内抽油机的工作效率越高，反之，第t奖励越低，表示第t控制周期内抽油机的工作效率越低。可选的，第t奖励与第t周期内抽油机的产液量以及耗电量相关。

本申请实施例中，第t奖励还用于后续对抽油机控制系统进行强化学习。

步骤202，将第t示功图输入抽油机控制系统，得到抽油机控制系统输出的第t工作频率曲线。

第t控制周期内，计算机设备将抽油机的第t示功图输入抽油机控制系统，由抽油机控制系统确定抽油机在第t控制周期内的第t工作频率曲线，第t工作频率曲线即计算机设备输出的用于控制抽油机设备抽油的控制策略。

在一些实施例中，抽油机地面示功图为224*224的像素矩阵，第t工作频率曲线中包含200个工作频率点。

步骤203，在第t+1控制周期内，按照第t工作频率曲线控制抽油机进行抽油，并获取抽油机的第t+1示功图。

在一种可能的实施方式中，计算机设备通过网络向抽油机(的控制设备)发送第t工作频率曲线；抽油机(的控制设备)接收到第t工作频率曲线后，即按照第t工作频率曲线在第t+1控制周期内进行抽油。抽油过程中，抽油机上的传感器继续将采集到的数据传输至计算机设备，相应的，计算机设备即可获取第t+1控制周期内抽油机的第t+1示功图。

步骤204，将第t示功图、第t奖励、第t工作频率曲线以及第t+1示功图存储至抽油机控制系统的记忆库。

为了便于后续对抽油机控制系统进行强化训练，计算机设备将各个控制周期内的第t示功图、第t奖励、第t工作频率曲线以及第t+1示功图作为强化学习的关键数据，存储在抽油机控制系统的记忆库中。

步骤205，基于记忆库中存储的数据对抽油机控制系统进行强化学习。

抽油机控制系统强化学习的过程即对网络参数更新的过程，且抽油机控制系统的训练目标为优化输出的工作频率曲线，使抽油机的抽油过程更加高效，提高产液量。

在一种更可能的实施方式中，记忆库内存储有大量历史数据，计算机设备按照预测采样策略(比如mini-batch)在记忆库内进行数据采样，从而利用采样得到的历史数据对抽油机控制系统进行强化学习。

综上所述，本申请实施例提供的方法基于强化学习技术实现对抽油机控制，当抽油机抽油时，只需将采集到的抽油机示功图数据输入抽油机控制系统，即可根据示功图运算出对应的工作频率曲线，且通过引入奖励机制，使抽油机控制系统能够根据记忆库中存储的历史示功图、历史奖励以及历史工作频率曲线进行强化学习，从而提高了抽油机工作频率曲线的预测准确性；采用本申请实施例提供的方案，无需通过微观变速技术建立复杂的数学模型，相较于宏观变速控制技术调节更加精细，对每个控制周期内抽油机的冲次进行调节，降低了抽油机控制技术的成本及能耗，同时提高了抽油机的工作效率和产液量。

在一种可能的实施方式中，如图3所示，本申请实施例中，用于控制抽油机310的抽油机控制系统由策略模块311、评价模块312、记忆库313和奖励模块314构成。

其中，策略模块311的输入为抽油机310的示功图，输出为抽油机310工作频率曲线，其功能是根据抽油机310的当前的运行状态(示功图)做出控制决策(工作频率曲线)。

评价模块312的输入为示功图和工作频率曲线，输出为当前状态下，抽油机310执行相应频率获得累积回报的估计值，其功能是预测抽油机当前时刻运行对应频率能得到的累积经济价值，用于辅助策略模块311。

奖励模块314的输入为抽油机310的示功图以及有功功率曲线，用于根据抽油机310当前运行状态下产液量和耗电量的关系，输出奖励。

记忆库313负责将抽油机310的周期内历史示功图、历史工作频率曲线、历史奖励等数据以一个组的形式存储，用于对整个抽油机控制系统进行强化学习。

抽油机控制系统在强化学习时，记忆库313按照采样策略采样出n组历史数据并将第p组历史数据输入策略模块311和评价模块312，且策略模块311将工作频率曲线输入评价模块312，评价模块312通过推理并作出评价反馈。

抽油机控制系统运行时，计算机设备将从抽油机采集到的当前第t控制周期内的第t示功图输入抽油机控制系统的策略模块311，同时将抽油机310的有功功率曲线和第t示功图输入奖励模块314。奖励模块314根据第t示功图和有功功率曲线计算出用于评价抽油机控制系统的第t奖励。策略模块311根据输入的第t示功图输出相应的当前第t控制周期抽油机310的第t工作频率曲线；进一步的，在下一控制周期(第t+1控制周期)，抽油机310按照输出的第t工作频率曲线进行抽油，同时将第t+1示功图通过网络输入抽油机控制系统；进一步的，策略模块311将第t示功图，第t工作频率曲线，第t奖励及第t+1示功图作为一组历史数据存储至记忆库313。

当抽油机控制系统进行强化学习时，抽油机控制系统按照采样策略从记忆库313中采样n组历史数据作为训练数据，将n组数据(其中第p组数据包括第i示功图，第i工作频率曲线，第i奖励，第i+1示功图，p表示为n组数据中的第p组数据)输入评价模块312和策略模块311。评价模块312通过输入的训练数据和策略模块311输入的工作频率曲线进行优化并更新网络参数，用于辅助策略模块311。相应的，策略模块311通过输入的训练数据和评价模块312的评价反馈对模块内部的网络参数进行优化和更新。

请参考图4，其示出了本申请另一个示例性实施例提供的抽油机控制方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括以下步骤：

步骤401，获取第t控制周期内抽油机的第t示功图，将第t示功图输入奖励模块的产液量预测网络，得到产液量预测网络输出的预测产液量。

产液量作为评价抽油机工作效率的重要依据，本申请实施例中，抽油机系统中的奖励模块514以产液量作为确定奖励的一个重要维度。在一种可能的实施方式中，由于产液量不利于直接获取，因此，如图5所示，奖励模块514中预先设置用于预测产液量的产液量预测网络515。

产液量预测网络是根据样本示功图以及样本示功图对应的样本产液量训练得到的卷积神经网络，可根据当前输入的第t控制周期内抽油机的第t示功图，通过卷积神经网络推理得到第t控制周期内的第t预测产液量。其中，卷积神经网络过程中，样本示功图作为卷积神经网络的输入，而样本产液量则作为对卷积神经网络输出结果的监督。

抽油机控制系统获取第t示功图的详细过程可参考上述步骤，此处不再赘述。

步骤402，基于第t控制周期内抽油机的有功功率曲线，通过确定奖励模块的耗电量计算模型计算第t控制周期内抽油机的耗电量。

除了产液量外，抽油机的耗电量同样是评价抽油机工作效率的重要依据，因此奖励模块还将抽油机的耗电量作为确定奖励的一个重要维度，如图5所示，奖励模块514中设置有用于进行耗电量计算的耗电量计算模型516。

在一种可能的实施方式中，抽油机耗电量是对抽油机工作效率的一个重要评价依据，通过计算每个控制周期内抽油机的耗电量的多少确定抽油机工作效率的高低。

抽油机控制系统的有功功率曲线由现场抽油机实时采集，通过物联网方式将数据传输至计算机设备。奖励模块的耗电量计算模型对采集的数据进行计算得到第t控制周期内抽油机的耗电量。其中，有功功率曲线是对抽油机机组负载的表述，实现了对交变载荷设备运行状况的认识由模糊变得清晰，通过有功功率曲线指导抽油机控制系统进行合理的奖励调整。

步骤403，根据预测产液量和耗电量确定第t奖励，第t奖励与第t预测产液量正相关，第t奖励与耗电量负相关。

在单位控制周期内，抽油机产液量越高，说明抽油机的工作效率越高，奖励值越大，反之工作效率越低，奖励越小；同理，抽油机耗电量越高，工作效率越低，奖励越小，反之工作效率越高，奖励越大。

在一种可能的实施方式中，奖励模块中设置有奖励函数，该奖励函数包含预测产液量，预测产液量对应的第一奖励权重，单位产液量以及单位产液量对应的第二奖励权重。其中，抽油机的预测产液量用C表示，耗电量用D表示，第一奖励权重用λ表示，第二奖励权重用μ表示。通过确定奖励与预测产液量及耗电量的相关性，进一步的可包括如下步骤：

一、根据预测产液量和耗电量确定单位产液量，单位产液量为消耗单位电量时抽油机的产液量；

单位产液量即为预测产液量与耗电量的比值，用于表征抽油机的工作效率，其比值越大，抽油机的工作效率越高，反之则越低。

二、根据预测产液量、预测产液量对应的第一奖励权重，单位产液量以及单位产液量对应的第二奖励权重，确定第t奖励。

在一种可能的实现方式中，奖励函数可设计如下：

其中，奖励函数的第一奖励权重和第二奖励权重在不同控制周期内并不一定相同，为可调参数，用于调节产液量和耗电量所占的比重。

步骤404，将第t示功图输入策略模块中的第一策略网络，得到第一策略网络输出的第t工作频率曲线，第t工作频率曲线中包含预设数量的工作频率点，第一策略网络为卷积神经网络。

如图5所示，抽油机控制系统的策略模块511获取抽油机的第t示功图S_t，经过其内部的第一策略网络517推理输出第t工作频率曲线A_t。其中，第一策略网络517是一个卷积神经网络，在一种可能的实施方式中，输入抽油机的示功图为224*224的像素矩阵，经过第一策略网络517对像素矩阵处理输出包含200个频率点的抽油机工作频率曲线。

进一步的，策略模块511会将输入的第t示功图和输出的第t工作频率曲线作为历史数据进行存储。

步骤405，在第t+1控制周期内，按照第t工作频率曲线控制抽油机进行抽油，并获取抽油机的第t+1示功图。

如图5所示，策略模块311将输出的第t工作频率曲线反馈给抽油机，抽油机按照第t工作频率曲线进行抽油。进一步的，传感器设备会采集抽油机下一周期(t+1周期)的数据并通过网络传输给计算机设备，即将第t+1示功图S_t+1输入策略模块511，具体过程参考上述步骤，本实施例不在赘述。

步骤406，将第t示功图、第t奖励、第t工作频率曲线以及第t+1示功图作为一组历史数据，存储至抽油机控制系统的记忆库。

如图5所示，策略模块511在输出第t示功图同时，还将抽油机控制系统在第t控制周期内的第t示功图、第t奖励R_t、第t工作频率曲线以及第t+1示功图以作为一组历史数据并以数据组的形式存储于抽油机控制系统的记忆库513。

步骤407，从记忆库中提取n组历史数据，n为正整数。

如图5所示，抽油机控制系统的记忆库513存储大量历史数据，记忆库513作为抽油机控制系统强化学习的数据库。当抽油机控制系统进行强化学习时，按照采样策略从记忆库513随机批量读取一定序列进行采样，采样出n组历史数据，其中n为正整数，每组历史数据包括存储的第i示功图S_i、第i奖励R_i、第i工作频率曲线A_i以及第i+1示功图S_i+1。

在一种可能的实施方式中，采样策略可以采用迷你批次(mini-batch)，mini-batch是一个一次训练数据集的一小部分，而不是整个训练集的技术。它可以使内存较小、不能同时训练整个数据集的计算机也可以训练模型。

步骤408，基于n组历史数据，对评价模块和策略模块进行强化学习。

抽油机控制系统强化学习的过程即为网络参数更新的过程，对策略模块及评价模块的参数更新，使输出的抽油机频率曲线更加稳定可靠。

如图5所示，策略模块511还包括第二策略网络518，第二策略网络517(网络参数为θ^μ′)与第一策略网络517(网络参数为θ^μ)的网络结构相同，都是由卷积神经网络构成，且评价模块512也包括网络结构相同的第一评价网络519(网络参数为θ^Q)和第二评价网络520(网络参数为θ^Q′)。策略模块511与评价模块512的更新是一个相互优化更新的过程，即评价模块512网络参数的更新需要依赖策略模块511的输出数据，同时评价模块512做出评价反馈给策略模块511进行网络参数更新，其训练过程可以包括以下内容：

一、基于n组历史数据中的第p组历史数据，对第一评价网络进行网络参数更新；

如图5所示，第一评价网络519网络参数更新即θ^Q的更新过程，此过程需要采样数据和第二策略网络518输入数据作为更新依据。

二、利用更新后的第一评价网络，对第一策略网络进行网络参数更新；

如图5所示，第一策略网络517参数更新即θ^μ的更新过程，此过程需要采样数据和更新后的第一评价网络519输入数据作为更新依据。

三、根据更新后的第一策略网络和第一评价网络软更新第二策略网络以及第二评价网络。

如图5所示，第二策略网络518和第二评价网络520软更新(softupdating)即对网络参数θ^μ′和θ^Q′的更新，此过程需要利用优化后的第一策略网络517的网络参数和第一评价网络519的网络参数。

在训练一个mini-batch的过程中，计算机设备实现更新第一策略网络和第一评价网络的网络参数，然后再通过软更新算法更新第二策略网络和第二评价网络的网络参数。以往的实践证明，如果两个模块只使用单个神经网络处理数据会导致学习过程很不稳定，因此分别为两个模块的神经网络拷贝，然后通过软更新的方式使训练结果更加稳定可靠。

针对上述更新第一评价网络的网络参数的过程，在一种可能的实施方式中，该过程可以包括如下步骤：

1、将采样数据中第p组历史数据中的第i+1示功图输入策略模块的第二策略网络，得到第二策略网络输出的第i+1工作频率曲线；

如图5所示，抽油机控制系统将采样出的第p组数据中的第i示功图S_i及第i+1示功图S_i+1输入策略模块511。其中，第i+1示功图S_i+1输入策略模块511的第二策略网络518，经过卷积神经网络推理得出第i+1工作频率曲线A_i+1(图中的μ′(S_i+1))。

2、将第i+1工作频率曲线和第p组历史数据中的第i+1示功图输入第二评价网络，得到第二评价网络输出的第i+1累计回报估计值。

如图5所示，抽油机控制系统将采样出的第p组数据中的第i+1示功图及第i奖励R_i输入评价模块512。其中，第i+1示功图S_i+1输入评价模块512的第二评价网络520，第二评价网络520对输入的第i+1示功图及来自第二策略网络518输出的第i+1工作频率曲线进行推理，推理得到第i+1累计回报估计值(图中的Q′(S_i+1,μ(S_i+1))。

3、将第p组历史数据中的第i示功图和第i工作频率曲线输入第一评价网络，得到第一评价网络输出的第i累计回报估计值。

如图5所示，第一评价网络519对输入的第p组历史数据中的第i示功图和第i工作频率曲线(第p组历史数据中的第i工作频率曲线即为图中第一策略网络517输入给第一评价网络的A_i＝μ(S_i))进行推理，得到第i累计回报估计值。

4、基于第i+1累计回报估计值，第i累计回报估计值和第p组历史数据中的第i奖励，更新第一评价网络的网络参数。

如图5所示，第一评价网络519根据第i+1累计回报估计值，第i累计回报估计值，第p组历史数据中的第i奖励更新第一评价网络519的网络参数θ^Q，评价模块512内部优化器521求取θ^Q梯度，并通过梯度下降法对网络参数进行优化更新。

进一步的，第一评价网络将作出评价反馈给第一策略网络，第一策略网络根据评价反馈更新网络参数，在一种可能的实施方式中，第一策略网络更新网络参数的过程可以包括如下步骤。

1、将第i示功图和对应第i工作频率曲线输入第一评价网络，得到第一评价网络输出的评价反馈。

2、根据评价反馈更新第一策略网络的网络参数。

如图5所示，第一策略网络517通过采样输入的第p组历史数据中的第i示功图及对应第i工作频率曲线和第一评价网络519的评价反馈更新网络参数θ^μ，并通过策略模块511内部优化器522使用梯度下降法对其进行优化更新。

本实施例中，抽油机控制系统通过强化学习的方式对策略模块和评价模块的网络参数不断更新和优化，确保抽油机一直以最优工作频率运行，从而提高了抽油机控制系统的效率和抽油机的产液量。

此外，本实施例中，奖励模块利用预先训练的产液量预测网络对每个周期内的产液量进行预测，并利用耗电量计算模型计算每个周期内的耗电量，从而将产液量以及耗电量作为确定奖励的维度，提高了确定出的奖励的准确性，进而优化后续强化学习的效果。

应用本申请提出的抽油机控制技术，在某油田的两口试验井(用A井和B井表示)进行了测试。

在具体应用中，比较了某油田两口井应用抽油机控制技术前后的系统效率、产液量、产液耗电比(产液量与耗电量的比值)。如表1所示，A井的系统效率提升了5.8％，产液耗电比提升了20.6％，B井的系统效率提升9.2％，产液耗电抽油比提升了27.4％。说明在使用了抽油机控制系统后，抽油机的工作效率得到了明显提升，产量也得到明显提高。

表1油井使用抽油机控制技术前后对比

请参考图6，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：计算机设备包括中央处理单元(Central Processing Unit，CPU)601、包括随机存取存储器602和只读存储器603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出系统606还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说，大容量存储设备607可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元601执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备中还包括射频电路、输入单元、传感器、服务器、电源等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该存储介质存储有至少一条指令，至少一条指令用于被处理器执行以实现如上述实施例的抽油机控制方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的抽油机控制方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种抽油机控制方法，其特征在于，所述方法用于计算机设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述抽油机控制系统包括奖励模块；

所述通过所述抽油机控制系统确定所述抽油机在所述第t控制周期内的第t奖励，包括：

将所述第t示功图输入所述奖励模块的产液量预测网络，得到所述产液量预测网络输出的预测产液量，所述产液量预测网络是根据样本示功图以及所述样本示功图对应的样本产液量训练得到的卷积神经网络；

基于所述第t控制周期内所述抽油机的有功功率曲线，通过所述确定奖励模块的耗电量计算模型计算所述第t控制周期内所述抽油机的耗电量；

根据所述预测产液量和所述耗电量确定所述第t奖励，所述第t奖励与所述预测产液量正相关，所述第t奖励与所述耗电量负相关。

3.根据权利要求2所述的方法，其特征在于，所述根据所述预测产液量和所述耗电量确定所述第t奖励，包括：

根据所述预测产液量和所述耗电量确定单位产液量，所述单位产液量为消耗单位电量时所述抽油机的产液量；

根据所述预测产液量、所述预测产液量对应的第一奖励权重、所述单位产液量以及所述单位产液量对应的第二奖励权重，确定所述第t奖励。

4.根据权利要求1至3任一所述的方法，其特征在于，所述抽油机控制系统包括策略模块；

所述将所述第t周期示功图输入所述抽油机控制系统，得到所述抽油机控制系统输出的第t周期工作频率曲线，包括：

将所述第t周期示功图输入所述策略模块中的第一策略网络，得到所述第一策略网络输出所述第t工作频率曲线，所述第t工作频率曲线中包含预设数量的工作频率点，所述第一策略网络为卷积神经网络。

5.根据权利要求4所述的方法，其特征在于，所述抽油机控制系统还包括评价模块；

所述将所述第t示功图、所述第t奖励、所述第t工作频率曲线以及所述第t+1示功图存储至所述抽油机控制系统的记忆库，包括：

将所述第t示功图、所述第t奖励、所述第t工作频率曲线以及所述第t+1示功图作为一组历史数据，存储至所述抽油机控制系统的记忆库；

所述基于所述记忆库中存储的数据对所述抽油机控制系统进行强化学习，包括：

从所述记忆库中提取n组历史数据，n为正整数；

基于所述n组历史数据，对所述评价模块和所述策略模块进行强化学习。

6.根据权利要求5所述的方法，其特征在于，所述策略模块还包括第二策略网络，所述第二策略网络与所述第一策略网络的网络结构相同，且所述评价模块也包括网络结构相同的第一评价网络和第二评价网络；

所述基于所述n组历史数据，对所述评价模块和所述策略模块进行强化学习，包括：

基于所述n组历史数据，对所述第一评价网络进行网络参数更新；

利用更新后的所述第一评价网络，对所述第一策略网络进行网络参数更新；

根据更新后的所述第一策略网络和所述第一评价网络软更新所述第二策略网络以及所述第二评价网络。

7.根据权利要求6所述的方法，其特征在于，所述基于所述n组历史数据，对所述第一评价网络进行网络参数更新，包括：

将n组历史数据中第p组历史数据的第i+1示功图输入所述第二策略网络，得到所述第二策略网络输出的第i+1工作频率曲线；

将所述第i+1工作频率曲线和所述第p组历史数据中的第i+1示功图输入所述第二评价网络，得到所述第二评价网络输出的第i+1累计回报估计值；

将所述第p组历史数据中的第i示功图和第i工作频率曲线输入所述第一评价网络，得到所述第一评价网络输出的第i累计回报估计值；

基于所述第i+1累计回报估计值，所述第i累计回报估计值和所述第p组历史数据中的第i奖励，更新所述第一评价网络的网络参数。

8.根据权利要求6所述的方法，其特征在于，所述利用更新后的所述第一评价网络，对所述第一策略网络进行网络参数更新，包括：

将所述第i示功图和第i工作频率曲线输入更新后的所述第一评价网络，得到所述第一评价网络输出的评价反馈；

根据所述评价反馈更新所述第一策略网络的网络参数。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的抽油机控制方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的抽油机控制方法。