CN109948836B

CN109948836B - 油田的注水数据的处理方法、装置、存储介质和处理器

Info

Publication number: CN109948836B
Application number: CN201910156761.9A
Authority: CN
Inventors: 肖昌南
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2021-03-30
Anticipated expiration: 2039-03-01
Also published as: CN109948836A

Abstract

本发明公开了一种油田的注水数据的处理方法、装置、存储介质和处理器。其中，该方法包括：获取油水井的当前生产数据；通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据，其中，第一目标模型通过基于油水井的第一历史生产数据进行强化学习训练得到，第一目标注水数据用于指示对油水井进行的第一目标注水策略；按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据。本发明解决了由于粗放式管理导致向油水井进行注水的效率低的技术问题。

Description

油田的注水数据的处理方法、装置、存储介质和处理器

技术领域

本发明涉及油田领域，具体而言，涉及一种油田的注水数据的处理方法、装置、存储介质和处理器。

背景技术

目前，油田注水开发是油田在开发过程中向地层补充能量，利用注入水驱替油藏原油，以最终提高原油采收率的过程。

油藏深埋在地下，业务人员对油藏的认识类似一个灰箱，只能通过已知条件推测未知条件，且随着开发过程逐渐地变化。传统的注水驱油方式都是粗放式管理，导致向油水井进行注水的效率低，而无效的注水对油藏会造成伤害，从而最终影响原油的采收率。

针对上述的由于粗放式管理导致向油水井进行注水的效率低问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种油田的注水数据的处理方法、装置、存储介质和处理器，以至少解决由于粗放式管理导致向油水井进行注水的效率低的技术问题。

根据本发明实施例的一个方面，提供了一种油田的注水数据的处理方法。该方法包括：获取油水井的当前生产数据；通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据，其中，第一目标模型通过基于油水井的第一历史生产数据进行强化学习训练得到，第一目标注水数据用于指示对油水井进行的第一目标注水策略；按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据。

可选地，在按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据之后，该方法还包括：根据第一生产数据更新第一目标模型；按照更新后的第一目标模型对第一生产数据进行处理，得到第二目标注水数据，其中，第二目标注水数据用于指示对油水井进行的第二目标注水策略；按照第二目标注水策略对油水井进行注水，得到油水井的第二生产数据。

可选地，根据第一生产数据更新第一目标模型包括：通过第二目标模型对第一生产数据进行评估，得到第一评估结果，其中，第二目标模型通过基于油水井的第二历史生产数据进行强化学习训练得到；按照第一评估结果更新第一目标模型。

可选地，在通过第二目标模型对第一生产数据进行评估，得到第一评估结果之后，该方法还包括：通过第一评估结果和奖励值确定时序差分误差，其中，所述奖励值用于指示第一目标注水策略的质量，且基于第一生产数据中的产油量得到；通过时序差分误差对第二目标模型进行更新；在按照第二目标注水策略对油水井进行注水，得到油水井的第二生产数据之后，方法还包括：通过更新后的第二目标模型对第二生产数据进行评估，得到第二评估结果。

可选地，通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据包括：对由当前生产数据构成的状态空间进行处理，得到由第一目标注水数据构成的动作空间。

可选地，在通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据之前，该方法还包括：获取目标地质参数，其中，目标地质参数为影响油水井产油的地质参数；对目标地质参数和第一历史生产数据进行强化学习训练，得到第一目标模型。

可选地，在通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据之后，该方法还包括：获取预先设定的目标调整数据；通过目标调整数据对第一目标注水数据进行调整。

根据本发明实施例的另一方面，还提供了一种油田的注水数据的处理装置。该装置包括：获取单元，用于获取油水井的当前生产数据；处理单元，用于通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据，其中，第一目标模型通过基于油水井的第一历史生产数据进行强化学习训练得到，第一目标注水数据用于指示对油水井进行的第一目标注水策略；注水单元，用于按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据。

在本发明实施例中，采用获取油水井的当前生产数据；通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据，其中，第一目标模型通过基于油水井的第一历史生产数据进行强化学习训练得到，第一目标注水数据用于指示对油水井进行的第一目标注水策略；按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据。由于采用强化学习方法实现注水的自动化决策，不需要人为干预，即可自动的选择并优化注水方案，达到了向油水井注水的目的，从而达到了提高向油水井进行注水的效率的技术效果，进而解决了由于粗放式管理导致向油水井进行注水的效率低技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种油田的注水数据的处理方法的流程图；

图2是根据本发明实施例的一种强化学习的框架的示意图；

图3是根据本发明实施例的另一种强化学习的框架的示意图；以及

图4是根据本发明实施例的一种油田的注水数据的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本发明实施例提供了一种油田的注水数据的处理方法。

图1是根据本发明实施例的一种油田的注水数据的处理方法的流程图。如图1所示，该方法包括以下步骤：

步骤S102，获取油水井的当前生产数据。

在本发明上述步骤S102提供的技术方案中，油水井为需要通过注水来驱油的产油井或者采油井，可以为多个。可选地，该实施例针对单一油藏下的油水井，获取油水井的当前生产数据，该当前生产数据可以用于指示所有油水井的当前信息状态，可以包括所有油水井的当前产油量、当前产液量以及向油水井注入的当前注水量等数据。

步骤S104，通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据。

在本发明上述步骤S104提供的技术方案中，在获取油水井的当前生产数据之后，通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据，其中，第一目标模型通过基于油水井的第一历史生产数据进行强化学习训练得到，第一目标注水数据用于指示对油水井进行的第一目标注水策略。

在该实施例中，油水井的第一历史生产数据为影响注水策略的历史因素，可以包括油水井在之前一段时间的产油量、产液量以及向油水井注入的注水量等数据。该实施例的强化学习为一种机器学习方法，通过与环境进行交互获得的奖赏来指导行为，目的是使智能体获得最大的奖赏，可以动态地调整参数，以达到强化信号最大。该实施例对第一历史生产数据进行强化学习训练，得到第一目标模型，该第一目标模型可以为强化学习中的策略模型(Actor)，为一种神经网络(ANN)，当前生产数据可以为策略模型的当前状态信息，可以根据当前生产数据得到第一目标注水数据，该第一目标注水数据用于指示对油水井进行的第一目标注水策略，也即，该实施例的第一目标模型用于分配注水方案，从而实现通过强化学习自动化分配注水方案的目的。该实施例的第一目标注水策略可以为对油水井进行注水的最优策略，相当于第一目标模型输出的动作，从而可以实现在未知环境下的自动化决策，也即，实现完全不需要人为干预的目的。

可选地，该实施例的第一目标模型可以为随机初始化的策略模型。

可选地，该实施例在基于油水井的第一历史生产数据进行强化学习训练得到第一目标模型时，可以使用资格迹(Eligibility Traces)加入第一历史生产数据的影响进行训练。可选地，使用重播缓冲区(Replay Buffer)进行数据多次利用，使用重要性采样(Importance Sampling)的离线策略(Off-Policy)来学习第一历史数据，以得到第一目标模型。

步骤S106，按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据。

在本发明上述步骤S106提供的技术方案中，在通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据之后，按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据。

在该实施例中，第一目标注水策略为自动化选择的注水策略，用于作用于真实环境。在按照第一目标注水策略对油水井进行注水时，也即，在执行第一目标模型输出的动作时，可以根据第一目标注水策略所指示的注水概率分布来确定哪口注水井需要增加注水量，哪口注水井需要降低注水量，从而得到油水井的第一生产数据。该第一生产数据也即第一目标模型的新的状态信息，可以包括油水井按照第一目标注水策略进行注水需要的注水量，也即，向油水井进行注水的注水量，以及按照第一目标注水策略进行注水后的产液量、产油量等，从而避免了由于粗放式管理导致注水效率低的问题，同时降低了注水成本。

通过上述步骤S102至步骤S106，采用获取油水井的当前生产数据；通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据，其中，第一目标模型通过基于油水井的第一历史生产数据进行强化学习训练得到，第一目标注水数据用于指示对油水井进行的第一目标注水策略；按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据。由于采用强化学习方法实现注水的自动化决策，不需要人为干预，即可自动的选择并优化注水方案，达到了向油水井注水的目的，从而达到了提高向油水井进行注水的效率的技术效果，进而解决了由于粗放式管理导致向油水井进行注水的效率低技术问题。

作为一种可选的实施方式，在步骤S106，按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据之后，该方法还包括：根据第一生产数据更新第一目标模型；按照更新后的第一目标模型对第一生产数据进行处理，得到第二目标注水数据，其中，第二目标注水数据用于指示对油水井进行的第二目标注水策略；按照第二目标注水策略对油水井进行注水，得到油水井的第二生产数据。

在该实施例中，地下环境可能会随着采油过程或者地质变化而发生改变，因而用于指示注水分配方案的目标注水策略也会随之改变。在按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据之后，根据第一生产数据进一步更新第一目标模型，可以使用策略梯度来更新第一目标模型，从而实现第一目标模型的自我优化与更新，从而提升向油水井进行注水的效率。在根据第一生产数据更新第一目标模型之后，按照更新后的第一目标模型对第一生产数据进行处理，得到第二目标注水数据，第二目标注水数据用于指示对油水井进行的第二目标注水策略，也即，该实施例的更新后的第一目标模型用于分配注水方案，从而实现通过强化学习自动化分配注水方案的目的。该实施例的第二目标注水策略可以为在按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据之后，对油水井进行注水的最优策略，相当于更新后的第一目标模型输出的动作，从而可以实现在未知环境下的自动化决策，实现自发的适应环境变化带来的最优注水方案变化，也即，完全不需要人为干预。在根据第一生产数据更新第一目标模型之后，按照更新后的第一目标模型对第一生产数据进行处理，得到第二目标注水数据。

在按照更新后的第一目标模型对第一生产数据进行处理，得到第二目标注水数据之后，按照第二目标注水数据指示的第二目标注水策略对油水井进行注水，从而得到油水井的第二生产数据。

可选地，该实施例在按照第二目标注水策略对油水井进行注水，得到油水井的第二生产数据之后，根据第二生产数据再继续更新上述更新后的第一目标模型，然后对第二生产数据进行处理，得到第三目标注水数据，该第三目标注水数据用于指示对油水井进行的第三目标注水策略；按照第三目标注水策略对油水井进行注水，得到油水井的第三生产数据，以此循环，通过反复决策，根绝决策的结果更新强化学习的策略模型，逐步改变注水策略，从而使得获得的价值最大，也即，通过强化学习自动化分配注水方案，与环境的反复交互，从而实现策略的自我优化与更新，实现最大化长期收益，进而提高了油水井的注水效率。

作为一种可选的实施方式，根据第一生产数据更新第一目标模型包括：通过第二目标模型对第一生产数据进行评估，得到第一评估结果，其中，第二目标模型通过基于油水井的第二历史生产数据进行强化学习训练得到；按照第一评估结果更新第一目标模型。

在该实施例中，第一生产数据为相对于当前生产数据而言的第一目标模型的新的状态信息。在根据第一生产数据更新第一目标模型时，可以通过第二目标模型对第一生产数据进行评估，该第二目标模型可以为确定好的目标函数，可以将第一生产数据输入目标函数中进行计算，得到第一评估结果，该第一评估结果可以为评分。可选地，该第二目标模型可以为强化学习中的价值模型(Critic)，通过基于油水井的第二历史生产数据进行强化学习训练得到，该第二历史数据可以为过去一段时间对之前一段时间的产油量、产液量以及向油水井注入的注水量等数据的评价数据，该第二目标模型可以由瓦片编码(Tilecoding)的线性特征编码构成。该实施例的第一评估结果可以为对第一生产数据进行评估得到的价值，也即，评估状态的价值，为对第一目标模型的所产生的动作的好坏进行的评价。在通过第二目标模型对第一生产数据进行评估，得到第一评估结果之后，根据第一评估结果对第一目标模型进行更新，可以根据第一评估结果调整第一目标模型中的参数以实现对第一目标模型的更新，进而实现注水策略的更新和优化，提高了油水井的注水效率。

可选地，该实施例的第二目标模型可以为随机初始化的价值模型。

可选地，该实施例的第二目标模型可以提供更有效的内部强化信号给第一目标模型，使第一目标模型产生更恰当的注水策略，内部强化信号使第一目标模型、第二目标模型在每一步都可以进行学习，而不必等待外部强化信号的到来，从而大大地加速了第一目标模型和第二目标模型的学习。

作为一种可选的实施方式，在通过第二目标模型对第一生产数据进行评估，得到第一评估结果之后，该方法还包括：通过第一评估结果和奖励值确定时序差分误差，其中，奖励值用于指示第一目标注水策略的质量，且基于第一生产数据中的产油量得到；通过时序差分误差对第二目标模型进行更新；在按照第二目标注水策略对油水井进行注水，得到油水井的第二生产数据之后，该方法还包括：通过更新后的第二目标模型对第二生产数据进行评估，得到第二评估结果。

该实施例的第一评估结果还可以用于对第二目标模型进行更新，可选地，根据第一生产数据中的产油量确定奖励值，根据第一评估结果和与第一生产数据对应的奖励值确定时序差分误差，再通过时序差分误差对第二目标模型进行更新，其中，奖励值用于表征油水井的实际环境对油水井在执行第一目标注水策略后的效果的反馈，可以用于指示第一目标注水策略的质量，比如，该奖励值为用于评价第一目标注水策略的好坏的评分，该奖励值可以与油水井的产油量相对应，当产油量越高时，奖励值就越大，也即，该第一目标注水策略对油水井进行注水的效果好，当产油量越小时，奖励值就越小，也即，该第一目标注水策略对油水井进行注水的效果欠佳，可选地，该奖励值可以为第一生产数据中的产油量与预先设定的目标产油量之商，该目标产油量可以为油水井历史产油量的平均值，该实施例的时序差分误差为第一评估结果与奖励值之和与目标评估结果之间的差，该目标评估结果可以为对之前生产数据进行评估的结果。该实施例通过第一评估结果和奖励值确定的时序差分误差更新状态价值函数GTD(λ)来实现对第二目标模型的更新。

在按照第二目标注水策略对油水井进行注水，得到油水井的第二生产数据之后，通过更新后的第二目标模型再对第二生产数据进行评估，得到第二评估结果，该第二评估结果可以为对第二生产数据进行评估得到的价值，为对更新后的第一目标模型的所产生的动作的好坏进行的评价。在通过更新后的第二目标模型对第二生产数据进行评估，得到第二评估结果之后，可以根据第二评估结果对上述更新后的第一目标模型的参数进行调整，以对更新后的第一目标模型再进行更新，还可以通过第二评估结果和与第二生产数据对应的奖励值确定的时序差分误差对更新后的第二目标模型进行再次更新，其中，与第二生产数据对应的奖励值可以由第二生产数据中的产油量确定，以此循环，进而实现注水策略的更新和优化，完全不需要人为干预，即可自动的选择并优化注水方案，提高了油水井的注水效率。

作为一种可选的实施方式，通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据包括：对由当前生产数据构成的状态空间进行处理，得到由第一目标注水数据构成的动作空间。

在该实施例中，强化学习的状态空间可以由当前生产数据构成，比如，通过油水井的当前产油量、当前产液量以及向油水井注入的当前注水量等数据构成状态空间，强化学习的动作空间由第一目标注水数据构成，也即，由注水分配方案构成，可选地，动作空间会输出一个概率分布，依据此概率分布决定哪口注水井需要增加注水量，哪口注水井需要降低注水量。

可选地，该实施例的状态空间和动作空间具备相当的灵活性，可以通过稍微调节加入更多的地质信息和油井信息，比如，加入套压、管压、变化趋势等信息，对由当前生产数据构成的状态空间进行处理，得到由第一目标注水数据构成的动作空间，进而执行第一目标注水数据指示的第一目标注水策略，对油水井进行注水，得到油水井的第一生产数据，达到了向油水井注水的目的，从而达到了提高向油水井进行注水的效率的效果。

作为一种可选的实施方式，在通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据之前，该方法还包括：获取目标地质参数，其中，目标地质参数为影响油水井产油的地质参数；对目标地质参数和第一历史生产数据进行强化学习训练，得到第一目标模型。

在该实施例中，在通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据之前，获取目标地质参数，该目标地质参数可以为油水井的静态信息，包括地下的连通关系、地下水渗透率、地下水含量等对产油进行影响的参数。在获取目标地质参数之后，对目标地质参数和第一历史生产数据进行强化学习训练，也即，利用油水井的历史生产数据结合油水井静态信息进行强化学习训练，得到第一目标模型。

可选地，该实施例在自动化决策与环境交互时，通过重要性采样(ImportanceSampling)来实现对第一历史数据的学习。由于第一历史数据中对应的注水策略和当前使用的目标注水策略存在差异，进而即使将相同的生产数据输入至对应的策略模型得到的注水策略也存在差异，因此需要通过重要性采样来克服这种差异，通过重要性采样使用第一历史数据使得当前注水策略得到更新，从而实现自动化决策，实现不需要人为干预，即可实现自动的选择并优化注水方案的目的，进而提升了向油水井进行注水的效率。

作为一种可选的实施方式，在步骤S104，通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据之后，该方法还包括：获取预先设定的目标调整数据；通过目标调整数据对第一目标注水数据进行调整。

在该实施例中，在通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据之后，获取预先设定的目标调整数据，该目标调整数据可以为人工注水的调整策略，通过目标调整数据对第一目标注水数据进行调整，从而进一步优化注水分配方案。

在该实施例中，当注水井向地下注水时，采油井有可能会在几天甚至几周后才会收到影响，因而只是建立产量预测模型并优化当天产量并不能够有效地解决问题。同时，油田产量的目标是最大化长期产量而非单天产量，和强化学习方法十分一致，都是最大化长期收益。另外，油田地下环境可能会缓慢变化，地下环境可能会随着采油过程或者地质变化而发生改变，因而最优的注水分配方案也会随之改变。而强化学习方法是一个不断实现自我优化的学习方法，可以完全自动化决策，因而可以自发的适应环境变化带来的最优注水方案变化，完全不需要人为干预，即可自动的选择并优化注水方案，从而提高了向油水井进行注水的效率。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例2

下面结合优选的实施方式对本发明实施例的技术方案进行说明。

该实施例利用强化学习的方法，实现在未知环境下的自动优化决策。利用油水井的历史生产数据，结合油水井静态信息，以单一油藏下的油水井为对象开展研究。通过强化学习自动化分配注水方案，与环境的反复交互，从而实现策略的自我优化与更新，进而逐渐优化注水方案，提升了注水效率。其中，历史生产数据可以包括之前一段时间向油水井进行注水的注水量，油水井的产液量、产油量等数据，静态信息包括地下的连通关系、地下水渗透率、地下水含量对产油的影响系数等。

图2是根据本发明实施例的一种强化学习的框架的示意图。如图2所示，该实施例的强化学习框架可以使用强化学习中离线演员评论家(Off-Policy Actor-Critic)框架，其中策略模型(Actor)由神经网络(ANN)构成，用于进行决策和行动，也即，用于分配注水方案，基于价值(Value-Based)的价值模型(Critic)由瓦片编码(Tile coding)的线性特征编码构成，用于评估状态的价值，反馈行动的好坏，状态空间由产量以及注水量等信息构成，也即，由所有产油井的当前产油量、产液量以及注水井的当前注水量共同构成的向量构成当前状态，动作空间由注水分配方案构成，可选地，该实施例的动作空间会输出一个概率分布，依据此概率分布决定哪口注水井增加注水量，哪口注水井降低注水量。

该实施例在训练技巧上，使用了资格迹(Eligibility Traces)加入历史因素的影响，使用重播缓冲区(Replay Buffer)进行数据多次利用，使用重要性采样(ImportanceSampling)的离线策略(Off-Policy)学习历史信息以及人工注水方案等。其中，历史因素为之前一段时间内的所有油水井的注水量信息、产油量信息、产液量信息等。

在进行强化学习训练时，可以先随机初始化策略模型和价值模型，将当天信息状态s输策略模型获得注水策略a，执行注水策略a，得到新的信息状态s′和强化信号r，计算状态预测差异TD-error，可以用于修正当前状态动作对的值，使用状态价值函数GTD(λ)更新价值模型，使用策略梯度(policy gradient)更新策略模型。

在该实施例中，策略模型通过与环境不断交互，获取当天信息状态，价值模型基于策略模型评估当天的状态价值并更新状态价值函数GTD(λ)，从而帮助策略模型进行策略更新。其中，当天信息状态包括当天的产液量、产油量、注水量等。

图3是根据本发明实施例的另一种强化学习的框架的示意图。如图3所示，策略模型用于根据油水井的当天注水信息状态输出行动决策，该行动决策为向油水井进行注水的注水策略，将该行动决策用于真实世界环境，真实世界环境接受该动作后注水信息状态发生变化，同时产生一个强化信号(奖励反馈信号)反馈给价值模型，价值模型对注水信息状态进行评估，根据评估结果对策略模型进行优化，进而优化的策略模型再根据注水信息状态输出行动决策作用于真实环境，以此循环，通过反复决策，根绝决策的结果更新策略模型，逐步改变注水策略，从而使得获得的价值最大，实现了通过与环境反复交互，实现策略的自我优化与更新，从而逐渐优化注水方案，提升了注水效率。

该实施例首次使用强化学习方法对油田的注水优化决策问题进了行解决，可以有效地提升注水对产量的推进效应，帮助注水分配方案逐步找到最优组合，优于当前的注水分配方案，同时成本十分低；状态空间和动作空间具备相当的灵活性，可以通过稍微调节加入更多的地质和油井信息，比如套压、管压、变化趋势等，可以实现完全的自动化决策；由于历史数据中的策略和当前使用的策略存在差异，进而将相同的注水信息状态输入策略模型得到的注水策略也存在差异，因此需要通过重要性采样来克服这种差异，使用历史数据帮助当前策略进行更新，该实施例使用Off-Policy方法，在自动化决策与环境交互的同时，也可以学习历史数据，同时可以在上线后学习人工注水的调整策略，从而进一步优化注水分配方案。

实施例3

本发明实施例还提供了一种油田的注水数据的处理装置。需要说明的是，该实施例的油田的注水数据的处理装置可以用于执行本发明实施例的油田注水数据的处理方法。

图4是根据本发明实施例的一种油田的注水数据的处理装置的示意图。如图4所示，该油田的注水数据的处理装置400包括：获取单元10、处理单元20和注水单元30。

获取单元10，用于获取油水井的当前生产数据。

处理单元20，用于通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据，其中，第一目标模型通过基于油水井的第一历史生产数据进行强化学习训练得到，第一目标注水数据用于指示对油水井进行的第一目标注水策略。

注水单元30，用于按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据。

可选地，该装置还包括：更新单元，用于在按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据之后，根据第一生产数据更新第一目标模型；第一处理单元，用于按照更新后的第一目标模型对第一生产数据进行处理，得到第二目标注水数据，其中，第二目标注水数据用于指示对油水井进行的第二目标注水策略；第一注水单元，用于按照第二目标注水策略对油水井进行注水，得到油水井的第二生产数据。

可选地，更新单元包括：第一评估模块，用于通过第二目标模型对第一生产数据进行评估，得到第一评估结果，其中，第二目标模型通过基于油水井的第二历史生产数据进行强化学习训练得到；第一更新模块，用于按照第一评估结果更新第一目标模型。

可选地，更新单元包括：第二更新模块，用于在通过第二目标模型对第一生产数据进行评估，得到第一评估结果之后，通过第一评估结果和奖励值确定时序差分误差，其中，所述奖励值用于指示第一目标注水策略的质量，且基于第一生产数据中的产油量得到；通过时序差分误差对第二目标模型进行更新；第二评估模块，用于在按照第二目标注水策略对油水井进行注水，得到油水井的第二生产数据之后，通过更新后的第二目标模型对第二生产数据进行评估，得到第二评估结果。

可选地，处理单元20包括：处理模块，用于对由当前生产数据构成的状态空间进行处理，得到由第一目标注水数据构成的动作空间。

可选地，该装置还包括：第一获取单元，用于在通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据之前，获取目标地质参数，其中，目标地质参数为影响油水井产油的地质参数；训练单元，用于对目标地质参数和第一历史生产数据进行强化学习训练，得到第一目标模型。

可选地，该装置还包括：第二获取单元，用于在通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据之后，获取预先设定的目标调整数据；调整单元，用于通过目标调整数据对第一目标注水数据进行调整。

在该实施例中，通过获取单元10获取油水井的当前生产数据，处理单元20通过第一目标模型对当前生产数据进行处理，得到第一目标注水数据，其中，第一目标模型通过基于油水井的第一历史生产数据进行强化学习训练得到，第一目标注水数据用于指示对油水井进行的第一目标注水策略，通过注水单元30按照第一目标注水策略对油水井进行注水，得到油水井的第一生产数据。由于采用强化学习方法实现注水的自动化决策，不需要人为干预，即可自动的选择并优化注水方案，达到了向油水井注水的目的，从而达到了提高向油水井进行注水的效率的技术效果，进而解决了由于粗放式管理导致向油水井进行注水的效率低技术问题。

实施例4

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例5

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种油田的注水数据的处理方法，其特征在于，包括：

获取油水井的当前生产数据；

通过第一目标模型对所述当前生产数据进行处理，得到第一目标注水数据，其中，所述第一目标模型通过基于所述油水井的第一历史生产数据进行强化学习训练得到，所述第一目标注水数据用于指示对所述油水井进行的第一目标注水策略；

按照所述第一目标注水策略对所述油水井进行注水，得到所述油水井的第一生产数据；

其中，在按照所述第一目标注水策略对所述油水井进行注水，得到所述油水井的第一生产数据之后，所述方法还包括：根据所述第一生产数据更新所述第一目标模型；按照更新后的所述第一目标模型对所述第一生产数据进行处理，得到第二目标注水数据，其中，所述第二目标注水数据用于指示对所述油水井进行的第二目标注水策略；按照所述第二目标注水策略对所述油水井进行注水，得到所述油水井的第二生产数据；在按照所述第二目标注水策略对所述油水井进行注水，得到所述油水井的第二生产数据之后，所述方法还包括：根据所述第二生产数据再次更新所述第一目标模型；按照再次更新后的所述第一目标模型对所述第二生产数据进行处理，得到第三目标注水数据，其中，所述第三目标注水数据用于指示对所述油水井进行的第三目标注水策略；按照所述第三目标注水策略对所述油水井进行注水，得到所述油水井的第三生产数据；

其中，根据所述第一生产数据更新所述第一目标模型包括：通过第二目标模型对所述第一生产数据进行评估，得到第一评估结果，其中，所述第二目标模型通过基于所述油水井的第二历史生产数据进行强化学习训练得到；按照所述第一评估结果更新所述第一目标模型，其中，所述第二目标模型用于向所述第一目标模型提供内部强化信号，所述内部强化信号用于使所述第一目标模型和所述第二目标模型在每一步进行学习。

2.根据权利要求1所述的方法，其特征在于，

在通过第二目标模型对所述第一生产数据进行评估，得到第一评估结果之后，所述方法还包括：通过所述第一评估结果和奖励值确定时序差分误差，其中，所述奖励值用于指示所述第一目标注水策略的质量，且基于所述第一生产数据中的产油量得到；通过所述时序差分误差对所述第二目标模型进行更新；

在按照所述第二目标注水策略对所述油水井进行注水，得到所述油水井的第二生产数据之后，所述方法还包括：通过更新后的所述第二目标模型对所述第二生产数据进行评估，得到第二评估结果。

3.根据权利要求1所述的方法，其特征在于，通过第一目标模型对所述当前生产数据进行处理，得到第一目标注水数据包括：

对由所述当前生产数据构成的状态空间进行处理，得到由所述第一目标注水数据构成的动作空间。

4.根据权利要求1至3中任意一项所述的方法，在通过第一目标模型对所述当前生产数据进行处理，得到第一目标注水数据之前，所述方法还包括：

获取目标地质参数，其中，所述目标地质参数为影响所述油水井产油的地质参数；

对所述目标地质参数和所述第一历史生产数据进行强化学习训练，得到所述第一目标模型。

5.根据权利要求1至3中任意一项所述的方法，在通过第一目标模型对所述当前生产数据进行处理，得到第一目标注水数据之后，所述方法还包括：

获取预先设定的目标调整数据；

通过所述目标调整数据对所述第一目标注水数据进行调整。

6.一种油田的注水数据的处理装置，其特征在于，包括：

获取单元，用于获取油水井的当前生产数据；

处理单元，用于通过第一目标模型对所述当前生产数据进行处理，得到第一目标注水数据，其中，所述第一目标模型通过基于所述油水井的第一历史生产数据进行强化学习训练得到，所述第一目标注水数据用于指示对所述油水井进行的第一目标注水策略；

注水单元，用于按照所述第一目标注水策略对所述油水井进行注水，得到所述油水井的第一生产数据；

其中，所述装置还用于在按照所述第一目标注水策略对所述油水井进行注水，得到所述油水井的第一生产数据之后，根据所述第一生产数据更新所述第一目标模型；按照更新后的所述第一目标模型对所述第一生产数据进行处理，得到第二目标注水数据，其中，所述第二目标注水数据用于指示对所述油水井进行的第二目标注水策略；按照所述第二目标注水策略对所述油水井进行注水，得到所述油水井的第二生产数据；在按照所述第二目标注水策略对所述油水井进行注水，得到所述油水井的第二生产数据之后，根据所述第二生产数据再次更新所述第一目标模型；按照再次更新后的所述第一目标模型对所述第二生产数据进行处理，得到第三目标注水数据，其中，所述第三目标注水数据用于指示对所述油水井进行的第三目标注水策略；按照所述第三目标注水策略对所述油水井进行注水，得到所述油水井的第三生产数据；

其中，所述装置用于通过以下步骤来根据所述第一生产数据更新所述第一目标模型：通过第二目标模型对所述第一生产数据进行评估，得到第一评估结果，其中，所述第二目标模型通过基于所述油水井的第二历史生产数据进行强化学习训练得到；按照所述第一评估结果更新所述第一目标模型，其中，所述第二目标模型用于向所述第一目标模型提供内部强化信号，所述内部强化信号用于使所述第一目标模型和所述第二目标模型在每一步进行学习。

7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的方法。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的方法。