CN112926805B

CN112926805B - 基于深度强化学习的直井试井智能解释方法及装置

Info

Publication number: CN112926805B
Application number: CN202110386833.6A
Authority: CN
Inventors: 陈志明; 董鹏; 熊佩雯; 赵晓亮; 芮振华
Original assignee: China University of Petroleum Beijing
Current assignee: China University of Petroleum Beijing
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2023-11-10
Anticipated expiration: 2041-04-12
Also published as: CN112926805A

Abstract

本发明公开了一种基于深度强化学习的直井试井智能解释方法及装置，其涉及油气开发技术领域，方法包括：根据深度学习算法建立适用于试井曲线拟合的智能体；根据应用需要建立基于现代试井分析理论的试井模型，并确定需要识别的试井模型参数；基于试井模型构建与所述智能体互动的环境；使用所述环境生成的预测试井曲线训练所述智能体，使所述智能体自动调整试井模型参数以拟合目标试井曲线；将实测试井曲线作为目标曲线输入训练好的的所述智能体中，所述智能体通过调整试井模型参数从而输出与实测试井曲线所对应试井模型的参数。本申请能够根据所针对的各种试井模型的参数进行反演，具有良好的通用性，高效的参数拟合速度和准确的参数拟合结果。

Description

基于深度强化学习的直井试井智能解释方法及装置

技术领域

本发明涉及油气开发技术领域，特别涉及一种基于深度强化学习的直井试井智能解释方法及装置。

背景技术

准确评价储层和井筒参数是油气勘探开发成功的关键。试井分析是通过分析压力资料获得地层参数和储层特征的有效方法之一。然而，人工试井解释所产生的多解性问题一直困扰着油藏工程师们，因此迫切需要开发一种鲁棒、准确的自动解释方法。并且，随着非常规油气资源的不断深入开发，试井理论模型变得日益复杂，尤其对于页岩油气及致密油气开发过程中大型压裂技术产生的复杂缝网，人工进行曲线拟合存在速度慢、精度低等缺点。为了克服人为因素造成的偏差，提高拟合效率，因此亟需一种新型的基于深度强化学习的直井试井智能解释方法及装置。

发明内容

为了克服现有技术的上述缺陷，本发明实施例中提供了一种基于深度强化学习的直井试井智能解释方法及装置，其能够根据所针对的各种试井模型的参数进行反演，具有良好的通用性，高效的参数拟合速度和准确的参数拟合结果。

本发明实施例的具体技术方案是：

一种基于深度强化学习的直井试井智能解释方法，它包括：

根据深度学习算法建立适用于试井曲线拟合的智能体，所述智能体基本结构为竞争双深Q网络，所述智能体具包括具有多分支结构的动作价值函数Q(s,a；θ)，多分支结构的分支数与所需反演的试井模型参数的数量一致，其中s表示状态，a表示动作，θ表示动作价值函数的参数；

根据应用需要建立基于现代试井分析理论的试井模型，并确定需要识别的试井模型参数；

基于试井模型构建与所述智能体互动的环境；

使用所述环境生成的预测试井曲线训练所述智能体，使所述智能体自动调整试井模型参数以拟合目标试井曲线；

将实测试井曲线作为目标曲线输入训练好的的所述智能体中，所述智能体通过调整试井模型参数从而输出与实测试井曲线所对应试井模型的参数。

优选地，所述智能体的动作价值函数Q(s,a；θ)的输入为环境计算得到的预测试井曲线和目标试井曲线所组成的状态；

预测试井曲线和目标试井曲线所组成的状态至少包括以下之一：由预测试井曲线和目标试井曲线的压力导数与时间组成的浮点数据、由预测试井曲线和目标试井曲线组成的图像；当预测试井曲线和目标试井曲线所组成的状态为由预测试井曲线和目标试井曲线的压力导数与时间组成的浮点数据时，所述动作价值函数Q(s,a；θ)的根部为全连接神经网络；当预测试井曲线和目标试井曲线所组成的状态为由预测试井曲线和目标试井曲线组成的图像时，所述动作价值函数Q(s,a；θ)的根部为卷积神经网络。

优选地，所述智能体的动作价值函数Q(s,a；θ)的网络分为在线D3QN网络和目标D3QN网络，所述在线D3QN网络与环境进行互动，并计算预测的动作Q值，所述目标D3QN网络用来计算目标的动作Q值，目标函数由预测的动作Q值和目标的动作Q值的差值决定，所述目标D3QN网络的参数由所述在线D3QN网络的参数延时拷贝获得更新；

所述智能体具有一个经验回放缓冲区，该缓冲区存储了以上一步状态、动作、奖励、下一步状态为元组的一系列数据，用以后期训练所述智能体。

优选地，所述试井模型至少包括以下之一：直井模型以及具有直井的组合模型；具有直井的组合模型包括均质储层直井、双重介质储层直井、复合储层直井和双渗储层直井模型。

优选地，所述试井模型参数至少包括以下之一：油藏基质渗透率、油藏边界大小、井筒储集系数、表皮因子、裂缝参数、储层参数。

优选地，在步骤基于试井模型构建与所述智能体互动的环境中，所述环境接收来自所述智能体每个分支的调参动作，所述环境内依据参数的范围和分布确定调参步长后更新试井模型参数，将更新的试井模型参数输入试井模型以获得计算的试井曲线；之后，所述环境返回计算的试井曲线及对应每个分支调参动作的奖励值，存入所述智能体经验回放缓冲区，所述智能体从经验回放缓冲区随机抽取上一步状态、动作、奖励、下一步状态中的至少部分元组进行学习；

所述奖励值的设置由调整前的参数减去目标值的绝对值，再减去调整后的参数减去目标值的绝对值所决定，具体设置公式如下：

其中，w(ψ(a))表示采取动作a时对应试井模型参数ψ的权重，δ表示完成拟合时最大误差限。

优选地，在步骤使用所述环境生成的预测试井曲线训练所述智能体中，具体包括以下步骤：

步骤一：随机初始化所述智能体的参数及目标试井曲线，固定初始化预测目标曲线；

步骤二：将所述目标试井曲线和所述预测试井曲线拼接作为状态输入到所述智能体中；

步骤三：所述智能体每个分支分别为对应的试井模型参数采取调参动作，输入到所述环境中，所述环境更新预测的试井模型参数后生成预测曲线及每个分支对应的奖励，并存入经验回放缓冲区，所述智能体从所述经验回放缓冲区随机抽取上一步状态、动作、奖励、下一步状态中至少部分元组，使用贝尔曼方程更新所述智能体参数；

步骤四：重复上述步骤一至步骤三，直至所有参数误差小于最大误差限或到达最大调参步数，从而完成对所述智能体一幕训练；

步骤五：重复上述步骤一至步骤四，对所述智能体进行多幕训练，直至奖励值变化稳定或所述智能体参数收敛。

优选地，使用贝尔曼方程更新所述智能体参数，更新方程如下：

其中，α表示学习率，γ表示折扣因子，V表示价值函数，A表示优势函数，/>表示优势函数均值，s'表示下一状态，Q_sub表示分支Q网络。

优选地，在步骤将实测试井曲线作为目标曲线输入训练好的的所述智能体中，所述智能体通过调整试井模型参数从而输出与实测试井曲线所对应试井模型的参数中，在推算过程中，所述智能体不进行参数更新，并与所述环境不断互动来不断依据所述环境所反馈的预测试井曲线选取参数调整动作，直至实测试井曲线与预测试井曲线相对误差小于预设值为止。

一种基于深度强化学习的直井试井智能解释装置，它包括：存储器和处理器，存储器中存储计算机程序，所述计算机程序在被所述处理器执行时，实现以下步骤：如上述任一所述的基于深度强化学习的直井试井智能解释方法。

本申请具有如下有效效果：

1、相较于人工拟合方法，该发明避免了多解性问题的产生及人为因素导致的解释误差。

2、相比于最小二乘法，该方法无需求取试井模型导数及二阶导数，不会陷入局部最优解。

3、相比于全局参数优化方法，智能体训练完成后无需再进行迭代计算，提高了解释速度达到2倍至5倍。

附图说明

在此描述的附图仅用于解释目的，而不意图以任何方式来限制本发明公开的范围。另外，图中的各部件的形状和比例尺寸等仅为示意性的，用于帮助对本发明的理解，并不是具体限定本发明各部件的形状和比例尺寸。本领域的技术人员在本发明的教导下，可以根据具体情况选择各种可能的形状和比例尺寸来实施本发明。

图1为本发明在实施例中的流程图。

图2为本发明实施例中智能体的动作价值函数Q(s,a；θ)的网络结构图。

图3为本发明实施例中训练过程示意图。

图4为本发明具体实施方式案例的曲线拟合初始状态。

图5为本发明具体实施方式案例的曲线拟合完成状态。

图6为本发明具体实施方式案例中井的基本参数。

图7为本发明具体实施方式案例中该井的参数解释结果。

具体实施方式

结合附图和本发明具体实施方式的描述，能够更加清楚地了解本发明的细节。但是，在此描述的本发明的具体实施方式，仅用于解释本发明的目的，而不能以任何方式理解成是对本发明的限制。在本发明的教导下，技术人员可以构想基于本发明的任意可能的变形，这些都应被视为属于本发明的范围。

为了能够根据所针对的各种试井模型的参数进行反演，具有良好的通用性，高效的参数拟合速度和准确的参数拟合结果，在本申请中提出了一种基于深度强化学习的直井试井智能解释方法，图1为本发明在实施例中的流程图，如图1所示，它可以包括如下步骤：

S101：根据深度学习算法建立适用于试井曲线拟合的智能体，所述智能体基本结构为竞争双深Q网络(Dueling Double Deep Q-network，缩写为D3QN)。图2为本发明实施例中智能体的动作价值函数Q(s,a；θ)的网络结构图，如图2所示，所述智能体具包括具有多分支结构的动作价值函数Q(s,a；θ)，多分支结构的分支数与所需反演的试井模型参数的数量一致，其中s表示状态，a表示动作，θ表示动作价值函数的参数。

在本步骤中，所述智能体的动作价值函数Q(s,a；θ)的输入为环境计算得到的预测试井曲线和目标试井曲线所组成的状态。

预测试井曲线和目标试井曲线所组成的状态至少包括以下之一：由预测试井曲线和目标试井曲线的压力导数与时间组成的浮点数据、由预测试井曲线和目标试井曲线组成的图像。当预测试井曲线和目标试井曲线所组成的状态为由预测试井曲线和目标试井曲线的压力导数与时间组成的浮点数据时，所述动作价值函数Q(s,a；θ)的根部为全连接神经网络。当预测试井曲线和目标试井曲线所组成的状态为由预测试井曲线和目标试井曲线组成的图像时，所述动作价值函数Q(s,a；θ)的根部为卷积神经网络。

在多分支结构中，每个分支的输出为三个动作的Q值：增大该参数的Q值，保持该参数不变的Q值，和减小该参数的Q值，所述智能体依据Q值选择具体动作。

图3为本发明实施例中训练过程示意图，如图3所示，所述智能体的动作价值函数Q(s,a；θ)的网络分为在线D3QN网络和目标D3QN网络，所述在线D3QN网络与环境进行互动，并计算预测的动作Q值，所述目标D3QN网络用来计算目标的动作Q值，目标函数由预测的动作Q值和目标的动作Q值的差值决定。所述目标D3QN网络的参数由所述在线D3QN网络的参数延时拷贝获得更新。在线D3QN和目标D3QN的主要区别是在线D3QN需要进行参数更新，而目标D3QN不需要参数更新。

所述智能体具有一个经验回放缓冲区，该缓冲区存储了以上一步状态、动作、奖励、下一步状态为元组的一系列数据，用以后期在S104中训练所述智能体。

S102：根据应用需要建立基于现代试井分析理论的试井模型，并确定需要识别的试井模型参数。

在本步骤中，根据应用需要建立基于现代试井分析理论的试井模型，该试井模型可以是直井模型以及具有直井的组合模型，具有直井的组合模型可以包括均质储层直井、双重介质储层直井、复合储层直井和双渗储层直井模型等。同时，并确定需要识别的试井模型参数，所述试井模型参数可以包括以下参数：油藏基质渗透率、油藏边界大小、井筒储集系数、表皮因子、裂缝参数、储层参数。通过对实际地层和井筒作合理假设，以描述地层和井筒中流体流动状况而建立起来的渗流模型作为试井模型，试井模型可以由内边界条件(井筒条件)、油藏特性和外边界条件组成。

在一个具体的实施例中，试井模型待反演参数为渗透率K，无因次井筒储集系数C_D，表皮系数S。因此，步骤S101中所述智能体存在三个分支。K、C_D、S设置在符合矿场数据分布的一定范围内，如K的范围设定为(0.1～100md)，C_D的范围设定为(10～10000)，S的范围设定为(0～10)。

S103：基于试井模型构建与所述智能体互动的环境。

在本步骤中，如图3所示，所述环境接收来自所述智能体每个分支的调参动作，所述环境内依据参数的范围和分布确定调参步长后更新试井模型参数。在一个具体的实施例中，接收来自所述智能体每个分支的调参动作a1、a2、a3，环境内确定调参步长为K设为1md/步，C_D设为10/步，S设为0.05/步。

将更新的试井模型参数输入试井模型以获得计算的试井曲线。之后，如图3所示，所述环境返回计算的试井曲线及对应每个分支调参动作的奖励值，存入所述智能体经验回放缓冲区，所述智能体从经验回放缓冲区随机抽取上一步状态、动作、奖励、下一步状态中的至少部分元组进行学习。

所述奖励值的设置由调整前的参数减去目标值的绝对值，再减去调整后的参数减去目标值的绝对值所决定，决定，具体设置公式如下：

上述公式中具体设置的优势在于：1、负奖励(-1.1×w(ψ(a)))大于正奖励(w(ψ(a)))可以让智能体尽可能块地完成曲线拟合任务。2、可以为每个试井模型参数设置奖励权重w，可以改善非敏感参数或重要参数的解释结果。

在一个具体的实施例中，此处为三个参数的权重设为w(K)＝2,w(C_D)＝1,w(S)＝1。δ设为10％。

S104：使用所述环境生成的预测试井曲线训练所述智能体，使所述智能体自动调整试井模型参数以拟合目标试井曲线，具体可以包括以下步骤：

S201：随机初始化所述智能体的参数及目标试井曲线，固定初始化预测目标试井曲线。在一个具体的实施例中，设置曲线参数为K＝1md，C_D＝100，S＝1。

S202:将所述目标试井曲线和所述预测试井曲线拼接作为状态输入到所述智能体中。

S203:所述智能体每个分支分别为对应的试井模型参数采取调参动作，输入到所述环境中。在一个具体的实施例中，调参动作为a1、a2、a3。如图3所示，所述环境更新预测的试井模型参数后生成预测曲线及每个分支对应的奖励，并存入经验回放缓冲区，所述智能体从所述经验回放缓冲区随机抽取上一步状态、动作、奖励、下一步状态中至少部分元组，使用贝尔曼方程更新所述智能体参数。更新方程具体如下：

S204：重复上述S201至S203，直至所有参数误差小于最大误差限或到达最大调参步数，从而完成对所述智能体一幕训练.

S205：重复上述S201至S204，对所述智能体进行多幕训练，直至奖励值变化稳定或所述智能体参数收敛。

S105：将实测试井曲线作为目标曲线输入训练好的的所述智能体中，所述智能体通过调整试井模型参数从而输出与实测试井曲线所对应试井模型的参数。

在该过程中，输出与实测试井曲线所对应试井模型的一系列参数，是在智能体的推算过程中。智能体在此过程中不进行参数更新，并与环境不断互动来不断依据环境所反馈的状态选取参数调整动作，直至实测试井曲线与预测试井曲线相对误差小于预设值为止，预设值为人为设置值，例如可以是10％。

图4为本发明具体实施方式案例的曲线拟合初始状态，图5为本发明具体实施方式案例的曲线拟合完成状态，如图4和图5所示，为自动拟合前后效果图，此案例为庄古断块的开发准备井。在钻井过程中，重泥浆被用来压井，所以表皮较大。图6为本发明具体实施方式案例中井的基本参数，该井的自动解释结果如图7所示。

现有的试井解释方法一般包括人工调参拟合试井曲线方法和自动拟合方法。自动拟合方法又包括最小二乘法和全局参数优化方法，例如如遗传算法和粒子群优化算法。相比于上述现有的试井解释方法，本申请中的基于深度强化学习的直井试井智能解释方法具体优势如下：1、相较于人工拟合方法，该发明避免了多解性问题的产生及人为因素导致的解释误差。2、相比于最小二乘法，该方法无需求取试井模型导数及二阶导数，不会陷入局部最优解。3、相比于全局参数优化方法，智能体训练完成后无需再进行迭代计算，提高了解释速度达到2倍至5倍。整体而言，本申请中的基于深度强化学习的直井试井智能解释方法对噪声有良好的容忍性；其次，相较于传统的无梯度优化算法，如粒子群优化和遗产算法等等，本方法拟合速度可以提高3至10倍，并且可以使得拟合参数方差大幅减小。

在本申请中还提出了一种基于深度强化学习的直井试井智能解释装置，它包括：存储器和处理器，存储器中存储计算机程序，所述计算机程序在被所述处理器执行时，实现以下步骤：如上述任一所述的基于深度强化学习的直井试井智能解释方法。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。该计算机软件产品可以包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。该计算机软件产品可以存储在内存中，内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括短暂电脑可读媒体(transitory media)，如调制的数据信号和载波。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

Claims

1.一种基于深度强化学习的直井试井智能解释方法，其特征在于，它包括：

根据深度学习算法建立适用于试井曲线拟合的智能体，所述智能体基本结构为竞争双深Q网络，所述智能体具包括具有多分支结构的动作价值函数，多分支结构的分支数与所需反演的试井模型参数的数量一致，其中s表示状态，a表示动作，θ表示动作价值函数的参数；所述智能体的动作价值函数/>的输入为环境计算得到的预测试井曲线和目标试井曲线所组成的状态；预测试井曲线和目标试井曲线所组成的状态至少包括以下之一：由预测试井曲线和目标试井曲线的压力导数与时间组成的浮点数据、由预测试井曲线和目标试井曲线组成的图像；当预测试井曲线和目标试井曲线所组成的状态为由预测试井曲线和目标试井曲线的压力导数与时间组成的浮点数据时，所述动作价值函数的根部为全连接神经网络；当预测试井曲线和目标试井曲线所组成的状态为由预测试井曲线和目标试井曲线组成的图像时，所述动作价值函数/>的根部为卷积神经网络；所述智能体的动作价值函数/>的网络分为在线D3QN网络和目标D3QN网络，所述在线D3QN网络与环境进行互动，并计算预测的动作Q值，所述目标D3QN网络用来计算目标的动作Q值，目标函数由预测的动作Q值和目标的动作Q值的差值决定，所述目标D3QN网络的参数由所述在线D3QN网络的参数延时拷贝获得更新；所述智能体具有一个经验回放缓冲区，该缓冲区存储了以上一步状态、动作、奖励、下一步状态为元组的一系列数据，用以后期训练所述智能体；

基于试井模型构建与所述智能体互动的环境；其中，所述环境接收来自所述智能体每个分支的调参动作，所述环境内依据参数的范围和分布确定调参步长后更新试井模型参数，将更新的试井模型参数输入试井模型以获得计算的试井曲线；之后，所述环境返回计算的试井曲线及对应每个分支调参动作的奖励值，存入所述智能体经验回放缓冲区，所述智能体从经验回放缓冲区随机抽取上一步状态、动作、奖励、下一步状态中的至少部分元组进行学习；

其中，/> 表示采取动作a时对应试井模型参数/>的权重，/>表示完成拟合时最大误差限；

使用所述环境生成的预测试井曲线训练所述智能体，使所述智能体自动调整试井模型参数以拟合目标试井曲线；在步骤使用所述环境生成的预测试井曲线训练所述智能体中，具体包括以下步骤：

步骤五：重复上述步骤一至步骤四，对所述智能体进行多幕训练，直至奖励值变化稳定或所述智能体参数收敛；

2.根据权利要求1所述的基于深度强化学习的直井试井智能解释方法，其特征在于，所述试井模型至少包括以下之一：直井模型以及具有直井的组合模型；具有直井的组合模型包括均质储层直井、双重介质储层直井、复合储层直井和双渗储层直井模型。

3.根据权利要求1所述的基于深度强化学习的直井试井智能解释方法，其特征在于，所述试井模型参数至少包括以下之一：油藏基质渗透率、油藏边界大小、井筒储集系数、表皮因子、裂缝参数、储层参数。

4.根据权利要求1所述的基于深度强化学习的直井试井智能解释方法，其特征在于，使用贝尔曼方程更新所述智能体参数，更新方程如下：

；其中，，/>表示学习率，/>表示折扣因子，V表示价值函数，A表示优势函数，/>表示优势函数均值，/>表示下一状态，Q _sub表示分支Q网络。

5.根据权利要求1所述的基于深度强化学习的直井试井智能解释方法，其特征在于，在步骤将实测试井曲线作为目标曲线输入训练好的的所述智能体中，所述智能体通过调整试井模型参数从而输出与实测试井曲线所对应试井模型的参数中，在推算过程中，所述智能体不进行参数更新，并与所述环境不断互动来不断依据所述环境所反馈的预测试井曲线选取参数调整动作，直至实测试井曲线与预测试井曲线相对误差小于预设值为止。

6.一种基于深度强化学习的直井试井智能解释装置，其特征在于，它包括：存储器和处理器，存储器中存储计算机程序，所述计算机程序在被所述处理器执行时，实现以下步骤：如权利要求1至5中任一所述的基于深度强化学习的直井试井智能解释方法。