CN113780652B

CN113780652B - 一种油井示功图故障诊断预测方法及装置

Info

Publication number: CN113780652B
Application number: CN202111041748.2A
Authority: CN
Inventors: 司志梅; 李汉周; 王掌洪; 王志; 任兴
Original assignee: China Petroleum and Chemical Corp; Sinopec Jiangsu Oilfield Co
Current assignee: China Petroleum and Chemical Corp; Sinopec Jiangsu Oilfield Co
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2024-05-14
Anticipated expiration: 2041-09-07
Also published as: CN113780652A

Abstract

本发明提供了一种油井示功图故障诊断预测方法及装置，该方法包括：获取真实油井工况下产生的带有时间信息以及油井信息的位移‑载荷序列数据；根据所述位移‑载荷序列数据得到油井示功图数据集；将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断。本申请针对油井示功图图形数据的特点，建立基于CNN的残差网络模型ResNet50，并使用在ImageNet上预训练后的参数对模型进行初始化，以此获得更好的泛化性能；针对示功图数据集本身存在的不平衡问题，使用修正类别不平衡的损失函数FocalLoss来增强模型的诊断性能。

Description

一种油井示功图故障诊断预测方法及装置

技术领域

本发明属于采油技术领域，具体而言，涉及一种油井示功图故障诊断预测方法及装置。

背景技术

在油井工况识别中，示功图故障诊断是其中一种重要的方法，它可以实时反映出气、油、水等井内因素对抽油机工况的影响，因此基于油井示功图的故障诊断是数字化油田中一项必不可少的研究内容。

随着油井静态和动态数据的日益庞大，传统的以人工为主的油井示功图诊断需要花费大量的人力、物力，且会受到人员专业经验的限制。近年来，随着机器学习技术的发展，利用海量数据对油井工况进行高精度识别成为了可能。人工神经网络、BP神经网络、自编码器等机器学习方法被应用在油井示功图诊断的场景下，且都取得了不错的效果。但是现有的油井示功图诊断方法在一些稀缺数据上的诊断正确率表现不佳，导致其使用局限性较高。

发明内容

本申请实施例提供了一种油井示功图故障诊断预测方法及装置，以更准确地对示功图进行分析，判别油井状况。

第一方面，本申请实施例提供了一种油井示功图故障诊断预测方法，包括：

获取真实油井工况下产生的带有时间信息以及油井信息的位移-载荷序列数据；

根据所述位移-载荷序列数据得到油井示功图数据集；

将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断。

其中，所述根据所述位移-载荷序列数据得到油井示功图数据集，包括：

将位移-载荷的序列数据转化为示功图的形式，并将同一油井下间隔固定时长的两张示功图分别以红色线和蓝色线进行表示，叠加到同一图片中，产生最终的油井示功图数据集，每个示功图大小为448x448像素。

其中，所述将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断，包括：

3a)对示功图数据集进行数据增强处理，将每张示功图以及其对应的故障类型视为一个样本，对于每一个样本中的示功图，将其大小缩放到256x256像素，再将其裁剪为224x224的大小以适应ResNet50的输入大小；

3b)构建带有FocalLoss的ResNet50模型，修改模型的损失函数表达式，将原先的标准交叉熵损失修改为修正类别不平衡的损失函数FocalLoss：L_focal＝-α_t*(1-p_t)^γ*log(p_t)，其中p_t为模型的预测输出值，γ和α_t为根据训练数据分布不同而手动设置的超参数，α_t被设置为样本所属的真实类别的总数的倒数；

3c)将经过ImageNet预训练过的权重迁移到ResNet50中，并修改最后一个全连接层，使其与示功图的故障类别数相匹配；

3d)使用步骤3a)中产生的数据，对模型进行训练，采用批训练的方法，选取batch_size＝32，并以5折交叉验证的方式选取步骤3b)中的超参数γ，迭代若干轮至模型收敛，得到最终的示功图故障分类模型。

其中，所述步骤3a还包括：

将裁剪完的图像进行水平翻转。

第二方面，本申请提供了一种油井示功图故障诊断预测装置包括：

获取单元，用于获取真实油井工况下产生的带有时间信息以及油井信息的位移-载荷序列数据；

转化单元，用于根据所述位移-载荷序列数据得到油井示功图数据集；

诊断单元，用于将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断。

其中，所述转化单元用于：

其中，所述诊断单元用于：

对示功图数据集进行数据增强处理，将每张示功图以及其对应的故障类型视为一个样本，对于每一个样本中的示功图，将其大小缩放到256x256像素，再将其裁剪为224x224的大小以适应ResNet50的输入大小；

构建带有FocalLoss的ResNet50模型，修改模型的损失函数表达式，将原先的标准交叉熵损失修改为修正类别不平衡的损失函数FocalLoss：L_focal＝-α_t*(1-p_t)^γ*log(p_t)，其中p_t为模型的预测输出值，γ和α_t为根据训练数据分布不同而手动设置的超参数，α_t被设置为样本所属的真实类别的总数的倒数；

将经过ImageNet预训练过的权重迁移到ResNet50中，并修改最后一个全连接层，使其与示功图的故障类别数相匹配；

使用步骤3a)中产生的数据，对模型进行训练，采用批训练的方法，选取batch_size＝32，并以5折交叉验证的方式选取步骤3b)中的超参数γ，迭代若干轮至模型收敛，得到最终的示功图故障分类模型。

其中，所述诊断单元用于：将裁剪完的图像进行水平翻转。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述方法的步骤。

第四方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述方法的步骤。

本申请实施例油井示功图故障诊断预测方法及装置具有如下有益效果：

本申请油井示功图故障诊断预测方法包括：获取真实油井工况下产生的带有时间信息以及油井信息的位移-载荷序列数据；根据所述位移-载荷序列数据得到油井示功图数据集；将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断。本申请针对油井示功图图形数据的特点，建立基于CNN的残差网络模型ResNet50，并使用在ImageNet上预训练后的参数对模型进行初始化，以此获得更好的泛化性能；针对示功图数据集本身存在的不平衡问题，使用修正类别不平衡的损失函数FocalLoss来增强模型的诊断性能。

附图说明

图1为本申请实施例油井示功图故障诊断预测方法流程示意图；

图2为本申请实施例模型预测的流程图；

图3为本申请实施例油井示功图故障诊断预测装置的结构示意图；

图4为本申请实施例计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行进一步的介绍。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本发明的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

在GPU计算时代到来以后，深度学习逐渐从众多方法中脱颖而出，而其中最具有代表性的图像识别方法便是卷积神经网络(CNN)，自2018年起，也有不少从业人员尝试应用卷积神经网络进行示功图故障诊断的探索性研究。但纵观此类方法，其仍然存在有以下缺点：一是：深度学习模型的识别准确率，一定程度上依赖于数据集的好坏，类别数目越均衡的大型数据集，越能取得良好的训练效果。油井示功图诊断的场景下，诸如固定漏失、游动漏失等故障，由于其本身的稀缺性，导致样本数量较少，因而在整个数据集上呈现出长尾分布，这对于深度学习模型的训练以及最终的诊断正确率会产生非常大的负面影响。然而现今存在的基于卷积神经网络的示功图诊断模型并没有针对数据长尾分布的问题作出相应调整，因此在一些稀缺数据上的诊断正确率表现不佳。二是：深度学习模型的表现的优劣也取决于网络参数的初始化好坏，一些现有的示功图诊断模型通常采用随机初始化的方法来设定网络的初始参数，这会在一定程度上影响模型的最终收敛，从而降低了故障诊断的表现。

随着AI(Artificial Intelligence，人工智能)的快速发展，基于深度学习的技术日益成熟；另一方面，油田静态和动态数据日益庞大，以人工为主的油井工况诊断逐渐过时。面对海量油井功图数据，如何高效准确对其进行分析，判别油井状况，面临着巨大的挑战。在进行大数据分析时，经常会使用机器学习相关技术，针对数据特点进行各类技术的应用。油井功图数据往往具有类别不均衡，数据量庞大等问题，因此必然需要使用机器学习相关技术，来应对海量数据的分类要求。

实施例一

本申请油井示功图故障诊断预测方法包括：获取真实油井工况下产生的带有时间信息以及油井信息的位移-载荷序列数据；根据所述位移-载荷序列数据得到油井示功图数据集；将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断。本申请能够更准确地对示功图进行分析，判别油井状况。

实施例二

如图1所示，本申请油井示功图故障诊断预测方法包括：S101，获取真实油井工况下产生的带有时间信息以及油井信息的位移-载荷序列数据；S103，根据所述位移-载荷序列数据得到油井示功图数据集；S105，将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断。

本申请针对油井示功图图形数据的特点，建立基于CNN的残差网络模型ResNet50，并使用在ImageNet上预训练后的参数对模型进行初始化，以此获得更好的泛化性能；针对示功图数据集本身存在的不平衡问题，使用修正类别不平衡的损失函数FocalLoss来增强模型的诊断性能。下面进行详细介绍。

如图1-2所示，S101，获取真实油井工况下产生的带有时间信息以及油井信息的位移-载荷序列数据。

数据采集，获取足够多的真实油井工况下产生的带有时间信息以及油井信息的位移-载荷序列数据。

S103，根据所述位移-载荷序列数据得到油井示功图数据集。

数据预处理，将位移-载荷的序列数据转化为示功图的形式，并将同一油井下间隔固定时长的两张示功图分别以红色线和蓝色线进行表示，叠加到同一图片中，产生最终的油井示功图数据集，其中每个示功图大小为448x448像素。

S105，将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断。

模型预测，将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet模型进行故障类型诊断。

具体地，包括：

步骤3a)对步骤2中所产生的示功图数据集进行数据增强处理，将每张示功图以及其对应的故障类型视为一个样本，对于每一个样本中的示功图，首先将其大小缩放到256x256像素，之后将其随机裁剪为224x224的大小以适应ResNet50的输入大小。为了提升模型的泛化性能，最后一步中将裁剪完的图像进行随机水平翻转，使得模型尽可能学习到有助于故障分类的局部特征；

步骤3b)构建带有FocalLoss的ResNet50模型，在其余部分保持不变的情况下，修改模型的损失函数表达式，将原先的标准交叉熵损失修改为修正类别不平衡的损失函数FocalLoss：L_focal＝-α_t*(1-p_t)^γ*log(p_t)，其中p_t为模型的预测输出值，γ和α_t为根据训练数据分布不同而手动设置的超参数，α_t被设置为样本所属的真实类别的总数的倒数。从FocalLoss函数的数学形式上可以看出，针对参数α_t而言，对于类别数较少的样本，模型会产生一个较大的损失值，而类别数较多的样本则产生一个较小的损失值，以此来指导模型进行类别不平衡情况的训练；针对参数p _t而言，对于容易分类的样本，预测输出值较大，因此损失值较小；相反，对于难分样本的损失值则较大，从而指导模型专注于对难分样本的学习；

步骤3c)将经过ImageNet预训练过的权重迁移到ResNet50中，并修改最后一个全连接层，使其与示功图的故障类别数相匹配，此层参数使用随机初始化；

步骤3d)使用步骤3a)中产生的数据，对模型进行训练，采用批训练的方法，选取batch_size＝32，并以5折交叉验证的方式选取步骤3b)中的超参数γ，迭代若干轮例如10000轮至模型收敛，得到最终的示功图故障分类模型。

本发明具有以下有益效果：

由于现实情况下油井故障出现的不平衡性，示功图数据集会不可避免地出现类别不平衡的问题，也称长尾分布问题，即少数类别在样本数量上占据主体，部分故障数据由于其出现频率较低表现出稀缺性，使用传统的机器学习方法，直接以该不平衡的数据集进行模型训练会对模型的泛化性产生强烈的负面影响。本发明使用迁移学习中的预训练-微调范式，结合针对类别不平衡的损失函数FocalLoss，在降低长尾分布所带来的负效应，提升模型在油井示功图故障诊断的性能上具有显著效果。

深度学习模型的表现的优劣会让很大程度上取决于网络参数的初始化好坏，一些现有的示功图诊断模型通常采用随机初始化的方法来设定网络的初始参数，这会在一定程度上影响模型的最终收敛，从而降低了故障诊断的表现。受迁移学习的启发，我们将大型图像数据集ImageNet下训练好的参数作为网络的初始参数，并在此基础上使用示功图数据进行参数微调，解决了因网络参数而导致的模型不稳定。本发明使用的损失函数FocalLoss，提升了模型对于稀缺样本的学习程度，增强了对于少样本类别的比重，显著提高了模型在一些稀缺数据上的诊断正确率。

如图3所示，本申请提供了一种油井示功图故障诊断预测装置，包括：获取单元201，用于获取真实油井工况下产生的带有时间信息以及油井信息的位移-载荷序列数据；转化单元202，用于根据所述位移-载荷序列数据得到油井示功图数据集；诊断单元203，用于将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断。

其中，转化单元用于：将位移-载荷的序列数据转化为示功图的形式，并将同一油井下间隔固定时长的两张示功图分别以红色线和蓝色线进行表示，叠加到同一图片中，产生最终的油井示功图数据集，其中每个示功图大小为448x448像素。

其中，诊断单元用于：

对示功图数据集进行数据增强处理，将每张示功图以及其对应的故障类型视为一个样本，对于每一个样本中的示功图，将其大小缩放到256x256像素，再将其随机裁剪为224x224的大小以适应ResNet50的输入大小；

构建带有FocalLoss的ResNet50模型，在其余部分保持不变的情况下，修改模型的损失函数表达式，将原先的标准交叉熵损失修改为修正类别不平衡的损失函数FocalLoss：L_focal＝-α_t*(1-p_t)^γ*log(p_t)，其中p_t为模型的预测输出值，γ和α_t为根据训练数据分布不同而手动设置的超参数，α_t被设置为样本所属的真实类别的总数的倒数；

使用步骤3a)中产生的数据，对模型进行训练，采用批训练的方法，选取batch_size＝32，并以5折交叉验证的方式选取步骤3b)中的超参数γ，迭代若干轮例如10000轮至模型收敛，得到最终的示功图故障分类模型。

本申请中，油井示功图故障诊断预测装置实施例与油井示功图故障诊断预测方法实施例基本相似，相关之处请参考油井示功图故障诊断预测方法实施例的介绍。

本发明提出了一种基于迁移学习和残差网络的对数据不平衡的油井示功图进行故障诊断的方法。数据采集阶段，获取足够多带有时间信息的的位移-载荷序列数据；数据预处理阶段，将所有的位移载荷数据转化为示功图，并将间隔固定时间段的两张示功图进行叠加，得到带有时间信息的油井示功图数据集；模型预测阶段，首先对于示功图数据集中的图像进行一定程度的缩放，裁剪，旋转，形成新的数据集，随后使用在ImageNet上预训练的ResNet50作为基础模型，根据迁移学习中的预训练-微调范式，利用示功图数据集对模型进行微调，同时使用修正类别不平衡的损失函数缓和数据本身的不平衡问题。本发明使用残差网络ResNet对油井示功图进行故障诊断，同时加入了类别不平衡的损失函数，相比于原始的交叉熵损失，能够更好的应对示功图数据所存在的数据不平衡问题对于诊断结果的影响。

本领域的技术人员可以清楚地了解到本发明实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)、IC(Integrated Circuit，集成电路)等。

本发明实施例的各处理单元和/或模块，可通过实现本发明实施例所述的功能的模拟电路而实现，也可以通过执行本发明实施例所述的功能的软件而实现。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述油井示功图故障诊断预测方法步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

图4为本申请实施例计算机设备的结构示意图，如图4所示，本申请的计算机设备例如为膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。本申请计算机设备包括处理器401、存储器402、输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线405或者其他方式连接。存储器402上存储有计算机程序，该计算机程序可在处理器401上运行，而且处理器401执行程序时实现上述油井示功图故障诊断预测方法步骤。

输入装置403可接收输入的数字或字符信息，以及产生与数据处理计算机设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器、等离子体显示器和触摸屏。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上介绍仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种油井示功图故障诊断预测方法，其特征在于，包括：

根据所述位移-载荷序列数据得到油井示功图数据集；

将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断，包括：

3a)对示功图数据集进行数据增强处理，将每张示功图以及其对应的故障类型视为一个样本，对于每一个样本中的示功图，将其大小缩放到256x256像素，再将其裁剪为224x224的大小以适应ResNet50的输入大小；所述步骤3a还包括：将裁剪完的图像进行水平翻转；

3b)构建带有FocalLoss的ResNet50模型，修改模型的损失函数表达式，将原先的标准交叉熵损失修改为修正类别不平衡的损失函数FocalLoss：

L_focal＝-α_t*(1-p_t)^γ*log(p_t)，其中p_t为模型的预测输出值，γ和α_t为根据训练数据分布不同而手动设置的超参数，α_t被设置为样本所属的真实类别的总数的倒数；

2.根据权利要求1所述油井示功图故障诊断预测方法，其特征在于，所述根据所述位移-载荷序列数据得到油井示功图数据集，包括：

3.一种油井示功图故障诊断预测装置，其特征在于，包括：

诊断单元，用于将数据增强后的示功图数据集输入带有ImageNet预训练权重以及FocalLoss损失函数的ResNet50模型进行故障类型诊断；用于：

3d)使用步骤3a)中产生的数据，对模型进行训练，采用批训练的方法，选取batch_size＝32，并以5折交叉验证的方式选取步骤3b)中的超参数γ，迭代若干轮至模型收敛，得到最终的示功图故障分类模型；

所述诊断单元用于：将裁剪完的图像进行水平翻转。

4.根据权利要求3所述油井示功图故障诊断预测装置，其特征在于，所述转化单元用于：

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-2中任一项所述方法的步骤。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-2中任一项所述方法的步骤。