CN112949196B

CN112949196B - 一种基于残差神经网络的抽油机井故障诊断方法及系统

Info

Publication number: CN112949196B
Application number: CN202110264318.0A
Authority: CN
Inventors: 檀朝东; 陈培堯; 冯钢; 檀竹南
Original assignee: Beijing Yadan Petroleum Technology Co ltd; China University of Petroleum Beijing
Current assignee: Beijing Yadan Petroleum Technology Co ltd; China University of Petroleum Beijing
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2023-05-12
Anticipated expiration: 2041-03-11
Also published as: CN112949196A

Abstract

本发明涉及油气勘探与开发技术领域，特别涉及一种基于残差神经网络的抽油机井故障诊断方法及系统；所述的方法包括使用当前示功图实际载荷最值进行归一化，以及，对于当前的示功图数据集，使用聚类算法获得k个归一化尺度，进而获得k+1个归一化示功图；然后将示功图二值化，基于pytorch实现了k+1输入通道的18层残差卷积神经网络作为图像识别网络模型；本发明结合示功图多尺度归一化方法，构建了多通道的深度残差卷积神经网络的示功图分类模型，使用了BN、Relu等深度学习的神经网络训练技术，在多尺度归一化方法(k＝10)得到的数据集下训练、测试，该模型收敛鲁棒性好，测试准确率达到95.6％。

Description

一种基于残差神经网络的抽油机井故障诊断方法及系统

技术领域

本发明涉及油气勘探与开发技术领域，特别涉及一种基于残差神经网络的抽油机井故障诊断方法及系统。

背景技术

抽油机井的故障诊断一直是油田生产中的难点与重点，在过去的几十年中，通过科研人员的努力，抽油机井故障诊断技术有了很大提高，取得了一些阶段性的成果，而近几年人工智能技术的发展，为故障诊断技术的研究带来了新的活力。

目前应用广泛的抽油机井故障诊断技术中，比较常用的方法有：1)故障专家系统，模拟人类专家分析抽油机工况的计算机系统，此方法将计算机与人工智能相结合，根据多个专家提供的工况分析经验，对抽油机工况进行推理判断，但是专家系统只针对写入到程序中的特定抽油机示功图反映的工况，对于不同类型抽油机需要重新设计实现程序，无法推广使用；2)机器学习方法，在示功图分类识别问题上取得了不错的准确率，但仍然无法满足实际生产的需求，需要扩充数据集，提高分类识别准确率、缩短模型训练时间方法；3)深度学习方法，深度学习模型不断的更新改进，计算机硬件特别是GPU的发展，大大提高了图像分类识别的准确率，但是适用于抽油机故障诊断的应用较少，无法充分发挥它们的优势。

油田生产中，实测抽油机井示功图类型可达20余种，有些工况非常复杂，基于示功图识别的常用抽油机井工况诊断模型，在现场多种工况诊断应用中的准确率及复杂工况召回率均较低，诊断结果不确定性问题突出。为此，提出本发明。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于残差神经网络的抽油机井故障诊断方法，以实现抽油机井故障的智能诊断，确保现场工况诊断的准确率，以及杆断脱、泵阀严重漏失、上碰泵等严重工况的召回率，满足抽油机井工况智能诊断的现场实际需求。

为了实现上述目的，本发明采用以下技术方案予以实现：

一种基于残差神经网络的抽油机井故障诊断方法，所述的方法包括：

使用当前示功图实际载荷最值进行归一化，以及，对于当前的示功图数据集，使用聚类算法获得k个归一化尺度，进而获得k+1个归一化示功图；

将示功图二值化：

首先使用python中的第三方库matplotlib将示功图位移、载荷数据绘制成图像，然后提取图像的RGB像素值，使用浮点运算按式(3)转换为灰度值，最后根据式(4)进行二值化；

Gray＝R*0.3+G*0.59+B*0.11 (3)

其中，R、G、B为图像像素点三色值，Gray为图像像素的灰度值，T为二值化后对应像素点的值，1表示图像空白区域，0则表示示功图曲线轮廓，最后获得的k+1个224×224二值化矩阵即为模型的输入；

基于pytorch实现了k+1输入通道的18层残差卷积神经网络作为图像识别网络模型，在每个卷积层后使用了batch normalization激活函数ReLu，采用式(5)随机初始化网络权重参数：

其中，W_l是第l层的权重参数，d_l、d_l-1是第l层和l-1层中神经元数量，R函数生成[0，1]之间正态分布的随机函数，随后使用70％数据训练网络，30％进行测试，网络模型训练参数如下：

优化方法：Adam(betas＝(0.9，0.999)，eps＝le-08，weight decay＝8e-4)

Batch size：64

学习率(Learning rate)：0.001

训练世代(epoch)：20。

优选地，所述聚类算法的流程如下：输入：样本数据集D，聚类簇数k；

(1)从样本中随机选取k个样本点作为初始的均值向量(u₁，u₂，......，u_i，u_k)；

(2)循环以下几步直到达到停止条件，此时每个簇的均值向量不再变化；

(2.1)令

(2.2)计算所有样本点到k个均值向量之间的距离，取其中距离最短的对应均值向量的标记作为该点的簇标记，然后将该点加入相应的簇C_i；

(2.3)计算每一个簇的均值向量

x∈C_i，更新簇的均值向量；

所述的停止条件为：|u_i-u_i-1|＜σ，其中σ的取值为0.05-0.1；

输出：每个簇的均值向量，即归一化尺度(y_max，y_min)。

其中，样本数据集D是每个示功图数据载荷的最值(y_max，y_min)向量的集合，k是自定义的超参数。

优选地，选择成本函数肘部的值作为k的值，其中，所述的成本函数是各个类畸变程度之和，每个类的畸变程度等于该类质心与其内部成员距离的平方和，成本函数的计算公式为：

其中，u_i是第k个簇中的成员向量，u_k是该簇的质心。

本发明还提供了一种基于残差神经网络的抽油机井故障诊断系统，用于实现上述的方法，所述的系统包括：

示功图预处理模块，对抽油机井示功图进行预处理，提取示功图信息；

归一化处理模块，根据提取到的示功图信息对其进行归一化处理；

示功图图像处理模块，用于对得到的示功图图像进行二值化；

深度残差神经网络模块，用于构建深度残差神经网络模块，并将其作为图像识别网络模型，以及对所述的网络模型进行训练；

精度判断模块，用于判断经训练后的网络模型是否满足精度要求；

应用模块，用于将现场实测示功图输入到训练好的图像识别网络模型中，得到示功图所属类型的结果。

与现有技术相比，本发明具有以下技术效果：

(1)本发明创新地提出示功图多尺度归一化方法，即通过聚类分析算法确定原始示功图的多个尺度归一化图，从而引入更多的特征信息增强数据的类别可分性。弥补了传统示功图归一化方法的特征信息不足和部分工况数据不可分的缺陷，解决了传统方法诊断误差大的问题；

(2)结合示功图多尺度归一化方法，构建了多通道的深度残差卷积神经网络的示功图分类模型，使用了BN、Relu等深度学习的神经网络训练技术，在多尺度归一化方法(k＝10)得到的数据集下训练、测试，该模型收敛鲁棒性好，测试准确率达到95.6％；

(3)实验结果表明：示功图多尺度归一化方法适用于目前所有示功图分类算法，极大地提高了各种抽油机井工况诊断模型的准确率和召回率，基于示功图多尺度归一化方法的残差神经网络工况诊断模型整体准确率为95.6％，平均召回率为92.8％，相比于传统方法中的CNN-SVM分别提升了13.8％、36.9％。

(4)现场应用1226口油井的测试结果表明：本文提出的工况诊断模型整体准确率在95％以上，复杂工况平均召回率在90％以上，验证了该模型的应用有效性和诊断准确性。该模型能够满足抽油机井复杂工况故障诊断的现场实际应用需求。

本发明的其他特征和优点将在随后的具体实施方式中予以详细说明。

附图说明

图1示出为两口发生上碰泵工况油井的示功图数据归一化前后的图形；

图2示出为杆断脱、连抽带喷和泵阀严重漏失示功图归一化示意图；

图3示出为抽油机井理论载荷归一化结果示意图；

图4示出为基于本发明提供的数据集的不同k值的成本函数值；

图5示出为基于本发明提供的数据集的部分k值聚类的簇分布示意图；

图6示出为基于本发明提供的数据集的k＝10时，杆断脱、固定阀严重漏失以及连抽带喷三种实测示功图呈扁平化的工况的所有归一化示功图；

图7示出为残差神经网络中的“shortcut”的示意图；

图8示出为测试集准确率随迭代次数的变化；

图9示出为训练过程中损失的变化示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施例，进一步阐明本发明。

油田现场存在的油井井下工况可达20余种，当工况种类数增多，代表不同工况的示功图形状极其相似，识别难度也随之增加，因此需要一个具有强大学习能力的算法模型来学习到不同工况的示功图之间的细微差异。

油田生产现场采集的示功图数据是一个冲程内悬点载荷y(KN)和位移x(m)的序列，有120或240个数据点，根据其绘制的示功图判断井下工况。不同油井的泵深、冲程存在差异，绘制的示功图在图像坐标中的位置、尺寸大小具有差异性，建立智能诊断算法模型时都会对示功图数据进行预处理，将示功图数据归一化到[0，1]，获得固定大小的归一化示功图，以消除位移和载荷不同对示功图形状特征的影响，使得同一工况的示功图具有相同的形状特征，便于算法模型学习到其中的类别特征。特征提取和SVM，以及CNN都是优秀的分类模型，在众多图像分类场景中取得了良好的效果，却在本发明数据集的示功图分类任务上表现较差，尤其针对某些复杂工况井的示功图，主要是不恰当的数据预处理方法造成的。

传统归一化方法是基于当前抽油机井示功图的实际位移、载荷最值，具体的，如式(1)、(2)所示：

对于示功图数据序列中的每个点，

为归一化后的位移、载荷值。x、y为当前示功图数据的实际位移、载荷值。x_min、x_max和y_max、y_min为位移(m)、载荷(KN)的最值，即归一化尺度。如图1中示出了两口发生上碰泵工况油井的示功图数据归一化前后的图形，其中a为原始数据的示功图，b为归一化后的示功图。对比a和b可以发现，相同工况(上碰泵)井的归一化示功图在形状特征上表现出一致性，利于算法模型更好的学习到同类示功图的共同特征，消除数据中的噪声。

当抽油机井发生杆断脱、固定阀严重漏失以及连抽带喷等工况时主要是悬点载荷发生变化，其示功图都呈扁平化，具体如图2中a所示，但相对于正常示功图的位置不同。观察这几种工况的归一化示功图，具体如图2中b所示，直观上都与正常示功图呈现出相同的图形特征，不同工况的归一化示功图混淆，不具有良好的可分性，即此归一化方式造成了数据本身的不可分性，因此，不论采用何种模型，杆断脱、连抽带喷以及泵阀严重漏失等示功图呈扁平化的工况的召回率均极低。

另外，对于每一口抽油机井都存在正常工况的理论最大载荷值、最小载荷值、最大位移值，即抽油机井处于正常工况时的理想示功图，当采用理论的上、下载荷作为归一化尺度(y_max、y_min)时得到的归一化示功图如图3所示。此方式保留了当前示功图相对于正常示功图位置、形状大小的信息，连抽带喷、固定阀严重漏失两种工况的归一化示功图明显具有可分性。但杆断脱工况的示功图由于其载荷低于理论载荷，归一化后在[0，1]区间内不再有几何图形，造成了图像信息丢失，而传感器故障、停井作业等问题也会造成图像信息丢失，所以单独使用实际载荷或理论载荷的最值作为归一化尺度，仍无法获得所有工况的具有良好可分性的归一化示功图。

针对传统归一化方法所存在的缺陷，及传统算法模型对于实际抽油机井工况识别的精确度不足的问题，本发明提供了一种基于残差神经网络的抽油机井故障诊断方法，所述的方法包括：

示功图的分类特征只依赖于形状而不需要颜色，因此将示功图二值化以减少参数量，具体的，将示功图二值化的步骤是：

首先使用python中的第三方库matplotlib将示功图位移、载荷数据绘制成图像，具体的绘图参数如下：figsize＝224×224，linewidth＝1.0，color＝‘black’，xlim＝[0，1.0]，ylim＝[0，1.0]；

然后提取图像的RGB像素值，使用浮点运算按式(3)转换为灰度值，最后根据式(4)进行二值化；

Gray＝R*0.3+G*0.59+B*0.11 (3)

优化方法：Adam(betas＝(0.9，0.999)，eps＝le-08，weight decay＝8e-4)

Batch size：64

学习率(Learning rate)：0.001

训练世代(epoch)：20。

进一步的，根据本发明，所述聚类算法的流程如下：输入：样本数据集D，聚类簇数k；

(2.1)令

(2.3)计算每一个簇的均值向量

x∈C_i，更新簇的均值向量；

所述的停止条件为：|u_i-u_i-1|＜σ，其中σ的取值为0.05-0.1；

输出：每个簇的均值向量，即归一化尺度(y_max，y_min)。

本申请的发明人发现，同时使用实际的载荷最值和理想载荷最值得到两个归一化示功图作为判断标准，通过两个归一化示功图特征信息之间的互补性，像杆断脱、连抽带喷、固定阀严重漏失扁平化的示功图都能得到有效区分(以杆断脱为例，实际载荷最值归一化获得正常示功图，而理论载荷最值归一化获得空白图即可判断发生了杆断脱)，将得到的两个归一化示功图组合作为一个数据，数据具有类别可分性，采用机器学习或深度学习的算法构建的示功图分类模型都能获得有效的分类信息进而识别出不同工况的示功图。但是，理论载荷在实际生产中往往难以获取，具体的，理论载荷可以通过两种方式获取，一种是通过理论模型计算悬点载荷，由于井下情况的复杂性及故障工况，计算的理论载荷通常与油井实际理论载荷相差较大，不具有稳定性；另一种是使用示功仪实测油井在正常工况下的载荷作为理论载荷，但是油井可能一开始处于非正常工况，为此，本发明除了使用当前示功图实际载荷最值进行归一化外，还使用了k个不同的归一化尺度对当前示功图数据进行归一化处理，形成多尺度的归一化处理方法。

根据本发明提供的方法，选择成本函数肘部的值作为k的值，其中，所述的成本函数是各个类畸变程度之和，每个类的畸变程度等于该类质心与其内部成员距离的平方和，成本函数的计算公式为：

其中，u_i是第k个簇中的成员向量，u_k是该簇的质心。

k值越大，获得的簇越多，即归一化尺度(y_max，y_min)越多，但获得过多的归一化示功图会增加模型训练、预测的计算量，对于数据的可分性的增强却有限，为了确定合理的k值，需要同时考虑聚类的簇分布情况和成本函数的变化趋势。本发明提供的方法中，根据肘部法则，选择成本函数肘部的值(成本函数初始下降很快，在肘部开始下降趋于平缓)作为合理的k值。

为了进一步对本发明提供的多尺度归一化方法进行说明，以下结合具体实例予以说明。以长庆油田某作业区1226口井实测的13875张带标签示功图样本作为本发明的数据集进行实验，复现了几种主流模型(傅里叶描述子/不变矩+SVM，Alexnet、CNN、CNN-SVM)，测试了其性能(70％数据训练，30％数据训练)，部分实验结果如表1所示。

表1各主流模型性能测试结果

分析表1数据可以发现，在现场多种工况的诊断应用中，基于特征提取结合SVM模型的准确率和召回率均较低，基于深度学习CNN及其组合模型各项指标略有所提高，两种类型的模型对杆断脱、连抽带喷以及固定阀严重漏失等复杂工况的召回率均较低，不能满足现场实际需求。

基于本发明提供的多尺度归一化方法，针对上述的数据集，选择k∈[2，30]进行聚类，图4为不同k值聚类的成本函数；图5给出了部分k值聚类的簇分布，每个颜色代表一个簇，簇中黑色点代表每个簇的均值向量(质心)，即第k个归一化尺度u_k＝(y_max，y_min)。

从图5中观察到肘部值为k＝5，观察图4发现k＝5～10得到的簇逐渐趋于紧凑，k＝10时得到簇分布质量已较好，各簇成员紧凑而簇之间的差异也比较明显，针对本发明提供的数据集，选择k∈[5，10]较为合理，即能够获得多个有效的归一化尺度，又不会过度增加计算成本。

此外，在后续实验中验证了该k值选择范围是合理的，同时探索了选择k＝15，20，30等较大值进行归一化时诊断模型的性能表现。

图6(因附图较大，分为(a)、(b)两部分示出)给出了k＝10时，杆断脱、固定阀严重漏失以及连抽带喷三种实测示功图呈扁平化的工况的所有归一化示功图，每种工况获得一组归一化示功图，每组11个。如图6所示的，k0代表实际载荷最值归一化得到的归一化示功图，k1～k10代表使用聚类得到的u₁～～u₁₀归一化得到的其他10个归一化示功图。由图6可以观察到，使用多尺度的示功图归一化方法，引入多个具有显著形状差异的归一化示功图极大的丰富了数据特征，不同工况能通过观察其归一化示功图组合有效的进行区分。因此，组合多尺度归一化方法得到的多个示功图作为一个输入数据样本，可以极大的提高原始数据的可分性，从而提高工况诊断的整体准确率和复杂工况的召回率，提高所构建的模型的鲁棒性，后续实验和现场应用也证明了此方法的有效性。

残差神经网络是在普通网络的相邻几层中引入了一个包含恒等映射(或者线性变换映射)的“shortcut”连接构建而成，如图7所示，“shortcut”连接和它的两个中间非线性映射层共同组成一个残差学习模块，每个残差模块代表的映射定义如下：

y＝F(x，{W_i})+x

其中，x和y代表模块的输入和输出，函数F(x，{W_i})代表中间的残差层学习到的映射，F(x，{W_i})＝W₂σ(W₂x)(为了简化，此处略去了偏差)，σ为非线性激活函数ReLu，残差神经网络(Resnet)还使用1×1卷积核的“bottle neck”结构将“shortcut”模块中的两层替换为三层(1×1，3×3，1×1)来减少权重参数，通过在普通神经网络中引入残差学习，“bottleneck”主要有以下作用：(1)解决了违反直觉的深层网络模型性能退化现象，即网络模型俞深，模型在训练集和测试集的效果反而变差；(2)构建的深层网络模型参数量大大减小，使得优化一个深层神经网络更加容易；(3)加入了残差块的网络模型相比普通的浅层网络更能学习到数据的深层表征，模型性能更加优异，在测试集上的表现更好。

本发明中，以k＝10为例，在训练过程的每次迭代中都使用测试集对模型进行测试，如图8所示为测试集准确率随迭代次数的变化，如图9所示为训练过程中损失的变化。结果表明，针对使用多尺度归一化获得的示功图数据集，该模型是收敛的，采用Adam优化方法能获得良好的结果，在测试集上的准确率可达到95.6％，该模型具有良好的泛化性能。

多尺度归一化方法中的k值决定了归一化尺度的个数和数值，影响最终建立的诊断模型的性能，为研究多尺度归一化方法的k值对模型性能的影响，选择不同k值进行归一化，基于相同的网络结构对其进行训练、测试，对比其实验结果，以下测试了9个k值，表2给出了实验结果的具体数值。

表2不同多尺度归一化的k值下的模型性能

从实验结果可以发现各项指标随k的增大而呈上升趋势，模型效果与k呈正相关。表明k值的增加有助于数据引入更多的特征信息，增强数据本身的可分性，从而使最终得到的模型效果更好，整体的准确率和复杂工况的召回率均有较大提高。但当k取值大于10后，再增大k对模型性能提升幅度很小，说明当k超过一定阈值时，增大k对于数据集可分性的增强有限，在本数据集上k的阈值(转折点)为10。考虑到计算成本，针对本文数据集，k＝10是最合适的值，与前文分析的k值的选择范围一致。

为验证多尺度归一化方法的适用性和深度残差卷积神经网络的优异，基于本文数据集，使用多尺度归一化方法(k＝10)获得多个归一化示功图作为模型输入的数据，实现了其他三种(SVM模型、CNN模型(AlexNet)、CNN-SVM模型)示功图识别模型，采用10折交叉验证的方法对比不同模型的性能，表3给出了实验的结果，其中ResNet-18为本发明中经过训练测试得到的模型。

表3不同模型的测试结果

实验结果分析如下：(1)使用多尺度归一化方法极大的提高了工况诊断的整体准确率和复杂工况的召回率，对相似图形工况的召回率提高最为明显。多尺度归一化方法解决了传统归一化方式造成的扁平化示功图不可分的缺陷，增强了数据本身的可分性，并且适用于所有模型；(2)在四种模型中，使用了卷积网络结构的深度学习模型均优于机器学习的SVM模型，说明在示功图的识别分类中，卷积网络结构的深度学习模型具有天然的优势，其自动提取示功图图形的可分特征优于手动设计的特征，数据样本可分的情况下，模型的效果更好；(3)相比于机器学习的SVM模型和深度学习的浅层CNN及其变体，本文提出的ResNet-18模型的各项性能指标均都获得提升，整体准确率达到了95.6％，复杂工况的平均召回率达92.8％，相比于传统的方法表现较好的CNN-SVM分别提升了4.8％、5.9％。，表明结合残差结构，更深层的卷积网络有助于提取示功图图形的深层特征，在多种工况下的示功图分类任务中表现更加优异。

在实际的现场应用中，从2020年8月开始，在长庆油田某作业区进行抽油机井工况诊断现场试验应用。现场每口井每隔10分钟传回一个示功图数据到数据库中，为保证建立诊断模型的示功图数据样本的多样性、全面性，同时减少重复的样本，取数据库中连续30天内所有井每天的三个示功图数据(三个数据时间间隔平均)。然后选择合适的k值(k＝10)进行多尺度归一化并建立工况诊断模型，在测试数据集上到达要求精度后上线部署进行实时诊断。现场试验表明，通过该工况诊断模型，能精准诊断各抽油机井的工况，统计分析该区块油井工况分布情况。

2020年9月至2020年10月期间累计召回杆断、泵阀严重漏失、泵上碰以及泵下碰等严重井下工况128井次，及时帮助现场人员确定发生故障工况的油井，采取正确的应对措施，提高生产效率。以某口发生杆断脱工况的油井为例，该井在10月26日诊断为抽油杆断脱，其后停井无功图，10月29日上修，现场实际故障原因为杆体断(第54根22防抽油杆本体断)，修井后示功图正常。

经现场试验，本文提出的基于抽油机井示功图多尺度归一化和深度残差神经网络的多工况诊断模型能应用于现场实际复杂多变的生产环境中，有效地提高现场实际工况诊断准确率和复杂工况的召回率，整体准确率可达95％，对于复杂工况的平均召回率在90％以上，满足现场对抽油机井工况智能诊断的实际需求。

以上显示和描述了本发明的基本原理、主要特征和本发明的特点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。