基于集成学习的游梁式抽油机示功图的工况识别方法
技术领域
本发明涉及油气生产技术领域,特别涉及一种基于集成学习的游梁式抽油机示功图的工况识别方法。
背景技术
在油气的生产过程中,示功图是一种由载荷随位移逐渐变化的关系曲线,游梁式抽油机可以根据示功图的信息,对其工况进行诊断,掌握油井的工作状态,分析判断油井的参数是否合理,并以获取到的油井的工作状态和油井参数为依据,及时有效地对油井进行调整,达到减少损耗、提高油气产量的目的。
目前,游梁式抽油机示功图的工况识别方法是利用计算机诊断技术绘出示功图,然后由技术人员根据井下标准示功图,进行人工对比识别,以确定工况问题。
在实现本发明的过程中,本发明人发现现有技术中至少存在以下问题:
现有技术中的人工识别方法,不仅对于常规问题的诊析需要大量的处理时间,而且当需要参比的问题参数增加时,处理的时间也会相应增加,处理效率低;同时,根据人为主观判断,增加了误诊的风险。
发明内容
鉴于此,本发明提供一种基于集成学习的游梁式抽油机示功图的工况识别方法,以实现自动、准确地识别游梁式抽油机示功图工况。
具体而言,包括以下的技术方案:
一种基于集成学习的游梁式抽油机示功图的工况识别方法,所述方法包括:
获取游梁式抽油机示功图数据库,并对所述数据库内的每个游梁式抽油机示功图进行二值化处理,得到若干二值化处理后的示功图;
对每个所述二值化处理后的示功图进行特征提取,得到每个所述二值化处理后的示功图的几何特征、矩特征和傅里叶描述子;
根据每个所述二值化处理后的示功图的几何特征、矩特征和傅里叶描述子,对每个所述二值化处理后的示功图进行聚类,得到多个累积示功图;
对每个所述累积示功图进行工况标注,得到每个工况下的多个示功图簇;
将每个工况下的每个示功图簇中的第一预设部分示功图的几何特征、矩特征和傅里叶描述子代入到至少两个机器学习模型中进行机器学习,训练得到至少两组分类器模型;
将每个工况下的每个示功图簇中的第二预设部分示功图的几何特征、矩特征和傅里叶描述子分别代入到所述每组分类器模型中,训练得到每个示功图的至少两个分类结果;
对每个工况下的每个示功图簇中的第二预设部分示功图进行工况标注,得到每个示功图的标签;
将所述每个示功图的至少两个分类结果和所述每个示功图的标签代入多项逻辑斯蒂回归模型进行集成学习,得到最终分类器模型;
将待测游梁式抽油机示功图的几何特征、矩特征和傅里叶描述子代入所述最终分类器模型中,确定所述待测游梁式抽油机示功图的工况。
可选择地,所述获取游梁式抽油机示功图数据库,并对所述数据库内的每个游梁式抽油机示功图进行二值化处理,得到若干二值化处理后的示功图之前,所述方法包括:根据若干游梁式抽油机中每个抽油机光杆的位移和载荷数据,绘制若干游梁式抽油机示功图,并建立所述游梁式抽油机示功图数据库。
可选择地,所述根据若干游梁式抽油机中每个抽油机光杆的位移和载荷数据,绘制若干游梁式抽油机示功图,并建立所述游梁式抽油机示功图数据库之前,所述方法还包括:对所述若干游梁式抽油机中每个抽油机光杆的位移和载荷数据进行数据预处理。
可选择地,所述对每个所述二值化处理后的示功图进行特征提取,得到每个所述二值化处理后的示功图的几何特征、矩特征和傅里叶描述子包括:对每个所述二值化处理后示功图进行轮廓提取,得到每个所述二值化处理后示功图的轮廓信息;根据所述轮廓信息,计算得到每个所述二值化处理后的示功图的几何特征、矩特征和傅里叶描述子。
可选择地,所述对每个所述二值化处理后的示功图进行特征提取之前,所述方法还包括:对每个所述二值化处理后的示功图绘制最小外接矩形。
可选择地,所述几何特征包括:示功图所形成的封闭曲线所围成的面积、示功图所形成的封闭曲线的周长、示功图所形成的封闭曲线的质心和示功图所形成的封闭曲线与其所述最小外接矩形之间的面积。
可选择地,所述将所述每个示功图的至少两个分类结果和所述每个示功图的标签代入多项逻辑斯蒂回归模型进行集成学习,得到最终分类器模型之后,所述方法还包括:对所述最终分类器模型进行验证。
可选择地,所述第一预设部分示功图的数量为所述每个工况下的每个示功图簇中示功图数量的50%,所述第二预设部分示功图的数量为所述每个工况下的每个示功图簇中示功图数量的50%。
可选择地,所述机器学习模型包括:支持向量机、随机森林和梯度提升树。
可选择地,所述矩特征为Hu矩特征。
本发明实施例提供的技术方案的有益效果至少包括:
本发明实施例提供的基于集成学习的游梁式抽油机示功图的工况识别方法通过获取游梁式抽油机示功图数据库,在对数据库内的每个示功图进行二值化处理后,获取每个示功图的几何特征、矩特征和傅里叶描述子,继而进行聚类和对应工况标注,通过先将每个工况下的每个示功图簇中的第一预设部分示功图的几何特征、矩特征和傅里叶描述子代入到至少两个机器学习模型中进行机器学习,训练得到至少两组分类器模型,再在此基础上,将第二预设部分示功图的几何特征、矩特征和傅里叶描述子代入到每组分类器模型中,训练得到每个示功图的至少两个分类结果,以每个施工图的至少两个分类结果和其对应的标签代入多项逻辑斯蒂回归模型中进行集成学习,得到最终分类器模型,当需要判断待测游梁式抽油机示功图的工况时,将待测游梁式抽油机示功图的几何特征、矩特征和傅里叶描述子代入到最终分类器模型中即可,判断结果的准确度高,可以实现自动、准确地识别游梁式抽油机示功图工况。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于集成学习的游梁式抽油机示功图的工况识别方法的方法流程图;
图2为本发明实施例提供的一种基于集成学习的游梁式抽油机示功图的工况识别方法中多个工况下的多个示功图簇的列表示意图;
图3a为本发明实施例提供的一种基于集成学习的游梁式抽油机示功图的工况识别方法中利用支持向量机进行机器学习后得到的分类器模型的模型判别效果图;
图3b为本发明实施例提供的一种基于集成学习的游梁式抽油机示功图的工况识别方法中利用支持向量机进行机器学习后得到的分类器模型的预测精度图;
图4为本发明实施例提供的一种基于集成学习的游梁式抽油机示功图的工况识别方法中对最终分类器模型进行验证的示意图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种基于集成学习的游梁式抽油机示功图的工况识别方法,以国内某油田为例,其方法流程图如图1所示,包括:
步骤101:获取游梁式抽油机示功图数据库,并对数据库内的每个游梁式抽油机示功图进行二值化处理,得到若干二值化处理后的示功图;
在本步骤之前,先获取某油田的若干游梁式抽油机中每个抽油机光杆的位移和载荷数据。
在本发明实施例中,抽油机光杆的位移和载荷数据量为3.2万组。
进而,对若干游梁式抽油机中每个抽油机光杆的位移和载荷数据进行数据预处理,例如,剔除残缺数据,统一数据单位等。
接着,根据预处理后满足要求的若干游梁式抽油机中每个抽油机光杆的位移和载荷数据,绘制对应的游梁式抽油机示功图,并建立游梁式抽油机示功图数据库。
基于游梁式抽油机示功图数据库,对数据库内的每个游梁式抽油机示功图进行二值化处理,得到若干二值化处理后的示功图。
需要说明的是,图像二值化(Image Binarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中,图像的二值化使图像中数据量大为减少,从而更能凸显出目标的轮廓,便于后续对示功图的几何特征、矩特征和傅里叶描述子的提取。
步骤102:对每个二值化处理后的示功图进行特征提取,得到每个二值化处理后的示功图的几何特征、矩特征和傅里叶描述子;
在本步骤之前,对每个二值化处理后的示功图绘制最小外接矩形,便于后续对示功图的几何特征的提取。
具体地,对每个二值化处理后示功图进行轮廓提取,得到每个二值化处理后示功图的轮廓信息;根据轮廓信息,计算得到每个二值化处理后的示功图的几何特征、矩特征和傅里叶描述子。
由于示功图可以为一个封闭曲线,因此,对于示功图而言:
(1)几何特征
在本发明实施例中,几何特征可以包括:示功图所形成的封闭曲线所围成的面积、示功图所形成的封闭曲线的周长、示功图所形成的封闭曲线的质心和示功图所形成的封闭曲线与其最小外接矩形之间的面积等8维,但不限于上述特征。
通过上述特征,可以确定示功图的几何特征。
(2)矩特征
针对于一幅图像,把像素的坐标看成是一个二维随机变量,那么一幅灰度图像可以用二维灰度密度函数来表示,因此可以用矩来描述灰度图像的特征。
在本发明实施例中,矩特征可以为Hu矩特征,具体地,数字图像f(x,y)的二维(p+q)阶矩定义为mpq=∑∑xpypf(x,y),其中,p,q=0,1,2,…,求和在跨越图像的所有空间坐标x,y值上进行。相应的中心矩定义为:
其中,对于任意一幅图像都存在着对平移、缩放、镜像和旋转不敏感的7个二维不变矩。
(3)傅里叶描述子
傅里叶描述子的定义为:假定物体的形状是一条封闭的曲线,沿边界曲线上的一个动点P(l)的坐标变化x(l)+iy(l)是一个以形状边界周长为周期的函数,这个周期函数可以用傅里叶级数展开表示,傅里叶级数中的一系列系数z(k)是直接与边界曲线的形状有关的。
利用傅里叶描述子可以实现对示功图的压缩,例如,原示功图需要144像素点进行描述,经过傅里叶描述子重构后的示功图的图像像素点可以为80个,实现了数据压缩。在实际使用时,可以采用80个傅里叶系数的绝对值作为新的示功图图像特征。
步骤103:根据每个二值化处理后的示功图的几何特征、矩特征和傅里叶描述子,对每个二值化处理后的示功图进行聚类,得到多个累积示功图;
具体地,由于经过二值化处理后的示功图的数量较多,逐个处理所需要花费的时间长,因此,需要对若干二值化处理后的示功图进行聚类,得到多个累积示功图,在处理时,只需针对累积示功图进行处理即可。
需要说明的是,聚成的类别的数量可以根据业务需求进行确定,在此不作具体限定。
在本发明实施例中,可以将二值化处理后的示功图聚成200个类别,进一步可以划分为30个类别。
步骤104:对每个累积示功图进行工况标注,得到每个工况下的多个示功图簇;
具体地,可以通过人工打标签的方式对每个累积示功图进行工况标注,得到每个工况下的多个示功图簇。
举例来说,如图2所示,列举出了常见的12种工况内每个工况的多个示功图簇。
步骤105:将每个工况下的每个示功图簇中的第一预设部分示功图的几何特征、矩特征和傅里叶描述子代入到至少两个机器学习模型中进行机器学习,训练得到至少两组分类器模型;
在本步骤中,由于单个机器学习模型在学习训练后,表现出的准确率及泛化能力都不是最理想的结果,因此,需要利用至少两个机器学习模型,同时进行机器学习,为后续的集成学习做准备。
具体地,机器学习模型可以包括:支持向量机(SVM,Support Vector Machine)、随机森林(Random Forest)和梯度提升树(GBDT,Gradient Boosting Decision Tree),可以通过上述三个机器学习模型为后续集成学习提供三个分类器模型。
需要说明的是,在得到每组分类器模型后,需要对每组分类器模型进行验证,一般使用交叉验证或留一法,以确定分类器模型的判断结果。
在本发明实施例中,以支持向量机为例,得到的分类器模型的模型判别效果图如图3a所示,可以看出,曲线所围成的面积大,说明模型判别效果好;预测精度图如图3b所示,可以看出,曲线所围成的面积大,说明模型预测的精度和召回高。
步骤106:将每个工况下的每个示功图簇中的第二预设部分示功图的几何特征、矩特征和傅里叶描述子分别代入到每组分类器模型中,训练得到每个示功图的至少两个分类结果;
在本步骤中,训练得到的每个示功图的至少两个分类结果将作为后续集成学习的输入。
需要说明的是,第一预设部分示功图的数量为每个工况下的每个示功图簇中示功图数量的50%,第二预设部分示功图的数量为每个工况下的每个示功图簇中示功图数量的50%,如果在训练得到至少两组分类器模型时,将每个工况下的每个示功图簇的全部示功图都代入训练,那么过拟合风险较大。
步骤107:对每个工况下的每个示功图簇中的第二预设部分示功图进行工况标注,得到每个示功图的标签;
在本步骤中,对每个工况下的每个示功图簇中的第二预设部分示功图进行工况标注,得到的每个示功图的标签也将作为后续集成学习的输入。
步骤108:将每个示功图的至少两个分类结果和每个示功图的标签代入多项逻辑斯蒂回归模型进行集成学习,得到最终分类器模型;
具体地,集成学习就是组合多个分类器模型,以期得到一个更为全面的分类器模型。集成学习潜在的思想就是即便任意一个分类器模型得到了错误的预测结果,其他的分类器也可以将错误纠正过来。
与得到每组分类器模型类似,在得到最终分类器模型后,也需要对最终分类器模型进行验证,可以通过代入第二预设部分示功图的数量的20%进行验证,以确定最终分类器模型的判断结果。
在本发明实施例中,以k折交叉验证为例,如图4所示,对训练集划分为5份(5折);对每一折Dk为测试集,D-Dk为训练集,训练第一种初级学习器5次,将5次的结果拼接起来即可得到一个N×1的矩阵,以此往复训练5种分类器模型,得到5个N×1矩阵,将其横向拼接,即可得到N×5矩阵,将其作为最终分类器模型的训练集来训练。
经过验证可知,利用最终分类器模型得到的平均准确率为97.9%。
步骤109:将待测游梁式抽油机示功图的几何特征、矩特征和傅里叶描述子代入最终分类器模型中,确定待测游梁式抽油机示功图的工况。
具体地,由于已经获得了最终分类器模型,只需将待测的游梁式抽油机示功图的几何特征、矩特征和傅里叶描述子代入到最终分类器模型中,将几何特征、矩特征和傅里叶描述子作为已知条件,就可以判断待测游梁式抽油机示功图的工况,实现对待测游梁式抽油机示功图工况的识别。
因此,本发明实施例的基于集成学习的游梁式抽油机示功图的工况识别方法通过获取游梁式抽油机示功图数据库,在对数据库内的每个示功图进行二值化处理后,获取每个示功图的几何特征、矩特征和傅里叶描述子,继而进行聚类和对应工况标注,通过先将每个工况下的每个示功图簇中的第一预设部分示功图的几何特征、矩特征和傅里叶描述子代入到至少两个机器学习模型中进行机器学习,训练得到至少两组分类器模型,再在此基础上,将第二预设部分示功图的几何特征、矩特征和傅里叶描述子代入到每组分类器模型中,训练得到每个示功图的至少两个分类结果,以每个施工图的至少两个分类结果和其对应的标签代入多项逻辑斯蒂回归模型中进行集成学习,得到最终分类器模型,当需要判断待测游梁式抽油机示功图的工况时,将待测游梁式抽油机示功图的几何特征、矩特征和傅里叶描述子代入到最终分类器模型中即可,判断结果的准确度高,可以实现自动、准确地识别游梁式抽油机示功图工况。
以上所述仅是为了便于本领域的技术人员理解本发明的技术方案,并不用以限制本发明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。