CN114444620B - 一种基于生成式对抗神经网络的示功图故障诊断方法 - Google Patents

一种基于生成式对抗神经网络的示功图故障诊断方法 Download PDF

Info

Publication number
CN114444620B
CN114444620B CN202210362470.7A CN202210362470A CN114444620B CN 114444620 B CN114444620 B CN 114444620B CN 202210362470 A CN202210362470 A CN 202210362470A CN 114444620 B CN114444620 B CN 114444620B
Authority
CN
China
Prior art keywords
sample
data
samples
indicator diagram
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210362470.7A
Other languages
English (en)
Other versions
CN114444620A (zh
Inventor
张凯
尹承哲
曹晨
张黎明
张华清
严侠
刘丕养
杨勇飞
孙海
姚军
樊灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202210362470.7A priority Critical patent/CN114444620B/zh
Publication of CN114444620A publication Critical patent/CN114444620A/zh
Application granted granted Critical
Publication of CN114444620B publication Critical patent/CN114444620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种基于生成式对抗神经网络的示功图故障诊断方法,属于采油故障诊断技术领域,包括如下步骤:对示功图样本库数据进行数据清洗;基于采油工程理论及典型示功图特性,对示功图数据点进行特征提取;对数量较少的故障类别样本采用生成式对抗神经网络进行生成,生成过程中对生成器网络的输出进行条件约束;基于原始样本及生成样本,将数据划分为训练集、验证集、测试集;采用Xgboost分类算法对样本进行分类;利用准确率和召回率对故障诊断结果进行综合评估;利用训练完成后的分类模型对故障进行实时监测诊断,实时判断故障类型。本发明能够显著提高分类模型对故障样本的特异识别能力,降低故障的误报/漏报率。

Description

一种基于生成式对抗神经网络的示功图故障诊断方法
技术领域
本发明属于采油故障诊断技术领域,具体涉及一种基于生成式对抗神经网络的示功图故障诊断方法。
背景技术
有杆泵采油的故障分析通常依靠示功图作为判断依据。传统诊断方法是技术人员依据采油工程知识建立不同故障下的典型示功图,通过将实际示功图与典型示功图进行比较,判断当前油井故障。
近年以来,基于人工智能技术的发展以及现场数据量的大量积累,相关学者开始将机器学习与深度学习技术应用在示功图诊断,实现自动化诊断,但从目前诊断的效果来看,故障的误报/漏报率仍旧较高。
发明内容
为了解决上述问题,本发明提出了一种基于生成式对抗神经网络的示功图故障诊断方法,用于降低故障的误报/漏报率。
本发明的技术方案如下:
一种基于生成式对抗神经网络的示功图故障诊断方法,包括如下步骤:
步骤1、收集采油过程历史数据构建示功图样本库,对示功图样本库中的数据进行数据清洗;
步骤2、基于采油工程理论及典型示功图特性,对示功图数据点进行特征提取;
步骤3、对数量较少的故障类别样本采用生成式对抗神经网络进行生成以达到不同类别样本数量相对平衡,生成过程中对生成器网络的输出进行条件约束;
步骤4、基于原始样本及生成样本,将数据划分为训练集、验证集、测试集;
步骤5、采用Xgboost分类算法对样本进行分类,包括建立二分类分类器、多分类分类器两个分类模型,同时将训练集输入分类模型中进行模型的训练;
步骤6、将验证集输入到训练完成的分类模型中,并利用准确率和召回率对故障诊断结果进行综合评估,评价其性能效果及应用可行性;
步骤7、实时采集示功图,利用训练完成后的分类模型对故障进行实时监测诊断,实时判断故障类型。
进一步地,步骤1中,数据清洗包括异常样本清洗和缺失标签处理,具体如下:
步骤1.1、异常样本清洗:直接去除异常样本数据;
步骤1.2、缺失标签处理:对缺失标签进行重新标定,具体过程为:
a.计算缺失样本X 缺失与其他样本X i 的欧式距离:
Figure DEST_PATH_IMAGE001
(1)
b.对欧式距离dist进行排序,找到与缺失样本欧式距离最小的样本;
Figure 137809DEST_PATH_IMAGE002
(2)
其中,X min 为欧式距离dist最小的样本特征,Y min 为对应欧式距离dist最小的样本类别标签;
c.将该样本对应的标签作为缺失标签样本的标签。
进一步地,步骤2中,基于不同故障对示功图的典型响应及有杆泵采油特点,提取相关特征,包括采油工程特征和示功图几何特征。
进一步地,采油工程特征包括泵深、井当前含水率、泵充满程度、有效冲程;所述示功图几何特征包括示功图最大载荷、示功图最小载荷、示功图理论上载荷及理论下载荷、上冲程平均载荷、下冲程平均载荷、示功图上冲程曲线第一个峰值及最后一个峰值、示功图下冲程曲线第一个峰值及最后一个峰值、示功图上冲程曲线平均斜率、示功图下冲程曲线平均斜率。
进一步地,步骤3中,针对每一个故障类别,建立其独有的生成对抗神经网络生成模型,以其中一类为例,其余类别同理,具体过程如下:
步骤3.1、为保证生成样本具有多样性,首先产生一组符合标准高斯分布的随机数X_random用于样本生成,为:
Figure DEST_PATH_IMAGE003
(3)
随机变量X_random服从均值为0,标准差为1的概率分布,其概率密度函数为:
Figure 225851DEST_PATH_IMAGE004
(4)
其中,随机数X_random维度=(生成样本数量,给定噪声特征维度),x为样本数据;
步骤3.2、建立生成器神经网络;生成器网络的输入数据为步骤3.1中生成的随机数X_random,输出为生成样本;生成器输出维度=(生成样本数量,特征数量);基于输入数据维度,生成器神经网络采用三层全连接神经元;
步骤3.3、建立判别器神经网络;判别器网络的输入数据为步骤3.2中生成器的生成样本及实际数据样本,输出为0至1的浮点数,0表示生成样本,1表示实际样本;判别器神经网络采用三层全连接神经元;
步骤3.4、采用交叉熵作为生成器和判别器的损失函数;交叉熵函数定义为:
Figure DEST_PATH_IMAGE005
(5)
其中,y i 表示样本i的标签,真实样本为1,假样本为0;
Figure 86360DEST_PATH_IMAGE006
表示样本i在判别器中的输出,即判别为真实样本的概率;N为训练过程中的训练样本个数;
生成器损失函数
Figure DEST_PATH_IMAGE007
为:
Figure 754101DEST_PATH_IMAGE008
(6)
判别器损失函数
Figure DEST_PATH_IMAGE009
为:
Figure 282035DEST_PATH_IMAGE010
(7)
其中,
Figure DEST_PATH_IMAGE011
表示假样本j输入到生成器后的输出;
Figure 744240DEST_PATH_IMAGE012
表示真实样本i输入到判别器后的输出;
步骤3.5、生成器网络与判别器网络的条件约束训练,包括网络前馈过程和网络反向传播过程;
步骤3.6、利用训练好的生成器,对故障样本进行批量生成,实现各故障类别样本数量相对均衡。
进一步地,步骤3.5中,
网络前馈过程:将生成的随机数X_random输入到生成器中,得到生成器输出;生成器输出有一定的随机性,需要在训练过程中进行对生成样本的含水率、斜率进行约束,将约束修改后的生成样本作为生成器输出;将生成器的输出输入到判别器中,得到生成样本的判别结果;将真实样本输入到判别器中,得到真实样本的判别结果;根据生成器输出,判别器对生成样本及真实样本的判别结果,计算生成器与判别器的Loss值;
网络反向传播过程:根据生成器与判别器的损失函数值,计算网络参数梯度,进行网络参数更新,直至达到设置的迭代次数。
进一步地,步骤4中,训练样本包括数据清洗后的原始数据及生成数据,验证和测试样本为原始数据,不包含生成数据;具体过程如下:
步骤4.1、将生成样本与实际样本联合为新的样本库;从新的样本库中随机抽取80%作为训练集,10%作为验证集,10%作为测试集;
步骤4.2、为保证在模型验证过程的验证和测试结果更符合实际现场应用,验证集和测试集中不包含生成样本。
进一步地,步骤5中,二分类分类器用于分出正常工况与异常工况;多分类分类器用于分出不同故障类型;具体过程如下:
步骤5.1、计算训练集在各特征维度的标准差
Figure DEST_PATH_IMAGE013
和均值
Figure 92045DEST_PATH_IMAGE014
,并对训练集数据特征X tr 进行标准化处理:
Figure DEST_PATH_IMAGE015
(8)
步骤5.2、基于训练集各特征维度的标准差和均值对验证集数据特征X val 和测试集数据特征X te 进行标准化处理:
Figure 625794DEST_PATH_IMAGE016
(9)
Figure DEST_PATH_IMAGE017
(10)
步骤5.3、输入Xgboost模型基本模型参数parameters,包括:学习率、树的最大深度、迭代最大次数、正则化惩罚项系数大小;
步骤5.4、将样本标签分为正常工况与异常工况两大类;首先建立二分类分类器F binary (X, parameters),检测示功图是否有异常;然后再提取出所有异常样本,建立多分类分类器F mulit_class (X, parameters)。
进一步地,步骤6包括模型在验证集上的效果评估、模型在测试集上的效果评估;其中,
步骤6.1、模型在验证集上的效果评估,具体过程如下:
先将验证集数据划分为正常工况和异常工况,然后输入到二分类分类器:
Figure 618021DEST_PATH_IMAGE018
(11)
其中,X val 为验证集数据的特征,Y val 为验证集数据的类别标签;
得到分类结果
Figure DEST_PATH_IMAGE019
,计算准确率Accuracy和召回率Recall:
Figure 906920DEST_PATH_IMAGE020
(12)
Figure DEST_PATH_IMAGE021
(13)
其中,TP:实例是正类且被预测成正类的样本个数;FP:实例是负类且被预测成正类的样本个数;TN:实例是负类且被预测成负类的样本个数;FN:实例是正类且被预测成负类的样本个数;
再将验证集数据中的异常样本提取出来,然后输入到多分类分类器:
Figure 617387DEST_PATH_IMAGE022
(14)
得到分类结果
Figure DEST_PATH_IMAGE023
,计算其各个类别的平均召回率:
Figure 485986DEST_PATH_IMAGE024
(15)
其中,Recall c 表示第c个类别的召回率;n表示类别的个数;
计算各个类别的平均准确率:
Figure DEST_PATH_IMAGE025
(16)
其中,Accuracy c 表示第c个类别的准确率;
步骤6.2、模型在测试集上的效果评估,具体过程如下:
测试集样本X te 先进入二分类分类器,如果判断为正常工况,那说明示功图诊断结果为正常,如果判断为异常工况,样本再进入多分类分类器,判断示功图属于何种异常;根据对测试集数据的分类结果
Figure 598298DEST_PATH_IMAGE026
与实际结果Y te 进行比较,计算测试集样本的平均召回率和平均准确率,作为方法在实际应用中的效果评价。
本发明所带来的有益技术效果:
通过提取示功图曲线的特征,使得特征对物理问题的描述更具物理意义;利用生成式对抗神经网络,生成具有随机性又符合实际物理意义的故障样本以达到类别均衡,实际样本与生成样本共同用于训练Xgboost二分类和多分类分类器,实现对示功图故障类型的有效判别;与不生成样本条件下的类别不均衡数据建模相比,本发明能够显著提高分类模型对故障样本的特异识别能力,降低故障的误报/漏报情况。
附图说明
图1为一种基于生成式对抗神经网络的示功图故障诊断方法的流程图;
图2为本发明实施例中二分类分类器在训练集上的Loss变化;
图3为本发明实施例中多分类分类器在训练集上的Loss变化;
图4为本发明实施例中二分类分类器在验证集上的Loss变化;
图5为本发明实施例中多分类分类器在验证集上的Loss变化。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
本发明提供了一种基于生成式对抗神经网络的不均衡类别样本条件下的示功图故障诊断方法,首先利用示功图数据测点结合采油工程理论进行特征提取,其次采用生成式对抗神经网络在特征约束的条件下生成样本数量较少的故障类别,将均衡后的样本库(生成样本+真实样本),输入到Xgboost分类器中,建立二分类和多分类模型进行示功图故障类型诊断;最后进行模型性能测试,用于实时工况诊断。
如图1所示,一种基于生成式对抗神经网络的示功图故障诊断方法,包括如下步骤:
步骤1、收集采油过程历史数据构建示功图样本库,对示功图样本库中的数据进行数据清洗,去除异常样本,对缺失标签进行重新标定;具体方法如下:
步骤1.1、异常样本清洗:直接去除异常样本数据;
步骤1.2、缺失标签处理:
缺失标签指样本的故障类别没有进行标注,但样本示功图数据点及其它的特征数据相对完整,具有挖掘价值。对缺失标签,基于步骤2特征提取结果,通过K(K=1)近邻的方式,进行标签补全,即:
a.计算缺失样本X 缺失与其他样本X i 的欧式距离:
Figure 261361DEST_PATH_IMAGE001
(1)
b.对欧式距离dist进行排序,找到与缺失样本欧式距离最小的样本;
Figure 724703DEST_PATH_IMAGE002
(2)
其中,X min 为欧式距离dist最小的样本特征,Y min 为对应欧式距离dist最小的样本类别标签;
c.将该样本对应的标签作为缺失标签样本的标签,即Y 缺失=Y min
步骤2、基于采油工程理论及典型示功图特性,对示功图数据点(横坐标:冲程、纵坐标:载荷)进行特征提取,使得特征具有更强的物理意义,能够更好地描述不同故障条件下的示功图特性;具体方法如下:
基于不同故障对示功图的典型响应及有杆泵采油特点,提取相关特征包括:
(1)采油工程特征:泵深、井当前含水率、泵充满程度、有效冲程;
(2)示功图几何特征:示功图最大载荷、示功图最小载荷、示功图理论上载荷及理论下载荷、上冲程平均载荷、下冲程平均载荷、示功图上冲程曲线第一个峰值及最后一个峰值、示功图下冲程曲线第一个峰值及最后一个峰值、示功图上冲程曲线平均斜率、示功图下冲程曲线平均斜率。
步骤3、对数量较少的故障类别样本采用对抗神经网络GAN进行生成以达到不同类别样本数量相对平衡。生成过程中对生成器网络的输出进行条件约束,使生成样本更符合数学及实际规律;具体方法如下:
针对每一个故障类别,建立其独有的生成对抗神经网络生成模型,以其中一类为例,其余类别同理:
步骤3.1、为保证生成样本具有多样性,首先产生一组符合标准高斯分布的随机数X_random用于样本生成,即:
Figure 990468DEST_PATH_IMAGE003
(3)
随机变量X_random服从均值为0,标准差为1的概率分布,其概率密度函数为:
Figure 81921DEST_PATH_IMAGE004
(4)
其中:随机数X_random维度=(生成样本数量,给定噪声特征维度),x为样本数据。
步骤3.2、建立生成器神经网络。生成器网络的输入数据为步骤(1)中生成的随机数X_random,输出为生成样本。生成器输出维度=(生成样本数量,特征数量)。基于输入数据维度,生成器神经网络采用三层全连接神经元,如表1所示。
表1 生成器神经网络结构
Figure 211158DEST_PATH_IMAGE028
步骤3.3、建立判别器神经网络。判别器网络的输入数据为步骤(2)中生成器的生成样本及实际数据样本,输出为0至1的浮点数,0表示生成样本(假样本),1表示实际样本(真实样本)。与生成器网络类似,判别器神经网络采用三层全连接神经元,如表2所示。
表2 判别器神经网络结构
Figure 630638DEST_PATH_IMAGE030
步骤3.4、采用交叉熵作为生成器和判别器的损失函数。交叉熵函数定义:
Figure DEST_PATH_IMAGE031
(5)
其中,y i 表示样本i的标签,真实样本为1,假样本为0;
Figure 136312DEST_PATH_IMAGE032
表示样本i在判别器中的输出,即判别为真实样本的概率;N为训练过程中的训练样本个数。
生成器损失函数
Figure DEST_PATH_IMAGE033
为:
Figure 410167DEST_PATH_IMAGE034
(6)
判别器损失函数
Figure DEST_PATH_IMAGE035
为:
Figure 704049DEST_PATH_IMAGE036
(7)
其中,
Figure DEST_PATH_IMAGE037
表示假样本j输入到判别器后的输出;
Figure 1038DEST_PATH_IMAGE038
表示真实样本i输入到判别器后的输出。
步骤3.5、生成器网络与判别器网络的条件约束训练,包括网络前馈过程和网络反向传播过程。
网络前馈过程:
将生成的随机数X_random输入到生成器中,得到生成器输出。生成器输出有一定的随机性,需要在训练过程中进行对生成样本的含水率、斜率等值进行约束,将约束修改后的生成样本作为生成器输出。每个特征参数与其对应的具体约束值如表3:
表3 特征参数与其对应的约束值
Figure 546289DEST_PATH_IMAGE040
将生成器的输出输入到判别器中,得到生成样本的判别结果;
将真实样本输入到判别器中,得到真实样本的判别结果;
根据生成器输出,判别器对生成样本及真实样本的判别结果,计算生成器与判别器的Loss值。
网络反向传播过程:
根据生成器与判别器的损失函数值,计算网络参数梯度,进行网络参数更新,直至达到设置的迭代次数。
步骤3.6、利用训练好的生成器,对故障样本进行批量生成,实现各故障类别样本数量相对均衡。
步骤4、基于原始样本及生成样本,将数据划分为训练集、验证集、测试集。训练样本包括数据清洗后的原始数据及生成数据,验证和测试样本为原始数据,不包含生成数据;具体方法如下:
步骤4.1、将生成样本与实际样本联合为新的样本库。从新的样本库中随机抽取80%作为训练集,10%作为验证集,10%作为测试集。
步骤4.2、为保证在模型验证过程的验证和测试结果更符合实际现场应用,验证集和测试集中将不包含生成样本(即验证集和测试集均为实际真实样本)。
步骤5、采用Xgboost分类算法对样本进行分类,包括建立二分类分类器、多分类分类器两个分类模型,同时将训练集输入分类模型中进行模型的训练;其中,二分类分类器用于分出正常工况与异常工况;多分类分类器用于分出不同故障类型;具体方法如下:
步骤5.1、计算训练集在各特征维度的标准差
Figure DEST_PATH_IMAGE041
和均值
Figure 815597DEST_PATH_IMAGE042
,并对训练集数据特征X tr 进行标准化处理:
Figure DEST_PATH_IMAGE043
(8)
步骤5.2、基于训练集各特征维度的标准差和均值对验证集数据特征X val 和测试集数据特征X te 进行标准化处理:
Figure 663467DEST_PATH_IMAGE044
(9)
Figure DEST_PATH_IMAGE045
(10)
步骤5.3、输入Xgboost模型基本模型参数parameters,包括:学习率、树的最大深度、迭代最大次数、正则化惩罚项系数大小。
步骤5.4、如果直接将所有异常工况的样本数量生成到与正常工况样本数量一致,每个异常工况生成的样本数量过大,使得整个训练集充斥着大量的生成样本。虽然这样可以实现样本类别数量均衡,但也影响了分类器学习真实样本的能力,这不利于分类器反映实际物理规律,也可能会降低分类器的泛化性能。
因此考虑将所有异常样本(而不是每一个故障)的总数量生成到接近正常样本数量,先将样本标签分为正常工况与异常工况两大类。建立二分类分类器F binary (X,parameters),检测示功图是正常/异常。再提取出所有异常样本,建立不同故障类型分类器(即多分类分类器)F mulit_class (X, parameters)。
步骤6、将验证集输入到训练完成的分类模型中,并利用准确率(Accuracy)和召回率(Recall)对故障诊断结果进行综合评估,评价其性能效果及应用可行性。具体方法如下:
步骤6.1、模型在验证集上的效果评估:
验证集用于评价模型在当前模型参数parameters下的性能,因此,在进行评价时,将对两个分类器分别进行评价。即:
先将验证集数据划分为正常工况和异常工况,然后输入到二分类分类器:
Figure 182173DEST_PATH_IMAGE046
(11)
其中,X val 为验证集数据的特征,Y val 为验证集数据的类别标签;
得到分类结果
Figure DEST_PATH_IMAGE047
,计算准确率Accuracy和召回率Recall:
Figure 531115DEST_PATH_IMAGE048
(12)
Figure DEST_PATH_IMAGE049
(13)
其中:
TP:实例是正类且被预测成正类的样本个数;
FP:实例是负类且被预测成正类的样本个数;
TN:实例是负类且被预测成负类的样本个数;
FN:实例是正类且被预测成负类的样本个数;
Recall值和Accuracy值越接近1,表示分类器特异识别能力和整体分类性能越好。
再将验证集数据中的异常样本提取出来,然后输入到多分类分类器:
Figure 61453DEST_PATH_IMAGE050
(14)
得到分类结果
Figure DEST_PATH_IMAGE051
,计算其各个类别的平均召回率:
Figure 470438DEST_PATH_IMAGE052
(15)
其中:Recall c 表示第c个类别的召回率;n表示类别的个数。
计算各个类别的平均准确率:
Figure DEST_PATH_IMAGE053
(16)
其中:Accuracy c 表示第c个类别的准确率。
步骤6.2、模型在测试集上的效果评估:
测试集用于模拟实际工程应用场景。实际应用过程中,测试集样本X te 先进入二分类分类器,如果判断为正常工况,那说明示功图诊断结果为正常,如果判断为异常工况,样本再进入多分类分类器,判断示功图属于何种异常。根据对测试集数据的分类结果
Figure 476440DEST_PATH_IMAGE054
与实际结果Y te 进行比较,计算测试集样本的平均Recall值和准确率,作为方法在实际应用中的效果评价。由于本方法并没有利用验证集进行超参数调整,因此验证集的数据与测试集数据的效果是相同的。实际应用时,根据业务方实时传输,用模型即可分类。
步骤7、实时采集示功图,利用训练完成后的分类模型对故障进行实时监测诊断,实时判断故障类型。
实施例
本实施例基于某油田的现场数据,原始共计14628条示功图工况数据。
首先,根据样本数量分布情况,对连抽带喷、泵漏失、其它解释等故障采用对抗神经网络GAN进行样本生成,各生成新样本200条。本实施例不涉及对超参数优化,因此验证集数据并没有干预模型,所以不需要另外划分测试集,只需划分训练集和验证集即可。其中:80%样本作为训练集,20%样本作为验证集。
然后,依据上述步骤5建立Xgboost分类器模型,对样本进行故障诊断。
最后,计算验证集准确率与召回率,对故障诊断结果进行综合评估。计算结果如表4所示。
表4验证集准确率与召回率结果对比
Figure 707701DEST_PATH_IMAGE056
从表4可以看出,进行数据增强后,模型在验证集上的准确率略有提升,但召回率有较大幅度提升,说明模型对于故障样本的特异识别能力得到了增强,从一定程度上缓解了样本类别不均衡的问题。
从图2、图3可以看出,二分类分类器和多分类分类器在训练过程中,Loss下降较快,且在给定的迭代次数内的达到较低的值并且趋于平稳,说明模型参数和特征选择较为合理。从图4、图5可以看出,二分类分类器和多分类分类器在验证集上的Loss变化规律与训练集类似。
未进行数据增强时验证集数据的二分类结果的混淆矩阵如表5所示;
表5 未进行数据增强时验证集数据的二分类结果的混淆矩阵
Figure 482759DEST_PATH_IMAGE058
进行数据增强时验证集数据的二分类结果的混淆矩阵如表6所示;
表6 进行数据增强时验证集数据的二分类结果的混淆矩阵
Figure 938011DEST_PATH_IMAGE060
未进行数据增强时验证集数据多分类结果的混淆矩阵如表7所示;
表7 未进行数据增强时验证集数据多分类结果的混淆矩阵
Figure 41096DEST_PATH_IMAGE062
进行数据增强时验证集数据多分类结果的混淆矩阵如表8所示;
表8 进行数据增强时验证集数据多分类结果的混淆矩阵
Figure 872786DEST_PATH_IMAGE064
表5中,1173表示实际是异常的样本被划分为异常的样本数量,1418表示实际是正常的样本被划分为正常的数量,174表示实际是异常样本被划分为正常的数量,156表示实际是正常样本被划分为异常的数量。表6同理。表7中,与表5类似,只是分类的类别增加,数值表示实际类被划分为预测类的数量,即:主对角线上的值,表示正确分类的样本数量,其余表示错误分类的样本数量。表8同理。从表5-表8可以看出,数据增强策略在多分类时,可以更显著的提高模型效果,对一些样本量少的类别的样本,可以更好地识别。
基于上述评估结果,训练完成的分类模型可以用于对故障的实时监测诊断。所以,本发明方法可以实时采集工况数据,实时完成故障类型的判断,能够有效降低故障的误报/漏报率。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (2)

1.一种基于生成式对抗神经网络的示功图故障诊断方法,其特征在于,包括如下步骤:
步骤1、收集采油过程历史数据构建示功图样本库,对示功图样本库中的数据进行数据清洗;
数据清洗包括异常样本清洗和缺失标签处理,具体如下:
步骤1.1、异常样本清洗:直接去除异常样本数据;
步骤1.2、缺失标签处理:对缺失标签进行重新标定,具体过程为:
a.计算缺失样本X 缺失与其他样本X i 的欧式距离:
Figure DEST_PATH_IMAGE002
(1)
b.对欧式距离dist进行排序,找到与缺失样本欧式距离最小的样本;
Figure DEST_PATH_IMAGE004
(2)
其中,X min 为欧式距离dist最小的样本特征,Y min 为对应欧式距离dist最小的样本类别标签;
c.将该样本对应的标签作为缺失标签样本的标签;
步骤2、基于采油工程理论及典型示功图特性,对示功图数据点进行特征提取;
基于不同故障对示功图的典型响应及有杆泵采油特点,提取相关特征,包括采油工程特征和示功图几何特征;
采油工程特征包括泵深、井当前含水率、泵充满程度、有效冲程;所述示功图几何特征包括示功图最大载荷、示功图最小载荷、示功图理论上载荷及理论下载荷、上冲程平均载荷、下冲程平均载荷、示功图上冲程曲线第一个峰值及最后一个峰值、示功图下冲程曲线第一个峰值及最后一个峰值、示功图上冲程曲线平均斜率、示功图下冲程曲线平均斜率;
步骤3、对数量较少的故障类别样本采用生成式对抗神经网络进行生成以达到不同类别样本数量相对平衡,生成过程中对生成器网络的输出进行条件约束;
针对每一个故障类别,建立其独有的生成对抗神经网络生成模型,以其中一类为例,其余类别同理,具体过程如下:
步骤3.1、为保证生成样本具有多样性,首先产生一组符合标准高斯分布的随机数X_random用于样本生成,为:
Figure DEST_PATH_IMAGE006
(3)
随机变量X_random服从均值为0,标准差为1的概率分布,其概率密度函数为:
Figure DEST_PATH_IMAGE008
(4)
其中,随机数X_random维度=(生成样本数量,给定噪声特征维度),x为样本数据;
步骤3.2、建立生成器神经网络;生成器网络的输入数据为步骤3.1中生成的随机数X_random,输出为生成样本;生成器输出维度=(生成样本数量,特征数量);基于输入数据维度,生成器神经网络采用三层全连接神经元;
步骤3.3、建立判别器神经网络;判别器网络的输入数据为步骤3.2中生成器的生成样本及实际数据样本,输出为0至1的浮点数,0表示生成样本,1表示实际样本;判别器神经网络采用三层全连接神经元;
步骤3.4、采用交叉熵作为生成器和判别器的损失函数;交叉熵函数定义为:
Figure DEST_PATH_IMAGE010
(5)
其中,y i 表示样本i的标签,真实样本为1,假样本为0;
Figure DEST_PATH_IMAGE012
表示样本i在判别器中的输出,即判别为真实样本的概率;N为训练过程中的训练样本个数;
生成器损失函数
Figure DEST_PATH_IMAGE014
为:
Figure DEST_PATH_IMAGE016
(6)
判别器损失函数
Figure DEST_PATH_IMAGE018
为:
Figure DEST_PATH_IMAGE020
(7)
其中,
Figure DEST_PATH_IMAGE022
表示假样本j输入到生成器后的输出;
Figure DEST_PATH_IMAGE024
表示真实样本i输入到判别器后的输出;
步骤3.5、生成器网络与判别器网络的条件约束训练,包括网络前馈过程和网络反向传播过程;
网络前馈过程:将生成的随机数X_random输入到生成器中,得到生成器输出;生成器输出有一定的随机性,需要在训练过程中进行对生成样本的含水率、斜率进行约束,将约束修改后的生成样本作为生成器输出;将生成器的输出输入到判别器中,得到生成样本的判别结果;将真实样本输入到判别器中,得到真实样本的判别结果;根据生成器输出,判别器对生成样本及真实样本的判别结果,计算生成器与判别器的Loss值;
网络反向传播过程:根据生成器与判别器的损失函数值,计算网络参数梯度,进行网络参数更新,直至达到设置的迭代次数;
步骤3.6、利用训练好的生成器,对故障样本进行批量生成,实现各故障类别样本数量相对均衡;
步骤4、基于原始样本及生成样本,将数据划分为训练集、验证集、测试集;
步骤5、采用Xgboost分类算法对样本进行分类,包括建立二分类分类器、多分类分类器两个分类模型,同时将训练集输入分类模型中进行模型的训练;
二分类分类器用于分出正常工况与异常工况;多分类分类器用于分出不同故障类型;具体过程如下:
步骤5.1、计算训练集在各特征维度的标准差
Figure DEST_PATH_IMAGE026
和均值
Figure DEST_PATH_IMAGE028
,并对训练集数据特征X tr 进行标准化处理:
Figure DEST_PATH_IMAGE030
(8)
步骤5.2、基于训练集各特征维度的标准差和均值对验证集数据特征X val 和测试集数据特征X te 进行标准化处理:
Figure DEST_PATH_IMAGE032
(9)
Figure DEST_PATH_IMAGE034
(10)
步骤5.3、输入Xgboost模型基本模型参数parameters,包括:学习率、树的最大深度、迭代最大次数、正则化惩罚项系数大小;
步骤5.4、将样本标签分为正常工况与异常工况两大类;首先建立二分类分类器F binary (X, parameters),检测示功图是否有异常;然后再提取出所有异常样本,建立多分类分类器F mulit_class (X, parameters);
步骤6、将验证集输入到训练完成的分类模型中,并利用准确率和召回率对故障诊断结果进行综合评估,评价其性能效果及应用可行性;包括模型在验证集上的效果评估、模型在测试集上的效果评估;其中,
步骤6.1、模型在验证集上的效果评估,具体过程如下:
先将验证集数据划分为正常工况和异常工况,然后输入到二分类分类器:
Figure DEST_PATH_IMAGE036
(11)
其中,X val 为验证集数据的特征,Y val 为验证集数据的类别标签;
得到分类结果
Figure DEST_PATH_IMAGE038
,计算准确率Accuracy和召回率Recall:
Figure DEST_PATH_IMAGE040
(12)
Figure DEST_PATH_IMAGE042
(13)
其中,TP:实例是正类且被预测成正类的样本个数;FP:实例是负类且被预测成正类的样本个数;TN:实例是负类且被预测成负类的样本个数;FN:实例是正类且被预测成负类的样本个数;
再将验证集数据中的异常样本提取出来,然后输入到多分类分类器:
Figure DEST_PATH_IMAGE044
(14)
得到分类结果
Figure DEST_PATH_IMAGE046
,计算其各个类别的平均召回率:
Figure DEST_PATH_IMAGE048
(15)
其中,Recall c 表示第c个类别的召回率;n表示类别的个数;
计算各个类别的平均准确率:
Figure DEST_PATH_IMAGE050
(16)
其中,Accuracy c 表示第c个类别的准确率;
步骤6.2、模型在测试集上的效果评估,具体过程如下:
测试集样本X te 先进入二分类分类器,如果判断为正常工况,那说明示功图诊断结果为正常,如果判断为异常工况,样本再进入多分类分类器,判断示功图属于何种异常;根据对测试集数据的分类结果
Figure DEST_PATH_IMAGE052
与实际结果Y te 进行比较,计算测试集样本的平均召回率和平均准确率,作为方法在实际应用中的效果评价;
步骤7、实时采集示功图,利用训练完成后的分类模型对故障进行实时监测诊断,实时判断故障类型。
2.根据权利要求1所述基于生成式对抗神经网络的示功图故障诊断方法,其特征在于,所述步骤4中,训练样本包括数据清洗后的原始数据及生成数据,验证和测试样本为原始数据,不包含生成数据;具体过程如下:
步骤4.1、将生成样本与实际样本联合为新的样本库;从新的样本库中随机抽取80%作为训练集,10%作为验证集,10%作为测试集;
步骤4.2、为保证在模型验证过程的验证和测试结果更符合实际现场应用,验证集和测试集中不包含生成样本。
CN202210362470.7A 2022-04-08 2022-04-08 一种基于生成式对抗神经网络的示功图故障诊断方法 Active CN114444620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210362470.7A CN114444620B (zh) 2022-04-08 2022-04-08 一种基于生成式对抗神经网络的示功图故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210362470.7A CN114444620B (zh) 2022-04-08 2022-04-08 一种基于生成式对抗神经网络的示功图故障诊断方法

Publications (2)

Publication Number Publication Date
CN114444620A CN114444620A (zh) 2022-05-06
CN114444620B true CN114444620B (zh) 2022-07-22

Family

ID=81359373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210362470.7A Active CN114444620B (zh) 2022-04-08 2022-04-08 一种基于生成式对抗神经网络的示功图故障诊断方法

Country Status (1)

Country Link
CN (1) CN114444620B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169506A (zh) * 2022-09-06 2022-10-11 中铁第四勘察设计院集团有限公司 一种供变电关键设备故障快速诊断方法及系统
CN116226469B (zh) * 2023-05-09 2023-08-08 华南理工大学 一种储能设备故障的智能诊断方法及系统
CN116906025A (zh) * 2023-07-24 2023-10-20 西南石油大学 一种采油工程生产异常诊断装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380767A (zh) * 2020-11-11 2021-02-19 山东大学 基于改进型生成对抗网络的设备故障诊断方法及系统
WO2021243838A1 (zh) * 2020-06-03 2021-12-09 苏州大学 变工况下类内自适应轴承故障诊断方法
CN113884290A (zh) * 2021-09-28 2022-01-04 江南大学 基于自训练半监督生成对抗网络的调压器故障诊断方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102011576B (zh) * 2010-11-24 2013-09-25 河海大学 基于示功图的有杆抽油系统故障递阶诊断方法
CN106884644B (zh) * 2017-04-26 2020-12-15 中国石油大学(华东) 基于时序地面示功图的抽油机井实时工况诊断方法
CN109508738A (zh) * 2018-10-31 2019-03-22 北京国双科技有限公司 一种信息处理方法及相关设备
CN110361176B (zh) * 2019-06-05 2021-11-19 华南理工大学 一种基于多任务特征共享神经网络的智能故障诊断方法
CN110298399B (zh) * 2019-06-27 2022-11-25 东北大学 基于Freeman链码和矩特征融合的抽油井故障诊断方法
CN110318731A (zh) * 2019-07-04 2019-10-11 东北大学 一种基于gan的抽油井故障诊断方法
CN112577664A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 传感器故障检测方法、装置及相关产品
CN112031748B (zh) * 2020-09-14 2023-09-01 南京富岛信息工程有限公司 一种基于示功图特征的抽油机井异常工况诊断方法
CN112508105B (zh) * 2020-12-11 2024-03-19 南京富岛信息工程有限公司 一种采油机故障检测与检索方法
CN113513304A (zh) * 2021-04-23 2021-10-19 南京富岛信息工程有限公司 一种基于抽油机电功图的平衡度检测方法
CN113780652B (zh) * 2021-09-07 2024-05-14 中国石油化工股份有限公司 一种油井示功图故障诊断预测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021243838A1 (zh) * 2020-06-03 2021-12-09 苏州大学 变工况下类内自适应轴承故障诊断方法
CN112380767A (zh) * 2020-11-11 2021-02-19 山东大学 基于改进型生成对抗网络的设备故障诊断方法及系统
CN113884290A (zh) * 2021-09-28 2022-01-04 江南大学 基于自训练半监督生成对抗网络的调压器故障诊断方法

Also Published As

Publication number Publication date
CN114444620A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN114444620B (zh) 一种基于生成式对抗神经网络的示功图故障诊断方法
CN109408389B (zh) 一种基于深度学习的代码缺陷检测方法及装置
CN110598851A (zh) 一种融合lstm和gan的时间序列数据异常检测方法
CN113505655B (zh) 面向数字孪生系统的轴承故障智能诊断方法
CN108647707B (zh) 概率神经网络创建方法、故障诊断方法及装置、存储介质
CN113255848A (zh) 基于大数据学习的水轮机空化声信号辨识方法
CN111539553A (zh) 基于svr算法和偏峰度的风电机组发电机故障预警方法
CN113901977A (zh) 一种基于深度学习的电力用户窃电识别方法及系统
CN111862065B (zh) 基于多任务深度卷积神经网络的输电线路诊断方法和系统
CN111126820A (zh) 反窃电方法及系统
CN109813542A (zh) 基于生成式对抗网络的空气处理机组的故障诊断方法
CN112990546A (zh) 一种基于粒子群与神经网络的化工厂电力变压器故障预测方法
CN110334478A (zh) 机器设备异常检测模型构建方法、检测方法及模型
CN109613109A (zh) 一种管道漏磁检测数据自动分析系统
CN116628592A (zh) 一种基于改进型生成式对抗网络的动设备故障诊断方法
CN114580934A (zh) 基于无监督异常检测的食品检测数据风险的早预警方法
CN113205125A (zh) 一种基于XGBoost的特高压换流阀运行状态评估方法
CN115526258A (zh) 基于Spearman相关系数特征提取的电力系统暂稳评估方法
CN117197591B (zh) 一种基于机器学习的数据分类方法
CN104537383A (zh) 一种基于粒子群的海量组织机构数据分类方法及系统
CN117421684B (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN113259388A (zh) 网络流量异常检测方法、电子设备及可读存储介质
CN116400168A (zh) 一种基于深度特征聚类的电网故障诊断方法及系统
Jagtap et al. Software Reliability: Development of Software Defect Prediction Models Using Advanced Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant