CN114444620B

CN114444620B - 一种基于生成式对抗神经网络的示功图故障诊断方法

Info

Publication number: CN114444620B
Application number: CN202210362470.7A
Authority: CN
Inventors: 张凯; 尹承哲; 曹晨; 张黎明; 张华清; 严侠; 刘丕养; 杨勇飞; 孙海; 姚军; 樊灵
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-07-22
Anticipated expiration: 2042-04-08
Also published as: CN114444620A

Abstract

本发明公开了一种基于生成式对抗神经网络的示功图故障诊断方法，属于采油故障诊断技术领域，包括如下步骤：对示功图样本库数据进行数据清洗；基于采油工程理论及典型示功图特性，对示功图数据点进行特征提取；对数量较少的故障类别样本采用生成式对抗神经网络进行生成，生成过程中对生成器网络的输出进行条件约束；基于原始样本及生成样本，将数据划分为训练集、验证集、测试集；采用Xgboost分类算法对样本进行分类；利用准确率和召回率对故障诊断结果进行综合评估；利用训练完成后的分类模型对故障进行实时监测诊断，实时判断故障类型。本发明能够显著提高分类模型对故障样本的特异识别能力，降低故障的误报/漏报率。

Description

一种基于生成式对抗神经网络的示功图故障诊断方法

技术领域

本发明属于采油故障诊断技术领域，具体涉及一种基于生成式对抗神经网络的示功图故障诊断方法。

背景技术

有杆泵采油的故障分析通常依靠示功图作为判断依据。传统诊断方法是技术人员依据采油工程知识建立不同故障下的典型示功图，通过将实际示功图与典型示功图进行比较，判断当前油井故障。

近年以来，基于人工智能技术的发展以及现场数据量的大量积累，相关学者开始将机器学习与深度学习技术应用在示功图诊断，实现自动化诊断，但从目前诊断的效果来看，故障的误报/漏报率仍旧较高。

发明内容

为了解决上述问题，本发明提出了一种基于生成式对抗神经网络的示功图故障诊断方法，用于降低故障的误报/漏报率。

本发明的技术方案如下：

一种基于生成式对抗神经网络的示功图故障诊断方法，包括如下步骤：

步骤1、收集采油过程历史数据构建示功图样本库，对示功图样本库中的数据进行数据清洗；

步骤2、基于采油工程理论及典型示功图特性，对示功图数据点进行特征提取；

步骤3、对数量较少的故障类别样本采用生成式对抗神经网络进行生成以达到不同类别样本数量相对平衡，生成过程中对生成器网络的输出进行条件约束；

步骤4、基于原始样本及生成样本，将数据划分为训练集、验证集、测试集；

步骤5、采用Xgboost分类算法对样本进行分类，包括建立二分类分类器、多分类分类器两个分类模型，同时将训练集输入分类模型中进行模型的训练；

步骤6、将验证集输入到训练完成的分类模型中，并利用准确率和召回率对故障诊断结果进行综合评估，评价其性能效果及应用可行性；

步骤7、实时采集示功图，利用训练完成后的分类模型对故障进行实时监测诊断，实时判断故障类型。

进一步地，步骤1中，数据清洗包括异常样本清洗和缺失标签处理，具体如下：

步骤1.1、异常样本清洗：直接去除异常样本数据；

步骤1.2、缺失标签处理：对缺失标签进行重新标定，具体过程为：

a.计算缺失样本X _缺失与其他样本X _i的欧式距离：

(1)

b.对欧式距离dist进行排序，找到与缺失样本欧式距离最小的样本；

(2)

其中，X _min为欧式距离dist最小的样本特征，Y _min为对应欧式距离dist最小的样本类别标签；

c.将该样本对应的标签作为缺失标签样本的标签。

进一步地，步骤2中，基于不同故障对示功图的典型响应及有杆泵采油特点，提取相关特征，包括采油工程特征和示功图几何特征。

进一步地，采油工程特征包括泵深、井当前含水率、泵充满程度、有效冲程；所述示功图几何特征包括示功图最大载荷、示功图最小载荷、示功图理论上载荷及理论下载荷、上冲程平均载荷、下冲程平均载荷、示功图上冲程曲线第一个峰值及最后一个峰值、示功图下冲程曲线第一个峰值及最后一个峰值、示功图上冲程曲线平均斜率、示功图下冲程曲线平均斜率。

进一步地，步骤3中，针对每一个故障类别，建立其独有的生成对抗神经网络生成模型，以其中一类为例，其余类别同理，具体过程如下：

步骤3.1、为保证生成样本具有多样性，首先产生一组符合标准高斯分布的随机数X_random用于样本生成，为：

(3)

随机变量X_random服从均值为0，标准差为1的概率分布，其概率密度函数为：

(4)

其中，随机数X_random维度=（生成样本数量，给定噪声特征维度），x为样本数据；

步骤3.2、建立生成器神经网络；生成器网络的输入数据为步骤3.1中生成的随机数X_random，输出为生成样本；生成器输出维度=（生成样本数量，特征数量）；基于输入数据维度，生成器神经网络采用三层全连接神经元；

步骤3.3、建立判别器神经网络；判别器网络的输入数据为步骤3.2中生成器的生成样本及实际数据样本，输出为0至1的浮点数，0表示生成样本，1表示实际样本；判别器神经网络采用三层全连接神经元；

步骤3.4、采用交叉熵作为生成器和判别器的损失函数；交叉熵函数定义为：

(5)

其中，y _i表示样本i的标签，真实样本为1，假样本为0；

表示样本i在判别器中的输出，即判别为真实样本的概率；N为训练过程中的训练样本个数；

生成器损失函数

为：

(6)

判别器损失函数

为：

(7)

其中，

表示假样本j输入到生成器后的输出；

表示真实样本i输入到判别器后的输出；

步骤3.5、生成器网络与判别器网络的条件约束训练，包括网络前馈过程和网络反向传播过程；

步骤3.6、利用训练好的生成器，对故障样本进行批量生成，实现各故障类别样本数量相对均衡。

进一步地，步骤3.5中，

网络前馈过程：将生成的随机数X_random输入到生成器中，得到生成器输出；生成器输出有一定的随机性，需要在训练过程中进行对生成样本的含水率、斜率进行约束，将约束修改后的生成样本作为生成器输出；将生成器的输出输入到判别器中，得到生成样本的判别结果；将真实样本输入到判别器中，得到真实样本的判别结果；根据生成器输出，判别器对生成样本及真实样本的判别结果，计算生成器与判别器的Loss值；

网络反向传播过程：根据生成器与判别器的损失函数值，计算网络参数梯度，进行网络参数更新，直至达到设置的迭代次数。

进一步地，步骤4中，训练样本包括数据清洗后的原始数据及生成数据，验证和测试样本为原始数据，不包含生成数据；具体过程如下：

步骤4.1、将生成样本与实际样本联合为新的样本库；从新的样本库中随机抽取80%作为训练集，10%作为验证集，10%作为测试集；

步骤4.2、为保证在模型验证过程的验证和测试结果更符合实际现场应用，验证集和测试集中不包含生成样本。

进一步地，步骤5中，二分类分类器用于分出正常工况与异常工况；多分类分类器用于分出不同故障类型；具体过程如下：

步骤5.1、计算训练集在各特征维度的标准差

和均值

，并对训练集数据特征X _tr进行标准化处理：

(8)

步骤5.2、基于训练集各特征维度的标准差和均值对验证集数据特征X _val和测试集数据特征X _te进行标准化处理：

(9)

(10)

步骤5.3、输入Xgboost模型基本模型参数parameters，包括：学习率、树的最大深度、迭代最大次数、正则化惩罚项系数大小；

步骤5.4、将样本标签分为正常工况与异常工况两大类；首先建立二分类分类器F _binary(X, parameters)，检测示功图是否有异常；然后再提取出所有异常样本，建立多分类分类器F _{mulit_class}(X, parameters)。

进一步地，步骤6包括模型在验证集上的效果评估、模型在测试集上的效果评估；其中，

步骤6.1、模型在验证集上的效果评估，具体过程如下：

先将验证集数据划分为正常工况和异常工况，然后输入到二分类分类器：

(11)

其中，X _val为验证集数据的特征，Y _val为验证集数据的类别标签；

得到分类结果

，计算准确率Accuracy和召回率Recall：

(12)

(13)

其中，TP：实例是正类且被预测成正类的样本个数；FP：实例是负类且被预测成正类的样本个数；TN：实例是负类且被预测成负类的样本个数；FN：实例是正类且被预测成负类的样本个数；

再将验证集数据中的异常样本提取出来，然后输入到多分类分类器：

(14)

得到分类结果

，计算其各个类别的平均召回率：

(15)

其中，Recall _c表示第c个类别的召回率；n表示类别的个数；

计算各个类别的平均准确率：

(16)

其中，Accuracy _c表示第c个类别的准确率；

步骤6.2、模型在测试集上的效果评估，具体过程如下：

测试集样本X _te先进入二分类分类器，如果判断为正常工况，那说明示功图诊断结果为正常，如果判断为异常工况，样本再进入多分类分类器，判断示功图属于何种异常；根据对测试集数据的分类结果

与实际结果Y _te进行比较，计算测试集样本的平均召回率和平均准确率，作为方法在实际应用中的效果评价。

本发明所带来的有益技术效果：

通过提取示功图曲线的特征，使得特征对物理问题的描述更具物理意义；利用生成式对抗神经网络，生成具有随机性又符合实际物理意义的故障样本以达到类别均衡，实际样本与生成样本共同用于训练Xgboost二分类和多分类分类器，实现对示功图故障类型的有效判别；与不生成样本条件下的类别不均衡数据建模相比，本发明能够显著提高分类模型对故障样本的特异识别能力，降低故障的误报/漏报情况。

附图说明

图1为一种基于生成式对抗神经网络的示功图故障诊断方法的流程图；

图2为本发明实施例中二分类分类器在训练集上的Loss变化；

图3为本发明实施例中多分类分类器在训练集上的Loss变化；

图4为本发明实施例中二分类分类器在验证集上的Loss变化；

图5为本发明实施例中多分类分类器在验证集上的Loss变化。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

本发明提供了一种基于生成式对抗神经网络的不均衡类别样本条件下的示功图故障诊断方法，首先利用示功图数据测点结合采油工程理论进行特征提取，其次采用生成式对抗神经网络在特征约束的条件下生成样本数量较少的故障类别，将均衡后的样本库（生成样本+真实样本），输入到Xgboost分类器中，建立二分类和多分类模型进行示功图故障类型诊断；最后进行模型性能测试，用于实时工况诊断。

如图1所示，一种基于生成式对抗神经网络的示功图故障诊断方法，包括如下步骤：

步骤1、收集采油过程历史数据构建示功图样本库，对示功图样本库中的数据进行数据清洗，去除异常样本，对缺失标签进行重新标定；具体方法如下：

步骤1.1、异常样本清洗：直接去除异常样本数据；

步骤1.2、缺失标签处理：

缺失标签指样本的故障类别没有进行标注，但样本示功图数据点及其它的特征数据相对完整，具有挖掘价值。对缺失标签，基于步骤2特征提取结果，通过K（K=1）近邻的方式，进行标签补全，即：

a.计算缺失样本X _缺失与其他样本X _i的欧式距离：

(1)

(2)

c.将该样本对应的标签作为缺失标签样本的标签，即Y _缺失=Y _min。

步骤2、基于采油工程理论及典型示功图特性，对示功图数据点（横坐标：冲程、纵坐标：载荷）进行特征提取，使得特征具有更强的物理意义，能够更好地描述不同故障条件下的示功图特性；具体方法如下：

基于不同故障对示功图的典型响应及有杆泵采油特点，提取相关特征包括：

（1）采油工程特征：泵深、井当前含水率、泵充满程度、有效冲程；

（2）示功图几何特征：示功图最大载荷、示功图最小载荷、示功图理论上载荷及理论下载荷、上冲程平均载荷、下冲程平均载荷、示功图上冲程曲线第一个峰值及最后一个峰值、示功图下冲程曲线第一个峰值及最后一个峰值、示功图上冲程曲线平均斜率、示功图下冲程曲线平均斜率。

步骤3、对数量较少的故障类别样本采用对抗神经网络GAN进行生成以达到不同类别样本数量相对平衡。生成过程中对生成器网络的输出进行条件约束，使生成样本更符合数学及实际规律；具体方法如下：

针对每一个故障类别，建立其独有的生成对抗神经网络生成模型，以其中一类为例，其余类别同理：

步骤3.1、为保证生成样本具有多样性，首先产生一组符合标准高斯分布的随机数X_random用于样本生成，即：

(3)

(4)

其中：随机数X_random维度=（生成样本数量，给定噪声特征维度），x为样本数据。

步骤3.2、建立生成器神经网络。生成器网络的输入数据为步骤（1）中生成的随机数X_random，输出为生成样本。生成器输出维度=（生成样本数量，特征数量）。基于输入数据维度，生成器神经网络采用三层全连接神经元，如表1所示。

表1 生成器神经网络结构

步骤3.3、建立判别器神经网络。判别器网络的输入数据为步骤（2）中生成器的生成样本及实际数据样本，输出为0至1的浮点数，0表示生成样本（假样本），1表示实际样本（真实样本）。与生成器网络类似，判别器神经网络采用三层全连接神经元，如表2所示。

表2 判别器神经网络结构

步骤3.4、采用交叉熵作为生成器和判别器的损失函数。交叉熵函数定义：

(5)

其中，y _i表示样本i的标签，真实样本为1，假样本为0；

表示样本i在判别器中的输出，即判别为真实样本的概率；N为训练过程中的训练样本个数。

生成器损失函数

为：

(6)

判别器损失函数

为：

(7)

其中，

表示假样本j输入到判别器后的输出；

表示真实样本i输入到判别器后的输出。

步骤3.5、生成器网络与判别器网络的条件约束训练，包括网络前馈过程和网络反向传播过程。

网络前馈过程：

将生成的随机数X_random输入到生成器中，得到生成器输出。生成器输出有一定的随机性，需要在训练过程中进行对生成样本的含水率、斜率等值进行约束，将约束修改后的生成样本作为生成器输出。每个特征参数与其对应的具体约束值如表3：

表3 特征参数与其对应的约束值

将生成器的输出输入到判别器中，得到生成样本的判别结果；

将真实样本输入到判别器中，得到真实样本的判别结果；

根据生成器输出，判别器对生成样本及真实样本的判别结果，计算生成器与判别器的Loss值。

网络反向传播过程：

根据生成器与判别器的损失函数值，计算网络参数梯度，进行网络参数更新，直至达到设置的迭代次数。

步骤4、基于原始样本及生成样本，将数据划分为训练集、验证集、测试集。训练样本包括数据清洗后的原始数据及生成数据，验证和测试样本为原始数据，不包含生成数据；具体方法如下：

步骤4.1、将生成样本与实际样本联合为新的样本库。从新的样本库中随机抽取80%作为训练集，10%作为验证集，10%作为测试集。

步骤4.2、为保证在模型验证过程的验证和测试结果更符合实际现场应用，验证集和测试集中将不包含生成样本（即验证集和测试集均为实际真实样本）。

步骤5、采用Xgboost分类算法对样本进行分类，包括建立二分类分类器、多分类分类器两个分类模型，同时将训练集输入分类模型中进行模型的训练；其中，二分类分类器用于分出正常工况与异常工况；多分类分类器用于分出不同故障类型；具体方法如下：

步骤5.1、计算训练集在各特征维度的标准差

和均值

，并对训练集数据特征X _tr进行标准化处理：

(8)

(9)

(10)

步骤5.3、输入Xgboost模型基本模型参数parameters，包括：学习率、树的最大深度、迭代最大次数、正则化惩罚项系数大小。

步骤5.4、如果直接将所有异常工况的样本数量生成到与正常工况样本数量一致，每个异常工况生成的样本数量过大，使得整个训练集充斥着大量的生成样本。虽然这样可以实现样本类别数量均衡，但也影响了分类器学习真实样本的能力，这不利于分类器反映实际物理规律，也可能会降低分类器的泛化性能。

因此考虑将所有异常样本（而不是每一个故障）的总数量生成到接近正常样本数量，先将样本标签分为正常工况与异常工况两大类。建立二分类分类器F _binary(X,parameters)，检测示功图是正常/异常。再提取出所有异常样本，建立不同故障类型分类器（即多分类分类器）F _{mulit_class}(X, parameters)。

步骤6、将验证集输入到训练完成的分类模型中，并利用准确率（Accuracy）和召回率（Recall）对故障诊断结果进行综合评估，评价其性能效果及应用可行性。具体方法如下：

步骤6.1、模型在验证集上的效果评估：

验证集用于评价模型在当前模型参数parameters下的性能，因此，在进行评价时，将对两个分类器分别进行评价。即：

(11)

得到分类结果

，计算准确率Accuracy和召回率Recall：

(12)

(13)

其中：

TP：实例是正类且被预测成正类的样本个数；

FP：实例是负类且被预测成正类的样本个数；

TN：实例是负类且被预测成负类的样本个数；

FN：实例是正类且被预测成负类的样本个数；

Recall值和Accuracy值越接近1，表示分类器特异识别能力和整体分类性能越好。

(14)

得到分类结果

，计算其各个类别的平均召回率：

(15)

其中：Recall _c表示第c个类别的召回率；n表示类别的个数。

计算各个类别的平均准确率：

(16)

其中：Accuracy _c表示第c个类别的准确率。

步骤6.2、模型在测试集上的效果评估：

测试集用于模拟实际工程应用场景。实际应用过程中，测试集样本X _te先进入二分类分类器，如果判断为正常工况，那说明示功图诊断结果为正常，如果判断为异常工况，样本再进入多分类分类器，判断示功图属于何种异常。根据对测试集数据的分类结果

与实际结果Y _te进行比较，计算测试集样本的平均Recall值和准确率，作为方法在实际应用中的效果评价。由于本方法并没有利用验证集进行超参数调整，因此验证集的数据与测试集数据的效果是相同的。实际应用时，根据业务方实时传输，用模型即可分类。

实施例

本实施例基于某油田的现场数据，原始共计14628条示功图工况数据。

首先，根据样本数量分布情况，对连抽带喷、泵漏失、其它解释等故障采用对抗神经网络GAN进行样本生成，各生成新样本200条。本实施例不涉及对超参数优化，因此验证集数据并没有干预模型，所以不需要另外划分测试集，只需划分训练集和验证集即可。其中：80%样本作为训练集，20%样本作为验证集。

然后，依据上述步骤5建立Xgboost分类器模型，对样本进行故障诊断。

最后，计算验证集准确率与召回率，对故障诊断结果进行综合评估。计算结果如表4所示。

表4验证集准确率与召回率结果对比

从表4可以看出，进行数据增强后，模型在验证集上的准确率略有提升，但召回率有较大幅度提升，说明模型对于故障样本的特异识别能力得到了增强，从一定程度上缓解了样本类别不均衡的问题。

从图2、图3可以看出，二分类分类器和多分类分类器在训练过程中，Loss下降较快，且在给定的迭代次数内的达到较低的值并且趋于平稳，说明模型参数和特征选择较为合理。从图4、图5可以看出，二分类分类器和多分类分类器在验证集上的Loss变化规律与训练集类似。

未进行数据增强时验证集数据的二分类结果的混淆矩阵如表5所示；

表5 未进行数据增强时验证集数据的二分类结果的混淆矩阵

进行数据增强时验证集数据的二分类结果的混淆矩阵如表6所示；

表6 进行数据增强时验证集数据的二分类结果的混淆矩阵

未进行数据增强时验证集数据多分类结果的混淆矩阵如表7所示；

表7 未进行数据增强时验证集数据多分类结果的混淆矩阵

进行数据增强时验证集数据多分类结果的混淆矩阵如表8所示；

表8 进行数据增强时验证集数据多分类结果的混淆矩阵

表5中，1173表示实际是异常的样本被划分为异常的样本数量，1418表示实际是正常的样本被划分为正常的数量，174表示实际是异常样本被划分为正常的数量，156表示实际是正常样本被划分为异常的数量。表6同理。表7中，与表5类似，只是分类的类别增加，数值表示实际类被划分为预测类的数量，即：主对角线上的值，表示正确分类的样本数量，其余表示错误分类的样本数量。表8同理。从表5-表8可以看出，数据增强策略在多分类时，可以更显著的提高模型效果，对一些样本量少的类别的样本，可以更好地识别。

基于上述评估结果，训练完成的分类模型可以用于对故障的实时监测诊断。所以，本发明方法可以实时采集工况数据，实时完成故障类型的判断，能够有效降低故障的误报/漏报率。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于生成式对抗神经网络的示功图故障诊断方法，其特征在于，包括如下步骤：

数据清洗包括异常样本清洗和缺失标签处理，具体如下：

步骤1.1、异常样本清洗：直接去除异常样本数据；

a.计算缺失样本X _缺失与其他样本X _i的欧式距离：

(1)

(2)

c.将该样本对应的标签作为缺失标签样本的标签；

基于不同故障对示功图的典型响应及有杆泵采油特点，提取相关特征，包括采油工程特征和示功图几何特征；

采油工程特征包括泵深、井当前含水率、泵充满程度、有效冲程；所述示功图几何特征包括示功图最大载荷、示功图最小载荷、示功图理论上载荷及理论下载荷、上冲程平均载荷、下冲程平均载荷、示功图上冲程曲线第一个峰值及最后一个峰值、示功图下冲程曲线第一个峰值及最后一个峰值、示功图上冲程曲线平均斜率、示功图下冲程曲线平均斜率；

针对每一个故障类别，建立其独有的生成对抗神经网络生成模型，以其中一类为例，其余类别同理，具体过程如下：