CN113642666A - 一种基于样本扩充和筛选的主动增强软测量方法 - Google Patents

一种基于样本扩充和筛选的主动增强软测量方法 Download PDF

Info

Publication number
CN113642666A
CN113642666A CN202110999584.8A CN202110999584A CN113642666A CN 113642666 A CN113642666 A CN 113642666A CN 202110999584 A CN202110999584 A CN 202110999584A CN 113642666 A CN113642666 A CN 113642666A
Authority
CN
China
Prior art keywords
samples
sample
data
model
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110999584.8A
Other languages
English (en)
Other versions
CN113642666B (zh
Inventor
刘毅
戴云
余清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110999584.8A priority Critical patent/CN113642666B/zh
Publication of CN113642666A publication Critical patent/CN113642666A/zh
Application granted granted Critical
Publication of CN113642666B publication Critical patent/CN113642666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于样本扩充和筛选的主动增强软测量方法,包括以下步骤:1)获取工业聚乙烯熔融指数数据;2)聚乙烯数据的数据集划分以及预处理;3)生成虚拟样本扩充数据集;4)建立基于支持向量回归的选择性生成对抗网络SGAN‑SVR软测量模型;5)模型表现评估。本发明方法根据形心度量准则和原始样本的统计特性,从基于梯度惩罚的生成对抗网络WGAN‑GP模型生成的虚拟样本中筛选高质量的生成样本,作为原始样本的补充,提高了支持向量回归SVR模型对MI指标的预测准确率。

Description

一种基于样本扩充和筛选的主动增强软测量方法
技术领域
本发明涉及软测量技术领域,特别涉及一种基于样本扩充和筛选的主动增强软测量方法。
背景技术
近几年,随着互联网、物联网和数据采集存储系统在工业领域的广泛应用,海量数据得以采集与记录。但是,我们必须注意到,在大数据背景下存在着原始有标签样本缺乏的问题。许多过程工业中获得的数据量虽然巨大,但很多数据为重复采样,有用的信息十分有限。此外,由于数据获取的高昂成本或低发生率,同样造成数据有限的问题。这么少的有用样本不能完全覆盖整个有效空间,信息不完整,同时对原始样本特征空间的刻画能力也不足。
目前,工业过程中的关键指标预测任务多采用数据驱动的软测量建模方法。软测量建模依赖于统计分析或机器学习等方法,对数据中的潜在信息进行挖掘。减少了对工业过程内在机理或者数学模型的依赖,同时对过程先验知识的要求也大大降低。但是,软测量建模需要大量数据的支撑。当训练数据量远不能满足模型的充分完整训练时,得到模型无法刻画数据的真实分布,因此可靠性和准确性大大降低。
虚拟样本生成技术能有效解决工业数据稀缺的问题。该方法通过填补样本空间中真实样本间由于数据不充分造成的信息间隔,扩大样本个数,提高模型的预测能力和抑制“过拟合”。随着深度学习技术的显著进展,一些研究人员开始使用深度生成模型如生成对抗网络(Generative adversarial network,GAN)来生成虚拟样本。然而,由于GAN生成过程的不稳定性,在生成符合原始样本数据分布的虚拟样本的同时,生成了部分偏离原始分布的不合格样本。目前,没有一个合适的准则确定生成样本中哪些为高质量的样本。基于此,本发明提出了一种基于形心度量准则的样本筛选方法,通过该准则,可以从原先的生成样本中确定高质量的生成样本,在原始样本有限的情况下提升软测量模型的预测准确度。
发明内容
为解决过程工业中原始有标签样本缺乏导致软测量模型可靠性差的问题,本发明提出了一种基于样本扩充和筛选的主动增强软测量方法。通过利用基于梯度惩罚的生成对抗网络(Wasserstein GAN with gradient penalty,WGAN-GP)生成与原始样本相似的虚拟样本,并通过所提出的形心度量准则和原始样本的统计特性筛选合格的生成样本,随后将合格的生成样本与原始样本组成高质量样本数据集,并利用新的数据集训练支持向量回归(Support vector regression,SVR)软测量模型,以提升模型的预测准确率。
本发明的技术方案如下:
一种基于样本扩充和筛选的主动增强软测量方法,包括以下步骤:
1)获取工业聚乙烯熔融指数数据:
工业聚乙烯过程中,通常采用熔融指数(Melt Index,MI)指标对聚乙烯质量进行评价;然而,熔融指数无法采用在线传感器进行测量,只能通过离线实验分析获得,这将产生较大的时间滞后性并且导致生产出不合格的产品。与此同时,聚乙烯生产过程通过频繁改变其生产工况以及产品配方比例以生产不同类型的产品,导致在工况切换后的运行开始阶段,收集到的有标签数据缺乏,无法建立准确的预测模型。
2)聚乙烯数据的数据集划分以及预处理:
首先,将数据集划分为训练集和测试集,接着为加快模型收敛速度,减少模型训练时间,对数据归一化处理;训练集的数据形式为{XO,YO},其中{XO}={xOi}i=1,...,M是输入变量,{YO}={yOi}i=1,...,M是输出变量,M为样本数。
3)生成虚拟样本扩充数据集:
建立基于梯度惩罚的生成对抗网络模型,根据少量的训练集样本训练网络模型;WGAN-GP模型训练完成后,利用生成器生成虚拟样本,扩充原始数据集。生成的虚拟样本记为{XG,YG},其中{XG}={xGj}j=1,...,N是输入变量,{YG}={yGj}j=1,...,N是输出变量,N为生成样本的数量;
4)建立基于支持向量回归的选择性生成对抗网络SGAN-SVR(SelectiveGAN-SVR)软测量模型:
依据形心度量准则与原始样本的统计特性过滤掉不合格的生成样本,得到高质量的生成样本集。原始样本与高质量样本集组成新的训练集,记为{xOi∪xSj,yOi∪ySj}i=1,...,M,j=1,...,k,k为筛选出的高质量样本的数量。采用网格搜索与十折交叉验证方法得到最佳的生成样本数量与该数量下最佳的SVR模型参数。基于最佳模型参数,以新的训练集训练SVR软测量模型并预测MI指标。
5)模型表现评估:
为了更客观地评价本发明所提的方法,引入评价指标均方根误差(Root MeanSquare Error,RMSE)和相对均方根误差(Relative Root Mean Square Error,RE)。
进一步,所述步骤2)的过程为:
步骤2.1)划分数据集:
将聚乙烯数据按比例划分为训练集和测试集;
步骤2.2)数据归一化处理:
为加快模型收敛速度,减少模型训练时间,对数据归一化处理,公式如下:
Figure BDA0003235232300000041
式中,x为归一化处理后的数据;a为所采集的原始数据;amin为原始数据中的最小值;amax为原始数据中的最大值。
进一步,所述步骤3)的过程为:
步骤3.1)建立基于梯度惩罚的生成对抗网络模型:
WGAN-GP模型由生成器G和判别器D组成,均为神经网络;生成器G用于捕获真实数据的分布,生成与真实数据相似的样本;判别器用于判断其输入是真实数据还是生成数据;判别器和生成器的损失函数如下:
Figure BDA0003235232300000042
Figure BDA0003235232300000043
式中:x是原始样本,它的分布为pdata(x);
Figure BDA0003235232300000051
是生成样本,它的分布为
Figure BDA0003235232300000052
Figure BDA0003235232300000053
表示采样分布,
Figure BDA0003235232300000054
ε表示插值参数;D(.)表示判别器的输出,
Figure BDA0003235232300000055
表示判别器梯度2范数;E表示期望;λ表示梯度惩罚系数;
步骤3.2)使用有标签样本训练基于梯度惩罚的生成对抗网络模型并生成新的虚拟样本:
将原始有标签样本作为训练集,训练WGAN-GP模型;通过生成器、判别器的交替训练,生成器学习了原始真实样本的分布,产生以假乱真的样本;
步骤3.3)确定生成的虚拟样本的数量:
对原始样本与虚拟样本组成的新训练集采用十折交叉验证的网格搜索算法确定生成样本的数量。
进一步,所述步骤4)的过程为:
步骤4.1)采用形心度量准则过滤靠近形心的不合格生成样本:
计算原始样本的形心zC,它是空间中与原始样本集距离最近的点,被表达为:
Figure BDA0003235232300000056
其中,μxo表示形心的特征值坐标,μyo表示形心的标签值坐标;M是原始样本的数量。zC与有限数量的原始样本间距离的平方均值被定义为:
Figure BDA0003235232300000057
其中,zr是空间中的任意一点。
第j个生成样本与有限数量的原始样本间距离的平方均值被定义为:
Figure BDA0003235232300000061
根据dj与dC的定义,很显然dj≥dC。dj越小,生成样本与形心zC越接近;靠近形心的样本虽然有着小的dj值,但这些样本与原始样本的分布较远;将靠近形心的不合格样本定义为符合dj≤ρdC的样本点。ρ是依据不同数据集定义的超参数,它满足ρ≥1;因此,形心度量准则筛选符合要求的高质量样本公式为:
Figure BDA0003235232300000062
步骤4.2)依据原始样本的统计特性过滤生成样本中的离群点:
基于正常运行数据的概率密度函数p(x),100β%置信限被定义为满足以下积分的似然阈值h:
x:p(x)>hp(x)dx=β
对于原始样本,p(x)是一个多变量高斯分布。当生成样本xGj满足下式,则被认为是偏离原始分布的离群点。
Figure BDA0003235232300000063
其中,
Figure BDA0003235232300000064
是自由度为m的卡方分布的β分位数。将筛选出的合格样本与原始数据集混合,组成新的高质量生成样本集。
步骤4.3)建立MI指标预测模型并预测:
采用网格搜索与十折交叉验证方法得到最佳的生成样本数量与该数量下最佳的SVR模型参数。基于最佳模型参数,以新的训练集训练SVR软测量模型并预测MI指标。
进一步,所述步骤5)的过程为:
步骤5.1)均方根误差RMSE评价:
均方根误差定义如下:
Figure BDA0003235232300000071
式中:m表示测试集样本总量;yt表示输入样本xt的真实标签值;
Figure BDA0003235232300000072
表示输入样本xt的预测值。RMSE越小,说明回归模型的预测性能越好;
步骤5.2)相对均方根误差RE值评价:
相对均方根误差可表示为:
Figure BDA0003235232300000073
RE越小,模型的性能提升越多,越能够说明该方法的优越性。
本发明的有益效果主要表现在:本发明利用基于梯度惩罚的生成对抗网络生成虚拟样本,随后依据形心度量准则与原始样本的统计特性过滤不合格的样本,即靠近形心的样本与离群点。最终得到高质量的生成样本,作为原始样本的补充。解决了原始有标签的样本数据量缺乏时,软测量模型不可靠的问题,提升了模型的预测准确度。
附图说明
图1是本发明聚乙烯数据原始样本、生成样本与高质量生成样本的空间散点分布图;
图2是本发明SVR、GAN-SVR和SGAN-SVR方法的预测值与真实值对比图;
图3是本发明SVR、GAN-SVR和SGAN-SVR方法的绝对误差对比图;
图4是本发明的流程图;
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于样本扩充和筛选的主动增强软测量方法,具体步骤如下:
(1)获取工业聚乙烯熔融指数数据
本过程的数据来自于某工厂的工业聚乙烯过程。在该过程中,通常采用熔融指数(Melt Index,MI)指标衡量聚乙烯产品质量。然而,熔融指数无法采用在线传感器进行测量,只能通过离线实验分析获得,这将产生较大的时间滞后性并且生产出不合格的产品。与此同时,聚乙烯生产过程通过频繁改变其生产工况以及产品配方比例以生产不同类型的产品,导致在工况切换后的运行开始阶段,收集到的有标签数据缺乏,无法建立准确的预测模型。本文以聚乙烯生产过程中第一个反应罐生产牌号8001产品中的60个数据为例,研究性能。
(2)聚乙烯数据的数据集划分以及预处理
步骤2.1:划分数据集
将聚乙烯数据按1:1的比例划分为训练集和测试集,即30个样本用于训练,30个样本用于测试。
步骤2.2:数据归一化处理
为加快模型收敛速度,减少模型训练时间,对数据归一化处理,公式如下:
Figure BDA0003235232300000091
式中,x为归一化处理后的数据;a为所采集的原始数据;amin为原始数据中的最小值;amax为原始数据中的最大值。
训练集的数据形式为{XO,YO},其中{XO}={xOi}i=1,...,M是输入变量,{YO}={yOi}i=1,...,M是输出变量,M为样本数。
(3)生成虚拟样本扩充数据集
步骤3.1:建立基于梯度惩罚的生成对抗网络模型
WGAN-GP模型由生成器G和判别器D组成,均为神经网络。生成器G用于捕获真实数据的分布,生成与真实数据相似的样本。判别器用于判断其输入是真实数据还是生成数据。判别器和生成器的损失函数如下:
Figure BDA0003235232300000092
Figure BDA0003235232300000093
式中:x是原始样本,它的分布为pdata(x);
Figure BDA0003235232300000094
是生成样本,它的分布为
Figure BDA0003235232300000095
Figure BDA0003235232300000096
表示采样分布,
Figure BDA0003235232300000097
ε表示插值参数;D(.)表示判别器的输出,
Figure BDA0003235232300000098
表示判别器梯度2范数;E表示期望;λ表示梯度惩罚系数。
步骤3.2:使用少量的有标签样本训练基于梯度惩罚的生成对抗网络模型并生成新的虚拟样本
将原始少量的有标签样本作为训练集,训练WGAN-GP模型。通过生成器、判别器的交替训练,生成器学习了原始真实样本的分布,产生以假乱真的样本。生成的虚拟样本记为{XG,YG},其中{XG}={xGj}j=1,...,N是输入变量,{YG}={yGj}j=1,...,N是输出变量,N为生成样本的数量。
步骤3.3:确定生成的虚拟样本的数量
对原始样本与虚拟样本组成的新训练集采用十折交叉验证的网格搜索算法确定生成样本的数量。具体的,在一定的SVR模型参数下,将原始样本分成10份,取其中9份数据与生成样本组成暂时训练集。随后,训练好的SVR模型在剩下的一份数据上测试结果。10份数据轮流作为测试集,将10次测试总的结果作为该参数下SVR模型的预测值。对于SVR模型的参数范围,惩罚因子为c∈{2-2,2-1,...,210},本案例采用径向基核函数(RBF),gamma∈{2-3,2-2,...,28}。
(4)建立基于支持向量回归的选择性生成对抗网络SGAN-SVR(Selective GAN-SVR)软测量模型
步骤4.1:采用形心度量准则过滤靠近形心的不合格生成样本
计算原始样本的形心zC,它是空间中与原始样本集距离最近的点,被表达为:
Figure BDA0003235232300000101
其中,μxo表示形心的特征值坐标,μyo表示形心的标签值坐标;M是原始样本的数量。zC与有限数量的原始样本间的距离的平方均值被定义为:
Figure BDA0003235232300000111
其中,zr是空间中的任意一点。
第j个生成样本与有限数量的原始样本间的距离的平方均值被定义为:
Figure BDA0003235232300000112
根据dj与dC的定义,很显然dj≥dC。dj越小,生成样本与形心zC越接近。靠近形心的样本虽然有着小的dj值,但这些样本与原始样本的分布较远。将靠近形心的不合格样本定义为符合dj≤ρdC的样本点。ρ是依据不同数据集定义的超参数,它满足ρ≥1。因此,形心度量准则筛选符合要求的高质量样本公式为:
Figure BDA0003235232300000113
步骤4.2:依据原始样本的统计特性过滤生成样本中的离群点
基于正常运行数据的概率密度函数p(x),100β%置信限被定义为满足以下积分的似然阈值h:
x:p(x)>hp(x)dx=β
对于原始样本,p(x)是一个多变量高斯分布。当生成样本xGj满足下式,则被认为是偏离原始分布的离群点。
Figure BDA0003235232300000114
其中,
Figure BDA0003235232300000115
是自由度为m的卡方分布的β分位数。将筛选出的合格样本与原始数据集混合,组成新的高质量生成样本集,记为{xOi∪xSj,yOi∪ySj}i=1,...,M,j=1,...,k,k为筛选出的高质量样本的数量。
步骤4.3:建立MI指标预测模型并预测。
采用网格搜索与十折交叉验证方法得到最佳的生成样本数量与该数量下最佳的SVR模型参数。基于最佳模型参数,以新的训练集训练SVR软测量模型并预测MI指标。
(4)模型表现评估
步骤5.1:均方根误差RMSE评价
均方根误差定义如下:
Figure BDA0003235232300000121
式中:m表示测试集样本总量;yt表示输入样本xt的真实标签值;
Figure BDA0003235232300000122
表示输入样本xt的预测值。RMSE越小,说明回归模型的预测性能越好。
步骤5.2:相对均方根误差RE值评价
相对均方根误差可表示为:
Figure BDA0003235232300000123
RE越小,模型的性能提升越多,越能够说明该方法的优越性。
(5)MI指标预测结果
以原始的30个样本为基础,采用WGAN-GP方法生成虚拟样本。根据十折交叉验证网格搜索算法,生成不同数量的虚拟样本时的最小RMSE如表1所示。该表格表明,当生成样本量为150时,预测效果最好,该数量下的最小RMSE为24.01。随后,采用形心度量准则与原始样本的统计特性,从生成的150个生成样本中筛选合格的样本。根据形心度量准则,原始样本的dC=0.858。设置ρ=1.2,则ρdC=1.2*0.858=1.0296。根据计算,有21个样本的dj小于ρdC,这些样本被视为过于靠近形心的不合格样本,需要过滤掉。随后,根据原始样本的统计特性,采用90%置信限,共有15个样本被定义为离群点。因此,共得到114个合格样本。这些样本与原始样本组成新的高质量样本训练集,训练SVR软测量模型,将结果记录在表2中,即SGAN-SVR方法的结果。对比未经数据扩充的SVR方法的预测结果,扩充样本后未数据筛选的GAN-SVR方法的预测结果,SGAN-SVR方法的RMSE与RE值都最小,说明预测效果最好。
Figure BDA0003235232300000131
表1
Figure BDA0003235232300000132
表2
本发明方法采用形心度量准则和原始样本的统计特性从WGAN-GP生成的虚拟样本中筛选高质量的生成样本,作为原始样本的补充,提高了SVR模型对MI指标的预测准确率,具有普遍性和通用性。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.一种基于样本扩充和筛选的主动增强软测量方法,其特征在于,包括以下步骤:
1)获取工业聚乙烯熔融指数数据:
工业聚乙烯过程中,通常采用熔融指数MI指标对聚乙烯质量进行评价;
2)聚乙烯数据的数据集划分以及预处理:
首先,将数据集划分为训练集和测试集,接着为加快模型收敛速度,减少模型训练时间,对数据归一化处理;训练集的数据形式为{XO,YO},其中{XO}={xOi}i=1,...,M是输入变量,{YO}={yOi}i=1,...,M是输出变量,M为样本数;
3)生成虚拟样本扩充数据集:
建立基于梯度惩罚的生成对抗网络WGAN-GP模型,根据训练集样本训练网络模型;WGAN-GP模型训练完成后,利用生成器生成虚拟样本,扩充原始数据集;生成的虚拟样本记为{XG,YG},其中{XG}={xGj}j=1,...,N是输入变量,{YG}={yGj}j=1,...,N是输出变量,N为生成样本的数量;
4)建立基于支持向量回归的选择性生成对抗网络SGAN-SVR软测量模型:
依据形心度量准则与原始样本的统计特性过滤掉不合格的生成样本,得到高质量的生成样本集;原始样本与高质量样本集组成新的训练集,记为{xOi∪xSj,yOi∪ySj}i=1,...,M,j=1,...,k,k为筛选出的高质量样本的数量;采用网格搜索与十折交叉验证方法得到最佳的生成样本数量与该数量下最佳的支持向量回归SVR模型参数;基于最佳模型参数,以新的训练集训练SVR软测量模型并预测MI指标;
5)模型表现评估:
引入评价指标均方根误差RMSE和相对均方根误差RE,进行模型表现评估。
2.如权利要求1所述的基于样本扩充和筛选的主动增强软测量方法,其特征在于,所述步骤2)的过程为:
步骤2.1)划分数据集:
将聚乙烯数据按比例划分为训练集和测试集;
步骤2.2)数据归一化处理:
为加快模型收敛速度,减少模型训练时间,对数据归一化处理,公式如下:
Figure FDA0003235232290000021
式中,x为归一化处理后的数据;a为所采集的原始数据;amin为原始数据中的最小值;amax为原始数据中的最大值。
3.如权利要求1所述的基于样本扩充和筛选的主动增强软测量方法,其特征在于,所述步骤3)的过程为:
步骤3.1:建立基于梯度惩罚的生成对抗网络模型:
WGAN-GP模型由生成器G和判别器D组成,均为神经网络;生成器G用于捕获真实数据的分布,生成与真实数据相似的样本;判别器用于判断其输入是真实数据还是生成数据;判别器和生成器的损失函数如下:
Figure FDA0003235232290000031
Figure FDA0003235232290000032
式中:x是原始样本,它的分布为pdata(x);
Figure FDA0003235232290000033
是生成样本,它的分布为
Figure FDA0003235232290000034
Figure FDA0003235232290000035
表示采样分布,
Figure FDA0003235232290000036
ε表示插值参数;D(.)表示判别器的输出,
Figure FDA0003235232290000037
表示判别器梯度2范数;E表示期望;λ表示梯度惩罚系数;
步骤3.2:使用有标签样本训练基于梯度惩罚的生成对抗网络模型并生成新的虚拟样本:
将原始有标签样本作为训练集,训练WGAN-GP模型,通过生成器、判别器的交替训练,生成器学习了原始真实样本的分布,产生以假乱真的样本。
步骤3.3:确定生成的虚拟样本的数量:
对原始样本与虚拟样本组成的新训练集采用十折交叉验证的网格搜索算法确定生成样本的数量。
4.如权利要求1所述的基于样本扩充和筛选的主动增强软测量方法,其特征在于,所述步骤4)的过程为:
步骤4.1:采用形心度量准则过滤靠近形心的不合格生成样本:
计算原始样本的形心zC,它是空间中与原始样本集距离最近的点,被表达为:
Figure FDA0003235232290000041
其中,μxo表示形心的特征值坐标,μyo表示形心的标签值坐标;M是原始样本的数量;zC与有限数量的原始样本间距离的平方均值被定义为:
Figure FDA0003235232290000042
其中,zOi为原始样本;zr是空间中的任意一点;
第j个生成样本zGj与有限数量的原始样本间距离的平方均值被定义为:
Figure FDA0003235232290000043
根据dj与dC的定义,很显然dj≥dC;dj越小,生成样本与形心zC越接近;靠近形心的样本虽然有着小的dj值,但这些样本与原始样本的分布较远;将靠近形心的不合格样本定义为符合dj≤ρdC的样本点;ρ是依据不同数据集定义的超参数,它满足ρ≥1;因此,形心度量准则筛选符合要求的高质量样本公式为:
Figure FDA0003235232290000044
步骤4.2:依据原始样本的统计特性过滤生成样本中的离群点:
基于正常运行数据的概率密度函数p(x),100β%置信限被定义为满足以下积分的似然阈值h:
x:p(x)>hp(x)dx=β
对于原始样本,p(x)是一个多变量高斯分布;当生成样本xGj满足下式,则被认为是偏离原始分布的离群点;
Figure FDA0003235232290000051
其中,
Figure FDA0003235232290000052
是自由度为m的卡方分布的β分位数;xGj为第j个生成样本的输入值;μxo为原始样本输入值的均值;
Figure FDA0003235232290000053
为原始样本输入值的协方差矩阵的逆矩阵。将筛选出的合格样本与原始数据集混合,组成新的高质量生成样本集{xOi∪xSj,yOi∪ySj}i=1,...,M,j=1,...,k
步骤4.3:建立MI指标预测模型:
采用网格搜索与十折交叉验证方法得到最佳的生成样本数量与该数量下最佳的SVR模型参数;基于最佳模型参数,以新的训练集训练SVR软测量模型并预测MI指标。
5.如权利要求1所述的基于样本扩充和筛选的主动增强软测量方法,其特征在于,所述步骤5)的过程为:
步骤5.1)均方根误差RMSE评价:
均方根误差定义如下:
Figure FDA0003235232290000054
式中:m表示测试集样本总量;yt表示输入样本xt的真实标签值;
Figure FDA0003235232290000055
表示输入样本xt的预测值;RMSE越小,说明回归模型的预测性能越好。
步骤5.2)相对均方根误差RE值评价:
相对均方根误差可表示为:
Figure FDA0003235232290000056
RE越小,模型的性能提升越多,越能够说明该方法的优越性。
CN202110999584.8A 2021-08-29 2021-08-29 一种基于样本扩充和筛选的主动增强软测量方法 Active CN113642666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110999584.8A CN113642666B (zh) 2021-08-29 2021-08-29 一种基于样本扩充和筛选的主动增强软测量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110999584.8A CN113642666B (zh) 2021-08-29 2021-08-29 一种基于样本扩充和筛选的主动增强软测量方法

Publications (2)

Publication Number Publication Date
CN113642666A true CN113642666A (zh) 2021-11-12
CN113642666B CN113642666B (zh) 2024-02-02

Family

ID=78424320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110999584.8A Active CN113642666B (zh) 2021-08-29 2021-08-29 一种基于样本扩充和筛选的主动增强软测量方法

Country Status (1)

Country Link
CN (1) CN113642666B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330924A (zh) * 2022-01-10 2022-04-12 中国矿业大学 基于生成式对抗网络的复杂产品变更强度预测方法
CN114998749A (zh) * 2022-07-28 2022-09-02 北京卫星信息工程研究所 用于目标检测的sar数据扩增方法
CN115035962A (zh) * 2022-01-26 2022-09-09 昆明理工大学 基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法
CN117235464A (zh) * 2023-11-14 2023-12-15 华东交通大学 一种傅里叶近红外干涉信号虚拟生成评价方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763857A (zh) * 2018-05-29 2018-11-06 浙江工业大学 一种基于相似度生成对抗网络的过程软测量建模方法
CN112966429A (zh) * 2020-08-11 2021-06-15 中国矿业大学 基于WGANs数据增强的非线性工业过程建模方法
US20210197335A1 (en) * 2019-12-26 2021-07-01 Dalian University Of Technology Data Augmentation Method Based On Generative Adversarial Networks In Tool Condition Monitoring

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763857A (zh) * 2018-05-29 2018-11-06 浙江工业大学 一种基于相似度生成对抗网络的过程软测量建模方法
US20210197335A1 (en) * 2019-12-26 2021-07-01 Dalian University Of Technology Data Augmentation Method Based On Generative Adversarial Networks In Tool Condition Monitoring
CN112966429A (zh) * 2020-08-11 2021-06-15 中国矿业大学 基于WGANs数据增强的非线性工业过程建模方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330924A (zh) * 2022-01-10 2022-04-12 中国矿业大学 基于生成式对抗网络的复杂产品变更强度预测方法
CN115035962A (zh) * 2022-01-26 2022-09-09 昆明理工大学 基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法
CN114998749A (zh) * 2022-07-28 2022-09-02 北京卫星信息工程研究所 用于目标检测的sar数据扩增方法
CN117235464A (zh) * 2023-11-14 2023-12-15 华东交通大学 一种傅里叶近红外干涉信号虚拟生成评价方法及系统
CN117235464B (zh) * 2023-11-14 2024-02-23 华东交通大学 一种傅里叶近红外干涉信号虚拟生成评价方法及系统

Also Published As

Publication number Publication date
CN113642666B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN113642666A (zh) 一种基于样本扩充和筛选的主动增强软测量方法
CN110096810B (zh) 一种基于逐层数据扩充深度学习的工业过程软测量方法
CN108241901B (zh) 一种基于预测数据的变压器预警评估方法及装置
CN116448419A (zh) 基于深度模型高维参数多目标高效寻优的零样本轴承故障诊断方法
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN103577676A (zh) 污水处理工艺综合评价的灰色加权法
CN107908807B (zh) 一种基于贝叶斯理论的小子样可靠性评定方法
CN113889198A (zh) 一种基于油色谱时频域信息和残差注意力网络的变压器故障诊断方法及设备
CN117933497B (zh) 一种基于tsa-arima-cnn的企业碳排放预测方法
CN115438897A (zh) 一种基于blstm神经网络的工业过程产品质量预测方法
CN109960146A (zh) 提高软测量仪表模型预测精度的方法
CN116776647B (zh) 一种复合镍铜铝散热底板的性能预测方法及系统
CN116704208B (zh) 基于特征关系的局部可解释方法
CN112420135A (zh) 一种基于样方法和分位数回归的虚拟样本生成方法
CN116186507A (zh) 一种特征子集的选取方法、装置及存储介质
CN112966449B (zh) 基于变量选择和概率神经网络的制造过程质量缺陷根源诊断方法
CN111062118B (zh) 一种基于神经网络预测分层的多层软测量建模系统及方法
Awtoniuk et al. Industrial Application of Deep Neural Network for Aluminum Casting Defect Detection in Case of Unbalanced Dataset
Wang et al. Multimode process fault detection method based on variable local outlier factor
Campuzano et al. Characterisation and optimal design of a new double sampling c chart
CN116780524B (zh) 一种基于lstm深度学习的工业企业短期负荷预测方法
CN113962554B (zh) 一种基于慢特征聚类的双重粒度烟支质量在线评价方法
CN115902814B (zh) 基于信息空间度量的目标识别模型性能评估方法和装置
CN114674858B (zh) 一种三元正极材料性能指标综合评价方法及装置
US11651482B2 (en) Method for obtaining at least one significant feature in a series of components of the same type and method for the classification of a component of such a series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant