CN115081338B - 数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法 - Google Patents

数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法 Download PDF

Info

Publication number
CN115081338B
CN115081338B CN202210834235.5A CN202210834235A CN115081338B CN 115081338 B CN115081338 B CN 115081338B CN 202210834235 A CN202210834235 A CN 202210834235A CN 115081338 B CN115081338 B CN 115081338B
Authority
CN
China
Prior art keywords
data
matrix
carbon
hobbing
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210834235.5A
Other languages
English (en)
Other versions
CN115081338A (zh
Inventor
易茜
柳淳
李聪波
赵希坤
易树平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210834235.5A priority Critical patent/CN115081338B/zh
Publication of CN115081338A publication Critical patent/CN115081338A/zh
Application granted granted Critical
Publication of CN115081338B publication Critical patent/CN115081338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/80Management or planning
    • Y02P90/84Greenhouse gas [GHG] management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,首先,揭示了滚齿加工过程的碳耗特性,分析了滚齿加工过程碳耗数据缺失机制;通过引入正则化机制构建了生成对抗填补网络(GAIN)损失函数,提出了基于改进GAIN的碳耗数据填补方法;然后,使用随机森林(RF)算法构造了滚齿碳排放预测模型,实现了数据驱动的滚齿加工碳耗动态预测。最后,将本方法与其他数据填补方法及碳耗预测方法进行对比,结果表明本方法有效降低滚齿碳耗数据缺失带来的预测误差,验证该方法的有效性。

Description

数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法
技术领域
本发明涉及滚齿碳耗预测,更具体地说涉及一种数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,属于滚齿碳耗预测技术领域。
背景技术
随着温室效应及全球气候变暖等问题的日益严峻,低碳制造已成为研究的热点问题。制造业是我国碳排放的重要领域,国家数据统计2019年中国碳排放总量为9794.756Mt,位居世界第一,其中制造业排放总量为3504.82Mt,占全国总排放量的35.8%。因此,制造业绿色低碳发展有助于践行“3060碳达峰碳中和”战略目标。
机械加工系统是以机床为主体的典型制造系统,具有量大、分布面广、能量消耗大等特点。构建机床碳耗模型可为复杂机械加工过程提供准确的碳耗预测值,为高效低碳优化决策提供支持。为此,国内外学者对机械加工过程碳耗及能耗建模开展了大量研究。一些学者通过理论建模分析加工过程各子系统的能耗构成特性和时段特性,构建了机床多层次多时段的能耗模型。如李聪波等分析了数控滚齿加工过程的能耗构成特性和时段特性,基于切削加工经验公式建立加工过程能耗模型。倪恒欣等对滚齿加工待机时段、空切时段和切削时段三个阶段的能耗进行系统分析,构建了滚齿加工能耗模型。CHEN等考虑不同刀具和切削参数建立了面向铣削加工过程的能耗足迹模型。Priarone等综合考虑车削各加工状态和工件、刀具、润滑液等与使用相关的加工条件,建立了考虑直接能耗和间接能耗的综合模型。Albertelli等充分考虑每个机床部件功率与主要切削参数之间的关联关系,提出了一个数控铣削能耗详细分析模型。
另一部分学者运用机器学习方法分析加工数据与碳耗、能耗数据之间的复杂映射关系,构建了预测精度高、泛化性强的数据驱动碳耗模型。易茜等通过小样本实验设计,采用反向传播神经网络建立滚齿碳排放预测模型,模型预测准确率达到90%以上。Bhinge等开展不同加工参数下的铣削实验,通过高斯过程回归构建了机械加工能耗预测模型。Nguyen利用铣削加工实验数据,基于克里金模型构建了切削深度、主轴转速、进给速率等与比能和表面粗糙度之间的关联模型。XIAO等利用在车间收集历时三年的加工参数、配置参数及其对应能耗数据,基于多种传统机器学习和深度学习方法建立了数控加工系统能耗预测模型,比较研究了不同建模方法在不同数据集中的预测建模效果。
以上研究均基于完备加工数据构建机床能耗和碳耗模型,但是在实际碳耗数据采集过程中,人为操作或设备运行中多种因素的影响都会导致采集数据出现错误或缺失,如数据的记录、整理、输入时由于人为错误、整理不当等原因会导致加工数据缺失。另外,大量数据依赖传感器进行实时监控采集,复杂的车间环境会造成碳耗数据传输不稳定、采集中断等现象,导致碳耗数据采集不完备。研究表明碳耗数据缺失不仅加大数据分析的难度、降低数据处理效率,还会导致碳耗模型预测精度降低。因此,在碳耗数据缺失下开展数据填补并构建碳耗预测模型是一亟待解决的难题。
近年来,数据缺失问题已在数控加工、故障诊断等诸多领域引起了广泛关注。现有数据缺失填补方法可分为删除法和插补法,其中删除法为直接删除包含缺失值的数据样本,由于丢失数据关键信息而导致预测精度较低。插补方法有基于统计学的均值插补、回归插补等方法,以及基于机器学习的插补方法,如MICE多重插补、KNN插补等。生成对抗插补网络(Generative adversarial imputation net,GAIN)是近年新提出的一种数据插补方法,能在数据缺失集中学会完整数据分布,完成高效的数据填补,在图像和计算机视觉等领域已获得了广泛的应用。现有生成对抗插补网络对有限数据进行填补时,会出现过拟合的现象,导致判别器对真实数据和生成数据的预测偏差较大。
发明内容
针对现有技术存在的上述不足,本发明的目的是提供一种数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,本方法基于对缺失数据的填补,实现了数据缺失下滚齿碳耗预测,预测准确性较高。
本发明的技术方案是这样实现的:
数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,按如下步骤进行,
1)采集滚齿加工过程碳排放量所需数据,建立原始数据矩阵X及其掩码矩阵M;掩码矩阵M维度大小与原始数据矩阵X一致;M中元素仅由0,1组成,若X中出现碳耗数据缺失,则掩码矩阵M中的对应位置元素为0,否则为1;
2)GAIN模型的数据生成器G基于原始数据矩阵X获取滚齿碳耗数据分布矩阵其过程如式(12)所示,其中Z为随机噪声;基于数据分布矩阵/>和掩码矩阵M对原始数据矩阵X数据缺失进行插值操作,获得填补矩阵/>填补矩阵/>计算公式如式(13)所示;
3)GAIN模型的数据判别器D根据填补矩阵和提示矩阵H,获得数据真实性概率矩阵P,以判断填补矩阵/>中原始数据与填补数据的差异,计算公式如式(14),其中提示矩阵H按式(15)计算:
其中,提示矩阵H用于控制掩码矩阵M传入数据判别器D中的信息量;Q为由0或1随机元素组成的矩阵;当元素Q(i)取值为1时,表示相应位置M(i)的有效信息将传入数据判别器D;若Q(i)取值为0,H(i)=0.5,将不传递M(i)的信息;
4)固定数据生成器G,根据数据判别器损失函数优化数据判别器D;
5)固定数据判别器D,通过数据生成器G和步骤4)优化后的数据判别器D计算填补矩阵提示矩阵H和概率矩阵P,利用数据生成器损失函数优化数据生成器G;
6)重复步骤2)-5),直至达到GAIN模型最大优化迭代次数;输出最终得到的填补矩阵
7)以步骤6)最终得到的填补矩阵作为滚齿加工碳排放预测模型的输入,即可通过滚齿加工碳排放预测模型得到滚齿碳耗预测结果。
上述步骤4)中,数据判别器损失函数由交叉熵损失函数LD1和正则化损失函数LR构成,
交叉熵损失函数LD1用于指导数据判别器D将真实数据与生成数据分辨准确,具体公式如下:
式中E表示对数据矩阵中元素取均值,为矩阵中元素乘法;
正则化损失函数LR构造时,首先计算数据判别器D对真实数据Dreal预测概率和填补数据Dfake预测概率之间的差异,用于训练数据判别器D神经网络,提高数据判别器D的泛化性能;其中,Dreal和Dfake的计算公式为:
Dreal,Dfake指数移动平均变量αr,αf用于跟踪数据判别器D对真实数据和填补数据的预测输出,计算公式为:
式中,t为网络训练的迭代次数,β为衰减因子;正则化损失函数计算公式如下:
LR=E[||Drealf||2]-E[||Dfaker||2] (19)
故,数据判别器损失函数为交叉熵损失函数LD1和正则化损失函数LR加权和:
式中λ为权重参数。
上述步骤5)中,数据生成器损失函数包括LG1和LG2;其中,LG1为计算数据真实性概率矩阵P与掩码矩阵M分布差异的交叉熵损失,计算公式如下:
LG2为原始数据矩阵X中未缺失数据与数据矩阵对应位置数据之间的偏差,计算公式如下:
数据生成器损失函数为
式中α为权重参数。
步骤7)所述滚齿加工碳排放预测模型基于随机森林算法构建得到,具体步骤如下:
7.1)通过自助重复抽样技术从最终得到的填补矩阵中随机抽取n个数据组成一个训练集;
7.2)利用训练集训练一个决策树,在训练决策树节点时,在节点上所有的样本特征中选择一部分样本特征,在这些随机选择的部分样本特征中选择一个最优的特征来划分决策树的左右子树;
7.3)重复步骤7.1)和7.2),直到构建出的子决策树的数量T满足随机森林的要求;
7.4)将决策子树的预测均值作为滚齿加工碳排放预测模型最终的预测结果H(x),计算公式为:
式中,hi(x)为单个决策树预测模型,I(X)为示性函数。
步骤1)中,采集到滚齿加工过程碳排放量所需数据后,对这些数据进行预处理,预处理包括数据清洗和数据归一化。
数据清洗是检测和清理原始数据中缺失的或不合逻辑的值,将其标为缺失数据。
所述数据归一化目的是使不同特征指标间处于同一数量级,增强数据间的可比性,具体公式如下:
式中,y为归一化后的加工数据,x表示数据原始值,xmax和xmin为样本数据的最大值和最小值,ymin和ymax为归一化区间的下限和上限。
与现有技术相比,本发明具有以下有益效果:
1、针对滚齿碳耗数据缺失问题,本发明提出一种基于正则化生成对抗填补网络(Regularized generative adversarial imputation net,RGAIN)的滚齿碳耗预测方法。分析了滚齿加工碳耗数据缺失机制,并从模型正则化角度改进生成对抗填补网络在有限滚齿碳耗数据中的泛化能力,提出一种基于RGAIN的碳耗数据填补方法,再利用随机森林算法构建滚齿加工过程碳排放预测模型,实现基于加工参数缺失的滚齿碳耗预测。
2、通过实验对比验证,相较于GAIN模型、KNN插补和均值插补模型,本发明RGAIN数据填补模型的MAE、MAPE、RMSE指标均最优。同时基于随机森林算法RF的预测模型性能也优于MLP和Catboost算法,表明本发明方法针对缺失滚齿数据的填补和碳耗预测具有一定的优越性。
本发明通过对生成对抗填补网络中添加正则化损失函数,提高其在有限滚齿数据中的泛化性。
附图说明
图1-数控滚齿加工碳排放边界模型示意图。
图2-数控滚齿加工实时功率曲线图。
图3-滚齿机床走刀过程示意图。
图4-数据采集系统框架图。
图5-本发明基于RGAIN的滚齿碳耗数据填补流程图。
图6-本发明实施例中加工齿轮零件示意图。
图7-不同数据缺失率下填补数据碳排放计算误差对比示意图。
图8-不同数据缺失率下RF模型碳排放预测值与真实值对比示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
为更好地理解本预测方法,本发明首先对滚齿加工碳耗及其数据缺失进行了分析,然后介绍了基于RGAIN的滚齿加工数据填补方法,再基于随机森林算法构建了加工数据缺失下的滚齿碳耗建模;最后以具体案例阐述了本发明的实现过程并验证了实施效果。以下对各部分分别进行说明。
1、滚齿加工碳耗及其数据缺失分析
1.1数控滚齿加工碳耗特性分析
滚齿加工过程的碳排放应从其整个输入输出过程考虑,其中输入包括各种能源、物料、切削液等,输出包括齿轮成品及各种废弃物。ISO14064系列标准将生产过程碳排放分为直接碳排放和间接碳排放,由于滚齿加工过程消耗各种物料能源的碳排放无法直接计算,故其属于间接碳排放核算范畴。滚齿加工过程碳排放边界模型如图1所示。
由图1碳排放边界模型可知,滚齿加工碳排放为消耗能源和物料等资源产生的碳排放之和,即包括消耗电能产生的碳排放,消耗原材料产生的碳排放,刀具磨损产生的碳排放和切削液使用以及废物回收产生的碳排放。但原材料消耗的碳排放和废物、废液处理的碳排放在工艺设计阶段就已决定,切削液碳排放主要取决于切削液的使用方式,均与滚齿加工过程中的工艺参数无关。故本发明只考虑与滚齿加工参数相关的能耗碳排放和刀具碳排放,计算公式为:
Ctotal=Ce+Ct (1)
其中Ctotal为滚齿加工过程总碳排放,Ce为能耗碳排放,Ct为刀具碳排放。
(1)能耗碳排放
数控滚齿机消耗电能所产生的碳排放是滚齿加工过程碳排放最主要的来源之一,其计算公式为:
Ce=Ee×EFelec (2)
式中Ee为滚齿加工过程总能耗,EFelec为电能碳排放因子。
滚齿机结构复杂、能耗源众多,主要能耗部件有主轴电机、进给电机、变频器、伺服器等,数控滚齿机床加工的实时功率曲线如图2所示。
由图2可知,滚齿加工过程中机床启动、滚刀加速、退刀等阶段时间较短,功率跃变较大,能耗可忽略,故总能耗分为待机能耗Est、空切能耗Eair和切削能耗Ecutting,具体公式如下:,
式中tst、tct、tair和tcutting分别为待机时间、换刀时间、空切时间和切削时间。Pst、Pau为待机功率和辅助系统功率,均由机床本身性能决定。Pu为空载功率,与主轴转速和进给量呈二次函数关系。附加载荷功率Pa与切削功率Pc呈二次函数关系,切削功率Pc的计算公式为:
式中KF、XF、YF、ZF、UF、VF均为切削力系数,与齿轮材料、刀具材料、刀具角度、切削力方向均有关,m为滚刀法向模数,f为滚刀轴向进给量,λ为滚刀切入深度,ap r为每次滚刀最大切入深度,d为滚刀外径。
由上述分析可知,滚齿加工过程功率由齿轮参数、滚刀参数和加工参数(主轴转速、进给量)共同决定。
图3为滚齿切削一次走刀过程的示意图。图中滚刀从A位置沿水平方向慢进到B位置,B位置由固定进给量f走刀到位置C,最后经由D快速退刀回至位置A。且滚刀由位置O1开始切入齿轮,由位置O2完全切出,O1到O2间的距离为滚刀切削路程。
由上述分析可知,待机时间tst可视为定值,换刀时间tair和切削时间tcutting计算公式可表示为:
式中tairx为滚刀水平方向空切时间,lairz为滚刀竖直方向空切路程。
tct为换刀时间,计算公式为:
式中,tptc为单次加工换刀时间,T为滚刀寿命。滚刀寿命计算公式可表示为:
T=k0vk1fk2 (8)
式中,k0、k1、k2均为使用寿命系数,v为滚刀切削线速度。
(2)刀具消耗碳排放
滚齿加工刀具磨损产生的碳排放是考虑刀具在制备过程中产生的碳排放在每次加工过程中的分摊值,其计算公式为
式中mtool为滚刀质量,EFtool为刀具碳排放因子。该部分碳排放同样由滚齿加工参数和刀具材料决定。
综上所述,滚齿加工过程的碳排放由齿轮参数、刀具参数和加工参数(主轴转速、进给量)共同决定,其计算公式为:
1.2滚切加工数据特点及数据缺失机制分析
滚齿碳耗数据主要包括能耗数据、加工参数数据及加工条件数据,具体采集方式如图4所示。其中能耗数据通过功率监控仪实时采集,加工参数数据从机床数控系统中导出,加工条件数据在MES中获取。另外,能耗数据与加工参数数据通过以太网自动传输保存于用户服务器中。
在滚齿碳耗数据采集过程中,数据缺失通常是不可避免的。滚齿加工现场通常环境复杂且恶劣,设备传感器工作不稳定,或各种电磁信号的干扰都会导致信息采集系统收集的数据出现缺漏。同时,工人的不规范操作、人工输入与传递数据时不可避免出现的错误偏差都会导致采集到数据的不准确。根据图4所示的滚齿碳耗数据采集方式分析数据缺失的主要原因及其影响:1)功率监控仪故障或传输不稳定导致能耗数据缺损,从而影响能耗碳排放计算;2)数据采集系统与数控系统之间的通信不稳定导致加工参数的自动采集受到影响,导致刀具碳排放核算不准确;3)MES系统储存齿轮、刀具的等加工条件参数。由于齿轮结构的复杂性,其齿轮型号、刀具等参数均在工艺设计阶段确定。在齿轮加工过程中,工艺检查步骤会对齿轮加工精度进行检查,减少了齿轮参数缺失现象,故在加工过程中出现齿轮和刀具参数缺失的可能性较小。
从上数据缺失分析可知,滚齿碳耗数据缺失状况不依赖于任何数据变量,而是随着设备故障、传输中断或人为错误引发的不可预测的数据缺损,故其缺失类型为完全随机缺失。本发明引入掩码矩阵描述滚齿碳耗数据的缺失情况,具体表示方法如下:
其中,NA表示滚齿碳耗数据矩阵X中的缺失值,M为掩码矩阵,其维度大小与原始矩阵X一致。M中元素仅由0,1组成,若X中出现碳耗数据缺失,则在掩码矩阵M中的对应位置元素为0,否则为1。
2.基于RGAIN的滚齿加工数据填补方法
本节针对滚齿碳耗数据缺失问题,构建基于正则化的RGAIN损失函数,提出基于RGAIN的滚齿加工碳耗数据填补方法,实现碳耗数据的有效填补。具体流程如图5所示。
2.1 RGAIN模型结构组成
GAIN是一种面向数据填补的对抗性学习网络,通过生成器和判别器对抗性学习机制,生成与真实数据分布相同的数据样本。另外,GAIN能通过神经网络形成复杂的分布,不需要对完整数据集进行学习,被广泛应用于图像识别、文本处理等领域。RGAIN具备GAIN的主要框架,同样由数据生成器和判别器两部分组成,具体叙述如下:
(1)碳耗数据生成器G
碳耗数据生成器G是通过滚齿碳耗数据缺失集学习其完整的数据分布,进而填补滚齿碳耗数据的缺失。碳耗数据生成器G的输入主要包括原始数据矩阵X、随机噪声Z以及掩码矩阵M。首先,生成器D基于原始缺失矩阵X获取滚齿碳耗数据分布矩阵其过程如式(12)所示。然后,基于数据分布矩阵/>和掩码矩阵M对原始矩阵X数据缺失进行插值操作,最终获得填补矩阵/>数据填补公式如式(13)所示。
(2)碳耗数据判别器D
碳耗数据判别器D用来判断填补矩阵中的数据是来自数据生成器G还是原始数据。首先,根据填补矩阵/>和提示矩阵H,获得数据真实性概率矩阵P,判断填补矩阵/>中原始数据与填补数据的差异,计算公式如下:
其中,H为提示矩阵,用于控制掩码矩阵M传入判别器D中的信息量。Q为由0或1随机元素组成的矩阵。当元素Q(i)取值为1时,表示相应位置M(i)的有效信息将传入D;若Q(i)取值为0,H(i)=0.5,将不传递M(i)的信息。
2.2基于正则化的GAIN损失函数构造
传统生成对抗网络对有限数据进行填补时,会出现过拟合的现象,导致判别器对真实数据和生成数据的预测偏差较大。因此,本发明引入正则化损失函数提高生成对抗网络的泛化性和鲁棒性,具体叙述如下:
(1)判别器D损失函数
传统判别器D的损失函数为交叉熵损失LD1,用于指导判别器D将真实数据与生成数据分辨准确,具体公式如下:
式中E表示对数据矩阵中元素取均值,为矩阵中元素乘法。
正则化损失函数构造时,首先计算判别器D对真实数据Dreal预测概率和填补数据Dfake预测概率之间的差异,用于训练判别器D神经网络,提高判别器D的泛化性能。其中,Dreal和Dfake的计算公式为:
Dreal,Dfake指数移动平均变量αr,αf用于跟踪判别器D对真实数据和填补数据的预测输出,计算公式为:
式中,t为网络训练的迭代次数,β为衰减因子。因此,正则化损失函数计算公式如下:
LR=E[||Drealf||2]-E[||Dfaker||2] (19)
综上所述,判别器D损失函数为式(16)和式(19)的损失函数加权和:
式中λ为权重参数。
(2)生成器G损失函数
生成器G损失函数用于训练生成器G的神经网络,使得生成器G的填补数据接近真实数据。其中,生成器G损失函数主要包括LG1和LG2。其中,LG1为计算数据真实性概率矩阵P与掩码矩阵M分布差异的交叉熵损失,计算公式如下:
LG2为原始缺失矩阵X中未缺失数据与数据矩阵对应位置数据之间的偏差,计算公式如下:
综上所述,生成器G的损失函数为
式中α为权重参数。
3加工数据缺失下的滚齿碳耗建模
3.1碳耗数据预处理
数据预处理是机器学习建模前的一个必要步骤,其作用是将原始数据转化为算法需要的形式,从而提高预测建模精度。本发明数据预处理步骤包括:
(1)数据清洗:数据清洗是检测和清理原始数据中缺失的或不合逻辑的值,将其标为缺失数据。
(2)数据缺失率计算:本发明使用数据缺失率描述数据缺失程度,数据缺失率β计算公式为:
式中h为缺失参数个数,l为总参数个数。
(3)数据归一化:滚齿加工过程中加工参数、能耗、碳排放等加工数据均有不同的量级范围。为消除不同特征指标之间的量纲影响,本发明运用数据归一化使得不同特征指标间处于同一数量级,增强数据间的可比性,具体公式如下:
式中,y为归一化后的加工数据,x表示数据原始值,xmax和xmin为样本数据的最大值和最小值,ymin和ymax为归一化区间的下限和上限。
3.2随机森林算法描述
随机森林算法是以决策树为基学习器,基于许多决策树的生成及组合以产生最终结果的一种机器学习算法。决策树是一种基本的分类及回归方法,基于树结构来决策。随机森林算法的具体步骤如下:
(1)通过自助重复抽样技术从滚齿碳耗数据中随机抽取n个数据组成一个训练集。
(2)利用训练集训练一个决策树,在训练决策树节点时,在节点上所有的样本特征中选择一部分样本特征,在这些随机选择的部分样本特征中选择一个最优的特征来划分决策树的左右子树。
(3)重复(1)和(2)步骤,直至到构建出的子决策树的数量T满足随机森林的要求。
(4)对于分类问题,选择多数决策子树的投票结果作为最终的分类结果。对于回归问题,将决策子树的预测均值作为最终的预测结果。
随机森林算法滚齿碳耗预测模型H(x)的公式为:
式中,hi(x)为单个决策树预测模型,I(X)为示性函数。
随机森林算法集合了多个决策树,比单个决策树有更好的预测性能,是一种不容易过拟合且泛化性能强的机器学习算法。
3.3评价指标
本发明使用均方根误差(RMSE)、平均绝对误差(MAE)、和平均相对误差(MAPE)来评估模型的性能。上述指标反映预测值与真实值之间的偏差,其中MAE反映绝对误差之间的平均值,RMSE为均方误差的算术平方根,MAPE表示误差百分率绝对值的平均值。以上三个指标越低,则表示模型具有更好的预测性能。评价指标计算公式如下:
其中n为总数据集数量,yt为第t项实际值,ytpre为第t项预测值。
基于上述介绍,可以归纳出本发明数据缺失下滚齿碳耗预测方法,按如下步骤进行,
1)采集滚齿加工过程碳排放量所需数据,数据进行预处理后,再建立原始数据矩阵X及其掩码矩阵M;掩码矩阵M维度大小与原始数据矩阵X一致;M中元素仅由0,1组成,若X中出现碳耗数据缺失,则掩码矩阵M中的对应位置元素为0,否则为1;
2)GAIN模型的数据生成器G基于原始数据矩阵X获取滚齿碳耗数据分布矩阵其过程如式(12)所示;基于数据分布矩阵/>和掩码矩阵M对原始数据矩阵X数据缺失进行插值操作,获得填补矩阵/>填补矩阵/>计算公式如式(13)所示;
3)GAIN模型的数据判别器D根据填补矩阵和提示矩阵H,获得数据真实性概率矩阵P,以判断填补矩阵/>中原始数据与填补数据的差异,计算公式如式(14),其中提示矩阵H按式(15)计算:
4)固定数据生成器G,根据数据判别器损失函数优化数据判别器D;
5)固定数据判别器D,通过数据生成器G和步骤4)优化后的数据判别器D计算填补矩阵提示矩阵H和概率矩阵P,利用数据生成器损失函数优化数据生成器G;
6)重复步骤2)-5),直至达到GAIN模型最大优化迭代次数;输出最终得到的填补矩阵
7)以步骤6)最终得到的填补矩阵作为滚齿加工碳排放预测模型的输入,即可得到滚齿碳耗预测结果。滚齿加工碳排放预测模型基于前面介绍的随机森林算法构建得到。
4.案例研究
4.1实验设备及条件
为验证本发明所提方法的有效性,在重庆某机床制造企业开展验证性实验。实验使用数控滚齿机进行齿轮加工,利用HIOKI PW6001功率分析仪对滚齿机床的能耗数据进行实时采集。
本发明在滚齿机上采用不同的加工参数组合开展粗/精加工,同时运用功率仪实时采集每次加工的滚齿机床电能消耗,并计算每次加工的碳排放量。实验加工齿轮零件图及相关参数见图6和表1所示。本实验共获取了41组实验数据,部分实验数据如表2所示。
表1主要参数
表2实验数据集描述
为验证填补数据集对实际滚齿碳耗的预测效果,本发明随机抽取总数据集的15%作为测试集,85%作为训练集。为验证数据缺失率对填补效果的影响机理,本发明采用人为去除完整实验数据的方式获得数据缺失集合,由现有研究可知,数据缺失率如果高于30%,则难以获得较好的结果。故将该滚齿加工数据的训练集完全随机分成缺失率为5%、10%、15%、20%、25%、30%的数据缺失集合。
4.2不同填补方法性能对比
为验证所提方法有效性,本发明将RGAIN与均值插补、KNN插补、原始GAIN模型四种填补方法进行比较。首先,运用上述方法对于不同数据缺失率下的缺失数据进行填补,然后以完备滚齿数据碳排放数据为基准,比较不同方法的填补效果。
RGAIN填补模型的相关参数见表3,参数的具体取值均由试错法确定。在原始GAIN模型中,对应参数取值均与RGAIN一致。
表3RGAIN模型参数
/>
图7展示了不同数据缺失率下填补数据碳排放计算误差对比,从图中可以看出,在小样本滚齿数据缺失率较低时,不同填补方法均可取得较好效果。但随着数据缺失率的上升,填补数据计算误差也呈上升趋势。当数据缺失率高于15%时,RGAIN相较于其它模型表现最好,而均值插补法的性能最差。在图7(a)中,RGAIN与GAIN、KNN、均值插补方法相比,其不同缺失率下MAE指标平均分别提升8.9%、17.5%和39.9%。类似的,以MAPE为评价指标,RGAIN模型提升了9.6%、15.5%和38.4%。而在RMSE指标中,则提升了6.7%、12.4%和38.6%。从上述分析可知,增加了正则化改进的RGAIN模型在有限滚齿数据中的填补性能优于原始GAIN模型,相比于其它传统填补模型表现也更好。
4.3基于缺失加工参数的滚齿碳耗建模效果
本小节将验证基于缺失加工参数的滚齿碳耗预测模型的性能效果。在运用RGAIN进行数据填补之后,使用RF算法建立基于加工参数的碳排放预测模型。最终模型在各缺失率下预测结果如图8所示,其中圆点代表RF模型基于不同缺失率下填补数据的预测值,菱形代表训练集和预测集数据在完整数据集下计算的实际碳排放量,两者之间差距由两数据点间线段长度表示。由图中可以看出,随着数据缺失率的逐渐增大,模型的预测误差也在逐渐增大,基于缺失数据集碳排放预测的不确定性也就越大。
为进一步分析RF模型对碳排放量的预测性能,将RF模型对训练集数据碳排放量预测结果与多层感知机(MLP)和Catboost进行比较。表4中给出了三种方法在不同数据缺失率下的MAE、MAPE和RMSE指标。从表中可知,随着数据缺失率的不断提高,各种方法的预测误差均不断增加,但RF模型的误差基本稳定维持在最低水平。
表4不同预测模型对测试集数据预测性能比较
/>
本发明针对滚齿加工过程碳耗特性,分析了滚齿碳耗数据缺失机制,提出了一种基于改进生成对抗填补网络的滚齿碳耗预测方法,通过对生成对抗填补网络中添加正则化损失函数提高其在有限滚齿数据中的泛化性,并利用随机森林算法构造了滚齿碳耗预测模型。
通过实验对比验证了相较于GAIN模型、KNN插补和均值插补模型,本发明RGAIN数据填补模型的MAE、MAPE、RMSE指标均最优。同时基于RF算法的预测模型性能也优于MLP和Catboost算法,表明本发明方法针对缺失滚齿数据的填补和碳耗预测具有一定的优越性。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管申请人参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,其特征在于:按如下步骤进行,
1)采集滚齿加工过程碳排放量所需数据,建立原始数据矩阵X及其掩码矩阵M;掩码矩阵M维度大小与原始数据矩阵X一致;M中元素仅由0,1组成,若X中出现碳耗数据缺失,则掩码矩阵M中的对应位置元素为0,否则为1;
2)GAIN模型的数据生成器G基于原始数据矩阵X获取滚齿碳耗数据分布矩阵其过程如式(12)所示,其中Z为随机噪声;基于数据分布矩阵/>和掩码矩阵M对原始数据矩阵X数据缺失进行插值操作,获得填补矩阵/>填补矩阵/>计算公式如式(13)所示;
3)GAIN模型的数据判别器D根据填补矩阵和提示矩阵H,获得数据真实性概率矩阵P,以判断填补矩阵/>中原始数据与填补数据的差异,计算公式如式(14),其中提示矩阵H按式(15)计算:
其中,提示矩阵H用于控制掩码矩阵M传入数据判别器D中的信息量;Q为由0或1随机元素组成的矩阵;当元素Q(i)取值为1时,表示相应位置M(i)的有效信息将传入数据判别器D;若Q(i)取值为0,H(i)=0.5,将不传递M(i)的信息;
4)固定数据生成器G,根据数据判别器损失函数优化数据判别器D;
5)固定数据判别器D,通过数据生成器G和步骤4)优化后的数据判别器D计算填补矩阵提示矩阵H和概率矩阵P,利用数据生成器损失函数优化数据生成器G;
6)重复步骤2)-5),直至达到GAIN模型最大优化迭代次数;输出最终得到的填补矩阵
7)以步骤6)最终得到的填补矩阵作为滚齿加工碳排放预测模型的输入,即可通过滚齿加工碳排放预测模型得到滚齿碳耗预测结果。
2.根据权利要求1所述的数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,其特征在于:步骤4)中,数据判别器损失函数由交叉熵损失函数LD1和正则化损失函数LR构成,
交叉熵损失函数LD1用于指导数据判别器D将真实数据与生成数据分辨准确,具体公式如下:
式中E表示对数据矩阵中元素取均值,为矩阵中元素乘法;
正则化损失函数LR构造时,首先计算数据判别器D对真实数据Dreal预测概率和填补数据Dfake预测概率之间的差异,用于训练数据判别器D神经网络,提高数据判别器D的泛化性能;其中,Dreal和Dfake的计算公式为:
Dreal,Dfake指数移动平均变量αr,αf用于跟踪数据判别器D对真实数据和填补数据的预测输出,计算公式为:
式中,t为网络训练的迭代次数,β为衰减因子;正则化损失函数计算公式如下:
LR=E[||Drealf||2]-E[||Dfaker||2] (19)
故,数据判别器损失函数为交叉熵损失函数LD1和正则化损失函数LR加权和:
式中λ为权重参数。
3.根据权利要求1所述的数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,其特征在于,步骤5)中,数据生成器损失函数包括LG1和LG2;其中,LG1为计算数据真实性概率矩阵P与掩码矩阵M分布差异的交叉熵损失,计算公式如下:
LG2为原始数据矩阵X中未缺失数据与数据矩阵对应位置数据之间的偏差,计算公式如下:
数据生成器损失函数为
式中α为权重参数。
4.根据权利要求2所述的数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,其特征在于,步骤7)所述滚齿加工碳排放预测模型基于随机森林算法构建得到,具体步骤如下:
7.1)通过自助重复抽样技术从最终得到的填补矩阵中随机抽取n个数据组成一个训练集;
7.2)利用训练集训练一个决策树,在训练决策树节点时,在节点上所有的样本特征中选择一部分样本特征,在这些随机选择的部分样本特征中选择一个最优的特征来划分决策树的左右子树;
7.3)重复步骤7.1)和7.2),直到构建出的子决策树的数量T满足随机森林的要求;
7.4)将决策子树的预测均值作为滚齿加工碳排放预测模型最终的预测结果H(x),计算公式为:
式中,hi(x)为单个决策树预测模型,I(X)为示性函数。
5.根据权利要求1所述的数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,其特征在于,步骤1)中,采集到滚齿加工过程碳排放量所需数据后,对这些数据进行预处理,预处理包括数据清洗和数据归一化。
6.根据权利要求5所述的数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,其特征在于,数据清洗是检测和清理原始数据中缺失的或不合逻辑的值,将其标为缺失数据。
7.根据权利要求5所述的数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法,其特征在于,所述数据归一化目的是使不同特征指标间处于同一数量级,增强数据间的可比性,具体公式如下:
式中,y为归一化后的加工数据,x表示数据原始值,xmax和xmin为样本数据的最大值和最小值,ymin和ymax为归一化区间的下限和上限。
CN202210834235.5A 2022-07-14 2022-07-14 数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法 Active CN115081338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210834235.5A CN115081338B (zh) 2022-07-14 2022-07-14 数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210834235.5A CN115081338B (zh) 2022-07-14 2022-07-14 数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法

Publications (2)

Publication Number Publication Date
CN115081338A CN115081338A (zh) 2022-09-20
CN115081338B true CN115081338B (zh) 2024-03-19

Family

ID=83259757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210834235.5A Active CN115081338B (zh) 2022-07-14 2022-07-14 数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法

Country Status (1)

Country Link
CN (1) CN115081338B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784362A (zh) * 2018-12-05 2019-05-21 国网辽宁省电力有限公司信息通信分公司 一种基于迭代knn和插补优先级的dga数据缺失值插补方法
CN111291867A (zh) * 2020-02-17 2020-06-16 北京明略软件系统有限公司 数据预测模型生成方法、装置及数据预测方法、装置
CN111766832A (zh) * 2020-06-29 2020-10-13 重庆大学 一种不完备数据驱动的数控机床切削能耗预测建模方法
CN115510042A (zh) * 2022-08-30 2022-12-23 北京邮电大学 基于生成对抗网络的电力系统负荷数据填补方法及装置
CN116011666A (zh) * 2023-01-13 2023-04-25 重庆大学 一种基于数据迁移的滚齿加工碳耗预测系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021112335A1 (ko) * 2019-12-06 2021-06-10 주식회사 애자일소다 생성적 적대 신경망 기반의 분류 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784362A (zh) * 2018-12-05 2019-05-21 国网辽宁省电力有限公司信息通信分公司 一种基于迭代knn和插补优先级的dga数据缺失值插补方法
CN111291867A (zh) * 2020-02-17 2020-06-16 北京明略软件系统有限公司 数据预测模型生成方法、装置及数据预测方法、装置
CN111766832A (zh) * 2020-06-29 2020-10-13 重庆大学 一种不完备数据驱动的数控机床切削能耗预测建模方法
CN115510042A (zh) * 2022-08-30 2022-12-23 北京邮电大学 基于生成对抗网络的电力系统负荷数据填补方法及装置
CN116011666A (zh) * 2023-01-13 2023-04-25 重庆大学 一种基于数据迁移的滚齿加工碳耗预测系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A novel multi-objective optimization approach of machining parameters with small sample problem in gear hobbing;W. D. Cao等;Int J Adv Manuf Technol (2017);20170802;第93卷;第4099–4110页 *
GAIN: Missing Data Imputation using Generative Adversarial Nets;Jinsung Yoon等;Proceedings of the 35 th International Conference on Machine Learning;20181231;第80卷;第5689-5698页 *
数据挖掘技术在乘用车排放状态分析中的应用;阮文就;储江伟;李洪亮;;重庆理工大学学报(自然科学);20201231(第01期);第182-190+247页 *
数据缺失下基于改进生成对抗填补网络 的碳耗预测方法;易茜 等;机械工程学报;20230223;第59卷(第11期);第264-275页 *

Also Published As

Publication number Publication date
CN115081338A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN112034789B (zh) 一种数控机床关键部件及整机的健康评估方法,系统及评估终端机
CN112364560B (zh) 矿山凿岩装备作业工时智能预测方法
CN106649479A (zh) 一种基于概率图的变压器状态关联规则挖掘方法
CN110826237B (zh) 基于贝叶斯信念网络的风电设备可靠性分析方法及装置
WO2022171788A1 (de) Vorhersagemodell zum vorhersagen von produktqualitätsparameterwerten
CN113094988A (zh) 一种基于数据驱动的浆液循环泵运行优化方法及系统
CN112861436A (zh) 一种发动机排放实时预测方法
CN110987436A (zh) 基于激励机制的轴承故障诊断方法
CN112085108A (zh) 基于自动编码器及k均值聚类的光伏电站故障诊断算法
CN116467653A (zh) 一种基于概率分布和XGBoost决策算法的织机异常数据处理方法
CN115238573A (zh) 考虑工况参数的水电机组性能劣化趋势预测方法和系统
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN115081338B (zh) 数据缺失下基于改进生成对抗填补网络的滚齿碳耗预测方法
CN116821610B (zh) 一种利用大数据优化风力发电效率的方法
CN113043073A (zh) 一种刀具磨损及寿命预测方法及装置
CN111475548A (zh) 一种基于大数据挖掘技术的用电异常分析决策系统
CN116755000A (zh) 一种变压器故障快速识别装置及方法
CN110738565A (zh) 基于数据集合的房产金融人工智能复合风控模型
CN113298148B (zh) 一种面向生态环境评价的不平衡数据重采样方法
CN113111588B (zh) 一种燃气轮机nox排放浓度预测方法及装置
CN114548739A (zh) 一种变电站防汛风险组合评估方法
CN115310746A (zh) 一种风力发电机组主传动系统状态评估方法及系统
CN113177040A (zh) 铝/铜板带材生产全流程大数据清洗与分析方法
CN111993158A (zh) 刀具检测模型的生成方法、检测方法、系统、设备及介质
CN111766832A (zh) 一种不完备数据驱动的数控机床切削能耗预测建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant