CN113256066A - 基于PCA-XGBoost-IRF的作业车间实时调度方法 - Google Patents

基于PCA-XGBoost-IRF的作业车间实时调度方法 Download PDF

Info

Publication number
CN113256066A
CN113256066A CN202110439410.6A CN202110439410A CN113256066A CN 113256066 A CN113256066 A CN 113256066A CN 202110439410 A CN202110439410 A CN 202110439410A CN 113256066 A CN113256066 A CN 113256066A
Authority
CN
China
Prior art keywords
decision
model
data
scheduling
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110439410.6A
Other languages
English (en)
Other versions
CN113256066B (zh
Inventor
袁逸萍
熊攀
阿地兰木·斯塔洪
任年鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202110439410.6A priority Critical patent/CN113256066B/zh
Publication of CN113256066A publication Critical patent/CN113256066A/zh
Application granted granted Critical
Publication of CN113256066B publication Critical patent/CN113256066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Manufacturing & Machinery (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于PCA‑XGBoost‑IRF的作业车间实时调度方法,包括步骤一:规范数据样本构建;步骤二:样本数据预处理,包括对样本数据进行异常值处理、类别不平衡处理和归一化处理,并对数据集进行切分以满足决策模型构建的输入要求;步骤三:对训练集进行特征工程处理,包括特征提取、特征重要度计算和特征选择;步骤四:基于改进随机森林的决策模型构建,包括随机森林模型构建、将RF模型进行改进得IRF模型和基于栅格搜索对IRF模型的超参数进行寻优;步骤五:基于最优参数的PCA‑XGBoost‑IRF决策模型训练;步骤六:用基于PCA‑XGBoost‑IRF的决策模型实现对动态作业车间调度规则的实时选择与决策。本发明为基于数据驱动的智能调度研究提供了一种更可靠,鲁棒性、泛化性更强的实时调度方法。

Description

基于PCA-XGBoost-IRF的作业车间实时调度方法
技术领域
本发明涉及一种机器学习与作业车间调度技术领域,具体来说涉及一种基于PCA-XGBoost-IRF的作业车间实时调度方法。
背景技术
随着人工智能、工业互联网、计算机信息技术的飞速发展,在智能制造背景下新一轮次的工业革命浪潮席卷而来。作业车间生产调度问题(Job-shop Scheduling Problem,JSP)是典型的NP难题,工程应用背景很强。其作为一个交叉性的研究领域,自从Johnson在1954年建立了第一个用于两台机器进行调度的数学模型以来,就受到了计算机、运筹学等多个交叉领域专家的广泛关注。车间作为生产制造的直接执行者,承载着大量的生产任务,同时也是大量实时信息的交汇地。随着实际生产调度问题越来越复杂,制造工艺越来越多样化,从而导致制造车间存在众多不确定因素。例如机器故障、工件返工、缺料、紧急插单、加工时间变化等扰动因素,影响了生产系统的稳定运行,甚至使计划变得不可行。因此为了满足实时动态变化的生产环境,对传统动态作业车间调度问题的解决方法提出了更高的要求。
随着云计算、大数据等先进信息技术的推广应用,制造业生产车间智能化水平不断提高,使得制造企业信息系统存中储了海量有价值的数据。这为生产加工过程实现智能化实时决策提供了可能。在智能制造背景下,如何有效地利用制造系统相关历史数据并从中挖掘调度知识来指导实际车间生产活动是目前工业界与学术界的研究热点。由于调度规则具有计算效率高、实际可操作性强、操作简单等优点,而被广泛应用与实时调度研究中。针对不确定环境下基于数据驱动的车间实时调度问题,许多专家学者已经展开深入研究,例如:
Azadeh等针对不确定环境下作业车间动态调度问题,提出了一种基于计算机仿真和自适应神经模糊推理系统的混合算法。以完工时间最小化为调度目标,实现最优调度规则的实时决策与动态选择。Shiue等人提出了一种基于数据挖掘技术的动态最优调度规则选择机制。利用遗传算法进行特征选择,并基于支持向量机构造了一种新的调度规则选择器,实现规则的实时选择。Mouelhi等人针对流水车间调度问题,提出了一种基于神经网络算法的调度规则选择模型。同济大学的马玉敏等人针对于半导体生产调度优化问题,设计了一种基于数据驱动的调度框架。Yu等人提出了一种基于遗传算法的实时调度方法用于解决动态作业车间调度问题。张国辉等人针对柔性作业车间动态调度问题,构建了一种数据驱动的调度模型。Ma等人针对车间不同实时状态的规则组合问题,设计并提出了一种数据驱动的基于SVR的动态调度模型。汤洪涛等人设计了一种基于数据挖掘的柔性作业车间动态调度方法。Nagahara等提出了一种数据驱动的仿真建模方法,对历史生产数据进行仿真分析,并使用机器学习技术来挖掘调度规则。Metan等利用决策树分类算法来根据实时生产数据动态选择最优的调度规则。Shahzad等提出一种基于数据挖掘的调度系统框架,从利用禁忌搜索算法所获得的作业车间调度优化解中提取新的调度知识,指导实际生产。孙琳等人提出了一种基于数据驱动的BP神经网络实时调度方法,用于求解混流车间的生产调度问题,并最终实现了调度规则的实时选取。Shiue等针对柔性制造系统动态调度问题,提出了一种基于强化学习的实时调度模型,实现最优调度规则的动态选择。
综上所述,尽管上述研究已经取得了非常不错的效果,但是随着生产环境复杂性的增加,这些方法的泛化性能和学习效率仍然存在局限性。例如,启发式算法在迭代循环过程中存在陷入局部最优的风险;决策树由于泛化能力不足,所以不适合大规模、高维度历史数据的知识挖掘;支持向量机作为一类监督学习式的机器学习算法,虽然能够通过该方法进行非线性分类,但SVM仅适用于小样本数据且算法收敛速度较慢;基于神经网络的调度方法,在训练过程中需要大量训练样本进行知识学习,因此耗时较长,可解释性较差。强化学习算法虽然能实现自适应决策,但强化学习算法通常使用策略表来存储所有可能的状态和相应的动作,当生产场景变得更加复杂时,会导致维度灾难问题,这使得调度性能可能会显著下降。而且随着生产规模的扩大,导致生产系统运行中的不确定性急剧增加,传统动态调度方法难以适应复杂多样的实时生产环境。因此在车间调度中必须将其加以考虑,及进行动态调度。与此同时由于人工操作、设备可靠性、供应链稳定性和紧急订单等不确定性因素存在。随着系统运行时间增加,误差逐步累积,预调度结果会逐渐偏离生产实际。因此,需要考虑生产系统的实时性调度。随机森林(Random Forest,RF)是集成学习模型中的典型代表,由于其具有容噪能力强、能够避免过拟合、泛化性好等优点,而广泛应用于网络安全检测、故障诊断、可靠性预测和图像识别等领域。但目前对随机森林在智能调度领域应用的研究相对较少。
发明内容
本发明所要解决的技术问题是:为了克服传统作业车间实时调度方法实际可操作性不高、计算时间成本高与对车间扰动的实时响应能力不足的问题,本发明提供一种实际可操作性强、计算效率高、可以对车间扰动做出实时响应的基于PCA-XGBoost-IRF的作业车间实时调度方法。
本发明的技术方案是通过以下措施来实现的:一种基于PCA-XGBoost-IRF的作业车间实时调度方法,包括以下步骤:
S1:规范数据样本构建
管理人员可以从信息系统和服务器端调度规则的执行记录中获取不同调度决策时刻对应的生产系统状态与调度规则组成的数据对,构成用于调度知识挖掘的规范样本数据,即CSD={A1,A2,A3,...,A64,Rule};
S2:样本数据预处理
S21:对样本数据进行异常值处理;
车间状态信息的原始样本数据存在许多噪音,首先,使用相关数据分析工具对特征指标进行描述性统计分析,其次,基于箱型图查找异常值,最后,使用列均值填充缺失值、基于四分位箱线图进行异常值剔除等方式对原始数据进行初步处理,从而得到数据类型比较规整的规范样本数据CSD;
S22:对样本数据进行类别不平衡处理;
为了避免训练样本存在类别不平衡而导致机器学习模型失效的问题,结合实际需求,采用合成少数类过采样技术SMOTE对CSD进行处理;SMOTE算法执行流程为:
Step1:对于少数类中每一个样本xi,以欧氏距离为标准计算它到少数类样本集Smin中所有样本的距离,得到其k近邻;
Step2:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本xi,从其k近邻中随机选择若干个样本,假设选择的近邻为
Figure BDA0003034444030000031
Step3:对于每一个随机选出的近邻
Figure BDA0003034444030000032
分别与原样本按照公式(1)构建新的样本;
Figure BDA0003034444030000033
通过类别不平衡处理处理后得到平衡数据集BDS;
S23:对样本数据进行归一化处理;
综合考虑生产车间状态属性统计特点及车间生产状态的数据类型,采用Max-Min离差标准化对平衡数据集BDS进行归一化处理,表达式如公式(2)所示,把所有属性数据映射到[0,1]之间,避免在训练时出现某些维度占主导地位而导致的训练速度减慢,通过归一化处理得到预处理数据集PDS;
Figure BDA0003034444030000041
式中,xi'表示xi归一化变换后的数据,xmax代表xi的最大值,xmin代表xi的最小值;
S24:对PDS进行切分处理以满足决策模型构建的输入要求;
将PDS划分为训练数据Train Set和测试数据Test Set,其中训练数据Train Set比重占75%,测试数据Test Set比重占25%;同时将训练数据Train Set作为整个决策模型的输入;
S3:对训练数据Train Set进行特征工程处理
S31:对训练数据Train Set进行基于主成分分析法PCA的特征提取降维处理得到低维数据集LDS,具体如下:
(1)对步骤S23中归一化后的样本数据求出协方差矩阵C;
(2)对协方差矩阵C求出其特征向量和特征值;
(3)以特征值大小按行排列相应的特征向量,舍弃特征值较小的特征向量行,将主成分累计贡献率阈值设置为99%,以实现既保留了关键信息,又降低了训练数据的维数,从而间接提高决策模型的训练效率与调度性能;
(4)通过降维处理得到低维数据集LDS;
S32:对低维数据集LDS进行基于XGBoost的特征重要度计算;
S321:XGBoost模型分类过程;
XGBoost模型分类具体的推导过程如下:
基于特征提取得到样本数据集D={(xi,yi)|i=1,2,...,n;xi∈Rm;yi∈R},其中有n个样本,每个样本有m个特征,并且对应一个目标值yi,假如有K棵回归树,则模型表达式如公式(3)所示:
Figure BDA0003034444030000042
式中:fk是一棵回归树;F对应了所有回归树的集合;fk(xi)代表第k棵树对数据集中第i个样本的计算分数;
目标函数如公式(4)所示:
Figure BDA0003034444030000043
式中:l(·)是误差函数,体现了模型拟合训练数据的程度;
为了防止过拟合,定义了正则化项Ω(fk)以惩罚复杂模型;Ω(fk)的表达式为如公式(5)所示:
Figure BDA0003034444030000051
式中:γ和λ表示对模型的惩罚系数;T和w分别表示第k棵树的叶子数目和叶子的权重;
由于树模型式(3)为加法模型,利用前向分步算法对目标函数训练,设
Figure BDA0003034444030000052
为第i个样本在第t次迭代时的预测值,因此添加ft(xi)以最优化以下目标函数如公式(6)所示:
Figure BDA0003034444030000053
对式(6)使用二阶泰勒展开简化该函数后去掉常数项如公式(7)、(8)所示:
Figure BDA0003034444030000054
Figure BDA0003034444030000055
式中:g′i和g″i分别为损失函数的一阶导数和二阶导数,目标函数如公式(9)所示:
Figure BDA0003034444030000056
式中:Ij={i|q(xi)=j}代表叶子j的样本组;
将目标函数转换为一个关于wj的一元二次方程求最小值的问题,假设树的结构q固定,可以计算出叶子j的最优权重如公式(10)、(11)所示:
Figure BDA0003034444030000057
Figure BDA0003034444030000058
然后计算出相应的最优目标值如公式(12)所示:
Figure BDA0003034444030000059
式中,fobj表示树的结构分数,值越小表示数的结构越好;
S322:特征的重要度统计;
XGBoost模型集成若干棵回归树后,每棵树的节点作为一次特征分裂,将某特征被选为分裂特征的次数作为该特征的重要度,并通过重要度计算处理得到重要度评估数据IED;
S33:对重要度评估数据IED进行特征选择处理,使得评价函数值达到最优;S4:IRF决策模型构建
S41:RF模型构建;
随机森林算法RF核心是以多棵决策树为基础的集成分类器,通过采取多个不同的训练样本子集来加大分类模型之间的相异性,从而能够提高该模型的泛化能力以及预测能力;首先,基于Bootstrap随机重采样技术从训练数据Train Set中有放回地抽取训练实例,形成n个新的训练实例集合;然后,每个训练实例集合分别从特征集中随机选择m个特征作为决策树分裂的特征属性,并计算最佳分类方式;最后,通过训练得到n棵决策树;由这n棵决策树组合成的RF模型为后续对模型进行改进操作提供了模型基础;
S42:基于两种优化策略对随机森林算法RF模型进行改进,并将改进后模型重命名为IRF模型;
S421:对随机森林算法RF模型增加避免相似决策树的优化策略;
通过随机森林算法RF从历史相关数据中学习调度知识SK,假设调度知识SK是对真实调度规则y的一种估计
Figure BDA0003034444030000061
所以在理论上来说
Figure BDA0003034444030000069
和y之间是存在一定的误差;
Figure BDA0003034444030000062
和y之间的平方误差计算公式如式(13)所示;式中δ2是不可避免的,但可以通过减少方差
Figure BDA0003034444030000063
或偏差
Figure BDA0003034444030000064
来减少算法的误差,从而提高随机森林算法的性能;
Figure BDA0003034444030000065
式中,δ2为噪声,它指的是算法所能达到的期望泛化误差的下界;
Figure BDA0003034444030000066
为方差,它刻画了由于数据扰动所造成的影响;
Figure BDA0003034444030000067
为偏差,它描述了学习算法的期望预测与真实结果的偏离程度;
随机森林算法通过Bagging策略生成的决策树具有近似的分布,因此随机森林算法的方差可以看作是一组同分布的随机变量的方差,其方差计算公式如式(14)所示:
Figure BDA0003034444030000068
式中,n为随机森林中决策树的数量;Ti表示第i棵决策树;ρ代表决策树之间的相关性;θ2代表每棵决策树的方差;
从式(14)可知,当随机森林所包含的决策树的数量较大时,若能减少决策树之间的相关性ρ,就能减小森林算法的方差,从而可以有效提高算法的性能;
采用避免相似决策树的优化策略以减少决策树之间的相关性ρ,并最终达到提高随机森林算法性能的目的,该优化策略相似度的计算公式如式(15),决策树之间的相似度取决于它们在使用相同特征属性并对测试实例产生相同预测次数的百分比,为了使得本发明所提方法具有更好的鲁棒性,规定如果两棵决策数之间的相似度大于60%,即被认为是相似的决策树,然后删除测试精确度低的决策树;
Figure BDA0003034444030000071
式中,DT1与DT2表示进行相似度计算的两棵决策树;count表示DT1与DT2对测试实例分类结果相同的次数;r1n与r2n表示第n次分类结果相同时,DT1与DT2用到的特征属性,c表示分类结果;当r1n=r2n时,即DT1与DT2用相同的特征属性得到相同的分类结果时,I(r1n·c,r2n·c)=1,否则结果为0,Nt表示测试实例的个数;
S422:对上述优化后的RF模型增加决策树加权投票的优化策略,并将进一步优化后的模型重命名为IRF模型;
采用加权投票原则对上述优化后的RF算法进行改进:
在决策树的生成过程中,使用bagging方法从样本总数为N的原始训练集中有放回地抽取样本,形成一个样本集,同时还存在一些未被抽取到的样本即袋外数据OOB;设X为测试样本集,x为其中一个样本;T为训练完成的决策树分类器集合,t为当前决策树;C为分类结果集合,c为其中一个分类;
对当前决策树t而言,其袋外数据OOB记为Ot,并应用决策树t对Ot中的各个样本进行分类;通过对比分类结果和样本真实类别,可以得到对Ot数据分类正确的样本数量,记为Otr,记CRt为决策树t对Ot的分类正确率,则CRt表达式如公式(16)所示:
Figure BDA0003034444030000072
式中,CRt越大,说明决策树t的分类效果越好,属于强分类器;反之,说明决策树t的分类效果越差,属于弱分类器;
将每棵决策树对OOB数据的分类正确率CRt作为对应决策树的权重,将样本x通过随机森林分类器进行检测分类并经过加权统计,属于c类别的加权总投票数记为Votec,则Votec表达式如公式(17)所示:
Figure BDA0003034444030000073
式中,Tc,x(x)取值为1或0,若样本x经过决策树的分类测试后结果为c类,取值为1;若样本x经过决策树的分类测试后结果不为c类,取值为0;
选出得票数最多类别Cx作为样本x的最终类别,表达式如公式(18)所示:
Cx=arg max(Votec) (18)
S43:基于栅格搜索对IRF模型的超参数进行寻优;
在确定了训练输入参数的最优特征集后,在模型训练过程中使用栅格搜索进行超参数调优:模型中参数criterion即决策树做划分时对特征的评价标准采用默认的Gini系数,即将处理好的数据按照25%和75%的比例划分为测试集和训练集;基学习器决策树的数量N_estimators范围设定为[1,100],决策树最大深度Max_depth范围设定在[1,20],节点分裂时选取的最大特征数Max_features范围设定在[1,12];Min_samples_leaf表示最小的叶节点数,范围设定在[1,20];将上述参数作为栅格搜索参数用于训练模型;对超参数进行基于栅格搜索寻优后将得到各超参数的最优值,为后续决策模型提供最优参数组合,使决策模型的决策性能最大化;
S5:基于最优参数的PCA-XGBoost-IRF决策模型训练
将上述处理得到的模型定义为PCA-XGBoost-IRF决策模型,用于为实际作业车间进行实时调度与决策提供技术支撑,针对扰动环境下作业车间实时调度问题,训练该决策模型以使用基于最优参数的PCA-XGBoost-IRF决策模型挖掘调度知识,训练流程如下:
Step1:数据预处理,对历史数据进行数据预处理,同时构造标准数据集SDS,然后将标准数据集SDS切分为训练数据Train Set和测试数据Test Set;
Step2:特征工程,基于训练数据Train Set进行特征提取和特征选择,并构造最优特征子集;
Step3:测试决策树分类表现,基于测试数据Test Set测试并记录每棵决策树的分类表现;
Step4:避免相似决策树策略,计算决策树之间的相似度,若两颗决策树之间的相似度大于70%,则被认为相似决策树,需要淘汰其中在测试表现中较差的一棵;
Step5:计算各类别加权投票总数,根据对测试数据分类的表现,计算随机森林中保留下的每一棵决策树的权值,即得到式(18)中的Votec
Step6:结果输出,输出当前状态下最优调度规则;
Step7:保存基于最优参数的PCA-XGBoost-IRF决策模型,供实时决策使用;
S6:基于PCA-XGBoost-IRF决策模型进行实时决策
在获得调度知识映射网络后,便可将其用于动态作业车间的在线实时调度;在动态作业车间在线调度阶段,当检测到缓冲区中有多个待加工工件且机器存在空机时,将当前时刻定义为多工件等待加工的调度决策点,通过信息采集装置、传感器以及管理信息系统实时收集制造系统生产状态信息,基于改进随机森林的调度知识学习模型以当前调度决策点生产系统的状态数据为输入,以最优调度规则为输出,实现动态作业车间在线实时调度;在线调度实时决策流程如下:
Step1:生产订单按指数分布动态到达生产车间,且随着生产任务的进行各扰动因素在生产过程中随机发生;
Step2:根据生产订单信息,对待加工产品按加工工艺依次进行备料生产;
Step3:信息采集装置实时收集各工位缓冲区待加工工件信息、设备状态信息及系统状态等信息;
Step4:将采集的车间实时数据存入数据库;
Step5:如果当前时刻为决策点,则将实时状态数据输入基于改进随机森林算法的实时调度决策器进行分类决策,输出当前状态下最优调度规则;
Step6:基于最优调度规则,判断缓存区是否有待加工工件,如果有,则从当前缓存区中选择优先级最高的工件进行加工;如果没有,则设备空闲并等待加工,直到新的工件到达缓存区;
Step7:依次完成加工全过程中所有调度决策点的决策任务,在线调度阶段结束。
作为一种优选的方案,所述步骤S33为对重要度评估数据IED进行基于序列后向搜索SBS的特征选择处理使得评价函数值达到最优,具体内容为:
Step1:基于所有特征进行XGBoost分类;
Step2:基于生成的模型过程中的信息,得到特征变量的重要性FI并按降序排序;
Step3:采用SBS算法依次从当前特征集中剔除该轮迭代中重要性得分最低的特征;
Step4:将剩余的特征重新进行新一轮的预测和排序,记录每轮迭代过程中基于RF模型的预测分类准确率Acc,第i次准确率则被记为Acc_i,将分类准确率作为特征选择评价函数值,用于确定预测分类准确率最高的保留特征子集;
Step5:重复步骤Step3和Step4直到所有特征都被选择;
Step6:搜索每轮迭代过程中记录的Acc_i,考察所有子集的分类情况,选择Acc_i值相对较高同时特征数量较少的子集作为最优特征子集;
Step7:输出最优特征子集OFS,并将最优特征子集OFS作为随机森林决策模型构建的输入。
作为一种优选的方案,所述步骤S33为对重要度评估数据IED进行基于序列前向搜索SFS的特征选择处理使得评价函数值达到最优,具体内容为:
Step1:基于所有特征进行XGBoost分类;
Step2:基于生成的模型过程中的信息,得到特征变量的重要性FI并按降序排序;
Step3:采用SFS算法依次从当前特征集中选择该轮迭代中重要性得分最高的特征;
Step4:将剩余的特征重新进行新一轮的预测和排序,记录每轮迭代过程中基于RF模型的预测分类准确率Acc,第i次准确率则被记为Acc_i,将分类准确率作为特征选择评价函数值,用于确定预测分类准确率最高的保留特征子集;
Step5:重复步骤Step3和Step4直到所有特征都被选择;
Step6:搜索每轮迭代过程中记录的Acc_i,考察所有子集的分类情况,选择Acc_i值相对较高同时特征数量较少的子集作为最优特征子集;
Step7:输出最优特征子集OFS,并将最优特征子集OFS作为随机森林决策模型构建的输入。
本发明的有益效果是:
本方法的调度机制属于动态调度中的完全反应式调度,即不生成预调度方案,只根据决策点当前调度时刻的状态信息对缓存区工件加工顺序进行实时调度。这种调度方式时间复杂度低、计算速度快、实时性好,能够较快对系统中扰动事件做出反应;
本发明提出的基于PCA-XGBoost-IRF的作业车间实时调度方法,利用企业以往的制造数据及同步产生的数据预测当前生产状态下最优调度规则。针对不同的情况,当车间生产环境发生变化时,车间生产状态实时数据就会发生波动,本方法针对不同的生产状态,通过实时调度决策器基于放置在服务器上的调度规则确定缓存区最优加工顺序,即最大完工时间最小值,维持作业车间高效的生产运作。即对缓存区工件排队序列进行优化,降低了不确定因素带来影响,同时提高了作业车间的抗干扰能力,满足不确定环境下作业车间实时调度的需求;并为智能制造背景下实现生产调度实时决策提供了参考。
由于采用基于XGBoost特征重要度排序的序列后向搜索算法(XGBoost-SBS)来构造最优特征子集,兼具嵌入式和过滤式优点,提高了决策模型输入数据的质量,使模型的分类精度和泛化能力均得到了提升,为基于机器学习的特征工程方法研究提供了新思路。
附图说明
图1是本发明的实施例的具体流程图。
图2是PCA提取结果图。
图3是降维特征重要度图。
图4是特征选择结果图。
图5是IRF模型超参数调优结果图。
图6是PCA-XGBoost-IRF决策模型的分类混淆矩阵图。
图7是不同指标下不同模型分类性能对比结果图。
具体实施方式
下面结合附图,详细描述本发明的具体实施方案。
本发明提出的一种基于PCA-XGBoost-IRF的作业车间实时调度方法实施例的具体流程图如附图1所示,包括以下步骤:
S1:规范数据样本构建
以某机加工生产车间为例,进行不确定环境下作业车间实时调度验证。管理人员可以从信息系统和服务器端调度规则库的执行记录中获取不同调度决策时刻对应的生产系统状态与调度规则组成的数据对,构成用于调度知识挖掘的规范样本数据(CanonicalSample Data,CSD)。即CSD={A1,A2,A3,...,A64,Rule}。调度规则库中包括10条规则,调度规则详细描述如附表1所示。
表1调度规则表
Figure BDA0003034444030000111
基于较优历史数据,本发明通过筛选获得30组较优样本数据作为实时调度决策模型训练与优化的规范样本数据。规范样本数据示例如附表2所示。
表2规范样本数据示例表
Figure BDA0003034444030000121
S2:样本数据预处理
S21:对样本数据进行异常值处理;
通常来说车间状态信息的原始样本数据存在许多噪音,例如可能会存在缺失值、重复值、异常值等。首先,使用相关数据分析工具对特征指标进行描述性统计分析,其次,基于箱型图查找异常值,最后,使用列均值填充缺失值、基于四分位箱线图进行异常值剔除等方式对原始数据进行初步处理,从而得到数据类型比较规整的CSD;
S22:对样本数据进行类别不平衡处理;
在分类学习算法中不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。为了避免训练样本存在类别不平衡而导致机器学习模型失效的问题,结合实际需求,本发明采用合成少数类过采样技术SMOTE(Synthetic Minority OversamplingTechnique)对CSD进行处理。SMOTE算法是基于随机过采样算法的一种改进方案,该技术是目前处理非平衡数据的常用手段,并受到学术界和工业界的一致认同。其基本思想是合成新的少数类样本,合成的策略是对每个少数类样本xi,从它的最近邻中随机选一个样本
Figure BDA0003034444030000122
然后在xi
Figure BDA0003034444030000123
之间的连线上随机选一点xnew作为新合成的少数类样本。SMOTE算法执行流程为:
Step1:对于少数类中每一个样本xi,以欧氏距离为标准计算它到少数类样本集Smin中所有样本的距离,得到其k近邻;
Step2:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本xi,从其k近邻中随机选择若干个样本,假设选择的近邻为
Figure BDA0003034444030000124
Step3:对于每一个随机选出的近邻
Figure BDA0003034444030000125
分别与原样本按照公式(1)构建新的样本。
Figure BDA0003034444030000126
通过类别不平衡处理处理后得到平衡数据集(Balanced Data Set,BDS)。
基于SMOTE算法对各类别样本数据进行平衡处理得到1860条平衡数据;
S23:对样本数据进行归一化处理;
综合考虑生产车间状态属性统计特点及车间生产状态的数据类型,本发明采用Max-Min离差标准化对BDS进行归一化处理,表达式如公式(2)所示,把所有属性数据映射到[0,1]之间,避免在训练时出现某些维度占主导地位而导致的训练速度减慢,通过归一化处理得到预处理数据集(Preprocessed Data Set,PDS);
Figure BDA0003034444030000131
式中,xi'表示xi归一化变换后的数据,xmax代表xi的最大值,xmin代表xi的最小值。
S24:对PDS进行切分处理以满足决策模型构建的输入要求;
将PDS划分为训练数据(训练数据Train Set)和测试数据(测试数据Test Set),其中训练数据Train Set比重占75%,测试数据Test Set比重占25%。同时将训练数据(训练数据Train Set)作为整个决策模型的输入;
S3:对训练数据Train Set进行特征工程处理
S31:对训练数据Train Set进行基于主成分分析法PCA的特征提取降维处理得到低维数据集LDS:
主成分分析法(Principal ComponentAnalysis,PCA)是通过正交变换将一组可能相关的变量转换到一组线性不相关的变量的统计分析过程,常用于对高维数据进行特征降维。PCA特征提取步骤为:
(1)对步骤S23中归一化后的样本数据求出协方差矩阵C;
(2)对协方差矩阵C求出其特征向量和特征值;
(3)以特征值大小按行排列相应的特征向量,舍弃特征值较小的特征向量行,将主成分累计贡献率阈值设置为99%,以实现既保留了关键信息,又降低了训练数据的维数,从而间接提高决策模型的训练效率与调度性能;
通过降维处理得到低维数据集(Low-dimensional Data Set,LDS);
大量的特征之间容易存在较高的相关性,导致信息冗余并且消耗更多的时间,不利于实时调度决策的模型训练与优化研究,因此发明通过PCA进行了特征提取,同时实现了特征降维的目的。特征提取结果如附图2所示。取累计贡献率前99%的主成分作为新的特征。主成分贡信息统计如附表3所示:
表3主成分贡信息统计表
Figure BDA0003034444030000132
Figure BDA0003034444030000141
附表3显示了特征提取后样本数据集中前16个主成分的方差、贡献率和累计贡献率的统计结果。统计结果表明,前16个主成分的方差累积贡献率达到了99%,即前16个主成分已经保留了99%的有效信息。因此本发明将PDS的特征维度降到了16维,即选取前16个主成分作为新的特征数据;
S32:对LDS进行基于XGBoost的特征重要度计算;
集成学习极限梯度提升算法(Extreme Gradient Boosting,XGBoost)由于具有训练速度快、预测精度高等特点,成为机器学习竞赛中最受欢迎的技术之一,它被诸多数据科学家广泛使用。XGBoost模型集成若干棵回归树后,每棵树的节点都是在做一次特征分裂,可以将某特征被选为分裂特征的次数作为该特征重要度的衡量标准。如果一个特征在所有树中作为划分属性的次数越多,表明这个特征越重要,因此可以得到所有特征的重要度排序。因此本发明基于XGBoost算法对LDS进行特征重要度计算。
S321:XGBoost模型分类过程;
XGBoost基本思想是对目标函数做二阶泰勒展开,利用函数的二阶导数信息来训练树模型,并把树模型复杂度作为正则项加到优化目标中,使学习到的模型泛化能力更高。XGBoost在训练过程中为了提高生成新树的效率,会在每轮迭代中给出各个特征的重要度评分,从而表明每个特征对模型训练的重要性,为下一次迭代建立梯度方向的新树提供依据。这种统计出的特征重要性,可以直接作为特征选择的依据。具体的推导过程如下。
基于特征提取得到样本数据集D={(xi,yi)|i=1,2,...,n;xi∈Rm;yi∈R},其中有n个样本,每个样本有m个特征,并且对应一个目标值yi,假如有K棵回归树,则模型表达式如公式(3)所示:
Figure BDA0003034444030000142
式中:fk是一棵回归树;F对应了所有回归树的集合;fk(xi)代表第k棵树对数据集中第i个样本的计算分数。
目标函数如公式(4)所示:
Figure BDA0003034444030000151
式中:l(·)是误差函数,体现了模型拟合训练数据的程度;
为了防止过拟合,定义了正则化项Ω(fk)以惩罚复杂模型。Ω(fk)的表达式为如公式(5)所示:
Figure BDA0003034444030000152
式中:γ和λ表示对模型的惩罚系数;T和w分别表示第k棵树的叶子数目和叶子的权重。
由于树模型式(3)为加法模型,利用前向分步算法对目标函数训练,设
Figure BDA0003034444030000153
为第i个样本在第t次迭代时的预测值,因此添加ft(xi)以最优化以下目标函数如公式(6)所示:
Figure BDA0003034444030000154
对式(6)使用二阶泰勒展开简化该函数后去掉常数项如公式(7)、(8)所示:
Figure BDA0003034444030000155
Figure BDA0003034444030000156
式中:g′i和g″i分别为损失函数的一阶导数和二阶导数,目标函数如公式(9)所示:
Figure BDA0003034444030000157
式中:Ij={i|q(xi)=j}代表叶子j的样本组。由此,我们将目标函数转换为一个关于wj的一元二次方程求最小值的问题,假设树的结构q固定,可以计算出叶子j的最优权重如公式(10)、(11)所示:
Figure BDA0003034444030000158
Figure BDA0003034444030000159
然后计算出相应的最优目标值如公式(12)所示:
Figure BDA0003034444030000161
式中,fobj表示树的结构分数,值越小表示数的结构越好;
S322:特征的重要度统计;XGBoost模型集成若干棵回归树后,每棵树的节点都是在做一次特征分裂,可以将某特征被选为分裂特征的次数作为该特征的重要度。即一般来说,特征的重要性表示这个特征在构建提升树的作用,如果一个特征在所有树中作为划分属性的次数越多,则表明这个特征越重要,因此可以得到所有特征的重要度排序。通过重要度计算处理得到重要度评估数据(Importance Evaluation Data,IED);
对降维后的16个新的特征进行重要性排序,结果如附图3所示。其中特征PCA10是影响调度规则决策的最重要影响参数,特征PCA11和PCA14重要度次之,而特征PCA16重要度在首次特征重要度排序中排名最低,故在基于序列后向选择算法进行特征选择时应该剔除该特征。基于序列后向搜索算法进行特征选择过程以此类推。
S33:对重要度评估数据IED进行特征选择处理,使得评价函数值达到最优;
本发明提出一种兼具嵌入式和过滤式优点的特征选择方法,即基于S33节中XGBoost特征重要度计算的序列后向搜索(Sequence Backward Searching,SBS)算法,本发明将该特征选择算法重新命名为基于XGBoost-SBS的特征选择算法。对IED进行基于SBS的特征选择处理;通过特征选择处理得到最优特征子集(Optimal Feature Subset,OFS),并将OFS作为随机森林决策模型构建的输入;
附图4展示了随着主成分数减少时基于IRF决策模型分类总体精度的变化趋势。随着主成分数目的减少,分类总体精度发生波动并持续减小;当主成分数目减少到12个时,总体精度达到了最高值90.09%。在主成分数目减少至6个以后,总体精度减幅变得越来越明显,甚至出现了大幅度下降。本发明通过数值实验分析,最终选择PCA1、PCA2、PCA4、PCA5、PCA6、PCA7、PCA8、PCA9、PCA10、PCA11、PCA12、PCA14共计12个特征作为模型训练输入参数的最优特征集合。该特征选择方法在缩减数据规模、提高运算效率的同时,最大限度保证分类精度。
S4:IRF决策模型构建
S41:RF模型构建;
RF核心是以多棵决策树为基础的集成分类器。它通过采取多个不同的训练样本子集来加大分类模型之间的相异性,从而能够提高该模型的泛化能力以及预测能力。本发明首先,基于Bootstrap随机重采样技术从训练数据Train Set中有放回地抽取训练实例,形成n个新的训练实例集合。然后,每个训练实例集合分别从特征集中随机选择m个特征作为决策树分裂的特征属性,并计算最佳分类方式。最后,通过训练得到n棵决策树;
S42:基于两种优化策略对RF模型进行改进,将改进后模型重命名为IRF模型;
虽然随机森林算法有很多优点,但是随机森林算法也存在不足,例如,随机森林算法的投票机制无法区分强分类器与弱分类器的差异,以及集成学习训练时间成本过高等缺点。为了满足对车间历史数据中潜在调度知识进行挖掘的客观需求,本发明针对传统随机森林算法做出了以下两点改进。
S421:对随机森林算法RF模型增加避免相似决策树的优化策略;
基于RF模型对历史数据挖掘,并形成用于指导实际生产的调度知识(SchedulingKnowledge,SK),本发明设SK是真实调度知识(调度规则)y的一种估计
Figure BDA0003034444030000171
所以在理论上来说
Figure BDA0003034444030000172
y之间必然存在误差。
Figure BDA0003034444030000173
y的平方误差计算如表达式式(13)所示。为了提高随机森林算法的性能,一种可行的思路是:通过减少方差
Figure BDA0003034444030000174
或偏差
Figure BDA0003034444030000175
来使算法的误差得以减少,
Figure BDA0003034444030000176
式中,δ2表示模型噪声,同时指所能达到的期望泛化误差的下界;
Figure BDA0003034444030000177
表示方差,用于表征数据受扰动造成的影响;
Figure BDA0003034444030000178
表示偏差,用于表征期望预测与真实结果的偏离程度。
RF是基于Bagging策略生成决策树的,因此模型具有近似分布的特性,RF的方差可看作一组同分布随机变量的方差,表达式如公式(14)所示:
Figure BDA0003034444030000179
式中,n表示RF中决策树的数量;Ti表示第i棵决策树;ρ代表决策树之间的相关性;θ2代表每棵决策树的方差。从式(14)可知,当RF中决策树的数量较大时,为了有效提高RF模型的分类性能,一种研究思路是:通过减少决策树间的相关性ρ,来实现减小RF方差的目的。基于此,本发明提出避免相似树的改进思路。相似度的计算公式如式(15),决策树相似度的大小由两决策树在使用相同特征并对测试集产生相同结果的次数的比值所决定,为了使得本发明所提方法具有更好的鲁棒性,本发明规定决策数相似度的值高于60%,就会被系统评定为相似,然后基于测试精确度删除精确度低的决策树。
Figure BDA0003034444030000181
式中,DT1与DT2是用于相似度计算操作的两个基决策树;count表示DT1和DT2对测试集得到相同结果的分类次数;r1n和r2n表示RF第n次结果相同时DT1与DT2两颗决策树所用到的特征属性;c表示决策树的分类结果;当r1n=r2n时,I(r1n·c,r2n·c)=1,否则结果为0,Nt表示测试集中样本实例的个数;
S422:对上述优化后的RF模型增加决策树加权投票的优化策略,并将进一步优化后的模型重命名为IRF模型;
RF采用简单投票机制进行分类结果决策,系统对每个决策树赋予了同样的决策权重,但却忽略了分类器决策性能强和弱的差异,这种设定严重影响了RF分类器的整体性能。基于此本发明提出了一种对决策结果进行加权投票策略,以实现RF算法决策改进的提升:
首先本发明基于bagging方法从样本数为N的原始训练集中以有放回地抽形式取训练样本,并形成一个样本集。同时未被抽取到的样本数据定义为袋外数据(out-of-bag,OOB)。设X为测试样本集,x为其中一个样本数据;T为训练好的分类器集合,t表示当前决策树;C为决策树分类结果集合,c是结果集合中的一个分类结果。
对当前决策树t而言,其OOB数据记为Ot,利用t对Ot中的样本进行分类决策。基于原始训练集中每个样本的真实类别对比分析决策树的分类结果,可以得到基于Ot的正确分类的样本数量(本发明将其定义为Otr),同时记t对Ot的分类正确率为CRt,则CRt表达式如公式(16)所示:
Figure BDA0003034444030000182
式中,CRt的值越大则表示t的分类性能越好,因此该决策树被划分为强分类器;反之,说明t的分类性能较差,则该决策树将被划分弱分类器。
将每棵决策树求得的CRt作为对应决策树的决策权重,将样本x通过RF分类器进行分类检测并乘以相应的决策权重后进行统计分析,Votec表示c类别的加权总投票数,表达式如公式(17)所示:
Figure BDA0003034444030000183
式中,若样本x基于决策树的分类结果是c类,Tc,x(x)取值为1;若样本x基于决策树的分类结果不是c类,则Tc,x(x)取值为0。
采用以上改进的投票机制,选出基于各决策树得票数最多的类别Cx作为测试样本x最终的标签,表达式如公式(18)所示:
Cx=arg max(Votec) (18)
(需要说明的是:以上两种优化策略步骤S421及步骤S422执行顺序交换对模型改进的最终效果没有影响)。
S43:基于栅格搜索对IRF模型的超参数进行寻优;
在确定了训练输入参数的最优特征集后,在模型训练过程中使用栅格搜索进行超参数调优:模型中参数criterion即决策树做划分时对特征的评价标准采用默认的Gini系数,即将处理好的数据按照25%和75%的比例划分为测试集和训练集;基学习器决策树的数量N_estimators范围设定为[1,100],决策树最大深度Max_depth范围设定在[1,20],节点分裂时选取的最大特征数Max_features范围设定在[1,12];Min_samples_leaf表示最小的叶节点数,范围设定在[1,20];将上述参数作为栅格搜索参数用于训练模型;对超参数进行基于栅格搜索寻优后将得到各超参数的最优值,为后续决策模型提供最优参数组合,使决策模型的决策性能最大化;
基于IRF决策模型超参数调优如附图5所示,由图可知当参数N_estimators取100,参数Max_depth取16,参数Max_features取5,可以使模型达到较高的总体精度,且模型运行较为稳定。
S5:基于最优参数的PCA-XGBoost-IRF决策模型训练
将上述处理得到的模型定义为PCA-XGBoost-IRF决策模型,用于为实际作业车间进行实时调度与决策提供技术支撑,针对扰动环境下作业车间实时调度问题,决策模型训练的目的在于使用基于最优参数的PCA-XGBoost-IRF决策模型挖掘调度知识。基于最优参数的PCA-XGBoost-IRF决策模型的全过程训练流程如下:
Step1:数据预处理,对历史数据进行数据预处理,同时构造标准数据集(StandardData Set,SDS),然后将SDS切分为Train Set和Test Set;
Step2:特征工程,基于Train Set进行特征提取和特征选择,并构造最优特征子集;
Step3:测试决策树分类表现,基于Test Set测试并记录每棵决策树的分类表现;
Step4:基于避免相似树的改进策略,对各决策树间的相似度大小进行计算,若相似度的值高于60%,则会被模型判定为相似树,因此其中测试精度较小的一棵决策树将会被淘汰;
Step5:计算各类别加权投票总数,基于测试集的分类结果,依次对RF模型中保留的每一棵树的决策投票总数进行计算,最终得到式(18)中的Votec
Step6:结果输出,输出当前状态下最优调度规则;
Step7:保存基于最优参数的PCA-XGBoost-IRF决策模型,供实时决策使用;
基于训练数据,在确定改进随机森林决策模型的超参数之后,对决策模型进行离线训练。为验证模型的有效性,本发明基于测试集对所提模型进行模型评估,附图6展示了PCA-XGBoost-IRF决策模型的分类混淆矩阵。横轴为预测的标签类别,纵轴为真实的标签类别,对角线的数据表示基于所提模型对目标类别分类正确的样本数量。其中类别1-10分别对应了SL、FIFO、LPT、MWR、SPT、EDD、LWR_SPT、LWR_TWK、SPT_TWR、SPT_TWK分类标签,从附图6中可以清晰的看到不同类别的分类性能情况。很好的表征了所提方法的有效性。
S6:基于PCA-XGBoost-IRF决策模型进行实时决策
在获得调度知识映射网络后,便可将其用于动态作业车间的在线实时调度。在动态作业车间在线调度阶段,当检测到缓存区有工件处于待加工状态,同时判定车间中有机器处于空闲状态时,本发明定义当前时刻为作业车间实时调度决策点,基于物联网等先进信息采集装置、信息传感器以及信息管理系统实时收集生产车间当前的实时生产状态信息,基于IRF决策模型以当前调度决策点,生产系统的实时状态数据为输入,以最优调度规则为输出,实现动态作业车间在线实时调度。本发明对在线调度实时决策流程做如下说明:
Step1:生产订单按指数分布动态到达生产车间,且随着生产任务的进行各扰动因素在生产过程中随机发生;
Step2:根据生产订单信息,对待加工产品按加工工艺依次进行备料生产;
Step3:信息采集装置实时收集各工位缓冲区待加工工件信息、设备状态信息及系统状态等信息;
Step4:将采集的车间实时数据存入数据库;
Step5:如果当前时刻为决策点,则将实时状态数据输入基于改进随机森林算法的实时调度决策器进行分类决策,输出当前状态下最优调度规则;
Step6:基于最优调度规则,判断缓存区是否有待加工工件,如果有,则从当前缓存区中选择优先级最高的工件进行加工。如果没有,则设备空闲并等待加工,直到新的工件到达缓存区;
Step7:依次完成加工全过程中所有调度决策点的决策任务,在线调度阶段结束。
分类准确率和模型训练时间是评价算法优劣的重要标志。为了验证所提决策模型的有效性,本发明在不进行特征提取和特征选择的情况下,分别采用K最邻近法(K-NearestNeighbor,KNN)、支持向量机(Support Vector Machine,SVM)、反向传播神经网络(BackPropagation Neural Network,BPNN)、CART决策树(Decision Tree,DT)、梯度提升树(Gradient Boosting Decision Tree,GBDT)、随机森林(Random Forest,RF)等传统机器学习模型对动态车间历史数据进行分类预测,与本发明所提的IRF模型和PCA-XGBoost-IRF模型的分类性能进行对比。
各模型参数设置情况如下:
1)KNN模型参数设置:KNN中的k值默认为5,距离度量为欧式距离,用"distance"参数标识每个样本的近邻样本的权重,即设定权重和距离成反比例;
2)SVM模型参数设置:以rbf作为核函数,C表示模型对误差的惩罚系数;gamma反映了数据映射到高维特征空间后的分布,gamma越大,支持向量越多,gamma值越小,支持向量越少。C越大,模型越容易过拟合;C越小,模型越容易欠拟合。为了保证调参的精确度,本发明使用栅格搜索法来确定参数。最终确定gamma为2,c为0.5;
3)BPNN模型参数设置:传递函数为Logsig,训练函数为Traingdx,输入层神经元数目为64,输入层神经元数目为10,隐藏层神经元数目为129;
4)DT模型参数设置:不纯度计算方法参数采用基尼系数,参数random_state为10,参数splitter分裂方式设置为best,即会优先选择更重要的特征进行分枝,参数max_depth为15,并且不限制分枝时考虑的特征个数;
5)GBDT模型参数设置:弱学习器个数为200,步长为0.2;
6)RF模型参数设置:参数N_estimators取200,Max_depth取18,参数Max_features取10,参数Min_samples leaf取1;
7)IRF模型参数设置:参数N_estimators取200,参数Max_depth取18,参数Max_features取10,参数Min_samples leaf取1;
8)PCA-XGBoost-IRF模型参数设置:参数N_estimators取100,参数Max_depth取16,参数Max_features取5;参数Min_samples leaf取1;
本发明基于总体精度(Overall Accuracy,OA)、平均精度(Average Accuracy,AA)、F1 Score(F1)、Kappa Coefficient(Kappa)和模型训练时间(Model Training Time,MTT)等指标进行对比实验统计分析,实验结果如附图7所示。
结果表明与其他同类的机器学习算法相比,本发明提出的基于PCA-XGBoost-IRF的作业车间实时调度方法在保证较高分类准确率的同时,可以大大缩短训练时间,可见该模型具有较好的综合性能。数值实验验证了本发明所提方法的有效性。
上述的实施例仅例示性说明本发明创造的原理及其功效,以及部分运用的实施例,而非用于限制本发明;应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (3)

1.一种基于PCA-XGBoost-IRF的作业车间实时调度方法,包括以下步骤:
S1:规范数据样本构建
管理人员可以从信息系统和服务器端调度规则的执行记录中获取不同调度决策时刻对应的生产系统状态与调度规则组成的数据对,构成用于调度知识挖掘的规范样本数据,即CSD={A1,A2,A3,...,A64,Rule};
S2:样本数据预处理
S21:对样本数据进行异常值处理;
车间状态信息的原始样本数据存在许多噪音,首先,使用相关数据分析工具对特征指标进行描述性统计分析,其次,基于箱型图查找异常值,最后,使用列均值填充缺失值、基于四分位箱线图进行异常值剔除等方式对原始数据进行初步处理,从而得到数据类型比较规整的规范样本数据CSD;
S22:对样本数据进行类别不平衡处理;
为了避免训练样本存在类别不平衡而导致机器学习模型失效的问题,结合实际需求,采用合成少数类过采样技术SMOTE对CSD进行处理;SMOTE算法执行流程为:
Step1:对于少数类中每一个样本xi,以欧氏距离为标准计算它到少数类样本集Smin中所有样本的距离,得到其k近邻;
Step2:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本xi,从其k近邻中随机选择若干个样本,假设选择的近邻为
Figure FDA0003034444020000011
Step3:对于每一个随机选出的近邻
Figure FDA0003034444020000012
分别与原样本按照公式(1)构建新的样本;
Figure FDA0003034444020000013
通过类别不平衡处理处理后得到平衡数据集BDS;
S23:对样本数据进行归一化处理;
综合考虑生产车间状态属性统计特点及车间生产状态的数据类型,采用Max-Min离差标准化对平衡数据集BDS进行归一化处理,表达式如公式(2)所示,把所有属性数据映射到[0,1]之间,避免在训练时出现某些维度占主导地位而导致的训练速度减慢,通过归一化处理得到预处理数据集PDS;
Figure FDA0003034444020000014
式中,xi'表示xi归一化变换后的数据,xmax代表xi的最大值,xmin代表xi的最小值;
S24:对PDS进行切分处理以满足决策模型构建的输入要求;
将PDS划分为训练数据Train Set和测试数据Test Set,其中训练数据Train Set比重占75%,测试数据Test Set比重占25%;同时将训练数据Train Set作为整个决策模型的输入;
S3:对训练数据Train Set进行特征工程处理
S31:对训练数据Train Set进行基于主成分分析法PCA的特征提取降维处理得到低维数据集LDS,具体如下:
(1)对步骤S23中归一化后的样本数据求出协方差矩阵C;
(2)对协方差矩阵C求出其特征向量和特征值;
(3)以特征值大小按行排列相应的特征向量,舍弃特征值较小的特征向量行,将主成分累计贡献率阈值设置为99%,以实现既保留了关键信息,又降低了训练数据的维数,从而间接提高决策模型的训练效率与调度性能;
(4)通过降维处理得到低维数据集LDS;
S32:对低维数据集LDS进行基于XGBoost的特征重要度计算;
S321:XGBoost模型分类过程;
XGBoost模型分类具体的推导过程如下:
基于特征提取得到样本数据集D={(xi,yi)|i=1,2,...,n;xi∈Rm;yi∈R},其中有n个样本,每个样本有m个特征,并且对应一个目标值yi,假如有K棵回归树,则模型表达式如公式(3)所示:
Figure FDA0003034444020000021
式中:fk是一棵回归树;F对应了所有回归树的集合;fk(xi)代表第k棵树对数据集中第i个样本的计算分数;
目标函数如公式(4)所示:
Figure FDA0003034444020000022
式中:l(·)是误差函数,体现了模型拟合训练数据的程度;
为了防止过拟合,定义了正则化项Ω(fk)以惩罚复杂模型;Ω(fk)的表达式为如公式(5)所示:
Figure FDA0003034444020000023
式中:γ和λ表示对模型的惩罚系数;T和w分别表示第k棵树的叶子数目和叶子的权重;
由于树模型式(3)为加法模型,利用前向分步算法对目标函数训练,设
Figure FDA0003034444020000031
为第i个样本在第t次迭代时的预测值,因此添加ft(xi)以最优化以下目标函数如公式(6)所示:
Figure FDA0003034444020000032
对式(6)使用二阶泰勒展开简化该函数后去掉常数项如公式(7)、(8)所示:
Figure FDA0003034444020000033
Figure FDA0003034444020000034
式中:g′i和g″i分别为损失函数的一阶导数和二阶导数,目标函数如公式(9)所示:
Figure FDA0003034444020000035
式中:Ij={i|q(xi)=j}代表叶子j的样本组;
将目标函数转换为一个关于wj的一元二次方程求最小值的问题,假设树的结构q固定,可以计算出叶子j的最优权重如公式(10)、(11)所示:
Figure FDA0003034444020000036
Figure FDA0003034444020000037
然后计算出相应的最优目标值如公式(12)所示:
Figure FDA0003034444020000038
式中,fobj表示树的结构分数,值越小表示数的结构越好;
S322:特征的重要度统计;
XGBoost模型集成若干棵回归树后,每棵树的节点作为一次特征分裂,将某特征被选为分裂特征的次数作为该特征的重要度,并通过重要度计算处理得到重要度评估数据IED;
S33:对重要度评估数据IED进行特征选择处理,使得评价函数值达到最优;
S4:IRF决策模型构建
S41:RF模型构建;
随机森林算法RF核心是以多棵决策树为基础的集成分类器,通过采取多个不同的训练样本子集来加大分类模型之间的相异性,从而能够提高该模型的泛化能力以及预测能力;首先,基于Bootstrap随机重采样技术从训练数据Train Set中有放回地抽取训练实例,形成n个新的训练实例集合;然后,每个训练实例集合分别从特征集中随机选择m个特征作为决策树分裂的特征属性,并计算最佳分类方式;最后,通过训练得到n棵决策树;由这n棵决策树组合成的RF模型为后续对模型进行改进操作提供了模型基础;
S42:基于两种优化策略对随机森林算法RF模型进行改进,并将改进后模型重命名为IRF模型;
S421:对随机森林算法RF模型增加避免相似决策树的优化策略;
通过随机森林算法RF从历史相关数据中学习调度知识SK,假设调度知识SK是对真实调度规则y的一种估计
Figure FDA0003034444020000041
所以在理论上来说
Figure FDA0003034444020000042
和y之间是存在一定的误差;
Figure FDA0003034444020000043
和y之间的平方误差计算公式如式(13)所示;式中δ2是不可避免的,但可以通过减少方差
Figure FDA0003034444020000044
或偏差
Figure FDA0003034444020000045
来减少算法的误差,从而提高随机森林算法的性能;
Figure FDA0003034444020000046
式中,δ2为噪声,它指的是算法所能达到的期望泛化误差的下界;
Figure FDA0003034444020000047
为方差,它刻画了由于数据扰动所造成的影响;
Figure FDA0003034444020000048
为偏差,它描述了学习算法的期望预测与真实结果的偏离程度;
随机森林算法通过Bagging策略生成的决策树具有近似的分布,因此随机森林算法的方差可以看作是一组同分布的随机变量的方差,其方差计算公式如式(14)所示:
Figure FDA0003034444020000049
式中,n为随机森林中决策树的数量;Ti表示第i棵决策树;ρ代表决策树之间的相关性;θ2代表每棵决策树的方差;
从式(14)可知,当随机森林所包含的决策树的数量较大时,若能减少决策树之间的相关性ρ,就能减小森林算法的方差,从而可以有效提高算法的性能;
采用避免相似决策树的优化策略以减少决策树之间的相关性ρ,并最终达到提高随机森林算法性能的目的,该优化策略相似度的计算公式如式(15),决策树之间的相似度取决于它们在使用相同特征属性并对测试实例产生相同预测次数的百分比,为了使得本发明所提方法具有更好的鲁棒性,规定如果两棵决策数之间的相似度大于60%,即被认为是相似的决策树,然后删除测试精确度低的决策树;
Figure FDA0003034444020000051
式中,DT1与DT2表示进行相似度计算的两棵决策树;count表示DT1与DT2对测试实例分类结果相同的次数;r1n与r2n表示第n次分类结果相同时,DT1与DT2用到的特征属性,c表示分类结果;当r1n=r2n时,即DT1与DT2用相同的特征属性得到相同的分类结果时,I(r1n·c,r2n·c)=1,否则结果为0,Nt表示测试实例的个数;
S422:对上述优化后的RF模型增加决策树加权投票的优化策略,并将进一步优化后的模型重命名为IRF模型;
采用加权投票原则对上述优化后的RF算法进行改进:
在决策树的生成过程中,使用bagging方法从样本总数为N的原始训练集中有放回地抽取样本,形成一个样本集,同时还存在一些未被抽取到的样本即袋外数据OOB;设X为测试样本集,x为其中一个样本;T为训练完成的决策树分类器集合,t为当前决策树;C为分类结果集合,c为其中一个分类;
对当前决策树t而言,其袋外数据OOB记为Ot,并应用决策树t对Ot中的各个样本进行分类;通过对比分类结果和样本真实类别,可以得到对Ot数据分类正确的样本数量,记为Otr,记CRt为决策树t对Ot的分类正确率,则CRt表达式如公式(16)所示:
Figure FDA0003034444020000052
式中,CRt越大,说明决策树t的分类效果越好,属于强分类器;反之,说明决策树t的分类效果越差,属于弱分类器;
将每棵决策树对OOB数据的分类正确率CRt作为对应决策树的权重,将样本x通过随机森林分类器进行检测分类并经过加权统计,属于c类别的加权总投票数记为Votec,则Votec表达式如公式(17)所示:
Figure FDA0003034444020000053
式中,Tc,x(x)取值为1或0,若样本x经过决策树的分类测试后结果为c类,取值为1;若样本x经过决策树的分类测试后结果不为c类,取值为0;
选出得票数最多类别Cx作为样本x的最终类别,表达式如公式(18)所示:
Cx=argmax(Votec) (18)
S43:基于栅格搜索对IRF模型的超参数进行寻优;
在确定了训练输入参数的最优特征集后,在模型训练过程中使用栅格搜索进行超参数调优:模型中参数criterion即决策树做划分时对特征的评价标准采用默认的Gini系数,即将处理好的数据按照25%和75%的比例划分为测试集和训练集;基学习器决策树的数量N_estimators范围设定为[1,100],决策树最大深度Max_depth范围设定在[1,20],节点分裂时选取的最大特征数Max_features范围设定在[1,12];Min_samples_leaf表示最小的叶节点数,范围设定在[1,20];将上述参数作为栅格搜索参数用于训练模型;对超参数进行基于栅格搜索寻优后将得到各超参数的最优值,为后续决策模型提供最优参数组合,使决策模型的决策性能最大化;
S5:基于最优参数的PCA-XGBoost-IRF决策模型训练
将上述处理得到的模型定义为PCA-XGBoost-IRF决策模型,用于为实际作业车间进行实时调度与决策提供技术支撑,针对扰动环境下作业车间实时调度问题,训练该决策模型以使用基于最优参数的PCA-XGBoost-IRF决策模型挖掘调度知识,训练流程如下:
Step1:数据预处理,对历史数据进行数据预处理,同时构造标准数据集SDS,然后将标准数据集SDS切分为训练数据Train Set和测试数据Test Set;
Step2:特征工程,基于训练数据Train Set进行特征提取和特征选择,并构造最优特征子集;
Step3:测试决策树分类表现,基于测试数据Test Set测试并记录每棵决策树的分类表现;
Step4:避免相似决策树策略,计算决策树之间的相似度,若两颗决策树之间的相似度大于70%,则被认为相似决策树,需要淘汰其中在测试表现中较差的一棵;
Step5:计算各类别加权投票总数,根据对测试数据分类的表现,计算随机森林中保留下的每一棵决策树的权值,即得到式(18)中的Votec
Step6:结果输出,输出当前状态下最优调度规则;
Step7:保存基于最优参数的PCA-XGBoost-IRF决策模型,供实时决策使用;
S6:基于PCA-XGBoost-IRF决策模型进行实时决策
在获得调度知识映射网络后,便可将其用于动态作业车间的在线实时调度;在动态作业车间在线调度阶段,当检测到缓冲区中有多个待加工工件且机器存在空机时,将当前时刻定义为多工件等待加工的调度决策点,通过信息采集装置、传感器以及管理信息系统实时收集制造系统生产状态信息,基于改进随机森林的调度知识学习模型以当前调度决策点生产系统的状态数据为输入,以最优调度规则为输出,实现动态作业车间在线实时调度;在线调度实时决策流程如下:
Step1:生产订单按指数分布动态到达生产车间,且随着生产任务的进行各扰动因素在生产过程中随机发生;
Step2:根据生产订单信息,对待加工产品按加工工艺依次进行备料生产;
Step3:信息采集装置实时收集各工位缓冲区待加工工件信息、设备状态信息及系统状态等信息;
Step4:将采集的车间实时数据存入数据库;
Step5:如果当前时刻为决策点,则将实时状态数据输入基于改进随机森林算法的实时调度决策器进行分类决策,输出当前状态下最优调度规则;
Step6:基于最优调度规则,判断缓存区是否有待加工工件,如果有,则从当前缓存区中选择优先级最高的工件进行加工;如果没有,则设备空闲并等待加工,直到新的工件到达缓存区;
Step7:依次完成加工全过程中所有调度决策点的决策任务,在线调度阶段结束。
2.如权利要求1所述的一种基于PCA-XGBoost-IRF的作业车间实时调度方法,其特征在于:所述步骤S33为对重要度评估数据IED进行基于序列后向搜索SBS的特征选择处理使得评价函数值达到最优,具体内容为:
Step1:基于所有特征进行XGBoost分类;
Step2:基于生成的模型过程中的信息,得到特征变量的重要性FI并按降序排序;
Step3:采用SBS算法依次从当前特征集中剔除该轮迭代中重要性得分最低的特征;
Step4:将剩余的特征重新进行新一轮的预测和排序,记录每轮迭代过程中基于RF模型的预测分类准确率Acc,第i次准确率则被记为Acc_i,将分类准确率作为特征选择评价函数值,用于确定预测分类准确率最高的保留特征子集;
Step5:重复步骤Step3和Step4直到所有特征都被选择;
Step6:搜索每轮迭代过程中记录的Acc_i,考察所有子集的分类情况,选择Acc_i值相对较高同时特征数量较少的子集作为最优特征子集;
Step7:输出最优特征子集OFS,并将最优特征子集OFS作为随机森林决策模型构建的输入。
3.如权利要求1所述的一种基于PCA-XGBoost-IRF的作业车间实时调度方法,其特征在于:所述步骤S33为对重要度评估数据IED进行基于序列前向搜索SFS的特征选择处理使得评价函数值达到最优,具体内容为:
Step1:基于所有特征进行XGBoost分类;
Step2:基于生成的模型过程中的信息,得到特征变量的重要性FI并按降序排序;
Step3:采用SFS算法依次从当前特征集中选择该轮迭代中重要性得分最高的特征;
Step4:将剩余的特征重新进行新一轮的预测和排序,记录每轮迭代过程中基于RF模型的预测分类准确率Acc,第i次准确率则被记为Acc_i,将分类准确率作为特征选择评价函数值,用于确定预测分类准确率最高的保留特征子集;
Step5:重复步骤Step3和Step4直到所有特征都被选择;
Step6:搜索每轮迭代过程中记录的Acc_i,考察所有子集的分类情况,选择Acc_i值相对较高同时特征数量较少的子集作为最优特征子集;
Step7:输出最优特征子集OFS,并将最优特征子集OFS作为随机森林决策模型构建的输入。
CN202110439410.6A 2021-04-23 2021-04-23 基于PCA-XGBoost-IRF的作业车间实时调度方法 Active CN113256066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110439410.6A CN113256066B (zh) 2021-04-23 2021-04-23 基于PCA-XGBoost-IRF的作业车间实时调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110439410.6A CN113256066B (zh) 2021-04-23 2021-04-23 基于PCA-XGBoost-IRF的作业车间实时调度方法

Publications (2)

Publication Number Publication Date
CN113256066A true CN113256066A (zh) 2021-08-13
CN113256066B CN113256066B (zh) 2022-05-06

Family

ID=77221515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110439410.6A Active CN113256066B (zh) 2021-04-23 2021-04-23 基于PCA-XGBoost-IRF的作业车间实时调度方法

Country Status (1)

Country Link
CN (1) CN113256066B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673866A (zh) * 2021-08-20 2021-11-19 上海寻梦信息技术有限公司 农作物决策方法、模型训练方法以及相关设备
CN113822344A (zh) * 2021-08-30 2021-12-21 中能电力科技开发有限公司 基于数据驱动的风电机组发电机前轴承状态监测方法
CN114462023A (zh) * 2022-01-21 2022-05-10 内蒙古工业大学 一种用于发电厂控制系统的蜜罐防御控制方法及装置
CN114638379A (zh) * 2021-11-09 2022-06-17 中国科学院沈阳自动化研究所 边缘侧多智能体opc ua信息解析和决策方法
CN115062678A (zh) * 2022-08-19 2022-09-16 山东能源数智云科技有限公司 设备故障检测模型的训练方法、故障检测方法及装置
CN115130812A (zh) * 2022-04-20 2022-09-30 成都步速者科技股份有限公司 一种基于森林节点分割排序的零件级排产方法
CN115357570A (zh) * 2022-08-24 2022-11-18 安徽维德工业自动化有限公司 基于随机森林算法的车间优化调度管理方法
CN115454988A (zh) * 2022-09-27 2022-12-09 哈尔滨工业大学 基于随机森林网络的卫星电源系统缺失数据补全方法
CN115600121A (zh) * 2022-04-26 2023-01-13 南京天洑软件有限公司(Cn) 数据分层分类方法及装置、电子设备、存储介质
CN115688588A (zh) * 2022-11-04 2023-02-03 自然资源部第一海洋研究所 一种基于改进xgb方法的海表面温度日变化振幅预测方法
CN115859768A (zh) * 2022-10-12 2023-03-28 武汉理工大学 一种动态装配作业车间工件完工时间预测方法及装置
CN115994327A (zh) * 2023-03-22 2023-04-21 山东能源数智云科技有限公司 基于边缘计算的设备故障诊断方法及装置
CN116071103A (zh) * 2023-03-07 2023-05-05 天津金城银行股份有限公司 促使客户借款的方法、装置和电子设备
CN116401680A (zh) * 2023-06-08 2023-07-07 北京网藤科技有限公司 基于梯度提升决策树算法的工控漏洞检测方法和系统
CN116596095A (zh) * 2023-07-17 2023-08-15 华能山东发电有限公司众泰电厂 基于机器学习的碳排放量预测模型的训练方法及装置
CN117114226A (zh) * 2023-10-20 2023-11-24 无锡宇拓物联信息科技有限公司 自动化设备的智能动态优化与工艺调度系统
CN117196418A (zh) * 2023-11-08 2023-12-08 江西师范大学 一种基于人工智能的阅读教学质量评估方法及系统
CN117421684A (zh) * 2023-12-14 2024-01-19 易知谷科技集团有限公司 基于数据挖掘和神经网络的异常数据监测与分析方法
CN117789038A (zh) * 2024-02-26 2024-03-29 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法
CN117851927A (zh) * 2024-03-07 2024-04-09 南京大学 一种基于随机森林与气象数据的云预测方法
CN117970428A (zh) * 2024-04-02 2024-05-03 山东省地质科学研究院 基于随机森林算法的地震信号识别方法、装置及设备
CN118364385A (zh) * 2024-05-21 2024-07-19 陕西协成测试技术有限公司 电线电缆检测数据精细化分析与故障预测系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491991A (zh) * 2018-01-30 2018-09-04 西安电子科技大学 基于工业大数据产品工期的约束条件分析系统与方法
CN108665091A (zh) * 2018-04-07 2018-10-16 深圳供电局有限公司 一种基于机器学习的物资智能调度方法
CN110209150A (zh) * 2019-07-09 2019-09-06 新疆大学 基于多工序故障影响的作业车间调度方案鲁棒性测度方法
US20190311301A1 (en) * 2018-04-10 2019-10-10 Ebay Inc. Dynamically generated machine learning models and visualization thereof
US20200019935A1 (en) * 2018-07-10 2020-01-16 International Business Machines Corporation Cognitive prioritization model for hardware device prediction maintenance delivery
CN111210094A (zh) * 2020-03-06 2020-05-29 青岛海信网络科技股份有限公司 一种基于实时客流预测的机场出租车自动调度方法及装置
CN111930485A (zh) * 2020-07-28 2020-11-13 中国电子科技集团公司第二十八研究所 一种基于性能表现的作业调度方法
CN112116093A (zh) * 2019-06-20 2020-12-22 富士通株式会社 自动解决退火系统中的np问题
CN112327168A (zh) * 2020-10-31 2021-02-05 国网河北省电力有限公司雄安新区供电公司 一种基于XGBoost的电动汽车电池消耗预测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491991A (zh) * 2018-01-30 2018-09-04 西安电子科技大学 基于工业大数据产品工期的约束条件分析系统与方法
CN108665091A (zh) * 2018-04-07 2018-10-16 深圳供电局有限公司 一种基于机器学习的物资智能调度方法
US20190311301A1 (en) * 2018-04-10 2019-10-10 Ebay Inc. Dynamically generated machine learning models and visualization thereof
US20200019935A1 (en) * 2018-07-10 2020-01-16 International Business Machines Corporation Cognitive prioritization model for hardware device prediction maintenance delivery
CN112116093A (zh) * 2019-06-20 2020-12-22 富士通株式会社 自动解决退火系统中的np问题
CN110209150A (zh) * 2019-07-09 2019-09-06 新疆大学 基于多工序故障影响的作业车间调度方案鲁棒性测度方法
CN111210094A (zh) * 2020-03-06 2020-05-29 青岛海信网络科技股份有限公司 一种基于实时客流预测的机场出租车自动调度方法及装置
CN111930485A (zh) * 2020-07-28 2020-11-13 中国电子科技集团公司第二十八研究所 一种基于性能表现的作业调度方法
CN112327168A (zh) * 2020-10-31 2021-02-05 国网河北省电力有限公司雄安新区供电公司 一种基于XGBoost的电动汽车电池消耗预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIXIN CHENG 等: "Data mining for fast and accurate makespan estimation in machining workshops", 《JOURNAL OF INTELLIGENT MANUFACTURING》 *
张钰 等: "Xgboost在滚动轴承故障诊断中的应用", 《噪声与振动控制》 *
汤洪涛: "基于工业大数据的柔性作业车间动态调度", 《计算机集成制造系统》 *
韩丰羽: "数字化车间PLC互联互通关键技术的研究与实现", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673866A (zh) * 2021-08-20 2021-11-19 上海寻梦信息技术有限公司 农作物决策方法、模型训练方法以及相关设备
CN113822344A (zh) * 2021-08-30 2021-12-21 中能电力科技开发有限公司 基于数据驱动的风电机组发电机前轴承状态监测方法
CN113822344B (zh) * 2021-08-30 2024-05-31 龙源(北京)新能源工程技术有限公司 基于数据驱动的风电机组发电机前轴承状态监测方法
CN114638379A (zh) * 2021-11-09 2022-06-17 中国科学院沈阳自动化研究所 边缘侧多智能体opc ua信息解析和决策方法
CN114462023A (zh) * 2022-01-21 2022-05-10 内蒙古工业大学 一种用于发电厂控制系统的蜜罐防御控制方法及装置
CN115130812A (zh) * 2022-04-20 2022-09-30 成都步速者科技股份有限公司 一种基于森林节点分割排序的零件级排产方法
CN115600121A (zh) * 2022-04-26 2023-01-13 南京天洑软件有限公司(Cn) 数据分层分类方法及装置、电子设备、存储介质
CN115600121B (zh) * 2022-04-26 2023-11-07 南京天洑软件有限公司 数据分层分类方法及装置、电子设备、存储介质
CN115062678A (zh) * 2022-08-19 2022-09-16 山东能源数智云科技有限公司 设备故障检测模型的训练方法、故障检测方法及装置
CN115357570A (zh) * 2022-08-24 2022-11-18 安徽维德工业自动化有限公司 基于随机森林算法的车间优化调度管理方法
CN115454988A (zh) * 2022-09-27 2022-12-09 哈尔滨工业大学 基于随机森林网络的卫星电源系统缺失数据补全方法
CN115859768A (zh) * 2022-10-12 2023-03-28 武汉理工大学 一种动态装配作业车间工件完工时间预测方法及装置
CN115859768B (zh) * 2022-10-12 2023-05-02 武汉理工大学 一种动态装配作业车间工件完工时间预测方法及装置
CN115688588A (zh) * 2022-11-04 2023-02-03 自然资源部第一海洋研究所 一种基于改进xgb方法的海表面温度日变化振幅预测方法
CN116071103A (zh) * 2023-03-07 2023-05-05 天津金城银行股份有限公司 促使客户借款的方法、装置和电子设备
CN115994327A (zh) * 2023-03-22 2023-04-21 山东能源数智云科技有限公司 基于边缘计算的设备故障诊断方法及装置
CN116401680A (zh) * 2023-06-08 2023-07-07 北京网藤科技有限公司 基于梯度提升决策树算法的工控漏洞检测方法和系统
CN116596095B (zh) * 2023-07-17 2023-11-07 华能山东泰丰新能源有限公司 基于机器学习的碳排放量预测模型的训练方法及装置
CN116596095A (zh) * 2023-07-17 2023-08-15 华能山东发电有限公司众泰电厂 基于机器学习的碳排放量预测模型的训练方法及装置
CN117114226A (zh) * 2023-10-20 2023-11-24 无锡宇拓物联信息科技有限公司 自动化设备的智能动态优化与工艺调度系统
CN117114226B (zh) * 2023-10-20 2024-01-30 无锡宇拓物联信息科技有限公司 自动化设备的智能动态优化与工艺调度系统
CN117196418A (zh) * 2023-11-08 2023-12-08 江西师范大学 一种基于人工智能的阅读教学质量评估方法及系统
CN117196418B (zh) * 2023-11-08 2024-02-02 江西师范大学 一种基于人工智能的阅读教学质量评估方法及系统
CN117421684B (zh) * 2023-12-14 2024-03-12 易知谷科技集团有限公司 基于数据挖掘和神经网络的异常数据监测与分析方法
CN117421684A (zh) * 2023-12-14 2024-01-19 易知谷科技集团有限公司 基于数据挖掘和神经网络的异常数据监测与分析方法
CN117789038A (zh) * 2024-02-26 2024-03-29 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法
CN117789038B (zh) * 2024-02-26 2024-05-10 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法
CN117851927A (zh) * 2024-03-07 2024-04-09 南京大学 一种基于随机森林与气象数据的云预测方法
CN117970428A (zh) * 2024-04-02 2024-05-03 山东省地质科学研究院 基于随机森林算法的地震信号识别方法、装置及设备
CN118364385A (zh) * 2024-05-21 2024-07-19 陕西协成测试技术有限公司 电线电缆检测数据精细化分析与故障预测系统

Also Published As

Publication number Publication date
CN113256066B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN113256066B (zh) 基于PCA-XGBoost-IRF的作业车间实时调度方法
CN112508442B (zh) 基于自动化和可解释机器学习的暂态稳定评估方法及系统
CN114595623A (zh) 一种基于XGBoost算法的机组设备基准值预测方法及系统
CN106628097A (zh) 一种基于改进径向基神经网络的船舶设备故障诊断方法
CN113988215B (zh) 一种配电网计量柜状态检测方法及系统
CN106482967A (zh) 一种代价敏感支持向量机机车车轮检测系统及方法
Al-Dahidi et al. A framework for reconciliating data clusters from a fleet of nuclear power plants turbines for fault diagnosis
CN114676742A (zh) 一种基于注意力机制和残差网络的电网异常用电检测方法
CN114429152A (zh) 基于动态指数对抗性自适应的滚动轴承故障诊断方法
CN110794360A (zh) 一种基于机器学习预测智能电能表故障的方法及系统
CN114881429B (zh) 基于数据驱动的台区线损量化方法及系统
CN115112372A (zh) 轴承故障诊断方法、装置、电子设备及存储介质
CN115660170A (zh) 多维指标权重协同优化的数据资产管理成效差异化评估方法和系统
Qin et al. High-efficiency generative adversarial network model for chemical process fault diagnosis
CN117313795A (zh) 一种基于改进dbo-lstm的智慧楼宇能耗预测方法
Kim et al. AnoGAN-based anomaly filtering for intelligent edge device in smart factory
CN111461565A (zh) 一种电力调控下的电源侧发电性能评估方法
CN113884807B (zh) 基于随机森林和多层架构聚类的配电网故障预测方法
Behera et al. GAN-based multi-task learning approach for prognostics and health management of IIoT
CN117458544B (zh) 一种基于多类型储能资源动态聚合的优化协同调控方法
CN118035866A (zh) 基于专家网络的铝挤压设备故障诊断方法
CN113033898A (zh) 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统
Silva et al. On the evaluation of dynamic selection parameters for time series forecasting
CN112465253B (zh) 一种城市路网中的链路预测方法及装置
CN111897310B (zh) 基于一维多头卷积网络的工业过程故障分类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant