CN108491991B - 基于工业大数据产品工期的约束条件分析系统与方法 - Google Patents

基于工业大数据产品工期的约束条件分析系统与方法 Download PDF

Info

Publication number
CN108491991B
CN108491991B CN201810086663.8A CN201810086663A CN108491991B CN 108491991 B CN108491991 B CN 108491991B CN 201810086663 A CN201810086663 A CN 201810086663A CN 108491991 B CN108491991 B CN 108491991B
Authority
CN
China
Prior art keywords
data
constraint condition
construction period
constraint conditions
constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810086663.8A
Other languages
English (en)
Other versions
CN108491991A (zh
Inventor
常建涛
孔宪光
林松涛
罗才文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Qigong Data Technology Co ltd
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810086663.8A priority Critical patent/CN108491991B/zh
Publication of CN108491991A publication Critical patent/CN108491991A/zh
Application granted granted Critical
Publication of CN108491991B publication Critical patent/CN108491991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于工业大数据产品工期的约束条件分析系统与方法,可对影响产品工期的约束条件进行定量分析。基于Spark大数据分析平台的二次开发;对约束条件数据进行预处理;运用随机森林重要度方法筛选产品工期的约束条件,得到重要约束条件;运用PCA特征提取方法获得线性约束条件;运用K‑means聚类方法对组合得到的非线性约束条件进行筛选;运用随机选择方法与多元线性回归方法结合,对预测工期进行误差分析,实现产品工期的约束条件或组合约束条件的定量分析。本发明还具有海量数据的存储能力和高效分析能力,为企业缩短产品的工期、优化生产计划提供建议和参考。

Description

基于工业大数据产品工期的约束条件分析系统与方法
技术领域
本发明属于工业领域,更进一步涉及生产调度技术领域中的一种基于工业大数据产品工期的约束条件分析系统与方法。本发明利用数据挖掘技术,实现了在小批量、多种类的机械产品生产过程中,对影响产品生产工期的约束条件进行定量分析,分析结果不仅可用于优化生产调度方案,而且可以提高工期预测的精确度。
背景技术
生产调度优化对制造企业的生产管理尤为重要,随着小批量、多种类、柔性化生产的发展趋势越来越明显,产品的复杂程度增加,加工条件波动大,造成了产品工期除了受到生产加工本身的影响之外,还受到许多其他约束条件的影响,因此大大增加了产品工期预测的难度。实现产品工期的约束条件的准确分析是预测工期的关键问题,是缩短工期的关键技术,也是企业实现预测制造的必要条件。所谓产品工期的约束条件分析是指对影响产品工期的约束条件进行重要度分析,判断该约束条件对产品工期的影响程度。
西安交通大学在其申请的专利文献“一种利用车间RFID数据提高订单完工期预测准确度的方法”(专利申请号2016102110803.9,专利公布号CN 105913142A)中公开了一种利用车间RFID数据提高订单完工期预测准确度的方法。该方法的主要步骤是:对生产车间的制造设备进行RFID数据配置;抽取生产车间中确定性制造资源,形成订单加工的确定性制造环境;确定性制造资源状态RFID数据化;车间在制品状态RFID数据化;车间在制品的最大数量确定化;建立车间实时生产状态的RFID数据化描述模型;建立订单完工期预测描述模型;建立多输入单输出结构的深度神经网络回归模型;训练深度神经网络回归模型;利用模型预测订单的完工期。该方法存在不足之处是,模型输入为影响工期的约束条件的全部数据,未对影响工期的约束条件或组合约束进行分析,可能会影响预测结果的精确度。
北京理工大学在其申请的专利文献“一种生产调度方法及系统”(专利申请号201710013045.6,专利公布号CN 106681291 A)中公开了一种生产调度方法及系统。该系统主要包括工艺信息模块、装配任务模块和生产执行模块,通过更新工艺信息模块和装配任务模块的信息生成对应的生产调度方案。该方法的主要步骤是:获取当前生产装配任务的装配工艺参数和实际生产约束参数;根据所述装配工艺参数和实际生产约束参数,并依据预先设定的调度问题模型,获得当前生产装配任务的工序执行时间表和资源使用时间表;依据所述工序执行时间表和资源使用时间表生成装配调度信息。该发明存在的不足之处是,当企业生产数据量急剧增加时,该系统在计算机上运行速度降低,可能会导致宕机的问题。
影响产品工期的重要约束条件往往是根据人工经验结合实际生产情况进行直接判断,无法进行定量分析,而影响产品工期的约束条件越来越复杂,单一利用人工经验的方法难以实现产品工期的约束条件的准确判断。
发明内容
本发明的目的是针对上述现有技术存在的不足,提出一种基于工业大数据产品工期的约束条件分析系统与方法。
本发明的工业大数据产品工期的约束条件分析系统是在Spark大数据分析平台上,分别构建数据存储模块、数据预处理模块、模型训练模块、产品工期约束条件重要度输出模块。
所述的数据存储模块,用于存储产品的订单数据、原料采购数据、加工过程数据、产品工艺评价数据、生产过程机器工作状态数据、机器故障停机数据、工作人员工作记录数据以及工期数据。
所述的数据预处理模块,用于对数据存储模块中的数据缺失的部分进行平均数填充处理,采用3σ原则进行异常值剔除处理,将数据存储模块中的数据除工期数据外的剩余数据进行归一化处理,得到预处理数据。
所述的模型训练模块,包括随机森林重要度约束条件筛选模型、主成分特征提取模型、约束条件组合模型、K-means聚类方法筛选非线性约束条件模型、约束条件随机选择模型、误差分析模型;其中:随机森林约束条件筛选模型是对预处理数据所对应的约束条件进行筛选,运用随机森林重要度分析法对约束条件进行筛选,得到重要的约束条件;主成分特征提取模型是对预处理后的数据运用主成分分析方法,得到约束条件之间经过线性组合后的线性约束条件;约束条件组合模型,用于将预处理后的数据对应的约束条件进行组合,得到所有的非线性约束条件;K-means聚类方法筛选非线性约束条件模型是将所有的非线性约束条件通过距离的方法进行筛选,筛选出部分主要的非线性约束条件;约束条件随机选择模型,用于随机选择线性约束条件数据集和非线性约束条件数据集组成的组合约束条件数据集,得到随机组合约束条件数据集;误差分析模型是通过随机组合约束条件和重要约束条件对应的数据集来建立预测工期的多元线性回归模型,分析预测工期与实际工期的误差,若误差满足要求,则进行结果输出,否则,则重新选择随机组合约束条件。
所述的产品工期约束条件重要度输出模块,将模型训练模块得到的多元线性回归的所有系数和对应的随机组合约束条件或重要约束条件,对所有系数的绝对值降序排列,依次得到对应的重要约束条件或随机组合约束条件的重要度,并且将结果保存到HDFS分布式文件系统并封装成Spark平台上的接口,以API的形式提供应用链接。
本发明方法的步骤如下:
(1)构建原始数据表:
收集离散制造型产品在工业中长期积累产生的大量数据,将收集到的数据根据加工批次顺序合并,构建一个原始数据表;
(2)对数据进行预处理:
(2a)对原始数据表中数据缺失的部分进行平均数填充处理,采用3σ原则进行异常值剔除处理,得到待处理数据;
(2b)将待处理数据除工期数据外的剩余数据进行归一化处理,得到预处理后的数据;
(3)筛选约束条件:
(3a)在[0,1]的范围内设定随机森林重要度得分的阈值;
(3b)利用随机森林重要度分析法,计算每个约束条件的重要度得分;
(3c)对所有重要度得分的绝对值按照降序排列,将排第一的重要度得分的绝对值对应的约束条件筛选出来,并从所有的约束条件中删除该约束条件;
(3d)判断排列第一的重要度得分的绝对值是否小于阈值,若是,则执行步骤(3e),否则,执行步骤(3b);
(3e)将所有筛选出的约束条件对应的数据,按列合并,组成重要约束条件数据集;
(4)提取约束条件特征:
运用主成分分析方法,提取预处理后数据的主要特征,每一个主要特征对应的数据组合成一个线性约束条件,将所有线性约束条件数据,按列合并,组成线性约束条件数据集;
(5)组合约束条件:
(5a)采用放回抽样方法,从预处理后的数据对应的约束条件中,分2次抽取约束条件,列出2次抽取的约束条件的排列组合;
(5b)每种排列组合对应的约束条件的数据对应相乘后得到一个非线性约束条件,计算出所有的非线性约束条件;
(6)筛选非线性约束条件:
(6a)运用K-means聚类方法对所有非线性约束条件实现聚类;
(6b)从每一个聚类中选择出一个距离聚类中心点距离最近的非线性约束条件;
(6c)将选择出的所有非线性约束条件对应的数据,按列合并,组成非线性约束条件数据集;
(7)随机选择组合约束条件:
(7a)将线性约束条件数据集和非线性约束条件数据集,按列合并,组成组合约束条件数据集;
(7b)统计组合约束条件的总数,用0表示不选中组合约束条件,用1表示选中组合约束条件,将选中的组合约束条件对应的数据,按列合并,组成随机组合约束条件数据集;
(8)误差分析:
(8a)将随机组合约束条件数据集、重要约束条件数据集与工期数据,按列合并,并将合并后的数据按照3:1的比例随机划分为训练数据和测试数据;
(8b)运用最小二乘法,利用训练数据建立预测工期的多元线性回归模型;
(8c)将测试数据除工期外的数据输入多元线性回归模型,输出工期的预测值;
(8d)运用相对均方根误差公式,计算工期预测数据与测试数据里的工期数据的误差值;
(8e)将步骤(8a)、步骤(8b)、步骤(8c)、步骤(8d)重复10次,计算10次误差的平均值;
(9)判定10次误差的平均值是否小于误差指标值,若是,则执行步骤(10),否则,执行步骤(7);
(10)输出结果:
输出多元线性回归模型的所有系数和对应的随机组合约束条件和重要约束条件,对所有系数的绝对值降序排列,依次得到对应的重要约束条件或随机组合约束条件的重要度。
本发明与现有技术相比具有以下优点:
第一,由于本发明的系统是在Spark大数据平台上进行二次开发,运用Spark大数据平台的Hive数据库存储功能,依据RDD计算框架构建数据预处理模块和模型训练模块,克服了现有技术中当企业生产数据量急剧增加时,系统在计算机上运行速度降低,可能会导致宕机的问题,使得本发明能够实现海量数据高效的存储,避免了单机情况分析海量数据的低效性和波动性,提高了计算机的运行速度和计算效率。
第二,由于本发明的方法进行了约束条件筛选和约束条件组合,其输出结果包括单一约束条件和组合约束条件的重要度,克服了现有技术中未对影响工期的约束条件或组合约束进行分析的问题,使得本发明不仅能够挖掘出影响工期的单一约束条件的重要度,也能够挖掘出部分约束条件之间进行线性、非线性组合后形成的组合约束条件的重要度。
第三,由于本发明的方法采用多元线性回归模型的系数来代表对应约束条件或组合约束条件的重要度,克服了现有技术中利用人工经验的方法难以实现产品工期的约束条件的准确判断的问题,使得本发明能够根据输出系数绝对值的大小来量化对应的约束条件或组合约束条件的重要度。
附图说明
图1是本发明系统的框图;
图2是本发明方法的流程图。
具体实施方式
下面结合附图对发明做进一步描述。
参照附图1的系统框图,对本发明的系统做进一步描述。
本发明的系统是在Spark大数据分析平台上,依据Hive数据库构建数据存储模块、依据RDD计算框架构建数据预处理模块与模型训练模块、依据HFDS分布式文件系统构建产品工期约束条件重要度输出模块。
数据存储模块用于存储产品的订单数据、原料采购数据、加工过程数据、产品工艺评价数据、生产过程机器工作状态数据、机器故障停机数据、工作人员工作记录数据以及工期数据。
数据预处理模块用于对数据存储模块中的数据缺失的部分进行平均数填充处理,采用3σ原则进行异常值剔除处理,将数据存储模块中的数据除工期数据外的剩余数据进行归一化处理,得到预处理数据。首先找到Hive数据库里缺失数据的位置,计算该位置所在列数据的平均值,用平均值来填充缺失数据;再分别计算Hive数据库中每一列数据的平均值u和方差σ,按照列和行的顺序,依次从Hive数据库中选取一个数据,删除所选取数据中小于该列的最小三西格玛值,或大于该列的最大三西格玛的数据在原始数据表所在位置的整行数据。所述最小三西格玛值是由u-3σ计算得到的,最大三西格玛值是由u+3σ计算得到的。最后运用归一化公式将Hive数据库中除工期数据外的数据转换到[0,1]区间。
模型训练模块包括随机森林重要度约束条件筛选模型、主成分特征提取模型、约束条件组合模型、K-means聚类方法筛选非线性约束条件模型、约束条件随机选择模型、误差分析模型。其中:随机森林约束条件筛选模型是对Hive数据库里经过预处理后除工期数据外的数据所对应的约束条件进行筛选,运用随机森林重要度分析法得到约束条件的重要度得分的绝对值,选出一个重要得分绝对值最大的约束条件,运用随机森林重要度分析法得到剩余的约束条件的重要度得分的绝对值,直到多次筛选后剩余约束条件的重要度得分的绝对值都小于之前设定的阈值则停止,依次筛选出重要的约束条件,该方法筛选出的结果稳定可靠,而且运用重要度得分的绝对值来筛选约束条件,既可以得到促使工期缩短的约束条件,也可以得到促使工期延长的约束条件。主成分特征提取模型是对预处理后的数据运用主成分分析方法,得到约束条件之间经过线性组合后的线性约束条件,考虑了影响工期的线性约束条件。约束条件组合模型,用于将预处理后的数据对应的约束条件进行组合,得到所有的非线性约束条件。K-means聚类方法筛选非线性约束条件模型是将所有的非线性约束条件通过距离的方法进行筛选,筛选出部分主要的非线性约束条件,考虑了影响工期的非线性约束条件。约束条件随机选择模型,用于随机选择线性约束条件数据集和非线性约束条件数据集组成的组合约束条件数据集,得到随机组合约束条件数据集。误差分析模型是通过随机组合约束条件和重要约束条件对应的数据集来建立预测工期的多元线性回归模型,分析预测工期与实际工期的误差,若误差满足要求,则进行结果输出,否则,则重新选择随机组合约束条件。
产品工期约束条件重要度输出模块用于将模型训练模块得到的多元线性回归的所有系数和对应的随机组合约束条件或重要约束条件,对所有系数的绝对值降序排列,依次得到对应的重要约束条件或随机组合约束条件的重要度,并且将结果保存到HDFS分布式文件系统并封装成Spark平台上的接口,以API的形式提供应用链接。
参照附图2的方法流程图,对本发明的方法做进一步描述。
本发明的方法是在工业大数据产品工期的约束条件分析系统上,对产品工期的约束条件进行分析。具体步骤包括如下。
步骤1,构建原始数据表。
收集离散制造型产品在工业中长期积累产生的大量数据,将收集到的数据根据加工批次顺序合并,构建一个原始数据表。
所述的离散制造型产品在工业中长期积累产生的大量数据包括,产品订单数据、原料采购数据、加工过程数据、产品工艺评价数据、生产过程机器工作状态数据、机器故障停机数据、工作人员工作记录数据以及工期数据。
步骤2,对数据进行预处理。
对原始数据表中数据缺失的部分进行平均数填充处理,采用3σ原则进行异常值剔除处理,得到待处理数据。
所述采用3σ原则进行异常值剔除处理的具体步骤如下:
第1步,分别计算原始数据表的每一列数据的平均值u和方差σ;
第2步,按照列和行的顺序,依次从原始数据表中选取一个数据;
第3步,删除所选取数据中小于该列的最小三西格玛值,或大于该列的最大三西格玛的数据在原始数据表所在位置的整行数据;所述最小三西格玛值是由u-3σ计算得到的,最大三西格玛值是由u+3σ计算得到的。
将待处理数据除工期数据外的剩余数据进行归一化处理,得到预处理后的数据。
所述归一化处理,是运用归一化计算公式将数据转换到[0,1]区间,消除数据量纲差异,归一化计算公式如下:
Figure GDA0003125326140000081
其中:x*表示x经过归一化后的值,x表示进行归一化数据,xmin表示x在原始数据表所在列数据的最小值,xmax表示x在原始数据表所在列数据的最大值。
步骤3,筛选约束条件。
步骤A,在[0,1]的范围内设定随机森林重要度得分的阈值。
步骤B,利用随机森林重要度分析法,计算每个约束条件的重要度得分。
步骤C,对所有重要度得分的绝对值按照降序排列,将排第一的重要度得分的绝对值对应的约束条件筛选出来,并从所有的约束条件中删除该约束条件。
步骤D,判断排列第一的重要度得分的绝对值是否小于阈值,若是,则执行步骤E,否则,执行步骤B。
步骤E,将所有筛选出的约束条件对应的数据,按列合并,组成重要约束条件数据集。
所述随机森林重要度分析法计算约束条件的重要度得分的具体步骤如下:
第1步:设置随机森林中树的棵数h。
第2步:运用每颗树依次计算约束条件的置换重要性。置换重要性公式如下:
Figure GDA0003125326140000082
其中:V表示约束条件的置换重要性,
Figure GDA0003125326140000083
表示第k棵树的观测数据,∑表示累计求和操作,
Figure GDA0003125326140000091
表示指示函数,当
Figure GDA0003125326140000092
时,
Figure GDA0003125326140000093
Figure GDA0003125326140000094
时,
Figure GDA0003125326140000095
Yp∈{0,1}表示第p个观测的真实结果,
Figure GDA0003125326140000096
表示置换前第k棵树第p个观测的预测结果,
Figure GDA0003125326140000097
表示指示函数,当
Figure GDA0003125326140000098
Figure GDA0003125326140000099
Figure GDA00031253261400000910
表示置换后第k棵树第P个观测的预测结果。
第3步:计算约束条件的重要度得分。重要度得分公式如下:
Figure GDA00031253261400000911
其中:I表示重要度得分,VIMg表示第g棵树计算得到的约束条件置换重要度。
步骤4,提取约束条件特征。
运用主成分分析方法,提取预处理后数据的主要特征,每一个主要特征对应的数据组合成一个线性约束条件,将所有线性约束条件数据,按列合并,组成线性约束条件数据集。
所述主成分分析方法提取预处理后数据的主要特征的具体步骤如下:
第1步:将预处理后的数据转换为矩阵,计算矩阵的相关系数矩阵。
第2步:运用雅克比法计算相关系数矩阵的所有特征值,记为λ12,…,λq,进一步计算出所有特征值对应的特征向量。
第3步:计算累计贡献率。累计贡献率公式如下:
Figure GDA00031253261400000912
其中:Φ表示累计贡献率,λb表示第b个特征值;取Φ≥0.85,计算得到c的最小正整数,选择主要特征值为λ12,…,λc,主要特征值对应的特征向量为主要特征向量。
第4步:将预处理后的数据转换的矩阵与主要特征向量构成的矩阵相乘,计算得到预处理后数据的主要特征数据。
步骤5,组合约束条件。
采用放回抽样方法,从预处理后的数据对应的约束条件中,分2次抽取约束条件,列出2次抽取的约束条件的排列组合。
每种排列组合对应的约束条件的数据对应相乘后得到一个非线性约束条件,计算出所有的非线性约束条件。
步骤6,筛选非线性约束条件。
运用K-means聚类方法对所有非线性约束条件实现聚类。
从每一个聚类中选择出一个距离聚类中心点距离最近的非线性约束条件。
将选择出的所有非线性约束条件对应的数据,按列合并,组成非线性约束条件数据集。
所述运用K-means聚类方法具体实现步骤如下:
第1步:确定样本间距离计算公式。考虑到各个约束条件的量纲以及分布不同对聚类结果的影响,因此采用标准化欧式距离,假设两个样本对象分别为x1=(x11,x12,…,x1d)和x2=(x21,x22,…,x2d),则它们的标准化欧式距离为:
Figure GDA0003125326140000101
其中:D表示两个样本的标准化欧式距离,
Figure GDA0003125326140000102
表示求平方根操作,sf为样本中第f个属性对应的标准差。
第2步:确定最佳聚类数目。把每个数据点与其最近的聚类中心的平方距离和作为数据集分类结果优劣的评估指标(VIS),取聚类数目r从2到10分别计算VIS;将所有VIS进行归一化,并运用箱线图法,按照从后向前的顺序依次判断每一个VIS是否为离群点,若首次检测出某一个VIS为离群点,该VIS对应的r加上1则为最佳聚类数目,若不存在离群点,则最佳聚类数目为10。
所述运用箱线图法,按照从后向前的顺序依次判断每一个VIS是否为离群点;首先计算所有VIS构成的数组的上四分位点Q1、下四分位点Q3、最小值VISmin、最大值VISmax;如果VIS小于下限,或大于上限,则该VIS为离群点;所述下限是由VISmin-1.5×(Q3-Q1)计算得到的,下限是由VISmax+1.5×(Q3-Q1)计算得到的。
第3步:根据标准化欧式距离和最佳聚类数据,对所有非线性约束条件对应的数据进行聚类处理,并确定每个聚类的中心点。
第4步:运用标准化欧式距离计算公式,分别计算每一个聚类类别中的所有非线性约束条件与该聚类中心点的欧式距离,依次选择出每一个聚类类别中欧式距离最小的非线性约束条。
第5步:将选择出的所有非线性约束条件对应的数据,按列合并,组成非线性约束条件数据集。
步骤7,随机选择组合约束条件。
将线性约束条件数据集和非线性约束条件数据集,按列合并,组成组合约束条件数据集。
统计组合约束条件的总数,用0表示不选中组合约束条件,用1表示选中组合约束条件,将选中的组合约束条件对应的数据,按列合并,组成随机组合约束条件数据集。
所述用用0表示不选中组合约束条件,用1表示选中组合约束条件的具体实现步骤如下:
第1步:统计组合约束条件的总数,记为m。
第2步:生成m个0或1的随机数,记为Q。Q中的第v(1≤v≤m,v为正整数)个位置对应的数,若是0,表示不选中第v个组合约束条件,若是1,表示选中第v个组合约束条件。
第3步:将选中的组合约束条件对应的数据,按列合并,组成随机组合约束条件数据集。
步骤8,误差分析。
将随机组合约束条件数据集、重要约束条件数据集与工期数据,按列合并,并将合并后的数据按照3:1的比例随机划分为训练数据和测试数据。
运用最小二乘法,利用训练数据建立预测工期的多元线性回归模型。
将测试数据除工期外的数据输入多元线性回归模型,输出工期预测数据。
运用相对均方根误差公式计算工期预测数据与测试数据里的工期数据的误差值。
将本步骤中所有的步骤重复10次,计算10次误差的平均值。
所述相对均方根误差公式如下所示:
Figure GDA0003125326140000121
其中:R表示工期预测数据与测试数据里的工期数据的误差值,n表示测试数据的总数,yi表示第i次工业大数据产品工期的预测值,
Figure GDA0003125326140000122
表示第i次工业大数据产品工期的实际值。
步骤9,判定10次误差的平均值是否小于误差指标值,若是,则执行步骤10,否则,执行步骤7。
所述的误差指标值是运用误差估计公式计算得到的,误差估计公式如下所示:
Figure GDA0003125326140000123
Y2=10%
其中:Ti表示第i次工业大数据产品工期的计划值,| |表示取绝对值操作,若Y1<Y2,则误差指标值取为Y1,否则,取Y2
步骤10,输出结果。
输出多元线性回归模型的所有系数和对应的随机组合约束条件和重要约束条件,对所有系数的绝对值降序排列,依次得到对应的重要约束条件或随机组合约束条件的重要度。

Claims (7)

1.一种基于工业大数据产品工期的约束条件分析系统,其特征在于,该系统是在Spark大数据分析平台上构建的系统;该系统包括数据存储模块、数据预处理模块、模型训练模块、产品工期约束条件重要度输出模块;其中:
所述的数据存储模块,用于存储产品的订单数据、原料采购数据、加工过程数据、产品工艺评价数据、生产过程机器工作状态数据、机器故障停机数据、工作人员工作记录数据以及工期数据;
所述的数据预处理模块用于对数据存储模块中的数据缺失的部分进行平均数填充处理,采用3σ原则进行异常值剔除处理,将数据存储模块中的数据除工期数据外的剩余数据进行归一化处理,得到预处理数据;
所述的模型训练模块包括随机森林重要度约束条件筛选模型、主成分特征提取模型、约束条件组合模型、K-means聚类方法筛选非线性约束条件模型、约束条件随机选择模型、误差分析模型;其中:随机森林重要度约束条件筛选模型,用于对约束条件进行筛选,得到重要约束条件数据集;主成分特征提取模型,用于提取预处理后的数据的主要特征,得到线性约束条件数据集;约束条件组合模型,用于将预处理后的数据对应的约束条件进行组合,得到所有的非线性约束条件;K-means聚类方法筛选组合约束条件模型,用于筛选非线性约束条件,得到非线性约束条件数据集;约束条件随机选择模型,用于随机选择线性约束条件数据集和非线性约束条件数据集组成的组合约束条件数据集,得到随机组合约束条件数据集;误差分析模型,用于计算产品的预测工期与实际工期的误差值;
所述的产品工期约束条件重要度输出模块,将模型训练模块得到的多元线性回归的所有系数和对应的随机组合约束条件或重要约束条件,对所有系数的绝对值降序排列,依次得到对应的重要约束条件或随机组合约束条件的重要度,并且将结果保存到HDFS分布式文件系统并封装成Spark平台上的接口,以API的形式提供应用链接。
2.一种基于工业大数据产品工期的约束条件分析方法,其特征在于,该方法是在工业大数据产品工期的约束条件分析系统上,利用产品在工业中长期积累产生的大量数据,对产品工期的约束条件进行分析,具体步骤包括如下:
(1)构建原始数据表:
收集离散制造型产品在工业中长期积累产生的大量数据,将收集到的数据根据加工批次顺序合并,构建一个原始数据表;
(2)对数据进行预处理:
(2a)对原始数据表中数据缺失的部分进行平均数填充处理,采用3σ原则进行异常值剔除处理,得到待处理数据;
(2b)将待处理数据中除工期数据外的剩余数据进行归一化处理,得到预处理后的数据;
(3)组成重要约束条件数据集:
(3a)在[0,1]的范围内设定随机森林重要度得分的阈值;
(3b)利用随机森林重要度分析法,计算每个约束条件的重要度得分;
(3c)对所有重要度得分的绝对值按照降序排列,将排第一的重要度得分的绝对值对应的约束条件筛选出来,并从所有的约束条件中删除该约束条件;
(3d)判断排列第一的重要度得分的绝对值是否小于阈值,若是,则执行步骤(3e),否则,执行步骤(3b);
(3e)将所有筛选出的约束条件对应的数据,按列合并,组成重要约束条件数据集;
(4)提取约束条件特征:
利用主成分分析方法,提取预处理后数据中的主要特征,将每一个主要特征对应的数据组合成一个线性约束条件,将所有线性约束条件数据,按列合并,组成线性约束条件数据集;
(5)组合约束条件:
(5a)采用放回抽样方法,从预处理后的数据对应的约束条件中,分2次抽取约束条件,列出2次抽取的约束条件的排列组合;
(5b)每种排列组合对应的约束条件的数据对应相乘后得到一个非线性约束条件,计算出所有的非线性约束条件;
(6)筛选非线性约束条件:
(6a)运用K-means聚类方法,对所有非线性约束条件进行聚类处理;
(6b)从每一个聚类中选择出一个距离聚类中心点距离最近的非线性约束条件;
(6c)将选择出的所有非线性约束条件对应的数据,按列合并,组成非线性约束条件数据集;
(7)随机选择组合约束条件:
(7a)将线性约束条件数据集和非线性约束条件数据集,按列合并,组成组合约束条件数据集;
(7b)统计组合约束条件的总数,用0表示不选中组合约束条件,用1表示选中组合约束条件,将选中的组合约束条件对应的数据,按列合并,组成随机组合约束条件数据集;
(8)误差分析:
(8a)将随机组合约束条件数据集、重要约束条件数据集与工期数据,按列合并,并将合并后的数据按照3:1的比例随机划分为训练数据和测试数据;
(8b)运用最小二乘法,利用训练数据建立预测工期的多元线性回归模型;
(8c)将测试数据除工期外的数据输入多元线性回归模型,输出工期的预测值;
(8d)运用相对均方根误差公式,计算工期预测数据与测试数据里的工期数据的误差值;
(8e)将步骤(8a)、步骤(8b)、步骤(8c)、步骤(8d)重复10次,计算10次误差的平均值;
(9)判定10次误差的平均值是否小于误差指标值,若是,则执行步骤(10),否则,执行步骤(7);
(10)输出结果:
输出多元线性回归模型的所有系数和对应的随机组合约束条件和重要约束条件,对所有系数的绝对值降序排列,依次得到对应的重要约束条件或随机组合约束条件的重要度。
3.根据权利要求2所述的基于工业大数据产品工期的约束条件分析方法,其特征在于:步骤(1)中所述离散制造型产品在工业中长期积累产生的大量数据包括,产品订单数据、原料采购数据、加工过程数据、产品工艺评价数据、生产过程机器工作状态数据、机器故障停机数据、工作人员工作记录数据以及工期数据。
4.根据权利要求2所述的基于工业大数据产品工期的约束条件分析方法,其特征在于:步骤(2a)中所述采用3σ原则进行异常值剔除处理的具体步骤如下:
第一步,分别计算原始数据表的每一列数据的平均值u和方差σ;
第二步,按照列和行的顺序,依次从原始数据表中选取一个数据;
第三步,删除所选取数据中小于该列的最小三西格玛值,或大于该列的最大三西格玛的数据,在原始数据表所在位置的整行数据;所述最小三西格玛值是由u-3σ计算得到的,最大三西格玛值是由u+3σ计算得到的。
5.根据权利要求2所述的基于工业大数据产品工期的约束条件分析方法,其特征在于:步骤(3b)中所述的约束条件是指,在原始数据表中,除工期数据外的所有剩余数据中的每一列数据构成一个约束条件。
6.根据权利要求2所述的基于工业大数据产品工期的约束条件分析方法,其特征在于:步骤(8d)中所述的相对均方根误差公式如下:
Figure FDA0003125326130000041
其中:R表示工期预测数据与测试数据里的工期数据的误差值,
Figure FDA0003125326130000042
表示求平方根操作,n表示测试数据的总数,∑表示累计求和操作,yi表示第i次工业大数据产品工期的预测值,
Figure FDA0003125326130000043
表示第i次工业大数据产品工期的实际值。
7.根据权利要求2所述的基于工业大数据产品工期的约束条件分析方法,其特征在于:步骤(9)所述的误差指标值是由下式得到的:
Figure FDA0003125326130000051
Y2=10%
其中:Ti表示第i次工业大数据产品工期的计划值,||表示取绝对值操作,若Y1<Y2,则误差指标值取为Y1,否则,取Y2
CN201810086663.8A 2018-01-30 2018-01-30 基于工业大数据产品工期的约束条件分析系统与方法 Active CN108491991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810086663.8A CN108491991B (zh) 2018-01-30 2018-01-30 基于工业大数据产品工期的约束条件分析系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810086663.8A CN108491991B (zh) 2018-01-30 2018-01-30 基于工业大数据产品工期的约束条件分析系统与方法

Publications (2)

Publication Number Publication Date
CN108491991A CN108491991A (zh) 2018-09-04
CN108491991B true CN108491991B (zh) 2021-08-06

Family

ID=63343882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810086663.8A Active CN108491991B (zh) 2018-01-30 2018-01-30 基于工业大数据产品工期的约束条件分析系统与方法

Country Status (1)

Country Link
CN (1) CN108491991B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109709916B (zh) * 2018-12-20 2019-09-20 宁波大学 一种基于Gibbs取样法的调度方法
CN109597968B (zh) * 2018-12-29 2021-06-08 西安电子科技大学 基于smt大数据的锡膏印刷性能影响因素分析方法
CN110352832A (zh) * 2019-05-14 2019-10-22 青岛农业大学 基于Spark的MLR模型红富士苹果树精准灌溉方法
CN112446534B (zh) * 2020-11-09 2022-06-17 国网福建省电力有限公司 一种输变电工程的建设工期预测方法和装置
CN113256066B (zh) * 2021-04-23 2022-05-06 新疆大学 基于PCA-XGBoost-IRF的作业车间实时调度方法
CN117875942A (zh) * 2024-01-25 2024-04-12 西安科技大学 一种巷道支护系统的选择性维护方法、装置、设备及介质
CN117952658B (zh) * 2024-03-26 2024-06-14 江西省科技事务中心 基于大数据的城市资源配置和产业特色分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820872A (zh) * 2015-05-06 2015-08-05 华北电力大学 工程项目中利用潜在反关键工序进行项目工期优化的方法
CN106875056A (zh) * 2017-02-17 2017-06-20 国网天津市电力公司 一种基于混合整数规划的计量装置生产计划优化方法
CN107451666A (zh) * 2017-07-15 2017-12-08 西安电子科技大学 基于大数据分析的断路器装配质量问题追溯系统和方法
CN107464025A (zh) * 2017-08-25 2017-12-12 智脑智能科技(苏州)有限公司 基于大数据的供应链需求预测与智能决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140188566A1 (en) * 2012-12-27 2014-07-03 International Business Machines Corporation Automated generation of new work products and work plans

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820872A (zh) * 2015-05-06 2015-08-05 华北电力大学 工程项目中利用潜在反关键工序进行项目工期优化的方法
CN106875056A (zh) * 2017-02-17 2017-06-20 国网天津市电力公司 一种基于混合整数规划的计量装置生产计划优化方法
CN107451666A (zh) * 2017-07-15 2017-12-08 西安电子科技大学 基于大数据分析的断路器装配质量问题追溯系统和方法
CN107464025A (zh) * 2017-08-25 2017-12-12 智脑智能科技(苏州)有限公司 基于大数据的供应链需求预测与智能决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IT项目进度计划风险量化预测方法;张丽君等;《计算机系统应用》;20131215(第12期);全文 *

Also Published As

Publication number Publication date
CN108491991A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108491991B (zh) 基于工业大数据产品工期的约束条件分析系统与方法
CN108345544B (zh) 一种基于复杂网络的软件缺陷分布影响因素分析方法
CN109101632A (zh) 基于制造大数据的产品质量异常数据追溯分析方法
CN115641162A (zh) 一种基于建筑工程造价的预测数据分析系统和方法
Chen et al. Extracting performance rules of suppliers in the manufacturing industry: an empirical study
US20210397956A1 (en) Activity level measurement using deep learning and machine learning
CN116485020B (zh) 一种基于大数据的供应链风险识别预警方法、系统及介质
WO2020166236A1 (ja) 作業効率評価方法、作業効率評価装置、及びプログラム
CN113672506B (zh) 基于机器学习的动态比例测试用例排序选择方法及系统
CN115269958A (zh) 互联网可靠性数据信息采集分析系统
Brzozowska et al. Data engineering in CRISP-DM process production data–case study
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN103268329A (zh) 等离子显示屏制造过程数据挖掘系统
CN117763316A (zh) 一种基于机器学习的高维数据降维方法及降维系统
Trzcionkowska et al. Practical aspects of event logs creation for industrial process modelling
CN116304814A (zh) 一种基于分类算法的监测对象工况分析方法和系统
CN113393169B (zh) 基于大数据技术的金融行业交易系统性能指标分析方法
CN115686995A (zh) 一种数据监控处理方法及装置
CN118114170B (zh) 板件生产线智能运维管控方法、控制系统及板件生产线
CN118550573B (zh) It运维管理方法及it运维管理装置
CN118586782A (zh) 一种基于质量管理决策系统的数理统计分析方法
Canlı et al. Implementation of Decision Support System with Data Mining Methods in the Quality Control Process of the Automotive Sector
CN118295901A (zh) App成熟度评估方法、装置、设备及存储介质
CN118469331A (zh) 一种基于深度学习的数字化建设项目的评估方法
Torres et al. A Designing Databases Framework for AI Training in Industrial Predictive Maintenance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Chang Jiantao

Inventor after: Kong Xianguang

Inventor after: Luo Caiwen

Inventor before: Chang Jiantao

Inventor before: Kong Xianguang

Inventor before: Lin Songtao

Inventor before: Luo Caiwen

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20230719

Address after: East side of 1st floor, Building 6, Ruiyun, No. 99 Furong Middle Third Road, Xishan District, Wuxi City, Jiangsu Province, 214191

Patentee after: Wuxi Qigong Data Technology Co.,Ltd.

Address before: 710071 Taibai South Road, Yanta District, Xi'an, Shaanxi Province, No. 2

Patentee before: XIDIAN University

TR01 Transfer of patent right