CN112785377B - 基于数据分布的订单完工期预测模型构建方法及预测方法 - Google Patents

基于数据分布的订单完工期预测模型构建方法及预测方法 Download PDF

Info

Publication number
CN112785377B
CN112785377B CN202110086992.4A CN202110086992A CN112785377B CN 112785377 B CN112785377 B CN 112785377B CN 202110086992 A CN202110086992 A CN 202110086992A CN 112785377 B CN112785377 B CN 112785377B
Authority
CN
China
Prior art keywords
sample
order
training sample
training
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110086992.4A
Other languages
English (en)
Other versions
CN112785377A (zh
Inventor
罗家祥
邓炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110086992.4A priority Critical patent/CN112785377B/zh
Publication of CN112785377A publication Critical patent/CN112785377A/zh
Application granted granted Critical
Publication of CN112785377B publication Critical patent/CN112785377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据分布的订单完工期预测模型构建方法及预测方法,通过历史订单构建训练样本集,获取训练样本标签及特征;基于订单类型,将训练样本集划分为多个子集,针对各子集绘制标签的概率密度曲线;构建两级级联随机树模型,由训练样本训练第一级联随机树模型,得到分类结果和概率值;基于训练样本订单类型对应子集的概率密度曲线,结合训练样本分类结果和概率值,得到增强特征;最终将训练样本的特征与其增强特征结合,得到训练样本的新特征;通过训练样本的新特征和标签对第二级联随机树模型进行训练。本发明基于两级级联随机树模型能够有效缓解离散装配车间订单数据特征少、特征表达能力弱的问题,提高了订单完工期预测的精度。

Description

基于数据分布的订单完工期预测模型构建方法及预测方法
技术领域
本发明涉及离散制造业生产经营管理技术,特别涉及一种基于数据分布的订单完工期预测模型构建方法及预测方法。
背景技术
离散制造业在推动各国科技生产力和国民经济发展中发挥至关重要的作用。作为典型的离散制造业,装配制造是根据订单要求将多种零件组装成整体部件或装备产品的过程,其中准确预测订单完工期关系到制造企业能否有利于保证产品按客户要求准时交货,对提高装配制造企业竞争力具有重要意义。因此,准确地预测订单完工期是企业亟待解决的关键问题。
目前,传统的订单完工期预测方法主要有:
1)、案例推理法,通过在历史订单中寻找与当前订单案例相似的案例历史案例,将历史相似案例的解决经验或结果重新应用到当前案例订单中,进而得到预测的订单完工期。这种方法需要十分了解车间的加工流程以及相关的专家经验,学习成本太高。
2)、数学仿真法,通过建立车间加工过程的仿真模型,并且加入随机因素来模拟真实车间可能存在的不确定因素,进而预测得到订单完工期的范围。这种方法简化了订单加工的过程,不能有效的反映真实情况。
3)、机器学习法,搭建单一的订单完工期预测模型,利用历史数据训练模型,再用训练好的模型预测新订单的订单完工期。但是单一的模型不能很好的处理具有数据量少、特征表达能力低、存在记录误差等特点的数据,从而使得模型的预测准确率不高。
由于离散装配车间的生产加工环境较为复杂,存在诸多不确定因素,包括零件库存不足、外包加工延期、产品检测不合格返工重新生产、生产调度计划临时变动等,这些不确定因素会影响到订单的生产流程,但又不会显性的在数据中呈现;同时离散装配车间采集的订单数据具有量级小、特征表达能力低、存在人工记录误差的特点,因此传统的订单完工期预测方法不能满足离散装配车间实际生产的需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于数据分布的级联随机树订单完工期预测模型构建方法,该方法构建的预测模型能够有效提高订单完工期的预测精度,并且有效缓解了离散装配车间订单数据特征少、特征表达能力弱的问题。
本发明的第二目的在于提供一种订单完工期预测方法。
本发明的第三目的在于提供一种存储介质。
本发明的第四目的在于提供一种计算设备。
本发明的第一目的通过下述技术方案实现:一种基于数据分布的订单完工期预测模型构建方法,步骤包括:
获取离散装配车间中已完成的历史订单,构建得到训练样本集,并且获取各训练样本的订单完工期,作为标签;
基于历史订单数据提取训练样本的候选特征,对候选特征进行预处理,得到预处理后的特征;
根据订单类型,将训练样本集划分为多个子集,根据各子集中训练样本对应的标签,针对各子集分别绘制标签的概率密度曲线;其中一种订单类型对应一个子集;
构建两级级联随机树模型,分别为第一级联随机树模型和第二级联随机树模型,进行以下训练,得到订单完工期预测模型:
将各训练样本预处理后的特征作为第一级联随机树模型的输入对第一级联随机树模型进行训练,通过训练后的第一级联随机树模型,输出各训练样本对应的分类结果和概率值;
获取各训练样本订单类型对应子集的概率密度曲线,由该概率密度曲线结合上述训练样本的分类结果和概率值,获取到各训练样本的增强特征;
将各训练样本预处理后的特征与其增强特征结合,得到训练样本的新特征;
基于训练样本的新特征和标签对第二级联随机树模型进行训练,得到训练后的第二级联随机树模型。
优选的,提取到的训练样本的候选特征CFS为:
CFS=[M;P;PR];
其中:
M为订单描述信息,包括订单类型Mk、物料组成Mm和加工数量Mn
P为生产计划信息,包括计划下达时间Pstart、计划完工时间Pend、订单优先级Pp和订单开始生产日期Pd
PR为加工流程信息,包括加工工序PRwp和加工工时PRt
优选的,对训练样本的候选特征进行预处理的过程包括:剔除异常数据、连续型特征归一化以及离散型特征编码化。
优选的,针对于各子集,根据各训练样本的标签,通过核密度公式计算对应的概率密度,然后基于各训练样本标签对应的概率密度绘制概率密度曲线;
Figure BDA0002911097680000031
其中,N为子集中训练样本的总数,xj为子集中第j个训练样本的标签,xi为子集中第i个训练样本的标签,fh(xj)为第j个训练样本的标签xj对应的概率密度,h为带宽,K为高斯核函数。
优选的,由该概率密度曲线结合训练样本的分类结果和概率值,获取到各训练样本的增强特征为:
Figure BDA0002911097680000032
A(Yi,Fi)=argmin(|Crj-Yi|);
其中:
T为预测概率阈值;
A为结果优化函数;
Yi为第i个训练样本的分类结果,Pi为第i个训练样本的概率值;
Fi为第i个训练样本订单类型对应子集的概率密度曲线;
Crj表示概率密度曲线Fi中第j个波峰对应的样本标签;
|Crj-Yi|表示Yi与概率密度曲线Fi中第j个波峰对应训练样本标签所在坐标的距离;
Fei为第i个训练样本的增强特征。
本发明的第二目的通过下述技术方案实现:一种基于本发明第一目的所述的预测模型构建方法实现的订单完工期预测方法,步骤包括:
针对于离散装配车间需要预测订单完工期的订单,将其作为待测样本;
基于订单数据提取待测样本的候选特征,对候选特征进行预处理,得到预处理后的特征;
将待测样本的预处理后的特征输入到训练后的第一级联随机树模型,得到待测样本的分类结果和概率值;
获取待测样本订单类型对应子集的概率密度曲线,由该概率密度曲线结合上述待测样本的分类结果和概率值,获取到待测样本的增强特征;
将各待测样本预处理后的特征与其增强特征结合,得到待测样本的新特征;
将待测样本的新特征输入到训练后的第二级联随机树模型,得到待测样本的最终分类结果。
优选的,待测样本的候选特征包括订单描述信息、生产计划信息和加工流程信息;
待测样本候选特征的预处理过程包括:连续型特征归一化以及离散型特征编码化。
优选的,由概率密度曲线结合待测样本的分类结果和概率值,获取到待测样本的增强特征;为:
Figure BDA0002911097680000041
A(y′,F′)=argmin(|Cr′j-y′|);
其中:
T为预测概率阈值;
A为结果优化函数;
y′为待测样本的分类结果,p′为待测样本的概率值;
F′为待测样本订单类型对应子集的概率密度曲线;
Cr′j表示概率密度曲线F′中第j个波峰对应的样本标签;
|Cr′j-y′|表示Yi与概率密度曲线F′中第j个波峰对应训练样本标签所在坐标的距离;
Fe′为待测样本的增强特征。
本发明的第三目的通过以下技术方案实现:一种存储介质,存储有程序,所述程序被处理器执行时,实现本发明第一目的所述的基于数据分布的订单完工期预测模型构建方法,和/或本发明第二目的任一项所述的订单完工期预测方法。
本发明的第四目的通过以下技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的基于数据分布的订单完工期预测模型构建方法,和/或实现本发明第二目的所述的订单完工期预测方法。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明基于数据分布的订单完工期预测模型构建方法,首先通过历史订单构建得到训练样本集,获取各训练样本的标签(对应订单完工期)以及特征;接着基于订单类型,将训练样本集划分为多个子集,针对各子集分别绘制标签(订单完工期)的概率密度曲线;构建两级级联随机树模型,基于训练样本训练第一级联随机树模型,得到各训练样本的分类结果和概率值;基于各训练样本订单类型对应子集的概率密度曲线,结合训练样本上述的分类结果和概率值,获取到训练样本的增强特征;最终将各训练样本的特征与其增强特征结合,得到训练样本的新特征;通过训练样本的新特征和标签对第二级联随机树模型进行训练,得到训练后的第二级联随机树模型。基于上述内容,本发明训练得到第一级联随机树模型和第二级联随机树模型构成了订单完工期预测模型,基于两级级联随机树模型能够有效缓解离散装配车间订单数据特征少、特征表达能力弱的问题,提高了订单完工期预测的精度。
(2)本发明基于数据分布的订单完工期预测模型构建方法中,基于不同订单类型将训练样本集划分为多个子集,并且基于子集中各训练样本的标签(即订单完工期)绘制得到各子集的概率密度曲线,基于概率密度曲线,结合训练样本通过第一级联随机树模型的分类结果和概率值得到增强特征,最终基于增强特征和训练样本特征结合后的新特征来训练第二级联随机树模型;可见本发明方法通过分析不同订单类型的订单完工期分布特性,并且将数据的分布特性融合到预测模型中,有效的改善了记录误差带来的负面影响,提高了模型的预测准确率。
(3)本发明基于数据分布的订单完工期预测模型构建方法中,利用历史订单数据来训练模型,能够发挥历史数据的价值,使得历史数据得以传承。并且构建的模型结构较为简单,底层子模型为随机树模型,有较强的可解释性,符合离散制造企业的实际生产需求。
(4)本发明订单完工期预测方法为基于本发明预测模型构建方法实现,在预测过程中,利用了训练后的两级级联随机树模型,并且结合了待测样本订单类型对应子集的概率密度曲线实现订单完工期的预测,有效提高了待测样本订单完工期的预测精度,该方法利用数据的分布特性来降低记录误差等不确定因素的负面影响,克服了现有技术中离散装配车间采集的订单数据量级小、特征表达能力低、存在人工记录误差所导致的预测精度低的技术问题。
附图说明
图1是离散装配车间订单加工流程。
图2是本发明订单完工期预测模型构建方法中得到的概率密度曲线图。
图3是本发明中基于数据分布的级联随机树模型结构。
图4是本发明订单完工期预测模型构建方法流程图。
图5是本发明订单完工期预测方法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例公开了一种基于数据分布的订单完工期预测模型构建方法,步骤包括:
S1、获取离散装配车间中已完成的历史订单,构建得到训练样本集,并且获取各训练样本的订单完工期,作为标签。
离散装配车间的订单加工流程如图1所示,订单完工期表示从生成订单到完成订单的这段时间。本实施例中,收集一段时间内离散装配车间中已完成的历史订单,作为训练样本,用订单的完成日期减去订单的开始日期,得到的值作为订单完工期。
S2、基于历史订单数据提取训练样本的候选特征,对候选特征进行预处理,得到预处理后的特征。
本实施例中,训练样本的候选特征CFS为:
CFS=[M;P;PR];
其中:
M为订单描述信息,包括订单类型Mk、物料组成Mm和加工数量Mn,M可表示为:
M=[Mk,Mm,Mn];
P为生产计划信息,包括计划下达时间Pstart、计划完工时间Pend、订单优先级Pp和订单开始生产日期Pd,P可表示为:
P=[Pstart,Pend,Pp,Pd];
PR为加工流程信息,包括加工工序PRwp和加工工时PRt,PR可表示为:
PR=[PRwp,PRt]。
本实施例中,对训练样本的候选特征进行预处理的过程包括:
剔除异常数据:本实施例,可以根据企业提供的先验知识,订单完工期超过一定范围的视为异常数据,原因包括人为记录误差、客户延期交接等。
连续型特征归一化:具体为,将数据按比例缩放,使之落入一个小的特定区间,消除指标之间量纲影响,加快模型的收敛速度,选用最大最小归一化方法对连续型特征进行线性变化:
Figure BDA0002911097680000071
其中:
Figure BDA0002911097680000072
表示归一化后的特征值;
x表示原特征值;
xmin表示同一特征下的最小值;
xmax表示同一特征下的最大值;
离散型特征编码化:具体为,对于特征类别值较多的离散型特征,采用序列化方法进行编码,对于特征类别值较少的离散型特征,采用One-Hot方法进行编码。
S3、根据训练样本订单类型ti,将训练样本集划分为I个子集Si,其中一种订单类型对应一个子集,相同订单类型的训练样本组合成一个子集;根据各子集中训练样本对应的标签,针对各子集分别绘制标签的概率密度曲线。
本实施例中订单类型包括制造磨边机、打蜡机、磨边机半成品、抛光机等设备或产品的订单类型。
在本实施例中,针对于各子集,根据各子集中各训练样本的标签,通过核密度公式计算对应的概率密度,然后基于各训练样本标签对应的概率密度绘制概率密度曲线,绘制的概率密度曲线如图2中所示,横坐标为训练样本的标签,对应训练样本的订单完工期,纵坐标为概率密度,其中:
Figure BDA0002911097680000081
其中,N为子集中训练样本的总数,xj为子集中第j个训练样本的标签,xi为子集中第i个训练样本的标签,fh(xj)为第j个训练样本的标签xj对应的概率密度,h为带宽,K为高斯核函数。
S4、构建两级级联随机树模型,分别为第一级联随机树模型CAS1和第二级联随机树模型CAS2,每级随机树模型由两个子模型并行组成,分别为随机森林和极端随机树,每级随机树模型的输出结果由两个子模型根据相对多数投票法来决定;
Figure BDA0002911097680000082
其中:
H表示每级模型的输出结果;
Figure BDA0002911097680000083
表示相对多数投票算法;
f1表示随机森林的分类结果;
f2表示极端随机树的分类结果。
本实施例中,两级级联随机树模型通过如图3和4中所示的训练,得到订单完工期预测模型,其中传统意义上订单完工期预测被视为回归问题,但对于离散装配车间来说,订单完工期的单位为“天”,是一个整数值,并且在正常情况下订单完工期是在一定范围内的,本实施例将离散装配车间的订单完工期预测视为分类问题,提高预测的准确率。
本实施例中,两级级联随机树模型训练的具体过程如下:
S41、将各训练样本预处理后的特征Xi作为第一级联随机树模型的输入,利用k折交叉法对第一级联随机树模型进行训练,通过训练后的第一级联随机树模型,输出各训练样本对应的分类结果Yi和概率值Pi;其中图3中,X为各训练样本的特征集合,Y为各训练样本标签的集合。
S42、获取各训练样本订单类型ti对应子集的概率密度曲线Fi,由该概率密度曲线Fi结合上述训练样本的分类结果Yi和概率值Pi,获取到各训练样本的增强特征:
Figure BDA0002911097680000091
A(Yi,Fi)=argmin(|Crj-Yi|);
其中:
T为预测概率阈值;
A为结果优化函数;
Yi为第i个训练样本的分类结果,Pi为第i个训练样本的概率值;
Fi为第i个训练样本订单类型对应子集的概率密度曲线;
Crj表示概率密度曲线Fi中第j个波峰对应的样本标签,对应为样本的订单完工期,在本实施例中,从概率密度曲线Fi中得到一个或多个局部波峰对应的样本标签(订单完工期),如图2中所示为概率密度曲线中波峰对应的横坐标,如图2中所示的概率密度曲线包括波峰A和波峰B。
|Crj-Yi|表示Yi与概率密度曲线Fi中第j个波峰对应训练样本标签所在坐标的距离,基于图2,|Crj-Yi|表示Yi与概率密度曲线Fi中第j个波峰横坐标的距离。
A(Yi,Fi)表示概率密度曲线Fi中与Yi距离最小的波峰所对应的训练样本的标签(订单完工期),基于图2,A(Yi,Fi)表示为与Yi距离最小的波峰所对应的横坐标值。
Fei为第i个训练样本的增强特征。
S43、将各训练样本Xi预处理后的特征与其增强特征Fei结合,得到训练样本的新特征;图3和4中Fe为各训练训练样本的增强特征Fei的集合,Fei={Fe1,Fe2,…,Fen},n训练样本的总数。其中{[X,Fe],Y}即为所有训练样本的增强特征Fei和训练样本集对应的特征集合以标签拼接形成的新特征集。
S44、基于训练样本的新特征和标签对第二级联随机树模型CAS2进行训练,得到训练后的第二级联随机树模型CAS2
本实施例基于上述步骤S4训练得到第一级联随机树模型CAS1和第二级联随机树模型CAS2构成了订单完工期预测模型,基于两级级联随机树模型能够有效缓解离散装配车间订单数据特征少、特征表达能力弱的问题,提高了订单完工期预测的精度。另外,在本实施例上述方法中,基于不同订单类型将训练样本集划分为多个子集,并且基于子集中各训练样本的标签(即订单完工期)绘制得到各子集的概率密度曲线,基于概率密度曲线,结合训练样本通过第一级联随机树模型的分类结果和概率值得到增强特征,最终基于增强特征和训练样本特征结合后的新特征来训练第二级联随机树模型。因此本实施例方法通过分析不同订单类型的订单完工期分布特性,并且将数据的分布特性融合到预测模型中,有效的改善了记录误差带来的负面影响,提高了模型的预测准确率。
本领域技术人员可以理解,实现本实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。应当注意,尽管在附图中以特定顺序描述了本实施例1的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序,有些步骤也可以同时执行,附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2
本实施例公开了一种基于实施例1所述的预测模型构建方法实现的订单完工期预测方法,如图5中所示,具体步骤包括:
Sa、针对于离散装配车间需要预测订单完工期的订单,将其作为待测样本。
Sb、基于订单数据提取待测样本的候选特征,对候选特征进行预处理,得到预处理后的特征x′。
在本实施例中,如实施例1中所示,待测样本的候选特征包括订单描述信息M、生产计划信息P和加工流程信息PR,其中,订单描述信息M包括订单类型Mk、物料组成Mm和加工数量Mn;生产计划信息P包括计划下达时间Pstart、计划完工时间Pend、订单优先级Pp和订单开始生产日期Pd;加工流程信息PR,包括加工工序PRwp和加工工时PRt
本实施例中,待测样本候选特征的预处理过程包括:连续型特征归一化以及离散型特征编码化,各部分具体的操作过程见实施例1。
Sc、将待测样本的预处理后的特征输入到训练后的第一级联随机树模型CAS1,得到待测样本的分类结果和概率值。
在本实施例中,由概率密度曲线结合待测样本的分类结果和概率值,获取到待测样本的增强特征;为:
Figure BDA0002911097680000111
A(y′,F′)=argmin(|Cr′j-y′|);
其中:
T为预测概率阈值;
A为结果优化函数;
y′为第一级联随机树模型输出的待测样本的分类结果,p′为第一级联随机树模型输出的待测样本的概率值;
F′为待测样本订单类型对应子集的概率密度曲线;
Cr′j表示概率密度曲线F′中第j个波峰对应的样本标签;
|Cr′j-y′|表示Yi与概率密度曲线F′中第j个波峰对应样本标签所在坐标的距离;
Fe′为待测样本的增强特征。
A(y′,F′)表示概率密度曲线F′中与y′距离最小的波峰所对应的样本的标签(订单完工期),基于图2,A(y′,F′)表示为与y′距离最小的波峰所对应的横坐标值。
Sd、获取待测样本订单类型对应子集的概率密度曲线,由该概率密度曲线结合上述待测样本的分类结果和概率值,获取到待测样本的增强特征。
即在本步骤中,首先确定待测样本的订单类型,获取按照该订单类型划分到的子集。
Se、将各待测样本预处理后的特征与其增强特征结合,得到待测样本的新特征;
Sf、将待测样本的新特征输入到训练后的第二级联随机树模型CAS2,得到待测样本的最终分类结果,即得到待测样本的订单完工期。
实施例3
本实施例公开了一种存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的基于数据分布的订单完工期预测模型构建方法,和/或实现实施例2所述的订单完工期预测方法,其中:
实现实施例1所述的基于数据分布的订单完工期预测模型构建方法为:
获取离散装配车间中已完成的历史订单,构建得到训练样本集,并且获取各训练样本的订单完工期,作为标签;
基于历史订单数据提取训练样本的候选特征,对候选特征进行预处理,得到预处理后的特征;
根据订单类型,将训练样本集划分为多个子集,根据各子集中训练样本对应的标签针,对各子集分别绘制标签的概率密度曲线;其中一种订单类型对应一个子集;
构建两级级联随机树模型,分别为第一级联随机树模型和第二级联随机树模型,进行以下训练,得到订单完工期预测模型:
将各训练样本预处理后的特征作为第一级联随机树模型的输入对第一级联随机树模型进行训练,通过训练后的第一级联随机树模型,输出各训练样本对应的分类结果和概率值;
获取各训练样本订单类型对应子集的概率密度曲线,由该概率密度曲线结合上述训练样本的分类结果和概率值,获取到各训练样本的增强特征;
将各训练样本预处理后的特征与其增强特征结合,得到训练样本的新特征;
基于训练样本的新特征和标签对第二级联随机树模型进行训练,得到训练后的第二级联随机树模型。
实现实施例2所述的订单完工期预测方法为:
针对于离散装配车间需要预测订单完工期的订单,将其作为待测样本;
基于订单数据提取待测样本的候选特征,对候选特征进行预处理,得到预处理后的特征;
将待测样本的预处理后的特征输入到训练后的第一级联随机树模型,得到待测样本的分类结果和概率值;
获取待测样本订单类型对应子集的概率密度曲线,由该概率密度曲线结合上述待测样本的分类结果和概率值,获取到待测样本的增强特征;
将各待测样本预处理后的特征与其增强特征结合,得到待测样本的新特征;
将待测样本的新特征输入到训练后的第二级联随机树模型,得到待测样本的最终分类结果。
在本实施例中,存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例4
本实施例公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,处理器执行存储器存储的程序时,实现实施例1所述的基于数据分布的订单完工期预测模型构建方法,和/或实现实施例2中任一项所述的订单完工期预测方法;其中:
实现实施例1所述的基于数据分布的订单完工期预测模型构建方法为:
获取离散装配车间中已完成的历史订单,构建得到训练样本集,并且获取各训练样本的订单完工期,作为标签;
基于历史订单数据提取训练样本的候选特征,对候选特征进行预处理,得到预处理后的特征;
根据订单类型,将训练样本集划分为多个子集,根据各子集中训练样本对应的标签,针对各子集分别绘制标签的概率密度曲线;其中一种订单类型对应一个子集;
构建两级级联随机树模型,分别为第一级联随机树模型和第二级联随机树模型,进行以下训练,得到订单完工期预测模型:
将各训练样本预处理后的特征作为第一级联随机树模型的输入对第一级联随机树模型进行训练,通过训练后的第一级联随机树模型,输出各训练样本对应的分类结果和概率值;
获取各训练样本订单类型对应子集的概率密度曲线,由该概率密度曲线结合上述训练样本的分类结果和概率值,获取到各训练样本的增强特征;
将各训练样本预处理后的特征与其增强特征结合,得到训练样本的新特征;
基于训练样本的新特征和标签对第二级联随机树模型进行训练,得到训练后的第二级联随机树模型。
实现实施例2所述的订单完工期预测方法为:
针对于离散装配车间需要预测订单完工期的订单,将其作为待测样本;
基于订单数据提取待测样本的候选特征,对候选特征进行预处理,得到预处理后的特征;
将待测样本的预处理后的特征输入到训练后的第一级联随机树模型,得到待测样本的分类结果和概率值;
获取待测样本订单类型对应子集的概率密度曲线,由该概率密度曲线结合上述待测样本的分类结果和概率值,获取到待测样本的增强特征;
将各待测样本预处理后的特征与其增强特征结合,得到待测样本的新特征;
将待测样本的新特征输入到训练后的第二级联随机树模型,得到待测样本的最终分类结果。
本实施例中,计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑等终端设备。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于数据分布的订单完工期预测模型构建方法,其特征在于,步骤包括:
获取离散装配车间中已完成的历史订单,构建得到训练样本集,并且获取各训练样本的订单完工期,作为标签;
基于历史订单数据提取训练样本的候选特征,对候选特征进行预处理,得到预处理后的特征;
根据订单类型,将训练样本集划分为多个子集,根据各子集中训练样本对应的标签,针对各子集分别绘制标签的概率密度曲线;其中一种订单类型对应一个子集;
构建两级级联随机树模型,分别为第一级联随机树模型和第二级联随机树模型,每级随机树模型由两个子模型并行组成,分别为随机森林和极端随机树,每级随机树模型的输出结果由两个子模型根据相对多数投票法来决定;
Figure FDA0003510168190000011
其中:
H表示每级模型的输出结果;
Figure FDA0003510168190000012
表示相对多数投票算法;
f1表示随机森林的分类结果;
f2表示极端随机树的分类结果;
进行以下训练,得到订单完工期预测模型:
将各训练样本预处理后的特征作为第一级联随机树模型的输入对第一级联随机树模型进行训练,通过训练后的第一级联随机树模型,输出各训练样本对应的分类结果和概率值;
获取各训练样本订单类型对应子集的概率密度曲线,由该概率密度曲线结合上述训练样本的分类结果和概率值,获取到各训练样本的增强特征;
将各训练样本预处理后的特征与其增强特征结合,得到训练样本的新特征;
基于训练样本的新特征和标签对第二级联随机树模型进行训练,得到训练后的第二级联随机树模型。
2.根据权利要求1所述的基于数据分布的订单完工期预测模型构建方法,其特征在于,提取到的训练样本的候选特征CFS为:
CFS=[M;P;PR];
其中:
M为订单描述信息,包括订单类型Mk、物料组成Mm和加工数量Mn
P为生产计划信息,包括计划下达时间Pstart、计划完工时间Pend、订单优先级Pp和订单开始生产日期Pd
PR为加工流程信息,包括加工工序PRwp和加工工时PRt
3.根据权利要求1所述的基于数据分布的订单完工期预测模型构建方法,其特征在于,对训练样本的候选特征进行预处理的过程包括:剔除异常数据、连续型特征归一化以及离散型特征编码化。
4.根据权利要求1所述的基于数据分布的订单完工期预测模型构建方法,其特征在于,针对于各子集,根据各训练样本的标签,通过核密度公式计算对应的概率密度,然后基于各训练样本标签对应的概率密度绘制概率密度曲线;
Figure FDA0003510168190000021
其中,N为子集中训练样本的总数,xj为子集中第j个训练样本的标签,xi为子集中第i个训练样本的标签,fh(xj)为第j个训练样本的标签xj对应的概率密度,h为带宽,K为高斯核函数。
5.根据权利要求1所述的基于数据分布的订单完工期预测模型构建方法,其特征在于,由该概率密度曲线结合训练样本的分类结果和概率值,获取到各训练样本的增强特征为:
Figure FDA0003510168190000022
A(Yi,Fi)=argmin(|Crj-Yi|);
其中:
T为预测概率阈值;
A为结果优化函数;
Yi为第i个训练样本的分类结果,Pi为第i个训练样本的概率值;
Fi为第i个训练样本订单类型对应子集的概率密度曲线;
Crj表示概率密度曲线Fi中第j个波峰对应的样本标签;
|Crj-Yi|表示Yi与概率密度曲线Fi中第j个波峰对应训练样本标签所在坐标的距离;
Fei为第i个训练样本的增强特征。
6.一种基于权利要求1~5中任一项所述的预测模型构建方法实现的订单完工期预测方法,其特征在于,步骤包括:
针对于离散装配车间需要预测订单完工期的订单,将其作为待测样本;
基于订单数据提取待测样本的候选特征,对候选特征进行预处理,得到预处理后的特征;
将待测样本的预处理后的特征输入到训练后的第一级联随机树模型,得到待测样本的分类结果和概率值;
获取待测样本订单类型对应子集的概率密度曲线,由该概率密度曲线结合上述待测样本的分类结果和概率值,获取到待测样本的增强特征;
将各待测样本预处理后的特征与其增强特征结合,得到待测样本的新特征;
将待测样本的新特征输入到训练后的第二级联随机树模型,得到待测样本的最终分类结果。
7.根据权利要求6所述的订单完工期预测方法,其特征在于,待测样本的候选特征包括订单描述信息、生产计划信息和加工流程信息;
待测样本候选特征的预处理过程包括:连续型特征归一化以及离散型特征编码化。
8.根据权利要求6所述的订单完工期预测方法,其特征在于,由概率密度曲线结合待测样本的分类结果和概率值,获取到待测样本的增强特征;为:
Figure FDA0003510168190000031
A(y′,F′)=argmin(|Cr′j-y′|);
其中:
T为预测概率阈值;
A为结果优化函数;
y′为待测样本的分类结果,p′为待测样本的概率值;
F′为待测样本订单类型对应子集的概率密度曲线;
Cr′j表示概率密度曲线F′中第j个波峰对应的样本标签;
|Cr′j-y′|表示Yi与概率密度曲线F′中第j个波峰对应训练样本标签所在坐标的距离;
Fe′为待测样本的增强特征。
9.一种存储介质,其特征在于,存储有程序,所述程序被处理器执行时,实现权利要求1~5中任一项所述的基于数据分布的订单完工期预测模型构建方法,和/或实现权利要求6~8中任一项所述的订单完工期预测方法。
10.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1~5中任一项所述的基于数据分布的订单完工期预测模型构建方法,和/或实现权利要求6~8中任一项所述的订单完工期预测方法。
CN202110086992.4A 2021-01-22 2021-01-22 基于数据分布的订单完工期预测模型构建方法及预测方法 Active CN112785377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110086992.4A CN112785377B (zh) 2021-01-22 2021-01-22 基于数据分布的订单完工期预测模型构建方法及预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110086992.4A CN112785377B (zh) 2021-01-22 2021-01-22 基于数据分布的订单完工期预测模型构建方法及预测方法

Publications (2)

Publication Number Publication Date
CN112785377A CN112785377A (zh) 2021-05-11
CN112785377B true CN112785377B (zh) 2022-05-24

Family

ID=75758531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110086992.4A Active CN112785377B (zh) 2021-01-22 2021-01-22 基于数据分布的订单完工期预测模型构建方法及预测方法

Country Status (1)

Country Link
CN (1) CN112785377B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554483A (zh) * 2021-07-19 2021-10-26 浙江工企信息技术股份有限公司 一种订单全生命周期管理方法及系统
CN114742477B (zh) * 2022-06-09 2022-08-12 未来地图(深圳)智能科技有限公司 企业订单数据处理方法、装置、设备及存储介质
CN115034525B (zh) * 2022-08-11 2022-11-22 宝信软件(南京)有限公司 基于数据分析的钢管订单生产工期预测监管系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203325A (zh) * 2016-07-07 2016-12-07 燕山大学 基于增强级联多稳随机共振的微弱故障信号特征提取方法
CN107944369A (zh) * 2017-11-17 2018-04-20 大连大学 一种基于级联区域生成网络和增强随机森林的行人检测方法
CN110428426A (zh) * 2019-07-02 2019-11-08 温州医科大学 一种基于改进随机森林算法的mri图像自动分割方法
CN112132856A (zh) * 2020-09-30 2020-12-25 北京工业大学 一种基于自适应模板更新的孪生网络跟踪方法
CN112150237A (zh) * 2020-08-27 2020-12-29 杭州未名信科科技有限公司 多模型融合的订单逾期预警方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6469065B2 (ja) * 2016-10-28 2019-02-13 ファナック株式会社 機械学習装置及び加工時間予測装置
CN109902861B (zh) * 2019-01-31 2023-01-03 南京航空航天大学 一种基于双层迁移学习的订单生产进度实时预测方法
CN112070138B (zh) * 2020-08-31 2023-09-05 新华智云科技有限公司 多标签混合分类模型的构建方法、新闻分类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203325A (zh) * 2016-07-07 2016-12-07 燕山大学 基于增强级联多稳随机共振的微弱故障信号特征提取方法
CN107944369A (zh) * 2017-11-17 2018-04-20 大连大学 一种基于级联区域生成网络和增强随机森林的行人检测方法
CN110428426A (zh) * 2019-07-02 2019-11-08 温州医科大学 一种基于改进随机森林算法的mri图像自动分割方法
CN112150237A (zh) * 2020-08-27 2020-12-29 杭州未名信科科技有限公司 多模型融合的订单逾期预警方法、装置、设备及存储介质
CN112132856A (zh) * 2020-09-30 2020-12-25 北京工业大学 一种基于自适应模板更新的孪生网络跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于仿真模型的带随机返修模具设计项目完工时间预测;焦勇清等;《模具工业》;20180915(第09期);全文 *

Also Published As

Publication number Publication date
CN112785377A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112785377B (zh) 基于数据分布的订单完工期预测模型构建方法及预测方法
KR102044205B1 (ko) 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법
Shah et al. A comprehensive review on multiple hybrid deep learning approaches for stock prediction
CN113298230B (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
CN111738504A (zh) 企业财务指标资金量预测方法和装置、设备及存储介质
CN114139490A (zh) 一种自动数据预处理的方法、装置以及设备
CN116384841B (zh) 一种企业数字化转型诊断评价方法及服务平台
Agusta et al. Technical analysis based automatic trading prediction system for stock exchange using support vector machine
CN113159419A (zh) 一种群体特征画像分析方法、装置、设备及可读存储介质
Huang Enhancing stock market prediction through LSTM modeling and analysis
Mcwera et al. Predicting stock market direction in South African banking sector using ensemble machine learning techniques
CN116542801B (zh) 一种财务数据分析方法及系统
Lattanzi et al. A change-point approach for the identification of financial extreme regimes
KR102596740B1 (ko) 기계학습을 이용한 경제불확실성 뉴스심리에 따른 거시경제적 요인과 주식수익률 예측방법
Subekti et al. Cross-sectional machine learning approach on predicting stock return of LQ45 index
Verma et al. Automated Stock Trading using Machine Learning Approaches
Wanjale et al. Financial Risk Prediction Using Consumer Information and Different Machine Learning Algorithms: A Comparative Analysis
Goldmann Enhancing Credit Risk Prediction in Retail Banking: Integrating Time Series and Classical ML Algorithms
Arakelian et al. And Pythia said:``Buy not sell''; An analysis of analysts' recommendations betting on sparsity
Huang et al. A new grey relation analysis applied to the assert allocation of stock portfolio
Agilandeeswari et al. Stock Market Price Trend Prediction–A Comprehensive Review
Naidovich et al. Survival analysis in credit scoring
CN117951443A (zh) 一种金融数据处理的调节方法、系统及设备
Vispute et al. Predicting Stock Prices using Machine Learning Techniques: An Analysis of Historical Market Data
CN116090637A (zh) 一种用电短时预测方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant