CN111080408A - 一种基于深度强化学习的订单信息处理方法 - Google Patents
一种基于深度强化学习的订单信息处理方法 Download PDFInfo
- Publication number
- CN111080408A CN111080408A CN201911241029.8A CN201911241029A CN111080408A CN 111080408 A CN111080408 A CN 111080408A CN 201911241029 A CN201911241029 A CN 201911241029A CN 111080408 A CN111080408 A CN 111080408A
- Authority
- CN
- China
- Prior art keywords
- order
- neural network
- data
- value
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 230000010365 information processing Effects 0.000 title claims abstract description 17
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000003062 neural network model Methods 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 238000004088 simulation Methods 0.000 claims abstract description 7
- 238000002790 cross-validation Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 description 22
- 230000008901 benefit Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
- G06Q30/0637—Approvals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Manufacturing & Machinery (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于深度强化学习的订单信息处理方法,包括:步骤一,对订单数据进行预处理;步骤二,搭建神经网络模型,用预处理后的订单数据训练神经网络;在神经网络结构中加入dropout层,采用交叉验证调节模型超参数并修改损失函数;步骤三,以步骤一中排好顺序的订单属性列为标准,删除新的将要进行决策的订单数据中对应的重要性程度低的订单属性列,将删除后的将要进行决策的订单数据输入搭建好的神经网络模型,获得订单关键要素预测值;步骤四,将预测值输入强化学习模型,最终得到订单接拒模拟运算结果。本发明能够决策出哪些订单接收,哪些订单拒绝,为企业对订单的决策提供辅助判断。
Description
技术领域
本发明涉及机器深度学习技术领域,具体涉及一种基于深度强化学习的订单信息处理方法。
背景技术
制造业是国民经济的基础产业,是现代化的原动力,是国家硬实力的支柱。我国已经成为了世界闻名的制造大国。而全球化的日益成熟和社交网络的普及改变了生产者和消费者之间的关系,消费者越来越倾向于购买符合他们的喜好的产品。大规模定制模式已经不能满足制造业的需求了,伴随着技术的更新迭代,企业与客户、供应商等之间实现高效的互联与交互,大规模个性化模式出现了。传统的大批量生产制造模式已经逐渐被淘汰,目前都是讲究小批量、个性化的智能制造。随着客户对产品个性化需求的加剧,订单反应时间已成为一种新的竞争因素。减少库存、按订单生产是企业在大规模个性化制造模式下发展的必然方向。大批量个性化订单可能导致企业接单决策困难,不能快速评估订单好坏,无法进行效益最大的决策。制造企业必须寻求合理的订单接受决策方案,能够有效的地利用企业各种资源,提高企业的生产效益。
现有订单优选策略不断发展,但并没有提出针对制造业复杂订单且考虑加工过程的优选方法。制造企业现有接受决策考虑尽可能多的利润,倾向于接受全部订单。没有充分考虑企业生产力,使企业不能按时完成订单,企业声誉受到影响。当制造企业生产能力不足以满足顾客的需求时,接受过多订单可能会导致生产系统超负荷,不能按时完成订单,带来较高的惩罚成本即影响企业信誉。同时使顾客满意度降低,造成后期订单流失。大批量个性化订单可能导致企业接单决策困难,不能快速评估订单好坏,无法进行效益最大的决策。
发明内容
本发明的目的在于针对现有技术中的不足之处,提供一种辅助企业有选择性的接受订单的基于深度强化学习的订单信息处理方法。
为达此目的,本发明采用以下技术方案:
一种基于深度强化学习的订单信息处理方法,其特征在于,包括如下步骤:
步骤一,对订单数据进行预处理:制出各种订单数据属性列,对订单数据属性列进行特征重要性评估排序,用户自定义删除重要性程度低的订单属性列,得到预处理后的订单数据;
步骤二,搭建神经网络模型,用预处理后的订单数据训练神经网络;在神经网络结构中加入dropout层,采用交叉验证调节模型超参数并修改损失函数,改进神经网络模型结构;
步骤三,以步骤一中排好顺序的订单属性列为标准,删除新的将要进行决策的订单数据中对应的重要性程度低的订单属性列,将删除后的将要进行决策的订单数据输入搭建好的神经网络模型,获得订单关键要素预测值;
步骤四,将预测值输入强化学习模型,所述强化学习模型为半马尔科夫决策模型,采用QLEARN算法求解,最终得到订单接拒模拟运算结果。
更进一步的说明,所述步骤一中,采用随机森林法对订单数据属性列进行特征重要性评估排序,包括如下步骤:
A2,根据A1计算出订单所有特征重要性,并降序排列,确定剔除比例,得到新的特征集;
A3,用新特征集重复A1和A2的过程,直到剩下m个特征,其中m为提前设定量,根据产生的各特征集与其对应的袋外误差率,选择袋外误差率最低的特征集。
更进一步的说明,步骤一中用户自定义删除重要性程度低的订单属性列后,若存在需要特殊取舍的订单时,采用箱线图分析订单属性列的值,若值异常则剔除这个订单。
更进一步的说明,所述神经网络结构包括一个数据输入层、五个卷积层、五个池化层、两个全连接隐含层和一个输出层;所述订单数据通过第一个卷积层以及ReLU激活层,变为一组特征;再经过最大值池化层进行降采样;重复多次以上操作,将最后一个池化层的特征图与全连接隐含层相连,经过ReLU 激活之后,传递到所述输出层;其中ReLu激活函数为:f(x)=max(0,x)。
更进一步的说明,所述步骤四中求解的算法包括如下步骤:
B1,初始化决策阶段n,设置n的最大循环次数为TIMES;初始化状态-动作值Q(i,a)=0,其中,i∈S,S为当前订单序号,完成已接受订单所需时间;a∈A,A为动作;初始化α、w、v、ε、γ;其中α为学习率,w为单位时间延期惩罚成本,v为拒绝成本,ε为初始探索率,γ为衰变系数,开始系统仿真;
B2,在决策阶段,生成随机数p(0<P<1);判断如果探索率ε<p,遍历{Action}里所有动作,执行动作,选择使Q值最大的动作作为最优动作;如果探索率ε>=p,则在动作集里随机选择动作a作为系统动作,如果a=接受,则接受订单,如果a=拒绝,则拒绝订单;执行动作a,得到下一阶段的状态,并根据时间拆分法更新Q值;
Qnew(i,a)=Qold(i,a)+α*(r+(γ*max(Qold(i′,a))-Qold(i,a)))
其中,r=z*(R-T*w)-|z-1|*J*v;
R=利润;T=延期时间;J=客户等级;
迭代n,直到n=TIMES。
更进一步的说明,还包括神经网络模型的更新步骤:
C1,将新订单数据输入神经网络模型,得出预测y预的值;
C2,真实y真值减去预测y预值后做梯度下降,对权重矩阵w求导得到当前梯度dwi;
C3,更新权重矩阵w;wi=wi-ηdwi;其中:η为学习率。
本发明的有益效果:本发明提出的基于深度强化学习的订单信息处理方法,基于工厂历史订单数据训练出一个神经网络模型,再将后续新订单数据输入训练好的神经网络模型得出用户订单关键要素(成本、交期)预测值并不断更新神经网络模型;后将经神经网络模型得出的预测值作为强化学习模型的输入,最终决策出哪些订单接收,哪些订单拒绝,为企业对订单的决策提供辅助判断。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是逻辑流程图;
图2是本发明的一个实施例的对订单数据属性列进行特征重要性评估排序的示意图;
图3是本发明的一个实施例的剔除异常订单时的箱线分析图;
图4是本发明的一个实施例的神经网络模型的示意图;
图5是本发明的一个实施例的QLEARN算法流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
如图1-图4所示,一种基于深度强化学习的订单信息处理方法,包括如下步骤:
步骤一,对订单数据进行预处理:制出各种订单数据属性列,对订单数据属性列进行特征重要性评估排序,用户自定义删除重要性程度低的订单属性列,得到预处理后的订单数据;
步骤二,搭建神经网络结构,在神经网络结构中加入dropout层,并采用交叉验证调节模型超参数,将预处理后的订单数据输入到所述神经网络结构中,修改损失函数,改进神经网络模型结构;
步骤三,以步骤一中排好顺序的订单属性列为标准,删除新的将要进行决策的订单数据中对应的重要性程度低的订单属性列,将删除后的将要进行决策的订单数据输入搭建好的神经网络模型,获得订单关键要素预测值;
步骤四,将预测值输入强化学习模型,所述强化学习模型为半马尔科夫决策模型,采用QLEARN算法求解,最终得到订单接拒模拟运算结果。
马尔科夫决策过程为基于马尔科夫过程理论的随机动态系统的最优决策过程,即一个智能体(agent)采取行动(action)从而改变自己的状态(state)获得奖励(reward)与环境(environment)发生交互的循环过程。本发明提出的基于深度强化学习的订单信息处理方法,基于工厂历史订单数据训练出一个神经网络模型,再将后续新订单数据输入训练好的神经网络模型得出用户订单关键要素(成本、交期)预测值并不断更新神经网络模型;后将经神经网络模型得出的预测值作为强化学习模型的输入,最终决策出哪些订单接收,哪些订单拒绝,为企业对订单的决策提供辅助判断。
特征重要性评估时,用户根据自己需要进行剔除,比如剔除重要度后30%的订单属性列。在步骤三处理新的将要进行决策的订单数据时,同样进行同样的操作,也即把步骤一种处在后30%的订单属性列的数据删除。此外随机森林法本身可以进行归一化,即预测出的每个特征的重要性加起来等于1(即每个特征重要性各占总特征重要性数值的百分之几,如1特征重要性程度值算出为5,所有特征的重要性程度值的和为10,那么1特征做了归一化的话就为0.5)。若没有进行归一化,如图1所示得出来的是一些大于1的数值,则可以根据数据量的直观结果进行剔除。
订单的关键要素标准是用户根据自己的需求自定义的,如一般制造企业看重成本、交货日期,还可以预测物料消耗(可对比库存和库存不够采购何时到达)、碳排量、污水排量等。不同类型的企业对于接收订单时考虑因素不一样,本实施例中只预测了成本和交货日期。
更进一步的说明,所述步骤一中,采用随机森林法对订单数据属性列进行特征重要性评估排序,包括如下步骤:
A2,根据A1计算出订单所有特征重要性,并降序排列,确定剔除比例,得到新的特征集;
A3,用新特征集重复A1和A2的过程,直到剩下m个特征,其中m为提前设定量,根据产生的各特征集与其对应的袋外误差率,选择袋外误差率最低的特征集。
预测问题就是多输出回归(拟合)问题,因此采用一维卷积神经网络模型作为预测模型。
订单生产数据不仅可以包括产品规格、材料,还可以包括工艺流程、设备运转情况、物料库存及人员调度等因素,将制造企业历史订单生产数据预处理后作为神经网络模型的输入,同时把订单中关键要素作为输出标签,搭建卷积神经网络模型并进行模型结构改进直至性能表现最好,完成初步模型的搭建。
订单的各项属性是作为神经网络输入的依据,可能存在无效属性值影响算法效率需剔除;故为了保证神经网络的良好性能,采用随机森林法对订单数据属性列进行特征重要性评估排序,删除重要性程度不高的订单属性列,如图2 是随机森林对某产品的订单数据特征重要性进行评估
更进一步的说明,步骤一中用户自定义删除重要性程度低的订单属性列后,若存在需要特殊取舍的订单时,采用箱线图分析订单属性列的值,若值异常则剔除这个订单。
初步处理后可能存在特殊订单,故还应当筛选并做特殊处理;根据企业实际订单作修改,采用箱线图分析订单属性列的值,若值异常则剔除这个订单。避免异常订单影响神经网络模型的处理结果。这一步骤相当于在剔除了列后,又对行进行了筛选。二者的先后步骤没有影响。
更进一步的说明,所述神经网络结构包括一个数据输入层、五个卷积层、五个池化层、两个全连接隐含层和一个输出层;所述订单数据通过第一个卷积层以及ReLU激活层,变为一组特征;再经过最大值池化层进行降采样;重复多次以上操作,将最后一个池化层的特征图与全连接隐含层相连,经过ReLU 激活之后,传递到所述输出层;其中ReLu激活函数为:f(x)=max(0,x)。
订单数据通过第一个卷积层以及ReLU激活层,变为一组特征;再经过最大值池化层进行降采样,降低特征的维度并一定程度上避免过拟合。
该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值,其值越小说明拟合效果越好。
若预测值的范围波动比较大,MSE会受到一些大的值的引导,即使小的值预测准也不行,此时采用MLSE损失函数比MSE损失函数效果更好。
更进一步的说明,所述步骤四中求解的算法包括如下步骤:
B1,初始化决策阶段n,设置n的最大循环次数为TIMES;初始化状态- 动作值Q(i,a)=0,其中,i∈S,S为当前订单序号,完成已接受订单所需时间;a∈A,A为动作;初始化α、w、v、ε、γ;其中α为学习率,w为单位时间延期惩罚成本,v为拒绝成本,ε为初始探索率,γ为衰变系数,开始系统仿真;
B2,在决策阶段,生成随机数p(0<P<1);判断如果探索率ε<p,遍历{Action}里所有动作,执行动作,选择使Q值最大的动作作为最优动作;如果探索率ε>=p,则在动作集里随机选择动作a作为系统动作,如果a=接受,则接受订单,如果a=拒绝,则拒绝订单;执行动作a,得到下一阶段的状态,并根据时间拆分法更新Q值;
Qnew(i,a)=Qold(i,a)+α*(r+(γ*max(Qold(i′,a))-Qold(i,a)))
其中,r=z*(R-T*w)-|z-1|*J*v;
R=利润;T=延期时间;J=客户等级;
迭代n,直到n=TIMES。
强化学习把智能体与环境之间的交互看作是一个马尔科夫决策过程,而M TO企业订单接受问题是一个典型的随机序贯决策问题,可抽象成半马尔科夫决策过程模型,针对平均累积报酬准则的半马尔科夫决策模型,采用QLEARN 算法求解。
把要进行决策的一系列新订单输入神经网络模型,得出成本、交期预测值,同时给订单增加一个新属性:客户等级。订单(客户等级、成本、完工期)作为强化学习模型的输入。一系列订单的输入决策出哪些订单接收,哪些订单拒绝。QLEARN的主要优势就是使用了时序差分法TD(融合了蒙特卡洛和动态规划)能够进行离线学习,它是目前主流的强化学习求解问题的方法。奖惩r根据自定义的公式算出,订单有利润R,可能会有延期天数T,如果决定接这个订单,那么做了这个决定就会有奖励:利润减去成本(此时是接单,所以z=1,没有惩罚)。如果拒绝这个订单,这个奖惩r就变为惩罚,本实施例中对不同订单加入了客户等级属性,根据客户等级与拒绝成本做出惩罚,使得做出的决策更加智能。
更进一步的说明,还包括神经网络模型的更新步骤:
C1,将新订单数据输入神经网络模型,得出预测y预的值;
C2,真实y真值减去预测y预值后做梯度下降,对权重矩阵w求导得到当前梯度dwi;
C3,更新权重矩阵w;wi=wi-ηdwi;其中:η为学习率。
随着订单生产,订单数据不断有新的产生,将新订单数据作为神经网络模型的训练集,对经网络模型进行训练。利用每一个订单数据更新一次经网络模型参数,随着时间的推移,不断更新经网络模型,使经网络模型始终保持良好的预测能力,避免了离线更新经网络模型的问题。
以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于深度强化学习的订单信息处理方法,其特征在于,包括如下步骤:
步骤一,对订单数据进行预处理:制出各种订单数据属性列,对订单数据属性列进行特征重要性评估排序,用户自定义删除重要性程度低的订单属性列,得到预处理后的订单数据;
步骤二,搭建神经网络模型,用预处理后的订单数据训练神经网络;在神经网络结构中加入dropout层,采用交叉验证调节模型超参数并修改损失函数,以改进神经网络模型结构;
步骤三,以步骤一中排好顺序的订单属性列为标准,删除新的将要进行决策的订单数据中对应的重要性程度低的订单属性列,将删除后的将要进行决策的订单数据输入搭建好的神经网络模型,获得订单关键要素预测值;
步骤四,将预测值输入强化学习模型,所述强化学习模型为半马尔科夫决策模型,采用QLEARN算法求解,最终得到订单接拒模拟运算结果。
3.根据权利要求2所述的基于深度强化学习的订单信息处理方法,其特征在于:步骤一中用户自定义删除重要性程度低的订单属性列后,若存在需要特殊取舍的订单时,采用箱线图分析订单属性列的值,若值异常则剔除这个订单。
4.根据权利要求1所述的基于深度强化学习的订单信息处理方法,其特征在于:所述神经网络结构包括一个数据输入层、五个卷积层、五个池化层、两个全连接隐含层和一个输出层;所述订单数据通过第一个卷积层以及ReLU激活层,变为一组特征;再经过最大值池化层进行降采样;重复多次以上操作,将最后一个池化层的特征图与全连接隐含层相连,经过ReLU激活之后,传递到所述输出层;其中ReLu激活函数为:f(x)=max(0,x)。
7.根据权利要求1所述的基于深度强化学习的订单信息处理方法,其特征在于,所述步骤四中求解的算法包括如下步骤:
B1,初始化决策阶段n,设置n的最大循环次数为TIMES;初始化状态-动作值Q(i,a)=0,其中,i∈S,S为当前订单序号,完成已接受订单所需时间;a∈A,A为动作;初始化α、w、v、ε、γ;其中α为学习率,w为单位时间延期惩罚成本,v为拒绝成本,ε为初始探索率,γ为衰变系数,开始系统仿真;
B2,在决策阶段,生成随机数p(0<P<1);判断如果探索率ε<p,遍历{Action}里所有动作,执行动作,选择使Q值最大的动作作为最优动作;如果探索率ε>=p,则在动作集里随机选择动作a作为系统动作,如果a=接受,则接受订单,如果a=拒绝,则拒绝订单;执行动作a,得到下一阶段的状态,并根据时间拆分法更新Q值;
Qnew(i,a)=Qold(i,a)+α*(r+(γ*max(Qold(i′,a))-Qold(i,a)))
其中,r=z*(R-T*w)-|z-1|*J*v;
R=利润;T=延期时间;J=客户等级;
迭代n,直到n=TIMES。
8.根据权利要求1所述的基于深度强化学习的订单信息处理方法,其特征在于:还包括神经网络模型的更新步骤:
C1,将新订单数据输入神经网络模型,得出预测y预的值;
C2,真实y真值减去预测y预值后做梯度下降,对权重矩阵w求导得到当前梯度dwi;
C3,更新权重矩阵w;wi=wi-ηdwi;其中:η为学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241029.8A CN111080408B (zh) | 2019-12-06 | 2019-12-06 | 一种基于深度强化学习的订单信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911241029.8A CN111080408B (zh) | 2019-12-06 | 2019-12-06 | 一种基于深度强化学习的订单信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111080408A true CN111080408A (zh) | 2020-04-28 |
CN111080408B CN111080408B (zh) | 2020-07-21 |
Family
ID=70312976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911241029.8A Active CN111080408B (zh) | 2019-12-06 | 2019-12-06 | 一种基于深度强化学习的订单信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111080408B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798114A (zh) * | 2020-06-28 | 2020-10-20 | 北京百度网讯科技有限公司 | 一种模型训练、订单处理方法、装置、设备及存储介质 |
CN112241785A (zh) * | 2020-10-12 | 2021-01-19 | 中国科学技术大学 | 一种基于深度强化学习的图书采访方法 |
CN112396501A (zh) * | 2020-12-10 | 2021-02-23 | 中国科学院深圳先进技术研究院 | 一种基于交互式强化学习的订单分派方法及系统 |
CN112801731A (zh) * | 2021-01-06 | 2021-05-14 | 广东工业大学 | 一种接单辅助决策的联邦强化学习方法 |
CN113077188A (zh) * | 2021-04-28 | 2021-07-06 | 中国人民解放军国防科技大学 | 一种基于平均奖赏强化学习的mto企业订单接受方法 |
CN113313236A (zh) * | 2021-06-10 | 2021-08-27 | 浙江工业大学 | 基于时序神经通路的深度强化学习模型中毒检测方法及其装置 |
CN113592240A (zh) * | 2021-07-02 | 2021-11-02 | 中国人民解放军国防科技大学 | 一种mto企业订单处理方法及系统 |
CN114154821A (zh) * | 2021-11-22 | 2022-03-08 | 厦门深度赋智科技有限公司 | 基于深度强化学习的智能排产动态调度方法 |
CN116011757A (zh) * | 2022-12-28 | 2023-04-25 | 广州汽车集团股份有限公司 | 订单接收和调度方法、装置以及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250403A (zh) * | 2016-07-19 | 2016-12-21 | 北京奇艺世纪科技有限公司 | 用户流失预测方法及装置 |
CN108230057A (zh) * | 2016-12-09 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种智能推荐方法及系统 |
CN108985537A (zh) * | 2018-03-20 | 2018-12-11 | 湖南师范大学 | 一种基于粗糙集规则挖掘的炼钢-连铸作业计划重排方法 |
CN109766932A (zh) * | 2018-12-25 | 2019-05-17 | 新华三大数据技术有限公司 | 一种特征筛选方法以及特征筛选装置 |
CN109784566A (zh) * | 2019-01-22 | 2019-05-21 | 山东大学 | 一种订单排序优化方法及装置 |
WO2019109604A1 (en) * | 2017-12-05 | 2019-06-13 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for determining an estimated time of arrival for online to offline services |
CN110111005A (zh) * | 2019-05-09 | 2019-08-09 | 上汽安吉物流股份有限公司 | 智能分单方法和装置、计算机可读介质以及物流系统 |
US10380650B2 (en) * | 2017-07-26 | 2019-08-13 | Jehan Hamedi | Systems and methods for automating content design transformations based on user preference and activity data |
CN110517002A (zh) * | 2019-08-29 | 2019-11-29 | 烟台大学 | 基于强化学习的生产控制方法 |
-
2019
- 2019-12-06 CN CN201911241029.8A patent/CN111080408B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250403A (zh) * | 2016-07-19 | 2016-12-21 | 北京奇艺世纪科技有限公司 | 用户流失预测方法及装置 |
CN108230057A (zh) * | 2016-12-09 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种智能推荐方法及系统 |
US10380650B2 (en) * | 2017-07-26 | 2019-08-13 | Jehan Hamedi | Systems and methods for automating content design transformations based on user preference and activity data |
WO2019109604A1 (en) * | 2017-12-05 | 2019-06-13 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for determining an estimated time of arrival for online to offline services |
CN108985537A (zh) * | 2018-03-20 | 2018-12-11 | 湖南师范大学 | 一种基于粗糙集规则挖掘的炼钢-连铸作业计划重排方法 |
CN109766932A (zh) * | 2018-12-25 | 2019-05-17 | 新华三大数据技术有限公司 | 一种特征筛选方法以及特征筛选装置 |
CN109784566A (zh) * | 2019-01-22 | 2019-05-21 | 山东大学 | 一种订单排序优化方法及装置 |
CN110111005A (zh) * | 2019-05-09 | 2019-08-09 | 上汽安吉物流股份有限公司 | 智能分单方法和装置、计算机可读介质以及物流系统 |
CN110517002A (zh) * | 2019-08-29 | 2019-11-29 | 烟台大学 | 基于强化学习的生产控制方法 |
Non-Patent Citations (4)
Title |
---|
STEFANOS DOLTSINIS等: "An MDP Model-Based Reinforcement Learning Approach for Production Station Ramp-Up Optimization: Q-Learning Analysis", 《 IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS 》 * |
曹裕等: "基于分层MTO订单的准入策略研究", 《管理科学学报》 * |
王晓欢等: "基于强化学习的订单生产型企业的订单接受策略", 《系统工程理论与实践》 * |
郝鹃等: "基于平均强化学习的订单生产方式企业订单接受策略", 《计算机应用》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798114A (zh) * | 2020-06-28 | 2020-10-20 | 北京百度网讯科技有限公司 | 一种模型训练、订单处理方法、装置、设备及存储介质 |
CN112241785A (zh) * | 2020-10-12 | 2021-01-19 | 中国科学技术大学 | 一种基于深度强化学习的图书采访方法 |
CN112241785B (zh) * | 2020-10-12 | 2022-09-06 | 中国科学技术大学 | 一种基于深度强化学习的图书采访方法 |
WO2022120970A1 (zh) * | 2020-12-10 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 一种基于交互式强化学习的订单分派方法及系统 |
CN112396501A (zh) * | 2020-12-10 | 2021-02-23 | 中国科学院深圳先进技术研究院 | 一种基于交互式强化学习的订单分派方法及系统 |
CN112396501B (zh) * | 2020-12-10 | 2024-03-19 | 中国科学院深圳先进技术研究院 | 一种基于交互式强化学习的订单分派方法及系统 |
CN112801731A (zh) * | 2021-01-06 | 2021-05-14 | 广东工业大学 | 一种接单辅助决策的联邦强化学习方法 |
CN113077188A (zh) * | 2021-04-28 | 2021-07-06 | 中国人民解放军国防科技大学 | 一种基于平均奖赏强化学习的mto企业订单接受方法 |
CN113313236A (zh) * | 2021-06-10 | 2021-08-27 | 浙江工业大学 | 基于时序神经通路的深度强化学习模型中毒检测方法及其装置 |
CN113313236B (zh) * | 2021-06-10 | 2024-03-15 | 浙江工业大学 | 基于时序神经通路的深度强化学习模型中毒检测方法及其装置 |
CN113592240A (zh) * | 2021-07-02 | 2021-11-02 | 中国人民解放军国防科技大学 | 一种mto企业订单处理方法及系统 |
CN113592240B (zh) * | 2021-07-02 | 2023-10-13 | 中国人民解放军国防科技大学 | 一种mto企业订单处理方法及系统 |
CN114154821A (zh) * | 2021-11-22 | 2022-03-08 | 厦门深度赋智科技有限公司 | 基于深度强化学习的智能排产动态调度方法 |
CN116011757A (zh) * | 2022-12-28 | 2023-04-25 | 广州汽车集团股份有限公司 | 订单接收和调度方法、装置以及电子设备 |
CN116011757B (zh) * | 2022-12-28 | 2024-03-29 | 广州汽车集团股份有限公司 | 订单接收和调度方法、装置以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111080408B (zh) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111080408B (zh) | 一种基于深度强化学习的订单信息处理方法 | |
Syan et al. | Maintenance applications of multi-criteria optimization: A review | |
CN110378528A (zh) | 基于遗传算法的车间排产方法及系统 | |
CN109919489B (zh) | 基于企业资产管理系统和ga-bp的企业设备寿命预测方法 | |
CN107292429A (zh) | 一种基于需求特性分析的需求预测模型选择方法 | |
Nepal et al. | A multi-objective supply chain configuration model for new products | |
CN111208796A (zh) | 一种基于聚类小生境遗传算法的车间生产作业排程方法 | |
CN110690701A (zh) | 一种异常线损影响因素的分析方法 | |
CN108491991A (zh) | 基于工业大数据产品工期的约束条件分析系统与方法 | |
CN113094988A (zh) | 一种基于数据驱动的浆液循环泵运行优化方法及系统 | |
CN105867341A (zh) | 一种烟草加工设备的在线设备健康状态自检方法及系统 | |
CN110826237A (zh) | 基于贝叶斯信念网络的风电设备可靠性分析方法及装置 | |
CN115186910A (zh) | 一种基于LSTM与XGBoost混合模型的坯布厂产能预测方法 | |
CN112990584B (zh) | 一种基于深度强化学习的自动生产决策系统及方法 | |
CN114004530A (zh) | 基于排序支撑向量机的企业电力信用分建模方法及系统 | |
Chi et al. | Optimal stopping rule for a project with uncertain completion time and partial salvageability | |
CN112163731A (zh) | 一种基于加权随机森林的专变用户电费回收风险识别方法 | |
Guan et al. | Machining scheme selection of digital manufacturing based on genetic algorithm and AHP | |
CN115310999A (zh) | 基于多层感知机和排序网络的企业用电行为分析方法及系统 | |
CN115860141A (zh) | 一种自动化机器学习交互式黑箱可视建模方法及系统 | |
Sundaram et al. | Determination of optimal double sampling plan using genetic algorithm | |
CN112734286B (zh) | 一种基于多策略深度强化学习的车间调度方法 | |
CN110162704B (zh) | 基于多因子遗传算法的多规模关键用户提取方法 | |
Nordgard et al. | Handling maintenance priorities using multi criteria decision making | |
CN111612166A (zh) | 一种基于机器学习的报销时间预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |