CN110751319A - 基于Alpha Zero以及结合启发式策略的自动排料方法 - Google Patents

基于Alpha Zero以及结合启发式策略的自动排料方法 Download PDF

Info

Publication number
CN110751319A
CN110751319A CN201910924758.7A CN201910924758A CN110751319A CN 110751319 A CN110751319 A CN 110751319A CN 201910924758 A CN201910924758 A CN 201910924758A CN 110751319 A CN110751319 A CN 110751319A
Authority
CN
China
Prior art keywords
training
strategy
selecting
layout
heuristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910924758.7A
Other languages
English (en)
Inventor
宋艳枝
邱安东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mdt Infotech Ltd Hefei Hefei
Original Assignee
Mdt Infotech Ltd Hefei Hefei
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mdt Infotech Ltd Hefei Hefei filed Critical Mdt Infotech Ltd Hefei Hefei
Priority to CN201910924758.7A priority Critical patent/CN110751319A/zh
Publication of CN110751319A publication Critical patent/CN110751319A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Manufacturing & Machinery (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于Alpha Zero以及结合启发式策略的自动排料方法,涉及工业生产的排料技术领域。本发明包括选取启发式策略、选择比较优势机制、选择训练方式和网络模型、模型训练以及自动排料。本发明启发式策略确定每个元件合适的摆放位置及旋转角度,并用以深度卷积神经网络为基础的策略价值网络来增强MCTS搜索的能力,来确定下一待摆放的元件,如此得到每回合最终排样方案,将当前排样方案结果与之前回合排样方案进行对比,来判断当前回合的比较优势,该回合的排样方案、比较优势又可作为训练数据,提高网络预测动作、评价局面的准确度,如此交替进行,直到训练结果不在提升;有效降低废料率,减少计算时间。

Description

基于Alpha Zero以及结合启发式策略的自动排料方法
技术领域
本发明属于工业生产的排料技术领域,特别是涉及基于Alpha Zero以及结合启发式策略的自动排料方法。
背景技术
生产排料,是工业生产成本控制的关键,其目标在于利用最少的原料完成元件加工。
对于不同的排样问题约束可能不同,需要针对性处理。而且当元件个数较多时,传统方法往往存在耗时过长的问题。Alpha Zero为结合MCTS的深度强化学习算法,该算法通过大量算力进行搜索自我博弈,并不断对网络参数进行优化,实现了只在已知棋类游戏规则,无任何人类经验辅助下,超越人类顶尖棋手的效果。围棋本质上是一个组合优化问题,该问题与二维排料也有类似之处。围棋是一个双人零和博弈,但二维排料只有优化目标,并无两人博弈。在本发明中,我们通过将多次排样结果进行比较获得比较优势以此来判断排样方案的好坏,如此结合Alpha Zero算法的优点来求解工业排料问题。
发明内容
本发明的目的在于提供基于Alpha Zero以及结合启发式策略的自动排料方法,通过启发式策略确定每个元件的摆放位置,基于多次排样结果的相互比较计算比较优势,并利用比较优势及神经网络的局面评价和动作概率来指导MCTS进行搜索以此来得到较好的排样方案,该排样方案又进一步通过损失最小的方式对模型进行训练,如此不断迭代,直到效果稳定,以此来完成自动排料,解决了现有的排料扩展性差、时间耗时过长的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为基于Alpha Zero以及结合启发式策略的自动排料方法,包括如下步骤:
A0:选取启发式策略:针对当前排料问题的目标及性质,选取合适的启发式策略;
A1:选择比较优势机制:指定与排样结果进行对比的比较优势机制来确定比较优势,并作为网络训练的依据;
A2:选择训练方式和网络模型:根据排料问题的复杂程度及计算机的承受能力,确定网络模型以及训练方式;
A3:模型训练:利用self play方法产生训练样本,并对网络模型结构进行训练;
其中,所述模型训练过程包括如下:
A31:设定启发式策略以及比较优势机制;
A32:初始化迭代数iter=0;
A33:初始化回合数eps=0;
A34:利用MCTS搜索结合比较优势进行自动排料生成训练样本;
A35:eps=eps+1并判断eps<neps;若是,则执行步骤A34;若否,则执行步骤A36;
A36:利用生成的训练样本进行模型训练,网络模型的损失函数为动作概率、网络模型输出的动作概率的交叉熵与比较优势、网络模型输出价值函数的均方误差的和;
A36:iter=iter+1并判断iter<niter;若是,则执行步骤A33;若否,则训练完毕;
A04:自动排料:使用训练好的网络模型增强MCTS的搜索能力,完成自动排料。
优选地,A0中的启发式策略为BL策略或最小面积策略或适应度策略的一种。
优选地,A1中比较优势机制具体包括两种比价优势方法:
方法一:
对同一排样问题进行n次计算,得到各自排样结果;对每个排样,计算其高度或面积小于等于n个结果的个数为k;则该次排样比较优势为2k/n-1;
方法二:
对问题进行MCTS,实时保存最优的n次或占前n%的排样结果;当MCTS搜索到终态时,通过A32与排样结果对比获得比较优势。
优选地,A34中自动排料过程包括如下:
A341:随机生成问题或用户输入问题;
A342:从当前状态向下模拟nSim次,根据模拟得到的每个动作的频数确定选择每个动作的概率,根据该概率选取下一个动作;
A342:判断元件是否排样完毕;若是,则终止;若否,则执行A342。
优选地,A2中排料问题与元件输入顺序无关,视为对称性;处理所述对称性包括如下两种方法:
方法一:
MCTS搜索时,从当前局面的对称状态中随机选取一个状态调用网络模型进行预测;训练阶段,利用对称函数获得局面的其他对称状态,利用对称状态做数据扩充;
方法二:
每个所述元件的像素数组同时独立地通过相同的卷积网络,并利用Pooling操作将各个元件的结果聚合起来,作为全局信息;每个所述元件的像素数组与该全局信息组合在一起,进一步通过卷积网络得到每个元件选择的概率;
所述卷积网络由多个residual tower拼接而成。
本发明具有以下有益效果:
本发明通过启发式策略确定每个元件合适的摆放位置及旋转角度,并用以深度卷积神经网络为基础的策略价值网络来增强MCTS搜索的能力,来确定下一待摆放的元件,如此得到每回合最终排样方案,将当前排样方案结果与之前回合排样方案进行对比,来判断当前回合的比较优势,该回合的排样方案、比较优势又可作为训练数据,提高网络预测动作、评价局面的准确度,如此交替进行,直到训练结果不在提升;训练完毕后,可直接利用上述步骤自动排料;本发明提出的方法适用于工业生产的二维排料,例如板材排料、地毯切割等,可以有效降低废料率,减少计算时间。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于Alpha Zero以及结合启发式策略的自动排料方法的流程图;
图2为本发明中模型训练的流程图;
图3为本发明中自动排料的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为基于Alpha Zero以及结合启发式策略的自动排料方法,包括如下步骤:
A0:选取启发式策略:针对当前排料问题的目标及性质,选取合适的启发式策略;其中,启发式策略为BL策略或最小面积策略或适应度策略的一种;具体的,BL策略通过最下最左确定待排元件位置;最小面积策略通过矩形包络的面积确定位置;适应度策略通过计算适应度确定位置,适应度是高度、长度、面积等各项指标共同确定的函数;
A1:选择比较优势机制:指定与排样结果进行对比的比较优势机制来确定比较优势,并作为网络训练的依据;其中,比较优势机制具体包括两种比价优势方法:
方法一:
对同一排样问题进行n次计算,得到各自排样结果;对每个排样,计算其高度或面积小于等于n个结果的个数为k;则该次排样比较优势为2k/n-1;
方法二:
对问题进行MCTS,实时保存最优的n次或占前n%的排样结果;当MCTS搜索到终态时,通过A32与排样结果对比获得比较优势;
A2:选择训练方式和网络模型:根据排料问题的复杂程度及计算机的承受能力,确定网络模型以及训练方式;其中,排料问题与元件输入顺序无关,视为对称性;处理对称性包括如下两种方法:
方法一:
MCTS搜索时,从当前局面的对称状态中随机选取一个状态调用网络模型进行预测;训练阶段,利用对称函数获得局面的其他对称状态,利用对称状态做数据扩充;
方法二:
每个元件的像素数组同时独立地通过相同的卷积网络,并利用Pooling操作将各个元件的结果聚合起来,作为全局信息;每个元件的像素数组与该全局信息组合在一起,进一步通过卷积网络得到每个元件选择的概率;
卷积网络由多个residual tower拼接而成;
A3:模型训练:利用self play方法产生训练样本,并对网络模型结构进行训练;
请参阅图2所示,,模型训练过程包括如下:
A31:设定启发式策略以及比较优势机制;
A32:初始化迭代数iter=0;
A33:初始化回合数eps=0;
A34:利用MCTS搜索结合比较优势进行自动排料生成训练样本;
A35:eps=eps+1并判断eps<neps;若是,则执行步骤A34;若否,则执行步骤A36;
A36:利用生成的训练样本进行模型训练,网络模型的损失函数为动作概率、网络模型输出的动作概率的交叉熵与比较优势、网络模型输出价值函数的均方误差的和;
A36:iter=iter+1并判断iter<niter;若是,则执行步骤A33;若否,则训练完毕;
A04:自动排料:使用训练好的网络模型增强MCTS的搜索能力,完成自动排料。
请参阅图3所示,,A34中自动排料过程包括如下:
A341:随机生成问题或用户输入问题;
A342:从当前状态向下模拟nSim次(单次模拟方法如下,循环执行,在当前状态计算每个动作的UCB值,选取UCB值最大的动作,直到进入未探索的节点,如果该节点未终止,则通过价值网络计算该节点的Q值,如果终止则用比较优势作为Q值,将该Q值反馈传播到之前经过的所有节点,更新这些节点的Q值及访问次数),根据模拟得到的每个动作的频数确定选择每个动作的概率,根据该概率选取下一个动作;
A342:判断元件是否排样完毕;若是,则终止;若否,则执行A342。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.基于Alpha Zero以及结合启发式策略的自动排料方法,其特征在于,包括如下步骤:
A0:选取启发式策略:针对当前排料问题的目标及性质,选取合适的启发式策略;
A1:选择比较优势机制:指定与排样结果进行对比的比较优势机制来确定比较优势,并作为网络训练的依据;
A2:选择训练方式和网络模型:根据排料问题的复杂程度及计算机的承受能力,确定网络模型以及训练方式;
A3:模型训练:利用self play方法产生训练样本,并对网络模型结构进行训练;
其中,所述模型训练过程包括如下:
A31:设定启发式策略以及比较优势机制;
A32:初始化迭代数iter=0;
A33:初始化回合数eps=0;
A34:利用MCTS搜索结合比较优势进行自动排料生成训练样本;
A35:eps=eps+1并判断eps<neps;若是,则执行步骤A34;若否,则执行步骤A36;
A36:利用生成的训练样本进行模型训练,网络模型的损失函数为动作概率、网络模型输出的动作概率的交叉熵与比较优势、网络模型输出价值函数的均方误差的和;
A36:iter=iter+1并判断iter<niter;若是,则执行步骤A33;若否,则训练完毕;
A04:自动排料:使用训练好的网络模型增强MCTS的搜索能力,完成自动排料。
2.根据权利要求1所述的基于Alpha Zero以及结合启发式策略的自动排料方法,其特征在于,A0中的启发式策略为BL策略或最小面积策略或适应度策略的一种。
3.根据权利要求1所述的基于Alpha Zero以及结合启发式策略的自动排料方法,其特征在于,A1中比较优势机制具体包括两种比价优势方法:
方法一:
对同一排样问题进行n次计算,得到各自排样结果;对每个排样,计算其高度或面积小于等于n个结果的个数为k;则该次排样比较优势为2k/n-1;
方法二:
对问题进行MCTS,实时保存最优的n次或占前n%的排样结果;当MCTS搜索到终态时,通过A32与排样结果对比获得比较优势。
4.根据权利要求1所述的基于Alpha Zero以及结合启发式策略的自动排料方法,其特征在于,A34中自动排料过程包括如下:
A341:随机生成问题或用户输入问题;
A342:从当前状态向下模拟nSim次,根据模拟得到的每个动作的频数确定选择每个动作的概率,根据该概率选取下一个动作;
A342:判断元件是否排样完毕;若是,则终止;若否,则执行A342。
5.根据权利要求1所述的基于Alpha Zero以及结合启发式策略的自动排料方法,其特征在于,A2中排料问题与元件输入顺序无关,视为对称性;处理所述对称性包括如下两种方法:
方法一:
MCTS搜索时,从当前局面的对称状态中随机选取一个状态调用网络模型进行预测;训练阶段,利用对称函数获得局面的其他对称状态,利用对称状态做数据扩充;
方法二:
每个所述元件的像素数组同时独立地通过相同的卷积网络,并利用Pooling操作将各个元件的结果聚合起来,作为全局信息;每个所述元件的像素数组与该全局信息组合在一起,进一步通过卷积网络得到每个元件选择的概率;
所述卷积网络由多个residual tower拼接而成。
CN201910924758.7A 2019-09-27 2019-09-27 基于Alpha Zero以及结合启发式策略的自动排料方法 Withdrawn CN110751319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910924758.7A CN110751319A (zh) 2019-09-27 2019-09-27 基于Alpha Zero以及结合启发式策略的自动排料方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910924758.7A CN110751319A (zh) 2019-09-27 2019-09-27 基于Alpha Zero以及结合启发式策略的自动排料方法

Publications (1)

Publication Number Publication Date
CN110751319A true CN110751319A (zh) 2020-02-04

Family

ID=69277310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910924758.7A Withdrawn CN110751319A (zh) 2019-09-27 2019-09-27 基于Alpha Zero以及结合启发式策略的自动排料方法

Country Status (1)

Country Link
CN (1) CN110751319A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516300A (zh) * 2021-06-18 2021-10-19 北京控制工程研究所 一种多任务多约束高可信实时自主决策优化方法及系统
CN113705860A (zh) * 2021-08-05 2021-11-26 北京航空航天大学 一种实时智能强鲁棒性的多形状制造件排样优化方法及系统
CN114418242A (zh) * 2022-03-28 2022-04-29 海尔数字科技(青岛)有限公司 排料方案确定方法、装置、设备和可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516300A (zh) * 2021-06-18 2021-10-19 北京控制工程研究所 一种多任务多约束高可信实时自主决策优化方法及系统
CN113516300B (zh) * 2021-06-18 2024-03-29 北京控制工程研究所 一种多任务多约束高可信实时自主决策优化方法及系统
CN113705860A (zh) * 2021-08-05 2021-11-26 北京航空航天大学 一种实时智能强鲁棒性的多形状制造件排样优化方法及系统
CN113705860B (zh) * 2021-08-05 2023-10-17 北京航空航天大学 一种实时智能强鲁棒性的多形状制造件排样优化方法及系统
CN114418242A (zh) * 2022-03-28 2022-04-29 海尔数字科技(青岛)有限公司 排料方案确定方法、装置、设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN110751319A (zh) 基于Alpha Zero以及结合启发式策略的自动排料方法
CN105550749A (zh) 一种新型网络拓扑结构的卷积神经网络的构造方法
CN114066122B (zh) 一种基于多策略水波优化算法的调度方法
CN113407185B (zh) 基于贝叶斯优化的编译器优化选项推荐方法
CN111275186A (zh) 一种基于分组分层机制的可微结构搜索方法
CN105446742A (zh) 一种人工智能执行任务的优化方法
CN108304925A (zh) 一种池化计算装置及方法
CN113705812A (zh) 基于混合并行遗传和变邻域算法的生产调度方法和系统
Tang et al. ADP with MCTS algorithm for Gomoku
CN101853202A (zh) 一种基于遗传算法和带权匹配算法的测试案例自动生成方法
JPWO2021202576A5 (zh)
CN109255484A (zh) 数据驱动的离散制造资源协同优化方法及系统
CN112699957A (zh) 一种基于darts的图像分类优化方法
CN101894063A (zh) 一种用于微处理器功能验证的测试程序生成方法及装置
Wang et al. Diversity and efficiency
Kao et al. Gumbel MuZero for the Game of 2048
CN112731888B (zh) 一种批量流混合流水车间调度问题的改进候鸟优化方法
Kiani-Moghaddam et al. An Innovative Multi-Stage Multi-Dimensional Multiple-Inhomogeneous Melody Search Algorithm: Symphony Orchestra Search Algorithm (SOSA)
CN112506644B (zh) 基于云边端混合计算模式系统的任务调度方法和系统
CN114202609A (zh) 一种混合启发式图着色方法
CN109726362A (zh) 求解加权最大可满足性问题的局部搜索求解方法和系统
CN114528094A (zh) 基于lstm和遗传算法的分布式系统资源优化分配方法
Al-Tirawi et al. Sustainable learning in cultural algorithms using common value auctions
Watanabe et al. Enhancement of CNN-based 2048 player with Monte-Carlo tree search
Ba et al. Monte Carlo Tree Search with variable simulation periods for continuously running tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200204

WW01 Invention patent application withdrawn after publication