CN110751319A

CN110751319A - 基于Alpha Zero以及结合启发式策略的自动排料方法

Info

Publication number: CN110751319A
Application number: CN201910924758.7A
Authority: CN
Inventors: 宋艳枝; 邱安东
Original assignee: Mdt Infotech Ltd Hefei Hefei
Current assignee: Mdt Infotech Ltd Hefei Hefei
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-02-04

Abstract

本发明公开了基于Alpha Zero以及结合启发式策略的自动排料方法，涉及工业生产的排料技术领域。本发明包括选取启发式策略、选择比较优势机制、选择训练方式和网络模型、模型训练以及自动排料。本发明启发式策略确定每个元件合适的摆放位置及旋转角度，并用以深度卷积神经网络为基础的策略价值网络来增强MCTS搜索的能力，来确定下一待摆放的元件，如此得到每回合最终排样方案，将当前排样方案结果与之前回合排样方案进行对比，来判断当前回合的比较优势，该回合的排样方案、比较优势又可作为训练数据，提高网络预测动作、评价局面的准确度，如此交替进行，直到训练结果不在提升；有效降低废料率，减少计算时间。

Description

基于Alpha Zero以及结合启发式策略的自动排料方法

技术领域

本发明属于工业生产的排料技术领域，特别是涉及基于Alpha Zero以及结合启发式策略的自动排料方法。

背景技术

生产排料，是工业生产成本控制的关键，其目标在于利用最少的原料完成元件加工。

对于不同的排样问题约束可能不同，需要针对性处理。而且当元件个数较多时，传统方法往往存在耗时过长的问题。Alpha Zero为结合MCTS的深度强化学习算法，该算法通过大量算力进行搜索自我博弈，并不断对网络参数进行优化，实现了只在已知棋类游戏规则，无任何人类经验辅助下，超越人类顶尖棋手的效果。围棋本质上是一个组合优化问题，该问题与二维排料也有类似之处。围棋是一个双人零和博弈，但二维排料只有优化目标，并无两人博弈。在本发明中，我们通过将多次排样结果进行比较获得比较优势以此来判断排样方案的好坏，如此结合Alpha Zero算法的优点来求解工业排料问题。

发明内容

本发明的目的在于提供基于Alpha Zero以及结合启发式策略的自动排料方法，通过启发式策略确定每个元件的摆放位置，基于多次排样结果的相互比较计算比较优势，并利用比较优势及神经网络的局面评价和动作概率来指导MCTS进行搜索以此来得到较好的排样方案，该排样方案又进一步通过损失最小的方式对模型进行训练，如此不断迭代，直到效果稳定，以此来完成自动排料，解决了现有的排料扩展性差、时间耗时过长的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为基于Alpha Zero以及结合启发式策略的自动排料方法，包括如下步骤：

A0：选取启发式策略：针对当前排料问题的目标及性质，选取合适的启发式策略；

A1：选择比较优势机制：指定与排样结果进行对比的比较优势机制来确定比较优势，并作为网络训练的依据；

A2：选择训练方式和网络模型：根据排料问题的复杂程度及计算机的承受能力，确定网络模型以及训练方式；

A3：模型训练：利用self play方法产生训练样本，并对网络模型结构进行训练；

其中，所述模型训练过程包括如下：

A31：设定启发式策略以及比较优势机制；

A32：初始化迭代数iter＝0；

A33：初始化回合数eps＝0；

A34：利用MCTS搜索结合比较优势进行自动排料生成训练样本；

A35：eps＝eps+1并判断eps<neps；若是，则执行步骤A34；若否，则执行步骤A36；

A36：利用生成的训练样本进行模型训练，网络模型的损失函数为动作概率、网络模型输出的动作概率的交叉熵与比较优势、网络模型输出价值函数的均方误差的和；

A36：iter＝iter+1并判断iter<niter；若是，则执行步骤A33；若否，则训练完毕；

A04：自动排料：使用训练好的网络模型增强MCTS的搜索能力，完成自动排料。

优选地，A0中的启发式策略为BL策略或最小面积策略或适应度策略的一种。

优选地，A1中比较优势机制具体包括两种比价优势方法：

方法一：

对同一排样问题进行n次计算，得到各自排样结果；对每个排样，计算其高度或面积小于等于n个结果的个数为k；则该次排样比较优势为2k/n-1；

方法二：

对问题进行MCTS，实时保存最优的n次或占前n％的排样结果；当MCTS搜索到终态时，通过A32与排样结果对比获得比较优势。

优选地，A34中自动排料过程包括如下：

A341：随机生成问题或用户输入问题；

A342：从当前状态向下模拟nSim次，根据模拟得到的每个动作的频数确定选择每个动作的概率，根据该概率选取下一个动作；

A342：判断元件是否排样完毕；若是，则终止；若否，则执行A342。

优选地，A2中排料问题与元件输入顺序无关，视为对称性；处理所述对称性包括如下两种方法：

方法一：

MCTS搜索时，从当前局面的对称状态中随机选取一个状态调用网络模型进行预测；训练阶段，利用对称函数获得局面的其他对称状态，利用对称状态做数据扩充；

方法二：

每个所述元件的像素数组同时独立地通过相同的卷积网络，并利用Pooling操作将各个元件的结果聚合起来，作为全局信息；每个所述元件的像素数组与该全局信息组合在一起，进一步通过卷积网络得到每个元件选择的概率；

所述卷积网络由多个residual tower拼接而成。

本发明具有以下有益效果：

本发明通过启发式策略确定每个元件合适的摆放位置及旋转角度，并用以深度卷积神经网络为基础的策略价值网络来增强MCTS搜索的能力，来确定下一待摆放的元件，如此得到每回合最终排样方案，将当前排样方案结果与之前回合排样方案进行对比，来判断当前回合的比较优势，该回合的排样方案、比较优势又可作为训练数据，提高网络预测动作、评价局面的准确度，如此交替进行，直到训练结果不在提升；训练完毕后，可直接利用上述步骤自动排料；本发明提出的方法适用于工业生产的二维排料，例如板材排料、地毯切割等，可以有效降低废料率，减少计算时间。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于Alpha Zero以及结合启发式策略的自动排料方法的流程图；

图2为本发明中模型训练的流程图；

图3为本发明中自动排料的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为基于Alpha Zero以及结合启发式策略的自动排料方法，包括如下步骤：

A0：选取启发式策略：针对当前排料问题的目标及性质，选取合适的启发式策略；其中，启发式策略为BL策略或最小面积策略或适应度策略的一种；具体的，BL策略通过最下最左确定待排元件位置；最小面积策略通过矩形包络的面积确定位置；适应度策略通过计算适应度确定位置，适应度是高度、长度、面积等各项指标共同确定的函数；

A1：选择比较优势机制：指定与排样结果进行对比的比较优势机制来确定比较优势，并作为网络训练的依据；其中，比较优势机制具体包括两种比价优势方法：

方法一：

方法二：

对问题进行MCTS，实时保存最优的n次或占前n％的排样结果；当MCTS搜索到终态时，通过A32与排样结果对比获得比较优势；

A2：选择训练方式和网络模型：根据排料问题的复杂程度及计算机的承受能力，确定网络模型以及训练方式；其中，排料问题与元件输入顺序无关，视为对称性；处理对称性包括如下两种方法：

方法一：

方法二：

每个元件的像素数组同时独立地通过相同的卷积网络，并利用Pooling操作将各个元件的结果聚合起来，作为全局信息；每个元件的像素数组与该全局信息组合在一起，进一步通过卷积网络得到每个元件选择的概率；

卷积网络由多个residual tower拼接而成；

请参阅图2所示，，模型训练过程包括如下：

A31：设定启发式策略以及比较优势机制；

A32：初始化迭代数iter＝0；

A33：初始化回合数eps＝0；

A34：利用MCTS搜索结合比较优势进行自动排料生成训练样本；

请参阅图3所示，，A34中自动排料过程包括如下：

A341：随机生成问题或用户输入问题；

A342：从当前状态向下模拟nSim次(单次模拟方法如下，循环执行，在当前状态计算每个动作的UCB值，选取UCB值最大的动作，直到进入未探索的节点，如果该节点未终止，则通过价值网络计算该节点的Q值，如果终止则用比较优势作为Q值，将该Q值反馈传播到之前经过的所有节点，更新这些节点的Q值及访问次数)，根据模拟得到的每个动作的频数确定选择每个动作的概率，根据该概率选取下一个动作；

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于Alpha Zero以及结合启发式策略的自动排料方法，其特征在于，包括如下步骤：

其中，所述模型训练过程包括如下：

A31：设定启发式策略以及比较优势机制；

A32：初始化迭代数iter＝0；

A33：初始化回合数eps＝0；

A34：利用MCTS搜索结合比较优势进行自动排料生成训练样本；

2.根据权利要求1所述的基于Alpha Zero以及结合启发式策略的自动排料方法，其特征在于，A0中的启发式策略为BL策略或最小面积策略或适应度策略的一种。

3.根据权利要求1所述的基于Alpha Zero以及结合启发式策略的自动排料方法，其特征在于，A1中比较优势机制具体包括两种比价优势方法：

方法一：

方法二：

4.根据权利要求1所述的基于Alpha Zero以及结合启发式策略的自动排料方法，其特征在于，A34中自动排料过程包括如下：

A341：随机生成问题或用户输入问题；

5.根据权利要求1所述的基于Alpha Zero以及结合启发式策略的自动排料方法，其特征在于，A2中排料问题与元件输入顺序无关，视为对称性；处理所述对称性包括如下两种方法：

方法一：

方法二：

所述卷积网络由多个residual tower拼接而成。