CN113780839B

CN113780839B - 基于深度强化学习的演化式分拣作业调度方法及系统

Info

Publication number: CN113780839B
Application number: CN202111081728.8A
Authority: CN
Inventors: 曾德天; 彭飞
Original assignee: Hunan Shibite Robot Co Ltd
Current assignee: Hunan Shibite Robot Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-08-22
Anticipated expiration: 2041-09-15
Also published as: CN113780839A

Abstract

本发明提供一种基于深度强化学习的演化式分拣作业调度方法及系统，该方法包括：通过词袋模型将每一块钢板上的所有零件抽象成D维向量，所有的D维向量组成钢板数据集；通过DRL方法对钢板数据集进行分拣排序问题建模优化；将优化结果输入到GA模型中，得到分拣排序最优解。与相关技术相比，本发明提供的基于深度强化学习的演化式分拣作业调度方法及系统具有更快的收敛速度和最优的调度表现。

Description

基于深度强化学习的演化式分拣作业调度方法及系统

技术领域

本发明涉及机械自动化技术领域，特别涉及一种在钢板分拣顺序优化方面涉及的基于深度强化学习及种群优化的演化式作业调度方法及系统。

背景技术

调度是决策的一种形式，它在制造业中扮演着关键角色。生产调度是实现制造业运筹、管理与优化的核心。它在时间上对一组可用的制造资源进行加工任务安排，从而使得某一性能指标达到最优。生产调度问题可以抽象地描述为在一些等式或不等式约束构成的离散解空间中寻找目标函数的最优解。它是一类重要的组合优化问题，也称排序问题。有效的优化调度能使生产和商业领域增加产出、减少周转时间与库存，最终减少生产费用、增加利润以及提升客户满意度。

钢板分拣顺序优化作为真实的工业调度问题，如果将每个待分拣的钢板看做一个节点，当需要求解最优钢板分拣顺序时，此调度问题可以被抽象成旅行商问题(travelingsalesman problem，TSP)。上述问题除了对调度结果存在优化需求外，对调度过程的时间开销也要求严格。作业调度优化问题作为经典的组合优化与NP难题，一直以来吸引关注与研究，但目前还没有一个有效的方法能在多项式时间内解出其最优解。

因此，有必要提供一种新型的基于深度强化学习的演化式分拣作业调度方法及系统，以克服上述缺陷。

发明内容

本发明的目的在于提供一种新型的基于深度强化学习的演化式分拣作业调度方法及系统，其具有更快的收敛速度和最优的调度表现。

为了达到上述目的，本发明提供一种基于深度强化学习的演化式分拣作业调度方法，包括：

通过词袋模型将每一块钢板上的所有零件抽象成D维向量，所有的D维向量组成钢板数据集；

通过DRL方法对钢板数据集进行分拣排序问题建模优化；

将优化结果输入到GA模型中，得到分拣排序最优解。

进一步，所述通过词袋模型将每一块钢板上的所有零件抽象成D维向量包括：

利用自然语言处理中的词袋模型为所有的零件创建一个固定顺序的零件字典，共D项，之后创建一个对应字典中零件顺序的D维向量；

当表示某一块钢板时，遍历钢板中所含的零件，若包含某一类型零件的数量为k，则将向量中对应位置上的数加k，D维向量作为此钢板的原始数据表示。

进一步，所述通过DRL方法对钢板数据集进行分拣排序问题建模优化包括：

使用Actor-Critic框架进行训练，并使用PointerNet进行联合训练，得到初始解。

进一步，所述将优化结果输入到GA模型中，得到分拣排序最优解包括：

根据钢板数据集构建种群，并将优化结果补充到GA的种群中；

GA搜索种群中高质量的解以加速GA收敛，最终得到GA种群中适度值最优解。

进一步，所述使用Actor-Critic框架进行训练，并使用PointerNet进行联合训练，得到初始解包括：

利用actor损失函数来选择动作的概率，利用critic损失函数来对选择的动作进行评分；

将训练完成的actor输入到PointerNet的嵌入层进行训练，得到所有钢板被选中的概率向量。

进一步，所述PointerNet包括编码器和解码器；

编码器采用单层的注意力结构，最上层的节点为原始的输入数据，输入数据为D维向量，将D维向量通过一个共享的全连接层后获得嵌入表示，然后使用多头注意力机制获取注入了其它节点信息的更新嵌入表示，再通过一个前向层从而获得D维向量在编码器中最后的输出表示，将输出表示求和取平均后作为整体表示；

解码器将整体表示、当前解的第一个节点编码表示与上一时刻选择节点的编码表示进行聚合操作，将聚合后的向量作为查询向量，对编码器输出的节点表示进行解码。

进一步，所述GA搜索种群中高质量的解以加速GA收敛，最终得到GA种群中适度值最优解包括：

随机顺序初始化种群G；

选择算子依次对初始化种群G内的个体计算适度值，对适度值进行排序，选出父体和母体；

对父体和母体使用交叉算子产生新个体x；

删除种群G中适度值最大的个体，同时加入新个体x，得到新的种群G’；

变异算子随机挑选G’中的个体，并随机选择两个不同位置进行交换得到新个体x’；

删除种群G’中适度值最大的个体，同时加入新个体x’，得到新的种群G”；

执行完成最大迭代周期或达到最佳收敛状态，则输出适度值最小的个体。

与相关技术相比较，本发明的基于深度强化学习的演化式分拣作业调度方法针对钢板分拣作业场景，通过借鉴词袋模型，对场景中复杂的钢板数据进行抽象表示，优化方法调度后的结果证明了数据表示的有效性；针对不同规模的调度数据，提出新的演化式方法，通过DRL网络的求解结果初始化GA中的种群，之后使用GA进一步改进初始结果，实验结果表明演化式方法相比单独的GA具有更快的收敛速度，同时与其他方法相比也取得了最优的调度表现。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明的基于深度强化学习的演化式分拣作业调度方法的分拣顺序调度优化问题结构图；

图2为本发明的基于深度强化学习的演化式分拣作业调度方法的流程图；

图3为本发明的基于深度强化学习的演化式分拣作业调度方法的钢板零件分布图；

图4为本发明的基于深度强化学习的演化式分拣作业调度方法的钢板数据表示图；

图5为本发明的基于深度强化学习的演化式分拣作业调度方法的演化式方法结构图；

图6为本发明的基于深度强化学习的演化式分拣作业调度方法的编码解码结构示意图；

图7为本发明的基于深度强化学习的演化式分拣作业调度方法的LSTM结构示意图；

图8为本发明的钢板分拣系统结构示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1展示了机械制造生产线上的分拣作业顺序优化问题.假设存在N块切割后的钢板需要被分拣，每块钢板中含有若干个切割后的零件，零件需要通过机械手臂被放置到物料框.出于工业标准化流程的要求，框中存在一定的码垛规则，即一个框中最多只能装载T种不同类型的零件，相同类型的零件被码放的层数不超过L层。

一旦装载的零件种类超过T或者某一种零件码放的层数超过L，则需要对物料框进行清框处理。而频繁的清框需要反复的调度AGV(Automated Guided Vehicle)搬运，耗费人力物力。一般智能工厂在规划时，要尽量减少无效的物料搬运.因此需要使用组合优化方法调整N块钢板的分拣顺序，通过执行较优的钢板分拣顺序，降低清框频率。

针对钢板分拣顺序优化问题，本文给出相关符号的定义如下：x为带分拣顺序的N个钢板数据，记为[...→P_i-1→P_i→...→P_j-1→P_j->...]，P代表钢板数据，其中i,j<＝N，且i≠j；V_θ<＝L，θ∈{0,1,2,...,T}；θ当前物料框中零件的种类数，θ<＝T；F目标函数，定义为清框次数，输入为x，根据码放规则对给定分拣顺序的钢板集进行分拣，输出值为产生的清框次数.其数学定义见公式(1)上部为递归形式。初始化时F(x)值为0，每次清框被触发时，F(x)加1。

问题的优化目标及约束使用公式(1)描述，即最小化F(x)。其中第一个约束表示物料框中同类零件的堆叠不能超过L层。第二个约束表示物料框中零件的种类不能超过T种。

请参阅图2，DRL拥有较好的泛化性，且前向计算时间开销较少。为了加速GA收敛，同时为了取得更好的优化结果，本文将GA与DRL相结合，提出了一种新的演化式优化方法。

S1、数据表示通过词袋模型将每一块钢板上的所有零件抽象成D维向量，所有的D维向量组成钢板数据集。

具体的，由于一块钢板包含了若干零件，而零件种类较多，故在钢板数据的抽象表示上，借鉴了自然语言处理中的词袋模型。首先为所有的零件创建一个固定顺序的零件字典，共D项；之后创建一个对应字典中零件顺序的D维向量。当表示某一块钢板时，遍历钢板中所含的零件，若包含某一类型零件的数量为k，则将向量中对应位置上的数加k.最后的D维向量作为此钢板的原始数据表示。图3中展示了典型的真实钢板零件分布，每个零件使用一种颜色的线条包围，可以看到相同形状的零件被尽量排布在一起。如图4所示，钢板P1含若干零件；遍历钢板中的零件，当访问到某一零件时，在D维向量中对应的位置加1。

同时为便于研究，本文约定机械手的分拣规则为：按字典中的零件种类顺序依次将钢板上某一类型的零件全部分拣完再分拣下一类型零件。这一分拣规则也契合零件布局知识，即钢板套料时倾向于将相同类型的零件排列在一起以最大化钢板的空间利用率，同时有助于减少机械臂分拣时反复运动。

演化式方法结构如图5所示，首先使用强化学习的方式对策略网络进行训练，得出参数化的决策策略。之后将原始的钢板数据集编码表示后输入训练完毕的决策网络，得到一个初始解(钢板优化顺序)；将初始解补充到GA的初始化种群中，增强种群的多样性，同时使得GA在搜索的初始阶段具有较高质量的解，从而减少探索阶段的时间开销，使得GA可以投入更多精力在开发阶段，加速整个过程收敛的同时提高了搜索的可靠性。最后，将GA最终种群中适应度值最优的个体作为最佳钢板分拣顺序。

S2、通过DRL方法对钢板数据集进行分拣排序问题建模优化。

DRL建模优化，通过注意力机制改造深度学习网络，同时结合强化学习训练范式，生成决策网络。

强化学习，使用DRL对分拣排序问题建模优化时使用了Actor-Critic框架进行训练，并尝试PointerNet以及Transformer网络作为Actor进行决策，同时使用一个相对简易的模型作为Critic指导Actor进行参数更新。

强化学习可以被抽象成一个马尔科夫决策过程，使用四元组<s,a,r,p>表示.其中s表示状态(state)，a表示动作(action)，r代表环境给予的奖励(reward)，p代表状态转移概率。在分拣排序问题中，a定义为决策时选择的钢板编号，s定义为所有的钢板数据与之前所有决策时刻所选择的钢板编号；r初值为0，当分拣a对应的钢板时，清框次数加1则r减1.记决策策略为π，p定义为π(s,a)，是选择动作的概率，一个状态下所有动作的概率和为1。

Actor-Critic训练框架的核心描述如下：

随机初始化Actor网络的参数w。

随机初始化Critic网络的参数wc。

For训练步数<最大训练步数do

b)梯度重置d_w＝0,

e)//Batch_Size个优化场景

f)for i from 1 to Batch_Size do

g)//graph_size:待优化的总节点数

h)count＝0；

i)while count<graph_size do

j)根据注意力网络w选择下一个要访问的节点；

k)更新当前解Xi；

l)count+＝1；

m)end while

n)计算累计奖励Ri；

o)end for

p)计算actor的梯度//V(Xⁱ；w_c)：critic网络的输出值

q)计算critic的梯度

r)w＝w+d_w；

s)wc＝w+d_wc；

t)End for。

Actor的损失函数计算如公式(2)所示，n为训练时样本的数量，A_π为优势函数，其定义见公式(4)所示。公式(5)定义了在策略π下的动作价值函数Q_π(s)，为当前状态s下采取动作a后获得的奖励r加上γ倍衰减的下一个状态s’的值函数V_π(s’)。而公式(6)则定义了状态的值函数，由此可知V_π(s)为Q_π(s)的期望值。Critic的损失函数计算如公式(3)所示，括号内的项为时间差分误差，对误差求平方和即为Critic的损失值。

V_π(s)＝E_π[r+γV_π(s′)] (6)

深度神经网络，原始的钢板表示数据较为稀疏，将其通过一个M维的全连接层，得到一个M维的稠密向量作为嵌入表示。之后决策网络的输入均为钢板的嵌入表示。嵌入层与决策网络进行联合训练。P数据代表钢板，输入一个全连接层后得到一个向量，再将次向量输入到决策网络；所谓的联合训练是指全连接层与决策网络组成一个大的网络共同训练。

决策网络PointerNet是一个典型的Encode-Decode架构。如图7所示，Encode和Decode部分分别使用了单层的LSTM结构；同时对注意力机制进行了修改，使得每次Decode的输出实际上是每个输入钢板此次可能被选择的概率向量，其维度为N，和Encode输入的序列长度一致(即输出向量的长度等于输入序列的长度)，解决了输出的向量长度固定问题。Pointer network的注意力机制可简述为如下公式：

p(C_i|C₁，...，C_i-1，P)＝softmax(uⁱ) (8)

其中e_j是Encode在时间序列j次的隐藏层输出，d_i是Decode在时间序列i次的隐藏状态输出，uⁱ＝[u₁ ⁱ，u₂ ⁱ，...，u_N ⁱ]，其维度为N，和输入序列长度保持一致，对uⁱ做softmax操作可得到所有钢板被选中的概率向量.其中v^T，W₁，W₂均为可训练的固定维度参数。而使用Transformer结构代替LSTM，组成的Encode-Decode框架拥有更加强大的表征与泛化能力。

请参阅图6，左边为编码器，右边为解码器。编码器选用了单层的注意力结构，最上层的节点为原始的输入数据，对于TSP问题为原始的城市坐标数据，对于带约束的分拣顺序优化而言，参考词袋模型将单独的钢板抽象为关于零件的固定维度向量(维度数为零件的总类数，遍历钢板内的零件时，在向量中对应零件的下标位置加1)作为输入。将输入通过一个共享的全连接层后获得嵌入表示，之后使用多头注意力机制获取注入了其它节点信息的更新嵌入表示，最后再通过一个前向层，从而获得原始节点在编码器中最后的输出表示，将输出表示求和取平均后作为问题的整体表示，此整体表示将构成解码器注意力机制中的部分查询向量。

解码器主要通过结合编码器输出的整体表示与当前解的信息，针对性的输出关于下一时刻可能被选择节点的评价。在解码器中仍然使用了注意力机制进行解码，将整体表示、当前解的第一个节点编码表示与上一时刻选择节点的编码表示进行聚合操作(其中v1和vf为可学习的标志向量)，将聚合后的向量作为查询向量，对编码器输出的节点表示进行解码；此外，使用掩码机制对已经访问过的城市或者钢板进行屏蔽，使其在最终决策时不会被选中。

S3、将优化结果输入到GA模型中，得到分拣排序最优解。

GA建模优化，使用GA对钢板分拣顺序优化问题进行建模，首先需要将问题的解(即钢板顺序)编码为GA种群中包含的个体。初始化种群时随机挑选钢板的某一组合顺序作为个体(染色体)的初始值，如图5所示，第一条染色体所代表的顺序为[P₁→P₂→...→P_N].其中P代表对应钢板的D维向量.适应度函数为F(x).

算子定义，选择算子：选择算子使用轮盘赌方法，首先依次对种群中的个体计算其适应度值F(x)，以适应度值的倒数作为其被选择的概率，最后将所有染色体对应的概率归一化。通过轮盘赌方法选出一批F(x)较小的个体作为进化的父体与母体。

交叉算子：使用交叉算子产生新的个体时，首先随机选择起始下标start与终点下标end，将父体xf[start:end]中的顺序片段保留传递至下一代；将母体中xf[start:end]的基因全部删除，并在母染色体的start位置处插入xf[start:end]所含的顺序片段，从而形成新的个体(钢板顺序)。

变异算子：使用单点交叉变异，设定变异概率Rm，使用随机函数生成0-1之间的随机数.当进行变异操作时，在染色体x中随机选择两个不同的置位i和j，将x中位置i上的基因与位置j上的基因交换。

在给出了上述的遗传算子定义后，GA在分拣顺序优化问题上的流程如方法1所示。

方法1GA在顺序优化上的建模流程，输入：变异概率Rm；种群数量Population；输出：种群中适应度值最小的个体x_best；

1.使用随机顺序初始化种群；

2.对种群中的所有个体计算其适应度函数值；

3.iteration＝0；

4.while iteration<最大迭代周期do；

5.#执行遗传操作；

6.对个体按适应度值排序，选出父体与母体；

7.运行交叉算子，产生新个体New_x；

8.删除种群中适应度值最大的个体，同时加入New_x；

9.if Rm>random()then；

10.从种群中随机选择个体x；

11.在x中随机选择两个不同的置位i和j；

12.New_x’＝Swap(x,i,j)；

13.删除种群中适应度值最大的个体，同时加入New_x’；

14.end if；

15.iteration+＝1；

16.if状态是否收敛then；

17.Break；

18.end if；

19.end while；

20.输出x_best。

在随机生成初始种群后，不断的执行选择、交叉、变异等遗传操作，直到执行完最大迭代周期数或者最优适应度值达到收敛状态(其中收敛状态定义为当种群中的最优个体连续5次不再提升)，则结束搜索过程，否则继续执行遗传进化操作。

方法实验结果，实验数据来源于某工程机械制造企业下属的智慧工厂。通过对产线上的零件种类进行统计，共有226种零件存在，即D＝226。每块钢板从零件库中挑选若干零件进行形状切割与分拣。本文对产线上某一时间段内的钢板数据进行了收集，整理了共70张真实的钢板数据，包含了所有种类的零件。同时，为了对实验数据做进一步的补充，通过随机抽取零件，生成了一批模拟钢板数据(100张)。通过模拟数据与真实数据共同使用，验证提出方法的泛化性。

本次实验的平台为：Intel Core i7-8565U@1.8GHz处理器，8G内存，无GPU加速，Windows10操作系统，Python3.8编程语言。

表3和表4分别展示了不同方法在求解不同规模真实验证集与模拟验证集(通过随机抽取N个钢板组成一条样本数据)上的效果，验证数据的输入规模为10,20,30,50,60，数据量均为2048条。求解的指标为F(x)。F(x)的值越小，则解的质量越好，说明对应方法的优化能力越强。

相关方法的参数设置如表2所示，演化式方法中的参数与GA及Transformer+RL中的参数设置相同。

表2不同方法参数设置表

Tabel 2 Parameter setting of different methods

从表3可知当验证数据的N＝10时，随机顺序分拣(目前产线的方法，作为基准方法)产生的平均清框次数为6.91，GA与SA给出解的平均清框次数分别为6.08与6.56，PointerNet与Transformer给出解的平均清框次数为6.51与6.29。而演化式方法给出解的平均清框次数为5.74.表中的百分数为对应方法相比基准方法的下降幅度。

表3不同方法在不同尺寸的真实验证集下给出的清框频率值

Tabel 3 The object values given by different methods in differentsize on real validation dataset

当验证数据的N＝20时，PointerNet给出解的平均清框次数为13.34，Transformer给出解的平均清框次数为12.89，演化式方法给出解的平均清框次数为11.71。同样的表现也发生在其他不同输入尺寸的验证数据集上，从中可以有两点推断：(1).PointerNe给出解的平F(x)值均差于Transformer给出的平均F(x)值，说明在深度网络中PointerNet的优化性能要弱于Transformer；(2).当验证数据的输入尺寸较小时，元启发式方法拥有较好的表现，而当数据输入尺寸逐步增大时，DRL开始优于元启发式方法；但在所有尺寸上演化式方法均取得了最优表现。表4中亦展现出同样的趋势。

表4不同方法在不同尺寸的模拟验证集下给出的清框频率值

Tabel 4 The object values given by different methods in differentsize on simulated validation dataset

计算效率的统计，表5展示了单独GA与演化式方法在求解不同规模验证数据集上的整体时间开销(运行10次取平均)，单位为秒。在验证数据的N较大，如N＝70时，单独GA的时间开销为941.47秒，而演化式方法的时间开销为883.94(795.46+88.48)秒，其中包含了Transformer的运行时间88.48秒.由表中的曲线趋势可知，在钢板集的尺寸较大时，结合了Tranformer与GA的演化式方法相比于传统的GA，其时间开销的优势较明显。这对于大规模生产中实时性要求较高的场景而言极具性价比。

表5 GA与演化式算法在不同尺寸数据上的时间开销

Tabel 5 The Time cost of GA and evolutionary algorithm on data withdifferent size

究其原因，当求解数据规模较小时，GA在较短的时间内亦可寻得质量不错的解；然而，当求解数据的规模逐步增大时，由于维度恶化，其所需的时间开销亦明显增大；而演化式方法由于DRL的加持，使得GA专注于开发阶段，从而降低了整体的时间开销。

请参阅图8，本发明提供一种钢板分拣系统，包括分拣机器人10、传送架20、以及钢板30，分拣机器人10用于根据分拣作业调度方法对钢板30上的零件进行分拣操作，传送架20用于传送钢板物料。分拣机器人10包括机械手101和机械臂102。

与相关技术相比较，本发明的基于深度强化学习的演化式分拣作业调度方法对分拣作业进行调度优化有助于企业优化生产流程，提高生产效率；针对重型工业分拣作业场景提出了一种数据表示与演化式优化方法，通过类比词袋模型对钢板数据进行抽象表示；演化式方法则通过DRL与GA联合优化目标函数。相关的实验结果证明了数据表示的有效性，同时也证明了演化式方法的优势。在真实的验证数据集与模拟的验证数据集上将目标值降低16.93％与20.80％，同时在时间开销上相比传统的GA也具有优势。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度强化学习的演化式分拣作业调度方法，其特征在于，包括：

通过词袋模型将每一块钢板上的所有零件抽象成D维向量，所有的D维向量组成钢板数据集；包括：利用自然语言处理中的词袋模型为所有的零件创建一个固定顺序的零件字典，共D项，之后创建一个对应字典中零件顺序的D维向量；当表示某一块钢板时，遍历钢板中所含的零件，若包含某一类型零件的数量为k，则将向量中对应位置上的数加k，D维向量作为此钢板的原始数据表示；

通过DRL方法对钢板数据集进行分拣排序问题建模优化；包括：利用actor损失函数来选择动作的概率，利用critic损失函数来对选择的动作进行评分；将训练完成的actor输入到PointerNet的嵌入层进行训练，得到所有钢板被选中的概率向量；

将优化结果输入到GA模型中，以清框次数最小为目标，得到分拣排序最优解。

2.根据权利要求1所述的基于深度强化学习的演化式分拣作业调度方法，其特征在于，所述将优化结果输入到GA模型中，以清框次数最小为目标，得到分拣排序最优解包括：

3.根据权利要求1所述的基于深度强化学习的演化式分拣作业调度方法，其特征在于，所述PointerNet包括编码器和解码器；

4.根据权利要求2所述的基于深度强化学习的演化式分拣作业调度方法，其特征在于，所述GA搜索种群中高质量的解以加速GA收敛，最终得到GA种群中适度值最优解包括：

随机顺序初始化种群G；

对父体和母体使用交叉算子产生新个体x；

5.根据权利要求1-4任意一项所述的基于深度强化学习的演化式分拣作业调度方法，其特征在于，所述最优解定义为钢板分拣顺序优化问题，其公式为：

其中，x为带分拣顺序的N个钢板数据，记为[...→P_i-1→P_i→...→P_j-1→P_j->...]，P代表钢板数据，其中i,j<＝N，且i≠j；V_θ<＝L，θ∈{0,1,2,...,T}；θ当前物料框中零件的种类数，θ<＝T；F目标函数，定义为清框次数，输入为x，根据码放规则对给定分拣顺序的钢板集进行分拣，输出值为产生的清框次数。

6.一种钢板分拣系统，其特征在于，包括分拣机器人，所述分拣机器人应用如权利要求1-5任一所述的基于深度强化学习的演化式分拣作业调度方法的步骤。