CN116050803A

CN116050803A - 一种定制家具板件自动分拣的动态调度方法

Info

Publication number: CN116050803A
Application number: CN202310170947.6A
Authority: CN
Inventors: 彭乘风; 李翔; 廖勇; 蒋纯志; 雷大军; 黄健全; 谢光奇; 段凌飞; 张宏桥; 林安平; 刘荣胜
Original assignee: Xiangnan University
Current assignee: Xiangnan University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-02
Anticipated expiration: 2043-02-27
Also published as: CN116050803B

Abstract

一种定制家具板件自动分拣的动态调度方法，包括以下步骤：步骤S1：结合分拣车间中的生产工序，构建出车间分拣的目标函数；步骤S2：针对车间生产的不确定性，对定制家具分拣抽象为序贯决策问题，并通过Q学习自适应算法对序贯决策问题进行求算，获取到的评价值，使用所述评价值近似等效目标函数值。本发明基于Q学习自适应算法对板件的分拣问题进行求解，相较于现有的规则算法更能在动态分拣调度优化问题求解中取得优异的表现。

Description

一种定制家具板件自动分拣的动态调度方法

技术领域

本发明涉及分拣调度技术领域，特别是一种定制家具板件自动分拣的动态调度方法。

背景技术

纵观当今家具行业的发展，家具产品逐渐从非定制化走向定制化，产品种类让人应接不暇。用人力去进行家具分拣过程板件分拣变得困难且常会出现错误分拣的现象。于是，采用智能化的自动分拣系统取代人工进行板件的分拣变成了家具板件分拣过程的一个趋势。自动分拣系统对板件的分拣过程一般为：板件到达自动分拣系统后入库暂存，同一订单板件入库完毕后开始进行板件的分拣出库，通常出库后会经过合流移载到达打包区进行打包作业。

但是在定制家具板件的分拣中，由于定制家具受前序生产环节不确定因素影响，同一订单中不同的板件到达自动分拣系统的时间具有不确定性，使用现有的算法对于模型系统进行控制容易造成工序步骤堵塞，从而影响自动分拣系统的操作中调度的流畅性以及减低分拣效率。

发明内容

针对上述缺陷，本发明的目的在于提出种定制家具板件自动分拣的动态调度方法。

为达此目的，本发明采用以下技术方案：一种定制家具板件自动分拣的动态调度方法，包括以下步骤：

步骤S1：结合分拣车间中的生产工序，构建出车间分拣的目标函数；

步骤S2：针对车间生产的不确定性，对定制家具分拣抽象为序贯决策问题，并通过Q学习自适应算法对序贯决策问题进行求算，获取到的评价值，使用所述评价值近似等效目标函数值。

优选的，包括以下步骤：

在步骤S1中所述生产工序依次包括板件的入库、出库、合流移载和打包；

所述目标函数如下所示：

min f＝α*max(C_i4)+(1-α)*max(C_i2) (1)；

其中所述目标函数存在如下约束条件：

其中α表示包装完工时间所占优化目标的权重，1-α表示出库完工时间所占的权重，i和j分别均为板件编号的索引，i、j随着R_ik的递增而递增，R_ik为第k阶段的第i板件到达的时间，k为阶段索引，1、2、3、4在阶段索引中分别表示入库、出库、合流移载和打包阶段，n表示订单总板件数，b表示入库缓冲区容量，S_ik表示第k阶段第i板件的开工时间，P_ik表示第k阶段第i板件的处理时间，C_ik表示第k阶段第i板件的完工时间，T_kk′表示第k阶段到第k′阶段的线体运输时间，m_k表示第k阶段的机器总数，L表示正数，O_i表示i板件所述订单编号为O，B_i表示在规定的包装顺序中第i板件的紧后板件若为此订单的该包件内的最后一块板，元素则为当前索引；

U_ijmk的取值范围在{0,1}，当第k阶段机器m上板件j紧跟在板件i之后处理时，U_ijmk＝1，若否则U_ijmk＝0；

X_imk的取值范围在{0,1}，当第k阶段板件i分配到机器m时，X_imk＝1，若否则X_imk＝0。

优选的，在执行步骤S2前，还需要对Q学习自适应算法进行参数定义；

其中所述参数定义包括Q学习自适应算法的动作集定义；

其中动作集定义为对板件入库的动作进行定义；

其中动作集定义的具体内容如下：

Step1：判断是否有新的板件到达入库阶段，若有新的板件达到，则判断是否有空闲分拣机，若不存空闲的分拣机在则执行步骤Step2，若存在分拣机则执行步骤Step3；

Step2：将每一台分拣的最早可用时间作为新的板件入库任务的开始时间，执行步骤Step3；

Step3：判断是否板件进行出库。若存在有板件进行出库，则没有板件进行出库，则按照先到先服务的原则对新板件进行入库，完成新板件的入库工作；

Step4：若存在有板件出库，则根据出库板件的加工时长从大到小进行排序，并根据排序结果安排板件加工时间小的板件进行出库，得到重调度时刻；

Step5：并判断入库工序前缓冲区板件的数量是否大于警戒线的阈值，若小于，则继续正常进行出入库任务；若大于，则立刻安排缓冲区内板件进行入库操作。

优选的，其中所述参数定义包括Q学习自适应算法的状态空间的划分；

其中状态空间的划分具体为：

根据各重调度时刻，定义缓冲区的板件数量作为状态空间NI，并将状态空间NI作为系统的状态，将缓冲区板件的拥挤程度CS作为划分状态空间的特征参数；其中定义为此时缓冲区板件数量NI与缓冲区容量B的比值。

优选的，其中所述参数定义包括Q学习自适应算法的奖赏函数的设置；

其中奖赏函数的设置具体为：

将各重调度时刻后板件的出库完工时间推移量

和缓冲区拥挤程度的变化

的加权和作为对上一重调度时刻所采取的动作的总奖赏r_t-1；

具体的总奖赏r_t-1的求算公式如下：

其中ω₁和ω₂为总奖赏函数的权重，c_t和c_t-1分别表示当前重调度时刻和上一重调度时刻采取某个启发式规则算法所得到的最大出库完工时间，

表示新到达的入库板件的入库处理时间总和，CS_t和CS_t-1分别表示当前时刻与上一时刻缓冲区的拥挤程度。

优选的，在步骤S2中Q学习自适应算法具体如下：

其中β为学习因子，

为在状态s采取a^-动作后对动作a的最大评价值，γ为折扣因子，r(ss^-,a^-)为奖励值，ω为奖励值的权重值；

所述步骤S2中通过Q学习自适应算法对序贯决策问题进行求算，获取到的评价值的步骤具体如下：

步骤S21：重置上一个时刻的状态s^-以及上一个时刻的状态行动a^-；

步骤S22：判断是否是否发生重调度时刻，若发生则获取当前时刻的拥挤程度CS_t，将当前时刻的拥挤程度CS_t定位为当前状态s；

步骤S23：判断上一个时刻的状态s^-是否为空值，若是则基于贪心规则从动作合集A(s)中选择一个动作a，结合动作a作用后的调度方案，根据公式(20)计算板件出库完工时间推移量奖励值，并将板件出库完工时间推移量奖励值代入到r(s|s^-,a^-)对Q(s,a)进行更新；

若上一个时刻的状态S^-为非空值，则通过公式(21)计算当前缓存区拥挤程度的变化奖励值，并将缓存区拥挤程度的变化奖励值代入到r(s|s^-,a^-)对Q(s,a)进行更新；

步骤S24：判断当前的调度是否结束，若未结束，则重新执行步骤S22～S23；若结束则执行步骤S25；

步骤S25：判断Q学习自适应算法是否满足学习周期，若不满足，则重新执行步骤S22～S24，若满足则输出评价值。

上述技术方案中的一个技术方案具有如下优点或有益效果：本发明基于Q学习自适应算法对板件的分拣问题进行求解，相较于现有的规则算法更能在动态分拣调度优化问题求解中取得优异的表现。

附图说明

图1是本发明的一个工序的流程图。

图2是本发明的一个实施例中不同调度情况下Q学习自适应算法的性能指标比较折线图。

图3是本发明的一个实施例中不同调度情况下Q学习自适应算法的缓冲区堵塞率折线图。

具体实施方式

下面详细描述本发明的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的实施方式的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1～3所示，一种定制家具板件自动分拣的动态调度方法，包括以下步骤：

优选的，包括以下步骤：

所述目标函数如下所示：

min f＝α*max(C_i4)+(1-α)*max(C_i2) (1)；

其中所述目标函数存在如下约束条件：

公式(1)表示目标函数；公式(2)表示第1阶段后的板件无紧前紧后联系；公式(3)(4)表示第1阶段后，板件具有明确的先后关系，两块板件不会同时在1台机器上被处理；公式(5)表示在第1阶段后，若板件i比板件j早处理，那么板件i不允许出现在板件j后；公式(6)表示在第1阶段后，机器m具有该台机器m所要处理的某块板件的前后板件顺序关系；公式(7)表示第1阶段后，机器m不能同时处理超过1块板件；公式(8)表示在第1阶段后，板件不能指派到超过1台机器上被处理；公式(9)(10)表示在第4阶段，一个包装任务内的所有板件都会在一个打包机上根据已确定的包装顺序进行包装。公式(11)表示第1阶段后，机器在某一时刻每次处理板件数目不能超过一块，且处理下一块板件需要等到此时该块板件处理完；公式(12)表示，除第1、2阶段外，机器m上某块板件的到达时间为该板件在前一阶段机器的完工时间与运输时间的和(若第1阶段处理板件的机器不是同一台，那么第1阶段到第2阶段的运输时间也不同)；公式(13)表示，每个阶段板件没到达前板件均不能开工；公式(14)表示在各阶段板件的完工时间等于其开工时间加上处理时间；公式(15)表示在第1阶段的机器在某一时刻每次处理板件数目不能超过一块，且处理下一块板件需要等到此时该块板件处理完；公式(16)(17)表示在第1阶段缓冲区板件数量不超过缓冲区容量；公式(18)表示，某块板件的出库只能在其隶属的订单板件集合全部入库后进行。

定制家具自动分拣系统的板件动态分拣过程可以抽象为MDP，是一个序贯决策问题。系统根据各时刻的状态s从动作集合A中选取一个动作a并执行，系统状态s结合动作的选择和状态间的转移概率迁移至下一个状态，然后系统再根据选取动作，再进行状态迁移，如此迭代直至状态和动作收敛。

过程中所选取的动作便是分拣调度优化问题的最优解。但大多实际的问题场景下要计算出系统状态间的转移概率十分困难，此时的MDP并不全知。求解MDP未知的强化学习算法常见的有瞬时差分算法(Temporal Difference，TD)、Q学习算法(Q-Learning)和Sarsa算法，Q学习算法相较于TD算法和Sarsa算法具有实现简单且求解性能稳定的优点，它通过更新状态和动作对构成的评价值Q(s,a)直至收敛来获得最优解。

其中所述参数定义包括Q学习自适应算法的动作集定义；

其中动作集定义为对板件入库的动作进行定义；

其中动作集定义的具体内容如下：

为防止缓冲区堵塞，需设立警戒线控制缓冲区缓存板件的数量，并定义当缓冲区板件数量大于或等于警戒线时触发事件驱动型重调度，优先指派分拣机对缓冲区内板件执行入库操作。警戒线由公式(24)计算，D为警戒线，e为缓冲区容量，q为警戒线系数，q∈[0,1]。

D＝e*q(24)；

警戒线系数的设置对优化目标具有重要影响。过低的警戒线系数将会频繁执行优先入库的操作，降低了出库效率；过高的警戒线系数会增加出库任务大幅后移的风险，即当一定数量的新板件到达缓冲区后，有一定几率与缓冲区内剩余板件堵塞掉缓冲区，触发优先入库操作，使得出库任务大幅后移，该后果会令后续打包作业操作需要大幅调整，造成时间和资源的浪费。

其中状态空间的划分具体为：

根据动作集和状态空间给出如表1所示的状态-动作值表(Q表)，系统将在学习过程中不断更新表中值直到Q值收敛。

表1Q学习算法的状态-动作值表

其中奖赏函数的设置具体为：

将各重调度时刻后板件的出库完工时间推移量

和缓冲区拥挤程度的变化

具体的总奖赏r_t-1的求算公式如下：

奖赏函数与优化目标(最小化出库完工时间和最小化包装完工时间的加权和)联系密切，目标函数是两个完工时间的加权和，一个是最小化出库完工时间，另一个是最小化包装完工时间。系统采取的动作作用于环境后，目标函数值越小，那么智能体获得的奖赏越多。故将各重调度时刻后板件的出库完工时间推移量

和缓冲区拥挤程度的变化

的加权和作为对上一重调度时刻所采取的动作的总奖赏r_t-1。

优选的，在步骤S2中Q学习自适应算法具体如下：

其中β为学习因子，

在本发明一个实施例的实验环境参数有如下设置：

机器规模设置一个水平，5台分拣机、3台合流移载机、9台打包机；重调度周期设置一个水平，100秒；缓冲区容量设置一个水平，最多能同时容纳5块板件。另外，为获得对比实验的结果，设置两个订单规模水平，分别是5和15；设置分拣机利用率(板件到达强度)三个水平，分别是0.8、1.0和1.2；设置警戒线系数五个水平，分别是0.1、0.3、0.5、0.7、0.9，Q学习算法设置3种奖赏函数权重水平，分别是[0.2,0.8]、[0.5,0.5]、[0.8,0.2]。将各实验环境参数水平之间进行组合，并在1*1*1*12*3*8＝48种实验环境中重复进行10次系统仿真实验。故本轮实验将共计求解480个问题算例。

其中仿真实验在CPU为11th Gen Intel(R)Core(TM)i7-11800H@2.30GHz、内存16GB的计算机上采用matlab2019b仿真软件编程实现。

作为本发明的优化目标，最小化最大出库完工时间和最小化包装完工时间的加权和将作为衡量系统性能的指标。

以下图表中以O表示订单数量，U表示分拣机利用率。如表2和图2所示是规则算法和自适应算法的性能指标求解表现，其中在表中结果后标记“*”表示该结果为某情形该种算法中的最优解、标记“#”表示次优解、在结果下标记“_”表示最差解。

表2不同调度情况下Q学习自适应算法的性能指标比较

从表2图2可以看出，警戒线系数为0.1的规则算法求解出来的系统性能指标基本为最差解，而最优解或次优解基本在奖赏函数权重为[0.8,0.2]的自适应算法或警戒线系数为0.9的规则算法处取得，尤其是在分拣机利用率为0.8的情形下，奖赏函数权重为[0.8,0.2]的自适应算法的性能指标表现十分优秀。

另一方面缓冲区堵塞率为各重调度时刻系统的拥堵程度累加求和并取平均值。

表3不同调度情况下Q学习自适应算法的缓冲区堵塞率

从表3和图3可以看出，在分拣机利用率为1.0和1.2的情形下(板件到达强度较强)，随着警戒线系数取值升高，图中缓冲区堵塞率不断增大，最优解基本在奖赏权重为[0.2,0.8]的自适应算法表现中取得。但当分拣机利用率下降到0.8时，板件到达强度减弱，板件出入库强度降低，此时算法对缓存区拥堵率的相关性影响有所减弱。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施实施进行变化、修改、替换和变型。