CN116050803A - 一种定制家具板件自动分拣的动态调度方法 - Google Patents

一种定制家具板件自动分拣的动态调度方法 Download PDF

Info

Publication number
CN116050803A
CN116050803A CN202310170947.6A CN202310170947A CN116050803A CN 116050803 A CN116050803 A CN 116050803A CN 202310170947 A CN202310170947 A CN 202310170947A CN 116050803 A CN116050803 A CN 116050803A
Authority
CN
China
Prior art keywords
plate
warehouse
sorting
plates
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310170947.6A
Other languages
English (en)
Other versions
CN116050803B (zh
Inventor
彭乘风
李翔
廖勇
蒋纯志
雷大军
黄健全
谢光奇
段凌飞
张宏桥
林安平
刘荣胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangnan University
Original Assignee
Xiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangnan University filed Critical Xiangnan University
Priority to CN202310170947.6A priority Critical patent/CN116050803B/zh
Publication of CN116050803A publication Critical patent/CN116050803A/zh
Application granted granted Critical
Publication of CN116050803B publication Critical patent/CN116050803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Factory Administration (AREA)

Abstract

一种定制家具板件自动分拣的动态调度方法,包括以下步骤:步骤S1:结合分拣车间中的生产工序,构建出车间分拣的目标函数;步骤S2:针对车间生产的不确定性,对定制家具分拣抽象为序贯决策问题,并通过Q学习自适应算法对序贯决策问题进行求算,获取到的评价值,使用所述评价值近似等效目标函数值。本发明基于Q学习自适应算法对板件的分拣问题进行求解,相较于现有的规则算法更能在动态分拣调度优化问题求解中取得优异的表现。

Description

一种定制家具板件自动分拣的动态调度方法
技术领域
本发明涉及分拣调度技术领域,特别是一种定制家具板件自动分拣的动态调度方法。
背景技术
纵观当今家具行业的发展,家具产品逐渐从非定制化走向定制化,产品种类让人应接不暇。用人力去进行家具分拣过程板件分拣变得困难且常会出现错误分拣的现象。于是,采用智能化的自动分拣系统取代人工进行板件的分拣变成了家具板件分拣过程的一个趋势。自动分拣系统对板件的分拣过程一般为:板件到达自动分拣系统后入库暂存,同一订单板件入库完毕后开始进行板件的分拣出库,通常出库后会经过合流移载到达打包区进行打包作业。
但是在定制家具板件的分拣中,由于定制家具受前序生产环节不确定因素影响,同一订单中不同的板件到达自动分拣系统的时间具有不确定性,使用现有的算法对于模型系统进行控制容易造成工序步骤堵塞,从而影响自动分拣系统的操作中调度的流畅性以及减低分拣效率。
发明内容
针对上述缺陷,本发明的目的在于提出种定制家具板件自动分拣的动态调度方法。
为达此目的,本发明采用以下技术方案:一种定制家具板件自动分拣的动态调度方法,包括以下步骤:
步骤S1:结合分拣车间中的生产工序,构建出车间分拣的目标函数;
步骤S2:针对车间生产的不确定性,对定制家具分拣抽象为序贯决策问题,并通过Q学习自适应算法对序贯决策问题进行求算,获取到的评价值,使用所述评价值近似等效目标函数值。
优选的,包括以下步骤:
在步骤S1中所述生产工序依次包括板件的入库、出库、合流移载和打包;
所述目标函数如下所示:
min f=α*max(Ci4)+(1-α)*max(Ci2)  (1);
其中所述目标函数存在如下约束条件:
Figure BDA0004098215380000021
Figure BDA0004098215380000022
Figure BDA0004098215380000023
Figure BDA0004098215380000024
Figure BDA0004098215380000025
Figure BDA0004098215380000026
Figure BDA0004098215380000027
Figure BDA0004098215380000028
Figure BDA0004098215380000029
Figure BDA00040982153800000210
Figure BDA00040982153800000211
Figure BDA00040982153800000212
Figure BDA00040982153800000213
Figure BDA00040982153800000214
Figure BDA00040982153800000215
Figure BDA00040982153800000216
Figure BDA0004098215380000031
其中α表示包装完工时间所占优化目标的权重,1-α表示出库完工时间所占的权重,i和j分别均为板件编号的索引,i、j随着Rik的递增而递增,Rik为第k阶段的第i板件到达的时间,k为阶段索引,1、2、3、4在阶段索引中分别表示入库、出库、合流移载和打包阶段,n表示订单总板件数,b表示入库缓冲区容量,Sik表示第k阶段第i板件的开工时间,Pik表示第k阶段第i板件的处理时间,Cik表示第k阶段第i板件的完工时间,Tkk′表示第k阶段到第k′阶段的线体运输时间,mk表示第k阶段的机器总数,L表示正数,Oi表示i板件所述订单编号为O,Bi表示在规定的包装顺序中第i板件的紧后板件若为此订单的该包件内的最后一块板,元素则为当前索引;
Uijmk的取值范围在{0,1},当第k阶段机器m上板件j紧跟在板件i之后处理时,Uijmk=1,若否则Uijmk=0;
Ximk的取值范围在{0,1},当第k阶段板件i分配到机器m时,Ximk=1,若否则Ximk=0。
优选的,在执行步骤S2前,还需要对Q学习自适应算法进行参数定义;
其中所述参数定义包括Q学习自适应算法的动作集定义;
其中动作集定义为对板件入库的动作进行定义;
其中动作集定义的具体内容如下:
Step1:判断是否有新的板件到达入库阶段,若有新的板件达到,则判断是否有空闲分拣机,若不存空闲的分拣机在则执行步骤Step2,若存在分拣机则执行步骤Step3;
Step2:将每一台分拣的最早可用时间作为新的板件入库任务的开始时间,执行步骤Step3;
Step3:判断是否板件进行出库。若存在有板件进行出库,则没有板件进行出库,则按照先到先服务的原则对新板件进行入库,完成新板件的入库工作;
Step4:若存在有板件出库,则根据出库板件的加工时长从大到小进行排序,并根据排序结果安排板件加工时间小的板件进行出库,得到重调度时刻;
Step5:并判断入库工序前缓冲区板件的数量是否大于警戒线的阈值,若小于,则继续正常进行出入库任务;若大于,则立刻安排缓冲区内板件进行入库操作。
优选的,其中所述参数定义包括Q学习自适应算法的状态空间的划分;
其中状态空间的划分具体为:
根据各重调度时刻,定义缓冲区的板件数量作为状态空间NI,并将状态空间NI作为系统的状态,将缓冲区板件的拥挤程度CS作为划分状态空间的特征参数;其中定义为此时缓冲区板件数量NI与缓冲区容量B的比值。
优选的,其中所述参数定义包括Q学习自适应算法的奖赏函数的设置;
其中奖赏函数的设置具体为:
将各重调度时刻后板件的出库完工时间推移量
Figure BDA0004098215380000041
和缓冲区拥挤程度的变化
Figure BDA0004098215380000042
的加权和作为对上一重调度时刻所采取的动作的总奖赏rt-1
具体的总奖赏rt-1的求算公式如下:
Figure BDA0004098215380000043
Figure BDA0004098215380000044
Figure BDA0004098215380000045
其中ω1和ω2为总奖赏函数的权重,ct和ct-1分别表示当前重调度时刻和上一重调度时刻采取某个启发式规则算法所得到的最大出库完工时间,
Figure BDA0004098215380000051
表示新到达的入库板件的入库处理时间总和,CSt和CSt-1分别表示当前时刻与上一时刻缓冲区的拥挤程度。
优选的,在步骤S2中Q学习自适应算法具体如下:
Figure BDA0004098215380000052
Figure BDA0004098215380000053
其中β为学习因子,
Figure BDA0004098215380000054
为在状态s采取a-动作后对动作a的最大评价值,γ为折扣因子,r(ss-,a-)为奖励值,ω为奖励值的权重值;
所述步骤S2中通过Q学习自适应算法对序贯决策问题进行求算,获取到的评价值的步骤具体如下:
步骤S21:重置上一个时刻的状态s-以及上一个时刻的状态行动a-
步骤S22:判断是否是否发生重调度时刻,若发生则获取当前时刻的拥挤程度CSt,将当前时刻的拥挤程度CSt定位为当前状态s;
步骤S23:判断上一个时刻的状态s-是否为空值,若是则基于贪心规则从动作合集A(s)中选择一个动作a,结合动作a作用后的调度方案,根据公式(20)计算板件出库完工时间推移量奖励值,并将板件出库完工时间推移量奖励值代入到r(s|s-,a-)对Q(s,a)进行更新;
若上一个时刻的状态S-为非空值,则通过公式(21)计算当前缓存区拥挤程度的变化奖励值,并将缓存区拥挤程度的变化奖励值代入到r(s|s-,a-)对Q(s,a)进行更新;
步骤S24:判断当前的调度是否结束,若未结束,则重新执行步骤S22~S23;若结束则执行步骤S25;
步骤S25:判断Q学习自适应算法是否满足学习周期,若不满足,则重新执行步骤S22~S24,若满足则输出评价值。
上述技术方案中的一个技术方案具有如下优点或有益效果:本发明基于Q学习自适应算法对板件的分拣问题进行求解,相较于现有的规则算法更能在动态分拣调度优化问题求解中取得优异的表现。
附图说明
图1是本发明的一个工序的流程图。
图2是本发明的一个实施例中不同调度情况下Q学习自适应算法的性能指标比较折线图。
图3是本发明的一个实施例中不同调度情况下Q学习自适应算法的缓冲区堵塞率折线图。
具体实施方式
下面详细描述本发明的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的实施方式的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1~3所示,一种定制家具板件自动分拣的动态调度方法,包括以下步骤:
步骤S1:结合分拣车间中的生产工序,构建出车间分拣的目标函数;
步骤S2:针对车间生产的不确定性,对定制家具分拣抽象为序贯决策问题,并通过Q学习自适应算法对序贯决策问题进行求算,获取到的评价值,使用所述评价值近似等效目标函数值。
优选的,包括以下步骤:
在步骤S1中所述生产工序依次包括板件的入库、出库、合流移载和打包;
所述目标函数如下所示:
min f=α*max(Ci4)+(1-α)*max(Ci2)  (1);
其中所述目标函数存在如下约束条件:
Figure BDA0004098215380000071
Figure BDA0004098215380000072
Figure BDA0004098215380000073
Figure BDA0004098215380000074
Figure BDA0004098215380000075
Figure BDA0004098215380000076
Figure BDA0004098215380000077
Figure BDA0004098215380000078
Figure BDA0004098215380000081
Figure BDA0004098215380000082
Figure BDA0004098215380000083
Figure BDA0004098215380000084
Figure BDA0004098215380000085
Figure BDA0004098215380000086
Figure BDA0004098215380000087
Figure BDA0004098215380000088
Figure BDA0004098215380000089
其中α表示包装完工时间所占优化目标的权重,1-α表示出库完工时间所占的权重,i和j分别均为板件编号的索引,i、j随着Rik的递增而递增,Rik为第k阶段的第i板件到达的时间,k为阶段索引,1、2、3、4在阶段索引中分别表示入库、出库、合流移载和打包阶段,n表示订单总板件数,b表示入库缓冲区容量,Sik表示第k阶段第i板件的开工时间,Pik表示第k阶段第i板件的处理时间,Cik表示第k阶段第i板件的完工时间,Tkk′表示第k阶段到第k′阶段的线体运输时间,mk表示第k阶段的机器总数,L表示正数,Oi表示i板件所述订单编号为O,Bi表示在规定的包装顺序中第i板件的紧后板件若为此订单的该包件内的最后一块板,元素则为当前索引;
Uijmk的取值范围在{0,1},当第k阶段机器m上板件j紧跟在板件i之后处理时,Uijmk=1,若否则Uijmk=0;
Ximk的取值范围在{0,1},当第k阶段板件i分配到机器m时,Ximk=1,若否则Ximk=0。
公式(1)表示目标函数;公式(2)表示第1阶段后的板件无紧前紧后联系;公式(3)(4)表示第1阶段后,板件具有明确的先后关系,两块板件不会同时在1台机器上被处理;公式(5)表示在第1阶段后,若板件i比板件j早处理,那么板件i不允许出现在板件j后;公式(6)表示在第1阶段后,机器m具有该台机器m所要处理的某块板件的前后板件顺序关系;公式(7)表示第1阶段后,机器m不能同时处理超过1块板件;公式(8)表示在第1阶段后,板件不能指派到超过1台机器上被处理;公式(9)(10)表示在第4阶段,一个包装任务内的所有板件都会在一个打包机上根据已确定的包装顺序进行包装。公式(11)表示第1阶段后,机器在某一时刻每次处理板件数目不能超过一块,且处理下一块板件需要等到此时该块板件处理完;公式(12)表示,除第1、2阶段外,机器m上某块板件的到达时间为该板件在前一阶段机器的完工时间与运输时间的和(若第1阶段处理板件的机器不是同一台,那么第1阶段到第2阶段的运输时间也不同);公式(13)表示,每个阶段板件没到达前板件均不能开工;公式(14)表示在各阶段板件的完工时间等于其开工时间加上处理时间;公式(15)表示在第1阶段的机器在某一时刻每次处理板件数目不能超过一块,且处理下一块板件需要等到此时该块板件处理完;公式(16)(17)表示在第1阶段缓冲区板件数量不超过缓冲区容量;公式(18)表示,某块板件的出库只能在其隶属的订单板件集合全部入库后进行。
定制家具自动分拣系统的板件动态分拣过程可以抽象为MDP,是一个序贯决策问题。系统根据各时刻的状态s从动作集合A中选取一个动作a并执行,系统状态s结合动作的选择和状态间的转移概率迁移至下一个状态,然后系统再根据选取动作,再进行状态迁移,如此迭代直至状态和动作收敛。
过程中所选取的动作便是分拣调度优化问题的最优解。但大多实际的问题场景下要计算出系统状态间的转移概率十分困难,此时的MDP并不全知。求解MDP未知的强化学习算法常见的有瞬时差分算法(Temporal Difference,TD)、Q学习算法(Q-Learning)和Sarsa算法,Q学习算法相较于TD算法和Sarsa算法具有实现简单且求解性能稳定的优点,它通过更新状态和动作对构成的评价值Q(s,a)直至收敛来获得最优解。
优选的,在执行步骤S2前,还需要对Q学习自适应算法进行参数定义;
其中所述参数定义包括Q学习自适应算法的动作集定义;
其中动作集定义为对板件入库的动作进行定义;
其中动作集定义的具体内容如下:
Step1:判断是否有新的板件到达入库阶段,若有新的板件达到,则判断是否有空闲分拣机,若不存空闲的分拣机在则执行步骤Step2,若存在分拣机则执行步骤Step3;
Step2:将每一台分拣的最早可用时间作为新的板件入库任务的开始时间,执行步骤Step3;
Step3:判断是否板件进行出库。若存在有板件进行出库,则没有板件进行出库,则按照先到先服务的原则对新板件进行入库,完成新板件的入库工作;
Step4:若存在有板件出库,则根据出库板件的加工时长从大到小进行排序,并根据排序结果安排板件加工时间小的板件进行出库,得到重调度时刻;
Step5:并判断入库工序前缓冲区板件的数量是否大于警戒线的阈值,若小于,则继续正常进行出入库任务;若大于,则立刻安排缓冲区内板件进行入库操作。
为防止缓冲区堵塞,需设立警戒线控制缓冲区缓存板件的数量,并定义当缓冲区板件数量大于或等于警戒线时触发事件驱动型重调度,优先指派分拣机对缓冲区内板件执行入库操作。警戒线由公式(24)计算,D为警戒线,e为缓冲区容量,q为警戒线系数,q∈[0,1]。
D=e*q(24);
警戒线系数的设置对优化目标具有重要影响。过低的警戒线系数将会频繁执行优先入库的操作,降低了出库效率;过高的警戒线系数会增加出库任务大幅后移的风险,即当一定数量的新板件到达缓冲区后,有一定几率与缓冲区内剩余板件堵塞掉缓冲区,触发优先入库操作,使得出库任务大幅后移,该后果会令后续打包作业操作需要大幅调整,造成时间和资源的浪费。
优选的,其中所述参数定义包括Q学习自适应算法的状态空间的划分;
其中状态空间的划分具体为:
根据各重调度时刻,定义缓冲区的板件数量作为状态空间NI,并将状态空间NI作为系统的状态,将缓冲区板件的拥挤程度CS作为划分状态空间的特征参数;其中定义为此时缓冲区板件数量NI与缓冲区容量B的比值。
根据动作集和状态空间给出如表1所示的状态-动作值表(Q表),系统将在学习过程中不断更新表中值直到Q值收敛。
表1Q学习算法的状态-动作值表
Figure BDA0004098215380000111
Figure BDA0004098215380000121
优选的,其中所述参数定义包括Q学习自适应算法的奖赏函数的设置;
其中奖赏函数的设置具体为:
将各重调度时刻后板件的出库完工时间推移量
Figure BDA0004098215380000122
和缓冲区拥挤程度的变化
Figure BDA0004098215380000123
的加权和作为对上一重调度时刻所采取的动作的总奖赏rt-1
具体的总奖赏rt-1的求算公式如下:
Figure BDA0004098215380000124
Figure BDA0004098215380000125
Figure BDA0004098215380000126
其中ω1和ω2为总奖赏函数的权重,ct和ct-1分别表示当前重调度时刻和上一重调度时刻采取某个启发式规则算法所得到的最大出库完工时间,
Figure BDA0004098215380000127
表示新到达的入库板件的入库处理时间总和,CSt和CSt-1分别表示当前时刻与上一时刻缓冲区的拥挤程度。
奖赏函数与优化目标(最小化出库完工时间和最小化包装完工时间的加权和)联系密切,目标函数是两个完工时间的加权和,一个是最小化出库完工时间,另一个是最小化包装完工时间。系统采取的动作作用于环境后,目标函数值越小,那么智能体获得的奖赏越多。故将各重调度时刻后板件的出库完工时间推移量
Figure BDA0004098215380000128
和缓冲区拥挤程度的变化
Figure BDA0004098215380000129
的加权和作为对上一重调度时刻所采取的动作的总奖赏rt-1
优选的,在步骤S2中Q学习自适应算法具体如下:
Figure BDA0004098215380000131
Figure BDA0004098215380000132
其中β为学习因子,
Figure BDA0004098215380000133
为在状态s采取a-动作后对动作a的最大评价值,γ为折扣因子,r(ss-,a-)为奖励值,ω为奖励值的权重值;
所述步骤S2中通过Q学习自适应算法对序贯决策问题进行求算,获取到的评价值的步骤具体如下:
步骤S21:重置上一个时刻的状态s-以及上一个时刻的状态行动a-
步骤S22:判断是否是否发生重调度时刻,若发生则获取当前时刻的拥挤程度CSt,将当前时刻的拥挤程度CSt定位为当前状态s;
步骤S23:判断上一个时刻的状态s-是否为空值,若是则基于贪心规则从动作合集A(s)中选择一个动作a,结合动作a作用后的调度方案,根据公式(20)计算板件出库完工时间推移量奖励值,并将板件出库完工时间推移量奖励值代入到r(s|s-,a-)对Q(s,a)进行更新;
若上一个时刻的状态S-为非空值,则通过公式(21)计算当前缓存区拥挤程度的变化奖励值,并将缓存区拥挤程度的变化奖励值代入到r(s|s-,a-)对Q(s,a)进行更新;
步骤S24:判断当前的调度是否结束,若未结束,则重新执行步骤S22~S23;若结束则执行步骤S25;
步骤S25:判断Q学习自适应算法是否满足学习周期,若不满足,则重新执行步骤S22~S24,若满足则输出评价值。
在本发明一个实施例的实验环境参数有如下设置:
机器规模设置一个水平,5台分拣机、3台合流移载机、9台打包机;重调度周期设置一个水平,100秒;缓冲区容量设置一个水平,最多能同时容纳5块板件。另外,为获得对比实验的结果,设置两个订单规模水平,分别是5和15;设置分拣机利用率(板件到达强度)三个水平,分别是0.8、1.0和1.2;设置警戒线系数五个水平,分别是0.1、0.3、0.5、0.7、0.9,Q学习算法设置3种奖赏函数权重水平,分别是[0.2,0.8]、[0.5,0.5]、[0.8,0.2]。将各实验环境参数水平之间进行组合,并在1*1*1*12*3*8=48种实验环境中重复进行10次系统仿真实验。故本轮实验将共计求解480个问题算例。
其中仿真实验在CPU为11th Gen Intel(R)Core(TM)i7-11800H@2.30GHz、内存16GB的计算机上采用matlab2019b仿真软件编程实现。
作为本发明的优化目标,最小化最大出库完工时间和最小化包装完工时间的加权和将作为衡量系统性能的指标。
以下图表中以O表示订单数量,U表示分拣机利用率。如表2和图2所示是规则算法和自适应算法的性能指标求解表现,其中在表中结果后标记“*”表示该结果为某情形该种算法中的最优解、标记“#”表示次优解、在结果下标记“_”表示最差解。
表2不同调度情况下Q学习自适应算法的性能指标比较
Figure BDA0004098215380000141
Figure BDA0004098215380000151
从表2图2可以看出,警戒线系数为0.1的规则算法求解出来的系统性能指标基本为最差解,而最优解或次优解基本在奖赏函数权重为[0.8,0.2]的自适应算法或警戒线系数为0.9的规则算法处取得,尤其是在分拣机利用率为0.8的情形下,奖赏函数权重为[0.8,0.2]的自适应算法的性能指标表现十分优秀。
另一方面缓冲区堵塞率为各重调度时刻系统的拥堵程度累加求和并取平均值。
表3不同调度情况下Q学习自适应算法的缓冲区堵塞率
Figure BDA0004098215380000152
从表3和图3可以看出,在分拣机利用率为1.0和1.2的情形下(板件到达强度较强),随着警戒线系数取值升高,图中缓冲区堵塞率不断增大,最优解基本在奖赏权重为[0.2,0.8]的自适应算法表现中取得。但当分拣机利用率下降到0.8时,板件到达强度减弱,板件出入库强度降低,此时算法对缓存区拥堵率的相关性影响有所减弱。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施实施进行变化、修改、替换和变型。

Claims (6)

1.一种定制家具板件自动分拣的动态调度方法,其特征在于:包括以下步骤:
步骤S1:结合分拣车间中的生产工序,构建出车间分拣的目标函数;
步骤S2:针对车间生产的不确定性,对定制家具分拣抽象为序贯决策问题,并通过Q学习自适应算法对序贯决策问题进行求算,获取到的评价值,使用所述评价值近似等效目标函数值。
2.根据权利要求1所述的一种定制家具板件自动分拣的动态调度方法,其特征在于:包括以下步骤:
在步骤S1中所述生产工序依次包括板件的入库、出库、合流移载和打包;
所述目标函数如下所示:
min f=α*max(Ci4)+(1-α)*max(Ci2)              (1);
其中所述目标函数存在如下约束条件:
Figure FDA0004098215370000011
Figure FDA0004098215370000012
Figure FDA0004098215370000013
Figure FDA0004098215370000014
Figure FDA0004098215370000015
Figure FDA0004098215370000016
Figure FDA0004098215370000017
Figure FDA0004098215370000018
Figure FDA0004098215370000019
Figure FDA00040982153700000110
Figure FDA00040982153700000111
Figure FDA0004098215370000021
Figure FDA0004098215370000022
Figure FDA0004098215370000023
Figure FDA0004098215370000024
Figure FDA0004098215370000025
Figure FDA0004098215370000026
其中α表示包装完工时间所占优化目标的权重,1-α表示出库完工时间所占的权重,i和j分别均为板件编号的索引,i、j随着Rik的递增而递增,Rik为第k阶段的第i板件到达的时间,k为阶段索引,1、2、3、4在阶段索引中分别表示入库、出库、合流移载和打包阶段,n表示订单总板件数,b表示入库缓冲区容量,Sik表示第k阶段第i板件的开工时间,Pik表示第k阶段第i板件的处理时间,Cik表示第k阶段第i板件的完工时间,Tkk′表示第k阶段到第k′阶段的线体运输时间,mk表示第k阶段的机器总数,L表示正数,Oi表示i板件所述订单编号为O,Bi表示在规定的包装顺序中第i板件的紧后板件若为此订单的该包件内的最后一块板,元素则为当前索引;
Uijmk的取值范围在{0,1},当第k阶段机器m上板件j紧跟在板件i之后处理时,Uijmk=1,若否则Uijmk=0;
Ximk的取值范围在{0,1},当第k阶段板件i分配到机器m时,Ximk=1,若否则Ximk=0。
3.根据权利要求1所述的一种定制家具板件自动分拣的动态调度方法,其特征在于:在执行步骤S2前,还需要对Q学习自适应算法进行参数定义;
其中所述参数定义包括Q学习自适应算法的动作集定义;
其中动作集定义为对板件入库的动作进行定义;
其中动作集定义的具体内容如下:
Step1:判断是否有新的板件到达入库阶段,若有新的板件达到,则判断是否有空闲分拣机,若不存空闲的分拣机在则执行步骤Step2,若存在分拣机则执行步骤Step3;
Step2:将每一台分拣的最早可用时间作为新的板件入库任务的开始时间,执行步骤Step3;
Step3:判断是否板件进行出库,若存在有板件进行出库,则没有板件进行出库,则按照先到先服务的原则对新板件进行入库,完成新板件的入库工作;
Step4:若存在有板件出库,则根据出库板件的加工时长从大到小进行排序,并根据排序结果安排板件加工时间小的板件进行出库,得到重调度时刻;
Step5:并判断入库工序前缓冲区板件的数量是否大于警戒线的阈值,若小于,则继续正常进行出入库任务;若大于,则立刻安排缓冲区内板件进行入库操作。
4.根据权利要求3所述的一种定制家具板件自动分拣的动态调度方法,其特征在于:其中所述参数定义包括Q学习自适应算法的状态空间的划分;
其中状态空间的划分具体为:
根据各重调度时刻,定义缓冲区的板件数量作为状态空间NI,并将状态空间NI作为系统的状态,将缓冲区板件的拥挤程度CS作为划分状态空间的特征参数;其中定义为此时缓冲区板件数量NI与缓冲区容量B的比值。
5.根据权利要求4所述的一种定制家具板件自动分拣的动态调度方法,其特征在于:其中所述参数定义包括Q学习自适应算法的奖赏函数的设置;
其中奖赏函数的设置具体为:
将各重调度时刻后板件的出库完工时间推移量
Figure FDA0004098215370000041
和缓冲区拥挤程度的变化
Figure FDA0004098215370000042
的加权和作为对上一重调度时刻所采取的动作的总奖赏rt-1
具体的总奖赏rt-1的求算公式如下:
Figure FDA0004098215370000043
Figure FDA0004098215370000044
Figure FDA0004098215370000045
其中ω1和ω2为总奖赏函数的权重,ct和ct-1分别表示当前重调度时刻和上一重调度时刻采取某个启发式规则算法所得到的最大出库完工时间,
Figure FDA0004098215370000046
表示新到达的入库板件的入库处理时间总和,CSt和CSt-1分别表示当前时刻与上一时刻缓冲区的拥挤程度。
6.根据权利要求4所述的一种定制家具板件自动分拣的动态调度方法,其特征在于:
在步骤S2中Q学习自适应算法具体如下:
Figure FDA0004098215370000047
Figure FDA0004098215370000048
其中β为学习因子,
Figure FDA0004098215370000049
为在状态s采取a-动作后对动作a的最大评价值,γ为折扣因子,r(s|s-,a-)为奖励值,ω为奖励值的权重值;
所述步骤S2中通过Q学习自适应算法对序贯决策问题进行求算,获取到的评价值的步骤具体如下:
步骤S21:重置上一个时刻的状态s-以及上一个时刻的状态行动a-
步骤S22:判断是否是否发生重调度时刻,若发生则获取当前时刻的拥挤程度CSt,将当前时刻的拥挤程度CSt定位为当前状态s;
步骤S23:判断上一个时刻的状态s-是否为空值,若是则基于贪心规则从动作合集A(s)中选择一个动作a,结合动作a作用后的调度方案,根据公式(20)计算板件出库完工时间推移量奖励值,并将板件出库完工时间推移量奖励值代入到r(s|s-,a-)对Q(s,a)进行更新;
若上一个时刻的状态S-为非空值,则通过公式(21)计算当前缓存区拥挤程度的变化奖励值,并将缓存区拥挤程度的变化奖励值代入到r(s|s-,a-)对Q(s,a)进行更新;
步骤S24:判断当前的调度是否结束,若未结束,则重新执行步骤S22~S23;若结束则执行步骤S25;
步骤S25:判断Q学习自适应算法是否满足学习周期,若不满足,则重新执行步骤S22~S24,若满足则输出评价值。
CN202310170947.6A 2023-02-27 2023-02-27 一种定制家具板件自动分拣的动态调度方法 Active CN116050803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310170947.6A CN116050803B (zh) 2023-02-27 2023-02-27 一种定制家具板件自动分拣的动态调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310170947.6A CN116050803B (zh) 2023-02-27 2023-02-27 一种定制家具板件自动分拣的动态调度方法

Publications (2)

Publication Number Publication Date
CN116050803A true CN116050803A (zh) 2023-05-02
CN116050803B CN116050803B (zh) 2023-07-25

Family

ID=86125664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310170947.6A Active CN116050803B (zh) 2023-02-27 2023-02-27 一种定制家具板件自动分拣的动态调度方法

Country Status (1)

Country Link
CN (1) CN116050803B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734172A (zh) * 2020-12-25 2021-04-30 南京理工大学 一种基于时序差分的混合流水车间调度方法
CN113792924A (zh) * 2021-09-16 2021-12-14 郑州轻工业大学 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
CN114707881A (zh) * 2022-04-18 2022-07-05 贵州大学 一种基于深度强化学习的作业车间自适应调度方法
JP2022148935A (ja) * 2021-03-24 2022-10-06 トーヨーカネツ株式会社 物流システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734172A (zh) * 2020-12-25 2021-04-30 南京理工大学 一种基于时序差分的混合流水车间调度方法
JP2022148935A (ja) * 2021-03-24 2022-10-06 トーヨーカネツ株式会社 物流システム
CN113792924A (zh) * 2021-09-16 2021-12-14 郑州轻工业大学 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
CN114707881A (zh) * 2022-04-18 2022-07-05 贵州大学 一种基于深度强化学习的作业车间自适应调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SONG LIBO ET AL.: "Discrete particle swarm algorithm with Q-Learning for solving flexible job shop scheduling problem with parallel batch processing machine", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 *
林煊: "定制家具自动分拣系统出入库调度算法研究", 《知网》, pages 1 - 68 *

Also Published As

Publication number Publication date
CN116050803B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US3648253A (en) Program scheduler for processing systems
WO2022188388A1 (zh) 基于蚁群优化算法的智慧城市动态冷链物流调度方法
US7801640B1 (en) Continuous item picking in a distribution center using coordinated item picking periods
CN108846623A (zh) 基于多目标蚁群算法的整车物流调度方法及装置、存储介质、终端
US20110246596A1 (en) Load-aware method of optimizing command execution in a cloud environment
CN114443249A (zh) 一种基于深度强化学习的容器集群资源调度方法及系统
CN114968510A (zh) 一种基于改进蚁群算法的多目标动态任务调度方法和系统
CN109670689A (zh) 一种基于免疫粒子群的科学工作流多目标调度方法
CN115033357A (zh) 基于动态资源选择策略的微服务工作流调度方法及装置
CN116050803B (zh) 一种定制家具板件自动分拣的动态调度方法
CN117314283B (zh) 混流装配车间的物料配送方法、装置、系统及存储介质
CN115249121A (zh) 一种基于深度强化学习的离散制造车间鲁棒调度优化方法
CN104915557A (zh) 一种基于双目标蚁群算法的云任务分配方法
CN111880926B (zh) 一种负载均衡方法、装置及计算机存储介质
CN113435805A (zh) 物品存储信息确定方法、装置、设备和存储介质
CN116932198A (zh) 资源调度方法、装置、电子设备及可读存储介质
CN115629584A (zh) 一种基于改进乌鸦搜索算法的订单排产优化方法
CN116089083A (zh) 一种多目标数据中心资源调度方法
CN114707707A (zh) 一种基于改进的遗传算法对agv任务调度的方法及系统
Xiao et al. Learning task allocation for multiple flows in multi-agent systems
CN113496364A (zh) 一种出库的方法、出库端及仓储系统
CN112306653A (zh) 截止期约束下的工作流能耗和可靠性调度方法及装置
CN112801437A (zh) 分拣设备调度方法、装置、电子设备及存储介质
CN115599557B (zh) 一种考虑任务重要程度动态变化的调度器系统
JPH07192051A (ja) 製造計画作成装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant