CN115860239A - 一种用于非字型货架的立体仓库货位分配优化方法 - Google Patents

一种用于非字型货架的立体仓库货位分配优化方法 Download PDF

Info

Publication number
CN115860239A
CN115860239A CN202211594440.5A CN202211594440A CN115860239A CN 115860239 A CN115860239 A CN 115860239A CN 202211594440 A CN202211594440 A CN 202211594440A CN 115860239 A CN115860239 A CN 115860239A
Authority
CN
China
Prior art keywords
goods
task
learning model
warehouse
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211594440.5A
Other languages
English (en)
Inventor
钟智敏
王灵均
谭琦
程八一
刘伟
王筱圃
张弢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hkust Intelligent Internet Of Things Technology Co ltd
Hefei University of Technology
Original Assignee
Hkust Intelligent Internet Of Things Technology Co ltd
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hkust Intelligent Internet Of Things Technology Co ltd, Hefei University of Technology filed Critical Hkust Intelligent Internet Of Things Technology Co ltd
Priority to CN202211594440.5A priority Critical patent/CN115860239A/zh
Publication of CN115860239A publication Critical patent/CN115860239A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种用于非字型货架的立体仓库货位分配优化方法,包括构建基于DQN框架的强化学习模型,并定义强化学习模型中的智能体、状态空间、动作空间、奖励回报,以及其优化目标;对强化学习模型的所有参数值和策略进行初始化,并批量生成出入库任务,通过泊松到达的出入库任务训练强化学习模型;利用反向传播算法对策略梯度进行求导,计算梯度下降更新DQN网络参数,得到训练完成的强化学习模型,并应用于立体仓库进行货位智能优化。本发明通过货物出入库任务训练模型取得最优分配方案,解决了动态存储、大规模物流场景的非字型货架仓库的货位分配问题。

Description

一种用于非字型货架的立体仓库货位分配优化方法
技术领域
本发明涉及智能仓储行业技术领域,特别涉及一种用于非字型货架的立体仓库货位分配优化方法。
背景技术
自动化立体仓库以其低占地面积、高吞吐效率和智能化集成控制的特点被广泛应用于工业仓储环节,而非字型货架的立体仓库在物流行业中应用最为常见。非字型货架是一种将货架设计成外层两侧单列、内部双列的货架类型,而影响非字型货架存取作业效率的因素中,主要是货位分配问题。由于不可控的外部因素及非字型货架本身的特性,货物在入库存储时若货位分配不当,会增加出入库运行的距离和作业时间,降低出入库效率和物流企业效益。目前国内对智能立体仓储研究起步比较晚,针对于大规模物流的动态存储仍然发展缓慢,尤其缺乏适用于非字型货架货位分配的优化控制研究。
现有技术的不足之处在于,目前有提出设定规则的货位分配方法,如根据该货物的周转率的比值对货位的摆放位置进行优化,部分研究者以货物出入库频率和货架稳定性为优化目标建立适应度函数,并通过启发式算法进行优化,但现有的立体仓库货位分配优化方法有一定的局限性:现有方法考虑的现实因素少,对物流场景建模与现实情况存在偏差;需要人为设计目标函数和约束条件,对先验知识的要求较高;只能考虑到当前时间点的仓库最优情况,无法进行出入库动态规划。
发明内容
本发明的目的克服现有技术存在的不足,为实现以上目的,采用一种用于非字型货架的立体仓库货位分配优化方法,以解决上述背景技术中提出的问题。
一种用于非字型货架的立体仓库货位分配优化方法,具体步骤包括:
步骤S1、构建基于DQN框架的强化学习模型,并定义强化学习模型中的智能体、状态空间、动作空间、奖励回报,以及其优化目标;
步骤S2、对强化学习模型的所有参数值和策略进行初始化,并随机生成出入库任务;
步骤S3、将基于泊松到达过程的所述出入库任务输入强化学习模型,对构建的强化学习模型进行训练;
步骤S4、利用反向传播算法对策略梯度进行求导,计算梯度下降更新DQN网络参数;
步骤S5、重复上述步骤S3和S4,得到训练完成的强化学习模型,并应用于立体仓库进行货位智能优化。
作为本发明的进一步的方案:所述步骤S1的具体步骤包括:
S11、状态空间定义:
获取立体仓库货位的信息,包括货位存储货物信息、堆垛机信息,以及可执行任务信息,同时对每个货位进行编码,编码表示为:
S=(P1,P2,P3,t,D,E)∈[1,…,t];
其中,Pi代表货物种类,t代表货位个数,i代表每个货位对应的唯一编码,D代表堆垛机信息,E代表当前可执行任务信息;
S12、动作空间定义:
采用不同的出入库规则设置动作空间,同时通过预先计算每个货位与出入库点之间的距离,存入距离矩阵,动作空间设置四类动作,包括选择移动距离最近的货格进行出库、选择最短距离的空货格进行入库、选择靠近底层中间位置的空货格进行入库、无可执行出入库任务,等待新任务到达;
S13、奖励回报定义:
获取奖励回报决定状态对智能体的动作给出的反馈,并将该反馈用以指导智能体学习,设定优化目标是获得的奖励回报最大化;
所述奖励回报设置为,对任务完成时间进行归一化,并以其相反数作为奖励回报。
作为本发明的进一步的方案:所述步骤S2的具体步骤包括:
随机生成货格,以及货物,随机取n个货格位置;
生成货格状态,以及堆垛机状态,其中,货格状态表示货格中货物的有或无,初始货物类型为0,表示未选择。
作为本发明的进一步的方案:所述步骤S3的具体步骤包括:
首先扫描获取当前的已到达任务,判断是否可以执行;
采取入库任务或出库任务,基于DQN网络和贪心策略,选择最短距离的空货格进行入库或靠近底层中间位置的空货格进行入库;
同时实时更新任务执行期间是否有到达的新任务,若无则等待,若有则执行新任务;
获得奖励回报r和新的状态s',并存储到DQN网络中预设的经验池中。
作为本发明的进一步的方案:所述步骤S4的具体步骤包括:
S41、优先经验抽取:
首先从经验池中采样一个批量数据,通过概率方式进行抽取经验,则每个经验的实际抽取概率为:
Figure BDA0003996460100000031
其中,j=|δt+|,j为经验池中的经验的个数,δt为TD偏差,设定非均匀抽样概率pj正比于TD偏差δt,对pj的进行归一化处理得到每个经验的实际抽样概率P(j);
通过相应调整学习率α,消除偏差,表达式为:
α←α·(npt)
其中,n为参与抽样的经验数,β∈(0,1];
S42、价值网络更新:
引入一个目标网络,从目标网络估计TD目标值,用于进行DQN网络的更新,通过使用新的DQN网络更新目标网络,根据采样的经验(st,a,rt,st+1)来更新DQN网络,具体公式如下:
TD目标值:
Figure BDA0003996460100000032
TD偏差:δt=Q(st,at;w)-yt
梯度下降:
Figure BDA0003996460100000033
其中,st表示t时刻的状态,a表示动作选择,at表示t时刻的动作选择,Q(st,at;w)表示目标网络对当前t时刻的状态动作选择的价值估计,rt是t时刻当前动作选择得到的立即回报,γ∈(0,1]代表对未来状态价值估计的衰减,st+1表示下一状态,
Figure BDA0003996460100000041
表示t+1时刻的最大状态动作选择的价值估计,α代表算法更新的学习率,w表示梯度下降。
作为本发明的进一步的方案:所述步骤S5的具体为,通过设置训练和测试轮数,以及每轮包含的任务数,再对强化学习模型进行训练。
与现有技术相比,本发明存在以下技术效果:
采用上述的技术方案,通过构建基于DQN框架的强化学习模型,再改进训练机制,调整学习参数,简化了动作空间,考虑非字型货架特性增加在靠近底层中间位置入库的动作,以及预先计算每个货位与出入库点之间的距离并存入距离矩阵,减少了重复冗余计算。
利用经验回放更新的方法,采用经验回放池进行采样,并用于参数更新。通过设置经验池随机抽取,可以切断经验的相关性,每一条经验可以重复学习多次,提高了经验的利用率。
最后还引入一个目标网络,从目标网络估计TD目标值,然后用于进行DQN网络的更新,一段时间后,使用新的DQN网络更新目标网络。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1为本申请公开实施例的分配优化方法的步骤示意图;
图2为本申请公开实施例的强化学习模型的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1和图2,本发明实施例中,一种用于非字型货架的立体仓库货位分配优化方法,具体步骤包括:
步骤S1、构建基于DQN框架的强化学习模型,并定义强化学习模型中的智能体、状态空间、动作空间、奖励回报,以及其优化目标,具体步骤包括:
S11、状态空间S定义:
获取立体仓库货位的信息,包括货位存储货物信息、堆垛机信息,以及可执行任务信息,同时对每个货位进行编码,编码表示为:
S=(P1,P2,P3,t,D,E)∈[1,…,t];
其中,Pi代表货物种类,t代表货位个数,i代表每个货位对应的唯一编码,D代表堆垛机信息,E代表当前可执行任务信息;
S12、动作空间定义:
在设置动作空间时,采用的不是具体货位而是不同的出入库规则设置动作空间,同时通过预先计算每个货位与出入库点之间的距离,存入距离矩阵,有效降低了程序的计算时间。动作空间设置四类动作,包括选择移动距离最近的货格进行出库、选择最短距离的空货格进行入库、选择靠近底层中间位置的空货格进行入库、无可执行出入库任务,等待新任务到达;
S13、奖励回报定义:
获取奖励回报决定状态对智能体的动作给出的反馈,并将该反馈用以指导智能体学习,设定优化目标是获得的奖励回报最大化;
所述奖励回报设置为,对任务完成时间进行归一化,并以其相反数作为奖励回报;
步骤S2、对强化学习模型的所有参数值和策略进行初始化,并随机生成出入库任务,具体步骤包括:
步骤S21、随机生成货格,以及货物,随机取n个货格位置;
步骤S22、生成货格状态,以及堆垛机状态,其中,货格状态表示货格中货物的有或无,初始货物类型为0,表示未选择,堆垛机的初始行动设为5,用于区分第一次作业。
步骤S3、将基于泊松到达过程的所述出入库任务输入强化学习模型,对构建的强化学习模型进行训练,具体步骤包括:
首先扫描获取当前的已到达任务,判断是否可以执行;
采取入库任务或出库任务,基于DQN网络和贪心策略,选择最短距离的空货格进行入库或靠近底层中间位置的空货格进行入库;
同时实时更新任务执行期间是否有到达的新任务,若无则等待,若有则执行新任务;
获得奖励回报r和新的状态s',并将得到参数(s,a,r,s')存储到DQN网络中预设的经验池中,经验池是DQN算法的基本设计,本实施例中的改进在于经验池的优先提取和Double DQN。
步骤S4、利用反向传播算法对策略梯度进行求导,计算梯度下降更新DQN网络参数,具体步骤包括:
S41、优先经验抽取:
首先从经验池中采样一个批量数据,为了不让网络过拟合,通过概率方式进行抽取经验,则每个经验的实际抽取概率为:
Figure BDA0003996460100000061
其中,j=|δt+|,δt为TD偏差,设定非均匀抽样概率pj正比于TD偏差δt,对pj的进行归一化处理得到每个经验的实际抽样概率P(k),∈是一个很小的值,防止TD偏差为0的经验被抽取到的概率不会为0;
由于使用不同概率抽取经验,则DQN预测有偏差;
通过相应调整学习率α,消除偏差,表达式为:
α←α·(npt)
其中,n为参与抽样的经验数,β∈(0,1]。
S42、价值网络更新:
引入一个目标网络,从目标网络估计TD目标值,用于进行DQN网络的更新,通过使用新的DQN网络更新目标网络,根据采样的经验(st,a,rt,st+1)来更新DQN网络,具体公式如下:
TD目标值:
Figure BDA0003996460100000071
TD偏差:δt=Q(st,at;w)-yt
梯度下降:
Figure BDA0003996460100000072
其中,st表示t时刻的状态,a表示动作选择,at表示t时刻的动作选择,Q(st,at;w)表示目标网络对当前t时刻的状态动作选择的价值估计,rt是t时刻的当前动作选择得到的立即回报,γ∈(0,1]代表对未来状态价值估计的衰减,st+1表示下一状态,
Figure BDA0003996460100000073
表示t+1时刻的最大状态动作选择的价值估计,α代表了算法更新的学习率,w表示梯度下降。
步骤S5、重复上述步骤S3和S4,得到训练完成的强化学习模型,并应用于立体仓库进行货位优化,具体实施方式是通过设置具体的训练和测试轮数,以及每轮包含的任务数,再对强化学习模型进行训练。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定,均应包含在本发明的保护范围之内。

Claims (6)

1.一种用于非字型货架的立体仓库货位分配优化方法,其特征在于,具体步骤包括:
步骤S1、构建基于DQN框架的强化学习模型,并定义强化学习模型中的智能体、状态空间、动作空间、奖励回报,以及其优化目标;
步骤S2、对强化学习模型的所有参数值和出入库策略进行初始化,并随机生成出入库任务;
步骤S3、将基于泊松到达过程的所述出入库任务输入强化学习模型,对构建的强化学习模型进行训练;
步骤S4、利用反向传播算法对策略梯度进行求导,计算梯度下降更新DQN网络参数;
步骤S5、重复上述步骤S3和S4,得到训练完成的强化学习模型,并应用于立体仓库进行货位智能优化。
2.根据权利要求1所述一种用于非字型货架的立体仓库货位分配优化方法,其特征在于,所述步骤S1的具体步骤包括:
S11、状态空间定义:
获取立体仓库货位的信息,包括货位存储货物信息、堆垛机信息,以及可执行任务信息,同时对每个货位进行编码,编码表示为:
S=(P1,P2,P3,t,D,E)∈[1,…,t];
其中,Pi代表货物种类,t代表货位个数,i代表每个货位对应的唯一编码,D代表堆垛机信息,E代表当前可执行任务信息;
S12、动作空间定义:
采用不同的出入库规则设置动作空间,同时通过预先计算每个货位与出入库点之间的距离,存入距离矩阵,动作空间设置四类动作,包括选择移动距离最近的货格进行出库、选择最短距离的空货格进行入库、选择靠近底层中间位置的空货格进行入库、无可执行出入库任务,等待新任务到达;
S13、奖励回报定义:
获取奖励回报决定状态对智能体的动作给出的反馈,并将该反馈用以指导智能体学习,设定优化目标是获得的奖励回报最大化;
所述奖励回报设置为,对任务完成时间进行归一化,并以其相反数作为奖励回报。
3.根据权利要求1所述一种用于非字型货架的立体仓库货位分配优化方法,其特征在于,所述步骤S2的具体步骤包括:
随机生成货格,以及货物,随机取n个货格位置;
生成货格状态,以及堆垛机状态,其中,货格状态表示货格中货物的有或无,初始货物类型为0,表示未选择。
4.根据权利要求1所述一种用于非字型货架的立体仓库货位分配优化方法,其特征在于,所述步骤S3的具体步骤包括:
首先扫描获取当前的已到达任务,判断是否可以执行;
采取入库任务或出库任务,基于DQN网络和贪心策略,选择最短距离的空货格进行入库或靠近底层中间位置的空货格进行入库;
同时实时更新任务执行期间是否有到达的新任务,若无则等待,若有则执行新任务;
获得奖励回报r和新的状态s',并存储到DQN网络中预设的经验池中。
5.根据权利要求1所述一种用于非字型货架的立体仓库货位分配优化方法,其特征在于,所述步骤S4的具体步骤包括:
S41、优先经验抽取:
首先从经验池中采样一个批量数据,通过概率方式进行抽取经验,则每个经验的实际抽取概率为:
Figure FDA0003996460090000021
其中,j=|δt+|,j为经验池中的经验的个数,δt为TD偏差,设定非均匀抽样概率pj正比于TD偏差δt,对pj的进行归一化处理得到每个经验的实际抽样概率P(j);
通过相应调整学习率α,消除偏差,表达式为:
α←α·(npt)
其中,n为参与抽样的经验数,β∈(0,1];
S42、价值网络更新:
引入一个目标网络,从目标网络估计TD目标值,用于进行DQN网络的更新,通过使用新的DQN网络更新目标网络,根据采样的经验(st,a,rt,st+1)来更新DQN网络,具体公式如下:
TD目标值:
Figure FDA0003996460090000031
TD偏差:δt=Q(st,at;w)-yt
梯度下降:
Figure FDA0003996460090000032
其中,st表示t时刻的状态,a表示动作选择,at表示t时刻的动作选择,Q(st,at;w)表示目标网络对当前t时刻的状态动作选择的价值估计,rt是t时刻当前动作选择得到的立即回报,γ∈(0,1]代表对未来状态价值估计的衰减,st+1表示下一状态,
Figure FDA0003996460090000033
表示t+1时刻的最大状态动作选择的价值估计,α代表算法更新的学习率,w表示梯度下降。
6.根据权利要求1所述一种用于非字型货架的立体仓库货位分配优化方法,其特征在于,所述步骤S5的具体为,通过设置训练和测试轮数,以及每轮包含的任务数,再对强化学习模型进行训练。
CN202211594440.5A 2022-12-13 2022-12-13 一种用于非字型货架的立体仓库货位分配优化方法 Pending CN115860239A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211594440.5A CN115860239A (zh) 2022-12-13 2022-12-13 一种用于非字型货架的立体仓库货位分配优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211594440.5A CN115860239A (zh) 2022-12-13 2022-12-13 一种用于非字型货架的立体仓库货位分配优化方法

Publications (1)

Publication Number Publication Date
CN115860239A true CN115860239A (zh) 2023-03-28

Family

ID=85672339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211594440.5A Pending CN115860239A (zh) 2022-12-13 2022-12-13 一种用于非字型货架的立体仓库货位分配优化方法

Country Status (1)

Country Link
CN (1) CN115860239A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933666A (zh) * 2024-03-21 2024-04-26 壹号智能科技(南京)有限公司 一种密集仓储机器人调度方法、装置、介质、设备及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933666A (zh) * 2024-03-21 2024-04-26 壹号智能科技(南京)有限公司 一种密集仓储机器人调度方法、装置、介质、设备及系统

Similar Documents

Publication Publication Date Title
CN107808215B (zh) 一种应用于Flying-V型非传统布局仓库的货位分配优化方法
CN111199272B (zh) 一种面向智能车间的自适应调度方法
CN106228265B (zh) 基于改进粒子群优化的总拖期运输计划调度方法
CN113449458A (zh) 一种基于课程学习的多智能体深度确定性策略梯度方法
CN115860239A (zh) 一种用于非字型货架的立体仓库货位分配优化方法
CN110414826B (zh) 一种云制造环境下柔性多任务前摄性调度优化方法
CN109800913B (zh) 一种提高包装危险品出入库效率的互通仓库铲车运行线路确定方法
CN112147960B (zh) 一种柔性制造系统优化调度方法及装置
CN116596440A (zh) 一种自动化立体仓库出入库智能调度方法
CN115271130B (zh) 面向船舶主动力设备维修订单的动态调度方法及系统
CN115906431A (zh) 面向客户群的装修工程开放动态施工组织多目标优化方法
CN115421448A (zh) Agv拣货路径规划方法及系统
CN112561448B (zh) 基于改进遗传算法的多任务下堆垛机调度算法
CN117789945A (zh) 一种基于深度强化学习的门诊服务顺序调度决策方法
KR20220142846A (ko) 간트 계획 부하평준화를 위한 강화학습 방법
Avdekins et al. Making warehouse logistics smart by effective placement strategy based on genetic algorithms
CN116664053B (zh) 一种商品库存管理方法
CN116902449A (zh) 用于智能立体库房的工业物联网、控制方法及其存储介质
CN116205550A (zh) 基于自适应离散粒子群算法的物流园车辆取货调度方法
CN114493181B (zh) 一种智能仓储环境下的多负载agv任务调度方法
CN109993271A (zh) 基于博弈理论的灰色神经网络预测方法
US11656887B2 (en) System and method to simulate demand and optimize control parameters for a technology platform
CN113077188B (zh) 一种基于平均奖赏强化学习的mto企业订单接受方法
CN113487031A (zh) 一种基于改进模拟退火融合遗传算法的多无人机任务分配方法
Pirayesh et al. Modeling (r, Q) policy in a two-level supply chain system with fuzzy demand

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination