CN111695700A - 一种基于深度强化学习实现的装箱方法 - Google Patents

一种基于深度强化学习实现的装箱方法 Download PDF

Info

Publication number
CN111695700A
CN111695700A CN202010545595.4A CN202010545595A CN111695700A CN 111695700 A CN111695700 A CN 111695700A CN 202010545595 A CN202010545595 A CN 202010545595A CN 111695700 A CN111695700 A CN 111695700A
Authority
CN
China
Prior art keywords
reinforcement learning
algorithm
strategy
boxing
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010545595.4A
Other languages
English (en)
Inventor
吕长虹
张小锐
杨立光
王晓辉
来蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010545595.4A priority Critical patent/CN111695700A/zh
Publication of CN111695700A publication Critical patent/CN111695700A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Container Filling Or Packaging Operations (AREA)

Abstract

本发明公开了一种基于深度强化学习实现的装箱方法,包括以下步骤:获取需要装箱的区域和各矩形箱体信息;根据区域和各矩形箱体信息通过深度强化学习返回装箱策略;根据返回的装箱策略结合矩形带排样算法对各矩形箱体进行装箱;基于线下训练、线上运行,因此对于二维矩形条装箱问题的每个实例不需要重新执行算法,只需通过线下训练所得模型简单运算。在求解大规模的二维矩形条装箱问题时,在装箱策略普遍优于或近似于启发式搜索算法的同时,本发明所述的装箱方法的线上运行速度显著优于启发式搜索算法。

Description

一种基于深度强化学习实现的装箱方法
技术领域
本发明涉及装箱技术领域,尤其涉及一种基于深度强化学习实现的装箱方法。
背景技术
随着社会的发展,物流等交通运输需求越来越大,单位时间内的物流货物越来越多,对于港口、仓储和运输工具的容量提出了更高的要求,因此,如何提升单位空间内的存储量,合理利用占地面积成了需要解决的问题。目前有如下方式用于解决上述问题:
首先我们介绍二维矩形条装箱问题,给定n个小矩形,和有宽度W 固定,高度H不固定的矩形条,目标是将所有小矩形装入矩形条中,要求小矩形之间不能重叠,且小矩形不能旋转,并最小化所使用的矩形条的高度H,如图1所示。
目前常用于求解二维矩形条装箱问题的算法主要有精确算法和启发式算法。
精确算法:用于求解二维矩形条装箱问题的精确算法多数使用了分支定界算法,并且根据下界信息进行剪枝来对该问题求解。使用精确算法虽然可以求得最优解,可以从理论上证明求得的解是最优的,但随着问题规模的扩大(可能呈指数级或者阶乘级的增长),对于中等规模或者大规模的问题,在有限的时间内不可能求得最优解。
启发式算法:启发式算法是基于直观或经验设计的算法,在可接受的时间内给出一个可行解,但是解的质量是没有理论保证的。且通过实验显示,虽然启发式算法的线上运行时间显著优于精确算法,但在求解大规模问题时,还是需要巨大的时间成本。
发明内容
鉴于目前存在的上述不足,本发明提供一种基于深度强化学习实现的装箱方法,效果优异的同时,速度快。
为达到上述目的,本发明的实施例采用如下技术方案:
一种基于深度强化学习实现的装箱方法,所述装箱方法包括以下步骤:
获取需要装箱的区域和各矩形箱体信息;
根据区域和各矩形箱体信息通过深度强化学习返回装箱策略;
根据返回的装箱策略结合矩形带排样算法对各矩形箱体进行装箱。
依照本发明的一个方面,所述根据区域和各矩形箱体信息通过深度强化学习返回装箱策略具体可包括:
选择基于策略的强化学习方法作为强化学习算法;
使用深度神经网络模型Pointer Networks作为强化学习算法的策略函数,随机性策略作为策略函数的输出;
累计奖励的期望值作为目标函数;
策略函数Pointer Networks通过束搜索算法搜索装箱策略,返回装箱策略。
依照本发明的一个方面,所述根据区域和各矩形箱体信息通过深度强化学习返回装箱策略具体可包括:深度强化学习通过策略梯度算法计算目标函数的梯度值,并选择Adam优化算法更新Pointer Networks的模型参数。
依照本发明的一个方面,所述深度强化学习包括:将深度神经网络模型作为强化学习算法的智能体,将区域作为环境,区域内矩形箱体的布局作为状态,智能体持续地与环境交互,根据当前的状态选择行为,而环境会反馈给智能体新的状态和奖励。
依照本发明的一个方面,作为智能体的深度神经网络模型包括编码器、解码器和连接两者的中间状态向量,编码器将输入向量编码成固定长度的中间状态向量并传给解码器,解码器对中间状态向量进行分析解码并输出结果。
依照本发明的一个方面,所述深度强化学习的奖励函数可如下:
Figure BDA0002540593130000021
其中,假设矩形箱体数量为N,τ为智能体的决策过程对应的采样轨迹,s为环境反馈的状态,a为智能体对状态做出的行为,θ表示 Pointer Networks的模型参数,
Figure BDA0002540593130000022
为在当前模型参数θ下生成采样轨迹τ的总奖励值的期望值,则有
Figure BDA0002540593130000023
采样轨迹τ的概率为,
Figure BDA0002540593130000024
依照本发明的一个方面,采取策略梯度算法对Pointer Networks 的模型参数进行优化。
依照本发明的一个方面,所述策略梯度算法的优化流程如下:
训练数据集S,迭代次数T,一次迭代所选取的样本数B;
初始化Pointer Networks模型参数θ,初始化偏移量b;
对于t=1~N,从训练数据集S中选取一次迭代所需样本si,i∈ {1,…,B},通过pθ(·|θ)为每一个样本si,i∈{1,…,B}生成解决方案oi;
计算
Figure BDA0002540593130000031
更新模型参数
Figure BDA0002540593130000032
更新偏移量b。
依照本发明的一个方面,所述矩形带排样算法为构造类启发式 Bottom-Left-Fill算法。
依照本发明的一个方面,所述Bottom-Left-Fill算法按顺序依次放置矩形箱体,每个矩形箱体在初始阶段放置到区域的右上方,并使矩形箱体不断交替地向下向左移动,直至矩形箱体在当前所处位置不能继续移动。
本发明实施的优点:本发明所述的基于深度强化学习实现的装箱方法,包括以下步骤:获取需要装箱的区域和各矩形箱体信息;根据区域和各矩形箱体信息通过深度强化学习返回装箱策略;根据返回的装箱策略结合矩形带排样算法对各矩形箱体进行装箱;基于线下训练、线上运行,因此对于二维矩形条装箱问题的每个实例不需要重新执行算法,只需通过线下训练所得模型简单运算。通过实验表明,在求解大规模的二维矩形条装箱问题时,在装箱策略普遍优于或近似于启发式搜索算法的同时,本发明所述的装箱方法的线上运行速度显著优于启发式搜索算法。深度强化学习相较于启发式算法拥有更好的泛化性,启发式算法以问题为导向,根据问题的特殊结构或者性质来改进解,当装箱问题(包括其它组合优化问题)的条件发生细微变化,启发式算法就需针对其变化进行修改。而机器学习类算法通过数据驱动,通过数据自行寻找问题内部的“启发式”,当问题发生细微变化时算法本身不需要进行太多修改。目前暂未有通过深度强化学习求解二维矩形条装箱问题的研究,本发明对该问题的探索有助于机器学习类算法在组合优化问题上的研究的进一步发展。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述的一种基于深度强化学习实现的装箱方法示意图;
图2为本发明背景技术所述的装箱算法示意图;
图3为本发明所述的Bottom-Left-Fill算法实现示意图;
图4为本发明所述的深度强化学习算法示意图;
图5为本发明所述的智能体示意图;
图6为本发明所述的奖励函数实现示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图2、图3、图4、图5和图6所示,一种基于深度强化学习实现的装箱方法,所述装箱方法包括以下步骤:
步骤S1:获取需要装箱的区域和各矩形箱体信息;
所述步骤获取需要装箱的区域和各矩形箱体信息具体可包括,获取需要进行装箱的区域的信息,例如码头泊位的长宽面积等又或者集装箱内的长宽等,然后获取待装箱的各矩形箱体的长宽大小等信息,例如码头的集装箱,或各种快递物流箱子等。通过传感器或其它途径,需实时获取各矩形箱体的状态,以及获取装箱区域已装箱情况。
步骤S2:根据区域和各矩形箱体信息通过深度强化学习返回装箱策略;
所述根据区域和各矩形箱体信息通过深度强化学习返回装箱策略具体可包括:
选择基于策略的强化学习方法作为强化学习算法;
使用深度神经网络模型Pointer Networks作为强化学习算法的策略函数,随机性策略作为策略函数的输出;Pointer Network是基于 Sequence-to-Sequence网络生成的一种新的网络架构。与 Sequence-to-Sequence类似,都是解决从一个序列到另一个序列的映射问题,不同的是Pointer Network针对的序列问题更加特殊:输出序列的内容与输入序列的内容完全一致,只是序列的顺序发生了改变。
累计奖励的期望值作为目标函数;
策略函数Pointer Networks通过束搜索算法搜索装箱策略,返回装箱策略。
在实际应用中,所述根据区域和各矩形箱体信息通过深度强化学习返回装箱策略具体可包括:深度强化学习通过策略梯度算法计算目标函数的梯度值,并选择Adam优化算法更新Pointer Networks的模型参数。
在实际应用中,所述深度强化学习包括:将深度神经网络模型作为强化学习算法的智能体,将区域作为环境,区域内矩形箱体的布局作为状态,智能体持续地与环境交互,根据当前的状态选择行为,而环境会反馈给智能体新的状态和奖励。
深度强化学习算法:强化学习算法中的重要元素包括:奖励 (Rewards)、智能体(Agent)、环境(Environment)、状态(State)等。强化学习的本质就是通过与环境的互动来学习如何达成一个目标。这个学习和做决策的主体就叫智能体。与智能体交互的对象就是环境。智能体会持续地与环境交互,根据当前的状态选择行为,而环境会反馈给智能体新的状态和奖励,如图4所示。深度强化学习则是将深度神经网络作为智能体。从而将深度学习和强化学习结合在一起。在我们这个问题中,环境就是矩形条,状态就是当前布局。因此,重点是智能体和奖励函数的设计。
在实际应用中,作为智能体的深度神经网络模型包括编码器、解码器和连接两者的中间状态向量,编码器将输入向量编码成固定长度的中间状态向量并传给解码器,解码器对中间状态向量进行分析解码并输出结果。
智能体:如图5所示,选择Pointer Networks作为强化学习的智能体。模型包含了三个部分,绿色部分为编码器、紫色部分为解码器以及连接两者的中间状态向量C,编码器将输入向量编码成固定长度的中间状态向量C并将C传给解码器,解码器对中间状态向量C进行分析解码并输出结果。
在实际应用中,所述深度强化学习的奖励函数可如下:
Figure BDA0002540593130000051
其中,假设矩形箱体数量为N,τ为智能体的决策过程对应的采样轨迹,s为环境反馈的状态,a为智能体对状态做出的行为,θ表示 Pointer Networks的模型参数,
Figure BDA0002540593130000052
为在当前模型参数θ下生成采样轨迹τ的总奖励值的期望值,则有
Figure BDA0002540593130000053
采样轨迹τ的概率为,
Figure BDA0002540593130000054
在实际应用中,采取策略梯度算法对Pointer Networks的模型参数进行优化。
奖励函数设计:在确定智能体之后,我们介绍如何设计奖励函数。假设装箱问题的小矩形数量规模为N,则一个完整的智能体的决策过程对应的采样轨迹τ如图6所示。环境反馈状态s1给智能体,智能体针对状态s1做出行为a1,并得到奖励值r1
在得到采样轨迹τ后,便可计算τ的总奖励值:
Figure BDA0002540593130000061
因为本文采用的是随机性的决策方式,就是说智能体返回的不是一个具体的行为a,而是所有可采取的行为对应的一个概率分布,然后根据概率随机选取其中的一个行为进行输出。所以,在完全相同的网络结构和完全相同的模型参数θ下,每次生成的采样轨迹τ都是不同的。采样轨迹τ的概率:
Figure BDA0002540593130000062
其中,θ表示Pointer Networks的模型参数。因此我们将Pointer Networks在当前模型参数θ下生成采样轨迹τ的总奖励值的期望值作为奖励函数:
Figure BDA0002540593130000063
策略梯度函数:最后我们采取策略梯度算法对Pointer Networks 的模型参数进行优化。
在实际应用中,所述策略梯度算法的优化流程如下:
训练数据集S,迭代次数T,一次迭代所选取的样本数B;
初始化Pointer Networks模型参数θ,初始化偏移量b;
对于t=1~N,从训练数据集S中选取一次迭代所需样本si,i∈ {1,…,B},通过pθ(·|θ)为每一个样本si,i∈{1,…,B}生成解决方案oi;
计算
Figure BDA0002540593130000064
更新模型参数
Figure BDA0002540593130000065
更新偏移量b。
具体算法代码如下:
Figure 1
步骤S3:根据返回的装箱策略结合矩形带排样算法对各矩形箱体进行装箱。
所述矩形带排样算法为构造类启发式Bottom-Left-Fill算法。
在实际应用中,所述Bottom-Left-Fill算法按顺序依次放置矩形箱体,每个矩形箱体在初始阶段放置到区域的右上方,并使矩形箱体不断交替地向下向左移动,直至矩形箱体在当前所处位置不能继续移动。
提出了一种基于深度强化学习求解二维矩形条装箱问题的算法,通过深度强化学习返回装箱问题的装箱策略,并结合 Bottom-Left-Fill算法对小矩形进行放置。我们选择基于策略的强化学习方法作为我们的强化学习算法,深度神经网络模型Pointer Networks作为强化学习算法的策略函数,随机性策略作为策略函数的输出,累计奖励的期望值作为目标函数。在训练阶段,深度强化学习通过策略梯度算法计算目标函数的梯度值,并选择Adam优化算法更新 Pointer Networks的模型参数。在测试阶段,策略函数PointerNetworks通过Beam Search算法搜索装箱策略,策略函数返回的装箱策略进一步结合构造类启发式Bottom-Left-Fill算法对小矩形进行装箱。我们最后通过大量实验对基于深度强化学习的2D-SPP求解算法进行性能评估,并在2D-SPP的经典数据集上对算法进行测试,与启发式搜索算法进行比较。
Bottom-Left-Fill算法:将二维矩形条装箱问题视为一种特殊的序列生成问题,即通过深度强化学习生成该装箱问题的小矩形装箱顺序,并结合Bottom-Left-Fill算法对小矩形进行放置。 Bottom-Left-Fill算法按顺序依次放置小矩形,每个小矩形在初始阶段放置到矩形条的右上方,并使小矩形不断交替地向下向左移动,直至小矩形在当前所处位置不能继续移动,如图3所示。
本发明实施的优点:本发明所述的基于深度强化学习实现的装箱方法,包括以下步骤:获取需要装箱的区域和各矩形箱体信息;根据区域和各矩形箱体信息通过深度强化学习返回装箱策略;根据返回的装箱策略结合矩形带排样算法对各矩形箱体进行装箱;基于线下训练、线上运行,因此对于二维矩形条装箱问题的每个实例不需要重新执行算法,只需通过线下训练所得模型简单运算。通过实验表明,在求解大规模的二维矩形条装箱问题时,在装箱策略普遍优于或近似于启发式搜索算法的同时,本发明所述的装箱方法的线上运行速度显著优于启发式搜索算法。深度强化学习相较于启发式算法拥有更好的泛化性,启发式算法以问题为导向,根据问题的特殊结构或者性质来改进解,当装箱问题(包括其它组合优化问题)的条件发生细微变化,启发式算法就需针对其变化进行修改。而机器学习类算法通过数据驱动,通过数据自行寻找问题内部的“启发式”,当问题发生细微变化时算法本身不需要进行太多修改。目前暂未有通过深度强化学习求解二维矩形条装箱问题的研究,本发明对该问题的探索有助于机器学习类算法在组合优化问题上的研究的进一步发展。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于深度强化学习实现的装箱方法,其特征在于,所述装箱方法包括以下步骤:
获取需要装箱的区域和各矩形箱体信息;
根据区域和各矩形箱体信息通过深度强化学习返回装箱策略;
根据返回的装箱策略结合矩形带排样算法对各矩形箱体进行装箱。
2.根据权利要求1所述的基于深度强化学习实现的装箱方法,其特征在于,所述根据区域和各矩形箱体信息通过深度强化学习返回装箱策略具体可包括:
选择基于策略的强化学习方法作为强化学习算法;
使用深度神经网络模型Pointer Networks作为强化学习算法的策略函数,随机性策略作为策略函数的输出;
累计奖励的期望值作为目标函数;
策略函数Pointer Networks通过束搜索算法搜索装箱策略,返回装箱策略。
3.根据权利要求2所述的基于深度强化学习实现的装箱方法,其特征在于,所述根据区域和各矩形箱体信息通过深度强化学习返回装箱策略具体可包括:深度强化学习通过策略梯度算法计算目标函数的梯度值,并选择Adam优化算法更新Pointer Networks的模型参数。
4.根据权利要求2所述的基于深度强化学习实现的装箱方法,其特征在于,所述深度强化学习包括:将深度神经网络模型作为强化学习算法的智能体,将区域作为环境,区域内矩形箱体的布局作为状态,智能体持续地与环境交互,根据当前的状态选择行为,而环境会反馈给智能体新的状态和奖励。
5.根据权利要求4所述的基于深度强化学习实现的装箱方法,其特征在于,作为智能体的深度神经网络模型包括编码器、解码器和连接两者的中间状态向量,编码器将输入向量编码成固定长度的中间状态向量并传给解码器,解码器对中间状态向量进行分析解码并输出结果。
6.根据权利要求4所述的基于深度强化学习实现的装箱方法,其特征在于,所述深度强化学习的奖励函数可如下:
Figure FDA0002540593120000021
其中,假设矩形箱体数量为N,τ为智能体的决策过程对应的采样轨迹,s为环境反馈的状态,a为智能体对状态做出的行为,θ表示Pointer Networks的模型参数,
Figure FDA0002540593120000022
为在当前模型参数θ下生成采样轨迹τ的总奖励值的期望值,则有
Figure FDA0002540593120000023
采样轨迹τ的概率为,
Figure FDA0002540593120000024
7.根据权利要求6所述的基于深度强化学习实现的装箱方法,其特征在于,采取策略梯度算法对Pointer Networks的模型参数进行优化。
8.根据权利要求7之所述的基于深度强化学习实现的装箱方法,其特征在于,所述策略梯度算法的优化流程如下:
训练数据集S,迭代次数T,一次迭代所选取的样本数B;
初始化Pointer Networks模型参数θ,初始化偏移量b;
对于t=1~N,从训练数据集S中选取一次迭代所需样本si,i∈{1,…,B},通过pθ(·|θ)为每一个样本si,i∈{1,…,B}生成解决方案oi
计算
Figure FDA0002540593120000025
更新模型参数
Figure FDA0002540593120000026
更新偏移量b。
9.根据权利要求1至8之一所述的基于深度强化学习实现的装箱方法,其特征在于,所述矩形带排样算法为构造类启发式Bottom-Left-Fill算法。
10.根据权利要求9所述的基于深度强化学习实现的装箱方法,其特征在于,所述Bottom-Left-Fill算法按顺序依次放置矩形箱体,每个矩形箱体在初始阶段放置到区域的右上方,并使矩形箱体不断交替地向下向左移动,直至矩形箱体在当前所处位置不能继续移动。
CN202010545595.4A 2020-06-16 2020-06-16 一种基于深度强化学习实现的装箱方法 Pending CN111695700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010545595.4A CN111695700A (zh) 2020-06-16 2020-06-16 一种基于深度强化学习实现的装箱方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010545595.4A CN111695700A (zh) 2020-06-16 2020-06-16 一种基于深度强化学习实现的装箱方法

Publications (1)

Publication Number Publication Date
CN111695700A true CN111695700A (zh) 2020-09-22

Family

ID=72481113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010545595.4A Pending CN111695700A (zh) 2020-06-16 2020-06-16 一种基于深度强化学习实现的装箱方法

Country Status (1)

Country Link
CN (1) CN111695700A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884126A (zh) * 2021-02-26 2021-06-01 深圳蓝胖子机器智能有限公司 深度强化学习网络系统
CN114237222A (zh) * 2021-11-16 2022-03-25 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN114548541A (zh) * 2022-02-18 2022-05-27 山东大学 一种基于深度强化学习的货箱堆叠优化方法
CN114537747A (zh) * 2022-02-28 2022-05-27 西安电子科技大学广州研究院 基于自动化旋转和重组合策略的三维智能装箱方法和系统
CN116198771A (zh) * 2023-03-17 2023-06-02 华南理工大学 基于深度强化学习的二维矩形条带包装方法
CN117236821A (zh) * 2023-11-10 2023-12-15 淄博纽氏达特机器人系统技术有限公司 一种基于层次强化学习的在线三维装箱方法
CN117910902A (zh) * 2024-01-15 2024-04-19 广州力生机器人技术有限公司 一种基于深度强化学习的在线三维装箱方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及系统
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及系统
CN110399920A (zh) * 2019-07-25 2019-11-01 哈尔滨工业大学(深圳) 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAOYUAN HU ETC.: ""Solving a New 3D Bin Packing Problem with Deep Reinforcement Learning Method"" *
KANCHANA DAODEN ETC.: ""Applying Shuffled Frog Leaping Algorithm and Bottom Left Fill Algorithm in Rectangular Packing Problem"" *
张伟: ""一种矩形件优化排样算法的研究"" *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884126A (zh) * 2021-02-26 2021-06-01 深圳蓝胖子机器智能有限公司 深度强化学习网络系统
CN112884126B (zh) * 2021-02-26 2024-03-08 深圳蓝胖子机器智能有限公司 深度强化学习网络系统
CN114237222A (zh) * 2021-11-16 2022-03-25 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN114237222B (zh) * 2021-11-16 2024-06-21 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN114548541A (zh) * 2022-02-18 2022-05-27 山东大学 一种基于深度强化学习的货箱堆叠优化方法
CN114548541B (zh) * 2022-02-18 2024-10-18 山东大学 一种基于深度强化学习的货箱堆叠优化方法
CN114537747A (zh) * 2022-02-28 2022-05-27 西安电子科技大学广州研究院 基于自动化旋转和重组合策略的三维智能装箱方法和系统
CN116198771A (zh) * 2023-03-17 2023-06-02 华南理工大学 基于深度强化学习的二维矩形条带包装方法
CN116198771B (zh) * 2023-03-17 2024-04-09 华南理工大学 基于深度强化学习的二维矩形条带包装方法
CN117236821A (zh) * 2023-11-10 2023-12-15 淄博纽氏达特机器人系统技术有限公司 一种基于层次强化学习的在线三维装箱方法
CN117236821B (zh) * 2023-11-10 2024-02-06 淄博纽氏达特机器人系统技术有限公司 一种基于层次强化学习的在线三维装箱方法
CN117910902A (zh) * 2024-01-15 2024-04-19 广州力生机器人技术有限公司 一种基于深度强化学习的在线三维装箱方法

Similar Documents

Publication Publication Date Title
CN111695700A (zh) 一种基于深度强化学习实现的装箱方法
Pillay et al. Hyper-heuristics: theory and applications
Butler et al. Machine learning for molecular and materials science
Zarpellon et al. Parameterizing branch-and-bound search trees to learn branching policies
Caraffini et al. An analysis on separability for memetic computing automatic design
Kordon Applying computational intelligence: how to create value
Xu et al. Active finite reward automaton inference and reinforcement learning using queries and counterexamples
El Mazgualdi et al. Machine learning for KPIs prediction: a case study of the overall equipment effectiveness within the automotive industry
Zhang et al. A review on learning to solve combinatorial optimisation problems in manufacturing
Özcan et al. A self-adaptive multimeme memetic algorithm co-evolving utility scores to control genetic operators and their parameter settings
Rhmann et al. Software effort estimation using ensemble of hybrid search-based algorithms based on metaheuristic algorithms
Kelly et al. Evolving hierarchical memory-prediction machines in multi-task reinforcement learning
Dolson et al. Applying ecological principles to genetic programming
Juros et al. Exact solving scheduling problems accelerated by graph neural networks
Song et al. Learning disentangled skills for hierarchical reinforcement learning through trajectory autoencoder with weak labels
Paduraru et al. RiverFuzzRL-an open-source tool to experiment with reinforcement learning for fuzzing
Pröllochs et al. Reinforcement learning in R
Li et al. Model-free reinforcement learning for motion planning of autonomous agents with complex tasks in partially observable environments
Montague et al. A quality-diversity approach to evolving a repertoire of diverse behaviour-trees in robot swarms
Hofmann et al. Enhancing software and hardware reliability for a successful participation in the RoboCup Logistics League 2017
EP4097729A1 (en) System and method for learning to generate chemical compounds with desired properties
Araújo et al. Control with adaptive Q-learning
Garmendia et al. Marco: A memory-augmented reinforcement framework for combinatorial optimization
Durukal et al. Practical Applications of Artificial Intelligence in Software Testing
Beigi et al. A simple interaction model for learner agents: An evolutionary approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200922

RJ01 Rejection of invention patent application after publication