CN117236821B

CN117236821B - 一种基于层次强化学习的在线三维装箱方法

Info

Publication number: CN117236821B
Application number: CN202311493325.3A
Authority: CN
Inventors: 张立晔; 吕雪冬; 巩相峰; 商云强; 李先德
Original assignee: Zibo Newstart Robot System Technology Co ltd
Current assignee: Zibo Newstart Robot System Technology Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-06
Anticipated expiration: 2043-11-10
Also published as: CN117236821A

Abstract

一种基于层次强化学习的在线三维装箱方法，属于机器人应用和强化学习技术领域。其特征在于：包括如下步骤：步骤1，构建马尔科夫决策过程，将在线三维装箱问题描述为马尔科夫决策过程；步骤2，构建基于图注意力机制编码建立协作式强化学习模型；步骤3，训练步骤2中所建立的协作式强化学习模型；步骤4，利用训练完成的协作式强化学习模型执行在线三维装箱操作。在本基于层次强化学习的在线三维装箱方法中，针对现有技术中深度强化学习算法的各种问题，使用层次强化学习的思想依照任务结构对模型结构进行分层，在模型结构避免过多冗余的同时，更好地了解环境的反馈和回报。

Description

一种基于层次强化学习的在线三维装箱方法

技术领域

本发明属于机器人应用和强化学习技术领域，具体涉及一种基于层次强化学习的在线三维装箱方法。

背景技术

在线三维装箱问题（Online 3D Bin Packing Problem）是一个在物流和仓储管理领域中具有重要意义的组合优化问题。该问题涉及如何将一组具有不同尺寸的三维物体（商品、箱子）有效地装箱到有限数量的三维容器（货物运输箱、仓库货架）中，以最大限度地减少所使用的容器数量，从而降低运输和存储成本。

在线三维装箱问题的关键目标是在动态环境中，根据逐步到达的物体，即时地进行装箱决策，使得物体能够紧凑而又不重叠地放置在容器中，同时最小化未使用的容器空间。在线三维装箱问题与传统的三维装箱问题不同，传统的三维装箱问题通常是在已知所有待装箱物体体积信息情况下进行优化。而在线装箱情景中，必须在每个物体到达时立即作出装箱决策，而不知道未来箱体的大小和顺序。该问题的挑战在于，装箱决策需要在信息不完全的情况下进行，需要权衡当前可用的容器空间、已经放置的物体以及未知的后续物体，以求得最优的装箱策略。

由于在线三维装箱问题层次结构明显，结构复杂，在使用强化学习思想解决该问题时很难避免状态空间巨大、动作空间复杂的问题出现，因此多数解决方案旨在设计层面避免结构冗余，使用对状态空间、动作空间特定优化的方式来避免该问题难以找到全局最优解的出现，然而在人为优化过程中难免会出现智能体对状态或动作空间的缺失而导致决策倒向次优解的局面出现。

发明内容

本发明要解决的技术问题是：克服现有技术的不足，提供一种针对现有技术中深度强化学习算法的各种问题，使用层次强化学习的思想依照任务结构对模型结构进行分层，在模型结构避免过多冗余的同时，更好地了解环境反馈和回报的基于层次强化学习的在线三维装箱方法。

本发明解决其技术问题所采用的技术方案是：该基于层次强化学习的在线三维装箱方法，其特征在于：包括如下步骤：

步骤1，构建马尔科夫决策过程，将在线三维装箱问题描述为马尔科夫决策过程；

步骤2，构建基于图注意力网络的协作式强化学习模型；

步骤3，训练步骤2中所建立的协作式强化学习模型；

步骤4，利用训练完成的协作式强化学习模型执行在线三维装箱操作；

优选的，在执行步骤1时，构建得到的马尔科夫决策过程形式为（S，A，P，R，γ），

其中，状态空间S表示当前容器的配置情况、可行的动作点以及当前要装箱的物体信息，动作空间A被表示为项目装箱的过程；P为概率转移矩阵；R表示奖励信号由环境反馈表示当前动作的好坏程度，γ为折扣率，表示当前与未来奖励的权重关系。

优选的，步骤2中建立的协作式强化学习模型包括使用图神经网络将异构描述符映射为同质描述符的嵌入模块；将编码后高级特征聚合为策略分布的嵌入式策略模块；聚合不同时间步编码高级特征的前馈型策略模块；以及编码高级特征的价值预测模块。

优选的，步骤2包括如下步骤：

步骤2-1，嵌入模块将状态信息通过图注意力网络，使用分别独立的多层感知机器来将原始异构描述信息映射到同质节点中，得到同质节点特征，在图注意力网络中这些同质节点特征被转换为高级节点特征；

步骤2-2，接收由嵌入模块转换后的容器配置、可行性动作以及当前要装箱物体信息的特征节点h，并通过聚合得到全局上下文特征，以嵌入查询的方式进行预测，使用注意力机制来捕捉容器配置、物体信息与可行性动作之间的关联程度，计算得到放置策略的logits，使用tanh对兼容性logits进行裁剪，其中范围由超参数剪辑控制，最后通过Softmax操作进行归一化得到策略的概率分布，最终动作通过采样的形式从策略分布中得到当前装箱情况下的装箱动作；

步骤2-3，在前馈型策略模块中，接受容器配置和当前要装箱物体信息的节点特征，这些特征是由嵌入模块进行了转换和嵌入后的结果，前馈型策略模块将这些特征转化成全局上下文特征，使用这些全局上下文特征/>，通过前馈神经网络，前馈型策略模块预测在当前装箱情况下，下一个时间步的空间点的分解策略的logits信息，最后通过对这些logits信息应用Softmax操作，得到了策略的概率分布；

步骤2-4，在价值预测模块中，价值网络接收容器配置、可行性动作以及当前要装箱物体信息，这些信息被聚合成全局上下文特征，这些全局上下文特征/>经过线性变换，传递给价值网络。

优选的，在步骤2-1中，图注意力网络的嵌入节点i的特征为：

其中，W ^Q、W ^K和W ^v皆为可学习的权重矩阵，用于对节点特征进行线性变换，分别将节点特征映射到查询空间、键空间与值空间；W ^O是另一个可学习的权重矩阵，它用于将所有节点的数值信息进行加权求和，以生成节点i的新特征表示；N表示图中的节点总数；表示节点i和节点j之间的注意力分数，用于计算节点i的查询信息与节点j的键信息之间的相似度；/>是归一化项，其中d _k是键特征的维度；softmax用于计算节点i和其他所有节点j之间的注意力分数，用于衡量节点i对其他节点j的影响程度，分别为第i个和第j个被同构后的初始特征。

优选的，步骤3包括如下步骤：

首先，通过嵌入模块将原始异构描述符节点投影为同质节点特征，并将这些同质节点特征输入到图注意力网络中，经过图注意力网络的处理后，这些同质节点特征被转换为高级节点特征；

其次，使用加权平均的方式将这些高级节点特征进行聚合，得到全局上下文特征；

最后，将全局上下文特征作为强化学习算法模块的输入，用于同时训练嵌入式策略模块、前馈型策略模块以及价值预测模块。

优选的，对于马尔科夫决策过程形式中的R：基于启发式规则构造内在奖励，若放置成功则奖励被表示为放置项目的体积，即：

其中，L、W、H分别为容器的长、宽、高信息，l _n、w _n、h _n分别为当前物体的长、宽、高信息，若放置失败则奖励为0并且立刻结束本轮放置。

与现有技术相比，本发明所具有的有益效果是：

在本基于层次强化学习的在线三维装箱方法中，针对深度强化学习算法在具有层次结构的复杂任务的问题中出现的状态空间过大、动作空间复杂、难以找到全局最优解，以及对在线三维装箱问题研究中对智能体在开发阶段重要性的忽视问题，使用层次强化学习的思想依照任务结构对模型结构进行分层，在模型结构避免过多冗余的同时，使智能体尝试之前被人为忽略或很少去做过的行动以便更好地了解环境的反馈和回报，帮助智能体对该任务维持价值评判的标准。

在本基于层次强化学习的在线三维装箱方法中，开发策略有助于智能体探索新的可能性，发现潜在的高回报行动，从而提高长期的性能。此外，使用图注意力网络帮助智能体在这种层次结构化问题中更好的理解或学习物体之间的空间关系，基于装箱配置树网络的策略生成我们设计了适用于协作式层次结构的策略群，介于一种隐含关系相互影响，但同时受制于价值表示，最后该策略群朝着价值的方向更新。

在本基于层次强化学习的在线三维装箱方法中，提出了一种通过策略分层的方式将问题分层，对于高级策略层面问题被分为简单的预测问题，对于低级策略层面问题保持原有的复杂程度，因此在问题本身复杂性不会急剧增加的情况下，智能体可以探索更多的策略方式来寻找更佳策略的基于层次强化学习的在线三维装箱算法。

与传统的封建等级强化学习框架不同，在本基于层次强化学习的在线三维装箱方法中，的强化层次模型中，设计了一种更加灵活的关系，其中高级策略者被视为策略网络的协作者，而不是严格的上下级关系。同时，策略网络和高级策略者都受到价值的指导，但策略网络的策略质量直接影响奖励的边界，而高级策略者则更倾向于提供更多的尝试以隐含地影响奖励的边界，为了使网络更好的理解物体之间的空间关系，本发明对两个策略者均采用图注意力网络的形式，但分别采用嵌入式预测以及前馈型预测的方式输出策略。

附图说明

图1为基于层次强化学习的在线三维装箱方法流程图。

图2为基于层次强化学习的在线三维装箱方法网络结构图。

图3为基于层次强化学习的在线三维装箱方法协作强化学习层次结构示意图。

图4~6为利用RS数据集随机生成的64个物体尺寸展示图。

图7~9为利用CUT-1数据集随机生成的64个物体尺寸展示图。

图10~12为利用CUT-2数据集随机生成的64个物体尺寸展示图。

图13为利用RS数据集时BBP-1算法与DBBP算法前瞻k个物体信息下的算法性能图。

图14为利用CUT-1数据集时BBP-1算法与DBBP算法前瞻k个物体信息下的算法性能图。

图15为利用CUT-3数据集时BBP-1算法与DBBP算法前瞻k个物体信息下的算法性能图。

具体实施方式

图1~15是本发明的最佳实施例，下面结合附图1~15对本发明做进一步说明。

如图1所示，一种基于层次强化学习的在线三维装箱方法（以下简称三维装箱方法），包括如下步骤：

步骤1，构建马尔科夫决策过程；

构建马尔科夫决策过程，将在线三维装箱问题描述为马尔科夫决策过程，构建得到的马尔科夫决策过程形式为（S，A，P，R，γ），其中，状态空间S表示当前容器的配置情况、可行的动作点以及当前要装箱的物体信息，动作空间A被表示为项目装箱的过程；P为概率转移矩阵，在无模型情况下，不显示的表示P；R表示奖励信号由环境反馈表示当前动作的好坏程度，γ为折扣率，表示当前与未来奖励的权重关系。

状态S：状态当前由容器中配置情况、可行的动作点以及当前要装箱的项目信息所组成，在容器配置情况中，将三维信息转换为二维信息来方便记载，分别由该物体x轴、y轴的位置点信息，当前高度图的最大高度、物体的长宽高信息所组成，对于可行的动作点，它包含了在当前高度图情况下由不同空间点分解方式所提供的可行性动作点，如空闲最大空间方法（Empty Maximal Space，EMS）通过将装箱空间划分为一系列的空间单元，通常是以网格或者模块化单元的形式，然后，EMS方法会从这些空间单元中选择一个最大的连续区域作为新物体的放置位置，该连续的区域的前左下角（FLB）点将作为一个可行动作点被记录到状态信息中，在当前要装箱的物体信息中记录了物体的长宽高信息，为了方便嵌入信息注意力权重计算，可行动作点以及物体信息被设计为与容器配置信息相同的结构。

奖励R：基于启发式规则构造内在奖励，若放置成功则奖励被表示为放置项目的体积即：

转移概率P：基于无模型的方法来训练智能体，因此不显示的表示P。

折扣率γ：为了更好的考虑长期价值信息，设置γ为1。

步骤2，构建基于图注意力网络的协作式强化学习模型；

本三维装箱方法中建立的协作式强化学习模型，包括使用图神经网络将异构描述符映射为同质描述符的嵌入模块；将编码后高级特征聚合为策略分布的嵌入式策略模块；聚合不同时间步编码高级特征的前馈型策略模块；以及编码高级特征的价值预测模块。

通过以上四个模块的协作，层次强化学习模型能够有效地利用异构描述符嵌入、优化放置策略、节点分解策略和价值预测，从而提高智能体的开发与利用能力，适应复杂任务，并获得更高的奖励。

结合图2~3，步骤2包括如下步骤：

步骤2-1，嵌入模块将状态信息通过图注意力网络（GAT），使用分别独立的多层感知器（MLP）来将原始异构描述信息映射到同质节点中，得到同质节点特征：，在图注意力网络中这些同质节点特征被转换为高级节点特征：/>，其中图注意力网络的嵌入节点i的特征为：

其中，W ^Q、W ^K和W ^v皆为可学习的权重矩阵，它们用于对节点特征进行线性变换，分别将节点特征映射到查询（query）空间、键（key）空间与值（value）空间；W ^O是另一个可学习的权重矩阵，它用于将所有节点的数值信息进行加权求和，以生成节点i的新特征表示。N表示图中的节点总数，它是一个变量与状态信息相关。表示节点i和节点j之间的注意力分数，它计算了节点i的查询信息与节点j的键信息之间的相似度（内积），这实际上衡量了节点i和节点j之间的关联程度。/>是一个归一化项，其中d _k是键（key）特征的维度，它有助于缩放注意力分数，以确保不会出现太大或太小的值。Softmax用于计算节点i和其他所有节点j之间的注意力分数，用于衡量节点i对其他节点j的影响程度。最后，经过跳过连接操作，得到最终输出节点特征h，/>分别为第i个和第j个被同构后的初始特征。

步骤2-2，在嵌入式策略模块中，模块接收由嵌入模块转换后的容器配置、可行性动作以及当前要装箱物体信息的特征节点h，并通过聚合得到全局上下文特征，以嵌入查询的方式进行预测，使用注意力机制来捕捉容器配置、物体信息与可行性动作之间的关联程度，计算得到放置策略的logits，使用tanh对兼容性logits进行裁剪，其中范围由超参数剪辑控制，最后通过Softmax操作进行归一化得到策略的概率分布。最终动作通过采样的形式从策略分布中得到当前装箱情况下的装箱动作。

步骤2-3，在前馈型策略模块中，接受了容器配置和当前要装箱物体信息的节点特征，这些特征是由嵌入模块进行了转换和嵌入后的结果。前馈型策略模块的任务是将这些特征转化成全局上下文特征，这一特征包含了容器配置和当前物体信息之间的关联程度。这个关联程度是通过点积注意力机制计算得到的。接着，使用这些全局上下文特征/>，通过前馈神经网络，前馈型策略模块直接预测了在当前装箱情况下，下一个时间步的空间点的分解策略的logits信息。这些logits提供了不同分解策略的概率信息。最后，通过对这些logits应用Softmax操作，得到了策略的概率分布。

这个分布描述了在当前容器状态下选择不同的分解策略的概率。这种方法将注意力机制与前馈神经网络结合在一起，旨在聚合和理解容器配置和物体信息之间的关联，以帮助模型在当前情境下预测下一个时间步的空间点分解方式。这将影响嵌入式策略模块中下一个时间步可行性动作的选择，有助于提高装箱效率。

步骤2-4，在价值预测模块中，价值网络接收容器配置、可行性动作以及当前要装箱物体信息，这些信息被聚合成全局上下文特征。然后，这些全局上下文特征会经过线性变换，传递给价值网络。价值网络的任务是评估当前容器配置和可行性动作的组合，以确定这个组合的“价值”。这个价值信息有助于智能体决定在当前情境下采取哪些动作是最有利的。同时，这个价值信息还用作两个策略网络的指导，帮助它们进行有效的学习。通过这种方式，价值预测模块起到了协调和指导学习的作用，以优化物体的装箱过程。

在协作式强化学习模型中，给定全局上下文特征，actor负责网络输出物体在容器中的摆放策略，而manager则负责输出容器空间点的分解形式，为manager提供了多种分解情况，包括角点法、极值点法和空闲最大空间方法，针对不同的问题特征设计了容器内部空间节点的分解方式；这些节点的分解形式直接决定了可行的动作，因此manager网络能够学习不同空间点的混合分解方式，从而在容器配置情况下发现更多的可行动作，并为actor的策略提供更多尝试机会，从而更新价值标准。通过这种层次结构和协作方式，智能体能够更加高效地学习和应对复杂的任务。

由上述可知，为了提高智能体的开发与利用能力、增强学习效率并使其更好地适应复杂任务，在本三维装箱方法中，提出了一种基于层次强化学习的层次智能体协作模型。与传统的封建等级强化学习框架不同，设计了一种更加灵活的关系，其中管理者（manager）被视为策略网络（actor）的协作者，而不是严格的上下级关系。同时，actor和manager都受到critic的指导，但actor的策略质量直接影响奖励的边界，而manager则更倾向于提供更多的尝试以隐含地影响奖励的边界。

在网络设计中，将actor和manager均设计为图注意力网络（Graph AttentionNetworks，GAT）形式。其中，actor网络接收原始异构描述符节点中的容器配置、可行性动作以及当前要装箱物体信息的全局上下文特征，并进行嵌入式预测，使用注意力机制来捕捉容器配置、物体信息与可行性动作之间的关联程度，计算得到放置策略的logits，使用tanh对兼容性logits进行裁剪，其中范围由超参数剪辑控制，最后通过Softmax操作进行归一化得到策略的概率分布，最终动作通过采样的形式从策略分布中采取，而manager网络接收容器配置以及当前要装箱物体信息的全局上下文特征，并将聚合的特征经过前馈层预测。

这种将注意力机制和前馈层结合起来的方法，旨在通过聚合图数据的信息并通过神经网络进行进一步的学习，从而进行预测空间点的分解方式，影响下一个时间步可行性动作的选择。在上述协作关系中，两者的输出相互影响，共同决定智能体的策略选择，并通过全局上下文特征的价值信息进行指导，以提高智能体的学习效率和适应复杂任务的能力。

步骤3，训练协作式强化学习模型；

步骤2中建立的协作式强化学习模型受制于actor-critic的框架下，由编码模块对状态信息进行转换，策略协作式强化学习模型接受到聚合的特征信息后，朝向最大化期望累积奖励的方向更新，因此采用优势函数的方式受制于价值网络的指导，价值网络的目标是最小化TD误差，使估计的值函数更接近实际回报，因此采用均方误差的形式逼近真实值。

其次，使用加权平均的方式将这些高级节点特征进行聚合，得到全局上下文特征。

在该算法模块中，嵌入式策略模块和前馈型策略模块分别聚合不同的全局上下文特征来分别输出物体摆放策略和容器空间点的分解形式，策略网络的目标是最大化累积奖励，从而改善策略因此二者都受制于价值预测模块的指导；价值预测模块以嵌入式策略模块的聚合特征为基准，预测动作的价值，并指导两个策略网络的更新，该模块根据估计的值函数与实际获得的奖励之间的差异（TD误差），调整网络权重来逼近真实值。

利用步骤3中训练完成的协作式强化学习模型，分别输入容器的长、宽、高信息L、W、H，然后通过三维扫描或主动输入的方式实时的将当前物体的长l _n、宽w _n、高h _n分别送入协作式强化学习模型，由协作式强化学习模型输出当前物体的装箱信息。

下面通过一个实例，对执行完上述步骤1~3后训练完成的协作式强化学习模型进行验证：

首先对数据集进行设置，设置容器的长宽高为L=W=H=10，项目信息通过三个设定方式来生成；为了避免场景过于简化，项目的大小范围被定义为：2≤l _n≤L/2，2≤w _n≤W/2，2≤h _n≤H/2，共生成64个预定义项目。

如图4~图6所示（图4~图6中x、y、z坐标分别表示容器的长L、宽W、高H），第一个设定方式RS数据集，即通过随机生成的形式来组合箱体。在RS数据集下，当在容器中放入11个箱子（项目）时，容器的利用率为0.442；当在容器中放入15个箱子（项目）时，容器的利用率为0.604；当在容器中放入18个箱子（项目）时，容器的利用率为0.717。这种方式下无法事先得知最优摆放顺序，因此很难衡量算法的性能，但在某些物流中心的中转站中，这种随机产生的无法得知顺序的情况更为普遍也更加具有现实意义。虽然在这种数据集中无法准确衡量算法相对于最优而言的学习效果，但如果算法在通用性比较（比如在一场装箱游戏中比较它们的平均胜场次数）中获得胜利，则表明它具有实用性。从工程角度来看，对于这种实际场景，算法的通用性和实用性显得尤为重要。

如图7~图9所示（图7~图9中x、y、z坐标分别表示容器的长L、宽W、高H），在CUT-1数据集下，当在容器中放入22个箱子（项目）时，容器的利用率为0.955；当在容器中放入27个箱子（项目）时，容器的利用率为1.0；当在容器中放入35个箱子（项目）时，容器的利用率为1.0。第二个设定方式CUT-1数据集中，通过切割一个完整的容器来获得数据集，在设定的范围中，将容器任意的切割成几个子箱体，并根据每个子箱子的FLB的Z坐标，从上到下对结果进行排序，以形成数据集CUT-1。

如图10~图12所示（图10~图12中x、y、z坐标分别表示容器的长L、宽W、高H），在CUT-2数据集下，当在容器中放入20个箱子（项目）时，容器的利用率为0.646；当在容器中放入19个箱子（项目）时，容器的利用率为0.834；当在容器中放入18个箱子（项目）时，容器的利用率为0.95。第二个设定方式CUT-2数据集中，根据切割后每个箱子的堆叠依赖关系进行排序，并且只有当一个箱子的所有支撑项都存在时，它才能被添加到序列中；在第二和第三种方式中，可以很容易地获得最佳的摆放顺序，因此算法的性能主要集中在这两种方式中。

表1装箱算法性能比较

表1展示了在三种数据集下的性能比较，结合图13~15，在CUT-2数据集中取得的效果最好，相比较BPP-1的方法，本发明算法平均可以多放置0.8个箱子，装箱利用率提升了2.8%。本三维装箱方法在CUT-1数据集中最容易得到最优策略，对于切割的箱子还原率最高，在CUT-2数据集中整体放置利用率以及放置项目数方面处理的较好，在RS数据集中则表现均衡。本三维装箱方法测试了在前瞻k个物体信息（BPP-K）的情况下对性能的影响，BPP-K通过添加一个或者多个感知设备的方式，对将要进行码垛的箱体进行前瞻式的预放置，在不影响放置顺序的情况下，为前瞻的项目找到更佳的摆放位置。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于层次强化学习的在线三维装箱方法，其特征在于：包括如下步骤：

步骤2，构建基于图注意力机制编码建立协作式强化学习模型；

步骤3，训练步骤2中所建立的协作式强化学习模型；

在执行步骤1时，构建得到的马尔科夫决策过程形式为(S，A，P，R，γ)，

其中，状态空间S表示当前容器的配置情况、可行的动作点以及当前要装箱的物体信息，动作空间A被表示为项目装箱的过程；P为概率转移矩阵；R表示奖励信号由环境反馈表示当前动作的好坏程度，γ为折扣率，表示当前与未来奖励的权重关系；

步骤2中建立的协作式强化学习模型包括使用图神经网络将异构描述符映射为同质描述符的嵌入模块；将编码后高级特征聚合为策略分布的嵌入式策略模块；聚合不同时间步编码高级特征的前馈型策略模块；以及编码高级特征的价值预测模块；

步骤2包括如下步骤：

步骤2-1，嵌入模块将状态信息通过图注意力机制编码，使用分别独立的多层感知机器来将原始异构描述信息映射到同质节点中，得到同质节点特征，在GAT层中这些同质节点特征被转换为高级节点特征；

步骤2-2，接收由嵌入模块转换后的容器配置、可行性动作以及当前要装箱物体信息的特征节点h，并通过聚合得到全局上下文特征h，以嵌入查询的方式进行预测，使用注意力机制来捕捉容器配置、物体信息与可行性动作之间的关联程度，计算得到放置策略的logits，使用tanh对兼容性logits进行裁剪，其中范围由超参数剪辑控制，最后通过Softmax操作进行归一化得到策略的概率分布，最终动作通过采样的形式从策略分布中得到当前装箱情况下的装箱动作；

步骤2-3，在前馈型策略模块中，接受容器配置和当前要装箱物体信息的节点特征，这些特征是由嵌入模块进行了转换和嵌入后的结果，前馈型策略模块将这些特征转化成全局上下文特征h，使用这些全局上下文特征h，通过前馈神经网络，前馈型策略模块预测在当前装箱情况下，下一个时间步的空间点的分解策略的logits信息，最后通过对这些logits信息应用Softmax操作，得到了策略的概率分布；

步骤2-4，在价值预测模块中，价值网络接收容器配置、可行性动作以及当前要装箱物体信息，这些信息被聚合成全局上下文特征h，这些全局上下文特征h经过线性变换，传递给价值网络；

在步骤2-1中，GAT层的嵌入节点i的特征为：

其中，W^Q、W^K和W^v皆为可学习的权重矩阵，用于对节点特征进行线性变换，分别将节点特征映射到查询空间、键空间与值空间；W^O是另一个可学习的权重矩阵，它用于将所有节点的数值信息进行加权求和，以生成节点i的新特征表示；N表示图中的节点总数；表示节点i和节点j之间的注意力分数，用于计算节点i的查询信息与节点j的键信息之间的相似度；/>是归一化项，其中d_k是键特征的维度，它有助于缩放注意力分数；Softmax用于计算节点i和其他所有节点j之间的注意力分数，用于衡量节点i对其他节点j的影响程度，/>分别为第i个和第j个被同构后的初始特征；

步骤3包括如下步骤：

首先，通过嵌入模块将原始异构描述符节点投影为同质节点特征，并将这些同质节点特征输入到图注意力网络中，经过GAT层的处理后，这些同质节点特征被转换为高级节点特征；

2.根据权利要求1所述的基于层次强化学习的在线三维装箱方法，其特征在于：对于马尔科夫决策过程形式中的R：基于启发式规则构造内在奖励，若放置成功则奖励被表示为放置项目的体积，即：

其中，L、W、H分别为容器的长、宽、高信息，l_n、w_n、h_n分别为当前物体的长、宽、高信息，若放置失败则奖励为0并且立刻结束本轮放置。