CN117634859B

CN117634859B - 基于深度强化学习的资源均衡施工排程方法、装置及设备

Info

Publication number: CN117634859B
Application number: CN202410111166.4A
Authority: CN
Inventors: 宋盛禹
Original assignee: Qingyun Xiaozhu Beijing Innovation Technology Co ltd
Current assignee: Qingyun Xiaozhu Beijing Innovation Technology Co ltd
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-04-12
Anticipated expiration: 2044-01-26
Also published as: CN117634859A

Abstract

本发明提供一种基于深度强化学习的资源均衡施工排程方法、装置及设备，涉及建筑施工排程技术领域，所述方法包括：获取至少一个样本施工项目对应的项目信息和资源需求信息；以资源均衡和排程效率为优化目标，分别构建单步奖励函数和项目总奖励函数；并构建深度神经网络模型，基于当前施工时间步对应的施工状态数据、项目信息和资源需求信息，对深度神经网络模型进行强化学习，输出下一施工时间步对应的决策，并基于单步奖励函数更新模型参数；在施工排程结束后，基于项目总奖励函数更新模型参数；遍历各样本施工项目，重复执行更新模型参数的步骤，得到训练完成的施工排程模型。本发明可实现以资源均衡为目标的施工排程。

Description

基于深度强化学习的资源均衡施工排程方法、装置及设备

技术领域

本发明涉及建筑施工排程技术领域，尤其涉及一种基于深度强化学习的资源均衡施工排程方法、装置及设备。

背景技术

施工排程是建筑工程施工领域的重要环节。自动施工排程技术可综合考虑多重因素为工程人员提供科学的参考方案，极大的解放劳动力，且缩小新人与资深工程专家之间的经验差距等。在进行自动施工排程时，一般通过确定资源约束项目调度问题（ResourceConstrained Project Scheduling Problem，RCPSP），求解RCPSP后得到同时考虑工序优先级约束和资源的有限性约束的情况下对施工项目的调度。

现有技术中，可采用强化学习算法对RCPSP进行求解，以最小化项目工期或最小化项目成本为优化目标，通过对工人工时和物料的分配进行决策，实现工程项目的施工调度。然而，针对更多考虑资源均衡约束的施工优化问题，现有技术中的强化学习算法是通过实现每步决策最优的方式来趋近整体决策最优，而资源均衡目标考虑的是整个施工项目期间的资源平稳，每步决策最优与整体决策最优之间差异较大，现有技术中的强化学习算法无法解决以资源均衡为优化目标的施工排程优化。

发明内容

本发明提供一种基于深度强化学习的资源均衡施工排程方法、装置及设备，用以解决现有技术中无法解决以资源均衡为优化目标的施工排程优化的缺陷。

本发明提供一种基于深度强化学习的资源均衡施工排程方法，包括：

获取至少一个样本施工项目对应的项目信息和资源需求信息；所述资源需求信息用于表征所述样本施工项目中工序、资源种类和资源需求量之间的映射关系；

以资源均衡和排程效率为优化目标，分别构建单步奖励函数和项目总奖励函数；基于所述项目信息、所述资源需求信息、所述单步奖励函数和所述项目总奖励函数，构建深度神经网络模型，其中，所述深度神经网络模型包括基于卷积神经网络构建的第一子模型、基于循环神经网络构建的第二子模型、第三子模型和第四子模型，以及基于深度神经网络构建的主体子模型；

基于所述深度神经网络模型，获取当前施工时间步对应的施工状态数据，基于所述当前施工时间步对应的施工状态数据、所述项目信息和所述资源需求信息，对所述深度神经网络模型进行强化学习，所述主体子模型输出下一施工时间步对应的决策，并基于所述单步奖励函数更新所述深度神经网络模型的模型参数；所述施工状态数据用于表征所述样本施工项目中所述当前施工时间步对应的工序完成进度和资源拥有量，且所述施工状态数据中不同类型的资源训练数据分别输入所述第一子模型至所述第四子模型；

在所述下一施工时间步小于或等于施工工期阈值的情况下，重复执行单步决策步骤，在施工排程结束后，基于所述项目总奖励函数更新当前迭代轮次的所述模型参数；

遍历各所述样本施工项目，重复执行更新所述模型参数的步骤，得到训练完成的施工排程模型，并基于所述施工排程模型对目标施工项目进行施工排程，输出所述目标施工项目在各施工时间步对应的目标排程策略。

根据本发明提供的基于深度强化学习的资源均衡施工排程方法，所述施工状态数据中的资源拥有量包括物料资源拥有量、工人资源拥有量和可复用设备资源拥有量；

所述基于所述深度神经网络模型，获取当前施工时间步对应的施工状态数据，基于所述当前施工时间步对应的施工状态数据、所述项目信息和所述资源需求信息，对所述深度神经网络模型进行强化学习，所述主体子模型输出下一施工时间步对应的决策，包括：

在当前迭代轮次小于或等于预设迭代轮次的情况下，基于所述深度神经网络模型，获取所述当前施工时间步对应的工序完成进度和资源拥有量；

在所述工序完成进度小于预设资源需求量的情况下，将所述工序完成进度输入所述第一子模型，输出工序向量；

分别将所述物料资源拥有量输入所述第二子模型，将所述工人资源拥有量输入所述第三子模型，将所述可复用设备资源拥有量输入所述第四子模型，输出资源向量；

将所述工序向量和所述资源向量输入所述主体子模型，输出所述下一施工时间步的决策。

根据本发明提供的基于深度强化学习的资源均衡施工排程方法，所述基于所述单步奖励函数更新所述深度神经网络模型的模型参数，包括：

在所述决策满足可行策略条件的情况下，执行所述决策，并基于所述单步奖励函数，分别确定执行所述决策对应的调度奖励、进度奖励和成本奖励；所述可行策略条件包括存放空间约束条件和施工空间约束条件；

基于所述调度奖励、所述进度奖励和所述成本奖励，确定所述决策对应的单步奖励值；

基于所述单步奖励值，更新所述深度神经网络模型的模型参数。

根据本发明提供的基于深度强化学习的资源均衡施工排程方法，所述方法还包括：

在所述决策不满足所述可行策略条件的情况下，确定所述当前迭代轮次的施工排程结束，基于所述项目总奖励函数，确定所述当前迭代轮次的项目总奖励值为0，并将所述当前施工时间步对应的模型参数回退至上一施工时间步对应的模型参数。

在所述工序完成进度等于所述预设资源需求量的情况下，确定当前迭代轮次的施工排程结束，基于所述项目总奖励函数，确定所述当前迭代轮次的项目总奖励值，并基于所述项目总奖励值，更新所述当前迭代轮次的模型参数。

根据本发明提供的基于深度强化学习的资源均衡施工排程方法，所述基于所述项目总奖励函数，确定所述当前迭代轮次的项目总奖励值，包括：

基于所述项目总奖励函数，分别确定所述当前迭代轮次对应的物料资源波动率、工人资源波动率和成本浪费率；

基于所述物料资源波动率、所述工人资源波动率和所述成本浪费率，确定所述当前迭代轮次对应的项目总奖励值。

在所述下一施工时间步大于施工工期阈值的情况下，确定所述施工排程结束，并基于所述项目总奖励函数，确定所述当前迭代轮次的项目总奖励值为0，并将所述当前迭代轮次对应的模型参数回退至上一迭代轮次对应的模型参数。

本发明还提供一种基于深度强化学习的资源均衡施工排程装置，包括：

获取模块，用于获取至少一个样本施工项目对应的项目信息和资源需求信息；所述资源需求信息用于表征所述样本施工项目中工序、资源种类和资源需求量之间的映射关系；

构建模块，用于以资源均衡和排程效率为优化目标，分别构建单步奖励函数和项目总奖励函数；基于所述项目信息、所述资源需求信息、所述单步奖励函数和所述项目总奖励函数，构建深度神经网络模型，其中，所述深度神经网络模型包括基于卷积神经网络构建的第一子模型、基于循环神经网络构建的第二子模型、第三子模型和第四子模型，以及基于深度神经网络构建的主体子模型；

第一更新模块，用于基于所述深度神经网络模型，获取当前施工时间步对应的施工状态数据，基于所述当前施工时间步对应的施工状态数据、所述项目信息和所述资源需求信息，对所述深度神经网络模型进行强化学习，所述主体子模型输出下一施工时间步对应的决策，并基于所述单步奖励函数更新所述深度神经网络模型的模型参数；所述施工状态数据用于表征所述样本施工项目中所述当前施工时间步对应的工序完成进度和资源拥有量，且所述施工状态数据中不同类型的资源训练数据分别输入所述第一子模型至所述第四子模型；

第二更新模块，用于在所述下一施工时间步小于或等于施工工期阈值的情况下，重复执行单步决策步骤，在施工排程结束后，基于所述项目总奖励函数更新当前迭代轮次的所述模型参数；

排程模块，用于遍历各所述样本施工项目，重复执行更新所述模型参数的步骤，得到训练完成的施工排程模型，并基于所述施工排程模型对目标施工项目进行施工排程，输出所述目标施工项目在各施工时间步对应的目标排程策略。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于深度强化学习的资源均衡施工排程方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于深度强化学习的资源均衡施工排程方法。

本发明提供的基于深度强化学习的资源均衡施工排程方法、装置及设备，在获取各样本施工项目对应的项目信息，以及由工序、资源种类和资源需求量之间的映射关系构成的资源需求信息后，以资源均衡和排程效率为优化目标，构建单步奖励函数和项目总奖励函数，并根据资源需求信息、单步奖励函数和项目总奖励函数，构建深度神经网络模型，通过第一子模型至第四子模型分别处理施工状态数据中不同类型的资源训练数据，并通过主体子模型输出下一施工时间步对应的决策，训练时深度神经网络模型通过与环境的交互进行强化学习，使施工排程模型高效适应环境和目标施工项目对应的复杂数据，在更新深度神经网络模型的模型参数时，既通过单步奖励函数确保各施工时间步对应的决策最优，又通过项目总奖励函数确保所有施工时间步各自对应的决策在整体上满足资源均衡和排程效率最优，利用训练好的施工排程模型对目标施工项目进行排程时，实现施工排程过程中不同资源种类间的资源均衡，提高施工排程的合理性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于深度强化学习的资源均衡施工排程方法的流程示意图；

图2是本发明实施例提供的深度神经网络模型的训练流程示意图；

图3是本发明实施例提供的深度神经网络模型的结构示意图；

图4是本发明实施例提供的项目总奖励值随迭代轮次变化的示意图；

图5是本发明实施例提供的物料资源采购量随施工时间步变化的示意图；

图6是本发明实施例提供的物料仓库利用率随项目时间变化的示意图；

图7是本发明实施例提供的基于深度强化学习的资源均衡施工排程装置的结构示意图；

图8是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术中无法解决以资源均衡为优化目标的施工排程优化的问题，本发明实施例提供一种基于深度强化学习的资源均衡施工排程方法，图1是本发明实施例提供的基于深度强化学习的资源均衡施工排程方法的流程示意图，如图1所示，该方法包括：

步骤110、获取至少一个样本施工项目对应的项目信息和资源需求信息；所述资源需求信息用于表征所述样本施工项目中工序、资源种类和资源需求量之间的映射关系。

可选的，该样本施工项目对应的项目信息可以包括建设信息、工序总数、施工工期阈值、物料损耗系数和可用空间等。以该样本施工项目为建设大型体育场馆为例，该大型体育场馆的建设信息可以包括：该大型体育场馆的南北之间的长度为360m，东西之间的宽度为270m，该大型体育场馆整体呈椭圆形，建筑面积约为12.8万平米，主体育场建设为6层，且局部建设为8层，该大型体育场馆的混凝土实际用量约34.6万吨，钢结构用量约1.6万吨。该大型体育场馆的工序总数共计118个工序。施工工期阈值为611个自然日，即，建设该大型体育场馆规定的最大施工工期为611个自然日。物料损耗系数中，由于混凝土隔夜无法使用，因此，混凝土的损耗系数，除混凝土之外的其他物料的损耗系数/>。可用空间/>包括：物料仓库空间/>为5000m²、工人宿舍面积/>为2400m²和可用施工空间/>为2800m²，其中，工人宿舍单间的面积为30m²，共计80间。此外，该样本施工项目对应的项目信息还可以包括：资源的空间占用系数、调度车的单位成本、调度车的容量和不同种类资源的成本等。本发明实施例对此不做限制。

表1

可选的，该资源需求信息可以包括各工序对应的资源需求表和施工速率表，该资源需求表中包括工序、第一资源种类和资源需求量之间的映射关系，该第一资源种类包括物料资源和可复用设备资源。该资源需求表可以理解为是一个N×（M₁+M₃）的矩阵，其中N为样本施工项目的工序总数，M₁表示物料资源的种类，M₃表示可复用设备资源的种类。以该样本施工项目为建设大型体育场馆为例，涉及的资源种类为21种，其中可以包括：8种物料资源、8种工人资源和5种可复用设备资源，各工序对应的资源需求表如表1所示。

此外，该施工速率表中包括工人资源的种类与施工速率之间的映射关系。该施工速率表可以理解为长度为M₂的向量，M₂表示工人资源的种类。以工人资源的种类为8种为例，该施工速率表如表2所示。

需要说明的是，M=M₁+M₂+M₃，M表示资源种类的总数，以资源种类为21种，其中包括：8种物料资源、8种工人资源和5种可复用设备资源为例，则M=21、M₁=8、M₂=8且M₃=5。

表2

步骤120、以资源均衡和排程效率为优化目标，分别构建单步奖励函数和项目总奖励函数；基于所述项目信息、所述资源需求信息、所述单步奖励函数和所述项目总奖励函数，构建深度神经网络模型，其中，所述深度神经网络模型包括基于卷积神经网络构建的第一子模型、基于循环神经网络构建的第二子模型、第三子模型和第四子模型，以及基于深度神经网络构建的主体子模型。

具体的，在获取各样本施工项目对应的项目信息和资源需求信息后，以资源均衡和排程效率为优化目标，分别构建单步奖励函数和项目总奖励函数，这两个奖励函数可确定深度神经网络模型在输出决策后，通过与资源调度环境的交互所得到的奖励值，即，执行该决策后得到的奖励值。该单步奖励函数可确定在t施工时间步执行该决策后得到的单步奖励值，其中：

1、该单步奖励函数包括调度奖励、进度奖励和成本奖励三部分，其中：

1）该调度奖励可以理解为每发生一次新的调度事件时均会增加成本，因此会产生该调度奖励，该调度奖励为负数。该调度事件包括物料调度以及工人资源和可复用设备资源的调度，其中：

物料调度时通过调度车来完成的，每一辆调度车的使用都需要增加成本。利用式（1），可根据调度车的容量、调度车的单位成本、第t施工时间步对第k种资源的物料资源采购量，计算物料调度奖励，式（1）为：

其中，表示第t施工时间步对第k种资源的物料调度奖励，/>是调度车的单位成本，m是调度车的容量，/>表示第t施工时间步对第k种资源的物料资源采购量，即，第t施工时间步结束时需要采购的采购量，该物料资源采购量采购的物料资源将于第t+1施工时间步被使用，/>表示第k种资源的数量与所占空间的比例系数，由于是对物料资源的调度，因此，1≤k≤M₁，且k为整数，/>表示向上取整，即，调度车的数量要视物料资源采购量所需的空间而定。

工人资源和可复用设备资源的每次调度均会增加成本。利用式（2），可根据第k种资源的调度成本系数和第t施工时间步对第k种资源的工人资源和可复用设备资源的调度量，计算工人资源和可复用设备资源的调度奖励，式（2）为：

其中，表示第t施工时间步对第k种资源的调度奖励，由于是对工人资源和可复用设备资源的调度，因此，M₁+1≤k≤M，且k为整数，/>表示第k种资源的调度成本系数，/>表示第t施工时间步对第k种资源的工人资源和可复用设备资源的调度量。

在确定上述物料调度奖励，以及工人资源和可复用设备资源的调度奖励后，可利用式（3），计算第t施工时间步对应的调度奖励，式（3）为：

其中，表示第t施工时间步对应的调度奖励，/>表示第k种资源的采购成本，/>表示第i个工序对第k种资源的资源需求量，/>表示全部工序的资源需求量对应的成本，用于剔除成本量纲的影响，便于深度神经网络模型训练。

2）该进度奖励可以理解为当该目标施工项目的施工工期超过施工工期阈值时，表示该目标施工项目施工失败，因此，需给大额且为负数的进度奖励。在深度神经网络模型实际训练时，在该深度神经网络模型初次训练时，该目标施工项目成功执行的概率较小，导致在该深度神经网络模型前一段训练过程中，该进度奖励很多时候为同一负值，导致进度奖励较为稀疏，导致该深度神经网络模型难以训练，因此，在该进度奖励中设置稀疏部分的进度奖励和密集部分的进度奖励，根据该稀疏部分的进度奖励和密集部分的进度奖励之和，确定该进度奖励。该稀疏部分的进度奖励如式（4）所示，式（4）为：

其中，表示稀疏部分的进度奖励，/>表示施工工期阈值。

该密集部分的进度奖励如式（5）所示，式（5）为：

其中，表示第t施工时间步对应的密集部分的进度奖励，/>表示第t施工时间步第i个工序中第k种资源的完成进度，即，第t施工时间步第i个工序中第k种资源的消耗量。

在确定稀疏部分的进度奖励和密集部分的进度奖励后，可利用式（6），计算稀疏部分的进度奖励和密集部分的进度奖励之和，确定第t施工时间步对应的进度奖励，式（6）为：

其中，表示第t施工时间步对应的进度奖励。

3）该成本奖励用于防止过量采购，该成本奖励可以包括物料采购成本，以及工人和可复用设备的花费成本，其中：

可利用式（7），计算得到该物料采购成本，式（7）为：

其中，由于采购的是物料资源，1≤k≤M₁，且k为整数，表示第t施工时间步对第k种资源的物料采购成本。

可利用式（8），计算得到该工人和可复用设备的花费成本，式（8）为：

其中，由于是对工人的雇佣和对可复用设备资源的租赁，因此，M₁+1≤k≤M，且k为整数，表示第t施工时间步对第k种资源的花费成本，/>表示对第k种资源的雇佣或租赁成本，/>表示第t施工时间步结束时第k种资源的资源拥有量，该资源拥有量即第t+1施工时间步的资源存量，即，该资源拥有量对应的资源在第t+1施工时间步被使用。

在确定该物料采购成本，以及工人和可复用设备的花费成本后，利用式（9），计算该物料采购成本与工人和可复用设备的花费成本之和，确定第t施工时间步对应的采购成本，式（9）为：

其中，表示采购成本。

在确定采购成本后，可利用式（10），计算得到第t施工时间步的成本奖励，式（10）为：

其中，表示第t施工时间步的成本奖励，/>表示第t施工时间步对应的完成进度，即，第t施工时间步的资源消耗量，通过/>可剔除工序的固有资源需求的影响。

4）在确定调度奖励、进度奖励和成本奖励后，可利用式（11），根据调度奖励、进度奖励和成本奖励的加权求和，确定第t施工时间步对应的单步奖励函数，式（11）为：

其中，表示第t施工时间步对应的单步奖励函数，/>表示第t施工时间步的调度奖励对应的权重，/>表示第t施工时间步的进度奖励对应的权重，/>表示第t施工时间步的成本奖励对应的权重，/>、/>和/>可由用户给出。

2、该项目总奖励函数包括物料资源波动率、工人资源波动率和成本浪费率三部分，其中：

1）利用式（12），计算该物料资源波动率，式（12）为：

其中：表示该目标施工项目结束后的物料资源波动率，1≤k≤M₁，且k为整数，T表示施工总周期，/>表示第t-1施工时间步对第k种资源的物料资源采购量，/>表示第k种资源在所有工序中的资源需求量，通过/>可剔除量纲影响，且物料资源以调度量实现物料资源均衡。

2）利用式（13），计算该工人资源波动率，式（13）为：

其中，表示该目标施工项目结束后的工人资源波动率，表示第t-1施工时间步结束时第k种资源的资源拥有量，/>表示工人宿舍面积，M₁+1≤k≤M₁+M₂，且k为整数。在式（13）种，工人资源通过工人宿舍面积剔除量纲影响，工人资源以资源存量实现工人资源均衡。

3）利用式（14），计算该成本浪费率，式（14）为：

其中，表示该成本浪费率，用于防止过量采购。

4）在确定物料资源波动率、工人资源波动率和成本浪费率后，利用式（15），确定项目总奖励值，式（15）为：

其中，在施工总周期大于施工工期阈值时，该目标施工项目实施失败，因此，将项目总奖励值确定为0，或者深度神经网络模型输出的决策不满足施工约束条件中的可行策略条件时，将项目总奖励值确定为0，即，在该决策不同时满足可行策略条件中的存放空间约束条件和施工空间约束条件时，无法进行施工，因此，将此种情况下的项目总奖励值确定为0。其他情况可以理解为在决策满足施工约束条件中的可行策略条件，即，该决策同时满足可行策略条件中的存放空间约束条件和施工空间约束条件。表示物料资源波动率对应的权重，/>表示工人资源波动率对应的权重，/>表示成本浪费率对应的权重，/>、/>和/>均为预设值，可由用户给出，并根据物料资源波动率、工人资源波动率和成本浪费率的值进行调整，便于深度神经网络模型进行训练。

同时，可构建深度神经网络模型，该深度神经网络模型包括第一子模型、第二子模型、第三子模型、第四子模型和主体子模型。该第一子模型可以为卷积神经网络（Convolutional Neural Networks，CNN），第二子模型至第四子模型中的三个模型均为循环神经网络（Recurrent Netural Network，RNN），第一子模型至第四子模型为并列关系，主体子模型可以为深度神经网络（Deep Neural Networks，DNN），第一子模型至第四子模型的输出数据为主体子模型的输入数据。

进一步的，在确定单步奖励函数和项目总奖励函数后，可根据上述单步奖励函数或项目总奖励函数构建该深度神经网络模型对应的损失函数，即，将上述单步奖励函数的负数或项目总奖励值的负数确定为该深度神经网络模型对应的损失函数，在将单步奖励函数的负数确定为该深度神经网络模型对应的损失函数时，可根据该损失函数更新当前施工时间步对应的模型参数，在将项目总奖励值的负数确定为该深度神经网络模型对应的损失函数时，可根据该损失函数更新该深度神经网络模型中当前迭代轮次的模型参数。在确定损失函数后，利用式（16），可根据选择的优化器，利用梯度下降法更新上一迭代轮次对应的权重，式（16）为：

其中，表示更新后上一迭代轮次对应的新的权重，/>表示更新前上一迭代轮次对应的权重，/>表示学习率，/>表示损失函数的梯度，该损失函数可以为单步奖励函数的负数或项目总奖励值的负数。

在构建深度神经网络模型后，可基于项目信息和资源需求信息，初始化深度神经网络模型的模型参数。具体包括：在构建深度神经网络模型后，获取项目信息和资源需求信息，并响应用户的相关操作，获取用户输入的与深度神经网络模型相关的预设参数，该预设参数包括调度奖励对应的权重、进度奖励对应的权重/>、成本奖励对应的权重/>、物料资源波动率对应的权重/>、工人资源波动率对应的权重/>、成本浪费率对应的权重，三个预设值/>、/>和/>、学习率/>、优化器Optimizer和预设迭代轮次epochs。令当前迭代轮次epoch=0，并随机初始化该深度神经网络模型对应的模型参数。

步骤130、基于所述深度神经网络模型，获取当前施工时间步对应的施工状态数据，基于所述当前施工时间步对应的施工状态数据、所述项目信息和所述资源需求信息，对所述深度神经网络模型进行强化学习，所述主体子模型输出下一施工时间步对应的决策，并基于所述单步奖励函数更新所述深度神经网络模型的模型参数；所述施工状态数据用于表征所述样本施工项目中所述当前施工时间步对应的工序完成进度和资源拥有量，且所述施工状态数据中不同类型的资源训练数据分别输入所述第一子模型至所述第四子模型。

具体的，该深度神经网络模型包括第一子模型至第四子模型以及主体子模型。其中：该第一子模型用于处理工序完成进度，该工序完成进度可以为时间序列数据，该工序完成进度可以为N×M₁×S维的张量，是在某个施工时间步结束后从工序的累积完成进度中取S个施工时间步得到的。由于三种资源中，物料资源会被消耗、需要调度车对采购的物料资源进行调度，因此，该物料资源具有空间属性；工人资源不会被消耗，但不同种类的工人具有不同的施工效率，且工人需要工人宿舍进行住宿，因此，该工人资源具有效率属性和空间属性；可复用设备资源不会被消耗，但需要通过可施工空间进行存放，因此，该可复用设备资源具备空间属性。由于三种资源具备不同的特点，因此，分别通过第二子模型处理资源拥有量中物料资源对应的物料资源拥有量，通过第三子模型处理资源拥有量中工人资源对应的工人资源拥有量，通过第四子模型处理资源拥有量中可复用设备资源对应的可复用设备资源拥有量。该物料资源拥有量为M₁×S的张量，该工人资源拥有量为M₂×S的张量，该工人资源拥有量为M₃×S的张量。不同模型可以提取具有不同类别的数据特征，解决了现有技术中可处理的数据边界不足的问题，同时能得到更好的求解效果。在第一子模型至第四子模型均确定对应的输出数据后，可将所有输出数据输入主体子模型，由主体子模型输出下一施工时间步对应的决策，并在根据单步奖励函数计算得到单步奖励值后，根据该单步奖励值更新当前施工时间步深度神经网络模型的模型参数。

进一步的，所述施工状态数据中的资源拥有量包括物料资源拥有量、工人资源拥有量和可复用设备资源拥有量；

具体的，图2是本发明实施例提供的深度神经网络模型的训练流程示意图，如图2所示，在对深度神经网络模型进行训练时，首先判断当前迭代轮次epoch是否小于或等于预设迭代轮次epochs，若当前迭代轮次epoch大于预设迭代轮次epochs，表明达到迭代停止条件，对该深度神经网络模型训练结束。若当前迭代轮次epoch小于或等于预设迭代轮次epochs，表明该深度神经网络模型训练未结束，可获取当前施工时间步的施工状态数据，该施工状态数据可以包括工序完成进度/>和资源拥有量/>，且/>，，t=0。

表3 第一子模型架构表

之后，判断当前施工时间步的工序完成进度是否小于预设资源需求量，以判断该样本施工项目是否已完成。若当前施工时间步的工序完成进度小于预设资源需求量时，表明资源需求量存在剩余量，可知，当前施工时间步下的工序并未全部完成。此时，可将获取到的施工状态数据输入深度神经网络模型，得到下一施工时间步的决策，即，下一施工时间步各工序分别分配M种资源的分配量。图3是本发明实施例提供的深度神经网络模型的结构示意图，如图3所示，确定下一施工时间步对应的决策的过程包括以下步骤：

1）该第一子模型包括零填充层、卷积层、池化层和全连接层等，在向第一子模型输入工序完成进度后，通过零填充层，可将该工序完成进度零填充为[256,256,64]的张量。之后，通过卷积、池化、全连接等操作，最终输出长度为512的工序向量，该第一子模型的具体架构及各层输出的数据大小如表3所示。

在第一子模型的全连接层，使用双曲正切函数tanh作为激活函数，通过式（17），可计算输入层至第一隐藏层的输出值，式（17）为：

其中，表示输入层至第一隐藏层的输出值，s表示第一隐藏层的输入值，表示双曲正切函数，且/>，即，，/>表示第一隐藏层对应的权重，/>表示偏置值。

2）该第二子模型至第四子模型中的各模型均包括4个RNN隐藏层、3个全连接层和1个拼接层。第一RNN隐藏层使用修正线性单元ReLU作为激活函数，输出长度为64的向量，该第一RNN隐藏层的输出值可通过式（18）计算得到，式（18）为：

其中，表示第一RNN隐藏层的输出值，/>表示输入层至隐藏状态的权重矩阵，/>表示隐藏状态至隐藏状态的权重矩阵，/>表示隐藏状态的偏置向量，表示第一层神经元的输入向量，用于确定当前施工时间步的隐藏状态，/>表示修正线性单元，/>，即，，用于将当前施工时间步计算得到的隐藏状态更新为下一施工时间步对应的隐藏状态，即，将信息从当前施工时间步传递至下一施工时间步。

第二RNN隐藏层至第四RNN隐藏层均采用修正线性单元ReLU作为激活函数，且第二RNN隐藏层至第四RNN隐藏层中各隐藏层均输出长度为128的向量。之后，该第二子模型至第四子模型中每个模型的全连接层均采用修正线性单元ReLU作为激活函数，并输出长度为128的向量。之后，通过拼接层对三个长度为128的向量进行拼接，得到长度为384的向量。之后，通过两个全连接层，均使用修正线性单元ReLU作为激活函数，每个全连接层均输出长度为256的资源向量。

之后，将第一子模型输出的长度为512的工序向量，以及第二子模型至第四子模型输出的长度为256的资源向量输入至主体子模型，通过主体子模型中的拼接层，拼接得到长度为768的向量，之后，采用三个全连接层，且均使用修正线性单元ReLU作为激活函数，第一个全连接层输出长度为768的向量，第二个全连接层输出长度为512的向量，第三个全连接层输出长度为512的向量。该主体子模型的输出层采用修正线性单元ReLU作为激活函数，输出长度为N×M的向量，将该长度为N×M的向量进行重塑（reshape），将该长度为N×M的向量转换为N×M的矩阵，该N×M的矩阵即为决策。

进一步的，所述基于所述单步奖励函数更新所述深度神经网络模型的模型参数，包括：

具体的，在确定决策后，确定当前施工时间步的工序完成进度小于预设资源需求量，且确定深度神经网络模型输出的决策满足可行策略条件时，可在资源调度环境中执行该决策，即，将决策作为资源调度环境中的输入数据，利用式（19），执行该决策后，得到下一施工时间步对应的工序观测数据，即，下一施工时间步对应的施工状态数据，式（19）为：

其中，表示在资源调度环境中，执行该决策后，当前施工时间步对应的施工状态数据的改变信息，Action_t表示当前施工时间步对应的决策，State_t表示当前施工时间步的施工状态数据，State_t+1表示下一施工时间步对应的工序观测数据或下一施工时间步对应的施工状态数据。

在执行该决策时，一方面，项目经理需在当前施工时间步结束时确定下一施工时间步对各工序分配M种资源的分配量，即，确定该决策，在下一施工时间步时，若该决策对应的资源量超过施工单位的现有资源，那么施工单位应立即进行采购、雇佣或租赁，以补足缺少的资源，确保下一施工时间步的正常施工。反之，若该决策对应的资源量少于施工单位的现有资源，那么施工单位应立即退回或辞退。另一方面，工人和可复用设备均为可重复利用的，已投入的工人和可复用设备会在当前施工时间步结束时解除占用，并在下一施工时间步恢复至可使用状态。同时，由于多投入工人可提供工序执行速度，但施工过程中在当前施工时间步结束时的宿舍空间有限，且工人按工作天数发放工资，因此，项目经理存在随时执行辞退工人的操作，可复用设备资源与工人相似，项目经理存在随时解除可复用设备的租赁关系的操作。又一方面，对于消耗性的物料资源，已投入的施工的物料资源不能在之后的施工过程中继续使用；当天尚未用完的物料资源会存在一定程度的损耗，损耗率在项目全过程中保持不变，未损耗的物料资源在下一施工时间步可继续使用。在仓库足够储存的情况下，由于资源有均衡要求，且调度需要成本，所以项目经理有动机提前采购当天用不到的物料资源。基于上述资源利用假设，可利用式（20），计算该下一施工时间步开始时需要采购的资源采购量，式（20）为：

其中，表示第k种资源被第i个工序在第t施工时间步或下一施工时间步的使用量，/>表示第k种资源在第t-1施工时间步或当前施工时间步结束时对应的资源拥有量，1≤k≤M，且k为整数。/>

之后，为确定下一施工时间步结束时对应的资源拥有量，还需确定下一施工时间步结束时的资源消耗量，即，当前施工时间步结束时的工序完成进度，还可理解为下一施工时间步开始时的工序已完成量。存在某个工序在完成过程中受到三种资源供给量的影响。具体包括：利用式（21），计算第i个工序因第k种资源允许的最大施工进度，该第k种资源属于物料资源，式（21）为：

其中，表示当前施工时间步或第t施工时间步第i个工序因第k种物料资源允许的最大施工进度，/>表示决策中当前施工时间步或第t施工时间步第i个工序分配第k种资源的分配量，1≤k≤M₁，且k为整数。

利用式（22），计算第i个工序因第k种资源允许的最大施工进度，该第k种资源属于工人资源，式（22）为：

其中，表示当前施工时间步或第t施工时间步第i个工序因第k-M₁种工人资源允许的最大施工进度，/>表示第k种工人的施工效率。

利用式（23），计算第i个工序因第k种资源允许的最大施工进度，该第k种资源属于可复用设备资源，式（23）为：

其中，表示当前施工时间步或第t施工时间步第i个工序因第k种可复用设备资源允许的最大施工进度/>表示决策中当前施工时间步或第t施工时间步第i个工序分配第k种可复用设备资源的分配量1<k≤M₁，且k为整数。

此外，若某个工序的前置工序未满足时，即使资源拥有量充足也无法正常施工。因此，利用式（24），计算第i个工序的前置工序供给进度，式（24）为：

其中，j表示第j个前置工序，i表示第i个后置工序，在第j个前置工序在当前施工时间步或第t施工时间步之前执行完成后，第i个后置工序才能在下一施工时间步或第t+1施工时间步执行，表示当前施工时间步或第t施工时间步第i个后置工序中第k个资源的前置工序供给进度。

之后，可利用式（25），根据上述四个进度中的最小值，计算第i个工序在下一施工时间步对第k中物料资源的消耗量，式（25）为：

其中，1≤k≤M₁，且k为整数，通过第i个工序在下一施工时间步对第k中物料资源的消耗量，可确定下一施工时间步第i个工序第k种资源的工序完成进度/>，即，/>。

在确定工序完成进度后，根据下一施工时间步第i个工序第k种资源的工序完成进度与当前施工时间步第i个工序第k种资源的累计已完成进度/>之和，确定下一施工时间步结束时第i个工序第k种资源的累计已完成进度/>，即，。

之后，可利用式（26），计算该下一施工时间步结束时物料资源对应的资源拥有量，式（26）为：

其中，表示第t施工时间步或下一施工时间步结束时的资源拥有量，表示第t-1施工时间步或当前施工时间步结束时第k种资源的资源拥有量，表示第t施工时间步或下一施工时间步开始时需要采购的物料资源的资源采购量，/>表示第t施工时间步或下一施工时间步结束时对应的资源消耗量，/>表示第k种资源的损耗系数，由于仅有物料资源会被消耗，因此，1≤k≤M₁，且k为整数。

利用式（27），计算该下一施工时间步结束时人工资源对应的资源拥有量，式（27）为：

其中，表示下一施工时间步或第t施工时间步结束时人工资源对应的资源拥有量，/>表示施工状态数据中当前施工时间步或第t-1施工时间步结束时第k种资源的资源拥有量，/>第t施工时间步或下一施工时间步开始时需要雇佣的工人资源的资源雇佣量，M₁<k≤M₁+M₂，且k为整数。

可利用式（28），计算该下一施工时间步结束时人工资源对应的资源拥有量，式（28）为：

其中，表示下一施工时间步或第t施工时间步结束时可复用设备资源对应的资源拥有量，/>表示施工状态数据中当前施工时间步或第t-1施工时间步结束时第k种资源的资源拥有量，/>第t施工时间步或下一施工时间步开始时需要租赁的可复用设备资源的资源雇佣量，M₁₊M₂<k≤M，且k为整数。

需要说明的是，上述三个资源拥有量为下一施工时间步对应的工序观测数据。

之后，可利用式（3），计算执行该决策对应的调度奖励，利用式（6），计算执行该决策对应的进度奖励，利用式（10），计算执行该决策对应的成本奖励。在确定调度奖励、进度奖励和成本奖励后，可利用式（11），计算得到该决策对应的单步奖励值，根据该单步奖励值，确定对应的损失函数值，并根据该损失函数值更新深度神经网络模型的模型参数。通过单步奖励函数，可加速深度神经网络模型的训练，确保在每个施工时间步对应的决策为最佳决策。

可选的，该可行策略条件包括存放空间约束条件和施工空间约束条件。该存放空间约束条件对应的判定式可以包括：物料仓库空间条件与工人宿舍空间条件，在该决策同时满足物料仓库空间条件和工人宿舍空间条件的情况下，表明该决策满足存放空间约束条件。该施工空间约束条件对应的判定式可以为：/>，若同时满足存放空间约束条件和施工空间约束条件，表明该决策为可行策略，若存在至少一个约束条件不满足，表明该决策为不可行策略。

进一步的，如图2所示，所述方法还包括：

具体的，在确定当前施工时间步的工序完成进度小于预设资源需求量，且确定深度神经网络模型输出的决策不满足可行策略条件时，可利用式（15）中或决策为不可行策略的情况，确定项目总奖励值为0，并表明该下一施工时间步的决策规划错误，因此，在确定该项目总奖励值后，将当前施工时间步对应的模型参数回退至上一施工时间步对应的模型参数，重新进行当前迭代轮次的施工排程。

进一步的，如图2所示，所述方法还包括：

在所述工序完成进度等于所述预设资源需求量的情况下，确定所述当前迭代轮次的施工排程结束，基于所述项目总奖励函数，确定所述当前迭代轮次的项目总奖励值，并基于所述项目总奖励值，更新所述当前迭代轮次的模型参数。

具体的，若当前时间步的工序完成进度等于预设资源需求量，表明当前时间步结束后资源消耗量以达到预设资源需求量，表明当前迭代周期已完成该待测施工项目，可利用式（15）中的其他情况，计算项目总奖励值，并根据该项目总奖励值，更新当前迭代轮次的模型参数。

进一步的，所述基于所述项目总奖励函数，确定所述当前迭代轮次的项目总奖励值，包括：

具体的，在确定当前迭代轮次的施工排程结束后，可利用式（12），计算物料资源波动率，利用式（13），计算工人资源波动率，利用式（14），计算成本浪费率，在确定物料资源波动率、工人资源波动率和成本浪费率后，可利用式（15），计算项目总奖励值。

步骤140、在所述下一施工时间步小于或等于施工工期阈值的情况下，重复执行单步决策步骤，在施工排程结束后，基于所述项目总奖励函数更新当前迭代轮次的所述模型参数。

具体的，若下一施工时间步小于或等于施工工期阈值，表明施工时间步未超出固定的最大施工工期，可将上述工序观测数据确定为下一施工时间步对应的施工状态数据，重复执行单步决策步骤，直至当前迭代轮次大于预设迭代轮次的情况下，确定该样本施工项目排程结束，并利用式（12），计算物料资源波动率，利用式（13），计算工人资源波动率，利用式（14），计算成本浪费率，在确定物料资源波动率、工人资源波动率和成本浪费率后，可利用式（15），计算项目总奖励值，根据该项目总奖励值更新当前迭代轮次的模型参数。

进一步的，如图2所示，所述方法还包括：

具体的，若下一施工时间步大于施工工期阈值，表明该样本施工项目施工失败，因此，利用式（15）中或决策为不可行策略的情况，确定项目总奖励值为0，并表明当前迭代轮次的所有决策规划错误，因此，在确定该项目总奖励值后，将当前迭代轮次对应的模型参数回退至上一迭代轮次对应的模型参数，重新进行当前迭代轮次的施工排程。

步骤150、遍历各所述样本施工项目，重复执行更新所述模型参数的步骤，得到训练完成的施工排程模型，并基于所述施工排程模型对目标施工项目进行施工排程，输出所述目标施工项目在各施工时间步对应的目标排程策略。

具体的，在根据任意一个样本施工项目对该深度神经网络模型训练结束后，可遍历其他样本施工项目，根据其他样本施工项目对该深度神经网络模型进行训练，达到终止条件后，得到训练完成的施工排程模型。

之后，获取目标施工项目对应的项目信息和资源需求信息，根据该施工排程模型，以资源均衡和排程效率为优化目标，对该目标施工项目进行施工排程，得到目标施工项目在各施工时间步对应的目标排程策略。需要说明的是，该目标施工项目可以为样本施工项目中的任意一个。

需要说明的是，上述每个迭代轮次表示对该样本施工项目进行一次完整施工排程所经历的时长，通过对该深度神经网络模型进行预设迭代轮次的迭代训练，不断调节该深度神经网络模型中的模型参数，使得训练完成后的施工排程模型可适配该样本施工项目。若更换新的施工项目，需对该深度神经网络模型进行重新训练。每个施工时间步可以为每天，本发明实施例对此不作限制。

可选的，训练时所采用的服务器硬件平台可以为CPU intel i9 13900k和GPUNVIDIA GeForce RTX 4090，内存可以为128GB DDR4 3600MHz，系统可以为Ubuntu 22.04LTS。训练采用的软件环境可以为：Pytorch 1.12和Python 3.10。训练过程采用FP16混合精度加速，训练时间累计约为5天14小时。

示例地，以该目标施工项目为建设大型体育场馆，设置奖励权重=0.7，/>=0.25，/>=0.05，/>=0.35，/>=0.65，/>=0.3，/>=1.1，，/>=1.1，/>=1.8，epochs=55000轮，不涉及batch size，使用Adam优化器进行训练，初始学习率为0.001，学习率衰减方式为余弦退火法为例，设置S=10，以第201天至第210天为例，施工排程模型中第一子模型的输入数据工序完成进度为第201天至第210天的工序进展，并以物料资源的需求量进行表示，该工序完成进度是一个118×8×10维的张量，且从第201天至第210天，每个工序的工序完成进度是单调递增的。第二子模型至第四子模型的输入数据为第201天至第210天三种资源的资源拥有量。主体子模型的输出数据为第210天结束时的决策，决策是一个118×21维的向量。

可选的，图4是本发明实施例提供的项目总奖励值随迭代轮次变化的示意图，在深度神经网络模型训练结束后，由图4可知，项目总奖励值在大约0.843550处收敛。大约在训练27700轮后，项目总奖励值开始逐渐超过0.5；大约在训练35600轮后，项目总奖励值开始逐渐超过0.8；大约在训练40000轮以后，项目总奖励值趋于收敛。在训练早期，决策经常输出不可行策略，因此，项目总奖励值经常为0；在训练后期，输出不可行策略的频次减少。在训练的第40001-55000轮中，其输出的决策成功率为99.9734%，可认为几乎不会输出不可行策略。

可选的，图5是本发明实施例提供的物料资源采购量随施工时间步变化的示意图，如图5所示，训练结束后，在所得的最终决策中，项目的实际工期为588天。因不同资源量纲不同，图5中的资源采购量以相对值形式呈现。在各个施工阶段，相应所需的物料采购相对均匀，在不同工序切换时，每日的资源采购量存在小幅跃迁；在不同施工阶段切换时，每日的资源采购量快速变化到新水平。决策会选择在实际施工开始前的一段时间内提前进行采购，实现资源采购的均衡。

可选的，图6是本发明实施例提供的料仓库利用率随项目时间变化的示意图，如图6所示，该目标施工项目中期的部分时段，物料仓库利用率接近100%。在整个项目期间，有19.2%时间的物料仓库利用率高于85%。其中，混凝土只能当天采购使用，故无库存量。

在将本发明实施例提供的所有目标排程策略与实际施工相比，本发明实施例提供的所有目标排程策略对应的项目总奖励值为0.843550，实际工程的项目总奖励值为0.662935，本发明比实际工程提升27.82%。奖励分为资源均衡部分和工程成本部分，其中资源均衡部分为主要指标。其中，资源均衡部分，物料均衡指标较实际工程提升24.26%、工人均衡指标较实际工程提升35.66%，能够有效实现资源的均衡，防止工程赶工，从而提升工程质量。另外，工程成本部分，本发明的物料成本比实际工程有1.24%的增加，工人和可复用设备的租赁成本比实际工程有11.82%的减少，最终导致该目标施工项目总成本较实际工程有0.79%的降低。物料成本的增加主要来自于决策的提前采购导致的少量损耗花费，而决策通过合理安排工人和可复用设备，有效减少了二者的租赁成本。除此之外，本发明实施例提供的施工总周期比实际工程的实际工期缩短2.49%，比规定的最大工期短3.76%。工期并非本发明的优化目标，但通过对工人施工效率的考虑，合理安排人员，因此对施工工期的减少也有贡献。

本发明提供的基于深度强化学习的资源均衡施工排程方法，在获取各样本施工项目对应的项目信息，以及由工序、资源种类和资源需求量之间的映射关系构成的资源需求信息后，以资源均衡和排程效率为优化目标，构建单步奖励函数和项目总奖励函数，并根据资源需求信息、单步奖励函数和项目总奖励函数，构建深度神经网络模型，通过第一子模型至第四子模型分别处理施工状态数据中不同类型的资源训练数据，并通过主体子模型输出下一施工时间步对应的决策，训练时深度神经网络模型通过与环境的交互进行强化学习，使施工排程模型高效适应环境和目标施工项目对应的复杂数据，在更新深度神经网络模型的模型参数时，既通过单步奖励函数确保各施工时间步对应的决策最优，又通过项目总奖励函数确保所有施工时间步各自对应的决策在整体上满足资源均衡和排程效率最优，利用训练好的施工排程模型对目标施工项目进行排程时，实现施工排程过程中不同资源种类间的资源均衡，提高施工排程的合理性。此外，本发明实施例采用的工序完整、覆盖全面且提供的所有施工时间步的目标排程策略参考价值高，充分考虑了资源分配的可调整性、工期随资源分配的可变性、不同工序的资源需求差异巨大等因素，在实际应用中具有较高的实用价值。

下面对本发明提供的基于深度强化学习的资源均衡施工排程装置进行描述，下文描述的基于深度强化学习的资源均衡施工排程装置与上文描述的基于深度强化学习的资源均衡施工排程方法可相互对应参照。

本发明实施例还提供一种基于深度强化学习的资源均衡施工排程装置，图7是本发明实施例提供的基于深度强化学习的资源均衡施工排程装置的结构示意图，如图7所示，该于深度强化学习的资源均衡施工排程装置700包括：获取模块710、构建模块720、第一更新模块730、第二更新模块740和排程模块750，其中：

获取模块710，用于获取至少一个样本施工项目对应的项目信息和资源需求信息；所述资源需求信息用于表征所述样本施工项目中工序、资源种类和资源需求量之间的映射关系；

构建模块720，用于以资源均衡和排程效率为优化目标，分别构建单步奖励函数和项目总奖励函数；基于所述项目信息、所述资源需求信息、所述单步奖励函数和所述项目总奖励函数，构建深度神经网络模型，其中，所述深度神经网络模型包括基于卷积神经网络构建的第一子模型、基于循环神经网络构建的第二子模型、第三子模型和第四子模型，以及基于深度神经网络构建的主体子模型；

第一更新模块730，用于基于所述深度神经网络模型，获取当前施工时间步对应的施工状态数据，基于所述当前施工时间步对应的施工状态数据、所述项目信息和所述资源需求信息，对所述深度神经网络模型进行强化学习，所述主体子模型输出下一施工时间步对应的决策，并基于所述单步奖励函数更新所述深度神经网络模型的模型参数；所述施工状态数据用于表征所述样本施工项目中所述当前施工时间步对应的工序完成进度和资源拥有量，且所述施工状态数据中不同类型的资源训练数据分别输入所述第一子模型至所述第四子模型；

第二更新模块740，用于在所述下一施工时间步小于或等于施工工期阈值的情况下，重复执行单步决策步骤，在施工排程结束后，基于所述项目总奖励函数更新当前迭代轮次的所述模型参数；

排程模块750，用于遍历各所述样本施工项目，重复执行更新所述模型参数的步骤，得到训练完成的施工排程模型，并基于所述施工排程模型对目标施工项目进行施工排程，输出所述目标施工项目在各施工时间步对应的目标排程策略。

本发明实施例提供的基于深度强化学习的资源均衡施工排程装置，在获取各样本施工项目对应的项目信息，以及由工序、资源种类和资源需求量之间的映射关系构成的资源需求信息后，以资源均衡和排程效率为优化目标，构建单步奖励函数和项目总奖励函数，并根据资源需求信息、单步奖励函数和项目总奖励函数，构建深度神经网络模型，通过第一子模型至第四子模型分别处理施工状态数据中不同类型的资源训练数据，并通过主体子模型输出下一施工时间步对应的决策，训练时深度神经网络模型通过与环境的交互进行强化学习，使施工排程模型高效适应环境和目标施工项目对应的复杂数据，在更新深度神经网络模型的模型参数时，既通过单步奖励函数确保各施工时间步对应的决策最优，又通过项目总奖励函数确保所有施工时间步各自对应的决策在整体上满足资源均衡和排程效率最优，利用训练好的施工排程模型对目标施工项目进行排程时，实现施工排程过程中不同资源种类间的资源均衡，提高施工排程的合理性。此外，本发明实施例采用的工序完整、覆盖全面且提供的所有施工时间步的目标排程策略参考价值高，充分考虑了资源分配的可调整性、工期随资源分配的可变性、不同工序的资源需求差异巨大等因素，在实际应用中具有较高的实用价值。

可选的，所述施工状态数据中的资源拥有量包括物料资源拥有量、工人资源拥有量和可复用设备资源拥有量。

可选的，第一更新模块730，具体用于：

可选的，该第二更新模块740，还用于：

图8是本发明实施例提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行基于深度强化学习的资源均衡施工排程方法。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于深度强化学习的资源均衡施工排程方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于深度强化学习的资源均衡施工排程方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的资源均衡施工排程方法，其特征在于，包括：

遍历各所述样本施工项目，重复执行更新所述模型参数的步骤，得到训练完成的施工排程模型，并基于所述施工排程模型对目标施工项目进行施工排程，输出所述目标施工项目在各施工时间步对应的目标排程策略；

所述单步奖励函数是基于调度奖励、进度奖励和成本奖励的加权求和计算得到的，其中，所述调度奖励是基于物料调度奖励、工人资源和可复用设备资源的调度奖励，以及全部工序的资源需求量对应的成本确定的，所述物料调度奖励是基于调度车的容量、所述调度车的单位成本、第t施工时间步对物料资源的物料采购量确定的，所述工人资源和可复用设备资源的调度奖励是基于工人资源和可复用设备资源的调度成本系数和第t施工时间步对工人资源和可复用设备资源的调度量确定的；所述进度奖励为稀疏部分的进度奖励和密集部分的进度奖励之和，所述密集部分的进度奖励是基于第t施工时间步第i个工序中对物料资源的完成进度确定的，所述稀疏部分的进度奖励是基于第t施工时间步与施工工期阈值的比较结果确定的；所述成本奖励是基于物料采购成本与工人资源和可复用设备资源的花费成本，以及全部工序的资源需求量对应的成本确定的；

所述项目总奖励函数对应的公式为：

；

其中，表示物料资源波动率，所述物料资源波动率是基于施工总周期内的各施工时间步的物料资源采购量、各施工时间步对应的上一个施工时间步的物料资源采购量和物料资源在所有工序中的资源需求量确定的，/>表示工人资源波动率，所述工人资源波动率是基于施工总周期内的各施工时间步结束时的工人资源拥有量、各施工时间步对应的上一个施工时间步结束时的工人资源拥有量和工人宿舍面积确定的，表示成本浪费率，所述成本浪费率是基于施工总周期内的各施工时间步对物料资源的物料采购量对应的成本、各施工时间步结束时对工人资源和可复用设备资源的资源拥有量对应的成本和全部工序对物料资源的资源需求量对应的成本确定的，/>表示物料资源波动率对应的权重，/>表示工人资源波动率对应的权重，/>表示成本浪费率对应的权重，/>、/>和/>均为预设值，T表示施工总周期，/>表示施工工期阈值。

2.根据权利要求1所述的基于深度强化学习的资源均衡施工排程方法，其特征在于，所述施工状态数据中的资源拥有量包括物料资源拥有量、工人资源拥有量和可复用设备资源拥有量；

3.根据权利要求2所述的基于深度强化学习的资源均衡施工排程方法，其特征在于，所述基于所述单步奖励函数更新所述深度神经网络模型的模型参数，包括：

4.根据权利要求3所述的基于深度强化学习的资源均衡施工排程方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的基于深度强化学习的资源均衡施工排程方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的基于深度强化学习的资源均衡施工排程方法，其特征在于，所述基于所述项目总奖励函数，确定所述当前迭代轮次的项目总奖励值，包括：

7.根据权利要求1-6任一项所述的基于深度强化学习的资源均衡施工排程方法，其特征在于，所述方法还包括：

8.一种基于深度强化学习的资源均衡施工排程装置，其特征在于，包括：

排程模块，用于遍历各所述样本施工项目，重复执行更新所述模型参数的步骤，得到训练完成的施工排程模型，并基于所述施工排程模型对目标施工项目进行施工排程，输出所述目标施工项目在各施工时间步对应的目标排程策略；

所述项目总奖励函数对应的公式为：

；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述基于深度强化学习的资源均衡施工排程方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述基于深度强化学习的资源均衡施工排程方法。