CN116307498A

CN116307498A - 施工任务智能调度方法、装置、存储介质和处理器

Info

Publication number: CN116307498A
Application number: CN202310070888.5A
Authority: CN
Inventors: 付玲; 曾维国; 于晓颖; 赵兴栋; 刘延斌
Original assignee: Zoomlion Heavy Industry Science and Technology Co Ltd
Current assignee: Zoomlion Heavy Industry Science and Technology Co Ltd
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-06-23

Abstract

本申请实施例提供一种施工任务智能调度方法、装置、存储介质和处理器，属于建筑施工技术领域。本发明通过获取构件施工任务；进而生成初始施工任务序列；然后将施工任务序列输入至第一模拟仿真模型，得到初始设备分配策略，其中，所述第一模拟仿真模型用于基于强化学习算法对施工流程进行模拟仿真得到设备分配策略；最后基于元启发式算法和所述第一模拟仿真模型，对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，可以兼顾求解速度与求解质量，通过优化施工任务序列和设备分配策略，得到的施工任务调度方案可以明显缩短施工时长，解决了传统施工效率低工期长的问题。

Description

施工任务智能调度方法、装置、存储介质和处理器

技术领域

本申请涉及建筑施工技术领域，具体涉及一种施工任务智能调度方法、一种施工任务智能调度装置、一种机器可读存储介质及一种处理器。

背景技术

近年来，建筑业经历了高速发展时期，并形成了一定的规模。随着建筑产业规模的不断扩大，普遍存在着建造效率低下、资源浪费严重、成本居高不下、技术进步缓慢等等难题。走建筑工业化、精细化管理的道路，摒弃传统效率低工期长的粗放式建筑模式，逐渐成为未来建筑施工的发展方向。同时，装配式建筑作为建筑产业化的重要组成部分，越来越受到重视，其建造模式不仅明显提高了施工效率，保证了工程质量，还有效缓解了建筑工人缺乏、能源紧张、环境污染等多方面压力，同时也更加符合自动化、智能化的施工要求。

作为装配式建筑项目建设过程中的核心内容，装配式建筑施工任务的调度规划关系到整个项目的工期和资源使用情况。同时，现场施工调度问题涉及建筑施工逻辑与工法、预制构件间拓扑关系、机群协同施工作业、人员作业等多方面因素，施工场景复杂且具有随机性、动态性等特征，难以建立精确的数学模型进行求解。此外，为满足工程需要，施工调度模型及其算法必须在限定时间内得出优化结果。这些都对装配式建筑施工任务的调度规划提出更高的要求。目前，现有的一些施工任务的调度方法是通过采用在线算法进行数学规划求解，以得到调度方案，但是这种方法求解效率低，不能有效解决动态场景问题；还有一些施工任务的调度方法是采用机器学习方法进行求解，这种方式虽然求解效率高，但调度解的质量有限。

因此，现有的施工任务调度方法存在无法兼顾求解速度与求解质量的问题。

发明内容

本申请实施例的目的是提供一种施工任务智能调度方法、一种施工任务智能调度装置、存储介质及处理器，以达到在施工任务智能调度中兼顾求解速度与求解质量的效果。

为了实现上述目的，本申请第一方面提供一种施工任务智能调度方法，包括：

获取构件施工任务；

根据所述构件施工任务，生成初始施工任务序列；

将所述施工任务序列输入至预置的第一模拟仿真模型，得到初始设备分配策略，其中，所述第一模拟仿真模型用于基于强化学习算法对施工流程进行模拟仿真得到设备分配策略；

基于元启发式算法和所述第一模拟仿真模型，对构件的初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案。

在本申请实施例中，所述基于元启发式算法和所述第一模拟仿真模型，对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案，包括：

根据所述初始施工任务序列，得到新的施工任务序列；

对所述新的施工任务序列，采用所述第一模拟仿真模型进行施工流程模拟仿真，得到新的设备分配策略；

判断所述新的施工任务序列和所述新的设备分配策略是否满足要求，若满足要求，则将所述初始施工任务序列更新为新的施工任务序列，将所述初始设备分配策略更新为新的设备分配策略；若不满足要求，则舍弃所述新的施工任务序列和所述新的设备分配策略；

重复执行上述步骤，直到满足退出条件，根据当前的所述初始施工任务序列和所述初始设备分配策略，输出施工任务调度方案。

在本申请实施例中，所述初始设备分配策略包括最优设备分配策略及对应的仿真时间；

所述基于元启发式算法和所述第一模拟仿真模型，

对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案，包括：

A1：构建优化目标函数并设置参数信息，所述参数信息包括初始温度、终止温度、退火温度和退火率；

A2：根据所述初始施工任务序列和所述最优设备分配策略对应的仿真时间，结合所述优化目标函数，计算得到初始解目标函数值；

A3：对初始施工任务序列产生随机扰动，生成新的施工任务序列；

A4：将新的施工任务序列传入所述第一模拟仿真模型，得到新的最优设备分配策略及对应的仿真时间；

A5：根据新的施工任务序列和新的最优设备分配策略对应的仿真时间，结合所述优化目标函数，计算得到新的目标函数值；

A6：基于初始解目标函数值，判断所述新的目标函数值是否符合接受准则，若是，则执行A7；若否，则执行A8；

A7：将所述新的施工任务序列作为初始施工任务序列，将所述新的最优设备分配策略作为最优设备分配策略；

A8：根据所述初始温度和所述退火率，更新所述退火温度，并判断更新后的退火温度是否小于所述终止温度，若是，则输出所述初始施工任务序列和所述最优设备分配策略，以得到施工任务调度方案；若否，则跳转至A3。

在本申请实施例中，步骤A1中，构建优化目标函数，包括：

以构件的施工任务序列为决策变量，并以最小化全局总施工时长与工序惩罚因子之和为优化目标，构建得到优化目标函数，所述优化目标函数为：

其中，

为构件的施工任务序列向量，T_s为总施工时长，/>

为目标函数值，/>

为该施工任务序列向量的惩罚因子。

在本申请实施例中，将所述施工任务序列输入至预置的第一模拟仿真模型，得到初始设备分配策略，包括：

B1：输入初始施工任务序列至预置的第一模拟仿真模型；

B2：设置模拟仿真次数N，初始化Q值表，设n＝1，其中，所述Q值表中的行定义为当前构件的系统状态，所述Q值表中的列定义为调度动作；

B3：初始化所述初始施工任务序列的索引为l＝1；

B4：根据所述初始施工任务序列中当前构件的系统状态，生成任务实体，并记录任务实体的生成时间；依据贪心策略在预置的可选动作集合中选择当前构件的系统状态对应的调度动作，并记录任务实体的销毁时间；

B5：根据所述任务实体的销毁时间和生成时间，基于所述第一模拟仿真模型中的奖励函数和约束条件，计算得到奖惩值；

B6：根据所述奖惩值和在所述Q值表中行所示的当前构件的系统状态下采用列所示的调度动作得到的Q值，更新所述Q值表；

B7：判断当前构件的系统状态是否为所述初始施工任务序列中的最后一个，若是，则执行B8；若否，则令l＝l+1，跳转至B4；

B8：判断n是否小于模拟仿真次数N，若是，则根据所述Q值表输出最优设备分配策略及对应的仿真时间；若否，则令n＝n+1，跳转至B3。

在本申请实施例中，所述奖励函数为：

r(S_l+1,u)＝-simTime(l,u)，其中，S为系统状态，S_l为施工任务序列中任一构件的系统状态，S_l∈S，A(S_l)为构件的系统状态S_l的可选动作集合，u为系统状态S_l时的任一具体调度动作，u∈A(S_l)，simTime(l,u)为任务实体在系统状态S_l时，选择动作u后，该任务实体从产生到消亡的时间跨度，r(S_l+1,u)为奖励值，S_l+1为施工任务序列中任一构件的系统状态S_l在执行调度动作u后，下一个施工任务序列中任一构件的系统状态；

所述奖惩值为：r(S_l+1,u)-x，其中，x为任务实体在系统状态S_l时，选择不满约束的动作u后，产生的惩罚值。

在本申请实施例中，所述获取构件施工任务，包括：

获取建筑施工所需信息，所述建筑施工所需信息至少包括施工构件BI M信息，其中，所述施工构件BIM信息包括构件物理信息以及构件之间的拓扑关系；

根据所述构件物理信息以及构件之间的拓扑关系，确定各个构件施工流程，以得到构件施工任务。

本申请第二方面提供一种施工任务智能调度装置，包括：

获取模块，用于获取构件施工任务；

生成模块，用于根据所述构件施工任务，生成初始施工任务序列；

分配模块，用于将所述施工任务序列输入至预置的第一模拟仿真模型，得到初始设备分配策略，其中，所述第一模拟仿真模型用于基于强化学习算法对施工流程进行模拟仿真得到设备分配策略；

优化模块，用于基于元启发式算法和所述第一模拟仿真模型，对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案。

本申请第三方面提供一种处理器，被配置成执行上述的施工任务智能调度方法。

本申请第四方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令在被处理器执行时使得所述处理器被配置成执行上述的施工任务智能调度方法。

通过上述技术方案，通过建筑施工所需信息得到构件施工任务，采用强化学习算法对施工流程进行模拟仿真，得到第一模拟仿真模型，所述第一模拟仿真模型由于基于强化学习算法得到，考虑到了装配式建筑施工调度问题中施工逻辑与工法、预制构件间拓扑关系、机群协同施工作业等多方面因素，能真实反映施工场景，从而使施工流程模拟仿真模型更加准确；基于元启发式算法和所述第一模拟仿真模型，对构件的施工任务序列和对应施工设备的分配进行联合调度优化，生成施工任务调度方案。由于采用了元启发式算法与强化学习算法联合的优化方法，兼顾求解速度与求解质量，通过优化施工任务序列和设备分配策略得到的施工任务调度方案可以明显缩短施工时长，解决了传统施工效率低工期长的问题，有助于装配式建筑施工自动化、智能化的发展。

本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请实施例，但并不构成对本申请实施例的限制。在附图中：

图1示意性示出了根据本申请实施例的一种施工任务智能调度方法的流程示意图；

图2示意性示出了根据本申请实施例的智能调度系统结构示意图；

图3示意性示出了根据本申请实施例的基于模拟仿真与优化算法的施工任务智能调度优化方法流程图；

图4示意性示出了根据本申请实施例的基于模拟退火算法的施工任务规划算法目标函数值迭代曲线；

图5示意性示出了根据本申请实施例的基于模拟退火算法的施工任务规划算法目标函数值迭代曲线；

图6示意性示出了根据本申请实施例的一种施工任务智能调度装置的结构框图；

图7示意性示出了根据本申请实施例的计算机设备的内部结构图。

附图标记说明

410-获取模块；420-生成模块；430-分配模块；440-优化模块；A01-处理器；A02-网络接口；A03-内存储器；A04-显示屏；A05-输入装置；A06-非易失性存储介质；B01-操作系统；B02-计算机程序。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请实施例，并不用于限制本申请实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请提供的一种施工任务智能调度方法，

图1示意性示出了根据本申请实施例的一种施工任务智能调度方法的流程示意图。如图1所示，在本申请一实施例中，提供了一种施工任务智能调度方法，包括以下步骤：

步骤210：获取构件施工任务；

步骤220：根据所述构件施工任务，生成初始施工任务序列；

步骤230：将所述施工任务序列输入至预置的第一模拟仿真模型，得到初始设备分配策略，其中，所述第一模拟仿真模型用于基于强化学习算法对施工流程进行模拟仿真得到设备分配策略；

步骤240：基于元启发式算法和所述第一模拟仿真模型，对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案。需要说明的是，基于元启发式算法求解施工任务调度方案的过程中，可以包括生成初始施工任务序列，即在基于元启发式算法进行联合调度优化的过程中，可以根据所述构件施工任务，生成初始施工任务序列。

步骤210：获取构件施工任务；其中，构件施工任务可以是通过施工构件BIM信息来得到，包括以下步骤：

首先，获取建筑施工所需信息，所述建筑施工所需信息至少包括施工构件BIM信息，其中，所述施工构件BIM信息包括构件物理信息以及构件之间的拓扑关系；在本实施例中，所述建筑施工所需信息包括建筑构件BIM数据信息，场景要素信息以及施工设备信息等。

然后，根据所述构件物理信息以及构件之间的拓扑关系，确定各个构件施工流程，以得到构件施工任务。在本实施例中，所述施工构件BIM信息包括装配式构件的物理信息以及拓扑关系，因此，可以根据所述构件物理信息以及构件之间的拓扑关系，确定各个构件施工流程，以得到构件施工任务。

其中，上述建筑构件的BIM数据信息可以是通过Autodesk Revit软件提取与解析建筑BIM模型，获取装配式构件的物理信息以及拓扑关系。所述装配式构件的物理信息包括施工构件的用途信息、尺寸信息、摆放位置信息与施工时间信息。所述拓扑关系是指该装配式构件与本建筑其他构件的装配约束关系与依存关系。

其中，上述场景要素信息可以通过施工场景点云数据与路网数据获得，包括构件堆放区域、构件卸载区域、排土区域、设备停放区域和建筑物区域信息。

其中，上述施工设备信息包括参与施工的所有机械设备运行参数以及设备操作后的统计信息。

通过获取建筑施工所需信息，可以充分考虑装配式建筑施工调度问题中施工逻辑与工法、预制构件间拓扑关系、机群协同施工作业等多方面因素，并能真实反映施工场景，使得通过根据施工构件BIM信息得到的构件施工任务更加准确，从而实现从BIM数据等信息到施工调度方案的输出，使得到的施工调度方案更加符合真实施工场景。

步骤220：根据所述构件施工任务，生成初始施工任务序列；例如：生成的初始施工任务序列可以表示为：

其中，x_k为各个构件施工任务。

步骤230：将所述施工任务序列输入至预置的第一模拟仿真模型，得到初始设备分配策略，其中，所述第一模拟仿真模型用于基于强化学习算法对施工流程进行模拟仿真得到设备分配策略；在本实施例中，施工流程中所涉及到的对各个构件的施工任务，对应于施工任务序列中的各个施工任务序列。

在本实施例中，可以根据所述建筑施工所需信息，采用强化学习算法对施工流程进行模拟仿真，得到第一模拟仿真模型，所述第一模拟仿真模型为基于强化学习算法的施工流程模拟仿真模型；在本实施例中，基于强化学习算法可以是基于Q-learning、SARSA(State-Action-Reward-State-Actio n)、深度Q网络(Deep Q Network，DQN)、A3C(Asynchronous AdvantageActor-Critic)、PPO(Policy Gradient)等强化学习或深度强化学习算法。

其中，Q-learning强化学习算法是模型无关的强化学习方法，该算法将State状态与Action动作构建成一张Q值表(Q-table)来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

基于Q-learning强化学习算法构建施工流程模拟仿真模型包括以下步骤：

首先，根据所述建筑施工所需信息，基于JaamSim软件构建施工流程模拟仿真模型；在本实施中，建筑施工过程的流程模拟可以采用离散事件模拟仿真技术，所述施工流程模拟仿真模型，可以是基于JaamSim软件进行二次开发，使用Entity仿真对象模拟施工任务，使用资源对象模拟施工设备，同时支持多台、多种施工设备同时进行施工作业，实现装配式建筑施工过程中的吊装任务、泵送任务、挖机任务以及幕墙安装四种施工任务逻辑流程。

(1)吊装任务逻辑：吊装任务生成→获取吊装设备资源→前往吊装区→获取辅助机器人→挂钩作业→前往卸载区→获取辅助机器人→卸钩作业→返回安全点→任务结束。

(2)泵送任务逻辑：泵送任务生成→获取模板组资源→支模作业→获取钢筋组资源→钢筋作业→获取泵送资源→泵送作业→风干等待→任务结束。

(3)挖机任务逻辑：挖沟转运任务生成→获取挖机资源→挖沟转运作业→返回安全点→任务结束。

(4)幕墙安装任务逻辑：幕墙安装任务生成→获取高机资源→前往幕墙堆放区→装载幕墙→重载运输→获取幕墙安装组资源→幕墙安装→返回安全点→任务结束。

需要说明的是，上述吊装设备资源包括但并不局限于塔机与汽车起重机两类，吊装设备运行时需要考虑避让等待其他执行吊装任务的设备。

在本实施例中，采用上述施工流程模拟仿真模型对施工流程进行模拟时，可以采用强化学习方法优化具体施工任务的设备分配策略。其中，可以采用Q-learning算法优化某一给定施工任务序列下的任一施工任务的设备分配。

然后，基于所述奖励函数，采用Q-learning算法对所述施工流程模拟仿真模型进行优化，得到第一模拟仿真模型。

在采用Q-learning算法对所述施工流程模拟仿真模型进行优化过程中，还可以基于JaamSim软件进行Q-learning算法的二次开发，在Simulation组件中可设置给定序列

的模拟仿真次数，每次模拟共享同一张Q值表。根据给定序列/>

依次产生对应的施工任务实体Entity，每一任务依据具体施工类型进入不同的任务逻辑流程。在选择施工装备时，每一实体依据ε-greedy策略选择调度动作，根据奖惩值更新对应状态的Q值表。

如上所述，根据建筑施工所需信息，构建基于强化学习算法的施工流程模拟仿真模型，该施工流程模拟仿真模型考虑到了装配式建筑施工调度问题中施工逻辑与工法、预制构件间拓扑关系、机群协同施工作业等多方面因素，能真实反映施工场景，从而使第一模拟仿真模型更加准确。

步骤240：基于元启发式算法和所述第一模拟仿真模型，对所述构件施工任务的序列和对应所述施工设备的分配进行联合调度优化，生成施工任务调度方案。在本实施例中，所述施工任务调度方案包括施工任务序列以及最优设备分配策略。在本实施例中，所述元启发式算法可以是模拟退火算法、禁忌搜索、遗传算法等。

其中，所述基于元启发式算法和所述第一模拟仿真模型，对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案，包括以下过程：

第一步，根据所述初始施工任务序列，得到新的施工任务序列；

第二步，对所述新的施工任务序列，采用所述第一模拟仿真模型进行施工流程模拟仿真，得到新的设备分配策略；

第三步，判断所述新的施工任务序列和所述新的设备分配策略是否满足要求，若满足要求，则将所述初始施工任务序列更新为新的施工任务序列，将所述初始设备分配策略更新为新的设备分配策略；若不满足要求，则舍弃所述新的施工任务序列和所述新的设备分配策略；

第四步，重复执行上述步骤，即重复执行第一步到第四步，直到满足退出条件，根据当前的所述初始施工任务序列和所述初始设备分配策略，输出施工任务调度方案。

通过不断的对新的施工任务序列进行施工流程模拟仿真，得到多个新的设备分配策略，并分别判断得到的新的施工任务序列和新的设备分配策略是否满足要求，进而可以快速准确地在这些新的施工任务序列和新的设备分配策略中选出最优的施工任务序列和初始设备分配策略，从而得到施工任务调度方案。

优选地，本实施例中可以采用模拟退火算法与第一模拟仿真模型结合来实现施工任务序列和设备分配策略的联合优化。模拟退火算法的计算过程简单，鲁棒性强，适用于并行处理，可用于求解复杂的非线性优化问题。采用模拟退火算法，可以与第一模拟仿真模型结合成内外两层嵌套优化方法，即：根据所述建筑施工所需信息，可以采用基于模拟退火算法的施工任务规划算法和基于强化学习算法的施工流程模拟仿真模型相结合的内外两层嵌套优化方法，对构件施工任务序列和构件施工设备分配进行联合优化，生成施工任务调度方案。

在本实施例中，上述内外两层嵌套优化方法中的外层是基于模拟退火算法的施工任务规划算法，内层是基于强化学习算法的施工流程模拟仿真模型。

请参看图3-图5，图3示意性示出了根据本申请实施例的基于模拟仿真与优化算法的施工任务智能调度优化方法流程图，图4示意性示出了根据本申请实施例的基于模拟退火算法的施工任务规划算法目标函数值迭代曲线，图5示意性示出了根据本申请实施例的基于模拟退火算法的施工任务规划算法目标函数值迭代曲线。

其中，基于模拟退火算法的施工任务规划算法中采用模拟退火算法为施工任务规划提供优化方向，具体优化过程包括以下步骤：

第一步：构建优化目标函数，并设置参数信息，所述参数信息包括模拟退火算法的初始温度、终止温度、退火温度和退火率；

其中，上述优化目标函数可以是以构件的施工任务序列为决策变量，并以最小化全局总施工时长与工序惩罚因子之和作为优化目标，构建得到优化目标函数，所述优化目标函数为：

其中，

为构件的施工任务序列向量，T_s为总施工时长，/>

为目标函数值，/>

为该施工任务序列向量的惩罚因子，该惩罚因子可以是根据经验进行设置的常数，可以是将施工任务序列违反了构件间拓扑关系与施工工法的，则施以一定的惩罚。例如：构件的吊装，一些构件在第一层，一些构件在第二层，如果调度方案是先吊装第二层就会惩罚。

通过在设置优化目标函数中加入施工任务序列向量的惩罚因子，可以将施工任务序列违反了构件间拓扑关系与施工工法的施以一定的惩罚，从而考虑了施工任务序列是否符合构件间拓扑关系与施工工法，使得到施工任务调度方案更加符合要求。

在本实施例中，所述参数信息包括初始温度T_max、终止温度T_min、退火率α，退火温度T＝T_max。

第二步：将所述初始施工任务序列传入所述第一模拟仿真模型，得到最优设备分配策略及对应的仿真时间；在本实施例中，将施工任务序列

传入第一模拟仿真模型，以得到最优设备分配策略policy0及对应的仿真时间T_s。

在本实施例中，采用Q-learning算法优化施工流程，得到第一模拟仿真模型，将所述初始施工任务序列传入所述第一模拟仿真模型，得到最优设备分配策略及对应的仿真时间，包括以下步骤：

步骤B1：输入初始施工任务序列至第一模拟仿真模型；即输入

为便于区分，可以表示为/>

这里的/>

步骤B2：设置模拟仿真次数N，初始化Q值表Q(S_l,A_l)＝0，，设n＝1；其中，所述Q值表中的行定义为当前构件的系统状态，所述Q值表中的列定义为调度动作。

步骤B3：初始化初始施工任务序列索引l＝1；

步骤B4：根据所述初始施工任务序列中当前构件的系统状态，生成任务实体，并记录生成时间，依据贪心策略(例如ε-greedy)在预置的可选动作集合中选择当前构件的系统状态对应的调度动作，并记录任务实体的销毁时间；根据x_l生成任务实体Entity1，记录生成时间为simT₁，依据ε-greedy策略选择调度动作u。

步骤B5：根据所述任务实体的销毁时间和生成时间，基于所述第一模拟仿真模型中的奖励函数和约束条件，计算得到奖惩值；

在本实施例中，在采用Q-learning算法对所述施工流程模拟仿真模型进行优化过程中，可以定义施工流程模拟仿真模型的奖励函数为：r(S_l+1,u)＝-simTime(l,u)，其中，S为系统状态，S_l为施工任务序列中任一构件的系统状态，S_l∈S，A(S_l)为构件的系统状态S_l的可选动作集合，u为构件的系统状态S_l的任一具体调度动作，u∈A(S_l)，simTime(l,u)为任务实体在构件的系统状态S_l时，选择动作u后，该任务实体从产生到消亡的时间跨度。S_l+1为施工任务序列中任一构件的系统状态S_l在执行调度动作u后，下一个施工任务序列中任一构件的系统状态。这里施工任务序列中任一构件的系统状态是指施工任务序列中构件的顺序状态。例如：当前施工任务序列中包含有构件1、构件2、构件3和构件4，当前施工任务序列中任一构件的系统状态S_l为各个构件的系统状态，分别表示为0、0、0、0，其中构件1在执行了调度动作后，系统状态变为1，则S_l+1表示为1、0、0、0。

需要说明的是，JaamSim等流程仿真软件提供了基本的实体，在本实施例中所提到任务实体是指在构建模拟仿真模型过程中，将施工任务作为实体，得到的任务实体。

然后，根据所述奖励函数，计算奖惩值，所述奖惩值为：r(S_l+1,u)-x，其中，x为任务实体在构件在系统状态l时，选择不满约束的动作u后，产生的惩罚值，r(S_l+1,u)为时间带来的奖励值，时间越短，奖励越高。

例如：在进行吊装任务时，若选择的施工设备为塔机，任一动作均需满足臂长约束，则可以修正奖励值得到奖惩值为：r(S_l+1,u)＝r(S_l+1,u)-x，其中，x为任务实体在构件的系统状态l时，选择不满足臂长约束的动作u后，产生的惩罚值。

上述计算奖惩值的过程还可以表示为r(S_l+1,u)＝simT₁-simT₂-x，其中任务实体Entity1的销毁时间为simT₂，生成时间为simT₁，x为任务实体Entity1在状态l时，选择不满足约束的动作u后，产生的惩罚值。

通过根据任务实体在构件在系统状态l时，选择不满约束的动作u后，产生的惩罚值，对由奖励函数计算得到的奖励值进行修正，以得到奖惩值，充分考虑了选择不满约束的动作后所造成的影响，以便于快速准确地找到最优的设备分配策略，提高了调度解的质量。

步骤B6：根据所述奖惩值和在所述Q值表中行所示的当前构件的系统状态下采用列所示的调度动作得到的Q值，更新所述Q值表；为了得到最优策略policy0，需要估算每一个系统状态下每一种选择的Q值，而每一个时刻的Q值和当前得到的立即回报以及下一个时刻的Q值有关。

更新的Q值表可以通过下式更新得到：

Q(S_l,u)＝(1-β)Q(S_l,u)+β(r(S_l+1,u)+λm_aaxQ(S_l+1,a))；其中，β和λ

为预设值，a为动作，比如，在执行施工任务A1时，选择4设备，则a为4。需要说明的是，上述更新Q值表的公式中的“＝”表示的是赋值于的意思，即等式右边赋值于等式左边，等号左右两边的Q(S_l,u)不一定是相等的。

步骤B7：判断当前构件的系统状态是否为初始施工任务序列中最后一个，若是，则执行步骤8；若否，则令l＝l+1，执行B4。

步骤B8：判断n是否小于模拟仿真次数N，若是，则根据所述Q值表输出最优设备分配策略policy0及对应的仿真时间T_s；若否，则令n＝n+1，执行步骤B3。

在本实施例中，输出最优设备分配策略是指：在所述Q值表中(其中Q值表的行代表了行定义为当前构件的系统状态，对应施工任务；Q值表中的列定义为调度动作，对应设备)，每一行依次选择设备最大的值，作为最优设备分配策略输出。需要说明的是，在本实施例中所提到的设备分配策略对应的仿真时间是指：每一个设备分配策略在第一仿真模型中执行完模拟仿真的过程所花费的时间，一般是第一次仿真的销毁时间到最后一次仿真的生成时间的差值。这个仿真时间在得到设备分配策略后，模型会自动算出。

由于Q-learning算法所需的参数少、不依赖环境、还可以采用离线的实现方式，从而可以快速方便地得到优化施工任务序列的设备分配策略，提高了求解效率。

第三步：根据所述初始施工任务序列和所述最优设备分配策略对应的仿真时间，结合所述优化目标函数，计算得到初始解目标函数值；将初始施工任务序列和所述最优设备分配策略对应的仿真时间代入到所述优化目标函数中，计算初始解目标函数值为：

第四步：对当前施工任务序列产生随机扰动，生成新的施工任务序列；在本实施例中，以一定原则对当前施工任务序列产生随机扰动生成新解。

上述一定原则可以是交叉、互换等。得到的新的施工任务序列可以表示为：

第五步：将所述新的施工任务序列传入所述第一模拟仿真模型，得到新的最优设备分配策略及对应的仿真时间；在本实施例中，可以将新的施工任务序列

传入第一模拟仿真模型，以获取最优设备分配策略policy1及对应的仿真时间T_s。

需要说明的是，上述将新的施工任务序列传入第一模拟仿真模型，得到新的最优设备分配策略及对应的仿真时间的过程，与上述第三步中的步骤B1-步骤B8相同，只是输入的是新的施工任务序列，因此，在此就不再赘述。

第六步：根据新的施工任务序列和新的最优设备分配策略对应的仿真时间，结合所述优化目标函数，计算得到新的目标函数值；将新的施工任务序列和最优设备分配策略对应的仿真时间T_s代入到所述优化目标函数中，计算新的目标函数值为：

第七步：根据所述初始解目标函数值和所述新的目标函数值，判断是否符合接受准则，若是，则执行第八步；若否，则执行第九步；上述接受准则是根据实际情况设置的一个准则，比如：如果当前的解比之前的解好，有一定的概率去接受，概率随着迭代次数的进行越来越大。

第八步：将新的施工任务序列作为初始施工任务序列，将新的最优设备分配策略作为最优设备分配策略；

例如：可以表示为：

第九步：根据所述初始温度和所述退火率，更新所述退火温度，并判断更新后的退火温度是否小于所述终止温度，若是，则输出所述初始施工任务序列和所述最优设备分配策略，以得到施工任务调度方案；若否，则执行第四步。在本实施例中，可以根据T＝αT更新所述退火温度，其中，T为初始温度，α为退火率，然后判断初始温度是否满足终止条件T<T_min。

模拟退火算法是一种元启发式算法，其计算过程简单、鲁棒性强，适用于并行处理，可用于求解复杂的非线性优化问题，从而使得到的施工任务调度方案可靠性高，提高了施工任务调度方案的质量。

上述实现过程中，通过建筑施工所需信息得到构件施工任务，然后根据建筑施工所需信息，采用强化学习算法对施工流程进行模拟仿真，得到第一模拟仿真模型，所述第一模拟仿真模型由于基于强化学习算法得到，考虑到了装配式建筑施工调度问题中施工逻辑与工法、预制构件间拓扑关系、机群协同施工作业等多方面因素，能真实反映施工场景，从而使施工流程模拟仿真模型更加准确；之后，基于元启发式算法和所述第一模拟仿真模型，对构件的施工任务序列和对应施工设备的分配进行联合调度优化，生成施工任务调度方案。由于采用了元启发式算法与强化学习算法联合的优化方法，兼顾求解速度与求解质量，通过优化施工任务序列和设备分配策略得到的施工任务调度方案可以明显缩短施工时长，解决了传统施工效率低工期长的问题，有助于装配式建筑施工自动化、智能化的发展。

其中，还可以对施工任务调度方案进行评价、确认后在系统前端页面进行展示。上述评价可以是人为进行评价，以确定施工任务调度方案的准确性。其中，还可以是根据生成的施工任务调度方案(包括施工任务序列与设备分配方案)，在系统前端进行完整施工过程的可视化输出、并进行实时监控，有助于施工的顺利完成。

请参看图2，图2示意性示出了根据本申请实施例的智能调度系统结构示意图。在实际的智能调度系统中，包括有系统输入模块、系统优化模块和系统输出模块。其中系统输入模块获取建筑施工所需信息，包括建筑构件BIM数据信息，场景要素信息以及施工设备信息。系统优化模块根据施工构件BIM信息、施工场景信息、施工设备信息，使用优化方法对构件施工任务序列、构件施工设备分配进行联合优化，生成最终的优化方案，对优化方案进行评价、确认后在系统前端页面进行展示。系统输出模块，根据生成的施工任务序列与设备分配方案，在系统前端进行完整施工过程的可视化输出、并进行实时监控。

图1为一个实施例中施工任务智能调度方法的流程示意图。应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，图6示意性示出了根据本申请实施例的一种施工任务智能调度装置的结构框图。提供了一种施工任务智能调度装置，包括获取模块410、生成模块420、分配模块430，优化模块440，其中：

获取模块410，用于获取构件施工任务；

生成模块420，用于根据所述构件施工任务，生成初始施工任务序列；

分配模块430，用于将所述施工任务序列输入至所述第一模拟仿真模型，得到初始设备分配策略，其中，所述第一模拟仿真模型用于基于强化学习算法对施工流程进行模拟仿真得到设备分配策略；

优化模块440，用于基于元启发式算法和所述第一模拟仿真模型，对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案。

所述施工任务智能调度装置包括处理器和存储器，上述获取模块410、生成模块420、分配模块430，优化模块440等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序模块中实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现对施工任务智能调度方法。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述一种施工任务智能调度方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、显示屏A04、输入装置A05和存储器(图中未示出)。其中，该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A06。该非易失性存储介质A06存储有操作系统B01和计算机程序B02。该内存储器A03为非易失性存储介质A06中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序被处理器A01执行时以实现一种施工任务智能调度方法。该计算机设备的显示屏A04可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置A05可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的施工任务智能调度装置可以实现为一种计算机程序的形式，计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该施工任务智能调度装置的各个程序模块，比如，图6所示的获取模块410、生成模块420、分配模块430，优化模块440。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的施工任务智能调度方法中的步骤。

图7所示的计算机设备可以通过如图6所示的施工任务智能调度装置中的获取模块410执行步骤210。计算机设备通过生成模块420执行步骤220，通过分配模块430执行步骤230，通过优化模块440执行步骤240。

本申请实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取构件施工任务；

根据所述构件施工任务，生成初始施工任务序列；

将所述施工任务序列输入至所述预置的第一模拟仿真模型，得到初始设备分配策略，其中，所述第一模拟仿真模型用于基于强化学习算法对施工流程进行模拟仿真得到设备分配策略；

基于元启发式算法和所述第一模拟仿真模型，对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案。

在一个实施例中，所述基于元启发式算法和所述第一模拟仿真模型，对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案，包括：

根据所述初始施工任务序列，得到新的施工任务序列；

在一个实施例中，所述初始设备分配策略包括最优设备分配策略及对应的仿真时间；

所述基于元启发式算法和所述第一模拟仿真模型，对构件的所述初始施工任务序列和所述初始设备分配策略进行联合调度优化，生成施工任务调度方案，包括：

在一个实施例中，步骤A1中，构建优化目标函数，包括：

其中，

为构件的施工任务序列向量，T_s为总施工时长，/>

为目标函数值，/>

为该施工任务序列向量的惩罚因子。

在一个实施例中，将所述施工任务序列输入至预置的第一模拟仿真模型，得到初始设备分配策略，包括：

B1：输入初始施工任务序列至预置的第一模拟仿真模型；

B3：初始化所述初始施工任务序列的索引为l＝1；

在一个实施例中，所述奖励函数为：

r(S_l+1,u)＝-simTime(l,u)，其中，S为系统状态，S_l为施工任务序列中任一构件的系统状态，S_l∈S，A(S_l)为构件的系统状态S_l的可选动作集合，u为系统状态S_l时的任一具体调度动作，u∈A(S_l)，simTime(l,u)为任务实体在系统状态S_l时，选择动作u后，该任务实体从产生到消亡的时间跨度，r(S_l+1,u)为奖励值；

所述奖惩值为：r(S_l+1,u)＝r(S_l+1,u)-x，其中，x为任务实体在系统状态S_l时，选择不满约束的动作u后，产生的惩罚值。

在一个实施例中，所述获取构件施工任务，包括：

获取建筑施工所需信息，所述建筑施工所需信息至少包括施工构件BIM信息，其中，所述施工构件BIM信息包括构件物理信息以及构件之间的拓扑关系；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。