CN117829552B

CN117829552B - 一种基于赛汝生产调度的鲁棒优化方法、装置和设备

Info

Publication number: CN117829552B
Application number: CN202410239420.9A
Authority: CN
Inventors: 张玉利; 温沐阳; 宋士吉
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-06-14
Anticipated expiration: 2044-03-04
Also published as: CN117829552A

Abstract

本申请提供了一种基于赛汝生产调度的鲁棒优化方法、装置和设备，涉及赛汝生产技术领域，该方法包括：创建初始化赛汝种群，将初始化赛汝种群划分为赛汝调度子代种群和赛汝构造子代种群；通过强化学习模块获取状态空间信息，输出动作空间信息；根据动作空间信息，以最小化产品批次加工时间最坏情况下的最大完工时间为优化目标，对赛汝调度子代种群和/或赛汝构造子代种群进行种群进化；根据进化后的结果，计算奖励值；根据奖励值，更新强化学习模块；重新获取状态信息，以利用新的动作空间信息重新进行种群进化，直至目标函数收敛，将赛汝调度子代种群和赛汝构造子代种群的最优解，确定为赛汝生产调度的最优方案。

Description

一种基于赛汝生产调度的鲁棒优化方法、装置和设备

技术领域

本申请涉及赛汝生产技术领域，特别是一种基于赛汝生产调度的鲁棒优化方法、装置和设备。

背景技术

赛汝生产方式是基于多技能化工人和简单、易移动的设备等柔性资源，通过对人员、设备和产品的合理组织来实现高效率和高柔性的一种面向装配生产系统的新型生产组织模式。赛汝生产方式的核心理念是以小团队为基础的生产单元。这些被称为赛汝单元的团队由若干多技能化工人组成，能够灵活地完成分配的多项生产任务。其中，巡回式赛汝是指每个赛汝单元由一位或多位工人组成，其中，每名工人均能够独立完成分配给该赛汝单元的产品的全部装配任务，工人按照一定顺序随着产品装配工序位置移动。近年来，赛汝生产系统中的调度问题，尤其是工人分配调度问题以及产品批次调度问题逐渐受到关注。

然而，目前赛汝生产调度问题的研究大多是在假设系统参数已知且确定的基础上进行的，而现实的生产过程受多种不确定因素的影响，致使实际现场作业与生产调度计划存在偏差。所以，现有的赛汝生成调度方法仍存在一定的局限性。因此，有必要开发一种基于赛汝生产调度的鲁棒优化方法、装置和设备，以生成更为准确的赛汝生产调度方案，进而提高赛汝生产效率。

发明内容

鉴于上述问题，本申请实施例提供了一种基于赛汝生产调度的鲁棒优化方法、装置和设备，以便克服上述问题或者至少部分地解决上述问题。

本申请实施例的第一方面，提供了一种基于赛汝生产调度的鲁棒优化方法，所述方法包括：

创建初始化赛汝种群，每个种群个体表示一种赛汝构造-赛汝调度对，赛汝构造表示并行工作的赛汝单元数量和每个赛汝单元中的工人组合，赛汝调度表示为每个赛汝单元分配的待执行的产品批次；

将所述初始化赛汝种群划分为赛汝调度子代种群和赛汝构造子代种群；

通过强化学习模块获取所述赛汝调度子代种群和所述赛汝构造子代种群的状态空间信息，输出动作空间信息；所述状态空间信息表示当前的所述赛汝调度子代种群和所述赛汝构造子代种群的进化状态，所述动作空间信息用于指示下一次种群进化的目标为所述赛汝调度子代种群和/或所述赛汝构造子代种群；

根据所述动作空间信息，以最小化产品批次加工时间最坏情况下的最大完工时间为优化目标，对所述赛汝调度子代种群和/或所述赛汝构造子代种群进行种群进化；

根据进化后的结果，计算奖励值；所述奖励值表示种群进化效率；

根据所述奖励值，更新所述强化学习模块；

利用更新后的所述强化学习模块重新获取状态信息，以利用新的动作空间信息重新进行种群进化，直至目标函数收敛，将所述赛汝调度子代种群和所述赛汝构造子代种群的最优解，确定为赛汝生产调度的最优方案。

本申请第二方面还提供了一种基于赛汝生产调度的鲁棒优化装置，所述装置包括：

种群创建模块，用于创建初始化赛汝种群，每个种群个体表示一种赛汝构造-赛汝调度对，赛汝构造表示并行工作的赛汝单元数量和每个赛汝单元中的工人组合，赛汝调度表示为每个赛汝单元分配的待执行的产品批次；

子代种群划分模块，用于将所述初始化赛汝种群划分为赛汝调度子代种群和赛汝构造子代种群；

强化学习模块，用于获取所述赛汝调度子代种群和所述赛汝构造子代种群的状态空间信息，输出动作空间信息；所述状态空间信息表示当前的所述赛汝调度子代种群和所述赛汝构造子代种群的进化状态，所述动作空间信息用于指示下一次种群进化的目标为所述赛汝调度子代种群和/或所述赛汝构造子代种群；

种群进化模块，用于根据所述动作空间信息，以最小化产品批次加工时间最坏情况下的最大完工时间为优化目标，对所述赛汝调度子代种群和/或所述赛汝构造子代种群进行种群进化；

奖励值计算模块，用于根据进化后的结果，计算奖励值；所述奖励值表示种群进化效率；

更新模块，用于根据所述奖励值，更新所述强化学习模块；

最优方案确定模块，用于利用更新后的所述强化学习模块重新获取状态信息，以利用新的动作空间信息重新进行种群进化，直至目标函数收敛，将所述赛汝调度子代种群和所述赛汝构造子代种群的最优解，确定为赛汝生产调度的最优方案。

本申请实施例第三方面还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序以实现本申请实施例第一方面所述的基于赛汝生产调度的鲁棒优化方法中的步骤。

本申请实施例第四方面还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请实施例第一方面所述的基于赛汝生产调度的鲁棒优化方法中的步骤。

本申请实施例第五方面还提供了一种计算机程序产品，所述计算机程序产品在电子设备上运行时，使处理器执行时实现如本申请实施例第一方面所述的基于赛汝生产调度的鲁棒优化方法中的步骤。

本申请实施例提供的一种基于赛汝生产调度的鲁棒优化方法，所述方法包括：创建初始化赛汝种群，每个种群个体表示一种赛汝构造-赛汝调度对，赛汝构造表示并行工作的赛汝单元数量和每个所述赛汝单元中的工人组合，赛汝调度表示为每个所述赛汝单元分配的待执行的产品批次；将所述初始化赛汝种群划分为赛汝调度子代种群和赛汝构造子代种群；通过强化学习模块获取所述赛汝调度子代种群和所述赛汝构造子代种群的状态空间信息，输出动作空间信息；所述状态空间信息表示当前的所述赛汝调度子代种群和所述赛汝构造子代种群的进化状态，所述动作空间信息用于指示下一次种群进化的目标为所述赛汝调度子代种群和/或所述赛汝构造子代种群；根据所述动作空间信息，以最小化产品批次加工时间最坏情况下的最大完工时间为优化目标，对所述赛汝调度子代种群和/或所述赛汝构造子代种群进行种群进化；根据进化后的结果，计算奖励值；所述奖励值表示种群进化效率；根据所述奖励值，更新所述强化学习模块；利用更新后的所述强化学习模块重新获取状态信息，以利用新的动作空间信息重新进行种群进化，直至目标函数收敛，将所述赛汝调度子代种群和所述赛汝构造子代种群的最优解，确定为赛汝生产调度的最优方案。

具体有益效果在于：

一方面，本申请给出了获取产品批次加工时间最坏情况下赛汝生产解目标值的方法。具体的，本申请以最小化产品批次加工时间最坏情况下的最大完工时间为优化目标，进行种群进化，通过确定最优解，找到产品批次加工时间最坏情况下的最大完工时间最小值所对应的赛汝生产调度方案，从而可以成功地求解产品批次加工时间不确定下的赛汝生产问题，得到最优的赛汝生产调度方案。

另一方面，本申请利用强化学习模块进行协同进化，将赛汝调度子代种群的最优解用于辅助进行赛汝构造子代种群的种群进化，将赛汝构造子代种群的最优解用于辅助进行赛汝调度子代种群的种群进化。并在此过程中利用奖励值更新强化学习模块，所述奖励值表示种群进化效率，奖励值越大，意味着种群进化效率越高，解决方案的质量提升的越快，所选择的动作越好，从而实现了高效解决大规模赛汝生产问题，对于小规模算例，可以在比精确算法更短的时间内求得问题的精确解；对于大规模算例，可以在给定计算时间内得到最优解。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于赛汝生产调度的鲁棒优化方法的步骤流程图；

图2是本申请实施例提供的一种赛汝生产的调度方案示意图；

图3是本申请实施例提供的一种由5工人5产品批次组成的赛汝生产调度方案；

图4是本申请实施例提供的一种5工人5产品批次的状态定义示意图；

图5是本申请实施例提供的一种协同进化的流程示意图；

图6是本申请实施例提供的一种染色体表示的示意图；

图7是本申请实施例提供的一种基于赛汝生产调度的鲁棒优化装置的结构示意图；

图8是本申请实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

近年来，随着信息技术与人工智能的飞速发展、多样化的用户需求以及短暂的产品生命周期迫使制造业的竞争逐渐从效率和质量转向对市场需求的快速响应能力。然而，传统的装配线生产模式灵活性不足，难以有效地满足快速多变的内外部环境要求。在这种背景下，多个企业探索性地提出了单元生产方式，简称赛汝(Seru)生产方式，其被认为是兼具效率和柔性的管理方式。

赛汝生产方式是基于多技能化工人和简单、易移动的设备等柔性资源，通过对人员、设备和产品的合理组织来实现高效率和高柔性的一种面向装配生产系统的新型生产组织模式。赛汝生产方式由流水装配线生产方式经工序的重新分工以及生产设备的简化演变而来，其采用可移动的工作台、简单的设备和手工工具取代了流水装配线上的传送带和固定专用的自动化机器设备，使其能够快速、频繁地进行建造、改装、拆除和重组、能有效应对市场环境的变化。相比之下，传统的装配线依赖于大规模的生产过程，通常要求工人专注于单一的任务。在快速变化的市场环境中，缺乏灵活性的装配线生产方式已经不能满足多样化的客户需求。作为一种电子装配制造企业生产现场的新型生产管理方式，赛汝生产方式兼具高效、灵活以及快速响应的特点，被企业广泛采纳以提高生产的适应性，以降低市场需求波动带来的负面影响。

赛汝生产方式的核心理念是以小团队为基础的生产单元。这些被称为赛汝单元的团队由若干多技能化工人组成，能够灵活地完成分配的多项生产任务。根据人员的任务分工，赛汝生产方式包含三种基本赛汝单元：分割式赛汝、巡回式赛汝和单人式赛汝。分割式赛汝通过将工序按照流动方向分割成若干个工作块而形成，每个工作块由原装配线上多道工序组成，并由若干多技能工人完成加工；巡回式赛汝同样也由多技能工人组成，但要求工人是全能工，即每名工人均能够独立完成产品的全部装配任务，工人按照一定顺序随着产品装配工序位置移动。单人式赛汝可以看成是由一名工人独立负责的巡回式赛汝，是赛汝生产方式最高级的形式。赛汝生产系统是支持实现赛汝生产方式的具体工作和管理系统。本申请实施例主要应用于巡回式赛汝生产系统。

近年来，赛汝生产系统中的调度问题，尤其是工人分配调度问题以及产品批次调度问题逐渐受到学者的关注。目前赛汝生产调度问题的研究大多假设系统参数已知且确定。然而，现实的生产过程受多种不确定因素的影响，例如外部订单变化、机器设备状态、和工人处理效率等，致使现场作业与生产调度计划存在偏差，因此实际的赛汝生产系统参数往往是不精确或模糊的，而考虑了实际生产不确定情况的赛汝生产调度问题研究较少。

现有处理不确定条件下赛汝生产调度问题的相关技术均采用随机规划的方法，然而，随机规划方法存在一定局限性。第一，随机规划结果的准确性在很大程度上依赖于概率模型的准确性和可用数据的质量。然而，为不确定参数估计精确的概率分布具有挑战性，尤其是在历史数据有限的情况下。第二，使用随机规划方法可能需要耗费大量的计算时间，尤其是在处理复杂系统或大规模优化问题时。因此，难以在生产参数不确定条件下，实现准确高效的赛汝生产调度。

鉴于上述问题，本申请实施例提出一种基于赛汝生产调度的鲁棒优化方法，以解决上述在生产参数不确定条件下，难以实现准确高效的赛汝生产调度等问题。下面结合附图，通过一些实施例及其应用场景对本申请实施例提供的基于赛汝生产调度的优化方法进行详细地说明。

本申请实施例第一方面提供了一种基于赛汝生产调度的鲁棒优化方法，参照图1，图1为本申请实施例提供的一种基于赛汝生产调度的鲁棒优化方法的步骤流程图，如图1所示，所述方法包括：

步骤S101，创建初始化赛汝种群，每个种群个体表示一种赛汝构造-赛汝调度对，赛汝构造表示并行工作的赛汝单元数量和每个赛汝单元中的工人组合，赛汝调度表示为每个赛汝单元分配的待执行的产品批次。

赛汝生产调度问题包含两个决策步骤：赛汝构造和赛汝调度。在赛汝构造阶段，要确定一共需要建立多少并行工作的赛汝单元，以及，每个赛汝单元中工人的组合，即所需要的工人数量。在赛汝构造阶段，建立的赛汝单元集合表示为={1,…,m,…, }，为赛汝单元总数，其中，每个赛汝单元被分配一个或多个来自工人集合={1,…,i,…,}的操作工人，为给工人总数，可以用决策变量来表示工人分配决策，即，如果工人i∈被分配给赛汝单元m∈，则为1，反之，则为0。参照图2，图2示出了一种赛汝生产的调度方案示意图，图2展示了一个由5个工人、3个赛汝单元（每个赛汝单元包含5个工作台，用于处理产品的不同加工工序）和8个产品批次组成的巡回式赛汝生产方案，图2右侧为赛汝构造，左侧为赛汝调度。示例性的，如图2右侧所示，将工人1、2和4分配给第1个赛汝单元，将工人3分配给第2个赛汝单元，将工人5分配给第2个赛汝单元。

在赛汝调度阶段，要确定将为每个赛汝单元分配的一个或多个产品批次。在赛汝调度阶段，产品批次集合表示为={1,…,j,…,J}，J为产品批次总数，其中，每个产品批次j∈中包含相同类型个待生产的产品，可以用决策变量表示产品批次分配决策，即，如果产品批次j∈被分配到赛汝单元m∈上以进行加工，则=1，反之，则= 0。示例性的，如图2左侧所示，将产品批次1、3、4、6和7分配给第1个赛汝单元进行加工，将产品批次5和7分配给第2个赛汝单元进行加工，将产品批次2分配给第3个赛汝单元进行加工。

在赛汝生产系统的运作过程中，工人分配问题（赛汝构造）以及产品批次调度问题（赛汝调度）往往是相互耦合的，为了在实际生产参数不确定的前提下，求解得到最佳的赛汝构造和赛汝调度方案，本申请实施例编码得到初始化赛汝种群，其中每个种群个体可以表示为一种赛汝构造方案和赛汝调度方案组成的赛汝构造-赛汝调度对。具体的，该种群个体中的赛汝构造用于表示并行工作的赛汝单元数量和每个赛汝单元中的工人组合；赛汝调度用于表示为每个赛汝单元分配的待执行的产品批次，每个产品批次的产品种类，以及每个产品批次中的产品数量。从而通过遗传算法，进行种群进化，得到最优解，以获得最优的赛汝生产调度方案（赛汝构造方案和赛汝调度方案）。

在巡回式赛汝生产系统中，产品批次的加工由赛汝单元内的所有全技能工人协同完成，因此，产品批次的加工时间由赛汝单元内工人共同决定。为了得到产品频次的加工时间，会首先计算每个工人i∈加工产品批次j∈中的单个产品的时间，即。然而，在实际生产过程中，的计算会受到工人对不同工序熟练程度的影响，并且，考虑到工人的精力有限，在过多的工序之间频繁切换也会影响其工作效率。所以，在实际生产过程中，加工时间并非一个固定的参数，会受到种种因素的影响而在一定范围内波动，进而导致无法准确预估产品批次的加工时间，生成性能较好的赛汝生产调度方案。

本申请考虑到实际生产过程中的不稳定因素，假设产品批次的加工时间不确定，且相互独立，属于给定区间（表示该加工时间在一定范围内波动），记为∈[，+，其中，表示赛汝单元m中加工产品批次j的时间，表示产品批次j在赛汝单元m上的加工时间的标称值，表示产品批次j在赛汝单元m上的加工时间的最大偏差，按照如下公式计算：，m∈，j∈，其中，表示产品批次j加工时间的波动因子，属于预先设定的固定参数。

本申请实施例考虑了每个赛汝单元中产品批次加工时间的不确定总预算，不确定集合可以由各赛汝单元不确定集合的笛卡尔积表示：

；

其中，U代表总的产品批次加工时间不确定集，表示赛汝单元m中产品批次加工时间的不确定集，不同赛汝单元之间的产品批次加工时间不确定集相互独立，具体表示如下：

；

其中，取之间的整数，表示赛汝单元m中产品批次加工时间的不确定预算，用来控制赛汝单元m中加工产品批次j的时间偏离标称值的程度。

当给定赛汝构造X以及赛汝调度Z时，该赛汝生产系统的最大完工时间可以用来表示，具体的，该赛汝生产系统存在多个赛汝单元，由于每个赛汝单元的工人不同，所分配的产品批次不同，所以每个赛汝单元完成生产所需要的时间不同，最大完工时间表示多个赛汝单元中完成生产任务所需的最长时间，也就是整个赛汝生产系统完成所有生产任务所需的总时间。为了提高生产效率，需要找到最小的完工时间，所以，需要从多种赛汝生产调度方案（多种赛汝构造X以及赛汝调度Z）中，找到最大完工时间的最小值所对应的可行赛汝生产调度方案。

具体的，该最大完工时间可以按照如下公式表示：

；

其中，决策变量表示产品批次分配决策，即，如果产品批次j∈被分配到赛汝单元m∈上以进行加工，则=1，反之，则= 0；表示赛汝单元m中加工产品批次j的时间，∈[，+]。

由于产品批次的加工时间并不确定，而是在一定区间[，+]内波动，所以，最大完工时间并非一个定值。对于每个最大完工时间（给定的赛汝构造X以及赛汝调度Z），定义产品批次加工时间最坏情况下的最大完工时间为，可以按照如下公式表示：

；

由此，赛汝生产调度问题的目标是找到产品批次加工时间最坏情况下最大完工时间的最小值所对应的可行赛汝生产调度方案。由于，产品批次加工时间不确定，可以取给定区间范围内的任意值，因此，存在无限多的产品批次加工时间场景。所以，很难计算产品批次加工时间最坏情况下，给定赛汝生产解决方案的最大完工时间。总的来说，鲁棒赛汝生产调度问题是一个复杂的三层(min-max-max)优化问题。

针对上述问题（找到产品批次加工时间最坏情况下最大完工时间的最小值所对应的可行赛汝生产调度方案），本申请实施例建立了产品批次加工时间不确定下的赛汝生产调度问题数学模型，即确定了目标函数和约束条件，由此，基于遗传算法，在约束条件下将多个赛汝生产调度方案（赛汝构造X以及赛汝调度Z）编码为多个种群个体，生成初始化赛汝种群，以便于后续执行遗传算法，种群在约束条件下进行种群进化，直至目标函数收敛，得到最优解（即最优的赛汝生产调度方案）。

具体的，该模型以最小化产品批次加工时间最坏情况下的最大完工时间为优化目标，即以为目标函数，在约束条件下执行种群进化。具体的，约束条件如下：

第一约束条件：；

其中，表示工人集合，={1,…,i,…,}，为工人总数；表示赛汝单元集合，={1,…,m,…, }，为赛汝单元总数；来表示工人分配决策，即，如果工人i∈被分配给赛汝单元m∈，则为1，反之，则为0。该第一约束条件限制每个赛汝单元中的工人数量，即每个赛汝单元所分配的工人数量需要大于等于1。

第二约束条件：；第二约束条件用于规定每个工人i只能分配给一个赛汝单元；

第三约束条件：，∀j∈；

其中，表示产品批次集合={1,…,j,…,J}，J为产品批次总数，决策变量表示产品批次分配决策，即，如果产品批次j∈被分配到赛汝单元m∈上以进行加工，则=1，反之，则= 0。该第三约束条件用于规定每个产品批次j只能分配给一个赛汝单元。

第四约束条件：；

其中，表示赛汝单元m中加工产品批次j的时间，∈[，+]，表示赛汝单元m中产品批次加工时间的不确定集。第四约束条件用于规定产品批次加工时间最坏情况下的最大完工时间的最小值不小于任何一个赛汝单元的最坏情况下的完工时间。

第五约束条件：

,∀m∈,∀j∈；第五约束条件用于确定产品批次加工时间符合定义。

具体的，对于赛汝单元m∈加工产品批次j∈中单个产品的单工人等效加工时间，表示为如下公式：

；其中，表示每个工人i∈加工产品批次j∈中的单个产品的时间。随后，考虑到赛汝单元中的工人数量以及产品批次大小，可以得到产品批次j∈在赛汝单元m∈上的加工时间。按照如下公式表示：

；其中，表示产品批次j∈中包含的产品数量。

第六约束条件：，j∈；其中，表示产品批次j在赛汝单元m上的加工时间的标称值，表示产品批次j在赛汝单元m上的加工时间的最大偏差。

第七约束条件：，j∈；

第八约束条件：，j∈；

第九约束条件：；

第十约束条件：，j∈；

第十一约束条件：

；

对于任意的，第四约束条件等价于第十一约束条件。性质：第十一约束条件中的内层问题；可以通过将赛汝单元m中处理的产品批次加工时间偏差降序排列，取前个值以及第个值的倍加和得到。

线性规划的可行域为有界闭集，且目标函数在可行域上连续，因此，根据极值定理（Extreme Value Theorem），即如果目标函数在有界闭集上连续，那么该目标函数一定有最大值和最小值，并且这些值一定在有界闭集的边界或内部的极值点处取到。可以通过将赛汝单元m中处理的产品批次加工时间偏差降序排列，取前个值以及第个值的倍加和得到。

步骤S102，将所述初始化赛汝种群划分为赛汝调度子代种群和赛汝构造子代种群。具体的，利用初始化赛汝种群中的部分种群个体组成赛汝调度子代种群和赛汝构造子代种群，其中，赛汝调度子代种群中的每个种群个体表示一种赛汝调度方案（为每个赛汝单元分配的待执行的产品批次），赛汝的构造子代种群中的每个种群个体表示一种赛汝构造方案（并行工作的赛汝单元数量和每个赛汝单元中的工人组合）。

步骤S103，通过强化学习模块获取所述赛汝调度子代种群和所述赛汝构造子代种群的状态空间信息，输出动作空间信息；所述状态空间信息表示当前的所述赛汝调度子代种群和所述赛汝构造子代种群的进化状态，所述动作空间信息用于指示下一次种群进化的目标为所述赛汝调度子代种群和/或所述赛汝构造子代种群。

针对大规模赛汝生产问题，即当赛汝生产调度存在多种可能，计算较为繁琐的情况下，为了提高调度效率，节省计算资源，本申请实施例提出了一种基于强化学习的协同进化算法。在协同进化算法中，对于赛汝调度子代种群和赛汝构造子代种群，将其中一个子代种群进化后所得到的最优解，应用于辅助进行另一子代种群的进化。

在本实施例中设置有状态空间和动作空间，通过强化学习模块，根据当前的状态空间信息，强化学习模块输出对应的动作空间信息，以指示进行下一轮种群进化的目标。具体的，状态空间用于获取求解过程中的解（及种群进化后的最优解）的动态信息，状态空间信息可以表示为赛汝构造-调度对，即当前的种群中的最优解（赛汝构造子代种群中的最优赛汝构造X和赛汝调度子代种群的最优赛汝调度Z）。示例性的，参照图3和图4，图3示出了一种由5工人5产品批次组成的赛汝生产调度方案，图4示出了一种5工人5产品批次的状态定义示意图，如图3和图4所示，针对当前的所述赛汝调度子代种群和所述赛汝构造子代种群，从状态空间中获取到的状态空间信息（最优解）可以表示为一种赛汝构造X和赛汝调度Z的组合，如图3所示，在赛汝构造X中，将工人2分配至第1个赛汝单元，将工人1和3分配至第2个赛汝单元，将工人4分配至第3个赛汝单元，将工人5闲置。在赛汝调度Z中，将产品批次1和2分配至第1个赛汝单元，将产品批次3分配至第2个赛汝单元，将产品批次4和5分配至第3个赛汝单元，工人与产品批次之间的对应关系如图4所示。动作空间用于在强化学习的具体执行阶段，通过动作与环境进行交互。具体的，在每个状态，智能体的动作（动作空间信息）是选择求解哪一个子问题，即是对赛汝调度子代种群，还是赛汝构造子代种群进行种群进化。

在一种可能的实施方式中，所述步骤S103，通过强化学习模块获取所述赛汝调度子代种群和所述赛汝构造子代种群的状态空间信息，输出动作空间信息，包括：

步骤S1031，所述强化学习模块生成一个随机数；

步骤S1032，在所述随机数大于预设概率值的情况下，输出第一动作空间信息，所述第一动作空间信息指示先对所述赛汝构造子代种群进行进化，然后对所述赛汝调度子代种群进行进化；

步骤S1033，在所述随机数小于或等于所述预设概率值的情况下，输出第二动作空间信息，所述第二动作空间信息指示对所述赛汝调度子代种群或所述赛汝构造子代种群进行进化。

在本实施例中，强化学习模块使用ε-贪婪策略，在每个决策点，都会产生一个随机数，如果该随机数大于了预设概率值ε（0≤ε≤1），则会贪婪地采取行动，即输出第一动作空间信息，该第一动作空间信息指示先对赛汝构造子代种群进行进化（对应于执行后文中的步骤S201-步骤S205），然后利用赛汝构造子代种群进化后得到的最优解（最优赛汝构造）对赛汝调度子代种群进行进化（对应于执行后文中的步骤步骤S301-步骤S305）。如果该随机数小于或等于预设概率值ε，则会随机选择其中一个子代种群进行种群进化，即输出第二动作空间信息，该第二动作空间信息指示对赛汝调度子代种群或赛汝构造子代种群进行进化。

赛汝调度子代种群和赛汝构造子代种群的收敛速度并不一致，本实施例通过动作空间信息，使两个子代种群不需要同步进行种群进化，进一步提高种群进化效率。例如，当强化学习模块根据状态空间信息，判断赛汝构造子代种群已经收敛，继续进化的收益较少的情况下，输出第二动作空间信息，用于指示只继续对赛汝调度子代种群进行种群进化。

步骤S104，根据所述动作空间信息，以最小化产品批次加工时间最坏情况下的最大完工时间为优化目标，对所述赛汝调度子代种群和/或所述赛汝构造子代种群进行种群进化。

具体的，本申请实施例建立了产品批次加工时间不确定下的赛汝生产调度问题数学模型，即确定了目标函数和约束条件。在根据动作空间信息对赛汝调度子代种群和/或赛汝构造子代种群进行种群进化的过程中，以最小化产品批次加工时间最坏情况下的最大完工时间为优化目标，即以为目标函数，在约束条件（如上述所述的第一至十一约束条件）下执行种群进化。

在一种可能的实施方式中，在所述动作空间信息指示对所述赛汝构造子代种群进行种群进化的情况下，按照如下步骤进行进化：

步骤S201，获取所述赛汝调度子代种群的当前最优赛汝调度。具体的，参照图5，图5示出了一种协同进化的流程示意图，如图5所示，强化学习模块先获取状态空间的状态空间信息（如箭头1所示），从而基于状态空间信息输出动作空间信息（如箭头2所示），在该动作空间信息指示对赛汝构造子代种群进行种群进化的情况下（如箭头2¹所示），则获取当前的赛汝调度子代种群的当前最优赛汝调度Z（如箭头3¹所示）。示例性的，当前为第t轮种群进化，即第t个动作空间信息指示对赛汝构造子代种群进行种群进化，获取第t-1轮种群进化后的赛汝调度子代种群的最优解（当前最优赛汝调度Z）。

步骤S202，利用所述当前最优赛汝调度，结合所述赛汝构造子代种群中的赛汝构造，得到候选赛汝构造种群。具体的，将赛汝构造子代种群中的每个赛汝构造X（例如，X ₁，X ₂，…，X _n）分别与当前最优赛汝调度Z组成多个赛汝构造-调度对（例如，（X ₁，Z），（X ₂，Z），…，（X _n，Z）），以每个赛汝构造-调度对为种群个体，得到候选赛汝构造种群。

步骤S203，基于遗传算法的超启发算法对所述候选赛汝构造种群进行进化，得到进化后的赛汝构造子代种群。

在本实施例中，基于遗传算法，在设定的约束条件下进行种群进化，得到进化后的赛汝构造子代种群（如图5的箭头4¹所示）。用于进化赛汝构造种群的算法是基于遗传算法的超启发（GHHA）算法，遗传算法用于决定低层启发式算子的调用顺序及调用策略。在该遗传算法中，关于染色体包含两部分，参照图6，图6示出了一种染色体表示的示意图，如图6所示，第一部分表示低层启发式算子的调用顺序，第二部分表示调用对应位置启发式算子的搜索策略。

具体的，低层启发式算子的设计可能会对GHHA算法的性能产生显著影响。在GHHA中，应用了三种类型的简单启发式规则，包括：交换算子(即Swap算子)、移除算子（Shift算子）和合并算子（Aggregation算子），来构成一系列低级启发式。具体的，Swap算子包括：第一Swap算子，用于随机交换赛汝构造解中的两个元素。以及，第二Swap算子，用于随机交换赛汝构造解中的四个元素。Shift算子包括：第一Shift算子，用于从赛汝构造解中随机移除一个元素并重新分配到另一个位置。以及，第二Shift算子，用于从赛汝构造解中随机移除一个元素以及与之相邻的元素并重新分配到另一个位置。Aggregation算子，用于随机将某个分隔符删除，并重新分配到其他分隔符旁边，从而将两个赛汝单元合二为一。此外，如图6所示，每种算子都有三种搜索策略可供选择，即随机，贪婪，半随机贪婪策略，贪婪是指优先选择赛汝单元中加工时间最长的工人与其他工人进行交换，半随机贪婪是指随机贪婪各有50%的概率。

步骤S204，计算所述进化后的赛汝构造子代种群中，每个种群个体所对应的产品批次加工时间最坏情况下的最大完工时间。

对于进化后的赛汝构造子代种群，可以通过计算目标函数，确定每个种群个体所对应的产品批次加工时间最坏情况下的最大完工时间。在一种可能的实施方式中，可以按照如下公式计算所述产品批次加工时间最坏情况下的最大完工时间：

；

其中，表示赛汝单元集合，表示赛汝单元m中产品批次加工时间的不确定集，表示产品批次集合，表示在产品批次j被分配到赛汝单元m进行加工的情况下，=1，表示赛汝单元m中加工产品批次j的时间，其中，按照如下公式计算：

；

其中，表示产品批次j包含的产品数量，表示赛汝单元i中加工产品批次j中单个产品的单工人等效加工时间，表示工人集合，表示在工人i被分配到赛汝单元m上时，则=1，表示工人i加工产品批次j中单个产品的时间。

步骤S205，根据最小值所对应的赛汝构造子代种群个体，确定本次进化后的当前最优赛汝构造。具体的，将本次进化后的赛汝构造子代种群中的最优解（最坏情况下的最大完工时间的最小值所对应的赛汝构造X）确定为当前最优赛汝构造。将该当前最优赛汝构造作为状态空间信息的一部分反馈给强化学习模块（如图5中的箭头5¹所示）。

在一种可能的实施方式中，在动作空间指示对所述赛汝调度子代种群进行种群进化的情况下，按照如下步骤进行进化：

步骤S301，获取所述赛汝构造子代种群的当前最优赛汝构造。具体的，如图5所示，强化学习模块先获取状态空间的状态空间信息（如箭头1所示），从而基于状态空间信息输出动作空间信息（如箭头2所示），在该动作空间信息指示对赛汝调度子代种群进行种群进化的情况下（如箭头2²所示），则获取当前的赛汝构造子代种群的当前最优赛汝构造X（如箭头3²所示）。示例性的，当前为第t轮种群进化，第t个动作空间信息指示仅对赛汝调度子代种群进行种群进化时，获取第t-1轮种群进化后的赛汝构造子代种群的最优解（当前最优赛汝调度Z）。或者，当第t个动作空间信息指示需要先对赛汝构造子代种群进行进化，然后，对赛汝调度子代种群进行种群进化时，则获取第t轮赛汝构造子代种群进化后的最优解（当前最优赛汝构造X）。

步骤S302，利用所述当前最优赛汝构造，结合所述赛汝调度子代种群中的赛汝调度，得到候选赛汝调度种群。具体的，将赛汝调度子代种群中的每个赛汝调度Z（例如，Z ₁，Z ₂，…，Z _n）分别与当前最优赛汝构造X组成多个赛汝构造-调度对（例如，（X，Z ₁），（X，Z ₂），…，（X，Z _n）），以每个赛汝构造-调度对为种群个体，得到候选赛汝调度种群。

步骤S303，利用自适应大邻域算法对所述候选赛汝调度种群进行进化，得到进化后的赛汝调度子代种群。具体的，调用提出的自适应大邻域算法（ALNS算法）获得最优赛汝调度子代种群。在本实施例中，基于遗传算法，在设定的约束条件下进行种群进化，得到进化后的赛汝调度子代种群（如图5的箭头4²所示）。用于进化赛汝调度种群的算法是自适应大邻域算法（ALNS算法）。

在本实施例中，提出的ALNS算法由多种破坏算子与修复算子组成。破坏算子会破坏解决方案的一部分，然后修复算子会以不同的方式重建这一部分。通过交替使用破坏和修复算子，ALNS算法可以探索更多的邻域并改进初始解决方案。破坏过程将当前解决方案作为输入，在所选择破坏算子的作用下，按照一定比例将若干产品批次移除，并返回一个被破坏的部分解决方案。

在本实施例中，ALNS算法使用的破坏算子至少包括如下一种或多种：

随机产品批次破坏算子（RR）。该算子会随机选择当前调度方案Z中的k个产品批次，并将其从解决方案中剔除。随机选择节点的概念有助于实现搜索过程的多样化。

最坏产品批次移除算子(WR)。该算子可以迭代地移除掉高成本产品批次，其中产品批次成本被定义为移除产品批次前后赛汝系统最大完工时间标称值的变化。

最坏赛汝-产品批次配对移除算子（WSBPR）。该算子考虑将流水时间最大的赛汝单元中的所有产品批次全部剔除。

鲁棒最坏赛汝-产品批次配对移除算子（RWSBPR）。与WSBPR算子类似，RWSBPR算子也会移除赛汝中流量时间最大的全产品批次，但RWSBPR算子会选择产品批次加工时间最坏情况下流水时间最大的赛汝单元。

最坏加工时间移除算子（WPTR）。在赛汝生产系统中，不同赛汝中的一个产品批次可能会有不同的加工时间，那么，不合理的产品批次分配很可能会产生较大的加工时间，从而导致makespan值(产品批次加工时间最坏情况下的最大完工时间)过大。为了促进产品批次的合理分配，将当前加工时间与其在赛汝单元中可能的最短加工时间相差较大的产品批次添加至移除列表中。

平均破坏算子（AR）。该算子旨在从赛汝单元中移除加工时间超出平均值的产品批次。

配对破坏算子（HDBR）。在赛汝生产系统中，会出现这样一种情况，即某些产品批次在当前赛汝中的处理时间较长，而在其他赛汝中的处理时间较短。如果将这些产品批次从当前的赛汝中移除，并重新放入新的赛汝中，就有可能缩短赛汝生产系统的生产周期。因此，本申请实施例提出利用赛汝生产系统中产品批次处理时间与所在赛汝单元密切相关的事实，提出了一种针对具体问题的破坏算子，将赛汝中加工时间最长的产品批次与其他赛汝中的产品批次进行配对删除，以求在后续算法迭代中得到更好的产品批次分配方案。

在本实施例中，ALNS算法使用的修复算子至少包括如下一种或多种：

鲁棒序列依赖贪婪修复算子。令为在产品批次加工时间最坏情况下将产品批次插入产品批次j中引起解决方案最大完工时间的变化。设为将插入产品批次j导致解的最大完工时间发生的最小变化。值得注意的是，这种插入方法取决于移除列表D中产品批次的顺序。插入第一个产品批次后，再次计算集合D中其他产品批次的数量，并根据集合D中的顺序重复该过程，直到集合D中所有产品批次都插入到赛汝构造解中。

鲁棒全局贪婪修复算子。与上一个插入算子不同，此算子对于插入产品批次的选择不依赖于移除列表D中产品批次的顺序。当应用此算子时，对于已删除的所有产品批次的所有插入位置，选择在产品批次加工时间最坏情况下最大完工时间增加最少的产品批次进行插入。

鲁棒2-后悔修复算子。对于贪婪插入算子，一个问题是它经常将某些产品批次的插入推迟到以后的迭代，这可能会使产品批次的插入成本更高。为了解决这个问题，该算子采用了鲁棒2-后悔插入算子。令表示将产品批次插入解决方案导致的产品批次加工时间最坏情况下的最大完工时间的增量，表示产品批次的最小插入成本，表示产品批次的次最小插入成本，找到后悔值最大的，并将其插入解中。根据移除列表D中的顺序重复该过程，直到D中所有产品批次都已插入赛汝构造解中。

本实施例提出的ALNS算法使用的自适应机制如下：

基于不同算子的历史表现，使用轮盘赌算法对上述破坏/修复算子进行选择。每个算子的概率更新公式如下：

；

其中，表示算子i在第t+1次迭代被调用的概率，代表算法第t+1次迭代的目标值，。

本实施例提出的ALNS算法使用的接受机制如下：

如果由破坏和修复过程生成的新解优于当前迭代解，那么将被接受。否则，将以如下概率被接受：

。

步骤S304，计算所述进化后的赛汝调度子代种群中，每个种群个体所对应的产品批次加工时间最坏情况下的最大完工时间。

对于进化后的赛汝调度子代种群，可以通过计算目标函数，确定每个种群个体所对应的产品批次加工时间最坏情况下的最大完工时间。在一种可能的实施方式中，可以按照如下公式计算所述产品批次加工时间最坏情况下的最大完工时间：

；

步骤S305，根据最小值所对应的赛汝调度子代种群个体，确定本次进化后的当前最优赛汝调度。具体的，将本次进化后的赛汝调度子代种群中的最优解（最坏情况下的最大完工时间的最小值所对应的赛汝调度Z）确定为当前最优赛汝调度。将该当前最优赛汝调度作为状态空间信息的一部分反馈给强化学习模块（如图5中的箭头5²所示）。

在本实施例中，用于进化赛汝调度的算法为混合自适应大邻域搜索算法（HALNS）算法，该算法是变邻域算法（AVNS）和自适应大邻域算法（ALNS）的混合。在上述ALNS的基础上，使用AVNS算法可以在整个解决方案邻域内进行更广泛的搜索。在一种可能的实施方式中，所述步骤S305，根据最小值所对应的赛汝调度子代种群个体，确定本次进化后的当前最优赛汝调度，包括：

步骤S3051，将最小值所对应的赛汝调度子代种群个体，确定为本次进化的当前迭代解。

步骤S3052，在所述当前迭代解比全局最优解所对应的产品批次加工时间最坏情况下的最大完工时间更短的情况下，更新所述全局最优解。所述全局最优解为种群迭代过程中每个当前迭代解的最优值；具体的，在种群进化过程中，第一个全局最优解就是第一次种群进化所得到的第一个当前迭代解，在出现下一个优于该解的当前迭代解后，对其进行更新，在之后的种群迭代过程中的全局最优解，就是所有的当前迭代解中的最优值，等于最优迭代解。

步骤S3053，调用变邻域算法在所述当前迭代解附近进行邻域搜索，得到新的进化后的赛汝调度子代种群个体，得到新的当前迭代解。

具体的，本申请实施例在使用上述ALNS算法的基础上，通过自适应可变邻域搜索（AVNS）增强了算法的搜索能力。在所提出的AVNS的局部搜索期间，基于所建立的邻域结构产生新的解决方案。在所提出的AVNS中，四个特定于问题的邻域结构如下：

第一转移算子，在一个赛汝单元上随机选择一个产品批次，并将该产品批次转移到另一个赛汝单元。

第二转移算子，在一个赛汝单元上随机选择两个产品批次，并将它们转移到另一个赛汝单元。

交换算子，将随机选择的两个产品批次与另一个赛汝单元的两个产品批次进行交换；

循环交换算子，考虑到不同赛汝单元中的工人对不同类型的产品具有不同的技能水平，为了探索更合适的产品批次分配，将该算子应用于不同赛汝单元上的顺序交换产品批次组合。

步骤S3054，根据所述当前迭代解，确定所述本次进化后的当前最优赛汝调度。

在本实施例中，先利用ALNS算法进行种群进化，得到进化后的赛汝调度子代种群，通过计算目标函数，从中确定本次进化的当前迭代解。如果当前迭代解比全局最优解更加出色（所对应的最坏情况下的最大完工时间更短），则更新全局最优解，并调用AVNS算法在最优解（步骤S3051所确定的本次进化的当前迭代解）附近进行邻域搜索，基于所建立的邻域结构产生新的解决方案，从而得到新的当前迭代解。如果当前迭代解不比全局最优解更加出色（所对应的最坏情况下的最大完工时间更长），则表示当前迭代解只是优于上一次赛汝调度子代种群进化所得到的，只需要对当前迭代解进行更新即可。根据当前迭代解，确定本次进化后的当前最优赛汝调度Z。由此可以得到本轮进化后的最优赛汝生产解，即当前最优赛汝构造X和当前最优赛汝调度Z的组合。

步骤S105，根据进化后的结果，计算奖励值；所述奖励值表示种群进化效率。具体的，在通过步骤S104，根据动作空间信息，对赛汝调度子代种群和/或赛汝构造子代种群完成种群进化之后，可以根据进化后的结果（当前最优赛汝构造X和当前最优赛汝调度Z的组合），计算奖励值，该奖励值明确了强化学习的目的，用于表示选择的动作（动作空间信息）对目标函数带来的实时以及长远的改进。

在一种可能的实施方式中，按照如下公式根据进化后的结果，计算所述奖励值：

；

其中，表示第t轮进化后所得到的奖励值，表示根据第t轮动作空间信息进行种群进化，对目标函数的改进（即第t轮种群进化效率）。即 s _t ,a _t = s _t ,a _t - s _t-1 ,a _t-1 ，表示在状态（第t轮的状态空间信息，即第t-1轮种群进化后得到的最优的赛汝生产调度方案）下采用动作（根据强化学习模块输出第t轮的动作空间信息，进行第t轮种群进化）导致的目标值（第t轮种群进化后得到的产品批次加工时间最坏情况下的最大完工时间的最小值）的变化，表示在状态下采用动作（根据动作空间信息，进行第t轮种群进化）所需要的求解时间（第t轮种群进化，并得到进化后的最优解的计算时间）。奖励越大，意味着子问题的求解效率（种群进化效率）越高，解决方案的质量提升的越快，所选择的动作（动作空间信息）越好。

步骤S106，根据所述奖励值，更新所述强化学习模块；

在一种可能的实施方式中，按照如下公式，根据所述奖励值，更新所述强化学习模块：

;

其中，表示折扣因子，0≤≤1，表示学习率，0≤≤1，表示第t轮进化后所得到的奖励值。表示在状态下采用动作的强化学习模块。

在本实施例中，考虑到算法求解赛汝构造及赛汝调度的效率会随着迭代过程变化，使用了一种强化学习机制。在每个决策步骤t，根据第t-1轮种群进化后的进化结果，输出第t轮动作空间信息，根据该动作空间信息，对赛汝调度子代种群和/或赛汝构造子代种群进行第t轮种群进化，得到第t轮进化结果（当前最优赛汝构造X和当前最优赛汝调度Z的组合）。从而根据第t轮进化结果，计算得到奖励值，利用该奖励值对强化学习模块Q（ , ）进行更新。

步骤S107，利用更新后的所述强化学习模块重新获取状态信息，以利用新的动作空间信息重新进行种群进化，直至目标函数收敛，将所述赛汝调度子代种群和所述赛汝构造子代种群的最优解，确定为赛汝生产调度的最优方案。

目前，针对赛汝生产调度的研究均采用随机优化方法，其需要已知不确定性参数的精确概率分布信息。然而，由于缺乏历史数据及生产环境的波动性，实际生产调度系统不确定性参数的概率分布可能难以精确估计，而基于非精确的概率分布做出的生产决策可能导致较差的性能甚至不可行。为此，本申请实施例提出了一种基于小样本数据的赛汝生产系统调度方法。该方法只需要利用较少的历史数据估计不确定性参数的上下限信息，即可有效应对系统参数的不确定性和估计的非精确性。本申请实施例以最小化产品批次加工时间最坏情况下的最大完工时间为优化目标，进行种群进化，通过确定最优解，找到产品批次加工时间最坏情况下的最大完工时间最小值所对应的赛汝生产调度方案，从而可以成功地求解产品批次加工时间不确定下的赛汝生产问题，得到最优的赛汝生产调度方案（最优赛汝构造+最优赛汝调度）。

并且，本申请实施例利用强化学习模块进行协同进化，将赛汝调度子代种群的最优解用于辅助进行赛汝构造子代种群的种群进化，将赛汝构造子代种群的最优解用于辅助进行赛汝调度子代种群的种群进化。并在此过程中利用奖励值更新强化学习模块，在步骤S106完成对强化学习模块的更新之后，重新执行步骤S103-S106，直至目标函数收敛。所述奖励值表示种群进化效率，奖励值越大，意味着种群进化效率越高，解决方案的质量提升的越快，所选择的动作越好，从而实现了高效解决大规模赛汝生产问题，对于小规模算例，可以在比精确算法更短的时间内求得问题的精确解；对于大规模算例，可以在给定计算时间内得到最优解。通过蒙特卡洛数值模拟实验，在研究了8000次产品批次加工时间的随机实现下鲁棒解相对应的目标值的分布，可以得出，确定性情况（）在完工时间上产生了很大的波动，这意味着它对干扰的抵抗力极低。与确定性情况相比，鲁棒解决方案可以实现平均13.05%的完工时间缩短。对于5名工人和8个产品批次的例子，改进率为31.86%，这意味着本申请实施例所提出的鲁棒解决方案比传统的确定性解决方案更适合在不确定的环境中做出决策。

此外，本申请实施例设计了一种基于强化学习的协同进化算法来高效解决鲁棒赛汝生产问题。在对于小规模算例，可以在比精确算法更短的时间内求得问题的精确解；对于大规模算例，给定计算时间下，所提出的算法均优于现有最新的算法。在最优解的质量方面，与两种智能算法相比，在给定的计算时间内，所提出的RCC的平均精度分别提高了2.0%和3.1%。对于15名工人和20个产品批次的情况，实现的最佳改进为6.6%。在平均解的质量方面，与两种智能算法相比，在给定的计算时间内，所提出的RCC算法的平均精度分别提高了3.1%和3.2%，这表明所提出的算法具有更好的鲁棒性。对于15名工人和20个产品批次的情况，实现的最佳改进为11.0%。

本申请实施例第二方面还提供了一种基于赛汝生产调度的鲁棒优化装置，参照图7，图7示出了一种基于赛汝生产调度的鲁棒优化装置的结构示意图，如图7所示，所述装置包括：

更新模块，用于根据所述奖励值，更新所述强化学习模块；

在一种可能的实施方式中，所述种群进化模块，用于在所述动作空间信息指示对所述赛汝构造子代种群进行种群进化的情况下，按照如下步骤进行进化：

获取所述赛汝调度子代种群的当前最优赛汝调度；

利用所述当前最优赛汝调度，结合所述赛汝构造子代种群中的赛汝构造，得到候选赛汝构造种群；

基于遗传算法的超启发算法对所述候选赛汝构造种群进行进化，得到进化后的赛汝构造子代种群；

计算所述进化后的赛汝构造子代种群中，每个种群个体所对应的产品批次加工时间最坏情况下的最大完工时间；

根据最小值所对应的赛汝构造子代种群个体，确定本次进化后的当前最优赛汝构造。

在一种可能的实施方式中，所述种群进化模块，用于在动作空间指示对所述赛汝调度子代种群进行种群进化的情况下，按照如下步骤进行进化：

获取所述赛汝构造子代种群的当前最优赛汝构造；

利用所述当前最优赛汝构造，结合所述赛汝调度子代种群中的赛汝调度，得到候选赛汝调度种群；

利用自适应大邻域算法对所述候选赛汝调度种群进行进化，得到进化后的赛汝调度子代种群；

计算所述进化后的赛汝调度子代种群中，每个种群个体所对应的产品批次加工时间最坏情况下的最大完工时间；

根据最小值所对应的赛汝调度子代种群个体，确定本次进化后的当前最优赛汝调度。

在一种可能的实施方式中，所述根据最小值所对应的赛汝调度子代种群个体，确定本次进化后的当前最优赛汝调度，包括：

将最小值所对应的赛汝调度子代种群个体，确定为本次进化的当前迭代解；

在所述当前迭代解比全局最优解所对应的产品批次加工时间最坏情况下的最大完工时间更短的情况下，更新所述全局最优解；所述全局最优解为种群迭代过程中每个当前迭代解的最优值；

调用变邻域算法在所述当前迭代解附近进行邻域搜索，得到新的进化后的赛汝调度子代种群个体，得到新的当前迭代解；

根据所述当前迭代解，确定所述本次进化后的当前最优赛汝调度。

在一种可能的实施方式中，所述强化学习模块，包括：

随机数生成子模块，用于生成一个随机数；

第一动作空间信息输出子模块，用于在所述随机数大于预设概率值的情况下，输出第一动作空间信息，所述第一动作空间信息指示先对所述赛汝构造子代种群进行进化，然后对所述赛汝调度子代种群进行进化；

第二动作空间信息输出子模块，用于在所述随机数小于或等于所述预设概率值的情况下，输出第二动作空间信息，所述第二动作空间信息指示对所述赛汝调度子代种群或所述赛汝构造子代种群进行进化。

在一种可能的实施方式中，所述奖励值计算模块用于按照如下公式根据进化后的结果，计算所述奖励值：

；

其中，表示第t轮进化后所得到的奖励值，表示在状态下采用动作导致的目标值的变化，表示在状态下采用动作所需要的求解时间。

在一种可能的实施方式中，所述更新模块，用于按照如下公式，根据所述奖励值，更新所述强化学习模块：

;

其中，表示折扣因子，0≤≤1，表示学习率，0≤≤1。表示在状态下采用动作的强化学习模块。

在一种可能的实施方式中，按照如下公式计算所述产品批次加工时间最坏情况下的最大完工时间：

；

本申请实施例还提供了一种电子设备，参照图8，图8是本申请实施例提出的电子设备的示意图。如图8所示，电子设备100包括：存储器110和处理器120，存储器110与处理器120之间通过总线通信连接，存储器110中存储有计算机程序，该计算机程序可在处理器120上运行，进而实现本申请实施例公开的基于赛汝生产调度的鲁棒优化方法中的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如本申请实施例公开的基于赛汝生产调度的鲁棒优化方法中的步骤。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在电子设备上运行时，使处理器执行时实现如本申请实施例所公开的基于赛汝生产调度的鲁棒优化方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种基于赛汝生产调度的鲁棒优化方法、装置和设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于赛汝生产调度的鲁棒优化方法，其特征在于，所述方法包括：

根据所述奖励值，更新所述强化学习模块；

利用更新后的所述强化学习模块重新获取状态信息，以利用新的动作空间信息重新进行种群进化，直至目标函数收敛，将所述赛汝调度子代种群和所述赛汝构造子代种群的最优解，确定为赛汝生产调度的最优方案；

其中，所述通过强化学习模块获取所述赛汝调度子代种群和所述赛汝构造子代种群的状态空间信息，输出动作空间信息，包括：

所述强化学习模块生成一个随机数；

在所述随机数大于预设概率值的情况下，输出第一动作空间信息，所述第一动作空间信息指示先对所述赛汝构造子代种群进行进化，然后对所述赛汝调度子代种群进行进化；

在所述随机数小于或等于所述预设概率值的情况下，输出第二动作空间信息，所述第二动作空间信息指示对所述赛汝调度子代种群或所述赛汝构造子代种群进行进化；

按照如下公式根据进化后的结果，计算所述奖励值：

；

其中，表示第t轮进化后所得到的奖励值，表示在状态下采用动作导致的目标值的变化，表示在状态下采用动作所需要的求解时间；

按照如下公式，根据所述奖励值，更新所述强化学习模块：

；

其中，表示折扣因子，0≤≤1，表示学习率，0≤≤1，表示第t轮进化后所得到的奖励值；

按照如下公式计算所述产品批次加工时间最坏情况下的最大完工时间：

；

2.根据权利要求1所述的基于赛汝生产调度的鲁棒优化方法，其特征在于，在所述动作空间信息指示对所述赛汝构造子代种群进行种群进化的情况下，按照如下步骤进行进化：

获取所述赛汝调度子代种群的当前最优赛汝调度；

3.根据权利要求2所述的基于赛汝生产调度的鲁棒优化方法，其特征在于，在动作空间指示对所述赛汝调度子代种群进行种群进化的情况下，按照如下步骤进行进化：

4.根据权利要求3所述的基于赛汝生产调度的鲁棒优化方法，其特征在于，所述根据最小值所对应的赛汝调度子代种群个体，确定本次进化后的当前最优赛汝调度，包括：

在所述当前迭代解比全局最优解所对应的产品批次加工时间最坏情况下的最大完工时间更短的情况下，更新所述全局最优解；所述全局最优解为种群迭代过程中所有当前迭代解的最优值；

5.一种基于赛汝生产调度的鲁棒优化装置，其特征在于，应用于权利要求1-4中任一项所述的基于赛汝生产调度的鲁棒优化方法，所述装置包括：

更新模块，用于根据所述奖励值，更新所述强化学习模块；

6.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序以实现权利要求1-4中任一项所述的基于赛汝生产调度的鲁棒优化方法。