CN113835405A

CN113835405A - 用于服装车缝产线平衡决策模型的生成方法、设备及介质

Info

Publication number: CN113835405A
Application number: CN202111423417.5A
Authority: CN
Inventors: 唐坤杰; 周垚学; 韦袆
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2021-12-24
Anticipated expiration: 2041-11-26
Also published as: CN113835405B

Abstract

本申请实施例提供一种用于服装车缝产线平衡决策模型的生成方法、设备及介质。在本申请实施例中，基于车缝产线端提供的实际产线数据与适配的仿真框架能够高效快速地构建更加逼真的车缝产线的仿真环境，仿真环境结合训练脚本以一种仿真环境、模仿学习与强化学习三者有机融合的方式进行模型训练，能够快速、高效地得到识别准确率更高的车缝产线的产线平衡决策模型。当采用产线平衡决策模型对车缝产线进行生产平衡时，能够更加全面、更加客观、更及时地感知、分析和判断车缝产线的运行情况，并进行实时的、必要的产线调整，从而减少车缝产线的效率损失，提供车缝产线整体的生产效率。

Description

用于服装车缝产线平衡决策模型的生成方法、设备及介质

技术领域

本申请涉及智能制造技术领域，尤其涉及一种用于服装车缝产线平衡决策模型的生成方法、设备及介质。

背景技术

随着云计算、物联网、人工智能等技术的不断发展，涌现出越来越多的数字化工厂。数字化工厂能够实现产品从原材料采购、产品设计以及生产加工等全生产链条的数字化处理；还能够按照柔性制造模式进行生产制造。其中，柔性制造模式是指通过系统结构、人员组织、运作方式和市场营销等方面的改革，使生产系统能对市场需求变化作出快速地适应，同时消除冗余无用的损耗，力求企业获得更大的效益。在柔性制造模式下，数字化工厂以消费者需求为核心，重构传统以产定销的生产模式，实现按需智造。

对数字化工厂来说，生产线平衡与否直接影响生产效率。生产线平衡是指对生产的全部工序进行平均化，调整作业负荷，以使各作业时间尽可能相近的技术手段与方法。生产线平衡的目的是消除作业间不平衡的效率损失以及生产过剩。

目前，针对数字化工厂中的一些产线，特别是服装制造工厂中的车缝产线，主要依赖产线负责人员观察生产线的状态，发现制约整体生产线产出量的瓶颈工序，对瓶颈工序的人员进行调整，以实现生产线平衡。但是，这种依赖人工经验对生产线进行平衡的方式，由于人工经验具有局限性，主要着眼于解决眼前瓶颈，缺乏全局规划，准确性较差，另外，往往是在一道工序出现明显瓶颈时才会进行人员调整，此时生产线可能已经产生效率损失，难以有效、及时地实现生产线平衡。

发明内容

本申请的多个方面提供一种用于服装车缝产线平衡决策模型的生成方法、设备及介质，用以快速、高效地为车缝产线提供产线平衡决策模型，使得车缝产线能够基于该模型自动、快速、及时地进行产线平衡调整，减少车缝产线的效率损失。

本申请实施例提供一种用于服装车缝产线平衡决策模型的生成方法，包括：响应服务界面上的信息输入操作，获取车缝产线端提供的实际产线数据，实际产线数据至少包括车缝产线上的产线实体、产线实体的属性和产线实体之间的关联关系；从所维护的仿真框架中，选择与实际产线数据适配的目标仿真框架，根据目标仿真框架与实际产线数据，生成车缝产线对应的仿真环境；运行与实际产线数据适配的目标训练脚本，以基于仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练，得到车缝产线所需的产线平衡决策模型；并将产线平衡决策模型提供给车缝产线端进行产线平衡调整。

本申请实施例还提供一种用于服装车缝产线平衡决策模型的生成方法，包括：根据车缝产线的实际产线数据，构建车缝产线的仿真环境，并利用仿真环境模拟车缝产线上产线实体在正常生产过程中的状态变化，模拟过程至少包括第一阶段和第二阶段；在第一阶段，基于人工经验与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，基于第一训练样本集进行模型训练，得到以产线数据为输入以动作数据为输出的初始网络模型；在第二阶段，基于初始网络模型与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，基于第二训练样本集对初始网络模型进行强化训练，得到目标网络模型。

本申请实施例还提供一种用于服装车缝产线的平衡方法，包括：采集车缝产线在运行过程中产生的实际产线数据，实际产线数据包括车缝产线上实际存在的产线实体、产线实体的属性及产线实体的关联关系；若确定需要针对车缝产线进行产线平衡调整，将实际产线数据输入产线平衡决策模型进行动作决策，得到用于对车缝产线进行平衡调整所需的目标动作数据，目标动作数据包括目标产线实体和目标调整动作信息；根据目标调整动作信息对车缝产线上的目标产线实体执行调整动作，以使车缝产线恢复平衡。

本申请实施例还提供一种管控设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器耦合至存储器，用于执行计算机程序以用于实现本申请实施例提供的上述方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器实现本申请实施例提供的上述方法中的步骤。

在本申请实施例中，提供一种产线平衡决策模型的生成方法，在该生成方法中，预先维护至少一种仿真框架，以及预先将用于产线平衡决策模型的模型训练过程进行脚本化，并维护得到的训练脚本，这样，在用户存在模型生成需求时，基于车缝产线端提供的实际产线数据与适配的仿真框架能够高效快速地构建更加逼真的车缝产线的仿真环境，仿真环境结合训练脚本以一种仿真环境、模仿学习与强化学习三者有机融合的方式进行模型训练，能够快速、高效地得到识别准确率更高的车缝产线的产线平衡决策模型。进而，本申请实施例还提供一种用于服装车缝产线的平衡方法，该方法利用训练得到的产线平衡决策模型对车缝产线进行生产平衡时，能够更加全面、更加客观、更及时地感知、分析和判断车缝产线的运行情况，并进行实时的、必要的产线调整，从而减少车缝产线的效率损失，提供车缝产线整体的生产效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的一种用于车缝产线的平衡控制系统的结构示意图；

图2为本申请一示例性实施例提供的另一种用于车缝产线的平衡控制系统的结构示意图；

图3为本申请一示例性实施例提供的一种用于服装车缝产线平衡决策模型的生成方法的流程示意图；

图4为本申请一示例性实施例提供的另一种用于服装车缝产线平衡决策模型的生成方法的流程示意图；

图5为本申请一示例性实施例提供的一种服装车缝产线的平衡方法的流程示意图；

图6为本申请一示例性实施例提供的一种用于服装车缝产线平衡决策模型的生成装置的结构示意图；

图7为本申请一示例性实施例提供的另一种用于服装车缝产线平衡决策模型的生成装置的结构示意图；

图8为本申请一示例性实施例提供的一种用于服装车缝产线的平衡装置的结构示意图；

图9为本申请一示例性实施例提供的一种管控设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有的依赖人工经验对生产线进行平衡的方式，由于人工经验具有局限性，主要着眼于解决眼前瓶颈，缺乏全局规划，准确性较差，另外，往往是在一道工序出现明显瓶颈时才会进行人员调整，此时生产线可能已经产生效率损失，难以有效、及时地实现生产线平衡。为此，本申请实施例先提供一种用于服装车缝产线平衡决策模型的生成方法，预先维护至少一种仿真框架，以及预先将用于产线平衡决策模型的模型训练过程进行脚本化，并维护得到的训练脚本，这样，在用户存在模型生成需求时，基于车缝产线端提供的实际产线数据与适配的仿真框架能够高效快速地构建更加逼真的车缝产线的仿真环境，仿真环境结合训练脚本以一种仿真环境、模仿学习与强化学习三者有机融合的方式进行模型训练，能够快速、高效地得到识别准确率更高的车缝产线的产线平衡决策模型。进而，本申请实施例还提供一种用于服装车缝产线的平衡方法，该方法利用训练得到的产线平衡决策模型对车缝产线进行生产平衡时，能够更加全面、更加客观、更及时地感知、分析和判断车缝产线的运行情况，并进行实时的、必要的产线调整，从而减少车缝产线的效率损失，提供车缝产线整体的生产效率。

以下结合附图，详细说明本申请各实施例提供的技术方案。关于产线平衡决策模型的生成本申请实施例提供了两种方法。其中，图1-图2所示实施例重点从系统角度描述基于产线平衡决策模型进行产线平衡的过程，并描述了第一种产线平衡决策模型生成方法中的模型训练过程。图3所示的实施例重点描述了第二种产线平衡决策模型生成的过程。图4所示的实施例从另一角度重点描述了第二种产线平衡决策模型生成的过程。图5所示实施例从另一角度对本申请实施例提供的第一种产线平衡决策模型生成方法的过程进行了说明。

图1为本申请一示例性实施例提供的一种用于车缝产线的平衡控制系统的结构示意图。如图1所示，该控制系统可以包括：至少一个信息采集设备11和用于产线平衡的管控设备12。其中，信息采集设备11可以通过有线网络、或者无线网络与管控设备12进行交互。例如，有线网络可以包括同轴电缆、双绞线和光纤等，无线网络可以是2G网络、3G网络、4G网络或者5G网络、无线保真(Wireless Fidelity，简称WIFI)网络等。本申请对交互的具体类型或者具体形式并不做限定，只要其能够实现信息采集设备11和管控设备12交互的功能即可。

在本申请实施例中，信息采集设备11可以是任意的具有数据采集功能的设备，信息采集设备11例如可以包括但不限于以下至少一种设备：摄像头、手机、平板电脑、计算机设备、可穿戴设备、各种传感器以及IoT（Internet of Things，物联网）设备。

在本申请实施例中，管控设备12可以是部署在车缝产线所在的现场环境中的提供各种服务的终端设备，终端设备例如包括但不限于手机、平板电脑、计算机设备、可穿戴设备、IoT设备等。管控设备12也可以是部署在车缝产线所在环境中的计算机设备，还可以是靠近车缝产线的边缘集群中的边缘计算设备，管控设备12也可以是部署在云端的云服务器，本申请实施例对此不做限制。其中，边缘计算设备可以是任何具有通信功能和一定数据处理能力的计算设备，例如可以是是部署在生产环境中能够进行数据转发和处理的网关设备，也可以是生产环境中的管理设备，还可以是在生产环境中专门部署的用于进行产线平衡管理的计算机设备或服务器，或者还可以是部署在靠近生产环境的机房中的服务器等。其中，边缘计算设备可以部署在边缘集群中，边缘集群部署在靠近物或数据源头的一侧，例如部署在数据化服装生产工厂内部或靠近数据化工厂的其它位置，采用网络、计算、存储以及应用核心能力为一体的开放平台，就近提供各种数据分析处理服务。边缘计算设备可以在无需联网的情况实现设备的本地联动以及数据处理分析，还可以有效分担云端负荷。

在本申请实施例中，信息采集设备11部署在车缝产线所在的现场环境中，负责采集车缝产线在运行过程中产生的实际产线数据，该实际产线数据至少包括车缝产线上的产线实体、产线实体的属性和产线实体之间的关联关系，当然，实际产线数据还可以包括其他数据，对此不做限制。

在本申请实施例中，车缝产线上实际存在的产线实体是指对车缝产线进行产线平衡时需要关注的实体，具体可以根据实际应用需求选择产线实体。车缝产线上实际存在的产线实体例如可以是包括但不限于：工位、工位工作区、工位缓存站、工件、车缝产线上的各种产线设备、工人或工序。

其中，工位是生产过程最基本的生产单元，在工位上安排工人、相应的产线设备、原料、生产工具等进行生产。生产工具例如卷尺、画笔、直尺或垃圾盒等。一条车缝产线包括多个工位，工人在工位上利用车缝设备、原料、工具等完成车缝工段下属的一个或多个工序，如图1所示，车缝产线包括工位1至工位n，n是大于1的正整数。工位工作区是指工位对应的工作场地。工位缓冲站是暂存工件的缓冲区域。工件是指生产加工过程中的加工对象。在车缝产线上，工件是指需要进行车缝的布料或皮革等制品。产线设备是指部署在车缝产线上的各种生产设备。在车缝产线中，产线设备主要包括打钉机、缝纫机、剪刀、运输小车等。产线设备的属性包括但不限于设备类型、设备工作状态。工序是完成产品加工的基本单元，一个工段包含多个工序，一个工段可由一个或多个产线完成。车缝产线用于完成车缝工段，针对车缝工段，例如可以包括打线钉、剪省缝、环缝、缉省缝、烫省缝、拼耳朵片、粘牵条、开袋口和封袋口等多个工序。

在本申请实施例中，产线实体具有一定的状态信息，且产线实体的状态信息可以通过产线实体的属性信息和产线实体之间的对应关系进行体现。以上述列举的产线实体为例，对各产线实体的状态信息进行举例说明：

其中，工位的属性信息包括但不限于：工位的坐标位置、工位的序号、工位的忙碌状态、是否出现故障。

工位工作区的属性信息包括但不限于：工位工作区的坐标位置、大小、类型、忙碌状态、是否出现故障。

工位缓冲站的属性信息包括但不限制：最大容量、当前缓冲站内的工件数。其中，最大容量是指工位缓冲站可以暂存的最大工件数。

工件的属性信息包括但不限于：工件的投产频率、未完成工序、进入下一工位缓冲站的用时、上一停留工位以及下一停留工位等。

工序的属性信息包括但不限于：该工序对应的标准加工时间、该工序依赖的设备类型、该工序对应工件的完成比例、该工序的前序工序、后序工序等。其中，标准加工时间是指本行业约定的该工序的加工时间，通过将该标准加工时间与工序的实际加工时间进行比较，可衡量该工序的生产效率。工序依赖的设备类型是指该工序需要使用的设备的类型，例如缝纫机、打钉机、剪刀、运输小车。前序工序是指该工序的前一道工序，后序工序是指该工序的后一道工序。例如，当前工序为剪省缝，则前道工序为打线钉，后道工序为环缝。

工人的属性信息包括但不限于：工人的移动速度、工作状态、工人-工序技能效率等。其中，工人-工序技能效率是指工人在某个工序下的技能效率，例如可以采用工人在某个工序下每小时的产出量进行衡量。

在本申请实施例中，可以根据车缝产线的实际需求确定产线实体之间的对应关系，而且随着车缝产线的运行以及对车缝产线进行的平衡调整，车缝产线包含的产线实体以及产线实体之间的对应关系会动态变化。作为一种示例，工位与其所拥有的工位工作区存在一对一的对应关系，例如，工位1对应工位工作区。工位与其所拥有的工位缓冲站存在一对一的对应关系，例如，工位1对应一个工位缓冲站。工位与其所分配的工人存在一对一的对应关系，例如，工位1对应一个车缝工人。工位缓冲站与其拥有的工件存在一对多的对应关系，例如，工位缓冲站暂存有多个待车缝的裁片。工位工作区与其拥有的拥有工件存在一对一的对应关系，例如，工位工作区上需要缝制一个裁片。工位工作区与其执行当前工序存在一对一的对应关系，工位工作区执行当前工序为环缝。工位工作区与放置在该工位工作区的设备存在一对一的对应关系，例如工位工作区放置有一个缝纫机。当前工序与该工序属于的工件存在一对一的对应关系，例如，当前环缝是某个裁片。当前工序与该工序依赖的设备存在一对一的对应关系，例如，当前环缝依赖的是缝纫机，当前打线钉依赖的是打钉机。工人与该操作的工件存在一对一的对应关系，例如，某个工人正在对某个裁片进行环缝。工人与该工人操作的工序存在一对一的对应关系，某个工人正在对某个裁片进行环缝。

在本申请实施例中，信息采集设备11在采集到的车缝产线在运行过程中产生的实际产线数据之后可将实际产线数据上传至管控设备12，由如图1中的①所示。在本申请实施例中，管控设备12基于产线平衡决策模型13进行产线平衡处理。值得注意的是，产线平衡决策模型可以部署管控设备12本端，也可以部署在不同于管控设备12的其他设备上，例如在管控设备12是边缘计算设备或本地服务器的情况下，产线平衡决策模型13可以部署到云端。在产线平衡决策模型部署在其他设备上时，管控设备12可以将实际产线数据发送给其他设备，由其他设备调用产线平衡决策模型进行动作决策，并由其它设备将产线平衡决策模型进行动作决策得到的目标动作数据发送给管控设备12，进而管控设备12基于目标动作数据执行产线调整动作。其中，部署产线平衡决策模型的其他设备可以是各种终端设备或云端服务器。

具体而言，管控设备12首先确定是否需要针对车缝产线进行平衡调整。可选地，管控设备12可以根据实际产线数据确定是否需要针对车缝产线进行平衡调整。具体地，可以根据实际产线数据识别是否发生特定事件，在根据实际产线数据识别到特定事件时，确定需要针对车缝产线进行平衡调整，特定事件反映车缝产线出现失衡现象。特定事件根据实际应用需求设置，特定事件例如包括但不限于某个工位的工人离岗、某个工位的设备生故障、某个工作缓存站堆积的工件很多（例如超出了设定的第一工件数量）、某个工位工作区堆积的工件很多（例如超出了设定的第二工件数量）等等。除此之外，管控设备12也可以设定产线平衡周期，周期性地对车缝产线进行生产平衡调整，以使车缝产线长时间处于生产平衡状态，提高车缝产线的生产效率。基于此，在设定的平衡调整周期到达时，也可以确定需要针对车缝产线进行平衡调整。其中，平衡调整周期即至少间隔多长时间可以对车缝产线进行一次调整，设定的平衡调整周期根据实际产线调整需求进行设置，例如可以是一小时、一天或5个小时等。

无论采用哪种方式，在确定需要针对车缝产线进行平衡调整时，管控设备12将实际产线数据输入产线平衡决策模型，以供产线平衡决策模型进行动作决策，如图1中的②所示。其中，本实施例中的产线平衡决策模型是预先基于车缝产线对应的仿真环境，采用模仿学习和强化学习结合的方式进行模型训练得到的。

因此，在本申请实施例中，在使用产线平衡决策模型之前，还需要基于车缝产线对应的仿真环境，采用模仿学习和强化学习结合的方式进行模型训练，得到产线平衡决策模型；其中，仿真环境用于模拟车缝产线的运行过程。关于模型训练的过程可参见后续实施例，在此再不详述。

基于仿真环境、模仿学习与强化学习有机融合进行模型训练所得到的产线平衡决策模型，当利用这样的产线平衡决策模型对车缝产线进行生产平衡时，能够更加全面、更加客观、更及时地感知、分析和判断车缝产线的运行情况，并进行实时的、必要的产线调整，从而减少车缝产线的效率损失，提供车缝产线整体的生产效率。

具体而言，产线平衡决策模型以使车缝产线恢复平衡为目标，基于车缝产线的实际产线数据进行动作决策。在进行动作决策时，从车缝产线的动作空间中选择用于对车缝产线进行平衡调整所需的目标动作数据。其中，车缝产线的动作空间也就是产线平衡决策模型的动作空间，该动作空间中包括多个对车缝产线进行平衡处理所需的调整动作对应的动作数据。调整动作可以根据实现应用需求设置，本实施例中的调整动作例如包括但不限于：工人移动、工位工人调整、工位设备调整或者工序-工位分派调整。其中，工人移动是指一个工人在当前工位上完成当前工序后移动到另一工位。工位工人调整是指更换一个工位上的工人。工位设备调整是指更换一个工位上的产线设备。工序-工位分派调整是指将位于一个工位的工位缓冲站的工件改派到另一个工位的工位缓冲站。

进一步可选地，在根据目标调整动作信息对车缝产线上的目标产线实体执行调整动作时，管控设备12可以将产线平衡决策模型进行动作决策得到的目标动作数据发送给车缝产线现场环境中的显示屏幕以显示方式输出或者发送给工位上的控制终端以显示或语音等方式进行输出，以供相关工人或其它工作人员根据目标动作数据进行动作调整，以使车缝产线逐渐恢复平衡。其中，工位上的控制终端例如包括但不限于手机、平板电脑、计算机设备、可穿戴设备、以及IoT（Internet of Things，物联网）设备。图1中的③以产线平衡决策模型决策得到的目标动作数据经过管控设备12发送给工位上的控制终端为例进行图示。

在本申请实施例中，目标动作数据包括目标产线实体和目标调整动作信息，目标产线实体是需要进行调整的产线实体，例如可以是工人、工位设备、工序或工件等；目标调整动作信息用于描述目标产线实体需要执行的调整动作的相关信息，例如包括但不限于调整动作的类型、执行时间、执行次数、执行条件等。

若控制终端接收到目标动作数据，可以将目标动作数据包含的目标产线实体以及目标调整动作信息输出，则控制终端侧的产线平衡人员基于目标动作数据对车缝产线进行调整，以使车缝产线恢复平衡。若目标动作数据显示在车缝产线现场环境中的显示屏幕中，产线平衡人员观看显示屏幕显示的目标动作数据，并基于目标动作数据对车缝产线进行调整，以使车缝产线恢复平衡。具体而言，产线平衡人员根据目标调整动作信息对车缝产线上的目标产线实体执行调整动作，以使车缝产线恢复平衡。需要说明的是，在目标产线实体是工人的情况下，产线平衡人员可以实现为目标产线实体，也可以不同于目标产线实体。例如，目标产线实体是某个工人，目标调整动作信息指示该工人需要从工位1调整到工位2，在该情况下，若产线平衡人员不同于目标产线实体，则可以通知该工人从工位1调整到工位2，或者，产线平衡人员实现为目标产线实体，即为该工人，则该工人可以自动从关工位1调整到工位2。或者，目标产线实体是某个工人，目标调整动作信息指示该更换工位1上的工人为技能效率更高的工人3，在该情况下，若产线平衡人员不同于目标产线实体，则可以通知该工人从工位1上离岗并通知工人3到该工位1上继续工作，或者，产线平衡人员实现为目标产线实体，即为原来在工位1上的工人，则该工人可以自动从工位1上离岗并且可通知工人3到工位1上继续工作。或者，目标产线实体是缝纫机，目标调整动作信息指示更换工位1上的出现故障的缝纫机，在该情况下，产线平衡人员可以更换工位1上的出现故障的缝纫机。或者，以工件为裁片为例，目标产线实体是裁片，目标调整动作信息指示将工位缓冲站1的100件裁片调整至工位缓冲站2上，在该情况下，产线平衡人员可以将工位缓冲站1的100件裁片调整至工位缓冲站2上。

在一些场景中，在根据目标调整动作信息对车缝产线上的目标产线实体执行调整动作过程中，还可以根据目标动作数据对目标产线设备进行控制，以供目标产线设备为对车缝产线上的目标产线实体进行调整动作提供辅助操作。例如，在目标动作数据指示某个工位缓冲站中暂存的工件需要调整的情况下，目标产线设备可以是运输小车，则可以控制该运输小车移动到某个工位缓冲站执行工件的运输任务，以辅助完成对某个工位缓冲站中暂存的工件的调整动作。例如，为了便于产线平衡人员观看目标动作数据，目标产线设备可以为车缝产线环境中具有显示功能的显示设备，则可以控制该显示设备显示目标动作数据，以供产线平衡人员观看目标动作数据，为根据目标调整动作信息对车缝产线上的目标产线实体执行调整动作提供条件。

本申请实施例提供的用于服装车缝产线的平衡方法，采集车缝产线运行过程中产生的实际产线数据，并在确定需要针对车缝产线进行平衡调整时，通过产线平衡决策模型基于实际产线数据进行动作决策，并基于产线平衡决策模型进行动作决策得到的目标调整动作信息对车缝产线上的目标产线实体执行调整动作，以使车缝产线恢复平衡。由此，能够自动、及时、准确地识别车缝产线是否需要平衡调整，以及基于产线平衡决策模型的动作决策结果可以更为准确地对车缝产线进行平衡调整，使得车缝产线能够快速、及时地恢复平衡，减少车缝产线的效率损失。

在本申请实施例中，产线平衡决策模型的训练阶段包括模仿学习阶段和强化学习阶段，模仿学习阶段基于人工经验与仿真环境的交互进行模仿学习以生成一个初始策略网络，强化学习阶段基于初始策略网络与仿真环境的交互进行强化学习以生成目标策略网络，并根据目标策略网络生成产线平衡决策模型。无论是哪个阶段，都依赖于能够模拟车缝产线的运行过程的仿真环境，因此，首先，需要构建仿真环境。基于该仿真环境能够对车缝产线上的产线实体的状态变化过程进行模拟，产线实体例如包括但不限于：工位、工位工作区、工位缓冲站、工件、工人、设备、工序等。

其中，构建仿真环境主要包括：确定仿真环境涉及的动作空间、状态空间和事件空间。其中，状态空间包括车缝产线在仿真过程中产生的产线实体及其状态信息，例如，实体例如包括但不限于：工位、工位工作区、工位缓冲站、工件、工人、设备、工序等。实体的状态信息可由产线实体的属性信息和实体之间的对应关系进行体现，关于产线实体的属性信息以及实体之间的对应关系可参见上文描述，在此不再赘述。

进一步可选的，构建状态空间的实现方式为：配置车缝产线对应的产线实体，针对所配置的产线实体设置属性信息，并建立产线实体之间的对应关系；以及确定车缝产线上可能出现的随机事件及其分布特性。其中，工人-工序的技能效率具有随机性，属于车缝产线上可能出现的随机事件，在本申请实施例中，可以确定该随机事件服从正态分布。另外，工人离岗或设备故障也是车缝产线上可能出现的随机事件，在本申请实施例中，可以确定该随机事件服从均匀分布。其中，关于车缝产线上可能出现的随机事件以及随机事件可能服从的分布种类，可根据产线经验获得。

动作空间包括可用于对车缝产线进行平衡调整的至少一种动作数据。至少一种动作数据包括动作对象和调整动作信息，本申请实施例中涉及的调整动作例如包括但不限于：工人移动、工位工人调整、工位设备调整或者工序-工位分派调整。

事件空间包括表示需要针对车缝产线进行平衡调整的至少一种触发事件。触发事件例如包括但不限于某个工位的工人离岗、某个工位的设备生故障、某个工作缓存站堆积的工件很多、某个工位工作区堆积的工件很多、设定的平衡调整周期到达，等等。在发生触发事件时，表示服装车缝产线出现不平衡现象，此时需要从动作空间中选择调整动作对车缝产线进行平衡调整。

在上述仿真环境的基础上，在一可选实现方式中，基于车缝产线对应的仿真环境，采用模仿学习和强化学习结合的方式进行模型训练，得到产线平衡决策模型的一种实施过程是：基于人工经验与仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络；基于初始策略网络与仿真环境的交互进行强化学习，得到目标策略网络，并根据目标策略网络生成产线平衡决策模型。

值得注意的是，在车缝产线的平衡调整过程中，通过目标策略网络构筑车缝产线状态与调整动作的关联，实现将车缝产线生产过程中更多的信息纳入动作决策。基于强化学习可以将车缝产线在较长时间内的平衡状态反映到做动作决策的时间点，从而使得车缝产线的平衡调整方案更具有前瞻性和全面性，不再局限于眼下的瓶颈工艺。

另外，仿真环境、模仿学习与强化学习三者相辅相成，联系紧密。仿真环境可以为模仿学习和强化学习提供数据来源，并验证模仿学习和强化学习给出的动作效果，模仿学习从仿真环境中获取产线状态并吸收人工经验进行决策，决策动作可以输入给仿真环境进行模拟；强化学习在模仿学习得到的初始策略网络的基础上进一步提升，改进人工经验的缺陷，得到更优的目标策略网络，强化学习同样可以从仿真环境中获取产线状态并根据初始策略网络进行决策，决策动作可以输入给仿真环境进行效果模拟。

无论是基于人工经验与仿真环境交互进行模仿学习还是基于初始策略网络与仿真环境的交互进行强化学习，需要都运行仿真环境，对车缝产线的运行过程进行模拟。其中，运行仿真环境依赖仿真样本，因此，还需要预先准备运行仿真环境所需要的仿真样本，仿真样本数量根据实际应用需求设置。需要准备的仿真样本可以从历史仿真样本中选择，也可以随机生成一些仿真样本。任一仿真样本可以包括车缝产线相关产线实体的属性信息，还可以包括随机性因素。例如，仿真样本为在某个时刻工人发生移动、在某个工作缓存站中堆积工件或者出现设备故障等等。需要说明的是，不同仿真样本涉及的产线实体、产线实体的属性信息以及随机性因素都会有所不同，比较贴近真实产线运行环境，提高仿真过程的真实性。

其中，随机性因素是车缝产线上可能出现的随机事件涉及到的随机变量在某个时刻的具体值。例如，服装车缝产线上可能出现的随机事件工人-工序的技能效率事件、工人离岗事件、设备故障事件，这些随机事件涉及的随机变量包括工人-工序的技能效率、工人离岗的发生概率、设备故障的发生概率。以工人-工序的技能效率作为随机变量的随机事件服从正态分布。以工人离岗或设备故障的发生概率作为随机变量的随机事件服从均匀分布。

值得注意的是，当仿真样本中的随机变量输入至仿真环境中后，仿真环境能够模仿实际的车缝产线生产过程中遇到相应随机事件时各个产线实体的状态变化。

其中，根据仿真样本进行仿真的过程，包括：针对每个仿真样本，启动仿真环境分别进行一次仿真，一次仿真过程包括多个仿真步。其中，可以预先设定一次仿真过程包含的多个仿真步，仿真步的长度可以根据仿真需求灵活设定。在一可选实施例中，每个仿真步可以代表实际车缝产线生产过程中的一个平衡调整周期。对于每一仿真步，仿真环境能够实现以下功能：根据随机事件服从的分布类型预测下一仿真步下随机变量的值，然后模拟生产过程中每个实体的属性信息随时间的变化；同时，还需要监测外部的动作输入，即监测是否有调整动作输入，当监测到有调整动作输入时，模拟生产过程中该调整动作对每个产线实体的属性信息的影响。

基于上述内容，基于人工经验与仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络的一种实施过程是：利用仿真样本针对当前状态空间进行仿真，以模拟车缝产线的运行过程并产生新的状态空间；若在仿真过程中出现事件空间中的任一触发事件，根据人工经验从动作空间中选择第一动作数据并反馈给仿真环境，以供仿真环境对第一状态空间进行调整后继续进行仿真，第一状态空间是出现任一触发事件时的状态空间；将第一状态空间以及第一动作数据，作为一个训练样本保存至第一训练样本集中，并在仿真结束后，利用第一训练样本集中的训练样本进行模型训练，得到初始策略网络。

具体而言，对于每个仿真样本，启动仿真环境仿真服装车缝产线在该仿真样本下产生新的状态空间，如图2中的④和⑤所示；在仿真过程中，若有触发事件发生，如图2中的⑥所示，则基于人工经验在由多个调整动作组成的动作空间中进行动作决策，如图2中的⑦所示，将动作决策出的调整动作对应的动作数据输入给仿真环境，并利用仿真环境仿真该动作数据输入后对状态空间的影响；以及记录仿真过程中，每当发生触发事件时的状态空间的状态与针对触发事件选择的调整动作的作数据，作为初始训练样本。在所有的仿真样本都仿真完成后，可以得到批量的发生触发事件时的状态空间的状态与针对触发事件选择的调整动作对应的动作数据，如图2中的⑧所示，进而得到大量的训练样本。利用深度学习方法训练所记录的训练样本，得到初始策略网络，如图2中的⑨和⑩所示。初始策略网络的输入为状态空间，输出为针对触发事件选择的调整动作对应的动作数据，或者为动作空间上各个调整动作对应的动作数据的概率分布。

在本申请实施例中，在强化学习阶段，基于初始策略网络与仿真环境的交互进行强化学习，得到目标策略网络的一种可选的实施过程是：利用仿真样本针对当前状态空间进行仿真，以模拟车缝产线的运行过程并产生新的状态空间；若在仿真过程中出现事件空间中的任一触发事件，调用初始策略网络从动作空间中选择第二动作数据并反馈给仿真环境，以供仿真环境对第二状态空间进行调整后继续进行仿真，第二状态空间是出现任一触发事件时的状态空间；将第二状态空间、第二动作数据、第二动作数据对应的奖励函数值和第二状态空间的下一状态空间，作为一个训练样本保存至第二训练样本集中，并在仿真结束后，利用第二训练样本集中的训练样本对初始策略网络进行模型训练，得到目标策略网络。

进一步可选地，无论是模仿学习阶段的仿真过程还是强化学习阶段的仿真过程，一次仿真过程都包括多个仿真步，则利用仿真样本针对当前状态空间进行仿真，以模拟车缝产线的运行过程并产生新的状态空间的一种实施过程是：针对每个仿真样本，在当前仿真步中，判断是否有第一动作数据或第二动作数据输入；若是，根据第一动作数据或第二动作数据调整第一状态空间或第二状态空间中的产线实体，并从调整后的产线实体中确定当前仿真步涉及到的产线实体；模拟当前仿真步涉及的产线实体针对仿真样本的状态变化过程，以得到下一仿真步中的产线实体及其状态信息，根据随机事件的分布特性产生下一仿真步中随机变量的值；以及监测是否出现事件空间中的任一触发事件。

具体而言，无论是模仿学习阶段的仿真过程还是强化学习阶段的仿真过程，仿真环境在每个仿真步下，都会检测是否有外部的动作数据输入，若没有外部的动作数据输入时，仿真环境在仿真步下继续运行。若有外部的动作数据输入时，状态空间中的产线实体会受到所输入的动作数据的影响而发生状态变化，其中，根据学习阶段的不同，外部的动作数据可以是第一动作数据（对应模仿学习阶段）或第二动作数据（对应强化学习阶段）。因此，确定状态空间中受外部的动作数据影响而调整的产线实体，并从调整后的产线实体中确定当前仿真步涉及到的产线实体，继续运行仿真环境，模拟当前仿真步涉及的产线实体针对仿真样本的状态变化过程，以得到下一仿真步中的产线实体及其状态信息。

在模拟过程中，根据随机事件的分布特性确定下一仿真步中随机变量的值，仿真环境在下一仿真步中会考虑随机事件的影响，充分考虑随机事件，能够使得最终生成的产线平衡决策模型更好地进行动作决策。

另外，仿真环境在每个仿真步下，仿真环境还会监测是否出现事件空间中的触发事件，若出现，则说明模拟的车缝产线出现失衡。若未出现，则说明模拟的车缝产线处于平衡状态。在车缝产线出现失衡时，若在模仿学习阶段，需要基于人工经验进行动作决策，以从动作空间中选择符合调整要求的动作数据；若在强化学习阶段，则基于初始策略网络进行动作决策，以从动作空间中选择符合调整要求的动作数据。

进一步可选的，调用初始策略网络从动作空间中选择第二动作数据并反馈给仿真环境的一种实施过程是：将第二状态空间输入初始策略网络，由初始策略网络基于动作空间进行动作决策，得到第二动作数据或动作空间中各动作数据的选择概率，其中，选择概率符合条件的动作数据为第二动作数据。概率符合条件的动作数据根据实际情形设置，例如概率大于预设概率值的动作数据，或者是概率最大的动作数据。

具体而言，在强化学习阶段，可以准备一些仿真样本，对于每个仿真样本，启动仿真环境仿真服装车缝产线在该仿真样本下产生新的状态空间，如图2中的⑪和⑫所示；在仿真过程中，若有触发事件发生，如图2中的⑬所示，则调用在模仿学习阶段得到的初始策略网络进行动作决策，从动作空间中选择符合调整要求的动作对应的动作数据，如图2中的⑭所示，并将符合调整要求的动作对应的动作数据输入给仿真环境，仿真环境仿真动作输入后对状态空间的影响；并记录仿真过程中，每当发生触发事件时的第二状态空间、第二动作数据、第二动作数据对应的奖励函数值和第二状态空间的下一状态空间，作为一个训练样本并保存至记忆库中。在所有的仿真样本都仿真完成后，可以得到大量的训练样本，如图2中的⑮所示。

值得注意的是，第二动作数据对应的奖励函数值是对基于第二状态空间进行决策出来的第二动作数据的评价数据。第二动作数据对应的奖励函数值可以由人工自主定义，第二动作数据对应的奖励函数值也可以由产线平衡决策模型中的回报函数（RewardFunction）或者值函数（Value Function）进行确定。或者，产线平衡决策模型设置了价值评估网络，可以基于第二动作数据进行动作决策结果的评价，并输出第二动作数据对应的奖励函数值。在训练价值评估网络时，可以准备大量的动作数据及其奖励函数值作为训练数据，基于训练数据进行模型训练得到价值评估网络。

利用记忆库中大量的训练样本对初始策略网络进行模型训练，得到目标策略网络，如图2中的⑯所示。该目标策略网络的输入为状态空间，输出为符合调整要求的动作对应的动作数据，或者动作空间上各个动作对应的动作数据的概率分布。

将强化学习的状态空间、动作空间、触发事件作为在线运行的产线平衡决策模型的状态空间、动作空间、触发事件，将目标策略网络作为在线运行的产线平衡决策模型所用的策略网络，得到在线运行的产线平衡决策模型，如图2中的⑰所示。

本申请实施例还提供一种用于服装车缝产线平衡决策模型的生成方法。图3为本申请一示例性实施例提供的一种用于服装车缝产线平衡决策模型的生成方法的流程示意图。参见图3，该方法可以包括以下步骤：

301、响应服务界面上的信息输入操作，获取车缝产线端提供的实际产线数据，实际产线数据至少包括车缝产线上的产线实体、产线实体的属性和产线实体之间的关联关系。

302、从所维护的仿真框架中，选择与实际产线数据适配的目标仿真框架，根据目标仿真框架与实际产线数据，生成车缝产线对应的仿真环境。

303、运行与实际产线数据适配的目标训练脚本，以基于仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练，得到车缝产线所需的产线平衡决策模型；并将产线平衡决策模型提供给车缝产线端进行产线平衡调整。

本申请实施例提供的用于服装车缝产线平衡决策模型的生成方法的执行主体可以是服务端设备，当用户有模型生成需求时，用户可以操作车缝产线端上的终端设备向服务端设备发送模型生成请求，服务端设备响应模型生成请求向车缝产线端上的终端设备推送服务界面，该服务界面上可以展示多个信息输入项，供用户输入不同的信息。具体的，用户可在服务界面上输入车缝产线端的实际产线数据，该实际产线数据是在训练产线平衡决策模型之前车缝产线在运行过程中产生的实际产线数据，该实际产线数据至少包括车缝产线上的产线实体、产线实体的属性和产线实体之间的关联关系，当然，实际产线数据还可以包括其他数据，对此不做限制。关于实际产线数据的介绍可以参见前述实施例。其中，车缝产线端上的终端设备例如包括但不限于手机、平板电脑、计算机设备、可穿戴设备、以及IoT设备。

在本申请实施例中，预先维护了至少一种仿真框架，仿真框架可以是指针对仿真场景搭建的通用仿真平台，对仿真框架加载仿真数据或适应性修改可以快速生成专属的仿真环境。基于此，服务端设备响应用户服务界面上的信息输入操作，获取车缝产线端提供的实际产线数据之后，从所维护的仿真框架中，选择与实际产线数据适配的目标仿真框架。具体而言，在从所维护的仿真框架中，选择与实际产线数据适配的目标仿真框架时，服务端设备可以根据仿真框架适合的产线类型，选择与车缝产线所属产线类型适合的仿真框架作为目标仿真框架。例如，服务端设备预先维护了车缝产线、印花产线、裁剪产线等各个产线的仿真框架，服务端设备从多个仿真框架中选择车缝产线的仿真框架作为目标仿真框架。另外，服务端设备还可以支持用户自主选择仿真框架，具体而言，在服务界面上展示可供车缝产线端选择的仿真框架，响应于车缝产线端的第一选择操作，将被选中的仿真框架作为目标仿真框架。第一选择操作可以是单击操作、双击操作、滑动操作或者按压操作等。

在本申请实施例中，目标仿真框架与车缝产线适配，在一可选实施例中，该目标仿真框架包括与车缝产线适配的生产控制逻辑，以及还包括用于存储车缝产线相关数据的状态空间、动作空间和事件空间。在生成车缝产线对应的仿真环境之前，这些状态空间、动作空间和事件空间处于待设置状态，可能是空值或者具有默认值。作为一种可选实现方式，根据目标仿真框架与实际产线数据，生成车缝产线对应的仿真环境的一种实施过程是：根据实际产线数据，生成车缝产线进行产线平衡决策所需的各种动作数据和各种触发事件；根据实际产线数据初始化目标仿真框架的状态空间，并将车缝产线进行产线平衡决策所需的各种动作数据和各种触发事件分别配置到目标仿真框架的动作空间和事件空间中，以得到车缝产线对应的仿真环境。

具体的，在完成初始化和配置操作之后，会得到仿真环境对应的状态空间、动作空间和事件空间。其中，仿真环境对应的状态空间用于存储仿真过程中车缝产线上动态变化的产线实体、产线实体的属性以及产线实体之间的关联关系，动作空间用于存储车缝产线进行产线平衡决策所需的各种动作数据，事件空间包括车缝产线进行产线平衡决策所需的触发事件。关于状态空间、动作空间以及事件空间的更多介绍详见前述实施例。

服务端设备在选择好车缝产线对应的仿真环境，可以配合仿真环境对车缝产线平衡调整过程的模拟并结合模型训练过程，从而得到用于对车缝产线进行平衡调整的产线平衡决策模型。为了提高模型训练的效率，在本申请实施例中，预先将用于产线平衡决策模型的模型训练过程进行脚本化，并维护得到的训练脚本，这样可以直接运行训练脚本完成产线平衡决策模型的训练过程。进一步，为了丰富产线平衡决策模型的训练类型，可以预先维护多种训练脚本，不同训练脚本对应的模型训练逻辑不同，模型训练的效率和精度也会有所不同，但都可以得到产线平衡决策模型。在实际使用中，可以根据实际产线数据选择与之适配的训练脚本作为目标训练脚本，并运行目标训练脚本，以得到车缝产线所需的产线平衡决策模型，进而将产线平衡决策模型提供给车缝产线端进行产线平衡调整。

在本申请实施例中，服务端设备可以自动选择与实际产线数据适配的目标训练脚本，进一步地，服务端设备还可以支持用户按需选择目标训练脚本。于是，在一可选实现方式中，运行与实际产线数据适配的目标训练脚本之前，还可以在服务界面上展示可供车缝产线端选择的多个训练脚本，响应于车缝产线端的第二选择操作，将被选中的训练脚本作为与车缝产线数据适配的目标训练脚本；其中，不同训练脚本对应的模型训练逻辑不同。其中，第二选择操作可以是单击操作、双击操作、滑动操作或者按压操作等。

在本申请实施例中，被选择的与实际产线数据适配的目标训练脚本对应的模型训练逻辑为：基于仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练过程。需要说明的是，除了基于仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练过程之外，其它训练脚本对应的模型训练逻辑还可以是：基于仿真环境采用模仿学习方式的单阶段模型训练过程，或者是，基于仿真环境采用强化学习方式的单阶段模型训练过程，具体可参见两阶段模型训练中的对应阶段实施。以两阶段的模型训练为基础，运行与实际产线数据适配的目标训练脚本，能够基于仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练，得到车缝产线所需的产线平衡决策模型。具体而言，运行与实际产线数据适配的目标训练脚本，以执行下述模型训练操作：在第一模型训练阶段，基于人工经验与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，基于第一训练样本集进行模型训练，得到以产线数据为输入以动作数据为输出的初始网络模型；在第二模型训练阶段，基于初始网络模型与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，基于第二训练样本集对初始网络模型进行强化训练，得到产线平衡决策模型。

无论是第一模型训练阶段还是第二模型训练阶段，需要都运行仿真环境，对车缝产线的运行过程进行模拟。其中，运行仿真环境依赖仿真样本，因此，还需要预先准备运行仿真环境所需要的仿真样本，仿真样本数量根据实际应用需求设置。需要准备的仿真样本可以从历史仿真样本中选择，也可以随机生成一些仿真样本。任一仿真样本可以包括车缝产线相关产线实体的属性信息，还可以包括随机性因素。例如，仿真样本为在某个时刻工人发生移动、在某个工作缓存站中堆积工件或者出现设备故障等等。需要说明的是，不同仿真样本涉及的产线实体、产线实体的属性信息以及随机性因素都会有所不同，比较贴近真实产线运行环境，提高仿真过程的真实性。

具体而言，无论是第一模型训练阶段的仿真过程还是第二模型训练阶段的仿真过程，仿真环境在每个仿真步下，都会检测是否有外部的动作数据输入，若没有外部的动作数据输入时，仿真环境在仿真步下继续运行。若有外部的动作数据输入时，状态空间中的产线实体会受到所输入的动作数据的影响而发生状态变化，其中，根据学习阶段的不同，外部的动作数据可以是第一模型训练阶段的动作数据或第二模型训练阶段的第二动作数据。因此，确定状态空间中受外部的动作数据影响而调整的产线实体，并从调整后的产线实体中确定当前仿真步涉及到的产线实体，继续运行仿真环境，模拟当前仿真步涉及的产线实体针对仿真样本的状态变化过程，以得到下一仿真步中的产线实体及其状态信息。

另外，仿真环境在每个仿真步下，仿真环境还会监测是否出现事件空间中的触发事件，若出现，则说明模拟的车缝产线出现失衡。若未出现，则说明模拟的车缝产线处于平衡状态。在车缝产线出现失衡时，若在第一模型训练阶段，需要基于人工经验进行动作决策，以从动作空间中选择符合调整要求的动作数据；若在第二模型训练阶段，则基于初始网络模型进行动作决策，以从动作空间中选择符合调整要求的动作数据。

进一步可选的，在第一模型训练阶段，基于人工经验与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集时，可以基于人工经验与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集。

进一步可选的，基于人工经验与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，包括：若发生事件空间中的触发事件，基于人工经验从动作空间中选择第一动作数据并输入仿真环境，仿真环境在监测到第一动作数据输入时，模拟第一动作数据对相应产线实体状态的影响以产生下一产线数据，并将第一动作数据和触发事件发生时对应的第一产线数据作为一个训练样本添加至第一训练样本集中。

进一步可选的，在第二模型训练阶段，基于初始网络模型与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集时，可以基于初始网络模型与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集。

在本申请实施例中，第二模型训练阶段可以是基于强化学习的模型训练阶段。值得注意的是，第二动作数据对应的奖励函数值是对基于第二状态空间进行决策出来的第二动作数据的评价数据。第二动作数据对应的奖励函数值可以由人工自主定义，第二动作数据对应的奖励函数值也可以由产线平衡决策模型中的回报函数（Reward Function）或者值函数（Value Function）进行确定。或者，产线平衡决策模型设置了价值评估网络，可以基于第二动作数据进行动作决策结果的评价，并输出第二动作数据对应的奖励函数值。在训练价值评估网络时，可以准备大量的动作数据及其奖励函数值作为训练数据，基于训练数据进行模型训练得到价值评估网络。

进一步可选的，基于初始网络模型与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，包括：若发生事件空间中的触发事件，控制初始网络模型从动作空间中选择第二动作数据并输入仿真环境，仿真环境在监测到第二动作数据输入时，模拟第二动作数据对相应产线实体状态的影响以产生下一产线数据，将第二动作数据及其对应的奖励函数值、第二产线数据和下一产线数据作为一个训练样本添加至第二训练样本集中，第二产线数据是触发事件发生时的产线数据。

值得注意的是，在得到第二训练样本集之后，利用第二训练样本集对初始网络模型继续进行模型训练以得到产线平衡决策模型。该产线平衡决策模型的输入为状态空间中的产线数据，输出为符合调整要求的动作对应的动作数据，或者动作空间上各个动作对应的动作数据的概率分布。

本申请实施例提供的用于服装车缝产线平衡决策模型的生成方法，预先维护至少一种仿真框架，以及预先将用于产线平衡决策模型的模型训练过程进行脚本化，并维护得到的训练脚本，这样，在用户存在模型生成需求时，基于车缝产线端提供的实际产线数据与适配的仿真框架能够高效快速地构建更加逼真的车缝产线的仿真环境，仿真环境结合训练脚本以一种仿真环境、模仿学习与强化学习三者有机融合的方式进行模型训练，能够快速、高效地得到识别准确率更高的车缝产线的产线平衡决策模型。当这样的产线平衡决策模型对车缝产线进行生产平衡时，能够更加全面、更加客观、更及时地感知、分析和判断车缝产线的运行情况，并进行实时的、必要的产线调整，从而减少车缝产线的效率损失，提供车缝产线整体的生产效率。

本申请实施例还提供一种用于服装车缝产线平衡决策模型的生成方法。图4为本申请一示例性实施例提供的另一种用于服装车缝产线平衡决策模型的生成方法的流程示意图。参见图4，该方法可以包括以下步骤：

401、根据车缝产线的实际产线数据，构建车缝产线的仿真环境，并利用仿真环境模拟车缝产线上产线实体在正常生产过程中的状态变化，模拟过程至少包括第一阶段和第二阶段。

402、在第一阶段，基于人工经验与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，基于第一训练样本集进行模型训练，得到以产线数据为输入以动作数据为输出的初始网络模型。

403、在第二阶段，基于初始网络模型与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，基于第二训练样本集对初始网络模型进行强化训练，得到目标网络模型。

进一步可选的，实际产线数据包括车缝产线上存在的产线实体、产线实体的属性和产线实体之间的关联关系，则根据车缝产线的实际产线数据，构建车缝产线的仿真环境，包括：根据实际产线数据，构建仿真环境对应的状态空间、动作空间和事件空间，以得到仿真环境；其中，状态空间用于存储仿真过程中车缝产线上动态变化的产线实体、产线实体的属性以及产线实体的关联关系，动作空间用于存储车缝产线进行产线平衡决策所需的各种动作数据，事件空间包括车缝产线进行产线平衡决策所需的各种触发事件。

进一步可选的，基于人工经验与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，包括：若发生事件空间中的触发事件，基于人工经验从动作空间中选择第一动作数据并输入仿真环境，仿真环境在监测到第一动作数据输入时，模拟第一动作数据对相应产线实体状态的影响以产生下一产线数据，并将第一动作数据和触发事件发生时对应的第一产线数据作为一个训练样本添加至第一训练样本集中；

相应地，基于初始网络模型与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，包括：若发生事件空间中的触发事件，控制初始网络模型从动作空间中选择第二动作数据并输入仿真环境，仿真环境在监测到第二动作数据输入时，模拟第二动作数据对相应产线实体状态的影响以产生下一产线数据，将第二动作数据及其对应的奖励函数值、第二产线数据和下一产线数据作为一个训练样本添加至第二训练样本集中，第二产线数据是触发事件发生时的产线数据。

关于用于服装车缝产线平衡决策模型的生成方法的具体实现方式已经在前述实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例提供的用于服装车缝产线平衡决策模型的生成方法，以一种仿真环境、模仿学习与强化学习三者有机融合的方式进行模型训练，能够快速、高效地得到识别准确率更高的车缝产线的产线平衡决策模型。当这样的产线平衡决策模型对车缝产线进行生产平衡时，能够更加全面、更加客观、更及时地感知、分析和判断车缝产线的运行情况，并进行实时的、必要的产线调整，从而减少车缝产线的效率损失，提供车缝产线整体的生产效率。

本申请实施例还提供一种服装车缝产线的平衡方法。图5为本申请一示例性实施例提供的一种服装车缝产线的平衡方法的流程示意图。参见图5，该方法可以包括以下步骤：

501、采集车缝产线在运行过程中产生的实际产线数据，实际产线数据包括车缝产线上实际存在的产线实体、产线实体的属性及产线实体的关联关系。

502、若确定需要针对车缝产线进行产线平衡调整，将实际产线数据输入产线平衡决策模型进行动作决策，得到用于对车缝产线进行平衡调整所需的目标动作数据，目标动作数据包括目标产线实体和目标调整动作信息；

503、根据目标调整动作信息对车缝产线上的目标产线实体执行调整动作，以使车缝产线恢复平衡。

本申请实施例提供的服装车缝产线的平衡方法，通过采集车缝产线运行过程中产生的实际产线数据，并在确定需要针对车缝产线进行平衡调整时，通过产线平衡决策模型基于实际产线数据进行动作决策，并基于产线平衡决策模型进行动作决策得到的目标调整动作信息对车缝产线上的目标产线实体执行调整动作，以使车缝产线恢复平衡。由此，能够自动、及时、准确地识别车缝产线是否需要平衡调整，以及基于产线平衡决策模型的动作决策结果可以更为准确地对车缝产线进行平衡调整，使得车缝产线能够快速、及时地恢复平衡，减少车缝产线的效率损失。

进一步可选的，上述方法还包括：在根据实际产线数据识别到特定事件时或者在设定的平衡调整周期到达时，确定需要针对车缝产线进行平衡调整；特定事件反映车缝产线出现失衡现象。

进一步可选的，上述方法还包括：基于人工经验与仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络；基于初始策略网络与仿真环境的交互进行强化学习，得到目标策略网络，并根据目标策略网络生成产线平衡决策。

进一步可选的，仿真环境包括状态空间、动作空间和事件空间，状态空间包括车缝产线在仿真过程中产生的产线实体及其状态信息，动作空间包括可对车缝产线进行平衡调整的至少一种动作数据，事件空间包括表示需要针对车缝产线进行平衡调整的至少一种触发事件；

相应地，基于人工经验与仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络，包括：利用仿真样本针对当前状态空间进行仿真，以模拟车缝产线的运行过程并产生新的状态空间；若在仿真过程中出现事件空间中的任一触发事件，根据人工经验从动作空间中选择第一动作数据并反馈给仿真环境，以供仿真环境对第一状态空间进行调整后继续进行仿真，第一状态空间是出现任一触发事件时的状态空间；将第一状态空间以及第一动作数据，作为一个训练样本保存至第一训练样本集中，并在仿真结束后，利用第一训练样本集中的训练样本进行模型训练，得到初始策略网络。

进一步可选的，基于初始策略网络与仿真环境的交互进行强化学习，得到目标策略网络，包括：利用仿真样本针对当前状态空间进行仿真，以模拟车缝产线的运行过程并产生新的状态空间；若在仿真过程中出现事件空间中的任一触发事件，调用初始策略网络从动作空间中选择第二动作数据并反馈给仿真环境，以供仿真环境对第二状态空间进行调整后继续进行仿真，第二状态空间是出现任一触发事件时的状态空间；将第二状态空间、第二动作数据、第二动作数据对应的奖励函数值和第二状态空间的下一状态空间，作为一个训练样本保存至第二训练样本集中，并在仿真结束后，利用第二训练样本集中的训练样本对初始策略网络进行模型训练，得到目标策略网络。

关于用于服装车缝产线的平衡方法的具体实现方式已经在有关用于车缝产线的平衡控制系统的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤301至步骤303的执行主体可以为设备A；又比如，步骤301和302的执行主体可以为设备A，步骤303的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如301、302等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例还提供一种用于服装车缝产线平衡决策模型的生成装置。图6为本申请一示例性实施例提供的一种用于服装车缝产线平衡决策模型的生成装置的结构示意图。参见图6，该装置可以包括：

获取模块61，用于响应服务界面上的信息输入操作，获取车缝产线端提供的实际产线数据，实际产线数据至少包括车缝产线上的产线实体、产线实体的属性和产线实体之间的关联关系。

处理模块62，用于从所维护的仿真框架中，选择与实际产线数据适配的目标仿真框架，根据目标仿真框架与实际产线数据，生成车缝产线对应的仿真环境。

处理模块62，还用于运行与实际产线数据适配的目标训练脚本，以基于仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练，得到车缝产线所需的产线平衡决策模型；并将产线平衡决策模型提供给车缝产线端进行产线平衡调整。

进一步可选的，处理模块62从所维护的仿真框架中，选择与实际产线数据适配的目标仿真框架时，具体用于：根据仿真框架适合的产线类型，选择与车缝产线所属产线类型适合的仿真框架作为目标仿真框架；或者，在服务界面上展示可供车缝产线端选择的仿真框架，响应于车缝产线端的第一选择操作，将被选中的仿真框架作为目标仿真框架。

进一步可选的，处理模块62根据目标仿真框架与实际产线数据，生成车缝产线对应的仿真环境时，具体用于：根据实际产线数据，生成车缝产线进行产线平衡决策所需的各种动作数据和各种触发事件；根据实际产线数据初始化目标仿真框架的状态空间，并将车缝产线进行产线平衡决策所需的各种动作数据和各种触发事件分别配置到目标仿真框架的动作空间和事件空间中，以得到车缝产线对应的仿真环境。

进一步可选的，处理模块62运行与实际产线数据适配的目标训练脚本之前，还用于：

在服务界面上展示可供车缝产线端选择的多个训练脚本，响应于车缝产线端的第二选择操作，将被选中的训练脚本作为与车缝产线数据适配的目标训练脚本；其中，不同训练脚本对应的模型训练逻辑不同。

进一步可选的，处理模块62运行与实际产线数据适配的目标训练脚本，以基于仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练，得到车缝产线所需的产线平衡决策模型时，具体用于：

运行与实际产线数据适配的目标训练脚本，以执行下述模型训练操作：

在第一模型训练阶段，基于人工经验与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，基于第一训练样本集进行模型训练，得到以产线数据为输入以动作数据为输出的初始网络模型；

在第二模型训练阶段，基于初始网络模型与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，基于第二训练样本集对初始网络模型进行强化训练，得到产线平衡决策模型。

进一步可选的，处理模块62基于人工经验与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集时，具体用于：若发生事件空间中的触发事件，基于人工经验从动作空间中选择第一动作数据并输入仿真环境，仿真环境在监测到第一动作数据输入时，模拟第一动作数据对相应产线实体状态的影响以产生下一产线数据，并将第一动作数据和触发事件发生时对应的第一产线数据作为一个训练样本添加至第一训练样本集中；

相应地，基于初始网络模型与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，包括：若发生事件空间中的触发事件，控制初始网络模型从动作空间中选择第二动作数据并输入仿真环境，仿真环境在监测到第二动作数据输入时，模拟第二动作数据对相应产线实体状态的影响以产生下一产线数据，将第二动作数据及其对应的奖励函数值、第二产线数据和下一产线数据作为一个训练样本添加至第二训练样本集中，第二产线数据是触发事件发生时的产线数据。

图6所示的用于服装车缝产线平衡决策模型的生成装置可以执行图3所示实施例的用于服装车缝产线平衡决策模型的生成方法，其实现原理和技术效果不再赘述。对于上述实施例中的用于服装车缝产线的平衡装置其中各个模块、单元执行操作的具体方式已经前述实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供一种用于服装车缝产线平衡决策模型的生成装置。图7为本申请一示例性实施例提供的另一种用于服装车缝产线平衡决策模型的生成装置的结构示意图。参见图7，该装置可以包括：

构建模块71，用于根据车缝产线的实际产线数据，构建车缝产线的仿真环境。

处理模块72，用于利用仿真环境模拟车缝产线上产线实体在正常生产过程中的状态变化，模拟过程至少包括第一阶段和第二阶段；在第一阶段，基于人工经验与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，基于第一训练样本集进行模型训练，得到以产线数据为输入以动作数据为输出的初始网络模型；在第二阶段，基于初始网络模型与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，基于第二训练样本集对初始网络模型进行强化训练，得到目标网络模型。

进一步可选的，实际产线数据包括车缝产线上存在的产线实体、产线实体的属性和产线实体之间的关联关系，则构建模块71根据车缝产线的实际产线数据，构建车缝产线的仿真环境时，具体用于：根据实际产线数据，构建仿真环境对应的状态空间、动作空间和事件空间，以得到仿真环境；其中，状态空间用于存储仿真过程中车缝产线上动态变化的产线实体、产线实体的属性以及产线实体的关联关系，动作空间用于存储车缝产线进行产线平衡决策所需的各种动作数据，事件空间包括车缝产线进行产线平衡决策所需的各种触发事件。

进一步可选的，处理模块72基于人工经验与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集时，具体用于：若发生事件空间中的触发事件，基于人工经验从动作空间中选择第一动作数据并输入仿真环境，仿真环境在监测到第一动作数据输入时，模拟第一动作数据对相应产线实体状态的影响以产生下一产线数据，并将第一动作数据和触发事件发生时对应的第一产线数据作为一个训练样本添加至第一训练样本集中；

相应地，处理模块72基于初始网络模型与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集时，具体用于：若发生事件空间中的触发事件，控制初始网络模型从动作空间中选择第二动作数据并输入仿真环境，仿真环境在监测到第二动作数据输入时，模拟第二动作数据对相应产线实体状态的影响以产生下一产线数据，将第二动作数据及其对应的奖励函数值、第二产线数据和下一产线数据作为一个训练样本添加至第二训练样本集中，第二产线数据是触发事件发生时的产线数据。

图7所示的用于服装车缝产线平衡决策模型的生成装置可以执行图4所示实施例的用于服装车缝产线平衡决策模型的生成方法，其实现原理和技术效果不再赘述。对于上述实施例中的用于服装车缝产线平衡决策模型的生成装置其中各个模块、单元执行操作的具体方式已经前述实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供一种用于服装车缝产线的平衡装置。图8为本申请一示例性实施例提供的一种用于服装车缝产线的平衡装置的结构示意图。参见图8，该装置可以包括：

采集模块81，用于采集车缝产线在运行过程中产生的实际产线数据，实际产线数据包括车缝产线上实际存在的产线实体、产线实体的属性及产线实体的关联关系。动作决策模块82，用于若确定需要针对车缝产线进行产线平衡调整，将实际产线数据输入产线平衡决策模型进行动作决策，得到用于对车缝产线进行平衡调整所需的目标动作数据，目标动作数据包括目标产线实体和目标调整动作信息。调整模块83，用于根据目标调整动作信息对车缝产线上的目标产线实体执行调整动作，以使车缝产线恢复平衡。

进一步可选的，本实施例的平衡装置还包括：处理模块，用于在根据实际产线数据识别到特定事件时或者在设定的平衡调整周期到达时，确定需要针对车缝产线进行平衡调整；特定事件反映车缝产线出现失衡现象。

进一步可选的，处理模块还用于：基于人工经验与仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络；基于初始策略网络与仿真环境的交互进行强化学习，得到目标策略网络，并根据目标策略网络生成产线平衡决策。

进一步可选的，仿真环境包括状态空间、动作空间和事件空间，状态空间包括车缝产线在仿真过程中产生的产线实体及其状态信息，动作空间包括可对车缝产线进行平衡调整的至少一种动作数据，事件空间包括表示需要针对车缝产线进行平衡调整的至少一种触发事件。相应地，处理模块基于人工经验与仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络时，具体用于：利用仿真样本针对当前状态空间进行仿真，以模拟车缝产线的运行过程并产生新的状态空间；若在仿真过程中出现事件空间中的任一触发事件，根据人工经验从动作空间中选择第一动作数据并反馈给仿真环境，以供仿真环境对第一状态空间进行调整后继续进行仿真，第一状态空间是出现任一触发事件时的状态空间；将第一状态空间以及第一动作数据，作为一个训练样本保存至第一训练样本集中，并在仿真结束后，利用第一训练样本集中的训练样本进行模型训练，得到初始策略网络。

进一步可选的，处理模块基于初始策略网络与仿真环境的交互进行强化学习，得到目标策略网络时，具体用于：利用仿真样本针对当前状态空间进行仿真，以模拟车缝产线的运行过程并产生新的状态空间；若在仿真过程中出现事件空间中的任一触发事件，调用初始策略网络从动作空间中选择第二动作数据并反馈给仿真环境，以供仿真环境对第二状态空间进行调整后继续进行仿真，第二状态空间是出现任一触发事件时的状态空间；将第二状态空间、第二动作数据、第二动作数据对应的奖励函数值和第二状态空间的下一状态空间，作为一个训练样本保存至第二训练样本集中，并在仿真结束后，利用第二训练样本集中的训练样本对初始策略网络进行模型训练，得到目标策略网络。

图8所示的用于服装车缝产线的平衡装置可以执行图5所示实施例的用于服装车缝产线的平衡方法，其实现原理和技术效果不再赘述。对于上述实施例中的用于服装车缝产线的平衡装置其中各个模块、单元执行操作的具体方式已经前述实施例中进行了详细描述，此处将不做详细阐述说明。

图9为本申请一示例性实施例提供的一种管控设备的结构示意图。如图9所示，该管控设备可以包括：存储器91和处理器92。

存储器91，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器91可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器92，与存储器91耦合，用于执行存储器91中的计算机程序，以用于：响应服务界面上的信息输入操作，获取车缝产线端提供的实际产线数据，实际产线数据至少包括车缝产线上的产线实体、产线实体的属性和产线实体之间的关联关系；从所维护的仿真框架中，选择与实际产线数据适配的目标仿真框架，根据目标仿真框架与实际产线数据，生成车缝产线对应的仿真环境；运行与实际产线数据适配的目标训练脚本，以基于仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练，得到车缝产线所需的产线平衡决策模型；并将产线平衡决策模型提供给车缝产线端进行产线平衡调整。

进一步可选的，处理器92从所维护的仿真框架中，选择与实际产线数据适配的目标仿真框架时，具体用于：根据仿真框架适合的产线类型，选择与车缝产线所属产线类型适合的仿真框架作为目标仿真框架；或者在服务界面上展示可供车缝产线端选择的仿真框架，响应于车缝产线端的第一选择操作，将被选中的仿真框架作为目标仿真框架。

进一步可选的，处理器92根据目标仿真框架与实际产线数据，生成车缝产线对应的仿真环境时，具体用于：根据实际产线数据，生成车缝产线进行产线平衡决策所需的各种动作数据和各种触发事件；根据实际产线数据初始化目标仿真框架的状态空间，并将车缝产线进行产线平衡决策所需的各种动作数据和各种触发事件分别配置到目标仿真框架的动作空间和事件空间中，以得到车缝产线对应的仿真环境。

进一步可选的，处理器92运行与实际产线数据适配的目标训练脚本之前，还用于：在服务界面上展示可供车缝产线端选择的多个训练脚本，响应于车缝产线端的第二选择操作，将被选中的训练脚本作为与车缝产线数据适配的目标训练脚本；其中，不同训练脚本对应的模型训练逻辑不同。

进一步可选的，处理器92运行与实际产线数据适配的目标训练脚本，以基于仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练，得到车缝产线所需的产线平衡决策模型时，具体用于：运行与实际产线数据适配的目标训练脚本，以执行下述模型训练操作：在第一模型训练阶段，基于人工经验与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，基于第一训练样本集进行模型训练，得到以产线数据为输入以动作数据为输出的初始网络模型；在第二模型训练阶段，基于初始网络模型与仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，基于第二训练样本集对初始网络模型进行强化训练，得到产线平衡决策模型。

进一步，如图9所示，该管控设备还包括：通信组件93、显示器94、电源组件95、音频组件96等其它组件。图9中仅示意性给出部分组件，并不意味着管控设备只包括图9所示组件。另外，图9中虚线框内的组件为可选组件，而非必选组件，具体可视管控设备的产品形态而定。本实施例的管控设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的管控设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图9中虚线框内的组件；若本实施例的管控设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图9中虚线框内的组件。在图9中，以管控设备实现为一台物理机为例进行图示。

本申请实施例还提供一种管控设备，该管控设备的结构与图9所示的结构相同，但是处理逻辑不同。该管控设备可以包括：存储器和处理器。处理器，与存储器耦合，用于执行存储器中的计算机程序，以用于：根据车缝产线的实际产线数据，构建车缝产线的仿真环境，并利用仿真环境模拟车缝产线上产线实体在正常生产过程中的状态变化，模拟过程至少包括第一阶段和第二阶段；在第一阶段，基于人工经验与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，基于第一训练样本集进行模型训练，得到以产线数据为输入以动作数据为输出的初始网络模型；在第二阶段，基于初始网络模型与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，基于第二训练样本集对初始网络模型进行强化训练，得到目标网络模型。

进一步可选的，实际产线数据包括车缝产线上存在的产线实体、产线实体的属性和产线实体之间的关联关系，则处理器根据车缝产线的实际产线数据，构建车缝产线的仿真环境时，具体用于：根据实际产线数据，构建仿真环境对应的状态空间、动作空间和事件空间，以得到仿真环境；其中，状态空间用于存储仿真过程中车缝产线上动态变化的产线实体、产线实体的属性以及产线实体的关联关系，动作空间用于存储车缝产线进行产线平衡决策所需的各种动作数据，事件空间包括车缝产线进行产线平衡决策所需的各种触发事件。

进一步可选的，处理器基于人工经验与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集时，具体用于：若发生事件空间中的触发事件，基于人工经验从动作空间中选择第一动作数据并输入仿真环境，仿真环境在监测到第一动作数据输入时，模拟第一动作数据对相应产线实体状态的影响以产生下一产线数据，并将第一动作数据和触发事件发生时对应的第一产线数据作为一个训练样本添加至第一训练样本集中。

相应地，进一步可选的，处理器基于初始网络模型与仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集时，具体用于：若发生事件空间中的触发事件，控制初始网络模型从动作空间中选择第二动作数据并输入仿真环境，仿真环境在监测到第二动作数据输入时，模拟第二动作数据对相应产线实体状态的影响以产生下一产线数据，将第二动作数据及其对应的奖励函数值、第二产线数据和下一产线数据作为一个训练样本添加至第二训练样本集中，第二产线数据是触发事件发生时的产线数据。

本申请实施例还提供一种管控设备，该管控设备的结构与图9所示的结构相同，但是处理逻辑不同。该管控设备可以包括：存储器和处理器。处理器，与存储器耦合，用于执行存储器中的计算机程序，以用于：采集车缝产线在运行过程中产生的实际产线数据，实际产线数据包括车缝产线上实际存在的产线实体、产线实体的属性及产线实体的关联关系；若确定需要针对车缝产线进行产线平衡调整，将实际产线数据输入产线平衡决策模型进行动作决策，得到用于对车缝产线进行平衡调整所需的目标动作数据，目标动作数据包括目标产线实体和目标调整动作信息；根据目标调整动作信息对车缝产线上的目标产线实体执行调整动作，以使车缝产线恢复平衡。

进一步可选的，处理器还用于：在根据实际产线数据识别到特定事件时或者在设定的平衡调整周期到达时，确定需要针对车缝产线进行平衡调整；特定事件反映车缝产线出现失衡现象。

进一步可选的，处理器还用于：基于人工经验与仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络；基于初始策略网络与仿真环境的交互进行强化学习，得到目标策略网络，并根据目标策略网络生成产线平衡决策。

相应地，处理器基于人工经验与仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络时，具体用于：利用仿真样本针对当前状态空间进行仿真，以模拟车缝产线的运行过程并产生新的状态空间；若在仿真过程中出现事件空间中的任一触发事件，根据人工经验从动作空间中选择第一动作数据并反馈给仿真环境，以供仿真环境对第一状态空间进行调整后继续进行仿真，第一状态空间是出现任一触发事件时的状态空间；将第一状态空间以及第一动作数据，作为一个训练样本保存至第一训练样本集中，并在仿真结束后，利用第一训练样本集中的训练样本进行模型训练，得到初始策略网络。

进一步可选的，处理器基于初始策略网络与仿真环境的交互进行强化学习，得到目标策略网络时，具体用于：利用仿真样本针对当前状态空间进行仿真，以模拟车缝产线的运行过程并产生新的状态空间；若在仿真过程中出现事件空间中的任一触发事件，调用初始策略网络从动作空间中选择第二动作数据并反馈给仿真环境，以供仿真环境对第二状态空间进行调整后继续进行仿真，第二状态空间是出现任一触发事件时的状态空间；将第二状态空间、第二动作数据、第二动作数据对应的奖励函数值和第二状态空间的下一状态空间，作为一个训练样本保存至第二训练样本集中，并在仿真结束后，利用第二训练样本集中的训练样本对初始策略网络进行模型训练，得到目标策略网络。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时，致使处理器能够实现上述方法实施例中的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现上述方法实施例中的各步骤。

上述图9中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、9G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述图9中的显示器包括屏幕，其屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述图9中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图9中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于服装车缝产线平衡决策模型的生成方法，其特征在于，包括：

响应服务界面上的信息输入操作，获取车缝产线端提供的实际产线数据，所述实际产线数据至少包括车缝产线上的产线实体、产线实体的属性和产线实体之间的关联关系；

从所维护的仿真框架中，选择与所述实际产线数据适配的目标仿真框架，根据所述目标仿真框架与所述实际产线数据，生成所述车缝产线对应的仿真环境；

运行与所述实际产线数据适配的目标训练脚本，以基于所述仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练，得到所述车缝产线所需的产线平衡决策模型；并将所述产线平衡决策模型提供给所述车缝产线端进行产线平衡调整。

2.根据权利要求1所述的方法，其特征在于，从所维护的仿真框架中，选择与所述实际产线数据适配的目标仿真框架，包括：

根据仿真框架适合的产线类型，选择与所述车缝产线所属产线类型适合的仿真框架作为所述目标仿真框架；

或者

在所述服务界面上展示可供车缝产线端选择的仿真框架，响应于所述车缝产线端的第一选择操作，将被选中的仿真框架作为所述目标仿真框架。

3.根据权利要求1所述的方法，其特征在于，根据所述目标仿真框架与所述实际产线数据，生成所述车缝产线对应的仿真环境，包括：

根据所述实际产线数据，生成所述车缝产线进行产线平衡决策所需的各种动作数据和各种触发事件；

根据所述实际产线数据初始化所述目标仿真框架的状态空间，并将所述车缝产线进行产线平衡决策所需的各种动作数据和各种触发事件分别配置到所述目标仿真框架的动作空间和事件空间中，以得到所述车缝产线对应的仿真环境。

4.根据权利要求1所述的方法，其特征在于，运行与所述实际产线数据适配的目标训练脚本之前，还包括：

在所述服务界面上展示可供车缝产线端选择的多个训练脚本，响应于所述车缝产线端的第二选择操作，将被选中的训练脚本作为与所述车缝产线数据适配的目标训练脚本；其中，不同训练脚本对应的模型训练逻辑不同。

5.根据权利要求1-4任一项所述的方法，其特征在于，运行与所述实际产线数据适配的目标训练脚本，以基于所述仿真环境采用模仿学习和强化学习结合的方式进行两阶段的模型训练，得到所述车缝产线所需的产线平衡决策模型，包括：

运行与所述实际产线数据适配的目标训练脚本，以执行下述模型训练操作：

在第一模型训练阶段，基于人工经验与所述仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，基于第一训练样本集进行模型训练，得到以产线数据为输入以动作数据为输出的初始网络模型；

在第二模型训练阶段，基于所述初始网络模型与所述仿真环境交互以对产线平衡决策过程进行模拟，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，基于所述第二训练样本集对所述初始网络模型进行强化训练，得到产线平衡决策模型。

6.一种用于服装车缝产线平衡决策模型的生成方法，其特征在于，包括：

根据车缝产线的实际产线数据，构建车缝产线的仿真环境，并利用所述仿真环境模拟所述车缝产线上产线实体在正常生产过程中的状态变化，模拟过程至少包括第一阶段和第二阶段；

在所述第一阶段，基于人工经验与所述仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，基于第一训练样本集进行模型训练，得到以产线数据为输入以动作数据为输出的初始网络模型；

在所述第二阶段，基于所述初始网络模型与所述仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，基于所述第二训练样本集对所述初始网络模型进行强化训练，得到目标网络模型。

7.根据权利要求6所述的方法，其特征在于，所述实际产线数据包括车缝产线上存在的产线实体、产线实体的属性和产线实体之间的关联关系，则根据车缝产线的实际产线数据，构建车缝产线的仿真环境，包括：

根据所述实际产线数据，构建所述仿真环境对应的状态空间、动作空间和事件空间，以得到所述仿真环境；

其中，所述状态空间用于存储仿真过程中所述车缝产线上动态变化的产线实体、产线实体的属性以及产线实体的关联关系，所述动作空间用于存储所述车缝产线进行产线平衡决策所需的各种动作数据，所述事件空间包括所述车缝产线进行产线平衡决策所需的各种触发事件。

8.根据权利要求7所述的方法，其特征在于，基于人工经验与所述仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第一动作数据及其对应的第一产线数据形成的第一训练样本集，包括：

若发生所述事件空间中的触发事件，基于人工经验从所述动作空间中选择第一动作数据并输入所述仿真环境，所述仿真环境在监测到所述第一动作数据输入时，模拟所述第一动作数据对相应产线实体状态的影响以产生下一产线数据，并将所述第一动作数据和触发事件发生时对应的第一产线数据作为一个训练样本添加至所述第一训练样本集中；

相应地，基于所述初始网络模型与所述仿真环境交互以模拟正常生产过程中的外部输入，得到由多个第二动作数据及其对应的第二产线数据、奖励函数值和下一产线数据形成的第二训练样本集，包括：

若发生所述事件空间中的触发事件，控制所述初始网络模型从所述动作空间中选择第二动作数据并输入所述仿真环境，所述仿真环境在监测到所述第二动作数据输入时，模拟所述第二动作数据对相应产线实体状态的影响以产生下一产线数据，将所述第二动作数据及其对应的奖励函数值、第二产线数据和下一产线数据作为一个训练样本添加至所述第二训练样本集中，所述第二产线数据是触发事件发生时的产线数据。

9.一种用于服装车缝产线的平衡方法，其特征在于，包括：

采集车缝产线在运行过程中产生的实际产线数据，所述实际产线数据包括所述车缝产线上实际存在的产线实体、产线实体的属性及产线实体的关联关系；

若确定需要针对所述车缝产线进行产线平衡调整，将所述实际产线数据输入产线平衡决策模型进行动作决策，得到用于对所述车缝产线进行平衡调整所需的目标动作数据，所述目标动作数据包括目标产线实体和目标调整动作信息；

根据所述目标调整动作信息对所述车缝产线上的目标产线实体执行调整动作，以使所述车缝产线恢复平衡。

10.根据权利要求9所述的方法，其特征在于，还包括：

在根据所述实际产线数据识别到特定事件时或者在设定的平衡调整周期到达时，确定需要针对所述车缝产线进行平衡调整；所述特定事件反映所述车缝产线出现失衡现象。

11.根据权利要求9或10所述的方法，其特征在于，还包括：

基于人工经验与仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络；

基于所述初始策略网络与所述仿真环境的交互进行强化学习，得到目标策略网络，并根据所述目标策略网络生成所述产线平衡决策。

12.根据权利要求11所述的方法，其特征在于，所述仿真环境包括状态空间、动作空间和事件空间，所述状态空间包括所述车缝产线在仿真过程中产生的产线实体及其状态信息，所述动作空间包括可对所述车缝产线进行平衡调整的至少一种动作数据，所述事件空间包括表示需要针对所述车缝产线进行平衡调整的至少一种触发事件；

相应地，基于人工经验与所述仿真环境的交互进行模仿学习，得到以产线数据为输入且以用于产线平衡调整的动作数据为输出的初始策略网络，包括：

利用仿真样本针对当前状态空间进行仿真，以模拟所述车缝产线的运行过程并产生新的状态空间；

若在仿真过程中出现所述事件空间中的任一触发事件，根据人工经验从所述动作空间中选择第一动作数据并反馈给所述仿真环境，以供所述仿真环境对第一状态空间进行调整后继续进行仿真，所述第一状态空间是出现任一触发事件时的状态空间；

将所述第一状态空间以及第一动作数据，作为一个训练样本保存至第一训练样本集中，并在仿真结束后，利用所述第一训练样本集中的训练样本进行模型训练，得到初始策略网络。

13.根据权利要求12所述的方法，其特征在于，基于所述初始策略网络与所述仿真环境的交互进行强化学习，得到目标策略网络，包括：

若在仿真过程中出现所述事件空间中的任一触发事件，调用所述初始策略网络从所述动作空间中选择第二动作数据并反馈给所述仿真环境，以供所述仿真环境对第二状态空间进行调整后继续进行仿真，所述第二状态空间是出现任一触发事件时的状态空间；

将所述第二状态空间、第二动作数据、第二动作数据对应的奖励函数值和所述第二状态空间的下一状态空间，作为一个训练样本保存至第二训练样本集中，并在仿真结束后，利用所述第二训练样本集中的训练样本对所述初始策略网络进行模型训练，得到目标策略网络。

14.一种管控设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-13任一项所述方法中的步骤。

15.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-13任一项所述方法中的步骤。