CN116227571A

CN116227571A - 模型的训练、动作确定方法、装置、电子设备及存储介质

Info

Publication number: CN116227571A
Application number: CN202310218892.1A
Authority: CN
Inventors: 蒋冠莹; 林达生
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-06
Anticipated expiration: 2043-03-01
Also published as: CN116227571B

Abstract

本公开提供了一种模型的训练、动作确定方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及机器学习、智能制造、流程型工业和物联网技术领域。具体实现方案为：利用工况轨迹集训练模仿学习模型，直至满足预定结束条件；根据训练完成的模仿学习模型，得到工业节能模型；工况轨迹集包括专家工况轨迹集和智能体工况轨迹集，专家工况轨迹集是专家利用专家策略与流程型工业环境进行交互且满足预定节能条件得到的工况轨迹集，专家工况轨迹集包括至少一个专家工况轨迹；智能体工况轨迹集是智能体利用智能体策略与流程型工业环境进行交互得到的工况轨迹集，智能体工况轨迹集包括至少一个智能体工况轨迹。

Description

模型的训练、动作确定方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及机器学习、智能制造、流程型工业和物联网技术领域。具体地，涉及一种模型的训练、动作确定方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，人工智能技术也得到了发展。例如，可以将人工智能技术应用于智能制造领域。例如，智能制造领域可以包括流程型工业。

发明内容

本公开提供了一种模型的训练、动作确定方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种工业节能模型的训练方法，包括：利用工况轨迹集训练模仿学习模型，直至满足预定结束条件；以及，根据训练完成的模仿学习模型，得到工业节能模型；上述工况轨迹集包括专家工况轨迹集和智能体工况轨迹集。上述专家工况轨迹集是专家利用专家策略与上述流程型工业环境进行交互且满足预定节能条件得到的工况轨迹集，上述专家工况轨迹集包括至少一个专家工况轨迹，上述专家工况轨迹表征上述专家的动作状态序列。上述智能体工况轨迹集是智能体利用智能体策略与流程型工业环境进行交互得到的工况轨迹集，上述智能体工况轨迹集包括至少一个智能体工况轨迹，上述智能体工况轨迹表征上述智能体的动作状态序列。

根据本公开的另一方面，提供了一种动作确定方法，包括：将目标智能体状态输入工业节能模型，得到目标动作；上述工业节能模型是利用根据工业节能模型的训练方法训练得到的。

根据本公开的另一方面，提供了一种工业节能模型的训练装置，包括：训练模块，用于利用工况轨迹集训练模仿学习模型，直至满足预定结束条件；以及，第一获得模块，用于根据训练完成的模仿学习模型，得到工业节能模型；上述工况轨迹集包括专家工况轨迹集和智能体工况轨迹集。上述专家工况轨迹集是专家利用专家策略与上述流程型工业环境进行交互且满足预定节能条件得到的工况轨迹集，上述专家工况轨迹集包括至少一个专家工况轨迹，上述专家工况轨迹表征上述专家的动作状态序列。上述智能体工况轨迹集是智能体利用智能体策略与流程型工业环境进行交互得到的工况轨迹集，上述智能体工况轨迹集包括至少一个智能体工况轨迹，上述智能体工况轨迹表征上述智能体的动作状态序列。

根据本公开的另一方面，提供了一种动作确定装置，包括：第二获得模块，用于将目标智能体状态输入工业节能模型，得到目标动作；上述工业节能模型是利用工业节能模型的训练装置训练得到的。

根据本公开的另一方面，提供了一种电子设备，包括：多个处理器；以及与上述多个处理器通信连接的存储器；其中，上述存储器存储有可被上述多个处理器执行的指令，上述指令被上述多个处理器执行，以使上述多个处理器能够执行本公开上述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行本公开上述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现本公开上述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用工业节能模型的训练方法、动作确定方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的工业节能模型的训练方法的流程图；

图3A示意性示出了根据本公开实施例的工业节能模型的训练过程的示例示意图；

图3B示意性示出了根据本公开另一实施例的工业节能模型的训练过程的示例示意图；

图3C示意性示出了根据本公开另一实施例的工业节能模型的训练过程的示例示意图；

图3D示意性示出了根据本公开实施例的得到第f_m轮的判别器过程的示例示意图；

图3E示意性示出了根据本公开实施例的得到第f_n轮的第一策略网络过程的示例示意图；

图4示意性示出了根据本公开实施例的得到第f_n轮的第一策略网络过程的示例示意图；

图5示意性示出了根据本公开另一实施例的得到第f_n轮的第一策略网络过程的示例示意图；

图6示意性示出了根据本公开另一实施例的得到第f_n轮的第一策略网络过程的示例示意图；

图7示意性示出了根据本公开另一实施例的得到第f_n轮的第一策略网络过程的示例示意图；

图8示意性示出了根据本公开另一实施例的得到第f_n轮的第一策略网络过程的示例示意图；

图9示意性示出了根据本公开实施例的动作确定方法的流程图；

图10示意性示出了根据本公开实施例的工业节能模型的训练装置的框图；

图11示意性示出了根据本公开实施例的动作确定装置的框图；以及

图12示意性示出了根据本公开实施例的适于实现工业节能模型的训练方法和动作确定方法方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了便于理解，下面首先对本公开实施例涉及的部分概念进行说明。

流程型工业可以指工艺流程是连续进行而不中断的工业。流程型工业具有设备大型化、自动化程度较高、生产周期较长、过程连续和批处理等中的至少之一的特点。

智能体(即Agent)可以指能够与环境(即Environment)进行交互的动作实体。智能体可以包括实体智能体和虚拟智能体中的至少之一。例如，实体智能体可以包括实体设备。虚拟智能体可以包括应用程序产品。环境可以指智能体所处的客观世界，与智能体进行交互的另一智能体。客观可以指世界存在稳定的规律。状态(即State)可以指对环境和智能体的描述。动作(即Action)可以指智能体的行动。策略(即Policy)可以指智能体根据对环境的观测来确定动作的方式。策略可以指状态到动作之间的映射，描述了智能体在环境中如何进行决策。轨迹(即Trajectory)可以指动作状态序列。动作状态序列可以包括至少一个动作状态对。状态价值函数(即Value Function)可以指状态的期望回报(即ExpectedReturn)。动作价值函数(即Action-Value Function)可以指基于状态和动作的期望回报(即Expected Return)。

在强化学习中，针对目标轨迹，智能体可以在当前状态下，基于当前策略确定下一时刻的动作。环境可以基于奖励函数(即Reward Function)，根据当前状态和智能体确定的下一时刻的动作，确定立即奖励值(即Immediate Reward)。当前状态可以指当前时刻的状态。环境可以根据回报函数(即Return Function)和立即奖励值，确定累计折扣奖励值。环境向智能体反馈累计折扣奖励值，智能体可以根据累计折扣奖励值调整当前策略，重复上述操作，直至与目标轨迹对应的累计折扣奖励值的期望最大，得到最优策略。当前策略可以指当前时刻的策略。立即奖励值还可以称为立即奖励函数值。当前时刻可以指初始时刻。目标轨迹可以指从初始时刻到结束时刻形成的轨迹。

随着数字化底座和人工智能技术的渗透，能源开源节流的数智化“节流”工作开始初显效果。在流程型工业中，可以利用人工智能技术来确定目标智能体策略。目标智能体策略可以是在保证满足预定节能条件的情况下的策略。

为此，本公开实施例提出了一种工业节能模型的训练方案。例如，利用工况轨迹集训练模仿学习模型，直至满足预定结束条件。根据训练完成的模仿学习模型，得到工业节能模型。工况轨迹集包括专家工况轨迹集和智能体工况轨迹集。专家工况轨迹集是专家利用专家策略与流程型工业环境进行交互且满足预定节能条件得到的工况轨迹集。专家工况轨迹集包括至少一个专家工况轨迹。专家工况轨迹表征专家的动作状态序列。智能体工况轨迹集是智能体利用智能体策略与流程型工业环境进行交互得到的工况轨迹集。智能体工况轨迹集包括至少一个智能体工况轨迹。智能体工况轨迹表征智能体的动作状态序列。

根据本公开的实施例，由于工况轨迹集中的专家工况轨迹集是专家利用专家策略与流程型工业环境进行交互且满足预定节能条件得到的工况轨迹集，工况轨迹集中的智能体工况轨迹集是智能体利用智能体策略与流程型工业环境进行交互得到的工况轨迹集，在利用工况轨迹集训练模仿学习模型得到工业节能模型的过程中，智能体可以利用专家工况轨迹来进行智能体策略优化而不需要人为定义奖励函数，因此，能够提高模型的预测精度和缩短训练耗时。

图1示意性示出了根据本公开实施例的可以应用工业节能模型的训练方法、动作确定方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用工业节能模型的训练方法、动作确定方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的工业节能模型的训练方法、动作确定方法及装置。

如图1所示，根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型。例如，有线和无线通信链路等中的至少之一。终端设备可以包括第一终端设备101、第二终端设备102和第三终端设备103中的至少之一。

用户可以使用第一终端设备101、第二终端设备102和第三终端设备103中的至少之一通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102和第三终端设备103中的至少之一可以安装有各种通讯客户端应用。例如，知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和社交平台软件等中的至少之一。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备。例如，电子设备可以包括智能手机、平板电脑、膝上型便携计算机和台式计算机等中的至少之一。

需要说明的是，本公开实施例所提供的工业节能模型的训练方法一般也可以由服务器105执行。相应地，本公开实施例所提供的工业节能模型的训练装置一般可以设置于服务器105中。本公开实施例所提供的工业节能模型的训练方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和服务器105中的至少之一通信的服务器或服务器集群执行。相应地，本公开实施例所提供的工业节能模型的训练装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和服务器105中的至少之一通信的服务器或服务器集群中。

备选地，本公开实施例所提供的工业节能模型的训练方法一般可以由第一终端设备101、第二终端设备102和第三终端设备103中的之一执行。相应地，本公开实施例所提供的工业节能模型的训练装置也可以设置于第一终端设备101、第二终端设备102和第三终端设备103中的之一。

服务器105可以是提供各种服务的服务器。例如，服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(Virtual Private Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。

需要说明的是，本公开实施例所提供的动作确定方法一般可以由第一终端设备101、第二终端设备102和第三终端设备103中的之一执行。相应地，本公开实施例所提供的动作确定装置也可以设置于第一终端设备101、第二终端设备102和第三终端设备103中的之一。

备选地，本公开实施例所提供的动作确定方法一般也可以由服务器105执行。相应地，本公开实施例所提供的动作确定装置一般可以设置于服务器105中。本公开实施例所提供的动作确定方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和服务器105中的至少之一通信的服务器或服务器集群执行。相应地，本公开实施例所提供的动作确定装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和服务器105中的至少之一通信的服务器或服务器集群中。

应该理解，图1中的第一终端设备、第二终端设备、第三终端设备网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的第一终端设备、第二终端设备、第三终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的工业节能模型的训练方法的流程图。

如图2所示，该方法200包括操作S210～S220。

在操作S210，利用工况轨迹集训练模仿学习模型，直至满足预定结束条件。

在操作S220，根据训练完成的模仿学习模型，得到工业节能模型。

根据本公开的实施例，工况轨迹集可以包括专家工况轨迹集和智能体工况轨迹集。工况轨迹集可以存储于经验回放缓存。

根据本公开的实施例，专家工况轨迹集可以是专家利用专家策略与流程型工业环境进行交互且满足预定节能条件得到的工况轨迹集。专家工况轨迹集可以包括至少一个专家工况轨迹。专家工况轨迹可以表征专家的动作状态序列。

根据本公开的实施例，智能体工况轨迹集可以是智能体利用智能体策略与流程型工业环境进行交互得到的工况轨迹集。智能体工况轨迹集可以包括至少一个智能体工况轨迹。智能体工况轨迹可以表征智能体的动作状态序列。

根据本公开的实施例，流程型工业环境可以指流程型工业任务的环境。环境可以包括生产环境。流程型工业任务可以指与流程型工业对应的任务。流程型工业环境可以包括流程型工业设备、流程型工业业务系统和流程型工业设备的周边环境等中的至少之一。流程型工业业务系统可以包括流程型工业设备的控制系统和流程型工业的生产调度系统等中的至少之一。流程型工业设备可以指应用于流程型工业的设备。此外，从另一角度，流程型工业环境可以包括流程型工业任务的能源信息、流程型工业任务的业务信息和流程型工业任务的设备信息等中的至少之一。流程型工业任务的能源信息可以指利用数据采集装置采集的与能源相关的信息。流程型工业任务的设备信息可以指流程型工业设备自身的参数信息。

根据本公开的实施例，流程型工业可以包括以下至少之一：电力工业、食品工业、造纸工业、化工工业、原油工业、橡胶工业、陶瓷工业、塑料工业、玻璃工业、冶金工业、能源工业、芯片制造工业和制药工业等。化工工业可以包括印染工业。流程型工业环境可以包括以下至少之一：电力工业环境、食品工业环境、造纸工业环境、化工工业环境、原油工业环境、橡胶工业环境、陶瓷工业环境、塑料工业环境、玻璃工业环境、冶金工业环境、能源工业环境、芯片制造工业环境和制药工业环境等。化工工业环境可以包括印染工业环境。

根据本公开的实施例，工况轨迹集可以包括至少一个工况轨迹。工况轨迹可以指在流程型工业的工况情况下形成的轨迹。工况轨迹可以表征在流程型工业环境的情况下的动作状态序列(即工况动作状态序列)。动作状态序列可以包括至少一个动作状态对(即工况动作状态对)。动作状态序列包括的各个动作状态对之间具有时序关系。例如，动作状态序列可以包括与至少一个时刻对应的动作状态对。例如，动作状态序列可以包括与至少一个时刻各自对应的动作状态对。动作状态对可以包括状态(即工况状态)和与状态对应的动作(即工况动作)。状态可以用于描述流程型工业的工况状态信息。工况状态信息可以包括以下至少之一：流程型工业任务的能源信息、流程型工业任务的业务信息和流程型工业任务的设备信息等。动作可以指流程型工业的可调参数信息。可调参数信息可以包括可调设备参数信息和可调作业参数信息等中的至少之一。可调设备参数信息可以指流程型工业设备的可调参数信息。可调作业参数信息可以包括以下至少之一：可调生产班组信息和可调生产对象信息等。可调生产班组信息可以指生产班组的可调调度信息。生产班组可以指参与流程型工业任务的班组。可调生产对象信息可以指生产对象的可调参数信息。可调生产对象信息可以包括可调生产数目信息和可调生产对象参数信息等中的至少之一。

根据本公开的实施例，专家可以指能够形成满足预定节能条件的工况轨迹的对象。专家工况轨迹集可以包括至少一个专家工况轨迹。至少一个专家工况轨迹可以包括与至少一个专家对应的专家工况轨迹。例如，至少一个专家工况轨迹可以包括与至少一个专家各自对应的专家工况轨迹。专家工况轨迹可以指专家利用专家策略与流程型工业环境进行交互形成的工况轨迹。专家策略可以指与专家对应的策略。专家工况轨迹可以表征专家的动作状态序列。专家的动作状态序列可以包括专家状态和与专家状态对应的专家动作。可以将专家的动作状态序列称为专家动作状态序列。

根据本公开的实施例，智能体轨迹可以指智能体利用智能体策略与流程型工业环境进行交互形成的工况轨迹。智能体策略可以指与智能体对应的策略。工业节能模型可以用于实现目标智能体策略。目标智能体策略可以指与专家策略类似的智能体策略。目标智能体策略是满足预定节能条件的智能体策略。智能体工况轨迹可以表征智能体的动作状态序列。智能体的动作状态序列可以包括至少一个智能体状态和与智能体状态对应的智能体动作。可以将智能体的动作状态序列称为智能体动作状态序列。

根据本公开的实施例，专家工况轨迹是满足预定节能条件的工况轨迹可以指与专家工况轨迹对应的能耗小于或等于预定能耗阈值。与专家工况轨迹对应的能耗可以表征在利用专家工况轨迹执行流程型工业任务的情况下所消耗的能源值。预定能耗阈值可以根据实际业务需求进行配置，在此不作限定。例如，预定能耗阈值可以是根据与至少一个样本工况轨迹对应的能耗确定的。与专家工况轨迹对应的能耗和与样本工况轨迹对应的能耗的确定方式可以根据实际业务需求进行配置，在此不作限定。例如，可以根据与专家工况轨迹对应的奖励值确定与专家工况轨迹对应的能耗。与样本工况轨迹对应的奖励值确定与样本工况轨迹对应的能耗。

根据本公开的实施例，专家工况轨迹还可以满足以下至少之一：与专家工况轨迹对应的专家动作变化率小于或等于预定变化率阈值，以及与专家工况轨迹对应的安全性校验参数满足预定安全性校验参数范围。专家动作变化率可以指专家工况轨迹中专家动作的变化率。安全性校验参数可以指用于评估工况轨迹的安全性的参数。预定变化率阈值和预定安全性校验参数范围可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，模仿学习可以指智能体利用专家工况轨迹来进行智能体策略优化，得到与专家策略类似的目标智能体策略。模仿学习可以对专家工况轨迹进行模仿而不需要人为定义奖励函数。模仿学习模型可以包括以下至少之一：基于行为克隆(Behavioral Cloning，BC)的模仿学习模型、基于逆强化学习(Inverse ReinforcementLearning，IRL)的模仿学习模型和基于生成对抗模仿学习(Generative AdversarialImitationLearning，GAIL)的模仿学习模型。

根据本公开的实施例，模仿学习模型的模型结构可以根据实际业务需求进行配置，在此不作限定。例如，模仿学习模型可以包括至少一个模型结构。模型结构可以包括至少一个模型子结构和各个模型子结构彼此之间的连接关系。模型结构可以是基于模型子结构之间的连接关系，将至少一个模型子结构进行连接得到的结构。模型结构包括的至少一个模型子结构可以是来自至少一个操作层的结构。例如，模型结构可以是基于模型子结构之间的连接关系，将来自至少一个操作层的至少一个模型子结构进行连接得到的结构。例如，至少一个操作层可以包括以下至少之一：输入层、卷积层、池化层、反池化层、反卷积层、前馈神经网络层、注意力层、跳跃连接层、瓶颈层、残差层、隐藏层、全连接层、批量归一化层、线性嵌入层和非线性层等。

例如，模仿学习模型的模型结构可以包括第一输入层、第一全连接层、第一激活层、第二全连接层、第二激活层和第一输出层。备选地，模仿学习模型的模型结构还可以包括第二输入层、第一归一化层、第一隐藏层、第三激活层、第二隐藏层、第四激活层和第二输出层。备选地，模仿学习模型的模型结构还可以包括第三输入层、第一卷积层、第五激活层、第一池化层、第三全连接层和第三输出层。

根据本公开的实施例，预定结束条件可以包括以下至少之一：训练轮次达到最大训练轮次和模型收敛。利用工况轨迹集训练模仿学习模型，直至满足预定结束条件，可以包括：在模仿学习模型包括第一策略网络和判别器的情况下，可以利用专家工况轨迹集和智能体工况轨迹集对第一策略网络和判别器进行交替训练，直至满足预定结束条件。第一策略网络可以包括策略器。备选地，基于损失函数，根据专家工况轨迹集和智能体工况轨迹集，得到损失函数值。根据损失函数值调整模仿学习模型的模型参数。备选地，在模仿学习模型包括第二策略网络和奖励网络的情况下，利用专家工况轨迹集和智能体工况轨迹集对奖励网络和第二策略网络进行交替训练，直至满足预定结束条件。

根据本公开的实施例，根据训练完成的模仿学习模型，确定工业节能模型，可以包括：在模仿学习模型包括第一策略网络和判别器，第一策略网络包括策略器的情况下，可以将训练完成的策略器确定为工业节能模型。训练完成的策略器可以用于实现目标智能体策略。备选地，在利用基于损失函数，根据专家工况轨迹集和智能体工况轨迹集，得到损失函数值；根据损失函数值调整模仿学习模型的模型参数的方式来训练模仿学习模型的情况下，可以将训练完成的模仿学习模型确定为工业节能模型。训练完成的模仿学习模型可以用于实现目标智能体策略。备选地，在模仿学习模型包括第二策略网络和奖励网络的情况下，可以将训练完成的第二策略网络确定为工业节能模型。训练完成的第二策略网络可以用于实现目标智能体策略。

根据本公开的实施例，可以由电子设备执行本公开实施例的工业节能模型的训练方法。电子设备可以包括至少一个处理器。处理器可以用于执行本公开实施例提供的工业节能模型的训练方法。可以利用单个处理器执行本公开实施例提供的工业节能模型的训练方法，也可以利用多个处理器并行执行本公开实施例提供的工业节能模型的训练方法。

根据本公开的实施例，由于工况轨迹集中的专家工况轨迹集是专家利用专家策略与流程型工业环境进行交互且满足预定节能条件得到的工况轨迹集，工况轨迹集中的智能体工况轨迹集是智能体利用智能体策略与流程型工业环境进行交互得到的工况轨迹集，在利用工况轨迹集训练模仿学习模型得到工业节能模型的过程中，智能体可以利用专家工况轨迹来进行智能体策略优化而不需要人为定义奖励函数，因此，能够提高模型的预测精度和缩短训练耗时。由此，降低了电子设备的数据处理量和模型的训练优化成本，提高了电子设备的处理效率，从而获得了符合自然规律的电子设备内部性能改进的效果。

根据本公开的实施例，流程型工业环境可以包括印染工业环境。

根据本公开的实施例，流程型工业可以包括印染工业。流程型工业环境可以包括印染工业环境。印染设备可以指应用于印染工业的设备。印染设备可以包括以下至少之一：长车印染设备和溢流印染设备。印染设备可以包括多个环节。环节具有与该环节对应的环节参数。长车印染设备可以包括前车部分和后车部分。

根据本公开的实施例，智能体工况轨迹可以包括至少一个智能体动作状态对。智能体动作状态对可以包括智能体状态和与智能体状态对应的智能体动作。

根据本公开的实施例，专家工况轨迹可以包括至少一个专家动作状态对。专家动作状态对可以包括专家状态和与专家状态对应的专家动作。

根据本公开的实施例，智能体状态和专家状态均可以包括以下至少之一：流程型工业任务的能源信息、流程型工业任务的业务信息和流程型工业任务的设备信息。

根据本公开的实施例，流程型工业任务的能源信息可以指利用数据采集装置采集的与能源相关的信息。数据采集装置可以包括以下至少之一：压力传感器、流量计、温度传感器、湿度传感器、电表、水表和热表等。能源信息可以包括以下至少之一：压力信息、流量信息、温度信息、湿度信息、电量信息、电流信息、耗水量信息和热量信息等。

根据本公开的实施例，流程型工业任务的业务信息可以包括流程型工业设备的控制系统信息和流程型工业的生产调度系统信息等中的至少之一。流程型工业设备的生产调度信息可以包括作业参数信息。作业参数信息可以包括生产班组信息和生产对象信息等中的至少之一。生产班组信息可以指生产班组的调度信息。生产班组可以指参与流程型工业任务的班组。生产对象信息可以指生产对象的参数信息。生产对象信息可以包括生产数目信息和生产对象参数信息等中的至少之一。例如，在流程型工业环境是印染环境的情况下，生产对象参数信息可以包括布匹克重信息、品类信息、物料信息和颜色信息等中的至少之一。

根据本公开的实施例，流程型工业任务的设备信息可以指流程型工业设备自身的参数信息。例如，在流程型工业环境是印染环境的情况下，流程型工业任务的设备信息可以包括滚轴转速信息、张力信息和车速信息等中的至少之一。

根据本公开的实施例，可以利用业务系统信息接口，以第二预定采集频率采集流程型工业任务的业务信息。可以将流程型工业任务的业务信息存储至目标数据库，例如，目标数据库可以包括时序时空数据库(Time Series Database，TSDB)。可以利用设备参数数据接口，以第三预设采集频率采集流程型工业任务的设备信息。可以将流程型工业任务的设备信息存储至目标数据库，例如，目标数据库可以包括时序时空数据库。

根据本公开的实施例，可以将上述流程型工业任务的能源信息、流程型工业任务的业务信息和流程型工业任务的设备信息存储至目标数据库。可以通过如下方式将上述流程型工业任务的能源信息、流程型工业任务的业务信息和流程型工业任务的设备信息存储至目标数据库，即，数据采集装置可以基于PLC(Programmable Logic Controller，可编程逻辑控制器)协议将采集的流程型工业任务的能源信息、流程型工业任务的业务信息和流程型工业任务的设备信息发送至智能网关，通过智能网关将流程型工业任务的能源信息、流程型工业任务的业务信息和流程型工业任务的设备信息发送至物联网核心套件，物联网核心套件利用规则引擎将流程型工业任务的能源信息、流程型工业任务的业务信息和流程型工业任务的设备信息存储至目标数据库。

下面参考图3A、图3B、图3C、图3D、图3E、图4、图5、图6、图7和图8，对根据本公开实施例所述的工业节能模型的训练方法做进一步说明。

图3A示意性示出了根据本公开实施例的工业节能模型的训练过程的示例示意图。

如图3A所示，在300A中，工业节能模型301可以包括策略器301_1和判别器301_2。

在策略器301_1中，智能体302可以与流程型工业环境303进行交互，得到智能体工况轨迹集304。智能体工况轨迹集304和专家工况轨迹集305可以作为判别器301_2的输入，以训练判别器301_2能区分智能体工况轨迹集304和专家工况轨迹集305。

判别器301_2可以指导策略器301_1进行策略优化，以使策略器301_1生成的智能体工况轨迹集304更为接近专家工况轨迹集305。

根据本公开的实施例，操作S210可以包括如下操作。

利用专家工况轨迹集和智能体工况轨迹集对第一策略网络和判别器进行交替训练，直至满足预定结束条件。

根据本公开的实施例，操作S220可以包括如下操作。

将训练完成的策略器确定为工业节能模型。

根据本公开的实施例，智能体工况轨迹集可以是利用策略器生成的。模仿学习模型可以包括第一策略网络和判别器。第一策略网络可以包括策略器。

根据本公开的实施例，生成对抗模仿学习可以是在生成对抗网络(GenerativeAdversarial Network，GAN)和逆强化学习的基础上实现的。生成对抗模仿学习属于免模型的方法，虽然智能体需要与环境进行交互，但不需要对环境进行建模，即生成对抗模仿学习将交互环境看成了黑盒，因此目标函数不再是可导的，可以采用策略梯度优化的方式完成训练。

根据本公开的实施例，生成对抗网络可以包括深度卷积生成对抗网络、基于推土机距离的生成对抗网络或条件性生成对抗网络等。生成对抗网络可以包括第一策略网络和判别器(即Discriminator)。第一策略网络和判别器可以包括神经网络模型。第一策略网络可以包括策略器(即Generator)。

根据本公开的实施例，策略器(即Generator)可以用于确定智能体策略，指导智能体与流程型工业环境进行交互，并在学习过程中产生智能体工况轨迹集。判别器可以用于对输入的工况轨迹集进行分类，确定工况轨迹集属于专家工况轨迹集和智能体工况轨迹集中的之一。策略器和判别器的模型结构可以根据实际业务需求进行配置，在此不作限定。例如，策略器可以包括第一嵌入层、第一连接层、第一自注意力模块和第一线性层。判决器可以包括第二嵌入层、第二线性层和第一奖励模块。

图3B示意性示出了根据本公开另一实施例的工业节能模型的训练过程的示例示意图。

如图3B所示，在300B中，工况轨迹集306可以包括专家工况轨迹集306_1和智能体工况轨迹集306_2。模仿学习模型307可以包括第一策略网络307_1和判别器307_2。第一策略网络307_1可以包括策略器307_11。

可以利用专家工况轨迹集306_1和智能体工况轨迹集306_2对第一策略网络307_1和判别器307_2进行交替训练，直至满足预定结束条件。可以将训练完成的策略器307_11确定为工业节能模型308。

根据本公开的实施例，智能体工况轨迹集可以包括智能体工况轨迹集B和智能体工况轨迹集C。

根据本公开的实施例，利用专家工况轨迹集和智能体工况轨迹集对第一策略网络和判别器进行交替训练，直至满足预定结束条件，可以包括如下操作。

交替执行利用智能体工况轨迹集B和专家工况轨迹集训练判别器以及利用智能体工况轨迹集C训练第一策略网络的操作，直至满足预定结束条件。根据本公开的实施例，智能体工况轨迹集B可以包括至少一个智能体工况轨迹B。智能体工况轨迹集C可以包括至少一个智能体工况轨迹C。

根据本公开的实施例，策略器可以用于生成智能体工况轨迹集B和智能体工况轨迹集C，并通过不断训练策略器使策略器学习到专家工况轨迹集的数据分布，从而能够从无到有生成与专家工况轨迹集的数据分布相符合的数据，并尽可能的去混淆判别器。判别器可以用于对专家工况轨迹集和智能体工况轨迹集B进行区分。

根据本公开的实施例，策略器的目标可以是使得智能体与流程型工业环境交互产生的智能体工况轨迹集B尽可能与专家工况轨迹集相似，即试图欺骗判别器以获得较高的奖励值。判别器的目标可以是尽可能准确的区分智能体工况轨迹集B尽可能与专家工况轨迹集，尽量降低策略器得到的奖励值。策略器和判别器在学习过程中可以不断博弈，并更新自身，最终达到动态平衡。预定结束条件可以根据实际业务需求进行配置，在此不作限定。例如，预定结束条件可以为判别器无法再区分智能体工况轨迹集B与专家工况轨迹集。

根据本公开的实施例，交替执行利用智能体工况轨迹集B和专家工况轨迹集训练判别器以及利用智能体工况轨迹集C训练第一策略网络的操作，直至满足预定结束条件，可以包括交替执行以下训练判别器和第一策略网络的操作，直至满足预定结束条件。

在保持第(f-1)_N轮的第一策略网络的模型参数不变的情况下，重复执行以下操作M次：利用第f_m智能体工况轨迹集B和第f_m专家工况轨迹集训练第f_m-1轮的判别器，得到第f_m轮的判别器。

在保持第f_M轮的判别器的模型参数不变的情况下，重复执行以下操作N次：利用第f_M轮的判别器和第f_n智能体工况轨迹集C训练第f_n-1轮的第一策略网络，得到第f_n轮的第一策略网络。

根据本公开的实施例，智能体工况轨迹集B可以包括与F次迭代对应的至少一个智能体工况轨迹集B和与F次迭代对应的至少一个智能体工况轨迹集C。专家工况轨迹集可以包括与F次迭代对应的专家工况轨迹集。F可以是大于或等于1的整数。

根据本公开的实施例，f可以是大于或等于1且小于或等于F的整数。

根据本公开的实施例，第f_m-1轮可以表征第f次迭代中的第(m-1)轮。f_m轮可以表征第f次迭代中的第m轮。第f_M轮可以表征第f次迭代中的第M轮。M可以是大于1且小于或等于M的整数，M可以是大于1的整数。

根据本公开的实施例，第(f-1)_N轮可以表征第(f-1)次迭代中的第N轮。第f_n-1轮可以表征第f次迭代中的第(n-1)轮。第f_n轮可以表征第f次迭代中的第n轮。n可以是大于1且小于或等于N的整数，N可以是大于1的整数。

根据本公开的实施例，第f_m智能体工况轨迹集B可以表征与第f_m轮对应的智能体工况轨迹集B。第f_n智能体工况轨迹集C可以表征与第f_n轮对应的智能体工况轨迹集C。第f_m专家工况轨迹集可以表征与第f_m轮对应的专家工况轨迹集。

根据本公开的实施例，F、M、N可以根据实际业务需求进行配置，在此不作限定。M和N可以相同，也可以不同。

根据本公开的实施例，生成对抗模仿学习可以利用第一策略网络的策略器确定的智能体策略与流程型工业环境进行交互得到智能体工况轨迹集B和智能体工况轨迹集C。判别器可以对智能体工况轨迹集B和专家工况轨迹集进行判别，给出其分别属于专家策略的概率，以此监督第一策略网络逐渐向专家策略靠拢。第一策略网络与判别器相互对抗，在不断迭代中相互提升，以此收敛到全局最优。

根据本公开的实施例，在每次迭代过程中，在保持第(f-1)_N轮的第一策略网络的模型参数不变的情况下，可以利用第f_m智能体工况轨迹集B和第f_m专家工况轨迹集训练第f_m-1轮的判别器，以完成该次迭代针对第f_m-1轮的判别器设定的训练次数。在完成该次迭代针对第f_m-1轮的判别器设定的训练次数之后，在保持第f_M轮的判别器的模型参数不变的情况下，可以利用第f_M轮的判别器和第f_n智能体工况轨迹集C训练第f_n-1轮的第一策略网络，以完成该次迭代针对第f_n轮的第一策略网络设定的训练次数。

需要说明的是，在执行每次训练过程中，可以利用第一策略网络生成与该次对应的智能体工况轨迹集B和智能体工况轨迹集C。上述第一策略网络和判别器的训练方式仅是示例性实施例，但不限于此，还可以包括本领域已知的训练方式，只要能够实现第一策略网络和判别器的训练即可。

根据本公开的实施例，可以根据实际业务需求选择合适的训练策略，在此不作限定。例如，训练策略可以包括以下之一：在每次迭代中，第一策略网络的训练次数和判别器的训练次数为一次、第一策略网络的训练次数为N次且判别器的训练次数为M次、第一策略网络的训练次数为多次且判别器的训练次数为一次、第一策略网络的训练次数为多次且判别器的训练次数为多次。

根据本公开的实施例，利用专家工况轨迹集和智能体工况轨迹集对第一策略网络和判别器进行交替训练来获得工业节能模型，由于智能体工况轨迹集是利用策略器生成的，因此，能够不断逼近专家利用专家策略与流程型工业环境交互得到的专家工况轨迹集，进而降低了智能体工况轨迹的采集成本和周期，提高了数据利用效率。此外，降低了深度学习和强化学习等其他机器学习模型应用于工业节能行业的门槛，有利于工业节能行业的转型与数字化发展。

图3C示意性示出了根据本公开另一实施例的工业节能模型的训练过程的示例示意图。

如图3C所示，在300C中，工况轨迹集309可以包括专家工况轨迹集309_1和智能体工况轨迹集309_2。专家工况轨迹集309_1可以包括第f_m专家工况轨迹集309_11。智能体工况轨迹集309_2可以包括第f_m智能体工况轨迹集B309_21和第f_n智能体工况轨迹集C309_22。模仿学习模型310可以包括第f_n-1轮的第一策略网络310_1和第f_m-1轮的判别器310_2。

可以利用第f_m智能体工况轨迹集B309_21和第f_m专家工况轨迹集309_1训练第f_m-1轮的判别器310_2，得到第f_m轮的判别器311_2。可以利用第f_M轮的判别器311_2和第f_n智能体工况轨迹集C309_22训练第f_n-1轮的第一策略网络310_1，得到第f_n轮的第一策略网络311_1。在获得第f_n轮的第一策略网络311_1和第f_M轮的判别器311_2之后，可以确定工业节能模型312。

根据本公开的实施例，利用第f_m智能体工况轨迹集B和第f_m专家工况轨迹集训练第f_m-1轮的判别器，得到第f_m轮的判别器，可以包括如下操作。

将第f_m智能体工况轨迹集B和第f_m专家工况轨迹集输入第f_m-1轮的判别器，得到第f_m第一判别信息和第f_m第二判别信息。基于第f_m第一判别信息和第f_m第二判别信息训练第f_m-1轮的判别器，得到第f_m轮的判别器。

根据本公开的实施例，第f_m第一判别信息可以表征第f_m轮的与第f_m智能体工况轨迹集B对应的第一判别信息。第f_m第二判别信息可以表征f_m轮的与第f_m次专家工况轨迹集对应的第二判别信息。

根据本公开的实施例，可以从第f_m智能体工况轨迹集B和第f_m专家工况轨迹集等比例抽取第f_m智能体工况轨迹B和第f_m专家工况轨迹。智能体可以基于深度强化学习(DeepReinforcement Learning，DRL)与流程型工业环境交互得到与第f_m智能体工况轨迹集B对应的第f_m第一判别信息和与第f_m次专家工况轨迹集对应的第f_m第二判别信息。

根据本公开的实施例，第一判别信息可以用于表征第f_m轮的第f_m智能体工况轨迹集B是否属于专家策略。第二判别信息可以用于表征第f_m轮的第f_m次专家工况轨迹集是否属于专家策略。第一判别信息和第二判别信息可以根据实际业务需求进行配置，在此不作限定。例如，在表征属于专家策略的情况下，第一判别信息可以为0，第二判别信息可以为1。在表征属于不专家策略的情况下，第一判别信息和第二判别信息可以为0。

根据本公开的实施例，基于第f_m第一判别信息和第f_m第二判别信息训练第f_m-1轮的判别器，得到第f_m轮的判别器，可以包括如下操作。

基于第一梯度函数，根据第f_m第一判别信息和第f_m第二判别信息，得到第f_m梯度值B。根据第f_m梯度值B调整第f_m-1轮的判别器的模型参数，得到第f_m轮的判别器的模型参数。

根据本公开的实施例，第f_m梯度值B可以表征第f_m轮的梯度值B。

根据本公开的实施例，在获得第f_m第一判别信息和第f_m第二判别信息之后，可以将第f_m第一判别信息和第f_m第二判别信息输入至第一梯度函数，得到第f_m梯度值B。在获得第f_m梯度值B之后，可以根据第f_m梯度值B调整第f_m-1轮的判别器的模型参数，直至满足预定结束条件，得到第f_m轮的判别器的模型参数。例如，可以根据反向传播算法和随机梯度下降算法中的至少之一，调整第f_m-1轮的判别器的模型参数，直至满足预定结束条件。

根据本公开的实施例，可以根据如下式(1)确定第一梯度函数。

根据本公开的实施例，

可以表征第一梯度函数。s_i可以表征第i个状态。a_i可以表征第i个动作。s_j可以表征第j个状态。a_j可以表征第j个动作。/>

可以表征第(f-1)_N轮的第一策略网络。/>

可以表征第f_m智能体工况轨迹集B。/>

可以表征第f_m专家工况轨迹集。/>

可以表征第f_m第一判别信息。/>

可以表征第f_m第二判别信息。

图3D示意性示出了根据本公开实施例的得到第f_m轮的判别器过程的示例示意图。

如图3D所示，在300D中，可以将第f_m智能体工况轨迹集B313_1和第f_m专家工况轨迹集313_2输入第f_m-1轮的判别器314_1，得到第f_m第一判别信息315_1和第f_m第二判别信息315_2。基于第f_m第一判别信息315_1和第f_m第二判别信息315_2训练第f_m-1轮的判别器314_1，得到第f_m轮的判别器314_2。

可以基于第一梯度函数316，根据第f_m第一判别信息315_1和第f_m第二判别信息315_2，得到第f_m梯度值B317。根据第f_m梯度值B317调整第f_m-1轮的判别器314_1的模型参数，得到第f_m轮的判别器314_2的模型参数。

根据本公开的实施例，利用第f_M轮的判别器和第f_n智能体工况轨迹集C训练第f_n-1轮的第一策略网络，得到第f_n轮的第一策略网络，可以包括如下操作。

基于第二梯度函数，根据第f_M轮的判别器和第f_n智能体工况轨迹集C，得到第f_n梯度值C。根据第f_n梯度值C调整第f_n-1轮的第一策略网络的模型参数，得到第f_n轮的第一策略网络。

根据本公开的实施例，第f_n梯度值C可以表征第f_n轮的梯度值C。

根据本公开的实施例，判别器可以对输入的工况轨迹集进行分类，根据分类的结构使用Adam(即Adaptive Moment Estimation)算法进行更新。第一策略网络可以根据由判别器的分类信息决定的奖励函数使用强化学习进行更新。强化学习可以根据实际业务需求进行配置，在此不作限定。例如，强化学习可以包括以下至少之一：基于价值函数的强化学习、基于策略梯度的强化学习、基于联合价值函数和策略梯度的强化学习。

根据本公开的实施例，基于价值函数的强化学习可以包括以下至少之一：蒙特卡罗法、时间差分法和值函数逼近法。基于策略梯度的强化学习可以包括以下至少之一：信赖域策略优化(Trust Region Policy Optimization，TRPO)算法和近端策略优化(ProximalPolicy Optimization，PPO)算法。近端策略优化算法可以包括以下至少之一：散度系数平滑法(即PPO-Penalty)和截断因子法(即PPO-Clip)。

根据本公开的实施例，由于第f_n梯度值C是基于第二梯度函数，根据第f_M轮的判别器和第f_n智能体工况轨迹集C得到的，通过基于梯度优化方法更新第一策略网络的模型参数，能够使其朝最大化累积奖励值的梯度方向稳步更新，从而向专家策略靠近，由此智能体所产生的智能体工况轨迹集C的分布能够完美地拟合专家工况轨迹集的分布。

根据本公开的实施例，基于第二梯度函数，根据第f_M轮的判别器和第f_n智能体工况轨迹集C，得到第f_n梯度值C，可以包括如下操作。

根据第f_n智能体工况轨迹子集C1，得到第f_n第一概率值。利用第f_M轮的第一判别器处理第f_n智能体工况轨迹子集C1，得到第f_n第一动作价值函数值。根据第f_n第一概率值和第f_n第一动作价值函数值，得到第一第f_n梯度值C。

根据本公开的实施例，第f_n智能体工况轨迹子集C1可以是利用第f_n-1轮的第一策略器处理至少一个第f_n状态C1得到的。第f_n第一概率值可以表征第f_n轮的第一概率值。第f_n第一动作价值函数值可以表征第f_n轮的第一动作价值函数值。

根据本公开的实施例，策略器可以是第一策略器。判别器可以是第一判别器。

根据本公开的实施例，第f_n智能体工况轨迹集C可以包括第f_n智能体工况轨迹子集C1。第f_n智能体工况轨迹子集C1可以表征与第f_n轮对应的智能体工况轨迹子集C1。第f_n智能体工况轨迹子集C1可以包括至少一个第f_n动作状态对C1。第f_n动作状态对C1可以包括第f_n状态C1和与第f_n状态C1对应的第f_n动作C1。第f_n动作状态对C1可以表征第f_n轮的动作状态对C1。第f_n状态C1可以表征第f_n轮的状态C1。第f_n动作C1可以表征第f_n轮的动作C1。

根据本公开的实施例，第二梯度函数可以是第一第二梯度函数。第f_n梯度值C可以是第一第f_n梯度值C。

根据本公开的实施例，第f_n智能体工况轨迹子集C1可以是第f_n智能体工况轨迹集C中的至少部分，即第f_n智能体工况轨迹子集C1可以是第f_n智能体工况轨迹集C，或第f_n智能体工况轨迹子集C1可以是第f_n智能体工况轨迹集C的部分。第f_n状态C1可以指第f_n轮智能体所处的状态。第f_n动作C1可以指第f_n轮智能体所执行的动作。

根据本公开的实施例，基于价值函数的强化学习可以先评估得到动作价值函数值，再利用动作价值函数值调整当前智能体策略。针对第f_n动作状态对C1，确定在第f_n状态C1处执行第f_n动作C1的动作价值，得到与第f_n动作状态对C1对应的第f_n第一动作价值函数子值。可以根据与至少一个第一第f_n第二动作状态对对应的至少一个第f_n第一动作价值函数子值，确定第f_n第一统计值。根据第f_n第一统计值，确定第f_n第一动作价值函数值。第f_n第一动作价值函数子值可以表征第f_n轮的第一动作价值函数子值。第f_n第一统计值可以表征至少一个第f_n第一动作价值函数子值的第一统计值。第f_n第一统计值可以包括以下至少之一：第f_n第一平均值和第f_n第一中位值。例如，可以根据与至少一个第一第f_n第二动作状态对各自对应的第f_n第一动作价值函数子值，确定第f_n第一统计值。

根据本公开的实施例，可以根据如下式(2)确定第一第二梯度函数。

根据本公开的实施例，

可以表征第一第二梯度函数。/>

可以表征第f_n智能体工况轨迹子集C1。/>

可以表征第f_n-1轮的第一策略器。/>

可以表征第f_n第一概率值。/>

可以表征第f_n第一动作价值函数值。s_t可以表征第t个第f_n状态C1。a_t可以表征第t个第f_n动作C1。s_t'可以表征第t'个第f_n状态C1。a_t'可以表征第t'个第f_n动作C1。t'∈[t+1，T₁]，T₁可以表征第f_n智能体工况轨迹子集C1包括的第f_n智能体工况轨迹C1的数目。t可以是大于或等于1且小于或等于T₁的整数。T₁可以是大于或等于1的整数。/>

根据本公开的实施例，根据第f_n第一概率值和第f_n第一动作价值函数值，得到第一第f_n梯度值C，可以包括如下操作。

利用第f_n-1轮的第一价值器处理第f_n智能体工况轨迹子集C1，得到第f_n第一状态价值函数值。根据第f_n第一概率值、第f_n第一动作价值函数值和第f_n第一状态价值函数值，得到第一第f_n梯度值C。

根据本公开的实施例，第f_n第一状态价值函数值可以表征第f_n轮的第一状态价值函数值。第一策略网络还可以包括第一价值器。

根据本公开的实施例，基于联合价值函数和策略梯度的强化学习可以包括演员评论家(Actor-Cntic，AC)算法。演员评论家算法可以包括以下至少之一：同步优势演员评论家(Synchronous Advantage Actor-Critic，A2C)算法、异步优势演员评论家(Asynchronous Advantage Actor-Critic，A3C)算法和Kronecker因子化信赖域(ActorCritic using Kronecker-Factored Trust Region，ACKTR)算法。

根据本公开的实施例，根据第f_n第一概率值、第f_n第一动作价值函数值和第f_n第一状态价值函数值，得到第一第f_n梯度值C，可以包括：根据第f_n第一动作价值函数值和第f_n第一状态价值函数值，确定第f_n第一优势函数值。根据第f_n第一概率值和第f_n第一优势函数值，得到第一第f_n梯度值C。第f_n第一优势函数值可以表征第f_n轮的第一优势函数值。

根据本公开的实施例，针对第f_n状态C1，确定在第f_n状态C1处的状态价值，得到与第f_n状态C1对应的第f_n第一状态价值函数子值。可以根据与至少一个第一第f_n第二状态对应的至少一个第f_n第一状态价值函数子值，确定第f_n第二统计值。根据第f_n第二统计值，确定第f_n第一状态价值函数值。第f_n第一状态价值函数子值可以表征第f_n轮的第一状态价值函数子值。第f_n第二统计值可以表征至少一个第f_n第一状态价值函数子值的第二统计值。第f_n第二统计值可以包括以下至少之一：第f_n第二平均值和第f_n第二中位值。例如，可以根据与至少一个第一第f_n第二状态各自对应的第f_n第一状态价值函数子值，确定第f_n第二统计值。

根据本公开的实施例，可以根据如下式(3)确定第一第二梯度函数。

根据本公开的实施例，

可以表征第f_n第一状态价值函数值。公式(3)中其他参数的含义可以参见公式(2)的说明，在此不再赘述。

根据本公开的实施例，上述工业节能模型的训练方法还可以包括如下操作。

基于第一第三梯度函数，根据第f_n第一动作价值函数值和第f_n第一状态价值函数值，得到第一第f_n梯度值H。

根据本公开的实施例，第一第f_n梯度值H可以表征第f_n轮的第一梯度值H。

根据本公开的实施例，根据第f_n梯度值C调整第f_n-1轮的第一策略网络的模型参数，得到第f_n轮的第一策略网络，可以包括如下操作。

根据第一第f_n梯度值C调整第f_n-1轮的第一策略器的模型参数，得到第f_n轮的第一策略器。根据第一第f_n梯度值H调整第f_n-1轮的第一价值器的模型参数，得到第f_n轮的第一价值器。

根据本公开的实施例，可以基于第一第f_n梯度值C，调整第f_n-1轮的第一策略器的模型参数，直至满足预定结束条件。例如，可以根据反向传播算法或随机梯度下降算法，调整第f_n-1轮的第一策略器的模型参数，直至模型参数收敛。将在满足预定结束条件的情况下得到的第f_n-1轮的第一策略器确定为第f_n轮的第一策略器。

根据本公开的实施例，可以基于第一第f_n梯度值H，调整第f_n-1轮的第一价值器的模型参数，直至满足预定结束条件。例如，可以根据反向传播算法或随机梯度下降算法，调整第f_n-1轮的第一价值器的模型参数，直至模型参数收敛。将在满足预定结束条件的情况下得到的第f_n-1轮的第一价值器确定为第f_n轮的第一价值器。

图3E示意性示出了根据本公开实施例的得到第f_n轮的第一策略网络过程的示例示意图。

如图3E所示，在300E中，第f_n智能体工况轨迹集C320可以是第f_n智能体工况轨迹子集C1320_1。可以根据第f_n智能体工况轨迹子集C1320_1，得到第f_n第一概率值321。

可以利用第f_M轮的判别器318处理第f_n智能体工况轨迹子集C1320_1，得到第f_n第一动作价值函数值322。利用第f_n-1轮的第一价值器319_1处理第f_n智能体工况轨迹子集C1320_1，得到第f_n第一状态价值函数值323。

可以基于第一第二梯度函数324，根据第f_n第一概率值321、第f_n第一动作价值函数值322和第f_n第一状态价值函数值323，得到第一第f_n梯度值C325。可以根据第一第f_n梯度值C325调整第f_n-1轮的第一策略器319_2的模型参数，得到第f_n轮的第一策略器326_2。

可以基于第一第三梯度函数327，根据第f_n第一动作价值函数值323和第f_n第一状态价值函数值325，得到第一第f_n梯度值H328。可以根据第一第f_n梯度值H328调整第f_n-1轮的第一价值器319_1的模型参数，得到第f_n轮的第一价值器326_1。

根据本公开的实施例，策略器可以是第二策略器。判别器可以是第二判别器。第一策略网络还可以包括第二价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C可以包括第f_n智能体工况轨迹子集C2。第f_n智能体工况轨迹子集C2可以表征与第f_n轮对应的智能体工况轨迹子集C2。第f_n智能体工况轨迹子集C2可以包括至少一个第f_n动作状态对C2。第f_n动作状态对C2可以包括第f_n状态C2和与第f_n状态C2对应的第f_n动作C2。第f_n动作状态对C2可以表征第f_n轮的动作状态对C2。第f_n状态C2可以表征第f_n轮的状态C2。第f_n动作C2可以表征第f_n轮的动作C2。

根据本公开的实施例，第f_n智能体工况轨迹子集C2可以是第f_n智能体工况轨迹集C中的至少部分，即第f_n智能体工况轨迹子集C2可以是第f_n智能体工况轨迹集C，或第f_n智能体工况轨迹子集C2可以是第f_n智能体工况轨迹集C的部分。针对第f_n动作状态对C2、第f_n状态C2和第f_n动作C2的说明，可以参见上文针对第f_n动作状态对C1、第f_n状态C1和第f_n动作C1的相关说明，在此不再赘述。

根据本公开的实施例，在n是大于2且小于或等于N的整数的情况下，基于第二梯度函数，根据第f_M轮的判别器和第f_n智能体工况轨迹集C，得到第f_n梯度值C，可以包括如下操作。

根据第f_n智能体工况轨迹子集C2，得到第f_n第二概率值。根据第f_n-1智能体工况轨迹子集C1，得到第f_n第三概率值。利用第f_M轮的第二判别器处理第f_n-1智能体工况轨迹子集C1，得到第f_n第二动作价值函数值。利用第f_n-1轮的第二价值器处理第f_n-1智能体工况轨迹子集C1，得到第f_n第二状态价值函数值。根据第f_n第二概率值、第f_n第三概率值、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值C。

根据本公开的实施例，第f_n-1智能体工况轨迹子集C1可以是利用第f_n-2轮的第二策略器处理至少一个第f_n-1状态C1得到的。第f_n第三概率值可以表征第f_n轮的第三概率值。第f_n第二动作价值函数值可以表征第f_n轮的第二动作价值函数值。第f_n第二状态价值函数值可以表征第f_n轮的第二状态价值函数值。

根据本公开的实施例，第f_n智能体工况轨迹子集C2可以是利用第f_n-1轮的第二策略器处理至少一个第f_n状态C2得到的。第f_n第二概率值可以表征第f_n轮的第二概率值。第f_n-1智能体工况轨迹集C可以包括第f_n-1智能体工况轨迹子集C1。第f_n-1智能体工况轨迹子集C1可以包括至少一个第f_n-1动作状态对C1。第f_n-1智能体工况轨迹子集C1可以表征与第f_n-1轮对应的智能体工况轨迹子集C1。第f_n-1动作状态对C1可以包括第f_n-1状态C1和与第f_n-1状态C1对应的第f_n-1动作C1。第f_n-1动作状态对C1可以表征第f_n-1轮的动作状态对C1。第f_n-1状态C1可以表征第f_n-1轮的状态C1。第f_n-1动作C1可以表征第f_n-1轮的动作C1。

根据本公开的实施例，第二梯度函数可以是第二第二梯度函数，第f_n梯度值C可以是第二第f_n梯度值C。

根据本公开的实施例，第f_n-1智能体工况轨迹集C和第f_n智能体工况轨迹集C中对应于同一时刻的状态可以相同。第f_n-1智能体工况轨迹子集C1可以是第f_n-1智能体工况轨迹集C中的至少部分，即第f_n-1智能体工况轨迹子集C1可以是第f_n-1智能体工况轨迹集C，或第f_n-1智能体工况轨迹子集C1可以是第f_n-1智能体工况轨迹集C的部分。

根据本公开的实施例，在获得至少一个第f_n状态C2中的第t个第f_n状态C2s_t之后，可以利用第f_n-1轮的第二策略器

分别处理至少一个第f_n状态C2中的第t个第f_n状态C2s_t，得到第f_n智能体工况轨迹子集/>

在获得第f_n智能体工况轨迹子集/>

之后，可以根据第f_n智能体工况轨迹子集/>

确定第f_n第二概率值/>

根据本公开的实施例，在获得至少一个第f_n-1状态C1中的第t个第f_n-1状态C1s_t之后，之后，可以利用第f_n-2轮的第二策略器

分别处理至少一个第f_n-1状态C1中的第t个第f_n-1状态C1s_t，得到第f_n-1智能体工况轨迹子集/>

在获得第f_n-1智能体工况轨迹子集

之后，可以根据第f_n-1智能体工况轨迹子集/>

确定第f_n第三概率值

根据本公开的实施例，在获得第f_n-1智能体工况轨迹子集

之后，可以利用第f_n-1轮的第二判别器/>

处理第f_n-1智能体工况轨迹子集/>

得到第f_n第二动作价值函数值/>

利用第f_n-1轮的第二价值器/>

处理第f_n-1智能体工况轨迹子集

得到第f_n第二状态价值函数值/>

根据本公开的实施例，根据第f_n第二概率值、第f_n第三概率值、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值C，可以包括如下操作。

确定第f_n第二概率值与第f_n第三概率值之间的第f_n第一比值。根据第f_n第二概率值和第f_n第三概率值，确定第f_n散度。根据第f_n第一比值、第f_n散度、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值C。

根据本公开的实施例，第f_n第一比值可以表征第f_n轮的第一比值。第f_n散度可以表征第f_n轮的散度。

根据本公开的实施例，在获得第f_n第二概率值

和第f_n第三概率值

之后，可以确定第f_n第二概率值/>

与第f_n第三概率值/>

之间的第f_n第一比值/>

根据第f_n第二概率值/>

和第f_n第三概率值/>

确定第f_n散度/>

根据本公开的实施例，根据第f_n第一比值、第f_n散度、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值C，可以包括如下操作。

根据第f_n散度惩罚系数和第f_n散度，得到第f_n第一中间值。根据第f_n第一比值、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第f_n第二中间值。根据第f_n第一中间值和第f_n第二中间值，得到第二第f_n梯度值C。

根据本公开的实施例，第f_n散度惩罚系数可以表征第f_n轮的散度惩罚系数。第f_n第一中间值表征第f_n轮的第一中间值。第f_n第二中间值可以表征第f_n轮的第二中间值。

根据本公开的实施例，在获得第f_n散度

之后，可以根据第f_n散度惩罚系数/>

和第f_n散度/>

得到第f_n第一中间值

在获得第f_n第一比值/>

第f_n第二动作价值函数值/>

和第f_n第二状态价值函数值/>

之后，可以根据第f_n第一比值

第f_n第二动作价值函数值/>

和第f_n第二状态价值函数值

得到第f_n第二中间值/>

根据本公开的实施例，第f_n散度惩罚系数可以是根据第f_n-1散度和预定适应性系数对第f_n-1散度惩罚系数进行调整得到的。第f_n-1散度惩罚系数可以表征第f_n-1轮的散度惩罚系数。

根据本公开的实施例，预定适应性系数可以包括第一预定适应性系数和第二预定适应性系数。可以确定预期散度与第一预定适应性系数之间的比值，得到第一数值。确定预期散度与第一预定适应性系数之间的乘积，得到第二数值。确定第f_n-1散度与第二预定适应性系数之间的比值，得到第f_n-1第三数值。确定第f_n-1散度与第二预定适应性系数之间的乘积，得到第f_n-1第四数值。

根据本公开的实施例，在确定第f_n-1散度小于第一数值的情况下，可以将第f_n-1第三数值确定为第f_n散度惩罚系数。在确定第f_n-1散度大于第二数值的情况下，可以将第f_n-1第四数值确定为第f_n散度惩罚系数。

根据本公开的实施例，可以根据如下式(4)确定第f_n散度惩罚系数。

根据本公开的实施例，d可以表征第f_n散度惩罚系数。

可以表征第f_n-1散度。

根据本公开的实施例，在d＜d_target/a的情况下，

在d＞d_target×a的情况下，/>

a可以表征第一预定适应性系数。第一预定适应性系数可以是大于0且小于或等于1的数。b可以表征第二预定适应性系数。第二预定适应性系数可以是大于0且小于或等于1的数。d_target可以表征预期散度。/>

可以表征第f_n散度惩罚系数。/>

可以表征第f_n-1散度惩罚系数。

基于第二第三梯度函数，根据第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值H。

根据本公开的实施例，第二第f_n梯度值H可以表征第f_n轮的第二梯度值H。

根据第二第f_n梯度值C调整第f_n-1轮的第二策略器的模型参数，得到第f_n轮的第二策略器。根据第二第f_n梯度值H调整第f_n-1轮的第二价值器的模型参数，得到第f_n轮的第二价值器。

根据本公开的实施例，可以根据如下式(5)确定第二第二梯度函数。

根据本公开的实施例，

可以表征第二第二梯度函数。/>

可以表征第f_n智能体工况轨迹子集C2。/>

可以表征第f_n-1轮的第二策略器。/>

可以表征第f_n第二概率值。/>

可以表征第f_n第三概率值。/>

可以表征第f_n第二动作价值函数值。/>

可以表征第f_n第二状态价值函数值。/>

可以表征第f_n散度。/>

可以表征第f_n散度惩罚系数。s_t可以表征第t个第f_n状态C2。a_t可以表征第t个第f_n动作C2。T₂可以表征第f_n智能体工况轨迹子集C2包括的第f_n智能体工况轨迹C2的数目。t可以是大于或等于1且小于或等于T₂的整数。T₂可以是大于或等于1的整数。

根据本公开的实施例，可以根据如下式(6)确定第二第三梯度函数。

根据本公开的实施例，

可以表征第二第三梯度函数。公式(6)中其他参数的含义可以参见公式(5)的说明，在此不再赘述。

根据本公开的实施例，由于第f_n轮的第二策略器是基于散度系数平滑法，根据第二第f_n梯度值C调整第f_n-1轮的第二策略器的模型参数得到的，散度系数平滑法更为适合应用于流程型工业环境，因此，降低了自然梯度的计算复杂度，进而提高了计算效率。

图4示意性示出了根据本公开实施例的得到第f_n轮的第一策略网络过程的示例示意图。

如图4所示，在400中，智能体工况轨迹集403可以包括第f_n智能体工况轨迹子集C2403_1和第f_n-1智能体工况轨迹子集C1403_2。

可以根据第f_n智能体工况轨迹子集C2403_1，得到第f_n第二概率值404。根据第f_n-1智能体工况轨迹子集C1403_2，得到第f_n第三概率值405。

可以利用第f_M轮的第二判别器401处理第f_n-1智能体工况轨迹子集C1403_2，得到第f_n第二动作价值函数值406。利用第f_n-1轮的第二价值器402_2处理第f_n-1智能体工况轨迹子集C1403_2，得到第f_n第二状态价值函数值407。

可以确定第f_n第二概率值404与第f_n第三概率值405之间的第f_n第一比值408。根据第f_n第二概率值404和第f_n第三概率值405，确定第f_n散度409。

可以根据第f_n散度惩罚系数410和第f_n散度409，得到第f_n第一中间值411。根据第f_n第一比值408、第f_n第二动作价值函数值406和第f_n第二状态价值函数值407，得到第f_n第二中间值412。根据第f_n第一中间值411和第f_n第二中间值412，得到第二第f_n梯度值C413。

可以根据第二第f_n梯度值C413调整第f_n-1轮的第二策略器402_2的模型参数，得到第f_n轮的第二策略器414_2。基于第二第三梯度函数415，根据第f_n第二动作价值函数值406和第f_n第二状态价值函数值407，得到第二第f_n梯度值H416。

根据第二第f_n梯度值H调整416第f_n-1轮的第二价值器402_1的模型参数，得到第f_n轮的第二价值器414_1。

根据本公开的实施例，策略器可以是第三策略器。判别器可以是第三判别器。第一策略网络还可以包括第三价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C可以包括第f_n智能体工况轨迹子集C3。第f_n智能体工况轨迹子集C3可以表征与第f_n轮对应的智能体工况轨迹子集C3。第f_n智能体工况轨迹子集C3可以包括至少一个第f_n动作状态对C3。第f_n动作状态对C3可以包括第f_n状态C3和与第f_n状态C3对应的第f_n动作C3。第f_n动作状态对C3可以表征第f_n轮的动作状态对C3。第f_n状态C3可以表征第f_n轮的状态C3。第f_n动作C3可以表征第f_n轮的动作C3。

根据本公开的实施例，第f_n智能体工况轨迹子集C3可以是第f_n智能体工况轨迹集C中的至少部分，即第f_n智能体工况轨迹子集C3可以是第f_n智能体工况轨迹集C，或第f_n智能体工况轨迹子集C3可以是第f_n智能体工况轨迹集C的部分。针对第f_n动作状态对C3、第f_n状态C3和第f_n动作C3的说明，可以参见上文针对第f_n动作状态对C1、第f_n状态C1和第f_n动作C1的相关说明，在此不再赘述。

根据本公开的实施例，第f_n-1智能体工况轨迹集C可以包括第f_n-1智能体工况轨迹子集C2。第f_n-1智能体工况轨迹子集C2可以表征与第f_n-1轮对应的智能体工况轨迹子集C2。第f_n-1智能体工况轨迹子集C2可以包括至少一个第f_n-1动作状态对C2。第f_n-1动作状态对C2可以包括第f_n-1状态C2和与第f_n-1状态C2对应的第f_n-1动作C2。第f_n-1动作状态对C2可以表征第f_n-1轮的动作状态对C2。第f_n-1状态C2可以表征第f_n-1轮的状态C2。第f_n-1动作C2可以表征第f_n-1轮的动作C2。

根据本公开的实施例，第二梯度函数可以是第三第二梯度函数，第f_n梯度值C可以是第三第f_n梯度值C。

根据第f_n智能体工况轨迹子集C3，得到第f_n第四概率值。根据第f_n-1智能体工况轨迹子集C2，得到第f_n第五概率值。利用第f_M轮的第三判别器处理第f_n-1智能体工况轨迹子集C2，得到第f_n第三动作价值函数值。利用第f_n-1轮的第三价值器处理第f_n-1智能体工况轨迹子集C2，得到第f_n第三状态价值函数值。根据第f_n第四概率值、第f_n第五概率值、第f_n第三动作价值函数值和第f_n第三状态价值函数值，得到第三第f_n梯度值C。

根据本公开的实施例，第f_n智能体工况轨迹子集C3可以是利用第f_n-1轮的第三策略器处理至少一个第f_n状态C3得到的。第f_n第四概率值可以表征第f_n轮的第四概率值。第f_n-1智能体工况轨迹子集C2可以是利用第f_n-2轮的第三策略器处理至少一个第f_n-1状态C2得到的。第f_n第五概率值可以表征第f_n轮的第五概率值。第f_n第三动作价值函数值可以表征第f_n轮的第三动作价值函数值。第f_n第三状态价值函数值可以表征第f_n轮的第三状态价值函数值。

根据本公开的实施例，第f_n-1智能体工况轨迹子集C2可以是第f_n-1智能体工况轨迹集C中的至少部分，即第f_n-1智能体工况轨迹子集C2可以是第f_n-1智能体工况轨迹集C，或第f_n-1智能体工况轨迹子集C2可以是第f_n-1智能体工况轨迹集C的部分。

根据本公开的实施例，在获得至少一个第f_n状态C3中的第t个第f_n状态C3s_t之后，可以利用第f_n-1轮的第三策略器

分别处理至少一个第f_n状态C3中的第t个第f_n状态C3s_t，得到第f_n智能体工况轨迹子集/>

在获得第f_n智能体工况轨迹子集/>

之后，可以根据第f_n智能体工况轨迹子集/>

确定第f_n第四概率值/>

根据本公开的实施例，在获得至少一个第f_n-1状态C2中的第t个第f_n-1状态C2s_t之后，之后，可以利用第f_n-2轮的第三策略器

分别处理至少一个第f_n-1状态C2中的第t个第f_n-1状态C2s_t，得到第f_n-1智能体工况轨迹子集/>

在获得第f_n-1智能体工况轨迹子集C2之后，可以根据第f_n-1智能体工况轨迹子集C2，确定第f_n第五概率值/>

根据本公开的实施例，在获得第f_n-1智能体工况轨迹子集

之后，可以利用第f_n-1轮的第三判别器/>

处理第f_n-1智能体工况轨迹子集/>

得到第f_n第三动作价值函数值/>

利用第f_n-1轮的第三价值器/>

处理第f_n-1智能体工况轨迹子集

得到第f_n第三状态价值函数值/>

根据本公开的实施例，根据第f_n第四概率值、第f_n第五概率值、第f_n第三动作价值函数值和第f_n第三状态价值函数值，得到第三第f_n梯度值C，可以包括如下操作。

确定第f_n第四概率值与第f_n第五概率值之间的第f_n第二比值。根据第f_n第二比值、第f_n第三动作价值函数值和第f第三状态价值函数值，得到第f_n第三中间值。根据预定截断因子、第f_n第三动作价值函数值和第f_n第三状态价值函数值，得到第f_n第四中间值。根据第f_n第三中间值和第f_n第四中间值，得到第三第f_n梯度值C。

根据本公开的实施例，第f_n第二比值可以表征第f_n轮的第二比值。第f_n第三中间值可以表征第f_n轮的第三中间值。第f_n第四中间值可以表征第f_n轮的第四中间值。

根据本公开的实施例，在获得第f_n第四概率值

和第f_n第五概率值

之后，可以确定第f_n第四概率值/>

和第f_n第五概率值/>

之间的第f_n第二比值/>

根据本公开的实施例，在获得第f_n第二比值

第f_n第三动作价值函数值

和第f_n第三状态价值函数值/>

之后，可以

根据第f_n第二比值

第f_n第三动作价值函数值/>

和第f_n第三状态价值函数值/>

得到第f_n第三中间值/>

根据预定截断因子ε、第f_n第三动作价值函数值/>

和第f_n第三状态价值函数值

得到第f_n第四中间值/>

基于第三第三梯度函数，根据第f_n第三动作价值函数值和第f_n第三状态价值函数值，得到第三第f_n梯度值H。

根据本公开的实施例，第三第f_n梯度值H可以表征第f_n轮的第三梯度值H。

根据第三第f_n梯度值C调整第f_n-1轮的第三策略器的模型参数，得到第f_n轮的第三策略器。根据第三第f_n梯度值H调整第f_n-1轮的第三价值器的模型参数，得到第f_n轮的第三价值器。

根据本公开的实施例，可以根据如下式(7)确定第三第二梯度函数。

根据本公开的实施例，

可以表征第三第二梯度函数。/>

可以表征第f_n智能体工况轨迹子集C3。/>

可以表征第f_n-1轮的第三策略器。/>

可以表征第f_n第四概率值。/>

可以表征第f_n第五概率值。/>

可以表征第f_n第三动作价值函数值。/>

可以表征第f_n第三状态价值函数值。ε可以表征预定截断因子。预定截断因子可以是大于0且小于1的数。s_t可以表征第t个第f_n状态C3。a_t可以表征第t个第f_n动作C3。T₃可以表征第f_n智能体工况轨迹子集C3包括的第f_n智能体工况轨迹C3的数目。t可以是大于或等于1且小于或等于T₃的整数。T₃可以是大于或等于1的整数。

根据本公开的实施例，由于第f_n轮的第三策略器是基于截断因子法，根据第三第f_n梯度值C调整第f_n-1轮的第三策略器的模型参数得到的，截断因子法更为适合应用于流程型工业环境，因此，降低了自然梯度的计算复杂度，进而提高了计算效率。

图5示意性示出了根据本公开另一实施例的得到第f_n轮的第一策略网络过程的示例示意图。

如图5所示，在500中，智能体工况轨迹集C503可以包括第f_n智能体工况轨迹子集C3503_1和第f_n-1智能体工况轨迹子集C2503_2。

可以根据第f_n智能体工况轨迹子集C3503_1，得到第f_n第四概率值504。根据第f_n-1智能体工况轨迹子集C2503_2，得到第f_n第五概率值505。

可以利用第f_M轮的第三判别器501处理第f_n-1智能体工况轨迹子集C2503_2，得到第f_n第三动作价值函数值506。利用第f_n-1轮的第三价值器502_1处理第f_n-1智能体工况轨迹子集C2503_2，得到第f_n第三状态价值函数值507。

可以确定第f_n第四概率值504与第f_n第五概率值505之间的第f_n第二比值508。根据第f_n第二比值508、第f_n第三动作价值函数值506和第f第三状态价值函数值507，得到第f_n第三中间值509。根据预定截断因子510、第f_n第三动作价值函数值506和第f_n第三状态价值函数值507，得到第f_n第四中间值511。

可以根据第f_n第三中间值509和第f_n第四中间值511，得到第三第f_n梯度值C512。基于第三第三梯度函数514，根据第f_n第三动作价值函数值506和第f_n第三状态价值函数值507，得到第三第f_n梯度值H515。

可以根据第三第f_n梯度值C512调整第f_n-1轮的第三策略器502_2的模型参数，得到第f_n轮的第三策略器513_2。根据第三第f_n梯度值H515调整第f_n-1轮的第三价值器502_1的模型参数，得到第f_n轮的第三价值器513_1。

根据本公开的实施例，策略器可以是第四策略器。判别器可以是第四判别器。第一策略网络还可以包括第四价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C可以包括第f_n智能体工况轨迹子集C4。第f_n智能体工况轨迹子集C4可以表征与第f_n轮对应的智能体工况轨迹子集C4。第f_n智能体工况轨迹子集C4可以包括至少一个第f_n动作状态对C4。第f_n动作状态对C4可以包括第f_n状态C4和与第f_n状态C4对应的第f_n动作C4。第f_n动作状态对C4可以表征第f_n轮的动作状态对C4。第f_n状态C4可以表征第f_n轮的状态C4。第f_n动作C4可以表征第f_n轮的动作C4。

根据本公开的实施例，第f_n智能体工况轨迹子集C4可以是第f_n智能体工况轨迹集C中的至少部分，即第f_n智能体工况轨迹子集C4可以是第f_n智能体工况轨迹集C，或第f_n智能体工况轨迹子集C4可以是第f_n智能体工况轨迹集C的部分。针对第f_n动作状态对C4、第f_n状态C4和第f_n动作C4的说明，可以参见上文针对第f_n的动作状态对C1、第f_n状态C1和第f_n动作C1的相关说明，在此不再赘述。

根据第f_n智能体工况轨迹子集C4，得到第f_n第六概率值。根据第f_n-1智能体工况轨迹子集C3，得到第f_n第七概率值。利用第f_M轮的第四判别器处理第f_n-1智能体工况轨迹子集C3，得到第f_n第四动作价值函数值。利用第f_n-1轮的第四价值器处理第f_n-1智能体工况轨迹子集C3，得到第f_n第四状态价值函数值。根据第f_n第六概率值、第f_n第七概率值、第f_n第四动作价值函数值和第f_n第四状态价值函数值，得到第四第f_n梯度值C。

根据本公开的实施例，第f_n-1智能体工况轨迹集C可以包括第f_n-1智能体工况轨迹子集C3。第f_n-1智能体工况轨迹子集C3可以表征与第f_n-1轮对应的智能体工况轨迹子集C3。第f_n-1智能体工况轨迹子集C3可以包括至少一个第f_n-1动作状态对C3。第f_n-1动作状态对C3可以包括第f_n-1状态C3和与第f_n-1状态C3对应的第f_n-1动作C3。第f_n-1动作状态对C3可以表征第f_n-1轮的动作状态对C3。第f_n-1状态C3可以表征第f_n-1轮的状态C3。第f_n-1动作C3可以表征第f_n-1轮的动作C3。

根据本公开的实施例，第二梯度函数可以是第四第二梯度函数。第f_n梯度值C可以是第四第f_n梯度值C。

根据本公开的实施例，第f_n智能体工况轨迹子集C4可以是利用第f_n-1轮的第四策略器处理至少一个第f_n状态C4得到的。第f_n第六概率值可以表征第f_n轮的第六概率值。第f_n-1智能体工况轨迹子集C3可以是利用第f_n-2轮的第四策略器处理至少一个第f_n-1状态C3得到的。第f_n第七概率值可以表征第f_n轮的第七概率值。第f_n第四动作价值函数值可以表征第f_n轮的第四动作价值函数值。第f_n第四状态价值函数值可以表征第f_n轮的第四状态价值函数值。

根据本公开的实施例，第f_n-1智能体工况轨迹子集C3可以是第f_n-1智能体工况轨迹集C中的至少部分，即第f_n-1智能体工况轨迹子集C3可以是第f_n-1智能体工况轨迹集C，或第f_n-1智能体工况轨迹子集C3可以是第f_n-1智能体工况轨迹集C的部分。

根据本公开的实施例，在获得至少一个第f_n状态C4中的第t个第f_n状态C4s_t之后，之后，可以利用第f_n-1轮的第四策略器

分别处理至少一个第f_n状态C4中的第t个第f_n状态C4s_t，得到第f_n智能体工况轨迹子集/>

在获得第f_n智能体工况轨迹子集/>

之后，可以根据第f_n智能体工况轨迹子集/>

确定第f_n第六概率值/>

根据本公开的实施例，在获得至少一个第f_n-1状态C3中的第t个第f_n-1状态C3s_t之后，可以利用第f_n-2轮的第四策略器

分别处理至少一个第f_n-1状态C3中的第t个第f_n-1状态C3s_t，得到第f_n-1智能体工况轨迹子集/>

在获得第f_n-1智能体工况轨迹子集

之后，可以根据第f_n-1智能体工况轨迹子集/>

确定第f_n第七概率值

根据本公开的实施例，在获得第f_n-1智能体工况轨迹子集

之后，可以利用第f_n-1轮的第四判别器/>

处理第f_n-1智能体工况轨迹子集/>

得到第f_n第四动作价值函数值/>

在获得第f_n智能体工况轨迹子集/>

之后，可以利用第f_n-1轮的第四价值器/>

处理第f_n智能体工况轨迹子集/>

得到第f_n第四状态价值函数值

根据本公开的实施例，根据第f_n第六概率值、第f_n第七概率值、第f_n第四动作价值函数值和第f_n第四状态价值函数值，得到第四第f_n梯度值C，可以包括如下操作。

确定第f_n第六概率值与第f_n第七概率值之间的第f_n第三比值。根据第f_n第三比值、第f_n第四动作价值函数值和第f第四状态价值函数值，得到第f_n第五中间值。根据第f_n轮的第五中间值，得到第四第f_n梯度值C。

根据本公开的实施例，第f_n第三比值可以表征第f_n轮的第三比值。第f_n第五中间值可以表征第f_n轮的第五中间值。

根据本公开的实施例，在获得第f_n第六概率值

和第f_n第七概率值

之后，可以确定第f_n第六概率值/>

和第f_n第七概率值/>

之间的第f_n第三比值/>

根据本公开的实施例，在获得第f_n第三比值

第f_n第四动作价值函数值/>

和第f第四状态价值函数值/>

之后，可以根据第f_n第三比值

第f_n第四动作价值函数值/>

和第f第四状态价值函数值

得到第f_n第五中间值/>

基于第四第三梯度函数，根据第f_n第四动作价值函数值和第f_n第四状态价值函数值，得到第四第f_n梯度值H。

根据本公开的实施例，第四第f_n梯度值H可以表征第f_n轮的第四梯度值H。

根据第四第f_n梯度值C调整第f_n-1轮的第四策略器的模型参数，得到第f_n轮的第四策略器。根据第四第f_n梯度值H调整第f_n-1轮的第四价值器的模型参数，得到第f_n轮的第四价值器。

根据本公开的实施例，可以根据如下式(8)确定第四第二梯度函数。

根据本公开的实施例，

可以表征第四第二梯度函数。/>

可以表征第f_n智能体工况轨迹子集C4。/>

可以表征第f_n-1轮的第四策略器。/>

可以表征第f_n第六概率值。/>

可以表征第f_n第七概率值。/>

可以表征第f_n第四动作价值函数值。/>

可以表征第f_n第四状态价值函数值。s_t可以表征第t个第f_n状态C4。a_t可以表征第t个第f_n动作C4。T₄可以表征第f_n智能体工况轨迹子集C4包括的第f_n智能体工况轨迹C4的数目。t可以是大于或等于1且小于或等于T₄的整数。T₄可以是大于或等于1的整数。

根据本公开的实施例，上述公式(8)中

可以表征/>

与/>

之间的散度。δ可以表征预定系数。预定系数可以是大于0且小于1的数。

根据本公开的实施例，由于第f_n轮的第四策略器是基于信赖域策略优化算法，根据第四第f_n梯度值C调整第f_n-1轮的第四策略器的模型参数得到的，利用在给定的信赖域约束里进行步长搜索的方式，能够提高策略表现能力。

图6示意性示出了根据本公开另一实施例的得到第f_n轮的第一策略网络过程的示例示意图。

如图6所示，在600中，智能体工况轨迹集C603可以包括第f_n智能体工况轨迹子集C4603_1和第f_n-1智能体工况轨迹子集C3603_2。

可以根据第f_n智能体工况轨迹子集C4603_1，得到第f_n第六概率值604。根据第f_n-1智能体工况轨迹子集C3603_2，得到第f_n第七概率值605。

可以利用第f_M轮的第四判别器601处理第f_n-1智能体工况轨迹子集C3603_2，得到第f_n第四动作价值函数值606。利用第f_n-1轮的第四价值器处理602_1第f_n-1智能体工况轨迹子集C603_2，得到第f_n第四状态价值函数值607。

可以确定第f_n第六概率值604与第f_n第七概率值605之间的第f_n第三比值608。根据第f_n第三比值608、第f_n第四动作价值函数值606和第f第四状态价值函数值607，得到第f_n第五中间值609。

可以根据第f_n轮的第五中间值609，得到第四第f_n梯度值C610。基于第四第三梯度函数612，根据第f_n第四动作价值函数值606和第f_n第四状态价值函数值607，得到第四第f_n梯度值H613。

可以根据第四第f_n梯度值C613调整第f_n-1轮的第四策略器602_2的模型参数，得到第f_n轮的第四策略器611_2。根据第四第f_n梯度值H613调整第f_n-1轮的第四价值器602_1的模型参数，得到第f_n轮的第四价值器611_1。

根据本公开的实施例，策略器可以是第五策略器。判别器可以是第五判别器。第一策略网络还可以包括第五价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C可以包括第f_n智能体工况轨迹子集C5。第f_n智能体工况轨迹子集C5可以表征与第f_n轮对应的智能体工况轨迹子集C5。第f_n智能体工况轨迹子集C5可以包括至少一个第f_n动作状态对C5。第f_n动作状态对C5可以包括第f_n状态C5和与第f_n状态C5对应的第f_n动作C5。第f_n动作状态对C5可以表征第f_n轮的动作状态对C5。第f_n状态C5可以表征第f_n轮的状态C5。第f_n动作C5可以表征第f_n轮的动作C5。

根据本公开的实施例，第二梯度函数可以是第五第二梯度函数。第f_n梯度值C可以是第五第f_n梯度值C。

根据第f_n智能体工况轨迹子集C5，得到第f_n第八概率值。利用第f_M轮的第五判别器处理第f_n智能体工况轨迹子集C5，得到第f_n第五动作价值函数值。利用第f_n-1轮的第五价值器处理第f_n智能体工况轨迹子集C5，得到第f_n第五状态价值函数值。根据第f_n第八概率值、第f_n第五动作价值函数值和第f_n第五状态价值函数值，得到第五第f_n梯度值C。

根据本公开的实施例，第f_n智能体工况轨迹子集C5可以是利用第f_n-1轮的第五策略器处理至少一个第f_n状态C5得到的。第f_n-1轮的第五策略器的模型参数可以是第一从进程响应于针对第一策略网络的第f_n轮训练操作，根据从第一主进程获取的第一当前全局策略器模型参数确定的。第f_n第八概率值可以表征第f_n轮的第八概率值。第f_n第五动作价值函数值可以表征第f_n轮的第五动作价值函数值。第f_n-1轮的第五价值器的模型参数可以是第一从进程响应于针对第一策略网络的第f_n轮训练操作，根据从第一主进程获取的第一当前全局价值器模型参数确定的。第f_n第五状态价值函数值可以表征第f_n轮的第五状态价值函数值。

根据本公开的实施例，第f_n智能体工况轨迹子集C5可以是第f_n智能体工况轨迹集C中的至少部分，即第f_n智能体工况轨迹子集C5可以是第f_n智能体工况轨迹集C，或第f_n智能体工况轨迹子集C5可以是第f_n智能体工况轨迹集C的部分。针对第f_n动作状态对C5、第f_n状态C5和第f_n动作C5的说明，可以参见上文针对第f_n动作状态对C1、第f_n状态C1和第f_n动作C1的相关说明，在此不再赘述。

根据本公开的实施例，可以包括第一主进程、第一从进程和第一其他从进程。第一其他从进程的数目可以包括至少一个。第一主进程、第一从进程和第一其他从进程可以配置于电子设备。

根据本公开的实施例，异步优势演员评论家算法可以包括发送操作和更新操作。发送操作可以指向第一主进程发送第f_n轮的第五策略器和第f_n轮的第五价值器的模型参数的操作。更新操作可以指第一主进程根据第f_n轮的第五策略器和第五价值器的模型参数进行异步更新的操作。异步更新可以指模型参数可以不是同一时刻产生的。

基于第五第三梯度函数，根据第f_n第五动作价值函数值和第f_n第五状态价值函数值，得到第五第f_n梯度值H。

根据本公开的实施例，第五第f_n梯度值H可以表征第f_n轮的第五梯度值H。

根据第五第f_n梯度值C调整第f_n-1轮的第五策略器的模型参数，得到第f_n轮的第五策略器。根据第五第f_n梯度值H调整第f_n-1轮的第五价值器的模型参数，得到第f_n轮的第五价值器。

向第一主进程发送第f_n轮的第五策略器的模型参数和第f_n轮的第五价值器的模型参数，以便第一主进程根据第f_n轮的第五策略器的模型参数异步更新第二当前全局策略器模型参数，得到新的第一当前全局策略器模型参数以及根据第f_n轮的第五价值器的模型参数异步更新第二当前全局价值器模型参数，得到新的第一当前全局价值器模型参数。

根据本公开的实施例，第二当前全局策略器模型参数可以是第一当前全局策略器模型参数和第一主进程接收到的第一其他从进程发送的第五策略器的模型参数中的之一。

根据本公开的实施例，第二当前全局价值器模型参数可以是第一当前全局价值器模型参数和第一主进程接收到的第一其他从进程发送的第五价值器的模型参数中的之一。

根据本公开的实施例，由于第f_n轮的第五策略器是基于异步优势演员评论家算法，根据第五第f_n梯度值C调整第f_n-1轮的第五策略器的模型参数得到的，通过异步优势演员评论家算法发送操作和更新操作能够异步地更新全局参数，由此缩短了训练耗时。

图7示意性示出了根据本公开另一实施例的得到第f_n轮的第一策略网络过程的示例示意图。

如图7所示，在700中，第f_n智能体工况轨迹集C703可以包括第f_n智能体工况轨迹子集C5703_1。

根据第f_n智能体工况轨迹子集C5703_1，得到第f_n第八概率值704。利用第f_M轮的第五判别器701处理第f_n智能体工况轨迹子集C5703_1，得到第f_n第五动作价值函数值705。利用第f_n-1轮的第五价值器702_1处理第f_n智能体工况轨迹子集C5703_1，得到第f_n第五状态价值函数值706。

根据第f_n第八概率值704、第f_n第五动作价值函数值705和第f_n第五状态价值函数值706，得到第五第f_n梯度值C707。基于第五第三梯度函数709，根据第f_n第五动作价值函数值705和第f_n第五状态价值函数值706，得到第五第f_n梯度值H710。

根据第五第f_n梯度值C707调整第f_n-1轮的第五策略器702_2的模型参数，得到第f_n轮的第五策略器708_2。根据第五第f_n梯度值H710调整第f_n-1轮的第五价值器702_1的模型参数，得到第f_n轮的第五价值器708_1。

向第一主进程711发送第f_n轮的第五策略器的模型参数和第f_n轮的第五价值器的模型参数，以便第一主进程711根据第f_n轮的第五策略器的模型参数异步更新第二当前全局策略器模型参数712，得到新的第一当前全局策略器模型参数713。根据第f_n轮的第五价值器的模型参数异步更新第二当前全局价值器模型参数714，得到新的第一当前全局价值器模型参数715。

根据本公开的实施例，策略器可以是第六策略器。判别器可以是第六判别器。第一策略网络还可以包括第六价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C可以包括第f_n智能体工况轨迹子集C6。第f_n智能体工况轨迹子集C6可以表征与第f_n轮对应的智能体工况轨迹子集C6。第f_n智能体工况轨迹子集C6可以包括至少一个第f_n动作状态对C6。第f_n动作状态对C6可以包括第f_n状态C6和与第f_n状态C6对应的第f_n动作C6。第f_n动作状态对C6可以表征第f_n轮的动作状态对C6。第f_n状态C6可以表征第f_n轮的状态C6。第f_n动作C6可以表征第f_n轮的动作C6。

根据本公开的实施例，第二梯度函数可以是第六第二梯度函数。第f_n梯度值C可以是第六第f_n梯度值C。

根据第f_n智能体工况轨迹子集C6，得到第f_n第九概率值。利用第f_M轮的第六判别器处理第f_n智能体工况轨迹子集C6，得到第f_n第六动作价值函数值。利用第f_n-1轮的第六价值器处理第f_n智能体工况轨迹子集C6，得到第f_n第六状态价值函数值。根据第f_n第九概率值、第f_n第六动作价值函数值和第f_n第六状态价值函数值，得到第六第f_n梯度值C。

根据本公开的实施例，第f_n智能体工况轨迹子集C6可以是第f_n智能体工况轨迹集C中的至少部分，即第f_n智能体工况轨迹子集C6可以是第f_n智能体工况轨迹集C，或第f_n智能体工况轨迹子集C6可以是第f_n智能体工况轨迹集C的部分。第f_n智能体工况轨迹子集C6可以是利用第f_n-1轮的第六策略器处理至少一个第f_n状态C6得到的。第f_n-1轮的第六策略器的模型参数可以是第二从进程响应于针对第一策略网络的第f_n轮训练操作，根据从第二主进程获取的第三当前全局策略器模型参数确定的。第f_n第九概率值可以表征第f_n轮的第九概率值。第f_n第六动作价值函数值可以表征第f_n轮的第六动作价值函数值。第f_n-1轮的第六价值器的模型参数可以是第二从进程响应于针对第一策略网络的第f_n轮训练操作，根据从第二主进程获取的第三当前全局价值器模型参数确定的。第f_n第六状态价值函数值可以表征第f_n轮的第六状态价值函数值。

根据本公开的实施例，针对第f_n动作状态对C6、第f_n状态C6和第f_n动作C6的说明，可以参见上文针对第f_n动作状态对C1、第f_n状态C1和第f_n动作C1的相关说明，在此不再赘述。

基于第六第三梯度函数，根据第f_n第六动作价值函数值和第f_n第六状态价值函数值，得到第六第f_n梯度值H。

根据本公开的实施例，第六第f_n梯度值H可以表征第f_n轮的第六梯度值H。

根据第六第f_n梯度值C调整第f_n-1轮的第六策略器的模型参数，得到第f_n轮的第六策略器。根据第六第f_n梯度值H调整第f_n-1轮的第六价值器的模型参数，得到第f_n轮的第六价值器。

向第二主进程发送第f_n轮的第六策略器的模型参数和第f_n轮的第六价值器的模型参数，以便第二主进程在接收到第二其他从进程的第f_n轮的第六策略器的模型参数的情况下，根据第二从进程的第f_n轮的第六策略器的模型参数和第二其他从进程的第f_n轮的第六策略器的模型参数更新第三当前全局策略器模型参数，得到新的第三当前全局策略器模型参数以及根据第二从进程的第f_n轮的第六价值器的模型参数和第二其他从进程的第f_n轮的第六价值器的模型参数更新第三当前全局价值器模型参数，得到新的第三当前全局价值器模型参数。

根据本公开的实施例，由于第f_n轮的第六策略器是基于同步优势演员评论家算法，根据第六第f_n梯度值C调整第f_n-1轮的第六策略器的模型参数得到的，因此，能够解决强化学习中存在的智能体速度缓慢、分布散乱的问题，进而提高了工业节能模型的训练速度。

图8示意性示出了根据本公开另一实施例的得到第f_n轮的第一策略网络过程的示例示意图。

如图8所示，在800中，第f_n智能体工况轨迹集C803可以包括第f_n智能体工况轨迹子集C6803_1。

根据第f_n智能体工况轨迹子集C6803_1，得到第f_n第九概率值804。利用第f_M轮的第六判别器801处理第f_n智能体工况轨迹子集C6803_1，得到第f_n第六动作价值函数值805。利用第f_n-1轮的第六价值器802_1处理第f_n智能体工况轨迹子集C6803_1，得到第f_n第六状态价值函数值806。

根据第f_n第九概率值804、第f_n第六动作价值函数值805和第f_n第六状态价值函数值806，得到第六第f_n梯度值C807。基于第六第三梯度函数809，根据第f_n第六动作价值函数值805和第f_n第六状态价值函数值806，得到第六第f_n第三梯度810。

根据第六第f_n梯度值C807调整第f_n-1轮的第六策略器802_2的模型参数，得到第f_n轮的第六策略器808_2。根据第六第f_n梯度值H810调整第f_n-1轮的第六价值器802_1的模型参数，得到第f_n轮的第六价值器808_1。

向第二主进程811发送第f_n轮的第六策略器的模型参数和第f_n轮的第六价值器的模型参数，以便第二主进程811在接收到第二其他从进程的第f_n轮的第六策略器的模型参数的情况下，根据第二从进程的第f_n轮的第六策略器的模型参数和第二其他从进程的第f_n轮的第六策略器的模型参数更新第三当前全局策略器模型参数812，得到新的第三当前全局策略器模型参数813。

根据第二从进程的第f_n轮的第六价值器的模型参数和第二其他从进程的第f_n轮的第六价值器的模型参数更新第三当前全局价值器模型参数814，得到新的第三当前全局价值器模型参数815。

根据本公开的实施例，第f_n智能体工况轨迹子集C1、第f_n智能体工况轨迹子集C2、第f_n智能体工况轨迹子集C3、第f_n智能体工况轨迹子集C4、第f_n智能体工况轨迹子集C5和第f_n智能体工况轨迹子集C6彼此可以部分相同、完全相同和完全不同中的之一。第f_n-1智能体工况轨迹子集C1、第f_n-1智能体工况轨迹子集C2和第f_n-1智能体工况轨迹子集C3彼此可以部分相同、完全相同和完全不同中的之一。

根据本公开的实施例，交替执行利用智能体工况轨迹集B和专家工况轨迹集训练判别器以及利用智能体工况轨迹集C训练第一策略网络的操作，直至满足预定结束条件，可以包括如下操作。

交替执行利用智能体工况轨迹集B、专家工况轨迹集和普通工况轨迹集训练判别器以及利用智能体工况轨迹集C训练第一策略网络的操作，直至满足预定结束条件。

根据本公开的实施例，工况轨迹集还可以包括普通工况轨迹集。普通工况轨迹集可以是普通对象利用普通对象策略与流程型工业环境进行交互得到的工况轨迹集。普通工况轨迹集可以包括至少一个普通工况轨迹。普通工况轨迹可以表征普通对象的动作状态序列。

根据本公开的实施例，普通对象可以指未能够形成满足预定节能条件的工况轨迹的对象。普通工况轨迹集可以包括至少一个普通工况轨迹。至少一个普通工况轨迹可以包括与至少一个普通对象对应的普通工况轨迹。例如，至少一个普通工况轨迹可以包括与至少一个普通对象各自对应的普通工况轨迹。普通工况轨迹可以指普通对象利用普通对象策略与流程型工业环境进行交互形成的工况轨迹。普通对象策略可以指与普通对象对应的策略。普通对象工况轨迹可以表征普通对象的动作状态序列。普通对象的动作状态序列可以包括普通对象状态和与普通对象状态对应的普通对象动作。可以将普通对象的动作状态序列称为普通对象动作状态序列。

根据本公开的实施例，普通工况轨迹是未满足预定节能条件的工况轨迹可以指与普通工况轨迹对应的能耗大于预定能耗阈值。与普通工况轨迹对应的能耗可以表征在利用普通工况轨迹执行流程型工业任务的情况下所消耗的能源值。预定能耗阈值可以根据实际业务需求进行配置，在此不作限定。例如，预定能耗阈值可以是根据与至少一个样本工况轨迹对应的能耗确定的。与普通工况轨迹对应的能耗和与样本工况轨迹对应的能耗的确定方式可以根据实际业务需求进行配置，在此不作限定。例如，可以根据与普通工况轨迹对应的奖励值确定与普通工况轨迹对应的能耗。与样本工况轨迹对应的奖励值确定与样本工况轨迹对应的能耗。

根据本公开的实施例，普通工况轨迹还可以满足以下至少之一：与普通工况轨迹对应的普通对象动作变化率大于预定变化率阈值，以及与普通工况轨迹对应的安全性校验参数未满足预定安全性校验参数范围。普通对象动作变化率可以指普通工况轨迹中普通对象动作的变化率。安全性校验参数可以指用于评估工况轨迹的安全性的参数。预定变化率阈值和预定安全性校验参数范围可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，由于可以利用预定划分策略确定普通工况轨迹集和专家工况轨迹集，预定划分策略可以是部分根据人为经验确定的，因此，将普通工况轨迹集参与到模仿学习模型的训练过程，能够使得训练过程能够引入人为经验，但又不完全依赖人工经验，由此，能够提高模仿学习模型的训练效果。

根据本公开的实施例，普通工况轨迹集可以包括与F次迭代对应的普通工况轨迹子集。

根据本公开的实施例，在保持第(f-1)_N轮的第一策略网络的模型参数不变的情况下，重复执行以下操作M次：利用第f_m智能体工况轨迹集B、第f_m普通工况轨迹子集和第f_m专家工况轨迹集训练第f_m-1轮的判别器，得到第f_m轮的判别器。在保持第f_M轮的判别器的模型参数不变的情况下，重复执行以下操作N次：利用第f_M轮的判别器和第f_n智能体工况轨迹集C训练第f_n-1轮的第一策略网络，得到第f_n轮的第一策略网络。第f_m普通工况轨迹子集可以表征与第f_m对应的普通工况轨迹子集。

根据本公开的实施例，利用第f_m智能体工况轨迹集B、第f_m普通工况轨迹子集和第f_m专家工况轨迹集训练第f_m-1轮的判别器，得到第f_m轮的判别器，可以包括：将第f_m智能体工况轨迹集B、第f_m普通工况轨迹子集和第f_m专家工况轨迹集输入第f_m-1轮的判别器，得到第f_m第三判别信息、第f_m第四判别信息和第f_m第五判别信息。基于第f_m第三判别信息、第f_m第四判别信息和第f_m第五判别信息训练第f_m-1轮的判别器，得到第f_m轮的判别器。第f_m第三判别信息可以表征第f_m轮的与第f_m智能体工况轨迹集B对应的第三判别信息。第f_m第四判别信息可以表征第f_m轮的与第f_m普通工况轨迹子集对应的第四判别信息。第f_m第五判别信息可以表征f_m轮的与第f_m次专家工况轨迹集对应的第五判别信息。

根据本公开的实施例，基于第f_m第三判别信息、第f_m第四判别信息和第f_m第五判别信息训练第f_m-1轮的判别器，得到第f_m轮的判别器，可以包括如下：基于第四梯度函数，根第f_m第三判别信息、第f_m第四判别信息和第f_m第五判别信息，得到第f_m第四梯度值。根据第f_m第四梯度值调整第f_m-1轮的判别器的模型参数，得到第f_m轮的判别器的模型参数。第f_m第四梯度值可以表征第f_m轮的第四梯度值。

根据本公开的实施例，操作S210包括重复执行以下操作，直至满足预定结束条件。

基于损失函数，根据专家工况轨迹集和智能体工况轨迹集，得到损失函数值。根据损失函数值调整模仿学习模型的模型参数。

根据本公开的实施例，行为克隆可以指通过监督学习，根据专家工况轨迹集的动作状态对，得到状态到动作的映射策略的方法。行为克隆的目标是找到从状态空间到动作空间的直接映射，而无需显示的将奖励函数恢复出来。基于是否需要对任务中的环境进行建模，行为克隆方法可以包括以下至少之一：无模型行为克隆方法和有模型行为克隆方法。

根据本公开的实施例，在模仿学习模型为基于行为克隆的模仿学习模型的情况下，可以基于损失函数，根据专家工况轨迹集和智能体工况轨迹集，得到损失函数值。根据损失函数值调整模仿学习模型的模型参数，直至满足预定结束条件。例如，可以根据反向传播算法或随机梯度下降算法，调整模仿学习模型的模型参数，直至满足预定结束条件。将在满足预定结束条件的情况下得到的模仿学习模型确定为工业节能模型。

根据本公开的实施例，操作S210可以包括如下操作。

利用专家工况轨迹集和智能体工况轨迹集对奖励网络和第二策略网络进行交替训练，直至满足预定结束条件。

根据本公开的实施例，智能体工况轨迹集可以是利用第二策略网络生成的。

根据本公开的实施例，操作S220可以包括如下操作。

将训练完成的第二策略网络确定为工业节能模型。

根据本公开的实施例，模仿学习模型可以包括第二策略网络和奖励网络。

根据本公开的实施例，逆强化学习可以指假设专家示范是基于奖励网络下的最优策略产生的。通过逆强化学习可以先求出该奖励网络，再利用该奖励网络通过基于策略梯度的强化学习方法求得最优策略。

根据本公开的实施例，交替训练可以包括第一求解操作、第二求解操作、迭代操作和收敛操作。第一求解操作可以包括假设专家策略为真实奖励函数下的最优策略，求解奖励函数。第二求解操作可以包括基于奖励函数，通过强化学习求解潜在最优策略。迭代操作可以包括迭代执行第一求解操作和第二求解操作，以使得奖励函数逐渐接近真实奖励函数，并引导智能体策略收敛到专家策略。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他工业节能模型的训练方法，只要能够提高模型的预测精度和缩短训练耗时即可。

图9示意性示出了根据本公开实施例的动作确定方法的流程图。

如图9所示，该方法900包括操作S910。

在操作S910，将目标智能体状态输入工业节能模型，得到目标动作。

根据本公开的实施例，工业节能模型可以是利用根据本公开实施例所述的工业节能模型的训练方法训练得到的。工业节能模型可以用于实现目标智能体策略。

根据本公开的实施例，可以利用工况轨迹集训练模仿学习模型，直至满足预定结束条件。根据训练完成的模仿学习模型，得到工业节能模型。可以将目标智能体状态输入工业节能模型，得到目标动作。

根据本公开的实施例，由于目标动作是通过将目标智能体状态输入工业节能模型得到的，工业节能模型是通过利用工况轨迹集训练模仿学习模型得到的，因此，提高了目标动作确定的准确性，由此提高了节能效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他动作确定方法，只要能够提高目标动作确定的准确性即可。

图10示意性示出了根据本公开实施例的工业节能模型的训练装置的框图。

如图10所示，工业节能模型的训练装置1000可以包括训练模块1010和第一获得模块1020。

训练模块1010，用于利用工况轨迹集训练模仿学习模型，直至满足预定结束条件。

第一获得模块1020，用于根据训练完成的模仿学习模型，得到工业节能模型。

根据本公开的实施例，工况轨迹集包括专家工况轨迹集和智能体工况轨迹集。

根据本公开的实施例，专家工况轨迹集是专家利用专家策略与流程型工业环境进行交互且满足预定节能条件得到的工况轨迹集。专家工况轨迹集包括至少一个专家工况轨迹。专家工况轨迹表征专家的动作状态序列。

根据本公开的实施例，智能体工况轨迹集是智能体利用智能体策略与流程型工业环境进行交互得到的工况轨迹集。智能体工况轨迹集包括至少一个智能体工况轨迹。智能体工况轨迹表征智能体的动作状态序列。

根据本公开的实施例，模仿学习模型包括第一策略网络和判别器，第一策略网络包括策略器。

根据本公开的实施例，训练模块1010可以包括第一训练子模块。

第一训练子模块，用于利用专家工况轨迹集和智能体工况轨迹集对第一策略网络和判别器进行交替训练，直至满足预定结束条件。智能体工况轨迹集是利用策略器生成的。

根据本公开的实施例，获得模块1020可以包括第一确定子模块。

第一确定子模块，用于将训练完成的策略器确定为工业节能模型。

根据本公开的实施例，智能体工况轨迹集包括智能体工况轨迹集B和智能体工况轨迹集C。

根据本公开的实施例，第一训练子模块可以包括第一训练单元。

第一训练单元，用于交替执行利用智能体工况轨迹集B和专家工况轨迹集训练判别器以及利用智能体工况轨迹集C训练第一策略网络的操作，直至满足预定结束条件。

根据本公开的实施例，智能体工况轨迹集B包括与F次迭代对应的至少一个智能体工况轨迹集B和与F次迭代对应的至少一个智能体工况轨迹集C。专家工况轨迹集包括与F次迭代对应的专家工况轨迹集。F是大于或等于1的整数。

根据本公开的实施例，第一训练单元可以包括第一训练子单元和第二训练子单元。第一训练子单元和第二训练子单元可以交替执行以下训练判别器和第一策略网络的操作，直至满足预定结束条件：

第一训练子单元，用于在保持第(f-1)_N轮的第一策略网络的模型参数不变的情况下，重复执行以下操作M次：利用第f_m智能体工况轨迹集B和第f_m专家工况轨迹集训练第f_m-1轮的判别器，得到第f_m轮的判别器。

第二训练子单元，用于在保持第f_M轮的判别器的模型参数不变的情况下，重复执行以下操作N次：利用第f_M轮的判别器和第f_n智能体工况轨迹集C训练第f_n-1轮的第一策略网络，得到第f_n轮的第一策略网络。

根据本公开的实施例，f是大于或等于1且小于或等于F的整数。

根据本公开的实施例，第f_m-1轮表征第f次迭代中的第(m-1)轮，f_m轮表征第f次迭代中的第m轮。第f_M轮表征第f次迭代中的第M轮。m是大于1且小于或等于M的整数。M是大于1的整数。

根据本公开的实施例，第(f-1)_N轮表征第(f-1)次迭代中的第N轮。第f_n-1轮表征第f次迭代中的第(n-1)轮。第f_n轮表征第f次迭代中的第n轮。n是大于1且小于或等于N的整数。N是大于1的整数。

根据本公开的实施例，第f_m智能体工况轨迹集B表征与第f_m轮对应的智能体工况轨迹集B。第f_n智能体工况轨迹集C表征与第f_n轮对应的智能体工况轨迹集C。第f_m专家工况轨迹集表征与第f_m轮对应的专家工况轨迹集。

根据本公开的实施例，第一训练子单元可以用于：

将第f_m智能体工况轨迹集B和第f_m专家工况轨迹集输入第f_m-1轮的判别器，得到第f_m第一判别信息和第f_m第二判别信息。第f_m第一判别信息表征第f_m轮的与第f_m智能体工况轨迹集B对应的第一判别信息。第f_m第二判别信息表征f_m轮的与第f_m次专家工况轨迹集对应的第二判别信息。基于第f_m第一判别信息和第f_m第二判别信息训练第f_m-1轮的判别器，得到第f_m轮的判别器。

根据本公开的实施例，基于第f_m第一判别信息和第f_m第二判别信息训练第f_m-1轮的判别器，得到第f_m轮的判别器，可以包括：

基于第一梯度函数，根据第f_m第一判别信息和第f_m第二判别信息，得到第f_m梯度值B。第f_m梯度值B表征第f_m轮的梯度值B。根据第f_m梯度值B调整第f_m-1轮的判别器的模型参数，得到第f_m轮的判别器的模型参数。

根据本公开的实施例，第二训练子单元可以用于：

基于第二梯度函数，根据第f_M轮的判别器和第f_n智能体工况轨迹集C，得到第f_n梯度值C。第f_n梯度值C表征第f_n轮的梯度值C。根据第f_n梯度值C调整第f_n-1轮的第一策略网络的模型参数，得到第f_n轮的第一策略网络。

根据本公开的实施例，策略器是第一策略器。判别器是第一判别器。

根据本公开的实施例，第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C1。第f_n智能体工况轨迹子集C1包括至少一个第f_n动作状态对C1。第f_n动作状态对C1包括第f_n状态C1和与第f_n状态C1对应的第f_n动作C1。第f_n动作状态对C1表征第f_n轮的动作状态对C1。第f_n状态C1表征第f_n轮的状态C1。第f_n动作C1表征第f_n轮的动作C1。

根据本公开的实施例，第二梯度函数是第一第二梯度函数。第f_n梯度值C是第一第f_n梯度值C。

根据本公开的实施例，基于第二梯度函数，根据第f_M轮的判别器和第f_n智能体工况轨迹集C，得到第f_n梯度值C，可以包括：

根据第f_n智能体工况轨迹子集C1，得到第f_n第一概率值。第f_n智能体工况轨迹子集C1是利用第f_n-1轮的第一策略器处理至少一个第f_n状态C1得到的。第f_n第一概率值表征第f_n轮的第一概率值。利用第f_M轮的第一判别器处理第f_n智能体工况轨迹子集C1，得到第f_n第一动作价值函数值。第f_n第一动作价值函数值表征第f_n轮的第一动作价值函数值。根据第f_n第一概率值和第f_n第一动作价值函数值，得到第一第f_n梯度值C。

根据本公开的实施例，第一策略网络还包括第一价值器。

根据本公开的实施例，根据第f_n第一概率值和第f_n第一动作价值函数值，得到第一第f_n梯度值C，可以包括：

利用第f_n-1轮的第一价值器处理第f_n智能体工况轨迹子集C1，得到第f_n第一状态价值函数值。第f_n第一状态价值函数值表征第f_n轮的第一状态价值函数值。根据第f_n第一概率值、第f_n第一动作价值函数值和第f_n第一状态价值函数值，得到第一第f_n梯度值C。

根据本公开的实施例，工业节能模型的训练装置1000可以包括第三获得模块。

第三获得模块，用于基于第一第三梯度函数，根据第f_n第一动作价值函数值和第f_n第一状态价值函数值，得到第一第f_n梯度值H。第一第f_n梯度值H表征第f_n轮的第一梯度值H。

根据本公开的实施例，根据第f_n梯度值C调整第f_n-1轮的第一策略网络的模型参数，得到第f_n轮的第一策略网络，可以包括：

根据本公开的实施例，策略器是第二策略器。判别器是第二判别器。第一策略网络还包括第二价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C2。第f_n智能体工况轨迹子集C2包括至少一个第f_n动作状态对C2。第f_n动作状态对C2包括第f_n状态C2和与第f_n状态C2对应的第f_n动作C2。第f_n动作状态对C2表征第f_n轮的动作状态对C2。第f_n状态C2表征第f_n轮的状态C2。第f_n动作C2表征第f_n轮的动作C2。

根据本公开的实施例，第f_n-1智能体工况轨迹集C包括第f_n-1智能体工况轨迹子集C1。第f_n-1智能体工况轨迹子集C1包括至少一个第f_n-1动作状态对C1。第f_n-1动作状态对C1包括第f_n-1状态C1和与第f_n-1状态C1对应的第f_n-1动作C1。第f_n-1动作状态对C1表征第f_n-1轮的动作状态对C1。第f_n-1状态C1表征第f_n-1轮的状态C1。第f_n-1动作C1表征第f_n-1轮的动作C1。

根据本公开的实施例，第二梯度函数是第二第二梯度函数。第f_n梯度值C是第二第f_n梯度值C。

根据本公开的实施例，在n是大于2且小于或等于N的整数的情况下，基于第二梯度函数，根据第f_M轮的判别器和第f_n智能体工况轨迹集C，得到第f_n梯度值C，可以包括：

根据第f_n智能体工况轨迹子集C2，得到第f_n第二概率值。第f_n智能体工况轨迹子集C2是利用第f_n-1轮的第二策略器处理至少一个第f_n状态C2得到的。第f_n第二概率值表征第f_n轮的第二概率值。根据第f_n-1智能体工况轨迹子集C1，得到第f_n第三概率值。第f_n-1智能体工况轨迹子集C1是利用第f_n-2轮的第二策略器处理至少一个第f_n-1状态C1得到的。第f_n第三概率值表征第f_n轮的第三概率值。利用第f_M轮的第二判别器处理第f_n-1智能体工况轨迹子集C1，得到第f_n第二动作价值函数值。第f_n第二动作价值函数值表征第f_n轮的第二动作价值函数值。利用第f_n-1轮的第二价值器处理第f_n-1智能体工况轨迹子集C1，得到第f_n第二状态价值函数值。第f_n第二状态价值函数值表征第f_n轮的第二状态价值函数值。根据第f_n第二概率值、第f_n第三概率值、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值C。

根据本公开的实施例，根据第f_n第二概率值、第f_n第三概率值、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值C，可以包括：

确定第f_n第二概率值与第f_n第三概率值之间的第f_n第一比值。第f_n第一比值表征第f_n轮的第一比值。根据第f_n第二概率值和第f_n第三概率值，确定第f_n散度。第f_n散度表征第f_n轮的散度。根据第f_n第一比值、第f_n散度、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值C。

根据本公开的实施例，根据第f_n第一比值、第f_n散度、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值C，可以包括：

根据第f_n散度惩罚系数和第f_n散度，得到第f_n第一中间值。第f_n散度惩罚系数表征第f_n轮的散度惩罚系数。第f_n第一中间值表征第f_n轮的第一中间值。根据第f_n第一比值、第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第f_n第二中间值。第f_n第二中间值表征第f_n轮的第二中间值。根据第f_n第一中间值和第f_n第二中间值，得到第二第f_n梯度值C。

根据本公开的实施例，第f_n散度惩罚系数是根据第f_n-1散度和预定适应性系数对第f_n-1散度惩罚系数进行调整得到的。第f_n-1散度惩罚系数表征第f_n-1轮的散度惩罚系数。

根据本公开的实施例，上述工业节能模型的训练装置1000还可以包括第四获得模块

第四获得模块，用于基于第二第三梯度函数，根据第f_n第二动作价值函数值和第f_n第二状态价值函数值，得到第二第f_n梯度值H。第二第f_n梯度值H表征第f_n轮的第二梯度值H。

根据本公开的实施例，策略器是第三策略器。判别器是第三判别器。第一策略网络还包括第三价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C3。第f_n智能体工况轨迹子集C3包括至少一个第f_n动作状态对C3。第f_n动作状态对C3包括第f_n状态C3和与第f_n状态C3对应的第f_n动作C3。第f_n动作状态对C3表征第f_n轮的动作状态对C3。第f_n状态C3表征第f_n轮的状态C3。第f_n动作C3表征第f_n轮的动作C3。

根据本公开的实施例，第f_n-1智能体工况轨迹集C包括第f_n-1智能体工况轨迹子集C2。第f_n-1智能体工况轨迹子集C2包括至少一个第f_n-1动作状态对C2。第f_n-1动作状态对C2包括第f_n-1状态C2和与第f_n-1状态C2对应的第f_n-1动作C2。第f_n-1动作状态对C2表征第f_n-1轮的动作状态对C2。第f_n-1状态C2表征第f_n-1轮的状态C2。第f_n-1动作C2表征第f_n-1轮的动作C2。

根据本公开的实施例，第二梯度函数是第三第二梯度函数。第f_n梯度值C是第三第f_n梯度值C。

根据第f_n智能体工况轨迹子集C3，得到第f_n第四概率值。第f_n智能体工况轨迹子集C3是利用第f_n-1轮的第三策略器处理至少一个第f_n状态C3得到的。第f_n第四概率值表征第f_n轮的第四概率值。根据第f_n-1智能体工况轨迹子集C2，得到第f_n第五概率值。第f_n-1智能体工况轨迹子集C2是利用第f_n-2轮的第三策略器处理至少一个第f_n-1状态C2得到的。第f_n第五概率值表征第f_n轮的第五概率值。利用第f_M轮的第三判别器处理第f_n-1智能体工况轨迹子集C2，得到第f_n第三动作价值函数值。第f_n第三动作价值函数值表征第f_n轮的第三动作价值函数值。利用第f_n-1轮的第三价值器处理第f_n-1智能体工况轨迹子集C2，得到第f_n第三状态价值函数值。第f_n第三状态价值函数值表征第f_n轮的第三状态价值函数值。根据第f_n第四概率值、第f_n第五概率值、第f_n第三动作价值函数值和第f_n第三状态价值函数值，得到第三第f_n梯度值C。

根据本公开的实施例，根据第f_n第四概率值、第f_n第五概率值、第f_n第三动作价值函数值和第f_n第三状态价值函数值，得到第三第f_n梯度值C，可以包括：

确定第f_n第四概率值与第f_n第五概率值之间的第f_n第二比值。第f_n第二比值表征第f_n轮的第二比值。根据第f_n第二比值、第f_n第三动作价值函数值和第f第三状态价值函数值，得到第f_n第三中间值。第f_n第三中间值表征第f_n轮的第三中间值。根据预定截断因子、第f_n第三动作价值函数值和第f_n第三状态价值函数值，得到第f_n第四中间值。第f_n第四中间值表征第f_n轮的第四中间值。根据第f_n第三中间值和第f_n第四中间值，得到第三第f_n梯度值C。

根据本公开的实施例，工业节能模型的训练装置1000还可以包括第五获得模块。

第五获得模块，用于基于第三第三梯度函数，根据第f_n第三动作价值函数值和第f_n第三状态价值函数值，得到第三第f_n梯度值H。第三第f_n梯度值H表征第f_n轮的第三梯度值H。

根据本公开的实施例，策略器是第四策略器。判别器是第四判别器。第一策略网络还包括第四价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C4。第f_n智能体工况轨迹子集C4包括至少一个第f_n动作状态对C4。第f_n动作状态对C4包括第f_n状态C4和与第f_n状态C4对应的第f_n动作C4。第f_n动作状态对C4表征第f_n轮的动作状态对C4。第f_n状态C4表征第f_n轮的状态C4。第f_n动作C4表征第f_n轮的动作C4。

根据本公开的实施例，第f_n-1智能体工况轨迹集C包括第f_n-1智能体工况轨迹子集C3。第f_n-1智能体工况轨迹子集C3包括至少一个第f_n-1动作状态对C3。第f_n-1动作状态对C3包括第f_n-1状态C3和与第f_n-1状态C3对应的第f_n-1动作C3。第f_n-1动作状态对C3表征第f_n-1轮的动作状态对C3。第f_n-1状态C3表征第f_n-1轮的状态C3。第f_n-1动作C3表征第f_n-1轮的动作C3。

根据本公开的实施例，第二梯度函数是第四第二梯度函数。第f_n梯度值C是第四第f_n梯度值C。

根据第f_n智能体工况轨迹子集C4，得到第f_n第六概率值。第f_n智能体工况轨迹子集C4是利用第f_n-1轮的第四策略器处理至少一个第f_n状态C4得到的。第f_n第六概率值表征第f_n轮的第六概率值。根据第f_n-1智能体工况轨迹子集C3，得到第f_n第七概率值。第f_n-1智能体工况轨迹子集C3是利用第f_n-2轮的第四策略器处理至少一个第f_n-1状态C3得到的。第f_n第七概率值表征第f_n轮的第七概率值。利用第f_M轮的第四判别器处理第f_n-1智能体工况轨迹子集C3，得到第f_n第四动作价值函数值。第f_n第四动作价值函数值表征第f_n轮的第四动作价值函数值。利用第f_n-1轮的第四价值器处理第f_n-1智能体工况轨迹子集C3，得到第f_n第四状态价值函数值。第f_n第四状态价值函数值表征第f_n轮的第四状态价值函数值。根据第f_n第六概率值、第f_n第七概率值、第f_n第四动作价值函数值和第f_n第四状态价值函数值，得到第四第f_n梯度值C。

根据本公开的实施例，根据第f_n第六概率值、第f_n第七概率值、第f_n第四动作价值函数值和第f_n第四状态价值函数值，得到第四第f_n梯度值C，可以包括：

确定第f_n第六概率值与第f_n第七概率值之间的第f_n第三比值。第f_n第三比值表征第f_n轮的第三比值。根据第f_n第三比值、第f_n第四动作价值函数值和第f第四状态价值函数值，得到第f_n第五中间值。第f_n第五中间值表征第f_n轮的第五中间值。根据第f_n轮的第五中间值，得到第四第f_n梯度值C。

根据本公开的实施例，工业节能模型的训练装置1000还可以包括第六获得模块。

第六获得模块，用于基于第四第三梯度函数，根据第f_n第四动作价值函数值和第f_n第四状态价值函数值，得到第四第f_n梯度值H。第四第f_n梯度值H表征第f_n轮的第四梯度值H。

根据本公开的实施例，策略器是第五策略器。判别器是第五判别器。第一策略网络还包括第五价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C5。第f_n智能体工况轨迹子集C5包括至少一个第f_n动作状态对C5。第f_n动作状态对C5包括第f_n状态C5和与第f_n状态C5对应的第f_n动作C5。第f_n动作状态对C5表征第f_n轮的动作状态对C5。第f_n状态C5表征第f_n轮的状态C5。第f_n动作C5表征第f_n轮的动作C5。

根据本公开的实施例，第二梯度函数是第五第二梯度函数。第f_n梯度值C是第五第f_n梯度值C。

根据第f_n智能体工况轨迹子集C5，得到第f_n第八概率值。第f_n智能体工况轨迹子集C5是利用第f_n-1轮的第五策略器处理至少一个第f_n状态C5得到的。第f_n-1轮的第五策略器的模型参数是第一从进程响应于针对第一策略网络的第f_n轮训练操作。根据从第一主进程获取的第一当前全局策略器模型参数确定的。第f_n第八概率值表征第f_n轮的第八概率值。利用第f_M轮的第五判别器处理第f_n智能体工况轨迹子集C5，得到第f_n第五动作价值函数值。第f_n第五动作价值函数值表征第f_n轮的第五动作价值函数值。利用第f_n-1轮的第五价值器处理第f_n智能体工况轨迹子集C5，得到第f_n第五状态价值函数值。第f_n-1轮的第五价值器的模型参数是第一从进程响应于针对第一策略网络的第f_n轮训练操作，根据从第一主进程获取的第一当前全局价值器模型参数确定的。第f_n第五状态价值函数值表征第f_n轮的第五状态价值函数值。根据第f_n第八概率值、第f_n第五动作价值函数值和第f_n第五状态价值函数值，得到第五第f_n梯度值C。

根据本公开的实施例，工业节能模型的训练装置100还可以包括第七获得模块。

第七获得模块，用于基于第五第三梯度函数，根据第f_n第五动作价值函数值和第f_n第五状态价值函数值，得到第五第f_n梯度值H。第五第f_n梯度值H表征第f_n轮的第五梯度值H。

根据本公开的实施例，工业节能模型的训练装置1000还可以包括第一发送模块。

第一发送模块，用于向第一主进程发送第f_n轮的第五策略器的模型参数和第f_n轮的第五价值器的模型参数，以便第一主进程根据第f_n轮的第五策略器的模型参数异步更新第二当前全局策略器模型参数，得到新的第一当前全局策略器模型参数以及根据第f_n轮的第五价值器的模型参数异步更新第二当前全局价值器模型参数，得到新的第一当前全局价值器模型参数。

根据本公开的实施例，第二当前全局策略器模型参数是第一当前全局策略器模型参数和第一主进程接收到的第一其他从进程发送的第五策略器的模型参数中的之一。

根据本公开的实施例，第二当前全局价值器模型参数是第一当前全局价值器模型参数和第一主进程接收到的第一其他从进程发送的第五价值器的模型参数中的之一。

根据本公开的实施例，策略器是第六六策略器。判别器是第六判别器。第一策略网络还包括第六价值器。

根据本公开的实施例，第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C6。第f_n智能体工况轨迹子集C6包括至少一个第f_n动作状态对C6。第f_n动作状态对C6包括第f_n状态C6和与第f_n状态C6对应的第f_n动作C6。第f_n动作状态对C6表征第f_n轮的动作状态对C6。第f_n状态C6表征第f_n轮的状态C6。第f_n动作C6表征第f_n轮的动作C6。

根据本公开的实施例，第二梯度函数是第六第二梯度函数。第f_n梯度值C是第六第f_n梯度值C。

根据第f_n智能体工况轨迹子集C6，得到第f_n第九概率值。第f_n智能体工况轨迹子集C6是利用第f_n-1轮的第六策略器处理至少一个第f_n状态C6得到的。第f_n-1轮的第六策略器的模型参数是第二从进程响应于针对第一策略网络的第f_n轮训练操作，根据从第二主进程获取的第三当前全局策略器模型参数确定的。第f_n第九概率值表征第f_n轮的第九概率值。利用第f_M轮的第六判别器处理第f_n智能体工况轨迹子集C6，得到第f_n第六动作价值函数值。第f_n第六动作价值函数值表征第f_n轮的第六动作价值函数值。利用第f_n-1轮的第六价值器处理第f_n智能体工况轨迹子集C6，得到第f_n第六状态价值函数值。第f_n-1轮的第六价值器的模型参数是第二从进程响应于针对第一策略网络的第f_n轮训练操作，根据从第二主进程获取的第三当前全局价值器模型参数确定的。第f_n第六状态价值函数值表征第f_n轮的第六状态价值函数值。根据第f_n第九概率值、第f_n第六动作价值函数值和第f_n第六状态价值函数值，得到第六第f_n梯度值C。

根据本公开的实施例，工业节能模型的训练装置1000还可以包括第八获得模块。

第八获得模块，用于基于第六第三梯度函数，根据第f_n第六动作价值函数值和第f_n第六状态价值函数值，得到第六第f_n梯度值H。第六第f_n梯度值H表征第f_n轮的第六梯度值H。

根据本公开的实施例，工业节能模型的训练装置1000还可以包括第二发送模块。

第二发送模块，用于向第二主进程发送第f_n轮的第六策略器的模型参数和第f_n轮的第六价值器的模型参数，以便第二主进程在接收到第二其他从进程的第f_n轮的第六策略器的模型参数的情况下，根据第二从进程的第f_n轮的第六策略器的模型参数和第二其他从进程的第f_n轮的第六策略器的模型参数更新第三当前全局策略器模型参数，得到新的第三当前全局策略器模型参数以及根据第二从进程的第f_n轮的第六价值器的模型参数和第二其他从进程的第f_n轮的第六价值器的模型参数更新第三当前全局价值器模型参数，得到新的第三当前全局价值器模型参数。

根据本公开的实施例，工况轨迹集还包括普通工况轨迹集。普通工况轨迹集是普通对象利用普通对象策略与流程型工业环境进行交互得到的工况轨迹集。普通工况轨迹集包括至少一个普通工况轨迹。普通工况轨迹表征普通对象的动作状态序列。

根据本公开的实施例，第一训练单元可以包括第三训练子单元。

第三训练子单元，用于交替执行利用智能体工况轨迹集B、专家工况轨迹集和普通工况轨迹集训练判别器以及利用智能体工况轨迹集C训练第一策略网络的操作，直至满足预定结束条件。

根据本公开的实施例，训练模块1010可以包括获得子模块和调整子模块。获得子模块和调整子模块可以重复执行以下操作，直至满足预定结束条件。

获得子模块，用于基于损失函数，根据专家工况轨迹集和智能体工况轨迹集，得到损失函数值。

调整子模块，用于根据损失函数值调整模仿学习模型的模型参数。

根据本公开的实施例，模仿学习模型包括第二策略网络和奖励网络。

根据本公开的实施例，训练模块1010可以包括第二训练子模块。

第二训练子模块，用于利用专家工况轨迹集和智能体工况轨迹集对奖励网络和第二策略网络进行交替训练，直至满足预定结束条件。智能体工况轨迹集是利用第二策略网络生成的。

根据本公开的实施例，第一获得模块1020可以包括第二确定子模块。

第二确定子模块，用于将训练完成的第二策略网络确定为工业节能模型。

根据本公开的实施例，智能体工况轨迹包括至少一个智能体动作状态对，智能体动作状态对包括智能体状态和与智能体状态对应的智能体动作。

根据本公开的实施例，专家工况轨迹包括至少一个专家动作状态对，专家动作状态对包括专家状态和与专家状态对应的专家动作。

根据本公开的实施例，智能体状态和专家状态均包括以下至少之一：流程型工业任务的能源信息、流程型工业任务的业务信息和流程型工业任务的设备信息。

根据本公开的实施例，流程型工业环境包括印染工业环境。

图11示意性示出了根据本公开实施例的动作确定装置的框图。

如图11所示，动作确定装置1100可以包括第二获得模块1110。

第二获得模块1110，用于将目标智能体状态输入工业节能模型，得到目标动作。

根据本公开的实施例，工业节能模型可以是利用根据本公开实施例所述的工业节能模型的训练装置训练得到的。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：多个处理器；以及与多个处理器通信连接的存储器；其中，存储器存储有可被多个处理器执行的指令，指令被多个处理器执行，以使多个处理器能够执行如本公开所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开所述的方法。

图12示意性示出了根据本公开实施例的适于实现工业节能模型的训练和动作确定方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，电子设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元12012加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储电子设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

电子设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如工业节能模型的训练和动作确定方法。例如，在一些实施例中，工业节能模型的训练和动作确定方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到电子设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的工业节能模型的训练和动作确定方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行工业节能模型的训练和动作确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括多个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、多个输入装置、和多个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该多个输入装置、和该多个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者工况轨迹集球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种工业节能模型的训练方法，包括：

利用工况轨迹集训练模仿学习模型，直至满足预定结束条件；以及

根据训练完成的模仿学习模型，得到工业节能模型；

其中，所述工况轨迹集包括专家工况轨迹集和智能体工况轨迹集；

其中，所述专家工况轨迹集是专家利用专家策略与所述流程型工业环境进行交互且满足预定节能条件得到的工况轨迹集，所述专家工况轨迹集包括至少一个专家工况轨迹，所述专家工况轨迹表征所述专家的动作状态序列；

其中，所述智能体工况轨迹集是智能体利用智能体策略与流程型工业环境进行交互得到的工况轨迹集，所述智能体工况轨迹集包括至少一个智能体工况轨迹，所述智能体工况轨迹表征所述智能体的动作状态序列。

2.根据权利要求1所述的方法，其中，所述模仿学习模型包括第一策略网络和判别器，所述第一策略网络包括策略器；

其中，所述利用工况轨迹集训练模仿学习模型，直至满足预定结束条件，包括：

利用所述专家工况轨迹集和所述智能体工况轨迹集对所述第一策略网络和所述判别器进行交替训练，直至满足所述预定结束条件，其中，所述智能体工况轨迹集是利用所述策略器生成的；

其中，所述根据训练完成的模仿学习模型，得到工业节能模型，包括：

将训练完成的策略器确定为所述工业节能模型。

3.根据权利要求2所述的方法，其中，所述智能体工况轨迹集包括智能体工况轨迹集B和智能体工况轨迹集C；

其中，所述利用所述专家工况轨迹集和所述智能体工况轨迹集对所述第一策略网络和所述判别器进行交替训练，直至满足所述预定结束条件，包括：

交替执行利用所述智能体工况轨迹集B和所述专家工况轨迹集训练所述判别器以及利用所述智能体工况轨迹集C训练所述第一策略网络的操作，直至满足所述预定结束条件。

4.根据权利要求3所述的方法，其中，所述智能体工况轨迹集B包括与F次迭代对应的至少一个智能体工况轨迹集B和与所述F次迭代对应的至少一个智能体工况轨迹集C，所述专家工况轨迹集包括与所述F次迭代对应的专家工况轨迹集，F是大于或等于1的整数；

其中，所述交替执行利用所述智能体工况轨迹集B和所述专家工况轨迹集训练所述判别器以及利用所述智能体工况轨迹集C训练所述第一策略网络的操作，直至满足所述预定结束条件，包括交替执行以下训练所述判别器和所述第一策略网络的操作，直至满足所述预定结束条件：

在保持第(f-1)_N轮的第一策略网络的模型参数不变的情况下，重复执行以下操作M次：

利用第f_m智能体工况轨迹集B和第f_m专家工况轨迹集训练第f_m-1轮的判别器，得到第f_m轮的判别器；

在保持第f_M轮的判别器的模型参数不变的情况下，重复执行以下操作N次：

利用所述第f_M轮的判别器和第f_n智能体工况轨迹集C训练第f_n-1轮的第一策略网络，得到第f_n轮的第一策略网络；

其中，f是大于或等于1且小于或等于F的整数；

其中，所述第f_m-1轮表征所述第f次迭代中的第(m-1)轮，所述f_m轮表征所述第f次迭代中的第m轮，所述第f_M轮表征所述第f次迭代中的第M轮，m是大于1且小于或等于M的整数，M是大于1的整数；

其中，所述第(f-1)_N轮表征第(f-1)次迭代中的第N轮，所述第f_n-1轮表征第f次迭代中的第(n-1)轮，所述第f_n轮表征所述第f次迭代中的第n轮，n是大于1且小于或等于N的整数，N是大于1的整数；

其中，所述第f_m智能体工况轨迹集B表征与所述第f_m轮对应的智能体工况轨迹集B，所述第f_n智能体工况轨迹集C表征与所述第f_n轮对应的智能体工况轨迹集C，所述第f_m专家工况轨迹集表征与所述第f_m轮对应的专家工况轨迹集。

5.根据权利要求4所述的方法，其中，所述利用第f_m智能体工况轨迹集B和第f_m专家工况轨迹集训练第f_m-1轮的判别器，得到第f_m轮的判别器，包括：

将所述第f_m智能体工况轨迹集B和所述第f_m专家工况轨迹集输入所述第f_m-1轮的判别器，得到第f_m第一判别信息和第f_m第二判别信息，其中，所述第f_m第一判别信息表征所述第f_m轮的与所述第f_m智能体工况轨迹集B对应的第一判别信息，所述第f_m第二判别信息表征所述f_m轮的与所述第f_m次专家工况轨迹集对应的第二判别信息；以及

基于所述第f_m第一判别信息和所述第f_m第二判别信息训练所述第f_m-1轮的判别器，得到所述第f_m轮的判别器。

6.根据权利要求5所述的方法，其中，所述基于所述第f_m第一判别信息和所述第f_m第二判别信息训练所述第f_m-1轮的判别器，得到所述第f_m轮的判别器，包括：

基于第一梯度函数，根据所述第f_m第一判别信息和所述第f_m第二判别信息，得到第f_m梯度值B，其中，所述第f_m梯度值B表征所述第f_m轮的梯度值B；以及

根据所述第f_m梯度值B调整所述第f_m-1轮的判别器的模型参数，得到所述第f_m轮的判别器的模型参数。

7.根据权利要求4～6中任一项所述的方法，其中，所述利用所述第f_M轮的判别器和第f_n智能体工况轨迹集C训练第f_n-1轮的第一策略网络，得到第f_n轮的第一策略网络，包括：

基于第二梯度函数，根据所述第f_M轮的判别器和所述第f_n智能体工况轨迹集C，得到第f_n梯度值C，其中，所述第f_n梯度值C表征所述第f_n轮的梯度值C；以及

根据所述第f_n梯度值C调整所述第f_n-1轮的第一策略网络的模型参数，得到所述第f_n轮的第一策略网络。

8.根据权利要求7所述的方法，其中，所述策略器是第一策略器，所述判别器是第一判别器；

其中，所述第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C1，所述第f_n智能体工况轨迹子集C1包括至少一个第f_n动作状态对C1，所述第f_n动作状态对C1包括第f_n状态C1和与所述第f_n状态C1对应的第f_n动作C1，所述第f_n动作状态对C1表征所述第f_n轮的动作状态对C1，所述第f_n状态C1表征所述第f_n轮的状态C1，所述第f_n动作C1表征所述第f_n轮的动作C1；

其中，所述第二梯度函数是第一第二梯度函数，所述第f_n梯度值C是第一第f_n梯度值C；

其中，所述基于第二梯度函数，根据所述第f_M轮的判别器和所述第f_n智能体工况轨迹集C，得到第f_n梯度值C，包括：

根据所述第f_n智能体工况轨迹子集C1，得到第f_n第一概率值，其中，所述第f_n智能体工况轨迹子集C1是利用第f_n-1轮的第一策略器处理至少一个所述第f_n状态C1得到的，所述第f_n第一概率值表征所述第f_n轮的第一概率值；

利用所述第f_M轮的第一判别器处理所述第f_n智能体工况轨迹子集C1，得到第f_n第一动作价值函数值，其中，所述第f_n第一动作价值函数值表征所述第f_n轮的第一动作价值函数值；以及

根据所述第f_n第一概率值和所述第f_n第一动作价值函数值，得到所述第一第f_n梯度值C。

9.根据权利要求8所述的方法，其中，所述第一策略网络还包括第一价值器；

其中，所述根据所述第f_n第一概率值和所述第f_n第一动作价值函数值，得到所述第一第f_n梯度值C，包括：

利用第f_n-1轮的第一价值器处理所述第f_n智能体工况轨迹子集C1，得到第f_n第一状态价值函数值，其中，所述第f_n第一状态价值函数值表征所述第f_n轮的第一状态价值函数值；以及

根据所述第f_n第一概率值、所述第f_n第一动作价值函数值和所述第f_n第一状态价值函数值，得到所述第一第f_n梯度值C。

10.根据权利要求9所述的方法，还包括：

基于第一第三梯度函数，根据所述第f_n第一动作价值函数值和所述第f_n第一状态价值函数值，得到第一第f_n梯度值H，其中，所述第一第f_n梯度值H表征所述第f_n轮的第一梯度值H；

其中，所述根据所述第f_n梯度值C调整所述第f_n-1轮的第一策略网络的模型参数，得到所述第f_n轮的第一策略网络，包括：

根据所述第一第f_n梯度值C调整所述第f_n-1轮的第一策略器的模型参数，得到所述第f_n轮的第一策略器；以及

根据所述第一第f_n梯度值H调整所述第f_n-1轮的第一价值器的模型参数，得到所述第f_n轮的第一价值器。

11.根据权利要求7所述的方法，其中，所述策略器是第二策略器，所述判别器是第二判别器，所述第一策略网络还包括第二价值器；

其中，所述第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C2，所述第f_n智能体工况轨迹子集C2包括至少一个第f_n动作状态对C2，所述第f_n动作状态对C2包括第f_n状态C2和与所述第f_n状态C2对应的第f_n动作C2，所述第f_n动作状态对C2表征所述第f_n轮的动作状态对C2，所述第f_n状态C2表征所述第f_n轮的状态C2，所述第f_n动作C2表征所述第f_n轮的动作C2。

12.根据权利要求11所述的方法，其中，第f_n-1智能体工况轨迹集C包括第f_n-1智能体工况轨迹子集C1，所述第f_n-1智能体工况轨迹子集C1包括至少一个第f_n-1动作状态对C1，所述第f_n-1动作状态对C1包括第f_n-1状态C1和与所述第f_n-1状态C1对应的第f_n-1动作C1，所述第f_n-1动作状态对C1表征所述第f_n-1轮的动作状态对C1，所述第f_n-1状态C1表征所述第f_n-1轮的状态C1，所述第f_n-1动作C1表征所述第f_n-1轮的动作C1；

其中，所述第二梯度函数是第二第二梯度函数，所述第f_n梯度值C是第二第f_n梯度值C；

其中，在n是大于2且小于或等于N的整数的情况下，所述基于第二梯度函数，根据所述第f_M轮的判别器和所述第f_n智能体工况轨迹集C，得到第f_n梯度值C，包括：

根据所述第f_n智能体工况轨迹子集C2，得到第f_n第二概率值，其中，所述第f_n智能体工况轨迹子集C2是利用所述第f_n-1轮的第二策略器处理至少一个所述第f_n状态C2得到的，所述第f_n第二概率值表征所述第f_n轮的第二概率值；

根据所述第f_n-1智能体工况轨迹子集C1，得到第f_n第三概率值，其中，所述第f_n-1智能体工况轨迹子集C1是利用第f_n-2轮的第二策略器处理至少一个所述第f_n-1状态C1得到的，所述第f_n第三概率值表征所述第f_n轮的第三概率值；

利用所述第f_M轮的第二判别器处理所述所述第f_n-1智能体工况轨迹子集C1，得到第f_n第二动作价值函数值，其中，所述第f_n第二动作价值函数值表征所述第f_n轮的第二动作价值函数值；

利用第f_n-1轮的第二价值器处理所述所述第f_n-1智能体工况轨迹子集C1，得到第f_n第二状态价值函数值，其中，所述第f_n第二状态价值函数值表征所述第f_n轮的第二状态价值函数值；以及

根据所述第f_n第二概率值、所述第f_n第三概率值、所述第f_n第二动作价值函数值和所述第f_n第二状态价值函数值，得到所述第二第f_n梯度值C。

13.根据权利要求12所述的方法，其中，所述根据所述第f_n第二概率值、所述第f_n第三概率值、所述第f_n第二动作价值函数值和所述第f_n第二状态价值函数值，得到所述第二第f_n梯度值C，包括：

确定所述第f_n第二概率值与所述第f_n第三概率值之间的第f_n第一比值，其中，所述第f_n第一比值表征所述第f_n轮的第一比值；

根据所述第f_n第二概率值和所述第f_n第三概率值，确定第f_n散度，其中，所述第f_n散度表征所述第f_n轮的散度；以及

根据所述第f_n第一比值、所述第f_n散度、所述第f_n第二动作价值函数值和所述第f_n第二状态价值函数值，得到所述第二第f_n梯度值C。

14.根据权利要求13所述的方法，其中，所述根据所述第f_n第一比值、所述第f_n散度、所述第f_n第二动作价值函数值和所述第f_n第二状态价值函数值，得到所述第二第f_n梯度值C，包括：

根据第f_n散度惩罚系数和所述第f_n散度，得到第f_n第一中间值，其中，所述第f_n散度惩罚系数表征所述第f_n轮的散度惩罚系数，所述第f_n第一中间值表征所述第f_n轮的第一中间值；

根据所述第f_n第一比值、所述第f_n第二动作价值函数值和所述第f_n第二状态价值函数值，得到第f_n第二中间值，其中，所述第f_n第二中间值表征所述第f_n轮的第二中间值；以及

根据所述第f_n第一中间值和所述第f_n第二中间值，得到所述第二第f_n梯度值C。

15.根据权利要求14所述的方法，其中，所述第f_n散度惩罚系数是根据第f_n-1散度和预定适应性系数对第f_n-1散度惩罚系数进行调整得到的，所述第f_n-1散度惩罚系数表征所述第f_n-1轮的散度惩罚系数。

16.根据权利要求12～15中任一项所述的方法，还包括：

基于第二第三梯度函数，根据所述第f_n第二动作价值函数值和所述第f_n第二状态价值函数值，得到第二第f_n梯度值H，其中，所述第二第f_n梯度值H表征所述第f_n轮的第二梯度值H；

根据所述第二第f_n梯度值C调整所述第f_n-1轮的第二策略器的模型参数，得到所述第f_n轮的第二策略器；以及

根据所述第二第f_n梯度值H调整所述第f_n-1轮的第二价值器的模型参数，得到所述第f_n轮的第二价值器。

17.根据权利要求7所述的方法，其中，所述策略器是第三策略器，所述判别器是第三判别器，所述第一策略网络还包括第三价值器；

其中，所述第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C3，所述第f_n智能体工况轨迹子集C3包括至少一个第f_n动作状态对C3，所述第f_n动作状态对C3包括第f_n状态C3和与所述第f_n状态C3对应的第f_n动作C3，所述第f_n动作状态C3表征所述第f_n轮的动作状态对C3，所述第f_n状态C3表征所述第f_n轮的状态C3，所述第f_n动作C3表征所述第f_n轮的动作C3。

18.根据权利要求17所述的方法，其中，第f_n-1智能体工况轨迹集C包括第f_n-1智能体工况轨迹子集C2，所述第f_n-1智能体工况轨迹子集C2包括至少一个第f_n-1动作状态对C2，所述第f_n-1动作状态对C2包括第f_n-1状态C2和与所述第f_n-1状态C2对应的第f_n-1动作C2，所述第f_n-1动作状态对C2表征所述第f_n-1轮的动作状态对C2，所述第f_n-1状态C2表征所述第f_n-1轮的状态C2，所述第f_n-1动作C2表征所述第f_n-1轮的动作C2；

其中，所述第二梯度函数是第三第二梯度函数，所述第f_n梯度值C是第三第f_n梯度值C；

根据所述第f_n智能体工况轨迹子集C3，得到第f_n第四概率值，其中，所述第f_n智能体工况轨迹子集C3是利用所述第f_n-1轮的第三策略器处理至少一个所述第f_n状态C3得到的，所述第f_n第四概率值表征所述第f_n轮的第四概率值；

根据所述第f_n-1智能体工况轨迹子集C2，得到第f_n第五概率值，其中，所述第f_n-1智能体工况轨迹子集C2是利用第f_n-2轮的第三策略器处理至少一个所述第f_n-1状态C2得到的，所述第f_n第五概率值表征所述第f_n轮的第五概率值；

利用所述第f_M轮的第三判别器处理所述第f_n-1智能体工况轨迹子集C2，得到第f_n第三动作价值函数值，其中，所述第f_n第三动作价值函数值表征所述第f_n轮的第三动作价值函数值；

利用第f_n-1轮的第三价值器处理所述第f_n-1智能体工况轨迹子集C2，得到第f_n第三状态价值函数值，其中，所述第f_n第三状态价值函数值表征所述第f_n轮的第三状态价值函数值；以及

根据所述第f_n第四概率值、所述第f_n第五概率值、所述第f_n第三动作价值函数值和所述第f_n第三状态价值函数值，得到所述第三第f_n梯度值C。

19.根据权利要求18所述的方法，其中，所述根据所述第f_n第四概率值、所述第f_n第五概率值、所述第f_n第三动作价值函数值和所述第f_n第三状态价值函数值，得到所述第三第f_n梯度值C，包括：

确定所述第f_n第四概率值与所述第f_n第五概率值之间的第f_n第二比值，其中，所述第f_n第二比值表征所述第f_n轮的第二比值；

根据所述第f_n第二比值、所述第f_n第三动作价值函数值和所述第f第三状态价值函数值，得到第f_n第三中间值，其中，所述第f_n第三中间值表征所述第f_n轮的第三中间值；

根据预定截断因子、所述第f_n第三动作价值函数值和所述第f_n第三状态价值函数值，得到第f_n第四中间值，其中，所述第f_n第四中间值表征所述第f_n轮的第四中间值；以及

根据所述第f_n第三中间值和所述第f_n第四中间值，得到所述第三第f_n梯度值C。

20.根据权利要求17～19中任一项所述的方法，还包括：

基于第三第三梯度函数，根据所述第f_n第三动作价值函数值和所述第f_n第三状态价值函数值，得到第三第f_n梯度值H，其中，所述第三第f_n梯度值H表征所述第f_n轮的第三梯度值H；

根据所述第三第f_n梯度值C调整所述第f_n-1轮的第三策略器的模型参数，得到所述第f_n轮的第三策略器；以及

根据所述第三第f_n梯度值H调整所述第f_n-1轮的第三价值器的模型参数，得到所述第f_n轮的第三价值器。

21.根据权利要求7所述的方法，其中，所述策略器是第四策略器，所述判别器是第四判别器，所述第一策略网络还包括第四价值器；

其中，所述第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C4，所述第f_n智能体工况轨迹子集C4包括至少一个第f_n动作状态对C4，所述第f_n动作状态对C4包括第f_n状态C4和与所述第f_n状态C4对应的第f_n动作C4，所述第f_n动作状态对C4表征所述第f_n轮的动作状态对C4，所述第f_n状态C4表征所述第f_n轮的状态C4，所述第f_n动作C4表征所述第f_n轮的动作C4。

22.根据权利要求21所述的方法，其中，第f_n-1智能体工况轨迹集C包括第f_n-1智能体工况轨迹子集C3，所述第f_n-1智能体工况轨迹子集C3包括至少一个第f_n-1动作状态对C3，所述第f_n-1动作状态对C3包括第f_n-1状态C3和与所述第f_n-1状态C3对应的第f_n-1动作C3，所述第f_n-1动作状态对C3表征所述第f_n-1轮的动作状态对C3，所述第f_n-1状态C3表征所述第f_n-1轮的状态C3，所述第f_n-1动作C3表征所述第f_n-1轮的动作C3；

其中，所述第二梯度函数是第四第二梯度函数，所述第f_n梯度值C是第四第f_n梯度值C；

根据所述第f_n智能体工况轨迹子集C4，得到第f_n第六概率值，其中，所述第f_n智能体工况轨迹子集C4是利用所述第f_n-1轮的第四策略器处理至少一个所述第f_n状态C4得到的，所述第f_n第六概率值表征所述第f_n轮的第六概率值；

根据所述第f_n-1智能体工况轨迹子集C3，得到第f_n第七概率值，其中，所述第f_n-1智能体工况轨迹子集C3是利用第f_n-2轮的第四策略器处理至少一个所述第f_n-1状态C3得到的，所述第f_n第七概率值表征所述第f_n轮的第七概率值；

利用所述第f_M轮的第四判别器处理所述第f_n-1智能体工况轨迹子集C3，得到第f_n第四动作价值函数值，其中，所述第f_n第四动作价值函数值表征所述第f_n轮的第四动作价值函数值；

利用第f_n-1轮的第四价值器处理所述第f_n-1智能体工况轨迹子集C3，得到第f_n第四状态价值函数值，其中，所述第f_n第四状态价值函数值表征所述第f_n轮的第四状态价值函数值；以及

根据所述第f_n第六概率值、所述第f_n第七概率值、所述第f_n第四动作价值函数值和所述第f_n第四状态价值函数值，得到所述第四第f_n梯度值C。

23.根据权利要求22所述的方法，其中，所述根据所述第f_n第六概率值、所述第f_n第七概率值、所述第f_n第四动作价值函数值和所述第f_n第四状态价值函数值，得到所述第四第f_n梯度值C，包括：

确定所述第f_n第六概率值与所述第f_n第七概率值之间的第f_n第三比值，其中，所述第f_n第三比值表征所述第f_n轮的第三比值；

根据所述第f_n第三比值、所述第f_n第四动作价值函数值和所述第f第四状态价值函数值，得到第f_n第五中间值，其中，所述第f_n第五中间值表征所述第f_n轮的第五中间值；以及

根据所述第f_n轮的第五中间值，得到所述第四第f_n梯度值C。

24.根据权利要求23所述的方法，还包括：

基于第四第三梯度函数，根据所述第f_n第四动作价值函数值和所述第f_n第四状态价值函数值，得到第四第f_n梯度值H，其中，所述第四第f_n梯度值H表征所述第f_n轮的第四梯度值H；

根据所述第四第f_n梯度值C调整所述第f_n-1轮的第四策略器的模型参数，得到所述第f_n轮的第四策略器；以及

根据所述第四第f_n梯度值H调整所述第f_n-1轮的第四价值器的模型参数，得到所述第f_n轮的第四价值器。

25.根据权利要求7所述的方法，其中，所述策略器是第五策略器，所述判别器是第五判别器，所述第一策略网络还包括第五价值器；

其中，所述第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C5，所述第f_n智能体工况轨迹子集C5包括至少一个第f_n动作状态对C5，所述第f_n动作状态对C5包括第f_n状态C5和与所述第f_n状态C5对应的第f_n动作C5，所述第f_n动作状态对C5表征所述第f_n轮的动作状态对C5，所述第f_n状态C5表征所述第f_n轮的状态C5，所述第f_n动作C5表征所述第f_n轮的动作C5；

其中，所述第二梯度函数是第五第二梯度函数，所述第f_n梯度值C是第五第f_n梯度值C；

根据所述第f_n智能体工况轨迹子集C5，得到第f_n第八概率值，其中，所述第f_n智能体工况轨迹子集C5是利用第f_n-1轮的第五策略器处理至少一个所述第f_n状态C5得到的，所述第f_n-1轮的第五策略器的模型参数是第一从进程响应于针对所述第一策略网络的第f_n轮训练操作，根据从第一主进程获取的第一当前全局策略器模型参数确定的，所述第f_n第八概率值表征所述第f_n轮的第八概率值；

利用所述第f_M轮的第五判别器处理所述第f_n智能体工况轨迹子集C5，得到第f_n第五动作价值函数值，其中，所述第f_n第五动作价值函数值表征所述第f_n轮的第五动作价值函数值；

利用第f_n-1轮的第五价值器处理所述第f_n智能体工况轨迹子集C5，得到第f_n第五状态价值函数值，其中，所述第f_n-1轮的第五价值器的模型参数是所述第一从进程响应于针对所述第一策略网络的第f_n轮训练操作，根据从所述第一主进程获取的第一当前全局价值器模型参数确定的，所述第f_n第五状态价值函数值表征所述第f_n轮的第五状态价值函数值；以及

根据所述第f_n第八概率值、所述第f_n第五动作价值函数值和所述第f_n第五状态价值函数值，得到所述第五第f_n梯度值C。

26.根据权利要求25所述的方法，还包括：

基于第五第三梯度函数，根据所述第f_n第五动作价值函数值和所述第f_n第五状态价值函数值，得到第五第f_n梯度值H，其中，所述第五第f_n梯度值H表征所述第f_n轮的第五梯度值H；

根据所述第五第f_n梯度值C调整所述第f_n-1轮的第五策略器的模型参数，得到所述第f_n轮的第五策略器；以及

根据所述第五第f_n梯度值H调整所述第f_n-1轮的第五价值器的模型参数，得到所述第f_n轮的第五价值器。

27.根据权利要求26所述的方法，还包括：

向所述第一主进程发送所述第f_n轮的第五策略器的模型参数和所述第f_n轮的第五价值器的模型参数，以便所述第一主进程根据所述第f_n轮的第五策略器的模型参数异步更新第二当前全局策略器模型参数，得到新的第一当前全局策略器模型参数以及根据所述第f_n轮的第五价值器的模型参数异步更新第二当前全局价值器模型参数，得到新的第一当前全局价值器模型参数；

其中，所述第二当前全局策略器模型参数是所述第一当前全局策略器模型参数和所述第一主进程接收到的第一其他从进程发送的第五策略器的模型参数中的之一；

其中，所述第二当前全局价值器模型参数是所述第一当前全局价值器模型参数和所述第一主进程接收到的第一其他从进程发送的第五价值器的模型参数中的之一。

28.根据权利要求7所述的方法，其中，所述策略器是第六六策略器，所述判别器是第六判别器，所述第一策略网络还包括第六价值器；

其中，所述第f_n智能体工况轨迹集C包括第f_n智能体工况轨迹子集C6，所述第f_n智能体工况轨迹子集C6包括至少一个第f_n动作状态对C6，所述第f_n动作状态对C6包括第f_n状态C6和与所述第f_n状态C6对应的第f_n动作C6，所述第f_n动作状态对C6表征所述第f_n轮的动作状态对C6，所述第f_n状态C6表征所述第f_n轮的状态C6，所述第f_n动作C6表征所述第f_n轮的动作C6；

其中，所述第二梯度函数是第六第二梯度函数，所述第f_n梯度值C是第六第f_n梯度值C；

根据所述第f_n智能体工况轨迹子集C6，得到第f_n第九概率值，其中，所述第f_n智能体工况轨迹子集C6是利用第f_n-1轮的第六策略器处理至少一个所述第f_n状态C6得到的，所述第f_n-1轮的第六策略器的模型参数是第二从进程响应于针对所述第一策略网络的第f_n轮训练操作，根据从第二主进程获取的第三当前全局策略器模型参数确定的，所述第f_n第九概率值表征所述第f_n轮的第九概率值；

利用所述第f_M轮的第六判别器处理所述第f_n智能体工况轨迹子集C6，得到第f_n第六动作价值函数值，其中，所述第f_n第六动作价值函数值表征所述第f_n轮的第六动作价值函数值；

利用第f_n-1轮的第六价值器处理所述第f_n智能体工况轨迹子集C6，得到第f_n第六状态价值函数值，其中，所述第f_n-1轮的第六价值器的模型参数是所述第二从进程响应于针对所述第一策略网络的第f_n轮训练操作，根据从所述第二主进程获取的第三当前全局价值器模型参数确定的，所述第f_n第六状态价值函数值表征所述第f_n轮的第六状态价值函数值；以及

根据所述第f_n第九概率值、所述第f_n第六动作价值函数值和所述第f_n第六状态价值函数值，得到所述第六第f_n梯度值C。

29.根据权利要求28所述的方法，还包括：

基于第六第三梯度函数，根据所述第f_n第六动作价值函数值和所述第f_n第六状态价值函数值，得到第六第f_n梯度值H，其中，所述第六第f_n梯度值H表征所述第f_n轮的第六梯度值H；

根据所述第六第f_n梯度值C调整所述第f_n-1轮的第六策略器的模型参数，得到所述第f_n轮的第六策略器；以及

根据所述第六第f_n梯度值H调整所述第f_n-1轮的第六价值器的模型参数，得到所述第f_n轮的第六价值器。

30.根据权利要求29所述的方法，还包括：

向所述第二主进程发送所述第f_n轮的第六策略器的模型参数和所述第f_n轮的第六价值器的模型参数，以便所述第二主进程在接收到第二其他从进程的第f_n轮的第六策略器的模型参数的情况下，根据所述第二从进程的第f_n轮的第六策略器的模型参数和所述第二其他从进程的第f_n轮的第六策略器的模型参数更新所述第三当前全局策略器模型参数，得到新的所述第三当前全局策略器模型参数以及根据所述第二从进程的第f_n轮的第六价值器的模型参数和所述第二其他从进程的第f_n轮的第六价值器的模型参数更新所述第三当前全局价值器模型参数，得到新的所述第三当前全局价值器模型参数。

31.根据权利要求3所述的方法，其中，所述工况轨迹集还包括普通工况轨迹集，所述普通工况轨迹集是普通对象利用普通对象策略与所述流程型工业环境进行交互得到的工况轨迹集，所述普通工况轨迹集包括至少一个普通工况轨迹，所述普通工况轨迹表征所述普通对象的动作状态序列；

其中，所述交替执行利用所述智能体工况轨迹集B和所述专家工况轨迹集训练所述判别器以及利用所述智能体工况轨迹集C训练所述第一策略网络的操作，直至满足所述预定结束条件，包括：

交替执行利用所述智能体工况轨迹集B、所述专家工况轨迹集和所述普通工况轨迹集训练所述判别器以及利用所述智能体工况轨迹集C训练所述第一策略网络的操作，直至满足所述预定结束条件。

32.根据权利要求1所述的方法，其中，所述利用工况轨迹集训练模仿学习模型，直至满足预定结束条件，包括重复执行以下操作，直至满足预定结束条件：

基于损失函数，根据所述专家工况轨迹集和所述智能体工况轨迹集，得到损失函数值；以及

根据所述损失函数值调整所述模仿学习模型的模型参数。

33.根据权利要求1所述的方法，其中，所述模仿学习模型包括第二策略网络和奖励网络；

利用所述专家工况轨迹集和所述智能体工况轨迹集对所述奖励网络和所述第二策略网络进行交替训练，直至满足所述预定结束条件，其中，所述智能体工况轨迹集是利用所述第二策略网络生成的；

将训练完成的第二策略网络确定为所述工业节能模型。

34.根据权利要求1～33中任一项所述的方法，其中，所述智能体工况轨迹包括至少一个智能体动作状态对，所述智能体动作状态对包括智能体状态和与所述智能体状态对应的智能体动作；

其中，所述专家工况轨迹包括至少一个专家动作状态对，所述专家动作状态对包括专家状态和与所述专家状态对应的专家动作；

其中，所述智能体状态和所述专家状态均包括以下至少之一：流程型工业任务的能源信息、所述流程型工业任务的业务信息和所述流程型工业任务的设备信息。

35.根据权利要求1～34中任一项所述的方法，其中，所述流程型工业环境包括印染工业环境。

36.一种动作确定方法，包括：

将目标智能体状态输入工业节能模型，得到目标动作；

其中，所述工业节能模型是利用根据权利要求1～35中任一项所述的方法训练得到的。

37.一种工业节能模型的训练装置，包括：

训练模块，用于利用工况轨迹集训练模仿学习模型，直至满足预定结束条件；以及

第一获得模块，用于根据训练完成的模仿学习模型，得到工业节能模型。

38.一种动作确定装置，包括：

第二获得模块，用于将目标智能体状态输入工业节能模型，得到目标动作；

其中，所述工业节能模型是利用根据权利要求37所述的装置训练得到的。

39.一种电子设备，包括：

多个处理器；以及

与所述多个处理器通信连接的存储器；其中，

所述存储器存储有可被所述多个处理器执行的指令，所述指令被所述多个处理器执行，以使所述多个处理器能够执行权利要求1～36中任一项所述的方法。

40.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～36中任一项所述的方法。

41.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～36中任一项所述的方法。