CN116304655A

CN116304655A - 策略模型获取及参数调整方法、装置及存储介质

Info

Publication number: CN116304655A
Application number: CN202211086266.3A
Authority: CN
Inventors: 蒋冠莹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2023-06-23
Anticipated expiration: 2042-09-06

Abstract

本公开提供了策略模型获取及参数调整方法、装置及存储介质，涉及物联网、深度学习以及大数据处理等人工智能领域，适用于各种流程型工艺场景。其中的策略模型获取方法可包括：构建虚拟仿真环境；利用所述虚拟仿真环境，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练；将训练得到的决策智能体作为策略模型，用于针对待处理订单对应的待调整参数、根据获取到的工况数据确定出最优参数值，所述待调整参数为能耗相关参数。应用本公开所述方案，可提升节能效果，降低实现成本等。

Description

策略模型获取及参数调整方法、装置及存储介质

技术领域

本公开涉及人工智能技术领域，特别涉及物联网、深度学习以及大数据处理等领域的策略模型获取及参数调整方法、装置及存储介质。

背景技术

在制造业生产中，如对于印染行业长车染色机台等流程型工艺，常常面临高能耗问题，从而给企业带来很大的成本压力。

发明内容

本公开提供了策略模型获取及参数调整方法、装置及存储介质。

一种策略模型获取方法，包括：

构建虚拟仿真环境；

利用所述虚拟仿真环境，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练；

将训练得到的所述决策智能体作为所述策略模型，用于针对待处理订单对应的待调整参数、根据获取到的工况数据确定出最优参数值，所述待调整参数为能耗相关参数。

一种参数调整方法，包括：

针对待处理订单对应的待调整参数，利用策略模型确定出最优参数值，所述策略模型为利用构建的虚拟仿真环境、基于生成对抗模仿学习架构、对虚拟仿真环境智能体和决策智能体进行训练后得到的所述决策智能体；

根据所述最优参数值对所述待调整参数进行调整。

一种策略模型获取装置，包括：构建模块、训练模型以及获取模块；

所述构建模块，用于构建虚拟仿真环境；

所述训练模块，用于利用所述虚拟仿真环境，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练；

所述获取模块，用于将训练得到的所述决策智能体作为所述策略模型，用于针对待处理订单对应的待调整参数、根据获取到的工况数据确定出最优参数值，所述待调整参数为能耗相关参数。

一种参数调整装置，包括：确定模块以及调整模块；

所述确定模块，用于针对待处理订单对应的待调整参数，利用策略模型确定出最优参数值，所述策略模型为利用构建的虚拟仿真环境、基于生成对抗模仿学习架构、对虚拟仿真环境智能体和决策智能体进行训练后得到的所述决策智能体；

所述调整模块，用于根据所述最优参数值对所述待调整参数进行调整。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行如以上所述的方法。

一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如以上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开所述策略模型获取方法实施例的流程图；

图2为本公开所述强化学习训练方式示意图；

图3为本公开所述参数调整方法实施例的流程图；

图4为本公开所述策略模型获取装置实施例400的组成结构示意图；

图5为本公开所述参数调整装置实施例500的组成结构示意图；

图6示出了可以用来实施本公开的实施例的电子设备600的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本公开所述策略模型获取方法实施例的流程图。如图1所示，包括以下具体实现方式。

在步骤101中，构建虚拟仿真环境。

在步骤102中，利用所述虚拟仿真环境，基于生成对抗模仿学习架构，对虚拟仿真环境智能体(agent)以及决策智能体进行训练。

在步骤103中，将训练得到的决策智能体作为策略模型，用于针对待处理订单对应的待调整参数、根据获取到的工况数据确定出最优参数值，所述待调整参数为能耗相关参数。

采用上述方法实施例所述方案，可基于虚拟仿真环境等训练得到策略模型，进而可利用策略模型来确定出待调整参数的最优参数值，并可相应地进行调整，所述待调整参数为能耗相关参数，从而提升了节能效果，降低了实现成本，即实现了节能调优和降本增效等。

优选地，上述方法实施例所述方案可应用于印染行业长车染色机台中。

长车染色机台通常包括11个环节/设备，整体分为前车和后车，长度分别为190米和410米，总长度为600米，主要是指布匹需要经过的长度，也即，包含了烘筒和水箱滚筒的周长等，每个环节/设备均会涉及到不同的设备参数、能耗参数和环境指标，以下分别进行介绍。

前车部分的能耗参数可包括：前车水耗量：瞬时流量、实时平均单耗值；前车电耗量：瞬时流量、实时平均单耗值；前车蒸汽阀门开度值；前车蒸汽耗量：瞬时流量、压力、温度、实时平均单耗值。

前车部分的环境指标可包括：实时户外温度、实时户外湿度、特殊节假日标记、排班排产信息、前后车之间的静置时长、机台空转时长以及前车车长(190米)。

前车部分的设备参数可包括：a)元宝车：红外感应仪：判断落布和摆布；前车车速：由于前车以染色为主，车速通常为恒定值45米/分钟；b)染色机：配料系统：配料成分、配比；c)红外预烘机两台：机箱温度、离心风速、循环风机、风道温度；d)预烘风箱三台：循环风频率值、排风频率值、张力值、预烘温控实际值、预烘温控设定值；e)烘房烘筒两台：烘房温度、烘房湿度；f)元宝车：红外感应仪：监测摆布落布。

后车部分的能耗参数可包括：后车水耗量：瞬时流量、实时平均单耗值；后车电耗量：瞬时流量、实时平均单耗值；后车蒸汽耗量：瞬时流量、压力、温度、实时平均单耗值；后车蒸汽阀门开度值；整车蒸汽的实时平均单耗值。

后车部分的环境指标可包括：10#水洗槽与烘筒之间的环境温度、环境湿度；10#水洗槽外的环境温度、环境湿度；后车车速，不同规格之间差异会比较大，通常在60-150米/分钟；后车车长(410米)。

后车部分的设备参数可包括：a)开放式水洗槽两台：水洗温度、双氧水计算量、皂洗剂量；b)封闭式水洗槽两台：每台的皂洗温度实际值、设定值；轧车压力、涨力架压力；c)蒸汽水箱八台：每台机器的皂洗温度实际值、设定值；水箱的化学反应：pH下限值、pH温度、pH上限值、pH实际值；轧车压力、涨力架压力；d)蒸汽烘筒：布面含潮率的实际值、设定值和预警临界值；技工手触干燥度评估；e)元宝车：红外感应仪：检测摆布和落布。

相应地，所述待调整参数可包括前车车速、后车车速以及后车蒸汽阀门开度等，具体包括哪个/哪些参数可根据实际需要而定。

本公开所述方案可基于生成对抗模仿学习(GAIL，Generative AdversarialImitation Learning)架构实现，具体地，所述生成对抗模仿学习架构可为多智能体生成对抗模仿学习(MAIL，Multi-Agent Generative Adversarial Imitation Learning)架构。

与人工神经网络、遗传算法一样，强化学习(RL，Reinforcement Learning)作为生物启发式学习算法之一，从提出开始就备受学界和业界关注。生成对抗模仿学习为强化学习的重要分支，通过大量专家轨迹数据，在生成对抗机制下学习智能体的决策模式，其中，生成器(generator)会通过随机数据构造仿真轨迹，辨别器(discriminator)用来判断轨迹为真实的还是虚拟的，即是来自真实环境的还是生成器生成的，最终训练得的生成器能够仿造专家行为，生成类似于真实的专家轨迹的虚拟轨迹。

本公开所述方案中，可首先构建虚拟仿真环境。在强化学习研究中，训练环境主要包括三种形式，即真实交互环境、机理仿真环境以及虚拟仿真环境。

通常来说，让强化学习模型直接在真实环境中部署、运行和调试的情况比较少见，一方面是由于会存在安全风险，即如果安全业务策略不完备，会给仪器设备带来损坏，另一方面是由于会带来成本的增加，即利用生产机台跑模型，会占据生产资料，消耗水电能耗，影响正常排产生产等。

而机理仿真环境是用得比较多的，比如，在交通流仿真场景中，可结合不同车道类型、不同时段、不同交通参与者的历史交通流统计特征，以及汽车动力学和运动学等，构造局部的车流仿真系统，为了更逼真，还可再增添有限的随机扰动因素，如突然横冲的行人或车辆等。

然而，很多场景下不适合采用机理仿真环境，比如，对于本公开所述的长车染色机台，由于常常涉及到不可量化的物理和化学反应，因此不适合采用机理仿真环境，相应地，则需要采用虚拟仿真环境。

本公开的一个实施例中，可获取历史工况轨迹，并可从获取到的历史工况轨迹中筛选出符合预定要求的历史工况轨迹，作为专家轨迹，进而可根据专家轨迹构建出虚拟仿真环境。

历史工况轨迹即指历史上生成的实际生产轨迹，如针对某一订单，从订单的开始时间到结束时间的工况数据组成的轨迹。其中，订单是指根据客户下单所做的排产，工况数据是指生产环境内部及周边的状况变化数据。

以长车染色机台为例，厂家可根据订单对应的颜色、布料和数量等，配合机台和班组，制定一定的生产节拍，完成生产，工况数据可包括生产报工数据、品类规格数据、设备参数以及能耗数据等。其中，生产报工数据可包括所生产的布匹长度等，品类规格数据可包括克重、色深、规格、物料和色名等，设备参数可包括前车烘房温度、前车烘房湿度、前车车速、后车车速、布面含潮率值等，能耗数据可包括前后车的蒸汽压力、蒸汽温度、蒸汽流量、瞬时电耗量以及瞬时水耗量等。

在长车染色机台中，部分生产环节受人为因素影响较大，初级技工和高级技术对设备工艺参数的操作差异可能很小，但实际带来的能耗差异却可能很大，因此，不能将所有的历史工况轨迹均作为专家轨迹，而是需要从中筛选出部分符合预定要求的优秀轨迹，作为专家轨迹，以提升后续处理结果的准确性等。

优选地，历史工况轨迹可以是指与待处理订单属于同一品类或相似品类的历史工况轨迹。

本公开的一个实施例中，可将水耗量、电耗量以及汽耗量均处于下四分位数以下的历史工况轨迹作为专家轨迹，从而确保了选出的专家轨迹均为能耗较小的优秀轨迹。

在其它场景中，获取专家轨迹通常是指指定某位专家，如游戏高级玩家或世界著名棋手等，与环境进行交互，并将其全量交互过程作为专家轨迹。

在筛选出专家轨迹之后，可进一步构建出虚拟仿真环境。本公开的一个实施例中，可利用专家轨迹训练生成对抗类模型，利用训练得到的生成对抗类模型生成虚拟专家轨迹。

构建虚拟仿真环境，即指生成虚拟专家轨迹。本公开所述方案中，可选择生成对抗类模型进行学习，对于各种生成对抗类模型，本质上都是通过生成器将随机数据改造成虚拟数据，达到混淆辨别器的效果，得到的生成器即可以用于生成类似于真实数据的虚拟数据。

具体到本公开所述方案中，考虑到长车染色机台这种流程型工艺数据的时间依赖性较强，而传统的生成对抗网络(GAN，Generative Adversarial Networks)模型假定数据的独立性，不利于捕获时序相关性，因此，本公开的一个实施例中，所采用的生成对抗类模型可为时间序列生成对抗模型，如时间序列生成对抗网络(TimeGAN，Time-seriesGenerative Adversarial Networks)模型或相对条件生成对抗网络(RCGAN，RelativisticConditional Generative Adversarial Networks)模型等，通过对比发现，TimeGAN模型生成的轨迹的特征更贴合实际情况，因此，可选择TimeGAN模型作为虚拟仿真环境构建模型。

在构建出虚拟仿真环境后，可利用所述虚拟仿真环境，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练。在生成对抗模仿学习架构下，可利用自适应矩估计(ADAM，Adaptive Moment Estimation)模型对辨别器参数做梯度上升，利用信赖域策略优化(TRPO，Trust Region Policy Optimization)模型对生成器参数做梯度下降，保证虚构的策略不远离专家策略。

具体地，本公开的一个实施例中，可利用虚拟专家轨迹，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练，或者，可利用虚拟专家轨迹以及专家轨迹，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练。

前一种方式中，可仅采用虚拟专家轨迹来进行智能体的训练，后一种方式中，可进一步利用筛选出的专家轨迹，即同时利用虚拟专家轨迹以及筛选出的专家轨迹来进行智能体的训练，从而增大了训练样本的数量，进而进一步提升了训练效果等，具体采用上述哪种方式可根据实际需要而定，非常的灵活方便。

在训练过程中，决策智能体会输出动作(Action)，并需要获取环境状态(Environment/State)反馈，由于无法直接操控真实机台，因此需要借助于虚拟仿真环境智能体，依据动作，仿照真实机台，输出下一时刻改变后的状态等。所述动作可以是指对设备参数和/或能耗参数进行调整，如对前车速度、后车速度以及后车蒸汽阀门开度等进行调整。本公开的一个实施例中，可选择有监督时序模型如循环神经网络(RNN，RecurrentNeural Network)模型作为虚拟仿真环境智能体，具体地，可为双向长短期记忆网络(BiLSTM，Bi-directional Long Short-Term Memory)模型等。

训练决策智能体，是指训练一个神经网络模型，使其基于观测到的环境状态，输出动作，并期望动作能够获得尽可能高的奖赏(Reward)。本质上，该模型需要做序列决策问题，通过一系列环境状态的变化，以及自身动作换来的奖赏，不断调整自身决策方式，使得在最终轨迹结束时得到的总奖赏足够大。

本公开的一个实施例中，可采用适用于高维连续动作空间的强化学习模型作为决策智能体，如可为动作评价(AC，Actor-Critic)模型、同步优势动作评价(A2C，AdvantageActor-Critic)模型、异步优势动作评价(A3C，Asynchronous Advantage Actor-Critic)模型、TRPO模型、近端策略优化(PPO，Proximal Policy Optimization)模型或深度确定性策略梯度(DDPG，Deep Deterministic Policy Gradient)模型等。

本公开的一个实施例中，在对虚拟仿真环境智能体以及决策智能体进行训练时，可按照虚拟仿真环境智能体和决策智能体互为智能体和环境的方式，对虚拟仿真环境智能体和决策智能体进行训练，其中，可基于能耗、动作变化率和品控中的至少一种确定智能体的奖赏。

通过上述处理，可提升训练效率以及训练效果，并可高效准确地获取到所需的决策智能体，从而为后续的节能处理奠定了良好的基础。

本公开所述方案中，可使用人工智能工具包(OpenAI Gym)定义智能体间的交互，如可包括以下模块：1)环境重置(Reset)：产生随机初始状态和动作数据；2)动作反馈(Step)：根据当前状态和动作确定出下一时刻的状态；3)结果渲染(Render)：可不做可视化处理，而是打印当前状态、动作和奖赏等；4)奖赏：可基于能耗、动作变化率和品控中的至少一种确定出智能体的奖赏，比如，对于能耗，需要将单位时间蒸汽流量控制在较低水平，另外，水电汽耗量应该在业务或安全范围内，动作变化率是指对设备参数和能耗参数等的调整切忌幅度过大，品控可以是指颜色或花纹是否正确等；5)动作状态空间：可按照各设备参数和能耗参数的安全业务范围等指定。

图2为本公开所述强化学习训练方式示意图。如图2所示，智能体可与环境进行交互，交互过程中，智能体和环境互为智能体和环境，两者的动作和状态都是相对而言的，同时，智能体的动作是带有目的性的，希望能够获得尽可能高的奖赏。

另外，本公开所述方案中，在对虚拟仿真环境智能体以及决策智能体进行训练时，可在开源的机器学习库(PyTorch)框架下实现，并可借由此框架实现多机多卡、单机多卡的分布式训练，进一步地，如果需要部署在边缘终端，可将PyTorch代码转换为开放神经网络交换(ONNX，Open Neural Network Exchange)形式，再转换为高性能深度学习支持引擎(TensorRT)形式，完成模型加速。

完成训练后，可将得到的决策智能体作为所需的策略模型，后续可用于针对待处理订单对应的待调整参数、根据获取到的工况数据确定出最优参数值，所述待调整参数为能耗相关参数。

相应地，图3为本公开所述参数调整方法实施例的流程图。如图3所示，包括以下具体实现方式。

在步骤301中，针对待处理订单对应的待调整参数，利用策略模型确定出最优参数值，所述策略模型为利用构建的虚拟仿真环境、基于生成对抗模仿学习架构、对虚拟仿真环境智能体和决策智能体进行训练后得到的决策智能体。

在步骤302中，根据所述最优参数值对待调整参数进行调整。

优选地，所述待调整参数可包括前车车速、后车车速以及后车蒸汽阀门开度等，具体包括哪个/哪些参数可根据实际需要而定。

所述工况数据可包括生产报工数据、品类规格数据、设备参数以及能耗数据等。

在实际应用中，可周期性地执行图3所示处理，所述周期的具体时长可根据实际需要而定，如果时长较短，那么则相当于实时地进行处理。

另外，在实际应用中，本公开所述方案可采用云端部署方式，或采用云边结合的部署方式，具体方式不限。

需要说明的是，对于前述的各方法实施例，为了简单描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。另外，某个实施例中没有详述的部分，可以参见其它实施例中的相关说明。

总之，采用本公开方法实施例所述方案，可提升节能效果，降低实现成本等，另外，以上以印染行业长车染色机台为例，但本公开方法实施例所述方案不仅适用于印染行业长车染色机台，对于其它流程型工艺场景均可适用，如纺织、造纸、化工、生物制造和食品等流程型工艺场景，具有广泛适用性。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图4为本公开所述策略模型获取装置实施例400的组成结构示意图。如图4所示，包括：构建模块401、训练模型402以及获取模块403。

构建模块401，用于构建虚拟仿真环境。

训练模块402，用于利用虚拟仿真环境，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练。

获取模块403，用于将训练得到的决策智能体作为策略模型，用于针对待处理订单对应的待调整参数、根据获取到的工况数据确定出最优参数值，所述待调整参数为能耗相关参数。

采用上述装置实施例所述方案，可基于虚拟仿真环境等训练得到策略模型，进而可利用策略模型来确定出待调整参数的最优参数值，并可相应地进行调整，所述待调整参数为能耗相关参数，从而提升了节能效果，降低了实现成本，即实现了节能调优和降本增效等。

本公开的一个实施例中，构建模块401可获取历史工况轨迹，并可从获取到的历史工况轨迹中筛选出符合预定要求的历史工况轨迹，作为专家轨迹，进而可根据专家轨迹构建出虚拟仿真环境。

历史工况轨迹即指历史上生成的实际生产轨迹，如针对某一订单，从订单的开始时间到结束时间的工况数据组成的轨迹。

对于长车染色机台，所述工况数据可包括生产报工数据、品类规格数据、设备参数以及能耗数据等。其中，生产报工数据可包括所生产的布匹长度等，品类规格数据可包括克重、色深、规格、物料和色名等，设备参数可包括前车烘房温度、前车烘房湿度、前车车速、后车车速、布面含潮率值等，能耗数据可包括前后车的蒸汽压力、蒸汽温度、蒸汽流量、瞬时电耗量以及瞬时水耗量等。

本公开的一个实施例中，构建模块401可将水耗量、电耗量以及汽耗量均处于下四分位数以下的历史工况轨迹作为专家轨迹。

在筛选出专家轨迹之后，可进一步构建出虚拟仿真环境。本公开的一个实施例中，构建模块401可利用专家轨迹训练生成对抗类模型，利用训练得到的生成对抗类模型生成虚拟专家轨迹。

训练模块402可利用虚拟仿真环境，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练。

本公开的一个实施例中，训练模块402可利用虚拟专家轨迹，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练，或者，可利用虚拟专家轨迹以及专家轨迹，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练。

本公开的一个实施例中，生成对抗类模型可包括：时间序列生成对抗模型，和/或，虚拟仿真环境智能体可包括：循环神经网络模型，和/或，决策智能体可包括：适用于高维连续动作空间的强化学习模型。

另外，本公开的一个实施例中，训练模块402在对虚拟仿真环境智能体以及决策智能体进行训练时，可按照虚拟仿真环境智能体和决策智能体互为智能体和环境的方式，对虚拟仿真环境智能体和决策智能体进行训练，其中，可基于能耗、动作变化率和品控中的至少一种确定智能体的奖赏。

获取模块403可将得到的决策智能体作为所需的策略模型，后续可用于针对待处理订单对应的待调整参数、根据获取到的工况数据确定出最优参数值，所述待调整参数为能耗相关参数。

图5为本公开所述参数调整装置实施例500的组成结构示意图。如图5所示，包括：确定模块501以及调整模块502。

确定模块501，用于针对待处理订单对应的待调整参数，利用策略模型确定出最优参数值，所述策略模型为利用构建的虚拟仿真环境、基于生成对抗模仿学习架构、对虚拟仿真环境智能体和决策智能体进行训练后得到的决策智能体。

调整模块502，用于根据所述最优参数值对所述待调整参数进行调整。

优选地，所述待调整参数可包括前车车速、后车车速以及后车蒸汽阀门开度等。所述工况数据可包括生产报工数据、品类规格数据、设备参数以及能耗数据等。

图4和图5所示装置实施例的具体工作流程可参照前述方法实施例中的相关说明，不再赘述。

总之，采用本公开装置实施例所述方案，可提升节能效果，降低实现成本等，另外，以上以印染行业长车染色机台为例，但本公开装置实施例所述方案不仅适用于印染行业长车染色机台，对于其它流程型工艺场景均可适用，如纺织、造纸、化工、生物制造和食品等流程型工艺场景，具有广泛适用性。

本公开所述方案可应用于人工智能领域，特别涉及物联网、深度学习以及大数据处理等领域。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术，人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术，人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

本公开所述实施例中的订单并不是针对某一特定用户的，并不能反映出某一特定用户的个人信息。本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如本公开所述的方法。例如，在一些实施例中，本公开所述的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行本公开所述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开所述的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种策略模型获取方法，包括：

构建虚拟仿真环境；

2.根据权利要求1所述的方法，其中，所述构建虚拟仿真环境包括：

获取历史工况轨迹；

从所述历史工况轨迹中筛选出符合预定要求的历史工况轨迹，作为专家轨迹；

根据所述专家轨迹构建出所述虚拟仿真环境。

3.根据权利要求2所述的方法，其中，所述从所述历史工况轨迹中筛选出符合预定要求的历史工况轨迹，作为专家轨迹包括：

将水耗量、电耗量以及汽耗量均处于下四分位数以下的所述历史工况轨迹作为所述专家轨迹。

4.根据权利要求2或3所述的方法，其中，所述根据所述专家轨迹构建出所述虚拟仿真环境包括：

利用所述专家轨迹训练生成对抗类模型，利用训练得到的所述生成对抗类模型生成虚拟专家轨迹。

5.根据权利要求4所述的方法，其中，所述利用所述虚拟仿真环境，基于生成对抗模仿学习架构，对虚拟仿真环境智能体以及决策智能体进行训练包括：

利用所述虚拟专家轨迹，基于所述生成对抗模仿学习架构，对所述虚拟仿真环境智能体以及所述决策智能体进行训练；

或者，利用所述虚拟专家轨迹以及所述专家轨迹，基于所述生成对抗模仿学习架构，对所述虚拟仿真环境智能体以及所述决策智能体进行训练。

6.根据权利要求4所述的方法，其中，

所述生成对抗类模型包括：时间序列生成对抗模型；

和/或，所述虚拟仿真环境智能体包括：循环神经网络模型；

和/或，所述决策智能体包括：适用于高维连续动作空间的强化学习模型。

7.根据权利要求1～6中任一项所述的方法，其中，所述对虚拟仿真环境智能体以及决策智能体进行训练包括：

按照所述虚拟仿真环境智能体和所述决策智能体互为智能体和环境的方式，对所述虚拟仿真环境智能体和所述决策智能体进行训练，其中，基于能耗、动作变化率和品控中的至少一种确定智能体的奖赏。

8.一种参数调整方法，包括：

根据所述最优参数值对所述待调整参数进行调整。

9.一种策略模型获取装置，包括：构建模块、训练模型以及获取模块；

所述构建模块，用于构建虚拟仿真环境；

10.根据权利要求9所述的装置，其中，

所述构建模块获取历史工况轨迹，从所述历史工况轨迹中筛选出符合预定要求的历史工况轨迹，作为专家轨迹，根据所述专家轨迹构建出所述虚拟仿真环境。

11.根据权利要求10所述的装置，其中，

所述构建模块将水耗量、电耗量以及汽耗量均处于下四分位数以下的历史工况轨迹作为所述专家轨迹。

12.根据权利要求10或11所述的装置，其中，

所述构建模块利用所述专家轨迹训练生成对抗类模型，利用训练得到的所述生成对抗类模型生成虚拟专家轨迹。

13.根据权利要求12所述的装置，其中，

所述训练模块利用所述虚拟专家轨迹，基于所述生成对抗模仿学习架构，对所述虚拟仿真环境智能体以及所述决策智能体进行训练；

或者，所述训练模块利用所述虚拟专家轨迹以及所述专家轨迹，基于所述生成对抗模仿学习架构，对所述虚拟仿真环境智能体以及所述决策智能体进行训练。

14.根据权利要求12所述的装置，其中，

所述生成对抗类模型包括：时间序列生成对抗模型；

和/或，所述虚拟仿真环境智能体包括：循环神经网络模型；

15.根据权利要求9～14中任一项所述的装置，其中，

所述训练模块按照所述虚拟仿真环境智能体和所述决策智能体互为智能体和环境的方式，对所述虚拟仿真环境智能体和所述决策智能体进行训练，其中，基于能耗、动作变化率和品控中的至少一种确定智能体的奖赏。

16.一种参数调整装置，包括：确定模块以及调整模块；

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-8中任一项所述的方法。