CN113189879B

CN113189879B - 控制策略的确定方法及装置、存储介质及电子设备

Info

Publication number: CN113189879B
Application number: CN202110505118.XA
Authority: CN
Inventors: 秦家虎; 周承港; 李曼
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2022-07-15
Anticipated expiration: 2041-05-10
Also published as: CN113189879A

Abstract

本发明提供一种控制策略的确定方法及装置、存储介质及电子设备，该方法包括，获取多组系统数据，确定第一神经网络和第二神经网络，及第一神经网络对应的第一权重更新策略，和第二神经网络对应的第二权重更新策略。通过各组系统数据、第一权重更新策略及第二权重更新策略，分别对第一神经网络及第二神经网络进行训练，使得训练后的第一神经网络符合预设的第一收敛条件，且训练后的第二神经网络符合预设的第二收敛条件；以训练后的第一神经网络和训练后的第二神经网络，配置控制器，以使控制器在被控系统运行过程中，根据被控系统的实时系统状态，向被控系统输入控制信号。应用本发明的方法，无需求解复杂的贝尔曼方程，可便捷地确定控制策略。

Description

控制策略的确定方法及装置、存储介质及电子设备

技术领域

本发明涉及控制技术领域，特别是涉及一种控制策略的确定方法及装置、存储介质及电子设备。

背景技术

随着控制技术的发展，在各个领域的工程应用中，常常需配置控制器对被控系统实行控制，使其趋于某种目标的稳定状态。而控制器通常是基于以策略函数为表达形式的控制策略进行设计的。

在确定控制策略的过程中，通常会寻求最优控制，也就是在给定的约束条件下，寻求一个控制，使给定的系统性能指标达到极大值或极小值。故目前确定控制策略的方式，一般是通过动态规划实现的，也就是构建哈密顿-雅克比-贝尔曼(Hamilton-Jacobi-Bellman，HJB)方程，简称贝尔曼方程，以该方程的解确定控制策略，以配置控制器。

在实际的工程应用中，被控系统通常是需考虑多个优化目标的非线性系统，系统中存在相互博弈的输入信号，如控制器的控制输入以及系统的干扰输入。对于上述系统，若是通过现有方式确定控制策略，会得到十分复杂的贝尔曼方程，难以求解。故在此情况下，通常难以确定所需的控制策略。

发明内容

有鉴于此，本发明实施例提供了一种控制策略的确定方法，以解决难以确定控制策略的问题。

本发明实施例还提供了一种控制策略的确定装置，用以保证上述方法实际中的实现及应用。

为实现上述目的，本发明实施例提供如下技术方案：

一种控制策略的确定方法，包括：

获取预先采集的多组系统数据，每组所述系统数据包括被控系统在输入激励信号的情况下，在预定信号采集时间点上所采集的所述激励信号的当前信号值，和所述被控系统的当前系统状态；

确定预构建的第一神经网络和第二神经网络；

确定所述第一神经网络对应的第一权重更新策略，和所述第二神经网络对应的第二权重更新策略，所述第一权重更新策略和所述第二权重更新策略，为基于离策略的强化学习算法和值函数逼近算法所得到的更新策略；

通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略，分别对所述第一神经网络及所述第二神经网络进行训练，使得训练后的第一神经网络符合预设的第一收敛条件，且训练后的第二神经网络符合预设的第二收敛条件；

以所述训练后的第一神经网络和所述训练后的第二神经网络，配置控制器，以使已配置的控制器在所述被控系统运行过程中，根据所述被控系统的实时系统状态，向所述被控系统输入控制信号。

上述的方法，可选的，所述通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略，分别对所述第一神经网络及所述第二神经网络进行训练，包括：

按照预设的训练周期，分别对所述第一神经网络的权重和所述第二神经网络的权重进行更新，在进入当前的训练周期时，基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略，对当前的第二神经网络的权重进行迭代更新，使得迭代更新后的第二神经网络符合所述第二收敛条件；

基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略，更新当前的第一神经网络的权重，并判断更新后的第一神经网络是否符合所述第一收敛条件；

若更新后的第一神经网络不符合所述第一收敛条件，则进入下一个训练周期，若更新后的第一神经网络符合所述第一收敛条件，则完成对所述第一神经网络和所述第二神经网络的训练。

上述的方法，可选的，所述基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略，对当前的第二神经网络的权重进行迭代更新，使得迭代更新后的第二神经网络符合所述第二收敛条件，包括：

在进入当前的迭代周期时，根据预设的第一参数计算模型和当前的第一神经网络，计算每组所述系统数据对应的第一计算参数和第二计算参数；所述第一参数计算模型为基于第一逼近误差方程中的各个参数项所构建的计算模型，所述第一逼近误差方程为基于神经网络的函数逼近策略和第一贝尔曼方程所确定的误差方程，所述第一贝尔曼方程为所述离策略的强化学习算法中用于优化第一输入信号的贝尔曼方程；

依据预设的第一权重计算模型，和每组所述系统数据对应的所述第一计算参数和所述第二计算参数，确定当前迭代周期对应的第一权重集合；所述第一权重计算模型为基于最小二乘法最小化所述第一逼近误差方程所得到的计算模型；

在所述第一权重集合中确定当前的第二神经网络对应的目标权重，以所述当前的第二神经网络对应的目标权重，对所述当前的第二神经网络的权重进行更新；

判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件，若当前迭代周期中所述更新后的第二神经网络不符合所述第二收敛条件，则进入下一个迭代周期；

若当前迭代周期中所述更新后的第二神经网络符合所述第二收敛条件，则结束所述迭代更新过程。

上述的方法，可选的，所述判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件，包括：

确定当前迭代周期对应的初始权重集合；

基于所述第一权重集合与所述当前迭代周期对应的初始权重集合，判断所述第一权重集合是否收敛；

若所述第一权重集合已收敛，则确定当前迭代周期中所述更新后的第二神经网络符合所述第二收敛条件。

上述的方法，可选的，所述基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略，更新当前的第一神经网络的权重，包括：

根据预设的第二参数计算模型和更新后的第二神经网络，计算每组所述系统数据对应的第三计算参数和第四计算参数；所述第二参数计算模型为基于第二逼近误差方程中的各个参数项所构建的计算模型，所述第二逼近误差方程为基于神经网络的函数逼近策略和第二贝尔曼方程所确定的误差方程，所述第二贝尔曼方程为所述离策略的强化学习算法中用于优化第二输入信号的贝尔曼方程；

依据预设的第二权重计算模型，和每组所述系统数据对应的所述第三参数和所述第四计算参数，确定当前训练周期对应的第二权重集合，所述第二权重计算模型为基于最小二乘法最小化所述第二逼近误差方程所得到的计算模型；

在所述第二权重集合中确定当前的第一神经网络对应的目标权重，以所述当前的第一神经网络对应的目标权重，对当前的第一神经网络的权重进行更新。

上述的方法，可选的，所述判断更新后的第一神经网络是否符合所述第一收敛条件，包括：

确定当前训练周期对应的初始权重集合；

基于所述第二权重集合和所述当前训练周期对应的初始权重集合，判断所述第二权重集合是否收敛；

若所述第二权重集合已收敛，则确定更新后的第一神经网络符合所述第一收敛条件。

上述的方法，可选的，所述基于神经网络的函数逼近策略和所述第一贝尔曼方程确定所述第一逼近误差方程的过程，包括：

确定所述第一贝尔曼方程中的值函数对应的神经网络；

确定所述第一贝尔曼方程中的策略函数对应的神经网络；

确定所述第一贝尔曼方程中的动力学参数对应的神经网络；

将所述值函数对应的神经网络、策略函数对应的神经网络和所述动力学参数对应的神经网络，代入所述第一贝尔曼方程，得到所述第一贝尔曼方程对应的逼近误差方程，将所述第一贝尔曼方程对应的逼近误差方程作为所述第一逼近误差方程。

一种控制策略的确定装置，包括：

获取单元，用于获取预先采集的多组系统数据，每组所述系统数据包括被控系统在输入激励信号的情况下，在预定信号采集时间点上所采集的所述激励信号的当前信号值，和所述被控系统的当前系统状态；

第一确定单元，用于确定预构建的第一神经网络和第二神经网络；

第二确定单元，用于确定所述第一神经网络对应的第一权重更新策略，和所述第二神经网络对应的第二权重更新策略，所述第一权重更新策略和所述第二权重更新策略，为基于离策略的强化学习算法和值函数逼近算法所得到的更新策略；

训练单元，用于通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略，分别对所述第一神经网络及所述第二神经网络进行训练，使得训练后的第一神经网络符合预设的第一收敛条件，且训练后的第二神经网络符合预设的第二收敛条件；

配置单元，用于以所述训练后的第一神经网络和所述训练后的第二神经网络，配置控制器，以使已配置的控制器在所述被控系统运行过程中，根据所述被控系统的实时系统状态，向所述被控系统输入控制信号。

上述的装置，可选的，所述训练单元，包括：

第一更新子单元，用于按照预设的训练周期，分别对所述第一神经网络的权重和所述第二神经网络的权重进行更新，在进入当前的训练周期时，基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略，对当前的第二神经网络的权重进行迭代更新，使得迭代更新后的第二神经网络符合所述第二收敛条件；

第二更新子单元，用于基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略，更新当前的第一神经网络的权重；

第一判断子单元，用于判断更新后的第一神经网络是否符合所述第一收敛条件，若更新后的第一神经网络不符合所述第一收敛条件，则进入下一个训练周期，若更新后的第一神经网络符合所述第一收敛条件，则完成对所述第一神经网络和所述第二神经网络的训练。

上述的装置，可选的，所述第一更新子单元，包括：

第一计算子单元，用于在进入当前的迭代周期时，根据预设的第一参数计算模型和当前的第一神经网络，计算每组所述系统数据对应的第一计算参数和第二计算参数；所述第一参数计算模型为基于第一逼近误差方程中的各个参数项所构建的计算模型，所述第一逼近误差方程为基于神经网络的函数逼近策略和第一贝尔曼方程所确定的误差方程，所述第一贝尔曼方程为所述离策略的强化学习算法中用于优化第一输入信号的贝尔曼方程；

第一确定子单元，用于依据预设的第一权重计算模型，和每组所述系统数据对应的所述第一计算参数和所述第二计算参数，确定当前迭代周期对应的第一权重集合；所述第一权重计算模型为基于最小二乘法最小化所述第一逼近误差方程所得到的计算模型；

第三更新子单元，用于在所述第一权重集合中确定当前的第二神经网络对应的目标权重，以所述当前的第二神经网络对应的目标权重，对所述当前的第二神经网络的权重进行更新；

第二判断子单元，用于判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件，若当前迭代周期中所述更新后的第二神经网络不符合所述第二收敛条件，则进入下一个迭代周期；

上述的装置，可选的，所述第二判断子单元，包括：

第二确定子单元，用于确定当前迭代周期对应的初始权重集合；

第三判断子单元，用于基于所述第一权重集合与所述当前迭代周期对应的初始权重集合，判断所述第一权重集合是否收敛；

第三确定子单元，用于若所述第一权重集合已收敛，则确定当前迭代周期中所述更新后的第二神经网络符合所述第二收敛条件。

上述的装置，可选的，所述第二更新子单元，包括：

第二计算子单元，用于根据预设的第二参数计算模型和更新后的第二神经网络，计算每组所述系统数据对应的第三计算参数和第四计算参数；所述第二参数计算模型为基于第二逼近误差方程中的各个参数项所构建的计算模型，所述第二逼近误差方程为基于神经网络的函数逼近策略和第二贝尔曼方程所确定的误差方程，所述第二贝尔曼方程为所述离策略的强化学习算法中用于优化第二输入信号的贝尔曼方程；

第四确定子单元，用于依据预设的第二权重计算模型，和每组所述系统数据对应的所述第三参数和所述第四计算参数，确定当前训练周期对应的第二权重集合，所述第二权重计算模型为基于最小二乘法最小化所述第二逼近误差方程所得到的计算模型；

第四更新子单元，用于在所述第二权重集合中确定当前的第一神经网络对应的目标权重，以所述当前的第一神经网络对应的目标权重，对当前的第一神经网络的权重进行更新。

上述的装置，可选的，所述第一判断子单元，包括：

第五确定子单元，用于确定当前训练周期对应的初始权重集合；

第四判断子单元，用于基于所述第二权重集合和所述当前训练周期对应的初始权重集合，判断所述第二权重集合是否收敛；

第六确定子单元，用于若所述第二权重集合已收敛，则确定更新后的第一神经网络符合所述第一收敛条件。

上述的装置，可选的，还包括：

第三确定单元，用于确定所述第一贝尔曼方程中的值函数对应的神经网络；

第四确定单元，用于确定所述第一贝尔曼方程中的策略函数对应的神经网络；

第五确定单元，用于确定所述第一贝尔曼方程中的动力学参数对应的神经网络；

构建单元，用于将所述值函数对应的神经网络、策略函数对应的神经网络和所述动力学参数对应的神经网络，代入所述第一贝尔曼方程，得到所述第一贝尔曼方程对应的逼近误差方程，将所述第一贝尔曼方程对应的逼近误差方程作为所述第一逼近误差方程。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的控制策略的确定方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的控制策略的确定方法。

基于上述本发明实施例提供的一种控制策略的确定方法及装置、存储介质及电子设备，该方法包括：确定预构建的第一神经网络对应的第一权重更新策略，和预构建的第二神经网络对应的第二权重更新策略，其中，所述第一权重更新策略和所述第二权重更新策略为基于离策略的强化学习算法和值函数逼近算法所得到的更新策略。基于预先采集的多组系统数据、所述第一权重更新策略和所述第二权重更新策略，分别对所述第一神经网络和所述第二神经网络进行训练，使得训练后的第一神经网络和训练后的第二神经网络分别符合预设的第一收敛条件和第二收敛条件。以训练后的第一神经网络和训练后的第二神经网络，配置被控系统的控制器，以在所述被控系统的运行过程中，经配置的控制器可根据实时系统状态向所述被控系统输入控制信号。应用本发明的方法，可以以神经网络逼近控制策略，预先基于离策略的强化学习算法和值函数逼近算法确定神经网络的权重更新策略，可基于训练后的神经网络配置控制器的控制策略，无需求解复杂的贝尔曼方程，可在存在多个优化目标的情况下，便捷地确定控制策略。另外，通过预先采集的系统数据作为训练信息，从中间接学习了系统的动力学信息，无需依赖于完整的系统动力学信息，适用于在难以获得系统动力学信息的情况下，确定控制策略，提高工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种控制策略的确定方法的方法流程图；

图2为本发明实施例提供的一种控制策略的确定方法的又一方法流程图；

图3为本发明实施例提供的一种被控系统的结构示意图；

图4为本发明实施例提供的一种第二神经网络的权重变化示意图；

图5为本发明实施例提供的一种第一神经网络的权重变化示意图；

图6为本发明实施例提供的一种被控系统的系统状态变化示意图；

图7为本发明实施例提供的一种控制策略的确定装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，在工业应用中，常常需要同时优化多个目标，也就是在系统的控制分析中，需使用多个性能指标表达我们对于系统的期望。在实际的工程应用中，多个性能指标之间往往相互冲突、相互矛盾，例如投资中的高收益与低风险，汽车的大马力与低油耗等等，一方的利益获得会导致另一方的利益受损，不可能使得所有目标同时都达到最优，只能在它们中间进行协调和折中处理，使各个子目标都尽可能地达到最优化，多目标优化是在现实各个领域中都普遍存在的问题。区别于单目标优化问题，多目标优化问题的解并非唯一，而是存在一组由众多帕累托最优解组成的最优解集合，集合中的各个元素称为帕累托最优解或非劣最优解，一个帕累托最优解意味着没有其他解可以继续改善所有的目标。零和博弈又称零和游戏，与非零和博弈相对，是博弈论的一个概念，属非合作博弈。它是指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为“零”，双方不存在合作的可能。在被控系统存在两个输入，且这两个输入互相为零和博弈关系的情况下，这时关于多个目标同时进行优化的问题，可视为多个目标的二人零和博弈问题。

通过传统的最优控制问题的解决方法求解上述多目标优化的问题，通常是无用的，且传统方法严重依赖于完整的系统动力学信息，而精确地系统动力学信息通常难以获取。

因此，本发明实施例提供了一种控制策略的确定方法，以神经网络逼近最优的控制策略，通过神经网络的训练替代方程求解，无需求解复杂方程，可便捷地确定控制策略。

本发明实施例提供了一种控制策略的确定方法，所述方法可应用于控制器的配置系统，所述方法的执行主体可以为运行在计算机上的处理器，所述控制策略的确定方法的流程图如图1所示，包括：

S101：获取预先采集的多组系统数据，每组所述系统数据包括被控系统在输入激励信号的情况下，在预定信号采集时间点上所采集的所述激励信号的当前信号值，和所述被控系统的当前系统状态；

本发明实施例提供的方法中，可预先向被控系统输入激励信号，所述激励信号包括两个探测噪声，探测噪声可以为随机噪声，也可以是呈指数衰减的正弦信号等等，可保证系统被持续激励即可。在被控系统被激励的情况下，在每个信号采集时间点，采集系统的两个输入信号值，也就是激励信号的当前信号值，以及该被控系统的系统状态。可将这些预先采集的信息进行分组记录。需要说明的是，激励信号的具体形式不影响本发明实施例提供的方法实现功能。

当处理器接收到确定控制策略的触发指令时，可从记录数据的位置获取预先采集的各组系统数据，每组系统数据包括两个预定信号采集时间点上所采集到的系统数据，具体包括，一个预定信号采集时间点上所采集的所述激励信号的当前信号值和被控系统的当前系统状态，以及该预定信号采集时间点的下一个预定信号采集时间点上所采集的所述激励信号的当前信号值，和所述被控系统的当前系统状态，两个信号采集时间点之间相隔预设的时间间隔。各组系统数据包括不同预定信号采集时间点上所采集到的当前信息，各组系统数据整体对应信息采集过程所有信号采集时间点上所采集的系统数据。

S102：确定预构建的第一神经网络和第二神经网络；

本发明实施例提供的方法中，可基于actor-critic结构预先构建第一神经网络和第二神经网络，这两个神经网络为actor-critic结构中的策略网络，在具体的构建过程中，可利用激活函数向量和权重向量进行构建。通过训练这两个神经网络，可使其逼近意图实现的最优控制策略。

S103：确定所述第一神经网络对应的第一权重更新策略，和所述第二神经网络对应的第二权重更新策略，所述第一权重更新策略和所述第二权重更新策略，为基于离策略的强化学习算法和值函数逼近算法所得到的更新策略；

本发明实施例提供的方法中，预先基于离策略(off-policy)的强化学习算法和值函数逼近算法确定每个神经网络对应的权重更新策略。值函数通过基于actor-critic结构构建的评价网络进行逼近。本发明实施例提供的方法中所使用的离策略的强化学习算法是一种基于策略迭代的现有算法，其中包含两个迭代循环，分别用于优化两个控制策略。可基于该算法的两个迭代循环过程，代入评价网络和两个策略网络，分别得到两个策略网络对应的权重更新策略，将其中两个策略网络对应的权重更新策略分别作为待训练的第一神经网络和第二神经网络对应的权重更新策略。

S104：通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略，分别对所述第一神经网络及所述第二神经网络进行训练，使得训练后的第一神经网络符合预设的第一收敛条件，且训练后的第二神经网络符合预设的第二收敛条件；

本发明实施例提供的方法中，通过各组系统数据和所述第一权重更新策略和第二权重更新策略，分别对第一神经网络和第二神经网络进行训练，使得训练后的第一神经网络和第二网络分别符合其对应的收敛条件。

S105：以所述训练后的第一神经网络和所述训练后的第二神经网络，配置控制器，以使已配置的控制器在所述被控系统运行过程中，根据所述被控系统的实时系统状态，向所述被控系统输入控制信号。

本发明实施例提供的方法中，通过训练的第一神经网络和第二神经网络，分别已逼近了一组最优的控制策略，也就是训练后的第一神经网络所逼近的策略函数，和训练后的第二神经网络所逼近的策略函数，是一组帕累托纳什均衡解。可基于训练后的第一神经网络和训练后的第二神经网络，对被控系统的控制器进行配置，在具体的实现过程中，若是被控系统在运行过程中的两个输入信号均为控制器输出的控制信号，则以训练后的第一神经网络和训练后的第二神经网络分别配置控制器中两个控制信号的控制策略，若是被控系统在运行过程中的两个输入信号中仅有一个是控制器输出的控制信号，则以可控的信号对应的神经网络配置控制器中的控制策略即可。

基于本发明实施例提供的方法，通过预先采集的系统数据和权重更新策略，分别对预构建的第一神经网络和第二神经网络进行训练，使得训练后的第一神经网络和第二神经网络分别符合其对应的收敛条件。以训练后的第一神经网络和第二神经网络，配置控制器。应用本发明实施例提供的方法，可以神经网络逼近最优控制策略以确定控制策略，完成控制器的配置，而无需求解复杂方程，可便捷地确定控制策略。通过预先采集的系统数据作为训练信息，从中间接学习了系统的动力学信息，无需依赖于完整的系统动力学信息，适用于在难以获得系统动力学信息的情况下，确定控制策略，提高工作效率。在同一个被控系统的情况下，预先采集的系统数据可重复用于控制策略的确定，数据的利用率高。

为了更好地说明本发明实施例提供的方法，接下来对基于离策略的强化学习算法和值函数逼近算法，得到权重更新策略的整体研究过程进行简要说明。需要说明的是，下述过程中所采用的具体模型参数等内容，仅是为了原理性说明此过程所提供的一个实施例，在实际的应用过程中，被控系统的输入信号类型、系统动力学模型和性能指标函数等内容由具体的应用场景确定。

步骤A：构建待研究的非线性系统模型；

构建待研究的被控系统的状态空间模型，考虑如下描述的仿射非线性系统动力学模型：

其中，f(0)＝0表明x＝0是平衡点，x∈Rⁿ是系统的状态，u∈R^r是控制输入，d∈R^s是干扰输入，在不考虑输入的情况下(即u＝0，d＝0)，被控系统是局部渐近稳定的。考虑f(x)、g(x)与k(x)都是未知的，这些参量均为根据被控系统的动力学信息设定的参数。

步骤B：设计待优化的多个目标函数并给出优化目标；

步骤B.1：设计待优化的多个目标函数；

设计如下表示的多个性能指标函数：

其中，κ＝1,...,N，κ是性能指标的编号，令J＝[J¹...J^N]^T。对于所有的κ，满足Q_κ(x)≥0，R_κ＞0，且有在x(0)＝0时，对于所有的T≥0与二范数可积的干扰输入d(t)，有

成立。令Q＝[Q₁,...,Q_N]^T，Γ＝[Γ₁,...,Γ_N]^T，其中

步骤B.2：给出相应的值函数；对应于每一个性能指标函数的值函数如下：

令V＝[V¹,...,V^N]^T。

步骤B.3：给出优化目标；

对于所有的性能指标函数，控制输入欲使性能指标最小化，而干扰输入则欲使其最大化，即求解如下的优化问题：

步骤C：定义二人零和多目标博弈问题的帕累托纳什均衡解；

首先我们定义一个用来比较向量大小的符号，对于向量W∈R^N与V∈R^N，定义W≤V表示：W＝V或者至少存在一项j满足W_j＜V_j。

如果对于任意的策略对(u,d)，策略对(u^*,d^*)满足如下的式子：

J(u^*,d)≤J(u^*,d^*)≤J(u,d^*)

那么(u^*,d^*)是一个帕累托纳什均衡解。本发明实施例中的帕累托纳什均衡解是不唯一的，我们仅需要求取其中一个或者一些。

步骤D：给出基于数据的离策略强化学习算法，算法包含两个迭代循环，外循环迭代优化控制策略，内循环迭代优化干扰策略，并通过基于神经网络的值函数逼近方法，迭代得到估计的最优值函数和最优输入策略；

步骤D.1：分别构建用于内外循环迭代计算的离策略贝尔曼方程；

其中内循环迭代计算的离策略贝尔曼方程形式如下：

其中式子末尾的向量α＝[α¹,...,α^N]^T，若满足α^κ∈(0,1)且

则称α是一个加权向量。这里式子末尾的α用于表示式子中各加权量的权值，例如

等，加权向量α的选取是任意的。其中变量中的下标j表示外循环的迭代步数，i表示内循环的迭代步数。其中

其中u与d是行为策略，表示实际施加在系统上用于产生数据的策略，u_j与d_ji是相应迭代步数时的目标策略，表示用于更新的策略。

外循环迭代计算的离策略贝尔曼方程形式类似，如下：

其中式子末尾的加权向量β用于表示式子中各加权量的权值，加权向量β的选取是任意的。其中

步骤D.2：分别基于critic和actor神经网络逼近最优值函数和最优输入策略，构建基于离策略贝尔曼方程的逼近误差；

本发明实施例提供的方法中，利用critic和actor结构构建两个神经网络，分别用于逼近最优值函数和最优输入策略。

步骤D.2.1：内循环处理；

对于内循环迭代，使用神经网络逼近

d_ji与p_ji，如下所示：

其中

与

表示相应的神经网络的激活函数向量，h_c与h_a为相应的神经网络隐含层神经元的数量，

与

表示权重向量。

将这些对

d_ji与p_ji的逼近带入步骤D.1得到的内循环离策略贝尔曼方程中，可得如下逼近误差：

上式可以等价地简写为：

σ_ji(x(t),u(t),d(t))＝ρ_ji(x(t),u(t),d(t))·W_j(i+1)-π_ji(x(t)) (公式7)

其中，

其中，

θ_v＝[φ(x(t))-φ(x(t+Δt))]^T

步骤D.2.2：外循环处理；

对于外循环迭代，类似地使用神经网络逼近

u_j与q_j，如下所示：

其中

与

表示权重向量。

同样地将这些对

u_j与q_j的逼近带入步骤D.1得到的外循环离策略贝尔曼方程中，可得如下简洁形式的逼近误差：

σ_j(x(t),u(t),d(t))＝ρ_j(x(t),u(t),d(t))·W_j+1-π_j(x(t)) (公式8)

其中，

其中，

θ_v＝[φ(x(t))-φ(x(t+Δt))]′

步骤D.3：利用最小二乘法最小化步骤D.2中的逼近误差，得到神经网络权重的更新策略；

步骤D.3.1：对D2.1.1中的逼近误差进行最小化处理，可整理得到下述用于更新干扰输入的神经网络权重的权重更新策略：

用于更新的权重计算公式：W_j(i+1)＝[(Z_ji)^TZ_ji]^-1(Z_ji)^Tη_ji (公式9)

其中，

η_ji＝[π_ji(x₁)…π_ji(x_M)]^T。

步骤D.3.2：对于D2.2中的逼近误差进行最小化处理，可整理得到下述用于控制输入的神经网络权重的权重更新策略：

用于更新的权重计算公式：W_j+1＝[(Z_j)^TZ_j]^-1(Z_j)^Tη_j (公式10)

其中，

η_j＝[π_j(x₁)…π_j(x_M)]^T。

通过上述原理过程，可基于离策略的强化学习算法和值函数的逼近算法，确定用于逼近策略函数的神经网络的权重更新策略。

进一步的，结合图2，在图1所示方法的基础上，本发明实施例提供了又一种控制策略的确定方法，其中，步骤S104中所提及的通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略，分别对所述第一神经网络及所述第二神经网络进行训练的过程，包括：

S201：在进入当前的训练周期时，基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略，对当前的第二神经网络的权重进行迭代更新，使得迭代更新后的第二神经网络符合所述第二收敛条件；

本发明实施例提供的方法中，按照预设的训练周期，分别对所述第一神经网络的权重和所述第二神经网络的权重进行更新，进入当前的训练周期时，先基于当前的第一神经网络、各组系统数据和第二权重更新策略，对当前的第二神经网络的权重进行迭代更新，在每次迭代更新后判断更新后的第二神经网络是否符合预设的第二收敛条件，若符合条件，则结束迭代更新过程，若是更新后的第二神经网络不符合条件，则继续进行迭代更新，直至迭代更新后的第二神经网络符合第二收敛条件。

对应上述对确定权重更新策略的原理说明，本发明实施例提供的方法中的训练周期对应上述过程中的外循环过程，在每个训练周期中对第二神经网络的迭代循环过程对应内循环过程。在具体的实现过程中，可初始化外循环迭代步数索引表征训练周期，初始化内循环迭代步数索引表征第二神经网络的迭代周期。

S202：基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略，更新当前的第一神经网络的权重；

本发明实施例提供的方法中，当迭代更新后的第二神经网络符合第二收敛条件时，基于更新后的第二神经网络、各组系统数据和第一权重更新策略，确定当前的第一神经网络对应的更新权重，以该更新权重对当前的第一神经网络的权重进行更新。

S203：判断更新后的第一神经网络是否符合所述第一收敛条件；

本发明实施例提供的方法中，在对当前的第一神经网络的权重进行更新后，判断更新后的第一神经网络是否符合第一收敛条件，若是不符合条件，则进入步骤S204，若是符合条件则进入步骤S205。

S204：进入下一个训练周期；

本发明实施例提供的方法中，若更新后的第一神经网络不符合所述第一收敛条件，则进入下一个训练周期，当前训练周期中更新后的第一神经网络和更新后的第二神经网络则为该训练周期的下一个训练周期中，当前的第一神经网络和当前的第二神经网络。

S205：完成对所述第一神经网络和所述第二神经网络的训练。

本发明实施例提供的方法中，若更新后的第一神经网络符合所述第一收敛条件，则当前训练周期中迭代更新后的第二神经网络和更新后的第一神经网络已分别符合其对应的收敛条件，结束对第一神经网络和第二神经网络的训练。

为了更好地说明本发明实施例提供的方法，在图2所示方法的基础上，本发明实施例提供了另一种控制策略的确定方法，其中，步骤S201中提及的基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略，对当前的第二神经网络的权重进行迭代更新，使得迭代更新后的第二神经网络符合所述第二收敛条件的过程，包括：

本发明实施例提供的方法中，可初始化设置外循环迭代步数索引j＝0，表征训练周期。初始化内循环步数索引i＝0，表征在当前训练周期中的迭代周期。每组系统数据包括(x_k(t),x_k(t+Δt),u_k(t),u_k(t+Δt),d_k(t),d_k(t+Δt))，其中下标k表示属于第k组数据。

在进入当前的迭代周期时，可基于预设的第一参数计算模型，计算每组系统数据对应的第一计算参数和第二计算参数，所述第一参数计算模型的构建，可参照上述实施例的说明中，步骤D.2.1中得到的逼近误差方程中，除了权重外的参数项进行设置。本发明实施例提供的方法中，参照步骤D.2.1中提供的简化的逼近误差方程(公式7)设置第一参数计算模型，计算每组系统数据在当前训练周期中当前迭代周期对应的第一计算参数ρ_ji(x_k(t),u_k(t),d_k(t))，以及在当前训练周期中当前迭代周期对应的第二计算参数π_ji(x_k(t))。具体的计算内容和参数含义可参见上述实施例中的说明，在此不再赘述。在计算过程中，涉及另一策略函数的迭代内容，将对应的系统状态输入当前的第一神经网络，以当前的第一神经网络的近似值代入计算。

本发明实施例提供的方法中，可根据最小化逼近误差的方式构建权重计算模型，本发明实施例采用上述实施例的说明过程中，步骤D.3.1中得到的权重计算公式(公式9)设计第一权重计算模型。可根据该公式计算当前迭代周期对应的第一权重集合，参见上述说明过程，可知该集合中包括基于神经网络的函数逼近方法，逼近贝尔曼方程中的各个参数项的过程中所构建的各个神经网络对应的权重。

本发明实施例提供的方法中，可在计算得到的第一权重集合中，确定当前的第二神经网络对应的目标权重，也就是上述说明过程中内循环过程的优化对象d对应的权重。以该权重对当前的第二神经网络的权重进行更新。在具体的实现过程中，亦构建有值函数对应的神经网络等其他用于逼近函数的神经网络，在对当前的第二神经网络进行更新时，也基于第一权重集合对其他神经网络的权重进行更新。

本发明实施例提供的方法中，在完成本次迭代周期的更新过程后，判断更新后的第二神经网络是否符合条件，若是不符合条件，则令i＝i+1，进入下一个迭代周期，返回计算第一计算参数和第二计算参数的步骤。

本发明实施例提供的方法中，若经判断更新后的第二神经网络符合条件，则结束第二神经网络的迭代更新，以更新后的第二神经网络参与当前循环周期中第一神经网络的训练。

进一步的，为了更好地说明本发明实施例提供的方法，在上述实施例的基础上，所述判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件的过程，包括：

确定当前迭代周期对应的初始权重集合；

本发明实施例提供的方法中，可对每次的权重集合进行记录。在当前的迭代周期中，可获取当前迭代周期对应的初始权重集合。若是当前迭代周期为首个迭代周期，初始权重集合可为初始化数据，可令初始权重集合为零。若是当前迭代周期为除首个迭代周期外的迭代周期，其对应的初始权重集合则为该迭代周期的上一个迭代周期中得到的第一权重集合。

本发明实施例提供的方法中，可将第一权重集合对应的权重矩阵与初始权重集合对应的权重矩阵作差运算，以判断第一权重集合是否收敛。若是运算结果小于预设阈值，可确定第一权重集合已收敛，若是运算结果没有小于预设阈值，可确定第一权重集合未收敛。

本发明实施例提供的方法中，若经判断当前迭代周期对应的第一权重集合已收敛，则确定当前迭代周期中更新后的第二神经网络符合第二收敛条件，若第一权重集合未收敛，则当前更新后的第二神经网络不符合条件。

为了更好地说明本发明实施例提供的方法，本发明实施例提供了又一种控制策略的确定方法，在图2所示方法的基础上，步骤S202中所提及的基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略，更新当前的第一神经网络的权重的过程，包括：

本发明实施例提供的方法中，可基于预设的第二参数计算模型，计算每组系统数据对应的第三计算参数和第四计算参数，所述第二参数计算模型的构建，可参照上述实施例的说明中，步骤D.2.2中得到的逼近误差方程中，除权重外的参数项进行设置。本发明实施例提供的方法中，参照步骤D.2.2中提供的逼近误差方程(公式8)设置第二参数计算模型，计算每组系统数据在当前训练周期中对应的第三计算参数ρ_j(x_k(t),u_k(t),d_k(t))，和每组系统数据在当前训练周期中对应的第四计算参数π_j(x_k(t))。具体的计算内容和参数含义可参见上述实施例中的说明，在此不再赘述。在计算过程中，涉及另一策略函数的迭代内容，将对应的系统状态输入当前更新后的第二神经网络，以更新后的第二神经网络的近似值代入计算。

本发明实施例提供的方法中，基于上述实施例的说明过程中，步骤D.3.2中得到的权重计算公式(公式10)设计第二权重计算模型。可根据该公式确定当前循环周期对应的第二权重集合。参见上述说明过程，可知第二权重集合中包括基于神经网络的函数逼近方法，逼近贝尔曼方程中的各个参数项的过程中的各个神经网络对应的权重。

本发明实施例提供的方法中，在第二权重集合中，确定当前的第一神经网络对应的目标权重，以该权重对当前的第一神经网络的权重进行更新，当前的第一神经网络对应的目标权重，也就是上述原理说明过程中外循环过程的优化对象u对应的权重。在具体的实现过程中，对应上述原理过程中的外循环过程，亦构建有值函数对应的神经网络等其他用于逼近函数的神经网络，在对第一神经网络进行更新时，也基于第二权重集合对其他神经网络的权重进行更新。

进一步的，在上述实施例的基础上，步骤S203中所提及的判断更新后的第一神经网络是否符合所述第一收敛条件，包括：

确定当前训练周期对应的初始权重集合；

本发明实施例提供的方法中，在当前的训练周期中，可获取当前训练周期对应的初始权重集合，若是当前训练周期为首个训练周期，初始权重集合可为初始化数据，可令初始权重集合为零。若当前训练周期非首个训练周期，当前训练周期对应的初始权重集合则为该训练周期的上一个训练周期中计算得到的第二权重集合。

本发明实施例提供的方法中，可将第二权重集合对应的权重矩阵与初始权重集合对应的权重矩阵作差运算，将运算结果与预设阈值进行比较，若小于阈值，则确定当前的第二权重集合已收敛，若运算结果没有小于阈值，则确定当前的第二权重集合未收敛。

本发明实施例提供的方法中，若经判断第二权重集合已收敛，则确定当前训练周期中更新后的第一神经网络符合所述第一收敛条件。若未收敛，则更新后的第一神经网络不符合收敛条件。

为了更好地说明本发明实施例提供的方法，在上述实施例提供的方法的基础上，本发明实施例提供了又一种控制策略的确定方法，其中，上述实施例中提及的基于神经网络的函数逼近策略和所述第一贝尔曼方程确定所述第一逼近误差方程的过程，包括：

确定所述第一贝尔曼方程中的值函数对应的神经网络；

确定所述第一贝尔曼方程中的策略函数对应的神经网络；

确定所述第一贝尔曼方程中的动力学参数对应的神经网络；

本发明实施例提供的方法中，可以参照上述实施例的说明过程中，步骤D.2.1中的内循环处理过程，对该过程的贝尔曼方程中的值函数、策略函数和涉及的系统动力学参数，分别以神经网络进行逼近，得到逼近误差。

相对应的，上述实施例中提及的确定第二逼近误差方程的过程，可参照上述实施例的说明过程中，步骤D.2.2中的外循环处理过程，对该过程的贝尔曼方程中的值函数、策略函数和涉及的系统动力学参数，分别以神经网络进行逼近，得到逼近误差。

需要说明的是，在具体的实现过程中，系统的动力学参数可以是已知的参数，无需以神经网络进行逼近，不影响本发明实施例提供的方法实现功能。

基于本发明实施例提供的方法，可以神经网络对系统动力学参数进行逼近，无需获得精确的系统动力学信息，进一步提高了确定控制策略的便利性。

为了更好地说明本发明实施例提供的方法，在上述实施例提供的原理的基础上，结合具体的应用场景，本发明实施例提供的又一种控制策略的确定方法。

本发明实施例提供的方法中，被控系统的结构示意图如图3所示，图示系统为四分之一车辆模型，它的非线性动力学系统如下描述：

其中x₁，x₂和M_b分别表示车身的位置，速度和质量。x₃，x₄和M_us是车轮的位置，速度和质量。K_t、K_a、K_n、C_a分别为轮胎刚度、线性悬架刚度、非线性悬架刚度和悬架阻尼率。u为来自液压执行机构的控制输入，d为路面扰动输入。动力学参数设置如下：

M_b＝300Kg M_us＝60Kg K_t＝190000N/m

K_a＝16000N/m K_n＝K_a/10 C_a＝1000N/(m/sec)。

考虑如下两个性能指标函数：

其中，κ＝1,2，

R₁＝R₂＝1，γ₁＝8，γ₂＝10。

Critic和actor神经网络的激活函数分别为：

ψ(x)＝[x₁ x₂ x₃ x₄]^T。

预先采集系统数据时，施加在系统上的探测噪声分别为：

其中，ω_i是[-500，500]间的随机数，i＝1，……，200。将探测噪声作用于系统后，运行5秒，每隔0.01秒采集一组数据，使用采集的数据样本执行实施例中提供的过程，分别对第一神经网络和第二神经网络的权重更新，直至收敛。其中，第二神经网络的权重在训练过程中的变化示意图如图4所示，第一神经网络的权重在训练过程中的变化示意图如图5所示。

最后将我们的得到的近似帕累托纳什均衡策略对输入到系统中，也就是以训练后的第一神经网络和训练后的第二神经网络配置控制器，可得到系统的状态的变化示意图如图6所示。

与图1所示的控制策略的确定方法相对应的，本发明实施例还提供了一种控制策略的确定装置，用于对图1中所示方法的具体实现，所述装置的结构示意图如图7所示，包括：

获取单元301，用于获取预先采集的多组系统数据，每组所述系统数据包括被控系统在输入激励信号的情况下，在预定信号采集时间点上所采集的所述激励信号的当前信号值，和所述被控系统的当前系统状态；

第一确定单元302，用于确定预构建的第一神经网络和第二神经网络；

第二确定单元303，用于确定所述第一神经网络对应的第一权重更新策略，和所述第二神经网络对应的第二权重更新策略，所述第一权重更新策略和所述第二权重更新策略，为基于离策略的强化学习算法和值函数逼近算法所得到的更新策略；

训练单元304，用于通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略，分别对所述第一神经网络及所述第二神经网络进行训练，使得训练后的第一神经网络符合预设的第一收敛条件，且训练后的第二神经网络符合预设的第二收敛条件；

配置单元305，用于以所述训练后的第一神经网络和所述训练后的第二神经网络，配置控制器，以使已配置的控制器在所述被控系统运行过程中，根据所述被控系统的实时系统状态，向所述被控系统输入控制信号。

应用本发明实施例提供的装置，可以神经网络逼近最优控制策略以确定控制策略，完成控制器的配置，而无需求解复杂方程，可便捷地确定控制策略。通过预先采集的系统数据作为训练信息，从中间接学习了系统的动力学信息，无需依赖于完整的系统动力学信息，适用于在难以获得系统动力学信息的情况下，确定控制策略，提高工作效率。在同一个被控系统的情况下，预先采集的系统数据可重复用于控制策略的确定，数据的利用率高。

在图1所示装置的基础上，本发明实施例提供的装置中，所述训练单元304，包括：

在上述装置的基础上，本发明实施例提供的装置中，所述第一更新子单元，包括：

在上述装置的基础上，本发明实施例提供的装置中，所述第二判断子单元，包括：

在上述装置的基础上，本发明实施例提供的装置中，所述第二更新子单元，包括：

在上述装置的基础上，本发明实施例提供的装置中，所述第一判断子单元，包括：

在上述装置的基础上，本发明实施例提供的装置中，还包括：

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的控制策略的确定方法。

本发明实施例还提供了一种电子设备，其结构示意图如图8所示，具体包括存储器401，以及一个或者一个以上的指令402，其中一个或者一个以上指令402存储于存储器401中，且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402进行以下操作：

确定预构建的第一神经网络和第二神经网络；

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种控制策略的确定方法，其特征在于，包括：

确定预构建的第一神经网络和第二神经网络；

以所述训练后的第一神经网络和所述训练后的第二神经网络，配置控制器，以使已配置的控制器在所述被控系统运行过程中，根据所述被控系统的实时系统状态，向所述被控系统输入控制信号；

所述通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略，分别对所述第一神经网络及所述第二神经网络进行训练，包括：

若更新后的第一神经网络不符合所述第一收敛条件，则进入下一个训练周期，若更新后的第一神经网络符合所述第一收敛条件，则完成对所述第一神经网络和所述第二神经网络的训练；

所述基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略，对当前的第二神经网络的权重进行迭代更新，使得迭代更新后的第二神经网络符合所述第二收敛条件，包括：

若当前迭代周期中所述更新后的第二神经网络符合所述第二收敛条件，则结束迭代更新过程。

2.根据权利要求1所述的方法，其特征在于，所述判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件，包括：

确定当前迭代周期对应的初始权重集合；

3.根据权利要求1所述的方法，其特征在于，所述基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略，更新当前的第一神经网络的权重，包括：

依据预设的第二权重计算模型，和每组所述系统数据对应的所述第三计算参数和所述第四计算参数，确定当前训练周期对应的第二权重集合，所述第二权重计算模型为基于最小二乘法最小化所述第二逼近误差方程所得到的计算模型；

4.根据权利要求3所述的方法，其特征在于，所述判断更新后的第一神经网络是否符合所述第一收敛条件，包括：

确定当前训练周期对应的初始权重集合；

5.根据权利要求1所述的方法，其特征在于，所述基于神经网络的函数逼近策略和所述第一贝尔曼方程确定所述第一逼近误差方程的过程，包括：

确定所述第一贝尔曼方程中的值函数对应的神经网络；

确定所述第一贝尔曼方程中的策略函数对应的神经网络；

确定所述第一贝尔曼方程中的动力学参数对应的神经网络；

6.一种控制策略的确定装置，其特征在于，包括：

配置单元，用于以所述训练后的第一神经网络和所述训练后的第二神经网络，配置控制器，以使已配置的控制器在所述被控系统运行过程中，根据所述被控系统的实时系统状态，向所述被控系统输入控制信号；

所述训练单元，包括：

第一判断子单元，用于判断更新后的第一神经网络是否符合所述第一收敛条件，若更新后的第一神经网络不符合所述第一收敛条件，则进入下一个训练周期，若更新后的第一神经网络符合所述第一收敛条件，则完成对所述第一神经网络和所述第二神经网络的训练；

所述第一更新子单元，包括：

7.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～5任意一项所述的控制策略的确定方法。

8.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～5任意一项所述的控制策略的确定方法。