CN111433689B

CN111433689B - 用于目标系统的控制系统的生成

Info

Publication number: CN111433689B
Application number: CN201880071015.3A
Authority: CN
Inventors: 哈里·瓦尔波拉; 艾娃·科帕利
Original assignee: Conarui Capital Co ltd
Current assignee: Conarui Capital Co ltd
Priority date: 2017-11-01
Filing date: 2018-10-31
Publication date: 2023-08-01
Anticipated expiration: 2038-10-31
Also published as: US11669056B2; CN111433689A; EP3704550A1; WO2019086760A1; KR102577188B1; JP2021501433A; US20210341884A1; EP3704550B1; KR20200084010A; FI20175970A1

Abstract

本发明涉及一种生成用于目标系统(110)的控制系统(120)的方法，其中：接收操作数据(210)；利用接收到的操作数据训练第一神经模型组件(310)，以基于接收到的操作数据生成对目标系统(110)的状态的预测；使用操作数据训练第二神经模型组件(320)，以生成用于反转第一神经模型组件的正则器；并且通过优化并在优化中布置以应用由第二神经模型组件产生的正则器，反转第一神经模型组件，来生成(330)控制系统(120)。本发明还涉及系统和计算机程序产品。

Description

用于目标系统的控制系统的生成

技术领域

本发明总体上涉及控制系统的技术领域。更具体地，本发明涉及用于生成控制系统的解决方案。

背景技术

机器学习方法，特别是最近的神经网络和所谓的“深度学习”方法，在现代技术中得到了广泛使用，例如在机器视觉、模式识别、机器人技术、控制系统和自动化领域。在这样的应用中，机器学习被用在系统或装置的计算机实现的部分中，用于处理输入数据。实际上，由于开发了不同的自动操作系统和装置，该领域变得越来越重要。

模型预测控制(MPC)方法在机器人技术、控制系统和自动化的众多控制应用中使用。在MPC方法中，受控系统的模型用于预测系统状态和控制信号对系统的影响，然后可基于该模型生成控制信号。但是，MPC方法需要目标系统的足够准确的模型。例如，如果系统很大和/或很复杂，这种模型不一定是可用的或不可行。如果系统发生变化，例如在物理部件磨损、工作条件变化等情况下，模型可能还需要及时进行调整。

机器学习方法，例如人工神经网络，可用于基于观察到的输入来生成，即构造，系统的模型并输出系统的信号。这样做的好处是，可通过这种方式对大量系统进行建模，并且甚至可在系统变化时自动完全或增量地重做建模，以使模型保持最新状态。

但是，即使可使用此方法来生成系统模型，但是以这种方式构造的模型通常不适用于MPC应用程序。这是因为自动生成的模型非常复杂，并且内部有噪声、从输入信号到输出信号的非线性映射、并且不能保证在所有输入下都能产生有意义的输出。一个具体的问题是，如果通过优化模型预测结果来计划控制措施，则数学优化方法通常可在输入空间中找到模型预测具有很好结果的点，但实际上这只是模型的伪像，并且不符合真实世界系统的动态。

因此，需要开发一种机制，通过该机制可至少部分地减轻控制解决方案的产生中的挑战。

发明内容

为了提供对各种发明实施方式的某些方面的基本理解，以下给出了简化的概述。该概述不是本发明的广泛概述。它既不旨在标识本发明的关键或重要元素，也不旨在描绘本发明的范围。以下概述仅以简化形式呈现本发明的一些概念，作为对本发明示例性实施方式的更详细描述的序言。

本发明的目的是提出一种用于生成控制系统的方法、该控制系统以及计算机程序产品。

通过如各个独立权利要求所限定的方法、系统和计算机程序产品来实现本发明的目的。

根据第一方面，提供了一种为目标系统生成控制系统的方法，该方法包括：接收至少一个源系统的操作数据；由接收到的操作数据训练神经网络的第一神经模型组件，其中基于接收到的操作数据训练第一神经模型组件以生成对目标系统状态的预测；由操作数据训练神经网络的第二神经模型组件，其中，训练第二神经模型组件以生成用于反转第一神经模型组件的正则器；以及通过优化并在优化中布置以应用由第二神经模型组件产生的正则器，反转第一神经模型组件，为目标系统生成控制系统。

第二神经模型组件可以是以下之一：去噪神经网络、生成对抗网络、变分自编码器、梯形网络。

可通过生成被配置为生成至少一个控制信号的策略模型组件并优化策略模型组件的参数而通过优化来生成控制系统。可通过以下方式之一来实现策略模型：利用训练的第三神经模型组件，通过优化属于控制系统的控制器组件的参数。

此外，由第二神经模型组件作为正则器生成的正则项可以是第二神经模型组件的近似密度梯度。正则项可被用作第三第二神经模型组件的权重的更新中的项。

根据第二方面，提供了一种目标系统的控制系统，控制系统包括至少一个神经网络，其中，控制系统被配置为由以下方式生成：接收至少一个源系统的操作数据；由接收到的操作数据训练神经网络的第一神经模型组件，其中，响应于输入信号基于接收到的操作数据训练第一神经模型组件以生成对目标系统状态的预测；由操作数据训练神经网络的第二神经模型组件，其中，训练第二神经模型组件以生成用于反转第一神经模型组件的正则器；以及通过优化并在优化中布置以应用由第二神经模型组件产生的正则器，反转第一神经模型组件，为目标系统生成控制系统。

可通过生成被配置为生成至少一个控制信号的策略模型组件并优化策略模型组件的参数而通过优化来生成控制系统。通过以下方式之一来实现策略模型：利用训练的第三神经模型组件，通过优化属于控制系统的控制器组件的参数。

此外，由第二神经模型组件作为正则器生成的正则项被布置为第二神经模型组件的近似密度梯度。正则项可被配置为用作第三第二神经模型组件的权重的更新中的项。

根据第三方面，提供了一种计算机程序产品，包括至少一个计算机可读介质，该计算机可读介质具有存储在其中的计算机可执行程序代码指令，用于当在计算机上执行计算机程序产品时执行如上所述的方法。

当结合附图阅读以下具体示例性和非限制性实施方式的描述时，将最好地理解本发明的各种示例性和非限制性实施方式的构造和操作方法，以及其另外的目的和优点。

动词“包含”和“包括”在本文档中用作开放式限制，既不排除也不要求存在未叙述的特征。除非另有明确说明，否则从属权利要求中叙述的特征可相互自由组合。此外，应当理解，在整个文档中使用“一”或“一个”，即单数形式并不排除多个。

附图说明

在附图的图中通过实例而非限制的方式示出了本发明的实施方式。

图1示意性地示出了可应用本发明的环境。

图2示意性地示出了根据本发明实施方式的方法。

图3示意性地示出了根据本发明的实施方式的方法的一些其他方面。

图4示意性地示出了应用根据本发明的实施方式的控制系统来控制目标系统的实例。

图5示意性地示出了根据本发明实施方式的控制系统。

具体实施方式

在下面给出的描述中提供的特定实例不应被解释为限制所附权利要求的范围和/或适用性。除非另有明确说明，否则以下给出的描述中提供的实例列表和实例组并不详尽。

本发明至少部分地改进了目标系统的控制系统的生成，其中，该控制系统至少部分地基于机器学习方法，其中所谓的正则化应用于神经网络的学习阶段中并用于生成对目标系统的控制信号。

图1示意性地示出了可应用本发明的环境。如所描绘的，存在控制系统120的控制下操作的目标系统110。作为反馈回路，控制系统120通常响应于表示从目标系统110获得的系统的操作的信息而生成对目标系统110的控制信号。在控制下的目标系统110的一些非限制性实例可例如是化工厂或机器人。根据本发明，控制系统120实现控制功能，该控制功能至少部分地由神经网络实现。如将要描述的，训练控制功能中的神经网络以用于控制目标系统110。

图2示意性地示出了根据本发明的实施方式的方法的实例。在根据图2的实例中，生成了用于控制目标系统110的控制系统，其中，基于从至少一个源系统获得的操作数据来生成控制系统的功能。至少一个源系统可与目标系统相同，或者源系统可以是与目标系统110相对应的系统，或者甚至是模拟与目标系统相对应的系统的计算机实现的模型，并且操作数据是通过该模拟收到。换句话说，其操作数据用于生成控制功能的系统可以是与目标系统相同的系统，或是功能相似的系统，例如另一个工厂或机器人，或者是构造为与目标系统110类似的模拟器模型。在本文的描述中，从中获取用于生成控制规则的操作数据的系统被称为源系统。操作数据可以是表示源系统的至少一些操作方面的任何数据，其也可直接或间接地用于生成一个或多个控制信号以控制目标系统110。在一些实施方式中，操作数据可以是源系统的历史数据，并且它可表示源系统的状态。操作数据的一些非限制性实例可以是，例如是源系统中传感器的数字化传感器值，例如温度、压力、流速、pH测量、化学处理系统中的化学浓度测量传感器或称重传感器。操作数据还可包括例如涉及系统控制的其他控制器的输入和输出信号值，例如PID控制器设定点、参数和输出。操作数据还可包括人类操作员输入的控制动作，例如，设置值、按钮按下动作、阀门打开、键盘或鼠标动作、语音命令、方向盘动作、脚踏板动作等。

在步骤220中，训练至少部分地由神经网络实现的控制系统120，其中在训练中使用从至少一个源系统接收的操作数据。神经网络的神经模型可包括要在训练中使用的多个神经模型组件(neural model component)。神经模型组件是指通过单独的神经网络完成的实现，或者是指由具有多个输出并被训练以在不同的时刻执行不同任务的一个神经网络来实现多个神经模型组件的实现。

响应于神经网络的训练，目标系统110可由训练后的神经网络控制。

现在参考图3更详细地描述神经网络的训练操作。图3示意性地示出了关于被配置为至少执行控制目标系统110的任务的神经网络220的训练的至少一些方面。在用神经网络实现的控制系统120的训练中，基于系统接收到的操作数据来生成310目标系统状态的预测。这是指将操作数据作为输入信号提供给在神经网络中实现的第一神经模型组件，并基于接收到的源系统的操作数据对第一神经模型组件进行训练以生成目标系统状态的预测的步骤。此外，训练阶段220包括步骤320，其中训练第二神经模型组件以生成用于反转(invert)第一神经模型组件的正则器(regularizer)。第一神经模型组件的反转是指确定对目标系统的输入或控制动作的过程，该输入或控制动作导致目标系统的期望输出或状态。这是通过使用第一神经模型组件作为“前向模型”来评估动作的预期效果，然后优化结果来完成的。换句话说，

a＝argmax[V(F(x,a))+r]

其中

·a为计划的控制信号

·x为系统状态

·argmax[]指的是找到使函数值(此处为V)最大化的自变数(此处为a)。

·V是一个值(“报酬”)函数，表示控制系统正在优化的值

·F是前向模型，即第一神经模型组件。

·r是由通过第二神经模型组件实现的正则器生成的正则项。

可使用通常已知的任何合适的数学优化方法来解决值函数V的优化(指上面的argmax)问题，该方法例如网格搜索、随机搜索、梯度下降、反向传播或其他此类数学优化方法。变量a和x可以是数字或分类变量，或是值的多维向量。a和x可以是值的序列，例如它们可能是过去的时间顺序。当前和/或计划的未来动作和系统状态。V是用于评估结果值的函数。V可包括通过某个乘数折算预测的未来值，以权衡近时值(near-term value)而不是长时值(long-term value)。

正则项r由第二神经模型组件G实现的正则器生成。当第二神经模型组件是去噪网络，例如去噪自编码器时，可通过训练第二神经模型组件以对操作数据(x，a)的样本进行去噪来生成正则项。训练网络以去噪是指一种方法，训练网络以对破坏的输入产生去噪或“清除”版本：

其中

·和/>是已经通过添加噪声(例如高斯噪声)而被破坏的x和a的样本版本，

·和/>是由网络G产生的至少接近原始输入(x,a)的去噪输出

·G是被训练以对x和a的样本进行去噪的网络。

正则器的使用可通过以下等式描述：

r＝G(x,a)

使用正则器来生成正则项r可减轻上述模型反转的问题。作为优化中的额外“报酬”并入的正则项将(一个或多个)动作a的搜索引向与训练数据中的典型样本和常规样本相对应的值。

当使用降噪网络实现第二神经组件时，训练神经模型对数据进行降噪会导致模型中的内部表示形式，该内部表示形式隐式地对数据流形的结构进行建模，即最佳降噪功能对应于数据分布的得分(关于输入的对数概率的导数)。使用上面的符号，可用以下等式描述：

其中，σ_n是破坏噪声，log p是对数概率，以及是关于/>的导数。重要部分是如果样本/>是用于目标系统的“典型”操作条件，则/>具有较高值，如果不是则具有较低值，因此，将反转引向常规和可能更好的解决方案。

可替代地，可将生成器或“策略模型”配置为生成控制动作，而不是直接查找动作：

其中，

·P是“策略模型”，是被配置为生成控制动作(又可能是一系列计划的控制动作)的组件，

·是策略模型P的参数(例如，如果使用神经网络模型实现策略模型，则为神经网络的权重)。

然后可再次使用任何合适的优化方法对策略模型的参数而不是控制动作进行优化(即训练)，优化方法例如可使用反向传播或其他优化方法。然后，对经过训练的策略模型进行评估，以生成用于控制目标系统的控制动作：

例如，策略模型P可被实现为第三神经模型。

正则器G还可被配置为以“近似密度梯度”的形式生成正则项，以更新第三神经模型的权重。例如，当用去噪网络实现G时，G(x,a)产生近似密度梯度项log p/>该近似密度梯度项可添加到第三神经模型权重，并可选地乘以模型的训练中的预定的学习率L。例如，近似密度梯度项可通过以下等式求解：

如果通过将近似密度梯度项添加到第三神经模型的权重中来使用近似密度梯度项，则无需显式评估，在这种情况下，可用以下等式描述策略模型参数的优化：

其中近似密度梯度项包含在数学优化(argmax)实现中，指导策略模型的训练，以便其生成与训练数据中的典型样本和常规样本相对应的动作a。因此，即使未明确评估正则项r，使用正则器以描述的方式生成正则项也减轻了上述模型反转的问题。

还可重复执行所描述的步骤，以生成第一预测目标系统状态和动作，然后将第一预测和生成的动作用作输入以生成用于进一步时间步长的预测和动作，这可重复所需的步数。优化(例如反向传播)，可在所有步骤中完成。

可以任选地使用去噪神经网络、变分自编码器、生成对抗网络(GAN)、梯形网络或对数据流形结构进行建模的任何其他模型类型来实现第二神经模型。

在步骤330中，生成控制系统，以便将在步骤320中生成的正则器与第一神经模型组件一起应用。这是指这样的一种实现，在该实现中，当将正则项用于优化时，优化来自第一神经模型组件的预测的诸如动控制信号的动作被确定。控制系统的生成还可指这样的实现，在该实现中，策略模型组件被配置为执行控制系统的任务，例如通过数学上优化现有控制器组件的参数，或训练第三神经模型组件以进行控制系统的任务。在这种情况下，可通过布置第三神经模型来将由第二神经模型组件生成的正则器应用于训练，来执行控制系统的生成。换句话说，生成控制系统，使得其可响应于输入信号而对目标系统生成控制动作。因此，训练后的神经网络可用于控制目标系统。

如已经提到的，第一神经模型组件和第二神经模型组件以及第三神经模型组件(如果适用)可实现为单独的神经网络，也可在被配置为实现专用任务的一个神经网络中实现，诸如图3所示的一个神经网络，一次使用一个。

应当注意，描述了图3和相应描述中公开的操作，使得步骤310和320至少部分地同时执行。但是，它们也可以以任何顺序彼此依次执行。

接下来描述神经网络的第二神经模型组件的一些方面。如已经提到的，训练第二神经模型组件的目的是生成用于反转第一神经模型组件的正则器。第二神经模型组件的训练有利地作为无监督的学习任务并利用适用的训练算法来执行。训练第二神经模型组件的一种有利方式是通过对输入到模型的操作数据进行去噪来对该数据进行训练。第二神经模型组件可以是所谓的梯形网络。另一种方法是在生成正则器的任务中使用自编码器或变分自编码器或生成对抗网络。在后面的实例中，神经模型组件学习数据结构，以便可将其应用于正则化任务。

关于目标系统的控制系统330的生成，根据实施方式，可通过优化通过在第一神经模型组件中应用正则项来反转第一神经模型组件。在另一个实施方式中，可通过随机搜索的方式反转第一神经模型组件来生成控制系统。如所提及的，控制系统330的生成可指代第三神经网络组件的生成以执行控制系统的至少部分任务。

此外，在步骤330中，应用由第二神经模型组件生成的正则器例如可以指用表示由第二神经模型组件产生的正则项的项来更新第三神经模型的权重的实现，该项可以是第二神经模型组件的近似密度梯度。

在一些实施方式中，可在更新原始控制系统之后，设置在控制目标系统时使用新的控制系统。在目标系统运行期间，将生成并记录新数据，并且可重复学习过程。以这种方式，控制系统可学习控制系统，从而使报酬r最大化，并且可改进控制结果。

如已经讨论的，在一些实施方式中，第二神经模型组件可以是用于去噪的所谓的梯形网络。使用梯形网络的优点是它允许更大的神经模型和更大的控制信号变化。这减轻了潜在的问题，尤其是在正则化方面，因为随着前向模型大小的增加，正则化会变得更加困难。另一个问题是，低级动作正则化可能会限制为太小的变化，并稳定为局部最小值。优选也在高级进行正则化。

此外，在正则化模型是去噪网络的情况下，例如在讨论的梯形网络中，可训练去噪网络以获取由附加噪声而损坏的输入数据的样本，并生成数据的经净化的去噪版本。通过这种方式，去噪网络学习了内部表示数据；它了解数据中的结构。

然后，如已经讨论的，可训练策略模型。当训练策略模型时，当策略网络的权重更新时，可将正则化模型用作计算中的附加项。正则项通过权衡动作和状态来促进策略模型的学习从而使策略模型偏向于“熟悉的”状态和控制，权衡动作和状态在某种意义上与正则化模型在去噪任务中学习的内部表示相匹配。

在上面的讨论中，去噪网络和策略模型指示单独训练的独立网络。然而，本发明不仅限于此，还可实施为使得正则化网络和策略模型被组合为一个神经网络，该神经网络既通过去噪任务又被策略生成任务训练。例如，可能定义了两个不同的成本函数(costfunction，代价函数)，并且可先通过使用去噪成本函数，然后再使用策略成本函数来训练网络。此外，如已经提到的，至少部分地实现控制系统功能的策略模型可被实施，使得借助于策略模型，根据所描述的方法来优化属于该控制系统的至少一个控制器组件的参数。

接下来，讨论本发明的具体应用领域的一些实例。例如，输入数据(即操作数据)，可例如是来自加工工厂中传感器的数字化传感器值，例如温度、压力、流速、pH测量、化学处理系统(诸如例如蒸馏塔)中的化学浓度测量传感器或称重传感器。输入数据还可包括例如涉及系统控制的其他控制器的输入和输出信号值，例如PID控制器设定点、参数和输出。输入数据还可包括诸如工厂操作员的人类参与者输入的动作或控制信号，例如设置值、按钮按下动作、阀门打开、键盘或鼠标动作、语音命令、方向盘动作、脚踏板动作等。

根据本发明的控制系统的生成还可应用于除上述应用领域以外的其他应用领域。例如，在某些其他应用领域中，输入数据(即操作数据)，例如可以是包括具有离散值的预定数量的像素的数字图像，以便以数字形式表示原始对象。可替代地，输入数据可例如是包括连续图像帧的数字视频，这些图像帧以编码的数字数据的形式公开了运动的可视图像。自然地，视频可以是存储的数字视频或实时事件的视频流。

输入数据可例如是数字音频信号。

在另一实例中，输入数据可例如是力反馈信号，例如应变仪、压电元件、压力传感器或其他产生反馈信号的硬件元件，该反馈信号被测量并例如用模数转换器数字化。

在又一个实例中，输入数据可以是例如数字文本数据，例如数字文本文档。

在又一实例中，如果目标系统是例如机器人，操作数据可包括例如电机控制信号、电压、电流、位置测量、气动或液压压力读数或数码相机图像。

在又一实例中，如果目标系统是例如材料加工厂，操作数据可包括例如生产统计、传送带速度或位置、物料水平或质量测量。

在应用领域的上述非限制性实例的上下文中，控制系统被配置为对任何系统生成控制信号，在控制系统中可基于输入数据生成控制信号。

本发明旨在生成一种用于控制目标系统的控制系统，例如上述的那些系统，该控制系统为目标系统产生改进的控制。在图4中，示意性地示出了使用生成的控制系统来控制目标系统的实例。在步骤410中，可接收关于新系统状态和期望的新状态的信息作为操作数据。收到的信息可能与上述信息有所不同。在步骤420中，响应于输入数据即操作数据的接收，通过操作中的控制系统(在图4中称为策略模型)，系统可被配置为产生一个或多个动作。系统生成与所产生的动作相对应的控制信号430，并且以这种方式可控制目标系统。

如已经提到的，控制功能可在控制系统120中实现。控制系统本身可至少部分地由以所描述的方式生成的神经网络来实现，该神经网络被配置为控制目标系统110。图5中示意性地示出了控制系统120的非限制性实例。控制系统120可包括处理单元510，其被配置为控制控制系统的操作。处理单元510可用一个或多个处理器或类似装置来实现。控制系统120还可包括一个或多个存储器520和一个或多个通信接口530。一个或多个存储器可被配置为存储计算机程序代码525和任何其他数据，当由处理单元510执行时，它们使得控制系统以描述的方式操作，这些实体可例如通过数据总线彼此通信耦合。通信接口530还包括提供用于外部实体的接口的必要的硬件和软件，以向控制系统120发送信号和从控制系统120发送信号。在图5的控制系统120的示例性实施方式中，包括神经网络540，借助于该神经网络540，可生成描述的控制功能。在图5的实例中，使控制系统在处理单元510的控制下进行操作。在本发明的一些其他实施方式中，生成控制功能的神经网络540可至少部分地驻留在控制系统120以外的另一实体中。此外，在一些其他实施方式中，处理单元510被配置为实现神经网络的功能，并且不必布置单独的实体作为神经网络。如已经提到的，第一神经模型组件、第二神经模型组件和第三神经模型组件可在相同的神经网络540中实现或在被配置为彼此通信的单独的神经网络中实现。

此外，本发明的一些方面可涉及一种计算机程序产品，该计算机程序产品包括至少一个计算机可读介质，该计算机可读介质中存储有计算机可执行程序代码指令，当在计算机上执行该计算机程序产品时，计算机可执行程序代码指令使得根据描述的方法生成控制系统。

总体而言，控制系统120可指可执行描述的数据处理的分布式计算机系统、计算机、电路或处理器。如上所述，图5示出了根据本发明实施方式的控制系统120的实例。

在以上给出的描述中提供的具体实例不应被解释为限制所附权利要求的适用性和/或解释。除非另有明确说明，否则以上给出的描述中提供的实例的列表和组不是穷举的。

Claims

1.一种生成用于目标系统(110)的控制系统(120)的方法，所述方法包括：

接收至少一个源系统的操作数据(210)，

使用接收到的所述操作数据训练神经网络的第一神经模型组件，其中基于接收到的所述操作数据训练所述第一神经模型组件以生成对所述目标系统(110)的状态的预测，

使用所述操作数据训练所述神经网络的第二神经模型组件，其中，所述第二神经模型组件生成用于反转给定所述操作数据作为输入的所述第一神经模型组件的正则器，以及

通过优化来反转所述第一神经模型组件，以生成用于所述目标系统(110)的所述控制系统(120)，其中，由所述第二神经模型组件生成的所述正则器被添加到所述优化中的值函数以将所述优化引向对应于所述操作数据中的典型样本的值。

2.根据权利要求1所述的方法，其中，所述第二神经模型组件是以下项之一：去噪神经网络、生成对抗网络、变分自编码器、梯形网络。

3.根据权利要求1所述的方法，其中，通过生成被配置为生成至少一个控制信号的策略模型组件并优化所述策略模型组件的参数而进行优化，由此生成所述控制系统(120)。

4.根据权利要求3所述的方法，其中，所述策略模型组件通过以下方式之一来实现：利用训练的第三神经模型组件、通过优化属于所述控制系统的控制器组件的参数。

5.根据前述权利要求中的任一项所述的方法，其中，由所述第二神经模型组件生成的作为所述正则器的正则项是所述第二神经模型组件的近似密度梯度。

6.根据权利要求5所述的方法，其中，所述正则项被应用作在第三神经模型组件的权重的更新中的项。

7.一种用于目标系统(110)的控制系统(120)，所述控制系统包括至少一个神经网络，其中，所述控制系统(120)被配置为由以下方式生成：

接收至少一个源系统的操作数据(210)，

使用接收到的所述操作数据训练所述神经网络的第一神经模型组件，其中，基于响应于输入信号接收到的所述操作数据训练所述第一神经模型组件以生成对所述目标系统(110)状态的预测，

8.根据权利要求7所述的系统，其中，所述第二神经模型组件是以下项之一：去噪神经网络、生成对抗网络、变分自编码器、梯形网络。

9.根据权利要求7所述的系统，其中，通过生成被配置为生成至少一个控制信号的策略模型组件并优化所述策略模型组件的参数来进行优化，由此生成所述控制系统(120)。

10.根据权利要求9所述的系统，其中，所述策略模型组件通过以下方式之一来实现：利用训练的第三神经模型组件、通过优化属于所述控制系统的控制器组件的参数。

11.根据前述权利要求7至10中的任一项所述的系统，其中，由所述第二神经模型组件生成的作为所述正则器的正则项被布置为所述第二神经模型组件的近似密度梯度。

12.根据权利要求11所述的系统，其中，所述正则项被配置为应用作在第三神经模型组件的权重的更新中的项。

13.一种计算机可读介质，所述计算机可读介质存储有计算机可执行程序代码指令，当在计算机上执行所述计算机可执行程序代码指令时，所述计算机可执行程序代码指令用于执行根据权利要求1至6中任一项所述的方法。