CN113296394B

CN113296394B - 一种混成系统最优控制生成方法和装置

Info

Publication number: CN113296394B
Application number: CN202110526125.8A
Authority: CN
Inventors: 卜磊; 邢少鹏; 王佳宛; 伍昱名; 李宣东
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-05-17
Anticipated expiration: 2041-05-14
Also published as: CN113296394A

Abstract

本发明公开了一种混成系统最优控制生成方法和装置。该方法首先遍历控制流图，提取出节点路径组成控制模式序列，然后，为每个控制模式序列构建不满足度计算表达式，然后每个控制模式序列找出其最优的控制配置序列，根据每个控制模式序列所对应的最优的控制配置序列的目标控制值，后选取目标控制值最小所对应的控制模式序列作为输出。其中，找出最优的控制配置序列时，通过对各个控制量的取值范围进行迭代采样评估得到。本发明为一般的混成系统最优控制生成问题提供了通用的解决方案，不需要使用者具有针对性的专业知识，普通用户也可按照工具说明进行使用。并且本发明对含有大量约束的复杂控制问题具有良好的可行性。

Description

一种混成系统最优控制生成方法和装置

技术领域

本发明涉及混成系统的最优控制生成和安全性保障技术。

背景技术

混成系统是一类结合了计算机科学和控制理论的复杂实时系统，其系统中离散行为与连续行为相互交织，互相影响。具体地，混成系统中包含了多个离散控制模式，系统可以在不同的状态上互相切换。同时系统中包含了一系列连续型变量，这些变量在不同的系统状态上按照该状态上指定的微分方程发生连续性变化。这些年来，混成系统被广泛应用在交通、国防、工业控制等安全攸关的领域。混成系统的控制生成问题是混成系统安全性研究领域的重要问题，其对于如何设计安全、稳定、高效的混成系统，保障系统运行安全有着重要意义。

混成系统最优控制生成问题旨在生成系统对应混成自动机上的一条最优控制路径，使得系统在满足安全性约束的前提下完成特定的控制目标，并且最小化控制目标函数。该控制路径包括控制模式序列和每个控制模式上的停留时间以及外部控制输入值。然而由于混成系统离散行为和连续行为互相交织，且存在大量复杂组合型约束、连续型约束，如何去生成满足约束的数值解一直是领域内的重要难题。传统的工作在对混成系统进行控制生成时，常对控制问题本身提出了限制要求，如要求目标函数、约束莱布尼茨连续可导，并要求外部控制输入为连续空间等。然而在实际工业生产中，系统中常常会存在复杂的非连续性行为，如分段控制函数等，多级能耗函数等，这些非连续性的函数特征均导致现有工作难以处理。

发明内容

本发明所要解决的问题：一般混成系统的最优控制生成问题。

为解决上述问题，本发明采用的方案如下：

根据本发明的一种混成系统最优控制生成方法，包括如下步骤：

S1：获取控制模式自动机数据、环境约束信息和目标控制表达式；

所述控制模式自动机数据用以表示所述混成系统的控制模式之间变迁，是以控制模式为节点并以模式变迁为边所构建的控制流图；

所述控制流图包括有初始控制模式作为初始节点；

所述控制模式包括系统约束信息、系统量和系统量之间关系的约束信息；

所述模式变迁包括系统约束信息；

所述环境约束信息用以表示所述混成系统所在环境的约束性条件信息，是全局的关于系统量的约束性条件信息；

所述系统约束信息用以表示混成系统内系统量的约束性条件信息；

所述系统量是用以表示所述混成系统行为特征的参数量，包括状态量和控制量；

所述状态量是用以表示所述混成系统状态的参数量；

所述控制量是用以表示所述混成系统外部控制输入的参数量，包括用以表示时间的时间量；

所述目标控制表达式是以所述系统量为变量的表达式，并以表达式最值作为控制目标；

S2：根据所述控制流图的节点边关系，在最大深度的限定下，以广度优先方式从所述初始节点开始对所述控制流图进行遍历，找出其中深度不超过最大深度的所有节点路径，并根据节点路径中节点之间的关系，组成控制模式序列集合；所述控制模式序列集合是控制模式序列的集合；所述控制模式序列是由用以表示节点的控制模式按顺序组成的序列；所述最大深度根据所述控制流图中节点数确定；

S3：对所述控制模式序列集合中每个控制模式序列中，各控制模式中的系统量约束信息和各模式变迁中的系统量约束信息结合所述环境约束信息编码成针对控制模式序列的不满足度计算表达式；

S4：为所述控制模式序列集合中每个控制模式序列找出其最优的控制配置序列；

S5：根据每个控制模式序列所对应的最优的控制配置序列的目标控制值，而后选取目标控制值最小所对应的控制配置序列作为输出；

其中，所述控制配置序列是控制配置的序列；

所述控制配置序列中各个控制配置分别对应于控制模式序列中的控制模式；

所述控制配置用以表示所述各个控制量的取值；

所述步骤S4中“为控制模式序列找出其最优的控制配置序列”包括以下步骤：

S41：根据环境约束信息和系统约束信息确定各个控制模式各个控制量的样本取值范围h_i,j；

其中，h_i,j表示为第i个控制模式中第j个控制量的样本取值范围；

S42：根据各个控制模式各个控制量的样本取值范围h_i,j构建评估样本集；

所述评估样本集是序列样本s_k的集合；

s_k表示第k个序列样本；s_k＝{s_k,i}；

其中，s_k,i表示第k个序列样本中第i个模式样本；第i模式样本表示控制模式序列中第i个控制模式所对应的样本；s_k,i＝{s_k,i,j}，s_k,i,j∈h_i,j；

其中，s_k,i,j表示第k个序列样本中第i个模式样本中第j个控制量的样本取值；

S43：根据所述不满足度计算表达式和所述目标控制表达式对所述序列样本计算评估值；

S44：通过评估值的大小比较，缩小样本取值范围h_i,j；

S45：通过评估值的大小比较，序列样本中选取最优样本，并根据所述目标控制表达式对所述最优样本计算目标控制值；

S46：判断目标控制值是否收敛，若目标控制值未收敛，则转步骤S42进行迭代；否则结束循环；

S47：以所述最优样本作为该控制模式序列的最优的控制配置序列。

进一步，根据本发明的混成系统最优控制生成方法，所述步骤S43包括如下步骤：

S431：根据所述不满足度计算表达式对所述序列样本计算不满足度值，若不满足度值不满足，则剔除其中这些不满足的序列样本；

S432：根据所述目标控制表达式对所述序列样本计算目标控制值，并以所述目标控制值作为评估值。

进一步，根据本发明的混成系统最优控制生成方法，所述步骤S43中根据如下公式计算序列样本的评估值：

其中，

P为不满足度计算表达式；

Tv为目标控制表达式；

Tm为目标控制表达式的最大值；

和

为关于约束信息

的指示函数，若约束信息满足，则

取值为1，

取值为0，则

取值为0，

取值为1。

进一步，根据本发明的混成系统最优控制生成方法，所述步骤S44包括如下步骤：

S441：根据评估值的大小，将评估样本集分成优选样本集和差选样本集，使得优选样本集中序列样本的评估值比差选样本集中序列样本的评估值更优；

S442：随机选择优选样本、差选样本、控制模式i1和控制量j1；并分别提取样本值s_a,i1,j1和s_b,i1,j1；其中，s_a,i1,j1表示为优选样本中第i1个模式样本中第j1个控制量的样本取值；

s_b,i1,j1表示为差选样本中第i1个模式样本中第j1个控制量的样本取值；

S443：在s_a,i1,j1和s_b,i1,j1之间选择一个参照值；如果s_a,i1,j1大于s_b,i1,j1，则将该参照值作为样本取值范围h_i1,j1的下限，否则将该参照值作为样本取值范围h_i1,j1的上限；

S444：从差选样本集剔除所选择的差选样本，重复步骤S442至S444直到差选样本集为空。

进一步，根据本发明的混成系统最优控制生成方法，所述步骤S46中，根据上一轮所保存的目标控制值和当前轮的目标控制值比较是否小于预先设定的阈值判断目标控制值是否收敛。

根据本发明的一种混成系统最优控制生成装置，包括如下模块：

M1，用于：获取控制模式自动机数据、环境约束信息和目标控制表达式；

所述控制流图包括有初始控制模式作为初始节点；

所述模式变迁包括系统约束信息；

所述状态量是用以表示所述混成系统状态的参数量；

M2，用于：根据所述控制流图的节点边关系，在最大深度的限定下，以广度优先方式从所述初始节点开始对所述控制流图进行遍历，找出其中深度不超过最大深度的所有节点路径，并根据节点路径中节点之间的关系，组成控制模式序列集合；所述控制模式序列集合是控制模式序列的集合；所述控制模式序列是由用以表示节点的控制模式按顺序组成的序列；所述最大深度根据所述控制流图中节点数确定；

M3，用于：对所述控制模式序列集合中每个控制模式序列中，各控制模式中的系统量约束信息和各模式变迁中的系统量约束信息结合所述环境约束信息编码成针对控制模式序列的不满足度计算表达式；

M4，用于：为所述控制模式序列集合中每个控制模式序列找出其最优的控制配置序列；

M5，用于：根据每个控制模式序列所对应的最优的控制配置序列的目标控制值，而后选取目标控制值最小所对应的控制配置序列作为输出；

其中，所述控制配置序列是控制配置的序列；

所述控制配置用以表示所述各个控制量的取值；

所述模块M4中“为控制模式序列找出其最优的控制配置序列”包括以下模块：

M41，用于：根据环境约束信息和系统约束信息确定各个控制模式各个控制量的样本取值范围h_i,j；

M42，用于：根据各个控制模式各个控制量的样本取值范围h_i,j构建评估样本集；

所述评估样本集是序列样本s_k的集合；

s_k表示第k个序列样本；s_k＝{s_k,i}；

M43，用于：根据所述不满足度计算表达式和所述目标控制表达式对所述序列样本计算评估值；

M44，用于：通过评估值的大小比较，缩小样本取值范围h_i,j；

M45，用于：通过评估值的大小比较，序列样本中选取最优样本，并根据所述目标控制表达式对所述最优样本计算目标控制值；

M46，用于：判断目标控制值是否收敛，若目标控制值未收敛，则转模块M42进行迭代；否则结束循环；

M47，用于：以所述最优样本作为该控制模式序列的最优的控制配置序列。

进一步，根据本发明的混成系统最优控制生成装置，所述模块M43包括如下模块，用于：

M431，用于：根据所述不满足度计算表达式对所述序列样本计算不满足度值，若不满足度值不满足，则剔除其中这些不满足的序列样本；

M432，用于：根据所述目标控制表达式对所述序列样本计算目标控制值，并以所述目标控制值作为评估值。

进一步，根据本发明的混成系统最优控制生成装置，所述模块M43中根据如下公式计算序列样本的评估值：

其中，

P为不满足度计算表达式；

Tv为目标控制表达式；

Tm为目标控制表达式的最大值；

和

为关于约束信息

的指示函数，若约束信息满足，则

取值为1，

取值为0，则

取值为0，

取值为1。

进一步，根据本发明的混成系统最优控制生成装置，所述模块M44包括如下模块，用于：

M441，用于：根据评估值的大小，将评估样本集分成优选样本集和差选样本集，使得优选样本集中序列样本的评估值比差选样本集中序列样本的评估值更优；

M442，用于：随机选择优选样本、差选样本、控制模式i1和控制量j1；并分别提取样本值s_a,i1,j1和s_b,i1,j1；其中，s_a,i1,j1表示为优选样本中第i1个模式样本中第j1个控制量的样本取值；

M443，用于：在s_a,i1,j1和s_b,i1,j1之间选择一个参照值；如果s_a,i1,j1大于s_b,i1,j1，则将该参照值作为样本取值范围h_i1,j1的下限，否则将该参照值作为样本取值范围h_i1,j1的上限；

M444，用于：从差选样本集剔除所选择的差选样本，重复模块M442至M444直到差选样本集为空。

进一步，根据本发明的混成系统最优控制生成装置，所述模块M46中，根据上一轮所保存的目标控制值和当前轮的目标控制值比较是否小于预先设定的阈值判断目标控制值是否收敛。

本发明的技术效果如下：本发明为一般的混成系统最优控制生成问题提供了通用的解决方案，不需要使用者具有针对性的专业知识，普通用户也可按照工具说明进行使用。并且本发明对含有大量约束的复杂控制问题具有良好的可行性。

附图说明

图1是控制流图的示例。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本实施例提供了一种混成系统最优控制生成方法，是通过计算机执行程序实现的方法，主要包括如下步骤：

S1，获取数据的步骤；

S2，控制模式序列生成步骤；

S3，不满足度编码步骤；

S4，最小化问题求解步骤；

S5，最优解生成步骤。

步骤S1中，所获取的数据包括：控制模式自动机数据、环境约束信息和目标控制表达式。控制模式自动机数据用以表示混成系统的控制模式之间变迁，是以控制模式为节点并以模式变迁为边所构建的控制流图。控制流图包括有初始控制模式作为初始节点。控制模式包括系统约束信息、系统量和系统量之间关系的约束信息。模式变迁包括系统约束信息。环境约束信息用以表示混成系统所在环境的约束性条件信息，是全局的关于控制量的约束性条件信息。系统约束信息用以表示混成系统内控制量的约束性条件信息。系统量是用以表示混成系统行为特征的参数量，包括状态量和控制量。状态量是用以表示混成系统状态的参数量。控制量是用以表示混成系统外部控制输入的参数量，包括用以表示时间的时间量。

比如扫地机器人可以视为一个混成系统。该混成系统包括比如电量、位置状态、行进状态、扫地状态等诸多用于表示混成系统内状态的状态量，包括比如行进速度、扫地控制等作为外部输入的控制量，还包括有很多控制模式：比如充电模式、扫地模式、行进模式、省电模式、休眠模式…。扫地机器人需要根据状态量，在不同控制模式之间切换，这个控制模式之间的切换即为控制模式之间的变迁，或简称为模式变迁。比如扫地模式中，假如电量不足，则切换成行进模式停止扫地，准备返回充电点进行充电。控制模式之间变迁可以表示成混成自动机。混成自动机即为前述的控制模式自动机数据，是一个以控制模式为节点的有向图。控制模式之间的变迁关系，则为该有向图的边。系统量由控制量和状态量所组成。系统量的约束性条件信息，简单来说可以视为系统量的取值范围。不同的控制模式中，对系统量的取值范围存在不同的要求。系统量和系统量之间关系的约束信息，比如，位置状态关于时间的导数等于行进速度。环境约束信息就比如扫地机器人所能去工作的范围，比如某些位置是不能去的，则可以通过环境约束信息限定。

显而易见地，实际外部输入不可能存在时间量作为控制输入。但是，每个控制模式需要以停留时间作为对控制模式的控制。为了方便后续表述，本发明中将时间量作为虚控制量加入控制量，而原控制量则作为实控制量。因为，在后续步骤中，控制配置和样本均需要涉及时间量的处理。后续表述中，需要表示关于控制量和时间量的控制配置和样本。将时间量纳入控制量后，则简化成关于控制量的控制配置和样本。

扫地机器人作为一个示例太过于复杂，为此，本实施例示例了一个简化的混成系统，参照图1。图1是该混成系统的行为特征抽象后得到的混成自动机，包括四个控制模式分别为s0、s1、s2和s3，用以表示图的四个节点。该混成系统包括由一个状态量a、控制量u。控制量u是实际的控制量。其中，

表示状态量关于时间的导数。

表示的是系统量和系统量之间关系的约束信息。该混成系统包括有环境约束信息：a≥0∧a≤10。每个控制模式中还包括有关于系统量的约束条件信息，比如控制模式s0中，状态量a的约束条件a≥0∧a≤10、控制量u的约束条件u∈[0,1]，控制模式s1中，状态量a的约束条件a≤8、控制量u的约束条件u∈[2,3]。该混成系统包括了一个初始的控制模式s0。控制模式s0可以变迁成控制模式s1或s3；控制模式s1可以变迁成控制模式s2。控制模式s0变迁成控制模式s1和s3的条件分别为：a≤5和a>5。控制模式s1变迁成控制模式s2的条件为a≥2。控制模式模式之间的变迁条件就是前述的模式变迁，是系统约束信息。a≤5和a>5以及a≥2均为系统约束信息，尤其是状态量的约束条件信息。

目标控制表达式是以系统量为变量的表达式，并以表达式最值作为控制目标。这里的表达式最值可以是最大值，也可以是最小值。目标控制表达式用以表示控制配置输出的优劣程度。以最大值作为控制目标表示目标控制表达式所计算的结果值越大表示越优。以最小值作为控制目标表示目标控制表达式所计算的结果值越小表示越优。目标控制表达式仅用以计算控制配置输出的优劣程度。因此无论最大值还是最小值作为控制目标实质相同。比如图1示例中，目标控制表达式为(20-a)²，该目标控制表达式以最小值作为控制目标。若以最大值作为控制目标，目标控制表达式(20-a)²可以相应地调整为：-(20-a)²。此外，由于目标控制表达式用以表示控制配置输出的优劣程度，目标控制表达式尽可能地简化。比如目标控制表达式(20-a)²简化后可以调整为|20-a|。因为通过公式(20-a)²计算的结果比较大小和通过公式|20-a|计算的结果比较大小是相同的。当然，目标控制表达式是由用户编辑输入的，本发明作为计算机执行程序所实现的方法并不能控制用户编辑，因此复杂的目标控制表达式也只能接受。此外，由于无论最大值还是最小值作为控制目标实质相同。本发明后续说明均以最小值作为控制目标。

需要指出的是步骤S1中的“获取”表示的是本发明的输入，通常由人工编辑后输入。至于如何人工编辑无需关心。

步骤S2，更为具体地可以表述为：根据控制流图的节点边关系，在最大深度的限定下，以广度优先方式从初始节点开始对控制流图进行遍历，找出其中深度不超过最大深度的所有节点路径，并根据节点路径中节点之间的关系，组成控制模式序列集合；控制模式序列集合是控制模式序列的集合；控制模式序列是由用以表示节点的控制模式按顺序组成的序列。这里的最大深度的限定是考虑到控制模式变迁存在自循环的情形，比如图1中增加一个模式变迁：控制模式s3在条件a>7时变迁成控制模式s3。由此这是一个自循环的控制模式变迁。此种情形下，如果不考虑最大深度的限定，则步骤S2无法结束。最大深度可以通过步骤S1外部输入，也可以通过根据控制流图中节点数确定。比如图1中控制模式有4个，则最大深度确定为4。深度不超过最大深度表示每个深度条件均找出一个节点路径。比如图1中，深度为1的路径为s0，深度为2的路径为s0s1和s0s3；深度为3的路径为s0s1s2，深度为4的路径没有。于是能够找到4个节点路径分别为：s0、s0s1、s0s3和s0s1s2。每个节点路径实际也就是控制模式序列。控制模式序列也就是控制模式按顺序组成的序列。这些控制模式序列组成控制模式序列集合。

步骤S3，更为具体地表述为：对控制模式序列集合中每个控制模式序列中，各控制模式中的系统量约束信息和各模式变迁中的系统量约束信息结合环境约束信息编码成针对控制模式序列的不满足度计算表达式。各控制模式中的系统量约束信息和各模式变迁中的系统量约束信息可以组成约束信息的集合，对于每一条约束信息若不满足，则加1，组成不满足度计算表达式。采用数学表示为：∑I(！ε)。其中，ε某一条约束信息；I(！ε)为指示函数，若ε不满足约束取值为1，若满足则为0。比如，前述图1示例中的控制模式序列s0的系统量约束信息包括：a≥0∧a≤10和u∈[0,1]，结合环境约束信息：a≥0∧a≤10；不满足度计算表达式可以表示为：I(a<0∨a>10)+I(u<0∨u>10)+I(a<0∨a>10)。其中，前一个I(a<0∨a>10)对应于控制模式s0本身的约束a≥0∧a≤10，后一个I(a<0∨a>10)对应于环境约束信息a≥0∧a≤10。显而易见地，对于不满足度计算表达式若计算的结果为0则表示满足约束条件，若计算结果大于0则表示不满足约束条件。此外，对于本领域技术人员而言，上述通过约束条件构建不满足度计算表达式的方式并不难以实现。本说明书不再赘述。此外需要强调的是，每个控制模式序列对应一个不满足度计算表达式。比如图1示例中，存在4个控制模式序列则需要构建4个对应的不满足度计算表达式。

步骤S4，更为具体地表述为：为控制模式序列集合中每个控制模式序列找出其最优的控制配置序列。控制配置序列对应控制模式序列。控制配置序列是由控制配置按顺序组成的序列。控制配置序列中各个控制配置分别对应于控制模式序列中的控制模式。控制配置用以表示各个控制量的取值，更为具体地，控制配置是关于控制量的取值。比如图1示例中，该混成系统包括有控制量u，控制量u是实际的控制量，根据本说明书前述，对于本发明具体实施方式而言，控制量应当包括u和时间量t。由此图1的示例下，控制配置是关于u和t的取值。时间量t表示控制模式停留时间。最优的控制配置序列对应于控制模式序列。比如，图1示例中4个控制模式序列需要找出4个对应的最优的控制配置序列。步骤S4需要遍历每个控制模式序列，然后对所遍历的控制模式序列找出其最优的控制配置序列。其中，对所遍历的控制模式序列找出其最优的控制配置序列包括如下步骤：

评估样本集是序列样本s_k的集合；

s_k表示第k个序列样本；s_k＝{s_k,i}；

S43：根据不满足度计算表达式和目标控制表达式对序列样本计算评估值；

S44：通过评估值的大小比较，缩小样本取值范围h_i,j；

S45：通过评估值的大小比较，序列样本中选取最优样本，并根据目标控制表达式对最优样本计算目标控制值；

S47：以最优样本作为该控制模式序列的最优的控制配置序列。

显而易见地，上述过程是一个循环迭代的过程。每个循环迭代的过程收敛一次步骤样本取值范围。循环迭代结束的条件是判断目标控制值是否收敛。若目标控制值收敛则结束循环迭代。

上述过程中，样本取值范围是当前控制模式序列中某个控制模式和控制量的取值范围。比如图1示例中控制模式序列s0s1s2经步骤S41样本取值范围初始化后得到关于控制量u和时间量t的取值范围序列：{{h_1,u,h_1,t},{h_2,u,h_2,t},{h_3,u,h_3,t}}。其中，h_1,u、h_2,u和h_3,u分别对应于控制量u在控制模式s0s1s2中的取值范围。h_1,t、h_2,t和h_3,t分别对应于时间量t在控制模式s0s1s2中的取值范围，分别表示混成系统在控制模式s0s1s2中停留时间的取值范围。步骤S41初始化时，各个样本取值范围h_i,j根据对应的环境约束信息和系统约束信息确定。这里的系统约束信息是控制模式下的系统约束信息，比如，对于h_1,u,h_1,t需要通过环境约束信息和控制模式s0中的系统约束信息确定。但实际应用中，环境约束信息可能并不存在对应的环境约束信息。比如图1所示例的混成自动机中，控制量u并不存在约束。此时可以仅依据对应控制模式的系统约束信息，比如控制模式s0s1s2中控制量约束u∈[0,1]、u∈[2,3]、u∈[-3,0]，则初始化对应的样本取值范围h_1,u、h_2,u和h_3,u分别为：[0,1]、[2,3]、[-3,0]。若存在分段式约束条件，则以各段约束的最小值最为样本取值范围的下限，最大值作为样本取值范围的上限。比如，在某控制模式中，某个控制量的约束为：[-3,0]或[2,3]。则对应样本取值范围为：[-3,3]。对于时间量t，由于并不存在对应的环境约束信息和系统约束信息则以[0,∞]初始化取值范围。在某些特定的环境下，可以用1天时间来作为时间量最大约束，此时时间量t的初始化样本取值范围h_1,t、h_2,t和h_3,t为[0,86400]。其中，86400表示1天时间内的秒数。

步骤S42中，构建评估样本集时，通常采用均匀取样的方式，比如确定一个样本数，在对应样本取值范围内均匀取样得到对应的样本。其中样本数通常可以预先确定，也可以同步骤S1输入。比如，某控制量的取值范围为：[0,10]，样本数为10，均匀取样后，各个评估样本中，对应控制量的值分别为0.5、1.5、2.5、3.5、4.5、5.5、6.5、7.5、8.5和9.5。此外，需要强调的是，这里的样本是关于控制量的样本。控制量的样本是控制量的取值。显而易见地，模式样本s_k,i和前述的控制配置对应。最终步骤S47实际的输出结果是将最优的模式样本s_k,i组成的序列样本作为控制配置序列的输出。

步骤S43本实施例给出两种实施方式。第一种实施方式是根据不满足度计算表达式和目标控制表达式所确定评估计算公式计算得到。该评估计算公式可以通过如下公式表示：

其中，P为不满足度计算表达式；Tv为目标控制表达式；Tm为目标控制表达式的最大值；

和

为关于约束信息

的指示函数，若约束信息满足，则

取值为1，

取值为0，则

取值为0，

取值为1；目标控制表达式以最小值为控制目标。由于目标控制表达式以最小值为控制目标，则评估计算公式fv计算得到的结果越小表示控制配置越优。评估计算公式fv计算中，由于Tm为目标控制表达式的最大值，因此Tv-Tm小于等于0，且计算得到的fv表示结果越优。此外需要指出的是，评估计算公式fv计算中，约束信息

若不满足条件，则有fv＝P；而若约束信息

满足条件，则有fv＝Tv-Tm。通过不满足度计算表达式计算得到的序列样本是不符合约束条件的序列样本，因此实际过程中也可以将这些序列样本剔除掉。于是本实施例给出了优选的第二种实施方式。优选的第二种实施方式下，步骤S43包括如下步骤：

S431：根据不满足度计算表达式对序列样本计算不满足度值，若不满足度值不满足，则剔除其中这些不满足的序列样本；

S432：根据目标控制表达式对序列样本计算目标控制值，并以目标控制值作为评估值；

也就是说，评估值也就是等于目标控制值。由此在后续步骤S44和S45中关于评估值的比较等同于目标控制值的比较。此种情形下，步骤S46中，根据目标控制表达式对最优样本计算目标控制值也可以不需要重复计算。因为步骤S43中每个序列样本都对应计算了目标控制值作为评估值。同样地，步骤S5中也不需要重复再进行计算目标控制值，也可以根据步骤S43计算得到的评估值作为目标控制值。也就是说，步骤S4中输出最优的控制配置序列时，同时输出该最优的控制配置序列所对应计算的目标控制值。

步骤S44所实现的方法很多，其中最为简单地，可以通过如下方式：比如对于第i1个控制式和第j1个控制量，存在两个序列样本，比如序列样本s_a和s_b其对应的评估值分别为T_a和T_b。序列样本s_a和s_b中第i个控制式和第j个控制量所对应的样本值分别为：s_a,i1,j1和s_b,i1,j1。第i1个控制式和第j1个控制量对应的样本取值范围h_i1,j1。不失一般性以最小值作为目标控制表达式的控制目标下，若T_a>T_b，则表示序列样本s_b更优，若T_a<T_b，则表示序列样本s_a更优。序列样本s_a更优的情况下，若s_a,i1,j1>s_b,i1,j1，则将样本取值范围h_i1,j1中的下限改成s_b,i1,j1，否则样本取值范围h_i1,j1中的上限改成s_b,i1,j1。序列样本s_b更优的情况下，若s_a,i1,j1>s_b,i1,j1，则将样本取值范围h_i1,j1中的上限改成s_b,i1,j1，否则样本取值范围h_i1,j1中的下限改成s_b,i1,j1。本实施例中步骤S44优选采用如下方式：

S443：在s_a,i1,j1和s_b,i1,j1之间选择一个参照值；如果s_a,i1,j1大于s_b,i1,j1，则将该参照值作为样本取值范围h_i1,j1的下限，否则将该参照值作为样本取值范围h_i1,j1的上限，从而更新控制模式i1和控制量j1所对应的样本取值范围；

步骤S45中，在以最小值作为目标控制表达式的控制目标的情况下，也就是选择对应评估值最小的序列样本作为最优样本。若前述步骤S43和S44中以目标控制值作为评估值的情形下，本步骤无需再行计算目标控制值，直接可以将该序列样本对应的评估值作为目标控制值。

步骤S46中，判断收敛的方法简单的可以采用：据上一轮所保存的目标控制值和当前轮的目标控制值比较是否小于预先设定的阈值判断目标控制值是否收敛。本步骤中的目标控制值是根据最优样本通过目标控制表达式计算得到的值，也就是步骤S45得到的最优样本对应的目标控制值。

步骤S5，更为具体地为：根据每个控制模式序列所对应的最优的控制配置序列的目标控制值，而后选取目标控制值最小所对应的控制配置序列作为输出。也就是本发明以控制配置序列作为计算机执行程序后最终的输出。输出的控制配置序列作为控制问题的最优解。