CN113822441A

CN113822441A - 决策模型训练方法、装置、终端设备及存储介质

Info

Publication number: CN113822441A
Application number: CN202111155713.1A
Authority: CN
Inventors: 李子佳
Original assignee: Pingan Payment Technology Service Co Ltd
Current assignee: Pingan Payment Technology Service Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-21
Anticipated expiration: 2041-09-29
Also published as: CN113822441B

Abstract

本申请实施例适用于人工智能技术领域，提供了一种决策模型训练方法、装置、终端设备及存储介质，该方法包括：获取仿真系统处于任一故障下的第一状态信息；仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统；将第一状态信息输入至初始决策模型中，得到初始决策模型预测的目标恢复动作；获取仿真系统执行目标恢复动作后的第二状态信息，以及仿真系统的系统健康度；将第一状态信息、目标恢复动作、第二状态信息以及系统健康度作为一组仿真经验数据；根据仿真经验数据，对初始决策模型进行强化学习训练，得到目标决策模型。采用上述方法训练决策模型可以提高模型的训练效率。

Description

决策模型训练方法、装置、终端设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及一种决策模型训练方法、装置、终端设备及存储介质。

背景技术

计算机集群或云平台系统出现故障时，通常依靠人工操作的方式进行故障排查以及决策，确定需要执行的故障修复动作，以恢复计算机集群或云平台系统的正常运行。或者，基于计算机集群或云平台系统出现故障时已有的历史修复动作，进行模型训练，以得到可对计算机集群或云平台系统执行故障修复动作的决策模型。

然而，人工进行故障排查和决策的方式，较多依赖个人经验，同时人工工作量较大，导致较高的综合成本。而且，通过历史修复动作进行模型训练方式得到决策模型，则需要耗费大量的时间和精力对历史修复动作进行标注，导致模型训练时的训练效率低，且相应的训练成本也比较高。

发明内容

本申请实施例提供了一种决策模型训练方法、装置、终端设备及存储介质，可以解决模型训练时的训练效率低的问题。

第一方面，本申请实施例提供了一种决策模型训练方法，该方法包括：

获取仿真系统处于任一故障下的第一状态信息；其中，仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统；

将第一状态信息输入至初始决策模型中，得到初始决策模型预测的目标恢复动作；

获取仿真系统执行目标恢复动作后的第二状态信息，以及仿真系统的系统健康度；

将第一状态信息、目标恢复动作、第二状态信息以及系统健康度作为一组仿真经验数据；

根据仿真经验数据，对初始决策模型进行强化学习训练，得到目标决策模型。

第二方面，本申请实施例提供了一种决策模型训练装置，该装置包括：

第一状态信息获取模块，用于获取仿真系统处于任一故障下的第一状态信息；其中，仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统；

状态信息输入模块，用于将第一状态信息输入至初始决策模型中，得到初始决策模型预测的目标恢复动作；

第二状态信息获取模块，用于获取仿真系统执行目标恢复动作后的第二状态信息，以及仿真系统的系统健康度；

经验数据确定模块，用于将第一状态信息、目标恢复动作、第二状态信息以及系统健康度作为一组仿真经验数据；

训练模块，用于根据仿真经验数据，对初始决策模型进行强化学习训练，得到目标决策模型。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述第一方面中任一项的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如上述第一方面中任一项的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项的方法。

本申请实施例与现有技术相比存在的有益效果是：终端设备可以先通过在基于真实系统的运行产线环境搭建的仿真系统中加入故障，而后获取初始决策模型对于该故障下的第一状态信息进行故障恢复的目标恢复动作。之后，终端设备可以获取仿真系统在执行目标恢复动作后的第二状态信息以及系统健康度，以此生成一组仿真经验数据，对初始决策模型进行强化学习训练，得到目标决策模型。进而，可以使终端设备在得到仿真经验数据的过程中，不会对真实系统造成任何的故障。即终端设备可以对仿真系统进行故障试错，以使终端设备可以提前基于试错过程中产生的仿真经验数据进行模型训练，且避免直接在实际的运行产线环境中进行故障试错可能导致的真实系统的安全性问题。以此，可在提高目标决策模型的决策性能的基础上，在仿真系统中采用试错学习的训练方式对初始决策模型进行训练，可以无需人工对训练数据进行额外标注，进而提高模型训练时的训练效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种决策模型训练方法的实现流程图；

图2是本申请另一实施例提供的一种决策模型训练方法的实现流程图；

图3是本申请一实施例提供的一种决策模型训练方法的S103的一种实现方式示意图；

图4是本申请一实施例提供的一种决策模型训练方法的S105的一种实现方式示意图；

图5是本申请一实施例提供的一种决策模型训练方法的S102的一种实现方式示意图；

图6是本申请一实施例提供的一种决策模型训练方法的S1022的一种实现方式示意图；

图7是本申请一实施例提供的一种决策模型训练方法的S1023的一种实现方式示意图；

图8是本申请一实施例提供的一种决策模型训练装置的结构示意图；

图9是本申请一实施例提供的一种终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的决策模型训练方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的一种决策模型训练方法的实现流程图，该方法包括如下步骤：

S101、终端设备获取仿真系统处于任一故障下的第一状态信息；其中，仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统。

在一实施例中，上述真实系统包括但不限于计算机集群系统，云平台系统。其中，真实系统的运行产线环境为系统运行时的运行环境，而仿真系统为具有与真实的运行产线环境相似的运行环境的系统。即上述仿真系统的运行环境和真实产线环境具有相同的动态特性。其中，上述相同的动态特性，具体表现为：对于相同的系统状态信息，在执行相同的输入动作时，仿真系统的运行环境中系统状态信息变化情况，与系统的真实产线环境中系统状态变化情况相同。即仿真系统在处于某一故障下的第一状态信息，应当与真实系统处于相同故障下的状态信息一致。

其中，需要说明的是，第一状态信息为仿真系统的系统状态信息。即若仿真系统包括多个虚拟节点，其第一状态信息包括每个虚拟节点对应的状态信息。

具体的，参照图2，终端设备可通过如下步骤S111-S114构建仿真系统，详述如下：

S111、终端设备根据真实系统中包含的多个节点设备，分别对每个节点设备设置对应的节点仿真模型。

S112、终端设备从真实系统的运行产线环境中分别采集每个节点设备的真实数据。

S113、终端设备根据真实数据计算节点仿真模型中的系数矩阵，得到目标节点仿真模型；其中，目标节点仿真模型用于根据输入的数据模拟节点设备运行时的状态信息的变化情况。

S114、终端设备基于每个节点设备之间的拓扑连接结构，将目标节点仿真模型作为虚拟节点进行连接，得到仿真系统。

在一实施例中，上述节点设备可以为真实系统中的某个虚拟机设备或实体设备，例如，服务器或控制器等设备。其中，上述真实数据可以为真实系统在运行时，每个节点设备实际运行时产生的数据，其包括但不限于节点设备的状态信息、输入动作和真实系统执行输入动作后该节点设备的状态信息，对此不作限定。

具体的，搭建与真实系统的运行产线环境相似的仿真系统，可以具体通过如下方式进行设计：

将真实系统中的各个节点设备简化为线性定常系统，因此，对于真实系统中的任意一个节点设备，可构建如下节点仿真模型进行表示：

其中，向量x为节点设备的完整状态信息，

为其一阶导数，向量u为对节点设备的输入动作。对于该节点设备对应的节点仿真模型，A、B分别为节点仿真模型中相应的系数矩阵，且认为是不随时间改变的常数矩阵。

例如，将真实系统中的某个虚拟机设备视为一个节点设备，该节点设备的状态信息包括但不限于CPU、内存等指标信息，输入动作可以为该节点设备的业务流量、计算任务量，或者与其他虚拟机设备之间的调用及被调用等信息。之后，终端设备可以从真实系统中的运行产线环境下采集该节点设备的真实数据(节点设备的状态信息、输入动作和执行输入动作后的状态信息)，求解上述节点仿真模型。进而，可以得到该节点设备对应的系数矩阵A、B。

可以理解的是，将计算后系数矩阵A、B添加至上述节点仿真模型，即可得到该节点设备对应的目标节点仿真模型。此时，可将该目标节点仿真模型作为仿真系统中的一个虚拟节点。以此，可以使目标节点仿真模型根据输入的数据，模拟该节点设备在真实的运行产线环境下的状态信息的变化情况。

基于此，针对真实系统中的每一节点设备，重复上述步骤，从而得到每一节点设备的节点仿真模型对应的系数矩阵。最后，基于真实系统中的所有节点设备的真实拓扑结构和调用依赖关系，将上述每个节点设备对应的节点仿真模型(虚拟节点)进行连接组合，进而可得到完整的仿真系统。

此时，可以理解的是，对于上述S101中的第一状态信息，上述第一状态信息具体为当前时刻下的仿真系统中所有虚拟节点的状态信息。其中，上述故障包括但不限于仿真系统中存在一个或多个虚拟节点的状态信息处于异常的情况，对此不作限定。

示例性的，在对真实系统中的各节点设备进行建模和求解得到仿真系统后，终端设备可在仿真系统中随机模拟一种故障。例如，将仿真系统中的任一虚拟节点设置为故障节点，将其余虚拟节点设置为正常节点。具体的，终端设备可设置仿真系统中某一虚拟节点的状态信息为CPU过高的信息，或虚拟节点访问超时的信息。即将CPU过高，或虚拟节点访问超时作为仿真系统中的故障。之后，获取仿真系统中其余各个虚拟节点的状态信息。以此，将CPU过高的信息，或虚拟节点访问超时的信息，以及其余虚拟节点的状态信息，均确定为仿真系统的第一状态信息。

S102、终端设备将第一状态信息输入至初始决策模型中，得到初始决策模型预测的目标恢复动作。

在一实施例中，上述初始决策模型为基于动作价值函数q(s，a，w)进行决策的模型。其中，动作价值函数q(s，a，w)的作用为：针对状态信息s，初始决策模型评估执行恢复动作a后可以带来的长期价值q，其中w为相关参数。其中，初始决策模型具体包括但不限于图卷积神经网络模型、残差收缩神经网络模型，对此不作限定。

在一具体实施例中，因仿真系统是基于真实系统中的各节点设备之间的真实连接关系和调用关系生成。因此，在本实施例中可采用图卷积神经网络进行模型训练。具体的，对于仿真系统，可以将仿真系统中各虚拟节点的状态信息以图模型的形式进行表示，并记为G＝(V，E)。其中V表示仿真系统中的各个虚拟节点的集合，E为虚拟节点之间边(虚拟节点之间的连接线)的集合。

具体的，对于拥有单个隐藏层的图卷积神经网络模型，其前向推理过程可表示为：

H＝σ(L_symHW₁)

Y＝σ(L_symHW₂)

其中，

为仿真系统的状态信息(例如，第一状态信息)，其可以作为图卷积神经网络模型的输入。具体的，该状态信息可以认为上述仿真系统中各个虚拟节点集合V上的状态信息；N为虚拟节点个数，D_X为仿真系统中各个虚拟节点的状态信号的维度；

为隐藏层信号；

为图卷积神经网络模型输出的动作价值矩阵，D_Y为恢复动作的空间维度，即可执行的恢复动作的总数量；L_sym∈R^N×N为重归一化形式的拉普拉斯矩阵，取决于虚拟节点间的连接方式，即边的集合E；

和

为权重矩阵；σ为激活函数。

具体的，终端设备可以基于上述图卷积神经网络模型，计算仿真系统中各个虚拟节点在分别可执行的恢复动作后，实现的动作价值函数q(s，a，w)。进而，终端设备可根据动作价值函数进行决策，确定动作价值函数最大值对应的恢复动作为目标恢复动作。其中，参数w对应图卷积神经网络模型中权重的集合(W₁，W₂)；s对应仿真系统中状态信息X；a表示对某个虚拟节点执行某一恢复动作。例如，对第i个虚拟节点执行第j种恢复动作，则记作a＝a_ij。此时，该动作a_ij对应的动作价值函数可以以矩阵的形式进行显示。例如，q(s，a_ij，w)＝Y[i，j]，其表示为动作价值矩阵中第i个虚拟节点执行第j中恢复动作的长期回报价值。

基于此，终端设备可以通过图卷积神经网络模型得到每个虚拟节点分别可执行每种恢复动作后的长期回报价值。之后，将长期回报价值的最大值对应的恢复动作确定为目标恢复动作。

S103、终端设备获取仿真系统执行目标恢复动作后的第二状态信息，以及仿真系统的系统健康度。

在一实施例中，上述第二状态信息为仿真系统执行目标恢复动作后的状态信息。基于上述S101中对第一状态信息的解释说明，可以认为上述第二状态信息也同样的为仿真系统执行目标恢复动作后，在当前时刻下仿真系统中所有虚拟节点的状态信息。

在一实施例中，系统健康度为基于每个虚拟节点的状态信息进行确定的数值。具体的，参照图3，终端设备可以通过如下子步骤S1031-S1033确定仿真系统的系统健康度，详述如下：

S1031、终端设备根据第二状态信息，分别确定每个虚拟节点对应的状态信息。

S1032、终端设备分别根据每个虚拟节点的状态信息，统计状态信息属于健康状态的虚拟节点的数量。

S1033、终端设备将数量，作为仿真系统的系统健康度。

在一实施例中，上述S103已对第二状态信息进行解释，对此不再进行说明。基于此，针对任一虚拟节点，终端设备可以根据该虚拟节点的状态信息，确定该虚拟节点是否属于健康状态。若属于，则数值加1，若不属于，则不计数。最后，统计所有属于健康状态的虚拟节点的数量，并将该数量作为仿真系统的健康度。

示例性的，以虚拟节点对应的状态信息为CPU值为例进行说明，该虚拟节点是否属于健康状态则可以为：终端设备可在判定该虚拟节点的CPU值大于预设CPU值时，确定该虚拟节点属于非健康状态。否则，判定该虚拟节点属于健康状态。需要说明的是，若一个虚拟节点对应的状态信息同时包括多种，则终端设备可以在确定任意一种状态信息不符合预设要求时，即判定该虚拟节点属于非健康状态。

需要说明的是，确定仿真系统的系统健康度与获取第二状态信息没有具体的先后顺序关系。具体的，终端设备在获取第二状态信息时需要获取每个虚拟节点下对应的所有状态信息。然而，在确定系统健康度时，针对任一虚拟节点是否属于健康状态，在虚拟节点同时包括多种状态信息时，终端设备只需判定其中任意一种状态信息不符合预设要求，即判定该虚拟节点属于非健康状态。此时，终端设备无需获取该虚拟节点其余每种状态信息具体对应的数值。基于此，可以认为终端设备获取第二状态信息以及系统健康度，并不分先后顺序。

在其他一种可行的实施例中，终端设备还可以确定该虚拟节点的健康度，而后计算所有虚拟节点的健康度之和，得到系统健康度。具体的，因一个虚拟节点可能包含多种状态信息。因此，在确定该虚拟节点的健康度时，终端设备可以统计虚拟节点中不符合预设要求的状态信息的异常数量。之后，终端设备可以计算该异常数量与所有状态信息的总数量的比值，并将比值作为该虚拟节点的健康度。以此，可以使终端设备精确的得到仿真系统的系统健康度。

示例性的，对于某个虚拟节点，其包含CPU、内存使用量等状态信息，且每个状态信息的数值均没有处于对应的预设范围内，则终端设备可以判定该虚拟节点的健康度为0；若判定每个状态信息的数值均处于对应的预设范围内，则判定该虚拟节点的健康度为1；以及，若只有其中一个状态信息的数值处于对应的预设范围内，则可以判定该虚拟节点的健康度为50％。之后，统计所有虚拟节点的节点健康度之和，得到系统健康度。

S104、终端设备将第一状态信息、目标恢复动作、第二状态信息以及系统健康度作为一组仿真经验数据。

在一实施例中，上述第一状态信息、目标恢复动作、第二状态信息以及系统健康度为一组仿真经验数据。可以理解的是，仿真系统在解决故障时可能需要多次执行目标恢复动作。即仿真系统在执行一次目标恢复动作后，还是处于非健康状态。因此，针对任一故障，仿真系统在执行上述步骤时将产生多组仿真经验数据。其中，每组仿真经验数据可以以(S，A，R，S')进行标识。其中，S为第一状态信息，A为仿真系统执行的目标恢复动作，R为系统健康度，作为决策模型训练过程中的单步奖励，S'为第二状态信息。

需要说明的是，在仿真系统每次执行完目标恢复动作后，仿真系统在当前时刻下的状态信息均可以认为是第二状态信息。此时，若终端设备判定仿真系统依然处于故障，则终端设备需将第二状态信息应当作为新的第一状态信息输入至决策模型中；而后，由决策模型输出新的目标恢复动作由仿真系统执行，并再次得到新的第二状态信息以及系统健康度。以此，终端设备可以得到新的一组仿真经验数据。即上述第一状态信息和第二状态信息为相对关系，即对于当前时刻下的第二状态信息，其也为终端设备下一时刻输入至初始决策模型中的第一状态信息。

基于此，在仿真系统重复执行S102-S104步骤直至故障解决后，可获取多组仿真经验数据。同样可以理解的是，上述S102-S104步骤为决策模型针对某一次故障，通过交互试错，进行多次故障恢复动作的处理操作，直至故障解决的过程。基于此，上述多组仿真经验数据通常为连续的且具有相关性的仿真经验数据。为避免歧义，终端设备可以将多组仿真经验数据定义为一种故障恢复过程，以及该故障恢复过程中执行的多组仿真经验数据为一种恢复动作组合。因此，针对任一不同的故障，仿真系统可以多次执行上述S101-S104步骤，即执行多种故障的故障恢复过程，进而对应得到多组仿真经验数据，用于决策模型的训练。

S105、终端设备根据仿真经验数据，对初始决策模型进行强化学习训练，得到目标决策模型。

在一实施例中，在得到多组仿真经验数据后，终端设备可以随机从多组仿真经验数据中挑选用于训练的数据，对初始决策模型进行强化学习训练。然而，为了进一步提高训练后的目标决策模型的决策精度，终端设备还可以同时将真实系统在运行产线环境下运行时产生的多组真实经验数据作为训练数据，配合仿真经验数据进行模型训练。

具体的，参照图4，终端设备可以通过如下子步骤S1051-S1053对初始决策模型进行训练，详述如下；

S1051、终端设备获取真实系统在运行产线环境中运行时的多组真实经验数据。

S1052、终端设备从多组真实经验数据和多组仿真经验数据中随机确定多组训练数据。

S1053、终端设备根据训练数据，对初始决策模型进行强化学习训练，得到目标决策模型。

在一实施例中，真实系统在实际运行时，可能存在人工修复真实系统发生的故障的情况。因此，在人工修复故障的过程中，真实系统在运行产线环境中运行时也应当存在相对少量的真实经验数据。终端设备同样可以将该真实经验数据存储至经验库中，并定期进行更新。之后，终端设备可以定期从经验库中随机抽取多组训练数据(多组仿真经验数据和多组真实经验数据)，进行模型训练。

需要说明的是，对于以往的模型训练方式，模型的训练数据通常需要人工进行标注。之后，将训练数据输入至模型进行处理后，将输出的预测结果和人工进行标注的实际结果进行误差损失值计算。而后，基于误差损失值训练模型，以调整模型中的模型参数。然而，在本实施例中，上述强化学习训练为基于第一状态信息、目标恢复动作、第二状态信息以及系统健康度，通过时序差分的方式进行交互试错学习的训练方式。该训练方式不需要对训练数据进行额外标注，以减少人工标注数据的成本。

具体的，上述强化学习训练具体为采取时序差分的学习方式，对初始决策模型进行实时训练。例如，每执行一次目标恢复动作得到一组新的仿真经验数据后，终端设备即可将新的仿真经验数据加入经验库中，并打乱顺序，从中随机抽取小批量经验数据(仿真经验数据和真实经验数据)，进行一次模型更新。例如，随机抽取N组经验数据，此时每组经验数据之间通常已不具备相关性。初始决策模型的更新方式可以为：

其中，U为动作价值函数q(S，A，w)的拟合目标；J为拟合误差；

为优化目标关于模型参数的偏导数，即梯度上升方向，β为预先设置的学习率，表示梯度下降方向的步长或幅度。

可以理解的是，随着上述仿真经验数据和真实经验数据的积累，其训练后的目标决策模型决策性能可以逐步提高，当拟合误差稳定在某预设阈值时，模型训练即可停止。例如，预设统计周期M和误差阈值θ。即在统计初始决策模型在最近M次训练过程中的拟合误差J，均保持J≤θ时，训练完成。

需要说明的是，根据上述S102中的解释说明，因仿真经验数据中的目标恢复动作为：初始决策模型计算仿真系统中所有虚拟节点分别可执行每种恢复动作的动作价值，将动作价值的最大值对应的恢复动作确定为目标恢复动作。即可认为该仿真经验数据是初始决策模型在对仿真系统进行多次试错后，确定的最优选的经验数据。基于此，在将仿真经验数据确定为训练数据时，可以无需人工对训练数据进行额外标注，以减少人工标注数据的成本。

在本实施例中，终端设备可以先通过在基于真实系统的运行产线环境搭建的仿真系统中加入故障，而后获取初始决策模型对于该故障下的第一状态信息进行故障恢复的目标恢复动作。之后，终端设备可以获取仿真系统在执行目标恢复动作后的第二状态信息以及系统健康度，以此生成一组仿真经验数据，对初始决策模型进行强化学习训练，得到目标决策模型。进而，可以使终端设备在得到仿真经验数据的过程中，不会对真实系统造成任何的故障。即终端设备可以对仿真系统进行故障试错，以使终端设备可以提前基于试错过程中产生的仿真经验数据进行模型训练，且避免直接在实际的运行产线环境中进行故障试错可能导致的真实系统的安全性问题。以此，可在提高目标决策模型的决策性能的基础上，在仿真系统中采用试错学习的训练方式对初始决策模型进行训练，可以无需人工对训练数据进行额外标注，以减少人工标注数据的成本，进而提高模型训练时的训练效率。

在一实施例中，参照图5，仿真系统包括多个虚拟节点，目标恢复动作为多个虚拟节点中的目标节点执行的恢复动作；在S102将第一状态信息输入至初始决策模型中，得到初始决策模型预测的目标恢复动作中，具体可以通过如下子步骤S1021-S1024实现，详述如下：

S1021、终端设备确定在第一状态信息下多个虚拟节点分别可执行的恢复动作。

在一实施例中，上述在第一状态信息下多个虚拟节点分别可执行的恢复动作具体可以为：在第一状态信息下，仿真系统中所有虚拟节点分别可执行的所有恢复动作。

S1022、终端设备确定仿真系统由故障状态转为健康状态的多种恢复动作组合；每种恢复动作组合至少包括一个虚拟节点执行的一种恢复动作。

在一实施例中，基于上述S104中的说明，可认为在解决仿真系统中的故障时，仿真系统可能只需执行一次目标恢复动作，也可能需要多次执行目标恢复动作。可以理解的是，因仿真系统每执行一次目标恢复动作后的第二状态信息可能发生改变，因此，决策模型在下一次决策出的目标恢复动作可能与上一次的目标恢复动作不同。

基于此，在解决仿真系统中的故障时，终端设备可以将解决该故障时仿真系统所执行的多种恢复动作确定为一组恢复动作组合。

然而，可以理解的是，在解决仿真系统中的故障时，可能存在多种解决方式。即仿真系统可以采用其余不同的多种恢复动作，以解决该故障。因此，针对一种故障，终端设备也可以对应得到多种恢复动作组合。

具体的，仿真系统包括多个虚拟节点，目标恢复动作为多个虚拟节点中的目标节点执行的恢复动作；参照图6，终端设备可以通过如下子步骤S1221-S1223确定仿真系统由故障状态转为健康状态的多种恢复动作组合，详述如下：

S1221、针对仿真系统中的任一虚拟节点的任一恢复动作，终端设备确定虚拟节点在执行恢复动作后的第二状态信息，以及仿真系统在第二状态信息下的系统健康度。

S1222、若根据第二状态信息下的系统健康度判定仿真系统的状态为健康状态，则终端设备将仿真系统从故障状态到健康状态下的多个虚拟节点分别执行的恢复动作，作为一种恢复动作组合。

S1223、若根据第二状态信息下的系统健康度判定仿真系统的状态依然为故障状态，则终端设备将第二状态信息作为新的第一状态信息，并确定仿真系统在新的第一状态信息下多个虚拟节点分别可执行的恢复动作，重复执行S1221-S1223步骤。

在一实施例中，针对任一故障，仿真系统的每个虚拟节点均可执行多种相同或不同的恢复动作。并且，在每个虚拟节点执行多种相同或不同的恢复动作后，若仿真系统依然处于故障，则在该故障下，仿真系统的每个虚拟节点依然可执行多种相同或不同的恢复动作，直至仿真系统由故障状态转为健康状态。

基于此，针对仿真系统中的任一虚拟节点的任一恢复动作，终端设备可以确定虚拟节点在该执行恢复动作后的第二状态信息，以及仿真系统在第二状态信息下的系统健康度。若根据系统健康度判定仿真系统的状态为健康状态，则将仿真系统从故障状态到健康状态下的多个虚拟节点分别执行的恢复动作，作为一种恢复动作组合。若根据系统健康度判定仿真系统的状态依然为故障状态，则将第二状态信息作为新的第一状态信息，并确定仿真系统在新的第一状态信息下多个虚拟节点分别可执行的恢复动作，重复执行S1221-S1223步骤。

S1224、若仿真系统在多次重复执行S1221-S1223步骤后，未能得到一组恢复动作组合，则终端设备重新选择虚拟节点的其余恢复动作，或针对其余虚拟节点的任一恢复动作执行S1221-S1223步骤，直至所有虚拟节点的所有恢复动作均已执行S1221-S1223步骤，以得到多种恢复动作组合。

需要说明的是，针对该虚拟节点的恢复动作，若仿真系统在多次重复执行S1221-S1223步骤后，未能得到一组恢复动作组合，则结束重复的步骤。之后，初始决策模型可重新选择该虚拟节点的其余恢复动作，或针对其余虚拟节点的任一恢复动作执行S1221-S1223步骤，直至所有虚拟节点的所有恢复动作均已执行上述S1221-S1223步骤。其中，多次的数值可以具体由工作人员根据实际情况进行设置，对此不作限定。

S1023、终端设备根据初始决策模型，计算每种恢复动作组合的长期回报价值。

在一实施例中，上述长期回报价值为对未来长期回报的估计。从长期角度看，有利于仿真系统完全解决故障的恢复动作组合具有较大的价值，其应当对应有较大的长期回报。

具体的，参照图7，终端设备可以通过如下子步骤S1231-S1233计算每种恢复动作组合的长期回报价值，详述如下：

S1231、针对任意一种恢复动作组合，终端设备确定恢复动作组合中依次包含的多个恢复动作，以及仿真系统在依次执行每个恢复动作后的系统健康度。

S1232、终端设备分别获取每个恢复动作后的系统健康度对应的权重值。

S1233、终端设备根据权重值对每个恢复动作后的系统健康度进行加权求和，得到恢复动作组合的长期回报价值。

在一实施例中，上述104中已对系统健康度进行解释，对此不再进行说明。需要说明的是，上述每个恢复动作后的系统健康度对应的权重值均可以由工作人员预先进行设置。示例性的，若恢复动作组合中包括t个恢复动作，则工作人员可设置执行恢复动作组合中，终端设备执行第一个恢复动作得到的系统健康度对应的权重值为γ，执行第二个恢复动作得到系统健康度对应的权重值为γ²，其系统健康度对应的权重值可以依此类推。即恢复动作的次数越多，其得到的系统健康度对应的权重系数越低。

基于此，其恢复动作组合的长期回报价值则为：g[k]＝γ·R[1]+γ²·R[2]+...+γ^t·R[t]。其中，g[k]为第k种恢复动作组合的长期回报价值，R[t]为仿真系统执行第t个恢复动后的系统健康度，其中，γ＜1。

S1024、终端设备确定长期回报价值的最大值对应的目标恢复动作组合，并将目标恢复动作组合中的恢复动作确定为目标恢复动作，以及，将执行目标恢复动作的虚拟节点确定为目标节点。

在一实施例中，在确定每种恢复动作组合的长期回报价值后，虽然每种恢复动作组合均可以解决故障，但是，从上述S1023中的长期回报价值的计算公式中可知：因解决故障后的系统健康度的数值通常最大，因此，在恢复动作越多的情况下，其最终计算的长期回报价值的数值将越低。

基于此，终端设备可以将长期回报价值的最大值对应的恢复动作组合，确定为目标恢复动作组合。之后，将目标恢复动作组合中的恢复动作均确定为目标恢复动作，以及，将执行目标恢复动作的虚拟节点均确定为目标节点。

在另一实施例中，在对初始决策模型进行训练的训练阶段，为了避免贪婪策略(将长期回报价值的最大值对应的恢复动作组合确定为目标恢复动作组合)导致的恢复动作单一、试错不充分的情况，可在上述贪婪策略的基础上加上随机噪声，即采用ε-贪婪策略确定目标恢复动作以及目标节点：

其中，ε为预设正数，如ε＝0.01，噪声0<noise<1为均匀分布的随机数，随机恢复动作a_随机为随机从多个虚拟节点中选择的一个虚拟节点，作为目标节点，以及从虚拟节点可执行的恢复动作中随机选择的一种恢复动作，作为目标恢复动作。在确定出长期回报价值的最大值对应的恢复动作组合后，终端设备可再次根据采样的随机值noise，如果noise≤ε，则执行随机恢复动作，否则将长期回报价值的最大值对应的恢复动作组合确定为目标恢复动作组合。

需要说明的是，在仿真系统在执行随机恢复动作后，终端设备需再次将当前时刻下的第二状态信息作为新的第一状态信息输入至初始决策模型中，重新执行确定目标恢复动作组合的过程。

需要补充的是，在目标恢复动作的选择过程中加入上述随机噪声仅在对初始决策模型进行训练的训练阶段，在得到目标决策模型后，可不再加入随机噪声。即对于目标决策模型，终端设备可以直接根据贪婪策略将长期回报价值的最大值对应的恢复动作组合，确定为目标恢复动作组合。

请参阅图8，图8是本申请实施例提供的一种决策模型训练装置的结构框图。本实施例中决策模型训练装置包括的各模块用于执行图1至图7对应的实施例中的各步骤。具体请参阅图1至图7以及图1至图7所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图8，决策模型训练装置800可以包括：第一状态信息获取模块810、状态信息输入模块820、第二状态信息获取模块830、经验数据确定模块840以及训练模块840，其中：

第一状态信息获取模块810，用于获取仿真系统处于任一故障下的第一状态信息；其中，仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统。

状态信息输入模块820，用于将第一状态信息输入至初始决策模型中，得到初始决策模型预测的目标恢复动作。

第二状态信息获取模块830，用于获取仿真系统执行目标恢复动作后的第二状态信息，以及仿真系统的系统健康度。

经验数据确定模块840，用于将第一状态信息、目标恢复动作、第二状态信息以及系统健康度作为一组仿真经验数据。

训练模块850，用于根据仿真经验数据，对初始决策模型进行强化学习训练，得到目标决策模型。

在一实施例中，决策模型训练装置800还包括：

设置模块，用于根据真实系统中包含的多个节点设备，分别对每个节点设备设置对应的节点仿真模型。

采集模块，用于从真实系统的运行产线环境中分别采集每个节点设备的真实数据。

计算模块，用于根据真实数据计算节点仿真模型中的系数矩阵，得到目标节点仿真模型；其中，目标节点仿真模型用于根据输入的数据模拟节点设备运行时的状态信息的变化情况。

连接模块，用于基于每个节点设备之间的拓扑连接结构，将目标节点仿真模型作为虚拟节点进行连接，得到仿真系统。

在一实施例中，仿真系统包括多个虚拟节点，目标恢复动作为多个虚拟节点中的目标节点执行的恢复动作；状态信息输入模块820还用于：

确定在第一状态信息下多个虚拟节点分别可执行的恢复动作；确定仿真系统由故障状态转为健康状态的多种恢复动作组合；每种恢复动作组合至少包括一个虚拟节点执行的一种恢复动作；根据初始决策模型，计算每种恢复动作组合的长期回报价值；确定长期回报价值的最大值对应的目标恢复动作组合，并将目标恢复动作组合中的恢复动作确定为目标恢复动作，以及，将执行目标恢复动作的虚拟节点确定为目标节点。

在一实施例中，状态信息输入模块820还用于：

S1、针对仿真系统中的任一虚拟节点的任一恢复动作，确定虚拟节点在执行恢复动作后的第二状态信息，以及仿真系统在第二状态信息下的系统健康度；

S2、若根据第二状态信息下的系统健康度判定仿真系统的状态为健康状态，则将仿真系统从故障状态到健康状态下的多个虚拟节点分别执行的恢复动作，作为一种恢复动作组合；S3、若根据第二状态信息下的系统健康度判定仿真系统的状态依然为故障状态，则将第二状态信息作为新的第一状态信息，并确定仿真系统在新的第一状态信息下多个虚拟节点分别可执行的恢复动作，重复执行S1-S3步骤；若仿真系统在多次重复执行S1-S3步骤后，未能得到一组恢复动作组合，则重新选择虚拟节点的其余恢复动作，或针对其余虚拟节点的任一恢复动作执行S1-S3步骤，直至所有虚拟节点的所有恢复动作均已执行S1-S3步骤，以得到多种恢复动作组合。

在一实施例中，状态信息输入模块820还用于：

针对任意一种恢复动作组合，确定恢复动作组合中依次包含的多个恢复动作，以及仿真系统在依次执行每个恢复动作后的系统健康度；分别获取每个恢复动作后的系统健康度对应的权重值；根据权重值对每个恢复动作后的系统健康度进行加权求和，得到恢复动作组合的长期回报价值。

在一实施例中，第二状态信息获取模块830还用于：

根据第二状态信息，分别确定每个虚拟节点对应的状态信息；分别根据每个虚拟节点的状态信息，统计状态信息属于健康状态的虚拟节点的数量；将数量，作为仿真系统的系统健康度。

在一实施例中，训练模块850还用于：

获取真实系统在运行产线环境中运行时的多组真实经验数据；从多组真实经验数据和多组仿真经验数据中随机确定多组训练数据；根据训练数据，对初始决策模型进行强化学习训练，得到目标决策模型。

当理解的是，图8示出的决策模型训练装置的结构框图中，各模块用于执行图1至图7对应的实施例中的各步骤，而对于图1至图7对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图图1至图7以及图1至图7所对应的实施例中的相关描述，此处不再赘述。

图9是本申请一实施例提供的一种终端设备的结构框图。如图9所示，该实施例的终端设备900包括：处理器910、存储器920以及存储在存储器920中并可在处理器910运行的计算机程序930，例如决策模型训练方法的程序。处理器910执行计算机程序930时实现上述各个决策模型训练方法各实施例中的步骤，例如图1所示的S101至S105。或者，处理器910执行计算机程序930时实现上述图8对应的实施例中各模块的功能，例如，图8所示的模块810至850的功能，具体请参阅图8对应的实施例中的相关描述。

示例性的，计算机程序930可以被分割成一个或多个模块，一个或者多个模块被存储在存储器920中，并由处理器910执行，以实现本申请实施例提供的决策模型训练方法。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序930在终端设备900中的执行过程。例如，计算机程序930可以实现本申请实施例提供的决策模型训练方法。

终端设备900可包括，但不仅限于，处理器910、存储器920。本领域技术人员可以理解，图9仅仅是终端设备900的示例，并不构成对终端设备900的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器910可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器920可以是终端设备900的内部存储单元，例如终端设备900的硬盘或内存。存储器920也可以是终端设备900的外部存储设备，例如终端设备900上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器920还可以既包括终端设备900的内部存储单元也包括外部存储设备。

本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述各个实施例中的决策模型训练方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述各个实施例中的决策模型训练方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述各个实施例中的决策模型训练方法。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种决策模型训练方法，其特征在于，包括：

获取仿真系统处于任一故障下的第一状态信息；其中，所述仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统；

将所述第一状态信息输入至初始决策模型中，得到所述初始决策模型预测的目标恢复动作；

获取所述仿真系统执行所述目标恢复动作后的第二状态信息，以及所述仿真系统的系统健康度；

将所述第一状态信息、所述目标恢复动作、所述第二状态信息以及所述系统健康度作为一组仿真经验数据；

根据所述仿真经验数据，对所述初始决策模型进行强化学习训练，得到目标决策模型。

2.根据权利要求1所述的决策模型训练方法，其特征在于，在所述获取仿真系统处于任一故障下的第一状态信息之前，还包括：

根据所述真实系统中包含的多个节点设备，分别对每个所述节点设备设置对应的节点仿真模型；

从所述真实系统的所述运行产线环境中分别采集每个所述节点设备的真实数据；

根据所述真实数据计算所述节点仿真模型中的系数矩阵，得到目标节点仿真模型；其中，所述目标节点仿真模型用于根据输入的数据模拟节点设备运行时的状态信息的变化情况；

基于每个所述节点设备之间的拓扑连接结构，将所述目标节点仿真模型作为虚拟节点进行连接，得到所述仿真系统。

3.根据权利要求1所述的决策模型训练方法，其特征在于，所述仿真系统包括多个虚拟节点，所述目标恢复动作为所述多个虚拟节点中的目标节点执行的恢复动作；

所述将所述第一状态信息输入至初始决策模型中，得到所述初始决策模型预测的目标恢复动作，包括：

确定在所述第一状态信息下所述多个虚拟节点分别可执行的恢复动作；

确定所述仿真系统由故障状态转为健康状态的多种恢复动作组合；每种恢复动作组合至少包括一个虚拟节点执行的一种恢复动作；

根据所述初始决策模型，计算每种所述恢复动作组合的长期回报价值；

确定所述长期回报价值的最大值对应的目标恢复动作组合，并将所述目标恢复动作组合中的恢复动作确定为所述目标恢复动作，以及，将执行所述目标恢复动作的虚拟节点确定为所述目标节点。

4.根据权利要求3所述的决策模型训练方法，其特征在于，所述确定所述仿真系统由故障状态转为健康状态的多种恢复动作组合，包括：

S1、针对所述仿真系统中的任一虚拟节点的任一恢复动作，确定所述虚拟节点在执行恢复动作后的所述第二状态信息，以及所述仿真系统在所述第二状态信息下的系统健康度；

S2、若根据所述第二状态信息下的系统健康度判定所述仿真系统的状态为健康状态，则将所述仿真系统从所述故障状态到所述健康状态下的多个虚拟节点分别执行的恢复动作，作为一种恢复动作组合；

S3、若根据所述第二状态信息下的系统健康度判定所述仿真系统的状态依然为所述故障状态，则将所述第二状态信息作为新的第一状态信息，并确定所述仿真系统在所述新的第一状态信息下所述多个虚拟节点分别可执行的恢复动作，重复执行S1-S3步骤；

S4、若所述仿真系统在多次重复执行所述S1-S3步骤后，未能得到一组所述恢复动作组合，则重新选择所述虚拟节点的其余恢复动作，或针对其余所述虚拟节点的任一恢复动作执行所述S1-S3步骤，直至所有所述虚拟节点的所有恢复动作均已执行所述S1-S3步骤，以得到所述多种恢复动作组合。

5.根据权利要求4所述的决策模型训练方法，其特征在于，所述根据所述初始决策模型，计算每种所述恢复动作组合的长期回报价值，包括：

针对任意一种所述恢复动作组合，确定所述恢复动作组合中依次包含的多个恢复动作，以及所述仿真系统在依次执行每个恢复动作后的系统健康度；

分别获取所述每个恢复动作后的系统健康度对应的权重值；

根据所述权重值对所述每个恢复动作后的系统健康度进行加权求和，得到所述恢复动作组合的长期回报价值。

6.根据权利要求3-5任一所述的决策模型训练方法，其特征在于，所述获取所述仿真系统执行所述目标恢复动作后的第二状态信息，以及所述仿真系统的系统健康度，包括：

根据所述第二状态信息，分别确定每个所述虚拟节点对应的状态信息；

分别根据每个所述虚拟节点的状态信息，统计所述状态信息属于健康状态的虚拟节点的数量；

将所述数量，作为所述仿真系统的所述系统健康度。

7.根据权利要求1所述的决策模型训练方法，其特征在于，所述根据所述仿真经验数据，对所述初始决策模型进行强化学习训练，得到目标决策模型，包括：

获取所述真实系统在所述运行产线环境中运行时的多组真实经验数据；

从所述多组真实经验数据和多组仿真经验数据中随机确定多组训练数据；

根据所述训练数据，对所述初始决策模型进行强化学习训练，得到所述目标决策模型。

8.一种决策模型训练装置，其特征在于，包括：

第一状态信息确定模块，用于获取仿真系统处于任一故障下的第一状态信息；其中，所述仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统；

状态信息输入模块，用于将所述第一状态信息输入至初始决策模型中，得到所述初始决策模型预测的目标恢复动作；

第二状态信息获取模块，用于获取所述仿真系统执行所述目标恢复动作后的第二状态信息，以及所述仿真系统的系统健康度；

经验数据确定模块，用于将所述第一状态信息、所述目标恢复动作、所述第二状态信息以及所述系统健康度作为一组仿真经验数据；

训练模块，用于根据所述仿真经验数据，对所述初始决策模型进行强化学习训练，得到目标决策模型。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。