CN112906914B

CN112906914B - 轨道交通it设备故障分析方法、装置和电子设备

Info

Publication number: CN112906914B
Application number: CN202011577987.5A
Authority: CN
Inventors: 付哲; 王伟
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-03-29
Anticipated expiration: 2040-12-28
Also published as: CN112906914A

Abstract

本申请实施例提供了一种轨道交通IT设备故障分析方法、装置和电子设备，在维修IT设备时，首先获取IT设备的待维修的故障状态，然后根据待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为待维修的故障状态的最优维修路径；最后根据最优维修路径输出优先级最高的故障行为或优先级最高的运行状态。预设奖励值表中包括用于表示各个运行状态和各个故障行为的关联度的奖励值，根据预设奖励值表能够自动获取待维修的故障状态和故障行为之间奖励值最大的路径，从而找到IT设备优先级最高的故障行为或优先级最高的运行状态，即IT设备的根本故障原因，根据根本故障原因制定相应的维修方案，提高了维修效率和维修准确率。

Description

轨道交通IT设备故障分析方法、装置和电子设备

技术领域

本申请涉及轨道交通技术，具体地，涉及一种轨道交通IT设备故障分析方法、装置和电子设备。

背景技术

随着轨道技术的迅猛发展，轨道交通领域的IT设备建设也越来越深入和完善，轨道交通的IT设备的运行维护已经成为了信息服务部门普遍关注的问题。

当前，在对轨道交通IT设备(例如采集并存储列车数据的服务器、控制列车运行的计算机等)维修时，通常是按照工作人员的维修经验人工制定故障规则(例如故障树)，并根据故障规则给出IT设备的维修方案。

但是，由于轨道交通IT设备具有大规模的网络系统且连接结构十分复杂，因此，轨道交通IT设备的故障原因及故障层级较为复杂，并且轨道交通IT设备出现的故障通常具有链式特征，IT设备出现的报警情况或故障状态有可能只是根本故障原因的中间产物，即某种故障是由于某个初始故障在系统中传导若干次后导致的，且该故障还可能引发多种其他故障。这就导致在轨道交通IT设备并发大量告警时，根据人工梳理的故障规则可能无法对轨道交通IT设备的相关故障进行精准的定位，即无法找出IT设备的根本的故障原因，维修难度较大且维修效率也比较低。

发明内容

本申请实施例中提供了一种轨道交通IT设备故障分析方法、装置和电子设备，用于解决现有技术中轨道交通IT设备的维修难度较大、维修效率低的问题。

根据本申请实施例的第一个方面，提供了一种轨道交通IT设备故障分析方法，所述方法包括：

获取IT设备的待维修的故障状态；

根据所述待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为所述待维修的故障状态的最优维修路径，其中，所述预设奖励值表包括所述IT设备的多个运行状态、多个故障行为及用于表示各个运行状态与各个故障行为之间的关联度的奖励值；

根据所述最优维修路径输出优先级最高的故障行为或优先级最高的运行状态。

在一种可选的实施方式中，所述方法还包括通过所述强化学习算法获取所述预设奖励值表的步骤，所述步骤包括：

建立所述IT设备的状态表，其中，所述状态表包括所述IT设备的多个运行状态、多个故障行为及各个运行状态与各个故障行为对应的状态估值；

建立所述强化学习算法的初始奖励值表；

循环遍历所述状态表，根据所述状态估值依次计算所述IT设备的各个运行状态和各个故障行为对应的奖励值；

根据计算获得的奖励值更新所述初始奖励值表，直到循环遍历次数达到预设值，获得所述强化学习算法的预设奖励值表。

在一种可选的实施方式中，遍历所述状态表，根据所述状态估值计算所述IT设备的各个运行状态和各个故障行为对应的奖励值，包括：

任意选取所述状态表中的一个运行状态作为初始状态开始执行，根据公式计算所述IT设备的各个运行状态和各个故障行为对应的奖励值，其中，Q(s，a)表示运行状态s和故障行为a对应的奖励值，R(s，a)状态表中运行状态s和故障行为a对应的状态估值，γ为比例系数，/>表示运行状态s在奖励值表中的最大值。

在一种可选的实施方式中，所述根据所述待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为所述待维修的故障状态的最优维修路径，包括：

将所述待维修的故障状态作为初始运行状态，从所述强化学习算法的预设奖励值表中选择在所述故障状态下奖励值最大的故障行为；

从所述强化学习算法的预设奖励值表中选择在所述故障行为下奖励值最大的运行状态；

重复上述步骤，直至选出的最后一个运行状态或故障行为；

按照先后顺序将选择出的所有运行状态及故障行为组成奖励值最大的最优维修路径。

在一种可选的实施方式中，所述根据所述最优维修路径输出优先级最高的故障行为或优先级最高的运行状态，包括：

输出与所述最优维修路径中包括的最后一个运行状态或最后一个故障行为。

根据本申请实施例的第二个方面，提供了一种轨道交通IT设备故障分析装置，所述装置包括：

状态获取模块，用于获取IT设备的待维修的故障状态；

路径选择模块，用于根据所述待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为所述待维修的故障状态的最优维修路径，其中，所述预设奖励值表包括所述IT设备的多个运行状态、多个故障行为及用于表示各个运行状态与各个故障行为之间的关联度的奖励值；

输出模块，用于根据所述最优维修路径输出优先级最高的故障行为或优先级最高的运行状态。

在一种可选的实施方式中，所述装置还包括奖励值表获取模块，所述奖励值表获取模块具体用于：

建立所述强化学习算法的初始奖励值表；

在一种可选的实施方式中，所述路径选择模块具体用于：

重复上述步骤，直至选出的最后一个运行状态或故障行为；

根据本申请实施例的第三个方面，提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行上述的轨道交通IT设备故障分析方法。

根据本申请实施例的第四个方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的轨道交通IT设备故障分析方法。

本申请实施例提供了一种轨道交通IT设备故障分析方法、装置和电子设备，在维修轨道交通IT设备时，首先获取IT设备的待维修的故障状态，然后根据待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为待维修的故障状态的最优维修路径；最后根据最优维修路径输出优先级最高的故障行为或优先级最高的运行状态。预设奖励值表中包括用于表示各个运行状态和各个故障行为的关联度的奖励值，根据预设奖励值表能够自动获取待维修的故障状态和故障行为之间奖励值最大的路径，从而找到轨道交通IT设备优先级最高的故障行为或优先级最高的运行状态，即IT设备的根本故障原因，根据根本故障原因制定相应的维修方案，提高了维修效率和维修准确率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的轨道交通IT设备故障分析方法的流程图之一；

图2为本申请实施例提供的轨道交通IT设备故障分析方法的流程图之二；

图3为本申请实施例提供的步骤S14的子步骤流程图；

图4为本申请实施例提供的轨道交通IT设备故障分析装置的功能模块图；

图5为本申请实施例提供的电子设备的架构图。

图标：10-电子设备；11-处理器；12-存储器；13-总线；110-轨道交通IT设备故障分析装置；1101-状态获取模块；1102-路径选择模块；1103-输出模块；1104-奖励值表获取模块。

具体实施方式

在实现本申请的过程中，发明人发现目前在对轨道交通IT设备(例如服务器、计算机等)维修时，通常是按照工作人员的维修经验人工制定故障规则(例如故障树)，并根据故障规则给出IT设备的维修方案。例如，当IT设备的故障状态为S时，在故障规则中寻找可能引起故障状态S的故障原因A，然后制定维修故障原因A的维修方案。

但是，由于轨道交通IT设备具有大规模的网络系统且连接结构十分复杂，因此IT设备的故障原因及故障层级也十分复杂，并且IT设备出现的故障通常具有链式特征，IT设备出现的报警情况或故障状态有可能只是根本故障原因的中间产物，即某种故障是由于某个初始故障在系统中传导若干次后导致的，且该故障还可能引发多种其他故障。这就导致在轨道交通IT设备并发大量告警时，根据人工梳理的故障规则可能无法对轨道交通IT设备的相关故障进行精准的定位，也就导致无法根据人工梳理的故障规则找出IT设备的根本的故障原因，维修难度较大且维修效率也比较低。

针对上述问题，本申请实施例提供了一种轨道交通IT设备故障分析方法、装置和电子设备，在维修IT设备时，首先获取IT设备的待维修的故障状态，然后根据待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为待维修的故障状态的最优维修路径；最后根据最优维修路径输出优先级最高的故障行为或优先级最高的运行状态。预设奖励值表中包括用于表示各个运行状态和各个故障行为的关联度的奖励值，根据预设奖励值表能够自动获取待维修的故障状态和故障行为之间奖励值最大的路径，从而找到IT设备优先级最高的故障行为或优先级最高的运行状态，即IT设备的根本故障原因，根据根本故障原因制定相应的维修方案，提高了维修效率和维修准确率。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的轨道交通IT设备故障分析方法的流程图之一。在本实施例中，该方法应用于电子设备，电子设备与多个IT设备通信连接，用于采集IT设备的运行数据，运行数据包括运行状态和故障行为等。轨道交通IT设备故障分析方法包括以下步骤：

步骤S11，获取IT设备的待维修的故障状态。

步骤S12，根据待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为所述待维修的故障状态的最优维修路径。

其中，预设奖励值表包括所述IT设备的多个运行状态、多个故障行为及用于表示各个运行状态与各个故障行为之间的关联度的奖励值。

步骤S13，根据所述最优维修路径输出优先级最高的故障行为或优先级最高的运行状态。

在上述步骤中，本申请实施例能够根据预设奖励值表自动获取待维修的故障状态和故障行为之间奖励值最大的路径，即故障状态和故障行为的最大关联路径，在IT设备发出故障告警信息时能够对IT设备的根本故障原因进行快速定位，然后根据找到的根本故障原因制定相应的维修方案，提高了维修效率和维修准确率。

可选地，请参照图2，图2为本申请实施例提供的轨道交通IT设备故障分析方法的流程图之二。在本实施例中，轨道交通IT设备故障分析方法还包括：

步骤S14，通过强化学习算法获取所述预设奖励值表。

具体地，请参照图3，图3为本申请实施例提供的步骤S14的子步骤流程图。在本实施例中，步骤S14包括以下步骤：

步骤S141，建立IT设备的状态表。其中，状态表包括IT设备的多个运行状态、多个故障行为及各个运行状态与各个故障行为对应的状态估值。

可选地，在步骤S141中，可以根据IT设备可能出现的运行状态或可能出现的故障行为，以及运行状态及故障行为之间的状态估值建立IT设备的状态表。IT设备的状态表可参照表1：

表1

在表1中，运行状态表示IT设备在真实的运行环境中可能出现的运行状态，用s表示，运行状态可以包括正常状态及故障状态，例如运行状态可以包括系统参数全部正常、报警灯闪烁、检测值异常等。

故障行为是指设备维护手段，可以是维护过程，也可以是故障行为，用a进行表示。例如，故障行为包括禁止软件进程、打开机柜门或服务器闲置IP过多等。

状态估值代表行为和状态之间的联系程度或行为的发生对状态改变程度的大小，可以通过固定值表示，也可以通过“运行状态-故障行为”的计算公式来计算估值。在用固定值表示时，0表示无关联，50表示可能关联(或间接引发)，100表示直接引发；或0表示行为对状态的优劣无影响，50表示行为对状态有促进，-50表示该行为的发生会降低状态的效能。

例如，当电源机柜故障表示灯常亮(假设为表1中的状态1)时，机柜门打开(假设为表1中的行为1)与该状态的估值为0，表示无关联，即机柜门打开不会引起电源机柜故障表示灯常亮，；而电缆断路(假设为表1中的行为3)与状态1的估值为50，表示行为2可能会导致状态1的发生，即电缆断路可能会导致电源机柜故障表示灯常亮。

当计算机系统的内存占用过高(假设为表1中的状态3)时，禁止某软件进程(假设为表1中行为2)可以促进计算机系统的状态提升，则状态估值为100；更换硬盘(假设为表1中的行为1)对计算机系统的状态无影响，则状态估值为0；打开一个杀毒软件进行全盘扫描(假设为表1中的行为4)，会进一步提升计算机系统的内存占用，降低了计算机系统的状态，故而状态估值可以为-100。

可选地，为了方便理解，可以结合具体场景将表1中的状态表更新为表2，如下表所示：

表2

可选地，在步骤S141建立IT设备的状态表之后，步骤S14还包括：

步骤S142，建立强化学习算法的初始奖励值表。

在步骤S142中，为了避免IT设备既有状态对奖励值表中的奖励值的影响，因此需要先将奖励值表初始化为0，获得一个初始奖励值表，初始奖励值表如表3所示：

表3

在表3中，奖励值表Q-Table与状态表的矩阵维度相同，但表示的意义不同，在表3中，状态和行为之间对应的数值为奖励值。

请继续参照图3，在步骤S142之后，步骤S14还包括：

步骤S143，循环遍历状态表，根据状态估值依次计算IT设备的各个运行状态和各个故障行为对应的奖励值。

步骤S144，根据计算获得的奖励值更新初始奖励值表，直到循环遍历次数达到预设值，获得强化学习算法的预设奖励值表。

在上述步骤中，在获得初始奖励值表后，还需要循环遍历状态表，根据状态表中的运行状态、故障行为及状态故障进行计算，依次获得多个奖励值，并根据获得的奖励值更新初始奖励值表，获得最终的强化学习算法的预设奖励值表。也即是说，奖励值可以理解为强化学习后的状态估值，用于表示故障行为和运行状态之间的关联度或故障行为的发生对运行状态改变程度的促进或抑制。

可选地，在计算奖励值时，首先任意选取所述状态表中的一个运行状态作为初始状态开始执行，然后根据公式计算所述IT设备的各个运行状态和各个故障行为对应的奖励值，其中，Q(s，a)表示运行状态s和故障行为a对应的奖励值，R(s，α)状态表中运行状态s和故障行为a对应的状态估值，γ为比例系数，γ的取值范围为0至1，/>表示运行状态s在奖励值表中的最大值。

具体地，在计算奖励值时，按照状态表的维度，选择IT设备的状态表中任意一个既有的运行状态S(s)，从该状态对应的状态估值不为0的故障行为开始执行，通过选定的故障行为，判断IT设备在下一阶段的状态S′(a)，然后计算奖励值Q，具体计算公式参照即循环的过程为：由某一运行状态寻找到奖励值最大的故障行为，然后再由该行为所对应的产出最大奖励值的运行状态作为下一次循环的起点，达到强化学习的目的，不断加强运行状态和故障行为的关联性。

以表2中的具体场景为例，由于初始奖励值表中的每个奖励值为0，因此，则初始奖励值表会更新为与表2相同。

在后续的循环遍历过程中，如表2所示，当IT设备的故障状态s为“ZC无法收到ATS信息”时，该运行状态对应的状态估值最大的故障行为a是“ATS服务器宕机”，状态估值为80，即R(s，a)＝80，因此，在γ＝1时，/> 也即是说，则奖励值表在此次计算后更新为如表4所示：

表4

在表4中，“ZC无法收到ATS信息”与“ATS服务器宕机”对应的奖励值被更新为160，而其他的奖励值不变，以此完成一次奖励值的计算，然后根据“ATS服务器宕机”找到后续最有可能出现的状态“与ATS相关子系统均无法收取ATS信息”，若γ＝1，则根据公式计算出奖励值为400，则表4中“与ATS相关子系统均无法收取ATS信息”与“ATS服务器宕机”对应的奖励值会被更新为400，形成另一张奖励值表。

在另一种实施例中，若在数据采集过程中，电子设备并未发现IT设备有“与ATS相关子系统均无法收取ATS信息”这一运行状态出现，即在实际过程中表4无此状态，则表4中“与ATS相关子系统均无法收取ATS信息”与“ATS服务器宕机”对应的奖励值会被更新为0，形成另一张奖励值表。

循环遍历状态表，重复上述计算奖励值的步骤，每计算出一个奖励值则更新一次奖励值表，直至状态表中的所有状态都遍历完成或者达到最大的循环遍历次数，结束遍历，获得最终的奖励值表，即前文提到的强化学习算法的预设奖励值表。假设最终的预设奖励值表如表5所示：

表5

可选地，在本实施例中，在获得预设奖励值表后，即可根据待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为待维修的故障状态的最优维修路径，具体过程包括：将所述待维修的故障状态作为初始运行状态，从所述强化学习算法的预设奖励值表中选择在所述故障状态下奖励值最大的故障行为；从所述强化学习算法的预设奖励值表中选择在所述故障行为下奖励值最大的运行状态；重复上述步骤，直至选出的最后一个运行状态或故障行为；按照先后顺序将选择出的所有运行状态及故障行为组成奖励值最大的最优维修路径。

也即是说，通过选择预设奖励值表中的奖励值最大的路径，即可获得故障状态的最优维修路径。例如，若故障状态为“ZC无法收到ATS信息”，根据表5所示的奖励值，获得的最优维修路径为：“ZC无法收到ATS信息”—“ZC服务器内存占用过高”—“数据库查询时间过长”—“数据库缺少主题索引”。

在获得最优维修路径之后，根据最优维修路径中包括的故障行为或运行状态输出所述IT设备的维修方案，包括：输出与最优维修路径中包括的最后一个运行状态或最后一个故障行为。因此工作人员可以根据输出的运行状态或故障行为确定IT设备的维修方案。

例如，若最优维修路径为“ZC无法收到ATS信息”—“ZC服务器内存占用过高”—“数据库查询时间过长”—“数据库缺少主题索引”，则表示若要解决“ZC无法收到ATS信息”这一故障状态，应当优先解决“数据库缺少主题索引”这一问题，因此，输出的维修方案应该是解决“数据库缺少主题索引”这一问题的维修方案，从而可以帮助工作人员找出待维修的故障状态对应的根本故障原因，从源头解决故障，提升维修准确率和维修效率。

综上所述，本申请实施例提供了一种轨道交通IT设备故障分析方法，在维修IT设备时，首先获取IT设备的待维修的故障状态，然后根据待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为待维修的故障状态的最优维修路径；最后根据最优维修路径输出优先级最高的故障行为或优先级最高的运行状态。预设奖励值表中包括用于表示各个运行状态和各个故障行为的关联度的奖励值，根据预设奖励值表能够自动获取待维修的故障状态和故障行为之间奖励值最大的路径，从而找到IT设备优先级最高的故障行为或优先级最高的运行状态，即IT设备的根本故障原因，根据根本故障原因制定相应的维修方案，提高了维修效率和维修准确率。

请参照图4，图4为本申请实施例提供的轨道交通IT设备故障分析装置110的功能模块图，在本实施例中，该装置包括：

状态获取模块1101，用于获取IT设备的待维修的故障状态。

路径选择模块1102，用于根据所述待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为所述待维修的故障状态的最优维修路径，其中，所述预设奖励值表包括所述IT设备的多个运行状态、多个故障行为及用于表示各个运行状态与各个故障行为之间的关联度的奖励值。

输出模块1103，用于根据所述最优维修路径输出优先级最高的故障行为或优先级最高的运行状态。

在一种可选的实施方式中，所述装置还包括奖励值表获取模块1104，所述奖励值表获取模块1104具体用于：

建立所述强化学习算法的初始奖励值表；循环遍历所述状态表，根据所述状态估值依次计算所述IT设备的各个运行状态和各个故障行为对应的奖励值；根据计算获得的奖励值更新所述初始奖励值表，直到循环遍历次数达到预设值，获得所述强化学习算法的预设奖励值表。

在一种可选的实施方式中，路径选择模块1102具体用于：

将所述待维修的故障状态作为初始运行状态，从所述强化学习算法的预设奖励值表中选择在所述故障状态下奖励值最大的故障行为；从所述强化学习算法的预设奖励值表中选择在所述故障行为下奖励值最大的运行状态；重复上述步骤，直至选出的最后一个运行状态或故障行为；按照先后顺序将选择出的所有运行状态及故障行为组成奖励值最大的最优维修路径。

值得说明的是，轨道交通IT设备故障分析装置110中各个模块的工作原理及流程可参照前述提供的轨道交通IT设备故障分析方法，在此不再赘述。

请参照图5，图5为本申请实施例提供的电子设备10的架构图。在本实施例中，电子设备10包括：处理器11、存储器12和总线13，所述存储器12存储有所述处理器11可执行的机器可读指令，当所述电子设备10运行时，所述处理器11与所述存储器12之间通过所述总线13通信，所述机器可读指令被所述处理器11执行时执行本申请实施例提供的轨道交通IT设备故障分析方法。

可选地，本申请实施例还提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行本申请实施例提供的轨道交通IT设备故障分析方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种轨道交通IT设备故障分析方法，其特征在于，所述方法包括：

获取IT设备的待维修的故障状态；

根据所述最优维修路径输出优先级最高的故障行为或优先级最高的运行状态；

其中，所述根据所述待维修的故障状态从强化学习算法的预设奖励值表中选择奖励值最大的路径作为所述待维修的故障状态的最优维修路径，包括：

重复上述步骤，直至选出的最后一个运行状态或故障行为；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括通过所述强化学习算法获取所述预设奖励值表的步骤，所述步骤包括：

建立所述强化学习算法的初始奖励值表；

3.根据权利要求2所述的方法，其特征在于，遍历所述状态表，根据所述状态估值计算所述IT设备的各个运行状态和各个故障行为对应的奖励值，包括：

任意选取所述状态表中的一个运行状态作为初始状态开始执行，根据公式计算所述IT设备的各个运行状态和各个故障行为对应的奖励值，其中，Q(s，a)表示运行状态s和故障行为a对应的奖励值，R(s，a)表示状态表中运行状态s和故障行为a对应的状态估值，γ为比例系数，/>表示运行状态s在奖励值表中的最大值。

4.根据权利要求1所述的方法，其特征在于，所述根据所述最优维修路径输出优先级最高的故障行为或优先级最高的运行状态，包括：

5.一种轨道交通IT设备故障分析装置，其特征在于，所述装置包括：

状态获取模块，用于获取IT设备的待维修的故障状态；

输出模块，用于根据所述最优维修路径输出优先级最高的故障行为或优先级最高的运行状态；

其中，所述路径选择模块具体用于：将所述待维修的故障状态作为初始运行状态，从所述强化学习算法的预设奖励值表中选择在所述故障状态下奖励值最大的故障行为；从所述强化学习算法的预设奖励值表中选择在所述故障行为下奖励值最大的运行状态；重复上述步骤，直至选出的最后一个运行状态或故障行为；按照先后顺序将选择出的所有运行状态及故障行为组成奖励值最大的最优维修路径。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括奖励值表获取模块，所述奖励值表获取模块具体用于：

建立所述强化学习算法的初始奖励值表；

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1-4任一项所述的方法。

8.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-4任一项所述的方法。