CN116089611A

CN116089611A - 基于性能-故障关系图谱的航天器故障诊断方法及装置

Info

Publication number: CN116089611A
Application number: CN202310070255.4A
Authority: CN
Inventors: 王淑一; 邢晓宇; 刘磊; 徐赫屿; 刘文静; 张涛; 王铎
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-05-09
Anticipated expiration: 2043-01-13
Also published as: CN116089611B

Abstract

本发明提供了一种基于性能‑故障关系图谱的航天器故障诊断方法及装置，方法为：将性能‑故障关系图谱作为DDPG的环境，将性能‑故障关系图谱中的实体作为状态，将性能‑故障关系图谱中的关系作为DDPG选择的动作，以根据待诊断航天器的当前状态确定性能‑故障关系图谱中相同状态的实体；根据预先针对性能‑故障关系图谱中各实体设置的状态类别，确定当前实体的状态类别是否为终止状态，若否，则根据当前实体的状态类别以及当前实体的实体向量确定所选择的最优动作，根据最优动作得到下一状态的实体，将下一状态的实体作为当前实体循环执行本步骤；若是，则终止循环，并将当前实体确定为故障原因。本方案，能够提高故障诊断的效率和精准度。

Description

基于性能-故障关系图谱的航天器故障诊断方法及装置

技术领域

本发明实施例涉及航空航天技术领域，特别涉及一种基于性能-故障关系图谱的航天器故障诊断方法及装置。

背景技术

航天器的运行环境复杂严苛，导致航天器故障多发，航天器故障在严重时会导致航天器失效。现有的故障诊断方法是依赖人工先验知识，通过人工查询的方式定位故障源，难以做到实时诊断、准确定位复杂故障。因此，需要提供一种基于性能-故障关系图谱的航天器故障诊断方法，以提高故障诊断的效率和精准度。

发明内容

本发明实施例提供了一种基于性能-故障关系图谱的航天器故障诊断方法及装置，能够提高故障诊断的效率和精准度。

第一方面，本发明实施例提供了一种基于性能-故障关系图谱的航天器故障诊断方法，包括：

基于航天器的性能-故障关系图谱，获取各实体的实体向量；

将所述性能-故障关系图谱作为DDPG的环境，将所述性能-故障关系图谱中的实体作为状态，将所述性能-故障关系图谱中的关系作为DDPG选择的动作，以根据待诊断航天器的当前状态确定所述性能-故障关系图谱中相同状态的实体；

根据预先针对所述性能-故障关系图谱中各实体设置的状态类别，确定当前实体的状态类别是否为终止状态，若否，则根据当前实体的状态类别以及当前实体的实体向量确定所选择的最优动作，根据所述最优动作得到下一状态的实体，将下一状态的实体作为当前实体循环执行本步骤；若是，则终止循环，并将当前实体确定为故障原因；所述状态类别包括：普通状态、终止状态和概率选择状态。

第二方面，本发明实施例还提供了一种基于性能-故障关系图谱的航天器故障诊断装置，包括：

获取单元，用于基于航天器的性能-故障关系图谱，获取各实体的实体向量；

实体确定单元，用于将所述性能-故障关系图谱作为DDPG的环境，将所述性能-故障关系图谱中的实体作为状态，将所述性能-故障关系图谱中的关系作为DDPG选择的动作，以根据待诊断航天器的当前状态确定所述性能-故障关系图谱中相同状态的实体；

故障诊断单元，用于根据预先针对所述性能-故障关系图谱中各实体设置的状态类别，确定当前实体的状态类别是否为终止状态，若否，则根据当前实体的状态类别以及当前实体的实体向量确定所选择的最优动作，根据所述最优动作得到下一状态的实体，将下一状态的实体作为当前实体循环执行本步骤；若是，则终止循环，并将当前实体确定为故障原因；所述状态类别包括：普通状态、终止状态和概率选择状态。

第三方面，本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本说明书任一实施例所述的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行本说明书任一实施例所述的方法。

本发明实施例提供了一种基于性能-故障关系图谱的航天器故障诊断方法及装置，将航天器的性能-故障关系图谱作为深度强化学习的环境，将性能-故障关系图谱中的实体作为状态，将性能-故障关系图谱中的关系作为选择的动作，以此能够根据航天器当前状态确定相同状态的实体，从而根据该实体的特征在性能-故障关系图谱中快速寻得最优路径，分析得到故障原因，使得故障诊断更加智能和准确，且诊断效率更高效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于性能-故障关系图谱的航天器故障诊断方法流程图；

图2是本发明一实施例提供的一种电子设备的硬件架构图；

图3是本发明一实施例提供的一种基于性能-故障关系图谱的航天器故障诊断装置结构图；

图4是本发明一实施例提供的另一种基于性能-故障关系图谱的航天器故障诊断装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，本发明实施例提供了一种基于性能-故障关系图谱的航天器故障诊断方法，该方法包括：

步骤100，基于航天器的性能-故障关系图谱，获取各实体的实体向量；

步骤102，将所述性能-故障关系图谱作为DDPG的环境，将所述性能-故障关系图谱中的实体作为状态，将所述性能-故障关系图谱中的关系作为DDPG选择的动作，以根据待诊断航天器的当前状态确定所述性能-故障关系图谱中相同状态的实体；

步骤104，根据预先针对所述性能-故障关系图谱中各实体设置的状态类别，确定当前实体的状态类别是否为终止状态，若否，则根据当前实体的状态类别以及当前实体的实体向量确定所选择的最优动作，根据所述最优动作得到下一状态的实体，将下一状态的实体作为当前实体循环执行本步骤；若是，则终止循环，并将当前实体确定为故障原因；所述状态类别包括：普通状态、终止状态和概率选择状态。

本发明实施例中，将航天器的性能-故障关系图谱作为深度强化学习的环境，将性能-故障关系图谱中的实体作为状态，将性能-故障关系图谱中的关系作为选择的动作，以此能够根据航天器当前状态确定相同状态的实体，从而根据该实体的特征在性能-故障关系图谱中快速寻得最优路径，分析得到故障原因，使得故障诊断更加智能和准确，且诊断效率更高效。

下面描述图1所示的各个步骤的执行方式。

首先，针对步骤100，基于航天器的性能-故障关系图谱，获取各实体的实体向量。

本发明实施例中，可以针对航天器初步建立性能-故障关系图谱，性能-故障关系图谱包括实体和连边，连边用于表征所连接两个实体之间的关系。需要说明的是，性能-故障关系图谱的建立方式可以采用现有图谱构建方式来实现，在此不进行详细说明。

在本发明实施例中，本步骤100可以包括如下步骤A1～A4：

A1、利用TransE模型对所述性能-故障关系图谱中的三元组进行处理，提取各实体的语义特征，以得到各实体的语义向量。

在本发明实施例中，由于实体的语义向量是基于三元组特征得来的，而三元组信息中同时包括关系，因此，可以在获取实体的语义向量的同时获取关系的语义向量，具体地，本步骤A1可以包括：

A11、从所述性能-故障关系图谱中提取三元组(h,r,t)，h为头实体，t为尾实体，r为头实体h和尾实体t之间的关系；

A12、对三元组中的实体与关系分布在

的区间随机赋值，得到实体的m维向量和关系的m维向量；m为不小于3的整数；

为了方便计算，还可以对m维向量进行归一化处理为单位向量。

A13、在向量化的三元组中随机抽取多个三元组作为正样本，针对每一个正样本，随机替换该正样本中的头实体或尾实体得到负样本，对TransE模型进行训练，训练目标是使三元组的向量满足h+r＝t；

A14、基于设置的得分函数和损失函数，通过基于梯度的优化算法进行优化求解，直至训练收敛，得到实体的m维语义向量和已知关系的m维语义向量。

为了满足训练目标，可以根据h+r与t的欧氏距离或曼哈顿距离设置如下得分函数：

f(h,r,t)＝‖h+r-t‖_L1/L2

根据TransE模型的训练目标，要保证正样本的得分函数尽量小，负样本的得分函数尽量大，损失函数可以设置为：

其中，S为正样本集合，(h’,r,t’)为正样本(h,r,t)对应的负样本，γ表示损失函数中的间隔(γ＞0)。

对选取的正样本和负样本进行上述得分函数和损失函数的计算，当训练未收敛时，需要循环执行步骤A3和A4，直至训练收敛，得到实体的各实体的语义向量和各已知关系的语义向量。

A2、采用主成分分析法对各实体的语义向量进行降维。

本发明实施例中，采用主成分分析法PCA对m维语义向量进行主成分提取，得到降成k维的语义向量，具体为：

A21、将n个m维语义向量排列组成m行n列的向量矩阵X；m、n均为不小于3的整数；

A22、将向量矩阵X的每一行进行去中心化处理，得到处理后的矩阵X_c；

去中心化的方式为：

X_cij为矩阵Xc的第i行j列元素，X_ij为向量矩阵X的第i行j列元素，k为降维后的维度，且是小于m的正整数。

A23、根据向量矩阵X和矩阵X_c计算协方差矩阵C；

其中，协方差矩阵C可以通过如下公式计算得到：

A24、利用特征值分解法求出矩阵C的特征值及对应的特征向量，将特征向量按照对应特征值的由大到小的顺序进行排列，得到单位特征向量，取前k列组成转换矩阵P∈R^m ^×k；k为小于m的正整数；

A25、利用转换矩阵P将向量矩阵X转换到k个特征向量构成的新空间，得到降维矩阵Y∈R^k×n，按列分离得到n个的k维语义向量。

其中，可以通过如下公式将向量矩阵X转换到k个特征向量：

Y＝P^TX

同理，基于上述步骤A21～A25，可以对各关系的语义向量进行降维，并将各关系降维后的语义向量作为各关系的关系向量。

本实施例中，采用主成分分析法将语义向量的维度由m维降维至k维，实现实体、关系向量的降维，既保留了高阶特征，防止深度神经网络出现过拟合现象，又提高了计算效率。

A3、将每一个实体在所述性能-故障关系图谱中的位置信息转换为布尔型向量，得到每一个实体的位置向量。

在本发明一个实施例中，本步骤A3可以包括：将所述性能-故障关系图谱中的所有实体按顺序(e₁,e₂,…e_n)进行排列，针对每一个实体，定义n维零向量为该实体的位置向量，若该实体与实体e_i存在关系，则该实体的位置向量中第i个元素置1，否则置为0；其中，i＝1，2，…，n；n为不小于3的整数。n为实体的总数量。

采用one-hot编码方式获得所有实体的位置向量，从而可以得到实体在性能-故障关系图谱中的全局位置信息。

A4、将各实体降维后的语义向量和对应的位置向量进行拼接，得到各实体的实体向量。

其中，该拼接方式可以将语义向量拼接在位置向量之后，也可以是将位置向量拼接在语义向量之后，也可以是其他拼接方式，但所有实体的拼接方式均采用统一拼接方式，以保证准确性。

本实施例中，既考虑了实体的语义信息，能让计算机理解其复杂的物理关系；又考虑到位置信息，避免因故障知识不完备而造成神经网络学习不充分。

需要说明的是，除上述步骤A1～A4的方式确定实体向量和关系向量之外，还可以直接将步骤A1得到的实体的语义向量作为实体向量，步骤A1得到的关系的语义向量作为关系向量，也可以将步骤A2中实体降维后的语义向量作为实体向量。

然后，针对步骤102和步骤104同时进行说明。

由于性能-故障关系图谱中实体间的关系复杂，推断路径繁多，与其他知识图谱不同的一点在于包含了概率路径，即根据物理意义，路径已预设选择不同节点的概率，而DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度算法)无法直接应用于概率路径，因此，为了能够将性能-故障关系图谱应用在DDPG中，在本发明实施例中，需要针对概率路径设置独特的状态判定机制，具体地：

针对性能-故障关系图谱中的各实体设置状态类别，状态类别包括：普通状态、终止状态和概率选择状态。其中，状态类别的设置可以通过标签来实现，比如，普通状态的标签为0，终止状态的标签为1，概率选择状态的标签与该实体在性能-故障关系图谱中预设的概率相同。

基于上述设置，可以将性能-故障关系图谱作为DDPG的环境，将性能-故障关系图谱中的实体作为状态，根据待诊断航天器的当前状态定位性能-故障关系图谱中具有相同状态的实体，定位的该实体作为初始状态，以确定DDPG所选择的最优动作。

具体地，在将性能-故障关系图谱作为DDPG的环境时，可以将性能-故障关系图谱转换为n×n维的环境矩阵E，其中，n为实体的总数量，将n个实体与u(u≥3)种关系按顺序排列，若实体i与实体j间存在关系q∈(0,u)，则将E_ij置为q，实体间无关系则置0，由此得到环境矩阵E。取性能-故障关系图谱中的实体作为当前状态S，关系作为DDPG选择的动作a，并得到当前状态对应实体的实体向量X。

本发明实施例中，确定当前实体的状态类别是否为终止状态，可以通过标签来确定，若标签为1，则为终止状态，否则，不是终止状态。若是终止状态，则表明已经找到航天器的故障原因。

在本发明一个实施例中，在根据当前实体的状态类别以及当前实体的实体向量确定所选择的最优动作时，具体可以包括：

确定当前实体的状态类别；

若当前实体的状态类别为概率选择状态，则根据概率选择状态所对应的预设概率确定所选择的最优动作；

若当前实体的状态类别为普通状态，则根据当前实体的实体向量和Actor当前网络预测所选择的最优动作。

相同的，可以通过标签来确定当前实体的状态类别，若标签处于(0,1)区间，则确定当前实体的状态类别为概率选择状态；若标签为0，则确定当前实体的状态类别为普通状态。

下面对当前实体的状态类别为概率选择状态和普通状态时，最优动作的确定方式分别进行说明。

一、当前实体的状态类别为普通状态。

本发明实施例中，根据当前实体的实体向量和Actor当前网络预测所选择的最优动作，具体可以包括如下步骤B1～B2：

B1、将当前实体的实体向量作为所述Actor当前网络的输入向量，利用所述Actor当前网络中每一层的激活函数和激活参数根据该输入向量逐个进行计算，得到所述Actor当前网络输出的动作预测向量；所述动作预测向量的元素位置与所述性能-故障关系图谱中的各个关系一一对应。

该Actor当前网络可以采用SPMLP(Semantic relation and PositionMultilayer Perceptron，语义特征和位置特征预测动作的多层感知机)模型。其中，该Actor当前网络可以包括输入层、多个隐含层和一个输出层。

具体地，B11、将当前实体的实体向量X作为输入层的输入向量，并将输入向量输入至第一个隐含层；

B12、针对第一个隐含层将输入向量的每个元素与第一个隐含层的权重θ₁分别相乘后求和，加上偏置值b₁后经过激活函数得到该层的输出h₁，激活函数f₁选用sigmoid函数，公式如下：

h₁＝f₁(θ₁X+b₁)

B13、将第一个隐含层的输出作为第二个隐含层的输入，重复上述步骤B12的计算过程，直到最后一个隐含层输出h_t；

h_t＝f_t(θ_th_t-1+b_t)

B14、将最后一个隐含层输出h_t作为输出层的输入向量，输出层的激活函数f_o可以选用softmax函数,可得到最后的输出动作预测向量A：

A＝f_o(θ_yh_t+b_y)

其中，θ_y为输出层的权重，b_y为输出层的偏置值。

本实施例中，动作预测向量的元素位置与所述性能-故障关系图谱中的各个关系一一对应。举例来说，性能-故障关系图谱中包括10种关系，即u＝10，那么动作预测向量为10*1的向量，动作预测向量中的每一个元素分别为对应相应关系的概率。

B2、将所述动作预测向量中最大概率的元素所对应的关系确定为所选择的最优动作。

比如，最大概率的元素为元素A_i，那么表明该元素所对应的关系为第i个关系，将该第i个关系作为最优动作。

需要说明的是，上述SPMLP是经过训练后得到的，因此，输出的动作预测向量中的最大概率的元素所对应的关系为该当前实体所包含关系中的其中一个。举例来说，与当前实体相连的连线为3个，对应的关系分别为关系2、关系5和关系6，那么动作预测向量中的最大概率的元素所对应的关系为关系2、关系5和关系6中的一种。

二、当前实体的状态类别为概率选择状态。

由于概率选择状态的标签与该当前实体在性能-故障关系图谱中预设的概率相同，那么在性能-故障关系图谱中找到该标签所指示概率对应的关系，将该关系作为最优动作。

无论当前实体的状态类别是普通状态还是概率选择状态，均可以针对当前实体确定所选择的最优动作。由于环境矩阵E是实体和关系的对应形式，因此可以通过环境矩阵E确定当前实体所选择最优动作所对应的下一个实体，也就是得到下一状态的实体。

如此，可以将下一状态的实体作为当前实体，继续执行步骤104，以逐个确定故障路径上的各实体，直到达到终止状态的实体。

进一步地，每次利用Actor当前网络预测最优动作时，为了保证预测结果的准确性，需要每次对Actor当前网络的激活参数进行更新，且更新频率为每确定一次最优动作，则需要对Actor当前网络的激活参数更新一次。

具体地，参数更新方式可以包括如下步骤C1～C3：

C1、根据当前实体的实体向量和所述最优动作的关系向量，利用Critic当前网络确定所述最优动作的动作价值；

本发明实施例中，Critic当前网络也可以采用多层感知机模型，其输入向量为当前实体的实体向量和最优动作的关系向量，输出为该最优动作的动作价值。其中，Critic当前网络的隐含层结构与Actor当前网络的隐含层结构相同，计算过程也可以相同，区别是Critic当前网络输出的动作价值为一个实数，输出层的激活函数采用Relu函数即可，网络参数为w。

需要说明的是，关系向量的获取方式在上述步骤A1～A2中已经进行了说明，在此不再赘述。

C2、根据所述最优动作的动作价值对所述Actor当前网络的激活参数进行更新；

C3、利用Actor目标网络根据下一状态的实体选择下一最优动作，以及利用Critic目标网络确定该下一最优动作的动作价值，根据所述最优动作的动作价值和该下一最优动作的动作价值对所述Critic当前网络的网络参数进行更新。

下面对步骤C2和C3中对Actor当前网络的激活参数和Critic当前网络的网络参数的更新同时说明，具体可以包括：

D1、设置Actor目标网络和Critic目标网络，其中，Actor目标网络的结构与Actor当前网络的结构相同，Critic目标网络的结构与Critic当前网络的结构相同；Actor目标网络用于根据下一状态的实体S’选择下一最优动作a’，Critic目标网络用于针对下一状态的实体S’输出下一最优动作a’的动作价值Q’(S,a’,w’)。

D2、基于每次循环得到的五元组所形成的五元组集合，采样得到多个样本；每次循环得到的五元组为{S,a,R,S’,a’}；其中，S为当前实体，a为当前实体选择的最优动作，R为当前实体对应的奖励，S’为下一状态的实体，a’为下一状态的实体选择的下一最优动作。

本发明实施例中，为了得到五元组，还需要基于性能-故障关系图谱中各实体的状态类别配置对应的奖励R。一个实现方式中，当实体的状态类别为终止状态时，可以配置其奖励为1，当实体的状态类别为其他状态(普通状态或概率选择状态)时，可以配置其奖励为0。

也就是说，每次针对当前实体确定了最优动作之后，则利用Actor目标网络针对下一状态的实体S’选择下一最优动作a’，如此可以得到五元组，将该五元组放入五元组集合中。其中，假设在五元组集合中采样p个样本，该p个样本为{S_j,a_j,R_j,S_j’,a_j’}，j＝0,1,2,…p。

那么，可以根据多个样本所对应的最优动作的动作价值计算所述Actor当前网络的损失函数，以通过梯度反向传播更新所述Actor当前网络的激活参数；具体地，Actor网络的损失函数为：

通过神经网络的梯度反向传播来更新Actor当前网络的所有激活参数θ。

同理，还可以根据多个样本所对应的最优动作的动作价值、下一最优动作的动作价值和奖励计算所述Critic当前网络的损失函数，以通过梯度反向传播更新所述Critic当前网络的网络参数；具体地，利用p个样本计算目标Q值Q_target：

Q_target＝R_j+γQ′(S_j′,a_j′；w′)

其中，γ为折扣因子，取值范围为(0,1)。

Critic网络的损失函数使用均方差误差表示：

通过神经网络的梯度反向传播来更新Critic当前网络的所有网络参数w。

可见，本发明实施例中，每次循环均对Actor当前网络和Critic当前网络进行参数更新，使得下一次循环能够利用更新后的Actor当前网络和Critic当前网络进行预测，从而可以提高最优动作的选择准确性，进而可以提高故障诊断结果的准确性。

更进一步地，由于需要利用Actor目标网络和Critic目标网络对Actor当前网络的激活参数和Critic当前网络的网络参数进行更新，因此，为了进一步提高Actor当前网络和Critic当前网络的参数更新准确性，还需要定期对Actor目标网络和Critic目标网络的参数进行更新。

具体地，可以预先设定更新频率，并根据设定的更新频率，对所述Actor目标网络的激活参数和所述Critic目标网络的网络参数进行更新。

具体地，可以利用如下公式对Actor目标网络的激活参数和所述Critic目标网络的网络参数进行更新：

w′←τw+(1-τ)w′

θ′←τθ+(1-τ)θ′

其中，τ为更新系数，一般取值较小，可以为0.1。

以上过程，可以实现航天器的故障诊断，得出故障原因。

如图2、图3所示，本发明实施例提供了一种基于性能-故障关系图谱的航天器故障诊断装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图2所示，为本发明实施例提供的一种基于性能-故障关系图谱的航天器故障诊断装置所在电子设备的一种硬件架构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图3所示，作为一个逻辑意义上的装置，是通过其所在电子设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种基于性能-故障关系图谱的航天器故障诊断装置，包括：

获取单元301，用于基于航天器的性能-故障关系图谱，获取各实体的实体向量；

实体确定单元302，用于将所述性能-故障关系图谱作为DDPG的环境，将所述性能-故障关系图谱中的实体作为状态，将所述性能-故障关系图谱中的关系作为DDPG选择的动作，以根据待诊断航天器的当前状态确定所述性能-故障关系图谱中相同状态的实体；

故障诊断单元303，用于根据预先针对所述性能-故障关系图谱中各实体设置的状态类别，确定当前实体的状态类别是否为终止状态，若否，则根据当前实体的状态类别以及当前实体的实体向量确定所选择的最优动作，根据所述最优动作得到下一状态的实体，将下一状态的实体作为当前实体循环执行本步骤；若是，则终止循环，并将当前实体确定为故障原因；所述状态类别包括：普通状态、终止状态和概率选择状态。

在本发明一个实施例中，所述故障诊断单元303在执行根据当前实体的状态类别以及当前实体的实体向量确定所选择的最优动作时，具体包括：

确定当前实体的状态类别；若当前实体的状态类别为概率选择状态，则根据概率选择状态所对应的预设概率确定所选择的最优动作；若当前实体的状态类别为普通状态，则根据当前实体的实体向量和Actor当前网络预测所选择的最优动作。

在本发明一个实施例中，所述故障诊断单元303在执行根据当前实体的实体向量和Actor当前网络预测所选择的最优动作时，具体包括：

将当前实体的实体向量作为所述Actor当前网络的输入向量，利用所述Actor当前网络中每一层的激活函数和激活参数根据该输入向量逐个进行计算，得到所述Actor当前网络输出的动作预测向量；所述动作预测向量的元素位置与所述性能-故障关系图谱中的各个关系一一对应；将所述动作预测向量中最大概率的元素所对应的关系确定为所选择的最优动作。

在本发明一个实施例中，所述获取单元301还用于基于航天器的性能-故障关系图谱，获取各关系的关系向量；

请参考图4，该装置还可以包括：

参数更新单元304，用于根据当前实体的实体向量和所述最优动作的关系向量，利用Critic当前网络确定所述最优动作的动作价值；根据所述最优动作的动作价值对所述Actor当前网络的激活参数进行更新；利用Actor目标网络根据下一状态的实体选择下一最优动作，以及利用Critic目标网络确定该下一最优动作的动作价值，根据所述最优动作的动作价值和该下一最优动作的动作价值对所述Critic当前网络的网络参数进行更新。

在本发明一个实施例中，所述参数更新单元304在执行根据所述最优动作的动作价值对所述Actor当前网络的激活参数进行更新时，具体包括：

基于每次循环得到的五元组所形成的五元组集合，采样得到多个样本；每次循环得到的五元组为{S,a,R,S’,a’}；其中，S为当前实体，a为当前实体选择的最优动作，R为当前实体对应的奖励，S’为下一状态的实体，a’为下一状态的实体选择的下一最优动作；根据多个样本所对应的最优动作的动作价值计算所述Actor当前网络的损失函数，以通过梯度反向传播更新所述Actor当前网络的激活参数。

在本发明一个实施例中，所述参数更新单元304在执行根据所述最优动作的动作价值和该下一最优动作的动作价值对所述Critic当前网络的网络参数进行更新时，具体包括：

基于每次循环得到的五元组所形成的五元组集合，采样得到多个样本；每次循环得到的五元组为{S,a,R,S’,a’}；其中，S为当前实体，a为当前实体选择的最优动作，R为当前实体对应的奖励，S’为下一状态的实体，a’为下一状态的实体选择的下一最优动作；根据多个样本所对应的最优动作的动作价值、下一最优动作的动作价值和奖励计算所述Critic当前网络的损失函数，以通过梯度反向传播更新所述Critic当前网络的网络参数。

在本发明一个实施例中，所述参数更新单元304还用于：根据设定的更新频率，对所述Actor目标网络的激活参数和所述Critic目标网络的网络参数进行更新。

在本发明一个实施例中，所述获取单元301具体用于：

利用TransE模型对所述性能-故障关系图谱中的三元组进行处理，提取各实体的语义特征，以得到各实体的语义向量；采用主成分分析法对各实体的语义向量进行降维；将每一个实体在所述性能-故障关系图谱中的位置信息转换为布尔型向量，得到每一个实体的位置向量；将各实体降维后的语义向量和对应的位置向量进行拼接，得到各实体的实体向量。

可以理解的是，本发明实施例示意的结构并不构成对一种基于性能-故障关系图谱的航天器故障诊断装置的具体限定。在本发明的另一些实施例中，一种基于性能-故障关系图谱的航天器故障诊断装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本发明任一实施例中的一种基于性能-故障关系图谱的航天器故障诊断方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，使所述处理器执行本发明任一实施例中的一种基于性能-故障关系图谱的航天器故障诊断方法。

具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

本发明实施例中，至少具有如下效果：

1、基于性能-故障关系图谱的深度强化学习实现故障推断，能够提高诊断速度与诊断准确率，具备可视化与可解释性，实现实时诊断与智能诊断。

2、对实体的特征描述不充分会导致神经网络训练效果差，本实施例提取了实体的语义特征和位置特征，将其拼接作为实体的实体向量，以作为DDPG中基于语义特征与位置特征预测动作的深度神经网络模型SPMLP的输入，SPMLP模型能针对性能-故障关系图谱的特点更好地拟合复杂的价值函数，提高故障诊断准确率。

3、航天器的性能-故障关系图谱中实体间关系复杂，推断路径繁多，与其他知识图谱不同的一点在于包含了概率路径，即根据物理意义，路径已预设选择不同节点的概率，DDPG无法直接应用于概率路径，本实施例针对概率路径设置了独特的状态判定机制，将状态分为普通状态、终止状态和概率选择状态，并设置状态类别的标签，到达概率选择状态时将根据概率路径中节点的选择概率做出下一状态的选择，寻得全局最优路径。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于性能-故障关系图谱的航天器故障诊断方法，其特征在于，包括：

基于航天器的性能-故障关系图谱，获取各实体的实体向量；

2.根据权利要求1所述的方法，其特征在于，所述根据当前实体的状态类别以及当前实体的实体向量确定所选择的最优动作，包括：

确定当前实体的状态类别；

3.根据权利要求2所述的方法，其特征在于，所述根据当前实体的实体向量和Actor当前网络预测所选择的最优动作，包括：

将当前实体的实体向量作为所述Actor当前网络的输入向量，利用所述Actor当前网络中每一层的激活函数和激活参数根据该输入向量逐个进行计算，得到所述Actor当前网络输出的动作预测向量；所述动作预测向量的元素位置与所述性能-故障关系图谱中的各个关系一一对应；

将所述动作预测向量中最大概率的元素所对应的关系确定为所选择的最优动作。

4.根据权利要求3所述的方法，其特征在于，

还包括：基于航天器的性能-故障关系图谱，获取各关系的关系向量；

在所述根据所述最优动作得到下一状态的实体之后，所述将下一状态的实体作为当前实体循环执行本步骤104之前，还包括：

根据当前实体的实体向量和所述最优动作的关系向量，利用Critic当前网络确定所述最优动作的动作价值；

根据所述最优动作的动作价值对所述Actor当前网络的激活参数进行更新；

利用Actor目标网络根据下一状态的实体选择下一最优动作，以及利用Critic目标网络确定该下一最优动作的动作价值，根据所述最优动作的动作价值和该下一最优动作的动作价值对所述Critic当前网络的网络参数进行更新。

5.根据权利要求4所述的方法，其特征在于，所述根据所述最优动作的动作价值对所述Actor当前网络的激活参数进行更新，包括：

基于每次循环得到的五元组所形成的五元组集合，采样得到多个样本；每次循环得到的五元组为{S,a,R,S’,a’}；其中，S为当前实体，a为当前实体选择的最优动作，R为当前实体对应的奖励，S’为下一状态的实体，a’为下一状态的实体选择的下一最优动作；

根据多个样本所对应的最优动作的动作价值计算所述Actor当前网络的损失函数，以通过梯度反向传播更新所述Actor当前网络的激活参数。

6.根据权利要求4所述的方法，其特征在于，

所述根据所述最优动作的动作价值和该下一最优动作的动作价值对所述Critic当前网络的网络参数进行更新，包括：

根据多个样本所对应的最优动作的动作价值、下一最优动作的动作价值和奖励计算所述Critic当前网络的损失函数，以通过梯度反向传播更新所述Critic当前网络的网络参数；

和/或，

还包括：根据设定的更新频率，对所述Actor目标网络的激活参数和所述Critic目标网络的网络参数进行更新。

7.根据权利要求1-6中任一所述的方法，其特征在于，所述基于航天器的性能-故障关系图谱，获取各实体的实体向量，包括：

利用TransE模型对所述性能-故障关系图谱中的三元组进行处理，提取各实体的语义特征，以得到各实体的语义向量；

采用主成分分析法对各实体的语义向量进行降维；

将每一个实体在所述性能-故障关系图谱中的位置信息转换为布尔型向量，得到每一个实体的位置向量；

将各实体降维后的语义向量和对应的位置向量进行拼接，得到各实体的实体向量。

8.一种基于性能-故障关系图谱的航天器故障诊断装置，其特征在于，包括：

9.一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项所述的方法。