CN114266297A

CN114266297A - 火电装备语义知识库、构建方法及零样本故障诊断方法

Info

Publication number: CN114266297A
Application number: CN202111535430.XA
Authority: CN
Inventors: 赵春晖; 付永鹏; 李宝学; 冯良骏; 赵健程; 汪嘉业; 张圣淼; 王一航; 姚家琪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-01

Abstract

本发明公开了一种火电装备语义知识库、构建方法及零样本故障诊断方法。本发明从火力发电过程总结的含有专家知识的故障诊断案例文本中提取故障的属性信息，编码为属性向量，结合案例对应的数据训练属性判别器，从而建立数据与故障案例属性间的映射，建一个“数据—属性—属性判别器”三元语义知识库，并以此解决高端火电装备的零样本故障诊断问题。本发明创新性地将专家知识和数据驱动的方法相结合，当新的故障发生时，应用属性判别器判断其属性，并编码为属性向量，从而基于故障模式之间共享的属性来确定故障模式，实现故障间知识的迁移与共享。本发明对于没有训练数据的故障有较好的诊断效果，很好地解决了高端火电装备中遇到的零样本故障诊断问题。

Description

火电装备语义知识库、构建方法及零样本故障诊断方法

技术领域

本发明属于火电装备故障诊断领域，尤其涉及火电装备语义知识库、构建方法及零样本故障诊断方法。

背景技术

随着我国经济的飞速发展，社会对于电力的需求日益增长，成为了我国国民经济中的支柱产业。未来二三十年，将是能源生产消费方式和能源结构调整变革的关键时期。但由于我国煤炭资源丰富，因此煤炭能源仍然是我国目前最主要的电力来源。据统计，截至2016年底，煤炭在我国一次能源消费结构中仍占60％以上。并且在较长时间内，我国以煤炭为主的生产现状不会发生改变。近年来,为了实现电力的可持续发展，火力发电行业积极开展结构调整,“上大压小”，以大容量、高参数、低能耗的超临界和超(超)临界机组取代高能耗小火电机组，基本形成了以超超临界机组为主体的电力能源结构。百万千瓦超超临界机组已经成为我国电力工业发展的代表性机组和主流方向。与常规火力发电装备相比较,百万千瓦超超临界机组具有许多特殊性,如单机容量大、热力参数高、系统规模庞大、参数耦合严重、非线性程度高、参数波动要求严格、安全可靠性要求高等，机组出现性能退化甚至故障是不可避免的，运行过程一旦发生重大故障将造成机组非停。因此对高端火电装备建立准确的故障诊断模型是十分必要的。

由于近些年故障诊断理论的发展和算力的提升，数据驱动的故障诊断方法被广泛地应用于故障诊断领域，建立基于数据的故障诊断模型而不依赖于任何复杂的领域知识，因而具有更强的泛化性。但以上方法非常依赖数据来进行建模，但在实际的工业生产过程中，故障模式的数据十分稀缺且难以获取，且具有明显的长尾分布特性，即少量的故障出现频次较高可以累积一些数据，而很多故障出现的频次很低甚至没有出现，没有其相应的训练数据。这限制了传统的数据驱动方法在实际过程中的应用。

在电厂生产过程中，往往积累了大量的包含专家知识的故障案例文本，然而当前这些具有“专家知识”的非结构化文本信息并没有得到充分地利用。因此一个切实可行的方法是将文本中关于各个故障模式的特征、属性由人工标注出来并将其向量化表示，建立从数据到属性之间的映射，使用故障属性而不是故障数据来确定故障类别。基于专家知识定义的属性可以被各个故障模式间共享，因此模型对于当前没有训练数据的故障模式也有很好的识别能力。

发明内容

本发明的目的在于针对现有火力发电故障诊断技术的不足，提供一种火电装备语义知识库、构建方法及零样本故障诊断方法。本发明根据火电厂生产过程中产生的专家知识文本提取故障模式的属性信息，建立一个高端火电装备的工业语义知识库。该方法利用已有数据的故障模式和语义知识库进行建模，创新性地通过“数据—属性—属性判别器”三元语义知识库将专家知识和数据驱动的方法相结合，将语义属性作为中介，基于故障模式之间共享的属性，获取故障数据与各个故障属性之间的映射关系，来获取对于没有训练数据的故障模式的识别能力，具有很好的可迁移性。

本发明的目的通过以下技术方案实现：

一种火电装备语义知识库构建方法，包括以下步骤：

收集原始故障案例，所述原始故障案例包括在高端火电装备工业历史运行中出现过和未在历史运行中出现过的故障案例，针对其中在历史运行中出现过的故障案例，每个故障案例采集若干对应的历史运行过程数据样本组成训练集。

对每个故障案例进行属性标注，每种属性的标注结果组成每个故障案例的属性语义向量，汇总所有故障案例的属性语义向量，得到火电装备语义知识库。

进一步地，所述故障诊断案例包含预警诊断单概要、预警点详情、测点趋势图、人员处理记录、趋势图及现场情况描述、原因分析、结论及措施等信息。

进一步地，所述属性包括与故障引发原因相关的操作类、故障产生后相关的操作类、设备类、介质类、和故障描述类及其他类的特征属性，所述属性采用二值编码，语义知识库矩阵表示为Z(L×d_a)，其中L表示总的案例个数，d_a表示属性的个数。

一种上述任一项所述方法构建获得的火电装备语义知识库。

一种基于上述火电装备语义知识库的零样本故障诊断方法，包括以下步骤：

(1)对每种属性建立属性判别器，再利用建立的火电装备语义知识库对训练集中的每个样本根据故障类别映射构建对应的属性语义向量，再利用样本的过程数据作为输入，样本属性语义向量中属性判别器对应属性的标注结果为标签，对每个属性判别器进行训练；其中，对于在所有样本中标注结果全部一致的属性，其属性判别器采用孤立森林、自编码器、OneClassSVM模型等，对于在所有样本中标注结果不全一致的属性，采用随机森林，朴素贝叶斯、LASSO模型等。

(2)故障诊断阶段，具体为：

将新采集的故障样本过程数据输入至每个属性判别器，每个属性判别器的输出结果组成新采集的故障样本对应的属性语义向量预测值，将属性语义向量预测值与建立的火电装备语义知识库中所有故障案例的属性语义向量进行相似度匹配，最相似的故障案例的故障类别作为该采集的故障样本的故障识别结果。

进一步地，所述步骤(1)具体为：

对每种属性建立属性判别器，再利用步骤(1.2)建立的火电装备语义知识库对训练集

中的每个样本构建属性语义向量

所有样本的属性语义向量构成语义向量矩阵A_s(N_s×d_a)；其中，

表示第i个样本，

表示第i个样本的故障类别，

表示第i个样本在语义知识库对应的语义向量索引，N_s为训练集样本数量，d_x为样本的过程变量数量。

其中，当语义向量矩阵的属性在样本上不是全为0或者全为1，即set(A_s(:,m))＝{0,1}，m∈{1≤m≤d_a且set(A_s(:,m))＝{0,1}}＝S_m，S_m表示标注属性不全一致的属性集合，则该属性的属性判别器采用LASSO回归，利用样本的过程数据作为输入，样本属性语义向量中属性判别器对应属性的标注结果作为标签，构造损失函数，采用坐标下降法进行优化训练。模型M_m损失函数L(w^m)如下：

其中，A_s(:,m)表示A_s矩阵的第m列数据，也即第m个语义属性，w^m为故障数据到故障属性的映射，||*||₁为一范数约束，λ为约束系数，||*||₂为二范数约束。

若语义向量矩阵的属性在样本上是全0或者全1，即A_s(:,h)＝0或A_s(:,h)＝1，h∈{1≤h≤d_a且set(A_s(:,m))＝{0}或{1}}＝s_h，S_h表示标注属性全一致的属性集合，其中，A_s(:,h)表示A_s矩阵的第h列数据(h≠m)，则该属性的属性判别器采用OneClassSVM利用样本的过程数据作为输入，构造损失函数进行优化训练，实现已知分布与未知分布的判别，针对第h个语义属性构造的模型M_h损失函数：

其中，x是测试样本，K(·)为核函数，ρ为常数，α_i表示第i个样本的权重，φ(·)为映射函数，sgn(*)是符号函数，n是负类数目，w^h表示属性映射矩阵。

进一步地，所述步骤(2)中，将新采集的故障样本过程数据输入至每个属性判别器，每个属性判别器的输出结果组成新采集的故障样本对应的属性语义向量预测值具体为：

设

为第i个新采集的故障样本的第j个属性的预测值，则，当j∈S_m时，有

当j∈S_h时

由此得到新的故障样本xⁱ的语义属性

w^j*为第j个属性判别器故障数据到故障属性的最优映射。

进一步地，所述步骤(2)中，将属性语义向量预测值与建立的火电装备语义知识库中所有故障案例的属性语义向量进行相似度匹配，最相似的故障案例的故障类别作为该采集的故障样本的故障识别结果具体为：

将属性语义向量预测值与建立的火电装备语义知识库中所有故障案例的属性语义向量进行相似度匹配，得到所述故障样本故障标签对应的语义向量索引indexⁱ：

根据步骤(1.3)中的映射规则，最终得到所述故障样本的故障标签yⁱ＝v(indexⁱ)，完成故障检测。

进一步地，所述步骤(2)中，若新采集的故障样本已被判定为未在历史运行中出现过的故障，则将新采集的故障样本过程数据输入至每个属性判别器，每个属性判别器的输出结果组成新采集的故障样本对应的属性语义向量预测值，将属性语义向量预测值与建立的火电装备语义知识库中未在历史运行中出现过的故障案例的属性语义向量进行相似度匹配，最相似的故障案例的故障类别作为该采集的故障样本的故障识别结果。

其中，新采集的故障样本可以通过其他故障检测方法判断是否为未在历史运行中出现过的故障。

传统的故障诊断方法是求解输入数据与故障模式之间的映射，但在零样本的场景下，模型未见过未见的测试样本，也就无法学到数据到未见类别的正确映射。与现有技术相比，本发明具有的有益效果至少包括：

提出了一种火电装备语义知识库、构建方法和基于语义知识库的故障诊断方法，通过语义知识作为中介，让模型学到数据到语义的映射，由于语义是对数据的抽象概括，具有更好的迁移性，所以当未见样本输入时，未见样本的属性预测值具有很高的可信度；得到未见样本的属性的预测值后，在火电装备语义知识库进行匹配检索，得到最终的故障分类结果。

附图说明

图1是本发明方法的案例图；

图2是本发明方法的流程图；

图3是仅使用LASSO回归的零样本诊断混淆矩阵图；

图4是本发明回归得到的零样本诊断混淆矩阵图；

具体实施方式

下面结合附图及具体实例，对本发明做进一步说明。

本发明的一种火电装备语义知识库构建方法，包括：

(一)收集原始故障案例，所述原始故障案例包括在高端火电装备工业历史运行中出现过和未在历史运行中出现过的故障案例，针对其中在高端火电装备工业历史运行出现过的故障案例，每个故障案例采集若干对应的历史运行过程数据样本作为训练集。示例性的，故障案例中包含预警诊断单概要、预警点详情、测点趋势图、人员处理记录、趋势图及现场情况描述、原因分析、结论及措施，如图1所示。

另外，作为一优选方案，可先将故障按照设备级进行归类，其中包括电气系统及燃机联合循环系统、发电机及电气系统、公用系统、锅炉系统、环化系统、汽轮机系统、燃气轮机系统、热工控制系统、天然气及增压机系统、余热锅炉系统等火力发电子系统。再按照每个系统所包含的子部件进行部件级分类，便于后续设备类属性标注；

训练集可以写作

其中

表示第i个可见样本(Seen sample)的过程数据，d_x表示数据

的维度，每个维度为一种过程变量的数据，

表示第i个可见样本的故障类别，N_s为训练集样本也即可见样本数量。可见样本指在历史数据中出现过的故障样本，可以用来训练故障分类模型；在设备的运行过程中，仍会不断出现新的故障，那些未在历史运行中出现过的故障，称之为未见样本，针对未见样本(Unseen sample)，类似地定义

故障类别

N_u为不可见样本数量。本发明的目标是通过语义知识库正确分类这些未见的故障样本，即实现零样本故障诊断。

(二)对每个故障案例进行属性标注，构建得到属性语义向量，汇总所有故障案例的属性语义向量，得到火电装备语义知识库。

具体地，所述属性是指高端火电装备工业故障的相关属性，将所有属性分为“操作类(因)”、“设备类”、“介质类”、“操作类(果)”、“故障描述类及其他类”五类，其中，“操作类(因)”属性通常表述为与故障引发原因相关的操作是否执行，“操作类(果)”属性通常表述为故障产生后相关操作是否执行，“设备类”属性通常表述为故障发生时设备是否异常，“介质类”属性通常表述为故障发生时介质是否异常，对于故障案例中上述类别的属性进行二值编码，用“0”代表不具备该属性，用“1”代表具备该属性，如“是否与动叶开度的零位有关”；对于“故障描述类及其他类”中的一些客观属性，故障案例描述该故障的客观属性时，如“发生在哪个季度”，可以分别将每个季度取出作为一个属性，分别描述为“是否发生在第1/2/3/4”季度并进行二值编码，最后每个故障案例的所有属性标注结果构成属性语义向量，汇总所有故障案例的属性语义向量，得到火电装备语义知识库矩阵Z(L×d_a)，其中L表示总的故障案例个数，d_a表示每个案例具有的属性个数，所有的案例共享相同的属性。本实施例所整理的案例个数为1036个，属性的维度是771维，因此最终得到1036×771维度的二维矩阵，下表1为本实施中的部分语义知识库矩阵示例。

表1.部分语义知识库矩阵示例

本发明的一种基于上述火电装备语义知识库的零样本故障诊断方法，如图2所示，包括：

(1)根据上述建立的火电装备语义知识库，对每个属性建立和训练属性判别器，具体地：

语义知识库的每一个案例对应了特定的故障，故障标签的顺序由人为设定，因此存在一个双向映射v，实现案例语义向量的索引与故障标签的一一映射，即有

和

这里

表示第i个可见样本故障标签对应的语义向量索引，即

表示可见故障样本

对应的语义向量；所有可见样本的语义向量构成语义向量矩阵A_s(N_s×d_a)。因此，针对可见样本集

利用

构造出新的训练集合

在该集合的基础上训练属性分类器。

(1.1)标注属性不全一致时属性判别器的建立：当语义向量矩阵的某些属性在可见样本上不是全为0或者全为1，即set(A_s(:,m))＝{0,1}，则随机森林，朴素贝叶斯、LASSO等对模型的属性进行预测，本实施例中采用LASSO回归对模型的属性进行预测。这里为每一个语义属性构造一个LASSO模型，针对第m个语义属性构造的模型M_m损失函数L(w^m)如公式(1)所示：

其中，A_s(:,m)表示A_s矩阵的第m列数据，也即第m个语义属性，w^m(1×d_x)为故障数据到故障属性的映射，即模型M_m的参数，||w^m||₁为一范数约束，λ为约束系数，||*||₂为二范数约束。

由于绝对值函数不可导，无法直接采用梯度下降法求解w^m。这里使用坐标下降法求解w^m，记最优的参数为

如公式(2)有：

表示第i个可见样本的第j维数据；

坐标下降法是对w^m的每一个维度k(k＝1,2,…,d_x)逐个进行优化，假设当前正沿着第k个维度做优化，对公式(4)求偏导有：

记

L表示公式(4)，

表示第i个可见样本的第k维数据，

为w^m的第k维数据，表示第m个属性在样本中第k维数据的加权系数，则公式(6)可写作：

令偏导等于0得到极值，于是有：

通过对p_k的值进行分类讨论，得到以下闭合解：

k个维度优化得到

组成

训练结束后，对于输入样本xⁱ的预测值

特别地，未见样本

的第m个语义属性的预测可以写作：

其中i＝1,2,…,N_u，m∈{1≤m≤d_a且set(A_s(:,m))＝{0,1}}＝S_m，S_m表示标注属性不全一致的属性集合。

(1.2)标注属性全部一致时属性判别器的建立：若语义向量矩阵的某些属性在可见样本上是全0或者全1，即A_s(:,h)＝0或A_s(:,h)＝1，其中，A_s(:,h)表示A_s矩阵的第h列数据(h≠m)，则无法为训练模型提供判别信息。当未见样本到来时，模型只会输出可见样本对应属性的值，即若可见样本的第h个语义描述都是0，则LASSO模型无论输入如何，都会输出0；反之模型输出恒为1。为了解决这一问题，本发明将这种情况下的属性预测问题转化为奇异点检测问题，使用孤立森林、自编码器、OneClassSVM等对未见样本进行判别，若未见样本属于奇异点，则未见样本的当前属性(语义)与合群点的属性不同；若未见样本属于合群点，则未见样本的当前属性与合群点属性一致。

不失一般性的，这里假设第h个语义描述在可见样本上都是0，即A_s(:,h)＝0，则M_h不选用LASSO模型，本实施例选用OneClassSVM模型。于是，针对第h个语义属性构造的模型M_h损失函数如公式11所示：

其中，z是异常分数，ζ_i表示松弛变量，ρ为常数，φ(·)为变换后的特征空间。n是负类数目，w^h表示属性映射矩阵。

最终确定函数的形式为：

其中x是测试样本，K(·)为核函数，α_i表示第i个样本的权重，OneClassSVM模型创建了参数为w^h,ρ的超平面，该超平面与特征空间中的零点距离最大，并且将零点与所有的数据分隔开。当OneClassSVM模型认为输入预测样本为未见样本

是合群点时，即

则反映了

与训练数据X_s具有相似的数据特性，因此自然地将

赋值为A_s(:,h)的取值；当模型认为输入未见样本

是离群点时，即

则反映出

与训练数据X_s具有不同的数据特性，所以将

赋值为不同于A_s(:,h)的取值。当预测样本为可见样本时，其与训练数据X_s具有相似的数据特性，OneClassSVM模型会认为可见样本为合群点，即

由于每个属性的取值非0即1，故最终可以写作：

其中，xⁱ是第i个预测样本，h∈{1≤h≤d_a且set(A_s(:,m))＝{0}或{1}}＝S_h，S_h表示标注属性全一致的属性集合。针对A_s的每一列属性构造属性预测模型，最终得到

属性预测模型集。

(2)零样本故障诊断阶段，包括以下子步骤：

(2.1)利用属性判别器，对故障数据的属性进行预测：

对于新采集的故障样本即预测样本xⁱ，利用步骤(1.3)建立的属性判别器进行属性预测。设

为第i个预测样本的第j个属性的预测值，当j∈S_m时，有

当j∈S_h时

由此得到新的故障样本xⁱ的语义属性

(2.2)将预测属性和故障案例进行匹配：得到新的故障样本的属性预测值

后，需要利用语义空间到标签空间的映射v得到故障样本的故障类别

这一过程通过属性预测值与语义知识库矩阵z(L×d_a)最大相似度匹配得到，即：

特别地，对于故障样本为未见样本的情形，由于语义知识库矩阵中包含了没有样本的故障案例的属性语义向量，而语义向量与故障标签的映射v是已知的，最终通过最大相似度匹配也能得到未见样本的故障标签

完成未知故障属性到故障案例的匹配。

进一步地，对于已知为未在历史运行中出现过的故障样本，则直接将属性语义向量预测值与建立的火电装备语义知识库中未在历史运行中出现过的故障案例的属性语义向量进行相似度匹配，具体如下：

其中，L_u为建立的火电装备语义知识库中未在历史运行中出现过的故障案例数量，最相似的故障案例的故障类别作为该采集的故障样本的故障识别结果。

选取部分与语义知识库的描述有对应的过程运行数据进行算法验证。数据包含430个过程变量，变量涵盖磨煤机、送风机、一次风机和引风机等设备，测点涉及温度、压力、水位、流速、开度、振动等信号。故障共有9种类别(故障标签为0,1,2…,8)，为了验证算法对未见样本诊断的有效性，将故障数据随机划分为训练集和测试集，训练集作为已见样本训练属性分类器，测试集模拟在线应用时出现的未见样本，用来检验属性分类器的泛化性能，本发明在表1所示的6种划分上进行实验。

表2.故障的训练、测试样本划分

不同分组下故障的分类精度如表3所示。在不同分组下，所提发明的平均分类精度最低为61.27％，最高为80.36％。均远远高于随机分类概率的33.33％，且效果好于仅使用LASSO回归，证明了OneClassSVM的有效性及必要性。

表3.不同分组下故障分类精度％

图3展示了仅使用LASSO回归在分组Ⅰ和Ⅵ下的混淆矩阵，图4展示了所提发明在分组Ⅰ和Ⅵ下的混淆矩阵。通过对比可以看出，对于分组Ⅰ使用OneClassSVM策略能够让第一类故障的分类精度提高4％，对于分组ⅡOneClassSVM策略的引入使得第二类故障的分类精度提高了16％。

本发明不止局限于上述实例的基于属性的火电设备零样本故障诊断领域，凡是熟悉本领域的技术人员在不违背本发明的前提下还可以做出等同变型或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种火电装备语义知识库构建方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述故障诊断案例包含预警诊断单概要、预警点详情、测点趋势图、人员处理记录、趋势图及现场情况描述、原因分析、结论及措施等信息。

3.如权利要求1所述的方法，其特征在于，所述属性包括与故障引发原因相关的操作类、故障产生后相关的操作类、设备类、介质类、和故障描述类及其他类的特征属性，所述属性采用二值编码，语义知识库矩阵表示为Z(L×d_a)，其中L表示总的案例个数，d_a表示属性的个数。

4.一种权利要求1-3任一项所述方法构建获得的火电装备语义知识库。

5.一种基于权利要求4所述火电装备语义知识库的零样本故障诊断方法，其特征在于，包括以下步骤：

(2)故障诊断阶段，具体为：

6.如权利要求5所述的方法，其特征在于，所述步骤(1)具体为：

中的每个样本构建属性语义向量

表示第i个样本，

表示第i个样本的故障类别，

其中，当语义向量矩阵的属性在样本上不是全为0或者全为1，即set(A_s(：，m))={0,1}，m∈{1≤m≤d_a且set(A_s(:,m))＝{0,1}}＝S_m，S_m表示标注属性不全一致的属性集合，则该属性的属性判别器采用LASSO回归，利用样本的过程数据作为输入，样本属性语义向量中属性判别器对应属性的标注结果作为标签，构造损失函数，采用坐标下降法进行优化训练。模型M_m损失函数L(w^m)如下：

7.如权利要求6所述的方法，其特征在于，所述步骤(2)中，将新采集的故障样本过程数据输入至每个属性判别器，每个属性判别器的输出结果组成新采集的故障样本对应的属性语义向量预测值具体为：

设

当j∈S_h时

由此得到新的故障样本xⁱ的语义属性

w^j*为第j个属性判别器故障数据到故障属性的最优映射。

8.如权利要求7所述的方法，其特征在于，所述步骤(2)中，将属性语义向量预测值与建立的火电装备语义知识库中所有故障案例的属性语义向量进行相似度匹配，最相似的故障案例的故障类别作为该采集的故障样本的故障识别结果具体为：

根据步骤(1)中的映射规则，最终得到所述故障样本的故障标签yⁱ＝v(indexⁱ)，完成故障检测。

9.如权利要求5所述的方法，其特征在于，所述步骤(2)中，若新采集的故障样本已被判定为未在历史运行中出现过的故障，则将新采集的故障样本过程数据输入至每个属性判别器，每个属性判别器的输出结果组成新采集的故障样本对应的属性语义向量预测值，将属性语义向量预测值与建立的火电装备语义知识库中未在历史运行中出现过的故障案例的属性语义向量进行相似度匹配，最相似的故障案例的故障类别作为该采集的故障样本的故障识别结果。