CN118296371A - 一种水电站运行设备图表示数据集的构建方法 - Google Patents

一种水电站运行设备图表示数据集的构建方法 Download PDF

Info

Publication number
CN118296371A
CN118296371A CN202410292829.7A CN202410292829A CN118296371A CN 118296371 A CN118296371 A CN 118296371A CN 202410292829 A CN202410292829 A CN 202410292829A CN 118296371 A CN118296371 A CN 118296371A
Authority
CN
China
Prior art keywords
equipment
fault
time
data set
hydropower station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410292829.7A
Other languages
English (en)
Inventor
刘辉宇
姜志鹏
莫益军
苏航
刘雨萱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202410292829.7A priority Critical patent/CN118296371A/zh
Publication of CN118296371A publication Critical patent/CN118296371A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种水电站运行设备图表示数据集的构建方法,包括以下步骤:对水电站SCADA系统中设备运行原始数据进行筛选与预处理;对经过筛选与预处理的数据时间窗口切割与标注;构建设备运行数据。本发明利用故障时间窗口切割和故障数据字典映射的方式生成数据样本,充分融合了水电站设备自身的属性、时序特征和关联特征,弥补了现有水电站设备相关数据集的不足。本发明进一步采用权值采样和标签遮罩的方法,克服了现有技术存在的数据集样本不均衡的缺陷。本发明得到的高质量的水电站运行设备图表示数据集,为应用于水电站设备安全运行的人工智能技术表现优秀打下良好的基础。

Description

一种水电站运行设备图表示数据集的构建方法
技术领域
本发明涉及数据处理技术领域,尤其涉及到水电站运行设备图表示数据集的构建方法。
背景技术
随着经济的不断发展,水电站越来越多的被建立,同时水电站的发电系统和设备也愈发复杂,水电站对系统的稳定性与安全性需求不断提高。近些年来,随着深度学习和机器学习等人工智能技术的不断发展,这些方法在水电站设备的故障检测与态势感知问题上表现出不错的性能,但人工智能技术十分依赖于数据集,一个数据集的质量决定着人工智能技术表现得优劣。
现有的水电站设备运行安全研究中,使用的数据集来源主要有两种:一是设备运行时产生的振动信号,一种来自于SCADA(Supervisory Control And Data Acquisition,SCADA)系统,即数据采集与监视控制系统。
基于设备振动信号的数据集,在实际生产环境中采集到的信号往往含有大量的特征,需要根据分析实际环境来设计去除噪声的方法。现有去除噪声方法基本都是通过小波变换或者傅里叶变换等信号处理技术进行特征工程,从中提取频域特征作为数据集的输入向量,这种数据集可以有效表现不同样本的特征。但是,这种方式的执行成本大,而且去噪的同时会难以避免去除部分非噪声特征。此外,通过信号处理方式得到的特征只能表现单个设备在某一时刻下的特征,无法体现时序性与设备间的关联性。
基于SCADA系统采集到的设备运行数据,现有方法基本都是通过固定时间窗口划分时间序列,利用时间序列特征工程方法进行特征提取,这种方法充分考虑了时序性,在一些单设备故障预测任务中表现出不错的性能。基于SCADA系统采集设备运行数据的数据集,虽然考虑到了设备间的关联性,但在多设备多测定等复杂系统的预测任务中表现一般。
此外,大部分故障数据集的特点是故障类别不平衡,即正常样本数量远超过故障样本数量,或者不同故障类别出现的频率相差太大,而数据集类别不平衡会导致模型性能显著下降。
发明内容
本发明所要解决的技术问题是提供一种水电站运行设备图表示数据集的构建方法,弥补了上述现有的水电站运行设备图表示数据集的可用性不足。
为解决上述技术问题,本发明提供一种水电站运行设备图表示数据集的构建方法,包括以下步骤:
S1:对水电站SCADA系统中设备运行原始数据进行筛选与预处理,包括:首先整理所有设备的测点集合,测点发生故障的时间集合以及故障的类别集合,根据故障时间集合查询每一个时间段的所有设备测点的运行数据,清洗掉存在空值的样本,为图表示数据集的制作提供基础数据;
S2:对经过筛选与预处理的数据时间窗口切割与标注,包括:根据故障发生的时间段以及设置的时间窗口与步长,对设备运行数据时间窗口切割,并根据故障类别集合对该时间窗口对每一个设备测点进行故障标注,作为图表示数据集的基础样本;
S3:构建设备运行数据,包括:根据设备测点的自身属性、时序特征和关联特征,将数据集基础样本的时间窗口等距切割为多个子窗口,分别对这些子窗口做傅里叶变换提取频域特征;对相同设备的不同测点进行特征融合并根据设备的实际拓扑图转换为图的邻接矩阵,生成图表示数据集的最终样本。
进一步优化的,所述水电站运行设备图表示数据集的构建方法,在步骤S3之后,还包括步骤
S4:对图表示数据集的最终样本进行类别平衡处理,生成故障类别平衡并且附带标签遮罩标注的图表示数据集。
优选的,所述步骤S1具体包括以下步骤:
S11、收集所有运行设备测点的编号、名称、所属设备以及对应的各项监测指标,形成设备测点集合,查询每个设备在历史运行过程中发生的故障记录,提取每个测点的故障集合以及具体故障发生的时间点,形成故障时间集合,将各个故障分类标注及标准化编码,记录在故障类别集合中;
S12、遍历故障时间集合,根据每个时间点向设备运行历史数据库中查询相应时间周期内所有设备的运行监测数据,进行时间窗口对齐,如果存在某个测点缺乏数据,则将该样本剔除。
进一步的,所述步骤S2具体包括以下步骤:
S21、根据故障发生的时长和基础数据总窗口大小Wtotal确定切割时间窗口大小W和步长Step,根据切割窗口W和步长Step将初始窗口切割为N个子窗口,其中N满足Step+(W-Step)×(N-1)≤Wtotal
S22、从设备测点集合和故障时间集合中,提取某个测点和时间窗口内对应的故障记录,判断该测点在该时间窗口内是否真正发生了故障事件,如果有则对该测点此时间段的故障类型进行标注,最终将子窗口内测点的测量值转换成向量矩阵 xni表示在大小为i的时间戳中n个测点的观测值,故障类型所标注的类别转换为标签矩阵转换成向量矩阵Xi和与之对应的Yi作为图表示数据集的初始样本;
重复上述步骤S22的过程,将每个故障时间段下的所有子窗口转换为图表示数据集的初始样本。
进一步的,将每个故障时间段下的所有子窗口转换为图表示数据集的初始样本后,将同一Wtotal下的子窗口按照切割顺序排列,并作上标记表示该样本属于Wtotal时间段下的第i个子窗口。
所述步骤S3具体包括以下步骤:
S31、对于每一个设备测点的在某个时间窗口内的观测值,通过离散傅里叶变换将时间域序列转换为频域序列;
S32、构建各个设备测点的时序特征;
S33构建各个设备测点的关联特征,即根据各个设备间的实际关联关系,将水电站设备运行拓扑图转换为邻接矩阵。
进一步的,所述步骤S4具体包括以下步骤:
S41、根据故障类别统计图表示数据集的最终样本的样本数,计算每一个样本的采样权值;
S42、对通过权值采样的方式的得到的图表示数据集进行模型训练,在模型训练中对部分标签进行遮罩。
与现有技术相比,具有以下优点:
本发明提出的水电站运行设备图表示数据集的构建方法,利用故障时间窗口切割和故障数据字典映射的方式生成数据样本,充分融合了水电站设备自身的属性、时序特征和关联特征,弥补了现有水电站设备相关数据集的不足。
本发明采用对不同的类别样本进行权值采样的方法,克服了图表示数据集的数据样本的故障类别不均衡的缺陷;采用标签遮罩的训练模型,克服了图表示数据集的数据样本中正常样本过多的缺陷;从而克服了了现有技术存在的数据集样本不均衡的缺陷。
深度学习和机器学习等人工智能技术,在水电站设备的故障检测与态势感知问题上表现出不错的性能。而水电站运行设备图表示数据集,是水电站采用人工智能技术维护设备安全运行所十分依赖的基础数据。基于本发明得到的高质量的水电站运行设备图表示数据集,为应用于水电站设备安全运行的人工智能技术表现优秀打下良好的基础。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为测点时间窗口对齐图。
图2时间窗口切割与故障标注图。
图3某设备测点样本观测值折线图。
图4某设备测点样本观测值频域振幅折线图。
图5RNN时序特征融合图。
图6某水电站辅助设备运行拓扑图。
图7设备间拓扑关系表示图。
图8GCN特征融合图。
图9正常样本数据不平衡示例图。
图10label_mask原理图。
具体实施方式
水电站发电系统和运行设备是一个耦合的复杂非线性系统,其设备之间的关联关系极大程度的影响了每一个设备的运行态势,现有的针对水电站运行安全研究使用的数据集大多只考虑了每一个设备自身的属性和时序特征,没有考虑设备间之间的关联特征。并且由于故障的偶然性,使得故障样本相对于正常样本来说十分稀缺,从而导致数据集类别不平衡。因此,本发明提出了一种水电站设备运行数据的图表示数据集生成方法,在考虑每个设备自身属性和时序特征的同时,引入设备间的关联关系,让深度学习方法在对每一个样本进行特征重构时,也考虑与该样本关联的其他样本的特征。并且基于图表示数据集的特点,对不同的类别样本进行权值采样,最终确保数据集的类别平衡。
本发明提供的基于水电站设备运行数据的图表示数据集构建方法,包括以下主要步骤:
S1:对水电站SCADA系统中设备运行原始数据进行筛选与预处理。首先整理所有设备的测点集合,测点发生故障的时间集合以及故障的类别集合,根据故障时间集合查询每一个时间段的所有设备测点的运行数据,清洗掉存在空值的样本,为图表示数据集的制作提供基础数据。
S2:对经过筛选与预处理的数据时间窗口切割与标注。根据故障发生的时间段以及设置的时间窗口与步长,对设备运行数据时间窗口切割,并根据故障类别集合对该时间窗口对每一个设备测点进行故障标注,作为图表示数据集的基础样本。
S3:构建设备运行数据。考虑设备测点的自身属性、时序特征和关联特征,在数据集基础样本的时间窗口的基础下,将该时间窗口等距切割为多个子窗口,分别对这些子窗口做傅里叶变换提取频域特征;对同一设备下的不同测点进行特征融合并根据设备的实际拓扑图转换为图的邻接矩阵,生成图表示数据集的最终样本。
S4:图表示数据样本类别平衡,针对故障样本类别不平衡问题,统计不同故障类别的样本数,计算每一个样本的采样权值,针对正常样本过多问题,采取部分标签遮罩的方式在训练模型的时候忽略该样本的损失,最终生成故障类别平衡并且附带标签遮罩标注的图表示数据集。
步骤S1,对原始数据进行了筛选与预处理,为图表示数据集的制作提供基础数据,具体包括以下步骤:
S11收集所有运行设备测点的编号、名称、所属设备以及对应的各项监测指标(如压力、温度等),形成设备测点集合S1,查询每个设备在历史运行过程中发生的故障记录,提取每个测点的故障集合S2以及具体故障发生的时间点,形成故障时间集合S3,将各个故障分类标注及标准化编码,记录在故障类别集合中。S2、S1与S3部分数据样例如表1、表2和表3所示。
表1部分设备测点故障类别集合S2
故障名称 故障类别
压力油罐油位油压故障 1
机组压油装置系统电源故障 2
机组装置油泵故障 3
机组电调柜故障 4
表2部分设备测点集合S1
表3部分故障时间集合S3
起始时间 结束时间 测点编号 故障类别
2020/04/06 15:34:06 2020/04/06 15:45:14 12986101991 2
2021/03/08 23:52:46 2021/03/09 00:05:01 12986101991 1
S12遍历故障时间集合,根据每个时间点向设备运行历史数据库中查询相应时间周期内(如2小时)所有设备的运行监测数据,进行实间窗口对齐,如果存在某个测点缺乏数据,则将该样本剔除。最终生成的初始样本如图1所式,在大小为m的时间戳里n个测点的观测值,最后将这些值转换成一个n*m的向量矩阵作为图表示数据集的基础数据。
步骤S2,根据故障发生的时间段以及设置的时间窗口与步长,对设备运行数据时间窗口切割,并根据故障类别集合对该时间窗口对每一个设备测点进行故障标注,具体包括以下步骤:
S21、根据故障发生的时长和基础数据总窗口大小Wtotal确定切割时间窗口大小W和步长Step,考虑步长对特征冗余的影响,W不低于总窗口大小的5%,即W,步长Step为W的一半,这里Wtotal大小为120分钟,W大小10分钟,Step大小5分钟,根据切割窗口W和步长Step将初始窗口切割为N个子窗口,其中N满足Step+(W-Step)×(N-1)≤Wtotal
S22、结合图2所示,从设备测点集合和故障时间集合中,提取某个测点和时间窗口内对应的故障记录,判断该测点在该时间窗口内是否真正发生了故障事件,如果有则对该测点此时间段的故障类型进行标注,最终将子窗口内测点的测量值转换成向量矩阵 故障类型所标注的类别转换为标签矩阵转换成向量矩阵Xi和与之对应的Yi作为图表示数据集的初始样本,重复上述过程,将每个故障时间段下的所有子窗口转换为图表示数据集的初始样本,并将同一Wtotal下的子窗口按照切割顺序排列,并作上标记Label(Wtotali)表示该样本属于Wtotal时间段下的第i个子窗口。
步骤S3,对S2中得到的每个子窗口的向量矩阵Xi构建设备运行数据初始特征嵌入,并考虑设备测点的自身属性、时序特征和关联特征,具体包括以下步骤:
S31对于每一个设备测点的自身属性,依赖于设备测点在某个时间窗口内的观测值,对于每个子窗口的向量矩阵来说,Xi的每一行即表示该测点在此时间窗口内的观测值,对其进行特征抽取即表示为该设备测点的自身属性。对于时间序列类型的连续采样观察值,难以对序列时域特征进行定义与建模,通过离散傅里叶变换(DiscreteF ourier Transform,DFT)将时域特征转换为频域特征可以直观对其建模,离散傅里叶变换公式如下:
其中N是原始时间域长度,x[n]为采样的时间域序列,长度为n,X[k]为对应的频域序列,k表示频率点的个数,j是虚数单位。通过DFT即可将原本难以提取特征的时间域序列转换为频域序列,如图3所示,为水电站设备某测点在10分钟内的600个采样点,即为一个图表示数据集样本的观察值,通过可视化发现数据波形无规律,难以提取时域下的观测值特征,通过DFT后,将600个观测点转换为对应的频域振幅,如图4所示,频域特征规律直观可见,能有效表征每一个设备测点自身的属性。
最终所有图表示数据集中初始样本中的向量矩阵通过DFT后转换为频域向量矩阵
S32对于设备测点的时序特征构建,依赖与之前观测时间的观测值,即当实际任务中需要对当前时刻T0进行特征重构,需要考虑之前T-n,T-n+1,…,T-2,T-1时刻的观测值特征,根据S22中对每个初始样本的标记Label(Wtotali)可以满足时序特征的构建,S22中在一个大的时间窗口Wtotal中,按照子窗口W和步长Step将该时间窗口Wtotal划分N个子窗口,即W1,W2,…,WN-1,WN,当考虑时序特征时,通过重现同一个Wtotal下的所有子窗口,通过设置时序观测步长即可实现时序特征的构建,以下游任务时序特征构建常用的循环神经网络(Recurrent Neural Network,RNN)为例,如图5所示,从Wtotal下的所有子窗口中选取连续n个子窗口W1,W2,…,Wn,经过DFT之后,这些窗口的观测值转变为频域特征F1,F2,…,Fn,作为RNN的输入,H0,H1,…,Hn为RNN的隐藏层,对输入特征进行映射与重构,其中H0为初始参数,当H0与F1经过H1特征融合与重构之后会将H1的输出值传给
H2,和F2一起经过H2特征融合与重构之后传给H3,以此类推,最终对Fn时刻的观测值进行预测得到Y,可见,Fn时刻的特征已经融合了前面F1,F2,…,Fn-1的特征,充分展现了特征的时序性。
即根据初始样本的标记可以找到该样本前序时间的其他样本,从而进行时序特征融合与重构。
S33对于设备测点的关联特征构建,依赖设备间的实际关联关系,通过水电站设备运行拓扑图转换为邻接矩阵,如图6所示,某水电站辅助设备油系统的实际拓扑图,图中分别有压力油罐、集油槽、漏油槽、调速器和锁锭五个设备测点,其设备拓扑的关联关系如图7所示,依次给这五个设备编码0,1,2,3,4,将整个图转换为邻接矩阵为 并将Adj作为初始样本中的edge_index值存储。
引入了设备间的邻接矩阵后,在对某时刻某个设备测点进行特征重构时可以融合与之相连的设备测点的特征,体现设备关联特征,以下游任务中关联特征构建常用的图卷积网络(Graph Convolutional Network,GCN)为例,如图8所示,选取初始样本中某个样本X,其频域特征矩阵X和邻接矩阵edge_index转换为图数据,图中的每个结点表示X中某一行,即某个设备测点的频域特征向量,边则是与该设备相邻的所有设备的边。通过第一层GCN(GCN_Layer1)的时候,每个结点都会将自身结点与相邻的结点特征进行融合,经过激活函数ReLu后通过第二层GCN(GCN_Layer2),此时每个相邻的结点特征都融合了其他结点的特征,最终经过激活函数ReLu输出预测结果,可见,最终每个结点的特征都融合了与之关联的结点特征。
因此,根据图数据集本身的设备测点频域特征向量、标签和edge_index标签可以在实际下游任务中很好的获取设备测点的自身属性特征、时序特征和关联特征。
步骤S4,针对S3生成的图表示数据集样本中故障结点类别不平衡问题,对各类故障样本进行权值采样。针对样本结点中正常结点过多问题,对部分正常样本进行标签遮罩,具体包括以下步骤:
S41对于S3中生成的图表示数据集样本故障结点类别不平衡的问题,如表4所示,利用真实水电站数据生成的图表示数据集部分故障类别的数量对比。
表4某水电站设备图表示数据集部分故障类别数量
故障标签 故障名称 样本数量
1 压力油罐油位油压故障 10322
2 机组压油装置系统电源故障 30550
3 机组装置油泵故障 21478
4 机组电调柜故障 13200
从上表中可以看出,不同的故障的样本数量差别巨大,故障标签2的样本数量有30550条,但故障标签1的样本数量仅有10322,如果直接将该数据集直接用于下游任务,会导致模型更倾向于故障标签2的映射,使模型的性能下降。因此以低数量故障类别为基准,采用权值采样的方式对样本数量过多的故障类别进行均衡,故障标签i的权值wi=[Min(Setcount)/Counti],其中Counti表示故障标签结点在总样本中出现的数量,Setcount是所故障标签的数量的集合,Min()表示取最小值,对最后计算得到的值向下取整。得到所有标签的采样权值后进行采样,定义集合Stemp用于临时存储采样后各个故障标签在源数据集DataSet中的索引,对权值集合Sw中的每个权值wi,查询源数据集DataSet中标签为i的样本集合DataSeti,根据权值wi对集合DataSeti进行随机采样,获得采样样本的索引,将采样样本索引添加到集合Stemp中,最后将Stemp中的所有采样样本索引提取出来,按索引从源数据集DataSet中提取采样数据集,得到均衡后的数据集DataSet
根据上述方法将上文真实水电数据进行故障样本均衡后,各样本数量如表5所示,有效对故障样本数量进行了平衡。
表5样本均衡后部分故障类别数量
故障标签 故障名称 样本数量
1 压力油罐油位油压故障 10322
2 机组压油装置系统电源故障 15276
3 机组装置油泵故障 10739
4 机组电调柜故障 13200
S42针对S31中通过权值采样的方式的得到的图表示数据集,存在另一个问题,即设备测点正常状态结点过多,如图9所示,由于图表示数据集每一个样本是一张图数据,每个图中包含多个结点,每个结点都会有自己的故障标签,但大多情况下是一张图中只有一个结点是故障结点,其余结点都是正常状态结点,S31中为了保证故障样本平衡的同时必然会造成正常结点冗余,比如整个图表示数据集中共有N个样本,其中含有故障标签1的样本有K1个,K1≤N,含有故障标签2的样本有K2个,K2≤N,而每个样本中大多包含若干个正常标签的样本,假设为2N个,则在N比较大的情况下正常标签的样本数远超过故障标签1和故障标签2的数量,导致数据不平衡。
表6是真实水电站设备运行数据通过S1~S41方法生成图表示数据集的部分设备正常标签样本数量以及部分故障标签数量,可见正常标签数量远远超过故障标签数量。
表6某水电站设备图表示数据集部分类别数量
标签 名称 样本数量
1 压力油罐油位油压故障 10322
2 机组压油装置系统电源故障 15276
正常标签1 压力油罐 157173
正常标签2 调速器 156636
正常标签3 集油槽 155510
因为图表示数据集中一个样本表示一张图,含有多个结点,无法通过随机采样的方式进行数据平衡,因为这样也会舍弃大量的故障结点样本。这里采取标签遮罩的方式进行标注,如图10所示,通过对图表示数据集中的每个结点打上label_mask标签的方式,在下游任务中通过判断label_mask的值来决定当前结点是否需要计入损失,如果不计入损失相当于该结点没有参与模型的训练与拟合。例如图表示数据集每个样本包含6各结点,编号从0到5,经过模型的特征重构后输出得到每一个结点的预测标签output,通常情况再与真实标签true进行损失loss计算,反向传播对模型参数进行优化,但为了保证样本平衡,引入label_mask=[0,1,0,1,1,0],表示结点0、结点2和结点5是为了保证样本平衡而舍弃的结点,此时在计算损失loss时不考虑这三个结点,等价于将这些结点从样本中移除。
因此,为了保证图表示数据集中正常样本的数量均衡,按照正常样本的数据比例随机对样本增加一个label_mask标签,将不需要的结点置0,在下游任务计算损失时可以忽略掉这些结点,表7是上文表6中某水电站设备图表示数据集通过label_mask标签后统计最终有效的样本类别数量,可以发现不管是正常样本还是故障样本,数量都比较均衡。
表7 label_mask后部分类别数量
标签 名称 样本数量
1 压力油罐油位油压故障 10322
2 机组压油装置系统电源故障 15276
正常标签1 压力油罐 17787
正常标签2 调速器 16158
正常标签3 集油槽 16510
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种水电站运行设备图表示数据集的构建方法,其特征在于,包括以下步骤:
S1:对水电站SCADA系统中设备运行原始数据进行筛选与预处理,包括:首先整理所有设备的测点集合,测点发生故障的时间集合以及故障的类别集合,根据故障时间集合查询每一个时间段的所有设备测点的运行数据,清洗掉存在空值的样本,为图表示数据集的制作提供基础数据;
S2:对经过筛选与预处理的数据时间窗口切割与标注,包括:根据故障发生的时间段以及设置的时间窗口与步长,对设备运行数据时间窗口切割,并根据故障类别集合对该时间窗口对每一个设备测点进行故障标注,作为图表示数据集的基础样本;
S3:构建设备运行数据,包括:根据设备测点的自身属性、时序特征和关联特征,将数据集基础样本的时间窗口等距切割为多个子窗口,分别对这些子窗口做傅里叶变换提取频域特征;对相同设备的不同测点进行特征融合并根据设备的实际拓扑图转换为图的邻接矩阵,生成图表示数据集的最终样本。
2.根据权利要求1所述的水电站运行设备图表示数据集的构建方法,其特征在于,在所述步骤S3后,还包括步骤
S4:对图表示数据集的最终样本进行类别平衡处理,生成故障类别平衡并且附带标签遮罩标注的图表示数据集。
3.根据权利要求1或2所述的水电站运行设备图表示数据集的构建方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、收集所有运行设备测点的编号、名称、所属设备以及对应的各项监测指标,形成设备测点集合,查询每个设备在历史运行过程中发生的故障记录,提取每个测点的故障集合以及具体故障发生的时间点,形成故障时间集合,将各个故障分类标注及标准化编码,记录在故障类别集合中;
S12、遍历故障时间集合,根据每个时间点向设备运行历史数据库中查询相应时间周期内所有设备的运行监测数据,进行时间窗口对齐,如果存在某个测点缺乏数据,则将该样本剔除。
4.根据权利要求3所述的水电站运行设备图表示数据集的构建方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、根据故障发生的时长和基础数据总窗口大小Wtotal确定切割时间窗口大小W和步长Step,根据切割窗口W和步长Step将初始窗口切割为N个子窗口,其中N满足Step+(W-Step)×(N-1)≤Wtotal
S22、从设备测点集合和故障时间集合中,提取某个测点和时间窗口内对应的故障记录,判断该测点在该时间窗口内是否真正发生了故障事件,如果有则对该测点此时间段的故障类型进行标注,最终将子窗口内测点的测量值转换成向量矩阵xni表示在大小为i的时间戳中n个测点的观测值,故障类型所标注的类别转换为标签矩阵转换成向量矩阵Xi和与之对应的Yi作为图表示数据集的初始样本;
重复上述步骤S22的过程,将每个故障时间段下的所有子窗口转换为图表示数据集的初始样本。
5.根据权利要求4所述的水电站运行设备图表示数据集的构建方法,其特征在于,将每个故障时间段下的所有子窗口转换为图表示数据集的初始样本后,将同一Wtotal下的子窗口按照切割顺序排列,并作上标记Label(Wtotali)表示该样本属于Wtotal时间段下的第i个子窗口。
6.根据权利要求5所述的水电站运行设备图表示数据集的构建方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、对于每一个设备测点的在某个时间窗口内的观测值,通过离散傅里叶变换将时间域序列转换为频域序列;
S32、构建各个设备测点的时序特征;
S33构建各个设备测点的关联特征,即根据各个设备间的实际关联关系,将水电站设备运行拓扑图转换为邻接矩阵。
7.根据权利要求1或2所述的水电站运行设备图表示数据集的构建方法,其特征在于,所述步骤S4具体包括以下步骤:
S41、根据故障类别统计图表示数据集的最终样本的样本数,计算每一个样本的采样权值;
S42、对通过权值采样的方式的得到的图表示数据集进行模型训练,在模型训练中对部分标签进行遮罩。
CN202410292829.7A 2024-03-14 2024-03-14 一种水电站运行设备图表示数据集的构建方法 Pending CN118296371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410292829.7A CN118296371A (zh) 2024-03-14 2024-03-14 一种水电站运行设备图表示数据集的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410292829.7A CN118296371A (zh) 2024-03-14 2024-03-14 一种水电站运行设备图表示数据集的构建方法

Publications (1)

Publication Number Publication Date
CN118296371A true CN118296371A (zh) 2024-07-05

Family

ID=91675005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410292829.7A Pending CN118296371A (zh) 2024-03-14 2024-03-14 一种水电站运行设备图表示数据集的构建方法

Country Status (1)

Country Link
CN (1) CN118296371A (zh)

Similar Documents

Publication Publication Date Title
CN106019084B (zh) 基于配用电数据关联的中压配电网断线故障诊断方法
CN111768082A (zh) 一种基于大数据分析的电力设备状态评估方法
CN108647786B (zh) 基于深度卷积对抗神经网络的旋转机械在线故障监测方法
CN109858140B (zh) 一种基于信息熵离散型贝叶斯网络冷水机组故障诊断方法
CN112217674B (zh) 基于因果网络挖掘和图注意力网络的告警根因识别方法
CN113935562A (zh) 一种电力设备健康状况智能评级与自动预警方法
CN112415331B (zh) 基于多源故障信息的电网二次系统故障诊断方法
CN111898644B (zh) 一种无故障样本下航天液体发动机健康状态智能识别方法
CN112633098A (zh) 一种旋转机械故障诊断方法、系统及存储介质
CN112364928A (zh) 一种变电站故障数据诊断中的随机森林分类方法
CN103678886A (zh) 一种基于地面测试数据的卫星贝叶斯网络健康确定方法
CN113360555A (zh) 一种基于电网二次设备大数据的故障诊断分析方法及系统
CN114819315A (zh) 基于多参数融合健康因子和时间卷积神经网络的轴承退化趋势预测方法
CN111831857B (zh) 一种网络告警规则多维关联生成方法及系统
CN116611741B (zh) 基于风电设备的服役质量指数体系构建方法及系统
CN118296371A (zh) 一种水电站运行设备图表示数据集的构建方法
CN116664098A (zh) 一种光伏电站的异常检测方法及系统
CN113379279B (zh) 基于不完整数据的深度强化学习短期电压稳定性评估方法
CN115962944A (zh) 基于vmd的群智能采煤机截割部轴承故障实时诊断方法
CN116092525A (zh) 一种考虑时频域特征融合的电气设备状态声音识别方法
CN114755529A (zh) 一种基于深度学习的多特征融合单相接地故障类型辨识方法
Lin et al. A method of satellite network fault synthetic diagnosis based on C4. 5 algorithm and expert knowledge database
Xiaozhi et al. Fault diagnosis of rolling bearing based on wavelet packet transform and GA-Elman neural network
CN109506936A (zh) 基于流向图和非朴素贝叶斯推理的轴承故障程度识别方法
CN116298881B (zh) 基于通道注意力多模块lmmd的电信号电机健康预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination