CN116956073B - 一种基于相似性原理的模拟故障样本生成方法 - Google Patents

一种基于相似性原理的模拟故障样本生成方法 Download PDF

Info

Publication number
CN116956073B
CN116956073B CN202311191943.2A CN202311191943A CN116956073B CN 116956073 B CN116956073 B CN 116956073B CN 202311191943 A CN202311191943 A CN 202311191943A CN 116956073 B CN116956073 B CN 116956073B
Authority
CN
China
Prior art keywords
sample
data
fault
simulated
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311191943.2A
Other languages
English (en)
Other versions
CN116956073A (zh
Inventor
宋晶辉
黄正海
司汉松
谭鋆
刘�东
冉应兵
戴瑞景
曹慧明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Yangtze Power Co Ltd
Original Assignee
China Yangtze Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Yangtze Power Co Ltd filed Critical China Yangtze Power Co Ltd
Priority to CN202311191943.2A priority Critical patent/CN116956073B/zh
Publication of CN116956073A publication Critical patent/CN116956073A/zh
Application granted granted Critical
Publication of CN116956073B publication Critical patent/CN116956073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于相似性原理的模拟故障样本生成方法,包括以下步骤:Step1、创建基样本;Step2、根据故障需求调整基样本;Step3、使用基于相似性算法SBM和调整后的基样本,生成趋势一致的模拟样本;Step4、计算真实数据样本和初步模拟故障样本的数据特征;Step5、基于Step4计算的数据特征,根据阈值选择最终的模拟故障样本。由于只需要保存基样本,能够极大地降低生成成本,既不需要过度依赖生成规则,也不需要对模型进行大量训练;此外,通过相似度原理计算出的模拟样本,能够生成不同程度的“模拟故障样本”;其数值的趋势相比人工调整或回归生成方法生成,更加真实,而且可以通过“调整基样本”的方式获取不同程度故障的模拟样本数据。

Description

一种基于相似性原理的模拟故障样本生成方法
技术领域
本发明涉及水电故障模拟技术领域,具体涉及一种基于相似性原理的模拟故障样本生成方法。
背景技术
水电行业中,一些问题的诊断,算法开发后的验证,需要一定故障样本数据的支撑。但因有集控系统和现场人员的维护,机组出现故障的情况较少,数据库中故障数据也较少。如何模拟出更“真实的故障数据”成为待解决的需求。
当前故障样本模拟生成方法一般为人工手动调整,或回归算法生成。其中,人工手动调整的方法通常为:根据规则将传感器返回的数据整体调整,如将振摆类测点的数据整体调高30um,用于模拟轴承松动情况。这种方法不能很好的映射机组设备间的运行规律,因为当机组出现故障时,各设备间的运行数据应呈一定比例变化。使用回归算法调整的方法:使用回归算法学习故障样本的数据,即可生成故障样本规律的数据。但回归算法存在如下问题:1. 精度失调问题,即在对目标测点的样本生成中,因为训练样本的关系,很容易陷入“预测值误差最小”的情况,即预测值为恒定不变的直线。2. 回归算法同样不能正确反应目标设备的运行趋势。因此,亟需一种适用于水电行业设备数据的模拟故障样本的生成方法。
发明内容
本发明所要解决的技术问题是提供一种基于相似性原理的模拟故障样本生成方法,首先创建基样本和需模拟的样本的健康数据;然后通过调整基样本,使用基于相似性原理的算法Similarity-based Modeling,即SBM算法生成基于健康样本的模拟故障样本,能够解决目前回归算法精度失调和不能正确反应目标设备运行趋势的问题。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于相似性原理的模拟故障样本生成方法,包括以下步骤:
Step1、创建基样本;
Step2、根据故障需求调整基样本;
Step3、使用基于相似性算法SBM和调整后的基样本,生成趋势一致的模拟样本;
Step4、计算真实数据样本和初步模拟故障样本的数据特征,包括数据基本价值、趋势斜率、数据偏斜度以及数据峰度;
Step5、基于Step4计算的数据特征,采用改进的时间序列特征相似度算法计算真实数据样本和初步模拟故障样本的相似度,根据阈值选择最终的模拟故障样本。
上述的Step1具体步骤为:
Step1.1、确定需要生成模拟样本的目标设备,获取目标设备最近运行周期的数据D;
Step1.2、进行数据筛选;具体为筛选机组稳态运行的数据,并根据3sigma法则筛选数据的异常值;
Step1.3、样本降频;将样本降频为每3小时1条数据,即为在3小时内仅保留一条数据,保留方式选择均值保留。
上述的Step3包括:
输入当前目标设备的运行数据X obs 和基样本D,计算公式如下:
其中,D为Step2中调整后的基样本,W为权值向量,X obs 为当前目标设备的运行数据,D T D的转置矩阵,X est 即为计算得到的模拟样本数据。
上述的Step4步骤之前还包括:
使用STL算法对真实数据样本和初步模拟故障样本进行时间序列分析,公式如下:
其中,ba t 、tr t 、seas s,t 、res t 分别为基础、趋势、季节和剩余成分。
上述的Step5的具体步骤为:
Step5.1、定义并计算特征四分位间距和缩放因子特征fs
针对每个数据特征F计算四分位间距:IQR(F)=Q3(F)-Q1(F),其中Q1(F)是下四分位数的值,Q3(F)为上四分位数;median(F)为特征F均值;
计算缩放因子特征:fs=(f(xi) -lower(F))/(upper(F) -lower(F));
Step5.2、基于每个数据特征k∈F计算两个时间序列xi和xj的相似度,其中xi为真实数据样本中任一条样本,xj为初步模拟故障样本任一条样本:
Step5.3、根据预设阈值筛选得到最终模拟故障样本:
p≤dk(xi,xj)≤q for all k (1 ≤ k ≤ F)
其中,结合水电设备故障数据的规律,定义一个上下误差阈值p和q;如果每个基于特征的间距都在这些误差阈值内,则认为真实数据样本xi和初步模拟故障样本xj是相似的,将该模拟故障样本xj保留。
本发明提供的一种基于相似性原理的模拟故障样本生成方法,具有如下有益效果:
现有技术中人工调整的方法过度依赖设置的规则,如规则设置不好,则生成的样本容易失真,而回归算法需对模型进行训练,耗时较长;采用本申请上述模拟故障样本生成方法,由于只需要保存基样本,能够极大地降低生成成本,既不需要过度依赖生成规则,也不需要对模型进行大量训练;此外,通过相似度原理计算出的模拟样本,能够生成不同程度的“模拟故障样本”;其数值的趋势相比人工调整或回归生成方法生成,更加真实,而且可以通过“调整基样本”的方式获取不同程度故障的模拟样本数据。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明的流程图;
图2为实施例中回归算法GBDT在模拟样本生成中的表现示意图;
图3为实施例中SBM在模拟样本生成中的表现示意图。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案。
图1给出了本申请模拟故障样本生成流程,如图1中所示,一种基于相似性原理的模拟故障样本生成方法,包括如下步骤:
一种基于相似性原理的模拟故障样本生成方法,包括以下步骤:
Step1、创建基样本;
Step2、根据故障需求调整基样本;
Step3、使用基于相似性算法SBM和调整后的基样本,生成趋势一致的模拟样本;
Step4、计算真实数据样本和初步模拟故障样本的数据特征,包括数据基本价值、趋势斜率、数据偏斜度以及数据峰度;
Step5、基于Step4计算的数据特征,采用改进的时间序列特征相似度算法计算真实数据样本和初步模拟故障样本的相似度,根据阈值选择最终的模拟故障样本。
上述的Step1具体步骤为:
Step1.1、确定需要生成模拟样本的目标设备,获取目标设备最近运行周期的数据D;
Step1.2、进行数据筛选;具体为筛选机组稳态运行的数据,并根据3sigma法则筛选数据的异常值;
Step1.3、样本降频;将样本降频为每3小时1条数据,即为在3小时内仅保留一条数据,保留方式选择均值保留。
上述的Step3包括:
输入当前目标设备的运行数据X obs 和基样本D,计算公式如下:
其中,D为Step2中调整后的基样本,W为权值向量,X obs 为当前目标设备的运行数据,D T D的转置矩阵,X est 即为计算得到的模拟样本数据。
上述的Step4步骤之前还包括:
使用STL算法对真实数据样本和初步模拟故障样本进行时间序列分析,公式如下:
其中,ba t 、tr t 、seas s,t 、res t 分别为基础、趋势、季节和剩余成分。
上述的Step5的具体步骤为:
Step5.1、定义并计算特征四分位间距和缩放因子特征fs
针对每个数据特征F计算四分位间距:IQR(F)=Q3(F)-Q1(F),其中Q1(F)是下四分位数的值,Q3(F)为上四分位数;median(F)为特征F均值;
计算缩放因子特征:fs=(f(xi) -lower(F))/(upper(F)-lower(F));
Step5.2、基于每个数据特征k∈F计算两个时间序列xi和xj的相似度,其中xi为真实数据样本中任一条样本,xj为初步模拟故障样本任一条样本:
Step5.3、根据预设阈值筛选得到最终模拟故障样本:
p≤dk(xi,xj)≤q for all k (1 ≤ k ≤ F)
其中,结合水电设备故障数据的规律,定义一个上下误差阈值p和q;如果每个基于特征的间距都在这些误差阈值内,则认为真实数据样本xi和初步模拟故障样本xj是相似的,将该模拟故障样本xj保留。
实施例:
基于相似性原理的模拟故障样本生成方法,包括步骤S1-S3:
步骤S1、创建基样本;因为是生成“故障样本”,所以对基样本的精准度要求不高,具体创建方式为:
确定目标设备,即需要生成模拟样本的设备,获取目标设备最近运行周期的数据D,如上次检修至今的数据,或近一年的数据;如针对“导油槽漏油场景生成故障样本,选取目标设备的相关测点:有功功率、水头、机组转速、进水温度、出水温度、尾水管出水温度、导油槽油温、瓦温、油位”;导油槽油温在本实施例中有4个,瓦温在本实施例中有12个;
进行数据筛选,具体的为筛选机组稳态运行的数据,并根据3sigma法则筛选数据的异常值;
样本降频,将样本降频为每3小时1条数据,即为在3小时内仅保留一条数据,保留方式选择均值保留,最终生成的样本为23列、1800行,23列数据对应23个测点;
步骤S2、根据故障需求调整基样本:
以导油槽漏油这一故障场景为例,当油槽漏油时,油位检测数据持续降低,需要生成偏低的油位数据;在本例中,漏油时超过15mm认定为异常,所以先对基样本的油位测点数据整体减5,其余测点保持不变;例如需要生成的模拟样本1-3号测点数值升高,4-6号测点数值降低,只需将基样本的1-3号测点数值整体调高,4-6号测点数值整体调低即可;
步骤S3、使用SBM算法和调整后的基样本,生成趋势一致的模拟样本:
SBM是一种非参数建模方法,其原理为输入当前目标设备的运行数据X obs 和基样本D
其中,D为Step2中调整后的基样本,W为权值向量,X obs 为当前目标设备的运行数据,D T D的转置矩阵,X est 即为计算得到的模拟样本数据。
步骤S4、计算真实数据样本和初步模拟故障样本的数据特征,包括数据基本价值、趋势斜率、数据偏斜度、数据峰度;
由于水电设备数据可以抽象为时间序列数据,因此时间序列是水电设备故障样本数据组成部分的组合:
其中,ba t 、tr t 、seas s,t 、res t 分别为基础、趋势、季节和剩余成分。
分解技术从时间序列中提取这些成分,知道季节长度后,它将非唯一划分为趋势、季节和残差,可进一步用于成分分析,STL是一种广泛应用的分解技术,本申请采用STL算法对待生成模拟样本的水电设备真实数据进行分解,用于后续的数据特征的计算:
1、基本价值;基本值是时间序列的总体平均值。我们将此特征称为θ1,使得:
θ1(xt)=ba1
2、趋势斜率;趋势斜率是时间序列的总体增加或减少;为了将趋势斜率表示为一个特征,我们假设线性增加,使得:
θ2(xt)= tr2- tr1
其中,tr2和tr1为相邻时间点的数据值;
3、偏斜度;偏斜度表示均值周围残差的不对称程度,定义为:
偏斜范围在0左右:偏斜=0意味着残差是对称的;如果偏斜<0,则分布的左尾部较长,即残差向左偏斜;如果偏斜>0,则右尾部较长,即残差向右偏斜;公式中m为数据平均值;
4、峰度:峰度表示相对于正态分布的概率密度函数的平稳性或平坦性,定义了Pearson峰度的估计量:
峰度值范围约为3:kurt=3意味着残差的分布与正态分布一样平坦,即残差分布的尾部和正态分布的尾部一样薄;如果kurt<3,则分布具有更强的峰值和更薄的尾部;如果kurt>3,则分布更加平坦,并且具有较厚的尾部;公式中m为数据平均值。
步骤S5、基于S4计算的数据特征,采用改进的时间序列特征相似度算法计算真实数据样本和初步模拟故障样本的相似度,根据阈值选择最终的模拟故障样本;
为了比较生成的数据样本和真实数据集的相关特征,我们提出了一种基于特征的相似性度量,它在某种程度上包含了标准的相似性度量:确定性特征涵盖了时间序列的原始值形状,而随机特征代表了直方图和自相关;此外,它能够表达定义相似性期望的误差阈值;为了提供一种表征误差阈值的方法,必须将特征缩放到公共范围;该范围必须满足:(1)标准化不同特征的值范围;(2)与最频繁的特征值相比,减少异常值的影响;因此,本申请定义了四分位间距IQR和缩放因子特征fs
Q1(F)是下四分位数的值,Q3(F)为上四分位数;IQR(F)=Q3(F)-Q1(F)为四分位间距:
则缩放因子特征fs定义如下:
fs=(f(xi) -lower(F))/(upper(F) -lower(F))
其中f是将时间序列映射到主要在0和1之间的特征值的缩放特征;
基于每个数据特征k∈F计算两个时间序列xi和xj的相似度,其中xi为真实数据样本中任一条样本,xj为初步模拟故障样本任一条样本:
根据预设阈值筛选得到最终模拟故障样本:
p≤dk(xi,xj)≤q for all k (1 ≤ k ≤ F)
其中,结合水电设备故障数据的规律,定义一个上下误差阈值p和q;如果每个基于特征的间距都在这些误差阈值内,则认为真实数据样本xi和初步模拟故障样本xj是相似的,将该模拟故障样本xj保留。
生成后的油位数据如下,在保持了趋势一致的情况下,达到了模拟故障的效果,如图2和3所示,predicted 16号机推力油槽平均值为油位传感器数据,数据经过了平滑处理,true 16号机推力油槽油位平均值为生成的模拟数据。

Claims (3)

1.一种基于相似性原理的模拟故障样本生成方法,其特征是,包括以下步骤:
Step1、创建基样本;
Step2、根据故障需求调整基样本;
Step1.1、确定需要生成模拟样本的目标设备,获取目标设备最近运行周期的数据D;Step1.2、进行数据筛选;具体为筛选机组稳态运行的数据,并根据3sigma法则筛选数据的异常值;
Step1.3、样本降频;将样本降频为每3小时1条数据,即为在3小时内仅保留一条数据,保留方式选择均值保留;
Step3、使用基于相似性算法SBM和调整后的基样本,生成初步模拟故障样本;
Step4、计算真实数据样本和初步模拟故障样本的数据特征,包括数据基本价值、趋势斜率、数据偏斜度以及数据峰度;
Step5、基于Step4计算的数据特征,采用改进的时间序列特征相似度算法计算真实数据样本和初步模拟故障样本的相似度,根据阈值选择最终的模拟故障样本;
Step5.1、定义并计算特征四分位间距和缩放因子特征f s
针对每个数据特征F计算四分位间距:IQR(F)=Q3(F)-Q1(F),其中Q1(F)是下四分位数的值,Q3(F)为上四分位数;median(F)为特征F均值;
计算缩放因子特征:f s=(f(xi)-lower(F))/(upper(F)-lower(F));
Step5.2、基于每个数据特征k∈F计算两个时间序列xi和xj的相似度,其中xi为真实数据样本中任一条样本,xj为初步模拟故障样本任一条样本:
Step5.3、根据预设阈值筛选得到最终模拟故障样本:
p≤dk(xi,xj)≤q for all k(1≤k≤F);
其中,结合水电设备故障数据的规律,定义一个上下误差阈值p和q;如果每个基于特征的间距都在这些误差阈值内,则认为真实数据样本xi和初步模拟故障样本xj是相似的,将模拟故障样本xj保留。
2.根据权利要求1所述的一种基于相似性原理的模拟故障样本生成方法,其特征在于,所述的Step3包括:
输入当前目标设备的运行数据Xobs和基样本D,计算公式如下:
其中,D为Step2中调整后的基样本,W为权值向量,Xobs为当前目标设备的运行数据,DT为D的转置矩阵,Xest即为计算得到的模拟样本数据。
3.根据权利要求2所述的一种基于相似性原理的模拟故障样本生成方法,其特征在于,所述的Step4步骤之前还包括:
使用STL算法对真实数据样本和初步模拟故障样本进行时间序列分析,公式如下:
其中,bat、trt、seass,t、rest分别为基础、趋势、季节和剩余成分。
CN202311191943.2A 2023-09-15 2023-09-15 一种基于相似性原理的模拟故障样本生成方法 Active CN116956073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311191943.2A CN116956073B (zh) 2023-09-15 2023-09-15 一种基于相似性原理的模拟故障样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311191943.2A CN116956073B (zh) 2023-09-15 2023-09-15 一种基于相似性原理的模拟故障样本生成方法

Publications (2)

Publication Number Publication Date
CN116956073A CN116956073A (zh) 2023-10-27
CN116956073B true CN116956073B (zh) 2023-12-26

Family

ID=88442741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311191943.2A Active CN116956073B (zh) 2023-09-15 2023-09-15 一种基于相似性原理的模拟故障样本生成方法

Country Status (1)

Country Link
CN (1) CN116956073B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574284A (zh) * 2015-12-29 2016-05-11 山东鲁能软件技术有限公司 一种基于趋势特征点的电力设备故障诊断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668164A (zh) * 2020-12-18 2021-04-16 武汉大学 诱导有序加权证据推理的变压器故障诊断方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574284A (zh) * 2015-12-29 2016-05-11 山东鲁能软件技术有限公司 一种基于趋势特征点的电力设备故障诊断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Probabilistic Rare-Event Verification for Temporal Logic Robot Tasks;Guy Scher, er al;2023 IEEE International Conference on Robotics and Automation (ICRA);全文 *
基于小样本深度迁移学习的轴承智能诊断方法研究;邢晓松;中国优秀硕士学位论文全文数据库工程科技Ⅱ辑;全文 *
船舶舵机液压系统的智能故障诊断方法研究;刘沁;中国优秀硕士学位论文全文数据库工程科技Ⅱ辑;全文 *

Also Published As

Publication number Publication date
CN116956073A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN108898251B (zh) 考虑气象相似性和功率波动的海上风电场功率预测方法
CN101661530B (zh) 基于相关分析求取风电场稳态等效风速与发电功率的方法
CN109472110A (zh) 一种基于lstm网络和arima模型的航空发动机剩余使用寿命预测方法
CN105205569B (zh) 风机齿轮箱状态在线评估模型建立方法及在线评估方法
CN109002650A (zh) 一种风电机组功率曲线建模方法
CN106875037A (zh) 风力预测方法及装置
CN111310990A (zh) 一种基于改进灰色组合模型的轨道质量预测方法及系统
CN102880907A (zh) 风速校正方法和装置
CN113991711B (zh) 一种光伏电站储能系统容量配置方法
CN115526258A (zh) 基于Spearman相关系数特征提取的电力系统暂稳评估方法
CN108052963A (zh) 风电功率预测建模的数据筛选方法、装置及风力发电机组
CN116956073B (zh) 一种基于相似性原理的模拟故障样本生成方法
CN112465250B (zh) 电力负荷预测方法、装置、计算机设备和存储介质
CN117713078A (zh) 基于遥感观测的生成式海上风电功率超短期预测方法
CN106529075B (zh) 一种考虑分时段的非线性模拟风速方法
CN110110784B (zh) 一种基于变压器相关运行数据的变压器故障辨识方法
CN116663889A (zh) 一种基于改进高斯模型的新型电力系统风险评估方法
CN115438312A (zh) 一种新能源出力的概率分布模型建立、应用方法及介质
CN115907192A (zh) 风电功率波动区间预测模型的生成方法、装置及电子设备
Bao et al. Iterative modeling of wind turbine power curve based on least‐square B‐spline approximation
CN113408076A (zh) 基于支持向量机模型的小样本机械剩余寿命预测方法
CN105975736B (zh) 一种基于正交级数的可再生能源输出功率概率建模方法
CN117709135B (zh) 考虑电厂温排水影响时长权重的热影响分析方法及系统
CN117113886B (zh) 一种压力预测方法及装置
CN118363090A (zh) 基于多任务深度学习模型的短期风速风向预报订正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant