CN114595742A - 一种燃料电池故障数据采样方法及系统 - Google Patents

一种燃料电池故障数据采样方法及系统 Download PDF

Info

Publication number
CN114595742A
CN114595742A CN202210055050.4A CN202210055050A CN114595742A CN 114595742 A CN114595742 A CN 114595742A CN 202210055050 A CN202210055050 A CN 202210055050A CN 114595742 A CN114595742 A CN 114595742A
Authority
CN
China
Prior art keywords
cluster
sample
fault
new
fuel cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210055050.4A
Other languages
English (en)
Other versions
CN114595742B (zh
Inventor
张雪松
倪筹帷
唐雅洁
王激华
马丽军
叶夏明
谢长君
朱文超
刘相万
葛晓慧
赵波
章雷其
吴启亮
龚迪阳
马瑜涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Wuhan University of Technology WUT
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd, Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Wuhan University of Technology WUT
Priority to CN202210055050.4A priority Critical patent/CN114595742B/zh
Publication of CN114595742A publication Critical patent/CN114595742A/zh
Application granted granted Critical
Publication of CN114595742B publication Critical patent/CN114595742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/36Arrangements for testing, measuring or monitoring the electrical condition of accumulators or electric batteries, e.g. capacity or state of charge [SoC]
    • G01R31/367Software therefor, e.g. for battery testing using modelling or look-up tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02E60/30Hydrogen technology
    • Y02E60/50Fuel cells

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuel Cell (AREA)

Abstract

本发明公开了一种燃料电池故障数据采样方法及系统。本发明的方法包括:步骤1),采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇;步骤2),计算簇密度分布函数和质心势能;步骤3),通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;步骤4),在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。本发明有效克服了RBO等传统过采样算法存在的问题,在不平衡数据集的均衡化过程中减少了噪声,提高了分类器对少数类故障样本和整体数据集的分类性能,进而提高了燃料电池故障诊断效率。

Description

一种燃料电池故障数据采样方法及系统
技术邻域
本发明属于燃料电池邻域,涉及一种燃料电池故障数据采样方法及系统。
背景技术
传统化石能源的大量消耗就必然带来环境污染的问题,尤其是在早期工业革命时代,由于能源利用技术的落后,造成能源利用率低、污染严重的问题。随着科学与技术的发展,人类对能源的利用率大大提高,能源消耗带来的污染问题相对减少,但不可否认的是当前的环境污染问题对全世界都是一个棘手且待解决的问题。因此,清洁、高效的新型可再生能源的研究、发展和应用普及是解决能源危机问题和环境污染问题的重要途径之一。在能源危机的时代,燃料电池正是那万众瞩目的新二次能源。燃料电池在电站邻域的应用屡见不鲜,固体氧化物燃料电池和磷酸燃料电池已成功商业应运,美国清洁能源公司(BloomEnergy)制造的100kW SOFC系统已成功运行在谷歌、可口可乐和沃尔玛等公司,美国燃料电池能源公司(Fuel Cell Energy)的300kW MCFC系统已成功应用于北美、日韩的发电站。与传统的发电方式相比,燃料利用率高,发电效率受负荷率影响小,而且运行安静、可靠。所以为了减缓PEMFC的性能衰减,提高其使用寿命,对PEMFC故障诊断进行研究是非常必要的。
燃料电池发电系统故障诊断的数据采样方法包括基于监控器的数据采样方法、基于单片电压采集解析系统的数据采样方法和基于算法的过采样方法等。其中过采样算法中最流行的是基于密度方法的综合少数族裔的过采样算法(Synthetic Minority Over-sampling Technique,SMOTE)。SMOTE感兴趣的区域位于任意给定的少数类观察点与它最接近的少数邻域之间,其作为大多数现有过采样策略的基石。但基于密度的方法也有其自身的缺点,在基本变体中,SMOTE忽略多数类样本的分布信息,导致生成的少数类样本点与多数类样本点的群集重叠。此外,由于少数类内的不平衡问题,少数类样本分布有所不同,而SMOTE算法只能为整个对象空间选择邻域k,不能针对不同的少数实例进行动态选择。为了从根本上解决SMOTE算法的缺陷,Michal Koziarski研究基于径向的过采样算法(Rule-Based Optimization,RBO),该算法引入了势能的概念,根据RBF径向基函数估算的样本点势能指导新样品的生成。其目标类似于SMOTE算法:尝试找到合理的范围来生成新的样本,RBO中考虑了多数类样本的分布,以减少放置在多数类实例密集的区域中的生成样品的数量。
目前的采样方法存在一些缺陷:由于RBO算法完全抛弃了样本密度的概念,对生成新样本的指导不足,易合成高度相似的新样本;同时,由于算法的随机性,遗留的类内不均衡问题仍然没有得到有效的解决。
发明内容
基于现有数据驱动的燃料电池故障诊断中故障数据的采集与处理问题,本发明提供一种燃料电池故障数据采样方法及系统,其在径向过采样的基础上对其进行改进,结合径向核空间聚类算法,形成一种整合噪声点径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法,以有效克服RBO等传统过采样算法存在的忽类内不平衡、合成的少数类故障样本入侵多数类样区域等问题,提高分类器对少数类故障样本和整体数据集的分类性能,进而提高燃料电池故障诊断效率。
为此,本发明采用的一种技术方案为:一种燃料电池故障数据采样方法,其包括:
步骤1),采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
步骤2),计算簇密度分布函数和质心势能;
步骤3),通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
步骤4),在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
针对径向过采样等传统过采样算法存在的忽略类内不平衡、合成新样本重合度高的问题,本发明提供一种基于DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)和权重机制的RBO(Oversampling Based on Radial,RBO)少数类样本过采样算法,可应用于机器学习或深度学习分类器训练前数据预处理阶段,以提高分类器识别性能及准确性。在燃料电池故障诊断中,可适用于多种故障状态,例如膜干、水淹、进气压力异常和氢气泄漏等。针对燃料电池的故障状态,对少数类故障样本进行过采样,以提高分类器对故障的识别能力。
进一步地,步骤1)包括:
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
进一步地,步骤2)包括:
步骤201:对于聚类过的每个簇Ci,将其视作一个由样本点构成的d维超球体,根据公式(1)计算得到其体积
Figure BDA0003476132900000021
Figure BDA0003476132900000022
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;
再利用公式(2)计算得到质心势能:
Figure BDA0003476132900000031
其中,Kp表示来自多数类的第p个对象,kP表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
Figure BDA0003476132900000032
密度分布函数值越大,代表簇中数据分布越密集,其生成新样本的能力越弱;其中,分母部分即簇Ci中样本点构成的超球体体积,
Figure BDA0003476132900000033
表示簇Ci中故障样本点的个数。
进一步地,步骤3)包括:
根据簇密度分布函数和质心势能,求若干簇的动态混杂采样权重wi,权重公式如下:
Figure BDA0003476132900000034
公式(4)中,a、b为标量且a+b=1,θi为簇密度分布函数权重,
Figure BDA00034761329000000312
为质心势能权重,通过二者权重叠加,对聚类后的m个簇做遍历,得到采样权重wi,再通过公式(5)
Figure BDA0003476132900000035
计算得到每个簇中合成的新故障样本数量
Figure BDA0003476132900000036
N表示生成的新样本数量。
进一步地,步骤4)包括:
步骤401:设定输出集
Figure BDA0003476132900000037
步骤402:从簇Ci中随机挑选出处理点pi
步骤403:将pi向随机方向移动,得到中间点pt,并进行质心势能计算得到Ψ(pi)和Ψ(pt);
步骤404:若|Ψ(pi)|>|Ψ(pt)|,则将pi替换为pt
步骤405:将点pi添加到输出集
Figure BDA0003476132900000038
中;
步骤406:若输出集
Figure BDA0003476132900000039
的大小小于
Figure BDA00034761329000000310
则回到步骤402。
在完成改进RBO算法(即改进邻域漫步径向过采样算法)的处理之后,成功地将输出集
Figure BDA00034761329000000311
添加到新生成的少数类故障样本点中,至此便完成了少数类故障样本点的过采样操作;随后,将生成的均衡数据集输入到随机森林(Random Forest,RF)、支持向量机(SupportVector Machine,SVM)等分类器中,并使用UCI和KEEL库中的不同平衡度的数据集作为实验数据,进行不平衡样本的过采样操作。
本发明采用的另一种技术方案为:一种燃料电池故障数据采样系统,其包括:
聚类单元,采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
簇密度分布函数和质心势能计算单元,用于计算簇密度分布函数和质心势能;
新故障样本数量确定单元,通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
新少数类样本合成单元,在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
本发明解决了基于数据驱动的燃料电池故障诊断中故障数据的采集与处理问题,具体应用于故障样本过采样时存在的生成样本与多数类实例重叠问题以及生成数据的类内分布不平衡现象;本发明提出的基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法在不平衡数据集的均衡化过程中减少了噪声,提高了分类器对少数类故障样本和整体数据集的分类性能,进而提高了燃料电池的故障诊断效率。
实验表明,本发明改进的邻域漫步径向过采样算法在精确度、准确率、召回率上都较传统SMOTE、RBO等过采样算法有明显的提升。
附图说明
图1为现有PEMFC系统的结构图;
图2为本发明基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法框架图;
图3为本发明基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法参数b的优化曲线图;
图4为本发明基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法参数γ的优化曲线图;
图5为本发明使用噪声点径向核空间聚类算法聚类后的少样本结果图;
图6为使用传统RBO算法对二维数据集Paw02中的少数类生成的新样本图;
图7为使用整合噪声径向核空间聚类和动态混杂权重的径向过采样算法(即本发明)对二维数据集Paw02中的少数类生成的新样本图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合说明书附图和实施例对本申请作进一步的详细说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
实施例1
本实施例为一种燃料电池故障数据采样方法,该方法基于DBSCAN算法和权重机制,并在传统RBO的基础上做了改进,包括基于DBSCAN算法的少样本聚类操作、质心势能、簇密度分布函数和采样权重的设计,以及RBO算法的优化。在图1的燃料电池系统结构图中,电池运行过程中,生成的水和氮气经过Purge阀周期性排出,电子负载记录并传输系统运行时的电压和电流数据,温度传感器和压力传感器分别监控燃料电池运行的温度值与空气、氢气的气压值,质量流量计记录系统运行的空气、氢气的流量。采用公开拉夫堡大学数据库(Loughborough University,https://lboro.figshare.com)的数据集对本发明的方法进行验证,测量了燃料电池正常、水淹、电堆内部压力异常与湿度异常四种不同的状态下的电堆电压、电流、出入口温度、气压值等重要少数类故障数据,主要步骤如图2所示,包括:
步骤1),采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
这样,便得到了少数类故障样本点的聚类,同时还将数据中的噪声滤除,为后面的质心势能、簇密度函数等参数做铺垫。
步骤2),计算簇密度分布函数和质心势能;
步骤201:对于聚类过的每个簇Ci,将其视作一个由样本点构成的d维超球体,根据公式(1)计算得到其体积
Figure BDA0003476132900000051
Figure BDA0003476132900000052
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;这样就可以使用超球体的体积和质心质点的欧氏距离来得到质心势能和簇密度分布函数。
再利用公式(2)计算得到质心势能:
Figure BDA0003476132900000053
其中,KP表示来自多数类的第p个对象,kp表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
Figure BDA0003476132900000054
密度分布函数值越大,代表簇中数据分布越密集,其生成新样本的能力越弱;其中,分母部分即簇Ci中样本点构成的超球体体积,
Figure BDA0003476132900000061
表示簇Ci中故障样本点的个数。
经过DBSCAN聚类后,少数类故障样本具有了一定的区分度,再经过质心势能和簇密度函数的计算,便能得到所需的过采样参数。
步骤3),通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
根据簇密度分布函数和质心势能,求若干簇的动态混杂采样权重wi,权重公式如下:
Figure BDA0003476132900000062
公式(4)中,a、b为标量且a+b=1,θi为簇密度分布函数权重,
Figure BDA0003476132900000069
为质心势能权重,通过二者权重叠加,对聚类后的m个簇做遍历,得到采样权重wi,再通过公式(5)
Figure BDA0003476132900000063
计算得到每个簇中合成的新故障样本数量
Figure BDA0003476132900000064
N表示生成的新样本数量。
至此,对少量故障样本过采样的预处理就已经完成。
步骤4),在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
步骤401:设定输出集
Figure BDA0003476132900000065
步骤402:从簇Ci中随机挑选出处理点pi
步骤403:将pi向随机方向移动,得到中间点pt,并进行质心势能计算得到Ψ(pi)和Ψ(pt);
步骤404:若|Ψ(pi)|>|Ψ(pt)|,则将pi替换为pt
步骤405:将点pi添加到输出集
Figure BDA0003476132900000066
中;
步骤406:若输出集
Figure BDA0003476132900000067
的大小小于
Figure BDA0003476132900000068
则回到步骤402。
在本实施例中,利用拉夫堡大学数据库中的不同阶段的四个数据集作为实验数据,分别代表燃料电池正常、水淹、电堆内部压力异常与湿度异常四种不同的状态,同时对比SMOTE、RBO以及本发明提出的算法DB-WDRBO(Density-Based Wigner DistributionRule-Based Optimization,DB-WDRB0)在随机森林(RF)和支持向量机(SVM)上的表现,其参数优选结果如图3-4所示,其中权重参数a、b通过控制个簇生成新样本的数量,影响类内不平衡的解决;径向基函数参数γ通过影响势能的计算,进而影响数据的过采样。针对同一数据集,分别改变算法中的单一参数进行实验。
由图3-4可知,在权重参数a,b变化时,分类器性能的变化比较小,因此算法对于权重参数a,b的敏感性较小。当a=b=0.5时分类器的AUC值为0.989,此时簇密度函数和质心势能同等重要,类内各簇的样本分布均衡,DB-WDRB0过采样算法最优,同样,当γ=1时,此时最适合算法的势能梯度上升。
另外,使用DBSCAN对二维数据集Paw02中的少数类故障样本进行聚类,其结果如图5所示。
其中形状“▲”为游离的噪声点,阴影区域即为聚类算法计算得到的三个小样本簇。从图中可以很好的看出,DBSCAN算法能够将少数类样本聚合在一起,并且各簇之间具有明显的区别,同时还能够将噪声点识别出来,为后面的样本点生成打下了良好的基础。
为了证明整合噪声点径向核空间聚类算法和动态混杂权重的径向过采样算法的优越性,本实施例使用了传统RBO算法和本发明提出的算法(DB-WDRB0算法)对二维数据集Paw02中的少数类进行生成,生成的新样本如图6-7所示:
形状“+”为多数类故障样本点,形状“o”为少数类故障样本点,形状“*”为生成新的少数类故障样本。对比左右二子图可知:使用传统RBO算法,降低了类间的不平衡度,但是新生成的样本之间高度相似,甚至于原始少数类样本高度重叠;使用DB-WDRB0算法后的各簇样本点分布均匀,不仅克服了类间不平衡现象,也解决了少数类样本的类内不平衡的问题,并且能够有效的避免新生成的少数类样本入侵多数类样本区域,降低噪声的影响,在此之外,使用DB-WDRBO合成的新样本更具有多样性,为分类器提供了更多的分类信息。
如表1展示了在数据集Haberman和Paw02上使用为采样、SMOTE、RBO、DB-WDRBO做过采样处理,燃料电池不同状态下的故障数据样本如电堆电压、电流、出入口温度和气压值等70%作训练集,30%作测试集,用RF和SVM分类器进行分类所得到的各项指标:
表1使用RF和SVM分类算法的各种过采样算法对比实验
Figure BDA0003476132900000071
多种分类算法表示,对少数类数据进行过采样,可以明显地提高分类器对样本地分类性能,相比于SMOTE和RBO,本发明的DB-WDRBO算法对燃料电池故障诊断性能的提升更强,更具有优越性,且对于不同平衡度的数据集更有普适性。
实施例2
本实施例为一种燃料电池故障数据采样系统,其包括:
聚类单元,采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
簇密度分布函数和质心势能计算单元,用于计算簇密度分布函数和质心势能;
新故障样本数量确定单元,通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
新少数类样本合成单元,在所述新故障样本的基础上,用邻域漫步径向过采样算法结合质心势能,合成新少数类样本。
用改进的邻域漫步径向过采样算法合成新少数类样本。
所述聚类单元的聚类步骤包括:
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
所述簇密度分布函数和质心势能计算单元的计算步骤包括:
步骤201:对于聚类过的每个簇Ci,将其视作一个由样本点构成的d维超球体,根据公式(1)计算得到其体积
Figure BDA0003476132900000081
Figure BDA0003476132900000082
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;
再利用公式(2)计算得到质心势能:
Figure BDA0003476132900000083
其中,Kp表示来自多数类的第p个对象,kp表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
Figure BDA0003476132900000084
密度分布函数值越大,代表簇中数据分布越密集,其生成新样本的能力越弱;其中,分母部分即簇Ci中样本点构成的超球体体积,
Figure BDA0003476132900000085
表示簇Ci中故障样本点的个数。
所述新故障样本数量确定单元的工作步骤包括:
根据簇密度分布函数和质心势能,求若干簇的动态混杂采样权重wi,权重公式如下:
Figure BDA0003476132900000091
公式(4)中,a、b为标量且a+b=1,θi为簇密度分布函数权重,
Figure BDA0003476132900000098
为质心势能权重,通过二者权重叠加,对聚类后的m个簇做遍历,得到采样权重wi,再通过公式(5)
Figure BDA0003476132900000092
计算得到每个簇中合成的新故障样本数量
Figure BDA0003476132900000097
N表示生成的新样本数量。
所述新少数类样本合成单元的合成步骤如下:
步骤401:设定输出集
Figure BDA0003476132900000093
步骤402:从簇Ci中随机挑选出处理点pi
步骤403:将pi向随机方向移动,得到中间点pt,并进行质心势能计算得到Ψ(pi)和Ψ(pt);
步骤404:若|Ψ(pi)|>|Ψ(pt)|,则将pi替换为pt
步骤405:将点pi添加到输出集
Figure BDA0003476132900000094
中;
步骤406:若输出集
Figure BDA0003476132900000095
的大小小于
Figure BDA0003476132900000096
则回到步骤402。
上述具体实施例可以本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施例所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种燃料电池故障数据采样方法,其特征在于,包括:
步骤1),采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
步骤2),计算簇密度分布函数和质心势能;
步骤3),通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
步骤4),在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
2.根据权利要求1所述的一种燃料电池故障数据采样方法,其特征在于,步骤1)包括:
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
3.根据权利要求2所述的一种燃料电池故障数据采样方法,其特征在于,步骤2)包括:
步骤201:对于聚类过的每个簇Ci,将其视作一个由样本点构成的d维超球体,根据公式(1)计算得到其体积
Figure FDA0003476132890000011
Figure FDA0003476132890000012
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;
再利用公式(2)计算得到质心势能:
Figure FDA0003476132890000013
其中,Kp表示来自多数类的第p个对象,kp表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
Figure FDA0003476132890000014
密度分布函数值越大,代表簇中数据分布越密集,其生成新样本的能力越弱;其中,分母部分即簇Ci中样本点构成的超球体体积,
Figure FDA0003476132890000015
表示簇Ci中故障样本点的个数。
4.根据权利要求3所述的一种燃料电池故障数据采样方法,其特征在于,步骤3)包括:
根据簇密度分布函数和质心势能,求若干簇的动态混杂采样权重wi,权重公式如下:
Figure FDA0003476132890000021
公式(4)中,a、b为标量且a+b=1,θi为簇密度分布函数权重,
Figure FDA0003476132890000022
为质心势能权重,通过二者权重叠加,对聚类后的m个簇做遍历,得到采样权重wi,再通过公式(5)
Figure FDA0003476132890000023
计算得到每个簇中合成的新故障样本数量
Figure FDA0003476132890000024
N表示生成的新样本数量。
5.根据权利要求4所述的一种燃料电池故障数据采样方法,其特征在于,步骤4)包括:
步骤401:设定输出集
Figure FDA0003476132890000025
步骤402:从簇Ci中随机挑选出处理点pi
步骤403:将pi向随机方向移动,得到中间点pt,并进行质心势能计算得到Ψ(pi)和Ψ(pt);
步骤404:若|Ψ(pi)|>|Ψ(pt)|,则将pi替换为pt
步骤405:将点pi添加到输出集
Figure FDA0003476132890000026
中;
步骤406:若输出集
Figure FDA0003476132890000027
的大小小于
Figure FDA0003476132890000028
则回到步骤402。
6.一种燃料电池故障数据采样系统,其特征在于,包括:
聚类单元,采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
簇密度分布函数和质心势能计算单元,用于计算簇密度分布函数和质心势能;
新故障样本数量确定单元,通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
新少数类样本合成单元,在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
用改进的邻域漫步径向过采样算法合成新少数类样本。
7.根据权利要求6所述的一种燃料电池故障数据采样系统,其特征在于,所述聚类单元的聚类步骤包括:
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
8.根据权利要求7所述的一种燃料电池故障数据采样系统,其特征在于,所述簇密度分布函数和质心势能计算单元的计算步骤包括:
步骤201:对于聚类过的每个簇Ci,将其视作一个由样本点构成的d维超球体,根据公式(1)计算得到其体积
Figure FDA0003476132890000031
Figure FDA0003476132890000032
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;
再利用公式(2)计算得到质心势能:
Figure FDA0003476132890000033
其中,KP表示来自多数类的第p个对象,kP表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
Figure FDA0003476132890000034
密度分布函数值越大,代表簇中数据分布越密集,其生成新样本的能力越弱;其中,分母部分即簇Ci中样本点构成的超球体体积,
Figure FDA0003476132890000035
表示簇Ci中故障样本点的个数。
9.根据权利要求8所述的一种燃料电池故障数据采样系统,其特征在于,所述新故障样本数量确定单元的工作步骤包括:
根据簇密度分布函数和质心势能,求若干簇的动态混杂采样权重wi,权重公式如下:
Figure FDA0003476132890000036
公式(4)中,a、b为标量且a+b=1,θi为簇密度分布函数权重,
Figure FDA0003476132890000037
为质心势能权重,通过二者权重叠加,对聚类后的m个簇做遍历,得到采样权重wi,再通过公式(5)
Figure FDA0003476132890000038
计算得到每个簇中合成的新故障样本数量
Figure FDA0003476132890000041
N表示生成的新样本数量。
10.根据权利要求9所述的一种燃料电池故障数据采样系统,其特征在于,所述新少数类样本合成单元的合成步骤如下:
步骤401:设定输出集
Figure FDA0003476132890000042
步骤402:从簇Ci中随机挑选出处理点pi
步骤403:将pi向随机方向移动,得到中间点pt,并进行质心势能计算得到ψ(pi)和Ψ(pt);
步骤404:若|Ψ(pi)|>|Ψ(pt)|,则将pi替换为pt
步骤405:将点pi添加到输出集
Figure FDA0003476132890000043
中;
步骤406:若输出集
Figure FDA0003476132890000044
的大小小于
Figure FDA0003476132890000045
则回到步骤402。
CN202210055050.4A 2022-01-18 2022-01-18 一种燃料电池故障数据采样方法及系统 Active CN114595742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210055050.4A CN114595742B (zh) 2022-01-18 2022-01-18 一种燃料电池故障数据采样方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210055050.4A CN114595742B (zh) 2022-01-18 2022-01-18 一种燃料电池故障数据采样方法及系统

Publications (2)

Publication Number Publication Date
CN114595742A true CN114595742A (zh) 2022-06-07
CN114595742B CN114595742B (zh) 2023-09-08

Family

ID=81805056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210055050.4A Active CN114595742B (zh) 2022-01-18 2022-01-18 一种燃料电池故障数据采样方法及系统

Country Status (1)

Country Link
CN (1) CN114595742B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574212A (zh) * 2024-01-15 2024-02-20 山东再起数据科技有限公司 一种基于数据中台的数据分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN111062425A (zh) * 2019-12-10 2020-04-24 中国人民解放军海军工程大学 基于c-k-smote算法的不平衡数据集处理方法
CN111931853A (zh) * 2020-08-12 2020-11-13 桂林电子科技大学 基于层次聚类和改进smote的过采样方法
CN112633337A (zh) * 2020-12-14 2021-04-09 哈尔滨理工大学 一种基于聚类和边界点的不平衡数据处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN111062425A (zh) * 2019-12-10 2020-04-24 中国人民解放军海军工程大学 基于c-k-smote算法的不平衡数据集处理方法
CN111931853A (zh) * 2020-08-12 2020-11-13 桂林电子科技大学 基于层次聚类和改进smote的过采样方法
CN112633337A (zh) * 2020-12-14 2021-04-09 哈尔滨理工大学 一种基于聚类和边界点的不平衡数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王亮;冶继民;: "整合DBSCAN和改进SMOTE的过采样算法", 计算机工程与应用, no. 18 *
黄海松;魏建安;任竹鹏;吴江进;: "基于失衡样本特性过采样算法与SVM的滚动轴承故障诊断", 振动与冲击, no. 10 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574212A (zh) * 2024-01-15 2024-02-20 山东再起数据科技有限公司 一种基于数据中台的数据分类方法
CN117574212B (zh) * 2024-01-15 2024-04-05 山东再起数据科技有限公司 一种基于数据中台的数据分类方法

Also Published As

Publication number Publication date
CN114595742B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN110752410B (zh) 一种快速分选和重组退役锂电池的方法
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN110579709A (zh) 一种有轨电车用质子交换膜燃料电池故障诊断方法
CN110363354B (zh) 风场风功率预测方法、电子装置及存储介质
CN116449218B (zh) 一种锂电池健康状态的估计方法
CN112305441B (zh) 一种集成式聚类下的动力电池健康状态评估方法
CN109239603A (zh) 一种流形正则化框架下的极限学习机预测动力电池soc方法
CN116842459B (zh) 一种基于小样本学习的电能计量故障诊断方法及诊断终端
CN115799580A (zh) 基于优化fcm训练的os-elm燃料电池故障诊断方法
CN114595742B (zh) 一种燃料电池故障数据采样方法及系统
CN115841176A (zh) 充电桩变频负荷的安全态势感知方法及系统
CN110929761A (zh) 智能系统安全体系态势感知构架中采集样本的平衡方法
Guo et al. Manifold cluster-based evolutionary ensemble imbalance learning
Li et al. Class imbalanced fault diagnosis via combining K-means clustering algorithm with generative adversarial networks
CN115021269B (zh) 基于数据驱动的两阶段最优潮流求解方法
CN116060325A (zh) 一种动力电池一致性快速分选方法
CN116522110A (zh) 基于无监督图神经网络特征提取的旋转机械故障诊断方法及系统
CN116387569A (zh) 一种基于svm的全钒液流电池泵故障检测方法
CN115389955A (zh) 一种电池内外总压测试的压差预测方法及装置
Qin Software reliability prediction model based on PSO and SVM
CN113159087A (zh) 基于海量负荷数据的居民用电行为辨识分析和管理方法
CN112883628A (zh) 一种变电站设备异常声源定位方法及系统
Ji et al. Overlapping community detection based on maximal clique and multi-objective ant colony optimization
CN117390967B (zh) 海上风电短期功率预测方法、装置、设备及存储介质
Liang et al. A Mahalanobis Distance-Based Fitness Approximation Method for Estimation of Distribution Algorithms in Solving Expensive Optimization Problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant