CN114595742A - 一种燃料电池故障数据采样方法及系统 - Google Patents
一种燃料电池故障数据采样方法及系统 Download PDFInfo
- Publication number
- CN114595742A CN114595742A CN202210055050.4A CN202210055050A CN114595742A CN 114595742 A CN114595742 A CN 114595742A CN 202210055050 A CN202210055050 A CN 202210055050A CN 114595742 A CN114595742 A CN 114595742A
- Authority
- CN
- China
- Prior art keywords
- cluster
- sample
- fault
- new
- fuel cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000446 fuel Substances 0.000 title claims abstract description 50
- 238000005070 sampling Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 60
- 238000005381 potential energy Methods 0.000 claims abstract description 53
- 238000005315 distribution function Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 abstract description 9
- 238000007637 random forest analysis Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003912 environmental pollution Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000001257 hydrogen Substances 0.000 description 3
- 229910052739 hydrogen Inorganic materials 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 2
- NBIIXXVUZAFLBC-UHFFFAOYSA-N Phosphoric acid Chemical compound OP(O)(O)=O NBIIXXVUZAFLBC-UHFFFAOYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 229910000147 aluminium phosphate Inorganic materials 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 235000021443 coca cola Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 150000002431 hydrogen Chemical class 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/36—Arrangements for testing, measuring or monitoring the electrical condition of accumulators or electric batteries, e.g. capacity or state of charge [SoC]
- G01R31/367—Software therefor, e.g. for battery testing using modelling or look-up tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E60/00—Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02E60/30—Hydrogen technology
- Y02E60/50—Fuel cells
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Fuel Cell (AREA)
Abstract
本发明公开了一种燃料电池故障数据采样方法及系统。本发明的方法包括:步骤1),采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇;步骤2),计算簇密度分布函数和质心势能;步骤3),通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;步骤4),在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。本发明有效克服了RBO等传统过采样算法存在的问题,在不平衡数据集的均衡化过程中减少了噪声,提高了分类器对少数类故障样本和整体数据集的分类性能,进而提高了燃料电池故障诊断效率。
Description
技术邻域
本发明属于燃料电池邻域,涉及一种燃料电池故障数据采样方法及系统。
背景技术
传统化石能源的大量消耗就必然带来环境污染的问题,尤其是在早期工业革命时代,由于能源利用技术的落后,造成能源利用率低、污染严重的问题。随着科学与技术的发展,人类对能源的利用率大大提高,能源消耗带来的污染问题相对减少,但不可否认的是当前的环境污染问题对全世界都是一个棘手且待解决的问题。因此,清洁、高效的新型可再生能源的研究、发展和应用普及是解决能源危机问题和环境污染问题的重要途径之一。在能源危机的时代,燃料电池正是那万众瞩目的新二次能源。燃料电池在电站邻域的应用屡见不鲜,固体氧化物燃料电池和磷酸燃料电池已成功商业应运,美国清洁能源公司(BloomEnergy)制造的100kW SOFC系统已成功运行在谷歌、可口可乐和沃尔玛等公司,美国燃料电池能源公司(Fuel Cell Energy)的300kW MCFC系统已成功应用于北美、日韩的发电站。与传统的发电方式相比,燃料利用率高,发电效率受负荷率影响小,而且运行安静、可靠。所以为了减缓PEMFC的性能衰减,提高其使用寿命,对PEMFC故障诊断进行研究是非常必要的。
燃料电池发电系统故障诊断的数据采样方法包括基于监控器的数据采样方法、基于单片电压采集解析系统的数据采样方法和基于算法的过采样方法等。其中过采样算法中最流行的是基于密度方法的综合少数族裔的过采样算法(Synthetic Minority Over-sampling Technique,SMOTE)。SMOTE感兴趣的区域位于任意给定的少数类观察点与它最接近的少数邻域之间,其作为大多数现有过采样策略的基石。但基于密度的方法也有其自身的缺点,在基本变体中,SMOTE忽略多数类样本的分布信息,导致生成的少数类样本点与多数类样本点的群集重叠。此外,由于少数类内的不平衡问题,少数类样本分布有所不同,而SMOTE算法只能为整个对象空间选择邻域k,不能针对不同的少数实例进行动态选择。为了从根本上解决SMOTE算法的缺陷,Michal Koziarski研究基于径向的过采样算法(Rule-Based Optimization,RBO),该算法引入了势能的概念,根据RBF径向基函数估算的样本点势能指导新样品的生成。其目标类似于SMOTE算法:尝试找到合理的范围来生成新的样本,RBO中考虑了多数类样本的分布,以减少放置在多数类实例密集的区域中的生成样品的数量。
目前的采样方法存在一些缺陷:由于RBO算法完全抛弃了样本密度的概念,对生成新样本的指导不足,易合成高度相似的新样本;同时,由于算法的随机性,遗留的类内不均衡问题仍然没有得到有效的解决。
发明内容
基于现有数据驱动的燃料电池故障诊断中故障数据的采集与处理问题,本发明提供一种燃料电池故障数据采样方法及系统,其在径向过采样的基础上对其进行改进,结合径向核空间聚类算法,形成一种整合噪声点径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法,以有效克服RBO等传统过采样算法存在的忽类内不平衡、合成的少数类故障样本入侵多数类样区域等问题,提高分类器对少数类故障样本和整体数据集的分类性能,进而提高燃料电池故障诊断效率。
为此,本发明采用的一种技术方案为:一种燃料电池故障数据采样方法,其包括:
步骤1),采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
步骤2),计算簇密度分布函数和质心势能;
步骤3),通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
步骤4),在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
针对径向过采样等传统过采样算法存在的忽略类内不平衡、合成新样本重合度高的问题,本发明提供一种基于DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)和权重机制的RBO(Oversampling Based on Radial,RBO)少数类样本过采样算法,可应用于机器学习或深度学习分类器训练前数据预处理阶段,以提高分类器识别性能及准确性。在燃料电池故障诊断中,可适用于多种故障状态,例如膜干、水淹、进气压力异常和氢气泄漏等。针对燃料电池的故障状态,对少数类故障样本进行过采样,以提高分类器对故障的识别能力。
进一步地,步骤1)包括:
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci;
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
进一步地,步骤2)包括:
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;
再利用公式(2)计算得到质心势能:
其中,Kp表示来自多数类的第p个对象,kP表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
进一步地,步骤3)包括:
根据簇密度分布函数和质心势能,求若干簇的动态混杂采样权重wi,权重公式如下:
进一步地,步骤4)包括:
步骤402:从簇Ci中随机挑选出处理点pi;
步骤403:将pi向随机方向移动,得到中间点pt,并进行质心势能计算得到Ψ(pi)和Ψ(pt);
步骤404:若|Ψ(pi)|>|Ψ(pt)|,则将pi替换为pt;
在完成改进RBO算法(即改进邻域漫步径向过采样算法)的处理之后,成功地将输出集添加到新生成的少数类故障样本点中,至此便完成了少数类故障样本点的过采样操作;随后,将生成的均衡数据集输入到随机森林(Random Forest,RF)、支持向量机(SupportVector Machine,SVM)等分类器中,并使用UCI和KEEL库中的不同平衡度的数据集作为实验数据,进行不平衡样本的过采样操作。
本发明采用的另一种技术方案为:一种燃料电池故障数据采样系统,其包括:
聚类单元,采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
簇密度分布函数和质心势能计算单元,用于计算簇密度分布函数和质心势能;
新故障样本数量确定单元,通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
新少数类样本合成单元,在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
本发明解决了基于数据驱动的燃料电池故障诊断中故障数据的采集与处理问题,具体应用于故障样本过采样时存在的生成样本与多数类实例重叠问题以及生成数据的类内分布不平衡现象;本发明提出的基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法在不平衡数据集的均衡化过程中减少了噪声,提高了分类器对少数类故障样本和整体数据集的分类性能,进而提高了燃料电池的故障诊断效率。
实验表明,本发明改进的邻域漫步径向过采样算法在精确度、准确率、召回率上都较传统SMOTE、RBO等过采样算法有明显的提升。
附图说明
图1为现有PEMFC系统的结构图;
图2为本发明基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法框架图;
图3为本发明基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法参数b的优化曲线图;
图4为本发明基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法参数γ的优化曲线图;
图5为本发明使用噪声点径向核空间聚类算法聚类后的少样本结果图;
图6为使用传统RBO算法对二维数据集Paw02中的少数类生成的新样本图;
图7为使用整合噪声径向核空间聚类和动态混杂权重的径向过采样算法(即本发明)对二维数据集Paw02中的少数类生成的新样本图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合说明书附图和实施例对本申请作进一步的详细说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
实施例1
本实施例为一种燃料电池故障数据采样方法,该方法基于DBSCAN算法和权重机制,并在传统RBO的基础上做了改进,包括基于DBSCAN算法的少样本聚类操作、质心势能、簇密度分布函数和采样权重的设计,以及RBO算法的优化。在图1的燃料电池系统结构图中,电池运行过程中,生成的水和氮气经过Purge阀周期性排出,电子负载记录并传输系统运行时的电压和电流数据,温度传感器和压力传感器分别监控燃料电池运行的温度值与空气、氢气的气压值,质量流量计记录系统运行的空气、氢气的流量。采用公开拉夫堡大学数据库(Loughborough University,https://lboro.figshare.com)的数据集对本发明的方法进行验证,测量了燃料电池正常、水淹、电堆内部压力异常与湿度异常四种不同的状态下的电堆电压、电流、出入口温度、气压值等重要少数类故障数据,主要步骤如图2所示,包括:
步骤1),采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci;
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
这样,便得到了少数类故障样本点的聚类,同时还将数据中的噪声滤除,为后面的质心势能、簇密度函数等参数做铺垫。
步骤2),计算簇密度分布函数和质心势能;
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;这样就可以使用超球体的体积和质心质点的欧氏距离来得到质心势能和簇密度分布函数。
再利用公式(2)计算得到质心势能:
其中,KP表示来自多数类的第p个对象,kp表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
经过DBSCAN聚类后,少数类故障样本具有了一定的区分度,再经过质心势能和簇密度函数的计算,便能得到所需的过采样参数。
步骤3),通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
根据簇密度分布函数和质心势能,求若干簇的动态混杂采样权重wi,权重公式如下:
至此,对少量故障样本过采样的预处理就已经完成。
步骤4),在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
步骤402:从簇Ci中随机挑选出处理点pi;
步骤403:将pi向随机方向移动,得到中间点pt,并进行质心势能计算得到Ψ(pi)和Ψ(pt);
步骤404:若|Ψ(pi)|>|Ψ(pt)|,则将pi替换为pt;
在本实施例中,利用拉夫堡大学数据库中的不同阶段的四个数据集作为实验数据,分别代表燃料电池正常、水淹、电堆内部压力异常与湿度异常四种不同的状态,同时对比SMOTE、RBO以及本发明提出的算法DB-WDRBO(Density-Based Wigner DistributionRule-Based Optimization,DB-WDRB0)在随机森林(RF)和支持向量机(SVM)上的表现,其参数优选结果如图3-4所示,其中权重参数a、b通过控制个簇生成新样本的数量,影响类内不平衡的解决;径向基函数参数γ通过影响势能的计算,进而影响数据的过采样。针对同一数据集,分别改变算法中的单一参数进行实验。
由图3-4可知,在权重参数a,b变化时,分类器性能的变化比较小,因此算法对于权重参数a,b的敏感性较小。当a=b=0.5时分类器的AUC值为0.989,此时簇密度函数和质心势能同等重要,类内各簇的样本分布均衡,DB-WDRB0过采样算法最优,同样,当γ=1时,此时最适合算法的势能梯度上升。
另外,使用DBSCAN对二维数据集Paw02中的少数类故障样本进行聚类,其结果如图5所示。
其中形状“▲”为游离的噪声点,阴影区域即为聚类算法计算得到的三个小样本簇。从图中可以很好的看出,DBSCAN算法能够将少数类样本聚合在一起,并且各簇之间具有明显的区别,同时还能够将噪声点识别出来,为后面的样本点生成打下了良好的基础。
为了证明整合噪声点径向核空间聚类算法和动态混杂权重的径向过采样算法的优越性,本实施例使用了传统RBO算法和本发明提出的算法(DB-WDRB0算法)对二维数据集Paw02中的少数类进行生成,生成的新样本如图6-7所示:
形状“+”为多数类故障样本点,形状“o”为少数类故障样本点,形状“*”为生成新的少数类故障样本。对比左右二子图可知:使用传统RBO算法,降低了类间的不平衡度,但是新生成的样本之间高度相似,甚至于原始少数类样本高度重叠;使用DB-WDRB0算法后的各簇样本点分布均匀,不仅克服了类间不平衡现象,也解决了少数类样本的类内不平衡的问题,并且能够有效的避免新生成的少数类样本入侵多数类样本区域,降低噪声的影响,在此之外,使用DB-WDRBO合成的新样本更具有多样性,为分类器提供了更多的分类信息。
如表1展示了在数据集Haberman和Paw02上使用为采样、SMOTE、RBO、DB-WDRBO做过采样处理,燃料电池不同状态下的故障数据样本如电堆电压、电流、出入口温度和气压值等70%作训练集,30%作测试集,用RF和SVM分类器进行分类所得到的各项指标:
表1使用RF和SVM分类算法的各种过采样算法对比实验
多种分类算法表示,对少数类数据进行过采样,可以明显地提高分类器对样本地分类性能,相比于SMOTE和RBO,本发明的DB-WDRBO算法对燃料电池故障诊断性能的提升更强,更具有优越性,且对于不同平衡度的数据集更有普适性。
实施例2
本实施例为一种燃料电池故障数据采样系统,其包括:
聚类单元,采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
簇密度分布函数和质心势能计算单元,用于计算簇密度分布函数和质心势能;
新故障样本数量确定单元,通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
新少数类样本合成单元,在所述新故障样本的基础上,用邻域漫步径向过采样算法结合质心势能,合成新少数类样本。
用改进的邻域漫步径向过采样算法合成新少数类样本。
所述聚类单元的聚类步骤包括:
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci;
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
所述簇密度分布函数和质心势能计算单元的计算步骤包括:
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;
再利用公式(2)计算得到质心势能:
其中,Kp表示来自多数类的第p个对象,kp表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
所述新故障样本数量确定单元的工作步骤包括:
根据簇密度分布函数和质心势能,求若干簇的动态混杂采样权重wi,权重公式如下:
所述新少数类样本合成单元的合成步骤如下:
步骤402:从簇Ci中随机挑选出处理点pi;
步骤403:将pi向随机方向移动,得到中间点pt,并进行质心势能计算得到Ψ(pi)和Ψ(pt);
步骤404:若|Ψ(pi)|>|Ψ(pt)|,则将pi替换为pt;
上述具体实施例可以本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施例所限,在其范围内的各个实现方案均受本发明之约束。
Claims (10)
1.一种燃料电池故障数据采样方法,其特征在于,包括:
步骤1),采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
步骤2),计算簇密度分布函数和质心势能;
步骤3),通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
步骤4),在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
2.根据权利要求1所述的一种燃料电池故障数据采样方法,其特征在于,步骤1)包括:
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci;
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
3.根据权利要求2所述的一种燃料电池故障数据采样方法,其特征在于,步骤2)包括:
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;
再利用公式(2)计算得到质心势能:
其中,Kp表示来自多数类的第p个对象,kp表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
6.一种燃料电池故障数据采样系统,其特征在于,包括:
聚类单元,采用噪声点径向核空间聚类算法对燃料电池少数类故障样本点数据集聚类,形成若干簇,过滤数据集中的噪声;
簇密度分布函数和质心势能计算单元,用于计算簇密度分布函数和质心势能;
新故障样本数量确定单元,通过簇密度分布函数和质心势能,计算若干簇的动态混杂采样权重,确定每个簇中合成的新故障样本数量;
新少数类样本合成单元,在所述新故障样本的基础上,用基于径向核空间聚类和动态混杂权重的邻域漫步径向过采样算法合成新少数类样本。
用改进的邻域漫步径向过采样算法合成新少数类样本。
7.根据权利要求6所述的一种燃料电池故障数据采样系统,其特征在于,所述聚类单元的聚类步骤包括:
步骤101:扫描原始少数类样本集合C,将样本点划分为核心点和边界点,以任意一个点x1为核心点,从该核心点开始遍历其邻域内的样本点xi,若xi为核心点,则继续遍历xi邻域内的样本点,直至邻域内只有边界点,此时形成一个簇Ci;
步骤102:重新扫描簇Ci以外的数据,寻找没有被聚类的核心点,再对该核心点重复步骤101中的遍历过程,直至C中没有核心点,剩下不属于任何簇的样本点即为噪声点。
8.根据权利要求7所述的一种燃料电池故障数据采样系统,其特征在于,所述簇密度分布函数和质心势能计算单元的计算步骤包括:
其中,Kd是一个标量,d代表故障样本的维度,ri表示簇Ci中离超球体质心ui最远的样本到质心ui的欧氏距离;
再利用公式(2)计算得到质心势能:
其中,KP表示来自多数类的第p个对象,kP表示来自少数类的第p个对象,γ为参数;
步骤202:对于每个聚类后的簇,使用密度分布函数(3)进行计算,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210055050.4A CN114595742B (zh) | 2022-01-18 | 2022-01-18 | 一种燃料电池故障数据采样方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210055050.4A CN114595742B (zh) | 2022-01-18 | 2022-01-18 | 一种燃料电池故障数据采样方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114595742A true CN114595742A (zh) | 2022-06-07 |
CN114595742B CN114595742B (zh) | 2023-09-08 |
Family
ID=81805056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210055050.4A Active CN114595742B (zh) | 2022-01-18 | 2022-01-18 | 一种燃料电池故障数据采样方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114595742B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574212A (zh) * | 2024-01-15 | 2024-02-20 | 山东再起数据科技有限公司 | 一种基于数据中台的数据分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN111062425A (zh) * | 2019-12-10 | 2020-04-24 | 中国人民解放军海军工程大学 | 基于c-k-smote算法的不平衡数据集处理方法 |
CN111931853A (zh) * | 2020-08-12 | 2020-11-13 | 桂林电子科技大学 | 基于层次聚类和改进smote的过采样方法 |
CN112633337A (zh) * | 2020-12-14 | 2021-04-09 | 哈尔滨理工大学 | 一种基于聚类和边界点的不平衡数据处理方法 |
-
2022
- 2022-01-18 CN CN202210055050.4A patent/CN114595742B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN111062425A (zh) * | 2019-12-10 | 2020-04-24 | 中国人民解放军海军工程大学 | 基于c-k-smote算法的不平衡数据集处理方法 |
CN111931853A (zh) * | 2020-08-12 | 2020-11-13 | 桂林电子科技大学 | 基于层次聚类和改进smote的过采样方法 |
CN112633337A (zh) * | 2020-12-14 | 2021-04-09 | 哈尔滨理工大学 | 一种基于聚类和边界点的不平衡数据处理方法 |
Non-Patent Citations (2)
Title |
---|
王亮;冶继民;: "整合DBSCAN和改进SMOTE的过采样算法", 计算机工程与应用, no. 18 * |
黄海松;魏建安;任竹鹏;吴江进;: "基于失衡样本特性过采样算法与SVM的滚动轴承故障诊断", 振动与冲击, no. 10 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574212A (zh) * | 2024-01-15 | 2024-02-20 | 山东再起数据科技有限公司 | 一种基于数据中台的数据分类方法 |
CN117574212B (zh) * | 2024-01-15 | 2024-04-05 | 山东再起数据科技有限公司 | 一种基于数据中台的数据分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114595742B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110752410B (zh) | 一种快速分选和重组退役锂电池的方法 | |
CN110443281B (zh) | 基于hdbscan聚类的文本分类自适应过采样方法 | |
CN110579709A (zh) | 一种有轨电车用质子交换膜燃料电池故障诊断方法 | |
CN110363354B (zh) | 风场风功率预测方法、电子装置及存储介质 | |
CN116449218B (zh) | 一种锂电池健康状态的估计方法 | |
CN112305441B (zh) | 一种集成式聚类下的动力电池健康状态评估方法 | |
CN109239603A (zh) | 一种流形正则化框架下的极限学习机预测动力电池soc方法 | |
CN116842459B (zh) | 一种基于小样本学习的电能计量故障诊断方法及诊断终端 | |
CN115799580A (zh) | 基于优化fcm训练的os-elm燃料电池故障诊断方法 | |
CN114595742B (zh) | 一种燃料电池故障数据采样方法及系统 | |
CN115841176A (zh) | 充电桩变频负荷的安全态势感知方法及系统 | |
CN110929761A (zh) | 智能系统安全体系态势感知构架中采集样本的平衡方法 | |
Guo et al. | Manifold cluster-based evolutionary ensemble imbalance learning | |
Li et al. | Class imbalanced fault diagnosis via combining K-means clustering algorithm with generative adversarial networks | |
CN115021269B (zh) | 基于数据驱动的两阶段最优潮流求解方法 | |
CN116060325A (zh) | 一种动力电池一致性快速分选方法 | |
CN116522110A (zh) | 基于无监督图神经网络特征提取的旋转机械故障诊断方法及系统 | |
CN116387569A (zh) | 一种基于svm的全钒液流电池泵故障检测方法 | |
CN115389955A (zh) | 一种电池内外总压测试的压差预测方法及装置 | |
Qin | Software reliability prediction model based on PSO and SVM | |
CN113159087A (zh) | 基于海量负荷数据的居民用电行为辨识分析和管理方法 | |
CN112883628A (zh) | 一种变电站设备异常声源定位方法及系统 | |
Ji et al. | Overlapping community detection based on maximal clique and multi-objective ant colony optimization | |
CN117390967B (zh) | 海上风电短期功率预测方法、装置、设备及存储介质 | |
Liang et al. | A Mahalanobis Distance-Based Fitness Approximation Method for Estimation of Distribution Algorithms in Solving Expensive Optimization Problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |