CN113032726A - 基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法 - Google Patents
基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法 Download PDFInfo
- Publication number
- CN113032726A CN113032726A CN202110210676.3A CN202110210676A CN113032726A CN 113032726 A CN113032726 A CN 113032726A CN 202110210676 A CN202110210676 A CN 202110210676A CN 113032726 A CN113032726 A CN 113032726A
- Authority
- CN
- China
- Prior art keywords
- fault
- sample
- samples
- probability density
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 238000012544 monitoring process Methods 0.000 title claims abstract description 28
- 238000005054 agglomeration Methods 0.000 title claims description 13
- 230000002776 aggregation Effects 0.000 title claims description 13
- 238000009826 distribution Methods 0.000 claims abstract description 43
- 238000005070 sampling Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000005315 distribution function Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000012806 monitoring device Methods 0.000 claims description 2
- 241000764238 Isis Species 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 9
- 239000000523 sample Substances 0.000 description 103
- 238000001514 detection method Methods 0.000 description 26
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 239000004698 Polyethylene Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- -1 polyethylene Polymers 0.000 description 1
- 229920000573 polyethylene Polymers 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Monitoring And Testing Of Nuclear Reactors (AREA)
Abstract
本发明公开了基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法,通过核概率密度估计估计故障样本的概率密度分布函数,对难以学习的决策边界样本,对边界样本生成率进行加权,使难学习样本获得更多的生成样本,提高新样本集的多样性。在最近邻求解过程中用核距离代替欧式距离,以满足高维、非线性的工业对象应用要求。最后使用接受拒绝采样判断新生成样本是否符合原始结块故障样本的分布,符合则接受,反之则拒绝,以保证新生成样本的合理性。该方法在一定程度上解决了原始上采样方法缺乏理论可行性,不能度量生成样本的质量,易发生“数据侵入”的问题,同时还能提高样本集的多样性。实例应用证明了该方法的有效性。
Description
技术领域
本发明属于工业设备故障监测技术领域,涉及一种数据上采样方法,具体是指一种基于核概率密度估计的加权上采样方法用于不平衡数据集的故障监测。
背景技术
流化床是一类在流程工业中广泛应用的反应装置,在气相法聚乙烯生产工艺中,流化床是其中的核心反应器,该工艺具有反应稳定,易于控制等优点。
但是由于反应过程中反应热不能及时移出、静电等问题,导致结块、结片故障,影响反应的顺利进行,严重者导致停车甚至安全事故。因此,流化床结块故障检测技术十分重要。
但是由于生产工艺成熟,生产平稳,因此故障数据的获取较为困难,同时在此过程中可获得正常工况下的海量样本,从而形成不平衡样本集,由此在故障检测过程中需要解决不平衡数据集对故障检测算法准确性的负面影响。利用声波传感器检测流化床反应器外壁的振动信号并进行分析已经被证明是一种可行的结块故障监测预警方法,这种方法无需反应的内在机理模型,因此属于数据驱动方法。在数据驱动方法中,关键在于基于训练数据建立故障检测模型,对训练数据集的样本数量和多样性有较高要求。而工业现场绝大多数情况下处于平稳生产过程中,难以获得故障样本,因此故障样本稀缺,与正常工况下大量采集的正常样本相比形成了不平衡样本集。另外在故障工况下所采集的故障样本还需要进行人工标注,也影响了样本集的构成。
数据驱动方法对原始数据集的质量有较高要求,数据集的平衡性和多样性问题决定着检测算法的准确性和泛化性能。当数据集为不平衡数据集时,检测结果的将向多数类样本倾斜,即倾向于判断未知样本为多数类样本,以获得较高的综合分类准确率。当数据集分布较为集中,多样性不足时,监测算法的泛化能力不足。
在结块故障监测、预警过程中若对于故障数据分类错误,即发生漏报,则容易产生较为严重的后果,危害他人安全、造成极大的财产损失。然而数据不平衡时,分类器更易偏向于多数类,即属于多数类的正常样本更容易预测,而对属于少数类的故障样本预测表现较差。因此,当样本集不平衡时,所得到的检测算法将更容易将未知样本预报成为正常样本,从而造成漏报问题。
如果数据集极为不平衡,即使分类器正确地对多数样本进行分类,而对所有少数样本进行了错误分类,综合下来分类器的准确率仍然很高,在这种情况下,准确率不能反映对于少数类样本的预测性能,因此需要对不平衡样本集进行处理。
目前对于不平衡数据的处理方法主要包含算法层面以及数据层面。
数据层面采用数据采样方法,改变样本的数量,使数据达到平衡。采样方法主要包含上采样方法、下采样方法以及混合采样方法。
上采样方法通过生成少数类样本使少数类和多数类达到平衡,在样本不平衡度很高时,往往采用上采样方法。中国专利202010763063.8提供了一种基于少数类过采样方法的异质不平衡数据故障检测方法,其包括获取机电设备健康状态相关的所监测的不平衡数据集,以等概率从少数类故障数据集随机选择一个样本;基于异质数值差异指标或平均数值型变量距离在少数类故障数据集中找到k个近邻样本;从k个近邻样本中选择一个最近邻样本,人工生成样本的数值型变量和标称型变量取值;基于对机电设备进行故障检测,生成的少数类样本在标称型变量的取值不超出其原本的值域范围,且将标称型变量转化为数值型变量,可大大增加分类模型的选择的可能性。
随机上采样是最简单也是最常使用的方法。该方法随机从少数类中反复地抽取样本,将抽取到的样本放入原样本空间中组成新的样本空间。这样的抽样方法是很快速的,但是会使得少数类中存在大量相似的数据,在分类器的训练中容易使得模型产生过拟合的问题,不但不会提高检测准确性还会导致准确性的降低。
SMOTE方法是基于随机过采样的一种改进方法,其采用线性插值的思想,通过求少数类样本周围的最近邻,并与其最近邻通过线性插值生成新样本,SMOTE得到了学术界广泛认可,但也存在一些问题,包括生成样本过于笼统以及差异过大,导致在此基础上训练得到的检测算法可靠性存疑。
BorderlineSMOTE方法基于SMOTE方法进行改进,将样本分为安全、危险与噪声,该方法只对边缘样本进行上采样,所得的新样本位于分类边缘面,将提高样本生成效率,但是易产生侵入问题,即新样本侵入多数类样本的分布空间,从而造成分类准确率的降低。
ADASYN也是基于SMOTE方法的改进,针对不同样本学习的难易程度,对样本进行加权,利用加权分布来强化决策边界,难以学习的样本生成较多样本,易于学习的样本生成较少样本。但是该算法没有解决SMOTE算法中生成样本可靠性难以评价的问题。
现有的上采样方法在对不平衡数据进行处理方面取得了很大的成功,但是原始上采样方法始终存在着缺乏可解释性的问题,即无法度量生成样本的质量。生成样本质量无法度量将降低上采样方法在工业应用中的可靠性,使基于上采样的分类算法难以在工业设备故障检测问题中得到广泛应用。
除此以外,在现有的上采样方法中,对于k近邻的求解往往采用欧式距离。欧式距离适用于线性分类问题,而实际应用中多为非线性分类问题,基于非线性计算得到的核距离对非线性、高维分类问题更具优势。特别是在流化床结块故障检测问题中,基于核距离的近邻求解方法优于传统欧式距离。
发明内容
针对流化床结块故障监测过程中训练样本集不平衡问题,本方法提出了一种基于核概率密度估计(PDFOS)的加权上采样方法用于生成平衡数据集,从而实现流化床结块故障监测。该方法的目的是保证新生成样本与原始少数类样本所组成的新样本集与原始样本集具有同样的概率密度分布函数(PDF),从而解决前述弊端,提高结块故障检测方法在工业应用中的可靠性。另外,在求解少数类样本最近邻时,本方法利用核距离代替欧式距离,其目的在于解决结块故障检测问题中的高维、非线性分类问题,并与支持向量机分类算法一起,提高故障检测的准确性。
本发明提出了一种基于概率密度估计的加权上采样方法,用于工业设备故障监测,特别是流化床结块故障监测问题。具体方案如下:
步骤S1:利用声波传感器采集流化床外壁振动信号并进行人工标注、提取特征。由于生产过程极其平稳,因此只能获得少量故障工况样本,大部分数据均为平稳工况下所采集的样本。因此,在后续故障诊断建模过程中,我们只能依靠由少量故障样本和海量正常工况样本所组成的不平衡样本集。对少量故障样本和海量正常工况样本进行人工标注,获得训练样本集。考虑到人工标注费时费力,因此最终可获得的标注数据集中正常样本的数量可在几百至几千个,故障样本的数量受限于采集过程中设备发生故障的次数,对本算法而言需保证故障样本至少有十几个。经过该步骤形成的训练样本集中包括两个集合,其一为多数类样本集即经过标注的正常样本集,其二为少数类样本集即故障样本集。
步骤S2:针对结块故障样本极其稀少的情况,计算需要通过上采样方法生成的样本数量。该步骤包含如下具体细节:
步骤S2-1:计算结块故障样本和正常样本的比例,定义为不平衡度。计故障样本个数为N+,海量正常工况样本为N-,其中N+<<N-。则不平衡度为:
D=N+/N- (1)
步骤S2-2:计算需要生成的少数类样本数量为:
G=(N--N+)×β (2)
其中β∈[0,1],当β=1时,上采样后的数据集为完全平衡数据集,β=0时则进行上采样。在实际应用中可根据情况选择。
步骤S2-3:对每个故障样本利用核距离计算其k近邻,同时计算正常样本邻居占比r,并进行标准化:
ri=Δ/k (3)
步骤S3:估计结块故障样本的概率密度分布函数,并以此为参考生成新的故障样本,与原故障样本一起作为故障类样本集。该步骤具体如下:
S是故障样本协方差的无偏估计:
引入S后,通过公式(6)所估计的概率密度函数可以反应故障样本集的真实分布。
通过网格搜索法求得使式(9)取值最小的σ值,为最优σ。
步骤S3-3:根据概率密度估计进行样本生成。基于离散均匀分布,从故障样本集中随机抽取一个故障样本x0,通过步骤S4和S5中所求的参数进行样本生成。
xn=x0+σR*randn() (10)
其中R是协方差矩阵S的切比雪夫分解,是具有严格正对角项的上三角矩阵。
RTR=S (11)
randn()是服从零-均值正态分布的m维伪随机向量,其协方差矩阵为Im。
步骤S4:评估新生成故障样本的合理性,利用接受拒绝采样判断其是否符合原始结块故障样本的概率密度分布,若满足则保留,若不满足则剔除。最终形成符合原始故障样本集分布的新故障样本集,与原始正常样本一起,形成平衡样本集,用于结块故障建模。具体实现步骤如下:
通过接受拒绝采样判定新生成样本是否符合原始故障样本集的概率密度分布。符合分布的新生成样本接受,不符合的拒绝。接受拒绝采样的基本思想为:已知的分布,但是由于太复杂,很难得到完全符合该分布的样本,那么我们设定一个程序可抽样的分布如高斯分布,按照一定的方法拒绝某些样本,达到接近分布的目的。具体方法如下:产生样本x~q(x)和u~Uniform[0,1],若(其中M为的最大值)则接受样本x,此时接受的样本服从分布,否则拒绝样本。
步骤S5:进行结块故障离线建模,在上述步骤得到的平衡样本集基础上,利用分类算法得到最终的结块故障监测模型,用于在线监测结块故障。具体实现步骤如下:
将新样本与原始样本集合并得到平衡样本集,送入分类算法中,本发明采用支持向量机算法。
步骤S6:进行结块故障在线监测预警。通过步骤S1中的振动监测装置实时获取振动信号,并进行特征提取,送入步骤S5所得到的故障监测模型中实时监测流化床装置运行状态,出现结块信号则报警,实现在线监测。
与现有技术相比较,本发明具有以下有益结果:本发明是一种基于少数类样本(即故障样本)核概率密度估计的数据上采样方法,用于流化床结块故障检测中,可以令通过上采样算法新生成的样本与原始故障样本集具有相同的概率密度分布,保证了上采样方法产生样本的合理性。
本发明提出了一种基于少数类样本核概率密度估计的加权上采样算法,用于平衡流化床结块故障检测数据集,最终提高流化床结块故障监测算法的可靠性。本发明在引入协方差矩阵S的基础上,利用核概率密度估计算法对少数类样本集,及故障样本集的概率密度函数进行估计,使估计函数可以反应原始故障样本集的真实分布。本发明利用核距离代替其他算法中的欧式距离计算k近邻,适用于工业对象中的非线性、高维分类问题,使分类结果准确性得到提高。本发明代替SMOTE算法中线性插值方法,而是基于概率密度分布估计结果生成新样本,提高了新样本的可靠性,进而提高故障检测算法的可靠性。本发明基于故障样本的学习难易度进行新样本生成,提高难分类样本的生成率,而不是对所有样本一视同仁,使新的故障样本集更具多样性,最终提高了故障检测算法的泛化性能。本发明在新样本生成后再利用接受拒绝采样算法对新生成样本进行评价,依照计算结果保留可靠的新样本,拒绝不可靠的新样本,该步骤使得上采样方法具备可解释性,可以大大提高上采样算法的可靠性,以保证算法可以在工业设备中进行应用。在本发明的一个优选实例中,该方法被用于一个流化床结块故障检测对象中,与已有方法对比,证明了方法的有效性。
附图说明
图1为本发明---基于核概率密度函数估计的加权上采样方法用于流化床结块故障检测具体流程图。
图2为核概率密度函数估计方法的具体流程图。
图3为加权上采样方法的具体流程图。
具体实施方式
下面结合具体的实施例及附图对基于核概率密度估计的加权上采样方法用于流化床结块故障检测进行具体的描述,以使其更加清楚。
本方法首先利用核概率密度估计算法得到故障样本的概率密度函数,通过引入协方差矩阵保证该估计结果符合故障样本的真实分布。再计算多数类邻居占比r,并对其进行标准化得到为难于分类的故障样本赋予更高生成率,使新样本倾向于难分类样本,从而保证故障样本集的多样性。在求解故障样本最近邻的过程中,使用核距离代替欧氏距离,在处理高维非线性数据时更具有效性,同时对于后续使用支持向量机进行分类也有一定的优势。基于概率密度估计结果和生成率进行上采样,得到新样本后再利用接受拒绝采样算法,判断生成样本分布是否符合原始故障样本集的概率密度分布,解决生成样本质量无法度量的问题。
图1为本方法的流程图。该结块故障检测方法包括:
步骤一:对流化床数据进行采集,其中正常:故障=85:15即N_:N+=85:15。并对采集得到的样本进行特征提取,提取了样本的均值,方差,标准差,中心矩,峰度,偏度(6种时域特征),频率重心,小波包能量,小波包熵(3种频域特征)等9种特征。对比正常工况下以及结块故障工况下的数据特征,证明上述特征能够从一定程度上区分正常工况与结块故障工况。
步骤二:在原有核概率密度估计基础上,引入加权思想,其加权思想主要包括:
计算不平衡度,计故障样本为N+,正常样本为N_,则不平衡度为:
D=N+/N-
计算需要合成样本的数量。
G=(N--N+)*β,其中β=0时,则代表不做样本生成,当β=1时代表生成完全平衡的新样本集。
对于每个故障样本用核距离计算k近邻,Δ为k近邻中正常样本的个数,由此可得:
ri=Δ/k
对所求的ri进行标准化,即
其中核距离的定义为:
对应的核函数的核距离矩阵为:
该部分的基本思想见流程图3。
其中S是故障样本协方差的无偏估计。
引入S是为了处理特征空间坐标是相关的然而坐标的展开的不同的情况,在此情况下,如果对所有坐标应用相同的扩展参数,估计的概率密度函数不能充分表示数据集的真实分布。
通过最小化M(σ)可最优的σ。其中,最优σ可以通过网格搜索求得。
通过上述所得的参数,对原始不平衡样本集进行上采样操作。
基于离散均匀分布,从故障样本集中随机抽取一个故障样本x0,通过所求的参数进行样本生成。
xn=x0+σR*randn()
其中R是协方差矩阵S的切比雪夫分解,是具有严格正对角项的上三角矩阵。
randn()是服从零-均值正态分布的m维伪随机向量,其协方差矩阵为Im。
该部分的具体流程图如图2。
步骤四:对于生成的样本采用接受拒绝采样,判断生成样本的概率密度分布是否符合核概率密度估计函数所得的原始故障样本集的概率密度函数。对于符合的进行接受,反之拒绝。具体步骤为:
产生样本x~q(x),和u~Uniform[0,1]
步骤五:分别将原始不平衡数据以及经过SMOTE方法,ADASYN方法,Borderline-SMOTE方法还有基于本发明所提方法的处理过后的平衡数据作为训练数据,给入支持向量机中,进行结块故障检测建模。
同样选取了N个数据作为测试数据,其中正常:故障=85:15,即多数类85个,少数类15个,进行测试。
并引入评价指标进行故障检测性能评估,评价指标为:
准确率(accuracy),精确率(precision),召回率(recall),F1-score以及G-mean值
上述评价指标可通过混淆矩阵定义,混淆矩阵如表1所示:
表1
当数据不均衡时,G-mean具有很大的参考价值。因为此参数综合考虑了两类的分类性能,当分类偏向于多数类时,Recall值较高,但Specificity值接近于0,因此G-mean值也相应较低,偏向于少数类时同理。
在引入核距离时,核函数选择了高斯核函数。
各算法在测试集上的计算结果如表2和表3所示。
表2各方法性能评估指标结果
方法 | 准确率 | 精确率 | 召回率 | F1-score | G-mean |
不平衡数据 | 0.94 | 0.90425 | 1 | 0.949720 | 0.6324 |
SMOTE上采样 | 0.75 | 0.98387 | 0.71764 | 0.82993 | 0.71764 |
ADASYN上采样 | 0.67 | 0.95588 | 0.635294 | 0.76595 | 0.63529 |
BorderlineSMOTE | 0.77 | 0.95588 | 0.7647 | 0.84967 | 0.7647 |
本文方法 | 0.97 | 0.98809 | 0.97647 | 0.98224 | 0.96747 |
各方法混淆矩阵如表3所示。
表3.各方法混淆矩阵
通过实验结果可见,本发明所提方法对比传统方法在各个种评价指标上均获得了较好的结果,证明本方法在流化床结块故障监测问题中的有效性。
Claims (4)
1.基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法,该方法包括如下步骤:
步骤S1:利用声波传感器采集流化床外壁振动信号,进行人工标注并提取特征;故障样本数量取决于采样期间发生结块故障的次数,本方法至少需要故障样本十几个;由于故障样本数量远远少于正常样本,因此形成不平衡样本集;
步骤S2:针对上述步骤中产生的样本集不平衡问题,计算获得平衡样本集即故障样本与正常样本数量大致相当时,通过上采样方法生成的故障样本数量;
步骤S3:估计故障样本的概率密度分布函数,并以此为参考生成新的故障样本;
步骤S4:评估生成新的故障样本的合理性,利用接受拒绝采样判断其是否符合原始结块故障样本的概率密度分布,若满足则保留,若不满足则剔除;最终获得符合原故障样本概率密度分布的新故障样本;将新故障样本加入原始故障类样本中,此时故障样本的数量与正常样本数量相当,训练集不平衡问题得到解决,新的平衡样本集用于结块故障建模;
步骤S5:进行结块故障离线建模,在新的平衡样本集基础上,利用支持向量机算法得到最终的结块故障监测模型,用于在线监测结块故障;
步骤S6:进行结块故障在线监测预警;通过振动监测装置实时获取振动信号进行特征提取,送入步骤S5所得到的故障监测模型中实时监测流化床装置运行状态,出现结块信号则报警,实现在线监测。
2.根据权利要求1所述的基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法,其特征在于:步骤2包含如下流程,
步骤S2-1:计算结块故障样本和正常样本的比例,定义为不平衡度;计故障样本个数为N+,人工标注的正常工况样本为N-,其中N+<<N-;则不平衡度为:
D=N+/N- (1)
步骤S2-2:计算需要生成的故障样本数量为:
G=(N--N+)×β (2)
其中β∈[0,1],当β=1时,上采样后的数据集为完全平衡数据集,β=0时则不进行上采样;在实际应用中根据情况选择;
步骤S2-3:对每个故障样本利用核距离计算其k近邻,同时计算其中正常样本邻居占比r,并进行标准化:
ri=Δ/k (3)
3.根据权利要求1所述的基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法,其特征在于:步骤3包含如下流程,
S是故障样本协方差的无偏估计:
引入S后,通过公式(6)所估计的概率密度函数反应故障样本集的真实分布;
通过网格搜索法求得使式(9)取值最小的σ值,为最优σ;
步骤S3-3:根据概率密度估计进行样本生成;基于离散均匀分布,从故障样本中随机抽取一个故障样本x0,通过步骤S4和S5中所求的参数进行样本生成;
xn=x0+σR*randn() (10)
其中R是协方差矩阵S的切比雪夫分解,是具有严格正对角项的上三角矩阵;
RTR=S (11)
randn()是服从零-均值正态分布的m维伪随机向量,其协方差矩阵为Im。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110210676.3A CN113032726B (zh) | 2021-02-25 | 2021-02-25 | 基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110210676.3A CN113032726B (zh) | 2021-02-25 | 2021-02-25 | 基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032726A true CN113032726A (zh) | 2021-06-25 |
CN113032726B CN113032726B (zh) | 2023-11-24 |
Family
ID=76461576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110210676.3A Active CN113032726B (zh) | 2021-02-25 | 2021-02-25 | 基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032726B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118052540A (zh) * | 2024-04-16 | 2024-05-17 | 北汽利戴工业技术服务(北京)有限公司 | 一种设备维修方案智能管理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103868692A (zh) * | 2014-03-18 | 2014-06-18 | 电子科技大学 | 基于核密度估计和k-l散度的旋转机械故障诊断方法 |
CN108228716A (zh) * | 2017-12-05 | 2018-06-29 | 华南理工大学 | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 |
WO2019041629A1 (zh) * | 2017-08-30 | 2019-03-07 | 哈尔滨工业大学深圳研究生院 | 基于svm的高维不平衡数据分类方法 |
CN110399854A (zh) * | 2019-07-31 | 2019-11-01 | 中南大学 | 基于混合特征提取的滚动轴承故障分类方法 |
CN111881988A (zh) * | 2020-07-31 | 2020-11-03 | 北京航空航天大学 | 基于少数类过采样方法的异质不平衡数据故障检测方法 |
US20200372383A1 (en) * | 2019-05-24 | 2020-11-26 | Canon Information And Imaging Solutions, Inc. | Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset |
-
2021
- 2021-02-25 CN CN202110210676.3A patent/CN113032726B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103868692A (zh) * | 2014-03-18 | 2014-06-18 | 电子科技大学 | 基于核密度估计和k-l散度的旋转机械故障诊断方法 |
WO2019041629A1 (zh) * | 2017-08-30 | 2019-03-07 | 哈尔滨工业大学深圳研究生院 | 基于svm的高维不平衡数据分类方法 |
CN108228716A (zh) * | 2017-12-05 | 2018-06-29 | 华南理工大学 | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 |
US20200372383A1 (en) * | 2019-05-24 | 2020-11-26 | Canon Information And Imaging Solutions, Inc. | Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset |
CN110399854A (zh) * | 2019-07-31 | 2019-11-01 | 中南大学 | 基于混合特征提取的滚动轴承故障分类方法 |
CN111881988A (zh) * | 2020-07-31 | 2020-11-03 | 北京航空航天大学 | 基于少数类过采样方法的异质不平衡数据故障检测方法 |
Non-Patent Citations (2)
Title |
---|
王喆: "基于声信号的聚乙烯流化床结块故障监测方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊) 工程科技I辑》 * |
石洪波等: "SMOTE过采样及其改进算法研究综述", 《智能系统学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118052540A (zh) * | 2024-04-16 | 2024-05-17 | 北汽利戴工业技术服务(北京)有限公司 | 一种设备维修方案智能管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113032726B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353482B (zh) | 一种基于lstm的疲劳因子隐性异常检测及故障诊断方法 | |
Abid et al. | Distinct bearing faults detection in induction motor by a hybrid optimized SWPT and aiNet-DAG SVM | |
CN103955750B (zh) | 基于特征融合和粒子滤波的滚动轴承剩余寿命预测方法 | |
CN109816031B (zh) | 一种基于数据不均衡度量的变压器状态评估聚类分析方法 | |
CN110324316A (zh) | 一种基于多种机器学习算法的工控异常行为检测方法 | |
CN111562108A (zh) | 一种基于cnn和fcmc的滚动轴承智能故障诊断方法 | |
CN108073158A (zh) | 基于pca和knn密度算法风电机组轴承故障诊断方法 | |
CN107784325A (zh) | 基于数据驱动增量融合的螺旋式故障诊断模型 | |
CN113762329A (zh) | 一种大型轧机状态预测模型的构建方法及构建系统 | |
CN110222765B (zh) | 一种永磁同步电机健康状态监测方法及系统 | |
CN114707571B (zh) | 基于增强隔离森林的信用数据异常检测方法 | |
CN101738998B (zh) | 一种基于局部判别分析的工业过程监测系统及方法 | |
CN111191720B (zh) | 一种业务场景的识别方法、装置及电子设备 | |
CN114422184A (zh) | 基于机器学习的网络安全攻击类型和威胁等级预测方法 | |
CN112199888B (zh) | 一种基于深度残差网络的旋转设备故障诊断方法、系统及可读存储介质 | |
CN111833175A (zh) | 基于knn算法的互联网金融平台申请欺诈行为检测方法 | |
CN113537321A (zh) | 一种基于孤立森林和x均值的网络流量异常检测方法 | |
CN111428772B (zh) | 基于k-近邻自适应投票的光伏系统深度异常检测方法 | |
CN115130578A (zh) | 一种基于增量式粗糙聚类的配电设备状态在线评估方法 | |
CN102945222A (zh) | 一种基于灰色理论的乏信息测量数据粗大误差判别方法 | |
CN113032726A (zh) | 基于核概率密度估计的加权上采样方法用于流化床结块故障监测方法 | |
CN116796271A (zh) | 一种居民用能异常识别方法 | |
CN110830504A (zh) | 一种网络入侵行为检测方法及系统 | |
CN113608968A (zh) | 一种基于密度距离综合决策的电力调度监控数据异常检测方法 | |
CN111474476B (zh) | 一种电机故障预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |