CN115905894A - 基于小样本不平衡数据的设备剩余周期分析方法及装置 - Google Patents
基于小样本不平衡数据的设备剩余周期分析方法及装置 Download PDFInfo
- Publication number
- CN115905894A CN115905894A CN202310031196.XA CN202310031196A CN115905894A CN 115905894 A CN115905894 A CN 115905894A CN 202310031196 A CN202310031196 A CN 202310031196A CN 115905894 A CN115905894 A CN 115905894A
- Authority
- CN
- China
- Prior art keywords
- data
- equipment
- sample
- cluster
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 14
- 239000002245 particle Substances 0.000 claims abstract description 108
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 13
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术,揭露了一种基于小样本不平衡数据的设备剩余周期分析方法,包括:对获取的设备数据进行聚类,得到所述设备数据的粗糙聚类集;根据粗糙聚类集生成设备数据的粒子区域,利用粒子区域和预设的粒子群适应度算法生成设备数据的最优聚类中心;根据最优聚类中心确定聚类样本中的不平衡样本为目标样本,对目标样本进行新增处理,得到目标样本的平衡样本;根据构建的AdaBoost‑KNN分类器对平衡样本进行分类,得到平衡样本的分类样本,根据所述分类样本确定所述设备的设备剩余周期。本发明还提出一种基于小样本不平衡数据的设备剩余周期分析装置。本发明可以提高设备剩余周期分析的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于小样本不平衡数据的设备剩余周期分析方法及装置。
背景技术
随着科技的进步,现代社会对设备数据准确性要求越来越高。在设备运行过程中,老化和状态异常很有可能会对设备的服役效率产生巨大影响,一旦设备运行状态或是剩余寿命被错误评估,可能会引发严重的人员伤亡和财产损失,预测与健康管理成为越来越多学者研究的对象,有效地评估设备的状态和寿命显得愈发重要。
很多情况下往往不能从测量工序中获得最完美的数据,得到的数据有可能会出现样本不平衡、存在异常值等问题,而这些问题很有可能会在后续的计算过程中带来不必要的误差,从而造成巨大的经济损失,因此如何提升设备剩余周期分析时准确性,成为了亟待解决的问题。
发明内容
本发明提供一种基于小样本不平衡数据的设备剩余周期分析方法及装置,其主要目的在于解决设备剩余周期分析时准确性较低的问题。
为实现上述目的,本发明提供的一种基于小样本不平衡数据的设备剩余周期分析方法,包括:
获取设备的设备数据,利用预设的类簇中心算法对所述设备数据进行聚类,得到所述设备数据的粗糙聚类集;
根据所述粗糙聚类集生成所述设备数据的粒子区域,利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心;
根据所述最优聚类中心生成所述源数据的聚类样本,选取所述聚类样本中的不平衡样本为目标样本,对所述目标样本进行新增处理,得到所述目标样本的平衡样本;
建立AdaBoost-KNN分类器,根据所述AdaBoost-KNN分类器对所述平衡样本进行分类,得到所述平衡样本的分类样本,根据所述分类样本确定所述设备的设备剩余周期。
可选地,所述利用预设的类簇中心算法对所述设备数据进行聚类,得到所述设备数据的粗糙聚类集,包括:
对所述设备数据进行初始聚类化处理,得到所述设备数据的初始聚类中心;
利用预设的距离公式逐个计算所述设备数据与所述初始聚类中心的欧氏距离;
根据所述欧氏距离和所述初始聚类中心对所述设备数据进行数据分配,得到所述设备数据的粗糙聚类集。
可选地,所述对所述设备数据进行初始聚类化处理,得到所述设备数据的初始聚类中心,包括:
对所述设备数据进行特征提取,得到所述设备数据的数据特征;
根据预设的聚类中心数和所述数据特征选取若干个所述设备数据作为初始聚类中心。
可选地,所述利用预设的距离公式逐个计算所述设备数据与所述初始聚类中心的欧氏距离,包括:
利用如下距离公式计算所述设备数据与所述初始聚类中心的欧氏距离:
其中,是欧氏距离,是第个对象,是第个聚类中心,是属性总数,是表示第个对象的第个属性,是第个聚类中心的第个属性,是对象标识,是聚类中心标识,是属性标识。
可选地,所述根据所述粗糙聚类集生成所述设备数据的粒子区域,包括:
根据所述粗糙聚类集确定坐标最值对应的聚类数据为目标数据,根据所述目标数据确定所述设备数据的粒子区域,其中,所述坐标最值包括:横坐标最大值、横坐标最小值、纵坐标最小值、纵坐标最大值。
可选地,所述利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心,包括:
对所述粒子区域内的粒子进行随机初始化,得到初始化粒子;
计算所述初始化粒子的个体极值和全局极值,利用预设的粒子群适应度算法、所述个体极值和所述全局极值更新所述初始化粒子的最优位置;
根据所述最优位置生成所述设备数据的最优聚类中心。
可选地,所述利用预设的粒子群适应度算法、所述个体极值和所述全局极值更新所述初始化粒子的最优位置,包括:
根据所述个体极值和所述全局极值更新逐个更新所述初始化粒子的速度和位置;
利用更新后的初始化例子和所述预设的粒子群适应度算法生成所述初始化粒子的函数适应值,其中,所述预设的粒子群适应度算法为:
其中,是粒子群适应度,是距离总数,是距离标识,是同簇中聚类中心到所有数据点的距离;
利用所述函数适应值更新对所述初始化粒子进行最优更新,得到所述初始化粒子的最优位置。
可选地,所述对所述目标样本进行新增处理,得到所述目标样本的平衡样本,包括:
根据所述目标样本计算所述目标样本与同簇样本的平均距离,计算所述目标样本与所述最优聚类中心的聚类距离;
当所述聚类距离小于或者等于所述平均距离时,根据预设的新增算法对所述目标数据进行新增处理,得到所述目标样本的平衡样本,其中,所述预设的新增算法为:
其中,是新增样本,是所述目标样本,所述目标样本的均值,是0-1的随机函数。
可选地,所述建立AdaBoost-KNN分类器,包括:
获取AdaBoost-KNN分类器的训练集,对所述训练集的数据样本权重进行初始化,得到所述训练集的初始化权重;
利用所述初始化权重和所述训练集对所述AdaBoost-KNN分类器进行训练,得到所述AdaBoost-KNN分类器的弱分类器;
计算所述弱分类器的分类误差率,利用所述分类误差率对所述训练集进行权重分布更新,得到所述训练集的更新权重,根据所述更新权重生成最终分类器,确定所述最终分类器为训练完成的AdaBoost-KNN分类器。
为了解决上述问题,本发明还提供一种基于小样本不平衡数据的设备剩余周期分析装置,所述装置包括:
数据聚类模块,用于获取设备的设备数据,利用预设的类簇中心算法对所述设备数据进行聚类,得到所述设备数据的粗糙聚类集;
最优聚类模块,用于根据所述粗糙聚类集生成所述设备数据的粒子区域,利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心;
平衡样本模块,用于根据所述最优聚类中心生成所述源数据的聚类样本,选取所述聚类样本中的不平衡样本为目标样本,对所述目标样本进行新增处理,得到所述目标样本的平衡样本;
周期分析模块,用于建立AdaBoost-KNN分类器,根据所述AdaBoost-KNN分类器对所述平衡样本进行分类,得到所述平衡样本的分类样本,根据所述分类样本确定所述设备的设备剩余周期。
本发明实施例通过预设的类簇中心算法对所述设备数据进行聚类是因为所述预设的类簇中心算法的可解释度比较强,并且主要需要调参的参数仅仅是簇数,实现了所述设备数据的初步聚类,生成所述设备数据的粒子区域,利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心,是为了限制所述设备数据进行聚类时的速度和位置,增加了寻找聚类中心的准确度并提高了聚类效率,对生成的目标样本进行新增处理,是为了防止数据不足带来的误差,建立AdaBoost-KNN分类器,根据所述AdaBoost-KNN分类器对所述平衡样本进行分类,利用了AdaBoost算法和KNN算法,通过迭代与增加错误分类样本的权重不断降低误差率以提高学习器的准确率,所述AdaBoost-KNN分类器的分类精确度更高,因此本发明提出基于小样本不平衡数据的设备剩余周期分析方法及装置,可以解决设备剩余周期分析准确性较低的问题。
附图说明
图1为本发明一实施例提供的基于小样本不平衡数据的设备剩余周期分析方法的流程示意图;
图2为本发明一实施例提供的设备数据聚类的流程示意图;
图3为本发明一实施例提供的生成最优聚类中心的流程示意图;
图4为本发明一实施例提供的基于小样本不平衡数据的设备剩余周期分析装置的功能模块图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于小样本不平衡数据的设备剩余周期分析方法。所述基于小样本不平衡数据的设备剩余周期分析方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于小样本不平衡数据的设备剩余周期分析方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于小样本不平衡数据的设备剩余周期分析方法的流程示意图。在本实施例中,所述基于小样本不平衡数据的设备剩余周期分析方法包括:
S1、获取设备的设备数据,利用预设的类簇中心算法对所述设备数据进行聚类,得到所述设备数据的粗糙聚类集。
在本发明实施例中,所述设备数据包括但不限于:设备生产厂商、设备使用寿命、设备额定电压、设备功率、设备原厂商等;所述粗糙聚类集是指经过所述预设的类簇中心算法得到的数据集合,但是这个数据集合只是初步的分类,不是最终的聚类结果。
详细地,所述预设的类簇中心算法为:
其中,是表示第个聚类中心,是第个类簇对象,是聚类中心标识,是对象标识,是第个对象,是第个类簇对象中对象个数, 是第个对象中的第个聚类数据,是对象中的聚类数据的标识。
在本发明实施例中,参图2所示,所述利用预设的类簇中心算法对所述设备数据进行聚类,得到所述设备数据的粗糙聚类集,包括:
S21、对所述设备数据进行初始聚类化处理,得到所述设备数据的初始聚类中心;
S22、利用预设的距离公式逐个计算所述设备数据与所述初始聚类中心的欧氏距离;
S23、根据所述欧氏距离和所述初始聚类中心对所述设备数据进行数据分配,得到所述设备数据的粗糙聚类集。
详细地,所述欧氏距离也称欧几里得距离,是最常见的距离度量,衡量的是多维空间中两个点之间的绝对距离;所述数据分配是指依次比较所述欧氏距离的大小,将进行比较的点分配到距离最小的聚类中心。
详细地,所述对所述设备数据进行初始聚类化处理,得到所述设备数据的初始聚类中心,包括:
对所述设备数据进行特征提取,得到所述设备数据的数据特征;
根据预设的聚类中心数和所述数据特征选取若干个所述设备数据作为初始聚类中心。
详细地,所述特征提取可以利用词袋模型或者Word2vec等,在进行所述设备数据的特征提取前,还需要对所述设备数据进行数据矫正;所述预设的聚类中心数是根据经验设定的或者基于大数据分析得到,所述预设的聚类中心数可以是3个,也可以是4个或者其他。
详细地,所述根据预设的聚类中心数和所述数据特征选取若干个所述设备数据作为初始聚类中心,可以选取所述设备数据中特征最明显的数据作为初始聚类中心,其中,特征最明显的数据可以基于数据的值或者数据的属性进行判断。
详细地,所述利用预设的距离公式逐个计算所述设备数据与所述初始聚类中心的欧氏距离,包括:
利用如下距离公式计算所述设备数据与所述初始聚类中心的欧氏距离:
其中,是欧氏距离,是第个对象,是第个聚类中心,是属性总数,是表示第个对象的第个属性,是第个聚类中心的第个属性,是对象标识,是聚类中心标识,是属性标识。
S2、根据所述粗糙聚类集生成所述设备数据的粒子区域,利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心。
在本发明实施例中,所述粒子区域是指所述预设的粒子群适应度算法的取值范围,利用所述粒子区域对所述设备数据的聚类进行限制,提高粒子进行寻优时的准确性,亦即,增加了寻找聚类中心的准确度并提高了聚类效率。
在本发明实施例中,所述根据所述粗糙聚类集生成所述设备数据的粒子区域,包括:
根据所述粗糙聚类集确定坐标最值对应的聚类数据为目标数据,根据所述目标数据确定所述设备数据的粒子区域,其中,所述坐标最值包括:横坐标最大值、横坐标最小值、纵坐标最小值、纵坐标最大值。
详细地,所述粒子区域进行了位置限制,所述位置限制是指限制粒子搜索的空间,即自变量的取值范围,
在本发明实施例中,参图3所示,所述利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心,包括:
S31、对所述粒子区域内的粒子进行随机初始化,得到初始化粒子;
S32、计算所述初始化粒子的个体极值和全局极值,利用预设的粒子群适应度算法、所述个体极值和所述全局极值更新所述初始化粒子的最优位置;
S33、根据所述最优位置生成所述设备数据的最优聚类中心。
详细地,所述初始化粒子是指具有初始位置和初始速度的所述例子区域内的粒子。
详细地,所述预设的粒子群适应度算法可以提高更新速度,所述粒子区域内的粒子的初始种群内的粒子数是50-1000的范围都可以,虽然初始种群越大收敛性会更好,不过太大了也会影响速度;更新次数也称迭代次数,一般取100-4000,太少解不稳定,太多浪费时间,对于复杂问题,迭代次数可以相应地提高。
详细地,所述利用预设的粒子群适应度算法、所述个体极值和所述全局极值更新所述初始化粒子的最优位置,包括:
根据所述个体极值和所述全局极值更新逐个更新所述初始化粒子的速度和位置;
利用更新后的初始化例子和所述预设的粒子群适应度算法生成所述初始化粒子的函数适应值,其中,所述预设的粒子群适应度算法为:
其中,是粒子群适应度,是距离总数,是距离标识,是同簇中聚类中心到所有数据点的距离;
利用所述函数适应值更新对所述初始化粒子进行最优更新,得到所述初始化粒子的最优位置。
详细地,所述初始化粒子的速度决定了所述初始化粒子会不会飞过最优解位置或者达到最优解位置的时间,如果粒子飞行速度过快,很可能直接飞过最优解位置,但是如果飞行速度过慢,会使得收敛速度变慢,因此设置合理的速度限制就很有必要了。
详细地,所述个体极值就是粒子在最好位置所得到的目标函数的值,所述全局极值就是在所有粒子的个体极值中最大或是最小的那个值,与只对应的就是全局最优粒子的位置,对有约束的优化函数,一般是将约束条件加入到目标函数中,然后计算总体的值,以此来作为评价标准。
进一步地,在利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心过程中每个粒子都记忆自己的最好位置,即从进化开始到现在这个粒子能使目标函数达到最大或是最小的那个时刻粒子的位置,从随机解出发,通过迭代寻找最优解,它也是通过适应度来评价解的品质,但它比遗传算法规则更为简单,它没有遗传算法的“交叉”和“变异”操作,它通过追随当前搜索到的最优值来寻找全局最优。这种算法以其实现容易、精度高、收敛快等优点。
S3、根据所述最优聚类中心生成所述源数据的聚类样本,选取所述聚类样本中的不平衡样本为目标样本,对所述目标样本进行新增处理,得到所述目标样本的平衡样本。
在本发明实施例中,现代工业中,在未添加标签的数据被聚类之后依然会存在样本不平衡的问题。其中最突出的问题为少数类样本过少或存在异常样本,针对以上问题,本本发明实施例提出了利用预设的新增算法对不平衡状态下的数据进行处理,规避原始数据在后续组合算法中可能出现的误差。
在本发明实施例中,所述对所述目标样本进行新增处理,得到所述目标样本的平衡样本,包括:
根据所述目标样本计算所述目标样本与同簇样本的平均距离,计算所述目标样本与所述最优聚类中心的聚类距离;
当所述聚类距离小于或者等于所述平均距离时,根据预设的新增算法对所述目标数据进行新增处理,得到所述目标样本的平衡样本,其中,所述预设的新增算法为:
其中,是新增样本,是所述目标样本,所述目标样本的均值,是0-1的随机函数。
一般地,排除检测机器带来的误差,受检测设备的异常数据相比正常数据往往分布较特殊,因此可以通过计算点位间的距离作为寻找异常样本点的原则,预设的新增算法的思路是通过比较同簇样本距离均值与同簇样本点到聚类中心的欧氏距离将分布较远的样本点视为异常样本点并将其排除。
S4、建立AdaBoost-KNN分类器,根据所述AdaBoost-KNN分类器对所述平衡样本进行分类,得到所述平衡样本的分类样本,根据所述分类样本确定所述设备的设备剩余周期。
在本发明实施例中,利用集成学习技术生成AdaBoost-KNN分类器,集成算法通过一定的策略将多个学习器结合起来以达到更好的学习效果,按照学习器之间的关系可分为bagging、boosting和stacking三大类。AdaBoost算法是在boosting的基础之上通过迭代与增加错误分类样本的权重不断降低误差率以提高学习器的准确率,相较于传统的数据处理模型,AdaBoost-KNN分类器的精确度更高。
在本发明实施例中,所述建立AdaBoost-KNN分类器,包括:
获取AdaBoost-KNN分类器的训练集,对所述训练集的数据样本权重进行初始化,得到所述训练集的初始化权重;
利用所述初始化权重和所述训练集对所述AdaBoost-KNN分类器进行训练,得到所述AdaBoost-KNN分类器的弱分类器;
计算所述弱分类器的分类误差率,利用所述分类误差率对所述训练集进行权重分布更新,得到所述训练集的更新权重,根据所述更新权重生成最终分类器,确定所述最终分类器为训练完成的AdaBoost-KNN分类器。
详细地,所述弱分类器就是分类准确率较低的分类器,如果一个分类器的分类准确率在60%-80%,即:比随机预测略好,但准确率却不太高,我们可以称之为“弱分类器”,反之,如果分类精度90%以上,则是强分类器。
详细地,在二分类中,对于任意一个叶子节点,假设p是其中一个类别A占比,当一个叶子类目中的类别A占比较多时(p>0.5),进入该叶子结点的样本就会被判别为类别A,那么剩下的占比为1-p的(类别B)样本则会被分类错误,随之产生的分类误差率就是1-p;反之,当叶子结点中类别A样本较少(p≤0.5)时,该叶子结点就表示类别B,所有进入该节点的类别A样本将会被分类错误,随之产生的分类误差率就是p。
详细地,AdaBoost-KNN分类器中的AdaBoost算法基本原理就是将多个弱分类器(弱分类器一般选用单层决策树)进行合理的结合,使其成为一个强分类器,Adaboost采用迭代的思想,每次迭代只训练一个弱分类器,训练好的弱分类器将参与下一次迭代的使用。也就是说,在第N次迭代中,一共就有N个弱分类器,其中N-1个是以前训练好的,其各种参数都不再改变,本次训练第N个分类器。其中弱分类器的关系是第N个弱分类器更可能分对前N-1个弱分类器没分对的数据,最终分类输出要看这N个分类器的综合效果。
详细地,所述AdaBoost算法中有两种权重,一种是数据的权重,另一种是弱分类器的权重,其中,数据的权重主要用于弱分类器寻找其分类误差最小的决策点,找到之后用这个最小误差计算出该弱分类器的权重(发言权),分类器权重越大说明该弱分类器在最终决策时拥有更大的发言权。
进一步地,在Adaboost算法中,每训练完一个弱分类器都就会调整权重,上一轮训练中被误分类的点的权重会增加,在本轮训练中,由于权重影响,本轮的弱分类器将更有可能把上一轮的误分类点分对,如果还是没有分对,那么分错的点的权重将继续增加,下一个弱分类器将更加关注这个点,尽量将其分对。
详细地,所述AdaBoost-KNN分类器中的KNN是指K近邻算法,KNN的全称是KNearest Neighbors,其中,K值选择是KNN算法的关键,K值选择对近邻算法的结果有重大影响,K值的具体含义是在决策时通过依据测试样本的K个最近邻"数据样本"做决策判断,K值一般取较小值,通常采用交叉验证法来选取最优K值,也就是比较不同的K值时的交叉验证平均误差,选择平均误差最小的那个K值,可以理解为对K值的选择就是对训练模型中参数的选择。
详细地,所述根据所述分类样本确定所述设备的设备剩余周期是按照预设的状况对应规则确定所述设备的设备剩余周期,所述预设的状况对应规则规定了样本的状态标签,例如:输出的值是1时,表示所述设备的剩余周期对应某一阶段,阶段包括但不限于:优秀、良好、差等。
本发明实施例通过预设的类簇中心算法对所述设备数据进行聚类是因为所述预设的类簇中心算法的可解释度比较强,并且主要需要调参的参数仅仅是簇数,实现了所述设备数据的初步聚类,生成所述设备数据的粒子区域,利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心,是为了限制所述设备数据进行聚类时的速度和位置,增加了寻找聚类中心的准确度并提高了聚类效率,对生成的目标样本进行新增处理,是为了防止数据不足带来的误差,建立AdaBoost-KNN分类器,根据所述AdaBoost-KNN分类器对所述平衡样本进行分类,利用了AdaBoost算法和KNN算法,通过迭代与增加错误分类样本的权重不断降低误差率以提高学习器的准确率,所述AdaBoost-KNN分类器的分类精确度更高,因此本发明提出基于小样本不平衡数据的设备剩余周期分析方法,可以解决设备剩余周期分析准确性较低的问题。
如图4所示,是本发明一实施例提供的基于小样本不平衡数据的设备剩余周期分析装置的功能模块图。
本发明所述基于小样本不平衡数据的设备剩余周期分析装置100可以安装于电子设备中。根据实现的功能,所述基于小样本不平衡数据的设备剩余周期分析装置100可以包括数据聚类模块101、最优聚类模块102、平衡样本模块103及周期分析模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据聚类模块101,用于获取设备的设备数据,利用预设的类簇中心算法对所述设备数据进行聚类,得到所述设备数据的粗糙聚类集;
所述最优聚类模块102,用于根据所述粗糙聚类集生成所述设备数据的粒子区域,利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心;
所述平衡样本模块103,用于根据所述最优聚类中心生成所述源数据的聚类样本,选取所述聚类样本中的不平衡样本为目标样本,对所述目标样本进行新增处理,得到所述目标样本的平衡样本;
所述周期分析模块104,用于建立AdaBoost-KNN分类器,根据所述AdaBoost-KNN分类器对所述平衡样本进行分类,得到所述平衡样本的分类样本,根据所述分类样本确定所述设备的设备剩余周期。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于小样本不平衡数据的设备剩余周期分析方法,其特征在于,所述方法包括:
获取设备的设备数据,利用预设的类簇中心算法对所述设备数据进行聚类,得到所述设备数据的粗糙聚类集,其中,所述预设的类簇中心算法为:
其中,是表示第个聚类中心,是第个类簇对象,是聚类中心标识,是对象标识,是第个对象,是第个类簇对象中对象个数, 是第个对象中的第个聚类数据,是对象中的聚类数据的标识;
根据所述粗糙聚类集生成所述设备数据的粒子区域,利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心;
根据所述最优聚类中心生成源数据的聚类样本,选取所述聚类样本中的不平衡样本为目标样本,对所述目标样本进行新增处理,得到所述目标样本的平衡样本;
建立AdaBoost-KNN分类器,根据所述AdaBoost-KNN分类器对所述平衡样本进行分类,得到所述平衡样本的分类样本,根据所述分类样本确定所述设备的设备剩余周期。
2.如权利要求1所述的基于小样本不平衡数据的设备剩余周期分析方法,其特征在于,所述利用预设的类簇中心算法对所述设备数据进行聚类,得到所述设备数据的粗糙聚类集,包括:
对所述设备数据进行初始聚类化处理,得到所述设备数据的初始聚类中心;
利用预设的距离公式逐个计算所述设备数据与所述初始聚类中心的欧氏距离;
根据所述欧氏距离和所述初始聚类中心对所述设备数据进行数据分配,得到所述设备数据的粗糙聚类集。
3.如权利要求2所述的基于小样本不平衡数据的设备剩余周期分析方法,其特征在于,所述对所述设备数据进行初始聚类化处理,得到所述设备数据的初始聚类中心,包括:
对所述设备数据进行特征提取,得到所述设备数据的数据特征;
根据预设的聚类中心数和所述数据特征选取若干个所述设备数据作为初始聚类中心。
4.如权利要求2所述的基于小样本不平衡数据的设备剩余周期分析方法,其特征在于,所述利用预设的距离公式逐个计算所述设备数据与所述初始聚类中心的欧氏距离,包括:
利用如下距离公式计算所述设备数据与所述初始聚类中心的欧氏距离:
其中,是欧氏距离,是第个对象,是第个聚类中心,是属性总数,是表示第个对象的第个属性,是第个聚类中心的第个属性,是对象标识,是聚类中心标识,是属性标识。
5.如权利要求1所述的基于小样本不平衡数据的设备剩余周期分析方法,其特征在于,所述根据所述粗糙聚类集生成所述设备数据的粒子区域,包括:
根据所述粗糙聚类集确定坐标最值对应的聚类数据为目标数据,根据所述目标数据确定所述设备数据的粒子区域,其中,所述坐标最值包括:横坐标最大值、横坐标最小值、纵坐标最小值、纵坐标最大值。
6.如权利要求1所述的基于小样本不平衡数据的设备剩余周期分析方法,其特征在于,所述利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心,包括:
对所述粒子区域内的粒子进行随机初始化,得到初始化粒子;
计算所述初始化粒子的个体极值和全局极值,利用预设的粒子群适应度算法、所述个体极值和所述全局极值更新所述初始化粒子的最优位置;
根据所述最优位置生成所述设备数据的最优聚类中心。
7.如权利要求6所述的基于小样本不平衡数据的设备剩余周期分析方法,其特征在于,所述利用预设的粒子群适应度算法、所述个体极值和所述全局极值更新所述初始化粒子的最优位置,包括:
根据所述个体极值和所述全局极值更新逐个更新所述初始化粒子的速度和位置;
利用更新后的初始化例子和所述预设的粒子群适应度算法生成所述初始化粒子的函数适应值,其中,所述预设的粒子群适应度算法为:
其中,是粒子群适应度,是距离总数,是距离标识,是同簇中聚类中心到所有数据点的距离;
利用所述函数适应值更新对所述初始化粒子进行最优更新,得到所述初始化粒子的最优位置。
8.如权利要求1所述的基于小样本不平衡数据的设备剩余周期分析方法,其特征在于,所述对所述目标样本进行新增处理,得到所述目标样本的平衡样本,包括:
根据所述目标样本计算所述目标样本与同簇样本的平均距离,计算所述目标样本与所述最优聚类中心的聚类距离;
当所述聚类距离小于或者等于所述平均距离时,根据预设的新增算法对所述目标数据进行新增处理,得到所述目标样本的平衡样本,其中,所述预设的新增算法为:
其中,是新增样本,是所述目标样本,所述目标样本的均值,是0-1的随机函数。
9.如权利要求1至8中任一项所述的基于小样本不平衡数据的设备剩余周期分析方法,其特征在于,所述建立AdaBoost-KNN分类器,包括:
获取AdaBoost-KNN分类器的训练集,对所述训练集的数据样本权重进行初始化,得到所述训练集的初始化权重;
利用所述初始化权重和所述训练集对所述AdaBoost-KNN分类器进行训练,得到所述AdaBoost-KNN分类器的弱分类器;
计算所述弱分类器的分类误差率,利用所述分类误差率对所述训练集进行权重分布更新,得到所述训练集的更新权重,根据所述更新权重生成最终分类器,确定所述最终分类器为训练完成的AdaBoost-KNN分类器。
10.一种基于小样本不平衡数据的设备剩余周期分析装置,其特征在于,所述装置包括:
数据聚类模块,用于获取设备的设备数据,利用预设的类簇中心算法对所述设备数据进行聚类,得到所述设备数据的粗糙聚类集;
最优聚类模块,用于根据所述粗糙聚类集生成所述设备数据的粒子区域,利用所述粒子区域和预设的粒子群适应度算法生成所述设备数据的最优聚类中心;
平衡样本模块,用于根据所述最优聚类中心生成源数据的聚类样本,选取所述聚类样本中的不平衡样本为目标样本,对所述目标样本进行新增处理,得到所述目标样本的平衡样本;
周期分析模块,用于建立AdaBoost-KNN分类器,根据所述AdaBoost-KNN分类器对所述平衡样本进行分类,得到所述平衡样本的分类样本,根据所述分类样本确定所述设备的设备剩余周期。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310031196.XA CN115905894A (zh) | 2023-01-10 | 2023-01-10 | 基于小样本不平衡数据的设备剩余周期分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310031196.XA CN115905894A (zh) | 2023-01-10 | 2023-01-10 | 基于小样本不平衡数据的设备剩余周期分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115905894A true CN115905894A (zh) | 2023-04-04 |
Family
ID=86495697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310031196.XA Pending CN115905894A (zh) | 2023-01-10 | 2023-01-10 | 基于小样本不平衡数据的设备剩余周期分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115905894A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868775A (zh) * | 2016-03-23 | 2016-08-17 | 深圳市颐通科技有限公司 | 基于pso算法的不平衡样本分类方法 |
CN109829492A (zh) * | 2019-01-22 | 2019-05-31 | 长安大学 | 一种用于不平衡数据的分类方法 |
-
2023
- 2023-01-10 CN CN202310031196.XA patent/CN115905894A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868775A (zh) * | 2016-03-23 | 2016-08-17 | 深圳市颐通科技有限公司 | 基于pso算法的不平衡样本分类方法 |
CN109829492A (zh) * | 2019-01-22 | 2019-05-31 | 长安大学 | 一种用于不平衡数据的分类方法 |
Non-Patent Citations (2)
Title |
---|
肖华勇主编: "统计计算与软件应用 第2版", 西北工业大学出版社, pages: 149 - 150 * |
陈扬等: "陌生小样本不平衡数据下基于机器学习联合算法的设备寿命预测研究", 计算机应用研究, vol. 38, no. 11, pages 3366 - 3375 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103559504B (zh) | 图像目标类别识别方法及装置 | |
US20190166024A1 (en) | Network anomaly analysis apparatus, method, and non-transitory computer readable storage medium thereof | |
CN111400180B (zh) | 一种基于特征集划分和集成学习的软件缺陷预测方法 | |
Bojer et al. | Relevance determination in Learning Vector Quantization. | |
CN105095494B (zh) | 一种对分类数据集进行测试的方法 | |
CN111027629A (zh) | 基于改进随机森林的配电网故障停电率预测方法及系统 | |
CN108564592A (zh) | 基于动态多种群集成差分进化算法的图像分割方法 | |
CN111343171A (zh) | 一种基于支持向量机的混合特征选择的入侵检测方法 | |
CN110991518A (zh) | 一种基于进化多任务的两阶段特征选择方法及系统 | |
CN110826617A (zh) | 态势要素分类方法及其模型的训练方法、装置及服务器 | |
CN107783998A (zh) | 一种数据处理的方法以及装置 | |
CN114116829A (zh) | 异常数据分析方法、异常数据分析系统和存储介质 | |
CN113378927A (zh) | 一种基于聚类的自适应加权过采样方法 | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
CN116993548A (zh) | 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统 | |
Chen et al. | Improving classification of imbalanced datasets based on km++ smote algorithm | |
CN108920477A (zh) | 一种基于二叉树结构的不平衡数据处理方法 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
CN114546609A (zh) | 一种面向异构集群的dnn推理任务批调度方法 | |
CN114332550A (zh) | 一种模型训练方法、系统及存储介质和终端设备 | |
CN114330090A (zh) | 一种缺陷检测方法、装置、计算机设备和存储介质 | |
de Araujo et al. | Impact of feature selection methods on the classification of DDoS attacks using XGBoost | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN115905894A (zh) | 基于小样本不平衡数据的设备剩余周期分析方法及装置 | |
CN116680969A (zh) | 一种pso-bp算法的充填体评估参数预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230404 |