CN117332342B - 一种基于半监督学习的机泵设备运行故障分类方法及装置 - Google Patents
一种基于半监督学习的机泵设备运行故障分类方法及装置 Download PDFInfo
- Publication number
- CN117332342B CN117332342B CN202311605367.1A CN202311605367A CN117332342B CN 117332342 B CN117332342 B CN 117332342B CN 202311605367 A CN202311605367 A CN 202311605367A CN 117332342 B CN117332342 B CN 117332342B
- Authority
- CN
- China
- Prior art keywords
- sample
- pump equipment
- model
- fault
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000013145 classification model Methods 0.000 claims abstract description 32
- 238000003066 decision tree Methods 0.000 claims description 35
- 230000009467 reduction Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 4
- 238000013138 pruning Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 239000007789 gas Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F04—POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
- F04B—POSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS
- F04B51/00—Testing machines, pumps, or pumping installations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Mechanical Engineering (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开揭示了一种基于半监督学习的机泵设备运行故障分类方法及装置,所述方法包括:S100:采集待测机泵设备的运行数据;S200:基于UMAP‑SS半监督学习框架构建机泵设备故障分类模型;S300:对所述机泵设备故障分类模型进行训练;S400:将所述待测机泵设备的运行数据输入训练好的机泵设备故障分类模型,以对待测机泵设备进行故障分类。本公开通过引入无标签样本对模型进行训练,能够提高机泵设备故障分类效果。
Description
技术领域
本公开属于机泵设备故障分类领域,具体涉及一种基于半监督学习的机泵设备运行故障分类方法及装置。
背景技术
近年来,在现代工业技术的推动下,机泵设备的运行结构更加合理和完善,与此同时,传统理论方法与新理论技术的结合,也丰富了机泵设备故障诊断方法。机泵设备故障分为常见故障和特殊故障,其中,故障原因可以概括为以下两种:其一,原件运行失常,机电设备长时间运行,其组成原件会发生老化,进而导致结构零件脱落、松动,致使设备稳定性大幅度降低;其二,温湿度原因,在通风条件不好的环境下运行,机电设备会因湿度过大而出现短路现象,使相关部件损害,从而影响设备的整体运行。
在机泵设备故障诊断过程中,由于前期主要依托人工采集数据,较少进行自动采集与实时诊断,因此有些时段的样本数据没有标签,导致了机泵故障情况的漏检,最终得到的部分机泵设备运行样本无法得以有效利用,从而使得模型训练效果不佳,故障分类精度较低。
发明内容
针对现有技术中的不足,本公开的目的在于提供一种基于半监督学习的机泵设备运行故障分类方法,该方法通过引入无标签样本对模型进行训练,能够提高机泵设备故障分类效果。
为实现上述目的,本公开提供以下技术方案:
一种基于半监督学习的机泵设备运行故障分类方法,包括如下步骤:
S100:采集待测机泵设备的运行数据;
S200:基于UMAP-SS半监督学习框架构建机泵设备故障分类模型;其中,所述机泵设备故障分类模型包括决策树层,所述决策树层使用对称决策树作为基本学习器,通过学习样本特征和标签之间的关系对机泵设备进行故障预测;
S300:对所述机泵设备故障分类模型进行训练;
S400:将所述待测机泵设备的运行数据输入训练好的机泵设备故障分类模型,以对待测机泵设备进行故障分类。
优选的,步骤S300中,所述机泵设备故障分类模型通过以下步骤训练:
S201:获取包括无标签样本和有标签样本的初始故障样本数据集;
S202:对有标签样本降维度,获得降维后的有标签样本;
S203:对无标签样本进行预测以获得伪标签,提取伪标签中的尾部样本,将尾部样本加入降维后的有标签样本后获得新的故障样本数据集,将新的故障样本数据集划分为训练集和测试集;
S204:设置训练参数,通过训练集对模型进行训练,当达到最大训练次数,模型训练完成;
S205:利用测试集对训练后的模型进行测试,在测试过程中,当分类精度达到95%,模型测试通过;否则调整训练参数重新对模型进行训练。
优选的,步骤S203中:通过统一流形逼近与投影非线性对有标签样本进行降维。
本公开还提供一种基于半监督学习的机泵设备运行故障分类装置,包括:
采集模块,用于采集待测机泵设备的运行数据;
模型构建模块,用于基于UMAP-SS半监督学习框架构建机泵设备故障分类模型;
其中,所述机泵设备故障分类模型包括特征转换层和决策树层,所述特征转换层通过目标编码将输入特征中的类别特征编码为数值特征,所述决策树层使用对称决策树作为基本学习器,通过学习样本特征和标签之间的关系对机泵设备进行故障预测;
训练模块,用于对所述机泵设备故障分类模型进行训练;
故障分类模块,用于将所述待测机泵设备的运行数据输入训练好的机泵设备故障分类模型,以对待测机泵设备进行故障分类。
本公开还提供一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如前任一所述的方法。
本公开还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法。
与现有技术相比,本公开带来的有益效果为:
1、着重考虑了部分机泵设备运行样本无标签带来的问题;
2、可有效降低机泵设备数据复杂度,通过统一流形逼近与投影的非线性降维方法对数据进行降维,降维后的数据特征更少,噪音降低,训练过程加快,使得类别的可分性增强;
3、故障分类精度可通过半监督框架进一步提高,因为从数据特征上降低了噪音,也就降低了训练过程中的干扰,并且不断地增加了尾部样本,增加了训练样本基础,更好地平衡数据类别。
附图说明
图1是本公开一个实施例提供的一种基于半监督学习的机泵设备运行故障分类方法流程图;
图2是UMAP-SS半监督学习框架结构图;
图3是机泵设备故障分类模型结构示意图;
图4是对称决策树的模型结构示意图;
图5为不使用无标签样本而直接进行合成少数类过采样SMOTE后的分类效果示意图;
图6为不使用无标签样本而直接进行自适应综合采样ADASYN后的分类效果示意图;
图7为使用无标签样本且使用统一流形逼近和投影降维后的分类效果示意图;
图8为使用无标签样本且半监督学习后的分类效果示意图;
图9为使用无标签样本且统一流形逼近和投影降维及半监督学习后的分类效果示意图。
具体实施方式
下面将参照附图1至图9详细地描述本公开的具体实施例。虽然附图中显示了本公开的具体实施例,然而应当理解,可以通过各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式,而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本公开的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本公开的范围。本公开的保护范围当视所附权利要求所界定者为准。
为便于对本公开实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明,且各个附图并不构成对本公开实施例的限定。
一个实施例中,如图1所示,本公开提供一种基于半监督学习的机泵设备运行故障分类方法,包括如下步骤:
S100:采集待测机泵设备的运行数据;
S200:基于如图2所示的UMAP-SS半监督学习框架构建机泵设备故障分类模型;
S300:对所述机泵设备故障分类模型进行训练;
S400:将所述待测机泵设备的运行数据输入训练好的机泵设备故障分类模型,以对待测机泵设备进行故障分类。
上述实施例构成了本公开的完整技术方案。本实施例所述模型着重考虑了机泵设备运行中的无标签数据,从而能够避免机泵故障的漏检,进而能够提高机泵设备的故障分类精度。
另一个实施例中,步骤S200中,所述机泵设备故障分类模型包括基于对称决策树的集成模型CatBoost。
本实施例中,如图3所示,所述基于对称决策树的集成模型CatBoost包括:
特征输入层(Input Features):用于输入机泵设备运行数据,所述运行数据包括数值特征数据和类别特征数据;
特征转换层(Feature Transform):用于对由特征输入层输入的运行数据进行预处理和转换。
决策树(Decision Tree)层:使用对称决策树作为集成模型CatBoost的基本学习器,用于通过学习样本的特征和标签之间的关系以对机泵设备的故障进行预测。
输出层(Output):用于输出机泵设备的故障预测值。
具体的,对于输入数据中的数值特征数据,特征转换层会对其中的缺失值进行补全;对于输入数据中的类别特征数据,特征转换层通过使用目标编码方法将其编码为数值型特征再进行补全,例如,在该任务中,GR作为一个重要的特征,假设计算GR在[0,1]数值范围内识别为气层的准确识别概率是70%,在[2,3]范围内识别为气层的准确识别概率是20%,在[3,4]范围内识别为气层的准确识别概率是10%,然后,根据概率的大小,给这些数值分配排序值:[0,1]排序值为3;[2,3]排序值为2;[3,4]排序值为1。最后,将这些排序值,即将3、2、1作为新的数值特征添加到数据集中,以用于模型训练。
决策树层主要用于构建如图4所示的对称决策树,即每个节点都有相同的划分条件,图4中,GR表示“Gradient Boosting with Regression Trees”的缩写。其表示使用梯度提升算法(Gradient Boosting)来构建回归树(Regression Trees)的模型。SP表示“Symmetric Pruning”的缩写。在对称决策树中,通过对称剪枝可减少树的深度以提高模型的效率和泛化能力。DEN与数据密度(Data Density)有关,其表示模型正在通过考虑数据的分布和密度来改进树的构建。
对称决策树是一种迭代算法,通常采用对称性约束构建树,即通过在树的不同分支上采用相同的策略,从而能够减少数的深度,进而避免了过于复杂的树结构。以对称决策树作为基本学习器,通过在每次迭代中添加新的决策树来改进模型的预测能力。对称决策树的优点包括:
1、防止过拟合:对称决策树减少了过拟合的风险,有助于模型泛化到新数据。
2、处理不平衡数据:它更好地处理类别不平衡问题,保持了模型的平衡性。
3、降低训练复杂度:对称决策树的特点使特征选择更简单,有助于提高训练速度。
4、不需要预剪枝:通常无需进行树的预剪枝,因为对称性约束限制了树的生长。
5、与其他决策树相比,对称决策树更适合应对分类问题,特别是在不平衡数据或高维数据情况下,表现更稳定。
CatBoost模型的特点是能够处理类别特征、自动处理缺失值、具有较快的训练速度和良好的泛化能力。它采用了基于梯度提升的算法,在训练过程中逐步优化模型的预测能力。同时,CatBoost还支持特征重要性评估、模型解释和调参等功能,使得模型的使用和调优更加方便和高效。
另一个实施例中,所述机泵设备故障分类模型的训练过程包括以下步骤:
S201:构建初始样本数据集,初始样本数据集包括无标签样本和有标签样本;
该步骤中,本实施例选取天然气净化总厂引进分厂的21个机泵设备的运行数据(运行数据具体包括离心泵组及主风机组的温度数据以及振动值数据)构成初始样本数据集。
需要说明的是,由于机泵设备在前期运行过程中无法实现对数据进行实时自动采集,因此会出现部分故障漏检情况,从而导致个别样本数据是无标签的,即在某个时间段内的数据样本不知道是有故障还是无故障的,类别不清楚,因此需要将此类无标签样本的类别进行统一表达,即将无标签样本的类别设置为-1。
此外,根据实际监测中出现的故障情况,本实施例将机泵设备故障类别分为三类,包括无故障、旋转机械与轴故障和其他故障,同时,对这三种故障类别进行数值化处理,即将无故障设为类别0,将旋转机械与轴故障设为类别1,将其他故障设为类别2,则机泵设备运行数据已知故障类别的样本即作为有标签样本。
进一步的,对于有标签样本需要进行统一流形逼近与投影非线性降维,以获得降维后的低复杂度的机泵设备运行样本。
此时,初始样本数据集即包含无标签样本数据和有标签样本数据。
S202:对有标签样本进行统一流形逼近和投影(UMAP)降维,以获得降维后的有标签样本;
该步骤中,UMAP算法的原理是利用流形理论和拓扑算法,将高维数据的概率分布映射到低维空间,保持数据的结构相似性。具体来说,UMAP算法分为两步:
在高维空间中,根据每个点到第n个最近邻居的距离,构建一个加权图,称为模糊简化复合体,表示点之间的连接可能性。
在低维空间中,优化一个目标函数,使得高维图和低维图的交叉熵最小化,即两个图的拓扑结构最接近。
S203:对无标签样本进行预测以获得伪标签,提取伪标签中的尾部样本(尾部样本包括噪声或异常值以及边界或少数类样本),将尾部样本加入降维后的有标签样本后获得新的故障样本数据集,将新的故障样本数据集划分为训练集和测试集;
该步骤中,通过构建基于对称决策树的集成模型CatBoost对无标签样本进行预测,可得到伪标签,提取其中的尾部样本,得到尾部样本1;进一步的,将尾部样本1加入有标签样本训练集并使用基于图的标签传播算法输出,得到尾部样本2;更进一步的,将尾部样本1与尾部样本2进行重合提取,输出重合部分的尾部样本3,将尾部样本3加入有标签样本训练集中以对模型进行训练。
S204:设置包括最大训练迭代次数(例如设置为500次)、学习率、L2正则化系数和树的深度等训练参数,通过训练集对模型进行训练,在模型训练过程中,当达到最大训练迭代次数,模型训练完成;
S205:利用测试集对训练后的模型进行测试,在测试过程中,当模型对于机泵设备的故障分类精度达到95%,模型测试通过;否则调整训练参数重新对模型进行训练。
下面,本公开结合图5至图9对本公开的技术效果进行说明。其中,图5为不使用无标签样本而直接进行合成少数类过采样SMOTE后的分类效果示意图;图6为不使用无标签样本而直接进行自适应综合采样ADASYN后的分类效果示意图;图7为使用无标签样本且使用统一流形近似投影UMAP降维后的分类效果示意图;图8为使用无标签样本且半监督学习后的分类效果示意图;图9为使用无标签样本且统一流形近似投影UMAP降维及半监督学习后的分类效果示意图。
通过比对,可以发现,图5只对样本进行了SMOTE采样,不使用无标签样本,导致预测值偏离真实值,因此使得模型对于样本的故障分类效果较差。图6只对样本进行了ADASYN采样,不使用无标签样本,同样导致预测值偏离真实值,因此使得模型对于样本的故障分类效果较差。图7只进行了统一流形近似投影UMAP非线性降维,不使用无标签样,导致样本特征减少,导致部分信息丢失,因此使得模型对于样本的故障分类效果较差。图8只使用半监督学习即为无标签样本赋予了标签,但没有进行降维及样本置信度考核,因此使得模型对于样本的故障分类效果较差。图9中,可以看到曲线上预测值与真实值的契合度相比图5至图8更高,因此,可以表明使用无标签样本且采用统一流形近似投影降维及半监督学习后的模型对于样本的故障分类效果最佳。
综上,通过图4至图8比对,可以得得出以下结论:使用本公开所述的基于UMAP-SS半监督学习框架构建机泵设备故障分类方法得到的预测效果最佳。
另一个实施例中,本公开还提供一种基于半监督学习的机泵设备运行故障分类装置,包括:
采集模块,用于采集待测机泵设备的运行数据;
模型构建模块,用于基于UMAP-SS半监督学习框架构建机泵设备故障分类模型;
训练模块,用于对所述机泵设备故障分类模型进行训练;
故障分类模块,用于将所述待测机泵设备的运行数据输入训练好的机泵设备故障分类模型,以对待测机泵设备进行故障分类。
另一个实施例中,所述机泵设备故障分类模型包括:基于对称决策树的集成模型CatBoost。
另一个实施例中,本公开还提供一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现取钱任一所述的方法。
另一个实施例中,本公开还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法。
本公开申请人结合说明书附图对本公开的实施方案进行了详细的描述,但是本领域的技术人员应该理解,以上实施方案仅为本公开优选的实施示例,并不仅仅局限于上述的具体实施方案。详尽的说明知识为了帮助读者更好地理解本公开精神,而并非对本公开保护范围的限制,相反,任何基于本公开的发明精神所作的任何改进或变动都应当包含在本公开的保护范围之中。
Claims (4)
1.一种基于半监督学习的机泵设备运行故障分类方法,其特征在于,所述方法包括如下步骤:
S100:采集待测机泵设备的运行数据;
S200:基于UMAP-SS半监督学习框架构建机泵设备故障分类模型;
其中,所述机泵设备故障分类模型包括决策树层,所述决策树层使用对称决策树作为基本学习器,通过学习样本特征和标签之间的关系对机泵设备进行故障预测;
所述机泵设备故障分类模型包括基于对称决策树的集成模型CatBoost,具体包括:
特征输入层:用于输入机泵设备运行数据,所述运行数据包括数值特征数据和类别特征数据;
特征转换层:用于对由特征输入层输入的运行数据进行预处理和转换;
对于输入数据中的数值特征数据,特征转换层会对其中的缺失值进行补全;对于输入数据中的类别特征数据,特征转换层通过使用目标编码方法将其编码为数值型特征再进行补全;
决策树:使用对称决策树作为集成模型CatBoost的基本学习器,用于通过学习样本的特征和标签之间的关系以对机泵设备的故障进行预测;
输出层:用于输出机泵设备的故障预测值;
S300:对所述机泵设备故障分类模型进行训练;
所述机泵设备故障分类模型通过以下步骤进行训练:
S301:获取包括无标签样本和有标签样本的初始故障样本数据集;其中,所述无标签样本是指不知道是有故障还是无故障的数据样本,所述有标签样本包括机泵设备运行数据已知故障类别的样本,具体包括无故障类别、旋转机械与轴故障类别和其他故障类别;
S302:通过统一流形逼近与投影对有标签样本进行降维,获得降维后的有标签样本;
所述通过统一流形逼近与投影对有标签样本进行降维包括:
在高维空间中,根据每个点到第n个最近邻居的距离,构建一个加权图,称为模糊简化复合体,表示点之间的连接可能性;
在低维空间中,优化一个目标函数,使得高维图和低维图的交叉熵最小,即两个图的拓扑结构最接近;
S303:对无标签样本进行预测以获得伪标签,提取伪标签中的尾部样本,将尾部样本加入降维后的有标签样本后获得新的故障样本数据集,将新的故障样本数据集划分为训练集和测试集;
该步骤中,通过构建基于对称决策树的集成模型CatBoost对无标签样本进行预测,可得到伪标签,提取其中的尾部样本,得到尾部样本1;进一步的,将尾部样本1加入有标签样本训练集并使用基于图的标签传播算法输出,得到尾部样本2;更进一步的,将尾部样本1与尾部样本2进行重合提取,输出重合部分的尾部样本3,将尾部样本3加入有标签样本训练集中以对模型进行训练;
S304:设置训练参数,通过训练集对模型进行训练,当达到最大训练次数,模型训练完成;
S305:利用测试集对训练后的模型进行测试,在测试过程中,当分类精度达到95%,模型测试通过;否则调整训练参数重新对模型进行训练;
S400:将所述待测机泵设备的运行数据输入训练好的机泵设备故障分类模型,以对待测机泵设备进行故障分类。
2.一种用于实施如权利要求1所述方法的基于半监督学习的机泵设备运行故障分类装置,其特征在于,所述装置包括:
采集模块,用于采集待测机泵设备的运行数据;
模型构建模块,用于基于UMAP-SS半监督学习框架构建机泵设备故障分类模型;其中,所述机泵设备故障分类模型包括决策树层,所述决策树层使用对称决策树作为基本学习器,通过学习样本特征和标签之间的关系对机泵设备进行故障预测;
训练模块,用于对所述机泵设备故障分类模型进行训练;
故障分类模块,用于将所述待测机泵设备的运行数据输入训练好的机泵设备故障分类模型,以对待测机泵设备进行故障分类。
3.一种电子设备,其特征在于,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现权利要求1所述的方法。
4.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311605367.1A CN117332342B (zh) | 2023-11-29 | 2023-11-29 | 一种基于半监督学习的机泵设备运行故障分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311605367.1A CN117332342B (zh) | 2023-11-29 | 2023-11-29 | 一种基于半监督学习的机泵设备运行故障分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117332342A CN117332342A (zh) | 2024-01-02 |
CN117332342B true CN117332342B (zh) | 2024-02-27 |
Family
ID=89277704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311605367.1A Active CN117332342B (zh) | 2023-11-29 | 2023-11-29 | 一种基于半监督学习的机泵设备运行故障分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332342B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023044978A1 (zh) * | 2021-09-27 | 2023-03-30 | 苏州大学 | 基于对抗流模型的机械设备无监督故障诊断方法 |
WO2023044979A1 (zh) * | 2021-09-27 | 2023-03-30 | 苏州大学 | 类不平衡数据集下的机械故障智能诊断方法 |
CN116451111A (zh) * | 2023-03-15 | 2023-07-18 | 西安电子科技大学 | 一种基于去噪对比学习的鲁棒跨域自适应分类方法 |
CN116451150A (zh) * | 2023-04-04 | 2023-07-18 | 河北工业大学 | 一种基于半监督小样本的设备故障诊断方法 |
CN117056678A (zh) * | 2023-10-12 | 2023-11-14 | 北京宝隆泓瑞科技有限公司 | 一种基于小样本的机泵设备运行故障诊断方法及装置 |
CN117056865A (zh) * | 2023-10-12 | 2023-11-14 | 北京宝隆泓瑞科技有限公司 | 一种基于特征融合的机泵设备运行故障诊断方法及装置 |
-
2023
- 2023-11-29 CN CN202311605367.1A patent/CN117332342B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023044978A1 (zh) * | 2021-09-27 | 2023-03-30 | 苏州大学 | 基于对抗流模型的机械设备无监督故障诊断方法 |
WO2023044979A1 (zh) * | 2021-09-27 | 2023-03-30 | 苏州大学 | 类不平衡数据集下的机械故障智能诊断方法 |
CN116451111A (zh) * | 2023-03-15 | 2023-07-18 | 西安电子科技大学 | 一种基于去噪对比学习的鲁棒跨域自适应分类方法 |
CN116451150A (zh) * | 2023-04-04 | 2023-07-18 | 河北工业大学 | 一种基于半监督小样本的设备故障诊断方法 |
CN117056678A (zh) * | 2023-10-12 | 2023-11-14 | 北京宝隆泓瑞科技有限公司 | 一种基于小样本的机泵设备运行故障诊断方法及装置 |
CN117056865A (zh) * | 2023-10-12 | 2023-11-14 | 北京宝隆泓瑞科技有限公司 | 一种基于特征融合的机泵设备运行故障诊断方法及装置 |
Non-Patent Citations (1)
Title |
---|
30分钟学会CatBoost;算法美食屋;《https://blog.csdn.net/Python_Ai_Road/article/details/122660199》;第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117332342A (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275288B (zh) | 基于XGBoost的多维数据异常检测方法与装置 | |
CN112161784B (zh) | 基于多传感器信息融合迁移网络的机械故障诊断方法 | |
CN111680820B (zh) | 分布式光伏电站故障诊断方法和装置 | |
CN110006649B (zh) | 一种基于改进蚁狮算法和支持向量机的轴承故障诊断方法 | |
CN110285969A (zh) | 多项式核植入特征分布适配的滚动轴承故障迁移诊断方法 | |
CN112396109A (zh) | 基于递归图与多层卷积神经网络的电机轴承故障诊断方法 | |
CN112989693A (zh) | 一种基于ssa-gru-msar的风电功率预测方法 | |
CN111027629A (zh) | 基于改进随机森林的配电网故障停电率预测方法及系统 | |
CN112682273B (zh) | 基于代价敏感轻量级梯度提升机的风电机组故障检测方法 | |
CN116451150A (zh) | 一种基于半监督小样本的设备故障诊断方法 | |
CN114548190B (zh) | 一种基于自适应残差神经网络的风力涡轮机故障诊断方法及装置 | |
CN113822418A (zh) | 一种风电场功率预测方法、系统、设备和存储介质 | |
CN114462446A (zh) | 基于振动信号的滚动轴承故障诊断方法及电子设备 | |
CN114441173B (zh) | 基于改进深度残差收缩网络的滚动轴承故障诊断方法 | |
CN116842337A (zh) | 基于LightGBM优选特征与COA-CNN模型的变压器故障诊断方法 | |
CN116578869A (zh) | 电力系统的故障诊断方法、故障诊断装置与电子装置 | |
CN112683532B (zh) | 轴承的跨工况条件对抗诊断方法 | |
CN117332342B (zh) | 一种基于半监督学习的机泵设备运行故障分类方法及装置 | |
CN117856222A (zh) | 光伏出力预测方法、装置、电子设备及存储介质 | |
CN117332353A (zh) | 一种汽轮发电机转子异常振动故障诊断方法 | |
CN112734001A (zh) | 一种基于阶次谱迁移的风电传动链智能故障诊断方法 | |
CN116738181A (zh) | 风机故障诊断方法、计算机设备和存储介质 | |
Cheng et al. | Reactive Power Load Forecasting based on K-means Clustering and Random Forest Algorithm | |
CN116578908A (zh) | 一种风电齿轮箱的跨域故障诊断方法、系统、介质及设备 | |
CN116050072A (zh) | 一种基于随机采样一致性的风电机组理论功率曲线识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |