CN116719831B - 一种面向健康监测的标准数据库建立与更新方法 - Google Patents

一种面向健康监测的标准数据库建立与更新方法 Download PDF

Info

Publication number
CN116719831B
CN116719831B CN202310968157.2A CN202310968157A CN116719831B CN 116719831 B CN116719831 B CN 116719831B CN 202310968157 A CN202310968157 A CN 202310968157A CN 116719831 B CN116719831 B CN 116719831B
Authority
CN
China
Prior art keywords
data
working condition
category
class
original data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310968157.2A
Other languages
English (en)
Other versions
CN116719831A (zh
Inventor
苏婕
陈昆
胡春祥
安婷婷
王枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Zhongce Instrument Technology Co ltd
Original Assignee
Sichuan Zhongce Instrument Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Zhongce Instrument Technology Co ltd filed Critical Sichuan Zhongce Instrument Technology Co ltd
Priority to CN202310968157.2A priority Critical patent/CN116719831B/zh
Publication of CN116719831A publication Critical patent/CN116719831A/zh
Application granted granted Critical
Publication of CN116719831B publication Critical patent/CN116719831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向健康监测的标准数据库建立与更新方法,涉及数据库领域,包括:构建数据库;获得设备的原始数据;确定设备的工况数,获得每种工况对应的原始数据;基于聚类算法计算获得每种工况对应的原始数据的分类数目;对每种工况对应的原始数据进行分类,获得每个类别对应的原始数据;判断每个类别对应的原始数据是否满足数据数量预设要求,若不满足,则对相应类别对应的原始数据进行数据扩充或压缩处理,获得每个类别对应处理后的数据;将每个类别对应处理后的数据以类别作为标签存入所述数据库中;本发明能够构建数据量少且能够全面代表原始数据的数据库,以便减少基于数据的设备健康监测技术在查询和调取所需数据时时间和工作量。

Description

一种面向健康监测的标准数据库建立与更新方法
技术领域
本发明涉及数据库领域,具体地,涉及一种面向健康监测的标准数据库建立与更新方法。
背景技术
随着对设备可靠性、寿命和维护费用的要求日益苛刻,基于数据的设备健康监测技术已广泛应用于工业过程中,以便预防及时识别设备的状态、发现故障早期征兆,及时消除故障隐患,实现设备的智能维护。但目前工业过程中普遍存在多种工况且各工况之间的数据极度不平衡,同时数据库的数据量很大。目前的数据库是通过mysql等软件根据数据表建立的,存储原则是有数据就存,不做任何选择性存储的策略,不管数据量有多大,直接进行查询和调取,随着数据量越来越大,查询和调取的时间会越来越大,这导致基于数据的设备健康监测技术在查询和调取所需数据时费时费力,对于新工况或者某些数据较少的工况,容易出现所需数据较少,严重影响监测技术的有效性和实时性。
发明内容
本发明目的是构建数据量少且能够全面代表原始数据的数据库,以便减少基于数据的设备健康监测技术在查询和调取所需数据时时间和工作量。
为了实现上述发明目的,本发明提供了一种面向健康监测的标准数据库建立与更新方法,所述方法包括:
步骤1:构建数据库;
步骤2:获得设备的原始数据;
步骤3:基于原始数据确定设备的工况数,基于设备的工况数获得每种工况对应的原始数据;
步骤4:基于聚类算法计算获得每种工况对应的原始数据的分类数目;
步骤5:基于分类数目,对每种工况对应的原始数据进行分类,获得每个类别对应的原始数据;
步骤6:判断每个类别对应的原始数据是否满足数据数量预设要求,若不满足,则对相应类别对应的原始数据进行数据扩充或压缩处理,获得每个类别对应处理后的数据;
步骤7:将每个类别对应处理后的数据以类别作为标签存入所述数据库中。
其中,本方法首先确定工况数,然后基于聚类算法计算获得每种工况对应的原始数据的分类数目,基于分类数目对每种工况对应的原始数据进行分类,获得每个类别对应的原始数据;然后判断每个类别对应的原始数据是否满足数据数量预设要求,若不满足,则对相应类别对应的原始数据进行数据扩充或压缩处理,获得每个类别对应处理后的数据;通过本方法既能适应所有工况,又能通过对原始数据比较少的工况或新工况的数据进行扩充来确保每个工况的数据量足够,还能通过对原始数据比较多的工况进行压缩,用尽可能少的数据有效且较全面的代表原始数据,以便减少数据库的数据量。
在一些实施例中,所述步骤6具体包括:
判断每个类别对应的原始数据的数据量是否大于N1且小于N2,若某类别对应的原始数据的数据量小于N1,则对该类别对应的原始数据进行数据扩充处理,即对于数据量较小的类别则对其进行数据扩充处理,保障其数据量和全面性,保障每种工况的数据量足够;若某类别对应的原始数据的数据量大于N2,则对该类别对应的原始数据进行数据压缩处理,即对于数据量较大的类别,则对其进行数据压缩处理,以减少数据库的数据量。
在一些实施例中,所述步骤4具体包括:
步骤4.1:初始化聚类个数、聚类算法的迭代次数和初始聚类中心种子;
步骤4.2:利用粒子群优化算法初始化粒子,粒子以聚类个数、聚类算法的迭代次数和初始聚类中心种子为坐标;
步骤4.3:将粒子的坐标值作为超参数赋给聚类算法以CH指标为目标函数进行聚类;其中,Calinski-Harabaz指标(CH指标)越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果;
步骤4.4:计算聚类后的CH值,判断CH值是否满足收敛条件,若不满足则更新粒子坐标返回执行步骤4.3,若满足则输出最优的超参数作为工况对应的原始数据的分类数目。
在一些实施例中,CH值的计算方式为:
其中,S为CH值,N为容量,K为聚类个数,BK为类间的协方差矩阵,WK为类内数据的协方差矩阵,为BK的秩,/>为WK的秩。
在一些实施例中,BK的计算公式为:
WK的计算公式为:
其中,cq表示类q的中心点,ce表示数据集的中心点,nq表示类q中的数据的数目,表示类q的数据集合,x为类q中的数据,T表示将(x-cq)进行转置。
在一些实施例中,所述聚类算法为K-Means算法。
在一些实施例中,所述步骤2还包括对原始数据进行清洗,获得清洗后的数据,原始数据中可能存在杂质数据,清洗可以去掉不相关的数据,提高的数据的有效性。
其中,在一些实施例中,所述方法还包括步骤8,对数据库中的数据进行定期备份处理,由于数据库中的数据比较重要,单独存在数据库中,当数据库被攻击或异常时会导致数据丢失,因此定期对数据库进行备份可以保障数据的安全性。
在一些实施例中,当某工况对应的原始数据数据量大于第一阈值时,对于该工况中的每个类别,如果该类别的数量大于n1,则选取距离聚类质心最近的n1个样本;如果该类别的数量小于n1,则将该类别中的样本数量扩充到n1个,得到个样本,,K1为聚类个数。以便在满足数据量约束的基础上,用尽可能少的数据有效且较全面的代表原始数据。
在一些实施例中,当某工况对应的原始数据数据量小于第二阈值时,对于该工况中的每个类别,如果该类别的数量大于n2,则选取距离聚类质心最近的n2个样本,如果该类别的数量小于n2,则将该类别中的样本数量扩充到n2个,得到个样本,,K2为聚类个数。以便在满足数据量约束的基础上,确保数据能有效代表当前原始数据。
在一些实施例中,所述方法还包括:
获得新样本数据,根据新样本数据中的工况信息确定所属工况信息;
基于所属工况信息获得与该工况信息对应的分类信息;
基于分类信息判断新样本数据是否属于其中的某一类别;
若新样本数据属于其中的某一类别,则将该类别作为新样本数据的标签将新样本数据存入所述数据库中;
若新样本数据不属于其中的某一类别,则基于新样本数据更新该工况对应的原始数据,然后执行步骤4至步骤7对所述数据库进行更新。
其中,本方法利用上述步骤可以实现数据库的新样本数据处理功能,完整数据库的更新操作。
在一些实施例中,基于分类信息判断新样本数据是否属于其中的某一类别,具体包括:
基于分类信息获得新样本数据与类心的距离;
若新样本数据与类心的距离均大于最大类内距离,则判断新样本数据不属于其中的某一类别;
若存在新样本数据与类心的距离小于最大类内距离,则选择与新样本数据的距离最小的类别为新样本数据所属的类别。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过本方法既能适应所有工况,又能通过对原始数据比较少的工况或新工况的数据进行扩充来确保每个工况的数据量足够,还能通过对原始数据比较多的工况进行压缩,用尽可能少的数据有效且较全面的代表原始数据,以便减少数据库的数据量,这样减少了基于数据的设备健康监测技术在查询和调取所需数据时时间和工作量。
本方法制定的更新数据库的规则能有效应对出现新工况或已有工况中出现新类别的情况。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1为一种面向健康监测的标准数据库建立与更新方法的流程示意图;
图2为以CH指标为目标函数,通过PSO优化K-Means的流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例一;
本发明提供了一种面向健康监测的标准数据库建立与更新方法,所述方法包括:
步骤1:构建数据库;
步骤2:获得设备的原始数据;
步骤3:基于原始数据确定设备的工况数,基于设备的工况数获得每种工况对应的原始数据;
步骤4:基于聚类算法计算获得每种工况对应的原始数据的分类数目;
步骤5:基于分类数目,对每种工况对应的原始数据进行分类,获得每个类别对应的原始数据;
步骤6:判断每个类别对应的原始数据是否满足数据数量预设要求,若不满足,则对相应类别对应的原始数据进行数据扩充或压缩处理,获得每个类别对应处理后的数据;
步骤7:将每个类别对应处理后的数据以类别作为标签存入所述数据库中。
请参考图1,图1为一种面向健康监测的标准数据库建立与更新方法的流程示意图,其中,本方法具体包括以下步骤:
数据库的建立:
获取设备的历史工况信息,划分设备的工况,然后判断每种工况下数据量是否足够。以阈值N1和N2为界限,当任意一种工况的原始数据量在之间时,该工况的原始数据保持不变;当任意一种工况的原始数据量小于N1时,该工况属于原始数据比较少的工况,需要扩展该工况的数据;当任意一种工况的原始数据量大于N2时,该工况属于原始数据比较多的工况,需要压缩该工况的数据。
其中,N1与N2的大小根据实际情况进行确定。
对于原始数据比较多的工况,以Calinski-Harabaz(CH)指标(CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果)为目标函数,采用PSO优化K-Means的聚类个数、算法的迭代次数和初始聚类中心种子等参数,如图2所示,并选择CH值最大所对应的聚类个数K1,PSO为粒子群优化算法。图2为以CH指标为目标函数,通过PSO优化K-Means的流程示意图,优化K-Means的流程主要是获得CH值最大所对应的聚类个数K1,以此确定当前工况下的数据有多少种分类。
CH指标是评估聚类效果的指标。采用CH指标为目标函数是确定聚类的效果,CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果,更能反映聚类效果。
采用PSO优化K-Means的聚类个数、聚类算法的迭代次数和初始聚类中心种子等参数是为了获得最佳的参数。
采用K-Means算法的作用和目的是为了获得CH值最大所对应的聚类个数K1,以此获得当前工况的数据可以分为几类。
其中,CH指标的计算公式为:
其中,N为容量,K为聚类个数,BK为类间的协方差矩阵,WK为类内数据的协方差矩阵,详细公式如下:
其中,cq表示类q的中心点,ce表示数据集的中心点,nq表示类q中的数据的数目,表示类q的数据集合,x为类q中的数据,T表示将(x-cq)进行转置。
对于每个类别,如果该类别的数量大于n1,则选取距离聚类质心最近的n1个样本。如果该类别的数量小于n1,则通过随机噪声等方法将每个类别中的样本数量扩充到n1个,这样就可以得到个样本,以便在满足数据量约束的基础上,用尽可能少的数据有效且较全面的代表原始数据。
(2)对于原始数据比较少的工况或者新工况,以Calinski-Harabaz(CH)指标为目标函数,采用PSO优化K-Means的聚类个数、算法的迭代次数和初始聚类中心种子等参数,并选择CH值最大所对应的聚类个数K2
对于每个类别,如果该类别的数量大于n2,则选取距离聚类质心最近的n2个样本。如果该类别的数量小于n2,则通过随机噪声等方法将每个类别中的样本数量扩充到n2个,这样就可以得到个样本,以便在满足数据量约束的基础上,确保数据能有效代表当前原始数据。
数据库更新规则:
当获得新的数据样本时,根据新的数据样本的工况信息确定所属工况。
更新规则如下:
(1)根据新的数据样本与类心的距离是否大于最大类内距离,判断新的数据样本是否属于K1或K2中的某一类,新的数据样本与类心的距离即欧氏距离,最大类内距离为该类心所在的类中各数据样本与类心的欧式距离的最大值。
(2)如果新的数据样本与类心的距离都大于对应的最大类内距离,则将新的数据样本作为数据库的对应工况中数据,按照数据库建立的处理方法,更新数据库中当前工况的数据。
(3)如果存在新的数据样本与类心的距离小于对应的最大类内距离的情况,则根据最小距离原则,选择与新的数据样本的距离最小的类别为新的数据样本所属的类别,且不需要更新数据库。
实施例二;
在实施例一的基础上,本方法在建立了数据库后,本方法的数据库还可以包括以下应用:
在正常光纤应力传感器预设范围内部署用于测量环境温度数据的温度传感器,获得历史温度数据,以及通过工况相关的传感器获得该正常光纤应力传感器与历史温度数据对应的历史工况信息;
采用实施例一的方式构建数据库,将该正常光纤应力传感器的历史应力数据、历史温度数据和历史工况信息关联存入所述数据库中;
从所述数据库中获得相应数据;
基于获得的相应数据,计算不同工况下多组历史应力数据和历史温度数据之间的相关系数,获得不同工况下的相关系数向量;
计算获得不同工况下相关系数向量的平均值和标准差;
基于不同工况下相关系数向量的平均值和标准差计算获得每个工况对应的上限阈值和下限阈值;
在待测光纤应力传感器预设范围内部署用于测量环境温度数据的温度传感器,获得实时温度数据,以及通过工况相关的传感器获得该待测光纤应力传感器与实时温度数据对应的实时工况信息;
基于实时工况信息判断待测光纤应力传感器当前所属工况,基于当前所属工况获得该工况对应的第一上限阈值和第一下限阈值;
基于待测光纤应力传感器的实时应力数据和实时温度数据,计算获得实时相关系数;
将实时相关系数与第一上限阈值和第一下限阈值进行比较,基于比较结果判断待测光纤应力传感器是否异常。
其中,本方法通过采集正常状态下的光纤应力传感器的应力数据、温度数据和工况数据,构建数据库,然后通过数据库中的数据进行挖掘,获得正常光纤应力传感器在相应工况下的上下阈值,然后计算出待测光纤应力传感器的实时系数,将实时系数与挖掘出的相应工况下的上下阈值进行比较,基于比较结果来判断待测光纤应力传感器是否正常,本方法能够基于实时数据进行实时处理,能够实现实时监测,且避免了人工参与和人工经验进行判断,且利用历史正常数据进行深度挖掘处理,然后进行比较,能够快速准确的判断出待测光纤应力传感器是否异常。
在一些实施例中,若实时相关系数大于或等于第一上限阈值,或实时相关系数小于或等于第一下限阈值,则判断待测光纤应力传感器异常,否则判断待测光纤应力传感器正常。
其中,本发明中的上下阈值是根据历史正常的大数据进行挖掘获得的,具有一定的数据基础,当实时的数据不在这个范围内,则可认为该实时数据异常。
在一些实施例中,相关系数向量为,/>,其中,/>为离心泵在第j个工况中第k组数据的相关系数,p为在第j个工况中数据的组数,/>,M为工况数目,应力和温度之间会有一定的相关度,这种相关度是通过上述相关系数来量化表示,通过历史数据获得相关系数向量,能够获得不同工况下相关系数的阈值;
j个工况对应的上限阈值和下限阈值分别为和/>
其中,为相关系数向量的平均值,/>为相关系数向量的标准差,/>和/>分别为上限阈值和下限阈值的置信水平系数,/>和/>分别为上限阈值和下限阈值的平均值修正系数,/>和/>分别为上限阈值和下限阈值的标准差修正系数。
实施例二的技术方案能够实时且准确的对变温度环境下光纤应力传感器进行异常监测。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种面向健康监测的标准数据库建立与更新方法,其特征在于,所述方法包括:
步骤1:构建数据库;
步骤2:获得设备的原始数据,包括:在正常光纤应力传感器预设范围内部署用于测量环境温度数据的温度传感器,获得历史温度数据,以及通过工况相关的传感器获得该正常光纤应力传感器与历史温度数据对应的历史工况信息;
步骤3:基于原始数据确定设备的工况数,基于设备的工况数获得每种工况对应的原始数据;
步骤4:基于聚类算法计算获得每种工况对应的原始数据的分类数目;
步骤5:基于分类数目,对每种工况对应的原始数据进行分类,获得每个类别对应的原始数据;
步骤6:判断每个类别对应的原始数据是否满足数据数量预设要求,若不满足,则对相应类别对应的原始数据进行数据扩充或压缩处理,获得每个类别对应处理后的数据;
步骤7:将每个类别对应处理后的数据以类别作为标签存入所述数据库中;
所述方法还包括:
将该正常光纤应力传感器的历史应力数据、历史温度数据和历史工况信息关联存入所述数据库中;
从所述数据库中获得相应数据;
基于获得的相应数据,计算不同工况下多组历史应力数据和历史温度数据之间的相关系数,获得不同工况下的相关系数向量;
计算获得不同工况下相关系数向量的平均值和标准差;
基于不同工况下相关系数向量的平均值和标准差计算获得每个工况对应的上限阈值和下限阈值;
在待测光纤应力传感器预设范围内部署用于测量环境温度数据的温度传感器,获得实时温度数据,以及获得该待测光纤应力传感器与实时温度数据对应的实时工况信息;
基于实时工况信息判断待测光纤应力传感器当前所属工况,基于当前所属工况获得该工况对应的第一上限阈值和第一下限阈值;
基于待测光纤应力传感器的实时应力数据和实时温度数据,计算获得实时相关系数;
将实时相关系数与第一上限阈值和第一下限阈值进行比较,基于比较结果判断待测光纤应力传感器是否异常;
相关系数向量为,/>,其中,/>为光纤应力传感器在第j个工况中第k组数据的相关系数,p为在第j个工况中数据的组数,/>,M为工况数目;
j个工况对应的上限阈值和下限阈值分别为和/>
其中,为相关系数向量的平均值,/>为相关系数向量的标准差,/>和/>分别为上限阈值和下限阈值的置信水平系数,/>和/>分别为上限阈值和下限阈值的平均值修正系数,和/>分别为上限阈值和下限阈值的标准差修正系数。
2.根据权利要求1所述的一种面向健康监测的标准数据库建立与更新方法,其特征在于,所述步骤6具体包括:
判断每个类别对应的原始数据的数据量是否大于N1且小于N2,若某类别对应的原始数据的数据量小于N1,则对该类别对应的原始数据进行数据扩充处理;若某类别对应的原始数据的数据量大于N2,则对该类别对应的原始数据进行数据压缩处理。
3.根据权利要求1所述的一种面向健康监测的标准数据库建立与更新方法,其特征在于,所述步骤4具体包括:
步骤4.1:初始化聚类个数、聚类算法的迭代次数和初始聚类中心种子;
步骤4.2:利用粒子群优化算法初始化粒子,粒子以聚类个数、聚类算法的迭代次数和初始聚类中心种子为坐标;
步骤4.3:将粒子的坐标值作为超参数赋给聚类算法以CH指标为目标函数进行聚类;
步骤4.4:计算聚类后的CH值,判断CH值是否满足收敛条件,若不满足则更新粒子坐标返回执行步骤4.3,若满足则输出最优的超参数作为工况对应的原始数据的分类数目。
4.根据权利要求3所述的一种面向健康监测的标准数据库建立与更新方法,其特征在于,CH值的计算方式为:
其中,S为CH值,N为容量,K为聚类个数,BK为类间的协方差矩阵,WK为类内数据的协方差矩阵,为BK的秩,/>为WK的秩。
5.根据权利要求4所述的一种面向健康监测的标准数据库建立与更新方法,其特征在于,BK的计算公式为:
WK的计算公式为:
其中,cq表示类q的中心点,ce表示数据集的中心点,nq表示类q中的数据的数目,表示类q的数据集合,x为类q中的数据,T为转置云算符。
6.根据权利要求1所述的一种面向健康监测的标准数据库建立与更新方法,其特征在于,所述步骤2还包括对原始数据进行清洗。
7.根据权利要求3所述的一种面向健康监测的标准数据库建立与更新方法,其特征在于,当某工况对应的原始数据数据量大于第一阈值时,对于该工况中的每个类别,如果该类别的数量大于n1,则选取距离聚类质心最近的n1个样本;如果该类别的数量小于n1,则将该类别中的样本数量扩充到n1个,得到个样本,/>,K1为聚类个数,N1和N2均为阈值。
8.根据权利要求3所述的一种面向健康监测的标准数据库建立与更新方法,其特征在于,当某工况对应的原始数据数据量小于第二阈值时,对于该工况中的每个类别,如果该类别的数量大于n2,则选取距离聚类质心最近的n2个样本,如果该类别的数量小于n2,则将该类别中的样本数量扩充到n2个,得到个样本,/>,K2为聚类个数,N1和N2均为阈值。
9.根据权利要求1所述的一种面向健康监测的标准数据库建立与更新方法,其特征在于,所述方法还包括:
获得新样本数据,根据新样本数据中的工况信息确定所属工况信息;
基于所属工况信息获得与该工况信息对应的分类信息;
基于分类信息判断新样本数据是否属于其中的某一类别;
若新样本数据属于其中的某一类别,则将该类别作为新样本数据的标签将新样本数据存入所述数据库中;
若新样本数据不属于其中的某一类别,则基于新样本数据更新该工况对应的原始数据,然后执行步骤4至步骤7对所述数据库进行更新。
10.根据权利要求9所述的一种面向健康监测的标准数据库建立与更新方法,其特征在于,基于分类信息判断新样本数据是否属于其中的某一类别,具体包括:
基于分类信息获得新样本数据与类心的距离;
若新样本数据与类心的距离均大于最大类内距离,则判断新样本数据不属于其中的某一类别;
若存在新样本数据与类心的距离小于最大类内距离,则选择与新样本数据的距离最小的类别为新样本数据所属的类别。
CN202310968157.2A 2023-08-03 2023-08-03 一种面向健康监测的标准数据库建立与更新方法 Active CN116719831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310968157.2A CN116719831B (zh) 2023-08-03 2023-08-03 一种面向健康监测的标准数据库建立与更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310968157.2A CN116719831B (zh) 2023-08-03 2023-08-03 一种面向健康监测的标准数据库建立与更新方法

Publications (2)

Publication Number Publication Date
CN116719831A CN116719831A (zh) 2023-09-08
CN116719831B true CN116719831B (zh) 2023-10-27

Family

ID=87868204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310968157.2A Active CN116719831B (zh) 2023-08-03 2023-08-03 一种面向健康监测的标准数据库建立与更新方法

Country Status (1)

Country Link
CN (1) CN116719831B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117072460B (zh) * 2023-10-16 2023-12-19 四川中测仪器科技有限公司 一种基于振动数据和专家经验的离心泵状态监测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2358262A (en) * 2000-01-13 2001-07-18 Applied Psychology Res Ltd Generating classification data
WO2008154029A1 (en) * 2007-06-11 2008-12-18 The Trustees Of Columbia University In The City Of New York Data classification and hierarchical clustering
CN104091035A (zh) * 2014-07-30 2014-10-08 中国科学院空间应用工程与技术中心 一种基于数据驱动算法的空间站有效载荷健康监测方法
CN106681305A (zh) * 2017-01-03 2017-05-17 华南理工大学 一种Fast RVM污水处理在线故障诊断方法
CN109766583A (zh) * 2018-12-14 2019-05-17 南京航空航天大学 基于无标签、不均衡、初值不确定数据的航空发动机寿命预测方法
CN110579709A (zh) * 2019-08-30 2019-12-17 西南交通大学 一种有轨电车用质子交换膜燃料电池故障诊断方法
CN111950294A (zh) * 2020-07-24 2020-11-17 北京奇保信安科技有限公司 一种基于多参数K-means算法的意图识别方法、装置和电子设备
CN113232669A (zh) * 2021-05-21 2021-08-10 中国第一汽车股份有限公司 一种基于机器学习的驾驶风格辨识方法
CN114298184A (zh) * 2021-12-20 2022-04-08 北京理工大学 一种基于机器学习和优化算法的新能源公交工况构建方法
CN114386485A (zh) * 2021-12-21 2022-04-22 桂林航天工业学院 一种建筑光纤光栅应力传感器的应力曲线聚类方法
CN116049705A (zh) * 2023-01-09 2023-05-02 国网湖南省电力有限公司 基于聚类分析的电力系统用户负荷特性聚类方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228411A1 (en) * 2018-01-23 2019-07-25 First Performance LLC Methods and systems for improving merchant data
US11705226B2 (en) * 2019-09-19 2023-07-18 Tempus Labs, Inc. Data based cancer research and treatment systems and methods

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2358262A (en) * 2000-01-13 2001-07-18 Applied Psychology Res Ltd Generating classification data
WO2008154029A1 (en) * 2007-06-11 2008-12-18 The Trustees Of Columbia University In The City Of New York Data classification and hierarchical clustering
CN104091035A (zh) * 2014-07-30 2014-10-08 中国科学院空间应用工程与技术中心 一种基于数据驱动算法的空间站有效载荷健康监测方法
CN106681305A (zh) * 2017-01-03 2017-05-17 华南理工大学 一种Fast RVM污水处理在线故障诊断方法
CN109766583A (zh) * 2018-12-14 2019-05-17 南京航空航天大学 基于无标签、不均衡、初值不确定数据的航空发动机寿命预测方法
CN110579709A (zh) * 2019-08-30 2019-12-17 西南交通大学 一种有轨电车用质子交换膜燃料电池故障诊断方法
CN111950294A (zh) * 2020-07-24 2020-11-17 北京奇保信安科技有限公司 一种基于多参数K-means算法的意图识别方法、装置和电子设备
CN113232669A (zh) * 2021-05-21 2021-08-10 中国第一汽车股份有限公司 一种基于机器学习的驾驶风格辨识方法
CN114298184A (zh) * 2021-12-20 2022-04-08 北京理工大学 一种基于机器学习和优化算法的新能源公交工况构建方法
CN114386485A (zh) * 2021-12-21 2022-04-22 桂林航天工业学院 一种建筑光纤光栅应力传感器的应力曲线聚类方法
CN116049705A (zh) * 2023-01-09 2023-05-02 国网湖南省电力有限公司 基于聚类分析的电力系统用户负荷特性聚类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种基于人工免疫网络的模糊c均值聚类算法;董雪;;网络安全技术与应用(04);25-27 *
基于PSO优化核主元分析的海上风电机组运行工况分类;郑小霞;李美娜;王靖;任浩翰;符杨;;电力系统保护与控制(16);33-40 *
网络数据库中异常数据检测优化仿真研究;张浩;;电脑与电信(11);35-38 *

Also Published As

Publication number Publication date
CN116719831A (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN116719831B (zh) 一种面向健康监测的标准数据库建立与更新方法
CN116678552B (zh) 一种变温度环境下光纤应力传感器异常监测方法
JP2008546046A (ja) マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN107579846B (zh) 一种云计算故障数据检测方法及系统
CN111538311B (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
CN112966879A (zh) 环境试验箱故障预测方法、装置、计算机设备及存储介质
CN113609770B (zh) 基于分段线性拟合hi及lstm的滚动轴承rul预测方法
CN116737510B (zh) 一种基于数据分析的键盘智能监测方法及系统
Mousavi et al. Improving customer clustering by optimal selection of cluster centroids in K-means and K-medoids algorithms
WO2023044770A1 (zh) 干泵宕机的预警方法、装置、电子设备、存储介质及程序
Aziz et al. Cluster Analysis-Based Approach Features Selection on Machine Learning for Detecting Intrusion.
CN117171157B (zh) 基于数据分析的清算数据采集清洗方法
CN115705279A (zh) 一种基于指标数据的智能故障预警方法和装置
CN116545733A (zh) 一种电网入侵检测方法及系统
CN116400168A (zh) 一种基于深度特征聚类的电网故障诊断方法及系统
KR101085066B1 (ko) 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법
CN113110044A (zh) 一种基于Elman神经网络和SVM的重型燃气轮机控制系统控制器模块智能BIT设计方法
CN115687034A (zh) 一种业务系统平面可用性判定方法和装置
Lu et al. An Alert Aggregation Algorithm Based on K-means and Genetic Algorithm
CN113447813B (zh) 海上风力发电机组的故障诊断方法及设备
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用系统
US11531848B2 (en) Data processing apparatus, data processing method and semiconductor manufacturing apparatus
Sidqi et al. Analysis of Poor Population in DKI Jakarta Regions using Fuzzy C-Means and K-Means Algorithms
CN116881227A (zh) 基于旋钮剪枝的数据库参数调优方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant