CN116719831B

CN116719831B - 一种面向健康监测的标准数据库建立与更新方法

Info

Publication number: CN116719831B
Application number: CN202310968157.2A
Authority: CN
Inventors: 苏婕; 陈昆; 胡春祥; 安婷婷; 王枫
Original assignee: Sichuan Zhongce Instrument Technology Co ltd
Current assignee: Sichuan Zhongce Instrument Technology Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-10-27
Anticipated expiration: 2043-08-03
Also published as: CN116719831A

Abstract

本发明公开了一种面向健康监测的标准数据库建立与更新方法，涉及数据库领域，包括：构建数据库；获得设备的原始数据；确定设备的工况数，获得每种工况对应的原始数据；基于聚类算法计算获得每种工况对应的原始数据的分类数目；对每种工况对应的原始数据进行分类，获得每个类别对应的原始数据；判断每个类别对应的原始数据是否满足数据数量预设要求，若不满足，则对相应类别对应的原始数据进行数据扩充或压缩处理，获得每个类别对应处理后的数据；将每个类别对应处理后的数据以类别作为标签存入所述数据库中；本发明能够构建数据量少且能够全面代表原始数据的数据库，以便减少基于数据的设备健康监测技术在查询和调取所需数据时时间和工作量。

Description

一种面向健康监测的标准数据库建立与更新方法

技术领域

本发明涉及数据库领域，具体地，涉及一种面向健康监测的标准数据库建立与更新方法。

背景技术

随着对设备可靠性、寿命和维护费用的要求日益苛刻，基于数据的设备健康监测技术已广泛应用于工业过程中，以便预防及时识别设备的状态、发现故障早期征兆，及时消除故障隐患，实现设备的智能维护。但目前工业过程中普遍存在多种工况且各工况之间的数据极度不平衡，同时数据库的数据量很大。目前的数据库是通过mysql等软件根据数据表建立的，存储原则是有数据就存，不做任何选择性存储的策略，不管数据量有多大，直接进行查询和调取，随着数据量越来越大，查询和调取的时间会越来越大，这导致基于数据的设备健康监测技术在查询和调取所需数据时费时费力，对于新工况或者某些数据较少的工况，容易出现所需数据较少，严重影响监测技术的有效性和实时性。

发明内容

本发明目的是构建数据量少且能够全面代表原始数据的数据库，以便减少基于数据的设备健康监测技术在查询和调取所需数据时时间和工作量。

为了实现上述发明目的，本发明提供了一种面向健康监测的标准数据库建立与更新方法，所述方法包括：

步骤1：构建数据库；

步骤2：获得设备的原始数据；

步骤3：基于原始数据确定设备的工况数，基于设备的工况数获得每种工况对应的原始数据；

步骤4：基于聚类算法计算获得每种工况对应的原始数据的分类数目；

步骤5：基于分类数目，对每种工况对应的原始数据进行分类，获得每个类别对应的原始数据；

步骤6：判断每个类别对应的原始数据是否满足数据数量预设要求，若不满足，则对相应类别对应的原始数据进行数据扩充或压缩处理，获得每个类别对应处理后的数据；

步骤7：将每个类别对应处理后的数据以类别作为标签存入所述数据库中。

其中，本方法首先确定工况数，然后基于聚类算法计算获得每种工况对应的原始数据的分类数目，基于分类数目对每种工况对应的原始数据进行分类，获得每个类别对应的原始数据；然后判断每个类别对应的原始数据是否满足数据数量预设要求，若不满足，则对相应类别对应的原始数据进行数据扩充或压缩处理，获得每个类别对应处理后的数据；通过本方法既能适应所有工况，又能通过对原始数据比较少的工况或新工况的数据进行扩充来确保每个工况的数据量足够，还能通过对原始数据比较多的工况进行压缩，用尽可能少的数据有效且较全面的代表原始数据，以便减少数据库的数据量。

在一些实施例中，所述步骤6具体包括：

判断每个类别对应的原始数据的数据量是否大于N₁且小于N₂，若某类别对应的原始数据的数据量小于N₁，则对该类别对应的原始数据进行数据扩充处理，即对于数据量较小的类别则对其进行数据扩充处理，保障其数据量和全面性，保障每种工况的数据量足够；若某类别对应的原始数据的数据量大于N₂，则对该类别对应的原始数据进行数据压缩处理，即对于数据量较大的类别，则对其进行数据压缩处理，以减少数据库的数据量。

在一些实施例中，所述步骤4具体包括：

步骤4.1：初始化聚类个数、聚类算法的迭代次数和初始聚类中心种子；

步骤4.2：利用粒子群优化算法初始化粒子，粒子以聚类个数、聚类算法的迭代次数和初始聚类中心种子为坐标；

步骤4.3：将粒子的坐标值作为超参数赋给聚类算法以CH指标为目标函数进行聚类；其中，Calinski-Harabaz指标（CH指标）越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果；

步骤4.4：计算聚类后的CH值，判断CH值是否满足收敛条件，若不满足则更新粒子坐标返回执行步骤4.3，若满足则输出最优的超参数作为工况对应的原始数据的分类数目。

在一些实施例中，CH值的计算方式为：

；

其中，S为CH值，N为容量，K为聚类个数，B_K为类间的协方差矩阵，W_K为类内数据的协方差矩阵，为B_K的秩，/>为W_K的秩。

在一些实施例中，B_K的计算公式为：

；

W_K的计算公式为：

；

其中，c_q表示类q的中心点，c_e表示数据集的中心点，n_q表示类q中的数据的数目，表示类q的数据集合，x为类q中的数据，T表示将（x-c_q）进行转置。

在一些实施例中，所述聚类算法为K-Means算法。

在一些实施例中，所述步骤2还包括对原始数据进行清洗，获得清洗后的数据，原始数据中可能存在杂质数据，清洗可以去掉不相关的数据，提高的数据的有效性。

其中，在一些实施例中，所述方法还包括步骤8，对数据库中的数据进行定期备份处理，由于数据库中的数据比较重要，单独存在数据库中，当数据库被攻击或异常时会导致数据丢失，因此定期对数据库进行备份可以保障数据的安全性。

在一些实施例中，当某工况对应的原始数据数据量大于第一阈值时，对于该工况中的每个类别，如果该类别的数量大于n₁，则选取距离聚类质心最近的n₁个样本；如果该类别的数量小于n₁，则将该类别中的样本数量扩充到n₁个，得到个样本，，K₁为聚类个数。以便在满足数据量约束的基础上，用尽可能少的数据有效且较全面的代表原始数据。

在一些实施例中，当某工况对应的原始数据数据量小于第二阈值时，对于该工况中的每个类别，如果该类别的数量大于n₂，则选取距离聚类质心最近的n₂个样本，如果该类别的数量小于n₂，则将该类别中的样本数量扩充到n₂个，得到个样本，，K₂为聚类个数。以便在满足数据量约束的基础上，确保数据能有效代表当前原始数据。

在一些实施例中，所述方法还包括：

获得新样本数据，根据新样本数据中的工况信息确定所属工况信息；

基于所属工况信息获得与该工况信息对应的分类信息；

基于分类信息判断新样本数据是否属于其中的某一类别；

若新样本数据属于其中的某一类别，则将该类别作为新样本数据的标签将新样本数据存入所述数据库中；

若新样本数据不属于其中的某一类别，则基于新样本数据更新该工况对应的原始数据，然后执行步骤4至步骤7对所述数据库进行更新。

其中，本方法利用上述步骤可以实现数据库的新样本数据处理功能，完整数据库的更新操作。

在一些实施例中，基于分类信息判断新样本数据是否属于其中的某一类别，具体包括：

基于分类信息获得新样本数据与类心的距离；

若新样本数据与类心的距离均大于最大类内距离，则判断新样本数据不属于其中的某一类别；

若存在新样本数据与类心的距离小于最大类内距离，则选择与新样本数据的距离最小的类别为新样本数据所属的类别。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

通过本方法既能适应所有工况，又能通过对原始数据比较少的工况或新工况的数据进行扩充来确保每个工况的数据量足够，还能通过对原始数据比较多的工况进行压缩，用尽可能少的数据有效且较全面的代表原始数据，以便减少数据库的数据量，这样减少了基于数据的设备健康监测技术在查询和调取所需数据时时间和工作量。

本方法制定的更新数据库的规则能有效应对出现新工况或已有工况中出现新类别的情况。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1为一种面向健康监测的标准数据库建立与更新方法的流程示意图；

图2为以CH指标为目标函数，通过PSO优化K-Means的流程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一；

本发明提供了一种面向健康监测的标准数据库建立与更新方法，所述方法包括：

步骤1：构建数据库；

步骤2：获得设备的原始数据；

请参考图1，图1为一种面向健康监测的标准数据库建立与更新方法的流程示意图，其中，本方法具体包括以下步骤：

数据库的建立：

获取设备的历史工况信息，划分设备的工况，然后判断每种工况下数据量是否足够。以阈值N₁和N₂为界限，当任意一种工况的原始数据量在之间时，该工况的原始数据保持不变；当任意一种工况的原始数据量小于N₁时，该工况属于原始数据比较少的工况，需要扩展该工况的数据；当任意一种工况的原始数据量大于N₂时，该工况属于原始数据比较多的工况，需要压缩该工况的数据。

其中，N₁与N₂的大小根据实际情况进行确定。

对于原始数据比较多的工况，以Calinski-Harabaz（CH）指标（CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果）为目标函数，采用PSO优化K-Means的聚类个数、算法的迭代次数和初始聚类中心种子等参数，如图2所示，并选择CH值最大所对应的聚类个数K₁，PSO为粒子群优化算法。图2为以CH指标为目标函数，通过PSO优化K-Means的流程示意图，优化K-Means的流程主要是获得CH值最大所对应的聚类个数K₁，以此确定当前工况下的数据有多少种分类。

CH指标是评估聚类效果的指标。采用CH指标为目标函数是确定聚类的效果，CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果，更能反映聚类效果。

采用PSO优化K-Means的聚类个数、聚类算法的迭代次数和初始聚类中心种子等参数是为了获得最佳的参数。

采用K-Means算法的作用和目的是为了获得CH值最大所对应的聚类个数K₁，以此获得当前工况的数据可以分为几类。

其中，CH指标的计算公式为：；

其中，N为容量，K为聚类个数，B_K为类间的协方差矩阵，W_K为类内数据的协方差矩阵，详细公式如下：；；

对于每个类别，如果该类别的数量大于n₁，则选取距离聚类质心最近的n₁个样本。如果该类别的数量小于n₁，则通过随机噪声等方法将每个类别中的样本数量扩充到n₁个，这样就可以得到个样本，以便在满足数据量约束的基础上，用尽可能少的数据有效且较全面的代表原始数据。

（2）对于原始数据比较少的工况或者新工况，以Calinski-Harabaz（CH）指标为目标函数，采用PSO优化K-Means的聚类个数、算法的迭代次数和初始聚类中心种子等参数，并选择CH值最大所对应的聚类个数K₂。

对于每个类别，如果该类别的数量大于n₂，则选取距离聚类质心最近的n₂个样本。如果该类别的数量小于n₂，则通过随机噪声等方法将每个类别中的样本数量扩充到n₂个，这样就可以得到个样本，以便在满足数据量约束的基础上，确保数据能有效代表当前原始数据。

数据库更新规则：

当获得新的数据样本时，根据新的数据样本的工况信息确定所属工况。

更新规则如下：

（1）根据新的数据样本与类心的距离是否大于最大类内距离，判断新的数据样本是否属于K₁或K₂中的某一类，新的数据样本与类心的距离即欧氏距离，最大类内距离为该类心所在的类中各数据样本与类心的欧式距离的最大值。

（2）如果新的数据样本与类心的距离都大于对应的最大类内距离，则将新的数据样本作为数据库的对应工况中数据，按照数据库建立的处理方法，更新数据库中当前工况的数据。

（3）如果存在新的数据样本与类心的距离小于对应的最大类内距离的情况，则根据最小距离原则，选择与新的数据样本的距离最小的类别为新的数据样本所属的类别，且不需要更新数据库。

实施例二；

在实施例一的基础上，本方法在建立了数据库后，本方法的数据库还可以包括以下应用：

在正常光纤应力传感器预设范围内部署用于测量环境温度数据的温度传感器，获得历史温度数据，以及通过工况相关的传感器获得该正常光纤应力传感器与历史温度数据对应的历史工况信息；

采用实施例一的方式构建数据库，将该正常光纤应力传感器的历史应力数据、历史温度数据和历史工况信息关联存入所述数据库中；

从所述数据库中获得相应数据；

基于获得的相应数据，计算不同工况下多组历史应力数据和历史温度数据之间的相关系数，获得不同工况下的相关系数向量；

计算获得不同工况下相关系数向量的平均值和标准差；

基于不同工况下相关系数向量的平均值和标准差计算获得每个工况对应的上限阈值和下限阈值；

在待测光纤应力传感器预设范围内部署用于测量环境温度数据的温度传感器，获得实时温度数据，以及通过工况相关的传感器获得该待测光纤应力传感器与实时温度数据对应的实时工况信息；

基于实时工况信息判断待测光纤应力传感器当前所属工况，基于当前所属工况获得该工况对应的第一上限阈值和第一下限阈值；

基于待测光纤应力传感器的实时应力数据和实时温度数据，计算获得实时相关系数；

将实时相关系数与第一上限阈值和第一下限阈值进行比较，基于比较结果判断待测光纤应力传感器是否异常。

其中，本方法通过采集正常状态下的光纤应力传感器的应力数据、温度数据和工况数据，构建数据库，然后通过数据库中的数据进行挖掘，获得正常光纤应力传感器在相应工况下的上下阈值，然后计算出待测光纤应力传感器的实时系数，将实时系数与挖掘出的相应工况下的上下阈值进行比较，基于比较结果来判断待测光纤应力传感器是否正常，本方法能够基于实时数据进行实时处理，能够实现实时监测，且避免了人工参与和人工经验进行判断，且利用历史正常数据进行深度挖掘处理，然后进行比较，能够快速准确的判断出待测光纤应力传感器是否异常。

在一些实施例中，若实时相关系数大于或等于第一上限阈值，或实时相关系数小于或等于第一下限阈值，则判断待测光纤应力传感器异常，否则判断待测光纤应力传感器正常。

其中，本发明中的上下阈值是根据历史正常的大数据进行挖掘获得的，具有一定的数据基础，当实时的数据不在这个范围内，则可认为该实时数据异常。

在一些实施例中，相关系数向量为，/>，其中，/>为离心泵在第j个工况中第k组数据的相关系数，p为在第j个工况中数据的组数，/>，M为工况数目，应力和温度之间会有一定的相关度，这种相关度是通过上述相关系数来量化表示，通过历史数据获得相关系数向量，能够获得不同工况下相关系数的阈值；

第j个工况对应的上限阈值和下限阈值分别为和/>：

；

其中，为相关系数向量的平均值，/>为相关系数向量的标准差，/>和/>分别为上限阈值和下限阈值的置信水平系数，/>和/>分别为上限阈值和下限阈值的平均值修正系数，/>和/>分别为上限阈值和下限阈值的标准差修正系数。

实施例二的技术方案能够实时且准确的对变温度环境下光纤应力传感器进行异常监测。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种面向健康监测的标准数据库建立与更新方法，其特征在于，所述方法包括：

步骤1：构建数据库；

步骤2：获得设备的原始数据，包括：在正常光纤应力传感器预设范围内部署用于测量环境温度数据的温度传感器，获得历史温度数据，以及通过工况相关的传感器获得该正常光纤应力传感器与历史温度数据对应的历史工况信息；

步骤7：将每个类别对应处理后的数据以类别作为标签存入所述数据库中；

所述方法还包括：

将该正常光纤应力传感器的历史应力数据、历史温度数据和历史工况信息关联存入所述数据库中；

从所述数据库中获得相应数据；

计算获得不同工况下相关系数向量的平均值和标准差；

在待测光纤应力传感器预设范围内部署用于测量环境温度数据的温度传感器，获得实时温度数据，以及获得该待测光纤应力传感器与实时温度数据对应的实时工况信息；

将实时相关系数与第一上限阈值和第一下限阈值进行比较，基于比较结果判断待测光纤应力传感器是否异常；

相关系数向量为，/>，其中，/>为光纤应力传感器在第j个工况中第k组数据的相关系数，p为在第j个工况中数据的组数，/>，M为工况数目；

第j个工况对应的上限阈值和下限阈值分别为和/>：

；

其中，为相关系数向量的平均值，/>为相关系数向量的标准差，/>和/>分别为上限阈值和下限阈值的置信水平系数，/>和/>分别为上限阈值和下限阈值的平均值修正系数，和/>分别为上限阈值和下限阈值的标准差修正系数。

2.根据权利要求1所述的一种面向健康监测的标准数据库建立与更新方法，其特征在于，所述步骤6具体包括：

判断每个类别对应的原始数据的数据量是否大于N₁且小于N₂，若某类别对应的原始数据的数据量小于N₁，则对该类别对应的原始数据进行数据扩充处理；若某类别对应的原始数据的数据量大于N₂，则对该类别对应的原始数据进行数据压缩处理。

3.根据权利要求1所述的一种面向健康监测的标准数据库建立与更新方法，其特征在于，所述步骤4具体包括：

步骤4.3：将粒子的坐标值作为超参数赋给聚类算法以CH指标为目标函数进行聚类；

4.根据权利要求3所述的一种面向健康监测的标准数据库建立与更新方法，其特征在于，CH值的计算方式为：

；

5.根据权利要求4所述的一种面向健康监测的标准数据库建立与更新方法，其特征在于，B_K的计算公式为：

；

W_K的计算公式为：

；

其中，c_q表示类q的中心点，c_e表示数据集的中心点，n_q表示类q中的数据的数目，表示类q的数据集合，x为类q中的数据，T为转置云算符。

6.根据权利要求1所述的一种面向健康监测的标准数据库建立与更新方法，其特征在于，所述步骤2还包括对原始数据进行清洗。

7.根据权利要求3所述的一种面向健康监测的标准数据库建立与更新方法，其特征在于，当某工况对应的原始数据数据量大于第一阈值时，对于该工况中的每个类别，如果该类别的数量大于n₁，则选取距离聚类质心最近的n₁个样本；如果该类别的数量小于n₁，则将该类别中的样本数量扩充到n₁个，得到个样本，/>，K₁为聚类个数，N1和N2均为阈值。

8.根据权利要求3所述的一种面向健康监测的标准数据库建立与更新方法，其特征在于，当某工况对应的原始数据数据量小于第二阈值时，对于该工况中的每个类别，如果该类别的数量大于n₂，则选取距离聚类质心最近的n₂个样本，如果该类别的数量小于n₂，则将该类别中的样本数量扩充到n₂个，得到个样本，/>，K₂为聚类个数，N1和N2均为阈值。

9.根据权利要求1所述的一种面向健康监测的标准数据库建立与更新方法，其特征在于，所述方法还包括：

基于所属工况信息获得与该工况信息对应的分类信息；

基于分类信息判断新样本数据是否属于其中的某一类别；

10.根据权利要求9所述的一种面向健康监测的标准数据库建立与更新方法，其特征在于，基于分类信息判断新样本数据是否属于其中的某一类别，具体包括：

基于分类信息获得新样本数据与类心的距离；