CN117609929B

CN117609929B - 基于大数据的工业生产线故障在线诊断方法及系统

Info

Publication number: CN117609929B
Application number: CN202410094649.8A
Authority: CN
Inventors: 王沙; 贺维; 张旭; 张小辉
Original assignee: Hunan Yibit Big Data Co ltd
Current assignee: Hunan Yibit Big Data Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-04-09
Anticipated expiration: 2044-01-24
Also published as: CN117609929A

Abstract

本发明涉及数据处理技术领域，具体涉及基于大数据的工业生产线故障在线诊断方法及系统，包括：获取工业生产线数据；对振动数据点的局部范围的波动程度进行分析，构建振动数据点的特征值；结合温度数据以及电流数据对振动数据点的特征值进行修正；抽取子样本集；对子样本集中振动数据进行聚类，并结合数据类构建优选程度；获取调整系数；结合所有子样本集中修正特征值的分布构建最终调整系数获取子样本集的调整数量；结合子样本集的调整数量采用孤立森林算法获取各振动数据点的异常得分值；从而完成工业生产线故障的在线诊断，有效提高异常检测的准确性以及故障诊断的效率。

Description

基于大数据的工业生产线故障在线诊断方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及基于大数据的工业生产线故障在线诊断方法及系统。

背景技术

在工业生产线故障在线诊断过程中，往往需要对采集到的振动数据做出异常检测。常用的一种异常检测算法为孤立森林算法，该算法通过构建随机划分树来识别数据中的异常点。但该算法在随机构建多棵孤立树的过程中，由于随机抽样的随机性，可能会导致每棵树中的数据异常表现不明显甚至不表现为异常，进而会影响该算法进行异常检测的效率，降低工业生产线故障在线诊断方法及系统的效率。

在对工业生产线上的振动数据进行随机抽样以进行孤立树的构建过程中，由于随机抽样的不确定性，可能导致某一个随机抽样得到的子样本集中异常数据所占比例太高或者异常数据的值和正常点的差值太接近，这会导致在孤立树的建立过程中异常数据的得分值出现异常，进而导致最终异常得分值出现偏差，影响异常检测结果。

针对上述问题，本发明提出了一种基于大数据的工业生产线故障在线诊断方法及系统。通过分析抽样结果中各个子样本集中的数据分布情况以及多个子样本集中重复数据的表现程度，实现自适应调整子样本集数量，得到准确的异常得分值。

发明内容

为了解决上述技术问题，本发明的目的在于提供基于大数据的工业生产线故障在线诊断方法及系统，所采用的技术方案具体如下：

第一方面，本发明实施例提供了基于大数据的工业生产线故障在线诊断方法，该方法包括以下步骤：

获取工业生产线数据，包括：振动数据、温度数据以及电流数据；

根据各振动数据点的局部范围数据波动程度获取各振动数据点的特征值；根据各振动数据点局部范围对应的温度数据以及电流数据的波动获取各振动数据点的修正特征值；采用随机采样的方法抽取子样本集；根据各子样本集中振动数据点的修正特征值分布获取各子样本集中的两个数据类；根据各子样本集中两个数据类之间的差异性获取各子样本集的优选程度；根据各子样本集的优选程度获取调整系数；根据所有子样本集中修正特征值的分布获取最终调整系数；根据最终调整系数获取子样本集的调整数量；结合子样本集的调整数量采用孤立森林算法获取各振动数据点的异常得分值；根据各振动数据点的异常得分值完成工业生产线故障的在线诊断。

优选的，所述根据各振动数据点的局部范围数据波动程度获取各振动数据点的特征值，包括：

获取各振动数据点局部范围内的数据点个数以及极值点个数；计算所述极值点个数与所述数据点个数的比值；

获取各振动数据点局部范围内与后一振动数据点的差值绝对值，保存为各振动数据点的一阶差；获取局部范围内所有振动数据点的一阶差与后一振动数据点的一阶差的差值绝对值的均值；

将所述比值与所述均值的乘积作为各振动数据点的特征值。

优选的，所述根据各振动数据点局部范围对应的温度数据以及电流数据的波动获取各振动数据点的修正特征值，具体为：

分别各振动数据点局部范围对应时间范围内的电流数据方差以及温度数据的方差；将所述电流数据方差与温度数据方差的和值相反数作为以自然常数为底数的指数函数的指数；将所述指数函数与各振动数据点的特征值的乘积作为各振动数据点的修正特征值。

优选的，所述根据各子样本集中振动数据点的修正特征值分布获取各子样本集中的两个数据类，包括：

采用K-means聚类算法结合子样本集中数据点的最大修正特征值以及最小修正特征值将子样本集中振动数据点聚为两类，获取两个数据类。

优选的，所述根据各子样本集中两个数据类之间的差异性获取各子样本集的优选程度，表达式为：

式中，表示第i个子样本集的优选程度，/>、/>分别表示第i个子样本集中聚类结果中修正特征值较大类、修正特征值较小类的修正特征值平均值，/>、/>分别表示第i个子样本集中修正特征值较大类、修正特征值较小类的数据点个数，/>、/>分别表示第i个子样本集中修正特征值较大类、修正特征值较小类的数据点的排列组合个数，/>表示第i个子样本集中修正特征值较大类的第j个排列组合中两个修正特征值的差值，/>表示第i个子样本集中修正特征值较小类的第j2个排列组合中两个修正特征值的差值。

优选的，所述根据各子样本集的优选程度获取调整系数，具体包括：

获取所有子样本集的优选程度的均值；将所述均值的相反数作为以自然常数为底数的指数函数的指数；将所述指数函数的计算结果作为调整系数。

优选的，所述根据所有子样本集中修正特征值的分布获取最终调整系数，具体包括：

以修正特征值作为横坐标，以各修正特征值对应的数据点在所有子样本集中出现的次数为纵坐标建立直角坐标系；采用最小二乘法对所述直角坐标系的数据点进行曲线拟合；统计一阶导数小于0的数据点个数；将所述数据点个数的相反数作为以自然常数为底数的指数函数的指数；将所述指数函数与调整系数的乘积作为最终调整系数。

优选的，所述根据最终调整系数获取子样本集的调整数量，具体步骤包括：

计算1与最终调整系数的和值；将所述和值与子样本集个数的乘积向上取整作为子样本集的调整数量。

优选的，所述根据各振动数据点的异常得分完成工业生产线故障的在线诊断，包括：

设置异常阈值；将异常得分大于异常阈值的振动数据点标记为异常数据。

第二方面，本发明实施例还提供了基于大数据的工业生产线故障在线诊断系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明至少具有如下有益效果：

本发明主要通过分析随机抽样结果中的数据表现，从而自适应调整样本集的数量，能够有效避免由于随机抽样导致的子数据集的不确定性和不稳定性，相较于传统孤立森林算法中固定子样本集数量的方式，能够有效解决子样本集中异常数据所占比例太高或者异常数据的值和正常点的差值太接近的问题，提高算法进行异常检测的准确性。同时利用多维数据之间的关系，对振动数据进行修正，更加提高了异常检测的准确性，提高了工业生产线故障在线诊断的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的基于大数据的工业生产线故障在线诊断方法的步骤流程图；

图2为子样本集的调整数量的获取流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于大数据的工业生产线故障在线诊断方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于大数据的工业生产线故障在线诊断方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于大数据的工业生产线故障在线诊断方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集工业生产线上的振动、温度、电流数据，并进行预处理。

利用振动传感器、温度传感器和电流传感器采集工业生产线上的振动、温度以及电流数据，本实施例中数据采集频率为1HZ，共获取3个小时的数据，实施者可自行调整。对获取到的数据进行数据清洗，本实施例利用小波阈值方法进行去噪处理，其中，小波阈值方法为现有公知技术，本实施例中不再赘述，实施者也可选用其他方法对数据进行处理。

步骤S002：通过各个子样本集中的数据分布情况以及多个子样本集中重复数据的表现程度，实现自适应调整子样本集数量，从而得到异常得分值。

本实施例通过孤立森林算法对工业生产线数据进行处理，在孤立森林算法中，为了构建准确的孤立数，应该满足异常数据占子样本量的比例很小、异常点的特征值与正常点的差异较大。因此，本实施例通过各个子样本集中的数据分布情况以及多个子样本集中重复数据的表现程度，实现自适应调整子样本集数量，降低个别子样本集效果较差对异常得分值的影响。

由于振动数据中有一些正常的数据变化导致数据值产生波动，但是这个波动可能是由于设备状态转换而导致的，例如工业生产线上设备的启动、暂停、负荷的增加或减少都会导致振动数据值发生变化，所以如果仅使用振动数据值作为特征值建立孤立树，可能会导致将正常的数据检测为异常。因此本实施例通过计算用于表征数据点的异常表现程度的特征值用于孤立树的构建。

对于异常的振动数据，其表现为振动数据在局部范围内的波动和突变，因此可利用数据点局部范围内数据的波动程度和突变情况计算得到特征值，其逻辑关系为波动程度越大、突变情况越明显则说明该数据点的异常表现越明显，则其特征值越大。局部范围内数据的波动程度可用局部范围内的极值点个数与局部范围内数据点个数的比值表征，其逻辑关系为比值越大，说明局部范围内的波动越多，则其波动程度越大；突变情况则可用相邻数据点的一阶差的稳定性表征，其中一阶差越不稳定则说明突变情况越明显，则其突变程度越高。

具体的，设定一个振动数据点的局部范围：以当前振动数据点为中心的11个数据点大小，实施者可自行调整。对于采集到边缘的振动数据点的局部范围进行相应的截断（如第1个振动数据，其局部范围为当前振动数据点和其右侧的5个数据点）；极值点个数可利用最小二乘法对局部范围内的振动数据进行曲线拟合，拟合曲线中一阶导数为0的点即为极值点个数；局部范围内一阶差的稳定性即可用其平均二阶差表征，平均二阶差越大，说明数据变化越不规律即突变越明显。那么振动数据点特征值的数学公式为：

式中，表示第k个振动数据点的特征值，/>表示第k个振动数据点局部范围的极值点个数，N为局部范围内振动数据点个数，则/>表征第k个振动数据点局部范围内的波动程度；/>表示第k个振动数据点的第/>个一阶差（/>，/>、/>分别表示第k个振动数据点的局部范围内第/>、/>个振动数据值）。/>表征局部范围内的突变情况。

由于在工业生产过程中，设备的启停、加速、减速、负荷增加或减少等都可能导致振动数据的变化，会导致上述公式在计算时出现偏差。在出现上述设备情况下，其温度和电流数据也会发生相应变化，因此可利用温度和电流数据在对应时间范围内的数据变化修正振动数据的特征值，其逻辑关系为，对应时间范围内电流和温度数据变化越稳定，则用于表征振动数据异常表现的特征值的可信度越高。那么特征值的修正过程为：

式中，表示第k个振动数据点修正特征值，/>、/>分别表示第k个振动数据点局部范围对应时间范围内电流数据方差、温度数据方差，用来表征其数据变化的稳定性；exp()表示指数函数，/>表征第k个振动数据点的可信度。

以下步骤将利用振动数据点的修正特征值进行计算。

一个好的样本集通常表现为异常数据占子样本量的比例很小、异常点的修正特征值与正常点的差异较大，对应在本实施例中为振动数据点特征值大的数据点在样本集中所占比例较小，且修正特征值大小差异较大。本实施例通过K-means聚类将子样本集中的数据聚为两类，通过两类之间修正特征值的差异大小和两个类的聚集程度的差值表征子样本集的优选程度，从而综合每个子样本集的优选程度得到子样本集的调整系数。需要说明的是，K-means聚类算法为现有公知技术，本实施例中不再赘述。

设一个样本集中的数据点个数为40个（经验值），初始样本集数量为10个（最少10个，经验值，以下计算的调整系数可理解为增加样本集数量的多少）。采用简单随机抽样的方法在获取到的3个小时振动数据中抽取10个容量为40个数据点大小的子样本集。那么对于某一个子样本集，利用K-means聚类将子样本集中的数据点聚为两类，聚类中心分别是该子样本集中修正特征值的最大值和最小值。那么用聚类结果中两类数据点的平均值差值表征其异常点修正特征值与正常点修正特征值的差，同时用两个类中数据点的平均差值的平均值表征其聚集性，两类聚集性的差值越大说明其平均值差值所表征的意义更可信；用修正特征值大的点的个数与子样本集中数据点个数的比值表征异常数据占子样本量的比例。其逻辑关系为，平均值差值越大、修正特征值大的点所占比例越小则优选程度越高，则其调整系数越低，首先获取各子样本集的优选程度，其数学公式为：

式中，表示第i个子样本集的优选程度，/>、/>分别表示第i个子样本集中聚类结果中修正特征值较大类、修正特征值较小类的修正特征值平均值，/>则表示两类数据点的平均值差值；/>、/>分别表示第i个子样本集中修正特征值较大类、修正特征值较小类的数据点个数，/>、/>分别表示第i个子样本集中修正特征值较大类、修正特征值较小类的数据点的排列组合个数，/>表示第i个子样本集中修正特征值较大类的第j1个排列组合中两个修正特征值的差值，/>表示第i个子样本集中修正特征值较小类的第j2个排列组合中两个修正特征值的差值，则/>表示两类聚集性的差值；/>则表示第i个子样本集中修正特征值大的点的个数与子样本集中数据点个数的比值。

对所有子样本集的优选程度取平均即为多个子样本集个数的平均优选程度，据此获取调整系数，表达式为：

式中，表示调整系数，/>表示第i个子样本集的优选程度，exp()为指数函数。

同时，在多个子样本集中，对于修正特征值大的数据点其出现的次数越多越高，因为修正特征值大说明其异常表现越高，那么就需要多次出现在子样本集中，以平滑某个子样本集中异常表现不好的情况。那么如果在抽样结果中，越呈现出修正特征值大的数据点出现的次数越多，则其调整系数越低。

以修正特征值作为横坐标，以对应修正特征值对应的数据点在所有子样本集中出现的次数为纵坐标建立直角坐标系（如果一个修正特征值对应多个振动数据点，则取其较小的一个震动数据点的出现次数），进行相应描点，然后利用最小二乘法进行曲线拟合，统计其一阶导数小于0的数据点个数，其个数越高，则说明抽样结果越不呈现修正特征值大的数据点出现的次数越多的规律，则其调整系数越高，所以最终的调整系数为：

式中，表示最终调整系数；/>为拟合曲线上一阶导数小于0的数据点个数。

那么对于子样本集数量的调整过程为，式中，/>表示最终的子样本集的数量，/>表示取上限函数（如/>）。其中，子样本集的调整数量的获取如图2所示。

利用上述方法对子样本集的数量调整之后，子样本集个数变多，并且之前已经抽取10个子样本集，需要子样本集数量达到K个，故在3个小时的振动数据中，再次利用简单随机抽样采集（K-10）个容量为40的子样本集，从而对这K个子样本集分别进行孤立树的建立，然后进行异常得分值的计算。需要说明的是，孤立森林算法为现有公知技术方法，本实施例不再赘述。

步骤S003：根据异常得分值进行异常检测。

设置异常阈值，根据各样本对应的异常得分值，若异常得分值大于异常阈值时，则标记为异常数据，本实施例中异常阈值设置为0.65，实施者可根据实际情况自行调整异常阈值。对于工业生产线上的异常数据，系统可以将其标记为异常行为并触发相应的预警机制，可以及时诊断大型工业生产线上的故障，提高了故障诊断的准确性，从而提高工业生产线上的安全性及系统的效率，降低了工业生产线的能耗水平。

基于与上述方法相同的发明构思，本发明实施例还提供了基于大数据的工业生产线故障在线诊断系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于大数据的工业生产线故障在线诊断方法中任意一项所述方法的步骤。

综上所述，本发明实施例主要通过分析随机抽样结果中的数据表现，从而自适应调整样本集的数量，能够有效避免由于随机抽样导致的子数据集的不确定性和不稳定性，相较于传统孤立森林算法中固定子样本集数量的方式，能够有效解决子样本集中异常数据所占比例太高或者异常数据的值和正常点的差值太接近的问题，提高算法进行异常检测的准确性。同时利用多维数据之间的关系，对振动数据进行修正，更加提高了异常检测的准确性，提高了工业生产线故障在线诊断的效率。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据的工业生产线故障在线诊断方法，其特征在于，该方法包括以下步骤：

根据各振动数据点的局部范围数据波动程度获取各振动数据点的特征值；根据各振动数据点局部范围对应的温度数据以及电流数据的波动获取各振动数据点的修正特征值；采用随机采样的方法抽取子样本集；根据各子样本集中振动数据点的修正特征值分布获取各子样本集中的两个数据类；根据各子样本集中两个数据类之间的差异性获取各子样本集的优选程度；根据各子样本集的优选程度获取调整系数；根据所有子样本集中修正特征值的分布获取最终调整系数；根据最终调整系数获取子样本集的调整数量；结合子样本集的调整数量采用孤立森林算法获取各振动数据点的异常得分值；根据各振动数据点的异常得分值完成工业生产线故障的在线诊断；

所述根据各振动数据点局部范围对应的温度数据以及电流数据的波动获取各振动数据点的修正特征值，具体为：

分别获取各振动数据点局部范围对应时间范围内的电流数据方差以及温度数据的方差；将所述电流数据方差与温度数据方差的和值相反数作为以自然常数为底数的指数函数的指数；将所述指数函数与各振动数据点的特征值的乘积作为各振动数据点的修正特征值；

所述根据各子样本集中两个数据类之间的差异性获取各子样本集的优选程度，表达式为：

式中，表示第i个子样本集的优选程度，/>、/>分别表示第i个子样本集中聚类结果中修正特征值较大类、修正特征值较小类的修正特征值平均值，/>、/>分别表示第i个子样本集中修正特征值较大类、修正特征值较小类的数据点个数，/>、/>分别表示第i个子样本集中修正特征值较大类、修正特征值较小类的数据点的排列组合个数，/>表示第i个子样本集中修正特征值较大类的第j1个排列组合中两个修正特征值的差值，/>表示第i个子样本集中修正特征值较小类的第j2个排列组合中两个修正特征值的差值；

所述根据各子样本集的优选程度获取调整系数，具体包括：

获取所有子样本集的优选程度的均值；将所述均值的相反数作为以自然常数为底数的指数函数的指数；将所述指数函数的计算结果作为调整系数；

所述根据所有子样本集中修正特征值的分布获取最终调整系数，具体包括：

2.如权利要求1所述的基于大数据的工业生产线故障在线诊断方法，其特征在于，所述根据各振动数据点的局部范围数据波动程度获取各振动数据点的特征值，包括：

将所述比值与所述均值的乘积作为各振动数据点的特征值。

3.如权利要求1所述的基于大数据的工业生产线故障在线诊断方法，其特征在于，所述根据各子样本集中振动数据点的修正特征值分布获取各子样本集中的两个数据类，包括：

4.如权利要求1所述的基于大数据的工业生产线故障在线诊断方法，其特征在于，所述根据最终调整系数获取子样本集的调整数量，具体步骤包括：

5.如权利要求1所述的基于大数据的工业生产线故障在线诊断方法，其特征在于，所述根据各振动数据点的异常得分完成工业生产线故障的在线诊断，包括：

6.基于大数据的工业生产线故障在线诊断系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5任意一项所述方法的步骤。