CN115422177A - 煤电机组过程数据清洗方法、系统、介质、设备及终端 - Google Patents
煤电机组过程数据清洗方法、系统、介质、设备及终端 Download PDFInfo
- Publication number
- CN115422177A CN115422177A CN202211071014.3A CN202211071014A CN115422177A CN 115422177 A CN115422177 A CN 115422177A CN 202211071014 A CN202211071014 A CN 202211071014A CN 115422177 A CN115422177 A CN 115422177A
- Authority
- CN
- China
- Prior art keywords
- value
- process data
- data
- continuous
- coal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明属于数据处理技术领域,公开了一种煤电机组过程数据清洗方法、系统、介质、设备及终端,利用SIS历史数据库接口获取历史数据;基于分段箱形图进行奇异值处理;基于经验累积分布函数进行卡滞值处理;基于样条插值进行缺失值处理。本发明通过获取历史数据、奇异值处理、卡滞值处理以及缺失值处理,得到目标参数的有效过程数据,实现煤电机组过程数据的清洗。本发明针对从电站SIS系统获取煤电机组运行过程数据时出现的奇异值、卡滞值和缺失值三种错误情况,基于数理统计方法和样条插值方法设计了一套错误数据清洗流程,获得了机组运行有效过程数据,提高了煤电机组数据的准确性和可靠性,解决了煤电机组运行过程数据中的错误值问题。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种煤电机组过程数据清洗方法、系统、介质、设备及终端。
背景技术
目前,在煤电机组实际生产运行中,数以万计的测量传感器被布置在机组各个子系统及设备中,以获取机组运行过程中的状态监测指标,如振动、温度、压力和流量等。这些测量装置长期运行在复杂的干扰环境下,如高温、高压和电磁等,可能会导致数据采集过程中出现软硬件故障而严重影响测量的准确性和可靠性,如通信故障和传感器故障等。煤电机组运行过程数据中的错误值往往不能表示设备运行的健康状态,甚至会导致状态误判。在煤电机组的灵活性改造过程中,要求机组能够进行更加复杂的变工况运行;此时,提高机组运行过程中数值质量管理,有助于应对机组更加深度的灵活性调节所带来的挑战。当前应用于工业过程数据清洗的方法主要有:基于统计理论的方法、基于拟合残差的方法、基于机器学习的方法。煤电机组过程数据具有维度高、数据量大、实时产生、工况多变等特点,在实际生产过程中会出现不合理的奇异值、连续数值不变的卡滞值、信号丢失或存储错误的缺失值;传统的基于全局的统计理论方法会漏检局部的错误数据,基于拟合残差的方法对于数据卡滞检测存在困难,基于机器学习的方法对于模型的训练和更新需要复杂的调制,对于不同运行参数缺乏统一的指导。因此,亟需设计一种新的煤电机组过程数据清洗方法、系统。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有煤电机组测量装置长期运行在复杂的干扰环境下,可能会导致数据采集过程中出现软硬件故障而严重影响测量的准确性和可靠性。
(2)现有的煤电机组运行过程数据中的错误值往往不能表示设备运行的健康状态,甚至会导致状态误判。
(3)针对煤电机组运行数据的特点及错误数据类型,目前并没有完整的流程化处理手段。
发明内容
针对现有技术存在的问题,本发明提供了一种煤电机组过程数据清洗方法、系统、介质、设备及终端。
本发明是这样实现的,一种煤电机组过程数据清洗方法,所述煤电机组过程数据清洗方法包括:
依次通过获取历史数据、奇异值处理、卡滞值处理以及缺失值处理,得到目标参数的有效过程数据,实现煤电机组过程数据的清洗。
进一步,所述煤电机组过程数据清洗方法包括以下步骤:
步骤一,利用SIS历史数据库接口获取历史数据;
步骤二,基于分段箱形图进行奇异值处理;
步骤三,基于经验累积分布函数进行卡滞值处理;
步骤四,基于样条插值进行缺失值处理。
进一步,所述步骤一中的历史数据获取包括:
利用SIS历史数据库接口获取目标监测参数历史运行过程中的原始数据,基于运行记录剔除设备未运行的无效数据,得到反映设备健康状态的运行过程数据,表现为若干段连续的时间序列,记作“运行数据1”;设备的运行记录根据运行开关量获取,0表示停机,1表示运行;对于没有运行开关量的设备运行记录通过被监测参数达到某数值获取,当电机的电流大于20A表示设备在运行。
进一步,所述步骤二中的基于分段箱形图的奇异值处理包括:
通过两种方式对目标监测参数进行分段划分,在不同的划分段中采用箱形图进行奇异值的判断。
所述基于分段箱形图的奇异值处理具体包括:
基于“运行过程数据1”,采用分段箱形图的方法对奇异值进行判断,对于单个的奇异值采用前后均值填充,对于连续的奇异值则用NaN替换,记作“运行过程数据2”;其中,数据分段的方式包括:直接基于运行过程数据1的分段划分;基于工况参数的分布情况,得到目标监测参数的分段划分。
进一步,所述步骤三中的基于经验累积分布函数的卡滞值处理包括:
基于“运行过程数据2”,表征各个子序列中的数值连续定值情况,得到目标参数历史过程中数值连续定值长度的经验分布;根据实际获取的数据量大小,指定经验累积分布阈值,得到目标参数数值连续定值长度的阈值;超过阈值的连续段判断为卡滞值,并用NaN替换,卡滞值处理后的结果记作“运行过程数据3”。
所述基于经验累积分布函数的卡滞值处理具体包括:
将目标监测参数历史过程数据中的连续定值情况进行表征;按照采样时刻顺序依次遍历原始数据序列,当前数值连续出现的次数为当前连续段的表征值;遍历所有子序列计算得到目标监测参数过程数据中连续段的经验累积分布函数;
其中,为经验累积分布函数;I(·)为指示函数;n为样本数量;x表示任意可能的取值,大于0的整数;对经验累积分布函数设置阈值α,得到对应连续定值长度的阈值L;当连续段的表征值超过阈值L时,则认为出现卡滞值。
进一步,所述步骤四中的基于样条插值的缺失值处理包括:
对于单个缺失值,采用前后数值的均值填充;对于连续缺失值,若连续缺失值的数量小于阈值N,则采用三次样条插值,否则直接删除。
所述基于样条插值的缺失值处理具体包括:
获取数据时的缺失值表现为NaN值,对于单个时刻的NaN值采用前后时刻的均值填充;对于最大允许度内的连续NaN值采用样条插值方法进行填充,否则直接删除;得到目标参数的有效过程数据,表现为若干段连续的时间序列。
本发明的另一目的在于提供一种应用所述的煤电机组过程数据清洗方法的煤电机组过程数据清洗系统,所述煤电机组过程数据清洗系统包括:
历史数据获取模块,用于利用SIS历史数据库接口获取历史数据;
奇异值处理模块,用于基于分段箱形图进行奇异值处理;
卡滞值处理模块,用于基于经验累积分布函数进行卡滞值处理;
缺失值处理模块,用于基于样条插值进行缺失值处理。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的煤电机组过程数据清洗方法的步骤。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的煤电机组过程数据清洗方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的煤电机组过程数据清洗系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
本发明提供的煤电机组过程数据清洗方法,通过两种方式对目标监测参数进行分段划分,在不同的划分段中采用箱形图进行奇异值的判断。本发明首先将目标监测参数历史过程数据中的连续定值情况进行表征;按照采样时刻顺序依次遍历原始数据序列,当前数值连续出现的次数为当前连续段的表征值;遍历完所有子序列可以计算得到目标监测参数过程数据中连续段的经验累积分布函数。对于单个缺失值,本发明采用前后数值的均值填充;对于连续缺失值,若连续缺失值的数量小于阈值N,则采用三次样条插值,否则直接删除。
本发明针对从电站SIS系统获取煤电机组运行过程数据时出现的奇异值、卡滞值和缺失值三种错误情况,基于数理统计方法和样条插值方法设计了一套错误数据清洗流程,以获得机组运行有效过程数据。
本发明的技术方案转化后的预期收益和商业价值为:本发明有助于提升电厂数据质量,高质量的数据能产生有价值的信息,为电厂管理和运行生产创造新的附加值。
本发明的技术方案是否解决了人们一直渴望解决、但始终未能获得成功的技术难题:工业过程往往存在各种不确定因素,这导致工业过程数据或多或少地存在问题。错误数据的类型在不同应用场景下也会有所不同,本发明针对煤电机组过程数据,设计了一套数据清洗流程,主要清洗数据中的奇异值、卡滞值和缺失值,最终得到反映机组运行的有效过程数据,这对机组运行监测和运行控制都具有重要意义。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的煤电机组过程数据清洗方法流程图;
图2是本发明实施例提供的煤电机组过程数据清洗方法原理图;
图3中图3(a)是流量在取数时间范围的变化趋势示意图,图3(b)是轴承温度在取数时间范围的变化趋势示意图;
图4是本发明实施例提供的奇异值清洗后的结果示意图;
图5是本发明实施例提供的连续定值表征示意图;
图6是本发明实施例提供的轴承温度过程数据连续定值表征的结果及其对应的经验累计分布函数示意图;
图7是本发明实施例提供的卡滞值清洗后的数据效果图;
图8是本发明实施例提供的三次样条插值具有良好的准确性效果图;
图9是本发明实施例提供的电厂管理和运行产生创造性的附加值示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种煤电机组过程数据清洗方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
本发明在提出一套数据清洗流程的基础上,着重针对卡滞值的检测提出了一种方案。
如图1所示,本发明实施例提供的煤电机组过程数据清洗方法包括以下步骤:
S101,利用SIS历史数据库接口获取历史数据;
S102,基于分段箱形图进行奇异值处理;
S103,基于经验累积分布函数进行卡滞值处理;
S104,基于样条插值进行缺失值处理。
作为优选实施例,如图2所示,本发明实施例提供的煤电机组过程数据清洗方法,具体包括以下步骤:
(1)获取历史数据:利用SIS历史数据库接口获取目标监测参数历史运行过程中的原始数据,基于运行记录剔除设备未运行的无效数据,得到反映设备健康状态的运行过程数据,通常表现为若干段连续的时间序列,记作“运行数据1”。设备的运行记录一般根据运行开关量获取,0表示停机,1表示运行;对于没有运行开关量的设备运行记录可以通过被监测参数达到某数值来获取,比如电机的电流大于20A表示设备在运行。
(2)奇异值处理:在“运行过程数据1”的基础上,本工作采用分段箱形图的方法对奇异值进行判断,对于单个的奇异值采用前后均值填充,对于连续的奇异值则用NaN替换,记作“运行过程数据2”。其中,数据分段的方式有两种:一是直接基于“运行过程数据1”的分段划分;二是基于工况参数的分布情况,得到目标监测参数的分段划分。
(3)卡滞值处理:在“运行过程数据2”的基础上,本工作表征各个子序列中的数值连续定值情况,得到目标参数历史过程中数值连续定值长度的经验分布;根据实际获取的数据量大小,指定相应的经验累积分布阈值,从而得到目标参数数值连续定值长度的阈值;超过该阈值的连续段判断为卡滞值,并用NaN替换,卡滞值处理后的结果记作“运行过程数据3”。
(4)缺失值处理:获取数据时的缺失值一般也表现为NaN值,对于单个时刻的NaN值采用前后时刻的均值填充保证序列的连续性,对于最大允许度内的连续NaN值采用样条插值方法进行填充,否则直接删除。最终得到目标参数的有效过程数据,通常表现为若干段连续的时间序列。
本发明实施例提供的煤电机组过程数据清洗系统包括:
历史数据获取模块,用于利用SIS历史数据库接口获取历史数据;
奇异值处理模块,用于基于分段箱形图进行奇异值处理;
卡滞值处理模块,用于基于经验累积分布函数进行卡滞值处理;
缺失值处理模块,用于基于样条插值进行缺失值处理。
本实施例以某电厂一台引风机运行过程数据为例,以轴承温度为目标参数;以风机流量为工况参数,对设备运行中轴承温度的过程数据进行清洗。从SIS系统中获取轴承温度和风机流量的历史数据,取数间隔1min,取数时间范围2021年1月1号-2022年7月1日。
第一步,基于引风机运行开关量,即设备运行状态为1时,筛选得到引风机运行过程中轴承温度和风机流量数据,如图3所示。图3(a)是流量在取数时间范围的变化趋势,图3(b)是轴承温度在取数时间范围的变化趋势;很明显能看到轴承温度在设备刚启动时,比设备正常运行时要低;同时轴承温度历史过程数据中有很明显的卡滞值。
第二步,根据四分位数将工况参数(本实施例中的流量)划分为四个区间,在对应的四个区间中分别采用箱形图对目标参数(本实施例中的轴承温度)进行奇异值处理。本实施例中,工况参数地划分为(,2.66)、(2.66,3.21)、(3.21,4.17)和(4.17,)四个区间。对于单个奇异值采用前后均值填充,对于连续的奇异值用NaN替换,轴承温度历史过程数据中判断的奇异值统计如表1所示;奇异值清洗后的结果如图4所示。本实施例中被判断为奇异值的样本点主要集中在设备刚启动时,轴承温度由环境温度上升至正常运行的温度,这一过程不能反映设备运行时轴承温度的真实水平。同时,设备运行工况范围广,设备在不同出力水平下的轴承温度分布存在差异,按照设备运行工况将目标参数历史过程数据进行划分和奇异值处理更加合理。
表1
开始时间 | 结束时间 | 奇异值个数 |
2021-03-02 09:36:00 | 2021-03-02 10:50:00 | 75 |
2021-03-02 10:53:00 | 2021-03-02 11:25:00 | 33 |
2021-03-13 17:33:00 | 2021-03-13 17:34:00 | 2 |
2021-03-20 15:40:00 | 2021-03-20 17:04:00 | 85 |
2021-03-21 07:43:00 | 2021-03-21 08:59:00 | 77 |
2021-05-05 12:44:00 | 2021-05-05 13:25:00 | 42 |
2021-06-30 10:47:00 | 2021-06-30 11:05:00 | 19 |
第三步,进一步对步骤二得到的清洗数据中的连续定值情况进行表征。按照采样时刻顺序依次遍历原始数据序列,当前数值连续出现的次数为当前连续段的表征值,连续定值表征示意图如图5所示;遍历完所有子序列可以计算得到目标监测参数过程数据中连续段的经验累积分布函数。本实施例中,轴承温度过程数据连续定值表征的结果及其对应的经验累积分布函数如图6所示。从图6可以看出,轴承温度在运行过程中是存在明显的连续定值情况,最大连续长度甚至超过25000;本实施例中累积经验分布的阈值为0.9999,其对应最大允许的连续定值长度为92,也就是轴承温度历史过程数据中连续定值长度超过92的情况认为是卡滞值,用NaN替换。轴承温度被判别为卡滞值的统计如表2所示,卡滞值清洗后的数据如图7所示,由于数据量比较大,有些卡滞值是肉眼看不到的。
表2
开始时间 | 结束时间 | 卡滞值个数 |
2021-01-26 21:28:00 | 2021-01-26 23:04:00 | 97 |
2021-01-29 09:36:00 | 2021-01-29 21:22:00 | 707 |
2021-04-20 13:24:00 | 2021-04-21 09:50:00 | 1227 |
2021-04-25 09:35:00 | 2021-04-25 17:54:00 | 500 |
2021-05-14 16:49:00 | 2021-05-14 18:24:00 | 96 |
2021-05-24 15:45:00 | 2021-05-24 18:50:00 | 186 |
2021-08-10 02:37:00 | 2021-08-28 23:59:00 | 27203 |
2021-09-15 20:50:00 | 2021-09-15 22:24:00 | 95 |
2022-01-24 02:19:00 | 2022-01-24 03:59:00 | 101 |
2022-03-04 10:12:00 | 2022-03-04 14:54:00 | 283 |
2022-03-23 16:44:00 | 2022-03-24 09:39:00 | 1016 |
2022-05-18 18:33:00 | 2022-05-19 21:37:00 | 1625 |
2022-05-22 02:00:00 | 2022-05-22 03:35:00 | 96 |
2022-05-25 15:04:00 | 2022-05-25 16:59:00 | 116 |
2022-06-08 00:00:00 | 2022-06-08 22:40:00 | 1361 |
2022-06-15 16:36:00 | 2022-06-15 18:11:00 | 96 |
2022-06-19 14:34:00 | 2022-06-19 16:07:00 | 94 |
2022-06-22 05:07:00 | 2022-06-22 06:44:00 | 98 |
第四步,缺失值处理。在步骤一中,从SIS数据库获取历史数据时出现的数据缺失一般表现为NaN值,在步骤二和三中,将连续的奇异值和卡滞值也替换成NaN值;因此,这一步骤中,通过筛选NaN值确定缺失值,本实施例中采用三次样条插值方法对缺失值进行修复,以尽量保持历史过程数据的连续性。本实施例中,修复长度最大阈值设定为5,即连续的缺失值大于5时,直接删除缺失段;小于等于5时进行修复,采用缺失段前后各5个点进行三次样条插值。如图8所示,在轴承温度历史过程数据中随机选取一个连续的原始序列,将其中某处连续5个点用缺失值替换,并用三次样条插值得到缺失值修复,修复值和真实值的均方误差为0.0025,可以看出三次样条插值具有良好的准确性。
本发明旨在为煤电机组过程数据清洗过程中,出现的奇异值、卡滞值和缺失值进行处理,并尽可能保证数据的连续性。其中,奇异值和缺失值的处理有很多成熟的技术,比如基于数理统计的方法和基于机器学习的方法;然而在工业数据处理中,针对卡滞值的处理并没有太多研究,主要是基于经验来判断。在本发明实施例中,轴承温度在实际工业过程中受到设备工况和润滑油温度的影响,其变化趋势具有缓变的特点;就SIS数据库中获取轴承温度的过程数据而言,其历史过程数据表现为频繁地出现连续定值的情况,这一特点导致很难以人为经验的方式判断多长的连续定值是卡滞。因此,本发明提出一种通用的基于经验累计分布的方法,针对煤电机组成千上万的参数的运行过程数据中的卡滞值进行检测,并将其与奇异值处理和缺失值处理结合起来,提出一种煤电机组过程数据清洗方法,其目的是尽可能地地获取到煤电机组有效和连续的过程数据,为电厂管理和运行产生创造性的附加值。如图9所示。
1.基于分段箱形图的奇异值处理
当前煤电机组运行呈现出多负荷水平下,频繁切换的发电模式,这导致机组的过程数据趋势表现出多模式下的稳态和非稳态交替出现的特点。设备目标监测参数的分布可能会随着机组负荷或设备工况的改变而发生改变;比如某机组引风机流量小于2.6t/h时,风机前轴承温度范围在38~62℃,当风机流量大于7.3t/h时,风机前轴承温度范围在51~64℃;因此,单纯地将目标监测参数的海量历史数据当做一个序列进行奇异值判别是不准确的。本发明通过两种方式对目标监测参数进行分段划分,在不同的划分段中采用箱形图进行奇异值的判断。
2.基于经验累积分布函数的卡滞值处理
煤电机组运行过程中的状态监测参数一般都是持续变化的,即相邻时刻的两个数值不相等;但有时候由于传感器的采样频率小于取数频率或者偶然情况下,也会出现连续多个时刻的数值相等。本发明首先将目标监测参数历史过程数据中的连续定值情况进行表征,如表1所示;按照采样时刻顺序依次遍历原始数据序列,当前数值连续出现的次数为当前连续段的表征值;遍历完所有子序列可以计算得到目标监测参数过程数据中连续段的经验累积分布函数,如式(1)所示。
其中,为经验累积分布函数;I(·)为指示函数;n为样本数量;x表示任意可能的取值,大于0的整数。对经验累积分布函数设置阈值α,可以得到对应连续定值长度的阈值L,当连续段的表征值超过阈值L时,则认为出现了卡滞值。
表1时间序列中连续定值情况表征
3.基于样条插值的缺失值处理
对于单个缺失值,采用前后数值的均值填充;对于连续缺失值,若连续缺失值的数量小于阈值N,则采用三次样条插值,否则直接删除。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体,或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种煤电机组过程数据清洗方法,其特征在于,所述煤电机组过程数据清洗方法包括:
依次通过获取历史数据、奇异值处理、卡滞值处理以及缺失值处理,得到目标参数的有效过程数据,实现煤电机组过程数据的清洗。
2.如权利要求1所述煤电机组过程数据清洗方法,其特征在于,所述煤电机组过程数据清洗方法包括以下步骤:
步骤一,利用SIS历史数据库接口获取历史数据;
步骤二,基于分段箱形图进行奇异值处理;
步骤三,基于经验累积分布函数进行卡滞值处理;
步骤四,基于样条插值进行缺失值处理。
3.如权利要求2所述煤电机组过程数据清洗方法,其特征在于,所述步骤一中的历史数据获取包括:
利用SIS历史数据库接口获取目标监测参数历史运行过程中的原始数据,基于运行记录剔除设备未运行的无效数据,得到反映设备健康状态的运行过程数据,表现为若干段连续的时间序列,记作“运行数据1”;设备的运行记录根据运行开关量获取,0表示停机,1表示运行;对于没有运行开关量的设备运行记录通过被监测参数达到某数值获取,当电机的电流大于20A表示设备在运行。
4.如权利要求2所述煤电机组过程数据清洗方法,其特征在于,所述步骤二中的基于分段箱形图的奇异值处理包括:
通过两种方式对目标监测参数进行分段划分,在不同的划分段中采用箱形图进行奇异值的判断;
所述基于分段箱形图的奇异值处理具体包括:
基于“运行数据1”,采用分段箱形图的方法对奇异值进行判断,对于单个的奇异值采用前后均值填充,对于连续的奇异值则用NaN替换,记作“运行过程数据2”;其中,数据分段的方式包括:直接基于“运行过程数据1”的分段划分;基于工况参数的分布情况,得到目标监测参数的分段划分。
5.如权利要求2所述煤电机组过程数据清洗方法,其特征在于,所述步骤三中的基于经验累积分布函数的卡滞值处理包括:
基于“运行过程数据2”,表征各个子序列中的数值连续定值情况,得到目标参数历史过程中数值连续定值长度的经验分布;根据实际获取的数据量大小,指定经验累积分布阈值,得到目标参数数值连续定值长度的阈值;超过阈值的连续段判断为卡滞值,并用NaN替换,卡滞值处理后的结果记作“运行过程数据3”;
所述基于经验累积分布函数的卡滞值处理具体包括:
将目标监测参数历史过程数据中的连续定值情况进行表征;按照采样时刻顺序依次遍历原始数据序列,当前数值连续出现的次数为当前连续段的表征值;遍历所有子序列计算得到目标监测参数过程数据中连续段的经验累积分布函数;
6.如权利要求2所述煤电机组过程数据清洗方法,其特征在于,所述步骤四中的基于样条插值的缺失值处理包括:
对于单个缺失值,采用前后数值的均值填充;对于连续缺失值,若连续缺失值的数量小于阈值N,则采用三次样条插值,否则直接删除;
所述基于样条插值的缺失值处理具体包括:
获取数据时的缺失值表现为NaN值,对于单个时刻的NaN值采用前后时刻的均值填充;对于最大允许度内的连续NaN值采用样条插值方法进行填充,否则直接删除;得到目标参数的有效过程数据,表现为若干段连续的时间序列。
7.一种应用如权利要求1~6任意一项所述煤电机组过程数据清洗方法的煤电机组过程数据清洗系统,其特征在于,所述煤电机组过程数据清洗系统包括:
历史数据获取模块,用于利用SIS历史数据库接口获取历史数据;
奇异值处理模块,用于基于分段箱形图进行奇异值处理;
卡滞值处理模块,用于基于经验累积分布函数进行卡滞值处理;
缺失值处理模块,用于基于样条插值进行缺失值处理。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述煤电机组过程数据清洗方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述煤电机组过程数据清洗方法的步骤。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述煤电机组过程数据清洗系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211071014.3A CN115422177A (zh) | 2022-09-02 | 2022-09-02 | 煤电机组过程数据清洗方法、系统、介质、设备及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211071014.3A CN115422177A (zh) | 2022-09-02 | 2022-09-02 | 煤电机组过程数据清洗方法、系统、介质、设备及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115422177A true CN115422177A (zh) | 2022-12-02 |
Family
ID=84203277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211071014.3A Pending CN115422177A (zh) | 2022-09-02 | 2022-09-02 | 煤电机组过程数据清洗方法、系统、介质、设备及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115422177A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049341A (zh) * | 2023-03-08 | 2023-05-02 | 北京七兆科技有限公司 | 一种水文数据标准化方法、装置、设备及存储介质 |
-
2022
- 2022-09-02 CN CN202211071014.3A patent/CN115422177A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049341A (zh) * | 2023-03-08 | 2023-05-02 | 北京七兆科技有限公司 | 一种水文数据标准化方法、装置、设备及存储介质 |
CN116049341B (zh) * | 2023-03-08 | 2023-08-15 | 北京七兆科技有限公司 | 一种水文数据标准化方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111459700B (zh) | 设备故障的诊断方法、诊断装置、诊断设备及存储介质 | |
CN108460144B (zh) | 一种基于机器学习的煤炭设备故障预警系统及方法 | |
CN108829933B (zh) | 一种半导体制造设备的预测性维护与健康管理的方法 | |
CN109469896B (zh) | 一种基于时间序列分析工业锅炉故障的诊断方法及系统 | |
JP5827426B1 (ja) | 予兆診断システム及び予兆診断方法 | |
CN115422177A (zh) | 煤电机组过程数据清洗方法、系统、介质、设备及终端 | |
CN112883075B (zh) | 一种滑坡普适型地表位移监测数据缺失及异常值处理方法 | |
CN116415126A (zh) | 用于造纸机的刮刀的异常检测的方法、装置和计算设备 | |
CN111176226A (zh) | 一种基于运行工况的设备特征参数报警阈值自动分析方法 | |
CN114664063A (zh) | 一种基于通用指标趋势分析的设备分级报警方法 | |
CN111371647A (zh) | 数据中心监控数据预处理方法及装置 | |
CN112016193B (zh) | 一种盾构机系统的润滑失效在线预测方法及系统 | |
CN116400249A (zh) | 储能电池的检测方法及装置 | |
CN114112390B (zh) | 一种非线性复杂系统早期故障诊断方法 | |
CN111062133A (zh) | 风电机组性能分析方法及系统 | |
Souza et al. | Evaluation of data based normal behavior models for fault detection in wind turbines | |
CN116415129A (zh) | 用于评估造纸机的刮刀的健康状态的方法、装置和计算设备 | |
CN115982665B (zh) | 一种用于水轮机量测数据的质量异常稽核方法及系统 | |
CN116259337B (zh) | 磁盘异常检测方法及模型训练方法、相关装置 | |
CN114279704B (zh) | 一种风电齿轮箱行星级运行状态的监测方法及系统 | |
CN118013468B (zh) | 一种风电机组部件健康度监测方法、装置、设备及介质 | |
CN113052272B (zh) | 一种异常检测方法、装置、电子设备及存储介质 | |
CN113671904B (zh) | 机台监测方法、装置、机台、可读存储介质及终端设备 | |
CN112327794B (zh) | 一种obd鲁棒性测试评估方法及装置 | |
JP7467876B2 (ja) | 性能変化検知装置、性能変化検知方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |