CN106997391B - 一种快速筛选大规模过程数据中的稳态工况数据的方法 - Google Patents
一种快速筛选大规模过程数据中的稳态工况数据的方法 Download PDFInfo
- Publication number
- CN106997391B CN106997391B CN201710227451.2A CN201710227451A CN106997391B CN 106997391 B CN106997391 B CN 106997391B CN 201710227451 A CN201710227451 A CN 201710227451A CN 106997391 B CN106997391 B CN 106997391B
- Authority
- CN
- China
- Prior art keywords
- data
- sliding window
- steady
- state
- standard deviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012216 screening Methods 0.000 title claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 241000287196 Asthenes Species 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种快速筛选大规模过程数据中的稳态工况数据的方法,包括:A、稳态数据筛选的初始化处理;B、滑动窗口由数据起点向终点移动,每移动一次,会有一个新数据点进入滑动窗口,同时将原滑动窗口内数据的起始点舍弃,计算新的滑动窗口内数据的均值和标准差;C、将所述新的滑动窗口内所含n个数据的标准差与标准差阈值δy进行比较,根据比较结果进行对应的筛选操作;D、对所选稳态数据段两端的数据进行剔除,提高数据稳态值的计算准确度。本发明能够改进现有技术的不足,提高了大规模过程数据的筛选速度。
Description
技术领域
本发明涉及过程数据挖掘技术领域,尤其是一种快速筛选大规模过程数据中的稳态工况数据的方法。
背景技术
在过程数据模型辨识、系统稳定工况的参数判定等过程中,都需要应用过程数据中的稳态工况数据,对于大量的过程数据而言,人工筛选耗时费力。滑动窗口是一种通用性的数据统计处理方法,即通过一个固定长度的窗口对数据进行遍历处理。例如中国发明专利CN 103679218 B公开的一种手写体关键词检测方法,通过使用滑动窗口对待检测文本图像的特征点进行提取,进而与关键词特征库对比。但是现有技术中所使用的滑动窗口方法由于处理方法复杂,无法适应大数据量的快速处理。
发明内容
本发明要解决的技术问题是提供一种快速筛选大规模过程数据中的稳态工况数据的方法,能够解决现有技术的不足,提高了大规模过程数据的筛选速度。
为解决上述技术问题,本发明所采取的技术方案如下。
一种快速筛选大规模过程数据中的稳态工况数据的方法,包括以下步骤:
A、稳态数据筛选的初始化处理,
对需要进行稳态工况数据筛选的数据段进行数据滤波,
选取长度为n的存储空间作为滑动窗口,所述存储空间为判断所述过程数据段稳定的最小单元,其中n表示所述滑动窗口中包含数据的个数,
根据包含n个数据的滑动窗口中的单个数据允许偏差值α,计算所述滑动窗口中n个数据的标准偏差的阈值δy;
计算数据段起始位置的n个数据的标准差,作为滑动窗口标准差的初值σ1
B、滑动窗口由数据起点向终点移动,每移动一次,会有一个新数据点进入滑动窗口,同时将原滑动窗口内数据的起始点舍弃,计算新的滑动窗口内数据的均值和标准差;
C、将所述新的滑动窗口内所含n个数据的标准差与标准差阈值δy进行比较,若其小于所述标准差阈值δy,则将新加入的数据计入稳态数据;若其大于所述标准差阈值δy,对于新的滑动窗口,则新的滑动窗口内所含第n个数据赋0;若对于初始的滑动窗口其标准差大于所述标准差阈值δy,则初始的滑动窗口内所含n个数据全部赋0;设需要进行筛选的原始数据长度为N,则直至所述滑动窗口的起点移动至N-n+1后,筛选过程结束;
D、对所选稳态数据段两端的数据进行剔除,提高数据稳态值的计算准确度。
作为优选,步骤A中,标准差的阈值δy的计算方法为,
作为优选,:步骤A中,滑动窗口标准差的初值σ1的计算方法为,
其中,diff1为初始时刻的方差。
作为优选,步骤B中,新的滑动窗口内数据均值的计算方法为,
作为优选,步骤B中,新的滑动窗口内数据标准差的计算方法为,
k时刻的方差diff值为,
则有对公式(6)进行展开可得如下公式,
同理,当滑动窗口移动至k+1时刻时,有如下公式,
比较公式(7)与公式(8)可得,
将公式(3)所得方差diff1的值带入公式(9),得到方差diffk+1,从而得到k+1时刻的滑动窗口内的数据标准差σk+1,
作为优选,步骤C中,稳态数据具体遵循以下原则进行数据存储:
当滑动窗口由k=1开始,逐步移动到k=N-n+1,需要进行筛选的原始数据长度为N;
1)当k=1时,对应滑动窗口的数据为y(1)到y(n),对n个数据按如下方法进行处理:
其中,ste表示用于稳态数据存储的稳态数据段,ste(n)表示稳态数据段ste中的第n个;
2)当k>1时,对应滑动窗口数据为y(k)到y(k+n-1),对n个数据按如下方法进行处理:
当σk<δv且ste(k-1)≠0时,ste(k+n-1)=y(k+n-1) (14)
当σk>δy时,ste(k+n-1)=0 (15);
所述滑动窗口每次移动经过以上两步判断后,最终将所有满足要求的稳态数据存储到稳态数据段ste中。
作为优选,步骤D中,设稳态数据段的起始位置为p,结束位置为q,采用滑动窗口移动的方法,具体剔除过程为,
1)计算起点在p点和q-n+1点处滑动窗口内n个数据的均值为:
对公式(21)计算得到的数据均值进行比较判断:
3)滑动窗口由q点反向移动,计算滑动窗口内的数据均值的方法为,
对公式(19)计算得到的数据均值进行比较判断:
采用上述技术方案所带来的有益效果在于:本方法针对数据处理量很大时,由于计算量很大,筛选过程会变慢的问题进行设计,改进了大量数据串行处理过程的计算方法,降低了数据处理的计算量,从而使得该筛选方法在处理大量过程数据时同样具有很快的筛选速度。
附图说明
图1为稳态数据筛选过程示意图。
图2为稳态数据筛选结果。
图3为剔除稳态数据段两端部分数据后的筛选结果。
其中,矩形框表示滑动窗口。
具体实施方式
实施例1
一种快速筛选大规模过程数据中的稳态工况数据的方法,包括以下步骤:
A、稳态数据筛选的初始化处理,
对需要进行稳态工况数据筛选的数据段进行数据滤波,
根据选取数据的用途选取长度为n的存储空间作为滑动窗口,所述存储空间为判断所述过程数据段稳定的最小单元,其中n表示所述滑动窗口中包含数据的个数,
根据包含n个数据的滑动窗口中的单个数据允许偏差值α,计算所述滑动窗口中n个数据的标准偏差的阈值δy;
计算数据段起始位置的n个数据的标准差,作为滑动窗口标准差的初值σ1
B、滑动窗口由数据起点向终点移动,每移动一次,会有一个新数据点进入滑动窗口,同时将原滑动窗口内数据的起始点舍弃,计算新的滑动窗口内数据的均值和标准差;
C、将所述新的滑动窗口内所含n个数据的标准差与标准差阈值δy进行比较,若其小于所述标准差阈值δy,则将新加入的数据计入稳态数据;若其大于所述标准差阈值δy,对于新的滑动窗口,则新的滑动窗口内所含第n个数据赋0;若对于初始的滑动窗口其标准差大于所述标准差阈值δv,则初始的滑动窗口内所含n个数据全部赋0;设需要进行筛选的原始数据长度为N,则直至所述滑动窗口的起点移动至N-n+1后,筛选过程结束;
D、对所选稳态数据段两端的数据进行剔除,提高数据稳态值的计算准确度。
步骤A中,标准差的阈值δy的计算方法为,
步骤A中,滑动窗口均值的初值y1的计算方法为,
步骤A中,滑动窗口标准差的初值σ1的计算方法为,
其中,diff1为初始时刻的方差。
步骤B中,新的滑动窗口内数据均值的计算方法为,
步骤B中,新的滑动窗口内数据标准差的计算方法为,
k时刻的方差diff值为,
则有对公式(6)进行展开可得如下公式,
同理,当滑动窗口移动至k+1时刻时,有如下公式,
比较公式(7)与公式(8)可得,
将公式(3)所得方差diff1的值带入公式(9),得到方差diffk+1,从而得到k+1时刻的滑动窗口内的数据标准差σk+1,
步骤C中,稳态数据具体遵循以下原则进行数据存储:
当滑动窗口由k=1开始,逐步移动到k=N-n+1,需要进行筛选的原始数据长度为N;
1)当k=1时,对应滑动窗口的数据为y(1)到y(n),对n个数据按如下方法进行处理:
其中,ste表示用于稳态数据存储的稳态数据段,ste(n)表示稳态数据段ste中的第n个;
2)当k>1时,对应滑动窗口数据为y(k)到y(k+n-1),对n个数据按如下方法进行处理:
当σk<δy且ste(k-1)≠0时,ste(k+n-1)=y(k+n-1) (14)
当σk>δy时,ste(k+n-1)=0 (15);
所述滑动窗口每次移动经过以上两步判断后,最终将所有满足要求的稳态数据存储到稳态数据段ste中。
步骤D中,设稳态数据段的起始位置为p,结束位置为q,采用滑动窗口移动的方法,具体剔除过程为,
1)计算起点在p点和q-n+1点处滑动窗口内n个数据的均值为:
对公式(21)计算得到的数据均值进行比较判断:
3)滑动窗口由q点反向移动,计算滑动窗口内的数据均值的方法为,
对公式(19)计算得到的数据均值进行比较判断:
实施例2
本实施例是在实施例1的基础上改进而来的。
在步骤B中,求取k+1时刻的滑动窗口内的数据标准差σk+1时,对方差diffk+1进行修正。使用diffk至diffk-n+1这n个方差数据进行拟合(k/2<n<k),然后求取拟合曲线的斜率变化率,根据diffk处的斜率变化率得出diffk+1的预测值diff′k+1,使用diffk+1与diff′k+1的加权平均值求取σk+1。其中diff′k+1的加权率与拟合曲线的线性度成反比。通过对diffk+1进行修正,可以有效降低干扰信号对于数据筛选过程的干扰。
实施例3
本实施例是在实施例2的基础上改进而来的。
系统对筛选出的稳态数据段ste进行遍历,将遍历的数据根据密度进行聚类,通过聚类后的局部异常因子确定异常数据。根据检测到的异常数据的比例,对使用diffk至diffk-n+1这n个方差数据进行拟合的拟合曲线进行反馈修正。通过反馈修正,可以提高实施例2中对diffk+1进行修正的准确度。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (8)
1.一种快速筛选大规模过程数据中的稳态工况数据的方法,其特征在于包括以下步骤:
A、稳态数据筛选的初始化处理,
对需要进行稳态工况数据筛选的数据段进行数据滤波,
选取长度为n的存储空间作为滑动窗口,所述存储空间为判断需要进行稳态工况数据筛选的数据段稳定的最小单元,其中n表示所述滑动窗口中包含数据的个数,
根据包含n个数据的滑动窗口中的单个数据允许偏差值α,计算所述滑动窗口中n个数据的标准偏差的阈值δy;
计算数据段起始位置的n个数据的标准差,作为滑动窗口标准差的初值σ1
B、滑动窗口由数据起点向终点移动,每移动一次,会有一个新数据点进入滑动窗口,同时将原滑动窗口内数据的起始点舍弃,计算新的滑动窗口内数据的均值和标准差;
C、将所述新的滑动窗口内所含n个数据的标准差与标准差阈值δy进行比较,若其小于所述标准差阈值δy,则将新加入的数据计入稳态数据;若其大于所述标准差阈值δy,对于新的滑动窗口,则新的滑动窗口内所含第n个数据赋0;若对于初始的滑动窗口其标准差大于所述标准差阈值δy,则初始的滑动窗口内所含n个数据全部赋0;设需要进行筛选的原始数据长度为N,则直至所述滑动窗口的起点移动至N-n+1后,筛选过程结束;
D、对所选稳态数据段两端的数据进行剔除,提高数据稳态值的计算准确度。
7.根据权利要求6所述的快速筛选大规模过程数据中的稳态工况数据的方法,其特征在于:步骤C中,稳态数据具体遵循以下原则进行数据存储:
当滑动窗口由k=1开始,逐步移动到k=N-n+1,需要进行筛选的原始数据长度为N;
1)当k=1时,对应滑动窗口的数据为y(1)到y(n),对n个数据按如下方法进行处理:
其中,ste表示用于稳态数据存储的稳态数据段,ste(n)表示稳态数据段ste中的第n个;
2)当k>1时,对应滑动窗口数据为y(k)到y(k+n-1),对n个数据按如下方法进行处理:
当σk<δy且ste(k-1)≠0时,ste(k+n-1)=y(k+n-1) (14)
当σk>δy时;ste(k+n-1)=0 (15);
所述滑动窗口每次移动经过以上步骤1)和步骤2)判断后,最终将所有满足要求的稳态数据存储到稳态数据段ste中。
8.根据权利要求7所述的快速筛选大规模过程数据中的稳态工况数据的方法,其特征在于:步骤D中,设稳态数据段的起始位置为p,结束位置为q,采用滑动窗口移动的方法,具体剔除过程为,
1)计算起点在p点和q-n+1点处滑动窗口内n个数据的均值为:
对公式(21)计算得到的数据均值进行比较判断:
3)滑动窗口由q点反向移动,计算滑动窗口内的数据均值的方法为,
对公式(19)计算得到的数据均值进行比较判断:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710227451.2A CN106997391B (zh) | 2017-04-10 | 2017-04-10 | 一种快速筛选大规模过程数据中的稳态工况数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710227451.2A CN106997391B (zh) | 2017-04-10 | 2017-04-10 | 一种快速筛选大规模过程数据中的稳态工况数据的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106997391A CN106997391A (zh) | 2017-08-01 |
CN106997391B true CN106997391B (zh) | 2020-11-03 |
Family
ID=59435427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710227451.2A Expired - Fee Related CN106997391B (zh) | 2017-04-10 | 2017-04-10 | 一种快速筛选大规模过程数据中的稳态工况数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106997391B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110376005B (zh) * | 2018-04-13 | 2023-08-22 | 开利公司 | 数据处理方法、制冷剂泄漏检测方法、系统故障检测方法以及系统性能检测方法 |
CN108763584B (zh) * | 2018-06-11 | 2021-11-02 | 北京天泽智云科技有限公司 | 一种风功率曲线散点过滤的方法及其系统 |
CN111223233A (zh) * | 2019-12-23 | 2020-06-02 | 西安科技大学 | 一种基于动态窗口的重力传感器数据平滑处理算法 |
CN111145564B (zh) * | 2020-01-03 | 2021-09-17 | 山东大学 | 信控交叉口的自适应可变车道控制方法及系统 |
CN112231182A (zh) * | 2020-12-15 | 2021-01-15 | 长沙树根互联技术有限公司 | 物联设备工况数据分析方法、装置和计算机设备 |
CN113515512B (zh) * | 2021-06-22 | 2024-06-14 | 国网辽宁省电力有限公司鞍山供电公司 | 一种工业互联网平台数据的质量治理及提升方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102170124A (zh) * | 2011-03-21 | 2011-08-31 | 江苏省电力试验研究院有限公司 | 一种电能质量稳态指标预警方法 |
CN102436720A (zh) * | 2011-09-28 | 2012-05-02 | 清华大学 | 一种基于数据过滤的重复报警处理方法 |
CN104679834A (zh) * | 2015-02-06 | 2015-06-03 | 北京工商大学 | 一种时序数据清洗方法及系统 |
CN105389648A (zh) * | 2015-10-21 | 2016-03-09 | 南京富岛信息工程有限公司 | 一种常减压装置稳态工况的判别方法 |
CN105867132A (zh) * | 2016-04-19 | 2016-08-17 | 东南大学 | 稳态追踪自矫正的联合循环机组排烟含氧量在线测量方法 |
CN105989061A (zh) * | 2015-02-09 | 2016-10-05 | 中国科学院信息工程研究所 | 一种滑动窗口下多维数据重复检测快速索引方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9361329B2 (en) * | 2013-12-13 | 2016-06-07 | International Business Machines Corporation | Managing time series databases |
US10416915B2 (en) * | 2015-05-15 | 2019-09-17 | ScaleFlux | Assisting data deduplication through in-memory computation |
-
2017
- 2017-04-10 CN CN201710227451.2A patent/CN106997391B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102170124A (zh) * | 2011-03-21 | 2011-08-31 | 江苏省电力试验研究院有限公司 | 一种电能质量稳态指标预警方法 |
CN102436720A (zh) * | 2011-09-28 | 2012-05-02 | 清华大学 | 一种基于数据过滤的重复报警处理方法 |
CN104679834A (zh) * | 2015-02-06 | 2015-06-03 | 北京工商大学 | 一种时序数据清洗方法及系统 |
CN105989061A (zh) * | 2015-02-09 | 2016-10-05 | 中国科学院信息工程研究所 | 一种滑动窗口下多维数据重复检测快速索引方法 |
CN105389648A (zh) * | 2015-10-21 | 2016-03-09 | 南京富岛信息工程有限公司 | 一种常减压装置稳态工况的判别方法 |
CN105867132A (zh) * | 2016-04-19 | 2016-08-17 | 东南大学 | 稳态追踪自矫正的联合循环机组排烟含氧量在线测量方法 |
Non-Patent Citations (1)
Title |
---|
"基于滑动窗口和聚类算法的变压器状态异常检测";严英杰 等;《高电压技术》;20161231;4020-4025页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106997391A (zh) | 2017-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106997391B (zh) | 一种快速筛选大规模过程数据中的稳态工况数据的方法 | |
CN110134919B (zh) | 风电机组异常数据清洗方法 | |
CN105160181B (zh) | 一种数控系统指令域序列异常数据检测方法 | |
CN110690995B (zh) | 一种基于多变量时间序列预测的鲁棒性异常检测方法和设备 | |
Tadić | Analyticity, convergence, and convergence rate of recursive maximum-likelihood estimation in hidden Markov models | |
CN106600663B (zh) | 一种基于二次b样条曲线的简单曲线平滑方法 | |
CN108010044B (zh) | 一种视频边界检测的方法 | |
CN110445726A (zh) | 一种基于信息熵的自适应网络流概念漂移检测方法 | |
CN108763584B (zh) | 一种风功率曲线散点过滤的方法及其系统 | |
WO2022033015A1 (zh) | 图像中异常区域的处理方法、装置和图像分割方法、装置 | |
CN114083770A (zh) | 工艺参数调整及模型训练方法、装置、设备与存储介质 | |
CN108830865B (zh) | 一种用于动态脑电图像的稳定上下边界的确定方法 | |
CN110489810B (zh) | 一种基于数据块的趋势自动提取方法 | |
CN117034197A (zh) | 基于多维Isolate-Detect多变点检测的企业用电典型模式分析方法 | |
CN106815858B (zh) | 一种运动目标提取方法及装置 | |
CN110909635A (zh) | 一种非线性元件模型的波形相似度分析方法 | |
US11122065B2 (en) | Adaptive anomaly detection for computer systems | |
CN115794544A (zh) | 一种中间件异常监测装置以及方法 | |
CN106814608B (zh) | 基于后验概率分布的预测控制自适应滤波算法 | |
Wijnmalen et al. | Review of a Markov decision algorithm for optimal inspections and revisions in a maintenance system with partial information | |
CN106533784A (zh) | 一种提高应用层流量分类准确率的方法 | |
JP6259058B2 (ja) | データ分析装置及び方法及びプログラム | |
CN111339296B (zh) | 基于在hdp模型中引入自适应窗口的文档主题提取方法 | |
CN110490297B (zh) | 一种铁路道岔动作功率曲线智能分段方法 | |
CN109298999B (zh) | 一种基于数据分布特征的核心化软件测试方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201103 |
|
CF01 | Termination of patent right due to non-payment of annual fee |