CN112632047B - 一种基于变窗口模式识别的时间序列数据处理方法 - Google Patents

一种基于变窗口模式识别的时间序列数据处理方法 Download PDF

Info

Publication number
CN112632047B
CN112632047B CN202011402843.6A CN202011402843A CN112632047B CN 112632047 B CN112632047 B CN 112632047B CN 202011402843 A CN202011402843 A CN 202011402843A CN 112632047 B CN112632047 B CN 112632047B
Authority
CN
China
Prior art keywords
rem
variable
data
filling
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011402843.6A
Other languages
English (en)
Other versions
CN112632047A (zh
Inventor
翁存兴
曾凡春
田宏哲
刘先春
曹利蒲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huaneng Xinrui Control Technology Co Ltd
Original Assignee
Beijing Huaneng Xinrui Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huaneng Xinrui Control Technology Co Ltd filed Critical Beijing Huaneng Xinrui Control Technology Co Ltd
Priority to CN202011402843.6A priority Critical patent/CN112632047B/zh
Publication of CN112632047A publication Critical patent/CN112632047A/zh
Application granted granted Critical
Publication of CN112632047B publication Critical patent/CN112632047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Wind Motors (AREA)
  • Control Of Eletrric Generators (AREA)

Abstract

一种基于变窗口模式识别的时间序列缺失值填补方法,所述方法包括如下步骤:基于运行机理的风电机组有功功率相关性变量选取;基于数据特征选择的风电机组有功功率相关性变量选取;针对风电机组有功功率的多维相关性变量的变窗口模式匹配;基于相似模式的风电机组有功功率连续缺失数据块多重填补;多重填补结果评价及确认;针对工业物联网广泛存在以及常见的数据连续缺失情况,可以高效、准确的实现高比例缺失数据的填补,大大提高有效数据量,为机器学习、人工智能等数据驱动类算法的实施和应用奠定了重要的数据基础。

Description

一种基于变窗口模式识别的时间序列数据处理方法
技术领域
本发明属于数据处理领域,特别是涉及一种基于变窗口模式识别的时间序列数据处理方法。
背景技术
随着物联网的出现,时间序列数据被传感器广泛采集和存储。然而,受断电、通讯或存储等因素影响,易引发数据连续缺失并形成缺失数据块,降低了数据质量,不仅影响实时监测性能,还危害到后续的离线数据分析与处理工作。
此外,受通讯干扰、传感器故障等因素影响,物联网所采集的时间序列中同样包含大量异常数据,在经历数据预处理环节后,大量异常数据被清洗,进一步加剧数据缺失程度。尤其是,连续缺失数据块的规模进一步增加,大大增加了缺失数据填补的难度。
当缺失数据占比较高时,用于缺失数据填补的有效信息急剧减少,如何实现高效、准确的完成缺失数据填补,并保证填补质量。
发明内容
为了克服以上现有生产中技术的不足,提供了一种基于变窗口模式识别的时间序列缺失值填补方法
一种基于变窗口模式识别的时间序列缺失值填补方法,其特征在于,所述方法包括如下步骤:
步骤(1),基于运行机理的风电机组有功功率相关性变量选取;
步骤(2),基于数据特征选择的风电机组有功功率相关性变量选取;
步骤(3),针对风电机组有功功率的多维相关性变量的变窗口模式匹配;
步骤(4),基于相似模式的风电机组有功功率连续缺失数据块多重填补;
步骤(5),多重填补结果评价及确认。
本发明的有益效果是:针对工业物联网广泛存在以及常见的数据连续缺失情况,通过本方法可以高效、准确的实现高比例缺失数据的填补,大大提高有效数据量。为机器学习、人工智能等数据驱动类算法的实施和应用奠定了重要的数据基础。
附图说明
图1为数据填补流程图;
图2为基于高斯过程回归算法的数据填补结果;
具体实施方式
下面结合附图对本发明作进一步描述,应当理解,此处所描述的内容仅用于说明和解释本发明,并不用于限定本发明。
风力发电场的数据监测与采集(SCADA)系统处理大量原始数据,例如选取某型号风电机组的风速、有功功率原始数据进行后续分析处理。由于数据采集、传输、存储、弃风限电后的数据清洗等原因,预处理后的风电机组有功功率数据形成了规模不等的数据缺失。其中,由于弃风限电及数据清洗,导致了大量连续缺失数据块的出现。
本发明提供一种基于变窗口模式识别的时间序列缺失值填补方法,针对风力发电系统数据缺失进行处理,所述方法包括如下步骤:
步骤(1),基于运行机理的风电机组有功功率相关性变量选取;
步骤(2),基于数据特征选择的风电机组有功功率相关性变量选取;
步骤(3),针对风电机组有功功率的多维相关性变量的变窗口模式匹配;
步骤(4),基于相似模式的风电机组有功功率连续缺失数据块多重填补;
步骤(5),多重填补结果评价及确认。
所述步骤(1)中:设风电机组有功功率为缺失数据变量为I。对于风力发电系统运行过程的输出数据,可根据风力发电过程运行机理,从先验机理知识的角度,选择与数据缺失变量相关的若干相关性变量Ri,如风速、风向、风电场内调度指令、风轮转速、桨距角等,形成相关性变量候选集合R={R1,R2,…,Ri},i=1,2,…,N。
所述步骤(2)中:针对候选集合中的相关性变量R,从风力发电过程运行数据中,以时间间隔T采集运行数据。采用滤波法,实现针对风电机组有功功率的相关性特征变量选择,进一步精细化选取与被填补数据变量相关的特征变量为风速,Rf={R1,R2,…,Rj},j=1,2,…,Nf,其中,Rf∈R,也即Nf=1。
所述步骤(3)中:设在时刻tn,变量I缺失数据值为I(tn)。以I(tn)为锚点选取时间窗口,窗宽W(tn)=2p+1。以时刻tn-p为起点、tn+p为终点,从特征变量集Rf中选取相应时间起止点的时间序列,建立多维时间序列的目标模式片段Rf,obj(tn-p,tn+p)={R1,obj,R2,obj,…,Rj,obj},j=1,2,…,Nf
定义变量集Xrem={Irem,Rf,rem};其中,Irem为变量I的剩余数据,Rf,rem为与Irem相对应的Rf中的剩余数据。从Rf,rem中截取长度为2p+1的时间片段,得到截取的模式集合Rf,rem(2p+1)={R1,rem,R2,rem,…,Rj,rem}。
以欧式距离为评价指标,采用逐步逼近法,定义并计算Rj与Rj,rem间的欧式距离为dj,j=1,2,…,Nf。若djj,则认为Rf,rem(2p+1)是Rf,obj(tn-p,tn+p)的相似模式,其中,εj为大于0的正数。若εj的值越小,则认为Rf,rem(2p+1)与Rf,obj(tn-p,tn+p)的相似精度越高。根据Rf中的变量类型及数量级大小,εj的设定可以更加灵活,如为固定值或对Rf中的变量分组固定。
设定Xrem的样本量为Nrem,从中进行k次模式筛选,得到k组相似模式集Rf,rem(2p+1)。
所述步骤(4)中:基于筛选出的k组相似模式集Rf,rem(2p+1),从变量I中截取相应的k组时间片段Irem(2p+1),据此进行I(tn)的多重填补。填补方法可根据k组Rf,rem(2p+1)、Irem(2p+1)的值进行多重均值填补、时间序列填补等。
以时间序列填补为例进行说明。
时间序列填补方法如下:查找Irem(2p+1)的中心值Irem(p+1),以Irem(p+1)作为输出,以(Irem(1:p),R1,rem(1:p+1),R2,rem(1:p+1),…,Rj,rem(1:p+1))作为输入,采用高斯过程回归方法建立回归模型。得到k组Irem(p+1)的回归值Irem,reg(p+1),对其求平均值即得到Irem,reg,ave(p+1)作为I(tn)的多重填补值。
所示步骤(5)中:针对步骤(4)得到的连续数据缺失数据块的多重填补结果,采用多角度指标进行评价,如采用归一化均方根误差、归一化平均绝对值误差等确定性评价指标,以及归一化的填补误差平均置信带宽。其中,定义连续缺失数据块的长度为lc,置信度为τ,填补值为Iimp,Imea、Irate为机组有功功率测量值、额定值,各指标定义如下:
归一化均方根误差:
归一化平均绝对值误差:
归一化的填补误差平均置信带宽:
最后应说明的是:以上所述仅为本发明的解释,并不用于限制本发明,尽管对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于变窗口模式识别的时间序列缺失值填补方法,其特征在于,所述方法包括如下步骤:
步骤(1),基于运行机理的风电机组有功功率相关性变量选取;
步骤(2),基于数据特征选择的风电机组有功功率相关性变量选取;
步骤(3),针对风电机组有功功率的多维相关性变量的变窗口模式匹配;
步骤(3)中:设在时刻tn,设风电机组有功功率为缺失数据变量为I,变量I缺失数据值为I(tn);以I(tn)为锚点选取时间窗口,窗宽W(tn)=2p+1;以时刻tn-p为起点、tn+p为终点,从特征变量集Rf中选取相应时间起止点的时间序列,Rf={R1,R2,…,Rj},j=1,2,…,Nf,其中,Rf∈R,建立多维时间序列的目标模式片段Rf,obj(tn-p,tn+p)=
{R1,obj,R2,obj,…,Rj,obj},j=1,2,…,Nf
定义变量集Xrem={Irem,Rf,rem};其中,Irem为变量I的剩余数据,Rf,rem为与Irem相对应的Rf中的剩余数据;从Rf,rem中截取长度为2p+1的时间片段,得到截取的模式集合Rf,rem(2p+1)={R1,rem,R2,rem,…,Rj,rem};
以欧式距离为评价指标,采用逐步逼近法,定义并计算Rj与Rj,rem间的欧式距离为dj,j=1,2,…,Nf;若djj,则认为Rf,rem(2p+1)是Rf,obj(tn-p,tn+p)的相似模式,其中,εj为大于0的正数;若εj的值越小,则认为Rf,rem(2p+1)与Rf,obj(tn-p,tn+p)的相似精度越高;根据Rf中的变量类型及数量级大小,εj的设定为固定值或对Rf中的变量分组固定;
设定Xrem的样本量为Nrem,从中进行k次模式筛选,得到k组相似模式集Rf,rem(2p+1);
步骤(4),基于相似模式的风电机组有功功率连续缺失数据块多重填补;
步骤(4)中:基于筛选出的k组相似模式集Rf,rem(2p+1),从变量I中截取相应的k组时间片段Irem(2p+1),据此进行I(tn)的多重填补;填补方法根据k组Rf,rem(2p+1)、Irem(2p+1)的值进行多重均值填补、时间序列填补;
步骤(5),多重填补结果评价及确认。
2.根据权利要求1所述的基于变窗口模式识别的时间序列缺失值填补方法,其特征在于,步骤(1)中,设风电机组有功功率为缺失数据变量为I;对于风力发电系统运行过程的输出数据,根据风力发电过程运行机理,选择与数据缺失变量相关的若干相关性变量Ri,形成相关性变量候选集合R={R1,R2,…,Ri},i=1,2,…,N。
3.根据权利要求2所述的基于变窗口模式识别的时间序列缺失值填补方法,其特征在于,相关性变量Ri包括风速、风向、风电场内调度指令、风轮转速、桨距角。
4.根据权利要求1所述的基于变窗口模式识别的时间序列缺失值填补方法,其特征在于,步骤(2)中:针对候选集合中的相关性变量R,从风力发电过程运行数据中,以时间间隔T采集运行数据;采用滤波法,针对风电机组有功功率的相关性特征变量选择,Rf={R1,R2,…,Rj},j=1,2,…,Nf,其中,Rf∈R。
5.根据权利要求4所述的基于变窗口模式识别的时间序列缺失值填补方法,其特征在于,进一步精细化选取与被填补数据变量相关的特征变量为风速,即Nf=1。
6.根据权利要求1所述的基于变窗口模式识别的时间序列缺失值填补方法,其特征在于,时间序列填补方法如下:查找Irem(2p+1)的中心值Irem(p+1),以Irem(p+1)作为输出,以(Irem(1:p),R1,rem(1:p+1),R2,rem(1:p+1),…,Rj,rem(1:p+1))作为输入,采用高斯过程回归方法建立回归模型;得到k组Irem(p+1)的回归值Irem,reg(p+1),对其求平均值即得到Irem,reg,ave(p+1)作为I(tn)的多重填补值。
7.根据权利要求1所述的基于变窗口模式识别的时间序列缺失值填补方法,其特征在于,步骤5)中对得到的连续数据缺失数据块的多重填补结果,采用多角度指标进行评价,确定性评价指标包括归一化均方根误差、归一化平均绝对值误差、以及归一化的填补误差平均置信带宽。
8.根据权利要求7所述的基于变窗口模式识别的时间序列缺失值填补方法,其特征在于,其中,定义连续缺失数据块的长度为lc,置信度为τ,填补值为Iimp,Imea、Irate为测量值、额定值,确定性评价指标定义如下:
归一化均方根误差:
归一化平均绝对值误差:
归一化的填补误差平均置信带宽:
CN202011402843.6A 2020-12-02 2020-12-02 一种基于变窗口模式识别的时间序列数据处理方法 Active CN112632047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011402843.6A CN112632047B (zh) 2020-12-02 2020-12-02 一种基于变窗口模式识别的时间序列数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011402843.6A CN112632047B (zh) 2020-12-02 2020-12-02 一种基于变窗口模式识别的时间序列数据处理方法

Publications (2)

Publication Number Publication Date
CN112632047A CN112632047A (zh) 2021-04-09
CN112632047B true CN112632047B (zh) 2023-08-01

Family

ID=75308204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011402843.6A Active CN112632047B (zh) 2020-12-02 2020-12-02 一种基于变窗口模式识别的时间序列数据处理方法

Country Status (1)

Country Link
CN (1) CN112632047B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228832A (zh) * 2018-01-04 2018-06-29 南京大学 一种基于距离矩阵的时间序列数据补全方法
CN109242115A (zh) * 2018-09-17 2019-01-18 东北大学 一种基于gan的风机轮毂测风缺失数据的插补方法
CN109740826A (zh) * 2019-01-30 2019-05-10 广东工业大学 一种基于动态数据挖掘的冷热电联供系统负荷预测方法
CN109800915A (zh) * 2019-01-16 2019-05-24 同济大学 一种基于缺失数据集的交通流量预测方法
CN110109899A (zh) * 2018-01-19 2019-08-09 阿里巴巴集团控股有限公司 物联网数据填补方法、装置及系统
CN110852382A (zh) * 2019-11-12 2020-02-28 山东大学 一种基于时空多特征提取的行为识别系统及其工作方法
CN111083878A (zh) * 2020-01-17 2020-04-28 广州兴森快捷电路科技有限公司 阻焊层间隙填充方法、装置、设备及存储介质
CN111881420A (zh) * 2020-08-05 2020-11-03 华北电力大学 一种风电机组运行数据插补方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228832A (zh) * 2018-01-04 2018-06-29 南京大学 一种基于距离矩阵的时间序列数据补全方法
CN110109899A (zh) * 2018-01-19 2019-08-09 阿里巴巴集团控股有限公司 物联网数据填补方法、装置及系统
CN109242115A (zh) * 2018-09-17 2019-01-18 东北大学 一种基于gan的风机轮毂测风缺失数据的插补方法
CN109800915A (zh) * 2019-01-16 2019-05-24 同济大学 一种基于缺失数据集的交通流量预测方法
CN109740826A (zh) * 2019-01-30 2019-05-10 广东工业大学 一种基于动态数据挖掘的冷热电联供系统负荷预测方法
CN110852382A (zh) * 2019-11-12 2020-02-28 山东大学 一种基于时空多特征提取的行为识别系统及其工作方法
CN111083878A (zh) * 2020-01-17 2020-04-28 广州兴森快捷电路科技有限公司 阻焊层间隙填充方法、装置、设备及存储介质
CN111881420A (zh) * 2020-08-05 2020-11-03 华北电力大学 一种风电机组运行数据插补方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Single-scale time-dependent window-sizes in sliding-window dynamic functional connectivity analysis: A validation study;Xiaowei Zhuang 等;《NeuroImage》;第220卷;1-12 *
基于时空多视图BP神经网络的城市空气质量数据补全方法研究;张贝娜 等;《浙江大学学报(理学版)》.;第46卷(第6期);737-744 *
缺失数据下灾情评估变量及权重的确定方法;马骁霏;《中国博士学位论文全文数据库 经济与管理科学辑》(第08期);J145-14 *

Also Published As

Publication number Publication date
CN112632047A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN108590982B (zh) 一种风电机组限功率运行的异常数据处理方法
CN105467975A (zh) 一种设备故障诊断方法
CN110365053B (zh) 基于延迟优化策略的短期风电功率预测方法
CN105607631B (zh) 间歇过程弱故障模型控制限建立方法及弱故障监测方法
CN113469219A (zh) 基于元迁移学习的复杂工况下的旋转机械故障诊断方法
CN113657662B (zh) 一种基于数据融合的降尺度风电功率预测方法
CN110533314A (zh) 一种基于概率密度分布的风电场异常机组识别方法
CN111275570A (zh) 一种基于迭代式统计与假设检验的风电机组功率异常值检测方法
CN111522808A (zh) 一种风电机组异常运行数据处理方法
CN113420837B (zh) 基于多源压缩感知的故障诊断方法
CN115828466A (zh) 一种基于宽核卷积的风机主轴部件故障预测方法
CN116771610A (zh) 一种调整风电机组变桨系统故障评估值的方法
CN112228290A (zh) 一种风力机变桨系统故障智能预警方法
CN116467653A (zh) 一种基于概率分布和XGBoost决策算法的织机异常数据处理方法
CN115146718A (zh) 基于深度表示的风电机组异常检测方法
CN112632047B (zh) 一种基于变窗口模式识别的时间序列数据处理方法
CN111623905B (zh) 风电机组轴承温度预警方法及装置
CN107808209B (zh) 基于加权kNN距离的风电场异常数据辨识方法
CN117571312A (zh) 面向噪声标签工业场景的旋转机械故障诊断方法
CN113359435A (zh) 用于火电机组动态工况数据的修正方法
CN117332353A (zh) 一种汽轮发电机转子异常振动故障诊断方法
CN111209914A (zh) 一种异常风功率数据的剔除方法
CN116050072A (zh) 一种基于随机采样一致性的风电机组理论功率曲线识别方法和装置
CN113946977A (zh) 一种基于决策树算法预警风机变桨故障的应用方法
CN110905735A (zh) 一种基于声音周期性的叶片故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant