CN110659681A - 基于模式识别的时序数据预测系统及方法 - Google Patents

基于模式识别的时序数据预测系统及方法 Download PDF

Info

Publication number
CN110659681A
CN110659681A CN201910877488.9A CN201910877488A CN110659681A CN 110659681 A CN110659681 A CN 110659681A CN 201910877488 A CN201910877488 A CN 201910877488A CN 110659681 A CN110659681 A CN 110659681A
Authority
CN
China
Prior art keywords
data
module
time sequence
prediction
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910877488.9A
Other languages
English (en)
Other versions
CN110659681B (zh
Inventor
高冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Original Assignee
Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Instrument Electric (group) Co Ltd Central Research Institute filed Critical Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Priority to CN201910877488.9A priority Critical patent/CN110659681B/zh
Publication of CN110659681A publication Critical patent/CN110659681A/zh
Application granted granted Critical
Publication of CN110659681B publication Critical patent/CN110659681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于模式识别的时序数据预测系统及方法,系统包括时序数据接口模块、数据预处理模块、窗口切分模块、训练模块和推理模块,时序数据接口模块用于同时接收来自多个不同来源的时序数据,时序数据格式中至少包含时间戳和数值字段,数据预处理模块用于时序数据的预处理,窗口切分模块用于将连续时序数据切分为不同时间维度的分段数据,训练模块用于算法模型的训练过程,推理模块用于实时数据预测推理。本发明能够针对多个时序数据源构建统一的数据预测模型,解决不同数据源的预测问题,不需要额外为每个企业/个人分别构建预测模型,同时利用模式识别构建不同序列数据的分类体系,形成对预测模型的增强,提升预测准确性和预测效率。

Description

基于模式识别的时序数据预测系统及方法
技术领域
本发明属于人工智能技术在水务行业的应用,具体涉及一种基于模式识别的时序数据预测系统及方法。
背景技术
目前水务行业对于用水量等时序数据的预测分析更多是基于统计特性和历史周期特性进行简单的预测分析,同时,针对某一特定类型用户或企业的用水量拟合出一个模型是无法直接迁移到其它用户或企业的,因此为了解决预测问题,需要针对每个类型或单独的企业用户分别构建算法模型。CN108133322A公开了一种基于时序运行模拟的电力电量平衡指标计算方法,未检索到应用于水务行业的基于模式识别的时序数据预测方法的国内专利。由于每个时序数据的曲线特征存在具有一定差别性的特征模式,如何利用对这些特征模式的识别构建更加准确地预测算法模型是一个值得探索的领域。
发明内容
有鉴于此,本发明的目的是提供一种基于模式识别的时序数据预测系统及方法,以解决现有技术中的不足。
为了达到上述目的,本发明的目的是通过下述技术方案实现的:
一方面,提供一种基于模式识别的时序数据预测系统,其中,包括时序数据接口模块、数据预处理模块、窗口切分模块、训练模块和推理模块,所述时序数据接口模块用于同时接收来自多个不同来源的时序数据,所述时序数据的数据格式中至少包含时间戳和数值两个字段,所述数据预处理模块用于时序数据的预处理,所述窗口切分模块用于将连续时序数据切分为不同时间维度的分段数据,所述训练模块用于算法模型的训练过程,所述推理模块用于实时的数据预测推理。
上述基于模式识别的时序数据预测系统,其中,所述数据预处理模块包括缺失数据补全、数据异常值去除和数据归一化。
上述基于模式识别的时序数据预测系统,其中,所述训练模块包括特征提取器、聚类器、聚合器、分类器和变点检测器。
上述基于模式识别的时序数据预测系统,其中,所述推理模块包括预测模型单元和预测效果评估单元。
另一方面,提供一种基于模式识别的时序数据预测方法,其中,基于如任意一项上述系统实现,包括如下步骤:
S1、采集多个不同用户的时序数据,数据预处理后进行数据降维,保留每天采样数据至少包含96个点;
S2、按照14天为一大窗口切分为长窗口子流,以1天为短窗口切分为更细粒度的子流;
S3、在小窗口子流中,利用训练好的特征提取器进行离群点检测,并剔除离群点;
S4、在剔除离群点的数据中使用K-Medoids算法进行聚类,并用DB-index分析获得最佳聚类群;
S5、利用数据聚合,以聚类中心为基础聚合所有类的数据,形成各聚类的特征曲线;
S6、利用模型组合为每个聚类曲线分别训练K个预测模型,通过投票机制获得最终的预测结果,预测结果为下一个短窗口;
S7、同时对K个聚类序列进行EDF变点检测,利用k-Sample Adnerson-Darling测试,当p<0.05认为检测到变点,调整K值为K-2到K+2重新进行聚类。
本发明技术方案的有益效果是:
能够针对多个时序数据源构建统一的数据预测模型,解决不同数据源的预测问题,不需要额外为每个企业/个人分别构建预测模型,同时利用模式识别构建不同序列数据的分类体系,形成对预测模型的增强,提升预测准确性和预测效率,本方法及系统可以经过改进后应用于其他类似领域。
附图说明
图1为本发明系统结构示意框图;
图2为本发明方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
参看图1所示,本发明基于模式识别的时序数据预测系统包括时序数据接口模块1、数据预处理模块2、窗口切分模块3、训练模块4和推理模块5,时序数据接口模块1用于同时接收来自多个不同来源的时序数据,时序数据的数据格式中至少包含时间戳和数值两个字段,数据预处理模块2用于时序数据的预处理,窗口切分模块3用于将连续时序数据切分为不同时间维度的分段数据,按照数据处理要求不同,主要分为60分钟、24小时、7天、14天等不同数据段,训练模块4用于算法模型的训练过程,推理模块5用于实时的数据预测推理。数据预处理模块1包括缺失数据补全、数据异常值去除和数据归一化等操作。训练模块4包括特征提取器41、聚类器42、聚合器43、分类器44和变点检测器45。推理模块5包括预测模型单元51和预测效果评估单元52。
本发明还提供一种基于模式识别的时序数据预测方法,基于上述系统实现,参看图2所示,包括如下步骤:
S1、采集多个不同用户(用户、企业、管网等)的时序数据,数据预处理后进行数据降维,保留每天采样数据至少包含96个点;
S2、由于用水时序数据一般都具备一天和一周的双周期特性,按照14天(2周)为一大窗口切分为长窗口子流,以1天为短窗口切分为更细粒度的子流;
S3、在小窗口子流中,利用训练好的特征提取器进行离群点检测,并剔除离群点;
S4、在剔除离群点的数据中使用K-Medoids算法进行聚类,并用DB-index分析获得最佳聚类群;
S5、利用数据聚合,以聚类中心为基础聚合所有类的数据,形成各聚类的特征曲线;
S6、利用模型组合为每个聚类曲线分别训练K个预测模型,通过投票机制获得最终的预测结果,预测结果为下一个短窗口;
S7、同时对K个聚类序列进行EDF变点检测,利用k-Sample Adnerson-Darling测试,当p<0.05认为检测到变点,调整K值为K-2到K+2重新进行聚类。
本发明能够针对多个时序数据源构建统一的数据预测模型,解决不同数据源的预测问题,不需要额外为每个企业/个人分别构建预测模型,同时利用模式识别构建不同序列数据的分类体系,形成对预测模型的增强,提升预测准确性和预测效率,本方法及系统可以经过改进后应用于其他类似领域。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (5)

1.一种基于模式识别的时序数据预测系统,其特征在于,包括时序数据接口模块、数据预处理模块、窗口切分模块、训练模块和推理模块,所述时序数据接口模块用于同时接收来自多个不同来源的时序数据,所述时序数据的数据格式中至少包含时间戳和数值两个字段,所述数据预处理模块用于时序数据的预处理,所述窗口切分模块用于将连续时序数据切分为不同时间维度的分段数据,所述训练模块用于算法模型的训练过程,所述推理模块用于实时的数据预测推理。
2.如权利要求1所述基于模式识别的时序数据预测系统,其特征在于,所述数据预处理模块包括缺失数据补全、数据异常值去除和数据归一化。
3.如权利要求1所述基于模式识别的时序数据预测系统,其特征在于,所述训练模块包括特征提取器、聚类器、聚合器、分类器和变点检测器。
4.如权利要求1所述基于模式识别的时序数据预测系统,其特征在于,所述推理模块包括预测模型单元和预测效果评估单元。
5.一种基于模式识别的时序数据预测方法,其特征在于,基于如权利要求1至4中任意一项所述系统实现,包括如下步骤:
S1、采集多个不同用户的时序数据,数据预处理后进行数据降维,保留每天采样数据至少包含96个点;
S2、按照14天为一大窗口切分为长窗口子流,以1天为短窗口切分为更细粒度的子流;
S3、在小窗口子流中,利用训练好的特征提取器进行离群点检测,并剔除离群点;
S4、在剔除离群点的数据中使用K-Medoids算法进行聚类,并用DB-index分析获得最佳聚类群;
S5、利用数据聚合,以聚类中心为基础聚合所有类的数据,形成各聚类的特征曲线;
S6、利用模型组合为每个聚类曲线分别训练K个预测模型,通过投票机制获得最终的预测结果,预测结果为下一个短窗口;
S7、同时对K个聚类序列进行EDF变点检测,利用k-Sample Adnerson-Darling测试,当p<0.05认为检测到变点,调整K值为K-2到K+2重新进行聚类。
CN201910877488.9A 2019-09-17 2019-09-17 基于模式识别的时序数据预测系统及方法 Active CN110659681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910877488.9A CN110659681B (zh) 2019-09-17 2019-09-17 基于模式识别的时序数据预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910877488.9A CN110659681B (zh) 2019-09-17 2019-09-17 基于模式识别的时序数据预测系统及方法

Publications (2)

Publication Number Publication Date
CN110659681A true CN110659681A (zh) 2020-01-07
CN110659681B CN110659681B (zh) 2023-07-25

Family

ID=69037185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910877488.9A Active CN110659681B (zh) 2019-09-17 2019-09-17 基于模式识别的时序数据预测系统及方法

Country Status (1)

Country Link
CN (1) CN110659681B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111443015A (zh) * 2020-03-04 2020-07-24 平安国际智慧城市科技股份有限公司 大气污染物的溯源方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150112900A1 (en) * 2013-10-23 2015-04-23 Honda Motor Co., Ltd. Time-series data prediction device, time-series data prediction method, and program
WO2016122591A1 (en) * 2015-01-30 2016-08-04 Hewlett Packard Enterprise Development Lp Performance testing based on variable length segmentation and clustering of time series data
CN109359674A (zh) * 2018-09-27 2019-02-19 智庭(北京)智能科技有限公司 一种基于多模型blending的智能锁异常检测方法
CN109905255A (zh) * 2017-12-07 2019-06-18 上海仪电(集团)有限公司中央研究院 一种基于时序统计分段的云计算网络流量预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150112900A1 (en) * 2013-10-23 2015-04-23 Honda Motor Co., Ltd. Time-series data prediction device, time-series data prediction method, and program
WO2016122591A1 (en) * 2015-01-30 2016-08-04 Hewlett Packard Enterprise Development Lp Performance testing based on variable length segmentation and clustering of time series data
CN109905255A (zh) * 2017-12-07 2019-06-18 上海仪电(集团)有限公司中央研究院 一种基于时序统计分段的云计算网络流量预测方法及装置
CN109359674A (zh) * 2018-09-27 2019-02-19 智庭(北京)智能科技有限公司 一种基于多模型blending的智能锁异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王旭强等: "基于时序分解的用电负荷分析与预测", 《计算机工程与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111443015A (zh) * 2020-03-04 2020-07-24 平安国际智慧城市科技股份有限公司 大气污染物的溯源方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110659681B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN106909933B (zh) 一种三阶段多视角特征融合的窃电分类预测方法
CN109376906B (zh) 基于多维度轨迹的出行时间预测方法、系统及电子设备
Mao et al. Anomaly detection for power consumption data based on isolated forest
CN113011089B (zh) 一种基于深度学习的机采井系统效率优化方法与装置
CN111008726B (zh) 一种电力负荷预测中类图片转换方法
CN110781068B (zh) 一种基于同构分解方法的数据中心跨层能耗预测方法
CN112396234A (zh) 一种基于时域卷积神经网络的用户侧负荷概率预测方法
García Valverde et al. Water demand estimation and outlier detection from smart meter data using classification and Big Data methods
CN116976707B (zh) 基于用电信息采集的用户用电数据异常分析方法及系统
CN111666978B (zh) 一种it系统运维大数据的智能故障预警系统
Dong et al. Forecasting smart meter energy usage using distributed systems and machine learning
CN112613542A (zh) 一种基于双向lstm的企业除污设备负荷辨识方法
CN110659681A (zh) 基于模式识别的时序数据预测系统及方法
CN115034422A (zh) 基于波动识别和误差修正的风电短期功率预测方法和系统
CN111339155B (zh) 一种关联分析系统
CN117634678A (zh) 基于实际运行场景的低碳园区碳排放预测方法
CN112418623A (zh) 基于双向长短时记忆网络和滑动窗输入的反窃电识别方法
CN107590747A (zh) 基于综合能源大数据分析的电网资产周转率计算方法
CN114676931B (zh) 一种基于数据中台技术的电量预测系统
CN116862132A (zh) 基于大数据的资源调度方法
CN116307886A (zh) 一种企业生产状态的实时监测方法及装置
CN115599842A (zh) 一种基于神经网络方法的时间序列预测系统
CN115392710A (zh) 一种基于数据过滤的风电机组运行决策方法及系统
CN115130788A (zh) 基于大数据分析的用电预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant