CN115729981A - 一种基于编辑距离的相似水情数据挖掘方法及其应用 - Google Patents

一种基于编辑距离的相似水情数据挖掘方法及其应用 Download PDF

Info

Publication number
CN115729981A
CN115729981A CN202211509861.3A CN202211509861A CN115729981A CN 115729981 A CN115729981 A CN 115729981A CN 202211509861 A CN202211509861 A CN 202211509861A CN 115729981 A CN115729981 A CN 115729981A
Authority
CN
China
Prior art keywords
sequence
data
water regime
subsequences
subsequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211509861.3A
Other languages
English (en)
Other versions
CN115729981B (zh
Inventor
曹红伟
熊奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Yangtze Power Co Ltd
Original Assignee
China Yangtze Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Yangtze Power Co Ltd filed Critical China Yangtze Power Co Ltd
Priority to CN202211509861.3A priority Critical patent/CN115729981B/zh
Publication of CN115729981A publication Critical patent/CN115729981A/zh
Application granted granted Critical
Publication of CN115729981B publication Critical patent/CN115729981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于编辑距离的相似水情数据挖掘方法及其应用,该方法包括以下步骤:确定要挖掘的水情数据,并将所述水情数据符号化处理为序列S1;选定要查询历史数据的起止时间,从数据库中选定待查询数据,并将待查询数据符号化处理为序列S2,确定序列S2中候选子序列的个数M;在序列S2的子序列中选取与序列S1等长的子序列,并计算每个所述子序列与序列S1之间的编辑距离;分别计算每个子序列对应的原始格式序列与所述要挖掘的水情数据的动态弯曲距离DTW;按照编辑距离从小到大返回M个子序列并输出。本发明的方法能客观、准确、高效的为调度人员提供相似调度场景下的决策参考。

Description

一种基于编辑距离的相似水情数据挖掘方法及其应用
技术领域
本发明属于水利调度技术领域,特别涉及一种基于编辑距离的相似水情数据挖掘方法及其应用。
背景技术
在水文、水利及水能分析计算和电站发电计划编制以及调度实时决策过程中,常常需要参照前一段历史时期内的水情信息,即通过查询某一时间段内的水位、流量、出力或耗水率以及对应的变化范围来实现上述目标。
传统的水文分析对比采用层次分析法来量化水文相似度指标,利用相似指标结合权重查找出相似水文时间序列,而水文相似权重是水文相似度评定中不能回避的一个重要参数,赋权的合理性关乎相似度的可靠性,但是赋权的过程不可避免的会体现个人主观因素,导致相似度分析结果因人而异。
三峡梯级水库调度任务复杂,工况多变,采用人工经验制定辅助决策,其效率和可靠性已经越来越不能满足水库调度的实际需要。因此针对峡梯级水库的实际需要,以及不同的调度场景,需要采取高效且更为客观的数据处理分析方法来挖掘海量系统数据中的相关性。数据挖掘工具则是提供针对多年来积累的水情水调相关数据中潜在的规律性挖掘工具,从中发掘对调度有指导意义的调度原则和经验总结。
为解决梯级水库相似水情数据挖掘的问题,本专利提出了一种基于编辑距离的相似水情数据挖掘方法,应用于水调相似调度过程的查询,通过该方法的应用,为梯级水电站联合调度计算、发电计划编制、实时调度决策提供重要技术支撑,最大限度的利用水资源,提高调度效益。
发明内容
本发明的目的在于针对现有技术的不足,提出一种基于编辑距离的相似水情数据挖掘方法,该方法能够客观、准确、高效的为调度人员提供相似调度场景下的决策参考。
本发明的技术目的是通过以下技术方案得以实现的:一种基于编辑距离的相似水情数据挖掘方法,它包括以下过程:
步骤1,确定要挖掘的水情数据,并将所述水情数据符号化处理为序列S1;
步骤2,选定要查询历史数据的起止时间,从数据库中选定待查询数据,并将待查询数据符号化处理为序列S2,确定序列S2中候选子序列的个数M;
步骤3,在序列S2的子序列中选取与序列S1等长的子序列,并计算每个所述子序列与序列S1之间的编辑距离,从所述子序列的第一个符号开始,若所述子序列与序列S1的符号相等,则editDT+0,否则editDT+1,其中editDT为编辑距离;
步骤4,重复3)直到序列S2中所有与S1等长的子序列完成计算;
步骤5,按照编辑距离从小到大选取前N个子序列构成候选集;
步骤6,将候选集中每个子序列转换成原始格式序列,分别计算每个子序列对应的原始格式序列与所述要挖掘的水情数据的动态弯曲距离DTW;
步骤8,按照编辑距离从小到大返回M个子序列;
步骤9,输出返回的子序列。
优选的,步骤3计算判定如下:
if(xj-xi>D&xj-xk>D&xj-xi-1>D&xj-xk+1>D)or
(xj-xi<-D&xj-xk<-D&xj-xi-1<-D&xj-xk+1<-D)
式中:i从3开始,定义j=i+1,k=j+1,D为分段阈值,xi,xj,xk为序列中的数据。
优选的,步骤6中动态弯曲距离DTW按照如下公式计算:
Figure BDA0003970313390000021
式中:W=w1,…wk,…wK为翘曲路径,qi为序列S1中的数据,cj为序列S2中的数据。
优选的,步骤2中,按时间顺序从数据库中选定待查询数据。
优选的,所述水情数据包括上游水位、出库流量、出力和耗水率中的一个或多个。
本发明还提供了一种基于编辑距离的相似水情数据挖掘方法的应用,用于梯级水库的实时调度。
相比于现有技术,本发明具有以下有益效果:
本发明提供的一种基于编辑距离的相似水情数据挖掘方法,可在水调系统中提供相似调度过程的查询,避免传统人工经验制定辅助决策导致效率和可靠性已经越来越不能满足水库调度的实际需要等问题,运用该方法,可有效避免主观因素在相似性分析中产生的误差,提高梯级水电站中水文数据挖掘的效率和精度,相似水情对比结果以图表的形式呈现,可为调度人员提供相似调度场景下的实时调度决策参考,最大限度的利用水资源,提高梯级电站综合效益。
附图说明
图1是本发明一种基于编辑距离的相似水情数据挖掘方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以某流域大型梯级水电站电站为例,该梯级包含2座水电站,装机容量分别为2250万千瓦和271.5万千瓦,基于编辑距离的相似水情数据挖掘方法,参阅附图1,具体包括如下步骤:
步骤1,输入要查询的上游水位、流量、出力或耗水率以及对应的变化范围,本次输入A电站上游水位159米,变化范围1米;出库流量25000立方米每秒,变化范围500立方米每秒;出力2100万千瓦,变化范围50万千瓦;输入B电站上游水位66米,变化范围0.1米;入库流量25000立方米每秒,变化范围150立方米每秒;出库流量25000立方米每秒,变化范围200立方米每秒;出力300万千瓦,变化范围2万千瓦,将以上水情数据符号化处理为序列S1。
步骤2,选定2021年7月21日0时至2022年7月21日0时为要查询历史数据的起止时间,从数据库中按时间顺序选定出待查询数据,并将待查询数据符号为化序列S2,确定候选子序列个数M。
步骤3,在序列S2的子序列中选取与序列S1等长的子序列,并计算每个所述子序列与序列S1之间的编辑距离,从所述子序列的第一个符号开始,若所述子序列与序列S1的符号相等,则editDT+0,否则editDT+1,其中editDT为编辑距离。
步骤4,重复3)直到S2中所有与S1等长的子序列完成计算。
步骤5,按照编辑距离从小到大选取前N个子序列构成候选集。
步骤6,将候选集中每个子序列转换成原始格式序列,分别计算每个子序列对应的原始格式序列与所述要挖掘的水情数据的动态弯曲距离DTW。
步骤7,按照编辑距离从小到大返回M个子序列。
步骤8,输出返回的子序列。
作为优选的实施例,在上述实施例中步骤4计算判定如下:
if(xj-xi>D&xj-xk>D&xj-xi-1>D&xj-xk+1>D)or
(xj-xi<-D&xj-xk<-D&xj-xi-1<-D&xj-xk+1<-D)
式中:i从3开始开始,定义j=i+1,k=j+1,D为分段阈值,xi,xj,xk为序列中的数据。在一些优选实施例中,上述实施例中的步骤7采用如下公式计算:
Figure BDA0003970313390000041
式中:W=w1,…wk,…wK为翘曲路径,qi为序列S1中的数据,cj为序列S2中的数据。根据上述实施例,在待查询数据库计算结果得到与序列S1相似水情数据结果如下:
表1 A电站相似水情数据查询结果
Figure BDA0003970313390000042
表2 B电站相似水情数据查询结果
Figure BDA0003970313390000043
Figure BDA0003970313390000051
以上梯级水电站相似水情数据查询时段为2021年7月21日0时至2022年7月21日0时。按照本实施例的方法,根据反馈出水情数据挖掘结果,结合历史水情数据及调度方案,可对当前调度提供科学、准确、客观的参考和指导信息,用于梯级水库的实时调度。
综上,本发明提出的一种基于编辑距离的相似水情数据挖掘方法,应用于某梯级水电站某一时段内相似水情数据的数据挖掘查询,本专利提供的查询模型在满足多种约束条件下,可根据不同上游水位、出库流量和耗水率的组合,通过给出上述条件合理的变化范围,挖掘出相似程度最高的水库历史数据,并汇总出水位、流量、出力的过程,上述算例验证了该方法的可行性,可作为梯级水库在实时调度中的有效参考,对梯级水库的优化调度有一定的促进作用。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于编辑距离的相似水情数据挖掘方法,其特征在于,它包括以下过程:
步骤1,确定要挖掘的水情数据,并将所述水情数据符号化处理为序列S1;
步骤2,选定要查询历史数据的起止时间,从数据库中选定待查询数据,并将待查询数据符号化处理为序列S2,确定序列S2中候选子序列的个数M;
步骤3,在序列S2的子序列中选取与序列S1等长的子序列,并计算每个所述子序列与序列S1之间的编辑距离,从所述子序列的第一个符号开始,若所述子序列与序列S1的符号相等,则editDT+0,否则editDT+1,其中editDT为编辑距离;
步骤4,重复3)直到序列S2中所有与S1等长的子序列完成计算;
步骤5,按照编辑距离从小到大选取前N个子序列构成候选集;
步骤6,将候选集中每个子序列转换成原始格式序列,分别计算每个子序列对应的原始格式序列与所述要挖掘的水情数据的动态弯曲距离DTW;
步骤8,按照编辑距离从小到大返回M个子序列;
步骤9,输出返回的子序列。
2.根据权利要求1所述的一种基于编辑距离的相似水情数据挖掘方法,其特征在于,步骤3计算判定如下:
if(xj-xi>D&xj-xk>D&xj-xi-1>D&xj-xk+1>D)or(xj-xi<-D&xj-xk<-D&xj-xi-1<-D&xj-xk+1<-D)
式中:i从3开始,定义j=i+1,k=j+1,D为分段阈值,xi,xj,xk为序列中的数据。
3.根据权利要求1所述的一种基于编辑距离的相似水情数据挖掘方法,其特征在于,步骤6中动态弯曲距离DTW按照如下公式计算:
Figure FDA0003970313380000011
式中:W=w1,...wk,...wK为翘曲路径,qi为序列S1中的数据,cj为序列S2中的数据。
4.根据权利要求1所述的一种基于编辑距离的相似水情数据挖掘方法,其特征在于:步骤2中,按时间顺序从数据库中选定待查询数据。
5.根据权利要求1所述的一种基于编辑距离的相似水情数据挖掘方法,其特征在于:所述水情数据包括上游水位、出库流量、出力和耗水率中的一个或多个。
6.权利要求1-5任意一项所述的一种基于编辑距离的相似水情数据挖掘方法的应用,其特征在于:用于梯级水库的实时调度。
CN202211509861.3A 2022-11-29 2022-11-29 一种基于编辑距离的相似水情数据挖掘方法及其应用 Active CN115729981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211509861.3A CN115729981B (zh) 2022-11-29 2022-11-29 一种基于编辑距离的相似水情数据挖掘方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211509861.3A CN115729981B (zh) 2022-11-29 2022-11-29 一种基于编辑距离的相似水情数据挖掘方法及其应用

Publications (2)

Publication Number Publication Date
CN115729981A true CN115729981A (zh) 2023-03-03
CN115729981B CN115729981B (zh) 2024-02-13

Family

ID=85298934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211509861.3A Active CN115729981B (zh) 2022-11-29 2022-11-29 一种基于编辑距离的相似水情数据挖掘方法及其应用

Country Status (1)

Country Link
CN (1) CN115729981B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070288452A1 (en) * 2006-06-12 2007-12-13 D&S Consultants, Inc. System and Method for Rapidly Searching a Database
JP2013164811A (ja) * 2012-02-13 2013-08-22 Nippon Telegr & Teleph Corp <Ntt> データ検索装置、データ検索方法、及びデータ検索プログラム
CN105069093A (zh) * 2015-08-05 2015-11-18 河海大学 一种基于嵌入式索引的水文时间序列相似性搜索方法
CN110569890A (zh) * 2019-08-23 2019-12-13 河海大学 一种基于相似性度量的水文数据异常模式检测方法
CN111401599A (zh) * 2019-08-01 2020-07-10 河海大学 一种基于相似性搜索和lstm神经网络的水位预测方法
KR20210067588A (ko) * 2019-11-29 2021-06-08 숙명여자대학교산학협력단 항목 분류 체계를 고려한 시퀀스 간 유사도를 판단하는 전자 장치 및 그 제어 방법
CN114911846A (zh) * 2022-05-17 2022-08-16 河海大学 一种基于fad和dtw的水文时间序列相似性搜索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070288452A1 (en) * 2006-06-12 2007-12-13 D&S Consultants, Inc. System and Method for Rapidly Searching a Database
JP2013164811A (ja) * 2012-02-13 2013-08-22 Nippon Telegr & Teleph Corp <Ntt> データ検索装置、データ検索方法、及びデータ検索プログラム
CN105069093A (zh) * 2015-08-05 2015-11-18 河海大学 一种基于嵌入式索引的水文时间序列相似性搜索方法
CN111401599A (zh) * 2019-08-01 2020-07-10 河海大学 一种基于相似性搜索和lstm神经网络的水位预测方法
CN110569890A (zh) * 2019-08-23 2019-12-13 河海大学 一种基于相似性度量的水文数据异常模式检测方法
KR20210067588A (ko) * 2019-11-29 2021-06-08 숙명여자대학교산학협력단 항목 분류 체계를 고려한 시퀀스 간 유사도를 판단하는 전자 장치 및 그 제어 방법
CN114911846A (zh) * 2022-05-17 2022-08-16 河海大学 一种基于fad和dtw的水文时间序列相似性搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨艳林;叶枫;吕鑫;余霖;刘璇;: "一种基于DTW聚类的水文时间序列相似性挖掘方法", 计算机科学, no. 02 *

Also Published As

Publication number Publication date
CN115729981B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN108846517B (zh) 一种分位数概率性短期电力负荷预测集成方法
CN110288136B (zh) 风电功率多步预测模型建立方法
CN109543912B (zh) 基于深度学习的水库最优调度决策模型生成方法
CN111127068B (zh) 一种工程量清单自动组价方法和装置
CN105335491A (zh) 基于用户点击行为来向用户推荐图书的方法和系统
CN101567124A (zh) 一种海洋灾害预警方法
CN108829718A (zh) 一种数据处理的方法和装置
CN111401755A (zh) 基于马尔科夫链的多新能源出力场景生成方法、装置及系统
CN116542430B (zh) 多维度水务碳排放量智能分析方法及系统
CN104504619A (zh) 两种考虑温度和经济增长因素的月度统调用电量预测方法
CN111062539B (zh) 基于次级用电量特性聚类分析的总电量预测方法
CN117910668A (zh) 一种考虑多不确定性因素的电力系统演化路径规划方法
CN114372093A (zh) 一种变压器dga在线监测数据的处理方法
CN101930566A (zh) 基于平行系统的水利实验模拟系统及实验模拟方法
CN115729981A (zh) 一种基于编辑距离的相似水情数据挖掘方法及其应用
CN109214610A (zh) 一种基于长短期记忆神经网络的饱和电力负荷预测方法
CN109376957B (zh) 一种火电厂负荷的预测方法
CN100371938C (zh) 一种极少新钢种数据样本下的质量设计方法
CN115600773A (zh) 一种基于序列模式挖掘的生产路径分析方法及系统
CN110659681B (zh) 基于模式识别的时序数据预测系统及方法
CN114186640A (zh) 一种区域水电整体发电能力的预测方法
CN114358382A (zh) 电力系统等效惯量概率预测方法、装置、产品及存储介质
CN114004408A (zh) 一种基于数据分析的用户电力负荷预测方法
CN106295069A (zh) 一种用于斜齿轮设计中的数据挖掘方法
CN110717277A (zh) 一种时序风速模拟方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant