CN113204534A - 一种基于流计算的scada量测数据采集与存储方法及系统 - Google Patents

一种基于流计算的scada量测数据采集与存储方法及系统 Download PDF

Info

Publication number
CN113204534A
CN113204534A CN202110412906.4A CN202110412906A CN113204534A CN 113204534 A CN113204534 A CN 113204534A CN 202110412906 A CN202110412906 A CN 202110412906A CN 113204534 A CN113204534 A CN 113204534A
Authority
CN
China
Prior art keywords
data
file
data acquisition
scada
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110412906.4A
Other languages
English (en)
Inventor
张海顺
陶向红
王虹富
张志强
常松
张鑫
赵丹
杨璐
范亚娜
刘燕嘉
肖静
吴丽华
李日敏
黄金枝
孔鹏
郑忠飞
樊勤昊
叶权
李亮
邢辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI filed Critical State Grid Corp of China SGCC
Priority to CN202110412906.4A priority Critical patent/CN113204534A/zh
Publication of CN113204534A publication Critical patent/CN113204534A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files

Abstract

本发明公开了一种基于流计算的SCADA量测数据采集与存储方法及系统,属于电力系统仿真与稳定性分析技术领域。本发明方法,包括:将在线监测数据采集装置部署在电力系统的目标区域,以预设的时间间隔采集SCADA量测数据,并将SCADA量测数据转换为断面数据文件,并对断面数据文件进行保存;将保存的断面数据文件根据流计算采集至本地,将保存至本地的断面数据文件,通过流处理服务,以预设的存储格式保存至分布式文件系统;对分布式文件系统中存储的断面数据文件进行数据的采集情况及数据的质量的监控。本发明以流计算模式实现了SCADA量测数据采集。

Description

一种基于流计算的SCADA量测数据采集与存储方法及系统
技术领域
本发明涉及电力系统仿真与稳定性分析技术领域,并且更具体地,涉及一种基于流计算的SCADA量测数据采集与存储方法及系统。
背景技术
近年来,随着我国电力系统向高度信息化、自动化方向发展,电力数据的采集运用越来越广泛,对电力设备设施数据、用户数据、规划数据等的管理也提出了较高的要求。
根据数据来源的不同,可以将智能电网数据分为两类:一类是电网内部数据,主要来源于电力信息采集系统、配电管理系统、设备检测和监测系统等;另一类是外部数据,主要来源于地理信息系统、公共服务部门等;另根据数据内容和采集时间节点的不同,也可以将智能电网数据分为静态数据和流数据:静态数据指基础数据,包括规划设计数据(例如电力设备位置、回路、建设时间、厂家等),电网资源数据(例如发电机励磁系统模型、站内一次接线图等相关信息);另一类是状态数据,也就是流数据,包括设备运行日志数据、监测数据等。就电网中的数据而言,也存在大数据的特点:①数据体量巨大:随着电力企业信息化快速建设和智能电力系统的全面建成,电力数据的增长速度将远远超出电力企业的预期,根据统计,在电力系统各个环节的基础数据和设备状态运行在线监测数据已从TB级别(Terabyte、万亿字节)跃升到PB级别(Petabyte、千万亿字节);②数据类型繁多:电网数据广域分布、种类众多,包括实时数据、历史数据、文本数据、多媒体数据等,各类数据查询与处理的频度和性能要求也不尽相同;③价值密度低:在输变电设备状态检测中往往存在所采集的绝大部分数据都是正常数据,只有极少量的异常数据,而异常数据是状态检修的重要依据;④分析处理速度快:一般对在线状态数据的处理性能要求远高于离线数据要求,需要在极短时间内对大量数据进行比对处理,以支持决策制定。
发电、变电、输电、用电系统均是包含大量信息的复杂系统,而通过数据采集、结构化处理、关联、融合处理可以最大限度地将有关信息集成起来,从而为电力系统决策人员提供一个多元化的,反映电网全景,全运行轨迹的基础数据,作为决策依据。
智能电网调度控制系统(D5000系统)实现了电网调度业务的“横向集成、纵向贯通”,基于CIM/E、CIM/G标准及模型拼接技术的模型共享及整合,纵向实现国、分、省三级调度业务的协调控制,支持实时数据、实时画面和应用功能的全网共享。因此,通过采集D5000系统的在线数据,构建一体化数据中心和适应海量数据的计算分析和决策平台,以数据仓库等数据架构技术整合电网数据资源,分析信息和挖掘数据资源潜在价值,对提升电力系统信息处理和智能决策能力尤为重要。
发明内容
针对上述问题,本发明提出了一种基于流计算的SCADA量测数据采集与存储方法,包括:
将在线监测数据采集装置部署在电力系统的目标区域,以预设的时间间隔采集SCADA量测数据,并将SCADA量测数据转换为断面数据文件,并对断面数据文件进行保存;
将保存的断面数据文件根据流计算采集至本地,将保存至本地的断面数据文件,通过流处理服务,以预设的存储格式保存至分布式文件系统;
对分布式文件系统中存储的断面数据文件进行数据的采集情况及数据的质量的监控。
可选的,预设的时间间隔为5-15分钟。
可选的,预设的存储格式为采集时间及采集地点的结构。
可选的,断面数据文件保存至分布式文件系统后,建立索引表,以索引表建立采集信息,所述采集信息包括:采集时间、保存路径及文件信息。
本发明还提出了一种基于流计算的SCADA量测数据采集与存储系统,包括:
数据采集单元,将在线监测数据采集装置部署在电力系统的目标区域,以预设的时间间隔采集SCADA量测数据,并将SCADA量测数据转换为断面数据文件,并对断面数据文件进行保存;
分布式存储单元,将保存的断面数据文件根据流计算采集至本地,将保存至本地的断面数据文件,通过流处理服务,以预设的存储格式保存至分布式文件系统;
数据监控单元,对分布式文件系统中存储的断面数据文件进行数据的采集情况及数据的质量的监控。
可选的,预设的时间间隔为5-15分钟。
可选的,预设的存储格式为采集时间及采集地点的结构。
可选的,断面数据文件保存至分布式文件系统后,建立索引表,以索引表建立采集信息,所述采集信息包括:采集时间、保存路径及文件信息。
本发明以流计算模式实现了SCADA量测数据采集,实现了多源数据下的去冗余存储,以量测时间戳保存到PSDB分布式文件系统中,并通过在线监控服务对采集服务的运行情况和采集在线数据质量进行监控。
附图说明
图1为本发明方法的流程图;
图2为本发明D5000在线量测数据流处理及其相关应用流程图;
图3为本发明D5000在线量测数据流处理物理架构图;
图4为本发明D5000在线量测数据分布式文件服务器存储逻辑结构;
图5为本发明系统的结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
本发明提出了一种基于流计算的SCADA量测数据采集与存储方法,如图1所示,包括:
将在线监测数据采集装置部署在电力系统的目标区域,以预设的时间间隔采集SCADA量测数据,并将SCADA量测数据转换为断面数据文件,并对断面数据文件进行保存;
将保存的断面数据文件根据流计算采集至本地,将保存至本地的断面数据文件,通过流处理服务,以预设的存储格式保存至分布式文件系统;
对分布式文件系统中存储的断面数据文件进行数据的采集情况及数据的质量的监控。
其中,预设的时间间隔为5-15分钟。
其中,预设的存储格式为采集时间及采集地点的结构。
其中,断面数据文件保存至分布式文件系统后,建立索引表,以索引表建立采集信息,所述采集信息包括:采集时间、保存路径及文件信息。
下面结合实施例对本发明进行进一步的说明:
流式计算框架主要用于流式数据处理,目前主要是基于开源的Apache Storm和Spark Streaming,不同于Hadoop MapReduce和Spark等批量计算框架,具有事件触发和响应时间短等特点,事件触发和响应时间可达到s级,甚至ms级。
本发明考虑D5000在线数据采集业务特点,自主研发了流计算采集部分的功能,部署在Ⅲ区,通过SFTP服务监测多源监测服务器上的数据,准实时数据采集与存储。系统整体架构可以分为3部分:在线数据采集、数据分布式存储、在线数据监控。实验测试表明,整体的处理延迟控制在s级别,可以满足电力设备在线监测及实时数据处理的性能要求,业务流程如图2所示,本发明方法包括:
1在线数据采集;
电网在线数据采集系统物理构架如图3所示,D5000的全国网在线监测数据采集机器部署在Ⅰ区,通过SCADA量测数据,每5分钟或15分钟自动计算生成断面数据文件,实时运行状况数据保存于以QS为后缀的文本文件中,设备的调度唯一命名和主键保存在以ID为后缀的文本文件中。
SCADA量测数据通过物理隔离装置保存到Ⅲ区D5000在线量测数据集群,并对外发布。为保证系统的稳定运行,D5000系统采用多机热备模式,也就是QS和ID文件存储在多台服务器中,每台服务器可能保存了国网完整采集数据,也可能保存了部分数据,可能每5分钟增量更新一套QS或ID文件,也可能一次更新几天的数据。
PSDB流服务部署在Ⅲ区,以流处理模式采集同在Ⅲ区的D5000在线量测数据集群中的数据到PSDB系统分布式文件中,并记录采集结果。
PSDB系统的在线监控服务,读取采集结果,对采集服务的运行情况和采集在线数据质量进行展示。
2、SCADA量测数据采集;
流处理;
通过D5000在线量测数据节点服务器SFTP服务,通过远程文件操作接口,监测多台D5000在线服务节点上的文件夹文件(QS和ID文件)变动,如果有新增文件,则采集远程文件到本地。虽然QS文件5分钟生成一次,但是传输时刻是随机的,并且多台D5000服务每台可能是随机的一组或者多组,监测时间不宜过长,默认是1分钟。监测时间窗口支持自由控制,可以设置为秒级或者分钟级。
流计算服务顺序扫描每台D5000服务,每个扫描任务启动一个子进程,当获得监测文件后,QS或ID时间戳为主键,对比PSDB系统分布式文件服务中的记录,如果不存在采集并存储。如果存在且本地文件合法(文件大小合理,可结构化设备监测参数)删除远程服务器上的文件,完成一台服务器扫描与采集。
多个采集进程同时写入一个文件库,或者其它应用操作同一个本地时间戳文件时(如一个数据仓库备份进程正在读取),以第一个占用文件的进程锁定该文件,并发的进程在此窗口期内不做处理,下次窗口期时如果本地目标文件可操作,则判断采集文件合法性,和目标文件合法性,以最新、大小最大的版本更新本地文件,更新成功删除远程服务器文件。
如此循环,保证本地监测数据在分布式文件系统中只保留一套监测数据,同时“随采集随删除”远程服务器上的历史记录,避免撑爆硬盘。为确保采集数据的安全性,完整性,每个采集进程远程获取量测数据和删除此量测数据是分离的。很多原因会导致采集到的量测数据不完整,有可能是网络原因,有可能是远程多台D5000文件服务中数据版本不一致,要对比每台D5000文件服务器同一时间戳的量测数据,取版本最新的作为本地最终版。
同时,为保证数据的安全性,支持远程D5000文件服务器缓存三天的历史数据,也就是数据采集完成后,只删除当前时间前72小时的记录。
3、分布式文件存储;
通过流处理服务,把多台在线监测文件服务器上的数据采集到PSDB分布式文件系统中,数据以文件形式按照监测采集时间点,按照年、月、日的逻辑层级结构保存,D5000在线量测数据分布式文件服务器存储逻辑结构如图4所示,分布式文件存储基于云平台设计,对原始监测文件进行历史备份,保证采集数据的安全性与全局唯一性。
在每次采集成功后,更新关系型数据库中的在线数据采集索引表,索引表中记录线数据的采集信息,如:采集时间、分布式文件服务器保存路径、文件信息(大小,创建时间)。
PSDB中的某些业务功能,基于此表进行操作,避免高IO、高并发访问文件服务器,如在线数据监测功能,流处理服务实时更新索引表,在线数据监测通过索引表实时展示在线数据的采集情况。
4、在线监测;
PSDB系统的在线监控服务对采集服务的运行情况和采集在线数据质量进行监控,通过实时读取在线监控索引表,以月日历模式展示本月在线数据的采集情况。通过颜色(绿色红色)的深浅,提示本月SCADA量测数据采集情况,如果采集完整就是绿色,如果缺失数据,颜色就会向绿色过度,鼠标悬停到天的表格上,弹出提示框展示本天数据采集情况。
支持通过时间点,查询展示某一天数据采集的具体情况,如:采集时间、分布式文件服务器保存路径、文件信息(大小,创建时间),支持从分布式文件系统中下载到本地。
本发明还提出了一种基于流计算的SCADA量测数据采集与存储系统200,如图5所示,包括:
数据采集单元201,将在线监测数据采集装置部署在电力系统的目标区域,以预设的时间间隔采集SCADA量测数据,并将SCADA量测数据转换为断面数据文件,并对断面数据文件进行保存;
分布式存储单元202,将保存的断面数据文件根据流计算采集至本地,将保存至本地的断面数据文件,通过流处理服务,以预设的存储格式保存至分布式文件系统;
数据监控单元203,对分布式文件系统中存储的断面数据文件进行数据的采集情况及数据的质量的监控。
其中,预设的时间间隔为5-15分钟。
其中,预设的存储格式为采集时间及采集地点的结构。
其中,断面数据文件保存至分布式文件系统后,建立索引表,以索引表建立采集信息,所述采集信息包括:采集时间、保存路径及文件信息。
本发明以流计算模式实现了SCADA量测数据采集,实现了多源数据下的去冗余存储,以量测时间戳保存到PSDB分布式文件系统中,并通过在线监控服务对采集服务的运行情况和采集在线数据质量进行监控。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种基于流计算的SCADA量测数据采集与存储方法,所述方法包括:
将在线监测数据采集装置部署在电力系统的目标区域,以预设的时间间隔采集SCADA量测数据,并将SCADA量测数据转换为断面数据文件,并对断面数据文件进行保存;
将保存的断面数据文件根据流计算采集至本地,将保存至本地的断面数据文件,通过流处理服务,以预设的存储格式保存至分布式文件系统;
对分布式文件系统中存储的断面数据文件进行数据的采集情况及数据的质量的监控。
2.根据权利要求1所述的方法,所述预设的时间间隔为5-15分钟。
3.根据权利要求1所述的方法,所述预设的存储格式为采集时间及采集地点的结构。
4.根据权利要求1所述的方法,所述断面数据文件保存至分布式文件系统后,建立索引表,以索引表建立采集信息,所述采集信息包括:采集时间、保存路径及文件信息。
5.一种基于流计算的SCADA量测数据采集与存储系统,所述系统包括:
数据采集单元,将在线监测数据采集装置部署在电力系统的目标区域,以预设的时间间隔采集SCADA量测数据,并将SCADA量测数据转换为断面数据文件,并对断面数据文件进行保存;
分布式存储单元,将保存的断面数据文件根据流计算采集至本地,将保存至本地的断面数据文件,通过流处理服务,以预设的存储格式保存至分布式文件系统;
数据监控单元,对分布式文件系统中存储的断面数据文件进行数据的采集情况及数据的质量的监控。
6.根据权利要求5所述的系统,所述预设的时间间隔为5-15分钟。
7.根据权利要求5所述的系统,所述预设的存储格式为采集时间及采集地点的结构。
8.根据权利要求5所述的系统,所述断面数据文件保存至分布式文件系统后,建立索引表,以索引表建立采集信息,所述采集信息包括:采集时间、保存路径及文件信息。
CN202110412906.4A 2021-04-16 2021-04-16 一种基于流计算的scada量测数据采集与存储方法及系统 Pending CN113204534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110412906.4A CN113204534A (zh) 2021-04-16 2021-04-16 一种基于流计算的scada量测数据采集与存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110412906.4A CN113204534A (zh) 2021-04-16 2021-04-16 一种基于流计算的scada量测数据采集与存储方法及系统

Publications (1)

Publication Number Publication Date
CN113204534A true CN113204534A (zh) 2021-08-03

Family

ID=77027474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110412906.4A Pending CN113204534A (zh) 2021-04-16 2021-04-16 一种基于流计算的scada量测数据采集与存储方法及系统

Country Status (1)

Country Link
CN (1) CN113204534A (zh)

Similar Documents

Publication Publication Date Title
CN111723160B (zh) 一种多源异构增量数据同步方法及系统
CN114925045B (zh) 大数据集成和管理的PaaS平台
CN112600891A (zh) 一种基于信息物理融合的边云协同系统及工作方法
CN108848132B (zh) 一种基于云的配电调度主站系统
CN106534291A (zh) 基于大数据处理的电压监测方法
CN115374102A (zh) 数据处理方法及系统
CN110941617A (zh) 一种基于版本控制的电网gis数据存储方法
CN111047143A (zh) 一种基于电网oms的地、县班组指标管理系统
CN110018993B (zh) 一种数据分析系统、方法及监控分析系统
CN111913933A (zh) 基于统一支撑平台的电网历史数据管理方法及系统
CN112328702A (zh) 数据同步方法及系统
CN115858513A (zh) 数据治理方法、装置、计算机设备和存储介质
CN106780157B (zh) 基于Ceph的电网多时态模型存储与管理系统及方法
CN115640300A (zh) 一种大数据管理方法、系统、电子设备和存储介质
CN107491558A (zh) 元数据更新方法及装置
Wu et al. An auxiliary decision-making system for electric power intelligent customer service based on Hadoop
CN111414355A (zh) 一种海上风电场数据监测存储系统及方法、装置
CN115439015B (zh) 基于数据中台的局域电网数据管理方法、装置及设备
CN113204534A (zh) 一种基于流计算的scada量测数据采集与存储方法及系统
CN111049898A (zh) 一种实现计算集群资源跨域架构的方法及系统
CN114490865A (zh) 数据库同步方法、装置、设备及计算机存储介质
CN103955863A (zh) 一种电网监测装置数据的处理方法
CN109840184B (zh) 电网设备投运展示的调度方法、系统及设备
CN112101894A (zh) 选煤智能系统
CN112783862A (zh) 面向调控云应用的数据建模方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination