CN113343065A - 电网数据采集系统 - Google Patents

电网数据采集系统 Download PDF

Info

Publication number
CN113343065A
CN113343065A CN202110751020.2A CN202110751020A CN113343065A CN 113343065 A CN113343065 A CN 113343065A CN 202110751020 A CN202110751020 A CN 202110751020A CN 113343065 A CN113343065 A CN 113343065A
Authority
CN
China
Prior art keywords
data
power grid
engine
data acquisition
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110751020.2A
Other languages
English (en)
Inventor
彭泽武
冯歆尧
谢瀚阳
杨秋勇
高伟
庞日海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202110751020.2A priority Critical patent/CN113343065A/zh
Publication of CN113343065A publication Critical patent/CN113343065A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种电网数据采集系统,包括数据采集模块和采用多租户技术生成的多个电网租户空间,每个电网租户空间对接一个用电地区的电网数据库,所述电网数据库中存储有多个电网数据,所述数据采集模块包括数据采集方式不同的多种数据采集引擎,对每个电网租户空间,数据采集模块利用所述多种数据采集引擎分别采集多种类型的电网数据。因为每个电网租户空间对接一个用电地区的电网数据库,所以每个租户空间中就包含有相应电网数据库中的一切电网数据,数据采集模块就可利用采集方式不同的多种数据采集引擎分别从每个电网租户空间采集多种类型的电网数据,以满足外部分析系统对电网数据进行全面分析的需求。

Description

电网数据采集系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种电网数据采集系统。
背景技术
目前我国电力供应总体偏紧张,部分地区、部分时段缺电比较严重,随着我国电网规模不断扩大及电网复杂性不断增加,需对各个用电地区的用电量、用电高峰时段等电网数据进行用电分析,从而得出合理的供电方案来缓解电力供应紧张的局面。为此,通常使用数据采集模块从各个用电地区的电网数据库中采集电网数据,再将采集到的电网数据传输给外部分析系统进行全面的用电分析,在电网数据传输过程中,为减小各个用电地区的电网数据同时泄露的风险,需确保各用电地区的电网数据之间的隔离性。
多租户技术(multi-tenancy technology)或称多重租赁技术,是一种软件架构技术,它是指在多个租户的环境下共用相同的系统或程序组件,同时确保各个租户之间数据的隔离性。在多租户技术中,租户是指使用系统或电脑运算资源的用户,同时包含在系统中可识别为指定用户的一切数据,如账户与统计信息,用户在系统中创建的各类数据,以及用户本身的定制化应用程序环境等,都属于租户的范围;而租户所使用的则是供应商所开发或提供的应用系统或运行资源。
因此,在数据采集模块的基础上结合多租户技术,先为每个用电地区的电网数据库建立一个租户空间,每个租户空间对接相应用电地区的电网数据库,这样每个租户空间中就包含有相应电网数据库中的一切电网数据,这样基于多个租户空间就可确保各个用电地区的电网数据之间的隔离性。但是,目前的数据采集模块所能采集到的电网数据类型单一,难以满足外部分析系统对电网数据进行全面分析的需求。
发明内容
本发明要解决的技术问题是如何采集得到多种类型的电网数据以满足外部分析系统对电网数据进行全面分析的需求。
为解决上述技术问题,本发明提供一种电网数据采集系统,包括数据采集模块和采用多租户技术生成的多个电网租户空间,每个电网租户空间对接一个用电地区的电网数据库,所述电网数据库中存储有多个电网数据,所述数据采集模块包括数据采集方式不同的多种数据采集引擎,对每个电网租户空间,数据采集模块利用所述多种数据采集引擎分别采集多种类型的电网数据。
优选地,所述数据采集引擎包括流式采集引擎、批量采集引擎、CDC采集引擎和网络爬虫采集引擎,对每个电网租户空间,数据采集模块利用所述流式采集引擎采集得到实时数据,利用所述批量采集引擎采集得到离线数据,利用所述CDC采集引擎采集得到实时变更数据,利用所述网络爬虫采集引擎采集得到网络数据。
优选地,所述流式采集引擎包括用于实时计算的分布式实时大数据处理框架。
优选地,所述分布式实时大数据处理框架是Storm流式处理框架。
优选地,所述CDC采集引擎是非侵入式的CDC采集引擎。
优选地,所述非侵入式的CDC采集引擎是基于日志的CDC采集引擎,其把数据采集过程中的每个插入、更新、删除操作记录到日志里。
优选地,所述网络爬虫采集引擎包括用于抓取网络站点页面并从网络站点页面中提取结构性数据的应用框架。
优选地,所述应用框架是采用Python编写的Scrapy框架。
优选地,所述批量采集引擎包括用于抓取屏幕页面并从屏幕页面中提取结构性数据的应用框架。
优选地,所述应用框架是采用Python编写的Scrapy框架。
本发明具有以下有益效果:因为每个电网租户空间对接一个用电地区的电网数据库,所以每个租户空间中就包含有相应电网数据库中的一切电网数据,数据采集模块就可利用采集方式不同的多种数据采集引擎分别从每个电网租户空间采集多种类型的电网数据,以满足外部分析系统对电网数据进行全面分析的需求。
附图说明
图1是电网数据采集系统的结构框图。
具体实施方式
以下结合具体实施方式对本发明创造作进一步详细说明。
本实施例提供一种电网数据采集系统,如图1所示,该电网数据采集系统包括数据采集模块和采用多租户技术生成的多个电网租户空间,每个电网租户空间对接一个用电地区的电网数据库,各个电网数据库中存储有多个电网数据,则每个租户空间中就包含有相应用电地区的电网数据库中的一切电网数据。其中,多租户技术(multi-tenancytechnology)或称多重租赁技术,是一种软件架构技术,它是指在多个租户的环境下共用相同的系统或程序组件,同时确保各个租户之间数据的隔离性。在多租户技术中,租户是指使用系统或电脑运算资源的用户,同时包含在系统中可识别为指定用户的一切数据,如账户与统计信息,用户在系统中创建的各类数据,以及用户本身的定制化应用程序环境等,都属于租户的范围;而租户所使用的则是供应商所开发或提供的应用系统或运行资源。
数据采集模块包括数据采集方式不同的四种数据采集引擎,这四种数据采集引擎包括流式采集引擎、批量采集引擎、CDC采集引擎和网络爬虫采集引擎。对每个电网租户空间,数据采集模块利用这四种数据采集引擎分别采集四种类型的电网数据,具体地,数据采集模块利用流式采集引擎采集得到实时数据,利用批量采集引擎采集得到离线数据,利用CDC采集引擎采集得到实时变更数据,利用网络爬虫采集引擎采集得到网络数据。
流式采集引擎包括用于实时计算的分布式实时大数据处理框架——Storm流式处理框架,其具有免费开源、分布式、高容错的特性,使得持续不断的流计算变得容易。与常规的Hadoop大数据处理框架相比,Storm流式处理框架弥补了Hadoop大数据处理框架所不能满足的实时要求。流式采集引擎主要针对频率高、实时性强的数据进行采集(如计量系统的产生的时序数据),流式采集提供了一套API,使得开发者可以定制数据采集的来源、协议,并对数据进行简单的预处理以后放入分布式消息队列,通过分布式消息队列支持发布-订阅式的数据访问。
Storm流式处理框架包括主控节点Nimbus和工作节点Supervisor,主控节点Nimbus只有一个,工作节点Supervisor可以有多个。主控节点Nimbus运行Nimbus守护进程,负责在集群中分发代码,对节点分配任务,并监视主机故障。每个工作节点Supervisor运行Supervisor守护进程,负责监听工作节点上已经分配的主机作业,启动和停止Nimbus已经分配的工作进程。Storm流式处理框架还包括Zookeeper组件和Worker组件,Supervisor定时从Zookeeper获取拓补信息topologies、任务分配信息assignments及各类心跳信息,以此为依据进行任务分配。各个Supervisor会进行数据同步,在同步时,会根据新的任务分配情况来启动新的Worker或者关闭旧的Worker并进行负载均衡。
CDC采集引擎(集中式数据采集引擎)是非侵入式的CDC采集引擎,具体是基于日志的CDC采集引擎,其把数据采集过程中的每个插入、更新、删除操作记录到日志里,从而采集得到实时变更数据。基于日志的CDC采集引擎在进行数据采集操作时,不会给源系统带来性能影响。CDC采集引擎主要指数据库的增量采集,专门针对动态变化的数据采集。日志文件中会记录数据的每次变化,常用的采集手段为数据库事务日志扫描,通常需要上游(源)系统配合改造,并开放日志给数据云平台。
网络爬虫采集引擎和批量采集引擎都包括采用包括Python编写的应用框架——Scrapy框架。网络爬虫采集引擎中的Scrapy框架用于抓取网络站点页面并从网络站点页面中提取结构性数据,从而得到网络数据;批量采集引擎中的Scrapy框架用于抓取屏幕页面并从屏幕页面中提取结构性数据,从而得到离线数据。批量采集引擎主要针对大批量的数据文件进行采集,包括数据库采集和文件采集两种形式,可用于结构化数据采集(可以是文本抽取、JDBC抽取、Oracle抽取、Hive抽取等),半结构化数据采集(XML抽取)和非结构化数据采集(HBase抽取等)。网络爬虫采集引擎主要针对网页数据,根据用户浏览的页面URL,从互联网上自动的获取该URL对应的网页的源文件,并进行解析获得其内容。
本实施例中,电网数据采集系统的数据采集模块包括数据采集方式不同的四种数据采集引擎——流式采集引擎、批量采集引擎、CDC采集引擎和网络爬虫采集引擎,则数据采集模块就可利用采集方式不同的四个数据采集引擎分别从每个电网租户空间采集四种类型的电网数据——实时数据、离线数据、实时变更数据和网络数据,然后将采集到的电网数据传输给外部分析系统进行全面的用电分析,以满足外部分析系统对电网数据进行全面分析的需求。例如,数据采集模块可利用采集方式不同的四个数据采集引擎分别从广州市电网租户空间采集广州市的四种电网数据——实时数据、离线数据、实时变更数据和网络数据,从东莞市电网租户空间采集东莞市的四种电网数据——实时数据、离线数据、实时变更数据和网络数据,从佛山市电网租户空间采集佛山市的四种电网数据——实时数据、离线数据、实时变更数据和网络数据,然后将采集到的四种电网数据传输给外部分析系统进行全面的用电分析,以满足外部分析系统对电网数据进行全面分析的需求。
如上所述仅为本发明创造的实施方式,不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换,仍落入专利保护范围。

Claims (10)

1.电网数据采集系统,包括数据采集模块和采用多租户技术生成的多个电网租户空间,每个电网租户空间对接一个用电地区的电网数据库,所述电网数据库中存储有多个电网数据,其特征是,所述数据采集模块包括数据采集方式不同的多种数据采集引擎,对每个电网租户空间,数据采集模块利用所述多种数据采集引擎分别采集多种类型的电网数据。
2.根据权利要求1所述的电网数据采集系统,其特征是,所述数据采集引擎包括流式采集引擎、批量采集引擎、CDC采集引擎和网络爬虫采集引擎,对每个电网租户空间,数据采集模块利用所述流式采集引擎采集得到实时数据,利用所述批量采集引擎采集得到离线数据,利用所述CDC采集引擎采集得到实时变更数据,利用所述网络爬虫采集引擎采集得到网络数据。
3.根据权利要求2所述的电网数据采集系统,其特征是,所述流式采集引擎包括用于实时计算的分布式实时大数据处理框架。
4.根据权利要求3所述的电网数据采集系统,其特征是,所述分布式实时大数据处理框架是Storm流式处理框架。
5.根据权利要求2所述的电网数据采集系统,其特征是,所述CDC采集引擎是非侵入式的CDC采集引擎。
6.根据权利要求5所述的电网数据采集系统,其特征是,所述非侵入式的CDC采集引擎是基于日志的CDC采集引擎,其把数据采集过程中的每个插入、更新、删除操作记录到日志里。
7.根据权利要求2所述的电网数据采集系统,其特征是,所述网络爬虫采集引擎包括用于抓取网络站点页面并从网络站点页面中提取结构性数据的应用框架。
8.根据权利要求7所述的电网数据采集系统,其特征是,所述应用框架是采用Python编写的Scrapy框架。
9.根据权利要求2所述的电网数据采集系统,其特征是,所述批量采集引擎包括用于抓取屏幕页面并从屏幕页面中提取结构性数据的应用框架。
10.根据权利要求9所述的电网数据采集系统,其特征是,所述应用框架是采用Python编写的Scrapy框架。
CN202110751020.2A 2021-07-01 2021-07-01 电网数据采集系统 Pending CN113343065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110751020.2A CN113343065A (zh) 2021-07-01 2021-07-01 电网数据采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110751020.2A CN113343065A (zh) 2021-07-01 2021-07-01 电网数据采集系统

Publications (1)

Publication Number Publication Date
CN113343065A true CN113343065A (zh) 2021-09-03

Family

ID=77482355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110751020.2A Pending CN113343065A (zh) 2021-07-01 2021-07-01 电网数据采集系统

Country Status (1)

Country Link
CN (1) CN113343065A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679076A (zh) * 2017-08-28 2018-02-09 国网上海市电力公司 一种电力数据的采集分析系统
CN110990368A (zh) * 2019-11-29 2020-04-10 广西电网有限责任公司 一种全链路数据管理系统及其管理方法
CN111522869A (zh) * 2020-03-26 2020-08-11 中国南方电网有限责任公司 适用于多租户的整定计算云数据管理方法和整定计算系统
CN112069264A (zh) * 2020-09-10 2020-12-11 阳光保险集团股份有限公司 异构数据源采集方法、装置、电子设备及存储介质
CN112433998A (zh) * 2020-11-20 2021-03-02 广东电网有限责任公司佛山供电局 一种基于电力系统的多源异构数据采集汇聚系统及方法
CN112817958A (zh) * 2021-02-25 2021-05-18 广东电网有限责任公司 电力规划数据采集方法、装置及智能终端
CN112948492A (zh) * 2021-02-26 2021-06-11 中国建设银行股份有限公司 一种数据处理系统、方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679076A (zh) * 2017-08-28 2018-02-09 国网上海市电力公司 一种电力数据的采集分析系统
CN110990368A (zh) * 2019-11-29 2020-04-10 广西电网有限责任公司 一种全链路数据管理系统及其管理方法
CN111522869A (zh) * 2020-03-26 2020-08-11 中国南方电网有限责任公司 适用于多租户的整定计算云数据管理方法和整定计算系统
CN112069264A (zh) * 2020-09-10 2020-12-11 阳光保险集团股份有限公司 异构数据源采集方法、装置、电子设备及存储介质
CN112433998A (zh) * 2020-11-20 2021-03-02 广东电网有限责任公司佛山供电局 一种基于电力系统的多源异构数据采集汇聚系统及方法
CN112817958A (zh) * 2021-02-25 2021-05-18 广东电网有限责任公司 电力规划数据采集方法、装置及智能终端
CN112948492A (zh) * 2021-02-26 2021-06-11 中国建设银行股份有限公司 一种数据处理系统、方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107733986B (zh) 支持一体化部署及监控的保护运行大数据支撑平台
CN111327681A (zh) 一种基于Kubernetes的云计算数据平台构建方法
CN102880503B (zh) 数据分析系统及数据分析方法
CN111949633B (zh) 一种基于并行流处理的ict系统运行日志分析方法
CN104657497A (zh) 一种基于分布式计算的海量用电信息并行计算系统及方法
CN107070890A (zh) 一种通信网优系统中的流数据处理装置及通信网优系统
CN111309550A (zh) 应用程序的数据采集方法、系统、设备和存储介质
CN105843182A (zh) 一种基于oms的电力调度事故预案系统及方法
CN111259073A (zh) 基于日志、流量和业务访问的业务系统运行状态智能研判系统
CN111143304B (zh) 一种基于请求链路的微服务系统异常日志分析方法
CN112347071A (zh) 一种配电网云平台数据融合方法及配电网云平台
CN107423336B (zh) 一种数据处理方法、装置及计算机存储介质
Beermann et al. Implementation of ATLAS Distributed Computing monitoring dashboards using InfluxDB and Grafana
CN111913933B (zh) 基于统一支撑平台的电网历史数据管理方法及系统
CN112100227A (zh) 一种基于多级异构数据存储的大数据处理方法
CN105069029A (zh) 一种实时etl系统及方法
CN113342826A (zh) 一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统
CN112948353B (zh) 一种应用于DAstudio的数据分析方法、系统及存储介质
CN107153679B (zh) 一种针对半结构化大数据的提取统计方法及系统
CN113672452A (zh) 一种数据采集任务的运行监控方法、系统
Zhou et al. A multi-agent distributed data mining model based on algorithm analysis and task prediction
CN113343065A (zh) 电网数据采集系统
CN115840656A (zh) 一种基于故障自愈的应用程序自动化运维方法和系统
Iuhasz et al. Monitoring of exascale data processing
CN115543345A (zh) 一种针对电力时序数据的分布式计算系统及其实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination