CN106570193A - 一种时序大数据的加载方法 - Google Patents

一种时序大数据的加载方法 Download PDF

Info

Publication number
CN106570193A
CN106570193A CN201611018864.1A CN201611018864A CN106570193A CN 106570193 A CN106570193 A CN 106570193A CN 201611018864 A CN201611018864 A CN 201611018864A CN 106570193 A CN106570193 A CN 106570193A
Authority
CN
China
Prior art keywords
measuring point
subcommand
table scan
time series
worker nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611018864.1A
Other languages
English (en)
Other versions
CN106570193B (zh
Inventor
邓琨
钟国标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Digital Platform Technology Guangdong Co ltd
Original Assignee
Shenzhen Comtop Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Comtop Information Technology Co Ltd filed Critical Shenzhen Comtop Information Technology Co Ltd
Priority to CN201611018864.1A priority Critical patent/CN106570193B/zh
Publication of CN106570193A publication Critical patent/CN106570193A/zh
Application granted granted Critical
Publication of CN106570193B publication Critical patent/CN106570193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Small-Scale Networks (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种时序大数据的加载方法,包括以下步骤:步骤S1、获取表扫描请求命令,得到表信息和查询条件;步骤S2、分析表信息和查询条件,得到表扫描所涉及的测点;然后,通过查询时序数据库的元数据,得到表扫描所涉及的测点所在机器的地址信息;再根据每个测点所在机器的地址信息,将同一机器的测点分为一测点分组;对每个测点分组创建一表扫描请求子命令;步骤S3、执行所有的表扫描请求子命令,从而得到时序数据。本发明的时序大数据的加载方法降低了查询时序数据所需的网络带宽消耗和数据传输耗时,从而消除网络传输瓶颈,整体提升了查询时序数据的性能。

Description

一种时序大数据的加载方法
技术领域
本发明涉及大数据领域,尤其涉及一种时序大数据的加载方法。
背景技术
随着工业化、信息化的不断发展,大型流程工业企业在生产信息化过程中会产生越来越多的海量历史时序数据。以电力系统为例,一方面是测点规模越来越大,预计将达到千万级甚至亿级以上;另一方面是历史时序数据量规模越来越大,预计将达到PB字节以上,这对时序数据库的处理规模、处理速度提出了更高的要求。
近年来,电力行业的应用系统使用大数据技术实现数据存储、数据分析和数据挖掘。时序数据作为电力行业重要的数据之一,必须可在大数据环境下访问,以保证应用系统的业务完整性。时序数据库是一种专用于存储时序数据的数据库。在大数据环境下,时序数据库的数据查询更为频繁,查询的数据量更为庞大。因此,在时序数据库连接器不支持本地化计算的情况下,时序数据库连接器读取时序数据时,网络传输很容易成为瓶颈,影响时序数据查询性能。
发明内容
本发明针对在时序数据库连接器不支持本地化计算的情况下,时序数据库连接器读取时序数据时,网络传输很容易成为瓶颈,影响时序数据查询性能的问题,提出了一种时序大数据的加载方法。
本发明所提出的技术方案如下:
本发明提出了一种时序大数据的加载方法,包括以下步骤:
步骤S1、获取表扫描请求命令,得到表信息和查询条件;
步骤S2、分析表信息和查询条件,得到表扫描所涉及的测点;然后,通过查询时序数据库的元数据,得到表扫描所涉及的测点所在机器的地址信息;再根据每个测点所在机器的地址信息,将同一机器的测点分为一测点分组;对每个测点分组创建一表扫描请求子命令;
步骤S3、执行所有的表扫描请求子命令,从而得到时序数据。
本发明上述的时序大数据的加载方法中,是通过Presto实现;Presto包括多个Worker节点;该多个Worker节点部署在多个机器上,每个机器上具有至少一个Worker节点,每个机器上的Worker节点用于执行与该机器所涉及的测点分组对应的表扫描请求子命令。
本发明上述的时序大数据的加载方法中,是通过Presto实现;Presto包括多个Worker节点;该多个Worker节点部署在多个机器上;所述步骤S3包括:获取与表扫描请求子命令具有相同地址的Worker节点;若获取到所述与表扫描请求子命令具有相同地址的Worker节点,则采用该Worker节点执行该表扫描请求子命令;若没有获取到所述与表扫描请求子命令具有相同地址的Worker节点,则获取表扫描请求子命令所涉及的机器上的Worker节点,若获取到所述表扫描请求子命令所涉及的机器上的Worker节点,则采用该Worker节点执行该表扫描请求子命令,若没有获取到所述表扫描请求子命令所涉及的机器上的Worker节点,则随机采用其他机器上的Worker节点执行该表扫描请求子命令。
本发明上述的时序大数据的加载方法中,在所述步骤S2中,通过Presto的表扫描拆分接口实现根据所述机器地址信息,将同一机器的测点分为一测点分组;对每个测点分组创建一表扫描请求子命令。
本发明上述的时序大数据的加载方法中,查询条件包括测点标识的范围和测点时标的范围。
本发明上述的时序大数据的加载方法中,测点标识的范围为测点标识的集合或测点标识的区间。
本发明的时序大数据的加载方法通过Presto尽可能地使一个Worker节点只读取一个机器上的时序数据(如图4所示),从而降低了查询时序数据所需的网络带宽消耗和数据传输耗时,从而消除网络传输瓶颈,整体提升了查询时序数据的性能,避免了单个Worker节点必须从多个机器的时序数据库服务读取时序数据(如图5所示),致使大量时序数据必须通过网络传输,这一方面消耗大量带宽,另一方面需要较长的网络传输耗时,最终导致查询时序数据性能差。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1示出了本发明实施例的时序大数据加载方法的流程图;
图2示出了Presto的架构图;
图3示出了Presto中的Worker节点的部署示意图;
图4示出了图1所示的时序大数据加载方法的数据访问示意图;
图5示出了现有技术所采用的时序大数据加载方法的数据访问示意图。
具体实施方式
本发明所要解决的技术问题是:在大数据环境下,时序数据库的数据查询更为频繁,查询的数据量更为庞大。因此,在时序数据库连接器不支持本地化计算的情况下,时序数据库连接器读取时序数据时,网络传输很容易成为瓶颈,影响时序数据查询性能。本发明就该技术问题而提出的技术思路是:获取表扫描请求命令,得到表信息和查询条件;分析表信息和查询条件,得到表扫描所涉及的测点;然后,通过查询时序数据库的元数据,得到表扫描所涉及的测点所在机器的地址信息;再根据每个测点所在机器的地址信息,将同一机器的测点分为一测点分组;对每个测点分组创建一表扫描请求子命令;执行所有的表扫描请求子命令,从而得到目标时序数据。
为了使本发明的技术目的、技术方案以及技术效果更为清楚,以便于本领域技术人员理解和实施本发明,下面将结合附图及具体实施例对本发明做进一步详细的说明。
本发明提出了一种时序大数据的加载方法,该加载方法是通过采用Presto实现的;Presto是一个开源的分布式大数据SQL引擎。作为一种通用的技术,Presto可整合多种数据源,例如HDFS、Hive、Cassandra和关系数据库(如MySQL)等。将多种数据源整合到Presto中,可对外提供统一的接口。特别地,Presto的SQL查询功能,可提供统一的视图,方便外部应用系统对多个数据源的数据进行关联查询。具体地,如图1所示,所述加载方法包括以下步骤:
步骤S1、获取表扫描请求命令,得到表信息和查询条件;
在本实施例中,表扫描(Table Scan)是指Presto读取数据源的表的数据;Presto通过Presto连接器整合各种数据源。Presto连接器是一个接口集合,主要包括元数据接口(Connector Metadata),表扫描拆分接口(Connector Split Manager)和表数据读取接口(Connector Page Source)等。在本步骤中,Presto通过表数据读取接口获取表扫描请求命令,从而得到表信息和查询条件;其中,表信息为表名。查询条件包括测点标识的范围和测点时标的范围,在这里,测点标识的范围为测点标识的集合或测点标识的区间,测点标识的集合即为一个或多个测点标识。测点标识的范围用于限定待加载时序数据的测点的空间范围;测点时标的范围用于限定待加载时序数据的时间范围。在电力行业,测点是监控设备的一个测量项;监控设备按一定的频率或一定的触发条件采集测点的数值;测点的数值即为时序数据;例如,一电压表每5分钟采集一线路的电压数值,其中,电压表即为监控设备,线路的电压即为测点,电压数值即为时序数据。时序数据的格式可以表达为“测点标识,测点时标,数值”。
步骤S2、分析表信息和查询条件,得到表扫描所涉及的测点;然后,通过查询时序数据库的元数据,得到表扫描所涉及的测点所在机器的地址信息;再根据每个测点所在机器的地址信息,将同一机器的测点分为一测点分组;对每个测点分组创建一表扫描请求子命令;
在本实施例中,Presto用于分析表信息和查询条件,得到表扫描所涉及的测点;然后,Presto通过元数据接口查询时序数据库的元数据;元数据(Metadata),又称中介数据、中继数据,用于描述数据属性,指示数据存储位置;时序数据库一般采用分布式架构,各机器上的时序数据库服务可独立存储测点及时序数据,即一个时序数据固定存储在时序数据库集群的某台机器上;通过查询时序数据库的元数据,可以得到表扫描所涉及的测点所在机器的地址信息(即存储位置信息)。
进一步地,一个机器所涉及的测点可以是一个,也可以是多个。
在本实施例中,是通过Presto的表扫描拆分接口实现根据所述机器地址信息,将同一机器的测点分为一测点分组;对每个测点分组创建一表扫描请求子命令;
步骤S3、执行所有的表扫描请求子命令,从而得到目标时序数据。
具体地,如图2所示,Presto采用了Master-Slave的架构,包括一个Coordinator节点,一个Discovery Server节点以及多个Worker节点。Discovery Server节点通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生成执行计划,分发执行任务给Worker节点执行。Worker节点负责实际执行查询扫描任务。Worker节点启动后向DiscoveryServer节点服务注册,Coordinator节点从Discovery Server节点获得可以正常工作的Worker节点信息。
进一步地,本发明的目标是降低网络传输带宽和网络传输耗时。本发明的关键点是Coordinator节点在任务调度阶段选择执行任务的Worker节点时,尽量选择时序数据所在机器的Worker节点或者靠近时序数据的Worker节点。在本实施例中,如图3所示,在本实施例中,该多个Worker节点部署在多个机器上,每个机器上具有至少一个Worker节点,每个机器上的Worker节点用于执行与该机器所涉及的测点分组对应的表扫描请求子命令,从而获取该机器上的目标时序数据。
具体地,在另一实施例中,Presto包括多个Worker节点;该多个Worker节点部署在多个机器上;步骤S3包括:获取与表扫描请求子命令具有相同地址的Worker节点;若获取到所述与表扫描请求子命令具有相同地址的Worker节点,则采用该Worker节点执行该表扫描请求子命令;若没有获取到所述与表扫描请求子命令具有相同地址的Worker节点,则获取表扫描请求子命令所涉及的机器上的Worker节点,若获取到所述表扫描请求子命令所涉及的机器上的Worker节点,则采用该Worker节点执行该表扫描请求子命令,若没有获取到所述表扫描请求子命令所涉及的机器上的Worker节点,则随机采用其他机器上的Worker节点执行该表扫描请求子命令。在这里,表扫描请求子命令所涉及的机器是指表扫描请求子命令所涉及测点的所在机器。
本发明的时序大数据的加载方法通过Presto尽可能地使一个Worker节点只读取一个机器上的时序数据(如图4所示),从而降低了查询时序数据所需的网络带宽消耗和数据传输耗时,从而消除网络传输瓶颈,整体提升了查询时序数据的性能,避免了单个Worker节点必须从多个机器的时序数据库服务读取时序数据(如图5所示),致使大量时序数据必须通过网络传输,这一方面消耗大量带宽,另一方面需要较长的网络传输耗时,最终导致查询时序数据性能差。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种时序大数据的加载方法,其特征在于,包括以下步骤:
步骤S1、获取表扫描请求命令,得到表信息和查询条件;
步骤S2、分析表信息和查询条件,得到表扫描所涉及的测点;然后,通过查询时序数据库的元数据,得到表扫描所涉及的测点所在机器的地址信息;再根据每个测点所在机器的地址信息,将同一机器的测点分为一测点分组;对每个测点分组创建一表扫描请求子命令;
步骤S3、执行所有的表扫描请求子命令,从而得到时序数据。
2.根据权利要求1所述的时序大数据的加载方法,其特征在于,是通过Presto实现;Presto包括多个Worker节点;该多个Worker节点部署在多个机器上,每个机器上具有至少一个Worker节点,每个机器上的Worker节点用于执行与该机器所涉及的测点分组对应的表扫描请求子命令。
3.根据权利要求1所述的时序大数据的加载方法,其特征在于,是通过Presto实现;Presto包括多个Worker节点;该多个Worker节点部署在多个机器上;所述步骤S3包括:获取与表扫描请求子命令具有相同地址的Worker节点;若获取到所述与表扫描请求子命令具有相同地址的Worker节点,则采用该Worker节点执行该表扫描请求子命令;若没有获取到所述与表扫描请求子命令具有相同地址的Worker节点,则获取表扫描请求子命令所涉及的机器上的Worker节点,若获取到所述表扫描请求子命令所涉及的机器上的Worker节点,则采用该Worker节点执行该表扫描请求子命令,若没有获取到所述表扫描请求子命令所涉及的机器上的Worker节点,则随机采用其他机器上的Worker节点执行该表扫描请求子命令。
4.根据权利要求1所述的时序大数据的加载方法,其特征在于,在所述步骤S2中,通过Presto的表扫描拆分接口实现根据所述机器地址信息,将同一机器的测点分为一测点分组;对每个测点分组创建一表扫描请求子命令。
5.根据权利要求1所述的时序大数据的加载方法,其特征在于,查询条件包括测点标识的范围和测点时标的范围。
6.根据权利要求5所述的时序大数据的加载方法,其特征在于,测点标识的范围为测点标识的集合或测点标识的区间。
CN201611018864.1A 2016-11-17 2016-11-17 一种时序大数据的加载方法 Active CN106570193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611018864.1A CN106570193B (zh) 2016-11-17 2016-11-17 一种时序大数据的加载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611018864.1A CN106570193B (zh) 2016-11-17 2016-11-17 一种时序大数据的加载方法

Publications (2)

Publication Number Publication Date
CN106570193A true CN106570193A (zh) 2017-04-19
CN106570193B CN106570193B (zh) 2020-07-07

Family

ID=58542386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611018864.1A Active CN106570193B (zh) 2016-11-17 2016-11-17 一种时序大数据的加载方法

Country Status (1)

Country Link
CN (1) CN106570193B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984547A (zh) * 2017-05-31 2018-12-11 北京京东尚科信息技术有限公司 数据处理的方法和装置
CN110580253A (zh) * 2019-09-10 2019-12-17 网易(杭州)网络有限公司 时序数据组的加载方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003036A (en) * 1998-02-12 1999-12-14 Martin; Michael W. Interval-partitioning method for multidimensional data
CN104407879A (zh) * 2014-10-22 2015-03-11 江苏瑞中数据股份有限公司 一种电网时序大数据并行加载方法
CN105574074A (zh) * 2015-11-23 2016-05-11 江苏瑞中数据股份有限公司 一种基于智能电网wams的时序大数据存储方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003036A (en) * 1998-02-12 1999-12-14 Martin; Michael W. Interval-partitioning method for multidimensional data
CN104407879A (zh) * 2014-10-22 2015-03-11 江苏瑞中数据股份有限公司 一种电网时序大数据并行加载方法
CN105574074A (zh) * 2015-11-23 2016-05-11 江苏瑞中数据股份有限公司 一种基于智能电网wams的时序大数据存储方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984547A (zh) * 2017-05-31 2018-12-11 北京京东尚科信息技术有限公司 数据处理的方法和装置
CN110580253A (zh) * 2019-09-10 2019-12-17 网易(杭州)网络有限公司 时序数据组的加载方法、装置、存储介质及电子设备
CN110580253B (zh) * 2019-09-10 2022-05-31 网易(杭州)网络有限公司 时序数据组的加载方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN106570193B (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN108228229B (zh) 一种Maven依赖的管理方法以及系统
CN111666326B (zh) Etl调度方法及装置
CN102270225A (zh) 数据变更日志监控方法和数据变更日志监控装置
CN109508355A (zh) 一种数据抽取方法、系统及终端设备
CN104573022A (zh) 一种HBase的数据查询方法及装置
CN109542892A (zh) 一种实时数据库的关系化实现方法、装置及系统
CN107291745B (zh) 一种数据指标的管理方法及装置
CN109783258A (zh) 一种消息处理方法、装置及服务器
US20140350993A1 (en) Information management device and method
CN104657387A (zh) 一种数据查询方法及装置
CN110245149A (zh) 元数据的版本管理方法及装置
CN114911830A (zh) 基于时序数据库的索引缓存方法、装置、设备及存储介质
CN108491445A (zh) 区域内指标数据的展示方法及系统
CN107491463B (zh) 数据查询的优化方法和系统
CN110766369A (zh) 一种可视化网页智能仓储库位编排系统
CN106610857A (zh) 一种热补丁信息查询方法以及装置
CN105446824B (zh) 表增量获取方法及异地数据备份方法
CN106570193A (zh) 一种时序大数据的加载方法
CN105159925B (zh) 一种数据库集群数据分配方法及系统
CN106777265B (zh) 一种业务数据的处理方法及装置
CN106407233A (zh) 一种数据处理方法和设备
CN104915390A (zh) 一种etl数据血统查询系统及查询方法
CN114064707A (zh) 一种用于数据虚拟化服务器的数据查询方法、装置及存储介质
CN103078946A (zh) 一种海量实时数据分布方法及其访问方法
CN106776810A (zh) 一种大数据的数据处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518000 building 501, 502, 601, 602, building D, wisdom Plaza, Qiaoxiang Road, Gaofa community, Shahe street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: China Southern Power Grid Shenzhen Digital Power Grid Research Institute Co.,Ltd.

Address before: 518000, two floor, fragrant building, 2075 Lianhua Road, Futian District, Shenzhen, Guangdong.

Patentee before: SHENZHEN COMTOP INFORMATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address
CP01 Change in the name or title of a patent holder

Address after: 518000 building 501, 502, 601, 602, building D, wisdom Plaza, Qiaoxiang Road, Gaofa community, Shahe street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: China Southern Power Grid Digital Platform Technology (Guangdong) Co.,Ltd.

Address before: 518000 building 501, 502, 601, 602, building D, wisdom Plaza, Qiaoxiang Road, Gaofa community, Shahe street, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: China Southern Power Grid Shenzhen Digital Power Grid Research Institute Co.,Ltd.

CP01 Change in the name or title of a patent holder