CN109213746A - Pb级历史数据和在线数据的实时计算的可视化建模方法 - Google Patents
Pb级历史数据和在线数据的实时计算的可视化建模方法 Download PDFInfo
- Publication number
- CN109213746A CN109213746A CN201811142862.2A CN201811142862A CN109213746A CN 109213746 A CN109213746 A CN 109213746A CN 201811142862 A CN201811142862 A CN 201811142862A CN 109213746 A CN109213746 A CN 109213746A
- Authority
- CN
- China
- Prior art keywords
- rdd
- data
- dependence
- directed edge
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种PB级历史数据和在线数据的实时计算的可视化建模方法,包括:将实时计算所需的历史数据和在线数据创建为RDD;根据实时计算的步骤,创建所有实时计算的所需的RDD;确定所有的RDD之间的依赖关系,并根据所述依赖关系将RDD划分到stage中;根据所述所有的RDD之间的依赖关系构建有向图;将所述有向图进行显示,得到PB级历史数据和在线数据的实时计算的可视化建模结果。
Description
技术领域
本发明涉及数据处理领域,特别涉及一种PB级历史数据和在线数据的实时计算的可视化建模方法。
背景技术
目前,在PB级历史数据和在线数据的实时计算处理过程中,由于用户往往是被动接受实时计算的数据,难以直观的了解数据的处理过程,从而不方便根据数据的处理过程选取适当的中间处理结果或最终处理结果。
发明内容
为解决以上问题,本发明提供一种PB级历史数据和在线数据的实时计算的可视化建模方法。
本发明提供的一种PB级历史数据和在线数据的实时计算的可视化建模方法,包括:
将实时计算所需的历史数据和在线数据创建为RDD(ResilientDistributedDatasets,弹性分布式数据集);
根据实时计算的步骤,创建所有实时计算的所需的RDD;
确定所有的RDD之间的依赖关系,并根据所述依赖关系将RDD划分到stage中;
根据所述所有的RDD之间的依赖关系构建有向图;
将所述有向图进行显示,得到PB级历史数据和在线数据的实时计算的可视化建模结果。
优选的,所述根据所述所有的RDD之间的依赖关系构建有向图,还包括:
将所述RDD根据所划分到stage进行分组;
分别构建stage内部和外部的RDD之间的有向图。
优选的,所述根据所述依赖关系将RDD划分到stage中,具体为:
所述依赖关系包括窄依赖和宽依赖,所述窄依赖为父RDD的每个分区只被子RDD的一个分区所使用,所述宽依赖为父RDD的至少一个分区被多个子RDD分区所使用;
以宽依赖作为划分stage的边界将RDD划分到stage中。
优选的,所述根据所述所有的RDD之间的依赖关系构建有向图,具体为:以所有的RDD之间的数据流方向作为RDD之间的有向图的有向边的方向。
优选的,
所述有向边,还包括权重;
所述权重用于表示RDD之间的数据流的速率。
优选的,
所述权重,为通过以下方法得到:
根据处理有向边的弧尾所对应的RDD的计算方法,选择与所述计算方法对应的预设系数,所述预设系数用于表示单位时间内单位处理能力所能处理的数据量;
获取当前时间处理有向边的弧尾所对应的RDD的计算资源;
以所述预设系数乘以所述计算资源得到当前单位时间处理有向边的弧尾所对应的RDD的数据量;
选择所述当前单位时间处理有向边的弧尾所对应的RDD的数据量、当前进行实时计算时单位时间流入所述有向边的弧尾所对应的RDD的数据量和单位时间从所述有向边的弧尾所对应的RDD流入所述有向边的弧头所对应的RDD的数据量中的最小的值,作为有向边的权重。
本发明的一些有益效果可以包括:
本发明提供的一种PB级历史数据和在线数据的实时计算的可视化建模方法,通过将数据的实时计算过程以有向图的方式进行可视化展示,使得用户能够更直观的根据数据的处理过程选取适当的中间处理结果或最终处理结果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种PB级历史数据和在线数据的实时计算的可视化建模方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种PB级历史数据和在线数据的实时计算的可视化建模方法的流程图。如图1所示,包括:
步骤S101、将实时计算所需的历史数据和在线数据创建为RDD;
步骤S102、根据实时计算的步骤,创建所有实时计算的所需的RDD;
步骤S103、确定所有的RDD之间的依赖关系,并根据所述依赖关系将RDD划分到stage中;
步骤S104、根据所述所有的RDD之间的依赖关系构建有向图;
步骤S105、将所述有向图进行显示,得到PB级历史数据和在线数据的实时计算的可视化建模结果。
本发明提供的一种PB级历史数据和在线数据的实时计算的可视化建模方法,通过将数据的实时计算过程以有向图的方式进行可视化展示,使得用户能够更直观的根据数据的处理过程选取适当的中间处理结果或最终处理结果。
在本发明一优选的实施例中,所述历史数据,存储于云存储系统,所述云存储系统包括:主控服务器、存储服务器集群和客户端,它们通过内部交换机进行数据交换;主控服务器用于对云存储客户端提供目录信息和元数据信息,并对存储服务器集群进行监控,所述目录信息包括该目录的路径、创建日期、目录属性;元数据信息包括该文件的路径、创建/修改日期、文件属性、文件大小、所在主存储服务器和备份存储服务器的IP地址、端口号和对应的GUID;存储服务器集群包括多台用于数据存储的存储服务器,它设有AC-RU缓存,保存最近打开的若干个文件句柄;客户端用于对云存储客户机提供虚拟磁盘服务,将云存储客户机对虚拟磁盘的操作请求提交给主控服务器,并从存储服务器读取/写入文件数据,所述的客户端模块被部署在云存储客户机上,它设有调节可控缓存即AC-RU缓存,保存最近访问的目录信息和文件的元数据信息。
所述历史数据的存储方法为:
采用多台存储服务器建立存储服务器集群,各存储服务器启动后周期性地向主控服务器发送心跳报文,心跳报文中包含该存储服务器当前的状态;主控服务器的内存中设有一对应于多个存储服务器的逻辑节点列表,当主控服务器接收到各存储服务器的心跳报文后,更新列表中对应于各存储服务器的逻辑节点;
当客户端访问虚拟磁盘下任意目录时,云存储客户端对主控服务器发起请求,获取所请求目录下子目录信息与文件元数据信息,并将所获得的子目录信息与文件元数据信息保存在客户端AC-RU缓存中;
云存储客户端请求创建文件或目录的操作,其中;当云存储客户端有创建文件的请求时,客户端将该请求提交给主控服务器,主控服务器检查创建文件所在的目录是否存在,若不存在,则返回目录不存在的回复;若存在,则为该文件分配GUID,从在线存储服务器中挑选负载较轻的两台作为该文件的主存储服务器和备份存储服务器,并通知这两台存储服务器创建名为GUID的文件,两台存储服务器都创建成功则向客户端返回创建成功的回复;当云存储客户端有创建目录的请求时,客户端将该请求提交给主控服务器,主控服务器检查新建目录的父目录是否存在,若不存在,则返回父目录不存在的回复;若存在,则建立新目录节点,并添加到父目录节点的子目录列表中,并向客户端返回创建成功的回复;
云存储客户端请求读文件、写文件、删除文件、复制/移动文件或重命名文件操作,其中:云存储客户端请求读文件时,首先从云存储客户端的AC-RU缓存中查找该文件的元数据信息,若缓存中元数据信息存在,则通过文件的元数据信息找到对应的主存储服务器,并对主存储服务器请求读取该文件的具体某一段的数据;若缓存中元数据信息不存在,则首先向主控服务器发送元数据请求,并将从主控服务器获得的元数据信息加入客户端AC-RU缓存中;云存储客户端请求写文件时,首先从云存储客户端的AC-RU缓存中查找该文件的元数据信息,若缓存中元数据信息存在,则云存储客户端通过文件的元数据信息找到对应的主存储服务器和备份存储服务器,并向它们请求写入该文件的具体某一段的数据,等主存储服务器和备份存储服务器都返回写成功的响应后,该次写操作成功,否则认为写失败;若缓存中元数据信息不存在,则首先向主控服务器发送元数据请求,并将从主控服务器获得的元数据信息加入客户端AC-RU缓存中;云存储客户端请求删除文件时,首先向主控服务器发送文件删除请求,主控服务器根据该文件的元数据信息找到具体保存该文件的主文件存储服务器和备份文件存储服务器,并将该元数据信息从目录结构中删除,同时向云存储客户端返回删除成功的响应,然后主控服务器将通知该文件的主存储服务器和备份存储服务器删除该文件,两台存储服务器在收到主控服务器的文件删除指令后执行文件删除操作;云存储客户端请求复制/移动文件操作是创建/读/写/删除文件操作的组合;重命名文件是在主控服务器中修改目录结构下文件元数据信息;
云存储客户端请求删除目录操作,其中:云存储客户端请求删除目录时,首先查看客户端AC-RU缓存中是否存在被删目录的信息,如果存在则将其从缓存中删除,然后向主控服务器发送目录删除请求;如果不存在,则直接向主控服务器发送目录删除请求,主控服务器收到目录删除请求后遍历其子目录列表和文件列表,递归地删除该目录下所有子目录和文件,最终将该目录删除;递归删除过程中,当某子目录是目录结构中的叶节点,则直接删除,否则发生递归删除过程;
所述历史数据的读取方法为:
从原始数据库中获取原始数据,并根据预设规则对所述原始数据进行分区;
根据分区规则建立B树索引;
根据存入数据分区中的数据列类型、数据分区的时间范围以及数据列存入的先后顺序建立列索引;
将所述数据分区中的数据块拆分成多个数据子块,对所述数据子块进行编号,每个数据子块对应1个数据主键,并将所述数据主键的列数据根据所述列索引存入对应的数据子块中;
在接收到数据提取请求信息时,根据所述请求信息中的时间范围通过B树索引确定待提取数据所在的数据分区,并确定该数据分区列内的偏移开始位置和偏移结束位置,根据所述请求信息中的列信息通过列索引确定每个列相对所述数据子块的起始位置,并根据所述请求信息中数据主键对应的数据子块编号确定该数据主键的起始位置;
根据数据主键的起始位置、数据子块的起始位置、数据分区列内的偏移开始位置和偏移结束位置提取数据;
在根据预设规则对所述原始数据进行分区之前,对获取的所述原始数据进行填充处理,以使得填充处理后的数据与时间点对齐。
由于PB级历史数据和在线数据的实时计算时需要按照stage依次计算,为了体现这中对计算的影响,在本发明的一个实施例中,所述根据所述所有的RDD之间的依赖关系构建有向图,还包括:
将所述RDD根据所划分到stage进行分组;
分别构建stage内部和外部的RDD之间的有向图。
由于PB级历史数据和在线数据的实时计算时需要按照stage依次计算,为了体现这中对计算的影响,在本发明的一个实施例中,所述根据所述依赖关系将RDD划分到stage中,具体为:
所述依赖关系包括窄依赖和宽依赖,所述窄依赖为父RDD的每个分区只被子RDD的一个分区所使用,所述宽依赖为父RDD的至少一个分区被多个子RDD分区所使用;
以宽依赖作为划分stage的边界将RDD划分到stage中。
为了清晰的表明数据在RDD之间的流动关系,在本发明的一个实施例中,所述根据所述所有的RDD之间的依赖关系构建有向图,具体为:以所有的RDD之间的数据流方向作为RDD之间的有向图的有向边的方向。
为了能够清晰的表明数据在RDD之间的流动速率,方便用户根据数据的处理过程选取适当的中间处理结果或最终处理结果,在本发明的一个实施例中,
所述有向边,还包括权重;
所述权重用于表示RDD之间的数据流的速率。
为了方便的计算RDD之间的数据流的速率,在本发明的一个实施例中,
所述权重,为通过以下方法得到:
根据处理有向边的弧尾所对应的RDD的计算方法,选择与所述计算方法对应的预设系数,所述预设系数用于表示单位时间内单位处理能力所能处理的数据量;
获取当前时间处理有向边的弧尾所对应的RDD的计算资源;
以所述预设系数乘以所述计算资源得到当前单位时间处理有向边的弧尾所对应的RDD的数据量;
选择所述当前单位时间处理有向边的弧尾所对应的RDD的数据量、当前进行实时计算时单位时间流入所述有向边的弧尾所对应的RDD的数据量和单位时间从所述有向边的弧尾所对应的RDD流入所述有向边的弧头所对应的RDD的数据量中的最小的值,作为有向边的权重。
本发明提供的一种PB级历史数据和在线数据的实时计算的可视化建模方法,通过将数据的实时计算过程以有向图的方式进行可视化展示,使得用户能够更直观的根据数据的处理过程选取适当的中间处理结果或最终处理结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种PB级历史数据和在线数据的实时计算的可视化建模方法,其特征在于,包括:
将实时计算所需的历史数据和在线数据创建为RDD;
根据实时计算的步骤,创建所有实时计算的所需的RDD;
确定所有的RDD之间的依赖关系,并根据所述依赖关系将RDD划分到stage中;
根据所述所有的RDD之间的依赖关系构建有向图;
将所述有向图进行显示,得到PB级历史数据和在线数据的实时计算的可视化建模结果。
2.如权利要求1所述的方法,其特征在于,所述根据所述所有的RDD之间的依赖关系构建有向图,还包括:
将所述RDD根据所划分到stage进行分组;
分别构建stage内部和外部的RDD之间的有向图。
3.如权利要求1所述的方法,其特征在于,所述根据所述依赖关系将RDD划分到stage中,具体为:
所述依赖关系包括窄依赖和宽依赖,所述窄依赖为父RDD的每个分区只被子RDD的一个分区所使用,所述宽依赖为父RDD的至少一个分区被多个子RDD分区所使用;
以宽依赖作为划分stage的边界将RDD划分到stage中。
4.如权利要求1所述的方法,其特征在于,所述根据所述所有的RDD之间的依赖关系构建有向图,具体为:以所有的RDD之间的数据流方向作为RDD之间的有向图的有向边的方向。
5.如权利要求4所述的方法,其特征在于,
所述有向边,还包括权重;
所述权重用于表示RDD之间的数据流的速率。
6.如权利要求5所述的方法,其特征在于,
所述权重,为通过以下方法得到:
根据处理有向边的弧尾所对应的RDD的计算方法,选择与所述计算方法对应的预设系数,所述预设系数用于表示单位时间内单位处理能力所能处理的数据量;
获取当前时间处理有向边的弧尾所对应的RDD的计算资源;
以所述预设系数乘以所述计算资源得到当前单位时间处理有向边的弧尾所对应的RDD的数据量;
选择所述当前单位时间处理有向边的弧尾所对应的RDD的数据量、当前进行实时计算时单位时间流入所述有向边的弧尾所对应的RDD的数据量和单位时间从所述有向边的弧尾所对应的RDD流入所述有向边的弧头所对应的RDD的数据量中的最小的值,作为有向边的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811142862.2A CN109213746A (zh) | 2018-09-28 | 2018-09-28 | Pb级历史数据和在线数据的实时计算的可视化建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811142862.2A CN109213746A (zh) | 2018-09-28 | 2018-09-28 | Pb级历史数据和在线数据的实时计算的可视化建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109213746A true CN109213746A (zh) | 2019-01-15 |
Family
ID=64982288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811142862.2A Pending CN109213746A (zh) | 2018-09-28 | 2018-09-28 | Pb级历史数据和在线数据的实时计算的可视化建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213746A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977157A (zh) * | 2019-02-27 | 2019-07-05 | 深圳点猫科技有限公司 | 一种基于数据平台将数据导入目标目录的方法和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102143215B (zh) * | 2011-01-20 | 2013-04-10 | 中国人民解放军理工大学 | 一种基于网络的pb级云存储系统及其处理方法 |
CN104112011A (zh) * | 2014-07-16 | 2014-10-22 | 深圳市国泰安信息技术有限公司 | 一种海量数据提取的方法及装置 |
CN106339458A (zh) * | 2016-08-26 | 2017-01-18 | 华为技术有限公司 | 一种基于弹性分布式数据集的Stage划分方法和终端 |
CN107612886A (zh) * | 2017-08-15 | 2018-01-19 | 中国科学院大学 | 一种Spark平台Shuffle过程压缩算法决策方法 |
US20180067861A1 (en) * | 2016-09-06 | 2018-03-08 | Samsung Electronics Co., Ltd. | Duplicate in-memory shared-intermediate data detection and reuse module in spark framework |
-
2018
- 2018-09-28 CN CN201811142862.2A patent/CN109213746A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102143215B (zh) * | 2011-01-20 | 2013-04-10 | 中国人民解放军理工大学 | 一种基于网络的pb级云存储系统及其处理方法 |
CN104112011A (zh) * | 2014-07-16 | 2014-10-22 | 深圳市国泰安信息技术有限公司 | 一种海量数据提取的方法及装置 |
CN106339458A (zh) * | 2016-08-26 | 2017-01-18 | 华为技术有限公司 | 一种基于弹性分布式数据集的Stage划分方法和终端 |
US20180067861A1 (en) * | 2016-09-06 | 2018-03-08 | Samsung Electronics Co., Ltd. | Duplicate in-memory shared-intermediate data detection and reuse module in spark framework |
CN107612886A (zh) * | 2017-08-15 | 2018-01-19 | 中国科学院大学 | 一种Spark平台Shuffle过程压缩算法决策方法 |
Non-Patent Citations (3)
Title |
---|
卞琛等: "并行计算框架Spark的自适应缓存管理策略", 《电子学报》 * |
沈斌强: "基于任务结构优化的Spark缓存策略研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
温艳琪: "Spark计算框架性能建模与优化技术的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977157A (zh) * | 2019-02-27 | 2019-07-05 | 深圳点猫科技有限公司 | 一种基于数据平台将数据导入目标目录的方法和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11481289B2 (en) | Method and apparatus for reading and writing committed data | |
US20230359644A1 (en) | Cloud-based replication to cloud-external systems | |
US11847336B1 (en) | Efficient replication using metadata | |
US11061786B1 (en) | Cloud-based disaster recovery of a storage system | |
CN105339929B (zh) | 选择用于取消重复数据的存储 | |
CN104618482B (zh) | 访问云数据的方法、服务器、传统存储设备、系统 | |
CN110096891B (zh) | 对象库中的对象签名 | |
US10169169B1 (en) | Highly available transaction logs for storing multi-tenant data sets on shared hybrid storage pools | |
WO2018059032A1 (zh) | 一种虚拟节点的数据迁移方法和虚拟节点 | |
CN110169040A (zh) | 基于多层一致性哈希的分布式数据存储方法与系统 | |
CN106294352B (zh) | 一种文件处理方法、装置和文件系统 | |
CN103365954A (zh) | 提高线上重复删除效率的方法和系统 | |
CN105027069A (zh) | 卷区域的重复数据删除 | |
CN106484820B (zh) | 一种重命名方法、访问方法及装置 | |
CN104184812B (zh) | 一种基于私有云的多点数据传输方法 | |
CN110287150B (zh) | 一种大规模存储系统元数据分布式管理方法与系统 | |
CN107798130A (zh) | 一种分布式存储的快照方法 | |
CN110062946A (zh) | 3d nand的智能刷新 | |
CN103366016A (zh) | 基于hdfs的电子文件集中存储及优化方法 | |
CN108090125A (zh) | 一种非查询式的重复数据删除方法及装置 | |
CN110445822A (zh) | 一种对象存储方法及装置 | |
CN108089816A (zh) | 一种基于负载均衡的查询式重复数据删除方法及装置 | |
CN107368608A (zh) | 基于arc替换算法的hdfs小文件缓存管理方法 | |
CN109460345B (zh) | 实时数据的计算方法及系统 | |
CN110008197A (zh) | 一种数据处理方法、系统及电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190115 |