CN109976897A - 一种大数据集群的部署方法、数据交互方法及对应装置 - Google Patents

一种大数据集群的部署方法、数据交互方法及对应装置 Download PDF

Info

Publication number
CN109976897A
CN109976897A CN201711449035.3A CN201711449035A CN109976897A CN 109976897 A CN109976897 A CN 109976897A CN 201711449035 A CN201711449035 A CN 201711449035A CN 109976897 A CN109976897 A CN 109976897A
Authority
CN
China
Prior art keywords
data
cluster
calculated result
big data
tables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711449035.3A
Other languages
English (en)
Other versions
CN109976897B (zh
Inventor
陈益梦
范钢
唐晨阳
田宜喜
张玉魁
宋颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201711449035.3A priority Critical patent/CN109976897B/zh
Publication of CN109976897A publication Critical patent/CN109976897A/zh
Application granted granted Critical
Publication of CN109976897B publication Critical patent/CN109976897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种大数据集群的部署方法、数据交互方法及对应装置,用以解决现有技术中使用大数据计算平台的计算结果,需要受限于各种因素所以耗时较长的技术问题。其中,所述部署方法包括:基于获得的安装指令,在集群本地安装Greenplum数据库系统和大数据计算平台;基于获得的配置指令,确定Greenplum数据库系统存储计算结果的位置为集群本地,以及确定大数据计算平台读取数据的位置为集群本地,以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。

Description

一种大数据集群的部署方法、数据交互方法及对应装置
技术领域
本发明涉及信息技术领域,尤其涉及一种大数据集群的部署方法、数据交互方法及对应装置。
背景技术
集群(Cluster)是由一组计算机设备构成的一种松散耦合的计算节点集合,作为整体向对外提供统一的服务平台,在用户看来,集群就像是一个服务器。集群提供服务时,可以把任务分到多台计算机设备上,利用这些计算机设备的共同资源来完成任务,从而可以解决单机不能胜任的工作。并且,由于采用了多节点的设计,集群具有较高的容错性和可靠性。
由于大数据计算平台的运行需要较高的计算能力支撑,因而目前的大数据计算平台往往部署在集群上,而大数据计算平台产生的计算结果通常是存储到大数据计算平台提供的HIVE数据仓库或HBase数据库。
现有技术中,从HIVE数据仓库或HBase数据库将计算结果导出以用于使用的过程中,受限于网络带宽的限制和集群系统的运行速度,往往需要耗费大量的时间。
发明内容
本发明实施例提供一种大数据集群的部署方法、数据交互方法及对应装置,用以解决现有技术中使用大数据计算平台的计算结果,需要受限于各种因素所以耗时较长的技术问题。
第一方面,提供一种大数据集群的部署方法,应用于一集群,所述方法包括:
基于获得的安装指令,在所述集群本地安装Greenplum数据库系统和大数据计算平台;
基于获得的配置指令,确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地,以及确定所述大数据计算平台读取数据的位置为所述集群本地,以使得所述Greenplum数据库系统和所述大数据计算平台基于所述集群本地存储的内容实现数据共享。
在一种可能的实现方式中,基于获得的配置指令,确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地,以及确定所述大数据计算平台读取数据的位置为所述集群本地,包括:
通过所述Greenplum数据库系统,在所述集群中创建第一数据表,并确定所述Greenplum数据库系统从所述第一数据表读取数据的方式为与预设存储格式对应的读取方式;
确定所述大数据计算平台存储计算结果的位置为所述第一数据表,以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式,以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。
在一种可能的实现方式中,基于获得的配置指令,确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地,以及确定所述大数据计算平台读取数据的位置为所述集群本地,包括:
使用所述Greenplum数据库系统中用于创建外部表的语句模式,在所述集群中创建第一数据表;
确定所述Greenplum数据库系统使用的集群地址为本地location;
确定所述Greenplum数据库系统读取数据的方式为与预设存储格式对应的读取方式;
确定所述大数据平台存储计算结果的位置为所述第一数据表,以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式,以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。
第二方面,提供一种大数据集群的数据交互方法,所述集群中安装有Greenplum数据库系统和大数据计算平台,所述方法包括:
将所述大数据计算平台的计算结果以预设存储格式存储至第一数据表,其中,所述第一数据表由所述Greenplum数据库系统在所述集群本地创建;
在需要展示所述计算结果时,控制所述Greenplum数据库系统以与所述预设存储格式对应的读取方式,在所述第一数据表中查询所述计算结果进行展示。
在一种可能的实现方式中,将所述大数据计算平台的计算结果以预设存储格式存储至第一数据表,包括:
判断所述计算结果中是否包括不符合所述预设存储格式的非法字符;
若是,则删除所述计算结果中的所述非法字符,并将删除所述非法字符后的所述计算结果存储至所述第一数据表。
第三方面,提供一种大数据集群,所述集群包括:
安装模块,用于基于获得的安装指令,在所述集群本地安装Greenplum数据库系统和大数据计算平台;
配置模块,用于基于获得的配置指令,确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地,以及确定所述大数据计算平台读取数据的位置为所述集群本地,以使得所述Greenplum数据库系统和所述大数据计算平台基于所述集群本地存储的内容实现数据共享。
在一种可能的实现方式中,所述配置模块包括:
第一创建子模块,用于通过所述Greenplum数据库系统,在所述集群中创建第一数据表;
第一确定子模块,用于确定所述Greenplum数据库系统从所述第一数据表读取数据的方式为与预设存储格式对应的读取方式;
第二确定子模块,用于确定所述大数据计算平台存储计算结果的位置为所述第一数据表,以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式,以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。
在一种可能的实现方式中,所述配置模块包括:
第二创建子模块,用于使用所述Greenplum数据库系统中用于创建外部表的语句模式,在所述集群中创建第一数据表;
第三确定子模块,用于确定所述Greenplum数据库系统使用的集群地址为本地location;
第四确定子模块,用于确定所述Greenplum数据库系统读取数据的方式为与预设存储格式对应的读取方式;
第五确定子模块,用于确定所述大数据平台存储计算结果的位置为所述第一数据表,以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式,以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。
第四方面,提供一种应用于大数据集群的数据交互装置,所述装置包括Greenplum数据库模块和大数据计算模块,其中:
所述大数据计算模块,用于将自身的计算结果以预设存储格式存储至第一数据表,其中,所述第一数据表由所述Greenplum数据库模块在所述集群本地创建;
所述Greenplum数据库模块,用于在需要展示所述计算结果时,以与所述预设存储格式对应的读取方式,在所述第一数据表中查询所述计算结果进行展示。
在一种可能的实现方式中,所述大数据计算模块还用于:
判断所述计算结果中是否包括不符合所述预设存储格式的非法字符;
若是,则删除所述计算结果中的所述非法字符,并将删除所述非法字符后的所述计算结果存储至所述第一数据表。
第五方面,提供一种计算机设备,所述设备包括:
至少一个处理器,以及
与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,执行如第一方面和/或第二方面所述的方法。
第六方面,提供一种计算机可读存储介质,包括:
所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面和/或第二方面所述的方法。
本发明实施例中,集群基于获得的安装指令,在集群本地安装Greenplum数据库系统和大数据计算平台;基于获得的配置指令,确定Greenplum数据库系统存储计算结果的位置为集群本地,以及确定大数据计算平台读取数据的位置为集群本地,以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。
通过将Greenplum数据库系统和大数据计算平台搭建在集群本地,并且通过配置,Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。因而,Greenplum数据库系统需要使用计算结果时,省去了从集群中导出计算结果的过程,减少了Greenplum数据库系统展示计算结果的耗时。
并且,集群系统中存储的计算结果既可以由大数据计算平台使用,又可以由Greenplum数据库系统使用,减少了计算结果的备份数量,节约了存储空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例中一种大数据集群的部署方法的流程示意图;
图2为本发明实施例中一种大数据集群的数据交互方法的流程示意图;
图3为本发明实施例中一种大数据集群的结构框图;
图4为本发明实施例中一种应用于大数据集群的数据交互装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。另外,需要理解的是,在本发明实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
首先,对本发明的应用场景和相关技术进行介绍。
现在的大数据系统都是基于大量数据的基础进行分析,使用大数据计算平台进行大量的数据计算和存储,但是这就意味着展示这部分数据的时候会受到平台和数据量的限制。
Greenplum数据库系统为一种分布式数据库系统,可以基于数据进行可视化的页面展示。现如今Greenplum数据库系统的应用越来越广泛。为了方便数据的展示,可以使用Greenplum数据库系统接收大数据计算平台产生的数据,提高存储效率和查询速度。然而,由于大数据计算平台生成的计算结果的数据量通常较大,因而这些计算结果从大数据计算平台导出到Greenplum数据库系统通常耗时较长。
本发明的核心思想在于:利用集群资源将大数据计算平台和Greenplum数据库系统搭建在一起,实现资源和数据共享;通过使用共享的资源存储数据,省去了数据导出的过程,减少Greenplum数据库系统使用大数据计算平台的计算结果的耗时。
为了更好的理解本发明实施例中的方法,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
请参见图1,本发明实施例提供一种大数据集群的部署方法,该方法的流程描述如下。
步骤101:基于获得的安装指令,在集群本地安装Greenplum数据库系统和大数据计算平台。
集群获得安装指令后,可以基于安装指令在本地安装Greenplum数据库系统和大数据计算平台。其中,安装指令可以是用户对集群进行操作而产生的指令,也可以是集群基于预设的触发条件而自动触发产生的。
其中,安装Greenplum数据库系统、大数据计算平台的具体过程,可以与现有技术中分别在不同集群中单独安装Greenplum数据库系统、大数据计算平台的过程相同,在此不再赘述。
通过在同一个集群安装Greenplum数据库系统和大数据计算平台,使得Greenplum数据库系统和大数据计算平台可以公用该集群提供的资源,例如,公用该集群提供的存储资源。
步骤102:基于获得的配置指令,确定Greenplum数据库系统存储计算结果的位置为集群本地,以及确定大数据计算平台读取数据的位置为集群本地,以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。
本发明实施例中,获得的配置指令可以是一条单独的指令,也可以是一系列的多条指令。根据配置指令,集群可以确定Greenplum数据库系统存储计算结果的位置为集群本地,以及确定大数据计算平台读取数据的位置为集群本地。
通过配置,可以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。在具体的实施过程中,Greenplum数据库系统需要使用存储的计算结果时,集群可以直接在本地进行读取,而无需将计算结果导出至集群外的其它设备或从其他设备导入计算结果。
在一种可能的实施方式中,基于获得的配置指令,确定Greenplum数据库系统存储计算结果的位置为集群本地,以及确定大数据计算平台读取数据的位置为集群本地的具体过程,可以包括如下两部分:
第一部分,通过Greenplum数据库系统,在集群中创建第一数据表,并确定Greenplum数据库系统从第一数据表读取数据的方式为与预设存储格式对应的读取方式。
其中,预设存储格式可以设定有存储文件的文本类型,以及计算结果的排列方式,等等。例如,预设存储格式可以定义以text文本类型存储计算结果,以分隔符区分计算结果中的不同数据。与预设存储格式对应的读取方式可以是用于读取以预设存储格式存储的数据的读取方式。
第二部分,确定大数据计算平台存储计算结果的位置为第一数据表,以及确定大数据计算平台存储计算结果的格式为预设存储格式
通过上述第一部分和第二部分的操作,使得Greenplum数据库系统可以从第一数据表读取计算结果进行展示。
在具体的实施过程中,Greenplum数据库系统和大数据计算平台用于数据共享的数据表除了第一数据表外,还可以包括有其它数据表,例如还可以包括有第二数据表、第三数据表,等等。
并且,预设存储格式可以根据计算结果的数据类型进行调整,相应的,读取方式也可以随预设存储格式的调整而进行对应的调整。
在一种可能的实施方式中,基于获得的配置指令,确定Greenplum数据库系统存储计算结果的位置为集群本地,以及确定大数据计算平台读取数据的位置为集群本地,可以通过如下的四个步骤实现:
步骤一:使用Greenplum数据库系统中用于创建外部表的语句模式,在集群中创建第一数据表。
步骤二:确定Greenplum数据库系统使用的集群地址为本地location;
步骤三:确定Greenplum数据库系统读取数据的方式为与预设存储格式对应的读取方式;
步骤四:确定大数据平台存储计算结果的位置为第一数据表,以及确定大数据计算平台存储计算结果的格式为预设存储格式。
通过上述的四个步骤,使得Greenplum数据库系统可以从第一数据表读取计算结果进行展示。
实施例二
请参见图2,基于同一发明构思,本发明实施例提供一种大数据集群的数据交互方法,该大数据集群可以是实施例一中的集群。其中,大数据集群中安装有Greenplum数据库系统和大数据计算平台。
本发明实施例中,大数据集群的数据交互方法的流程描述如下:
步骤201:将大数据计算平台的计算结果以预设存储格式存储至第一数据表,其中,第一数据表由Greenplum数据库系统在集群本地创建。
其中,预设存储格式可以设定有存储文件的文本类型,以及计算结果的排列方式,等等。例如,预设存储格式可以定义以text文本类型存储计算结果,以分隔符区分计算结果中的不同数据。与预设存储格式对应的读取方式可以是用于读取以预设存储格式存储的数据的读取方式。
步骤202:在需要展示计算结果时,控制Greenplum数据库系统以与预设存储格式对应的读取方式,在第一数据表中查询计算结果进行展示。
在具体的实施过程中,Greenplum数据库系统和大数据计算平台用于数据共享的数据表除了第一数据表外,还可以包括有其它数据表,例如还可以包括有第二数据表、第三数据表,等等。
并且,预设存储格式可以根据计算结果的数据类型进行调整,相应的,读取方式也可以随预设存储格式的调整而进行对应的调整。
在一种可能的实施方式中,将大数据计算平台的计算结果以预设存储格式存储至第一数据表的过程中,可以判断计算结果中是否包括不符合预设存储格式的非法字符;若包括不符合预设存储格式的非法字符,则删除计算结果中的非法字符,并将删除非法字符后的计算结果存储至第一数据表。
在具体的实施过程中,由于计算错误、计算样本不符合计算规则等因素,可能导致计算结果中出现乱码或其它不符合预设存储规则的非法字符。而Greenplum数据库系统是不能读取这些非法字符的,如果第一数据表中存在这些非法字符,会导致从第一数据表中读取数据错误。
因而,本发明实施例中,在存储计算结果时,若判断出计算结果中包括非法字符,则删除计算结果中的非法字符,并将删除非法字符后的计算结果存储至第一数据表,以避免Greenplum数据库系统从第一数据表中读取数据错误。提高了大数据集群运行的稳定性。
实施例三
请参见图3,基于同一发明构思,本发明实施例提供一种大数据集群,该大数据集群可以是实施一和/或实施例二中所述的集群。
本发明实施例中的集群至少包括安装模块301和配置模块302,其中:
安装模块301,用于基于获得的安装指令,在集群本地安装Greenplum数据库系统和大数据计算平台;
配置模块302,用于基于获得的配置指令,确定Greenplum数据库系统存储计算结果的位置为集群本地,以及确定大数据计算平台读取数据的位置为集群本地,以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。
在一种可能的实施方式中,配置模块302包括:
第一创建子模块,用于通过Greenplum数据库系统,在集群中创建第一数据表;
第一确定子模块,用于确定Greenplum数据库系统从第一数据表读取数据的方式为与预设存储格式对应的读取方式;
第二确定子模块,用于确定大数据计算平台存储计算结果的位置为第一数据表,以及确定大数据计算平台存储计算结果的格式为预设存储格式,以使得Greenplum数据库系统可以从第一数据表读取计算结果进行展示。
在一种可能的实施方式中,配置模块302包括:
第二创建子模块,用于使用Greenplum数据库系统中用于创建外部表的语句模式,在集群中创建第一数据表;
第三确定子模块,用于确定Greenplum数据库系统使用的集群地址为本地location;
第四确定子模块,用于确定Greenplum数据库系统读取数据的方式为与预设存储格式对应的读取方式;
第五确定子模块,用于确定大数据平台存储计算结果的位置为第一数据表,以及确定大数据计算平台存储计算结果的格式为预设存储格式,以使得Greenplum数据库系统可以从第一数据表读取计算结果进行展示。
实施例四
请参见图4,基于同一发明构思,本发明实施例提供一种应用于大数据集群的数据交互装置,该大数据集群可以是实施一、实施例二、或实施例三中所述的集群。
本发明实施例中的数据交互装置至少包括大数据计算模块401和Greenplum数据库模块402,其中:
大数据计算模块401,用于将自身的计算结果以预设存储格式存储至第一数据表,其中,第一数据表由Greenplum数据库模块402在集群本地创建;
Greenplum数据库模块402,用于在需要展示计算结果时,以与预设存储格式对应的读取方式,在第一数据表中查询计算结果进行展示。
在一种可能的实施方式中,大数据计算模块401还用于:
判断计算结果中是否包括不符合预设存储格式的非法字符;
若是,则删除计算结果中的非法字符,并将删除非法字符后的计算结果存储至第一数据表。
实施例五
基于同一发明构思,本发明实施例提供一种计算机设备,包括:
至少一个处理器,以及
与至少一个处理器连接的存储器;
其中,存储器存储有可被至少一个处理器执行的指令,至少一个处理器通过执行存储器存储的指令,执行如实施例一和/或实施例二所述的方法。
实施例六
基于同一发明构思,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,当计算机指令在计算机上运行时,使得计算机执行实施例一和/或实施例二所述的方法。
在具体的实施过程中,计算机可读存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash drive,USB)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的存储介质。
本发明实施例中,集群基于获得的安装指令,在集群本地安装Greenplum数据库系统和大数据计算平台;基于获得的配置指令,确定Greenplum数据库系统存储计算结果的位置为集群本地,以及确定大数据计算平台读取数据的位置为集群本地,以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。
通过将Greenplum数据库系统和大数据计算平台搭建在集群本地,并且通过配置,Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。因而,Greenplum数据库系统需要使用计算结果时,省去了从集群中导出计算结果的过程,减少了Greenplum数据库系统展示计算结果的耗时。
并且,集群系统中存储的计算结果既可以由大数据计算平台使用,又可以由Greenplum数据库系统使用,减少了计算结果的备份数量,节约了存储空间。
进一步地,本发明实施例中,在存储计算结果时,若判断出计算结果中包括非法字符,则删除计算结果中的非法字符,并将删除非法字符后的计算结果存储至第一数据表,以避免Greenplum数据库系统从第一数据表中读取数据错误。提高了大数据集群运行的稳定性。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元/模块可以是或者也可以不是物理上分开的,作为单元/模块显示的部件可以是或者也可以不是物理单元/模块,即可以位于一个地方,或者也可以分布到多个网络单元/模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种大数据集群的部署方法,应用于一集群,其特征在于,所述方法包括:
基于获得的安装指令,在所述集群本地安装Greenplum数据库系统和大数据计算平台;
基于获得的配置指令,确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地,以及确定所述大数据计算平台读取数据的位置为所述集群本地,以使得所述Greenplum数据库系统和所述大数据计算平台基于所述集群本地存储的内容实现数据共享。
2.如权利要求1所述的方法,其特征在于,基于获得的配置指令,确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地,以及确定所述大数据计算平台读取数据的位置为所述集群本地,包括:
通过所述Greenplum数据库系统,在所述集群中创建第一数据表,并确定所述Greenplum数据库系统从所述第一数据表读取数据的方式为与预设存储格式对应的读取方式;
确定所述大数据计算平台存储计算结果的位置为所述第一数据表,以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式,以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。
3.如权利要求1所述的方法,其特征在于,基于获得的配置指令,确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地,以及确定所述大数据计算平台读取数据的位置为所述集群本地,包括:
使用所述Greenplum数据库系统中用于创建外部表的语句模式,在所述集群中创建第一数据表;
确定所述Greenplum数据库系统使用的集群地址为本地location;
确定所述Greenplum数据库系统读取数据的方式为与预设存储格式对应的读取方式;
确定所述大数据平台存储计算结果的位置为所述第一数据表,以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式,以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。
4.一种大数据集群的数据交互方法,其特征在于,所述集群中安装有Greenplum数据库系统和大数据计算平台,所述方法包括:
将所述大数据计算平台的计算结果以预设存储格式存储至第一数据表,其中,所述第一数据表由所述Greenplum数据库系统在所述集群本地创建;
在需要展示所述计算结果时,控制所述Greenplum数据库系统以与所述预设存储格式对应的读取方式,在所述第一数据表中查询所述计算结果进行展示。
5.如权利要求4所述的方法,其特征在于,将所述大数据计算平台的计算结果以预设存储格式存储至第一数据表,包括:
判断所述计算结果中是否包括不符合所述预设存储格式的非法字符;
若是,则删除所述计算结果中的所述非法字符,并将删除所述非法字符后的所述计算结果存储至所述第一数据表。
6.一种大数据集群,其特征在于,所述集群包括:
安装模块,用于基于获得的安装指令,在所述集群本地安装Greenplum数据库系统和大数据计算平台;
配置模块,用于基于获得的配置指令,确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地,以及确定所述大数据计算平台读取数据的位置为所述集群本地,以使得所述Greenplum数据库系统和所述大数据计算平台基于所述集群本地存储的内容实现数据共享。
7.一种应用于大数据集群的数据交互装置,其特征在于,所述装置包括Greenplum数据库模块和大数据计算模块,其中:
所述大数据计算模块,用于将自身的计算结果以预设存储格式存储至第一数据表,其中,所述第一数据表由所述Greenplum数据库模块在所述集群本地创建;
所述Greenplum数据库模块,用于在需要展示所述计算结果时,以与所述预设存储格式对应的读取方式,在所述第一数据表中查询所述计算结果进行展示。
8.如权利要求6所述的装置,其特征在于,所述大数据计算模块还用于:
判断所述计算结果中是否包括不符合所述预设存储格式的非法字符;
若是,则删除所述计算结果中的所述非法字符,并将删除所述非法字符后的所述计算结果存储至所述第一数据表。
9.一种计算机设备,其特征在于,所述设备包括:
至少一个处理器,以及
与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,执行如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-5中任一项所述的方法。
CN201711449035.3A 2017-12-27 2017-12-27 一种大数据集群的部署方法、数据交互方法及对应装置 Active CN109976897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711449035.3A CN109976897B (zh) 2017-12-27 2017-12-27 一种大数据集群的部署方法、数据交互方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711449035.3A CN109976897B (zh) 2017-12-27 2017-12-27 一种大数据集群的部署方法、数据交互方法及对应装置

Publications (2)

Publication Number Publication Date
CN109976897A true CN109976897A (zh) 2019-07-05
CN109976897B CN109976897B (zh) 2021-06-22

Family

ID=67072251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711449035.3A Active CN109976897B (zh) 2017-12-27 2017-12-27 一种大数据集群的部署方法、数据交互方法及对应装置

Country Status (1)

Country Link
CN (1) CN109976897B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286538A (zh) * 2020-10-28 2021-01-29 电信科学技术第十研究所有限公司 一种Greenplum数据库自动化安装方法及装置
CN112632114A (zh) * 2019-10-08 2021-04-09 中国移动通信集团辽宁有限公司 Mpp数据库快速读取数据的方法、装置及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731738A (zh) * 2005-08-30 2006-02-08 西安交通大学 大规模计算机集群系统节点的自动化快速部署方法
CN1848787A (zh) * 2006-04-30 2006-10-18 西安交通大学 一种集群服务器系统节点的自动化快速部署方法
US20130219391A1 (en) * 2012-02-16 2013-08-22 Hon Hai Precision Industry Co., Ltd. Server and method for deploying virtual machines in network cluster
CN103873559A (zh) * 2014-02-13 2014-06-18 南京斯坦德通信股份有限公司 一种高速存储的数据库一体机
CN106020857A (zh) * 2016-04-06 2016-10-12 杭州沃趣科技股份有限公司 一种用于Oracle Real Application Cluster数据库集群的自动部署方法
CN106354548A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 分布式数据库系统中虚拟集群创建、管理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731738A (zh) * 2005-08-30 2006-02-08 西安交通大学 大规模计算机集群系统节点的自动化快速部署方法
CN1848787A (zh) * 2006-04-30 2006-10-18 西安交通大学 一种集群服务器系统节点的自动化快速部署方法
US20130219391A1 (en) * 2012-02-16 2013-08-22 Hon Hai Precision Industry Co., Ltd. Server and method for deploying virtual machines in network cluster
CN103873559A (zh) * 2014-02-13 2014-06-18 南京斯坦德通信股份有限公司 一种高速存储的数据库一体机
CN106020857A (zh) * 2016-04-06 2016-10-12 杭州沃趣科技股份有限公司 一种用于Oracle Real Application Cluster数据库集群的自动部署方法
CN106354548A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 分布式数据库系统中虚拟集群创建、管理方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632114A (zh) * 2019-10-08 2021-04-09 中国移动通信集团辽宁有限公司 Mpp数据库快速读取数据的方法、装置及计算设备
CN112632114B (zh) * 2019-10-08 2024-03-19 中国移动通信集团辽宁有限公司 Mpp数据库快速读取数据的方法、装置及计算设备
CN112286538A (zh) * 2020-10-28 2021-01-29 电信科学技术第十研究所有限公司 一种Greenplum数据库自动化安装方法及装置
CN112286538B (zh) * 2020-10-28 2023-02-17 电信科学技术第十研究所有限公司 一种Greenplum数据库自动化安装方法及装置

Also Published As

Publication number Publication date
CN109976897B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN111625401B (zh) 基于集群文件系统的数据备份方法、装置及可读存储介质
US9607063B1 (en) NoSQL relational database (RDB) data movement
US8224825B2 (en) Graph-processing techniques for a MapReduce engine
CN105511957B (zh) 用于生成作业告警的方法和系统
US20080263082A1 (en) Recovery segment identification in a computing infrastructure
US10733034B2 (en) Trace messaging for distributed execution of data processing pipelines
US10616338B1 (en) Partitioning data according to relative differences indicated by a cover tree
CN110472102A (zh) 一种数据处理方法、装置、设备和存储介质
CN109145051A (zh) 分布式数据库的数据汇总方法及装置和电子设备
CN109669631B (zh) 一种存储池规划方法、装置、设备及计算机可读存储介质
CN105635311A (zh) 一种云管理平台中资源池信息同步的方法
EP2814208A1 (en) Program, apparatus, and method for creating configuration requirements
CN101446906B (zh) 一种调度多批处理任务的方法及系统
CN109976897A (zh) 一种大数据集群的部署方法、数据交互方法及对应装置
CN109857516A (zh) 基于容器的集群迁移方法及装置
US11017874B2 (en) Data and memory reorganization
CN109144871B (zh) 一种自动化测试元素的识别方法及装置
CN102902770A (zh) 一种镜像文件拼装方法及系统
CN109062515B (zh) 一种磁盘管理方法、系统及相关组件
US9342527B2 (en) Sharing electronic file metadata in a networked computing environment
US20030035380A1 (en) Node management system
CN104572275A (zh) 一种进程加载方法、装置及系统
CN108604231A (zh) 镜像处理方法以及计算设备
US8347299B2 (en) Association and scheduling of jobs using job classes and resource subsets
CN116244085A (zh) Kubernetes集群容器组调度方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant