CN109976897A

CN109976897A - 一种大数据集群的部署方法、数据交互方法及对应装置

Info

Publication number: CN109976897A
Application number: CN201711449035.3A
Authority: CN
Inventors: 陈益梦; 范钢; 唐晨阳; 田宜喜; 张玉魁; 宋颖
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-05
Anticipated expiration: 2037-12-27
Also published as: CN109976897B

Abstract

本发明实施例提供一种大数据集群的部署方法、数据交互方法及对应装置，用以解决现有技术中使用大数据计算平台的计算结果，需要受限于各种因素所以耗时较长的技术问题。其中，所述部署方法包括：基于获得的安装指令，在集群本地安装Greenplum数据库系统和大数据计算平台；基于获得的配置指令，确定Greenplum数据库系统存储计算结果的位置为集群本地，以及确定大数据计算平台读取数据的位置为集群本地，以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。

Description

一种大数据集群的部署方法、数据交互方法及对应装置

技术领域

本发明涉及信息技术领域，尤其涉及一种大数据集群的部署方法、数据交互方法及对应装置。

背景技术

集群(Cluster)是由一组计算机设备构成的一种松散耦合的计算节点集合，作为整体向对外提供统一的服务平台，在用户看来，集群就像是一个服务器。集群提供服务时，可以把任务分到多台计算机设备上，利用这些计算机设备的共同资源来完成任务，从而可以解决单机不能胜任的工作。并且，由于采用了多节点的设计，集群具有较高的容错性和可靠性。

由于大数据计算平台的运行需要较高的计算能力支撑，因而目前的大数据计算平台往往部署在集群上，而大数据计算平台产生的计算结果通常是存储到大数据计算平台提供的HIVE数据仓库或HBase数据库。

现有技术中，从HIVE数据仓库或HBase数据库将计算结果导出以用于使用的过程中，受限于网络带宽的限制和集群系统的运行速度，往往需要耗费大量的时间。

发明内容

本发明实施例提供一种大数据集群的部署方法、数据交互方法及对应装置，用以解决现有技术中使用大数据计算平台的计算结果，需要受限于各种因素所以耗时较长的技术问题。

第一方面，提供一种大数据集群的部署方法，应用于一集群，所述方法包括：

基于获得的安装指令，在所述集群本地安装Greenplum数据库系统和大数据计算平台；

基于获得的配置指令，确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地，以及确定所述大数据计算平台读取数据的位置为所述集群本地，以使得所述Greenplum数据库系统和所述大数据计算平台基于所述集群本地存储的内容实现数据共享。

在一种可能的实现方式中，基于获得的配置指令，确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地，以及确定所述大数据计算平台读取数据的位置为所述集群本地，包括：

通过所述Greenplum数据库系统，在所述集群中创建第一数据表，并确定所述Greenplum数据库系统从所述第一数据表读取数据的方式为与预设存储格式对应的读取方式；

确定所述大数据计算平台存储计算结果的位置为所述第一数据表，以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式，以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。

使用所述Greenplum数据库系统中用于创建外部表的语句模式，在所述集群中创建第一数据表；

确定所述Greenplum数据库系统使用的集群地址为本地location；

确定所述Greenplum数据库系统读取数据的方式为与预设存储格式对应的读取方式；

确定所述大数据平台存储计算结果的位置为所述第一数据表，以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式，以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。

第二方面，提供一种大数据集群的数据交互方法，所述集群中安装有Greenplum数据库系统和大数据计算平台，所述方法包括：

将所述大数据计算平台的计算结果以预设存储格式存储至第一数据表，其中，所述第一数据表由所述Greenplum数据库系统在所述集群本地创建；

在需要展示所述计算结果时，控制所述Greenplum数据库系统以与所述预设存储格式对应的读取方式，在所述第一数据表中查询所述计算结果进行展示。

在一种可能的实现方式中，将所述大数据计算平台的计算结果以预设存储格式存储至第一数据表，包括：

判断所述计算结果中是否包括不符合所述预设存储格式的非法字符；

若是，则删除所述计算结果中的所述非法字符，并将删除所述非法字符后的所述计算结果存储至所述第一数据表。

第三方面，提供一种大数据集群，所述集群包括：

安装模块，用于基于获得的安装指令，在所述集群本地安装Greenplum数据库系统和大数据计算平台；

配置模块，用于基于获得的配置指令，确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地，以及确定所述大数据计算平台读取数据的位置为所述集群本地，以使得所述Greenplum数据库系统和所述大数据计算平台基于所述集群本地存储的内容实现数据共享。

在一种可能的实现方式中，所述配置模块包括：

第一创建子模块，用于通过所述Greenplum数据库系统，在所述集群中创建第一数据表；

第一确定子模块，用于确定所述Greenplum数据库系统从所述第一数据表读取数据的方式为与预设存储格式对应的读取方式；

第二确定子模块，用于确定所述大数据计算平台存储计算结果的位置为所述第一数据表，以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式，以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。

在一种可能的实现方式中，所述配置模块包括：

第二创建子模块，用于使用所述Greenplum数据库系统中用于创建外部表的语句模式，在所述集群中创建第一数据表；

第三确定子模块，用于确定所述Greenplum数据库系统使用的集群地址为本地location；

第四确定子模块，用于确定所述Greenplum数据库系统读取数据的方式为与预设存储格式对应的读取方式；

第五确定子模块，用于确定所述大数据平台存储计算结果的位置为所述第一数据表，以及确定所述大数据计算平台存储计算结果的格式为所述预设存储格式，以使得所述Greenplum数据库系统可以从所述第一数据表读取所述计算结果进行展示。

第四方面，提供一种应用于大数据集群的数据交互装置，所述装置包括Greenplum数据库模块和大数据计算模块，其中：

所述大数据计算模块，用于将自身的计算结果以预设存储格式存储至第一数据表，其中，所述第一数据表由所述Greenplum数据库模块在所述集群本地创建；

所述Greenplum数据库模块，用于在需要展示所述计算结果时，以与所述预设存储格式对应的读取方式，在所述第一数据表中查询所述计算结果进行展示。

在一种可能的实现方式中，所述大数据计算模块还用于：

第五方面，提供一种计算机设备，所述设备包括：

至少一个处理器，以及

与所述至少一个处理器连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，执行如第一方面和/或第二方面所述的方法。

第六方面，提供一种计算机可读存储介质，包括：

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面和/或第二方面所述的方法。

本发明实施例中，集群基于获得的安装指令，在集群本地安装Greenplum数据库系统和大数据计算平台；基于获得的配置指令，确定Greenplum数据库系统存储计算结果的位置为集群本地，以及确定大数据计算平台读取数据的位置为集群本地，以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。

通过将Greenplum数据库系统和大数据计算平台搭建在集群本地，并且通过配置，Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。因而，Greenplum数据库系统需要使用计算结果时，省去了从集群中导出计算结果的过程，减少了Greenplum数据库系统展示计算结果的耗时。

并且，集群系统中存储的计算结果既可以由大数据计算平台使用，又可以由Greenplum数据库系统使用，减少了计算结果的备份数量，节约了存储空间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例中一种大数据集群的部署方法的流程示意图；

图2为本发明实施例中一种大数据集群的数据交互方法的流程示意图；

图3为本发明实施例中一种大数据集群的结构框图；

图4为本发明实施例中一种应用于大数据集群的数据交互装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。另外，需要理解的是，在本发明实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

首先，对本发明的应用场景和相关技术进行介绍。

现在的大数据系统都是基于大量数据的基础进行分析，使用大数据计算平台进行大量的数据计算和存储，但是这就意味着展示这部分数据的时候会受到平台和数据量的限制。

Greenplum数据库系统为一种分布式数据库系统，可以基于数据进行可视化的页面展示。现如今Greenplum数据库系统的应用越来越广泛。为了方便数据的展示，可以使用Greenplum数据库系统接收大数据计算平台产生的数据，提高存储效率和查询速度。然而，由于大数据计算平台生成的计算结果的数据量通常较大，因而这些计算结果从大数据计算平台导出到Greenplum数据库系统通常耗时较长。

本发明的核心思想在于：利用集群资源将大数据计算平台和Greenplum数据库系统搭建在一起，实现资源和数据共享；通过使用共享的资源存储数据，省去了数据导出的过程，减少Greenplum数据库系统使用大数据计算平台的计算结果的耗时。

为了更好的理解本发明实施例中的方法，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

请参见图1，本发明实施例提供一种大数据集群的部署方法，该方法的流程描述如下。

步骤101：基于获得的安装指令，在集群本地安装Greenplum数据库系统和大数据计算平台。

集群获得安装指令后，可以基于安装指令在本地安装Greenplum数据库系统和大数据计算平台。其中，安装指令可以是用户对集群进行操作而产生的指令，也可以是集群基于预设的触发条件而自动触发产生的。

其中，安装Greenplum数据库系统、大数据计算平台的具体过程，可以与现有技术中分别在不同集群中单独安装Greenplum数据库系统、大数据计算平台的过程相同，在此不再赘述。

通过在同一个集群安装Greenplum数据库系统和大数据计算平台，使得Greenplum数据库系统和大数据计算平台可以公用该集群提供的资源，例如，公用该集群提供的存储资源。

步骤102：基于获得的配置指令，确定Greenplum数据库系统存储计算结果的位置为集群本地，以及确定大数据计算平台读取数据的位置为集群本地，以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。

本发明实施例中，获得的配置指令可以是一条单独的指令，也可以是一系列的多条指令。根据配置指令，集群可以确定Greenplum数据库系统存储计算结果的位置为集群本地，以及确定大数据计算平台读取数据的位置为集群本地。

通过配置，可以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。在具体的实施过程中，Greenplum数据库系统需要使用存储的计算结果时，集群可以直接在本地进行读取，而无需将计算结果导出至集群外的其它设备或从其他设备导入计算结果。

在一种可能的实施方式中，基于获得的配置指令，确定Greenplum数据库系统存储计算结果的位置为集群本地，以及确定大数据计算平台读取数据的位置为集群本地的具体过程，可以包括如下两部分：

第一部分，通过Greenplum数据库系统，在集群中创建第一数据表，并确定Greenplum数据库系统从第一数据表读取数据的方式为与预设存储格式对应的读取方式。

其中，预设存储格式可以设定有存储文件的文本类型，以及计算结果的排列方式，等等。例如，预设存储格式可以定义以text文本类型存储计算结果，以分隔符区分计算结果中的不同数据。与预设存储格式对应的读取方式可以是用于读取以预设存储格式存储的数据的读取方式。

第二部分，确定大数据计算平台存储计算结果的位置为第一数据表，以及确定大数据计算平台存储计算结果的格式为预设存储格式

通过上述第一部分和第二部分的操作，使得Greenplum数据库系统可以从第一数据表读取计算结果进行展示。

在具体的实施过程中，Greenplum数据库系统和大数据计算平台用于数据共享的数据表除了第一数据表外，还可以包括有其它数据表，例如还可以包括有第二数据表、第三数据表，等等。

并且，预设存储格式可以根据计算结果的数据类型进行调整，相应的，读取方式也可以随预设存储格式的调整而进行对应的调整。

在一种可能的实施方式中，基于获得的配置指令，确定Greenplum数据库系统存储计算结果的位置为集群本地，以及确定大数据计算平台读取数据的位置为集群本地，可以通过如下的四个步骤实现：

步骤一：使用Greenplum数据库系统中用于创建外部表的语句模式，在集群中创建第一数据表。

步骤二：确定Greenplum数据库系统使用的集群地址为本地location；

步骤三：确定Greenplum数据库系统读取数据的方式为与预设存储格式对应的读取方式；

步骤四：确定大数据平台存储计算结果的位置为第一数据表，以及确定大数据计算平台存储计算结果的格式为预设存储格式。

通过上述的四个步骤，使得Greenplum数据库系统可以从第一数据表读取计算结果进行展示。

实施例二

请参见图2，基于同一发明构思，本发明实施例提供一种大数据集群的数据交互方法，该大数据集群可以是实施例一中的集群。其中，大数据集群中安装有Greenplum数据库系统和大数据计算平台。

本发明实施例中，大数据集群的数据交互方法的流程描述如下：

步骤201：将大数据计算平台的计算结果以预设存储格式存储至第一数据表，其中，第一数据表由Greenplum数据库系统在集群本地创建。

步骤202：在需要展示计算结果时，控制Greenplum数据库系统以与预设存储格式对应的读取方式，在第一数据表中查询计算结果进行展示。

在一种可能的实施方式中，将大数据计算平台的计算结果以预设存储格式存储至第一数据表的过程中，可以判断计算结果中是否包括不符合预设存储格式的非法字符；若包括不符合预设存储格式的非法字符，则删除计算结果中的非法字符，并将删除非法字符后的计算结果存储至第一数据表。

在具体的实施过程中，由于计算错误、计算样本不符合计算规则等因素，可能导致计算结果中出现乱码或其它不符合预设存储规则的非法字符。而Greenplum数据库系统是不能读取这些非法字符的，如果第一数据表中存在这些非法字符，会导致从第一数据表中读取数据错误。

因而，本发明实施例中，在存储计算结果时，若判断出计算结果中包括非法字符，则删除计算结果中的非法字符，并将删除非法字符后的计算结果存储至第一数据表，以避免Greenplum数据库系统从第一数据表中读取数据错误。提高了大数据集群运行的稳定性。

实施例三

请参见图3，基于同一发明构思，本发明实施例提供一种大数据集群，该大数据集群可以是实施一和/或实施例二中所述的集群。

本发明实施例中的集群至少包括安装模块301和配置模块302，其中：

安装模块301，用于基于获得的安装指令，在集群本地安装Greenplum数据库系统和大数据计算平台；

配置模块302，用于基于获得的配置指令，确定Greenplum数据库系统存储计算结果的位置为集群本地，以及确定大数据计算平台读取数据的位置为集群本地，以使得Greenplum数据库系统和大数据计算平台基于集群本地存储的内容实现数据共享。

在一种可能的实施方式中，配置模块302包括：

第一创建子模块，用于通过Greenplum数据库系统，在集群中创建第一数据表；

第一确定子模块，用于确定Greenplum数据库系统从第一数据表读取数据的方式为与预设存储格式对应的读取方式；

第二确定子模块，用于确定大数据计算平台存储计算结果的位置为第一数据表，以及确定大数据计算平台存储计算结果的格式为预设存储格式，以使得Greenplum数据库系统可以从第一数据表读取计算结果进行展示。

在一种可能的实施方式中，配置模块302包括：

第二创建子模块，用于使用Greenplum数据库系统中用于创建外部表的语句模式，在集群中创建第一数据表；

第三确定子模块，用于确定Greenplum数据库系统使用的集群地址为本地location；

第四确定子模块，用于确定Greenplum数据库系统读取数据的方式为与预设存储格式对应的读取方式；

第五确定子模块，用于确定大数据平台存储计算结果的位置为第一数据表，以及确定大数据计算平台存储计算结果的格式为预设存储格式，以使得Greenplum数据库系统可以从第一数据表读取计算结果进行展示。

实施例四

请参见图4，基于同一发明构思，本发明实施例提供一种应用于大数据集群的数据交互装置，该大数据集群可以是实施一、实施例二、或实施例三中所述的集群。

本发明实施例中的数据交互装置至少包括大数据计算模块401和Greenplum数据库模块402，其中：

大数据计算模块401，用于将自身的计算结果以预设存储格式存储至第一数据表，其中，第一数据表由Greenplum数据库模块402在集群本地创建；

Greenplum数据库模块402，用于在需要展示计算结果时，以与预设存储格式对应的读取方式，在第一数据表中查询计算结果进行展示。

在一种可能的实施方式中，大数据计算模块401还用于：

判断计算结果中是否包括不符合预设存储格式的非法字符；

若是，则删除计算结果中的非法字符，并将删除非法字符后的计算结果存储至第一数据表。

实施例五

基于同一发明构思，本发明实施例提供一种计算机设备，包括：

至少一个处理器，以及

与至少一个处理器连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，至少一个处理器通过执行存储器存储的指令，执行如实施例一和/或实施例二所述的方法。

实施例六

基于同一发明构思，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当计算机指令在计算机上运行时，使得计算机执行实施例一和/或实施例二所述的方法。

在具体的实施过程中，计算机可读存储介质包括：通用串行总线闪存盘(Universal Serial Bus flash drive，USB)、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的存储介质。

进一步地，本发明实施例中，在存储计算结果时，若判断出计算结果中包括非法字符，则删除计算结果中的非法字符，并将删除非法字符后的计算结果存储至第一数据表，以避免Greenplum数据库系统从第一数据表中读取数据错误。提高了大数据集群运行的稳定性。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元/模块可以是或者也可以不是物理上分开的，作为单元/模块显示的部件可以是或者也可以不是物理单元/模块，即可以位于一个地方，或者也可以分布到多个网络单元/模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大数据集群的部署方法，应用于一集群，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，基于获得的配置指令，确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地，以及确定所述大数据计算平台读取数据的位置为所述集群本地，包括：

3.如权利要求1所述的方法，其特征在于，基于获得的配置指令，确定所述Greenplum数据库系统存储计算结果的位置为所述集群本地，以及确定所述大数据计算平台读取数据的位置为所述集群本地，包括：

确定所述Greenplum数据库系统使用的集群地址为本地location；

4.一种大数据集群的数据交互方法，其特征在于，所述集群中安装有Greenplum数据库系统和大数据计算平台，所述方法包括：

5.如权利要求4所述的方法，其特征在于，将所述大数据计算平台的计算结果以预设存储格式存储至第一数据表，包括：

6.一种大数据集群，其特征在于，所述集群包括：

7.一种应用于大数据集群的数据交互装置，其特征在于，所述装置包括Greenplum数据库模块和大数据计算模块，其中：

8.如权利要求6所述的装置，其特征在于，所述大数据计算模块还用于：

9.一种计算机设备，其特征在于，所述设备包括：

至少一个处理器，以及

与所述至少一个处理器连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，执行如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于：

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-5中任一项所述的方法。