CN110297830A

CN110297830A - 一种Redshift外部表动态列的处理方法及装置

Info

Publication number: CN110297830A
Application number: CN201910565114.3A
Authority: CN
Inventors: 朱亮; 徐滢
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-01
Anticipated expiration: 2039-06-26
Also published as: CN110297830B

Abstract

本发明公开一种Redshift外部表动态列的处理方法及装置，包括：加载Redshift外部表的第一表头信息；所述第一表头信息包括：外部表的列名称，所述列名称与待存储的Spark DataFrame列的映射关系，所述列名称的使用情况；根据所述第一表头信息，将所述Redshift外部表的列与所述待存储的Spark DataFrame的列进行一一映射，生成Redshift外部表的第二表头信息；根据所述第二表头信息，更新所述待存储的Spark DataFrame的表头结构，获取更新后的Spark DataFrame；将所述更新后的Spark DataFrame存储于所述Redshift外部表。本发明提供的技术方案，能够动态地改变Redshift外部表的列结构，简化操作。

Description

一种Redshift外部表动态列的处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种Redshift外部表动态列的处理方法及装置。

背景技术

亚马逊云服务提供一系列基础服务，其中包括AwSRedshift。AWSRedshift是一个快速、可扩展的数据仓库，可以简单、经济、高效地分析数据仓库和数据湖中的所有数据。AWS Redshift作为落地数据清洗后的存储介质和分析引擎，数据分析部门可以直接对数据进行查看、抽取、汇总等操作。

现有的以天为粒度的统计数据存储于AWS Redshift服务器上，以天为分区键。出于对存储成本和安全的考虑，我们会为每一份数据在AWS S3中保留一份拷贝，AWSRedshift服务器只存储近3月的数据。对于存储于AWS Redshift服务器上的数据，因为数据引擎的支持，改变表的列结构是没问题的。

而对于统计粒度要求更高的数据，比如精细到Session级别的数据(用户操作间隔不超过5分钟，被认为是一个Session)，因成本的限制其数据体量不适合存储至AWSRedshift服务器上。通过Amazon Redshift Spectrum工-具的支持，可以为这类数据选择成本更低的AWS S3作为存储介质，然后将数据以外部表的形式注册于AWS Redshift中，即把AWS S3数据与AWS Redshift声明的外部表关联起来，这样数据部门可以像使用普通表一样查看这些数据。但是这种存储方式不支持对列结构的直接修改。当需要对表的列结构进行修改时(例如，需要作废或增加一些统计信息时)，都只能先删除Amazon Redshift外部表，再按照新的列结构重新建立此表，操作上非常不方便。

发明内容

本发明旨在提供一种Redshift外部表动态列的处理方法及装置，能够动态地改变Redshift外部表的列结构，简化操作。

为达到上述目的，本发明采用的技术方案如下：

一种Redshift外部表动态列的处理方法，包括：加载Redshift外部表的第一表头信息；所述第一表头信息包括：外部表的列名称，所述列名称与待存储的Spark DataFrame列的映射关系，所述列名称的使用情况；根据所述第一表头信息，将所述Redshift外部表的列与所述待存储的Spark DataFrame的列进行一一映射，生成Redshift外部表的第二表头信息；根据所述第二表头信息，更新所述待存储的Spark DataFrame的表头结构，获取更新后的Spark DataFrame；将所述更新后的Spark DataFrame存储于所述Redshift外部表。

进一步地，还包括：根据所述第二表头信息，创建或更新Redshift View；所述Redshift View用于查询所述Redshift外部表中的预定列。

一种Redshift外部表动态列的处理装置，包括：加载单元，用于加载Redshift外部表的第一表头信息；所述第一表头信息包括：外部表的列名称，所述列名称与待存储的Spark DataFrame列的映射关系，所述列名称的使用情况；映射单元，用于根据所述第一表头信息，将所述Redshift外部表的列与所述待存储的Spark DataFrame的列进行一一映射，生成Redshift外部表的第二表头信息；第一更新单元，用于根据所述第二表头信息，更新所述待存储的Spark DataFrame的表头结构，获取更新后的Spark DataFrame；存储单元，用于将所述更新后的Spark DataFrame存储于所述Redshift外部表。

进一步地，还包括：第二更新单元，用于根据所述第二表头信息，创建或更新Redshift View；所述Redshift View用于查询所述Redshift外部表中的预定列。

本发明实施例提供的Redshift外部表动态列的处理方法及装置，通过将Redshift外部表的列与待存储的Spark DataFrame的列之间进行一一映射，让AWS Redshift外部表的列获取了动态性能，即能够动态地改变AWS Redshift外部表的列结构，有效地解决了现有的存储方式由于不支持对列结构进行直接修改、而需要重新建表的技术问题，因而能够简化操作。此外，本发明还根据第二表头信息，创建或更新了Redshift View，使用户能够直接面对过滤出的有效列，进一步简化、方便了查询操作。

附图说明

图1为本发明实施例一的方法流程图；

图2为本发明实施例二的方法流程图；

图3为本发明实施例一的装置结构图；

图4为本发明实施例二的装置结构图；

图5为本发明实施例中Redshift外部表的第一表头信息；

图6为本发明实施例中Spark DataFrame的表头信息；

图7为本发明实施例中Redshift外部表的第二表头信息；

图8为本发明实施例中加载Redshift外部表的第一表头信息的程序代码；

图9为本发明实施例中加载Redshift外部表的第二表头信息的程序代码。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

图1为本发明实施例一的方法流程图，包括：

步骤101，加载Redshift外部表的第一表头信息；所述第一表头信息包括：外部表的列名称，所述列名称与待存储的Spark DataFrame列的映射关系，所述列名称的使用情况；

本实施例中，在存储Spark DataFrame之前，即将数据存储至AWS S3之前，将相应的Redshift外部表的第一表头信息加载出来。本实施例中的外部表为与业务相关的外部表，如果此时未找到该外部表，则新建一张外部表。外部表的列中包括预留列(为今后可能增加的统计信息预留可用列，今后如有需要可以直接占用)，如果此时未找到该预留列，则直接按照预留列参数初始化一套预留列出来。上述预留列参数用于指定预留的string类型和double类型列的列数，可用最大列的限制总数为1598列。所述列名称与待存储的SparkDataFrame列的映射关系存储于Metadata中。所述列名称的使用情况包括该列是否已被使用，分别用true和false来表示被使用和未被使用的情况，如图5和图8所示。

步骤102，根据所述第一表头信息，将所述Redshift外部表的列与所述待存储的Spark DataFrame的列进行一一映射，生成Redshift外部表的第二表头信息；

本步骤中，通过映射操作，更新Redshift外部表的第一表头信息，即为Redshift外部表的第二表头信息。让Spark DataFrame的列的变化体现在更新后的外部表表头中，即体现在上述第二表头信息中。如图5至图7所示。

步骤103，根据所述第二表头信息，更新所述待存储的Spark DataFrame的表头结构，获取更新后的Spark DataFrame；

本实施例中，更新后的Spark DataFrame的表头结构即为最终存储的AWSRedshift外部表的表头结构。

步骤104，将所述更新后的Spark DataFrame存储于所述Redshift外部表。

图2为本发明实施例二的方法流程图，在实施例一的基础上，本发明实施例二还包括：

步骤105，根据所述第二表头信息，创建或更新Redshift View；所述RedshiftView用于查询所述Redshift外部表中的预定列。

本步骤中，创建或更新Redshift View的方法可以为，将一段SQL语句预设为一个View，以后查看这个View就相当于通过预设的SQL进行了查询。本实施例中，所述预定列为有效列。Redshift View用于将未占用的预留列和停用列过滤掉，只向用户展示有效列。在图9所示的程序代码中，Metadata信息为空就代表未占用预留列，metadata中的in_use字段为false的列会在采用Redshift View查询时被过滤掉，而只展示metadata中的in_use字段为true的列。

本发明还公开一种Redshift外部表动态列的处理装置，如图3所示，包括：加载单元，用于加载Redshift外部表的第一表头信息；所述第一表头信息包括：外部表的列名称，所述列名称与待存储的Spark DataFrame列的映射关系，所述列名称的使用情况；映射单元，用于根据所述第一表头信息，将所述Redshift外部表的列与所述待存储的SparkDataFrame的列进行一一映射，生成Redshift外部表的第二表头信息；第一更新单元，用于根据所述第二表头信息，更新所述待存储的Spark DataFrame的表头结构，获取更新后的Spark DataFrame；存储单元，用于将所述更新后的Spark DataFrame存储于所述Redshift外部表。

如图4所示，本装置在图3的基础上，还包括：第二更新单元，用于根据所述第二表头信息，创建或更新Redshift View；所述Redshift View用于查询所述Redsh ift外部表中的预定列。

本装置的工作原理与工作流程已经在本发明公开的Redshift外部表动态列的处理方法中详细描述，此处不再赘述。

本发明的理论原理如下：

作为数据分析人员，需要一个快捷方便的数据分析工具。同时也希望用于分析的数据拥有更细的粒度(这里体现为更细的时间维度)，以便支持更为细致的数据分析。而作为开发人员，通过AWS S3来存储结构化数据，然后通过AWS Redshift外部表将数据暴露出来是可行的。但是，AWS Redshift外部表不支持对列结构的直接修改，任何对列结构的修改都意味着对表的重建。而依托于本发明提供的处理方法，将列的动态化赋予了AWSRedshift外部表，解决了以上问题。

本发明实施例提供的Redshift外部表动态列的处理方法及装置，通过AWS S3获得了近乎无限的数据存储空间，让细粒度的数据(session级别粒度)也能通过AWS Redshift进行查询。更重要的是，通过将Redshift外部表的列与待存储的Spark DataFrame的列之间进行一一映射，让AWS Redshift外部表的列获取了动态性能，即能够动态地改变AWSRedshift外部表的列结构，有效地解决了现有的存储方式由于不支持对列结构进行直接修改、而需要重新建表的技术问题，因而能够简化操作。此外，本发明还根据第二表头信息，创建或更新了Redshift View，使用户能够直接面对过滤出的有效列，用户对AWS Redshift外部表的映射逻辑是无感的，进一步简化、方便了查询操作。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种Redshift外部表动态列的处理方法，其特征在于，包括：

加载Redshift外部表的第一表头信息；所述第一表头信息包括：外部表的列名称，所述列名称与待存储的Spark DataFrame列的映射关系，所述列名称的使用情况；

根据所述第一表头信息，将所述Redshift外部表的列与所述待存储的SparkDataFrame的列进行一一映射，生成Redshift外部表的第二表头信息；

根据所述第二表头信息，更新所述待存储的Spark DataFrame的表头结构，获取更新后的Spark DataFrame；

将所述更新后的Spark DataFrame存储于所述Redshift外部表。

2.根据权利要求1所述的Redshift外部表动态列的处理方法，其特征在于，还包括：

根据所述第二表头信息，创建或更新Redshift View；所述Redshift View用于查询所述Redshift外部表中的预定列。

3.一种Redshift外部表动态列的处理装置，其特征在于，包括：

加载单元，用于加载Redshift外部表的第一表头信息；所述第一表头信息包括：外部表的列名称，所述列名称与待存储的Spark DataFrame列的映射关系，所述列名称的使用情况；

映射单元，用于根据所述第一表头信息，将所述Redshift外部表的列与所述待存储的Spark DataFrame的列进行一一映射，生成Redshift外部表的第二表头信息；

第一更新单元，用于根据所述第二表头信息，更新所述待存储的Spark DataFrame的表头结构，获取更新后的Spark DataFrame；

存储单元，用于将所述更新后的Spark DataFrame存储于所述Redshift外部表。

4.根据权利要求3所述的Redshift外部表动态列的处理装置，其特征在于，还包括：

第二更新单元，用于根据所述第二表头信息，创建或更新Redshift View；所述Redshift View用于查询所述Redshift外部表中的预定列。