CN109947778A

CN109947778A - 一种Spark存储方法及系统

Info

Publication number: CN109947778A
Application number: CN201910236924.4A
Authority: CN
Inventors: 李栋
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-06-28
Anticipated expiration: 2039-03-27
Also published as: CN109947778B

Abstract

本公开公开了一种Spark存储方法及系统，方法包括：获取待存储数据，基于待存储数据确定分区策略，基于分区策略将待存储数据存储至对应的分区。本公开通过分区策略对数据进行自动重新分区存储，降低了后续数据的操作量，进而提高了整体计算效率。

Description

一种Spark存储方法及系统

技术领域

本公开涉及数据处理技术领域，尤其涉及一种Spark存储方法及系统。

背景技术

Spark(计算引擎)存储是将数据通过自有的列式存储方式存储于内存或本地磁盘，得益于这种列式存储方式，大大提高了数据加载与计算效率。在实际应用中，Spark存储中数据的分区是与存储前的数据分区是一致的，即存储过程只是按照数据原来的分区方式，依次将每个分区的数据加载并做存储，整个过程不会对数据原有分区策略做任何变动。这样的存储方式并没有过多考虑到后续数据计算的需求，比如加载计算，尽管存储本身能加快数据的加载，但是依然无法避免由于数据密钥在不同分区中的无规则存储带来的拖拽类操作。

因此，如何提高整体计算效率，是一项亟待解决的问题。

发明内容

有鉴于此，本公开提供一种Spark存储方法，通过对数据进行自动重新分区存储，降低了后续数据的操作量，进而提高了整体计算效率。

本公开提供了一种Spark存储方法，包括：

获取待存储数据；

基于所述待存储数据确定分区策略；

基于所述分区策略将所述待存储数据存储至对应的分区。

优选地，所述基于所述待存储数据确定分区策略包括：

获取所述待存储数据指定的重分区密钥和分区参数；

基于所述指定的重分区密钥和分区参数对所述待存储数据进行重分区计算，得到所述分区策略。

优选地，所述分区参数包括：指定分区参数和系统分区参数。

优选地，所述基于所述待存储数据确定分区策略包括：

统计所述待存储数据在计算过程中对应的随机密钥；

判断所述随机密钥是否满足条件，若是，则：

将所述待存储数据按照所述随机密钥进行重分区计算，得到所述分区策略。

优选地，所述判断所述随机密钥是否满足条件包括：

判断所述随机密钥是否达到特定阈值，当所述随机密钥达到特定阈值时，所述随机密钥满足条件。

一种Spark存储系统，包括：

存储器，用于存储应用程序与应用程序运行所产生的数据；

处理器，用于运行所述应用程序以获取待存储数据；

所述处理器，还用于基于所述待存储数据确定分区策略；

所述处理器，还用于基于所述分区策略将所述待存储数据存储至对应的分区。

优选地，所述处理器在执行基于所述待存储数据确定分区策略时，具体用于：

获取所述待存储数据指定的重分区密钥和分区参数；

统计所述待存储数据在计算过程中对应的随机密钥；

判断所述随机密钥是否满足条件，若是，则：

优选地，所述处理器在执行判断所述随机密钥是否满足条件时，具体用于：

从上述技术方案可以看出，本公开公开的一种Spark存储方法，当需要实现Spark存储时，首先获取待存储数据，然后基于待存储数据确定分区策略，基于分区策略将待存储数据存储至对应的分区。本公开通过分区策略对数据进行自动重新分区存储，降低了后续数据的操作量，进而提高了整体计算效率。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开公开的一种Spark存储方法实施例1的方法流程图；

图2为本公开公开的一种Spark存储方法实施例2的方法流程图；

图3为本公开公开的一种Spark存储方法实施例3的方法流程图；

图4为本公开公开的一种Spark存储方法实施例4的方法流程图；

图5为本公开公开的一种Spark存储系统实施例1的结构示意图；

图6为本公开公开的一种Spark存储系统实施例2的结构示意图；

图7为本公开公开的一种Spark存储系统实施例3的结构示意图；

图8为本公开公开的一种Spark存储系统实施例4的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

如图1所示，为本公开公开的一种Spark存储方法实施例1的方法流程图，所述方法可以包括以下步骤：

S101、获取待存储数据；

当需要进行Spark存储时，首先获取待存储数据，即首先获取需要进行Spark存储的数据。

S102、基于待存储数据确定分区策略；

不同的待存储数据会对应不同的分区策略，当获取到待存储数据后，进一步根据获取到的待存储数据确定出对应的存储分区策略。

S103、基于分区策略将待存储数据存储至对应的分区。

最后，根据确定出的分区策略，将待存储数据存储至相应的分区。

综上所述，在上述实施例中，当需要进行Spark存储时，首先获取待存储数据，然后基于待存储数据确定分区策略，基于分区策略将待存储数据存储至对应的分区。本公开通过分区策略对数据进行自动重新分区存储，降低了后续数据的操作量，进而提高了整体计算效率。

如图2所示，为本公开公开的一种Spark存储方法实施例2的方法流程图，所述方法可以包括以下步骤：

S201、获取待存储数据；

S202、获取待存储数据指定的重分区密钥和分区参数；

具体的，在确定待存储数据的分区策略时，首先获取待存储数据指定的重分区密钥和分区参数。需要说明的是，如果分区参数未指定，则获取系统默认参数。即，分区参数可以是指定分区参数和系统分区参数。

S203、基于指定的重分区密钥和分区参数对待存储数据进行重分区计算，得到分区策略；

获取到待存储数据指定的重分区密钥和分区参数后，进一步读取待存储数据，并按照指定的重分区密钥和分区参数对待存储数据进行重分区计算，最终得到待存储数据所需的分区策略。

S204、基于分区策略将待存储数据存储至对应的分区。

综上所述，在上述实施例中，当需要进行Spark存储时，首先获取待存储数据，然后获取待存储数据指定的重分区密钥和分区参数，基于指定的重分区密钥和分区参数对待存储数据进行重分区计算，得到所述分区策略，最后基于分区策略将待存储数据存储至对应的分区。本公开通过指定的重分区密钥和分区参数对待存储数据进行重分区计算，得到分区策略，并根据分区策略对数据进行自动重新分区存储，降低了后续数据的操作量，进而提高了整体计算效率。

如图3所示，为本公开公开的一种Spark存储方法实施例3的方法流程图，所述方法可以包括以下步骤：

S301、获取待存储数据；

S302、统计待存储数据在计算过程中对应的随机密钥；

具体的，在确定待存储数据的分区策略时，对待存储数据后续参与的计算流程进行分析，通过分析统计出待存储数据在后续参与的计算过程中对应的随机密钥。

S303、判断随机密钥是否满足条件，若是，则进入S304：

当统计出待存储数据在计算过程中对应的随机密钥后，进一步判断统计出的随机密钥是否满足特定的条件。

S304、将待存储数据按照随机密钥进行重分区计算，得到分区策略；

当统计出的随机密钥满足特定的条件时，将待存储数据按照统计得到的随机密钥进行重分区计算，得到待存储数据对应的分区策略。

S305、基于分区策略将待存储数据存储至对应的分区。

综上所述，在上述实施例中，当需要进行Spark存储时，首先获取待存储数据，然后统计待存储数据在计算过程中对应的随机密钥，判断随机密钥是否满足条件，若是，则：将待存储数据按照所述随机密钥进行重分区计算，得到分区策略，最后基于分区策略将待存储数据存储至对应的分区。本公开在随机密钥满足条件时，将待存储数据按照随机密钥进行重分区计算，得到分区策略，并根据分区策略对数据进行自动重新分区存储，降低了后续数据的操作量，进而提高了整体计算效率。

如图4所示，为本公开公开的一种Spark存储方法实施例4的方法流程图，所述方法可以包括以下步骤：

S401、获取待存储数据；

S402、统计待存储数据在计算过程中对应的随机密钥；

S403、判断随机密钥是否达到特定阈值，若是，则进入S304：

当统计出待存储数据在计算过程中对应的随机密钥后，进一步判断统计出的随机密钥是否满足特定的条件。具体的，判断统计得到的随机密钥是否达到特定阈值。

S404、将待存储数据按照随机密钥进行重分区计算，得到分区策略；

当统计出的随机密钥满足特定的条件时，即，随机密钥达到特定阈值时，将待存储数据按照统计得到的随机密钥进行重分区计算，得到待存储数据对应的分区策略。

S405、基于分区策略将待存储数据存储至对应的分区。

综上所述，在上述实施例中，当需要进行Spark存储时，首先获取待存储数据，然后统计待存储数据在计算过程中对应的随机密钥，判断随机密钥是否达到特定阈值，若是，则：将待存储数据按照所述随机密钥进行重分区计算，得到分区策略，最后基于分区策略将待存储数据存储至对应的分区。本公开在随机密钥满足条件时，将待存储数据按照随机密钥进行重分区计算，得到分区策略，并根据分区策略对数据进行自动重新分区存储，降低了后续数据的操作量，进而提高了整体计算效率。

如图5所示，为本公开公开的一种Spark存储系统实施例1的结构示意图，所述系统可以包括：

存储器501，用于存储应用程序与应用程序运行所产生的数据；

处理器502，用于运行所述应用程序以获取待存储数据；

处理器502，还用于基于待存储数据确定分区策略；

处理器502，还用于基于分区策略将待存储数据存储至对应的分区。

如图6所示，为本公开公开的一种Spark存储系统实施例2的结构示意图，所述系统可以包括：

存储器601，用于存储应用程序与应用程序运行所产生的数据；

处理器602，用于运行所述应用程序以获取待存储数据；

处理器602，还用于获取待存储数据指定的重分区密钥和分区参数；

处理器602，还用于基于指定的重分区密钥和分区参数对待存储数据进行重分区计算，得到分区策略；

处理器602，还用于基于分区策略将待存储数据存储至对应的分区。

如图7所示，为本公开公开的一种Spark存储系统实施例3的结构示意图，所述系统可以包括：

存储器701，用于存储应用程序与应用程序运行所产生的数据；

处理器702，用于运行所述应用程序以获取待存储数据；

处理器702，还用于统计待存储数据在计算过程中对应的随机密钥；

处理器702，还用于判断随机密钥是否满足条件；

处理器702，还用于当随机密钥满足条件时，将待存储数据按照随机密钥进行重分区计算，得到分区策略；

处理器702，还用于基于分区策略将待存储数据存储至对应的分区。

如图8所示，为本公开公开的一种Spark存储系统实施例4的结构示意图，所述系统可以包括：

存储器801，用于存储应用程序与应用程序运行所产生的数据；

处理器802，用于运行所述应用程序以获取待存储数据；

处理器802，还用于统计待存储数据在计算过程中对应的随机密钥；

处理器802，还用于判断随机密钥是否达到特定阈值；

处理器802，还用于当随机密钥达到特定阈值时，将待存储数据按照随机密钥进行重分区计算，得到分区策略；

处理器802，还用于基于分区策略将待存储数据存储至对应的分区。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本公开。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种Spark存储方法，包括：

获取待存储数据；

基于所述待存储数据确定分区策略；

基于所述分区策略将所述待存储数据存储至对应的分区。

2.根据权利要求1所述的方法，所述基于所述待存储数据确定分区策略包括：

获取所述待存储数据指定的重分区密钥和分区参数；

3.根据权利要求2所述的方法，所述分区参数包括：指定分区参数和系统分区参数。

4.根据权利要求1所述的方法，所述基于所述待存储数据确定分区策略包括：

统计所述待存储数据在计算过程中对应的随机密钥；

判断所述随机密钥是否满足条件，若是，则：

5.根据权利要求4所述的方法，所述判断所述随机密钥是否满足条件包括：

6.一种Spark存储系统，包括：

存储器，用于存储应用程序与应用程序运行所产生的数据；

处理器，用于运行所述应用程序以获取待存储数据；

所述处理器，还用于基于所述待存储数据确定分区策略；

7.根据权利要求6所述的系统，所述处理器在执行基于所述待存储数据确定分区策略时，具体用于：

获取所述待存储数据指定的重分区密钥和分区参数；

8.根据权利要求7所述的系统，所述分区参数包括：指定分区参数和系统分区参数。

9.根据权利要求6所述的系统，所述处理器在执行基于所述待存储数据确定分区策略时，具体用于：

统计所述待存储数据在计算过程中对应的随机密钥；

判断所述随机密钥是否满足条件，若是，则：

10.根据权利要求9所述的系统，所述处理器在执行判断所述随机密钥是否满足条件时，具体用于：