CN109947778A - 一种Spark存储方法及系统 - Google Patents

一种Spark存储方法及系统 Download PDF

Info

Publication number
CN109947778A
CN109947778A CN201910236924.4A CN201910236924A CN109947778A CN 109947778 A CN109947778 A CN 109947778A CN 201910236924 A CN201910236924 A CN 201910236924A CN 109947778 A CN109947778 A CN 109947778A
Authority
CN
China
Prior art keywords
data
stored
partitioning strategies
random key
repartition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910236924.4A
Other languages
English (en)
Other versions
CN109947778B (zh
Inventor
李栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201910236924.4A priority Critical patent/CN109947778B/zh
Publication of CN109947778A publication Critical patent/CN109947778A/zh
Application granted granted Critical
Publication of CN109947778B publication Critical patent/CN109947778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本公开公开了一种Spark存储方法及系统,方法包括:获取待存储数据,基于待存储数据确定分区策略,基于分区策略将待存储数据存储至对应的分区。本公开通过分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。

Description

一种Spark存储方法及系统
技术领域
本公开涉及数据处理技术领域,尤其涉及一种Spark存储方法及系统。
背景技术
Spark(计算引擎)存储是将数据通过自有的列式存储方式存储于内存或本地磁盘,得益于这种列式存储方式,大大提高了数据加载与计算效率。在实际应用中,Spark存储中数据的分区是与存储前的数据分区是一致的,即存储过程只是按照数据原来的分区方式,依次将每个分区的数据加载并做存储,整个过程不会对数据原有分区策略做任何变动。这样的存储方式并没有过多考虑到后续数据计算的需求,比如加载计算,尽管存储本身能加快数据的加载,但是依然无法避免由于数据密钥在不同分区中的无规则存储带来的拖拽类操作。
因此,如何提高整体计算效率,是一项亟待解决的问题。
发明内容
有鉴于此,本公开提供一种Spark存储方法,通过对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
本公开提供了一种Spark存储方法,包括:
获取待存储数据;
基于所述待存储数据确定分区策略;
基于所述分区策略将所述待存储数据存储至对应的分区。
优选地,所述基于所述待存储数据确定分区策略包括:
获取所述待存储数据指定的重分区密钥和分区参数;
基于所述指定的重分区密钥和分区参数对所述待存储数据进行重分区计算,得到所述分区策略。
优选地,所述分区参数包括:指定分区参数和系统分区参数。
优选地,所述基于所述待存储数据确定分区策略包括:
统计所述待存储数据在计算过程中对应的随机密钥;
判断所述随机密钥是否满足条件,若是,则:
将所述待存储数据按照所述随机密钥进行重分区计算,得到所述分区策略。
优选地,所述判断所述随机密钥是否满足条件包括:
判断所述随机密钥是否达到特定阈值,当所述随机密钥达到特定阈值时,所述随机密钥满足条件。
一种Spark存储系统,包括:
存储器,用于存储应用程序与应用程序运行所产生的数据;
处理器,用于运行所述应用程序以获取待存储数据;
所述处理器,还用于基于所述待存储数据确定分区策略;
所述处理器,还用于基于所述分区策略将所述待存储数据存储至对应的分区。
优选地,所述处理器在执行基于所述待存储数据确定分区策略时,具体用于:
获取所述待存储数据指定的重分区密钥和分区参数;
基于所述指定的重分区密钥和分区参数对所述待存储数据进行重分区计算,得到所述分区策略。
优选地,所述分区参数包括:指定分区参数和系统分区参数。
优选地,所述处理器在执行基于所述待存储数据确定分区策略时,具体用于:
统计所述待存储数据在计算过程中对应的随机密钥;
判断所述随机密钥是否满足条件,若是,则:
将所述待存储数据按照所述随机密钥进行重分区计算,得到所述分区策略。
优选地,所述处理器在执行判断所述随机密钥是否满足条件时,具体用于:
判断所述随机密钥是否达到特定阈值,当所述随机密钥达到特定阈值时,所述随机密钥满足条件。
从上述技术方案可以看出,本公开公开的一种Spark存储方法,当需要实现Spark存储时,首先获取待存储数据,然后基于待存储数据确定分区策略,基于分区策略将待存储数据存储至对应的分区。本公开通过分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开公开的一种Spark存储方法实施例1的方法流程图;
图2为本公开公开的一种Spark存储方法实施例2的方法流程图;
图3为本公开公开的一种Spark存储方法实施例3的方法流程图;
图4为本公开公开的一种Spark存储方法实施例4的方法流程图;
图5为本公开公开的一种Spark存储系统实施例1的结构示意图;
图6为本公开公开的一种Spark存储系统实施例2的结构示意图;
图7为本公开公开的一种Spark存储系统实施例3的结构示意图;
图8为本公开公开的一种Spark存储系统实施例4的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
如图1所示,为本公开公开的一种Spark存储方法实施例1的方法流程图,所述方法可以包括以下步骤:
S101、获取待存储数据;
当需要进行Spark存储时,首先获取待存储数据,即首先获取需要进行Spark存储的数据。
S102、基于待存储数据确定分区策略;
不同的待存储数据会对应不同的分区策略,当获取到待存储数据后,进一步根据获取到的待存储数据确定出对应的存储分区策略。
S103、基于分区策略将待存储数据存储至对应的分区。
最后,根据确定出的分区策略,将待存储数据存储至相应的分区。
综上所述,在上述实施例中,当需要进行Spark存储时,首先获取待存储数据,然后基于待存储数据确定分区策略,基于分区策略将待存储数据存储至对应的分区。本公开通过分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
如图2所示,为本公开公开的一种Spark存储方法实施例2的方法流程图,所述方法可以包括以下步骤:
S201、获取待存储数据;
当需要进行Spark存储时,首先获取待存储数据,即首先获取需要进行Spark存储的数据。
S202、获取待存储数据指定的重分区密钥和分区参数;
不同的待存储数据会对应不同的分区策略,当获取到待存储数据后,进一步根据获取到的待存储数据确定出对应的存储分区策略。
具体的,在确定待存储数据的分区策略时,首先获取待存储数据指定的重分区密钥和分区参数。需要说明的是,如果分区参数未指定,则获取系统默认参数。即,分区参数可以是指定分区参数和系统分区参数。
S203、基于指定的重分区密钥和分区参数对待存储数据进行重分区计算,得到分区策略;
获取到待存储数据指定的重分区密钥和分区参数后,进一步读取待存储数据,并按照指定的重分区密钥和分区参数对待存储数据进行重分区计算,最终得到待存储数据所需的分区策略。
S204、基于分区策略将待存储数据存储至对应的分区。
最后,根据确定出的分区策略,将待存储数据存储至相应的分区。
综上所述,在上述实施例中,当需要进行Spark存储时,首先获取待存储数据,然后获取待存储数据指定的重分区密钥和分区参数,基于指定的重分区密钥和分区参数对待存储数据进行重分区计算,得到所述分区策略,最后基于分区策略将待存储数据存储至对应的分区。本公开通过指定的重分区密钥和分区参数对待存储数据进行重分区计算,得到分区策略,并根据分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
如图3所示,为本公开公开的一种Spark存储方法实施例3的方法流程图,所述方法可以包括以下步骤:
S301、获取待存储数据;
当需要进行Spark存储时,首先获取待存储数据,即首先获取需要进行Spark存储的数据。
S302、统计待存储数据在计算过程中对应的随机密钥;
不同的待存储数据会对应不同的分区策略,当获取到待存储数据后,进一步根据获取到的待存储数据确定出对应的存储分区策略。
具体的,在确定待存储数据的分区策略时,对待存储数据后续参与的计算流程进行分析,通过分析统计出待存储数据在后续参与的计算过程中对应的随机密钥。
S303、判断随机密钥是否满足条件,若是,则进入S304:
当统计出待存储数据在计算过程中对应的随机密钥后,进一步判断统计出的随机密钥是否满足特定的条件。
S304、将待存储数据按照随机密钥进行重分区计算,得到分区策略;
当统计出的随机密钥满足特定的条件时,将待存储数据按照统计得到的随机密钥进行重分区计算,得到待存储数据对应的分区策略。
S305、基于分区策略将待存储数据存储至对应的分区。
最后,根据确定出的分区策略,将待存储数据存储至相应的分区。
综上所述,在上述实施例中,当需要进行Spark存储时,首先获取待存储数据,然后统计待存储数据在计算过程中对应的随机密钥,判断随机密钥是否满足条件,若是,则:将待存储数据按照所述随机密钥进行重分区计算,得到分区策略,最后基于分区策略将待存储数据存储至对应的分区。本公开在随机密钥满足条件时,将待存储数据按照随机密钥进行重分区计算,得到分区策略,并根据分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
如图4所示,为本公开公开的一种Spark存储方法实施例4的方法流程图,所述方法可以包括以下步骤:
S401、获取待存储数据;
当需要进行Spark存储时,首先获取待存储数据,即首先获取需要进行Spark存储的数据。
S402、统计待存储数据在计算过程中对应的随机密钥;
不同的待存储数据会对应不同的分区策略,当获取到待存储数据后,进一步根据获取到的待存储数据确定出对应的存储分区策略。
具体的,在确定待存储数据的分区策略时,对待存储数据后续参与的计算流程进行分析,通过分析统计出待存储数据在后续参与的计算过程中对应的随机密钥。
S403、判断随机密钥是否达到特定阈值,若是,则进入S304:
当统计出待存储数据在计算过程中对应的随机密钥后,进一步判断统计出的随机密钥是否满足特定的条件。具体的,判断统计得到的随机密钥是否达到特定阈值。
S404、将待存储数据按照随机密钥进行重分区计算,得到分区策略;
当统计出的随机密钥满足特定的条件时,即,随机密钥达到特定阈值时,将待存储数据按照统计得到的随机密钥进行重分区计算,得到待存储数据对应的分区策略。
S405、基于分区策略将待存储数据存储至对应的分区。
最后,根据确定出的分区策略,将待存储数据存储至相应的分区。
综上所述,在上述实施例中,当需要进行Spark存储时,首先获取待存储数据,然后统计待存储数据在计算过程中对应的随机密钥,判断随机密钥是否达到特定阈值,若是,则:将待存储数据按照所述随机密钥进行重分区计算,得到分区策略,最后基于分区策略将待存储数据存储至对应的分区。本公开在随机密钥满足条件时,将待存储数据按照随机密钥进行重分区计算,得到分区策略,并根据分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
如图5所示,为本公开公开的一种Spark存储系统实施例1的结构示意图,所述系统可以包括:
存储器501,用于存储应用程序与应用程序运行所产生的数据;
处理器502,用于运行所述应用程序以获取待存储数据;
当需要进行Spark存储时,首先获取待存储数据,即首先获取需要进行Spark存储的数据。
处理器502,还用于基于待存储数据确定分区策略;
不同的待存储数据会对应不同的分区策略,当获取到待存储数据后,进一步根据获取到的待存储数据确定出对应的存储分区策略。
处理器502,还用于基于分区策略将待存储数据存储至对应的分区。
最后,根据确定出的分区策略,将待存储数据存储至相应的分区。
综上所述,在上述实施例中,当需要进行Spark存储时,首先获取待存储数据,然后基于待存储数据确定分区策略,基于分区策略将待存储数据存储至对应的分区。本公开通过分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
如图6所示,为本公开公开的一种Spark存储系统实施例2的结构示意图,所述系统可以包括:
存储器601,用于存储应用程序与应用程序运行所产生的数据;
处理器602,用于运行所述应用程序以获取待存储数据;
当需要进行Spark存储时,首先获取待存储数据,即首先获取需要进行Spark存储的数据。
处理器602,还用于获取待存储数据指定的重分区密钥和分区参数;
不同的待存储数据会对应不同的分区策略,当获取到待存储数据后,进一步根据获取到的待存储数据确定出对应的存储分区策略。
具体的,在确定待存储数据的分区策略时,首先获取待存储数据指定的重分区密钥和分区参数。需要说明的是,如果分区参数未指定,则获取系统默认参数。即,分区参数可以是指定分区参数和系统分区参数。
处理器602,还用于基于指定的重分区密钥和分区参数对待存储数据进行重分区计算,得到分区策略;
获取到待存储数据指定的重分区密钥和分区参数后,进一步读取待存储数据,并按照指定的重分区密钥和分区参数对待存储数据进行重分区计算,最终得到待存储数据所需的分区策略。
处理器602,还用于基于分区策略将待存储数据存储至对应的分区。
最后,根据确定出的分区策略,将待存储数据存储至相应的分区。
综上所述,在上述实施例中,当需要进行Spark存储时,首先获取待存储数据,然后获取待存储数据指定的重分区密钥和分区参数,基于指定的重分区密钥和分区参数对待存储数据进行重分区计算,得到所述分区策略,最后基于分区策略将待存储数据存储至对应的分区。本公开通过指定的重分区密钥和分区参数对待存储数据进行重分区计算,得到分区策略,并根据分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
如图7所示,为本公开公开的一种Spark存储系统实施例3的结构示意图,所述系统可以包括:
存储器701,用于存储应用程序与应用程序运行所产生的数据;
处理器702,用于运行所述应用程序以获取待存储数据;
当需要进行Spark存储时,首先获取待存储数据,即首先获取需要进行Spark存储的数据。
处理器702,还用于统计待存储数据在计算过程中对应的随机密钥;
不同的待存储数据会对应不同的分区策略,当获取到待存储数据后,进一步根据获取到的待存储数据确定出对应的存储分区策略。
具体的,在确定待存储数据的分区策略时,对待存储数据后续参与的计算流程进行分析,通过分析统计出待存储数据在后续参与的计算过程中对应的随机密钥。
处理器702,还用于判断随机密钥是否满足条件;
当统计出待存储数据在计算过程中对应的随机密钥后,进一步判断统计出的随机密钥是否满足特定的条件。
处理器702,还用于当随机密钥满足条件时,将待存储数据按照随机密钥进行重分区计算,得到分区策略;
当统计出的随机密钥满足特定的条件时,将待存储数据按照统计得到的随机密钥进行重分区计算,得到待存储数据对应的分区策略。
处理器702,还用于基于分区策略将待存储数据存储至对应的分区。
最后,根据确定出的分区策略,将待存储数据存储至相应的分区。
综上所述,在上述实施例中,当需要进行Spark存储时,首先获取待存储数据,然后统计待存储数据在计算过程中对应的随机密钥,判断随机密钥是否满足条件,若是,则:将待存储数据按照所述随机密钥进行重分区计算,得到分区策略,最后基于分区策略将待存储数据存储至对应的分区。本公开在随机密钥满足条件时,将待存储数据按照随机密钥进行重分区计算,得到分区策略,并根据分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
如图8所示,为本公开公开的一种Spark存储系统实施例4的结构示意图,所述系统可以包括:
存储器801,用于存储应用程序与应用程序运行所产生的数据;
处理器802,用于运行所述应用程序以获取待存储数据;
当需要进行Spark存储时,首先获取待存储数据,即首先获取需要进行Spark存储的数据。
处理器802,还用于统计待存储数据在计算过程中对应的随机密钥;
不同的待存储数据会对应不同的分区策略,当获取到待存储数据后,进一步根据获取到的待存储数据确定出对应的存储分区策略。
具体的,在确定待存储数据的分区策略时,对待存储数据后续参与的计算流程进行分析,通过分析统计出待存储数据在后续参与的计算过程中对应的随机密钥。
处理器802,还用于判断随机密钥是否达到特定阈值;
当统计出待存储数据在计算过程中对应的随机密钥后,进一步判断统计出的随机密钥是否满足特定的条件。具体的,判断统计得到的随机密钥是否达到特定阈值。
处理器802,还用于当随机密钥达到特定阈值时,将待存储数据按照随机密钥进行重分区计算,得到分区策略;
当统计出的随机密钥满足特定的条件时,即,随机密钥达到特定阈值时,将待存储数据按照统计得到的随机密钥进行重分区计算,得到待存储数据对应的分区策略。
处理器802,还用于基于分区策略将待存储数据存储至对应的分区。
最后,根据确定出的分区策略,将待存储数据存储至相应的分区。
综上所述,在上述实施例中,当需要进行Spark存储时,首先获取待存储数据,然后统计待存储数据在计算过程中对应的随机密钥,判断随机密钥是否达到特定阈值,若是,则:将待存储数据按照所述随机密钥进行重分区计算,得到分区策略,最后基于分区策略将待存储数据存储至对应的分区。本公开在随机密钥满足条件时,将待存储数据按照随机密钥进行重分区计算,得到分区策略,并根据分区策略对数据进行自动重新分区存储,降低了后续数据的操作量,进而提高了整体计算效率。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本公开。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种Spark存储方法,包括:
获取待存储数据;
基于所述待存储数据确定分区策略;
基于所述分区策略将所述待存储数据存储至对应的分区。
2.根据权利要求1所述的方法,所述基于所述待存储数据确定分区策略包括:
获取所述待存储数据指定的重分区密钥和分区参数;
基于所述指定的重分区密钥和分区参数对所述待存储数据进行重分区计算,得到所述分区策略。
3.根据权利要求2所述的方法,所述分区参数包括:指定分区参数和系统分区参数。
4.根据权利要求1所述的方法,所述基于所述待存储数据确定分区策略包括:
统计所述待存储数据在计算过程中对应的随机密钥;
判断所述随机密钥是否满足条件,若是,则:
将所述待存储数据按照所述随机密钥进行重分区计算,得到所述分区策略。
5.根据权利要求4所述的方法,所述判断所述随机密钥是否满足条件包括:
判断所述随机密钥是否达到特定阈值,当所述随机密钥达到特定阈值时,所述随机密钥满足条件。
6.一种Spark存储系统,包括:
存储器,用于存储应用程序与应用程序运行所产生的数据;
处理器,用于运行所述应用程序以获取待存储数据;
所述处理器,还用于基于所述待存储数据确定分区策略;
所述处理器,还用于基于所述分区策略将所述待存储数据存储至对应的分区。
7.根据权利要求6所述的系统,所述处理器在执行基于所述待存储数据确定分区策略时,具体用于:
获取所述待存储数据指定的重分区密钥和分区参数;
基于所述指定的重分区密钥和分区参数对所述待存储数据进行重分区计算,得到所述分区策略。
8.根据权利要求7所述的系统,所述分区参数包括:指定分区参数和系统分区参数。
9.根据权利要求6所述的系统,所述处理器在执行基于所述待存储数据确定分区策略时,具体用于:
统计所述待存储数据在计算过程中对应的随机密钥;
判断所述随机密钥是否满足条件,若是,则:
将所述待存储数据按照所述随机密钥进行重分区计算,得到所述分区策略。
10.根据权利要求9所述的系统,所述处理器在执行判断所述随机密钥是否满足条件时,具体用于:
判断所述随机密钥是否达到特定阈值,当所述随机密钥达到特定阈值时,所述随机密钥满足条件。
CN201910236924.4A 2019-03-27 2019-03-27 一种Spark存储方法及系统 Active CN109947778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910236924.4A CN109947778B (zh) 2019-03-27 2019-03-27 一种Spark存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910236924.4A CN109947778B (zh) 2019-03-27 2019-03-27 一种Spark存储方法及系统

Publications (2)

Publication Number Publication Date
CN109947778A true CN109947778A (zh) 2019-06-28
CN109947778B CN109947778B (zh) 2022-04-19

Family

ID=67011987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910236924.4A Active CN109947778B (zh) 2019-03-27 2019-03-27 一种Spark存储方法及系统

Country Status (1)

Country Link
CN (1) CN109947778B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136122A (zh) * 2011-11-23 2013-06-05 北京兴宇中科科技开发股份有限公司 一种可移动磁盘的加密方法
CN105404679A (zh) * 2015-11-24 2016-03-16 华为技术有限公司 数据处理方法和装置
CN106528773A (zh) * 2016-11-07 2017-03-22 山东首讯信息技术有限公司 一种基于Spark平台支持空间数据管理的图计算系统及方法
CN106909612A (zh) * 2017-01-11 2017-06-30 浙江宇视科技有限公司 一种跟随行为数据的处理方法和装置
US20170270179A1 (en) * 2016-03-15 2017-09-21 International Business Machines Corporation Providing global metadata in a cluster computing environment
CN107526546A (zh) * 2017-08-25 2017-12-29 深圳大学 一种Spark分布式计算数据处理方法及系统
CN107993151A (zh) * 2018-01-17 2018-05-04 平安科技(深圳)有限公司 基金交易清算方法、装置、设备及计算机可读存储介质
CN108365971A (zh) * 2018-01-10 2018-08-03 深圳市金立通信设备有限公司 日志解析方法、设备及计算机可读介质
WO2019037093A1 (zh) * 2017-08-25 2019-02-28 深圳大学 一种 Spark 分布式计算数据处理方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136122A (zh) * 2011-11-23 2013-06-05 北京兴宇中科科技开发股份有限公司 一种可移动磁盘的加密方法
CN105404679A (zh) * 2015-11-24 2016-03-16 华为技术有限公司 数据处理方法和装置
US20170270179A1 (en) * 2016-03-15 2017-09-21 International Business Machines Corporation Providing global metadata in a cluster computing environment
US10083224B2 (en) * 2016-03-15 2018-09-25 International Business Machines Corporation Providing global metadata in a cluster computing environment
CN106528773A (zh) * 2016-11-07 2017-03-22 山东首讯信息技术有限公司 一种基于Spark平台支持空间数据管理的图计算系统及方法
CN106909612A (zh) * 2017-01-11 2017-06-30 浙江宇视科技有限公司 一种跟随行为数据的处理方法和装置
CN107526546A (zh) * 2017-08-25 2017-12-29 深圳大学 一种Spark分布式计算数据处理方法及系统
WO2019037093A1 (zh) * 2017-08-25 2019-02-28 深圳大学 一种 Spark 分布式计算数据处理方法及系统
CN108365971A (zh) * 2018-01-10 2018-08-03 深圳市金立通信设备有限公司 日志解析方法、设备及计算机可读介质
CN107993151A (zh) * 2018-01-17 2018-05-04 平安科技(深圳)有限公司 基金交易清算方法、装置、设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI HUANG等: ""In-Memory Parallel Processing of Massive Remotely Sensed Data Using an Apache Spark on Hadoop YARN Model"", 《IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING ( VOLUME: 10, ISSUE: 1, JAN. 2017)》 *
黄宇驰: ""基于性能预测的Spark资源优化分配策略"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Also Published As

Publication number Publication date
CN109947778B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN110489405A (zh) 数据处理的方法、装置和服务器
CN102439577B (zh) 一种构建内存访问模型的方法及装置
CN104102543A (zh) 一种云计算环境中负载调整的方法和装置
CN107257374A (zh) 一种区块链上的交易处理方法及系统
US6002875A (en) Method for the reduction of instruction cache miss rate using optimization data from trace data profiles
CN108874688A (zh) 一种报文数据缓存方法及装置
CN110287179A (zh) 一种数据缺失属性值的填充设备、装置及方法
CN109992446A (zh) 一种固态硬盘纠错方法及相关装置
CN107704373A (zh) 一种数据处理方法及装置
CN109324761A (zh) 一种数据缓存方法、装置、设备及存储介质
CN109739646A (zh) 一种数据处理方法及装置
CN107357686A (zh) 一种日志删除方法及装置
CN102169464B (zh) 一种用于非易失性存储器的缓存方法、装置及智能卡
CN110275895A (zh) 一种缺失交通数据的填充设备、装置及方法
CN109947778A (zh) 一种Spark存储方法及系统
CN104166596B (zh) 一种内存分配方法及节点
CN109271293A (zh) 一种硬盘数据的读取方法、装置及相关设备
CN109189343A (zh) 一种元数据落盘方法、装置、设备及计算机可读存储介质
CN108509532A (zh) 一种应用于地图的聚点方法和装置
CN107895588A (zh) 预估ssd盘的剩余寿命时间的方法、装置及设备
CN106155923B (zh) 内存共享的方法和装置
CN106406766A (zh) 一种数据存储方法及装置
CN109992708A (zh) 一种元数据查询的方法、装置、设备以及存储介质
CN115907949A (zh) 银行交易数据处理方法及装置
CN115202582A (zh) 一种数据删除方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant