CN112596671A

CN112596671A - 数据存储的方法、装置、存储介质及电子设备

Info

Publication number: CN112596671A
Application number: CN202011492479.7A
Authority: CN
Inventors: 刘峰; 牟童; 王诗鈞; 金铸; 何光宇
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-02

Abstract

本公开涉及一种数据存储的方法、装置、存储介质及电子设备，可以在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取所述HDFS中每个磁盘当前时刻的磁盘性能参数；根据所述磁盘性能参数确定每个磁盘的存储优先级得分，并根据所述存储优先级得分从所述HDFS中的多个所述磁盘中确定目标磁盘；获取所述HDFS中已经写入的至少一个数据块；针对每个数据块，确定该数据块中的数据文件，在所述目标磁盘中未存储所述数据文件的情况下，将该数据块存储至所述目标磁盘，不同的磁盘存储不同的数据文件。

Description

数据存储的方法、装置、存储介质及电子设备

技术领域

本公开涉及分布式文件系统中的数据存储领域，具体地，涉及一种数据存储的方法、装置、存储介质及电子设备。

背景技术

随着全民的健康信息服务和智慧医疗服务的提出，推动了健康大数据的应用，通常情况下，可以利用Hadoop架构实现对海量数据的分布式存储，来支持历史数据归档和在线历史数据查询等功能，Hadoop上所有的数据都存储在HDFS(Hadoop Distributed FileSystem，分布式文件系统)上，海量的医疗大数据在面对HDFS存储空间不足、节点扩展受限的情况下，可以通过在分布式文件系统中的数据节点增加磁盘的方式进行存储扩容，但这会使得每个节点内部同时存在有数据的旧磁盘和新增未存放数据的新磁盘，节点内各个磁盘上的数据不均衡，从而影响系统性能。

相关技术中，可以使用HDFS自带的Balance工具对其数据进行平衡，但这也只能保证每一个数据节点的数据大小均衡，无法解决节点内各个磁盘上的数据不均衡的问题。

发明内容

本公开的目的是提供一种数据存储的方法、装置、存储介质及电子设备。

第一方面，提供一种数据存储的方法，所述方法包括：在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取所述HDFS中每个磁盘当前时刻的磁盘性能参数；根据所述磁盘性能参数确定每个磁盘的存储优先级得分，并根据所述存储优先级得分从所述HDFS中的多个所述磁盘中确定目标磁盘；获取所述HDFS中已经写入的至少一个数据块；针对每个数据块，确定该数据块中的数据文件，在所述目标磁盘中未存储所述数据文件的情况下，将该数据块存储至所述目标磁盘，不同的磁盘存储不同的数据文件。

可选地，所述磁盘性能参数包括磁盘已占用吞吐量、磁盘最大吞吐量、磁盘吞吐量容许空间、磁盘已占用容量、磁盘最大容量以及磁盘容量容许空间，所述根据所述磁盘性能参数确定每个磁盘的存储优先级得分包括：针对每个所述磁盘，根据该磁盘的所述磁盘已占用吞吐量、所述磁盘最大吞吐量以及所述磁盘吞吐量容许空间确定该磁盘的磁盘吞吐余量占用比，并根据该磁盘的所述磁盘已占用容量、所述磁盘最大容量以及所述磁盘容量容许空间确定该磁盘的磁盘容量余量占用比；根据所述磁盘吞吐余量占用比和所述磁盘容量余量占用比确定该磁盘的所述存储优先级得分。

可选地，所述根据所述存储优先级得分从所述HDFS中的多个所述磁盘中确定目标磁盘包括：根据所述存储优先级得分生成采样带，所述采样带包括多个依次连接的预设分段，所述预设分段与所述磁盘一一对应，每个所述预设分段的长度为对应磁盘的存储优先级得分，并且不同的所述预设分段对应多个不同的预设采样点；生成[0,N]区间内的随机数，所述N为所述预设采样点的个数，并且所述预设采样点个数远远大于所述HDFS中磁盘的个数；根据所述采样带和所述随机数从多个所述预设分段中确定目标分段，并将所述目标分段对应的磁盘作为所述目标磁盘。

可选地，所述根据所述采样带和所述随机数从多个所述预设分段中确定目标分段包括：根据所述采样带，将多个所述预设分段中所述随机数对应的预设分段作为所述目标分段。

可选地，所述根据所述采样带和所述随机数从多个所述预设分段中确定目标分段包括：根据所述预设采样点的个数和所述HDFS中所述磁盘的个数确定所述采样带中每个预设分段对应的平均采样点个数；以所述随机数为期望，以所述平均采样点个数的二分之一为方差建立高斯分布模型，并根据所述高斯分布模型和预设随机数生成模型从所述采样带中确定目标采样点集，所述目标采样点集包括多个连续的预设采样点；从所述目标采样点集中随机选取任一预设采样点为目标采样点，并将所述目标采样点对应的预设分段作为所述目标分段。

可选地，在所述将该数据块存储至所述目标磁盘之后，所述方法还包括：对所述目标磁盘进行标记，以便标记所述目标磁盘中存储有该数据块。

可选地，所述方法还包括：在对多个所述预设数据节点增加磁盘时，将所述HDFS中存储的每个数据文件的文件副本的数量降低至第一预设数量。

可选地，在所述获取所述HDFS中已经写入的至少一个数据块之前，所述方法还包括：在对多个所述预设数据节点完成存储扩容后，针对每个数据文件，重新复制该数据文件得到第二预设数量的所述文件副本，所述第一预设数量与所述第二预设数量的和等于该数据文件的原始数量；所述获取所述HDFS中已经写入的至少一个数据块包括：从所述第二预设数量的文件副本对应的数据块中获取至少一个所述数据块。

第二方面，提供一种数据存储的装置，所述装置包括：第一获取模块，用于在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取所述HDFS中每个磁盘当前时刻的磁盘性能参数；确定模块，用于根据所述磁盘性能参数确定每个磁盘的存储优先级得分，并根据所述存储优先级得分从所述HDFS中的多个所述磁盘中确定目标磁盘；第二获取模块，用于获取所述HDFS中已经写入的至少一个数据块；数据存储模块，用于针对每个数据块，确定该数据块中的数据文件，在所述目标磁盘中未存储所述数据文件的情况下，将该数据块存储至所述目标磁盘，不同的磁盘存储不同的数据文件。

可选地，所述磁盘性能参数包括磁盘已占用吞吐量、磁盘最大吞吐量、磁盘吞吐量容许空间、磁盘已占用容量、磁盘最大容量以及磁盘容量容许空间，所述确定模块，用于针对每个所述磁盘，根据该磁盘的所述磁盘已占用吞吐量、所述磁盘最大吞吐量以及所述磁盘吞吐量容许空间确定该磁盘的磁盘吞吐余量占用比，并根据该磁盘的所述磁盘已占用容量、所述磁盘最大容量以及所述磁盘容量容许空间确定该磁盘的磁盘容量余量占用比；根据所述磁盘吞吐余量占用比和所述磁盘容量余量占用比确定该磁盘的所述存储优先级得分。

可选地，所述确定模块，用于根据所述存储优先级得分生成采样带，所述采样带包括多个依次连接的预设分段，所述预设分段与所述磁盘一一对应，每个所述预设分段的长度为对应磁盘的存储优先级得分，并且不同的所述预设分段对应多个不同的预设采样点；生成[0,N]区间内的随机数，所述N为所述预设采样点的个数，并且所述预设采样点个数远远大于所述HDFS中磁盘的个数；根据所述采样带和所述随机数从多个所述预设分段中确定目标分段，并将所述目标分段对应的磁盘作为所述目标磁盘。

可选地，所述确定模块，用于根据所述采样带，将多个所述预设分段中所述随机数对应的预设分段作为所述目标分段。

可选地，所述确定模块，用于根据所述预设采样点的个数和所述HDFS中所述磁盘的个数确定所述采样带中每个预设分段对应的平均采样点个数；以所述随机数为期望，以所述平均采样点个数的二分之一为方差建立高斯分布模型，并根据所述高斯分布模型和预设随机数生成模型从所述采样带中确定目标采样点集，所述目标采样点集包括多个连续的预设采样点；从所述目标采样点集中随机选取任一预设采样点为目标采样点，并将所述目标采样点对应的预设分段作为所述目标分段。

可选地，所述装置还包括：标记模块，用于对所述目标磁盘进行标记，以便标记所述目标磁盘中存储有该数据块。

可选地，所述装置还包括：副本删除模块，用于在对多个所述预设数据节点增加磁盘时，将所述HDFS中存储的每个数据文件的文件副本的数量降低至第一预设数量。

可选地，所述装置还包括：数据复制模块，用于在对多个所述预设数据节点完成存储扩容后，针对每个数据文件，重新复制该数据文件得到第二预设数量的所述文件副本，所述第一预设数量与所述第二预设数量的和等于该数据文件的原始数量；所述第二获取模块，用于从所述第二预设数量的文件副本对应的数据块中获取至少一个所述数据块。

第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面所述方法的步骤。

第四方面，提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所述方法的步骤。

通过上述技术方案，可以在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取所述HDFS中每个磁盘当前时刻的磁盘性能参数；然后根据所述磁盘性能参数确定每个磁盘的存储优先级得分，并根据所述存储优先级得分从所述HDFS中的多个所述磁盘中确定目标磁盘；之后可以获取所述HDFS中已经写入的至少一个数据块；针对每个数据块，确定该数据块中的数据文件，在所述目标磁盘中未存储所述数据文件的情况下，将该数据块存储至所述目标磁盘，不同的磁盘存储不同的数据文件，这样，可以将分布式文件系统中已经写入的数据块在存储扩容后的新磁盘和旧磁盘中进行均衡存储，避免了新写入的数据只能存储至新磁盘，旧数据只能存储在旧磁盘所带来的节点内各个磁盘上的数据不均衡的问题，提升了系统性能。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的第一种数据存储方法的流程图；

图2是根据一示例性实施例示出的第二种数据存储方法的流程图；

图3是根据一示例性实施例示出的一种确定目标磁盘的方法的流程图；

图4a是根据一示例性实施例示出的第一种采样带的示意图；

图4b是根据一示例性实施例示出的第二种采样带的示意图；

图5是根据一示例性实施例示出的第一种数据存储装置的框图；

图6是根据一示例性实施例示出的第二种数据存储装置的框图；

图7是根据一示例性实施例示出的第三种数据存储装置的框图；

图8是根据一示例性实施例示出的第四种数据存储装置的框图；

图9是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

首先，对本公开的应用场景进行介绍，本公开主要应用于在分布式文件系统进行存储扩容后的数据存储场景中，通常情况下，可以利用Hadoop架构实现对海量数据的分布式存储，来支持历史数据归档和在线历史数据查询等功能。Hadoop上所有的数据都存储在HDFS上。海量的医疗大数据在面对HDFS存储空间不足、节点扩展受限的情况下，可以通过在分布式文件系统中的数据节点增加磁盘的方式进行存储扩容，但这会使得每个节点内部同时存在有数据的旧磁盘和新增未存放数据的新磁盘，节点内各个磁盘上的数据不均衡，从而影响系统性能，例如，旧数据的MR计算只能利用旧磁盘的I/O，新数据的写入和读取更多的使用新磁盘I/O；随着线上系统数据的快速增长，在资源有限，并且不影响业务的前提下，需要一种快速、高效的数据处理技术对HDFS进行存储扩容和数据存储。

为解决上述存在的问题，本公开提供一种数据存储的方法、装置、存储介质及电子设备，可以在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取该HDFS中每个磁盘当前时刻的磁盘性能参数；然后根据该磁盘性能参数确定每个磁盘的存储优先级得分，并根据该存储优先级得分从该HDFS中的多个该磁盘中确定目标磁盘；之后可以获取该HDFS中已经写入的至少一个数据块；针对每个数据块，确定该数据块中的数据文件，在该目标磁盘中未存储该数据文件的情况下，将该数据块存储至该目标磁盘，不同的磁盘存储不同的数据文件，这样，可以将分布式文件系统中已经写入的数据块在存储扩容后的新磁盘和旧磁盘中进行均衡存储，避免了新写入的数据只能存储至新磁盘，旧数据只能存储在旧磁盘所带来的节点内各个磁盘上的数据不均衡的问题，提升了系统性能。

下面结合附图，对本公开的具体实施方式进行详细说明。

图1是根据一示例性实施例上示出的一种数据存储方法的流程图，如图1所示，该方法包括以下步骤：

在步骤S101中，在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取该HDFS中每个磁盘当前时刻的磁盘性能参数。

在一种可能的应用场景中，Hadoop上所有的数据可以存储在HDFS上，海量的医疗大数据在面对HDFS存储空间不足、节点扩展受限的情况下，可以通过在多个预设数据节点中增加磁盘的方式进行存储扩容。

其中，该磁盘性能参数可以包括每个磁盘的磁盘已占用吞吐量、磁盘最大吞吐量、磁盘吞吐量容许空间、磁盘已占用容量、磁盘最大容量以及磁盘容量容许空间等参数。

在本步骤中，可以通过系统资源监测模块检测整个大数据平台中的存储资源情况，进而获取到每个磁盘当前时刻的该磁盘性能参数。

在步骤S102中，根据该磁盘性能参数确定每个磁盘的存储优先级得分，并根据该存储优先级得分从该HDFS中的多个该磁盘中确定目标磁盘。

在本公开中，为了避免进行存储扩容后新写入的数据只能存储在存储扩容的新磁盘、旧数据只能存储在旧磁盘的情况所造成的节点内部的磁盘上数据存储不均衡的问题，可以根据每个磁盘的磁盘性能参数确定每个磁盘的存储优先级得分，然后根据该存储优先级得分从HDFS中的全部磁盘(包括旧磁盘和存储扩容时增加的新磁盘)中确定该目标磁盘，以便将数据块中的数据文件存储至该目标磁盘。

在本步骤一种可能的实现方式中，可以针对每个该磁盘，根据该磁盘的该磁盘已占用吞吐量、该磁盘最大吞吐量以及该磁盘吞吐量容许空间确定该磁盘的磁盘吞吐余量占用比，并根据该磁盘的该磁盘已占用容量、该磁盘最大容量以及该磁盘容量容许空间确定该磁盘的磁盘容量余量占用比；然后根据该磁盘吞吐余量占用比和该磁盘容量余量占用比确定该磁盘的该存储优先级得分；从而根据每个磁盘的该存储优先级得分确定该目标磁盘。

在步骤S103中，获取该HDFS中已经写入的至少一个数据块。

在本公开中，在对多个该预设数据节点增加磁盘时，可以先将该HDFS中存储的每个数据文件的文件副本的数量降低至第一预设数量，然后在对多个该预设数据节点完成存储扩容后，针对每个数据文件，重新复制该数据文件得到第二预设数量的该文件副本，该第一预设数量与该第二预设数量的和等于该数据文件的原始数量，这样，在本步骤中，可以从该第二预设数量的文件副本对应的数据块中获取至少一个该数据块。

在步骤S104中，针对每个数据块，确定该数据块中的数据文件，在该目标磁盘中未存储该数据文件的情况下，将该数据块存储至该目标磁盘，不同的磁盘存储不同的数据文件。

考虑到分布式文件系统中的数据存储中，为保证数据的均衡存储，提升系统性能，通常情况下相同的数据块要进行分盘存储，一个数据块中可以存储至少一个数据文件，该相同的数据块是指存储的数据文件中存在至少一个相同文件的数据块。

在本步骤中，可以基于数据块中存储的数据文件确定该目标磁盘中是否存储有该数据块中的数据文件，在确定该目标磁盘中未存储该数据文件的情况下，可以将该数据块存储至该目标磁盘，从而达到分盘存储的目的。

采用上述方法，可以将分布式文件系统中已经写入的数据块在存储扩容后的新磁盘和旧磁盘中进行均衡存储，避免了新写入的数据只能存储至新磁盘，旧数据只能存储在旧磁盘所带来的节点内各个磁盘上的数据不均衡的问题，提升了系统性能。

图2是根据一示例性实施例示出的一种数据存储方法的流程图，如图2所示，该方法包括以下步骤：

在步骤S201中，在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取该HDFS中每个磁盘当前时刻的磁盘性能参数。

需要说明的是，该磁盘性能参数一方面可以用于为智能调度模块提供数据依据，智能调度模块通过系统资源检测模块输入的该磁盘性能参数，结合调度算法，实现存储资源调度；另一方面，该磁盘性能参数也可以在监控系统进行存储，从而为系统运维人员提供数据支持。

在步骤S202中，根据该磁盘性能参数确定每个磁盘的存储优先级得分，并根据该存储优先级得分从该HDFS中的多个该磁盘中确定目标磁盘。

在本步骤一种可能的实现方式中，可以针对每个该磁盘，根据该磁盘的该磁盘已占用吞吐量、该磁盘最大吞吐量以及该磁盘吞吐量容许空间确定该磁盘的磁盘吞吐余量占用比，并根据该磁盘的该磁盘已占用容量、该磁盘最大容量以及该磁盘容量容许空间确定该磁盘的磁盘容量余量占用比；然后根据该磁盘吞吐余量占用比和该磁盘容量余量占用比确定该磁盘的存储优先级得分，从而根据每个磁盘的该存储优先级得分确定该目标磁盘。

下面以示例的方式具体说明如何确定每个磁盘的该存储优先级得分。

示例地，通常情况下，影响磁盘性能的参数主要是磁盘吞吐量和磁盘容量，假设磁盘A(任一磁盘)的磁盘最大吞吐量和磁盘最大容量分别为T_max和M_max，磁盘A的磁盘吞吐量容许空间和磁盘容量容许空间分别为T_a和M_a，当前时刻磁盘A的磁盘已占用吞吐量和磁盘已占用容量分别为T_c和M_c，其中，容许空间是指磁盘中不能被占用的磁盘吞吐量或者磁盘容量，并且该容许空间可以根据实际需求预先设置，例如，T_a可以取0.1T_max，M_a可以取0.2M_max或直接取若干个数据块大小的值。

这样，可以按照以下公式分别计算磁盘A当前时刻的磁盘吞吐余量占用比和磁盘容量余量占用比：

其中，T表示磁盘吞吐余量占用比，M表示磁盘容量余量占用比。

之后，可以根据磁盘A的磁盘吞吐余量占用比T和磁盘容量余量占用比M按照下述公式计算磁盘A的存储优先级得分：

S＝TM(αT+(1-α)M)

其中，S表示磁盘A的存储优先级得分，α为磁盘吞吐量对应的预设权重，(1-α)为磁盘容量对应的预设权重，例如，α可以设置为0.5。

基于上述的方法可以计算得到分布式文件系统HDFS中每个磁盘分别对应的该存储优先级得分，例如，可以表示为[S₁，S₂,......S_n]，其中，n为HDFS中现有磁盘的数量，上述示例仅是举例说明，本公开对此不作限定。

图3是根据一示例性实施例示出的一种确定目标磁盘的方法流程图，在基于上述的方法确定出每个磁盘的该存储优先级得分后，可以按照图3所示的步骤从全部磁盘中确定该目标磁盘，如图3所示，该方法包括以下步骤：

在步骤S2021中，根据该存储优先级得分生成采样带。

其中，该采样带包括多个依次连接的预设分段，该预设分段与该磁盘一一对应，每个该预设分段的长度为对应磁盘的存储优先级得分，并且不同的该预设分段对应多个不同的预设采样点。

示例地，图4a是根据一示例性实施例示出的一种采样带示意图，如图4a所示，可以将n个磁盘的该存储优先级得分组成一条采样带，该采样带上的预设分段从左到右分别对应S₁，S₂,......S_n，在该采样带上设置N个该预设采样点，并且N＞＞n，即采样带上预设采样点个数远远大于该HDFS中磁盘的个数。

在一种可能的实现方式中，为提高数据存储的效率，可以对存储数据文件的多个数据块采用并行存储的方式进行数据存储，此种场景下，每存储一个数据块，即可在图4a所示的采样带上进行一次随机采样，考虑到相同数据文件(或者相同的数据块)要进行分盘存储的原则，可以按照下述的步骤在该采样带中进行采样。

在步骤S2022中，生成[0,N]区间内的随机数，该N为该预设采样点的个数，并且该预设采样点个数远远大于该HDFS中磁盘的个数。

其中，该预设采样点的数量通常可以设置为该HDFS中磁盘的个数的预设倍数，例如，假设该HDFS中磁盘的个数为n，该预设采样点的数量N可以为100n，此处仅是举例说明，本公开对此不作限定。

在步骤S2023中，根据该采样带和该随机数从多个该预设分段中确定目标分段，并将该目标分段对应的磁盘作为该目标磁盘。

在本步骤中，可以通过以下两种方式中的任一方式根据该采样带和该随机数从多个该预设分段中确定目标分段。

方式一、根据该采样带，将多个该预设分段中该随机数对应的预设分段作为该目标分段。

示例地，假设生成[0,N]区间内的随机数为6，如图4a所示，随机数6对应的预设分段为S₂(可以基于随机数6对应的预设采样点在该采样带上向上做垂线，与该垂线相交的即为S₂对应的预设分段)，那么该目标分段即为S₂对应的预设分段，此处仅是举例说明，本公开对此不作限定。

为进一步提高磁盘选取的准确性，可以采用方式二在该采样带上确定该目标分段。

方式二、根据该预设采样点的个数和该HDFS中该磁盘的个数确定该采样带中每个预设分段对应的平均采样点个数；以该随机数为期望，以该平均采样点个数的二分之一为方差建立高斯分布模型，并根据该高斯分布模型和预设随机数生成模型从该采样带中确定目标采样点集，该目标采样点集包括多个连续的预设采样点；从该目标采样点集中随机选取任一预设采样点为目标采样点，并将该目标采样点对应的预设分段作为该目标分段。

其中，该预设随机数生成模型可以为ziggurat算法模型，该预设随机数生成模型可以用于在采样带上根据高斯分布以该随机数为中心获取随机数附近的采样点集合。

示例地，可以按照以下公式生成该高斯分布模型：

其中，期望μ＝m，m为随机数，方差

表示该平均采样点个数，并且

N为该预设采样点的个数，n为该HDFS中可用磁盘的个数。

这样，可以根据高斯分布在采样带上选取M个预设采样点，组成该目标采样点集，目标采样点集的选取方法可采用ziggurat算法，最终选取的该目标采样点集如图4b所示，图4b中黑色实心点对应的x轴坐标为选取的预设采样点，通过上述方式可以获取随机数m(如图4b所示，m＝6)附近的目标采样点集，之后可以在该目标采样点集中随机选取一预设采样点作为该目标采样点，并将该目标采样点对应的预设分段作为该目标分段，上述示例仅是举例说明，本公开对此不作限定。

在基于上述的方法确定出该目标磁盘后，即可将待存储的数据块存储至该目标磁盘。

考虑到实际的大数据平台中，出于数据安全的考虑，每一份数据文件均对应存储有该数据文件的原始文件以及预设数量的文件副本，例如，一般情况下，每一数据文件的文件副本默认为3份，但在存储扩容后，若同时迁移3份文件副本，不仅会对系统性能影响较大，也会存在数据存储不均衡、数据偏移等问题，并且由于数据迁移过程中无法被使用，因此若同时迁移每一数据文件的全部文件副本，也会影响正常业务需求中数据的读取或者写入，鉴于此，本公开可以采用如步骤S203-S206所述的数据复制策略，先将每一数据文件的文件副本的数量降低至第一预设数量，当完成存储扩容后，处于数据的安全考虑，再重新复制该数据文件得到第二预设数量的文件副本，其中第一预设数量与第二预设数量的和等于该数据文件的原始数量，最后通过智能调度策略将新复制的文件副本加载存储至确定出的目标磁盘中，实现磁盘内数据均衡存储的同时，也可以实现在大数据平台不停机的情况下，进行动态的存储扩容，充分合理使用存储资源，提高大数据平台的存储性能。

在步骤S203中，在对多个该预设数据节点增加磁盘时，将该HDFS中存储的每个数据文件的文件副本的数量降低至第一预设数量。

在步骤S204中，在对多个该预设数据节点完成存储扩容后，针对每个数据文件，重新复制该数据文件得到第二预设数量的该文件副本，该第一预设数量与该第二预设数量的和等于该数据文件的原始数量。

示例地，假设每一数据文件对应3份(即原始数量)文件副本，通过执行步骤S203可以将原来的3份文件副本降为1份(即第一预设数量)，在完成存储扩容后，通过执行步骤S204重新复制该数据文件得到2份(即第二预设数量)新的文件副本，上述示例仅是举例说明，本公开对此不作限定。

在步骤S205中，从该第二预设数量的文件副本对应的数据块中获取至少一个该数据块。

在步骤S206中，针对每个数据块，确定该数据块中的数据文件，在该目标磁盘中未存储该数据文件的情况下，将该数据块存储至该目标磁盘，不同的磁盘存储不同的数据文件。

考虑到分布式文件系统中的数据存储中，为保证数据的均衡存储，提升系统性能，通常情况下相同的数据块要进行分盘存储，一个数据块中可以存储至少一个数据文件，该相同的数据块是指存储的数据文件中存在至少一个相同文件的数据块，例如，假设有数据文件A、B和C三个数据文件，其中A1，A2为数据文件A的两个文件副本，B1，B2为数据文件B的两个文件副本，C1，C2为数据文件C的两个文件副本，其中，数据块1中存储有A数据文件，数据块2中存储有A1、B两个数据文件，数据块3中存储有B1、C两个数据文件，此时，由于A与A1为相同的数据文件，因此，数据块1和数据块2为相同的数据块，B与B1为相同的数据文件，因此，数据块2和数据块3为相同的数据块，数据块1和数据块3为不同的数据块，此处仅是举例说明，本公开对此不作限定。

因此，在本步骤中，可以基于数据块中存储的数据文件确定该目标磁盘中是否存储有该数据块中的数据文件，在确定该目标磁盘中未存储该数据文件的情况下，可以将该数据块存储至该目标磁盘，从而达到分盘存储的目的。

另外，在本步骤另一种可能的实现方式中，也可以获取该目标磁盘的标记信息，该标记信息用于指示该目标磁盘中已存储的数据块都有哪些，这样，在根据该标记信息确定该目标磁盘未存储该数据块，并且也未存储与该数据块相同的数据块的情况下，可以将该数据块存储至该目标磁盘。

在步骤S207中，对该目标磁盘进行标记，以便标记该目标磁盘中存储有该数据块。

在一种可能的实现方式中，可以用该数据块的标识信息对该目标磁盘进行标记，或者采用其它的预设标记策略进行标记，本公开对具体标记形式不作限定。

另外，通过将每一数据文件的文件副本的数量降低至第一预设数量，当完成存储扩容后，处于数据的安全考虑，再重新复制该数据文件得到第二预设数量的文件副本，其中第一预设数量与第二预设数量的和等于该数据文件的原始数量，最后通过智能调度策略将新复制的文件副本加载存储至确定出的目标磁盘中，实现磁盘内数据均衡存储的同时，也可以实现在大数据平台不停机的情况下，进行动态的存储扩容，充分合理使用存储资源，提高大数据平台的存储性能。

图5是根据一示例性实施例示出的一种数据存储装置的框图，如图5所示，该装置包括：

第一获取模块501，用于在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取该HDFS中每个磁盘当前时刻的磁盘性能参数；

确定模块502，用于根据该磁盘性能参数确定每个磁盘的存储优先级得分，并根据该存储优先级得分从该HDFS中的多个该磁盘中确定目标磁盘；

第二获取模块503，用于获取该HDFS中已经写入的至少一个数据块；

数据存储模块504，用于针对每个数据块，确定该数据块中的数据文件，在该目标磁盘中未存储该数据文件的情况下，将该数据块存储至该目标磁盘，不同的磁盘存储不同的数据文件。

可选地，该磁盘性能参数包括磁盘已占用吞吐量、磁盘最大吞吐量、磁盘吞吐量容许空间、磁盘已占用容量、磁盘最大容量以及磁盘容量容许空间，该确定模块502，用于针对每个该磁盘，根据该磁盘的该磁盘已占用吞吐量、该磁盘最大吞吐量以及该磁盘吞吐量容许空间确定该磁盘的磁盘吞吐余量占用比，并根据该磁盘的该磁盘已占用容量、该磁盘最大容量以及该磁盘容量容许空间确定该磁盘的磁盘容量余量占用比；根据该磁盘吞吐余量占用比和该磁盘容量余量占用比确定该磁盘的该存储优先级得分。

可选地，该确定模块502，用于根据该存储优先级得分生成采样带，该采样带包括多个依次连接的预设分段，该预设分段与该磁盘一一对应，每个该预设分段的长度为对应磁盘的存储优先级得分，并且不同的该预设分段对应多个不同的预设采样点；生成[0,N]区间内的随机数，该N为该预设采样点的个数，并且该预设采样点个数远远大于该HDFS中磁盘的个数；根据该采样带和该随机数从多个该预设分段中确定目标分段，并将该目标分段对应的磁盘作为该目标磁盘。

可选地，该确定模块502，用于根据该采样带，将多个该预设分段中该随机数对应的预设分段作为该目标分段。

可选地，该确定模块502，用于根据该预设采样点的个数和该HDFS中该磁盘的个数确定该采样带中每个预设分段对应的平均采样点个数；以该随机数为期望，以该平均采样点个数的二分之一为方差建立高斯分布模型，并根据该高斯分布模型和预设随机数生成模型从该采样带中确定目标采样点集，该目标采样点集包括多个连续的预设采样点；从该目标采样点集中随机选取任一预设采样点为目标采样点，并将该目标采样点对应的预设分段作为该目标分段。

可选地，图6是根据图5所示实施例示出的一种数据存储的装置的框图，如图6所示，该装置还包括：

标记模块505，用于对该目标磁盘进行标记，以便标记该目标磁盘中存储有该数据块。

可选地，图7是根据图5所示实施例示出的一种数据存储的装置的框图，如图7所示，该装置还包括：

副本删除模块506，用于在对多个该预设数据节点增加磁盘时，将该HDFS中存储的每个数据文件的文件副本的数量降低至第一预设数量。

可选地，图8是根据图7所示实施例示出的一种数据存储的装置的框图，如图8所示，该装置还包括：

数据复制模块507，用于在对多个该预设数据节点完成存储扩容后，针对每个数据文件，重新复制该数据文件得到第二预设数量的该文件副本，该第一预设数量与该第二预设数量的和等于该数据文件的原始数量；

该第二获取模块503，用于从该第二预设数量的文件副本对应的数据块中获取至少一个该数据块。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

采用上述装置，可以将分布式文件系统中已经写入的数据块在存储扩容后的新磁盘和旧磁盘中进行均衡存储，避免了新写入的数据只能存储至新磁盘，旧数据只能存储在旧磁盘所带来的节点内各个磁盘上的数据不均衡的问题，提升了系统性能。

图9是根据一示例性实施例示出的一种电子设备900的框图。如图9所示，该电子设备900可以包括：处理器901，存储器902。该电子设备900还可以包括多媒体组件903，输入/输出(I/O)接口904，以及通信组件905中的一者或多者。

其中，处理器901用于控制该电子设备900的整体操作，以完成上述的数据存储方法中的全部或部分步骤。存储器902用于存储各种类型的数据以支持在该电子设备900的操作，这些数据例如可以包括用于在该电子设备900上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件903可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器902或通过通信组件905发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口904为处理器901和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件905用于该电子设备900与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件905可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的数据存储方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的数据存储方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器902，上述程序指令可由电子设备900的处理器901执行以完成上述的数据存储方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种数据存储的方法，其特征在于，所述方法包括：

在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取所述HDFS中每个磁盘当前时刻的磁盘性能参数；

根据所述磁盘性能参数确定每个磁盘的存储优先级得分，并根据所述存储优先级得分从所述HDFS中的多个所述磁盘中确定目标磁盘；

获取所述HDFS中已经写入的至少一个数据块；

针对每个数据块，确定该数据块中的数据文件，在所述目标磁盘中未存储所述数据文件的情况下，将该数据块存储至所述目标磁盘，不同的磁盘存储不同的数据文件。

2.根据权利要求1所述的方法，其特征在于，所述磁盘性能参数包括磁盘已占用吞吐量、磁盘最大吞吐量、磁盘吞吐量容许空间、磁盘已占用容量、磁盘最大容量以及磁盘容量容许空间，所述根据所述磁盘性能参数确定每个磁盘的存储优先级得分包括：

针对每个所述磁盘，根据该磁盘的所述磁盘已占用吞吐量、所述磁盘最大吞吐量以及所述磁盘吞吐量容许空间确定该磁盘的磁盘吞吐余量占用比，并根据该磁盘的所述磁盘已占用容量、所述磁盘最大容量以及所述磁盘容量容许空间确定该磁盘的磁盘容量余量占用比；

根据所述磁盘吞吐余量占用比和所述磁盘容量余量占用比确定该磁盘的所述存储优先级得分。

3.根据权利要求2所述的方法，其特征在于，所述根据所述存储优先级得分从所述HDFS中的多个所述磁盘中确定目标磁盘包括：

根据所述存储优先级得分生成采样带，所述采样带包括多个依次连接的预设分段，所述预设分段与所述磁盘一一对应，每个所述预设分段的长度为对应磁盘的存储优先级得分，并且不同的所述预设分段对应多个不同的预设采样点；

生成[0,N]区间内的随机数，所述N为所述预设采样点的个数，并且所述预设采样点个数远远大于所述HDFS中磁盘的个数；

根据所述采样带和所述随机数从多个所述预设分段中确定目标分段，并将所述目标分段对应的磁盘作为所述目标磁盘。

4.根据权利要求3所述的方法，其特征在于，所述根据所述采样带和所述随机数从多个所述预设分段中确定目标分段包括：

根据所述采样带，将多个所述预设分段中所述随机数对应的预设分段作为所述目标分段。

5.根据权利要求3所述的方法，其特征在于，所述根据所述采样带和所述随机数从多个所述预设分段中确定目标分段包括：

根据所述预设采样点的个数和所述HDFS中所述磁盘的个数确定所述采样带中每个预设分段对应的平均采样点个数；

以所述随机数为期望，以所述平均采样点个数的二分之一为方差建立高斯分布模型，并根据所述高斯分布模型和预设随机数生成模型从所述采样带中确定目标采样点集，所述目标采样点集包括多个连续的预设采样点；

从所述目标采样点集中随机选取任一预设采样点为目标采样点，并将所述目标采样点对应的预设分段作为所述目标分段。

6.根据权利要求1所述的方法，其特征在于，在所述将该数据块存储至所述目标磁盘之后，所述方法还包括：

对所述目标磁盘进行标记，以便标记所述目标磁盘中存储有该数据块。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

在对多个所述预设数据节点增加磁盘时，将所述HDFS中存储的每个数据文件的文件副本的数量降低至第一预设数量。

8.根据权利要求7所述的方法，其特征在于，在所述获取所述HDFS中已经写入的至少一个数据块之前，所述方法还包括：

在对多个所述预设数据节点完成存储扩容后，针对每个数据文件，重新复制该数据文件得到第二预设数量的所述文件副本，所述第一预设数量与所述第二预设数量的和等于该数据文件的原始数量；

所述获取所述HDFS中已经写入的至少一个数据块包括：

从所述第二预设数量的文件副本对应的数据块中获取至少一个所述数据块。

9.一种数据存储的装置，其特征在于，所述装置包括：

第一获取模块，用于在对分布式文件系统HDFS中的多个预设数据节点增加磁盘后，获取所述HDFS中每个磁盘当前时刻的磁盘性能参数；

确定模块，用于根据所述磁盘性能参数确定每个磁盘的存储优先级得分，并根据所述存储优先级得分从所述HDFS中的多个所述磁盘中确定目标磁盘；

第二获取模块，用于获取所述HDFS中已经写入的至少一个数据块；

数据存储模块，用于针对每个数据块，确定该数据块中的数据文件，在所述目标磁盘中未存储所述数据文件的情况下，将该数据块存储至所述目标磁盘，不同的磁盘存储不同的数据文件。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

11.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-8中任一项所述方法的步骤。