CN109144791A

CN109144791A - 数据转存方法、装置和数据管理服务器

Info

Publication number: CN109144791A
Application number: CN201811165916.7A
Authority: CN
Inventors: 关海南
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-01-04
Anticipated expiration: 2038-09-30
Also published as: CN109144791B

Abstract

本发明提供了一种数据转存方法、装置和数据管理服务器，涉及大数据技术领域，其中，该方法包括：获取第一数据存储集群中数据的访问频率；根据访问频率确定数据是否需要转存；在确定需要转存的情况下，将数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群。本发明依据数据的访问频率确定数据的转存策略，能够在降低大数据存储成本的同时，更加合理地分布存储数据，保证高访问热度的数据能够被快速访问，从而提高了大部分用户的数据访问体验度。

Description

数据转存方法、装置和数据管理服务器

技术领域

本发明涉及大数据技术领域，尤其是涉及一种数据转存方法、装置和数据管理服务器。

背景技术

在大数据领域内，数据调度是一种基本需求。例如，在进行数据备份时，把数据从高级别的数据存储集群复制到低级别的数据存储集群，以防止数据误删。由于高级别的数据存储集群的存储成本较高，为了整体上降低数据存储成本，将部分数据从高级别的数据存储集群转存至低级别的数据存储集群。

相关方式中，根据数据的保存时间确定数据的转存策略。通常，数据新生成时往往存储在高级别的数据存储集群，由于高级别的数据存储集群空间有限且成本较高，如果某些数据存储时间较长，则会将这些数据转存至低级别的数据存储集群。但这种转存策略欠缺一定的合理性，具体而言，由于低级别的数据存储集群的访问速度较慢，如果将存储时间较长、但用户经常访问的数据转存至较低级别的数据存储集群，易导致数据访问速度很慢，从而降低了用户的数据访问体验度。

发明内容

有鉴于此，本发明的目的在于提供一种数据转存方法、装置和数据管理服务器，以在降低大数据存储成本的同时，更加合理地分布存储数据，从而提高大部分用户的数据访问体验度。

第一方面，本发明实施例提供了一种数据转存方法，该方法应用于数据管理服务器；该方法包括：获取第一数据存储集群中数据的访问频率；根据访问频率确定数据是否需要转存；在确定需要转存的情况下，将数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群。

在本发明较佳的实施例中，上述根据访问频率确定数据是否需要转存，包括：判断访问频率是否在访问频率范围内；其中，访问频率范围与第一数据存储集群的级别对应；在访问频率不在访问频率范围内的情况下，确定数据需要转存。

在本发明较佳的实施例中，上述将数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群，包括：在访问频率低于访问频率范围的下限值的情况下，将数据转存至级别低于第一数据存储集群的级别的数据存储集群中；在访问频率高于访问频率范围的上限值的情况下，将数据转存至级别高于第一数据存储集群的级别的数据存储集群中。

在本发明较佳的实施例中，上述在将数据转存至低于第一数据存储集群的级别的数据存储集群中之前，方法还包括：在数据为原始数据的情况下，对数据进行压缩处理，得到压缩后的数据；在将数据转存至高于第一数据存储集群的级别的数据存储集群中之前，方法包括：在数据为压缩数据的情况下，对数据进行解压处理，得到解压后的数据。

在本发明较佳的实施例中，上述如果数据中包含多个文件，将数据转存至级别低于第一数据存储集群的级别的数据存储集群中之前，方法还包括：判断数据的多个文件中是否存在文件数据量小于预设的数据量阈值的文件；在存在的情况下，对文件数据量小于数据量阈值的文件进行合并处理，得到处理后的数据。

在本发明较佳的实施例中，上述将数据转存至级别低于第一数据存储集群的级别的数据存储集群中，包括：确定数据的待转存的数据存储集群的级别；从预设的数据血缘关系中查找数据是否存在依赖数据；在存在依赖数据的情况下，判断依赖数据所处的数据存储集群的级别是否低于或等于待转存的数据存储集群的级别；在确定依赖数据所处的数据存储集群的级别低于或等于第一数据存储集群的级别的情况下，将数据转存至待转存的数据存储集群中。

在本发明较佳的实施例中，上述将数据转存至级别高于第一数据存储集群的级别的数据存储集群中，包括：确定数据的待转存的数据存储集群的级别；从预设的数据血缘关系中查找数据是否存在被依赖数据；在存在依赖数据的情况下，判断被依赖数据所处的数据存储集群的级别是否高于或等于数据待转存的数据存储集群的级别；在被依赖数据所处的数据存储集群的级别高于或等于数据待转存的数据存储集群的级别的情况下，将数据转存至待转存的数据存储集群中。

在本发明较佳的实施例中，上述在将数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群之后，方法还包括：获取数据转存后的存储路径；根据存储路径，更新元数据中数据的存储目录。

第二方面，本发明实施例提供了一种数据转存装置，该装置设置于数据管理服务器；装置包括：频率获取模块，用于获取第一数据存储集群中数据的访问频率；确定模块，用于根据访问频率确定数据是否需要转存；转存模块，用于在确定需要转存的情况下，将数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群。

在本发明较佳的实施例中，上述确定模块还用于：判断访问频率是否在访问频率范围内；其中，访问频率范围与第一数据存储集群的级别对应；在访问频率不在访问频率范围内的情况下，确定数据需要转存。

在本发明较佳的实施例中，上述转存模块还用于：在访问频率低于访问频率范围的下限值的情况下，将数据转存至级别低于第一数据存储集群的级别的数据存储集群中；在访问频率高于访问频率范围的上限值的情况下，将数据转存至级别高于第一数据存储集群的级别的数据存储集群中。

在本发明较佳的实施例中，上述装置还包括：压缩模块，用于在数据为原始数据的情况下，对数据进行压缩处理，得到压缩后的数据；和/或，解压模块，用于在数据为压缩数据的情况下，对数据进行解压处理，得到解压后的数据。

在本发明较佳的实施例中，上述如果数据中包含多个文件，装置还包括：判断模块，用于判断数据的多个文件中是否存在文件数据量小于预设的数据量阈值的文件；合并模块，用于在存在的情况下，对文件数据量小于数据量阈值的文件进行合并处理，得到处理后的数据。

在本发明较佳的实施例中，上述转存模块还用于：确定数据的待转存的数据存储集群的级别；从预设的数据血缘关系中查找数据是否存在依赖数据；在存在依赖数据的情况下，判断依赖数据所处的数据存储集群的级别是否低于或等于待转存的数据存储集群的级别；在确定依赖数据所处的数据存储集群的级别低于或等于第一数据存储集群的级别的情况下，将数据转存至待转存的数据存储集群中。

在本发明较佳的实施例中，上述转存模块还用于：确定数据的待转存的数据存储集群的级别；从预设的数据血缘关系中查找数据是否存在被依赖数据；在存在依赖数据的情况下，判断被依赖数据所处的数据存储集群的级别是否高于或等于数据待转存的数据存储集群的级别；在被依赖数据所处的数据存储集群的级别高于或等于数据待转存的数据存储集群的级别的情况下，将数据转存至待转存的数据存储集群中。

在本发明较佳的实施例中，上述装置还包括：路径获取模块，用于获取数据转存后的存储路径；目录更新模块，用于根据存储路径，更新元数据中数据的存储目录。

第三方面，本发明实施例提供了一种数据管理服务器，包括处理器和机器可读存储介质，机器可读存储介质存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述数据转存方法。

第四方面，本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述数据转存方法。

本发明实施例带来了以下有益效果：

本发明实施例提供的数据转存方法、装置和数据管理服务器，获取到第一数据存储集群中数据的访问频率后，根据该访问频率确定数据是否需要转存；在确定需要转存的情况下，将该数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群。该方式依据数据的访问频率确定数据的转存策略，能够在降低大数据存储成本的同时，更加合理地分布存储数据，高访问热度的数据能够被快速访问，从而提高了大部分用户的数据访问体验度。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的大数据存储系统的结构示意图；

图2为本发明实施例提供的一种数据转存方法的流程图；

图3为本发明实施例提供的另一种数据转存方法的流程图；

图4为本发明实施例提供的另一种数据转存方法的流程图；

图5为本发明实施例提供的另一种数据转存方法的流程图；

图6为本发明实施例提供的数据转存至较低级别的数据存储集群时，数据转存方式受数据血缘关系的影响示意图；

图7为本发明实施例提供的数据转存至较高级别的数据存储集群时，数据转存方式受数据血缘关系的影响示意图；

图8为本发明实施例提供的上述数据转存方法的整体流程架构图；

图9为本发明实施例提供的一种数据转存装置的结构示意图；

图10为本发明实施例提供的一种数据管理服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，下面首先描述一种大数据存储系统，如图1所示，作为本实施例的应用场景。大数据存储系统中，数据管理服务器通常连接有多种级别的数据存储集群，图1中以三种级别的数据存储集群为例。数据管理服务器用于对所连接的各个级别的数据存储集群中存储的数据进行管理、调度、访问等。数据存储集群具体可以为hadoop大数据集群或对象存储集群，其中的hadoop是一种分布式系统基础架构，该数据存储集群也可以为其他架构的存储集群。

通常，数据存储集群的级别越高，存储成本也就越高，其访问速度等性能也就越好；以上述图1中三种级别的数据存储集群为例，高级别的数据存储集群具体可以为高成本hadoop集群或高性能hadoop集群，中级别的数据存储集群具体可以为低成本的hadoop集群或低性能hadoop集群，而低级别的数据存储集群具体可以为对象存储集群。因而，将数据从高级别的数据存储集群转存到低级别的数据存储集群的过程，也可以理解为数据从热存储集群转存至冷存储集群的过程。

在相关方式中，数据在新生成时通常在高级别的数据存储集群，数据管理服务器会记录该数据的生成时间。数据管理服务器会定时查看高级别的数据存储集群中各个数据的生成时间与当前时间的时间间隔，该时间间隔即为该数据的存储时间；如果该数据在高级别的数据存储集群存储时间到达一定的时间阈值时，则会将该数据转存至中级别的数据存储集群或低级别的数据存储集群中。同样地，数据管理服务器还会定时查看中级别的数据存储集群中各个数据的存储时间，当数据的存储时间较长时，也会将该数据转存至低级别的数据存储集群中。

上述这种转存策略可以在整体上降低存储成本，但是欠缺合理性；对于存储时间较长、但用户经常访问的数据，当到达时间阈值后依然转存至中级别的数据存储集群或低级别的数据存储集群，易导致这些数据访问速度很慢，从而降低了用户的数据访问体验度。

基于上述问题，本发明实施例提供了一种数据转存方法、装置和数据管理服务器；该技术可以应用于大数据存储、分布式数据存储中；下面通过实施例进行描述。

首先，参见图2所示的一种数据转存方法的流程图；该方法应用于数据管理服务器；该数据管理服务器通常连接有多种级别的数据存储集群；该方法包括如下步骤：

步骤S202，获取第一数据存储集群中数据的访问频率；

通常，用户向大数据存储系统获取数据时，需要通过用户终端发送数据获取指令；该指令中包含数据标识，如数据名称等；数据管理服务器接收到该指令后，根据数据标识查询该数据的存储路径，将该存储路径返回至用户终端，用户终端在根据该存储路径到相应的数据存储集群中查找该数据。

由上述描述的过程可知，大数据存储系统可以根据获取指令中的数据标识记录各个数据的被访问次数，进而统计该数据的访问频率，因而可以通过查询第一数据存储集群对应的对各个数据的统计结果，得到数据的访问频率。该访问频率可以为设定时间段内的被访问次数综合，例如，某一数据一天时间内被访问一万次，则该数据的访问频率记为一万。数据的访问频率也可以理解为数据的访问热度。

步骤S204，根据该访问频率，确定上述数据是否需要转存；

对于存储在较高级别的数据存储集群中的数据，如果该数据的访问频率较低，说明数据的访问热度较低，仅有较少用户会访问该数据，此时则无需占用较高级别的数据存储集群的存储空间，需要将数据转存至较低数据存储集群；由于该数据访问频率较低，数据转存后，可能仅有少量用户感觉到数据的访问速度变慢，对用户的整体体验影响不大。

对于存储在较低级别的数据存储集群中的数据，如果数据的访问频率较高，说明数据的访问热度较高，大量用户会访问该数据，此时则需要将数据转存至较高数据存储集群；由于该数据访问频率较高，数据转存后，会有大量用户感觉到数据的访问速度变快了，对用户的整体体验具有较为明显的改善。

在上述步骤的其中一种实现方式中，每个级别的数据存储集群可以设置一个访问频率范围，将数据的访问频率与各个级别的数据存储集群对应的访问频率范围作比对，访问频率属于哪个访问频率范围，即将该数据转存至对应的数据存储集群中。在另外一种实现方式中，将数据的访问频率与该数据的历史访问频率作差值运算，如果运算结果为正值，且高于第一结果阈值，说明该数据的访问频率有明显提高，此时将数据转存至较高级别的数据存储集群中；如果运算结果为负值，且低于第二结果阈值，说明该数据的访问频率有明显下降，此时将数据转存至较低级别的数据存储集群中。

步骤S206，在确定需要转存的情况下，将上述数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群。

由于数据在转存过程中也需要耗费一定的计算资源，因而在转存开始之前可以由数据管理服务器统一分配用于转存的资源，该资源包括CPU、内存等，该资源用于具体执行转存任务，以便合理控制转存数据耗费的计算资源。

本发明实施例提供的数据转存方法，获取到第一数据存储集群中数据的访问频率后，根据该访问频率确定数据是否需要转存；在确定需要转存的情况下，将该数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群。该方式依据数据的访问频率确定数据的转存策略，能够在降低大数据存储成本的同时，更加合理地分布存储数据，高访问热度的数据能够被快速访问，从而提高了大部分用户的数据访问体验度。

本发明实施例还提供另一种数据转存方法，该方法在上述实施例所述方法的基础上实现；本实施例中，进一步具体说明监控数据的访问频率的方式、确定数据是否需要转存的方式以及数据的转存方式；如图3所示，该方法包括如下步骤：

步骤S302，当数据被访问时，更新数据的访问记录；

数据每被访问一次，即可生成一条该数据的访问记录；该访问记录中可以包含访问该数据的用户IP地址、访问时间等参数。

步骤S304，根据访问记录，统计预设时间段内数据的被访问次数，将统计结果作为数据的访问频率。

在数据的访问记录中，可以设置一个与该数据对应的字段，该字段用于存储该数据在预设时间段内的被访问次数，例如，该预设时间段可以为数个小时、一天等；在预设时间段内，该数据每被访问一次，即生成一条访问记录，该字段中的值加1；当预设时间段到达后，该字段中的数据可以被保存，同时该字段清零。

步骤S306，判断上述访问频率是否在访问频率范围内；该访问频率范围与上述第一数据存储集群的级别相对应；如果是，结束；如果否，执行步骤S308。

在实际实现时，可以预先设置每个级别的数据存储集群对应的访问频率范围，下述表1为其中一个示例。

表1

例如，如果数据当前所处的第一数据存储集群的级别为高级，且该数据的访问频率为8000次/天，说明该数据的访问频率(8000次/天)不满足高级的数据存储集群对应的访问频率范围(大于或等于1万次/天)，此时该数据需要转存至较为低级的数据存储集群中。

再如，如果数据当前所处的第一数据存储集群的级别为低级，该数据的访问频率为8000次/天，说明该数据的访问频率(8000次/天)不满足低级的数据存储集群对应的访问频率范围(小于5000次/天)，此时该数据需要转存至较为高级的数据存储集群中。

步骤S308，确定上述数据需要转存。

步骤S310，判断数据的访问频率与上述访问频率范围的关系；如果数据的访问频率低于该访问频率范围的下限值，执行步骤S312；如果数据的访问频率高于该访问频率范围的上限值，执行步骤S314；

步骤S312，将数据转存至级别低于上述第一数据存储集群的级别的数据存储集群中；

步骤S314，将数据转存至级别高于所述第一数据存储集群的级别的数据存储集群中。

如上文中所述，高级别的数据存储集群具体可以为高成本hadoop集群或高性能hadoop集群，中级别的数据存储集群具体可以为低成本的hadoop集群或低性能hadoop集群，而低级别的数据存储集群具体可以为对象存储集群。可以理解，高级别的数据存储集群的级别高于中级别的数据存储集群，中级别的数据存储集群的级别高于低级别的数据存储集群。

继续以上述表1为例进行说明，如果该数据当前所处的第一数据存储集群的级别为中级，该数据的访问频率为12000次/天，说明数据的访问频率(12000次/天)高于中级的数据存储集群对应的访问频率范围(大于或等于5000次/天，且小于1万次/天)，此时该数据需要转移至中级的数据存储集群中。如果该数据当前所处的第一数据存储集群的级别为中级，该数据的访问频率为4000次/天，说明数据的访问频率(4000次/天)低于中级的数据存储集群对应的访问频率范围(大于或等于5000次/天，且小于1万次/天)，此时该数据需要转移至低级的数据存储集群中。

上述方式中，根据数据的访问频率以及各个级别的数据存储集群对应的访问频率范围确定数据的转存策略，不仅可以从高级别的数据存储集群转存至低级别的数据存储集群，也可以从低级别的数据存储集群转存至高级别的数据存储集群；该方式能够在降低大数据存储成本的同时，更加合理地分布存储数据，并且为双向转存，转存策略更加灵活，从而提高了大部分用户的数据访问体验度，保证了数据存储系统的大数据计算性能，满足用户的SLA(Service-Level Agreement，服务等级协议)需求。

本发明实施例还提供另一种数据转存方法，该方法在上述实施例所述方法的基础上实现；本实施例中，数据进行转存之前，对该数据进行进一步的处理，如压缩、解压、小文件合并等，从而使数据与转存后的数据存储集群更加匹配，进一步优化数据存储系统的整体性能。如图4所示，该方法包括如下步骤：

步骤S402，当数据被访问时，更新数据的访问记录；

步骤S404，根据访问记录，统计预设时间段内数据的被访问次数，将统计结果作为数据的访问频率。

步骤S406，判断数据的访问频率是否在访问频率范围内；该访问频率范围与上述第一数据存储集群的级别相对应；如果是，结束；如果否，执行步骤S408。

步骤S408，确定上述数据需要转存。

步骤S410，判断数据的访问频率与上述访问频率范围的关系；如果数据的访问频率低于该访问频率范围的下限值，执行步骤S412；如果数据的访问频率高于该访问频率范围的上限值，执行步骤S424；

步骤S412，判断数据中是否包含多个文件，如果是，执行步骤S414；如果否，执行步骤S418；

用户在发送数据获取指令时，该指令中携带的数据标识可能代表具有该数据标识的多个文件，或者该数据标识为路径，该路径下保存了多个文件，此时，上述数据中均可能包含多个文件；具体可以从数据中识别文件名或文件头，如果文件名或文件头的数量多于一个，则可以确定该数据中包含多个文件。

步骤S414，判断数据的多个文件中是否存在文件数据量小于预设的数据量阈值的文件；如果是，执行步骤S416；如果否，执行步骤S418；

具体可以通过预设的接口函数计算每个文件的文件数据量，通常，需要首先识别文件的文件头和文件尾，计算文件头与文件尾的字节偏移量，该字节偏移量即为该文件的文件数据量。在另一种方式中，数据保存至当前的数据存储集群后，集群中的监控节点就计算并保存该数据中各个文件的文件数据量，在上述步骤S414，可以从监控节点中直接获取各个文件的文件数据量即可。

上述数据量阈值可以预先设定，例如，128M、500M等，如果文件数据量小于预设的数据量阈值，可以确定该文件为小文件，如果数据存储系统中小文件过多，尤其是对于hadoop集群而言，过多的小文件会明显影响集群的存储性能，因此需要对小文件进行合并处理，具体描述如下。

步骤S416，对文件数据量小于数据量阈值的文件进行合并处理，得到处理后的数据。

上述对文件的合并处理过程，可以通过命令提示符或相关的批处理工具实现。如果数据中，小文件为同类型的文件，则将各个小文件中的数据进行合并，保留其中一个文件头即可，合并后的文件类型与原类型相同。如果数据中，小文件为多种类型的文件，则将各个小文件中的数据进行合并后，同样将各个小文件中的数据进行合并，保留其中一个文件头，但合并后的文件类型可以为原多种类型中的一种类型。

步骤S418，判断上述数据是否为原始数据；如果是，执行步骤S420；如果否，执行步骤S422；

步骤S420，对数据进行压缩处理，得到压缩后的数据；

可以通过多种压缩算法对数据进行压缩，例如，霍夫曼编码、香农编码等。当数据转存至较低级的数据存储集群中时，通过对数据进行压缩，可以进一步节约数据的存储空间，降低数据存储成本。

上述对数据中小文件的合并和压缩处理的顺序可以互换，即步骤S412-S414，和步骤S418-S420之间的顺序可以互换。另外，如果数据从高级的数据存储集群转存至中级的数据存数集群时进行了数据压缩处理，则该数据从中级的数据存储集群转存至低级的数据存数集群时通常就不再进行数据压缩处理，即数据压缩一次即可，以避免数据反复压缩造成的数据访问速度特别慢的问题。

步骤S422，将数据转存至级别低于数据当前所处的第一数据存储集群的级别的数据存储集群中；结束。

步骤S424，判断上述数据是否为压缩数据；如果是，执行步骤S426；如果否，执行步骤S428；

如果数据需要转存至较高级别的数据存储集群中，说明该数据的访问频率较高，为了用户数据访问的体验度，需要对压缩数据进行解压，避免数据被访问时临时解压造成的数据访问速度降低的问题。

步骤S426，对数据进行解压处理，得到解压后的数据。

在实际实现时，具体可以通过该数据压缩时使用的压缩算法的逆运算对数据进行解压处理。

步骤S428，将数据转存至级别高于数据当前所处的第一数据存储集群的级别的数据存储集群中。

上述方式中，根据数据的访问频率以及各个级别的数据存储集群对应的访问频率范围确定数据的转存策略，在转存之前对数据进行小文件合并、压缩、解压等处理，可以进一步降低大数据存储成本，使数据存储分布更加合理，数据格式与各个级别的数据存储集群相匹配，从而提高了大部分用户的数据访问体验度。

为了进一步优化数据存储结构，本发明实施例还提供另一种数据转存方法，该方法在上述实施例所述方法的基础上实现；数据进行转存之前，除了可以对该数据进行压缩、解压、小文件合并等处理以外，还可以基于数据之间的血缘关系对数据进行转存。如图5所示，该方法包括如下步骤：

步骤S502，当数据被访问时，更新数据的访问记录；

步骤S504，根据访问记录，统计预设时间段内数据的被访问次数，将统计结果作为数据的访问频率。

步骤S506，判断数据的访问频率是否在访问频率范围内；该访问频率范围与数据当前所处的第一数据存储集群的级别相对应；如果是，结束；如果否，执行步骤S508。

步骤S508，确定上述数据需要转存。

步骤S510，判断数据的访问频率与上述访问频率范围的关系；如果数据的访问频率低于该访问频率范围的下限值，执行步骤S512；如果数据的访问频率高于该访问频率范围的上限值，执行步骤S520；

步骤S512，确定数据的待转存的数据存储集群的级别；

如上述实施例所述，根据数据的访问频率以及各个级别的数据存储集群对应的访问频率范围可以确定当前确定数据待转存的数据存储集群的级别。

步骤S514，从预设的数据血缘关系中查找上述数据是否存在依赖数据；如果是，执行步骤S516；如果否，执行步骤S518；

该数据血缘关系可以由数据管理服务器记录在指定的文件中；该数据血缘关系记录了数据存储系统中，各个数据间的依赖与被依赖关系；这些关系可以由上传并保存数据的用户手动设置，也可以根据数据在计算时所使用的数据自动记录。例如，如果数据B的计算需要使用到数据A，则数据B依赖于数据A，数据B为依赖数据，数据A为被依赖数据；如果数据C的计算需要使用到数据B，则数据C依赖于数据B，数据C为依赖数据，数据B为被依赖数据。

步骤S516，判断该依赖数据所处的数据存储集群的级别是否低于或等于上述数据待转存的数据存储集群的级别；如果是，执行步骤S518；如果否，结束。

步骤S518，将数据转存至待转存的数据存储集群中，执行步骤S528。

图6所示为数据转存至较低级别的数据存储集群时，数据转存方式受数据血缘关系的影响示意图；例如，数据B依赖于A，如果该数据A需要转存至较低级别的数据存储集群，需要先查看数据B是否存储在该较低级别的数据存储集群或者比该较低级别的数据存储集群的级别更低的数据存储集群；如果是，则数据A可以转存至上述较低级别的数据存储集群；如果不是，则数据A转存至上述较低级别的数据存储集群后，处于较高级别的数据B在进行计算时，需要用到数据A，由于数据A在较低级别的数据存储集群，访问速度较慢，这会整体上拖慢数据B的计算访问速度，从而影响数据读取性能，因此，如果数据B处于较高级别的数据存储集群中，数据A则不适合转存至较低级别的数据存储集群中。而数据C由于没有依赖数据，则直接转存即可。

具体而言，如果数据A在高级别的数据存储集群中，数据A的依赖数据，即数据B在中级别的数据存储集群中，此时数据A可以转存至中级别的数据存储集群中；如果数据A在高级别的数据存储集群中，数据A的依赖数据，即数据B在低级别的数据存储集群中，此时数据A可以转存至中级别的数据存储集群，也可以转存至低级别的数据存储集群中。

步骤S520，确定数据的待转存的数据存储集群的级别；

步骤S522，从预设的数据血缘关系中查找上述数据是否存在被依赖数据；如果存在，执行步骤S524；如果不存在，执行步骤S526；

步骤S524，判断被依赖数据所处的数据存储集群的级别是否高于或等于上述数据待转存的数据存储集群的级别；如果是，执行步骤S526；如果否，执行步骤S528。

步骤S526，将数据转存至待转存的数据存储集群中。

图7所示为数据转存至较高级别的数据存储集群时，数据转存方式受数据血缘关系的影响示意图；例如，数据B依赖于A，如果该数据B需要转存至较高级别的数据存储集群，需要先查看数据A是否存储在该较高级别的数据存储集群或者比该较高级别的数据存储集群的级别更高的数据存储集群；如果是，则数据B可以转存至上述较高级别的数据存储集群；如果不是，则数据B转存至上述较高级别的数据存储集群后，处于较高级别的数据B在进行计算时，需要用到数据A，由于数据A在较低级别的数据存储集群，访问速度较慢，这会整体上拖慢数据B的计算访问速度，从而影响数据读取性能，因此，如果数据A处于较低级别的数据存储集群中，数据B则不适合转存至较高级别的数据存储集群中。数据C的转存方式同上所述，再次不在赘述。而数据A由于没有被依赖数据，直接转存即可。

具体而言，如果数据B在低级别的数据存储集群中，数据B的被依赖数据，即数据A在中级别的数据存储集群中，此时数据B可以转存至中级别的数据存储集群或这高级别的数据存储集群中；如果数据B在低级别的数据存储集群中，数据B的被依赖数据，即数据A在高级别的数据存储集群中，此时数据B只能转存至高级别的数据存储集群中。

上述基于数据血缘关系确定数据最终的转存测量的方式，可以避免用户获取高级别的数据存储集群中的数据时，被保存在较低级别的数据存储集群中具有血缘关系的数据拖慢计算访问速度的问题，从而提高数据存储系统的整体性能，提高数据访问速度。

步骤S528，获取数据转存后的存储路径；根据存储路径，更新元数据中数据的存储目录。

元数据中保存有各个数据的存储目录，也可以称为中介数据，可以描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。当数据转存后，及时更新元数据中数据的存储目录，当用户获取数据时，可以通过元数据查找到该数据；相对于现有技术中，当数据转存集群后，用户需要知道存储集群才可以查询到数据的方式，本实施例的数据存储方式对用户透明，可以提高用户获取数据的便捷性，从而提高用户的数据访问体验度。

图8所示为上述数据转存方法的整体流程架构图；该数据转存方法也可以成为数据智能调度方法，该方法的流程也可以由数据存储系统的数据管理服务器执行。该数据存储系统中包括高性能大数据hadoop集群A(相当于上述高级别的数据存储集群)、低性能大数据hadoop集群B(相当于上述中级别的数据存储集群)和性能更低的对象存储集群(相当于上述低级别的数据存储集群)。

当数据的访问热度上升时，数据需要从对象存储集群转存至集群B，或者从集群B转存至集群A，此时需要对该数据先进行解压处理，再对该数据转存，转存完毕后更新元数据。当数据的访问热度下降时，数据需要从集群A转存至集群B，或者从集群B转存至对象存储集群，此时需要对该数据先进行压缩和小文件合并处理，再对该数据转存，转存完毕后更新元数据。当数据向对象存储集群转存时，需要该数据或当前的数据存储系统能够支持对象存储方式。

在数据的转存、调度或访问的过程中，数据管理服务器还提供计算查询服务，由于数据的存储地址与元数据同步，因而用户可以透明地访问数据，无需事先知晓该数据的存储集群。数据管理服务器还提供计算调度引擎，在数据进行调度之前，需要预先为该调度任务划分计算资源，通过调度服务转存数据，便于计算资源的统一管理。另外，在数据转存之前，该数据管理服务器还会查询数据的血缘关系，根据血缘关系确定最终的数据转存策略。

需要说明的是，上述各方法实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对应于上述方法实施例，参见图9所示的一种数据转存装置的结构示意图，该装置设置于数据管理服务器；数据管理服务器连接多种级别的数据存储集群；该装置包括：

频率获取模块90，用于获取第一数据存储集群中数据的访问频率；

确定模块91，用于根据访问频率确定数据是否需要转存；

转存模块92，用于在确定需要转存的情况下，将数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群。

进一步地，上述确定模块还用于：判断访问频率是否在访问频率范围内；其中，访问频率范围与第一数据存储集群的级别对应；在访问频率不在访问频率范围内的情况下，确定数据需要转存。

进一步地，上述转存模块还用于：在访问频率低于访问频率范围的下限值的情况下，将数据转存至级别低于第一数据存储集群的级别的数据存储集群中；在访问频率高于访问频率范围的上限值的情况下，将数据转存至级别高于第一数据存储集群的级别的数据存储集群中。

进一步地，上述装置还包括：压缩模块，用于在数据为原始数据的情况下，对数据进行压缩处理，得到压缩后的数据；解压模块，用于在数据为压缩数据的情况下，对数据进行解压处理，得到解压后的数据。

进一步地，如果数据中包含多个文件，上述装置还包括：判断模块，用于判断数据的多个文件中是否存在文件数据量小于预设的数据量阈值的文件；合并模块，用于在存在的情况下，对文件数据量小于数据量阈值的文件进行合并处理，得到处理后的数据。

进一步地，上述转存模块还用于：确定数据的待转存的数据存储集群的级别；从预设的数据血缘关系中查找数据是否存在依赖数据；在存在依赖数据的情况下，判断依赖数据所处的数据存储集群的级别是否低于或等于待转存的数据存储集群的级别；在确定依赖数据所处的数据存储集群的级别低于或等于第一数据存储集群的级别的情况下，将数据转存至待转存的数据存储集群中。

进一步地，上述转存模块还用于：确定数据的待转存的数据存储集群的级别；从预设的数据血缘关系中查找数据是否存在被依赖数据；在存在依赖数据的情况下，判断被依赖数据所处的数据存储集群的级别是否高于或等于数据待转存的数据存储集群的级别；在被依赖数据所处的数据存储集群的级别高于或等于数据待转存的数据存储集群的级别的情况下，将数据转存至待转存的数据存储集群中。

进一步地，上述装置还包括：路径获取模块，用于获取数据转存后的存储路径；目录更新模块，用于根据存储路径，更新元数据中数据的存储目录。

本发明实施例提供的数据转存装置，获取到第一数据存储集群中数据的访问频率后，根据该访问频率确定数据是否需要转存；在确定需要转存的情况下，将该数据从第一数据存储集群转存至与访问频率相匹配的级别的数据存储集群。该方式依据数据的访问频率确定数据的转存策略，能够在降低大数据存储成本的同时，更加合理地分布存储数据，从而提高了大部分用户的数据访问体验度。

本实施例提供了一种与上述方法实施例相对应的数据管理服务器。图9为该数据管理服务器的结构示意图，如图10所示，该设备包括处理器101和存储器102；其中，存储器102用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述数据转存方法。

图10所示的数据管理服务器还包括总线103和转发芯片104，处理器101、转发芯片104和存储器102通过总线103连接。该数据管理服务器可以是网络边缘设备。

其中，存储器102可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

转发芯片104用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv6报文通过网络接口发送至用户终端。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器902，处理器901读取存储器902中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述数据转存方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的数据管理服务器，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

最后应说明的是：以上所述实施例，仅为本发明的具体实施例，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据转存方法，其特征在于，所述方法应用于数据管理服务器；所述方法包括：

获取第一数据存储集群中数据的访问频率；

根据所述访问频率确定所述数据是否需要转存；

在确定需要转存的情况下，将所述数据从所述第一数据存储集群转存至与所述访问频率相匹配的级别的数据存储集群。

2.根据权利要求1所述的方法，其特征在于，根据所述访问频率确定所述数据是否需要转存，包括：

判断所述访问频率是否在访问频率范围内；其中，所述访问频率范围与所述第一数据存储集群的级别对应；

在所述访问频率不在所述访问频率范围内的情况下，确定所述数据需要转存。

3.根据权利要求2所述的方法，其特征在于，将所述数据从所述第一数据存储集群转存至与所述访问频率相匹配的级别的数据存储集群，包括：

在所述访问频率低于所述访问频率范围的下限值的情况下，将所述数据转存至级别低于所述第一数据存储集群的级别的数据存储集群中；在所述访问频率高于所述访问频率范围的上限值的情况下，将所述数据转存至级别高于所述第一数据存储集群的级别的数据存储集群中。

4.根据权利要求3所述的方法，其特征在于，在将所述数据转存至低于所述第一数据存储集群的级别的数据存储集群中之前，所述方法还包括：在所述数据为原始数据的情况下，对所述数据进行压缩处理，得到压缩后的所述数据；

在将所述数据转存至高于所述第一数据存储集群的级别的数据存储集群中之前，所述方法包括：在所述数据为压缩数据的情况下，对所述数据进行解压处理，得到解压后的所述数据。

5.根据权利要求3所述的方法，其特征在于，如果所述数据中包含多个文件，将所述数据转存至级别低于所述第一数据存储集群的级别的数据存储集群中之前，所述方法还包括：

判断所述数据的多个所述文件中是否存在文件数据量小于预设的数据量阈值的文件；

在存在的情况下，对所述文件数据量小于所述数据量阈值的文件进行合并处理，得到处理后的所述数据。

6.根据权利要求3所述的方法，其特征在于，将所述数据转存至级别低于所述第一数据存储集群的级别的数据存储集群中，包括：

确定所述数据的待转存的数据存储集群的级别；

从预设的数据血缘关系中查找所述数据是否存在依赖数据；

在存在所述依赖数据的情况下，判断所述依赖数据所处的数据存储集群的级别是否低于或等于所述待转存的数据存储集群的级别；

在确定所述依赖数据所处的数据存储集群的级别低于或等于所述第一数据存储集群的级别的情况下，将所述数据转存至所述待转存的数据存储集群中。

7.根据权利要求3所述的方法，其特征在于，将所述数据转存至级别高于所述第一数据存储集群的级别的数据存储集群中，包括：

确定所述数据的待转存的数据存储集群的级别；

从预设的数据血缘关系中查找所述数据是否存在被依赖数据；

在存在所述依赖数据的情况下，判断所述被依赖数据所处的数据存储集群的级别是否高于或等于所述数据待转存的数据存储集群的级别；

在所述被依赖数据所处的数据存储集群的级别高于或等于所述数据待转存的数据存储集群的级别的情况下，将所述数据转存至所述待转存的数据存储集群中。

8.根据权利要求1所述的方法，其特征在于，在将所述数据从所述第一数据存储集群转存至与所述访问频率相匹配的级别的数据存储集群之后，所述方法还包括：

获取所述数据转存后的存储路径；

根据所述存储路径，更新元数据中所述数据的存储目录。

9.一种数据转存装置，其特征在于，所述装置设置于数据管理服务器；所述装置包括：

频率获取模块，用于获取第一数据存储集群中数据的访问频率；

确定模块，用于根据所述访问频率确定所述数据是否需要转存；

转存模块，用于在确定需要转存的情况下，将所述数据从所述第一数据存储集群转存至与所述访问频率相匹配的级别的数据存储集群。

10.根据权利要求9所述的装置，其特征在于，所述确定模块还用于：

11.根据权利要求10所述的装置，其特征在于，所述转存模块还用于：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

压缩模块，用于在所述数据为原始数据的情况下，对所述数据进行压缩处理，得到压缩后的所述数据；和/或，

解压模块，用于在所述数据为压缩数据的情况下，对所述数据进行解压处理，得到解压后的所述数据。

13.根据权利要求11所述的装置，其特征在于，如果所述数据中包含多个文件，所述装置还包括：

判断模块，用于判断所述数据的多个所述文件中是否存在文件数据量小于预设的数据量阈值的文件；

合并模块，用于在存在的情况下，对所述文件数据量小于所述数据量阈值的文件进行合并处理，得到处理后的所述数据。

14.根据权利要求11所述的装置，其特征在于，所述转存模块还用于：

确定所述数据的待转存的数据存储集群的级别；

从预设的数据血缘关系中查找所述数据是否存在依赖数据；

15.根据权利要求11所述的装置，其特征在于，所述转存模块还用于：

确定所述数据的待转存的数据存储集群的级别；

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：

路径获取模块，用于获取所述数据转存后的存储路径；

目录更新模块，用于根据所述存储路径，更新元数据中所述数据的存储目录。

17.一种数据管理服务器，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1至8任一项所述的方法。

18.一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1至8任一项所述的方法。