CN112988884B

CN112988884B - 大数据平台数据存储方法及装置

Info

Publication number: CN112988884B
Application number: CN201911301253.1A
Authority: CN
Inventors: 秦静; 高芳; 费菲; 张赛奇; 宋公良; 胡治西
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2024-04-12
Anticipated expiration: 2039-12-17
Also published as: CN112988884A

Abstract

本发明公开了一种大数据平台数据存储方法及装置，其中，方法包括：根据触发的对数据文件的冷热状态检测请求，获取数据文件的原冷热状态；对数据文件进行检测，获取数据文件的新冷热状态；将数据文件的原冷热状态与数据文件的新冷热状态进行比较，若数据文件的原冷热状态与数据文件的新冷热状态不一致，基于预先训练得到的决策树模型，判断是否对数据文件触发冷热状态转换；决策树模型以转换成本、写入成本及存储收益为依据进行判断；若是，则将数据文件进行冷热转换，更新数据文件的原冷热状态，并根据更新后的冷热状态更改数据文件的存储方式。本发明灵活的对数据文件进行冷热状态转换，更好地提升大数据平台数据存储效率。

Description

大数据平台数据存储方法及装置

技术领域

本发明涉及计算机应用领域，具体涉及一种大数据平台数据存储方法及装置。

背景技术

大数据平台在存储数据时，由于数据量较大，需要对其提升存储效率。现有技术方案中，存储厂商提出的采用存储厂商所提供的存储设备，统一采用纠删码方式来存储数据。通过存储设备内部集成各种磁盘阵列，IB(InfiniBand)网络，缓存优化等机制，提升存储设备的整体吞吐量。基于存储设备的硬件，储存厂商的方案包括以下两类：

1、将基于纠删码的存储设备，作为HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)的外接存储，存储HDFS中的冷数据。该方案基于现有的大数据平台，侵入性小，通过外挂的方式接入，为大数据平台提供扩展存储能力。但是该方案因为需要专门的存储设备，并且存储设备的管理和大数据平台本身的管理分开，难以进行整体的统筹和分配。且当大数据平台中的数据放置到存储设备后，要再利用大数据平台的计算能力进行数据计算时，又存在数据的导入问题，影响了数据获取的及时性，拖慢了数据处理的整体时间。

2、直接替代HDFS，作为大数据生态体系中的分布式存储基础，该方案可以从整体上提升大数据平台的存储效率，并且不影响数据处理的效率。但该方案对现有的大数据平台带来了很大的冲击性，大数据平台上的各种数据处理框架均需进行重构才能适配这种专门的存储设备的硬件。且专门的存储设备造成存储和计算分离，违背大数据存储计算集成、计算本地化调度的设计初衷。为了弥补这种不足，存储厂商通过在存储内部又集成新的大数据计算框架。但这样处理又带来了大数据组件后续升级、扩展等问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的大数据平台数据存储方法及装置。

根据本发明的一个方面，提供了一种大数据平台数据存储方法，其包括：

根据触发的对数据文件的冷热状态检测请求，获取数据文件的原冷热状态；

对数据文件进行检测，获取数据文件的新冷热状态；

将数据文件的原冷热状态与数据文件的新冷热状态进行比较，若数据文件的原冷热状态与数据文件的新冷热状态不一致，基于预先训练得到的决策树模型，判断是否对数据文件触发冷热状态转换；决策树模型以转换成本、写入成本及存储收益为依据进行判断；

若是，则将数据文件进行冷热转换，更新数据文件的原冷热状态，并根据更新后的冷热状态更改数据文件的存储方式。

根据本发明的另一方面，提供了一种大数据平台数据存储装置，其包括：

第一获取模块，适于根据触发的对数据文件的冷热状态检测请求，获取数据文件的原冷热状态；

第二获取模块，适于对、数据文件进行检测，获取、数据文件的新冷热状态；

比较模块，适于将、数据文件的原冷热状态与、数据文件的新冷热状态进行比较；

判断模块，适于若、比较模块比较数据文件的原冷热状态与数据文件的新冷热状态不一致，基于预先训练得到的决策树模型，判断是否对、数据文件触发冷热状态转换；、决策树模型以转换成本、写入成本及存储收益为依据进行判断；

转换模块，适于若、判断模块判断对、数据文件触发冷热状态转换，将、数据文件进行冷热转换，更新、数据文件的原冷热状态，并根据更新后的冷热状态更改、数据文件的存储方式。

根据本发明的又一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述大数据平台数据存储方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述大数据平台数据存储方法对应的操作。

根据本发明的大数据平台数据存储方法及装置，根据触发的对数据文件的冷热状态检测请求，获取数据文件的原冷热状态；对数据文件进行检测，获取数据文件的新冷热状态；将数据文件的原冷热状态与数据文件的新冷热状态进行比较，若数据文件的原冷热状态与数据文件的新冷热状态不一致，基于预先训练得到的决策树模型，判断是否对数据文件触发冷热状态转换；决策树模型以转换成本、写入成本及存储收益为依据进行判断；若是，则将数据文件进行冷热转换，更新数据文件的原冷热状态，并根据更新后的冷热状态更改数据文件的存储方式。通过利用决策树模型，以转换成本、写入成本及存储收益为依据，基于数据文件本身进行判断，可以灵活的对数据文件进行冷热状态转换，避免单一的存储方式，更好地提升大数据平台数据存储效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的大数据平台数据存储方法的流程图；

图2示出了根据本发明一个实施例的大数据平台数据存储装置的功能框图；

图3示出了根据本发明一个实施例的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的大数据平台数据存储方法的流程图。如图1所示，大数据平台数据存储方法具体包括如下步骤：

步骤S101，根据触发的对数据文件的冷热状态检测请求，获取数据文件的原冷热状态。

本实施例是基于HDFS(Hadoop Distributed File System)分布式文件系统的大数据平台。其中，HDFS是Hadoop分布式系统基础架构中自带的、基于Java的分布式文件系统。其支持在Hadoop集群中的多个节点上存储大量数据。在HDFS中，每个服务器称之为一个节点。所有的节点分为两类，名字节点和数据节点。普通模式下HDFS集群有一个名字节点和多个数据节点，高可用模式下HDFS集群有两个名字节点和多个数据节点。内部机制是将一个文件分割成一个或多个块，这些块被存储在一组数据节点中。名字节点用来操作文件命名空间的文件或目录操作，如打开、关闭、重命名等等。它同时确定块与数据节点的映射。数据节点负责来自文件系统客户的读写请求。数据节点同时还要执行块的创建、删除，和来自名字节点的块复制指令。

相较于传统存储系统，HDFS具有如下优势：

高可靠性：体现在多副本机制、机架感知能力、主节点高可用功能；

高性能：体现在MapReduce集群协助处理、多磁盘高吞吐率；

弹性伸缩：支持在线增减节点；

低成本：使用廉价商业设备即可；

易开发：提供了现成的MapReduce计算框架用于程序开发；

大数据平台数据处理框架包含两部分：计算资源管理框架和计算引擎。大数据平台上的资源管理框架，目前以YARN(Yet Another Resource Negotiator，另一种资源协调者)为主，计算引擎主要有MapReduce，Spark等。

YARN是Hadoop 2.0中的计算资源管理系统，它主要由ResourceManager资源管理者、NodeManager节点管理者、ApplicationMaster应用管理者和Container容器服务构成。ResourceManager负责集群统一的资源管理、调度、分配，普通模式只有一个ResourceManager，高可用模式则有一主一备两个ResourceManager。NodeManager在整个集群中有多个，负责每个节点上的资源管理。ApplicationMaster管理YARN中运行的应用程序的每个实例。Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU等。YARN会为每个任务分配一个Container，且该任务只能使用该Container中描述的资源。目前为止，YARN支持CPU和内存两种资源，且使用了轻量级资源隔离机制Cgroups(Control Groups，控制组群)进行资源隔离。

计算引擎MapReduce通过将计算任务分解为Map(映射)，Reduce(归约)和Shuffle(洗牌、发牌)三个部分，其中Map会尽量被调度到数据所在的本地机器上运行，从而减少数据在网络上的传输。经过Map处理过的数据，再通过Shuffle进行节点间传递，然后把跨节点的数据再进行Reduce来获取最终结果。

计算引擎Spark，通过将数据抽象成RDD(Resilient Distributed DataSet，弹性分布式数据集)，然后对RDD进行一系列的算子操作，来实现数据的处理过程。对RDD操作的算子，组成了一个DAG(Directed Acyclic Graph，有向无环图)，通过DAG将算子串接，形成处理逻辑。Spark通过DAG，可以进行构建复杂的处理逻辑，而且整个处理过程通过对内存的有效使用，大大降低了读写磁盘的需求，从而对数据处理的性能带来了质的提升。

本实施例中HDFS具备纠删码能力。纠删码技术主要是通过纠删码算法将数据文件中原始的数据进行编码得到冗余，并将数据和冗余一并存储起来，以达到容错的目的。其基本思想是将数据文件中m块数据块通过一定的计算，得到n块恢复块(冗余)。对于这m+n块的数据文件，当其中任意的i块出错(包括数据块和恢复块)时，均可以通过对应的重构算法恢复出原来的m块数据文件。生成校验的过程被成为编码(encoding)，恢复丢失数据块的过程被称为解码(decoding)。HDFS在3.0版本引入了纠删码技术，为数据存储提供了三副本存储方式之外的第二选择。HDFS的纠删码技术，采用了两种编码技术：RS和XOR，其中的RS编码支持如RS-10-4-1024K，RS-6-3-1024K，RS-3-2-1024K，RS-Legacy-6-3-1024K；XOR编码支持如XOR-2-1-1024K。其中的RS、XOR表示编码方式，10-4-1024K中，10是一起编码的数据块个数，4表示恢复块个数，1024K表示单位存储块的大小为1024KB。相较于三副本存储方式，纠删码存储方式可以为HDSF带来将近50％的理论效率提升，及更高的数据可靠性保证。但是同时也需要付出更多的计算，对CPU、网络、内存、磁盘I/O等消耗。

考虑以上问题，为更好的提升大数据平台的存储能力，本实施例对大数据平台已存储的数据文件进行冷热状态判断，确定数据文件的原冷热状态。冷状态数据文件为冷数据文件；热状态数据文件为热数据文件。在判断时根据对数据文件的访问频率、访问方式和/或数据业务特性进行冷热状态判断。具体的，如依赖于数据业务特性，通过对数据文件的业务的判断来确定。以话单查询为例，当月的数据文件查询比较频繁，之后对该数据文件的查询会较少，将当月的数据文件定义为热数据文件，与当月时间超过一个月的数据文件定义为冷数据文件。即根据业务的时效性来进行冷热状态判断。对于一些在业务上没有明确冷热区分的数据文件，还可以根据数据的访问频率、访问方式等访问特征来进行判断。以数据文件的写入频率为例，在预设时间段内，如写入次数少于XX次的数据文件，判断为冷数据文件，否则为热数据文件。在确定数据文件为冷数据文件或热数据文件后，将冷数据文件以纠删码方式存储，将热数据文件以三副本方式存储。

此处，对数据文件的冷热状态进行判断可以通过灵活配置来达成，针对每一种数据文件，数据文件的时效性由数据文件本身的业务价值来决定，其可以通过配置规则来实现。对于频繁访问，以写为主的数据文件，更倾向于按照热状态数据文件来处理。对于访问频率低，以只读为主的数据文件，更倾向于按照冷数据文件来处理。以上基于数据业务特性的判断和访问频率、访问方式的判断可以任选其一，也可以同时生效，优选地，同时利用以上多种方式进行判断。

此处，冷热状态检测请求可以为根据接收的待写入的数据触发的，如当需要有新的数据待写入时，根据待写入的数据所要写入的数据文件，对该数据文件触发冷热状态检测请求。或者，还可以根据实际执行情况，预设时间内触发对数据文件的冷热状态检测请求。如预设时间为一个月，一个月一次触发对数据文件的冷热状态检测请求，如某话单查询对应的数据文件，其在当月检测的原冷热状态为热状态，在一个月后，该数据文件的冷热状态有可能发生改变，触发对数据文件的冷热状态检测请求，以获取数据文件的原冷热状态。若其转换为冷状态数据文件，也可以对其改变存储方式，以节省存储空间等。

步骤S102，对数据文件进行检测，获取数据文件的新冷热状态。

在触发对数据文件的冷热状态检测请求后，对数据文件进行检测，获取数据文件的新冷热状态。此时，对数据文件的新冷热状态检测可以根据步骤S101的冷热状态检测方式进行检测，也可以根据待写入数据更新数据文件的新冷热状态。如当该数据文件的原冷热状态为冷状态时，当需要向其写入数据时，可能会导致其访问方式、访问频率等发生改变，从而需要改变其原冷热状态，重新确定新冷热状态。

步骤S103，将数据文件的原冷热状态与数据文件的新冷热状态进行比较，判断是否一致。

在得到数据文件的原冷热状态与数据文件的新冷热状态后，将数据文件的原冷热状态与数据文件的新冷热状态进行比较，若两者一致，则无需对其进行处理。若两者不一致，则执行步骤S104。

步骤S104，基于预先训练得到的决策树模型，判断是否对数据文件触发冷热状态转换。

决策树模型以转换成本、写入成本及存储收益为依据，基于数据文件本身进行判断，以判断是否对数据文件触发冷热状态转换。

对决策树模型的训练过程包括：获取训练数据样本以及训练数据结果，构成训练数据集；训练数据样本包括数个数据文件的转换成本、写入成本及存储收益；训练数据结果包括转换或不转换。将训练数据集输入至待训练的决策树模型中进行训练，得到经训练的决策树模型。

其中，训练数据集为D＝{(D1_T，D1_W，D1_P，true)，(D2_T，D2_W，D2_P，false)，…(Dx_T，Dx_W，Dx_P，训练数据结果)}，其中，Dx_T为第x个训练数据样本的转换成本，Dx_W为第x个训练数据样本的写入成本，Dx_P为第x个训练数据样本的存储收益。训练数据结果为true时，对数据文件触发冷热状态转换，训练数据结果为false时，不对数据文件触发冷热状态转换。具体训练过程可参考现有决策树的训练过程，此处不做展开说明。

在本实施例中，根据数据文件的基础信息进行计算，可以得到数据文件的转换成本、写入成本及存储收益。其中，当数据文件分别以不同方式存储时，以y为数据文件的大小，其单位可以为如MB。m为纠删码编码格式中数据块个数，n为纠删码编码格式中恢复块个数，b为纠删码编码格式中单位存储文件块大小，b的单位可以为如MB；如纠删码编码格式采用RS-m-n-b的编码格式。

数据文件基于三幅本的存储，存储空间消耗为：3y。

数据文件基于纠删码的存储，存储空间消耗为：y(m+n)/m。

数据文件存储收益应为三幅本存储方式的存储空间消耗减去纠删码存储方式的存储空间消耗，即存储收益D_P＝2y-ny/m。

当数据文件进行冷热转换时，数据文件转换消耗的资源成本即转换成本，转换成本D_T＝y(m+n)/m+(m+n)b。此处，数据文件转换消耗的资源成本包括了大数据平台各集群当前运行所使用的各种资源，如CPU、内存、网络、磁盘I/O等。以内存为例进行说明，但相对应的CPU，网络和磁盘I/O的消耗，也都是等比例的。

对数据文件在进行冷热转换后，其若还有写操作，一次写操作的资源消耗成本，即写入成本应为m+n，在一段时间内，写z次的写入成本D_W＝z(m+n)。z为需写入操作的次数。

将数据文件的转换成本、写入成本及存储收益输入预先训练得到的决策树模型中，判断是否对数据文件触发冷热状态转换。决策树模型中对数据文件进行冷热状态转换的判断，基于计算数据文件转换的转换成本、写入成本和存储收益，若存储收益大于转换成本、写入成本，则决策树模型判断触发数据文件冷热状态转换。通过以上的转换成本、写入成本和存储收益的综合判断，可以保障数据文件的转换为大数据平台换取存储空间的节约或提升数据文件的访问效率等。

若判断决策树模型判断对数据文件触发冷热状态转换，执行步骤S105，否则，不对数据文件进行冷热状态转换。

步骤S105，将数据文件进行冷热转换，更新数据文件的原冷热状态，并根据更新后的冷热状态更改数据文件的存储方式。

为保障数据文件的转换不影响大数据平台的正常运行，本实施例还收集了大数据平台各集群当前运行所使用的资源使用数据。资源使用数据包括CPU使用数据、内存使用数据、网络使用数据及磁盘I/O使用数据。基于资源使用数据及数据文件的转换成本确定对数据文件的转换时间。具体的，对大数据平台各集群业务每天的运行情况信息进行收集，给出集群在一个周期内运行的各种资源使用情况的变化趋势，得到资源使用情况的变化曲线。从中选择资源使用率低于预设特定值，并且持续时间大于预设时间段的窗口，将该窗口时间设置为转换时间。在到达这个窗口的转换时间内将数据文件进行冷热转换，更新数据文件的原冷热状态为新冷热状态，并根据更新后的冷热状态更改数据文件的存储方式。如数据文件原冷热状态为热状态，新冷热状态为冷状态，将数据文件由三副本存储方式更改为纠删码存储方式，利用集群的闲置计算资源来换取存储空间的节约。或者，数据文件原冷热状态为冷状态，新冷热状态为热状态，将数据文件由纠删码存储方式三副本存储方式更改为三副本存储方式，保障数据文件稳定、高效、可靠的数据随机访问能力。

以上数据文件的冷热转换的执行过程和结果对数据文件的正常访问和使用保持透明，数据文件的转换采用后台程序，按照设定的规则，在合适的转换时间启动对数据文件的冷热转换，整个转换过程结束后，将转换前后的数据文件存放路径、命名等保持一致，确保转换前后对客户端无影响。

进一步，以上实施例中的数据文件为以文件夹为单位存储的至少一个数据文件，其可以以文件夹为单位，整体进行冷热转换，也可以是针对一个具体的数据文件，进行冷热转换，此处不做限定。

根据本发明提供的大数据平台数据存储方法，根据触发的对数据文件的冷热状态检测请求，获取数据文件的原冷热状态；对数据文件进行检测，获取数据文件的新冷热状态；将数据文件的原冷热状态与数据文件的新冷热状态进行比较，若数据文件的原冷热状态与数据文件的新冷热状态不一致，基于预先训练得到的决策树模型，判断是否对数据文件触发冷热状态转换；若是，则将数据文件进行冷热转换，更新数据文件的原冷热状态，并根据更新后的冷热状态更改数据文件的存储方式。通过利用决策树模型，以转换成本、写入成本及存储收益为依据，基于数据文件本身进行判断，可以灵活的对数据文件进行冷热状态转换，避免单一的存储方式，更好地提升大数据平台数据存储效率。大数据平台各集群当前运行所使用的资源使用数据，包括：CPU，内存，网络和磁盘I/O，通过这些资源使用数据来确认集群中是否有闲散的资源用来进行数据文件的冷热转换。数据文件的访问频率、访问方式、时效性等确认了数据文件转换前和转换后带来的收益。转换数据文件所要付出的代价，包括数据文件转换带来的CPU，内存，网络和磁盘I/O的消耗，确认数据文件转换的成本，通过以上综合判断，在确保数据文件转换不影响大数据平台正常业务的前提下，给出数据文件转换的决策，高效提升大数据平台的存储效率。考虑到由于纠删码存储方式本身的技术特点，其需要消耗一定的计算资源。本发明合理利用纠删码存储方式和三副本存储方式并存，纠删码存储方式用于存储冷数据文件，三副本存储方式用于存储热数据文件，使得在大数据平台中，更好地将纠删码技术应用于实践中，发挥其提升存储效率的优势，又消除了由于文件存储转换，故障恢复带来的影响。

图2示出了根据本发明一个实施例的大数据平台数据存储装置的功能框图。如图2所示，大数据平台数据存储装置包括如下模块：

第一获取模块210，适于根据触发的对数据文件的冷热状态检测请求，获取数据文件的原冷热状态；

第二获取模块220，适于对数据文件进行检测，获取数据文件的新冷热状态；

比较模块230，适于将数据文件的原冷热状态与数据文件的新冷热状态进行比较；

判断模块240，适于若比较模块230比较数据文件的原冷热状态与数据文件的新冷热状态不一致，基于预先训练得到的决策树模型，判断是否对数据文件触发冷热状态转换；决策树模型以转换成本、写入成本及存储收益为依据进行判断；

转换模块250，适于若判断模块240判断对数据文件触发冷热状态转换，将数据文件进行冷热转换，更新数据文件的原冷热状态，并根据更新后的冷热状态更改数据文件的存储方式。

可选地，装置还包括：

预判断模块260，适于对大数据平台已存储的数据文件进行冷热状态判断，确定数据文件的原冷热状态；冷状态数据文件为冷数据文件；热状态数据文件为热数据文件；其中，根据对数据文件的访问频率、访问方式和/或数据业务特性进行冷热状态判断；将冷数据文件以纠删码方式存储，将热数据文件以三副本方式存储。

可选地，判断模块240进一步适于：

根据数据文件的基础信息进行计算，得到数据文件的转换成本、写入成本及存储收益；其中，转换成本DT＝y(m+n)/m+(m+n)b；写入成本DW＝z(m+n)；存储收益DP＝2y-ny/m；

y为数据文件的大小；m为纠删码编码格式中数据块个数，n为纠删码编码格式中恢复块个数，b为纠删码编码格式中单位存储文件块大小；z为需写入操作的次数；三幅本存储方式的存储空间消耗为3y，纠删码存储方式的存储空间消耗为y(m+n)/m，存储收益为三幅本存储方式的存储空间消耗减去纠删码存储方式的存储空间消耗；

将数据文件的转换成本、写入成本及存储收益输入预先训练得到的决策树模型中，判断是否对数据文件触发冷热状态转换。

可选地，装置还包括：

训练模块270，适于获取训练数据样本以及训练数据结果，构成训练数据集；训练数据样本包括数个数据文件的转换成本、写入成本及存储收益；训练数据结果包括转换或不转换；将训练数据集输入至待训练的决策树模型中进行训练，得到经训练的决策树模型。

可选地，转换模块250进一步适于：收集大数据平台各集群当前运行所使用的资源使用数据；资源使用数据包括CPU使用数据、内存使用数据、网络使用数据及磁盘I/O使用数据；基于资源使用数据及数据文件的转换成本确定对数据文件的转换时间；当到达转换时间，将数据文件进行冷热转换。

可选地，第一获取模块210进一步适于：根据接收的待写入的数据触发的对数据文件的冷热状态检测请求。

以上各模块的描述参照方法实施例中对应的描述，在此不再赘述。

本申请还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的大数据平台数据存储方法。

图3示出了根据本发明一个实施例的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图3所示，该电子设备可以包括：处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。

其中：

处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。

通信接口304，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器302，用于执行程序310，具体可以执行上述大数据平台数据存储方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器306，用于存放程序310。存储器306可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行上述任意方法实施例中的大数据平台数据存储方法。程序310中各步骤的具体实现可以参见上述大数据平台数据存储实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的大数据平台数据存储装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种大数据平台数据存储方法，其特征在于，方法包括：

对所述数据文件进行检测，获取所述数据文件的新冷热状态；

将所述数据文件的原冷热状态与所述数据文件的新冷热状态进行比较，若所述数据文件的原冷热状态与所述数据文件的新冷热状态不一致，基于预先训练得到的决策树模型，判断是否对所述数据文件触发冷热状态转换；所述决策树模型以转换成本、写入成本及存储收益为依据进行判断；

若是，则将所述数据文件进行冷热转换，更新所述数据文件的原冷热状态，并根据更新后的冷热状态更改所述数据文件的存储方式；

所述基于预先训练得到的决策树模型，判断是否对所述数据文件触发冷热状态转换进一步包括：

根据所述数据文件的基础信息进行计算，得到所述数据文件的转换成本、写入成本及存储收益；其中，转换成本D_T＝y(m+n)/m+(m+n)b；写入成本D_W＝z(m+n)；存储收益D_P＝2y-ny/m；

y为数据文件的大小；m为纠删码编码格式中数据块个数，n为纠删码编码格式中恢复块个数，b为纠删码编码格式中单位存储文件块大小；z为需写入操作的次数；三副本存储方式的存储空间消耗为3y，纠删码存储方式的存储空间消耗为y(m+n)/m，存储收益为三副本存储方式的存储空间消耗减去纠删码存储方式的存储空间消耗；

将所述数据文件的转换成本、写入成本及存储收益输入预先训练得到的决策树模型中，判断是否对所述数据文件触发冷热状态转换。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对大数据平台已存储的数据文件进行冷热状态判断，确定数据文件的原冷热状态；冷状态数据文件为冷数据文件；热状态数据文件为热数据文件；其中，根据对数据文件的访问频率、访问方式和/或数据业务特性进行冷热状态判断；

将所述冷数据文件以纠删码方式存储，将所述热数据文件以三副本方式存储。

3.根据权利要求1所述的方法，其特征在于，对决策树模型的训练过程包括：

获取训练数据样本以及训练数据结果，构成训练数据集；所述训练数据样本包括数个数据文件的转换成本、写入成本及存储收益；所述训练数据结果包括转换或不转换；

将所述训练数据集输入至待训练的决策树模型中进行训练，得到经训练的决策树模型。

4.根据权利要求1所述的方法，其特征在于，所述将所述数据文件进行冷热转换进一步包括：

收集大数据平台各集群当前运行所使用的资源使用数据；所述资源使用数据包括CPU使用数据、内存使用数据、网络使用数据及磁盘I/O使用数据；

基于所述资源使用数据及所述数据文件的转换成本确定对所述数据文件的转换时间；

当到达所述转换时间，将所述数据文件进行冷热转换。

5.根据权利要求1所述的方法，其特征在于，所述根据触发对数据文件的冷热状态检测请求进一步包括：

根据接收的待写入的数据触发的对数据文件的冷热状态检测请求。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述数据文件为以文件夹为单位存储的至少一个数据文件。

7.一种大数据平台数据存储装置，其特征在于，装置包括：

第二获取模块，适于对所述数据文件进行检测，获取所述数据文件的新冷热状态；

比较模块，适于将所述数据文件的原冷热状态与所述数据文件的新冷热状态进行比较；

判断模块，适于若所述比较模块比较数据文件的原冷热状态与数据文件的新冷热状态不一致，基于预先训练得到的决策树模型，判断是否对所述数据文件触发冷热状态转换；所述决策树模型以转换成本、写入成本及存储收益为依据进行判断；

转换模块，适于若所述判断模块判断对所述数据文件触发冷热状态转换，将所述数据文件进行冷热转换，更新所述数据文件的原冷热状态，并根据更新后的冷热状态更改所述数据文件的存储方式；

所述判断模块进一步适于：

8.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的大数据平台数据存储方法对应的操作。

9.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-6中任一项所述的大数据平台数据存储方法对应的操作。