CN108363553A

CN108363553A - 一种数据处理方法、装置及系统

Info

Publication number: CN108363553A
Application number: CN201810098214.5A
Authority: CN
Inventors: 余登超
Original assignee: Beijing Lan Yun Technology Co Ltd
Current assignee: Beijing Lan Yun Technology Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2018-08-03

Abstract

本发明实施例公开了一种数据处理方法、装置及系统，如果服务器确定服务器自身为热服务器，包括：判断服务器自身是否存储有冷数据；如果服务器自身存储有冷数据，将冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过预设阈值的服务器。从本发明实施例可见，由于热服务器是具有较好数据读取性能的服务器，热服务器将自身中存储的冷数据迁移至了冷服务器，而只保留了热数据，因此使得自身中的热数据拥有了良好的数据读取性能，从而提高了数据读取性能，增强了用户体验。

Description

一种数据处理方法、装置及系统

技术领域

本发明涉及数据处理领域，尤其涉及一种数据处理方法、装置及系统。

背景技术

服务器集群是指由多个服务器组成并对外提供服务的集群，通常情况下，组成服务器集群的多台服务器之间的数据读取性能并不相同，有些服务器由于其中配置了固态硬盘(Solid State Drives，SSD)，因此数据读取性能较好，而有些服务器由于其中配置的是硬盘驱动器(Hard Disk Drive，HDD)盘，因此数据读取性能较差。

相关技术中，当服务器集群用作数据查询时，每台服务器都存储有近N天的数据(称为“热数据”)和N天前的数据(称为“冷数据”)。而当用户进行数据查询时，查询频率高的通常是热数据，而很少去查询冷数据。

但是，由于这些热数据和冷数据都是混合存储在各台服务器中的，一些数据读取性能较好的服务器中也存储有冷数据，因此无法完全发挥出优势，从而造成数据读取性能低下，用户体验不佳。

发明内容

为了解决上述技术问题，本发明提供一种数据处理方法，能够极大程度地提高数据读取性能，增强用户体验。

为了达到本发明目的，本发明提供了一种数据处理方法，如果服务器确定服务器自身为热服务器，包括：

判断服务器自身是否存储有冷数据；

如果服务器自身存储有冷数据，将冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过所述预设阈值的服务器。

述将冷数据迁移至冷服务器之前或之后，还包括：

接收所述冷服务器中热数据的迁移。

如果确定服务器自身为所述冷服务器，还包括：

判断服务器自身是否存储有热数据；

如果服务器自身存储有所述热数据，将所述热数据迁移至所述热服务器。

所述将热数据迁移至热服务器之前或之后，还包括：

接收所述热服务器中冷数据的迁移。

所述判断服务器自身是否存储有冷数据之前，还包括：

按照存储起始时间对服务器自身所存储的数据建立索引；

所述判断服务器自身是否存储有冷数据，包括：

根据所述索引判断是否存在存储起始时间到当前时间的时间段超过预设时间段的数据；

如果存在所述存储起始时间到当前时间的时间段超过预设时间段的数据，确定服务器自身存储有所述冷数据。

所述判断服务器自身是否存储有热数据，包括：

根据所述索引判断是否存在存储起始时间到当前时间的时间段未超过所述预设时间段的数据；

如果存在所述存储起始时间到当前时间的时间段未超过预设时间段的数据，确定服务器自身存储有所述热数据。

所述将冷数据迁移至冷服务器，包括：

获取存储所述冷数据需要的存储空间大小，并将获得的存储空间大小作为第一目标存储空间大小；

获取剩余存储空间大小不小于所述第一目标存储空间大小的冷服务器对应的标识信息，并将获得的标识信息作为第一待选择标识信息；

如果所述第一待选择标识信息的数量为多个，从所述第一待选择标识信息中选择一个标识信息，作为所述第一目标标识信息；

如果所述第一待选择标识信息的数量为一个，将所述第一待选择标识信息作为所述第一目标标识信息；

将所述冷数据迁移至与所述第一目标标识信息对应的冷服务器。

所述将热数据迁移至冷服务器，包括：

获取存储所述热数据需要的存储空间大小，并将获得的存储空间大小作为第二目标存储空间大小；

获取剩余存储空间大小不小于所述第二目标存储空间大小的热服务器对应的标识信息，并将获得的标识信息作为第二待选择标识信息；

如果所述第二待选择标识信息的数量为多个，从所述第二待选择标识信息中选择一个标识信息，作为所述第二目标标识信息；

如果所述第二待选择标识信息的数量为一个，将所述第二待选择标识信息作为所述第二目标标识信息；

将所述热数据迁移至与所述第二目标标识信息对应的热服务器。

本发明还提供了一种服务器，如果服务器确定服务器自身为热服务器，包括：

判断模块，判断服务器自身是否存储有冷数据；

处理模块，用于如果服务器自身存储有所述冷数据，将所述冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过所述预设阈值的服务器。

本发明还提供了一种数据处理系统，包括：至少一台热服务器以及至少一台冷服务器；其中，所述热服务器为数据读取性能超过预设阈值的服务器，所述冷服务器未数据读取性能未超过所述预设阈值的服务器。

与现有技术相比，本发明至少包括：如果服务器确定服务器自身为热服务器，判断服务器自身是否存储有冷数据；如果服务器自身存储有冷数据，将冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过预设阈值的服务器。从本发明提供的技术方案可见，由于热服务器是具有较好数据读取性能的服务器，热服务器将自身中存储的冷数据迁移至了冷服务器，而只保留了热数据，因此使得自身中的热数据拥有了良好的数据读取性能，从而提高了数据读取性能，增强了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的一种数据处理方法的流程示意图；

图2为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明实施例提供一种数据处理方法，如果服务器确定服务器自身为热服务，如图1所示，该方法包括：

步骤101、判断服务器自身是否存储有冷数据。

其中，冷数据为存储时间超过预设时间段的数据。

步骤102、如果服务器自身存储有冷数据，将冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过预设阈值的服务器。

具体的，服务器确定自身为热服务器还是为冷服务器可以通过自身上的标识信息进行判断，而自身上的标识信息是可以是维护人员通过测试服务器的读取性能后进行表示的信息。

本发明实施例所提供的数据处理方法，如果服务器确定服务器自身为热服务器，包括：判断服务器自身是否存储有冷数据；如果服务器自身存储有冷数据，将冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过预设阈值的服务器。从本发明提供的技术方案可见，由于热服务器是具有较好数据读取性能的服务器，热服务器将自身中存储的冷数据迁移至了冷服务器，而只保留了热数据，因此使得自身中的热数据拥有了良好的数据读取性能，从而提高了数据读取性能，增强了用户体验。

可选地，将冷数据迁移至冷服务器之前或之后，还包括：

接收冷服务器中热数据的迁移。

需要说明的是，当服务器确定服务器自身为热服务器时，可能是先发生冷数据的迁出，也可能是先发生热数据的迁入，本发明对此不作限定。

可选地，如果确定服务器自身为冷服务器，还包括：

判断服务器自身是否存储有热数据。

如果服务器自身存储有热数据，将热数据迁移至热服务器。

可选地，将热数据迁移至热服务器之前或之后，还包括：

接收热服务器中冷数据的迁移。

需要说明的是，当服务器确定服务器自身为冷服务器时，可能是先发生热数据的迁出，也可能是先发生冷数据的迁入，本发明对此不作限定。

可选地，判断服务器自身是否存储有冷数据之前，还包括：

按照存储起始时间对服务器自身所存储的数据建立索引。

判断服务器自身是否存储有冷数据，包括：

根据索引判断是否存在存储起始时间到当前时间的时间段超过预设时间段的数据。

如果存在存储起始时间到当前时间的时间段超过预设时间段的数据，确定服务器自身存储有冷数据。

可选地，判断服务器自身是否存储有热数据，包括：

根据索引判断是否存在存储起始时间到当前时间的时间段未超过预设时间段的数据。

如果存在存储起始时间到当前时间的时间段未超过预设时间段的数据，确定服务器自身存储有热数据。

可选地，将冷数据迁移至冷服务器，包括：

获取存储冷数据需要的存储空间大小，并将获得的存储空间大小作为第一目标存储空间大小。

获取剩余存储空间大小不小于第一目标存储空间大小的冷服务器对应的标识信息，并将获得的标识信息作为第一待选择标识信息。

如果第一待选择标识信息的数量为多个，从第一待选择标识信息中选择一个标识信息，作为第一目标标识信息。

如果第一待选择标识信息的数量为一个，将第一待选择标识信息作为第一目标标识信息。

将冷数据迁移至与第一目标标识信息对应的冷服务器。

具体的，第一待选择标识信息的数量可能是一个，也可能是多个，当第一待选择标识信息的数量为多个时，从多个第一待选择标识信息中选择一个标识信息，作为第一目标标识信息，当第一待选择标识信息的数量为一个时，将第一待选择标识信息作为第一目标标识信息。

可选地，将热数据迁移至冷服务器，包括：

获取存储热数据需要的存储空间大小，并将获得的存储空间大小作为第二目标存储空间大小。

获取剩余存储空间大小不小于第二目标存储空间大小的热服务器对应的标识信息，并将获得的标识信息作为第二待选择标识信息。

如果第二待选择标识信息的数量为多个，从第二待选择标识信息中选择一个标识信息，作为第二目标标识信息。

如果第二待选择标识信息的数量为一个，将第二待选择标识信息作为第二目标标识信息。

将热数据迁移至与第二目标标识信息对应的热服务器。

具体的，第二待选择标识信息的数量可能是一个，也可能是多个，当第二待选择标识信息的数量为多个时，从多个第二待选择标识信息中选择一个标识信息，作为第二目标标识信息，当第二待选择标识信息的数量为一个时，将第二待选择标识信息作为第一目标标识信息。

本发明实施例所提供的数据处理方法，如果服务器确定服务器自身为热服务器，包括：判断服务器自身是否存储有冷数据；如果服务器自身存储有冷数据，将冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过预设阈值的服务器；如果服务器确定服务器自身为冷服务器，包括：判断服务器自身是否存储有热数据；如果服务器自身存储有热数据，将热数据迁移至热服务器。从本发明提供的技术方案可见，由于热服务器是具有较好数据读取性能的服务器，冷服务器是具有较差数据读取性能的服务器，热服务器将自身中存储的冷数据迁移至了冷服务器，而只保留了热数据，冷服务器将自身中存储的热数据迁移至了热服务器，而只保留了冷数据，因此使得热服务器中的热数据拥有了良好的数据读取性能，从而提高了数据读取性能，增强了用户体验。

本发明实施例提供的数据处理方法可以应用于基于全文搜索引擎Lucene的搜索服务器ElasticSearch集群中，其中，ElasticSearch集群包括多台ElasticSearch，ElasticSearch支持全文检索、分布式实时搜索、实时分析，实时存储、满足一些列约束条件和原则的应用程序或设计的RESTful接口等特性。ElasticSearch作为数据的数据的存储部分，会对磁盘输入输出(Input/Output，IO)和磁盘空间有较高的要求。通常有以下几种方案：

方案A、存储都用HDD存储。

方案B、存储都用SSD存储。

方案C、HDD和SSD都使用。

针对方案A，HDD读写性能有限，无法提高ElasticSearch性能；针对方案B，由于SSD盘过于昂贵，当需要存储的数据量过大时，开销会很大；针对方案C，ElasticSearch没有很好的存储策略，数据读写时候，SSD的读取性能会被HDD拉下来，结果跟方案A的效果大致相同，因此很多场景部署的时候只会在方案A和方案B中选择。

而在实际生产环境中，针对ElasticSearch集群的查询大部分都是查询近N天的数据(热数据)，而很少去查询N天前的数据(冷数据)，而每台ElasticSearch中都存储有热数据和冷数据，因此对于配置了SSD的ElasticSearch来说，无法完全发挥数据访问功能。而使用本发明实施例提供的数据处理方法，能够将自动将热数据和冷数据分开存储，将热数据存储于读写性能较好的ElasticSearch(配置了SSD的)，而将冷数据存储于读写性能较差的ElasticSearch(配置了HDD)，这样一来，一方面热数据便有了比较好的IO，ElastciSearch集群的数据读写性能得到了提升，另一方面，也便于管理冷热数据，同时还能降低硬件成本。下面具体说明本发明实施例提供的数据处理方法在ElastciSearch集群中的应用：

首先要计算需要的SSD的大小，具体计算方式如下：

总SSD的存储大小>＝热数据的存储天数*每天数据量的大小+预设余量。其中，每天数据量的大小通过预估得到，预设余量为防止SSD上所存储的数据量太过饱和而设置的余量。

具体实现过程包括以下步骤：

步骤1、按照时间维度(存储的起始时间)对自身存储的数据建立索引，假设索引按天建立按天存储，那么一天存储的数据对应一个索引。

步骤2、根据总SSD的存储大小和各个配置有SSD的ElasticSearch的SSD的存储大小确定热服务器和冷服务器的个数，其中将确定的热服务器的属性(node.tag)设置为hot、将确定的冷服务器的属性设置为stale

步骤3、为每台ElasticSearch添加数据冷热分层策略，策略里包含热数据的保留天数(假设为N)。

需要说明的是，将数据冷热分层策略可以写入脚本，然后将写好的脚本添加在每台ElasticSearch中。

步骤4、添加系统定时调度任务

步骤5、定时任务触发，读取ElasticSearch数据冷人分层策略，发送RestFul请求到ElasticSearch集群，将(N-1)天前的数据移动到表示为stale的节点。ElastciSearch收到指令自动将(N-1)天前的数据移动到标识为stale节点的集群，热数据将在标识为hot的节点集群，也就实现了数据的冷热分层。

RestFul请求方式如下:

curl-XPUT"http://ESnode:9200/indexName/_settings'-d'{"index.routing.allocation.include.zone":"stale"}'

例子：

curl-XPUT"http://192.168.1.100:9200/test-2017-10-10/_settings'-d'{"index.routing.allocation.include.zone":"stale"}'

本发明实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述任一项数据处理方法。

本发明实施例还提供一种服务器，如果服务器确定服务器自身为热服务器，如图2所示，该服务器2包括：

判断模块21，判断服务器自身是否存储有冷数据。

处理模块22，用于如果服务器自身存储有所述冷数据，将所述冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过所述预设阈值的服务器。

可选地，还包括：接收模块23，用于接收冷服务器中的热数据的迁移。

可选地，如果确定服务器自身为所述冷服务器，判断模块21，还用于判断服务器自身是否存储有热数据。

处理模块22，还用于如果服务器自身存储有所述热数据，将所述热数据迁移至所述热服务器。

可选地，接收模块23，还用于接收所述热服务器中冷数据的迁移。

可选地，处理模块22，还用于按照存储起始时间对服务器自身所存储的数据建立索引。

判断模块21，具体用于：

根据所述索引判断是否存在存储起始时间到当前时间的时间段超过预设时间段的数据。

可选地，判断模块21，具体还用于：

根据所述索引判断是否存在存储起始时间到当前时间的时间段未超过所述预设时间段的数据。

可选地，处理模块22，具体用于：

获取存储所述冷数据需要的存储空间大小，并将获得的存储空间大小作为第一目标存储空间大小。

获取剩余存储空间大小不小于所述第一目标存储空间大小的冷服务器对应的标识信息，并将获得的标识信息作为第一待选择标识信息。

如果所述第一待选择标识信息的数量为多个，从所述第一待选择标识信息中选择一个标识信息，作为所述第一目标标识信息。

如果所述第一待选择标识信息的数量为一个，将所述第一待选择标识信息作为所述第一目标标识信息。

可选地，处理模块22，具体还用于：

获取存储所述热数据需要的存储空间大小，并将获得的存储空间大小作为第二目标存储空间大小。

获取剩余存储空间大小不小于所述第二目标存储空间大小的热服务器对应的标识信息，并将获得的标识信息作为第二待选择标识信息。

如果所述第二待选择标识信息的数量为多个，从所述第二待选择标识信息中选择一个标识信息，作为所述第二目标标识信息。

如果所述第二待选择标识信息的数量为一个，将所述第二待选择标识信息作为所述第二目标标识信息。

本发明实施例所提供的服务器，如果服务器确定服务器自身为热服务器，包括：判断服务器自身是否存储有冷数据；如果服务器自身存储有冷数据，将冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过预设阈值的服务器；如果服务器确定服务器自身为冷服务器，包括：判断服务器自身是否存储有热数据；如果服务器自身存储有热数据，将热数据迁移至热服务器。从本发明提供的技术方案可见，由于热服务器是具有较好数据读取性能的服务器，冷服务器是具有较差数据读取性能的服务器，热服务器将自身中存储的冷数据迁移至了冷服务器，而只保留了热数据，冷服务器将自身中存储的热数据迁移至了热服务器，而只保留了冷数据，因此使得热服务器中的热数据拥有了良好的数据读取性能，从而提高了数据读取性能，增强了用户体验。

在实际应用中，判断模块21、处理模块22和接收模块23均可由位于服务器中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field ProgrammableGate Array，FPGA)等实现。

本发明实施例还提供一种用于数据处理的装置，包括存储器和处理器，其中，如果服务器确定服务器为热服务器，存储器中存储有以下可被处理器执行的指令：

判断服务器是否存储有冷数据。

如果服务器存储有冷数据，将冷数据迁移至冷服务器；其中，热服务器为数据读取性能超过预设阈值的服务器，冷服务器为数据读取性能未超过预设阈值的服务器。

可选地，存储器中还存储有以下可被处理器执行的指令：

接收冷服务器中的热数据的迁移。

可选地，如果确定服务器自身为冷服务器，存储器中还存储有以下可被处理器执行的指令：

判断服务器是否存储有热数据。

如果服务器存储有热数据，将热数据迁移至热服务器。

可选地，存储器中还存储有以下可被处理器执行的指令：

接收热服务器中冷数据的迁移。

可选地，存储器中还存储有以下可被处理器执行的指令：

按照存储起始时间对服务器自身所存储的数据建立索引。

如果存在存储起始时间到当前时间的时间段超过预设时间段的数据，确定服务器存储有冷数据。

可选地，存储器中还具体存储有以下可被处理器执行的指令：

如果存在存储起始时间到当前时间的时间段未超过预设时间段的数据，确定服务器存储有热数据。

将冷数据迁移至与第一目标标识信息对应的冷服务器。

将热数据迁移至与第二目标标识信息对应的热服务器。

虽然本发明所揭露的实施方式如上，但的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种数据处理方法，其特征在于，如果服务器确定服务器自身为热服务器，包括：

判断服务器自身是否存储有冷数据；

2.根据权利要求1所述的数据处理方法，其特征在于，所述将冷数据迁移至冷服务器之前或之后，还包括：

接收所述冷服务器中热数据的迁移。

3.根据权利要求1所述的数据处理方法，其特征在于，如果确定服务器自身为所述冷服务器，还包括：

判断服务器自身是否存储有热数据；

4.根据权利要求3所述的数据处理方法，其特征在于，所述将热数据迁移至热服务器之前或之后，还包括：

接收所述热服务器中冷数据的迁移。

5.根据权利要求3所述的数据处理方法，其特征在于，所述判断服务器自身是否存储有冷数据之前，还包括：

按照存储起始时间对服务器自身所存储的数据建立索引；

所述判断服务器自身是否存储有冷数据，包括：

6.根据权利要求5所述数据处理方法，其特征在于，所述判断服务器自身是否存储有热数据，包括：

7.根据权利要求1所述的数据处理方法，其特征在于，所述将冷数据迁移至冷服务器，包括：

8.根据权利要求3所述的数据处理方法，其特征在于，所述将热数据迁移至冷服务器，包括：

9.一种服务器，其特征在于，如果服务器确定服务器自身为热服务器，包括：

判断模块，判断服务器自身是否存储有冷数据；

10.一种数据处理系统，其特征在于，包括：至少一台热服务器以及至少一台冷服务器；其中，所述热服务器为数据读取性能超过预设阈值的服务器，所述冷服务器未数据读取性能未超过所述预设阈值的服务器。